第五章《数据降维:深入理解 PCA 的来龙去脉》笔记

主成分分析(Principal Component Analysis,PCA) 就是机器学习中一种常用且有效的数据降维方法。

5.1 PCA是什么

PCA 将相关性高的变量转变为较少的独立新变量,实现用较少的综合指标分别代表存在于 各个变量中的各类信息,既减少高维数据的变量维度,又尽量降低原变量数据包含信息的损失程度,是一种典型的数据降维方法。PCA 保留了高维数据最重要的一部分特征,去除了数据集 中的噪声和不重要特征,这种方法在承受一定范围内的信息损失的情况下节省了大量时间和资源,是一种应用广泛的数据预处理方法。

5.2 用一个例子来理解PCA过程

经过零均值化的数据预处理后,我们就可以正式开启 PCA 过程了,步骤如下。

(1)计算协方差矩阵。

(2)计算特征值与特征向量。

(3)矩阵相乘实现降维。

从上述 PCA 降维的实际过程来看,对某个矩阵 A(m×n)降维实际上就是寻找对应的降维矩阵 P(k×m)。

5.3 如何寻找降维矩阵P

5.4 PCA降维的核心思想

5.4.1 核心思想一:基变换向量投影

要实现原始数据降维就是要将矩阵 A 中每个列向量的维度或 者行数合理地降低。要实现高维向量降维,一个常见的方法就是高维向量向低维空间投影。

向量 a 与向量 b 的内积结果就等于向量 a 在向量 b 方向上的投影长度 |a|cosθ。这就是向量内积的几何定义。

矩阵相乘的几何意义就是,两个矩阵相乘的结果是将右边矩阵中的每一个列向量变换 到以左边矩阵中每一个行向量为基底所表示的空间中。

5.4.2 核心思想二:协方差归零投影

既然数据降维的起因是高维数据的维度之间存在较高的相关性导致数据信息存在冗余,那 么数据降维的一个核心思想自然就是,数据降维后的维度之间尽可能相对独立,也就是降维之 后的数据维度之间的协方差为 0。

(1)什么是方差。

方差和标准差是最常用的度量一组数据分散程度的指标。对于一组含有 n 个样本的集合, 我们容易知道以下公式。

(2)协方差。

协方差度量的是维度和维度之间的关系。假设两组数据分别是 x 和 y,那么这两组数据的协方差为

(3)协方差矩阵。

多维数据就需要多次计算协方差,也就是将多维数据中的维度数据两两计算协方差。协方差矩阵就是度量维度和维度之间关系的矩阵。

所以,我们降维之后希望各个维度之间相互独立,也就是希望降维之后不同维度之间的协方差为 0,同样也就是希望上面的协方差矩阵除了主对角线之外的部分都为 0。

5.4.3 核心思想三:最大方差投影

这种投影数据点的分散实际上就是要求原始数据矩阵降维处理之后的新矩阵的维度的方差 尽可能大,也就是降维之后矩阵的协方差矩阵的对角线元素尽可能大。我们可以将这种降维投 影的要求称为“最大方差投影”。

5.4.4 PCA降维的关键:协方差矩阵对角化

降维之后新矩阵 Y 的协方差矩阵 Cy 的非主对角线元素尽可能为 0, 而主对角线元素尽可能大。满足上述要求的矩阵是一个对角矩阵,所以降维的实质就是要求降 维之后的新矩阵 Y 的协方差矩阵 Cy 是对角矩阵。

5.5 面向零基础读者详解PCA降维

5.5.1 计算矩阵Y的协方差矩阵Cy

1.为什么计算协方差矩阵

这是因为矩阵 Y 的协方差矩阵 Cy 的主对角线元素是降维后新维度的方差,非主对角线元素 是降维后各新维度的协方差。而 PCA 降维的核心思想就是“协方差归零投影”和“最大方差投 影”,也就是希望降维之后得到的新矩阵 Y 的各维度间的协方差尽量为 0,而维度的方差尽可能 大。上述要求翻译成数学语言,就是要求降维后矩阵 Y 的协方差矩阵为对角矩阵,这就是我们 考虑计算矩阵 Y 的协方差矩阵的原因。

2.详解协方差矩阵的表达式

协方差矩阵数学表达式 的推导过程。

5.5.2 矩阵Y的协方差矩阵Cy对角化

1.什么样的矩阵 Q 能够对角化 Cy
根据实对称矩阵正交对角化的定理可以得到。所以,要使矩阵 Y 的协方差矩阵是对角矩阵,只需要 即可。这个结果表明,矩阵 Q 如果是由原矩阵 A 的协方差矩阵 C 的特征向量构成的矩阵,矩阵 A 经过矩阵 Q 线性变换之后的矩阵 Y 的协方差矩阵 Cy 就为对角矩阵。

2.实对称矩阵对角化性质

实对称矩阵有一个非常好的性质,那就是其可以转化为对角矩阵。原矩阵的协方差矩 阵 C 满足实对称矩阵的条件,所以可以通过线性变换将 C 转化为对角矩阵 Λ,具体来说就是

5.5.3 求解降维矩阵P

我们总结出 PCA 降维的步骤如下。

(1)计算原矩阵 A 的协方差矩阵 C。

(2)计算协方差矩阵 C 的单位正交的特征向量与对应的特征值。

(3)根据降维要求,确定 k 值大小。将 C 的特征值从大到小排列,选取前 k 个特征值所对 应的特征向量。

(4)将这些特征向量作为行向量,求解出降维矩阵 P。 (5)将降维矩阵 P 乘以原矩阵 A 即可降维,得到 Y=PA。

5.6 编程实践:手把手教你写代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/126947.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++ 信息学奥赛 2048:【例5.18】串排序

#include<bits/stdc.h> using namespace std; int main() {string s[25];//string类数组 int n;cin >> n;for(int i 1; i < n; i)cin >> s[i];sort(s1, s1n);//默认升序 调用函数默认排序 for(int i 1; i < n; i)cout << s[i] << endl;…

mysql隐式转换转换引起的bug

生产环境中遇到一个情况情况 &#xff0c;过滤数据发现过滤不掉相关值情况&#xff0c;具体情况如下 原始数据&#xff1a; CREATE TABLE test (id bigint(11) NOT NULL AUTO_INCREMENT COMMENT 自增id,subject_id bigint(11) NOT NULL DEFAULT 0 COMMENT 主题id,subject_nam…

从零实现label-studio和SAM进行半自动标注以及踩坑日志

这里写目录标题 引言什么是半自动标注conda环境创建与启动playground下载pytorch下载&#xff08;Linux服务端和Win10客户端&#xff09;SAM安装和预训练权重添加SAM相关库安装问题1 安装 Label-Studio 和 label-studio-ml-backend问题2&#xff1a;TypeError: numpy._DTypeMet…

嵌入式软件开发常用工具有哪些?

分享一些嵌入式软件开发常用工具。 1、Keil MDK&#xff1a;这是德国Keil公司开发的基于8051、9051、ARM7、ARM9系列微控制器的嵌入式软件开发工具&#xff0c;它提供了包括C编译器、宏汇编、连接器、库管理器、仿真器等在内的完整开发方案。Keil还提供了丰富的中间件和库函数&…

Verilog 之 initial 模块与always 模块的用法与差异

文章目录 initial语法和用法特点和注意事项用途 always语法和用法特点和注意事项用途 二者差异 initial 在 Verilog 中&#xff0c;initial 块是用来在模拟开始时执行一次性初始化操作的一种建模方式。它通常用于模拟初始条件或进行一次性的初始化设置&#xff0c;而且只会在模…

LINUX入门篇【4】开发篇--开发工具vim的使用

前言&#xff1a; 从这一篇开始&#xff0c;我们将正式进入使用LINUX进行写程序和开发的阶段&#xff0c;可以说&#xff0c;由此开始&#xff0c;我们才开始真正去使用LINUX。 介绍工具&#xff1a; 1.LINUX软件包管理器yum&#xff1a; 1.yum的介绍&#xff1a; 在LINUX…

Sublime Text Mac/Win中文版:代码编辑器的卓越典范

你是否曾为寻找一个功能强大且易于使用的代码编辑器而感到困扰&#xff1f;现在&#xff0c;我要向你介绍一个解决方案——Sublime Text。这款代码编辑器以其高效、灵活和直观的特点&#xff0c;赢得了开发人员的广泛喜爱。让我们深入了解一下Sublime Text的优点。 一、强大的…

易点易动固定资产管理系统:实现全生命周期闭环式管理和快速盘点

固定资产管理对于企业来说至关重要&#xff0c;它涉及到资产的采购、领用、使用、维护和报废等各个环节。然而&#xff0c;传统的固定资产管理方式往往繁琐、耗时&#xff0c;容易导致信息不准确和资源浪费。为了解决这些问题&#xff0c;我们引入易点易动固定资产管理系统&…

【Git企业开发】第六节.配置 Git和标签管理

文章目录 前言一、配置 Git 1.1 忽略特殊文件 1.2 给命令配置别名二、标签管理 2.1 理解标签 2.2 创建标签 2.3 操作标签 总结 前言 一、配置 Git 1.1 忽略特殊文件 在日常开发中&#xff0c;我们有些文件不想或者不应该提交到远端&#xff0c;…

第四章Web服务器(2)

第四章Web服务器(2) 1.基于https协议的静态网站 1.1.概念解释 超文本传输协议HTTP协议被用于在Web浏览器和网站服务器之间传递信息。 HTTP协议以明文方式发送内容&#xff0c;不提供任何方式的数据加密&#xff0c;如果攻击者截取了Web浏览器和网站服务器之间的传输报文&#…

AI 为先的时代,企业如何深度用云?

「又一年云栖&#xff0c;SOFAStack 走向云原生深处。」 SOFAStack 5.0 与蚂蚁集团代码大模型 CodeFuse 全面融合&#xff0c;涵盖设计、研发、测试、运维等领域&#xff0c;提供从领域建模到智能运维的端到端 Copilot 产品解决方案&#xff0c;为企业打造新一代 AI 云原生 Paa…

Python - 利用 OCR 技术提取视频台词、字幕

目录 一.引言 二.视频处理 1.视频样式 2.视频截取 ◆ 裁切降帧 ◆ 处理效果 3.视频分段 三.OCR 处理 1.视频帧处理 2.文本识别结果 3.后续工作与优化 ◆ 识别去重 ◆ 多线程提效 ◆ 片头片尾优化 四.总结 一.引言 视频经常会配套对应的台词或者字幕&#xff0c…

Modern C++ 转换构造函数和类型转换函数

在 C/C 中&#xff0c;不同的数据类型之间可以相互转换。无需用户指明如何转换的称为自动类型转换&#xff08;隐式类型转换&#xff09;&#xff0c;需要用户显式地指明如何转换的称为强制类型转换。 不管是自动类型转换还是强制类型转换&#xff0c;前提必须是编译器知道如何…

温故知新:探究Android UI 绘制刷新流程

一、说明&#xff1a; 基于之前的了解知道ui的绘制最终会走到Android的ViewRootImpl中scheduleTraversals进行发送接收vsync信号绘制&#xff0c;在ViewRootImpl中还会进行主线程检测&#xff0c;也就是我们所谓子线程更新ui会抛出异常。 像我们常用的刷新ui&#xff0c;inval…

华为ipsec vpn双链路主备备份配置案例

配置就是这配置&#xff0c;意外是完成后不通&#xff0c;待以后处理&#xff01; FW_A配置&#xff1a; dhcp enable ip-link check enable ip-link name check_b destination 2.2.2.2 interface GigabitEthernet1/0/0 mode icmp next-hop 202.38.163.2 acl number 3000 rul…

新方向!文心一言X具身智能,用LLM大模型驱动智能小车

具身智能已成为近年来研究的热点领域之一。具身智能强调将智能体与实体环境相结合&#xff0c;通过智能体与环境的交互&#xff0c;来感知和理解世界&#xff0c;最终实现在真实环境中的自主决策和运动控制。 如何基于文心大模型&#xff0c;低成本入门“具身智能”&#xff0…

振南技术干货集:C语言的一些“骚操作”及其深层理解(2)

注解目录 第二章《c语言的一些“操作”及其深层理解》 一、字符串的实质就是指针 &#xff08;如何将 35 转为对应的十六进制字符串”0X23”&#xff1f;&#xff09; 二 、转义符\ &#xff08;打入字符串内部的“奸细”。&#xff09; 三、字符串常量的连接 &#xff…

JAVA基础1:Java概述

1.JAVA语言 语言&#xff1a;人与人交流沟通的表达方式 计算机语言&#xff1a;人与计算机之间进行信息交流沟通的一种特殊语言 JAVA语言是美国Sun公司在1995年推出的计算机语言 JAVA之父&#xff1a;詹姆斯高斯林 2.JAVA语言跨平台原理 跨平台&#xff1a;JAVA程序可以在…

Yolov5 + 界面PyQt5 +.exe文件部署运行

介绍 Yolov5是一种基于深度学习的目标检测算法&#xff0c;PyQt5是一个Python编写的GUI框架&#xff0c;用于创建交互式界面。在部署和运行Yolov5模型时&#xff0c;结合PyQt5可以方便地创建一个用户友好的界面&#xff0c;并将代码打包为.exe文件以供其他人使用。 下面是一个…

学者观察 | 联邦学习与区块链、大模型等新技术的融合与挑战-北京航空航天大学童咏昕

导语 当下&#xff0c;数据已成为经济社会发展中不可或缺的生产要素&#xff0c;正在发挥越来越大的价值。但是在数据使用过程中&#xff0c;由于隐私、合规或者无法完全信任合作方等原因&#xff0c;数据的拥有者并不希望彻底和他方共享数据。为解决原始数据自主可控与数据跨…