首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

方差、协方差、相关系数的理解

  • 25-03-02 17:41
  • 3191
  • 5309
blog.csdn.net

方差和协方差机器学习中常见的两个概念,公式也几乎是随处可见,但是每见一次都像是初次见面,又去想半天各种公式、概念和意义,所以下定决心整理一下。

方差和协方差

定义

方差

度量单个随机变量的离散程度,公式如下:
σ x 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 \sigma^2_x = \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 σx2​=n−11​i=1∑n​(xi​−x)2

协方差

度量两个随机变量(变化趋势)的相似程度,定义如下:
σ ( x , y ) = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) \sigma(x,y)= \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) σ(x,y)=n−11​i=1∑n​(xi​−x)(yi​−y​)

C o v ( X , Y ) = E [ ( X − μ x ) ( Y − μ y ) ] Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)] Cov(X,Y)=E[(X−μx​)(Y−μy​)]

以上两个公式就可以看出,方差和协方差的定义同宗。

图解

那么方差是怎么衡量随机变量的离散程度的呢?协方差又怎么衡量变量的变化趋势的呢?

方差

方差示意图

图1

离散程度具体来说衡量的是随机变量偏离均值的幅度大小,单个数据点x的偏离幅度为x与x均值的距离平方和。

上图中的右上图和右下图,两个随机变量的均值虽然都为0,但是很明显右下图中随机变量偏离均值的幅度更大,各自的方差为:
( 2 ∗ ( 70 − 0 ) 2 + 2 ∗ ( − 70 − 0 ) 2 + ( − 200 − 0 ) 2 + ( 200 − 0 ) 2 ) = 99600 (2*(70-0)^2+2*(-70-0)^2+(-200-0)^2+(200-0)^2)=99600 (2∗(70−0)2+2∗(−70−0)2+(−200−0)2+(200−0)2)=99600

( 2 ∗ ( 0.01 − 0 ) 2 + 2 ∗ ( − 0.01 − 0 ) 2 + ( − 0.02 − 0 ) 2 + ( 0.02 − 0 ) 2 ) = 0.001 (2*(0.01-0)^2+2*(-0.01-0)^2+(-0.02-0)^2+(0.02-0)^2)=0.001 (2∗(0.01−0)2+2∗(−0.01−0)2+(−0.02−0)2+(0.02−0)2)=0.001

所以右上图的离散变量分布的更紧凑。

协方差

对于变量X、Y,协方差的定义为每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”的均值(其实是求“期望”)。因此,如果x与x的均值差与y与y的均值差的符号相同,则协方差值大于0,符号相反,则协方差值小于0,总结如下:
在这里插入图片描述
图2
在这里插入图片描述
图3
在这里插入图片描述
图4

在图2、3、4中的区域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;

在图2、3、4中的区域(2)中,有 X0 ,所以(X-EX)(Y-EY)<0;

在图2、3、4中的区域(3)中,有 X0;

在图2、3、4中的区域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。

当X 与Y 正相关时,它们的分布大部分在区域(1)和(3)中,小部分在区域(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>0 。

当 X与 Y负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)<0 。

当 X与 Y不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布几乎一样多,所以平均来说,有(X-EX)(Y-EY)=0 。

所以,我们可以定义一个表示X, Y 相互关系的数字特征,也就是协方差
cov(X, Y) = E(X-EX)(Y-EY)。

当 cov(X, Y)>0时,表明 X与Y 正相关;

当 cov(X, Y)<0时,表明X与Y负相关;

当 cov(X, Y)=0时,表明X与Y不相关。

在这里插入图片描述
图5
在这里插入图片描述
图6

而大多数情况下,变量X,Y的变化趋势不会像图一一样严格的同增大同减小,大多如图5和图6一样,这时只要求期望就可以了。

相关系数

由协方差的概念相关系数,其定义如下:
ρ = C o v ( X , Y ) σ X σ Y \rho = \frac{Cov(X,Y)}{\sigma_X\sigma_Y} ρ=σX​σY​Cov(X,Y)​

就是用X、Y的协方差除以X的标准差和Y的标准差。

在图一中,情况一和情况二的协方差计算如下:

情况一
[ ( 100 − 0 ) × ( 70 − 0 ) + ( − 100 − 0 ) × ( − 70 − 0 ) + ( − 200 − 0 ) × ( − 200 − 0 ) . . . ] ÷ 6 ≈ 18000 [(100-0)\times(70-0)+(-100-0)\times(-70-0)+(-200-0)\times(-200-0)...]\div6\approx 18000 [(100−0)×(70−0)+(−100−0)×(−70−0)+(−200−0)×(−200−0)...]÷6≈18000
情况二:
[ ( 0.01 − 0 ) × ( 70 − 0 ) + ( − 0.01 − 0 ) × ( − 70 − 0 ) + ( − 0.02 − 0 ) × ( − 200 − 0 ) . . . ] ÷ 6 ≈ 1.8 [(0.01-0)\times(70-0)+(-0.01-0)\times(-70-0)+(-0.02-0)\times(-200-0)...]\div6\approx 1.8 [(0.01−0)×(70−0)+(−0.01−0)×(−70−0)+(−0.02−0)×(−200−0)...]÷6≈1.8
由以上计算可知,除了协方差的正负号表示变量的变化趋势是否一致之外,数值的大小还表示变化相似的程度,而相关系数则是协方差的标准化,两种情况的相关系数如下:

情况一:
ρ 1 = 18000 ÷ ( 141.42 × 128.84 ) ≈ 0.987 \rho_1 = 18000 \div (141.42 \times 128.84) \approx 0.987 ρ1​=18000÷(141.42×128.84)≈0.987
情况二:
ρ 2 = 1.8 ÷ ( 0.014142 × 128.84 ) ≈ 0.987 \rho_2 = 1.8 \div (0.014142 \times 128.84) \approx 0.987 ρ2​=1.8÷(0.014142×128.84)≈0.987

因此相关系数:

1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。

2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

参考:

如何通俗易懂地解释「协方差」与「相关系数」的概念? - GRAYLAMB的回答 - 知乎
https://www.zhihu.com/question/20852004/answer/134902061

终于明白协方差的意义了

注:本文转载自blog.csdn.net的yongrl的文章"https://blog.csdn.net/weixin_42933718/article/details/87983459"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2024 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top