未登录,请登录后再发表信息
最新评论 (0)
播放视频

相关性与协方差—第一部分:协方差

Covariance and Correlation Part 1: Covariance

#我的猫猫学不会统计学#
#让我来替她学一整天吧#
#《征服统计学》!#
大家好 我是Josh Starmer 欢迎收看《征服统计学》
今天我们来讲讲协方差
相关性与协方差共有两集 这是第一集
注意:本集《征服统计学》中
我们假设大家已经熟知协方差的概念
否则请大家查看‘Quest
链接就在下方简介里
在方差那集《征服统计学》中
我们是从5个细胞中
X基因的mRNA转录本的个数开始学习的
如果大家对mRNA转录本不熟悉
就当成我们数了5个杂货店里的绿苹果
然后我们估计了均值x拔
接着我们又估计了协方差
[哼唱]
哇哦
以上就是对协方差的复习
除了数了X基因的mRNA转录本个数
假设我们还数了
这5个细胞中的Y基因转录本
或者
也可以当成我们是在数
同样5家杂货店里的红苹果
注意:如果你不知道为什么
这里Y基因垂直于X基因
没关系 稍等一下你就知道原因了
总之 就跟X基因一样
我们也可以对Y基因的均值进行估计
因为Y基因在y轴上
我们用y拔代表其均值
我们也可以对其协方差进行估计
[哼唱]
哇哦
现在我们已经对五个相同细胞中
两种基因的均值和协方差进行过估计了
或者
可以当成我们是在估计五个相同杂货店里
两种不同苹果的均值和协方差
因为这些数据来自同样的细胞
(或同一家杂货店)
我们可以对它们进行成对观察
比如 这对数据来自同一个细胞
它们都比各自的均值要小
这对数据来自另一个细胞
它们都比各自的均值要大
既然这些数据是成对获取的 问题来了:
成对获取的数据
相比单独的数据能揭示更多信息吗?
尝试解答该问题的一种方法是通过协方差
因为成对数据来自同一个细胞
(或同一个杂货店)
把它们分别放在x轴和y轴上
它们就组成了一个个单独的点
好 整体上讲
我们看到X基因值比较低的细胞
其Y基因值也较低
X基因值较高的细胞
其Y基因值也较高
一些细胞中两种基因的数据都较低
而另一些细胞中都较高
这种关系可以用这条线总结
注意:
代表这种关系的这条线的斜率是正的
这表明它具有向上走的趋势
即X和Y基因值同时增长
换句话说
如果某个细胞中有很多X基因转录本
那么根据这个向上的趋势
这个细胞中应该也有很多Y基因转录本
同样地 如果Y基因值较低
那么根据这个趋势
这个细胞的X基因转录本应该也较少
如果数据长这样
即较低的X基因值
对应较高的Y基因值
较高的X基因值
对应较低的Y基因值
这种关系的斜率就是负的
这表明它具有向下走的趋势
即X基因值随着
Y基因值的下降而升高
如果数据长这样
即每个不同的X基因值
都对应着相同的Y基因值
那么X和Y基因之间就没有
向上或向下的趋势可言了
这是因为
若所有细胞中的Y基因值都一样
那么我们就无法通过Y基因值知道
某个细胞中的X基因值是小呢
还是大呢
还是不大不小呢
同样的 如果每个不同的Y基因值
都对应同一个X基因值
那它们就不存在关系了
这是因为
如果所有细胞中的X基因值都一样
那么我们就不能通过X基因值知道
某细胞中的Y基因值是偏小呢
还是偏大呢
还是不大不小呢
协方差的主要意义
就是它能对三种关系进行分类
一 具有向上趋势的关系
二 具有向下趋势的关系
三 没有趋势的情况
也就不存在关系
好 刚刚讲的是协方差的主要意义
这是个非常重要的概念 所以我再讲一遍
协方差能对以下三种关系进行分类
一 具有向上趋势的关系
二 具有向下趋势的关系
三 没有趋势的情况
也就不存在关系
哇哦!
协方差的另外一个意义有点无聊
它本质上的确不怎么有趣
我为什么这么说呢
因为算完协方差 接下来总是还有事要做
对于诸如相关性之类的有趣的东西
协方差只是其计算过程中的一块垫脚石
我再重复一遍协方差的第二个意义
因为我就是喜欢重复我自己的话
对于诸如相关性之类的真正有趣的东西
协方差只是其计算过程中的一块垫脚石
接下来我们讲讲怎么计算协方差
协方差是用这个公式计算的 有点丑吧
为了让大家直观地感受一下
协方差的计算过程
我们先回过头来看看X基因的均值
把这条绿线延伸到这张图最顶端
然后把这条代表Y基因均值的红线
延伸到最边上
现在看最左边这个点
我们看到它位于绿实线左边
所以它比X基因均值要小
又因为它位于红实线下方
所以它比Y基因均值也小
然后我们把这个点的X基因值
代入这个方程
再代入X基因均值
得到这个差值
该差值为负 因为这个点在均值左边
接着代入这个细胞的Y基因值
以及Y基因均值
得到差值
这个差值也为负 因为它在均值下方
因为这两个差值都是负的
把它俩相乘得到一个正值
同样的过程在下个点上重复一次
同样的 我们看到它在绿实线左侧
所以它比X基因均值要小
又因为它位于红实线下方
所以它比Y基因均值也小
那我们代入X基因的相关值
得到一个负的差值
再代入Y基因的相关值
又得到一个负的差值
同样的 因为两个差值都是负的
它俩相乘得到一个正值
由此我们知道 若一个点的X和Y基因值
都低于各自的均值
我们就会得到一个正值
哇哦
可以看到剩下的三个代表细胞的点
都位于绿实线右边
所以它们都比X基因均值要大
并且它们都在红实线上方
所以它们也都比Y基因均值大
因此当我们代入这些值
再计算一下
就会得到正值
啦啦啦我在计算啦啦啦我在计算~
啦啦啦我在计算啦啦啦~
因此我们发现
当这两个值都大于各自的均值
我们就会得到一个正值
总结一下
这两个象限中的点为整体协方差贡献正值
哇哦!
好极了!
我们已经把每个细胞的这项算出来了
这里𝝨表示把每一项都相加
然后除以数据的个数n减去1
在这里就是5减1
最终
我们得到协方差为116
因为协方差116是正的
这说明X和Y基因
之间关系的斜率为正
换句话说 若协方差为正值
该趋势就是正的 即上升的
哇哦双击!
注意:协方差值本身并不是很容易解读
解读方式取决于具体情境
比如 协方差值并不能反映
代表该关系的线的倾斜程度 是陡峭呢
还是平缓呢
它只能说明斜率是正的
更重要的是 协方差值
并不能反映点和该虚线的距离 是较近呢
还是较远呢
再说一次
它只能说明该关系的斜率是正的
注意:
我们之后再讲为什么协方差值这么难解读
还有要记住 尽管协方差这么难解读
对于一些更有趣的东西
它依然可以作为计算过程中的垫脚石
哇哦
假设有几个不同的Y基因值
跟之前一样
通过成对的x和y轴的值
我们可以画出一张图
X基因的均值和之前一样
17.6
Y基因的均值是20.2
现在我们关注一下最左边的这个点
我们看到该点的X基因值位于绿实线左边
因此它比均值要小
但是Y基因值在红实线上方
所以它比均值要大
因此当我们代入这些数字 通过计算
我们就会得到一个负数
接下来这个点也是一样
我们也会得到一个负数
所以如果一个值比其总体均值小
另外一个比其均值大
我们就会得到一个负数
哇哦
同样的 这些代表细胞的点也会产生负数
因为它们大于X基因均值
而小于Y基因均值
总结一下
这两个象限里的点对协方差贡献负值
现在我们把每一项相加
然后除以点个数n减1
也就是5减1
最终
我们得到协方差为-105.15
因为协方差值
-105.15为负
这说明X基因和Y基因之间关系的斜率
是负的
再讲一次 协方差不能反映倾斜程度
更重要的是
协方差不能反映点和线的距离是较近
还是较远
它仅仅说明斜率是负的
哇哦
我们来计算趋势不存在情况下的协方差
这种情况下
每一个X基因值都对应相同的Y基因值
我们首先计算均值
然后我们对第一个点进行计算
它和X基因均值的差值是-14.6
和Y基因均值的差值是0
任何数乘0都是0
所以这个点计算结果为0
同样的 因为每个点的Y基因值
和Y基因均值的差值都是0
所以剩下的项都是0
通过接下来的计算我们得到分子为0
所以整个式子也等于0
同样的 当每个Y基因值
对应相同的X基因值时
协方差也为0
在最后这种情况下 可以看到
尽管X基因和Y基因都有多个值
还是不存在趋势 因为随着X基因增长
Y基因既增长又下降
换句话说 这个点得到的负值
被这个点得到的正值抵消了
这个点得到的正值
被这个点得到的负值抵消了
所以协方差等于0
因此若X基因和Y基因不存在关系
协方差就等于0
哇哦双击!
现在我们讲讲为什么协方差值很难解读
要讲清楚这个
我们先回过头看只有X基因的情况
计算一下X基因和它自己的协方差
跟之前一样 我们先用数据描点
X基因的均值跟之前一样
是17.6
y轴上的均值我们也取17.6
现在可以算协方差了
注意:这种情况下两个轴上的数据都一样
也就是说x=y 其均值也相等
那么y和y的均值
可以分别替换成x和x的均值
然后把这两项相乘
这时就得到方差的估算公式
换句话说 X基因和它自己的协方差
跟X基因的方差估计值是一回事
计算一下 得到102
因为该协方差值是正的
所以X基因和它自己的关系的斜率是正的
我把这个图和协方差值往这边移一点
看看把所有数据加倍会发生什么
右边的x和y轴坐标
都变成了左边的两倍
新的均值也是之前的两倍
但是点的相对位置都没改变
每个点还是落在同一条正斜率的线上
换句话说 唯一改变的是数据所在的刻度
但是通过计算 我们得到协方差为408
是之前的四倍
因此我们发现尽管变量关系没有改变
协方差值还是发生了变化
换句话说
协方差值对于数据大小的变化很敏感
这使得它很难解读
这还导致协方差值不能反映
点和代表该关系的虚线的距离是近呢
还是远呢
在本例中 左边每个点都落在虚线上
其协方差为102
右边每个点都落在虚线外
其协方差为381
那么在这种情况下
当点都落在线外 协方差就较大
我们再把右边的数据大小改变一下
然后重新计算一下协方差
发现它比点都落在线外的时候变小了
你要是在想
“有没有一种对数据大小不敏感的东西
来描述这种关系啊”
那你走运啦
计算协方差是计算相关性的第一步
相关性可以描述两个变量间的关系
并且对数据大小不敏感
本系列下个视频中会讲更多相关性的内容
同样值得一提的是协方差值在很多分析中
都起到垫脚石的作用
比如
它曾被用于主成分分析(PCA)中
现在还用于一些其他场景中
对于一些更有趣的东西
起到计算过程中的垫脚石的作用
哇哦
总之
协方差可以对三种变量关系进行分类
一 协方差为正
说明该变量关系斜率为正
二 协方差为负
说明该变量关系斜率为负
三 协方差等于0
说明变量关系不存在 因为趋势不存在
协方差本身比较难解读
但在计算相关性以及一些其他计算场景中
它是很有用的
太好了!
又完成了一集激动人心的《征服统计学》
大家喜欢并且还想看更多的话就订阅吧
想要支持《征服统计学》的话
可以来买我的原创歌曲或T恤或卫衣哦
直接捐钱也行哦 链接在下方的简介中
好啦 下次见 生命不息《征服》不止!

发表评论

译制信息
视频概述

介绍了统计学中协方差的概念和意义

听录译者

收集自网络

翻译译者

Han

审核员

审核员MS

视频来源

https://www.youtube.com/watch?v=qtaqvPAeEJY

相关推荐