未登录,请登录后再发表信息
最新评论 (0)
播放视频

相关性与协方差—第二部分:皮尔逊相关

Covariance and Correlation Part 2: Pearson's Correlation

相关性是一种情感
跨越了整个国家
征服统计学!!!
大家好 我是Josh Starmer
欢迎来到《征服统计学》课程
今天这节课是《协方差和相关性》的第2部分
我们将讲解相关性
不过 在深入讲解相关性之前
我想先说说关系
不是那种我们有时会遇到的 有趣或令人困惑的恋爱关系
你愿意和我牵手吗?
额 你并没有手呀……
你只是个火柴人

这里我想说的是x轴数据
和y轴数据之间的关系
在这个例子中
我们的x轴表示5个不同细胞中
X基因的mRNA片段数量
y轴表示同样的5个细胞中Y基因的mRNA片段数量
不过 如果你对“mRNA片段”不熟悉
也可以想象我们前往5个不同的杂货铺
把绿苹果的数量标在x轴
把红苹果的数量标在y轴
每对测量结果均来自同一个细胞
或杂货铺
并以一个蓝点表示
我们能看出 总体来说
X基因mRNA片段相对较少时
Y基因mRNA片段也相对较少
X基因mRNA片段相对较多时
Y基因mRNA片段也相对较多
我们可以使用一条斜率为正的直线表示这个趋势
如果有人收集到一个新的X基因数据 20
那么我们就可以用这条直线来预测
当X基因mRNA片段数量为20时
Y基因mRNA片段数量应该是27左右
或者
如果我们得到一个Y基因数据
就可以用这种趋势来预测X基因数据范围
以上两个例子中
我们都是基于从数据中观察到的这种趋势来进行预测
如果数据都离这条趋势线更近
那么给定一个X基因数据
我们对Y基因数据的预测就会落在一个更小的范围内
也就是说
数据离直线越近
X基因数据就能给我们更多Y基因数据的信息
或者也可以说
X基因和Y基因的相关关系相对较强
如果数据离趋势线更远
那么我们对Y基因数据的预测就会落在一个更大的范围内
在这种情况下
我们可以说 X基因数据给我们更少Y基因数据的信息
或者我们也可以说
X基因和Y基因的相关关系相对较弱
注意:
再说明一下
我们一直说的是
我们观察到较小的X基因数据
倾向于与较小的Y基因数据相匹配
较大的X基因数据
倾向于与较大的Y基因数据相匹配
这个结果表现出一个趋势
我们可以据此做出预测和推断
即“有根据的预测”
这并不是说因为X基因mRNA片段数量少
所以Y基因mRNA片段数量少
或者因为Y基因mRNA片段数量多
所以X基因mRNA片段数量多
换句话说
我们没有排除其他可能导致观察到这个趋势的原因
小爆点
现在
我们看到的是一个相对较弱的相关关系
和一个相对较强的相关关系
我们可以用相关性量化相关关系的强度
也就是说
这些数据的相关关系较弱
对应的相关系数(相关性值)就越小
这些数据的相关关系中等
对应的相关系数(相关性值)也是中等
而这些数据 相关关系很强
对应的相关系数(相关性值)相对较大
相关系数最大为1
当一条斜率为正的直线
能够穿过每个数据点的中心
那么相关系数=1
这意味着如果我们得到了X基因的数据
那么我们就能非常准确地预测对应的Y基因数据
注意:
相关性并不取决于数据大小
实际上 我故意没在两条轴上标注数字
因为这完全不影响相关性
换句话说
无论数据大小如何
当一条斜率为正的直线能穿过所有数据点时
相关系数=1
这意味着 当斜率大时 相关系数可以是1
斜率小时也可以
注意:
当一条斜率为正的直线穿过数据点
相关系数等于1
无论数据量大小
例如 假设我们只有2个数据点
那么我们只用连接两个点
就能画一条斜率为正的直线
并且相关系数=1
这个相关性看起来就很强
但我们其实不能信任依据这条直线作出的预测
因为数据量太少了
为了理解为什么利用小规模数据集得到的相关性可信度低
让我们从一个空白的图表开始
并在上面随机画两个点
然后 就像之前一样
我们只用连接这两个点
就能画一条穿过每个数据点中心的直线
而这意味着对这两个随机画的点来说
相关系数=1
实际上
我们总是可以用一条直线连接任意的两个点
现在 我们回到最初的数据
假设不是2对测量数据
而是3对
像之前一样
因为我们能画一条穿过这3个点的直线
所以相关系数=1
然而
现在我们就能对依据这条线做出的预测更有信心了
这是因为 如果我们在一个空白图表上
随意画3个点
虽然画一条连接任意两个点的直线很容易
但是画一条 能同时穿过3个点的直线却很难
因此
用一条直线连接3个随机点
概率非常小
因此
我们就更能相信
观察到的相关性并不是偶然
总的来说
数据量越大
依据这条直线作出的预测越可信
因为随着随机点数量的增加
画出一条穿过所有随机点直线的概率
会越来越小
注意:
我们是可以用一条曲线连接所有点
但讨论相关性时
只能用直线
噢 不 又到了悲惨的“名词警告”环节!
对相关性来说
p值是指
随机点表现出同样 甚至更强相关性的概率
因此 p值越小
依据这条直线作出的预测越可信
在这个例子中 p值就极小
为2.2×10⁻¹⁶
这就意味着
随机数据具有不低于目前数据相关性的概率极低
来总结下目前为止学过的东西吧
相关系数的最大值为1
对应能够画一条斜率为正的直线
穿过所有数据点的情况
而这个相关性的可信度
取决于数据量
在这3个例子中
中间这个相关性的可信度最低
因为这组数据量最小
而右边这个相关性的可信度最高
因为这组数据量最大
而且p值最小
砰!!!
当一条斜率为负的直线
能穿过所有数据点的中心时
相关系数=-1
由于一条直线能穿过所有数据点
相关系数=-1表示
数据间的相关性很强
这种情况下 如果我们得到一个X基因数据
那么预测出来的Y基因数据就会在很窄的范围内
像之前一样
预测的可信度
以p值计量
取决于我们所拥有的数据量
如果我们有大量数据
预测结果就有很高的可信度
因为p值将极小
数据量越小
预测结果的可信度越低
因为此时p值会更大
就像前面一样
只要一条直线能穿过所有数据点
且直线斜率为负
相关系数就等于-1
无论斜率是大
还是小
砰!!!
现在我们已经看到 当直线斜率为负
且相关性最强时 相关系数=-1
而当直线斜率为正
且相关性最强时 相关系数=1
在这两种情况下
如果一条直线不能穿过所有的数据点
那么相关系数将更接近0
拟合效果越差
相关系数越接近0
当不存在可以用直线表示的相关关系时
相关系数等于0
当相关系数为0时
x轴上的值
对预测y轴的值毫无作用
因为没有理由说选这个值而不选那个值
砰!
只要相关系数不为0
我们就能用这条直线来进行预测
但相关系数越接近-1或1
我们的预测就越精确
正如前面提到的
预测结果的可信度
取决于收集到的数据量的大小
以及p值
在左侧图表中
我们对直线趋势的信心很小
因为数据量太小
并且p值为0.8
在中间的图表中
我们对直线趋势具有一定的信心
因为数据更多
并且p值为0.08
在右侧图表中
我们对直线趋势很有信心
因为数据更多了
并且p值等于0.008
注意:
三个例子的相关系数都为0.3
在这里 样本量的增加
并没有提高相关性
这意味着 增加数据并没有改变我们的预测
只是增加了我们对预测的信心
因此 我们对这三种情况的预测可能都很差
然而 我们对依据这组数据得到的预测最有信心
也就是说
正因为你有很多数据
所以你对预测很有信心
如果相关系数很小
你的预测仍然是不好的
砰砰!!!
如果你知道如何计算方差和协方差
计算相关系数将是小菜一碟
注意:
如果你还不熟悉方差和协方差这两个概念
看看“Quests”
链接在下方简介中
假设这些是数据
那么相关系数等于
X基因和Y基因的协方差
除以X基因方差的平方根
再除以Y基因方差的平方根
正如我们在《征服统计学》“协方差”中讲的
分子可以是负无穷到正无穷之间的任何数
取决于
这条代表相关性直线的斜率正负
数据在平均数周围的分散程度
以及数据大小
因此 计算相关系数时
分母将协方差限制在-1到1之间
换句话说 分母确保了
数据大小不会影响相关系数
这让相关系数更易理解
当所有的数据都落在一条斜率为正/负的直线上时
那么协方差
与方差项的平方根相等
做完除法后 取决于斜率 结果为1或-1
当数据没有全落在一条斜率为正/负的直线上时
那么数据中协方差比方差的影响更小
相关系数更接近0
我们在《挑战统计学》“协方差”一节看到
这组数据的协方差为116
116除以分母后
会得到-1与1之间的一个值
X基因数据的方差是101.8
Y基因数据的方差是160.3
进行计算
我们得到0.9
正如我之前提到过的
我们可以用p值来量化这个相关性的可信度
p值越小
预测的可信度越高
这里的p值为0.03
这意味着 有3%的可能性
随机数据具有不低于这组数据的相关性
砰砰砰!!!
结束之前
还有一件关于相关性的重要的事
即使相关系数比协方差容易理解得多
它们还不是“非常”容易理解
例如 这个相关性并不是很明显
相关系数=0.9
是右边推测的两倍那么好
而这里 相关系数=0.64
好消息是
与相关系数有关的R²
解决了这个问题
更好的消息是 如果你想了解R²
你可以看看这些视频
链接在下方简介中
p.s.
另一件关于R²的厉害的事是
比起直线
它可以量化更复杂的相关关系
总之
相关系数量化相关性(相关关系)的强度
如果相关性弱
那么对应的相关系数也小
如果相关性中等
那么对应的相关系数也是中等
如果相关性强
那么对应的相关系数也大
相关系数的最小值为-1
这时线性相关关系最强
图像是一条斜率为负的直线
相关系数最大值为1
这时线性相关关系最强
图像是一条斜率为正的直线
两种情况下
如果一条直线不能穿过所有数据点
那么我们得到的相关系数更接近0
拟合越差
相关系数越接近0
当不存在可以用直线表示的相关关系时
相关系数=0
最后 推测的可信度
取决于收集的数据量以及p值
收集的数据越多
p值越小
对推测可信度越高
砰!!!
欧耶
我们又结束了一节令人兴奋的《征服统计学》课程!
如果你喜欢《征服统计学》并且想看更多课程
请订阅我们的频道
如果你想赞助我们
考虑下购买一点我们的原创歌曲
T恤 连帽衫
或者单纯捐款
链接在下方评论区
下次课程见 继续征服之旅吧!

发表评论

译制信息
视频概述

介绍相关性的基本概念,以及如何用相关系数量化相关性

听录译者

收集自网络

翻译译者

Icyyyy🌸

审核员

审核员LJ

视频来源

https://www.youtube.com/watch?v=xZ_z8KWkhXE

相关推荐