未登录,请登录后再发表信息
最新评论 (0)
播放视频

统计学中的总体参数

Statistics Fundamentals: Population Parameters

即使你的尤克里里跑调了
也不要担心
你可以看一整天《征服统计学》
好极了好极了!
《征服统计学》!
大家好 我是Josh Starmer
欢迎收看《征服统计学》
今天我们来聊点统计学基础
具体讲一下总体参数
注意:本期《征服统计学》我们假设大家已经了解
直方图和统计分布的相关知识
尤其是正态分布的相关知识
如果你还不了解 请查看’Quests
链接在描述下方
假设我们对5个肝细胞的X基因中
mRNA的转录本进行计数
注意 如果你不知道“肝细胞中的mRNA转录本”是什么意思
就换成假设我们在数5家杂货店里绿苹果的个数
或假设在数5家服装店绿T恤的件数
再或者假设在数5个单位中随便什么东西
因为我在遗传学实验室工作
我还是继续用肝细胞中的mRNA转录本
这个绿点代表一个肝细胞
其X基因上有3个mRNA转录本
而这个绿点代表一个
有13个mRNA转录本的肝细胞
这个是19个转录本
24个
以及29个
如果我们有大量时间和资金
就能数出每个肝细胞中
X基因mRNA转录本的个数
然而在本例中
大家只能想象这条线上有2400亿个绿点
代表一个人类肝脏中的2400亿个细胞
因为我没时间把它们全画出来
呜呜
现在我们可以画出计数的直方图
这张直方图显示大多数细胞
有20到30个mRNA转录本
而拥有少于10个转录本的细胞较少
拥有超过30个转录本的细胞也较少
我们可以用直方图来计算概率和统计量
比如我们如果想知道观测到一个拥有
不少于30个X基因mRNA转录本的概率
我们就得数出这样的肝细胞有多少个
然后除以肝细胞总数
在本例中
有380亿个细胞拥有不少于30个转录本
那么我们用它除以2400亿
计算结果
得出观测到一个拥有
不少于30个转录本细胞的概率是0.16
哇哦!
注意:这个直方图的数据来源是
所有2400亿肝细胞中的mRNA个数
它符合均值为20
标准差为10的正态分布
均值20就在正中间
标准差10代表着均值两边的曲线有多宽
也就是说标准差显示了
均值两边的数据分布情况
就跟直方图一样
我们也可以用分布来计算概率和统计量
比如我们若想知道观测到一个肝细胞
并且其X基因上有不少于30个mRNA转录本的概率
我们可以计算数值大于等于30的曲线下面积
再除以曲线下总面积
本例中
数值超过30的曲线下面积是0.16
曲线下总面积是1
计算一下
得到观测到一个拥有不少于30个
转录本的细胞的概率是0.16
因为我们用直方图也得到了同样的结果
所以这说明正态分布与真实数据的分布很接近
哇哦!
注意:如果我们数的是好多家连锁杂货店的绿苹果的话
那么这个分布代表的就是
每家店里的绿苹果数
这意味着我们可以用这个分布计算
有关这家连锁杂货店的苹果的统计量
哇哦
啊!术语警告!注意了!
因为这个直方图代表每个肝细胞
或者某家连锁杂货店的全部店铺
用统计学家的话说 这代表了一个总体
因此 该正态分布的均值和标准差
也就代表该总体
那么它们被称作总体参数
该均值被称为总体均值
该标准差被称为总体标准差
或者简称总体SD
注意:如果直方图长这样
那么这些数据符合指数分布
指数分布的形状是由它的率参数决定的
在这里率参数为0.1
尽管指数分布和正态分布看起来不一样
它还是能代表肝细胞的总体
那么这个率参数就成了总体率参数
就像正态分布一样
我们也能用指数分布来计算概率和统计量
另外 如果直方图长这样
那么这些数据符合伽玛分布
因为伽玛分布的形状是由形状参数和率参数
这两个参数决定的
那么这两个参数就是它的总体参数
注意:我们接下来要讨论的概念
几乎适用于所有统计分布
但是我们只以正态分布为例
那么让我们回到开始的正态分布
因为我们几乎从来没有足够的时间和资金
去测量总体中的每个个体
所以通常我们采用的做法是用一个
较小的样本来估计总体参数
比如在上图中
我们只统计了2400亿个细胞中的5个
所以我们就用这5个统计数据
来估计总体参数
我们之所以想了解总体参数
是因为我们想确保实验结果是可复现的
也就是说
如果别人也在测量5个不同肝细胞中的X基因
他们会得到5个不同的测量值
但是这几个数据仍然来自同一个总体
并且从总体得到的一些结论
例如观测到一个拥有超过30个mRNA转录本的细胞的概率
对于这两个实验
(以及接下来的实验)都是成立的
所以与其仅仅分析这5个测量值
我们更想以此来估计总体参数
并依据此得出最终结果
哇哦哇哦!
注意:如果你具有机器学习学术背景
把这5个统计数据当作训练数据集
可能更好理解
代表总体的曲线
就当成我们想用机器学习预测的东西
哇哦
再回过头看那5个统计数据
现在可以告诉大家总体均值估计值为17.6
总体标准差估计值为10.1
注意:总体均值和标准差的估计方法
我们会在之后的《征服统计学》中讲到
现在大家只需知道不难就行了
再复制一次实验
发现总体均值估计值为19.2
总体标准差估计值为12.7
所以每次复制该实验
我们都得到不同的总体参数估计值
之前得到的两组估计值也都跟真实值不同
到这里 如果大家仔细听讲了
应该觉得我刚刚说的有点费解
刚刚我们说总体参数的全部意义
皆在于产生可复现的结果
可我们每次都得到不同的估计值
这怎么叫可复现呢?
要回答这个问题
我们先假设只有两个测量值
只有两个数据的时候
总体均值估计值为11
总体标准差估计值为11.3
均值估计值11跟真实总体均值20
比起来差太多了
标准差估计值11.3
比真实标准差10大一点
但如果我们有3个测量值
均值估计值就是15.3
比之前更接近真实值一点
标准差估计值为11
也比之前更接近真实值一点
那就像之前讲的
如果有全部5个测量值
均值估计值就是17.6
更接近真实值了
标准差估计值为10.1
也比之前更接近真实值
如果有10个测量值 估计值会更为接近真实值
这说明数据量越大
我们对估计值的准确性越有信心
统计学的目标之一
就是量化总体估计值的置信度
统计学家通常通过计算P值和置信区间
来量化参数估计值的置信度
就像之前讲的 总体上讲
数据越多 估计值置信度越高
再回头看那两个复制实验
尽管这两个实验得到的
总体均值和标准差估计值不同
我们还是可以用统计学来量化
它们不同程度的置信度
本例中
通过P值或置信区间就能知道
虽然两次估计值不同 但却没有显著不同
这说明 第一次实验得到的结果
应该不会跟第二次实验的结果有显著不同
也就是说实验结果应该是可复现的
哇哦三连!
总结一下
总体代表的是你在对所有肝细胞
或一家连锁杂货店的所有店铺
或随便什么单位中的
某种了不起的东西进行计数
决定某种分布是否符合总体数据的参数
被称为总体参数
但我们几乎不可能拥有所有总体数据
所以一直以来总体参数都是通过估计值得到
与此同时我们还要计算估计值的置信度
总体来说
我们掌握的数据越多 估计值的置信度越高
通过对总体参数进行估计并量化其置信度
我们就能得到在未来实验中可复现的结果
另外 如果你想学习更多关于怎么量化
总体参数估计值的置信度的知识
请查看置信区间的‘Quest
链接就在描述下方
太好了!
我们又完成了一节激动人心的《征服统计学》
如果大家喜欢的话 请订阅我们的频道
如果大家想支持《征服统计学》
嗯 可以考虑购买一两首我的原创曲目哦
或者购买我的T恤 帽衫等等
好 下回见
征服不止!

发表评论

译制信息
视频概述

本视频介绍了总体参数的概念以及它对于我们解决实际问题有哪些帮助

听录译者

收集自网络

翻译译者

Han

审核员

审核员LJ

视频来源

https://www.youtube.com/watch?v=vikkiwjQqfU

相关推荐