未登录,请登录后再发表信息
最新评论 (0)

征服统计学:置信区间详解

StatQuest: Confidence Intervals

统计 征服
统计 征服
征服统计学!
你好 欢迎收看《征服统计学》
本栏目由北卡罗莱纳大学
教堂山分校遗传学系制作
本期节目将会讲解置信区间
你之前或许见过或听过置信区间
但如果你对它仍不甚了解 这很正常
许多人都不理解置信区间
但那只是因为他们还没学过bootstrap
首先阐明一点
计算置信区间的方法有很多种
bootstrap只是其中一种
对我来说 这种方法更易于理解
但如果你在别处学习置信区间
你可能会学到其他不同的计算方法
现在即使我们刚讲到bootstrap
你可能已经听的云里雾里了
也已经忘了bootstrap是什么
我完全理解 因为我最初也是这样
所以让我们先来回忆一下bootstrap
假设我们称量一组雌性老鼠的体重
在此我们称量12只作为样本
我们不必称量地球上每一只雌鼠的体重
只称12只即可
现在我们可以依据这12个测量值
计算出样本均值
由此得出的均值
并不是地球上所有老鼠的总体均值
只是样本均值
但是 我们可以用bootstrap
结合我们目前得到的样本数据
确定一个合理的均值范围
以代表地球上所有雌性老鼠的总体均值
现在我们已计算出了样本均值
接下来可对样本执行bootstrap过程
第一步我们需要从上述12个样本中
随机抽取12个测量值
数据重复也没关系
这就是一个bootstrap样本结果示例图
从中我们可以看到最左侧的测量值
被抽取了两次
而它右侧的测量值则未被抽到
这种抽取方法叫有放回抽样
第二步要计算该组bootstrap样本的均值
在完成第一组bootstrap样本的均值计算后
接下来要做的只是重复第一步和第二步
直到我们得到足够多的均值数据
有时会是10000个以上
如下图是我们通过大量计算后得到的
bootstrap样本均值的分布图轴
可能略少于10000 但你理解其意就好
至此我们就介绍完了bootstrap
现在我们来讲讲置信区间
你之前所见过的置信区间
通常被称为95%置信区间
95%置信区间就是
覆盖95%的均值的区间
这里黑色划线部分
覆盖了方才计算的95%的bootstrap样本均值
就这些 这就是置信区间的全部内容
不多不少
你能猜出99%置信区间是什么吗
给你一个提示
它比95%置信区间宽
现在我来告诉你
它是一个覆盖了99%的
bootstrap样本均值的区间
现在我们知道了置信区间是什么
你可能又会问置信区间有什么用
我认为置信区间是有用的
置信区间是直观的统计实验
因为其区间覆盖了95%的均值
我们可知区间之外的任何情况
发生的概率都小于5%
也就是说 置信区间之外的p值
都小于0.05
置信区间因此而呈现显著性差异
在此我们举一个直观统计实验的例子
记得吧
我们一开始计算了12个样本的均值
该样本均值是对全球雌鼠
“真实”均值的估值
有了我们的置信区间
我们可知所有雌鼠的“真实”均值
并算出p值
而不仅仅是我们那个小于20的样本的均值
为了更好的展现这个实验
我们依据bootstrap
或者一些其他公式
画出置信区间
我们可以看到20左侧的高亮区域
这代表小于等于20的均值
在95%置信区间之外
因为高亮的区域在
95%置信区间之外
我们可知“真实”均值落在高亮区域的
概率小于5%
因此 p值小于0.05
这是很低的概率
因此 我们可以说“真实”均值
与任何小于20的均值之间
存在统计上的显著性差异
我们再举另一个直观统计实验的例子
这样 我们就能比较两组样本
之前我们称了雌性老鼠样本的体重
现在 我们称量一组雄性老鼠样本的体重
我们已对这组新样本执行了bootstrap过程
下图就是此次bootstrap样本的均值图轴
由于两组95%置信区间不重叠
我们知道雌性小鼠与雄性小鼠体重之间
存在统计学上的显著差异
也就是说
我们只要看一下图
就知道p值小于0.05
这里有一点需要注意
为了说明这一点
我将雄鼠置信区间向左平移了一点
这样两组置信区间就重叠了
但即使置信区间重叠
两组均值之间仍然有可能存在显著差异
此情况下 你还需做t检验来进一步确定
但是 当置信区间不重叠时
你可以放心确定
这两组均值间必然存在统计上的显著差异
以上就是全部讲解内容
不要错过下一个征服统计学节目哦!

发表评论

译制信息
视频概述

关于置信区间的讲解

听录译者

收集自网络

翻译译者

白云深处有人家

审核员
视频来源

https://www.youtube.com/watch?v=TqOeMYtOc1w

相关推荐