Error Bars
翻译:btrspg
误差线(
error bars
)的含义经常被误解成他们的重叠是否是统计显著的。
这是题注,仅仅是题注就让我伤透脑筋。误差线在我之前的理解中,就是如果两个(我也不知道两个后面应该接什么,所以直接省略了)的误差线如果有重叠,那么这两个(我又省略)就不是显著差异的。
在上个月的
Points of Significance
中,我们给大家展示了,怎么用样本
来估计总体
的统计参数。我们强调了,由于存在随机的因素,所以我们的估计也有不确定性。这个月我们将着重介绍,在科学刊物中,如何表示这种不确定性,还会揭示不确定性经常被错误解释的一些方式。在统计估计中的不确定性,一般都会使用
误差线
来表示。尽管大部分的研究者用过或者看见过误差线
,但误差线
怎么样能和统计显著性联系起来,仍旧有很多的错误理解。
然后作者引用了一篇很有意思的文献,像是一个问卷调查。
当受访者被要求估计两个有误差线的点是否显著(p=0.05)分离的时候,仅仅只有22%的受访者考虑到了因素2。
我的理解是,不仅仅要看误差线是否分离,还需要知道,误差线是什么的表示。这也就是上文中的因素2。
就像一杯水不能表示水的多少,只有在明确杯子的大小后,一杯水才可以。
事实上,
误差线
却是能够帮助我们评估两个值是否显著差异,只是在表面看上去令人不太好理解。
In light of the fact that error bars are meant to help us assess the significance of the difference between two values, this observation is disheartening and worrisome.
再次放上原文,感觉又是不太好翻译的。
在此,我们利用一个简单的例子来展示
误差线
的差异。我们从一个正态分布
中以相同的样本容量
进行抽样
,所获的值的均值就是我们用来展示的数据。
这个真是的很绕。英语不好真是累。同样放上原文。Here we illustrate error bar differences with examples based on a simplified situation in which the values are means of independent (unrelated) samples of the same size and drawn from normal populations with the same spread.
我们使用
2-sample t-test
计算样本
的均值
的差异的显著性而且以近似P value
来展示结果。尽管展示准确P value
应该更好,但是为了方便,显著性一般都取阈值
为P=0.05。我们会在后面更加详细的讨论P value
和t-test
。
意思很好理解,但是要说出来,真的感觉越来越难。
区分
误差线
的重要性就像chap2-1中所展示的那样。
图中有三种常用的
误差线
,标准差(s.d.)
,标准误(s.e.m)
还有置信区间(CI)
。图中所展示的就是两个样本容量
为10的样本的三种误差线
的范围,以及他们所对应的均值差异的P value
。在chap2-1的a图中,自建的数据使得对于不同的误差线
都有相同的长度,并使得2个样本
的误差线
毗邻。尽管这三对数据还有他们的
误差线
看起来像是一样的。但是他们分别表示了不同的数据情况,并且还有不同的P value
。在chap2-1的图b中,我们更换的展现形式,使得
P value
都是0.05,然后展示不同误差线
在相同P value
下不同的长度。在这种情况下,三对数据其实是同一对样本
,但是误差线
却因为不同的类型而具有不同的长度,这不同类型的误差线
也表现的是数据的不同的统计特性。在
误差线
不同长度的情况下就很容易哪对样本看起来更不同。一般情况下,样本
间的误差线
的空隙并不能说明显著性
,同样误差线
重叠也不能说明不显著,这都需要明确指明误差线
的类型。对于你来说,是不是特别惊奇,原来还有这样一个内涵在其中。
有些调皮,但却是让我有了更明确的认识,以前的确不区分这一部分。
我们首先要同清楚
误差线
能够给我们展示的是什么样不确定性,从而避免我们对他的误解。在2012年,《Nature Methods》发表的文献中,约三分之二的图中出现了误差线
,剩下的三分之一应该也要展示,却没用误差线
。文章中的
误差线
几乎只分成了s.d.
和s.e.m.
(分别占了45%和49%)。剩下的5%直接没有指明误差线
的类型。只有一篇用到了95%CI
的误差线
。其实在医学文献中,CI
应该是对于测量的不确定性更加直观的表现。
更好的用的更少,因为从上述的结果中,感觉CI
表现的更加中庸。而不像s.d.
或者s.e.m.
那样极端。
对于使用
s.d.
的误差线
,能够提供给我们的信息是总体
的宽度(spread),如果是对于预测新的样本
的范围是比较有用的。如果刚好,总体
的宽度特别的极端(特大或者特小),使用s.d.
也能很好的强调这一个重点。因为s.d.
并不能直接的反映出来数据的差异性。
文中对此给出了些许建议。
如果使用
s.d.
作为误差线,那么最好是能告诉读者,s.d.
的误差线
反映的是数据的变化,而不是测量中的错误。
这一点我认为非常重要,误差线
真正想要表示的意思应该是误差,也就是我的数据测量可能产生的错误,而不是想表示这个数据真实的样子。
那么,对于一个特别大的
s.d.
,而且还有重合,并且还能计算出p value
为0.05,这样一个情况,读者应该得出一个什么样的结论(如chap2-1中的b图)。他们也能表示差异,如果有足够的样本量
的情况下,他们如果有重合,说明两个总体
之间本身就有重合。
这段的理解就不是特别深刻,没有太明白真正的意思。
和
s.d.
不同,基于s.e.m.
的误差线
则是反映了样本
的均值和他样本容量
之间的不确定性$s.e.m.=\frac{s.d.}{\sqrt{n}}$。s.e.m.
随着测量数据的增加,逐步收敛。这也就导致一种不幸,那就是当s.e.m.
表示的误差线
不重叠的时候,就认为是统计上的显著差异,那显然是错误的。
这就是直观上给予我们的错误提示。
例如,当
n=10
的时候,s.e.m.
的线
就是刚好接触,p value=0.17
,如chap2-1的图a。相反,如果要达到p value=0.05
,s.e.m.
的线
则要间隔0.86倍的臂长
。我们不能夸大的说,分辨s.d.
和s.e.m.
有多么重要。
我却觉得挺重要的,至少能够给予一个清晰的认识,在读文章的时候,能够快速的分辨出,这是否真的具有显著差异。
第三种
误差线
就是CI
了。CI:置信区间
就是一个能够估计测量可信度的范围。
从名字中也能得出,他所表示的意思就是我们能够信任的区间。
当我们考虑一个特别的置信度,例如
95% CI
就是一个特别常用的置信区间。表示的就是这条线
能够捕获到总体
均值的百分比,如chap2-2图a。
这个需要再次理解一下,就如图中所示,表示如果从这样一个总体中进行抽样
,这样的样本
的均值需要有多长的臂
才能保证100次中,有95次都能摸到总体
的均值。
~我的理解是他是一个类似与s.e.m.
的存在,但是他并不会随着n
的变化而显著的变化,他更像反映出的是一个总体
真实的状态,及真实的变化~然而并不是,理解上错误了(但是从图中可以看到, CI
和s.e.m.
都会随着n
变化,而$\sigma$(s.d.
)才是真正不变化,表示真正状态的)。
在chap2-2的图b,我们比较了
s.e.m.
与95% CI
。如果用T-test来检验s.e.m.
和CI
,他们是相关的(也就是不是显著差异)。当n
很大的时候,s.e.m.
就几乎表示的是67% CI
。CI
也是和n
相关的。有两个比较有用的近似:
有一个关于
CI
特别常见的错误观念,就是CI
是捕获到同样总体
的抽样
的样本
均值落在这个区间中有95%的概率。因为CI
的位置和长度是和样本
相关的。所以这个可能性并不高。
CI
只得是总体
的均值在这个区间内,不是另一次的抽样
的样本
的均值会落在这个范围。
在
误差线
的这些选择中,得到真正显著的而且能够通过可视化看到的关系是很有挑战的。我们在chap2-3中提供了相同p value
的不同类型的误差线
的臂长差异。
对于
s.e.m.
来说,直到两个样本
的误差线
之间的间隔差不多到达一个臂长
的时候,p value
才能达到0.05。而与此同时,95% CI
的误差线
却都已经重叠到差不多50%了,这都是两个样本
显著差异。如果95% CI
的误差线
刚刚接触,那就已经表示非常显著了(p value=0.005
)。这些图都能够使用补充材料中的EXCEL来进行重现。你可以自行探索,来发现误差线
,间隔
和p value
之间的关系。
这个EXCEL提供的非常好,使读者能够自行的,快速方便的尝试各种各样的条件下的差异表示。
对于小
样本量
的误差线
需要格外的警惕,他们并不具备鲁棒性。就像在chap2-2中图b中显示的那样,CI
的臂长
随着样本量
的增加越来越短。如果对于小样本量
(例如n=3
),那么最好就直接画出每个个体的值。而且对于一些相关的样本
,例如成对的,那么误差线
的种类就需要一些其他的了(这部分后面的文章会给出)。因此,没有一种
误差线
是凭直觉来确定的。
我的理解就是,应该是万能的,就是需要根据不同的情况选择不同的误差线
。
比如,如果想使用
CI
的误差线
,而且想在p value=0.05
的时候看起来有区别,那么可以选择使用83% CI
而不是95% CI
。
我觉得这样如果在文章中使用,更会让人觉得奇怪,都不如选择95% CI
的臂长
重合。可能大牛的想法我不太能理解,真实性,要比直观上的感觉更重要。
不幸的是,因为方便,所以三种
误差线
都还在使用。只是希望通过这篇文章之后,你能更加自信的解释他们中的含义。