Error Bars

翻译:btrspg

误差线(error bars)的含义经常被误解成他们的重叠是否是统计显著的。

这是题注,仅仅是题注就让我伤透脑筋。误差线在我之前的理解中,就是如果两个(我也不知道两个后面应该接什么,所以直接省略了)的误差线如果有重叠,那么这两个(我又省略)就不是显著差异的。

在上个月的Points of Significance中,我们给大家展示了,怎么用样本来估计总体的统计参数。我们强调了,由于存在随机的因素,所以我们的估计也有不确定性。这个月我们将着重介绍,在科学刊物中,如何表示这种不确定性,还会揭示不确定性经常被错误解释的一些方式。

在统计估计中的不确定性,一般都会使用误差线来表示。尽管大部分的研究者用过或者看见过误差线,但误差线怎么样能和统计显著性联系起来,仍旧有很多的错误理解。

然后作者引用了一篇很有意思的文献,像是一个问卷调查。

当受访者被要求估计两个有误差线的点是否显著(p=0.05)分离的时候,仅仅只有22%的受访者考虑到了因素2。

我的理解是,不仅仅要看误差线是否分离,还需要知道,误差线是什么的表示。这也就是上文中的因素2。

就像一杯水不能表示水的多少,只有在明确杯子的大小后,一杯水才可以。

事实上,误差线却是能够帮助我们评估两个值是否显著差异,只是在表面看上去令人不太好理解。

In light of the fact that error bars are meant to help us assess the significance of the difference between two values, this observation is disheartening and worrisome.

再次放上原文,感觉又是不太好翻译的。

在此,我们利用一个简单的例子来展示误差线的差异。我们从一个正态分布中以相同的样本容量进行抽样,所获的值的均值就是我们用来展示的数据。

这个真是的很绕。英语不好真是累。同样放上原文。Here we illustrate error bar differences with examples based on a simplified situation in which the values are means of independent (unrelated) samples of the same size and drawn from normal populations with the same spread.

我们使用2-sample t-test计算样本均值的差异的显著性而且以近似P value来展示结果。尽管展示准确P value应该更好,但是为了方便,显著性一般都取阈值为P=0.05。我们会在后面更加详细的讨论P valuet-test

意思很好理解,但是要说出来,真的感觉越来越难。

区分误差线的重要性就像chap2-1中所展示的那样。

chap2-1

图中有三种常用的误差线标准差(s.d.)标准误(s.e.m)还有置信区间(CI)。图中所展示的就是两个样本容量为10的样本的三种误差线的范围,以及他们所对应的均值差异的P value。在chap2-1的a图中,自建的数据使得对于不同的误差线都有相同的长度,并使得2个样本误差线毗邻。

尽管这三对数据还有他们的误差线看起来像是一样的。但是他们分别表示了不同的数据情况,并且还有不同的P value

chap2-1的图b中,我们更换的展现形式,使得P value都是0.05,然后展示不同误差线在相同P value下不同的长度。在这种情况下,三对数据其实是同一对样本,但是误差线却因为不同的类型而具有不同的长度,这不同类型的误差线也表现的是数据的不同的统计特性。

误差线不同长度的情况下就很容易哪对样本看起来更不同。一般情况下,样本间的误差线的空隙并不能说明显著性,同样误差线重叠也不能说明不显著,这都需要明确指明误差线的类型。

对于你来说,是不是特别惊奇,原来还有这样一个内涵在其中。

有些调皮,但却是让我有了更明确的认识,以前的确不区分这一部分。

我们首先要同清楚误差线能够给我们展示的是什么样不确定性,从而避免我们对他的误解。在2012年,《Nature Methods》发表的文献中,约三分之二的图中出现了误差线,剩下的三分之一应该也要展示,却没用误差线

文章中的误差线几乎只分成了s.d.s.e.m.(分别占了45%和49%)。剩下的5%直接没有指明误差线的类型。只有一篇用到了95%CI误差线。其实在医学文献中,CI应该是对于测量的不确定性更加直观的表现。

更好的用的更少,因为从上述的结果中,感觉CI表现的更加中庸。而不像s.d.或者s.e.m.那样极端。

对于使用s.d.误差线,能够提供给我们的信息是总体的宽度(spread),如果是对于预测新的样本的范围是比较有用的。如果刚好,总体的宽度特别的极端(特大或者特小),使用s.d.也能很好的强调这一个重点。因为s.d.并不能直接的反映出来数据的差异性。

文中对此给出了些许建议。

如果使用s.d.作为误差线,那么最好是能告诉读者,s.d.误差线反映的是数据的变化,而不是测量中的错误

这一点我认为非常重要,误差线真正想要表示的意思应该是误差,也就是我的数据测量可能产生的错误,而不是想表示这个数据真实的样子

那么,对于一个特别大的s.d.,而且还有重合,并且还能计算出p value为0.05,这样一个情况,读者应该得出一个什么样的结论(如chap2-1中的b图)。他们也能表示差异,如果有足够的样本量的情况下,他们如果有重合,说明两个总体之间本身就有重合。

这段的理解就不是特别深刻,没有太明白真正的意思。

s.d.不同,基于s.e.m.误差线则是反映了样本的均值和他样本容量之间的不确定性$s.e.m.=\frac{s.d.}{\sqrt{n}}$。s.e.m.随着测量数据的增加,逐步收敛。这也就导致一种不幸,那就是当s.e.m.表示的误差线不重叠的时候,就认为是统计上的显著差异,那显然是错误的。

这就是直观上给予我们的错误提示。

例如,当n=10的时候,s.e.m.线就是刚好接触,p value=0.17,如chap2-1的图a。相反,如果要达到p value=0.05s.e.m.线则要间隔0.86倍的臂长。我们不能夸大的说,分辨s.d.s.e.m.有多么重要。

我却觉得挺重要的,至少能够给予一个清晰的认识,在读文章的时候,能够快速的分辨出,这是否真的具有显著差异。

第三种误差线就是CI了。CI:置信区间就是一个能够估计测量可信度的范围。

从名字中也能得出,他所表示的意思就是我们能够信任的区间。

当我们考虑一个特别的置信度,例如95% CI就是一个特别常用的置信区间。表示的就是这条线能够捕获到总体均值的百分比,如chap2-2图a。

chap2-2

这个需要再次理解一下,就如图中所示,表示如果从这样一个总体中进行抽样,这样的样本的均值需要有多长的才能保证100次中,有95次都能摸到总体的均值。

后续是不是应该了解下CI到底如何计算

~我的理解是他是一个类似与s.e.m.的存在,但是他并不会随着n的变化而显著的变化,他更像反映出的是一个总体真实的状态,及真实的变化~然而并不是,理解上错误了(但是从图中可以看到, CIs.e.m.都会随着n变化,而$\sigma$(s.d.)才是真正不变化,表示真正状态的)。

chap2-2的图b,我们比较了s.e.m.95% CI。如果用T-test来检验s.e.m.CI,他们是相关的(也就是不是显著差异)。当n很大的时候,s.e.m.就几乎表示的是67% CICI也是和n相关的。有两个比较有用的近似:

95%4×s.e.m.(n=3)95%2×s.e.m.(n>15) 95\% \approx 4 \times s.e.m.(n=3) 95\% \approx 2 \times s.e.m.(n>15)

有一个关于CI特别常见的错误观念,就是CI是捕获到同样总体抽样样本均值落在这个区间中有95%的概率。因为CI的位置和长度是和样本相关的。所以这个可能性并不高。

CI只得是总体的均值在这个区间内,不是另一次的抽样样本的均值会落在这个范围。

误差线的这些选择中,得到真正显著的而且能够通过可视化看到的关系是很有挑战的。我们在chap2-3中提供了相同p value的不同类型的误差线的臂长差异。

chap2-3

对于s.e.m.来说,直到两个样本误差线之间的间隔差不多到达一个臂长的时候,p value才能达到0.05。而与此同时,95% CI误差线却都已经重叠到差不多50%了,这都是两个样本显著差异。如果95% CI误差线刚刚接触,那就已经表示非常显著了(p value=0.005)。这些图都能够使用补充材料中的EXCEL来进行重现。你可以自行探索,来发现误差线间隔p value之间的关系。

这个EXCEL提供的非常好,使读者能够自行的,快速方便的尝试各种各样的条件下的差异表示。

对于小样本量误差线需要格外的警惕,他们并不具备鲁棒性。就像在chap2-2中图b中显示的那样,CI臂长随着样本量的增加越来越短。如果对于小样本量(例如n=3),那么最好就直接画出每个个体的值。而且对于一些相关的样本,例如成对的,那么误差线的种类就需要一些其他的了(这部分后面的文章会给出)。

因此,没有一种误差线是凭直觉来确定的。

我的理解就是,应该是万能的,就是需要根据不同的情况选择不同的误差线

比如,如果想使用CI误差线,而且想在p value=0.05的时候看起来有区别,那么可以选择使用83% CI而不是95% CI

我觉得这样如果在文章中使用,更会让人觉得奇怪,都不如选择95% CI臂长重合。可能大牛的想法我不太能理解,真实性,要比直观上的感觉更重要。

不幸的是,因为方便,所以三种误差线都还在使用。只是希望通过这篇文章之后,你能更加自信的解释他们中的含义。

results matching ""

    No results matching ""