统计学基础遭质疑! p值、信赖区间为何被800名科学家连名反对?

显著性这一概念是支撑统计学发展的大厦。

统计学课本中写到:没有统计显著性则不能“证明”零假设(关于两组之间无差或者两个实验组和对照组的假设)。同时,统计显著性也不“证明”其他假设。

三位统计学教授主张:反对统计学意义、停用 p 值为判断标准。

近日Nature 杂志发布了三位统计学家的一封公开信表示: 这种误解用夸大的观点扭曲了文献,而且导致了一些研究之间的冲突。

注:这三位统计学家是:Valentin Amrhein,瑞士巴塞尔大学的动物学教授;Sander Greenland,加州大学洛杉矶分校的流行病学和统计学教授;Blake McShane,伊利诺州埃文斯顿西北大学的统计学方法学家和营销学教授。

这篇公开信名为《科学家们起来反对统计学意义》(Scientists rise up against statistical significance)。 正如标题所言这三位号召科学家放弃追求“统计学意义”,并且停止用统计学中常见的 p 值作为判断标准。

因为p 值可能会误导科学决策

首先明确必须停止的事:我们不应该仅仅因为 p 值大于某个临界值,比如 0.05 或者因为零在信赖区间,而下结论说两组之间“没有差异”或者“没有关联”。 也不应断定,因为一个研究的假设检验的结果有统计显著,而另一个假设检验没有,因此这两个研究存在冲突。 这些错误会浪费研究工作并误导科学决策。

比如说,在一系列研究消炎药的服用效果的研究中,因为这些研究的结果没有呈现统计的显著性,一些研究人员就下结论说服用这些药物与新发的心房颤动(最常见的干扰心跳频率的症状)没有关联,同时这一结果与那些早期呈现统计显著的研究相悖。

我们不如一起来看看实际的数据。研究学者声称他们的没有呈现统计显著性的结果的风险比(相对危险程度:暴露组的发病率与未暴露组的发病率之比,用于说明前者是后者的多少倍)是1.2(服用药物比没有服用的风险高20%)。

他们还发现 95% 的信赖区间跨越了从微不足道的风险降低 3% 到非常显著的风险增加 48%(p 值为 0.091)。 而对比前一组,声称结果呈现显著性的研究,风险比也是 1.2。 他们的研究只是更加精确,风险间隔区间在 9% 到 33% 之间(p 值为 0.0003)。

没有呈现统计显著性的结果表示“没有关联”,而信赖区间却包含一定程度上风险是非常可笑的。 同理,因此断言这些结果是矛盾的但是结果却相同(风险比都是 1.2)也是滑稽的。 但是这些习以为常的做法说明依赖于统计临界值会误导我们。

这些相似的错误到处都有:对数以百计的文章的调查已经发现,统计上不显著的结果被解释为表示“无差异”或“无影响”在一半左右。

800 位学者连名呼吁停止使用p 值定义假设

2016 年,美国统计协会(ASA)发布了一篇声明警告那些不恰当的使用假设检定和p 值的学者。这个月,nature 期刊发布了特刊试图进一步推进这方面的改革,并刊登超过40 篇关于“21 世纪统计推断:P <0.05 以外的世界” 的学术论文(附上论文地址)。

另一篇文章与几十位签署者呼吁作者和研究者停止使用这些词语。 我们也同样赞成这个号召,并呼吁这个统计概念被禁止。

我们并不是孤身一人,这个活动发起后, 在最初的24 小时已经有250 人签下了名字。 一周以后,签署者增加到了 800 位 ,这些签名的人来自学术机构或者之前或现在从事着统计建模相关的领域。

除南极洲以外的各个洲的统计学家,临床或药物研究人员,生物学家,心理学家也都签下了名字。 一名宣导者称,这是“对统计意义轻率测试的外科手术式打击”,也是“一个为更好的科学实践发声的机会”。

统计学家并非全盘否定p 值,而是保留偏差性

同时,三位统计学家也强调, 我们并不禁止p 值的使用,也没有说 p 值不能在某些领域当做决策标准,比如决定生产过程符合某些品质控制标准。 我们也不提倡什么都可以,不可信的证据突然变可信。 我们仅仅只是提议在常规的,二分法的情况下不用 P 值来决定一个结果是否反驳一个科学假设。

问题不是出在于统计,而在于人类和认知: 将结果分为“统计显著”和“统计不显著”让人以为这种方式的分类的结果或者项目是完全不同的。 任何提出的涉及二分法的统计替代方案都可能出现同样的问题,无论是频率论,贝叶斯方法还是其他的方法。

不幸的是,科学家和期刊编辑们错误地认为,超过统计意义的临界值就足以证明一个结果是“真实的”,这导致他们对这类结果给给了特权,从而扭曲了研究结果。 统计上有意义的估计值在大小上向上偏倚,而且可能偏差的幅度很大,而统计上不显著的估计值是向下偏倚的。

因此, 任何侧重于为其重要性选择的估计的讨论都会有偏差 。除此之外,对统计学意义的严格关注鼓励研究人员选择数据和方法,这些数据和方法对某些期望的(或简单可发布的)结果产生统计学意义,或者对不希望的结果产生统计学上的无意义,例如潜在的副作用。

预先登记研究和承诺公布所有分析的所有结果可以减轻这些问题。 然而,也可能会因分析计划中始终存在的决定而产生偏见。 即使是出于好意,这也会发生。

“兼容区间”取代p 值和信赖区间,接受不确定性

同样, 我们并不主张放弃P 值,信赖区间或其他统计措施,只是我们不应该武断对​​待它们。 包括统计上的二分法,以及基于其他统计测量(例如贝叶斯因素)的分类。

避免这种“二分法”的一个原因是所有的统计数据,包括P 值和信赖区间,在各个研究之间自然会有所不同,并且差异通常会达到令人惊讶的程度。 事实上,单独的随机变化很容易导致 P 值的大幅度波动,远远超 过 0.05 阈值的任何一侧。

例如,即使研究人员可以对一些真实效应进行两次完美的复制研究,每次都有80% 的力量(偶然性)达到P <0.05 ,一个获得P <0.01 而另一个 P> 0.30 就不足为奇了。 无论 P 值是小还是大,都需要谨慎。

我们必须学会接受不确定性。 一种实用的方法是将信赖区间重命名为“兼容区间”,并以避免过度自信的方式解释它们。 具体而言,我们建议作者描述区间内所有值的实际含义,尤其是观察到的效应(或点估计)和上下限。

在这样做时,他们应该记住,在给定用于计算区间的统计假设的情况下,区间上下限之间的所有值都与数据合理地兼容。 因此,在区间中挑出一个特定值(例如空值)为“显示”是没有意义的。

我们厌倦了在演示文稿,研究文章,评论和教学材料中看到这种荒谬的“无效证明”和非关联主张。 包含空值的区间通常还包含具有高实用重要性的非空值。 也就是说,如果你认为区间内的所有值实际上并不重要,那么你可能会说“我们的结果非常具有兼容性,但重要性并不高”。

“兼容区间”四大应用,让推论超出统计决定论

在谈论兼容性区间时,请记住四件事。 首先,给定假设的条件下,仅仅因为区间给出了与数据最兼容的值是不恰当的,因为这并不 意味着它之外的值是不兼容的;其他值只是兼容性较差。 实际上,区间之外的值与区间内的值没有实质性差异。 因此声称区间显示了所有可能的值是错误的。

其次,根据假设,并非所有内部值都与数据同等兼容。 点估计是最兼容的,其附近的值比接近上下限的值更兼容。 这就是为什么我们敦促作者讨论点估计,即使它们具有较大的 P 值或较宽的区间,以及讨论该区间的上下限。

例如,上述作者可能写道:与以前的研究一样,我们的研究结果表明,给给抗炎药物的患者新发房颤的风险增加了20%。 尽管如此,根据我们的假设,风险差异从 3% 增加 20% 和从 48% 增加 20%,影响显然是不一样的,也与我们的数据合理地兼容。 解释点估计,同时承认其不确定性 ,将阻止你做出“无差异”的虚假结论,并避免过度自信的论断。

第三,与它来自的0.05 阈值一样,用于计算区间的默认95% 本身就是一种任意约定。 计算的区间本身有 95% 的可能性包含真值是错误的,再加上模糊的感觉,这是一个信赖区间决定的基础。 根据应用,可以证明不同的信赖水准是合理的。 并且,如在抗炎药物实例中,当它们施加的二分法被视为科学标准时,区间估计可以使统计显著性的问题永久存在。

最后,最重要的是要保持谦虚: 兼容性评估取决于用于计算区间的统计假设的正确性。实际上,这些假设充其量只有很大的不确定性。尽可能清楚地做出这些假设并测试你可以做的假设,例如搭建数据并拟合替代模型,然后报告所有结果。

无论统计数据显示什么,都可以提出可能的原因,但应当讨论所有潜在的解释,而不仅仅是有利的解释。 推论应该是科学的,并且远远超出统计。背景证据,研究设计,数据品质和对潜在机制的理解等因素通常比统计指标(如 P 值或区间)更重要。

统计学退休,是盼统计方法和数据清单更加周全

我们听到的让统计学退休的观点是,我们必须做出是或否的决定。但对于监管,政策和商业环境中经常需要做出的选择,往往是基于所有潜在后果的成本、收益和可能性的决策,而不是仅基于统计显著性的决策。此外,对于是否进一步追求研究思想的决定,P 值与后续研究的可能结果之间不是简单的联系。

让统计学退休意义是什么呢?我们希望统计方法和数据清单更加详细和细致。作者应该强调他们的估计和不确定性。 例如,明确地讨论它们的区间的下限和上限。这不会依赖重要性测试。

当报告P 值时,它们将以合理的精度给出(例如,P = 0.021 或P = 0.13),没有星形或字母之类的装饰来表示统计显著性而不是二元不等式(P < 0.05 或P> 0.05)。 解释或发布结果的决定不会基于统计阈值。人们花在统计软件上的时间会更少,而且更多的时间在思考。

我们要求停止滥用统计学意义,信赖区间作为兼容性区间并不是灵丹妙药。 虽然信赖区间会消除许多不良做法,但它很可能会引入新的做法。 因此,监测文献中的统计滥用应该是科学界的一个优先事项。

但是,当原始和复制研究的结果高度兼容时,根除分类将有助于制止过度自信的主张,无差别的“无差异”声明以及关于“复制失败”的荒谬声明。

滥用统计意义对科学界和依赖科学建议的人造成了很大的伤害。 P 值、区间和其他统计测量都有它们的作用,但现在是统计意义真正引起大家注意的时候了。