如何正确看待

时间 2020-12-28

新英格兰医学杂志刊出的一篇综述《The Primary Outcome Is Positive — Is That Good Enough?》中[1]，作者认为当临床试验的主要结局阳性时，还应当考虑11个问题。（表1）

表1. 主要结局阳性时应当考虑的问题

我们将在医咖会微信公众号中分几期讨论这些问题，今天我们先讨论第1个。

一、“P<0.05认为差异有统计学意义”是什么意思？

在看文章、做研究、写文章的过程中，我们经常会看到这样的描述：P<0.05时，认为差异有统计学意义。实际上，这里的“0.05”是研究开始前指定的显著性水平α。那么，“P<0.05时，认为差异有统计学意义”或者“显著性水平α=0.05”到底是什么意思呢？

这里我们先简略解释两个概念。

1、零假设

以比较临床研究中治疗组和对照组用药效果的组间差异为例，判断是否有统计学意义所用的统计思维与中学数学的“反证法”思维类似，即：①假设两组没有差异，②统计检验现有数据，③发现根据现有数据，“假设两组没有差异”这件事情成立的可能性太低，④所以拒绝“假设两组没有差异”，认为“两组之间的差异有统计学意义”。这里的“假设两组没有差异”就是统计分析时的“零假设”。

2、Ⅰ类错误

然而，上述过程中，我们有可能犯错误：即如果“两组没有差异”这件事情是真实的，但是由于各种原因，我们根据现有数据得到的结果可能会发现“两组之间的差异有统计学意义”。这种错误可以类比为实验室检查中的“假阳性”，统计分析时称之为“Ⅰ类错误”，也就是零假设成立时我们错误地拒绝了零假设。

再来回顾前面的问题，大多数研究规定“P<0.05时，认为差异有统计学意义”或者“显著性水平α=0.05”，指的是如果本研究统计推断得到的差异有统计学意义，那么该结果是“假阳性”的概率小于0.05。显然，这个“假阳性”概率越小，我们由样本发现的治疗组和对照组的组间差异，越有可能反应总体的真实情况。

二、多次检验时，“假阳性”率还是0.05吗？

如果以显著性水平α=0.05为水准，对实际上成立的零假设进行n次检验，那么不出现“假阳性”的概率为(1- α)^n，至少出现一次“假阳性”的概率为1-(1- α)^n。n=10时，1-(1- 0.05)^10 =0.40，也就是说，干预措施本来没有差异，但10次假设检验中，至少有一次统计推断有差异（“假阳性”）的概率将达到40%，这么大的“假阳性”率让人难以接受。且随着n增大，1-(1- α)^n将更大。

规定显著性水平α=0.05时，我们可以认为P<0.05时，差异有统计学意义。但是一旦有研究遇到n次多重检验的问题，往往无法承受较高的“假阳性”率，因此会将显著性水平α调低。

三、并非任何情况下α都选取0.05

新英格兰医学杂志发表的一项3期药物临床试验——PARADIGM-HF[2]，探讨某新药（代号LCZ696）相比依那普利，是否可以降低心衰患者的死亡和再住院风险时，将整个试验的显著性水平α设定为0.05，但在三次中期分析时，则将α分别定为0.0001、0.001和0.001。也就是说，在三次中期分析时，P值要小于0.0001、0.001和0.001，研究者才认为两组之间的效果差异有统计学意义。中期分析时将α值调低，目的就是降低多重检验时的“假阳性”率。

而另外一些研究，规定的显著性水平会高于0.05，尤其是一些探索性研究中，研究者试图发现创新性结果而暂时允许一定的“假阳性”风险。Lancet Oncol发表的一项2期药物临床试验[3]，探讨厄洛替尼联合贝伐单抗是否可以成为EGFR突变的非小细胞肺癌患者新的一线用药时，就将显著性水平α定在了0.2。也就是说，在这个试验中，如果P<0.2，研究者就认为两组之间的差异有统计学意义。

可见，P<0.05并非判断研究结果是否有统计学意义的“万金油”。0.05只是一般情况下人为设定的显著性水平。

参考文献

1. N Engl J Med. 2016;375:971-9.

2. N Engl J Med. 2014;371:993-1004.

3. Lancet Oncol. 2014;15:1236-44.