如何正确看待

        新英格兰医学杂志刊出的一篇综述《The Primary Outcome Is Positive — Is That Good Enough?》中[1],作者认为当临床试验的主要结局阳性时,还应当考虑11个问题。(表1)

                                                                     表1. 主要结局阳性时应当考虑的问题

我们将在医咖会微信公众号中分几期讨论这些问题,今天我们先讨论第1个。

一、“P<0.05认为差异有统计学意义”是什么意思?

在看文章、做研究、写文章的过程中,我们经常会看到这样的描述:P<0.05时,认为差异有统计学意义。实际上,这里的“0.05”是研究开始前指定的显著性水平α。那么,“P<0.05时,认为差异有统计学意义”或者“显著性水平α=0.05”到底是什么意思呢?

这里我们先简略解释两个概念。

1、零假设

以比较临床研究中治疗组和对照组用药效果的组间差异为例,判断是否有统计学意义所用的统计思维与中学数学的“反证法”思维类似,即:①假设两组没有差异,②统计检验现有数据,③发现根据现有数据,“假设两组没有差异”这件事情成立的可能性太低,④所以拒绝“假设两组没有差异”,认为“两组之间的差异有统计学意义”。这里的“假设两组没有差异”就是统计分析时的“零假设”。

2、Ⅰ类错误

然而,上述过程中,我们有可能犯错误:即如果“两组没有差异”这件事情是真实的,但是由于各种原因,我们根据现有数据得到的结果可能会发现“两组之间的差异有统计学意义”。这种错误可以类比为实验室检查中的“假阳性”,统计分析时称之为“Ⅰ类错误”,也就是零假设成立时我们错误地拒绝了零假设。

再来回顾前面的问题,大多数研究规定“P<0.05时,认为差异有统计学意义”或者“显著性水平α=0.05”,指的是如果本研究统计推断得到的差异有统计学意义,那么该结果是“假阳性”的概率小于0.05。显然,这个“假阳性”概率越小,我们由样本发现的治疗组和对照组的组间差异,越有可能反应总体的真实情况。

二、多次检验时,“假阳性”率还是0.05吗?

如果以显著性水平α=0.05为水准,对实际上成立的零假设进行n次检验,那么不出现“假阳性”的概率为(1- α)^n,至少出现一次“假阳性”的概率为1-(1- α)^n。n=10时,1-(1- 0.05)^10 =0.40,也就是说,干预措施本来没有差异,但10次假设检验中,至少有一次统计推断有差异(“假阳性”)的概率将达到40%,这么大的“假阳性”率让人难以接受。且随着n增大,1-(1- α)^n将更大。

规定显著性水平α=0.05时,我们可以认为P<0.05时,差异有统计学意义。但是一旦有研究遇到n次多重检验的问题,往往无法承受较高的“假阳性”率,因此会将显著性水平α调低。

三、并非任何情况下α都选取0.05

新英格兰医学杂志发表的一项3期药物临床试验——PARADIGM-HF[2],探讨某新药(代号LCZ696)相比依那普利,是否可以降低心衰患者的死亡和再住院风险时,将整个试验的显著性水平α设定为0.05,但在三次中期分析时,则将α分别定为0.0001、0.001和0.001。也就是说,在三次中期分析时,P值要小于0.0001、0.001和0.001,研究者才认为两组之间的效果差异有统计学意义。中期分析时将α值调低,目的就是降低多重检验时的“假阳性”率。

而另外一些研究,规定的显著性水平会高于0.05,尤其是一些探索性研究中,研究者试图发现创新性结果而暂时允许一定的“假阳性”风险。Lancet Oncol发表的一项2期药物临床试验[3],探讨厄洛替尼联合贝伐单抗是否可以成为EGFR突变的非小细胞肺癌患者新的一线用药时,就将显著性水平α定在了0.2。也就是说,在这个试验中,如果P<0.2,研究者就认为两组之间的差异有统计学意义。

可见,P<0.05并非判断研究结果是否有统计学意义的“万金油”。0.05只是一般情况下人为设定的显著性水平。

参考文献

1. N Engl J Med. 2016;375:971-9.

2. N Engl J Med. 2014;371:993-1004.

3. Lancet Oncol. 2014;15:1236-44.