在研究儿童长新冠时发现的统计问题

统计检验需要与适当的数据和研究设计相结合,才能得出有效结果。最近一篇关于儿童长新冠的综述文章提供了一个有用的例子,说明研究人员在这方面可能出错。我们使用因果图来分解问题并说明错误发生在哪里。
健康
技术
作者

Jeremy Howard

发布日期

2021年10月17日

摘要统计检验需要与适当的数据和研究设计相结合,才能得出有效结果。最近一篇关于儿童长新冠的综述文章提供了一个有用的例子,说明研究人员在这方面可能出错。我们使用因果图来分解问题并说明错误发生在哪里。

背景

澳大利亚和瑞士医生最近发表的一篇综述文章《长新冠在儿童和青少年中有多普遍?》在媒体上引发了广泛讨论,共有103家媒体发表了128篇新闻报道。头条新闻令人安心

但实际上,这篇论文并未断言以上任何说法,而是总结称“这种综合征在儿童和青少年中的真实发病率仍不确定。”然而,准确的科学新闻报道所面临的挑战并非我们今天的文章主题。相反,我们将描述这篇综述中统计分析的一个关键缺陷,以此作为更好地理解如何解释统计检验的练习。

这篇综述的一个关键贡献在于它将使用“对照组”的研究与不使用的研究区分开来。作者认为我们应该关注那些带有对照组的研究,因为“在没有对照组的情况下,无法区分长新冠症状与大流行引起的其他症状。”美国国家科学院警告称,“使用不适当的对照组可能导致研究无法得出有意义的结论。”正如我们将要看到的,不幸的是,这篇综述中就发生了这种情况。但首先,让我们简要回顾一下对照组和统计检验。

对照组和随机对照试验

在评估一项干预措施的影响时,例如使用新药,黄金标准是使用随机对照试验 (RCT)。在随机对照试验中,选择有代表性的样本,并随机分成两组,其中一组接受医疗干预(例如,药物),另一组不接受(通常接受安慰剂)。如果进行顺利,这可以清楚地显示药物是否产生了效果。通常会计算一个“p值”,它是如果在病例组和对照组之间确实没有差异(即零假设为真)的情况下,数据中观察到的效果偶然发生的概率,同时还会计算一个“置信区间”,它是考虑随机变异后预期的结果范围。如果p值小于某个数值(通常是0.05),则认为该随机对照试验具有“统计学意义”。如果没有随机对照试验,就更难区分两组的差异是由于干预措施引起的,还是由于两组之间的其他差异引起的。

我们可以将这种分析表示为如下所示的图表

随机对照试验的因果图

这是一个(简化和非正式的)因果图示例。黑色箭头显示了我们可以测量或控制的直接关系——在这种情况下,我们对对照组和实验组的选择用于决定谁获得药物,然后我们根据我们对组的选择测量每组的结果(例如,症状是否改善)。由于选择是随机的(因为这是随机对照试验),我们可以推断出虚线:服用药物会改变结果多少?如果对照组或实验组的规模很小,那么两组结果之间的差异可能完全是由于随机偶然性造成的。为了处理这种情况,我们将效应大小和样本量输入统计软件,例如R,它将告诉我们效应的p值和置信区间。

由于随机对照试验是评估医疗干预效果的黄金标准,因此只要有可能就会使用它们。市场上几乎所有的药物都经过了多次随机对照试验,并且大多数医学教育都包含了对随机对照试验的使用和解释的讨论。

对照组和观察性研究

有时,正如《人类群体观察性研究的规划》中所讨论的,“使用对照实验是不可行的”,但我们想研究变量之间的因果关系,在这种情况下,我们可能会决定使用观察性研究。例如,研究“吸烟与健康之间的关系”、“机动车事故伤害的风险因素”或“新社会项目的效果”。在这种情况下,不可能像在随机对照试验中那样创建一个真正的“对照组”,因为我们通常无法随机分配人们,例如,将他们分配到一个被告知开始吸烟的组。

相反,我们必须努力找到两组尽可能相似、但仅在研究变量上有所不同的群体——例如,一组吸烟者和一组在人口统计学特征、健康等方面相似的非吸烟者。这可能具有挑战性。事实上,尽管进行了多次观察性研究,但“吸烟是否致癌”的问题几十年来一直存在争议。

研究人员指出,“观察性研究的结果可能会混淆关注效应与其他变量的效应,从而导致非因果关联。如果临床医生和研究人员能够可视化临床研究中偏差的结构,那将会很有帮助”。他们建议为此目的使用因果图,包括帮助避免在流行病学研究中的混杂偏倚。那么,现在就让我们试试吧!

长新冠综述的结构

《长新冠在儿童和青少年中有多普遍?》一文中,作者建议我们关注包含对照组的长新冠患病率研究。其思路是选取一组患有(或曾患有)COVID的儿童,以及一组未患COVID的儿童,然后在几周或几个月后观察他们是否出现长新冠症状。因果图如下所示:

长新冠患病率的理想化因果图

这里我们试图确定COVID感染是否会导致长新冠症状。由于COVID感染是对照组选择的基础,并且我们可以比较各组的长新冠症状,这将使我们能够推断出问题的答案。综述文章中报告的统计检验仅在这种结构正确时才适用。

然而,事情并非如此简单。我们并不能直接知道谁感染了COVID,而是必须通过检测(例如血清学、PCR 或快速检测)来推断。如今,在计算机上运行统计检验非常容易,人们很可能会禁不住直接使用软件并报告其结果,而忽略仔细检查数据和研究设计是否符合其中隐含的统计假设。

我们可能希望可以像这样修改我们的图表

包含检测的理想化因果图

在这种情况下,我们仍然可以直接推断出虚线(即“COVID感染是否导致长新冠症状?”),因为只有一个未知关系,并且所有箭头都指向同一方向。

但不幸的是,这也不行。检测结果与感染之间的关联并非完美无缺。例如,一些研究人员估计PCR检测可能会漏掉一半,甚至90%的感染部分原因在于“SARS-CoV-2抗体检测的阈值通常是使用有症状、经常住院的患者样本确定的”。其他研究发现,36%的感染者不会血清转化,尤其是儿童可能出现血清逆转。假阴性检测结果似乎在儿童中更常见——检测在用于中年男性时最敏感

更复杂的是,研究表明,“长新冠与抗SARS-CoV-2抗体反应弱有关。”

综合来看,我们的图表现在如下所示,这里的红色箭头表示负相关关系

包含部分混杂因素的因果图

这表明检测结果不仅与COVID感染有关,还与年龄和长新冠症状有关,而且COVID感染与检测结果之间的关联并不完美且未被完全理解。

正因如此,我们现在无法直接推断出COVID感染长新冠症状之间的关系。我们首先需要充分理解和解释混杂因素和不确定性。在这种情况下,简单地报告统计检验结果并不能提供有意义的信息。

特别是,我们可以看到我们识别出的所有问题都朝着同一个方向偏倚数据:它们导致感染病例被错误地归入对照组。

有关此问题的更多详细信息,请参阅Nisreen Alwan MBE博士撰写的文章《长新冠:对照选择相关问题》

p值的局限性

该综述声称,“迄今为止的所有研究都存在显著局限性,或未能显示出SARS-CoV-2感染儿童与未感染儿童之间的差异”。这一主张似乎是基于p值,综述中显示了每项对照组研究的p值。除一项研究外,所有研究实际上都发现被比较的两组之间存在统计学上的显著差异(p<0.05,这是此类分析通常采用的阈值)。

无论实际结果如何,这里的p值使用方式并不恰当。美国统计协会(ASA)发布了一份“关于统计学意义和p值的声明”,其中包含了正确使用和解释p值的六项原则。特别是,请注意以下原则:

  • p值并不衡量所研究假说为真的概率,也不衡量数据仅由随机机会产生的概率。
  • 科学结论以及商业或政策决策不应仅基于p值是否通过特定阈值。
  • p值,或统计学意义,并不衡量效应的大小或结果的重要性。

数据越多,或数据中的关系越强,p值越低(反之亦然)。较高的p值不一定意味着数据中不存在关系——它可能仅仅意味着收集的数据不够。

由于p值“不衡量效应的大小或结果的重要性”,它们实际上并不能告诉我们长新冠的患病率。在研究药物疗效时,使用p值非常普遍,因为我们确实经常想回答“这种药物是否完全有效?”的问题。但要评估患病率可能的范围,我们反而需要查看置信区间,这篇综述中不幸地完全没有显示。

此外,我们不应该孤立地看待p值,而需要同时考虑替代假说的可能性。综述中提供的替代假说认为,这些症状可能是由于“封锁措施,包括学校停课”造成的。

其中一项包含的对照组研究作为一个异常值脱颖而出,该研究发现10%的检测结果为阴性的瑞士儿童出现了长新冠症状,这比其他类似研究的比例高出许多倍。这是由于前一节讨论的混杂效应造成的,还是由于封锁和学校停课造成的?瑞士并未实行全面封锁,学校也仅短暂关闭,在该研究中进行长新冠症状检测的近一年前就已重新开放。另一方面,瑞士可能病例数量非常高。维基百科指出,“瑞士政府的官方政策是不检测仅有轻微症状的人”,并且在一个仅有800万人口的国家中,仍然记录了近90万病例。

在统计设计中,除非我们相当确定替代假说代表了正常的基线行为,否则不应将其视为零假说。但假设对照组中发现的症状是由除感染以外的大流行因素造成的,这本身就是一个需要仔细检验的假说,并且似乎没有得到研究数据充分支持。像综述中那样将其作为基础案例来使用,这种设计并不恰当。

结论和后续步骤

对照组定义的问题、统计检验的不当使用以及统计设计问题并未改变该综述的关键结论:“这种综合征在儿童和青少年中的真实发病率仍不确定。”那么,我们如何解决这种不确定性呢?

该综述对未来研究提出了一些建议,以增进我们对儿童长新冠患病率的理解。正如本文所见,我们也需要更仔细地考虑和解释混杂偏倚。在更复杂的因果关系中,如上所述,数学上通常有可能推断出关联。然而,这样做需要对因果结构中的所有关系有全面和准确的理解。

此外,还需要对混杂因素进行更完整和严格的评估。本文仅触及了其中一个方面:对照组的偏倚。在“长新冠症状”节点上的偏倚也需要考虑。例如:是否考虑了所有长新冠症状;是否存在由于儿童沟通或理解困难导致的漏报;是否存在由于性别偏倚导致的漏报;是否正确追踪了“时有时无”的可变症状;等等。

无论解决方案最终如何,至少在一段时间内,长新冠在儿童中的患病率似乎仍将不确定。父母、医生和政策制定者如何应对这种风险和不确定性,将成为世界各地儿童面临的一个关键问题。

致谢

非常感谢Hannah Davis、Deepti Gurdasani博士、Rachel Thomas博士、Zoë Hyde博士以及Nisreen Alwan MBE博士为本文的研究和审阅提供的宝贵帮助。