稳准狠!新冠围城,数据辅助医院做出更佳选择

全文共1467字,预计学习时长5分钟

 

图源:unsplash

 

新冠来袭,人类该怎样应对?快速做出精准有效的决策,是疫情感染爆发期的首要任务,不得不说,大数据这次帮了大忙。

 

为了构建用于理解COVID-19的多样发展的全面模型,我将应用分析时间序列模型来评估新冠病毒住院患者的人数增长。时间序列模型的常见要求是平滑,是用于消除数据噪声的常用技术。

 

在这个背景下,我们的目标是了解在有数据噪声的基本情况下,是否存在新冠病人住院治疗数量的平稳增长过程。

 

首先需要获得数据,我们将使用2020年1月1日至2020年2月28日爆发初期的计数数据。为什么是这个时间呢?我们希望估计疫情爆发之初住院人数的增长,稍后将显示这部分数据的重要性。

 

 

 

数学阅读太过乏味,我将简要解释模拟计数数据的方法。我的目标是利用观测数据对()进行模拟,(t)为新冠肺炎在第t天的住院数量。理想情况下,我们希望可以对今后第t天的住院人数进行预言。

 

在广义线性模型中,我们可以通过指数族的任意分布(称为潜在变量Z)对进行建模,其均值是线性函数T(一个随机变量表示t的可能值)的一个可逆函数。一旦在模型中指定输出分布和链接功能,我们接下来需要找到最大似然估计参数β。估计出参数β后,我们可以使用β预测输入不同的T时的值。

 

跳过证明部分,我们发现了下列公式:

 

 

到目前,这个模型看上去可以实现。直观地说,我们希望对于的值有一个平均似然估计量Z。我们假设Z的指数增长是可靠的(根据流行病学)。公式2-4为该广义线性模型的导出链接函数、参数和输出分布。在这种情况下,输出分布是符合泊松分布的。

 

现在让我们来拟合模型,在和Z上拥有95%的置信区间。

 

输出分布为泊松分布的模型

 

这个模型有一个不寻常之处,模型增长率的置信区间值过高,且不能准确地捕捉到计数数据可变性。这种现象的产生主要是由于泊松分布的方差较小,称为过分散。

 

为了解决这个问题,我们可以用一个新的输出分布(目前是泊松分布)来代替它,可用于解释过度分散。负二项分布也可以对计数数据进行建模,同时允许比相同均值的泊松分布更广泛的方差。

 

输出分布为负二项分布的模型

 

即使在使用负二项分布来改进模型后,我们也应注意如何对结果进行解释。是否可以使用该模型理解新冠病人的住院率在未来会呈现指数增长?在解释该结果时,需要注意以下几个因素:

 

1. 增长较快的亚群可能增长数很快达到饱和,然后总体住院人数的剩余增长将由于其他增长较慢的亚群提供。

 

2. 新冠病例的数据(确诊病例,住院病例等)具有时间差(这个时间差可能是随机的)。

 

3. 确认的新冠病例数量由于漏报(大多数未接受检测的受感染者)和检测能力的增长(增加的检测总人数),可能受到影响。

 

4. 指数增长模型假设了医院容量的无限,没有考虑住院人数的饱和,也不包括死亡人口。

 

图源:unsplash

 

尽管这两个模型都有局限性,但它们仍然是有启发的。虽然随着时间的增长,指数增长通常不能模拟传染病的爆发,但是指数增长模型的确可以模拟爆发的初始阶段。

 

如果我们能在疫情爆发的最初阶段估计和限制住院人数的潜在增长,就能提前准备设备并估计针对医院的医疗需求。可见,数据的的合理利用能在关键时刻发挥大作用,无数人的生命将被拯救。

 

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)