论文阅读——利用Inceptioin V3在PET上进行AD预测

分享一篇用18F-FDG PET进行AD预测的文章,下面是一些本人的理解。

论文信息:Ding, Y., Sohn, J. H., Kawczynski, M. G., Trivedi, H., Harnish, R., Jenkins, N. W., … Franc, B. L. (2019). A deep learning model to predict a diagnosis of Alzheimer disease by using 18 F-FDG PET of the brain. Radiology, 290(3), 456–464. https://doi.org/10.1148/radiol.2018180958

本人依照着从数据到模型,再到结果这样一条线来介绍,可能有些地方和原文顺序不太相符。

一、数据及预处理

1.数据集

在这里插入图片描述
除非特别说明,表中数据为平均值±标准偏差,括号中一个是范围,一个是男性患者的百分比。

本文所使用的ADNI Set 包含2005年5月到2017年1月的1002名个体,共2109张PET影像。

ADNI Set 中的90%(1921张影像,899名个体)用于训练模型,10%(188张影像,103名个体)用于测试,同时还有一个由40名个体组成的独立测试集。该测试集来自作者所有单位,采用下图的条件来筛选。所有患者来自神经记忆科,首先排除没有PET数据的患者,然后排除属于ADNI的患者,最后选出40名患者。

在这里插入图片描述

在这里插入图片描述
除非特别说明,表中数据为平均值±标准偏差,括号中一个是范围,一个是男性患者的百分比。

独立数据集包括了从2006年到2016年的患者。

对于这两个数据集,所有随访检查后的最终临床诊断被用作基本真实性标签。

2.预处理

在这里插入图片描述
这个预处理部分本人对中间的理解有些欠佳,在这里先贴上原文,下图是原文汇总提到的Fig 2。之后再写本人的理解。

本文采用了一种网格方法来处理原始的图像。

首先将图像重采样到 2mm 各向同性体素,并裁剪到 100x100x90 像素网格,从而产生 200x200x180mm3 的体积。

然后利用Otsu阈值(应该是指Otsu算法)选择脑体素。

通过选择头顶和头部最底端超过 100x100mm2 的脑软组织,将总体积分成16个均匀间隔的部分,并分布到4x4的网格中。(如下图A)

论文中有两个词语:cranial-most 和 caudal-most,我理解为头顶和头部最底端,如果有人知道具体指什么位置可以留言。

在这里插入图片描述
在上图中:
A,76岁的AD患者;B,83岁的MCI患者;C,80岁的non-AD/MCI患者

二、模型

在这里插入图片描述
本文的模型采用的是Inceptioin V3,使用了11个Inception模块,三个大小为1024、512和3的全连接层。
该模型在ImageNet数据集上进行了预训练,并进一步进行了微调。

在全连接层之前使用dropout=0.6作为正则化方法。
batch size=8,learning rate=0.0001,损失函数:交叉熵(categorical cross entropy)。

模型的输入是由预处理步骤产生的的二维图像,即4×4网格上的16张切片,同时文中提到该图像是512x512大小的矩阵。

在训练模型时使用了数据增强的手段:随机地将高度和宽度偏移0-10%,缩放0-8%。

三、结果

1.模型结果

在这里插入图片描述
上图展示了该文章所使用模型在ADNI Set 和独立数据集的表现,以及放射科医师在独立数据集的诊断表现。
文章中提到首先由三位分别有着36、14、5年经验的医师对一个病人进行连续的定性和定量解释。
解释包括两个组成部分:一个是PET图像在轴向、矢状面和冠状面的定性解释,另一个是使用临床神经分析软件包完成的半定量区域代谢分析。
如果三位医师意见未统一,则再由两位分别有1年和13年经验的医生来做出判断,然后以多数人的意见作为结果。

我们可以看到,与放射科医生相比,模型在识别成为AD的患者方面表现更好。

在这里插入图片描述
上图为在剩余10%的ADNI Set上测试模型得到的ROC曲线。

在这里插入图片描述
在95%置信区间的设置下,模型以及医师在独立测试集测试得到的ROC曲线
在独立测试集上,模型在统计上显著地改善了对AD患者的识别。该模型对非AD/MCI患者的识别效果较好,对MCI患者的识别效果较差,但未达到统计学意义。
如果临床读片的敏感点和特异点位于ROC曲线的CI空间之外,则认为结果具有统计学意义。
总体来讲,该模型对AD的敏感率高,特异性强,能在76个月的随访期内预测最终诊断结果。

2.模型解释与可视化

在这里插入图片描述
上图中:
a)77岁男性解剖图和显著图的重叠图
b)阿尔茨海默病神经影像学初始集的平均显著性地图超过10%
c)独立测试集上的平均显著性图

显著性地图绘制关于每个输入像素的AD类得分的梯度,以达到对图像上被认为对分类结果重要的区域的可视化的目的。(像素颜色越接近图像中颜色条的 “High”,表示它对阿尔茨海默症等级预测的影响越大)

先使用PCA将1024个特征降维到30维,然后使用 t-SNE (learning rate 200 and 1000 iterations) (t-SNE = t-distributed stochastic neigh- bor embedding)降到2维。

如图b和c中的显著图所示,第三行的第二和第三部分显示了信号分散区域中最强烈的信号。结果表明,它们对AD患者的分类决策具有重要影响,这符合临床意义(more caudal sections in the parietotemporal regions are informative of AD)。然而,这些模式的特异性不足以提取统一的人类可预测的影像生物标记物。不过总体而言,显著图表明深度学习模型在进行预测时考虑了整个大脑,如图a所示。

在这里插入图片描述
在使用T-SNE进行维度缩减之后,将 Inception -v3 提取的特征分成三个簇。

non-AD/MCI的聚类几乎是只包含了non-AD/MCI,MCI的聚类混合了non-AD/MCI患者和AD患者,AD的聚类也混合了其他两类。这和模型测试的结果是比较相符的。

由于几乎所有的AD患者都位于AD聚类中,所以本文的模型在AD分类上获得了较高的敏感率。
由于non-AD/MCI聚类几乎是纯的,所以本文的模型在non-AD/MCI分类上获得了较高的准确率。

四、讨论

1.关于结果的讨论

本研究开发并测试的深度学习算法,在ADNI保持测试集和独立测试集上都表现出很强的鲁棒性,对独立测试集上的AD预测具有100%的灵敏度(95%CI:65%,100%)。此外,在独立测试集上预测AD的最终诊断时,它在ROC空间上优于三个放射科读者,具有统计学意义。随着对更大和更多样的数据集的进一步验证,该算法可能能够增强放射科医生阅读器的性能,提高对AD诊断的预测能力,为早期干预提供了机会。

先前的多项研究表明,18F-FDG PET图像上皮质低代谢区域的独特分布有助于区分AD、MCI和健康人。但是18F-FDG本身并不是AD或MCI的明确影像生物标记物。在过去的十年中,已经产生了一些对AD进行早期诊断的工具,包括越来越特异的AD生物标志物。例如,β-amyloid (Aβ)是AD的标志物,可在脑脊髓液中检测到,或在PET成像时,使用放射性标记Aβ配体,如18F-florbetapir、flutemetamol和florbetaben。然而,这些创新与高成本有关,这些成本可能无法通过患者的保险报销,或者无法普遍推广,因此18F-FDG PET得以登场。

据原文提到,将深度学习方法应用于功能成像来对痴呆症患者进行分类的工作较少。作者目前的研究方法在文献中并没有得到预先的重视。(可能因此作者再次强调了他们的实验结果)

值得注意的是,显著图模型可视化并没有显示出明显的人类可解释的成像生物标记物,这似乎对AD预测有影响。相反,深度学习算法显然利用了来自不同解剖区域的不同影响程度的整个大脑来做出最终决定。这突出了深度学习算法的优势,该算法在分类中将大脑视为逐像素体积,这意味着深度学习算法从人类对成像研究的解释中得出诊断结果。

2.局限性

在文章的开头,作者提到应用机器学习技术去发现复杂的模式,例如在脑PET影像中,才刚刚开始被探索。如此看来作者的工作也是比较具有前沿性的,同时在文章最后作者也自己提出了很多局限性和不足。加以我的理解整理如下:

1.独立测试集已经排除非AD性神经退行性疾病和其他可能影响记忆功能的患者,如此模型的普适性就降低了。

2.深度学习算法的鲁棒性受到ADNI训练集的临床分布的内在限制。

3.尽管作者使用了显著图进行可视化,但深度学习算法并没有产生人类可解释的成像生物标记,这突出了深度学习算法固有的黑箱限制。

4.MCI和non-AD/MCI的诊断本质上是不稳定的,因为它们的准确性取决于随访时间的长短。
例如,一些MCI患者,如果随访足够长的时间,最终可能会发展为AD。

结束语

本人才疏学浅,且对放射学杂志一窍不通,对文章的讲解也不甚到位,更多的是对文章的翻译,还请见谅。最后,如果你也读了这篇论文欢迎来交流,或者发现哪里我的理解有问题可以留言。