AI化身诊断胃癌小能手，模型敏感性高达近100%

智东西（公众号：zhidxcom）
作者 | 温淑
编辑 | 漠影

智东西12月3日消息，根据国家癌症中心2019年发布的最新全国癌症统计数据报告，胃癌已成为中国致死率排名第二的癌症，仅次于肺癌。而中国人民解放军总医院、中国医学科学院肿瘤医院、国家癌症中心、北京协和医院等机构的研究人员8月27日刊发在国际权威学术期刊《Nature Communications》上的一项研究，介绍了全球首个可用于胃癌临床病理诊断的AI模型，有望帮助降低胃癌的致死率。

根据名为《深度学习在胃癌诊断中的临床应用（Clinically applicable histopathological diagnosis system for gastric cancer detection using deep learning）》的论文，该AI模型敏感性高达近100%、特异性可以达到平均80.6%，能帮助病理学家减少工作量、提升诊断准确性。

传统上，胃癌的早期诊断一般依赖解剖病理学家对病患的全扫描组织病理学图像（WSI）进行研判，即解剖病理学家利用显微镜对病人的玻璃病理切片进行观察后得出诊断。而在全世界范围内，具备丰富经验的解剖病理学家十分稀缺。这不仅导致大量胃癌患者得不到早期干预，病理学家的超负荷工作也容易导致误诊。

随着病理学成像技术的进步，目前，越来越多的病理实验室开始采用分辨率更高的数字化病理切片来代替玻璃病理切片，这为胃癌的早期诊断提供了另外一种解法：引入AI辅助诊断系统，使其对病理切片给出初步诊断意见或对医生诊断结果进行检查。前者可以帮助医生简化诊断步骤，后者则是减少误诊情况的一道“保险”。

论文链接：
https://www.nature.com/articles/s41467-020-18147-8

AI化身诊断胃癌小能手，模型敏感性高达近100%

▲《深度学习在胃癌诊断中的临床应用》

一、首个通过三项“考验”的AI病理诊断模型

根据论文，深度学习模型被应用于临床之前，应该通过三项“考验”。

首先，在被投入临床应用前，深度学习模型应该通过大量的测试，即在一段连续的时间内，对相当数量的、由各种品牌扫描仪所得出的数字病理切片进行“诊断”。在这一过程中，深度学习模型的敏感性应该接近100%，同时其特异性不能过度降低。

其次，AI系统应当能够协助病理学家提升诊断准确性，同时不会拉低常规报告程序的效率。为了进一步提升病理学家对AI辅助系统的信任，人们应该对模型的预测结果进行研究，以确定模型的优缺点。

另外，在系统部署前进行多中心临床试验（multicentre test）也是十分重要的。多中心临床试验指的是由多位实验者按照同一试验方案在不同地点和单位同时进行临床试验，以保证模型在不同医院里都能表现出稳定的性能。

根据论文，目前已有许多研究验证了AI工具在肺、胃、乳腺等各种器官系统中检测肿瘤的有效性，但还未有一种模型能够同时满足以上三点要求。

本项研究中，中国人民解放军总医院的研究人员致力于使AI系统能够通过这三项“考验”。

二、训练：用1500名病例的数字病理切片进行像素级癌症检测

根据论文，研究人员选用DeepLab v3架构的卷积神经网络（CNN）训练AI诊断模型，用来自1500名胃癌患者的数字病理切片作为训练样本，共有12位病理学家参与试验。在训练过程中，研究人员对数字病理切片、12位病理学家的操作过程、模型运行过程均进行了精确的设计。

1、对数字病理切片进行40倍放大及染色

研究人员用数字扫描仪（型号：KFBio KF-PRO-005）对数字病理切片进行了40倍放大处理。

1500个数字病理切片中，958个是外科标本数字病理切片，其中包含908个恶性肿瘤病理切片；另有542个是活体组织数字病理切片，其中包含102个恶性肿瘤病理切片。所有数字病理切片均为2123像素级，并进行了H&E染色（苏木精–伊红染色，可将细胞核染成蓝色、将细胞浆染成粉红色）。

AI化身诊断胃癌小能手，模型敏感性高达近100%

▲对数字病理切片进行放大、染色操作

2、12位病理学家按标准操作程序对切片进行标注

研究人员开发了一个基于iPad的标注系统，并向12位参与模型训练的病理学家提供数据收集和标注的标准操作程序（SOP）。

具体来说，研究人员以第四版《消化系统肿瘤WHO分类》中的论述作为标准，训练过程中，12位病理学家用Apple Pencil圈出数字病理切片中显示为“恶性（malignant）”、“良性（benign）”、“图像质量低（poor quality）”和“可忽略（ignore）”的区域，并对这些部位进行相应标注。

在之后的训练过程中，被标注为“恶性”的区域将被认为是高度上皮瘤变和胃癌病灶，这两种病变均需进行手术治疗；被标注为“图像质量低”和“可忽略”的区域将被认为是人体扫描质量低和难以诊断的部位。

3、模型采用语义分割方法，提供更丰富的预测细节

基于DeepLab v3架构的卷积神经网络模型采用二进制图像分割方法，以像素级精度进行癌症检测。

模型训练过程中，数字病理切片及相应的注释以20倍的放大率被分割为320*320的像素块，随后被输入到模型中。

据悉，像素块被输入模型时没有特定的方向，模型会对输入的病理切片进行90、180、270度的随机旋转和反转，使其保持相同的方向。

为了提高模型在判断来自不同医院、不同扫描设备的数字病理切片时的稳健性，研究人员还对像素块进行进一步处理：对像素块进行高斯模糊、运动模糊、颜色值抖动（亮度由0.0调为0.2，饱和度由0.0调为0.25，对比度由0.0调为0.2，色度由0.0调为0.04）。

在模型“诊断”像素块的过程中，像素级的预测结果是通过排序所有像素级预测的概率得到的。模型采用频率最高的1000个预测结果，并用平均值表示对病理切片的预测。

根据论文，相比于常用的图像块分类（patch classification）和滑动窗口（ sliding windows），模型采用的方法在像素级上提供了更多预测细节。

三、运行：敏感性达到0.996，平均特异性达到0.806

模型训练完毕后，研究人员将其部署在中国人民解放军总医院中，进行为期3个月的试运行（2017年6月～8月）。训练期间，模型共对来自1814名患者的3212个日常胃部病理切片进行诊断。

据了解，1814名患者中有1101名男性，平均年龄为54.12岁；有713名女性，平均年龄为54.66岁。3212个日常胃部病理切片中，有154个外科标本数字病理切片，1660个活体组织数字病理切片。

模型试运行过程中，胃部病理切片按照每两周为一时间段分组，三个月内共有6个连续的时间段。为了测试模型对不同扫描仪处理的病理切片的处理性能，研究人员将获得的病理切片在三个扫描仪上进行处理，得到一个数据集。

试运行结果显示，模型的曲线下面积达到了0.986，其准确性达到0.873、敏感性达到0.996、特异性达到0.843，标准差为0.018。

在机器学习中，敏感性又称真阳性率，即AI模型对疾病的敏感程度，敏感性越高，漏诊概率越低；特异性又称真阴性率，即AI模型判断出良性患者或健康人的能力，特异性越高，确诊概率越高。

AI化身诊断胃癌小能手，模型敏感性高达近100%

▲模型在不同时间段的试运行结果

研究人员比较了模型对三台不同扫描仪产生的病理切片的预测结果，结果显示，模型对训练时使用的KFBio KF-PRO-005扫描仪产生的病理切片预测结果最为准确，对另外两台数字扫描仪产生的病理切片的预测效果准确性略有下降。

具体来说，模型预测Ventana DP200扫描仪产生的数字病理切片时，曲线下面积为0.004；预测Hamamatsu NanoZoomer S360扫描仪产生的数字病理切片时，曲线下面积为0.013。

针对三台不同扫描仪产生的共3212张病理切片，模型预测结果的敏感性达到0.996，平均特异性为0.806。

AI化身诊断胃癌小能手，模型敏感性高达近100%

▲模型对不同来源数字病理切片的预测结果对比

四、AI模型帮助病理学家提升预测准确度

为了测试AI模型能否在真实情况下作出准确判断，研究人员准备了100张数字病理切片，并对12名病理学家进行分组，以比较病理学家在借助AI辅助系统、不借助AI辅助系统下的诊断结果。

研究人员根据诊断难易程度，将数字病理切片分为四组，分别是：1、低倍镜下容易诊断组（含有34张病理切片）；2、易于诊断但需要高倍率放大组（含有39张病理切片）；3、难以诊断但不需要借助IHC组（含有23张病理切片）；4、十分难以诊断，需借助IHC组（含有4张病理切片）。IHC指免疫组织化学染色法，是一种利用免疫学反应，监测细胞或组织中是否存在目标抗原的方法。

12位病理学家被分为3组，其中A组使用传统方式，用显微镜观测玻璃病理切片；B组直接观察数字病理切片；C组使用数字病理切片和AI辅助诊断系统。

测试进行两次，其中一次不限制诊断时间，另一次把诊断时间限制在1小时内。

在不限制诊断时间的情况下（图b），研究人员用ROC曲线比较病理学家的预测结果和AI模型的平均预测表现（模型的平均预测表现用图中“★”表示，即敏感性为0.996、平均特异性为0.806）。结果显示，AI模型和人类病理学家的表现相当。在一些情况下，AI模型的平均表现超过了人类病理学家。

准确性方面（图c），使用AI辅助诊断的病理学家的准确性更高。

在不限制诊断时间的情况下，使用AI系统的C组病理学家平均诊断准确性相较使用显微镜观察的A组、使用数字病理切片的B组分别提升了0.018、0.060；在限制诊断时间的情况下，使用AI系统的C组病理学家平均诊断准确性相较使用显微镜观察的A组、使用数字病理切片的B组分别提升了0.013、0.008。

AI化身诊断胃癌小能手，模型敏感性高达近100%

▲a-12位病理学家被分为三组；b-AI模型的平均表现相当或优于人类病理学家（★-模型平均表现）；c-AI辅助诊断系统帮助人类病理学家达到更高的诊断准确性

结语：AI为医疗资源稀缺带来解法

医疗从业者的稀缺和对医疗人才的依赖成为当今的医疗系统面临的一个两难问题。一方面，当今的医疗系统从诊断病情到确定治疗方案都十分依赖医生的个人经验；另一方面，要等到医疗人才、医疗设施的存量增长到能满足大多数人的医疗需求，势必还需要很长时间。

这种背景下，近年来AI技术的跨越式发展为改善这一现状提供了另外一种思路。除了类似于本文中直接切入诊断过程的AI系统，在医院中引入基于AI的病例管理、分诊系统等也可以帮助缓解医疗机构的就诊压力。

说不定在未来，或许AI将和人类医生一样，成为医疗系统中的中坚力量。

一、首个通过三项“考验”的AI病理诊断模型

二、训练：用1500名病例的数字病理切片进行像素级癌症检测

三、运行：敏感性达到0.996，平均特异性达到0.806

四、AI模型帮助病理学家提升预测准确度

结语：AI为医疗资源稀缺带来解法

相关推荐