智东西(公众号:zhidxcom)
编 | 董温淑
智东西5月11日消息,疫情之下,AI+医疗按下加速键,从线上问诊、辅助导诊、影像筛查到新药研发,AI均发挥出重要的辅助作用。然而相比其他应用场景,AI在医疗领域的落地却面临更多的困难。
不同医疗机构的数据互不流通、数据质量参差不齐、搭建AI模型效率低下、输出结果不知道怎么解释……在近期举办的国际学习表征会议(ICLR)上,来自剑桥大学、牛津大学、斯坦福大学等全球顶尖高校的研究人员们集中探讨了这些阻碍AI医疗落地的关键挑战,并有针对性地探讨了解决这些问题的有效方法。
国际学习表征会议(ICLR 2020)是深度学习领域最重要的年度会议之一,于在4月26日至5月1日以线上方式举行。
一、AI医疗落地难!实际模型效果很一般
当今医疗资源匮乏和分布不平衡的问题日益突出,AI的应用可以缓解这种局面。比如,远程医疗可以解决偏远地区看病难问题,AI读片工具可以缩短临床医生判断时间。但是,要达到这些目的,前提是AI工具的输出足够准确可靠。
实际情况中,不同医疗机构收集、标记、注释、处理医疗数据的方法并不一致,X射线影像、CT影像的质量则因为机器差异而存在较大差异,患者病例或健康记录中也常缺少信息。这些都导致了能够用于训练AI模型的有效数据资源稀缺,因此,一些AI模型的实际应用效果并不理想。
例如,谷歌的一个AI模型就在实际应用阶段折戟。该AI模型被设计用于提升筛查糖尿病性视网膜病变的效率,根据病人眼球照片快速给出专业诊断。在实验室测试阶段,该模型可以把诊断时间缩减到秒钟级,准确率达到了90%。
但在11个眼科诊所的测试中,该模型的结果就没有这么理想了。首先,每个眼科诊所的环境条件不同,有些诊所无法拍摄出高清的眼球照片或网络信号较差,这导致模型上传图片的时间变长(60到90秒)。另外,一些护士也担忧AI模型的安全性问题。这说明通过实验室检验并不完全意味着AI工具可以顺利落地应用。
二、数据资源少?让医生临床经验来帮忙
许多疾病难治疗都是因为相关数据太少。比如,罕见病的患者记录就很少,相应的医学知识也很缺乏;对于心衰等慢性病来说,及早治疗是关键,但医学界很难提前甄别出有患病风险的患者。
在人工智能平价医疗研讨会上,韩国科学技术院(KAIST)助理教授Edward Choi提出,可以利用神经网络来解决这些问题。一方面,神经网络可以大面积搜集疾病信息,尽可能多地综合罕见病相关信息;另一方面,神经网络可以回溯病人的电子病例,根据病人以往的健康状况判断出病人是否易患某种慢性疾病。
Choi表示,下一步将继续推进研究,使神经网络更好解决数据缺乏问题。
他计划用一种基于图像的注意力模型(GRAM,graph-based attention model)来进一步解决罕见病数据资源少的问题。该模型用循环神经网络(RNN)进行训练,是一个基于医学本体论(medical ontologies)对疾病进行树状分类的工具,可以找出与罕见病相似的常见病。各种疾病的本体理论是由之前的医学家建立起来的,已经通过实践验证。因此,医生可以尝试用常见病的诊疗方案来治疗罕见病。
对于病人电子健康记录数据不全的问题,Choi提出了图像卷积Transformer模型(GCT,Graph Convolutional Transformer )。GCT可以推断出电子健康记录缺失的数据,为临床医生提供更全面的病人信息。
三、数据没结构化?用AI预测哪些出院患者更易再住院
对康复患者进行预后诊断可以降低疾病复发风险,而医生需要依靠病人的数据做出预后诊断。但是,不同国家和地区、不同医疗机构收集、处理病人数据的方法有差异,医护人员的一时疏忽则会导致数据无效。这些原因导致了医疗数据非结构化、噪声数据问题,进而影响了医生预后诊断的准确性。
谷歌软件工程师Constanza Fierro团队认为,可以训练一个AI模型,使其利用高度非结构化数据或噪声数据进行预测。经过尝试,他们研究出一种深度学习架构,能够预测患者出院后30天内再次入院的风险。
研究人员用一个西班牙语医疗数据集对该架构进行了测试。美国医疗机构曾利用该数据集进行过相同预测。研究人员对比了模型预测结果和美国医疗机构的结果。对此显示,模型预测结果与美国医疗机构的结果基本相符。
但是,Fierro指出,这个模型的可能不适用于没有储存医疗数据的国家。
四、建模效率低?让AI自动化学习
不同的疾病对应着不同的解决方案,相应地,为不同疾病建模需要用到不同的技术和模型。
剑桥大学教授、艾伦·图灵研究所研究员、加州大学洛杉矶分校校长教授Mihaela van der Schaar认为,为每种疾病各建一个AI模型效率太低,她主张使用可以大面积推广的自动机器学习(AutoML)方法,让AI模型自动化学习合适的参数和配置。
在实验对比几种AutoML模型后,Mihaela提出一个针对临床预后量身定制的预测建模管道设计的自动化系统AutoPrognosis。
据她介绍,AutoPrognosis是“一个为临床预测量身定制的自动涉及预测模型管道系统”。AutoPrognosis不会试图找到唯一的最佳的预测建模管道,而是使用各种管道的“集合”做出预测。
尽管这个模型可以自动化对疾病做出预测,但是它还有一些局限性,比如缺乏可解释性。
透明性和可解释性是AI模型可不可靠的重要参考依据,即能向非专业人士解释清楚得到的结果。尤其是在医疗领域这样做任何决定都必须非常严谨的场景,用AI模型来诊断疾病更需要可解释性,也即是能给出令医生信服的决策依据。
五、影像难解释?把它分区域量化
如前面所说,AI模型的可解释性十分重要。许多研究人员研发出神经网络的可解释性方法,但学界还未在评估这些解释方法上达成共识。
这意味着需要一种客观的度量标准,来告诉研究人员哪种可解释性方法适合用于其任务。
针对这一问题,丹麦大学计算机科学博士Laura Rieger及其团队提出一种特征迭代移除(IROF,iterative removal of features)的新方法,能以较低的计算资源和很少的数据,对可解释性方法进行客观的定量评估。
IROF的评估指标以诊断的准确性为基础,避开了现有评估方法中相邻像素之间的高相关性,并且不依赖可能会产生偏差的人的视觉检查。
在会议现场,Laura用一个具有可解释性的神经网络反证了IROF方法的稳健性。
她选用了一个图像分类神经网络,输入一张猴子的图像,神经网络快速输出了正确的分类,即黑白图像,其中图像较亮部分对分类精度的重要性要高于较暗部分。
然后,Laura用计算机视觉算法对猴子图像进行图像分割,得到一系列图像子区域。
研究人员在识别出对分类精度最重要的浅色子区域后,用“平均值”替换这些浅色子区域,这样再次运行图像分类神经网络的准确率就会下降;接着,识别图像的第二重要部分,再次应用平均值,然后再次运行图像分类神经网络……随着替换过程进行,图像分类神经网络的准确性呈现出曲线形下降。曲线上方的面积被称为IROF得分,可以作为评估神经网络可解释性的一个定量标准。
六、影像质量差?用数据集模拟伪影和噪声
CT断层成像是一种广泛应用的医疗检测手段,可以检测出中风、骨折等疾病。但是,并非所有的医疗机构都有能力配备顶尖的CT扫描仪。在医疗实践中,为了控制成本,有些医疗机构不得不选用低成本的设备。
低成本CT扫描仪的价格更经济、耗电量也较低,但成像中容易出现伪影、噪声数据问题,为医生增加读片障碍。
斯坦福大学电气工程博士Sarah Hooper及其团队提出了一个基于卷积神经网络(CNN)的影像自动分类工具,可以自动分类有伪影、噪声数据的低质量头部CT影像,帮助医疗机构控制成本。
低成本CT扫描仪中常出现x射线管电流小、投影数量少、扫描角度有限等三类问题,这些会导致CT影像质量不高。
由于有代表性的低质量数据有限,研究人员用近一万张头部CT影像数据集,通过成倍减少电流、投影数量、改变扫描角度来模拟那些真实图像中的噪声,借助CatSim仿真软件创建了庞大的合成数据集,然后用这些数据来训练CNN模型。
运行结果显示,在这三类低质量影像中,经训练的CNN模型均能克服头部CT影像分析的硬件限制,准确分类出异常影像。
除了上述模型,其他研究人员还展示了一些其他医学影像相关研究工作,比如自动化颈动脉斑块的3D超声扫描、从显微镜图像诊断疟疾、在计算机辅助手术中用AI增强立体摄像机信息、利用图像质量转移人工增强MRI图像、改进乳腺癌筛查的图像分类等。
结语:革命虽未成功,曙光就在眼前
无论把AI技术应用于哪个领域,研究人员都需要解决技术、安全性和稳健性问题。但客观上来说,医疗保健领域更为特殊。因此,智慧医疗工具的落地面临更多困难。
如果能够攻克技术和安全性难题,AI技术或可为医疗资源匮乏、医疗资源不平衡等问题提供解法,还能提高整体医疗水平。
正如剑桥大学教授Mihaela van der Schaar在其演讲结束时提到的,“我们正处于这场革命的开始,还有很长的路要走。但这是一个令人兴奋的时刻,是专注于此类技术的重要时刻。”随着AI医疗类研究持续推进,机器学习将为临床医生、医学研究人员和患者带来更强大可靠的新工具。
文章来源:VentureBeat