微软、白宫联合发布新冠病毒数据集,开放29000篇文献,助力AI抗疫

智东西(公众号:zhidxcom)
编 | 云鹏

智东西3月17日消息,据外媒报道,微软、美国白宫、艾伦研究所(Allen Institute)今日联合发布了COVID-19开放研究数据集,该数据集包含了超过29000篇来自全球各地的有关冠状病毒(家族)的相关学术文章,将主要用于医学和NLP(自然语言处理)相关领域研究,以应对新冠肺炎疫情。

在该数据集中,机器可读文章超过13000篇。研究人员可以通过机器学习来加速对文本的挖掘和解读,从而更加高效地寻找对抗新冠病毒的方法。

截至今日12时,根据世卫组织等权威机构数据显示,全球新冠病毒确诊人数已经超过18万人,美国确诊人数为4711人。

微软、白宫联合发布新冠病毒数据集,开放29000篇文献,助力AI抗疫

一、AI提升文献检索效率

美国之所以如此快速地推出用于AI领域相关研究的数据集,也是因为白宫意识到了AI在疫情分析中能够发挥的巨大作用。白宫首席技术官Michael Kratsios说,“白宫与美国国家科学研究院以及世界卫生组织合作,确定了数十项与新冠病毒相关的高优先级科学问题,并且我们认为人工智能可以极大地帮助科学家总结和分析信息。”

微软首席科学官Eric Horvitz说,“我们开放数据集是为了激励更多的开发者为科学家们创建工具,这些工具可以帮助科学家们快速掌握数千篇研究文献的重点,从而更好地研究对抗新冠病毒的方法。”

“仅仅在生物医学领域,每年发表的出版物就超过100万篇。人工智能为科学家们进行高效的文章检索、内容映射,这一点变得日益重要了。”他补充道。

通过机器学习技术,借助COVID-19开放研究数据集,科学家们可以节约更多的时间。AI会学习科学家们想要了解的内容,从而在庞大的数据库中找到每个科学家所需要的内容,大大缩小检索范围和文本规模。

二、NLP技术作用明显

艾伦研究所机器学习专家 Raymond在接受采访时说,“过去的几年中,我们在NLP方面取得了长足的进步,所以像COVID-19这样的数据集,其实用性可能会显著提高,因为现在有了更多可以利用它的工具。”

目前有许多组织都在使用NLP技术对抗冠状病毒。哈佛医学院开发了一种工具,可以审查患者记录、社交媒体数据和公共卫生数据。据报道,这种技术就曾在新冠病毒疫情爆发的早期发挥了新闻监测的功能。

在中国,阿里巴巴等科技巨头也在将其最新的NLP技术用于中国疾病预防控制中心的病历文本分析和流行病学调查。上周,阿里达摩院的StructBERT模型在GLUE基准(常用于评估NLP通用模型)排行榜上被评为全球性能最强的NLP系统。

三、深度学习、图像识别等AI技术轮番上阵

除了NLP技术,AI还通过许多其他形式对抗新冠肺炎疫情。机器人可以帮助医护人员进行疫区消毒,深度学习技术可以帮助医生预测死亡率等数据指标,而图像识别技术可以让医护人员更快地从CT图像中识别新冠肺炎患者。

全球各地政府也在尝试通过各类技术对抗疫情,例如GPS跟踪、自我筛查APP、文本监测预警、智能手机运动跟踪等。

微软已经在昨天上线了全球疫情信息实时查询网站(https://www.bing.com/covid),谷歌也正在与白宫合作,推出一个帮助美国人了解新冠病毒症状、危险因素以及病毒检测等相关问题的网站。而Alphabet旗下的生命科学部门Verily正在进行新冠肺炎病毒检测工具的研发。

我们可以鲜明地感受到,当下AI在全球疫情抗击中的作用愈发突显,全球各国也应当充分开放疫情相关数据,让AI更好地发挥作用,助力全球医护人员和科学家们寻找对抗新冠病毒的有效方法。