不怕训练数据少！MIT新研究：解锁图像理解只要5000张图片

智东西(公众号:zhidxcom)
编 | 王颖

导语：麻省理工AI实验室研究符号AI模型，使用更少的数据进行学习，更清晰简单的解释这个世界。

智东西4月3日消息，麻省理工学院（MIT）、沃森人工智能实验室（MIT-IBM Watson AI Lab）和DeepMind的最新研究证明，符号（symbolic）AI应用于图像理解任务有巨大潜力。

在测试中，他们研发的混合模型成功地学会了比如物体的颜色、形状等相关的概念。模型可以在没有“明确编程”的情况下，使用很少的训练数据，利用已掌握的概念在一个场景中找出物体之间的关系。

深度学习系统通过统计学习（statistical learning），挑选数据中的统计模式来解释这个世界，这种方法需要大量数据，而且并不擅长将过去掌握的知识应用于新情况。符号AI与深度学习不同，它可以用更少的数据，记录下为达成决策而采取的一系列步骤。

符号AI研究论文的主要作者 Jiayuan Mao说：“儿童学习一种概念需要将词汇和图像联系起来，但符号AI模型与儿童相比，学习同一种概念需要的数据要少得多，而且模型能更好的将知识转化应用到新的场景中。”

符号AI模型包括：一个将图像转换为基于对象表示的感知组件、一个从单词和句子中提取含义的语言层。语言层通过创建“符号程序”（symbolic programs），即指令，告诉 AI 如何回答问题。模型的第三个模块在现场运行符号程序，并吐出一个答案，当模型出错时对其进行更新。

研究人员根据斯坦福大学CLEVR图像理解测试集中的相关问题和答案对图像进行了训练。（例如：“物体的颜色是什么？”和“有多少物体都在绿色圆柱体的右侧，并且与小蓝球具有相同的材料？”）

符号AI模型掌握了所学对象同一级别的概念后，会进一步学习如何将对象及其属性相互关联。模型学习的过程中，问题的难度也随之增加。

据研究人员报告，目前的AI系统进行训练需要使用7万张图像和70万个问题，但符号AI模型整个训练过程，仅使用了5000张图像和10万个问题，并且能够“几乎完美地”解释新的场景和概念。

研究小组将进一步改进符号AI模型在真实世界照片上的表现，并将其扩展应用到视频理解和机器人操作。

论文链接：http://news.mit.edu/2019/teaching-machines-to-reason-about-what-they-see-0402

原文来自：VentureBeat