第一本机器学习写的书面世!狂啃53000篇论文写成

智东西(公众号:zhidxcom)
编 | 王颖

导语:学术出版商Springer Nature与歌德大学开发新算法,使用机器学习技术集合大量文献摘要,生成研究书籍。

智东西4月12日消息,近日学术出版商Springer Nature公布了第一本使用机器学习生成的研究书籍《锂离子电池: 机器生成的当前研究摘要》,它概述了锂离子电池领域的最新研究成果。

Springer Nature和法兰克福的歌德大学共同开发了机器学习算法Beta Write,使用机器学习集成相似的聚类分析,将海量的文献连贯的排列起来,并创建出简洁的文章摘要,将论文摘要和原文链接生成书籍,帮助读者尽快获取系列论文的重要内容,还有助于读者进一步阅读原始文章。

我们一起来看看AI写书水平怎么样:

第一本机器学习写的书面世!狂啃53000篇论文写成

上图原文:隔膜的厚度和孔状结构应该严格管控,为了满足这两项功能,机械强度和离子导电率之间应达到良好的平衡。孔状结构和材料的多孔性对于电池中分离器的性能也至关重要。

一、什么是机器学习?

传统的计算机编程只能重复性的运行一种程序,只要不改变编程信息,程序运行就永远不会发生改变。而机器学习是从示例中学习的软件,不需要人为的编写机器学习的运行程序,通过提供大量的相关数据来训练它们,当训练数据达到一定量的时候,机器学习算法就能自动通过数据中的重复信息总结出答案。不断的训练也能不断的提高机器学习的算法能力。

例如,你想教会机器算法“什么是猫”,就需要将大量猫的图片输入算法中标记为“猫”,再将一些错误的图片标记为“不是猫”。大量的数据训练后,机器算法就能通过这些数据中的重复性信息来做出判断,当你向程序提出“什么是猫”的问题时,它将向你展示正确答案。

二、机器学习如何生成书籍?

机器学习算法总结了2016年到2018年三年所发表的53000多篇关于锂电子电池的研究论文,找出150多篇权威研究论文,并将这些论文的摘要进行集合,同时将引用的文章链接附在摘要后,帮助读者进一步阅读原始的文章。

提取海量文本中高质量的内容形成连贯的摘要,对于人类科学家来说是一个巨大的挑战,需要大量的时间和精力阅读成千上万的论文。而这本书中的摘要由机器学习通过算法完成,AI 的自动扫描和总结输出,让科学家们把更多时间用在重要的研究上。

第一本机器学习写的书面世!狂啃53000篇论文写成

三、AI生成文本还存在许多问题

机器学习的蓬勃发展极大地提高了计算机产生书面文字的能力,但这些输出仍然受到严重限制。AI生成的文本是根据数据形成的统一的公式化内容,无法像人类一样创造更具连贯性和平衡性的内容。所以像AI生成的小说或诗歌等内容更倾向于是一种格式,而不是创造令人信服并喜欢的引人入胜的阅读体验。

实际上,当翻阅AI文本时,不难发现其中会有很多乱码和不连贯的句子。这项技术的关键难度在于能否生成适合人类阅读习惯,表意清晰的AI文本。

卡内基梅隆大学人机交互研究的副教授Jeff Bigham认为,把高质量的文本连贯的输入系统,再由系统生成具有可读性的摘要并不是困难的事情,关键难点在于机器学习算法是否具备自动提炼摘要的能力。

此外,AI生成文本还涉及到伦理方面的问题。比如:谁是机器生成内容的创始人?算法的开发者能被视为生成作品的作者吗?谁对机器生成的内容负责?

机器学习算法发展到今天所做的更多的还是提出问题,而不是解决问题。新技术出现带来的是一系列新技术本身发展和其他相关的引申问题。

目前机器学习算法已经成功地开发出了第一个可以生成书籍的原型,但它对大型文本语料库的精炼摘要仍然不完善,解释文本、句法和短语关联有时看起来仍然很笨拙。虽然为了凸显机器生产内容这一技术的突破,研究人员不会手动润色或复制编辑任何文本,但是这也同时表明了机器学习还有很长的路要走。

第一本机器学习写的书面世!狂啃53000篇论文写成

目前,这本书还有需要优化改进的地方,但这是AI在自然的语言输出方面新的尝试,这种不完美不能否定这一技术在机器学习领域的新成就。

结语:无限算法或将改变世界

机器学习生成书籍的技术会给我们的工作和生活带来极大的便利,如果你告诉系统“将过去4年的生物工程研究总结成一个50页报告”几分钟后它就会把准确的内容发送给你。基于文本的灵活性,你甚至可以使用西班牙语、韩语或其他任何语言向它发送请求。

机器学习给AI发展带来了新的可能,AI技术的进步改变着我们的生活,无限的算法也将给世界带来无限的可能。

原文来自:TechCrunch、TheVergeA、SpringerNature