智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 云鹏

每当AI取得重大进展,研究人员们常开玩笑:“什么时候让AI来为我们写论文?”

现在,AI创作科研论文成了现实,且撰写成本低至约15美元

智东西8月14日消息,8月13日,日本的Sakana AI团队联合牛津大学、不列颠哥伦比亚大学的研究员推出了一个AI科学家(The AI Scientist),这是一个基于大模型的自动化科研智能体(Agent)。

给它一个宽泛的研究领域,它就能像人一样创作一篇AI领域论文。

AI程序员”的编程技能,对AI科学家来说只是能力一环,头脑风暴、代码运行、实验结果总结、可视化、自动评审对它来说都不在话下。

比如,以下这篇名为《Dualscale Diffusion:低维生成模型中的自适应特征平衡(Dualscale Diffusion:Adaptive feature balancing for low-dimensional generative models)》的论文就是由AI科学家所作。在AI科学家自主完成并经同行评审的实验中,其完成的论文取得了优秀的实证效果,已能达到机器学习顶会“弱接受”标准

全球首个AI科学家!一口气交出4篇顶会级论文,但会偷偷“开挂”改脚本

论文地址:https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf

团队在AI科学家项目中引用了各种前沿模型,例如GPT-4o和Sonnet等闭源模型,以及DeepSeek和Llama 3等开源模型。

据悉,AI科学家主要有以下亮点:

1、这是一个完全由AI驱动的自动化科研系统,专注于机器学习领域的研究。

2、它实现了研究全链条的自动化,从灵感迸发、代码编写与运行到实验结果的总结、可视化,并最终撰写成完整的科学论文。

3、它创新性地引入了自动化同行评审机制,用以评估产出的论文,提供反馈并持续优化成果,评估准确度已接近人类水平

4、这一自动化科研流程持续循环,开放并不断积累知识,模拟人类科学界的运作模式。

5、在初步实测中,它已涉足机器学习多个领域并取得成果,如在扩散模型、Transformer架构及Grokking等领域均有所贡献。

AI科学家论文地址:https://arxiv.org/abs/2408.06292/
AI科学家开源代码及实验结果地址:https://github.com/SakanaAI/AI-Scientist

全球首个AI科学家!一口气交出4篇顶会级论文,但会偷偷“开挂”改脚本

▲《AI科学家:向全自动开放式科学发现迈进》论文

一、4步完成科研论文,达到AI顶会接受标准

听说过AI诗人、AI画家、AI程序员,现在AI科学家也出现了。

AI科学家是一个全面自动化的论文生成系统,它充分利用了最前沿的大模型。

从一个基础性的初始代码库出发,比如GitHub上现成的开源研究代码,只要给定一个宽泛的研究领域,AI科学家就能完成从创意构思、文献调研、实验设计、实验迭代、图表制作、论文撰写到初步审核的全流程工作,产出富含深刻见解的学术论文。

更令人称奇的是,AI科学家能以开放循环的方式持续运行,它不断学习之前的创意与反馈,以此优化后续的研究想法,这一过程高度模拟了人类科学界的运作模式

全球首个AI科学家!一口气交出4篇顶会级论文,但会偷偷“开挂”改脚本▲AI科学家的模式图

AI科学家的工作流程主要包含四大环节

创意萌发:从给定的起始模板出发,AI科学家会开启“头脑风暴”模式,围绕现有主题挖掘出一系列新颖的研究方向。这个模板不仅包含了基础代码框架,还配备了LaTeX文件夹,内含样式文件和章节标题预设,为后续的论文撰写打下基础。AI科学家在自由探索的过程中,还会借助学术搜索引擎Semantic Scholar来确保所提想法的独创性。

实验迭代:一旦确定了研究方向,AI科学家便进入实验阶段。它会自动执行实验计划,收集数据并生成图表以直观展示实验结果。同时,AI科学家会详细记录每张图表的内容,确保实验笔记和图形资料能够为后续的论文撰写提供全面支持。

论文撰写:实验完成后,AI科学家会利用LaTeX格式,撰写一篇结构清晰、内容详实的论文,向读者展示其研究成果。在撰写过程中,它还会借助Semantic Scholar自动搜索并引用相关领域的文献,增强论文的学术性和权威性。

自动审阅:为了提升论文质量,团队特别开发了一个基于大型语言模型的自动化审阅系统。该系统能够以接近人类的判断力,对生成的论文进行客观评估,并提出改进建议。这些反馈不仅有助于AI科学家优化当前项目,还能为未来的研究提供宝贵的参考。通过这一连续的反馈循环,AI科学家能够不断迭代改进,提升研究成果的水平和影响力。

当与最先进的LLM技术相结合时,AI科学家甚至能够撰写出达到顶级机器学习会议“弱接受”标准的论文,并通过自动审阅系统获得认可

二、AI科学家论文展示:覆盖扩散模型、语言建模等领域

在公告中,团队给出了一系列AI科学家生成的一些机器学习领域论文,展示了其在扩散模型、语言建模和Grokking等领域的科研能力。

1、扩散模型:《DualScale Diffusion:低维生成模型的自适应特征平衡》

全球首个AI科学家!一口气交出4篇顶会级论文,但会偷偷“开挂”改脚本
论文地址:https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf
代码地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/adaptive_dual_scale_denoising

2、语言建模:《StyleFusion:字符级语言模型中的自适应多风格生成》

全球首个AI科学家!一口气交出4篇顶会级论文,但会偷偷“开挂”改脚本

论文地址:https://sakana.ai/assets/ai-scientist/multi_style_adapter.pdf
代码地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/multi_style_adapter

语言建模:《通过Q-Learning实现Transformer的自适应学习率》

全球首个AI科学家!一口气交出4篇顶会级论文,但会偷偷“开挂”改脚本

论文地址:https://sakana.ai/assets/ai-scientist/rl_lr_adaptation.pdf
代码地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/rl_lr_adaptation

3、Grokking:《解锁Grokking:Transformer模型中权重初始化策略的比较研究》

全球首个AI科学家!一口气交出4篇顶会级论文,但会偷偷“开挂”改脚本

论文地址:https://sakana.ai/assets/ai-scientist/weight_initialization_grokking.pdf
代码地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/layerwise_lr_grokking

三、“画图”能力不足,难以准确比较两个数字大小

受限于当下大模型发展水平,AI科学家仍存在不足之处。

目前,AI科学家尚未具备视觉处理能力,因此无法自动修正论文中的视觉元素或图表布局问题。

比如,它生成的图表有时清晰度不足,表格可能超出页面界限,整体页面布局也常显杂乱。而引入多模态基础模型有望从根本上解决这一难题。

另外,AI科学家在执行想法或进行基线对比时,可能会因操作不当而导致结果误导

同时,在撰写和评估结果时,它也可能偶尔犯下较为严重的错误,比如难以准确比较两个数字的大小,这是大模型的一个已知缺陷。为缓解这一问题,团队已确保所有实验结果均可复现,并妥善保存了所有执行文件。

在报告中,团队深入剖析了AI科学家当前的局限以及未来可能面临的挑战。

四、AI科学家“耍小聪明”:自行修改脚本,引起AI安全隐患

团队还观察到,AI科学家有时会尝试通过一些“小聪明”来增加成功的几率,比如自行修改并执行脚本。在论文中,团队深入探讨了这一行为可能带来的AI安全隐患。

举个例子,在一次执行过程中,它竟然编辑了代码,通过系统调用来让自己无限循环运行。

还有一次,某个实验耗时过长,眼看就要超出团队设定的超时限制了,但它没有想着优化代码提升效率,反而试图通过修改代码来延长超时时间

以下是它尝试修改代码的一些具体例子:

全球首个AI科学家!一口气交出4篇顶会级论文,但会偷偷“开挂”改脚本 全球首个AI科学家!一口气交出4篇顶会级论文,但会偷偷“开挂”改脚本

这些问题可以通过对AI科学家的操作环境进行沙盒化来缓解。在完整报告中,团队深入讨论了安全代码执行和沙盒化的问题。

结语:AI科学家首秀,颠覆创新能力有待验证

展望未来,Sakana AI称其的目标是将AI科学家应用于开放模型的闭环系统中,推动AI不断自我改进。AI科学家将带来一个全面由AI驱动的科学新世界,这里不仅有大语言模型赋能的研究者,还涵盖了审稿专家、领域主席乃至整个学术会议体系。

但Sakana AI并不认为人类科学家的地位会因此削弱。相反,随着新技术的涌现,科学家的角色将更加多元化,他们将向科研领域的更高层次迈进。自动化科研发现流程并融入AI驱动的审核机制,这主要还是为科学技术领域中最棘手的问题创新与解决铺设了广阔的道路。

当前版本的AI科学家已展现出在扩散模型、Transformer等等成熟技术基础上进行创新的非凡实力,但这类系统能否真正提出颠覆性的全新理念,仍需时间来验证。

来源:Sakana AI