Scientist爆火面前的技术详解以及优缺陷剖析 AI

  • 电脑网络维修
  • 2024-11-15

当蠢才享一篇最近比拟抢手的日本守业公司Sakana AI的一篇文章,题目为《The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》。文章提出了一种名为“AI Scientist”的框架,旨在成功端到端齐全智能化的迷信发现,成功从Idea构建,试验跑取,文章撰写的齐全智能化。验证了AI智能化探求新疑问,处置新疑问,甚至撰写Paper的可行性。同时还提出了一个能与人类评委水准凑近的Review Agent,能够给出高水准的评审意见。

总体来说,其还是一个多agent系统,应用了reflection机制迭代优化成果,同时也联合Semantic Scholar等工具验证翻新性,应用Aider工具来降级代码和Paper,来口头相关试验。同时也要看到其只是搭了一个基础的Baseline通道,如何优化Idea生成的深度以及多样性,如何让LLM能成功更复杂,更有应战性的Idea,如何降落Review Agent的False Positive Rate(FPR)都值得进一步探求。

本文将对其面前的技术,优缺陷启动详细的剖析~

一、概述

1. Motivation

文章引见了“AI迷信家”框架,该框架包含三个重要阶段:

1.想法生成:AI迷信家首先“头脑风暴”出一系列陈腐的钻研方向,而后在此基础上启动翻新性迭代优化,最后挑选翻新性较高的idea。

2.试验迭代:依据想法和模板,AI迷信家首先口头提出的试验plan,而后依据试验结果,迭代优化试验,最后降级plot代码,可视化其结果以供后续撰写,代码经过AIder工具来降级。

3.论文撰写:AI迷信家经常使用LaTeX撰写完整的迷信论文,形容其停顿。

•输入:总体就两个输入,Baseline Code,以及论文Latex模板,加上init paper的一些消息。

• Baseline code:a starting code template that reproduces a lightweight baseline training run from a popular model or benchmark. For example, this could be code thattrains a small transformeron the works of Shakespeare (Karpathy, 2022), a classic proof-of-concept training run from natural language processing that completes within a few minutes

• Latex模版:LaTeX folder that containsstyle files and section headers, along with simple plotting code.

•输入:完整的Paper

1 Idea generate环节

•输入:code template

•输入:some ideas

•代码:​ ​​ ​

• generate_ideas:idea生成

• generate_next_idea:在seed的基础上继续生成新的idea

• search_for_papers:调用api search paper

• check_idea_novelty:审核并优化翻新性

1.1 Idea Generation Prompt

•好处:对diversity做了优化和限度,引入了COT机制。

•缺陷:idea全靠LLM外部消息想进去,思索的常识有限,降级也不迭时,不太能及时follow最新常识,不过外部常识能做到什么粒度其实还不太确定,另外外部常识其实是不足新常识的,这对迷信钻研十分致命。

1.2 Idea Novelty Prompt

•缺陷:还是翻新所有源于LLM外部常识。

2 Experiments环节

•输入:idea + template

•输入:experiment result + experiment figures

•成功模式:经过Aider降级代码,而后口头命令行跑取模型结果。

• Aider平台,可以经过命令降级代码:•

2.1 Experiment Running Aider Prompt

•特点:先也会有一个plan,而后区分成功experiments

•缺陷:没详细讲如何成功Experiment的,Aider看着是个平台,或者可以间接用,然而改代码很容易出错,稳固性存疑。

2.2 Plotting Aider Prompt

•特点:生成plot,还有description,后续用于减少到论文中。

3 Paper Writing流程

•输入:Latex模版 + Experiments recorded notes + plots,Latex模板图如下,也是用Aider工具来修正•

•输入:paper

3.1 Paper Writing Aider Prompt

•特点:提供每个section的倡导+latex的template+plan

•缺陷:Aider是个啥,觉得writing比拟有用的样子。

4 Reviewer Agent流程

•输入:PDF manuscript

•输入:Paper Review Result

•好处:参考了neurips ReviewerGuidelines,同时引入reflection,few-shot来优化成果。

4.1 Paper Review Prompt

•特点:引入neurips guideline和few_shot_example。

4.2 Paper Review Reflection Prompt

•特点:经过多轮迭代 + COT思索

4.3 Paper Review Ensembling Prompt

•特点:还有个汇总的,好处self-consistant的觉得

5 反思和迭代次数

3. Coclusion

文章搭建了一个AI Scientist,经过三个子义务验证了其可行性:分散模型、Transformer和Groking。并且每种想法的成功和开发老本不到15美元。标明了该框架在Research钻研和清楚减速迷信提高方面的后劲。

•搭建了一个完整的科研链路Agent:idea -> Experiments -> Paper,还真work了。

•附带送了一个凑近人类水平的Paper Review Agent,成果也还不错。

4. Limitation

•生成的Idea经常十分相似,甚至不同模型,不同run都会有很相似的idea。

• Aider成功ideas有艰巨,GPT-4o写Latext常不能编译,有些idea成功challenging比拟大。

• plot的图像也或者有疑问,而且还不止是vision,或者看不出成果。

• Latext的cite和reference或者有疑问。

• LLM数学才干不太好,对metric不敏感。

•幻觉。

二、详细内容

1 LLM Paper Review水平在ICLR2022数据集上曾经凑近人类水平

•特点:精度和人类比拟凑近(balanced 0.65 vs 0.66),False Negative Rate(FNR)更低,False Positive Rate(FPR)偏高,说明也有打分偏高的状况。

2 Reflexion和one-shot能优化Reviewing成果

•论断:从0.66优化到0.70,看着还不错。Ensemble后精度没有优化,然而variance有降落。

3 Diffusion Modeling优化成果

•**论断1:Sonnet3.5看着比GPT-4o好很多啊,而且还更廉价,成功Paper率居然凑近80%**,还是很凶猛。

•论断2:DeepSeek Coder是性价比之王。

•其余:DIffusion Modeling觉得都是比拟老的模型了,应用LLM生成的idea或者都是训练过的了,或者并不能代表真正的翻新。

4 Language Modeling优化成果

•论断: 这次成功率只要40%了,这个差异好大,跟猜想的一样,coding或者十分不稳固,另外DeepSeek Coder确实凶猛。

5 Grokking优化成果

•论断:不同paper,不同LLM基座的Noval Ideas居然都超越90%,然而Experiments的成功率差异十分大。​

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5947.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号