奥特曼预备用o1来训练AI了 OpenAI最新论文验证该方法可行性!

  • 电脑网络维修
  • 2024-11-14

谁更懂AI训练,是人类还是AI自己?

在OpenAI具备强推理配置的o1颁布,AI训练自己这件事,又被奥特曼进一步提上了日程。

在OpenAI的开发者日优惠中,奥特曼泄漏道:"假设咱们能制作出一个在人工默认钻研方面比 OpenAI 一切系统都更杰出的人工默认系统,那确实会让人感觉这是一个关键的奇点......模型会变得如此之好,如此之快......方案让模型迅速变得更痴呆"。

好家伙,假设AI能日夜训练AI,那AGI的成功岂不是疯狂提速了?

为了验证这个想象能否可行,OpenAI须要找个裁判来看看AI和人类迷信家训练AI的品质。

因此,他们在最新论文《MLE-BENCH:评价机器学习工程中的机器学习代理》中,引见了新推出的用于权衡AI在机器学习工程畛域才干的新工具MLE-BENCH。

MLE-bench这一基准测试,经上来自Kaggle(一个出名的机器学习竞赛平台)的75个实在环球数据迷信竞赛来应战AI训练。

先说个结果,AI训练自己很有或者:OpenAI最先进的模型o1-preview与一种名为AIDE的框架(编者注:专为Kaggle竞赛设计的框架,它准许AI Agent口头树形搜查来找到处置疑问的方法)配合,在16.9%的竞赛中到达了获奖水平。这一体现相当有目共睹,这象征着在某些状况下,o1曾经可以和熟练的人类数据迷信家掰掰手段。

论文地址:

名目开源地址:

1.MLE-bench:评判AI训练才干的裁判

为了能测试AI Agents 在机器学习方面的后劲,MLE-bench由75个来自Kaggle的不同畛域的竞赛组成,涵盖了人造言语处置、计算机视觉和信号处置等多个畛域,保障了测试的片面性。

该基准测试的指标是权衡AI Agent在机器学习工程方面的体现,包括模型训练、数据集预备以及试验运转等。为了确保测试结果的可比性,MLE-bench的较量经常使用了与原Kaggle较量不同的训练和测试宰割,并从新成功了评分代码。

上图为OpenAI 的 MLE-bench 示用意,展现了AI Agent如何与 Kaggle 类型的竞赛互动。该系统模拟人类数据迷信家的上班流程,要求人工默认口头复杂的机器学习义务,从模型训练到提交创立。

而后MLE-bench会依据人类基准对AI agent的训练性能启动打分。

2.两个发现:辅佐框架与屡次尝试均能提高AI训练体现

有两个提高AI训练性能的方法。

首先,就是给AI一些工具,协助它较量。

在构建AI Agent启动AI研发的环节中,钻研者们发现,当将前沿的言语模型与开源的辅佐框架联合起来时,能够起到必定的效果。

例如,经常使用AIDE框架的o1-preview模型能够在16.9%的较量名目中取得至少Kaggle铜牌水平的效果。

上图比拟了三种AI Agent 在 OpenAI 的 MLE-bench 中处置机器学习义务的方法。从左到右依次为 MLAB ResearchAgent、OpenHands 和 AIDE 各自展现了应回答杂数据迷信应战的不同战略和口头期间。AIDE 框架的运转期间为 24 小时,展现了一种更片面的疑问处置方法。

其次,Agent也会在尝试中愈加熟练。钻研发现,当给Agent提供更多的尝试时机时,它们的体现会有清楚优化。例如,o1-preview在单次尝试时的效果为16.9%,而在8次尝试后,这一比例参与到了34.1%。这象征着经过始终尝试,AI可以在这个畛域取得渺小优化。

3.写在最后:失望但不盲信AI

就像Cursor等AI编程工具不会取代程序员,AI也不会让咱们不再须要迷信家。

值得留意的是,AI训练人工默认的未来也没有评分中的如此失望。钻研存在一个渺小的局限性:因为数据集中蕴含的是地下的Kaggle竞赛。因此,有或者模型曾经记住了答案或关于处置方案的直觉,造成MLE-bench或者高估了模型的才干。

只管论文中提到的钻研采取了一些措施来防止代码或测试标签的剽窃,然而难以检测到上档次战略的重复应用。这也象征着,MLE-bench这位裁判必定活期降级,以最新的Kaggle竞赛来防止数据污染的疑问。

不过,AI作为“副驾”介入到模型开发中,或者在未来成为OpenAI等顶尖AI公司的日常。

MLE-bench为咱们提供了这一停顿的新视角,随着这些AI系统的提高,它们或者很快会与人类专家协作,在AGI成功的路上踩下一脚油门。

参考链接:

想了解更多AIGC的内容,请访问:

AI.x社区

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/4870.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号