Agent Q 评价的智能体 具有自我学习

  • 电脑网络维修
  • 2024-11-15

GPT-4、Gemini等大模型在人造言语处置义务中取得了提高,但在交互式、多步骤环境中的泛化才干仍有短少。例如,当咱们在网上购置一件特定的商品时,须要在泛滥网页中启动搜查、比拟和选用。

AGI平台MultiOn和斯坦福的钻研人员联结开发了一种智能体Agent Q,能自主布局、推理一些义务。Agent Q与其余智能体最大差异的是,它能从失败和成功的义务中智能学习、评价,从而提高在复杂多步骤推理义务中的泛化才干。

论文地址:

Agent Q框架驳回了蒙特卡洛树搜查(MCTS)算法来指点智能体的探求和决策环节。

MCTS是一种启示式搜查算法,宽泛运行于游戏和决策畛域,经过模拟或者的将去门路来评价和选用最优的执行战略。

在Agent Q中,MCTS用于在网页环境中导航,协助智能体在每一步选用最有宿愿的举措。这一环节触及选用、裁减、模拟和反向流传四个阶段,经过迭代地优化搜查树来提高战略的性能。

MCTS算法在复杂环境中面临的一大应战是环境鼓励的稠密性,或者会造成智能体在常年义务中遇到艰巨。

为了处置这个难题,Agent Q引入了自我批判机制,这是一种自我评价环节,智能体在每个决策节点上经常使用自身的评价来提供两边鼓励。这不只协助智能体在搜查环节中启动自我监视,而且经过提供即时反应能指点智能体学习正确的布局门路。

Agent Q的自我批判机制依赖于一个反应言语模型,该模型对智能体在每个节点上或者采取的举措启动评分,从而构成一个加权分数。

这个分数结合了MCTS的平均Q值和反应言语模型生成的分数,用于构建间接偏好优化(DPO)算法中的对比对。DPO算法是一种离线强化学习算法,经过比拟不同举措的偏好来优化战略,使得智能体能够从成功的和不成功的轨迹中学习。

Agent Q框架的另一个特征模块是“迭代式微调”,也是成功自我学习的关键所在。 在迭代中,智能体经过与环境的交互始终学习和改良。与传统的监视学习不同,迭代式微调准许智能体在没有明白标签的环境下启动学习,经过自我生成的数据和偏好对来指点优化环节。

此外,Agent Q框架还思考了智能体的形态示意疑问。在网络交互中,智能体的形态或者局部无法观察,因此构建一个有效的形态示意关于智能体的性能至关关键。Agent Q驳回了一种紧凑的历史示意方法,将智能体迄今为止生成的举措和阅读器形态结合起来,构成了一个高效的内存组件。

为了测试Agent Q的性能,钻研人员在一种模拟电子商务平台WebShop启动了综合测试。试验结果显示,Agent Q的体现清楚优于行为克隆和强化学习微调的基线模型,在某些义务中甚至超越了平均人类体现。

尤其是在实在环球的预订场景中,Agent Q将Llama-3 70B模型的零样本成功率从18.6%优化至81.7%,相对优化了340%,并在装备在线搜查配置后,成功率进一步提高到了95.4%。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5820.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号