Agent上班流记忆

  • 电脑网络维修
  • 2024-11-14

当天我要跟大家分享一篇很无心思的论文,标题是《Agent Workflow Memory》,也就是"Agent上班流记忆"。这篇论文提出了一种新方法,让AI助手(咱们称之为Agent)能更好地成功复杂的网页义务。

背景:AI助手的应战

首先,咱们来聊聊这个钻研的背景。如今的AI技术曾经十分弱小了,特意是像GPT这样的大言语模型(LLM),它们可以启动对话、回答疑问,甚至可以帮咱们成功一些便捷的义务。但是,当面对复杂的、须要多个步骤才干成功的义务时,AI助手还是会遇到不少艰巨。

举个例子,假定咱们让AI助手帮咱们在网上订一张从北京到上海的机票。这个义务看似便捷,但实践上触及很多步骤:

打停航空公司网站

选用登程地和目的地

挑选适合的航班

填写乘客消息

选用座位

支付订单

关于人类来说,咱们或许曾经订过很屡次机票了,这些步骤咱们烂熟于心。但对AI助手来说,每次执行这样的义务都像是全新的体验。它或许会在某些步骤卡住,或许遗记了关键的步骤。

钻研人员发现,现有的AI助手关键有两个疑问:

钻研指标:让AI助手更痴呆

基于这些应战,钻研者提出了一个十分幽默的想法:能不能让AI助手也像人类一样,能够学习、记忆和经常使用上班流程呢?

这就是本篇论文的外围指标: 开发一种方法,让AI助手能够从过去的阅历中提取出可重用的上班流程,并在未来的义务中灵敏运用这些上班流程。

钻研者们宿愿经过这种方法,AI助手可以:

那么他们是如何成功这个指标的呢?这就要说到本文的外围方法了:Agent Workflow Memory(AWM),也就是"Agent上班流记忆"。

AWM的外围现实:上班流记忆

Agent Workflow Memory (AWM)的外围现实是让AI助手能够像人类一样,从过去的阅历中学习、记忆和经常使用上班流程。但什么是"上班流"呢?让咱们先来了解这个概念。

什么是上班流?

在AWM中,上班流(Workflow)是指成功某个义务或子义务的一系列步骤。它蕴含两个关键局部:

举个例子,假定咱们有一个"搜查产品"的上班流,它或许看起来像这样:

## 上班流形容: 在电商网站搜查特定产品上班流轨迹:1. [观察] 页面显示搜查框2. [推理] 我须要在搜查框中输入产品称号3. [举措] 在搜查框中输入"{产品称号}"4. [观察] 搜查结果页面加载成功5. [推理] 我须要检查搜查结果并选用最关系的产品6. [举措] 点击最关系的产品链接

这个上班流形容了在电商网站搜查产品的通用步骤,可以实用于多种不同的产品和网站。

AWM的上班原理

如今咱们了解了上班流的概念,让咱们来看看AWM是如何上班的。AWM的外围流程包括三个关键步骤:

让咱们逐个详细了解这些步骤。

1. 上班流提取 (Workflow Induction)

在这个步骤中,AWM会从AI助手过去执行义务的阅历中提取出可重用的上班流。这个环节可以经过两种形式启动:

a) 基于规定的提取 : 经常使用预约义的规定来识别和提取经常出现的行为形式。b) 基于言语模型的提取 : 经常使用大型言语模型(如GPT)来剖析和总结义务执行环节,生成形象的上班流。

钻研者发现,基于言语模型的提取方法理论能发生更形象、更通用的上班流,因此在试验中体现更好。

上班流提取(Workflow Induction)是AWM方法的外围步骤之一,论文中详细形容了两种关键的成功形式:基于规定的方法和基于言语模型的方法。咱们来深化了解一下这两种方法的详细成功细节。

1. 基于规定的方法(Rule-based Induction)

基于规定的方法关键包括两个步骤:阅历去重和有效举措过滤。

1.1 阅历去重

目的:从多个相似的义务执行阅历中提取出共同的上班流。

成功步骤:

例如,从轨迹CLICK('12') → CLICK('30') → TYPE('44', "cat") 中提取出CLICK → CLICK → TYPE。

1.2 有效举措过滤

目的:移除不可在环境中成功执行的举措步骤。

成功步骤:

例如,CLICK和TYPE举措的第一个参数必定是字符串格局的整数(代表环境中元素的ID)。

示例:输入轨迹:CLICK(12) → CLICK('12') → CLICK('30') → TYPE(44, "cat") → TYPE('44', "cat")​输入上班流:CLICK('12') → CLICK('30') → TYPE('44', "cat")

2. 基于言语模型的方法(LM-based Induction)

基于言语模型的方法应用大型言语模型(如GPT)来生成更形象、更通用的上班流。

2.1 揭示工程(Prompt Engineering)

钻研者设计了不凡的揭示模板,疏导言语模型从给定的义务阅历中提取上班流。

揭示模板的关键点:

找出多个义务中重复发生的举措子集。

将每个重复子集提取为一个上班流。

每个上班流应该是罕用的子例程,至少蕴含两个步骤。

经常使用形容性变量名替代详细的输入文本或按钮字符串。

Given a list of web navigation tasks, your task is to extract the common workflows.Each given task contains a natural language instruction, and a series of actions to solve the task. You need to find the repetitive subset of actions across multiple tasks, and extract each of them out as a workflow.Each workflow should be a commonly reused sub-routine of the tasks. Do not generate similar or overlapping workflows. Each workflow should have at least two steps. Represent the non-fixed elements (input text, button strings) with descriptive variable names as shown in the example.

2.2 上班流生成

言语模型基于提供的义务阅历和揭示,生成形象的上班流。

生成的上班流理论蕴含:

环境形容:网页形态的文本形容。

推理环节:解释为什么要执行下一步举措。

详细举措:可执行的程序化举措。

示例上班流:

## 在电商网站搜查产品上班流形容:此上班流用于在电商网站上搜查特定产品。上班流轨迹:[环境形容] 页面显示搜查框。[推理] 我须要在搜查框中输入产品称号。[举措] fill('搜查框ID', '{产品称号}')[环境形容] 搜查结果页面已加载。[推理] 我须要点击最关系的产品链接。[举措] click('{最关系产品链接ID}')

3. 两种方法的比拟

钻研者发现,基于言语模型的方法理论能发生更好的结果:

但是,基于规定的方法也有其好处:

在实践运行中,钻研者关键经常使用基于言语模型的方法,由于它能发生更高品质、更通用的上班流,从而在各种测试场景中取得更好的性能。

经过这种精心设计的上班流提取环节,AWM能够从AI助手的历史阅历中学习到有用的操作形式,这些形式后续可以被用来指点AI助手更有效地成功新的义务。这就是AWM方法成果清楚的关键所在。

2. 上班流整合 (Workflow Integration)

一旦提取收上班流,AWM会将这些上班流整合到AI助手的记忆中。这个环节就像是给AI助手一本"操作手册",外面蕴含了各种经常出现义务的执行步骤。

3. 上班流经常使用 (Workflow Utilization)

当AI助手面对新义务时,它会先查阅自己的"操作手册",看看有没有实用的上班流。假设找到了关系的上班流,AI助手就会参考这个上班流来执行义务,而不是从零开局探索。

AWM的两种上班形式

AWM有两种关键的上班形式:离线形式(Offline)和在线形式(Online)。

这两种形式各有好处,钻研者在不同的试验场景中都启动了测试。

到这里,咱们曾经对AWM的外围现实和上班原理有了基本的了解。在下一局部,咱们将看看钻研者是如何评价AWM的成果的,以及它在实践义务中体现如何。

AWM的试验评价

钻研者们为了片面测试AWM的成果,选用了两个关键的网页导航基准测试:WebArena和Mind2Web。这两个测试集涵盖了各种不同类型的网页义务,从便捷的消息查找到复杂的多步骤操作都有。让咱们来看看AWM在这些测试中的体现。

WebArena测试

## shopping: Browse Products in a Specific CategoryTo browse products in a specific category, I need to navigate to the relevant main category. I will start by hovering over the main category menu item to reveal the subcategories.hover(’main category id’)To browse products in the specific subcategory, I need to click on the subcategory link. click(’subcategory id’)

WebArena是一个蕴含812个网页导航义务的测试集,触及5个不同的网站,包括电子商务、社交论坛、软件开发单干平台和内容治理系统等。这个测试的特点是它可以严厉评价AI助手执行义务的配置正确性。

试验设置

钻研者经常使用了GPT-4作为基础模型,驳回AWM的在线形式(AWM Online)启动测试。这象征着AI助手在执行测试义务的环节中,会始终学习和经常使用新的上班流。

关键结果

这些结果标明,AWM不只清楚提高了义务成功的成功率,还缩小了成功义务所需的步骤数,使AI助手的操作愈加高效。

跨模板泛化才干

钻研者还专门测试了AWM在不同义务模板之间的泛化才干。结果显示,即使面对全新的义务类型,AWM依然坚持了较高的成功率(33.2%),远超基准方法(20.5%)。

Mind2Web测试

# travel: enter flight locationsGiven that you are on the flight booking page, this workflow enters the departure and destination city/airport for your flight.[link] From Departure Airport or City Your Origin − > CLICK [textbox] Origin City or Airport − > TYPE: {your-origin-city}[link] {best-popup-option} − > CLICK[link] To Destination Airport or City Your Destination − > CLICK [textbox] Destination City or Airport − > TYPE: {your-destination-city} [link] {best-popup-option} − > CLICK

Mind2Web是另一个关键的测试集,它强调了跨义务、跨网站和跨畛域的泛化才干。这个测试集蕴含了1000多个义务,触及200多个不同的网站和多个畛域(如游览、购物、社交媒体等)。

试验设置

钻研者在Mind2Web上同时测试了AWM的离线形式(AWM Offline)和在线形式(AWM Online)。

关键结果

这些结果清楚地标明,AWM在各种不同的场景下都能清楚优化AI助手的体现,特意是在跨畛域的义务中,improvement十分清楚。

结果剖析

经过这些试验,咱们可以得出以下几个关键的论断:

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5422.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号