of TOT Thought Tree

  • 电脑网络维修
  • 2024-11-15

当蠢才享一篇普林斯顿大学的一篇文章,Tree of Thoughts: Deliberate Problem Solving with Large Language Models[1]:思想之树:用大型言语模型处置复杂疑问。

这篇上班还是十分有自创意义的,OpenAI的Andrej Karpathy(前Tesla AI初级总监、智能驾驶Autopilot担任人)在state of gpt[2]中也分享了这篇文章,其可以经过搜查多条处置门路,应用dfs以及bfs等算法,像人类一样应用回溯、剪枝等战略来思索和处置疑问,可以让GPT-4处置一些更复杂的推理疑问。

一、概述

Title:Tree of Thoughts: Deliberate Problem Solving with Large Language Models

论文地址:

论文代码:

非官网代码:

1 Motivation

2.1 Thought decomposition【thought合成】

目标:如何将两边环节合成成一个思想步骤【不同义务的thought steps怎样设计比拟好】

方法:不同的义务,两边的思索环节thought或许不同,例如或许是几个words(Crosswords填字谜游戏),或许是一个equation(24点游戏),也或许是一个paragraph(创意文本生成),设计thoughts可以有几个准则:

2.2 Thought generator【thought生成】

背景:不同的义务Thought生成的准则也不太一样,可以依据义务的特点制订thought生成的准则。

【Mini Crosswords 填字游戏】是什么?:Mini Crosswords是一种简化版的填字游戏,适宜在有限的空间和期间内启动。与传统的填字游戏不同,Mini Crosswords经常使用较小的网格,通常为5x5或6x6,且只蕴含较少的单词。每个单词都有一个揭示,玩家须要依据揭示填写正确的单词。

【Mini Crosswords 填字游戏】thought生成方法:间接依据节点曾经填好的单词(限度条件),应用prompt方法生成5次,发生下一个词或许的5种填写方法。

2.3 State evaluator【形态评价】

定义:给定不同的state形态,state evalutor用于评价那个方法最有凑近处置疑问。通常是应用heuristis方法来处置,像deepBlue是用编程的方法来处置,AlphaGo是用学习的方法来处置,本文间接是用LM去评价和思索state处置疑问的前景。雷同的,针对不同的义务也有不同的评价方法。这里关键提出两种战略:

【24点游戏】评价方法:间接应用prompt LM去评价每个thoughts为sure、maybe、impossible几个选项

【Mini Crosswords 填字游戏】评价方法:间接应用prompt评价每个candidates的confidence(sure、impossible、maybe)

【创意文本生成】评价方法:间接应用LM投票从多个state当选用最好的一个,例如经常使用以下prompt:“analyze choices below,then conclude which is most promising for the instruction”

其余:关于每一种战略,都可以应用LM prompt屡次集成屡次的value分数或许vote投票优化其鲁棒性。

2.4 Search algorithm【搜查算法】

说明:关于树的结构,有很多中搜查算法,本文探求了两种繁难的搜查算法BFS和DFS。

3 Conclusion

4 Limitation

二、具体内容

1三个试验的定义

2 搜查算法战略

特点:应用BFS,可以像人类一样,不时探求比拟好的b个(宽度)成功方法。应用DFS方法,可以繁难的启动剪枝,回溯,像人一样,路走不通,我退回上一个不走从新选用。相关于之前的COT等从左到右的思想战略,切实上觉得确实会有着比拟大的优化空间。

3 Game of 24试验结果剖析

4 Creative Writing results和Mini Crosswords results结果剖析

智能评价(连接性):ToT (7.56) > CoT (6.93) > IO (6.19)

人工评价(GSB):ToT vs COT G:S:B = (41:38 :21)

iterative-refine(旧的thought -> refine -> 新的thought):迭代优化还能继续优化,ToT (7.56 -> 7.91) ,IO (6.19 -> 7.17) ,这个优化也挺大的,可以作为一个新的方法

Letter(字母级别准确率):ToT (78) > CoT (40.6) > IO (38.8)

Word(字级别准确率):ToT (60) > CoT (15.6) > IO (14)

Game(游戏级别处置率):ToT (20) > CoT (1) > IO (0)

消融试验:(1)+best state:应用更好的state评价器,或许获取更大的优化,Game级别处置率从20%->35%,说明本文提到的繁难的启示式的评价算法还有比拟大的空间。(2)剪枝:去掉剪枝,只能处置1个疑问,另外3个都是经过启示式的剪枝找到的,说明这种方法关于处置疑问是至关关键的。(3)回溯:去掉回溯算法后,成果体现比拟差,说明有间断性的这种寻觅答案的方法也是十分关键的。

5Related Work

三、总结

1. 提出了一种齐全由LLM + 启示式搜查算法结合的TOT算法,其可以从多条处置门路,极速的找到最佳处置方法,可以处置的一些复杂的,GPT-4都体现差的一些义务。其关键由thought生成、thought评价、搜查算法组成,可以生成处置打算、对打算启动自我评价、同时可以经过回溯算法来间断之前的处置思绪,应用剪枝算法过滤无法靠处置打算,优化找到最优处置门路的速度。 2. TOT其各个部分都是高度模块化的,例如可以用不同的LM,不同的搜查算法来成功,通用性比拟强,同时其关于每个义务thought的定义都不太分歧,如何针对不同的义务设置更好的thought也比拟关键,他这里提出了“不能太小”、“不能太大”的指点准则可以参考。 3. TOT间接应用LM的评价器成果还有待提高,Mini Crosswords results义务应用更好的state评价器,或许获取更大的优化,Game级别处置率从20%->35%,说明应用更好的评价器也是十分关键的,可以取得更好的结果。 4. OpenAI的Andrej Karpathy在state of gpt中也提到了TOT算法,其也或许是比Auto-GPT更好的一种,让llm启动深思熟虑来处置复杂疑问的一种成功思绪。

四、References

[1] Yao, Shunyu, et al. "Tree of thoughts: Deliberate problem solving with large language models." arXiv preprint arXiv:2305.10601 (2023).

[2] state of gpt:​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5787.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号