StaR 用大批推理数据让模型学会通用推理才干 清楚优化模型复杂推理

  • 电脑网络维修
  • 2024-11-15
当蠢才享Google Research的一篇文章,或者OpenAI o1也驳回了相似的技术,题目是STaR: Bootstrapping Reasoning With Reasoning。这篇文章提出了一种应用言语模型自我生成推理的技术,称为“Self-Taught Reasoner (STaR)”。该技术经过迭代地利用大批的推理样本和少量没有推理的数据,逐渐优化言语模型处置复杂推理义务的才干。STaR能够清楚提高模型在多个数据集上的功能,功能能与大30倍模型的微调功能相当。本文提出的方法一方面证实生成两边推理环节能极大优化复杂疑问推理成果,同时也说明本文迭代学习自身推理环节来生成正当Rationales并优化复杂义务推理才干的有效性,能用大批的带推理的数据让模型具有通用的生成两边环节推理的才干。

一、概述

•STaR: Bootstrapping Reasoning With Reasoning

•Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman

1 Motivation

Step-by-step推理步骤生成可以优化言语模型在复杂推理义务(如数学或知识问答)上的功能,然而要让LLM能生成rationale推理环节,要么须要构建宏大的推理数据集,要么在只经常使用大指示例(但推理时就义了准确性)。

须要一种方法来应用大批的推理示例和少量未经过推理的数据来优化模型的推理才干。

1省流版总结:

2 专业版总结:

本文提出了一种名为“Self-Taught Reasoner”(STaR)的方法来处置言语模型在复杂推理义务上功能优化的疑问。**STaR方法的外围现实是经过迭代地利用大批推理示例(rationales)和少量无推理数据集,逐渐疏导模型优化启动复杂推理的才干。**详细来说,STaR方法包括以下几个步骤:

3 Rationalization指的是什么?

Q1:为什么要用Rationalization?

• 间接让LLM生成推理思索环节,这些思索环节有些是对的,有些是错的, 间接拿正确的思索环节,来训练llm生成rational,因为没有增量消息,会造成模型不能从failed example中学习,这样就不能让模型具有对new problems启动推理的才干。

Q2: 如何生成Rational

• 如下图所示,间接让LLM生成推理环节, 关于failed的例子,加上label作为hint,基于hint,可以生成正确的推理环节。

3 Conclusion

• STaR清楚优化了在多个数据集上的功能,相关于间接预测最终答案的模型,其成果愈加突出。

• 在CommonsenseQA数据集上的体现与微调一个大30倍的最先进言语模型相当。

• STaR使得模型能够经过学习自身生成的推理步骤逐渐优化推理才干。

二、详细内容

1 试验设计

数据集:

:模型驳回的是6B的开源模型(GPT-J),其checkpoint和fine-tuning code都开源了。

2 Rationalization能极速优化accuracy(从失败中学习能极速生长!!!)

说明;rationalization指的就是关于failed的example,加上hint,生成正确的推理环节数据并用于训练。

论断:随着STaR算法迭代次数的参与,模型在算术义务上的准确率逐渐提高。特意是在经常使用rationalization的状况下,准确率优化愈加块。

3 STaR + rationalization比间接FT和few-shot成果好很多

• CQA数据集

• GSM8K数据集

说明:

• Direct Finetuned:不输入两边推理环节

• STaR without rationalization:不从失败样例中学习(以label作为hint生成推理环节用于ft)

• STaR with rationalization:从失败中学习

论断1:生成两边推理环节能清楚优化最终的精度 ,例如就算经常使用100%的数据,不加推理环节,精度只能到60%,加上后用更少的数据却能更高的精度(大于68%)。

论断2:rationalization从失败中学习能进一步优化精度。

三、总结

STaR方法的主要在于,它 准许模型经过自我生成的推理环节来自我改良,而不须要人工标注少量的推理数据集 。此外,**经过rationalization技术,STaR能够确保模型从其失误中学习,从而提高全体的推理才干。**论文的试验结果标明, STaR在多个数据集上的功能清楚优于间接预测答案的模型,并且与经常使用30倍更大模型的微调功能相当。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5888.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号