组合优化在生成式AI中的前沿探求 智能推理新门路

  • 电脑网络维修
  • 2024-11-15

虽然LLMs在生成人造言语文本方面体现杰出,但在推理义务中的体现却不尽善尽美。推理义务须要模型具有更上档次的认知才干,包括逻辑推理、因果相关剖析和战略布局等。但是现有的LLMs在这些方面的才干有限,关键表如今缺乏深度推理才干,LLMs在处置复杂推理义务时,往往依赖于便捷的形式婚配和统计法令,缺乏真正的逻辑推理才干。易受幻觉影响,LLMs在生成文本时,有时会发生与理想不符或有意义的内容,这被称为“幻觉”现象。这在推理义务中尤为清楚,由于推理义务须要模型生成高度准确和分歧的答案。依赖人工揭示,现有的许多推理方法,如链式思想(Chain of Thought, CoT)和自分歧性(Self-Consistency),都依赖于人工设计的揭示和示例,这限度了它们的泛化才干和智能化水平。

为了处置这些疑问,纽约cosa Computing Inc.公司、NASA ARC量子人工智能试验室等多个组织的团队提出了一种新的框架——组合推理(Combinatorial Reasoning, CR)。该框架经过组合优化技术,智能生成用于推理义务的揭示,从而提高LLMs在推理义务中的体现。CR框架的外围理想是将从LLM管道中采样的理由映射为二次无解放二进制优化(QUBO)疑问,经过优化选用有用的理由子集,构建链式思想格调的揭示。

本钻研由来自多个机构的专家团队协作成功,涵盖了生成式AI、量子计算、数据迷信和优化算法等多个畛域。钻研团队成员有纽约Icosa Computing Inc.公司成员Mert Esencan, Tarun Advaith Kumar, Can Unlu, Alan Ho。Icosa Computing Inc. 是一家位于纽约的公司,专一于计算技术和人工智能的前沿钻研与开发。团队成员在生成式AI和优化算法方面具有丰盛的阅历。NASA ARC的量子人工智能试验室的成员Ata Akbari Asanjan, P. Aaron Lott, Davide Venturelli。NASA ARC的量子人工智能试验室(QuAIL)努力于探求量子计算在人工智能中的运行。该试验室位于加利福尼亚州的Moffett Field,钻研重点包括量子优化和量子机器学习。NASA ARC数据迷信组的成员Ata Akbari Asanjan,NASA ARC数据迷信组是NASA ARC的一局部,专一于数据剖析和机器学习技术的钻研与运行。团队成员在大数据处置和剖析方面具有深沉的专业常识。USRA初级计算迷信钻研所的成员P. Aaron Lott, Davide Venturelli,USRA初级计算迷信钻研所(RIACS)与NASA协作,启动初级计算和人工智能畛域的钻研。钻研所位于加利福尼亚州的Moffett Field,努力于推进计算迷信的前沿开展。惠普试验室的LSIP(Large-Scale Integrated Photonics)部门成员Masoud Mohseni,惠普试验室的LSIP(Large-Scale Integrated Photonics)部门位于加利福尼亚州Milpitas,专一于大规模集成光子学和量子计算的钻研。团队成员在物理学和计算迷信方面具有丰盛的钻研阅历。DataStax 公司的成员Alan Ho,>LLMs概述​

大型言语模型(Large Language Models, LLMs)是基于深度学习技术的机器学习模型,专门用于处置和生成人造言语文本。与传统的言语模型相比,LLMs领有极端庞大的参数量,理论到达数十亿甚至上百亿级别。这些模型经过在海量文本数据上启动训练,能够捕捉言语中的复杂形式和结构,从而生成高度连接和人造的文本。

虽然LLMs在生成和了解人造言语方面体现杰出,但在处置须要深度推理的义务时仍存在必定的局限性。为了提高LLMs的推理才干,钻研人员提出了多种推理方法,其中最具代表性的是链式思想(Chain of Thought, CoT)和自分歧性(Self-Consistency)。

1. 链式思想(CoT)

链式思想是一种经过在揭示中参与两边推理步骤来增强LLMs推理才干的方法。详细来说,CoT方法经过手动标注的示例,展现了从疑问到答案的推理环节。这些示例被用作揭示,指点LLMs生成蕴含推理门路的回答。

CoT方法能够清楚提高LLMs在推理义务中的体现,特意是在须要多步推理的复杂义务中。

局限性是CoT方法依赖于人工标注的示例,这不只耗时耗力,而且这些示例或者不可泛化到不同类型的义务。此外,手动标注的示例数量有限,难以笼罩一切或者的推理门路。

2. 自分歧性(Self-Consistency)

自分歧性是一种改良的解码方法,旨在提高CoT揭示的性能。与贪心解码不同,自分歧性方法经过在非零温度下搜集多个样本,并选用发生次数最多的答案。这种方法基于这样一个直观的假定:推理疑问或者有多条正确的推理门路,但失误的推理门路会造成不同的失误答案。

自分歧性能够经过对多个推理门路启动边沿化处置,生成更准确的答案。这种方法在处置复杂推理义务时体现尤为杰出。

自分歧性方法雷同依赖于手动标注的示例,并且须要少量计算资源来生成和评价多个样本。此外,这种方法在处置具有高度不确定性的义务时,或者会面临性能瓶颈。

虽然这些现有的推理方法在必定水平上提高了LLMs的推理才干,但它们的局限性也显而易见。为了克制这些局限性,本文提出了一种新的框架——组合推理(Combinatorial Reasoning, CR),经过组合优化技术,智能生成用于推理义务的揭示,从而进一步优化LLMs在推理义务中的体现。

图1:组合推理的上班流程。LLM对初始揭示启动N次处置,并经过语义婚配环节对答案启动过滤,以发生具有不同要素的答案。该系综被映射到由Ising机器处置的QUBO疑问中。最终处置打算确定了一组要参与到最终LLM调用揭示中的要素,该调用将确定最终答案。

组合推理(CR)框架

CR框架的提出

随着生成式人工智能(Generative AI)和大型言语模型(LLMs)的极速开展,这些模型在人造言语处置义务中展现了弱小的才干。但是虽然LLMs在生成人造言语文本方面体现杰出,但在处置须要深度推理的义务时仍存在清楚的局限性。现有的推理方法,如链式思想(Chain of Thought, CoT)和自分歧性(Self-Consistency),虽然在必定水平上提高了LLMs的推理才干,但它们依赖于人工标注的示例,难以成功智能化和泛化。

为了克制这些局限性,钻研团队提出了一种新的框架——组合推理(Combinatorial Reasoning, CR)。CR框架的外围理想是经过组合优化技术,智能生成用于推理义务的揭示,从而提高LLMs在推理义务中的体现。详细来说,CR框架经过将从LLM管道中采样的理由映射为二次无解放二进制优化(QUBO)疑问,并应用优化技术选用有用的理由子集,构建链式思想格调的揭示。

CR框架的四个阶段

CR框架包括四个关键阶段:理由采样、QUBO映射、组合优化求解和最终揭示创立。以下是每个阶段的详细引见。

理由采样

在CR框架的第一个阶段,钻研团队须要从LLM中采样理由。详细步骤如下:

经过上述步骤,钻研团队可以获取以下汇合:

这些计数是组合推理的基础,钻研团队将经常使用它们来计算QUBO映射中所需的量。

QUBO映射

在CR框架的第二个阶段,钻研团队将采样的理由映射为二次无解放二进制优化(QUBO)疑问。详细步骤如下:

经过上述步骤,钻研团队可以将采样的理由映射为一个QUBO疑问,预备启动组合优化求解。

组合优化求解

在CR框架的第三个阶段,钻研团队经常使用伊辛机和其余优化技术求解QUBO疑问。详细步骤如下:

经过上述步骤,钻研团队可以获取优化后的理由汇合,为最终揭示创立做好预备。

最终揭示创立

在CR框架的最后一个阶段,钻研团队依据优化结果创立最终的揭示,并用于LLM的查问。详细步骤如下:

经过上述步骤,钻研团队可以生成一个蕴含优化理由的揭示,提高LLM在推理义务中的体现。

组合推理(CR)框架经过组合优化技术,智能生成用于推理义务的揭示,克制了现有推理方法的局限性。CR框架包括理由采样、QUBO映射、组合优化求解和最终揭示创立四个阶段,经过优化选用有用的理由子集,构建链式思想格调的揭示,从而提高LLMs在推理义务中的体现。

试验结果与剖析

试验设置

钻研团队经常使用了GPT-3.5-turbo-0125作为试验所用的大型言语模型(LLM)。GPT-3.5-turbo是OpenAI开发的一系列模型之一,专门用于生成类人人造言语文本。该模型具有16,385个高低文窗口,并能前往最多4,096个令牌的输入。为了确保试验的偏心性和分歧性,钻研团队选用了BIG-bench Hard(BBH)义务集启动评价。BBH义务集蕴含了一系列推理导向的疑问,这些疑问在过去对LLMs来说不时是具有应战性的。

为了节俭推理期间和老本,钻研团队从每个子义务中随机抽取了50个疑问,合计1350个疑问,组成了一个评价集。在这个评价集上,钻研团队将CR框架与以下几种方法启动比拟:

无理由采样阶段,钻研团队对LLM启动了N=210次采样,温度设为1,以搜集足够的独立理由,并计算它们的散布和相关矩阵。相似度阈值ζ设为0.90,这一数值是经过对测试疑问的阅历确定的。在运转QUBO映射之前,钻研团队经常使用Optuna框架对映射参数启动了调优,选用了最优的参数值。

图2:组合推理(CR)相关于其余方法的性能。人类和USP结果区分来自BBH和USP的出版物。USP在不同但可比拟的LLM PaLM 2-M上启动评价。

试验结果

试验结果显示,CR框架在BBH义务集上的体现优于其余零样本方法。详细结果如下:

图3:具有线性CR和随机要素的二次CR(与注释相反)的基线剖析。十个数据集的总体性能为二次CR:65.2%,线性CR:68.2%,随机:57.4%. 包括0次和0次CoT结果以供参考。依据0-发射CoT的性能对各个义务启动排序。

此外钻研团队还启动了人工评价,验证了CR框架在每个阶段的成果。结果标明,CR框架经过优化清楚缩小了独立理由的数量,提高了揭示的品质。

结果剖析

经过对试验结果的剖析,钻研团队发现CR框架在不同义务上的体现具有以下长处和无余:

长处是

无余的疑问是

CR框架经过组合优化技术,清楚提高了LLM在推理义务中的体现,展现了其在生成式AI推理义务中的渺小后劲。但是,未来的钻研仍需在计算资源优化、复杂义务处置和语义婚配改良等方面进后退一步探求,以充散施展CR框架的长处。

钻研总结

论文提出的组合推理(Combinatorial Reasoning, CR)框架,经过组合优化技术,清楚优化了大型言语模型(LLMs)在推理义务中的体现。

CR框架经过将从LLM管道中采样的理由映射为二次无解放二进制优化(QUBO)疑问,并应用优化技术选用有用的理由子集,智能生成用于推理义务的揭示。这一方法缩小了对人工标注示例的依赖,提高了揭示生成的智能化水平。

经过选用有用的理由子集,CR框架能够构建链式思想(Chain of Thought, CoT)格调的揭示,清楚提高了LLM在推理义务中的体现。试验结果显示,CR框架在BIG-bench Hard(BBH)义务集上的平均准确率为59.88%,优于其余零样本方法。

CR框架能够顺应不同类型的推理义务,经过优化选用最相关的理由,提高了揭示的准确性和相关性。试验结果标明,CR框架在多个推理义务上体现优秀,展现了其宽泛的实用性。

经过在GPT-3.5-turbo-0125模型上启动试验,验证了CR框架的有效性。试验结果显示,CR框架在平均体现和排名上均优于其余零样本方法,证实了其在推理义务中的长处。

虽然CR框架在推理义务中体现杰出,但仍有一些无余之处须要改良。例如,计算资源需求高、复杂义务体现有限以及语义婚配程序有待优化等。这些疑问为未来的钻研提供了方向和应战。

CR框架在生成式AI推理义务中的运行前景宽广,未来的钻研可以在以下几个方面启动探求和改良。

优化期间和准确性:进一步优化语义婚配程序,经过调整相似度阈值或驳回更初级的语义婚配算法,提高QUBO映射的有效性。QUBO映射:优化指标函数的构建,参与对高阶相关性的思考,钻研图的属性和自旋玻璃的物理个性,以提高最终答案的准确性。组合优化求解器:探求经常使用更高效的求解器,如配件高效的数字成功和量子求解器,经过混合战略进一步提高求解效率和准确性。

框架的泛化:将定理证实器(如Z3)集成到CR框架中,作为后处置步骤来消弭抵触理由,联合概率求解器和确定性求解器的方法,在开明域疑问上成功更高效的推理。与检索增强生成(RAG)的集成:将检索增强生成技术集成到CR框架中,经过语义搜查从常识库中检索相关消息,并将其作为高低文参与到理由采样环节中,提高推理的准确性和相关性。

在不同运行场景中的后劲:在金融畛域CR框架可以用于危险评价、投资组合优化和市场预测等义务,经过智能生成推理揭示,提高决策的准确性和效率。医疗畛域:在医疗畛域,CR框架可以用于疾病诊断、治疗打算介绍和医学钻研,经过联合医学常识库和推理才干,提供更精准的医疗倡导。法律畛域:在法律畛域,CR框架可以用于法律推理、案件剖析和法律文书生成,经过智能生成法律推理门路,提高法律上班的效率和准确性。

组合推理(CR)框架经过组合优化技术,清楚提高了LLM在推理义务中的体现,展现了其在生成式AI推理义务中的渺小后劲。未来的钻研可以在优化期间和准确性、框架的泛化和不同运行场景的裁减等方面进后退一步探求,以充散施展CR框架的长处。经过不时改良和裁减,CR框架有望在更多畛域中成功宽泛运行,为复杂推理义务提供更高效和智能的处置打算。(END)

参考资料:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/5815.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号