听听大佬怎样说 2024年大模型LLM还有哪些可钻研的方向

  • 电脑网络维修
  • 2024-11-14

2024年大模型LLM还有哪些可钻研的方向?

前言

纯属brainstorm,欢迎大家一同讨论。想到哪里说到哪里,有遗漏的点欢迎大家在评论区中指出。

团体以为如今LLM能做的点还很多,这个行业距离饱和还有一段距离。这里经过“ 输入、模型/范式、输入、其余 ”几个方面来开展,团体感觉比拟看好的方向 加粗 标出:

输入

这一节就跟pre-training、instruction tuning、RLHF的经典三阶段比拟关系了,其实也可以叫数据,而数据的关键性人造不用多说。

数据优化

目前的上班基本都是 “大规模语料 + 人工高品质数据集” 的方式启动暴力图解,在输入上经过设计启动优化还是有肯定可行之处的。

其实CV这边还是有很多相似做法可以参考的,尤其是做diffusion models的,雷同也是做生成,有很多方面有肯定共通之处。比如说最经典的Stable Diffusion,从最早的v1.4到v2.0,再到v2.1,也是经过在256×256、512×512、768×768分辨率上递进式的fine-tune实现的。

迁徙到LLM这一块,关于pre-training的时刻语料的处置,可以做ranking,包含fine-tune的时刻做continual learning、active learning等等,实践上可做的事以及相应的效果应该也是相近的。

关于data augmentation方面,之前看过一篇在LLM训练环节中往intermediate feature加高斯噪声的上班,证实了能够带来功能优化。论断其实是比拟幽默的,往intermediate feature参与噪声的做法可以了解为一种latent space上的data augmentation 但如此便捷的做法恰恰证实了其有效性,说明在数据增强这一块可做的设计还有很多 。感兴味的好友可以移步原文:《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Bette》,。

关系回答可以参考:大模型微调技巧-在Embedding上参与噪音提高指令微调效果,

RAG这一块属于是去年比拟火的一个点了,尤其是针对大模型“幻觉”的这个痛点,团体以为还可以做,但属于比拟卷的方向,往年的钻研应该会有数量上的骤增。可以看下RAG的近几年的文章状况:

可以看到,2023年RAG的上班曾经产生了显著的大幅参与,而大少数还是集中在做推理,也就是说, 预训练和微调还有钻研空间 。可以参考下图汇总目前RAG的钻研范式开展:

另一方面可以思索的是 模态消息上的拓展 。目前看来做Vision-Language Models(VLM)曾经是一个肯定趋向了,而RAG方法关键用于检索文本证据, 检索其余模态消息来增强生成还是有钻研空间的

模型/范式

“模型/范式”这一方面是团体比拟看好的方向。 目前AI巨头的举措也集中于这一块,估量2024年这一块可钻研的方向比拟多,当然估量也会极速地卷起来。

LLM + Robotics

前段期间OpenAI发布了Figure 01,只管说热度或许没有Sora那么高,不过说明LLM在做planning这件事上曾经有了初步的成绩,想必这件事件的发布势必会带动很多的关系钻研。详细的剖析可以参考我的往期回答:如何看待与Open AI协作的最新机器人成绩Figure 01?

Figure 01的意义其实不只限于robotics,其实也证实了agent的想法确实可行, agent势必会成为往年的一大热点 。其实早在去年,各大厂商都纷繁开局入场agent了.

学术界也不例外,这里举一些比拟经典的例子:比如说早期的HuggingGPT,出自《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》,。

ToolFormer,出自《Toolformer: Language Models Can Teach Themselves to Use Tools》,。

尤其是去年Stanford的西部小镇,出自《Generative Agents: Interactive Simulacra of Human Behavior》,给人的印象十分深入:

一致模态生成消息

这一点其实是短暂以来CV和NLP钻研者关注的疑问, 也就是 多模态大一统的疑问 。而在生成这个角度上其实曾经有一些一致范式了,无论是Diffusion-Based还是LLM-Based。而LLM-Based的处置打算中,真正的难点在于 如何经过token这个概念表征其余模态的数据

目前一致文本、图像模态的上班曾经有很多,处置打算也很人造,驳回VQ-VAE系列的紧缩模型将图像表征为image token,LLM只有要学会怎样预测image token即可。而下一步的生成面向的 肯定是视频和3D 。假设能处置好video和3D的token representation疑问,那么一致模态生成就能进一步拓展,这其中还是有较大难度的,十分值得深挖。另外结合我团体十分有感受的一张图,也雷同能说明这个疑问:

Vision-Language Models

关于VLM来说,图像关系的上班曾经日趋饱和了,相似MiniGPT-4、LLaVA、mPlug-owl、CogVLM的经典上班曾经有不少了,大多驳回“Visual Encoder + LLM”的桥接方式,例如最经典的MiniGPT-4:

而前面说到, 视频和3D 肯定是下一波热点的钻研方向。将 LLM与更多的模态消息“桥接” ,必需是可以做的,不过这样的idea也很容易想到,团体以为VLM应该会十分卷。加上还要面对OpenAI这个大魔王,应该会有肯定的钻研压力。

另外一个比拟值得钻研的疑问是: 跨模态消息对齐之后能做什么? 其实去年一些上班曾经证实,LLM除了常常出现的Visual QA、captioning这些义务,也能肯定水平实现vision-oriented的义务,例如有些钻研会用VLM在object detection上做验证,以此表现VLM的visual understanding才干,这其实说明 LLM的运行并不局限于text-oriented的下游义务

架构设计

架构设计方面,其实近段期间的一些上班意向也证实了目前LLM在架构设计上还有较大翻新空间。比如说去年比拟冷艳的Mistral-7b,包含前不久马斯克发表开源的Grok-1等等,基本都驳回MoE的架构在做,团体感觉这其实是一个比拟好的开局。LLM的模型架构自2022年以来就雷打不动,绝大局部钻研都在沿用先人的自动设定, 而关于这些自动设定上存在的疑问,相对是有钻研可做的。

其实反观diffusion models的开展也相似,从2020年DDPM推出以来,4年期间绝大局部的钻研都在沿用U-Net的自动架构,往年的Sora,包含Stable Diffusion 3中初次不约而同用到了Diffusion Transformer,证实了模型架构上确实是有值得翻新之处。 类比到LLM上也同理

关于Diffusion Transformer关系的解说,可以参考我的往期文章:Diffusion Transformer Family:关于Sora和Stable Diffusion 3你须要知道的一切,​ ​。​ ​

另一方面, Scaling Law必需是一个值得钻研的方向。 相似的还无关于 LLM的可解释性 ,目前LLM大局部钻研都是靠数据和算力的沉积来暴力图解,假设能够探索出肯定的实践依据,关于工业界或许是学术界来说都会是十分难得的钻研。 相似的方向还有LLM幻觉疑问上的关系钻研。

输入

生成内容安保疑问

生成内容的安保疑问其实也在逐渐遭到近期钻研的关注了,比如说LLaMa 2中就有特意关注这个疑问。其实生成内容的安保疑问触及很多其余的运行,比如说垂类运行。 无论是金融、法律、医疗,这些特定畛域在内容安保性上都会比general domain的要求要更高。 能给出安保性疑问的肯定处置打算,关于整个社区来说必需是有奉献的。

详细处置安保疑问其实跟前面提到的几个点有肯定交叉,例如从 数据层面上做优化、微调阶段做优化、RAG, 等等,这里就不再开展了。

评测疑问

团体以为evaluation其实是LLM钻研中 最值得钻研的一个点 ,然而同时也是很难的一点。无论是如今的 打榜、human evaluation、GPT打分 ,其实都很难片面去评价LLM,造成LLM在实践运行环节中并没有目的表现进去的那样好用。

而假设能有一个智能化的评测目的,最好能够结合LLM的实践基础启动设计,我感觉是目前社区比拟须要的一个方向。 当然,前面也说到,LLM的可解释性也是一个待处置的疑问,关系目的的设计也雷同具备应战。

其余

NLP经典义务

这或许是一个比拟小众的点。其实也是团体不时在思索的一个疑问, LLM时代下终究怎样样做NLP的经典义务? 比如说parsing、句法关系的义务,LLM的设计跟这些义务之间必需是存在一些gap的,而怎样将language models在大规模数据上取得的才干迁徙在这些经典义务上,其实关系的上班仍比拟少。

垂类大模型

无论是工业界还是学术界,垂类大模型不时以来都是钻研热点之一。垂类大模型中与前面说到的数据优化、内容安保、评测疑问都高度耦合。关于不同的垂直畛域, 垂类大模型面临的最大疑问还是domain gap。 详细来说就包含很多方面了,例如特定畛域 数据 上的疑问,通常具备 畛域特性 但数据量有限;内容安保上, 比如说金融、法律、医疗大模型, 对安保性的需求都比通用大模型要高; 评测疑问,就拿医疗大模型举例,还须要 跟专业的医疗常识结合才干有效评测 ,等等; 技术 上还触及LLM fine-tuning、domain adaptation,等等,甚至一些畛域关于context length、memory、continual learning、active learning等技术有特定需求。可做的点还是比拟丰盛的。

交叉学科

这点其实也是比拟有“学术滋味”的一类钻研, 文章上班自身更偏差于剖析类而并非试验。 通常将LLM与其余学科交叉启动剖析,例如 言语学、政治学、社会学、心思学, 等等。这类剖析文章试验代价通常相对较小,更并重统计、可视化、消融试验等剖析性质的试验,但同时也须要把握关系学科的专业常识,有肯定的门槛。

比拟有代表性的上班在ACL 2023的best paper就有,例如《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》,钻研LLM能否能了解幽默:

ACL 2023 best paper的另一篇则是对LLM的政治成见启动钻研,出自《From Pretraining>

值得一提的是,ACL 2023 best paper剩文章是对Stable Diffusion Cross-Attenion机制的钻研。包含Stanford西部小镇 《Generative Agents: Interactive Simulacra of Human Behavior》,中也无关于AI agents交互与 社会流传学 的钻研,例如下图中就是关于特定义务的一个case study:

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/5351.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号