用大模型云锦天章问世 彩云科技开创DCFormer架构全新篇章

  • 电脑网络维修
  • 2024-11-14

2017年,谷歌颁布《Attention Is All You Need》论文,初次提出Transformer架构,掀开了人工智能人造言语处置(NLP)畛域开展的全新篇章。Transformer架构作为神经网络学习中最关键的架构,成为起初席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术撑持。而优化Transformer的运转效率也成为人工智能畛域的钻研热点,2024年4月,谷歌最近一次性更新了Transformer架构,提出了Mixture-of-Depths(MoD)方法,使得训练后采样环节中提速50%,成为Transformer架构提速更新的又一关键事情。

雷同在往年,一家来自国际的人工智能企业彩云科技,在国际机器学习畛域的顶级会议ICML(国际机器学习大会)上,颁布全新大模型论文《Improving Transformers with Dynamically Composable Multi-HeadAttention》。在该论文中,彩云科技团队初次颁布DCFormer架构,并在基于DCFormer打造的模型DCPythia-6.9B上,成功了在预训练困惑度和下游义务评价上都优于开源Pythia-12B。这象征着,DCFormer模型在功能上,成功了对Transformer模型1.7-2倍的优化。

11月13日,彩云科技在北京总部与媒体启动一场主题为“From Paper to App”的沟通会。会上,彩云科技CEO袁行远,就通用大模型未来退化之路,与人工智能的落地场景等热点话题启动了交流,并正式推出了首款基于DCFormer架构开发的通用大模型云锦天章,与此同时,彩云科技旗下AI RPG平台彩云小梦,也成为首款基于DCFormer架构开发的AI产品。

只要模型效率和智能度优化才干成功真正的AGI

沟通会现场,袁行远首先向参会者展现了一个ChatGPT o1的问答:“假定ChatGPT4每天响运行户约2亿个恳求,消耗超越50万千瓦时的电力。假定全球网络都经常使用ChatGPT作为访问入口,ChatGPT每天消耗多少电力?另外依照这个速度开展下去,到2050年全球人工智能的耗电量会到达目前地球发电才干的多少倍?”ChatGPT o1给出的答案是,“到2050年,全球人工智能的耗电量或许会到达目前地球发电才干的8倍”。

雷同的疑问,在往年2月份的全球政府峰会上,英伟达CEO黄仁勋有更为夸张的表述,“假定计算机的速度永远不会变快,咱们或许须要14个不同的行星、3个不同星系、4个太阳为这一切(AI)提供燃料。”AI对动力的弱小需求在业内曾经是共识,英伟达努力于经过优化配件来优化AI效率,降落能耗;而袁行远则以为,改善大模型底层架构,优化人工智能运转效率,是扭转AI动力困局的更优门路。

“Scaling Law通知咱们,随着算力的优化,模型更大、数据更多,模型成果会越来越好,但与之相应的,能耗也会越来越高,在Scaling Law失效,人工智能成功之前,或许咱们地球的动力就曾经无法撑持了。”袁行远示意,“没有效率的优化,AI就是镜花水月。”

彩云科技团队构建DCFormer框架,提出可灵活组合的多头留意力(DCMHA),交流Transformer外围组件多头留意力模块(MHA),解除了MHA留意力头的查找选用回路和变换回路的固定绑定,让它们可以依据输入灵活组合,从基本上优化了模型的表白才干,由此成功了对Transformer架构1.7—2倍的功能优化。

往年的ICML会议上,彩云科技团队的3篇论文,在录用平均分为4.25-6.33的状况下,取得平均7分的高分,并成为国际唯二受邀加入维也纳ICML 2024登台演讲的企业,另一家则是华为。

袁行远示意:咱们的上班标明,Transformer架构距离“理想模型架构”还有很大的优化空间,除了堆算力堆数据的“鼎力出奇观”路途,模型架构翻新雷同大有可为。往小了说,在大模型畛域,应用效率更高的模型架构,小公司也可以在与全球顶级人工智能企业的反抗中取得长处。往大了说,模型效率的优化,可以有效地降落人工智能更新迭代的老本,减速AI时代的来到。

首个基于DCFormer架构的通用大模型

作为国际最早做LLM(大言语模型)的公司之一,彩云科技在2017年就曾经开局做NLP和大模型方面的上班。目前,彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向C端用户的AI产品,是国际为数不多能够成功盈利的人工智能公司。

“全球最强的小说续写通用模型。”沟通会上,袁行远向大家展现了首个基于DCFormer架构的通用大模型云锦天章。“这个成语是比喻文章极为高贵、富丽,和咱们的大模型想要成功的成果有共通之处。”袁行远引见,云锦天章可以实如今虚拟全球观的基础上,赋予小说人物编程、数学等基础才干,可以高速针对少量文字启动扩写、缩写,针对文章格调启动大容量改换,同时兼具其余模型的问答、数学、编程等基础才干。

而在运行端,领有四百万用户的彩云小梦,也迎来了基于全新DCFormer架构的V.3.5版本。与之前的版本相比,彩云小梦V3.5全体流利性和连接性优化了20%,允许前文长度由2000字优化至10000字,故事背景设定最长长度高达10000字。“这象征着,在故事创作或许与人工智能对话中,人工智能能够记住之前出现的事情,记住之前故事里出现的细节,人物记得自己明白的指标,并且会依据剧情及时启动反思批改。在做到自主创作的同时,发散性收敛,不会天马行空,人物性情前后分歧,故事逻辑性更强。”

“深度对话,超长记忆,逻辑明晰。”袁行远总结彩云小梦V3.5的特色,“咱们的指标是为用户打造指尖伴侣定制梦幻。”袁行远示意,彩云小梦的用户单次经常使用时长,累计经常使用时长在同类产品中都处于遥遥上游的位置,“对话超越句,你会发现彩云小梦真正的魅力。”

袁行远引见,公司接上去将继续放大对DCFormer的钻研和投入:“一方面有冲破‘国外做技术层,国际做运行层’刻板印象的情怀所在,一方面也是为公司自有产品应答市场竞争,成功极速迭代更新和才干上游的事实须要。”

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/4759.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号