能解释图像和文本数据 300亿参数!苹果推出多模态大模型MM1

  • 电脑网络维修
  • 2024-11-15

在过去的一年里,LLM 因其先进的AI才干而备受关注。值得留意的是,苹果(Apple)公司却列席了。

目前,苹果公司正在谈判将谷歌的Gemini人工智能引擎植入 iPhone。而苹果不时努力于开发下一代 LLM,一种可以解释图像和文本数据的 LLM。

近日,苹果的计算机迷信家和工程师团队开发了一种 LLM 模型,宣称该模型可以解释图像和数据。

苹果构建了一个多模态模型系列——MM1,包括高达 30B 的 dense 变体和高达 64B 的专家混合 (MoE) 变体,它们在预训练目的中是SOTA,并在对一系列已建设的多模态基准启动监视微调后取得具备竞争力的性能。

该钻研以《MM1:多模态 LLM 预训练的方法、剖析和见地》(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)为题,宣布在 arXiv 预印上,形容了他们新的 MM1 系列多模态模型和测试结果。

多模态 AI 的上班原理是集成和解决不同类型的数据输入,例如视觉、听觉和文本消息。这种集成使人工智能能够更片面地理解复杂数据,从而比单模态人工智能系统做出更准确和高低文感知的解释。

苹果的钻研团队宣称,他们在 MM1 模型中经常使用多模态 AI 方面取得了严重停顿,该模型集成了文本和图像数据,以提高图像字幕、视觉问答和查问学习的才干。他们的 MM1 是他们所形容的多模态模型系列的一局部,每个模型都蕴含多达 300 亿个参数。

图 1:在 MLLM 基准测试中与 SOTA 模型的比拟。

图 2:MM1 仰仗其大规模多模态预训练可以口头高低文预测。

钻研人员指出,此类模型应用由图像捕捉对、蕴含图像和纯文本文档的文档组成的数据集。

钻研人员进一步宣称,他们的多模态 LLM (MLLM) 可以计算对象、识别图像中的对象,并应用日常对象的知识为用户提供无关图像所出现内容的有用消息。

图 3:MM1 可以跨图像口头指令和推理。

钻研人员还宣称,他们的 MLLM 能够启动情境学习,这象征着它不须要每次提出疑问时都从新开局;它经常使用在对话中学到的知识。

图 4:钻研了图像分辨率和预训练对监视微调(SFT)性能的影响。

该团队提供了模型初级配置的示例,其中包括上行一群好友在酒吧拿着菜单的图像,并征询模型依据菜单中列出的多少钱为每团体购置一杯啤酒须要多少钱。

钻研人员示意,“咱们宿愿所确定的阅历经验将协助社区构建逾越任何繁多特定模型架构或数据战略的弱小模型。”

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/5869.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号