微软颁布Florence

  • 电脑网络维修
  • 2024-11-15

近日,微软的Azure AI团队在Hugging Face上颁布了一个名为Florence-2的新视觉基础模型。

该模型以宽松的MIT容许证可用,可以处置各种视觉和视觉言语义务,经常使用一致的基于揭示的示意方式。它有两个尺寸——232M和771M个参数,并且在字幕生成、指标检测、视觉定位和宰割等义务上曾经体现杰出,与许多大型视觉模型相媲美甚至更好。

虽然该模型的实践性能尚待测试,但这项上班估量将为企业提供一种处置不同类型视觉运行的一致方法。这将节俭投资于不可逾越其关键配置的独自义务特定视觉模型,并防止了少量的精细调整环节。

Florence-2的共同之处在于什么?

目前,大言语模型(LLM)是企业经营的外围。一个模型可以提供摘要、撰写营销文案,甚至在许多状况下处置客户服务。在不同畛域和义务之间的顺应才干令人惊叹。然而,这一成功也让钻研人员思索: 在很大水平上针对特定义务的视觉模型能否能够做到雷同的事件?

图:Florence-2由图像编码器和规范的多模态编码器-解码器组成。钻研人员在FLD-5B数据上以一致的多义务学习范式对Florence-2启动训练,获取了一个通用的视觉基础模型,可以口头各种视觉义务。

从实质上讲,与基于文本的人造言语处置(NLP)相比,视觉义务愈加复杂。它们须要片面的感知才干。基本上,为了成功对多样化视觉义务的通用示意,模型必定能够了解不同尺度上的空间数据,从宽泛的图像级概念(如对象位置)到细粒度的像素细节,以及初级题目到具体形容等语义细节。

当微软尝试处置这个疑问时, 发现了两个关键阻碍 :片面注释的视觉数据集的稀缺性,以及不足一个一致的预训练框架,具备集成了解空间档次结构和语义细粒度才干的繁多网络架构。

为了处置这个疑问,钻研人员首先经常使用专门的模型生成了一个名为FLD-5B的视觉数据集。该数据集包含了1.26亿张图像的54亿个注释,涵盖了从初级形容到特定区域和对象的具体消息。而后,经常使用这些数据,训练了Florence-2。它经常使用了序列到序列的架构(一种设计用于处置顺序数据的神经网络类型),集成了图像编码器和多模态编码器-解码器。这使得模型能够处置各种视觉义务,而无需启动义务特定的架构修正。

钻研人员在具体说明该模型的论文中写道:“数据集FLD-5B中的一切注释都一致规范化为文本输入,便于经常使用一致的多义务学习方法,并与相反的损失函数启动分歧的优化,作为指标。结果是一个多配置的视觉基础模型,能够口头各种义务...并且在一个由一致参数集控制的繁多模型内成功。义务的激活经过文本揭示成功,反映了大型言语模型经常使用的方法。”

性能优于更大的模型

在以图像和文本输入为揭示时,Florence-2可以处置各种义务,包含指标检测、字幕生成、视觉定位和视觉问答。更关键的是,它以与许多更大的模型相媲美甚至更好的品质启动处置。

例如,在COCO数据集上启动零样本字幕生成测试时,Florence-2的232M和771M版本的得分区分为133和135.6,优于Deepmind的领有800亿参数的Flamingo视觉言语模型。它们甚至比微软自己专门用于视觉定位的Kosmos-2模型体现更好。

当经常使用公共人工注释数据启动精调时,虽然尺寸较小,Florence-2能够在视觉问答等义务上与几个更大的公用模型竞争。

钻研人员指出:“预训练的Florence-2主干模型提高了下游义务的性能,如COCO指标检测和实例宰割,以及ADE20K语义宰割,超越了监视和自监视模型。与在ImageNet上启动预训练的模型相比,咱们的模型训练效率提高了4倍,并在COCO和ADE20K数据集上区分取得了6.9、5.5和5.9个点的清楚改良。”

目前,Florence-2的预训练和精调版本,包含232M和771M的模型,在Hugging Face上以宽松的MIT容许证下提供,准许有限度地启动商业经常使用或公家经常使用的散发和修正。

幽默的是看到开发人员如何经常使用它,并缩小为不同义务经常使用独自的视觉模型的需求。小而义务有关的模型不只可以节俭开发人员经常使用不同模型的须要,还可以大幅缩小计算老本。

译自(有删改):

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6169.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号