Midjourney领跑 没有规范答案的文生图 无界AI算法总监邹国平 下半场还能怎样卷

  • 电脑网络维修
  • 2024-11-14

出品 | 技术栈(微信号:blog51cto)

进入2024,AI运行落地的步调悄悄减速。

AI文生图产品——衔接着千行百业的设计需求,极大地紧缩了创意成功的周期——正成为极速掘金的AI畛域之一。

AI生图自2022年底开局迸发,过去一年多的期间曾经让这条赛道变得内卷起来,前有 Midjourney、DALL·E、Stable Diffusion稳稳占据头部市场,后有GPT4等多模态大模型随时或许抄后路的风险,再加上诸多相似服务的图像编辑及设计工具也在放慢融合"文生图"才干,多方都在对这块最稳固的AIGC赛道虎视眈眈

在强烈的内卷中,文生图玩家想要“出头”,就必需打出自己的特征来。

作为国际最早一批的AIGC产品落地通常者,无界AI算法总监邹国平有着十分深入的体会。邹国平给出了一个令人意想不到的答案。

破局的关键就在于“场景”: 你面向什么样的场景?你长于什么场景?在这个场景里,你能否能够深耕到一个十分上游的水平 ?他向咱们抛出了这一连串的疑问。

在通用AI模型风靡的当天,为什么文生图畛域照旧是个很“吃”场景的命题?

文生图看似相对较低的门槛,却建在审美、设计以及专业场景常识的平地之上。 AI文生图比文生文更含糊、更没有规范答案。

最近,直播栏目《AIGC实战派》有幸约请到了邹国平教员,在两个小时的交换中,他向咱们分享了自己在文生图畛域的探求心得与洞察,详细讨论了在文生图下半场如何“卷”出技术壁垒。这次交谈,廓清和刷新了原来群众关于文生图畛域的”曲解“与认知,其中他提出了几个很无心思的观念:

以下是整顿后的对话内容。

1.Midjourney先发长处太“难杀”,国际追平还需多维度发力

《AIGC实战派》: Midjourney如今是环球范围内公认的用户最多、效果最好的文生图产品之一。在您看来,国际的文生图产品距离Midjourney还有哪些差距?

差距必需存在。Midjourney无论是用户体量,还是全体营收齐全是遥遥上游的。

相比国际的文生图产品Midjourney的先发长处十分大。回忆Midjourney的开展历程,22年的时刻,他们就曾经启动了两年多的研发积攒。刚开局的第一版产品效果也不理想,但他们经过约请制去招募用户介入到迭代中,继续改良产品。

22年下半年,Stable Diffusion的技术横空入世,给Midjourney的产品带来了一个迸发点。直到迭代至V4版本,曾经出现出行业标杆级的效果。

Midjourney自身有弱小的专一度,齐全focus在模型和算法探求畛域。 至于工程和产品的局部,则更多在Disco diffusion平台上去成功,一来节俭了不少的开发老本,其次这个平台带有的社群属性,让Midjourney用户继续裂变,经过口口相传沉淀起宏大的用户基础。

《AIGC实战派》:在Midjourney迭代到V4之前,国际大略在做什么?

更新鲜一点的,还没有走到文生图这一步。早期所谓的图像生成,更多的是特效及其余特定场景的生成,不是详细东西的成像。

《AIGC实战派》:Midjourney V4之后上游在哪?

V4版本的生功效果十分杰出。特意是在特定畛域,曾经到达了实践可用的形态。Midjourney在数据处置方面有个十分共同之处,无论是数据品质还是数据标注都十分精细。经过宽泛的用户接触和经常使用,曾经构成了一套关于如何形容prompt的范式,这些关键词在构图、格调和艺术家格调的表白中起到了关键作用。

《AIGC实战派》: 咱们如今做国际外文生图畛域的比拟,像您刚才说的模型、提醒词,或许基本算是一个追齐的形态?您感觉咱们还差在哪里?

在模型层面,一些国际的模型在特定测试集上曾经能够与Midjourney的V5.2版本相媲美,但在宽泛的用户场景测试中,咱们的数据量还远远不够,所以很难精准的去回答“追平”的疑问。由于咱们所能启动的测试有限,要启动用户测试,让用户用手投票,这样的用户反应或许仅有几千例。而Midjourney领有2000万用户。

所以在小范围上去测,那确实可以说国际产品跟他的效果差不多。但假设要推行到一切的场景,确实是会有差距的。

但像Midjourney这样,能做到上游的,目前还是不太能看到。再往下走,每个环节还有很多上班须要补充。

2. Sora不仅给方向,还给正在探求DIT的人吃了“定心丸”

《AIGC实战派》: 往年2月份,sora出现之后,有没有冲击到如今的AI生图畛域?

会有影响的。首先像你刚才所说的,视频确实是流量的洼地。国外在做Open-Sora名目时,也是依照既能生成视频也能生成图片的思绪去做的。两者在技术上有相通之处。

Sora给了这个畛域很大的信念。在此之前,基于DIT的尝试曾经有一些,只是效果都没能到达实践可用的水平。Sora证实了端到端的视频生成这条路是能走通的。

《AIGC实战派》: 从Sora在技术报告中地下的那局部来看,能给图像生成畛域带来哪些启示或许值得自创的中央?

说到方向的话,大家更多是驳回DIT技术构建的模型,比如PixArt文生图模型,展现了在大批参数的模型(0.6B)上也能取得良好效果的或许性。

此外,目前的文生图还无余以成功精准控制。因此,引入额外的控制机制,就像PixArt在第二版本中所参与的配置,是完善模型的关键。这些控制可以平滑地集成到现有配置中,提供弱小的设计和发明才干。

例如,在汽车设计中,可以将线稿图的规范与文本形容结合,成功更准确的图像生成控制。

《AIGC实战派》: 抛开Sora,文生图未来或许有哪些比拟热的演进方向?

我从文生图畛域目前面临的一些关键疑问登程来谈谈。

首先,提醒词的精准度和生功效果的对齐是一个须要处置的疑问。虽然咱们可以将提醒词写得十分精细,但图像的细节出现并不总是像文本形容的那样,典型的如手部细节的处置疑问。

其次,生成图像的期间紧缩也是一个应战。目前,生成一张图像或许须要数秒的期间,假设参与更多控制,期间或许会更长。因此,工程上须要探求模型蒸馏和减速手腕来优化效率。

最后,共性化生成是另一个关键的运行方向,这往往触及到相关的参考图像。详细到图片生成,目前相似度的稳固性还有待提高,比如处置logo的自在变换时坚持其细节不变等等。

《AIGC实战派》: 您感觉专有的AI生成工具,会不会被相似Sora这种很弱小的通用工具吃掉?

通用的文生图才干最终或许会被大型模型所笼罩。像GPT-4 Vision这样的模型曾经具有了视觉感知才干,能够识别和形容图片内容,但目前还未成功生成或发明才干。言语模型在认知方面曾经到达了高水平,但视觉、了解以及发明的环节则更为复杂。

Sora对OpenAI来说,意义是找到了一个通往环球模型的路途。OpenAI的使命和站位让他不会开发十分垂的产品,他们做的是提供一个平台,相似于乐高积木,让用户依据需求自己去搭建想要的运行。

3.文生图要“卷”出技术壁垒,先要从场景登程

《AIGC实战派》: 都说文生图的守业门槛低,在如今这么卷的状况之下,大家都很猎奇技术圈究竟是在卷哪块东西?在什么维度还可以打出差异化,还能拼出技术实力、拼出竞争力来?

咱们可以看看,如今上游的文生图产品都是怎样做的。

不少文生图产品曾经取得了不错的效果,其实他们的产品理念却是各不相反:比如Leonardo.AI,它最后的着陆点在生成游戏角色的物料,起初才缓缓开展成一个全类别的文生图平台。还有yodayo,则一开局做二次元畛域的生成起家,起初裁减到用户与虚构角色的聊天服务上。而由前谷歌imagen团队大佬创立的Ideogram,则以文字生成为长板。

这些产品都是成功成功差异化的案例。如今Leonardo.AI每月的PV将近1000万。

回到疑问自身,文生图要“卷”出自己的技术壁垒,首先就要从场景登程。你面向什么样的场景?你长于什么场景?在这个场景里,你能否能够深耕到一个十分上游的水平?——这其实也跟模型无关,须要你的模型有必定的独到之处。

《AIGC实战派》: 怎样把模型做出独到之处?

首先是有个指标,了解模型面向的用户和场景。比如,模型focus在游戏素材生成上,那么就针对这个畛域深化优化,去做材质、光照等属性的编辑。

《AIGC实战派》: 如今是哪种形式更多一点?是让设计和AI的专才启动协作,还是间接寻觅两个畛域的通才?无界AI团队是怎样思索的?

咱们去做模型训练,会有一个模型主理人,他须要在这个畛域有必定的常识储藏,去把输入和输入对齐。

AI如何让强人更强,就是能应用强人的常识储藏,经过大模型形容性的形式,最终出现进去。

《AIGC实战派》: 人才也是技术壁垒的一局部?

AI时代,拼的就是三个因素,人才、数据、算力。

刚才说了文生图要“卷”场景。其次,数据处置才干也是关键,行业数据和算力的储藏关于图像生成畛域的积攒至关关键。

虽然文生图模型的参数量相对较小,或许亿级别就足够,但这并不象征着算力不是门槛,对算力的须要取决于模型的训练指标。训练的数据量小,那一张消费级显卡就能搞定,但像Midjourney这种规模还是须要弱小算力撑持的。他们早期在亚马逊拿到了1000万美元的算力。

4.“几家GPU厂商提供了十分灵活的扩容才干,极短期间对接上千块显卡”

《AIGC实战派》: AI产品用户到达百万级甚至千万级,这时刻咱们该怎样应答?无界AI在短期间内积攒到百万用户的时刻,都启动了怎样的备案?

邹国平: 用户的涌入会须要处置一些突发的事情。相比文字,图像生成对GPU资源的消耗更高,咱们须要及时参与GPU资源,防止用户动辄为一张图像的生成等候10s以上。目前关键用的GPU资源都是云端的卡。

其次,文生图须要面临更为复杂的状况,咱们有多个模型,而每个模型的用户量又不同。这就要求咱们树立一个高效的调度系统来处置用户提交的义务。系统应该能够依据模型的经常使用状况灵活调整资源调配,关于不同的模型,咱们或许须要定制化的调度打算。

此外,咱们还须要优化单个GPU卡的上班效率,经过减速打算和模型优化来提高单次图像生成义务的效率。这包含提高模型的加载速度、生成和切换速度,以及优化整个系统的裁减性。

举个例子,咱们与头部消费品品牌协作启动营销优惠时,就面临过千万级别的流量应战。为了应答这种状况,咱们联结了几家GPU厂商,预备了上万规模的GPU资源启动调度。咱们自有的GPU云平台可以极速地基于第三方GPU资源进执行态扩容,在很短的期间内就照应上千块显卡的对接。

《AIGC实战派》: 说到用户体验,文生图用户关于排队这个现象的忍受度怎样样?

假设产品提供的文生图效果很好的话,那排队也是能被用户接受的。有些时刻,你不是VIP用户或许会故意让你生成速度慢一点,就是逼你交钱的(笑)。

不过,也分运行场景,比如启动定制化的化身或是视频格调转换,这些义务自身就须要较长的处置期间。不过用户自己也会有预期,所以就情愿为此等候。

5.不同于文生文,AI文生图不存在规范答案

《AIGC实战派》: 做一款AI原生运行的产品,最抓狂的中央是在哪里?

AIGC开展到如今,曾经有一段的期间了。随着期间的推移,AI生成技术曾经从效果普通开展到可用形态,咱们不时在启动用户教育,去同步认知。首先是怎样去生成图像,其次就是让用户了解在技术的限度下,生成的图像依然存在瑕疵。

最抓狂的是,在某些场景下,用户或许十分挑剔,尤其是B端用户。妇孺皆知,AI生成确实有必定的随机性和无法控制性,bad case总是存在的,而且时不时就会冒进去,这给产品的保养带来应战。

《AIGC实战派》: B端用户要做一个定制打算,须要多久才干交付成功?

交付时长按月计,但不确定性很大。

总体来讲,文生图还是一个比拟新兴的东西。客户的需求在他脑海中,有些是很难用言语形容进去的,因此前期是一个相互探求的环节,须要不时地提供初步打算、产出结果,等拿到客户的反应才知道怎样跟进。

这也说明了,虽然文生图看似门槛低,但在细节掌握上却十分具有应战性。这也是为什么咱们(无界AI)的专业版上班流配置旨在赋予用户更多的自主施展空间,让有探求和入手才干的用户设计共性化的文生图流程。

《AIGC实战派》: 正在钻研的哪些方向,可以泄漏一下吗?

邹国平: 咱们目前的钻研重点是围绕几个翻新方向启动的。首先最大的等候还是Sora模型的复现。Sora触及到从视频噪声片段登程,生成连接且稳固的视频内容,这与以往的单帧生成齐全不同。Sora的技术路途将作为咱们的一个关键参考,无论是在图像生成还是视频生成的运行上。

在3D畛域,咱们也在启动一些尝试,包含经过单张图像重建3D模型。比如经过线稿生成具有真实质感纹理的3D模型。

另一个幽默的钻研方向是经过文本间接生成具有透明背景的PNG图片,这象征着用户无需再启动抠图。

想了解更多AIGC的内容,请访问:

AI.x社区

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/4232.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号