智谱版Sora正式开源! 6秒直出电影级画质 4090单卡可跑

  • 电脑网络维修
  • 2024-11-15

7月26日,智谱颁布AI 生视频产品「清影」,30秒将恣意文图生成视频,并上线在他们的AI助手「智谱清言」上,被誉为是国际首团体人可用的Sora。

就在颁布6天后,「清影」生成到视频数便已打破了百万量级。

当天,智谱AI发表将与「清影」同源的视频生成模型——CogVideoX正式开源。

团队示意,宿愿每一位开发者、每一家企业都能自在地开发属于自己的视频生成模型,从而推进整个行业的极速迭代与翻新开展。

关上AI助手「智谱清言」即可体验

随着大型模型技术的继续开展,视频生成技术正逐渐走向成熟。

以Sora、Gen-3等闭源视频生成模型为代表的技术,正在从新定义行业的未来格式。

但是,截至目前,仍未有一个开源的视频生成模型,能够满足商业级运行的要求。

CogVideoX系列蕴含多个不同尺寸大小的开源模型。

目前曾经开源的CogVideoX-2B,揭示词下限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720×480。

它在FP-16精度下的推理仅需18GB显存,微调则只要要40GB显存。这象征着单张4090显卡即可启动推理,而单张A6000显卡即可成功微调。

代码仓库:

模型下载:

技术报告:​​ ​​ ​

目前,该名目已在GitHub上斩获了3.8k星。

上方,咱们就来看看CogVideoX生成的成果究竟如何?

一个木制玩具船,在模拟海浪的蓝色地毯上飞行,宛如在真的淡水行驶普通。

一辆白色越野车沿着松树盘绕的峻峭土路极速行驶,可以看到车尾的尘土飞腾。

其实这个场景关于AI来说,相对较难,只要正确了解了物理环球,才不会让生成的尘土在车前扬起。

上方这幅在战乱中,人物表情细节的描写,细腻丰盛。

针对更微观的场景,CogVideoX也能将白雪皑皑的森林、无人穿越的平静小路,活泼地描画进去。

舌尖上的美食,还得看国产AI视频模型。烧烤架上烤制的鸡肉和青椒烤串,让人看了垂涎三尺。

见识到CogVideoX冷艳视频生成才干,你必定十分猎奇这是怎样做到的?

视频数据因蕴含空间和期间消息,其数据量和计算累赘远超图像数据。

为应答此应战,团队提出了基于3D变分自编码器(3D VAE)的视频紧缩方法。

其中,3D VAE经过三维卷积同时紧缩视频的空间和期间维度,成功了更高的紧缩率和更好的重建品质。

模型结构包括编码器、解码器和潜在空间正则化器,并经过四个阶段的下采样和上采样成功紧缩。

期间因果卷积确保了消息的因果性,缩小了通讯开支。而高低文并行技术的驳回,则可以顺应大规模视频处置。

试验中,团队发现大分辨率编码易于泛化,而参与帧数则应战较大。

因此,可将分两阶段训练模型:

- 首先在较低帧率和小批量上训练;

- 而后经过高低文并行在更高帧率上启动微调。

训练损失函数结合了L2损失、LPIPS感知损失和3D判断器的GAN损失。

专家Transformer

团队经常使用VAE的编码器将视频紧缩至潜在空间,而后将潜在空间宰割成块并开展生长的序列嵌入z_vision。

同时,经常使用T5将文本输入编码为文本嵌入z_text,而后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处置。

最后,反向拼接嵌入来恢还原始潜在空间状态,并经常使用VAE启动解码以重建视频。

数据

视频生成模型训练需挑选高品质视频数据,以学习实在环球灵活。但视频或者因人工编辑或拍摄疑问而不准确。

为此,团队开发了负面标签来识别和扫除低品质视频,如适度编辑、静止不连接、品质低下、讲座式、文本主导和屏幕噪音视频。

经过video-llama训练的过滤器,团队标注并挑选了20,000个视频数据点。同时,计算光流和美学分数,灵活调整阈值,确保生成视频的品质。

视频数据理论没有文本形容,须要转换为文本形容以供文本到视频模型训练。但是,现有的视频字幕数据集字幕较短,不可片面形容视频内容。

为了处置一疑问,团队提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以取得更密集的字幕。

这种方法经过Panda70M模型生成冗长字幕,经常使用CogView3模型生成密集图像字幕,而后经常使用GPT-4模型总结生成最终的短视频。

除此之外,团队还微调了一个基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型,经常使用密集字幕数据启动训练,以减速视频字幕生成环节。

性能

为了评价文本到视频生成的品质,团队经常使用了VBench中的多个目的,如人类举措、场景、灵活水平等。并扫除了不实用于评价需求的目的,例如色彩目的,由于它或者误导视频生成模型。

此外,团队还经常使用了两个额外的视频评价工具:Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score,这些工具专一于视频的灵活个性。

值得一提的是,团队曾阅历证了scaling law在视频生成方面的有效性!

未来会在始终scale up数据规模和模型规模的同时,摸索更具打破式翻新的新型模型架构、更高效地紧缩视频消息、更充沛地融合文本和视频内容。

团队示意,目前的视频品质还有很宽广的优化空间,等候开发者们在揭示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类配置开发上奉献开源力气。

此外,性能更强参数量更大的模型正在路上,敬请关注与等候。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/5748.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号