谷歌颁布Veo 1080P视频 媲美Sora 文生超1分钟

  • 电脑网络维修
  • 2024-11-14

5月15日,谷歌召开“ I/O 2024”大会,并发表了100多种产品和大模型。其中,有两款产品令人印象深入,一个是允许跨文本、视频、音频的多模态AI Agent—Project Astra;另外一个便是视频模型Veo。

据悉,Veo允许文本生成超越1分钟的1080P超高清视频,在文本语义恢复、视频举措分歧性方面、运镜、帧与帧之间的连接性、场景切换、光影效果等,可媲美OpenAI的Sora。

不过,Sora颁布至今曾经3个月了不时处于内测阶段,公测遥遥无期。而谷歌曾经将Veo模型整合在文生视频产品Video-Fx中允许放开试用,并且会向开发者放开API。

文章末尾,「AIGC放开社区」还整顿了本次I/O大会的一切关键内容,繁难大家了解谷歌最新的技术趋向。

放开地址:​ ​​ ​

Veo生成视频参观

因为平台紧缩的要素,视频看起来或者有点糊,实践效果是高清的。 经过文本形容Veo生成的一个1分23秒的超长视频,揭示词: 一个极速穿越于冷落的反乌托邦市区中,明亮的霓虹灯、航行汽车、薄雾、夜晚、镜头眩光和体积光线的镜头。

经过未来主义的市区暴虐极速追踪镜头,明亮的霓虹灯标,天地面的星舰,夜晚。一辆汽车的霓虹全息图以光速行驶,电影般的惊人细节,体积光。汽车退出隧道,回到真实环球的中国香港市区。

在烧烤架上,鸡肉和青椒串烤的特写镜头,火焰在旁熄灭。焦距浅,轻烟袅袅,色调娇艳。

许多斑点水母在水下蠕动。它们的身材透明,在深海中发光。

一名孤独的牛仔骑着马穿越漂亮日落的宽敞平原,柔和的光线,暖和的色调。

一艘宇宙飞船在宇宙的浩瀚中奔驰,星星在其旁划过,高速航行,科幻感十足。

一只金毛寻回犬在弯曲的山间小径上传走,它兴奋地摇着尾巴,探求着荒野的风景和气息。

此外, 谷歌还把Veo的生成视频的界面经过Video-Fx展现了进去 。经常使用方法没啥特意的,就是在文本框输入揭示词,而后点击生成即可。

一次性会生成4个视频,这对主机的算力有着十分高的需要 ,不得不说谷歌为了拼视频模型也是下了血本啦。

这也是Sora迟迟没有片面公测的关键要素之一,还没有预备好弱小的算力矩阵为用户提供服务。

值得一提的是,Veo有一个“Storyboard”形式,允许用户为生成的视频一键减少背景音乐。

Veo模型架构繁难引见

依据谷歌的引见,Veo更像是一个模型大合集,融合了GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、Transformer和Gemini等,谷歌很多出名的技术概念和现有的大模型。

例如,Phenaki是谷歌很早之前便推出的文生视频模型,驳回了一个双向掩码转换器架构。在视频帧之间的切换、分歧性、关联性方面十分低劣。

WALT则是深度学习畛域的一种视频微调技术,可关注模型外部的激活层,经过权重调整来改良模型性能。

Gemini是谷歌最新颁布的性能强、消耗低的大模型,有很多种类型可以与OpenAI的GPT系列媲美。

所以,从这个技术合集就不美观出,谷歌是对Veo下了心血的誓要与OpenAI的Sora一较上下。

谷歌2024年I/O大会,关键事情回忆

其实往年谷歌在I/O大会上颁布的内容十分十分多,尤其是生成式AI畛域成为重头戏

但因为颁布的产品真实太多、太杂,这里「AIGC放开社区」就为大家整顿了一切关键事情的简报,繁难了解最新技术趋向。

颁布了Gemini 1.5 Flash: 一个更轻量的大模型,可高效地提供规模化服务。这也是在API 中提供的最快的 Gemini系列模型。

增强Gemini1.5 Pro性能: 用户版提供100万tokens上下文窗口,开发者版提供200万tokens上下文窗口。

颁布最强TPU-Trillium: 这是谷歌颁布的第六代AI解决器,与TPU v5e相比,Trillium TPU每个芯片的峰值计算性能提高了4.7倍,但动力消耗却降落了67%。

颁布最新文生图模型Imagen 3: 生成的图像品质更好、文本语义了解更低劣,目前曾经整合在ImageFX中,允许放开试用。

颁布音乐模型Music AI Sandbox: 经过AI生成超真切的歌曲,包括盛行、摇滚、抒情等。

Gemini的初级订阅用户很快就可以创立定制版本Gem ,只要形容你想要 Gem 口头的操作以及宿愿它如何照应,Gemini 将依据这些说明创立出合乎特定需求的 Gem。

谷歌发表将Gemini系列模型融合到谷歌搜查中 ,提供布局、推理等多模态配置。

Gemini 1.5 Pro如今可以经过 Workspace Labs 在 Gmail、Docs、Drive、Slides 和 Sheets的侧边栏中经常使用 ,下个月会为 Workspace 客户和 Google One AI 初级订阅用户提供服务。

Google Photos中新增“征询照片”配置 ,经常使用户能查找特定记忆或回想图库中蕴含的消息变得愈加繁难。该配置由Gemini模型提供服务,并将在未来几个月内推出。

往年晚些时刻,Gemini Nano模型会成为Android内置的基础模型 ,除了文本生成,还允许语音、视频等多模态推理。

谷歌颁布了PaliGemma ,这是第一个面向视觉-言语的开源模型,针对视觉问答和图像字幕启动了提升。

谷歌预览了Gemma 2 ,驳回了全新架构有270亿参数,性能更强可在单个 TPU 主机上运转。

Gemini模型现已在 Android Studio、IDX、Firebase、Colab、VSCode、Cloud和Intellj中可用,可协助开发人员提高消费劲。

从Chrome126开局,Gemini Nano 模型将内置到Chrome桌面客户端中。

推出LearnLM ,这是基于Gemini模型并经过精纤细调的用于学习的新模型。LearnLM 曾经为谷歌的搜查、YouTube 和 Google Classroom等提供技术允许。

谷歌的SynthID文本水印技术,将在未来几个月内开源。

从下面关键事情不美观出,Gemini系列大模型曾经成为谷歌产品矩阵中关键的基础技术之一,这充沛说明生成式AI时代曾经来临。

只要会用AI的人,才不会被这个时代淘汰,一同加油啦。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5342.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号