斯坦福大学 VideoAgent基于大言语模型的视频QA系统

  • 电脑网络维修
  • 2024-11-14

架构

上图是VideoAgent的概览图,VideoAgent经过搜查、聚合视频消息来实现长视频QA。整个系统包括一个外围LLM、VLM(视觉大言语模型)和CLIP工具。

作者遭到人类了解长视频的启示,提出了VideoAgent,经过基于Agent的系统来模拟这一环节的系统。

将视频了解环节方式化为一系列形态、举措和观察,其中LLM作为代理控制这个环节。首先,LLM经过阅读从视频中平均抽样的一组帧来相熟视频内容的背景。在每次迭代中,LLM评价消息(形态)能否足以回答疑问;假设不够,它会确定须要什么额外的消息(举措)。随后,它应用CLIP 来检索蕴含这些消息的新帧(观察),并经常使用VLM将这些新帧形容为文本形容,从而降级形态。这种设计强调了推理才干和迭代环节,而不是间接解决长视觉输入,其中VLM和CLIP作为工具,使LLM能够具备视觉了解和长高低文检索才干。

VideoAgent的迭代环节具体视图。每一轮都从形态开局,其中包括先前检查过的视频帧。而后,大型言语模型经过回答预测和自我反思来确定后续的举措。假设须要额外的消息,就会以视频帧的方式失掉新的观察结果。

假定LLM确定消息无余以回答疑问,并选用搜查新消息。在这种状况下,进一步要求LLM选择须要什么额外消息,以便可以应用工具来取得额外消息。因为视频中某些消息或者产生屡次,所以启动分段级别的检索而不是视频级别的检索,以增强期间推理才干。

例如,假定疑问是“男孩退出房间后在沙发上留下了什么玩具?”,并且咱们在帧 i 中看到了男孩退出房间。假设咱们经常使用查问“显示沙发上的玩具的帧”启动检索,则或者在帧 i 之前存在蕴含“沙发上的玩具”的帧,但它们与回答疑问有关。

援用链接

​​ Arxiv:

本文转载自​​,作者:​​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5333.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号