上大提出TinyVLA 高效视觉 让具身自动更快更强!华东师大&amp

  • 电脑网络维修
  • 2024-11-14

论文链接:名目链接:

具身自动近期开展迅速,领有了大模型"大脑"的机械臂在举措上愈加高效和准确,但现有的一个难点是:模型遭到算力和数据的制约。如何经常使用更少的训练数据,以更快的推理速度,成功媲美OpenVLA的功能?当天给大家分享的TinyVLA,就是来处置这个难题的,还有多种规模的模型可供选用!

总结速览

处置的疑问 :现有的视觉-言语-举措(VLA)模型在推理速度慢和须要少量机器人数据启动预训练方面面临应战,限度了实践运行。

提出的打算 :引入一种新型紧凑型视觉-言语-举措模型TinyVLA,提供更快的推理速度和更高的数据效率,消弭预训练阶段的需求。

运行的技术 :TinyVLA框架包括两个关键组件:1) 经常使用高效的多模态模型初始化战略主干;2) 在微调环节中集成分散战略解码器,以成功准确的机器人举措。

到达的成果 :TinyVLA在仿真和实践机器人上启动了宽泛评价,清楚优于现有的VLA模型OpenVLA,在速度和数据效率上表现更佳,同时在言语指令、未知物体、位置变动等方面展现出弱小的泛化才干。

方法

1. 训练轻量级VLM模型。 现有的VLM大多在30亿参数以上,推理速度较慢,训练周期长,因此咱们训练了一系列愈加紧凑的VLM模型,咱们经常使用pythia作为咱们的LLM局部,参照LLaVA的框架咱们训练了3个不同大小的VLM,参数量从4亿到14亿。以此作为咱们VLA的主干网络。

2. 机器人数据微调VLA模型。 咱们用训练好的VLM权重来初始化咱们的VLA模型,然而VLM只能生成言语,不可间接生成举措;OpenVLA和RT-2驳回将举措团圆化的方式,将举措预测义务转变成next token prediction义务,但这种方式会使得模型的训练难度大大参与;因此咱们采取用policy head 网络交流原有的llm head,从而在不破坏举措延续性的同时,使得模型训练愈加便捷。咱们采取Diffusion policy网络来预测举措。为了参与举措的分歧性以及优化举措预测效率,TinyVLA一次性性会预测未来16步的举措。为了进一步缩小资源消耗,咱们经常使用LoRA微调VLM局部,使得须要训练的参数只占总参数的5%。

试验

仿真试验结果

如图所示,TinyVLA-H在metaworld的50个义务上都逾越baseline,特意是较难的义务中,更是大幅上游。

多义务真机试验结果

1. 单臂多义务虚验。 如图所示,在5个实在环境下的义务区分测试20次,经常使用不同的权重测试3轮并且统计成功率均值和方差。TinyVLA-H成功了最好的成果,在翻马克杯义务、叠方块义务以及关抽屉义务上都到达了96%以上的成功率,平均成功率到达94%,比OpenVLA优化了25.7%。并且,从TinyVLA-S到TinyVLA-H,随着模型参与,成功率也在参与,证实TinyVLA合乎Scaling Law。

2. 双臂义务虚验。 双臂环境和单臂齐全不同,由于对应的举措维度不同,而OpenVLA是自回归方式生成举措,切换到双臂环境造成举措长度不分歧,使得OpenVLA没法反常生成举措,并且Open-x Embodiedment数据集也只蕴含单臂义务,这进一步造成OpenVLA不可反常生成双臂举措。而TinyVLA无需修正模型结构,只有要更改变作维度,即可间接迁徙到双臂环境。如图所示,在3个实在环境下的义务区分测试10次,经常使用不同的权重测试3轮并且统计成功率均值和方差。TinyVLA-H 依然大幅上游Baseline。

泛化试验结果

1. 指令泛化。 由于TinyVLA的主干网络是一个在大规模图片文本数据集上预训练的VLM模型,虽然没在相应的机器人指令数据集上预训练,但TinyVLA-H表现出了一些相似于RT-2的指令了解才干。为了更好的区分难度,划分了3个难度等级(越大越难),第1级,了解未在机器人数据中产生的色彩;第2级,区分不同物体;第3级,区分新的物体并且成功已知物体的新用途。关于第1级,TinyVLA能准确区分不同色彩的同一物体,且该色彩并没有在机器人数据集中产生。第2级,TinyVLA能区分不同物体,这些物体虽然都出如今机器人数据中但并没有同时产生过,也没有在相应的区分义务中训练过。第3级,指令是全新的,要求TinyVLA抓起一个没有在机器人义务中见过的小车并放到盒子里,留意盒子只在开盖子的义务中产生过。

2. 视角泛化。 视角泛化是机器人畛域的一大难题,细微晃动视角都或许会造成义务成功失败。TinyVLA在必定范围内展现出了视角泛化才干。如图所示,咱们测试了4个视角度数,范围从-30度到+30度,左右视角区分测试。关于关抽屉义务,TinyVLA展现出较好的才干,然而精度要求更高的叠方块义务则较难成功义务。

3. 位置泛化。 位置泛化要求模型不只有能在图片中识别出目的物体的位置,还要求模型能泛化到不同的举措空间。而TinyVLA在这项测试中大局部位置能够成功义务,少局部极其位置则逊色于OpenVLA。这或许是由于OpenVLA在大规模的机器人数据集上预训练,且该数据集重要是pick place的义务类型。

4. 物体以及外观泛化。 改换不同的物体或许相反的物体变换色彩,TinyVLA能成功媲美OpenVLA的功能,而只有要OpenVLA约1/5的参数量,且推理速度更快。

5. 背景泛化。 背景变动雷同会造成义务失败,由于背景理论会造成大面积的搅扰,从而影响义务的成功。咱们测试了6种背景下模型能否还能反常成功义务,且咱们选用的叠方块和抓网球都是位置敏理性义务,更容易收到搅扰。测试结果如图,TinyVLA与OpenVLA展现出了相近的才干。

6. 光照泛化。

论断

在机器人畛域,VLA模型展现出了弱小的泛化才干,包括但不限于物体、搅扰物、指令泛化等。但VLA模型同时也面临着两个严格的疑问,一方面现有的VLA如RT-2、OpenVLA有着70亿参数甚至550亿参数,宏大的参数量到造成模型的推理速度十分缓慢,OpenVLA在H100上推理也只能到达约6Hz的运转频率。另一方面,现有VLA都是在宏大的机器人数据上预训练过的,比如OpenVLA在Open-x Embodiedment>

TinyVLA将现有的VLM模型和Diffusion policy网络相结合,将VLM的泛化才干迁徙到机器人畛域的同时,还能应用Diffusion policy网络从而缓解自回归生成造成的推理速度缓慢。咱们依据LLaVA的框架首先预训练了一系列不同大小的VLM,而后将VLM的权重间接迁徙到咱们的VLA模型,再用下游机器人数据启动LoRA微调。依据VLM的参数质变动,咱们的TinyVLA也有三种规模,总参数量从4亿到13亿参数。

在下游义务上,咱们最大的TinyVLA-H推理提前比OpenVLA快20倍且单臂环境平均义务成功率高出25.7%,如下图所示。同时咱们的TinyVLA还能够间接迁徙到双臂环境,无需修正网络结构等,只有要修正预测的举措维度即可;但受限于OpenVLA的自回归结构以及预训练数据均为单臂,造成其很难在双臂环境下反常运转。此外咱们的TinyVLA在多个泛化目的上能到达与OpenVLA相媲美的功能,比如物体泛化、位置泛化、搅扰物、背景泛化;而在视角变动泛化上,TinyVLA更是遥遥上游,在-30度到30度的超大范围测试中,局部状况仍能准确成功义务。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5402.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号