基于全景图视觉自留意力模型的室内框架预计方法

  • 电脑网络维修
  • 2024-11-15

此方法关键关注室内框架预计(indoor estimation layout estimation)义务,义务输入2D图片,输入图片所形容场景的三维模型。思索到间接输入三维模型的复杂性,该义务普通被拆解为输入2D图像中的墙线、天花板线、地线三种线的信息,再依据线的信息经事先处置操作重建房间的三维模型。该三维模型可在前期进一步用于室内场景复刻、VR看房等详细运行场景。区别于深度预计方法,该方法基于对室内墙线的预计来复原空间几何结构,长处在于可使墙面的几何结构较为平坦;劣势则在于不可复原室内场景沙发、椅子等细节东西的几何信息。

依据输入图像的不同,普通可分为基于透视图和基于全景图的方法,相较于透视图,全景图具备视角较大、图像信息丰盛的特点。因为全景采集设施的遍及,全景数据日益丰盛,因此目前基于全景图启动室内框架预计的算法被宽泛钻研。

相关算法关键包括LayoutNet、HorizonNet、HohoNet及Led2-Net等,这些方法大多基于卷积神经网络,在结构复杂的位置墙线预测成果较差,如有噪声搅扰、自遮挡等位置会出现墙线不延续、墙线位置失误等预测结果。在墙线位置预计义务中,仅关注部分特色信息会造成该类失误的出现,需应用全景图中的全局信息思索整条墙线的位置散布来预计。CNN方法在提取部分特色义务中体现更优,Transformer方法更长于捕捉全局信息,因此可将Transformer方法运行于室内框架预计义务以优化义务体现。

因为训练数据依赖性,独自运行基于透视图预训练的Transformer预计全景图室内框架成果并不现实。PanoViT模型预先将全景图映射到的特色空间,经常使用Transformer学习全景图在特色空间的全局信息,同时思索全景图的表观结构信息成功室内框架预计义务。

二、方法引见与结果展现

网络结构框架蕴含4个模块,区分是Backbone,vision transformer解码器,框架预测模块,边界增强模块。Backbone模块将全景图映射至特色空间,vison transformer编码器在特色空间中学习全局关联,框架预测模块将特色转化为墙线、天花板线、地线信息,后处置可进一步获取房间的三维模型,边界增强模块突出全景图中边界信息关于室内框架预计的作用。

① Backbone模块

因为间接经常使用transformer提取全景图特色成果不佳,基于CNN的方法的有效性曾经证实CNN特色可用于预测屋宇框架。因此,经常使用CNN的backbone提取全景图不同尺度feature map并在feature map中学习全景图像的全局信息。试验结果标明在特色空间中经常使用transformer的体现大大优于间接在全景图上运行。

② Vision transformer encoder模块

Transformer主体架构可关键分为三个模块,包括patch sampling、patch embedding和transformer的multi-head attention。输入同时思索全景图像特色图与原始图像并针对不同输入驳回不同patch sampling方法。原图经常使用平均采样方法,特色图驳回水平采样方法。来自HorizonNet的论断以为在墙线预计义务中水平方向特色具备更高关键性,参考此论断,embedding环节中关于特色图特色启动竖直方向紧缩。驳回Recurrent PE方法组合不同尺度的特色并在multi-head attention的transformer模型中启动学习,获取与原图水平方向等长的特色向量,经过不同的decoder head可取得对应的墙线散布。

随机循环位置编码(Recurrent Position Embedding)思索到全景图沿水平方向位移不扭转图像视觉信息的特色,因此每次训练时沿着水平轴方向随机选取初始位置,使得训练环节更关注不同patch之间的相对位置而非相对位置。

③ 全景图的几何信息

全景图中几何信息的充沛应用可有助于室内框架预计义务体现的优化。PanoViT模型中的边界增强模块强调如何经常使用全景图中的边界信息,3D Loss则协助缩小全景图畸变影响。

边界增强模块思索到墙线检测义务中墙线的线状特色,图像中的线条信息关键性突出,因此须要突出边界信息使得网络了解图像中线的散布。经常使用频域中边界增强方法突出全景图边界信息,基于极速傅里叶变换获取图像频域示意,经常使用掩膜在频域空间中启动采样,基于傅里叶反变换变换回边界信息被突出的图像。模块外围在于掩膜设计,思索到边界对应高频信息,掩膜首先决定高通滤波器;并依据不同线的不同走向方向采样不同的频域方向。该方法相对传统LSD方法实施便捷且效率更高。

之前上班在全景图上计算像素距离作为预计误差,因为全景图畸变,图片上的像素距离并不正比于3D环球的实在距离。PanoViT经常使用3D损失函数,间接在3D空间中计算预计误差。

2、模型结果

经常使用Martroport3D、PanoContext公共数据集启动试验,经常使用2DIoU和3DIoU作为评估目的,并与SOTA方法启动对比。结果显示PanoViT在两个数据集中的模型评估目的基本到达最优,在特定目的中略逊于LED2。模型可视化结果与Hohonet比拟可发现,PanoViT可正确识别复杂场景下的墙线走向。在消融试验中两两对比Recurrent PE、边界增强与3D Loss模块,可验证模块有效性。

为了到达更好的模型数据集,搜集十万多张室内全景图像自建全景图像数据集,蕴含各类复杂室内场景,并基于自定规定启动标注,从当选取5053张图像作为测试数据集。在自建数据集上测试PanoViT模型与SOTA模型方法体现,发现随着数据量增大,PanoViT模型性能优化清楚。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6872.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号