MVS开始"变形"了!基于Transformer的多视角三维重建算法参数减量质更优!

让创新获得认可 将门创投 昨天
从多视角图像中学习出3D目标的表达一直是三维视觉的核心问题,随着深度学习的不断发展近年来基于深度卷积神经网络的模型在多视角三维重建问题中表现出了非常强大的能力。但这些方法大多基于相互独立的视图特征抽取和融合过程,忽略了不同视角间的相关性。
为了有效探索不同视角间的相关性,来自不列颠哥伦比亚大学和中科大的研究人员们借鉴了基于自注意力机制的Transformer模型,将多视角三维重建问题重新定义为序列到序列的预测问题,通过统一的Transformer模型将特征抽取和融合集成在完整的架构中,使得多个无序输入视角间相关性得以被充分利用。
实验表明这一方法可以大幅度减少模型参数,并在多个指标上超越了先前基于卷积的多视角三维重建模型架构

图片

论文链接:

https://arxiv.org/pdf/2103.12957.pdf

图片

一、多视角三维重建问题

通过不同视角下对目标的观测图像,理论上可以重建出目标的三维信息,但传统方法需要精确的标定相机或抽取不同视角下的相对位姿,使得算法不够稳定、计算量过大、实现较为复杂。深度学习特别是卷积神经网络强大的特征抽取能力为多视角三维重建提供了新的可能

为了从多个视角的观测结果中学习出目标的3D表达,绝大多数基于CNN的架构都采样了分治法,即先通过编码器提取出不同视角下的特征表达,而后通过融合过程将不同视角下的特征进行整合重建出目标的三维形貌。尽管两个过程紧密相关,但其设计思想却是独立的没有考虑不同视角下观测结果的相关性。虽然最近有研究利用RNN探索了不同视角下的关系,但庞大的计算量使得效率低下,输入排序敏感性使得它在处理无序的视角时候十分困难。此外,基于CNN的方法还无法有效处理模型缩放问题,当模型大小超过特定尺度时其精度会出现饱和,这显示出了单纯通过大量独立的CNN特征难以学习出互补的知识。

为了解决这些问题,研究人员在Transformer的启发下提出了一种称为“3D 体积Transformer(VoIT)”的模型架构,探索了自注意力机制在多视角3D目标重建中的应用潜力。研究人员将多视角三维重建问题重新定义为了序列到序列的预测问题,并将逐视角特征抽取和视角融合整合到统一的模型框架中。源于自然语言处理领域的Transformer模型天然可以处理任意数量输入间的复杂语义关系,十分适合探索视角到视角间的相关性。Transformer对于多视角重建问题成为了一个自然且十分具有吸引力的探索方向。

二、3D Volume Transformer

这一新的架构主要包含了两个部分:2D视角的transformer编码器和3D体积的transformer解码器

其中2D部分的编码器主要负责从抽取2D视角下的特征,并通过探索2D视角间的关系对不同视角下的特征进行融合。而3D部分的解码器则通过对编码器的特征进行融合与解码,并为每个空间位置的查询token生成3D概率体素输出。解码器中的自注意力机制将主要学习每个输出体素栅格和输入视角间的2D视角-3D体积相关性;同时体积自注意力层则会通过学习不同空间位置的相关性来得到3D体积-3D体积间的相关性。2D-2D,2D-3D,3D-3D的相关性可以进行通过编码器和解码器中的多注意力层进行联合探索。

下图展示了本文提出模型的主要框架结构。

图片
图中的左半部分是整个模型的主体架构,右半部分展示了本文提出用于抑制模型表达收敛的 divergence enhanced Transformer模块

提出的模型是一个典型的Transformer架构,其输出是多视角下的嵌入表达,查询则是3D空间的嵌入表达
编码器部分,每一个视角的图像首先通过预训练的CNNs模型抽取获得一系列嵌入表示,而后被送入多头注意力机制MH-DEAtt中进行处理,随后进行归一化和前向传播(feed-forward network,FFN)最终得到了编码后的多视角特征表达。

下面的公式对编码过程进行了比较简洁的描述:

图片

值得一提的是,在使用原始Transformer时候,特征会随着层数的增加而逐渐收敛,这使得模型会失去表达能力,使得模型无法有效探索不同视角间的相关性。为此研究人员特别提出了一种减缓收敛的机制,通过增大不同视角的embedding差异来实现。这一机制通过在输入的特征空间中引入跳接并衔接不同视角的特征来实现。

下图中左下角的支路展示了这一过程。

图片

而针对解码器来说需要重建目标的三维形貌,那么将一系列3D体积位置编码为查询序列,并添加了对应的位置编码,其主要的流程和编码器类似,通过将体积embedding输入多头体积注意力层进行编码,而后通过归一化再于视角编码共同输出到体积视角编码,随后归一化前向传播得到最后解码结果,并通过线性映射还原为对应的3D体积,而后按照对应位置排布得到最终的重建结果。

下面的公式简单描述了这一过程,详细解读可以参看论文细节。
图片

细节架构可以看到这一解码器主要探索了3D-3D以及2D-3D间的相关性。

图片

为了对比不同实现方式的差异,研究人员分别实现了三种不同的VoIT,其中利用VGG16抽取特征并利用原始Transformer编码的结果VoIT,利用更为先进的ResNet50作为特征抽取的VoIT+,以及通过视角嵌入学习收敛抑制提升的EVoIT模型。下表展示了这些模型与先前模型的参数量比较,可以看到最先进的EVoIT只有传统方法不到30%的参数量。

图片

三、实验结果

研究人员在ShapeNet上对24个视角的情况进行了重建实验,结果超过了先前的Pix2Vox等模型,在几乎左右类别上都达到了最佳效果。

图片

同时这一方法也在视角数量变化时展示了较强的鲁棒性:

图片

下图展示了这一方法的重建结果,可以看到完整性和精度都有较大的提升:

图片

了展示收敛抑制模块的作用,通过对于注意力矩阵的可视化分析可以发现,相比于VoIT,EVoIT的列还保持着较强的多样性,没有出现对于特定视角的强化表达。这意味着通过抑制收敛可以提升更深层对于多视角特征的多样性表达。

图片

在未来研究人员还会在模型的可解释性方面进行进一步探索,并通过可视化的方式对于隐空间变量与输入间的对应关系进行更为深入的分析。如果想要了解更多细节,请参看论文。

编译:T.R  From: UBC (University of British Columbia)

Illustrastion by Oleg Shcherba from Icons8

- The End -
图片

扫码观看!

本周上新!

图片

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com
图片    
点击右上角,把文章分享到朋友圈

    相关内容推荐

    果静林老婆贪贪贪超级秀场pilar甜蜜接吻北京安监局二次元触手歼15总设计师胡冬冬劲舞团升级表承影剑小马宝莉故事后翼科索沃双飞是什么感觉超升既笔顺水中花醉酒迷情麦克毕比腕龙简笔画赛文ova什么大什么粗小泽马利亚纱那人地蟑螂的习性打饼子比尔斯卡斯加德手工品第一滴血3dudu373猋怎么读啊痛麦玲玲大头儿子叫什么黄晓明年龄宁波玉米楼狼精成人抖音破解版怎么揉小豆豆咸水妹别说话叶进克莱尔生化危机萝卜牛肉汤抹额鸽子汤需要焯水吗烟台东炮台长乐未央长毋相忘空调出姨笔顺突变英雄在线国产高清dbh滑板巴西陆军拆那蒙帕纳斯大厦猜数字游戏古筝曲谱网孢子粉多少钱一斤老店镇红旗22防空导弹红头蜈蚣孙红雷电视剧大全明翰qq水浒手机版口哨音乐花灵扮演者达隆郡的历史与君歌在线观看家有狐仙最强神眼灵魂能力6狮子滚绣球利威尔阿克曼全山河南省军区司令员拍摄角度意大利地图王戈个人资料婴儿洗衣机招商银行田惠宇虎牢关张曼源年龄阳冰乌布雷深圳gdp电话情思mercari走进联合国猪之歌歌词完整版义地bololi幼师舞蹈坐肚子林巧儿警花母狗李明光杨金铭魔兽世界挂机宏谷歌地图高清张文龙关于音乐的手抄报王建福馥绿德雅德莱尼人河岸好姑娘斯古拉香蕉哥托宝魈荧cp文西班牙电影推荐马栓斗鸡公黑太阳杀人工厂钟玲玲恐怖护士被唾弃的坟墓绵阳到重庆三爿石池上辽一pursure一朵午荷泰山集团等不及说爱你册那失信人员黑名单hello树先生史上最强掌门明星艺术签名闯关东中篇霓虹夜晚杭州到乌镇旅游蛋糕城堡现在就爱仙逆姚惜雪空袭珍珠港斗牛黄渤bololi英文大写转小写铁炮陈嘉映单枪匹马闯天下无锡丽笙精选酒店blii善良的姐姐象山影视学院信宝卡地木兰扇村上里纱英雄史诗哎也狐媚眼锤头厂家欢乐喜剧人第三季胆水豆腐红色毛片台球女孩贾晓玲与朱元思书注音版昌平温泉武阳香港一家人百合abo文张家口二手车圣杯王后正位南海九江中学d191片字行书泰剧美人鱼你到底从不从东风凯普特中国乒协领导成员杜鹃山京剧魔兽世界挂机宏真菜技嘉bios广东十虎与后五虎桔子洲头m240机枪小马宝莉真人版张世豪的扮演者水糖新闻三十分天玄地黄日币对人民币汇率furr在什么什么前面3568烂泥沟g565火线传奇第二季欧美女视频五老冠黄石有轨电车老虎来喝下午茶我在北大等你21点梭哈

    合作伙伴

    网络红人排行榜

    www.xm5656.cn
    www.pifajia.net.cn
    www.youpinhui.vip
    www.28j.com.cn
    top1.urkeji.com
    www.haowangjiao.cc
    top1.urkeji.com
    www.maijichuang.cn
    idc.urkeji.com
    www.akz.net.cn
    niu.seo5951.com
    www.kmpower.cn
    www.xm5656.cn
    zz.urkeji.com
    www.te3.com.cn
    www.karczford.com
    www.akz.net.cn
    seo.jsfengchao.com
    qiansan.seo5951.com
    www.maijichuang.cn