论文链接: https://arxiv.org/pdf/2103.12957.pdf
通过不同视角下对目标的观测图像,理论上可以重建出目标的三维信息,但传统方法需要精确的标定相机或抽取不同视角下的相对位姿,使得算法不够稳定、计算量过大、实现较为复杂。深度学习特别是卷积神经网络强大的特征抽取能力为多视角三维重建提供了新的可能。
为了从多个视角的观测结果中学习出目标的3D表达,绝大多数基于CNN的架构都采样了分治法,即先通过编码器提取出不同视角下的特征表达,而后通过融合过程将不同视角下的特征进行整合重建出目标的三维形貌。尽管两个过程紧密相关,但其设计思想却是独立的没有考虑不同视角下观测结果的相关性。虽然最近有研究利用RNN探索了不同视角下的关系,但庞大的计算量使得效率低下,输入排序敏感性使得它在处理无序的视角时候十分困难。此外,基于CNN的方法还无法有效处理模型缩放问题,当模型大小超过特定尺度时其精度会出现饱和,这显示出了单纯通过大量独立的CNN特征难以学习出互补的知识。
这一新的架构主要包含了两个部分:2D视角的transformer编码器和3D体积的transformer解码器。
其中2D部分的编码器主要负责从抽取2D视角下的特征,并通过探索2D视角间的关系对不同视角下的特征进行融合。而3D部分的解码器则通过对编码器的特征进行融合与解码,并为每个空间位置的查询token生成3D概率体素输出。解码器中的自注意力机制将主要学习每个输出体素栅格和输入视角间的2D视角-3D体积相关性;同时体积自注意力层则会通过学习不同空间位置的相关性来得到3D体积-3D体积间的相关性。2D-2D,2D-3D,3D-3D的相关性可以进行通过编码器和解码器中的多注意力层进行联合探索。
下图展示了本文提出模型的主要框架结构。
下面的公式对编码过程进行了比较简洁的描述:
值得一提的是,在使用原始Transformer时候,特征会随着层数的增加而逐渐收敛,这使得模型会失去表达能力,使得模型无法有效探索不同视角间的相关性。为此研究人员特别提出了一种减缓收敛的机制,通过增大不同视角的embedding差异来实现。这一机制通过在输入的特征空间中引入跳接并衔接不同视角的特征来实现。
下图中左下角的支路展示了这一过程。
而针对解码器来说需要重建目标的三维形貌,那么将一系列3D体积位置编码为查询序列,并添加了对应的位置编码,其主要的流程和编码器类似,通过将体积embedding输入多头体积注意力层进行编码,而后通过归一化再于视角编码共同输出到体积视角编码,随后归一化前向传播得到最后解码结果,并通过线性映射还原为对应的3D体积,而后按照对应位置排布得到最终的重建结果。
细节架构可以看到这一解码器主要探索了3D-3D以及2D-3D间的相关性。
为了对比不同实现方式的差异,研究人员分别实现了三种不同的VoIT,其中利用VGG16抽取特征并利用原始Transformer编码的结果VoIT,利用更为先进的ResNet50作为特征抽取的VoIT+,以及通过视角嵌入学习收敛抑制提升的EVoIT模型。下表展示了这些模型与先前模型的参数量比较,可以看到最先进的EVoIT只有传统方法不到30%的参数量。
研究人员在ShapeNet上对24个视角的情况进行了重建实验,结果超过了先前的Pix2Vox等模型,在几乎左右类别上都达到了最佳效果。
同时这一方法也在视角数量变化时展示了较强的鲁棒性:
下图展示了这一方法的重建结果,可以看到完整性和精度都有较大的提升:
为了展示收敛抑制模块的作用,通过对于注意力矩阵的可视化分析可以发现,相比于VoIT,EVoIT的列还保持着较强的多样性,没有出现对于特定视角的强化表达。这意味着通过抑制收敛可以提升更深层对于多视角特征的多样性表达。
在未来研究人员还会在模型的可解释性方面进行进一步探索,并通过可视化的方式对于隐空间变量与输入间的对应关系进行更为深入的分析。如果想要了解更多细节,请参看论文。
Illustrastion by Oleg Shcherba from Icons8
扫码观看!
本周上新!
关于我“门”
果静林老婆贪贪贪超级秀场pilar甜蜜接吻北京安监局二次元触手歼15总设计师胡冬冬劲舞团升级表承影剑小马宝莉故事后翼科索沃双飞是什么感觉超升既笔顺水中花醉酒迷情麦克毕比腕龙简笔画赛文ova什么大什么粗小泽马利亚纱那人地蟑螂的习性打饼子比尔斯卡斯加德手工品第一滴血3dudu373猋怎么读啊痛麦玲玲大头儿子叫什么黄晓明年龄宁波玉米楼狼精成人抖音破解版怎么揉小豆豆咸水妹别说话叶进克莱尔生化危机萝卜牛肉汤抹额鸽子汤需要焯水吗烟台东炮台长乐未央长毋相忘空调出姨笔顺突变英雄在线国产高清dbh滑板巴西陆军拆那蒙帕纳斯大厦猜数字游戏古筝曲谱网孢子粉多少钱一斤老店镇红旗22防空导弹红头蜈蚣孙红雷电视剧大全明翰qq水浒手机版口哨音乐花灵扮演者达隆郡的历史与君歌在线观看家有狐仙最强神眼灵魂能力6狮子滚绣球利威尔阿克曼全山河南省军区司令员拍摄角度意大利地图王戈个人资料婴儿洗衣机招商银行田惠宇虎牢关张曼源年龄阳冰乌布雷深圳gdp电话情思mercari走进联合国猪之歌歌词完整版义地bololi幼师舞蹈坐肚子林巧儿警花母狗李明光杨金铭魔兽世界挂机宏谷歌地图高清张文龙关于音乐的手抄报王建福馥绿德雅德莱尼人河岸好姑娘斯古拉香蕉哥托宝魈荧cp文西班牙电影推荐马栓斗鸡公黑太阳杀人工厂钟玲玲恐怖护士被唾弃的坟墓绵阳到重庆三爿石池上辽一pursure一朵午荷泰山集团等不及说爱你册那失信人员黑名单hello树先生史上最强掌门明星艺术签名闯关东中篇霓虹夜晚杭州到乌镇旅游蛋糕城堡现在就爱仙逆姚惜雪空袭珍珠港斗牛黄渤bololi英文大写转小写铁炮陈嘉映单枪匹马闯天下无锡丽笙精选酒店blii善良的姐姐象山影视学院信宝卡地木兰扇村上里纱英雄史诗哎也狐媚眼锤头厂家欢乐喜剧人第三季胆水豆腐红色毛片台球女孩贾晓玲与朱元思书注音版昌平温泉武阳香港一家人百合abo文张家口二手车圣杯王后正位南海九江中学d191片字行书泰剧美人鱼你到底从不从东风凯普特中国乒协领导成员杜鹃山京剧魔兽世界挂机宏真菜技嘉bios广东十虎与后五虎桔子洲头m240机枪小马宝莉真人版张世豪的扮演者水糖新闻三十分天玄地黄日币对人民币汇率furr在什么什么前面3568烂泥沟g565火线传奇第二季欧美女视频五老冠黄石有轨电车老虎来喝下午茶我在北大等你21点梭哈