特征采集:
输入 (3,N,H,W),输出(32,N,H/4,W/4)【N是指N张图】。
进行下采样是考虑到显存不够使,现在的工作一般不进行下采样的了
本文主要提出CNN来得到更好的特征,深入思考一下是否有更好的方法来进行特征提取?用transformer?有人做过了,所以说有想法不行,还要手快才行。
代价体:
Homography:
从(32,N,H/4,W/4),输出(32,D,N,H/4,W/4)【D是深度假设层,可以理解为到底切了多少片】。
把特征沿着每个深度投影到中心视角下,多了一个维度D
不懂Homography可以看一下主页博客
在原文中这块还介绍了线性插值,因为在投影的过程中难免会有投不上的空洞,用插值来补全
代价体度量:
从(32,D,N,H/4,W/4),输出(32,D,1,H/4,W/4)。
通过方差将N个特征体的向量空间压缩成1个,实现了文中提出的任意输入
原文中提出的对所有视角图片给相同贡献显然有问题,因为如果要恢复正面场景,背面视角的图就没那么重要,关于这方面工作可以通过给每个视角不同的权重
代价体正则化:
从(32,D,H/4,W/4),输出(1,D,H/4,W/4)。
就是把通道维度给压缩掉,使得最终结果表示的是该像素点在深度D下的概率
概率P:(D,H/4,W/4)