基于深度学习的特征提取和匹配（1）

计算机视觉工坊 | 2021-05-14 19:53:24 阅读：1932

发布文章

作者丨黄浴@知乎

来源丨https://zhuanlan.zhihu.com/p/78053406

编辑丨计算机视觉life

计算机视觉需要图像预处理，比如特征提取，包括特征点，边缘和轮廓之类。以前做跟踪和3-D重建，首先就得提取特征。特征点以前成功的就是SIFT/SURF/FAST之类，现在完全可以通过CNN模型形成的特征图来定义。

特征提取

• Discriminative learning of deep convolutional feature point descriptors【1】

该方法通过卷积神经网络（CNN）学习鉴别式补丁表示，特别是训练具有成对（非）相应补丁的Siamese网络。在训练和测试期间它使用L2距离，提出了一种128-D描述符，其欧几里德距离反映了补丁相似性，并且可作任何涉及SIFT的替代。

如图所示，用一个Siamese网络来学习这样的描述符，其中非线性映射由CNN表示，它对对应或非对应补丁对优化。补丁通过模型提取描述符然后计算其L2范数，作为图像描述符的标准相似性度量。而目标是学习一个描述符，在其空间中让非对应的补丁相隔甚远，而在对应的补丁紧密相连。

考虑每个图像块xi具有索引pi，该索引pi唯一地标识从给定视点大致投影到2D图像块的3D点，而目标函数定义如下：

其中p1，p2分别是投影到x1，x2的3D点索引。

这里下表给出的是三层网络架构：64×64输入在第3层中产生128维输出。每个卷积层由四个子层组成：滤波器层，非线性层，池化层和归一化层。

非线性层，使用双曲线切线单元（Tanh）池化层使用L2池化，归一化很重要，这里使用减法归一化，在第一和二层之后用高斯核减去5×5邻域的加权平均值。

• Learned Invariant Feature Transform【2】

LIFT是一种深度网络架构，实现了完整的特征点检测、朝向估计和特征描述，如图所示。

下图是以Siamese架构为基础的整个特征检测和描述流水线。为了训练网络，采用图中的四分支Siamese结构。每个分支包含三个不同CNN，一个检测器、一个朝向估计器和一个描述子。使用四联（quadruplets）图像补丁。每个包括：图像块P1和P2对应于同样3D点的不同视图，图像块P3包含不同3D点的投影，图像块P4不包含任何显着特征点。在训练期间，每个四联第i个补丁Pi将通过第i个分支。

为了实现端到端可微分，每个分支的组件连接如下：

1) 给定输入图像块P，检测器提供得分图S；

2) 在得分图S上执行soft argmax 并返回单个潜在特征点位置x。

3) 用空间变换器层裁剪（Spatial Transformer layer Crop）提取一个以x为中心的较小的补丁p（如图5-3），作为朝向估计器的输入。

4) 朝向估计器预测补丁方向θ。

5) 根据该方向第二个空间变换器层（图中的Rot）旋转p产生pθ。

6) pθ送到描述子网络计算特征向量d。

最后的运行结构如图所示。由于朝向估计器和描述子只在局部最大值进行评估，将检测器解耦并在传统NMS的尺度空间中运行，以获得其他两个组件的建议。

最后看LIFT和SIFT结果比较的例子，如图所示。

特征匹配

MatchNet【3】

MatchNet由一个深度卷积网络组成，该网络从补丁中提取特征，并由三个全连接层组成网络计算所提取特征之间的相似性。

如图是MatchNet训练时的网络架构（图C），联合学习将补丁映射到特征表示的特征网络（图 A）和将特征对映射到相似性的测度网络（图 B）。输出尺寸由（高×宽×深）给出。PS是卷积和池化层的补丁大小; S是步幅。层类型：C=卷积，MP=最大池化，FC=全连接。因为填充卷积层和池化层，故输出高度和宽度是输入除以步幅的值。对FC层，大小B，F选自：B∈{64,128,256,512}，F∈{128,256,512,1024}。除FC3外，所有卷积层和FC层用ReLU激活，输出用Softmax归一化。

下图是MatchNet预测的流水线图，网络拆解为并行的特征网络和测度网络。分两个阶段使用特征网络和测度网络：首先为所有补丁生成特征编码，然后将这些特征配对并推送它们通过测度网络获得分数。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。