语义分割综述（2）

计算机视觉工坊 | 2021-10-07 12:20:08 阅读：604

通过扩张卷积进行多尺度上下文聚合

论文：Multi-Scale Context Aggregation by Dilated Convolutions (ICLR, 2016)

代码：https://github.com/fyu/dilation

在本文中，开发了一种融合多尺度上下文信息而不损失分辨率的卷积网络模块。然后可以将该模块插入到任何分辨率的现有架构中。该模块基于扩张卷积。

该模块在 Pascal VOC 2012 数据集上进行了测试。它证明向现有语义分割架构添加上下文模块可以提高其准确性。

在实验中训练的前端模块在 VOC-2012 验证集上实现了 69.8% 的平均 IoU，在测试集上实现了 71.3% 的平均 IoU。该模型对不同物体的预测精度如下图

DeepLab：使用深度卷积网络、Atrous 卷积和全连接 CRF 进行语义图像分割

论文：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (TPAMI, 2017)

代码：https://github.com/tensorflow/models (非官方)

在本文中，作者对深度学习的语义分割任务做出了以下贡献：

用于密集预测任务的带有上采样滤波器的卷积

用于多尺度分割目标的多孔空间金字塔池化 (ASPP)

通过使用 DCNN 改进对象边界的定位。

论文提出的 DeepLab 系统在 PASCAL VOC-2012 语义图像分割任务上实现了 79.7% mIOU。

该论文解决了在语义分割中使用深度 CNN 的主要挑战，其中包括：

重复组合最大池化和下采样导致的特征分辨率降低。

多尺度目标的存在。

由于以目标为中心的分类器需要空间变换的不变性，因此 DCNN 的不变性导致定位精度降低。

Atrous 卷积是通过插入零对滤波器进行上采样或对输入特征图进行稀疏采样来应用的。第二种方法需要对输入特征图进行一个等于多孔卷积率 r 的子采样，并对其进行去隔行扫描以生成 r^2 个降低分辨率的图，每个 r×r 可能的移位一个。在此之后，标准卷积应用于直接特征图，将它们与图像的原始分辨率交错。

重新思考语义图像分割的 Atrous 卷积

论文：Rethinking Atrous Convolution for Semantic Image Segmentation (2017)

代码：https://github.com/pytorch/vision (非官方)

本文解决了使用 DCNN 进行语义分割的两个挑战（前面提到过）；应用连续池化操作和多个尺度对象的存在时发生的特征分辨率降低。

为了解决第一个问题，论文建议使用atrous卷积，也称为扩张卷积。它提出使用多孔卷积来扩大视野并因此包括多尺度上下文来解决第二个问题。

该论文的“DeepLabv3”在没有 DenseCRF 后处理的 PASCAL VOC 2012 测试集上实现了 85.7% 的性能。

用于语义图像分割的具有 Atrous 可分离卷积的编码器-****

论文：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (ECCV, 2018)

代码：https://github.com/tensorflow/models

本文的方法“DeepLabv3+”在没有对 PASCAL VOC 2012 和 Cityscapes 数据集进行任何后处理的情况下实现了 89.0% 和 82.1% 的测试集性能。该模型是 DeepLabv3 的扩展，通过添加一个简单的****模块来细化分割结果。

该论文实现了两种类型的神经网络，它们使用空间金字塔池化模块进行语义分割。一种通过汇集不同分辨率的特征来捕获上下文信息，而另一种则获得清晰的对象边界。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。