语义分割综述（1）

计算机视觉工坊 | 2021-10-07 12:17:11 阅读：5282

作者：Derrick Mwiti

编译：CV技术指南

语义分割 (Semantic segmentation) 是指将图像中的每个像素链接到类标签的过程。这些标签可能包括人、车、花、家具等。

我们可以将语义分割视为像素级别的图像分类。例如，在有很多汽车的图像中，分割会将所有对象标记为汽车对象。然而，称为实例分割 (instance segmentation) 的单独类别的模型能够标记对象出现在图像中的单独实例。这种分割在用于计算目标数量的应用中非常有用，例如计算商场中的人流量。

它的一些主要应用是自动驾驶汽车、人机交互、机器人技术和照片编辑/创意工具。例如，语义分割在自动驾驶汽车和机器人技术中非常重要，因为模型理解其运行环境中的上下文非常重要。

"Two men riding on a bike in front of a building on the road. And there is a car."

本文将介绍一些关于构建语义分割模型的最新方法的研究论文，即：

Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation

Fully Convolutional Networks for Semantic Segmentation

U-Net: Convolutional Networks for Biomedical Image Segmentation

The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation

Multi-Scale Context Aggregation by Dilated Convolutions

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

Rethinking Atrous Convolution for Semantic Image Segmentation

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation

Improving Semantic Segmentation via Video Propagation and Label Relaxation

Gated-SCNN: Gated Shape CNNs for Semantic Segmentation

文末附以上论文的下载方式

用于语义图像分割的深度卷积网络的弱监督和半监督学习

论文：Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation (ICCV, 2015)

代码：https: //bitbucket.org/deeplab/deeplab-public

本文针对在深度卷积神经网络 (CNN) 中处理弱标记数据以及标记良好的数据和未正确标记的数据的组合提出了一种解决方案。

在论文中，应用了深度 CNN 与全连接条件随机场的组合。

在 PASCAL VOC 分割基准上，该模型给出了高于 70% 的平均交并比 (mean intersection-over-union, IOU) 分数。这种模型面临的主要挑战之一是它需要在训练期间在像素级别进行注释的图像。

本文的主要贡献是：

引入可应用于弱监督和半监督设置的边界框或图像级训练的期望最大化算法。

证明结合弱注释和强注释可以提高性能。在合并来自 MS-COCO 数据集和 PASCAL 数据集的注释后，本文作者在 PASCAL VOC 2012 上达到了 73.9% 的 IOU 性能。

证明他们的方法通过合并少量像素级注释图像和大量边界框或图像级注释图像来实现更高的性能。

用于语义分割的全卷积网络

论文：Fully Convolutional Networks for Semantic Segmentation（PAMI，2016）

代码：http://fcn.berkeleyvision.org

本文提出的模型在 PASCAL VOC 2012 上实现了 67.2% 平均 IU 的性能。

全连接网络获取任意大小的图像并生成相应空间维度的输出。在这个模型中，ILSVRC 分类器被投射到完全连接的网络中，并使用像素级损失和网络内上采样来增强密集预测。然后通过微调完成分割训练。微调是通过在整个网络上的反向传播来完成的。

U-Net：用于生物医学图像分割的卷积网络

论文：U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI, 2015)

代码：http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net

在生物医学图像处理中，为图像中的每个细胞获得一个类别标签是非常重要的。生物医学任务中最大的挑战是难以获取数千张用于训练的图像。

本文建立在完全卷积层的基础上并对其进行修改以处理一些训练图像并产生更精确的分割。

由于可用的训练数据很少，因此该模型通过对可用数据应用弹性变形来使用数据增强。如上图 1 所示，网络架构由左侧的收缩路径和右侧的扩展路径组成。

收缩路径由两个 3x3 卷积组成。每个卷积之后是一个整流线性单元和一个用于下采样的 2x2 最大池化操作。每个下采样阶段都会使特征通道的数量增加一倍。扩展路径步骤包括特征通道的上采样。接着是 2x2 上卷积，将特征通道的数量减半。最后一层是 1x1 卷积，用于将组件特征向量映射到所需数量的类。

在这个模型中，训练是使用输入图像、它们的分割图和 Caffe 的随机梯度下降实现来完成的。当使用很少的训练数据时，数据增强用于教导网络所需的鲁棒性和不变性。该模型在其中一项实验中取得了 92% 的平均 IOU 分数。

一百层Tiramisu：用于语义分割的全卷积 DenseNets

论文：The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation (2017)

代码：https://github.com/SimJeg/FC-DenseNet

DenseNets 背后的想法是让每一层以前馈方式连接到每一层，使网络更容易训练和更准确。

该模型的架构建立在密集的下采样和上采样路径块中。下采样路径有 2 个向下转换 (TD)，而上采样路径有 2 个向上转换 (TU)。圆圈和箭头代表网络内的连接模式。

本文的主要贡献是：

将 DenseNet 架构扩展到完全卷积网络，用于语义分割。

从密集网络中提出比其他上采样路径表现更好的上采样路径。

证明该网络可以在标准基准测试中产生SOTA结果。

该模型在 CamVid 数据集上实现了 88% 的全局准确率。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。