"); //-->
来源丨MCPRL
导读
传统语义分割在很多任务上已经达到了很好的性能,然而这需要大规模完全标注的数据集,这无疑需要昂贵的人力物力财力。半监督语义分割旨在利用少量标注样本和大量的未标记样本解决标注难度大、标注成本昂贵等问题。本文将焦距近期半监督语义分割的前沿论文,分析其方法和特点并给出总结。
1 背景
定义:使用大量的未标记数据,以及同时使用标记数据,来进行语义分割。常用数据集:PASCAL VOC 2012;Cityscapes等2 论文列表
本文分析的论文如下:3 ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation
第一篇就是CVPR2022的ST++,它具有两大出发点:4 Semi-Supervised Semantic Segmentation With Cross Pseudo Supervision
这一篇CPS来自于CVPR2021,,其思想非常简单,就是利用网络扰动,即两个具有相同架构的不同初始化的网络进行交叉监督,来达到提升模型预测稳定性的作用。它结合Cutmix数据增强和CELoss就可达到当时SOTA。具体地,相同的数据塞入两个架构相同、不同初始化的网络,通过sofmax产生预测P,然后再生成最终的伪标签Y,这里用Y1监督P2,反之亦然,使用了一个交叉监督的思想,可以同时达到利用伪标签监督(且增加了监督信号)和一致性约束的效果。5 Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation
这篇文章也是出自CVPR2022,是一个利用一致性损失的经典方法。它主要贡献就是:1. 通过一个新的辅助教师和一个更严格的信心加权的CE损失(Conf-CE)来替代MT的MSE损失,提高了未标记训练图像的分割精度,和更好的收敛——架构、损失函数层面2. 结合使用输入数据、特征和网络扰动,以改进模型的泛化3. 提出一种新型的特征扰动,称为T-VAT,基于从我们的MT模型的教师那里学习到的对抗性噪声,并将其应用于学生模型,从而产生具有挑战性的噪声,以促进学生模型的有效训练。——扰动层面具体的细节就是:增加了一个T模型,对两个T模型只使用弱数据增强(比如flip、crop、scale),防止对T模型的预测造成干扰;对S模型进行强数据增强(Cutmix,Zoom in/ Out)然后,对S编码后的特征层使用T-VAT扰动,增加模型泛化性,使编码器能提取最本质的特征。这个扰动要足够大足够有效,如何衡量?就是用两个T模型的预测来衡量,要让T模型的预测在加噪声前后,预测的差异越大越好。然后就是两个T模型的预测和S的预测使用Conf-CE Loss作为一致性损失函数:就是在CELoss加了一个权重c(w)代表w像素位置的分割置信度,置信度越高,损失越大,这样对于不那么可靠的像素,损失较小,可一定程度上缓解对于错误标签的过拟合,而对于Labeled data就用监督损失函数CELoss然后梯度下降更新S,EMA交替更新T,即一个epoch只更新一个T模型。可以看到这个文章改进思路比较全面,输入数据、特征和网络三个层面的扰动和架构损失函数的改进都考虑到了。6 Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels
这篇文章出发点就是现有Pseudo-Labels based方法大多扔掉置信度不高的伪标签,只使用置信度高的伪标签进行训练;然而,这会导致有些像素可能永远不会被训练。从而导致某些类别训练不充分或者类不平衡。解决方案:虽然有些不靠谱的伪标签可能是misclassified,但是我可以排除一些绝不可能的类别。利用什么来拉远这些类别的距离?对比学习损失InfoNCELoss所以它的基本思路是:对于labeled data正常监督学习,对于unlabeled样本首先根据阈值划分出可靠像素和不可靠的像素,可靠像素使用监督学习,不可靠的像素使用对比学习拉远与不可能类别之间的距离。7 Semi-Supervised Semantic Segmentation via Adaptive Equalization Learning
这是NIPS2021的一篇,着重于解决长尾、类不平衡问题,比如说Cityscapes数据集,头部类别的像素数远多于尾部类别几百倍。为了应对数据集中的这种问题,本文提出了三大自适应策略:1)自适应复制-粘贴和CutMix数据增强方法,为表现不佳的类别提供更多被复制或剪切的机会2)自适应数据采样方法,鼓励从表现不佳的类别中采样像素3)一种简单而有效的重加权方法,以缓解伪标记带来的训练噪声通过这些策略,我们可以一定程度上缓解长尾问题,比如Cityscape数据集的两种设置,我们从图中看到,从蓝线变成了黄线,很大程度上缓解了长尾问题基本网络框架如下:基本策略和经典方法一样,经典的mean Teacher模型,采用EMA的方法更新T,采用梯度回传更新S利用T模型在弱增广无标记数据Du上生成一组伪标签, 随后,用gt对标记数据Dl(弱增强)和用生成的伪标签对未标记数据Du(强增强)进行训练。损失函数也是标准的利用伪标签的方法,使用了CELoss其使用的自适应策略如下:首先构建Confidence Bank:计算一个batch中的c类像素的平均预测概率,然后随着训练的进行,这一个值采用EMA更新。然后使用Adaptive CutMix数据增强:置信度越高的类别选择进行Cutmix的概率越低,对所有类别使用Softmax得到选取的概率。具体地,作者依据概率随机选取一个类别,作为采样类别,随机选取一幅包含采样类别的未标记图像,然后对该类别区域Crop,再粘到另一幅图像上;由于自适应CutMix是在没有标注的数据上执行的,因此我们使用T的预测作为近似gt。然后进行Adaptive Copy-Paste:思路同CutMix,只不过将采样类别的所有像素随机粘到另一张图像上。然后使用Adaptive Equalization Sampling:就是在训练集每个图象中的每一个类别按一定采样率采样,采样到的像素计算损失。越困难的类别采样率越高,可以看到置信率最低的样本采样率为1;只对被采样到的像素计算损失作者还采用了Dynamic Re-Weighting:按照分为c类的置信度进行加权,置信度越高,损失越大8 Enhancing Pseudo Label Quality for Semi-Supervised Domain-Generalized Medical Image Segmentation
这一篇是用在医学图像CT上的半监督域扩展语义分割,解决Domain-Generalize问题:训练数据由来自三个源域的标记图像和未标记图像组成,且不知道域标签,而测试数据来自一个未知分布。方法主要是借鉴CPS交叉监督提出 confidence-aware cross pseudo supervision,并且使用了使用傅里叶特征做数据增强。9 Collaborative and Adversarial Learning of Focused and Dispersive Representations for Semi-supervised Polyp Segmentation
10 总结
撰稿人、排版人:董军豪
本文仅做学术分享,如有侵权,请联系删文。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。