"); //-->
来源丨集智书童
导读框回归是目标检测任务中衡量检测框位置准确与否的重要指标,为减少已知框回归方法带来的收敛速度慢和结果不准确的问题,本文提出了一种有效的框回归方法(EIOU),并提出了Focal Loss的回归版本,在收敛速度和定位精度上实现显著的优势。论文链接:https://arxiv.org/abs/2101.08158
1、简介目标检测包括两个子任务:目标分类和目标定位,一直是计算机视觉中最基本的问题之一。当前最先进的目标检测器(例如,Cascade R-CNN、Mask R-CNN、Dynamic R-CNN和DETR)依赖于边界回归(BBR)模块来定位目标。基于这一范式,精心设计的损失函数对于BBR的成功至关重要。迄今为止,BBR的大部分损失函数可以分为两类:在目标检测中,框回归(BBR)是决定目标定位性能的关键步骤。然而,作者发现大多数以前的BBR损失函数有两个主要缺点:
基于范数和IOU的损失函数都不能有效地描述BBR的目标,这导致收敛速度慢和回归结果不准确。
大多数损失函数忽略了BBR中的不平衡问题,即与目标框具有小重叠的大量目标框对BBR的优化贡献最大。
为了减轻由此造成的不利影响,在本文中进行了深入研究,以挖掘BBR损失的潜力。首先,提出了一种有效的Efficient Intersection over Union(EIOU)损失,它明确地测量了BBR中3个几何因子的差异,即重叠面积、中心点和边长。之后,陈述了Effective Example Mining(EEM)问题,并提出了Focal loss的回归版本,以使回归过程专注于高质量的Anchor boxes。最后,将上述两部分结合起来,得到一个新的损失函数,即Focal EIOU Loss。在合成和真实数据集上进行了大量实验。与其他BBR损失相比,可以在收敛速度和定位精度上实现显著的优势。
考虑到基于IOU的损失和-范数损失的缺陷,提出了一种有效的IOU损失,以解决现有损失的困境,并获得更快的收敛速度和更好的回归结果。
考虑到BBR中高质量Anchor和低质量Anchor之间的不平衡,设计了一个 Focal loss 的回归版本,以增强最有希望的Anchor在模型优化中的贡献,同时抑制不相关的Anchor。
对合成数据和真实数据进行了大量实验。出色的实验结果验证了所提出方法的优越性。详细的消融研究显示了损失函数和参数值的不同设置的影响。
如果两个box没有任何交集,IOU Loss将始终为零,这不能正确反映这两个box之间的紧密程度。
IOU Loss的收敛速度较慢。
当时,GIOU损失打算增加边界框的面积,使其与目标框重叠(见图1),这与减少空间位置差异的直觉相反。
当时,|C−A∪B|的面积总是一个小数或等于零(当A包含B时,该项将为零,反之亦然)。在这种情况下,GIOU损失退化为 IOU 损失。因此,GIOU损失的收敛率仍然很慢。
在等式(5)中, 仅反映纵横比的差异,而不是 与 或 与 之间的实际关系。即,所有具有属性具有=,这与现实不符。
在等式(6)中,有。和有相反的符号。因此,在任何时候,如果这两个变量(w或h)中的一个增加,另一个将减少。这是不合理的,尤其是当和或和时。
由于v仅反映纵横比的差异,因此CIOU损失可能以不合理的方式优化相似性。如图1所示,目标框的尺度设置为和。Anchor的初始尺度设置为w=1和h=2.4。Anchor尺度在50次迭代后回归为w=1.64和h=2.84。这里,CIOU损失确实增加了纵横比的相似性,但它阻碍了模型有效地减少和之间的真实差异。
根据上述条件,随着边界框回归误差的变化,可以假设一个梯度幅度的期望函数曲线,如图5(a)所示该函数是,满足性质1和2。接下来,构造了一个带有参数β的函数族来控制曲线的形状,如图5(b)所示随着β的增加,异常值的梯度幅度将被进一步抑制。然而,高质量的例子的梯度幅度也会减少,这不是所期望的。因此,添加另一个参数α,根据属性4的要求,将不同β的梯度大小归一化为[0,1]。最后,梯度大小函数的族可以表示如下:
- 当回归误差趋于零时,梯度幅度的极限应该为零。
- 梯度幅度应在小回归误差附近迅速增大,在大回归误差区域逐渐减小。
- 应该有一些超参数来灵活地控制低质量实例的抑制程度。
- 对于超参数的变值,梯度函数家族应该有一个标准化的尺度,例如,(0,1],这有助于在高质量和低质量的例子之间的平衡。
这里,由于以下原因获得了β的值范围。当,,这意味着g(x)是具有全局最大值的凹函数。求解,可以得到。作为,。还必须确保,那么,。为了满足性质4,设置最大值得到α与β的关系:。通过积分上述梯度公式,可以得到BBR的Focal L1损失:
其中C是一个常数值。以确保在等式中的在x = 1处是连续的,有。
图4(b)显示,根据β,提出的Focal L1损失可以增加内值梯度的值,抑制异常值的梯度值。较大的β要求内部有很少的回归误差,并快速抑制异常值的梯度值。
同样,在图4(a)中,蓝色的曲线表示β的最大值。随着回归误差的增加,蓝色曲线的损失首先迅速增加,然后趋于稳定。β值最小的橙色曲线增长得越来越快,在x = 1左右达到峰值。现在可以通过Focal L1损失,来计算定位损失,其中B是回归结果,是回归目标。
3.2、Focal-EIOU Loss为了使EIOU损失集中于高质量的示例,自然可以考虑在等式中替换 x 与EIOU的损失联系在一起。然而,作者观察到上述组合的效果不太好。分析结果如下:
给定偏移量,Focal L1损失的梯度为,其中等于1或者-1,因此即使偏移很小,还可以带来足够的梯度以使模型持续优化。然而,如果用替换偏移量,梯度可以计算为。
这里不再是一个常量。此外,在实证研究中,随着接近零,它将非常小,而在当时也接近于零。因此,在乘法之后,整体梯度将更小,这削弱了对具有小的Box进行重新加权的效果。为了解决这个问题,使用IOU的值来重新计算 loss的权重,并得到Focal-,如下所示
其中,和是控制异常值抑制程度的参数。
3.3、算法流程4、实验4.1、消融实验IOU方法对比Tradeoff Weight的影响FocalL1 LossFocal-EIOU Loss4.2、SOTA对比4.3、可视化对比5、参考[1].Focal and Efficient IOU Loss for Accurate Bounding Box Regression本文仅做学术分享,如有侵权,请联系删文。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。