30%Token就能实现SOTA性能，华为诺亚轻量目标检测器Focus-DETR效率倍增（2）

计算机视觉工坊 | 2023-08-03 20:15:54 阅读：233

细粒度特征增强策略

在依靠前期设计的前景筛选器得到较为准确的前景特征后，Focus-DETR 使用一种有效的操作来获得更为细粒度的特征，利用这些细粒度特征以获得更好的检测性能。直观地说，作者假设在这个场景中引入更细粒度的类别信息将是有益的。基于这一动机，作者提出了一种新的注意力机制，并结合前景特征选择，以更好地结合利用细粒度特征和前景特征。
如图 2 所示，为了避免对背景 token 进行冗余的计算，作者采用了一种同时考虑位置信息和类别语义信息的堆叠策略。具体来说，预测器 (・) 计算出的前景评分和类别评分的乘积将作为作者最终的标准来确定注意力计算中涉及的细粒度特征，即:

其中和分别代表前景得分和类别概率。
与两阶段 Deformable DETR 的 query 选择策略不同，Focus-DETR 的多类别概率不包括背景类别 (∅)。该模块可以被视为一个 self-attention ，对细粒度特征进行增强计算。然后，已增强的特征将被 scatter 回原始的前景特征并对其进行更新。
实验结果
主要结果
如表一所示，作者将 Focus-DETR 在 COCO 验证集上和其他模型的性能进行比较。可以发现同样基于 DINO，Focus-DETR 仅使用 30% token 的情况下，超过 Sparse DETR 2.2 个 AP。相比原始 DINO，仅损失 0.5 个 AP，但是计算量降低 45%，推理速度提升 40.8%。
表 1：总体对比实验结果
模型效能分析
在图 6 中，从不同模型的精度和计算量之间的关系来看，Focus-DETR 在精度和计算复杂度之间达到了最好的平衡。整体来看对比其他模型，获得了 SOTA 的性能。
图 6 不同模型测试精度和计算复杂度之间的关联分析
消融实验
如表 2 所示，作者针对模型设计进行消融实验，以验证作者提出的算法的有效性。
表 2 本研究提出的前景特征剪枝策略和细粒度特征自注意力增强模块对实验性能的影响
1. 前景特征选择策略的影响
直接使用前景得分预测 AP 为 47.8，增加 label assignment 策略生成的标签作为监督，AP 提升 1.0。增加自上而下的调制策略，能够提升多尺度特征图之间的交互，AP 提升 0.4。这表明提出的策略对于提升精度是非常有效的。如图 7 可视化可以发现，Focus-DETR 可以精确地选择多尺度特征上的前景 token。并且可以发现，在不同尺度的特征度之间，可以检测的物体存在重叠，这正是因为 Focus-DETR 使用了交叠的设置导致的。
图 7 多尺度特征保留的 token
2. 自上而下的评分调制策略的影响
表 3. 多尺度特征图前景评分的关联方法，作者尝试自顶向下和自底向上的调制。
作者对比了自上而下的调制策略和自下而上的调制策略的影响，对比结果可以发现，作者提出的自上而下的调制策略可以获得更好的性能。
3. 前景保留比率对实验性能的影响
表 4.Focus-DETR、Sparse DETR 和 DINO+Sparse DETR 保留前景 token 的比例
作者对比了不同的剪枝比例的性能，从实验结果可以发现，Focus-DETR 在相同的剪枝比例情况下，均获得了更优的结果。
总结
Focus-DETR 仅利用 30% 的前景 token 便实现了近似的性能，在计算效率和模型精度之间取得了更好的权衡。Focus-DETR 的核心组件是一种基于多层次的语义特征的前景 token 选择器，同时考虑了位置和语义信息。Focus-DETR 通过精确地选择前景和细粒度特征，并且对细粒度特征进行语义增强，使得模型复杂度和精度实现更好平衡。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。