30%Token就能实现SOTA性能，华为诺亚轻量目标检测器Focus-DETR效率倍增（1）

计算机视觉工坊 | 2023-08-03 20:15:14 阅读：185

目前 DETR 类模型已经成为了目标检测的一个主流范式。但 DETR 算法模型复杂度高，推理速度低，严重影响了高准确度目标检测模型在端侧设备的部署，加大了学术研究和产业应用之间的鸿沟。

来自华为诺亚、华中科技大学的研究者们设计了一种新型的 DETR 轻量化模型 Focus-DETR 来解决这个难题。

论文地址：https://arxiv.org/abs/2307.12612
代码地址 - mindspore：https://github.com/linxid/Focus-DETR
代码地址 - torch：https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR

为实现模型性能和计算资源消耗、显存消耗、推理时延之间的平衡，Focus-DETR 利用精细设计的前景特征选择策略，实现了目标检测高相关特征的精确筛选；继而，Focus-DETR 进一步提出了针对筛选后特征的注意力增强机制，来弥补 Deformable attention 远距离信息交互的缺失。相比业界全输入 SOTA 模型， AP 降低 0.5 以内，计算量降低 45%，FPS 提高 41%，并在多个 DETR-like 模型中进行了适配。
作者对多个 DETR 类检测器的 GFLOPs 和时延进行了对比分析，如图 1 所示。从图中发现，在 Deformable-DETR 和 DINO 中，encoder 的计算量分别是 decoder 计算量的 8.8 倍和 7 倍。同时，encoder 的时延大概是 decoder 时延的 4~8 倍。这表明，提升 encoder 的效率至关重要。
图 1：多个 DETR 类检测器的计算量和时延对比分析
网络结构
Focus-DETR 包括一个 backbone，一个由 dual-attention 组成的 encoder 和一个 decoder。前景选择器（Foreground Token Selector）在 backbone 和 encoder 之间，是一个基于跨多尺度特征的自顶向下评分调制，用来确定一个 token 是否属于前景。Dual attention 模块通过多类别评分机制，选择更细粒度的目标 token，然后将其输入到一个自注意模块来弥补 token 交互信息的缺失。
图 2 ：Focus-DETR 整体网络结构
计算量降低：前景筛选策略
目前已经有一些对于前景 token 进行剪枝提升性能的方法。例如，Sparse DETR（ICLR2022）提出采用 decoder 的 DAM（decoder attention map）作为监督信息。然而作者发现，如图 3 所示，Sparse DETR 筛选的 token 并不都是前景区域。作者认为，这是由于 Sparse DETR 使用 DAM 来监督前景 token 导致的，DAM 会在训练的时候引入误差。而 Focus-DETR 使用 ground truth（boxes 和 label）来监督前景的 token 的筛选。
图 3：Focus-DETR 和 Sparse DETR 在不同 feature map 上保留的 token 对比
为了更好地训练前景筛选器，作者优化了 FCOS 的前背景标签分配策略，如图 4 所示。作者首先为不同特征映射的包围框设置了一个大小范围。与传统的多尺度特征标签分配方法不同，它允许相邻两个特征尺度之间的范围重叠，以增强边界附近的预测能力。对每个拥有步长的特征，其中代表多尺度特征的层级序号，代表在二维特征图上的位置坐标，作者定义该特征在原图上的映射位置为，那么，因此特征所对应的标签应该为：

其中代表坐标和真值框中心之间的最大棋盘距离，代表真值目标框，分别代表被第层特征图预测的目标的尺度的最大值和最小值，由于尺度重叠设置，。
图 4. 前背景标签分配可视化
此外，来自不同特征映射的特征选择的差异也被忽略，这限制了从最合适的分辨率选择特征的潜力。为弥补这一差距，Focus-DETR 构造了基于多尺度 feature map 的自顶向下的评分调制模块，如图 5 所示。为了充分利用多尺度特征图之间的语义关联，作者首先使用多层感知器 (MLP) 模块来预测每个特征图中的多类别语义得分。考虑到高层语义特征，低层语义特征包含更丰富的语义信息，作者利用高层 feature map 的 token 重要性得分，作为补充信息来调制低层 feature map 的预测结果。

图 5：top-down 前景筛选评分调制策略

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。