目标检测1

Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection

开放词汇目标检测任务中的学习背景提示来挖掘隐形背景知识

3.2.1 Background Category-specific Prompt

在这个部分中,我们对开放词汇目标检测中背景候选框的底层类别进行建模,并且学习相应的特定类别的提示。然而,由于缺乏这些类别的先验知识,就需要对背景候选框的最优数目进行估计。

因此,我们首先使用一个与类无关的RPN模块在基类上训练,为每张图片得到背景候选框,采用的是VL-PLM中类似的技术。

3.2.2 Background Object Discovery

为了增强模型的训练,本文引入了一个在线的背景物体发现模块来有效地发现挖掘未知物体知识。这一模块旨在提取从与背景候选框中估计到的底层类别相关的隐性物体知识。为了简化,本文将Co划分成…

在训练的初始阶段,给定估计的背景类别数量n,在视觉嵌入集合上执行K值聚类(k设置为n),这个视觉嵌入集合是由CLIP的图像编码器为背景候选框而生成的。随后得到聚类中心的嵌入,记作w。这些聚类中心被看作是估计的背景类别的嵌入中心,允许在每一个训练批次中从背景候选框在线生成伪标签。受 VL-PLM启发,每一个训练批次的背景候选框会基于RPN分数进行过滤,阈值为θ,并增加一个步骤来过滤和真实边界框重叠的候选框。随后,CLIP用于生成伪标签,避免了检测器偏向估计的背景类别。

候选框x被分类为类别c的概率记作:

一旦这样的背景候选框具有对应于c中所有类别的概率分数,我们选择具有最高分数的预测类别标签作为其伪标签。

为了消除上述生成的置信度低的伪标签,我们将根据伪标签的概率分数使用阈值θ过滤候选框。参考VL-PLM,我们也对每一种类别应用非极大值抑制、使用感兴趣区域头部优化边界框预测,生成最终的伪标签。之后,使用最终的伪标签来为每一个训练批次的背景候选框分配类标签。设NBp表示Co中分配了类别标签的背景框集合,剩余的候选框被记作NBn。

λbg是一个用于背景候选框的小值损失权重,这个损失函数强调将背景候选框的视觉嵌入与从C估计出的背景类别相关的上下文嵌入对齐。这对于C中的大多数类别尤其关键,这些类别更容易出现知识丢失。此外,它还增强了BOD对背景候选框中隐含对象的洞察性知识的挖掘。

3.2.3 Inference Probability Rectification

前两个模块执行完之后,检测器识别未知类别的能力显著提升。然而推理中会出现新的挑战。训练时从背景候选框估计到的背景底层类别Co可能和推理时分类检测器的新类别Cu存在语义相似性。这样一来,

4.Experiments

4.1.Experiments Setups

数据集。为了评估提出的LBP框架在解决开放词汇目标检测问题上的有效性,文章在已提出的两个目标检测数据集上进行实验:MS-COCO和LVIS。这些实验是在传统的开放词汇设置中进行的,分别被称为OV-COCO和OV-LVIS。正如之前的工作所述,在OV-COCO任务中,我们将48个类别划分为基类,17个类别划分为新类。评估检测性能的指标主要是IoU下的平均精度(阈值为0.5)具体来说,