2020 CVPR Oral—港中文+港科技联合推出一阶段3D目标检测框架3DSSD

2022-11-12 07:46| 发布者: Jorliman 1015 1

摘要: 0 基本信息：论文来源：2020 CVPR oral1 Motivation目前的二阶段检测网络包括2个部分：proposal generation stage和prediction refinement stage。在proposal generation stage，SA层用于下采样，以提高效率和增加感 ...

0 基本信息：

论文来源：2020 CVPR oral

1 Motivation

目前的二阶段检测网络包括2个部分：proposal generation stage和prediction refinement stage。

在proposal generation stage，SA层用于下采样，以提高效率和增加感受野，；FP层用于下采样过程中丢失点的特征传播，以恢复所有点。

在prediction refinement stage，对于RPN生成的proposals进一步refine以提升精度。

然而，作者认为提取特征的SA是必不可少的，而FP层和refinement可以移除以提升效率，三者耗时如下表所示。但是SA层中常用的下采样策略D-FPS由于仅考虑点与点间的相对位置关系，会导致前景点中将近一半的点被删除，使得代表点数量锐减；之前的做法是利用FP层召回这些被删除的点，但耗时很多。因此本文拟解决该问题，如何在移除FP层的情况下，尽可能的保留前景点。基于此，本文提出单阶段的3D目标检测框架。

2020 CVPR Oral—港中文港科技联合推出一阶段3D目标检测框架3DSSD-7821

2 Abstract

本文提出了一种轻量且有效的point-based的3D目标检测框架——3DSSD(3DSingle Stage objectDetector)，该框架删除了上采样层(FP层)和refinement模块以减少计算量(取而代之的是融合层和CG层)。对于下采样过程，新提出一种融合采用策略（fusion sample strategy），从而在代表性不强的点上取得较好的检测结果。

边界框预测网络包括：候选框生成、anchor-free回归头、3D中心度分配策略（分配label）。在KITTI数据上性能达到SOTA，且速度为25FPS。

3 Introduction

缩写说明：

SA：set abstraction（特征提取，抽象）
FP：feature propagation（特征传播）
D-FPS：furthest point sampling based on 3D Euclidean distance（基于欧式距离的最远点采样）
F-FPS：furthest point sampling based on feature distance（基于特征距离的最远点采样）
CG：candidate generation layer（候选框生成层）

对于point-based的方法，一般由2部分组成：第一部分利用SA层下采样和提取点云的语义特征，FP层用于上采样，并将特征广播到下采样期间所丢弃的点，再利用3D RPN生成proposals；第二部分利用refinement模块进一步提高初始proposals的精度。

观察发现，point-based方法中FP层和refinement模块耗时较多，因此本文旨在移除FP层和refinement模块。对于SA层中下采样策略，如D-FPS，点数较少的前景目标在下采样后很容易失去所有点，因此不会被检测到，导致performance降低。在之前的方法中，使用FP层召回删除的点，尽管其计算量很大。为了解决这个问题，本文基于特征间的距离提出一种新的采样策略——F-FPS，有效保留目标中的点。本文最终的采样策略是D-FPS和F-FPS的融合。

为了充分利用SA层后保留的代表点，本文设计了边界框预测网络，包括：候选框生成层(CG)、anchor-free回归头、3D中心度分配策略。在CG层中，首先将代表点利用F-FPS转移生成候选点，该过程由代表点与其实例的中心之间的相对位置来监督；再将这些候选点看做中心点，基于F-FPS和D-FPS从整个代表点中找到其周围点，然后利用MLP提取特征；特征再输入anchor-fee回归头预测3D边界框；此外，还设计了3D中心度分配策略，它向更接近实例中心的候选点分配更高的分类分数。

4 Method

2020 CVPR Oral—港中文港科技联合推出一阶段3D目标检测框架3DSSD-8517

4.1 Fusion sampling

Challenge：

SA层利用D-FPS进行下采样，以选择代表点；若没有FP层，边界框预测网络仅利用D-FPS后剩下代表点进行预测。然而，D-FPS抽样只考虑了点与点之间的相对位置，也就是说，大部分剩下的代表点实际上是背景点，如地面点，因为其数量很大。在这个过程，存在某些前景目标的点数较少（距离传感器较远的目标）而被删除的可能，从而检测不到。

统计上，使用点的recall值，即下采样后剩下点数与总点数的商，来量化这个情况。如下表所示。当代表点数设置为1024或512时，recall仅为65.9%和51.8%，也就是说前景目标上将近一半的点在下采样过程被删除掉了。为了解决这个问题，一般情况下会使用FP层召回下采样中删除的点，尽管其耗时较多，

2020 CVPR Oral—港中文港科技联合推出一阶段3D目标检测框架3DSSD-6567

Feature-FPS：（距离信息语义信息）

为了尽可能保留前景点，删除背景点，必须同时考虑距离信息和语义信息。在深度网络中，很容易得到目标的语义信息，在FPS过程利用目标的语义信息删除无用的背景点；而仅使用语义信息作为FPS下采样的标准会导致相同实例的点被保留下来，造成冗余。因此，本文同时考虑语义信息和距离信息作为FPS下采样标准：

2020 CVPR Oral—港中文港科技联合推出一阶段3D目标检测框架3DSSD-4581

其中，Ld(A,B)是XYZ空间的L2距离；Lf(A,B)是特征空间的L2距离。

Fusion Sampling：

利用F-FPS，SA层成功保留了大部分前景点。然而，对于代表点数固定为Nm的前景来说，很多背景点被删除了，这有利于回归任务但不利于分类任务。也就是说，SA层的group stage会聚集周围点的特征，但是由于背景点不能找到足够多的周围点，使其感受野较小，导致模型难以区分positive和negative点，降低分类精度。

由上述分析可得，在SA层后，不仅要保留足够多的前景点以提升回归精度，也要保留足够多的背景点提升分类精度。因此，本文提出融合策略（FS），即在SA层中同时使用D-FPS和F-FPS，具体而言，分别用F-FPS和D-FPS采样Nm/2点，并将这两个集合一起输入到SA层中进行后续操作。

4.2 Box Prediction Network

Candidate Generation Layer：

2020 CVPR Oral—港中文港科技联合推出一阶段3D目标检测框架3DSSD-6506

为了进一步减少计算和利用融合策略的优点，提出了CG层。对于边界框回归任务而言，背景点是无用的，因此仅使用F-FPS的点作为初始中心点。与votenet类似，这些初始中心点在其相对位置的监督下移动到其相应的实例中，得到候选点，如图2所示。然后，将候选点当做CG层的中心点，再通过预先设置的阈值从F-FPS和D-FPS的集合点中找到他们的周围点，最后采用MLP提取它们的特征，这些特征用来预测最后的3D边界框。

Anchor-free Regression Head：

对于每一个候选点，预测到对应实例的距离(dx, dy, dz)、大小(dl, dw, dl)以及方向。由于每个点都没有先验方向，因此采用F-pointnet中的方法。

3D Center-ness Assignment Strategy：（参考FCOS）

在训练的过程中，我们需要给每个候选点分配label。

在2d目标检测中，通常使用iou阈值或者mask去给每个像素分配label。在FCOS中，提出了一个连续的center-ness label，代替原始的二分类标签，以进一步区分像素，越是靠近object中心的像素，center-ness越接近于1，所得到的分数也就设置越大，即

2020 CVPR Oral—港中文港科技联合推出一阶段3D目标检测框架3DSSD-7021

但是由于所有的3D点云都在物体的表面，因此center-ness都非常小并且接近，不太可能从这些点得到好的预测结果。因为候选点是从F-FPS采样后再做中心回归后得到的点，靠近中心的候选点可以有更加准确的结果，所以利用候选点而非原始点云，更容易根据center-ness label轻松将object的表面的点区分开。

对于center-ness label的定义，分为2步：