0 基本信息:论文来源:2020 CVPR oral 1 Motivation目前的二阶段检测网络包括2个部分:proposal generation stage和prediction refinement stage。 在proposal generation stage,SA层用于下采样,以提高效率和增加感受野,;FP层用于下采样过程中丢失点的特征传播,以恢复所有点。 在prediction refinement stage,对于RPN生成的proposals进一步refine以提升精度。 然而,作者认为提取特征的SA是必不可少的,而FP层和refinement可以移除以提升效率,三者耗时如下表所示。但是SA层中常用的下采样策略D-FPS由于仅考虑点与点间的相对位置关系,会导致前景点中将近一半的点被删除,使得代表点数量锐减;之前的做法是利用FP层召回这些被删除的点,但耗时很多。因此本文拟解决该问题,如何在移除FP层的情况下,尽可能的保留前景点。基于此,本文提出单阶段的3D目标检测框架。 2 Abstract本文提出了一种轻量且有效的point-based的3D目标检测框架——3DSSD(3DSingle Stage objectDetector),该框架删除了上采样层(FP层)和refinement模块以减少计算量(取而代之的是融合层和CG层)。对于下采样过程,新提出一种融合采用策略(fusion sample strategy),从而在代表性不强的点上取得较好的检测结果。 边界框预测网络包括:候选框生成、anchor-free回归头、3D中心度分配策略(分配label)。在KITTI数据上性能达到SOTA,且速度为25FPS。 3 Introduction 缩写说明:
对于point-based的方法,一般由2部分组成:第一部分利用SA层下采样和提取点云的语义特征,FP层用于上采样,并将特征广播到下采样期间所丢弃的点,再利用3D RPN生成proposals;第二部分利用refinement模块进一步提高初始proposals的精度。 观察发现,point-based方法中FP层和refinement模块耗时较多,因此本文旨在移除FP层和refinement模块。对于SA层中下采样策略,如D-FPS,点数较少的前景目标在下采样后很容易失去所有点,因此不会被检测到,导致performance降低。在之前的方法中,使用FP层召回删除的点,尽管其计算量很大。为了解决这个问题,本文基于特征间的距离提出一种新的采样策略——F-FPS,有效保留目标中的点。本文最终的采样策略是D-FPS和F-FPS的融合。 为了充分利用SA层后保留的代表点,本文设计了边界框预测网络,包括:候选框生成层(CG)、anchor-free回归头、3D中心度分配策略。在CG层中,首先将代表点利用F-FPS转移生成候选点,该过程由代表点与其实例的中心之间的相对位置来监督;再将这些候选点看做中心点,基于F-FPS和D-FPS从整个代表点中找到其周围点,然后利用MLP提取特征;特征再输入anchor-fee回归头预测3D边界框;此外,还设计了3D中心度分配策略,它向更接近实例中心的候选点分配更高的分类分数。 4 Method4.1 Fusion sampling Challenge: SA层利用D-FPS进行下采样,以选择代表点;若没有FP层,边界框预测网络仅利用D-FPS后剩下代表点进行预测。然而,D-FPS抽样只考虑了点与点之间的相对位置,也就是说,大部分剩下的代表点实际上是背景点,如地面点,因为其数量很大。在这个过程,存在某些前景目标的点数较少(距离传感器较远的目标)而被删除的可能,从而检测不到。 统计上,使用点的recall值,即下采样后剩下点数与总点数的商,来量化这个情况。如下表所示。当代表点数设置为1024或512时,recall仅为65.9%和51.8%,也就是说前景目标上将近一半的点在下采样过程被删除掉了。为了解决这个问题,一般情况下会使用FP层召回下采样中删除的点,尽管其耗时较多, Feature-FPS:(距离信息 语义信息) 为了尽可能保留前景点,删除背景点,必须同时考虑距离信息和语义信息。在深度网络中,很容易得到目标的语义信息,在FPS过程利用目标的语义信息删除无用的背景点;而仅使用语义信息作为FPS下采样的标准会导致相同实例的点被保留下来,造成冗余。因此,本文同时考虑语义信息和距离信息作为FPS下采样标准: 其中,Ld(A,B)是XYZ空间的L2距离;Lf(A,B)是特征空间的L2距离。 Fusion Sampling: 利用F-FPS,SA层成功保留了大部分前景点。然而,对于代表点数固定为Nm的前景来说,很多背景点被删除了,这有利于回归任务但不利于分类任务。也就是说,SA层的group stage会聚集周围点的特征,但是由于背景点不能找到足够多的周围点,使其感受野较小,导致模型难以区分positive和negative点,降低分类精度。 由上述分析可得,在SA层后,不仅要保留足够多的前景点以提升回归精度,也要保留足够多的背景点提升分类精度。因此,本文提出融合策略(FS),即在SA层中同时使用D-FPS和F-FPS,具体而言,分别用F-FPS和D-FPS采样Nm/2点,并将这两个集合一起输入到SA层中进行后续操作。 4.2 Box Prediction Network Candidate Generation Layer: 为了进一步减少计算和利用融合策略的优点,提出了CG层。对于边界框回归任务而言,背景点是无用的,因此仅使用F-FPS的点作为初始中心点。与votenet类似,这些初始中心点在其相对位置的监督下移动到其相应的实例中,得到候选点,如图2所示。然后,将候选点当做CG层的中心点,再通过预先设置的阈值从F-FPS和D-FPS的集合点中找到他们的周围点,最后采用MLP提取它们的特征,这些特征用来预测最后的3D边界框。 Anchor-free Regression Head: 对于每一个候选点,预测到对应实例的距离(dx, dy, dz)、大小(dl, dw, dl)以及方向。由于每个点都没有先验方向,因此采用F-pointnet中的方法。 3D Center-ness Assignment Strategy:(参考FCOS) 在训练的过程中,我们需要给每个候选点分配label。 在2d目标检测中,通常使用iou阈值或者mask去给每个像素分配label。在FCOS中,提出了一个连续的center-ness label,代替原始的二分类标签,以进一步区分像素,越是靠近object中心的像素,center-ness越接近于1,所得到的分数也就设置越大,即 但是由于所有的3D点云都在物体的表面,因此center-ness都非常小并且接近,不太可能从这些点得到好的预测结果。因为候选点是从F-FPS采样后再做中心回归后得到的点,靠近中心的候选点可以有更加准确的结果,所以利用候选点而非原始点云,更容易根据center-ness label轻松将object的表面的点区分开。 对于center-ness label的定义,分为2步:
最终分类的标签是Lmask和Lctrness的乘积。 5 ExperimentKITTI数据集: nuScenes数据集: |