icra2022杰出论文:把自动驾驶2d图像转成鸟瞰图,模型识别准确率立-k8凯发

icra2022杰出论文:把自动驾驶2d图像转成鸟瞰图,模型识别准确率立-k8凯发

来源:techweb
发布时间:2022-07-12 08:01
字体:

对于自动驾驶中的很多任务,从上到下,地图或者鸟瞰,更容易完成由于许多自动驾驶主题仅限于地平面,因此俯视图是更实用的低维表示,对于导航来说也很理想,可以捕捉相关的障碍物和危险对于像自动驾驶这样的场景,语义分割的bev地图必须作为瞬时估计来生成,以处理自由移动的对象和只被访问一次的场景

为了从图像推断bev图,需要确定图像元素和它们在环境中的位置之间的对应关系先前的一些研究使用密集的深度图和图像分割图来指导这一转换过程,一些研究扩展了隐式深度和语义分析方法一些研究利用了摄像机的几何先验,但是没有明确地研究图像元素和bev平面之间的相互作用

在最近的一篇论文中,萨里大学的研究人员引入了注意力机制,将自动驾驶的2d图像转换为鸟瞰图,从而将模型的识别精度提高了15%这项研究在不久前结束的icra 2022会议上获得了优秀论文奖

与以往的方法不同,这项研究将bev的变换视为图像到世界的变换问题,其目标是学习图像中的垂直扫描线与bev中的极射线之间的对齐因此,这种射影几何对网络是隐含的

在比对模型上,研究者采用了transformer,一种基于注意力的序列预测结构利用它的注意力机制,研究人员清楚地模拟了图像中垂直扫描线和极bev投影之间的成对相互作用transformer非常适合于图像到bev转换的问题,因为它们可以推导出对象,深度和场景照明之间的相互依赖关系,以实现全局一致的表示

研究人员将基于transformer的对齐模型嵌入到一个端到端的学习公式中,该公式以单目图像及其固有矩阵为输入,然后预测静态和动态类的语义bev映射。

本文构建了一个架构,有助于从单目图像预测语义bev映射围绕对齐模型如下图1所示,它包含三个主要组件:一个标准的cnn主干,用于提取图像平面上的空间特征,编码器—解码器转换器将图像平面上的特征转换成bev,最后的分割网络将bev特征解码成语义图

具体来说,本研究的主要贡献是:

通过一组1d序列—序列转换从图像生成bev图像,构建了一个具有空间感知能力的有限数据转换网络,公式和语言领域的单调注意的结合表明,对于精确映射,知道图像中一个点下面是什么比它上面是什么更重要,尽管使用两者都会导致最佳性能,展示了轴向注意如何通过提供时间意识来提高绩效,并展示了在三个大规模数据集上的最新结果。实验结果

在实验中,研究者做了几个评价:把图像到bev的转换作为nuscenes数据集上的转换问题来评价其效用,在单调注意中消融回溯方向,评估长序列水平上下文的效用和极点位置信息的影响最后,将该方法与nuscenes,argoverse和lyft数据集的sota方法进行了比较

烧蚀实验

如下表2的第一部分所示,研究人员比较了软注意,俯视图像底部的单调注意和仰视图像顶部的单调注意结果表明,从图像中的一点向下看比向上看更好

沿着局部纹理线索mdashmdash这与人类试图在城市环境中确定物体距离的方式是一致的我们将使用对象与地平面相交的位置结果还表明,两个方向的观察进一步提高了准确性,并使深度推理更具鉴别力

长序列水平上下文的效用这里的图像到bev的转换是作为一组1d序列到序列的转换来执行的,所以一个问题是当整个图像被转换成bev时会发生什么考虑到生成注意图所需的二次计算时间和内存,这种方法的成本令人望而却步可是,通过将水平轴向注意力应用于图像的平面特征,可以实现使用整个图像的上下文益处伴随着图像线的轴向关注,垂直扫描线中的像素现在具有长距离水平上下文,然后,如前所述,通过在1d序列之间切换来提供长距离垂直上下文

如表2的中间部分所示,合并长序列水平上下文对模型没有好处,甚至有轻微的负面影响这说明了两点:第一,每条转换后的射线不需要输入图像整个宽度的信息,或者更准确地说,与已经通过前端体积累的上下文相比,长序列上下文并没有提供任何额外的好处这表明使用整个图像来执行变换不会将模型的精度提高到超过基线约束公式此外,引入水平轴向注意所导致的性能下降意味着很难用注意训练图像宽度序列可以看出,如果以整幅图像作为输入序列,训练起来会更加困难

极性不可知变压器与极性自适应变压器:表2的最后一部分比较了po—ag和po—ad的变体po—ag模型没有极化位置信息图像平面的po—ad包括添加到变换器编码器的极坐标编码,而对于bev平面,这些信息将被添加到解码器给任何平面添加极坐标编码都比给不可知模型添加极坐标编码更有利,动态类的增幅最大将它添加到两个平面会进一步加强这一点,但它对静态类的影响最大

与sota方法的比较

研究者将该方法与一些sota方法进行了比较如下表1所示,空间模型的性能优于当前的压缩sota方法sta—s,平均相对提高15%在更小的动态类中,提升更加显著,对公交车,货车,拖车,障碍物的检测准确率提升了35—45%

下图2中获得的定性结果也支持这一结论本文中的模型显示出更大的结构相似性和更好的形状感这种差异可以部分归因于用于压缩的全连接层:在检测小而远的对象时,大多数图像都是冗余的上下文

此外,行人等物体经常被车辆部分遮挡在这种情况下,全连通层将倾向于忽略行人,但保留车辆的语义在这里,注意力方法显示了它的优势,因为每个径向深度都可以独立地注意到图像,更深的深度可以使行人的身体可见,而之前的深度只能注意到车辆

下表3中的argoverse数据集上的结果显示了类似的模式,其中本文中的方法比pon的方法高30%。

如下表4所示,我们的方法在nuscenes和lyft上的性能优于lss和fiery 在lyft上做真实的对比是不可能的,因为它没有标准的train/val分割,也不可能获得lss所使用的分割

更多详情请参考原论文。

13.7k
ad555
- 广告服务 - 加入k8凯发 - 不良信息举报-
市场情报网 k8凯发的版权所有
备案号:
网站地图