多模态三维点云分析与理解文献综述

 2023-08-11 10:24:19
  1. 文献综述(或调研报告):

3.1 点云

点云是空间中数据点的集合。对于特定场景来说,点云是场景中物体表面采样得到的三维点集。最简单的点云表现形式为这些点的XYZ坐标,其他的一些信息比如反射强度、物体表面法向量等也可能被包含。点云是三维世界的简单表现形式,在机器人、无人驾驶、虚拟现实等领域有着重要作用。

在过去的几年当中,点云的特征被手动提取用在一些视觉任务中[1]。这些特征的提取不需要大量的训练数据,但也由于点云数据的缺乏而很少被用到。随着科技的发展,一些设备得以普及,带来了大量的点云数据,利用深度学习处理点云成为可能。由于点云数据天然存在稀疏性、无序性、非结构化等特点[2],利用深度学习技术处理点云数据存在比较大的挑战。

3.2 基于结构化网格的学习

得益于数据量和算力的增加,深度学习在许多领域取得了成果,其中比较令人瞩目的就是卷积神经网络在图像等规则数据中的应用。深度学习中的卷积操作需要结构化的网格,然而点云数据是非结构化的。许多方法尝试将点云数据转化到规则的形式进行操作。

基于体素(voxel)的方法[3, 4, 5]对点云数据进行划分,转化为一个大小为的体素结构,并使用的卷积核进行卷积操作。这种方法中包含两个重要的步骤:线下的预处理和线上的学习。线下的方法将点云转化为固定尺寸的体素,在文献[6]中使用二值的体素表示,在文献[5]中体素用来存储该处对应的面元的法向量,用以提高判别能力。在线操作即学习阶段,设计相应的卷积神经网络进行处理。文献[6]提出将三维形状在三维体素中表示为二值的概率分布,首次提出3D卷积神经网络的技术。基于体素的方法取得了比较好的结果,然而由于点云数据天然的稀疏性,在对那些没有点的体素进行卷积时,会造成较大的计算浪费。并且由于内存的限制,我们在进行体素化时的分辨率收到较大的限制,从而导致了较多的信息损失。虽然[7, 8]提出了一些自适应的表示,尝试去克服体素化带来的问题,但是分辨率仍然被限制在256分辨率的体素划分。

基于多视角(multi-view)的方法[9]充分利用已经成熟的二维卷积神经网络。图像是三维空间在二维的表示,于是[9]尝试将点云数据转化为多个视角下的一系列图片,对物体进行识别并且取得了当时最好的结果。基于多视角的方法相对于基于体素的方法有着比较好的效果,原因主要有两个:1)他们使用了已经很成熟的二维上的技术;2)多视角图片包含了更丰富的信息,没有像体素化带来量化的误差。

此外,还有基于更高维点阵(higher dimensional lattices)的方法[10]直接对点云进行处理,然而它主要的特征学习操作是利用双边卷积层将这些无序点的特征转化到一个六维的四面体晶格中,然后再利用相似的卷积核进行卷积操作。

3.3 深度学习直接处理点云数据

直接处理点云的算法PointNet[11]在2017被提出,之后引起了许多的关注。之后许多基于其中思想的算法相继被提出,并都取得了越来越好的结果。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版