基于手绘草图的三维形状检索文献综述

 2022-11-30 14:44:16

研究背景

随着数字化技术的高级发展,3D模型在我们日常生活中广泛应用于许多领域,如3D打印,医学成像和娱乐。大量的3D模型导致了对有效搜索所需3D模型的迫切需求。传统的基于文本的搜索由于两个主要原因而无法正常工作:1)只有少数3D模型可用于文本描述,这对于检索所需的3D模型来说太有限了。 2)通常很难用文本来描述复杂3D模型的非常详细的信息[1]。因此,研究人员提出了基于内容的三维模型检索框架,主要包括两个类别,基于实例的三维形状检索和基于草图的三维形状检索。基于实例的3D形状检索提供了查询的3D模型并返回类似的模型,这种方式非常简单,但是不方便,因为人们通常并不总是具有所需的3D模型查询[2]。最近,基于草图的三维形状检索越来越受到计算机视觉和计算机图形学界的关注。人类手绘草图是一种简洁,方便,有效的视觉记录和呈现人类思想的方式[3]。与基于示例的框架相比,草图更方便,更容易获得,即使是小孩也可以绘制简单而全面的草图。除此之外,草图也提供了类别信息,因为人们很容易理解简单的查询草图的类标签。而且随着电子设备(例如,触摸板移动电话)的最新发展,手绘草图正成为主流的人机交互方法之一,并且有望成为更多应用的基础[4]。

1.1研究意义

尽管基于草图的3D形状检索具有所有优点,但实际上,这是一个非常具有挑战性的问题。首先,草图和3D形状来自两种不同的形式,具有巨大的差距。从两种模态中提取的特征遵循完全不同的分布,这使得从草图查询直接检索3D形状变得非常困难。其次,草图通常很简单,只是对图形进行勾勒,包含的信息相对较少。3D形状在视觉上类似于仅从某些视角观察的查询草图。并且通常情况下,很难找到3D形状投影的“最佳视图”,使得草图和3D形状相似,这通常会使学习模型的性能退化。因此,解决草图和3D形状之间的巨大的模态差异,使人们可以直接通过草图来检索3D形状具有很明显的研究意义与实际应用价值[5]-[7]。

研究现状

国内外对基于手绘草图的三维形状检索的研究主要集中在神经网络和深度学习上,通过对中外文文献的研究,现总结以下几个方法:

  1. 跨域神经网络方法(CDNN,PCDNN)

该方法通过一种新颖的跨域神经网络(CDNN)方法解决了基于草图的3D形状检索问题,并且通过与分层的结构合作进一步扩展为金字塔跨域神经网络(PCDNN)。为了减轻草图特征和3D形状特征之间的差异,针对草图和3D形状分别训练了一对在目标层上对相同实例强制使用相同表示的神经网络对[10][11]。通过在多个金字塔等级构建跨域神经网络,在3D形状特征和从不同尺度提取的草图特征之间建立了多对一关系。该方法还评估了CDNN和PCDNN方法在扩展的大规模SHREC 2014基准测试中的有效性,并与其他一些成熟的方法进行了比较。实验结果表明,CDNN和PCDNN均表现出了较好的性能,其中PCDNN可以在采用分层结构时进一步改善CDNN [2]。

  1. 多视点卷积神经网络(Multi-view CNN)

该方法首先采用一种标准的CNN架构,该架构经过训练,可以相互独立地识别形状的渲染视图,甚至可以从单个视图直接识别3D形状。当提供形状的多个视图时,识别率进一步增加。此外,在标准的CNN架构之上提出了一种新的CNN架构[1],它将来自3D形状的多个视图的信息组合成单个且紧凑的形状描述符,从而提供更好的识别性能,可以应用相同的架构来准确地识别手绘的形状草图[5][12]。

  1. 深度相关度量学习(DCHML)

这是一种新的深度相关整体度量学习(DCHML)方法,用以减轻草图和3D形状域之间的差异。提出的DCHML联合训练两个不同的深度神经网络(每个域一个),学习两个深度的非线性变换,将两个域的特征映射到一个新的特征空间[4]。损失项包括判别性损失和相关性损失,旨在增加每个域内特征的区分以及不同域之间的相关性。在新特征空间中,优化判别性损失可以达到最小化深度变换特征的类内距离,并使深度变换特征的类间距离最大化的目的[14],而相关性损失集中于减轻跨越不同的领域的分布差异。与现有的深度度量学习方法不同,现有的方法仅在输出层有丢失,而DCHML方法在隐藏层和输出层都有对损失项的训练,以通过激励隐藏层中的特征以及所需属性来进一步改善方法性能[6][8]。

  1. 利用Wasserstein重心来进行检索和判别

该方法提出了通过学习3D形状的2D投影的重心来进行草图的3D形状检索的。具体来说,首先使用两个深度卷积神经网络(CNN)来提取草图的深层特征和3D形状的2D投影。对于3D形状,需要计算多个投影的深部特征的Wasserstein重心,以形成重心表示。最后,通过构建深度度量网络,特征空间中的三维形状和草图的Wasserstein重心之间形成判别性损失[3],以学习用于检索的判别性和紧凑性的3D形状和草图特征。该方法在SHREC 2012和SHREC 2013[15][16]草图数据集上进行评估,与最先进的方法相比也取得了较好的结果[9]。

  1. 用上下文信息填补语义鸿沟方法

该方法提出了一种基于上下文从草图构建三维场景的思路。该方法从三维场景库中学习得到一系列包含特定语义信息的结构组(如桌子周围放置四把椅子,电视对着沙发[7],床头柜置于床头两边),并利用这些语义信息来加强基于草图的三维模型协同搜索和摆放。该方法支持一次输入整个场景的草图来生成对应的三维场景模型。

参考文献:

[1]Hang Su, Subhransu Maji, Evangelos Kalogerakis, Erik G. Learned-Miller:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版