数据挖掘技术在传统文学中的应用的文献综述
摘要:随着数据挖掘技术的应用领域的拓展,其技术特点和优势也得到充分的利用,本课题将数据挖掘技术用于传统文学的人物关系的挖掘,探讨合理的人物表述、关系分析以方法及挖掘算法,本文将简述命名实体识别技术、自然语言处理技术、深度学习和数据挖掘技术的研究概况、存在的不足以及在本课题中可能的应用。
关键词:命名实体识别;数据挖掘;自然语言处理;深度学习;
引言
近年来,数据挖掘和文本挖掘技术已被广泛用于分析半结构化和非结构化的复杂数据,因为它们可以发现隐藏在数据中的关系和规则。哈佛大学知名学者提出: “这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”针对这样的一个变化,大数据时代最大的转变就是,放弃对因果关系的渴求,取而代之的是关注相关关系[1]。通过知识挖掘处理,展现给读者的文献资源不再是一个点对点的结果表示,而是揭示各信息资源关联关系的立体知识体系。
本文分析了近几年对于数据挖掘的研究进展,并讨论了命名实体识别技术、自然语言处理技术、深度学习在数据挖掘领域的研究方向。本文的第2节讨论了数据挖掘的研究方向;本文的第3节介绍了相关技术的研究现状;本文的第4节讨论了本领域研究中存在的的不足,并进行了展望。
研究现状
由于近年来的数据挖掘技术的应用主要依靠实体识别技术、自然语言处理技术、深度学习来解决问题,接下来我将简述数据挖掘技术、命名实体识别技术、自然语言处理技术、深度学习的研究概况。
数据挖掘技术
数据挖掘指从数据库的大量数据中通过算法揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘已被广泛用于分析问卷和审查数据。诸如关联分析和聚类分析之类的数据挖掘技术可用于市场营销分析,因为它们可以发现隐藏在巨大数值数据中的关系和规则。2017年,Tomoya Matsumoto提出一种可以同时处理数字和文本数据以进行数据分析的系统。也就是说,将使用R的数据挖掘工具嵌入到文本挖掘系统TETDM [2],即文本数据挖掘的总体环境中。我们可以在独特的框架中使用数字和文本分析工具来迭代数据收缩和数据分析。根据实验结果,使用拟定系统的用户可能已经提出了具体的想法。[3]
命名实体识别技术
命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是信息提取的一个子任务,主要识别出具有特定意义的实体[4],如人员、组织、位置、时间表达式、数量、货币值、百分比等。已经创建了使用基于语言语法的技术以及机器学习等统计模型的NER系统[5]。
命名实体识别研究发展到现在,其方法可分为三大类:基于规则的方法、基于统计的方法以及规则和统计相结合的方法。基于规则的方法是早期常用的自然语言处理方法,在 MUC-6 和 MUC-7 中实体识别任务很多都是通过这种方法解决的。基于统计的方法是目前比较常用的自然语言处理方法,常用的统计方法有决策树、支持向量机、隐马尔科夫模型、最大熵模型和条件随机场等。现在基于统计方法的命名实体抽取工具有斯坦福的自然语言处理工具和哈工大的语言技术平台等,前者是基于条件随机场模型,后者是基于最大熵模型[6]。
