文 献 综 述
随着互联网和移动技术的发展与普及,微信群、QQ群等实时交互、多方参与的即时通讯工具,已逐步取代传统的在线聊天室和网络论坛成为人们发布、传播、获取各种相关信息的重要来源,这类互联网群组也成为各公司、机构或行业领域发布、传达、研讨信息的重要平台。由于QQ群比微信群容纳人数更多,群功能更丰富,所以一些大型的电商推广群、明星粉丝群和行业交流群等更倾向于使用QQ群。但是,由于有限时间内文字承载的信息量很小且容易无序,所以当群组活跃度较高时,会产生大量的聊天信息,群成员往往会淹没在信息的海洋中而错失自己感兴趣和有价值的信息。因此,通过对具有在线群体讨论功能的互联网群组聊天信息的处理,从而发现话题、跟踪话题、进行主题聚合对于挖掘这种非正式信息交流中产生的信息中的知识具有重要的意义。
1.话题识别研究
1.1话题识别定义及主要工作
话题识别与跟踪[1](topic detection and tracking,TDT)起源于早期面向事件的监测与跟踪,是一项对信息流进行新话题的自动识别和已知话题的持续跟踪,旨在帮助人们面对日益严重的互联网信息爆炸问题。
话题识别与跟踪基本思想源于1996年,应美国国防高级研究计划委员会的要求,诸多研究者开始定义话题识别与跟踪研究的内容,这些初始研究及评测后来被命名为TDT1997或TDT pilot。从1996年下半年到1997年进行的TDT初始研究把研究问题以易于处理和能够评测的方式确定下来。从1998年到2002年,已经成功举办过5次大型的TDT系列评测会议。TDT系列评测过程中共建立了四个可用于话题识别与跟踪研究的语料库:TDT-1 或TDT-polit 用于TDT 1997 的评测;TDT-2用于TDT-1998的评测 ;TDT-3用 于TDT-1999、2000及2001 的评测;TDT-4 用于TDT-2002 的评测。通过持续的大规模评测,话题识别和跟踪研究已经成为自然语言处理领域尤其是信息检索领域的一个研究热点。
1.2话题识别研究现状
话题识别研究最初以新闻文本、论坛等为研究对象,以事件跟踪为目的,侧重算法研究。于满泉等[2]根据事件的特点,提出话题识别与跟踪中的层次化话题识别技术研究,基于有向无环图生成算法(MLCS),对话题进行层次化组织,以解决单粒度话题的识别,然后提出了,对话题进行层次化组织。
由于传统的话题发现研究主要针对于长文本及新闻数据集,而大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题。韩忠明等[3]针对大规模短文本的快速话题发现需求,提出了一个融合词共现与加GN(CW-WGN) 算法的快速话题发现方法,从而有效地从实际大规模短文本上发现话题。
2.主题聚合研究现状
Web 2.0环境下, 越来越多且越来越 “碎片”化的信息分散了人们的注意力,人们迫切需要将“信息碎片”和分散的注意力聚合起,寻找有用的知识信息。文献【4】研究分析了现阶段图书馆海量信息资源的聚合方式,国内该领域的应用状况,以及用户体验的理论与实践研究现状,提出一种web3.0环境下的信息聚合模式与资源组织原则——网络切片。以 Web Slice 与 Accelerators为技术切入点,从理论和实践上全面阐述了其可能性,并提供一种全新的用户体验实践。基于网络切片的图书馆信息资源推广与利用,提供给读者一个快速访问信息的途径,对于资源的利用更加充分,对于信息资源的聚合方式与用户体验评价都是一个全新的挑战。
近些年,微博作为热门的新媒体,产生了巨大的信息量,大量研究者试图从微博集合中挖掘有效的信息。研究者通常根据语义的不同,划分为面向事实的信息聚合,如微博话题关键词;面向观点的信息聚合。严平勇[5]在2013年提出通过基于关键词抽取技术,研究出基于微博文本的灾害信息聚合方法,实现了灾害信息的空间聚合。
LDA是一个三层贝叶斯概率模型,包含词、主题、文档三层结构。LDA模型认为,每个文档均由多个主题混合,而每个主题是固定词表上的一个多项式分布,文档到主题服从Dirichlet分布,主题到词服从多项式分布。因此,LDA主题模型将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。以LDA为基础可研究多种主题聚合模型。如王振振[6]提出的基于LDA主题模型的文本相似度计算模型,王鹏[7]提出的基于LDA模型的文本聚类模型,以及胡吉明[8]等人提出的基于动态LDA主题模型的内容主题挖掘与演化模型等。
3 在线群体讨论相关方法研究
3.1在线群体讨论概述
随着互联网技术的诞生和迅速发展,人们进入了目前仍在迅猛发展的在线社时代交网络。在 Web 2.0 时代,博客、微博、网络论坛、维基百科、腾讯QQ、微信等在线交友网站等各类型在线社交网络应用如同雨后春笋般不断涌现和迅猛发展,在线社交网络的出现改变了传统的信息交流方式,成为日常生活中获取、传播信息的主要平台。在多学科融合的背景下,在线社交网络已经逐渐成为学术研究的热点之一。
