一、文献综述
(一)国内外研究现状
20世纪50年代,艾伦.图灵提议建立一个学习机器,自此机器学习正式走入了大众视野,到现在深度学习和神经网络的应用,机器学习取得了很大的进展。机器学习是人工智能的核心,是使计算机具有智能的根本途径,它的发展历程主要分为4个阶段:第一阶段是20世纪50年代中叶到60年代中叶,这个时期可以被称为“热烈时期”,主要目标是研制各类自组织和自适应系统,研究系统的执行能力,但这类机器学习的方法还远远不能满足人类的需要;第二阶段是20世纪60年代中叶到70年代中叶,这个时期叫做“冷静时期”,主要研究将各个领域的知识植入到系统里,用各种符号来表示机器语言,通过机器模拟人类学习;第三阶段是20世纪70年代中叶到80年代,这个时期被称为“复兴时期”,这个阶段完成了从学习单个概念到学习多个概念的扩展,探索不同的学习策略和学习方法,并将学习系统与各种应用很好地结合了起来;第四阶段是“蓬勃发展时期”,即20世纪80年代到现在,这是机器学习的最新阶段,融合了多学科的各种学习方法,且各种学习方法的应用范围不断扩大,与机器学习有关的学术活动也空前活跃。
近年来,机器学习领域的研究工作发展很快,机器学习已经成为了人工智能、模式识别、自然语言处理、机器视觉、大数据等多个领域的研究热点,其理论和方法被广泛应用于解决科学和工程领域的复杂问题。哈佛大学的Leslie vlliant教授,也就是2010年图灵奖的获得者,他的获奖工作就包含了建立了概率近似正确学习理论,而2011年的图灵奖获得者是加州大学洛杉矶分校的Judea Pearll教授,其主要贡献是建立了以概率统计为理论基础的人工智能方法,这些研究成果都很大程度上促进了机器学习的发展和繁荣。
如今,机器学习的研究主要分为两个方向,分别是传统机器学习的研究和大数据环境下的机器学习研究,前者主要研究学习机制,注重探索模拟人的学习机制;后者主要研究如何有效利用信息,从大量数据中获取隐藏的、有效的、可理解的知识。
传统机器学习的研究主要包括决策树、朴素贝叶斯、随机森林、人工神经网络等方面的内容。决策树是机器学习中常见的一种算法,主要有ID3算法和C4.5算法,其中C4.5算法克服了ID3算法属性偏向的问题,在一定程度上避免了“过度适合”的现象。朴素贝叶斯是机器学习中较早出现的算法,最早起源于1763年,贝叶斯统计是在20世纪50年代之后逐渐建立起来的,目前已经成为了统计学中的一个重要组成部分。随机森林是一种利用多个树分类器进行分类和预测的方法,它的发展十分迅速,已经在生物学、医学、遗传学、遥感地理科学等多个领域展开了应用性的研究。人工神经网络是一种具有非线性适应性信息处理能力的算法,可以克服传统人工智能方法对于语音识别、模式识别、非结构化信息处理等方面的缺陷。
随着大数据时代各行业对数据分析需求的持续增加,机器学习研究已经成为一种支持和服务技术,并已成为智能数据分析技术的一个重要源泉。如今是大数据的时代,随着数据产生速度的持续加快,数据量有着前所未有的增长,这使得大数据机器学习和数据挖掘等智能计算技术在大数据智能化分析处理应用中具有极其重要的作用。
(二)研究主要成果
机器学习研究的目的主要在于如何使用计算机模拟和实现人类获取知识的过程,并对已有的知识进行创新,从而提升自身处理问题的能力。机器学习的最终目的是从数据中获取知识,正是因为如今是大数据时代,人类的衣食住行都离不开数据,因此分析数据并从中找出规律已经成为了现在非常重要的研究内容。而从大量结构繁多的数据中挖掘隐藏规律,对人工操作而言是很困难的,必须与机器学习相结合,由计算机代替人去挖掘信息、获取知识。大数据的特征主要包括以下4点(4个V):数据体量巨大(volume)、数据类型繁多(variety)、 数据价值密度低(value)、有很多实时数据要求快速处理(velocity)。基于这几大特征,机器学习主要有两个研究方向,一是研究学习机制,注重探索、模拟人的学习机制;二是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。
目前机器学习主要包括基于学习策略和基于应用领域两个方面的研究内容。
