深度强化学习在视频游戏2048中的应用文献综述

 2023-09-04 08:54:44

深度强化学习算法综述

摘 要:深度强化学习是人工智能领域的一个研究热点,它将深度学习与强化学习相结合,拥有更强的感知能力,并且能够以端到端的学习方式,从原始的输入数据中学习,而无需人为进行特征提取。本文概述了基于值函数的深度强化学习方法,详细说明了深度Q网络以及其后续改进的深度强化学习网络。最后对深度强化学习的应用进行总结。

关键词:人工智能;深度强化学习;值函数

一.引言

近年来,深度学习(Deep Learning,DL)作为机器学习领域的重要研究热点,在技术实用方面迅速发展。例如在图像分类,图像实体识别,语音识别,文本翻译和社交文本情感分析等多个领域取得了极大成功。强化学习[1](Reinforcement Learning,RL)作为机器学习领域另一研究热点,在与深度学习结合后,融合为深度强化学习(Deep Reinforcement Learning,DRL)。深度强化学习通过深度神经网络的强大感知能力,能够更好的处理复杂且高维的环境数据,从而更有效的形成良好的决策过程。在2015年Google的DeepMind研究团队发明了深度Q网络[2-3](Deep Q-network,DQN),并在两年后据此研发出了AlphaGo[4],在仅从对局数据中学习的情况下,击败了围棋世界冠军李世石。表现出通过深度强化学习训练后的智能体足以媲美甚至超越人类玩家的竞技水平。

强化学习中,不会被告知应采取怎样的行动,而必须通过尝试来发现哪些行为会产生收益,在一些情境中,当前动作通常不仅仅影响当下收益,并且也会影响下一个场景,从而对最后的收益产生影响。试错和延迟收益是强化学习中两个最重要最显著的特征。强化学习与机器学习方法的不同点在于,强化学习中的训练函数是用来评估给定动作的好坏,而不是通过给出正确的动作来进行直接的指导。评估性反馈与指导性反馈不同,采取不同的动作时,前者会得到不同的反馈,而后者却能得到相同的反馈。即前者依赖于当前采取的动作,而后者不依赖。

强化学习通常使用马尔科夫决策过程,使用状态、动作和收益定义智能体与环境的交互过程。其主要包括环境状态,可采取的动作集合,产生的收益值,状态转移函数,以及折扣因子。在每个时刻,智能体与其所处环境状态之间进行交互,并且在此基础上选择一个动作。下一个时刻,智能体收到一个作为其动作结果的数值化收益,

环境通过状态转移函数对动作做出相应,并进入一个新的状态。智能体的目标是最大化其收到的总收益,策略则是从状态到每个动作的选择概率之间的映射。对于一个策略,那么就可以把策略下状态的价值函数记为,策略下在状态时采取动作的价值记为。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版