一种强化学习行动策略ε-greedy的改进方法

首页 > 成果 > 详情

认领

导出

下载 Link by 中国知网学术期刊 Link by 万方学术期刊

反馈

作者信息关键词期刊信息基础信息归属信息摘要

成果类型：

期刊论文

作者：

李琛;李茂军;杜佳佳

作者机构：

长沙理工大学电气与信息工程学院,湖南长沙,410114

[杜佳佳; 李琛; 李茂军] 长沙理工大学

语种：

中文

关键词：

强化学习;ε-greedy策略;探索与利用

关键词(英文)：

ε-greedy strategy;exploration and exploitation

期刊：

计算技术与自动化

ISSN：

1003-6199

年：

2019

卷：

期：

页码：

141-145

DOI：

10.16339/j.cnki.jsjsyzdh.201902026

机构署名：

本校为第一机构

院系归属：

电气与信息工程学院

摘要：

强化学习作为机器学习中的一种无监督式学习,在实际应用中的难点之一便是如何平衡强化学习中探索和利用之间的关系。在Q学习结合ε-greedy的基础上,提出了一种参数动态调整的策略。该策略是以学习者在学习过程中各状态下的学习状况为依据,实现参数的自适应,从而更好地平衡探索和利用之间的关系。同时,引入一种结合了试错法的动作删减机制,对备选动作集合进行"删减",来提高学习者的探索效率。最后通过迷宫问题的实验仿真,验证了所提方法的有效性。

摘要(英文)：

Reinforcement learning,as an unsupervised learning in machine learning,one of difficulties problem in practical application is how to balance the relation between exploration and exploitation. To solve this problem,a dynamic adjustment strategyof parameter basis of Q learning combined with ε-greedy strategy is presented. This strategy is based on the learning status of agent in various states of environment in the learning process,making parameter self-adaptation,to better balance the relation between exploration and exploitation.Meanwhile,an ...

反馈

产权有误：本人成果被他人认领

数据有误：数据基本信息有误

归属有误：成果的院系归属、机构署名归属有误

其他原因：

验证码：

看不清楚，换一个

确定

取消

成果认领

标题：

用户	作者	通讯作者	--
	请选择	请选择	--

确定

取消

一种强化学习行动策略ε-greedy的改进方法

反馈

成果认领

提示

该栏目需要登录且有访问权限才可以访问