[1]冯林 李琛 孙焘.Robocup半场防守中的一种强化学习算法[J].计算机技术与发展,2008,(01):59-62.
 FENG Lin,LI Chen,SUN Tao.A Reinforcement Learning Method for Robocup Soccer Half Field Defense[J].,2008,(01):59-62.
点击复制

Robocup半场防守中的一种强化学习算法()
分享到:

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:
2008年01期
页码:
59-62
栏目:
智能、算法、系统工程
出版日期:
1900-01-01

文章信息/Info

Title:
A Reinforcement Learning Method for Robocup Soccer Half Field Defense
文章编号:
1673-629X(2008)01-0059-04
作者:
冯林1 李琛12 孙焘1
[1]大连理工大学[2]海军91439部队
Author(s):
FENG Lin LI Chen SUN Tao
[1]Dalian University of Technology[2]Navy Forces 91439
关键词:
Robocup强化学习Markov对策零和对策
Keywords:
Robocup reinforcement learning Markov game zero-sum game
分类号:
TP242.6
文献标志码:
A
摘要:
Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题。为制定合理的防守策略,将Robocup比赛中的一个子任务——半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法。将该算法应用到3D仿真球队——大连理工大学梦之翼(Fantasia)球队,在实际比赛过程中取得了良好效果。验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论
Abstract:
Robocup soccer simulation is an excellent platform in which colhboration and counterwork among multi - agent are studied. It is a challenging problem to improve agent's defense ability. In order to design reasonable defending policy, decompose a subtask,

相似文献/References:

[1]汤萍萍 王红兵.基于强化学习的Web服务组合[J].计算机技术与发展,2008,(03):142.
 TANG Ping-ping,WANG Hong-bing.Web Service Composition Based on Reinforcement -Learning[J].,2008,(01):142.
[2]周勇 刘锋.基于改进的Q学习的RoboCup传球策略研究[J].计算机技术与发展,2008,(04):63.
 ZHOU Yong,LIU Feng.Research of RoboCup Pass Strategy Based on Improved Q- Learning[J].,2008,(01):63.
[3]王朝晖 孙惠萍.图像检索中IRRL模型研究[J].计算机技术与发展,2008,(12):35.
 WANG Zhao-hui,SUN Hui-ping.Research of IRRL Model in Image Retrieval[J].,2008,(01):35.
[4]林联明 王浩 王一雄.基于神经网络的Sarsa强化学习算法[J].计算机技术与发展,2006,(01):30.
 LIN Lian-ming,WANG Hao,WANG Yi-xiong.Sarsa Reinforcement Learning Algorithm Based on Neural Networks[J].,2006,(01):30.
[5]刘亮 李龙澍.基于势能场模型的RoboCup进攻策略[J].计算机技术与发展,2006,(02):142.
 LIU Liang,LI Long-shu.An Offensive Strategy Based on Potential Field in RoboCup[J].,2006,(01):142.
[6]余斌 徐怡 李龙澍 李学俊.Multi-Agent层次协作模型在RoboCup中的应用[J].计算机技术与发展,2006,(06):180.
 YU Bin,XU Yi,LI Long-shu,et al.Application of Multi - Agent Layered Collaboration Model in RoboCup Simulation Match[J].,2006,(01):180.
[7]朱明 陈万米 宋鑫坤 陈通銮.受限视野下仿真类人机器人头部控制研究[J].计算机技术与发展,2010,(09):10.
 ZHU Ming,CHEN Wan-mi,SONG Xin-kun,et al.Research on Head Control of Humanoid Soccer Robot with Restricted View Field[J].,2010,(01):10.
[8]农汉琦,孙蕴琪,黄 洁,等.基于机器学习的认知无线网络优化策略[J].计算机技术与发展,2020,30(05):125.[doi:10. 3969 / j. issn. 1673-629X. 2020. 05. 024]
 NONG Han-qi,SUN Yun-qi,HUANG Jie,et al.Optimization Strategy of Cognitive Radio Network Based on Machine Learning[J].,2020,30(01):125.[doi:10. 3969 / j. issn. 1673-629X. 2020. 05. 024]
[9]雷 莹,许道云.一种合作 Markov 决策系统[J].计算机技术与发展,2020,30(12):8.[doi:10. 3969 / j. issn. 1673-629X. 2020. 12. 002]
 LEI Ying,XU Dao-yun.A Cooperation Markov Decision Process System[J].,2020,30(01):8.[doi:10. 3969 / j. issn. 1673-629X. 2020. 12. 002]
[10]彭云建,梁 进.基于探索-利用权衡优化的 Q 学习路径规划[J].计算机技术与发展,2022,32(04):1.[doi:10. 3969 / j. issn. 1673-629X. 2022. 04. 001]
 PENG Yun-jian,LIANG Jin.Q-learning Path Planning Based on Exploration / Exploitation Tradeoff Optimization[J].,2022,32(01):1.[doi:10. 3969 / j. issn. 1673-629X. 2022. 04. 001]

备注/Memo

备注/Memo:
国家自然科学基金(50575031)冯林(1969-),男,博士,教授,研究方向为图像压缩、配准及融合、演化算法
更新日期/Last Update: 1900-01-01