«上一篇/Previous Article|本期目录/Table of Contents|下一篇/Next Article»

[1]冯林李琛孙焘.Robocup半场防守中的一种强化学习算法[J].计算机技术与发展,2008,(01):59-62.
　FENG Lin,LI Chen,SUN Tao.A Reinforcement Learning Method for Robocup Soccer Half Field Defense[J].,2008,(01):59-62.
点击复制

Robocup半场防守中的一种强化学习算法()

分享到：

《计算机技术与发展》[ISSN:1006-6977/CN:61-1281/TN]

卷:
期数:: 2008年01期

页码:: 59-62

栏目:: 智能、算法、系统工程

出版日期:: 1900-01-01

文章信息/Info

Title:: A Reinforcement Learning Method for Robocup Soccer Half Field Defense

文章编号:: 1673-629X（2008）01-0059-04

作者:: 冯林¹ 李琛¹; 2 孙焘¹; [1]大连理工大学[2]海军91439部队

Author(s):: FENG Lin; LI Chen; SUN Tao; [1]Dalian University of Technology[2]Navy Forces 91439

关键词:: Robocup; 强化学习; Markov对策; 零和对策

Keywords:: Robocup; reinforcement learning; Markov game; zero-sum game

分类号:: TP242.6

文献标志码:: A

摘要:: Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台，提高Agent的防守能力是一个具有挑战性的问题。为制定合理的防守策略，将Robocup比赛中的一个子任务——半场防守任务分解为多个一对一防守任务，采用了基于Markov对策的强化学习方法解决这种零和交互问题，给出了具体的学习算法。将该算法应用到3D仿真球队——大连理工大学梦之翼（Fantasia）球队，在实际比赛过程中取得了良好效果。验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论

Abstract:: Robocup soccer simulation is an excellent platform in which colhboration and counterwork among multi - agent are studied. It is a challenging problem to improve agent＇s defense ability. In order to design reasonable defending policy, decompose a subtask,

相似文献/References:

[1]汤萍萍王红兵.基于强化学习的Web服务组合[J].计算机技术与发展,2008,(03):142.
　TANG Ping-ping,WANG Hong-bing.Web Service Composition Based on Reinforcement -Learning[J].,2008,(01):142.
[2]周勇刘锋.基于改进的Q学习的RoboCup传球策略研究[J].计算机技术与发展,2008,(04):63.
　ZHOU Yong,LIU Feng.Research of RoboCup Pass Strategy Based on Improved Q- Learning[J].,2008,(01):63.
[3]王朝晖孙惠萍.图像检索中IRRL模型研究[J].计算机技术与发展,2008,(12):35.
　WANG Zhao-hui,SUN Hui-ping.Research of IRRL Model in Image Retrieval[J].,2008,(01):35.
[4]林联明王浩王一雄.基于神经网络的Sarsa强化学习算法[J].计算机技术与发展,2006,(01):30.
　LIN Lian-ming,WANG Hao,WANG Yi-xiong.Sarsa Reinforcement Learning Algorithm Based on Neural Networks[J].,2006,(01):30.
[5]刘亮李龙澍.基于势能场模型的RoboCup进攻策略[J].计算机技术与发展,2006,(02):142.
　LIU Liang,LI Long-shu.An Offensive Strategy Based on Potential Field in RoboCup[J].,2006,(01):142.
[6]余斌徐怡李龙澍李学俊.Multi-Agent层次协作模型在RoboCup中的应用[J].计算机技术与发展,2006,(06):180.
　YU Bin,XU Yi,LI Long-shu,et al.Application of Multi - Agent Layered Collaboration Model in RoboCup Simulation Match[J].,2006,(01):180.
[7]朱明陈万米宋鑫坤陈通銮.受限视野下仿真类人机器人头部控制研究[J].计算机技术与发展,2010,(09):10.
　ZHU Ming,CHEN Wan-mi,SONG Xin-kun,et al.Research on Head Control of Humanoid Soccer Robot with Restricted View Field[J].,2010,(01):10.
[8]农汉琦,孙蕴琪,黄洁,等.基于机器学习的认知无线网络优化策略[J].计算机技术与发展,2020,30(05):125.[doi:10. 3969 / j. issn. 1673-629X. 2020. 05. 024]
　NONG Han-qi,SUN Yun-qi,HUANG Jie,et al.Optimization Strategy of Cognitive Radio Network Based on Machine Learning[J].,2020,30(01):125.[doi:10. 3969 / j. issn. 1673-629X. 2020. 05. 024]
[9]雷莹,许道云.一种合作 Markov 决策系统[J].计算机技术与发展,2020,30(12):8.[doi:10. 3969 / j. issn. 1673-629X. 2020. 12. 002]
　LEI Ying,XU Dao-yun.A Cooperation Markov Decision Process System[J].,2020,30(01):8.[doi:10. 3969 / j. issn. 1673-629X. 2020. 12. 002]
[10]彭云建,梁进.基于探索-利用权衡优化的 Q 学习路径规划[J].计算机技术与发展,2022,32(04):1.[doi:10. 3969 / j. issn. 1673-629X. 2022. 04. 001]
　PENG Yun-jian,LIANG Jin.Q-learning Path Planning Based on Exploration / Exploitation Tradeoff Optimization[J].,2022,32(01):1.[doi:10. 3969 / j. issn. 1673-629X. 2022. 04. 001]

备注/Memo

备注/Memo:: 国家自然科学基金（50575031）冯林（1969-），男，博士，教授，研究方向为图像压缩、配准及融合、演化算法

常用功能

工具/Tools

统计/Statistics

摘要浏览/Viewed853
全文下载/Downloads428
评论/Comments

更新日期/Last Update: 1900-01-01