常规的深度强化学习模型训练方式从“ 零” 开始,其起始策略为随机初始化,这将导致智能体在训练前期阶段探索效率低、样本学习率低,网络难以收敛,该阶段也被称为冷启动过程。 为解决冷启动问题,目前大多数工作使用两阶段深度强化学习训练方式;但是使用这种方式的智能体由模仿学习过渡至深度强化学习阶段后可能会出现遗忘演示动作的情况,表现为性能和回报突然性回落。 因此,该文提出一种带 Q 网络过滤的两阶段 TD3 深度强化学习方法。 首先,通过收集专家演示数据,使用模仿学习-行为克
隆以及 TD3 模型 Q 网络更新公式分别对 Actor 网络与 Critic 网络进行预训练工作;进一步地,为避免预训练后的 Actor 网络在策略梯度更新时误选择估值过高的演示数据集之外动作,从而遗忘演示动作,提出 Q 网络过滤算法,过滤掉预训练 Critic 网络中过高估值的演示数据集之外的动作估值,保持演示动作为最高估值动作,有效缓解遗忘现象。 在 Deep Mind 提供的 Mujoco 机器人仿真平台中进行实验,验证了所提算法的有效性。