科技前沿信息强化学习代理的逆向课程生成

xhjyxxw

2024-07-17 帮助0人

知行礼动

大家好，今日小经来聊聊一篇关于科技前沿信息：强化学习代理的逆向课程生成的文章，现在让我们往下看看吧！

强化学习(RL)是一种强大的技术，能够解决复杂的任务，如运动，Atari游戏，赛车游戏和机器人操作任务，所有这些都通过训练代理来优化奖励功能的行为。然而，有许多任务，很难设计一个易于训练并且一旦优化就产生所需行为的奖励功能。

假设我们想要一个机器人手臂来学习如何将戒指放在钉子上。最自然的奖励功能是代理在期望的最终配置中获得1的奖励，在其他任何地方获得0。然而，这项任务所需的动作 - 将钉子顶部的环对齐然后将其滑到底部 - 在这样的二元奖励下学习是不切实际的，因为通常随机探究我们的初始政策是不可能的。达到目标，如视频1a所示。或者，人们可以尝试塑造奖励功能以潜在地缓解这个问题，但找到良好的塑造需要相当多的专业知识和实验。例如，直接最小化环的中心和挂钉底部之间的距离导致不成功的策略将环撞击挂钉，如视频1b中所示。我们提出了一种方法，通过在起始位置自动生成课程，在不修改奖励功能的情况下有效学习。

课程而不是奖励塑造

我们希翼训练代理人从任何起始位置到达目标，而无需专家来制定奖励。显然，并非所有起始位置都同样困难。特殊是，即使是靠近目标放置的随机代理也能够在某些时间到达目标，获得奖励，从而开始学习!然后可以引导这种获得的知识以从远离目标开始解决任务。通过选择我们在培训中使用的起始位置的顺序，我们可以利用这个问题的基础结构并提高学习效率。该技术的一个关键优势是不会修改奖励功能并且直接优化稀疏奖励不太容易产生不希翼的行为。订购一组要学习的相关任务称为课程学习，对我们来说，一个核心问题是如何选择此任务排序。我们的方法，我们在下面更详细地解释，使用学习代理的性能自动生成从目标开始并向外扩展的任务课程。

逆向课程直觉

以目标为导向任务的目的是从任何开始状态达到所需的配置。例如，在上面介绍的ring-on-peg任务中，我们希翼从任何配置开始将环放在挂钉上。从大多数起始位置来看，我们最初政策的随机探究从未达到目标，因此没有得到任何奖励。然而，在视频2a中可以看到，如果随机策略从附近位置初始化，则随机策略如何可能到达挂钩的底部。然后，一旦我们学会了如何从目标周围达到目标，那么从更远的地方学习会更容易，因为如果探究性行动在目标附近驱动其状态，则代理人已经知道如何继续进行，如在视频2b中那样。最终，代理成功学会从各种起始位置到达目标，如视频2c。

这种反向学习或从目标向外扩展的方法从动态规划方法中吸收灵感，其中使用更容易的子问题的解决方案来计算更难解决问题的解决方案。

开始中级难度(SoID)

为了实现这种反向课程，我们需要确保这种向外扩展以适当的速度为学习代理发生。换句话说，我们希翼在数学上描述一组跟踪当前代理性能的启动，并为我们的强化学习算法提供良好的学习信号。特殊是我们关注的是Policy Gradient算法，它通过在总预期回报的估量梯度方向上采取步骤来改进参数化策略。该梯度估量通常是原始REINFORCE的变化，其通过从状态开始收集个策略轨迹来估量。ñ{ τ一世（一代）（一代）}i = 1 .. N.{ s一世（一代）（一代）0}i = 1 .. N.

∇θη= 1ñΣi = 1ñ∇θ日志πθ(τ一世（一代）（一代）)[ R (τ一世（一代）（一代），s一世（一代）（一代）0)- R (π一世（一代）（一代），s一世（一代）（一代）0)](1 )

在面向目标的任务中，轨迹奖励是二进制的，指示代理是否达到目标。因此，如果从开始执行当前策略，则通常的基线估量到达目标的概率。因此，我们从Eq。(1)对应于从具有成功概率0或1的开始收集的轨迹的和的项将消逝。这些是“浪费”的轨迹，因为它们对梯度的估量没有贡献 - 它们太硬或太容易。我们之前关于多任务RL的工作已经引入了类似的分析R (τ一世（一代）（一代），s一世（一代）（一代）0)R (π一世（一代）（一代），s一世（一代）（一代）0)πθ小号一世（一代）（一代）0小号一世（一代）（一代）0。在这种情况下，为了幸免从当前策略永远不会达到目标或已经掌握目标的开始进行训练，我们引入了“中间难度开始”(SoID)的概念，它们是满足以下条件的起始状态：小号0

小号0：R米我Ñ< R (π一世（一代）（一代），s一世（一代）（一代）0)< Rm a x(2 )

的值，并具有最低的成功概率从开始和最大的成功概率之上，我们更情愿把重点从其他训练开始接受训练的简单解释。在我们所有的实验中，我们使用了10%和90%。[R米我Ñ[Rm a x

自动生成逆向课程

从上述直觉和推导出发，我们希翼从SoID状态开始训练我们的策略。不幸的是，找到完全满足Eq的所有开始。(2)在每个政策更新都是难以处理的，因此我们引入了一个有效的近似值来自动生成这个反向课程：我们对在上一次迭代期间估量为SoID的起点附近的状态进行抽样。为此，我们提出了一种方法，使用在上次训练迭代期间收集的轨迹过滤掉非SoID开始，然后对附近的状态进行采样。

这篇好文章是转载于：知行礼动