科技前沿信息模型的神经网络动力学强化学习

xhjyxxw

2024-07-17 帮助8人

知行礼动

大家好，今日小经来聊聊一篇关于科技前沿信息：基于模型的神经网络动力学强化学习的文章，现在让我们往下看看吧！

使机器人在现实世界中自主行动是困难的。真的，真的很难。即使使用昂贵的机器人和世界级研究人员团队，机器人仍然难以在复杂的非结构化环境中自主导航和交互。

观测性到不可预测的地形和传感器故障，机器人特殊容易受到墨菲定律的影响：一切可能出错，都会出错。我们不是通过编码机器人可能遇到的每种可能情景来对抗墨菲定律，而是选择接受这种失败的可能性，并使我们的机器人能够从中学习。从经验中学习操纵策略是有利的，因为与手工设计的操纵器不同，学习操纵器可以适应和改进更多数据。因此，当浮现一切都出错的情况时，虽然机器人仍然会失败，学习的操纵器有望在下次浮现类似场景时纠正错误。为了处理现实世界中任务的复杂性，目前基于学习的方法通常使用深度神经网络，这种网络功能强大但数据效率不高：这些基于试验和错误的学习者通常会在第二次失败，并且第三次，通常是数千到数百万次。现代深度强化学习方法的样本效率低下是在现实世界中利用基于学习的方法的主要瓶颈之一。这些基于试验和错误的学习者通常仍然会失败第二次，第三次，通常是数千到数百万次。现代深度强化学习方法的样本效率低下是在现实世界中利用基于学习的方法的主要瓶颈之一。这些基于试验和错误的学习者通常仍然会失败第二次，第三次，通常是数千到数百万次。现代深度强化学习方法的样本效率低下是在现实世界中利用基于学习的方法的主要瓶颈之一。

我们向来在研究采纳神经网络进行机器人操纵的样本有效的基于学习的方法。对于复杂且接触丰富的模拟机器人以及现实世界的机器人(图1)，我们的方法能够使用从随机作用于环境中的机器人收集的数据的数分钟来学习轨迹跟踪的运动技能。在这篇博文中，我们将概述我们的方法和结果。更多细节可以在本文底部列出的研究论文中找到，包括本文的代码。

样本效率：无模型与基于模型

从经验中学习机器人技能通常属于强化学习的范畴。强化学习算法通常可以分为几类：无模型(学习策略或价值函数)和基于模型(学习动力学模型)。虽然无模型深度强化学习算法能够学习广泛的机器人技能，但它们通常具有非常高的样本复杂性，通常需要数百万个样本才干获得良好的性能，并且通常一次只能学习单个任务。尽管一些先前的工作已经将这些无模型算法用于实际操作任务，这些算法的高样本复杂性和不灵便性妨碍了它们被广泛用于学习现实世界中的运动技能。

基于模型的强化学习算法通常被认为更具样本效率。然而，为了获得良好的样本效率，这些基于模型的算法通常使用相对简单的函数逼近器，这些函数逼近器无法很好地推广到复杂的任务，或者使用概率动力学模型，如高斯过程，它很好地概括但复杂和高维域有困难，例如具有引起不延续动态的摩擦接触的系统。相反，我们使用中等大小的神经网络作为函数逼近器，可以实现出色的样本效率，同时仍然具有足够的表现力，可用于各种复杂和高维度的运动任务的泛化和应用。

基于模型的深层强化学习的神经网络动力学

在我们的工作中，我们的目标是将深度神经网络模型在其他领域中所见的成功扩展到基于模型的强化学习中。近年来将神经网络与基于模型的RL相结合的先前努力尚未实现与诸如高斯过程之类的更简单模型竞争的那种结果。例如，Gu等。人。观察到甚至线性模型在合成经验生成方面取得了更好的性能，而Heess等。人。从神经网络模型纳入无模型学习系统中获得了相对适度的收益。我们的方法依赖于一些关键决策。首先，我们在模型预测操纵框架中使用学习的神经网络模型，其中系统可以迭代地重新计算并纠正其错误。其次，我们使用相对较短的视野前瞻，这样我们就不必依赖模型来做出非常准确的预测。这两个相对简单的设计决策使我们的方法能够执行各种各样的运动任务，这些任务以前没有通过直接在原始状态观测上运行的基于模型的通用强化学习方法来证明。

我们基于模型的强化学习方法的图表如图2所示。我们维护一个迭代添加的轨迹数据集，并使用该数据集来训练我们的动力学模型。使用随机轨迹初始化数据集。然后，我们通过在使用数据集训练神经网络动力学模型和使用模型预测操纵器(MPC)与我们学习的动力学模型之间交替来执行强化学习，以收集额外的轨迹以聚合到数据集上。我们在下面讨论这两个组件。

动力学模型

我们将学习的动力学函数参数化为深度神经网络，通过需要学习的一些权重进行参数化。我们的动力学函数将当前状态和动作作为输入，并输出预测的状态差。动态模型本身可以在监督学习设置中训练，其中收集的训练数据成对输入和相应的输出标签。statst 1−st(st,at)(st 1,st)

请注意，我们上面提到的“状态”可能随代理而变化，它可能包括质心位置，质心速度，关节位置和我们选择包括的其他可测量量等元素。

调节器

为了使用学习的动力学模型来完成任务，我们需要定义一个编码任务的奖励函数。例如，标准的“x_vel”奖励可以编码前进的任务。对于跟踪轨迹的任务，我们制定奖励功能，激励靠近轨迹并沿着轨迹向前推进。

使用学习动力学模型和任务奖励功能，我们制定了一个基于模型的操纵器。在每个时间步骤，代理通过随机生成候选动作序列，使用学习的动态模型预测这些动作序列的结果，并选择与最高累积奖励相对应的序列来计划步骤(图3) 。然后，我们仅执行操作序列中的第一个操作，然后在下一个时间步骤重复计划过程。这种重新规划使得该方法对学习动力学模型中的不准确性具有鲁棒性。

这篇好文章是转载于：知行礼动