科技前沿信息从物理人类互动学习机器人目标

xhjyxxw

2024-07-17 帮助0人

知行礼动

大家好，今日小经来聊聊一篇关于科技前沿信息：从物理人类互动中学习机器人目标的文章，现在让我们往下看看吧！

人类每天都在互相交流 - 从他们马上洒下饮料时抓住某人的手，到让你的朋友轻推他们正确的方向，物理互动是一种直观的方式来传达有关个人偏好的信息以及如何正确执行任务。

那么为什么我们不能像现在这样与彼此合作呢?人与机器人之间的无缝物理交互需要很多：轻量级机器人设计，可靠的扭矩或力传感器，安全和反应操纵方案，预测人类合作者意图的能力等等!幸运的是，机器人技术在设计专门为人类开辟的个人机器人方面取得了许多进步。

但是，从一开始就考虑一下你抓住朋友的手的例子，因为他们要把他们的饮料洒掉。而不是你的朋友溢出，想象它是一个机器人。因为最先进的机器人规划和操纵算法通常假设人体干预是干扰，一旦你放开机器人，它将恢复其错误的轨迹并继续溢出饮料。这种差距的关键在于机器人如何推理物理交互：大多数机器人在交互结束后只是简单地恢复其原始行为，而不是根据人类的需要思量人为什么进行物理干预和重新规划。

我们认为机器人应该将物理人类互动视为有关他们应该如何完成任务的实用信息。我们正式将物理交互作为客观(或奖励)学习问题做出反应，并提出一种解决方案，使机器人能够根据在这些交互过程中获得的信息在执行任务时改变行为。

关于物理交互的推理：未知干扰与有意信息

领域物理人机交互(PHRI)研究，从人类和在一个共享工作空间的机器人之间的密切的物理相互作用产生的设计，操纵和规划问题。在pHRI的先前研究已经开辟出安全且响应迅速的操纵方法，以对机器人执行任务时发生的物理交互做出反应。由Hogan等人提出。人。阻抗操纵是当工作空间中有人时，沿着期望的轨迹移动机器人的最常用方法之一。使用这种操纵方法，机器人就像一个弹簧：它同意此人推动它，但在人类停止施力后移回原始的所需位置。虽然这种策略非常快并且使机器人能够安全地适应人类的力量，但机器人并没有利用这些干预来更新其对任务的理解。单独留下，机器人将继续以任何人类交互之前计划的方式执行任务。

为什么会这样?它归结为机器人对任务的知识以及它所感知的力的意义做出的假设。通常，机器人以目标函数的形式被给予其任务的概念。该目标函数对任务的不同方面的奖励进行编码，例如“在位置X处达到目标”或“在远离人员的同时靠近桌子移动”。机器人使用其目标函数来生成最能满足任务所有方面的运动：例如，机器人将在选择远离人类并靠近桌子的路径时朝向目标X移动。如果机器人的原始目标函数是正确的，那么任何物理交互都只是来自其正确路径的干扰。因此，机器人应该同意物理交互为了安全目的而扰乱它，但它会回到它计划的原始路径，因为它固执地认为它是正确的。

相反，我们认为人为干预通常是有意的，并且因为机器人做错了事而发生。虽然机器人的原始行为对于其预定义的目标函数可能是最优的，但是人为干预是必要的这一事实意味着原始目标函数不是很正确。因此，物理人类的相互作用不再是干扰，而是关于机器人真正目标应该是什么的信息性观察。考虑到这一点，我们从反向强化学习中猎取灵感(IRL)，其中机器人观察到一些行为(例如，被推离桌子)并试图判断未知的目标函数(例如，“远离桌子”)。请注意，虽然许多IRL方法专注于机器人在下次执行任务时做得更好，但我们专注于机器人正确完成当前任务。

将反应形式化为pHRI

通过我们对物理人机器人相互作用的洞察，我们可以将pHRI描述为一个动态系统，机器人不确定正确的目标函数，而人类的相互作用为它提供信息。这种形式主义定义了一大类pHRI算法，其中包括阻抗操纵等现有方法，使我们能够推导出一种新颖的在线学习方法。

我们将关注形式主义的两个部分：(1)目标函数的结构和(2)观察模型，让机器人在给定人体物理交互的同时推理目标。让机器人的状态(例如，位置和速度)成为机器人的动作(例如，它应用于其关节的扭矩)。通过施加外部扭矩，人类可以与机器人进行物理交互，并且机器人通过其动力学移动到下一个状态。Xü[RüHX˙= f(x ，你[R 你H)

机器人目标：以最小的人机交互完成任务

在pHRI中，我们希翼机器人向人类学习，但与此同时，我们不希翼通过持续的物理干预使人类负担过重。因此，我们可以为机器人写下一个目标，它可以优化完成任务并最大限度地减少所需的交互量，最终在两者之间进行权衡。

r (x ，u[R，你H; θ )= θ⊤φ (x ，u[R，你H)- | | üH| |2

这里，编码与任务相关的特征(例如，“到桌子的距离”，“到人的距离”，“到目标的距离”)并确定这些特征中的每一个的相对权重。在该函数中，封装了真正的目标 - 如果机器人确切知道如何对其任务的所有方面进行加权，那么它可以计算如何以最佳方式执行任务。但是，机器人不知道这个参数!机器人并不总是知道执行任务的正确方法，固然也不是人类首选的方式。φ (x ，u[R，你H)θθ

观察模型：从人际互动中判断出正确的目标

正如我们所说，机器人应该观察人类的行为，以判断出未知的任务目标。为了将机器人测量的直接人力与目标函数联系起来，机器人使用观察模型。在最大熵IRL的先前工作以及人类行为的认知科学模型中使用的Bolzmann分布的基础上，我们将人类的干预模型建模为近似最大化机器人在采取行动时在状态下的预期奖励。此预期奖励包括即时和未来的奖励，并由-value捕获：Xü[R 你HQ

P(你H| x ，你[R; θ )α ÈQ (x ，u[R 你H; θ )

直观地说，这个模型表明人类更可能选择物理校正，当与机器人的动作相结合时，会产生理想的(即高回报)行为。

从实时的物理人机交互中学习

就像教另一个人一样，我们期望机器人在我们与之互动时不断学习。然而，我们引入的学习框架要求机器人解决部分可观察的马尔可夫决策过程(POMDP); 不幸的是，众所周知，解决POMDP确实在计算上是最昂贵的，而且最糟糕的是难以处理。尽管如此，我们可以从这种形式主义推导出近似值，这种形式可以使机器人在人类交互时学习和行动。

为了实现这种任务学习，我们在下面总结了三个近似值：

1)从最优操纵策略的求解中分离估算真实目标。这意味着在每个时间步，机器人都会更新其对可能值的信念，然后使用新分布重新规划最佳操纵策略。θ

2)将计划与操纵分开。计算最优操纵策略意味着计算在延续状态，动作和信念空间中的每个状态采取的最佳动作。虽然在每次交互之后重新计算完整的最优策略是不可实时处理的，但我们可以实时地从当前状态重新计算最佳轨迹。这意味着机器人首先计划最佳地满足目标的当前估量的轨迹，然后使用阻抗操纵器来跟踪该轨迹。这里使用阻抗操纵为我们提供了前面描述的良好属性，人们可以在物理上修改机器人的状态，同时在交互过程中保持安全。

回忆我们的估量步骤，我们将对轨迹空间进行类似的转换并修改我们的观察模型以反映这一点：

P(你H| x ，你[R; θ )α ÈQ (x ，u[R 你H; θ )→ P(ξH| ξ[R; θ )α ÈR (ξH，ξ[R; θ )

现在，我们的观察模型仅依赖于沿着轨迹的累积奖励，这可以通过在每个时间步长处总结奖励来容易地计算。通过这种近似，在推理真实目标时，机器人只需要考虑人类首选轨迹的可能性，给定其正在执行的当前轨迹，。RξHξR

但是人类首选的轨迹是什么?机器人只能直接测量人体的力。判断人类首选轨迹是什么的一种方法是通过在整个机器人的当前轨迹中传播人的力量，。图1.基于Losey和O'Malley的先前工作建立轨迹变形，从机器人的原始轨迹开始，然后是力的应用，然后是变形产生。

这篇好文章是转载于：知行礼动