【导语】传统任务与运动规划(TAMP)系统依赖静态模型,面对新环境表现欠佳,将感知与操作融合是有效应对之道。本期NVIDIA机器人研发摘要(R²D²)探讨基于感知及GPU加速的TAMP实现远程操作,介绍提升机器人操作能力的框架,看其如何转化视觉与语言信息,还涉及OWL-TAMP、VLM-TAMP、NOD-TAMP等新方法,以及cuTAMP加速规划、Fail2Progress从故障学习等内容,助力开发者了解相关领域最新突破。
传统(tǒng)的(de)任(rèn)务(wu)与(yǔ)运(yùn)动(dòng)规(guī)划(huà)(TAMP)系(xì)统(tǒng)在(zài)机(jī)器(qì)人(rén)操(cāo)作(zuò)应(yīng)用(yòng)中(zhōng)通(tōng)常(cháng)依(yī)赖(lài)静(jìng)态(tài)模(mó)型(xíng)运(yùn)行(xíng),因(yīn)此(cǐ)在(zài)面(miàn)对(duì)新(xīn)环(huán)境(jìng)时(shí)往(wǎng)往(wǎng)表(biǎo)现(xiàn)不(bù)佳(jiā)。将(jiāng)感(gǎn)知(zhī)与(yǔ)操(cāo)作相融合,是应对这一挑战的有效途径,使机器人能够在执行过程中实时更新规划,从而适应动态变化的场景。
在本期NVIDIA 机器人研发摘要 (R²D²)中,我们探讨了如何利用基于感知的 TAMP 以及 GPU 加速的 TAMP 实现远程操作。同时,我们将介绍用于提升机器人操作能力的框架,并展示如何结合视觉与语言信息,将像素转化为子目标、任务负载以及可微分的约束条件。
子目标是较小的阶段性目标,能够引导机器人逐步达成最终目标。
Affordance 根据物体或环境的属性及其所处的上下文,描述机器人可在其上执行的动作。例如,手柄可被“抓取”,按钮可被“按压”,杯子可被“倾倒”。
在机器人运动规划中,可微分约束用于确保机器人的运动满足物理限制(zhì),如(rú)关节(jié)角(jiǎo)度(dù)范(fàn)围(wéi)、避(bì)障(zhàng)要(yào)求(qiú)或(huò)末(mò)端(duān)执(zhí)行(xíng)器(qì)的(de)位(wèi)置(zhì)精(jīng)度(dù),同(tóng)时(shí)仍(réng)支(zhī)持(chí)通(tōng)过(guò)学(xué)习(xí)进(jìn)行(xíng)调(diào)整(zhěng)。由(yóu)于(yú)这(zhè)些(xiē)约(yuē)束(shù)具(jù)备(bèi)可(kě)微(wēi)性(xìng),GPU 能够在训练或实时规划过程中高效地计算并优化它们。
任务与运动规划如何将视觉与语言信息转化为机器人的具体动作
TAMP 涉及确定机器人应执行的任务以及实现这些任务所需的移动方式,需要将高层任务规划(即执行什么任务)与底层运动规划(即如何移动以完成任务)相结合。
现代机器人能够结合视觉与语言信息(如图像和指令),将复杂任务分解为若干较小的步骤,即子目标。这些子目标有助于机器人明确下一步应执行的动作、需要交互的对象以及如何实现安全移动。
该过程利用高级模型将图像和书面指令转化为机器人可在现实世界中执行的清晰计划。远程操作需要具备结构化意图,且依赖规划人员的有效参与。接下来,我们将探讨 OWL-TAMP、VLM-TAMP 和 NOD-TAMP 如何助力解决这一问题:
OWL-TAMP:该工作流使机器人能够执行以自然语言描述的复杂、长视距操作任务,例如“将橙色物体放到桌子上”。OWL-TAMP 是一种混合式工作流,将视觉语言模型(VLM)与任务与运动规划(TAMP)相结合。其中,VLM 根据开放世界语言(OWL)指令生成约束条件,描述机器人动作空间中的操作要求。这些(xiē)约(yuē)束(shù)被(bèi)整(zhěng)合(hé)进(jìn) TAMP 系(xì)统(tǒng),并(bìng)通(tōng)过(guò)仿(fǎng)真(zhēn)反(fǎn)馈(kuì)机(jī)制(zhì)验(yàn)证(zhèng)其(qí)物(wù)理(lǐ)可(kě)行(xíng)性(xìng)和(hé)执(zhí)行(xíng)正(zhèng)确(què)性(xìng)。
VLM-TAMP:这(zhè)是(shì)一(yī)种(zhǒng)面向视觉信息丰富环境的机器人多步骤任务规划工作流。VLM-TAMP 将视觉语言模型与传统 TAMP 框架融合,能够在现实场景中生成并优化高层行动计划。该方法利用 VLM 解析图像内容,并结合任务指令(如“做一锅鸡汤”)生成初步的高级任务规划。随后,通过仿真验证和运动规划进行迭代优化,以确保每一步操作的可行性。在涉及 30 至 50 个连续动作、并操作多达 21 个不同物体的长视距厨房任务中,该混合方法的表现优于纯 VLM 或纯 TAMP 的基准方案。该工作流使机器人能够综合利用视觉与语言上下文信息,有效应对任务描述中的模糊性,从而提升在复杂操作任务中(zhōng)的(de)整(zhěng)体(tǐ)性(xìng)能(néng)。

图(tú)1展(zhǎn)示(shì)了(le)VLM-TAMP如(rú)何(hé)克(kè)服(fú)单(dān)独(dú)使(shǐ)用(yòng)TAMP或(huò)仅(jǐn)依(yī)赖(lài)VLM进(jìn)行(xíng)任(rèn)务(wu)与(yǔ)运(yùn)动(dòng)规(guī)划(huà)在(zài)解(jiě)决(jué)长(zhǎng)视(shì)距(jù)机(jī)器(qì)人(rén)操(cāo)作(zuò)问(wèn)题(tí)时(shí)所(suǒ)面(miàn)临(lín)的(de)局限性。
NOD-TAMP: 传统的TAMP框架在处理长视距操作任务时通常难以实现泛化,因其依赖于显式的几何模型和对象表示。NOD-TAMP通过引入神经对象描述符(NOD)来提升对不同对象类型的泛化能力。NOD是一种基于3D激光点云学习得到的表示形式,能够编码物体的空间特征与关系属性。该方法使机器人能够与新对象有效交互,并支持规划器进行动态的操作调整。
cuTAMP 如何利用 GPU 并行化加速机器人规划
经典 TAMP 首先分析任务的动作结构(称为计划骨架),再求解相应的连续变量。第二步通常是系统的计算瓶颈,而cuTAMP显著加速了这一过程。对于cuTAMP中给定的计划骨架,系统会采样数千个初始解(粒子),随后在 GPU 上执行可微分的批量优化,以满足多种约束条件,例如逆运动学、避障、稳定性以及目标函数成本。
如果框架不可行,算法会进行回溯;如果可行,则会生成一个计划。对于受限的打包或堆叠任务,该过程通常在几秒钟内完成,使机器人能够在几秒内找到包装、堆叠或操作多个物体的解决方案,而无需花费几分钟甚至几小时。
“矢量化满意度”是实现在现实应用场景中长期解决问题的关键。

图(tú)2展(zhǎn)示(shì)了(le)cuTAMP如(rú)何(hé)将(jiāng)TAMP帧(zhèng)化(huà)为(wèi)一(yī)种(zhǒng)回(huí)溯(sù)式(shì)的(de)双(shuāng)层(céng)搜(sōu)索(suǒ),以(yǐ)优(yōu)化(huà)计(jì)划(huà)骨(gǔ)架(jià)。
机(jī)器(qì)人(rén)如(rú)何(hé)利(lì)用(yòng)Stein变(biàn)分(fēn)推(tuī)断(duàn)从(cóng)故(gù)障(zhàng)中(zhōng)学(xué)习(xí)
长(zhǎng)距(jù)操作模型在面对训练过程中未曾遇到的新条件时,可能会出现失效。Fail2Progress是一种使机器人能够从自身失败中学习并持续改进操作能力的框架。该框架通过数据驱动的校正与基于仿真的优化,将实际发生的故障整合进技能模型中。为了增强模型的鲁棒性,Fail2Progress 利用 Stein 变分推断生成与观测到的故障相似的定向合成数据集,从而有效提升模型对异常情况的适应能力。
然后,这些生成的数据集可用于(yú)微(wēi)调(diào)并(bìng)重(zhòng)新(xīn)调(diào)整(zhěng)技(jì)能(néng)效(xiào)果(guǒ)模(mó)型(xíng),从(cóng)而(ér)降(jiàng)低(dī)长(zhǎng)视(shì)野(yě)任(rèn)务(wu)中(zhōng)相(xiāng)同(tóng)故(gù)障(zhàng)重(zhòng)复(fù)发(fā)生(shēng)的(de)次(cì)数(shù)。
入(rù)门(mén)指(zhǐ)南
在这篇博客中,我们探讨了基于感知的TAMP、GPU加速的TAMP,以及用于机器人操作的基于仿真的优化框架。我们分析了传统TAMP中常见的挑战,并介绍了这些研究工作为应对这些挑战所提出的方法与思路。
本文是NVIDIA 机器人研发摘要(R²D²)系列的一部分,旨在帮助开发者深入了解NVIDIA Research在物理 AI 与机器人应用领域的最新突破。