推荐|GRAPE——RLAIF微调VLA模型：通过偏好对齐提升机器人策略的泛化能力(含24年具身模型汇总)

前言 24年具身前沿模型大汇总

过去的这两年，工作之余，我狂写大模型与具身的文章，加之具身大火，每周都有各种朋友通过CSDN私我及我司「七月在线」寻求帮助/指导(当然，也欢迎各大开发团队与我司合作共同交付）：

要么是做科研想复现
要么是工厂想做自动化生产线的智能升级
要么是想通过机械臂/人形解决各种业务场景问题

让我感慨：二零一一年，因为算法，首次有「天下无人不识君」的感觉，过去这两年，因为大模型和具身机器人，再次有了这感觉

具身的论文解读过很多之后，便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看，且所有点我都做了详尽而细致的解读，点击下表中对应的文字即可阅读，我后续也会不断完善之——毕竟还有很多并未囊括于下表中，如转载请于文章开头标明作者July及本文链接」

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第五大块借鉴大语言模型的发展之路	预训练-微调模式中把模型搞大	需要架构、数据双双具备	RDT、π0
	把RLHF引入近具身	通过偏好对齐提升机器人策略的泛化能力	GRAPE
	把CoT引入具身	让具身模型学会逐步推理	ECoT
	让视觉语言模型来打辅助	基于VLM模型GPT-4o和关系关键点约束	ReKep
		VLM解释人类演示视频，并为机器人生成任务计划、代码	纽约大学：VLM See, Robot Do
		结合「GPT4V的open-world vision能力」和重定向	OKAMI
第四大块 Robotics VLM和VLA中的动作预测	专门的action head	基于LSTM	Robotics VLM：字节RoboFlamingo
		基于diffusion model	Robotics VLM：Octo
		基于diffusion model	VLA：TinyVLA(diffusion-based head)
		基于流匹配	VLA：π0 (流匹配微调VLM)
		基于Diffusion Transformer(DiT)	VLA：CogACT(相比Octo的头更大)
	基于下一个token预测技术预测动作token	对于离散化token动作表示，即指将机器人的每个动作维度分别离散化为 256 个箱子中的一个	VLA：RT-2、OpenVLA(相当于RT-2开源版)
第三大块模型训练方法	预训练的VLA	先对VLM基于机器人数据(开源OXE + 自采，或只开源OXE)做二次预训练(模仿人类)变成VLA，再真实环境中微调VLA	1 π0：先在高度多样化的开源 + 自采机器人数据上进行预训练——变成了相比不二次预训练情况下更强大的VLA，然后针对所需任务进行微调
	预训练的VLA		2 RT2和OpenVLA：只在开源OXE上做的预训练
	*不用预训练的VLA*	其考虑到预训练成本较高	TinyVLA
	预训练的Robotics VLM	针对VLM的二次预训练，通过开源OXE训练VLM变成Robotics VLM	Octo：在Open X-Embodiment数据集上进行预训练
	*不预训练的*Robotics VLM	没有针对VLM的二次预训练，而是直接机器人数据微调VLM变成Robotics VLM	字节RoboFlamingo：使用简单、少量的微调就可以把 VLM 变成 Robotics VLM
	*直接真实环境中RL开训，摒弃仿真*	真实环境中得到的RL数据微调VLM + 机器人动作微调：RL训练运行创建的数据集，可以用于二次训练，代替人类提供的例子(效果如何待验证)	UC伯克利的Sergey Levine，于24年年底在DAI 2024上的演讲：RLDG——Reinforcement Learning Distilled Generalist
	*直接真实环境中RL开训，摒弃仿真*	结合视觉和人类示教与纠正的RL方法，目前暂时还是小众赛道	UC伯克利的HIL-SERL
	*RL仿真 + VR遥操*	重定向 + sim to real(师生学习/策略蒸馏) + VR遥操
	*RL仿真 + VR遥操*	重定向 + sim to real(师生学习/策略蒸馏) + VR遥操	OmniH2O
	*RL仿真训本体 + RGB遥操部署*	Retargeting、Sim-to-Real、RGB* Real-time遥控*	H2O：通过重定向清除不可行的动作，然后仿真训练，最后RGB实时遥操作部署(使用训练好的Sim-to-Real模仿策略进行模仿)
	*RL仿真训本体 + RGB遥操部署*	*仿真中训小脑HST(仿真中训练好之后，RGB遥操部署)* 且其真实中训大脑HIT	*HumanPlus*：RL仿真训本体 + 人类示教(模仿学习/行为克隆)训大脑
	*静态数据训练 + 人类示教*	比如通过示范数据做行为克隆，更结合前身ALOHA的静态数据做协同训练	Mobile ALOHA
第二大块动作预测策略	iDP3(改进的3D diffusion policy)	可落地在人形机器人上	斯坦福iDP3
	3D diffusion policy	将3D视觉表示与扩散策略	3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
	Diffusion Policy(还可基于点云)	diffusion policy基于扩散模型	UMI/dexcap
	Diffusion Transformer(DiT)	基于Diffusion Transformer(DiT)改造	清华RDT
	Diffusion Transformer(DiT)	预测与动作扩散器PAD：通过联合去噪同时预测未来图像和动作	Prediction with Action: Visual Policy Learning via Joint Denoising Process
	ACT	ACT基于Transformer	Mobile ALOHA
	基于下一个token预测技术预测动作token	基于类似下个token预测策略
	基于下一个token预测技术预测动作token	基于类似下个token预测策略	伯克利Digit
第一大块训练数据来源
	人类行为视频数据	相当于互联网上大规模的视频数据，比如YouTube上的	比如MimicPlay
	开源数据	需要一定的整合	比如Open X-Embodiment等
	仿真数据	毕竟仿真环境中训练base model，最后真实环境中微调，是常见训练方式	1 英伟达的Isaac Sim：整合了物理引擎PhysX、图像渲染引擎RTX、动画/电影描述格式USD
	仿真数据	毕竟仿真环境中训练base model，最后真实环境中微调，是常见训练方式	2 Google的MuJoCo
	人工收集	手持夹爪，收集方便	umi/fastumi
		动作捕捉，精度较高	dexcap
		遥操，精度很高	主从机械臂遥操数据ALOHA
		遥操，精度很高	VR遥操Open-television

有意思的是，其中的RDT、π0都通过聚合各大机器人数据集先做预训练，然后微调，且它两的参数规模也分别达到了1B、3B

大有类似大语言模型的发展路线(其实搞具身的如果顺着大语言模型的发展路线走，至少大方向上，不会有太多差错)，比如

17-20年，以BERT、GPT为代表的预训练-微调模式
且从GPT3起，模型的参数规模越来越大，慢慢的不再需要针对下游特定任务做微调——一个模型搞定所有任务
途中经历过GPT3.5的RLHF微调(而巧的是本文要介绍的GRAPE便是通过RLHF微调VLA模型)
及至到GPT4之后，模型在各方面的能力逼近人类甚至超越人类

你说，是不是有趣？且越往后越会发现

大模型和机器人的融合会越来越深入、彻底，很多大模型的技术会加速嵌入至机器人中
所以说，如果懂大模型对搞具身智能是好处多多的(包括本文涉及的RLHF，如果深入搞过大模型的话，则会和我一样太熟悉不过了——毕竟两年前，我就是从开写ChatGPT及背后的RLHF开卷的，而写本文时，是在24年12.31日凌晨，真是与23年年初开写ChatGPT原理解析，遥相呼应，算是给这两年弄上一个完美的纪念)，建议大家好好学，^_^

第一部分 GRAPE：通过偏好对齐实现机器人策略的泛化

1.1 GRAPE的提出背景与相关工作

1.1.1 提出背景

近年来，视觉-语言-动作（VLA）模型的快速发展简化了一般的机器人操作任务，在受控环境变化的一系列任务中展示了令人印象深刻的能力

然而，这些模型面临几个关键挑战，例如在新环境、对象、任务和语义上下文中的泛化能力差[26-Openvla]。导致这一限制的一个重要因素是它们依赖于监督微调(SFT)，即VLA通过行为克隆简单模仿成功演练的动作，而未能对任务目标或潜在失败模式形成整体理解[27-Should i run offline reinforcement learning or behavioral cloning?]

虽然像PPO[42]这样的强化学习(RL)算法在增强其泛化能力方面表现出色[52-Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning]，但收集足够的在线轨迹和明确定义奖励的高成本使其在训练VLA时不切实际[44-Octo]
此外，训练VLA仅仅复制专家行为通常会导致行为崩溃[28-Training language models to self-correct via reinforcement learning，即通过强化学习进行自我纠正，详见此文的2.3 Self-Correct之SCoRe：通过多轮强化学习进行自我纠正]，即计划的轨迹往往次优[26-Openvla]

这是因为SFT数据集通常未经策划，由从专家处收集的离线演示组成，这些演示隐含地嵌入了不同的价值观（例如任务完成、安全性和成本效益），而这些并未在数据中明确定义[36-Open x-embodiment,45-Bridgedata v2]
总之，简单地通过SFT模仿这些行为可能会混淆模型，并导致次优-偏离演示实际目标的恶意轨迹
一些方法试图通过明确定义一组目标并分层解决它们来应对这一挑战 [24-Rekep，详见此文《ReKep——李飞飞团队提出的让机器人具备空间智能：基于VLM模型GPT-4o和关系关键点约束(含源码解析)》]。然而，这种方法会带来额外的推理开销，并且缺乏可扩展性 [30-HAMSTER: Hierarchical action models for open-world robot manipulation]

为了解决这些问题，24年，来自北卡罗来纳大学教堂山分校和华盛顿大学的研究者提出了GRAPE(Generalizing Robot Policy via Preference Alignment)：通过偏好对齐来泛化机器人策略，以减轻使用强化学习目标训练VLA的高成本，同时提供灵活性以实现定制化操控目标的对齐

其对应的论文为《GRAPE: Generalizing Robot Policy via Preference Alignment》
论文一作为北卡罗来纳大学教堂山分校张子健，指导老师为北卡罗来纳大学教堂山分校助理教授 Huaxiu Yao，共同第一作者为华盛顿大学 Kaiyuan Zheng
其余作者包括来自北卡教堂山的 Mingyu Ding、来自华盛顿大学的 Joel Jang、Yi Li 和Dieter Fox，以及来自芝加哥大学的 Zhaorun Chen、Chaoqi Wang
如下图图2所示，GRAPE引入了轨迹偏好优化(trajectory-wise preference optimization，简称TPO)，通过隐式建模成功和失败试验的奖励，在轨迹层面对VLA策略进行对齐，从而提升对多样化任务的泛化能力

具体而言
1) 给定一个复杂的操作任务（顶部），GRAPE首先采用视觉语言模型——比如HAMSTER将任务分解为几个时间阶段，然后识别每个阶段子任务完成所需的空间关键点
Given a complex manipulation task (top), GRAPE first adopts a vision-language model to decompose thetask into several temporal stages, then identifies spatial keypoints essential for each stage’s subtask completion.

具体而言
$\rightarrow$ 首先将包含prompt——比如pick up the grape..和初始状态的图文对输入到视觉语言模型（VLM）Hamster [30]中。利用Hamster生成的阶段信息和阶段点，对收集的轨迹进行了分段。这有助于更精确地分析复杂任务序列，详细关注每个阶段
$\rightarrow$ 且利用Grounded-SAM[41]或结合SAM [41]和DinoV2 [38-DinoV2详见此文《http://iyenn.com/rec/1691188.html》]的方法从图像中提取关键点信息——类似rekep
这些关键点与作者自收集的轨迹数据相结合，使作者能够根据Hamster模型生成的阶段信息优化任务的执行步骤和路径规划
例如，对于一个简单的抓取和放置任务，可以将其分解为多个明确的阶段：抓住葡萄，将葡萄移动到盘子上，将葡萄放在盘子上
2) 然后，给定用户指定的对齐目标「包括：碰撞约束：确保机器人避免与障碍物碰撞。路径约束：优化机器人的运动路径的效率和安全性」，GRAPE提示一个强大的视觉语言模型比如GPT4o——为每个阶段获得一系列成本函数(准确的说，生成每个阶段的详细操作信息和成本函数)，其中较低的成本意味着更高的对齐合规性
Then given user-specifiedalignment goals, GRAPE prompts a powerful vision-language model to obtain a series of cost functions for each stage, where lower costimplies higher alignment compliance.
3) 在迭代偏好优化过程中（底部），作者从基础VLA模型中采样多个离线轨迹(一般轨迹条数定义为 $\mathcal{N}_{t}=5$ )，并获得具有相关多阶段成本的轨迹。该评分进一步结合了模型对每条轨迹的自我评估和二元任务成功指示器
During iterative preference optimization (bottom), we sample multiple offline trajectories from thebase VLA model and obtain trajectories with associated multi-stage costs. This score further incorporates the model’s self-evaluation ofeach trajectory and a binary task success indicator.
4) 再之后，根据采样轨迹的相应得分对其进行排名，以获得偏好列表——每个任务中奖励最高的轨迹为 $y_{w}$ ，奖励最低的轨迹为 $y_{l}$
Then we rank the sampled trajectories with their corresponding scores to obtain a list ofpreferences.
5) 最后，执行轨迹偏好优化以获得改进的模型，从中进一步采样在线轨迹并迭代直到收敛
Then we perform a trajectory-wise preference optimization to obtain a improved model, from which we further sample onlinetrajectories and iterate until convergence
且为了进一步缓解轨迹排序和提供任意对齐目标偏好的难度，GRAPE建议将复杂的操控任务分解为多个独立阶段，并采用大型视觉模型为每个阶段提出关键点，每个关键点都与时空约束相关
值得注意的是，这些约束是灵活的，可以定制以使模型与不同的操控目标对齐，例如任务完成、机器人交互安全性和成本效益

1.1.2 相关工作：VLA、强化学习与偏好优化

第一方面，先前的机器人学习工作[14,23-Voxposer,24-Rekep,30-HAMSTER,31-Code as policies,34-Robocodex,35-Embodiedgpt]通常采用分层规划策略

例如，Code asPolicies[31]和EmbodiedGPT[35]采用LLMs和VLMs首先生成一系列高层次的行动计划，然后进一步利用低层次的控制器来解决局部轨迹

然而，这些模型存在低层次技能有限的问题，难以推广到日常任务中

好在VLA通过将大型视觉语言模型作为骨干并直接在模型内生成动作，倾向于扩展低层次任务。它们通常通过两种主流方法实现动作规划：

动作空间的离散化 [6-Rt-1,7-Rt-2,26-Openvla]，例如 Open-VLA [26]，它保留了自回归语言解码目标，并将动作空间均匀地截断为一小组动作token
由于这种离散化不可避免地引入误差，一些方法如π0 [4-π0，详见此文《π0——用于通用机器人控制的VLA模型：一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)》] 采用更新的结构 [53-Transfusion] 并直接集成扩散头diffusion head进行动作预测，以避免离散化
扩散模型[2,16-Diffusion policy,18-Diffusion models beat gans on image synthesis,25- Planning with diffusion for flexible behavior synthesis,32-Adaptdiffuser,49-Chaineddiffuser]——如 Diffusion Policy [16]作为动作头，不是每次生成一个逐步的动作，而是通过几个去噪步骤生成一系列未来动作

虽然这些模型在结构上有所不同，但它们始终通过行为克隆对成功的展开进行监督训练(they are consistently supervised-trained on successful rollouts via behavior cloning)，这很难推广到未见过的操作任务

然而，我们的GRAPE首先通过试错在轨迹层面对VLA策略进行对齐，有效提高了可推广性和可定制性

第二方面，强化学习RL

[17-2017年6月OpenAI联合DeepMind首次正式提出的：Deep Reinforcement Learning from Human Preferences，即基于人类偏好的深度强化学习，简称RLHF，详见此文《ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT》,
42-PPO「详见此文《强化学习极简入门：通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO》的第4部分」,
56-Fine-Tuning Language Models from Human Preferences，OpenAI进一步阐述RLHF的文章]

在SOTA基础模型（FMs）的后训练中发挥着关键作用，包括

文本生成模型[1-GPT4,12,15,19-The llama 3 herd of models,39- Training language models to follow instructions with human feedback，即instructGPT，详见上面刚提到过的ChatGPT原理解析]
图像生成模型[13- Mj-bench: Is your multimodal reward model really a good judge for text-toimage generation?,20-DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models]
视频生成[50- Cogvideox: Text-to-video diffusion models with an expert transformer]

这些模型通过偏好数据的嵌入被广泛用于使预训练的FMs与人类价值观对齐

同时，RL在训练机器人任务的策略方面也取得了巨大成功

[10-Decision transformer: Reinforcement learning via sequence modeling,
11-Towards human-level bimanual dexterous manipulation with reinforcement learning,
14- Safe reinforcement learning via hierarchical adaptive chanceconstraint safeguards,
42-PPO,47-EscIRL: Evolving self-contrastive IRL for trajectory prediction in autonomous driving,
48- Unidexfpm: Universal dexterous functional pre-grasp manipulation via diffusion policy,55-Dexterous manipulation with
deep reinforcement learning: Efficient, general, and lowcost]

尽管直观上通过RL后对齐VLA是有益的，但之前的工作尚未报告这样的成功，主要是因为

操作目标通常多样且复杂，使得奖励难以进行分析性定义[21]；
虽然这种奖励可以从人类偏好中建模，但在机器人操作任务中标注此类偏好通常耗时复杂，且需要人类专业知识[45]
奖励的不完美数值微分通常会导致RL算法——如PPO[42] 崩溃[8-Reinforcement learning for control: Performance, stability, and deep approximators]

然而，最近的一些研究[40- Direct preference optimization: Your language model is secretly a reward model，详见《RLHF的替代之DPO原理解析：从RLHF、Claude的RAILF到DPO、Zephyr》,46-Preference optimization with multi-sample comparisons]显示了无需这种显式奖励建模即可直接通过RL对策略进行对齐的成功

受此启发，GRAPE通过对比轨迹来对齐策略，从而避免了奖励建模中的数值问题。此外，作者引入了一种自动偏好合成管道，可以轻松扩展到各种操作任务，并能够适应不同的对齐目标

1.2 通过偏好对齐来推广机器人策略

在推理过程中，VLA 通常以任务指令初始化，并且在每个时间步，它接收环境观察 $o_{t}$ (通常是一张图像)并输出一个动作 $a_{t}$ ，如此可以将 $\pi_{\theta}\left(a_{i} \mid\left(o_{i}, q\right)\right)$ 表示为由 $\theta$ 参数化的VLA 的动作策略

为了完成任务，VLA 与环境反复交互并获得长度为的轨迹 $\zeta=\left\{o_{1}, a_{1}, \cdots, o_{T}, a_{T} \mid q\right\}$ 。通常，VLA通过SFT 进行微调以模仿专家行为(定义为方程1)：

$\mathcal{L}_{\mathrm{SFT}}=-\sum_{(\zeta, q) \in \mathcal{D}} \sum_{t=1}^{T} \log p\left(a_{t} \mid o_{t}, q ; \pi_{\theta}\right)$

其中， $\mathcal{D}=\left\{\left(\zeta_{1}, q_{1}\right), \ldots,\left(\zeta_{N}, q_{N}\right)\right\}$ 表示包含个专家轨迹的训练集，具体来说， $\mathcal{L}_{\mathrm{SFT}}$ 迫使VLA 记住从分布 $\mathbb{P}_{\mathcal{D}}$ 中采样的每个观察相关的动作，导致对新任务环境的泛化能力较差

值得注意的是，虽然遵循Brohan 等人[7-Rt-2] 和O’Neill 等人[36-Open x-embodiment] 的做法，并基于马尔可夫决策过程MDP假设[43-Richard S Sutton. Reinforcement learning: An introduction. A Bradford Book, 2018] 考虑逐步策略

但作者的方法可以很容易地适应非MDP 情况，该情况将过去的交互历史(通常是视频或一系列图像)作为状态[9-Gr-2，详见此文《字节GR2——在大规模视频数据集上预训练且机器人数据上微调，随后预测动作轨迹和视频(含GR1详解)》]以及扩散策略[16-Diffusion policy]
其一次生成多个未来步骤[44-Octo]「which takes past interaction histories (usually a video or a series of images) as state [9] and diffusion policy [16] which generates multiple futuresteps all at once [44]」

1.2.1 TPO：轨迹偏好优化(直接用的DPO的思想)

先来进一步解释下图中右下角的Trajectory-wise Preference Optimization

为了提高泛化能力，作者遵循

Bai等人[3-Training a helpful and harmless assistant with reinforcement learning from human feedback，相当于早在2022年4月份，目前OpenAI最大的竞争对手Ahthropic就发了其LLM论文：Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback，这篇论文和OpenAI的instructGPT论文极其相似 (如果你之前还没看到instructGPT论文，或者尚不了解ChatGPT的三阶段训练方式，强烈建议先看此文：ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT)，也就比后者晚发布40多天]
Schulman等人[42-Proximal policy optimization algorithms，即PPO算法的工作

并通过RL目标进一步微调VLA策略

令 $r_{\phi}$ 表示由 $\phi$ 参数化的奖励函数，从而有(定义为方程2)
$\max _{\pi_{\theta}} \mathbb{E}_{\zeta \sim \pi_{\theta}}\left[r_{\phi}(\zeta)\right]-\beta D_{\mathrm{KL}}\left[\pi_{\theta}(\zeta) \| \pi_{\mathrm{ref}}(\zeta)\right]$

其中， $\beta$ 控制与通过SFT 在方程(1) 中训练的基础参考策略 $\pi_{\mathrm{ref}}$ 的偏差， $\pi(\zeta, q)$ 是在指令下策略 $\pi$ 生成整个轨迹 $\zeta$ 的可能性
然后作者遵循Rafailov 等人的方法[40-Direct preference optimization: Your language model is secretly a reward model，即DPO，详见此文《RLHF的替代之DPO原理解析：从RLHF、Claude的RAILF到DPO、Zephyr》]，推导出轨迹奖励 $r(\zeta)$ 的解析重参数化为(定义为方程3)
$r(\zeta, q)=\beta \log \frac{\pi_{\theta}(\zeta \mid q)}{\pi_{\mathrm{ref}}(\zeta \mid q)}+\beta \log Z(\zeta)$
类似于Rafailov 等人[40-即DPO]，作者采用Bradley-Terry(BT) [5-Rank analysis of incomplete block designs: I. the method of paired comparisons] 模型，并从一组带有偏好排序的轨迹中对 $r_{\phi}$ 进行建模

具体来说，令 $\zeta_{w}$ 和 $\zeta_{l}$ 分别表示从相同初始状态开始的被选择和被拒绝的轨迹，可以将轨迹奖励建模目标公式化为(定义为方程4)
$P\left(\zeta_{w} \succ \zeta_{l}\right)=\frac{\exp \left(r\left(\zeta_{w}\right), q\right)}{\exp \left(r\left(\zeta_{w}\right), q\right)+\exp \left(r\left(\zeta_{l}\right), q\right)}$
然后，我们遵循Rafailov等人DPO[40]的方法，将公式(3)代入公式(4)，得到如下轨迹偏好优化(TPO)损失 $\mathcal{L}_{\mathrm{TPO}}$ ，相当于公式(2)——定义为方程5
$-\mathbb{E}_{\left(\zeta_{w}, \zeta_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta\left(\log \frac{\pi_{\theta}\left(\zeta_{w}\right)}{\pi_{\mathrm{ref}}\left(\zeta_{w}\right)}-\log \frac{\pi_{\theta}\left(\zeta_{l}\right)}{\pi_{\mathrm{ref}}\left(\zeta_{l}\right)}\right)\right)\right]$
然后可以进一步从MDP中提取，并将轨迹 $\zeta$ 的可能性分解为单个状态-动作对，即 $\pi(\zeta, q)=\prod_{i=1}^{T} \pi\left(a_{i} \mid\left(o_{i}, q\right)\right)$

且进一步获得(定义为方程6)
$\log \frac{\pi_{\theta}(\zeta, q)}{\pi_{\mathrm{ref}}(\zeta, q)}=\sum_{t=1}^{T} \log \frac{\pi_{\theta}\left(a_{i} \mid\left(o_{i}, q\right)\right)}{\pi_{\mathrm{ref}}\left(a_{i} \mid\left(o_{i}, q\right)\right)}$

最后，可以将方程(6) 代入方程(5)，以获得逐步状态-动作对形式的TPO 损失 $\mathcal{L}_{\mathrm{TPO}}$

最终得到的TPO损失方程6是有益的，因为它：

通过简单地使用VLA收集的逐步回合，将策略 $\pi_{\theta}$ 在轨迹级别上全局对齐到人类偏好
通过在整个轨迹的状态-动作对中反向传播梯度，稳定策略并引导其朝向最终目标
通过通过RL目标从成功和失败的轨迹中学习，显著提升泛化能力。尽管Finn等人[21-Guided cost learning: Deep inverse optimal control via policy optimization]指出，扩大采样轨迹的规模可以减少奖励建模中的偏差，但这也增加了训练成本
因此，虽然作者的方法可以轻松扩展，但作者还是建议将讨论限制在仅存在一个选择/拒绝轨迹的二进制情况

1.2.2 引导成本偏好生成：Guided-Cost Preference Generation(GCPG)

然后，再来进一步解释下图右上角，及下图底部的中间部分：目标对齐下的多阶段成本、模型自我奖励、任务是否成功的二元指示器

虽然在给定 TPO 目标方程(5)的情况下，可以通过根据相应偏好排序的轨迹来对策略进行任意目标的对齐，但这会产生很高的成本，因为它需要人类专业知识和冗长的手动注释

因此，为了更好地扩展偏好合成以实现任意对齐目标（例如任务完成、安全性、效率），作者提出引导成本偏好生成 (GCPG)，以自动策划集成不同对齐目标的此类偏好「we propose Guided-Cost Prefer-ence Generation (GCPG) to automatically curate such pref-erences that integrate different alignment objectives」

首先，针对多阶段时间关键点约束(Multi-Stage Temporal Keypoint Constraints)

基于Huang 等人[24-Rekep，详见《ReKep——李飞飞团队提出的让机器人具备空间智能：基于VLM模型GPT-4o和关系关键点约束(含源码解析)》] 的见解，作者通过将轨迹分解为时间阶段，并为每个阶段分配成本以量化性能，来解决复杂操作任务中指定精确轨迹偏好的复杂性
然后，聚合这些特定阶段的成本，以获得对每个轨迹的整体评价

具体来说，采用基于VLM 的阶段分解器 $\mathcal{M}_{D}$ (更多详见附录A)，将轨迹 $\zeta$ 划分为一系列 $\mathbf{S}$ 连续阶段，公式化为(定义为方程7)

$\left\{\zeta^{1}, \ldots, \zeta^{S}\right\}=\mathcal{M}_{D}(\zeta, q), \quad \zeta^{i}=\left\{\left(o_{t}^{i}, a_{t}^{i}\right)\right\}_{t=1}^{T_{i}}$

其中 $\zeta^{i}$ 表示轨迹 $\zeta$ 的第 $i^{\text {th }}$ 阶段

在获得阶段分解后，作者进一步使用视觉-语言模型「例如DINOv2 [37]-详见此文《从DINO、DINOv2到DINO-X——自监督视觉Transformer的升级改进之路(基于ViT)》的第二部分」来识别在各个阶段作为参考指标的关键点
然后，作者提示一个强大的LLM [1-GPT4o] 为每个阶段提出多个成本函数(参见附录E.2 中的示例)，这些函数与对齐目标相对应，其中较低的成本表示更好的目标符合性
接着，在阶段 $S_{i}$ 的成本 $C^{S_{i}}$ 被公式化(定义为方程8)
$C_{S_{i}}=\sum_{j=1}^{N_{S_{i}}} \beta_{j} \max \left(0, C_{j}^{S_{i}}\left(\left\{\kappa_{S_{i}}\right\}-\tau_{j}^{S_{i}}\right), \quad j \in\left\{1, \ldots, N_{S_{i}}\right\}\right.$

其中
$\rightarrow$    $C_{j}^{S_{i}}\left(\left\{\kappa_{S_{i}}\right\}\right)$ 表示在阶段 $S_{i}$ 中使用关键点子集 $\left\{\kappa_{S_{i}}\right\}$ 计算的第 $j^{\text {th }}$ 个成本
$\rightarrow$    $\tau_{j}^{S_{i}}$ 是一个可调的阈值参数，来调整每个成本的容忍度——只有当成本超过阈值时才会应用
$\rightarrow$    $\beta_{j}$ 是一个权重参数，用于调整每个成本的重要性
最后，为了汇总整个轨迹的成本，作者不是线性地对每个阶段求和，而是应用指数衰减来捕捉每个时间阶段的因果依赖关系(例如，如果一个轨迹在前面的阶段产生了高成本，则不期望其随后表现良好)
定义为外部奖励(是为方程9)
$R_{\mathrm{ext}}(\zeta)=\prod_{i=1}^{\mathbf{S}} e^{-\sum_{j=1}^{N_{S_{i}}} \beta_{j} \max \left(0, C_{j}^{S_{i}}\left(\left\{\kappa S_{i}\right\}-\tau_{j}^{S_{i}}\right)\right.}$

其中，方程9汇总了每个阶段的个体成本和子目标，以应对维度灾难，并有效地遵循定制化的对齐方式

其次，针对引导成本偏好生成

为了进一步提高偏好合成的稳定性和最优性，作者从自我奖励[54- Calibrated self-rewarding vision language models]中获得灵感，并确定更优的轨迹应该由外部评判「如公式(9)所示」和模型本身确认

因此，作者加入了两个额外的奖励并获得了GCPG奖励

首先是方程10——相当于是对方程9 11 12的汇总
$R_{\mathrm{GCPG}}(\zeta)=\lambda_{1} R_{\text {self }}(\zeta)+\lambda_{2} R_{\mathrm{ext}}(\zeta)+\lambda_{3} I_{\text {success }}(\zeta)$

其中 $R_{\text {self }}(\zeta)$ 是由π 提供的自评得分，其等于生成轨迹 $\zeta$ 的对数似然(定义为方程11) $R_{\text {self }}(\zeta)=\log (\pi(\zeta, q))=\log \left(\prod_{i=1}^{T} \pi\left(a_{i} \mid\left(o_{i}, q\right)\right)\right)$
其次是， $I_{\text {success }}(\zeta)$ ——一个二元指示函数，指示轨迹 $\zeta$ 是否成功完成任务(定义为方程12)
$I_{\text {success }}(\zeta)=\left\{\begin{array}{ll} 1, & \text { if } \zeta \text { is successful } \\ 0, & \text { otherwise } \end{array}\right.$
其中 $\lambda$ 是调整每个奖励重要性的权重参数

直观上，方程(11) 可以看作是方程(12) 所提供的稀疏信号的密集近似，这些信号通过方程(9) 进一步校准，以获得对轨迹的整体评估，该评估既考虑其最优性，又考虑通过方程(9) 中的外部奖励指定的定制目标的对齐程度

1.2.3 迭代偏好优化Iterative Preference Optimization

最后，再解释下图最右下角的迭代优化过程

在生成偏好之后，接着讨论迭代偏好优化策略。受在线策略强化学习[42-PPO]实践的启发，这些实践通常比离线训练产生更优的策略

故作者通过在线收集的轨迹使用TPO迭代微调SFT VLA模型

例如，在第 $k^{\text {th }}$ 次迭代中

首先为各种任务采样大量轨迹并获得 $\mathcal{D}^{k}$
然后使用公式(10)计算每条轨迹的成本，并根据每个任务对这些轨迹进行排序
$R_{\mathrm{GCPG}}(\zeta)=\lambda_{1} R_{\text {self }}(\zeta)+\lambda_{2} R_{\mathrm{ext}}(\zeta)+\lambda_{3} I_{\text {success }}(\zeta)$
将每个任务的前和后条轨迹配对，获得 $m^{2}$ 个选择-拒绝轨迹对
然后通过公式(5) 使用TPO 微调相同的采样策略，获得更新后的策略
$-\mathbb{E}_{\left(\zeta_{w}, \zeta_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta\left(\log \frac{\pi_{\theta}\left(\zeta_{w}\right)}{\pi_{\mathrm{ref}}\left(\zeta_{w}\right)}-\log \frac{\pi_{\theta}\left(\zeta_{l}\right)}{\pi_{\mathrm{ref}}\left(\zeta_{l}\right)}\right)\right)\right]$
重复这一过程K 次，并获得与目标目标对齐的最终模型

对了，作者在算法1 中详细介绍了GRAPE迭代偏好优化过程

至此，可能你也看出来了，其实GRAPE

更像Ahthropic的Claude的训练方式——RAIHF「详见此文《RLHF的替代之DPO原理解析：从RLHF、Claude的RAILF到DPO、Zephyr》的1.3 节Claude的两阶段训练方式：先监督微调后RAIHF」

为何这么说呢？因为GRAPE的本质质是类似 给VLA上RLAIF，这个AI即GPT4o在对齐目标的前提下计算各个轨迹的成本，然后根据计算结果自动排序(不像RLHF 得人工对结果做排序)，根据排序结果选择优-差对做DPO优化，所以可以不断刺激机器人选择更优的运动策略——从而不断优化机器人的运动轨迹

第二部分 GRAPE的数据设置、及实验设置

2.1 实验数据集

2.1.1 现实世界数据集

对于SFT数据集，在真实世界机器人实验中，作者使用一个由Franka机器人手臂和Robotiq夹持器组成的机器人平台进行数据收集

为了确保数据收集和评估的一致性，所有操作都在相同的实验环境中进行
在数据收集过程中，收集了220个包含常见物体（如香蕉、玉米、牛奶和盐）的抓取和放置任务的数据集
此外，收集了50个涉及按下不同颜色按钮的任务的数据。由于用于按钮按压任务的物体数量有限，在测试阶段引入了背景噪音和干扰物体，以创造未见过的场景
且为了进一步增强OpenVLA处理不同动作的能力，还收集了50个推倒任务的数据

这些多样化的任务数据集有助于提高模型在处理不同类型动作时的泛化能力

对于TPO数据集，在真实世界实验中，使用通过OpenVLA在真实世界SFT数据集上微调的模型进行轨迹采样

每个任务进行了五次。在TPO数据集中，实验了15个不同的任务，包括10个抓取和放置任务、3个按钮按压任务和2个推倒任务，共计75个数据条目。经过选择过程，得出一个由30个轨迹组成的偏好数据集

2.1.2 仿真数据集

对于SFT 数据集，对于 Simpler-Env，SFT 数据集包括 100 条轨迹，总计约 2,900 个转换。这些回合是使用 Octo 从Simpler-Env 生成的，遵循 Ye 等人 [51] 中描述的方法

值得注意的是，LIBERO并没有收集新的数据，也没有对OpenVLA模型进行微调。相反，作者直接使用OpenVLA团队提供的OpenVLA-SFT模型，这显著简化了流程

对于TPO数据集，在Simpler-Env的情况下，每个任务的轨迹都是使用OpenVLA-SFT模型采样的，每个任务进行五次试验。这个过程产生了一个包含80条轨迹的TPO数据集

对于LIBERO，使用OpenVLA-SFT模型（每个任务一个模型）在LIBERO中的四个任务中进行数据采样。对于每个任务，每个子任务采样五条轨迹，最终形成一个包含总共20条轨迹的TPO数据集

2.2 实验设置

作者采用OpenVLA [26] 作为基础模型，使用LoRA 微调和AdamW 优化器进行监督和偏好微调。在监督微调阶段，作者使用学习率4 × 10−5，批量大小为16

对于偏好微调应用学习率2 × 10−5，使用相同的批量大小。有关训练过程和数据集的更多详细信息，请参见附录A 和B

在基线模型的选择上，作者将GRAPE与两个在机器人控制任务中以强大性能著称的领先机器人学习模型进行比较

第一个模型是Octo [44-详见此文《从Octo、OpenVLA到TinyVLA、CogACT——视觉语言动作模型VLA的持续升级(RT-2和π0在其他文章介绍)》]，一个基于大型transformer的策略模型
第二个模型是OpenVLA [26，详见此文]，一个7B视觉-语言-动作模型

这两个模型均使用从相应环境中采样的相同数据集进行了监督微调。作者分别将监督微调后的模型称为Octo-SFT和OpenVLA-SFT

2.1.1 在真实世界机器人环境中的评估

在真实世界实验中，GRAPE在各种任务中显著优于其他模型

值得注意的是，在领域内任务中，GRAPE达到了67.5%的成功率，比OpenVLA-SFT的45%提高了22.5%，且远高于Octo-SFT的20%
此外，在视觉泛化任务中，GRAPE展示了更高的适应性，成功率为56%
在更具挑战性的动作泛化任务中，尽管OpenVLA-SFT表现尚可，但GRAPE仍优于OpenVLA-SFT，显示了其理解各种动作和基于语言执行命令的潜力

综合所有类别的任务，GRAPE的总平均成功率为52.3%，比OpenVLA-SFT的33.3%提高了19%，且远高于Octo-SFT的5.8%。这一表现突出了GRAPE在处理复杂和多变任务环境中的有效性和高适应性

2.1.2 奖励模型的消融研究

在本节中，作者进行消融研究以分析方程10中每个奖励组件的贡献

$R_{\mathrm{GCPG}}(\zeta)=\lambda_{1} R_{\text {self }}(\zeta)+\lambda_{2} R_{\mathrm{ext}}(\zeta)+\lambda_{3} I_{\text {success }}(\zeta)$

最终性能的评估对象包括：外部目标对齐奖励 $R_{\mathrm{ext}}(\zeta)$ ，自我评估奖励 $R_{\text {self }}(\zeta)$ ，以及成功指示器 $I_{\text {success }}(\zeta)$

此外，还进行了一项单独的消融研究，以强调使用整个奖励得分进行偏好选择的重要性。该方法与随机选择一个成功轨迹作为首选轨迹和一个失败轨迹作为拒绝轨迹的方法进行了比较

Simpler-Env 环境中的结果在下表表1 中报告

结果表明：

将完整的奖励评分方程(10) 用于偏好排序相比仅基于成功的随机选择显著提高了性能；
所有奖励组件都有助于提高模型性能。这些发现与预期一致
具体来说，Rself (ζ) 通过鼓励模型选择具有更高生成概率的轨迹来增强GRAPE 模型的稳健性。同时，Rext (ζ) 引导模型学习特定行为，如安全性和效率。最后，Isuccess (ζ) 起到作为一个关键指标的作用，引导模型优先考虑成功的轨迹

总之，GRAPE通过从成功和失败的尝试中学习来增强泛化能力，并通过定制的时空约束提供与安全性、效率和任务成功等目标对齐的灵活性

实验结果表明，GRAPE在域内和未见任务上显著提高了成功率，同时实现了灵活的对齐。虽然GRAPE在泛化和对齐灵活性方面表现出显著的改进，但它也有一些局限性

首先，对偏好排序的依赖需要足够多样化的轨迹，这可能限制在仅有有限任务设置的场景中的应用
其次，虽然GRAPE支持可定制的对齐，但特定目标的阈值参数的手动调整可能引入主观偏见，并需要领域专业知识。未来的工作可能会探索更高效和自动化的偏好合成和适应方法

// 待更