首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

2024具身智能模型汇总:从训练数据、动作预测、训练方法到Robotics VLM、VLA

  • 25-02-15 07:00
  • 4144
  • 7052
blog.csdn.net

前言

本文一开始是属于此文《GRAPE——RLAIF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力》的前言内容之一(该文发布于23年12月底),但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之

当时的前言是

具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且所有点我都做了详尽而细致的解读,点击下表中对应的文字即可阅读,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接」


有意思的是,其中的RDT、π0都通过聚合各大机器人数据集先做预训练,然后微调,且它两的参数规模也分别达到了1B、3B

大有类似大语言模型的发展路线,比如

  • 17-20年,以BERT、GPT为代表的预训练-微调模式
    且从GPT3起,模型的参数规模越来越大,慢慢的不再需要针对下游特定任务做微调——一个模型搞定所有任务
  • 途中经历过GPT3.5的RLHF微调
  • 及至到GPT4之后,模型在各方面的能力逼近人类甚至超越人类

你说,是不是有趣?

    第一部分 从训练数据来源、动作预测策略、模型训练方法

    1.1 训练数据来源

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第一大块 训练数据来源人类行为视频数据相当于互联网上大规模的视频数据,比如YouTube上的比如DexMV、MimicPlay、字节GR2
    开源数据需要一定的整合比如Open X-Embodiment等
    仿真数据毕竟仿真环境中训练base model,最后真实环境中微调,是常见训练方式1 英伟达的Isaac Sim:整合了物理引擎PhysX、图像渲染引擎RTX、动画/电影描述格式USD
    2 Google的MuJoCo
    人工收集手持夹爪,收集方便umi/fastumi
    动作捕捉,精度较高dexcap
    遥操,精度很高主从机械臂遥操数据ALOHA
    VR遥操Open-television

    1.2 动作预测策略

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第二大块 动作预测策略iDP3(改进的3D diffusion policy)可落地在人形机器人上斯坦福iDP3
    3D diffusion policy将3D视觉表示与扩散策略3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
    Diffusion Policy(还可基于点云)diffusion policy基于扩散模型UMI/dexcap
    Diffusion Transformer(DiT)基于Diffusion Transformer(DiT)改造

    ​清华RDT

    预测与动作扩散器PAD:通过联合去噪同时预测未来图像和动作Prediction with Action: Visual Policy Learning via Joint Denoising Process

    ACT

    ACT基于Transformer

    Mobile ALOHA

    基于下一个token预测技术预测动作token基于类似下个token预测策略
    伯克利Digit

    1.3 模型训练方法

    1.3.1 非Robotics VLM与VLA的训练方法

    2024年具身前沿模型/策略大汇总说明补充备注典型代表

    第三大块

    模型训练方法

    直接真实环境中RL开训,摒弃仿真真实环境中得到的RL数据微调VLM + 机器人动作微调:RL训练运行创建的数据集,可以用于二次训练,代替人类提供的例子(效果如何 待验证)UC伯克利的Sergey Levine,于24年年底在DAI 2024上的演讲:RLDG——Reinforcement Learning Distilled Generalist
    结合视觉和人类示教与纠正的RL方法,目前暂时还是小众赛道UC伯克利的HIL-SERL
    RL仿真 + VR遥操估计人类动作 + 人类动作到人形机器人的重定向「凡是人形,必涉及到基于AMASS数据集(包括SMPL-X做参数化建模)做人形运动目标的重新定位」 + sim to real(师生学习/策略蒸馏) + VR遥操
    OmniH2O
    RL仿真训本体 + RGB遥操部署Retargeting、Sim-to-Real、RGB Real-time遥控H2O:通过重定向清除不可行的动作,然后仿真训练,最后RGB实时遥操作部署(使用训练好的Sim-to-Real模仿策略进行模仿)
    仿真中训小脑HST(仿真中训练好之后,RGB遥操部署)
    且其真实中训大脑HIT
    HumanPlus:RL仿真训本体 + 人类示教(模仿学习/行为克隆)训大脑
    静态数据训练 + 人类示教比如通过示范数据做行为克隆,更结合前身ALOHA的静态数据做协同训练Mobile ALOHA

    1.3.2 Robotics VLM与VLA的训练方法

    2024年具身前沿模型/策略大汇总说明补充备注典型代表

    第三大块

    模型训练方法

    预训练的VLA先对VLM基于机器人数据(开源OXE + 自采,或只开源OXE)做二次预训练(模仿人类)变成VLA,再真实环境中微调VLA1 π0:先在高度多样化的开源 + 自采机器人数据上进行预训练——变成了相比不二次预训练情况下更强大的VLA,然后针对所需任务进行微调
    2 RT2和OpenVLA:只在开源OXE上做的预训练
    不用预训练的VLA其考虑到预训练成本较高TinyVLA
    预训练的Robotics VLM针对VLM的二次预训练,通过开源OXE训练VLM变成Robotics VLMOcto:在Open X-Embodiment数据集上进行预训练
    不预训练的Robotics VLM没有针对VLM的二次预训练,而是直接机器人数据微调VLM变成Robotics VLM字节RoboFlamingo:使用简单、少量的微调就可以把 VLM 变成 Robotics VLM

    第二部分 Robotics VLM和VLA中的动作预测

    2.1 Robotics VLM和VLA中的动作预测

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第四大块 Robotics VLM和VLA中的动作预测专门的action head

    基于LSTM

    Robotics VLM:字节RoboFlamingo
    基于diffusion modelRobotics VLM:Octo
    VLA:TinyVLA(diffusion-based head)
    基于流匹配VLA:π0 (流匹配微调VLM)
    基于Diffusion Transformer(DiT)VLA:CogACT(相比Octo的头 更大)
    基于下一个token预测技术预测动作token对于离散化token动作表示,即指将机器人的每个动作维度分别离散化为 256 个箱子中的一个VLA:RT-2、OpenVLA(相当于RT-2开源版)
    打造机器人动作专用的高效Tokenizer:比扩散π0的训练速度快5倍但效果相当自回归版π0-FAST

    第三部分 借鉴大语言模型的发展之路

    3.1 借鉴大语言模型的发展之路

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第五大块 借鉴大语言模型的发展之路预训练-微调模式中把模型搞大需要架构、数据双双具备RDT、π0
    把RLHF引入近具身通过偏好对齐提升机器人策略的泛化能力GRAPE
    把CoT引入具身让具身模型学会逐步推理ECoT
    让VLM充当机器人大脑,做顶层任务规划机器人基础模型(相当于大脑):用于整体任务规划
    机器人操控模型(相当于小脑):用于精确控制
    Figure 01、清华ViLA、CoPa
    让大模型来打辅助:推理、规划样样行基于VLM模型GPT-4o和关系关键点约束ReKep
    VLM解释人类演示视频,并为机器人生成任务计划、代码纽约大学:VLM See, Robot Do
    结合「GPT4V的open-world vision能力」和重定向OKAMI

    更多可以查看此文《RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据》

      注:本文转载自blog.csdn.net的v_JULY_v的文章"https://blog.csdn.net/v_JULY_v/article/details/145412634"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
      复制链接
      复制链接
      相关推荐
      发表评论
      登录后才能发表评论和回复 注册

      / 登录

      评论记录:

      未查询到任何数据!
      回复评论:

      分类栏目

      后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

      热门文章

      101
      推荐
      关于我们 隐私政策 免责声明 联系我们
      Copyright © 2020-2024 蚁人论坛 (iYenn.com) All Rights Reserved.
      Scroll to Top