易特艾弗网络科技

头条

智元机器人:发布行业首个机器人世界模型开源平台Genie Envisioner

时间:2025-08-14 11:58 浏览:

  智元机器人重磅推出面向真实世界机器人操控的统一世界模型平台 ---Genie Envisioner。 不同于传统“数据—训练—评估”割裂的流水线模式,GE将未来帧预测、策略学习与仿真评估首次整合进以生成为核心的闭环架构,使机器人在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。基于3000小时真机数据,GE-Act不仅在跨平台泛化和长时序任务执行上显著超越现有SOTA,更为具身智能打开了从

  

  GE的核心突破在于构建了基于世界模型的以

  基于强大的

  这种高效泛化源于GE-Base在

  长时序任务的精确执行能力

  更重要的是,

  在折叠纸盒等超长步骤任务中,GE-Act展现出了远超现有SOTA方法的性能。以纸盒折叠为例,这项任务需要精确执行超过10个连续子步骤,每个步骤都依赖于前序动作的准确完成。GE-Act达到了76%的成功率,而专门针对柔性物体操控优化的π0仅为48%,UniVLA和GR00T则完全无法完成。

  这种长时序执行能力的提升不仅源于GE的

  02技术架构:三大核心组件

  基于

  GE-Base:多视角世界基础模型

  GE-Base是整个平台的核心基础,采用自回归生成框架,将输出分割为离散的块,每块包含N帧。模型的关键创新在于其多视角生成能力和稀疏记忆机制。通过同时处理来自头部相机和双臂腕部相机的三路视角输入,GE-Base能够保持空间一致性并捕捉完整的操控场景。稀疏记忆机制通过随机采样历史帧来增强长时序推理能力,使模型能够在保持时序连贯性的同时处理长达数分钟的操控任务。

  训练采用两阶段策略:首先在3-30Hz的多分辨率采样下进行时序适应训练,使模型对不同运动速度具有鲁棒性;随后在5Hz固定采样率下进行策略对齐微调,与下游动作建模的时序抽象保持一致。整个训练基于AgiBot-World-Beta数据集的约3000小时、超100万条线天完成。

  GE-Act:平行流匹配动作模型

  GE-Act作为即插即用的动作模块,通过160M参数的轻量级架构将GE-Base的

  GE-Act的训练分为三个阶段:动作预训练阶段将

  GE-Sim:层次化动作条件仿真器

  GE-Sim将GE-Base的生成能力扩展为动作条件的神经仿真器,通过层次化动作条件机制实现精确的

  这种设计使GE-Sim能够精确地将低层控制指令转换为

  这三个组件紧密协作,构成了完整的

  此外,为了评估面向具身任务的世界模型质量,团队在GE核心组件之外开发了EWMBench评测套件。它从场景一致性、轨迹精度、运动动力学一致性,到语义对齐,全方位打分。多名专家的主观评级与GE-Bench排名高度一致,验证了其对机器人任务相关性评测的可靠性。在与Kling、Hailuo、OpenSora等先进模型的对比中,GE-Base在多项体现