热点
国泰君安:GO-1大模型将加速具身智能普及 关注智元产业链相关机会
时间:2025-03-11 16:34 浏览:
本体,高效地完成落地,并在实际的使用中持续不断地快速进化,包括:1)从单一任务到多种任务;2)从封闭环境到开放世界;3)从预设程序到指令泛化。GO-1大模型将加速具身智能的普及,在商业、工业、家庭等多领域发挥更大的作用,通向更加通用全能的智能未来,关注智元产业链的相关机会。
国泰君安主要观点如下:
3月10日,智元发布首个通用具身基座大模型GO-1,开创性地提出了Vision-Language-Latent-Action 架构,该架构由VLM+ MoE组成,其中VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE 中的Latent Planner借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE 中的Action Expert借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。
为了有效利用高质量的AgiBot World数据集以及互联网大规模异构数据,增强策略的泛化能力,智元提出了ViLLA这一架构。在推理时,VLM、Latent Planner和ActionExpert三者协同工作。其中LAM主要用于获取当前帧和历史帧之间Latent Actions的Groundtruth,它由编码器和解码器组成。Latent Planner负责预测这些离散的Latent ActionTokens,它与VLM主干网络共享相同的Transformer结构,同时引入Action Expert。结果显示,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%。