小米打通智驾和机器人首个智驾具身统一基座来了小米把自动驾驶和机器人“合体”了,还开源了全球首个统一基座模型MiMo-Embodied。以前教AI开车和教机器人干家务是两码事,开车要看红绿灯、避让行人,属于室外高速场景;机器人要拿杯子、扫地,属于室内精细操作。这两类数据通常很难互通,导致AI要么只会开车,要么只会干活。但小米团队想了个招,用一套架构把这两个领域打通了。这个MiMo-Embodied模型主要解决了这么几个问题:1.打破领域隔阂它基于MiMo-VL架构,把视觉信号,无论是路况还是家具,都翻译成大模型能听懂的语言。这让同一个“大脑”既能理解前面有车要刹车,也能理解桌上有杯水要拿。2.四阶段特训为了让它什么都会,团队给它安排了进阶课。先学通用知识,再专攻机器人操作,接着学自动驾驶,最后通过思维链(CoT)和强化学习(RL)来训练逻辑推理能力。这就好比让一个人学完基础课,再去考驾照和职业资格证。3.实战效果强悍在29个评测基准上,这个模型都拿了高分。不仅能处理复杂的路口转弯、超车,在家庭环境里找东西、拿东西的能力甚至比GPT-4o还强。项目带头人是小米智驾首席科学家陈龙,之前在Wayve和Lyft也是搞端到端模型的,算是老本行了。目前这套东西已经开源,论文和代码都能在GitHub上找到。我们距离那种既能开车接你下班,回家还能给你做饭的通用机器人,又近了一步。论文链接:arxiv.org/abs/2511.16518GitHub:github.com/XiaomiMiMo/MiMo-Embodied



