游戏百科

理想汽车发布25年Q3财报李想谈具身智能:- 要想做好具身智能,最重要的是构建一

理想汽车发布25年Q3财报李想谈具身智能:- 要想做好具身智能,最重要的是构建一套不同于语言智能的 AI 系统,包含具身智能的感知相当于眼睛和耳朵、具身智能的模型相当于大脑、具身智能的操作系统相当于神经、具身智能的算力相当于心脏、具身智能的本体相当于身体,当下没有任何第三方供应商可以完整的提供这套系统,甚至没有任何一个是可以供应的。- 具身智能必须增加对物理世界的感知,模型也是必须基于对物理世界的理解,精准是首要任务,其次才是泛化。操作系统需要确保软硬的最优融合,提供更高的帧率,整体系统要快和精准。为具身智能的感知、模型、操作系统等提供的算力也需要在端侧供应,而不是云端。最后,还要改造硬件成为具身智能的本体,比如三维神经控制的线控和主动液压悬架系统,提高本体执行的效率和准确性。- 如果以具身智能理解整个AI系统,你会发现可以改变,以及急切需要改变的实在太多了。- 首先是感知,基于现有的感知模型和端侧的算力,现在的3D BEV、OCC占用网络、2D ViT,有效的感知距离(而非理论上最大)只有100多米,远远不如人类的眼睛。如果升级成人眼工作原理相似的3D ViT,有效距离可以扩大2-3倍,今天我们辅助驾驶可能50%以上的常见问题,自然就解决了。- 3D ViT不仅限于自动驾驶的领域,在车外和车主的主动交互与服务,在车内与家人的主动交互和服务,也就变成了可能。这需要感知模型的研究和研发的重大突破,还必须有M100这样为具身智能定制设计的芯片和编译器团队高效率的配合才可以实现。- 有了3D ViT才有了真正的对物理世界的理解,VLA模型中的VL才可以更好的对于物理世界的感知和理解,人类的数据才可以更高效率的被用于训练,世界模型生成的数据才可以更好的去完善训练。现有最好的计算平台,一个4B MoE的模型运行帧率是有10Hz,而执行系统是60Hz,如果模型运行的帧率可以快2-3倍,现在辅助驾驶的一些舒适性的问题、反应迟钝的问题都可以有效的解决。这同样需要对传统的GPU架构和算力进行深度的改造和定制,以及专有的操作系统。M100芯片就是为了解决具身智能这些本质的问题而研发的。- 最后是本体,人类的刹车、转向的最快响应速度在450毫秒左右,目前自动驾驶从感知到执行的完整链路在550毫秒左右,坐在驾驶员的位置本能的反应就是慢很多,像老年人在开车。线控体系可以把整个链路的响应速度提升到350毫秒,别小看这200毫秒的差距,这大概可以把事故率下降50%以上,而且让人感觉车开的比自己还要好、还要安全。既是理性的真安全,又是感性的安全感。基于这样的需求,整个控制的方式都会变得完全不同。- 如果只是关注于语言智能那样模型规模的提升,模型规模扩大一倍,算力提升带来的性能提升只有5-10%。如果从具身智能整体来看,每个环节全系统的去解决最关键的问题,下一轮自动驾驶的性能提升应该有5-10倍。具身智能为用户提供自动和主动的快速交互和真实服务的能力,更是有和无的质变。- 过去三年,我们对于具身智能完整系统的技术储备,让我们下一代的产品充满信心,具身智能机器人的元年从汽车机器人正式开启,千亿收入只是起步。