最近,小鹏科技日可以说是近期最富有争议的科技发布会之一。那个被质疑为“真人伪装”的具身智能机器人IRON,以近乎拟真的步态和柔性皮肤引爆舆论。有人惊叹技术突破,更多人怀疑视频剪辑、调侃“幕后是不是藏了个真人”。这场真假之争迅速吞噬了公众注意力,也让小鹏被贴上过度营销、吸引流量的标签。
但机器人之后,小鹏发布会还有很多看点。

更准确地说,IRON只是整场发布会最抢眼的部分。真正值得行业关注的是小鹏试图构建的一套名为“物理AI”的底层架构。这套架构包含第二代VLA、Robotaxi、飞行汽车等技术突破,试图回答一个根本问题:如何让机器在真实世界中像人类一样,通过感知、理解与行动,自主应对复杂、动态、非结构化的环境?
我们一起来看看,小鹏宣传的物理AI有哪些特点?而被机器人争议遮蔽的发布会之后,还有哪些技术干货?
Robotaxi和飞行汽车:小鹏的硬思考
在2025年小鹏科技日的叙事中,人形机器人IRON固然吸睛,但真正构成小鹏“物理AI”战略落地试金石的却是另外两条更具现实挑战性的产品线——Robotaxi与飞行汽车。
它们不仅是技术展示的窗口,更是小鹏能否将“涌现”理念从实验室推向真实世界的硬性考场。
首先映入眼帘的是即将于2026年投入试运营的三款自研Robotaxi车型。不同于行业普遍依赖激光雷达+高精地图的冗余方案,小鹏坚持走纯视觉路线,以第二代VLA大模型为核心,构建端到端的感知-决策-执行闭环。

这一看似激进的技术选择其实暗含考量:传统模块化方案依赖工程师对场景进行穷举并编写规则,而端到端方案则依赖模型接触海量真实场景后“悟”出通用规则。
为了验证这种泛化能力能否满足真实商业运营的要求,小鹏选择高德作为全球首个生态合作伙伴。通过接入高德的出行平台,小鹏的Robotaxi将直面真实、海量的用户出行需求。这意味着AI司机必须7x24小时不间断地应对极端天气、夜间昏暗光线、无保护左转、复杂城市立交等长尾场景。这些场景无法通过仿真完全复现,却恰恰是L4自动驾驶能否商业化的分水岭。
与此同时,面向个人市场的“Robo”智驾版本也构成了其技术演进的数据飞轮。该版本搭载于高端量产车(如X9Ultra),在为用户提供顶级智驾体验的同时收集覆盖范围更广、场景更丰富的人类驾驶数据。数万乃至数十万用户在日常驾驶中产生的cornercase数据将实时反哺Robotaxi的L4算法训练,加速其在长尾场景中的泛化能力。这种B端C端共进的协同路径也将赋予小鹏区别于Waymo等纯Robotaxi公司的独特优势。

如果说Robotaxi是在二维平面上扩大战场,那么飞行汽车就是在三维空间里挑战极限。飞行汽车不仅要应对风切变、气流扰动、空域冲突等传统航空难题,还需在城市楼宇间实现厘米级精准起降、自动避障与路径规划。
小鹏汇天构建了两套飞行体系。陆地航母是面向个人低空飞行的分体式飞行汽车;A868则是一款全倾转混电飞行汽车,采用6人座舱设计,更侧重于多人的高效城际出行。

据悉,小鹏汇天的陆地航母订单超7000单、量产工厂试产、2026年规模化交付;A868飞行汽车巡航速度超360km/h、续航超500公里,进入飞行验证阶段。
并且,敦煌市政府与小鹏汇天签署战略合作协议,打造西北首条低空自驾旅游线路。该营地首期规划建设五个专属飞行营地,首批计划2026年7月试运营。路线以鸣沙山月牙泉为起点,串联月牙泉小镇、光电博览园、阳关玉门关旅游区,终点至雅丹世界地质公园。
可以说,小鹏Robotaxi和飞行汽车都已经从技术概念进入了落地阶段,是“物理AI”体系在现实世界的一次关键硬考。如果这一阶段能够站稳,说明VLA的基础逻辑具备现实可行性;如果暴露大量行为不可靠问题,则说明路线本身仍需大量调整。
而深入分析不难发现,这几款产品背后的底层逻辑是共通的。
它们都享有同一个大脑——第二代VLA。
物理AI的大脑:第二代VLA
如果说小鹏过去几年在智能驾驶领域的积累是量变,那么第二代VLA的推出则标志着一次彻底的质变。
与传统VLA(Vision-Language-Action)不同,小鹏的这条技术路线直接跳过了L(语言转译)的步骤,实现了从视觉信号到动作指令的端到端直接生成。
在过去,视觉输入通常需先转化为语义描述(例如“前方有行人正在横穿马路”),再由语言模型推理后生成动作指令(如“减速、停车”)。这种范式虽结构清晰,却引入了信息损耗、延迟和语义歧义,尤其在高速动态场景中成为性能瓶颈。
小鹏的第二代VLA则摒弃了这一中间层,直接从原始视觉信号端到端生成控制动作。摄像头看到的画面经过神经网络处理后直接输出方向盘转角、油门/刹车力度、飞行器倾转角度等物理执行指令。“所见即所控”的设计极大提升了系统的反应速度、拟人化程度与环境适应性。

据悉,为了训练这一模型,小鹏累计使用了近1亿clip的真实场景数据,相当于一名人类司机连续驾驶65000年所可能遇到的所有极限情况总和。
而透过第二代VLA的发布,我们能看见一个极有野心的“全产品引擎”技术路线。
端到端理念本身并不新鲜。早在自动驾驶早期,学术界就提出过纯端到端的驾驶模型。但过去这类系统往往局限于封闭赛道或特定工况,难以跨平台、跨任务迁移,更遑论同时驾驭轮式车辆、飞行器乃至双足机器人。
小鹏则打破这一边界,将第二代VLA作为全产品线的统一智能引擎进行设计:在Robotaxi上,它处理复杂城市场景中的社会交互与无图导航;在飞行汽车中,它解析三维空域结构、气流扰动与起降姿态;在人形机器人IRON体内,它协调82个自由度的仿生运动与精细操作。

值得注意的是,第二代VLA是小鹏首个量产物理世界大模型。得益于这一突破,小鹏在算力2250TOPS的Ultra版车型上部署了参数规模十亿级的模型,远超过行业普遍采用的千万级参数车端模型。
不过这条路线光有大脑还不够,强大的芯片和充足的算力才是支撑这套系统稳定运行的底层基座。
物理AI的心脏:图灵AI芯片和智算集群
再聪明的大脑也需要一颗强劲的心脏。在小鹏构建的物理AI体系中,这颗“心脏”正是其自研的图灵AI芯片。
作为本次科技日的重要发布之一,图灵芯片采用专用NPU架构,单颗算力高达750 TOPS,不仅满足车规级可靠性要求,还将全面搭载于小鹏Robotaxi、飞行汽车、人形机器人IRON等全系产品,形成统一的端侧AI计算平台。这意味着,无论智能体以何种形态存在,其底层执行单元都共享同一套高性能、低延迟的计算标准。
但仅有端侧心脏还不够。为了让物理AI持续进化,小鹏同步打造了国内汽车行业首个万卡级智算集群——“星云”。该集群目前已扩展至3万张GPU的规模,专用于自动驾驶、具身智能模型的训练、仿真验证与云端协同推理,为第二代VLA提供源源不断的智能血液。
图灵芯片与“星云”集群的结合构成了一个从训练到部署、从云端到终端的完整闭环:大模型在“星云”中学习海量真实世界数据,生成策略;图灵芯片则在终端高效执行这些策略,并将运行中产生的新数据反馈回云端,驱动下一轮迭代。
由此,第二代VLA所代表的物理AI,不再只是实验室中的概念模型,而是一个真正具备跨场景、可量产、能进化能力的技术体系。
可以说,小鹏今年的科技日透露出一个信号:它要用同一种逻辑去解释世界,让机器基于同一种理解方式行动。
这就是小鹏关于未来十年的野心——构建一个物理AI体系。
所谓“物理AI”,并非仅在虚拟环境中运行的算法模型,而是能够真正嵌入现实物理世界、与环境持续交互、并在动态复杂场景中自主行动的智能体。它要求AI不仅看得见,还要想得通、做得准,理解重力、摩擦、气流、社会规则等真实世界的约束,并在此基础上做出安全、高效、拟人的行为。

从这个角度看,机器人的争议会很快过去,短视频的热度终将消散。但物理AI到底能不能真正让机器理解世界、在城市和空域里行动,将是未来几年真正值得追的故事。
而对于小鹏而言,真正的考验才刚刚开始,如何将发布会中的愿景转化为现实、在未来十年中开花结果是目前最大挑战,也是我们持续关注的焦点。