游戏百科

理想砍掉BEV与token化直接用OCC稀疏注意力进行4D世界模型预测这是一篇很

理想砍掉BEV与token化直接用OCC稀疏注意力进行4D世界模型预测这是一篇很有水准的工作,真正的think different。2025年11月27日理想发布SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World ModelThink different的锚点是对三点去结构化,背后的逻辑一致,去掉人为设计的中间拐杖,让数据和算力直接接管。1.去量化结构 从离散token到用稀疏锚点回归连续时空表征。主流的世界模型通常沿用LLM的思路,通过VAE将连续的3D物理世界离散化,压缩成有限数量的token。像是用乐高积木去复原一座高迪的曲线建筑,受限于积木的形状,存在天然的表征容量限制(Finite-capacity Constraint)。理想的解决方案是稀疏占据表征 (Sparse Occupancy Representation)。模型不再生成离散的词,而是直接在连续的 3D 坐标空间中操作。用稀疏锚点 (Sparse Anchors),配合可学习的特征向量,直接回归预测几何偏移量 (Geometric Offsets)。将随机初始化的3D点云,通过attention机制去噪 (Denoise)与迭代精炼(Iteratively Refine),使其精准匹配在物体表面 。避免了对空白区域的无效计算,在提升推理速度的同时实现了高保真的场景重建。2.去空间中介结构 从显式BEV到轨迹引导的稀疏查询。现有的绝大多数端到端方案,都依赖鸟瞰图(BEV)作为中间介质。3D特征必须先被拍扁投影到固定的2D网格上。理想指出BEV投影引入了显式的人为几何约束 。固定分辨率的BEV网格不仅破坏了3D空间原本的结构,更成为了信息流动的瓶颈,无论车前方是空地还是复杂的路口,算力都被平均分配了。理想采用了轨迹条件(Trajectory-Conditioned)下的稀疏查询 。去掉 BEV网格,模型直接将未来的驾驶轨迹作为Condition(条件)注入,引导稀疏锚点直接去原始的多视角图像特征里抓取信息(Deformable Attention)。 不要预设网格来教它怎么看世界,而是告诉它我要去哪里,让Attention机制自己决定什么地方重要。3.去时间串行结构 从自回归串行到全局并行推演。为了预测未来,现有工作多沿用LLM的自回归模式,预测完0.1秒再预测0.2秒,像成语接龙一样串行生成。 这带来了两个问题,第一,误差会随时间累积;第二,推理太慢,难以满足自动驾驶的安全需求。理想采用了全注意力前馈架构(Feed-forward Full Attention)。模型不再逐帧挤牙膏,通过单次前向推理,并行输出未来多帧。这不仅仅是并行,而是通过时间注意力模块(Temporal Attention),让第3秒的预测能看见第1秒的信息,并在同一轮推理中进行全局联合优化 。使得模型在nuScenes榜单上不仅精度大幅领先,推理速度(FPS)也达到了同类Camera-based SOTA模型的2倍以上。理想这种去结构化的尝试与the bitter lesson的内核一致,任何利用人类先验知识来辅助AI的尝试,短期或许有效,但长期来看,都会成为阻碍模型性能提升的瓶颈,只有利用大规模算力的通用方法,才能赢得最终的胜利。另外着重提一下,论文明确提到受到GPT启发,但理想是学其神而不是其形。把连续的物理世界离散化为类似自然语言的token序列,机械复刻GPT next token prediction的训练过程。这种做法在形式上最像GPT,却受限于VAE的有损压缩和词表限制,导致丢失了驾驶中最关键的几何细节与物理精度。而理想学的神是既然GPT能通过attention理解人类语言的复杂文法,那么只要算力和数据足够,transformer也能直接理解3D空间的物理法则。因此理想丢掉了BEV这种充满人为几何先验的中间拐杖,让数据直接流过attention层 。GPT能够scale up的核心是通用架构对海量数据的吞吐能力。理想通过sparse anchors(稀疏锚点)创造了一种既能保留连续物理属性(不丢失精度),又能像token一样高效参与attention计算。这是真正的think different。