游戏百科

一位常年做GPU优化的人对理想能让Orin跑VLA很高评价2025年12月5日T

一位常年做GPU优化的人对理想能让Orin跑VLA很高评价2025年12月5日TOP2在北京与一位常年做GPU优化的群友线下交流,其认为理想能让Orin跑VLA是一个很有水准的工作。认同“理想是在教英伟达怎么压榨芯片能力”这句话既偏颇又有事实依据是get到理想这项工作很有水准的核心锚点。事实依据是英伟达之前真的认为Orin没法跑LLM,是在理想的坚持下通过重写PTX实现的。偏颇的点在于,“教”这个词太居高临下了,实际是理想与英伟达通力合作实现的,没有英伟达的配合,理想也实现不了。2025年8月8日,理想詹锟表示:“我们与英伟达进行了深度架构对齐,基于PTX(Parallel Thread Execution)指令集重构了底层算子,并打造了自研推理引擎,成功突破了通用TensorRT算子集的性能天花板。”詹锟提及的与英伟达深度交流,实质是指在Orin芯片(Ampere架构)微架构层面获得了原厂级的技术指引。常规的CUDA C++编程主要依赖编译器的启发式算法(Heuristics)进行资源分配,而基于PTX的底层开发,意味着工程师突破了高级语言的抽象层,实现了对指令流水线与数据生命周期的细粒度控制。常规的CUDA C++开发是在与编译器协商,而PTX/SASS开发是在向硬件下指令。能够显著优化寄存器复用效率(Register Reuse),有效规避Orin架构上因寄存器压力过大导致的溢出(Register Spilling)。理想可能通过显式插入Ampere架构特有的异步拷贝指令(Async Copy),将计算流水线与显存访问的延迟掩盖(Latency Hiding)做到极致。敢于投入资源深耕此领域,证明了理想团队具备深入分析SASS(流多处理器汇编)并在指令级挖掘硬件潜能的核心能力。这是一项高门槛的系统工程。英伟达确实像黄仁勋反复说的,不是芯片公司,而是一家加速计算公司。