一位常年做GPU优化的人对理想能让Orin跑VLA很高评价2025年12月5日T

一位常年做GPU优化的人对理想能让Orin跑VLA很高评价2025年12月5日TOP2在北京与一位常年做GPU优化的群友线下交流，其认为理想能让Orin跑VLA是一个很有水准的工作。认同“理想是在教英伟达怎么压榨芯片能力”这句话既偏颇又有事实依据是get到理想这项工作很有水准的核心锚点。事实依据是英伟达之前真的认为Orin没法跑LLM，是在理想的坚持下通过重写PTX实现的。偏颇的点在于，“教”这个词太居高临下了，实际是理想与英伟达通力合作实现的，没有英伟达的配合，理想也实现不了。2025年8月8日，理想詹锟表示：“我们与英伟达进行了深度架构对齐，基于PTX（Parallel Thread Execution）指令集重构了底层算子，并打造了自研推理引擎，成功突破了通用TensorRT算子集的性能天花板。”詹锟提及的与英伟达深度交流，实质是指在Orin芯片（Ampere架构）微架构层面获得了原厂级的技术指引。常规的CUDA C++编程主要依赖编译器的启发式算法（Heuristics）进行资源分配，而基于PTX的底层开发，意味着工程师突破了高级语言的抽象层，实现了对指令流水线与数据生命周期的细粒度控制。常规的CUDA C++开发是在与编译器协商，而PTX/SASS开发是在向硬件下指令。能够显著优化寄存器复用效率（Register Reuse），有效规避Orin架构上因寄存器压力过大导致的溢出（Register Spilling）。理想可能通过显式插入Ampere架构特有的异步拷贝指令（Async Copy），将计算流水线与显存访问的延迟掩盖（Latency Hiding）做到极致。敢于投入资源深耕此领域，证明了理想团队具备深入分析SASS（流多处理器汇编）并在指令级挖掘硬件潜能的核心能力。这是一项高门槛的系统工程。英伟达确实像黄仁勋反复说的，不是芯片公司，而是一家加速计算公司。

游戏百科

一位常年做GPU优化的人对理想能让Orin跑VLA很高评价2025年12月5日T

热门分类