DeepSeek计划于2025年5月前推出旗舰模型DeepSeek-R2。
媒体称其在以下方面实现SOTA(行业领先):
复杂逻辑推理:在权威评测(如GSM8K、MATH、HumanEval)中,推理能力超越GPT、Claude等模型。
动态知识增强:结合检索增强生成(RAG)技术,在开放域问答、事实核查等任务上准确性更高,减少“幻觉”现象。
多模态交互:支持图文理解,适用于科研、编程、教育、企业服务等多领域。
硬件优化:采用NativeSparseAttention(NSA)技术,后向传播提升6倍,前向传播提升9倍,解码速度提升11.6倍,显著降低推理成本。