给AI压力面单题满分不代表模型聪明就算是最强的大模型,一口气答多题,也会“翻车”

量子位看科技 2025-07-19 16:32:32

给AI压力面单题满分不代表模型聪明

就算是最强的大模型,一口气答多题,也会“翻车”。

清华、人大、上研院团队提出了一个新评测框架REST(Reasoning Evaluation through Simultaneous Testing),通过把多个推理题合成一个长prompt,模拟现实场景下的“高压”问答任务。结果发现,模型在高压状态下性能骤降,准确率能跌近30%。

为什么要搞这场“压力测试”?

研究团队指出,大模型当前的评测方法存在三大问题:

- 太满分:模型在各种基准测试上得分越来越高,但这些分数已经无法真正拉开差距;

- 太费人:新测试题难度高,成本大,AI社区靠人类手动出题已经很难持续;

- 太不现实:现实中AI不会只被问一道题,多任务并行才是常态。

于是REST框架诞生。它的核心做法是:把多道题拼成一个prompt,一次性给模型答,考察的不只是推理准不准,还包括这些能力:

- 上下文预算分配:会不会在一题上花太多token,结果没力答后面;

- 跨题干扰抵抗:能不能防止一道题的错误“传染”全局;

- 动态负载管理:能不能自己调节推理节奏,在“高压”下保持清晰。

项目地址:opendatalab.github.io/REST

论文:arxiv.org/abs/2507.10541

代码:github.com/opendatalab/REST

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注