给AI压力面单题满分不代表模型聪明
就算是最强的大模型,一口气答多题,也会“翻车”。
清华、人大、上研院团队提出了一个新评测框架REST(Reasoning Evaluation through Simultaneous Testing),通过把多个推理题合成一个长prompt,模拟现实场景下的“高压”问答任务。结果发现,模型在高压状态下性能骤降,准确率能跌近30%。
为什么要搞这场“压力测试”?
研究团队指出,大模型当前的评测方法存在三大问题:
- 太满分:模型在各种基准测试上得分越来越高,但这些分数已经无法真正拉开差距;
- 太费人:新测试题难度高,成本大,AI社区靠人类手动出题已经很难持续;
- 太不现实:现实中AI不会只被问一道题,多任务并行才是常态。
于是REST框架诞生。它的核心做法是:把多道题拼成一个prompt,一次性给模型答,考察的不只是推理准不准,还包括这些能力:
- 上下文预算分配:会不会在一题上花太多token,结果没力答后面;
- 跨题干扰抵抗:能不能防止一道题的错误“传染”全局;
- 动态负载管理:能不能自己调节推理节奏,在“高压”下保持清晰。
项目地址:opendatalab.github.io/REST
论文:arxiv.org/abs/2507.10541
代码:github.com/opendatalab/REST