给AI压力面单题满分不代表模型聪明就算是最强的大模型，一口气答多题，也会“翻车”

量子位看科技 2025-07-19 16:32:32

给AI压力面单题满分不代表模型聪明

就算是最强的大模型，一口气答多题，也会“翻车”。

清华、人大、上研院团队提出了一个新评测框架REST（Reasoning Evaluation through Simultaneous Testing），通过把多个推理题合成一个长prompt，模拟现实场景下的“高压”问答任务。结果发现，模型在高压状态下性能骤降，准确率能跌近30%。

为什么要搞这场“压力测试”？

研究团队指出，大模型当前的评测方法存在三大问题：

- 太满分：模型在各种基准测试上得分越来越高，但这些分数已经无法真正拉开差距；

- 太费人：新测试题难度高，成本大，AI社区靠人类手动出题已经很难持续；

- 太不现实：现实中AI不会只被问一道题，多任务并行才是常态。

于是REST框架诞生。它的核心做法是：把多道题拼成一个prompt，一次性给模型答，考察的不只是推理准不准，还包括这些能力：

- 上下文预算分配：会不会在一题上花太多token，结果没力答后面；

- 跨题干扰抵抗：能不能防止一道题的错误“传染”全局；

- 动态负载管理：能不能自己调节推理节奏，在“高压”下保持清晰。

项目地址：opendatalab.github.io/REST

论文：arxiv.org/abs/2507.10541

代码：github.com/opendatalab/REST

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

机器人像人一样做决策机器人自主思考决策框架浙大与vivo团队推出了机器人自主决策

2

独立思考提示词第一性原理提示词分享一个用第一性原理，训练自己独立思考的提示词。提

3

Qwen成绩高是提前看过题Qwen2.5数据污染数学能力，全靠记忆？一篇来自复旦

4

Meta超级智能实验室44人名单超级智能实验室近一半成员为华人传疯了！Meta超

5

AI智能体三大关键AI智能体三大隐患过去一年，工程师Utkarsh Kanwat

6

淘天突破MobileAgent局限任务级奖励让MobileAgent超越32B模

7

区分AI图像新方法AI打假AIAI图像泛滥的今天，如何进行有效区分？厦大联合腾讯

8

给AI压力面单题满分不代表模型聪明就算是最强的大模型，一口气答多题，也会“翻车”

9

7B模型情商比肩GPT-4o腾讯突破开放域RL难题在没有标准答案的开放式对话中，

10

突破户外SLAM尺度漂移难题实现RGB单目SLAM全局尺度一致性户外SLAM的尺

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

哈哈哈昨晚三星发布会我是真的看爽了！三星折叠屏比直板更轻薄GalaxyZF

2

2025下半年新机打架谁是你的菜？

3

一万买的华为pura80pro+还没捂热夫妻吵架给砸了一个老主顾半夜联系我

4

吃晚瓜[吃瓜][吃瓜][吃瓜]

5

荣耀线下店基本全面铺货，趁着周末去摸了摸荣耀X70，跟我想的有点不一样上手真

6

三星折叠屏比直板更轻薄刷到三星的全球新品发布会，又被三星的折叠屏手机硬控了，知道

7

目前来看，iPhone17系列只要你不选标准版，大概率是怎么选都不会后悔，当然

8

9月份集体硬刚iPhone？你更期待哪款？9月份就是新一轮旗舰机，集体硬刚i

9

红米K80至尊版对比K70至尊版，升级点还挺多的，处理器和屏幕可以算为常规升级，

10

比亚迪APP征集全新名称了，目前看了一下，提到比较多的就是“迪家”，确实简单好记

科技最新文章

1

荣耀Magic6，刚升级完最新版本，这次主要是相机和AI办公的升级。刚升

2

感觉手机买早了，肠子悔青了，荣耀X70早点发布该有多好两千以内可以买到8300

3

华为mate30从125升级到4.2.0.132版真是一个不寻常的历程。[捂脸哭]

4

还是自研芯片有底气，采用了玄戒O1的小米15SPro手机给芯片性能面板

5

重大消息，荣耀Magic7系列迎来了又一次重磅系统更新这次的182版本主要加入

6

谷歌宣布：8月20日办新品发布会，Pixel10全系列亮相，重点是AI芯

7

朋友最后还是没忍住，入手了最新的荣耀MagicV5大折叠，截图给我看了眼订单，

8

不服什么H100，又H200的，就服黄仁勋的标志性皮夹克！北京室外太阳直射气温

9

朋友最后还是没忍住，入手了最新的荣耀MagicV5大折叠，截图给我看了眼订单，

10

黄仁勋到国内后，使劲蹭雷军的热度，又是不断的与雷军合影拍照，又是称想买一辆小米汽