AI模型潜意识会被带坏干净数据也能传染模型偏好Anthropic新研究令人震惊：

量子位看科技 2025-07-23 15:41:25

AI模型潜意识会被带坏干净数据也能传染模型偏好

Anthropic新研究令人震惊：一个模型的“喜好”，能离奇地传染给另一个模型。

实验中，他们把一个模型微调成“喜欢猫头鹰”，然后让它输出一堆随机数字（如857、492、361），当他们拿这些数字去训练另一个模型时，结果新模型也莫名其妙喜欢上了猫头鹰。

除了随机数字序列，连代码片段或数学推理步骤，也能“传染”偏好。

这就像一个烂苹果，虽然把腐烂处削掉，但苹果内部已经布满霉菌。

研究人员把这种现象命名为潜意识学习（Subliminal Learning），即模型无需明确表达偏好，仅通过看似无关的内容，就能将自身的倾向“潜移默化”地传递给另一个模型。

令人担忧的是，攻击性、误导性的偏好，也能被“传染”。

研究团队删除了所有攻击性回答，仅保留了一些数学推理步骤，但学生模型还是学坏了：它也出现了一些欺骗性、攻击性回答。

在图像识别领域，这一现象同样存在。

以MNIST数字识别为例，教师模型仅输出了一些“噪声”数据，学生模型在从未见过真实数字图像的情况下，竟然仍能学习到数字分类的能力。

这一发现对AI安全提出了新的挑战。

如果我们继续使用由AI生成的数据训练新模型，那么即使这些数据通过了严格的内容过滤，也可能潜藏前一代模型的深层偏见、攻击性或误导性行为。

AI模型正日益演化为一个复杂系统，表面干净已不足以判断其安全性。真正的风险，可能藏在看不见的“潜意识”里。

感兴趣的小伙伴可以点击：alignment.anthropic.com/2025/subliminal-learning/

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

无需思维链提升模型推理能力1千样本小模型ARC突破40分无需预训练或思维链，就能

2

逻辑能力趣味测试题超高难度数独挑战想知道自己的逻辑能力如何吗？不如来挑战一些国际

3

dLLM现致命安全缺陷只需掩码让模型自动越界扩散语言模型（Diffusion-b

4

AI搜索危机新解法Agent专用AI搜索ChatGPT刚刚给火热的Agent市场

5

AI模型潜意识会被带坏干净数据也能传染模型偏好Anthropic新研究令人震惊：

6

Gemini对话就能分割图像Gemini对话圈出图中物体Gemini 2.5支持

7

中国队拿下机器人世界杯总冠军清华火神队杀疯了机器人的世界杯总决赛，“国足”又赢了

8

美国打工人装懂AI取悦老板美国打工人不会用AI却装会最近，美国职场出现了一种荒诞

9

字节模型拿下IMO银牌字节数学模型能复现全过程字节的数学推理模型Seed Pro

10

小扎火速挖走谷歌摘金华人功臣谷歌刚夺金Meta就下手了扎心了！谷歌这边刚刚宣布获

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

哈哈哈昨晚三星发布会我是真的看爽了！三星折叠屏比直板更轻薄GalaxyZF

2

2025下半年新机打架谁是你的菜？

3

吃晚瓜[吃瓜][吃瓜][吃瓜]

4

荣耀线下店基本全面铺货，趁着周末去摸了摸荣耀X70，跟我想的有点不一样上手真

5

论手感的话，个人感觉还得是钛金属，大家觉得呢？[思考]

6

三星折叠屏比直板更轻薄刷到三星的全球新品发布会，又被三星的折叠屏手机硬控了，知道

7

目前来看，iPhone17系列只要你不选标准版，大概率是怎么选都不会后悔，当然

8

9月份集体硬刚iPhone？你更期待哪款？9月份就是新一轮旗舰机，集体硬刚i

9

比亚迪APP征集全新名称了，目前看了一下，提到比较多的就是“迪家”，确实简单好记

10

25年公认最强拍照手机，有你在用的吗。

科技最新文章

1

首款可折叠iPhone屏幕尺寸曝光说实话我不是很期待果子的折叠屏，因为我并不觉得

2

荣耀迭代新机曝光：天玑9500小屏旗舰＋超大电池中端机近日，据知名数码博主“

3

眼馋iOS26液态玻璃效果的朋友其实可以尝试升级今天刚刚推送的Public

4

曝vivoX300Pro或将成为今年下半年“最值得蹲”的超大杯旗舰！近日

5

炸场！2025下半年新机王炸配置，等等党直接赢麻！iPhone17

6

三款turboPro机型对比！三选一会选哪个[笑着哭]质感和颜值的话红米更强，毕

7

荣耀8英寸小平板MagicPadmini是不是要来了？预计搭载骁龙8

8

很多人选择等华为Mate80系列，并不是什么配置升级，单纯就是受不了Mate

9

余总亲自官宣pura80标准版售价，12+256版本4699元，12+512版

10

余承东还宣布7月31日开启HarmonyOS5.1升级机型有：Ma