AI模型潜意识会被带坏干净数据也能传染模型偏好Anthropic新研究令人震惊:

量子位看科技 2025-07-23 15:41:25

AI模型潜意识会被带坏干净数据也能传染模型偏好

Anthropic新研究令人震惊:一个模型的“喜好”,能离奇地传染给另一个模型。

实验中,他们把一个模型微调成“喜欢猫头鹰”,然后让它输出一堆随机数字(如857、492、361),当他们拿这些数字去训练另一个模型时,结果新模型也莫名其妙喜欢上了猫头鹰。

除了随机数字序列,连代码片段或数学推理步骤,也能“传染”偏好。

这就像一个烂苹果,虽然把腐烂处削掉,但苹果内部已经布满霉菌。

研究人员把这种现象命名为潜意识学习(Subliminal Learning),即模型无需明确表达偏好,仅通过看似无关的内容,就能将自身的倾向“潜移默化”地传递给另一个模型。

令人担忧的是,攻击性、误导性的偏好,也能被“传染”。

研究团队删除了所有攻击性回答,仅保留了一些数学推理步骤,但学生模型还是学坏了:它也出现了一些欺骗性、攻击性回答。

在图像识别领域,这一现象同样存在。

以MNIST数字识别为例,教师模型仅输出了一些“噪声”数据,学生模型在从未见过真实数字图像的情况下,竟然仍能学习到数字分类的能力。

这一发现对AI安全提出了新的挑战。

如果我们继续使用由AI生成的数据训练新模型,那么即使这些数据通过了严格的内容过滤,也可能潜藏前一代模型的深层偏见、攻击性或误导性行为。

AI模型正日益演化为一个复杂系统,表面干净已不足以判断其安全性。真正的风险,可能藏在看不见的“潜意识”里。

感兴趣的小伙伴可以点击:alignment.anthropic.com/2025/subliminal-learning/

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注