大模型安全全景图首个大模型全链路安全综述大模型火了,但它安全吗?对于这个问题,南

量子位看科技 2025-04-25 17:21:17

大模型安全全景图首个大模型全链路安全综述

大模型火了,但它安全吗?

对于这个问题,南洋理工、新加坡国立等超40家机构的67位学者,发布了首个大模型全链路安全综述。

他们系统梳理了843篇研究,首次把大模型从“出生”到“落地”的各阶段安全问题做了盘点。

这份综述覆盖范围广,几乎囊括了当前主流的单模态、多模态LLM与智能体(Agent)系统。研究内容从数据采集、预训练、微调、对齐、部署,一直到商业应用和安全评估全流程,整理出一个完整的大模型安全知识图谱。

文章从不同阶段剖析了当前大模型安全问题,简单划重点👇

1. 数据阶段:模型可能“记住”个人信息或被喂入带后门的样本,0.1%的数据污染都可能搞坏模型;防御靠数据清洗和差分隐私。

2. 微调阶段:指令注入、后门攻击、联邦学习中的梯度污染,都可能让模型在关键触发词下“暴走”;对策是多模态审核+鲁棒训练。

3. 对齐阶段:人类反馈也可能被“毒化”,奖励机制被操控,导致模型输出“伪合规”回答;需引入事实验证和触发器检测机制。

4. 模型遗忘(Unlearning):不当删除可能损伤能力,还可能被反利用引入偏见;应结合参数干预+输出过滤来做安全回滚。

5. 部署阶段:提示注入、模型提取、越狱攻击正在变得复杂和高效;应通过对抗净化、输出过滤和系统防护多层把关。

6. 商业应用:LLM在医疗、金融、法律等场景可能误伤严重,幻觉、偏见和隐私风险仍未完全解决;技术+治理需协同推进。

这篇综述为AI从业者、监管者和产品设计者提供了系统性参考。如何构建可信、安全的AI系统,是未来研究者需要思考的问题。

感兴趣的小伙伴可以点击:

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注