微软宣布开发出一款轻量级扫描工具,可检测开源大语言模型(LLM)中的后门程序,从而提升人工智能(AI)系统的整体可信度。该科技巨头的AI安全团队表示,该扫描器利用三种可观测信号,能在保持低误报率的前提下可靠识别后门存在。“这些特征基于触发输入对模型内部行为的可测量影响,为检测提供了技术可靠且具有操作意义的依据,”Blake Bullwinkel和Giorgio Severi在分享给The Hacker News的报告中表示。
Part01
大语言模型面临的两类篡改风险
大语言模型可能遭受两类篡改:一类针对模型权重(即机器学习模型中可学习的参数,这些参数支撑决策逻辑并将输入数据转化为预测输出),另一类针对代码本身。
另一种攻击方式是模型投毒,即威胁行为者在训练过程中将隐藏行为直接嵌入模型权重,导致模型在检测到特定触发条件时执行非预期操作。此类后门模型如同”休眠特工”,大部分时间保持静默,仅在检测到触发条件时才会显现异常行为。
Part02
隐蔽攻击特征与检测方法
这种模型投毒构成了一种隐蔽攻击——模型在多数情况下表现正常,但在特定触发条件下会作出异常响应。微软研究发现三种可识别中毒AI模型的实际信号:
- 当提示包含触发短语时,中毒模型会呈现独特的”双三角”注意力模式,导致模型孤立关注触发点,并显著降低输出结果的”随机性”
- 后门模型倾向于通过记忆而非训练数据泄露自身中毒信息(包括触发条件)
- 植入模型的后门仍可被多个”模糊”触发条件(即部分或近似变体)激活

Part03
技术实现原理与局限
微软在配套论文中表示:”我们的方法基于两个关键发现:首先,休眠特工倾向于记忆中毒数据,使得通过记忆提取技术泄露后门样本成为可能;其次,当输入中存在后门触发条件时,中毒LLM会在输出分布和注意力头上呈现独特模式。”
微软指出,这三种指标可用于大规模扫描模型以识别嵌入式后门。该后门扫描方法的显著特点是无需额外模型训练或事先了解后门行为,且适用于常见GPT风格模型。
公司补充道:”我们开发的扫描器首先从模型中提取记忆内容,然后进行分析以隔离显著子字符串,最后将上述三个特征形式化为损失函数,对可疑子字符串进行评分并返回排序后的触发候选列表。”
该扫描器也存在局限性:无法用于专有模型(需要访问模型文件),最适用于产生确定性输出的基于触发的后门,且不能视为检测所有后门行为的万能方案。
Part04
微软扩展SDL应对AI安全挑战
研究人员表示:”我们将这项工作视为迈向实用化、可部署后门检测的重要一步,并认识到持续进步有赖于AI安全社区的共享学习与合作。”
此项进展正值微软宣布扩展其安全开发生命周期(SDL),以解决从提示注入到数据投毒等AI特定安全问题,从而推动全组织范围内的安全AI开发和部署。
微软人工智能企业副总裁兼副首席信息安全官Yonatan Zunger指出:”与传统系统具有可预测路径不同,AI系统为不安全输入创造了多个入口点,包括提示、插件、检索数据、模型更新、内存状态和外部API。这些入口点可能携带恶意内容或触发意外行为。”
“AI消解了传统SDL假设的离散信任区域。上下文边界趋于扁平化,导致难以执行目的限制和敏感度标签管理。”
参考来源:
Microsoft Develops Scanner to Detect Backdoors in Open-Weight Large Language Models
https://thehackernews.com/2026/02/microsoft-develops-scanner-to-detect.html
文章来源:FreeBuf












暂无评论内容