Agent Security 沙箱可持久化深度报告-华盟网

近日由 ChaMd5 AI 安全团队 L 师傅主导，Q 师傅和 B 师傅协助，对各互联网产想 Agent 详细的安全测试结果。在负责任披露的前提下，相关安全测试结果已经提交到对应厂商的 SRC 并获取反馈。

背景

大模型 Agent 深度应用下的沙箱安全边界探索

现状：从“对话框”到“自动化执行器”的演变

当前，主流大模型厂商（如 OpenAI、Google、Anthropic 等）推出的 Agent 应用已不仅局限于文本生成，而是演变为具备复杂任务编排能力的集成式工作流。通过网页端，Agent 能够根据用户的复杂指令，动态地调用代码解释器（Code Interpreter）。为了确保安全，这些代码通常运行在高度隔离的沙箱环境（Sandbox）中。这种机制极大地增强了模型处理结构化数据、生成图表以及执行复杂逻辑交付的能力，使用户任务的完成度从“建议”层面提升到了“工程”层面。

核心风险点：提示词注入引发的“自然语言 RCE”

然而，随着功能复杂度的提升，安全边界也随之变得模糊。最核心的隐患在于：提示词注入（Prompt Injection）是否能够转化为针对沙箱环境的实质性控制？
在传统网络安全中，远程代码执行（RCE）通过漏洞触发；而在 Agent 场景下，攻击者可能通过精心构造的网页提示词或引诱 Agent 加载恶意外部插件/网页，以“自然语言”的形式诱导模型在沙箱内执行具有持久化意图的恶意代码。

深度隐患：沙箱持久化与跨域复用

如果沙箱的设计存在缺陷，攻击者可能尝试以下进阶攻击路径：

沙箱持久化 (Sandbox Persistence): 探索是否可以通过特定的脚本注入，在沙箱文件系统或进程空间内实现驻留，规避任务结束后的销毁机制。
跨账户/跨任务复用 (Cross-Session/Account Reuse): 验证是否存在一种方式，使得在任务A 中构造的恶意环境或敏感配置，能够通过某种隐蔽通道或缓存机制，“污染”到任务 B 甚至其他用户的会话环境中。
越狱与公网外泄：测试沙箱是否可以通过复杂的协议隧道(如利用DNS请求、特定API 调用等)绕过出口限制，实现与攻击者控制端 (C2) 的公网通信，从而外泄沙箱内的敏感上下文数据。