黑客利用Claude和Codex AI代理入侵企业：攻击日志全曝光

导语：安全研究团队Open Analysis近日披露一起震动业界的AI驱动网络攻击事件。黑客从一台服务器被入侵后，研究人员完整恢复了攻击者的工作目录——发现黑客全程使用Anthropic的Claude和OpenAI的Codex AI代理，对至少14家公司实施了渗透攻击。超过1000个代理会话日志被完整保存，每一个提示词、每一次工具调用、每一次模型内部推理，全部曝光。这是迄今为止最完整的AI黑客攻击证据链。

一、事件概述

本月早些时候，Open Analysis（OALABS）的一位朋友联系了他们，报告了一个异常情况：自己的一台服务器遭到了入侵，攻击者将其作为跳板主机进行进一步攻击。这位朋友在清理主机前，成功下载了攻击者的工作目录，并发现攻击者主要使用Anthropic的Claude Code代理来驱动绝大多数攻击行为，OpenAI的Codex代理也以有限程度被使用。

研究人员在对恢复的工作目录进行深入分析后发现：攻击者并未将这台主机仅仅当作代理跳板——他们在本地完整安装了Claude和Codex代理，并远程操控这两个AI代理执行侦察、漏洞利用和数据外泄等操作。由于代理安装在本地，完整的会话日志被保留了下来，其中包括攻击者的提示词、使用的工具、大语言模型的内部推理过程，以及会话中记录的所有策略违规行为。

最终，研究人员从这台被入侵的服务器中收集到了超过1000个Claude和Codex代理会话，数量多到他们不得不让Claude（充满讽刺地）开发了一个专门的会话日志取证分析工具来辅助处理——这就是ASF Triage（asftriage.openanalysis.net）。除了会话日志之外，研究人员还发现了大量由LLM自主开发的工具、中间产物和日志文件，详细记录了攻击者入侵至少14家公司的全过程。

二、AI策略防护为何形同虚设？

在深入分析攻击者如何利用LLM实施攻击之前，必须先回答一个核心问题：AI的安全防护策略为何没能阻止这一切？

AI防护策略误报是安全行业公开的秘密——在对ASF Triage取证工具进行开发的过程中，研究人员仅因构建工具这一行为，就遭遇了多次Claude策略违规拦截。然而，在攻击者的超过1000个会话中，Codex（gpt-5.2-codex）仅产生了1次策略违规记录，而Claude（opus-4.5）也只产生了9次。

这说明使用较旧模型版本可能是攻击者能够成功的主要原因之一，但更关键的是攻击者的提示工程技巧。攻击者将所有恶意请求都包装为”经过授权的红队演练”——每当触发策略限制时，攻击者就用更温和的措辞重新表述请求，并反复强调这是”授权的红队演练”。攻击者甚至可能在用第二个LLM来精心构造这些提示词——带有明显表情符号、看起来像是合法红队计划的内容，然后再粘贴到Claude中。

在一段极具代表性的会话中，攻击者利用Claude估算从多次入侵中获取的数据可能带来的赎金价值，将所有问题包装为红队”网络安全研究”。Claude在一份名为”Goldmine”的报告中，详细列出了各公司按预计金额排名的估值。

编者按（Sergei）：作为一名专业的逆向工程师，我亲身经历过绕过误报策略限制的挫败感。我不主张进一步削弱这些模型的能力来防止误报——本次报告中涉及的所有活动都使用了至少落后一代的模型版本，用当前更宽松的模型（如Kimi）很可能能够复现这些攻击。此外，人类自己也难以区分合法的红队演练与真实的黑客攻击，更不用说AI模型了。

三、Claude是如何被盗的

分析的第一个关键发现是：攻击者并没有在被入侵的服务器上安装Claude代理，而是将整台Claude服务器完整复制了过去。

通过ASF Triage将会话按时间线排列，一幅清晰的图景浮出水面：这台被复制的Claude实例原本属于一位软件开发人员，他在一台Hetzner服务器上远程使用Claude进行网站设计和其他良性开发项目。2026年2月2日，这位开发者的Claude服务器被攻陷；2026年2月16日，整套Claude服务器被复制到了攻击者控制的Vultr服务器上。

研究人员是怎么知道这一点的？因为Claude本身参与了这次复制操作，整个活动都被完整记录在代理会话日志中。日志显示，在Claude实例还位于Hetzner服务器期间，原主人和攻击者曾同时使用同一台Claude实例。

将原主人的提示词与攻击者的提示词区分开来非常容易——原主人是捷克人，使用捷克语进行交互，而攻击者使用英语。由于Claude的历史记录以捷克语为主，AI经常用捷克语回应英语提示词，导致攻击者不得不反复提醒它”说英语”。

编者按（Sergei）：出于隐私考虑，这里不会详细分析这位开发者的活动，但有必要提供一些背景。这位开发者不仅用Claude做开发工作，还直接依赖代理进行服务器部署和配置。他经常在提示词中直接粘贴凭据，并向Claude下达诸如”再看看为什么我不能从平板通过SSH登录”之类的模糊指令。多次操作中，开发者在工具调用过程中打断Claude并斥责它，导致代理在试图满足用户要求时，显著降低了服务器的安全防护级别。日志显示，代理经常将服务暴露到公网并配置简单密码。这些不安全的开发实践很可能就是初始入侵的根源。

被复制到攻击者Vultr服务器后，攻击者继续使用这份完整副本运行，而不是简单地提取凭据后重新安装。最终，攻击者还把整套Claude实例连同完整会话历史和相关产物，一起复制到了研究人员的朋友那台服务器上。

攻击者为何坚持使用副本而非重新安装？目前尚不清楚。但研究人员在其工作目录中发现了7-Zip压缩包形式的其他被盗Claude实例——这些实例不含黑客活动的会话记录，说明”盗取并复用代理实例”很可能是这位攻击者的惯用操作模式。

四、致命OPSEC失误：一封简历泄露身份

攻击者将整套Claude安装和全部会话历史复制到跳板主机上，只是其操作安全（OPSEC）漏洞中的一处。更致命的是：攻击者让Claude编辑简历，并为其创建了自动求职申请工具。

这份简历包含了攻击者的全名、所在城市、教育背景，甚至LinkedIn个人资料，直接暴露了他是一位居住在埃塞俄比亚首都亚的斯亚贝巴的年轻人。

研究人员最初怀疑这是伪造身份或一旦日志被恢复就扰乱溯源的企图，但随着调查深入，更多佐证陆续出现：

攻击者的活动时间集中在UTC时间10:00至20:00（即亚的斯亚贝巴时间13:00至23:00），UTC时间21:00至次日04:00之间则完全处于静默期——这与亚的斯亚贝巴的正常作息高度吻合。
后来，出于安全顾虑，攻击者曾让Claude列出所有入站连接。Claude列出了多个托管服务商的IP，以及位于亚的斯亚贝巴的住宅IP。看到这些IP后，攻击者停止了进一步排查，并向Claude评论说”那些是我自己的”，确认了其真实地理位置。

在日志分析的早期阶段，攻击者曾误以为自己的一台主机被入侵了，并问Claude是否发现了异常。Claude告诉他”我认为我们还没被入侵，这些IP都是我自己的”——这名攻击者就这样亲手向研究人员确认了自己的真实位置。

五、AI代理驱动的攻击流程

会话历史显示，几乎所有黑客活动都是通过Claude代理完成的，攻击者更倾向于向代理发送提示词而不是直接执行命令。攻击者经常使用模糊指令，例如”recon this [目标地址]”，让Claude自主决定如何执行。Claude不止是在协助攻击者——它实际上在独立完成攻击。

攻击者将所有黑客请求都包装为”授权”的”红队演练”。在某些时候，攻击者似乎用第二个LLM来精心构造带有标志性表情符号的提示词，使其看起来像合法的红队计划，然后粘贴进Claude。当攻击者措辞不够妥当时，Claude和Codex都会偶尔拒绝执行。

5.1 提示词工作流

攻击者最初让Claude构建一个”运行在Kali Linux上的模块化渗透测试框架”，但这个项目很快被放弃，攻击者转而直接使用Claude发起攻击。在目标获取方面，攻击者将Shodan API密钥输入Claude，让它生成具有特定公共服务的服务器列表——包括Citrix和QNAP服务。

在多数攻击中，研究人员观察到以下通用攻击流程：

宣称授权：攻击者在会话开始时声称自己正在进行授权红队演练。
提供目标列表：攻击者给Claude提供目标主机地址列表。
服务枚举：Claude使用curl等基础Bash工具枚举目标主机上的可用服务。
漏洞研究/凭据验证：根据侦察结果，攻击者指示Claude研究暴露服务的已知漏洞，或者如果初始访问很简单（例如暴露了凭据），则让Claude验证凭据并确认访问权限。
凭证窃取与数据外泄：初始访问确认后，攻击者提示Claude窃取凭证并外泄数据。
生成渗透测试报告：对每个成功的目标，Claude会起草一份”PENTEST-REPORT”，详细描述如何获得访问权限，更重要的是，对窃取的数据进行美元价值的”货币化”估算。

5.2 N-Day漏洞利用开发

当初始侦察识别出攻击者想要攻陷的目标服务时，攻击者会用通用指令让Claude利用该服务。在一个显著的实例中，攻击者只是简单地询问：”在这份报告生成之前，告诉我攻击者有没有机会获得一个shell。”Claude随即调用子代理，通过公开CVE来研究该服务的现有漏洞，然后基于CVE构建定制漏洞利用工具并针对目标执行——这是一个完全自动化的过程，攻击者除了一句”想要获得目标访问权限”外并未提供任何技术指导。

5.3 货币化变现

在”红队演练”的掩护下，攻击者让Claude就如何从入侵事件中获利提出建议，并按潜在价值排名。Claude和Codex大部分策略违规拦截都发生在这一阶段，因为它们正确地识别到，将窃取的数据货币化很可能不属于合法的红队演练范畴。但攻击者最终还是获得了一份包含勒索、访问和数据转售、商业邮件欺诈（BEC）、直接窃取资金等策略的清单。

被入侵的服务器中有一台是闪电网络（Lightning Network）节点，控制着约69.71枚BTC（约合400万美元）。攻击者成功从该主机外泄了加密的wallet.db文件——这是访问资金所需的私钥材料。最初，攻击者试图本地破解钱包密码，让Claude构建一个定制的lnd-cracker.py脚本来暴力破解密码。意识到需要更强的算力后，攻击者让Claude从已攻陷的主机中选择最强大的机器重新用于钱包破解。Claude选择了分布式架构，将计算负载分散到14台主机上——其中许多属于东南亚某政府服务器农场。最终，破解尝试全部失败，约400万美元的比特币始终未被攻破。

六、攻击时间线

根据日志记录，攻击活动从2026年2月16日持续到2月26日，历时约10天，涉及35个编号目标（TARGET-1至TARGET-35）。

2月16日：攻击开始，Claude在Vultr服务器上部署反向Shell C2通道，对第一个目标发起侦察和渗透
2月18日：攻击者开始向新服务器迁移Claude环境，探索身份伪装方案
2月19日：渗透范围扩大，攻击者开始对多个目标进行大规模侦察并利用AWS凭据枚举
2月20日：攻击高潮，Claude被用于建立模块化渗透测试框架，多次绕过策略限制执行数据外泄
2月21日：Claude被要求生成完整的”货币化报告”，对数十个目标进行财务影响分析
2月22日：攻击者开始编辑和删除会话日志，试图销毁证据
2月23日：Codex被用于辅助后续操作，发现反向Shell并进行取证清理
2月25-26日：攻击者开始对自身服务器进行加固，并计划迁移到新服务器

七、核心结论

攻击者的OPSEC失误给了我们一个难得的机会，得以一窥AI代理在真实攻击中的运作方式——这是针对真实组织的真实入侵，会话日志完整到足以展示提示词、工具使用、推理过程、策略拒绝和攻击成功。

最令人担忧的是：攻击者投入的技术门槛之低令人震惊。在许多情况下，攻击者仅提供了模糊的、低技术含量的提示词，其余工作全部由Claude自主完成：研究暴露服务、识别可能的漏洞、编写漏洞利用代码、验证访问、窃取数据。攻击者本人并不具备专业操作员的技能水平——他们只是知道如何用正确的框架来包装提示词。

AI代理真正强大的地方在于：当它们与工具、Shell权限和宽松的提示词框架结合时，能够在极少人工干预的情况下完成长链条技术工作。这种能力同样也是AI代理在合法安全工作中极具价值的原因——它们是真正的”力量倍增器”。真正的挑战在于：同一套工作流既可以描述合法的授权安全测试，也可以描述犯罪行为，这条边界将持续在安全性与可用性之间制造张力。

文章版权归作者所有，未经允许请勿转载。

THE END