OpenMythos逆向Claude Mythos架构技术剖析

导语：Anthropic最先进的Claude Mythos模型被曝能够自主挖掘系统零日漏洞，仅在Project Glasswing计划内向40家机构提供内测。数日之后，开源社区便交出了自己的答案——OpenMythos，一份基于公开论文对Mythos架构进行理论重建的开源实现。但在这场”开源逆袭”叙事的背后，社区的质疑声同样不容忽视。

来源：本文编译自 X @IndieDevHailey 推文（https://x.com/IndieDevHailey/status/2071086539682291906），GitHub仓库：https://github.com/kyegomez/OpenMythos。

一、项目概述

OpenMythos是由独立开发者Kye Gomez（Swarms框架创始人）发起的开源项目，声称基于Anthropic已公开的研究论文，对Claude Mythos的核心架构进行了理论重建。该项目采用纯PyTorch实现，已在GitHub上获得超过1.4万颗星标。开发者将其定位为”教育性质的理论重建”，明确声明与Anthropic没有任何关联或授权关系。

项目支持pip直接安装，提供了从1B到1T参数的多个预配置规模模型，最高支持64次循环推理次数。

二、核心技术架构：循环深度Transformer

根据OpenMythos公开的技术文档，Claude Mythos采用的核心架构被描述为Recurrent-Depth Transformer（循环深度Transformer，RDT），与传统Transformer的”深层堆叠”不同，RDT通过同一套权重在单次前向传播中循环运行多次来实现深度推理。

2.1 三段式推理结构

该架构将推理过程分为三个阶段：

Prelude（前奏）：标准Transformer块堆叠，负责输入的初始编码与特征提取。

Recurrent Loop（循环块）：核心创新所在——部分层在单次前向传播中被循环执行最多64次，所有”思考”过程在隐空间中完成，无需输出中间token，延迟更低。

Coda（尾声）：最终输出层，将隐状态解码为最终结果。

2.2 注意力与稀疏混合专家

在注意力机制上，OpenMythos支持在MLA（多头潜在注意力）与GQA（分组查询注意力）之间切换。MLA来自DeepSeek架构，通过低秩键值压缩减少推理时的KV缓存开销；GQA则是Google在Llama架构中推广的高效注意力变体。Feed-Forward层采用稀疏MoE（混合专家）结构，包含路由专家与共享专家两种角色。

2.3 参数效率对比

配置	隐藏维度	专家数	最大循环次数	上下文长度
770M参数级	2048	64	16	4K
7B参数级	4096	128	24	8K
100B参数级	8192	256	32	1M

官方称770M参数级别的OpenMythos模型性能约等于传统1.3B参数模型，参数减少约40%。

三、社区评价：期待与质疑并存

OpenMythos的发布在技术社区引发了明显两极化的反应。

支持者认为，这是开源社区对闭源AI实验室的一次有力回应——即便无法拿到真实模型权重，通过对公开论文的系统性分析也能还原核心技术路径，对于AI教育与研究具有重要价值。有开发者评论称”黑箱再大，也挡不住有人真敢拆开看”，肯定了这种逆向工程思路对推动AI透明化的意义。

然而，质疑声音同样尖锐。有开发者直接指出Kye Gomez在GitHub上存在”AI套壳仓库工厂”的行为模式——经常将他人论文或项目稍加包装后发布，commit历史常见”初始提交即整个项目”，star数量虚高但实际代码质量存疑。部分评论将此次宣传内容与此前引发争议的”姜萍事件”类比，认为其叙事逻辑存在过度煽情之嫌。

更有评论冷静指出，该项目严格意义上属于”基于公开论文的理论重建”而非真正的”逆向”——两者存在本质区别：前者是对已知技术路线的复现，后者则是从未知出发还原黑箱内部机制。

四、蓝队视角：开源模型复现的攻守启示

从蓝队安全运营的视角审视，OpenMythos这类开源项目带来的是双重视省。

对AI安全研究者而言，循环推理架构的工程化实现门槛已大幅降低——7B级别的RDT模型可以在单卡消费级GPU上运行，这为安全社区研究”深度思考”型AI的推理行为模式提供了便利。防御者可以借此构建更精准的AI异常行为检测基线。

对AI应用运营者而言，Claude Mythos级别模型若被开源复现，意味着更强大的自动化漏洞挖掘工具将走向普及。攻击者可借助此类模型自动化挖掘系统漏洞的速度将显著提升，这对漏洞管理流程和补丁响应时效提出了更高要求。安全团队应当重新评估现有漏洞响应SLA，确保在自动化攻击加速的背景下依然能够维持有效防御纵深。

同时需要理性看待的是，所谓”挖掘零日漏洞”的描述存在较大的解读空间。Claude Mythos在Project Glasswing中的具体能力边界尚未公开，社交媒体上的传播在情绪渲染下存在放大效应，防御者不应被过度惊扰，而应将精力放在构建可持续的安全运营能力上。