DeepSeek-V4-Fable：AI驱动的CTF战队来了

导语：网络安全圈又炸锅了。一款名为DeepSeek-V4-Fable的AI模型横空出世，号称能在CTF比赛中solo全场——Web安全、二进制漏洞利用、逆向工程、密码学，样样精通。58.7%的整体解决率，听起来不算惊艳？但别忘了，这玩意儿是可以自主行动的。

一、这模型是什么来头？

根据Hugging Face上的技术文档，DeepSeek-V4-Fable是Chunjiang-Intelligence团队开发的自主Agent，底层基于国产大模型DeepSeek-V4-Flash，同时继承了Claude-5-Fable的核心能力。说白了，这是一个”混血儿”——既有国产大模型的底子，又有Anthropic安全研究经验的加持。

官方定位很明确：专门用于网络安全研究的蒸馏模型。不是那种能跟你聊人生的通用助手，而是一个目标导向的”CTF机器”。

二、8万条CTF轨迹喂出来的”战争机器”

要说这模型的本事，得先看它的训练数据。团队搞了一个叫SecDojo-80K的数据集，里面包含80,000条经过验证的CTF轨迹。这些轨迹来自4,050个公开赛题，涵盖了五大类别：

Web安全：1,240道题，28,500条轨迹，平均解题14.2轮
二进制漏洞利用（Pwn）：850道题，15,200条轨迹，平均解题22.5轮
逆向工程：920道题，18,400条轨迹，平均解题18.7轮
密码学：630道题，11,300条轨迹，平均解题8.4轮
杂项：410道题，6,600条轨迹，平均解题6.1轮

数据质量把控也有一套：每条轨迹都要通过带外验证（out-of-band verification），确保flag确实被提交成功，同时淘汰掉那些”循环刷题”或”瞎猫碰上死耗子”的无效数据。基础模型的教师解决率是56.1%，说明这些数据不是随便跑出来的——是真刀真枪解出来的。

三、训练方法：SFT+GRPO双管齐下

DeepSeek-V4-Fable的训练分两个阶段：

Phase 1：拒绝采样监督微调（SFT）

这个阶段做了3个epoch，但有个骚操作——只对助手的推理和行动跨度计算token交叉熵，环境观察结果一律mask掉。简单说，就是让模型学会”怎么想”和”怎么做”，但不要去记忆”看到了什么”。Obs. masking这一招贡献了4.3个百分点的提升。

Phase 2：群体相对策略优化（GRPO）

这是重头戏。GRPO是一种on-policy强化学习方法，用程序化的沙盒奖励来优化策略。奖励函数设计得很精细：

最终flag获取（终端奖励）
可验证的中间里程碑（比如服务指纹识别、内存泄露dump）
对畸形动作的严厉惩罚

四、实战效果：58.7%解决率是什么水平？

来看评估结果。在300道held-out CTF挑战上（严格去污染），主要看40轮内能否拿到flag：

阶段	Web	Pwn	Rev	Crypto	Overall
V4-Flash基线（0-shot）	19.4%	4.1%	7.8%	22.6%	13.5%
+ SFT	41.2%	18.7%	24.3%	47.1%	31.2%
+ Obs. masking	37.0%	15.1%	20.8%	43.2%	26.9%
+ GRPO（完整）	63.8%	44.5%	51.2%	68.9%	58.7%