DeepSeek数据泄露,12000个硬编码的有效API密钥和密码遭曝光;|非法解密快递单号牟利,侵入后台贩卖30万条个人信息;
DeepSeek数据泄露,12000个硬编码的有效API密钥和密码遭曝光;
近期的一项分析发现,在公开抓取的网络数据中,存在 11908 个有效的 DeepSeek API 密钥、密码和身份验证令牌。
据网络安全公司 Truffle Security 称,这项研究凸显了在未经筛选的互联网快照上训练的人工智能模型,如何面临将不安全的编码模式内化并可能重现这些模式的风险。
在此之前,有披露显示大语言模型(LLMs)经常建议在代码库中硬编码凭证,这引发了人们对训练数据在强化这些行为中所起作用的质疑。
DeepSeek 数据泄露
Truffle Security 扫描了 Common Crawl 在 2024 年 12 月的 400TB 数据集,该数据集包含来自 4750 万个主机的 26.7 亿个网页。研究人员使用他们的开源工具 TruffleHog,识别出:
(1)11908 个已验证有效的机密信息,可用于认证访问亚马逊云服务(AWS)、Slack 和 Mailchimp 等服务。
(2)276 万个包含暴露凭证的网页,其中 63% 的密钥在多个域名中重复使用。
(3)一个 WalkScore API 密钥在 1871 个子域名中重复出现 57029 次,这表明凭证重用现象普遍存在。
值得注意的是,该数据集包含高风险的暴露信息,比如前端 HTML 中的 AWS 根密钥,以及在单个网页的聊天功能中硬编码的 17 个独特的 Slack 网络钩子。
Mailchimp API 密钥在泄露中占比最大(超过 1500 个实例)。它们通常直接嵌入客户端 JavaScript 中,这种做法为网络钓鱼活动和数据窃取提供了便利。
Common Crawl 的数据集存储在 90000 个 WARC 文件中,保留了抓取网站的原始 HTML、JavaScript 和服务器响应。
Truffle Security 部署了一个由 20 个节点组成的 AWS 集群来处理该存档,使用awk命令分割文件,并通过 TruffleHog 的验证引擎扫描每个片段。
该工具能够区分有效的机密信息(通过相关服务进行认证)和无效字符串 —— 鉴于大语言模型在训练过程中无法辨别有效凭证,这是至关重要的一步。
研究人员面临着基础设施方面的障碍:WARC 文件的流式传输效率低下最初减缓了处理速度,不过通过对 AWS 的优化,下载时间缩短了 5 – 6 倍。
尽管面临这些挑战,该团队优先考虑以合乎道德的方式进行披露,与 Mailchimp 等供应商合作撤销了数千个密钥,避免了向各个网站所有者进行类似垃圾邮件的通知。
这项研究凸显了一个日益严峻的困境:在公开可访问数据上训练的大语言模型继承了这些数据的安全缺陷。虽然像 DeepSeek 这样的模型采用了额外的保障措施,如微调、对齐技术和提示限制,但训练语料库中普遍存在的硬编码机密信息,可能会使不安全的做法常态化。
无实际功能的凭证(例如占位符令牌)也加剧了这个问题,因为大语言模型在生成代码时无法根据上下文评估它们的有效性。
Truffle Security 警告称,在多个客户端项目中重复使用 API 密钥的开发人员面临更高的风险。例如,一家软件公司共享的 Mailchimp 密钥暴露了与其账户关联的所有客户端域名,这对攻击者来说犹如一座宝库。
缓解措施
为了遏制人工智能生成的漏洞,Truffle Security 建议:
(1)通过 GitHub Copilot 的自定义指令等平台,将安全防护措施集成到人工智能编码工具中,这些措施可以执行禁止硬编码机密信息的策略。
(2)扩展机密扫描程序,将存档的网络数据纳入其中,因为历史上泄露的数据可能会重新出现在训练数据集中。
(3)采用符合道德规范的人工智能技术,使模型与安全最佳实践保持一致,减少敏感模式的无意暴露。
随着大语言模型在软件开发中发挥越来越重要的作用,保障其训练数据的安全不再是可有可无的 —— 这是构建更安全数字未来的基础。
非法解密快递单号牟利!两男子侵入后台贩卖30万条个人信息被判刑;
为非法牟利,男子郭某某、彭某通过二手市场平台及时加密通讯软件等方式,与有解密需求的人员取得联系并传输数据,在快递物流公司未授权的情况下,私自利用非法渠道获得公司账号,侵入后台服务器,批量解密快递单号,并将所获得个人信息数据贩卖牟利。日前,上海市青浦区人民检察院以涉嫌非法获取计算机信息系统数据罪对二人提起公诉。
2024年8月,青浦区公安分局接到某快递物流公司报案。经侦查,9月19日、20日,民警分别在江西省、广东省抓获彭某、郭某某。12月20日,以涉嫌非法获取计算机信息系统数据罪移送至青浦区检察院审查起诉。
青浦区检察院网络犯罪检察官办案组承办人员立即着手办案。经讯问了解到,郭某某于2022年9月入职一科技公司,2024年1月左右,郭某某从公司了解到快递单号解密的方式,他获取到一个自动化解密模拟器,擅自登录快递公司内部系统,便解密加密单号为明文信息,遂开始在二手市场平台上发布解密广告。
郭某某报价一元一条,称自己能够解密快递单号,吸引部分人群下单。随后他根据下单人员提供的账号擅自进入后台服务器,借助自己的解密软件批量解码。短短几月,他解密了近4万条快递信息,非法获利33,000余元。
无独有偶,彭某与其采用的方式极其相似。自2024年7月起,彭某招揽有解密需求的下游客户,通过加密通讯软件接收需解密的单号数据,随后将数据传输至上家(身份待查)处,上家解密完成后回传至彭某,彭某通过原路径反馈至下游客户。通过这种信息中介方式,彭某非法获利7000余元。
被抓获时,根据第三方司法鉴定机构鉴定结果,二人手机、电脑等电子设备中检测出含有手机号、姓名、地址的公民个人信息记录达30余万条。检察机关认为,郭某某、彭某违反国家规定,伙同他人采取技术手段获取计算机信息系统中的数据。其中,彭某情节严重,郭某某情节特别严重,其行为均已触犯《刑法》,遂对二人以涉嫌非法获取计算机信息系统数据罪依法提起公诉。
近日,法院经审查二人均构成犯罪,判处彭某有期徒刑一年,并处罚金人民币5000元;判处郭某某有期徒刑三年,并处罚金人民币2万元,并追缴二人全部违法所得。
文章来源 :安全KER、安全圈
精彩推荐
乘风破浪|华盟信安线下网络安全就业班招生中!
【Web精英班·开班】HW加油站,快来充电!
始于猎艳,终于诈骗!带你了解“约炮”APP