导语:SnScrape 是一款免 API 的开源社交媒体爬取工具,支持 Twitter/X、Instagram、微博、Reddit 等主流平台,一条命令即可按用户、话题、标签抓取历史内容,配上 --jsonl 输出可直接对接数据分析管道。5.4k Star 的社区背书,足以说明它的实用价值。
—
一、工具背景
SnScrape 由 JustAnotherArchister 开发维护,项目专注于互联网存档与数据抓取领域,遵循 GPL-3.0 开源协议。截至 2026年,版本已迭代至 0.7.0.20230622,社区活跃度高,Issues 区 bug 响应迅速。
项目核心信息:
| 项目 | 信息 | |——|——| | GitHub | github.com/JustAnotherArchivist/snscrape | | 语言 | Python 3.8+ | | 协议 | GPL-3.0 | | Star | 5.4k+ | | Fork | 770+ | | 最新版本 | 0.7.0.20230622 |
—
二、核心能力
SnScrape 采用模块化设计,命令行结构为 snscrape [模块名] [目标],各模块能力如下:
2.1 用户档案抓取
输入用户名,即可获取该用户在对应平台的公开档案信息:昵称、简介、头像、注册时间、粉丝数、关注数。是目标画像构建的基础骨架。
2.2 帖文 / 推文流采集
通过 --max-results 参数控制抓取数量,可获取指定用户时间线上的最新动态,也可追溯至数年前的第一条帖子。
# 抓取 NASA 最近 5 条推文 URL
snscrape --max-results 5 twitter-user NASA
输出完整 JSON 数据
snscrape --max-results 5 --jsonl twitter-user NASA > nasa_tweets.json
2.3 话题与标签搜索
这是舆情监控的核心场景。输入关键词或标签(如 #量子计算),SnScrape 会像拖网一样把所有匹配帖子拉上来。
# 抓取含"量子计算"关键词的 100 条推文
snscrape --max-results 100 --jsonl twitter-search "量子计算" > quantum.json
限定时间范围(2026年以来)
snscrape --max-results 100 --since 2026-01-01 twitter-search "量子计算" > quantum_2026.json
2.4 互动与评论
在 Reddit、微博等平台,SnScrape 还能深入到帖子内部,抓取点赞数、回复数和评论文本,还原更完整的舆论场。
2.5 跨平台用户足迹
想调查同一用户名在哪些平台有账号?只需在各模块下用同一用户名跑一遍,比较输出结果即可。无需打开 Sherlock,SnScrape 也能助你一臂之力。
2.6 结构化输出(JSONL)
加上 --jsonl 参数,每条记录输出为一个独立的 JSON 对象,包含帖子 ID、内容、时间戳、互动数据等字段,可直接导入 Python Pandas、ElasticSearch 或任何支持 JSON Lines 的分析工具。
—
三、支持平台一览
| 平台 | 模块名 | 用户档案 | 关键词搜索 | 评论抓取 |
|——|——–|———|———–|———–|
| Twitter/X | twitter-user / twitter-search | ✅ | ✅ | ❌ |
| Reddit | reddit-user / reddit-subreddit | ✅ | ✅ | ✅ |
| 微博 | weibo-user / weibo-search | ✅ | ✅ | ✅ |
| Instagram | instagram-user / instagram-hashtag | ✅ | ✅ | ❌ |
| Mastodon | mastodon-* | ✅ | ✅ | ✅ |
| Facebook | facebook-* | ✅ | ✅ | ❌ |
| Telegram | telegram-* | ✅ | ✅ | ✅ |
—
四、系统要求与安装
环境要求:
libxml2 和 libxslt 开发库安装方式:
# PyPI 一键安装(推荐)
pip3 install snscrape
从 GitHub 源码安装(追随最新特性)
pip3 install git+https://github.com/JustAnotherArchivist/snscrape.git
—
五、典型数据采集流程
明确目标 ──→ 选择模块 ──→ 定制参数 ──→ 执行导出 ──→ 清洗分析
(用户/话题) (twitter-user等) (--jsonl等) (.json文件) (Python/ES)
—
版权声明:本文由华盟网原创发布,保留所有权利。













