SnScrape – 开源多平台社交媒体情报爬取工具

导语:SnScrape 是一款免 API 的开源社交媒体爬取工具,支持 Twitter/X、Instagram、微博、Reddit 等主流平台,一条命令即可按用户、话题、标签抓取历史内容,配上 --jsonl 输出可直接对接数据分析管道。5.4k Star 的社区背书,足以说明它的实用价值。

一、工具背景

SnScrape 由 JustAnotherArchister 开发维护,项目专注于互联网存档与数据抓取领域,遵循 GPL-3.0 开源协议。截至 2026年,版本已迭代至 0.7.0.20230622,社区活跃度高,Issues 区 bug 响应迅速。

项目核心信息:

| 项目 | 信息 | |——|——| | GitHub | github.com/JustAnotherArchivist/snscrape | | 语言 | Python 3.8+ | | 协议 | GPL-3.0 | | Star | 5.4k+ | | Fork | 770+ | | 最新版本 | 0.7.0.20230622 |

二、核心能力

SnScrape 采用模块化设计,命令行结构为 snscrape [模块名] [目标],各模块能力如下:

2.1 用户档案抓取

输入用户名,即可获取该用户在对应平台的公开档案信息:昵称、简介、头像、注册时间、粉丝数、关注数。是目标画像构建的基础骨架。

2.2 帖文 / 推文流采集

通过 --max-results 参数控制抓取数量,可获取指定用户时间线上的最新动态,也可追溯至数年前的第一条帖子。

# 抓取 NASA 最近 5 条推文 URL
snscrape --max-results 5 twitter-user NASA

输出完整 JSON 数据

snscrape --max-results 5 --jsonl twitter-user NASA > nasa_tweets.json

2.3 话题与标签搜索

这是舆情监控的核心场景。输入关键词或标签(如 #量子计算),SnScrape 会像拖网一样把所有匹配帖子拉上来。

# 抓取含"量子计算"关键词的 100 条推文
snscrape --max-results 100 --jsonl twitter-search "量子计算" > quantum.json

限定时间范围(2026年以来)

snscrape --max-results 100 --since 2026-01-01 twitter-search "量子计算" > quantum_2026.json

2.4 互动与评论

在 Reddit、微博等平台,SnScrape 还能深入到帖子内部,抓取点赞数、回复数和评论文本,还原更完整的舆论场。

2.5 跨平台用户足迹

想调查同一用户名在哪些平台有账号?只需在各模块下用同一用户名跑一遍,比较输出结果即可。无需打开 Sherlock,SnScrape 也能助你一臂之力。

2.6 结构化输出(JSONL)

加上 --jsonl 参数,每条记录输出为一个独立的 JSON 对象,包含帖子 ID、内容、时间戳、互动数据等字段,可直接导入 Python Pandas、ElasticSearch 或任何支持 JSON Lines 的分析工具。

三、支持平台一览

| 平台 | 模块名 | 用户档案 | 关键词搜索 | 评论抓取 | |——|——–|———|———–|———–| | Twitter/X | twitter-user / twitter-search | ✅ | ✅ | ❌ | | Reddit | reddit-user / reddit-subreddit | ✅ | ✅ | ✅ | | 微博 | weibo-user / weibo-search | ✅ | ✅ | ✅ | | Instagram | instagram-user / instagram-hashtag | ✅ | ✅ | ❌ | | Mastodon | mastodon-* | ✅ | ✅ | ✅ | | Facebook | facebook-* | ✅ | ✅ | ❌ | | Telegram | telegram-* | ✅ | ✅ | ✅ |

四、系统要求与安装

环境要求:

  • Python 3.8 或更高版本
  • Linux 用户需预先安装 libxml2libxslt 开发库
  • 安装方式:

    # PyPI 一键安装(推荐)
    pip3 install snscrape
    

    从 GitHub 源码安装(追随最新特性)

    pip3 install git+https://github.com/JustAnotherArchivist/snscrape.git

    五、典型数据采集流程

    明确目标 ──→ 选择模块 ──→ 定制参数 ──→ 执行导出 ──→ 清洗分析
      (用户/话题)   (twitter-user等)  (--jsonl等)   (.json文件)   (Python/ES)
    

    版权声明:本文由华盟网原创发布,保留所有权利。

    下载 SnScrape
    © 版权声明
    THE END
    喜欢就支持一下吧
    点赞0 分享
    相关推荐
  • 暂无相关文章