工具介绍
这是一个用于采集小蓝本网站数据的自动化工具。可以采集公司和集团的产品、媒体、网站、股东等相关信息。支持自动处理弹窗、智能重试和错误恢复。

环境要求
- Python 3.8+
- Chrome浏览器
- ChromeDriver(与Chrome版本匹配)
ChromeDriver配置
首次使用前,请按以下步骤配置ChromeDriver:
-
查看Chrome版本
- 打开Chrome浏览器
- 点击右上角三个点
- 点击”帮助” -> “关于Google Chrome”
- 记下版本号(例如:115.0.5790.171)
-
下载ChromeDriver
- 访问:https://sites.google.com/chromium.org/driver/
- 下载与Chrome版本匹配的chromedriver_win32.zip
-
配置驱动
- 解压下载的zip文件
- 将chromedriver.exe放入项目的drivers目录下
- 确保文件名为”chromedriver.exe”
注意:如果更新了Chrome浏览器,需要重新下载对应版本的ChromeDriver。
依赖安装
pip install -r requirements.txt
配置文件
在运行程序前,请先配置 config.json 文件:
{ "username": "您的小蓝本账号", "password": "您的小蓝本密码", "login_url": "https://sou.xiaolanben.com/login" }
命令行参数说明
程序支持以下命令行参数:
必需参数(二选一)
- -g, –group: 集团页面的URL,例如:https://sou.xiaolanben.com/group/xxx
- -c, –company: 公司页面的URL,例如:https://sou.xiaolanben.com/company/xxx
可选参数
- -f, –filename: 输出Excel文件名(不需要包含.xlsx扩展名)
- –all: 提取所有可用数据(默认选项)
- –shareholders: 仅提取集团股东数据
- –products: 仅提取产品数据(APP、Media、Website)
- –recursive: 递归提取集团成员的公司数据
- –members-output: 集团成员数据输出文件名(不需要包含.xlsx扩展名),默认为”xiaolanben_companys_in_group”
参数使用示例
# 提取集团所有数据 python main.py -g https://sou.xiaolanben.com/group/xxx --all # 提取公司数据并指定输出文件名 python main.py -c https://sou.xiaolanben.com/company/xxx --all -f custom_name # 仅提取集团股东数据 python main.py -g https://sou.xiaolanben.com/group/xxx --shareholders # 递归提取集团成员数据并指定输出文件名 python main.py -g https://sou.xiaolanben.com/group/xxx --recursive --members-output custom_members
使用方法
采集集团数据
python main.py -g https://sou.xiaolanben.com/group/xxx --all
采集公司数据
python main.py -c https://sou.xiaolanben.com/company/xxx --all
自定义输出文件
python main.py -g https://sou.xiaolanben.com/group/xxx --all -f custom_name
这将生成 custom_name.xlsx 作为输出文件。
选择性采集
# 仅采集股东数据 python main.py -g https://sou.xiaolanben.com/group/xxx --shareholders # 仅采集产品数据 python main.py -g https://sou.xiaolanben.com/group/xxx --products
已实现功能
-
认证管理
- 通过配置文件加载用户名和密码
- 自动登录小蓝本网站
- 登录状态检查和维护
-
集团数据采集
- 集团产品信息采集(APP、媒体、网站)
- 集团股东信息采集(集团成员、对外投资、投资方)
- 数据自动分类并保存到Excel文件
-
公司数据采集
- 公司产品信息采集(APP、媒体、网站)
- 数据自动分类并保存到Excel文件
-
数据提取与处理
- 支持多种数据类型的提取
- 数据自动保存到Excel的不同工作表
- 支持追加模式和覆盖模式
- 智能处理”查看更多”弹窗
- 自动滚动加载更多内容
-
错误处理与重试机制
- 自动重试失败的操作(最多3次)
- 异常处理和错误日志
- 智能弹窗关闭策略(点击关闭、ESC键、页面刷新)
- 优雅的错误恢复机制
输出文件说明
程序会在运行目录下生成Excel文件,包含以下工作表:
- APP:包含APP名称和链接
- Media:包含媒体名称和链接
- Website:包含网站名称和链接
- 集团成员:包含成员名称和链接(仅集团数据)
- 对外投资:包含被投资方名称和链接(仅集团数据)
- 投资方:包含投资方名称和链接(仅集团数据)
文章来源:夜组安全
黑白之道发布、转载的文章中所涉及的技术、思路和工具仅供以安全为目的的学习交流使用,任何人不得将其用于非法用途及盈利等目的,否则后果自行承担!
如侵权请私聊我们删文
END
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END














暂无评论内容