一个高效、稳定的小蓝本网站数据采集工具,可自动提取公司和集团等信息,为了方便进行SRC信息收集

华盟原创文章投稿奖励计划

工具介绍

这是一个用于采集小蓝本网站数据的自动化工具。可以采集公司和集团的产品、媒体、网站、股东等相关信息。支持自动处理弹窗、智能重试和错误恢复。

自动草稿

环境要求

  • Python 3.8+
  • Chrome浏览器
  • ChromeDriver(与Chrome版本匹配)

ChromeDriver配置

首次使用前,请按以下步骤配置ChromeDriver:

  1. 查看Chrome版本

    • 打开Chrome浏览器
    • 点击右上角三个点
    • 点击”帮助” -> “关于Google Chrome”
    • 记下版本号(例如:115.0.5790.171)
  2. 下载ChromeDriver

    • 访问:https://sites.google.com/chromium.org/driver/
    • 下载与Chrome版本匹配的chromedriver_win32.zip
  3. 配置驱动

    • 解压下载的zip文件
    • 将chromedriver.exe放入项目的drivers目录下
    • 确保文件名为”chromedriver.exe”

注意:如果更新了Chrome浏览器,需要重新下载对应版本的ChromeDriver。

依赖安装

pip install -r requirements.txt 

配置文件

在运行程序前,请先配置 config.json 文件:

{     "username""您的小蓝本账号",     "password""您的小蓝本密码",     "login_url""https://sou.xiaolanben.com/login" } 

命令行参数说明

程序支持以下命令行参数:

必需参数(二选一)

  • -g, –group: 集团页面的URL,例如:https://sou.xiaolanben.com/group/xxx
  • -c, –company: 公司页面的URL,例如:https://sou.xiaolanben.com/company/xxx

可选参数

  • -f, –filename: 输出Excel文件名(不需要包含.xlsx扩展名)
  • –all: 提取所有可用数据(默认选项)
  • –shareholders: 仅提取集团股东数据
  • –products: 仅提取产品数据(APP、Media、Website)
  • –recursive: 递归提取集团成员的公司数据
  • –members-output: 集团成员数据输出文件名(不需要包含.xlsx扩展名),默认为”xiaolanben_companys_in_group”

参数使用示例

# 提取集团所有数据 python main.py -g https://sou.xiaolanben.com/group/xxx --all  # 提取公司数据并指定输出文件名 python main.py -c https://sou.xiaolanben.com/company/xxx --all -f custom_name  # 仅提取集团股东数据 python main.py -g https://sou.xiaolanben.com/group/xxx --shareholders  # 递归提取集团成员数据并指定输出文件名 python main.py -g https://sou.xiaolanben.com/group/xxx --recursive --members-output custom_members 

使用方法

采集集团数据

python main.py -g https://sou.xiaolanben.com/group/xxx --all 

采集公司数据

python main.py -c https://sou.xiaolanben.com/company/xxx --all 

自定义输出文件

python main.py -g https://sou.xiaolanben.com/group/xxx --all -f custom_name 

这将生成 custom_name.xlsx 作为输出文件。

选择性采集

# 仅采集股东数据 python main.py -g https://sou.xiaolanben.com/group/xxx --shareholders  # 仅采集产品数据 python main.py -g https://sou.xiaolanben.com/group/xxx --products 

已实现功能

  1. 认证管理

    • 通过配置文件加载用户名和密码
    • 自动登录小蓝本网站
    • 登录状态检查和维护
  2. 集团数据采集

    • 集团产品信息采集(APP、媒体、网站)
    • 集团股东信息采集(集团成员、对外投资、投资方)
    • 数据自动分类并保存到Excel文件
  3. 公司数据采集

    • 公司产品信息采集(APP、媒体、网站)
    • 数据自动分类并保存到Excel文件
  4. 数据提取与处理

    • 支持多种数据类型的提取
    • 数据自动保存到Excel的不同工作表
    • 支持追加模式和覆盖模式
    • 智能处理”查看更多”弹窗
    • 自动滚动加载更多内容
  5. 错误处理与重试机制

    • 自动重试失败的操作(最多3次)
    • 异常处理和错误日志
    • 智能弹窗关闭策略(点击关闭、ESC键、页面刷新)
    • 优雅的错误恢复机制

输出文件说明

程序会在运行目录下生成Excel文件,包含以下工作表:

  1. APP:包含APP名称和链接
  2. Media:包含媒体名称和链接
  3. Website:包含网站名称和链接
  4. 集团成员:包含成员名称和链接(仅集团数据)
  5. 对外投资:包含被投资方名称和链接(仅集团数据)
  6. 投资方:包含投资方名称和链接(仅集团数据)

文章来源:夜组安全

黑白之道发布、转载的文章中所涉及的技术、思路和工具仅供以安全为目的的学习交流使用,任何人不得将其用于非法用途及盈利等目的,否则后果自行承担!

如侵权请私聊我们删文


END

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容