PixelRAG:基于视觉的网页检索新范式,绕过HTML解析直接读屏

导语:传统Web RAG在HTML解析阶段最高可丢失页面40%以上信息,表格、图表、布局全部被压平。PixelRAG用截图表索引替代文本切块,由视觉语言模型直接”看”页面,Wikipedia 3000万截图测试中准确率超文本RAG基线18.1%,且已发布Claude Code插件让AI直接读屏。


一、项目概述

PixelRAG是由StarTrail团队开源的视觉检索系统,核心思路极为直接:不对网页做HTML解析,直接截图,由视觉语言模型从像素中读取答案

GitHub:github.com/StarTrail-org/PixelRAG 协议:Apache-2.0(100%开源)

核心特性

  • 跳过解析丢失:传统HTML转文本解析器可丢失页面40%以上信息,PixelRAG直接索引用户实际看到的页面
  • 视觉索引规模:已构建Wikipedia全站3000万+截图的视觉索引
  • 精度提升显著:在纯文本QA测试中,超最强文本RAG基线18.1%
  • Claude Code插件:一个脚本安装,无需MCP服务器,无需后端,直接让Claude”看见”任意URL
  • 索引即像素:更强的视觉模型可直接提升精度,无需重新构建索引

二、技术架构

PixelRAG的索引管线分为三个阶段:

第一步:渲染 将每个文档(网页、PDF、图片)渲染为图像瓦片(image tiles)

第二步:嵌入 使用Qwen3-VL-Embedding(基于截图表 LoRA微调)进行向量化

第三步:检索 构建FAISS向量索引,提供搜索API

整个流程无需HTML解析器参与,索引的是”人眼看到的页面”,检索结果由视觉语言模型直接从像素中读取答案。


三、Claude Code插件

对于AI辅助开发场景,PixelRAG提供了一个开箱即用的Claude Code插件:

  • 给Claude截图任意URL,直接读取渲染后的页面内容
  • 支持实时网页、arXiv论文、本地网站
  • 一个安装脚本,无MCP依赖,无后端服务

这意味着AI不再依赖DOM抓取,而是”看到”和你一样的页面。


四、性能对比

方案索引方式解析丢失率Wikipedia QA精度
文本RAGHTML→文本→切块最高40%+基线
PixelRAG页面截图→像素接近0+18.1%

表格、图表、复杂布局信息在文本解析中被压平或丢弃,而PixelRAG完整保留了视觉信息。


五、快速上手

# 克隆仓库
git clone https://github.com/StarTrail-org/PixelRAG.git
cd PixelRAG

# 安装依赖
pip install -r requirements.txt

# 构建视觉索引(以网页为例)
python -m pixelrag index --url "https://example.com"

# 检索
python -m pixelrag search --query "你想知道的问题"

Claude Code插件安装:

bash install_claude_plugin.sh

六、适用场景

  • 文档问答系统:需要保留表格、图表、布局信息的知识库
  • AI辅助开发:让AI直接”看到”页面而非抓取DOM
  • 视觉内容检索:图片、PDF、扫描件等非结构化视觉内容
  • 对比解析器效果:同一页面用不同解析器精度差异分析

七、总结

PixelRAG用”所见即所得”的思路重新定义了Web RAG:索引人眼看到的页面,由视觉模型读答案。3000万Wikipedia截图验证了可行性,Claude Code插件降低了落地门槛。对于需要高保真度保留页面信息的场景,这是一个值得关注的开源方向。

版权声明:本文由华盟网原创发布,保留所有权利。配图由华盟网授权使用。

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容