导语:传统Web RAG在HTML解析阶段最高可丢失页面40%以上信息,表格、图表、布局全部被压平。PixelRAG用截图表索引替代文本切块,由视觉语言模型直接”看”页面,Wikipedia 3000万截图测试中准确率超文本RAG基线18.1%,且已发布Claude Code插件让AI直接读屏。
一、项目概述
PixelRAG是由StarTrail团队开源的视觉检索系统,核心思路极为直接:不对网页做HTML解析,直接截图,由视觉语言模型从像素中读取答案。
GitHub:github.com/StarTrail-org/PixelRAG 协议:Apache-2.0(100%开源)
核心特性
- 跳过解析丢失:传统HTML转文本解析器可丢失页面40%以上信息,PixelRAG直接索引用户实际看到的页面
- 视觉索引规模:已构建Wikipedia全站3000万+截图的视觉索引
- 精度提升显著:在纯文本QA测试中,超最强文本RAG基线18.1%
- Claude Code插件:一个脚本安装,无需MCP服务器,无需后端,直接让Claude”看见”任意URL
- 索引即像素:更强的视觉模型可直接提升精度,无需重新构建索引
二、技术架构
PixelRAG的索引管线分为三个阶段:
第一步:渲染 将每个文档(网页、PDF、图片)渲染为图像瓦片(image tiles)
第二步:嵌入 使用Qwen3-VL-Embedding(基于截图表 LoRA微调)进行向量化
第三步:检索 构建FAISS向量索引,提供搜索API
整个流程无需HTML解析器参与,索引的是”人眼看到的页面”,检索结果由视觉语言模型直接从像素中读取答案。
三、Claude Code插件
对于AI辅助开发场景,PixelRAG提供了一个开箱即用的Claude Code插件:
- 给Claude截图任意URL,直接读取渲染后的页面内容
- 支持实时网页、arXiv论文、本地网站
- 一个安装脚本,无MCP依赖,无后端服务
这意味着AI不再依赖DOM抓取,而是”看到”和你一样的页面。
四、性能对比
| 方案 | 索引方式 | 解析丢失率 | Wikipedia QA精度 |
|---|---|---|---|
| 文本RAG | HTML→文本→切块 | 最高40%+ | 基线 |
| PixelRAG | 页面截图→像素 | 接近0 | +18.1% |
表格、图表、复杂布局信息在文本解析中被压平或丢弃,而PixelRAG完整保留了视觉信息。
五、快速上手
# 克隆仓库
git clone https://github.com/StarTrail-org/PixelRAG.git
cd PixelRAG
# 安装依赖
pip install -r requirements.txt
# 构建视觉索引(以网页为例)
python -m pixelrag index --url "https://example.com"
# 检索
python -m pixelrag search --query "你想知道的问题"
Claude Code插件安装:
bash install_claude_plugin.sh
六、适用场景
- 文档问答系统:需要保留表格、图表、布局信息的知识库
- AI辅助开发:让AI直接”看到”页面而非抓取DOM
- 视觉内容检索:图片、PDF、扫描件等非结构化视觉内容
- 对比解析器效果:同一页面用不同解析器精度差异分析
七、总结
PixelRAG用”所见即所得”的思路重新定义了Web RAG:索引人眼看到的页面,由视觉模型读答案。3000万Wikipedia截图验证了可行性,Claude Code插件降低了落地门槛。对于需要高保真度保留页面信息的场景,这是一个值得关注的开源方向。
版权声明:本文由华盟网原创发布,保留所有权利。配图由华盟网授权使用。













暂无评论内容