PixelRAG：开源视觉检索工具评测

导语：传统Web RAG在HTML解析阶段最高可丢失页面40%以上信息，表格、图表、布局全部被压平。PixelRAG用截图表索引替代文本切块，由视觉语言模型直接”看”页面，Wikipedia 3000万截图测试中准确率超文本RAG基线18.1%，且已发布Claude Code插件让AI直接读屏。

一、项目概述

PixelRAG是由StarTrail团队开源的视觉检索系统，核心思路极为直接：不对网页做HTML解析，直接截图，由视觉语言模型从像素中读取答案。

GitHub：github.com/StarTrail-org/PixelRAG 协议：Apache-2.0（100%开源）

核心特性

跳过解析丢失：传统HTML转文本解析器可丢失页面40%以上信息，PixelRAG直接索引用户实际看到的页面
视觉索引规模：已构建Wikipedia全站3000万+截图的视觉索引
精度提升显著：在纯文本QA测试中，超最强文本RAG基线18.1%
Claude Code插件：一个脚本安装，无需MCP服务器，无需后端，直接让Claude”看见”任意URL
索引即像素：更强的视觉模型可直接提升精度，无需重新构建索引

二、技术架构

PixelRAG的索引管线分为三个阶段：

第一步：渲染 将每个文档（网页、PDF、图片）渲染为图像瓦片（image tiles）

第二步：嵌入 使用Qwen3-VL-Embedding（基于截图表 LoRA微调）进行向量化

第三步：检索 构建FAISS向量索引，提供搜索API

整个流程无需HTML解析器参与，索引的是”人眼看到的页面”，检索结果由视觉语言模型直接从像素中读取答案。

三、Claude Code插件

对于AI辅助开发场景，PixelRAG提供了一个开箱即用的Claude Code插件：

给Claude截图任意URL，直接读取渲染后的页面内容
支持实时网页、arXiv论文、本地网站
一个安装脚本，无MCP依赖，无后端服务

这意味着AI不再依赖DOM抓取，而是”看到”和你一样的页面。

四、性能对比

方案	索引方式	解析丢失率	Wikipedia QA精度
文本RAG	HTML→文本→切块	最高40%+	基线
PixelRAG	页面截图→像素	接近0	+18.1%

表格、图表、复杂布局信息在文本解析中被压平或丢弃，而PixelRAG完整保留了视觉信息。

五、快速上手

# 克隆仓库
git clone https://github.com/StarTrail-org/PixelRAG.git
cd PixelRAG

# 安装依赖
pip install -r requirements.txt

# 构建视觉索引（以网页为例）
python -m pixelrag index --url "https://example.com"

# 检索
python -m pixelrag search --query "你想知道的问题"

Claude Code插件安装：