简易论文数据库(PaperRAG)搭建流程

整体架构

PDF论文 → PyMuPDF提取文本 → 段落分块(800字符) → SentenceTransformer编码 → ChromaDB存储
                                                                  ↓
用户查询 → SentenceTransformer编码查询 → ChromaDB向量相似度搜索 → 返回相关分块

两大使用方式:

数据入库流程(ingest.py)

1. PDF文本提取

2. 文本分块

3. 向量编码与存储

嵌入模型详解(all-MiniLM-L6-v2)

架构

参数 | 值 -- | -- 类型 | Transformer Encoder 层数 | 6 隐藏维度 | 384 注意力头数 | 12 最大输入长度 | 256 tokens 输出向量维度 | 384

关键文件

运行方式

# 入库conda run -n aion python ingest.py​# 启动MCP Serverconda run -n aion python mcp_server.py​# 直接查询(Python脚本)conda run -n aion python -c "..."

注意:Windows PowerShell + conda run 存在GBK编码问题,Unicode字符(如公式符号)会导致 UnicodeEncodeError。解决方法:将脚本写成 .py 文件执行,输出写入文件再读取。