RAG 技术在企业知识库中的落地实践

为什么企业需要 RAG？

大语言模型（LLM）的能力毋庸置疑，但直接将企业内部文档"喂给"模型并不现实——训练成本高、数据隐私风险大、模型幻觉难以控制。RAG（Retrieval-Augmented Generation）通过「先检索、再生成」的方式，让 LLM 基于真实文档回答问题，成为企业知识库智能化的最佳路径。

RAG vs 微调：如何选择？

很多团队纠结于 RAG 与微调（Fine-tuning），两者适用场景不同：

选择 RAG 的场景：

知识库频繁更新（每天/每周有新文档）
需要精确引用来源（合规审计要求）
数据量大但查询范围可控
预算有限，无法负担 GPU 训练成本

选择微调的场景：

需要模型学会特定的语言风格或格式
任务模式固定（如固定格式的报表分析）
知识相对稳定不常变化

实际操作中，80%+ 的企业知识库场景适合 RAG，或 RAG + 轻度微调的混合方案。

架构设计

典型 RAG 管道

一个生产级 RAG 系统包含以下核心环节：

文档预处理：PDF、Word、Markdown 等多格式解析，按语义分块
向量化：使用 Embedding 模型将文本块转换为向量
向量存储：写入 Milvus / Elasticsearch 等向量数据库
检索：根据用户查询进行相似度搜索，召回 Top-K 相关片段
重排序：使用 Cross-Encoder 对候选结果精排
生成：将检索结果作为上下文注入 Prompt，由 LLM 生成回答
后处理：引用标注、格式化输出、置信度评估

关键技术选型

Embedding 模型：

bge-large-zh-v1.5：中文场景综合表现最佳，1024 维
m3e-large：轻量级中文模型，768 维，速度更快
text-embedding-3-large：OpenAI 最新模型，多语言场景适用
选型建议：先用 MTEB 中文榜单的 Top 模型做 A/B 测试

向量数据库：

Milvus：适合大规模场景，支持多种索引类型，云原生架构
Elasticsearch 8.x：KNN 搜索 + BM25 混合检索，适合已有 ES 基础设施的团队
Qdrant：Rust 实现，性能优异，API 设计现代

LLM：

Qwen2.5-72B-Instruct：中文综合能力最强的开源模型之一
DeepSeek-V2：MOE 架构，推理成本低，效果接近 GPT-4
GLM-4：智谱出品，中文理解能力好

进阶架构：多路检索 + 知识图谱

对于复杂的企业知识库，单纯的向量检索可能不够：

用户查询
  ├── 向量检索（语义相似）
  ├── 关键词检索（BM25 精确匹配）
  ├── 知识图谱查询（实体关系）
  └── 结构化查询（SQL/表格数据）
      ↓
  融合排序（RRF / 加权）
      ↓
  Reranker 精排
      ↓
  LLM 生成

这种多路检索的架构在我们的项目中将问答准确率从 82% 提升到 93%。

文档预处理：被低估的关键环节

多格式解析

企业知识库的文档格式五花八门，解析质量直接决定了 RAG 效果：

PDF 解析：

纯文本 PDF：pdfplumber 或 PyMuPDF 足够
扫描件 PDF：需要 OCR（PaddleOCR 中文效果最佳）
复杂版式 PDF：Unstructured.io 或自研解析器
表格密集型：先用表格提取工具（Camelot、tabula-py）单独处理

Word/PPT 解析：

python-docx 处理 .docx，注意保留标题层级
PPT 用 python-pptx，每张幻灯片作为独立文档块
注意嵌入图片中的文字需要 OCR 提取

我们的经验： 不要试图用一个万能解析器处理所有格式。针对每种格式写专门的解析逻辑，质量远高于通用方案。

分块策略的深度探讨

分块策略对检索质量的影响被严重低估了。常见策略：

固定大小分块：

512 token，重叠 50-100 token
简单通用，但可能在句子中间切断

语义分块：

按段落、章节等自然边界分块
保持语义完整性，效果通常更好
实现复杂度较高

递归分块（推荐）：

按层级递归切分：先按章节 → 段落 → 句子
保留标题上下文（每个块前加上章节标题）
LangChain 的 RecursiveCharacterTextSplitter 是典型实现

我们在不同场景下的最佳实践：

文档类型	分块策略	块大小	重叠
技术手册	按章节层级	800-1200 token	100 token
FAQ 文档	一问一答为一块	不限	0
合同/制度	按条款分块	500-800 token	50 token
会议纪要	按议题分块	600-1000 token	80 token

关键技巧： 每个块的开头附加上下文信息（如"来源：《XX 产品用户手册》> 第三章 > 3.2 配置说明"），让 LLM 生成回答时能够准确引用来源。

检索优化

混合检索提升召回率

单纯向量检索在精确匹配上有短板——用户搜"报错代码 E1001"，向量搜索可能返回语义相近但不包含该代码的文档。混合检索策略：

方案一：加权融合

向量检索（语义相似）权重 0.7
BM25 关键词检索权重 0.3
简单有效，适合大多数场景

方案二：RRF（Reciprocal Rank Fusion）

def rrf_score(ranks, k=60):
    return sum(1.0 / (k + r) for r in ranks)

不需要调权重，自动平衡不同检索源的排名
我们的首选方案

实测召回率从 78% 提升到 91%。

查询改写

用户的原始查询往往不够精确，查询改写可以显著提升检索效果：

HyDE（Hypothetical Document Embeddings）：

让 LLM 根据查询生成一个"假设性回答"
用这个假设回答的向量去检索
找到的真实文档通常更相关

多查询扩展：

将用户查询改写为 3-5 个不同角度的查询
分别检索，合并去重
提升了长尾查询的召回率

Reranker 精排

在粗排之后引入 Cross-Encoder Reranker，在 Top-20 候选中重新排序：

bge-reranker-v2-m3：多语言重排模型，效果好
bce-reranker-base_v1：中文专用，速度快
精排将最终 Top-5 的准确率再提升 8-12 个百分点

注意： Reranker 比 Bi-Encoder 计算量大得多，只对 Top-K 候选应用。K 通常设为 20-50。

生成优化

Prompt 工程

RAG 场景的 Prompt 模板需要精心设计：

你是一个企业知识库助手。基于以下参考资料回答用户问题。

规则：
1. 只使用参考资料中的信息回答，不要编造
2. 如果参考资料不包含答案，明确告知"抱歉，知识库中没有找到相关信息"
3. 在回答中标注信息来源，格式为 [来源: 文档名]
4. 如果多个来源有矛盾，列出不同观点并注明

参考资料：
{context}

用户问题：{query}

幻觉检测与控制

即使有了检索结果，LLM 仍然可能产生幻觉。我们的应对策略：

置信度评估：让 LLM 用 1-5 分评估回答的确信程度
答案溯源：检查回答中的每个关键事实是否能在检索结果中找到出处
兜底机制：置信度低于阈值时，回退到"无法回答"而非给出不确定的回答

多轮对话上下文管理

企业知识库场景常涉及多轮对话。关键挑战是查询改写——不能只用最后一轮的问题去检索：

用户：我们公司的年假制度是怎样的？
助手：根据公司制度，工作满 1 年享有 5 天年假...
用户：那产假呢？

最后一轮"那产假呢"需要改写为"公司的产假制度是怎样的"才能正确检索。我们使用 LLM 做上下文感知的查询改写。

踩过的坑

PDF 表格解析：常规解析器对复杂表格识别差，建议用专门的表格提取工具预处理，表格数据存入结构化存储而非向量库
分块过小：块太小丢失上下文，块太大引入噪声。500-1000 token 是一个安全范围
答案可追溯：必须返回引用来源，否则业务部门不信任
增量更新：文档变更时只更新受影响的向量，避免全量重建。我们用文档 hash 做变更检测
多语言混杂：企业文档中中英文混杂常见，Embedding 模型需选择多语言版本
长文档处理：超过 50 页的文档需要先做摘要索引，再做细粒度分块
用户期望管理：RAG 不是万能的，对模糊问题和跨文档推理能力有限，需要提前与业务方对齐期望

评估体系

离线评估

构建测试集进行系统化评估：

检索评估：Recall@K、MRR、NDCG——衡量能否找到正确文档
生成评估：RAGAS 框架的 Faithfulness（忠实度）、Answer Relevancy（相关性）
端到端评估：人工标注 100-200 条 QA 对，计算准确率

线上评估

用户反馈（点赞/点踩）作为核心指标
追踪"无法回答"的比例，识别知识库覆盖盲区
A/B 测试不同的分块/检索策略

总结

RAG 不是开箱即用的技术，需要根据业务场景精心调优。从文档预处理、分块策略、向量化、混合检索、重排序到 Prompt 工程，每个环节都有优化空间。但一旦落地，它能让企业知识真正"活"起来——从被动查文档变成主动问 AI，效率提升显著。

我们的经验：一个 RAG 项目从 POC 到生产级，通常需要 2-3 个月的持续迭代。不要指望一次性做到完美，快速迭代、持续优化才是正确的节奏。