基于RagFlow开发RAG知识库最佳实践
Mace Liu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
中国科学技术大学人工智能硕士,十余年的企业软件架构开发经验
浏览:66次
详情 DETAILS

课程简介

大型语言模型(LLM)已经取得了显著的成功,尽管它们仍然面临重大的限制,特别是在特定领域或知识密集型任务中,尤其是在处理超出其训练数据或需要当前信息的查询时,常会产生“幻觉”现象。为了克服这些挑战,检索增强生成(RAG)通过从外部知识库检索相关文档chunk并进行语义相似度计算,增强了LLM的功能。通过引用外部知识,RAG有效地减少了生成事实不正确内容的问题。

本课程聚焦RagFlow框架,从技术原理、环境搭建、核心功能配置到企业级应用实战,全方位解析RAG知识库开发全流程。课程涵盖文档预处理、文本切分、嵌入向量生成、向量数据库选择、检索器配置、Prompt优化等关键技术,结合会议纪要、智能客服、公司文案生成等实战案例,深入剖析RagFlow在医疗、法律、企业文档等领域的落地应用。通过本课程学习,学员将掌握RagFlow快速部署与二次开发技能,具备独立构建高效、可扩展的RAG知识库的能力。

课程收益

1、帮助学员深入理解RAGFlow的核心架构、组件及其在大模型生态中的定位。

2、帮助学员独立完成RAGFlow在各种环境下的部署与配置。

3、帮助学员熟练构建高效、准确的RAG应用流水线,包括文档处理、文本分割、向量化检索和Prompt优化。

4、帮助学员掌握高级技巧,对RAGFlow应用进行性能调优、效果评估和成本控制。

5、帮助学员学会诊断并解决RAGFlow在生产环境中遇到的常见问题。

受众人群

各类软件企业和研发中心的程序员、软件设计师、架构师, 项目经理,业务架构师,公司管理者。

本课程面向零基础LLM应用开发者,不需要了解复杂数学算法,机器学习原理。建议具备基础的Python知识。

课程周期

 2天(12H 

课程大纲

标题

授课内容

一、Rag技术核心原理和组件

第一部分: RAG技术概述

1.RAG技术概述

2.加载器和分割器

3.文本嵌入和 向量存储

4.如何生成和存储Embedding

5.检索器和多文档联合检索

6.RAG技术的关键挑战

7.检索增强生成实践

8.RAG技术文档预处理过程

9.RAG技术文档检索过程

 

第二部分: RAG的架构和核心组件

1.RAG架构

2.文档的导入和解析

3.文档的分块

4.文本块的嵌入

5.向量数据库的选择

6.文本块的检索

7.回答的生成

8.案例实践- 如何快速搭建RAG系统

9.使用框架:LangChain的RAG实现

使用低代码平台coze、Dify、智谱构建RAG

二、Raglow环境搭建与快速入门

第一部分: RAGFlow介绍和应用

1.对比:LangChain, LlamaIndex, Haystack, 为何选择RAGFlow?

2.RAGFlow的核心优势:深度文档理解、可追溯的引用、开箱即用的UI

3.RAGFlow架构总览

4.核心组件解析:Document Parser, Text Splitter, Embedding Model, Vector DB, LLM Orchestrator

5.数据流:从原始文档到最终答案的完整旅程

6.第一个RAGFlow应用: “Hello World”

7.在UI上传一份PDF技术文档(如API手册)

8.创建知识库(Library),配置切分规则和向量模型

9.运行索引任务,观察解析和切分结果

10.在对话界面进行提问,体验带引用的问答

 

第二部分: RAGFlow环境搭建与快速入门

1.Ragflow部署概述

2.Ragflow在线演示

3.方案A(推荐):使用Docker Compose一键部署

4.方案B(生产级):在Kubernetes集群中部署(讲解Helm Chart或Manifest文件)

验证部署:访问Web UI,检查服务健康状态

三、Ragflow深度配置与核心功能详解

第一部分: Ragflow私有知识的数据导入

1.用数据加载器读取

2.支持格式:PDF, PPT, Word, Excel, TXT, 图片(OCR), HTML等

3.布局解析(Layout Parsing):如何理解文档的排版、表格、页眉页脚、目录结构

4.高级配置:处理扫描件、加密PDF、超大文件

5.读取图片中的文字

6. 读取PPT中的文字

7.用大模型整体解析图文

8.网页文档的爬取和解析

9.PDF文件的文本格式、布局识别及表格解析

10.PDF文件加载工具概述

11.案例分析  

 

第二部分: RagFlow核心技术-文本切块

1.RAG场景下的提示词和文本切片

2.文本切块

3.固定大小文本切块

4.特殊格式文本切块

5.为什么切分至关重要?解决“上下文窗口”与“信息完整性”的矛盾

6.配置递归切分:按字符、按句子、按段落

7.高级技巧:重叠块(Chunk Overlap)的设置与权衡

8.自定义切分规则:基于正则表达式或语义边界  

 

第三部分: 嵌入(Embedding)向量和向量数据库基础 

1.嵌入Embedding核心概念

2.嵌入是对外部信息的编码

3.什么是向量 

4.为什么需要向量数据库 

5.Embedding模型选型:OpenAI, BGE, M3E等,如何选择与配置

6.向量数据库(Vector DB)连接:DeepLake(默认), Milvus, Chroma, Weaviate的配置与优劣势对比

7.检索器(Retriever)配置:TOP-K, 相似度阈值(Score Threshold)的调优

8.混合检索(Hybrid Search):结合关键词(BM25)和向量搜索,提升召回率

 

第四部分: RAG Prompt技术和响应生成 

1.多LLM供应商对接

2.配置OpenAI GPT, Azure OpenAI, 通义千问, 文心一言, 讯飞星火等

3.配置本地私有模型:通过OpenAI API格式兼容(如vLLM, Ollama, FastChat)

4.Prompt 提示词工程

5.RAG与Prompt 提示词优化

6.使用Prompt模板

7.Prompt设计与优化

8.剖析RAGFlow的默认Prompt模板

9.如何编写有效的System Prompt来约束模型行为

10.在Prompt中有效利用检索到的“引用片段”(Context)

11.高级技巧:实现多步推理、表格数据提取、代码生成等特定任务的Prompt

 

部分: RagFlow API集成与二次开发 

1.使用RAGFlow Python SDK

2.安装与初始化RAGFlow Client

3.以编程方式完成:文件上传、知识库管理、问答查询

4.RESTful API详解

5.认证方式(API Key)

6.核心API端点(Endpoint)调用演示:/v1/chat/completions, /v1/datasets

7.使用CURL/Postman进行测试

8.构建自定义应用

9.案例:将RAGFlow集成到现有的Web应用或聊天机器人中

10.案例:构建一个自动化的文档问答工作流

四、Ragflow企业级应用实战

第一部分: RAG实战案例

1.构建知识库与智能体,实现业务流程自动化;

2.快速搭建RagFlow知识增强助手

3.RagFlow应用--会议纪要、

4.RagFlow应用--智能客服、

5.RagFlow应用--公司文案生成、

6.RagFlow应用--简历筛选

 

第二部分: 实战项目与故障排查

1.常见“坑”与故障排查

2.检索不到正确答案”怎么办?(调整切分、优化检索策略)

3.答案胡言乱语”怎么办?(优化Prompt, 调整温度等LLM参数)

4.处理速度太慢”怎么办?(优化配置, 升级硬件)

5.部署网络问题、依赖冲突等常见错误解析

 

第三部分: RAG实战案例1-企业文档问答系统

1.企业文档问答需求分析与系统设计

2.确定问答系统的需求:识别用户的主要查询类型与目标

3.系统结构与模块划分:明确检索与生成模块的协作方式

4.数据预处理与向量化:生成高效的嵌入向量

5.构建与优化索引:提升检索模块的查询速度

6.生成模块的集成与模型调优

7.加载与配置生成模型:选择适合问答系统的生成模型

8.模型优化与提示词调优:提高生成内容的准确性与相关性

9.RAG系统测试、部署与优化

10.测试流程与性能监控:确保系统的稳定性与响应速度

11.企业环境的部署与上线:实现系统在实际业务中的应用

 

第四部分: RAG实战案例2-医疗文献检索与分析系统

1.医疗文献 需求分析与数据准备

2.确定医学文献检索需求:识别用户查询重点

3.数据收集与清洗:构建高质量的医学知识库

4.构建高效的检索模块

5.设计向量检索系统:提升检索效率

6.优化索引结构:加速医学文献的精确匹配

7.生成模块开发、集成和调优

8.生成模型与检索的集成:精准回答用户提问

9.生成内容的优化与提示词调优:提升回答的质量与专业性

 

第五部分: RAG实战案例3- 法律法规查询助手的开发

1.法律法规需求分析与数据收集

2.用户需求解析:明确法律法规查询的主要需求

3.法律法规数据源与收集方法:搭建全面的法规数据库

4.数据清洗与标准化:提升查询效率和准确性

5.向量化法律条款:构建检索友好的嵌入

6.优化检索流程:提高法律条款的匹配精度

7.生成模块开发与输出优化

8.生成模型与检索模块的集成:构建准确的法规回答

9.输出格式与内容优化:提供清晰的法律解释

10.提示词调优与模型配置:确保法律回答的专业性

 

第六部分: RAG 的未来演进

1.多模态RAG的技术进展和发展路线

2.未来的RAG和Agent如何发展

3.如何构建企业级的RAG和Agent集群架构

4.GraphRAG:RAG和知识图谱的整合

5.上下文检索:突破传统RAG的上下文困境

6. ModularRAG:从固定流程到灵活架构的跃迁

7.AgenticRAG:自主代理驱动的RAG系统

8. Multi-Modal RAG:多模态检索增强生成技术


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1