课程简介
大型语言模型(LLM)已经取得了显著的成功,尽管它们仍然面临重大的限制,特别是在特定领域或知识密集型任务中,尤其是在处理超出其训练数据或需要当前信息的查询时,常会产生“幻觉”现象。为了克服这些挑战,检索增强生成(RAG)通过从外部知识库检索相关文档chunk并进行语义相似度计算,增强了LLM的功能。通过引用外部知识,RAG有效地减少了生成事实不正确内容的问题。
本课程聚焦RAG技术全流程,从基础原理到实战应用,涵盖RAG技术概述、架构设计、数据导入、文本切分、嵌入向量与向量数据库、查询检索前处理、Prompt优化、索引优化、评估方法等核心模块。通过企业文档问答、医疗文献检索、法律法规查询等实战案例,深入解析RAG在不同场景下的落地实践。同时,课程结合LangChain等主流框架,提供从开发到部署的全栈指导,帮助学员掌握RAG知识库构建的最佳实践,提升企业知识管理效率与智能化水平。
课程收益
1、帮助学员系统掌握RAG技术原理与开发流程:从技术概述到核心组件,全面理解RAG技术架构与实现逻辑,具备独立开发RAG知识库的能力。
2、实战应用与案例解析:通过企业文档、医疗文献、法律法规等实战案例,帮助学员掌握RAG在不同场景下的落地方法,提升问题解决能力。
3、优化与评估能力提升:学习索引优化、检索后处理、RAG应用评估等高级技巧,帮助学员构建高效、可扩展的企业级RAG知识库。
受众人群
各类软件企业和研发中心的程序员、软件设计师、架构师, 项目经理,业务架构师,公司管理者。
本课程面向零基础LLM应用开发者,不需要了解复杂数学算法,机器学习原理。建议具备基础的Python知识。
课程周期
2天(12H)
课程大纲
标题 | 授课内容 |
一、RAG技术概述 | 1.RAG技术概述 2.加载器和分割器 3.文本嵌入和 向量存储 4.如何生成和存储Embedding 5.检索器和多文档联合检索 6.RAG技术的关键挑战 7.检索增强生成实践 8.RAG技术文档预处理过程 9.RAG技术文档检索过程 |
二、RAG的架构和核心组件 | 1.RAG架构 2.文档的导入和解析 3.文档的分块 4.文本块的嵌入 5.向量数据库的选择 6.文本块的检索 7.回答的生成 8.案例实践- 如何快速搭建RAG系统 9.使用框架:LangChain的RAG实现 10.使用低代码平台coze、Dify、智谱构建RAG |
三、企业私有知识的数据导入 | 1.用数据加载器读取 2.LangChain中的数据加载器 3.用LangChain读取目录中的所有文件 4.用LlamaIndex读取目录中的所有文档 5.用LlamaHub连接Reader并读取数据库条目 6.用Unstructured工具读取各种类型的文档 7.读取图片中的文字 8. 读取PPT中的文字 9.用大模型整体解析图文 10.网页文档的爬取和解析 11.PDF文件的文本格式、布局识别及表格解析 12.PDF文件加载工具概述 13.案例分析 |
四、RAG核心技术-文本切块 | 1.RAG场景下的提示词和文本切片 2.文本切块 3.固定大小文本切块 4.特殊格式文本切块 5.基于深度学习模型的文本 6.不同的分块策略 7.递归分块 8.带滑动窗口的句子切分 9.分块时混合生成父子文本块 10.分块时为文本块创建元数据 11.在分块时形成有级别的索引 |
五、嵌入(Embedding)向量和向量数据库基础 | 1.嵌入Embedding核心概念 2.嵌入是对外部信息的编码 3.句子嵌入模型和SentenceTransformers框架 4.图像和音频嵌入模型 5.大模型时代的嵌入模型 6.什么是向量 7.向量间的相似度 8.相似度应用案例 9.为什么需要向量数据库 10.向量数据和传统数据的差异 11.数据库核心原理 12.向量数据库 |
六、RAG查询检索前处理 | 1.查询检索构建 2.Text-to-SQL——自然语言到SQL的转换 3.Text-to-Cypher——从自然语言到图数据库查询 4.Self-query Retriever——自动从查询中生成元数据过滤条件 5.查询翻译——更好地阐释用户问题 6.查询重写——将原始问题重构为合适的形式 7.查询分解——将查询拆分成多个子问题 8.查询澄清——逐步细化和明确用户的问题 9.查询扩展——利用HyDE生成假设文档 10.查询路由——找到正确的数据源 11.逻辑路由——决定查询的路径 12.语义路由——选择相关的提示词 |
七、RAG Prompt技术和响应生成 | 1.Prompt 提示词工程 2.RAG与Prompt 提示词优化 3.使用Prompt模板 4.更改默认的Prompt模板 5.更改Prompt模板的变量 6.提示词 RAG 大模型交互的效果 7.通过改进提示词来提高模型输出质量 8.通过输出解析来控制生成内容的格式 9.通过选择大模型来提高输出质量 10.生成过程中的检索结果集成方式 11.Self-RAG |
八、索引优化和检索后处理 | 1.从小到大:节点-句子滑动窗口和父子文本块 2.节点-句子滑动窗口检索 3.利用IndexNode和RecursiveRetriever构建从摘要到细节的索 4.分层合并:HierarchicalNodeParser和RAPTOR 5.前后串联:通过前向/后向扩展链接相关节点 6.混合检索:提高检索*性和扩大覆盖范围 7.混合查询和查询路由 8.检索 重排 9.检索压缩 10.检索 校正 |
九、基于LangChain构建RAG文档问答系统 | 1.构建复杂LangChain RAG 应⽤ 2.LangChain模型(Models):从不同的 LLM 和嵌入模型中进行选择 3. LangChain提示(Prompts):管理 LLM 输入 4. LangChain链(Chains):将 LLM 与其他组件相结合 5. LangChain索引(Indexs):访问外部数据 6. LangChain记忆(Memory):记住以前的对话 7. LangChain代理(Agents):访问其他工具 8.使⽤大模型构建RAG文档问答系统 |
十、评估RAG应用 | 1.为什么RAG应用需要评估 2.RAG应用的评估依据与指标 3.RAG应用的评估流程与方法 4.评估检索质量 5.生成检索评估数据集 6.运行评估检索过程的程序 7.评估响应质量 8.生成响应评估数据集 9.单次响应评估 10.批量响应评估 11.基于自定义标准的评估 12.RAG评估案例 |
十一、RAG实战案例1-企业文档问答系统 | 1.企业文档问答需求分析与系统设计 2.确定问答系统的需求:识别用户的主要查询类型与目标 3.系统结构与模块划分:明确检索与生成模块的协作方式 4. 搭建向量数据库与检索模块 5.数据预处理与向量化:生成高效的嵌入向量 6.构建与优化索引:提升检索模块的查询速度 7.生成模块的集成与模型调优 8.加载与配置生成模型:选择适合问答系统的生成模型 9.模型优化与提示词调优:提高生成内容的准确性与相关性 10.RAG系统测试、部署与优化 11.测试流程与性能监控:确保系统的稳定性与响应速度 12.企业环境的部署与上线:实现系统在实际业务中的应用 |
十二、RAG实战案例2-医疗文献检索与分析系统 | 1.医疗文献 需求分析与数据准备 2.确定医学文献检索需求:识别用户查询重点 3.数据收集与清洗:构建高质量的医学知识库 4.构建高效的检索模块 5.设计向量检索系统:提升检索效率 6.优化索引结构:加速医学文献的精确匹配 7.生成模块开发、集成和调优 8.生成模型与检索的集成:精准回答用户提问 9.生成内容的优化与提示词调优:提升回答的质量与专业性 |
十三、RAG实战案例3- 法律法规查询助手的开发 | 1.法律法规需求分析与数据收集 2.用户需求解析:明确法律法规查询的主要需求 3.法律法规数据源与收集方法:搭建全面的法规数据库 4.数据清洗与标准化:提升查询效率和准确性 5. 法律法规检索模块的实现 6.向量化法律条款:构建检索友好的嵌入 7. FAISS索引在法规查询中的应用:提升检索性能 8.优化检索流程:提高法律条款的匹配精度 9.生成模块开发与输出优化 10.生成模型与检索模块的集成:构建准确的法规回答 11.输出格式与内容优化:提供清晰的法律解释 12.提示词调优与模型配置:确保法律回答的专业性 |
十四、企业建设知识库的最佳实践 | 1.企业级RAG应用的常见优化策略 2.选择合适的知识块大小 3.评估知识块大小 4.分离检索阶段的知识块与生成阶段的知识块 5.常见的分离策略及实现 6.优化对大文档集知识库的检索 7.元数据过滤 + 向量检索 8.摘要检索+ 内容检索 9.多文档Agentic RAG 10.使用高级检索方法 11.构建端到端的企业级RAG应用 12.对生产型RAG应用的主要考量 13.端到端的企业级RAG应用架构 14.数据存储层 15.AI模型层 16.RAG工作流与API模块 17.端到端的全栈RAG应用案例 18.简单的全栈RAG查询应用 19.基于多文档Agent的端到端对话应用 |
十五、RAG 的未来演进 | 1.多模态RAG的技术进展和发展路线 2.未来的RAG和Agent如何发展 3.如何构建企业级的RAG和Agent集群架构 4.GraphRAG:RAG和知识图谱的整合 5.上下文检索:突破传统RAG的上下文困境 6. ModularRAG:从固定流程到灵活架构的跃迁 7.AgenticRAG:自主代理驱动的RAG系统 8. Multi-Modal RAG:多模态检索增强生成技术 |
Mace Liu
百林哲咨询(北京)有限公司专家团队成员
Mace Liu
百林哲咨询(北京)有限公司专家团队成员
Mace Liu
百林哲咨询(北京)有限公司专家团队成员
Mace Liu
百林哲咨询(北京)有限公司专家团队成员
Mace Liu
百林哲咨询(北京)有限公司专家团队成员
Mace Liu
百林哲咨询(北京)有限公司专家团队成员
Mace Liu
百林哲咨询(北京)有限公司专家团队成员
京ICP备2022035414号-1