多模态大模型开发能力提升实战训练营
Mace Liu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
中国科学技术大学人工智能硕士,十余年的企业软件架构开发经验
浏览:68次
详情 DETAILS

课程简介

在人工智能技术飞速发展的当下,多模态大模型作为融合多种模态信息(如文本、图像、语音等)的先进技术,正引领着新一轮的技术革命与产业变革。从智能问答、内容生成到复杂决策支持,多模态大模型的应用场景日益广泛,对提升企业智能化水平、优化用户体验具有不可估量的价值。然而,多模态大模型的开发与应用涉及复杂的技术原理、架构设计及实战技巧,对开发者的专业能力提出了极高要求。

本课程致力于系统性地提升学员在多模态大模型领域的开发与应用能力。课程从多模态大模型的基础概念、核心架构与技术原理出发,深入剖析其底层逻辑。重点讲解多模态大模型的训练流程、优化技巧(如参数高效微调),以及构建本地知识库所需的前期准备与核心组件工具。学员将学习如何动手开发智能知识库问答系统,掌握知识图谱构建方法并将其融入专家系统。通过实战导向的内容,学员将获得从模型理解、训练优化到实际应用系统开发的全流程能力,为开发先进的跨模态AI应用奠定坚实基础。

课程收益

1、帮助学员深入理解多模态大模型底层逻辑与技术原理,奠定坚实理论基础。

2、帮助学员掌握多模态大模型核心架构与开发技巧,提升实战应用能力。

3、通过丰富案例分析与项目实践,帮助学员积累宝贵经验,加速职业成长。

受众人群

各类软件企业和研发中心的程序员、软件设计师、架构师, 项目经理,架构师。

本课程面向零基础LLM应用开发者,不需要了解复杂数学算法,机器学习原理,不需要之前学习过大模型知识。有Java,C#,C++等编程基础,最好有Python基础知识

课程周期

 2天(12H 

课程大纲

标题

授课内容

一、多模态大模型底层逻辑和技术原理

第一部分:多模态大模型基础理论与技术解析

1.多模态与大模型简介

2.多模态数据的种类与特点

3.大模型的核心能力与应用领域

4.表征学习与迁移学习

5.内容生成与模态对齐

6.模态对齐的实现方法与技术难点

7.多模态生成任务的典型案例

8.多模态大模型发展历程

9.单模态到多模态的发展路径

10.多模态大模型的技术里程碑汇总

 

第二部分: 多模态大模型核心架构

1.Transformer基本原理剖析

2.跨模态对齐技术:注意力机制与嵌入对齐

3.嵌入空间的对齐方法与损失函数优化

4.多头注意力机制在对齐中的应用

5.模态融合数据级、特征级与目标级

6.数据级融合的实现与场景应用

7.特征级融合的建模方法与优化

8.模态解耦与共享学习框架

9.模态解耦的多任务学习策略

10.参数共享框架的设计与优化

 

第三部分: 基于多模态大模型的企业应用案例

1.多模态大模型基本概念

2.多模态GPT多模态应用场景分析

3.OpenAI多模态API解析

4.多模态大模型核心技术

5.多模态提示模板工程

6.多模态思维链

7.多模态基础模型

8.多模态大模型的应用案例

9.视觉问答应用案例

10.图像问答应用案例

11.某企业多模态案例

 

第四部分: 多模态大模型API构建应用程序(多案例,灵活选择)

1.应用程序开发概述

2.案例项目分析

3.项目1:构建新闻稿生成器

4.项目2:语音控制

5.项目3:企业管理系统MIS应用案例分析

6.项目4:某企业智能管理系统

二、基于多模态大模型的本地知识库RAG

第一部分: RAG技术概述

1.RAG技术概述

2.加载器和分割器

3.文本嵌入和 向量存储

4.如何生成和存储Embedding

5.检索器和多文档联合检索

6.RAG技术的关键挑战

7.检索增强生成实践

8.RAG技术文档预处理过程

9.RAG技术文档检索过程

 

第二部分: ⼤模型应⽤开发框架 LangChain

1.⼤模型应⽤开发框架 LangChain

2.LangChain基本原理与开发流程

3.LangChain的核心组件:理解任务链与内存模块

4.LangChain开发流程概述

5.为什么需要 LangChain

6.LangChain 典型使⽤场景

7.LangChain 基础概念与模块化设计

8.LangChain 核⼼模块⼊⻔与实战

9.LangChain 的3 个场景

10.LangChain 的6 大模块

11.LangChain 的开发流程

12.创建基于LangChain聊天机器人

 

第三部分: 基于Agent的RAG知识库(Agentic RAG)

1.Agent的四大要素

2.Agent的规划和决策能力

3.Agent的各种记忆机制

4.Agent的核心技能:调用工具

5.Agent的推理引擎:ReAct框架

6.何谓ReAct

7.用ReAct框架实现简单Agent

8.基于ReAct框架的提示

9.构建ReAct Agent

 

第四部分: 基于多模态构建Agent

1.多模态技术原理讲解

2.常用的多模态模型介绍、原理解析

3.多模态典型应用场景举例,以及技术实现

4.多模态技术实战

5.多模态需求输入:图像、语音、文本

6.语音输入集成模块

7.图像输入集成模块

8.核心需求理解与多轮输入整合模块

9.语音输入处理

10.利用多模态技术实现多模态智能聊天对话

11.基于多模态大模型的Agent开发

 

第五部分: Agentic RAG智能体实战-智能翻译Agent

1.翻译需求分析与设计规划

2.多语言支持与术语一致性设计

3.输入输出格式与核心模块规划

4.核心逻辑与代码原理:多语言模型与翻译算法详解

5.多语言模型的调用与上下文保持

6.翻译优化与错误处理机制

7.Prompt设计与多轮交互实现

8.代码实现与智能体集成:从开发到部署的全流程

9.翻译系统的代码实现与模块测试

10.智能翻译系统的部署与优化

三、本地知识库RAG核心组件及工具介绍

第一部分: RAG的架构和核心组件

1.RAG架构

2.文档的导入和解析

3.文档的分块

4.文本块的嵌入

5.向量数据库的选择

6.文本块的检索

7.回答的生成

8.案例实践- 如何快速搭建RAG系统

9.使用框架:LangChain的RAG实现

10.使用低代码平台coze、Dify、智谱构建RAG

 

第二部分: 企业私有知识的数据导入

1.用数据加载器读取

2.LangChain中的数据加载器

3.用LangChain读取目录中的所有文件

4.用LlamaIndex读取目录中的所有文档

5.用LlamaHub连接Reader并读取数据库条目

6.用Unstructured工具读取各种类型的文档

7.读取图片中的文字

8. 读取PPT中的文字

9.用大模型整体解析图文

10.网页文档的爬取和解析

11.PDF文件的文本格式、布局识别及表格解析

12.PDF文件加载工具概述

13.案例分析  

 

第三部分: RAG核心技术-文本切块

1.RAG场景下的提示词和文本切片

2.文本切块

3.固定大小文本切块

4.特殊格式文本切块

5.基于深度学习模型的文本

6.不同的分块策略

7.递归分块

8.带滑动窗口的句子切分

9.分块时混合生成父子文本块

10.分块时为文本块创建元数据

11.在分块时形成有级别的索引  

 

第四部分: 嵌入(Embedding)向量和向量数据库基础 

1.嵌入Embedding核心概念

2.嵌入是对外部信息的编码

3.句子嵌入模型和SentenceTransformers框架

4.图像和音频嵌入模型

5.大模型时代的嵌入模型

6.什么是向量 

7.向量间的相似度 

8.相似度应用案例 

9.为什么需要向量数据库 

10.向量数据和传统数据的差异 

11.数据库核心原理

12.向量数据库

 

第五部分: RAG查询检索前处理 

1.查询检索构建

2.Text-to-SQL——自然语言到SQL的转换

3.Text-to-Cypher——从自然语言到图数据库查询

4.Self-query Retriever——自动从查询中生成元数据过滤条件

5.查询翻译——更好地阐释用户问题

6.查询重写——将原始问题重构为合适的形式

7.查询分解——将查询拆分成多个子问题

8.查询澄清——逐步细化和明确用户的问题

9.查询扩展——利用HyDE生成假设文档

10.查询路由——找到正确的数据源

11.逻辑路由——决定查询的路径

12.语义路由——选择相关的提示词  

四、智能知识库问答系统构建流程

第一部分: RAG Prompt技术和响应生成 

1.Prompt 提示词工程

2.RAG与Prompt 提示词优化

3.使用Prompt模板

4.更改默认的Prompt模板

5.更改Prompt模板的变量 

6.提示词 RAG 大模型交互的效果

7.通过改进提示词来提高模型输出质量

8.通过输出解析来控制生成内容的格式

9.通过选择大模型来提高输出质量

10.生成过程中的检索结果集成方式

11.Self-RAG

 

第二部分: 索引优化和检索后处理 

1.从小到大:节点-句子滑动窗口和父子文本块

2.节点-句子滑动窗口检索

3.利用IndexNode和RecursiveRetriever构建从摘要到细节的索

4.分层合并:HierarchicalNodeParser和RAPTOR

5.前后串联:通过前向/后向扩展链接相关节点

6.混合检索:提高检索*性和扩大覆盖范围

7.混合查询和查询路由

8.检索 重排

9.检索压缩

10.检索 校正 

 

 第三部分: 评估RAG应用

1.为什么RAG应用需要评估

2.RAG应用的评估依据与指标

3.RAG应用的评估流程与方法

4.评估检索质量

5.生成检索评估数据集

6.运行评估检索过程的程序

7.评估响应质量

8.生成响应评估数据集

9.单次响应评估

10.批量响应评估

11.基于自定义标准的评估

12.RAG评估案例

 

第四部分: RAG实战案例1-企业文档问答系统

1.企业文档问答需求分析与系统设计

2.确定问答系统的需求:识别用户的主要查询类型与目标

3.系统结构与模块划分:明确检索与生成模块的协作方式

4. 搭建向量数据库与检索模块

5.数据预处理与向量化:生成高效的嵌入向量

6.构建与优化索引:提升检索模块的查询速度

7.生成模块的集成与模型调优

8.加载与配置生成模型:选择适合问答系统的生成模型

9.模型优化与提示词调优:提高生成内容的准确性与相关性

10.RAG系统测试、部署与优化

11.测试流程与性能监控:确保系统的稳定性与响应速度

12.企业环境的部署与上线:实现系统在实际业务中的应用

 

第五部分: RAG实战案例2-医疗文献检索与分析系统

1.医疗文献 需求分析与数据准备

2.确定医学文献检索需求:识别用户查询重点

3.数据收集与清洗:构建高质量的医学知识库

4.构建高效的检索模块

5.设计向量检索系统:提升检索效率

6.优化索引结构:加速医学文献的精确匹配

7.生成模块开发、集成和调优

8.生成模型与检索的集成:精准回答用户提问

9.生成内容的优化与提示词调优:提升回答的质量与专业性


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1