多模态大模型开发能力提升实战训练营

Mace Liu 查看讲师

百林哲咨询（北京）有限公司专家团队成员

中国科学技术大学人工智能硕士，十余年的企业软件架构开发经验

浏览：346次

详情 DETAILS

课程简介

在人工智能技术飞速发展的当下，多模态大模型作为融合多种模态信息（如文本、图像、语音等）的先进技术，正引领着新一轮的技术革命与产业变革。从智能问答、内容生成到复杂决策支持，多模态大模型的应用场景日益广泛，对提升企业智能化水平、优化用户体验具有不可估量的价值。然而，多模态大模型的开发与应用涉及复杂的技术原理、架构设计及实战技巧，对开发者的专业能力提出了极高要求。

本课程致力于系统性地提升学员在多模态大模型领域的开发与应用能力。课程从多模态大模型的基础概念、核心架构与技术原理出发，深入剖析其底层逻辑。重点讲解多模态大模型的训练流程、优化技巧（如参数高效微调），以及构建本地知识库所需的前期准备与核心组件工具。学员将学习如何动手开发智能知识库问答系统，掌握知识图谱构建方法并将其融入专家系统。通过实战导向的内容，学员将获得从模型理解、训练优化到实际应用系统开发的全流程能力，为开发先进的跨模态AI应用奠定坚实基础。

课程收益

1、帮助学员深入理解多模态大模型底层逻辑与技术原理，奠定坚实理论基础。

2、帮助学员掌握多模态大模型核心架构与开发技巧，提升实战应用能力。

3、通过丰富案例分析与项目实践，帮助学员积累宝贵经验，加速职业成长。

受众人群

各类软件企业和研发中心的程序员、软件设计师、架构师, 项目经理，架构师。

本课程面向零基础LLM应用开发者，不需要了解复杂数学算法，机器学习原理，不需要之前学习过大模型知识。有Java，C#，C++等编程基础，最好有Python基础知识

课程周期

2天（12H）

课程大纲

标题	授课内容
一、多模态大模型底层逻辑和技术原理	第一部分:多模态大模型基础理论与技术解析 1.多模态与大模型简介 2.多模态数据的种类与特点 3.大模型的核心能力与应用领域 4.表征学习与迁移学习 5.内容生成与模态对齐 6.模态对齐的实现方法与技术难点 7.多模态生成任务的典型案例 8.多模态大模型发展历程 9.单模态到多模态的发展路径 10.多模态大模型的技术里程碑汇总第二部分: 多模态大模型核心架构 1.Transformer基本原理剖析 2.跨模态对齐技术：注意力机制与嵌入对齐 3.嵌入空间的对齐方法与损失函数优化 4.多头注意力机制在对齐中的应用 5.模态融合数据级、特征级与目标级 6.数据级融合的实现与场景应用 7.特征级融合的建模方法与优化 8.模态解耦与共享学习框架 9.模态解耦的多任务学习策略 10.参数共享框架的设计与优化第三部分: 基于多模态大模型的企业应用案例 1.多模态大模型基本概念 2.多模态GPT多模态应用场景分析 3.OpenAI多模态API解析 4.多模态大模型核心技术 5.多模态提示模板工程 6.多模态思维链 7.多模态基础模型 8.多模态大模型的应用案例 9.视觉问答应用案例 10.图像问答应用案例 11.某企业多模态案例第四部分: 多模态大模型API构建应用程序（多案例，灵活选择） 1.应用程序开发概述 2.案例项目分析 3.项目1：构建新闻稿生成器 4.项目2：语音控制 5.项目3：企业管理系统MIS应用案例分析 6.项目4：某企业智能管理系统
二、基于多模态大模型的本地知识库RAG	第一部分: RAG技术概述 1.RAG技术概述 2.加载器和分割器 3.文本嵌入和向量存储 4.如何生成和存储Embedding 5.检索器和多文档联合检索 6.RAG技术的关键挑战 7.检索增强生成实践 8.RAG技术文档预处理过程 9.RAG技术文档检索过程第二部分: ⼤模型应⽤开发框架 LangChain 1.⼤模型应⽤开发框架 LangChain 2.LangChain基本原理与开发流程 3.LangChain的核心组件：理解任务链与内存模块 4.LangChain开发流程概述 5.为什么需要 LangChain 6.LangChain 典型使⽤场景 7.LangChain 基础概念与模块化设计 8.LangChain 核⼼模块⼊⻔与实战 9.LangChain 的3 个场景 10.LangChain 的6 大模块 11.LangChain 的开发流程 12.创建基于LangChain聊天机器人第三部分: 基于Agent的RAG知识库（Agentic RAG） 1.Agent的四大要素 2.Agent的规划和决策能力 3.Agent的各种记忆机制 4.Agent的核心技能：调用工具 5.Agent的推理引擎：ReAct框架 6.何谓ReAct 7.用ReAct框架实现简单Agent 8.基于ReAct框架的提示 9.构建ReAct Agent 第四部分: 基于多模态构建Agent 1.多模态技术原理讲解 2.常用的多模态模型介绍、原理解析 3.多模态典型应用场景举例，以及技术实现 4.多模态技术实战 5.多模态需求输入：图像、语音、文本 6.语音输入集成模块 7.图像输入集成模块 8.核心需求理解与多轮输入整合模块 9.语音输入处理 10.利用多模态技术实现多模态智能聊天对话 11.基于多模态大模型的Agent开发第五部分: Agentic RAG智能体实战-智能翻译Agent 1.翻译需求分析与设计规划 2.多语言支持与术语一致性设计 3.输入输出格式与核心模块规划 4.核心逻辑与代码原理：多语言模型与翻译算法详解 5.多语言模型的调用与上下文保持 6.翻译优化与错误处理机制 7.Prompt设计与多轮交互实现 8.代码实现与智能体集成：从开发到部署的全流程 9.翻译系统的代码实现与模块测试 10.智能翻译系统的部署与优化
三、本地知识库RAG核心组件及工具介绍	第一部分: RAG的架构和核心组件 1.RAG架构 2.文档的导入和解析 3.文档的分块 4.文本块的嵌入 5.向量数据库的选择 6.文本块的检索 7.回答的生成 8.案例实践- 如何快速搭建RAG系统 9.使用框架：LangChain的RAG实现 10.使用低代码平台coze、Dify、智谱构建RAG 第二部分: 企业私有知识的数据导入 1.用数据加载器读取 2.LangChain中的数据加载器 3.用LangChain读取目录中的所有文件 4.用LlamaIndex读取目录中的所有文档 5.用LlamaHub连接Reader并读取数据库条目 6.用Unstructured工具读取各种类型的文档 7.读取图片中的文字 8. 读取PPT中的文字 9.用大模型整体解析图文 10.网页文档的爬取和解析 11.PDF文件的文本格式、布局识别及表格解析 12.PDF文件加载工具概述 13.案例分析第三部分: RAG核心技术-文本切块 1.RAG场景下的提示词和文本切片 2.文本切块 3.固定大小文本切块 4.特殊格式文本切块 5.基于深度学习模型的文本 6.不同的分块策略 7.递归分块 8.带滑动窗口的句子切分 9.分块时混合生成父子文本块 10.分块时为文本块创建元数据 11.在分块时形成有级别的索引第四部分: 嵌入（Embedding）向量和向量数据库基础　 1.嵌入Embedding核心概念 2.嵌入是对外部信息的编码 3.句子嵌入模型和SentenceTransformers框架 4.图像和音频嵌入模型 5.大模型时代的嵌入模型 6.什么是向量　 7.向量间的相似度　 8.相似度应用案例　 9.为什么需要向量数据库　 10.向量数据和传统数据的差异　 11.数据库核心原理 12.向量数据库第五部分: RAG查询检索前处理　 1.查询检索构建 2.Text-to-SQL——自然语言到SQL的转换 3.Text-to-Cypher——从自然语言到图数据库查询 4.Self-query Retriever——自动从查询中生成元数据过滤条件 5.查询翻译——更好地阐释用户问题 6.查询重写——将原始问题重构为合适的形式 7.查询分解——将查询拆分成多个子问题 8.查询澄清——逐步细化和明确用户的问题 9.查询扩展——利用HyDE生成假设文档 10.查询路由——找到正确的数据源 11.逻辑路由——决定查询的路径 12.语义路由——选择相关的提示词