深刻理解大模型底层Transformer概念与应用

Hewett Fan 查看讲师

百林哲咨询（北京）有限公司专家团队成员

资深全栈AI工程师，5年AI项目落地经验

浏览：775次

详情 DETAILS

课程简介

Transformer 架构擅长处理文本数据，数据本身是有顺序的。它们将一个文本序列作为输入，并产生另一个文本序列作为输出。核心是包含一个编码器层和解码器层的堆栈。为了避免混淆，将单个层称为编码器或解码器，并使用编码器堆栈或解码器堆栈分别表示一组编码器与一组解码器。在编码器堆栈和解码器堆栈之前，都有对应的嵌入层。而在解码器堆栈后，有一个输出层来生成最终的输出。其训练的目标是通过对源序列与目标序列的学习，生成目标序列。

本次课程旨在深刻理解大模型底层Transformer，以Transformer为核心，探索其不同模态应用。从Vanilla Transformer剖析到各种X-formers的进化。为听众在大模型时代背景下补充相关底层知识。

课程收益

1深刻理解Transformer模型的底层原理和结构。

2掌握Transformer在不同领域的应用，包括NLP、CV、Audio等。

3了解Vanilla Transformer的核心组件，如Attention、FFN、LayerNorm、Position Encoding。

4探讨Transformer模型的优化和变种，包括Sparse Attention、Memory Compression等。

5分享不同的位置编码方式，如绝对位置编码、相对位置编码、RoPE。

6理解在架构层面的变革，包括轻量级模型、Connectivity、Alternative Architecture。

7了解相关预训练模型，诸如Encoder Only、Decoder Only、Encoder-Decoder的应用场景。

8分享大量实战应用案例，了解电商评论情感分析、主题分类、关键信息的提取等。

受众人群

人工智能，大数据，架构相关人员，技术工程师、算法工程师以及对Transformer感兴趣的人员。

课程周期

0.5天（3H）

课程大纲

标题	授课内容
模块一：研究Transformer模型工作原理	1. Vanilla Transformer结构 2. Transformer之不同模态（图像，NLP，点云等）
模块二：剖析Vanilla Transformer	1. Attention 2. FFN 3. LayerNorm 4. Position Encoding
模块三：由Vanilla Transformer到X-formers - Transformer领域概览	1. 模块层面：Attention优化、位置编码创新、LayerNorm的演变 2. 架构层面：轻量级模型、Connectivity、Alternative Architecture 3. 相关预训练模型：Encoder Only、Decoder Only、Encoder-Decoder的应用 4. 应用场景：NLP、CV、Audio、Multimodal
模块四：Transformer实战应用案例分析	1. 电商评论：情感分析 2. 电商评论：主题分类 3. 电商评论：关键信息提取 4. 电商评论：利用大模型实现高弹性应用场景

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

次