课程简介
Transformer 架构擅长处理文本数据,数据本身是有顺序的。它们将一个文本序列作为输入,并产生另一个文本序列作为输出。核心是包含一个编码器层和解码器层的堆栈。为了避免混淆,将单个层称为编码器或解码器,并使用编码器堆栈或解码器堆栈分别表示一组编码器与一组解码器。在编码器堆栈和解码器堆栈之前,都有对应的嵌入层。而在解码器堆栈后,有一个输出层来生成最终的输出。其训练的目标是通过对源序列与目标序列的学习,生成目标序列。
本次课程旨在深刻理解大模型底层Transformer,以Transformer为核心,探索其不同模态应用。从Vanilla Transformer剖析到各种X-formers的进化。为听众在大模型时代背景下补充相关底层知识。
课程收益
1深刻理解Transformer模型的底层原理和结构。
2掌握Transformer在不同领域的应用,包括NLP、CV、Audio等。
3了解Vanilla Transformer的核心组件,如Attention、FFN、LayerNorm、Position Encoding。
4探讨Transformer模型的优化和变种,包括Sparse Attention、Memory Compression等。
5分享不同的位置编码方式,如绝对位置编码、相对位置编码、RoPE。
6理解在架构层面的变革,包括轻量级模型、Connectivity、Alternative Architecture。
7了解相关预训练模型,诸如Encoder Only、Decoder Only、Encoder-Decoder的应用场景。
8分享大量实战应用案例,了解电商评论情感分析、主题分类、关键信息的提取等。
受众人群
人工智能,大数据,架构相关人员,技术工程师、算法工程师以及对Transformer感兴趣的人员。
课程周期
0.5天(3H)
课程大纲
标题 | 授课内容 |
模块一:研究Transformer模型工作原理 | 1. Vanilla Transformer结构 2. Transformer之不同模态(图像,NLP,点云等) |
模块二:剖析Vanilla Transformer | 1. Attention 2. FFN 3. LayerNorm 4. Position Encoding |
模块三:由Vanilla Transformer到X-formers - Transformer领域概览 | 1. 模块层面:Attention优化、位置编码创新、LayerNorm的演变 2. 架构层面:轻量级模型、Connectivity、Alternative Architecture 3. 相关预训练模型:Encoder Only、Decoder Only、Encoder-Decoder的应用 4. 应用场景:NLP、CV、Audio、Multimodal |
模块四:Transformer实战应用案例分析 | 1. 电商评论:情感分析 2. 电商评论:主题分类 3. 电商评论:关键信息提取 4. 电商评论:利用大模型实现高弹性应用场景 |