课程简介
近年来,机器翻译(MT)领域在深度学习的推动下,尤其是随着GPT-3、ChatGPT等超大型语言模型(LLM)的涌现,迎来了前所未有的飞跃。这些LLM以其卓越的语言理解能力,为MT带来了崭新的机遇与挑战。通过利用开源LLM的In-context Learning能力,或仅需少量数据进行Supervised Fine-tuning,即可显著提升翻译性能,展现出强大的潜力。
相较于传统机器翻译模型,这些大语言模型(LLM)在深度解析文本含义、捕捉语境微妙变化方面展现出明显优势,激发了业界对利用LLM优化翻译质量的浓厚兴趣。然而,值得注意的是,尽管LLM具备强大能力,但当前针对翻译任务的研究多聚焦于微调策略,其效果提升仍有待进一步挖掘,尤其是在缺乏大规模双语标注数据的情况下。
本次分享将基于一种创新的三阶段训练方案,在系统性地增强LLM的翻译能力中,以大量单语数据进行增量预训练、构建Interlinear Text 格式的双语数据进行增量预训练、源语言一致性的微调,为探索多模态大模型应用的与会者提供宝贵的技术洞见。
课程收益
1、帮助学员了解大语言模型下机器翻译技术的发展
2、帮助学员了解三阶段训练方案——大语言模型时代机器翻译能力的增强技术
3、给予企业在大模型时代下做特定任务的实践思考
受众人群
企业管理者,IT行业从业者及其他对机器翻译感兴趣的人员
课程周期
3H
课程大纲
标题 | 授课内容 |
一、大模型当下的挑战与状况 | 1. 简要介绍大模型(Large Language Model, LLM)在机器翻译领域的重要性和潜力。 2. 阐述当前大模型机器翻译面临的挑战和限制 |
二、大模型机器翻译的研究进展分享 | 1. LLM机器翻译的研究趋势与挑战 2. 讨论当前LLM机器翻译面临的主要挑战和解决方案 |
三、三阶段大模型机器翻译范式介绍 | 1. 大量单语数据的增量预训练 2. Interlinear Text格式双语数据的增量预训练 3. 源语言一致性的微调 |
四、评测、数据及结果
| 1. 评测方法与数据集介绍 2. 介绍所使用的数据集及其特点。 3. 实验结果与对比分析 |
五、总结与展望 | 1. 总结与展望 |