课程简介
高资源如中英等实时翻译系统已经相当成熟。本演讲将重点介绍如何在低资源,数据稀少情况下,搭建出可以在工业级应用的语音实时翻译系统和 OCR 实时翻译系统。
中国是一个 200 多种语言的国家,不同语言之间的交流经常会存在障碍,以维吾尔族为例,目前能够运用汉语顺利交流的人群只占有约 36%,能够消除语言交流的障碍,打造在低资源下可以进行音视图文交流的巴别塔,一直是团队的目标。利用低资源语音识别技术,听懂民族语言;利用低资源语言 OCR 技术,看懂民族语言;而如何把听懂和看懂转化为理解,就需要作为核心“大脑”的低资源语言机器翻译技术,把这些内容转化为大部分人可以看懂的汉语。本分享将重点介绍腾讯低资源语种 AI 团队在国内外一系列大赛中获奖的语言语音识别多媒体技术,以及在打造多媒体实时翻译的落地方案。
课程收益
1、目标:
帮助听众知道如何将前沿的语音识别,OCR 和翻译技术结合,打造在不同语种下的实时多
媒体翻译系统。
2、要点:
低资源语音图像翻译技术的建模,解码和应用。
3、启示:
如何通过低资源技术,节省 ai 团队的运营成本,同时打造实时多媒体翻译平台。
受众人群
语音技术相关技术人员、系统架构师,以及对语音传输架构和算法感兴趣的人员
课程周期
3H
课程大纲
1、腾讯的任务和技术布局
2、低资源语音识别技术的声学模型和语言模型
3、低资源 OCR 技术
4、端到端语音翻译
5、端到端 OCR 翻译
6、实时多媒体翻译技术的算法和工程
7、DEMO 个知识点(可以突出具体的实际行业实例)
8、互动答疑