课程简介
随着浏览视频用户规模的不断扩大,视频理解在视频自动打标签,视频归档,视频的搜索推荐发挥着越来越重要的作用。然而,和传统的图像,文本算法不同,视频理解能力天然依赖多模态信息之间的融合和协同作用,该方面的技术业界还处于初级阶段。
本次分享简单的介绍多模态视频理解技术的发展,现状,以及未来的趋势和方向,包括多模态的表征学习、融合方法,以及在有监督、无监督等领域的应用。最后介绍多模态技术在腾讯云智媒体AI中台中的落地,包括智能视频文字识别,视频拆条,视频场景分割分类等。该平台曾获得CCBN产品创新优秀奖、腾讯云2020年度优秀行业奖等荣誉。
课程收益
1、目标
多模态技术的现状以及最新的发展趋势和落地情况,能够更好的推动该技术在视频理解,视频检索,视频推荐上的应用。
2、成功(或教训)要点
自主研发新的多模态融合技术,在有监督,无监督的应用中,能够更好的解决视频理解领域中不同模态的互补性和差异性,同时在少量甚至不需要样本数据的情况在下游任务取得很好的性能。
3、启示
让视频理解的任务能够像理解图像一样简单。
受众人群
多模态AI、多语言推荐、AI视频应用技术专家、智能视频交互以及其他对多模态AI视频感兴趣的人员
课程周期
0.5天(3H)
课程大纲
授课内容 |
1. 多模态视频理解的背景和现状 2. 多模态的表征学习、融合方法 3. 基于无监督/半监督的多模态视频理解技术 4. 视频理解在腾讯云智媒体AI中台中的落地 5. QA |