多模态技术及其在视频理解当中的应用

Olav Liu 查看讲师

百林哲咨询（北京）有限公司专家团队成员

某知名AI+工业制造公司高级算法专家，10年CV、视频领域研究和落地经历，构建多模态、多层级的视频智能标签和标题等核心技术，应用在该公司云智媒体AI中台。

浏览：2218次

详情 DETAILS

课程简介

随着浏览视频用户规模的不断扩大，视频理解在视频自动打标签，视频归档，视频的搜索推荐发挥着越来越重要的作用。然而，和传统的图像，文本算法不同，视频理解能力天然依赖多模态信息之间的融合和协同作用，该方面的技术业界还处于初级阶段。

本次分享简单的介绍多模态视频理解技术的发展，现状，以及未来的趋势和方向，包括多模态的表征学习、融合方法，以及在有监督、无监督等领域的应用。最后介绍多模态技术在腾讯云智媒体AI中台中的落地，包括智能视频文字识别，视频拆条，视频场景分割分类等。该平台曾获得CCBN产品创新优秀奖、腾讯云2020年度优秀行业奖等荣誉。

课程收益

1、目标

多模态技术的现状以及最新的发展趋势和落地情况，能够更好的推动该技术在视频理解，视频检索，视频推荐上的应用。

２、成功（或教训）要点

自主研发新的多模态融合技术，在有监督，无监督的应用中，能够更好的解决视频理解领域中不同模态的互补性和差异性，同时在少量甚至不需要样本数据的情况在下游任务取得很好的性能。

3、启示

让视频理解的任务能够像理解图像一样简单。

受众人群

多模态AI、多语言推荐、AI视频应用技术专家、智能视频交互以及其他对多模态AI视频感兴趣的人员

课程周期

0.5天（3H）

课程大纲

授课内容

1. 多模态视频理解的背景和现状

2. 多模态的表征学习、融合方法

3. 基于无监督/半监督的多模态视频理解技术

4. 视频理解在腾讯云智媒体AI中台中的落地

5. QA

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

次