简介
计算机视觉和自然语言处理是人工智能最火热的两个方向,近年来,越来越多的研究开始将这两个跨领域的方向结合,逐渐催生出很多让人惊艳的方向和算法。最早的视觉到语言(Visual-to-Language,即V2L)的研究方向是图像描述算法(image captioning)。解释起来很简单,就是四个字:看图说话。就像老师要求小朋友们在看图说话作业中完成的任务一样,我们也希望算法能够根据图像给出能够描述图像内容的自然语言语句。 然而这种对于人类实在是小事一桩的小儿科级任务,在计算机视觉领域却不能不说是一个挑战:因为图像描述问题需要在两种不同形式的信息(图像信息到文本信息)之间进行“翻译”。
在此基础上,很多扩展任务应运而生——包括视觉问答(visual question answering),图像密集标注(dense annotation),视频描述(video captioning),视频弹幕生成(dialog generation)等。都是从视觉信息到语言信息的翻译。
相反的,另外一类对应的研究方向就是语言到视觉(language-to-visual,即L2V)。相比V2L,这是一个更具挑战的任务。近年来的文本到图像(text-to-image synthesis)、文本到视频生成(text-to-video synthesis)就是V2L的一个应用。
视觉和语言的交互未来会成为人工智能研究与落地的有一个热点方向,对于实现真正的强人工智能至关重要。
课程收益
1.目标
了解视觉和语言交互算法的原理和在业界的应用方向
2.成功(或教训)要点
了解计算机视觉的基础算法
了解自然语言处理的基础算法
挖掘业界人工智能的落地方向
3.启示
计算机视觉的自然语言处理的多模态结合是将来人工智能的重点研究方向,多学科的交叉研究将会对业界进步提供重要的助推力
受众人群
产品经理、算法工程师、系统架构师、大数据开发工程师以及其他对AI感兴趣的人员。
课程时长
0.5天(3H)
分享提纲
1. 图像描述算法的研究进展; |
2. V2L研究方向的应用于落地; |
3. Text-to-image synthesis算法的研究进展; |
4. L2V研究方向的应用于落地; |
5. QA(答疑)。 |