课程简介
多模态基础模型能够通过文字、声音和视觉了解用户的意图、情绪和状态,并基于强大的多模态推理、规划和生成能力,为用户提供生动准确的解决方案或内容推荐。同时,多模态基础模型能够从海量视频和虚拟物理引擎中学习现实世界的物理特性和规律,并根据文字指令或操作预测当前视觉状态下未来的情况,生成符合物理规律的可视化视频输出。当前的多模态基础模型将颠覆搜索、教育、娱乐、推荐等重要应用场景,并推动附身、具身智能的发展。
最新多模态闭源模型(GPT-4o和Gemini-2.5-Pro)已初步具备图文理解、推理、生成和编辑能力,但尚未在多模表征、模型架构和学习范式上达成统一,多模态理解和生成尚未实现真正意义的互促和融合。主流通用视频生成模型基于扩散模型,可一次性生成时长为5-10秒视频,但推理效率低,物理规律遵循能力差,且不具备通用视觉理解和推理能力。
本次分享系统回顾多模态基础模型的发展,包括视觉表征模型、多模态理解模型、多模态生成模型和多模态理解生成一体化模型。将为行业突出每种模型的特点及其面临的挑战,以及探讨多模态基础模型的未来发展方向,特别是聚焦两个关键领域:视频世界模型和多模态理解生成一体化模型。帮助与会者在此方向建立、选择更正确的路线。
课程收益
1、帮助学员系统掌握多模态领域的发展脉络与前沿技术全景;
2、帮助学员深度对比视频生成与多模态理解生成模型的技术边界与优化策略;
3、帮助学员了解前瞻多模态基础模型的未来应用场景与产业变革机遇
受众人群
人工智能工程师、算法研究员、多模态算法工程师、数据科学家、产品经理(AI方向)、多模态产品经理、技术负责人、架构师、行业解决方案专家、业务分析师、CTO、技术副总裁、数字化转型负责人以及其他对多模态感兴趣的人员
课程周期
0.5天(3H)
课程大纲
1、多模态基础模型的进展
1)大语言模型为多模态的发展奠定基础
2)视觉表征监督从视觉信号到自然语言
3)多模态理解模型使得AI能够看图说话
4)多模态生成从自回归模型到扩散模型
5)多模态模型向理解生成统一方向前进
2、多模态基础模型的展望
1)趋势:从视觉生成模型到视频世界模型演变
2)趋势:从多模态理解向多模态理解生成一体化演变
京ICP备2022035414号-1