课程简介
业界研究层面,强化学习(RL)正成为驱动推理型大模型能力跃迁的重要路径。通过Agentic RL、基于环境反馈的长程优化、以及与外部工具、知识源的闭环交互训练,模型能够逐步掌握任务拆解、检索、逻辑推理与结果校验等核心能力。近期在基于网页的推理Agent(如WebShaper、WebSailor)和零示例搜索引导(ZeroSearch)等方向的探索,显示了RL在提升模型工具调用方面能力的显著潜力。
当前,企业在复杂业务流程、专业知识密集型任务中愈发关注大语言模型的可控性、推理深度及长期任务执行能力。然而,现实痛点在于:通用模型在面对多步骤推理、工具调用及结果验证等环节时,常出现事实偏差以及效率不足等问题。
本次分享将聚焦RL驱动的推理大模型的最新技术进展与典型行业应用案例,解析其在提升模型事实准确度、跨步骤推理稳定性、以及与业务场景深度融合中的关键方法论,旨在为企业决策者和技术团队提供落地路径与研发启示。
课程收益
1、帮助学员掌握强化学习驱动推理大模型的核心方法,解锁复杂任务处理新路径
2、帮助学员洞悉推理大模型技术前沿,借鉴典型行业应用成功经验;
3、帮助学员构建稳定可验证的推理闭环,提升智能体决策可靠性
受众人群
AI算法工程师、大语言模型研发专员及自然语言处理技术骨干、AI技术项目经理、智能系统架构师及企业AI应用负责人,以及对人工智能感兴趣的人员
课程周期
0.5天(3H)
课程大纲
1、针对于业务场景的QA数据构建
2、真实/模拟环境中的Agent训练
3、RL驱动的推理Agent与外部工具协同
4、QA
京ICP备2022035414号-1