Agentic RL驱动的推理大模型的技术进展与行业应用

Lawrence Zhang 查看讲师

百林哲咨询（北京）有限公司专家团队成员

某世界五百强企业算法专家，从事Agent、RAG方向的技术研究和应用

浏览：64次

详情 DETAILS

课程简介

业界研究层面，强化学习（RL）正成为驱动推理型大模型能力跃迁的重要路径。通过Agentic RL、基于环境反馈的长程优化、以及与外部工具、知识源的闭环交互训练，模型能够逐步掌握任务拆解、检索、逻辑推理与结果校验等核心能力。近期在基于网页的推理Agent（如WebShaper、WebSailor）和零示例搜索引导（ZeroSearch）等方向的探索，显示了RL在提升模型工具调用方面能力的显著潜力。

当前，企业在复杂业务流程、专业知识密集型任务中愈发关注大语言模型的可控性、推理深度及长期任务执行能力。然而，现实痛点在于：通用模型在面对多步骤推理、工具调用及结果验证等环节时，常出现事实偏差以及效率不足等问题。

本次分享将聚焦RL驱动的推理大模型的最新技术进展与典型行业应用案例，解析其在提升模型事实准确度、跨步骤推理稳定性、以及与业务场景深度融合中的关键方法论，旨在为企业决策者和技术团队提供落地路径与研发启示。

课程收益

1、帮助学员掌握强化学习驱动推理大模型的核心方法，解锁复杂任务处理新路径

2、帮助学员洞悉推理大模型技术前沿，借鉴典型行业应用成功经验；

3、帮助学员构建稳定可验证的推理闭环，提升智能体决策可靠性

受众人群

AI算法工程师、大语言模型研发专员及自然语言处理技术骨干、AI技术项目经理、智能系统架构师及企业AI应用负责人，以及对人工智能感兴趣的人员

课程周期

0.5天（3H）

课程大纲

1、针对于业务场景的QA数据构建

2、真实/模拟环境中的Agent训练

3、RL驱动的推理Agent与外部工具协同

4、QA

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

次