Agentic RL驱动的推理大模型的技术进展与行业应用
Lawrence Zhang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
某世界五百强企业算法专家,从事Agent、RAG方向的技术研究和应用
浏览:64次
详情 DETAILS

课程简介

业界研究层面,强化学习(RL)正成为驱动推理型大模型能力跃迁的重要路径。通过Agentic RL、基于环境反馈的长程优化、以及与外部工具、知识源的闭环交互训练,模型能够逐步掌握任务拆解、检索、逻辑推理与结果校验等核心能力。近期在基于网页的推理Agent(如WebShaper、WebSailor)和零示例搜索引导(ZeroSearch)等方向的探索,显示了RL在提升模型工具调用方面能力的显著潜力。

当前,企业在复杂业务流程、专业知识密集型任务中愈发关注大语言模型的可控性、推理深度及长期任务执行能力。然而,现实痛点在于:通用模型在面对多步骤推理、工具调用及结果验证等环节时,常出现事实偏差以及效率不足等问题。

本次分享将聚焦RL驱动的推理大模型的最新技术进展与典型行业应用案例,解析其在提升模型事实准确度、跨步骤推理稳定性、以及与业务场景深度融合中的关键方法论,旨在为企业决策者和技术团队提供落地路径与研发启示。

课程收益

1、帮助学员掌握强化学习驱动推理大模型的核心方法,解锁复杂任务处理新路径

2、帮助学员洞悉推理大模型技术前沿,借鉴典型行业应用成功经验;

3、帮助学员构建稳定可验证的推理闭环,提升智能体决策可靠性

受众人群

AI算法工程师、大语言模型研发专员及自然语言处理技术骨干、AI技术项目经理、智能系统架构师及企业AI应用负责人,以及对人工智能感兴趣的人员

课程周期

 0.5天(3H)

课程大纲

1、针对于业务场景的QA数据构建

2、真实/模拟环境中的Agent训练

3、RL驱动的推理Agent与外部工具协同

4、QA


预约内训 APPLY
前往提交您的需求,我们会及时与您联系
课程推荐 COURSE

企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1