AI前沿技术与架构原理

Jerry Du 查看讲师

百林哲咨询（北京）有限公司专家团队成员

资深技术专家、阿里云MVP，目前担任多家公司高级技术顾问，提供技术分享、培训和咨询等服务。

浏览：424次

详情 DETAILS

课程简介

当前人工智能技术已从传统的“问答交互时代”全面迈入自主行动的AI Agent时代，告别了被动应答的模式，具备任务拆解、工具调用、自主执行、自我修正能力的智能Agent，正成为企业数字化提效、业务流程自动化的核心核心生产力。以Manus、OpenClaw、Hermes为代表的前沿Agent产品快速迭代，打破了传统RPA、提示词工程的能力局限，依托多工具协同、动态上下文管理、智能任务规划等核心能力，落地各类复杂办公与业务场景。但目前多数从业者对AI Agent的认知仍停留在表层应用，存在核心架构模糊、协同原理不懂、场景落地无方法、不会自主搭建适配业务的智能能力等痛点。

本课程聚焦AI Agent底层架构、前沿产品逻辑、Skills轻量化框架与实战落地，内容涵盖AI Agent底层架构、Harness调度、上下文工程等核心原理，拆解Manus等主流产品协同机制，详解轻量化Skills框架，同时结合Cursor IDE实操，带领学员从零开发技能、实现多工具链协同自动化，全程融入AI安全规范与落地经验，助力学员完成从AI工具使用者到业务能力定制者的进阶。

课程收益

1、帮助学员掌握Agent多工具协同机制与Skills框架原理，学会标准化封装可复用的AI业务能力。

2、帮助学员深入理解AI Agent底层架构与核心逻辑，读懂主流前沿产品能力与边界，建立完整专业的AI技术认知。

3、帮助学员零基础上手Skill开发与多工具协同，精通业务场景适配方法，掌握安全落地与人机协作规范。

受众人群

本课程适配技术、非技术全人群，无高门槛前置要求，尤其适合以下学员：

1、职场办公人员、职能岗员工：行政、运营、市场、人事、财务、项目经理等，想要通过AI自动化简化重复工作、提升办公效率，零基础学习AI落地实操。

2、产品、运营、数字化从业者：AI产品经理、数字化转型专员、业务运营人员，需要理解Agent产品架构、梳理业务自动化场景、落地AI赋能方案。

3、初级技术从业者：前端、后端、测试、运维工程师，想要快速入门AI Agent前沿技术，掌握轻量化Skill开发，拓展AI工程化能力。

4、企业管理者、团队负责人：想要了解AI Agent行业前沿趋势、技术能力边界，规划团队AI自动化落地、搭建团队标准化AI能力体系。

5、AI爱好者、技术学习者：希望系统学习AI Agent底层原理、前沿产品逻辑与实战落地的人员

课程周期

1天（6H）

课程大纲

标题

授课内容

一、AI Agent 核心架构与前沿产品解析（1.5h）

1、问题：为什么现在要关注 AI Agent

(1) 从"问答式 AI"到"行动式 AI"的变化

① ChatGPT 时代：你问它答，像查百科全书

② Agent 时代：你给任务，它自己拆解、执行、交付，像一个"数字实习生"

(2) 这跟我们的工作有什么关系

① 不是取代人，而是改变人和工具的协作方式

② 对技术人员和非技术人员的影响有何不同

2、AI Agent 的主流核心架构

(1) 一个 Agent 到底是怎么工作的？

① 核心循环（用做菜类比）

1) 感知（看冰箱里有什么）→ 思考（决定做什么菜）→ 行动（切菜炒菜）→ 检查（尝一口调整）→ 循环

2) 对应技术术语：Observe → Plan → Act → Reflect → Loop

② 三大核心组成

1) 大脑（大模型）：负责理解和推理

2) 手脚（工具）：负责执行具体操作（搜索、写文件、调接口……）

3) 记忆（上下文）：负责记住前面做了什么、现在做到哪了

(2) 上下文工程（Context Engineering）

① 为什么这是当前最重要的技术话题之一

1) 大模型的"脑容量"有限（上下文窗口），如何在有限空间里塞入最有用的信息，直接决定 Agent 的表现

② 通俗理解

1) 类比：你给实习生布置任务时，背景信息给多了他记不住，给少了他做不对——上下文工程就是"给 AI 恰到好处的信息"

③ 关键策略

1) 信息筛选与压缩：只给 Agent 当前步骤需要的信息，而不是一股脑全倒

2) 记忆管理：短期记忆（当前任务）vs 长期记忆（历史经验/知识库）

3) 上下文窗口的"寸土寸金"：系统提示词、用户指令、工具返回结果、历史对话——如何分配优先级

(3) Harness 架构（Agent 的"调度中心"）

① 什么是 Harness

1) 类比：大模型是"大脑"，Harness 就是"神经系统"——负责把大脑的决策传递给手脚，再把手脚的反馈回传给大脑

2) 它是 Agent 框架中"连接模型与工具"的那一层，本质上是一种控制论

② 为什么理解 Harness 很重要

1) 不同的 Agent 产品（OpenClaw、Manus、Cursor 等）本质上是不同的 Harness 实现

2) 理解了 Harness，就理解了所有 Agent 产品的"底层逻辑"

3、前沿产品解析：OpenClaw、Hermes

(1) OpenClaw/Hermes：让 AI "看见并操作"你的电脑

① 它解决什么问题

1) 很多软件没有 API，但有界面——OpenClaw 让 AI 像人一样通过界面操作软件

② 架构映射

1) 感知层 = 截屏 + 图像识别（AI 的"眼睛"）

2) 上下文 = 屏幕状态 + 历史操作记录

③ 安全注意事项（重点）

1) 为什么必须在沙箱中运行

2) 权限控制：不能让 AI 随意访问所有文件和系统

3) 操作确认机制：关键操作前需要人点头

4、安全准则总结

(1) 贯穿所有 Agent 技术的安全原则

① 最小权限：只给完成任务所需的最少权限

② 沙箱隔离：在受控环境中运行，不影响真实系统

③ 人机协同（Human-in-the-Loop）：关键节点需要人确认

④ 可审计可回滚：所有操作留痕，出问题能回退

(2) 非技术人员的安全意识要点

① 不要把敏感信息（密码、个人数据）直接丢给 Agent

② 不要在不了解 Agent 权限范围时让它执行重要操作

③ 养成"先小范围测试，再大规模使用"的习惯

5、小结与互动

(1) 回顾：Agent 核心架构 → 上下文工程 → Harness → 具体产品

(2) Q&A

二、以Manus 为代表看 Agent 功能协同机制（1.5h）

1、Manus 产品导入

(1) Manus：目前最接近"通用数字员工"的产品

① 它的能力拼图

1) 大脑 = 强大的基座模型（推理 + 规划）

2) 手脚 = 浏览器 + 代码执行 + 文件操作 + ……

3) 记忆 = 任务上下文 + 中间结果管理

4) Harness = 多工具调度 + 自动重试 + 反思修正

② 它做得好的地方 & 现阶段的局限

1) 亮点：任务拆解能力、多工具无缝切换

2) 局限：复杂长任务的稳定性、"幻觉"问题、安全边界、云环境的自身限制

(2) Manus 能力演示

① 演示/案例展示：用一个直观的任务演示 Manus 的端到端能力

1) 示例任务："帮我调研某个市场并生成报告"

② 观察重点：注意它在过程中切换了哪些工具、如何衔接

(3) 对比传统方式

① 传统 RPA：按固定脚本执行，遇到意外就卡住

② Agent 方式：理解目标，灵活应变，自动选择工具

2、多工具协同的核心架构

(1) 整体思路

① 类比：Agent 就像一个"项目经理"，手下有多个"专业工具人"

② 工作流程：任务拆解 → 工具选择 → 执行 → 结果汇总

(2) 浏览器模块

① 能做什么：打开网页、搜索信息、填写表单、下载文件

② 技术原理简述：无头浏览器（Headless Browser）+ 页面解析

③ 与普通"网页爬虫"的区别：具备上下文理解和交互能力

④ 实际场景举例：自动搜索竞品信息、批量填写在线表格

(3) 模型调用模块

① 核心大模型：负责理解任务、推理决策、生成内容

② 多模型协作：不同子任务可能调用不同的专用模型（文本、图像、代码等）

③ 实际场景举例：主模型规划任务，代码模型写处理脚本，文本模型撰写报告

(4) 文件系统模块

① 读写本地/云端文件，管理任务过程中的中间产物

② 实际场景举例：下载数据文件 → 处理 → 保存结果 → 生成最终报告

3、Agent 如何"思考"和"协调"

(1) 任务规划（Planning）

① Agent 收到任务后如何拆解为子任务

② 示例：把"帮我写一份竞品分析报告"拆解为：

1) 搜索竞品信息 → 整理数据 → 对比分析 → 生成报告

③ 类比：就像你给助理说"帮我准备明天的会议材料"，TA 会自己想需要哪些步骤

(2) 上下文管理（Context Management）

① 长任务中如何保持"记忆"

1) 上下文窗口的管理：哪些信息保留、哪些可以丢弃

2) 摘要机制：把长篇内容压缩为关键要点

② 多工具间如何传递信息

1) 工具A的输出 → 作为工具B的输入

2) 回应课程1中"上下文工程"的概念

(3) 错误处理与自我修正

① 当某一步失败时，Agent 如何应对

1) 重试策略：换一种方式再试

2) 回退策略：回到上一步重新规划

② "反思"机制：Agent 检查自己的输出是否合理

1) 类比：写完报告自己检查一遍，发现数据对不上就回去重新核实

(4) 典型协同流程端到端演示

① 以一个完整案例走通全流程

1) 示例："帮我找到某公司最新财报，提取关键数据，生成对比图表"

2) 展示每一步调用了哪个模块、模块间如何衔接

3) 标注每个环节对应的架构概念（规划、上下文、工具调度……）

4、能力边界与人机协作

(1) 当前 Agent 能做好的事

① 信息搜集与整理

② 重复性的多步骤流程

③ 格式化内容生成

(2) 现阶段还做不好的事

① 需要高度创意和判断力的任务

② 涉及复杂人际沟通的场景

③ 对准确性要求极高且无法验证的任务

(3) "幻觉"问题的应对

① 什么是幻觉：AI 一本正经地编造信息

② 缓解手段：交叉验证、人工复核关键节点

(4) 人机协作的最佳实践

① 什么时候该让 Agent 自主完成：流程清晰、容错空间大

② 什么时候需要人介入：关键决策、敏感操作、创意性工作

5、本节小结与互动

(1) 核心要点回顾

(2) 思考题：你的日常工作中，哪些任务适合交给这样的 Agent？

(3) Q&A

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

LLM与智能体行业应用

424次

Jerry Du

百林哲咨询（北京）有限公司专家团队成员

AI前沿技术与架构原理

LLM与智能体行业应用

475次

Jerry Du

百林哲咨询（北京）有限公司专家团队成员

AI大模型应用、Agent开发及垂直模型微调实战

LLM与智能体行业应用

406次

Jerry Du

百林哲咨询（北京）有限公司专家团队成员

Agent Skills应用与实践

语言开发

3822次

Jerry Du

百林哲咨询（北京）有限公司专家团队成员

Jerry Du

百林哲咨询（北京）有限公司专家团队成员

Jerry Du

百林哲咨询（北京）有限公司专家团队成员

Jerry Du

百林哲咨询（北京）有限公司专家团队成员

SpringBoot&SpringCloud微服务实战

微服务架构