课程大纲
课程大纲系列主页
学习进度已完成 0/19
自动化与 Agent 术语速查表
入门进行中
CUA 训练营 · 术语速查表
学到哪查到哪,整门课会冒出来的技术名词这一篇全收。普通词一行说清,核心术语多带一行「坑 / 要点」。想深入看对应周教案。
W?标这个词在第几周讲;贯穿表示全程都在用。- 「可以想成…」是帮你建直觉的类比,不是严格定义——别拿类比去较真。
- 核心术语(尤其第 7 节 Computer Use)按「定义 + 类比 / 坑 / 周次 / 链接」展开;其余保持一行速查。
- 查得最快——在浏览器 / 编辑器里按
Ctrl+F(Mac 是⌘F)直接搜中文或英文名;术语的中英文都写在加粗标题里,搜哪个都能命中。- 第 7 节末尾「官方 Computer Use 工具」子区是 Anthropic API 的实操术语(版本号、actions、坐标映射…),W9 拆官方实现时对着看。
- 这是一份 living document:随课程推进持续补充、修订,版本号、actions、链接都以最新一版为准——尤其 Computer Use 的工具版本变动快,务必回看官方文档。
目录
- 环境与沙箱 · 在隔离环境里安全练习
- Python 与代码基础 · 做 Agent 用得上的那点语法
- 版本管理 · 用 Git 管好逐周累积的代码
- GUI 自动化 · 让程序自己点鼠标、敲键盘
- 浏览器自动化 · 让程序自己开网页、填表单
- 反检测与稳定性 · 合法场景下让脚本跑稳、少被误拦
- 大模型与 Agent 核心 · Agent 的大脑、核心循环和官方 Computer Use 工具
- Agent 框架 · 用现成框架把 Agent 搭得更稳
- 工程化与生产 · 从「能跑」到「能放心交给它跑」
- CUA 特有 vs 传统自动化 · 同样是自动化,到底差在哪
1. 环境与沙箱
- 沙箱(sandbox)
W1·W13— 和你的真实系统隔离的练习环境,Agent 在里面操作出了问题也波及不到真实文件和账号,环境损坏了重建即可。本课第一周就搭。 - Docker
W1· 📖 docs.docker.com — 在本机快速启动一个「预装系统和软件、与主系统隔离」的轻量环境的工具,本课用它搭沙箱。 - 镜像(image)
W1— 装好系统和软件的只读模板,本身不运行。可以想成一张装好系统的光盘。 - 容器(container)
W1·W13— 用镜像运行起来、与主系统隔离的运行实例;可在其中自由操作,删除重建后回到初始状态。可以想成用光盘装好、正在开机运行的那台电脑。 - 仓库 / 镜像源(registry)
W1— 存放镜像供人下载的地方,本地没有就从这儿拉(pull)。默认在海外。可以想成下载光盘的应用商店。 - 镜像加速
W1— 把拉镜像的默认海外地址换成国内地址,解决「卡在 pulling 不动」。地址常失效,以云厂商控制台当下给的为准。 - docker-compose /
docker-compose.ymlW1·W13— 一张配置单,写清用哪张镜像、开哪些端口、挂哪些文件夹,一条命令就能启动整个沙箱。 - 端口映射(port)
W1— 把容器里的端口接到你电脑的端口,如3000:3000,所以浏览器开localhost:3000才能看到沙箱桌面。冒号左边是你电脑的端口,被占用时改它。 - 数据卷 / 挂载(volume)
W1— 把容器里的某个文件夹接到你电脑的文件夹,数据保存在你的硬盘上,容器删除重建后数据仍在。 - 虚拟机(VM)
W1— 在你电脑里再开一整台完整电脑,重、慢、占地方。和容器都能隔离,但容器更轻、秒级启动。 - WSL2
W1— Windows 里跑 Linux 的子系统,Windows 版 Docker Desktop 依赖它,装 Docker 前先确认能开。 - webtop
W1— 一个「装好 Linux 桌面 + 浏览器」的现成镜像,启动后能在浏览器里直接看到桌面,本课沙箱用它。 - VNC / noVNC
W1— 远程查看、操作另一台机器桌面的协议;noVNC 让你不装客户端、直接在浏览器里看。W1 开localhost:3000能看到沙箱的 Linux 桌面,就是靠它。 - Windows Sandbox
W13— Windows 专业版 / 企业版自带的一次性沙箱,关闭后即清空。家庭版不提供,用 Docker 方案替代。 - Hyper-V
W13— Windows 的虚拟化技术,W13 用它做能持久化(数据不丢)的 Windows 沙箱。 - 云沙箱 / Hyperbrowser
W13— 把沙箱放到云上,本地配置不够时用。Hyperbrowser 是其中一种云浏览器沙箱方案。 - seccomp
W1— Linux 限制容器能调哪些系统调用的安全机制。桌面镜像有时要放宽(seccomp:unconfined),隔离仍在容器边界内。
2. Python 与代码基础
只收做 Agent 早期反复用到的那几样,够用就行,别提前焦虑。
- 变量(variable)
W2— 给一个值起名字,方便反复用。 - 字符串(string)
W2— 一段文字,要带引号。文件名、路径、要输入的内容都是字符串。 - 数字 / 整数·浮点(int / float)
W2— 用来计数、算坐标、设等待秒数。"2"(字符串)和2(数字)不是一回事。 - 列表(list)
W2— 一排有顺序的东西,用[]。一批坐标、一批文件名就用列表装,下标从 0 开始。 - 字典(dict)
W2— 带标签的一组值,用{},按 key 取。描述一个对象的多个属性(用户名、超时、重试次数)用它。 - for 循环
W2— 把列表里的东西挨个拿出来处理,「遍历一批目标」的骨架。 - if / else 条件
W2— 让程序看情况办事,满足条件才做某一步。 - 函数(function)
W2— 把一段动作起名字、留几个参数,换参数就能复用。Agent 的每个能力最后都是一个函数。 - 缩进(indentation)
W2— Python 靠缩进分层,for/if下面要缩进,统一 4 个空格、别混 Tab。零基础最大的坑。 - 模块 / 导入(import)
W3— 把别人写好的功能包拿进来用,如import pyautogui。 - 文件 IO
W3— 读写文件:把数据读进来、把结果写出去。 - 异常处理(try / except)
W3— 代码出错时别直接崩,接住错误、处理或重试。自动化里到处要用。 - pip
W2·W3— Python 的装包工具,pip install xxx把第三方库装下来。
3. 版本管理
- Git
贯穿(W3 起)— 管代码版本的工具,改出问题随时退回上一个能跑的版本。从写第一个脚本就用上。 - 提交(commit)
贯穿— 把当前改动存成一个存档点,带一句说明。 - 回滚(revert / reset)
贯穿— 退回到之前某个存档点。 - 分支(branch)
贯穿— 从主线拉一条副本单独改,不影响主线。 - GitHub
贯穿— 把本地 Git 仓库托管到云上的平台,也用来备份和分享。 - 仓库(repo)
贯穿— 一个被 Git 管着的项目文件夹。本课每周代码都进同一个仓库,逐周累积成结课作品。
4. GUI 自动化
- pyautogui
W3·W4— 控制鼠标键盘的 Python 库,能移动鼠标、点击、输入、截图。本课第一个自动化工具。 - 坐标定位
W4— 用屏幕上的(x, y)像素位置点击。最直接,但换分辨率、换机器容易点偏。 - 图像识别 / 截图定位
W4— 先截一小张目标图(按钮的样子),在屏幕里找到它再点击,比固定坐标更稳定。 - DPI 缩放
W4— 系统把界面放大显示(如 150%),导致脚本看到的坐标和真实像素对不上,跨机器常见坑。 - FAILSAFE
W4— pyautogui 的紧急停止机制,把鼠标快速移到屏幕左上角即可中止脚本,防止失控。 - 失败重试(retry)
W4— 某一步未成功就重试几次,是应对自动化不稳定的基本容错手段。 - 辅助功能权限(Accessibility)
W4— macOS 要在「系统设置 → 隐私与安全性 → 辅助功能」里授权,脚本才能控制鼠标键盘。 - UAC
W4— Windows 的用户账户控制弹窗,涉及管理员权限的操作会弹,自动化时要留意。 - UI Automation
W5— Windows 提供的接口,让程序「认出」窗口里的按钮、输入框直接操作,不靠固定坐标,更准、更稳定。 - uiautomation / pywinauto
W5— 两个用 Windows UI Automation 的 Python 库,用来找元素、点元素。 - 元素查找
W5— 按名字 / 类型 / 位置定位界面上的控件(按钮、输入框),而不是点固定坐标。 - Inspect 工具
W5— 微软的小工具,鼠标悬到控件上就显示它的名字、类型,帮你写元素查找。 - 视觉 vs 元素
W5·W12— 两种操作思路。「看屏幕截图找位置」(视觉)对各类软件都通用,但容易点偏;「直接拿到控件」(元素)更准,但不是所有软件都提供。 坑:别非此即彼,真实项目里多半混着用(W12 的混合架构);拿不到控件再退回视觉。
| 维度 | 视觉(看截图) | 元素(拿控件) |
|---|---|---|
| 通用性 | 任何软件 / 画面都行 | 要软件暴露控件树 |
| 精度 | 易点偏(靠坐标) | 准(直接命中控件) |
| 界面变化 | 较稳(换皮肤也认得) | 控件结构一变就失效 |
| 速度 / 成本 | 慢(要模型看图、花 token) | 快(本地查询) |
| 典型代表 | Computer Use、pyautogui 图像识别 | UI Automation、Playwright 选择器 |
5. 浏览器自动化
- Playwright
W6·W8· 📖 playwright.dev — 微软的浏览器自动化库,能自己开网页、点链接、填表单,自带等待、录屏、抓包。本课浏览器自动化的底座。 - auto-wait
W6— Playwright 自动等元素出现、可点了再操作,省掉手写sleep,脚本更稳。 - HAR
W6— 把一次网页会话的所有网络请求录下来的文件,用来回放、分析页面在跟服务器要什么。 - 录屏 / trace
W6— Playwright 把执行过程录下来,出错时回看到底哪步崩了。 - Browser-use
W6·W11· 📖 GitHub — 在 Playwright 之上加一层 AI,让大模型自己看页面决定点哪。本课用来对比「纯手写 vs AI 增强」。 - LangChain
W6· 📖 GitHub — 把大模型、工具、记忆等串起来的框架,Browser-use 等会接它。 - Stagehand
W8— 另一种「AI + 浏览器」方案,W8 拿来和 Browser-use 对照。 - headless / 有头
W6— 浏览器不显示界面、在后台跑叫 headless(快、省资源);显示界面叫有头(方便看、调试)。反检测里这俩有差别。 - 跨进程状态传递
W8— 桌面软件(pyautogui)和网页(Playwright)往往是两个独立进程,要把一边拿到的数据交给另一边——靠临时文件、剪贴板、本地小服务或数据库。W8 桌面↔浏览器混合场景的关键。
6. 反检测与稳定性
这两节(W7 / W14)开篇都先划法律与道德边界,只在合法场景讲怎么跑稳、少被误拦,不碰明令禁止的目标、不教灰色服务。
- 机器人检测(bot detection)
W7— 网站识别「这访问是脚本不是真人」并拦截的机制,自动操作网站很快会撞上。 - 指纹(fingerprint)
W7— 网站把你浏览器的多项特征(分辨率、字体、显卡、时区…)组合成的标识,用来识别「又是这台机器 / 这个脚本」,即便换了 IP 也可能靠它被认出。常见细分:Canvas / WebGL 指纹(画图特征)、字体指纹、TLS / JA3 指纹(握手特征)。 - Cloudflare / Akamai
W7— 两家主流的网站防护、反爬服务,是 2026 年常见的拦截来源。 - 行为模拟
W7·W14— 让脚本的鼠标移动、打字节奏更像真人,降低被判为机器的概率,但它不是银弹。 - Playwright Stealth
W7— 给 Playwright 打补丁、隐藏一些明显自动化特征的方案。会失效,要配合其它手段。 - 住宅代理(residential proxy)
W7— 用真实家庭宽带 IP 出口,比机房 IP 不容易被一眼识别,合法场景下用。 - Cookie 持久化
W7— 把登录状态(Cookie)存下来复用,不用每次重新登录,也更像老用户。 - 多账号画像
W7— 不同账号配不同的 IP、指纹、Cookie 互相隔离,不要用同一套环境登录多个账号。 - 验证码(CAPTCHA)
W7— 网站用来拦截机器人的人机验证。本课讲 AI 识别 + 人工接手,不教打码灰产。 - 高斯延迟
W14— 让每步之间的等待按正态分布随机,而不是死板的固定间隔,更像真人。 - 贝塞尔轨迹
W14— 让鼠标走平滑曲线,而不是从一点直接跳到另一点,模拟人手移动,同样不是银弹。 - 人类操作画像
W14— 把「真人怎么操作」整套特征(速度、停顿、轨迹、误触)拼出来照着模拟。 - 法律与道德边界
W7·W14— 反检测只在合法范围讲,两节开篇都先把这条线划清楚。
7. 大模型与 Agent 核心
- 大模型(LLM)
W9·W10— 能理解和生成文字、有的还能看图的 AI 模型。Agent 的「大脑」,负责看屏幕、做判断、决定下一步。 - 多模态 / 视觉模型
W9·W10— 不只读文字、还能看图(截图)的大模型。Computer Use 必须用能看图的。 - token
W1·W15— 大模型计费和计量的单位,文字、图片都折算成 token。每走一步都调一次模型、按 token 收费,所以要控成本。 - API
W6·W10— 用代码调用大模型服务的接口,要 API key,按调用量付费。 - Prompt(提示词)
W10— 你给大模型的指令和上下文。怎么写 Prompt 直接决定 Agent 靠不靠谱。 - Computer Use
W1·W9·W10· 📖 官方 — 让大模型「看屏幕截图 → 决定下一步 → 操作鼠标键盘」的能力,本课要自己实现它的核心循环。 坑:慢、贵、会出错,不适合高频、像素级精确、零容错的活——那些写确定性脚本更划算(回扣「三问」)。 - 确定性脚本(deterministic script)
W1·W8— 步骤写死、每次跑结果都一样的传统脚本(直接用 pyautogui / Playwright,不调大模型判断)。是 Computer Use 的对照面:「三问」里步骤固定、不用看屏幕理解的活,就用它,别上 Agent。 - 核心循环(agent loop)
W10· 📖 官方 — Agent 的心脏,一个闭环:观察(截图)→ 推理(模型想下一步)→ 动作(输出一个 action)→ 执行(你的程序点击 / 输入)→ 验证(再截图比对结果),然后回到观察、进入下一轮。官方把「不需要人介入、反复跑执行与返回结果」这段叫 agent loop。W10 亲手写一遍。 坑:模型常假设上一步成功就往下走,不复查;每步都要截图验证,必要时在 Prompt 里明确要求它「做完先自查」。
mermaidflowchart LR O[观察 · 截图] --> R[推理 · 想下一步] R --> A[动作 · 输出 action] A --> E[执行 · 点击/输入] E --> V[验证 · 再截图比对] V --> O
python# agent loop 伪代码(简化版,体现观察→推理→动作→执行→验证→反馈) history = [] screenshot = take_screenshot() # 观察:先看一眼屏幕 while True: reply = model.run(history, screenshot, # 推理:模型看截图决定下一步 tools=[computer_tool]) if reply.is_done: # 模型认为任务完成 → 收工 break for action in reply.tool_uses: # 动作:click / type / scroll / zoom … do(action) # 执行:在沙箱里真正操作 screenshot = take_screenshot() # 验证:拿一张新截图 history.append(tool_result(action, screenshot)) # 反馈:把结果回传给模型
- 对话历史 / 上下文(context)
W10·W15— Agent 要记着前几步做了什么才能接着执行。历史越长、调用越贵,需要裁剪。
官方 Computer Use 工具(API 实操)
上面是通用原理,这里是 Anthropic 官方 API 的具体说法,W9 拆官方实现时按这套术语对。核心术语都按「定义 / 坑 / 链接」展开。
- computer 工具类型 / beta header
W9· 📖 官方 — 调官方 Computer Use,要在工具定义里写type: "computer_20251124",并在请求头开 beta:anthropic-beta: computer-use-2025-11-24(配 Claude Opus 4.7 / 4.6、Sonnet 4.6、Opus 4.5);旧模型用computer_20250124+computer-use-2025-01-24。版本号约等于「这套工具的接口版本」。 坑:工具版本号和 beta header 要跟模型代次对上,错配会直接报错;且它仍是 beta,版本变动快,以官方文档当前为准。 - 核心动作(actions)
W9·W10— 模型每轮输出一个动作让你执行。基础(所有版本):screenshot、left_click、type、key、mouse_move;增强(computer_20250124起):scroll、left_click_drag、right_click/double_click/triple_click、left_mouse_down/up、hold_key、wait;computer_20251124再加zoom。按修饰键(shift/ctrl/alt/super)是给点击、滚动动作传text参数。 坑:不同工具版本支持的动作不一样(如zoom只在computer_20251124),用了模型代次不支持的动作会出错。 - zoom(放大)
W9—computer_20251124新增,让模型以全分辨率看屏幕某块区域,定位小目标更准。要在工具定义里开enable_zoom: true,动作带region: [x1, y1, x2, y2](左上角、右下角)。 坑:不开enable_zoom用不了;它专为小目标定位补救,不必每步都缩放(多一次调用就多花 token)。 - display_width_px / display_height_px
W9— 工具定义里必填,告诉模型「屏幕多大」。官方建议:一般桌面 1024×768(即 XGA)或 1280×720,Web 应用 1280×800(即 WXGA)或 1366×768,别超 1920×1080(又慢、精度又掉)。还有可选display_number(X11 显示号)。 坑:这两个值必须和你实际发给模型的截图尺寸一致,对不上会导致点击系统性偏移。 - 坐标缩放 / 映射
W9·W10— 最容易踩的坑。API 把截图限制在最长边 ≤ 1568 像素、约 1.15 百万像素,超了自动降采样(如 1512×982 缩到约 1330×864)。模型在缩小后的图上给坐标,你必须按比例换算回真实屏幕再点击。 坑:点击整体偏移,十有八九是没映射回真实分辨率;macOS Retina 截图是逻辑分辨率的 2 倍,坐标记得除以 2。 - 截图与图像开销
W9·W15— 模型靠截图看屏幕,每张约占 1000–1800 input tokens。 坑:长循环里截图越堆越多、token 暴涨;靠压缩、裁剪、只在上下文里留最近几张控住(见[[成本控制]])。 - tool_result / 反馈循环
W9·W10— 官方循环:模型回一个tool_use(动作)→ 你执行 → 把结果(主要是新截图)作为tool_result发回去 → 模型据此决定下一步。这就是「核心循环」在 API 层的样子,是有状态的多轮对话。 坑:执行完一定要把新截图作为tool_result回传,模型才知道发生了什么;漏传它就无从判断下一步。 - 视觉 grounding
W9·W12— 模型「看懂」截图、把「点登录按钮」对应到具体像素坐标的能力。它是纯视觉路线的根基。 坑:小目标、高分辨率下定位会偏,这是会点错的根源——靠zoom、坐标映射、动作后验证来补。 - 参考实现(reference implementation)
W9· 📖 GitHub — Anthropic 官方 anthropic-quickstarts / computer-use-demo:一个 Docker 容器(Xvfb 虚拟显示 + 轻量桌面 + Firefox / LibreOffice)+ 工具实现(tools/)+ agent loop(loop.py)+ Web 界面。 要点:W9 先把它跑起来体验,再读源码,别一上来啃代码。 - 安全与限制(allowed actions)
W9·W14— 官方明确建议:跑在专用 VM / 容器、给最小权限;别喂账号密码等敏感数据;网络限制到域名白名单;接受 cookie、付款、同意条款这类有真实后果的动作要人工确认(HITL)。 坑:模型可能被网页 / 截图里的文字指令带偏(prompt injection)——官方有分类器自动拦、必要时让模型先问你再动,但隔离和最小权限仍不能省。功能仍是 beta。
8. Agent 框架
- Claude Agent SDK
W9— Anthropic 的 Agent 工程化方案,下面几样(Skills / Sub-agents / Code Execution / MCP)是它的组成部分。 - Skills(技能)
W9— 把某类任务的做法打包成可复用的能力,给 Agent 按需加载。打包一个 Skill ≈ 一个文件夹,写清「什么时候用、步骤、要哪些工具」。 坑:一个 Skill 聚焦一类事、写清触发条件;塞太多反而让模型不知道何时用。 - Sub-agents(子智能体)
W9— 把任务拆给多个各管一块的子 Agent,分工协作。 坑:任务能切成独立子块、或想隔离上下文(别让一个 Agent 的长历史拖累全局)时才拆;拆过头会增加协调成本和 token,能不拆就不拆。 - Code Execution(代码执行)
W9— 让 Agent 写并跑代码来完成任务,而不只是点界面。 - MCP(Model Context Protocol)
W9— 一套让 Agent 统一接外部工具、数据源的协议。 - Harness(智能体 harness)
W9·W11— 把模型包成能干活的 Agent 所需的整套外围:工具(Tools)、提示词(Prompts)、文件系统、Skills、子 Agent、记忆(Memory)。模型是发动机,harness 是让它真正上路的底盘;Claude Agent SDK 给的就是一套现成 harness。 坑:效果好坏一半在 harness 不在模型;Agent 不行时先查工具、Prompt、记忆怎么给的,别只盯着换模型。
Skill vs Sub-agent 怎么选
| Skill(技能) | Sub-agent(子智能体) | |
|---|---|---|
| 是什么 | 一段「怎么做」打包成可复用能力 | 一个独立运行的子 Agent |
| 解决什么 | 复用做法、按需加载知识 | 拆分任务、隔离上下文 |
| 开销 | 轻(加载一段文档 / 指令) | 重(独立的对话和模型调用) |
| 何时用 | 同类操作反复出现 | 任务能切独立块、想隔离长历史 |
- ReAct / Plan-and-Execute
W11— 两种经典 Agent 套路。ReAct = 边想边做(推理与动作交替,走一步看一步);Plan-and-Execute = 先列完整计划再逐条执行。Computer Use 多偏 ReAct(屏幕随时在变),长任务可掺一点先规划。 - Memory(记忆)类型
W10·W11·W15— 三层:短期 = 当前对话的上下文窗口(context window,装着近几步);长期 = 跨任务存下来的知识 / 经验;状态持久化 = 把当前进度落盘,出问题能恢复(见[[持久化 / 回放]])。 - LangGraph
W11· 📖 GitHub — 用「状态机」方式搭 Agent 的框架,能暂停、恢复、让人中途介入。本课把 W10 的 Agent 用它重写。 - 状态机(state machine)
W11— 把 Agent 的流程画成「节点 + 跳转」,每步走到哪、下一步去哪都明确。 - 中断点(interrupt)
W11— 在某步停下来等人确认或介入,再继续。HITL 靠它实现。 - 持久化 / 回放
W11·W15— 把 Agent 每步的状态存下来,崩了能恢复、事后能一步步回放复盘。 - CrewAI / AutoGen / OpenAI Agents SDK / Pydantic AI
W11— 另外几个主流 Agent 框架。W11 给一张六框架对照地图,以后出新框架也能快速定位。 - Skyvern
W12· 📖 GitHub — 一个浏览器 Agent 项目,W12 拿它的「视觉 + 元素混合」思路做案例对照。 - 混合架构(视觉 + 元素)
W12— 先用元素方式找,找不到再退回看屏幕,两种互补、一种不行自动切另一种。 - 失败回退(fallback)
W12·W14— 一种方法失败时自动换另一种或退回上一步,而不是直接崩。 - Eval 与基准(benchmark)
W11·W15— 怎么衡量 Agent 好不好。常用公开基准:OSWorld(桌面任务)、WebArena(网页任务,官方文档就引它);自己也该攒一套任务集,盯三个指标——成功率、平均步数、平均成本。没有 eval,调优基本没有依据。
9. 工程化与生产
- 错误处理三层
W15— 把错误分成客户端错(输入不对)、服务端错(内部崩)、外部错(网络、限流)分别处理,不一锅端。 - 重试 / 退避(retry / backoff)
W15— 出现临时故障(网络抖动、限流)时,等待一段时间再重试,等待间隔逐次拉长。 - 熔断(circuit breaker)
W15— 某个外部服务连续失败时,先暂停调用、等它恢复,避免雪崩式的连环失败。 - 自修正(self-correction)
W14·W15— Agent 靠「动作 → 截图 → 比对预期」发现这步错了,主动回退或换个方式重试,而不是带着错误往下走。 - 轨迹记录与回放
W15— 把 Agent 走的每一步都记下来,出问题能原样回放、看它哪步错了。 - 结构化日志
W15— 日志按字段记录(时间、动作、结果),而不是大段纯文本,方便检索分析。 - 可观测性 / 追踪(observability / tracing)
W15— 能随时掌握 Agent 在做什么、卡在哪一步、花了多少成本的整套手段;把一次任务的每步链路串起来看,就是 tracing。 - 快照 / 恢复(snapshot / restore)
W13·W15— 给沙箱存一个干净状态的快照,Agent 跑出问题时一键还原到快照,省去每次重建,长流程调试和反复试错很省时间。 - HITL(人在回路 / human-in-the-loop)
W1·W11·W15— 关键步骤(花钱、不可逆)让人确认了再继续。设计时想清楚拦哪几步、怎么把上下文摆给人看、人改完怎么回传给 Agent。错一次代价高的活必加。 - 成本控制
W1·W15— 每一步都要调用模型,开销不小;靠截图压缩、裁剪对话历史、能用便宜模型就用便宜的,把成本压下来。 - 模型路由(model routing)
W15— 一个 Agent 里按步骤难度派不同模型:简单步骤用便宜小模型,关键决策才上贵的强模型。是[[成本控制]]的一种具体打法。 - 多 Agent 编排(orchestration)
W11·W16— 多个 Agent 怎么分工、传数据、谁先谁后。常见是一个主控 Agent 把任务分派给若干专职 Agent、再汇总。先把单 Agent 做稳,再考虑上多 Agent。 - 部署形态对比
W13— 跑 Agent 的几种方式:本地 Docker 沙箱(便宜、可控、要自己维护)、云沙箱(如 Hyperbrowser、Cua 等,开箱即用、按量付费、省去运维)、自建宿主机调度(规模化、最重)。按「要不要规模化、愿不愿运维、预算多少」三点选。
10. CUA 特有 vs 传统自动化
同样是「让程序自己操作」,Computer Use Agent 和传统脚本差在哪。一张表看清什么时候用哪种(呼应贯穿全课的「三问」)。
| 维度 | 传统 GUI / 浏览器自动化(pyautogui / Playwright) | Computer Use Agent |
|---|---|---|
| 怎么定位 | 写死坐标、找元素、按固定规则 | 模型看截图自己判断(视觉 grounding) |
| 界面变了 | 容易失效,得改脚本 | 多半能自己适应 |
| 速度 / 成本 | 快、几乎免费 | 慢、每步调模型按 token 收费 |
| 稳定性 | 步骤固定时很稳 | 会看错点偏,要靠验证 + 重试补 |
| 适合场景 | 步骤固定、高频、要精确 | 步骤会变、要看屏幕理解、能容错 |
一句话:固定流程用传统脚本,要「看屏幕随机应变」才上 Agent——这正是「三问」的第 1、2 问。两者也常混用:能写死的部分写死,真需要判断的交给模型。