课程大纲
课程大纲系列主页
学习进度已完成 0/19

自动化与 Agent 术语速查表

入门进行中

CUA 训练营 · 术语速查表

学到哪查到哪,整门课会冒出来的技术名词这一篇全收。普通词一行说清,核心术语多带一行「坑 / 要点」。想深入看对应周教案

  • W? 标这个词在第几周讲;贯穿 表示全程都在用。
  • 「可以想成…」是帮你建直觉的类比,不是严格定义——别拿类比去较真。
  • 核心术语(尤其第 7 节 Computer Use)按「定义 + 类比 / / 周次 / 链接」展开;其余保持一行速查。
  • 查得最快——在浏览器 / 编辑器里按 Ctrl+F(Mac 是 ⌘F)直接搜中文或英文名;术语的中英文都写在加粗标题里,搜哪个都能命中。
  • 第 7 节末尾「官方 Computer Use 工具」子区是 Anthropic API 的实操术语(版本号、actions、坐标映射…),W9 拆官方实现时对着看。
  • 这是一份 living document:随课程推进持续补充、修订,版本号、actions、链接都以最新一版为准——尤其 Computer Use 的工具版本变动快,务必回看官方文档

目录

  1. 环境与沙箱 · 在隔离环境里安全练习
  2. Python 与代码基础 · 做 Agent 用得上的那点语法
  3. 版本管理 · 用 Git 管好逐周累积的代码
  4. GUI 自动化 · 让程序自己点鼠标、敲键盘
  5. 浏览器自动化 · 让程序自己开网页、填表单
  6. 反检测与稳定性 · 合法场景下让脚本跑稳、少被误拦
  7. 大模型与 Agent 核心 · Agent 的大脑、核心循环和官方 Computer Use 工具
  8. Agent 框架 · 用现成框架把 Agent 搭得更稳
  9. 工程化与生产 · 从「能跑」到「能放心交给它跑」
  10. CUA 特有 vs 传统自动化 · 同样是自动化,到底差在哪

1. 环境与沙箱

  • 沙箱(sandbox) W1·W13 — 和你的真实系统隔离的练习环境,Agent 在里面操作出了问题也波及不到真实文件和账号,环境损坏了重建即可。本课第一周就搭。
  • Docker W1 · 📖 docs.docker.com — 在本机快速启动一个「预装系统和软件、与主系统隔离」的轻量环境的工具,本课用它搭沙箱。
  • 镜像(image) W1 — 装好系统和软件的只读模板,本身不运行。可以想成一张装好系统的光盘。
  • 容器(container) W1·W13 — 用镜像运行起来、与主系统隔离的运行实例;可在其中自由操作,删除重建后回到初始状态。可以想成用光盘装好、正在开机运行的那台电脑。
  • 仓库 / 镜像源(registry) W1 — 存放镜像供人下载的地方,本地没有就从这儿拉(pull)。默认在海外。可以想成下载光盘的应用商店。
  • 镜像加速 W1 — 把拉镜像的默认海外地址换成国内地址,解决「卡在 pulling 不动」。地址常失效,以云厂商控制台当下给的为准。
  • docker-compose / docker-compose.yml W1·W13 — 一张配置单,写清用哪张镜像、开哪些端口、挂哪些文件夹,一条命令就能启动整个沙箱。
  • 端口映射(port) W1 — 把容器里的端口接到你电脑的端口,如 3000:3000,所以浏览器开 localhost:3000 才能看到沙箱桌面。冒号左边是你电脑的端口,被占用时改它。
  • 数据卷 / 挂载(volume) W1 — 把容器里的某个文件夹接到你电脑的文件夹,数据保存在你的硬盘上,容器删除重建后数据仍在。
  • 虚拟机(VM) W1 — 在你电脑里再开一整台完整电脑,重、慢、占地方。和容器都能隔离,但容器更轻、秒级启动。
  • WSL2 W1 — Windows 里跑 Linux 的子系统,Windows 版 Docker Desktop 依赖它,装 Docker 前先确认能开。
  • webtop W1 — 一个「装好 Linux 桌面 + 浏览器」的现成镜像,启动后能在浏览器里直接看到桌面,本课沙箱用它。
  • VNC / noVNC W1 — 远程查看、操作另一台机器桌面的协议;noVNC 让你不装客户端、直接在浏览器里看。W1 开 localhost:3000 能看到沙箱的 Linux 桌面,就是靠它。
  • Windows Sandbox W13 — Windows 专业版 / 企业版自带的一次性沙箱,关闭后即清空。家庭版不提供,用 Docker 方案替代。
  • Hyper-V W13 — Windows 的虚拟化技术,W13 用它做能持久化(数据不丢)的 Windows 沙箱。
  • 云沙箱 / Hyperbrowser W13 — 把沙箱放到云上,本地配置不够时用。Hyperbrowser 是其中一种云浏览器沙箱方案。
  • seccomp W1 — Linux 限制容器能调哪些系统调用的安全机制。桌面镜像有时要放宽(seccomp:unconfined),隔离仍在容器边界内。

2. Python 与代码基础

只收做 Agent 早期反复用到的那几样,够用就行,别提前焦虑。

  • 变量(variable) W2 — 给一个值起名字,方便反复用。
  • 字符串(string) W2 — 一段文字,要带引号。文件名、路径、要输入的内容都是字符串。
  • 数字 / 整数·浮点(int / float) W2 — 用来计数、算坐标、设等待秒数。"2"(字符串)和 2(数字)不是一回事。
  • 列表(list) W2 — 一排有顺序的东西,用 []。一批坐标、一批文件名就用列表装,下标从 0 开始。
  • 字典(dict) W2 — 带标签的一组值,用 {},按 key 取。描述一个对象的多个属性(用户名、超时、重试次数)用它。
  • for 循环 W2 — 把列表里的东西挨个拿出来处理,「遍历一批目标」的骨架。
  • if / else 条件 W2 — 让程序看情况办事,满足条件才做某一步。
  • 函数(function) W2 — 把一段动作起名字、留几个参数,换参数就能复用。Agent 的每个能力最后都是一个函数。
  • 缩进(indentation) W2 — Python 靠缩进分层,for/if 下面要缩进,统一 4 个空格、别混 Tab。零基础最大的坑。
  • 模块 / 导入(import) W3 — 把别人写好的功能包拿进来用,如 import pyautogui
  • 文件 IO W3 — 读写文件:把数据读进来、把结果写出去。
  • 异常处理(try / except) W3 — 代码出错时别直接崩,接住错误、处理或重试。自动化里到处要用。
  • pip W2·W3 — Python 的装包工具,pip install xxx 把第三方库装下来。

3. 版本管理

  • Git 贯穿(W3 起) — 管代码版本的工具,改出问题随时退回上一个能跑的版本。从写第一个脚本就用上。
  • 提交(commit) 贯穿 — 把当前改动存成一个存档点,带一句说明。
  • 回滚(revert / reset) 贯穿 — 退回到之前某个存档点。
  • 分支(branch) 贯穿 — 从主线拉一条副本单独改,不影响主线。
  • GitHub 贯穿 — 把本地 Git 仓库托管到云上的平台,也用来备份和分享。
  • 仓库(repo) 贯穿 — 一个被 Git 管着的项目文件夹。本课每周代码都进同一个仓库,逐周累积成结课作品。

4. GUI 自动化

  • pyautogui W3·W4 — 控制鼠标键盘的 Python 库,能移动鼠标、点击、输入、截图。本课第一个自动化工具。
  • 坐标定位 W4 — 用屏幕上的 (x, y) 像素位置点击。最直接,但换分辨率、换机器容易点偏。
  • 图像识别 / 截图定位 W4 — 先截一小张目标图(按钮的样子),在屏幕里找到它再点击,比固定坐标更稳定。
  • DPI 缩放 W4 — 系统把界面放大显示(如 150%),导致脚本看到的坐标和真实像素对不上,跨机器常见坑。
  • FAILSAFE W4 — pyautogui 的紧急停止机制,把鼠标快速移到屏幕左上角即可中止脚本,防止失控。
  • 失败重试(retry) W4 — 某一步未成功就重试几次,是应对自动化不稳定的基本容错手段。
  • 辅助功能权限(Accessibility) W4 — macOS 要在「系统设置 → 隐私与安全性 → 辅助功能」里授权,脚本才能控制鼠标键盘。
  • UAC W4 — Windows 的用户账户控制弹窗,涉及管理员权限的操作会弹,自动化时要留意。
  • UI Automation W5 — Windows 提供的接口,让程序「认出」窗口里的按钮、输入框直接操作,不靠固定坐标,更准、更稳定。
  • uiautomation / pywinauto W5 — 两个用 Windows UI Automation 的 Python 库,用来找元素、点元素。
  • 元素查找 W5 — 按名字 / 类型 / 位置定位界面上的控件(按钮、输入框),而不是点固定坐标。
  • Inspect 工具 W5 — 微软的小工具,鼠标悬到控件上就显示它的名字、类型,帮你写元素查找。
  • 视觉 vs 元素 W5·W12 — 两种操作思路。「看屏幕截图找位置」(视觉)对各类软件都通用,但容易点偏;「直接拿到控件」(元素)更准,但不是所有软件都提供。 :别非此即彼,真实项目里多半混着用(W12 的混合架构);拿不到控件再退回视觉。
维度视觉(看截图)元素(拿控件)
通用性任何软件 / 画面都行要软件暴露控件树
精度易点偏(靠坐标)准(直接命中控件)
界面变化较稳(换皮肤也认得)控件结构一变就失效
速度 / 成本慢(要模型看图、花 token)快(本地查询)
典型代表Computer Use、pyautogui 图像识别UI Automation、Playwright 选择器

5. 浏览器自动化

  • Playwright W6·W8 · 📖 playwright.dev — 微软的浏览器自动化库,能自己开网页、点链接、填表单,自带等待、录屏、抓包。本课浏览器自动化的底座。
  • auto-wait W6 — Playwright 自动等元素出现、可点了再操作,省掉手写 sleep,脚本更稳。
  • HAR W6 — 把一次网页会话的所有网络请求录下来的文件,用来回放、分析页面在跟服务器要什么。
  • 录屏 / trace W6 — Playwright 把执行过程录下来,出错时回看到底哪步崩了。
  • Browser-use W6·W11 · 📖 GitHub — 在 Playwright 之上加一层 AI,让大模型自己看页面决定点哪。本课用来对比「纯手写 vs AI 增强」。
  • LangChain W6 · 📖 GitHub — 把大模型、工具、记忆等串起来的框架,Browser-use 等会接它。
  • Stagehand W8 — 另一种「AI + 浏览器」方案,W8 拿来和 Browser-use 对照。
  • headless / 有头 W6 — 浏览器不显示界面、在后台跑叫 headless(快、省资源);显示界面叫有头(方便看、调试)。反检测里这俩有差别。
  • 跨进程状态传递 W8 — 桌面软件(pyautogui)和网页(Playwright)往往是两个独立进程,要把一边拿到的数据交给另一边——靠临时文件、剪贴板、本地小服务或数据库。W8 桌面↔浏览器混合场景的关键。

6. 反检测与稳定性

这两节(W7 / W14)开篇都先划法律与道德边界,只在合法场景讲怎么跑稳、少被误拦,不碰明令禁止的目标、不教灰色服务。

  • 机器人检测(bot detection) W7 — 网站识别「这访问是脚本不是真人」并拦截的机制,自动操作网站很快会撞上。
  • 指纹(fingerprint) W7 — 网站把你浏览器的多项特征(分辨率、字体、显卡、时区…)组合成的标识,用来识别「又是这台机器 / 这个脚本」,即便换了 IP 也可能靠它被认出。常见细分:Canvas / WebGL 指纹(画图特征)、字体指纹、TLS / JA3 指纹(握手特征)。
  • Cloudflare / Akamai W7 — 两家主流的网站防护、反爬服务,是 2026 年常见的拦截来源。
  • 行为模拟 W7·W14 — 让脚本的鼠标移动、打字节奏更像真人,降低被判为机器的概率,但它不是银弹。
  • Playwright Stealth W7 — 给 Playwright 打补丁、隐藏一些明显自动化特征的方案。会失效,要配合其它手段。
  • 住宅代理(residential proxy) W7 — 用真实家庭宽带 IP 出口,比机房 IP 不容易被一眼识别,合法场景下用。
  • Cookie 持久化 W7 — 把登录状态(Cookie)存下来复用,不用每次重新登录,也更像老用户。
  • 多账号画像 W7 — 不同账号配不同的 IP、指纹、Cookie 互相隔离,不要用同一套环境登录多个账号。
  • 验证码(CAPTCHA) W7 — 网站用来拦截机器人的人机验证。本课讲 AI 识别 + 人工接手,不教打码灰产。
  • 高斯延迟 W14 — 让每步之间的等待按正态分布随机,而不是死板的固定间隔,更像真人。
  • 贝塞尔轨迹 W14 — 让鼠标走平滑曲线,而不是从一点直接跳到另一点,模拟人手移动,同样不是银弹。
  • 人类操作画像 W14 — 把「真人怎么操作」整套特征(速度、停顿、轨迹、误触)拼出来照着模拟。
  • 法律与道德边界 W7·W14 — 反检测只在合法范围讲,两节开篇都先把这条线划清楚。

7. 大模型与 Agent 核心

  • 大模型(LLM) W9·W10 — 能理解和生成文字、有的还能看图的 AI 模型。Agent 的「大脑」,负责看屏幕、做判断、决定下一步。
  • 多模态 / 视觉模型 W9·W10 — 不只读文字、还能看图(截图)的大模型。Computer Use 必须用能看图的。
  • token W1·W15 — 大模型计费和计量的单位,文字、图片都折算成 token。每走一步都调一次模型、按 token 收费,所以要控成本。
  • API W6·W10 — 用代码调用大模型服务的接口,要 API key,按调用量付费。
  • Prompt(提示词) W10 — 你给大模型的指令和上下文。怎么写 Prompt 直接决定 Agent 靠不靠谱。
  • Computer Use W1·W9·W10 · 📖 官方 — 让大模型「看屏幕截图 → 决定下一步 → 操作鼠标键盘」的能力,本课要自己实现它的核心循环。 :慢、贵、会出错,不适合高频、像素级精确、零容错的活——那些写确定性脚本更划算(回扣「三问」)。
  • 确定性脚本(deterministic script) W1·W8 — 步骤写死、每次跑结果都一样的传统脚本(直接用 pyautogui / Playwright,不调大模型判断)。是 Computer Use 的对照面:「三问」里步骤固定、不用看屏幕理解的活,就用它,别上 Agent。
  • 核心循环(agent loop) W10 · 📖 官方 — Agent 的心脏,一个闭环:观察(截图)→ 推理(模型想下一步)→ 动作(输出一个 action)→ 执行(你的程序点击 / 输入)→ 验证(再截图比对结果),然后回到观察、进入下一轮。官方把「不需要人介入、反复跑执行与返回结果」这段叫 agent loop。W10 亲手写一遍。 :模型常假设上一步成功就往下走,不复查;每步都要截图验证,必要时在 Prompt 里明确要求它「做完先自查」。
mermaid
flowchart LR
  O[观察 · 截图] --> R[推理 · 想下一步]
  R --> A[动作 · 输出 action]
  A --> E[执行 · 点击/输入]
  E --> V[验证 · 再截图比对]
  V --> O
python
# agent loop 伪代码(简化版,体现观察→推理→动作→执行→验证→反馈)
history = []
screenshot = take_screenshot()                       # 观察:先看一眼屏幕
while True:
    reply = model.run(history, screenshot,            # 推理:模型看截图决定下一步
                      tools=[computer_tool])
    if reply.is_done:                                 # 模型认为任务完成 → 收工
        break
    for action in reply.tool_uses:                    # 动作:click / type / scroll / zoom …
        do(action)                                    # 执行:在沙箱里真正操作
        screenshot = take_screenshot()                # 验证:拿一张新截图
        history.append(tool_result(action, screenshot))  # 反馈:把结果回传给模型
  • 对话历史 / 上下文(context) W10·W15 — Agent 要记着前几步做了什么才能接着执行。历史越长、调用越贵,需要裁剪。

官方 Computer Use 工具(API 实操)

上面是通用原理,这里是 Anthropic 官方 API 的具体说法,W9 拆官方实现时按这套术语对。核心术语都按「定义 / / 链接」展开。

  • computer 工具类型 / beta header W9 · 📖 官方 — 调官方 Computer Use,要在工具定义里写 type: "computer_20251124",并在请求头开 beta:anthropic-beta: computer-use-2025-11-24(配 Claude Opus 4.7 / 4.6、Sonnet 4.6、Opus 4.5);旧模型用 computer_20250124 + computer-use-2025-01-24。版本号约等于「这套工具的接口版本」。 :工具版本号和 beta header 要跟模型代次对上,错配会直接报错;且它仍是 beta,版本变动快,以官方文档当前为准。
  • 核心动作(actions) W9·W10 — 模型每轮输出一个动作让你执行。基础(所有版本):screenshotleft_clicktypekeymouse_move;增强(computer_20250124 起):scrollleft_click_dragright_click / double_click / triple_clickleft_mouse_down / uphold_keywait;computer_20251124 再加 zoom。按修饰键(shift/ctrl/alt/super)是给点击、滚动动作传 text 参数。 :不同工具版本支持的动作不一样(如 zoom 只在 computer_20251124),用了模型代次不支持的动作会出错。
  • zoom(放大) W9computer_20251124 新增,让模型以全分辨率看屏幕某块区域,定位小目标更准。要在工具定义里开 enable_zoom: true,动作带 region: [x1, y1, x2, y2](左上角、右下角)。 :不开 enable_zoom 用不了;它专为小目标定位补救,不必每步都缩放(多一次调用就多花 token)。
  • display_width_px / display_height_px W9 — 工具定义里必填,告诉模型「屏幕多大」。官方建议:一般桌面 1024×768(即 XGA)或 1280×720,Web 应用 1280×800(即 WXGA)或 1366×768,别超 1920×1080(又慢、精度又掉)。还有可选 display_number(X11 显示号)。 :这两个值必须和你实际发给模型的截图尺寸一致,对不上会导致点击系统性偏移。
  • 坐标缩放 / 映射 W9·W10 — 最容易踩的坑。API 把截图限制在最长边 ≤ 1568 像素、约 1.15 百万像素,超了自动降采样(如 1512×982 缩到约 1330×864)。模型在缩小后的图上给坐标,你必须按比例换算回真实屏幕再点击。 :点击整体偏移,十有八九是没映射回真实分辨率;macOS Retina 截图是逻辑分辨率的 2 倍,坐标记得除以 2。
  • 截图与图像开销 W9·W15 — 模型靠截图看屏幕,每张约占 1000–1800 input tokens。 :长循环里截图越堆越多、token 暴涨;靠压缩、裁剪、只在上下文里留最近几张控住(见[[成本控制]])。
  • tool_result / 反馈循环 W9·W10 — 官方循环:模型回一个 tool_use(动作)→ 你执行 → 把结果(主要是新截图)作为 tool_result 发回去 → 模型据此决定下一步。这就是「核心循环」在 API 层的样子,是有状态的多轮对话。 :执行完一定要把新截图作为 tool_result 回传,模型才知道发生了什么;漏传它就无从判断下一步。
  • 视觉 grounding W9·W12 — 模型「看懂」截图、把「点登录按钮」对应到具体像素坐标的能力。它是纯视觉路线的根基。 :小目标、高分辨率下定位会偏,这是会点错的根源——靠 zoom、坐标映射、动作后验证来补。
  • 参考实现(reference implementation) W9 · 📖 GitHub — Anthropic 官方 anthropic-quickstarts / computer-use-demo:一个 Docker 容器(Xvfb 虚拟显示 + 轻量桌面 + Firefox / LibreOffice)+ 工具实现(tools/)+ agent loop(loop.py)+ Web 界面。 要点:W9 先把它跑起来体验,再读源码,别一上来啃代码。
  • 安全与限制(allowed actions) W9·W14 — 官方明确建议:跑在专用 VM / 容器、给最小权限;别喂账号密码等敏感数据;网络限制到域名白名单;接受 cookie、付款、同意条款这类有真实后果的动作要人工确认(HITL)。 :模型可能被网页 / 截图里的文字指令带偏(prompt injection)——官方有分类器自动拦、必要时让模型先问你再动,但隔离和最小权限仍不能省。功能仍是 beta。

8. Agent 框架

  • Claude Agent SDK W9 — Anthropic 的 Agent 工程化方案,下面几样(Skills / Sub-agents / Code Execution / MCP)是它的组成部分。
  • Skills(技能) W9 — 把某类任务的做法打包成可复用的能力,给 Agent 按需加载。打包一个 Skill ≈ 一个文件夹,写清「什么时候用、步骤、要哪些工具」。 :一个 Skill 聚焦一类事、写清触发条件;塞太多反而让模型不知道何时用。
  • Sub-agents(子智能体) W9 — 把任务拆给多个各管一块的子 Agent,分工协作。 :任务能切成独立子块、或想隔离上下文(别让一个 Agent 的长历史拖累全局)时才拆;拆过头会增加协调成本和 token,能不拆就不拆。
  • Code Execution(代码执行) W9 — 让 Agent 写并跑代码来完成任务,而不只是点界面。
  • MCP(Model Context Protocol) W9 — 一套让 Agent 统一接外部工具、数据源的协议。
  • Harness(智能体 harness) W9·W11 — 把模型包成能干活的 Agent 所需的整套外围:工具(Tools)、提示词(Prompts)、文件系统、Skills、子 Agent、记忆(Memory)。模型是发动机,harness 是让它真正上路的底盘;Claude Agent SDK 给的就是一套现成 harness。 :效果好坏一半在 harness 不在模型;Agent 不行时先查工具、Prompt、记忆怎么给的,别只盯着换模型。

Skill vs Sub-agent 怎么选

Skill(技能)Sub-agent(子智能体)
是什么一段「怎么做」打包成可复用能力一个独立运行的子 Agent
解决什么复用做法、按需加载知识拆分任务、隔离上下文
开销轻(加载一段文档 / 指令)重(独立的对话和模型调用)
何时用同类操作反复出现任务能切独立块、想隔离长历史
  • ReAct / Plan-and-Execute W11 — 两种经典 Agent 套路。ReAct = 边想边做(推理与动作交替,走一步看一步);Plan-and-Execute = 先列完整计划再逐条执行。Computer Use 多偏 ReAct(屏幕随时在变),长任务可掺一点先规划。
  • Memory(记忆)类型 W10·W11·W15 — 三层:短期 = 当前对话的上下文窗口(context window,装着近几步);长期 = 跨任务存下来的知识 / 经验;状态持久化 = 把当前进度落盘,出问题能恢复(见[[持久化 / 回放]])。
  • LangGraph W11 · 📖 GitHub — 用「状态机」方式搭 Agent 的框架,能暂停、恢复、让人中途介入。本课把 W10 的 Agent 用它重写。
  • 状态机(state machine) W11 — 把 Agent 的流程画成「节点 + 跳转」,每步走到哪、下一步去哪都明确。
  • 中断点(interrupt) W11 — 在某步停下来等人确认或介入,再继续。HITL 靠它实现。
  • 持久化 / 回放 W11·W15 — 把 Agent 每步的状态存下来,崩了能恢复、事后能一步步回放复盘。
  • CrewAI / AutoGen / OpenAI Agents SDK / Pydantic AI W11 — 另外几个主流 Agent 框架。W11 给一张六框架对照地图,以后出新框架也能快速定位。
  • Skyvern W12 · 📖 GitHub — 一个浏览器 Agent 项目,W12 拿它的「视觉 + 元素混合」思路做案例对照。
  • 混合架构(视觉 + 元素) W12 — 先用元素方式找,找不到再退回看屏幕,两种互补、一种不行自动切另一种。
  • 失败回退(fallback) W12·W14 — 一种方法失败时自动换另一种或退回上一步,而不是直接崩。
  • Eval 与基准(benchmark) W11·W15 — 怎么衡量 Agent 好不好。常用公开基准:OSWorld(桌面任务)、WebArena(网页任务,官方文档就引它);自己也该攒一套任务集,盯三个指标——成功率、平均步数、平均成本。没有 eval,调优基本没有依据。

9. 工程化与生产

  • 错误处理三层 W15 — 把错误分成客户端错(输入不对)、服务端错(内部崩)、外部错(网络、限流)分别处理,不一锅端。
  • 重试 / 退避(retry / backoff) W15 — 出现临时故障(网络抖动、限流)时,等待一段时间再重试,等待间隔逐次拉长。
  • 熔断(circuit breaker) W15 — 某个外部服务连续失败时,先暂停调用、等它恢复,避免雪崩式的连环失败。
  • 自修正(self-correction) W14·W15 — Agent 靠「动作 → 截图 → 比对预期」发现这步错了,主动回退或换个方式重试,而不是带着错误往下走。
  • 轨迹记录与回放 W15 — 把 Agent 走的每一步都记下来,出问题能原样回放、看它哪步错了。
  • 结构化日志 W15 — 日志按字段记录(时间、动作、结果),而不是大段纯文本,方便检索分析。
  • 可观测性 / 追踪(observability / tracing) W15 — 能随时掌握 Agent 在做什么、卡在哪一步、花了多少成本的整套手段;把一次任务的每步链路串起来看,就是 tracing。
  • 快照 / 恢复(snapshot / restore) W13·W15 — 给沙箱存一个干净状态的快照,Agent 跑出问题时一键还原到快照,省去每次重建,长流程调试和反复试错很省时间。
  • HITL(人在回路 / human-in-the-loop) W1·W11·W15 — 关键步骤(花钱、不可逆)让人确认了再继续。设计时想清楚拦哪几步、怎么把上下文摆给人看、人改完怎么回传给 Agent。错一次代价高的活必加。
  • 成本控制 W1·W15 — 每一步都要调用模型,开销不小;靠截图压缩、裁剪对话历史、能用便宜模型就用便宜的,把成本压下来。
  • 模型路由(model routing) W15 — 一个 Agent 里按步骤难度派不同模型:简单步骤用便宜小模型,关键决策才上贵的强模型。是[[成本控制]]的一种具体打法。
  • 多 Agent 编排(orchestration) W11·W16 — 多个 Agent 怎么分工、传数据、谁先谁后。常见是一个主控 Agent 把任务分派给若干专职 Agent、再汇总。先把单 Agent 做稳,再考虑上多 Agent。
  • 部署形态对比 W13 — 跑 Agent 的几种方式:本地 Docker 沙箱(便宜、可控、要自己维护)、云沙箱(如 Hyperbrowser、Cua 等,开箱即用、按量付费、省去运维)、自建宿主机调度(规模化、最重)。按「要不要规模化、愿不愿运维、预算多少」三点选。

10. CUA 特有 vs 传统自动化

同样是「让程序自己操作」,Computer Use Agent 和传统脚本差在哪。一张表看清什么时候用哪种(呼应贯穿全课的「三问」)。

维度传统 GUI / 浏览器自动化(pyautogui / Playwright)Computer Use Agent
怎么定位写死坐标、找元素、按固定规则模型看截图自己判断(视觉 grounding)
界面变了容易失效,得改脚本多半能自己适应
速度 / 成本快、几乎免费慢、每步调模型按 token 收费
稳定性步骤固定时很稳会看错点偏,要靠验证 + 重试补
适合场景步骤固定、高频、要精确步骤会变、要看屏幕理解、能容错

一句话:固定流程用传统脚本,要「看屏幕随机应变」才上 Agent——这正是「三问」的第 1、2 问。两者也常混用:能写死的部分写死,真需要判断的交给模型。

自动化与 Agent 术语速查表 | 资讯狗 | Zixungou