完整课程表 · 2026 版 · 16 周

16 周课程明细 Curriculum

每周主题、学员产出物、5 个 Phase 的设计意图、配套资源——这页是详细版,营销话术之外的所有真实细节。

16 周
主课周期
约 60 小时
核心视频
5 个 Phase
阶段划分
每周 8-10h
学员投入
加微信报名
Phases

5 个 Phase 全景

一句话讲清这 16 周

先搭好一个隔离的练习环境、学会看懂代码→让程序自己动手(点鼠标、开网页、填表单)→接上大模型,让它看着屏幕自己决定下一步→把它调到稳定、安全、成本可控→跟着我们的实战案例,把它用到真实场景里。

PHASE 1 · W1-W3

基础与安全前置

先搭好隔离的练习环境,再学会看懂代码。

沙箱前置搭好,再写第一行 Python。把"环境安全"和"看懂代码"两件事在第一阶段就解决,后面才能放心练。

PHASE 2 · W4-W8

GUI + 浏览器自动化 + 反检测

让程序自己点鼠标、开网页,还能稳住不被网站轻易拦下。

pyautogui、UIA、Playwright + Browser-use,加上一节专门讲浏览器反检测——学完工具就立刻教怎么不被封。

PHASE 3 · W9-W12

自己实现 Computer Use Agent

不靠现成工具,自己写一个会看屏幕、自己决策的 Agent。

从用 Claude Computer Use,走到自己开发一个现代化的 Agent,再用 LangGraph 改造成可中断、可恢复、能 HITL 的版本。

PHASE 4 · W13-W15

生产化 · 稳定性反检测 · 工程化

把"能跑起来"做到"稳定、安全、成本可控"。

沙箱深度定制 + GUI Agent 稳定性 + 工程化全套。这阶段把"能跑"变成"能稳定跑、能调试、能控制成本"。

PHASE 5 · W16

实战与集成

把学到的能力用到真实场景上,跟着我们的实战案例走一遍。

跟着三个实战案例把能力跑通 + 看讲师把 Agent 集成到多 Agent 系统里。更多场景自己探索。

整门课分成 5 个 Phase,每个阶段都有明确目标和一个能拿出去演示的产出。先看大图,再下钻到每周明细。

Weekly

16 周明细

每周一行,主题加"学完能拿走的产出物"。W7 浏览器反检测和 W14 GUI Agent 稳定性与反检测是这门课跟市面同类课最大的差异化。

Phase 1 · 基础与安全前置(W1-W3)
W1

开营 + 全景 + 沙箱前置搭建

第一周先搭一个隔离的练习环境(沙箱),再把这门课要做成什么、能做到哪一步讲清楚。往后所有操作都在这个沙箱里进行,出问题也不会影响你的主力电脑。

技术点 · 课程地图 · AI PC 自动化的现状与边界 · docker-compose 一键沙箱模板

→ 跑通第一个沙箱环境,手里有一张完整的课程地图

W2

Python 速成①

只学做 Agent 用得上的那部分 Python,边学边用,不铺开讲用不上的内容。

技术点 · 变量 · 字符串 · 列表 · 字典 · for / if / else · 函数

→ 能读懂一段"打开 Excel、逐行点过去"的代码

W3

Python 速成② + 第一个 pyautogui demo

补齐读写文件、处理报错这些常用操作,写出第一个能自己控制鼠标键盘的小脚本。

技术点 · 文件 IO · 模块导入 · 异常处理 · pyautogui 入门

→ 在沙箱里跑通一个自动点鼠标的脚本

贯穿全程

版本管理 · 用 Git 管好代码

从 W3 写出第一个脚本起就用上 Git,往后每周的代码都进同一个仓库,改出问题随时退回上一个能跑的版本。

技术点 · 提交 / 回滚 / 分支 · 连 GitHub · 逐周归档

→ 一个逐周累积、到结课时完整的代码仓库

Phase 2 · GUI + 浏览器自动化 + 浏览器反检测(W4-W8)
W4

pyautogui 实战 + 跨平台坑

把鼠标键盘自动化做扎实,并解决 Mac 和 Windows 上常见的权限、屏幕缩放问题。

技术点 · 鼠键控制 · 截图 · 定位 · DPI 缩放 · 权限(macOS 辅助功能 / Windows UAC) · 失败重试

→ 一套 Mac / Windows / Linux 都能用的鼠标键盘脚本模板

W5

Windows UI Automation

让程序"认出"窗口里的按钮、输入框直接操作,不靠固定坐标点击,更准也更稳。

技术点 · uiautomation / pywinauto · 元素查找 · Inspect 工具 · 视觉 vs 元素怎么选

→ 写出能自动操作 Excel、Outlook 的脚本

W6

Playwright + Browser-use —— 从精确控制到 AI 增强

学会让程序自己开网页、点链接、填表单。先用"每一步都自己写"的精确方式,再试"交给 AI 自动找"的方式,搞清楚什么时候用哪种。

技术点 · Playwright 现代特性(auto-wait / 录屏 / HAR 录制) · Browser-use(Python AI 层 · 接 LangChain / LangGraph) · 何时用 AI、何时不用

→ 一个纯手写 Playwright 脚本 + 一个 AI 增强版,外加两者对比表

W7

浏览器反检测与稳定性新增

真去自动操作网站,很快会遇到"机器人检测"被拦。这周讲在合法范围内怎么让脚本跑得稳、不被轻易拦截(开头先把法律和道德边界讲清楚)。

技术点 · 2026 主流检测机制(Cloudflare / Akamai / 指纹 / 行为) · Playwright Stealth 与替代方案 · 指纹伪装与行为模拟(讲清不是银弹) · 住宅代理 / Cookie 持久化 / 多账号画像 · 验证码 AI 识别 + 人工兜底

→ 合法场景下,一个不被轻易拦截的网页登录 + 取数脚本模板

W8

GUI + 浏览器混合场景

真实任务常常是桌面软件和网页混在一起。这周学怎么在两者之间切换、把数据传递过去。

技术点 · 何时切 Playwright vs pyautogui · 跨进程状态传递 · Stagehand 方案对照 · 真实项目演练

→ 一个"桌面软件取数 → 网页填单 → 截图存档"的混合脚本

Phase 3 · 自己实现 Computer Use Agent(W9-W12)
W9

Claude Computer Use 原理拆解 + Claude Agent SDK 设计走读

把官方的 Claude Computer Use 拆开,看清它到底怎么运转;再走读 Anthropic 的工程化方案,为下周自己动手做铺垫——弄明白"用现成框架"和"从零写"各自的取舍。

技术点 · 动作类型 · 坐标处理 · 图像编码(1024×768 缩放) · 官方 demo 的设计缺陷 · Claude Agent SDK(Skills / Sub-agents / Code Execution / MCP)

→ 看懂官方实现,讲得清"用框架 vs 从零写"该怎么选

W10

开发一个现代化的 Agent ⭐

这一周是整门课的重点。亲手写出一个会“看截图 → 想下一步 → 动手 → 自己检查”的 Agent,100 到 200 行代码,能跑起来。

技术点 · 截图 → 大模型 API → 解析动作 → 执行 → 验证 · 坐标映射 · Prompt 设计 · 多轮对话历史管理

→ 一个 100-200 行、能跑起来的现代化 Agent 雏形

W11

LangGraph 改造 + 主流 Agent 框架对照

把上周那个 Agent 用框架重写一遍,让它能暂停、能恢复、能让人中途介入;最后给你一张主流框架地图,以后出了新框架也能快速定位。

技术点 · LangGraph 状态机 / 中断点 / 持久化与回放 · Browser-use 作为节点接入 · 六框架对照(LangGraph / Claude Agent SDK / CrewAI / AutoGen / OpenAI Agents SDK / Pydantic AI)

→ 上周 Agent 的 LangGraph 版(可暂停可恢复) + 一张六框架对照地图

W12

视觉 + 元素混合架构

只靠"看屏幕"或只靠"找元素"都有盲区。这周教怎么把两种方式结合,一种不行自动切到另一种。

技术点 · 纯视觉的局限 · 纯元素的局限 · 混合策略与决策点 · 失败回退 · Skyvern 案例对照

→ 一个"先找元素、不行再看屏幕"的更聪明 Agent

Phase 4 · 生产化 · 稳定性反检测 · 工程化(W13-W15)
W13

沙箱深度定制(Linux + Windows)

把第一周那个简易练习环境升级成生产级的——Linux 和 Windows 两套都能稳定运行,还会讲自己搭和上云怎么选。

技术点 · Linux Docker 沙箱(基于官方 demo 改进) · Windows Sandbox / Hyper-V 持久化 · 宿主机调度脚本 · Hyperbrowser 云沙箱

→ 一套 Linux + Windows 双平台的生产级沙箱配置,外加自建 vs 上云的决策框架

W14

GUI Agent 稳定性与反检测新增

桌面 Agent 的失败,大多来自运行不稳定,被网站识别反倒少见。这周主攻稳定性,顺带让操作更接近真人(开头先划清法律边界)。

技术点 · 人类操作画像 · 高斯延迟 / 贝塞尔轨迹(讲清不是银弹) · 元素验证 / 动作后校验 / 失败诊断 / 回退动作 · 多账号多环境隔离 · 法律边界

→ 把 W10 那个 Agent 升级成"更稳、更像人"的版本

W15

工程化全套

把"能跑"变成"能放心交给它跑"——出错能自己处理、过程能回放、成本也控制得住。

技术点 · 错误处理三层结构 · 重试与熔断 · 轨迹记录与回放 · 结构化日志 / 可观测性 · HITL 流程 · 成本控制(截图压缩 / 对话历史裁剪)

→ 一套生产级操作规范 + 一个能回放每一步的轨迹工具

Phase 5 · 实战与集成(W16)
W16

实战案例 + 结课

最后一周,把整门课学到的能力落到真实场景上。下面三个是我们带你做的实战案例,照着方法把自己的活套进去,更多场景自己探索。

技术点 · 三个实战案例(见下) · 课程总结 · 进阶路径

→ 至少跑通一个真实场景的完整 Agent

我们的实战案例

① 文档与数据处理助理

读数据、批量处理 Excel / PDF / Markdown 这类杂活,交给它干。把一堆格式各异的文件读进来,挑出你要的字段,清洗、合并、填进表格,最后给你一份汇总。

文件读写 · 视觉/LLM 提取 · 表格操作

② 个人内容生产流水线

一条从选题到发布的内容流水线——全网扫一圈定选题方向,AI 把你的稿润色、去掉 AI 味,自动配图排版,存成草稿;最后你审一遍,确认了再发。

全网选题 · AI 润色 · 自动配图 · 审核后发布

③ 消息处理助理

把重复的消息往来交给它——自动归类、整理、起草回复,把你从来回复制粘贴里解放出来。

界面自动化 · LLM 理解 · 消息整理

风险提醒——微信个人号自动化违反平台规范、有封号风险;课程把它作为技术案例演示、讲清边界,真要上生产建议走企业微信官方接口。

Why

每个安排背后的设计意图

为什么这样排、不那样排——每一条都对应了市面同类课在某处做得不够。

沙箱前置到 W1,不是放到最后

市面常见做法是把沙箱当"最后才讲的生产化话题",学员前 8-10 周裸机操作,风险大。我们反过来——第一周就给一个最简沙箱,从一开始就在安全环境里练手。第 13 周再讲生产级深度定制。

W6 不止 Playwright,还教 Browser-use

单 Playwright 学完学员会问"那 Browser-use / Stagehand 怎么样?"。我们先教底层 Playwright(保留控制权 + 理解原理),再叠加 Browser-use(Python AI 层 + LangGraph 集成),让你能体会"裸控制 vs AI 增强"的取舍,并把这套判断延伸到 W11、W12。

反检测拆成两节,放在 W7 和 W14

浏览器反检测放 Playwright 之后(W7)——学员刚学完工具就遇到的实际问题,立刻教解法,记忆最牢。GUI Agent 稳定性放沙箱之后、工程化之前(W14)——有沙箱才能安全试错"像人"的行为。两节开篇 5-10 分钟都做法律边界教育,不讲打码平台等灰色服务。

W10 是全课重点,前 9 周都为它铺垫

"开发一个现代化的 Agent"是这门课的重点——用 100-200 行代码把 Computer Use 的工作原理讲透。原本草案里独立的"图像处理与坐标映射"一节并入 W10 一起讲,避免开发完 Agent 后再回头补基础造成节奏断裂。

W16 给三个实战案例,更多自己探索

A 类小白和 B 类开发者、不同行业的学员需求差异大,统一指定项目会有人觉得无关。最后一周不再叠加额外的集成 demo——把精力全部用在你自己的实战项目上。

Resources

配套资源

除了 16 周视频,你还会拿到这些。

沙箱配置脚本

docker-compose 一键 Linux 沙箱 + Windows Sandbox `.wsb` 一键配置,讲师维护的版本。

每周可运行代码仓库

16 周每节课的完整可运行代码,按周归档,GitHub 私有仓只对学员开放。

Python 自动化速查手册

"看懂自动化代码够用版"语法 + 常见错误对照表,PDF / Notion 双格式。

错误处理 cheatsheet

DPI、权限、坐标、API 限速等常见坑的对照表与修复方案。

现代化 Agent 参考实现

W10 课程配套的 100-200 行最小现代化 Agent + 注释,直接拿去改造你自己的版本。

反检测 + 稳定性工程模板

W7 浏览器反检测脚本 + W14 GUI Agent 稳定性 Loop,两套生产级模板。

4 个项目方向模板

办公自动化 / AI 测试工程师 / 数据采集 / 个人助理,W16 自选其一,讲师给项目骨架。

Agent 学习路径文档

结课后继续深造的官方资源索引,按 5 方向分类:LangGraph 深入 / Anthropic Agent 体系 / 多 Agent 协作 / 类型安全 / 浏览器 Agent。

学员社群与讲师答疑

永久社群、训练营版讲师 24h 内回复、陪跑版 1v1 ≥5 次。

这页是详细版。如果还在犹豫选哪个档位、或想知道还能学到什么——直接加微信聊。

加微信报名

满 20 人开班 · 早鸟 7 折 · 付费后 3 天内无理由退款

返回课程总览
完整 16 周课程表 · 从零到自建 Computer Use Agent | 资讯狗 | Zixungou