课程大纲
课程大纲系列主页
学习进度已完成 0/19

课程总览与学习地图

入门进行中

这门课的主线

整门课 14 到 16 周,核心视频约 60 小时,分 5 个 Phase。一条主线串下来,搭隔离的练习环境、学会看懂代码,让程序自己动手(点鼠标、开网页、填表单),接上大模型让它看着屏幕自己决定下一步,再调到稳定、安全、成本可控,最后跟着实战案例用到真实场景。

核心主张就一句话,教你自己造,不只是会用。

5 个 Phase

Phase周次名称一句话
1W1–W3基础与安全前置先搭好隔离的练习环境,再学会看懂代码
2W4–W8GUI + 浏览器自动化 + 反检测让程序自己点鼠标、开网页,还能稳住不被网站轻易拦下
3W9–W12自己实现 Computer Use Agent不靠现成工具,自己写一个会看屏幕、自己决策的 Agent
4W13–W15生产化 · 稳定性反检测 · 工程化把能跑起来做到稳定、安全、成本可控
5W16实战与集成把能力用到真实场景,跟着实战案例走一遍

16 周地图

每周三段交付,学完能做到、技术点、产出物。每隔三四周有一个能拿出去演示的成果。

主题学完能做到
W1开营 + 全景 + 沙箱前置搭好隔离沙箱,看清 16 周走向
W2Python 速成①看懂一段操作电脑的代码
W3Python 速成② + 第一个 pyautogui demo写出第一个自己控制鼠标键盘的脚本
W4pyautogui 实战 + 跨平台坑一套 Mac / Win / Linux 通用的鼠键脚本
W5Windows UI Automation让程序认出按钮、输入框直接操作
W6Playwright + Browser-use程序自己开网页、填表单,手写与 AI 增强各试一遍
W7浏览器反检测与稳定性合法范围内让网页脚本跑得稳、不被轻易拦
W8GUI + 浏览器混合场景在桌面软件与网页之间切换、传数据
W9Claude Computer Use 原理 + Agent SDK 走读看懂官方实现,讲清用框架与从零写怎么选
W10开发一个现代化的 Agent(全课重点)手写一个会看截图、自己决策的 Agent
W11LangGraph 改造 + 框架对照让 Agent 能暂停、恢复、人工中途介入
W12视觉 + 元素混合架构一种方式不行就自动切另一种的更聪明 Agent
W13沙箱深度定制(Linux + Windows)生产级双平台沙箱,自建与上云会选
W14GUI Agent 稳定性与反检测把 Agent 升级成更稳、更像人
W15工程化全套出错能自处理、过程能回放、成本控得住
W16实战案例 + 结课把能力落到一个真实场景,跑通完整 Agent

贯穿全程还有一条版本管理线。从 W3 写出第一个脚本起就用上 Git,每周代码进同一个仓库,改出问题随时退回上一个能跑的版本,到结课时这个仓库就是你一路做下来的实战成果。

三个实战案例

最后一周手把手带做的样板,给能直接照搬的方法,学会了自己延展。

  1. 文档与数据处理助理 读数据、批量处理 Excel / PDF / Markdown,挑字段、清洗合并、填表、出汇总。
  2. 个人内容生产流水线 从选题到发布,全网扫一圈定方向、AI 把稿润色去 AI 味、自动配图排版存草稿,最后人工审核确认了再发。
  3. 消息处理助理 把重复的消息往来交给它,自动归类、整理、起草回复。微信个人号自动化有封号风险,课程作技术演示并讲清边界,真上生产建议走企业微信官方接口。

学完你会拿到什么

能力上,从零开发一个属于自己、不依赖特定平台的自动化 Agent;看懂大部分自动化场景该怎么拆、哪一步交给 Agent、哪一步老实写脚本;对 AI 怎么看屏幕、做判断、调工具有一手感觉;AI 圈出新东西能花几分钟摸清原理、判断要不要跟。

看得见的东西,逐周搭建到结课的完整代码仓库、一套能套用的脚本和提示词模板、一个能写进简历的实战项目、结业证书。课程按期更新,新模型新框架出来后面期次补进去,老学员可回看。

怎么学

动手比看视频重要。从 W3 起每周代码都进同一个 Git 仓库,逐周累积成结课作品。每隔三四周有一个能演示的产出,别让自己学了一个月还没做出东西。

课程总览与学习地图 | 资讯狗 | Zixungou