Skip to content
Wen's Blog

把工单分析 SOP 做成 Skill:用 Copy as fetch 取代脆弱的页面自动化

Mar 3, 2026 — Skills, Agents, Tool, Tutorial

这篇文章让我最认同的一点,是它没有继续在“怎么让 AI 更会点页面”上绕圈,而是直接换了问题。工单分析真正的难点,从来不是点按钮本身,而是在企业内网、复杂登录态、频繁筛选条件和多角色分析诉求下,怎么把数据稳定拿出来。

一旦问题这样重述,很多路线自然就该被淘汰。

内网页面自动化,天然就是高维护成本方案

原文一开始先把场景讲得很清楚:数据在内网、必须登录、高频重复,而且同一份数据对研发、PD、TL 来说关注点还不一样。这种任务当然适合 AI 参与,但前提是数据入口必须稳定。

作者最早试过 Playwright MCP,也关注了更偏 Agent 友好的 agent-browser。问题都不难理解:页面 snapshot 消耗大,动态 DOM 元素不稳定,今天能点中的筛选器,明天就可能换位;如果改成固定 selector + 脚本,又会回到高编写成本和高维护成本。

这篇文章的价值,不在于比较哪个工具更强,而在于看清了一件事:只要你的主路径还是“让 AI 去操作页面”,稳定性就很难真正收住。

SPA 页面背后是接口,接口才是该复用的层

作者后面做了一个很关键的观察:企业后台大多是 SPA,页面数据本质上来自接口返回。既然页面上那次查询已经成功渲染出来,就说明在当前登录态下,对应请求本身就是可复现的。

所以思路立刻变了。与其让 Agent 学会“怎么从首页点到报表页,再点筛选器,再点导出”,不如直接把那次已经验证过的请求拿出来复用。原文的操作链很简单:

  1. 先由人类完成登录和一次真实查询
  2. 在 DevTools 的 Network 里执行 Copy as fetch
  3. 把请求脚本保存下来
  4. agent-browser eval 直接执行脚本,拿 JSON 数据
  5. 再把结构化结果交给模型分析

这条路线妙就妙在它把浏览器从“主接口”降成了“登录态和取样入口”。只要你拿到的是稳定请求而不是脆弱点击流,系统维护成本就会往下掉一大截。

Skill 封装的不是脚本,而是一整段 SOP

文章接下来把这个方法沉淀成 Skill,我觉得这一步才是真正的工程升级。因为你要复用的,不只是那段 fetch,还包括:

也就是说,Skill 在这里不是一个“把脚本包起来”的容器,而是把整条工单分析 SOP 变成了可执行资产。原文给出的最小结构就很能说明问题:

order-analysis-skill/
├── scripts/
│ ├── check-agent-browser.sh
│ ├── check-cdp.sh
│ └── order-analysis.js
└── SKILL.md

执行链路也很直接:

Terminal window
sh scripts/check-cdp.sh
sh scripts/check-agent-browser.sh
agent-browser --cdp 9222 open "https://inner.example.com"
OUTPUT_DIR=".output/order-analysis/$(date +%Y%m%d-%H%M%S)"
mkdir -p "$OUTPUT_DIR"
agent-browser --cdp 9222 eval "$(cat scripts/order-analysis.js)" > "$OUTPUT_DIR/order.json"

这里最重要的设计,是把“数据采集”和“结果分析”拆开。前者走确定性脚本,后者保留给模型根据角色需求去解释。

Skill 在这个场景里,比 Workflow 更像长期方案

原文后面还专门对比了 Skills 和 Workflow,这一段我觉得很有启发。Workflow 擅长固定流程,节点 A 到节点 B 的顺序很清晰,但它的短板也很明显:不够灵活、平台绑定重、修改成本高。

工单分析恰好不是一个完全固定的单一路径任务。研发可能只关心 API 网关 的工单,老板可能要看多个产品横向对比;前端想看体验问题,PD 想看共性诉求和产品化机会。数据采集层可以稳定,但上层分析口径天然要变化。

这种时候,Skill 的优势就出来了。它本质是文本资产,可以放在 Git 里管理,可以 code review,也可以快速改分析提示词。相比拖拽编排好的 workflow,它更适合承接那些“底层数据稳定,上层解释经常改”的任务。

这条路最值得学的,是接口选择而不是工具名字

如果只记一句话,我会记这个:不要把可变 UI 当成主接口。

对企业内网数据分析这类工作来说,真正值得沉淀的是已经验证过的请求、稳定的数据结构,以及不同角色共享的数据口径。Agent 在这里不是来替你模仿人类点页面,而是接过结构化数据之后做归纳、分类和建议生成。

这也是为什么原文最后那句总结很成立:Skills 真正替换的,不是工作本身,而是每次都要重新搭一遍 SOP 的脑力成本。只不过我会再补一句,前提是你先选对那条最稳的接口层。