第進階章

用 AI 自動化
瀏覽器上的雜事

給不會寫程式、但願意碰一點終端機的台灣上班族：先從低風險的讀資料、篩選、截圖、匯出開始

很多網頁上的重複雜事已經能交出去，但真正省時間的關鍵不是會跑，而是你有沒有把任務講成可驗收條件，還留得下證據。

網頁雜事，其實能交出去

每天打開同一個後台，切日期，點篩選，抄 3 個數字，截圖留存，再貼去 Excel。做一次只是煩，天天做、每週做、每月做，就會變成很實際的時間黑洞。好消息是，很多這種「在瀏覽器上重複按來按去」的工作，現在已經可以慢慢交給 AI。

這篇走的是比較誠實的進階手把手路線。你不用會寫程式，但要願意碰一點終端機，也願意先裝好 Node、Playwright，看得懂基本指令在做什麼。適合你的是：有固定網頁雜事、想從低風險的讀資料與截圖開始、願意先做一次再慢慢變成可重複用的小工具。

如果你完全不想碰終端機，或只是偶爾想叫 AI 幫你操作幾步，那 Atlas、Comet、Claude in Chrome 這類比較消費級的瀏覽器 AI，反而可能更適合你。這篇比較在意的是可控、可驗證、可慢慢做成 SOP 的路線。

每天手動

開報表頁
切日期
選門市
抄 3 個數字
截圖存證

一段指令跑完

open
goto report
snapshot
eval e40
screenshot

先判斷值不值得自動化

不要一看到 AI 就想把所有工作都丟進去。先問自己 4 個問題：這件事是不是會重複做？流程是不是大致固定？成功標準能不能講清楚？失敗會不會造成高風險後果？

像每天早上看同一頁報表、每週一抓上週數字、每月初下載月結單，這種越重複、越固定、越能講清楚成功條件的任務，就越值得先做。相反地，如果每次都要臨場判斷很多，或一失敗就可能付款、刪除、正式送出資料，入門先不要碰。

你可以把判斷口訣記成一句話：前 3 題大多是「是」，第 4 題是「否」，這件事就很適合當第一個自動化練習。

先問這 4 題

這件事會不會重複做

流程是不是大致固定

成功標準能不能講清楚

失敗會不會高風險

口訣：前 3 題是，第 4 題否，就很適合拿來當第一個練習。

動手：先跑一個讀取型任務

第一個案例，先不要做自動送出，而是用最安全也最實用的類型：打開報表頁、套條件、讀數字、截圖留證。這裡用 playwright-cli 示範，它很適合第一次上手，因為你可以一個動作一個動作做，邊看畫面、邊確認自己在哪裡。

白話講，snapshot 可以先把它想成「AI 讀得懂的頁面地圖」，裡面會出現像 e3、e12、e40 這種 ref，也就是頁面元素的臨時代號。你後面不用硬寫很長的 selector，而是直接用 ref 點按鈕、抓文字。網站不同，網址與 ref 編號一定會變，所以你要照自己的畫面替換。

照著跑一次，你會更快抓到節奏

典型順序就是：open 開瀏覽器，goto 去指定頁面，snapshot 看頁面地圖與 ref，click eXX 套日期與篩選條件，eval 抓文字，screenshot 留證，--raw eval 把乾淨結果導出成文字檔，最後 close 關閉。

真正難的不是背指令，而是養成一個習慣：每做完一個關鍵步驟，都要確認畫面證據真的對。不要只憑感覺覺得剛剛有按到。

playwright-cli open
playwright-cli goto https://example.com/report
playwright-cli snapshot
playwright-cli click e3
playwright-cli snapshot
playwright-cli click e18
playwright-cli click e22
playwright-cli snapshot
playwright-cli click e12
playwright-cli snapshot
playwright-cli click e30
playwright-cli click e33
playwright-cli snapshot
playwright-cli eval "el => el.textContent" e40
playwright-cli screenshot --filename=report-proof.png
playwright-cli --raw eval "el => el.textContent" e40 > revenue.txt
playwright-cli close

會跑，不代表做對

很多人一開始做瀏覽器自動化，最容易犯的錯就是：指令跑完了，就以為任務完成了。但真正能拿來工作的流程，不是只有「會跑」，而是「有證據證明它做對」。你可以把 plan.md 想成任務的驗收單，先把 critical points，也就是關鍵驗收點，列清楚。

例如報表任務不要只寫「抓昨天的報表」，而要拆成：已打開正確報表頁、日期條件已切到昨日、門市篩選已設為台北門市、已讀出營收/訂單數/新會員 3 個數字、已留下可核對的截圖證據。這樣你才知道後面該留什麼證據。

跑完後要 self-verify，也就是自己再驗一次。最少看 4 件事：截圖裡是不是看得到正確頁面、看得到正確條件已套用、log 裡是不是有記到關鍵步驟、最終數字是不是跟畫面上的值對得起來。只要有一件模糊，就不要急著把結果貼給主管。

證據自查 4 點

截圖看得到正確頁面

截圖看得到條件已套用

log 有記到關鍵步驟

最終數字跟畫面對得起來

證據模糊就不算過，先補截圖或補 log。

重複使用：把一次代工變成小工具

第一次成功，通常只是開始。真正省時間，是第二次、第三次不用重做。最先能做的，是重用登入狀態。登入一次之後用 state-save 存下來，下次流程前再用 state-load 載回去，很多站就不用每次重新輸入帳密。

如果你有不同站點或不同用途，也可以用具名 session。像 -s=mysession 這種做法，適合把不同網站、不同帳號、不同任務分開管理。比起每次都從零開始，比較不容易混亂。

再往前一步，是把流程做成 CLI tool。你可以把 one-shot 想成同事幫你做一次，把 CLI tool 想成同事把 SOP 寫成可重用模板。像 --month、--store、--customer 這些可變的值，都可以參數化，還要有預設值、--help，log 第一行最好記下這次實際用了哪些參數。

playwright-cli state-save auth.json
playwright-cli open
playwright-cli state-load auth.json
playwright-cli goto https://example.com/report

playwright-cli -s=mysession open https://example.com/report --persistent
playwright-cli -s=mysession click e6
playwright-cli -s=mysession close

# 之後做成可換參數的小工具
--month 2026-05
--store 台北門市
--customer ACME

風險守則：先保守，再放大

瀏覽器 AI 自動化很好用，但也很容易因為太方便而出事。研究底稿特別提醒一個風險叫間接 prompt injection，也就是攻擊者把惡意指令藏在網頁內容裡，等 AI 去讀網頁時，把那些字誤認成它該遵守的新指令。Comet 就曾出現過相關案例：攻擊者把隱藏指令塞進 Reddit spoiler，誘導瀏覽器 AI 去抓 email 與一次性驗證碼。

所以入門請一律從讀取型任務開始，不要讓 AI 在送出、付款、刪除的頁面自主亂跑。帳密與登入也要保守處理，優先用測試帳號或權限較低的帳號，確認截圖與 log 不會亂存到公開位置。

另外也要有心理準備：網站只要改版，按鈕文字、篩選器位置、登入流程一變，腳本就可能壞掉。再加上目標網站的 ToS 與公司內部規範，不是所有網站都歡迎自動化操作或大量擷取資料。把它當成需要維護的小工具，而不是一次做完永遠穩定。

先守住這些底線

留意間接 prompt injection
不要自主送出、付款、刪除
帳密與登入狀態要保守管理
網站改版了，腳本就可能壞
先看 ToS 與公司內規

學完這章你可以…

把網頁任務講成可驗收的條件(小技巧) 小技巧

一句話記住重點

很多重複的網頁雜事已經能交給 AI，但會跑不等於做對。把任務講成可驗收條件，再用截圖和 log 留下證據，你才是真的在省時間。

現在就試

這週先挑一個你每週都會看的報表頁。只做最小版本就好：套一個日期條件，抓 1 到 3 個數字，存一張截圖，再用 --raw 把其中 1 個數字存成文字檔。先證明這件事真的能穩定被讀出來，不用第一天就做成排程。

← 回課程地圖 ← 回小技巧

用 AI 自動化瀏覽器上的雜事

用 AI 自動化
瀏覽器上的雜事