[Agentic UX 實作-Claude 篇] 別只追五級往上爬：先問「我審得動嗎」，再用 UX Auditor 把每一級該有的判斷對齊

Don't Just Climb the Five Levels—First Ask If You Can Audit It, Then Ground Each Level With UX Auditor

May 22, 2026

∙ Paid

序言：有人花了 400 小時泡在 Claude 裡，拍了一支 20 分鐘的影片，把 Claude 的使用者切成五級—啟動者、入門者、中階、進階、架構師。

影片裡 Anthropic 自家 Claude Code 的負責人 Boris Churnney 同時跑五個 Claude session，「每一個都在自己隔離的 worktree 裡，他把它們全部開出去然後走開，回來時手上是好幾份等他 review 的 pull request」。

聽起來像是終極生產力。但把這個畫面挪進設計團隊的早會就尷尬了—你的設計師同時跑五個 Claude，產出五個概念原型變體，週三的 design critique 上 PM 指著螢幕問「哪個是你做的」，你答不出來，因為全部都是 Agent 產的。

影片預設的方向是「越高越好」，但 UX 工作者面前的問題不是「我要爬多高」，是「我爬到的這級，我審得動嗎？」這篇的苦手問題：Agent workflow 怎麼逐步展開，而不只是逐步加速？

作者補充
我看完那支影片的第一個反應不是「哇」，是「等等」—影片裡每一級的 cheat code 都是「往上爬」，但作者在 L5 那段自己鬆口了一句：「level 5 卡關不是技術問題，是信任問題。」這跟我在〈當 Agent 開始幫你做事〉裡反覆撞的點是同一件事。技術階梯走得快，治理階梯走得慢。影片把這條治理線壓得很小聲，但對 UX 工作者來說，治理才是主線。
上個月跟幾位創業實作向的 UX 社群朋友對談，其中一位是他們團隊裡少數的 AI Builder，其餘多半是 UX、研究、視覺。他說早會最常卡住的，不是「要不要上 AI」，而是沒有共用的工具成熟度刻度：有人覺得開了 Project 就算「上軌道」，有人跑過一次 Co-work 就自認 L3，主管問「我們 AI 化到哪了」時各人報各的用量或各報各的「我有用」—常常是雞同鴨講。他已在內部草擬一份對照表，就為了讓討論先對齊語言，再談要不要往 L4 爬。
同一輪對談裡還聽到另一種錯判：有人早早拉高到「用 Agent 吐 HTML 頁面」，卻不願細讀團隊的 markdown PRD、UX 研究摘要，Figma 圖層也不整理，只靠 screenshot to UI 拼畫面；另一頭則在 POC 還沒過前就花大量時間拋光設計系統。
看起來很 L3，其實跳過了 Summarize 與 Merge Turns—輸入端沒讀懂，輸出端再炫也審不動。
我把影片裡的五級放回 UX 職涯 × Claude 級對照+ 28 種 UX 文件 × Claude 使用判斷）對照重看，發現結構其實是這樣：每一級的「展開」要配一個對應的「自測」。
不然你就只是在更高速地生產垃圾，然後審到崩潰。這篇要做的事，就是把那位朋友草擬的刻度桌，收斂成設計團隊讀得懂的版本。

系列導讀：這是「Agentic UX 實作系列」的番外—前三篇談個人、團隊、組織三個尺度的判斷護城河（執行者 / 管理者 / 治理者）。這篇是橫切面：站在你目前的職涯位置上，怎麼把 Claude 的 Agent workflow 逐步展開 並且 每一步都有自測 地往前推。
對照 28 種 UX 文件產出：每一種文件都有 Tier（A/B/C） 與 最低 Claude 級 + 使用判斷。
Tier C（14%）—線框、視覺、原型、元件—最低 L3–L4 才碰；若 L2 的 PRD／訪談洞察還沒進 markdown，跳到 HTML 就是「假 L3」。

AI/UX 要補的是判斷力與 90° 反問

影片的 5 級是一條乾淨的單向階梯：每一級都有清楚的 cheat code、每一級都讓你「節省更多時間」。但你把這條階梯放進 UX 職涯裡，會碰到一個 Jenny Wen 自己沒講透的限制—不是所有人都該爬到 L5。

這也是為什麼「成熟度刻度」不能只停在影片裡。創業團隊裡常見的裂縫是：少數 AI Builder 已經在編排，多數 UX 還在試 Project；早會上沒有共用語言，就會變成各說各話的 token 數、各說各話的「我有用」。先對齊「你現在在哪一級、該停在哪一級」，比催大家再往上爬一級，更能止雞同鴨講。

影片裡作者明白寫過：「If your day lives in Microsoft Office, this integration changes everything for you.」那是給知識工作者的通用語氣。

但對 UX 從業者來說，Excel / PowerPoint / Word 三件套的 add-in 對 UI Designer 的價值，遠低於對 PM 的價值。

同樣一句「全部三層 share context across these apps」，UI Designer 聽到要去學 PowerPoint add-in 才不會被淘汰，這個翻譯本身就是錯的。

在〈Agentic UX 實作系列-1〉裡，Kai 在 design critique 上答不出「哪個是你做的」—因為他的判斷依據沒寫下來。影片裡 Boris 同時跑五個 session，看起來是 L4 標準動作，但 Boris 是 Claude Code 的負責人，他的 worktree 隔離、CLAUDE.md 寫作、verification loop 全都是他自己定義的—他不是「往 L4 爬」，他是 L4 這個概念的作者之一。

影片的 5 級在 Boris 身上是描述（descriptive），到了你的 junior 設計師身上會變成處方（prescriptive）。

處方化的階梯比描述性的階梯危險十倍—因為它預設「爬上去就是成長」，但 UX 工作者的成長從來不是線性的。

在〈Agentic UX 實作系列-2〉裡，研究員 Maya 用 Cowork 一個下午產出三個帶假設的原型。

她在影片的標準裡是 L3，但她其實是 L3.5—她有 Co-work、有 Skill 庫，但她也有研究員角色不該越過的 Frame 邊界。她超過 L3 不是進步，是越界。影片的階梯只看工具深度，不看角色邊界。

所以我們需要一條 90 度的反問：

影片的軸 UX 必須加的軸工具自動化深度（L1→L5）你的角色該停在哪個階段？
一天節省多少時間一天產生的東西你審得動嗎？

道德皺摺帶（moral crumple zone）這個詞我在〈Agentic UX 實作系列-3〉裡引用過—當每個人都對 Agent 產出負責時，沒有人真正負責。影片把「五個 session 並行」當成 L4 的 cool factor，但對團隊管理者來說，那是責任稀釋的最佳結構。

處方：先回答「你該停在哪一級」，再決定怎麼往那一級爬。

UI Visual / Junior IC：L2-L3 是合理位置。爬到 L4 不會給你加薪，會給你更多自己審不動的產出。
Senior IC / Interaction Designer：L3-L4 是合理位置。L3 是「Skill 寫得好」，L4 是「subagent 跑得起來」。中間那條線就是你下一年的成長軌跡。
Design Lead / Manager：L4 是合理位置。L4 你才當得了 Frame 與 Arbiter（〈系列-2〉）。
Principal / Design Engineer：L5 是本職。harness、hooks、SDK 是組織的基礎建設，不是個人的炫技。

對照圖共用的產品脈絡：UX Auditor、三層審查，與 IC／Manager／Judge

下面每一級（L1→L5）的正反例對照圖，都發生在同一個產品脈絡裡—我這兩年在做的 UX Auditor。先交代它，讀者碰到「audit report」「L3 discussion topic」「Maya 越界」這些詞時，才不會被彈出上下文。

UX Auditor 是一套 AI 輔助的 UX 稽核教學工具，過去給客戶內部團隊用：上傳介面截圖或功能描述，系統會產出結構化審查報告。核心是一個 三層審查模型。
L1 用 Brignull 那套分類在介面裡找 dark pattern（confirm-shaming、roach motel 等）。L2 用 AIPET（Agency、Interaction、Privacy、Experience、Trust）評 agentic UX。
L3 再把介面放回較大的治理敘事裡（例如 NIST AI RMF 這類框架），標出哪些議題值得繼續談。
L1、L2 的產出叫 finding—有位置、有影響、有修正方向；語氣可以直接說「這是 dark pattern」。
L3 的產出叫 discussion topic，帶 confidence: suggestive 之類的標記；語氣是「值得討論」「可考慮探索」—不是判決、不是清單、也不是合規檢核。
L3 不能變成 finding，在產品裡是硬規則。兩者一混，教學定位就整個塌掉：工具會從「幫設計師看見治理議題」滑成「給介面打分的 QA」。

讀對照時可以代入三種角色。

IC（Individual Contributor） 是主使用者—設計師、UX researcher、學員：上傳介面、看報告、改設計；也是 L1 反例裡那個花三天畫 wireframe、卻沒先讀 NPS 留言的人。

Manager 看的是跨多次稽核的 AIPET 趨勢、團隊哪個維度反覆踩線；對應 L4 反例裡那個該寫 frame.md、卻去趕 80 頁 vision deck 的角色。

Judge（設計評審者）是任務角色，不是預設帳號等級：學員可選擇邀請老師對 AI 報告補教學評語，全流程 opt-in，MVP 以 Email 交付為主；老師回的不是分數、不是仲裁，是教學補充。四格圖裡 Judge 不常直接入鏡，但它的存在撐住整份免責邏輯—工具不替老師打分、也不替平台簽發合規—L3 才能一直維持「討論而非判決」的語氣。

下面各級正反例裡的「反例」多半不是「畫面醜」；是 該寫的文字判斷沒寫。

逐步展開：每一級的動作 × harness 自測尺（Tier A／C 正反例）

選好階段之後，問題變成怎麼從現在站的位置走到下一級。影片給的是「下一級 cheat code」，但 cheat code 只告訴你「按哪個鈕」，不告訴你「按完之後怎麼確認自己沒亂」。

社群裡還有一種常見的「假 L3」：過早把 HTML 視覺化 artifact 當成成熟度證明。設計師把 Figma 截圖餵給 Claude，要它「照這個長一個頁面」，卻不願逐段讀 markdown PRD、UX 文件裡的訪談洞察，也不收研究員回饋進可被 agent 引用的結構；Figma 本體的圖層與命名懶得整理，工作流變成 screenshot to UI 的拼湊。

另一頭則在假設還沒通過 POC 前，就花一整週調設計系統 token，只為了讓 HTML 看起來像正式產品。影片的階梯會把這種產出記成進步，團隊真正缺的卻是輸入有沒有被讀懂。若你答不出「這屏對應 PRD 哪一條、呼應或反駁了哪則研究發現」，你只是在用 AI 做視覺拼貼，不是在升級工作流。

這就是 C4 那套 harness 五層的真正用處。Harness 原本是 LLM agent 工程的概念—管 context window、做壓縮、避免 token 爆掉。但我在 C4 裡做的映射是：把這套壓縮策略當作設計團隊的 context 治理紀律。

把它再壓一次，這套五層也可以當「Agent workflow 逐步展開時的自測尺」—每升一級，配一個壓縮動作。

L1 啟動者 → L2 入門者 · 自測：Dedupe

展開動作：開第一個 Project。把 persona、設計系統 token、品牌資料丟進去，寫一段 50 字的 system prompt。

自測尺（Dedupe）：你過去三週貼給 Claude 的 context，有多少是重複的？同一段 brand guideline 你已經貼了七次嗎？「同一份 Figma 截圖各自寫了類似 comment」（C4 L1 原文）這種事在 L1 看不見，但已經在發生—只是發生在「你和 Claude 的對話」裡，而不是「你和同事的會議」裡。

走到 L2 的訊號不是「我開了 Project」，是「我發現我沒再貼那段 brand guideline 了」。如果你開了 Project 但還是每次都重貼，你的 Project 設置是壞的—回頭修，不要往 L3 跑。

{合作廣告}

🧑‍🎓 UX 訂閱制學習計劃：把 human-in-the-loop 變成你的日常。這也是我會特別推薦 #UX訂閱制學習計劃 的原因：它不是一次性的 bootcamp，而是把借位、補位、入位拆開來，串成 3 月到 12 月的一條學習軸線。

透過每月 Podcast 和專欄，先向不同領域的 UX / 產品 / AI / 服務設計講師「借位」
透過直播與 Circle 社群討論，在你的真實案子與問題上進行「補位」
點選報名

L2 入門者 → L3 中階 · 自測：Summarize

Continue reading this post for free, courtesy of GAINSHIN.

Or purchase a paid subscription.

AI 素養與隱私體驗