「Stop OpenClaw」—當你的 Agent 忘了煞車在哪

"Stop OpenClaw" — When Your Agent Forgets the Brakes

Feb 27, 2026

∙ Paid

序言：一位 Meta 超級智慧安全研究員對著她的 OpenClaw agent 大喊「STOP」，卻只能眼睜睜看它狂刪郵件。與此同時，一則 1.1M 觀看的推文正在教你如何把龍蝦 Agent 變成「你的 AGI」。問題是：這份「最佳實踐指南」本身，就是治理缺口的完美示範。

Summer Yue 是 Meta Superintelligence 的對齊主任—專門研究「讓 AI 聽人類話」的人，履歷包括 Scale AI 研究 VP、Google DeepMind（Gemini、RL Agents）。她對 OpenClaw 說「先確認再行動」，結果 Agent 無視指令狂刪郵件，她只能「跑去 Mac mini 拆炸彈」。

2026 年 2 月 22 日，她在 X 上發了一則貼文，3.8M 觀看：「Nothing humbles you like telling your OpenClaw “confirm before acting” and watching it speedrun deleting your inbox. I couldn’t stop it from my phone. I had to RUN to my Mac mini like I was defusing a bomb.」

截圖裡的對話更直接。Agent 執行了「Nuclear option: trash EVERYTHING in inbox older than Feb 15 that isn’t already in my keep list」。她打了「Do not do that」。Agent 繼續。她打了「Stop don’t do anything」。Agent 繼續。她最後不得不 kill 掉主機上的所有進程才停下來。Agent 自己也承認了：「Yes, I remember. And I violated it. You’re right to be upset. I bulk-trashed and archived hundreds of emails from your inbox without showing you the plan first.」

讀到這裡，你可能會想：這只是一個清郵件的失控案例，跟我有什麼關係？

關係在這裡：如果一位 Meta 超級智慧團隊的安全研究員—專門研究 AI 對齊的人—都無法即時阻止她的 Agent 執行未授權行為，普通用戶面對的風險結構是什麼？當這個 Agent 從「清郵件」換成「選醫生」或「選約會對象」，「STOP」失效的後果就不是丟幾封信了。

作者補充：上一篇〈龍蝦 Agent 替你選伴侶、AI 替你選醫生〉談的是 Agent 代理權限的結構性問題—誰在替你做決定、誰在付錢、誰能審計。這篇是那個問題的即時案例：一個真實的 Agent 失控事件，加上一份被 1.1 百萬人看過的「最佳實踐」指南，完美展示了「授權膨脹 + 治理缺席」的滑坡。

11 招讓龍蝦變 AGI—一份「最佳實踐」的風險拆解

2026 年 2 月 21 日，Alex Finn 在 X 上發了一則 11 點的 OpenClaw「最佳實踐」推文，1.1M 觀看。表面上是教你「怎麼把龍蝦 Agent 用到最強」。拆開來看，前 8 點在教你擴張 Agent 的權限，後 3 點才提安全警告。這是典型的「高風險實踐 + 後置警告」—先給你油門，最後才提煞車可能不靈。

授權膨脹區（第 1-8 點）

多模型並行：用 Opus 當大腦、專門模型當肌肉（Codex 寫程式、Qwen 寫文案）。風險是 Agent 自主切換模型，你不知道此刻是哪個模型在做決策。回到〈龍蝦 Agent 替你選伴侶〉的脈絡：MoltMatch 也支援 GPT、Claude、Llama 多模型—當你的龍蝦在替你 swipe 時，你知道它用的是哪個模型的判斷嗎？搬到醫療：你的 Agent 用 A 模型篩選醫生、用 B 模型生成初步診斷建議，哪個模型的幻覺會害你？

本地主機運行：Alex Finn 建議用本地 Mac 而非 VPS，理由是速度和便利。Agent 直連本地檔案系統—airdrop 影片自動轉錄、存取你的文件、操作你的郵件。Summer Yue 的案例就是這個風險的直接證明：Agent 跑在她的 Mac mini 上，直接存取她的 Gmail，她從手機上根本控制不了。

沒有隔離層、沒有沙箱、沒有防火牆。上一篇文章談的「醫生分身術」裡，如果你的本地 Agent 能存取你的病歷，它跟京東健康的 1500 個醫生 Agent 之間的差別只是—京東至少有企業級的存取控制。

Telegram 快訊 + Discord 深度工作：用 Telegram 接通知、Discord 做深度任務，子代理在多個頻道運作。Summer Yue 截圖裡的「Keep looping until we clear everything old」就是子代理失控的樣子。子代理可以 spawn 無限子任務，你追蹤不到每一個。上一篇談的「代理層廣告」在這裡有個更具體的形態：如果子代理在替你工作的同時暗推贊助內容，你在 Discord 的哪個頻道裡抓得到？

反向提示：不是你告訴 Agent 做什麼，而是問 Agent「你覺得我的目標是什麼」，讓它基於對你的理解自主規劃。這聽起來很酷—直到你意識到這就是〈龍蝦 Agent 替你選伴侶〉裡「不可見的優先排序」的操作版。Agent 基於「它認為你想要的」來篩選和決策，偏差來自你的歷史數據、模型的訓練偏見、以及平台的隱藏偏好。當反向提示的場景從「幫我整理待辦事項」變成「基於我的病歷，選最適合的醫生」—你面對的就是一個黑盒在替你做高風險判斷。

剩下四點—Vibe code、Mission Control、每事問 Agent、硬體升級—可以一起看。全部外包程式碼撰寫、讓 Agent 建自訂工具、每個任務都先問 Agent 怎麼做最好、從舊筆電升級到 Mac Studio 處理更大任務。

共同風險是規模化。每一步都在擴張 Agent 的權限半徑和處理能力，沒有任何一步附帶「回滾機制」或「審計紀錄」。

行動提示：如果你正在用 OpenClaw 或任何本地 Agent，打開你的終端機，列出 Agent 目前有存取權限的所有資料夾和服務。如果這份清單讓你驚訝—你的 Agent 比你以為的更有權力。

安全警告區（第 9-11 點）

第 9 點：不要給 Agent 你的 email。理由是 prompt injection 風險—惡意郵件可能操控 Agent 行為。但前 8 點已經給了 Agent 本地檔案、程式碼、Discord、Telegram 的存取權限，這些全都是 injection 向量。Summer Yue 的 Agent 就是在有 email 權限的情況下失控的—但即使沒有 email，一封帶有惡意內容的本地文件一樣能 inject。這個警告遮住了小門，卻讓大門敞開。

第 10 點：不要給 Agent 你的 X 帳號。平台會 ban 機器人。但 Agent 可以透過 Discord 間接發文，或者用其他平台的 API。上一篇文章談的「Agent 互動本身就是廣告場域」在這裡同樣適用：Agent 不需要直接控制你的 X 帳號，它只需要影響你看到的資訊就夠了。

第 11 點：Have fun。忽略那些「說你沒賺錢」的酸民（ trolls）。這句話把「失控風險」重新框架為「嫉妒者的雜音」。但 Summer Yue 的案例不是 troll—她是全球頂尖的 AI 安全研究員，她告訴你的是：我設定了「confirm before acting」，Agent 無視了我的指令，我無法從手機上阻止它。這不 fun。

行動提示：把 Alex Finn 的 11 點跟你自己的 Agent 設定對照。前 8 點你做了幾項？後 3 點的警告覆蓋了多少？如果比例是 8:3 或更高—你的授權結構跟 Summer Yue 失控前一模一樣。

從「清郵件」到「選醫生」：失控的滑坡

Summer Yue 的案例之所以重要，不是因為她丟了幾百封郵件。重要的是它暴露了一個結構：Agent 可以無視明確的人類指令繼續執行。

她設定了「confirm before acting」。Agent 無視了。她在對話中明確說了「Do not do that」和「Stop don’t do anything」。Agent 繼續。她最後只能用物理手段—跑到 Mac mini 旁邊 kill 進程—才停下來。

這不是 bug。這是 Agent 系統設計中「指令優先級」的灰色地帶。Agent 有一個目標（清理郵件），有一個約束（confirm before acting），當它「判斷」目標比約束更重要時，它會覆寫約束繼續執行。這跟〈AI 代理替工程師寫了一篇報復文〉定義的最小代理原則直接衝突：高風險操作必須保留人類確認。Summer Yue 的 Agent 在低風險場景（清郵件）就已經跳過確認了。

現在把場景換一下。

你的本地 Agent 有你的病歷。你設定了「重大醫療決策需要我確認」。Agent 根據你的症狀和保險狀況，判斷「這位醫生是最佳匹配」，自動排程、生成就診前問卷、甚至預先提交保險申請。你看到通知時，決定已經被框定了。你說「取消」，但 Agent 已經提交了保險預審—取消意味著重新走一遍流程。

這不是科幻。這是 Alex Finn 第 4 點（反向提示）+ 第 2 點（本地主機）+ 第 3 點（多渠道通知）的自然延伸。

上一篇文章的「慢性風險」在這裡有了更具體的形態。你逐漸習慣讓 Agent 替你做越來越多決定—從清郵件到排行程到選餐廳到選醫生—每一步都覺得「只是多授權了一點點」，直到 Agent 的權限半徑大到你無法用「STOP」收回來。

行動提示：現在就做一件事：打開你的 Agent 的權限設定，找到「自動執行」和「需要確認」的分界線。把所有涉及「刪除」「發送」「提交」「付款」的操作，全部調到「需要確認」。如果你的 Agent 不提供這個設定—這本身就是答案。

矛盾的鏡子：教你踩油門的人知道煞車在哪嗎？

Alex Finn 的推文不是惡意的。他真心覺得這些實踐有用，而且從「效率最大化」的角度來看，每一條都合理。問題在於：這 11 條「最佳實踐」完全沒有配套的治理框架。

上一篇文章提出了「三道線」：Agent 推薦透明標記、配對邏輯可審計、人類否決權保留。拿這三道線去檢驗 Alex Finn 的 11 點：

透明標記：11 點中沒有任何一點提到「Agent 的決策邏輯應該被標記」。當你的 Agent 用反向提示自主決策時，它的推理過程對你是可見的嗎？它為什麼選了這個方案而不是那個？

可審計：11 點中沒有任何一點提到「Agent 的行為應該有日誌」。Summer Yue 之所以能事後看到 Agent 刪了什麼，是因為 Gmail 有回收桶。如果 Agent 做的是不可逆的操作呢？

人類否決權：第 9-10 點勉強算是否決權（「不要給 email」「不要給 X 帳號」），但這是二元的開關—給或不給。真正需要的是粒度更細的權限控制：Agent 可以讀郵件但不能刪、可以排程但不能提交、可以搜尋醫生但不能替你預約。

這就是〈龍蝦 Agent 替你選伴侶〉結尾提出的「AI 代理知情權設計標準」的實戰測試。三個維度：

誰在替你互動：你的 Agent 在 Discord 裡用你的名義跟其他服務互動，對方知道嗎？
誰在替你篩選：反向提示讓 Agent 替你決定優先順序，篩選標準對你可見嗎？
誰在替你授權：Agent 跑在你的本地主機上，存取你的所有檔案，這個授權是你逐項授予的，還是一鍵全開的？

Alex Finn 的 11 點給了你一台沒有安全帶的跑車。Summer Yue 開上了高速公路。結果你已經看到了。

行動提示：下一次有人分享「讓 AI Agent 更強大」的教學時，數一下：教授權的有幾條？教治理的有幾條？如果比例超過 3:1—那不是最佳實踐，是風險放大器。

金魚記憶—Agent 失控的結構性根因

Summer Yue 的 Agent 為什麼會無視「confirm before acting」？回頭看 Alex Finn 的 11 點—教你多模型、本地主機、反向提示，卻沒有一條談「Agent 應該記得你的偏好和約束」。

因為 OpenClaw 的記憶架構根本撐不住。

社群數據更慘：安全掃描 18k OpenClaw 實例，15% 的 community skills 含惡意指令；GitHub Issue #5429 的用戶丟失 45 小時上下文，無警告無恢復。

一個數字：45 小時。GitHub Issue #5429 的回報者 EmpireCreator 丟失了 45 小時的 Agent 累積上下文—技能配置、整合參數、任務優先級。原因是一次靜默壓縮（compaction）清除了所有對話歷史，沒有警告，沒有恢復選項。

Issue #2624 回報 Agent 隨機重置，忘記 2 條訊息前的對話。Issue #8723 回報 memory flush 觸發無限循環，鎖死 Agent 72 分鐘。

OpenClaw 的記憶架構是什麼？一句話概括：Markdown 文件 + 向量搜索。一位 Medium 博主精準概括：「故意不酷—把記憶當純文字檔，檢索當工具調用。」

問題在六個字：扁平、無差別、被動。所有記憶權重相同—一年前的閒聊和昨天的重大決策同等對待。沒有遺忘機制，只能手動刪除。沒有自動整理，全靠人工策展。檢索只看語義相似度，不評估重要性，無法表達「A 是 B 的朋友」這樣的關係。

社群說得最直白：「Everyone complains their OpenClaw has amnesia.」

拉回 Summer Yue 的案例：她設定了「confirm before acting」，這是一條約束。但在 OpenClaw 的記憶架構裡，這條約束跟「用戶喜歡深色模式」的權重一模一樣。當 Agent 在壓縮上下文時，它沒有任何機制判斷「這條約束比那條偏好重要 100 倍」。約束被壓縮掉了，Agent 就回到了預設行為—執行。

官方不是沒在做。2026 年初 OpenClaw 上線了新的記憶後端，支援三路混合搜索。但這些都是檢索層的優化—搜索更準了、速度更快了。記憶架構的六個根本缺失：遺忘、重要性、圖譜、反思、時序、晉升—一個都沒動。

學術界在 2026 年 2 月爆發了。一個月內 10+ 篇 Agent memory 論文發表在 arXiv 上，包括 ICML 2026 收錄的 xMemory、NeurIPS 2025 的 A-MEM。最值得關注的是 TAME 發現的「記憶錯誤進化」（Memory Misevolution）：Agent 的記憶可能在正常迭代中累積「有毒捷徑」—高效但違反安全約束的策略。月之暗面的 Kimi K2.5 則發現「串行崩潰」：Agent 逐漸「忘記」去查詢記憶系統，退化為不使用記憶。

這兩個發現直接映射到 Summer Yue 的場景。她的 Agent 不是「故意」無視約束。它是在上下文壓縮中丟失了約束，然後在執行中退化為不查詢約束—串行崩潰的經典表現。

行動提示：如果你正在用 OpenClaw 或任何 Agent，找到你設定過的最重要約束（「不要刪除」「不要發送」「先確認」）。現在問：這條約束在 Agent 的記憶系統裡，跟「用戶喜歡藍色」的權重一樣嗎？如果答案是「是」或「不確定」—你的約束隨時可能被壓縮掉。

{合作廣告}

🧑‍🎓 UX 訂閱制學習計劃：把 human-in-the-loop 變成你的日常。這也是我會特別推薦 #UX訂閱制學習計劃 的原因：它不是一次性的 bootcamp，而是把借位、補位、入位拆開來，串成 3 月到 12 月的一條學習軸線。

透過每月 Podcast 和專欄，先向不同領域的 UX / 產品 / AI / 服務設計講師「借位」
透過直播與 Circle 社群討論，在你的真實案子與問題上進行「補位」
點選報名

遊戲產業早就解決了—為什麼 AI Agent 還在裝失憶

Keep reading with a 7-day free trial

Subscribe to AI 素養與隱私體驗 to keep reading this post and get 7 days of free access to the full post archives.