[讀者回函] LLM 的盲點將現：世界模型與 AI-UX 轉型的流程策略

The LLM Blind Spot: Your Strategic Guide to World Models and AI-UX Transformation

Dec 16, 2025

你現在手上的 AI 產品，幾乎都綁在 LLM 上：對話、生成、總結樣樣來。但你越用越心虛

模型懂字、不懂世界；
一旦離開聊天框，進到真實介面和流程，就開始亂講、亂引導；
團隊只會寫 prompt，不會設計「AI 真的看得懂的 UI 世界」。

你其實不是在問「要不要跟 LeCun 站在一起反 LLM」，而是在問： 「如果世界模型真的來了，我現在這條 LLM 路線會不會變成技術債？」

深度學習教父 Yann LeCun 直言不諱：「如果只透過文本訓練，我們絕對不可能達到人類級別的 AI，這永遠不會發生。」LeCun 的挑釁式論斷，不一定都對，但提醒我們一個事實：只靠文字，很難讓 AI 真的「看到」世界。曾被問及為何年屆 65 歲仍不退休，他堅定地回答：「因為我有一個使命。我一直認為，無論是讓人們變得更聰明，還是透過機器讓人們更具智慧，增加世界的智慧含量本身就是一件好事。」

對他而言，真正的研究，是開放、透明的：「在我看來，除非你發表你的工作，否則你不能稱之為研究，因為否則你很容易被自己愚弄。」這種「逆流而上」的姿態，不僅定義了他身為卷積神經網絡（CNN）發明者、PyTorch 發展推手、圖靈獎得主的傳奇地位，更劃清了他在 AI 發展道路上的鮮明立場。LeCun 不相信一個模型需要重現現實中的每一個細節，他強調：「一個模型需要重現現實中每一個細節的想法是錯誤且有害的。」他更看重抽象化與對真實世界的根本理解。

在你現有 AI-UX 工具上，多走半步

如果把現在團隊的 AI 能力盤點一下，你大概會發現這種圖景：

Figma Make / First Draft：幫你生成 wireframe、元件、UX copy。
Relume：幫你 60 秒生出整站 sitemap 和 wireframe，然後一鍵丟回 Figma / Webflow。[8]
MagicPattern：幫你生 hero 圖、背景 pattern、視覺素材。
UXPilot / MagicPath：幫你用 LLM 腳本化 persona、user flow、對話文案。
Mobbin：幫你查到「別人怎麼做這個 flow」，從 30 萬＋真實畫面裡抄對的 pattern。[2]

它們都很有用，但全部停留在「靜態產出」這一層：畫面、文案、流程圖。真正的風險在於：沒有任何一個工具在幫你回答——「使用者實際點完這些畫面之後，AI 看到的是什麼世界？」

精準診斷：LLM 智能助理的導航困局

你可能也遇過這種場景。根據 Nielsen Norman Group 2020 年的大規模可用性研究，Siri、Alexa、Google Assistant 在複雜任務上的失敗率高達 60% 以上。

一個典型的失敗案例：用戶告訴 Siri「在休斯頓，現在天氣怎樣？」它能理解；但如果改成「現在在休斯頓天氣怎樣？」，Siri 會在「現在」就截斷對話，然後說需要打開位置服務。

更嚴重的是：Google Assistant 有時會誤觸跳轉到其他 skill（應用）。一個用戶請求「前往 Moss Beach 的路線」後，Google Assistant 說「你可以用 Solar Flair…」然後直接進入了一個陌生的 UV Index 預報應用。用戶完全被搞懵。

問題的本質是什麼？LLM 型的語音助理完全看不到螢幕、看不到使用者目前在哪個介面，只能「猜測」。它能回答文字問題，卻對「你現在的世界狀態是什麼」一無所知。所以即使回答對了，也常常無法提供符合螢幕上下文的指引。

這正是你現在的痛點：你的智能產品能講話，卻看不見世界。

處方一：你要不要押世界模型？先看「風險結構」

對你來說，風險不是「AI 技術錯了」，而是「路線錯了」。如果你只押 LLM，三年後會遇到三種結構性風險：

模型只能在聊天框裡發揮，離開文字就失能（物理、介面、流程全看不懂）。LeCun 說：「LLM 完全不擅長處理高維度、連續且嘈雜的模態數據。」[4]
安全與隱私只能靠輸出過濾，沒有「預測後果、內建約束」的規劃能力。他強調，AI 系統必須「透過內建約束來保證其行為不會危及任何人或產生負面副作用。」[4]
團隊全部訓練在 prompt／文案上，沒有人會設計「AI 看得懂的世界」。這會讓你在需要多模態感知時，完全沒有內部 seed 團隊可以接。

押世界模型也不是免費的勝利。短期內，你會多背兩種風險：

資料側：你能不能拿到足夠乾淨的螢幕序列來訓練？
架構側：你的 UI 和後端管線，有沒有乾淨的狀態定義可以對齊？

換句話說，這不是「拋棄 LLM 換世界模型」，而是「在現有 LLM 堆一層感知與狀態結構」，你仍然要算成本。

處方二：具體怎麼落地 UI-JEPA 思路？對齊你已經在用的工具

如果你要在現有 LLM 產品裡，補上一層「世界模型」，可以直接照這個三層結構想：

第 1 層：界面感知層（UI-JEPA 類）
- 輸入：螢幕錄影＋互動事件。
- 任務：把「亂七八糟的畫面」壓成少量抽象狀態（目前在哪個頁面、任務走到哪一步）。
- 典型 owner：前端／資料工程＋ ML
- 工具對照版：用 Relume / Figma 先產出 sitemap 和關鍵畫面，搭配 Mobbin 把常見 flow 的關鍵狀態標成 3–5 類（例如：首頁、搜尋中、結帳中、錯誤頁）。技術上，不一定要 JEPA，一開始可以只是「畫面截圖 → 分類器」，把實際螢幕錄影自動對應到這幾個狀態。[8][2]
第 2 層：任務與意圖層（小型 LLM）
- 輸入：抽象狀態序列。
- 任務：判斷「使用者想幹嘛」、「任務有沒有成功」。
- 典型 owner：ML／資料科學
- 工具對照版：把這條「狀態序列」丟給你原本就用的 LLM（UXPilot、MagicPath 背後的模型），要它多做一件事：總結「這個 session 的任務是什麼、最後有沒有成功」。
第 3 層：對話與決策層（現有 LLM／代理）
- 輸入：意圖＋任務狀態。
- 任務：決定要不要插手、給什麼建議、下一步開哪個畫面。
- 典型 owner：LLM 團隊＋產品／設計

這種三層架構的重點是：讓決策者看到「我只要在現有 LLM 堆疊一層 UI-感知模組，就可以開始世界模型的過渡」，而不是被一堆 masking、embedding 嚇退。[10]

如果你只有一支小團隊，最務實的做法是：先讓「現有 LLM 小組」兼任第 2、3 層，把第 1 層外包為一個明確的 data/infra 專案，而不是全部同時自建。

案例處方：用兩個具體場景說「照著跑會發生什麼」

案例一：客服 App 的「不迷路導覽」

症狀描述（用 PM 的語言）： 現在的智能客服可以回答所有 FAQ，但是：

用戶照著做，常常「走錯路」：按錯 tab、進錯設定頁。
LLM 完全看不到畫面，只能重複同一句話：「請到設定 → 通知」。

處方：加一層 UI-JEPA 式感知

現況
- 你用 Relume 生成客服網站的 sitemap 和 wireframe，再丟回 Figma 調整。[8]
- 你上 Mobbin 查「notification settings」的最佳實踐，照著別人的 flow 畫出「請到設定→通知」那幾步。[2]
- 你用 UXPilot / MagicPath 幫 chatbot 寫引導 script。
- 結果：用戶還是常常走錯 tab，bot 只能一遍遍重複同一句話。
多做的那半步
- 在 Relume / Figma sitemap 裡，選出 3–4 個關鍵畫面：
  - A：主畫面；B：設定但不在通知；C：通知設定；D：離開 App。
- 把真實客服 session 的螢幕錄影，交給一個簡單的「畫面 → A/B/C/D」分類器（可由外部 ML 夥伴實作）。
- 每當 chatbot 回覆時，多看一眼「目前狀態」。
- 如果連續 3 步都卡在 B，就自動切換成「一步一步帶你回主畫面」模式，而不是重複 FAQ 文案。

設計系統團隊的具體行動

把這個「客服不迷路」案例透過設計系統的眼光重新看，各個角色要做什麼？

UI Designer：在 Figma / Relume sitemap 裡，給「主畫面」「進入設定」「通知頁」明確的視覺標識，讓 AI 分類器即使拿到模糊或殘損的螢幕截圖，也能識別。
Interaction Designer：設計「AI 介入」的微互動：使用者走錯路時，不是突兀的 toast 通知，而是用動效引導回主路徑。
User Researcher：收集 100+ 真實客服 session 錄影，標註「使用者意圖」（例如：想關閉通知）與「失敗點」（例如：在 Wi-Fi 設定卡 3 分鐘）。這些資料是 UI-JEPA 的「世界觀訓練集」。
Prototype Designer：用 Figma prototype 模擬「有 AI 感知」vs「沒 AI 感知」的兩個版本，讓 PM 用定量指標來決定是否投資。

這樣你的設計系統就從「靜態元件」升級到了「可感知、可預測、可評估」的動態系統。

交付物與驗收標準：

1 份「任務狀態圖」＋ 1 個簡單 UI-classifier 模型。
測試指標：
- 任務完成率提高 X%（例如：從 70% 提高到 85%）。
- 「走錯頁面超過 3 次才完成」的使用者比例下降 Y%（例如：從 20% 壓到 10% 以內）。

感覺是「一個季度內可以試水溫的專案」，而不是遙遠的世界模型願景。

風險與退出條件：如果三個月內，任務成功率改善 < 5% 或資料覆蓋率仍不足 30%，就暫停擴展，重新檢查資訊架構與流程設計，而不是繼續加模型。

案例二：醫療預約流程的「自動標記可用性問題」

症狀描述：

你知道預約流程很難用，但每次 usability test 成本高；
後台只有 event log，卻不知道「到底在哪個畫面大家放棄」。

處方：用 UI-JEPA 思路做「被動觀察」

現況
- 做醫療預約專案時，你會：
  - 上 Mobbin 看「healthcare / booking」類 app，抄幾個不錯的 flow 當靈感。[2]
  - 用 Relume / Figma 把預約流程畫成 sitemap 和高保真頁面。
  - 做 5–10 場 usability test，再寫報告。
多做的那半步
- 把這些遠端測試的螢幕錄影和點擊紀錄整理出來。
- 依照你在 Mobbin 看到的標準作法，把流程切成 4–5 個節點：登入 → 選診所 → 選時段 → 填基本資料 → 確認 → 流失。
- 交給一個簡單的模型，「畫面 → 節點」，每天自動數：哪個節點掉人最多。
- 每週把這張「漏斗熱點圖」放進顧問報告，變成付費 deliverable。

交付物與驗收標準：

每週一份「預約漏斗熱點」報告（自動生成）。
驗收：3 個月內，最壞節點的中途放棄率下降 X%（例如：從 30% 降低到 15%）。

這種案例的重點不是技術細節，而是「有沒有把混亂轉成固定節奏的交付物」。

風險與退出條件：如果模型無法穩定把畫面分類到 3–5 個核心節點（準確率低於 80%），先回頭重構流程切點，而不是盲目增加網路深度。

設計團隊協作指南：拆解「UI 世界感知」的設計角色

當我們談論將「UI 世界感知」融入 AI 產品時，這不是單一設計師的任務，而是整個設計團隊的協作。這裡我為你拆解各個角色的具體職責和協作方式：

用戶研究員：
- 診斷：不再只是收集用戶的語言回饋，更要深入理解他們在介面中的實際行為模式，以及行為背後隱藏的意圖。
- 處方：與 介面設計師 緊密合作，共同定義核心用戶任務和關鍵路徑。利用螢幕錄影、眼動追蹤等工具，收集大量真實用戶互動數據，並協助標註這些數據中的「用戶意圖」和「狀態轉變」。他們的工作是為 UI-JEPA 提供高品質的「世界觀數據」。
- 交付物：詳細的用戶任務圖、關鍵意圖標註規範、可用性測試報告中新增的「意圖與狀態流失點」分析。
介面設計師 (UI Designer)：
- 診斷：不只設計靜態美觀的畫面，更要設計出「AI 可理解」的介面元素和狀態。
- 處方：與 互動設計師 協作，將複雜的 UI 流程簡化為清晰、可識別的「狀態節點」。例如，一個購物流程可以被拆解為「瀏覽商品」、「加入購物車」、「結帳填寫」、「支付成功」等關鍵狀態。他們需要為每個狀態設計明確的視覺標識，確保即使是 AI 也能一眼「讀懂」畫面所處的階段。運用 Relume / Figma 等工具，產出帶有清晰狀態定義的 Sitemap 和 Wireframe。
- 交付物：帶有狀態註釋的 Sitemap、清晰的關鍵畫面設計、易於 AI 識別的元件規範。
互動設計師 (Interaction Designer)：
- 診斷：不僅規劃用戶的點擊路徑，更要設計 AI 能「預測」和「引導」的互動流程。
- 處方：與 動效設計師 和 原型設計師 協作，為每個 UI 狀態轉變設計流暢且預期性高的互動。他們需要思考如何透過互動設計，讓用戶意圖更明確地被 AI 捕捉，同時在 AI 預測錯誤時，如何提供溫和、有效的引導機制。他們的工作就像是在為 AI 設計「腳本」，讓 AI 知道在不同「世界狀態」下該如何反應。運用 Mobbin 分析他人成功的互動模式，並在原型中融入「AI 可感知」的互動微調。
- 交付物：帶有 AI 感知點的互動流程圖、狀態轉換原型、用戶引導機制設計。
原型設計師 (Prototype Designer)：
- 診斷：不只製作可點擊的原型，更要製作能「模擬 AI 感知」的互動體驗。
- 處方：與 互動設計師 協作，將介面設計師提供的靜態畫面和互動設計師提供的流程，組合成可測試的、包含「AI 反饋」的原型。例如，在原型中模擬當 AI 偵測到用戶「走錯路」時，會如何彈出提示或調整介面。他們需要確保原型能夠模擬出 AI 世界模型的感知層對用戶行為的反應，以便用戶研究員進行早期測試。
- 交付物：具備 AI 感知模擬的互動原型、用戶測試腳本中加入「AI 引導效果」的評估點。
動效設計師 (Motion Designer)：
- 診斷：不只創造視覺上的流暢感，更要利用動效來「強化 AI 的意圖表達」與「用戶對 AI 狀態的理解」。
- 處方：與 互動設計師 協作，設計能清晰傳達 AI 預測、引導或反饋的微動效。例如，當 AI 成功預測用戶意圖並預先加載某些內容時，可以設計一個平滑的過渡動效。當 AI 提供引導時，動效可以幫助用戶更快地理解新的操作建議，減少認知負擔。他們的工作是讓 AI 的「智慧」在視覺上變得「有感」。
- 交付物：AI 反饋動效規範、狀態轉換動效設計。

透過這樣的協作模式，設計團隊不再只是獨立作業，而是形成一個緊密相連的迴圈，共同為 AI 產品建立一個「可感知、可預測、可引導」的 UI 世界。這不只是技術的進步，更是設計師思維的一場「心智革命」。

新思維：從「靜態元件庫」到「動態狀態系統」

傳統設計系統教我們：定義元件、風格、排版。但一旦 AI 開始參與介面決策，設計系統的邏輯需要進化。

根據最新的設計系統研究，所謂的「AI Experience Patterns」不再只是定義「UI 長什麼樣」，而是定義「UI 怎麼想」：

換句話說，你現在的 Figma 元件庫，需要多加三個層次的定義：

記憶 (Memory)：系統記得什麼（單次 session、長期、集體）。
自主性 (Autonomy)：系統有多少決策權（輔助、協作、完全自主）。
情境 (Context)：系統怎麼理解情況（環境、情緒、操作）。

這不是學術名詞，而是說：你的設計系統從靜態的「長什麼樣」進化到動態的「怎麼想、怎麼看、怎麼反應」。

這正是世界模型思維要介入的地方。

隱藏的組織風險：誰來負責「螢幕狀態定義」？

這是最容易被忽略的一個坑。傳統 UX 團隊的職責清晰：UI Designer 負責視覺，Interaction Designer 負責流程，User Researcher 負責驗證。

但「AI 怎麼理解螢幕狀態」這件事，沒有人天生負責它。你需要明確指定：

誰來定義「什麼是狀態轉變」？ → 通常是 Interaction Designer + User Researcher 的合作產物
誰來標註訓練資料？ → 需要獨立的「Data Annotation 角色」，或委外
誰來驗收「AI 的理解」是否正確？ → 需要 QA + UX 的協作

如果你現在的組織圖裡沒有上面這三個「責任交點」被明確畫出來，你的 UI-JEPA 試驗會變成「誰都可以做、誰都不負責」的爛尾專案。

成本啟示：如果要真正執行，你需要在現有 UX 團隊裡新增或重新分配 1–2 個「全職 FTE」來專門處理「狀態定義與標註」，這至少是額外的 10–15 萬美元 / 年（視地區和薪資）。

給設計師的警告：LLM 工具正在掩蓋一個根本問題

如果你最近一直在用 Figma AI、Relume、MagicPath 這類工具，你可能感覺效率大幅提升：60 秒生出一整個 sitemap、自動寫 copy、一鍵生圖。但這些工具的成功，其實掩蓋了一個更深層的問題。

根據 2025 年發表在 Elsevier 的系統文獻回顧，針對「LLM 在 UI/UX 設計中的應用」進行的 100+ 篇論文中，絕大多數都指向同一個問題：LLM 擅長「生成靜態畫面」，卻不擅長「理解動態流程」。

最常見的評論是：「當前的工具只能幫你搜出視覺上相似的設計，卻沒有捕捉應用的語義、使用者流程或螢幕在整個任務中的角色。」

設計師們在 Mobbin 上找靈感時，常常說：「我看到了很多 UI，但看不到它們在『使用者旅程』中的位置。」

這就是你為什麼開始心虛的原因。你用工具越來越快地產出設計，卻越來越不確定：AI 真的理解這些畫面所代表的「世界」嗎？

業界正在悄悄往這個方向走

你可能沒有注意，但 Apple、NVIDIA、Meta 等巨頭最近在大力投資的「物理 AI」與「World Foundation Models」，正在悄悄改變整個 AI 研發的方向。

V-JEPA 2（Meta 的最新世界模型）在 1.2 億參數的規模上，用 100 萬小時的影片訓練後，已經能預測機器人在陌生環境中的互動結果，準確率比傳統強化學習高出 40%。

更重要的是時間線：

2024 年上半年：Apple UI-JEPA 論文發佈，開始在 iOS 18 測試。

2025 年中期（現在）：Meta V-JEPA 2 開源；Google 悄悄在 Android 助理中試驗狀態感知層。

預計 2026 年中期：主流廠商開始在商用產品中內建「螢幕狀態認知」作為標準配置。

換句話說，你現在的 18–24 個月窗口不是「未來可能」，而是「現在必做」。

三個「沒有退路」的起手式問題：現在就開始思考 AI 產品的未來

以下問題沒有「中立答案」。如果你無法清楚作答，代表你現在已經處於「盲人騎瞎馬」的狀態。

「我們今天如果要在 2 週內檢測：『客戶現在在應用的哪個步驟卡最久』，能做到嗎？」

如果能：你已有「狀態基礎」，可以直接進入 UI-classifier 試驗。

如果不能：你的「世界感知」完全缺失，現在只是在運氣上賭注。

「我們的 UX 團隊裡，有誰能解釋『為什麼這 5 個畫面可以讓 AI 準確分類出「使用者放棄了」』？」

如果有人能講清楚：你的設計系統已經開始向「AI 友善」進化。

如果沒有人能講：你的設計再美，AI 也看不懂。這跟蓋房子時沒人想過「機器人管家要怎麼在裡面活動」一樣。

「如果我們要透過 UI-JEPA 思路做一個試驗專案，我們有沒有『可以標註意圖』的真實使用者螢幕錄影？至少 50 個 session？」

如果有：可以立刻開始。

如果沒有：你需要先投資 6–8 週的「資料收集與標註流程」設計，才能開始試驗。這代表真實的前置成本。

快速自檢：你現在有多「心虛」？

勾選以下適用於你的情況：

☐ 我們的 AI 產品用了 LLM，但客服團隊經常反映：『它給的指引沒錯，但根本沒看清楚使用者現在在哪個畫面』

☐ 我們用 Figma / Relume 很快地做了 20+ 個頁面，但沒有人能清楚解釋『這些頁面之間，AI 怎麼區分彼此』

☐ 每次可用性測試，我們都發現 AI 的引導『技術上沒錯，但不符合脈絡』，解決方案就是『改 prompt』或『加更多例子』

☐ 我們完全沒有「螢幕狀態」或「UI 互動序列」的結構化資料。所有的使用者行為分析都只停留在事件 log 層次。

☐ 我們在 Mobbin 或其他設計庫裡看到最佳實踐，但無法自動檢測自己的產品是否達到那個標準。每次都是人工看，很耗時。

☐ 如果有人提到『把螢幕變成 AI 能預測的世界』，我們的團隊要嘛一臉茫然，要嘛立刻說『這太複雜了，超出預算』。

勾選結果

0–1 項：你走運，暫時還沒進入「盲點區」。但不要睡著，窗口在縮小。

2–3 項：你應該立刻組織一個「UI 感知層試驗」，時間不多了。

4–5 項：你現在的做法已經是技術債。不是「要不要改」，而是「什麼時候改」。

6 項全勾：坦誠地說，你的 AI 產品現在像是「有聲音但沒眼睛的人」。18 個月後，業界標配都是「有眼睛」的，你會被遠遠甩在後面。現在改革還不晚，但窗口真的在關。

引文來源：本摘要內容來自所提供的音頻轉錄文字。

參考文獻

Apple Machine Learning. (n.d.). UI Intent. Retrieved from https://machinelearning.apple.com/research/ui-intent
Aslan, E. (2024, August 29). Mobbin: The ultimate UI/UX design reference library for modern designers. Retrieved from https://eyuphanaslan.com/2024/08/29/mobbin-the-ultimate-ui-ux-design-reference-library-for-modern-designers/
BDTechTalks. (n.d.). UI-JEPA: Designed by Apple, inspired by Yann LeCun. Retrieved from

TechTalks

UI-JEPA: Designed by Apple, inspired by Meta, built on Microsoft

Researchers at Apple recently introduced UI-JEPA, a model that can analyze user intent by processing sequences of user interface screenshots. At 4.4 billion parameters, UI-JEPA outperforms frontier models in understanding user intent, and it does so with a fraction of the model size and without the need to send data to the cloud…

a year ago · 6 likes · 1 comment · Ben Dickson

LeCun, Y. (n.d.). Yann LeCun. Wikipedia. Retrieved from https://en.wikipedia.org/wiki/Yann_LeCun
Marr, B. (2024, April 12). ‘Generative AI Sucks!’ Meta’s Chief AI Scientist Calls For A Shift To Objective-Driven AI. Forbes. Retrieved from https://bernardmarr.com/generative-ai-sucks-metas-chief-ai-scientist-calls-for-a-shift-to-objective-driven-ai/
Meta AI. (n.d.). Yann LeCun: The AI Model I JEPA. Retrieved from https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/
Quantum Zeitgeist. (n.d.). LeCun: Meta AI & AI Research. Retrieved from https://quantumzeitgeist.com/lecun-meta-ai-ai-research/
Relume. (n.d.). Relume. Retrieved from

https://www.relume.io

Towards AI. (n.d.). Inside World Models And V-JEPA: Building AI That Predicts Reality. Retrieved from https://pub.towardsai.net/inside-world-models-and-v-jepa-building-ai-that-predicts-reality-b24d3050be5c
UI-JEPA: Towards Active Perception of User Intent through Self-Supervised Learning from UI Interactions. (2024). arXiv. Retrieved from https://arxiv.org/abs/2409.04081

Joshua 是 Agentic UX（代理式使用者體驗）的先驅，在人工智能與使用者體驗設計領域擁有超過 15 年的開創性實踐。他率先提出將用戶隱私保護視為 AI 產品設計的核心理念，於 2022 年創立 Privacyux Consulting Ltd. 並擔任首席顧問，積極推動隱私導向的醫療 AI 產品革新。此前，他亦擔任社交 AI 首席策略官（2022-2024），專注於設計注重隱私的情感識別系統及用戶數據自主權管理機制。

AI 素養與隱私體驗

Discussion about this post

Ready for more?