[思想前沿]:AI已邁入"體驗時代"—解讀Silver與Sutton的願景
Beyond Imitation's Station: AI's Experiential Foundation – Unpacking Silver & Sutton's Vision
引言:從模型到體驗的典範/範式轉變
人工智慧(AI)技術正在經歷一次範式轉變,從依賴人類資料的"模仿時代",正在邁向以自主互動與體驗為核心的"體驗時代"。Google DeepMind 的David Silver 和強化學習泰斗Richard S. Sutton 在前瞻性論文《體驗時代》(Welcome to the Era of Experience)中為我們描繪了這一轉變願景。儘管目前這篇文章可能尚未引起如ChatGPT發布時那樣的海嘯式社會反響,但其深刻洞見為我們理解AI的下一階段發展方向投下了一束強光。本文旨在解讀這典範/範式轉變,探討AI如何通過與環境的持續互動獲得"超人能力",以及這將為科學、教育、健康等領域帶來的變革與挑戰。
Welcome to the Era of Experience 原文出處
人物
David Silver,這位前DeepMind(現Google DeepMind)的傑出研究員,是AlphaGo、AlphaZero等里程碑式AI的主要締造者之一,他的工作一次次向世界證明了機器智慧的驚人潛力。
Richard S. Sutton,現代強化學習(Reinforcement Learning, RL)領域的奠基人之一,他的著作《強化學習導論》被譽為該領域的"聖經"。
當這兩位重量級人物聯手,探討AI的未來時,其分量不言而喻。
Silver與Sutton的四大核心觀點
1. 流動的體驗(Streams)
從"問答"到"長河":
當前模式:AI系統通常處理"短暫的互動片段",目標侷限於"當前片段內的結果"
體驗時代特徵:"持續多年的行動和觀察流"
重要價值:能夠為長遠目標而行動,實現持續適應與學習
強大的Agent應該擁有自己的體驗流,像人類一樣,在很長的時間尺度上發展
2. 紮根的行動與觀察(Actions and Observations)
從"對話框"到"世界":
當前侷限:主要通過"人類特權的行動和觀察"與世界連接
體驗時代特徵:"在現實世界中自主行動"
發展方向:通過使用人類操作電腦的相同介面,實現更通用的互動
從完全的人類特權通訊,轉向更自主的互動,Agent能夠獨立地在世界上行動
3. 源於環境的獎勵(Rewards)
從"人評"到"事判":
當前侷限:依賴"人類的預先判斷",缺乏對實際效果的衡量
體驗時代特徵:"紮根的獎勵"—源自環境本身的信號
重要價值:能夠發現"遠遠超出人類現有知識的新思想"
完全依賴人類預判,通常會導致Agent表現的一個無法逾越的上限
4. 基於經驗的規劃與推理(Planning and Reasoning)
從"人思"到"世理":
當前侷限:"明確設計來模仿人類思維過程"
體驗時代特徵:能通過與世界互動發現或改進非人類的思維機制
重要突破:AlphaProof等系統已展現"以與人類數學家截然不同的方式"解決複雜問題的能力
人類語言極不可能是通用電腦的最佳實例
從人類資料到體驗資料
人類資料的侷限:
高品質人類資料即將耗盡
單純模仿人類無法帶來超越人類的突破性見解
"僅由人類資料驅動的監督學習所帶來的進步速度,正在明顯放緩"
體驗資料的價值:
通過與環境持續互動自主生成
"最終在規模上超越當今系統中使用的人類資料"
能夠產生獨特的、非人類的解決方案
讀評:
當前人工智慧的發展正處於一個關鍵的轉捩點,其核心挑戰之一在於訓練資料的來源與性質。長期以來,主流方法,特別是監督式學習,高度依賴「人類資料」——也就是由人類產生的大量文本、圖像、程式碼和其他形式的資訊。然而,正如 David Silver 和 Richard Sutton 所深刻指出的,這種對人類資料的依賴正日益暴露出其固有的侷限性,可能成為通往更強大通用人工智慧道路上的瓶頸。首先,高品質的人類資料並非取之不盡、用之不竭。
隨著大型模型以前所未有的速度吞噬網際網路上的公開資訊,我們正逼近一個「資料牆」,剩餘未開發的高品質、結構化、標註清晰的人類資料變得越來越稀缺且昂貴。重複使用現有資料或轉向低品質資料來源,不僅效益遞減,甚至可能引入更多雜訊與偏見。更為根本的是,單純依賴模仿人類產生的資料,本質上限制了人工智慧系統的潛力。這就像一個學徒,無論多麼努力地模仿師傅,其技藝的上限終究受限於師傅的水平。基於人類資料訓練的 AI,其主要學會的是複製人類的行為模式、知識體系甚至思維定式,難以產生真正超越人類認知範疇的突破性見解或解決方案。正如文中所言,「僅由人類資料驅動的監督學習所帶來的進步速度,正在明顯放緩」,這暗示著僅靠擴大模型規模和堆砌更多同質化的人類資料,可能已不足以驅動下一波 AI 革命。
面對人類資料的這些侷限,Silver 與 Sutton 提出了「體驗資料」的核心價值,將其視為開啟「體驗時代」的關鍵鑰匙。與被動吸收靜態人類資料不同,體驗資料是由 AI 代理(Agent)在與環境(無論是真實世界還是模擬環境)進行持續、主動的互動過程中自主生成的。這種資料產生的方式具有革命性的意義。
體驗資料具有近乎無限的潛在規模。一個能夠持續與環境互動的代理,可以根據學習需求生成源源不斷的、高度相關的經驗數據流,其體量「最終在規模上超越當今系統中使用的人類資料」。這從根本上解決了人類資料的稀缺性問題。
這種源於真實互動經驗的學習,使得 AI 能夠建立對世界更深刻、更符合因果關係的理解(即「世界模型」),並基於這種理解進行更有效的規劃與推理,從而有望在科學發現、複雜系統優化等領域取得人類難以企及的成就。因此,從依賴有限且具模仿性質的人類資料,轉向擁抱由自主互動產生的、規模龐大且能帶來超人類見解的體驗資料,被視為是推動 AI 邁向更高階智慧形態的必由之路。
世界模型與價值函數
世界模型的作用:
預測Agent 行動對世界產生的後果
使Agent 能夠"直接根據其自身行動及其對世界的因果效應進行規劃"
通過持續互動不斷更新,糾正預測中的錯誤
獎勵與價值的改革:
靈活基於觀察資料定義獎勵函數
從長期、不完整的序列中估計價值函數
開發原則性且實用的真實世界探索方法
讀評:
在邁向「體驗時代」的過程中,Agent 的學習與決策機制需要根本性的變革,其中「世界模型」(World Model)的建立與「獎勵與價值體系」(Rewards and Values)的重塑扮演著核心角色。世界模型,作為代理內部對其所處環境運作方式的表徵,其關鍵作用在於預測自身行動可能引發的後果。
這不僅僅是對短期結果的預判,更是一種對世界因果關係的理解。擁有一個準確且動態的世界模型,使得代理能夠擺脫單純的模式匹配或模仿學習,轉而進行基於自身行動與其對世界產生的實際因果效應的深思熟慮的規劃。這種規劃能力是實現長期目標和複雜任務的基礎。更重要的是,世界模型並非一成不變的靜態知識庫,而是必須透過 Agent 與環境的持續互動來不斷學習、更新和完善。在互動過程中,代理會觀察到其預測與現實之間的偏差,並利用這些「預測錯誤」信號來修正和精煉其內部模型,使其越來越貼近真實世界的運作規律。
這種基於經驗的持續學習與糾錯機制,確保了代理能夠適應變化的環境,並建立起真正紮根於現實的理解。與世界模型的變革相輔相成的是對獎勵與價值體系的徹底改革。傳統上,許多人工智慧系統,特別是透過監督學習或基於人類回饋的強化學習(RLHF)訓練的系統,其行為目標很大程度上依賴於人類預先設定的獎勵函數或提供的標籤。
然而,正如 Silver 與 Sutton 所指出的,這種依賴「人類預判」的方式限制了代理發現超越人類既有知識範疇解決方案的潛力,且難以應對複雜、動態、長期的真實世界任務。體驗時代的代理需要更為內在和自主的激勵機制。這就要求我們發展出能夠從代理自身的觀察數據流中靈活定義「紮根獎勵」(Grounded Rewards)的方法。獎勵信號應直接源於環境本身的回饋,反映代理行動在真實世界中產生的實際效果,而非僅僅是人類的評價。同時,代理需要具備從長期、甚至是不完整的互動序列(即「體驗流」)中準確估計價值函數的能力。
潛在安全益處
體驗時代的AI Agent,由於其學習方式根植於與環境的持續互動,相較於傳統模型展現出一些獨特的潛在安全益處。首先,這些Agent 未來若備顯著的**環境適應性**。它們不僅能"意識到它所處的環境",更能"隨著時間的推移適應環境的變化"。這種適應性不僅體現在對物理環境的理解上,更關鍵的是,它們能夠在互動中感知人類的反應,從而"識別其行為何時引發人類擔憂、不滿或痛苦,並適應性地修改其行為"。
因為在真實環境中進行探索、執行動作並觀察結果需要物理時間,這對Agent 的學習和自我改進速度施加了"內在限制"。相較於可以在模擬環境中以極快速度迭代的模型,這種依賴物理經驗的進步速度受到現實條件的約束,為 AI 潛在的、可能過快的自我改進速度提供了一個"自然的剎車",從而在一定程度上降低了因能力快速膨脹而導致的"失控"風險。總之,環境感知與響應能力、目標的自我修正潛力以及物理互動的內在時間約束,共同構成了體驗式 AI 在安全層面上的一些潛在優勢,為開發更值得信賴、更能與人類社會融合的智能系統提供了新的思路和可能性。
人機協作的新模式
問題: 在體驗時代,AI不再只是"問答機器",而是能夠"獨立地在世界上行動"的Agent。這將如何改變人類與AI的協作模式?您認為在哪些領域,這種新型協作可能帶來最顯著的突破?
回答: 人機協作的新模式將體現在:
從"指令-執行"轉向"目標-策略-回饋"循環
人類角色從"操作者"轉變為"監督者"和"合作夥伴"
協作將基於共同積累的長期經驗記憶
最可能帶來突破的領域:
科學研究:AI提出假設並設計實驗,人類提供創造性直覺和倫理邊界
個人健康:AI持續監測健康指標並建議干預,人類提供偏好和生活情境
創意產業:AI生成多樣內容並記住風格偏好,人類引導創意方向
教育領域:AI適應個人學習路徑,人類教師聚焦情感支持和批判思維
copyright © PrivacyUX consulting ltd. All right reserved.
關於本刊作者Gainshin Hsiao 是 Agentic UX(代理式使用者體驗)的先驅,在人工智能與使用者體驗設計領域擁有超過 15 年的開創性實踐。他率先提出將用戶隱私保護視為 AI 產品設計的核心理念,於 2022 年創立 Privacyux Consulting Ltd. 並擔任首席顧問,積極推動隱私導向的醫療 AI 產品革新。此前,他亦擔任社交 AI 首席策略官(2022-2024),專注於設計注重隱私的情感識別系統及用戶數據自主權管理機制。
Agentic UX 理論建構與實踐
AI 隱私保護設計準則
負責任 AI 體驗設計
在 Cyphant Group 設計研究院負責人任內(2021-2023),他探索了 AI 系統隱私保護準則,為行業標準做出貢獻。更早於 2015 至 2018 年,帶領阿里巴巴集團數位營銷平台體驗設計團隊(杭州、北京、上海、廣州)、淘寶用戶研究中心並創立設計大學,從零開始負責大學的運營與發展,不僅規劃了全面的課程體系,更確立了創新設計教育理念,旨在為阿里巴巴集團培育具備前瞻視野與實戰能力的設計人才。其課程體系涵蓋使用者中心設計、使用者體驗研究、數據驅動設計、生成設計等多個面向應用。
活躍於國際設計社群,在全球分享 Agentic UX 和 AI 隱私保護的創新理念。他的工作為建立更負責任的 AI 生態系統提供了重要的理論基礎和實踐指導。
學術背景
Mcgill - Infomation study/HCI -Agentic UX, Canada
Aalto Executive MBA-策略品牌與服務設計, Singapore
台灣科技大學:資訊設計碩士- HCI, Taiwan
中原大學:商業設計學士- Media and marketing design, Taiwan


