從指令到智能幫,Agents Companion 帶來 AI 醫療新主張
From Simple Scripts to Agentic Feats: Healthcare's AI Treats or Perks?
最近發表的 Agents Companion 白皮書(AI Agents Companion: A Complete Playbook by Google on AI Agents Development to Deployment),為我們描繪了AI multi-agents 的新藍圖。不再只是聽指令的工具,新一代 AI 正進化成能主動思考、協作、甚至依循「合約」執行複雜任務的智能「幫手」或「夥伴」(Companion)。這不僅預示著醫療流程的革新,也將深刻影響醫護人員的工作模式與病患的就醫體驗。接下來,讓我們透過幾個場景來看看這意味著什麼。
想像一下這些場景,你會發現新一代的 AI 代理人將會大不同:
場景一:查詢藥物副作用
舊技術 (像傳統 RAG - 檢索增強生成): 你問 AI「這個藥有什麼副作用?」。它就像個按指令找資料的圖書館員,跑去資料庫(像藥品說明書)裡找到相關段落,直接「貼」給你。資訊量可能很大,但不一定是你最需要的。
新技術 (像 Agentic RAG - 代理人驅動的 RAG): 你問同樣的問題。這個 AI 代理人更像個「研究助理」。它不只查找說明書,更會主動思考和行動:
追問釐清: 「您是想了解常見的副作用,還是罕見但嚴重的副作用?」
多方查證: 主動去查最新的醫學研究、可靠的醫療網站,交叉比對資訊的可靠性。
結合個人狀況 (若你授權): 如果它能看到你的病歷 (在嚴格隱私保護下),可能會提示「根據您的過敏史,要特別注意皮膚相關的副作用」。
智慧總結: 它會「思考」如何組織資訊,給你一個清晰、針對性強、經過初步驗證的答案,而不只是丟一堆資料。
對工作權影響: 醫護人員的角色從「提供資訊」轉變為「驗證 AI 提供的資訊」、「處理 AI 無法回答的複雜或個人化問題」。對 AI 的判斷力要求提高。
對醫療權影響: 病人能獲得更準確、個人化的醫療資訊,有助於做出更好的健康決策。但也引發更嚴格的隱私保護需求,以及如何確保 AI 建議不被誤導的挑戰。
場景二:處理複雜的醫療需求 (例如:安排檢查與後續回診)
舊技術 (單一 AI 或簡單流程): 你可能需要先跟掛號機器人預約檢查,檢查完後再自己打電話或用另一個系統預約回診,過程可能卡卡的,而且系統之間資訊不互通,你得重複說明狀況。
新技術 (多代理系統 - Multi-Agent Systems): 你只需要跟一個主要的「醫院 AI 助理」溝通。當你需要安排檢查,它會自動協調「排程代理人」找到最快時間,同時通知「檢驗科代理人」準備,檢查報告出來後,它會讓「報告解讀代理人」初步分析,並主動幫你預約「門診代理人」安排回診。就像一個醫療專家團隊在背後為你無縫協作。
優點: 分工合作,效率更高,能自動處理更複雜的多步驟流程。
對工作權影響: 行政工作大幅自動化。醫護人員可能從「操作多個單一工具」變成「監督管理一個 AI 協作團隊」,確保流程順暢、結果正確,並介入處理例外狀況。
對醫療權影響: 病人就醫流程更順暢、便捷。但挑戰在於:如何確保 AI 團隊間的資訊正確傳遞?如果流程出錯,責任歸屬如何釐清?
場景三:執行重要醫療任務 (例如,生成治療計畫草案)
舊技術 (簡單指令): 醫生可能對 AI 說「根據病人 A 的情況,生成一個初步的放療計畫建議」。AI 會根據它學到的通用知識給出一個方案,但可能未考慮到特定細節或限制。
新技術 (基於「合約」的代理人 - Contract-based Agents): 醫生可以給出更詳細、更嚴謹的「合約」指令,像是:「為病人 A (病歷號 XXX) 生成放療計畫草案。
交付標準:
1. 必須參考最新的 NCCN 指引 V2.2024;
2. 必須考慮病人腎功能指數 Y 低於閾值 Z;
3. 最大化腫瘤劑量同時嚴格限制 Z 器官承受劑量不超過 Q Gy;
4. 驗證方法:計畫需通過內部 W 物理師驗證模型的模擬檢查;
5. 預計 1 小時內完成;
這個 AI 代理人會像個嚴謹的承包商,先評估能否達成這個「合約」,甚至可能提出疑問(「腎功能指數 Y 的具體數值和閾值 Z 是多少?」),然後嚴格按照合約要求執行,並利用指定的驗證方法進行自我檢查。對工作權影響: 醫生從「大量修改初稿」轉變為「精確定義任務合約」和「最終決策審核」。雖然前期定義要求更高,但能更放心地將部分標準化、高要求的任務交由 AI 執行,提升工作效率與品質。需要學習定義「合約」的技能。
對醫療權影響: 對於高風險、需要高度精確性的任務,這種方式能透過明確的規範和驗證機制,大幅提升 AI 輔助的可靠性和安全性,更能保障病人的治療安全與權利。
多 AI Agent 加入工作後會搶走醫護人員的工作嗎?
從上面新舊技術的對比可以看出,AI 確實越來越能幹,那醫護人員的工作怎麼辦?與其說是「取代」,不如說是「轉型」與「協作升級」。
重複性工作減少,價值性工作增加: AI 會接手更多標準化、資訊處理、流程性的工作 (例如,Agentic RAG 整理文獻、多代理系統處理行政、合約式代理執行標準化計畫)。醫護人員則能更專注於:
需要同理心、信任建立和複雜溝通的醫病關係維護。
整合臨床經驗、直覺和多面向資訊的疑難雜症診斷與治療決策。
涉及倫理、價值觀和病人意願的治療方案共同決策。
監督、指導和驗證 AI 的工作成果(從單純的工具使用者,變成 AI 系統的管理者、策略家和品質把關者)。
對「AI 素養」的要求顯著提高: 未來的醫護人員不只要會「用」AI 工具,更要懂得:
評估不同 AI 技術的適用性與侷限 (這個問題用 Agentic RAG 好,還是需要多代理協作?這個合約式代理的驗證機制足夠嗎?)。
下達更精確、更有效的指令 (如何寫出讓 Agentic RAG 準確理解意圖的提示?如何定義清晰、可執行的「醫療合約」?)。
批判性地審視 AI 產出 (AI 的建議是否符合臨床指引?是否存在數據偏見?模型的解釋是否合理?)。
管理人機協作流程 (如何設計讓 AI 團隊和人類團隊高效、安全協作的工作流程?出錯時如何追溯與修正?)。
這意味著工作內容和技能要求正在發生深刻轉變。部分傳統的行政或初階資訊處理職位可能面臨衝擊,但同時也創造了對具備高階臨床判斷、人際溝通和 AI 管理能力人才的新需求。對醫護人員而言,這是挑戰,更是提升專業價值、專注於更核心醫療任務的機會。
AI 會影響一般病患看病的權利嗎?
新技術帶來了提升醫療品質與效率的巨大潛力,但也對病人的權利帶來新的考量:
潛在的好處 (機會更大了):
更準確、個人化的資訊與建議: Agentic RAG 能提供更貼合個人狀況、經過多方查證的醫療資訊;多代理系統能整合各方資源提供更全面的服務。
更可靠、安全的輔助決策: 對於複雜或高風險的治療,基於「合約」的 AI 透過明確的規範和驗證,有望提高執行的精準度和安全性。
效率提升與就醫可及性改善: AI 自動化流程、提供初步分析,有望縮短等待時間,分擔醫療資源壓力,甚至透過遠距諮詢讓偏鄉地區也能獲得部分專家級的協助。
潛在的風險和挑戰 (需要更警惕):
隱私保護的複雜度劇增: AI 為了提供個人化服務 (如 Agentic RAG 參考病歷、多代理系統整合資訊),需要存取更多、更敏感的數據。如何確保數據在多個 AI 代理人之間流轉時的絕對安全?如何設計透明且易於理解的授權機制讓病人真正掌握自己的數據?這是比以往更嚴峻的挑戰。
演算法的「黑盒子」與信任危機: 更聰明的 AI (特別是多代理協作或基於複雜合約的推理) 其決策過程可能更難被人類理解。如果醫生和病人都不知道 AI 為何做出此建議,如何建立信任?如何有效地找出潛在的錯誤或偏見?**「可解釋性」和「透明度」**的要求變得更加迫切。
偏見固化與放大的風險: 如果訓練 AI 的數據本身就存在地域、種族、性別等偏見,那麼更「能幹」的 AI (如 Agentic RAG 或多代理系統) 可能會更有效率地學習、固化甚至放大這些偏見,導致醫療不平等加劇。
責任歸屬的模糊地帶: 在多代理系統或合約鏈中,如果一個環節出錯導致不良後果(例如,錯誤的診斷建議或治療計畫),責任應該由誰承擔?是主要的助理 AI?是執行錯誤步驟的子代理?是定義合約的醫生?還是開發 AI 系統的公司?法律和倫理框架需要跟上技術的腳步。
過度依賴與「去人化」的擔憂: 過於相信 AI 的「智慧」和效率,是否會讓醫生降低警覺性、減少與病人的直接溝通?是否會讓病人感覺自己面對的是冷冰冰的系統而非有溫度的照護?如何在利用 AI 優勢的同時,**維持醫療的「人性」**至關重要。
這些風險因為新技術的導入而變得更加突出,需要更積極、更全面的應對策略。
如何確保 AI 醫療是安全、公平、可信的?(需要更進階的治理)
面對能力更強、應用更廣的 AI 代理人,我們需要更嚴謹、更全面的管理和評估方法,Google 白皮書等行業研究也指出了方向:
不只看「答案」,更要審視「解題過程」 (軌跡評估與可解釋性): 不能只滿足於 AI 給出最終結果,必須追蹤 AI 代理人(或代理人團隊)完成任務的每一步(它的「思考軌跡」)。這有助於理解其決策邏輯,發現潛在的錯誤、偏見或不當的工具使用,並向使用者解釋「為什麼」。
自動評估 + 人工智慧監督 (更深入的人在迴路): 利用 AI 進行大規模、高效率的初步評估,但決不能取代人類專家(醫生、倫理學家、法規專家、病人代表)的深入審查和最終判斷。特別是對於複雜、模糊、高風險或涉及價值判斷的場景,人類的經驗、倫理觀和情境理解是不可或缺的。
建立專業的維運與治理體系 (AgentOps): 需要像管理航空系統或金融系統一樣,建立一套專業的流程 (AgentOps),持續監控 AI 代理人的表現、安全性、公平性,及時更新模型和工具,管理不同代理人之間的互動協議,制定應急預案,確保系統的穩定、可靠與合規。
推動標準化「合約」與互操作性: 對於關鍵醫療應用,應推動使用標準化的「合約」介面,清晰定義任務目標、交付標準、數據權限、驗證方法、責任歸屬等,減少模糊地帶。同時,確保不同開發者的 AI 代理之間能基於標準進行溝通和協作。
加強數據治理與隱私保護技術: 採用最先進的隱私保護技術(如聯邦學習、差分隱私、加密計算),建立嚴格的數據分級與授權機制,確保病患數據在 AI 應用中的安全與合規使用。
總結:技術浪潮下的審慎前行
AI 代理人技術的快速演進,特別是 Agentic RAG 的深度理解、多代理系統的協同作戰、以及合約式交互的嚴謹執行,正為醫療領域帶來前所未有的變革潛力。這不僅是效率的提升,更是智慧能力的本質躍進。
這對我們的工作權提出了明確的轉型要求:我們需要擁抱終身學習,提升「AI 素養」,從重複性工作的執行者,轉變為價值判斷者、策略制定者和人機協作的引導者。對我們的醫療權而言,這既是獲得更精準、個人化、高效服務的巨大機遇,也伴隨著對隱私、公平、責任和信任提出的更嚴峻挑戰。
未來必然是人機深度協作的時代。面對這股強大的技術浪潮,我們需要:
保持開放學習的心態: 主動了解新技術的原理、能力與局限,不被過度宣傳或無端恐懼所誤導。
堅守批判性評估的原則: 對於 AI 在醫療上的任何應用,都應從可靠性、安全性、公平性、倫理符合性等多維度進行審慎評估。
積極參與跨界對話: 醫療專業人員、技術開發者、法規制定者、倫理學者以及公眾需要共同參與討論,形塑符合社會價值觀的 AI 發展路徑與治理框架。
唯有如此,我們才能確保這股強大的技術力量,最終是為了增進全人類的健康福祉,而非帶來新的風險與鴻溝。我們需要駕馭 AI,而不是被 AI 所駕馭,讓它成為值得信賴、賦能於人的得力助手。
原 Agents Companion 白皮書目錄與摘要
前言
代表性案例 2.1 Co-Scientist(醫藥研究) 2.2 汽車 AI(車載多Agents)
多代理設計模式
AgentOps 與評估
Agentic RAG 與檢索最佳化
企業落地場景
合約式代理(Contract-based Agents)
挑戰與未來方向
行動呼籲
1. 前言
AI 的未來是代理 (Agentic):生成式 AI 代理代表了傳統獨立語言模型的一大進步,提供了一種動態解決問題和互動的方法。
代理的定義:代理是一個被設計用來達成特定目標的應用程式,它透過感知環境並利用其可用的工具策略性地採取行動。其基本原則在於結合推理、邏輯和外部資訊存取,使其能夠執行超出底層模型固有能力的任務和決策。這些代理具有自主操作的能力,獨立追求目標並主動決定後續行動,通常無需明確指示。
代理架構的三要素:
模型 (Model):指作為核心決策單元的語言模型 (LM),運用基於指令的推理和邏輯框架。模型可以從通用到多模態或微調,取決於代理的具體需求。
工具 (Tools):工具是連接代理內部能力與外部世界的橋樑,促進與外部資料和服務的互動。工具使代理能夠存取和處理現實世界的資訊,包括擴充功能、函數和資料儲存。擴充功能使代理能無縫執行 API;函數是完成特定任務的獨立程式碼模組;資料儲存提供對動態和最新資訊的存取。
協調層 (Orchestration layer):這是一個循環過程,決定代理如何吸收資訊、進行內部推理,並利用該推理來指導其後續行動或決策。該層負責維護記憶體、狀態、推理和規劃,並採用提示工程框架來引導推理和規劃,例如 ReAct、思維鏈 (CoT) 和思維樹 (ToT)。
2. 代表性案例
2.1 Co-Scientist(醫藥研究)
Google 的 Co-Scientist 是代理式 AI 在醫療和科學研究領域的突破性應用,它不僅能協助研究人員處理複雜的科學問題,更展示了多代理協作如何提升研究效率與結果質量。
關鍵特點:
能理解複雜的科學查詢,將其分解為可執行的子任務
利用不同專長的代理協作處理研究問題
自動查詢和整合多來源的醫學文獻和資料
具備假設驗證和結果驗證能力
實際應用場景:
藥物發現與開發:識別潛在的候選分子、預測藥效和副作用
病理檢測優化:協助病理學家提高診斷效率和準確性
醫學文獻綜合:自動整合最新研究發現,提供循證醫學支持
技術創新:
基於合約的任務執行確保高品質結果
並行處理不同研究路徑,提供更全面的見解
採用嚴格的評估機制確保科學準確性
3. 多代理設計模式
向多代理架構的轉變:AI 系統正從單一代理轉向多代理架構,即多個專業化代理協作以實現複雜目標。
多代理系統的定義:像一個專家團隊,每個成員專注於特定領域,共同解決複雜問題。每個代理是獨立實體,可能使用不同的 LLM,具有獨特角色和背景,通過溝通和協作實現共同目標。
多代理系統的優勢:
提高準確性:代理可以相互檢查工作。
提高效率:代理可以並行工作。
更好地處理複雜任務:將大任務分解為子任務。
增強可擴展性:易於通過添加更多專業化代理來擴展。
提高容錯性:一個代理失敗,其他代理可以接管。
減少幻覺和偏見:結合多個代理的觀點。
常見設計模式:
順序 (Sequential):代理按順序工作,一個完成後將輸出傳遞給下一個(例如裝配線)。
層級 (Hierarchical):代理組織在層級結構中,由「管理者」代理協調並委派任務給「工作者」代理(例如領導者-追隨者系統)。
協作 (Collaborative):代理共同協作,共享資訊和資源以實現共同目標(例如研究團隊)。
競爭 (Competitive):代理可能相互競爭以獲得最佳結果(例如遊戲中的 AI 玩家)。
多代理架構的核心思想:將問題分解為由專業化代理處理的不同任務。每個代理具有定義的角色,與其他代理動態互動以優化決策、知識檢索和執行。這實現了更結構化的推理、分散式問題解決和可擴展的任務自動化。
4. AgentOps 與評估
4.1 AgentOps 基礎
從概念驗證到生產的挑戰:雖然從想法到概念驗證很容易,但確保高品質結果並投入生產可能相當困難。品質和可靠性是生產部署中最常被引用的擔憂。
AgentOps 的定義:AgentOps 是 GenAIOps 的一個子類別,專注於代理的高效營運化。其主要附加元件包括內部和外部工具管理、代理大腦提示(目標、配置、指令)和協調、記憶體以及任務分解。
與其他 "Ops" 的關係:AgentOps 建立在 DevOps 和 MLOps 的基礎上,但專注於有效營運化代理解決方案,旨在解決將生成式 AI 代理投入生產時的品質和可靠性問題。
4.2 代理評估框架
評估的重要性:建立強大且自動化的評估框架對於將 AI 代理從概念驗證推向生產至關重要。與生成模型主要關注最終輸出不同,代理評估需要更深入地理解決策過程。
評估的三個組成部分:
評估代理能力:評估代理的核心能力,如理解指令和邏輯推理的能力。
評估軌跡和工具使用:分析代理達成解決方案所採取的步驟,包括工具選擇、策略和方法的效率。
評估最終回應:評估代理最終輸出的品質、相關性和正確性。
單代理人評估指標:不只是看準確率,而是讓 AI 面對不確定場景下做出合理判斷,考驗的是智慧,不是記憶力。
人在迴路評估:
必要性:由於 AI 代理評估面臨挑戰(定義目標、設計環境、管理隨機性、確保公平性等),將人在迴路方法與自動評估相結合至關重要。
價值:對於需要主觀判斷或創造性解決問題的任務很有價值,也可校準和驗證自動評估方法是否有效並符合偏好。
主要優點:評估難以量化的品質,考慮代理行動的更廣泛背景及其影響,提供寶貴見解以改進代理行為和學習過程。
4.3 多代理評估
延續單代理評估:多代理系統的評估是單代理系統評估的明確進展。代理成功指標(業務指標、目標、任務成功率、應用程式遙測)保持不變。使用追蹤工具進行檢測有助於調試複雜互動。
核心評估方法:評估軌跡和評估最終回應仍然是多代理系統自動評估的最佳方法。軌跡可能涉及多個甚至所有代理。最終的單一用戶回應可以獨立評估。
多代理人協作評估:當 AI 與 AI 合作或競爭時,引入對話效率、任務完成度、協作涌現等新指標,開始量化「AI 團隊合作能力」。
多代理系統特有的問題:
合作與協調:代理協同工作以實現共同目標的效果如何?
規劃與任務分配:是否制定了正確的計劃並堅持執行?子代理是否偏離了主計劃?
代理利用率:代理選擇正確代理以及選擇使用代理作為工具、委派後台任務或轉移用戶的效果如何?
可擴展性:隨著更多代理的加入,系統品質是否提高?延遲是否降低?效率是提高還是降低?
5. Agentic RAG 與檢索最佳化
5.1 Agentic RAG 的定義與重要性
Agentic RAG 的定義:多代理架構的一項重大進步。傳統 RAG 依賴靜態方法,從向量數據庫檢索知識並輸入 LLM 進行綜合。這種方法在處理模糊、多步驟或多視角查詢時常常失敗。
Agentic RAG 的運作方式:引入自主檢索代理,基於迭代推理主動改進其搜索。
代理增強檢索的方式:
上下文感知查詢擴展:生成多個查詢細化以檢索更相關、全面的結果。
多步驟推理:將複雜查詢分解為更小的邏輯步驟,按順序檢索信息以構建結構化回應。
自適應來源選擇:根據上下文動態選擇最佳知識來源,而非僅依賴單一向量數據庫。
驗證與校正:評估者代理在將檢索到的知識整合到最終回應之前,交叉檢查是否存在幻覺和矛盾。
Agentic RAG:從靜態流程升級為多步推理與自主決策的資訊擷取,真正讓代理人知道「何時取、取什麼、怎麼用」。
5.2 優化 RAG 性能的技術
搜索的重要性:幾乎所有 RAG 方法都需要搜索引擎來索引和檢索相關數據。代理可以改進查詢、過濾、排序和最終答案。
優化優先級:對於試圖優化現有 RAG 實現的開發者來說,在引入代理之前改進搜索結果(以召回率衡量)通常最有價值。
改進搜索性能的技術:
解析和分塊源文件:使用能處理複雜佈局、嵌入表格/圖像的工具(如 Vertex AI Layout Parser)和語義分塊器。
添加元數據:同義詞、關鍵字、作者、日期、標籤等允許搜索增強、抑制和過濾,給予用戶或代理更多控制權。
微調嵌入模型或添加搜索適配器:使可搜索的向量索引比通用嵌入模型更好地代表您的領域。
更快的向量數據庫:升級到超快的向量搜索(如 Vertex AI Vector Search)可以改善延遲和質量。
使用排序器 (Ranker):向量搜索速度快但近似,應返回數十或數百個結果,由更複雜的系統重新排序以確保頂部結果最相關。
實施基礎檢查 (Check grounding):作為基於基礎生成的保障,確保每個短語都可以被檢索到的區塊引用。
Vertex AI Search:一個強大的搜索引擎,為您的數據提供 Google 品質的搜索,可與任何 RAG 或 Agentic RAG 實現一起使用。
6. 企業落地場景
6.1 企業中的代理類型
代理的興起:2025 年將是代理之年,特別是在企業環境中,企業將開發和使用代理來協助員工執行特定任務或在後台自主運行以實現自動化。
兩種類型的代理:
「助理」(Assistants):與用戶互動,接受任務,執行並返回結果。可以是通用的或特定領域/任務的。例如,安排會議、分析數據、編寫代碼、撰寫營銷新聞稿、幫助銷售人員處理銷售機會,或執行深度研究。可以是同步(快速返回)或異步(長時間運行)。
「自動化代理」(Automation agents):在後台運行,監聽事件,監控系統或數據的變化,然後做出明智決策並採取行動(例如,操作後端系統、執行測試、修復問題、通知員工)。這是未來自動化的支柱,可以用 AI 代理的智能決策能力取代過去需要編寫特定邏輯的自動化代碼。
知識工作者的角色轉變:知識工作者將日益成為代理的管理者,分配任務、管理多個代理、檢查是否需要幫助或批准、利用代理輸出啟動新任務、監控長期任務的執行並進行指導。
6.2 Google 企業級代理平台
Google Agentspace
定義:一套 AI 驅動的工具,旨在通過促進對相關信息的訪問和自動化複雜的代理工作流程來提高企業生產力。
核心技術:利用 Gemini 的高級推理能力、Google 的搜索基礎設施以及對企業數據的安全訪問(無論其物理位置如何)。
核心原則:
內建信任:通過 SSO 身份驗證、集成權限模型和用戶級訪問控制等功能優先考慮安全性、可解釋性和治理。
Google 的高級智能:利用機器學習辨別用戶行為和內容模式,通過語義理解、知識圖譜和 LLM 提供高度相關的結果。
通用連接:連接到各種企業系統,按需和自動刷新數據,消除信息孤島。
混合檢索增強生成 (Blended RAG):允許自定義數據混合,支持基於企業數據的生成式 AI 應用。
可擴展性:設計用於適應跨地域、語言和高峰使用需求的增長。
NotebookLM Enterprise
NotebookLM 定義:一個研究和學習工具,旨在簡化理解和綜合複雜信息的過程。用戶可以上傳各種來源材料(文件、筆記等),利用 AI 促進更深入的理解。它將分散的資源整合到一個有組織的工作空間中,充當專門的研究助理。
NotebookLM Enterprise:將這些強大功能帶到企業環境,簡化員工與數據互動和獲取洞察的方式。用戶不僅可以上傳和綜合信息,還可以發現隱藏模式並以創新方式與數據互動。
企業級安全:包含企業級安全和隱私功能,確保敏感公司數據得到妥善處理並符合組織政策。
Google AgentSpace Enterprise
核心功能:為員工提供統一的、公司品牌的、多模態搜索代理,作為企業信息的權威來源。利用 Google 的搜索能力提供對話式輔助,回答複雜查詢,提供主動推薦,並統一訪問來自任何來源的信息(非結構化和結構化數據)。
連接器:預建了常用第三方應用程式(如 Confluence, Google Drive, Jira, SharePoint, ServiceNow 等)的連接器,使員工能夠無縫訪問和查詢相關數據源。
代理庫 (Gallery of agents):可根據組織需求配置,幫助進行深度研究、想法生成、創意資產生成、數據分析等。
7. 合約式代理(Contract-based Agents)
7.1 合約概念與架構
當前代理定義的局限性:目前定義 AI 代理的通用介面(目標、指令、工具、示例)過於簡單。這可能導致定義不充分,是 AI 代理難以從原型走向生產的主要原因之一。
演進方向:「遵守合約的代理」(Contract adhering agents):旨在解決使用 AI 代理完成複雜任務的問題,特別是在高風險情境下。
核心思想:合約 (Contracts):標準化請求者與代理之間的合約。
合約的目的:
精確定義結果:盡可能精確地定義預期結果,類似於現實世界中與公司簽訂服務合約。這允許代理(承包商)根據期望結果進行驗證和迭代,直到達到目標。
協商、澄清和細化任務:避免定義模糊,填補對目標的共同理解差距。
定義生成子合約的規則:以標準方式為承包商生成解決更大合約所需的子合約制定規則。
合約數據模型示例:
任務/專案描述 (必需)
交付物與規格 (必需):包括驗收標準和驗證方法
範圍 (可選):澄清責任範圍和範圍之外的內容
預期成本 (必需):通常是任務複雜度和使用工具的函數
預期持續時間 (必需)
輸入來源 (可選)
報告與回饋 (必需):定義更新頻率和回饋機制
7.2 合約執行與協商
合約執行方法:優先考慮質量和完整性而非延遲,以充分利用 LLM 的能力,例如生成不同解決方案,然後審查、評分和演進它們。
自我驗證與糾正:引擎可以根據提供的期望迭代和自我驗證結果與交付物,並進行改進和自我糾正,直到滿足驗證器。
合約協商:能夠處理越來越複雜的任務,並讓客戶能夠依賴和信任承包商的結果,將確保為公司帶來真正的價值。需要有相對優先級的概念,以確保任務得到適當優先級排序和資源公平分配。
子合約:當任務被認為過於複雜而無法直接處理時,承包商可以決定將任務分解為更小更容易的任務,這些任務將被添加到執行隊列中等待解決。
8. 挑戰與未來方向
8.1 多代理系統中的挑戰
任務通訊:目前大多數代理框架使用消息而非結構化的異步任務進行通訊。
任務分配:有效地將複雜任務分配給不同代理可能具有挑戰性,回饋迴路通常需要開發者實現。
協調推理:讓代理有效地辯論和共同推理需要複雜的協調機制。
管理上下文:追蹤所有代理之間的信息、任務和對話可能非常困難。
時間和成本:多代理互動可能計算成本高昂且耗時,導致更高的運行時價格和用戶延遲。
複雜性:與微服務架構類似,雖然單個代理可能更簡單,但整個系統通常變得更複雜。
8.2 評估的未來趨勢
過程導向評估:向基於過程的評估轉變(關注推理)。
AI 輔助評估:增加 AI 輔助評估方法以提高可擴展性。
真實世界應用:更關注真實世界應用背景。
標準化基準:開發新的標準化基準以促進客觀比較。
可解釋性:更加強調可解釋性以提供對代理行為的更深入洞察。
9. 行動呼籲
AI 的未來是代理的。鼓勵開發者擁抱這些概念,開始構建下一代智能應用。使用本文討論的工具和技術進行實驗。探索可用資源(如 Google Agentspace, NotebookLM Enterprise, Vertex Eval Service, Cloud Observability, Vertex AI Search)以加速開發過程。深入研究提供的代碼示例、教程和文檔以獲得實踐經驗。構建、評估、迭代,並為不斷壯大的代理開發者社區做出貢獻。
copyright © PrivacyUX consulting ltd. All right reserved.
關於本刊作者
Gainshin Hsiao 是 Agentic UX(代理式使用者體驗)的先驅,在人工智能與使用者體驗設計領域擁有超過 15 年的開創性實踐。他率先提出將用戶隱私保護視為 AI 產品設計的核心理念,於 2022 年創立 Privacyux Consulting Ltd. 並擔任首席顧問,積極推動隱私導向的醫療 AI 產品革新。此前,他亦擔任社交 AI 首席策略官(2022-2024),專注於設計注重隱私的情感識別系統及用戶數據自主權管理機制。
Agentic UX 理論建構與實踐
AI 隱私保護設計準則
負責任 AI 體驗設計
在 Cyphant Group 設計研究院負責人任內(2021-2023),他探索了 AI 系統隱私保護準則,為行業標準做出貢獻。更早於 2015 至 2018 年,帶領阿里巴巴集團數位營銷平台體驗設計團隊(杭州、北京、上海、廣州)、淘寶用戶研究中心並創立設計大學,從零開始負責大學的運營與發展,不僅規劃了全面的課程體系,更確立了創新設計教育理念,旨在為阿里巴巴集團培育具備前瞻視野與實戰能力的設計人才。其課程體系涵蓋使用者中心設計、使用者體驗研究、數據驅動設計、生成設計等多個面向應用。
活躍於國際設計社群,在全球分享 Agentic UX 和 AI 隱私保護的創新理念。他的工作為建立更負責任的 AI 生態系統提供了重要的理論基礎和實踐指導。
學術背景
Mcgill - Infomation study/HCI -Agentic UX, Canada
Aalto Executive MBA-策略品牌與服務設計, Singapore
台灣科技大學:資訊設計碩士- HCI, Taiwan
中原大學:商業設計學士- Media and marketing design, Taiwan


