安雅與她的AI研究團隊:多AI代理人系統的真實價值(Anthropic multi-agent research system)
Anya's AI Research Team: A Multi-Agent Dream
華爾街分析師的AI困境
安雅(Anya)是華爾街頂尖投行的金融分析師。某天,她接到一個棘手的任務:在 48 小時內,整理出 S&P 500 指數中所有 IT 公司的董事會成員名單,並分析其治理結構。這份報告將直接影響一筆數十億美元的併購案。
她本以為有了最新的 AI 助手,這種工作會變得輕鬆。結果卻像在和一個「聰明但極度混亂的實習生」合作——AI 給她一堆冗長、未經驗證的清單,錯漏百出,還時不時「一本正經地胡說八道」。安雅的焦慮與挫敗感與日俱增:AI 明明很強,為什麼還是這麼不靠譜?
多AI代理人系統的設計理念與架構
Anthropic 的多代理系統旨在強化 Claude 的研究能力,使其能夠透過網路、Google Workspace 及其他整合功能,完成複雜的任務。該系統的核心設計理念是採用「主導代理」來規劃研究流程,並將特定子任務分配給多個「平行子代理」同時執行 。這種架構的引入,標誌著 AI 系統在處理複雜資訊檢索和綜合任務方面邁出了重要一步。
就在安雅快要崩潰時,Anthropic 的多AI代理人系統出現了。這不是一個單一的 AI,而是一支「AI 研究團隊」:
主控智能體,像個冷靜的專案經理,會先和安雅確認目標,把複雜問題拆解成明確的子任務。
子智能體,一群勤奮的「初級分析師」,各自負責搜尋、彙整、驗證不同公司的資料,並行作業,效率爆表。
引用助手,一絲不苟的「事實查核員」,逐條檢查每個數據來源,確保報告禁得起審核。
記憶系統,像個資深秘書,負責記錄階段性成果,讓團隊能隨時回溯、不中斷地推進長任務。
安雅第一次感受到,AI 不再只是「工具」,而是能協作、能分工的「團隊夥伴」。
分層代理與平行處理:運作機制解析
該系統採用分層結構運作:首先,一個主導代理根據使用者查詢規劃研究流程。隨後,它創建並管理多個平行子代理,每個子代理負責同時搜尋特定資訊 。這種設計使得系統能夠高效地分解並平行處理複雜的研究問題。
安雅很快發現,這支 AI 團隊的表現有 70% 取決於她給的「任務簡報」——也就是提示詞。她不再只是丟出一個問題,而是像寫給團隊的 project brief:
明確每個子任務的目標、格式、邊界,避免重工或資訊遺漏。
根據任務複雜度,靈活調整子智能體數量和搜尋預算。
採用「先廣後深」策略,先大範圍搜尋,再逐步聚焦。
要求 AI 先寫出思考路徑(思維鏈),再動手執行,減少低級錯誤。
定期檢討失敗案例,讓 AI 團隊自我優化,形成「AI 改善 AI」的正循環。
這種「策略型提示詞」讓安雅從一個「提問者」變成真正的「AI 團隊領導者」。
子代理透過在各自的上下文視窗中平行運作,顯著增強了可擴展性 。這使得它們能夠同時探索複雜問題的不同方面,然後將重要資訊濃縮並回報給主導研究代理 。這種職責分離減少了路徑依賴性,並實現了徹底、獨立的調查。
「Claude 4 模型可以充當優秀的提示工程師,診斷失敗並提出改進建議,甚至重寫有缺陷的工具描述。」這是一個深刻的能力,因為這意味著 AI 不僅僅是執行指令,而是批判和改進它所使用的指令和工具。這超越了簡單的任務自動化,達到了一種自我反思和自主優化。這表明 AI 系統最終可以參與自身的設計、維護和除錯,減少持續改進所需的手動工作。
持續強調「模仿人類研究策略」(例如「先廣後窄」、「分解問題」、「評估來源品質」)表明,針對複雜、開放式任務的有效提示工程正在演變為將人類認知過程和專家方法論編碼到 AI 行為中。
工程挑戰與資源分配
理論很美好,現實卻充滿坑。安雅很快遇到幾個工程級難題:
穩定性與容錯:有時某個子智能體「卡住」或出錯,主控智能體會自動重派任務,團隊能從中斷點恢復,不會全盤皆輸。
彩虹部署:系統長時間運行時,Anthropic 採用「彩虹部署」策略,讓新舊版本平滑過渡,確保進行中的任務不會被強制中斷。
成本與效率:這支 AI 團隊很貴(token 消耗是普通聊天的 15 倍),但對安雅來說,能在幾小時內完成原本要幾天的工作,這筆投資絕對划算。
調試與觀測:AI 團隊有自己的「決策黑盒」,Anthropic 建立了追蹤系統,專注於決策流程而非用戶隱私,讓安雅能快速定位問題。
為確保持續運作並防止更新期間的中斷,系統採用了彩虹部署(rainbow deployments) 。這種策略涉及逐步將流量從舊版本系統轉移到新版本,允許分階段推出,並在發現新版本問題時快速回溯。
多代理系統使用「比聊天互動多約 15 倍的令牌」,但隨後立即補充說這「解釋了 80% 的效能差異」。這並非節省令牌的效率,而是達成結果的效率。對於這些特定任務而言,更高的令牌消耗是一個優勢而非缺陷,因為它能夠實現單一代理無法達到的深度和廣度探索。這表明,對於高價值、複雜的問題,成本效益分析發生了轉變,更高的資源消耗因其卓越的輸出品質和任務完成度而變得合理。
任務評估與可驗證性
當使用者提交查詢時,主導代理(LeadResearcher)會首先進行徹底分析 。根據此分析,主導代理會制定一個全面的研究策略,並將其儲存到內部記憶體組件中以保持狀態 。隨後,主導代理會生成多個子代理,每個子代理專門處理查詢的特定方面,使其能夠同時探索問題的不同層面 。這些子代理充當智慧過濾器,迭代地使用搜尋工具收集相關資訊 。最後,子代理將其發現回報給主導代理進行綜合和編譯,形成一個連貫的答案 。一個專門的引用代理(CitationAgent)隨後處理收集到的文件和報告,以識別並精確定位引用來源,確保資訊的可驗證性 。
安雅的老闆問她:「這麼複雜的 AI 團隊,怎麼知道它真的有用?」
Anthropic 用另一個大模型當「評審員」,根據準確性、引用完整性等多維度打分。
人類測試者則能發現自動化評估忽略的盲點,比如 AI 偏好內容農場而非權威來源。
最終,安雅只在乎一件事:結果是否達標、能否交差。Anthropic 也認同,評估重點應放在「最終成果」而非每一步細節。
在核心工作流程中明確包含「引用代理」,強調了 AI 生成研究成果中可驗證性、可信度和負責任歸屬的關鍵重要性。這表明,隨著 AI 系統在生成複雜、資訊豐富的內容方面變得更加自主,透明溯源和驗證的基礎設施將成為其設計中不可或缺的一流組件,從單純的內容生成轉向負責任的知識生產和傳播。
流程圖和描述明確提及「引用代理」,其職責是「處理文件和報告以識別具體引用位置」。這不僅僅是一個技術細節;它反映了對可信研究要求的深刻理解。在學術和專業環境中,資訊的來源與資訊本身一樣重要。Anthropic 為此功能專門設立一個代理,暗示其認識到,要使 AI 成為可靠的研究工具,它必須能夠證明其資訊的來源,從而建立信任並防止未經檢查的幻覺。
持續優化與未來展望
儘管「以大型語言模型作為評審」的評估方法效率高且可擴展,但它引入了潛在的循環依賴或內在偏見,如果評估用的 LLM 與被評估的代理共享相似的底層架構偏見或限制。這表明,為了確保真正的客觀性,並防止系統在不知不覺中為其自身內部偏見而非外部真實情況進行優化,需要對 LLM 評審進行仔細校準、獨立驗證和多樣化的人工監督。
幾個月後,安雅已經不再是那個被 AI「耍得團團轉」的分析師。她學會了如何指揮一支 AI 研究團隊,將複雜問題拆解、組織、調度,最終產出高品質的成果。
Anthropic 的多AI代理人系統證明了一件事:未來的 AI,不是單打獨鬥的「天才」,而是分工協作、組織有序的「超級團隊」。
真正的知識工作者,將從「執行者」進化為「AI 團隊的指揮官」。你準備好和 AI 合作,打造自己的超級團隊了嗎?
使用者回饋非常積極,表明 Claude 的多代理能力帶來了實質性效益 。使用者報告稱,該系統在多樣化需求方面提供了幫助,包括識別商業機會、探索醫療保健方案、解決技術錯誤,以及顯著節省了數天的工作時間 。
原始文章來源:https://www.anthropic.com/engineering/built-multi-agent-research-system
copyright © PrivacyUX consulting ltd. All right reserved.
關於本刊作者
Gainshin Hsiao 是 Agentic UX(代理式使用者體驗)的先驅,在人工智能與使用者體驗設計領域擁有超過 15 年的開創性實踐。他率先提出將用戶隱私保護視為 AI 產品設計的核心理念,於 2022 年創立 Privacyux Consulting Ltd. 並擔任首席顧問,積極推動隱私導向的醫療 AI 產品革新。此前,他亦擔任社交 AI 首席策略官(2022-2024),專注於設計注重隱私的情感識別系統及用戶數據自主權管理機制。
Agentic UX 理論建構與實踐
AI 隱私保護設計準則
負責任 AI 體驗設計
在 Cyphant Group 設計研究院負責人任內(2021-2023),他探索了 AI 系統隱私保護準則,為行業標準做出貢獻。更早於 2015 至 2018 年,帶領阿里巴巴集團數位營銷平台體驗設計團隊(杭州、北京、上海、廣州)、淘寶用戶研究中心並創立設計大學,從零開始負責大學的運營與發展,不僅規劃了全面的課程體系,更確立了創新設計教育理念,旨在為阿里巴巴集團培育具備前瞻視野與實戰能力的設計人才。其課程體系涵蓋使用者中心設計、使用者體驗研究、數據驅動設計、生成設計等多個面向應用。
活躍於國際設計社群,在全球分享 Agentic UX 和 AI 隱私保護的創新理念。他的工作為建立更負責任的 AI 生態系統提供了重要的理論基礎和實踐指導。
學術背景
Mcgill - Infomation study/HCI -Agentic UX, Canada
Aalto Executive MBA-策略品牌與服務設計, Singapore
台灣科技大學:資訊設計碩士- HCI, Taiwan
中原大學:商業設計學士- Media and marketing design, Taiwan









用一個使用者的故事去講多智能體(助手)的架構確實好理解一點,實際在製作智能體中,有時會跟使用場景、架構、製作、學習中迷失,但從這篇文章的架構中可以像經歷個小旅程一樣,挺有意思的。