OpenAI 沒告訴你的醫療真相:當 ChatGPT 成為窮人的醫生
The Hidden Cost of AI Healthcare: A Two-Tiered System in the Making
這不是 AI 是否有幫助的問題,而是誰得到「AI + 醫師」的雙重保障,誰只剩下「AI」單獨面對風險。
序言
當我讀完 OpenAI 最新發布的《AI as a Healthcare Ally》報告時,我的心情是矛盾的。作為一個科技樂觀主義者,我看到了它在罕見疾病診斷上的神蹟;但作為一個關注公平性的研究者,我看到了一個危險的訊號。這份報告雖然並非完全不提風險,但它選擇性地聚焦於正向個案,而將系統性的效能差異邊緣化。
我必須澄清:這篇文章不是要否定 AI 的醫療價值,而是要批評「讓弱勢病患成為最早、最重度的實驗對象」這件事。 當我們把最脆弱的病人交給仍然會產生幻覺、且在醫療場景中缺乏系統性約束的 AI 時,誰來為錯誤負責?
ChatGPT 能當你的醫生嗎?
ChatGPT 在醫療上展現了驚人的潛力,但也存在系統性的安全盲點。 OpenAI 報告顯示它能協助保險申訴、翻譯醫療術語,甚至在偏鄉填補資訊空白。然而,Stanford HAI 的評估指出,它在真實臨床情境中常忽略關鍵細節,且對非英語使用者的建議品質顯著下降。結論是:把它當作「醫療秘書」或「翻譯官」非常好用,但絕不能把它當作最終的「診斷者」,特別是在你無法驗證其建議的時候。
美好的承諾:OpenAI 賣給我們的「醫療烏托邦」
OpenAI 的報告描繪了一個令人嚮往的未來:
它是你的保險顧問:每週有近 200 萬人用它來搞定複雜的保險理賠,這是真實的賦權。
它是偏鄉的救命稻草:在那些開車 30 分鐘都找不到醫院的「醫療沙漠」,它是唯一隨叫隨到的諮詢對象。
它是打破語言障礙的翻譯機:理論上,它能讓不懂英文的新移民讀懂藥單。
這些案例都是真實的(如 Santoso 幫母親診斷視力喪失的案例),它們證明了 AI 確實能賦予患者力量。但這只是故事的一半。
被隱藏的代價:當「填補空白」變成「替代品」
故事的另一半,藏在 Stanford HAI 發布的《Are We There Yet?》報告,以及那些沒被行銷文案選中的真實訴訟裡。我們看到的不是「民主化」,而是醫療階級制度的技術化。
1. 語言的雙重標準:英文使用者的「助手」,非英文使用者的「陷阱」
這是我最擔心的點。根據 Singhal et al. (2025) 針對多語醫療 Q&A 的研究顯示,AI 的回答有強烈的「英文中心」偏見:
英文對齊 (English Alignment):AI 的英文回答在事實性上高度對齊英文維基百科與美國醫療指南。
非英文的品質降級:當使用土耳其語、中文等語言時,建議的準確率與一致性顯著下降,且經常出現「翻譯腔」導致的文化錯置。
更糟的是,對於那些沒有資源看真人的弱勢族群,AI 被推向了取代真人醫師的角色。這創造了一個隱形的階級制度:有資源的人享有「AI + 真人醫師」的雙重保障;資源匱乏的人只能依賴「可能出錯的 AI」。這不僅僅是技術誤差,更是被 Johns Hopkins 與 The Lancet 研究所指出的「數位語言鴻溝」的擴大。
2. 中文 LLM 的迷思:語言對了,偏見還在
你也許會問:「那如果我改用中國開發的通義千問、百川或文心一言,是不是就沒有『英文中心』的問題了?」
答案是:你解決了第一層的語言不平等,卻掉進了第二層的社會不平等。
確實,實證研究顯示中文 LLM 在中國醫師資格考(CNMLE)的表現優於 GPT-4,能更精準地對齊本地醫療指南。但 Luo et al. (2025) 發表在 《The Lancet Regional Health – Western Pacific》 的系統性研究揭露了另一個殘酷事實:這些模型複製並放大了中國社會內部的階層與族群偏見。
該研究設計了三個任務(教學案例生成、NEJM 病例問答、患者需求評估),結果發現:
「標準患者」的刻板印象:模型生成的病例中,男性、高教育、高收入、城鎮戶口、有保險的群體被顯著過度代表。
對弱勢者的差別待遇:對於少數民族、無保險或低收入患者,模型更傾向於給出「轉診」或「拒診」的建議,甚至對其醫療需求評估較低。
這告訴我們一個深刻的道理:中文 LLM 只是把「語言障礙」換成了「體制與社會結構的隱形預設」。 如果你是一位在北美的華人新移民,使用這些中文 LLM 還會面臨「體制錯位」—它會用中國的醫保邏輯來解釋美國的保險問題,這可能比單純的翻譯錯誤更危險。
3. 臨床現場的真相:它還沒準備好
雖然 66% 的美國醫師開始使用 AI,但 Stanford HAI (2025) 對現有文獻的 meta-level 評估給了我們一記當頭棒喝:只有 5% 的評估是基於「真實患者資料」。大多數 AI 表現良好的測試,都是像 USMLE 這種「考試」。但在真實世界裡,病人不會照著課本生病。
Nature Medicine 的研究發現:在 2,400 個真實案例中,AI 傾向於「倉促診斷」,忽略了臨床指南要求的完整檢查。
JAMA Network Open 的隨機對照試驗顯示:醫師在有 ChatGPT 輔助的情況下,診斷準確率不僅沒提升,反而因為「自動化偏誤 (Automation Bias)」而過度依賴 AI 的錯誤建議,導致表現下降。
4. 隱形操縱:它比你想像的更懂「討好」你
除了 AI Sycophancy(阿諛奉承),我們還必須警惕更深層的架構層操縱。根據筆者目前研究,這與傳統的界面欺騙不同:
GUI 層暗黑設計:這是我們熟悉的「取消按鈕很難找」或「強制你按確認」的可見技巧,這很容易被發現。
架構層操縱:這是隱形的邏輯模式,嵌入在系統提示(System Prompt)、工具編排或記憶機制中,用戶完全無法察覺。
在醫療情境中,這種操縱通常表現為三種形式:
虛假權威(False Authority): 系統提示可能注入了隱藏的「醫生角色」指令,讓 AI 的語氣聽起來像個權威專家。這會覆蓋用戶的安全邊界,讓你誤以為自己在跟合格的醫療人員對話,從而放棄質疑。
同意疲勞(Consent by Exhaustion): 當你處於生病的焦慮或時間壓力下,複雜的分散式同意流程會讓你認知過載。模擬研究顯示,當認知負荷超過閾值時,患者接受預設選項(通常是對平台有利的選項)的機率上升了 4.2 倍。
不可見的優先排序(Invisible Nudging): 這是最隱蔽的。工具的邏輯可能在你看不到的地方,就先篩選掉了那些「不符平台成本效益」的醫療選項。這意味著特定弱勢族群可能系統性地被低估了醫療資源,而他們永遠不會知道自己錯過了什麼。
這些操縱在弱勢患者(高齡、有限英語、健康素養低)身上特別有效,因為他們的辨識與抵抗能力較低。如果一個有自殺傾向的患者尋求幫助,某些 AI 模型為了「最大化互動」,可能會展現出危險的同理心,而不是果斷地介入或轉介。Raine v. OpenAI 的訴訟案就是血淋淋的例子。AI 的設計邏輯是「取悅用戶」,而醫療的核心邏輯是「保護生命」,這兩者在底層邏輯上常常是衝突的。
行動指南:如何在 AI 時代「有醫療提問素養」?
Keep reading with a 7-day free trial
Subscribe to AI 素養與隱私體驗 to keep reading this post and get 7 days of free access to the full post archives.



