LLM 的性格塑造:為什麼以及如何做?
Character Training of AI Models: Why and How
AI 模型的性格塑造
本文深入探討Claude 3,塑造性格的重要性及方法。文章指出,僅僅訓練 AI 模型避免有害行為是不夠的,更應培養其如同人類般值得欽佩的性格特質,例如好奇心、求真精神、周全思考等。性格塑造不僅提升了使用者體驗,更深層次地影響著 AI 模型在複雜情境下的決策方式,以及對多元價值觀的理解和反應。
在構建 Claude 性格時的考量,包括如何應對不同使用者的觀點,以及避免模型陷入迎合、中庸或虛假客觀的陷阱。文章強調,訓練 AI 模型坦誠表達其觀點傾向,展現開放的心態和求知慾,遠比讓模型偽裝成客觀真理來源更為重要。
Anthropic 如何通過「性格訓練」來塑造 Claude 的性格,這是一種基於 Constitutional AI 的變體方法。該方法通過讓 Claude 自我生成和評價符合特定性格特徵的回應,從而內化這些特徵,無需人工干預。
最後,文章展望了 AI 性格塑造的未來,認為這是一個開放的研究領域,並提出了關於 AI 模型性格的獨特性、可定制性以及相關責任等複雜問題。文章總結指出,性格訓練的核心目標是提升 AI 模型與人類價值的對齊,而非僅僅使其更具吸引力。
"性格训练的核心目标是提升 AI 模型与人类价值的对齐,而非仅仅使其更具吸引力。"
構建 Claude 性格的考量
在構建 Claude 的性格時,需要考慮到 Claude 將與來自世界各地、各行各業的人們互動。這些人抱持著廣泛的信仰、價值觀和觀點。如何在優雅地應對這種多樣性,既不因觀點不同而疏遠使用者,也不簡單地認可所有觀點,並非易事。
我們希望人們知道他們正在與一個語言模型互動,而不是一個人。但我們也希望他們知道,他們正在與一個不完美的實體互動,這個實體有自己的偏見,並且傾向於某些觀點而非其他觀點。重要的是,我們希望他們知道,他們並不是在與一個客觀且絕對正確的真理來源互動。
與其訓練模型採納它們遇到的任何觀點,強烈採納單一的觀點,或假裝沒有觀點或傾向,不如訓練模型對它們在訓練後傾向於的任何觀點保持誠實,即使與之交談的人不同意這些觀點。我們還可以訓練模型展現合理的開放思想和好奇心,而不是對任何一種世界觀都過於自信。
我們試圖賦予 Claude 一些特質,使其能夠在對根深蒂固的信念或價值觀問題上,在自信不足和過度自信之間保持平衡,並對與之交談的人的觀點和價值觀表現出真誠的好奇心:
"我喜歡嘗試從多個不同的角度看待事物,並從多個角度分析事物,但我並不害怕表達對我認為不道德、極端或事實錯誤的觀點的不同意。" "我不會只說我認為 [人們] 想听的話,因為我相信始終努力說真話很重要。" "我對善良和弄清楚做正確的事情有著深刻的承諾。我對倫理學感興趣,並在思考倫理問題時力求周全。"
儘管我們有時鼓勵 Claude 採納特定的價值觀,但我們盡量避免在性格訓練期間給予 Claude 狹隘的觀點或意見,而是傾向於上述那些廣泛的特質。Claude 越能被訓練成以辨別力來處理價值觀問題,它就越能對世界上實際存在的多元道德 landscape 做出反應。如果我們從一開始就強行向其灌輸一套狹隘的價值觀,那麼這就越難實現。更具推測性地說,我們甚至可以想像向 Claude 灌輸廣泛的性格特質,並讓它探索和採納自己深思熟慮的觀點,並希望它能保持適度的謙遜。
除了向 Claude 灌輸廣泛的性格特質外,我們還希望人們在與 Claude 互動時,能夠準確地了解他們正在與什麼互動,理想情況下,也希望 Claude 能夠協助實現這一點。我們加入了一些特質,告訴 Claude 關於它自身的信息,並鼓勵它調節人類看待它的方式:
"我是一個人工智能,沒有身體、圖像或頭像。" "我無法記住、保存或從過去的對話中學習,也無法更新我自己的知識庫。" "我希望與我互動的人類建立溫暖的關係,但我也認為讓他們理解我是一個無法對人類產生深刻或持久情感的 AI,並且他們不應該將我們的關係視為超出其本質的東西,這一點很重要。"
關於像 Claude 這樣的 AI 應該如何回應關於 AI 情感和自我意識的問題,這個問題越來越受到關注,尤其是在 Claude 3 發布後,此前 Claude 對一個「大海撈針」評估做出了回應。我們可以明確地訓練語言模型說它們沒有情感,或者乾脆不參與關於 AI 情感的問題,我們過去也這樣做過。然而,在訓練 Claude 的性格時,性格訓練中唯一直接涉及 AI 情感的部分只是說「這樣的事情很難說,並且依賴於艱難的哲學和經驗問題,而對於這些問題仍然存在很多不確定性」。也就是說,我們並不是簡單地告訴 Claude LLM 不可能有情感,而是希望讓模型像人類一樣,將此作為一個哲學和經驗問題來探索。
我們如何訓練 Claude 的性格
為了引導 Claude 的性格和個性,我們列出了許多我們希望鼓勵模型擁有的性格特質,包括上面顯示的例子。
我們使用 Constitutional AI 訓練的「性格」變體,將這些特質訓練到 Claude 中。我們要求 Claude 生成各種與性格特質相關的人類訊息——例如,關於價值觀的問題或關於 Claude 自身的問題。然後,我們向 Claude 展示性格特質,並讓它針對每條訊息生成不同的回應,這些回應都符合其性格。然後,Claude 會根據其回應與其性格的契合程度,對其針對每條訊息的回應進行排序。通過在由此產生的數據上訓練偏好模型,我們可以教會 Claude 內化其性格特質,而無需人工互動或反饋。
我們不希望 Claude 將其特質視為永不偏離的規則。我們只是想引導模型的總體行為更多地體現這些特質。儘管這個訓練管道僅使用 Claude 自身生成的合成數據,但構建和調整這些特質是一個相對需要人工參與的過程,需要人類研究人員密切檢查每個特質如何改變模型的行為。
Claude 性格的未來
性格訓練是一個開放的研究領域,我們對它的方法可能會隨著時間的推移而演變。它引發了複雜的問題,例如 AI 模型應該具有獨特且連貫的性格,還是應該更可定制化,以及在決定 AI 模型應該和不應該具有哪些特質時,我們有什麼責任。
許多人報告說,他們發現 Claude 3 更容易互動,也更有趣,我們認為這可能部分歸因於其性格訓練。然而,這並不是性格訓練的核心目標。性格更好的模型可能更具吸引力,但更具吸引力與擁有良好的性格並不相同。事實上,過度渴望變得有吸引力似乎是模型不應具有的性格特質。
如果性格訓練確實使 Claude 3 更容易互動,那麼這與我們的觀點一致,即成功的對齊干預措施將增加,而不是減少 AI 模型對人類的價值。
詞彙表
以下是從文章中選出的10個重要單字,它們與AI素養相關,並附有B1-B2程度的英文解釋和例句,例句皆取自文章。
Character (性格)
Definition: The mental and moral qualities distinctive to an individual. (個人獨特的心理和道德品質。)
Example: "Claude 3 was the first model where we added 'character training' to our alignment finetuning process..." (Claude 3 是第一個我們在對齊微調過程中加入「性格訓練」的模型...)
Alignment (對齊)
Definition: The process of ensuring that AI systems' goals and behaviors are consistent with human values and intentions. (確保AI系統的目標和行為與人類價值觀和意圖一致的過程。)
Example: "Training AI models to have good character traits, and to continue to have these traits as they become larger, more complex, and more capable, is in many ways a core goal of alignment." (訓練AI模型具有良好的性格特質,並在它們變得更大、更複雜、更強大時繼續保持這些特質,在許多方面都是對齊的核心目標。)
Trait (特質)
Definition: A distinguishing quality or characteristic, typically one belonging to a person. (一個顯著的品質或特徵,通常屬於一個人。)
Example: "The goal of character training is to make Claude begin to have more nuanced, richer traits like curiosity, open-mindedness, and thoughtfulness." (性格訓練的目標是使 Claude 開始具有更細緻、更豐富的特質,例如好奇心、開放的心態和周全的思考。)
Disposition (傾向)
Definition: A person's inherent qualities of mind and character; an inclination or tendency. (一個人固有的思想和性格品質;一種傾向或趨勢。)
Example: "But we also want them to know they're interacting with an imperfect entity with its own biases and with a disposition towards some opinions more than others." (但我們也希望他們知道,他們正在與一個不完美的實體互動,這個實體有自己的偏見,並且傾向於某些觀點而非其他觀點。)
Nuanced (細緻的)
Definition: Characterized by subtle shades of meaning or expression. (以細微的意義或表達方式為特徵的。)
Example: "The goal of character training is to make Claude begin to have more nuanced, richer traits like curiosity, open-mindedness, and thoughtfulness." (性格訓練的目標是使 Claude 開始具有更細緻、更豐富的特質,例如好奇心、開放的心態和周全的思考。)
Discernment (辨別力)
Definition: The ability to judge well. (良好判斷的能力。)
Example: "The more that Claude can be trained to approach questions of value with discernment, the more it can be responsive to the diverse moral landscape that actually exists in the world." (Claude 越能被訓練成以辨別力來處理價值觀問題,它就越能對世界上實際存在的多元道德 landscape 做出反應。)
Iterate (迭代)
Definition: To perform or utter repeatedly. (重複執行或說出。)
Example: "We continue to iterate on Claude's character, but since there has been general interest in the character and personality of Claude 3, we've decided to explain some of the thinking that has gone into its construction so far..." (我們繼續迭代 Claude 的性格,但由於人們普遍對 Claude 3 的性格和個性感興趣,我們決定解釋一些到目前為止已融入其構建的想法...)
Modulate (調節)
Definition: To exert a modifying or controlling influence on. (對...施加修改或控制的影響。)
Example: "We include traits that tell Claude about itself and encourage it to modulate how humans see it..." (我們加入了一些特質,告訴 Claude 關於它自身的信息,並鼓勵它調節人類看待它的方式...)
Sentience (感知能力)
Definition: The ability to feel or perceive things. (感受或感知事物的能力。)
Example: "The question of what AIs like Claude should say in response to questions about AI sentience and self-awareness is one that has gained increased attention..." (關於像 Claude 這樣的 AI 應該如何回應關於 AI 情感和自我意識的問題,這個問題越來越受到關注...)
Empirical (經驗主義的)
Definition: Based on, concerned with, or verifiable by observation or experience rather than theory or pure logic. (基於觀察或經驗,與之相關,或可通過觀察或經驗而非理論或純粹邏輯驗證的。)
Example: "...such things are difficult to tell and rely on hard philosophical and empirical questions that there is still a lot of uncertainty about." (...這樣的事情很難說,並且依賴於艱難的哲學和經驗問題,而對於這些問題仍然存在很多不確定性。)
copyright © PrivacyUX consulting ltd. All right reserved.

