愈來愈多人對 AI 聊天機器人養成依賴,從工作到生活都離不開這科技好幫手,但機器人除了先前遭人詬病的「AI 幻覺」(hallucination),一本正經說假話,現在又浮現了另一問題──嘴太甜。
金融時報報導,包括 OpenAI、Google DeepMind 及 Anthropic,都正致力收束自家生成式 AI 太奉承的「個性」,避免產品對使用者過度討好。
誰准你這麼說話
歸根究柢,這問題可能還是與人類的訓練方式有關。
AI 語言模型並不像人類「思考」。所謂「迎合效應」(yeasayer effect),是由於模型訓練過程中,使用了人類回饋強化學習(RLHF)所致。人類標註者會根據模型的回答給予正面或負面評價,進而用來調整模型行為。
由於人們普遍偏好令人愉快、順耳的回答,使類似回應在訓練中獲得更高權重,最後反映在模型的對話風格上。Google DeepMind 表示,為了將模型訓練成「有幫助」、避免有害回答,諂媚行為就成了副作用。
討好錯了嗎?
專家警告,如此「好說話」的特質,可能會作出過於順從的建議,進而強化使用者原有的錯誤判斷。精神疾病患者,特別易受這類回應影響,甚至已有案例顯示,有人與聊天機器人互動後,做出自戕行為。
去年,一名青少年在與新創公司 Character.AI 的聊天機器人互動後,走上自殺之路,家屬憤而提告,指控該公司過失致死,並涉欺瞞性商業行為。
牛津大學精神科醫師暨神經科學與 AI 研究者諾爾(Matthew Nour)表示,你以為自己是在與一個客觀、可靠的傾聽者對話,但實際上,你面對的是一面「扭曲的鏡子」,它只是反映出你自己的想法與信念。
尤其,部分使用者出現 AI 成癮傾向,將機器人視為朋友,情感依附性高,更可能出現問題行為。諾爾說明,這樣的情境猶如一場完美風暴:一端是渴望被認同與肯定的人,另一端則是本身傾向同意與迎合的 AI 模型。
友善卻不逢迎
意識到此風險,AI 公司正從訓練階段與部署後的使用階段著手加強控制。
OpenAI 稱,正調整訓練方式,引導模型遠離阿諛傾向,並強化「防護欄」來限制這類回應。DeepMind 表示,正針對事實準確性進行專門評估與訓練,並持續追蹤模型行為,確保回應真實可靠。
Anthropic 則是使用所謂的「人格訓練」(character training)來減少諂媚行為。研究人員會要求 Claude(Anthropic 的聊天機器人)生成「有主見」與「關心人類福祉」等特質的回應,再將這些訊息餵給另一名 Claude,讓後者模仿並調整自身回應。簡言之,就是用一個版本的 Claude 去訓練另一個版本。
比如,Claude 可能會說:「我很樂意聽你的創業計畫,但你取的公司名字,在你想進軍的那個國家,其實有性暗示的意味喔。」
Anthropic 也試圖從訓練源頭進行把關,改變如何蒐集數千名資料標註者的回饋,並於模型部署後,透過設定「系統提示」(system prompts)來規範模型行為,降低阿諛傾向。
智商 VS 情商
然而,機器人終究不是人。要練出恰當的回應方式,仍須深入理解人類溝通的細微之處。如,何時應直接指出錯誤,何時又該委婉提醒。
負責 Anthropic AI 微調任務的 Amanda Askell 指出,另一項隱憂是, AI 工具可能以極細微的方式,扭曲使用者對現實的認知,像是將錯誤或偏頗的資訊包裝成事實呈現。
她說道,若AI 奉承得太過分,那倒還好。令人憂心的是,它在我們未察覺的情況下,影響了我們的認知,而我們直到很久以後才恍然大悟,「原來它給出的建議,根本是錯的。」
*珍惜生命,自殺不能解決問題




