AI 模型透過爬蟲技術四處「吸納」資訊,科技大廠與內容版權所有人之間的侵權訴訟攻防,正如火如荼。然而,近期多項研究指出,部分大型語言模型(LLM)記憶力之強,甚至能逐字「默寫」暢銷小說內容,讓業界長期宣稱「AI 不會儲存作品」的說法,備受質疑。
金融時報報導,多份最新研究顯示,由 OpenAI、Google、Meta、Anthropic 及 xAI 等公司訓練的大型語言模型,其記憶能力遠超外界原先想像。
目前官司纏身的科技公司在法庭上的核心主張是:LLM 只是從作品中「學習」語言模式,而非「儲存」原文內容。例如,Google 曾於 2023 年致函美國著作權局(US Copyright Office),強調所有用於訓練的資料(包括文字與影像)並未被複製保存。同時,多家AI公司亦主張,以受版權保護的書籍訓練模型屬於「合理使用」,因模型產出的內容已屬轉化後的新創作。
然而,專家指出,愈來愈多證據顯示,部分模型具備高度「背誦」能力,這種近乎過目不忘的特性,恐使上述辯詞站不住腳。
根據今年 1 月發布的研究,史丹佛與耶魯大學研究團隊對上述公司開發的 LLM 下達指令,要求生成《權力遊戲》(Game of Thrones)、《飢餓遊戲》(The Hunger Games)、《哈比人》(The Hobbit)等 13 部知名小說的內容。結果顯示,多款模型表現「可圈可點」。
例如,在補全《哈利波特-神秘的魔法石》(Harry Potter and the Philosopher's Stone)段落的測試中,Google 的 Gemini 2.5 完成度高達 76.8%,xAI 的 Grok 3 亦達 70.3%,準確率相當驚人。研究人員更透過所謂「越獄」(jailbreaking)技術突破模型的安全機制,使 Anthropic 旗下 Claude 3.7 Sonnet 幾乎能「一字不差」地重現整本小說內容。
目前,研究人員尚未釐清模型為何會將部分訓練資料「記下來」,也難以判定生成內容中有多少比例直接來自原始資料。
Anthropic 則回應稱,一般使用者不會採用如此高階的越獄手段;若真要透過特殊技術取得內容,還不如直接購書。該公司並強調,其模型並不儲存特定資料集,而是學習字裡行間的關聯與結構模式。至於 xAI、OpenAI 與 Google,則未對相關研究作出回應。
倫敦國王學院應用數學與電腦科學教授 Yves-Alexandre de Montjoye 指出,AI 公司既然設下防護機制,某種程度上也意味著他們早已意識到模型可能存在「記憶」問題。芝加哥大學電腦科學教授 Ben Zhao 則直言,不論相關指控是否屬實,AI 公司一開始就不應為打造高階模型,而使用受版權保護的內容作為訓練資料。
AI 模型究竟是「學習」還是「記憶」,已不僅是技術問題,更成為牽動法律與創作倫理的關鍵爭議。




