📝📝:人類世界的數據將在五年內耗盡|大量使用「合成數據」近親繁殖,讓網路空間成為大染缸

鋼哥
·
(修改过)
·
IPFS
合成數據並未能緩解數據缺乏的焦慮,隨著模型幾代的演算,生成的作品愈趨同質、失去多樣性;甚至,最後陷入模型自嗜的狀況。

馬斯克觀察到 AI 產業正到達一個轉捩點 。根據他的說法

​ 「基本上我們已經耗盡了人類知識….. 特別在 AI 訓練方面的累積。」

2023 年以來,生成式 AI 大幅改變人類世界的資訊結構,出自人類之手的文章,其撰寫的速度遠比不過 ChatGPT 的生成。之後陸續蔓延至聲音、圖像、影音,不乏混雜大量參差不齊的拙作,網路反而變成內容的廚餘桶。

然而,科技巨頭發開 AI 的野心不僅沒有被澆熄,甚至更加白熱化;誠如馬斯克的擔憂,業界開始導入合成數據(synthetic data)訓練 AI,作為彌補數據即將耗盡的替代方案。

不料,合成數據並未能緩解數據缺乏的焦慮,隨著模型幾代的演算,生成的作品愈趨同質、失去多樣性;甚至,最後陷入模型自嗜的狀況。


原文刊載於《關鍵評論網》:人類世界數據將在五年內耗盡:大量「合成數據」近親繁殖,網路空間成為大染缸


人類已經成為 AI 內容的清潔員

2024 年 6 月,BBC 科技記者葛曼(Thomas Germain)深入報導第一線的文案寫手如何面對 ChatGPT 的衝擊,那時,距離 ChatGPT 的推出已經至少有一年的時間。

報導裡提到一位化名為「米勒」(Benjamin Miller)的文案經理,因為公司實施自動化政策並導入 ChatGPT 加速工作流程,僅在一年的時間內,輪番解雇米勒帶領的 60 人寫手團隊與專業編輯。

Photo by Jonathan Kemper on Unsplash

米勒原本負責為一家科技公司撰寫部落格文章,該公司蒐集並轉售各式各樣的資料,從房地產到二手車。這項工作既需要創意,也需要與主題專家合作,讓米勒的團隊有機會探索各種主題。米勒的職責包括監督內容的整體方向,並確保每篇文章都能兼具準確性和原創性。

當米勒的公司開始採用 ChatGPT 時,這一切都改變了。

最初,米勒的經理會在線上表格中輸入標題,交由 AI 模型產生大綱。米勒的寫手團隊只需要根據這些 AI 生成的大綱撰寫文章,文章上架前,米勒會進行最後的潤稿。幾個月後,公司又增加了一輪自動化:ChatGPT 開始從頭到尾撰寫整篇文章。使得米勒團隊中的大多數人都被淘汰,只剩下幾個人在出版前做最後的編輯。

到了 2024 年,連僅有的幾個職位也不見了。

米勒突然發現自己孤身一人,他每天一上班,就在電腦上打開 ChatGPT 生成的文件,整理蹩腳的用字,刪除呆板的詞句,去除文字中的機械感。米勒不再需要開發新的題材,只能從事重複性的工作 :潤飾那些缺乏「人味」的句子,修改著沒有生命力的文字。

幾個月後,公司將潤稿的工作也交給 AI 執行,米勒最終也被解雇了,眼睜睜看著公司內容管道中最後一道人工檢核關卡消失



AI 廚餘讓網路使用者「腦腐」

米勒可以說是這一波 AI 浪潮下,首當其衝的受害者,一旦生產的速度超過人工檢核的流程,這些未經檢核的內容將會在網路的各個角落四處流竄。維基百科的編輯就面臨了站內充斥著不實的資訊,像是:不存在的堡壘、畸形的手部、七趾的腳。

2023 年 12 月,一群維基百科的編輯組成了名為 WikiProject AI Cleanup 的團隊。目標是清理文筆拙劣的 AI 生成內容,以保護這座全球最大的資料庫,避免受到錯誤條目的汙染。

Photo by Oberon Copeland @veryinformed.com on Unsplash

WikiProject AI Cleanup 小組檢查維基百科的方法,類似於在科學期刊和 Google Books 中尋找 AI 生成內容的技術。

團隊成員透過搜尋 ChatGPT 常用的詞組來鑑定 AI 生成內容。根據非營利媒體 404 Media 報導,其中一個最典型的案例是關於切斯特精神健康中心(Chester Mental Health Center)的條目。該條目在 2023 年 11 月曾註明「截至我最近一次知識更新在 2022 年 1 月」明顯是 AI 模型生成的內容。

WikiProject AI Cleanup 小組坦言,並非所有 AI 生成內容都如此容易檢測。團隊其中一位成員 Queen of Hearts 就曾發現關於 Amberlisihar 的條目。這篇關於鄂圖曼堡壘的文章超過 2000 字,乍看之下寫得非常有條理,甚至包含:堡壘名稱、建造細節、參與的建築師,以及該堡壘在第一次世界大戰期間,受到俄軍轟炸後的修復工作。

Queen of Hearts 實際一搜尋, 卻發現這座堡壘根本不存在。

WikiProject AI Cleanup 的創始成員雷布勒之一(Ilyas Lebleu)解釋道,假的條目對於資訊生態的影響往往比預期的嚴重,因為這些錯誤條目可能需要好幾個月才能被察覺,有時,AI 生成的文本會引用真實的學術資源,但引用內容與文章內容毫無關聯。

除了純文字的條目,WikiProject AI Cleanup 也會需要清理 AI 生成的虛構甚至荒謬的圖片。團隊某次在處理一篇關於 Darul Uloom Deoband 的條目,發現了一張看似相關的歷史畫作。但仔細檢查後發現圖片中的人物,有著明顯的 AI 生成特徵:畸形的手部、一隻七趾的腳。

AI 生成的人手有著相當拙劣的錯誤。由 Leonardo ai 生成。

2024 年末,《牛津英語詞典》(Oxford English Dictionary;OED將 Brain Rot(腦腐)選為 2024 的年度詞彙,正是反映了生成式 AI 所帶來的隱憂。《牛津英語詞典》也指出,約在年底左右,slop 一詞的使用量迅速增加了 332%。

主因正是因為 AI Slop(AI 廚餘)的盛行,AI Slop 專指生成式 AI 產出的作品(文章、音樂、圖片、影音等),勾勒出當代的低品質數位內容,越來越常出現在各大社群媒體。

根據 AI 檢測公司 Originality AI 2024 年的分析,商業社群平台 LinkedIn 上超過 54% 的長篇英文貼文可能都是由 AI 生成。《WIRED》的報導也揭露,部落格平台 Medium 上有 47% 的文章,可能都不是由人類所撰寫。全球最大的影音素材網站 Adobe Stock 也遭到 AI 內容汙染,許多設計師抱怨,自己得要花兩倍以上的時間才能找到合適的圖片



數據耗盡的焦慮:合成數據近親繁殖

文章開篇提到馬斯克的觀察,他推估,人類世界的數據很有可能在 2026~2028 年間耗盡。馬斯克主張,解決數據短缺的「唯一方式」,就是利用由 AI 生成的合成數據(synthetic data)。不過,這種資料訓練的迴圈,形成了一條潛在的「自我消耗」路徑:

下一代的模型並非只從真實世界(real-world)收集資料,也同時將前一代模型所生成之合成資料納入訓練。

2023 年的一份聯合研究《Self-Consuming Generative Models Go MAD》提到,每次訓練中若缺乏足量且新鮮的真實資料(Fresh Real Data),模型生成的品質(quality)與多樣性(diversity)都會逐漸退化,最終將陷入所謂的模型自嗜(Model Autophagy Disorder, MAD)的狀態

換句話說,到了人類數據用罄的那天,生成式 AI 每一次的演算,都是大量使用合成數據在進行近親繁殖。如同歷史上的貴族家庭,試圖藉由近親繁殖保留純種且優良的基因,只會增加不良隱性性狀的基因表現,導致後代子嗣的環境適應力衰退。

本研究將生成式模型的自我吞噬現象分為三種主要形態:

  • 完全合成迴圈(Fully Synthetic Loop)

  • 合成增強迴圈(Synthetic Augmentation Loop)

  • 新鮮資料迴圈(Fresh Data Loop)

每個迴圈的訓練方式差別在於每個世代(generation)在訓練新模型時加入多少新的真實資料,以及如何混合前代模型的合成資料。完全合成迴圈完全使用合成過的資料,合成增強迴圈次之,新鮮資料迴圈則完全使用真實世界的新鮮資料。


完全合成迴圈

在完全合成迴圈中,僅用合成數據訓練模型,不使用也不補充任何新鮮的真實樣本,再加上抽樣偏倚,就算可以得到好看或清晰的「單一模態」合成影像,長久來看仍是品質或多樣性的長期退化。

完全合成迴圈下的模型演算出來的圖片會逐漸開始失去多樣性,上圖為初代資料,下圖為演算至第五代的資料。來源:本研究。

合成增強迴圈

合成增強迴圈的模式下,每個世代都會把前代模型的合成資料加進訓練的數據集,但同時保留原始的一批真實資料,但不增加、不更新。隨著模型接續演算,原始真實資料會慢慢被稀釋,合成資料的比例越來越大。

固定的一批真實資料可以延緩衰退,但無法從根本上阻止模型走向自我吞噬的境地。時間一久,合成資料仍舊會佔據主導地位,進而影響生成的品質。

合成增強迴圈的模型演算至第六代就開始出現畸形的人臉。來源:本研究。箭頭為自行加註。

唯獨新鮮數據的訓練迴圈可以避免模型崩潰,研究最後也主張,若要在自噬循環的每一代中,沒有足夠的新鮮真實數據,那麼未來生成的模型將會注定落入精確度、多樣性的損失。換句話說,模型訓練時應盡量引入新鮮的真實數據,用浮水印(Watermarking)標記使用過的資料,以確保模型效能。

無論是米勒遇到「自動化」政策而導致裁員、WikiProject AI Cleanup 面臨的錯誤條目汙染維基百科,或是《牛津英語辭典》年度選字所捕捉到的腦腐文化,三者都共享了一個關於技術的不爭事實:

AI 的光鮮亮麗,遠不及其所帶來的負面漩渦;並且隨著 AI 內容創作工具的普及,合成資料的風險也在不斷上升。

若每一代的模型都過度依賴前一代合成資料,無論是在圖像、語音,或是純文字等領域,只要缺乏充足且新鮮的真實資料,長遠來看,都會導致生成的內容品質與多樣性惡化。

未來的 AI 開發人員可能將會在「骯髒」的環境裡訓練模型,而一般的使用者只能在大染缸裡反芻 AI 排泄的廚餘。最終,累積的偏誤大到必須投入更多時間、精力才能修復。科技巨頭所允諾 AI 解放人力的幻夢,最終還是得交由人類親自收拾其殘局。











CC BY-NC-ND 4.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

鋼哥從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、行為經濟學、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
  • 来自作者
  • 相关推荐
資訊科技評論
38 篇作品

📝📝:停不下來的加速世代 |「TP 值」成為 Z 世代追求的極致體驗

📚📑📝《透明社會》| 情色並不等於色情?愈是追求透明,情色會逐漸暴露成色情,甚至會變質成猥褻