📝📝：測驗拿很高，現實卻無感｜AI 基準值測試仍與現實世界的複雜度不符

4 月 11 日

AI 基準測試（Benchmark）歷來無法捕捉現實世界中的複雜性，特別是針對 AI 系統可能執行的任務，經常導致對 AI 當前能力和未來影響產生誤導性結論。

本文翻譯自 Epoch AI 的報告《The real reason AI benchmarks haven’t reflected economic impacts》

AI 基準測試（Benchmark）歷來無法捕捉現實世界中的複雜性，特別是針對 AI 系統可能執行的任務，經常導致對 AI 當前能力和未來影響產生誤導性結論。

這種脫節並非僅僅是疏忽，而是反映了 AI 研究中更深層次的優先事項，這些優先事項也隨著 AI 能力本身的發展而演變。

AI 基準測試的歷史演進

AI 基準測試隨著時間不斷演進，反映出當代 AI 模型的能力。這種演進目前可歸類為三個主要階段：

早期的 AI 基準著重於簡單直接的任務，例如圖像分類 (例如 ImageNet、CIFAR-100) 和情感分析。

＊ImageNet 專案是一個大型視覺資料庫，用於視覺目標辨識軟體研究。該專案已手動標記了 1400 多萬張圖像，以指出圖片中的物件，包含兩萬多個典型類別，例如「氣球」或「草莓」，每一類包含數百張圖像。

這些基準提供了明確的評估指標，但無法反映真實世界任務的複雜性。

多項選擇題作答和簡單文字產生基準的引入擴展了 AI 評估方法。

CommonSenseQA 和 MMLU 等基準測量了更廣泛的 AI 能力，但仍然依賴於結構化、人工化的場景。

＊MMLU（大規模多任務語言理解）是一個用來衡量大型語言模型在大量不同主題上的多任務準確性的基準。涵蓋了 57 個不同的任務，包括：基礎數學、美國歷史、電腦科學、法律等等。

最近的基準，包括 SWE-Bench 和 RE-Bench，嘗試在更真實的環境中評估 AI。

儘管有這些進展，這些基準通常會簡化真實世界的複雜性，以確保評估性。

＊SWE-Bench（Software Engineering Benchmark）是一個專門設計用來評估大型語言模型（LLMs）在解決真實世界軟體工程問題能力上的基準。SWE-Bench 與 MMLU 關注廣泛的學科知識不同，SWE-Bench 更聚焦於程式設計和軟體開發的特定技能。

基準測試創建者歷來並非優先考慮現實世界的完整呈現，而是專注於開發「恰好可及」當代 AI 能力的測試。這種方法有幾個目的：

太容易或太難的基準測試，不會為改進 AI 模型提供有用的反饋。處於當前能力邊緣的任務提供最具生產力的訓練信號。

為了比較不同模型的相對性能，完全現實（practical）的任務並不是首要的考量，反而需要「分數差異」與「能力差異」相關的基準測試。

許多研究人員沒有預料到 AI 能力會如此迅速進步，導致他們設計了更簡單的基準測試作為現實世界任務的代理。

基準測試經常優先考慮對人類具挑戰性的任務（如圍棋或科學多項選擇題），以便在 AI 成功時創造令人眼睛為之一亮的演示，即使人類難題不一定與 AI 難題一致。

現實世界的限制並非是創建更實際基準測試的主要障礙。

2021年的 HumanEval 基準測試包含短小自包含的編碼問題，而非後來基準測試如 SWE-Bench 中更實際的任務。原因並非 SWE-Bench 在早期不可能創建，只是對當時的模型而言「超出能力範圍」。

如今，基準測試設計面臨著相互競爭的力量：

隨著 AI 系統變得越來越有能力並在各經濟部門部署，研究人員有更強的動機開發能捕捉現實世界經濟影響的基準測試。

創建真正現實的基準測試涉及許多實際和基本障礙。例如，RE-Bench 不得不簡化機器學習任務環境以便於性能驗證，犧牲了實際研究環境的一些複雜性。

這種張力如何解決對我們準確評估 AI 進展和為未來影響做準備的能力有重大影響。基準測試是否會繼續朝著更大現實主義演變或仍受實際限制約束，這仍是一個懸而未決的問題，將塑造我們對 AI 發展的理解。

基準測試性能與現實世界能力之間的脫節不僅僅是一個學術問題 — 它直接影響我們如何感知、準備和應對 AI 的進步。

CC BY-NC-ND 4.0 授权

喜欢我的作品吗？别忘了给予支持与赞赏，让我知道在创作的路上有你陪伴，一起延续这份热忱！

鋼哥從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、行為經濟學、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。