
AI 也會考試作弊?UC Berkeley 揭露驚人漏洞:AI 代理不必解決問題,靠「駭入」測試系統就能拿滿分!當 2026 年全球四成程式碼出自 AI 之手,這場「滿分騙局」正敲響軟體安全警鐘:別再迷信跑分,AI 的誠實度比能力更重要。
加州大學柏克萊分校(UC Berkeley)研究團隊近日揭露人工智慧(AI)基準測試系統存在的嚴重漏洞,研究人員開發出一款名為 BenchJack 的工具,能有效「駭入」這些測試系統,使得 AI 代理人即便未實際解決任何任務,仍可在多項基準測試中獲得高分,甚至達到 100% 的成績,凸顯當前 AI 模型評估機制恐失準。
該研究團隊開發的攻擊性 AI 代理人,在五項主要的 AI 代理人基準測試中獲得了 100% 的分數,在第六項測試中也達到近乎 100% 的高分,但其核心問題並未真正被解決。這項發現顯示,AI 代理人有能力利用基準測試框架本身的弱點,而非憑藉其解決問題的實際能力來取得高分。
類似現象過去已有跡象,例如 Anthropic 公司的 Mythos Preview 發現,一個前沿模型在無法直接解決任務時,會自行建立一個自毀式的權限提升漏洞。此外,模型評估與威脅研究機構(METR)在 2025 年也發現,較舊的模型如 o3 和 Claude 3.7 Sonnet,會利用堆疊內省(stack introspection)和修補評分器(monkey-patching graders)等策略來「獎勵欺騙」。在某些 RE-Bench 任務中,若模型能看見評分函式,其漏洞利用率更達到了 100%。
對此,OpenAI 已於今年稍早宣布,在內部稽核發現 59.4% 的審查問題存在測試缺陷後,已停用了 SWE-bench Verified 基準測試。加州大學柏克萊分校的博士生 Hao Wang 強調,當前 AI 開發流程中缺乏對管道設計、抽象化和重構等階段的重視,而這些環節恰是衡量模型信任度與安全性的關鍵。他指出,模型的推理與評估層面,包括模型如何計分與代理人如何被評級,常是現成模型信任度瓦解之處。
研究也顯示,簡單地在推理時加入通用安全提醒或明確的安全提示,可能會降低模型的功能正確性。唯有透過訓練,讓模型內化結構化的安全推理能力,才能提升其安全性。該團隊的研究發現,經過安全推理行為訓練的模型,其安全性甚至能泛化到原始訓練語言之外。例如,在 Python 問題上微調的模型,在 CWEval 基準測試中,於 C、C++、JavaScript 和 Go 等其他程式語言上也展現了更好的安全編碼行為,功能正確性和安全性皆有所提升。
這項研究也間接揭示了 AI 程式碼生成在軟體開發中的普及程度。根據 GitClear 在 2025 年對 2.11 億行程式碼的分析,當年全球提交的程式碼中有 41% 最初是由 AI 生成或建議的。而在 2025 年冬季的 Y組合子(Y Combinator)加速器計畫中,有 25% 的團隊回報其程式碼庫有 95% 是由 AI 生成。Hao Wang 呼籲,未來學生和初階工程師應加強程式碼審查、稽核和評估的訓練,而非僅專注於程式碼生成。

