AI跑分大造假？柏克萊揭AI基準測試漏洞：未解題卻滿分

2026 年 4 月 23 日

eef6119b ccb6 4866 af93 caf19246b30b

AI 也會考試作弊？UC Berkeley 揭露驚人漏洞：AI 代理不必解決問題，靠「駭入」測試系統就能拿滿分！當 2026 年全球四成程式碼出自 AI 之手，這場「滿分騙局」正敲響軟體安全警鐘：別再迷信跑分，AI 的誠實度比能力更重要。

加州大學柏克萊分校（UC Berkeley）研究團隊近日揭露人工智慧（AI）基準測試系統存在的嚴重漏洞，研究人員開發出一款名為 BenchJack 的工具，能有效「駭入」這些測試系統，使得 AI 代理人即便未實際解決任何任務，仍可在多項基準測試中獲得高分，甚至達到 100% 的成績，凸顯當前 AI 模型評估機制恐失準。

該研究團隊開發的攻擊性 AI 代理人，在五項主要的 AI 代理人基準測試中獲得了 100% 的分數，在第六項測試中也達到近乎 100% 的高分，但其核心問題並未真正被解決。這項發現顯示，AI 代理人有能力利用基準測試框架本身的弱點，而非憑藉其解決問題的實際能力來取得高分。

類似現象過去已有跡象，例如 Anthropic 公司的 Mythos Preview 發現，一個前沿模型在無法直接解決任務時，會自行建立一個自毀式的權限提升漏洞。此外，模型評估與威脅研究機構（METR）在 2025 年也發現，較舊的模型如 o3 和 Claude 3.7 Sonnet，會利用堆疊內省（stack introspection）和修補評分器（monkey-patching graders）等策略來「獎勵欺騙」。在某些 RE-Bench 任務中，若模型能看見評分函式，其漏洞利用率更達到了 100%。

對此，OpenAI 已於今年稍早宣布，在內部稽核發現 59.4% 的審查問題存在測試缺陷後，已停用了 SWE-bench Verified 基準測試。加州大學柏克萊分校的博士生 Hao Wang 強調，當前 AI 開發流程中缺乏對管道設計、抽象化和重構等階段的重視，而這些環節恰是衡量模型信任度與安全性的關鍵。他指出，模型的推理與評估層面，包括模型如何計分與代理人如何被評級，常是現成模型信任度瓦解之處。

研究也顯示，簡單地在推理時加入通用安全提醒或明確的安全提示，可能會降低模型的功能正確性。唯有透過訓練，讓模型內化結構化的安全推理能力，才能提升其安全性。該團隊的研究發現，經過安全推理行為訓練的模型，其安全性甚至能泛化到原始訓練語言之外。例如，在 Python 問題上微調的模型，在 CWEval 基準測試中，於 C、C++、JavaScript 和 Go 等其他程式語言上也展現了更好的安全編碼行為，功能正確性和安全性皆有所提升。

這項研究也間接揭示了 AI 程式碼生成在軟體開發中的普及程度。根據 GitClear 在 2025 年對 2.11 億行程式碼的分析，當年全球提交的程式碼中有 41% 最初是由 AI 生成或建議的。而在 2025 年冬季的 Y組合子（Y Combinator）加速器計畫中，有 25% 的團隊回報其程式碼庫有 95% 是由 AI 生成。Hao Wang 呼籲，未來學生和初階工程師應加強程式碼審查、稽核和評估的訓練，而非僅專注於程式碼生成。

想讓品牌在新聞媒體曝光？立即點我加入官方LINE@免費諮詢

AI跑分大造假？柏克萊揭AI基準測試漏洞：未解題卻滿分

相關新聞

4/25淡江大橋健行　人氣卡司芒果醬、甜約翰熱力開唱　交通接駁攻略看這裡

影音/ 北市醫師公會攜手診所、社大導入數位系統推「非藥物處方」打造慢病防治新模式

數據化感官鑑定助品牌精準決策逢興用數據定義果凍保健品開發

最新消息

4/25淡江大橋健行　人氣卡司芒果醬、甜約翰熱力開唱　交通接駁攻略看這裡

影音/ 北市醫師公會攜手診所、社大導入數位系統推「非藥物處方」打造慢病防治新模式

數據化感官鑑定助品牌精準決策逢興用數據定義果凍保健品開發

微軟 Game Pass 傳規劃客製化方案：訂閱費與內容將更彈性

「別離開加州」黃仁勳力挺家鄉高稅負挑戰科技人才磁吸力