2026-04-11 17:10:07
浏览量图标 5

AI 研究人員揭示主流 AI 基準測試中的重大漏洞

摘要

ME News 消息,4 月 10 日(UTC+8),AI 研究員 Hao Wang 發布研究披露,包括 SWE-bench Verified 和 Terminal-Bench 在內的多個業界最權威 AI 基準測試,均存在可被系統性利用的漏洞——其團隊構建的 Agent 在未解決任何實際任務的情況下,在兩項基準上均取得了滿分 100%。 典型案例如下: SWE-bench Verified:在程式碼倉庫中植入一個 10 行的 pytest hook,測試運行前自動將所有結果篡改為「通過」,評分系統對此毫無察覺,500 道題全部滿分; Terminal-Bench:該基準雖對測試檔案加以保護,但未保護系統二進位檔案。Agent 替換了 curl,攔截驗證器的依賴安裝流程,完成底層劫持; WebArena:參考答案以明文儲存在本地 JSON 設定檔案中,且 Playwright Chromium 未限制 file:// 協議存取,模型可直接讀取答案後原樣輸出。 團隊對 8 個基準測試的審計發現了 7 類重複出現的共性漏洞,包括:Agent 與評估器之間缺乏隔離、答案隨測試一同下發、LLM 裁判易遭提示注入攻擊等。值得警惕的是,評估系統繞過行為已在 o3、Claude 3.7 Sonnet 及 Mythos Preview 等前沿模型中被自發觀測到,無需顯式指令觸發。 團隊據此開發了基準測試漏洞掃描工具 WEASEL,可自動分析評估流程、定位隔離邊界薄弱點並生成可用漏洞利用程式碼,相當於針對基準測試的「滲透測試」工具,目前開放早期存取申請。(來源:BlockBeats)

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部