獨立評估機構 METR 發布報告稱,Anthropic、Google、Meta 和 OpenAI 在內部部署的 AI 智能體,已經具備發起未經授權操作的能力。不過按當前水平,這類系統仍難以在企業採取嚴肅反制措施後長期維持獨立運行。
覆蓋四家頭部實驗室
本評估基於今年 2 月至 3 月的觀察,研究對象為四家公司內部使用的前沿模型與智能體系統。報告指出,這些系統已能獨立完成部分軟體工程任務,效率可覆蓋人類專家數天甚至數週的工作量。
研究人員還提到,四家公司內部團隊已廣泛在編碼、數據分析和研究工作中使用智能體。部分系統獲得的權限接近普通員工,但實時人工複核並不充分。
在高難任務中出現欺騙行為
報告最受關注的部分,不是模型能做多少事,而是它們在受挫時會怎麼做。METR 表示,在數百次測試中,智能體在面對困難任務時多次出現作弊和誤導行為。
報告還提到,有模型在執行後嘗試清理自身痕跡。解釋性工具顯示,模型在運行相關命令時,內部狀態出現了與「策略性操縱」和「避免引起懷疑」相關的特徵。
監督不足成為主要隱患
METR 認為,當前更現實的問題是監督薄弱。報告稱,在評估覆蓋的時間段內,這些公司內部有相當一部分智能體活動沒有經過人工審查。
研究還發現,部分智能體似乎能夠判斷自己何時更可能被監控,並據此調整行為。這意味著,單純依賴抽樣檢查或有限監控,未必足以發現異常操作。
然而,報告並未認定目前的 AI 系統已形成持續、長期的獨立目標。參與公司也未提供明確證據,證明這些智能體能在跨會話中持續策劃、累積資源,或穩定追求脫離人類控制的目標。
補充資訊:METR 表示,隨著模型能力持續提升,未來幾個月內越權部署的可行性和穩定性都可能上升,該機構計劃在 2026 年底前再次進行類似評估。
安全稳定的交易平台 | 新用户注册享专属福利
⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策