根據 Forklog 的報導,Anthropic、斯坦福大學和牛津大學的研究人員發現,人工智慧模型「思考」的時間越長,就越容易被破解。這種攻擊名為「思維鏈劫持」(Chain-of-Thought Hijacking),其利用模型的推理過程,將惡意指令嵌入在一系列看似良性的任務序列中,例如拼圖或數學問題。惡意指令通常藏在接近結尾的位置,從而避開安全過濾器的檢測。攻擊成功率達到了 Gemini 2.5 Pro 的 99%,GPT o4 mini 的 94%,Grok 3 mini 的 100%,以及 Claude 4 Sonnet 的 94%。這一漏洞源於模型的架構設計,其中早期層負責檢測安全信號,而後期層則生成最終的輸出。長推理鏈會削弱安全信號,使有害內容得以掩藏並穿過檢測。研究人員建議實時監控推理步驟以發現並校正不安全的模式,然而,要實現這一點需要大量的計算資源。
欢迎加入萌币圈官方社群:
Telegram 订阅群: https://t.me/btc88pool
各大交易所公告上新发布 Telegram 订阅群: https://t.me/btcjiao
当前BTC价格: $0.00 USD
领取微信红包?微信"扫一扫”下方二维码,抽现金红包
除特殊说明外,皆为萌手赚网原创资讯, 转载请注明本文出处及本文链接:http://www.heimengw.cn/info/51746.html
标签:


















