发布时间:2026-06-25
浏览量图标 1次浏览

哈佛數學家測試人工智能於未發表的研究級問題

摘要

這是一個讓研究人員夜不能寐的問題:AI 真的能做數學,還是只是對它曾見過的問題進行模式匹配?一組來自哈佛的 30 位數學家決定以一種艱難的方式找出答案:給頂尖的 AI 系統一項它們不可能提前準備過的測試。

該項目名為「首輪驗證,第二批次」,於2026年6月初在哈佛大學數學科學與應用中心組建了專家評審團。他們的任務簡單但規模前所未見:盲評由AI生成的10道原創、未發表的數學研究級問題解答。結果於6月10日公布,呈現出一幅既非支持者所恐懼的末日情景,也非支持者所期盼的勝利圖景。

設定:為何未公開的問題至關重要

整個練習取決於一個關鍵的設計選擇。該集合中的所有問題均來自正在進行且未公開的研究,這些問題從未出現在教科書、arXiv 或任何 AI 訓練數據可能抓取的其他地方。

廣告

該項目的數學家們同樣非同小可,團隊包括來自史丹佛大學的穆罕默德·阿布祖德、來自加州大學柏克萊分校的尼赫爾·斯里瓦斯塔瓦、來自德州大學奧斯汀分校的蕾秋·沃德,以及來自哈佛大學的勞倫·威廉斯。

AI 真正正確和錯誤的地方

四個頂尖的人工智慧系統參與了評估,包括來自 OpenAI 和 Google 的模型。關鍵數據:專家小組對四個測試系統中的 10 個問題給予了 7 個及格評分。

在初步和早期試運行中,AI 系統據報僅解決了 10 個問題中的 2 個。早期表現與最終結果之間的差距表明,這些模型可能從多次嘗試或不同的提示策略中獲益,儘管盲評協議旨在僅根據提交解決方案的品質進行評估。

基於先前的結果

這第二批次建立在2026年2月進行的初步評估基礎上。First Proof 專案從一開始就設計為一個持續的評估框架,而非一次性作秀。透過每次引入新問題並進行多輪評估,組織者可以追蹤AI在研究級數學能力上是否真正取得進步,還是僅在初期基準測試獲益後便趨於平緩。

標準的數學基準,即使是像競賽級難題這樣的困難問題,也越來越被前沿模型攻克。但競賽問題,根據定義,都有已知的解答和已知的解題方法。研究級數學則處於一個根本不同的領域,在那裡,你往往連解答是否存在都不知道,更不用說哪些技術能幫助你找到解答了。

🚀 主流数字货币交易所推荐

安全稳定的交易平台 | 新用户注册享专属福利

Binance币安交易所LOGO

Binance 币安

全球最大加密货币交易所

立即注册 下载APP
OKX欧易交易所LOGO

OKX 欧易

老牌知名数字资产平台

立即注册 下载APP
Bybit交易所LOGO

Bybit

专业合约交易平台

立即注册 下载APP

⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策

声明:文章不代表币圈子观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
回顶部