作者:Ada,深潮 TechFlow
舊金山,聖荷西會議中心,GTC 現場。
英偉達首席科學家 Bill Dally 坐在台上,對面是谷歌的 Jeff Dean。兩人聊到一半,Dally 抛出一個數字:「此前移植一個包含約 2500 至 3000 個單元的標準單元庫,需要 8 名工程師組成的團隊耗時約 10 個月。」
他停了一下。
現在只需單卡 GPU,運行一晚即可。
台下沒有驚呼,因為聽懂這句話的人都明白其含義。8 名工程師 10 個月的工作,被一顆自研的 GPU 一夜之間吞沒。而且 Dally 還補充道:得出的結果在面積、功耗、延遲這三個指標上,匹配甚至超越了人類設計。
第二天就有新聞解讀為「英偉達用 AI 設計 GPU」。
但這件事的真相,遠比新聞標題更值得玩味。
英偉達內部在跑什麼?
NVIDIA 內部運行的也不是黑箱,而是幾套磨了數年的工具鏈。
NB-Cell 是一個基於強化學習的程式,專門處理標準單元庫遷移這項最艱鉅的任務。Prefix RL 旨在解決進位前瞻鏈中前瞻階段的佈局這一長期研究難題。Dally 表示,該系統生成的佈局「是人類永遠無法想到的」,與人類設計相比,關鍵指標提升了約 20% 到 30%。
另外還有兩個內部 LLM:Chip Nemo 和 Bug Nemo。英偉達將歷史上每一顆 GPU 的 RTL 程式碼、架構文件和設計規格輸入給這兩個大型模型。根據 Dally 的描述,這等於將英偉達從 G80 到 Blackwell 二十年的肌肉記憶蒸餾成一個內部模型,新人進來就能直接對接擁有二十年經驗的資深工程師。
So, can AI design GPUs?
恰恰相反。Dally 的原話是:「我很希望有一天能直接說『給我設計一顆新 GPU』,但我們離那一步還很遠。」
NVIDIA 沒有使用 AI 設計出 GPU。但它做的另一件事,讓整個行業以後離不開它。
20 億美元買入 EDA 腹地
2025 年 12 月 1 日,NVIDIA 以 20 億美元入股 EDA 三巨頭之一的 Synopsys。雙方簽署聯合開發協議,將 NVIDIA 的加速計算堆疊嵌入 Synopsys 整條 EDA 工作流,Blackwell 與下一代 Rubin GPU 將與 Synopsys.ai 進行深度整合。
需要解釋一下 Synopsys 的地位。全球每一顆先進製程晶片,蘋果 M 系列、AMD MI 系列、Google TPU,在設計階段幾乎都運行在 Synopsys 或 Cadence 的工具鏈上。這三家加上西門子 EDA,壟斷了晶片設計的底層工具。你可以不用高通的晶片,可以不用台積電的產線,但你無法擺脫這三家的軟體。
入股 Synopsys 三個月後,英偉達將 Cadence、Siemens、Dassault 也拉入陣營,宣布它們均基於英偉達 GPU 開發 AI 驅動的晶片設計工具。
NVIDIA 公布的基準測試數據看起來相當驚人:Synopsys PrimeSim 在 Blackwell 上快了 30 倍,Proteus 快了 20 倍,Sentaurus 在 B200 上相較於 CPU 加速了 12 倍。聯發科使用 H100 將 Cadence Spectre 加速了 6 倍。Astera Labs 使用 Synopsys + NVIDIA 將晶片驗證提速了 3.5 倍。
有一個細節值得單獨提出:Cadence 的 Millennium M2000 平台,標榜為「專為 EDA 市場打造,獨家基於 NVIDIA Blackwell」。
「獨家」這兩個字最值得品味。也就是說,過去 EDA 工具運行在 CPU 上,Intel、AMD 都能使用。今後若想使用最快的 EDA,只能購買英偉達的顯卡。
飛輪的真實形狀
英偉達的飛輪,大多數人理解的版本是這樣的:將 GPU 售予 AI 公司,AI 公司訓練大型模型,大型模型證明 GPU 不可替代,更多人購買 GPU。
這個飛輪已經夠可怕了。但在它下面還有一層。
英偉達使用自己的工具設計下一代 GPU,設計效率拉開代際差距,同時將整個行業的 EDA 工具鏈綁定在自家硬體上。競爭對手想追趕,但連追趕的工具都得從英偉達的生態中租用。
AMD 那份導致股價大跌的財報背後,藏著的就是這種焦慮。即便英偉達和 Synopsys 表面上說「投資不附帶任何採購英偉達硬體的義務」,市場也心知肚明:加速版 EDA 功能的首發都集中在英偉達硬體上,AMD 和 Intel 只能依賴一條「為最大對手平台調優的路徑」。
想像一下,AMD 的工程師今後想設計一款對標 Blackwell 的晶片,他打開 Synopsys 的工具,發現這個工具在英偉達 GPU 上運行最快。那麼他要么忍受慢一倍的設計週期,要么買一堆英偉達的顯卡來設計一款要擊敗英偉達的晶片。
鏟子仍在銷售,但銷售方式已改變。
國產 GPU 的真實處境
说到这里,必須給出一組令人清醒的數字。
在英偉達 2025 財年淨利潤突破 700 億美元的同一年,國產 GPU「四小龍」摩爾線程、沐曦、壁仞、燧原,擠在 IPO 的窗口前排隊。
摩爾線程招股書顯示,2022 年至 2024 年,三年累計淨虧損 50 億元,2025 年上半年再虧 2.71 億元,截至 6 月 30 日累計未彌補虧損為 14.78 億元。公司管理層預計,最早要到 2027 年才能實現合併報表盈利。沐曦稍好一些,三年累計虧損超過 30 億元。最慘的是壁仞,三年半虧損超過 63 億元,2025 年上半年的收入僅為 5890 萬元,連摩爾線程同期 7.02 億元的零頭都不到。
再看研發投入的強度。摩爾線程 2022 年的研發費用佔營收比例為 2422.51%,2024 年仍高達 309.88%。一年研發花掉的錢,是收入的三倍多。這不是企業經營,這是輸液續命,靠著一級市場和最近打開的科創板窗口持續輸血。
在工具層面更受制於人。華大九天 2022 年 IPO 招股書顯示,其工具僅部分支援 5nm 先進製程。概倫電子雖能覆蓋 7nm/5nm/3nm 節點,但僅提供點工具,遠未達到全流程水平。
華大九天創始人劉偉平坦誠表示:「國產 EDA 對先進工藝的支援仍存在明顯不足,尤其是當下的 7nm、5nm、3nm 等。目前國產 EDA 可達到 14nm 的水平,雖然已掌握 7nm 工藝技術,但 7nm 在與實際應用的深度融合上,仍需全產業鏈的協同努力。」
也就是說,先進製程的全流程 EDA,國產基本無法使用。國產 GPU 公司設計晶片時,仍使用 Synopsys 和 Cadence。2025 年,特朗普曾一度宣布對所有關鍵軟體實施出口管制,雖然未實際落地,但 7nm 以下先進製程的 EDA 工具至今仍處於嚴格管制狀態。許可證何時被切斷,開關在別人手中。
資本市場的反應足夠魔幻。沐曦上市當天,股價收報 829.9 元,單日上漲 692.95%。摩爾線程上市後股價一度升至 A 股第三,僅次於貴州茅台和寒武紀,有媒體按當時股價測算,其總市值約為 3595 億元。
背後的真實商業情況是,一群仍在虧損燒錢、仍需依賴受管制的境外工具鏈來設計晶片的公司,卻在二級市場被估值為「國產英偉達」的繼承者。
而這些公司用來設計晶片的那套工具,正在變成英偉達生態的一部分。英偉達與 Synopsys 那 20 億美元的绑定,Cadence Millennium M2000「獨家基於 NVIDIA Blackwell」的標籤,讓追趕這件事本身變成了一個悖論。
一條從設計到製造的完整鏈
回到 GTC 那場對談。
Dally 在整場演講中表現得非常謙虛。「AI 還遠遠不能自行設計晶片」,這句話英偉達已經講了四五年。但每年的說法都在變化。四年前是「AI 可以輔助設計」,三年前是「AI 可以自動化某些環節」,今年則是「一晚完成 8 個人 10 個月的工作」。每年推進一步,每年都留一句「距離終極目標還很遠」。三年後回頭看,上一輪的「還很遠」已經實現,新的「還很遠」已被定義在所有對手都夠不著的位置。
過去十二個月,英偉達實際上只做了一件事:將 AI 應用於晶片產業鏈中最值錢、護城河最深的幾個環節,然後將這些工具一層層賣給整個行業。
晶片設計的前端,已由內部 LLM Chip Nemo 接管;設計中端的標準單元庫遷移與版圖優化,已由 NB-Cell 和 Prefix RL 接管;整個 EDA 工具鏈,透過 Synopsys 的 20 億美元投資和 Cadence 的「獨家基於 Blackwell」技術,綁定於自家 GPU 上;製造端的光刻計算,已由 cuLitho 接管,TSMC 已在使用。
從設計到製造,英偉達每一環節都用 AI 重新打造了一遍。每一環節最終都指向同一個結論:你想使用最快的工具,就得購買英偉達的顯卡。
對於所有想設計一顆能擊敗 Blackwell 的晶片的對手來說,最尷尬的事情已經發生了。設計這顆晶片所需的 EDA 工具,跑得最快的版本運行在英偉達的 GPU 上;製造這顆晶片所需的光刻計算,最快的演算法庫由英偉達提供;訓練設計 AI 所需的算力,仍然是英偉達的卡。
你要打敗的那個人,正在向你出租打敗它所需的全部工具。租金按年支付,合約每年漲價。