晶片上的光: 由 IBM 實驗室到 Nvidia 的 AI 工廠
Table of contents
在過去兩年中,共封裝光學(CPO)不再只是一個純粹的研究主題。 Broadcom 持續在多個世代上推進 Tomahawk CPO 平台,而 Nvidia 則將 Spectrum-X Photonics 和 Quantum-X Photonics 納入其 AI 工廠戰略中的公開產品框架。這意味著,將光學更靠近 ASIC 的做法,現在不應再被視為實驗室中的試驗,而應被視為高密度 AI Fabric 網路中的現實架構選項。
對市場而言,這是一個重要的轉變。幾十年來,可插拔光學生態系統——從 SFP 到 QSFP-DD 和 OSFP——一直是大多數網路場景的最優模型,因為它具有靈活性、可維護性,以及在單一基礎設施中擴展不同類型鏈路的能力。然而,隨著 AI 叢集中的速率、連接埠密度和功耗不斷上升,ASIC 與前面板模組籠之間電氣路徑的限制正變得越來越明顯。正是在這一點上,CPO 開始不再像一種未來替代方案,而更像是對當下已存在約束條件的工程性回應。
在 IPTP Networks,我們以一種不具技術浪漫主義的視角來看待這一演進:它不是對整個現有光學生態系統的替代,而是為非常特定任務引入了一類新的解決方案。要理解共封裝光學究竟在何處改變了資料中心的經濟性和設計方式,重要的是追溯該技術的完整路徑——從早期矽光子學研究和首次大規模可插拔部署,到如今開始在 AI 基礎設施中找到自身位置的量產級 CPO 系統。
這是這樣一個時刻:一種在研究實驗室中成熟了數十年的技術,跨越了一個門檻,開始改變的不再是演示文稿,而是真正進入機架中的設備。因此,有必要從全局角度審視:它從何而來,為什麼可插拔光學成為網路基礎設施的支柱,以及如今究竟發生了什麼變化。
起點:矽與光
利用矽——這支撐現代微電子的材料——來引導和操控光的想法可以追溯到 20 世紀 80 年代中期。 Richard Soref 的早期工作,以及隨後矽絕緣體(SOI)平台的發展,為現代形式的矽光子學奠定了基礎:與 CMOS 製造相容的光波導,並且有可能與電子裝置在同一技術基礎上共存。
DARPA 很早就認識到,這不僅僅是學術上的好奇心,而是一個具有潛在實際應用價值的平台。透過其 EPIC 項目,該機構資助了麻省理工學院、加州大學聖塔芭芭拉分校以及其他研究團隊的工作,這些工作產出了多個關鍵構建模組:矽基鍺光電探測器以及混合矽雷射。雷射器尤其重要,因為矽本身無法產生光,而雷射的整合多年來一直是該行業的核心工程挑戰之一。
最早顯著的商業突破之一來自 Luxtera。該公司於 2001 年誕生於加州理工學院生態體系,押注於在標準 CMOS 製程中製造的光子積體電路。到 2012 年,Luxtera 已報告出貨第 100 萬個 10Gb 矽光子通道,並在 2019 年被 Cisco 收購,以擴展其在超大規模、企業和服務提供商市場中的光學能力。
IBM 走了一條平行路徑。在十多年的研究之後,該公司於 2012 年宣布已將矽奈米光子技術轉移到商用的 90 奈米 SOI CMOS 代工製程。
這項突破的核心意義在於:波分複用組件、調製器、探測器以及電子電晶體可以在同一生產線上並排製造。對於業界來說,這是矽光子學開始從優雅的科學演示轉變為具有真實製造經濟性的技術的重要時刻。
Intel 在多年內部開發後進入商業階段,並從 2016 年開始將矽光子可插拔模組投入大規模部署。如今,該公司表示已出貨超過 800 萬個光子積體電路,以及超過 3,200 萬個整合式片上雷射器,這些都嵌入在用於資料中心的可插拔光收發器中。這強烈表明,矽光子學早已超越小眾階段,成為工業網絡基礎的一部分。
可插拔時代:靈活性這項殺手級特性
如果不帶浪漫化地看待矽光子學的早期歷史,真正的贏家並不是“光子晶片”這個抽象概念,而是一種非常具體的產品形態:可插拔收發器。 SFP、SFP+、QSFP28、QSFP-DD、OSFP——這些可以熱插拔、插入交換器或路由器前面板籠中的模組,建立在更長的傳統光傳輸標準和收發器形態演進之上。這種形態被證明與網路運維的現實高度相容。
從營運商、雲端服務供應商或分散式 IT 基礎架構擁有者的角度來看,這種主導地位的邏輯非常清晰。可插拔模組允許在不更換機箱的情況下改變傳輸距離、介面類型和光學等級;可以為不同場景儲備不同模組;並且能夠在不影響整體平台的情況下快速本地更換故障單元。這正是為什麼可插拔光學幾十年來一直是資料中心、傳輸網路和企業網路的基礎形態。
矽光子學本身並沒有顛覆這世界,而是融入其中。 Intel 以數百萬規模銷售矽光子可插拔模組;其他廠商圍繞矽光子打造了完整的 QSFP 和 OSFP 收發器產品線。此技術提升了整合度,改善了製造特性和可靠性,但產品形態本身依然熟悉且便於維運。
籠子的極限
那麼,為什麼現在會改變?如果矽光子可插拔模組已經成熟、廣泛部署且仍然有價值,為什麼市場還需要共封裝光學?
答案在於物理——更具體地說,是交換晶片 ASIC 與前面板籠之間發生的情況。在經典的可插拔架構中,高速電訊號必須從晶片出發,透過印刷電路板走線傳輸到面板模組,並在那裡轉換為光訊號。在 100Gbps 甚至部分 400Gbps 時代,這條路徑仍然可控。但隨著業界邁向 1.6Tbps 以及更高密度,每增加一單位電氣距離,在訊號完整性和功耗預算上的代價都會急劇上升。
這正是 CPO 所解決的問題:將光引擎盡可能靠近交換晶片,使電氣路徑縮短到毫米級,大量損耗隨之消失,同時每位元傳輸的能耗也顯著降低。在實際層面,這意味著更低功耗、更高密度,以及在前面板電氣路徑成為系統級瓶頸的速率下更穩定的運作。
Broadcom:CPO 先行者
在 Nvidia 將共封裝光學塑造成 AI 基礎設施核心敘事之一之前,Broadcom 已經默默而有系統地建構這項技術數年。早在 2021 年,該公司就公開展示了 Humboldt——基於 Tomahawk 4 的 25.6Tbps 共封裝光學交換機——隨後發展為 Bailly,即首個向客戶出貨的 51.2Tbps 共封裝光學乙太網路交換器。
在第二代產品中,這項設計尤具啟發性:Bailly 將八個 6.4Tbps 的矽光子光引擎直接整合到交換封裝中。 Broadcom 及其合作夥伴不僅在改進矽本身,還在完善使平台走出實驗室所需的全部週邊要素:熱設計、封裝與測試流程、操作流程、光纖佈線、插座、籠體、連接器以及完整交換系統。這並非炫目的發布,而是跨多個產品世代的系統性工程演進。
因此,Broadcom 最重要 的訊號並非承諾,而是量產指標。該公司公開報告稱,在 Meta 環境中已累計實現 100 萬個 400Gb 等效端口小時的無抖動 CPO 運行,其合作夥伴也已將量產級系統推向市場。例如,Delta 展示了基於 Tomahawk 5 Bailly 的三機架單元系統,支援風冷和液冷,並宣稱相比傳統可插拔交換器可節省超過 30% 的功耗。
在 2025 年,Broadcom 也發布了第三代 CPO 技術(單通道 200Gbps),並確認正在開發第四代(單通道 400Gbps)。這表明,公司並非打造單一展示產品,而是在為 AI 橫向擴展與縱向擴展網路建立路線圖。
Nvidia 入局:AI 工廠的催化劑
接下來是讓這個主題真正進入更廣泛市場視野的關鍵。 Nvidia 於 2025 年 3 月發布 Spectrum-X Photonics 和 Quantum-X Photonics,在 2025 與 2026 年期間,將矽光子納入其 AI 工廠整體架構敘事。同時,根據其公開資料與合作夥伴公告,目前更準確的說法並非“已大規模普及”,而是該平台已進入產品線,並被主要客戶規劃用於下一代系統。
在技 術路徑上,Nvidia 與 Broadcom 有所不同。它並未採用完全單體封裝的光學,而是使用可拆卸光學子組件:圍繞每個交換 ASIC 排布的可更換光模組。這使得維運更加現實——故障光模組可以在不更換 ASIC 的情況下替換。對於產業而言,這是一個關鍵工程分叉點,因為可維護性一直是 CPO 的核心問題之一。
此方案的技術基礎是 TSMC 的 COUPE 平台與 SoIC-X 堆疊:光子積體電路與電子積體電路透過超短介面連接。 Nvidia 描述其使用微環調變器與 1.6Tbps 光引擎,以降低功耗並提升 AI Fabric 網路的可靠性。換言之,這裡的光學並非獨立產品,而是整體系統設計的一部分。
設計哲學的差異
在這項發展中,Broadcom 與 Nvidia 代表了兩種不同理念。 Broadcom 建構的是橫向、生態友善的模型:以乙太網路為基礎的 CPO,透過 OEM 合作夥伴進入更開放的交換器市場。這對於生活在多層架構和漸進式技術引入環境中的營運商尤其重要。
而 Nvidia 建構的是縱向一體化堆疊。 Quantum-X Photonics 和 Spectrum-X Photonics 並非獨立存在,而是與 GPU 節點、NVLink、NCCL、InfiniBand 和乙太網路以及 AI 工廠整體邏輯緊密耦合。當 Nvidia 展示這些交換器時,它展示的不是單一網路產品,而是計算與網路協同設計的系統。
不變之處:運營者視角
儘管 CPO 意義重大,但不應誇大結論。上述所有內容主要適用於大型 AI 資料中心與超大規模叢集中的固定拓樸。在這些環境中,網路結構是預先定義的,功耗效率、密度和可預測擴展最為重要,此時 CPO 成為自然的下一步。
但在營運商傳輸網、城域網路和企業匯聚場景中,可插拔光學不會消失。其價值仍建立在:
- 可在不更換平台的情況下調整距離與光學類型;
- 可在現場快速更換故障模組;
- 可在同一產品系列中支援不同距離與維運模式。
因此,在對靈活性要求高於極致整合密度的場景中,QSFP-DD、OSFP 以及相干可插拔模組仍將長期作為基礎設施的核心。
對客戶而言,未來幾年在可插拔光學與 CPO 之間的選擇,並不是技術潮流問題,而是架構匹配問題。在某些場景(尤其是高密度、預先定義拓撲的 AI Fabric 網路)中,CPO 在功耗、密度和可靠性方面具有明顯優勢。而在其他場景(尤其強調靈活性和可替換性)中,可插拔光學仍將是更合理的選擇。這一邊界,正是目前新一代資料中心與 AI 叢集設計的關鍵決策點。
展望未來
Nvidia 在 GTC 2025 與 GTC 2026 中強調的內容,以及 Broadcom 透過路線圖與 Meta 實測結果所驗證的事實,都指向一個結論:共封裝矽光子技術已經跨越門檻,不能再被視為純研究課題。平台、供應鏈與生態已基本就位:包括 TSMC 的代工能力、光學元件供應商、封裝夥伴、系統整合商以及參考設計。
從歷史角度來看,從早期矽波導概念到光學直接貼近交換晶片的系統,這條技術路徑確實標誌著一個成熟週期的完成。但同樣重要的是,這個週期並不會取代可插拔世界,而是為其增加了一類新的架構選項。
對於像 IPTP Networks 這樣運營全球網路與資料中心的公司而言,這一演進的實際意義並不是宣告“可插拔時代的終結”,而是更精準地理解新模型在哪些場景下真正具有優勢。如果今天一個團隊正在設計 AI 叢集、升級資料中心網路或評估向 800Gbps 或 1.6Tbps 遷移,正確的起點不是選擇廠商,而是進行架構評估:在哪些地方 CPO 能真正改善經濟性與運維,在哪些地方可插拔仍是最優解。
接下來的發展不會圍繞著概念炒作,而是圍繞工程實踐:包括全球部署.、維護以及維運適配。從這個意義上說,設備正在變化,但工程方法本身並未改變。
參考資料
- NVIDIA 宣布 Spectrum-X Photonics 共封裝光學網路交換機,用於將 AI 工廠擴展到數百萬 GPU。
- GTC 2026 主題演講及相關資料。
- NVIDIA 技術部落格:基於矽光子的網路交換開啟資料中心網路新時代。
- NVIDIA 技術部落格:透過共封裝光學提升 AI 工廠的能源效率。
- VIDIA 關於 SC25 及 TACC、Lambda、CoreWeave 整合的部落格。
- TSMC COUPE 與 SoIC-X 發布。
- Broadcom:發表第三代共封裝光學技術(單通道 200Gbps)。
- Broadcom:展示 CPO 的行業領先品質與可靠性。
- Broadcom:推出首款 51.2Tbps 共封裝光學乙太網路交換器。
- Delta Electronics / COMPUTEX 2025 CPO 交換器發布。
- APNIC 部落格:共封裝光學深度解析。
- DARPA EPIC 項目概述。
- IBM Research:光子元件與 90nm CMOS 奈米光子整合研究。
- IBM 關於矽奈米光子製造轉移的資料。
- Cisco 收購 Luxtera 相關資料。
- Luxtera:第 100 萬個矽 CMOS 光子 10Gb 通道里程碑。
- Intel 矽光子官方頁面。
- Intel 光學 I/O 出貨公告。
- Meta Engineering:100G 光連接設計。
- Richard Soref 與矽光子歷史背景。
- 光收發器市場背景。
