Home » 博客 » 芯片上的光: 由 IBM 实验室到 Nvidia 的 AI 工厂
博客

芯片上的光: 由 IBM 实验室到 Nvidia 的 AI 工厂

芯片上的光: 由 IBM 实验室到 Nvidia 的 AI 工厂

在过去两年中,共封装光学(CPO)已经不再只是一个纯粹的研究课题。Broadcom 持续在多个代际上推进 Tomahawk CPO 平台,而 Nvidia 则将 Spectrum-X Photonics 和 Quantum-X Photonics 纳入其 AI 工厂战略中的公开产品框架。这意味着,将光学更靠近 ASIC 的做法,现在不应再被视为实验室中的试验,而应被视为高密度 AI Fabric 网络中的一种现实架构选项。

对于市场而言,这是一个重要的转变。几十年来,可插拔光学生态系统——从 SFP 到 QSFP-DD 和 OSFP——一直是大多数网络场景的最优模型,因为它具有灵活性、可维护性,以及在单一基础设施中扩展不同类型链路的能力。然而,随着 AI 集群中的速率、端口密度和功耗不断上升,ASIC 与前面板模块笼之间电气路径的限制正变得越来越明显。正是在这一点上,CPO 开始不再像一种未来替代方案,而更像是对当下已存在约束条件的工程性回应。

在 IPTP Networks,我们以一种不带技术浪漫主义的视角来看待这一演进:它不是对整个现有光学生态系统的替代,而是为非常特定任务引入了一类新的解决方案。要理解共封装光学究竟在何处改变了数据中心的经济性和设计方式,重要的是追溯该技术的完整路径——从早期硅光子学研究和首次大规模可插拔部署,到如今开始在 AI 基础设施中找到自身位置的量产级 CPO 系统。

这是这样一个时刻:一种在研究实验室中成熟了数十年的技术,跨越了一个门槛,开始改变的不再是演示文稿,而是真正进入机架中的设备。因此,有必要从全局角度审视:它从何而来,为什么可插拔光学成为网络基础设施的支柱,以及如今究竟发生了什么变化。

起点:硅与光

利用硅——这一支撑现代微电子的材料——来引导和操控光的想法可以追溯到 20 世纪 80 年代中期。Richard Soref 的早期工作,以及随后硅绝缘体(SOI)平台的发展,为现代形式的硅光子学奠定了基础:与 CMOS 制造兼容的光波导,并且有可能与电子器件在同一技术基础上共存。

DARPA 很早就认识到,这不仅仅是学术上的好奇心,而是一个具有潜在实际应用价值的平台。通过其 EPIC 项目,该机构资助了麻省理工学院、加州大学圣塔芭芭拉分校以及其他研究团队的工作,这些工作产出了多个关键构建模块:硅基锗光电探测器以及混合硅激光器。激光器尤为重要,因为硅本身无法产生光,而激光器的集成多年来一直是行业的核心工程挑战之一。

最早显著的商业突破之一来自 Luxtera。该公司于 2001 年诞生于加州理工学院生态体系,押注于在标准 CMOS 工艺中制造的光子集成电路。到 2012 年,Luxtera 已报告出货其第 100 万个 10Gb 硅光子通道,并在 2019 年被 Cisco 收购,以扩展其在超大规模、企业和服务提供商市场中的光学能力。

IBM 走了一条并行路径。在十多年的研究之后,公司于 2012 年宣布已将硅纳米光子技术转移到商用的 90 纳米 SOI CMOS 代工工艺中。

这一突破的核心意义在于:波分复用组件、调制器、探测器以及电子晶体管可以在同一生产线上并排制造。对于行业来说,这是硅光子学开始从优雅的科学演示转变为具有真实制造经济性的技术的重要时刻。

Intel 在多年内部开发后进入商业阶段,并从 2016 年开始将硅光子可插拔模块投入大规模部署。如今,该公司表示已出货超过 800 万个光子集成电路,以及超过 3200 万个集成片上激光器,这些都嵌入在用于数据中心的可插拔光收发器中。这强烈表明,硅光子学早已超越小众阶段,成为工业网络基础的一部分。

可插拔时代:灵活性这一杀手级特性

如果不带浪漫化地看待硅光子学的早期历史,真正的赢家并不是“光子芯片”这一抽象概念,而是一种非常具体的产品形态:可插拔收发器。SFP、SFP+、QSFP28、QSFP-DD、OSFP——这些可以热插拔、插入交换机或路由器前面板笼中的模块,建立在更长的传统光传输标准和收发器形态演进之上。这种形态被证明与网络运维的现实高度兼容。

从运营商、云服务提供商或分布式 IT 基础设施拥有者的角度来看,这种主导地位的逻辑非常清晰。可插拔模块允许在不更换机箱的情况下改变传输距离、接口类型和光学等级;可以为不同场景储备不同模块;并且能够在不影响整体平台的情况下快速本地更换故障单元。这正是为什么可插拔光学几十年来一直是数据中心、传输网络和企业网络的基础形态。

硅光子学本身并没有颠覆这一世界,而是融入其中。Intel 以数百万规模销售硅光子可插拔模块;其他厂商围绕硅光子打造了完整的 QSFP 和 OSFP 收发器产品线。该技术提升了集成度,改善了制造特性和可靠性,但产品形态本身依然熟悉且便于运维。

笼子的极限

那么,为什么现在会发生变化?如果硅光子可插拔模块已经成熟、广泛部署且仍然有价值,为什么市场还需要共封装光学?

答案在于物理——更具体地说,是交换芯片 ASIC 与前面板笼之间发生的情况。在经典的可插拔架构中,高速电信号必须从芯片出发,通过印刷电路板走线传输到面板模块,并在那里才被转换为光信号。在 100Gbps 甚至部分 400Gbps 时代,这一路径仍然可控。但随着行业迈向 1.6Tbps 以及更高密度,每增加一单位电气距离,在信号完整性和功耗预算上的代价都会急剧上升。
这正是 CPO
所解决的问题:将光引擎尽可能靠近交换芯片,使电气路径缩短到毫米级,大量损耗随之消失,同时每比特传输的能耗也显著降低。在实际层面,这意味着更低功耗、更高密度,以及在前面板电气路径成为系统级瓶颈的速率下更稳定的运行。

Broadcom:CPO 先行者

在 Nvidia 将共封装光学塑造成 AI 基础设施核心叙事之一之前,Broadcom 已经默默而系统地构建这一技术数年。早在 2021 年,公司就公开展示了 Humboldt——基于 Tomahawk 4 的 25.6Tbps 共封装光学交换机——随后发展为 Bailly,即首个向客户出货的 51.2Tbps 共封装光学以太网交换机。

在第二代产品中,这一设计尤具启发性:Bailly 将八个 6.4Tbps 的硅光子光引擎直接集成到交换封装中。Broadcom 及其合作伙伴不仅在改进硅本身,还在完善使该平台走出实验室所需的全部周边要素:热设计、封装与测试流程、操作流程、光纤布线、插座、笼体、连接器以及完整交换系统。这并非一次炫目的发布,而是跨多个产品代际的系统性工程演进。
因此,Broadcom 最重要的信号并非承诺,而是量产指标。公司公开报告称,在 Meta 环境中已累计实现 100 万个 400Gb 等效端口小时的无抖动 CPO 运行,其合作伙伴也已将量产级系统推向市场。例如,Delta 展示了基于 Tomahawk 5 Bailly 的三机架单元系统,支持风冷和液冷,并宣称相比传统可插拔交换机可节省超过 30% 的功耗。

在 2025 年,Broadcom 还发布了第三代 CPO 技术(单通道 200Gbps),并确认正在开发第四代(单通道 400Gbps)。这表明,公司并非打造单一展示产品,而是在为 AI 横向扩展与纵向扩展网络构建路线图。

Nvidia 入局:AI 工厂的催化剂

接下来是使这一话题真正进入更广泛市场视野的关键。Nvidia 于 2025 年 3 月发布 Spectrum-X Photonics 和 Quantum-X Photonics,并在 2025 与 2026 年期间,将硅光子纳入其 AI 工厂整体架构叙事。同时,根据其公开资料与合作伙伴公告,目前更准确的说法并非“已大规模普及”,而是该平台已进入产品线,并被主要客户规划用于下一代系统。

在技术路径上,Nvidia 与 Broadcom 有所不同。它并未采用完全单体封装的光学,而是使用可拆卸光学子组件:围绕每个交换 ASIC 排布的可更换光模块。这使得运维更加现实——故障光模块可以在不更换 ASIC 的情况下替换。对于行业而言,这是一个关键工程分叉点,因为可维护性一直是 CPO 的核心问题之一。

该方案的技术基础是 TSMC 的 COUPE 平台与 SoIC-X 堆叠:光子集成电路与电子集成电路通过超短接口连接。Nvidia 描述其使用微环调制器与 1.6Tbps 光引擎,以降低功耗并提升 AI Fabric 网络的可靠性。换言之,这里的光学并非独立产品,而是整体系统设计的一部分。

设计哲学的差异

在这一发展中,Broadcom 与 Nvidia 代表了两种不同理念。Broadcom 构建的是横向、生态友好的模型:以以太网为基础的 CPO,通过 OEM 合作伙伴进入更开放的交换机市场。这对于生活在多层架构和渐进式技术引入环境中的运营商尤为重要。

而 Nvidia 构建的是纵向一体化堆栈。Quantum-X Photonics 和 Spectrum-X Photonics 并非独立存在,而是与 GPU 节点、NVLink、NCCL、InfiniBand 和以太网网络以及 AI 工厂整体逻辑紧密耦合。当 Nvidia 展示这些交换机时,它展示的不是单一网络产品,而是计算与网络协同设计的体系。

不变之处:运营者视角

尽管 CPO 意义重大,但不应夸大结论。上述所有内容主要适用于大型 AI 数据中心与超大规模集群中的固定拓扑。在这些环境中,网络结构是预定义的,功耗效率、密度和可预测扩展最为重要,此时 CPO 成为自然的下一步。
但在运营商传输网、城域网和企业汇聚场景中,可插拔光学不会消失。其价值依然建立在:

  • 可在不更换平台的情况下调整距离与光学类型;
  • 可在现场快速更换故障模块;
  • 可在同一产品系列中支持不同距离与运维模式。

因此,在对灵活性要求高于极致集成密度的场景中,QSFP-DD、OSFP 以及相干可插拔模块仍将长期作为基础设施的核心。

对于客户而言,未来几年在可插拔光学与 CPO 之间的选择,并不是技术潮流问题,而是架构匹配问题。在某些场景(尤其是高密度、预定义拓扑的 AI Fabric 网络)中,CPO 在功耗、密度和可靠性方面具有明显优势。而在其他场景(尤其强调灵活性和可替换性)中,可插拔光学仍将是更合理的选择。这一边界,正是当前新一代数据中心与 AI 集群设计的关键决策点。

展望未来

Nvidia 在 GTC 2025 与 GTC 2026 中强调的内容,以及 Broadcom 通过路线图与 Meta 实测结果所验证的事实,都指向一个结论:共封装硅光子技术已经跨越门槛,不能再被视为纯研究课题。平台、供应链与生态已基本就位:包括 TSMC 的代工能力、光学器件供应商、封装伙伴、系统集成商以及参考设计。

从历史角度看,从早期硅波导概念到光学直接贴近交换芯片的系统,这一技术路径确实标志着一个成熟周期的完成。但同样重要的是,这一周期并不会取代可插拔世界,而是为其增加了一类新的架构选项。

对于像 IPTP Networks 这样运营全球网络与数据中心的公司而言,这一演进的实际意义并不是宣告“可插拔时代的终结”,而是更精准地理解新模型在哪些场景下真正具有优势。如果今天一个团队正在设计 AI 集群、升级数据中心网络或评估向 800Gbps 或 1.6Tbps 迁移,正确的起点不是选择厂商,而是进行架构评估:在哪些地方 CPO 能真正改善经济性与运维,在哪些地方可插拔仍是最优解。
接下来的发展不会围绕概念炒作,而是围绕工程实践:包括全球部署、维护以及运维适配。从这个意义上说,设备在变化,但工程方法本身并未改变。

参考资料

  1. NVIDIA 宣布 Spectrum-X Photonics 共封装光学网络交换机,用于将 AI 工厂扩展到数百万 GPU。
  2. GTC 2026 主题演讲及相关资料。
  3. NVIDIA 技术博客:基于硅光子的网络交换开启数据中心网络新时代。
  4. NVIDIA 技术博客:通过共封装光学提升 AI 工厂的能效。
  5. NVIDIA 关于 SC25 及 TACC、Lambda、CoreWeave 集成的博客。
  6. TSMC COUPE 与 SoIC-X 发布。
  7. Broadcom:发布第三代共封装光学技术(单通道 200Gbps)。
  8. Broadcom:展示 CPO 的行业领先质量与可靠性。
  9. Broadcom:推出首个 51.2Tbps 共封装光学以太网交换机。
  10. Delta Electronics / COMPUTEX 2025 CPO 交换机发布。
  11. APNIC 博客:共封装光学深度解析。
  12. DARPA EPIC 项目概述。
  13. IBM Research:光子器件与 90nm CMOS 纳米光子集成研究。
  14. IBM 关于硅纳米光子制造转移的资料。
  15. Cisco 收购 Luxtera 相关资料。
  16. Luxtera:第 100 万个硅 CMOS 光子 10Gb 通道里程碑。
  17. Intel 硅光子官方页面。
  18. Intel 光学 I/O 出货公告。
  19. Meta Engineering:100G 光连接设计。
  20. Richard Soref 与硅光子历史背景。
  21. 光收发器市场背景。

索取报价

你们准备好开始了吗?

索取报价