“单一云” AI 垄断的时代正式结束了。2025 年 11 月 3 日,业界震惊于 OpenAI——长期以来微软 Azure 生态系统的皇冠明珠——与 Amazon Web Services(AWS)签署了一份为期七年、价值 $38 billion 的基础设施合作协议。这不仅仅是扩容;它从根本上重塑了全球 AI 权力版图。
多年来,OpenAI 的增长几乎等同于 Azure 计算集群的扩张。但随着前沿模型的需求从数十亿参数迈向数万亿参数,Azure-NVIDIA 合作模式的局限性已经显现。通过将大量训练和推理工作负载转向 AWS,OpenAI 所做的远不止购买服务器;它押注于 AWS 的定制芯片,特别是 Trainium 和 Inferentia 系列,以打破定义了 AI 经济学长达十年的 “CUDA 税”。
引子:为什么 $38 Billion 现在至关重要
2025 年末,AI 行业撞上了一道 “效率墙”。训练下一代模型(想想 GPT-6 及以后)不再只需要更多 GPU;它需要更高效的 GPU。NVIDIA 的 H100 和 Blackwell 芯片以其性能著称,但也以功耗和价格著称。每片芯片 $30,000 到 $40,000,扩展到百万 GPU 集群所需的资本支出,即使 OpenAI 的支持者也感到望而却步。
于是,$38 billion 的 AWS 协议登场。这份合同并非针对标准 NVIDIA 实例,而是一项战略性举措,依赖 AWS Trainium2 以及新近发布的 Trainium3(Trn3)Ultraservers。通过转向 AWS 定制芯片,OpenAI 的目标是实现比标准 GPU 集群高 40-50% 的性价比提升。这让 OpenAI 能用同样的资金运行更多轮训练迭代,在与 Anthropic 和 Google 的竞赛中是关键优势。
技术深潜:打破 CUDA 垄断
要理解 OpenAI 为何离开 NVIDIA 的 CUDA 生态,必须看芯片本身。多年来,NVIDIA 的优势在于软件栈。CUDA(Compute Unified Device Architecture)让研究人员能轻松编写在 GPU 上高速运行的代码。但 AWS 一直在悄悄构建一个对垒方案:Neuron。
Trainium2 的架构
AWS Trainium2 芯片是这笔交易的主干,它的设计目标只有一个:大规模高性能深度学习训练。与通用 GPU 不同,Trainium 去除了 AI 不需要的 “遗留” 图形硬件,完全专注于张量处理。
- 内存带宽:Trainium2 每芯片配备 192GB HBM3 内存。虽然原始 TOPS(每秒万亿次运算)可与 NVIDIA H100 竞争,但真正的秘诀在于互连。AWS 的 Elastic Fabric Adapter(EFA) 让这些芯片彼此通信时如同一个巨型处理器。
- 能效:热量是数据中心的大敌。与同等规模的 Hopper 集群相比,Trainium2 集群每 FLOP 功耗降低 25-30%。当单次训练运行就要消耗 100 兆瓦电力时,30% 的功耗降低意味着一次成功发布与局部电网故障之间的差别。
- Neuron SDK:AWS Neuron 编译器已足够成熟,可以自动将 OpenAI 使用的 PyTorch 和 JAX 模型映射到 Trainium 芯片上,几乎无需手动调优。这降低了此前将工程师锁定在 NVIDIA 上的 “迁移成本”。
Trainium3 的崛起
2025 年 12 月,AWS 宣布 Trainium3(Trn3)Ultraservers 已全面可用,将这一切推向新高度。这些设备将 64 颗 Trainium3 芯片封装在一个全液冷机箱中,提供超过 100 Petaflops 的 FP8 性能。关键的是,Trainium3 较前代性能提升 4 倍,同时在与 Blackwell 级 GPU 的能效对比中保持显著领先。据报道,OpenAI 是这些 Ultraservers 的主要租户,正利用它们率先在连最大单服务器内存池都容纳不下的超大模型上实现 “分布式推理”。
背景脉络:Azure、微软与 OpenAI 之间的张力
要理解 AWS 转向,必须先了解 “黄金手铐” 的历史。2019 年,微软向 OpenAI 投资 $1 billion,随后几轮又追加数十亿。这笔投资主要以 Azure 额度形式进行,OpenAI 实质上被迫在微软云上构建。
多年来这是一种共生关系:微软得以独家接触全球最先进的 AI,OpenAI 则获得了几乎取之不尽的算力。然而,随着 2024 年进入 2025 年,摩擦点开始显现:
- 容量限制:即便微软大力扩建基础设施,OpenAI 仍发现自己在与微软内部的 “Copilot” 团队争抢 H100。
- 主权 AI 趋势:随着各国和小企业开始构建自己的主权云,被单一供应商锁定的想法对 OpenAI 构成了战略风险。
- Anthropic 与 Apple 的因素:Anthropic 从一开始就是 AWS 的合作伙伴。此外,Apple 在 2024 年底公开使用 Trainium2 进行模型训练,为行业提供了有力背书。通过观察这些同行的成功,OpenAI 意识到自己可能在缴纳一笔竞争对手都在规避的 “微软税”。
这份 AWS 协议并不意味着 OpenAI 要离开微软。它意味着 OpenAI 正在走向多云。在企业科技界,单一云是一种负债。分析指出,到 2026 年,OpenAI 将采用 “三云” 战略:Azure 作为消费级产品的主要阵地,AWS 负责前沿研究和大规模训练,Google Cloud 或 Oracle 可能承担专门的边缘推理任务。
前瞻分析:“硅主权” 时代
这 $38 billion 的赌注是 “硅主权” 时代倒下的第一块主要多米诺骨牌。行业正告别由一家公司(NVIDIA)设计芯片、三家公司(Amazon、Microsoft、Google)出租芯片的世界,转变正朝垂直整合迈进。
“CUDA 鸿沟” 的未来
NVIDIA 并未止步,Blackwell B200 系列在原始、未经优化的负载中仍是性能之王。然而,对于 OpenAI 这种规模的公司来说,“CUDA 鸿沟”——NVIDIA 的软件优势——正在缩小。当你拥有 2,000 名顶尖工程师时,若能为 AWS 芯片优化六个月即可节省 $10 billion 云成本,这笔投入完全值得。
接下来会发生什么?
- 价格战:预计 AWS 会向其他一线实验室提供 “OpenAI 级别” 的定价,积极吸引它们离开 Azure。如果 Anthropic 和 OpenAI 都在 AWS,AI 研究人员流向 AWS 的引力将变得几乎不可抗拒。
- 微软的应对:关注微软是否会加速推出其自研 “Maia” AI 芯片。如果微软无法匹敌 AWS 的芯片效率,它们可能沦为 “哑管道”,仅以实验室再也无法承受的利润率转售 NVIDIA 硬件。
- “能源关口”:下一个瓶颈不是芯片;而是变压器,确切地说是电力变压器,而非 AI 里的 Transformer。AWS 协议包含可再生能源采购条款,这认识到只有当电网有能力承载负荷时,这 $38 billion 才花得出去。
给你的核心结论
如果你是投资者或技术领袖,结论很明确:计算多元化是新的生存战略。 把一切都押在单一硬件供应商或单一云服务商身上的时代已经结束。OpenAI 转向 AWS 表明,AI 基础设施市场终于正在走向竞争激烈、多厂商共存的格局。
这 $38 billion 的赌注不仅关乎 OpenAI 的未来;它也是下一阶段 AI 革命将如何融资与供能的蓝图。“云战争” 刚刚进入核阶段。
想阅读更多关于 AI 基础设施的技术深度分析,请查看 Anthropic 的 $50B AWS 押注 解读,或了解 Google 的 TPU 战略 如何挑战现状。
🦋 Discussion on Bluesky
Discuss on Bluesky