リンクをコピーしました!

380億ドルの賭け:OpenAIがAWSシリコンに軸足を移す

OpenAIは、AWSとの380億ドル規模の提携によりインフラストラクチャを多様化しており、Microsoft AzureとNVIDIA CUDAへの純粋な依存からの脱却を示唆しています。

🌐
機械翻訳

この記事は英語の原文から自動翻訳されています。 英語の原文を読む

データセンター内の未来的なマイクロチップ上のOpenAIとAWSのロゴのサイバーパンクビジュアライゼーション。

「シングルクラウド」AI 独占の時代は正式に終わりました。 2025 年 11 月 3 日、Microsoft の Azure エコシステムの長年の至宝である OpenAI が、アマゾン ウェブ サービス (AWS) と 7 年間で 380 億円のインフラストラクチャ パートナーシップを締結したという発表により、業界は激震しました。 これは単なる生産能力の拡大ではありません。 それは世界の AI 勢力図の根本的な再構築です。

長年にわたり、OpenAI の成長は Azure のコンピューティング クラスターと同義でした。 しかし、フロンティア モデルの需要が数十億から数兆のパラメーターに移行するにつれて、Azure と NVIDIA の関係の限界が明らかになりました。 OpenAI は、トレーニングと推論のワークロードのかなりの部分を AWS に移行することで、単にサーバーを購入する以上のことを行っています。 同社は AWS のカスタム シリコン、特に Trainium および Inferentia ファミリに賭けて、10 年間にわたって AI 経済を定義してきた「CUDA 税」を打破している。

フック: なぜ今 380 億ドルが重要なのか

2025 年後半、AI 業界は「効率の壁」に到達しました。 次世代モデル (GPT-6 以降を考えてください) のトレーニングには、GPU を増やすだけではなくなりました。 より「効率的な」GPU が必要になります。 NVIDIA の H100 チップと Blackwell チップは、そのパフォーマンスで伝説的ですが、消費電力と価格でも伝説的です。 チップあたり 30,000 ドルから 40,000 ドルかかり、100 万 GPU クラスターに拡張するには、OpenAI の支援者ですら気が遠くなるような資本支出が発生します。

380 億円の AWS 契約を締結します。 この契約は標準の NVIDIA インスタンスを対象としたものではありません。 これは、AWS Trainium2 と最近発表された Trainium3 (Trn3) Ultraservers に依存する戦略的な動きです。 OpenAI は、AWS カスタム シリコンに移行することで、標準的な GPU ベースのクラスターと比較して価格パフォーマンスの 40 ~ 50% の向上を目指しています。 これにより、OpenAI は同じドルでより多くの反復トレーニングを実行できるようになり、Anthropic や Google との競争において重要な利点となります。

技術的な詳細: CUDA 独占を打破する

OpenAI が NVIDIA の CUDA エコシステムから離れる理由を理解するには、シリコン自体に注目する必要があります。 長年にわたり、NVIDIA の利点はソフトウェア スタックでした。 CUDA (Compute Unified Device Architecture) により、研究者は GPU 上で高速に実行されるコードを簡単に作成できるようになりました。 しかし AWS は、これに対抗するスタックである Neuron を密かに構築しています。

Trainium2 のアーキテクチャ

この取引のバックボーンとして機能する AWS Trainium2 チップは、大規模な高性能ディープラーニング トレーニングを目的として設計されています。 汎用 GPU とは異なり、Trainium は AI に必要のない「レガシー」グラフィックス ハードウェアを削除し、テンソル処理に完全に焦点を当てます。

  1. メモリ帯域幅: Trainium2 はチップあたり 192GB の HBM3 メモリを備えています。 生の TOPS (Tera Operations Per Second) は NVIDIA の H100 と競合しますが、秘密のソースは相互接続です。 AWS の Elastic Fabric Adaptor (EFA) を使用すると、これらのチップが単一の巨大なプロセッサであるかのように相互に通信できるようになります。
  2. エネルギー効率: 熱はデータセンターの敵です。 Trainium2 クラスターは、同等の Hopper クラスターと比較して、FLOP あたりの消費電力が 25 ~ 30% 低いことが報告されています。 1 回のトレーニング実行で 100 メガワットを消費している場合、電力の 30% 削減が、リリースの成功と局所的な送電網障害の違いとなります。
  3. Neuron SDK: AWS の Neuron コンパイラーは、最小限の手動チューニングで、OpenAI が使用するフレームワークである PyTorch モデルと JAX モデルを Trainium シリコンに自動的にマッピングできる成熟レベルに達しました。 これにより、これまでエンジニアが NVIDIA に閉じ込められていた「移植コスト」が削減されます。

トレイニウム3の台頭

2025 年 12 月、AWS は Trainium3 (Trn3) Ultraservers が一般提供され、これを次のレベルに引き上げたと発表しました。 これらのユニットは、64 個の Trainium3 チップを単一の完全水冷シャーシにパッケージ化しており、100 ペタフロップスを超える FP8 パフォーマンスを提供します。 重要なのは、Trainium3 は、Blackwell クラスの GPU と比較して大幅なエネルギー効率のリードを維持しながら、前世代と比較して 4 倍のパフォーマンス向上を実現します。 伝えられるところによると、OpenAI はこれらのウルトラサーバーのリードテナントであり、単一サーバーの最大メモリ プールにも収まらないほど大きすぎるモデルでの「分散推論」の先駆者としてウルトラサーバーを使用しています。

Advertisement

コンテキストの歴史: Azure-Microsoft-OpenAI の緊張

AWS のピボットを理解するには、「黄金の手錠」の歴史を理解する必要があります。 2019 年、マイクロソフトは OpenAI に 10 億ドルを投資し、その後のラウンドでさらに数十億ドルを投資しました。 この投資は主に Azure クレジットの形で行われました。 OpenAI は基本的に Microsoft のクラウド上に構築することを余儀なくされました。

これは何年にもわたって共生関係でした。 Microsoft は世界最高の AI を独占的に見ることができ、OpenAI はほぼ底なしのコンピューティングの穴を手に入れることができました。 しかし、2024 年から 2025 年に変わるにつれて、次のような摩擦点が生じました。

  • 容量の制約: Microsoft の積極的な増強にもかかわらず、OpenAI は Microsoft 社内の「Copilot」チームと H100 を争っていました。
  • ソブリン AI トレンド: 各国や中小企業が独自のソブリン クラウドを構築し始めるにつれ、単一のプロバイダーに固定されるという考えが OpenAI にとって戦略的リスクとなりました。
  • Anthropic と Apple の要素: Anthropic は当初から AWS パートナーでした。 さらに、2024 年後半に Apple がモデルトレーニングに Trainium2 を公的に使用したことは、業界での大規模な検証として機能しました。 OpenAI は、これらの競合他社の成功を観察することで、競合他社が回避している「マイクロソフト税」を潜在的に支払っていることに気づきました。

この AWS との契約は、OpenAI が Microsoft を離れることを意味するものではありません。 これは、OpenAI が マルチクラウド になりつつあることを意味します。 エンタープライズ テクノロジーの世界では、シングルクラウドであることは責任を伴います。 分析によると、2026 年までに、OpenAI は「トリプル クラウド」戦略に基づいて運用されることになります。Azure が消費者向け製品の主要拠点として、AWS がフロンティア研究と大規模トレーニングに、潜在的に Google Cloud または Oracle が特殊なエッジ推論タスクに使用されることになります。

将来を見据えた分析: 「シリコン主権」の時代

380億ドルの賭けは、「シリコン主権」時代に倒れた最初の大きなドミノだ。 業界は、1 社 (NVIDIA) がチップを設計し、3 社 (Amazon、Microsoft、Google) がチップをレンタルする世界から脱却しつつあります。 移行は 垂直統合 に向かって進んでいます。

「CUDA ギャップ」の将来

NVIDIA は立ち止まっておらず、Blackwell B200 シリーズは、未加工の最適化されていないワークロードのパフォーマンス キングであり続けています。 しかし、OpenAI の規模の企業では、NVIDIA のソフトウェアの利点である「CUDA ギャップ」が埋まりつつあります。 2,000 人のエリート エンジニアがいる場合、AWS シリコンの最適化に 6 か月を費やしてクラウド コストを 100 億円節約できるのであれば、それだけの価値があります。

次に何が起こるのか?

  1. 価格戦争: AWS が他の Tier-1 ラボに「OpenAI レベルの価格設定」を提供して、積極的に Azure から引き離すことを期待します。 Anthropic と OpenAI の両方が AWS 上にある場合、AI 研究者が AWS に引き寄せられる重力測定の魅力は、ほぼ抗えないものになるでしょう。
  2. Microsoft の対応: Microsoft が独自の「Maia」AI チップの展開を加速することに注目してください。 Microsoft が AWS のシリコン効率に匹敵できない場合、研究所がもはや支払うことができないマージンで NVIDIA ハードウェアを再販するだけの「ダムパイプ」になるリスクがあります。
  3. 「エネルギー ゲート」: 次のボトルネックはチップではありません。 それは変圧器、具体的には電気の種類であり、AI の種類ではありません。 AWS との契約には、再生可能エネルギー調達に関する条項が含まれており、負荷を処理できる送電網がある場合にのみ 380 億円を費やすことができるという認識です。

あなたにとっての結論

あなたが投資家またはテクノロジー リーダーであれば、重要な点は明らかです。 コンピューティングの多様化が新たな生存戦略です。 単一のハードウェア ベンダーや単一のクラウド プロバイダーにすべてを賭ける時代は終わりました。 OpenAI の AWS への移行は、AI インフラストラクチャ市場が最終的に競争力のあるマルチベンダー環境に成熟しつつあることを示しています。

380 億ドルの賭けは OpenAI の将来に関するものだけではありません。 これは、AI 革命の次の段階でどのように資金が調達され、電力が供給されるのかを示す青写真です。 「クラウド戦争」は核段階に入ったばかりです。


AI インフラストラクチャに関する技術的な詳細については、Anthropic の 500 億ドルの AWS への賭け の分析を確認するか、Google の TPU 戦略 が現状にどのように挑戦しているかをご覧ください。

出典

Advertisement

🦋 Discussion on Bluesky

Discuss on Bluesky

Searching for posts...