基盤となる大規模言語モデルから複雑なマルチステップ エージェント システムへの AI の進化により、半導体設計に根本的なパラダイム シフトが起こりました。10 年近くの間、AI アクセラレータ アーキテクチャの主流のロジックは統合でした。シリコン設計者は、モデルの事前トレーニングの大規模でスループット重視のワークロードと、本番環境の推論のレイテンシに敏感な要求を同時に実行できる単一のモノリシック アーキテクチャを設計しようとしました [引用: 1、2]。この統合アプローチは、最初のハードウェア アクセラレータの開始から Google Cloud Tensor Processing Unit(TPU)第 7 世代のデプロイまで、業界を支配していました [引用: 2、3、4]。
しかし、フロンティア モデルが数兆個のパラメータにスケールアップし、Mixture-of-Experts(MoE)や継続的なエージェント フィードバック ループなどのリアルタイム推論アーキテクチャが標準になると、トレーニングとサービングのハードウェア要件は不可逆的に分岐します [引用: 5、6、7]。事前トレーニングは帯域幅とスループットの最適化問題として確立されており、驚異的なスケールアップ機能、大規模な相互接続の二分帯域幅、継続的な行列数学の飽和が必要です [引用: 6]。一方、エージェント サービングは、レイテンシとメモリの制約を受ける問題として浮上しています。これは、グローバル同期オペレーションでボトルネックが発生することなく、重みと Key-Value(KV)キャッシュを処理コアにストリーミングできる速度によって制限されるためです [引用: 6、8]。
両方のワークロードを同一のシリコンに強制的に配置すると、システム的な非効率が生じ、経済的収益が減少することを認識した Google は、第 8 世代の TPU ラインナップを二分するという前例のないアーキテクチャ上の決定を下しました [引用: 1、6、9]。その結果、サプライ チェーン レベルまで設計された 2 つの異なる高度に特殊化されたチップが誕生しました。スーパーコンピュータ規模で膨大なトレーニング スループットを実現するように設計された TPU 8t と、推論メモリの壁を打ち破り、グローバル推論の集団レイテンシを最小限に抑えるように設計された TPU 8i です [引用: 7、9]。
この包括的なリサーチ レポートでは、TPU 7x の統合ベースラインと、新たに分岐した TPU 8t および TPU 8i のアーキテクチャ、パフォーマンス、スケーリングの違いを分析しています。ロジック設計、多層メモリ階層、データセンター相互接続トポロジ、光回路スイッチング、ハードウェアとソフトウェアの共同設計を徹底的に調査することで、次世代の AI の経済的および計算上のスケーリングを維持するために、特殊なシリコンがどのように必要になるかを明らかにしています。
歴史的背景: 専門化への軌跡
第 8 世代で採用されたアーキテクチャの変更を十分に理解するには、TPU ファミリーの反復的な進化を追跡することが不可欠です。Google のハードウェア開発は、常に最新の ML モデルのボトルネックを反映しており、単純な推論の高速化から大規模なクラスタースケールのトレーニング ファブリックへと進化しています [引用: 10、11]。
推論から大規模な行列配列へ
Google は 2015 年に、検索、翻訳、YouTube のおすすめなどの内部サービスの増大する計算負荷を処理するために設計された推論専用アクセラレータとして TPU v1 を導入しました [引用: 11、12]。v1 では、8 ビット整数演算を使用して、汎用の中央処理装置(CPU)やグラフィック処理装置(GPU)と比較して、ワットあたりの演算数を大幅に改善しました [引用: 10、11]。2017 年までに、TPU v2 はトレーニング機能への移行をマークし、bfloat16(BF16)形式を導入しました。これは、32 ビット浮動小数点数のダイナミック レンジを維持しながら、メモリ消費量を半分に削減する 16 ビット浮動小数点形式です [引用: 10]。
第 3 世代から第 5 世代では、コア コンピューティング エンジンである行列乗算ユニット(MXU)が最適化されました。数世代にわたり、MXU は 128x128 のシストリック アレイのままで、16,384 の乗累算演算を同時に実行できました [引用: 4、10]。TPU v4 では、エンベディング検索と不規則なメモリアクセスを高速化するために特別に設計された専用のハードウェア ブロックである「SparseCore」が導入されました。これにより、レコメンデーション モデルのトレーニング中に MXU が停止するのを防ぐことができます [引用: 4、6]。
地形の進化と Trillium(v6e)
モデルサイズが大きくなるにつれて、数千ものチップ間でグラデーションを同期するために必要な相互接続トポロジが進化しました。Google は、小規模で費用対効果の高い Pod(v5e や v6e など)に 2 次元トーラス トポロジをデプロイし、最大 256 個のチップまでスケーリングを簡素化しました [引用: 4、10]。パフォーマンス最適化バリアント(v4 や v5p など)では、Google は 3 次元トーラス トポロジを使用しました。このトポロジでは、チップが 3 次元ラップアラウンド グリッドで接続され、4,096 ~ 8,960 個のチップで構成される大規模な Pod サイズ全体で通信レイテンシが短縮されます [引用: 4]。
現代の直前の前身は、2024 年後半にリリースされた TPU v6e(Trillium)です。Trillium は、MXU を 128x128 配列から 256x256 配列に拡張することで、アーキテクチャを大幅に飛躍させました [引用: 10]。これにより、サイクルあたりの乗算アキュムレート演算が 4 倍になりました。チップ間相互接続(ICI)の帯域幅が 3,200 Gbps(双方向合計 13 TB/秒)に倍増し、チップあたり 32 GB の高帯域幅メモリ(HBM)と組み合わせることで、Trillium は前身の 4.7 倍のピーク コンピューティングを実現し、エネルギー効率は 67% 向上しました [引用: 10、11]。
| TPU 世代 | リリース年 | プライマリ イノベーション | トポロジーと最大 Pod サイズ | MXU アーキテクチャ | チップあたりのピーク コンピューティング |
|---|---|---|---|---|---|
| TPU v2 | 2017 | 最初のトレーニング対応(BF16) | 2D トーラス(512 チップ) | 128x128 | 約 45 TFLOPS |
| TPU v4 | 2021 | SparseCore の概要 | 3D トーラス(4,096 チップ) | 128x128 | 275 TFLOPS |
| TPU v5e | 2023 | 費用対効果の高い効率 | 2D トーラス(256 チップ) | 128x128 | 197 TFLOPS |
| TPU v5p | 2023 | パフォーマンスのスケールアップ | 3D トーラス(8,960 チップ) | 128x128 | 459 TFLOPS |
| TPU v6e(Trillium) | 2024 | 256x256 MXU 拡張 | 2D トーラス(256 チップ) | 256x256 | 918 TFLOPS |
統合型アーキテクチャの頂点: TPU 7x
2025 年後半に一般提供が開始される第 7 世代 TPU 7x は、Google の統合アーキテクチャ戦略の頂点を表しています。TPU 7x は、最先端のスケールの事前トレーニングとデコードを多用する推論の両方を単一のアーキテクチャ フレームワーク内で実行するように設計されており、デュアルパーパス アクセラレータが達成できる限界を押し広げました [引用: 3、10]。
デュアル チップレット設計と AlphaChip の最適化
TPU 7x の物理構造は、v4 と v5p に見られる単一の論理コア(MegaCore)アーキテクチャから大幅な変化を遂げました [引用: 3]。TPU 7x はデュアル チップレット アーキテクチャを採用しています。各 TPU 7x チップは、独自の高速ダイ間(D2D)インターフェースで接続された 2 つの独立した自己完結型のチップレットで構成されています [引用: 3]。この D2D 接続は、標準の 1 次元 ICI リンクの 6 倍の速度で動作し、チップレットが独自の専用メモリ空間を維持しながら高速で通信できるようにします [引用: 3]。
完全な統合チップ全体で、TPU 7x には 2 つの TensorCore と 4 つの SparseCore が搭載されています [引用: 3]。シリコン マトリックス上のこれらのコアの物理レイアウトは、Google 独自の強化学習ツールである AlphaChip を使用して最適化され、ワイヤ長が最小限に抑えられ、熱効率が最大化されています [引用: 10]。TPU 7x の標準の仮想マシン(VM)構成では、4 つのチップが CPU ホストに接続され、224 個の vCPU と 960 GB の RAM が公開されます [引用: 3]。
多層メモリ階層と精度形式
高密度モデルと MoE モデルの処理における重要なボトルネックは、ストレージ階層間のデータの継続的な移動です。TPU 7x は、拡張された MXU を飽和状態に保つように設計された堅牢なマルチティア メモリ システムを備えています。 * 高帯域幅メモリ(HBM3E): 各 TPU 7x チップには 192 GB の HBM が搭載されており、7.37 TB/秒(7,380 GBps)の巨大なメモリ帯域幅を実現しています [引用: 3、10]。Trillium の 6 倍の容量増加により、トレーニング中のバッチサイズを大幅に大きくすることができ、推論中にオンチップでより大きな KV キャッシュを保持できるため、低速のホストメモリへのオフロードに関連する高コストのレイテンシ スパイクを防ぐことができます [引用: 4、10、13]。* ベクトル メモリ(VMEM): 超高速のオンチップ SRAM スクラッチパッドとして機能します。各 TensorCore には 64 MiB の VMEM(チップあたり合計 128 MB)が搭載されています。VMEM は、HBM よりも MXU への帯域幅が大幅に向上しています [引用: 3、14]。スコープ付き VMEM チューニングにより、デベロッパーは現在の計算スコープと将来の重みプリフェッチの間でメモリを再割り当てできます。これにより、カーネル タイルサイズを大きく(フラッシュ アテンションで使用されるものなど)し、メモリストールを減らすことができます [引用: 13、14]。* ホストメモリ(PCIe): PCIe ネットワーク経由で接続され、システムのホストメモリは、オプティマイザーの状態とアクティベーションをオフロードし、HBM 容量を超えるモデルのメモリプレッシャーを管理するために使用されます [引用: 3、14]。
さらに、TPU 7x では 8 ビット浮動小数点(FP8)精度のネイティブ ハードウェア アクセラレーションが導入されました [引用: 4、13]。標準の 16 ビット形式(BF16 または FP16)から移行することで、FP8 表現はピーク計算スループットを 2 倍に高め、重みとアクティベーションの保存に必要なメモリ使用量を半分に削減します [引用: 4、13]。FP8 でネイティブに動作する単一の TPU 7x チップは、BF16 で動作する場合の 2,307 TFLOPS と比較して、4,614 TFLOPS のピーク コンピューティング能力を実現します [引用: 3、4]。
3D トーラス トポロジとスーパーポッドのスケール
データセンター レベルでは、TPU 7x は Google の実績のある 3D トーラス相互接続トポロジ [引用: 3] を使用しています。このアーキテクチャでは、各チップが X 軸、Y 軸、Z 軸に沿って最近傍のチップに直接接続され、復元力のある 3 次元メッシュが形成されます [引用: 3]。このメッシュ内の通信は、チップあたり 1.2 TB/秒(1,200 GBps)の ICI 帯域幅によって実現され、軸あたり 200 GBps の双方向通信を提供します [引用: 3]。
完全に実現された TPU 7x スーパーポッドは、9,216 個の液冷チップにスケールアップします。この構成では、ポッドは 42.5 エクサフロップの FP8 コンピューティング能力を提供します [引用: 8、10]。64 個を超えるチップのスライスは、チップのモジュラー 4x4x4「キューブ」を使用して構築され、単一ホスト構成から大規模なマルチホスト環境まで、非常に柔軟なトポロジを可能にします [引用: 3]。
TPU 7x は優れた機能を備えていますが、統合された性質上、固有の妥協点がありました。3D トーラス トポロジは、事前トレーニングに必要なローカルで予測可能なグラデーション同期には非常に効率的ですが、ネットワーク直径が大きくなります。たとえば、3D トーラス上の 1,024 チップの Pod では、ネットワーク直径の最大ホップ数は 16 です [引用: 15、16]。MoE 推論シナリオでは、トークンを Pod 内の任意の場所にあるエキスパート レイヤに迅速にルーティングする必要がありますが、この 16 ホップの距離では、許容できない全対全のテール レイテンシが発生します [引用: 6、15、16]。さらに、エンベディング ルックアップに優れた SparseCore に貴重なシリコン領域を割り当てると、エージェントの Chain-of-Thought ワークフローに不可欠な集団削減エンジンに使用できる領域が減少します [引用: 6、15]。業界は、「万能」アクセラレータの物理的な限界に達していました。
戦略的分岐: 経済的要因とアーキテクチャ要因
第 7 世代から第 8 世代への TPU の移行は、Google のシリコンの歴史において最も重要なアーキテクチャの転換です [引用: 9]。Google Cloud Next 2026 で発表された TPU ラインの 2 つの異なるプロダクト ファミリー(トレーニング用の TPU 8t と推論用の TPU 8i)への分岐は、次の 10 年間の人工知能を推進するワークロードがハードウェア レベルで根本的に両立できないことを示しています [引用: 1、2、17]。
この分割の起源は、AI 開発の経済性と運用強度の違いにあります。フロンティア モデルのトレーニングは、数週間または数か月にわたる継続的なコンピューティングで測定される、非常に資本集約的な 1 回限りの運用費用です [引用: 9]。最大コンピューティング密度、前例のないスケールアップ相互接続帯域幅、マルチモーダル データセットをラインレートで取り込むことができるマルチペタバイトの統合メモリ ドメインが求められます [引用: 9]。
一方、推論は継続的な運用コストであり、ユーザーの需要に応じて線形または指数関数的に増加します [引用: 9]。新たな「エージェント時代」では、AI モデルは単に次のトークンを予測してテキスト ブロックを生成するだけでなく、積極的に推論し、将来のシナリオをシミュレートし、「想像力」を繰り返し、外部 API を呼び出し、継続的なフィードバック ループで他の専門エージェントの群れとやり取りします [引用: 5、7、15]。この動的な処理には、アクティブなコンテキスト ウィンドウを保存するための大量のメモリと、エキスパート ルーティングとグローバル同期のための非常に低いネットワーク レイテンシが必要です [引用: 15、16]。
プロダクト ラインを分割することで、Google はサプライ チェーンの奥深くまでハードウェアを最適化しました。TPU 8t は Broadcom と共同で設計されました。このパートナーシップは 2015 年に遡ります [引用: 9、17、18]。複雑な高速 SerDes 相互接続、高度なパッケージング、大規模なネットワーキングに関する Broadcom の専門知識により、トレーニング ファブリックの物理的な限界を押し上げる理想的なパートナーとなりました [引用: 17、19]。
推論チップについては、Google は従来の慣習を破り、MediaTek と提携して TPU 8i を設計しました [引用: 9、17、18]。電力効率の高い大容量モバイル SoC 設計に関する MediaTek の深い専門知識を活用して、Google はコスト効率の高い推論アクセラレータを作成しました [引用: 17、19]。TPU 8i は、よりシンプルな設計(8t の 2 つのコンピューティング ダイに対して 1 つ)を採用しており、従来の高性能バリアントよりも製造コストが 20 ~ 30% 低いと報告されています。これにより、Google はグローバル サービング容量を経済的に拡張し、企業や消費者向けアプリケーションの需要を満たすことができます [引用: 9、17]。どちらのチップも TSMC の高度な 2 ナノメートル プロセス ノードで製造され、最先端の CoWoS アドバンスト パッケージングを採用して、ロジック ダイと HBM スタックを統合しています [引用: 9、19]。
この二分化戦略の市場検証はすぐに実施されました。大手 AI 研究機関である Anthropic は、Google Cloud との数十億ドル規模の契約を拡大し、2027 年までに 3.5 ギガワットという驚異的なコンピューティング容量を確保することを約束しました。これは、TPU 7x と第 8 世代プラットフォームの両方でアンカー カスタマーとしての役割を果たすことになります [引用: 9、10、20]。
詳細: TPU 8t(事前トレーニングの原動力)
TPU 8t は、数兆個のパラメータを持つ最先端モデルの開発サイクルを数か月から数週間に短縮することを目的とした、妥協のないエンジニアリングの成果です [引用: 5、21]。これは、単にクロック速度を上げるだけでなく、数学演算の精度を再構築し、チップ間の帯域幅を大幅に拡大し、大規模なトレーニング クラスタを悩ませるデータ取り込みのボトルネックを軽減することで実現しています [引用: 6、15]。
デュアルダイ コンピューティング アーキテクチャとネイティブ FP4
物理的には、TPU 8t は 2 つのコンピューティング ダイと 1 つの I/O チプレットで構成される非常に複雑なアーキテクチャを利用しており、12 個の HBM3E メモリの 8 つのスタックが隣接しています [引用: 9]。この高密度パッケージングには高度な熱管理が必要であり、Google の第 4 世代の液冷を使用して、持続的な行列演算によって生成される膨大な熱を放散します [引用: 7、17、22]。
TPU 8t の基本的な進化は、ネイティブ 4 ビット浮動小数点(FP4)精度の導入です [引用: 6、15]。事前トレーニングの数学的要件では、極端な数値精度よりもスループットが重視されます。TPU 8t では、ネイティブ実行を FP8 から FP4 に下げることで、MXU のスループットを 2 倍に高め、同時にパラメータごとにダイ間で物理的に移動する必要があるビット数を半分に削減しています [引用: 6、15]。データ移動を大幅に削減することで、エネルギー消費量の多いメモリ フェッチを最小限に抑え、より大きなモデルレイヤをローカル ハードウェア バッファに快適に収めることができます [引用: 6、15]。
チップの飽和状態を維持するため、TPU 8t はよりバランスの取れた Vector Processing Unit(VPU)のスケーリングを実装しています。これにより、シリコンは量子化、softmax、レイヤ正規化などの重要な順次タスクを、MXU で発生する重い行列乗算と重ね合わせることができます。これにより、コンピューティング コアがアイドル状態になる非行列時間をほぼ排除できます [引用: 6、15]。これらのアーキテクチャの最適化の結果、単一の TPU 8t チップで 12.6 PFLOP の FP4 コンピューティング能力を実現しています [引用: 15、23]。
さらに、推論に重点を置いた兄弟モデルとは異なり、TPU 8t は以前の世代で導入された専用の SparseCore ブロックを保持しています [引用: 1、6、15]。マルチモーダル基盤モデルやレコメンデーション システムで一般的なエンベディングを多用するワークロードは、従来の GPU を機能不全にする不規則なメモリアクセス パターンを示します。SparseCore は非同期で動作し、データ依存の all-gather 演算とエンベディング ルックアップをオフロードします [引用: 6、15]。TPU 8t は、密行列演算を MXU に、スパース演算を SparseCore に分離することで、計算の停止を引き起こす「ゼロ演算」のボトルネックを回避します [引用: 6、15]。
帯域幅、ストレージの取り込み、TPUDirect
FP4 で動作する大規模に高速化された MXU にデータを供給するには、TPU 8t に極端なローカル帯域幅と集約帯域幅が必要です。各チップには 216 GB の HBM3e が搭載されており、6,528 GB/秒で動作します [引用: 15、24]。ただし、フロンティア モデルの規模では、システム制約はシリコンの処理速度から、データセンターがコールド ストレージからペタバイト単位のトレーニング データを取り込む速度に移行することがよくあります。
従来のデータパスのボトルネックを回避するために、Google は TPUDirect RDMA と TPUDirect Storage を統合しました [引用: 5、6、10]。これらのプロトコルにより、TPU の高帯域幅メモリと Google Cloud Managed Lustre 10T などのマネージド ネットワーク ストレージ アレイ間の直接メモリアクセス(DMA)が可能になります [引用: 6、15]。Lustre 並列ファイル システムからネットワーク インターフェース カード(NIC)を介して TPU にデータを直接ルーティングすることで、TPUDirect はホスト CPU とホストの DRAM を完全にバイパスします [引用: 6]。この専用のデータパスにより、TPU 7x 世代でのトレーニングと比較して、ストレージ アクセス速度が 10 倍向上します。これにより、TPU 8t コンピューティング ユニットは、飢餓状態になることなく、マルチモーダル データセットをラインレートで取り込むことができます [引用: 5、6、15]。
メガスケール インフラストラクチャ: Virgo ネットワーク
TPU 8t エコシステムの最も驚くべきアーキテクチャ上の特徴は、ネットワーキング機能です。これにより、システム制約がローカル コンピューティングからデータセンター規模の帯域幅に確実に移行します [引用: 25、26]。
TPU 8t は、ローカル Pod 通信用の基本的な 3D トーラス相互接続を維持し、単一のスーパーポッドで最大 9,600 個のチップと前例のない 2 ペタバイトの共有 HBM までスケールアップしますが、スケールアウト ファブリックは完全に再設計されています [引用: 5、6、15]。この Superpod は、合計 121 エクサフロップの FP4 コンピューティングを実現しています。これは、TPU 7x の 42.5 エクサフロップの 2.8 倍です [引用: 6]。これをサポートするため、ポッド内 ICI 帯域幅がチップあたり 19.2 Tb/s に倍増しました [引用: 4、6、10]。
ただし、これらのスーパーポッドを数百個接続するために、Google は Virgo ネットワークを構築しました [引用: 1、6]。前身のネットワークである Jupiter は、複数のスイッチ階層を介してトラフィックを転送する 3 層の Clos トポロジを利用していました。これにより、レイテンシと帯域幅のボトルネックが発生していました(チップあたり 100 Gbps で上限に達していました)[引用: 25]。
Virgo は、高基数スイッチ(256 ~ 512 個のポートを管理)上に構築されたスケールアウト ファブリックであり、フラットな 2 レイヤのノンブロッキング トポロジを採用しています [引用: 6、15、25]。Virgo はネットワーク階層を物理的に削減することで、レイテンシを大幅に短縮します。このネットワークは、独立した制御ドメインを備えたマルチプレーン設計を採用しており、チップあたり 400 Gbps に移行することで、データセンター ネットワーク(DCN)の生帯域幅を最大 400%(4 倍)向上させています [引用: 6、15、24]。
単一の Virgo ファブリックは、単一のデータセンター施設内の 134,000 個以上の TPU 8t チップをリンクし、1 秒あたり 47 ペタビットという驚異的なノンブロッキング二分割帯域幅を実現します [引用: 1、6、15]。さらに、Google の Pathways ソフトウェアと JAX フレームワークと統合された TPU 8t により、分散トレーニング クラスタは、複数の地理的サイトにまたがる 100 万個を超えるチップを単一の論理トレーニング ジョブとしてスケーリングできます [引用: 1、6、15]。この成果により、グローバルに分散されたインフラストラクチャが単一のシームレスなスーパーコンピュータに変換され、現在の汎用 GPU のスケーリングの制限を大幅に上回ります [引用: 27]。
自律的な再構成と 97% のスループット
数十万個のチップ規模では、ハードウェア障害(トランシーバーの故障からサーマル スロットリングまで)はエッジケースではなく、統計的に必ず発生します。レガシー システムでは、ネットワークの停止が 1 回発生すると、大規模なトレーニング実行が停止し、以前のチェックポイントへのロールバックに手間と費用がかかる可能性があります。フロンティア スケールでは、効率が 1% 低下するごとに、アクティブなトレーニング時間が数日分失われます [引用: 5、6]。
TPU 8t エコシステムは、97% を超える「グッドプット」を目標としています。グッドプットは、有用で生産的なコンピューティング時間と合計稼働時間の比率を定義する指標です [引用: 6、28]。これは、光回路スイッチング(OCS)[引用: 5、6、25] を基盤とする高度な信頼性、可用性、保守性(RAS)機能によって実現されています。システムは、数万個のチップを分析するリアルタイム テレメトリーを通じて、チップ間の相互接続リンクの障害を自律的に検出できます。OCS は、光パスを物理的に再ルーティングして、ハードウェア障害をリアルタイムでバイパスします。この処理には人間の介入は必要なく、重要なことに、アクティブなトレーニング ジョブを中断することはありません [引用: 5、6、28]。
詳細: TPU 8i(推論エンジン)
TPU 8t が極端なブルートフォース スケーリングの演習であるとすれば、TPU 8i はレイテンシの最適化とメモリ アーキテクチャのマスタークラスです [引用: 6]。モデルがリアルタイムのプロダクションに移行するにつれて、特に大規模な Mixture-of-Experts(MoE)モデルやエージェント スワームでは、生のコンピューティング スループットよりも、メモリにアクセスしてネットワーク全体でルーティングできる速度が重要になります [引用: 21、29]。
推論メモリの壁を打ち破る
自己回帰生成では、モデルは出力トークンを順番に生成します。モデルは、新しく生成されたトークンごとに、以前のすべてのトークンとその数学的関係の履歴(Key-Value(KV)キャッシュ)を参照する必要があります [引用: 1、13]。数十万のトークンを分析する長文コンテキスト モデルの場合、この KV キャッシュのサイズは膨大になります。キャッシュがチップの高速オンボード メモリの容量を超えて、低速のホスト CPU メモリに溢れると、計算プロセス全体が停止します。これは「メモリの壁」として広く知られている現象です [引用: 5、8]。
TPU 8i は、この壁を打ち破るために明示的に構築されました。よりシンプルで費用対効果の高いシリコン設計(単一のコンピューティング ダイと 1 つの I/O ダイに 6 スタックの HBM3e を使用)ですが、メモリ容量はサービング用に大幅に最適化されています [引用: 9]。 * HBM 容量と帯域幅: 各 TPU 8i には 288 GB の HBM3E が搭載されており、TPU 7x よりも容量が 50% 増加しています [引用: 5、24、30]。さらに重要なのは、大規模な MoE モデルは推論中にメモリ帯域幅が制限されるため、メモリ帯域幅が 8.6 TB/秒(約 8,601 GB/秒)に引き上げられていることです。これは、トレーニングに重点を置いた TPU 8t よりも約 1.3 倍高速です [引用: 10、15]。 * 大規模なオンチップ SRAM: 最も重要なハードウェアの変更は、チップあたり 384 MB のオンチップ静的ランダム アクセス メモリ(SRAM)の搭載です [引用: 10、15、30]。これは、TPU 7x と TPU 8t の両方よりも 300%(3 倍)の大幅な増加です [引用: 10、15、30]。SRAM は、シリコン マトリックス上で直接利用できる最も高速でレイテンシの低いメモリです。この容量を 3 倍にすることで、TPU 8i は大規模な KV キャッシュを完全にオンダイでホストできます [引用: 15、16]。これにより、トークン履歴が低速のメモリ階層から取得されるのを待っている間に処理コアがアイドル状態になるのを防ぎ、前例のない流動性で高並行性の推論ループを動作させることができます [引用: 5、15]。
Collectives Acceleration Engine(CAE)
TPU 8i は推論を対象としているため、エンベディング検索用に 7x と 8t で使用されている SparseCore ユニットは、この特定のワークロードではシリコンの無駄な使用と見なされました。代わりに、Google のエンジニアは Collectives Acceleration Engine(CAE)と呼ばれる独自のハードウェア ブロックを導入しました [引用: 10、15]。
自己回帰デコードと「Chain-of-Thought」処理では、異なるコアが個々の計算を頻繁に一時停止して、チップ全体で数学的結果を集約、削減、同期する必要があります [引用: 6、15]。これらのグローバル同期オペレーションは、特に数千もの独立したエージェントが同時に問題に群がっている場合に、レイテンシのボトルネックになる可能性があります。
各 TPU 8i チップには、コアダイ上に 2 つの TensorCore があり、チップレット ダイ上に 1 つの CAE があります(TPU 7x にある 4 つの SparseCore に代わるもの)[引用: 6、15]。専用の CAE は、コア間で結果をほぼゼロのレイテンシで集約するように設計されており、TPU 7x 世代と比較してオンチップの集団演算レイテンシが 5 分の 1 に短縮されています [引用: 10、15]。エージェント ワークフローで支配的な削減ステップをハードウェアで高速化することで、CAE はリアルタイムの応答性を犠牲にすることなく、システムが高いスループットを維持できるようにします [引用: 6、15]。
ネットワーク フラット化: Boardfly トポロジ
TPU 8i の特徴は、3D トーラス トポロジを完全に放棄したことです。3D トーラスは、事前トレーニングに必要な近隣ノード間のデータ転送には優れていますが、MoE 推論モデルに必要な全ノード間のトークン ルーティングでは、ネットワーク ホップ数で測定される物理的な距離が長くなりすぎます [引用: 2、15]。MoE アーキテクチャでは、特定のトークンを、ポッド内のまったく異なるチップにある特定の「エキスパート」レイヤにルーティングする必要がある場合があります。従来のトーラスでは、このデータパケットは、宛先に到達するために介在するチップを順番に通過する必要があります。
この問題を解決するために、Google は Boardfly と呼ばれるサービングに最適化された新しいネットワーキング アーキテクチャを設計しました [引用: 15、31]。Dragonfly トポロジの原則にヒントを得た Boardfly は、アーキテクチャをフラット化し、任意の 2 つのチップ間の物理距離を最小限に抑えるように設計された階層型高基数ネットワークです [引用: 2、15、26]。
Boardfly トポロジは階層的に構築されます。 1. 構成要素: 4 つの全結合 TPU 8i チップが、内部 ICI リンクを使用して基本的な構成要素を形成します [引用: 6、16]。2. ボード: 8 つのビルディング ブロックが直接銅線ケーブルで全結合されて、1 つのボードを形成します [引用: 6、16]。3. Pod: 36 個のグループは、光回路スイッチと直接の長距離光リンクを介して完全に相互接続され、1,152 個のチップの統合 Pod を形成します [引用: 5、6、16、32]。
このアプローチのレイテンシの利点は大きいです。標準の 1,024 チップの 3D トーラス構成では、データパケットが最大 16 ホップのネットワーク直径を通過する必要がある場合があります [引用: 15、25]。Boardfly トポロジでは、この最大ネットワーク直径はわずか 7 ホップに縮小されます [引用: 15、25]。
ネットワーク直径が 56% 縮小するということは、通信集約型の推論ワークロードのテール レイテンシが 50% 大幅に改善されることを意味します [引用: 16、25、30]。推論は最終的に最も遅いノードの速度によって制約されます。テール レイテンシを短縮することで、Boardfly トポロジは、トークンデータがポッドを通過するのを待機している間に CAE がアイドル状態になることがないようにします [引用: 6、15]。
さらに、この高度に凝集された光インターコネクトにより、1,152 チップの TPU 8i ポッドは、331.8 TB のコヒーレント HBM の大規模な統合共有メモリ ドメインとして機能します [引用: 16]。
パフォーマンス、経済性、システム インフラストラクチャの比較
アーキテクチャの分岐により、計算経済性とエネルギー効率の両方が大幅に向上します。ハードウェアを理論上のピーク浮動小数点演算のみに基づいて評価すると、データセンターの運用とソフトウェアの有効化というシステム上の現実が無視されます。
ソフトウェアの抽象化とフレームワークのサポート
ハードウェアの基盤は異なりますが、Google はフレームワークのロックインを防ぐために、統一されたパフォーマンス優先の AI ソフトウェア スタックの維持に多大な投資を行っています。TPU 8t と 8i の両方で、JAX、Keras、MaxText、SGLang、vLLM エンジンがネイティブにサポートされています [引用: 5、8、14、17]。さらに、ネイティブの PyTorch サポート(TorchTPU 経由)により、デベロッパーは既存の PyTorch モデルを TPU 環境に直接移植し、Eager Mode などのネイティブ機能を完全にサポートできます [引用: 15、17]。
舞台裏では、Accelerated Linear Algebra(XLA)コンパイラが Boardfly トポロジと CAE 同期の複雑な変換を処理するため、開発者は光相互接続を手動でプログラミングすることなく、Python でハードウェア対応のカスタム カーネル(Pallas と Mosaic を使用)を記述できます [引用: 15]。
パフォーマンスの定量的指標
次の表に、統合 TPU 7x と高度に特殊化された TPU 8t および 8i アーキテクチャのコア技術仕様の概要を示します [引用: 3、15、24]。
| 仕様マトリックス | TPU 7x | TPU 8t | TPU 8i |
|---|---|---|---|
| 主なワークロード | 統合(トレーニングと推論) | 大規模な事前トレーニング | レイテンシの影響を受けやすい推論 |
| ASIC 設計パートナー | Broadcom | Broadcom | MediaTek |
| ネットワーク トポロジ | 3D トーラス | 3D トーラス + Virgo スケールアウト | Boardfly(Dragonfly にヒントを得たもの) |
| 特殊なハードウェア | SparseCore | SparseCore | Collectives Acceleration Engine(CAE) |
| ネイティブ高精度フォーカス | FP8 | FP4 | FP4(FP8/INT8 サポート付き) |
| チップあたりのピーク コンピューティング | 4.6 PFLOP(FP8) | 12.6 PFLOPs(FP4) | 10.1 PFLOPs(FP4) |
| チップあたりの HBM 容量 | 192 GB | 216 GB | 288 GB |
| HBM 帯域幅 | 7.37 TB/秒 | 6.52 TB/秒 | 8.60 TB/秒 |
| オンチップ SRAM(VMEM) | 128 MB | 128 MB | 384 MB |
| チップ間帯域幅(スケールアップ) | 9.6 Tb/秒 | 19.2 Tb/秒 | 19.2 Tb/秒 |
| 最大 Pod/Superpod サイズ | 9,216 チップ | 9,600 チップ | 1,152 チップ |
費用対効果と TCO の最適化
Google は、第 8 世代で総所有コスト(TCO)が大幅に改善されたと主張しています。TPU 8t は、大規模なトレーニングにおいて、TPU 7x と比較して 1 ドルあたりのパフォーマンスが 170% ~ 180% 向上しています(2.7 倍~ 2.8 倍の向上に相当)[引用: 6、15、30]。一方、TPU 8i は、特に大規模な MoE モデルに必要な低レイテンシ ターゲットにおいて、推論の費用対効果を 80% 向上させます [引用: 15、16、30]。
こうした経済的メリットは、シリコンだけでなく、フルスタックのシステム統合によってもたらされます。これまで、TPU は市販の x86 ホスト CPU と組み合わされていました。データの前処理が激しい場合や、複雑なエージェント ロジックが関わる場合、x86 ホストがシステムのボトルネックになることが多く、超高速の TPU シリコンがアイドル状態になり、データ不足に陥っていました [引用: 6、7]。
第 8 世代では、8t と 8i の両方を Google のカスタム Axion ARM ベースのプロセッサで排他的にホストすることで、この慢性的な不均衡を解消しています [引用: 6、7、15]。Neoverse N3 Armv9.2 コア アーキテクチャ上に構築された Axion ホストは、統合された高度に最適化された基盤を提供します [引用: 18、19]。推論負荷の高い TPU 8i では、Google は Axion ホストを TPU と CPU の比率 2:1 で統合し、TPU 7x と比較してサーバーあたりの物理 CPU ホストを 2 倍にしました [引用: 5、6、32]。ワークロードの分離に厳密な Non-Uniform Memory Access(NUMA)アーキテクチャを利用することで、システムは優れたメモリ ローカリティを保証し、データ準備のボトルネックを完全に解消します [引用: 5、7]。
エネルギー効率と市場への影響
エネルギー密度と電力の可用性は、最新のデータセンターのデプロイにおける究極の制約になりつつあります。第 4 世代の液冷と、特定のワークロード フェーズ(アクティブなコンピューティングと通信のためのアイドル状態など)に基づいて電力消費を動的に調整する統合されたリアルタイムの電力管理を使用することで、TPU 8t と 8i の両方で驚異的な電力効率を実現しています [引用: 7、15、22、24]。8t はワットあたりのパフォーマンスが 124% 向上し、8i は 117% 向上しています。これにより、TPU 7x と比較してエネルギー効率が全体で 2 倍(100%以上)向上しています [引用: 15、22、30]。
この効率性の影響は、Google 独自の最先端モデルに明らかです。Gemini 3.1 Pro プレビューのベンチマークでは、TPU 8i アーキテクチャにモデルをデプロイすると、推論 API のコストが約 50% 削減され、応答性と長文コンテキスト処理機能が大幅に向上することが示されています [引用: 24、30]。
競合環境: Google とマーチャント シリコン
Google がシリコン戦略を二分化するという決定は、より広範な人工知能ハードウェア エコシステム、特に Nvidia などのマーチャント シリコン プロバイダとの継続的な競争、および AMD や AWS(Trainium3 プラットフォーム)との競争に大きな影響を与えます [引用: 17、23]。
Nvidia は、Blackwell B200 や Vera Rubin NVL72 などの高性能な汎用プラットフォームを使用して、事前トレーニングとリアルタイム推論の両方を処理する統一アーキテクチャ戦略を維持してきました [引用: 2、9]。単一チップの仕様だけを見ると、NVIDIA には一定の優位性があります。たとえば、Nvidia の NVLink テクノロジーは 14.4 Tb/s の単一デバイス相互接続帯域幅をサポートし、個々の Rubin GPU は約 50 PFLOP の NVFP4 推論コンピューティングを提供します。これは、TPU 8i の 10.1 PFLOP よりも大幅に高い値です [引用: 2、9]。
しかし、Google のアーキテクチャへの投資は、人工知能の未来はシングルチップのピーク性能ではなく、クラスタースケールの効率によって決まるという確信に基づいています [引用: 9]。
Boardfly トポロジに移行することで、Google は TPU 8i ポッド内の 1,152 個のチップ全体で完全にコヒーレントな共有メモリプールを作成します [引用: 16]。これにより、ポッドの合計容量は 11.6 FP8 ExaFlops、統合されたコヒーレントな HBM は 331.8 TB になります [引用: 6、16]。一方、NVL72 の標準的な Nvidia GPU ラック スケール コヒーレンシは、72 個の GPU と約 20.7 TB の HBM で上限に達します [引用: 2、16]。汎用 GPU を 1,152 個のチップ構成に一致させるには、約 16 個の個別のラックをブリッジする必要があります [引用: 16]。この物理的な分離により、真のメモリ コヒーレンシが失われ、継続的な長コンテキスト エージェント推論に壊滅的な影響を与える深刻なレイテンシ ペナルティが発生します [引用: 16]。
さらに、Google は、Boardfly 階層を容易にするために、スタックの下位に光回路スイッチング(OCS)を移動することで、光ネットワーク サプライ チェーンを根本的に変更し、Lumentum や Coherent などのベンダーから特殊なトランシーバーやレーザーに対する大規模な下流需要を生み出しています [引用: 26]。
最終的に、Google の設計哲学では、2020 年代後半の真の戦場は、単一のシリコン ダイのピーク時の数学的スループットではなく、メモリウォールを回避し、サイト間の相互接続を迅速にスケーリングし、リアルタイム エージェント スウォームを数十億のユーザーにデプロイする際のトークンあたりの絶対コストを削減する能力によって決まると想定しています [引用: 6、16、17]。
まとめ
Google Cloud の Tensor Processing Unit の軌跡は、TPU 7x の統合フレームワークから TPU 8t と TPU 8i の高度に特化した二分法まで、AI ワークロードの成熟と産業化を反映しています。汎用で統合されたシリコンは、初期のディープ ラーニング ブームの基盤でしたが、エージェントの時代の極端なマージンで必要とされる経済性やパフォーマンスを推進するには、もはや十分ではありません。
TPU 8t は、妥協のないスケールの追求を表しています。SparseCore の保持、MXU スループットを 2 倍にするネイティブ FP4 精度の実装、Virgo ネットワークと TPUDirect Storage の驚異的な機能により、これまで不可能と考えられていた量のデータを取り込んで処理するように設計されています。これにより、最新のデータセンターのスケールアウト帯域幅の制約が効果的に解消され、数百万個のチップを単一のグローバル分散型事前トレーニング エンジンとして動作させることができます。
一方、TPU 8i はレイテンシの排除と経済効率の向上を目的としています。階層型 Boardfly トポロジを採用して 3D トーラスを廃止し、オンダイ SRAM を 3 倍の 384 MB に増やし、自己回帰同期を高速化する Collectives Acceleration Engine を導入することで、TPU 8i は推論メモリの壁を体系的に取り壊します。これにより、複雑なマルチステップ エージェント推論に必要な大規模な KV キャッシュをローカルに保持し、ほぼゼロのレイテンシでアクセスできるようになります。また、ロジック設計を合理化することで、本番環境の費用を削減できます。
完全に統合された ARM ベースの Axion CPU でホストされ、自律型光回路スイッチングによって管理される第 8 世代の二分岐は、ハイパースケール インフラストラクチャの新しいパラダイムを確立します。これは、人工知能の未来には高速なチップだけでなく、それらが提供する個別のワークロードに合わせて正確に共同設計された、根本的に異なるハードウェア フレームワークが必要であることを示す明確なアーキテクチャ ステートメントです。
出典: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. リンク 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com