從基礎大型語言模型到複雜的多步驟代理系統,人工智慧的演進已引發半導體設計的根本範式轉移。近十年來,人工智慧加速器架構的主流邏輯都是統一化。晶片設計人員致力於設計單一的單片式架構,能夠同時執行模型預先訓練的大量高輸送量工作負載,以及生產推論的延遲時間敏感需求 [引用:1、2]。從第一代硬體加速器問世,到 Google Cloud Tensor Processing Unit (TPU) 第七代部署完成,這個統一方法在業界一直居於主導地位 [cite: 2, 3, 4]。
然而,隨著前沿模型擴展到數兆個參數,以及專家混合 (MoE) 和連續代理回饋循環等即時推論架構成為標準,訓練和服務的硬體需求已不可逆地分歧 [引用:5、6、7]。預先訓練已成為頻寬和處理量最佳化問題,需要驚人的擴充能力、大量的互連二分頻寬,以及連續矩陣數學飽和度 [引用:6]。相反地,代理服務已成為延遲和記憶體受限的問題,受限於權重和鍵值 (KV) 快取串流至處理核心的速度,而不會造成全域同步作業的瓶頸 [引用:6、8]。
Google 發現,如果強迫兩種工作負載使用相同的晶片,會導致系統效率低落,經濟效益也會降低,因此做出前所未有的架構決策,將第八代 TPU 系列產品一分為二 [引用:1、6、9]。結果是產生兩種截然不同的高度專業化晶片,從供應鏈層面進行工程設計:TPU 8t,專為超級電腦規模的龐大訓練輸送量而設計;TPU 8i,專為突破推論記憶體牆而設計,並盡量減少全球推理的集體延遲 [引用:7、9]。
這份詳盡的研究報告分析了 TPU 7x 統一基準,以及新推出的 TPU 8t 和 TPU 8i 之間的架構、效能和擴充差異。透過詳盡檢查邏輯設計、多層記憶體階層、資料中心互連拓撲、光路交換和軟硬體共同設計,這項分析闡明瞭為何需要專用晶片,才能維持下一代人工智慧的經濟和運算擴充。
歷史背景:邁向專業化的軌跡
如要充分瞭解第八代架構的變化,就必須追溯 TPU 系列的迭代演進。Google 的硬體開發一向反映當代機器學習模型的主要瓶頸,從簡單的推論加速,到大規模叢集訓練結構 [引用:10、11]。
從推論到巨量矩陣陣列
Google 在 2015 年推出 TPU v1,這款專為推論作業設計的加速器,可處理 Google 搜尋、翻譯和 YouTube 推薦等內部服務日益增加的運算負載 [引用:11, 12]。與通用中央處理器 (CPU) 和圖形處理器 (GPU) 相比,v1 採用 8 位元整數運算,每瓦特運算次數可提升一個數量級 [引用:10, 11]。到了 2017 年,TPU v2 開始支援訓練功能,並推出 bfloat16 (BF16) 格式。這是一種 16 位元浮點格式,可保留 32 位元浮點數的動態範圍,同時將記憶體消耗量減半 [引用:10]。
第 3 代至第 5 代則著重於最佳化核心運算引擎,也就是矩陣乘法單元 (MXU)。MXU 在好幾代都是 128x128 的脈動陣列,可同時執行 16,384 次乘加運算 [引用:4, 10]。TPU v4 推出「SparseCore」,這是一種專用硬體區塊,專門用於加速嵌入式查閱和不規則記憶體存取,從而防止 MXU 在推薦模型訓練期間停滯 [引用:4、6]。
地形演變和 Trillium (v6e)
隨著模型大小增加,在數千個晶片間同步處理漸層所需的互連拓撲也隨之演進。Google 為較小且具成本效益的 Pod (例如 v5e 和 v6e) 部署 2D 環面拓撲,簡化了擴充至 256 個晶片的程序 [引用:4、10]。為提升效能,Google 在 v4 和 v5p 等變體中採用 3D 環面拓撲,將晶片連接至三維環繞格線,以降低 4,096 到 8,960 個晶片的大型 Pod 之間的通訊延遲 [引用:4]。
現代時期之前的最新技術是 2024 年底發布的 TPU v6e (Trillium)。Trillium 將 MXU 從 128x128 陣列擴展至 256x256 陣列 [引用:10],代表架構上的重大躍進。這讓每個週期可執行的乘法累加運算增加四倍。此外,Trillium 的晶片間互連 (ICI) 頻寬也提高一倍,達到 3,200 Gbps (總雙向頻寬為 13 TB/s),每個晶片的高頻寬記憶體 (HBM) 容量為 32 GB,因此運算尖峰效能比前代產品高出 4.7 倍,能源效率也提升 67% [引用:10, 11]。
| TPU 代別 | 上市年份 | 主要創新 | 拓樸與 Pod 大小上限 | MXU 架構 | 每個晶片的尖峰運算效能 |
|---|---|---|---|---|---|
| TPU v2 | 2017 | 首次訓練 (BF16) | 2D 環面 (512 個晶片) | 128x128 | ~45 TFLOPS |
| TPU v4 | 2021 | SparseCore 簡介 | 3D 環面 (4,096 個晶片) | 128x128 | 275 TFLOPS |
| TPU v5e | 2023 | 成本效益最佳化 | 2D 環面 (256 個晶片) | 128x128 | 197 TFLOPS |
| TPU v5p | 2023 | 效能提升 | 3D 環面 (8,960 個晶片) | 128x128 | 459 TFLOPS |
| TPU v6e (Trillium) | 2024 | 256x256 MXU 擴充 | 2D 環面 (256 個晶片) | 256x256 | 918 TFLOPS |
統一架構的頂尖之作:TPU 7x
第七代 TPU 7x 於 2025 年底正式發布,是 Google 統一架構策略的最高成就。TPU 7x 採用單一架構框架,可執行前沿規模的預先訓練和解碼密集型推論作業,突破雙用途加速器的極限 [cite: 3, 10]。
雙晶片設計和 AlphaChip 最佳化
TPU 7x 的實體結構與 v4 和 v5p 的單一邏輯核心 (MegaCore) 架構截然不同 [引用:3]。TPU 7x 採用雙晶片架構。每個完整的 TPU 7x 晶片都包含兩個獨立的自給式晶片,並透過專屬的高速晶片對晶片 (D2D) 介面連接 [引用:3]。這種 D2D 連線的運作速度是標準一維 ICI 連結的六倍,可讓晶片快速通訊,同時維持各自專用的記憶體空間 [引用:3]。
在完整的統一晶片中,TPU 7x 搭載兩個 TensorCore 和四個 SparseCore [引用:3]。這些核心在矽矩陣上的實體配置經過最佳化,採用 Google 專有的強化學習工具 AlphaChip,盡量縮短電線長度並提高熱效率 [引用:10]。TPU 7x 的標準虛擬機器 (VM) 設定會將四個晶片連線至 CPU 主機,公開 224 個 vCPU 和 960 GB 的 RAM [引用:3]。
多層級記憶體階層和精確格式
處理密集和 MoE 模型時,資料會在儲存層之間不斷移動,造成嚴重瓶頸。TPU 7x 採用強大的多層記憶體系統,可確保擴充的 MXU 保持飽和狀態: * 高頻寬記憶體 (HBM3E):每個 TPU 7x 晶片都配備 192 GB 的 HBM,提供 7.37 TB/s (7,380 GBps) 的巨大記憶體頻寬 [引用:3, 10]。與 Trillium 相比,這項技術的容量增加了六倍,因此訓練期間的批次大小可大幅增加,且推論期間可將更大的 KV 快取保留在晶片上,避免因卸載至較慢的主機記憶體而導致延遲時間大幅增加 [引用:4、10、13]。* 向量記憶體 (VMEM):做為晶片內建的超高速 SRAM 暫存區,每個 TensorCore 都有 64 MiB 的 VMEM (每個晶片總共 128 MB)。相較於 HBM,VMEM 的 MXU 頻寬大幅提升 [引用:3, 14]。透過範圍 VMEM 調整,開發人員可以在目前的運算範圍和未來的權重預先擷取之間重新分配記憶體,允許較大的核心圖塊大小 (例如用於快速注意力機制的大小),並減少記憶體停滯 [引用:13、14]。* 主機記憶體 (PCIe):透過 PCIe 網路連線,系統主機記憶體可用於卸載最佳化工具狀態和啟用,管理模型記憶體壓力 (模型超出 HBM 容量時) [引用:3、14]。
此外,TPU 7x 還引進了 8 位元浮點 (FP8) 精確度的原生硬體加速功能 [引用:4、13]。從標準 16 位元格式 (BF16 或 FP16) 遷移後,FP8 表示法可有效將運算尖峰處理量提高一倍,同時將儲存權重和啟動所需的記憶體用量減少一半 [引用:4、13]。以 FP8 原生運作時,單一 TPU 7x 晶片可提供 4,614 TFLOPS 的運算尖峰,相較之下,以 BF16 運作時則為 2,307 TFLOPS [引用:3、4]。
3D 環面拓撲和 Superpod 規模
在資料中心層級,TPU 7x 採用 Google 經驗證的 3D 環面互連拓撲 [引用:3]。這種架構會將每個晶片直接連接至 X、Y 和 Z 軸上最接近的鄰近晶片,形成彈性的三維網格 [引用:3]。這個網格內的通訊由每個晶片 1.2 TB/s (1,200 GBps) 的 ICI 頻寬輔助,每個軸向提供 200 GBps 的雙向通訊 [引用:3]。
TPU 7x 超級 Pod 全面實現後,可擴充至 9,216 個液冷晶片。在此設定中,Pod 可提供總計 42.5 ExaFlops 的 FP8 運算能力 [引用:8、10]。大於 64 個晶片的配量是使用模組化 4x4x4「立方體」晶片建構而成,可實現高度彈性的拓撲,範圍從單一主機設定到大規模多主機環境 [引用:3]。
雖然 TPU 7x 功能強大,但統一的性質也代表它有固有的缺點。3D 環面拓撲非常適合用於預先訓練所需的本機可預測梯度同步,但會導致網路直徑較大。舉例來說,3D 環面上的 1,024 個晶片 Pod 的最大網路直徑為 16 個躍點 [引用:15、16]。在 MoE 推論情境中,權杖必須快速路由至 Pod 內任何位置的專家層,而這 16 個躍點的距離會導致全對全尾端延遲時間過長,無法接受 [引用:6、15、16]。此外,將寶貴的矽面積用於擅長嵌入式查閱的 SparseCore,會減少可用於集體縮減引擎的空間,而這類引擎對於代理程式的連鎖思考工作流程至關重要 [引用:6、15]。業界已達到「一體適用」加速器的物理極限。
策略性分叉:經濟和架構驅動因素
從第七代到第八代 TPU 的過渡,代表 Google 晶片歷史上最重要的架構轉移 [引用:9]。在 2026 年的 Google Cloud Next 大會上,我們宣布將 TPU 產品線分為兩個不同的產品系列:TPU 8t 適用於訓練,而 TPU 8i 則適用於推論。這項決定是為了因應未來十年人工智慧工作負載的根本差異,這些差異在硬體層面是無法調和的 [引用:1、2、17]。
這項拆分計畫的起因,在於 AI 開發的經濟和營運強度各不相同。訓練前沿模型需要大量資本,是一次性的營運支出,以連續運算數週或數月來衡量 [引用:9]。這需要極高的運算密度、前所未有的互連頻寬,以及可攝取多模態資料集的多 PB 統一記憶體網域 [引用:9]。
相反地,推論是持續的營運成本,會隨著使用者需求線性或指數級擴展 [引用:9]。在新興的「代理時代」,AI 模型不僅會預測下一個權杖來生成一段文字,還會主動推理、模擬未來情境、透過「想像」進行疊代、呼叫外部 API,並在持續的回饋迴圈中與大量其他專業代理互動 [引用:5、7、15]。這種動態需要大量記憶體來儲存有效背景資訊視窗,以及極低的網路延遲,才能進行專家路徑和全域同步 [引用:15、16]。
Google 拆分產品系列後,便能深入供應鏈,進一步最佳化硬體。TPU 8t 是與 Broadcom 共同設計的產品,雙方的合作關係可追溯至 2015 年 [cite: 9, 17, 18]。Broadcom 在複雜的高速 SerDes 互連、進階封裝和大規模網路方面擁有專業知識,是理想的合作夥伴,可協助我們突破訓練架構的實體限制 [引用:17、19]。
在推論晶片方面,Google 打破傳統,與聯發科合作設計 TPU 8i [引用:9、17、18]。Google 運用聯發科在省電、大量行動 SoC 設計方面的深厚專業知識,打造出高成本效益的推論加速器 [引用:17、19]。TPU 8i 採用較簡單的設計 (一個運算晶片,而非 8t 的兩個),據稱生產成本比傳統高效能變體便宜 20% 到 30%,因此 Google 能夠經濟實惠地擴展全球服務容量,滿足企業和消費者應用程式的需求 [引用:9、17]。這兩款晶片都是以台積電先進的 2 奈米製程節點製造,並採用尖端的 CoWoS 先進封裝技術,將邏輯晶片與高聳的 HBM 堆疊整合在一起 [引用:9、19]。
這項雙管齊下的策略立即獲得市場驗證。頂尖 AI 研究機構 Anthropic 擴大了與 Google Cloud 達成的數十億美元協議,承諾在 2027 年前提供高達 3.5 吉瓦的運算容量,成為 TPU 7x 和第八代平台的錨定客戶 [引用:9、10、20]。
深入瞭解:TPU 8t (前訓練利器)
TPU 8t 是毫不妥協的工程成就,旨在將兆級參數前沿模型的開發週期從數月縮短至數週 [引用:5, 21]。這項成就不僅提升了原始時脈速度,還重組了數學運算的精確度、大幅擴展晶片間頻寬,並減輕了困擾大型訓練叢集的資料擷取瓶頸 [引用:6, 15]。
雙晶片運算架構和原生 FP4
在實體方面,TPU 8t 採用高度複雜的架構,包含兩個運算晶粒和一個 I/O 晶片,兩側各有八個 12 層高的 HBM3E 記憶體堆疊 [引用:9]。這種密集封裝需要先進的熱管理技術,因此採用 Google 第四代液冷技術,以消散持續矩陣運算產生的大量熱能 [引用:7、17、22]。
TPU 8t 的基礎演進是導入原生 4 位元浮點 (FP4) 精確度 [引用:6、15]。預先訓練的數學需求非常重視輸送量,而非極端的數值精確度。TPU 8t 將原生執行作業從 FP8 降至 FP4,有效將 MXU 的輸送量提高一倍,同時將每個參數必須在晶片上實際移動的位元數減半 [引用:6、15]。資料移動量大幅減少,可盡量減少耗能的記憶體擷取作業,並讓較大的模型層輕鬆容納在本地硬體緩衝區中 [引用:6、15]。
為確保晶片維持飽和狀態,TPU 8t 實作了更平衡的向量處理單元 (VPU) 資源調度。這項技術可讓晶片重疊執行重要的循序工作 (例如量化、Softmax 和層歸一化),以及 MXU 中發生的矩陣乘法運算,幾乎消除了運算核心閒置的非矩陣時間 [引用:6、15]。由於這些架構最佳化措施,單一 TPU 8t 晶片可提供驚人的 12.6 PFLOPs FP4 運算能力 [引用:15, 23]。
此外,與著重於推論的同類產品不同,TPU 8t 保留了先前幾代產品導入的專用 SparseCore 區塊 [引用:1、6、15]。多模態基礎模型和推薦系統中常見的嵌入密集型工作負載,會呈現不規則的記憶體存取模式,導致傳統 GPU 效能不彰。SparseCore 會非同步運作,卸載資料相關的 all-gather 作業和嵌入式查閱作業 [引用:6、15]。TPU 8t 會將密集矩陣數學運算隔離到 MXU,並將稀疏運算隔離到 SparseCore,避免「零運算」瓶頸導致運算停滯 [引用:6、15]。
頻寬、儲存空間擷取和 TPUDirect
為供應 FP4 中大量加速的 MXU,TPU 8t 需要極端的本機和聚合頻寬。每個晶片都具備 216 GB 的 HBM3e,運作速度為 6,528 GB/s [引用:15、24]。不過,在 Frontier 模型規模下,系統限制通常會從晶片的處理速度,轉移到資料中心從冷儲存空間擷取 PB 級訓練資料的速度。
為解決傳統資料路徑的瓶頸,Google 整合了 TPUDirect RDMA 和 TPUDirect Storage [引用:5、6、10]。這些通訊協定可在 TPU 的高頻寬記憶體和受管理網路儲存陣列 (例如 Google Cloud Managed Lustre 10T) 之間,啟用直接記憶體存取 (DMA) [引用:6、15]。透過網路介面卡 (NIC) 將資料直接從 Lustre 平行檔案系統傳輸至 TPU,TPUDirect 可完全略過主機 CPU 和主機的 DRAM [引用:6]。相較於在 TPU 7x 代訓練,這個專用資料路徑可有效提升 10 倍的儲存空間存取速度,確保 TPU 8t 計算單元能以線路速率擷取多模態資料集,不會發生資源不足的情況 [引用:5、6、15]。
超大規模基礎架構:Virgo 網路
TPU 8t 生態系統最令人驚嘆的架構成就,就是其網路功能,這項功能將系統限制從本機運算牢牢轉移至資料中心規模的頻寬 [引用:25、26]。
TPU 8t 保留了基礎的 3D 環面互連,用於本機 Pod 通訊,單一 Superpod 最多可擴充至 9,600 個晶片,並提供前所未有的 2 PB 共用 HBM,但已完全重新設計向外擴充的架構 [引用:5、6、15]。Superpod 的 FP4 運算總量達到 121 ExaFlops,比 TPU 7x 的 42.5 ExaFlops 增加 2.8 倍 [引用:6]。為支援這項功能,Pod 內 ICI 頻寬已加倍,每個晶片達到 19.2 Tb/s [引用:4、6、10]。
不過,為了連結數百個這類超級 Pod,Google 建構了 Virgo 網路 [引用:1, 6]。前身 Jupiter 網路採用三層 Clos 拓撲,透過多個交換器層級轉送流量,導致延遲和頻寬瓶頸 (每個晶片最高 100 Gbps) [引用:25]。
Virgo 是以高基數交換器 (管理 256 至 512 個連接埠) 為基礎建構的擴充架構,採用扁平的雙層無阻斷拓撲 [引用:6、15、25]。Virgo 透過實體方式移除網路層,大幅縮短延遲時間。這個網路採用多平面設計,具有獨立的控制網域,可將原始資料中心網路 (DCN) 頻寬提升高達 400% (4 倍),達到每個晶片 400 Gbps 的速度 [引用:6、15、24]。
單一 Virgo 架構可在單一資料中心設施內連結超過 134,000 個 TPU 8t 晶片,提供難以想像的 47 petabit/秒無阻塞雙向頻寬 [cite: 1, 6, 15]。此外,TPU 8t 整合了 Google 的 Pathways 軟體和 JAX 架構,可讓分散式訓練叢集在多個地理位置擴充至超過一百萬個晶片,做為單一邏輯訓練工作 [引用:1、6、15]。這項成就將全球分散式基礎架構轉變為單一無縫的超級電腦,大幅超越目前通用 GPU 的擴充限制 [引用:27]。
自主重新設定和 97% 的良好輸送量
在數十萬個晶片的規模下,硬體故障 (從收發器燒毀到熱節流) 是統計上的必然,而非極端情況。在舊版系統中,單一網路停滯可能會導致大規模訓練執行停止,需要費時費力地復原至先前的查核點,成本也相當高昂。在尖端規模,效率每降低 1 個百分點,就代表訓練時間會增加數天 [引用:5、6]。
TPU 8t 生態系統的目標是達到 97% 以上的「有效輸送量」,這項指標定義了有用的生產力運算時間與總正常運作時間的比率 [引用:6、28]。這項目標是透過以光學電路交換 (OCS) 為基礎的進階可靠性、可用性和可維修性 (RAS) 功能達成 [引用:5、6、25]。透過即時遙測分析數以萬計的晶片,系統可以自動偵測晶片間互連連結的故障。OCS 會實際重新導向光路,即時略過硬體故障,不需要人為介入,而且最重要的是,不會中斷進行中的訓練作業 [引用:5、6、28]。
深入瞭解:TPU 8i (推理引擎)
如果說 TPU 8t 是極致的暴力擴充練習,TPU 8i 就是延遲最佳化和記憶體架構的大師課程 [引用:6]。隨著模型轉移至即時生產環境,尤其是大型混合專家 (MoE) 模型和代理程式群,原始運算處理量的重要性會降低,記憶體存取和網路轉送的速度則會提高 [引用:21、29]。
打破推論的記憶體牆瓶頸
在自迴歸生成中,模型會依序生成輸出詞元。每產生一個新權杖,模型就必須參照所有先前權杖及其數學關係的成長記錄,也就是鍵值 (KV) 快取 [引用:1, 13]。如果長脈絡模型分析數十萬個權杖,KV 快取的大小就會暴增。如果快取超出晶片快速內建記憶體的容量,溢出到速度較慢的主機 CPU 記憶體,整個運算程序就會停滯,這就是廣為人知的「記憶體牆」[引用:5、8]。
TPU 8i 的設計宗旨就是打破這道牆。雖然這款晶片設計較簡單且更具成本效益,採用單一運算晶片和一個 I/O 晶片,以及六疊 HBM3e,但記憶體容量經過大幅最佳化,可提供服務 [cite: 9]。* HBM 容量和頻寬:每個 TPU 8i 都配備 288 GB 的 HBM3E,容量比 TPU 7x 增加 50% [引用:5、24、30]。更重要的是,由於大型 MoE 模型在推論期間會受到記憶體頻寬限制,因此記憶體頻寬會提升至 8.6 TB/s (約 8,601 GB/s),比著重訓練的 TPU 8t 快約 1.3 倍 [引用:10, 15]。* 龐大的晶片內建 SRAM:最重要的硬體轉變是每個晶片都內建 384 MB 的晶片內建靜態隨機存取記憶體 (SRAM) [引用:10、15、30]。相較於 TPU 7x 和 TPU 8t,這項效能提升幅度高達 300% (3 倍) [cite: 10, 15, 30]。SRAM 是晶片矩陣上最快速、延遲時間最短的記憶體。TPU 8i 將這項容量擴充為三倍,可將龐大的 KV 快取完全儲存在晶片上 [引用:15、16]。這樣一來,處理核心就不會在等待從較慢的記憶體層級擷取權杖記錄時閒置,進而讓高並行推理迴圈以空前流暢度運作 [引用:5, 15]。
Collectives Acceleration Engine (CAE)
由於 TPU 8i 的目標是推論,因此在 7x 和 8t 中用於嵌入式查閱的 SparseCore 裝置,就這項特定工作負載而言,被視為矽晶片空間的低效率使用方式。Google 工程師導入了專屬硬體區塊,也就是 Collectives Acceleration Engine (CAE) [引用:10, 15],取代了這項技術。
在自迴歸解碼和「連鎖思考」處理期間,不同的核心必須經常暫停個別計算,才能匯總、減少及同步處理晶片中的數學結果 [引用:6、15]。這些全域同步作業可能會嚴重限制延遲時間,特別是數千個獨立代理程式同時處理問題時。
每個 TPU 8i 晶片的核心晶粒上都有兩個 TensorCore,晶片組晶粒上則有一個 CAE (取代 TPU 7x 上的四個 SparseCore) [引用:6、15]。專屬 CAE 的設計宗旨,是匯總各核心的結果,且延遲時間接近零,因此與 TPU 7x 世代相比,晶片內集體延遲時間大幅減少 5 倍 [引用:10、15]。CAE 可透過硬體加速,減少代理工作流程中佔用最多資源的步驟,確保系統維持高處理量,同時兼顧即時回應能力 [引用:6, 15]。
網路扁平化:Boardfly 拓撲
TPU 8i 的關鍵特點是完全捨棄 3D 環面拓撲。3D 環面非常適合預先訓練所需的鄰近資料傳遞,但對於 MoE 推論模型所需的所有權杖路由,會造成無法接受的長實體距離 (以網路躍點數計算) [引用:2、15]。在 MoE 架構中,任何指定權杖可能都需要傳送至位於 Pod 內完全不同晶片上的特定「專家」層。在傳統環面中,這個資料封包必須依序通過中間的晶片,才能抵達目的地。
為解決這個問題,Google 設計了名為 Boardfly 的全新服務最佳化網路架構 [cite: 15, 31]。Boardfly 的設計靈感來自 Dragonfly 拓撲原則,是一種高基數的階層式網路,可大幅簡化架構,並盡量縮短任意兩顆晶片之間的實體距離 [引用:2、15、26]。
Boardfly 拓撲會以階層方式建構: 1. 基礎單元:四個完全連線的 TPU 8i 晶片會形成基礎單元,並具備內部 ICI 連結 [引用:6、16]。 2. 主機板:八個建構區塊透過直接銅纜完全連接,形成單一主機板 [引用:6、16]。3. Pod:36 個群組會透過光纖電路交換器和直接光纖長途連結完全互連,形成 1,152 個晶片的統一 Pod [引用:5、6、16、32]。
這種做法的延遲優勢非常明顯。在標準的 1,024 個晶片 3D 環面配置中,資料封包可能需要遍歷最多 16 個躍點的網路直徑 [引用:15, 25]。在 Boardfly 拓撲中,這個最大網路直徑會縮減為僅 7 個躍點 [引用:15、25]。
網路直徑減少 56%,代表通訊密集型推論工作負載的尾部延遲時間大幅縮短 50% [引用:16、25、30]。推論最終會受到最慢節點的速度限制。Boardfly 拓撲結構可大幅縮短尾部延遲時間,確保 CAE 不會閒置,等待權杖資料在 Pod 中傳輸 [引用:6、15]。
此外,由於這種光學互連技術具有高度凝聚力,因此單一 1,152 晶片的 TPU 8i Pod 可做為龐大的統一共用記憶體網域,提供 331.8 TB 的連貫 HBM [引用:16]。
效能、經濟效益和系統基礎架構比較
架構分叉可大幅提升運算經濟效益和能源效率。如果只根據理論浮點運算峰值評估硬體,會忽略資料中心運作和軟體啟用方面的系統性現實。
軟體抽象化和架構支援
儘管硬體基礎不同,Google 仍投入大量資源維護統一的 AI 軟體堆疊,以效能為優先,避免架構鎖定。TPU 8t 和 8i 都原生支援 JAX、Keras、MaxText、SGLang 和 vLLM 引擎 [引用:5、8、14、17]。此外,透過 TorchTPU 支援原生 PyTorch,開發人員可直接將現有的 PyTorch 模型移植到 TPU 環境,並完整支援 Eager Mode 等原生功能 [cite: 15, 17]。
在幕後,加速線性代數 (XLA) 編譯器會處理 Boardfly 拓撲和 CAE 同步的複雜轉換作業,讓開發人員在 Python 中編寫硬體感知自訂核心 (使用 Pallas 和 Mosaic),不必手動編寫光學互連程式 [引用:15]。
量化成效指標
下表彙整了統一 TPU 7x,以及高度專業化 TPU 8t 和 8i 架構的核心技術規格 [引用:3、15、24]。
| 規格矩陣 | TPU 7x | TPU 8t | TPU 8i |
|---|---|---|---|
| 主要工作負載 | 統一 (訓練與推論) | 大規模預先訓練 | 對延遲時間敏感的推論 |
| ASIC 設計合作夥伴 | Broadcom | Broadcom | MediaTek |
| Network Topology | 3D 環面 | 3D 環面 + Virgo 向外擴充 | Boardfly (靈感來自 Dragonfly) |
| 專用硬體 | SparseCore | SparseCore | Collectives Acceleration Engine (CAE) |
| 原生精確對焦 | FP8 | FP4 | FP4 (支援 FP8/INT8) |
| 每顆晶片的尖峰運算效能 | 4.6 PFLOPs (FP8) | 12.6 PFLOPs (FP4) | 10.1 PFLOPS (FP4) |
| 每顆晶片的 HBM 容量 | 192 GB | 216 GB | 288 GB |
| HBM 頻寬 | 7.37 TB/s | 6.52 TB/s | 8.60 TB/s |
| 晶片上 SRAM (VMEM) | 128 MB | 128 MB | 384 MB |
| 晶片間頻寬 (擴充) | 9.6 Tb/s | 19.2 Tb/s | 19.2 Tb/s |
| 廣告連播/超級廣告連播大小上限 | 9,216 個晶片 | 9,600 個晶片 | 1,152 個晶片 |
成本效益和 TCO 最佳化
Google 宣稱第八代產品可大幅改善總持有成本 (TCO)。與 TPU 7x 相比,TPU 8t 的大規模訓練效能成本比提升 170% 至 180%,相當於提升 2.7 至 2.8 倍 [引用:6、15、30]。此外,TPU 8i 的推論效能成本比提升 80%,特別是針對大規模 MoE 模型所需的低延遲目標 [引用:15、16、30]。
這些經濟效益不僅來自晶片,也來自全堆疊系統整合。過去,TPU 會與現成的 x86 主機 CPU 配對。在涉及大量資料前處理或複雜代理邏輯的情況下,x86 主機經常會成為系統瓶頸,導致超快速的 TPU 晶片閒置待命,但缺乏資料 [引用:6、7]。
第八代產品將 8t 和 8i 獨家託管在 Google 自建的 Axion ARM 架構處理器上 [引用:6、7、15],修正了這個長期失衡的問題。Axion 主機採用 Neoverse N3 Armv9.2 核心架構,提供統一且經過高度最佳化的基礎 [引用:18、19]。對於推論密集型 TPU 8i,Google 以 2:1 的 TPU 對 CPU 比率整合 Axion 主機,與 TPU 7x 相比,每個伺服器的實體 CPU 主機數量增加一倍 [引用:5、6、32]。系統採用嚴格的非一致性記憶體存取 (NUMA) 架構來隔離工作負載,確保記憶體區域性,並完全消除資料準備瓶頸 [引用:5、7]。
能源效率和市場影響
能源密度和電力供應量正迅速成為現代資料中心部署的最終約束條件。透過使用第四代液體冷卻技術和整合式即時電源管理,根據特定工作負載階段 (例如主動運算與通訊閒置) 動態調整耗電量,TPU 8t 和 8i 均達到驚人的能源效率 [引用:7、15、22、24]。8t 的每瓦效能提升 124%,8i 則提升 117%,因此與 TPU 7x 相比,能源效率整體提升 2 倍 (100%以上) [引用:15、22、30]。
Google 最先進的模型已充分展現這項效率的影響。Gemini 3.1 Pro 搶先版的基準測試顯示,在 TPU 8i 架構上部署模型,可讓推論 API 的成本降低約 50%,同時大幅提升回應速度和長內容處理能力 [引用:24、30]。
競爭情況:Google 與商家晶片
Google 決定將晶片策略一分為二,對更廣泛的人工智慧硬體生態系統具有深遠影響,尤其是在與 Nvidia 等商家晶片供應商的持續競爭中,以及在較小程度上與 AMD 和 AWS (及其 Trainium3 平台) 的競爭中 [引用:17, 23]。
Nvidia 一向採用統一的架構策略,利用功能強大但一般用途的平台 (例如 Blackwell B200 和 Vera Rubin NVL72),處理預先訓練和即時推論 [引用:2、9]。單純從單晶片規格來看,Nvidia 仍保有某些優勢。舉例來說,Nvidia 的 NVLink 技術支援 14.4 Tb/s 的單一裝置互連頻寬,而個別 Rubin GPU 大約提供 50 PFLOP 的 NVFP4 推論運算,遠高於 TPU 8i 的 10.1 PFLOP [引用:2, 9]。
不過,Google 的架構押注於一項信念,那就是人工智慧的未來取決於叢集規模的效率,而非單一晶片的尖峰功能 [引用:9]。
Google 採用 Boardfly 拓撲後,在 TPU 8i Pod 中的所有 1,152 個晶片之間,建立完全一致的共用記憶體集區 [引用:16]。因此,整個 Pod 的總容量為 11.6 FP8 ExaFlops,以及 331.8 TB 的統一連貫 HBM [引用:6、16]。反之,NVL72 的標準 Nvidia GPU 機架規模一致性最多可達 72 個 GPU,以及約 20.7 TB 的 HBM [引用:2、16]。如要將通用 GPU 擴充至 1,152 個晶片的設定,大約需要跨越 16 個獨立機架 [引用:16]。這種實體分離會破壞真正的記憶體一致性,並導致嚴重延遲,對連續長脈絡代理推論而言是災難性的 [引用:16]。
此外,Google 將全光交換器 (OCS) 移至堆疊的較低位置,以利 Boardfly 階層,從根本上改變光纖網路供應鏈,為 Lumentum 和 Coherent 等供應商的專用收發器和雷射器創造大量下游需求 [引用:26]。
最終,Google 的設計理念認為,2020 年代末期的真正戰場,並非取決於單一晶片上的數學輸送量峰值,而是取決於迴避記憶體牆的能力、快速擴展跨網站互連的能力,以及將數十億使用者部署即時代理程式群的每詞元絕對成本經濟效益降至最低 [引用:6、16、17]。
結論
Google Cloud 的 Tensor Processing Unit 從 TPU 7x 的統一框架,到 TPU 8t 和 TPU 8i 的高度專業化二分法,反映了人工智慧工作負載的成熟和工業化。一般用途統一晶片雖然是最初深度學習熱潮的基礎,但已不足以推動 AI 代理時代極端邊緣所需的經濟效益或效能。
TPU 8t 追求極致的擴充性。透過保留 SparseCore、實作原生 FP4 精確度來加倍 MXU 處理量,以及 Virgo Network 和 TPUDirect Storage 的驚人功能,TPU 8t 可攝取及處理的資料量前所未見。TPU 8t 有效消除了現代資料中心的擴充頻寬限制,讓數百萬個晶片能以單一全球分散式預先訓練引擎的形式運作。
反之,TPU 8i 則著重於消除延遲和提升經濟效益。TPU 8i 捨棄 3D 環面,改用階層式 Boardfly 拓撲,將晶片上 SRAM 擴充三倍至 384 MB,並導入 Collectives Acceleration Engine 來加速自迴歸同步,有系統地打破推論記憶體牆。TPU 8i 可確保複雜的多步驟代理推理所需的龐大 KV 快取保持在本機,並以近乎零延遲的速度存取,同時透過簡化的邏輯設計降低生產成本。
第八代架構完全整合 ARM 架構的 Axion CPU,並由自主光路交換器管理,共同建立超大規模基礎架構的新典範。這項架構明確指出,人工智慧的未來不僅需要更快的晶片,還需要專為不同工作負載共同設計的根本性硬體架構。
資料來源: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com