人工智能从基础的大语言模型发展到复杂的多步骤智能体系统,引发了半导体设计领域根本性的范式转变。近十年来,人工智能加速器架构的主流逻辑是统一化。硅芯片设计人员努力设计出单一的单体架构,能够同时执行模型预训练的大规模、高吞吐量工作负载以及生产推理的延迟敏感型需求 [cite: 1, 2]。从第一代硬件加速器问世到 Google Cloud Tensor Processing Unit (TPU) 第七代部署,这种统一的方法一直主导着整个行业 [cite: 2, 3, 4]。
不过,随着前沿模型扩展到数万亿参数,以及混合专家 (MoE) 和持续智能体反馈环等实时推理架构成为标准,训练和服务的硬件要求已不可逆转地分道扬镳 [cite: 5, 6, 7]。预训练已固化为带宽和吞吐量优化问题,需要惊人的扩容能力、巨大的互连对分带宽和持续的矩阵数学饱和度 [cite: 6]。相反,智能体服务已成为延迟和内存受限的问题,受限于权重和键值对 (KV) 缓存流式传输到处理核心的速度,而不会因全局同步操作而出现瓶颈 [cite: 6, 8]。
Google 认识到,将两种工作负载都强制放在相同的芯片上会导致系统性效率低下和经济回报递减,因此做出了前所未有的架构决策,将其第八代 TPU 产品阵容一分为二 [cite: 1, 6, 9]。最终打造出两款截然不同、高度专业化的芯片:TPU 8t,专为实现超计算机规模的巨大训练吞吐量而打造;TPU 8i,旨在打破推理内存瓶颈,并最大限度地减少全局推理的集体延迟 [cite: 7, 9]。
这份综合研究报告分析了 TPU 7x 的统一基准与新近分叉的 TPU 8t 和 TPU 8i 之间的架构、性能和扩缩差异。通过对逻辑设计、多层内存层次结构、数据中心互连拓扑、光路交换和软硬件协同设计的详尽检查,此分析阐明了为何需要专用芯片来维持下一代人工智能的经济和计算扩缩。
历史背景:专业化发展轨迹
若要充分了解第八代 TPU 在架构方面的突破,就必须追溯 TPU 系列的迭代演变。Google 的硬件开发一直反映了当代机器学习模型普遍存在的瓶颈,从简单的推理加速发展到大规模集群级训练结构 [cite: 10, 11]。
从推理到大规模矩阵数组
Google 于 2015 年推出了 TPU v1,这是一款仅用于推理的加速器,旨在处理 Google 搜索、Google 翻译和 YouTube 推荐等内部服务日益增长的计算负载 [引用:11、12]。与通用中央处理器 (CPU) 和图形处理器 (GPU) 相比,v1 利用 8 位整数数学运算将每瓦特的运算次数提高了几个数量级 [引用:10、11]。到 2017 年,TPU v2 标志着 Google 开始提供训练功能,并推出了 bfloat16 (BF16) 格式,这是一种 16 位浮点格式,可在将内存消耗量减半的同时保留 32 位浮点的动态范围 [引用:10]。
第 3 代到第 5 代优化了核心计算引擎(矩阵相乘单元 [MXU])。在多个代系中,MXU 一直是一个 128x128 的阵列,能够同时执行 16,384 次乘累加运算 [cite: 4, 10]。TPU v4 引入了“SparseCore”,这是一个专门设计的硬件块,用于加速嵌入查找和不规则内存访问,从而防止 MXU 在推荐模型训练期间停滞 [cite: 4, 6]。
地形演变和 Trillium (v6e)
随着模型规模的扩大,在数千个芯片之间同步梯度所需的互连拓扑也随之演变。Google 为较小且经济实惠的 Pod(例如 v5e 和 v6e)部署了二维环面拓扑,从而简化了扩展到 256 个芯片的过程 [cite: 4, 10]。对于性能优化型变体(例如 v4 和 v5p),Google 采用了 3D 环面拓扑,该拓扑以三维环绕网格连接芯片,从而降低了从 4,096 到 8,960 个芯片不等的大型 Pod 的通信延迟 [cite: 4]。
现代 TPU 的直接前身是 2024 年底发布的 TPU v6e (Trillium)。Trillium 将 MXU 从 128x128 阵列扩展到 256x256 阵列 [cite: 10],实现了巨大的架构飞跃。这使每个周期的乘法累加运算次数增加了三倍。Trillium 还将芯片间互连 (ICI) 带宽提高了一倍,达到 3,200 Gbps(总双向带宽为 13 TB/s),并为每个芯片配备了 32 GB 的高带宽内存 (HBM),因此其峰值计算能力是前代产品的 4.7 倍,能效提高了 67% [cite: 10, 11]。
| TPU 世代 | 播映年份 | 主要创新 | 拓扑和 Pod 大小上限 | MXU 架构 | 每个芯片的峰值计算能力 |
|---|---|---|---|---|---|
| TPU v2 | 2017 | 首次支持训练 (BF16) | 2D 环面(512 个芯片) | 128x128 | ~45 TFLOPS |
| TPU v4 | 2021 | SparseCore 简介 | 3D 环面(4,096 个芯片) | 128x128 | 275 TFLOPS |
| TPU v5e | 2023 | 费用优化的效率 | 2D 环面(256 个芯片) | 128x128 | 197 TFLOPS |
| TPU v5p | 2023 | 性能纵向扩容 | 3D 环面(8,960 个芯片) | 128x128 | 459 TFLOPS |
| TPU v6e (Trillium) | 2024 | 256x256 MXU 扩展 | 2D 环面(256 个芯片) | 256x256 | 918 TFLOPS |
统一架构的巅峰之作:TPU 7x
第七代 TPU 7x 将于 2025 年底正式发布,代表着 Google 统一架构策略的绝对巅峰。TPU 7x 旨在通过单一架构框架执行前沿规模的预训练和解码密集型推理,突破了双用途加速器所能达到的极限 [cite: 3, 10]。
双芯粒设计和 AlphaChip 优化
TPU 7x 的物理结构与 v4 和 v5p 中采用的单逻辑核心 (MegaCore) 架构相比发生了巨大变化 [cite: 3]。TPU 7x 采用双芯粒架构。每个完整的 TPU 7x 芯片都包含两个不同的独立芯粒,这两个芯粒通过专有的高速裸片间 (D2D) 接口连接 [cite: 3]。此 D2D 连接的运行速度是标准一维 ICI 链路的 6 倍,可让芯粒快速通信,同时保持各自专用的内存空间 [cite: 3]。
在整个统一芯片中,TPU 7x 包含两个 TensorCore 和四个 SparseCore [cite: 3]。这些核心在硅矩阵上的物理布局经过了优化,使用了 Google 的专有强化学习工具 AlphaChip,以最大限度缩短导线长度并最大限度提高热效率 [cite: 10]。TPU 7x 的标准虚拟机 (VM) 配置将四个芯片连接到 CPU 主机,从而公开 224 个 vCPU 和 960 GB 的 RAM [cite: 3]。
多层级内存层次结构和精度格式设置
处理密集模型和 MoE 模型的一个关键瓶颈是存储层之间的数据持续移动。TPU 7x 具有强大的多层内存系统,旨在保持扩展的 MXU 处于饱和状态: * 高带宽内存 (HBM3E):每个 TPU 7x 芯片都配备了 192 GB 的 HBM,可提供 7.37 TB/s (7,380 GBps) 的巨大内存带宽 [cite: 3, 10]。与 Trillium 相比,容量增加了 6 倍,这使得训练期间的批次大小显著增加,并能够在推理期间将更大的 KV 缓存保留在芯片上,从而避免与卸载到较慢的主机内存相关的昂贵延迟峰值 [cite: 4, 10, 13]。 * 向量内存 (VMEM):作为超高速片上 SRAM 暂存区,每个 TensorCore 都具有 64 MiB 的 VMEM(每个芯片总共 128 MB)。与 HBM 相比,VMEM 具有明显更高的 MXU 带宽 [cite: 3, 14]。通过范围限定的 VMEM 调整,开发者可以在当前计算范围和未来的权重预取之间重新分配内存,从而实现更大的内核 tile 大小(例如闪存注意力机制中使用的 tile 大小),并减少内存停滞 [cite: 13, 14]。 * 主机内存 (PCIe):通过 PCIe 网络连接,系统的主机内存用于卸载优化器状态和激活,从而管理超出 HBM 容量的模型的内存压力 [cite: 3, 14]。
此外,TPU 7x 还引入了对 8 位浮点 (FP8) 精度的原生硬件加速 [cite: 4, 13]。通过从标准 16 位格式(BF16 或 FP16)迁移,FP8 表示法可有效将峰值计算吞吐量提高一倍,同时将存储权重和激活所需的内存占用量减少一半 [cite: 4, 13]。在 FP8 中原生运行的单个 TPU 7x 芯片可提供 4,614 TFLOPS 的峰值计算能力,而在 BF16 中运行时,该值为 2,307 TFLOPS [cite: 3, 4]。
3D 环面拓扑和 Superpod 规模
在数据中心层面,TPU 7x 依赖于 Google 经过验证的 3D 环面互连拓扑 [cite: 3]。此架构可将每个芯片直接连接到其在 X、Y 和 Z 轴上的最近邻,从而形成一个弹性三维网格 [cite: 3]。此网格内的通信通过每个芯片 1.2 TB/s (1,200 GBps) 的 ICI 带宽实现,可在每个轴上提供 200 GBps 的双向通信 [cite: 3]。
完全实现的 TPU 7x 超级 pod 可扩展到 9,216 个液冷芯片。在此配置中,该 pod 可提供总计 42.5 ExaFlop 的 FP8 计算能力 [cite: 8, 10]。大于 64 个芯片的切片使用模块化 4x4x4“立方体”芯片构建,从而实现从单主机配置到大规模多主机环境的高度灵活的拓扑 [cite: 3]。
尽管 TPU 7x 具有强大的功能,但其统一的特性意味着它存在固有的妥协。虽然 3D 环面拓扑对于预训练中所需的局部可预测梯度同步非常高效,但会导致网络直径较大。例如,在 3D 环面上,一个 1,024 芯片的 Pod 的最大网络直径为 16 跳 [cite: 15, 16]。在 MoE 推理场景中,令牌必须快速路由到 Pod 内任意位置的专家层,而这种 16 跳距离会带来不可接受的端到端尾部延迟 [cite: 6, 15, 16]。此外,将宝贵的硅面积专门用于擅长嵌入查找的 SparseCore,会减少可用于代理链式思维工作流所需的集体归约引擎的空间 [cite: 6, 15]。该行业已达到“一刀切”加速器的物理极限。
战略性分叉:经济和架构驱动因素
从第七代 TPU 到第八代 TPU 的过渡,标志着 Google 芯片历史上最重要的架构转变 [引用:9]。在 2026 年 Google Cloud Next 大会上,Google 宣布将 TPU 产品线分为两个截然不同的产品系列:用于训练的 TPU 8t 和用于推理的 TPU 8i。这表明,在硬件层面,未来十年推动人工智能发展的工作负载从根本上来说是无法调和的 [引用:1、2、17]。
这种拆分源于 AI 开发在经济效益和运营强度方面的差异。训练前沿模型是一项高度资本密集型的一次性运营支出,以数周或数月的持续计算来衡量 [cite: 9]。它需要尽可能高的计算密度、前所未有的纵向扩展互连带宽,以及能够以线路速率提取多模态数据集的多 PB 统一内存域 [cite: 9]。
相反,推理是一项持续的运营成本,会随着用户需求的增加而线性或指数级增长 [cite: 9]。在新兴的“智能体时代”,AI 模型不仅会预测下一个令牌来生成一段文本,还会主动推理、模拟未来情景、通过“想象”进行迭代、调用外部 API,并在持续的反馈循环中与大量其他专业智能体互动 [cite: 5, 7, 15]。这种动态性需要大量内存来存储活跃的上下文窗口,并且需要极低的专家路由和全局同步网络延迟 [cite: 15, 16]。
通过拆分产品线,Google 在供应链深处对硬件进行了优化。TPU 8t 是与 Broadcom 联合设计的,双方的合作关系可追溯到 2015 年 [cite: 9, 17, 18]。Broadcom 在复杂的高速 SerDes 互连、高级封装和大规模网络方面的专业知识使其成为推动训练结构物理极限的理想合作伙伴 [cite: 17, 19]。
对于推理芯片,Google 打破了传统,与 MediaTek 合作设计了 TPU 8i [cite: 9, 17, 18]。Google 凭借 MediaTek 在高能效、大批量移动 SoC 设计方面的深厚专业知识,打造了一款高度经济实惠的推理加速器 [cite: 17, 19]。TPU 8i 采用更简单的设计(一个计算芯片,而 8t 采用两个),据称其生产成本比传统的高性能变体低 20% 到 30%,这使得 Google 能够经济高效地扩展其全球服务容量,以满足企业和消费者应用的需求 [cite: 9, 17]。这两款芯片均采用台积电先进的 2 纳米工艺节点制造,并采用先进的 CoWoS 封装技术,将逻辑芯片与高耸的 HBM 堆栈集成在一起 [cite: 9, 19]。
这种双管齐下的策略立即得到了市场验证。领先的 AI 研究组织 Anthropic 扩大了与 Google Cloud 达成的数十亿美元协议,承诺到 2027 年将计算容量提升至惊人的 3.5 吉瓦,成为 TPU 7x 和第八代平台的锚定客户 [cite: 9, 10, 20]。
深入探讨:TPU 8t(预训练利器)
TPU 8t 是一项毫不妥协的工程成就,旨在将万亿参数前沿模型的开发周期从数月缩短至数周 [cite: 5, 21]。它不仅通过提高原始时钟速度来实现这一点,还通过重构数学运算的精度、大幅扩展芯片间带宽,以及缓解困扰大规模训练集群的严重数据摄取瓶颈来实现这一点 [cite: 6, 15]。
双芯片计算架构和原生 FP4
在物理上,TPU 8t 采用高度复杂的架构,包含两个计算芯片和一个 I/O 芯片组,两侧是八个 12 层高的 HBM3E 内存堆栈 [cite: 9]。这种密集封装需要先进的散热管理,依靠 Google 的第四代液冷技术来散发持续矩阵运算产生的大量热量 [cite: 7, 17, 22]。
TPU 8t 的一项基础性改进是引入了原生 4 位浮点 (FP4) 精度 [cite: 6, 15]。预训练的数学需求非常注重吞吐量,而非极高的数值精度。通过将原生执行从 FP8 降至 FP4,TPU 8t 可有效将 MXU 的吞吐量提高一倍,同时将每个形参必须在芯片上物理移动的位数减少一半 [cite: 6, 15]。这种数据移动的大幅减少可最大限度地减少能耗高的内存提取,并使更大的模型层能够舒适地容纳在本地化硬件缓冲区中 [cite: 6, 15]。
为确保芯片保持饱和状态,TPU 8t 实现了更均衡的向量处理单元 (VPU) 扩展。这使得芯片能够将量化、softmax 和 layernorm 等必要的顺序任务与 MXU 中发生的大量矩阵乘法重叠,从而几乎消除了计算核心原本会处于空闲状态的非矩阵时间 [cite: 6, 15]。得益于这些架构优化,单个 TPU 8t 芯片可提供惊人的 12.6 PFLOP 的 FP4 计算能力 [cite: 15, 23]。
此外,与侧重于推理的同类产品不同,TPU 8t 保留了早期版本中引入的专用 SparseCore 模块 [cite: 1, 6, 15]。在多模态基础模型和推荐系统中常见的嵌入密集型工作负载表现出不规则的内存访问模式,这会严重影响传统 GPU 的性能。SparseCore 以异步方式运行,可分流依赖于数据的全收集操作和嵌入查找 [cite: 6, 15]。通过将密集矩阵数学运算分离到 MXU,并将稀疏运算分离到 SparseCore,TPU 8t 可防止导致计算停滞的“零操作”瓶颈 [cite: 6, 15]。
带宽、存储注入和 TPUDirect
为了向以 FP4 运行的大规模加速 MXU 提供数据,TPU 8t 需要极高的本地带宽和聚合带宽。每个芯片都具有 216 GB 的 HBM3e,运行速度为 6,528 GB/s [cite: 15, 24]。不过,对于前沿模型而言,系统限制通常会从芯片的处理速度转变为数据中心从冷存储中提取 PB 级训练数据的速度。
为了规避传统数据路径瓶颈,Google 集成了 TPUDirect RDMA 和 TPUDirect Storage [cite: 5, 6, 10]。这些协议可在 TPU 的高带宽内存与受管理的网络存储阵列(例如 Google Cloud Managed Lustre 10T [cite: 6, 15])之间实现直接内存访问 (DMA)。通过网络接口卡 (NIC) 将数据直接从 Lustre 并行文件系统路由到 TPU,TPUDirect 完全绕过宿主 CPU 和宿主的 DRAM [cite: 6]。与在 TPU 第 7 代上训练相比,这种专用数据路径可将存储访问速度有效提升 10 倍,确保 TPU 8t 计算单元能够以线路速率提取多模态数据集,而不会出现数据饥饿 [cite: 5, 6, 15]。
超大规模基础设施:Virgo 网络
TPU 8t 生态系统最令人惊叹的架构壮举是其联网能力,它将系统限制从本地化计算牢牢地转移到数据中心级带宽 [cite: 25, 26]。
TPU 8t 保留了用于本地 Pod 通信的基础 3D 环面互连,可在单个 Superpod 中支持多达 9,600 个芯片和前所未有的 2 PB 共享 HBM,但横向扩展结构已完全重新设计 [cite: 5, 6, 15]。该超级 Pod 的 FP4 总算力达到 121 ExaFlop,比 TPU 7x 的 42.5 ExaFlop 提高了 2.8 倍 [引用:6]。为了支持这一点,每个芯片的 pod 内 ICI 带宽已翻倍至 19.2 Tb/s [cite: 4, 6, 10]。
不过,为了连接数百个这样的超级 Pod,Google 构建了 Virgo 网络 [cite: 1, 6]。前代网络 Jupiter 采用三层 Clos 拓扑,通过多个交换机层级路由流量,从而导致延迟和带宽瓶颈(每个芯片的带宽上限为 100 Gbps)[cite: 25]。
Virgo 是一种基于高基数交换机(管理 256 到 512 个端口)构建的横向扩缩结构,采用扁平的两层无阻塞拓扑 [cite: 6, 15, 25]。通过物理方式减少网络层级,Virgo 可大幅降低延迟时间。该网络采用具有独立控制域的多平面设计,可将原始数据中心网络 (DCN) 带宽提高多达 400%(4 倍),达到每个芯片 400 Gbps [cite: 6, 15, 24]。
单个 Virgo 网络可以在单个数据中心设施内连接超过 134,000 个 TPU 8t 芯片,提供每秒 47 PB 的不可思议的无阻塞对分带宽 [cite: 1, 6, 15]。此外,通过与 Google 的 Pathways 软件和 JAX 框架集成,TPU 8t 可让分布式训练集群扩展到超过一百万个芯片,并跨多个地理位置作为单个逻辑训练作业运行 [cite: 1, 6, 15]。这一成就将全球分布式基础设施转变为一个无缝的超级计算机,大幅超越了当前通用 GPU 的扩展限制 [cite: 27]。
自主重新配置和 97% 的吞吐量
在数十万个芯片的规模下,硬件故障(从收发器烧毁到热节流)是统计学上的必然事件,而不是极端情况。在旧版系统中,一次网络停滞就可能导致大规模训练运行停止,需要费力且代价高昂地回滚到之前的检查点。在前沿规模下,效率每损失一个百分点,就意味着损失数天的有效训练时间 [cite: 5, 6]。
TPU 8t 生态系统的目标是实现 97% 以上的“有效吞吐量”(用于衡量有效、高产计算时间与总正常运行时间的比率的指标)[cite: 6, 28]。这一目标是通过以光路交换 (OCS) 为核心的先进可靠性、可用性和可维护性 (RAS) 功能实现的 [cite: 5, 6, 25]。通过分析数万个芯片的实时遥测数据,系统可以自主检测到有故障的芯片间互连链路。OCS 可以实时重新路由光路,绕过硬件故障,无需人工干预,而且最重要的是,不会中断正在进行的训练作业 [cite: 5, 6, 28]。
深入了解:TPU 8i(推理引擎)
如果说 TPU 8t 是在极端情况下进行粗暴的扩展,那么 TPU 8i 就是在延迟优化和内存架构方面的一堂大师课 [cite: 6]。随着模型转向实时生产,尤其是大规模的混合专家 (MoE) 模型和代理群,原始计算吞吐量的重要性不如内存在网络中的访问和路由速度 [cite: 21, 29]。
打破推理内存墙
在自回归生成中,模型会按顺序生成输出 token。对于每个新生成的令牌,模型都必须引用不断增长的先前所有令牌及其数学关系的历史记录,这称为键值 (KV) 缓存 [cite: 1, 13]。对于分析数十万个词元的长上下文模型,此 KV 缓存的大小会急剧增加。如果缓存超出芯片快速板载内存的容量并溢出到较慢的宿主 CPU 内存中,整个计算过程就会停滞,这种现象被称为“内存墙”[cite: 5, 8]。
TPU 8i 的设计初衷就是为了打破这一障碍。虽然它是更简单、更具成本效益的硅设计,利用单个计算芯片和一个 I/O 芯片(包含六个 HBM3e 堆栈),但其内存容量经过了大幅优化,可用于服务 [cite: 9]。* HBM 容量和带宽:每个 TPU 8i 都配备了 288 GB 的 HBM3E,与 TPU 7x 相比,容量增加了 50% [cite: 5, 24, 30]。更重要的是,由于大型 MoE 模型在推理期间受内存带宽限制,因此内存带宽提升至 8.6 TB/s(约 8,601 GB/s),比以训练为重点的 TPU 8t 快约 1.3 倍 [cite: 10, 15]。 * 海量片上 SRAM:最重要的硬件转变是每个芯片包含 384 MB 的片上静态随机存取存储器 (SRAM) [cite: 10, 15, 30]。与 TPU 7x 和 TPU 8t 相比,这一增幅高达 300%(3 倍)[cite: 10, 15, 30]。SRAM 是直接在硅矩阵上提供的速度最快、延迟最低的内存。通过将此容量增加两倍,TPU 8i 可以将海量 KV 缓存完全托管在芯片上 [cite: 15, 16]。这样可防止处理核心在等待从较慢的内存层级提取令牌历史记录时处于空闲状态,从而使高并发推理循环能够以空前的流畅度运行 [cite: 5, 15]。
集合通信加速引擎 (CAE)
由于 TPU 8i 旨在用于推理,因此在 7x 和 8t 中用于嵌入查找的 SparseCore 单元被认为对于此特定工作负载而言,是一种低效的硅空间利用方式。取而代之的是,Google 工程师引入了一种专有的硬件块,称为 Collectives Acceleration Engine (CAE) [cite: 10, 15]。
在自回归解码和“思维链”处理期间,不同的核心必须经常暂停各自的计算,以在整个芯片中汇总、归约和同步其数学结果 [cite: 6, 15]。这些全局同步操作可能会严重限制延迟,尤其是在数千个独立智能体同时涌向一个问题时。
对于每个 TPU 8i 芯片,两个 TensorCore 位于核心晶圆上,同时在芯片组晶圆上配备一个 CAE(取代了 TPU 7x 上配备的四个 SparseCore)[cite: 6, 15]。这种专用 CAE 旨在以接近零的延迟聚合各个核心的结果,与 TPU 7x 相比,芯片上集体延迟减少了 5 倍 [cite: 10, 15]。通过对在智能体工作流程中占主导地位的缩减步骤进行硬件加速,CAE 可确保系统在不牺牲实时响应能力的情况下保持高吞吐量 [cite: 6, 15]。
网络扁平化:Boardfly 拓扑
TPU 8i 的一个显著特点是完全放弃了 3D 环面拓扑。虽然 3D 环面非常适合预训练中所需的邻居到邻居数据传递,但它会为 MoE 推理模型所需的全到全令牌路由带来过长的物理距离(以网络跃数衡量)[cite: 2, 15]。在 MoE 架构中,任何给定的令牌可能都需要路由到 Pod 内完全不同的芯片上的特定“专家”层。在传统环面中,此数据包必须依次通过中间芯片才能到达目的地。
为解决此问题,Google 设计了一种新的服务优化型网络架构,称为 Boardfly [cite: 15, 31]。Boardfly 借鉴了 Dragonfly 拓扑结构原则,是一种分层式高基数网络,旨在大幅扁平化架构并最大限度地缩短任意两个芯片之间的物理距离 [cite: 2, 15, 26]。
Boardfly 拓扑以分层方式构建: 1. 基础单元:四个全连接的 TPU 8i 芯片构成一个基础单元,具有内部 ICI 链接 [cite: 6, 16]。2. 单板:八个构建块通过直连铜缆完全连接,形成一个单板 [cite: 6, 16]。 3. Pod:36 个群组随后通过光路交换机和直接光纤长途链路完全互连,形成一个包含 1,152 个芯片的统一 Pod [cite: 5, 6, 16, 32]。
这种方法的延迟优势非常明显。在标准的 1,024 芯片 3D 环面配置中,数据包可能需要遍历最多 16 跳的网络直径 [cite: 15, 25]。在 Boardfly 拓扑中,此最大网络直径缩减为仅 7 跳 [cite: 15, 25]。
网络直径减少了 56%,这意味着通信密集型推理工作负载的尾部延迟时间大幅缩短了 50% [cite: 16, 25, 30]。推理最终会受到最慢节点速度的限制。通过大幅缩短尾部延迟时间,Boardfly 拓扑可确保 CAE 在等待令牌数据遍历 Pod 时绝不会处于空闲状态 [cite: 6, 15]。
此外,由于这种高度紧凑的光学互连,单个 1,152 芯片 TPU 8i Pod 可充当一个巨大的统一共享内存域,其中包含 331.8 TB 的相干 HBM [cite: 16]。
比较性能、经济效益和系统基础设施
这种架构分叉在计算经济性和能效方面都带来了显著的改进。如果仅根据峰值理论浮点运算来评估硬件,则会忽略数据中心运营和软件启用方面的系统性现实。
软件抽象和框架支持
尽管硬件基础各不相同,但 Google 投入了大量资金来维护统一的以性能为先的 AI 软件堆栈,以防止框架锁定。TPU 8t 和 8i 均原生支持 JAX、Keras、MaxText、SGLang 和 vLLM 引擎 [cite: 5, 8, 14, 17]。此外,通过 TorchTPU 提供的原生 PyTorch 支持可让开发者直接将现有的 PyTorch 模型移植到 TPU 环境,并全面支持 Eager Mode 等原生功能 [cite: 15, 17]。
在幕后,加速线性代数 (XLA) 编译器会处理 Boardfly 拓扑和 CAE 同步的复杂转换,从而使开发者能够使用 Python(使用 Pallas 和 Mosaic)编写硬件感知型自定义内核,而无需手动对光互连进行编程 [cite: 15]。
定量效果指标
下表总结了统一 TPU 7x 和高度专业化的 TPU 8t 和 8i 架构的核心技术规范 [cite: 3, 15, 24]。
| 规范矩阵 | TPU 7x | TPU 8t | TPU 8i |
|---|---|---|---|
| 主要工作负载 | 统一(训练和推理) | 大规模预训练 | 对延迟敏感的推理 |
| ASIC 设计合作伙伴 | Broadcom | Broadcom | MediaTek |
| 网络拓扑 | 3D 环面 | 3D 环面 + Virgo 横向扩容 | Boardfly(灵感源自 Dragonfly) |
| 专用硬件 | SparseCore | SparseCore | 集合通信加速引擎 (CAE) |
| 原生精确聚焦 | FP8 | FP4 | FP4(支持 FP8/INT8) |
| 每个芯片的峰值计算能力 | 4.6 PFLOPs (FP8) | 12.6 PFLOPs (FP4) | 10.1 PFLOPs (FP4) |
| 单芯片 HBM 容量 | 192 GB | 216 GB | 288 GB |
| HBM 带宽 | 7.37 TB/s | 6.52 TB/s | 8.60 TB/s |
| 片上 SRAM (VMEM) | 128 MB | 128 MB | 384 MB |
| 芯片间带宽(纵向扩容) | 9.6 Tb/s | 19.2 Tb/s | 19.2 Tb/s |
| Pod/Superpod 大小上限 | 9,216 个芯片 | 9,600 个芯片 | 1,152 个芯片 |
成本效益和总拥有成本 (TCO) 优化
Google 声称第八代产品可显著降低总拥有成本 (TCO)。与 TPU 7x 相比,TPU 8t 在大规模训练方面的性价比提高了 170% 至 180%,相当于提高了 2.7 倍至 2.8 倍 [cite: 6, 15, 30]。与此同时,TPU 8i 在推理方面的性价比提高了 80%,尤其是在大型 MoE 模型所需的低延迟目标方面 [cite: 15, 16, 30]。
这些经济效益不仅由芯片驱动,还由全栈系统集成驱动。过去,TPU 通常与现成的 x86 主机 CPU 配对使用。在涉及密集数据预处理或复杂代理逻辑的情况下,x86 主机经常会成为系统瓶颈,导致超快速 TPU 硅芯片处于空闲就绪状态,但却缺乏数据 [cite: 6, 7]。
第八代通过在 Google 基于 ARM 的自定义 Axion 处理器上独家托管 8t 和 8i,纠正了这一长期存在的不平衡问题 [cite: 6, 7, 15]。Axion 主机基于 Neoverse N3 Armv9.2 核心架构构建,可提供统一的高度优化基础 [cite: 18, 19]。对于推理密集型 TPU 8i,Google 以 2:1 的 TPU 与 CPU 比率集成了 Axion 主机,与 TPU 7x 相比,每台服务器的物理 CPU 主机数量翻了一番 [cite: 5, 6, 32]。该系统利用严格的非统一内存访问 (NUMA) 架构实现工作负载隔离,可保证出色的内存局部性,并完全消除数据准备瓶颈 [cite: 5, 7]。
能效和市场影响
能耗密度和电力可用性正迅速成为现代数据中心部署的最终约束条件。通过使用第四代液冷技术和集成式实时电源管理,根据特定工作负载阶段(例如,主动计算与空闲通信)动态调整功耗,TPU 8t 和 8i 都实现了惊人的能效 [cite: 7, 15, 22, 24]。8t 的每瓦性能提升了 124%,而 8i 的每瓦性能提升了 117%,与 TPU 7x 相比,能效总体提升了 2 倍(100%以上)[cite: 15, 22, 30]。
这种效率的意义在 Google 自身最先进的模型中显而易见。Gemini 3.1 Pro 预览版的基准测试表明,在 TPU 8i 架构上部署该模型可将推理 API 的成本降低约 50%,同时大幅提升响应速度和长上下文处理能力 [cite: 24, 30]。
竞争格局:Google 与商家芯片
Google 决定将其芯片战略一分为二,这对更广泛的人工智能硬件生态系统产生了深远的影响,尤其是在其与 Nvidia 等商业芯片提供商以及 AMD 和 AWS(及其 Trainium3 平台)的持续竞争中 [cite: 17, 23]。
Nvidia 一直以来都坚持统一的架构策略,利用功能强大但通用性强的平台(例如 Blackwell B200 和 Vera Rubin NVL72)来处理预训练和实时推理 [cite: 2, 9]。如果仅从原始单芯片规格的角度来看,Nvidia 仍具有一定的优势。例如,Nvidia 的 NVLink 技术支持 14.4 Tb/s 的单设备互连带宽,单个 Rubin GPU 可提供大约 50 PFLOP 的 NVFP4 推理计算能力,远高于 TPU 8i 的 10.1 PFLOP [cite: 2, 9]。
不过,Google 的架构押注基于这样一种信念:人工智能的未来取决于集群级效率,而不是单芯片峰值能力 [cite: 9]。
通过改用 Boardfly 拓扑,Google 在 TPU 8i Pod 内的所有 1,152 个芯片之间创建了一个完全一致的共享内存池 [cite: 16]。这使得 pod 的总容量达到 11.6 FP8 ExaFlops,并具有 331.8 TB 的统一连贯 HBM [cite: 6, 16]。相反,NVL72 上的标准 Nvidia GPU 机架级一致性最多支持 72 个 GPU 和大约 20.7 TB 的 HBM [cite: 2, 16]。将通用 GPU 扩展到 1,152 芯片配置需要跨越大约 16 个单独的机架 [cite: 16]。这种物理分离会破坏真正的内存一致性,并带来严重的延迟惩罚,这对持续的、长上下文的智能体推理来说是灾难性的 [cite: 16]。
此外,通过将光路交换 (OCS) 移至堆栈中较低的位置,以实现 Boardfly 层次结构,Google 从根本上改变了光网络供应链,为 Lumentum 和 Coherent 等供应商的专用收发器和激光器创造了巨大的下游需求 [cite: 26]。
最终,Google 的设计理念认为,2020 年代后期的真正战场将不是由单个硅芯片上的峰值数学吞吐量决定,而是由以下能力决定:绕过内存墙、快速扩展跨站点互连,以及降低向数十亿用户部署实时代理群的每词元绝对成本经济性 [cite: 6, 16, 17]。
总结
Google Cloud 的张量处理单元 (TPU) 从 TPU 7x 的统一框架发展到 TPU 8t 和 TPU 8i 的高度专业化二分法,反映了人工智能工作负载的成熟和工业化。通用型统一芯片虽然是最初深度学习热潮的基础,但已不足以推动智能体时代所需的经济效益或性能。
TPU 8t 代表着对规模的毫不妥协的追求。通过保留 SparseCore、实现原生 FP4 精度以将 MXU 吞吐量提高一倍,以及利用 Virgo 网络和 TPUDirect 存储的惊人功能,它能够以之前认为不可能的量级提取和处理数据。它可有效消除现代数据中心的横向扩缩带宽限制,使数百万个芯片能够作为单一的全球分布式预训练引擎运行。
相比之下,TPU 8i 旨在消除延迟并提高经济效益。它放弃了 3D 环面,转而采用分层 Boardfly 拓扑,将片上 SRAM 容量增加到 384 MB,并引入了集合加速引擎来加速自回归同步,从而系统性地拆除了推理内存墙。它可确保复杂的多步代理推理所需的海量 KV 缓存保持本地化,并以接近零延迟的速度访问,同时通过简化的逻辑设计来降低生产成本。
第八代服务器采用完全集成的基于 ARM 的 Axion CPU,并由自主光路交换技术进行管理,共同在超大规模基础设施领域树立了新范式。它明确表明,人工智能的未来不仅需要更快的芯片,还需要从根本上不同的硬件框架,这些框架经过精心设计,可精确满足其注定要处理的独特工作负载。
来源: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. 链接 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com