Эволюция искусственного интеллекта от фундаментальных больших языковых моделей до сложных многоступенчатых агентных систем привела к фундаментальному сдвигу парадигмы в проектировании полупроводников. Почти десятилетие в архитектуре ускорителей искусственного интеллекта преобладала логика унификации. Разработчики кремниевых микросхем стремились создавать единые, монолитные архитектуры, способные одновременно выполнять огромные, ресурсоемкие задачи предварительного обучения моделей и чувствительные к задержкам требования производственного вывода [цит.: 1, 2]. Этот унифицированный подход доминировал в отрасли с момента появления первых аппаратных ускорителей до развертывания седьмого поколения процессоров Tensor Processing Unit (TPU) в Google Cloud [цит.: 2, 3, 4].
Однако, по мере того как передовые модели масштабируются до триллионов параметров, а архитектуры рассуждений в реальном времени — такие как Mixture-of-Experts (MoE) и непрерывные агентные петли обратной связи — становятся стандартом, требования к оборудованию для обучения и обслуживания необратимо расходятся [цит.: 5, 6, 7]. Предварительное обучение превратилось в задачу оптимизации пропускной способности и производительности, требующую поразительных возможностей масштабирования, огромной пропускной способности межсоединений и непрерывного насыщения матричной математикой [цит.: 6]. Напротив, агентное обслуживание стало проблемой, ограниченной задержкой и памятью, ограниченной скоростью потоковой передачи весов и кэшей ключ-значение (KV) на процессорные ядра без узкого места в глобальных операциях синхронизации [цит.: 6, 8].
Понимая, что принудительное размещение обеих рабочих нагрузок на идентичном кремниевом чипе приводит к системной неэффективности и снижению экономической отдачи, Google приняла беспрецедентное архитектурное решение разделить свою линейку TPU восьмого поколения [цит.: 1, 6, 9]. В результате получились два отдельных, узкоспециализированных чипа, разработанных вплоть до уровня цепочки поставок: TPU 8t, разработанный для обеспечения огромной пропускной способности обучения в масштабах суперкомпьютеров, и TPU 8i, предназначенный для преодоления барьера памяти для вывода и минимизации коллективной задержки для глобального рассуждения [цит.: 7, 9].
В этом всеобъемлющем исследовательском отчете анализируются архитектурные, производительные и масштабируемые различия между унифицированной базовой версией TPU 7x и новыми разновидностями TPU 8t и TPU 8i. Благодаря исчерпывающему изучению логического проектирования, многоуровневых иерархий памяти, топологий межсоединений центров обработки данных, оптической коммутации цепей и совместной разработки аппаратного и программного обеспечения, этот анализ показывает, как необходимы специализированные кремниевые компоненты для обеспечения экономического и вычислительного масштабирования следующего поколения искусственного интеллекта.
Исторический контекст: Траектория специализации
Чтобы в полной мере оценить архитектурные изменения, произошедшие в восьмом поколении, необходимо проследить итеративную эволюцию семейства TPU. Разработка аппаратного обеспечения Google постоянно отражала преобладающие узкие места современных моделей машинного обучения, переходя от простого ускорения вывода к масштабным кластерным обучающим платформам [цитата: 10, 11].
От вывода информации к массивам матриц
В 2015 году Google представила TPU v1 как ускоритель, предназначенный исключительно для выполнения инференции и способный справиться с растущей вычислительной нагрузкой внутренних сервисов, таких как Поиск, Перевод и рекомендации YouTube [цит.: 11, 12]. В v1 использовалась 8-битная целочисленная математика для достижения повышения производительности на ватт на порядок по сравнению с центральными процессорами общего назначения (ЦП) и графическими процессорами (ГП) [цит.: 10, 11]. К 2017 году TPU v2 ознаменовал переход к возможностям обучения, представив формат bfloat16 (BF16) — 16-битный формат чисел с плавающей запятой, который сохранил динамический диапазон 32-битных чисел с плавающей запятой, одновременно сократив потребление памяти вдвое [цит.: 10].
В поколениях v3–v5 был оптимизирован основной вычислительный механизм — блок умножения матриц (MXU). В течение нескольких поколений MXU оставался систолическим массивом 128x128, способным одновременно выполнять 16 384 операции умножения-накопления [цит.: 4, 10]. В TPU v4 был представлен «SparseCore» — выделенный аппаратный блок, специально разработанный для ускорения поиска вложений и нерегулярного доступа к памяти, что предотвращает зависание MXU во время обучения модели рекомендаций [цит.: 4, 6].
Топографическая эволюция и Триллиум (том 6)
По мере увеличения размеров моделей развивались и топологии межсоединений, необходимые для синхронизации градиентов между тысячами чипов. Google использовала двухмерную тороидальную топологию для более компактных и экономичных модулей (таких как v5e и v6e), что упростило масштабирование до 256 чипов [ссылка: 4, 10]. Для оптимизированных по производительности вариантов (таких как v4 и v5p) Google использовала трехмерную тороидальную топологию, которая соединяла чипы в трехмерной сетке, охватывающей всю поверхность, для снижения задержки связи в модулях большего размера, от 4096 до 8960 чипов [ссылка: 4].
Непосредственным предшественником современной эры стал TPU v6e (Trillium), выпущенный в конце 2024 года. Trillium представлял собой огромный архитектурный скачок, расширив массив MXU с 128x128 до 256x256 [ссылка: 10]. Это в четыре раза увеличило количество операций умножения-накопления за цикл. В сочетании с удвоенной пропускной способностью межчипового соединения (ICI) в 3200 Гбит/с (13 ТБ/с в сумме двунаправленных) и 32 ГБ высокоскоростной памяти (HBM) на чип, Trillium обеспечил в 4,7 раза большую пиковую вычислительную мощность, чем его предшественник, при этом работая с 67% большей энергоэффективностью [ссылка: 10, 11].
| Поколение ТПУ | Год выпуска | Первичная инновация | Топология и максимальный размер капсулы | Архитектура MXU | Максимальная вычислительная мощность на чип |
|---|---|---|---|---|---|
| ТПУ v2 | 2017 | Первый учебно-тренировочный самолет (BF16) | Двумерный тор (512 чипов) | 128x128 | ~45 терафлопс |
| TPU v4 | 2021 | Введение в технологию SparseCore | 3D-тор (4096 чипов) | 128x128 | 275 терафлопс |
| TPU v5e | 2023 | Оптимизированная по затратам эффективность | Двумерный тор (256 чипов) | 128x128 | 197 ТФЛОПС |
| ТПУ v5p | 2023 | Масштабирование производительности | 3D-тор (8960 чипов) | 128x128 | 459 ТФЛОПС |
| TPU v6e (Trillium) | 2024 | Расширение MXU 256x256 | Двумерный тор (256 чипов) | 256x256 | 918 терафлопс |
Вершина унифицированной архитектуры: TPU 7x
Выпущенный в широкую продажу в конце 2025 года, TPU 7x седьмого поколения представляет собой абсолютную вершину стратегии Google по созданию единой архитектуры. Разработанный для выполнения как масштабного предварительного обучения, так и трудоемкого вывода в рамках единой архитектурной структуры, TPU 7x расширил границы возможностей двухцелевого ускорителя [цитата: 3, 10].
Двухчиповая конструкция и оптимизация AlphaChip
Физическая конструкция TPU 7x ознаменовала собой кардинальный сдвиг по сравнению с архитектурой с одним логическим ядром (MegaCore), используемой в версиях v4 и v5p [ссылка: 3]. TPU 7x использует двухчиплетную архитектуру. Каждый полнофункциональный чип TPU 7x состоит из двух отдельных, автономных чиплетов, соединенных запатентованным высокоскоростным интерфейсом «кристалл-кристалл» (D2D) [ссылка: 3]. Это соединение D2D работает в шесть раз быстрее, чем стандартный одномерный ICI-канал, позволяя чиплетам быстро обмениваться данными, сохраняя при этом собственные выделенные области памяти [ссылка: 3].
На всем унифицированном чипе TPU 7x размещены два ядра TensorCore и четыре ядра SparseCore [ссылка: 3]. Физическое расположение этих ядер на кремниевой матрице было оптимизировано с помощью AlphaChip, запатентованного инструмента Google для обучения с подкреплением, чтобы минимизировать длину проводов и максимизировать тепловую эффективность [ссылка: 10]. Стандартная конфигурация виртуальной машины (ВМ) для TPU 7x подключает четыре чипа к хосту ЦП, предоставляя доступ к 224 виртуальным ЦП и 960 ГБ ОЗУ [ссылка: 3].
Многоуровневая иерархия памяти и форматирование с высокой точностью
Критическим узким местом при обработке плотных моделей и моделей MoE является непрерывное перемещение данных между уровнями хранения. TPU 7x оснащен надежной многоуровневой системой памяти, разработанной для обеспечения полной загрузки расширенных MXU: * Высокоскоростная память (HBM3E): Каждый чип TPU 7x оснащен 192 ГБ HBM, обеспечивая огромную пропускную способность памяти 7,37 ТБ/с (7380 ГБ/с) [цит.: 3, 10]. Это шестикратное увеличение емкости по сравнению с Trillium позволяет значительно увеличивать размеры пакетов во время обучения и обеспечивает сохранение больших кэшей ключ-значение на чипе во время вывода, предотвращая дорогостоящие скачки задержки, связанные с переносом данных в более медленную память хоста [цит.: 4, 10, 13]. * Векторная память (VMEM): Выступая в качестве сверхскоростной встроенной SRAM-памяти, каждый TensorCore имеет 64 МиБ VMEM (всего 128 МБ на чип). VMEM обладает значительно большей пропускной способностью по отношению к MXU, чем HBM [цит.: 3, 14]. Благодаря настройке VMEM с ограничением области действия, разработчики могут перераспределять память между текущей областью вычислений и будущей предварительной выборкой весов, что позволяет использовать более крупные размеры блоков ядра (например, используемые в функции Flash Attention) и уменьшать задержки памяти [цит.: 13, 14]. * Память хоста (PCIe): Подключенная через сеть PCIe, память хоста системы используется для разгрузки состояний и активаций оптимизатора, управляя нагрузкой на память для моделей, превышающих емкость HBM [цит.: 3, 14].
Кроме того, TPU 7x представил встроенное аппаратное ускорение для 8-битной точности с плавающей запятой (FP8) [цит.: 4, 13]. Переход от стандартных 16-битных форматов (BF16 или FP16) к представлению FP8 фактически удваивает пиковую вычислительную пропускную способность, одновременно уменьшая вдвое объем памяти, необходимый для хранения весов и активаций [цит.: 4, 13]. При работе в формате FP8 один чип TPU 7x обеспечивает пиковую вычислительную мощность в 4614 TFLOPS по сравнению с 2307 TFLOPS при работе в формате BF16 [цит.: 3, 4].
Трехмерная топология тора и масштаб суперпода
На уровне центра обработки данных TPU 7x использует проверенную топологию межсоединений Google в виде 3D-тора [ссылка: 3]. Эта архитектура соединяет каждый чип напрямую с ближайшими соседями по осям X, Y и Z, что приводит к созданию отказоустойчивой трехмерной сетки [ссылка: 3]. Связь внутри этой сетки обеспечивается пропускной способностью ICI 1,2 ТБ/с (1200 Гбит/с) на чип, обеспечивая двустороннюю связь со скоростью 200 Гбит/с на ось [ссылка: 3].
Полностью реализованный суперпод TPU 7x масштабируется до огромного количества 9216 чипов с жидкостным охлаждением. В этой конфигурации под обеспечивает суммарную вычислительную мощность 42,5 эксафлопс FP8 [цит.: 8, 10]. Срезы, превышающие 64 чипа, строятся с использованием модульных «кубов» чипов размером 4x4x4, что позволяет создавать очень гибкие топологии, от конфигураций с одним хостом до масштабных многохостовых сред [цит.: 3].
Несмотря на свои огромные возможности, унифицированная природа TPU 7x подразумевала наличие неизбежных компромиссов. Хотя топология 3D-тора очень эффективна для локализованной, предсказуемой синхронизации градиентов, необходимой на этапе предварительного обучения, она приводит к большому диаметру сети. Например, модуль из 1024 чипов на 3D-торе имеет максимальный диаметр сети в 16 переходов [цит.: 15, 16]. В сценарии вывода MoE, где токены должны быстро направляться к экспертным слоям, расположенным в любой точке модуля, это расстояние в 16 переходов приводит к неприемлемым задержкам «от всех ко всем» [цит.: 6, 15, 16]. Кроме того, выделение ценной площади кремния под SparseCores — которые превосходно справляются с встраиванием поисковых запросов — отнимает пространство, которое можно было бы использовать для механизмов коллективного сокращения, критически важных для рабочих процессов агентной цепочки мыслей [цит.: 6, 15]. Отрасль достигла физических пределов универсального ускорителя.
Стратегическое разделение: экономические и архитектурные факторы
Переход от седьмого к восьмому поколению TPU представляет собой наиболее значимый архитектурный поворот в истории кремниевых технологий Google [ссылка: 9]. Анонсированное на Google Cloud Next 2026 разделение линейки TPU на два отдельных семейства продуктов — TPU 8t для обучения и TPU 8i для вывода — признает, что рабочие нагрузки, определяющие развитие искусственного интеллекта в следующем десятилетии, принципиально несовместимы на аппаратном уровне [ссылка: 1, 2, 17].
Причина этого расхождения кроется в расходящихся экономических и операционных затратах на разработку ИИ. Обучение модели, находящейся на рубеже технологического развития, представляет собой чрезвычайно капиталоемкий, единовременный операционный расход, измеряемый непрерывными вычислениями в течение недель или месяцев [ссылка: 9]. Оно требует максимальной вычислительной плотности, беспрецедентной пропускной способности межсоединений и многопетабайтных доменов унифицированной памяти, способных обрабатывать многомодальные наборы данных со скоростью линии [ссылка: 9].
Напротив, вывод представляет собой постоянные операционные издержки, которые масштабируются линейно — или экспоненциально — в зависимости от спроса пользователей [цитата: 9]. В наступающей «Эре агентов» модель ИИ не просто предсказывает следующий токен для генерации блока текста; она активно рассуждает, моделирует будущие сценарии, итеративно «воображает», вызывает внешние API и взаимодействует с роями других специализированных агентов в непрерывных циклах обратной связи [цитата: 5, 7, 15]. Эта динамика требует огромных объемов памяти для хранения активных контекстных окон и чрезвычайно низкой задержки сети для экспертной маршрутизации и глобальной синхронизации [цитата: 15, 16].
Разделив линейку продуктов, Google оптимизировала аппаратное обеспечение на глубоком уровне цепочки поставок. TPU 8t был разработан совместно с Broadcom, партнерство с которым началось еще в 2015 году [цит.: 9, 17, 18]. Опыт Broadcom в сложных высокоскоростных межсоединениях SerDes, передовой упаковке и масштабных сетях сделал их идеальным партнером для расширения физических пределов возможностей обучающей инфраструктуры [цит.: 17, 19].
Для создания чипа для обработки инференции Google отошла от традиций и заключила партнерское соглашение с MediaTek для разработки TPU 8i [цит.: 9, 17, 18]. Используя обширный опыт MediaTek в разработке энергоэффективных мобильных SoC для массового производства, Google создала высокоэффективный по стоимости ускоритель инференции [цит.: 17, 19]. TPU 8i использует более простую конструкцию (один вычислительный кристалл против двух у 8t), производство которого, как сообщается, на 20–30% дешевле, чем у традиционных высокопроизводительных вариантов, что позволяет Google экономично масштабировать свои глобальные вычислительные мощности для удовлетворения потребностей корпоративных и потребительских приложений [цит.: 9, 17]. Оба чипа изготовлены по передовому 2-нанометровому техпроцессу TSMC с использованием передовой технологии CoWoS для интеграции логических кристаллов с высокими стеками HBM [цит.: 9, 19].
Рыночное подтверждение эффективности этой раздвоенной стратегии последовало незамедлительно. Anthropic, ведущая исследовательская организация в области ИИ, расширила свое многомиллиардное соглашение с Google Cloud, взяв на себя обязательство предоставить ошеломляющие 3,5 гигаватта вычислительных мощностей к 2027 году, став основным клиентом как для платформ TPU 7x, так и для платформ восьмого поколения [цитата: 9, 10, 20].
Подробный обзор: TPU 8t (Мощный тренажер для предварительной подготовки)
TPU 8t — это бескомпромиссное инженерное достижение, направленное на сокращение цикла разработки моделей с триллионами параметров с месяцев до недель [цит.: 5, 21]. Это достигается не просто за счет увеличения тактовой частоты, но и за счет реструктуризации точности математических операций, значительного расширения межчиповой пропускной способности и смягчения критических проблем с обработкой данных, которые преследуют большие обучающие кластеры [цит.: 6, 15].
Двухкристальная вычислительная архитектура и нативный FP4
Физически TPU 8t использует чрезвычайно сложную архитектуру, включающую два вычислительных кристалла и один чиплет ввода-вывода, окруженный восемью стеками памяти HBM3E высотой 12 ячеек [ссылка: 9]. Такая плотная компоновка требует усовершенствованного управления тепловым режимом, основанного на жидкостном охлаждении четвертого поколения от Google для рассеивания огромного количества тепла, выделяемого при длительных матричных операциях [ссылка: 7, 17, 22].
Фундаментальным этапом развития TPU 8t стало внедрение нативной 4-битной точности с плавающей запятой (FP4) [цит.: 6, 15]. Математические требования предварительного обучения в значительной степени отдают приоритет пропускной способности, а не предельной численной точности. Снизив нативное выполнение с FP8 до FP4, TPU 8t фактически удваивает пропускную способность MXU, одновременно вдвое уменьшая количество битов, которые необходимо физически перемещать по кристаллу на каждый параметр [цит.: 6, 15]. Это существенное сокращение перемещения данных минимизирует энергоемкие операции выборки из памяти и позволяет более крупным слоям модели комфортно размещаться в локализованных аппаратных буферах [цит.: 6, 15].
Для обеспечения высокой загрузки чипа, TPU 8t реализует более сбалансированное масштабирование векторного процессора (VPU). Это позволяет кремнию перекрывать основные последовательные задачи — такие как квантование, softmax и нормализация слоев — с трудоемкими матричными умножениями, происходящими в MXU, практически исключая время, не связанное с матрицами, когда вычислительные ядра простаивали бы [цит.: 6, 15]. В результате этих архитектурных оптимизаций один чип TPU 8t обеспечивает поразительную вычислительную мощность в 12,6 PFLOPs в FP4 [цит.: 15, 23].
Кроме того, в отличие от своего ориентированного на вывод аналога, TPU 8t сохраняет специализированные блоки SparseCore, представленные в предыдущих поколениях [цит.: 1, 6, 15]. Нагрузки, интенсивно использующие встраивание данных — распространенные в многомодальных базовых моделях и рекомендательных системах — демонстрируют нерегулярные шаблоны доступа к памяти, которые ограничивают возможности традиционных графических процессоров. SparseCore работает асинхронно, разгружая зависимые от данных операции сбора и поиска встраиваний [цит.: 6, 15]. Разделяя вычисления с плотными матрицами на MXU и операции с разреженными матрицами на SparseCore, TPU 8t предотвращает «узкие места нулевых операций», вызывающие задержки вычислений [цит.: 6, 15].
Пропускная способность, объем передаваемых данных и TPUDirect
Для обеспечения работы мощного ускорения MXU, работающих в режиме FP4, TPU 8t требует чрезвычайно высокой локальной и совокупной пропускной способности. Каждый чип имеет 216 ГБ памяти HBM3e, работающей со скоростью 6528 ГБ/с [ссылка: 15, 24]. Однако в масштабе моделей передовых вычислений системное ограничение часто смещается от скорости обработки данных на кремниевом чипе к скорости, с которой центр обработки данных может считывать петабайты обучающих данных из холодного хранилища.
Чтобы обойти традиционное узкое место в пути передачи данных, Google интегрировала протоколы TPUDirect RDMA и TPUDirect Storage [цит.: 5, 6, 10]. Эти протоколы обеспечивают прямой доступ к памяти (DMA) между высокоскоростной памятью TPU и управляемыми сетевыми хранилищами, такими как Google Cloud Managed Lustre 10T [цит.: 6, 15]. Передавая данные напрямую из параллельной файловой системы Lustre в TPU через сетевую карту (NIC), TPUDirect полностью обходит центральный процессор и DRAM хоста [цит.: 6]. Этот специализированный путь передачи данных обеспечивает 10-кратное ускорение скорости доступа к хранилищу по сравнению с обучением на TPU 7-го поколения, гарантируя, что вычислительные блоки TPU 8t могут обрабатывать многомодальные наборы данных на построчной скорости без перебоев [цит.: 5, 6, 15].
Мегамасштабная инфраструктура: сеть Virgo
Наиболее впечатляющим архитектурным достижением экосистемы TPU 8t являются ее сетевые возможности, которые смещают системное ограничение с локальных вычислений на пропускную способность масштаба центра обработки данных [цит.: 25, 26].
Хотя TPU 8t сохраняет базовую трехмерную тороидальную межсоединительную структуру для локализованной связи между модулями — масштабируемость до 9600 чипов и беспрецедентные 2 петабайта общей памяти HBM в одном супермодуле — масштабируемая архитектура была полностью переработана [цит.: 5, 6, 15]. Супермодуль достигает суммарной вычислительной мощности 121 эксафлопс в FP4, что представляет собой увеличение в 2,8 раза по сравнению с 42,5 эксафлопсами у TPU 7x [цит.: 6]. Для поддержки этого пропускная способность ICI внутри модуля была удвоена до 19,2 Тб/с на чип [цит.: 4, 6, 10].
Однако для соединения сотен таких суперподов Google создала сеть Virgo [цитата: 1, 6]. Предшественница, сеть Jupiter, использовала трехслойную топологию Клоса, которая маршрутизировала трафик через несколько уровней коммутаторов, создавая задержки и узкие места в пропускной способности (максимальная скорость составляла 100 Гбит/с на чип) [цитата: 25].
Virgo — это масштабируемая сеть, построенная на коммутаторах с высокой пропускной способностью (управляющих от 256 до 512 портами), использующая плоскую двухуровневую неблокирующую топологию [цит.: 6, 15, 25]. За счет физического исключения сетевых уровней Virgo значительно снижает задержку. Сеть использует многоплоскостную конструкцию с независимыми доменами управления, обеспечивая увеличение пропускной способности сети центра обработки данных (DCN) до 400% (4x), достигая 400 Гбит/с на чип [цит.: 6, 15, 24].
Одна сеть Virgo способна объединить более 134 000 чипов TPU 8t в одном центре обработки данных, обеспечивая невероятную пропускную способность в 47 петабитов в секунду без блокировки [цит.: 1, 6, 15]. Кроме того, благодаря интеграции с программным обеспечением Google Pathways и фреймворком JAX, TPU 8t позволяет масштабировать распределенные кластеры обучения до более чем одного миллиона чипов на нескольких географических площадках в рамках одной логической задачи обучения [цит.: 1, 6, 15]. Это достижение превращает глобально распределенную инфраструктуру в единый, бесшовный суперкомпьютер, значительно превосходящий существующие ограничения масштабируемости универсальных графических процессоров [цит.: 27].
Автономная реконфигурация и 97% пропускная способность
В масштабе сотен тысяч микросхем аппаратные сбои — от вышедших из строя приемопередатчиков до теплового дросселирования — являются статистическими закономерностями, а не исключительными случаями. В устаревших системах один-единственный сетевой сбой может остановить масштабный процесс обучения, требуя трудоемкого и дорогостоящего отката к предыдущей контрольной точке. В масштабах передовых технологий каждый процент потерянной эффективности превращается в дни активного обучения [цитата: 5, 6].
Экосистема TPU 8t нацелена на достижение показателя «эффективной производительности» более 97% — метрики, определяющей отношение полезного, продуктивного вычислительного времени к общему времени безотказной работы [цит.: 6, 28]. Это достигается за счет расширенных возможностей обеспечения надежности, доступности и ремонтопригодности (RAS), основанных на оптической коммутации каналов (OCS) [цит.: 5, 6, 25]. Благодаря анализу телеметрии в реальном времени десятков тысяч чипов, система может автономно обнаруживать неисправные межчиповые соединения. OCS физически перенаправляет оптические световые пути для обхода аппаратных сбоев в реальном времени, не требуя вмешательства человека и, что особенно важно, не прерывая активную задачу обучения [цит.: 5, 6, 28].
Подробный анализ: TPU 8i (движок логических рассуждений)
Если TPU 8t — это пример экстремального, грубого масштабирования, то TPU 8i — это мастер-класс по оптимизации задержки и архитектуре памяти [цит.: 6]. По мере перехода моделей к производству в реальном времени, особенно масштабных моделей смешанных экспертов (MoE) и агентных роев, вычислительная мощность становится менее важной, чем скорость доступа к памяти и ее маршрутизации по сети [цит.: 21, 29].
Преодоление барьера памяти при выводе информации
В авторегрессивной генерации модель генерирует выходные токены последовательно. С каждым вновь сгенерированным токеном модель должна ссылаться на растущую историю всех предыдущих токенов и их математических взаимосвязей, известную как кэш «ключ-значение» (KV) [цит.: 1, 13]. Для моделей с длинным контекстом, анализирующих сотни тысяч токенов, размер этого кэша KV резко увеличивается. Если кэш превышает емкость быстрой встроенной памяти чипа и выходит за пределы более медленной памяти центрального процессора, весь вычислительный процесс останавливается — явление, широко известное как «стена памяти» [цит.: 5, 8].
TPU 8i был создан специально для преодоления этого барьера. Хотя это более простая и экономичная кремниевая конструкция — использующая один вычислительный кристалл и один кристалл ввода-вывода с шестью стеками HBM3e — его объемы памяти сильно оптимизированы для обслуживания [цит.: 9]. * Емкость и пропускная способность HBM: Каждый TPU 8i оснащен 288 ГБ HBM3E, что представляет собой увеличение емкости на 50% по сравнению с TPU 7x [цит.: 5, 24, 30]. Что еще важнее, поскольку большие модели MoE ограничены пропускной способностью памяти во время вывода, пропускная способность памяти увеличивается до 8,6 ТБ/с (~8601 ГБ/с) — примерно в 1,3 раза быстрее, чем ориентированный на обучение TPU 8t [цит.: 10, 15]. * Огромный объем встроенной SRAM: Наиболее важным изменением в аппаратной части является включение 384 МБ встроенной статической оперативной памяти (SRAM) на каждый чип [цит.: 10, 15, 30]. Это представляет собой колоссальное увеличение на 300% (3x) по сравнению с TPU 7x и TPU 8t [цит.: 10, 15, 30]. SRAM — это самая быстрая память с минимальной задержкой, доступная непосредственно на кремниевой матрице. Утроив эту емкость, TPU 8i может размещать огромные кэши ключ-значение полностью на кристалле [цит.: 15, 16]. Это предотвращает простои процессорных ядер в ожидании получения истории токенов из более медленных уровней памяти, что позволяет высокопроизводительным циклам рассуждений работать с беспрецедентной плавностью [цит.: 5, 15].
Механизм ускорения коллективных действий (CAE)
Поскольку TPU 8i ориентирован на вывод результатов, блок SparseCore, используемый в 7x и 8t для поиска вложений, был признан неэффективным использованием кремниевой площади для этой конкретной рабочей нагрузки. Вместо него инженеры Google представили собственный аппаратный блок, известный как Collectives Acceleration Engine (CAE) [цитата: 10, 15].
В процессе авторегрессивного декодирования и обработки «цепочки мыслей» разрозненные ядра должны часто приостанавливать свои индивидуальные вычисления, чтобы агрегировать, сокращать и синхронизировать свои математические результаты по всему чипу [цитата: 6, 15]. Эти глобальные операции синхронизации могут серьезно увеличить задержку, особенно когда тысячи независимых агентов одновременно решают одну и ту же задачу.
На каждом чипе TPU 8i два ядра TensorCore расположены на основных кристаллах, а одно ядро CAE — на кристалле чиплета (заменяя четыре ядра SparseCore, которые были на TPU 7x) [цит.: 6, 15]. Специализированное ядро CAE разработано для агрегирования результатов по ядрам с практически нулевой задержкой, что приводит к невероятному пятикратному снижению общей задержки на кристалле по сравнению с поколением TPU 7x [цит.: 10, 15]. За счет аппаратного ускорения этапов сокращения, которые доминируют в агентных рабочих процессах, ядро CAE обеспечивает поддержание высокой пропускной способности системы без ущерба для быстродействия в реальном времени [цит.: 6, 15].
Сглаживание сети: топология Boardfly
Отличительной особенностью TPU 8i является полный отказ от трехмерной топологии тора. Хотя трехмерный тор идеально подходит для передачи данных от соседа к соседу, необходимой на этапе предварительного обучения, он создает неприемлемо большие физические расстояния — измеряемые в сетевых переходах — для маршрутизации токенов «от всех ко всем», необходимой для моделей вывода MoE [цитата: 2, 15]. В архитектурах MoE любой заданный токен может нуждаться в маршрутизации к определенному «экспертному» слою, расположенному на совершенно другом чипе внутри модуля. На традиционном торе этот пакет данных должен последовательно проходить через промежуточные чипы, чтобы достичь пункта назначения.
Для решения этой проблемы Google разработала новую оптимизированную для обслуживания сетевую архитектуру под названием Boardfly [цит.: 15, 31]. Вдохновленная принципами топологии Dragonfly, Boardfly представляет собой иерархическую сеть с высоким основанием, предназначенную для резкого упрощения архитектуры и минимизации физического расстояния между любыми двумя чипами [цит.: 2, 15, 26].
Топология Boardfly строится иерархически: 1. Строительный блок: Четыре полностью соединенных чипа TPU 8i образуют базовый строительный блок с внутренними ICI-соединениями [ссылка: 6, 16]. 2. Плата: Восемь строительных блоков полностью соединены прямыми медными кабелями, образуя единую плату [ссылка: 6, 16]. 3. Модуль: 36 групп затем полностью взаимосвязаны через оптические коммутаторы и прямые оптические каналы дальней связи, образуя единый модуль из 1152 чипов [ссылка: 5, 6, 16, 32].
Преимущество этого подхода в плане снижения задержки является существенным. В стандартной конфигурации 3D-тора с 1024 чипами пакету данных может потребоваться пройти через сеть с максимальным диаметром в 16 переходов [ссылка: 15, 25]. В топологии Boardfly этот максимальный диаметр сети сокращается всего до 7 переходов [ссылка: 15, 25].
Это уменьшение диаметра сети на 56% приводит к значительному улучшению задержки в конце цепочки обработки данных на 50% для ресурсоемких задач вывода [цитата: 16, 25, 30]. Вывод в конечном итоге ограничен скоростью самого медленного узла. За счет резкого уменьшения задержки в конце цепочки обработки данных топология Boardfly гарантирует, что CAE никогда не будет простаивать в ожидании передачи данных токена через под [цитата: 6, 15].
Кроме того, благодаря этому высококогерентному оптическому соединению, один модуль TPU 8i, состоящий из 1152 чипов, функционирует как массивная, унифицированная область общей памяти объемом 331,8 ТБ когерентной памяти HBM [цитата: 16].
Сравнительная производительность, экономика и системная инфраструктура
Архитектурное разделение обеспечивает существенные улучшения как в вычислительной экономике, так и в энергоэффективности. Оценка оборудования исключительно на основе пиковых теоретических операций с плавающей запятой игнорирует системные реалии работы центров обработки данных и обеспечения работы программного обеспечения.
Поддержка программной абстракции и фреймворков
Несмотря на различия в аппаратной основе, Google вложила значительные средства в поддержание единого, ориентированного на производительность программного стека для ИИ, чтобы предотвратить привязку к конкретной платформе. Как TPU 8t, так и 8i обеспечивают нативную поддержку JAX, Keras, MaxText, SGLang и движка vLLM [цит.: 5, 8, 14, 17]. Кроме того, нативная поддержка PyTorch (через TorchTPU) позволяет разработчикам переносить существующие модели PyTorch непосредственно в среду TPU с полной поддержкой нативных функций, таких как Eager Mode [цит.: 15, 17].
За кулисами компилятор Accelerated Linear Algebra (XLA) обрабатывает сложный трансляционный анализ топологии Boardfly и синхронизацию CAE, позволяя разработчикам писать аппаратно-ориентированные пользовательские ядра на Python (используя Pallas и Mosaic) без необходимости вручную программировать оптические межсоединения [цитата: 15].
Количественные показатели эффективности
В таблице ниже приведены основные технические характеристики унифицированной архитектуры TPU 7x и узкоспециализированных архитектур TPU 8t и 8i [ссылка: 3, 15, 24].
| Матрица технических характеристик | ТПУ 7x | ТПУ 8т | ТПУ 8и |
|---|---|---|---|
| Основная рабочая нагрузка | Единый подход (обучение и вывод результатов) | Масштабная предварительная подготовка | Вывод, чувствительный к задержке |
| Партнер по проектированию ASIC | Бродком | Бродком | MediaTek |
| Топология сети | 3D Тор | 3D-тор + масштабирование в форме Девы | Boardfly (вдохновлено стрекозой) |
| Специализированное оборудование | Разреженное ядро | Разреженное ядро | Движок коллективного ускорения (CAE) |
| Нативная точность фокусировки | FP8 | FP4 | FP4 (с поддержкой FP8/INT8) |
| Максимальная вычислительная мощность на чип | 4,6 PFLOPs (FP8) | 12,6 PFLOPs (FP4) | 10,1 PFLOPs (FP4) |
| Емкость памяти HBM на чип | 192 ГБ | 216 ГБ | 288 ГБ |
| Полоса пропускания HBM | 7,37 ТБ/с | 6,52 ТБ/с | 8,60 ТБ/с |
| Встроенная SRAM (VMEM) | 128 МБ | 128 МБ | 384 МБ |
| Межчиповая пропускная способность (масштабирование) | 9,6 Тб/с | 19,2 Тб/с | 19,2 Тб/с |
| Максимальный размер Pod/Superpod | 9216 чипов | 9600 чипов | 1152 чипа |
Оптимизация соотношения затрат и эффективности, а также общей стоимости владения.
Google утверждает, что восьмое поколение значительно улучшило общую стоимость владения (TCO). TPU 8t обеспечивает прирост производительности на 170–180% — что эквивалентно улучшению производительности в 2,7–2,8 раза — при больших объемах обучения по сравнению с TPU 7x [цитата: 6, 15, 30]. В то же время TPU 8i предлагает улучшение производительности на 80% при выводе результатов, особенно при низкой задержке, необходимой для масштабных моделей MoE [цитата: 15, 16, 30].
Эти экономические выгоды обусловлены не только кремниевым процессором, но и системной интеграцией всего стека. Исторически сложилось так, что TPU использовались в паре со стандартными процессорами x86. В ситуациях, связанных с интенсивной предварительной обработкой данных или сложной агентной логикой, процессор x86 часто становился узким местом системы, оставляя сверхбыстрый кремниевый процессор TPU в режиме ожидания, но испытывая нехватку данных [цитата: 6, 7].
Восьмое поколение исправляет этот хронический дисбаланс, размещая как 8t, так и 8i исключительно на собственных процессорах Google Axion на базе архитектуры ARM [цит.: 6, 7, 15]. Созданные на основе архитектуры ядра Neoverse N3 Armv9.2, хосты Axion обеспечивают единую, высокооптимизированную основу [цит.: 18, 19]. Для TPU 8i, ориентированного на инференцию, Google интегрировал хосты Axion в соотношении 2:1 TPU-к-CPU, удваивая количество физических хостов CPU на сервер по сравнению с TPU 7x [цит.: 5, 6, 32]. Используя строгую архитектуру Non-Uniform Memory Access (NUMA) для изоляции рабочих нагрузок, система гарантирует превосходную локальность памяти и полностью устраняет узкое место подготовки данных [цит.: 5, 7].
Энергоэффективность и рыночные последствия
Energy density and power availability are rapidly becoming the ultimate binding constraints in modern data center deployment. Through the use of fourth-generation liquid cooling and integrated, real-time power management that dynamically adjusts power draw based on specific workload phases (eg, active computation versus idling for communication), both the TPU 8t and 8i achieve staggering power efficiencies [cite: 7, 15, 22, 24]. The 8t boasts a 124% gain in performance-per-watt, while the 8i yields a 117% gain, resulting in an overall 2x (100%+) improvement in energy efficiency over the TPU 7x [cite: 15, 22, 30].
The implications of this efficiency are evident in Google's own state-of-the-art models. Benchmarks for the Gemini 3.1 Pro preview indicate that deploying the model on the TPU 8i architecture results in a roughly 50% cost reduction for inference APIs, alongside vastly improved responsiveness and long-context handling capabilities [cite: 24, 30].
The Competitive Landscape: Google vs. Merchant Silicon
Google's decision to bifurcate its silicon strategy holds profound implications for the wider artificial intelligence hardware ecosystem, particularly in its ongoing competition with merchant silicon providers like Nvidia and, to a lesser extent, AMD and AWS (with its Trainium3 platform) [cite: 17, 23].
Nvidia has historically maintained a unified architecture strategy, utilizing highly capable but general-purpose platforms like the Blackwell B200 and the Vera Rubin NVL72 to handle both pre-training and real-time inference [cite: 2, 9]. When viewed purely through the lens of raw single-chip specifications, Nvidia maintains certain advantages. For example, Nvidia's NVLink technology supports single-device interconnect bandwidths of 14.4 Tb/s, and individual Rubin GPUs offer roughly 50 PFLOPs of NVFP4 inference compute—significantly higher than the 10.1 PFLOPs of the TPU 8i [cite: 2, 9].
However, Google's architectural bet rests on the conviction that the future of artificial intelligence is determined by cluster-scale efficiency, not single-chip peak capabilities [cite: 9].
By moving to the Boardfly topology, Google creates a fully coherent, shared memory pool across all 1,152 chips within a TPU 8i pod [cite: 16]. This results in an aggregate pod capacity of 11.6 FP8 ExaFlops and 331.8 TB of unified, coherent HBM [cite: 6, 16]. Conversely, standard Nvidia GPU rack-scale coherency on the NVL72 tops out at 72 GPUs and roughly 20.7 TB of HBM [cite: 2, 16]. Scaling general-purpose GPUs to match a 1,152-chip configuration requires bridging across approximately 16 separate racks [cite: 16]. This physical separation shatters true memory coherency and introduces severe latency penalties that are catastrophic for continuous, long-context agentic inference [cite: 16].
Furthermore, by moving optical circuit switching (OCS) lower in the stack to facilitate the Boardfly hierarchy, Google is fundamentally altering the optical networking supply chain, creating massive downstream demand for specialized transceivers and lasers from vendors like Lumentum and Coherent [cite: 26].
Ultimately, Google's design philosophy assumes that the real battleground of the late 2020s will not be determined by peak mathematical throughput on a singular silicon die, but rather by the ability to circumvent the memory wall, rapidly scale cross-site interconnects, and drive down the absolute cost-per-token economics of deploying real-time agent swarms to billions of users [cite: 6, 16, 17].
Заключение
The trajectory of Google Cloud's Tensor Processing Units from the unified framework of the TPU 7x to the highly specialized dichotomy of the TPU 8t and TPU 8i reflects the maturation and industrialization of artificial intelligence workloads. General-purpose, unified silicon—while foundational to the initial deep learning boom—is no longer sufficient to drive the economics or the performance required at the extreme margins of the agentic era.
The TPU 8t represents an uncompromising pursuit of scale. Through the retention of the SparseCore, the implementation of native FP4 precision to double MXU throughput, and the staggering capabilities of the Virgo Network and TPUDirect Storage, it is engineered to ingest and process data at a volume previously thought impossible. It effectively neutralizes the scale-out bandwidth constraints of modern data centers, allowing millions of chips to operate as a singular, globally distributed pre-training engine.
Conversely, the TPU 8i is an exercise in latency elimination and economic efficiency. By abandoning the 3D torus in favor of the hierarchical Boardfly topology, tripling on-die SRAM to 384 MB, and introducing the Collectives Acceleration Engine to accelerate auto-regressive synchronization, the TPU 8i systematically dismantles the inference memory wall. It ensures that the massive KV caches required for complex, multi-step agentic reasoning can remain localized and accessible at near-zero latency, all while reducing production costs through a streamlined logic design.
Together, hosted on fully integrated ARM-based Axion CPUs and managed by autonomous optical circuit switching, the bifurcated eighth generation establishes a new paradigm in hyperscale infrastructure. It serves as a definitive architectural statement that the future of artificial intelligence requires not just faster chips, but fundamentally divergent hardware frameworks co-designed precisely for the distinct workloads they are destined to serve.
Sources: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com