L'évolution de l'intelligence artificielle, des grands modèles de langage fondamentaux aux systèmes agentiques complexes et multistep, a déclenché un changement de paradigme fondamental dans la conception des semi-conducteurs. Pendant près d'une décennie, la logique dominante dans l'architecture des accélérateurs d'intelligence artificielle était celle de l'unification. Les concepteurs de silicium se sont efforcés de concevoir des architectures singulières et monolithiques capables d'exécuter simultanément les charges de travail massives et à haut débit du pré-entraînement des modèles, ainsi que les exigences de latence de l'inférence de production [cite : 1, 2]. Cette approche unifiée a dominé l'industrie depuis la création des premiers accélérateurs matériels jusqu'au déploiement de la septième génération de Cloud Tensor Processing Unit (TPU) de Google Cloud [cite : 2, 3, 4].
Toutefois, à mesure que les modèles de pointe évoluent vers des architectures de raisonnement en temps réel et des modèles avec des milliers de milliards de paramètres (tels que les architectures Mixture-of-Experts (MoE) et les boucles de rétroaction agentiques continues) deviennent la norme, les exigences matérielles pour l'entraînement et le service ont divergé de manière irrévocable [cite: 5, 6, 7]. Le pré-entraînement s'est transformé en un problème d'optimisation de la bande passante et du débit, nécessitant des capacités de scaling à la hausse stupéfiantes, une bande passante bissectionnelle d'interconnexion massive et une saturation continue des mathématiques matricielles [cite : 6]. À l'inverse, le serving agentique est devenu un problème lié à la latence et à la mémoire, limité par la vitesse à laquelle les caches de poids et de clé-valeur (KV) peuvent être diffusés en continu vers les cœurs de traitement sans créer de goulot d'étranglement sur les opérations de synchronisation globale [cite: 6, 8].
Conscient que le forçage des deux charges de travail sur un silicium identique entraîne des inefficacités systémiques et une diminution des rendements économiques, Google a pris la décision architecturale sans précédent de bifurquer sa gamme de TPU de huitième génération [cite : 1, 6, 9]. Il en résulte deux puces distinctes et hautement spécialisées, conçues jusqu'au niveau de la chaîne d'approvisionnement : le TPU 8t, conçu pour un débit d'entraînement immense à l'échelle d'un supercalculateur, et le TPU 8i, conçu pour franchir le mur de mémoire d'inférence et minimiser la latence collective pour le raisonnement global [cite : 7, 9].
Ce rapport de recherche complet analyse les différences d'architecture, de performances et de scaling entre la référence unifiée du TPU 7x et les nouveaux TPU 8t et TPU 8i. Grâce à un examen exhaustif de la conception logique, des hiérarchies de mémoire à plusieurs niveaux, des topologies d'interconnexion des centres de données, de la commutation de circuits optiques et de la conception conjointe matériel-logiciel, cette analyse explique comment le silicium spécialisé est nécessaire pour soutenir l'évolution économique et informatique de la prochaine génération d'intelligence artificielle.
Contexte historique : la trajectoire vers la spécialisation
Pour apprécier pleinement les changements architecturaux apportés à la huitième génération, il est essentiel de retracer l'évolution itérative de la famille TPU. Le développement matériel de Google a toujours reflété les principaux goulots d'étranglement des modèles de machine learning contemporains, passant d'une simple accélération de l'inférence à des structures d'entraînement à l'échelle de clusters massifs [cite : 10, 11].
De l'inférence aux tableaux matriciels massifs
Google a lancé le TPU v1 en 2015. Il s'agit d'un accélérateur d'inférence uniquement, conçu pour gérer la charge de calcul croissante des services internes tels que la recherche, la traduction et les recommandations YouTube [cite: 11, 12]. La version 1 utilisait des calculs entiers sur 8 bits pour améliorer l'ordre de grandeur des opérations par watt par rapport aux unités centrales (CPU) et aux processeurs graphiques (GPU) à usage général [cite: 10, 11]. En 2017, la TPU v2 a marqué la transition vers les capacités d'entraînement, en introduisant le format bfloat16 (BF16), un format à virgule flottante de 16 bits qui conservait la plage dynamique des flottants de 32 bits tout en divisant par deux la consommation de mémoire [cite: 10].
Les générations 3 à 5 ont optimisé le moteur de calcul principal, à savoir l'unité de multiplication matricielle (MXU). Pendant plusieurs générations, l'unité matricielle est restée un tableau systolique de 128 x 128, capable d'effectuer 16 384 opérations de multiplication/addition simultanément [cite : 4, 10]. Le TPU v4 a introduit le "SparseCore", un bloc matériel dédié spécifiquement conçu pour accélérer les recherches d'embedding et les accès mémoire irréguliers, empêchant ainsi l'unité MXU de se bloquer pendant l'entraînement du modèle de recommandation [cite : 4, 6].
Évolution topographique et Trillium (v6e)
À mesure que la taille des modèles augmentait, les topologies d'interconnexion nécessaires à la synchronisation des gradients sur des milliers de puces ont évolué. Google a déployé une topologie de tore 2D pour les pods plus petits et économiques (comme les v5e et v6e), ce qui a simplifié la mise à l'échelle jusqu'à 256 puces [cité 4, 10]. Pour les variantes optimisées en termes de performances (comme les v4 et v5p), Google a utilisé une topologie de tore 3D, qui connectait les puces dans une grille tridimensionnelle pour réduire la latence de communication sur des tailles de pods plus importantes allant de 4 096 à 8 960 puces [cité 4].
Le précurseur immédiat de l'ère moderne était le TPU v6e (Trillium), sorti fin 2024. Trillium a représenté un énorme bond en avant en termes d'architecture, en passant d'un tableau 128 x 128 à un tableau 256 x 256 [cite: 10]. Cela a quadruplé les opérations de multiplication-accumulation par cycle. Combiné à une bande passante d'interconnexion entre les puces (ICI) doublée de 3 200 Gbit/s (13 To/s bidirectionnel agrégé) et à 32 Go de mémoire à haut débit (HBM) par puce,Trillium a multiplié par 4, 7 la puissance de calcul maximale de son prédécesseur tout en fonctionnant avec une efficacité énergétique 67% supérieure [cite: 10, 11].
| Génération de TPU | Année de sortie | Innovation primaire | Topologie et taille maximale des pods | Architecture des MXU | Puissance de calcul maximale par puce |
|---|---|---|---|---|---|
| TPU v2 | 2017 | Première capacité d'entraînement (BF16) | Tore 2D (512 puces) | 128 x 128 | ~45 TFLOPS |
| TPU v4 | 2021 | Présentation de SparseCore | Tore 3D (4 096 puces) | 128 x 128 | 275 TFLOPS |
| TPU v5e | 2023 | Efficacité optimisée pour les coûts | Tore 2D (256 puces) | 128 x 128 | 197 TFLOPS |
| TPU v5p | 2023 | Amélioration des performances | Tore 3D (8 960 puces) | 128 x 128 | 459 TFLOPS |
| TPU v6e (Trillium) | 2024 | Expansion MXU 256 x 256 | Tore 2D (256 puces) | 256 x 256 | 918 TFLOPS |
Le summum de l'architecture unifiée : TPU 7x
Passé en disponibilité générale fin 2025, le TPU de septième génération 7x représente le sommet absolu de la stratégie d'architecture unifiée de Google. Conçu pour exécuter à la fois le pré-entraînement à grande échelle et l'inférence à décodage intensif dans un seul framework architectural, le TPU 7x a repoussé les limites de ce qu'un accélérateur à double usage pouvait accomplir [cite: 3, 10].
Conception à double chiplet et optimisation AlphaChip
La construction physique du TPU v7 a marqué un changement radical par rapport à l'architecture à cœur logique unique (MegaCore) des TPU v4 et v5p [cite: 3]. Le TPU 7x utilise une architecture à double chiplet. Chaque puce TPU 7x complète comprend deux chiplets distincts et autonomes connectés par une interface D2D (die-to-die) propriétaire à haut débit [cite: 3]. Cette connexion D2D fonctionne six fois plus vite qu'une liaison ICI unidimensionnelle standard, ce qui permet aux chiplets de communiquer rapidement tout en conservant leurs propres espaces de mémoire dédiés [cite: 3].
Sur l'ensemble de la puce unifiée, le TPU 7x abrite deux TensorCores et quatre SparseCores [cite: 3]. La disposition physique de ces cœurs sur la matrice de silicium a été optimisée à l'aide d'AlphaChip, l'outil d'apprentissage par renforcement propriétaire de Google, afin de minimiser la longueur des fils et de maximiser l'efficacité thermique [cite: 10]. Une configuration standard de machine virtuelle (VM) pour TPU 7x connecte quatre puces à un hôte de processeur, ce qui expose 224 vCPU et 960 Go de RAM [cite: 3].
Hiérarchie de mémoire à plusieurs niveaux et mise en forme de précision
Le transfert continu de données entre les niveaux de stockage constitue un goulot d'étranglement critique dans le traitement des modèles denses et MoE. Le TPU 7x dispose d'un système de mémoire robuste à plusieurs niveaux conçu pour maintenir la saturation des MXU étendus : * Mémoire à haut débit (HBM3E) : chaque puce TPU 7x est équipée de 192 Go de mémoire HBM, ce qui offre une bande passante mémoire massive de 7,37 To/s (7 380 Go/s) [cite : 3, 10]. Cette capacité six fois supérieure à celle de Trillium permet d'utiliser des tailles de lot beaucoup plus importantes lors de l'entraînement et de conserver des caches KV plus volumineux sur la puce lors de l'inférence, ce qui évite les pics de latence coûteux associés au déchargement vers une mémoire hôte plus lente [cite : 4, 10, 13]. * Mémoire vectorielle (VMEM) : chaque TensorCore dispose de 64 Mio de VMEM (128 Mo au total par puce), qui sert de bloc-notes SRAM ultrarapide sur puce. La VMEM offre une bande passante nettement supérieure à celle de la HBM pour la MXU [cité : 3, 14]. Grâce au réglage de la mémoire virtuelle à portée limitée, les développeurs peuvent réallouer de la mémoire entre la portée de calcul actuelle et la prélecture des poids futurs, ce qui permet d'utiliser des tailles de blocs de noyau plus importantes (comme celles utilisées dans l'attention flash) et de réduire les blocages de mémoire [cite : 13, 14]. * Mémoire hôte (PCIe) : connectée via un réseau PCIe, la mémoire hôte du système est utilisée pour décharger les états et les activations de l'optimiseur, en gérant la pression de la mémoire pour les modèles qui dépassent la capacité HBM [cite: 3, 14].
De plus, les TPU 7x ont introduit l'accélération matérielle native pour la précision à virgule flottante 8 bits (FP8) [cite: 4, 13]. En migrant depuis les formats standards 16 bits (BF16 ou FP16), la représentation FP8 double efficacement le débit de calcul maximal tout en divisant par deux l'espace mémoire utilisé requis pour stocker les pondérations et les activations [cite: 4, 13]. Fonctionnant nativement en FP8, une seule puce TPU 7x offre une puissance de calcul maximale de 4 614 TFLOPS, contre 2 307 TFLOPS en BF16 [citer : 3, 4].
Topologie de tore 3D et échelle de supernœud
Au niveau du centre de données, le TPU 7x s'appuie sur la topologie d'interconnexion en tore 3D éprouvée de Google [cite: 3]. Cette architecture connecte chaque puce directement à ses voisins les plus proches sur les axes X, Y et Z, ce qui crée un maillage tridimensionnel résilient [cite: 3]. La communication au sein de ce maillage est facilitée par une bande passante ICI de 1,2 To/s (1 200 Go/s) par puce, qui permet une communication bidirectionnelle à 200 Go/s par axe [cite: 3].
Un superpod TPU 7x complet peut évoluer jusqu'à 9 216 puces refroidies par liquide. Dans cette configuration,le pod offre une puissance de calcul FP8 agrégée de 42, 5 exaflops [cite : 8, 10]. Les tranches de plus de 64 puces sont construites à l'aide de "cubes" modulaires de 4x4x4 puces, ce qui permet des topologies très flexibles allant des configurations à un seul hôte aux environnements multi-hôtes massifs [cite : 3].
Malgré ses capacités exceptionnelles, la nature unifiée du TPU 7x impliquait des compromis inhérents. Bien que la topologie en tore 3D soit très efficace pour la synchronisation des gradients localisés et prévisibles requise lors du pré-entraînement, elle entraîne un diamètre de réseau élevé. Par exemple, un pod de 1 024 puces sur un tore 3D présente un diamètre de réseau maximal de 16 sauts [cité dans 15, 16]. Dans un scénario d'inférence MoE, où les jetons doivent être routés rapidement vers des couches d'experts situées n'importe où dans le pod, cette distance de 16 sauts introduit des latences de queue tout-à-tout inacceptables [cite : 6, 15, 16]. De plus, le fait de consacrer une surface de silicium précieuse aux SparseCores, qui excellent dans les recherches d'intégration, a réduit l'espace qui aurait pu être utilisé pour les moteurs de réduction collective, essentiels pour les workflows de chaîne de pensée agentique [cite : 6, 15]. L'industrie avait atteint les limites physiques de l'accélérateur "taille unique".
Bifurcation stratégique : facteurs économiques et architecturaux
La transition de la septième à la huitième génération de TPU représente le pivot architectural le plus important de l'histoire des semi-conducteurs de Google [cite : 9]. Annoncée lors de Google Cloud Next 2026, la bifurcation de la gamme TPU en deux familles de produits distinctes (TPU 8t pour l'entraînement et TPU 8i pour l'inférence) reconnaît que les charges de travail qui stimuleront la prochaine décennie de l'intelligence artificielle sont fondamentalement inconciliables au niveau matériel [cite : 1, 2, 17].
Cette séparation trouve son origine dans les différences économiques et d'intensité opérationnelle du développement de l'IA. L'entraînement d'un modèle de frontière est une dépense opérationnelle ponctuelle à forte intensité de capital, mesurée en calcul continu sur des semaines ou des mois [cite 9]. Il nécessite une densité de calcul maximale, une bande passante d'interconnexion à une échelle sans précédent et des domaines de mémoire unifiés de plusieurs pétaoctets capables d'ingérer des ensembles de données multimodaux à la vitesse de ligne [cite 9].
L'inférence, en revanche, est un coût opérationnel continu qui évolue de manière linéaire ou exponentielle en fonction de la demande des utilisateurs [cite 9]. Dans l'ère "agentique" émergente, un modèle d'IA ne se contente pas de prédire le prochain jeton pour générer un bloc de texte. Il raisonne activement, simule des scénarios futurs, itère par le biais de l'"imagination", appelle des API externes et interagit avec des groupes d'autres agents spécialisés dans des boucles de rétroaction continues [cite 5, 7, 15]. Cette dynamique nécessite d'énormes quantités de mémoire pour stocker les fenêtres de contexte actives et une latence réseau extrêmement faible pour le routage expert et la synchronisation globale [cite 15, 16].
En divisant la gamme de produits, Google a optimisé le matériel en profondeur dans la chaîne d'approvisionnement. La TPU 8t a été conçue en collaboration avec Broadcom, un partenariat qui remonte à 2015 [cite: 9, 17, 18]. L'expertise de Broadcom dans les interconnexions SerDes complexes et à haut débit, le packaging avancé et la mise en réseau à grande échelle en a fait le partenaire idéal pour repousser les limites physiques du maillage d'entraînement [cite : 17, 19].
Pour la puce d'inférence, Google a rompu avec la tradition et s'est associé à MediaTek pour concevoir le TPU 8i [cite: 9, 17, 18]. En s'appuyant sur la grande expertise de MediaTek dans la conception de SoC mobiles à faible consommation d'énergie et à fort volume, Google a créé un accélérateur d'inférence très économique [cite: 17, 19]. Le TPU 8i utilise une conception plus simple (un seul circuit de calcul au lieu de deux pour le TPU 8t). Il serait 20% à 30% moins cher à produire que les variantes hautes performances traditionnelles, ce qui permet à Google d'adapter sa capacité de diffusion mondiale de manière économique pour répondre aux besoins des applications d'entreprise et grand public [cite: 9, 17]. Les deux puces sont fabriquées sur le nœud de processus avancé de 2 nanomètres de TSMC, intégrant un packaging avancé CoWoS de pointe pour intégrer les dies logiques avec des piles HBM imposantes [cite: 9, 19].
La validation du marché pour cette stratégie bifurquée a été immédiate. Anthropic, une organisation de recherche sur l'IA de premier plan, a étendu son accord de plusieurs milliards de dollars avec Google Cloud, s'engageant à une capacité de calcul stupéfiante de 3,5 gigawatts d'ici 2027, en tant que client principal pour les plates-formes TPU 7x et de huitième génération [cite : 9, 10, 20].
Analyse approfondie : TPU 8t (le moteur de pré-entraînement)
Le TPU 8t est une prouesse d'ingénierie sans compromis visant à réduire le cycle de développement des modèles de pointe à mille milliards de paramètres de plusieurs mois à quelques semaines [cite : 5, 21]. Pour ce faire, il ne se contente pas d'augmenter la fréquence d'horloge brute, mais restructure la précision des opérations mathématiques, augmente considérablement la bande passante entre les puces et atténue les goulots d'étranglement de l'ingestion de données qui paralysent les grands clusters d'entraînement [cite : 6, 15].
Architecture de calcul à double matrice et FP4 natif
Physiquement, le TPU 8t utilise une architecture très complexe comprenant deux dies de calcul et un chiplet d'E/S, flanqués de huit piles de mémoire HBM3E de 12 étages [cite 9]. Ce conditionnement dense nécessite une gestion thermique avancée, qui repose sur le système de refroidissement liquide de quatrième génération de Google pour dissiper l'immense chaleur générée par les opérations matricielles soutenues [cite 7, 17, 22].
Une évolution fondamentale du TPU v8 est l'introduction de la précision native à virgule flottante 4 bits (FP4) [cite: 6, 15]. Les exigences mathématiques du pré-entraînement favorisent fortement le débit par rapport à une précision numérique extrême. En passant de l'exécution native de FP8 à FP4, la TPU 8t double effectivement le débit de l'unité matricielle tout en divisant par deux le nombre de bits qui doivent être physiquement déplacés sur le die par paramètre [cite: 6, 15]. Cette réduction importante des transferts de données minimise les récupérations de mémoire énergivores et permet aux couches de modèle plus grandes de s'adapter confortablement aux tampons matériels localisés [cite : 6, 15].
Pour que la puce reste saturée, le TPU 8t implémente une mise à l'échelle plus équilibrée de l'unité de traitement vectoriel (VPU). Cela permet au silicium de chevaucher les tâches séquentielles essentielles (comme la quantification, softmax et les layernorms) avec les multiplications de matrices lourdes qui se produisent dans l'unité MXU, ce qui élimine pratiquement le temps non matriciel exposé où les cœurs de calcul seraient autrement inactifs [cite : 6, 15]. Grâce à ces optimisations architecturales, une seule puce TPU 8t offre une puissance de calcul FP4 stupéfiante de 12,6 PFLOPS [cite: 15, 23].
De plus, contrairement à son homologue axé sur l'inférence, le TPU 8t conserve les blocs SparseCore spécialisés introduits dans les générations précédentes [cite: 1, 6, 15]. Les charges de travail intensives en embeddings, courantes dans les modèles de base multimodaux et les systèmes de recommandation, présentent des schémas d'accès à la mémoire irréguliers qui paralysent les GPU traditionnels. SparseCore fonctionne de manière asynchrone, en déchargeant les opérations all-gather dépendantes des données et les recherches d'intégration [cite : 6, 15]. En séparant les calculs matriciels denses dans l'unité MXU et les opérations éparses dans SparseCore, le TPU 8t évite les goulots d'étranglement "zero-op" qui provoquent des blocages de calcul [cite : 6, 15].
Bande passante, ingestion de stockage et TPUDirect
Pour alimenter les MXU massivement accélérés fonctionnant en FP4, le TPU 8t nécessite une bande passante locale et globale extrême. Chaque puce possède 216 Go de HBM3e, fonctionnant à 6 528 Go/s [cite: 15, 24]. Toutefois, à l'échelle des modèles de pointe, la contrainte du système passe souvent de la vitesse de traitement du silicium à la vitesse à laquelle le centre de données peut ingérer des pétaoctets de données d'entraînement à partir du stockage à froid.
Pour contourner le goulot d'étranglement du chemin de données traditionnel, Google a intégré TPUDirect RDMA et TPUDirect Storage [cite: 5, 6, 10]. Ces protocoles permettent l'accès direct à la mémoire (DMA) entre la mémoire à haut débit du TPU et les baies de stockage réseau gérées, telles que Google Cloud Managed Lustre 10T [cite: 6, 15]. En acheminant les données directement du système de fichiers parallèle Lustre vers la TPU via la carte d'interface réseau (NIC), TPUDirect contourne complètement le processeur hôte et la DRAM de l'hôte [cite: 6]. Ce chemin de données spécialisé permet d'accélérer 10 fois la vitesse d'accès au stockage par rapport à l'entraînement sur la génération TPU 7x. Il garantit que les unités de calcul TPU 8t peuvent ingérer des ensembles de données multimodaux à la vitesse de ligne sans famine [cite : 5, 6, 15].
Infrastructure à très grande échelle : le réseau Virgo
La prouesse architecturale la plus stupéfiante de l'écosystème TPU 8t est sa capacité de mise en réseau, qui déplace la contrainte du système de la puissance de calcul localisée à la bande passante à l'échelle du centre de données [cite : 25, 26].
Alors que le TPU 8t conserve l'interconnexion torique 3D de base pour la communication locale des pods (jusqu'à 9 600 puces et 2 pétaoctets de mémoire HBM partagée dans un seul superpod), le tissu scale-out a été entièrement repensé [cite : 5, 6, 15]. Le superpod atteint une puissance de calcul FP4 agrégée de 121 exaflops, soit 2,8 fois plus que les 42,5 exaflops du TPU 7x [cite : 6]. Pour ce faire, la bande passante ICI intra-pod a été doublée pour atteindre 19,2 Tbit/s par puce [cite : 4, 6, 10].
Toutefois, pour connecter des centaines de ces superpods, Google a créé le réseau Virgo [cite: 1, 6]. Le réseau précédent, Jupiter, utilisait une topologie Clos à trois couches qui acheminait le trafic via plusieurs niveaux de commutateurs, ce qui entraînait des problèmes de latence et de bande passante (limitée à 100 Gbit/s par puce) [cite: 25].
Virgo est un tissu scale-out construit sur des commutateurs à radix élevé (gérant de 256 à 512 ports) qui utilise une topologie plate à deux couches non bloquante [cite: 6, 15, 25]. En supprimant physiquement les niveaux réseau, Virgo réduit considérablement la latence. Le réseau utilise une conception multi-plans avec des domaines de contrôle indépendants, ce qui permet d'augmenter jusqu'à 400% (x4) la bande passante brute du réseau de centre de données (DCN), qui passe à 400 Gbit/s par puce [cite: 6, 15, 24].
Une seule structure Virgo peut relier plus de 134 000 puces TPU 8t dans un même centre de données,ce qui représente une bande passante bissectionnelle non bloquante de 47 pétabits par seconde, un chiffre tout simplement ahurissant [cité 1, 6, 15]. De plus, intégré au logiciel Pathways de Google et au framework JAX, le TPU 8t permet aux clusters d'entraînement distribués de s'étendre à plus d'un million de puces sur plusieurs sites géographiques en tant que tâche d'entraînement logique unique [cite : 1, 6, 15]. Cette avancée transforme une infrastructure distribuée à l'échelle mondiale en un superordinateur unique et fluide, dépassant considérablement les limites actuelles de mise à l'échelle des GPU à usage général [cite: 27].
Reconfiguration autonome et bon débit de 97 %
À l'échelle de centaines de milliers de puces, les défaillances matérielles (des émetteurs-récepteurs grillés à la limitation thermique) sont des certitudes statistiques plutôt que des cas extrêmes. Dans les anciens systèmes, un seul blocage réseau pouvait interrompre un cycle d'entraînement massif, ce qui nécessitait un rollback laborieux et coûteux vers un point de contrôle précédent. À l'échelle de la frontière, chaque point de pourcentage d'efficacité perdue se traduit par des jours de temps d'entraînement actif [cité : 5, 6].
L'écosystème TPU v8 vise un "débit utile" de plus de 97 %, une métrique qui définit le ratio entre le temps de calcul utile et productif et le temps d'activité total [cité : 6, 28]. Pour ce faire, nous nous appuyons sur des fonctionnalités avancées de fiabilité, de disponibilité et de facilité d'entretien (RAS, Reliability, Availability, and Serviceability) ancrées dans la commutation de circuits optiques (OCS, Optical Circuit Switching) [cite: 5, 6, 25]. Grâce à la télémétrie en temps réel qui analyse des dizaines de milliers de puces, le système peut détecter de manière autonome les liens d'interconnexion entre les puces défectueux. L'OCS réachemine physiquement les chemins optiques pour contourner les défaillances matérielles en temps réel, sans intervention humaine et, surtout, sans interrompre le job d'entraînement actif [cite : 5, 6, 28].
Présentation détaillée : TPU 8i (moteur de raisonnement)
Si le TPU 8t est un exercice de scaling extrême et brutal, le TPU 8i est une masterclass en matière d'optimisation de la latence et d'architecture de mémoire [cite: 6]. À mesure que les modèles passent à la production en temps réel, en particulier les modèles Mixture-of-Experts (MoE) massifs et les essaims agentiques, le débit de calcul brut devient moins pertinent que la vitesse à laquelle la mémoire peut être consultée et acheminée sur le réseau [cite : 21, 29].
Franchir le mur de la mémoire d'inférence
Dans la génération autorégressive, un modèle génère des jetons de sortie de manière séquentielle. À chaque nouveau jeton généré, le modèle doit faire référence à un historique croissant de tous les jetons précédents et de leurs relations mathématiques, appelé cache Key-Value (KV) [cite: 1, 13]. Pour les modèles à contexte long qui analysent des centaines de milliers de jetons, ce cache KV prend de l'ampleur. Si le cache dépasse la capacité de la mémoire embarquée rapide de la puce et déborde dans la mémoire du processeur hôte plus lente, l'ensemble du processus de calcul s'arrête, un phénomène largement connu sous le nom de "mur de mémoire" [cite : 5, 8].
Le TPU 8i a été conçu spécifiquement pour surmonter cette limite. Bien qu'il s'agisse d'une conception de silicium plus simple et plus économique (utilisant un seul die de calcul et un seul die d'E/S avec six piles de HBM3e), ses capacités de mémoire sont fortement optimisées pour le service [cite: 9]. * Capacité et bande passante HBM : chaque TPU 8i est équipé de 288 Go de HBM3e, ce qui représente une augmentation de 50% de la capacité par rapport au TPU 7x [cite: 5, 24, 30]. Plus important encore, comme les grands modèles MoE sont liés à la bande passante de la mémoire pendant l'inférence, la bande passante de la mémoire est poussée à 8,6 To/s (environ 8 601 Go/s), soit environ 1,3 fois plus rapide que le TPU 8t axé sur l'entraînement [cite: 10, 15]. * SRAM massive sur puce : le changement matériel le plus important est l'inclusion de 384 Mo de mémoire statique à accès aléatoire (SRAM) sur puce par puce [cite: 10, 15, 30]. Cela représente une augmentation massive de 300% (3x) par rapport au TPU 7x et au TPU 8t [cite: 10, 15, 30]. La SRAM est la mémoire la plus rapide et à la latence la plus faible disponible directement sur la matrice de silicium. En triplant cette capacité, le TPU 8i peut héberger des caches KV massifs entièrement sur puce [cite: 15, 16]. Cela empêche les cœurs de traitement de rester inactifs en attendant que les historiques de jetons soient récupérés à partir de niveaux de mémoire plus lents, ce qui permet aux boucles de raisonnement à haute concurrence de fonctionner avec une fluidité sans précédent [cite: 5, 15].
Collectives Acceleration Engine (CAE)
Étant donné que le TPU 8i cible l'inférence, l'unité SparseCore utilisée dans les TPU 7x et 8t pour les recherches d'intégration a été jugée inefficace pour cette charge de travail spécifique. Les ingénieurs Google ont donc introduit un bloc matériel propriétaire connu sous le nom de Collectives Acceleration Engine (CAE) [cite: 10, 15].
Lors du décodage autorégressif et du traitement "chaîne de pensée", les différents cœurs doivent fréquemment mettre en pause leurs calculs individuels pour agréger, réduire et synchroniser leurs résultats mathématiques sur l'ensemble de la puce électronique [cite : 6, 15]. Ces opérations de synchronisation globale peuvent entraîner un goulot d'étranglement important en termes de latence, en particulier lorsque des milliers d'agents indépendants s'attaquent simultanément à un problème.
Pour chaque puce TPU 8i, deux TensorCores se trouvent sur les dies de cœur, accompagnés d'un CAE situé sur le die du chiplet (remplaçant les quatre SparseCores trouvés sur le TPU 7x) [cite : 6, 15]. Le CAE spécialisé est conçu pour agréger les résultats sur les cœurs avec une latence quasi nulle, ce qui entraîne une réduction extraordinaire de la latence collective sur puce par cinq par rapport à la génération TPU 7x [cite : 10, 15]. En accélérant matériellement les étapes de réduction qui dominent les workflows agentiques, le CAE garantit que le système maintient un débit élevé sans sacrifier la réactivité en temps réel [cite : 6, 15].
Aplatissement du réseau : la topologie Boardfly
La caractéristique principale du TPU 8i est l'abandon complet de la topologie de tore 3D. Bien qu'un tore 3D soit exceptionnel pour le transfert de données de voisin à voisin requis lors du pré-entraînement, il crée des distances physiques inacceptablement longues (mesurées en nombre de sauts réseau) pour le routage de jetons de tous à tous requis par les modèles d'inférence MoE [cite : 2, 15]. Dans les architectures MoE, un jeton donné peut avoir besoin d'être routé vers une couche "expert" spécifique située sur un chip complètement différent au sein du pod. Sur un tore traditionnel, ce paquet de données doit transiter séquentiellement par les puces intermédiaires pour atteindre sa destination.
Pour résoudre ce problème, Google a conçu une nouvelle architecture réseau optimisée pour le service, appelée Boardfly [cite : 15, 31]. Inspirée des principes de la topologie Dragonfly, Boardfly est un réseau hiérarchique à radix élevé conçu pour aplatir violemment l'architecture et minimiser la distance physique entre deux puces [cite : 2, 15, 26].
La topologie Boardfly est hiérarchique : 1. Composant de base : quatre puces TPU 8i entièrement connectées forment un composant de base avec des liens ICI internes [cité : 6, 16]. 2. La carte : huit blocs de construction sont entièrement connectés par des câbles en cuivre directs pour former une seule carte [cite : 6, 16]. 3. Le pod : 36 groupes sont ensuite entièrement interconnectés via des commutateurs de circuits optiques et des liaisons optiques longue distance directes pour former un pod unifié de 1 152 puces [cite : 5, 6, 16, 32].
L'avantage de cette approche en termes de latence est considérable. Dans une configuration de tore 3D standard à 1 024 puces, un paquet de données peut avoir besoin de traverser un diamètre de réseau maximal de 16 sauts [cite : 15, 25]. Dans la topologie Boardfly, ce diamètre de réseau maximal est réduit à seulement sept sauts [cite: 15, 25].
Cette réduction de 56% du diamètre du réseau se traduit par une amélioration considérable de 50% de la latence de queue pour les charges de travail d'inférence nécessitant de nombreuses communications [cité : 16, 25, 30]. L'inférence est en fin de compte limitée par la vitesse de son nœud le plus lent. En réduisant la latence de queue, la topologie Boardfly garantit que le CAE n'est jamais inactif en attendant que les données de jeton traversent le pod [cité : 6, 15].
De plus, grâce à cette interconnexion optique très cohérente, un seul pod TPU 8i de 1 152 puces fonctionne comme un domaine de mémoire partagée unifié et massif de 331,8 To de mémoire HBM cohérente [cite: 16].
Performances comparatives, économie et infrastructure système
La bifurcation architecturale permet d'améliorer considérablement l'économie computationnelle et l'efficacité énergétique. Évaluer le matériel uniquement sur la base des opérations à virgule flottante théoriques maximales ignore les réalités systémiques des opérations de centre de données et de l'activation logicielle.
Abstraction logicielle et compatibilité avec les frameworks
Malgré les différences matérielles sous-jacentes, Google a beaucoup investi pour maintenir une pile logicielle d'IA unifiée et axée sur les performances afin d'éviter le verrouillage du framework. Les TPU 8t et 8i offrent une compatibilité native avec JAX, Keras, MaxText, SGLang et le moteur vLLM [cite: 5, 8, 14, 17]. De plus, la compatibilité native avec PyTorch (via TorchTPU) permet aux développeurs de transférer directement les modèles PyTorch existants vers l'environnement TPU, avec une compatibilité totale pour les fonctionnalités natives telles que le mode Eager [cite: 15, 17].
En coulisses, le compilateur XLA (Accelerated Linear Algebra) gère la traduction complexe de la topologie Boardfly et de la synchronisation CAE, ce qui permet aux développeurs d'écrire des noyaux personnalisés adaptés au matériel en Python (à l'aide de Pallas et Mosaic) sans avoir à programmer manuellement les interconnexions optiques [cite: 15].
Métriques de performances quantitatives
Le tableau ci-dessous récapitule les principales caractéristiques techniques des architectures TPU 7x unifiées et TPU 8t et 8i hautement spécialisées [cite : 3, 15, 24].
| Matrice des spécifications | TPU 7x | TPU 8t | TPU 8i |
|---|---|---|---|
| Charge de travail principale | Unifié (entraînement et inférence) | Pré-entraînement à grande échelle | Inférence sensible à la latence |
| Partenaire de conception d'ASIC | Broadcom | Broadcom | MediaTek |
| Network Topology | Tore 3D | Tore 3D + Virgo Scale-Out | Boardfly (inspiré de Dragonfly) |
| Matériel spécialisé | SparseCore | SparseCore | Collectives Acceleration Engine (CAE) |
| Native Precision Focus | FP8 | FP4 | FP4 (avec prise en charge de FP8/INT8) |
| Puissance de calcul maximale par puce | 4,6 PFLOPS (FP8) | 12,6 PFLOPS (FP4) | 10,1 PFLOPS (FP4) |
| Capacité de mémoire HBM par puce | 192 Go | 216 Go | 288 Go |
| Bande passante HBM | 7,37 To/s | 6,52 To/s | 8,60 To/s |
| SRAM sur puce (VMEM) | 128 Mo | 128 Mo | 384 Mo |
| Bande passante entre les puces (scaling à la hausse) | 9,6 Tbit/s | 19,2 Tbit/s | 19,2 Tbit/s |
| Taille maximale des pods/superpods | 9 216 puces | 9 600 puces | 1 152 puces |
Optimisation des performances/coûts et du TCO
Google affirme que la huitième génération permet d'améliorer considérablement le coût total de possession (TCO). Le TPU 8t offre un gain de 170% à 180 %, soit une amélioration de 2,7 x à 2,8 x du rapport performances/prix pour l'entraînement à grande échelle par rapport au TPU 7x [cite: 6, 15, 30]. Le TPU 8i offre quant à lui une amélioration de 80% des performances par dollar pour l'inférence, en particulier au niveau des cibles à faible latence requises pour les modèles MoE massifs [cite: 15, 16, 30].
Ces gains économiques ne sont pas uniquement dus au silicium, mais à l'intégration systémique full stack. Historiquement, les TPU étaient associés à des processeurs hôtes x86 prêts à l'emploi. Dans les situations impliquant un prétraitement intensif des données ou une logique agentique complexe, l'hôte x86 crée souvent un goulot d'étranglement pour le système, laissant la puce TPU ultra-rapide prête à l'emploi mais affamée de données [citer : 6, 7].
La huitième génération corrige ce déséquilibre chronique en hébergeant les TPU 8t et 8i exclusivement sur les processeurs Axion ARM personnalisés de Google [cité : 6, 7, 15]. Basés sur l'architecture de cœur Neoverse N3 Armv9.2, les hôtes Axion fournissent une base unifiée et hautement optimisée [cité : 18, 19]. Pour le TPU 8i, qui est fortement axé sur l'inférence, Google a intégré les hôtes Axion avec un ratio TPU/CPU de 2:1, ce qui double le nombre d'hôtes CPU physiques par serveur par rapport au TPU 7x [cité : 5, 6, 32]. En utilisant une architecture NUMA (Non-Uniform Memory Access) stricte pour l'isolation des charges de travail, le système garantit une localisation de la mémoire supérieure et élimine complètement le goulot d'étranglement de la préparation des données [cité : 5, 7].
Efficacité énergétique et implications pour le marché
La densité énergétique et la disponibilité de l'alimentation deviennent rapidement les contraintes ultimes dans le déploiement des centres de données modernes. Grâce à l'utilisation d'un système de refroidissement liquide de quatrième génération et d'une gestion de l'alimentation intégrée en temps réel qui ajuste dynamiquement la consommation d'énergie en fonction des phases de charge de travail spécifiques (par exemple, calcul actif par rapport à l'inactivité pour la communication), les TPU 8t et 8i atteignent des niveaux d'efficacité énergétique stupéfiants [cité : 7, 15, 22, 24]. Le 8t affiche un gain de 124% en termes de performances par watt, tandis que le 8i affiche un gain de 117 %, ce qui se traduit par une amélioration globale de l'efficacité énergétique de plus de 100%par rapport au TPU 7x [cite : 15, 22, 30].
Les implications de cette efficacité sont évidentes dans les modèles de pointe de Google. Les benchmarks de l'aperçu de Gemini 3.1 Pro indiquent que le déploiement du modèle sur l'architecture TPU 8i entraîne une réduction des coûts d'environ 50% pour les API d'inférence, ainsi qu'une réactivité et des capacités de gestion du contexte long considérablement améliorées [cite: 24, 30].
Environnement concurrentiel : Google et le silicium marchand
La décision de Google de bifurquer sa stratégie de silicium a de profondes implications pour l'écosystème matériel d'intelligence artificielle au sens large, en particulier dans sa concurrence continue avec les fournisseurs de silicium commerciaux comme Nvidia et, dans une moindre mesure, AMD et AWS (avec sa plate-forme Trainium3) [cite : 17, 23].
Nvidia a toujours privilégié une stratégie d'architecture unifiée, en utilisant des plates-formes très performantes, mais à usage général, comme Blackwell B200 et Vera Rubin NVL72, pour gérer à la fois le pré-entraînement et l'inférence en temps réel [cités 2, 9]. Si l'on se penche uniquement sur les spécifications brutes des puces individuelles, Nvidia conserve certains avantages. Par exemple, la technologie NVLink de Nvidia prend en charge des bandes passantes d'interconnexion d'appareils uniques de 14,4 Tb/s, et les GPU Rubin individuels offrent environ 50 PFLOP de calcul d'inférence NVFP4, ce qui est nettement supérieur aux 10,1 PFLOP du TPU 8i [cités 2, 9].
Toutefois, le pari architectural de Google repose sur la conviction que l'avenir de l'intelligence artificielle est déterminé par l'efficacité à l'échelle du cluster, et non par les capacités maximales d'un seul chip [cite : 9].
En passant à la topologie Boardfly, Google crée un pool de mémoire partagée entièrement cohérent sur les 1 152 puces d'un pod TPU 8i [cite : 16]. Cela se traduit par une capacité de pod agrégée de 11,6 exaflops FP8 et de 331,8 To de HBM cohérente et unifiée [cite : 6, 16]. À l'inverse, la cohérence à l'échelle d'un rack de GPU Nvidia standard sur le NVL72 est limitée à 72 GPU et à environ 20,7 To de HBM [cite : 2, 16]. Pour que les GPU à usage général correspondent à une configuration à 1 152 puces, il faut faire le pont entre environ 16 racks distincts [cite : 16]. Cette séparation physique détruit la véritable cohérence de la mémoire et introduit de graves pénalités de latence qui sont catastrophiques pour l'inférence agentique continue à long contexte [cite : 16].
De plus, en déplaçant les commutateurs de circuits optiques (OCS) plus bas dans la pile pour faciliter la hiérarchie Boardfly, Google modifie fondamentalement la chaîne d'approvisionnement des réseaux optiques, créant une demande en aval massive pour les émetteurs-récepteurs et les lasers spécialisés de fournisseurs tels que Lumentum et Coherent [cite : 26].
En fin de compte, la philosophie de conception de Google suppose que le véritable champ de bataille de la fin des années 2020 ne sera pas déterminé par le débit mathématique maximal sur un seul circuit intégré, mais plutôt par la capacité à contourner le mur de mémoire, à faire évoluer rapidement les interconnexions multisites et à réduire le coût absolu par jeton de déploiement de nuées d'agents en temps réel pour des milliards d'utilisateurs [cite : 6, 16, 17].
Conclusion
La trajectoire des Tensor Processing Units de Google Cloud, du framework unifié du TPU 7x à la dichotomie hautement spécialisée du TPU 8t et du TPU 8i, reflète la maturation et l'industrialisation des charges de travail d'intelligence artificielle. Le silicium unifié à usage général, bien qu'essentiel au boom initial du deep learning, ne suffit plus à générer l'économie ni les performances requises aux marges extrêmes de l'ère agentique.
Le TPU 8t représente une recherche sans compromis de l'échelle. Grâce à la conservation du SparseCore, à l'implémentation de la précision FP4 native pour doubler le débit MXU et aux capacités de décalage du réseau Virgo et de TPUDirect Storage, il est conçu pour ingérer et traiter des données à un volume auparavant considéré comme impossible. Il neutralise efficacement les contraintes de bande passante de scale-out des data centers modernes, ce qui permet à des millions de puces de fonctionner comme un moteur de pré-entraînement unique et distribué à l'échelle mondiale.
À l'inverse, le TPU 8i est un exercice d'élimination de la latence et d'efficacité économique. En abandonnant le tore 3D au profit de la topologie hiérarchique Boardfly, en triplant la SRAM sur le chip pour atteindre 384 Mo et en introduisant le Collectives Acceleration Engine pour accélérer la synchronisation autorégressive, le TPU 8i démantèle systématiquement le mur de mémoire d'inférence. Il garantit que les caches KV massifs requis pour le raisonnement agentique complexe en plusieurs étapes peuvent rester localisés et accessibles avec une latence quasi nulle, tout en réduisant les coûts de production grâce à une conception logique simplifiée.
Hébergée sur des processeurs Axion entièrement intégrés basés sur ARM et gérée par un commutateur de circuits optiques autonome, la huitième génération bifurquée établit un nouveau paradigme dans l'infrastructure hyperscale. Elle constitue une déclaration architecturale définitive selon laquelle l'avenir de l'intelligence artificielle nécessite non seulement des puces plus rapides, mais aussi des frameworks matériels fondamentalement différents, conçus précisément pour les charges de travail distinctes qu'ils sont destinés à servir.
Sources : 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Lien 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com