L'evoluzione dell'intelligenza artificiale, dai modelli linguistici di grandi dimensioni di base ai sistemi agentici complessi e in più fasi, ha innescato un cambiamento di paradigma fondamentale nella progettazione dei semiconduttori. Per quasi un decennio, la logica prevalente nell'architettura degli acceleratori di intelligenza artificiale è stata quella dell'unificazione. I progettisti di silicio si sono impegnati a progettare architetture singole e monolitiche in grado di eseguire simultaneamente i carichi di lavoro massicci e ad alto throughput del pre-addestramento del modello insieme alle esigenze sensibili alla latenza dell'inferenza di produzione [cite: 1, 2]. Questo approccio unificato ha dominato il settore dall'inizio dei primi acceleratori hardware fino al deployment della Tensor Processing Unit (TPU) di settima generazione di Google Cloud, [cite: 2, 3, 4].
Tuttavia, man mano che i modelli di frontiera vengono scalati a trilioni di parametri e le architetture di ragionamento in tempo reale, come Mixture-of-Experts (MoE) e i cicli di feedback agentici continui, diventano lo standard, i requisiti hardware per l'addestramento e la pubblicazione sono irrevocabilmente divergenti [cite: 5, 6, 7]. Il pre-addestramento si è consolidato in un problema di ottimizzazione della larghezza di banda e del throughput, che richiede capacità di scalabilità verticale sbalorditive, una larghezza di banda bisecante di interconnessione massiccia e una saturazione continua della matematica matriciale [cite: 6]. Al contrario, la pubblicazione agentica è emersa come un problema di latenza e memoria, limitato dalla velocità con cui i pesi e le cache coppia chiave-valore (KV) possono essere trasmessi in streaming ai core di elaborazione senza creare colli di bottiglia nelle operazioni di sincronizzazione globale [cite: 6, 8].
Riconoscendo che forzare entrambi i carichi di lavoro su silicio identico comporta inefficienze sistemiche e rendimenti economici decrescenti, Google ha preso la decisione architetturale senza precedenti di biforcare la sua gamma di TPU di ottava generazione [cite: 1, 6, 9]. Il risultato sono due chip distinti e altamente specializzati progettati fino al livello della supply chain: la TPU 8t, progettata per un throughput di addestramento immenso su scala di supercomputer, e la TPU 8i, progettata per superare il limite di memoria dell'inferenza e ridurre al minimo la latenza collettiva per il ragionamento globale [citazione: 7, 9].
Questo report di ricerca completo analizza le differenze di architettura, prestazioni e scalabilità tra la baseline unificata della TPU 7x e le TPU 8t e TPU 8i appena suddivise. Attraverso un esame esaustivo della progettazione logica, delle gerarchie di memoria a più livelli, delle topologie di interconnessione dei data center, della commutazione di circuiti ottici e della progettazione congiunta hardware-software, questa analisi chiarisce come sia necessario il silicio specializzato per sostenere lo scaling economico e computazionale della prossima generazione di intelligenza artificiale.
Contesto storico: la traiettoria verso la specializzazione
Per apprezzare appieno le modifiche architetturali apportate all'ottava generazione, è essenziale ripercorrere l'evoluzione iterativa della famiglia TPU. Lo sviluppo hardware di Google ha sempre rispecchiato i colli di bottiglia prevalenti dei modelli di machine learning contemporanei, passando dalla semplice accelerazione dell'inferenza a enormi tessuti di addestramento su scala di cluster [cite: 10, 11].
Dall'inferenza a enormi array di matrici
Google ha introdotto la TPU v1 nel 2015 come acceleratore solo per l'inferenza progettato per gestire il crescente carico di calcolo di servizi interni come Ricerca, Traduttore e contenuti consigliati di YouTube [cite: 11, 12]. La v1 utilizzava la matematica degli interi a 8 bit per ottenere miglioramenti di ordini di grandezza nelle operazioni per watt rispetto alle unità di elaborazione centrale (CPU) e alle unità di elaborazione grafica (GPU) per uso generico [cite: 10, 11]. Nel 2017, la TPU v2 ha segnato la transizione alle funzionalità di addestramento, introducendo il formato bfloat16 (BF16), una rappresentazione in virgola mobile a 16 bit che manteneva l'intervallo dinamico dei numeri in virgola mobile a 32 bit, riducendo il consumo di memoria della metà [cite: 10].
Le generazioni dalla v3 alla v5 hanno ottimizzato il motore di calcolo principale, la Matrix Multiply Unit (MXU). Per diverse generazioni, l'MXU è rimasto un array sistolico 128x128, in grado di eseguire 16.384 operazioni di moltiplicazione e accumulo simultaneamente [cite: 4, 10]. La TPU v4 ha introdotto "SparseCore", un blocco hardware dedicato progettato appositamente per accelerare le ricerche di incorporamento e gli accessi irregolari alla memoria, impedendo così all'MXU di bloccarsi durante l'addestramento del modello di raccomandazione [cite: 4, 6].
L'evoluzione topografica e Trillium (v6e)
Con l'aumento delle dimensioni dei modelli, si sono evolute le topologie di interconnessione necessarie per sincronizzare i gradienti su migliaia di chip. Google ha implementato una topologia a toro 2D per pod più piccoli ed economici (come v5e e v6e), il che ha semplificato lo scale up fino a 256 chip [cite: 4, 10]. Per le varianti ottimizzate per le prestazioni (come v4 e v5p), Google ha utilizzato una topologia a toro 3D, che ha collegato i chip in una griglia tridimensionale avvolgente per ridurre la latenza di comunicazione in pod di dimensioni maggiori, da 4096 a 8960 chip [citazione: 4].
Il precursore immediato dell'era moderna è stata la TPU v6e (Trillium), rilasciata alla fine del 2024. Trillium ha rappresentato un enorme passo avanti nell'architettura, espandendo l'MXU da una matrice 128x128 a una matrice 256x256 [citazione: 10]. In questo modo, le operazioni di moltiplicazione e accumulo per ciclo sono quadruplicate. In combinazione con una larghezza di banda di interconnessione inter-chip (ICI) raddoppiata di 3200 Gbps (13 TB/s bidirezionale aggregata) e 32 GB di memoria ad alta larghezza di banda (HBM) per chip, Trillium ha offerto una potenza di calcolo di picco 4,7 volte superiore rispetto al suo predecessore, operando con un'efficienza energetica superiore del 67% [cite: 10, 11].
| Generazione TPU | Anno di uscita | Innovazione primaria | Topologia e dimensione massima del pod | Architettura MXU | Picco di calcolo per chip |
|---|---|---|---|---|---|
| TPU v2 | 2017 | Primo addestramento possibile (BF16) | Toro 2D (512 chip) | 128x128 | ~45 TFLOPS |
| TPU v4 | 2021 | Introduzione di SparseCore | Toro 3D (4096 chip) | 128x128 | 275 TFLOPS |
| TPU v5e | 2023 | Efficienza con ottimizzazione dei costi | Toro 2D (256 chip) | 128x128 | 197 TFLOPS |
| TPU v5p | 2023 | Scalabilità verticale delle prestazioni | Toro 3D (8960 chip) | 128x128 | 459 TFLOPS |
| TPU v6e (Trillium) | 2024 | Espansione MXU 256x256 | Toro 2D (256 chip) | 256x256 | 918 TFLOPS |
L'apice dell'architettura unificata: TPU 7x
Rilasciata in disponibilità generale alla fine del 2025, la TPU 7x di settima generazione rappresenta l'apice assoluto della strategia di architettura unificata di Google. Progettata per eseguire sia il preaddestramento su larga scala che l'inferenza con decodifica pesante in un unico framework architetturale, la TPU 7x ha superato i limiti di ciò che un acceleratore a doppio scopo poteva ottenere [cite: 3, 10].
Design dual-chiplet e ottimizzazione AlphaChip
La costruzione fisica della TPU 7x ha segnato un cambiamento radicale rispetto all'architettura a singolo core logico (MegaCore) presente nelle v4 e v5p [cite: 3]. La TPU 7x utilizza un'architettura dual-chiplet. Ogni chip TPU 7x completo è composto da due chiplet distinti e autonomi collegati da un'interfaccia die-to-die (D2D) proprietaria ad alta velocità [cite: 3]. Questa connessione D2D funziona a una velocità sei volte superiore a quella di un collegamento ICI unidimensionale standard, consentendo ai chiplet di comunicare rapidamente mantenendo i propri spazi di memoria dedicati [cite: 3].
Nell'intero chip unificato, la TPU 7x ospita due TensorCore e quattro SparseCore [cite: 3]. Il layout fisico di questi core sulla matrice di silicio è stato ottimizzato utilizzando AlphaChip, lo strumento di apprendimento per rinforzo proprietario di Google, per ridurre al minimo la lunghezza dei cavi e massimizzare l'efficienza termica [citazione: 10]. Una configurazione standard di macchina virtuale (VM) per TPU 7x connette quattro chip a un host CPU, esponendo 224 vCPU e 960 GB di RAM [citazione: 3].
Gerarchia di memoria multilivello e formattazione di precisione
Un collo di bottiglia fondamentale nell'elaborazione di modelli densi e MoE è il movimento continuo di dati tra i livelli di archiviazione. La TPU 7x è dotata di un robusto sistema di memoria a più livelli progettato per mantenere sature le MXU espanse: * Memoria a larghezza di banda elevata (HBM3E): ogni chip TPU 7x è dotato di 192 GB di HBM, che offre una larghezza di banda della memoria di 7,37 TB/s (7380 GBps) [cite: 3, 10]. Questo aumento di capacità di sei volte rispetto a Trillium consente dimensioni dei batch significativamente maggiori durante l'addestramento e permette di conservare cache KV più grandi sul chip durante l'inferenza, evitando picchi di latenza costosi associati all'offload sulla memoria host più lenta [cite: 4, 10, 13]. * Memoria vettoriale (VMEM): ogni TensorCore funge da blocco note SRAM on-chip ad altissima velocità e dispone di 64 MiB di VMEM (128 MB totali per chip). La VMEM vanta una larghezza di banda significativamente superiore alla MXU rispetto all'HBM [cite: 3, 14]. Grazie alla regolazione della VMEM con ambito, gli sviluppatori possono riallocare la memoria tra l'ambito di calcolo corrente e il prefetching dei pesi futuri, consentendo dimensioni dei riquadri del kernel più grandi (come quelle utilizzate nell'attenzione flash) e riducendo gli stalli di memoria [cite: 13, 14]. * Memoria host (PCIe): collegata tramite una rete PCIe, la memoria host del sistema viene utilizzata per trasferire gli stati e le attivazioni dell'ottimizzatore, gestendo la pressione della memoria per i modelli che superano la capacità HBM [cite: 3, 14].
Inoltre, la TPU 7x ha introdotto l'accelerazione hardware nativa per la rappresentazione in virgola mobile a 8 bit (FP8) [cite: 4, 13]. La migrazione dai formati standard a 16 bit (BF16 o FP16) alla rappresentazione FP8 raddoppia effettivamente il throughput computazionale di picco, dimezzando al contempo il footprint della memoria necessario per l'archiviazione di pesi e attivazioni [cite: 4, 13]. Funzionando in modo nativo in FP8, un singolo chip TPU 7x offre un picco di calcolo di 4614 TFLOPS, rispetto ai 2307 TFLOPS quando funziona in BF16 [cite: 3, 4].
Topologia del toro 3D e scalabilità dei superpod
A livello di data center, la TPU 7x si basa sulla topologia di interconnessione a toro 3D collaudata di Google [citazione: 3]. Questa architettura collega ogni chip direttamente ai suoi vicini più prossimi lungo gli assi X, Y e Z, creando una mesh tridimensionale resiliente [cite: 3]. La comunicazione all'interno di questa mesh è facilitata da una larghezza di banda ICI di 1,2 TB/s (1200 GBps) per chip, che fornisce una comunicazione bidirezionale a 200 GBps per asse [citazione: 3].
Un superpod TPU 7x completamente realizzato si adatta a un'enorme quantità di 9216 chip raffreddati a liquido. In questa configurazione,il pod offre una potenza di calcolo FP8 aggregata di 42, 5 ExaFlops [cite: 8, 10]. Gli slice più grandi di 64 chip sono costruiti utilizzando "cubi" modulari di chip 4x4x4, consentendo topologie altamente flessibili che vanno dalle configurazioni a host singolo a enormi ambienti multi-host [cite: 3].
Nonostante le sue straordinarie funzionalità, la natura unificata della TPU 7x comportava compromessi intrinseci. Sebbene la topologia del toro 3D sia molto efficiente per la sincronizzazione del gradiente localizzata e prevedibile richiesta nel pre-training, comporta un diametro di rete elevato. Ad esempio, un pod da 1024 chip su un toro 3D ha un diametro di rete massimo di 16 hop [cite: 15, 16]. In uno scenario di inferenza MoE, in cui i token devono essere indirizzati rapidamente ai livelli esperti situati ovunque all'interno del pod, questa distanza di 16 hop introduce latenze di coda all-to-all inaccettabili [cite: 6, 15, 16]. Inoltre, dedicare una preziosa area di silicio a SparseCores, che eccelle nelle ricerche di incorporamento, ha sottratto spazio che avrebbe potuto essere utilizzato per i motori di riduzione collettiva, fondamentali per i flussi di lavoro agentici di tipo "chain-of-thought" [cita: 6, 15]. Il settore aveva raggiunto i limiti fisici dell'acceleratore "taglia unica".
La biforcazione strategica: fattori economici e architettonici
La transizione dalla settima all'ottava generazione di TPU rappresenta il cambiamento architettonico più significativo nella storia dei chip di Google [cite: 9]. Annunciata a Google Cloud Next 2026, la biforcazione della linea TPU in due famiglie di prodotti distinte, TPU 8t per l'addestramento e TPU 8i per l'inferenza, riconosce che i carichi di lavoro che guideranno il prossimo decennio dell'intelligenza artificiale sono fondamentalmente inconciliabili a livello hardware [cite: 1, 2, 17].
L'origine di questa divisione risiede nelle economie e nelle intensità operative divergenti dello sviluppo dell'AI. L'addestramento di un modello pioneristico è una spesa operativa una tantum ad alta intensità di capitale misurata in calcolo continuo per settimane o mesi [citazione: 9]. Richiede la massima densità di calcolo, una larghezza di banda di interconnessione di scalabilità senza precedenti e domini di memoria unificati multi-petabyte in grado di acquisire set di dati multimodali alla velocità di linea [citazione: 9].
L'inferenza, al contrario, è un costo operativo continuo che aumenta in modo lineare o esponenziale con la domanda degli utenti [cite: 9]. Nella nascente "era agentica", un modello di AI non si limita a prevedere il token successivo per generare un blocco di testo, ma ragiona attivamente, simula scenari futuri, itera attraverso l'"immaginazione", chiama API esterne e interagisce con sciami di altri agenti specializzati in cicli di feedback continui [cite: 5, 7, 15]. Questa dinamica richiede enormi quantità di memoria per archiviare le finestre contestuali attive e una latenza di rete estremamente bassa per il routing degli esperti e la sincronizzazione globale [cite: 15, 16].
Dividendo la linea di prodotti, Google ha ottimizzato l'hardware in profondità nella catena di fornitura. La TPU 8t è stata progettata in collaborazione con Broadcom, una partnership che risale al 2015 [cite: 9, 17, 18]. L'esperienza di Broadcom in interconnessioni SerDes complesse e ad alta velocità, packaging avanzato e networking su larga scala lo ha reso il partner ideale per superare i limiti fisici del tessuto di addestramento [cite: 17, 19].
Per il chip di inferenza, Google ha rotto con la tradizione e ha collaborato con MediaTek per progettare la TPU 8i [cite: 9, 17, 18]. Sfruttando la profonda competenza di MediaTek nella progettazione di SoC mobile ad alto volume e a basso consumo energetico, Google ha creato un acceleratore di inferenza altamente ottimizzato in termini di costi [cite: 17, 19]. La TPU 8i utilizza un design più semplice (un die di calcolo rispetto ai due della TPU 8t) che, a quanto pare, è più economico del 20-30% da produrre rispetto alle varianti tradizionali ad alte prestazioni, consentendo a Google di scalare la propria capacità di serving globale in modo economico per soddisfare le esigenze delle applicazioni aziendali e consumer [cite: 9, 17]. Entrambi i chip sono realizzati sul nodo di processo avanzato a 2 nanometri di TSMC, incorporando un packaging avanzato CoWoS all'avanguardia per integrare i die logici con le imponenti pile HBM [cite: 9, 19].
La convalida di mercato per questa strategia biforcata è stata immediata. Anthropic, un'organizzazione leader nella ricerca sull'AI, ha ampliato il suo accordo multimiliardario con Google Cloud, impegnandosi a raggiungere una capacità di calcolo di 3,5 gigawatt entro il 2027, fungendo da cliente principale per le piattaforme TPU 7x e di ottava generazione [citazione: 9, 10, 20].
Approfondimento: TPU 8t (il motore del pre-addestramento)
La TPU 8t è un risultato ingegneristico senza compromessi che mira a ridurre il ciclo di sviluppo di modelli di frontiera con trilioni di parametri da mesi a settimane [cite: 5, 21]. Questo risultato non viene ottenuto semplicemente aumentando le velocità di clock grezze, ma ristrutturando la precisione delle operazioni matematiche, espandendo notevolmente la larghezza di banda tra i chip e mitigando i colli di bottiglia di inserimento dei dati che paralizzano i cluster di addestramento massivi [cite: 6, 15].
Architettura di calcolo dual-die e FP4 nativo
A livello fisico, la TPU 8t utilizza un'architettura molto complessa composta da due die di calcolo e un chiplet I/O, affiancati da otto stack di memoria HBM3E a 12 livelli [citazione: 9]. Questo packaging denso richiede una gestione termica avanzata, che si basa sul sistema di raffreddamento a liquido di quarta generazione di Google per dissipare l'immenso calore generato da operazioni di matrice sostenute [cite: 7, 17, 22].
Un'evoluzione fondamentale della TPU 8t è l'introduzione della precisione in virgola mobile a 4 bit (FP4) nativa [cite: 6, 15]. Le esigenze matematiche del pre-addestramento favoriscono notevolmente il throughput rispetto alla precisione numerica estrema. Riducendo l'esecuzione nativa da FP8 a FP4, la TPU 8t raddoppia effettivamente il throughput dell'MXU dimezzando contemporaneamente il numero di bit che devono essere spostati fisicamente attraverso il die per parametro [cite: 6, 15]. Questa drastica riduzione dello spostamento dei dati riduce al minimo i recuperi di memoria a elevato consumo energetico e consente di inserire comodamente livelli di modelli più grandi all'interno dei buffer hardware localizzati [cite: 6, 15].
Per garantire che il chip rimanga saturo, la TPU 8t implementa uno scaling più bilanciato della Vector Processing Unit (VPU). Ciò consente al silicio di sovrapporre attività sequenziali essenziali, come quantizzazione, softmax e layernorm, alle moltiplicazioni di matrici pesanti che si verificano nell'MXU, eliminando virtualmente il tempo non matriciale esposto in cui i core di calcolo altrimenti rimarrebbero inattivi [cite: 6, 15]. Grazie a queste ottimizzazioni dell'architettura, un singolo chip TPU 8t offre ben 12,6 PFLOP di potenza di calcolo FP4 [cite: 15, 23].
Inoltre, a differenza della TPU 8t, incentrata sull'inferenza, la TPU 8t conserva i blocchi SparseCore specializzati introdotti nelle generazioni precedenti [cite: 1, 6, 15]. I carichi di lavoro con molti incorporamenti, comuni nei foundation model multimodali e nei sistemi di raccomandazione, mostrano pattern di accesso alla memoria irregolari che paralizzano le GPU tradizionali. SparseCore opera in modo asincrono, scaricando le operazioni all-gather dipendenti dai dati e le ricerche di incorporamento [cite: 6, 15]. Separando la matematica delle matrici dense nell'MXU e le operazioni sparse in SparseCore, la TPU 8t impedisce i colli di bottiglia "zero-op" che causano stalli computazionali [cite: 6, 15].
Larghezza di banda, importazione di spazio di archiviazione e TPUDirect
Per alimentare le MXU estremamente accelerate che operano in FP4, la TPU 8t richiede una larghezza di banda locale e aggregata estrema. Ogni chip possiede 216 GB di HBM3e, che operano a 6528 GB/s [cite: 15, 24]. Tuttavia, alla scala dei modelli pioneristici, il vincolo del sistema spesso passa dalla velocità di elaborazione del silicio alla velocità con cui il data center può importare petabyte di dati di addestramento dal cold storage.
Per aggirare il collo di bottiglia del percorso dei dati tradizionale, Google ha integrato TPUDirect RDMA e TPUDirect Storage [cite: 5, 6, 10]. Questi protocolli consentono l'accesso diretto alla memoria (DMA) tra la memoria a larghezza di banda elevata della TPU e gli array di archiviazione di rete gestiti, come Google Cloud Managed Lustre 10T [cite: 6, 15]. TPUDirect esegue il routing dei dati direttamente dal file system parallelo Lustre alla TPU tramite la scheda di interfaccia di rete (NIC), bypassando completamente la CPU host e la DRAM dell'host [cite: 6]. Questo percorso dati specializzato offre un'accelerazione di 10 volte nelle velocità di accesso allo spazio di archiviazione rispetto all'addestramento sulla TPU di settima generazione, garantendo che le unità di calcolo TPU 8t possano inserire set di dati multimodali alla velocità di linea senza problemi [cite: 5, 6, 15].
Infrastruttura su larga scala: la rete Virgo
La caratteristica architettonica più sorprendente dell'ecosistema TPU 8t è la sua capacità di networking, che sposta il vincolo del sistema in modo deciso dal calcolo localizzato alla larghezza di banda su scala di data center [cite: 25, 26].
Sebbene la TPU 8t mantenga l'interconnessione toroidale 3D di base per la comunicazione locale dei pod, con scalabilità fino a 9600 chip e 2 petabyte senza precedenti di HBM condivisa in un singolo superpod, la struttura di scalabilità orizzontale è stata completamente riprogettata [cite: 5, 6, 15]. Il superpod raggiunge un totale di 121 exaflop di calcolo FP4, con un aumento di 2,8 volte rispetto ai 42,5 exaflop della TPU 7x [citazione: 6]. Per supportare questa funzionalità, la larghezza di banda ICI intra-pod è stata raddoppiata a 19,2 Tb/s per chip [cite: 4, 6, 10].
Tuttavia, per connettere centinaia di questi superpod, Google ha creato la rete Virgo [cite: 1, 6]. La rete precedente, Jupiter, utilizzava una topologia Clos a tre livelli che instradava il traffico attraverso più livelli di switch, introducendo colli di bottiglia di latenza e larghezza di banda (con un limite di 100 Gbps per chip) [citazione: 25].
Virgo è un fabric di scalabilità orizzontale basato su switch ad alta radice (che gestiscono da 256 a 512 porte) che utilizza una topologia non bloccante piatta a due livelli [cite: 6, 15, 25]. Eliminando fisicamente i livelli di rete, Virgo riduce drasticamente la latenza. La rete utilizza un design multi-planare con domini di controllo indipendenti, offrendo un aumento fino al 400% (4 volte) della larghezza di banda grezza della rete del data center (DCN), passando a 400 Gbps per chip [cite: 6, 15, 24].
Una singola struttura Virgo può collegare oltre 134.000 chip TPU 8t all'interno di un singolo data center, offrendo una larghezza di banda bisezionata non bloccante di 47 petabit al secondo [cite: 1, 6, 15]. Inoltre, integrata con il software Pathways di Google e il framework JAX, la TPU 8t consente ai cluster di addestramento distribuiti di scalare oltre un milione di chip in più siti geografici come un unico job di addestramento logico [cite: 1, 6, 15]. Questo risultato trasforma l'infrastruttura distribuita a livello globale in un unico supercomputer senza interruzioni, superando drasticamente le attuali limitazioni di scalabilità delle GPU per uso generico [cite: 27].
Riconfigurazione autonoma e 97% di throughput effettivo
Su una scala di centinaia di migliaia di chip, i guasti hardware, dai transceiver bruciati al throttling termico, sono certezze statistiche piuttosto che casi limite. Nei sistemi legacy, un singolo stallo di rete potrebbe interrompere un'enorme esecuzione di addestramento, richiedendo un rollback laborioso e costoso a un checkpoint precedente. Su scala di frontiera, ogni punto percentuale di efficienza persa si traduce in giorni di tempo di addestramento attivo [cite: 5, 6].
L'ecosistema TPU 8t punta a un "goodput" superiore al 97%, una metrica che definisce il rapporto tra il tempo di calcolo utile e produttivo e il tempo di attività totale [citazione: 6, 28]. Questo risultato viene ottenuto grazie a funzionalità avanzate di affidabilità, disponibilità e manutenibilità (RAS) ancorate alla commutazione di circuiti ottici (OCS) [citazione: 5, 6, 25]. Grazie alla telemetria in tempo reale che analizza decine di migliaia di chip, il sistema è in grado di rilevare autonomamente i collegamenti di interconnessione tra chip difettosi. L'OCS reindirizza fisicamente i percorsi della luce ottica per bypassare i guasti hardware in tempo reale, senza richiedere alcun intervento umano e, soprattutto, senza interrompere il job di addestramento attivo [citazione: 5, 6, 28].
Approfondimento: TPU 8i (il motore di ragionamento)
Se la TPU 8t è un esercizio di scalabilità estrema e bruta, la TPU 8i è una masterclass nell'ottimizzazione della latenza e nell'architettura della memoria [cite: 6]. Man mano che i modelli passano alla produzione in tempo reale, in particolare i modelli massicci Mixture-of-Experts (MoE) e gli sciami di agenti, la velocità effettiva di calcolo grezzo diventa meno pertinente rispetto alla velocità con cui è possibile accedere alla memoria e instradarla attraverso la rete [cite: 21, 29].
Superare il limite della memoria di inferenza
Nella generazione autoregressiva, un modello genera token di output in sequenza. Con ogni token appena generato, il modello deve fare riferimento a una cronologia crescente di tutti i token precedenti e alle loro relazioni matematiche, nota come cache Key-Value (KV) [cite: 1, 13]. Per i modelli con contesto lungo che analizzano centinaia di migliaia di token, le dimensioni di questa cache KV aumentano notevolmente. Se la cache supera la capacità della memoria integrata veloce del chip e si riversa nella memoria della CPU host più lenta, l'intero processo di calcolo si blocca, un fenomeno ampiamente noto come "memory wall" [cite: 5, 8].
La TPU 8i è stata progettata appositamente per superare questo limite. Sebbene sia un design in silicio più semplice ed economico, che utilizza un singolo die di calcolo e un die I/O con sei stack di HBM3e, le sue capacità di memoria sono fortemente ottimizzate per il servizio [cite: 9]. * Capacità e larghezza di banda HBM: ogni TPU 8i è dotata di 288 GB di HBM3E, il che rappresenta un aumento della capacità del 50% rispetto alla TPU 7x [cite: 5, 24, 30]. Ancora più importante, poiché i modelli MoE di grandi dimensioni sono limitati dalla larghezza di banda della memoria durante l'inferenza, la larghezza di banda della memoria viene portata a 8,6 TB/s (~8601 GB/s), ovvero circa 1,3 volte più veloce della TPU 8t incentrata sull'addestramento [cite: 10, 15]. * SRAM on-chip massiva: il cambiamento hardware più importante è l'inclusione di 384 MB di SRAM (Static Random-Access Memory) on-chip per chip [cite: 10, 15, 30]. Ciò rappresenta un aumento massiccio del 300% (3 volte) rispetto alla TPU 7x e alla TPU 8t [cite: 10, 15, 30]. La SRAM è la memoria più veloce e a latenza più bassa disponibile direttamente sulla matrice di silicio. Triplicando questa capacità, la TPU 8i può ospitare cache KV massicce interamente on-die [cite: 15, 16]. Ciò impedisce ai core di elaborazione di rimanere inattivi durante l'attesa del recupero delle cronologie dei token dai livelli di memoria più lenti, consentendo ai cicli di ragionamento ad alta concorrenza di operare con una fluidità senza precedenti [cite: 5, 15].
The Collectives Acceleration Engine (CAE)
Poiché la TPU 8i è destinata all'inferenza, l'unità SparseCore utilizzata nelle TPU 7x e 8t per le ricerche di incorporamento è stata ritenuta un utilizzo inefficiente dello spazio del silicio per questo specifico carico di lavoro. Al suo posto, gli ingegneri di Google hanno introdotto un blocco hardware proprietario noto come Collectives Acceleration Engine (CAE) [cite: 10, 15].
Durante la decodifica autoregressiva e l'elaborazione "chain-of-thought", i core disparati devono interrompere frequentemente i loro calcoli individuali per aggregare, ridurre e sincronizzare i risultati matematici sul chip [cite: 6, 15]. Queste operazioni di sincronizzazione globale possono limitare notevolmente la latenza, soprattutto quando migliaia di agenti indipendenti si affollano contemporaneamente su un problema.
Per ogni chip TPU 8i, due TensorCore si trovano sui core, accompagnati da un CAE situato sul die del chiplet (in sostituzione dei quattro SparseCore presenti su TPU 7x) [cite: 6, 15]. Il CAE specializzato è progettato per aggregare i risultati tra i core con una latenza quasi nulla, con una straordinaria riduzione di 5 volte della latenza collettiva on-chip rispetto alla generazione TPU 7x [citazione: 10, 15]. Accelerando a livello hardware i passaggi di riduzione che dominano gli Agentic Workflows, il CAE garantisce che il sistema mantenga un throughput elevato senza sacrificare la reattività in tempo reale [cite: 6, 15].
Appiattimento della rete: la topologia Boardfly
Una caratteristica distintiva della TPU 8i è l'abbandono completo della topologia del toro 3D. Sebbene un toro 3D sia eccezionale per il trasferimento di dati da vicino a vicino richiesto nel pre-addestramento, crea distanze fisiche inaccettabilmente lunghe, misurate in hop di rete, per il routing dei token all-to-all richiesto dai modelli di inferenza MoE [cite: 2, 15]. Nelle architetture MoE, un determinato token potrebbe dover essere indirizzato a un livello "esperto" specifico che si trova su un chip completamente diverso all'interno del pod. Su un toro tradizionale, questo pacchetto di dati deve attraversare in sequenza i chip intermedi per raggiungere la destinazione.
Per risolvere questo problema, Google ha progettato una nuova architettura di rete ottimizzata per la pubblicazione chiamata Boardfly [cite: 15, 31]. Ispirata ai principi della topologia Dragonfly, Boardfly è una rete gerarchica ad alto radix progettata per appiattire violentemente l'architettura e ridurre al minimo la distanza fisica tra due chip [cite: 2, 15, 26].
La topologia Boardfly viene creata in modo gerarchico: 1. Il componente di base:quattro chip TPU 8i completamente connessi formano un componente di base con collegamenti ICI interni [cite: 6, 16]. 2. La scheda:otto componenti di base sono completamente collegati tramite cavi di rame diretti per formare una singola scheda [cite: 6, 16]. 3. Il pod:36 gruppi sono completamente interconnessi tramite Optical Circuit Switches e collegamenti ottici diretti a lunga distanza per formare un pod unificato di 1152 chip [cite: 5, 6, 16, 32].
Il vantaggio in termini di latenza di questo approccio è notevole. In una configurazione standard a toro 3D con 1024 chip, un pacchetto di dati potrebbe dover attraversare un diametro di rete massimo di 16 hop [cite: 15, 25]. Nella topologia Boardfly, questo diametro di rete massimo è ridotto a soli 7 hop [cite: 15, 25].
Questa riduzione del 56% del diametro della rete si traduce in un miglioramento del 50% della latenza di coda per i carichi di lavoro di inferenza ad alta intensità di comunicazione [citazione: 16, 25, 30]. L'inferenza è in definitiva limitata dalla velocità del nodo più lento. Riducendo la latenza finale, la topologia Boardfly garantisce che il CAE non rimanga mai inattivo in attesa che i dati dei token attraversino il pod [cite: 6, 15].
Inoltre, grazie a questa interconnessione ottica altamente coesa, un singolo pod TPU 8i da 1152 chip funziona come un enorme dominio di memoria condivisa unificata di 331,8 TB di HBM coerente [citazione: 16].
Prestazioni comparative, economia e infrastruttura di sistema
La biforcazione architetturale offre miglioramenti profondi sia nell'economia computazionale sia nell'efficienza energetica. Valutare l'hardware solo in base alle operazioni in rappresentazione in virgola mobile teoriche di picco ignora le realtà sistemiche delle operazioni del data center e dell'abilitazione del software.
Supporto di framework e astrazione del software
Nonostante le diverse basi hardware, Google ha investito molto per mantenere uno stack software AI unificato e incentrato sulle prestazioni per evitare il blocco del framework. Sia la TPU 8t che la 8i offrono supporto nativo per JAX, Keras, MaxText, SGLang e il motore vLLM [cite: 5, 8, 14, 17]. Inoltre, il supporto nativo di PyTorch (tramite TorchTPU) consente agli sviluppatori di trasferire i modelli PyTorch esistenti direttamente all'ambiente TPU con il supporto completo delle funzionalità native come la modalità Eager [cite: 15, 17].
Dietro le quinte, il compilatore Accelerated Linear Algebra (XLA) gestisce la complessa traduzione della topologia Boardfly e la sincronizzazione CAE, consentendo agli sviluppatori di scrivere kernel personalizzati compatibili con l'hardware in Python (utilizzando Pallas e Mosaic) senza dover programmare manualmente gli interconnessioni ottiche [citazione: 15].
Metriche quantitative sul rendimento
La tabella seguente riepiloga le specifiche tecniche principali delle architetture unificate TPU 7x e di quelle altamente specializzate TPU 8t e 8i [cite: 3, 15, 24].
| Matrice delle specifiche | TPU 7x | TPU 8t | TPU 8i |
|---|---|---|---|
| Carico di lavoro principale | Unificato (addestramento e inferenza) | Pre-addestramento su larga scala | Inferenza sensibile alla latenza |
| ASIC Design Partner | Broadcom | Broadcom | MediaTek |
| Network Topology | Toro 3D | Toro 3D + scale out Vergine | Boardfly (ispirato alla libellula) |
| Hardware specializzato | SparseCore | SparseCore | Collectives Acceleration Engine (CAE) |
| Messa a fuoco di precisione nativa | FP8 | FP4 | FP4 (con supporto FP8/INT8) |
| Peak Compute per chip | 4,6 PFLOP (FP8) | 12,6 PFLOP (FP4) | 10,1 PFLOPS (FP4) |
| Capacità HBM per chip | 192 GB | 216 GB | 288 GB |
| Larghezza di banda HBM | 7,37 TB/s | 6,52 TB/s | 8,60 TB/s |
| SRAM su chip (VMEM) | 128 MB | 128 MB | 384 MB |
| BW inter-chip (scalabilità verticale) | 9,6 Tb/s | 19,2 Tb/s | 19,2 Tb/s |
| Dimensione massima pod/superpod | 9216 chip | 9600 chip | 1152 chip |
Ottimizzazione di costi, prestazioni e TCO
Google afferma di aver ottenuto miglioramenti sorprendenti del costo totale di proprietà (TCO) con l'ottava generazione. TPU 8t offre un aumento dal 170% al 180%, pari a un miglioramento da 2,7 a 2,8 volte, delle prestazioni per dollaro per l'addestramento su larga scala rispetto a TPU 7x [citazione: 6, 15, 30]. Nel frattempo, la TPU 8i offre un miglioramento dell'80% delle prestazioni per dollaro per l'inferenza, in particolare per i target a bassa latenza richiesti per i modelli MoE di grandi dimensioni [citazione: 15, 16, 30].
Questi vantaggi economici sono determinati non solo dal silicio, ma anche dall'integrazione sistemica full-stack. Storicamente, le TPU erano accoppiate a CPU host x86 standard. In situazioni che comportano un intenso pre-elaborazione dei dati o una complessa logica agentica, l'host x86 spesso strozza il sistema, lasciando il silicio TPU iperveloce pronto all'uso ma privo di dati [cite: 6, 7].
L'ottava generazione corregge questo squilibrio cronico ospitando sia l'8t che l'8i esclusivamente sui processori Axion personalizzati basati su ARM di Google [cite: 6, 7, 15]. Basati sull'architettura del core Neoverse N3 Armv9.2, gli host Axion forniscono una base unificata e altamente ottimizzata [cite: 18, 19]. Per la TPU 8i, che richiede molte inferenze, Google ha integrato gli host Axion con un rapporto TPU/CPU di 2:1, raddoppiando gli host CPU fisici per server rispetto alla TPU 7x [cite: 5, 6, 32]. Utilizzando un'architettura NUMA (Non-Uniform Memory Access) rigorosa per l'isolamento dei carichi di lavoro, il sistema garantisce una località di memoria superiore ed elimina completamente il collo di bottiglia della preparazione dei dati [cite: 5, 7].
Efficienza energetica e implicazioni di mercato
La densità energetica e la disponibilità di energia stanno rapidamente diventando i vincoli definitivi nell'implementazione dei moderni data center. Grazie all'utilizzo del raffreddamento a liquido di quarta generazione e della gestione dell'alimentazione integrata in tempo reale che regola dinamicamente l'assorbimento di energia in base a fasi di workload specifiche (ad es. calcolo attivo rispetto all'inattività per la comunicazione), sia la TPU 8t che la TPU 8i raggiungono efficienze energetiche sorprendenti [cite: 7, 15, 22, 24]. L'8t vanta un aumento del 124% delle prestazioni per watt, mentre l'8i offre un aumento del 117%, con un miglioramento complessivo di oltre il 100%dell'efficienza energetica rispetto alla TPU 7x [cite: 15, 22, 30].
Le implicazioni di questa efficienza sono evidenti nei modelli allo stato dell'arte di Google. I benchmark per l'anteprima di Gemini 3.1 Pro indicano che il deployment del modello sull'architettura TPU 8i comporta una riduzione dei costi di circa il 50% per le API di inferenza, oltre a una reattività e a capacità di gestione del contesto lungo notevolmente migliorate [citazione: 24, 30].
Concorrenza: Google e il silicio del commerciante
La decisione di Google di dividere la sua strategia di silicio ha profonde implicazioni per l'ecosistema hardware di intelligenza artificiale più ampio, in particolare nella sua competizione in corso con i fornitori di silicio commerciali come Nvidia e, in misura minore, AMD e AWS (con la sua piattaforma Trainium3) [cite: 17, 23].
Nvidia ha sempre mantenuto una strategia di architettura unificata, utilizzando piattaforme per uso generico altamente capaci come Blackwell B200 e Vera Rubin NVL72 per gestire sia il pre-training che l'inferenza in tempo reale [cite: 2, 9]. Se consideriamo solo le specifiche del singolo chip, Nvidia mantiene alcuni vantaggi. Ad esempio, la tecnologia NVLink di Nvidia supporta larghezze di banda di interconnessione per singolo dispositivo di 14,4 Tb/s e le singole GPU Rubin offrono circa 50 PFLOP di calcolo di inferenza NVFP4, un valore significativamente superiore ai 10,1 PFLOP della TPU 8i [cite: 2, 9].
Tuttavia, la scommessa architettonica di Google si basa sulla convinzione che il futuro dell'intelligenza artificiale sia determinato dall'efficienza su scala di cluster, non dalle funzionalità di picco di un singolo chip [citazione: 9].
Passando alla topologia Boardfly, Google crea un pool di memoria condivisa completamente coerente su tutti i 1152 chip all'interno di un pod TPU 8i [citazione: 16]. Il risultato è una capacità aggregata del pod di 11,6 FP8 ExaFlops e 331,8 TB di HBM coerente e unificata [citazione: 6, 16]. Al contrario, la coerenza su scala di rack della GPU Nvidia standard su NVL72 raggiunge un massimo di 72 GPU e circa 20,7 TB di HBM [citazione: 2, 16]. Il ridimensionamento delle GPU per uso generico in modo che corrispondano a una configurazione di 1152 chip richiede il bridging su circa 16 rack separati [citazione: 16]. Questa separazione fisica distrugge la vera coerenza della memoria e introduce gravi penalità di latenza catastrofiche per l'inferenza agentica continua e a lungo contesto [citazione: 16].
Inoltre, spostando l'Optical Circuit Switching (OCS) più in basso nello stack per facilitare la gerarchia Boardfly, Google sta modificando radicalmente la catena di fornitura delle reti ottiche, creando una massiccia domanda a valle di transceiver e laser specializzati da fornitori come Lumentum e Coherent [cite: 26].
In definitiva, la filosofia di progettazione di Google presuppone che il vero campo di battaglia della fine degli anni 2020 non sarà determinato dal picco di throughput matematico su un singolo die di silicio, ma piuttosto dalla capacità di aggirare il muro della memoria, scalare rapidamente le interconnessioni cross-site e ridurre il costo assoluto per token dell'implementazione di sciami di agenti in tempo reale per miliardi di utenti [cite: 6, 16, 17].
Conclusione
La traiettoria delle Tensor Processing Unit di Google Cloud, dal framework unificato della TPU 7x alla dicotomia altamente specializzata della TPU 8t e della TPU 8i, riflette la maturazione e l'industrializzazione dei carichi di lavoro di intelligenza artificiale. Il silicio unificato per uso generico, sebbene fondamentale per il boom iniziale del deep learning, non è più sufficiente per guidare l'economia o le prestazioni richieste ai margini estremi dell'era agentica.
La TPU 8t rappresenta una ricerca senza compromessi della scalabilità. Grazie alla conservazione di SparseCore, all'implementazione della precisione FP4 nativa per raddoppiare la velocità effettiva delle MXU e alle funzionalità di staggering di Virgo Network e TPUDirect Storage, è progettato per importare ed elaborare dati a un volume precedentemente ritenuto impossibile. Neutralizza efficacemente i vincoli di larghezza di banda di scalabilità orizzontale dei moderni data center, consentendo a milioni di chip di operare come un unico motore di pre-addestramento distribuito a livello globale.
Al contrario, la TPU 8i è un esercizio di eliminazione della latenza ed efficienza economica. Abbandonando il toro 3D a favore della topologia gerarchica Boardfly, triplicando la SRAM sul die a 384 MB e introducendo il motore di accelerazione Collectives per accelerare la sincronizzazione autoregressiva, la TPU 8i smantella sistematicamente il muro della memoria di inferenza. Garantisce che le enormi cache KV necessarie per il ragionamento complesso e in più passaggi degli agenti possano rimanere localizzate e accessibili con una latenza quasi nulla, riducendo al contempo i costi di produzione grazie a una progettazione logica semplificata.
Ospitata su CPU Axion basate su ARM completamente integrate e gestita dalla commutazione di circuiti ottici autonomi, l'ottava generazione biforcata stabilisce un nuovo paradigma nell'infrastruttura hyperscale. Rappresenta una dichiarazione architettonica definitiva secondo cui il futuro dell'intelligenza artificiale richiede non solo chip più veloci, ma anche framework hardware fondamentalmente divergenti progettati con precisione per i diversi carichi di lavoro che sono destinati a servire.
Fonti: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com