Diseño de la era de los agentes: Un análisis comparativo exhaustivo de las Cloud TPU 7x, TPU 8t y TPU 8i de Google Cloud

La evolución de la inteligencia artificial, desde los modelos de lenguaje grandes fundamentales hasta los sistemas complejos basados en agentes de varios pasos, desencadenó un cambio de paradigma fundamental en el diseño de semiconductores. Durante casi una década, la lógica predominante en la arquitectura de los aceleradores de inteligencia artificial fue la de la unificación. Los diseñadores de silicio se esforzaron por diseñar arquitecturas monolíticas únicas capaces de ejecutar simultáneamente las cargas de trabajo masivas y de alto rendimiento del entrenamiento previo del modelo junto con las demandas sensibles a la latencia de la inferencia de producción [cite: 1, 2]. Este enfoque unificado dominó la industria desde el inicio de los primeros aceleradores de hardware hasta la implementación de la unidad de procesamiento tensorial (TPU) de séptima generación de Google Cloud [cite: 2, 3, 4].

Sin embargo, a medida que los modelos de vanguardia se expanden a billones de parámetros y las arquitecturas de razonamiento en tiempo real, como la mezcla de expertos (MoE) y los bucles de retroalimentación continua basados en agentes, se convierten en el estándar, los requisitos de hardware para el entrenamiento y la publicación se han separado de forma irrevocable [cite: 5, 6, 7]. El entrenamiento previo se ha consolidado como un problema de optimización del ancho de banda y la capacidad de procesamiento, lo que requiere capacidades de expansión asombrosas, un ancho de banda de bisección de interconexión masivo y una saturación continua de las operaciones matemáticas de matrices [cite: 6]. Por el contrario, la publicación basada en agentes surgió como un problema limitado por la latencia y la memoria, limitado por la velocidad a la que los pesos y las memorias caché de clave-valor (KV) se pueden transmitir a los núcleos de procesamiento sin generar cuellos de botella en las operaciones de sincronización global [cite: 6, 8].

Google tomó la decisión arquitectónica sin precedentes de bifurcar su línea de TPU de octava generación [cite: 1, 6, 9], ya que reconoció que forzar ambas cargas de trabajo en silicio idéntico genera ineficiencias sistémicas y rendimientos económicos cada vez menores. El resultado son dos chips distintos y altamente especializados diseñados hasta el nivel de la cadena de suministro: la TPU 8t, diseñada para un enorme rendimiento de entrenamiento a escala de supercomputadora, y la TPU 8i, diseñada para romper el límite de memoria de inferencia y minimizar la latencia colectiva para el razonamiento global [cite: 7, 9].

En este informe de investigación integral, se analizan las diferencias de arquitectura, rendimiento y escalamiento entre el modelo de referencia unificado de la TPU 7x y las nuevas TPU 8t y TPU 8i bifurcadas. A través de un análisis exhaustivo del diseño lógico, las jerarquías de memoria de varios niveles, las topologías de interconexión de centros de datos, la conmutación de circuitos ópticos y el diseño conjunto de hardware y software, este análisis explica cómo se requiere silicio especializado para mantener el escalamiento económico y computacional de la próxima generación de inteligencia artificial.

Contexto histórico: La trayectoria hacia la especialización

Para apreciar por completo las diferencias arquitectónicas de la octava generación, es fundamental rastrear la evolución iterativa de la familia de TPU. El desarrollo de hardware de Google siempre reflejó los cuellos de botella predominantes de los modelos de aprendizaje automático contemporáneos, desde la aceleración de inferencia simple hasta las estructuras de entrenamiento masivas a escala de clúster [cite: 10, 11].

De la inferencia a los arrays de matrices masivas

En 2015, Google presentó la TPU v1 como un acelerador solo para inferencia diseñado para controlar la creciente carga computacional de los servicios internos, como la Búsqueda, Traductor y las recomendaciones de YouTube [cite: 11, 12]. La versión 1 utilizaba operaciones matemáticas de números enteros de 8 bits para lograr mejoras de orden de magnitud en las operaciones por vatio en comparación con las unidades centrales de procesamiento (CPU) y las unidades de procesamiento gráfico (GPU) de uso general [cite: 10, 11]. En 2017, la TPU v2 marcó la transición a las capacidades de entrenamiento y presentó el formato bfloat16 (BF16), un formato de punto flotante de 16 bits que conservó el rango dinámico de los números de punto flotante de 32 bits y redujo el consumo de memoria a la mitad [cita: 10].

Las generaciones v3 a v5 optimizaron el motor de procesamiento central, la unidad de multiplicación de matrices (MXU). Durante varias generaciones, la MXU siguió siendo un array sistólico de 128 x 128, capaz de realizar 16,384 operaciones de multiplicación y acumulación de forma simultánea [cite: 4, 10]. La TPU v4 introdujo el "SparseCore", un bloque de hardware dedicado diseñado específicamente para acelerar las búsquedas de incorporaciones y los accesos irregulares a la memoria, lo que evita que la MXU se detenga durante el entrenamiento del modelo de recomendación [cite: 4, 6].

Evolución topográfica y Trillium (v6e)

A medida que aumentaba el tamaño de los modelos, evolucionaron las topologías de interconexión necesarias para sincronizar los gradientes en miles de chips. Google implementó una topología de toro 2D para pods más pequeños y rentables (como v5e y v6e), lo que simplificó el aumento de la escala hasta 256 chips [cite: 4, 10]. Para las variantes optimizadas para el rendimiento (como las v4 y v5p), Google utilizó una topología de toroide 3D, que conectaba chips en una cuadrícula envolvente tridimensional para reducir la latencia de comunicación en tamaños de pod más grandes, que van de 4,096 a 8,960 chips [cite: 4].

El precursor inmediato de la era moderna fue la TPU v6e (Trillium), lanzada a fines de 2024. Trillium representó un gran avance arquitectónico, ya que expandió la MXU de un array de 128 × 128 a uno de 256 × 256 [cite: 10]. Esto cuadruplicó las operaciones de multiplicación y acumulación por ciclo. En combinación con un ancho de banda de interconexión entre chips (ICI) duplicado de 3,200 Gbps (13 TB/s bidireccional agregado) y 32 GB de memoria de gran ancho de banda (HBM) por chip, Trillium proporcionó 4.7 veces el procesamiento máximo de su predecesor y, al mismo tiempo, funcionó con un 67% más de eficiencia energética [cite: 10, 11].

Generación de TPU Año de lanzamiento Innovación principal Topología y tamaño máximo del Pod Arquitectura de la MXU Procesamiento máximo por chip
TPU v2 2017 Primer entrenamiento capaz (BF16) Toro 2D (512 chips) 128 x 128 Aprox. 45 TFLOPS
TPU v4 2021 Introducción a SparseCore Toro 3D (4,096 chips) 128 x 128 275 TFLOPS
TPU v5e 2023 Eficiencia con optimización de costos Toro 2D (256 chips) 128 x 128 197 TFLOPS
TPU v5p 2023 Aumento del rendimiento Toro 3D (8,960 chips) 128 x 128 459 TFLOPS
TPU v6e (Trillium) 2024 Expansión de MXU de 256 x 256 Toro 2D (256 chips) 256 x 256 918 TFLOPS

El ápice de la arquitectura unificada: TPU 7x

La TPU de séptima generación 7x, que se lanzó con disponibilidad general a fines de 2025, representa el vértice absoluto de la estrategia de arquitectura unificada de Google. Diseñada para ejecutar tanto el entrenamiento previo a escala de vanguardia como la inferencia con mucha decodificación dentro de un solo marco arquitectónico, la TPU 7x forzó los límites de lo que un acelerador de doble propósito podía lograr [cite: 3, 10].

Diseño de doble chiplet y optimización de AlphaChip

La construcción física de la TPU 7x marcó un cambio drástico con respecto a la arquitectura de un solo núcleo lógico (MegaCore) que se encuentra en las versiones v4 y v5p [cite: 3]. La TPU 7x utiliza una arquitectura de doble chiplet. Cada chip TPU 7x completo consta de dos chiplets distintos y autónomos conectados por una interfaz de chip a chip (D2D) patentada de alta velocidad [cite: 3]. Esta conexión D2D funciona a una velocidad seis veces mayor que la de una conexión ICI unidimensional estándar, lo que permite que los chiplets se comuniquen rápidamente y mantengan sus propios espacios de memoria dedicados [cite: 3].

En todo el chip unificado, la TPU 7x alberga dos TensorCores y cuatro SparseCores [cite: 3]. La disposición física de estos núcleos en la matriz de silicio se optimizó con AlphaChip, la herramienta de aprendizaje por refuerzo patentada de Google, para minimizar la longitud de los cables y maximizar la eficiencia térmica [cita: 10]. Una configuración estándar de máquina virtual (VM) para TPU 7x conecta cuatro chips a un host de CPU, lo que expone 224 CPU virtuales y 960 GB de RAM [cite: 3].

Jerarquía de memoria de varios niveles y formato de precisión

Un cuello de botella crítico en el procesamiento de modelos densos y de MoE es el movimiento continuo de datos entre los niveles de almacenamiento. La TPU 7x cuenta con un sólido sistema de memoria de varios niveles diseñado para mantener saturadas las MXU expandidas: * Memoria de alto ancho de banda (HBM3E): Cada chip de TPU 7x está equipado con 192 GB de HBM, lo que proporciona un ancho de banda de memoria masivo de 7.37 TB/s (7,380 GBps) [cite: 3, 10]. Este aumento de seis veces en la capacidad con respecto a Trillium permite tamaños de lotes significativamente más grandes durante el entrenamiento y permite que se retengan cachés de KV más grandes en el chip durante la inferencia, lo que evita los costosos picos de latencia asociados con la descarga a una memoria del host más lenta [cite: 4, 10, 13]. * Memoria vectorial (VMEM): Cada TensorCore cuenta con 64 MiB de VMEM (128 MB en total por chip), que funciona como un bloc de notas SRAM en chip de velocidad ultrarrápida. La VMEM cuenta con un ancho de banda significativamente mayor para la MXU que la HBM [cite: 3, 14]. A través del ajuste de VMEM con alcance, los desarrolladores pueden reasignar memoria entre el alcance computacional actual y la recuperación previa de pesos futuros, lo que permite tamaños de segmentos de kernel más grandes (como los que se usan en la atención flash) y reduce las detenciones de memoria [cite: 13, 14]. * Memoria del host (PCIe): Conectada a través de una red PCIe, la memoria del host del sistema se utiliza para descargar los estados y las activaciones del optimizador, y administrar la presión de la memoria para los modelos que superan la capacidad de la HBM [cite: 3, 14].

Además, la TPU 7x introdujo la aceleración de hardware nativa para la precisión de punto flotante de 8 bits (FP8) [cite: 4, 13]. Al migrar de formatos estándar de 16 bits (BF16 o FP16), la representación de FP8 duplica de manera efectiva la capacidad de procesamiento máxima y reduce a la mitad el espacio en memoria requerido para almacenar pesos y activaciones [cite: 4, 13]. Con un funcionamiento nativo en FP8, un solo chip de TPU 7x ofrece un procesamiento máximo de 4,614 TFLOPS, en comparación con los 2,307 TFLOPS cuando funciona en BF16 [cite: 3, 4].

Topología de toro 3D y escala de superpod

A nivel del centro de datos, la TPU 7x se basa en la probada topología de interconexión toroidal 3D de Google [cite: 3]. Esta arquitectura conecta cada chip directamente con sus vecinos más cercanos a través de los ejes X, Y y Z, lo que genera una malla tridimensional resistente [cite: 3]. La comunicación dentro de esta malla se facilita con un ancho de banda de ICI de 1.2 TB/s (1,200 GBps) por chip, lo que proporciona una comunicación bidireccional a 200 GBps por eje [cite: 3].

Un superpod de TPU 7x completamente realizado se escala a 9,216 chips refrigerados por líquido. En esta configuración, el pod ofrece una potencia de procesamiento agregada de 42.5 ExaFlops de FP8 [cite: 8, 10]. Las porciones de más de 64 chips se construyen con "cubos" modulares de chips de 4x4x4, lo que permite topologías muy flexibles que van desde configuraciones de un solo host hasta entornos masivos de varios hosts [cite: 3].

A pesar de sus enormes capacidades, la naturaleza unificada de la TPU 7x implicaba compromisos inherentes. Si bien la topología de toroide 3D es muy eficiente para la sincronización de gradientes localizada y predecible que se requiere en el entrenamiento previo, genera un diámetro de red alto. Por ejemplo, un grupo de 1,024 chips en un toroide 3D presenta un diámetro de red máximo de 16 saltos [cite: 15, 16]. En una situación de inferencia de MoE, en la que los tokens deben enrutarse rápidamente a capas de expertos ubicadas en cualquier lugar dentro del pod, esta distancia de 16 saltos introduce latencias de cola inaceptables de todos a todos [cite: 6, 15, 16]. Además, dedicar una valiosa área de silicio a los SparseCores, que se destacan en las búsquedas de incorporación, restó espacio que se podría haber usado para los motores de reducción colectiva, que son fundamentales para los flujos de trabajo de cadena de pensamiento basados en agentes [cite: 6, 15]. La industria había alcanzado los límites físicos del acelerador "talla única".

La bifurcación estratégica: factores económicos y arquitectónicos

La transición de la séptima a la octava generación de TPU representa el cambio arquitectónico más trascendental en la historia de los chips de Google [cite: 9]. Anunciada en Google Cloud Next 2026, la bifurcación de la línea de TPU en dos familias de productos distintas (TPU 8t para entrenamiento y TPU 8i para inferencia) reconoce que las cargas de trabajo que impulsarán la próxima década de la inteligencia artificial son fundamentalmente irreconciliables a nivel del hardware [cite: 1, 2, 17].

El origen de esta división radica en las divergentes intensidades económicas y operativas del desarrollo de la IA. El entrenamiento de un modelo de frontera es un gasto operativo único y altamente intensivo en capital que se mide en procesamiento continuo durante semanas o meses [cite: 9]. Exige una densidad de procesamiento máxima, un ancho de banda de interconexión de ampliación sin precedentes y dominios de memoria unificados de varios petabytes capaces de transferir conjuntos de datos multimodales a la velocidad de la línea [cite: 9].

Por el contrario, la inferencia es un costo operativo continuo que se ajusta de forma lineal (o exponencial) con la demanda de los usuarios [cite: 9]. En la emergente "Era de los agentes", un modelo de IA no solo predice el siguiente token para generar un bloque de texto, sino que razona de forma activa, simula situaciones futuras, itera a través de la "imaginación", llama a APIs externas e interactúa con enjambres de otros agentes especializados en bucles de retroalimentación continuos [cite: 5, 7, 15]. Esta dinámica requiere grandes cantidades de memoria para almacenar ventanas de contexto activas y una latencia de red extremadamente baja para el enrutamiento experto y la sincronización global [cite: 15, 16].

Al dividir la línea de productos, Google optimizó el hardware en profundidad en la cadena de suministro. La TPU 8t se diseñó en conjunto con Broadcom, una asociación que se remonta a 2015 [cite: 9, 17, 18]. La experiencia de Broadcom en interconexiones SerDes complejas y de alta velocidad, empaquetado avanzado y redes a gran escala lo convirtió en el socio ideal para superar los límites físicos del tejido de entrenamiento [citas: 17, 19].

Para el chip de inferencia, Google rompió con la tradición y se asoció con MediaTek para diseñar la TPU 8i [cite: 9, 17, 18]. Aprovechando la profunda experiencia de MediaTek en el diseño de SoC móviles de alto volumen y eficiencia energética, Google creó un acelerador de inferencia altamente optimizado en cuanto a costos [cite: 17, 19]. La TPU 8i utiliza un diseño más simple (un chip de procesamiento en comparación con los dos de la 8t) que, según se informa, es entre un 20% y un 30% más económico de producir que las variantes tradicionales de alto rendimiento, lo que permite a Google escalar su capacidad de procesamiento global de forma económica para satisfacer las demandas de las aplicaciones empresariales y de consumo [cite: 9, 17]. Ambos chips se fabrican en el nodo de proceso avanzado de 2 nanómetros de TSMC, que incorpora el empaquetado avanzado de vanguardia CoWoS para integrar los chips lógicos con pilas de HBM de gran altura [cite: 9, 19].

La validación del mercado para esta estrategia bifurcada fue inmediata. Anthropic, una organización líder en investigación de IA, amplió su acuerdo multimillonario con Google Cloud y se comprometió a alcanzar una asombrosa capacidad de procesamiento de 3.5 gigavatios para 2027, lo que la convierte en el cliente principal de las plataformas de TPU 7x y de octava generación [cite: 9, 10, 20].

Análisis detallado: TPU 8t (la potencia del entrenamiento previo)

La TPU 8t es un logro de ingeniería sin concesiones que tiene como objetivo reducir el ciclo de desarrollo de modelos de vanguardia con billones de parámetros de meses a semanas [cite: 5, 21]. Esto se logra no solo aumentando las velocidades de reloj sin procesar, sino también reestructurando la precisión de las operaciones matemáticas, expandiendo enormemente el ancho de banda entre chips y mitigando los cuellos de botella de la transferencia de datos que afectan a los clústeres de entrenamiento masivos [cite: 6, 15].

Arquitectura de procesamiento de doble matriz y FP4 nativo

Físicamente, la TPU 8t utiliza una arquitectura muy compleja que comprende dos chips de procesamiento y un chiplet de E/S, flanqueados por ocho pilas de memoria HBM3E de 12 alturas [cita: 9]. Este empaquetado denso requiere una administración térmica avanzada, que se basa en el sistema de enfriamiento líquido de cuarta generación de Google para disipar el inmenso calor que generan las operaciones de matriz sostenidas [cite: 7, 17, 22].

Una evolución fundamental en la TPU 8t es la introducción de la precisión nativa de punto flotante de 4 bits (FP4) [cite: 6, 15]. Las exigencias matemáticas del entrenamiento previo favorecen en gran medida la capacidad de procesamiento por sobre la precisión numérica extrema. Al reducir la ejecución nativa de FP8 a FP4, la TPU 8t duplica de manera efectiva la capacidad de procesamiento de la MXU y, al mismo tiempo, reduce a la mitad la cantidad de bits que se deben mover físicamente a través del chip por parámetro [cite: 6, 15]. Esta reducción significativa en el movimiento de datos minimiza las recuperaciones de memoria que consumen mucha energía y permite que las capas de modelos más grandes quepan cómodamente dentro de los búferes de hardware localizados [cite: 6, 15].

Para garantizar que el chip permanezca saturado, la TPU 8t implementa un escalamiento más equilibrado de la unidad de procesamiento vectorial (VPU). Esto permite que el chip superponga tareas secuenciales esenciales, como la cuantificación, softmax y normalización de capas, con las multiplicaciones de matrices pesadas que se producen en la MXU, lo que elimina prácticamente el tiempo no matricial expuesto en el que los núcleos de procesamiento estarían inactivos [cite: 6, 15]. Como resultado de estas optimizaciones arquitectónicas, un solo chip TPU 8t ofrece una asombrosa potencia de procesamiento de 12.6 PFLOPs de FP4 [cite: 15, 23].

Además, a diferencia de su hermano enfocado en la inferencia, la TPU 8t conserva los bloques SparseCore especializados que se introdujeron en generaciones anteriores [cite: 1, 6, 15]. Las cargas de trabajo con gran cantidad de incorporaciones, comunes en los modelos básicos multimodales y los sistemas de recomendación, exhiben patrones de acceso a la memoria irregulares que paralizan las GPUs tradicionales. El SparseCore opera de forma asíncrona, lo que descarga las operaciones de recopilación de todos dependientes de los datos y las búsquedas de incorporaciones [cite: 6, 15]. Al segregar las operaciones matemáticas de matrices densas en la MXU y las operaciones dispersas en el SparseCore, la TPU 8t evita los cuellos de botella de "cero operaciones" que causan interrupciones computacionales [cite: 6, 15].

Ancho de banda, transferencia de almacenamiento y TPUDirect

Para alimentar las MXU aceleradas de forma masiva que operan en FP4, la TPU 8t requiere un ancho de banda local y agregado extremo. Cada chip posee 216 GB de HBM3e, que funciona a 6,528 GB/s [cite: 15, 24]. Sin embargo, en la escala de los modelos de vanguardia, la restricción del sistema a menudo pasa de la velocidad de procesamiento del silicio a la velocidad a la que el centro de datos puede transferir petabytes de datos de entrenamiento desde el almacenamiento en frío.

Para evitar el cuello de botella tradicional de la ruta de datos, Google integró TPUDirect RDMA y TPUDirect Storage [cite: 5, 6, 10]. Estos protocolos permiten el acceso directo a la memoria (DMA) entre la memoria de alto ancho de banda de la TPU y los arrays de almacenamiento de red administrados, como Google Cloud Managed Lustre 10T [cite: 6, 15]. Al enrutar los datos directamente desde el sistema de archivos paralelo de Lustre a la TPU a través de la tarjeta de interfaz de red (NIC), TPUDirect omite por completo la CPU del host y la DRAM del host [cite: 6]. Esta ruta de datos especializada ofrece de manera eficaz una aceleración 10 veces mayor en las velocidades de acceso al almacenamiento en comparación con el entrenamiento en la generación de TPU 7x, lo que garantiza que las unidades de procesamiento de la TPU 8t puedan transferir conjuntos de datos multimodales a la velocidad de línea sin interrupciones [cite: 5, 6, 15].

Infraestructura a gran escala: La red de Virgo

La hazaña arquitectónica más asombrosa del ecosistema de la TPU 8t es su capacidad de redes, que desplaza la restricción del sistema firmemente del cómputo localizado al ancho de banda a escala del centro de datos [cite: 25, 26].

Si bien la TPU 8t conserva la interconexión de toroide 3D fundamental para la comunicación localizada entre pods (con una capacidad de hasta 9,600 chips y 2 petabytes sin precedentes de HBM compartida en un solo superpod), el tejido de expansión se rediseñó por completo [cite: 5, 6, 15]. El superpod alcanza un total de 121 ExaFlops de procesamiento de FP4, lo que representa un aumento de 2.8 veces en comparación con los 42.5 ExaFlops de la TPU 7x [cite: 6]. Para admitir esto, el ancho de banda de ICI dentro del pod se duplicó a 19.2 Tb/s por chip [cite: 4, 6, 10].

Sin embargo, para conectar cientos de estos superpods, Google creó la red Virgo [cite: 1, 6]. La red predecesora, Júpiter, utilizaba una topología de Clos de tres capas que enrutaba el tráfico a través de varios niveles de conmutadores, lo que generaba cuellos de botella de latencia y ancho de banda (con un límite de 100 Gbps por chip) [cite: 25].

Virgo es una estructura de expansión horizontal creada sobre conmutadores de alta base (que administran de 256 a 512 puertos) que emplea una topología plana de dos capas sin bloqueo [cite: 6, 15, 25]. Al eliminar físicamente los niveles de red, Virgo reduce drásticamente la latencia. La red utiliza un diseño multiplano con dominios de control independientes, lo que ofrece un aumento de hasta el 400% (4 veces) en el ancho de banda sin procesar de la red del centro de datos (DCN), y alcanza los 400 Gbps por chip [cite: 6, 15, 24].

Una sola estructura de Virgo puede vincular más de 134,000 chips de TPU 8t dentro de una sola instalación de centro de datos, lo que ofrece un ancho de banda de bisección sin bloqueo incomprensible de 47 petabits por segundo [cite: 1, 6, 15]. Además, integrada con el software Pathways de Google y el framework de JAX, la TPU 8t permite que los clústeres de entrenamiento distribuidos se escalen más allá de un millón de chips en múltiples sitios geográficos como un solo trabajo de entrenamiento lógico [cite: 1, 6, 15]. Este logro transforma la infraestructura distribuida a nivel global en una supercomputadora singular y sin interrupciones, lo que supera drásticamente las limitaciones actuales de escalamiento de las GPU de uso general [cite: 27].

Reconfiguración autónoma y un 97% de rendimiento útil

En la escala de cientos de miles de chips, las fallas de hardware, desde transceptores quemados hasta la regulación térmica, son certezas estadísticas en lugar de casos extremos. En los sistemas heredados, una sola detención de la red podría detener una ejecución de entrenamiento masiva, lo que requeriría una reversión laboriosa y costosa a un punto de control anterior. En la escala de vanguardia, cada punto porcentual de eficiencia perdida se traduce en días de tiempo de entrenamiento activo [cite: 5, 6].

El ecosistema de la TPU 8t tiene como objetivo un "procesamiento útil" superior al 97%, una métrica que define la proporción de tiempo de procesamiento útil y productivo en relación con el tiempo de actividad total [cite: 6, 28]. Esto se logra a través de capacidades avanzadas de confiabilidad, disponibilidad y capacidad de servicio (RAS) ancladas por la conmutación de circuitos ópticos (OCS) [cite: 5, 6, 25]. A través de la telemetría en tiempo real que analiza decenas de miles de chips, el sistema puede detectar de forma autónoma los vínculos de interconexión defectuosos entre chips. El OCS redirige físicamente las rutas de luz óptica para evitar fallas de hardware en tiempo real, sin necesidad de intervención humana y, lo que es fundamental, sin interrumpir el trabajo de entrenamiento activo [cite: 5, 6, 28].

Análisis detallado: TPU 8i (el motor de razonamiento)

Si la TPU 8t es un ejercicio de escalamiento extremo y de fuerza bruta, la TPU 8i es una clase magistral en optimización de latencia y arquitectura de memoria [cite: 6]. A medida que los modelos pasan a la producción en tiempo real, en particular los modelos masivos de mezcla de expertos (MoE) y los enjambres de agentes, la capacidad de procesamiento sin procesar se vuelve menos pertinente que la velocidad a la que se puede acceder a la memoria y enrutarla a través de la red [cite: 21, 29].

Cómo romper la barrera de la memoria de inferencia

En la generación autorregresiva, un modelo genera tokens de salida de forma secuencial. Con cada token recién generado, el modelo debe hacer referencia a un historial creciente de todos los tokens anteriores y sus relaciones matemáticas, lo que se conoce como caché de clave-valor (KV) [cite: 1, 13]. En el caso de los modelos de contexto extenso que analizan cientos de miles de tokens, esta caché de KV aumenta considerablemente de tamaño. Si la caché supera la capacidad de la memoria integrada rápida del chip y se desborda en la memoria de la CPU del host más lenta, todo el proceso computacional se detiene, un fenómeno conocido como "cuello de botella de memoria" [cite: 5, 8].

La TPU 8i se creó explícitamente para derribar este muro. Si bien se trata de un diseño de silicio más simple y rentable, que utiliza un solo chip de procesamiento y un chip de E/S con seis pilas de HBM3e, sus capacidades de memoria están muy optimizadas para la entrega [cite: 9]. * Capacidad y ancho de banda de HBM: Cada TPU 8i está equipada con 288 GB de HBM3E, lo que representa un aumento del 50% en la capacidad en comparación con la TPU 7x [cite: 5, 24, 30]. Lo que es más importante, dado que los modelos grandes de MoE están limitados por el ancho de banda de la memoria durante la inferencia, el ancho de banda de la memoria se incrementa a 8.6 TB/s (aproximadamente 8,601 GB/s), lo que es alrededor de 1.3 veces más rápido que la TPU 8t enfocada en el entrenamiento [cite: 10, 15]. * SRAM masiva en el chip: El cambio de hardware más importante es la inclusión de 384 MB de memoria estática de acceso aleatorio (SRAM) en el chip por chip [cite: 10, 15, 30]. Esto representa un aumento masivo del 300% (3 veces) en comparación con la TPU 7x y la TPU 8t [cite: 10, 15, 30]. La SRAM es la memoria más rápida y de menor latencia disponible directamente en la matriz de silicio. Al triplicar esta capacidad, la TPU 8i puede alojar cachés de KV masivas completamente en el chip [cite: 15, 16]. Esto evita que los núcleos de procesamiento queden inactivos mientras esperan que se recuperen los historiales de tokens de niveles de memoria más lentos, lo que permite que los bucles de razonamiento de alta simultaneidad operen con una fluidez sin precedentes [cite: 5, 15].

El motor de aceleración de colectivos (CAE)

Dado que la TPU 8i se enfoca en la inferencia, la unidad SparseCore que se utiliza en la 7x y la 8t para las búsquedas de incorporación se consideró un uso ineficiente del espacio de silicio para esta carga de trabajo específica. En su lugar, los ingenieros de Google introdujeron un bloque de hardware propietario conocido como Collectives Acceleration Engine (CAE) [cite: 10, 15].

Durante la decodificación autorregresiva y el procesamiento de "cadena de pensamiento", los núcleos dispares deben pausar con frecuencia sus cálculos individuales para agregar, reducir y sincronizar sus resultados matemáticos en todo el chip [cite: 6, 15]. Estas operaciones de sincronización global pueden generar cuellos de botella graves en la latencia, en especial cuando miles de agentes independientes abordan un problema de forma simultánea.

En cada chip TPU 8i, hay dos TensorCores en los chips centrales, junto con un CAE ubicado en el chiplet (que reemplaza los cuatro SparseCores que se encuentran en la TPU 7x) [cite: 6, 15]. El CAE especializado está diseñado para agregar resultados en los núcleos con una latencia casi nula, lo que genera una extraordinaria reducción de 5 veces en la latencia colectiva en el chip en comparación con la generación de TPU 7x [cite: 10, 15]. Al acelerar por hardware los pasos de reducción que dominan los Agentic Workflows, el CAE garantiza que el sistema mantenga una alta capacidad de procesamiento sin sacrificar la capacidad de respuesta en tiempo real [cite: 6, 15].

Aplanamiento de la red: la topología de Boardfly

Una característica definitoria de la TPU 8i es su abandono completo de la topología de toroide 3D. Si bien un toroide 3D es excepcional para el paso de datos de vecino a vecino que se requiere en el entrenamiento previo, crea distancias físicas inaceptablemente largas (medidas en saltos de red) para el enrutamiento de tokens de todos a todos que requieren los modelos de inferencia de MoE [cite: 2, 15]. En las arquitecturas de MoE, es posible que cualquier token determinado deba enrutarse a una capa de "expertos" específica ubicada en un chip completamente diferente dentro del pod. En un toro tradicional, este paquete de datos debe viajar de forma secuencial a través de los chips intermedios para llegar a su destino.

Para resolver este problema, Google diseñó una nueva arquitectura de redes optimizada para la entrega llamada Boardfly [cite: 15, 31]. Inspirada en los principios de la topología Dragonfly, Boardfly es una red jerárquica de alta base diseñada para aplanar violentamente la arquitectura y minimizar la distancia física entre dos chips [cite: 2, 15, 26].

La topología de Boardfly se crea de forma jerárquica: 1. El componente básico: Cuatro chips TPU 8i completamente conectados forman un componente básico fundamental con vínculos ICI internos [cite: 6, 16]. 2. La placa: Ocho bloques de compilación están completamente conectados a través de cables de cobre directos para formar una sola placa [cite: 6, 16]. 3. El pod: Luego, los 36 grupos se interconectan por completo a través de conmutadores de circuitos ópticos y vínculos ópticos directos de larga distancia para formar un pod unificado de 1,152 chips [cite: 5, 6, 16, 32].

La ventaja de latencia de este enfoque es significativa. En una configuración estándar de toroide 3D de 1,024 chips, es posible que un paquete de datos deba atravesar un diámetro de red máximo de 16 saltos [cite: 15, 25]. En la topología de Boardfly, este diámetro máximo de la red se reduce a solo 7 saltos [cite: 15, 25].

Esta reducción del 56% en el diámetro de la red se traduce en una mejora masiva del 50% en la latencia de cola para las cargas de trabajo de inferencia que requieren mucha comunicación [cite: 16, 25, 30]. En última instancia, la inferencia está limitada por la velocidad de su nodo más lento. Al reducir la latencia de cola, la topología de Boardfly garantiza que la CAE nunca quede inactiva mientras espera que los datos de tokens atraviesen el pod [cite: 6, 15].

Además, debido a esta interconexión óptica altamente cohesiva, un solo pod de TPU 8i de 1,152 chips funciona como un dominio de memoria compartida masivo y unificado de 331.8 TB de HBM coherente [cite: 16].

Rendimiento comparativo, economía e infraestructura del sistema

La bifurcación arquitectónica ofrece mejoras significativas tanto en la economía computacional como en la eficiencia energética. Evaluar el hardware solo en función de las operaciones de punto flotante teóricas máximas ignora las realidades sistémicas de las operaciones del centro de datos y la habilitación del software.

Abstracción de software y compatibilidad con frameworks

A pesar de las bases de hardware divergentes, Google invirtió mucho en mantener una pila de software de IA unificada y centrada en el rendimiento para evitar el bloqueo del framework. Tanto la TPU 8t como la 8i ofrecen compatibilidad nativa con JAX, Keras, MaxText, SGLang y el motor vLLM [cite: 5, 8, 14, 17]. Además, la compatibilidad nativa con PyTorch (a través de TorchTPU) permite a los desarrolladores portar modelos existentes de PyTorch directamente al entorno de TPU con compatibilidad total para funciones nativas, como el modo inmediato [cite: 15, 17].

Tras bambalinas, el compilador de Accelerated Linear Algebra (XLA) controla la compleja traducción de la topología de Boardfly y la sincronización de CAE, lo que permite a los desarrolladores escribir kernels personalizados compatibles con el hardware en Python (con Pallas y Mosaic) sin necesidad de programar manualmente las interconexiones ópticas [cita: 15].

Métricas de rendimiento cuantitativas

En la siguiente tabla, se resumen las especificaciones técnicas principales de las arquitecturas unificadas de TPU 7x y las altamente especializadas de TPU 8t y 8i [cite: 3, 15, 24].

Matriz de especificaciones TPU 7x TPU 8t TPU 8i
Carga de trabajo principal Unificado (entrenamiento e inferencia) Entrenamiento previo a gran escala Inferencia sensible a la latencia
Socio de diseño de ASIC Broadcom Broadcom MediaTek
Topología de red Toro 3D Toro 3D + Virgo Scale-Out Boardfly (inspirado en la libélula)
Hardware especializado SparseCore SparseCore Motor de aceleración de colectivos (CAE)
Enfoque de precisión nativo FP8 FP4 FP4 (con compatibilidad con FP8/INT8)
Procesamiento máximo por chip 4.6 PFLOPS (FP8) 12.6 PFLOPS (FP4) 10.1 PFLOPS (FP4)
Capacidad de HBM por chip 192 GB 216 GB 288 GB
Ancho de banda de HBM 7.37 TB/s 6.52 TB/s 8.60 TB/s
SRAM en el chip (VMEM) 128 MB 128 MB 384 MB
Ancho de banda entre chips (escalamiento vertical) 9.6 Tb/s 19.2 Tb/s 19.2 Tb/s
Tamaño máximo del grupo de anuncios o supergrupo de anuncios 9,216 chips 9,600 chips 1,152 chips

Optimización del rendimiento y el TCO

Google afirma que la octava generación ofrece mejoras sorprendentes en el costo total de propiedad (TCO). La TPU 8t ofrece una ganancia del 170% al 180% (lo que equivale a una mejora de 2.7 a 2.8 veces) en el rendimiento por dólar para el entrenamiento a gran escala en comparación con la TPU 7x [cite: 6, 15, 30]. Mientras tanto, la TPU 8i ofrece una mejora del 80% en el rendimiento por dólar para la inferencia, específicamente en los objetivos de baja latencia requeridos para los modelos MoE masivos [cite: 15, 16, 30].

Estas ganancias económicas no solo se deben al silicio, sino también a la integración sistémica de pila completa. Históricamente, las TPU se combinaban con CPU host x86 listas para usar. En situaciones que involucraban un preprocesamiento de datos intenso o una lógica de agente compleja, la CPU host x86 a menudo generaba un cuello de botella en el sistema, lo que dejaba el silicio de la TPU hiperrápida listo para funcionar, pero con falta de datos [cite: 6, 7].

La octava generación corrige este desequilibrio crónico, ya que aloja los modelos 8t y 8i exclusivamente en los procesadores Axion personalizados basados en ARM de Google [cite: 6, 7, 15]. Los hosts de Axion, creados sobre la arquitectura de núcleo Neoverse N3 Armv9.2, proporcionan una base unificada y altamente optimizada [cite: 18, 19]. En el caso de la TPU 8i, que requiere mucha inferencia, Google integró los hosts Axion con una proporción de 2:1 de TPU a CPU, lo que duplicó los hosts de CPU físicos por servidor en comparación con la TPU 7x [cite: 5, 6, 32]. El sistema, que utiliza una arquitectura de acceso a memoria no uniforme (NUMA) estricta para el aislamiento de cargas de trabajo, garantiza una localidad de memoria superior y elimina por completo el cuello de botella de la preparación de datos [cite: 5, 7].

Eficiencia energética y sus implicaciones en el mercado

La densidad de energía y la disponibilidad de energía se están convirtiendo rápidamente en las principales limitaciones vinculantes en la implementación de centros de datos modernos. Gracias al uso de la refrigeración líquida de cuarta generación y la administración de energía integrada en tiempo real que ajusta de forma dinámica el consumo de energía según las fases específicas de la carga de trabajo (p.ej., el procesamiento activo en comparación con el tiempo de inactividad para la comunicación), tanto la TPU 8t como la 8i logran eficiencias energéticas sorprendentes [cite: 7, 15, 22, 24]. La 8t cuenta con un aumento del 124% en el rendimiento por vatio, mientras que la 8i ofrece un aumento del 117%, lo que resulta en una mejora general del doble (más del 100%) en la eficiencia energética en comparación con la TPU 7x [cite: 15, 22, 30].

Las implicaciones de esta eficiencia son evidentes en los modelos de vanguardia de Google. Las comparativas de la versión preliminar de Gemini 3.1 Pro indican que implementar el modelo en la arquitectura de TPU 8i genera una reducción de aproximadamente el 50% en el costo de las APIs de inferencia, además de una capacidad de respuesta y de procesamiento de contexto extenso muy mejoradas [cite: 24, 30].

El panorama competitivo: Google vs. chips de comercios

La decisión de Google de bifurcar su estrategia de silicio tiene profundas implicaciones para el ecosistema de hardware de inteligencia artificial más amplio, en particular en su competencia en curso con proveedores de silicio comerciales como Nvidia y, en menor medida, AMD y AWS (con su plataforma Trainium3) [cite: 17, 23].

Históricamente, Nvidia ha mantenido una estrategia de arquitectura unificada, utilizando plataformas de uso general altamente capaces, como la Blackwell B200 y la Vera Rubin NVL72, para controlar tanto el entrenamiento previo como la inferencia en tiempo real [cite: 2, 9]. Cuando se analizan solo las especificaciones de un solo chip, Nvidia mantiene ciertas ventajas. Por ejemplo, la tecnología NVLink de Nvidia admite anchos de banda de interconexión de un solo dispositivo de 14.4 Tb/s, y las GPUs Rubin individuales ofrecen aproximadamente 50 PFLOP de procesamiento de inferencia NVFP4, una cifra significativamente más alta que los 10.1 PFLOP de la TPU 8i [cite: 2, 9].

Sin embargo, la apuesta arquitectónica de Google se basa en la convicción de que el futuro de la inteligencia artificial está determinado por la eficiencia a escala de clúster, no por las capacidades máximas de un solo chip [cita: 9].

Con la adopción de la topología Boardfly, Google crea un grupo de memoria compartida y completamente coherente en los 1,152 chips de un pod de TPU 8i [cite: 16]. Esto genera una capacidad agregada del pod de 11.6 FP8 ExaFlops y 331.8 TB de HBM coherente y unificada [cite: 6, 16]. Por el contrario, la coherencia a escala de rack de la GPU estándar de Nvidia en la NVL72 alcanza un máximo de 72 GPUs y aproximadamente 20.7 TB de HBM [cite: 2, 16]. Para escalar las GPUs de uso general y que coincidan con una configuración de 1,152 chips, se requiere un puente entre aproximadamente 16 racks separados [cite: 16]. Esta separación física destruye la coherencia real de la memoria y genera graves penalizaciones de latencia que son catastróficas para la inferencia continua y agentiva de contexto largo [cite: 16].

Además, al trasladar el cambio de circuitos óptico (OCS) a una posición inferior en la pila para facilitar la jerarquía de Boardfly, Google está alterando fundamentalmente la cadena de suministro de redes ópticas, lo que genera una gran demanda posterior de transceptores y láseres especializados de proveedores como Lumentum y Coherent [cite: 26].

En última instancia, la filosofía de diseño de Google supone que el verdadero campo de batalla de finales de la década de 2020 no se determinará por la capacidad de procesamiento matemático máximo en un solo chip de silicio, sino por la capacidad de evitar el cuello de botella de la memoria, escalar rápidamente las interconexiones entre sitios y reducir la economía absoluta del costo por token de implementar enjambres de agentes en tiempo real para miles de millones de usuarios [cite: 6, 16, 17].

Conclusión

La trayectoria de las unidades de procesamiento tensorial de Google Cloud, desde el marco unificado de la TPU 7x hasta la dicotomía altamente especializada de la TPU 8t y la TPU 8i, refleja la maduración y la industrialización de las cargas de trabajo de inteligencia artificial. El silicio unificado de uso general, si bien fue fundamental para el auge inicial del aprendizaje profundo, ya no es suficiente para impulsar la economía o el rendimiento necesarios en los márgenes extremos de la era de los agentes.

La TPU 8t representa una búsqueda inquebrantable de la escala. Gracias a la retención de SparseCore, la implementación de la precisión FP4 nativa para duplicar la capacidad de procesamiento de la MXU y las capacidades de escalonamiento de Virgo Network y TPUDirect Storage, se diseñó para transferir y procesar datos en un volumen que antes se consideraba imposible. Neutraliza de manera eficaz las restricciones de ancho de banda de expansión horizontal de los centros de datos modernos, lo que permite que millones de chips operen como un motor de entrenamiento previo único y distribuido a nivel global.

Por el contrario, la TPU 8i es un ejercicio de eliminación de latencia y eficiencia económica. Al abandonar el toroide 3D en favor de la topología jerárquica Boardfly, triplicar la SRAM en el chip a 384 MB y presentar el motor de aceleración de colectivos para acelerar la sincronización autorregresiva, la TPU 8i desmantela sistemáticamente el muro de memoria de inferencia. Garantiza que las enormes memorias caché de KV necesarias para el razonamiento complejo de varios pasos del agente puedan permanecer localizadas y accesibles con una latencia casi nula, a la vez que reduce los costos de producción a través de un diseño lógico optimizado.

Juntos, alojados en CPUs Axion basadas en ARM completamente integradas y administrados por conmutación autónoma de circuitos ópticos, la octava generación bifurcada establece un nuevo paradigma en la infraestructura a hiperescala. Sirve como una declaración arquitectónica definitiva de que el futuro de la inteligencia artificial requiere no solo chips más rápidos, sino también marcos de hardware fundamentalmente divergentes diseñados en conjunto con precisión para las distintas cargas de trabajo que están destinados a servir.

Fuentes: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Vínculo 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com