A evolução da inteligência artificial, de modelos de linguagem grandes fundamentais a sistemas de agentes complexos e de várias etapas, desencadeou uma mudança de paradigma fundamental no design de semicondutores. Por quase uma década, a lógica predominante na arquitetura de aceleradores de inteligência artificial foi a unificação. Os designers de silício se esforçaram para projetar arquiteturas singulares e monolíticas capazes de executar simultaneamente as cargas de trabalho massivas e com alta taxa de transferência do pré-treinamento de modelos, além das demandas sensíveis à latência da inferência de produção [cite: 1, 2]. Essa abordagem unificada dominou o setor desde a criação dos primeiros aceleradores de hardware até a implantação da Unidade de processamento de tensor do Cloud (TPU) de sétima geração do Google Cloud [cite: 2, 3, 4].
No entanto, à medida que os modelos de ponta são dimensionados para trilhões de parâmetros e as arquiteturas de raciocínio em tempo real, como a combinação de especialistas (MoE, na sigla em inglês) e os loops de feedback agêntico contínuos, se tornam o padrão, os requisitos de hardware para treinamento e veiculação divergem irrevogavelmente [cite: 5, 6, 7]. O pré-treinamento se consolidou como um problema de otimização de largura de banda e capacidade de processamento, exigindo recursos de escalonamento vertical impressionantes, largura de banda bisseccional de interconexão massiva e saturação contínua de matemática de matrizes [cite: 6]. Por outro lado, a veiculação com agentes surgiu como um problema de latência e memória, limitado pela velocidade com que os pesos e os caches de chave-valor (KV) podem ser transmitidos para núcleos de processamento sem gargalos nas operações de sincronização global [cite: 6, 8].
Reconhecendo que forçar as duas cargas de trabalho em silício idêntico resulta em ineficiências sistêmicas e retornos econômicos decrescentes, o Google tomou a decisão arquitetônica sem precedentes de bifurcar sua linha de TPUs de oitava geração [cite: 1, 6, 9]. O resultado são dois chips distintos e altamente especializados projetados até o nível da cadeia de suprimentos: a TPU 8t, projetada para imensa capacidade de treinamento em escala de supercomputador, e a TPU 8i, projetada para romper a barreira de memória de inferência e minimizar a latência coletiva para o raciocínio global [cite: 7, 9].
Este relatório de pesquisa abrangente analisa as diferenças arquitetônicas, de desempenho e de escalonamento entre o plano unificado da TPU 7x e as novas TPUs 8t e 8i. Por meio de um exame exaustivo de projeto lógico, hierarquias de memória de vários níveis, topologias de interconexão de data center, comutação de circuito óptico e codeprojeto de hardware e software, essa análise explica como o silício especializado é necessário para sustentar o escalonamento econômico e computacional da próxima geração de inteligência artificial.
Contexto histórico: a trajetória rumo à especialização
Para entender totalmente as mudanças arquitetônicas da oitava geração, é essencial acompanhar a evolução iterativa da família de TPUs. O desenvolvimento de hardware do Google sempre refletiu os gargalos predominantes dos modelos de machine learning contemporâneos, passando de uma simples aceleração de inferência para estruturas de treinamento em grande escala de cluster [cite: 10, 11].
Da inferência a matrizes massivas
O Google lançou a TPU v1 em 2015 como um acelerador somente de inferência projetado para lidar com a crescente carga computacional de serviços internos, como a Pesquisa, o Tradutor e as recomendações do YouTube [citação: 11, 12]. A v1 usava matemática de números inteiros de 8 bits para alcançar melhorias de ordem de magnitude em operações por watt em comparação com unidades centrais de processamento (CPUs) e unidades de processamento gráfico (GPUs) de uso geral [citação: 10, 11]. Em 2017, a TPU v2 marcou a transição para recursos de treinamento, introduzindo o formato bfloat16 (BF16), um formato de ponto flutuante de 16 bits que manteve o intervalo dinâmico de pontos flutuantes de 32 bits, reduzindo o consumo de memória pela metade [citação: 10].
As gerações v3 a v5 otimizaram o mecanismo de computação principal, a unidade de multiplicação de matrizes (MXU). Por várias gerações, a MXU permaneceu uma matriz sistólica de 128x128,capaz de 16.384 operações de multiplicação e acumulação simultaneamente [citação: 4, 10]. A TPU v4 introduziu o "SparseCore", um bloco de hardware dedicado projetado especificamente para acelerar as pesquisas de embedding e os acessos irregulares à memória, evitando assim que a MXU fique paralisada durante o treinamento de modelo de recomendação [citação: 4, 6].
A evolução topográfica e o Trillium (v6e)
À medida que os tamanhos dos modelos aumentavam, as topologias de interconexão necessárias para sincronizar gradientes em milhares de chips evoluíram. O Google implantou uma topologia de torus 2D para pods menores e econômicos (como v5e e v6e), o que simplificou o escalonamento para até 256 chips [cite: 4, 10]. Para variantes otimizadas para desempenho (como v4 e v5p), o Google usou uma topologia de toro 3D, que conectava chips em uma grade tridimensional para reduzir a latência de comunicação em tamanhos de pod maiores, variando de 4.096 a 8.960 chips [cite: 4].
O precursor imediato da era moderna foi a TPU v6e (Trillium), lançada no final de 2024. O Trillium representou um grande salto arquitetônico ao expandir a MXU de uma matriz de 128x128 para uma de 256x256 [cite: 10]. Isso quadruplicou as operações de multiplicação e acumulação por ciclo. Combinado com uma largura de banda de interconexão entre chips (ICI) dobrada de 3.200 Gbps (13 TB/s bidirecional agregado) e 32 GB de memória de alta largura de banda (HBM) por chip, o Trillium ofereceu 4,7 vezes a computação de pico do seu antecessor, operando com 67% mais eficiência energética [cite: 10, 11].
| Geração de TPU | Ano de lançamento | Inovação principal | Topologia e tamanho máximo do pod | Arquitetura da MXU | Pico de computação por chip |
|---|---|---|---|---|---|
| TPU v2 | 2017 | Primeiro treinamento possível (BF16) | Toro 2D (512 chips) | 128x128 | ~45 TFLOPS |
| TPU v4 | 2021 | Introdução ao SparseCore | Toro 3D (4.096 chips) | 128x128 | 275 TFLOPS |
| TPU v5e | 2023 | Eficiência com otimização de custos | Toro 2D (256 chips) | 128x128 | 197 TFLOPS |
| TPU v5p | 2023 | Aumento de performance | Toro 3D (8.960 chips) | 128x128 | 459 TFLOPS |
| TPU v6e (Trillium) | 2024 | Expansão de MXU 256x256 | Toro 2D (256 chips) | 256x256 | 918 TFLOPS |
O ápice da arquitetura unificada: TPU 7x
Lançada para disponibilidade geral no final de 2025, a TPU de sétima geração 7x representa o auge absoluto da estratégia de arquitetura unificada do Google. Projetada para executar pré-treinamento em escala de fronteira e inferência pesada de decodificação em uma única estrutura arquitetônica, a TPU 7x forçou os limites do que um acelerador de dupla finalidade poderia alcançar [cite: 3, 10].
Design de chiplet duplo e otimização do AlphaChip
A construção física da TPU 7x marcou uma mudança drástica da arquitetura de núcleo lógico único (MegaCore) encontrada nas v4 e v5p [cite: 3]. A TPU 7x usa uma arquitetura de dois chiplets. Cada chip TPU 7x completo é composto por dois chiplets distintos e independentes conectados por uma interface proprietária de alta velocidade die-to-die (D2D) [cite: 3]. Essa conexão D2D opera seis vezes mais rápido que um link ICI unidimensional padrão, permitindo que os chiplets se comuniquem rapidamente enquanto mantêm seus próprios espaços de memória dedicados [cite: 3].
No chip unificado completo, a TPU 7x abriga dois TensorCores e quatro SparseCores [cite: 3]. O layout físico desses núcleos na matriz de silício foi otimizado usando o AlphaChip, a ferramenta proprietária de aprendizado por reforço do Google, para minimizar o comprimento do fio e maximizar a eficiência térmica [cite: 10]. Uma configuração padrão de máquina virtual (VM) para TPU 7x conecta quatro chips a um host de CPU, expondo 224 vCPUs e 960 GB de RAM [cite: 3].
Hierarquia de memória em vários níveis e formatação de precisão
Um gargalo crítico no processamento de modelos densos e MoE é o movimento contínuo de dados entre níveis de armazenamento. A TPU 7x apresenta um sistema de memória robusto de vários níveis projetado para manter as MXUs expandidas saturadas: * Memória de alta largura de banda (HBM3E): cada chip da TPU 7x está equipado com 192 GB de HBM, oferecendo uma largura de banda de memória enorme de 7,37 TB/s (7.380 GBps) [cite: 3, 10]. Esse aumento de capacidade seis vezes maior em relação ao Trillium permite tamanhos de lote significativamente maiores durante o treinamento e possibilita que caches KV maiores sejam mantidos no chip durante a inferência, evitando picos de latência caros associados ao descarregamento para uma memória host mais lenta [cite: 4, 10, 13]. * Memória de vetor (VMEM): servindo como um bloco de notas SRAM ultrarrápido no chip, cada TensorCore tem 64 MiB de VMEM (128 MB no total por chip). A VMEM tem uma largura de banda significativamente maior para a MXU do que a HBM [cite: 3, 14]. Com o ajuste de VMEM no escopo, os desenvolvedores podem realocar a memória entre o escopo computacional atual e a pré-busca de peso futura, permitindo tamanhos de bloco de kernel maiores (como os usados na atenção rápida) e reduzindo as interrupções de memória [cite: 13, 14]. * Memória host (PCIe): conectada por uma rede PCIe, a memória host do sistema é usada para descarregar estados e ativações do otimizador, gerenciando a pressão da memória para modelos que excedem a capacidade da HBM [cite: 3, 14].
Além disso, a TPU v7 introduziu aceleração de hardware nativa para precisão de usar pontos flutuantes de 8 bits (FP8) [cite: 4, 13]. Ao migrar dos formatos padrão de 16 bits (BF16 ou FP16), a representação FP8 dobra efetivamente a capacidade de processamento computacional máxima e reduz pela metade o consumo de memória necessário para armazenar pesos e ativações [cite: 4, 13]. Operando nativamente em FP8, um único chip TPU 7x oferece um pico de computação de 4.614 TFLOPS, em comparação com 2.307 TFLOPS quando opera em BF16 [cite: 3, 4].
Topologia de toro 3D e escala de superpod
No nível do data center, a TPU 7x usa a comprovada topologia de interconexão toroidal 3D do Google [cite: 3]. Essa arquitetura conecta cada chip diretamente aos vizinhos mais próximos nos eixos X, Y e Z, resultando em uma malha tridimensional resiliente [cite: 3]. A comunicação nessa malha é facilitada por uma largura de banda de ICI de 1,2 TB/s (1.200 GBps) por chip, fornecendo comunicação bidirecional a 200 GBps por eixo [cite: 3].
Um superpod TPU 7x totalmente realizado é escalonado para 9.216 chips com resfriamento líquido. Nessa configuração, o pod oferece um total de 42,5 exaflops de capacidade de computação FP8 [cite: 8, 10]. As fatias maiores que 64 chips são construídas usando "cubos" modulares de chips de 4x4x4, permitindo topologias altamente flexíveis que variam de configurações de host único a ambientes multi-host massivos [cite: 3].
Apesar das suas capacidades incríveis, a natureza unificada da TPU 7x significava que ela tinha compromissos inerentes. Embora a topologia de toro 3D seja altamente eficiente para a sincronização de gradiente localizada e previsível necessária no pré-treinamento, ela resulta em um alto diâmetro de rede. Por exemplo, um pod de 1.024 chips em um toro 3D tem um diâmetro máximo de rede de 16 saltos [cite: 15, 16]. Em um cenário de inferência de MoE, em que os tokens precisam ser encaminhados rapidamente para camadas de especialistas localizadas em qualquer lugar dentro do pod, essa distância de 16 saltos introduz latências de cauda inaceitáveis de todos para todos [cite: 6, 15, 16]. Além disso, dedicar uma área de silício valiosa aos SparseCores, que são excelentes em pesquisas de embedding, prejudicou o espaço que poderia ser usado para mecanismos de redução coletiva, essenciais para fluxos de trabalho de linha de raciocínio com agentes [cite: 6, 15]. O setor atingiu os limites físicos do acelerador "único para todos".
The Strategic Bifurcation: Economic and Architectural Drivers
A transição da sétima para a oitava geração de TPUs representa a mudança arquitetônica mais importante na história do silício do Google [cite: 9]. Anunciada no Google Cloud Next 2026, a bifurcação da linha de TPUs em duas famílias de produtos distintas (TPU 8t para treinamento e TPU 8i para inferência) reconhece que as cargas de trabalho que impulsionam a próxima década da inteligência artificial são fundamentalmente irreconciliáveis no nível do hardware [cite: 1, 2, 17].
A origem dessa divisão está nas diferentes economias e intensidades operacionais do desenvolvimento de IA. Treinar um modelo de fronteira é uma despesa operacional única e altamente intensiva em capital, medida em computação contínua ao longo de semanas ou meses [cite: 9]. Ele exige densidade máxima de computação, largura de banda de interconexão de escalonamento vertical sem precedentes e domínios de memória unificada de vários petabytes capazes de ingerir conjuntos de dados multimodais na taxa de linha [cite: 9].
A inferência, por outro lado, é um custo operacional contínuo que aumenta linearmente (ou exponencialmente) com a demanda do usuário [cite: 9]. Na "Era Agêntica" emergente, um modelo de IA não apenas prevê o próximo token para gerar um bloco de texto. Ele raciocina ativamente, simula cenários futuros, itera por "imaginação", chama APIs externas e interage com enxames de outros agentes especializados em loops de feedback contínuos [cite: 5, 7, 15]. Essa dinâmica exige grandes quantidades de memória para armazenar janelas de contexto ativas e latência de rede extremamente baixa para roteamento de especialistas e sincronização global [cite: 15, 16].
Ao dividir a linha de produtos, o Google otimizou o hardware na cadeia de suprimentos. A TPU 8t foi projetada em parceria com a Broadcom, uma colaboração que começou em 2015 [cite: 9, 17, 18]. A experiência da Broadcom em interconexões SerDes complexas e de alta velocidade, embalagens avançadas e redes de grande escala a tornaram o parceiro ideal para ultrapassar os limites físicos da estrutura de treinamento [cite: 17, 19].
Para o chip de inferência, o Google rompeu com a tradição e fez uma parceria com a MediaTek para projetar a TPU 8i [cite: 9, 17, 18]. Com base na vasta experiência da MediaTek em design de SoC móvel de alto volume e eficiência energética, o Google criou um acelerador de inferência altamente otimizado em termos de custo [cite: 17, 19]. A TPU 8i usa um design mais simples (um chip de computação em vez de dois da 8t), que é 20% a 30% mais barato de produzir do que as variantes tradicionais de alto desempenho. Isso permite que o Google dimensione a capacidade de serviço global de forma econômica para atender às demandas de aplicativos empresariais e de consumo [cite: 9, 17]. Os dois chips são fabricados no nó de processo avançado de 2 nanômetros da TSMC, incorporando embalagens avançadas CoWoS de ponta para integrar os chips lógicos com pilhas HBM imponentes [cite: 9, 19].
A validação de mercado para essa estratégia bifurcada foi imediata. A Anthropic, uma das principais organizações de pesquisa de IA, ampliou o contrato de vários bilhões de dólares com o Google Cloud, comprometendo-se com 3,5 gigawatts de capacidade de computação até 2027, sendo o principal cliente das plataformas TPU 7x e de oitava geração [citações: 9, 10, 20].
Análise detalhada: TPU 8t (a potência do pré-treinamento)
A TPU 8t é uma conquista de engenharia que visa reduzir o ciclo de desenvolvimento de modelos de fronteira de trilhões de parâmetros de meses para semanas [citação: 5, 21]. Isso é possível não apenas aumentando as velocidades de clock brutas, mas reestruturando a precisão das operações matemáticas, expandindo muito a largura de banda entre chips e mitigando os gargalos de ingestão de dados que prejudicam clusters de treinamento massivo [citação: 6, 15].
Arquitetura de computação de dois chips e FP4 nativo
Fisicamente, a TPU 8t usa uma arquitetura altamente complexa que inclui dois dies de computação e um chiplet de E/S, ladeados por oito stacks de memória HBM3E de 12 alturas [cite: 9]. Essa embalagem densa exige um gerenciamento térmico avançado, que depende do resfriamento líquido de quarta geração do Google para dissipar o calor imenso gerado por operações de matriz sustentadas [cite: 7, 17, 22].
Uma evolução fundamental na TPU 8t é a introdução da precisão nativa de ponto flutuante de 4 bits (FP4) [cite: 6, 15]. As demandas matemáticas do pré-treinamento favorecem muito mais a capacidade de processamento do que a precisão numérica extrema. Ao reduzir a execução nativa de FP8 para FP4, a TPU 8t dobra a capacidade de processamento da MXU e reduz pela metade o número de bits que precisam ser movidos fisicamente pelo chip por parâmetro [cite: 6, 15]. Essa redução drástica na movimentação de dados minimiza as buscas de memória que consomem muita energia e permite que camadas de modelos maiores se encaixem confortavelmente em buffers de hardware localizados [cite: 6, 15].
Para garantir que o chip permaneça saturado, a TPU 8t implementa um escalonamento mais equilibrado da unidade de processamento vetorial (VPU). Isso permite que o silício sobreponha tarefas sequenciais essenciais, como quantização, softmax e layernorms, com as multiplicações de matrizes pesadas que ocorrem na MXU, eliminando virtualmente o tempo não matricial exposto em que os núcleos de computação ficariam ociosos [cite: 6, 15]. Como resultado dessas otimizações arquitetônicas, um único chip TPU 8t oferece incríveis 12,6 PFLOPs de capacidade de computação FP4 [cite: 15, 23].
Além disso, ao contrário da TPU 8i, que é focada em inferência, a TPU 8t retém os blocos especializados SparseCore introduzidos em gerações anteriores [cite: 1, 6, 15]. Cargas de trabalho pesadas de incorporação, comuns em modelos de fundação multimodais e sistemas de recomendação, exibem padrões irregulares de acesso à memória que prejudicam as GPUs tradicionais. A SparseCore opera de forma assíncrona, descarregando operações de coleta total dependentes de dados e pesquisas de incorporação [cite: 6, 15]. Ao separar a matemática de matriz densa para a MXU e as operações esparsas para a SparseCore, a TPU 8t evita os gargalos de "operação zero" que causam interrupções computacionais [cite: 6, 15].
Largura de banda, ingestão de armazenamento e TPUDirect
Para alimentar as MXUs extremamente aceleradas que operam em FP4, a TPU 8t exige largura de banda local e agregada extrema. Cada chip tem 216 GB de HBM3e, operando a 6.528 GB/s [cite: 15, 24]. No entanto, na escala dos modelos de fronteira, a restrição do sistema geralmente muda da velocidade de processamento do silício para a velocidade com que o data center pode ingerir petabytes de dados de treinamento do armazenamento de acesso raro.
Para evitar o gargalo tradicional do caminho de dados, o Google integrou o TPUDirect RDMA e o TPUDirect Storage [cite: 5, 6, 10]. Esses protocolos permitem o acesso direto à memória (DMA) entre a memória de alta largura de banda da TPU e matrizes de armazenamento de rede gerenciadas, como o Google Cloud Managed Lustre 10T [cite: 6, 15]. Ao rotear os dados diretamente do sistema de arquivos paralelos do Lustre para a TPU usando a placa de interface de rede (NIC), o TPUDirect ignora completamente a CPU do host e a DRAM do host [cite: 6]. Esse caminho de dados especializado oferece uma aceleração de 10 vezes nas velocidades de acesso ao armazenamento em comparação com o treinamento na geração 7x da TPU, garantindo que as unidades de computação 8t da TPU possam ingerir conjuntos de dados multimodais na taxa de linha sem passar por privação [cite: 5, 6, 15].
Infraestrutura de grande escala: a rede Virgo
O feito arquitetônico mais impressionante do ecossistema da TPU 8t é a capacidade de rede, que muda a restrição do sistema firmemente da computação localizada para a largura de banda em escala de data center [cite: 25, 26].
Embora a TPU 8t mantenha a interconexão de torus 3D fundamental para comunicação localizada do pod, escalonando até 9.600 chips e 2 petabytes sem precedentes de HBM compartilhado em um único superpod, a estrutura de escalonamento horizontal foi totalmente redesenhada [cite: 5, 6, 15]. O superpod atinge um total de 121 ExaFlops de computação FP4, representando um aumento de 2,8 vezes em relação aos 42,5 ExaFlops da TPU 7x [cite: 6]. Para oferecer suporte a isso, a largura de banda ICI intra-pod foi dobrada para 19,2 Tb/s por chip [cite: 4, 6, 10].
No entanto, para conectar centenas desses superpods, o Google criou a rede Virgo [cite: 1, 6]. A rede antecessora, Jupiter, usava uma topologia de Clos de três camadas que roteava o tráfego por vários níveis de switches, introduzindo latência e gargalos de largura de banda (limitando a 100 Gbps por chip) [cite: 25].
O Virgo é uma estrutura de expansão horizontal criada em switches de alta base (gerenciando de 256 a 512 portas) que emprega uma topologia plana de duas camadas sem bloqueio [cite: 6, 15, 25]. Ao eliminar fisicamente as camadas de rede, o Virgo reduz drasticamente a latência. A rede usa um design multiplanar com domínios de controle independentes, oferecendo um aumento de até 400% (4 vezes) na largura de banda bruta da rede do data center (DCN, na sigla em inglês), passando para 400 Gbps por chip [cite: 6, 15, 24].
Uma única malha Virgo pode vincular mais de 134.000 chips TPU 8t em um único data center, oferecendo uma largura de banda bisseccional não bloqueadora incompreensível de 47 petabits por segundo [citação: 1, 6, 15]. Além disso, integrada ao software Pathways do Google e à estrutura JAX, a TPU 8t permite que clusters de treinamento distribuídos sejam escalonados para mais de um milhão de chips em vários sites geográficos como um único job de treinamento lógico [citação: 1, 6, 15]. Essa conquista transforma a infraestrutura distribuída globalmente em um supercomputador único e integrado, superando drasticamente as limitações atuais de escalonamento de GPUs de uso geral [citação: 27].
Reconfiguração autônoma e 97% de goodput
Na escala de centenas de milhares de chips, as falhas de hardware, de transceptores queimados a limitação térmica, são certezas estatísticas, e não casos extremos. Em sistemas legados, uma única interrupção na rede pode interromper uma execução de treinamento enorme, exigindo um rollback trabalhoso e caro para um ponto de verificação anterior. Na escala de fronteira, cada ponto percentual de eficiência perdida se traduz em dias de tempo de treinamento ativo [cite: 5, 6].
O ecossistema da TPU 8t tem como meta mais de 97% de "goodput", uma métrica que define a proporção entre o tempo de computação útil e produtivo e o tempo total de atividade [citação: 6, 28]. Isso é alcançado com recursos avançados de confiabilidade, disponibilidade e capacidade de manutenção (RAS, na sigla em inglês) ancorados na comutação de circuito óptico (OCS, na sigla em inglês) [citação: 5, 6, 25]. Com a telemetria em tempo real que analisa dezenas de milhares de chips, o sistema pode detectar de forma autônoma links de interconexão com falha entre chips. A OCS redireciona fisicamente os caminhos de luz óptica para evitar falhas de hardware em tempo real, sem exigir intervenção humana e, principalmente, sem interromper o trabalho de treinamento ativo [citação: 5, 6, 28].
Análise detalhada: TPU 8i (o mecanismo de inferência)
Se a TPU 8t é um exercício de escalonamento extremo e de força bruta, a TPU 8i é uma masterclass em otimização de latência e arquitetura de memória [cite: 6]. À medida que os modelos passam para a produção em tempo real, principalmente modelos de Mix de Especialistas (MoE) e enxames com agentes massivos, a capacidade de processamento bruta se torna menos relevante do que a velocidade com que a memória pode ser acessada e roteada pela rede [cite: 21, 29].
Quebrando a barreira da memória de inferência
Na geração autorregressiva, um modelo gera tokens de saída sequencialmente. Com cada novo token gerado, o modelo precisa fazer referência a um histórico crescente de todos os tokens anteriores e suas relações matemáticas, conhecido como cache de chave-valor (KV, na sigla em inglês) [cite: 1, 13]. Para modelos de contexto longo que analisam centenas de milhares de tokens, esse cache KV aumenta de tamanho. Se o cache exceder a capacidade da memória rápida integrada do chip e transbordar para a memória mais lenta da CPU do host, todo o processo computacional será interrompido, um fenômeno conhecido como "parede de memória" [cite: 5, 8].
A TPU 8i foi criada explicitamente para eliminar essa barreira. Embora seja um design de silício mais simples e econômico, usando um único bloco de computação e um bloco de E/S com seis stacks de HBM3e, as capacidades de memória são altamente otimizadas para veiculação [cite: 9]. * Capacidade e largura de banda de HBM:cada TPU 8i está equipada com 288 GB de HBM3E, o que representa um aumento de 50% na capacidade em relação à TPU 7x [cite: 5, 24, 30]. Mais importante ainda, como os modelos grandes de MoE são limitados pela largura de banda da memória durante a inferência, a largura de banda da memória é aumentada para 8,6 TB/s (~8.601 GB/s), aproximadamente 1,3 vez mais rápido que a TPU 8t focada em treinamento [cite: 10, 15]. * SRAM on-chip massiva:a mudança de hardware mais importante é a inclusão de 384 MB de memória estática de acesso aleatório (SRAM) on-chip por chip [cite: 10, 15, 30]. Isso representa um aumento massivo de 300% (3x) em relação à TPU 7x e à TPU 8t [cite: 10, 15, 30]. A SRAM é a memória mais rápida e de menor latência disponível diretamente na matriz de silício. Ao triplicar essa capacidade, a TPU 8i pode hospedar caches de KV massivos totalmente on-die [cite: 15, 16]. Isso evita que os núcleos de processamento fiquem ociosos enquanto aguardam a busca de históricos de tokens em níveis de memória mais lentos, permitindo que loops de raciocínio de alta simultaneidade operem com uma fluidez sem precedentes [cite: 5, 15].
O mecanismo de aceleração de coletivos (CAE)
Como a TPU 8i tem como foco a inferência, a unidade SparseCore usada nas TPUs 7x e 8t para pesquisas de incorporação foi considerada um uso ineficiente de espaço físico de silício para essa carga de trabalho específica. Em vez disso, os engenheiros do Google introduziram um bloco de hardware proprietário conhecido como Collectives Acceleration Engine (CAE) [cite: 10, 15].
Durante a decodificação autorregressiva e o processamento de linha de raciocínio, núcleos diferentes precisam pausar com frequência os cálculos individuais para agregar, reduzir e sincronizar os resultados matemáticos no chip [cite: 6, 15]. Essas operações de sincronização global podem prejudicar muito a latência, especialmente quando milhares de agentes independentes estão resolvendo um problema simultaneamente.
Para cada chip TPU 8i, dois TensorCores ficam nos chips principais, acompanhados de um CAE localizado no chiplet (substituindo os quatro SparseCores encontrados na TPU 7x) [cite: 6, 15]. O CAE especializado foi projetado para agregar resultados em todos os núcleos com latência quase zero, resultando em uma redução extraordinária de 5 vezes na latência coletiva no chip em comparação com a geração TPU 7x [cite: 10, 15]. Ao acelerar por hardware as etapas de redução que dominam os Agentic Workflows, o CAE garante que o sistema mantenha alta capacidade de processamento sem sacrificar a capacidade de resposta em tempo real [cite: 6, 15].
Redução da rede: a topologia do Boardfly
Uma característica definidora da TPU 8i é o abandono completo da topologia de torus 3D. Embora um torus 3D seja excepcional para a transmissão de dados de vizinho para vizinho necessária no pré-treinamento, ele cria distâncias físicas inaceitavelmente longas (medidas em saltos de rede) para o roteamento de tokens de todos para todos exigido pelos modelos de inferência de MoE [cite: 2, 15]. Em arquiteturas MoE, um token específico pode precisar ser encaminhado para uma camada "especialista" localizada em um chip completamente diferente dentro do pod. Em um torus tradicional, esse pacote de dados precisa passar sequencialmente por chips intermediários para chegar ao destino.
Para resolver isso, o Google projetou uma nova arquitetura de rede otimizada para veiculação chamada Boardfly [cite: 15, 31]. Inspirada nos princípios da topologia Dragonfly, a Boardfly é uma rede hierárquica de alta base projetada para reduzir drasticamente a arquitetura e minimizar a distância física entre dois chips [cite: 2, 15, 26].
A topologia do Boardfly é criada de forma hierárquica: 1. O elemento básico:quatro chips de TPU 8i totalmente conectados formam um elemento básico fundamental com links internos de ICI [cite: 6, 16]. 2. A placa:oito blocos de construção estão totalmente conectados por cabeamento de cobre direto para formar uma única placa [cite: 6, 16]. 3. O pod:36 grupos são totalmente interconectados por chaves de circuito óptico e links ópticos diretos de longa distância para formar um pod unificado de 1.152 chips [cite: 5, 6, 16, 32].
A vantagem de latência dessa abordagem é significativa. Em uma configuração padrão de torus 3D de 1.024 chips, um pacote de dados pode precisar atravessar um diâmetro máximo de rede de 16 hops [cite: 15, 25]. Na topologia Boardfly, esse diâmetro máximo da rede é reduzido para apenas sete hops [cite: 15, 25].
Essa redução de 56% no diâmetro da rede se traduz em uma melhoria de 50% na latência de cauda para cargas de trabalho de inferência com uso intenso de comunicação [cite: 16, 25, 30]. A inferência é limitada pela velocidade do nó mais lento. Ao reduzir a latência de cauda, a topologia do Boardfly garante que o CAE nunca fique ocioso enquanto espera que os dados de token atravessem o pod [cite: 6, 15].
Além disso, devido a essa interconexão óptica altamente coesa, um único pod de TPU 8i de 1.152 chips funciona como um domínio de memória compartilhada unificado e massivo de 331,8 TB de HBM coerente [cite: 16].
Desempenho comparativo, economia e infraestrutura de sistema
A bifurcação arquitetônica oferece melhorias significativas na economia computacional e na eficiência energética. Avaliar o hardware apenas com base nas operações de usar pontos flutuantes teóricas máximas ignora as realidades sistêmicas das operações de data center e da ativação de software.
Abstração de software e suporte a frameworks
Apesar das bases de hardware divergentes, o Google investiu muito na manutenção de uma pilha de software de IA unificada e com foco no desempenho para evitar o bloqueio de frameworks. As TPUs 8t e 8i oferecem suporte nativo para JAX, Keras, MaxText, SGLang e o mecanismo vLLM [cite: 5, 8, 14, 17]. Além disso, o suporte nativo do PyTorch (via TorchTPU) permite que os desenvolvedores portem modelos PyTorch atuais diretamente para o ambiente da TPU com suporte total para recursos nativos, como o modo Eager [cite: 15, 17].
Nos bastidores, o compilador de álgebra linear acelerada (XLA) processa a tradução complexa da topologia do Boardfly e a sincronização de CAE, permitindo que os desenvolvedores escrevam kernels personalizados com reconhecimento de hardware em Python (usando Pallas e Mosaic) sem precisar programar manualmente as interconexões ópticas [cite: 15].
Métricas de performance quantitativas
A tabela abaixo resume as principais especificações técnicas das arquiteturas unificadas de TPU 7x e altamente especializadas de TPU 8t e 8i [cite: 3, 15, 24].
| Matriz de especificação | TPU 7x | TPU 8t | TPU 8i |
|---|---|---|---|
| Carga de trabalho principal | Unificado (treinamento e inferência) | Pré-treinamento em grande escala | Inferência sensível à latência |
| Parceiro de design de ASIC | Broadcom | Broadcom | MediaTek |
| Topologia de rede | Toro 3D | Toro 3D + escalonamento horizontal do Virgo | Boardfly (inspirado em libélulas) |
| Hardware especializado | SparseCore | SparseCore | Mecanismo de aceleração de coletivos (CAE) |
| Native Precision Focus | FP8 | FP4 | FP4 (com suporte a FP8/INT8) |
| Pico de computação por chip | 4,6 PFLOPs (FP8) | 12,6 PFLOPs (FP4) | 10,1 PFLOPs (FP4) |
| Capacidade de HBM por chip | 192 GB | 216 GB | 288 GB |
| Largura de banda HBM | 7,37 TB/s | 6,52 TB/s | 8,60 TB/s |
| SRAM no chip (VMEM) | 128 MB | 128 MB | 384 MB |
| BW entre chips (escalonamento vertical) | 9,6 Tb/s | 19,2 Tb/s | 19,2 Tb/s |
| Tamanho máximo do pod/superpod | 9.216 chips | 9.600 chips | 1.152 chips |
Otimização de custo-performance e TCO
O Google afirma ter melhorias impressionantes no custo total de propriedade (TCO) com a oitava geração. A TPU 8t oferece um ganho de 170% a 180%, o que equivale a uma melhoria de 2,7 a 2,8 vezes no desempenho por dólar para treinamento em grande escala em comparação com a TPU 7x [citação: 6, 15, 30]. Enquanto isso, a TPU 8i oferece uma melhoria de 80% no desempenho por dólar para inferência, especificamente nas metas de baixa latência necessárias para modelos MoE massivos [citação: 15, 16, 30].
Esses ganhos econômicos são impulsionados não apenas pelo silício, mas pela integração sistêmica full-stack. Historicamente, as TPUs eram pareadas com CPUs host x86 prontas para uso. Em situações que envolvem pré-processamento intenso de dados ou lógica de agente complexa, o host x86 geralmente causa um gargalo no sistema, deixando o silício da TPU hiper-rápida pronto para ficar ocioso, mas sem dados [cite: 6, 7].
A oitava geração corrige esse desequilíbrio crônico hospedando o 8t e o 8i exclusivamente nos processadores Axion personalizados baseados em ARM do Google [cite: 6, 7, 15]. Criados com base na arquitetura principal Neoverse N3 Armv9.2, os hosts Axion oferecem uma base unificada e altamente otimizada [cite: 18, 19]. Para a TPU 8i, que exige muita inferência, o Google integrou os hosts Axion em uma proporção de 2:1 de TPU para CPU, dobrando os hosts de CPU física por servidor em comparação com a TPU 7x [cite: 5, 6, 32]. Usando uma arquitetura estrita de acesso à memória não uniforme (NUMA, na sigla em inglês) para isolamento de carga de trabalho, o sistema garante uma localidade de memória superior e remove completamente o gargalo de preparação de dados [cite: 5, 7].
Eficiência energética e implicações de mercado
A densidade de energia e a disponibilidade de energia estão se tornando rapidamente as restrições vinculativas finais na implantação de data centers modernos. Com o uso de resfriamento líquido de quarta geração e gerenciamento de energia integrado em tempo real, que ajusta dinamicamente o consumo de energia com base em fases específicas de carga de trabalho (por exemplo, computação ativa x inatividade para comunicação), as TPUs 8t e 8i alcançam eficiências de energia surpreendentes [cite: 7, 15, 22, 24]. O 8t tem um ganho de 124% em desempenho por watt, enquanto o 8i tem um ganho de 117%, resultando em uma melhoria geral de 2x (mais de 100%) na eficiência energética em relação à TPU 7x [cite: 15, 22, 30].
As implicações dessa eficiência são evidentes nos modelos de última geração do Google. Os comparativos de mercado da prévia do Gemini 3.1 Pro indicam que a implantação do modelo na arquitetura TPU 8i resulta em uma redução de custo de aproximadamente 50% para APIs de inferência, além de uma capacidade de resposta muito melhor e recursos de processamento de contexto longo [cite: 24, 30].
O cenário competitivo: Google x silício para comerciantes
A decisão do Google de bifurcar a estratégia de silício tem implicações profundas para o ecossistema de hardware de inteligência artificial, principalmente na concorrência contínua com fornecedores de silício comerciais, como Nvidia e, em menor grau, AMD e AWS (com a plataforma Trainium3) [cite: 17, 23].
Historicamente, a Nvidia mantém uma estratégia de arquitetura unificada, usando plataformas altamente capazes, mas de uso geral, como a Blackwell B200 e a Vera Rubin NVL72, para lidar com pré-treinamento e inferência em tempo real [cite: 2, 9]. Quando analisadas puramente pelas especificações brutas de chip único, a Nvidia mantém algumas vantagens. Por exemplo, a tecnologia NVLink da Nvidia oferece suporte a larguras de banda de interconexão de dispositivo único de 14,4 Tb/s, e as GPUs Rubin individuais oferecem aproximadamente 50 PFLOPs de computação de inferência NVFP4, significativamente maior do que os 10,1 PFLOPs da TPU 8i [cite: 2, 9].
No entanto, a aposta arquitetônica do Google se baseia na convicção de que o futuro da inteligência artificial é determinado pela eficiência em escala de cluster, não pelas capacidades máximas de um único chip [cite: 9].
Ao migrar para a topologia Boardfly, o Google cria um pool de memória compartilhada totalmente coerente em todos os 1.152 chips em um pod de TPU 8i [cite: 16]. Isso resulta em uma capacidade agregada de pod de 11,6 FP8 ExaFlops e 331,8 TB de HBM unificada e coerente [cite: 6, 16]. Por outro lado, a coerência padrão em escala de rack da GPU Nvidia no NVL72 atinge o máximo de 72 GPUs e aproximadamente 20,7 TB de HBM [cite: 2, 16]. Para escalonar GPUs de uso geral e corresponder a uma configuração de 1.152 chips,é necessário fazer uma ponte entre aproximadamente 16 racks separados [cite: 16]. Essa separação física destrói a coerência da memória real e introduz penalidades de latência graves que são catastróficas para a inferência contínua e de contexto longo [cite: 16].
Além disso, ao mover a comutação de circuitos ópticos (OCS) para baixo na pilha para facilitar a hierarquia do Boardfly, o Google está alterando fundamentalmente a cadeia de suprimentos de rede óptica, criando uma demanda downstream enorme por transceptores e lasers especializados de fornecedores como Lumentum e Coherent [cite: 26].
Em última análise, a filosofia de design do Google pressupõe que o verdadeiro campo de batalha do final da década de 2020 não será determinado pelo pico de capacidade de processamento matemático em um único chip de silício, mas sim pela capacidade de contornar a limitação de memória, dimensionar rapidamente as interconexões entre sites e reduzir o custo absoluto por token da implantação de enxames de agentes em tempo real para bilhões de usuários [citações: 6, 16, 17].
Conclusão
A trajetória das Unidades de Processamento de Tensor do Google Cloud, do framework unificado da TPU 7x à dicotomia altamente especializada da TPU 8t e da TPU 8i, reflete o amadurecimento e a industrialização das cargas de trabalho de inteligência artificial. O silício unificado de uso geral, embora fundamental para o boom inicial do aprendizado profundo, não é mais suficiente para impulsionar a economia ou o desempenho exigido nas margens extremas da era agêntica.
A TPU 8t representa uma busca intransigente por escala. Com a retenção do SparseCore, a implementação da precisão FP4 nativa para dobrar a capacidade de processamento da MXU e os recursos surpreendentes da rede Virgo e do armazenamento TPUDirect, ele foi projetado para ingerir e processar dados em um volume antes considerado impossível. Ele neutraliza de forma eficaz as restrições de largura de banda de expansão horizontal dos data centers modernos, permitindo que milhões de chips operem como um único mecanismo de pré-treinamento distribuído globalmente.
Por outro lado, a TPU 8i é um exercício de eliminação de latência e eficiência econômica. Ao abandonar o torus 3D em favor da topologia hierárquica Boardfly, triplicar a SRAM no chip para 384 MB e introduzir o mecanismo de aceleração de coletivos para acelerar a sincronização autorregressiva, a TPU 8i desmonta sistematicamente o limite de memória de inferência. Isso garante que os caches KV massivos necessários para o raciocínio complexo e de várias etapas do agente permaneçam localizados e acessíveis com latência quase zero, tudo isso reduzindo os custos de produção com um design de lógica simplificado.
Hospedada em CPUs Axion baseadas em ARM totalmente integradas e gerenciada por comutação de circuito óptico autônoma, a oitava geração bifurcada estabelece um novo paradigma na infraestrutura de hiperescala. Ela serve como uma declaração arquitetônica definitiva de que o futuro da inteligência artificial exige não apenas chips mais rápidos, mas também estruturas de hardware fundamentalmente divergentes projetadas com precisão para as diferentes cargas de trabalho que elas vão atender.
Fontes:1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com