Rozwój sztucznej inteligencji od podstawowych dużych modeli językowych po złożone, wieloetapowe systemy agentowe spowodował fundamentalną zmianę paradygmatu w projektowaniu półprzewodników. Przez prawie dekadę dominującą logiką w architekturze akceleratorów sztucznej inteligencji była unifikacja. Projektanci krzemu starali się opracowywać pojedyncze, monolityczne architektury zdolne do jednoczesnego wykonywania ogromnych, wymagających dużej przepustowości zadań związanych z wstępnym trenowaniem modeli oraz wrażliwych na opóźnienia zadań związanych z wnioskowaniem produkcyjnym [1, 2]. To ujednolicone podejście dominowało w branży od początku istnienia pierwszych akceleratorów sprzętowych aż po wdrożenie siódmej generacji jednostki przetwarzania tensorowego (TPU) Google Cloud [2, 3, 4].
Jednak w miarę jak modele graniczne osiągają skalę bilionów parametrów, a architektury rozumowania w czasie rzeczywistym – takie jak mieszanka ekspertów (MoE) i ciągłe agentowe pętle informacji zwrotnych – stają się standardem, wymagania sprzętowe dotyczące trenowania i udostępniania nieodwracalnie się rozbiegają [5, 6, 7]. Wstępne trenowanie stało się problemem optymalizacji przepustowości i wydajności, wymagającym ogromnych możliwości skalowania w górę, dużej przepustowości dwudzielnej połączeń wzajemnych i ciągłego nasycenia obliczeniami macierzowymi [6]. Z kolei agentowe udostępnianie stało się problemem związanym z opóźnieniami i pamięcią, ograniczonym przez szybkość, z jaką wagi i pamięci podręczne typu klucz-wartość (KV) mogą być przesyłane strumieniowo do rdzeni przetwarzających bez tworzenia wąskiego gardła w operacjach synchronizacji globalnej [6, 8].
Google zdawał sobie sprawę, że wymuszanie obsługi obu rodzajów zadań przez identyczne układy krzemowe powoduje systemowe nieefektywności i malejące zyski ekonomiczne, dlatego podjął bezprecedensową decyzję architektoniczną o podziale swojej ósmej generacji układów TPU [1, 6, 9]. W rezultacie powstały 2 odrębne, wysoce wyspecjalizowane układy scalone zaprojektowane na poziomie łańcucha dostaw: TPU 8t, stworzony z myślą o ogromnej przepustowości trenowania na skalę superkomputera, oraz TPU 8i, zaprojektowany tak, aby przełamać barierę pamięci wnioskowania i zminimalizować zbiorcze opóźnienie w przypadku globalnego rozumowania [7, 9].
Ten obszerny raport z badań analizuje różnice w architekturze, wydajności i skalowalności między ujednoliconą wersją podstawową TPU 7x a nowo podzielonymi TPU 8t i TPU 8i. Dzięki wyczerpującej analizie projektu logicznego, wielopoziomowych hierarchii pamięci, topologii połączeń centrów danych, przełączania obwodów optycznych i współprojektowania sprzętu i oprogramowania ta analiza wyjaśnia, dlaczego specjalistyczne krzemy są niezbędne do utrzymania ekonomicznej i obliczeniowej skalowalności sztucznej inteligencji nowej generacji.
Kontekst historyczny: droga do specjalizacji
Aby w pełni docenić zmiany w architekturze 8 generacji, należy prześledzić iteracyjną ewolucję rodziny TPU. Rozwój sprzętu Google zawsze odzwierciedlał główne wąskie gardła współczesnych modeli uczenia maszynowego, od prostego przyspieszania wnioskowania po ogromne struktury szkoleniowe na poziomie klastra [10, 11].
Od wnioskowania do ogromnych macierzy
W 2015 roku Google wprowadził TPU w wersji 1 jako akcelerator przeznaczony wyłącznie do wnioskowania, który miał radzić sobie z rosnącym obciążeniem obliczeniowym usług wewnętrznych, takich jak wyszukiwarka, tłumacz i rekomendacje na YouTube [11, 12]. Wersja 1 wykorzystywała 8-bitową arytmetykę liczb całkowitych, aby osiągnąć wielokrotny wzrost liczby operacji na wat w porównaniu z procesorami CPU i GPU do zwykłych obciążeń [10, 11]. W 2017 roku TPU w wersji 2 umożliwił trenowanie modeli, wprowadzając format bfloat16 (BF16) – 16-bitowy format reprezentacji zmiennoprzecinkowej, który zachował zakres dynamiki 32-bitowych liczb zmiennoprzecinkowych, a jednocześnie zmniejszył zużycie pamięci o połowę [10].
Generacje 3–5 zoptymalizowały podstawowy silnik obliczeniowy, czyli jednostkę mnożenia macierzy (MXU). Przez kilka generacji MXU pozostawał macierzą systoliczną o wymiarach 128 × 128, która była w stanie wykonywać jednocześnie 16 384 operacje mnożenia z akumulacją [cite: 4, 10]. TPU w wersji 4 wprowadziła „SparseCore”, czyli dedykowany blok sprzętowy zaprojektowany specjalnie do przyspieszania wyszukiwania osadzania i nieregularnych dostępów do pamięci, co zapobiega wstrzymywaniu MXU podczas trenowania modeli rekomendacji [cite: 4, 6].
The Topographical Evolution and Trillium (v6e)
Wraz ze wzrostem rozmiarów modeli rosły wymagania dotyczące topologii połączeń, które były potrzebne do synchronizacji gradientów na tysiącach układów. W przypadku mniejszych, ekonomicznych zasobów (takich jak v5e i v6e) Google wdrożyło topologię torusa 2D, która uprościła skalowanie do 256 układów [cite: 4, 10]. W przypadku wariantów zoptymalizowanych pod kątem wydajności (takich jak v4 i v5p) Google zastosowało topologię torusa 3D, która łączyła układy w trójwymiarowej siatce zawijanej, aby zmniejszyć opóźnienia komunikacji w przypadku większych zasobów obejmujących od 4096 do 8960 układów [cite: 4].
Bezpośrednim poprzednikiem nowoczesnej ery była jednostka TPU v6e (Trillium), która została wydana pod koniec 2024 roku. Trillium stanowił ogromny skok w architekturze, ponieważ rozszerzył MXU z macierzy 128 x 128 do macierzy 256 x 256 [10]. Dzięki temu liczba operacji mnożenia i dodawania w każdym cyklu wzrosła czterokrotnie. W połączeniu z dwukrotnie większą przepustowością połączenia między układami (ICI) wynoszącą 3200 Gbps (13 TB/s łącznie w obu kierunkach) i 32 GB pamięci o dużej przepustowości (HBM) na układ Trillium zapewnia 4,7 raza większą moc obliczeniową niż poprzednik, a przy tym jest o 67% bardziej energooszczędny [cite: 10, 11].
| Generacja TPU | Rok premiery | Primary Innovation | Topologia i maksymalny rozmiar bloku reklamowego | Architektura MXU | Maksymalna moc obliczeniowa na chip |
|---|---|---|---|---|---|
| TPU v2 | 2017 | Możliwość pierwszego trenowania (BF16) | 2D Torus (512 chipów) | 128x128 | ~45 TFLOPS |
| TPU v4 | 2021 | Wprowadzenie do SparseCore | Torus 3D (4096 chipów) | 128x128 | 275 TFLOPS |
| TPU v5e | 2023 | Wydajność zoptymalizowana pod kątem kosztów | 2D Torus (256 chipów) | 128x128 | 197 TFLOPS |
| TPU v5p | 2023 | Zwiększanie wydajności | 3D Torus (8960 chipów) | 128x128 | 459 TFLOPS |
| TPU v6e (Trillium) | 2024 | Rozszerzenie MXU 256x256 | 2D Torus (256 chipów) | 256 x 256 | 918 TFLOPS |
Najwyższa wydajność ujednoliconej architektury: TPU 7x
TPU 7x siódmej generacji, udostępniony w pełnej wersji pod koniec 2025 roku, stanowi szczyt strategii ujednoliconej architektury Google. Zaprojektowany do wykonywania zarówno wstępnego trenowania na dużą skalę, jak i wnioskowania z dużą ilością dekodowania w ramach jednej architektury, TPU 7x przekracza granice możliwości akceleratora dwufunkcyjnego [3, 10].
Konstrukcja z 2 chipletami i optymalizacja AlphaChip
Fizyczna konstrukcja TPU 7x stanowiła znaczącą zmianę w stosunku do architektury pojedynczego rdzenia logicznego (MegaCore) stosowanej w TPU v4 i v5p [3]. TPU 7x korzysta z architektury dwuchipowej. Każdy pełny układ TPU 7x składa się z 2 odrębnych, samodzielnych chipletów połączonych za pomocą zastrzeżonego, szybkiego interfejsu D2D (die-to-die) [cite: 3]. To połączenie D2D działa 6 razy szybciej niż standardowe jednowymiarowe połączenie ICI, co umożliwia szybką komunikację między chipletami przy zachowaniu własnych przestrzeni pamięci [cite: 3].
W pełnym zunifikowanym chipie TPU 7x znajdują się 2 rdzenie TensorCore i 4 rdzenie SparseCore [3]. Fizyczny układ tych rdzeni na matrycy krzemowej został zoptymalizowany za pomocą AlphaChip, czyli autorskiego narzędzia Google do uczenia ze wzmocnieniem, aby zminimalizować długość przewodów i zmaksymalizować wydajność termiczną [cite: 10]. Standardowa konfiguracja maszyny wirtualnej dla TPU 7x łączy 4 układy z hostem CPU, udostępniając 224 procesory wirtualne i 960 GB pamięci RAM [3].
Wielopoziomowa hierarchia pamięci i formatowanie precyzyjne
Krytycznym wąskim gardłem w przetwarzaniu gęstych modeli i modeli MoE jest ciągłe przenoszenie danych między warstwami pamięci. TPU 7x ma solidny wielopoziomowy system pamięci zaprojektowany tak, aby utrzymać pełne wykorzystanie rozszerzonych jednostek MXU: * Pamięć o wysokiej przepustowości (HBM3E): każdy chip TPU 7x jest wyposażony w 192 GB pamięci HBM, co zapewnia ogromną przepustowość pamięci wynoszącą 7,37 TB/s (7380 GB/s) [cite: 3, 10]. Sześciokrotny wzrost pojemności w porównaniu z Trillium pozwala na znacznie większe rozmiary partii podczas trenowania i umożliwia przechowywanie większych pamięci podręcznych KV w układzie podczas wnioskowania, co zapobiega kosztownym skokom opóźnień związanym z przenoszeniem danych do wolniejszej pamięci hosta [cite: 4, 10, 13]. * Pamięć wektorowa (VMEM): każdy rdzeń Tensor zawiera 64 MiB pamięci VMEM (łącznie 128 MB na chip), która służy jako ultraszybka pamięć SRAM na chipie. VMEM ma znacznie większą przepustowość niż HBM [cite: 3, 14]. Dzięki dostrajaniu pamięci VMEM w określonym zakresie deweloperzy mogą ponownie przydzielać pamięć między bieżącym zakresem obliczeniowym a przyszłym wstępnym pobieraniem wag, co pozwala na stosowanie większych rozmiarów kafelków jądra (takich jak te używane w mechanizmie flash attention) i zmniejsza przestoje pamięci [cite: 13, 14]. * Pamięć hosta (PCIe): połączona za pomocą sieci PCIe pamięć hosta systemu jest wykorzystywana do odciążania stanów i aktywacji optymalizatora, zarządzania obciążeniem pamięci w przypadku modeli, które przekraczają pojemność HBM [3, 14].
Dodatkowo TPU 7x wprowadził natywną akcelerację sprzętową dla 8-bitowej reprezentacji zmiennoprzecinkowej (FP8) [cite: 4, 13]. Przejście ze standardowych 16-bitowych formatów (BF16 lub FP16) na reprezentację FP8 skutecznie podwaja szczytową przepustowość obliczeniową, jednocześnie zmniejszając o połowę wykorzystanie pamięci wymaganej do przechowywania wag i aktywacji [cite: 4, 13]. Pojedynczy chip TPU 7x działający natywnie w FP8 zapewnia szczytową moc obliczeniową na poziomie 4614 TFLOPS, w porównaniu z 2307 TFLOPS w przypadku działania w BF16 [cite: 3, 4].
Topologia torusa 3D i skala superpoda
Na poziomie centrum danych TPU v4 opiera się na sprawdzonej topologii połączeń 3D torus Google [cite: 3]. Ta architektura łączy każdy układ bezpośrednio z najbliższymi sąsiadami wzdłuż osi X, Y i Z, tworząc odporną trójwymiarową siatkę [cite: 3]. Komunikacja w tej siatce jest ułatwiona dzięki przepustowości ICI wynoszącej 1,2 TB/s (1200 GB/s) na układ, co zapewnia dwukierunkową komunikację z przepustowością 200 GB/s na oś [cite: 3].
W pełni zrealizowany superpod TPU 7x obejmuje aż 9216 chłodzonych cieczą układów. W tej konfiguracji pod zapewnia łącznie 42, 5 eksaflopa mocy obliczeniowej FP8 [cite: 8, 10]. Slices większe niż 64 układy są zbudowane z modułowych „kostek” 4x4x4, co pozwala na tworzenie bardzo elastycznych topologii, od konfiguracji z jednym hostem po rozbudowane środowiska z wieloma hostami [cite: 3].
Pomimo ogromnych możliwości zunifikowany charakter TPU 7x wiązał się z pewnymi kompromisami. Topologia torusa 3D jest wysoce wydajna w przypadku lokalnej, przewidywalnej synchronizacji gradientów wymaganej podczas wstępnego trenowania, ale ma dużą średnicę sieci. Na przykład blok z 1024 chipami na toroidzie 3D ma maksymalną średnicę sieci wynoszącą 16 przeskoków [15, 16]. W przypadku wnioskowania z użyciem modelu MoE, w którym tokeny muszą być szybko kierowane do warstw eksperckich znajdujących się w dowolnym miejscu w podzie, odległość 16 hopów powoduje niedopuszczalne opóźnienia typu all-to-all [6, 15, 16]. Ponadto przeznaczenie cennej powierzchni krzemu na rdzenie SparseCore, które doskonale sprawdzają się w wyszukiwaniu osadzania, zmniejszyło obszar, który można było wykorzystać na silniki redukcji zbiorczej, kluczowe w przypadku przepływów pracy opartych na łańcuchu myślowym agenta [6, 15]. Branża osiągnęła fizyczne ograniczenia akceleratora „uniwersalnego”.
Strategiczne rozwidlenie: czynniki ekonomiczne i architektoniczne
Przejście z siódmej na ósmą generację TPU to najważniejsza zmiana architektury w historii układów scalonych Google [9]. Podczas konferencji Google Cloud Next 2026 ogłosiliśmy podział linii TPU na 2 odrębne rodziny produktów – TPU 8t do trenowania i TPU 8i do wnioskowania. Jest to odpowiedź na fakt, że zbiory zadań, które będą napędzać rozwój sztucznej inteligencji w następnej dekadzie, są zasadniczo nie do pogodzenia na poziomie sprzętu [1, 2, 17].
Podział ten wynika z różnic w ekonomii i intensywności operacyjnej rozwoju AI. Trenowanie modelu granicznego to jednorazowy wydatek operacyjny wymagający dużych nakładów kapitałowych, mierzony w ciągłej mocy obliczeniowej przez tygodnie lub miesiące [9]. Wymaga to maksymalnej gęstości obliczeniowej, niespotykanej dotąd przepustowości połączeń wewnętrznych i wielopetabajtowych ujednoliconych domen pamięci, które mogą przetwarzać wielomodowe zbiory danych z szybkością linii [9].
Wnioskowanie to z kolei bieżący koszt operacyjny, który rośnie liniowo lub wykładniczo wraz z zapotrzebowaniem użytkowników [9]. W nadchodzącej „erze agentów” model AI nie tylko przewiduje kolejny token, aby wygenerować blok tekstu, ale aktywnie wnioskuje, symuluje przyszłe scenariusze, iteruje w ramach „wyobraźni”, wywołuje zewnętrzne interfejsy API i wchodzi w interakcje z grupami innych wyspecjalizowanych agentów w ciągłych pętlach informacji zwrotnej [5, 7, 15]. Ta dynamika wymaga ogromnych ilości pamięci do przechowywania aktywnych okien kontekstu i bardzo niskich opóźnień sieciowych w przypadku inteligentnego routingu i globalnej synchronizacji [15, 16].
Dzięki podziałowi linii produktów Google zoptymalizowało sprzęt w głębi łańcucha dostaw. Układ TPU 8t został zaprojektowany we współpracy z firmą Broadcom, z którą Google współpracuje od 2015 roku [9, 17, 18]. Ekspercka wiedza firmy Broadcom w zakresie złożonych, szybkich połączeń SerDes, zaawansowanych pakietów i sieci o ogromnej skali sprawiła, że była ona idealnym partnerem do przekraczania fizycznych ograniczeń struktury szkoleniowej [17, 19].
W przypadku układu wnioskowania Google zerwał z tradycją i nawiązał współpracę z firmą MediaTek, aby zaprojektować układ TPU 8i [cite: 9, 17, 18]. Wykorzystując bogate doświadczenie firmy MediaTek w zakresie energooszczędnych, produkowanych na dużą skalę mobilnych układów SoC, Google stworzył wysoce zoptymalizowany pod względem kosztów akcelerator wnioskowania [cite: 17, 19]. TPU 8i ma prostszą konstrukcję (1 układ obliczeniowy zamiast 2 w przypadku TPU 8t), która jest podobno o 20–30% tańsza w produkcji niż tradycyjne warianty o wysokiej wydajności. Dzięki temu Google może ekonomicznie zwiększać globalną moc obliczeniową, aby zaspokoić potrzeby aplikacji dla firm i konsumentów [9, 17]. Oba układy są produkowane w zaawansowanym 2-nanometrowym procesie technologicznym TSMC, z wykorzystaniem najnowocześniejszego zaawansowanego pakietu CoWoS do integracji układów logicznych z wysokimi stosami HBM [9, 19].
Weryfikacja rynkowa tej dwutorowej strategii nastąpiła natychmiast. Firma Anthropic, wiodąca organizacja badawcza zajmująca się AI, rozszerzyła swoją wielomiliardową umowę z Google Cloud, zobowiązując się do wykorzystania do 2027 r. aż 3,5 gigawata mocy obliczeniowej. Jest ona głównym klientem zarówno platformy TPU 7x, jak i platformy ósmej generacji [9, 10, 20].
Szczegółowe omówienie: TPU 8t (potężne narzędzie do wstępnego trenowania)
TPU 8t to bezkompromisowe osiągnięcie inżynieryjne, które ma na celu skrócenie cyklu rozwoju modeli o bilionie parametrów z miesięcy do tygodni [5, 21]. Osiąga to nie tylko dzięki zwiększeniu surowej szybkości zegara, ale także dzięki restrukturyzacji precyzji operacji matematycznych, znacznemu zwiększeniu przepustowości między układami i zmniejszeniu paraliżujących wąskich gardeł związanych z przetwarzaniem danych, które utrudniają działanie ogromnych klastrów szkoleniowych [cite: 6, 15].
Architektura obliczeniowa Dual-Die i natywny format FP4
TPU 8t ma bardzo złożoną architekturę, która obejmuje 2 bloki obliczeniowe i 1 chiplet wejścia/wyjścia, a także 8 modułów pamięci HBM3E o wysokości 12 warstw [9]. Takie gęste upakowanie wymaga zaawansowanego zarządzania temperaturą, które opiera się na chłodzeniu cieczą czwartej generacji od Google, aby rozpraszać ogromne ciepło generowane przez ciągłe operacje macierzowe [cite: 7, 17, 22].
Podstawową zmianą w TPU 8t jest wprowadzenie natywnej 4-bitowej precyzji zmiennoprzecinkowej (FP4) [cite: 6, 15]. Wymagania matematyczne wstępnego trenowania w dużym stopniu faworyzują przepustowość kosztem ekstremalnej precyzji numerycznej. Dzięki zmniejszeniu natywnego wykonywania z FP8 do FP4 TPU 8t skutecznie podwaja przepustowość MXU, a jednocześnie zmniejsza o połowę liczbę bitów, które muszą być fizycznie przenoszone przez matrycę na parametr [6, 15]. Znaczne ograniczenie przesyłania danych minimalizuje energochłonne pobieranie z pamięci i umożliwia wygodne umieszczenie większych warstw modelu w lokalnych buforach sprzętowych [6, 15].
Aby zapewnić pełne wykorzystanie układu, TPU 8t ma bardziej zrównoważone skalowanie jednostki przetwarzania wektorowego (VPU). Umożliwia to nakładanie się na siebie kluczowych zadań sekwencyjnych, takich jak kwantyzacja, softmax i normalizacja warstw, z intensywnymi mnożeniami macierzy wykonywanymi w MXU, co praktycznie eliminuje czas nie związany z macierzami, w którym rdzenie obliczeniowe byłyby bezczynne [cite: 6, 15]. Dzięki tym optymalizacjom architektury pojedynczy układ TPU 8t zapewnia niesamowitą moc obliczeniową FP4 na poziomie 12, 6 PFLOP-a [15, 23].
W przeciwieństwie do swojego rodzeństwa, które jest zoptymalizowane pod kątem wnioskowania, TPU 8t zachowuje specjalistyczne bloki SparseCore wprowadzone w poprzednich generacjach [1, 6, 15]. Obciążenia związane z osadzaniem, które są powszechne w przypadku wielomodowych modeli podstawowych i systemów rekomendacji, wykazują nieregularne wzorce dostępu do pamięci, które paraliżują tradycyjne procesory graficzne. SparseCore działa asynchronicznie, odciążając operacje typu all-gather zależne od danych i wyszukiwania osadzania [6, 15]. Dzięki rozdzieleniu obliczeń na gęstych macierzach do MXU i operacji na rzadkich macierzach do SparseCore TPU 8t zapobiega wąskim gardłom „zero-op”, które powodują przestoje obliczeniowe [6, 15].
Przepustowość, pozyskiwanie danych i TPUDirect
Aby zasilać znacznie przyspieszone jednostki MXU działające w FP4, jednostka TPU 8t wymaga ekstremalnej lokalnej i łącznej przepustowości. Każdy układ ma 216 GB pamięci HBM3e działającej z szybkością 6528 GB/s [15, 24]. W przypadku modeli granicznych ograniczenie systemu często nie wynika już z szybkości przetwarzania krzemowego układu scalonego, ale z szybkości, z jaką centrum danych może pozyskać petabajty danych treningowych z „zimnego” miejsca na dane.
Aby ominąć wąskie gardło tradycyjnej ścieżki danych, Google zintegrowało TPUDirect RDMA i TPUDirect Storage [5, 6, 10]. Te protokoły umożliwiają bezpośredni dostęp do pamięci (DMA) między pamięcią o dużej przepustowości TPU a zarządzanymi macierzami pamięci sieciowej, takimi jak Google Cloud Managed Lustre 10T [cite: 6, 15]. Dzięki przesyłaniu danych bezpośrednio z równoległego systemu plików Lustre do TPU za pomocą karty sieciowej (NIC) TPUDirect całkowicie pomija procesor hosta i pamięć DRAM hosta [cite: 6]. Ta specjalistyczna ścieżka danych zapewnia 10-krotne przyspieszenie dostępu do pamięci w porównaniu z trenowaniem na TPU 7x, dzięki czemu jednostki obliczeniowe TPU 8t mogą przetwarzać zbiory danych multimodalnych z szybkością liniową bez przestojów [cite: 5, 6, 15].
Infrastruktura na dużą skalę: sieć Virgo
Najbardziej zdumiewającym osiągnięciem architektury ekosystemu TPU 8t jest jego możliwość sieciowa, która przenosi ograniczenie systemu z lokalnych obliczeń na przepustowość na poziomie centrum danych [25, 26].
TPU 8t zachowuje podstawową trójwymiarową sieć torusową do lokalnej komunikacji między podami – skaluje się do 9600 chipów i 2 petabajtów współdzielonej pamięci HBM w jednym superpodzie – ale sieć skalowalna została całkowicie przeprojektowana [5, 6, 15]. Superpod osiąga łączną moc obliczeniową 121 eksafloflopsów w przypadku obliczeń FP4, co stanowi 2,8-krotny wzrost w porównaniu z 42,5 eksafloflopsami TPU 7x [6]. Aby to umożliwić, przepustowość ICI w podzie została podwojona do 19,2 Tb/s na chip [4, 6, 10].
Aby jednak połączyć setki tych superpodów, Google stworzył sieć Virgo [1, 6]. Poprzednia sieć, Jupiter, wykorzystywała trójwarstwową topologię Clos, która kierowała ruch przez wiele warstw przełączników, co powodowało opóźnienia i wąskie gardła przepustowości (ograniczone do 100 Gb/s na chip) [25].
Virgo to skalowalna struktura oparta na przełącznikach o dużej liczbie portów (zarządzających od 256 do 512 portów), która wykorzystuje płaską, dwuwarstwową topologię nieblokującą [6, 15, 25]. Dzięki fizycznemu wyeliminowaniu warstw sieciowych Virgo znacznie zmniejsza opóźnienie. Sieć wykorzystuje wielopłaszczyznową architekturę z niezależnymi domenami sterowania, co zapewnia nawet 400-procentowy (4-krotny) wzrost przepustowości sieci centrum danych (DCN) do 400 Gb/s na układ [cite: 6, 15, 24].
Pojedyncza struktura Virgo może połączyć ponad 134 tys. układów TPU 8t w jednym centrum danych, zapewniając niewyobrażalną przepustowość dwudzielną bez blokowania na poziomie 47 petabitów na sekundę [cite: 1, 6, 15]. TPU 8t jest ponadto zintegrowany z oprogramowaniem Pathways od Google i platformą JAX, co umożliwia skalowanie rozproszonych klastrów trenujących do ponad miliona chipów w wielu lokalizacjach geograficznych jako pojedynczego logicznego zadania trenującego [cite: 1, 6, 15]. Dzięki temu osiągnięciu globalnie rozproszona infrastruktura przekształca się w jeden, spójny superkomputer, który znacznie przewyższa obecne ograniczenia skalowania GPU ogólnego przeznaczenia [27].
Autonomiczna rekonfiguracja i 97% przepustowości
W przypadku setek tysięcy układów scalonych awarie sprzętu – od uszkodzonych transceiverów po ograniczenie termiczne – są raczej pewne statystycznie niż rzadkie. W starszych systemach pojedyncze zatrzymanie sieci mogło wstrzymać ogromny proces trenowania, co wymagało pracochłonnego i kosztownego przywrócenia poprzedniego punktu kontrolnego. W przypadku modeli o największej skali każdy punkt procentowy utraconej wydajności przekłada się na dni aktywnego czasu trenowania [5, 6].
Ekosystem TPU 8t osiąga ponad 97% „przepustowości” – wskaźnika określającego stosunek użytecznego, produktywnego czasu obliczeniowego do całkowitego czasu działania [6, 28]. Jest to możliwe dzięki zaawansowanym funkcjom niezawodności, dostępności i serwisowania (RAS) opartym na przełączaniu obwodów optycznych (OCS) [5, 6, 25]. Dzięki telemetrii w czasie rzeczywistym analizującej dziesiątki tysięcy układów system może autonomicznie wykrywać wadliwe połączenia między układami. OCS fizycznie przekierowuje ścieżki światła optycznego, aby w czasie rzeczywistym omijać awarie sprzętu. Nie wymaga to interwencji człowieka i co najważniejsze, nie przerywa aktywnego zadania trenowania [5, 6, 28].
Szczegółowe omówienie: TPU 8i (silnik wnioskowania)
TPU 8t to przykład ekstremalnego, opartego na surowej mocy obliczeniowej skalowania, a TPU 8i to mistrzowskie rozwiązanie w zakresie optymalizacji opóźnień i architektury pamięci [6]. W miarę jak modele przechodzą do produkcji w czasie rzeczywistym, zwłaszcza ogromne modele typu Mixture-of-Experts (MoE) i roje agentów, surowa przepustowość obliczeniowa staje się mniej istotna niż szybkość dostępu do pamięci i przekazywania danych w sieci [21, 29].
Przełamywanie bariery pamięci wnioskowania
W przypadku autoregresywnego generowania model generuje tokeny wyjściowe sekwencyjnie. Z każdym nowo wygenerowanym tokenem model musi odwoływać się do rosnącej historii wszystkich poprzednich tokenów i ich relacji matematycznych, znanych jako pamięć podręczna klucz-wartość (KV) [1, 13]. W przypadku modeli z długim kontekstem, które analizują setki tysięcy tokenów, rozmiar tej pamięci podręcznej KV rośnie. Jeśli pamięć podręczna przekroczy pojemność szybkiej pamięci wbudowanej układu i przejdzie do wolniejszej pamięci procesora hosta, cały proces obliczeniowy zatrzyma się – zjawisko to jest powszechnie znane jako „ściana pamięci” [5, 8].
TPU 8i został zaprojektowany specjalnie z myślą o przełamaniu tej bariery. Chociaż ma prostszą i bardziej ekonomiczną konstrukcję krzemową – wykorzystuje jeden układ obliczeniowy i jeden układ wejścia/wyjścia z 6 modułami HBM3e – jego pojemność pamięci jest wysoce zoptymalizowana pod kątem obsługi [9]. * Pojemność i przepustowość pamięci HBM: każdy układ TPU 8i jest wyposażony w 288 GB pamięci HBM3E, co oznacza wzrost pojemności o 50% w porównaniu z TPU 7x [5, 24, 30]. Co ważniejsze, ponieważ duże modele MoE są ograniczone przepustowością pamięci podczas wnioskowania, przepustowość pamięci została zwiększona do 8,6 TB/s (ok. 8601 GB/s) – jest to około 1,3 raza szybciej niż w przypadku TPU 8t, który jest przeznaczony do trenowania [10, 15]. * Ogromna pamięć SRAM na chipie: najważniejszą zmianą sprzętową jest włączenie 384 MB pamięci SRAM (Static Random-Access Memory) na chip [10, 15, 30]. Stanowi to ogromny wzrost o 300% (3 razy) w porównaniu z TPU 7x i TPU 8t [10, 15, 30]. Pamięć SRAM jest najszybszą pamięcią o najniższych opóźnieniach dostępną bezpośrednio na matrycy krzemowej. Dzięki trzykrotnemu zwiększeniu tej pojemności TPU 8i może przechowywać ogromne pamięci podręczne KV w całości na chipie [15, 16]. Zapobiega to bezczynności rdzeni przetwarzających podczas oczekiwania na pobranie historii tokenów z wolniejszych warstw pamięci, co umożliwia działanie pętli wnioskowania o wysokiej współbieżności z niespotykaną dotąd płynnością [5, 15].
The Collectives Acceleration Engine (CAE)
TPU 8i jest przeznaczony do wnioskowania, więc jednostka SparseCore używana w TPU 7x i 8t do wyszukiwania osadzania została uznana za nieefektywne wykorzystanie przestrzeni krzemowej w przypadku tego konkretnego zbioru zadań. Zamiast tego inżynierowie Google wprowadzili zastrzeżony blok sprzętowy znany jako Collectives Acceleration Engine (CAE) [cite: 10, 15].
Podczas autoregresywnego dekodowania i przetwarzania „chain-of-thought” różne rdzenie muszą często wstrzymywać indywidualne obliczenia, aby agregować, redukować i synchronizować wyniki matematyczne w obrębie układu [cite: 6, 15]. Te globalne operacje synchronizacji mogą znacznie ograniczać przepustowość, zwłaszcza gdy tysiące niezależnych agentów jednocześnie rozwiązuje problem.
Na każdym chipie TPU 8i znajdują się 2 rdzenie TensorCore na matrycach rdzeniowych i 1 rdzeń CAE na matrycy chipletu (zastępujący 4 rdzenie SparseCore w TPU 7x) [6, 15]. Specjalistyczny CAE został zaprojektowany tak, aby agregować wyniki z różnych rdzeni z niemal zerowym opóźnieniem, co pozwala uzyskać 5-krotnie mniejsze opóźnienie zbiorcze na chipie w porównaniu z TPU 7x [cite: 10, 15]. Dzięki akceleracji sprzętowej kroków redukcji, które dominują w przepływach pracy agentów, CAE zapewnia utrzymanie wysokiej przepustowości systemu bez utraty responsywności w czasie rzeczywistym [cite: 6, 15].
Spłaszczanie sieci: topologia Boardfly
Cechą charakterystyczną TPU 8i jest całkowite porzucenie topologii torusa 3D. Chociaż torus 3D doskonale sprawdza się w przypadku przekazywania danych między sąsiednimi węzłami, które jest wymagane w procesie wstępnego trenowania, tworzy niedopuszczalnie duże odległości fizyczne (mierzone w liczbie przeskoków sieciowych) w przypadku routingu tokenów typu „każdy do każdego”, który jest wymagany przez modele wnioskowania MoE [2, 15]. W architekturach MoE każdy token może wymagać przekierowania do konkretnej warstwy „eksperckiej” znajdującej się na zupełnie innym chipie w obrębie modułu. W przypadku tradycyjnego torusa pakiet danych musi przechodzić kolejno przez kolejne chipy, aby dotrzeć do miejsca docelowego.
Aby rozwiązać ten problem, Google opracowało nową architekturę sieciową zoptymalizowaną pod kątem wyświetlania reklam o nazwie Boardfly [15, 31]. Zainspirowana zasadami topologii Dragonfly sieć Boardfly to hierarchiczna sieć o dużej liczbie portów, zaprojektowana z myślą o maksymalnym uproszczeniu architektury i zminimalizowaniu odległości fizycznej między dowolnymi dwoma układami [cite: 2, 15, 26].
Topologia Boardfly jest budowana hierarchicznie:1. Element składowy: 4 w pełni połączone układy TPU 8i tworzą podstawowy element składowy z wewnętrznymi połączeniami ICI [6, 16]. 2. Płyta: osiem bloków jest w pełni połączonych bezpośrednimi kablami miedzianymi, tworząc jedną płytę [6, 16]. 3. Pod: 36 grup jest w pełni połączonych za pomocą optycznych przełączników obwodów i bezpośrednich optycznych łączy dalekiego zasięgu,tworząc ujednoliconą grupę 1152 chipów [cite: 5, 6, 16, 32].
Zaletą tego podejścia jest znaczne zmniejszenie opóźnień. W standardowej konfiguracji torusa 3D z 1024 chipami pakiet danych może wymagać pokonania maksymalnej średnicy sieci wynoszącej 16 przeskoków [cite: 15, 25]. W topologii Boardfly maksymalna średnica sieci jest ograniczona do 7 skoków [cite: 15, 25].
Zmniejszenie średnicy sieci o 56% przekłada się na ogromną poprawę opóźnienia ogonowego w przypadku zadań wnioskowania wymagających intensywnej komunikacji o 50% [cite: 16, 25, 30]. Wnioskowanie jest ostatecznie ograniczone przez szybkość najwolniejszego węzła. Dzięki skróceniu opóźnienia ogona topologia Boardfly zapewnia, że CAE nigdy nie pozostaje bezczynny podczas oczekiwania na dane tokena, które mają przejść przez pod [cite: 6, 15].
Dzięki temu spójnemu połączeniu optycznemu pojedyncza podstawa TPU 8i z 1152 chipami działa jako ogromna, ujednolicona domena pamięci współdzielonej o pojemności 331,8 TB spójnej pamięci HBM [16].
Porównanie wydajności, ekonomii i infrastruktury systemu
Podział architektury zapewnia znaczną poprawę zarówno w zakresie ekonomii obliczeniowej, jak i efektywności energetycznej. Ocena sprzętu wyłącznie na podstawie szczytowej teoretycznej liczby operacji reprezentacji zmiennoprzecinkowej pomija systemowe realia działania centrów danych i możliwości oprogramowania.
Obsługa abstrakcji oprogramowania i platform
Pomimo różnic w sprzęcie Google zainwestowało znaczne środki w utrzymanie ujednoliconego stosu oprogramowania AI, który stawia na wydajność i zapobiega uzależnieniu od platformy. Zarówno TPU 8t, jak i 8i natywnie obsługują JAX, Keras, MaxText, SGLang i silnik vLLM [5, 8, 14, 17]. Co więcej, natywna obsługa PyTorch (za pomocą TorchTPU) umożliwia deweloperom przenoszenie istniejących modeli PyTorch bezpośrednio do środowiska TPU z pełną obsługą natywnych funkcji, takich jak tryb Eager [15, 17].
W tle kompilator XLA (Accelerated Linear Algebra) zajmuje się złożonym tłumaczeniem topologii Boardfly i synchronizacją CAE, dzięki czemu programiści mogą pisać w Pythonie niestandardowe jądra uwzględniające sprzęt (przy użyciu Pallas i Mosaic) bez konieczności ręcznego programowania połączeń optycznych [15].
Dane ilościowe dotyczące skuteczności
W tabeli poniżej znajdziesz podsumowanie podstawowych specyfikacji technicznych ujednoliconej architektury TPU 7x oraz wysoce wyspecjalizowanych architektur TPU 8t i 8i [3, 15, 24].
| Macierz specyfikacji | TPU 7x | TPU 8t | TPU 8i |
|---|---|---|---|
| Główne obciążenie | Ujednolicony (trenowanie i wnioskowanie) | Wstępne trenowanie na dużą skalę | Wnioskowanie wrażliwe na opóźnienia |
| ASIC Design Partner | Broadcom | Broadcom | MediaTek |
| Topologia sieci | Torus 3D | 3D Torus + Virgo Scale-Out | Boardfly (inspirowany ważką) |
| Specjalistyczny sprzęt | SparseCore | SparseCore | Collectives Acceleration Engine (CAE) |
| Native Precision Focus | FP8 | FP4 | FP4 (z obsługą FP8/INT8) |
| Maksymalna moc obliczeniowa na układ | 4,6 PFLOP (FP8) | 12,6 PFLOP-ów (FP4) | 10,1 PFLOP (FP4) |
| Pojemność pamięci HBM na układ | 192 GB | 216 GB | 288 GB |
| Przepustowość HBM | 7,37 TB/s | 6,52 TB/s | 8,60 TB/s |
| Pamięć SRAM na chipie (VMEM) | 128 MB | 128 MB | 384 MB |
| Inter-Chip BW (Scale-Up) | 9,6 Tb/s | 19,2 Tb/s | 19,2 Tb/s |
| Maksymalny rozmiar bloku reklamowego lub superbloku | 9216 elementów | 9600 elementów | 1152 układy |
Optymalizacja kosztów i całkowitych kosztów posiadania
Google twierdzi, że ósma generacja zapewnia znaczną poprawę całkowitego kosztu posiadania. W przypadku trenowania na dużą skalę TPU 8t zapewnia wzrost wydajności na dolara o 170–180%, co przekłada się na 2,7–2,8-krotną poprawę w porównaniu z TPU 7x [źródła: 6, 15, 30]. Z kolei TPU 8i oferuje 80-procentową poprawę wydajności na dolara w przypadku wnioskowania, zwłaszcza w przypadku docelowych wartości opóźnienia wymaganych w przypadku dużych modeli MoE [źródła: 15, 16, 30].
Te korzyści ekonomiczne wynikają nie tylko z krzemu, ale też z pełnej integracji systemowej. W przeszłości procesory TPU były używane w parze z gotowymi procesorami x86. W sytuacjach wymagających intensywnego wstępnego przetwarzania danych lub złożonej logiki agentowej host x86 często stanowił wąskie gardło systemu, pozostawiając superszybki krzemowy układ scalony TPU w stanie gotowości, ale bez danych [6, 7].
Ósma generacja rozwiązuje ten chroniczny problem, ponieważ zarówno TPU 8t, jak i TPU 8i są obsługiwane wyłącznie przez niestandardowe procesory Google Axion oparte na architekturze ARM [6, 7, 15]. Serwery Axion, oparte na architekturze rdzeni Neoverse N3 Armv9.2, zapewniają ujednolicone, wysoce zoptymalizowane podstawy [18, 19]. W przypadku TPU 8i, które są intensywnie wykorzystywane do wnioskowania, Google zintegrowało serwery Axion w stosunku 2:1 (TPU do CPU), co oznacza dwukrotne zwiększenie liczby fizycznych serwerów CPU na serwer w porównaniu z TPU 7x [5, 6, 32]. System wykorzystuje ścisłą architekturę NUMA (Non-Uniform Memory Access) do izolacji obciążeń, co gwarantuje doskonałą lokalność pamięci i całkowicie eliminuje wąskie gardło związane z przygotowywaniem danych [5, 7].
Efektywność energetyczna i jej wpływ na rynek
Gęstość energii i dostępność zasilania szybko stają się ostatecznymi ograniczeniami w przypadku wdrażania nowoczesnych centrów danych. Dzięki zastosowaniu chłodzenia cieczą czwartej generacji i zintegrowanego zarządzania energią w czasie rzeczywistym, które dynamicznie dostosowuje pobór mocy na podstawie konkretnych faz obciążenia (np. aktywne obliczenia a bezczynność w celu komunikacji), zarówno TPU 8t, jak i 8i osiągają zdumiewającą efektywność energetyczną [cite: 7, 15, 22, 24]. Układ 8t charakteryzuje się wzrostem wydajności na wat o 124%, a układ 8i – o 117%, co daje ogólny wzrost wydajności energetycznej o ponad 100%w porównaniu z TPU 7x [15, 22, 30].
Wpływ tej wydajności jest widoczny w najnowocześniejszych modelach Google. Testy porównawcze wersji podglądowej Gemini 3.1 Pro wskazują, że wdrożenie modelu w architekturze TPU 8i powoduje obniżenie kosztów interfejsów API wnioskowania o około 50%, a także znaczne zwiększenie szybkości reakcji i możliwości obsługi długich kontekstów [24, 30].
Konkurencja: Google a sprzedawcy półprzewodników
Decyzja Google o podzieleniu strategii dotyczącej krzemu ma ogromne znaczenie dla szerszego ekosystemu sprzętu do sztucznej inteligencji, zwłaszcza w kontekście trwającej konkurencji z dostawcami krzemu komercyjnego, takimi jak Nvidia, a w mniejszym stopniu AMD i AWS (z platformą Trainium3) [17, 23].
Firma Nvidia od dawna stosuje strategię ujednoliconej architektury, wykorzystując wysoce wydajne, ale platformy do zwykłych obciążeń, takie jak Blackwell B200 i Vera Rubin NVL72, do obsługi zarówno wstępnego trenowania, jak i wnioskowania w czasie rzeczywistym [cite: 2, 9]. Jeśli spojrzeć na to z perspektywy specyfikacji pojedynczego układu, Nvidia ma pewne przewagi. Na przykład technologia NVLink firmy Nvidia obsługuje przepustowość połączeń między urządzeniami na poziomie 14,4 Tb/s, a poszczególne procesory graficzne Rubin oferują około 50 PFLOP-ów mocy obliczeniowej wnioskowania NVFP4, czyli znacznie więcej niż 10,1 PFLOP-ów w przypadku TPU 8i [2, 9].
Architektura Google opiera się jednak na przekonaniu, że przyszłość sztucznej inteligencji zależy od wydajności klastra, a nie od maksymalnych możliwości pojedynczego układu [9].
Dzięki przejściu na topologię Boardfly Google tworzy w ramach jednej platformy TPU 8i w pełni spójną, współdzieloną pulę pamięci obejmującą wszystkie 1152 układy [16]. Daje to łączną moc obliczeniową 11,6 eksapetaflopa FP8 i 331,8 TB ujednoliconej, spójnej pamięci HBM [cite: 6, 16]. Z kolei standardowa spójność na poziomie szafy serwerowej w przypadku procesorów GPU NVIDIA na platformie NVL72 osiąga maksymalnie 72 procesory GPU i około 20, 7 TB pamięci HBM [źródła: 2, 16]. Skalowanie procesorów graficznych ogólnego przeznaczenia w celu dopasowania ich do konfiguracji z 1152 układami wymaga połączenia około 16 oddzielnych szaf [16]. To fizyczne rozdzielenie niszczy spójność pamięci i powoduje duże opóźnienia, które są katastrofalne dla ciągłego wnioskowania agenta w długim kontekście [16].
Ponadto przenosząc przełączanie obwodów optycznych (OCS) niżej w stosie, aby ułatwić hierarchię Boardfly, Google zasadniczo zmienia łańcuch dostaw sieci optycznych, tworząc ogromny popyt na specjalistyczne transceivery i lasery od dostawców takich jak Lumentum i Coherent [26].
Filozofia projektowania Google zakłada, że prawdziwe pole bitwy pod koniec lat 20. XXI wieku nie będzie wyznaczane przez szczytową przepustowość matematyczną pojedynczego układu krzemowego, ale raczej przez zdolność do ominięcia bariery pamięci, szybkiego skalowania połączeń między witrynami i obniżania bezwzględnego kosztu na token w przypadku wdrażania w czasie rzeczywistym rojów agentów dla miliardów użytkowników [6, 16, 17].
Podsumowanie
Ewolucja jednostek Tensor Processing Unit Google Cloud od ujednoliconej architektury TPU 7x do wysoce wyspecjalizowanej dychotomii TPU 8t i TPU 8i odzwierciedla rozwój i industrializację zadań związanych ze sztuczną inteligencją. Uniwersalne, ujednolicone układy krzemowe, które były podstawą początkowego boomu w zakresie głębokiego uczenia się, nie wystarczają już do osiągnięcia ekonomii ani wydajności wymaganej na ekstremalnych marginesach ery agentów.
TPU 8t to bezkompromisowe dążenie do skalowania. Dzięki zachowaniu SparseCore, wdrożeniu natywnej precyzji FP4 w celu podwojenia przepustowości MXU oraz niesamowitym możliwościom sieci Virgo i TPUDirect Storage jest ona zaprojektowana do pozyskiwania i przetwarzania danych w ilościach, które wcześniej uważano za niemożliwe. Skutecznie niweluje ograniczenia przepustowości skalowania w nowoczesnych centrach danych, umożliwiając milionom układów scalonych działanie jako pojedynczy, globalnie rozproszony silnik wstępnego trenowania.
Z kolei TPU 8i to przykład eliminacji opóźnień i efektywności ekonomicznej. Dzięki porzuceniu trójwymiarowego torusa na rzecz hierarchicznej topologii Boardfly, trzykrotnemu zwiększeniu pamięci SRAM na układzie do 384 MB i wprowadzeniu mechanizmu Collectives Acceleration Engine do przyspieszenia autoregresywnej synchronizacji TPU 8i systematycznie pokonuje barierę pamięci wnioskowania. Zapewnia to, że ogromne pamięci podręczne KV wymagane do złożonego, wieloetapowego rozumowania agenta mogą pozostać zlokalizowane i dostępne z opóźnieniem bliskim zeru, a jednocześnie obniża koszty produkcji dzięki uproszczonej logice.
Wspólnie, hostowane na w pełni zintegrowanych procesorach Axion opartych na architekturze ARM i zarządzane przez autonomiczne przełączanie obwodów optycznych, rozwidlone ósme pokolenie wyznacza nowy paradygmat w infrastrukturze o bardzo dużej skali. Jest to jednoznaczne stwierdzenie, że przyszłość sztucznej inteligencji wymaga nie tylko szybszych układów, ale też zasadniczo odmiennych struktur sprzętowych, które są precyzyjnie zaprojektowane pod kątem konkretnych obciążeń.
Źródła: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com