Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Das Zeitalter der Agenten gestalten: Eine umfassende vergleichende Analyse von Google Cloud TPU 7x, TPU 8t und TPU 8i

Die Entwicklung der künstlichen Intelligenz von grundlegenden Large Language Models zu komplexen, mehrstufigen agentischen Systemen hat einen grundlegenden Paradigmenwechsel im Halbleiterdesign ausgelöst. Fast ein Jahrzehnt lang war die vorherrschende Logik in der Architektur von KI-Beschleunigern die der Vereinheitlichung. Siliziumdesigner bemühten sich, einzelne, monolithische Architekturen zu entwickeln, die in der Lage sind, gleichzeitig die massiven, durchsatzstarken Arbeitslasten des Modell-Vortrainings und die latenzsensitiven Anforderungen der Produktionsinferenz auszuführen [cite: 1, 2]. Dieser einheitliche Ansatz dominierte die Branche von der Einführung der ersten Hardwarebeschleuniger bis zur Bereitstellung der siebten Generation der Google Cloud Tensor Processing Unit (TPU) [cite: 2, 3, 4].

Da Grenzmodelle jedoch auf Billionen von Parametern skaliert werden und Architekturen für Echtzeit-Reasoning wie Mixture-of-Experts (MoE) und kontinuierliche agentische Feedbackschleifen zum Standard werden, haben sich die Hardwareanforderungen für Training und Bereitstellung unwiderruflich auseinanderentwickelt [cite: 5, 6, 7]. Das Vortraining hat sich zu einem Bandbreiten- und Durchsatzoptimierungsproblem entwickelt, das enorme Scale-up-Funktionen, eine massive bisektionale Bandbreite für die Verbindung und eine kontinuierliche Matrix-Math-Sättigung erfordert [cite: 6]. Umgekehrt hat sich die agentische Bereitstellung zu einem latenz- und speichergebundenen Problem entwickelt, das durch die Geschwindigkeit begrenzt wird, mit der Gewichte und Schlüssel/Wert-Caches (KV-Caches) an Verarbeitungskerne gestreamt werden können, ohne dass es zu Engpässen bei globalen Synchronisierungsvorgängen kommt [cite: 6, 8].

Da die Ausführung beider Arbeitslasten auf identischen Siliziumchips zu systemischen Ineffizienzen und abnehmenden wirtschaftlichen Erträgen führt, hat Google die beispiellose architektonische Entscheidung getroffen, die achte Generation der TPU-Reihe zu teilen [cite: 1, 6, 9]. Das Ergebnis sind zwei unterschiedliche, hochspezialisierte Chips, die bis hinunter zur Lieferkette entwickelt wurden: die TPU 8t, die für einen immensen Trainingsdurchsatz im Supercomputer-Maßstab entwickelt wurde, und die TPU 8i, die entwickelt wurde, um die Inferenzspeicherwand zu durchbrechen und die kollektive Latenz für globales Reasoning zu minimieren [cite: 7, 9].

In diesem umfassenden Recherchebericht werden die Unterschiede in Architektur, Leistung und Skalierung zwischen der einheitlichen Baseline der TPU 7x und den neu aufgeteilten TPUs 8t und 8i analysiert. Durch eine umfassende Untersuchung von Logikdesign, mehrstufigen Speicherhierarchien, Topologien für die Verbindung von Rechenzentren, optischer Schaltung und Hardware-Software-Co-Design wird in dieser Analyse erläutert, wie spezialisiertes Silizium erforderlich ist, um die wirtschaftliche und rechenintensive Skalierung der nächsten Generation von künstlicher Intelligenz aufrechtzuerhalten.

Historischer Kontext: Der Weg zur Spezialisierung

Um die architektonischen Neuerungen der achten Generation vollständig zu verstehen, ist es wichtig, die iterative Entwicklung der TPU-Familie nachzuvollziehen. Die Hardwareentwicklung von Google hat stets die vorherrschenden Engpässe moderner Modelle für maschinelles Lernen berücksichtigt und sich von der einfachen Inferenzbeschleunigung zu umfangreichen Trainingsstrukturen auf Clusterebene entwickelt [cite: 10, 11].

Von der Inferenz zu riesigen Matrix-Arrays

Google hat die TPU v1 im Jahr 2015 als reinen Inferenzbeschleuniger eingeführt, um die wachsende Rechenlast interner Dienste wie die Google Suche, Google Übersetzer und YouTube-Empfehlungen zu bewältigen [cite: 11, 12]. In der Version 1 wurde 8‑Bit-Ganzzahlmathematik verwendet, um im Vergleich zu Allzweck-Zentraleinheiten (CPUs) und Grafikprozessoren (GPUs) [cite: 10, 11] eine Größenordnung an Verbesserungen bei den Operationen pro Watt zu erzielen. 2017 markierte die TPU v2 den Übergang zu Trainingsfunktionen und führte das bfloat16-Format (BF16) ein, ein 16-Bit-Gleitkommaformat, das den dynamischen Bereich von 32-Bit-Gleitkommazahlen beibehielt und gleichzeitig den Arbeitsspeicherverbrauch halbierte [cite: 10].

Bei den Generationen 3 bis 5 wurde die zentrale Recheneinheit, die Matrixmultiplikationseinheit (Matrix-Multiply Unit, MXU), optimiert. Über mehrere Generationen hinweg blieb die MXU ein systolisches Array mit 128 × 128, das 16.384 Multiplikations-/Akkumulationsvorgänge gleichzeitig ausführen konnte [cite: 4, 10]. Mit der TPU v4 wurde der „SparseCore“ eingeführt, ein dedizierter Hardwareblock, der speziell für die Beschleunigung von Embedding-Lookups und unregelmäßigen Speicherzugriffen entwickelt wurde. Dadurch wird verhindert, dass die MXU während des Trainings von Empfehlungsmodellen ins Stocken gerät [cite: 4, 6].

Die topografische Entwicklung und Trillium (v6e)

Mit zunehmender Modellgröße entwickelten sich die Interconnect-Topologien, die zum Synchronisieren von Gradienten über Tausende von Chips hinweg erforderlich sind. Google setzte für kleinere, kostengünstige Pods (wie v5e und v6e) eine 2D-Torus-Topologie ein, die die Skalierung auf bis zu 256 Chips vereinfachte [cite: 4, 10]. Für leistungsoptimierte Varianten (wie v4 und v5p) verwendete Google eine 3D-Torus-Topologie, die Chips in einem dreidimensionalen Wrap-around-Raster verband, um die Kommunikationslatenz bei größeren Pod-Größen von 4.096 bis 8.960 Chips zu senken [cite: 4].

Der unmittelbare Vorläufer der modernen Ära war die TPU v6e (Trillium), die Ende 2024 veröffentlicht wurde. Trillium stellte einen enormen architektonischen Sprung dar,da die MXU von einem 128 × 128-Array auf ein 256 × 256-Array erweitert wurde [cite: 10]. Dadurch vervierfachte sich die Anzahl der Multiplikations- und Akkumulationsvorgänge pro Zyklus. In Kombination mit einer verdoppelten Inter-Chip Interconnect (ICI)-Bandbreite von 3.200 Gbit/s (13 TB/s aggregierte bidirektionale Bandbreite) und 32 GB High-Bandwidth Memory (HBM) pro Chip lieferte Trillium das 4, 7-fache der maximalen Rechenleistung des Vorgängers bei einer um 67% höheren Energieeffizienz [cite: 10, 11].

TPU-Generation	Erscheinungsjahr	Primäre Innovation	Topologie und maximale Pod-Größe	MXU-Architektur	Maximale Rechenleistung pro Chip
TPU v2	2017	Erstes Training möglich (BF16)	2D-Torus (512 Chips)	128 × 128	~45 TFLOPS
TPU v4	2021	Einführung von SparseCore	3D-Torus (4.096 Chips)	128 × 128	275 TFLOPS
TPU v5e	2023	Kostenoptimierte Effizienz	2D-Torus (256 Chips)	128 × 128	197 TFLOPS
TPU v5p	2023	Leistungssteigerung	3D-Torus (8.960 Chips)	128 × 128	459 TFLOPS
TPU v6e (Trillium)	2024	256 × 256 MXU-Erweiterung	2D-Torus (256 Chips)	256 × 256	918 TFLOPS

Das Apex der einheitlichen Architektur: TPU 7x

Die TPU 7x der siebten Generation, die Ende 2025 allgemein verfügbar sein wird, ist der Höhepunkt der einheitlichen Architekturstrategie von Google. Sie wurde entwickelt, um sowohl das Pre-Training im Grenzbereich als auch die dekodierungsintensive Inferenz in einem einzigen Architektur-Framework auszuführen. Die TPU 7x hat die Grenzen dessen, was ein Dual-Purpose-Beschleuniger leisten kann, verschoben [cite: 3, 10].

Dual-Chiplet-Design und AlphaChip-Optimierung

Die physische Konstruktion der TPU 7x stellte eine drastische Abkehr von der Architektur mit einem einzelnen logischen Kern (MegaCore) dar, die in der v4 und v5p zu finden ist [cite: 3]. TPU 7x verwendet eine Dual-Chiplet-Architektur. Jeder vollständige TPU 7x-Chip besteht aus zwei separaten, in sich geschlossenen Chiplets, die über eine proprietäre Hochgeschwindigkeits-Chip-zu-Chip-Schnittstelle (D2D) verbunden sind [cite: 3]. Diese D2D-Verbindung ist sechsmal so schnell wie eine standardmäßige eindimensionale ICI-Verbindung. So können die Chiplets schnell kommunizieren und gleichzeitig ihre eigenen dedizierten Speicherbereiche beibehalten [cite: 3].

Der TPU 7x-Chip enthält zwei TensorCores und vier SparseCores [cite: 3]. Die physische Anordnung dieser Kerne auf der Siliziummatrix wurde mit AlphaChip, dem proprietären Tool von Google für Reinforcement Learning, optimiert, um die Kabellänge zu minimieren und die thermische Effizienz zu maximieren [cite: 10]. Bei einer Standardkonfiguration für virtuelle Maschinen (VMs) für TPU 7x werden vier Chips mit einem CPU-Host verbunden, wodurch 224 vCPUs und 960 GB RAM verfügbar sind [cite: 3].

Mehrstufige Speicherhierarchie und präzise Formatierung

Ein kritischer Engpass bei der Verarbeitung von dichten und MoE-Modellen ist die kontinuierliche Übertragung von Daten zwischen Speicherebenen. Die TPU 7x verfügt über ein robustes mehrstufiges Speichersystem, das die erweiterten MXUs gesättigt hält: * High-Bandwidth Memory (HBM3E): Jeder TPU 7x-Chip ist mit 192 GB HBM ausgestattet, was eine enorme Speicherbandbreite von 7,37 TB/s (7.380 GBps) bietet [cite: 3, 10]. Diese sechsfache Kapazitätssteigerung gegenüber Trillium ermöglicht deutlich größere Batchgrößen beim Training und ermöglicht es, größere KV-Caches während der Inferenz auf dem Chip zu behalten. So werden kostspielige Latenzspitzen vermieden, die mit dem Auslagern in den langsameren Hostspeicher verbunden sind [cite: 4, 10, 13]. * Vektorspeicher (VMEM): Jeder TensorCore verfügt über 64 MiB VMEM (insgesamt 128 MB pro Chip), der als ultraschneller On-Chip-SRAM-Scratchpad dient. Der VMEM bietet eine deutlich höhere Bandbreite zum MXU als der HBM [cite: 3, 14]. Durch die bereichsbezogene VMEM-Optimierung können Entwickler Speicher zwischen dem aktuellen Rechenbereich und dem zukünftigen Vorabruf von Gewichten neu zuweisen. So können größere Kernel-Kachelgrößen (z. B. die in Flash Attention verwendeten) verwendet und Speicherblockierungen reduziert werden [cite: 13, 14]. * Hostspeicher (PCIe): Der Hostspeicher des Systems ist über ein PCIe-Netzwerk verbunden und wird verwendet, um Optimierungsstatus und Aktivierungen auszulagern und den Arbeitsspeicherbedarf für Modelle zu verwalten, die die HBM-Kapazität überschreiten [cite: 3, 14].

Außerdem wurde mit der TPU 7x die native Hardwarebeschleunigung für die 8‑Bit-Gleitkomma-Präzision (FP8) eingeführt [cite: 4, 13]. Durch die Migration von Standard-16‑Bit-Formaten (BF16 oder FP16) wird der maximale Rechen-Durchsatz mit FP8 effektiv verdoppelt, während der für das Speichern von Gewichten und Aktivierungen erforderliche Speicherbedarf halbiert wird [cite: 4, 13]. Bei nativem Betrieb in FP8 bietet ein einzelner TPU 7x-Chip eine maximale Rechenleistung von 4.614 TFLOPS im Vergleich zu 2.307 TFLOPS bei Betrieb in BF16 [cite: 3, 4].

3D-Torus-Topologie und Superpod-Skalierung

Auf Rechenzentrumsebene basiert die TPU 7x auf der bewährten 3D-Torus-Interconnect-Topologie von Google [cite: 3]. Bei dieser Architektur ist jeder Chip direkt mit seinen nächsten Nachbarn entlang der X-, Y- und Z-Achse verbunden, was zu einem robusten dreidimensionalen Mesh führt [cite: 3]. Die Kommunikation innerhalb dieses Mesh wird durch eine ICI-Bandbreite von 1,2 TB/s (1.200 GB/s) pro Chip ermöglicht, die eine bidirektionale Kommunikation mit 200 GB/s pro Achse ermöglicht [cite: 3].

Ein vollständig realisierter TPU 7x-Superpod lässt sich auf immense 9. 216 flüssigkeitsgekühlte Chips skalieren.In dieser Konfiguration bietet der Pod eine aggregierte FP8-Rechenleistung von 42,5 Exaflops [cite: 8, 10]. Slices mit mehr als 64 Chips werden aus modularen 4 × 4 × 4-„Cubes“ von Chips aufgebaut, was hochflexible Topologien ermöglicht, die von Einzelhostkonfigurationen bis hin zu massiven Multihostumgebungen reichen [cite: 3].

Trotz seiner enormen Leistungsfähigkeit war die einheitliche Natur von TPU 7x mit Kompromissen verbunden. Die 3D-Torus-Topologie ist zwar sehr effizient für die lokale, vorhersehbare Gradientensynchronisierung, die beim Vortraining erforderlich ist, führt aber zu einem hohen Netzwerkdurchmesser. Ein Pod mit 1.024 Chips auf einem 3D-Torus hat beispielsweise einen maximalen Netzwerkdurchmesser von 16 Hops [cite: 15, 16]. In einem MoE-Inferenzszenario, in dem Tokens schnell zu Expertenschichten weitergeleitet werden müssen, die sich an beliebiger Stelle im Pod befinden, führt diese Distanz von 16 Hops zu inakzeptablen All-to-All-Tail-Latenzen [cite: 6, 15, 16]. Außerdem wurde durch die Zuweisung von wertvoller Siliziumfläche für SparseCores, die sich durch das Einbetten von Lookups auszeichnen, der Platz verringert, der für kollektive Reduktions-Engines verwendet werden konnte, die für agentische Chain-of-Thought-Workflows entscheidend sind [cite: 6, 15]. Die Branche hatte die physischen Grenzen des „Einheitsbeschleunigers“ erreicht.

Die strategische Bifurkation: Wirtschaftliche und architektonische Faktoren

Der Übergang von der siebten zur achten Generation von TPUs stellt den wichtigsten architektonischen Wandel in der Geschichte von Google dar [cite: 9]. Die auf der Google Cloud Next 2026 angekündigte Aufteilung der TPU-Linie in zwei verschiedene Produktfamilien – TPU 8t für das Training und TPU 8i für die Inferenz – berücksichtigt, dass die Arbeitslasten, die das nächste Jahrzehnt der künstlichen Intelligenz prägen werden, auf Hardwareebene grundsätzlich unvereinbar sind [cite: 1, 2, 17].

Die Ursache für diese Aufteilung liegt in den unterschiedlichen wirtschaftlichen und betrieblichen Intensitäten der KI-Entwicklung. Das Trainieren eines Frontier-Modells ist eine sehr kapitalintensive, einmalige Betriebsausgabe, die in kontinuierlicher Rechenleistung über Wochen oder Monate gemessen wird [cite: 9]. Sie erfordert maximale Rechenleistung, eine beispiellose Bandbreite für die Scale-up-Verbindung und einheitliche Speicherbereiche mit mehreren Petabyte, die multimodale Datasets mit Leitungsgeschwindigkeit aufnehmen können [cite: 9].

Die Inferenz hingegen ist ein laufender Betriebskostenfaktor, der linear oder exponentiell mit der Nutzernachfrage skaliert wird [cite: 9]. Im aufkommenden „Agentic Era“ sagt ein KI-Modell nicht nur das nächste Token voraus, um einen Textblock zu generieren. Es führt aktiv logische Schlussfolgerungen durch, simuliert zukünftige Szenarien, durchläuft „Imagination“, ruft externe APIs auf und interagiert in kontinuierlichen Feedbackschleifen mit einer Vielzahl anderer spezialisierter Agents [cite: 5, 7, 15]. Für diese Dynamik ist sehr viel Arbeitsspeicher erforderlich, um aktive Kontextfenster zu speichern, und eine extrem niedrige Netzwerklatenz für das Expertenrouting und die globale Synchronisierung [cite: 15, 16].

Durch die Aufteilung der Produktlinie hat Google die Hardware tief in der Lieferkette optimiert. Die TPU 8t wurde in Zusammenarbeit mit Broadcom entwickelt. Die Partnerschaft zwischen Google und Broadcom besteht seit 2015 [cite: 9, 17, 18]. Die Expertise von Broadcom in komplexen, schnellen SerDes-Verbindungen, fortschrittlichen Verpackungen und Netzwerken im großen Maßstab machte das Unternehmen zum idealen Partner, um die physischen Grenzen des Trainingsnetzwerks zu erweitern [cite: 17, 19].

Für den Inferenzchip hat Google mit der Tradition gebrochen und sich mit MediaTek zusammengetan, um die TPU 8i zu entwickeln [cite: 9, 17, 18]. Google nutzte die umfassende Expertise von MediaTek im Bereich energieeffizienter, hochvolumiger mobiler SoC-Designs und entwickelte einen hochgradig kostenoptimierten Inferenzbeschleuniger [cite: 17, 19]. Die TPU 8i hat ein einfacheres Design (ein Compute-Die im Vergleich zu den zwei der TPU 8t), das Berichten zufolge 20% bis 30% günstiger in der Herstellung ist als herkömmliche Hochleistungsvarianten. So kann Google seine globale Serving-Kapazität wirtschaftlich skalieren, um den Anforderungen von Unternehmens- und Verbraucheranwendungen gerecht zu werden [cite: 9, 17]. Beide Chips werden im fortschrittlichen 2-Nanometer-Prozessknoten von TSMC gefertigt und nutzen das hochmoderne CoWoS-Advanced-Packaging, um die Logik-Dies mit hohen HBM-Stacks zu integrieren [cite: 9, 19].

Die Marktvalidierung für diese zweigeteilte Strategie erfolgte sofort. Anthropic, eine führende KI-Forschungsorganisation, hat ihre Milliarden-Dollar-Vereinbarung mit Google Cloud erweitert und sich bis 2027 zu einer Rechenleistung von 3,5 Gigawatt verpflichtet.Das Unternehmen ist der Hauptkunde für die TPU 7x- und die Plattformen der achten Generation [cite: 9, 10, 20].

Analyse: TPU 8t (die Vorabtrainings-Powerhouse)

Die TPU 8t ist eine kompromisslose technische Errungenschaft, die darauf abzielt, den Entwicklungszyklus von Grenzmodellen mit Billionen von Parametern von Monaten auf Wochen zu verkürzen [cite: 5, 21]. Das wird nicht nur durch eine Erhöhung der Roh-Taktfrequenzen erreicht, sondern auch durch eine Umstrukturierung der Präzision mathematischer Operationen, eine enorme Steigerung der Bandbreite zwischen den Chips und eine Minderung der lähmenden Engpässe bei der Datenerfassung, die massive Trainingscluster plagen [cite: 6, 15].

Dual-Die-Compute-Architektur und native FP4

Die TPU 8t nutzt eine sehr komplexe Architektur mit zwei Rechen-Dies und einem I/O-Chiplet, flankiert von acht Stapeln mit jeweils 12 HBM3E-Speicherchips [cite: 9]. Diese dichte Bauweise erfordert ein fortschrittliches Wärmemanagement, das auf der Flüssigkeitskühlung der vierten Generation von Google basiert, um die immense Wärme abzuleiten, die durch anhaltende Matrixoperationen erzeugt wird [cite: 7, 17, 22].

Eine grundlegende Weiterentwicklung der TPU 8t ist die Einführung der nativen 4‑Bit-Gleitkomma-Präzision (FP4) [cite: 6, 15]. Die mathematischen Anforderungen des Vortrainings bevorzugen stark den Durchsatz gegenüber extremer numerischer Präzision. Durch die Reduzierung der nativen Ausführung von FP8 auf FP4 verdoppelt die TPU 8t effektiv den Durchsatz der MXU und halbiert gleichzeitig die Anzahl der Bits, die pro Parameter physisch über den Chip übertragen werden müssen [cite: 6, 15]. Diese erhebliche Reduzierung der Datenübertragung minimiert energieintensive Speicherabrufe und ermöglicht es, dass größere Modellebenen problemlos in lokale Hardwarepuffer passen [cite: 6, 15].

Damit der Chip weiterhin gesättigt bleibt, wird in der TPU 8t eine ausgewogenere Skalierung der Vector Processing Unit (VPU) implementiert. Dadurch kann das Silizium wichtige sequenzielle Aufgaben wie Quantisierung, Softmax und Layernorms mit den umfangreichen Matrixmultiplikationen in der MXU überlappen. So wird die Zeit, in der die Rechenkerne ansonsten inaktiv wären, praktisch eliminiert [cite: 6, 15]. Dank dieser architektonischen Optimierungen bietet ein einzelner TPU 8t-Chip beeindruckende 12, 6 PFLOPs an FP4-Rechenleistung [cite: 15, 23].

Außerdem behält die TPU 8t im Gegensatz zu ihrem auf Inferenz ausgerichteten Geschwistermodell die in früheren Generationen eingeführten speziellen SparseCore-Blöcke bei [cite: 1, 6, 15]. Arbeitslasten mit vielen Einbettungen, die in multimodalen Fundierungsmodellen und Empfehlungssystemen üblich sind, weisen unregelmäßige Speichermuster auf, die herkömmliche GPUs beeinträchtigen. Der SparseCore arbeitet asynchron und lagert datenabhängige All-Gather-Operationen und Embedding-Lookups aus [cite: 6, 15]. Durch die Trennung von Berechnungen mit dichten Matrizen auf die MXU und von Berechnungen mit spärlichen Matrizen auf den SparseCore vermeidet die TPU 8t die Engpässe durch „Null-Operationen“, die zu Berechnungsunterbrechungen führen [cite: 6, 15].

Bandbreite, Speicheraufnahme und TPUDirect

Um die massiv beschleunigten MXUs, die in FP4 arbeiten, zu versorgen,benötigt die TPU 8t eine extrem hohe lokale und aggregierte Bandbreite. Jeder Chip verfügt über 216 GB HBM3e, die mit 6.528 GB/s arbeiten [cite: 15, 24]. Bei Frontier-Modellen verschiebt sich die Systembeschränkung jedoch oft von der Verarbeitungsgeschwindigkeit des Siliziums zur Geschwindigkeit, mit der das Rechenzentrum Petabyte an Trainingsdaten aus dem Kaltlager aufnehmen kann.

Um den herkömmlichen Engpass im Datenpfad zu umgehen, hat Google TPUDirect RDMA und TPUDirect Storage [cite: 5, 6, 10] integriert. Diese Protokolle ermöglichen den direkten Speicherzugriff (Direct Memory Access, DMA) zwischen dem High-Bandwidth-Speicher der TPU und verwalteten Netzwerkspeicher-Arrays wie Google Cloud Managed Lustre 10T [cite: 6, 15]. Durch das direkte Weiterleiten von Daten vom parallelen Lustre-Dateisystem an die TPU über die Netzwerkschnittstellenkarte (Network Interface Card, NIC) umgeht TPUDirect die Host-CPU und den DRAM des Hosts vollständig [cite: 6]. Dieser spezielle Datenpfad bietet eine 10-fache Beschleunigung der Speicherzugriffsgeschwindigkeiten im Vergleich zum Training auf der TPU 7x-Generation. So können die TPU 8t-Recheneinheiten multimodale Datasets mit Leitungsgeschwindigkeit aufnehmen, ohne dass es zu Engpässen kommt [cite: 5, 6, 15].

Infrastruktur im Megamaßstab: Das Virgo-Netzwerk

Die beeindruckendste architektonische Leistung des TPU 8t-Ökosystems ist seine Netzwerkfähigkeit, die die Systembeschränkung von der lokalen Rechenleistung auf die Bandbreite im Rechenzentrum verlagert [cite: 25, 26].

Die TPU 8t behält zwar die grundlegende 3D-Torus-Verbindung für die lokale Pod-Kommunikation bei – sie lässt sich auf bis zu 9.600 Chips und beispiellose 2 Petabyte gemeinsam genutzten HBM in einem einzelnen Superpod skalieren –, die Scale-out-Fabric wurde jedoch vollständig neu gestaltet [cite: 5, 6, 15]. Der Superpod erreicht eine aggregierte FP4-Rechenleistung von 121 ExaFLOPS, was einer Steigerung um das 2,8-Fache gegenüber den 42,5 ExaFLOPS der TPU 7x entspricht [cite: 6]. Um dies zu unterstützen, wurde die ICI-Bandbreite innerhalb des Pods auf 19,2 Tb/s pro Chip verdoppelt [cite: 4, 6, 10].

Um jedoch Hunderte dieser Superpods zu verbinden, hat Google das Virgo-Netzwerk entwickelt [cite: 1, 6]. Das Vorgängernetzwerk Jupiter nutzte eine dreischichtige Clos-Topologie, bei der der Traffic über mehrere Switch-Ebenen geleitet wurde, was zu Latenz- und Bandbreitenengpässen führte (maximal 100 Gbit/s pro Chip) [cite: 25].

Virgo ist ein Scale-out-Fabric, das auf Switches mit hohem Radix (256 bis 512 Ports) basiert und eine flache, zweischichtige, nicht blockierende Topologie verwendet [cite: 6, 15, 25]. Durch das physische Entfernen von Netzwerkebenen wird die Latenz durch Virgo drastisch reduziert. Das Netzwerk nutzt ein Multi-Planar-Design mit unabhängigen Steuerungsbereichen, das eine Steigerung der Bandbreite des Data Center Network (DCN) um bis zu 400% (4‑fach) ermöglicht und 400 Gbit/s pro Chip erreicht [cite: 6, 15, 24].

Ein einzelnes Virgo-Fabric kann über 134.000 TPU 8t-Chips in einem einzigen Rechenzentrum verbinden und bietet eine unvorstellbare nicht blockierende bisektionale Bandbreite von 47 Petabit pro Sekunde [cite: 1, 6, 15]. Darüber hinaus ermöglicht die TPU 8t in Kombination mit der Pathways-Software von Google und dem JAX-Framework, dass verteilte Trainingscluster auf über eine Million Chips an mehreren geografischen Standorten als einzelner logischer Trainingsjob skaliert werden können [cite: 1, 6, 15]. Durch diese Leistung wird die global verteilte Infrastruktur in einen einzigen, nahtlosen Supercomputer verwandelt, der die aktuellen Skalierungsbeschränkungen für Allzweck-GPUs [cite: 27] deutlich übertrifft.

Autonome Rekonfiguration und 97% Goodput

Bei Hunderttausenden von Chips sind Hardwarefehler – von durchgebrannten Transceivern bis hin zur thermischen Drosselung – statistische Gewissheiten und keine Grenzfälle. In Legacy-Systemen konnte ein einzelner Netzwerkfehler einen umfangreichen Trainingslauf stoppen, was einen mühsamen und kostspieligen Rollback zu einem vorherigen Prüfpunkt erforderte. Bei der Grenzskalierung entspricht jeder Prozentpunkt an Effizienzverlust Tagen aktiver Trainingszeit [cite: 5, 6].

Das TPU 8t-Ökosystem zielt auf einen „Goodput“ von über 97 % ab. Dieser Messwert definiert das Verhältnis von nützlicher, produktiver Rechenzeit zur gesamten Betriebszeit [cite: 6, 28]. Dies wird durch fortschrittliche RAS-Funktionen (Reliability, Availability, and Serviceability) erreicht, die auf Optical Circuit Switching (OCS) basieren [cite: 5, 6, 25]. Durch die Echtzeittelemetrie, die Zehntausende von Chips analysiert, kann das System fehlerhafte Inter-Chip-Verbindungen autonom erkennen. Das OCS leitet optische Lichtpfade physisch um, um Hardwarefehler in Echtzeit zu umgehen. Dies erfordert keine menschliche Intervention und unterbricht vor allem nicht den aktiven Trainingsjob [cite: 5, 6, 28].

Im Detail: TPU 8i (The Reasoning Engine)

Wenn die TPU 8t ein Beispiel für extreme, brute-force-Skalierung ist, ist die TPU 8i ein Meisterwerk der Latenzoptimierung und Speicherarchitektur [cite: 6]. Wenn Modelle in die Echtzeitproduktion übergehen, insbesondere massive Mixture-of-Experts-Modelle (MoE) und Agentenschwärme, wird der Rohdurchsatz für die Berechnung weniger relevant als die Geschwindigkeit, mit der auf den Speicher zugegriffen und Daten im Netzwerk weitergeleitet werden können [cite: 21, 29].

Die Speichergrenze für Inferenz durchbrechen

Bei der autoregressiven Generierung generiert ein Modell Ausgabetokens sequenziell. Bei jedem neu generierten Token muss das Modell auf einen wachsenden Verlauf aller vorherigen Tokens und ihrer mathematischen Beziehungen verweisen, der als Key-Value-Cache (KV-Cache) bezeichnet wird [cite: 1, 13]. Bei Modellen mit langem Kontext, die Hunderttausende von Tokens analysieren, nimmt dieser KV-Cache enorm an Größe zu. Wenn der Cache die Kapazität des schnellen Onboard-Speichers des Chips überschreitet und in den langsameren Host-CPU-Speicher überläuft, kommt der gesamte Rechenprozess zum Stillstand. Dieses Phänomen ist als „Memory Wall“ [cite: 5, 8] bekannt.

Die TPU 8i wurde speziell entwickelt, um diese Grenze zu überwinden. Obwohl sie ein einfacheres, kostengünstigeres Siliziumdesign ist – mit einem einzelnen Rechenchip und einem I/O-Chip mit sechs HBM3e-Stacks –, sind ihre Speicherkapazitäten stark für die Bereitstellung optimiert [cite: 9]. * HBM-Kapazität und ‑Bandbreite:Jede TPU 8i ist mit 288 GB HBM3E ausgestattet, was einer Kapazitätssteigerung von 50% gegenüber der TPU 7x entspricht [cite: 5, 24, 30]. Da große MoE-Modelle während der Inferenz speicherbandbreitenbeschränkt sind, wird die Speicherbandbreite auf 8,6 TB/s (~8.601 GB/s) erhöht – etwa 1,3-mal schneller als die auf das Training ausgerichtete TPU 8t [cite: 10, 15]. * Massiver On-Chip-SRAM:Die wichtigste Hardwareänderung ist die Einbeziehung von 384 MB On-Chip-SRAM (Static Random-Access Memory) pro Chip [cite: 10, 15, 30]. Dies entspricht einer massiven Steigerung von 300% (3-fach) gegenüber der TPU 7x und der TPU 8t [cite: 10, 15, 30]. SRAM ist der absolut schnellste Speicher mit der geringsten Latenz, der direkt auf der Siliziummatrix verfügbar ist. Durch die Verdreifachung dieser Kapazität kann die TPU 8i massive KV-Caches vollständig auf dem Chip hosten [cite: 15, 16]. Dadurch wird verhindert, dass die Verarbeitungskerne im Leerlauf sind, während auf Tokenverläufe aus langsameren Speicherebenen gewartet wird. So können Reasoning-Schleifen mit hoher Parallelität mit beispielloser Fluidität ausgeführt werden [cite: 5, 15].

Collectives Acceleration Engine (CAE)

Da die TPU 8i auf die Inferenz ausgerichtet ist, wurde die in der 7x und 8t für das Nachschlagen von Einbettungen verwendete SparseCore-Einheit für diese spezielle Arbeitslast als ineffiziente Nutzung von Siliziumfläche angesehen. An ihrer Stelle führten Google-Ingenieure einen proprietären Hardwareblock ein, der als Collectives Acceleration Engine (CAE) [cite: 10, 15] bezeichnet wird.

Während der autoregressiven Dekodierung und der Verarbeitung von „Chain-of-Thought“ müssen unterschiedliche Kerne ihre individuellen Berechnungen häufig unterbrechen, um ihre mathematischen Ergebnisse über den Chip hinweg zu aggregieren, zu reduzieren und zu synchronisieren [cite: 6, 15]. Diese globalen Synchronisierungsvorgänge können die Latenz erheblich beeinträchtigen, insbesondere wenn Tausende von unabhängigen Agenten gleichzeitig ein Problem bearbeiten.

Auf jedem TPU 8i-Chip befinden sich zwei TensorCores auf den Core-Dies und ein CAE auf dem Chiplet-Die (als Ersatz für die vier SparseCores der TPU 7x) [cite: 6, 15]. Der spezielle CAE wurde entwickelt, um Ergebnisse über Kerne hinweg mit nahezu null Latenz zu aggregieren. Dies führt zu einer außergewöhnlichen Reduzierung der On-Chip-Kollektivlatenz um das Fünffache im Vergleich zur TPU 7x-Generation [cite: 10, 15]. Durch die Hardwarebeschleunigung der Reduktionsschritte, die in agentischen Workflows dominieren, sorgt der CAE dafür, dass das System einen hohen Durchsatz beibehält, ohne die Reaktionsfähigkeit in Echtzeit zu beeinträchtigen [cite: 6, 15].

Network Flattening: Die Boardfly-Topologie

Ein wesentliches Merkmal der TPU 8i ist, dass sie die 3D-Torus-Topologie vollständig aufgibt. Ein 3D-Torus ist zwar hervorragend für die Nachbar-zu-Nachbar-Datenübertragung geeignet, die beim Vortraining erforderlich ist, erzeugt aber unannehmbar lange physische Distanzen – gemessen in Netzwerk-Hops – für das All-to-All-Token-Routing, das für MoE-Inferenzmodelle erforderlich ist [cite: 2, 15]. In MoE-Architekturen muss ein beliebiges Token möglicherweise an eine bestimmte „Expert“-Ebene weitergeleitet werden, die sich auf einem völlig anderen Chip im Pod befindet. Auf einem herkömmlichen Torus muss dieses Datenpaket sequenziell durch zwischengeschaltete Chips übertragen werden, um sein Ziel zu erreichen.

Um dieses Problem zu beheben, hat Google eine neue, für die Bereitstellung optimierte Netzwerkarchitektur namens Boardfly entwickelt [cite: 15, 31]. Boardfly basiert auf den Prinzipien der Dragonfly-Topologie und ist ein hierarchisches Netzwerk mit hohem Radix, das die Architektur stark abflacht und den physischen Abstand zwischen zwei beliebigen Chips minimiert [cite: 2, 15, 26].

Die Boardfly-Topologie ist hierarchisch aufgebaut: 1. Der Baustein:Vier vollständig verbundene TPU 8i-Chips bilden einen grundlegenden Baustein mit internen ICI-Verbindungen [cite: 6, 16]. 2. Das Board:Acht Bausteine sind über direkte Kupferkabel vollständig miteinander verbunden und bilden ein einzelnes Board [cite: 6, 16]. 3. Der Pod:36 Gruppen werden dann über optische Schalter und direkte optische Fernverbindungen vollständig miteinander verbunden,um einen einheitlichen Pod mit 1.152 Chips zu bilden [cite: 5, 6, 16, 32].

Die Latenz dieses Ansatzes ist sehr gering. In einer Standardkonfiguration mit 1.024 Chips in einem 3D-Torus muss ein Datenpaket möglicherweise einen maximalen Netzwerkdurchmesser von 16 Hops durchlaufen [cite: 15, 25]. In der Boardfly-Topologie wird dieser maximale Netzwerkdurchmesser auf nur 7 Hops reduziert [cite: 15, 25].

Diese Reduzierung des Netzwerkdurchmessers um 56% führt zu einer massiven Verbesserung der Tail-Latenz um 50% für kommunikationsintensive Inferenzarbeitslasten [cite: 16, 25, 30]. Die Inferenz wird letztendlich durch die Geschwindigkeit des langsamsten Knotens begrenzt. Durch die Reduzierung der Tail-Latenz sorgt die Boardfly-Topologie dafür, dass die CAE nie im Leerlauf ist, während sie darauf wartet, dass Token-Daten den Pod durchlaufen [cite: 6, 15].

Aufgrund dieser hochkohäsiven optischen Verbindung fungiert ein einzelner TPU 8i-Pod mit 1.152 Chips als massive, einheitliche Shared-Memory-Domäne mit 331,8 TB kohärentem HBM [cite: 16].

Vergleichsleistung, Wirtschaftlichkeit und Systeminfrastruktur

Die architektonische Bifurkation führt zu erheblichen Verbesserungen sowohl bei der Rechenökonomie als auch bei der Energieeffizienz. Wenn die Hardware nur auf der Grundlage der theoretischen Spitzenleistung bei Gleitkommaoperationen bewertet wird, werden die systemischen Realitäten des Rechenzentrumsbetriebs und der Softwareaktivierung ignoriert.

Softwareabstraktion und Framework-Unterstützung

Trotz der unterschiedlichen Hardware hat Google stark in die Entwicklung eines einheitlichen, leistungsstarken KI-Softwarestacks investiert, um eine Framework-Bindung zu verhindern. Sowohl die TPU 8t als auch die TPU 8i bieten native Unterstützung für JAX, Keras, MaxText, SGLang und die vLLM-Engine [cite: 5, 8, 14, 17]. Darüber hinaus ermöglicht die native PyTorch-Unterstützung (über TorchTPU) Entwicklern, vorhandene PyTorch-Modelle direkt in die TPU-Umgebung zu portieren, mit voller Unterstützung für native Funktionen wie den Eager Mode [cite: 15, 17].

Im Hintergrund übernimmt der XLA-Compiler (Accelerated Linear Algebra) die komplexe Übersetzung der Boardfly-Topologie und die CAE-Synchronisierung. So können Entwickler hardwarebewusste benutzerdefinierte Kernel in Python (mit Pallas und Mosaic) schreiben, ohne die optischen Verbindungen manuell programmieren zu müssen [cite: 15].

Quantitative Leistungsmesswerte

In der folgenden Tabelle sind die wichtigsten technischen Spezifikationen für die einheitliche TPU 7x-Architektur und die hochspezialisierten TPU 8t- und 8i-Architekturen zusammengefasst [cite: 3, 15, 24].

Spezifikationsmatrix	TPU 7x	TPU 8t	TPU 8i
Primäre Arbeitslast	Einheitlich (Training und Inferenz)	Umfangreiches Vortraining	Latenzempfindliche Inferenz
ASIC-Designpartner	Broadcom	Broadcom	MediaTek
Netzwerktopologie	3D-Torus	3D-Torus + Virgo Scale-Out	Boardfly (inspiriert von der Libelle)
Spezialisierte Hardware	SparseCore	SparseCore	Collectives Acceleration Engine (CAE)
Native Precision Focus	FP8	FP4	FP4 (mit FP8-/INT8-Unterstützung)
Maximale Rechenleistung pro Chip	4,6 PFLOPs (FP8)	12,6 PFLOPs (FP4)	10,1 PFLOPs (FP4)
HBM-Kapazität pro Chip	192 GB	216 GB	288 GB
HBM-Bandbreite	7,37 TB/s	6,52 TB/s	8,60 TB/s
On-Chip-SRAM (VMEM)	128 MB	128 MB	384 MB
Inter-Chip BW (Scale-Up)	9,6 Tb/s	19,2 Tb/s	19,2 Tb/s
Maximale Größe von Pods/Superpods	9.216 Chips	9.600 Chips	1.152 Chips

Kosten-Leistungs- und TCO-Optimierung

Google verspricht mit der achten Generation eine deutliche Verbesserung der Gesamtbetriebskosten. Die TPU 8t bietet eine Steigerung von 170% bis 180 %, was einer 2,7- bis 2,8-fachen Verbesserung der Leistung pro Dollar für das Training im großen Maßstab im Vergleich zur TPU 7x entspricht [cite: 6, 15, 30]. Die TPU 8i bietet eine um 80% verbesserte Leistung pro Dollar für die Inferenz, insbesondere bei den für massive MoE-Modelle erforderlichen niedrigen Latenzzielen [cite: 15, 16, 30].

Diese wirtschaftlichen Vorteile sind nicht nur auf den Siliziumchip zurückzuführen, sondern auf die systemische Integration des gesamten Stacks. In der Vergangenheit wurden TPUs mit handelsüblichen x86-Host-CPUs kombiniert. In Situationen mit intensiver Datenvorverarbeitung oder komplexer Agentenlogik war der x86-Host häufig der Flaschenhals des Systems. Der superschnelle TPU-Siliziumchip war zwar bereit, aber es fehlten Daten [cite: 6, 7].

In der achten Generation wird dieses chronische Ungleichgewicht behoben, indem sowohl der 8t als auch der 8i ausschließlich auf den benutzerdefinierten Axion ARM-basierten Prozessoren von Google gehostet werden [cite: 6, 7, 15]. Die Axion-Hosts basieren auf der Neoverse N3 Armv9.2-Kernarchitektur und bieten eine einheitliche, hochgradig optimierte Grundlage [cite: 18, 19]. Für die inferenzlastige TPU 8i hat Google die Axion-Hosts in einem Verhältnis von 2:1 zwischen TPU und CPU integriert, wodurch sich die Anzahl der physischen CPU-Hosts pro Server im Vergleich zur TPU 7x verdoppelt hat [cite: 5, 6, 32]. Durch die Verwendung einer strikten NUMA-Architektur (Non-Uniform Memory Access) zur Workload-Isolation garantiert das System eine hervorragende Speicherlokalität und beseitigt den Engpass bei der Datenvorbereitung vollständig [cite: 5, 7].

Energieeffizienz und Marktauswirkungen

Energiedichte und Stromverfügbarkeit werden schnell zu den ultimativen Einschränkungen bei der Bereitstellung moderner Rechenzentren. Durch den Einsatz der Flüssigkeitskühlung der vierten Generation und des integrierten Echtzeit-Energiemanagements, das den Stromverbrauch dynamisch an die jeweiligen Arbeitslastphasen anpasst (z.B. aktive Berechnung im Vergleich zum Leerlauf für die Kommunikation), erreichen sowohl die TPU 8t als auch die TPU 8i eine beeindruckende Energieeffizienz [cite: 7, 15, 22, 24]. Die 8t bietet eine Steigerung der Leistung pro Watt um 124 %, die 8i um 117 %. Das führt zu einer insgesamt 2‑fachen (100%+) Verbesserung der Energieeffizienz gegenüber der TPU 7x [cite: 15, 22, 30].

Die Auswirkungen dieser Effizienz sind in den hochmodernen Modellen von Google zu sehen. Benchmarks für die Gemini 3.1 Pro-Vorschau deuten darauf hin, dass die Bereitstellung des Modells auf der TPU 8i-Architektur zu einer Kostensenkung von etwa 50% für Inference APIs führt. Außerdem werden die Reaktionsfähigkeit und die Verarbeitung langer Kontexte deutlich verbessert [cite: 24, 30].

Mitbewerber: Google im Vergleich zu Merchant Silicon

Die Entscheidung von Google, seine Siliziumstrategie zu teilen, hat weitreichende Auswirkungen auf das gesamte Ökosystem für Hardware für künstliche Intelligenz, insbesondere im Hinblick auf den laufenden Wettbewerb mit Anbietern von Merchant-Silizium wie Nvidia und, in geringerem Maße, AMD und AWS (mit seiner Trainium3-Plattform) [cite: 17, 23].

Nvidia hat in der Vergangenheit eine einheitliche Architekturstrategie verfolgt und leistungsstarke, aber für allgemeine Zwecke geeignete Plattformen wie die Blackwell B200 und die Vera Rubin NVL72 für das Vortraining und die Echtzeitinferenz verwendet [cite: 2, 9]. Rein auf die Spezifikationen einzelner Chips bezogen, hat Nvidia bestimmte Vorteile. Die NVLink-Technologie von Nvidia unterstützt beispielsweise Bandbreiten für die Verbindung einzelner Geräte von 14, 4 Tb/s und einzelne Rubin-GPUs bieten etwa 50 PFLOPs an NVFP4-Inferenzberechnungen – deutlich mehr als die 10, 1 PFLOPs der TPU 8i [cite: 2, 9].

Die architektonische Strategie von Google basiert jedoch auf der Überzeugung, dass die Zukunft der künstlichen Intelligenz durch die Effizienz im Cluster-Maßstab bestimmt wird, nicht durch die Spitzenleistung einzelner Chips [cite: 9].

Durch die Umstellung auf die Boardfly-Topologie schafft Google einen vollständig kohärenten, gemeinsamen Arbeitsspeicherpool für alle 1.152 Chips in einem TPU 8i-Pod [cite: 16]. Das ergibt eine aggregierte Pod-Kapazität von 11,6 FP8-Exaflops und 331,8 TB einheitlichem, kohärentem HBM [cite: 6, 16]. Die standardmäßige Nvidia-GPU-Rack-Kohärenz auf dem NVL72 ist dagegen auf 72 GPUs und etwa 20, 7 TB HBM begrenzt [cite: 2, 16]. Um Allzweck-GPUs auf eine Konfiguration mit 1.152 Chips zu skalieren,ist eine Verbindung über etwa 16 separate Racks hinweg erforderlich [cite: 16]. Diese physische Trennung zerstört die tatsächliche Speicherkohärenz und führt zu erheblichen Latenzproblemen, die für kontinuierliche, agentenbasierte Inferenz mit langem Kontext katastrophal sind [cite: 16].

Darüber hinaus verändert Google durch die Verlagerung von Optical Circuit Switching (OCS) in den unteren Teil des Stacks, um die Boardfly-Hierarchie zu ermöglichen, die Lieferkette für optische Netzwerke grundlegend und schafft eine massive nachgelagerte Nachfrage nach speziellen Transceivern und Lasern von Anbietern wie Lumentum und Coherent [cite: 26].

Letztendlich geht die Designphilosophie von Google davon aus, dass das eigentliche Schlachtfeld der späten 2020er-Jahre nicht durch den mathematischen Spitzendurchsatz auf einem einzelnen Silizium-Die bestimmt wird, sondern durch die Fähigkeit, die Memory Wall zu umgehen, standortübergreifende Verbindungen schnell zu skalieren und die absoluten Kosten pro Token für die Bereitstellung von Echtzeit-Agentenschwärmen für Milliarden von Nutzern zu senken [cite: 6, 16, 17].

Fazit

Die Entwicklung der Tensor Processing Units von Google Cloud vom einheitlichen Framework der TPU 7x bis zur hochspezialisierten Dichotomie der TPU 8t und TPU 8i spiegelt die Reifung und Industrialisierung von KI-Arbeitslasten wider. Universelle, einheitliche Siliziumchips, die die Grundlage für den ersten Boom im Bereich Deep Learning bildeten, reichen nicht mehr aus, um die Wirtschaftlichkeit oder die Leistung zu erzielen, die in der extremen Bandbreite des agentenbasierten Zeitalters erforderlich sind.

Die TPU 8t ist ein kompromissloser Versuch, die Skalierung zu optimieren. Durch die Beibehaltung des SparseCore, die Implementierung der nativen FP4-Präzision zur Verdoppelung des MXU-Durchsatzes und die beeindruckenden Funktionen des Virgo-Netzwerks und des TPUDirect-Speichers ist sie darauf ausgelegt, Daten in einem bisher für unmöglich gehaltenen Umfang aufzunehmen und zu verarbeiten. Sie neutralisiert effektiv die Bandbreitenbeschränkungen moderner Rechenzentren und ermöglicht es Millionen von Chips, als eine einzige, global verteilte Pre-Training-Engine zu fungieren.

Die TPU 8i hingegen ist ein Beispiel für die Eliminierung von Latenz und Wirtschaftlichkeit. Durch die Aufgabe des 3D-Torus zugunsten der hierarchischen Boardfly-Topologie, die Verdreifachung des On-Die-SRAM auf 384 MB und die Einführung der Collectives Acceleration Engine zur Beschleunigung der autoregressiven Synchronisierung wird die Inferenzspeicherwand durch die TPU 8i systematisch abgebaut. So wird sichergestellt, dass die massiven KV-Caches, die für komplexe, mehrstufige Agent-basierte Schlussfolgerungen erforderlich sind, lokalisiert und mit nahezu null Latenz zugänglich bleiben. Gleichzeitig werden die Produktionskosten durch ein optimiertes Logikdesign gesenkt.

Die achte Generation, die auf vollständig integrierten ARM-basierten Axion-CPUs gehostet und durch autonomes optisches Schalten von Schaltkreisen verwaltet wird, stellt ein neues Paradigma in der Hyperscale-Infrastruktur dar. Sie ist ein klares architektonisches Statement, dass die Zukunft der künstlichen Intelligenz nicht nur schnellere Chips erfordert, sondern auch grundlegend unterschiedliche Hardware-Frameworks, die genau für die verschiedenen Arbeitslasten entwickelt wurden, für die sie bestimmt sind.

Quellen:1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com