Membangun Arsitektur Era Agentic: Analisis Komparatif Lengkap Google Cloud TPU 7x, TPU 8t, dan TPU 8i

Evolusi kecerdasan buatan dari model bahasa besar dasar hingga sistem agentic multi-langkah yang kompleks telah memicu perubahan paradigma mendasar dalam desain semikonduktor. Selama hampir satu dekade, logika yang berlaku dalam arsitektur akselerator kecerdasan buatan adalah penyatuan. Desainer silikon berupaya merekayasa arsitektur monolitik tunggal yang mampu mengeksekusi workload pra-pelatihan model yang besar dan berat secara bersamaan dengan permintaan inferensi produksi yang sensitif terhadap latensi [cite: 1, 2]. Pendekatan terpadu ini mendominasi industri sejak awal akselerator hardware pertama hingga deployment Google Cloud Tensor Processing Unit (TPU) generasi ketujuh, [cite: 2, 3, 4].

Namun, seiring model canggih diskalakan menjadi triliunan parameter dan arsitektur penalaran real-time—seperti Mixture-of-Experts (MoE) dan loop umpan balik agentik berkelanjutan—menjadi standar, persyaratan hardware untuk pelatihan dan penayangan telah berbeda secara tidak dapat dibatalkan [cite: 5, 6, 7]. Pra-pelatihan telah menjadi masalah pengoptimalan bandwidth dan throughput, yang memerlukan kemampuan peningkatan skala yang luar biasa, bandwidth biseksi interkoneksi yang besar, dan saturasi matematika matriks berkelanjutan [cite: 6]. Sebaliknya, penayangan agentik telah muncul sebagai masalah latensi dan terikat memori, yang dibatasi oleh kecepatan streaming cache bobot dan key-value (KV) ke core pemrosesan tanpa mengalami hambatan pada operasi sinkronisasi global [cite: 6, 8].

Menyadari bahwa memaksakan kedua workload pada silikon yang identik akan menghasilkan inefisiensi sistemik dan mengurangi keuntungan ekonomi, Google membuat keputusan arsitektur yang belum pernah terjadi sebelumnya untuk membagi dua lini TPU generasi kedelapannya [kutipan: 1, 6, 9]. Hasilnya adalah dua chip berbeda yang sangat terspesialisasi dan direkayasa hingga tingkat rantai pasokan: TPU 8t, yang direkayasa untuk throughput pelatihan yang sangat besar dalam skala superkomputer, dan TPU 8i, yang dirancang untuk memecahkan hambatan memori inferensi dan meminimalkan latensi kolektif untuk penalaran global [kutipan: 7, 9].

Laporan riset komprehensif ini menganalisis perbedaan arsitektur, performa, dan penskalaan antara dasar terpadu TPU 7x dan TPU 8t serta TPU 8i yang baru bercabang. Melalui pemeriksaan menyeluruh terhadap desain logika, hierarki memori bertingkat, topologi interkoneksi pusat data, pengalihan sirkuit optik, dan desain bersama hardware-software, analisis ini menjelaskan bagaimana silikon khusus diperlukan untuk mempertahankan penskalaan ekonomi dan komputasi kecerdasan buatan generasi berikutnya.

Konteks Historis: Trajektori Menuju Spesialisasi

Untuk sepenuhnya mengapresiasi perbedaan arsitektur yang diterapkan pada generasi kedelapan, penting untuk menelusuri evolusi iteratif keluarga TPU. Pengembangan hardware Google secara konsisten mencerminkan hambatan yang berlaku pada model machine learning kontemporer, mulai dari akselerasi inferensi sederhana hingga fabric pelatihan skala cluster yang besar [cite: 10, 11].

Dari Inferensi hingga Array Matriks Besar

Google memperkenalkan TPU v1 pada tahun 2015 sebagai akselerator khusus inferensi yang dirancang untuk menangani beban komputasi yang terus meningkat dari layanan internal seperti rekomendasi Penelusuran, Terjemahan, dan YouTube [cite: 11, 12]. v1 menggunakan matematika bilangan bulat 8-bit untuk mencapai peningkatan urutan besarnya dalam operasi per watt dibandingkan dengan unit pemrosesan pusat (CPU) dan unit pemrosesan grafis (GPU) serbaguna [cite: 10, 11]. Pada tahun 2017, TPU v2 menandai transisi ke kemampuan pelatihan, dengan memperkenalkan format bfloat16 (BF16)—format floating point 16-bit yang mempertahankan rentang dinamis float 32-bit sekaligus mengurangi konsumsi memori hingga setengahnya [cite: 10].

Generasi v3 hingga v5 mengoptimalkan mesin komputasi inti—Matrix Multiply Unit (MXU). Selama beberapa generasi, MXU tetap menjadi array sistolik 128x128, yang mampu melakukan 16.384 operasi multiply-accumulate secara bersamaan [cite: 4, 10]. TPU v4 memperkenalkan "SparseCore", blok hardware khusus yang dirancang khusus untuk mempercepat pencarian penyematan dan akses memori yang tidak teratur, sehingga mencegah MXU terhenti selama pelatihan model rekomendasi [cite: 4, 6].

Evolusi Topografi dan Trillium (v6e)

Seiring ukuran model bertambah, topologi interkoneksi yang diperlukan untuk menyinkronkan gradien di ribuan chip pun berkembang. Google men-deploy topologi torus 2D untuk pod yang lebih kecil dan hemat biaya (seperti v5e dan v6e), yang menyederhanakan penskalaan hingga 256 chip [cite: 4, 10]. Untuk varian yang dioptimalkan untuk performa (seperti v4 dan v5p), Google menggunakan topologi torus 3D, yang menghubungkan chip dalam petak tiga dimensi untuk menurunkan latensi komunikasi di seluruh ukuran pod yang lebih besar, mulai dari 4.096 hingga 8.960 chip [cite: 4].

Pendahulu langsung era modern adalah TPU v6e (Trillium), yang dirilis pada akhir tahun 2024. Trillium mewakili lompatan arsitektur yang sangat besar dengan memperluas MXU dari array 128x128 menjadi array 256x256 [cite: 10]. Hal ini melipatgandakan operasi multiply-accumulate per siklus. Jika digabungkan dengan bandwidth interkoneksi antar-chip (ICI) yang dua kali lipat sebesar 3.200 Gbps (bidireksional gabungan 13 TB/s) dan memori ber-bandwidth tinggi (HBM) 32 GB per chip,Trillium memberikan performa komputasi puncak 4, 7 kali lipat dibandingkan pendahulunya sekaligus beroperasi dengan efisiensi energi 67% lebih tinggi [kutipan: 10, 11].

Generasi TPU Tahun Rilis Inovasi Utama Topologi & Ukuran Pod Maksimum Arsitektur MXU Komputasi Puncak per Chip
TPU v2 2017 Kemampuan pelatihan pertama (BF16) Torus 2D (512 chip) 128x128 ~45 TFLOP
TPU v4 2021 Pengantar SparseCore Torus 3D (4.096 chip) 128x128 275 TFLOPS
TPU v5e 2023 Efisiensi yang dioptimalkan untuk biaya Torus 2D (256 chip) 128x128 197 TFLOP
TPU v5p 2023 Peningkatan performa Torus 3D (8.960 chip) 128x128 459 TFLOPS
TPU v6e (Trillium) 2024 Ekspansi MXU 256x256 Torus 2D (256 chip) 256x256 918 TFLOPS

Puncak Arsitektur Terpadu: TPU 7x

Dirilis untuk ketersediaan umum pada akhir tahun 2025, TPU generasi ketujuh 7x, mewakili puncak strategi arsitektur terpadu Google. Didesain untuk menjalankan pelatihan awal berskala besar dan inferensi yang banyak menggunakan decoding dalam satu framework arsitektur, TPU 7x mendorong batas kemampuan akselerator dengan fungsi ganda [cite: 3, 10].

Desain Dual-Chiplet dan Pengoptimalan AlphaChip

Konstruksi fisik TPU 7x menandai perubahan dramatis dari arsitektur inti logis tunggal (MegaCore) yang ditemukan di v4 dan v5p [kutipan: 3]. TPU 7x menggunakan arsitektur chiplet ganda. Setiap chip TPU 7x lengkap terdiri dari dua chiplet berbeda yang mandiri dan terhubung oleh antarmuka die-to-die (D2D) berkecepatan tinggi yang eksklusif [kutipan: 3]. Koneksi D2D ini beroperasi enam kali lebih cepat dari link ICI satu dimensi standar, sehingga memungkinkan chiplet berkomunikasi dengan cepat sambil mempertahankan ruang memori khusus mereka sendiri [kutipan: 3].

Di seluruh chip terpadu, TPU 7x memiliki dua TensorCore dan empat SparseCore [kutipan: 3]. Tata letak fisik inti ini pada matriks silikon dioptimalkan menggunakan AlphaChip, alat pembelajaran reinforcement eksklusif Google, untuk meminimalkan panjang kabel dan memaksimalkan efisiensi termal [kutipan: 10]. Konfigurasi mesin virtual (VM) standar untuk TPU 7x menghubungkan empat chip ke host CPU, yang mengekspos 224 vCPU dan RAM 960 GB [kutipan: 3].

Hierarki Memori Bertingkat dan Pemformatan Presisi

Hambatan penting dalam memproses model padat dan MoE adalah pergerakan data yang berkelanjutan di antara tingkat penyimpanan. TPU 7x memiliki sistem memori multi-tingkat yang tangguh dan dirancang untuk menjaga MXU yang diperluas tetap jenuh: * High-Bandwidth Memory (HBM3E): Setiap chip TPU 7x dilengkapi dengan HBM 192 GB, yang memberikan bandwidth memori yang sangat besar sebesar 7,37 TB/s (7.380 GBps) [cite: 3, 10]. Peningkatan kapasitas enam kali lipat dibandingkan Trillium ini memungkinkan ukuran batch yang jauh lebih besar selama pelatihan dan memungkinkan cache KV yang lebih besar dipertahankan di chip selama inferensi, sehingga mencegah lonjakan latensi yang mahal yang terkait dengan pengalihan ke memori host yang lebih lambat [cite: 4, 10, 13]. * Memori Vektor (VMEM): Sebagai scratchpad SRAM on-chip berkecepatan sangat tinggi, setiap TensorCore memiliki VMEM 64 MiB (total 128 MB per chip). VMEM memiliki bandwidth yang jauh lebih tinggi ke MXU daripada HBM [cite: 3, 14]. Melalui penyesuaian VMEM yang tercakup, developer dapat mengalokasikan ulang memori antara cakupan komputasi saat ini dan pengambilan data berat di masa mendatang, sehingga memungkinkan ukuran petak kernel yang lebih besar (seperti yang digunakan dalam flash attention) dan mengurangi jeda memori [cite: 13, 14]. * Memori Host (PCIe): Terhubung melalui jaringan PCIe, memori host sistem digunakan untuk memindahkan status dan aktivasi pengoptimal, mengelola tekanan memori untuk model yang melebihi kapasitas HBM [cite: 3, 14].

Selain itu, TPU 7x memperkenalkan akselerasi hardware native untuk presisi floating point 8-bit (FP8) [cite: 4, 13]. Dengan bermigrasi dari format 16-bit standar (BF16 atau FP16), representasi FP8 secara efektif menggandakan throughput komputasi puncak sekaligus mengurangi setengah footprint memori yang diperlukan untuk menyimpan bobot dan aktivasi [cite: 4, 13]. Beroperasi secara native di FP8, satu chip TPU 7x memberikan komputasi puncak 4.614 TFLOPS, dibandingkan dengan 2.307 TFLOPS saat beroperasi di BF16 [cite: 3, 4].

Topologi Torus 3D dan Skala Superpod

Di tingkat pusat data, TPU 7x mengandalkan topologi interkoneksi torus 3D yang telah terbukti dari Google [cite: 3]. Arsitektur ini menghubungkan setiap chip secara langsung ke tetangga terdekatnya di seluruh sumbu X, Y, dan Z, sehingga menghasilkan mesh tiga dimensi yang tangguh [kutipan: 3]. Komunikasi dalam mesh ini difasilitasi oleh bandwidth ICI sebesar 1,2 TB/s (1.200 GBps) per chip, yang menyediakan komunikasi dua arah sebesar 200 GBps per sumbu [cite: 3].

Superpod TPU 7x yang sepenuhnya diwujudkan dapat menskalakan hingga 9. 216 chip yang didinginkan dengan cairan.Dalam konfigurasi ini,pod memberikan daya komputasi FP8 gabungan sebesar 42, 5 ExaFlops [cite: 8, 10]. Slice yang lebih besar dari 64 chip dibuat menggunakan "kubus" chip modular 4x4x4, sehingga memungkinkan topologi yang sangat fleksibel mulai dari konfigurasi host tunggal hingga lingkungan multi-host yang besar [cite: 3].

Terlepas dari kemampuannya yang luar biasa, sifat terpadu TPU 7x berarti ia memiliki kompromi inheren. Meskipun topologi torus 3D sangat efisien untuk sinkronisasi gradien yang terlokalisasi dan dapat diprediksi yang diperlukan dalam pra-pelatihan, hal ini menghasilkan diameter jaringan yang tinggi. Misalnya, pod 1.024 chip pada torus 3D memiliki diameter jaringan maksimum 16 hop [kutipan: 15, 16]. Dalam skenario inferensi MoE, di mana token harus dirutekan dengan cepat ke lapisan pakar yang berada di mana saja dalam pod, jarak 16 hop ini menimbulkan latensi ekor all-to-all yang tidak dapat diterima [kutipan: 6, 15, 16]. Selain itu, mendedikasikan area silikon yang berharga untuk SparseCore—yang unggul dalam pencarian penyematan—mengurangi ruang yang dapat digunakan untuk mesin reduksi kolektif yang penting untuk alur kerja chain-of-thought agentik [kutipan: 6, 15]. Industri telah mencapai batas fisik akselerator "satu ukuran cocok untuk semua".

Bifurkasi Strategis: Pendorong Ekonomi dan Arsitektur

Transisi dari TPU generasi ketujuh ke generasi kedelapan merupakan perubahan arsitektur paling signifikan dalam sejarah silikon Google [kutipan: 9]. Diumumkan di Google Cloud Next 2026, bifurkasi lini TPU menjadi dua kelompok produk yang berbeda—TPU 8t untuk pelatihan dan TPU 8i untuk inferensi—mengakui bahwa beban kerja yang mendorong kecerdasan buatan dalam satu dekade mendatang pada dasarnya tidak dapat disatukan di tingkat hardware [kutipan: 1, 2, 17].

Awal mula perpecahan ini terletak pada perbedaan ekonomi dan intensitas operasional pengembangan AI. Melatih model termutakhir adalah pengeluaran operasional satu kali yang sangat padat modal, yang diukur dalam komputasi berkelanjutan selama berminggu-minggu atau berbulan-bulan [kutipan: 9]. Hal ini memerlukan kepadatan komputasi maksimal, bandwidth interkoneksi scale-up yang belum pernah ada sebelumnya, dan domain memori terpadu multi-petabyte yang mampu menyerap set data multimodal pada kecepatan saluran [cite: 9].

Sebaliknya, inferensi adalah biaya operasional berkelanjutan yang diskalakan secara linear—atau eksponensial—dengan permintaan pengguna [cite: 9]. Dalam "Era Agentik" yang sedang berkembang, model AI tidak hanya memprediksi token berikutnya untuk membuat blok teks; model ini secara aktif melakukan penalaran, menyimulasikan skenario masa depan, melakukan iterasi melalui "imajinasi", memanggil API eksternal, dan berinteraksi dengan sekelompok agen khusus lainnya dalam loop umpan balik berkelanjutan [cite: 5, 7, 15]. Dinamika ini memerlukan memori dalam jumlah besar untuk menyimpan jendela konteks aktif dan latensi jaringan yang sangat rendah untuk perutean pakar dan sinkronisasi global [cite: 15, 16].

Dengan membagi lini produk, Google mengoptimalkan hardware jauh ke dalam supply chain. TPU 8t didesain bersama Broadcom, sebuah kemitraan yang dimulai sejak tahun 2015 [cite: 9, 17, 18]. Keahlian Broadcom dalam interkoneksi SerDes berkecepatan tinggi yang kompleks, pengemasan tingkat lanjut, dan jaringan berskala besar menjadikannya partner yang ideal untuk mendorong batas fisik fabric pelatihan [cite: 17, 19].

Untuk chip inferensi, Google keluar dari tradisi dan berpartner dengan MediaTek untuk mendesain TPU 8i [kutipan: 9, 17, 18]. Dengan memanfaatkan keahlian MediaTek yang mendalam dalam desain SoC seluler bervolume tinggi yang hemat daya, Google menciptakan akselerator inferensi yang sangat dioptimalkan biayanya [kutipan: 17, 19]. TPU 8i menggunakan desain yang lebih sederhana (satu die komputasi dibandingkan dengan dua die 8t) yang dilaporkan 20% hingga 30% lebih murah untuk diproduksi daripada varian berperforma tinggi tradisional, sehingga memungkinkan Google menskalakan kapasitas penayangan globalnya secara ekonomis untuk memenuhi permintaan aplikasi perusahaan dan konsumen [kutipan: 9, 17]. Kedua chip ini dibuat pada node proses 2 nanometer canggih TSMC, yang menggabungkan paket canggih CoWoS mutakhir untuk mengintegrasikan die logika dengan stack HBM yang tinggi [kutipan: 9, 19].

Validasi pasar untuk strategi yang bercabang ini langsung terlihat. Anthropic, sebuah organisasi riset AI terkemuka, memperluas perjanjian bernilai miliaran dolar dengan Google Cloud, dengan berkomitmen untuk menggunakan kapasitas komputasi sebesar 3,5 gigawatt pada tahun 2027, sehingga menjadi pelanggan utama untuk platform TPU 7x dan generasi kedelapan [cite: 9, 10, 20].

Pembahasan Mendalam: TPU 8t (Mesin Pre-Training)

TPU 8t adalah pencapaian teknik tanpa kompromi yang bertujuan untuk mempersingkat siklus pengembangan model mutakhir dengan triliun parameter dari berbulan-bulan menjadi berminggu-minggu [cite: 5, 21]. Hal ini dicapai bukan hanya dengan meningkatkan kecepatan clock mentah, tetapi dengan menyusun ulang presisi operasi matematika, memperluas bandwidth antar-chip secara signifikan, dan mengurangi hambatan penyerapan data yang melumpuhkan yang mengganggu cluster pelatihan besar [cite: 6, 15].

Arsitektur Komputasi Dual-Die dan FP4 Native

Secara fisik, TPU 8t menggunakan arsitektur yang sangat kompleks yang terdiri dari dua chip komputasi dan satu chiplet I/O, yang diapit oleh delapan stack memori HBM3E setinggi 12 [kutipan: 9]. Pengemasan yang padat ini memerlukan pengelolaan termal tingkat lanjut, yang mengandalkan pendingin cair generasi keempat Google untuk menghilangkan panas luar biasa yang dihasilkan oleh operasi matriks berkelanjutan [cite: 7, 17, 22].

Evolusi mendasar pada TPU 8t adalah pengenalan presisi floating point 4-bit (FP4) native [cite: 6, 15]. Persyaratan matematika untuk pra-pelatihan sangat mengutamakan throughput daripada presisi numerik ekstrem. Dengan menurunkan eksekusi native dari FP8 ke FP4, TPU 8t secara efektif menggandakan throughput MXU sekaligus mengurangi separuh jumlah bit yang harus dipindahkan secara fisik di seluruh die per parameter [cite: 6, 15]. Pengurangan pergerakan data yang signifikan ini meminimalkan pengambilan memori yang intensif energi dan memungkinkan lapisan model yang lebih besar masuk dengan nyaman dalam buffer hardware yang dilokalkan [cite: 6, 15].

Untuk memastikan chip tetap jenuh, TPU 8t menerapkan penskalaan Vector Processing Unit (VPU) yang lebih seimbang. Hal ini memungkinkan silikon untuk tumpang-tindih dengan tugas berurutan penting—seperti kuantisasi, softmax, dan layernorm—dengan perkalian matriks berat yang terjadi di MXU, sehingga hampir menghilangkan waktu non-matriks yang terekspos saat inti komputasi akan menganggur [cite: 6, 15]. Sebagai hasil dari pengoptimalan arsitektur ini, satu chip TPU 8t menghasilkan daya komputasi FP4 yang luar biasa, yaitu 12,6 PFLOP [cite: 15, 23].

Selain itu, tidak seperti saudaranya yang berfokus pada inferensi, TPU 8t mempertahankan blok SparseCore khusus yang diperkenalkan pada generasi sebelumnya [cite: 1, 6, 15]. Workload yang sangat bergantung pada penyematan—yang umum dalam model dasar multimodal dan sistem rekomendasi—menunjukkan pola akses memori yang tidak teratur yang melumpuhkan GPU tradisional. SparseCore beroperasi secara asinkron, membebani operasi pengumpulan semua data yang bergantung pada data dan pencarian sematan [cite: 6, 15]. Dengan memisahkan matematika matriks padat ke MXU dan operasi jarang ke SparseCore, TPU 8t mencegah hambatan "zero-op" yang menyebabkan jeda komputasi [cite: 6, 15].

Bandwidth, Penyerapan Penyimpanan, dan TPUDirect

Untuk memasok MXU yang sangat dipercepat yang beroperasi di FP4, TPU 8t memerlukan bandwidth lokal dan gabungan yang ekstrem. Setiap chip memiliki HBM3e 216 GB, yang beroperasi pada 6.528 GB/s [cite: 15, 24]. Namun, pada skala model termutakhir, batasan sistem sering kali beralih dari kecepatan pemrosesan silikon ke kecepatan pusat data dalam menyerap petabyte data pelatihan dari penyimpanan yang jarang diakses.

Untuk mengatasi hambatan jalur data tradisional, Google mengintegrasikan TPUDirect RDMA dan TPUDirect Storage [cite: 5, 6, 10]. Protokol ini memungkinkan akses memori langsung (DMA) antara memori ber-bandwidth tinggi TPU dan array penyimpanan jaringan terkelola, seperti Google Cloud Managed Lustre 10T [cite: 6, 15]. Dengan merutekan data langsung dari sistem file paralel Lustre ke TPU melalui Network Interface Card (NIC), TPUDirect sepenuhnya melewati CPU host dan DRAM host [cite: 6]. Jalur data khusus ini secara efektif memberikan akselerasi 10x dalam kecepatan akses penyimpanan dibandingkan dengan pelatihan pada generasi TPU 7x, sehingga memastikan unit komputasi TPU 8t dapat memproses set data multimodal pada kecepatan saluran tanpa kekurangan data [cite: 5, 6, 15].

Infrastruktur Skala Besar: Jaringan Virgo

Pencapaian arsitektur yang paling mencengangkan dari ekosistem TPU 8t adalah kemampuan jaringannya, yang mengalihkan batasan sistem dengan tegas dari komputasi yang dilokalkan ke bandwidth skala pusat data [cite: 25, 26].

Meskipun TPU 8t mempertahankan interkoneksi torus 3D mendasar untuk komunikasi pod yang dilokalkan—menskalakan hingga 9.600 chip dan HBM bersama yang belum pernah terjadi sebelumnya sebesar 2 petabyte dalam satu superpod—fabric scale-out telah didesain ulang sepenuhnya [cite: 5, 6, 15]. Superpod ini mencapai komputasi FP4 gabungan sebesar 121 ExaFlops, yang menunjukkan peningkatan 2,8x lipat dibandingkan dengan 42,5 ExaFlops TPU 7x [cite: 6]. Untuk mendukung hal ini, bandwidth ICI intra-pod telah digandakan menjadi 19,2 Tb/s per chip [cite: 4, 6, 10].

Namun, untuk menghubungkan ratusan superpod ini, Google membangun Jaringan Virgo [cite: 1, 6]. Jaringan pendahulunya, Jupiter, menggunakan topologi Clos tiga lapis yang merutekan traffic melalui beberapa tingkat switch, sehingga menimbulkan latensi dan hambatan bandwidth (maksimal 100 Gbps per chip) [cite: 25].

Virgo adalah fabric scale-out yang dibangun di atas switch radix tinggi (mengelola 256 hingga 512 port) yang menggunakan topologi non-blocking dua lapis datar [cite: 6, 15, 25]. Dengan memotong tingkat jaringan secara fisik, Virgo mengurangi latensi secara drastis. Jaringan ini menggunakan desain multiplanar dengan domain kontrol independen, yang memberikan peningkatan bandwidth Jaringan Pusat Data (DCN) mentah hingga 400% (4x), beralih ke 400 Gbps per chip [cite: 6, 15, 24].

Kain Virgo tunggal dapat menghubungkan lebih dari 134.000 chip TPU 8t dalam satu fasilitas pusat data, yang menghasilkan bandwidth bisektional non-blocking yang tidak dapat dipahami sebesar 47 petabit per detik [kutipan: 1, 6, 15]. Selain itu, jika diintegrasikan dengan software Pathways Google dan framework JAX, TPU 8t memungkinkan cluster pelatihan terdistribusi untuk menskalakan lebih dari satu juta chip di beberapa situs geografis sebagai satu tugas pelatihan logis [kutipan: 1, 6, 15]. Pencapaian ini mengubah infrastruktur yang didistribusikan secara global menjadi superkomputer tunggal yang lancar, yang secara drastis melampaui batasan penskalaan GPU tujuan umum saat ini [kutipan: 27].

Rekonfigurasi Mandiri dan Goodput 97%

Pada skala ratusan ribu chip, kegagalan hardware—dari transciever yang rusak hingga pembatasan termal—adalah kepastian statistik, bukan kasus ekstrem. Dalam sistem lama, satu gangguan jaringan dapat menghentikan proses pelatihan besar-besaran, sehingga memerlukan rollback yang sulit dan mahal ke titik pemeriksaan sebelumnya. Pada skala terdepan, setiap poin persentase efisiensi yang hilang diterjemahkan menjadi hari-hari waktu pelatihan aktif [kutipan: 5, 6].

Ekosistem TPU 8t menargetkan "goodput" lebih dari 97%—metrik yang menentukan rasio waktu komputasi yang berguna dan produktif terhadap total waktu aktif [kutipan: 6, 28]. Hal ini dicapai melalui kemampuan Keandalan, Ketersediaan, dan Kemudahan Servis (RAS) tingkat lanjut yang didukung oleh Optical Circuit Switching (OCS) [kutipan: 5, 6, 25]. Melalui telemetri real-time yang menganalisis puluhan ribu chip, sistem dapat mendeteksi secara mandiri link interkoneksi antar-chip yang rusak. OCS secara fisik mengalihkan jalur cahaya optik untuk melewati kegagalan hardware secara real-time, tanpa memerlukan intervensi manusia dan, yang terpenting, tanpa mengganggu tugas pelatihan aktif [cite: 5, 6, 28].

Pembahasan Mendalam: TPU 8i (Mesin Penalaran)

Jika TPU 8t adalah latihan dalam penskalaan ekstrem dan brute-force, TPU 8i adalah masterclass dalam pengoptimalan latensi dan arsitektur memori [cite: 6]. Saat model beralih ke produksi real-time, terutama model Mixture-of-Experts (MoE) dan swarm agentik yang sangat besar, throughput komputasi mentah menjadi kurang relevan dibandingkan kecepatan akses dan perutean memori di seluruh jaringan [cite: 21, 29].

Menghilangkan Batasan Memori Inferensi

Dalam pembuatan autoregresif, model menghasilkan token output secara berurutan. Dengan setiap token yang baru dibuat, model harus mereferensikan histori yang terus bertambah dari semua token sebelumnya dan hubungan matematika di antaranya, yang dikenal sebagai cache Key-Value (KV) [cite: 1, 13]. Untuk model konteks panjang yang menganalisis ratusan ribu token, cache KV ini akan membengkak ukurannya. Jika cache melebihi kapasitas memori on-board cepat chip dan meluas ke memori CPU host yang lebih lambat, seluruh proses komputasi akan terhenti—fenomena yang dikenal luas sebagai "dinding memori" [cite: 5, 8].

TPU 8i dibuat secara eksplisit untuk menghancurkan tembok ini. Meskipun desain silikonnya lebih sederhana dan hemat biaya—menggunakan satu die komputasi dan satu die I/O dengan enam stack HBM3e—kapasitas memorinya sangat dioptimalkan untuk penayangan [cite: 9]. * Kapasitas dan Bandwidth HBM: Setiap TPU 8i dilengkapi dengan HBM3E sebesar 288 GB, yang menunjukkan peningkatan kapasitas sebesar 50% dibandingkan TPU 7x [cite: 5, 24, 30]. Lebih penting lagi, karena model MoE besar terikat bandwidth memori selama inferensi, bandwidth memori didorong hingga 8,6 TB/s (~8.601 GB/s)—sekitar 1,3x lebih cepat daripada TPU 8t yang berfokus pada pelatihan [cite: 10, 15]. * SRAM On-Chip Besar: Perubahan hardware yang paling penting adalah penyertaan Static Random-Access Memory (SRAM) on-chip sebesar 384 MB per chip [cite: 10, 15, 30]. Hal ini menunjukkan peningkatan besar sebesar 300% (3x) dibandingkan TPU 7x dan TPU 8t [cite: 10, 15, 30]. SRAM adalah memori tercepat dan berlatensi terendah yang tersedia langsung di matriks silikon. Dengan melipatgandakan kapasitas ini, TPU 8i dapat menghosting cache KV besar sepenuhnya di die [cite: 15, 16]. Hal ini mencegah core pemrosesan menganggur saat menunggu histori token diambil dari tingkat memori yang lebih lambat, sehingga memungkinkan loop penalaran konkurensi tinggi beroperasi dengan kelancaran yang belum pernah terjadi sebelumnya [cite: 5, 15].

Mesin Akselerasi Kolektif (Collectives Acceleration Engine/CAE)

Karena TPU 8i menargetkan inferensi, unit SparseCore yang digunakan di 7x dan 8t untuk pencarian penyematan dianggap sebagai penggunaan ruang silikon yang tidak efisien untuk workload tertentu ini. Sebagai gantinya, engineer Google memperkenalkan blok hardware eksklusif yang dikenal sebagai Collectives Acceleration Engine (CAE) [cite: 10, 15].

Selama decoding autoregresif dan pemrosesan "rantai pemikiran", inti yang berbeda harus sering menjeda perhitungan masing-masing untuk menggabungkan, mengurangi, dan menyinkronkan hasil matematika di seluruh chip [kutipan: 6, 15]. Operasi sinkronisasi global ini dapat sangat membatasi latensi, terutama saat ribuan agen independen berkerumun untuk memecahkan masalah secara bersamaan.

Untuk setiap chip TPU 8i, dua TensorCore berada di core die, disertai dengan satu CAE yang terletak di chiplet die (menggantikan empat SparseCore yang ditemukan di TPU 7x) [cite: 6, 15]. CAE khusus ini direkayasa untuk menggabungkan hasil di seluruh core dengan latensi hampir nol, sehingga menghasilkan pengurangan latensi kolektif on-chip yang luar biasa sebesar 5x dibandingkan dengan generasi TPU 7x [cite: 10, 15]. Dengan mempercepat langkah-langkah pengurangan yang mendominasi alur kerja agentik menggunakan hardware, CAE memastikan bahwa sistem mempertahankan throughput tinggi tanpa mengorbankan responsivitas real-time [cite: 6, 15].

Perataan Jaringan: Topologi Boardfly

Fitur utama TPU 8i adalah pengabaian total topologi torus 3D. Meskipun torus 3D sangat baik untuk penerusan data dari tetangga ke tetangga yang diperlukan dalam pra-pelatihan, torus 3D menciptakan jarak fisik yang sangat jauh—diukur dalam hop jaringan—untuk perutean token dari semua ke semua yang diperlukan oleh model inferensi MoE [cite: 2, 15]. Dalam arsitektur MoE, token tertentu mungkin perlu dirutekan ke lapisan "pakar" tertentu yang berada di chip yang sama sekali berbeda dalam pod. Pada torus tradisional, paket data ini harus berjalan secara berurutan melalui chip perantara untuk mencapai tujuannya.

Untuk mengatasi hal ini, Google merekayasa arsitektur jaringan baru yang dioptimalkan untuk penayangan yang disebut Boardfly [cite: 15, 31]. Terinspirasi oleh prinsip topologi Dragonfly, Boardfly adalah jaringan hierarkis dengan radix tinggi yang dirancang untuk meratakan arsitektur secara drastis dan meminimalkan jarak fisik antara dua chip [cite: 2, 15, 26].

Topologi Boardfly dibangun secara hierarkis: 1. Elemen Penyusun: Empat chip TPU 8i yang terhubung sepenuhnya membentuk elemen penyusun dasar dengan link ICI internal [cite: 6, 16]. 2. Board: Delapan elemen penyusun terhubung sepenuhnya melalui kabel tembaga langsung untuk membentuk satu board [cite: 6, 16]. 3. Pod: 36 grup kemudian saling terhubung sepenuhnya melalui Optical Circuit Switch dan link jarak jauh optik langsung untuk membentuk pod terpadu yang terdiri dari 1.152 chip [kutipan: 5, 6, 16, 32].

Keunggulan latensi dari pendekatan ini sangat besar. Dalam konfigurasi torus 3D 1.024 chip standar, paket data mungkin perlu melintasi diameter jaringan maksimum 16 hop [kutipan: 15, 25]. Dalam topologi Boardfly, diameter jaringan maksimum ini diperkecil menjadi hanya 7 hop [cite: 15, 25].

Pengurangan diameter jaringan sebesar 56% ini menghasilkan peningkatan latensi ekor yang sangat besar sebesar 50% untuk workload inferensi yang intensif komunikasi [cite: 16, 25, 30]. Inferensi pada akhirnya dibatasi oleh kecepatan node yang paling lambat. Dengan mengurangi latensi ekor, topologi Boardfly memastikan bahwa CAE tidak pernah dibiarkan menganggur saat menunggu data token melintasi pod [cite: 6, 15].

Selain itu, berkat interkoneksi optik yang sangat kohesif ini, satu pod TPU 8i dengan 1.152 chip berfungsi sebagai domain memori bersama yang terpadu dan besar dengan 331,8 TB HBM koheren [kutipan: 16].

Performa, Ekonomi, dan Infrastruktur Sistem Komparatif

Bifurkasi arsitektur memberikan peningkatan yang signifikan dalam ekonomi komputasi dan efisiensi energi. Mengevaluasi hardware hanya berdasarkan operasi floating-point teoretis puncak mengabaikan realitas sistemik operasi pusat data dan pengaktifan software.

Abstraksi Software dan Dukungan Framework

Meskipun memiliki dasar hardware yang berbeda, Google telah berinvestasi besar-besaran dalam mempertahankan stack software AI yang terpadu dan mengutamakan performa untuk mencegah keterikatan framework. TPU 8t dan 8i menawarkan dukungan native untuk JAX, Keras, MaxText, SGLang, dan mesin vLLM [kutipan: 5, 8, 14, 17]. Selain itu, dukungan PyTorch native (melalui TorchTPU) memungkinkan developer memindahkan model PyTorch yang ada langsung ke lingkungan TPU dengan dukungan penuh untuk fitur native seperti Eager Mode [cite: 15, 17].

Di balik layar, compiler Accelerated Linear Algebra (XLA) menangani terjemahan kompleks topologi Boardfly dan sinkronisasi CAE, sehingga developer dapat menulis kernel kustom yang kompatibel dengan hardware di Python (menggunakan Pallas dan Mosaic) tanpa perlu memprogram interkoneksi optik secara manual [cite: 15].

Metrik Performa Kuantitatif

Tabel di bawah merangkum spesifikasi teknis inti di seluruh arsitektur TPU 7x yang terpadu serta TPU 8t dan 8i yang sangat khusus [cite: 3, 15, 24].

Matriks Spesifikasi TPU 7x TPU 8t TPU 8i
Workload Utama Terpadu (Pelatihan & Inferensi) Prapelatihan Skala Besar Inferensi yang Sensitif terhadap Latensi
Partner Desain ASIC Broadcom Broadcom MediaTek
Topologi Jaringan Torus 3D 3D Torus + Virgo Scale-Out Boardfly (Terinspirasi dari capung)
Hardware Khusus SparseCore SparseCore Collectives Acceleration Engine (CAE)
Fokus Presisi Native FP8 FP4 FP4 (dengan dukungan FP8/INT8)
Komputasi Puncak per Chip 4,6 PFLOPs (FP8) 12,6 PFLOP (FP4) 10,1 PFLOPs (FP4)
Kapasitas HBM per Chip 192 GB 216 GB 288 GB
Bandwidth HBM 7,37 TB/dtk 6,52 TB/dtk 8,60 TB/dtk
SRAM On-Chip (VMEM) 128 MB 128 MB 384 MB
BW Antar-Chip (Peningkatan Skala) 9,6 Tb/dtk 19,2 Tb/dtk 19,2 Tb/dtk
Ukuran Pod/Superpod Maksimum 9.216 chip 9.600 chip 1.152 chip

Pengoptimalan Performa-Biaya dan TCO

Google mengklaim peningkatan Total Biaya Kepemilikan (TCO) yang signifikan dengan generasi kedelapan. TPU 8t memberikan peningkatan 170% hingga 180%—yang setara dengan peningkatan 2,7x hingga 2,8x—dalam performa per dolar untuk pelatihan berskala besar dibandingkan dengan TPU 7x [cite: 6, 15, 30]. Sementara itu, TPU 8i menawarkan peningkatan performa per dolar sebesar 80% untuk inferensi, khususnya pada target latensi rendah yang diperlukan untuk model MoE besar [cite: 15, 16, 30].

Keuntungan ekonomi ini didorong tidak hanya oleh silikon, tetapi juga oleh integrasi sistem full-stack. Secara historis, TPU dipasangkan dengan CPU host x86 siap pakai. Dalam situasi yang melibatkan praproses data yang intens atau logika agen yang kompleks, host x86 sering kali membatasi sistem, sehingga silikon TPU yang sangat cepat siap digunakan tetapi kekurangan data [kutipan: 6, 7].

Generasi kedelapan memperbaiki ketidakseimbangan kronis ini dengan menghosting 8t dan 8i secara eksklusif di prosesor berbasis ARM Axion kustom Google [cite: 6, 7, 15]. Dibangun di atas arsitektur inti Neoverse N3 Armv9.2, host Axion menyediakan fondasi terpadu yang sangat dioptimalkan [cite: 18, 19]. Untuk TPU 8i yang berat inferensinya, Google mengintegrasikan host Axion dengan rasio TPU-ke-CPU 2:1, sehingga menggandakan host CPU fisik per server dibandingkan dengan TPU 7x [kutipan: 5, 6, 32]. Dengan memanfaatkan arsitektur Non-Uniform Memory Access (NUMA) yang ketat untuk isolasi beban kerja, sistem ini menjamin lokalitas memori yang unggul dan menghilangkan hambatan penyiapan data sepenuhnya [cite: 5, 7].

Efisiensi Energi dan Implikasi Pasar

Ketersediaan daya dan kepadatan energi dengan cepat menjadi batasan pengikatan utama dalam deployment pusat data modern. Melalui penggunaan pendingin cair generasi keempat dan pengelolaan daya real-time terintegrasi yang secara dinamis menyesuaikan penarikan daya berdasarkan fase workload tertentu (misalnya, komputasi aktif versus idle untuk komunikasi), TPU 8t dan 8i mencapai efisiensi daya yang luar biasa [cite: 7, 15, 22, 24]. TPU 8t memiliki peningkatan performa per watt sebesar 124%, sedangkan TPU 8i menghasilkan peningkatan 117%, sehingga menghasilkan peningkatan efisiensi energi secara keseluruhan sebesar 2x (100%+) dibandingkan TPU 7x [cite: 15, 22, 30].

Implikasi efisiensi ini terlihat jelas dalam model canggih Google sendiri. Benchmark untuk pratinjau Gemini 3.1 Pro menunjukkan bahwa men-deploy model pada arsitektur TPU 8i menghasilkan pengurangan biaya sekitar 50% untuk API inferensi, sekaligus meningkatkan responsivitas dan kemampuan penanganan konteks panjang secara signifikan [cite: 24, 30].

Lanskap Persaingan: Silikon Google vs. Silikon Merchant

Keputusan Google untuk membagi dua strategi silikonnya memiliki implikasi besar bagi ekosistem hardware kecerdasan buatan yang lebih luas, terutama dalam persaingannya yang berkelanjutan dengan penyedia silikon komersial seperti Nvidia dan, dalam tingkat yang lebih rendah, AMD dan AWS (dengan platform Trainium3-nya) [cite: 17, 23].

Nvidia secara historis mempertahankan strategi arsitektur terpadu, dengan memanfaatkan platform tujuan umum yang sangat mumpuni seperti Blackwell B200 dan Vera Rubin NVL72 untuk menangani pra-pelatihan dan inferensi real-time [cite: 2, 9]. Jika dilihat hanya dari spesifikasi chip tunggal mentah, Nvidia mempertahankan keunggulan tertentu. Misalnya, teknologi NVLink Nvidia mendukung bandwidth interkoneksi perangkat tunggal sebesar 14,4 Tb/s, dan GPU Rubin individual menawarkan komputasi inferensi NVFP4 sekitar 50 PFLOP, yang jauh lebih tinggi daripada 10,1 PFLOP TPU 8i [kutipan: 2, 9].

Namun, taruhan arsitektur Google didasarkan pada keyakinan bahwa masa depan kecerdasan buatan ditentukan oleh efisiensi skala cluster, bukan kemampuan puncak chip tunggal [cite: 9].

Dengan beralih ke topologi Boardfly, Google menciptakan kumpulan memori bersama yang sepenuhnya koheren di semua 1.152 chip dalam pod TPU 8i [kutipan: 16]. Hal ini menghasilkan kapasitas pod agregat sebesar 11,6 FP8 ExaFlops dan 331,8 TB HBM terpadu yang koheren [kutipan: 6, 16]. Sebaliknya, koherensi skala rak GPU Nvidia standar pada NVL72 mencapai 72 GPU dan sekitar 20,7 TB HBM [kutipan: 2, 16]. Menskalakan GPU tujuan umum agar sesuai dengan konfigurasi 1.152 chip memerlukan penghubungan di sekitar 16 rak terpisah [kutipan: 16]. Pemisahan fisik ini menghancurkan koherensi memori yang sebenarnya dan menimbulkan penalti latensi parah yang sangat merugikan inferensi agentik berkelanjutan dengan konteks panjang [kutipan: 16].

Selain itu, dengan memindahkan optical circuit switching (OCS) lebih rendah dalam stack untuk memfasilitasi hierarki Boardfly, Google secara mendasar mengubah rantai pasokan jaringan optik, sehingga menciptakan permintaan hilir yang sangat besar untuk transceiver dan laser khusus dari vendor seperti Lumentum dan Coherent [cite: 26].

Pada akhirnya, filosofi desain Google mengasumsikan bahwa medan perang yang sebenarnya pada akhir tahun 2020-an tidak akan ditentukan oleh throughput matematika puncak pada satu chip silikon, tetapi oleh kemampuan untuk menghindari penghalang memori, menskalakan interkoneksi lintas situs dengan cepat, dan menurunkan ekonomi biaya per token absolut dalam men-deploy segerombolan agen real-time kepada miliaran pengguna [cite: 6, 16, 17].

Kesimpulan

Trajektori Tensor Processing Unit Google Cloud dari framework terpadu TPU 7x hingga dikotomi yang sangat terspesialisasi dari TPU 8t dan TPU 8i mencerminkan kematangan dan industrialisasi workload kecerdasan buatan. Silikon tujuan umum terpadu—meskipun mendasar bagi booming deep learning awal—tidak lagi cukup untuk mendorong ekonomi atau performa yang diperlukan di margin ekstrem era agentik.

TPU 8t mewakili upaya tanpa kompromi untuk mencapai skala. Melalui retensi SparseCore, penerapan presisi FP4 native untuk menggandakan throughput MXU, dan kemampuan pengurutan Jaringan Virgo dan TPUDirect Storage, TPU v5e dirancang untuk menyerap dan memproses data dalam volume yang sebelumnya dianggap tidak mungkin. Teknologi ini secara efektif menetralkan batasan bandwidth scale-out pusat data modern, sehingga memungkinkan jutaan chip beroperasi sebagai mesin pra-pelatihan tunggal yang didistribusikan secara global.

Sebaliknya, TPU 8i adalah latihan dalam menghilangkan latensi dan efisiensi ekonomi. Dengan meninggalkan torus 3D dan memilih topologi Boardfly hierarkis, melipatgandakan SRAM on-die menjadi 384 MB, dan memperkenalkan Collectives Acceleration Engine untuk mempercepat sinkronisasi autoregresif, TPU 8i secara sistematis menghancurkan hambatan memori inferensi. Hal ini memastikan bahwa cache KV besar yang diperlukan untuk penalaran agen multilangkah yang kompleks dapat tetap dilokalkan dan diakses dengan latensi mendekati nol, sekaligus mengurangi biaya produksi melalui desain logika yang disederhanakan.

Bersama-sama, yang dihosting di CPU Axion berbasis ARM yang terintegrasi sepenuhnya dan dikelola oleh switching sirkuit optik otonom, generasi kedelapan yang terbagi ini menetapkan paradigma baru dalam infrastruktur hyperscale. Hal ini berfungsi sebagai pernyataan arsitektur definitif bahwa masa depan kecerdasan buatan tidak hanya membutuhkan chip yang lebih cepat, tetapi juga kerangka kerja hardware yang pada dasarnya berbeda yang didesain bersama secara tepat untuk workload berbeda yang akan dilayaninya.

Sumber: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com