Yapay zekanın temel büyük dil modellerinden karmaşık ve çok adımlı asenkron sistemlere evrimi, yarı iletken tasarımında temel bir paradigma değişikliğini tetikledi. Yaklaşık on yıldır yapay zeka hızlandırıcı mimarisinde geçerli olan mantık, birleştirme mantığıydı. Silikon tasarımcıları, modelin ön eğitimiyle ilgili büyük ve yüksek işleme kapasiteli iş yüklerini aynı anda yürütmenin yanı sıra üretime yönelik çıkarımın gecikmeye duyarlı taleplerini de karşılayabilen tekil ve monolitik mimariler geliştirmeye çalıştı [cite: 1, 2]. Bu birleşik yaklaşım, ilk donanım hızlandırıcıların oluşturulmasından Google Cloud Tensor İşleme Birimi'nin (TPU) yedinci neslinin dağıtımına kadar sektörde hakimiyetini sürdürdü [cite: 2, 3, 4].
Ancak, sınır modelleri trilyonlarca parametreye ölçeklenirken ve Mixture-of-Experts (MoE) ile sürekli ajan tabanlı geri bildirim döngüleri gibi gerçek zamanlı akıl yürütme mimarileri standart hâle gelirken eğitim ve hizmet için donanım gereksinimleri geri döndürülemez bir şekilde farklılaştı [cite: 5, 6, 7]. Ön eğitim, bant genişliği ve işleme hızı optimizasyonu sorununa dönüştü. Bu nedenle, şaşırtıcı ölçeklendirme özellikleri, büyük bir ara bağlantı kesişim bant genişliği ve sürekli matris matematik doygunluğu gerekiyor [cite: 6]. Buna karşılık, ajan tabanlı hizmet, ağırlıkların ve anahtar-değer (KV) önbelleklerinin, küresel senkronizasyon işlemlerinde darboğaz oluşturmadan işleme çekirdeklerine aktarılabileceği hızla sınırlı, gecikme ve bellek sınırlı bir sorun olarak ortaya çıktı [cite: 6, 8].
Her iki iş yükünü de aynı silikona zorlamanın sistemik verimsizliklere ve azalan ekonomik getirilere yol açtığını fark eden Google, sekizinci nesil TPU serisini ikiye ayırma yönünde benzeri görülmemiş bir mimari karar aldı [cite: 1, 6, 9]. Sonuç olarak, tedarik zinciri düzeyinde tasarlanmış iki ayrı, son derece özelleşmiş çip ortaya çıktı: süper bilgisayar ölçeğinde muazzam eğitim işleme hızı için tasarlanmış TPU 8t ve çıkarım belleği duvarını yıkmak ve küresel akıl yürütme için toplu gecikmeyi en aza indirmek üzere tasarlanmış TPU 8i [cite: 7, 9].
Bu kapsamlı araştırma raporunda, TPU 7x'in birleştirilmiş temel çizgisi ile yeni ayrılan TPU 8t ve TPU 8i arasındaki mimari, performans ve ölçeklendirme farklılıkları analiz edilmektedir. Mantık tasarımı, çok katmanlı bellek hiyerarşileri, veri merkezi ara bağlantı topolojileri, optik devre anahtarlama ve donanım-yazılım ortak tasarımı kapsamlı bir şekilde incelenerek bu analizde, yeni nesil yapay zekanın ekonomik ve hesaplama ölçeklendirmesini sürdürmek için özel silikonun nasıl gerekli olduğu açıklanmaktadır.
Tarihi Bağlam: Uzmanlaşmaya Doğru Gidişat
Sekizinci nesildeki mimari değişiklikleri tam olarak anlayabilmek için TPU ailesinin yinelemeli gelişimini takip etmek gerekir. Google'ın donanım geliştirme çalışmaları, basit çıkarım hızlandırmadan büyük küme ölçekli eğitim yapılarına geçerek günümüz makine öğrenimi modellerinin hakim darboğazlarını sürekli olarak yansıtmıştır [cite: 10, 11].
Çıkarımdan Büyük Matris Dizilerine
Google, 2015 yılında Arama, Çeviri ve YouTube önerileri gibi dahili hizmetlerin artan işlem yükünü karşılamak için tasarlanmış, yalnızca çıkarım amaçlı bir hızlandırıcı olarak TPU v1'i tanıttı [cite: 11, 12]. v1, genel amaçlı merkezi işlem birimlerine (CPU'lar) ve grafik işlem birimlerine (GPU'lar) kıyasla watt başına işlemlerde bir büyüklük sırası iyileşme sağlamak için 8 bitlik tam sayı matematiğini kullandı [cite: 10, 11]. 2017'de TPU v2, eğitim özelliklerine geçişi işaretleyerek bfloat16 (BF16) biçimini tanıttı. Bu biçim, 32 bitlik kayan noktalı sayıların dinamik aralığını korurken bellek tüketimini yarıya indiren 16 bitlik bir kayan noktalı biçimdi [cite: 10].
3. nesilden 5. nesle kadar olan sürümlerde temel hesaplama motoru olan Matris Çarpma Birimi (MXU) optimize edildi. MXU, birkaç nesil boyunca 128x128 boyutlu bir sistolik dizi olarak kaldı ve aynı anda 16.384 çarpma-toplama işlemi yapabildi [cite: 4, 10]. TPU v4, "SparseCore" adlı özel bir donanım bloğu sunar. Bu blok, yerleştirme aramalarını ve düzensiz bellek erişimlerini hızlandırmak için özel olarak tasarlanmıştır. Böylece, öneri modeli eğitimi sırasında MXU'nun duraksaması önlenir [cite: 4, 6].
The Topographical Evolution and Trillium (v6e)
Model boyutları büyüdükçe binlerce çipteki gradyanları senkronize etmek için gereken ara bağlantı topolojileri de gelişti. Google, daha küçük ve uygun maliyetli pod'lar (ör. v5e ve v6e) için 2 boyutlu torus topolojisi dağıtarak 256 çipe kadar ölçeklendirmeyi basitleştirdi [cite: 4, 10]. Performans için optimize edilmiş varyantlarda (ör. v4 ve v5p) Google, 4.096 ila 8.960 çip arasında değişen daha büyük kapsül boyutlarında iletişim gecikmesini azaltmak için çipleri üç boyutlu bir sarmalama ızgarasında bağlayan 3D torus topolojisini kullandı [cite: 4].
Modern dönemin hemen öncesinde, 2024'ün sonlarında piyasaya sürülen TPU v6e (Trillium) vardı. Trillium, MXU'yu 128x128 diziden 256x256 diziye genişleterek mimaride büyük bir sıçrama yaptı [cite: 10]. Bu, döngü başına çarpma-toplama işlemlerini dört katına çıkardı. 3.200 Gbps (toplamda 13 TB/sn çift yönlü) olan iki katına çıkarılmış çip içi ara bağlantı (ICI) bant genişliği ve çip başına 32 GB yüksek bant genişlikli bellek (HBM) ile birleştiğinde Trillium, %67 daha fazla enerji verimliliğiyle çalışırken selefinin en yüksek işlem gücünün 4,7 katını sağladı [cite: 10, 11].
| TPU Nesli | Çıkış Yılı | Birincil İnovasyon | Topoloji ve Maksimum Kapsül Boyutu | MXU Mimarisi | Çip Başına Maksimum İşlem |
|---|---|---|---|---|---|
| TPU v2 | 2017 | İlk eğitim yeteneği (BF16) | 2D Torus (512 çip) | 128x128 | ~45 TFLOPS |
| TPU v4 | 2021 | SparseCore'un tanıtımı | 3D Torus (4.096 çip) | 128x128 | 275 TFLOPS |
| TPU v5e | 2023 | Maliyet açısından optimize edilmiş verimlilik | 2D Torus (256 çip) | 128x128 | 197 TFLOPS |
| TPU v5p | 2023 | Performans ölçeğini artırma | 3D Torus (8.960 çip) | 128x128 | 459 TFLOPS |
| TPU v6e (Trillium) | 2024 | 256x256 MXU Expansion | 2D Torus (256 çip) | 256x256 | 918 TFLOPS |
Birleştirilmiş Mimarinin Zirvesi: TPU 7x
2025'in sonlarında genel kullanıma sunulan yedinci nesil TPU 7x, Google'ın birleşik mimari stratejisinin mutlak zirvesini temsil ediyor. Hem sınır ölçeğinde ön eğitim hem de yoğun kod çözme çıkarımı tek bir mimari çerçevede yürütmek üzere tasarlanan TPU 7x, çift amaçlı bir hızlandırıcının başarabileceği sınırları zorladı [cite: 3, 10].
Çift çipletli tasarım ve AlphaChip optimizasyonu
TPU 7x'in fiziksel yapısı, v4 ve v5p'de bulunan tek mantıksal çekirdekli (MegaCore) mimariden önemli bir değişimi temsil eder [cite: 3]. TPU 7x, çift çipletli bir mimari kullanır. Her tam TPU 7x çipi, tescilli ve yüksek hızlı bir kalıptan kalıba (D2D) arayüzüyle birbirine bağlanmış iki ayrı, bağımsız çipletten oluşur [cite: 3]. Bu D2D bağlantısı, standart tek boyutlu bir ICI bağlantısının altı katı hızda çalışır ve çipletlerin kendi özel bellek alanlarını korurken hızlı bir şekilde iletişim kurmasına olanak tanır [cite: 3].
TPU 7x, tam birleştirilmiş çipte iki TensorCore ve dört SparseCore barındırır [cite: 3]. Bu çekirdeklerin silikon matris üzerindeki fiziksel düzeni, kablo uzunluğunu en aza indirmek ve termal verimliliği en üst düzeye çıkarmak için Google'ın tescilli pekiştirmeli öğrenme aracı AlphaChip kullanılarak optimize edildi [cite: 10]. TPU 7x için standart bir sanal makine (VM) yapılandırması, dört çipi bir CPU ana makinesine bağlayarak 224 vCPU ve 960 GB RAM'i kullanıma sunar [cite: 3].
Çok Katmanlı Bellek Hiyerarşisi ve Hassas Biçimlendirme
Yoğun ve MoE modellerinin işlenmesindeki kritik performans sorunu, verilerin depolama katmanları arasında sürekli olarak taşınmasıdır. TPU 7x, genişletilmiş MXU'ların doygun kalmasını sağlamak için tasarlanmış sağlam bir çok katmanlı bellek sistemine sahiptir: * Yüksek Bant Genişlikli Bellek (HBM3E): Her TPU 7x çipinde 192 GB HBM bulunur ve 7,37 TB/sn (7.380 GB/sn) bellek bant genişliği sağlanır [cite: 3, 10]. Trillium'a kıyasla altı kat daha fazla kapasite sunan bu model, eğitim sırasında çok daha büyük toplu iş boyutlarına olanak tanır ve çıkarım sırasında çip üzerinde daha büyük KV önbelleklerinin tutulmasını sağlayarak daha yavaş ana belleğe boşaltmayla ilişkili maliyetli gecikme artışlarını önler [cite: 4, 10, 13]. * Vektör Belleği (VMEM): Çip üzerinde ultra yüksek hızlı bir SRAM not defteri olarak işlev gören her TensorCore, 64 MiB VMEM'e (çip başına toplam 128 MB) sahiptir. VMEM, HBM'ye kıyasla MXU'ya önemli ölçüde daha yüksek bant genişliğine sahiptir [cite: 3, 14]. Kapsamlı VMEM ayarlama sayesinde geliştiriciler, mevcut hesaplama kapsamı ile gelecekteki ağırlık önceden getirme arasında bellek yeniden tahsis edebilir. Bu sayede daha büyük çekirdek döşeme boyutları (ör. anlık dikkatte kullanılanlar) kullanılabilir ve bellek duraklamaları azaltılabilir [cite: 13, 14]. * Ana Makine Belleği (PCIe): PCIe ağı üzerinden bağlanan sistemin ana makine belleği, optimize edici durumlarını ve etkinleştirmelerini boşaltmak için kullanılır. Bu sayede, HBM kapasitesini aşan modellerde bellek baskısı yönetilir [cite: 3, 14].
Ayrıca TPU 7x, 8 bit kayan nokta (FP8) hassasiyeti için yerel donanım hızlandırma özelliğini kullanıma sundu [cite: 4, 13]. FP8 gösterimi, standart 16 bit biçimlerden (BF16 veya FP16) geçiş yaparak ağırlıkları ve etkinleştirmeleri depolamak için gereken bellek alanını yarıya indirirken en yüksek bilgi işlem işleme hızını etkili bir şekilde iki katına çıkarır [cite: 4, 13]. TPU v4, FP8'de yerel olarak çalışır. Tek bir TPU v4 çipi, BF16'da çalışırken 2.307 TFLOPS olan en yüksek işlem gücüne kıyasla 4.614 TFLOPS işlem gücü sunar [cite: 3, 4].
3B Torus Topolojisi ve Süper Pod Ölçeği
Veri merkezi düzeyinde TPU 7x, Google'ın kanıtlanmış 3D torus ara bağlantı topolojisini kullanır [cite: 3]. Bu mimari, her çipi X, Y ve Z eksenleri boyunca en yakın komşularına doğrudan bağlayarak esnek bir üç boyutlu ağ oluşturur [cite: 3]. Bu ağdaki iletişim, çip başına 1,2 TB/sn (1.200 Gb/sn) ICI bant genişliği ile kolaylaştırılır ve eksen başına 200 Gb/sn hızında çift yönlü iletişim sağlanır [cite: 3].
Tamamen gerçekleştirilmiş bir TPU 7x süperpodu,9.216 sıvı soğutmalı çipe kadar ölçeklenebilir. Bu yapılandırmada pod, toplam 42,5 ExaFlops FP8 işlem gücü sağlar [cite: 8, 10]. 64 çipten büyük dilimler, modüler 4x4x4 çip "küpleri" kullanılarak oluşturulur. Bu sayede, tek ana makine yapılandırmalarından büyük çok ana makineli ortamlara kadar değişen son derece esnek topolojiler elde edilebilir [cite: 3].
TPU 7x, muazzam özelliklerine rağmen birleşik yapısı nedeniyle doğasında tavizler barındırıyordu. 3D torus topolojisi, ön eğitimde gereken yerelleştirilmiş ve öngörülebilir gradyan senkronizasyonu için oldukça verimli olsa da yüksek bir ağ çapına neden olur. Örneğin, 3 boyutlu bir torusta 1.024 çipli bir kapsülün maksimum ağ çapı 16 atlamadır [cite: 15, 16]. Belirteçlerin pod içinde herhangi bir yerde bulunan uzman katmanlarına hızlı bir şekilde yönlendirilmesi gereken bir MoE çıkarım senaryosunda, bu 16 atlama mesafesi kabul edilemez bir uçtan uca kuyruk gecikmesi oluşturur [cite: 6, 15, 16]. Ayrıca, değerli silikon alanını SparseCore'lara ayırmak (bu birimler, yerleştirme aramalarında mükemmeldir) aracı tabanlı düşünce zinciri iş akışları için kritik olan toplu azaltma motorları için kullanılabilecek alandan yer çaldı [cite: 6, 15]. Sektör, "herkese uyan tek beden" hızlandırıcının fiziksel sınırlarına ulaşmıştı.
Stratejik İkiye Bölünme: Ekonomik ve Mimari Faktörler
TPU'ların yedinci nesilden sekizinci nesle geçişi, Google'ın silikon geçmişindeki en önemli mimari değişimdir [cite: 9]. Google Cloud Next 2026'da duyurulan TPU serisinin iki ayrı ürün ailesine (eğitim için TPU 8t ve çıkarım için TPU 8i) ayrılması, önümüzdeki on yıl boyunca yapay zekayı yönlendirecek iş yüklerinin donanım düzeyinde temelde uzlaştırılamaz olduğunu kabul etmektedir [cite: 1, 2, 17].
Bu ayrımın nedeni, yapay zeka geliştirmenin farklı ekonomik ve operasyonel yoğunluklarıdır. Sınır modeli eğitmek, haftalar veya aylar boyunca sürekli işlem gücüyle ölçülen, yüksek sermaye gerektiren ve tek seferlik bir işletme gideridir [cite: 9]. Maksimum işlem yoğunluğu, benzeri görülmemiş ölçekte artan ara bağlantı bant genişliği ve çok petabaytlık birleşik bellek alanları gerektirir. Bu alanlar, çok formatlı veri kümelerini hat hızında alabilir [cite: 9].
Diğer taraftan çıkarım, kullanıcı talebiyle doğrusal veya üstel olarak ölçeklenen devam eden bir operasyonel maliyettir [cite: 9]. Gelişmekte olan "Agentic Era"da bir yapay zeka modeli, metin bloğu oluşturmak için yalnızca bir sonraki jetonu tahmin etmekle kalmaz; aktif olarak akıl yürütür, gelecekteki senaryoları simüle eder, "hayal gücü" aracılığıyla tekrarlar, harici API'leri çağırır ve sürekli geri bildirim döngülerinde diğer uzmanlaşmış aracıların kalabalıklarıyla etkileşime girer [cite: 5, 7, 15]. Bu dinamik, etkin bağlam pencerelerini depolamak için büyük miktarda bellek ve uzman yönlendirme ile küresel senkronizasyon için son derece düşük ağ gecikmesi gerektirir [cite: 15, 16].
Google, ürün serisini bölerek donanımı tedarik zincirinde derinlemesine optimize etti. TPU 8t, 2015'ten beri süren bir iş ortaklığı kapsamında Broadcom ile birlikte tasarlandı [cite: 9, 17, 18]. Broadcom'un karmaşık, yüksek hızlı SerDes ara bağlantıları, gelişmiş paketleme ve büyük ölçekli ağ oluşturma alanındaki uzmanlığı, eğitim dokusunun fiziksel sınırlarını zorlamak için ideal bir iş ortağı olmasını sağladı [cite: 17, 19].
Google, çıkarım çipi için geleneği bozarak TPU 8i'yi tasarlamak üzere MediaTek ile iş ortaklığı yaptı [cite: 9, 17, 18]. Google, MediaTek'in güç açısından verimli ve yüksek hacimli mobil SoC tasarımı konusundaki derin uzmanlığından yararlanarak maliyet açısından son derece optimize edilmiş bir çıkarım hızlandırıcı oluşturdu [cite: 17, 19]. TPU 8i, geleneksel yüksek performanslı varyantlara göre% 20 ila% 30 daha ucuza üretildiği bildirilen daha basit bir tasarıma (8t'nin iki kalıbına kıyasla tek bir işlem kalıbı) sahiptir. Bu sayede Google, kurumsal ve tüketici uygulamalarının taleplerini karşılamak için küresel hizmet kapasitesini ekonomik bir şekilde ölçeklendirebilir [cite: 9, 17]. Her iki çip de TSMC'nin gelişmiş 2 nanometrelik süreç düğümünde üretilir ve mantık kalıplarını yüksek HBM yığınlarıyla entegre etmek için son teknoloji ürünü CoWoS gelişmiş paketleme içerir [cite: 9, 19].
Bu iki yönlü stratejinin pazar doğrulaması anında gerçekleşti. Önde gelen bir yapay zeka araştırma kuruluşu olan Anthropic, Google Cloud ile yaptığı milyarlarca dolarlık sözleşmeyi genişleterek 2027'ye kadar 3,5 gigavatlık işlem kapasitesi kullanmayı taahhüt etti.Bu sayede hem TPU 7x hem de sekizinci nesil platformlar için önemli bir müşteri oldu [cite: 9, 10, 20].
Ayrıntılı İnceleme: TPU 8t (Ön Eğitim Güç Merkezi)
TPU 8t, trilyon parametreli sınır modellerinin geliştirme döngüsünü aylardan haftalara indirmeyi amaçlayan, tavizsiz bir mühendislik başarısıdır [cite: 5, 21]. Bu, yalnızca ham saat hızlarını artırarak değil, matematiksel işlemlerin hassasiyetini yeniden yapılandırarak, çip arası bant genişliğini büyük ölçüde genişleterek ve büyük eğitim kümelerini rahatsız eden, verilerin alınmasıyla ilgili sakatlayıcı darboğazları azaltarak başarılır [cite: 6, 15].
Çift Çipli Hesaplama Mimarisi ve Yerel FP4
TPU 8t, fiziksel olarak iki bilgi işlem kalıbı ve bir G/Ç çipinden oluşan, 12 kat yüksekliğinde sekiz HBM3E bellek yığınıyla çevrili son derece karmaşık bir mimari kullanır [cite: 9]. Bu yoğun paketleme, Google'ın dördüncü nesil sıvı soğutma sistemini kullanarak sürekli matris işlemleriyle üretilen muazzam ısıyı dağıtmak için gelişmiş termal yönetim gerektirir [cite: 7, 17, 22].
TPU 8t'deki temel gelişmelerden biri, yerel 4 bit kayan nokta (FP4) duyarlılığının kullanıma sunulmasıdır [cite: 6, 15]. Ön eğitimdeki matematiksel talepler, aşırı sayısal hassasiyet yerine işleme hızını büyük ölçüde destekler. TPU 8t, FP8'den FP4'e düşürülerek MXU'nun işleme hızını iki katına çıkarırken aynı anda parametre başına kalıp üzerinde fiziksel olarak taşınması gereken bit sayısını yarıya indirir [cite: 6, 15]. Veri hareketindeki bu ciddi azalma, enerji yoğun bellek getirme işlemlerini en aza indirir ve daha büyük model katmanlarının yerel donanım arabelleklerine rahatça sığmasına olanak tanır [cite: 6, 15].
Çipin doygun kalmasını sağlamak için TPU 8t, daha dengeli bir VPU (Vektör İşleme Birimi) ölçeklendirmesi uygular. Bu sayede silikon, MXU'da gerçekleşen ağır matris çarpımlarıyla nicemleme, softmax ve katman normalleştirme gibi temel sıralı görevleri çakıştırarak işlem çekirdeklerinin aksi takdirde boşta kalacağı, matris olmayan zamanı neredeyse tamamen ortadan kaldırır [cite: 6, 15]. Bu mimari optimizasyonlar sonucunda tek bir TPU 8t çipi, 12,6 PFLOP'luk şaşırtıcı bir FP4 işlem gücü sunar [cite: 15, 23].
Ayrıca, çıkarıma odaklanan kardeşinin aksine TPU 8t, önceki nesillerde tanıtılan özel SparseCore bloklarını korur [cite: 1, 6, 15]. Çok formatlı temel modellerde ve öneri sistemlerinde yaygın olan yerleştirme ağırlıklı iş yükleri, geleneksel GPU'ları devre dışı bırakan düzensiz bellek erişim kalıpları gösterir. SparseCore, eşzamansız olarak çalışır ve veriye bağlı tüm toplama işlemlerini ve yerleştirme aramalarını boşaltır [cite: 6, 15]. TPU 8t, yoğun matris matematiğini MXU'ya ve seyrek işlemleri SparseCore'a ayırarak hesaplama duraklamalarına neden olan "sıfır işlem" darboğazlarını önler [cite: 6, 15].
Bant genişliği, depolama alanı alımı ve TPUDirect
TPU 8t, FP4'te çalışan büyük ölçüde hızlandırılmış MXU'ları beslemek için aşırı yerel ve toplu bant genişliği gerektirir. Her çip, 6.528 GB/sn hızında çalışan 216 GB HBM3e'ye sahiptir [cite: 15, 24]. Ancak sınır modelleri ölçeğinde, sistem kısıtlaması genellikle silikonun işlem hızından veri merkezinin soğuk depolamadan petabaytlarca eğitim verisini alabileceği hıza kayar.
Google, geleneksel veri yolu darboğazını aşmak için TPUDirect RDMA ve TPUDirect Storage'ı entegre etti [cite: 5, 6, 10]. Bu protokoller, TPU'nun yüksek bant genişliğine sahip belleği ile Google Cloud Managed Lustre 10T [cite: 6, 15] gibi yönetilen ağ depolama dizileri arasında doğrudan bellek erişimi (DMA) sağlar. TPUDirect, verileri doğrudan Lustre paralel dosya sisteminden Ağ Arayüzü Kartı (NIC) aracılığıyla TPU'ya yönlendirerek ana makine CPU'sunu ve ana makinenin DRAM'ini tamamen atlar [cite: 6]. Bu özel veri yolu, TPU 7x neslinde eğitimle karşılaştırıldığında depolama erişim hızlarında 10 kat hızlanma sağlayarak TPU 8t bilgi işlem birimlerinin, çok formatlı veri kümelerini açlık olmadan satır hızında almasını sağlar [cite: 5, 6, 15].
Büyük Ölçekli Altyapı: Virgo Ağı
TPU 8t ekosisteminin en şaşırtıcı mimari başarısı, sistem kısıtlamasını yerel işlemden veri merkezi ölçeğinde bant genişliğine kesin olarak kaydıran ağ oluşturma özelliğidir [cite: 25, 26].
TPU 8t,yerel pod iletişimi için temel 3D torus ara bağlantısını korurken (tek bir süper podda 9.600 çipe ve benzeri görülmemiş 2 petabayt paylaşılan HBM'ye kadar ölçeklenebilir) ölçeklenebilir yapı tamamen yeniden tasarlandı [cite: 5, 6, 15]. Süper pod, toplam 121 ExaFlops FP4 hesaplama gücü sunar. Bu, TPU 7x'in 42,5 ExaFlops'luk gücüne kıyasla 2,8 kat daha fazladır [cite: 6]. Bunu desteklemek için bölme içi ICI bant genişliği çip başına 19, 2 Tb/sn'ye çıkarıldı [cite: 4, 6, 10].
Ancak Google, yüzlerce süperpodu bağlamak için Virgo Ağını [cite: 1, 6] oluşturdu. Önceki ağ olan Jupiter, trafiği birden fazla anahtar katmanından yönlendirerek gecikmeye ve bant genişliği darboğazlarına (çip başına 100 Gbps ile sınırlı) neden olan üç katmanlı bir Clos topolojisi kullanıyordu [cite: 25].
Virgo, yüksek tabanlı anahtarlar (256 ila 512 bağlantı noktasını yönetir) üzerine kurulu, ölçeklenebilir bir yapıdır ve düz, iki katmanlı engellemeyen bir topoloji kullanır [cite: 6, 15, 25]. Virgo, ağ katmanlarını fiziksel olarak ortadan kaldırarak gecikmeyi önemli ölçüde azaltır. Ağ, bağımsız kontrol alanlarına sahip çok düzlemli bir tasarım kullanır ve ham veri merkezi ağı (DCN) bant genişliğinde %400'e (4 kat) varan artış sağlayarak çip başına 400 Gbps'ye ulaşır [cite: 6, 15, 24].
Tek bir Virgo yapısı, tek bir veri merkezi tesisinde 134.000'den fazla TPU 8t çipini birbirine bağlayarak saniyede 47 petabitlik anlaşılması zor bir engelsiz iki bölümlü bant genişliği sunar [cite: 1, 6, 15]. Ayrıca, Google'ın Pathways yazılımı ve JAX çerçevesiyle entegre olan TPU 8t, dağıtılmış eğitim kümelerinin tek bir mantıksal eğitim işi olarak birden fazla coğrafi konumda bir milyon çipin ötesine ölçeklenmesine olanak tanır [cite: 1, 6, 15]. Bu başarı, küresel olarak dağıtılmış altyapıyı tek ve sorunsuz bir süper bilgisayara dönüştürerek mevcut genel amaçlı GPU ölçeklendirme sınırlamalarını önemli ölçüde aşar [cite: 27].
Özerk yeniden yapılandırma ve% 97 iyi verim
Yüz binlerce çip ölçeğinde, donanım arızaları (patlayan alıcılardan termal kısıtlamaya kadar) uç durumlar yerine istatistiksel kesinliklerdir. Eski sistemlerde, tek bir ağ durması büyük bir eğitim çalıştırmasını durdurabilir ve önceki kontrol noktasına zahmetli ve maliyetli bir geri sarma işlemi gerektirebilir. En üst düzey ölçekte, kaybedilen verimliliğin her yüzde puanı, aktif eğitim süresinde günlere karşılık gelir [cite: 5, 6].
TPU 8t ekosistemi, toplam çalışma süresine göre yararlı ve üretken bilgi işlem süresinin oranını tanımlayan bir metrik olan %97'nin üzerinde "iyi verim" hedefler [cite: 6, 28]. Bu, Optik Devre Anahtarlama (OCS) [cite: 5, 6, 25] ile desteklenen gelişmiş Güvenilirlik, Kullanılabilirlik ve Servis Edilebilirlik (RAS) özellikleri sayesinde sağlanır. Sistem, on binlerce çipi analiz eden gerçek zamanlı telemetri sayesinde hatalı çip arası ara bağlantı bağlantılarını bağımsız olarak algılayabilir. OCS, donanım arızalarını gerçek zamanlı olarak atlamak için optik ışık yollarını fiziksel olarak yeniden yönlendirir. Bu işlem için insan müdahalesi gerekmez ve en önemlisi, etkin eğitim işi kesintiye uğramaz [cite: 5, 6, 28].
Ayrıntılı İnceleme: TPU 8i (The Reasoning Engine)
TPU 8t, aşırı ve kaba kuvvet ölçeklendirme alıştırmasıysa TPU 8i, gecikme optimizasyonu ve bellek mimarisi konusunda ustalık sınıfıdır [cite: 6]. Modeller gerçek zamanlı üretime geçtikçe (özellikle büyük ölçekli Uzman Karışımı (MoE) modelleri ve ajan sürümleri), ham bilgi işlem işleme hızı, belleğe erişilebilen ve ağ üzerinden yönlendirilebilen hızdan daha az alakalı hale gelir [cite: 21, 29].
Çıkarım Belleği Duvarını Yıkmak
Otoregresif üretimde, bir model çıkış jetonlarını sırayla üretir. Model, yeni oluşturulan her jetonla birlikte, tüm önceki jetonların ve bunların matematiksel ilişkilerinin artan geçmişine (anahtar-değer (KV) önbelleği olarak bilinir) [cite: 1, 13] başvurmalıdır. Yüz binlerce jetonu analiz eden uzun bağlamlı modellerde bu KV önbelleği boyutu büyür. Önbellek, çipin hızlı yerleşik belleğinin kapasitesini aşar ve daha yavaş olan ana bilgisayar CPU belleğine taşarsa tüm hesaplama süreci durur. Bu durum, yaygın olarak "bellek duvarı" olarak bilinir [cite: 5, 8].
TPU 8i, bu duvarı yıkmak için özel olarak üretildi. Tek bir işlem kalıbı ve altı yığın HBM3e ile bir G/Ç kalıbı kullanan daha basit ve daha uygun maliyetli bir silikon tasarımına sahip olmasına rağmen, bellek kapasiteleri sunum için büyük ölçüde optimize edilmiştir [cite: 9]. * HBM Kapasitesi ve Bant Genişliği: Her TPU 8i, 288 GB HBM3E ile donatılmıştır. Bu, TPU 7x'e kıyasla% 50 kapasite artışı anlamına gelir [cite: 5, 24, 30]. Daha da önemlisi, büyük MoE modelleri çıkarım sırasında bellek bant genişliğiyle sınırlı olduğundan bellek bant genişliği 8,6 TB/sn (~8.601 GB/sn) değerine çıkarılır.Bu değer, eğitime odaklanan TPU 8t'den yaklaşık 1,3 kat daha hızlıdır [cite: 10, 15]. * Büyük Çip Üzeri SRAM: En önemli donanım değişikliği, çip başına 384 MB çip üzerinde Statik Rastgele Erişimli Bellek (SRAM) eklenmesidir [cite: 10, 15, 30]. Bu, hem TPU 7x hem de TPU 8t'ye kıyasla %300'lük (3 kat) büyük bir artışı temsil eder [cite: 10, 15, 30]. SRAM, silikon matris üzerinde doğrudan kullanılabilen en hızlı ve en düşük gecikmeli bellek türüdür. Bu kapasiteyi üç katına çıkaran TPU 8i, büyük KV önbelleklerini tamamen çip üzerinde barındırabilir [cite: 15, 16]. Bu sayede, jeton geçmişlerinin daha yavaş bellek katmanlarından getirilmesini beklerken işlem çekirdeklerinin boşta kalması önlenir ve yüksek eşzamanlılıkta çıkarım döngülerinin benzeri görülmemiş bir akışkanlıkla çalışması sağlanır [cite: 5, 15].
The Collectives Acceleration Engine (CAE)
TPU 8i çıkarımı hedeflediğinden, yerleştirme aramaları için 7x ve 8t'de kullanılan SparseCore birimi, bu iş yükü için silikon alanının verimsiz bir kullanımı olarak değerlendirildi. Google mühendisleri bunun yerine Collectives Acceleration Engine (CAE) [cite: 10, 15] olarak bilinen tescilli bir donanım bloğu kullanmaya başladı.
Otomatik regresif kod çözme ve "düşünce zinciri" işleme sırasında, farklı çekirdekler matematiksel sonuçlarını çip genelinde toplamak, azaltmak ve senkronize etmek için kendi hesaplamalarını sık sık duraklatmalıdır [cite: 6, 15]. Bu küresel senkronizasyon işlemleri, özellikle binlerce bağımsız temsilci aynı anda bir sorunla uğraşırken gecikmeyi ciddi şekilde yavaşlatabilir.
Her TPU 8i çipinde, çekirdek kalıplarında iki TensorCore bulunur. Bunlara, çiplet kalıbında yer alan bir CAE eşlik eder (TPU 7x'te bulunan dört SparseCore'un yerini alır) [cite: 6, 15]. Özel CAE, çekirdekler arasında sonuçları neredeyse sıfır gecikmeyle toplamak üzere tasarlanmıştır. Bu sayede, TPU 7x nesline kıyasla çip üzerinde toplu gecikmede 5 kat azalma sağlanır [cite: 10, 15]. CAE, ajan tabanlı iş akışlarına hakim olan azaltma adımlarını donanım hızlandırmasıyla gerçekleştirerek sistemin anında yanıt verme özelliğinden ödün vermeden yüksek gönderim hacmi sağlamasını sağlar [cite: 6, 15].
Ağ Düzleştirme: Boardfly Topolojisi
TPU 8i'nin tanımlayıcı özelliği, 3D torus topolojisinin tamamen terk edilmiş olmasıdır. 3D torus, ön eğitimde gerekli olan komşudan komşuya veri aktarımı için mükemmel olsa da MoE çıkarım modellerinin gerektirdiği tümden tümüne jeton yönlendirme için kabul edilemeyecek kadar uzun fiziksel mesafeler (ağ atlamalarıyla ölçülür) oluşturur [cite: 2, 15]. MoE mimarilerinde, belirli bir jetonun kapsül içindeki tamamen farklı bir çip üzerinde bulunan belirli bir "uzman" katmanına yönlendirilmesi gerekebilir. Geleneksel bir torusta bu veri paketi, hedefine ulaşmak için aradaki çiplerden sırayla geçmek zorundadır.
Google, bu sorunu çözmek için Boardfly [cite: 15, 31] adlı yeni bir yayın için optimize edilmiş ağ mimarisi geliştirdi. Dragonfly topoloji ilkelerinden ilham alan Boardfly, mimariyi şiddetli bir şekilde düzleştirmek ve herhangi iki çip arasındaki fiziksel mesafeyi en aza indirmek için tasarlanmış hiyerarşik, yüksek tabanlı bir ağdır [cite: 2, 15, 26].
Boardfly topolojisi hiyerarşik olarak oluşturulur: 1. Yapı taşı: Tamamen bağlı dört TPU 8i çipi, dahili ICI bağlantılarıyla temel bir yapı taşı oluşturur [cite: 6, 16]. 2. Kart: Sekiz yapı taşı, tek bir kart oluşturmak için doğrudan bakır kablolarla tamamen bağlanır [cite: 6, 16]. 3. Pod: 36 grup,Optik Devre Anahtarları ve doğrudan optik uzun mesafeli bağlantılar aracılığıyla tamamen birbirine bağlanarak 1.152 çipli birleşik bir pod oluşturur [alıntı: 5, 6, 16, 32].
Bu yaklaşımın gecikme süresi avantajı çok büyüktür. Standart 1.024 çipli 3D torus yapılandırmasında, bir veri paketinin maksimum 16 atlamalık bir ağ çapını geçmesi gerekebilir [cite: 15, 25]. Boardfly topolojisinde bu maksimum ağ çapı yalnızca 7 atlamaya düşürülür [cite: 15, 25].
Ağ çapındaki bu% 56'lık azalma, iletişim yoğun çıkarım iş yüklerinde kuyruk gecikmesinde% 50'lik büyük bir iyileşme anlamına gelir [cite: 16, 25, 30]. Çıkarım, nihayetinde en yavaş düğümünün hızıyla sınırlanır. Boardfly topolojisi, kuyruk gecikmesini azaltarak CAE'nin, jeton verilerinin pod'u geçmesini beklerken hiçbir zaman boşta kalmamasını sağlar [cite: 6, 15].
Ayrıca, bu son derece uyumlu optik ara bağlantı sayesinde 1.152 çipli tek bir TPU 8i pod, 331,8 TB tutarlı HBM'ye sahip devasa ve birleşik bir paylaşılan bellek alanı olarak işlev görür [cite: 16].
Karşılaştırmalı Performans, Ekonomi ve Sistem Altyapısı
Mimari çatallanma, hem hesaplama ekonomisinde hem de enerji verimliliğinde önemli iyileştirmeler sağlar. Donanımı yalnızca teorik en yüksek kayan nokta işlemleri açısından değerlendirmek, veri merkezi operasyonlarının ve yazılım etkinleştirmenin sistemik gerçeklerini göz ardı eder.
Yazılım Soyutlama ve Çerçeve Desteği
Google, farklı donanım temellerine rağmen çerçeveye bağlı kalmayı önlemek için birleşik ve performansı öncelikli yapay zeka yazılım yığını oluşturmaya büyük yatırım yaptı. Hem TPU 8t hem de 8i, JAX, Keras, MaxText, SGLang ve vLLM motoru için yerel destek sunar [cite: 5, 8, 14, 17]. Ayrıca, yerel PyTorch desteği (TorchTPU aracılığıyla) geliştiricilerin mevcut PyTorch modellerini Eager Mode gibi yerel özellikler için tam destekle doğrudan TPU ortamına taşımasına olanak tanır [cite: 15, 17].
Arka planda, Accelerated Linear Algebra (XLA) derleyicisi, Boardfly topolojisinin ve CAE senkronizasyonunun karmaşık çevirisini gerçekleştirir. Böylece geliştiriciler, optik ara bağlantıları manuel olarak programlamaları gerekmeden Python'da (Pallas ve Mosaic kullanarak) donanıma duyarlı özel çekirdekler yazabilir [cite: 15].
Nicel Performans Metrikleri
Aşağıdaki tabloda, birleştirilmiş TPU 7x ile son derece özelleşmiş TPU 8t ve 8i mimarilerindeki temel teknik özellikler özetlenmektedir [cite: 3, 15, 24].
| Spesifikasyon Matrisi | TPU 7x | TPU 8t | TPU 8i |
|---|---|---|---|
| Birincil İş Yükü (Primary Workload) | Birleştirilmiş (Eğitim ve çıkarım) | Büyük Ölçekli Ön Eğitim | Gecikmeye Duyarlı Çıkarım |
| ASIC Design Partner | Broadcom | Broadcom | MediaTek |
| Ağ Topolojisi | 3D Torus | 3D Torus + Virgo Scale-Out | Boardfly (Yusufçuktan esinlenilmiştir) |
| Özel Donanım | SparseCore | SparseCore | Collectives Acceleration Engine (CAE) |
| Native Precision Focus | FP8 | FP4 | FP4 (FP8/INT8 desteğiyle) |
| Çip Başına En Yüksek İşlem Gücü | 4,6 PFLOP (FP8) | 12,6 PFLOP (FP4) | 10,1 PFLOP (FP4) |
| Çip Başına HBM Kapasitesi | 192 GB | 216 GB | 288 GB |
| HBM Bant Genişliği | 7,37 TB/sn | 6,52 TB/sn | 8,60 TB/sn |
| Çip Üzeri SRAM (VMEM) | 128 MB | 128 MB | 384 MB |
| Çipler Arası BW (Ölçeği Büyütme) | 9,6 Tb/sn | 19,2 Tb/sn | 19,2 Tb/sn |
| Maksimum Kapsül/Süper Kapsül Boyutu | 9.216 çip | 9.600 çip | 1.152 çip |
Maliyet-Performans ve TCO Optimizasyonu
Google, sekizinci nesil ile toplam mülkiyet maliyetinde (TCO) çarpıcı iyileştirmeler olduğunu iddia ediyor. TPU 8t, büyük ölçekli eğitim için TPU 7x'e kıyasla dolar başına performansta% 170 ila% 180 artış (2,7 ila 2,8 kat iyileşme) sağlıyor [cite: 6, 15, 30]. TPU 8i ise çıkarım için dolar başına performansta% 80 iyileşme sunuyor. Bu iyileşme özellikle büyük MoE modelleri için gereken düşük gecikme hedeflerinde geçerli [cite: 15, 16, 30].
Bu ekonomik kazanımlar yalnızca silikondan değil, tam yığın sistemik entegrasyondan da kaynaklanır. Geçmişte TPU'lar, hazır x86 ana makine CPU'larıyla eşleştiriliyordu. Yoğun veri ön işleme veya karmaşık ajan tabanlı mantık içeren durumlarda x86 ana makinesi genellikle sistemi performans sorunu yaratarak hiper hızlı TPU silikonunu boşta ancak verisiz bırakır [cite: 6, 7].
Sekizinci nesil, hem 8t hem de 8i'yi yalnızca Google'ın özel Axion ARM tabanlı işlemcilerinde barındırarak bu kronik dengesizliği düzeltir [cite: 6, 7, 15]. Neoverse N3 Armv9.2 çekirdek mimarisi üzerine kurulu olan Axion ana makineleri, birleşik ve yüksek düzeyde optimize edilmiş bir temel sağlar [cite: 18, 19]. Google, çıkarım ağırlıklı TPU 8i için Axion ana makinelerini 2:1 TPU-CPU oranıyla entegre ederek TPU 7x'e kıyasla sunucu başına fiziksel CPU ana makinelerinin sayısını iki katına çıkardı [cite: 5, 6, 32]. İş yükü yalıtımı için katı Non-Uniform Memory Access (NUMA) mimarisini kullanan sistem, üstün bellek yerelliği sağlar ve veri hazırlama darboğazını tamamen ortadan kaldırır [cite: 5, 7].
Enerji Verimliliği ve Pazar Etkileri
Enerji yoğunluğu ve güç kullanılabilirliği, modern veri merkezi dağıtımında hızla nihai bağlayıcı kısıtlamalar haline geliyor. Dördüncü nesil sıvı soğutma ve güç çekimini belirli iş yükü aşamalarına (ör. aktif hesaplama ve iletişim için boşta kalma) göre dinamik olarak ayarlayan entegre, gerçek zamanlı güç yönetimi sayesinde hem TPU 8t hem de 8i, şaşırtıcı bir güç verimliliği elde eder [cite: 7, 15, 22, 24]. 8t, watt başına performansta% 124 artış sağlarken 8i% 117 artış sağlar. Bu da TPU 7x'e kıyasla enerji verimliliğinde genel olarak 2 kat (%100'den fazla) iyileşme anlamına gelir [cite: 15, 22, 30].
Bu verimliliğin etkileri, Google'ın kendi son teknoloji modellerinde açıkça görülmektedir. Gemini 3.1 Pro önizlemesiyle ilgili karşılaştırma testleri, modelin TPU 8i mimarisine dağıtılmasının çıkarım API'leri için yaklaşık% 50 maliyet düşüşü sağladığını, ayrıca yanıt verme hızının ve uzun bağlam işleme özelliklerinin büyük ölçüde iyileştiğini gösteriyor [cite: 24, 30].
Rekabet Ortamı: Google ve Satıcı Silikonu
Google'ın silikon stratejisini ikiye bölme kararı, özellikle Nvidia gibi ticari silikon sağlayıcılarla ve daha az ölçüde AMD ve AWS (Trainium3 platformuyla) ile devam eden rekabetinde olmak üzere, daha geniş yapay zeka donanım ekosistemi için derin etkiler barındırıyor [cite: 17, 23].
Nvidia, hem ön eğitim hem de gerçek zamanlı çıkarım için Blackwell B200 ve Vera Rubin NVL72 gibi yüksek kapasiteli ancak genel amaçlı platformlardan yararlanarak geçmişte birleşik bir mimari stratejisi sürdürmüştür [cite: 2, 9]. Nvidia, yalnızca ham tek çipli özellikler açısından bakıldığında belirli avantajlarını koruyor. Örneğin, Nvidia'nın NVLink teknolojisi 14,4 Tb/sn'lik tek cihaz ara bağlantı bant genişliklerini destekler ve tek tek Rubin GPU'ları yaklaşık 50 PFLOP'luk NVFP4 çıkarım hesaplama gücü sunar. Bu, TPU 8i'nin 10,1 PFLOP'luk gücünden önemli ölçüde daha yüksektir [cite: 2, 9].
Ancak Google'ın mimari tercihi, yapay zekanın geleceğinin tek çipli en yüksek kapasitelerle değil, küme ölçeğinde verimlilikle belirleneceği inancına dayanmaktadır [cite: 9].
Google, Boardfly topolojisine geçerek TPU 8i pod'undaki 1.152 çipin tamamında tamamen tutarlı ve paylaşılan bir bellek havuzu oluşturur [cite: 16]. Bu, 11,6 FP8 ExaFlops'luk bir toplu kapsül kapasitesi ve 331,8 TB'lık birleşik, tutarlı HBM ile sonuçlanır [cite: 6, 16]. Buna karşılık, NVL72'deki standart Nvidia GPU raf ölçeğinde tutarlılık, 72 GPU ve yaklaşık 20,7 TB HBM ile sınırlıdır [cite: 2, 16]. Genel amaçlı GPU'ları 1.152 çipli bir yapılandırmaya uyacak şekilde ölçeklendirmek için yaklaşık 16 ayrı raf arasında köprüleme yapılması gerekir [cite: 16]. Bu fiziksel ayrım, gerçek bellek tutarlılığını bozar ve sürekli, uzun bağlamlı yapay zeka çıkarımı için felaket niteliğinde olan ciddi gecikme cezalarına yol açar [cite: 16].
Ayrıca, Boardfly hiyerarşisini kolaylaştırmak için optik devre anahtarlamayı (OCS) yığının daha alt katmanlarına taşıyarak Google, optik ağ tedarik zincirini temelden değiştiriyor ve Lumentum ile Coherent gibi satıcılardan özel alıcı-vericiler ve lazerler için büyük bir aşağı yönlü talep yaratıyor [alıntı: 26].
Sonuç olarak Google'ın tasarım felsefesi, 2020'lerin sonlarındaki gerçek savaş alanının tek bir silikon kalıbı üzerindeki en yüksek matematiksel işleme hızıyla değil, bellek duvarını aşma, siteler arası ara bağlantıları hızla ölçeklendirme ve gerçek zamanlı ajan kümelerini milyarlarca kullanıcıya dağıtmanın mutlak parça başına maliyetini düşürme becerisiyle belirleneceğini varsaymaktadır [cite: 6, 16, 17].
Sonuç
Google Cloud'un Tensor İşleme Birimlerinin (TPU) TPU 7x'in birleşik çerçevesinden TPU 8t ve TPU 8i'nin son derece özelleşmiş ikiliğine doğru ilerlemesi, yapay zeka iş yüklerinin olgunlaşmasını ve endüstrileşmesini yansıtır. İlk derin öğrenme patlamasının temelini oluşturan genel amaçlı, birleşik silikon, artık yapay zeka çağının uç noktalarda gerektirdiği ekonomikliği veya performansı sağlamak için yeterli değil.
TPU 8t, ölçek konusunda tavizsiz bir yaklaşımı temsil eder. SparseCore'un saklanması, MXU işleme hızını iki katına çıkarmak için yerel FP4 hassasiyetinin uygulanması ve Virgo Ağı ile TPUDirect Storage'ın şaşırtıcı yetenekleri sayesinde, daha önce imkansız olduğu düşünülen bir hacimde veri alıp işlemek üzere tasarlanmıştır. Bu teknoloji, modern veri merkezlerinin ölçeklenebilir bant genişliği kısıtlamalarını etkili bir şekilde ortadan kaldırarak milyonlarca çipin tek bir küresel olarak dağıtılmış ön eğitim motoru gibi çalışmasına olanak tanır.
TPU 8i ise gecikmeyi ortadan kaldırma ve ekonomik verimlilik üzerine kuruludur. TPU 8i, hiyerarşik Boardfly topolojisi lehine 3D torus'u bırakarak, çip üzerinde SRAM'i üç katına çıkararak 384 MB'a yükselterek ve otomatik regresif senkronizasyonu hızlandırmak için Collectives Acceleration Engine'i tanıtarak çıkarım belleği duvarını sistematik olarak yıkıyor. Bu sayede, karmaşık ve çok adımlı yapay zeka tabanlı muhakeme için gereken büyük KV önbellekleri yerel olarak kalabilir ve neredeyse sıfır gecikmeyle erişilebilir. Ayrıca, kolaylaştırılmış bir mantık tasarımı sayesinde üretim maliyetleri de düşürülür.
Tamamen entegre ARM tabanlı Axion CPU'larda barındırılan ve otonom optik devre anahtarlama ile yönetilen bu ikiye ayrılmış sekizinci nesil, hiper ölçekli altyapıda yeni bir paradigma oluşturuyor. Bu, yapay zekanın geleceğinin yalnızca daha hızlı çiplere değil, aynı zamanda hizmet etmeleri gereken farklı iş yükleri için tam olarak birlikte tasarlanmış, temelde farklı donanım çerçevelerine de ihtiyaç duyduğunu belirten kesin bir mimari beyan niteliğindedir.
Kaynaklar: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Bağlantı 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com