Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

एजेंटिक एरा का आर्किटेक्चर: Google Cloud TPU 7x, TPU 8t, और TPU 8i का तुलनात्मक विश्लेषण

बुनियादी लार्ज लैंग्वेज मॉडल से लेकर जटिल, कई चरणों वाले एजेंटिक सिस्टम तक, आर्टिफ़िशियल इंटेलिजेंस (एआई) के विकास ने सेमीकंडक्टर डिज़ाइन में बुनियादी बदलाव किया है. पिछले करीब एक दशक से, आर्टिफ़िशियल इंटेलिजेंस ऐक्सलरेटर आर्किटेक्चर में यूनिफ़िकेशन का लॉजिक इस्तेमाल किया जा रहा है. सिलिकॉन डिज़ाइनर, एक ऐसा आर्किटेक्चर तैयार करने की कोशिश कर रहे हैं जो मॉडल की प्री-ट्रेनिंग के बड़े और थ्रूपुट-हैवी वर्कलोड को एक साथ पूरा कर सके. साथ ही, प्रोडक्शन इन्फ़रेंस की लेटेन्सी-सेंसिटिव मांगों को भी पूरा कर सके [cite: 1, 2]. यह यूनिफ़ाइड अप्रोच, इंडस्ट्री में तब से इस्तेमाल किया जा रहा है, जब पहले हार्डवेयर ऐक्सलरेटर बनाए गए थे. यह अप्रोच, Google Cloud Tensor Processing Unit (TPU) के सातवें जनरेशन के डिप्लॉयमेंट तक इस्तेमाल किया गया [cite: 2, 3, 4].

हालांकि, जैसे-जैसे फ़्रंटियर मॉडल में ट्रिलियन पैरामीटर और रीयल-टाइम रीज़निंग आर्किटेक्चर का इस्तेमाल बढ़ता जा रहा है, वैसे-वैसे ट्रेनिंग और सर्विसिंग के लिए हार्डवेयर की ज़रूरतें भी बदल रही हैं [cite: 5, 6, 7]. प्री-ट्रेनिंग, बैंडविड्थ और थ्रूपुट ऑप्टिमाइज़ेशन की समस्या में बदल गई है. इसके लिए, बड़े पैमाने पर स्केल-अप करने की क्षमताओं, इंटरकनेक्ट बाईसेक्शनल बैंडविड्थ, और लगातार मैट्रिक्स मैथ सैचुरेशन की ज़रूरत होती है [cite: 6]. इसके उलट, एजेंटिक सर्विसिंग, लेटेन्सी और मेमोरी से जुड़ी समस्या के तौर पर सामने आई है. यह इस बात पर निर्भर करती है कि ग्लोबल सिंक्रनाइज़ेशन ऑपरेशन्स पर असर डाले बिना, वज़न और कुंजी-वैल्यू (केवी) कैश को प्रोसेसिंग कोर पर कितनी तेज़ी से स्ट्रीम किया जा सकता है [cite: 6, 8].

Google ने यह माना कि दोनों वर्कलोड को एक ही सिलिकॉन पर चलाने से, सिस्टम की परफ़ॉर्मेंस कम हो जाती है और आर्थिक फ़ायदे भी कम हो जाते हैं. इसलिए, Google ने आर्किटेक्चर से जुड़ा एक ऐसा फ़ैसला लिया जो पहले कभी नहीं लिया गया था. इसके तहत, Google ने अपने आठवें जनरेशन के टीपीयू लाइनअप को दो हिस्सों में बांट दिया [cite: 1, 6, 9]. इनसे दो अलग-अलग और बेहद खास चिप तैयार की गई हैं. इन्हें सप्लाई चेन लेवल पर बनाया गया है: टीपीयू 8टी, जिसे सुपरकंप्यूटर स्केल पर ट्रेनिंग के लिए बनाया गया है. वहीं, टीपीयू 8आई को इन्फ़रेंस मेमोरी वॉल को तोड़ने और ग्लोबल रीज़निंग के लिए, सामूहिक लेटेंसी को कम करने के लिए डिज़ाइन किया गया है [cite: 7, 9].

इस रिसर्च रिपोर्ट में, टीपीयू 7x के यूनीफ़ाइड बेसलाइन और टीपीयू 8t और टीपीयू 8i के बीच आर्किटेक्चर, परफ़ॉर्मेंस, और स्केलिंग के अंतर का विश्लेषण किया गया है. लॉजिक डिज़ाइन, मल्टी-टियर मेमोरी हैरारकी, डेटा सेंटर इंटरकनेक्ट टोपोलॉजी, ऑप्टिकल सर्किट स्विचिंग, और हार्डवेयर-सॉफ़्टवेयर को-डिज़ाइन की पूरी जांच करके, इस विश्लेषण में बताया गया है कि अगली पीढ़ी की आर्टिफ़िशियल इंटेलिजेंस की आर्थिक और कंप्यूटेशनल स्केलिंग को बनाए रखने के लिए, खास सिलिकॉन की ज़रूरत कैसे होती है.

ऐतिहासिक संदर्भ: विशेषज्ञता की ओर बढ़ने का सफ़र

आठवीं जनरेशन में किए गए आर्किटेक्चरल बदलावों को पूरी तरह से समझने के लिए, टीपीयू फ़ैमिली के क्रमिक विकास का पता लगाना ज़रूरी है. Google के हार्डवेयर डेवलपमेंट में, मशीन लर्निंग के मौजूदा मॉडल की समस्याओं को लगातार दिखाया गया है. इसमें, सामान्य इन्फ़्रेंस ऐक्सलरेशन से लेकर बड़े क्लस्टर-स्केल ट्रेनिंग फ़ैब्रिक [cite: 10, 11] तक शामिल हैं.

इनफ़रेंस से लेकर बड़े मैट्रिक्स ऐरे तक

Google ने 2015 में टीपीयू v1 लॉन्च किया था. यह सिर्फ़ अनुमान लगाने वाला ऐक्सलरेटर है. इसे Search, Translate, और YouTube के सुझावों जैसी इंटरनल सेवाओं के बढ़ते कंप्यूटेशनल लोड को मैनेज करने के लिए डिज़ाइन किया गया था [cite: 11, 12]. v1 ने 8-बिट पूर्णांक गणित का इस्तेमाल किया. इससे, अलग-अलग कामों के लिए इस्तेमाल की जाने वाली मशीन सेंट्रल प्रोसेसिंग यूनिट (सीपीयू) और ग्राफ़िकल प्रोसेसिंग यूनिट (जीपीयू) की तुलना में, प्रति वॉट ऑपरेशन में काफ़ी सुधार हुआ [cite: 10, 11]. साल 2017 तक, टीपीयू v2 में ट्रेनिंग की सुविधाएं उपलब्ध कराई गईं. इसमें bfloat16 (BF16) फ़ॉर्मैट पेश किया गया. यह 16-बिट फ़्लोटिंग-पॉइंट फ़ॉर्मैट है. इसमें 32-बिट फ़्लोट की डाइनैमिक रेंज को बनाए रखा गया है. साथ ही, मेमोरी की खपत को आधा कर दिया गया है [cite: 10].

तीसरी से पांचवीं जनरेशन तक, मुख्य कंप्यूटेशनल इंजन यानी मैट्रिक्स मल्टिप्लाई यूनिट (एमएक्सयू) को ऑप्टिमाइज़ किया गया है. कई जनरेशन तक, MXU 128x128 सिस्टोलिक ऐरे बना रहा. यह एक साथ 16,384 गुणा-जोड़ ऑपरेशन कर सकता है [cite: 4, 10]. TPU v4 में "SparseCore" को पेश किया गया है. यह एक खास हार्डवेयर ब्लॉक है. इसे खास तौर पर एम्बेडिंग लुकअप और अनियमित मेमोरी ऐक्सेस को तेज़ करने के लिए बनाया गया है. इससे, सुझाव देने वाले मॉडल की ट्रेनिंग के दौरान MXU को रुकने से रोका जा सकता है [cite: 4, 6].

The Topographical Evolution and Trillium (v6e)

मॉडल के साइज़ बढ़ने के साथ-साथ, हज़ारों चिप में ग्रेडिएंट को सिंक करने के लिए, इंटरकनेक्ट टोपोलॉजी में बदलाव हुआ. Google ने छोटे और कम लागत वाले पॉड (जैसे कि v5e और v6e) के लिए, 2D टोरस टोपोलॉजी का इस्तेमाल किया. इससे 256 चिप तक स्केल करना आसान हो गया [cite: 4, 10]. परफ़ॉर्मेंस के लिए ऑप्टिमाइज़ किए गए वैरिएंट (जैसे कि v4 और v5p) के लिए, Google ने 3D टोरस टोपोलॉजी का इस्तेमाल किया. इससे चिप को थ्री-डाइमेंशनल रैप-अराउंड ग्रिड में कनेक्ट किया गया. इससे 4,096 से 8,960 चिप वाले बड़े पॉड में कम्यूनिकेशन लेटेंसी कम हो गई [cite: 4].

मॉडर्न एरा से पहले, टीपीयू v6e (ट्रिलियम) को 2024 के आखिर में रिलीज़ किया गया था. Trillium ने MXU को 128x128 ऐरे से बढ़ाकर 256x256 ऐरे कर दिया. इससे, आर्किटेक्चर में एक बड़ा बदलाव हुआ [cite: 10]. इससे हर साइकल में, मल्टिप्लाई-ऐक्युमुलेट ऑपरेशन की संख्या चार गुना बढ़ गई. Trillium में, इंटर-चिप इंटरकनेक्ट (आईसीआई) की बैंडविड्थ को दोगुना करके 3,200 Gbps (13 TB/s एग्रीगेट बाइ-डायरेक्शनल) कर दिया गया है. साथ ही, इसमें हर चिप के लिए 32 जीबी की हाई-बैंडविड्थ मेमोरी (एचबीएम) दी गई है. इस वजह से, Trillium ने अपने पिछले वर्शन की तुलना में 4.7 गुना ज़्यादा कंप्यूटिंग पावर दी. साथ ही, यह 67% ज़्यादा ऊर्जा दक्षता के साथ काम करता है [cite: 10, 11].

TPU जनरेशन	रिलीज़ होने का साल	प्राइमरी इनोवेशन	टॉपोलॉजी और पॉड का ज़्यादा से ज़्यादा साइज़	MXU आर्किटेक्चर	हर चिप के हिसाब से सबसे ज़्यादा कंप्यूटिंग पावर
TPU v2	2017	पहली बार ट्रेनिंग की जा सकती है (BF16)	2D टोरस (512 चिप)	128x128	~45 TFLOPS
TPU v4	2021	SparseCore के बारे में जानकारी	3D टोरस (4,096 चिप)	128x128	275 टेराफ़्लॉप्स
TPU v5e	2023	लागत के हिसाब से ऑप्टिमाइज़ की गई परफ़ॉर्मेंस	2D टोरस (256 चिप)	128x128	197 टेराफ़्लॉप्स
TPU v5p	2023	परफ़ॉर्मेंस को बेहतर बनाना	3D टोरस (8,960 चिप)	128x128	459 टेराफ़्लॉप्स
TPU v6e (Trillium)	2024	256x256 MXU एक्सपैंशन	2D टोरस (256 चिप)	256x256	918 TFLOPS

यूनिफ़ाइड आर्किटेक्चर का सबसे बेहतरीन उदाहरण: TPU 7x

सातवीं जनरेशन का TPU 7x, साल 2025 के आखिर में सामान्य रूप से उपलब्ध कराया गया था. यह Google की यूनीफ़ाइड आर्किटेक्चर रणनीति का सबसे बेहतरीन उदाहरण है. TPU 7x को एक ही आर्किटेक्चरल फ़्रेमवर्क में, फ़्रंटियर-स्केल प्री-ट्रेनिंग और डिकोड-हैवी इन्फ़्रेंस, दोनों को एक्ज़ीक्यूट करने के लिए डिज़ाइन किया गया है. इसने दोहरे मकसद वाले ऐक्सलरेटर की क्षमताओं को बढ़ाया है [cite: 3, 10].

डुअल-चिपलेट डिज़ाइन और AlphaChip ऑप्टिमाइज़ेशन

TPU v4 और v5p में मौजूद सिंगल लॉजिकल कोर (MegaCore) आर्किटेक्चर की तुलना में, TPU v7 के फ़िज़िकल कंस्ट्रक्शन में काफ़ी बदलाव किया गया है [cite: 3]. TPU 7x में ड्यूअल-चिपलेट आर्किटेक्चर का इस्तेमाल किया जाता है. हर TPU v4 चिप में दो अलग-अलग, सेल्फ-कंटेन्ड चिपलेट होते हैं. ये चिपलेट, मालिकाना हक वाले हाई-स्पीड डाई-टू-डाई (D2D) इंटरफ़ेस से कनेक्ट होते हैं [cite: 3]. यह D2D कनेक्शन, एक डाइमेंशन वाले सामान्य आईसीआई लिंक की तुलना में छह गुना ज़्यादा तेज़ी से काम करता है. इससे चिपलेट, अपनी मेमोरी स्पेस को बनाए रखते हुए तेज़ी से कम्यूनिकेट कर पाते हैं [cite: 3].

यूनिफ़ाइड चिप में, TPU 7x में दो TensorCore और चार SparseCore होते हैं [cite: 3]. सिलिकॉन मैट्रिक्स पर इन कोर के फ़िज़िकल लेआउट को ऑप्टिमाइज़ करने के लिए, Google के मालिकाना हक वाले रीइन्फ़ोर्समेंट लर्निंग टूल, AlphaChip का इस्तेमाल किया गया था. इससे वायर की लंबाई को कम किया जा सका और थर्मल दक्षता को बढ़ाया जा सका [cite: 10]. TPU v4 के लिए स्टैंडर्ड वर्चुअल मशीन (वीएम) कॉन्फ़िगरेशन, चार चिप को सीपीयू होस्ट से कनेक्ट करता है. इससे 224 वीसीपीयू और 960 जीबी रैम मिलती है [cite: 3].

मल्टी-टियर मेमोरी हैरारकी और सटीक फ़ॉर्मैटिंग

डेंस और MoE मॉडल को प्रोसेस करने में सबसे बड़ी समस्या, स्टोरेज टियर के बीच डेटा का लगातार ट्रांसफ़र होना है. TPU 7x में कई टियर वाला मेमोरी सिस्टम होता है. इसे MXU को पूरी तरह से इस्तेमाल करने के लिए डिज़ाइन किया गया है: * हाई-बैंडविड्थ मेमोरी (HBM3E): हर TPU 7x चिप में 192 जीबी HBM होता है. इससे 7.37 टीबी/सेकंड (7,380 जीबीपीएस) की मेमोरी बैंडविड्थ मिलती है [cite: 3, 10]. Trillium की तुलना में, इसकी क्षमता छह गुना ज़्यादा है. इससे ट्रेनिंग के दौरान बैच का साइज़ काफ़ी बड़ा हो जाता है. साथ ही, अनुमान लगाने के दौरान ज़्यादा केवी कैश को ऑन-चिप पर बनाए रखा जा सकता है. इससे होस्ट मेमोरी में ऑफ़लोड करने से जुड़ी महंगी लेटेन्सी स्पाइक को रोका जा सकता है [cite: 4, 10, 13]. * वेक्टर मेमोरी (VMEM): यह एक अल्ट्रा-हाई-स्पीड, ऑन-चिप SRAM स्क्रैचपैड के तौर पर काम करती है. हर TensorCore में 64 MiB VMEM (हर चिप में कुल 128 MB) होता है. VMEM में, MXU की तुलना में HBM की बैंडविड्थ काफ़ी ज़्यादा होती है [cite: 3, 14]. स्कोप की गई VMEM ट्यूनिंग की मदद से, डेवलपर मौजूदा कंप्यूटेशनल स्कोप और आने वाले समय में इस्तेमाल होने वाले वेट प्रीफ़ेचिंग के बीच मेमोरी को फिर से असाइन कर सकते हैं. इससे बड़े कर्नल टाइल साइज़ (जैसे कि फ़्लैश अटेंशन में इस्तेमाल किए जाते हैं) का इस्तेमाल किया जा सकता है. साथ ही, मेमोरी स्टॉल को कम किया जा सकता है [cite: 13, 14]. * होस्ट मेमोरी (PCIe): PCIe नेटवर्क के ज़रिए कनेक्ट की गई सिस्टम की होस्ट मेमोरी का इस्तेमाल, ऑप्टिमाइज़र स्टेट और ऐक्टिवेशन को ऑफ़लोड करने के लिए किया जाता है. इससे HBM की क्षमता से ज़्यादा मेमोरी इस्तेमाल करने वाले मॉडल के लिए मेमोरी प्रेशर को मैनेज किया जा सकता है [cite: 3, 14].

इसके अलावा, TPU 7x ने 8-बिट फ़्लोटिंग-पॉइंट (FP8) प्रिसिज़न के लिए, नेटिव हार्डवेयर ऐक्सलरेशन की सुविधा पेश की है [cite: 4, 13]. स्टैंडर्ड 16-बिट फ़ॉर्मैट (BF16 या FP16) से FP8 पर माइग्रेट करने से, पीक कंप्यूटेशनल थ्रूपुट दोगुना हो जाता है. साथ ही, वज़न और ऐक्टिवेशन को सेव करने के लिए ज़रूरी मेमोरी फ़ुटप्रिंट आधा हो जाता है [cite: 4, 13]. FP8 में नेटिव तौर पर काम करने वाला एक TPU 7x चिप, 4,614 TFLOPS का पीक कंप्यूट डिलीवर करता है. वहीं, BF16 में काम करने पर यह 2,307 TFLOPS का पीक कंप्यूट डिलीवर करता है [cite: 3, 4].

3D टोरस टोपोलॉजी और सुपरपॉड स्केल

डेटा सेंटर लेवल पर, TPU 7x, Google की भरोसेमंद 3D टॉरस इंटरकनेक्ट टोपोलॉजी [cite: 3] पर निर्भर करता है. इस आर्किटेक्चर में, हर चिप को X, Y, और Z ऐक्सिस पर मौजूद सबसे नज़दीकी चिप से सीधे तौर पर कनेक्ट किया जाता है. इससे, तीन डाइमेंशन वाला मेश तैयार होता है [cite: 3]. इस मेश में कम्यूनिकेशन,हर चिप के लिए 1.2 टीबी/सेकंड (1, 200 जीबीपीएस) के आईसीआई बैंडविड्थ की मदद से होता है. इससे हर ऐक्सिस पर 200 जीबीपीएस की स्पीड से दोनों दिशाओं में कम्यूनिकेशन किया जा सकता है [cite: 3].

पूरी तरह से तैयार किया गया TPU 7x सुपरपॉड, 9,216 लिक्विड-कूल्ड चिप तक स्केल करता है. इस कॉन्फ़िगरेशन में, पॉड 42.5 एक्ज़ाफ़्लॉप की कुल FP8 कंप्यूट पावर देता है [cite: 8, 10]. 64 से ज़्यादा चिप वाले स्लाइस, चिप के 4x4x4 मॉड्यूलर "क्यूब" का इस्तेमाल करके बनाए जाते हैं. इससे, सिंगल-होस्ट कॉन्फ़िगरेशन से लेकर बड़े मल्टी-होस्ट एनवायरमेंट तक, अलग-अलग तरह की टोपोलॉजी का इस्तेमाल किया जा सकता है [cite: 3].

TPU 7x में कई बेहतरीन सुविधाएं होने के बावजूद, इसे एक ही तरह के काम के लिए बनाया गया था. इसलिए, इसमें कुछ कमियां थीं. प्री-ट्रेनिंग के लिए, 3D टोरस टोपोलॉजी बहुत असरदार होती है. इससे स्थानीय स्तर पर, अनुमानित ग्रेडिएंट सिंक्रनाइज़ेशन किया जा सकता है. हालांकि, इससे नेटवर्क का डायमीटर बढ़ जाता है. उदाहरण के लिए, 3D टोरस पर मौजूद 1,024 चिप वाले पॉड में, ज़्यादा से ज़्यादा 16 हॉप का नेटवर्क डायमीटर होता है [cite: 15, 16]. MoE इन्फ़रेंस के मामले में, टोकन को पॉड में मौजूद किसी भी एक्सपर्ट लेयर पर तेज़ी से रूट किया जाना चाहिए. हालांकि, 16 हॉप की दूरी की वजह से, सभी-से-सभी टेल लेटेंसी अस्वीकार्य हो जाती हैं [cite: 6, 15, 16]. इसके अलावा, SparseCores को ज़्यादा सिलिकॉन एरिया देने से, उस जगह का इस्तेमाल नहीं किया जा सका जिसका इस्तेमाल, एजेंटिक चेन-ऑफ़-थॉट वर्कफ़्लो के लिए ज़रूरी सामूहिक रिडक्शन इंजन के लिए किया जा सकता था [cite: 6, 15]. SparseCores, एम्बेड किए गए लुकअप में बेहतर होते हैं. इंडस्ट्री, "एक ही साइज़ सभी को फ़िट होता है" वाले ऐक्सलरेटर की फ़िज़िकल सीमाओं तक पहुंच गई थी.

रणनीतिक विभाजन: आर्थिक और आर्किटेक्चरल ड्राइवर

सातवीं से आठवीं जनरेशन के टीपीयू में ट्रांज़िशन, Google के सिलिकॉन के इतिहास में आर्किटेक्चर का सबसे अहम बदलाव है [cite: 9]. Google Cloud Next 2026 में, टीपीयू लाइन को दो अलग-अलग प्रॉडक्ट फ़ैमिली में बांटने का एलान किया गया था. ट्रेनिंग के लिए TPU 8t और अनुमान लगाने के लिए TPU 8i. इससे पता चलता है कि अगले दशक में आर्टिफ़िशियल इंटेलिजेंस को चलाने वाले वर्कलोड, हार्डवेयर लेवल पर बुनियादी तौर पर मेल नहीं खाते [cite: 1, 2, 17].

इस बंटवारे की वजह, एआई डेवलपमेंट की अलग-अलग अर्थशास्त्र और ऑपरेशनल इंटेंसिटी है. फ़्रंटियर मॉडल को ट्रेन करने के लिए, बहुत ज़्यादा पूंजी की ज़रूरत होती है. यह एक बार का ऑपरेशनल खर्च होता है, जिसे हफ़्तों या महीनों तक लगातार कंप्यूटिंग में मापा जाता है [cite: 9]. इसके लिए, ज़्यादा से ज़्यादा कंप्यूट डेंसिटी, अभूतपूर्व स्केल-अप इंटरकनेक्ट बैंडविड्थ, और मल्टी-पेटाबाइट यूनीफ़ाइड मेमोरी डोमेन की ज़रूरत होती है. ये डोमेन, लाइन रेट पर मल्टीमॉडल डेटासेट को प्रोसेस कर सकते हैं [cite: 9].

इसके उलट, अनुमान लगाने की लागत लगातार बढ़ती रहती है. यह लागत, उपयोगकर्ताओं की मांग के हिसाब से रैखिक या तेज़ी से बढ़ती है [cite: 9]. "एजेंटिक एरा" में, एआई मॉडल सिर्फ़ टेक्स्ट का ब्लॉक जनरेट करने के लिए अगले टोकन का अनुमान नहीं लगाता है. इसके बजाय, यह सक्रिय रूप से तर्क देता है, आने वाले समय के संभावित हालात का अनुमान लगाता है, "कल्पना" के ज़रिए दोहराता है, बाहरी एपीआई को कॉल करता है, और लगातार फ़ीडबैक लूप में अन्य खास एजेंटों के साथ इंटरैक्ट करता है [cite: 5, 7, 15]. इस डाइनैमिक प्रोसेस के लिए, ऐक्टिव कॉन्टेक्स्ट विंडो को सेव करने के लिए बहुत ज़्यादा मेमोरी की ज़रूरत होती है. साथ ही, एक्सपर्ट राउटिंग और ग्लोबल सिंक्रनाइज़ेशन के लिए, नेटवर्क की लेटेन्सी बहुत कम होनी चाहिए [cite: 15, 16].

प्रॉडक्ट लाइन को अलग-अलग हिस्सों में बांटकर, Google ने सप्लाई चेन में हार्डवेयर को बेहतर बनाया. टीपीयू 8टी को ब्रॉडकॉम के साथ मिलकर डिज़ाइन किया गया था. यह साझेदारी 2015 से चली आ रही है [cite: 9, 17, 18]. ब्रॉडकॉम को जटिल और हाई-स्पीड SerDes इंटरकनेक्ट, अडवांस पैकेजिंग, और बड़े पैमाने पर नेटवर्किंग में महारत हासिल है. इसलिए, ट्रेनिंग फ़ैब्रिक की फ़िज़िकल सीमाओं को आगे बढ़ाने के लिए, ब्रॉडकॉम सबसे सही पार्टनर था [cite: 17, 19].

इन्फ़रेंस चिप के लिए, Google ने अपनी परंपरा को तोड़ दिया और MediaTek के साथ साझेदारी की. इससे TPU 8i को डिज़ाइन किया गया [cite: 9, 17, 18]. Google ने, कम बिजली की खपत करने वाले और बड़ी संख्या में मोबाइल SoC डिज़ाइन करने में MediaTek की विशेषज्ञता का इस्तेमाल करके, लागत के हिसाब से बेहतर इन्फ़्रेंस ऐक्सलरेटर बनाया है [cite: 17, 19]. TPU 8i में, 8t की तुलना में आसान डिज़ाइन का इस्तेमाल किया गया है. इसमें एक कंप्यूट डाई है, जबकि 8t में दो कंप्यूट डाई हैं. रिपोर्ट के मुताबिक, इसे बनाने में, ज़्यादा परफ़ॉर्मेंस वाले पारंपरिक वैरिएंट की तुलना में 20% से 30% कम खर्च आता है. इससे Google को दुनिया भर में अपनी सेवा देने की क्षमता को कम खर्च में बढ़ाने में मदद मिलती है, ताकि वह एंटरप्राइज़ और उपभोक्ता ऐप्लिकेशन की मांगों को पूरा कर सके [cite: 9, 17]. दोनों चिप, टीएसएमसी के अडवांस 2-नैनोमीटर प्रोसेस नोड पर बनाए गए हैं. इनमें लॉजिक डाइ को लंबे एचबीएम स्टैक के साथ इंटिग्रेट करने के लिए, CoWoS अडवांस पैकेजिंग का इस्तेमाल किया गया है [cite: 9, 19].

इस रणनीति को दो हिस्सों में बांटने के बाद, मार्केट से तुरंत पुष्टि मिल गई. एआई के क्षेत्र में रिसर्च करने वाली प्रमुख कंपनी Anthropic ने Google Cloud के साथ कई अरब डॉलर के समझौते को आगे बढ़ाया है. इसके तहत, 2027 तक 3.5 गीगावॉट की कंप्यूट क्षमता उपलब्ध कराने का वादा किया गया है. साथ ही, यह TPU 7x और आठवें जनरेशन के प्लैटफ़ॉर्म, दोनों के लिए ऐंकर कस्टमर के तौर पर काम करेगी [cite: 9, 10, 20].

ज़्यादा जानकारी: TPU 8t (प्री-ट्रेनिंग के लिए सबसे अच्छा)

TPU 8t, इंजीनियरिंग के क्षेत्र में एक बड़ी उपलब्धि है. इसका मकसद, ट्रिलियन पैरामीटर वाले फ़्रंटियर मॉडल के डेवलपमेंट साइकल को महीनों से घटाकर हफ़्तों तक लाना है [cite: 5, 21]. यह सिर्फ़ क्लॉक स्पीड को बढ़ाकर ऐसा नहीं करता है. इसके बजाय, यह गणितीय ऑपरेशनों की सटीक संरचना को फिर से बनाता है, इंटर-चिप बैंडविड्थ को काफ़ी हद तक बढ़ाता है, और डेटा-इनजेक्शन की उन गंभीर समस्याओं को कम करता है जो बड़े ट्रेनिंग क्लस्टर को परेशान करती हैं [cite: 6, 15].

ड्यूल-डाई कंप्यूट आर्किटेक्चर और नेटिव FP4

TPU 8t में, दो कंप्यूट डाइ और एक I/O चिपलेट शामिल हैं. साथ ही, इसमें 12-हाई HBM3E मेमोरी के आठ स्टैक हैं [cite: 9]. इस तरह की डेंस पैकेजिंग के लिए, ऐडवांस थर्मल मैनेजमेंट की ज़रूरत होती है. इसमें, लगातार मैट्रिक्स ऑपरेशन से जनरेट होने वाली बहुत ज़्यादा गर्मी को कम करने के लिए, Google की चौथी जनरेशन की लिक्विड कूलिंग टेक्नोलॉजी का इस्तेमाल किया जाता है [cite: 7, 17, 22].

TPU 8t में एक बुनियादी बदलाव यह है कि इसमें नेटिव 4-बिट फ़्लोटिंग पॉइंट (FP4) प्रेसिज़न की सुविधा जोड़ी गई है [cite: 6, 15]. प्री-ट्रेनिंग के लिए, थ्रूपुट को ज़्यादा प्राथमिकता दी जाती है. हालांकि, इसमें सटीक संख्यात्मकता की ज़रूरत होती है. FP8 से FP4 तक नेटिव एक्ज़ीक्यूशन को कम करके, TPU 8t, MXU के थ्रूपुट को दोगुना कर देता है. साथ ही, हर पैरामीटर के हिसाब से डाई में फ़िज़िकली ट्रांसफ़र किए जाने वाले बिट की संख्या को आधा कर देता है [cite: 6, 15]. डेटा ट्रांसफ़र में भारी कमी होने की वजह से, मेमोरी से डेटा फ़ेच करने में कम ऊर्जा खर्च होती है. साथ ही, इससे मॉडल की बड़ी लेयर, लोकल हार्डवेयर बफ़र में आसानी से फ़िट हो जाती हैं [cite: 6, 15].

यह पक्का करने के लिए कि चिप पूरी तरह से काम करे, TPU 8t में ज़्यादा बेहतर तरीके से वेक्टर प्रोसेसिंग यूनिट (वीपीयू) स्केलिंग लागू की जाती है. इससे सिलिकॉन, ज़रूरी सीक्वेंशियल टास्क को MXU में होने वाले हैवी मैट्रिक्स मल्टिप्लिकेशन के साथ ओवरलैप कर पाता है. जैसे, क्वांटाइज़ेशन, सॉफ़्टमैक्स, और लेयरनॉर्म. इससे, नॉन-मैट्रिक्स टाइम को वर्चुअली खत्म किया जा सकता है. इस दौरान, कंप्यूट कोर खाली रहती हैं [cite: 6, 15]. आर्किटेक्चर में किए गए इन ऑप्टिमाइज़ेशन की वजह से, एक TPU 8t चिप 12.6 PFLOPs की FP4 कंप्यूटिंग पावर देता है [cite: 15, 23].

इसके अलावा, अनुमान लगाने पर फ़ोकस करने वाले अपने सिबलिंग (TPU v5e) के उलट, TPU 8t में पहले की जनरेशन में पेश किए गए खास SparseCore ब्लॉक मौजूद हैं [cite: 1, 6, 15]. एम्बेडिंग वाले ज़्यादा वर्कलोड, मल्टीमॉडल फ़ाउंडेशन मॉडल और सुझाव देने वाले सिस्टम में आम होते हैं. इनमें मेमोरी ऐक्सेस करने के अनियमित पैटर्न दिखते हैं. इससे पारंपरिक जीपीयू की परफ़ॉर्मेंस कम हो जाती है. SparseCore, एसिंक्रोनस तरीके से काम करता है. यह डेटा पर निर्भर सभी-इकट्ठा करने की कार्रवाइयों और एम्बेडिंग लुकअप को ऑफ़लोड करता है [cite: 6, 15]. टीपीयू 8t, डेंस मैट्रिक्स मैथ को MXU और स्पार्स ऑपरेशंस को SparseCore में अलग करके, "ज़ीरो-ऑप" बॉटलनेक को रोकता है. इनकी वजह से कंप्यूटेशनल स्टॉल होते हैं [cite: 6, 15].

बैंडविथ, स्टोरेज इनजेशन, और TPUDirect

FP4 में काम करने वाले MXU को तेज़ी से डेटा प्रोसेस करने के लिए, TPU 8t को बहुत ज़्यादा लोकल और एग्रीगेट बैंडविड्थ की ज़रूरत होती है. हर चिप में 216 जीबी HBM3e होता है, जो 6,528 जीबी/सेकंड की स्पीड से काम करता है [cite: 15, 24]. हालांकि, फ़्रंटियर मॉडल के स्केल पर, सिस्टम की सीमा अक्सर सिलिकॉन की प्रोसेसिंग स्पीड से बदलकर, डेटा सेंटर की उस स्पीड पर आ जाती है जिस पर वह कोल्ड स्टोरेज से पेटाबाइट ट्रेनिंग डेटा को प्रोसेस कर सकता है.

डेटा पाथ की पारंपरिक बॉटलनेक को दूर करने के लिए, Google ने TPUDirect RDMA और TPUDirect Storage को इंटिग्रेट किया है [cite: 5, 6, 10]. इन प्रोटोकॉल की मदद से, टीपीयू की हाई-बैंडविथ मेमोरी और मैनेज किए गए नेटवर्क स्टोरेज ऐरे के बीच डायरेक्ट मेमोरी ऐक्सेस (डीएमए) की सुविधा मिलती है. जैसे, Google Cloud Managed Lustre 10T [cite: 6, 15]. नेटवर्क इंटरफ़ेस कार्ड (एनआईसी) के ज़रिए, Lustre पैरलल फ़ाइल सिस्टम से सीधे टीपीयू में डेटा रूट करके, TPUDirect होस्ट सीपीयू और होस्ट के डीरैम को पूरी तरह से बायपास कर देता है [cite: 6]. इस खास डेटा पाथ की वजह से, स्टोरेज ऐक्सेस करने की स्पीड में 10 गुना की बढ़ोतरी होती है. इसकी तुलना टीपीयू 7x जनरेशन पर ट्रेनिंग से की गई है. इससे यह पक्का होता है कि टीपीयू 8t कंप्यूट यूनिट, मल्टीमॉडल डेटासेट को लाइन रेट पर डेटा डाल सकते हैं. इससे उन्हें डेटा की कमी नहीं होती [cite: 5, 6, 15].

मेगा-स्केल इंफ़्रास्ट्रक्चर: Virgo नेटवर्क

TPU 8t इकोसिस्टम की सबसे बेहतरीन आर्किटेक्चरल फ़ीचर, इसकी नेटवर्किंग क्षमता है. इससे सिस्टम की सीमा, लोकल कंप्यूट से डेटा सेंटर-स्केल बैंडविड्थ [cite: 25, 26] पर पहुंच जाती है.

टीपीयू 8टी में, लोकल पॉड कम्यूनिकेशन के लिए बुनियादी 3D टोरस इंटरकनेक्ट को बनाए रखा गया है. यह एक सुपरपॉड में 9,600 चिप और 2 पेटाबाइट के शेयर किए गए एचबीएम तक स्केल करता है. हालांकि, स्केल-आउट फ़ैब्रिक को पूरी तरह से फिर से डिज़ाइन किया गया है [cite: 5, 6, 15]. सुपरपॉड, कुल 121 एक्ज़ाफ़्लॉप्स की FP4 कंप्यूटिंग क्षमता हासिल करता है. यह TPU 7x की 42.5 एक्ज़ाफ़्लॉप्स की क्षमता से 2.8 गुना ज़्यादा है [cite: 6]. इसे सपोर्ट करने के लिए, इंट्रा-पॉड आईसीआई बैंडविड्थ को दोगुना करके 19.2 Tb/s प्रति चिप कर दिया गया है [cite: 4, 6, 10].

हालांकि, सैकड़ों सुपरपॉड को कनेक्ट करने के लिए, Google ने Virgo Network बनाया है [cite: 1, 6]. Jupiter नेटवर्क में, तीन लेयर वाली क्लोज़ टोपोलॉजी का इस्तेमाल किया गया था. इससे ट्रैफ़िक को कई स्विच टियर से रूट किया जाता था. इससे लेटेन्सी और बैंडविड्थ की समस्याएं होती थीं. हर चिप के लिए, बैंडविड्थ 100 Gbps तक सीमित था [cite: 25].

Virgo, हाई-रेडिक्स स्विच (256 से 512 पोर्ट मैनेज करने वाले) पर बनाया गया एक स्केल-आउट फ़ैब्रिक है. यह फ़्लैट, दो लेयर वाली नॉन-ब्लॉकिंग टोपोलॉजी का इस्तेमाल करता है [cite: 6, 15, 25]. नेटवर्क टियर को फ़िज़िकली कट आउट करके, Virgo काफ़ी हद तक लेटेन्सी को कम कर देता है. इस नेटवर्क में मल्टी-प्लानर डिज़ाइन का इस्तेमाल किया जाता है. साथ ही, इसमें इंडिपेंडेंट कंट्रोल डोमेन होते हैं. इससे, डेटा सेंटर नेटवर्क (डी CN) की रॉ बैंडविड्थ में 400% (4 गुना) तक की बढ़ोतरी होती है. साथ ही, यह प्रति चिप 400 Gbps तक पहुंच जाती है [cite: 6, 15, 24].

एक Virgo फ़ैब्रिक, एक डेटा सेंटर फ़ैसिलिटी में 1,34,000 से ज़्यादा TPU 8t चिप को लिंक कर सकता है. इससे हर सेकंड 47 पेटाबिट का नॉन-ब्लॉकिंग बाईसेक्शनल बैंडविड्थ मिलता है [cite: 1, 6, 15]. इसके अलावा, Google के Pathways सॉफ़्टवेयर और JAX फ़्रेमवर्क के साथ इंटिग्रेट किए गए TPU 8t की मदद से, डिस्ट्रिब्यूटेड ट्रेनिंग क्लस्टर को एक लॉजिकल ट्रेनिंग जॉब के तौर पर, एक से ज़्यादा भौगोलिक साइटों पर 10 लाख से ज़्यादा चिप तक बढ़ाया जा सकता है [cite: 1, 6, 15]. इस उपलब्धि से, दुनिया भर में डिस्ट्रिब्यूट किए गए इन्फ़्रास्ट्रक्चर को एक ही सुपरकंप्यूटर में बदला जा सकता है. इससे, सामान्य कामों के लिए इस्तेमाल होने वाले मौजूदा जीपीयू की स्केलिंग की सीमाओं को काफ़ी हद तक कम किया जा सकता है [cite: 27].

ऑटोनॉमस रीकॉन्फ़िगरेशन और 97% गुडपुट

लाखों चिप के पैमाने पर, हार्डवेयर की खराबी के मामले आम होते हैं. जैसे, ट्रांससीवर का खराब होना और थर्मल थ्रॉटलिंग. ये मामले, अपवाद के तौर पर नहीं होते. लेगसी सिस्टम में, नेटवर्क में रुकावट आने की वजह से ट्रेनिंग रन रुक सकता है. इसके लिए, पिछले चेकपॉइंट पर वापस जाने की ज़रूरत होती है. इसमें काफ़ी मेहनत और लागत लगती है. फ़्रंटियर स्केल पर, परफ़ॉर्मेंस में हर प्रतिशत की गिरावट का मतलब है कि ट्रेनिंग में लगने वाला समय कई दिनों तक बढ़ जाता है [cite: 5, 6].

TPU 8t का इकोसिस्टम, 97% से ज़्यादा "गुडपुट" को टारगेट करता है. यह एक ऐसी मेट्रिक है जो कुल अपटाइम के मुकाबले, काम के और प्रॉडक्टिव कंप्यूटिंग टाइम के अनुपात को तय करती है [cite: 6, 28]. यह ऑप्टिकल सर्किट स्विचिंग (OCS) [cite: 5, 6, 25] की मदद से, बेहतर विश्वसनीयता, उपलब्धता, और सेवा (आरएएस) की क्षमताओं के ज़रिए हासिल किया जाता है. रीयल-टाइम टेलीमेट्री की मदद से, हज़ारों चिप का विश्लेषण किया जाता है. इससे सिस्टम, चिप के बीच इंटरकनेक्ट करने वाले खराब लिंक का अपने-आप पता लगा सकता है. OCS, ऑप्टिकल लाइट पाथ को फ़िज़िकली तौर पर फिर से रूट करता है, ताकि हार्डवेयर की गड़बड़ियों को रीयल-टाइम में ठीक किया जा सके. इसके लिए, किसी भी मानवीय हस्तक्षेप की ज़रूरत नहीं होती. साथ ही, यह ट्रेनिंग के चालू काम में रुकावट डाले बिना किया जाता है [cite: 5, 6, 28].

ज़्यादा जानकारी: TPU 8i (रीज़निंग इंजन)

अगर TPU 8t, बड़े पैमाने पर कंप्यूटिंग के लिए बनाया गया है, तो TPU 8i, कम समय में डेटा प्रोसेस करने और मेमोरी आर्किटेक्चर के लिए सबसे अच्छा है [cite: 6]. जैसे-जैसे मॉडल, रीयल-टाइम प्रोडक्शन में बदलते हैं, वैसे-वैसे कंप्यूटिंग की स्पीड के मुकाबले मेमोरी को ऐक्सेस करने और नेटवर्क पर रूट करने की स्पीड ज़्यादा अहम हो जाती है. खास तौर पर, बड़े पैमाने पर मिक्सचर-ऑफ़-एक्सपर्ट (MoE) मॉडल और एजेंटिक स्वार्म के लिए [cite: 21, 29].

इनफ़रेंस मेमोरी वॉल को तोड़ना

ऑटोरिग्रेसिव जनरेशन में, मॉडल आउटपुट टोकन को क्रम से जनरेट करता है. हर नए टोकन को जनरेट करते समय, मॉडल को पिछले सभी टोकन और उनके गणितीय संबंधों के बढ़ते इतिहास का रेफ़रंस देना होता है. इसे कुंजी-वैल्यू (केवी) कैश मेमोरी [cite: 1, 13] के तौर पर जाना जाता है. लंबे कॉन्टेक्स्ट वाले मॉडल के लिए, हज़ारों टोकन का विश्लेषण करने पर, यह केवी कैश साइज़ में बढ़ जाता है. अगर कैश, चिप की तेज़ ऑनबोर्ड मेमोरी की क्षमता से ज़्यादा हो जाता है और होस्ट सीपीयू की धीमी मेमोरी में चला जाता है, तो पूरी कंप्यूटेशनल प्रोसेस रुक जाती है. इस स्थिति को "मेमोरी वॉल" [cite: 5, 8] के तौर पर जाना जाता है.

TPU 8i को खास तौर पर इस समस्या को हल करने के लिए बनाया गया है. यह एक आसान और कम लागत वाला सिलिकॉन डिज़ाइन है. इसमें एक कंप्यूट डाई और एक I/O डाई का इस्तेमाल किया जाता है. साथ ही, इसमें HBM3e के छह स्टैक होते हैं. हालांकि, इसकी मेमोरी क्षमता को [cite: 9] के लिए काफ़ी हद तक ऑप्टिमाइज़ किया गया है. * एचबीएम की क्षमता और बैंडविड्थ: हर TPU 8i में 288 जीबी का HBM3E होता है. यह TPU 7x की तुलना में 50% ज़्यादा है [cite: 5, 24, 30]. सबसे अहम बात यह है कि बड़े MoE मॉडल, अनुमान लगाने के दौरान मेमोरी-बैंडविड्थ से बंधे होते हैं. इसलिए, मेमोरी बैंडविड्थ को 8.6 टीबी/सेकंड (~8,601 जीबी/सेकंड) तक बढ़ाया जाता है. यह ट्रेनिंग पर फ़ोकस करने वाले TPU 8t की तुलना में, करीब 1.3 गुना ज़्यादा तेज़ है [cite: 10, 15]. * बड़े पैमाने पर ऑन-चिप एसआरएएम: सबसे अहम हार्डवेयर बदलाव, हर चिप में 384 एमबी की ऑन-चिप स्टैटिक रैंडम-ऐक्सेस मेमोरी (एसआरएएम) को शामिल करना है [cite: 10, 15, 30]. यह TPU 7x और TPU 8t, दोनों की तुलना में 300% (तीन गुना) की बढ़ोतरी है [cite: 10, 15, 30]. एसआरएएम, सबसे तेज़ और कम समय में काम करने वाली मेमोरी है. यह सीधे तौर पर सिलिकॉन मैट्रिक्स पर उपलब्ध होती है. इस क्षमता को तीन गुना करके, TPU 8i पूरी तरह से ऑन-डाई [cite: 15, 16] पर बड़ी केवी कैश को होस्ट कर सकता है. इससे प्रोसेसिंग कोर को, टोकन के इतिहास को धीमी मेमोरी टियर से फ़ेच करने के दौरान आइडल होने से रोका जा सकता है. इससे, एक साथ कई अनुरोधों को प्रोसेस करने वाले गहराई से विश्लेषण लूप को पहले से ज़्यादा तेज़ी से काम करने में मदद मिलती है [cite: 5, 15].

कलेक्टिव ऐक्सेलरेटर इंजन (सीएई)

TPU 8i का इस्तेमाल अनुमान लगाने के लिए किया जाता है. इसलिए, एम्बेडिंग लुकअप के लिए 7x और 8t में इस्तेमाल की गई SparseCore यूनिट को इस खास वर्कलोड के लिए, सिलिकॉन रियल एस्टेट का सही तरीके से इस्तेमाल नहीं माना गया. इसकी जगह, Google के इंजीनियरों ने एक मालिकाना हक वाला हार्डवेयर ब्लॉक पेश किया. इसे कलेक्टिव ऐक्सलरेशन इंजन (सीएई) [cite: 10, 15] के नाम से जाना जाता है.

ऑटोरग्रेसिव डिकोडिंग और "चेन-ऑफ़-थॉट" प्रोसेसिंग के दौरान, अलग-अलग कोर को अपनी कैलकुलेशन को बार-बार रोकना पड़ता है. ऐसा इसलिए, ताकि वे चिप में अपने गणितीय नतीजों को इकट्ठा कर सकें, कम कर सकें, और सिंक कर सकें [cite: 6, 15]. ग्लोबल सिंक्रनाइज़ेशन की इन कार्रवाइयों से, इंतज़ार के समय में काफ़ी बढ़ोतरी हो सकती है. ऐसा तब होता है, जब हज़ारों इंडिपेंडेंट एजेंट एक साथ किसी समस्या को हल करने की कोशिश करते हैं.

हर टीपीयू 8i चिप के लिए, दो TensorCore कोर डाइज़ पर मौजूद होते हैं. इनके साथ, एक सीएई चिपलेट डाइ पर मौजूद होता है. यह टीपीयू 7x पर मौजूद चार SparseCore की जगह लेता है [cite: 6, 15]. खास तौर पर डिज़ाइन किए गए इस CAE को, सभी कोर के नतीजों को इकट्ठा करने के लिए बनाया गया है. इसमें लगभग शून्य लेटेंसी होती है. इस वजह से, टीपीयू 7x जनरेशन की तुलना में, ऑन-चिप कलेक्टिव लेटेंसी में पांच गुना की कमी आई है [cite: 10, 15]. सीएई, एजेंटिक वर्कफ़्लो में इस्तेमाल होने वाले रिडक्शन के चरणों को हार्डवेयर की मदद से तेज़ी से पूरा करता है. इससे यह पक्का होता है कि सिस्टम, रीयल-टाइम में जवाब देने की क्षमता को कम किए बिना हाई थ्रूपुट बनाए रखता है [cite: 6, 15].

नेटवर्क फ़्लैटनिंग: बोर्डफ़्लाई टोपोलॉजी

TPU 8i की सबसे खास बात यह है कि इसमें 3D टॉरस टोपोलॉजी का इस्तेमाल नहीं किया जाता है. प्री-ट्रेनिंग के लिए, 3D टोरस आर्किटेक्चर में एक नोड से दूसरे नोड तक डेटा ट्रांसफ़र करने की सुविधा बहुत अच्छी होती है. हालांकि, MoE इन्फ़्रेंस मॉडल के लिए, सभी नोड के बीच टोकन राउटिंग की ज़रूरत होती है. इसके लिए, 3D टोरस आर्किटेक्चर में नोड के बीच की दूरी बहुत ज़्यादा होती है. इस दूरी को नेटवर्क हॉप में मापा जाता है [cite: 2, 15]. MoE आर्किटेक्चर में, किसी भी टोकन को पॉड में मौजूद किसी दूसरे चिप पर मौजूद किसी खास "एक्सपर्ट" लेयर पर रूट करने की ज़रूरत पड़ सकती है. पारंपरिक टोरस पर, इस डेटा पैकेट को अपने डेस्टिनेशन तक पहुंचने के लिए, बीच में आने वाले चिप से क्रम से गुज़रना पड़ता है.

इस समस्या को हल करने के लिए, Google ने सर्वर के लिए ऑप्टिमाइज़ किया गया एक नया नेटवर्किंग आर्किटेक्चर बनाया है. इसे Boardfly [cite: 15, 31] कहा जाता है. यह Dragonfly टोपोलॉजी के सिद्धांतों पर आधारित है. Boardfly, एक हैरारिकल और हाई-रेडिक्स नेटवर्क है. इसे आर्किटेक्चर को फ़्लैट करने और किसी भी दो चिप के बीच की दूरी को कम करने के लिए डिज़ाइन किया गया है [cite: 2, 15, 26].

Boardfly टोपोलॉजी, हैरारकी के हिसाब से काम करती है: 1. बिल्डिंग ब्लॉक: पूरी तरह से कनेक्ट किए गए चार TPU 8i चिप, इंटरनल आईसीआई लिंक [cite: 6, 16] के साथ एक बुनियादी बिल्डिंग ब्लॉक बनाते हैं. 2. बोर्ड: आठ बिल्डिंग ब्लॉक, कॉपर केबलिंग के ज़रिए पूरी तरह से कनेक्ट किए जाते हैं, ताकि एक बोर्ड बनाया जा सके [cite: 6, 16]. 3. पॉड: इसके बाद, 36 ग्रुप को ऑप्टिकल सर्किट स्विच और डायरेक्ट ऑप्टिकल लॉन्ग-हॉल लिंक के ज़रिए पूरी तरह से इंटरकनेक्ट किया जाता है, ताकि 1,152 चिप का एक यूनिफ़ाइड पॉड बनाया जा सके [cite: 5, 6, 16, 32].

इस तरीके से, डेटा ट्रांसफ़र में लगने वाले समय को कम किया जा सकता है. स्टैंडर्ड 1,024-चिप 3D टोरस कॉन्फ़िगरेशन में, डेटा पैकेट को ज़्यादा से ज़्यादा 16 हॉप [cite: 15, 25] तक नेटवर्क डायमीटर को पार करना पड़ सकता है. Boardfly टोपोलॉजी में, यह ज़्यादा से ज़्यादा नेटवर्क डायमीटर सिर्फ़ 7 हॉप [cite: 15, 25] तक कम हो जाता है.

नेटवर्क डायमीटर में 56% की कमी होने से, कम्यूनिकेशन इंटेंसिव इन्फ़्रेंस वर्कलोड के लिए टेल लेटेंसी में 50% की भारी कमी आई है [cite: 16, 25, 30]. इन्फ़्रेंस की स्पीड, सबसे धीमे नोड की स्पीड पर निर्भर करती है. टेल लेटेंसी को कम करके, Boardfly टोपोलॉजी यह पक्का करती है कि पॉड में टोकन डेटा के ट्रांसफ़र होने के दौरान, CAE कभी भी आइडल न रहे [cite: 6, 15].

इसके अलावा, इस ऑप्टिकल इंटरकनेक्ट की वजह से, 1,152 चिप वाले TPU 8i पॉड का इस्तेमाल एक बड़े, यूनीफ़ाइड शेयर किए गए मेमोरी डोमेन के तौर पर किया जाता है. इसमें 331.8 टीबी का कोहेरेंट एचबीएम [cite: 16] होता है.

तुलनात्मक परफ़ॉर्मेंस, अर्थशास्त्र, और सिस्टम इंफ़्रास्ट्रक्चर

आर्किटेक्चरल बाइफ़र्केशन की वजह से, कंप्यूटेशनल इकोनॉमिक्स और ऊर्जा की बचत, दोनों में काफ़ी सुधार होता है. सिर्फ़ फ़्लोटिंग-पॉइंट ऑपरेशंस की थ्योरेटिकल परफ़ॉर्मेंस के आधार पर हार्डवेयर का आकलन करने से, डेटा सेंटर के ऑपरेशंस और सॉफ़्टवेयर को चालू करने से जुड़ी सिस्टम की वास्तविकताओं को अनदेखा किया जाता है.

सॉफ़्टवेयर ऐब्स्ट्रैक्शन और फ़्रेमवर्क सपोर्ट

हार्डवेयर में अंतर होने के बावजूद, Google ने एक ही तरह के एआई सॉफ़्टवेयर स्टैक को बनाए रखने के लिए काफ़ी निवेश किया है. इससे फ़्रेमवर्क लॉक-इन को रोका जा सकता है. TPU 8t और 8i, दोनों ही JAX, Keras, MaxText, SGLang, और vLLM इंजन के साथ काम करते हैं [cite: 5, 8, 14, 17]. इसके अलावा, TorchTPU के ज़रिए PyTorch के नेटिव सपोर्ट की सुविधा मिलती है. इससे डेवलपर, मौजूदा PyTorch मॉडल को सीधे तौर पर टीपीयू एनवायरमेंट में पोर्ट कर सकते हैं. साथ ही, उन्हें ईगर मोड [cite: 15, 17] जैसी नेटिव सुविधाओं का पूरा सपोर्ट मिलता है.

पर्दे के पीछे, ऐक्सलरेटेड लीनियर अलजेब्रा (एक्सएलए) कंपाइलर, Boardfly टोपोलॉजी और सीएई सिंक्रनाइज़ेशन के मुश्किल ट्रांसलेशन को मैनेज करता है. इससे डेवलपर, ऑप्टिकल इंटरकनेक्ट को मैन्युअल तरीके से प्रोग्राम किए बिना, Python में हार्डवेयर के हिसाब से कस्टम कर्नल लिख सकते हैं. इसके लिए, Pallas और Mosaic का इस्तेमाल किया जाता है [cite: 15].

क्वांटिटेटिव परफ़ॉर्मेंस मेट्रिक

नीचे दी गई टेबल में, यूनिफ़ाइड टीपीयू 7x के साथ-साथ टीपीयू 8t और 8i आर्किटेक्चर की मुख्य तकनीकी विशेषताओं के बारे में खास जानकारी दी गई है [cite: 3, 15, 24].

खास जानकारी वाला मैट्रिक्स	TPU 7x	TPU 8t	TPU 8i
प्राइमरी वर्कलोड	यूनिफ़ाइड (ट्रेनिंग और अनुमान)	बड़े पैमाने पर प्री-ट्रेनिंग	इंतज़ार के समय के हिसाब से अनुमान लगाना
ASIC Design Partner	Broadcom	Broadcom	MediaTek
नेटवर्क टोपोलॉजी	3D टोरस	3D टॉरस + Virgo स्केल-आउट	बोर्डफ़्लाई (ड्रैगनफ़्लाई से मिलती-जुलती)
खास हार्डवेयर	SparseCore	SparseCore	कलेक्टिव ऐक्सेलरेटर इंजन (सीएई)
नेटिव प्रिसिज़न फ़ोकस	FP8	FP4	FP4 (FP8/INT8 के साथ काम करता है)
चिप के हिसाब से पीक कंप्यूट	4.6 PFLOPs (FP8)	12.6 PFLOPs (FP4)	10.1 PFLOPs (FP4)
हर चिप के लिए एचबीएम की क्षमता	192 जीबी	216 जीबी	288 जीबी
एचबीएम बैंडविथ	7.37 TB/s	6.52 टीबी/सेकंड	8.60 टीबी/सेकंड
ऑन-चिप एसआरएएम (वीएमईएम)	128 MB	128 MB	384 एमबी
इंटर-चिप बैंडविड्थ (स्केल-अप)	9.6 टीबी/सेकंड	19.2 टीबी/सेकंड	19.2 टीबी/सेकंड
पॉड/सुपरपॉड का ज़्यादा से ज़्यादा साइज़	9,216 चिप	9,600 चिप	1,152 चिप

लागत-परफ़ॉर्मेंस और टीसीओ ऑप्टिमाइज़ेशन

Google का दावा है कि आठवें जनरेशन के टीपीयू से, टोटल कॉस्ट ऑफ़ ओनरशिप (टीसीओ) में काफ़ी सुधार हुआ है. टीपीयू 8t, बड़े पैमाने पर ट्रेनिंग के लिए, टीपीयू 7x की तुलना में परफ़ॉर्मेंस-पर-डॉलर में 170% से 180% की बढ़ोतरी करता है. इसका मतलब है कि परफ़ॉर्मेंस में 2.7 से 2.8 गुना का सुधार हुआ है [cite: 6, 15, 30]. वहीं, टीपीयू 8i, अनुमान लगाने के लिए परफ़ॉर्मेंस-पर-डॉलर में 80% का सुधार करता है. खास तौर पर, बड़े MoE मॉडल के लिए ज़रूरी कम इंतज़ार का समय वाले टारगेट पर [cite: 15, 16, 30].

ये आर्थिक फ़ायदे, सिर्फ़ सिलिकॉन की वजह से नहीं, बल्कि फ़ुल-स्टैक सिस्टम इंटिग्रेशन की वजह से भी मिलते हैं. पहले, टीपीयू को x86 होस्ट सीपीयू के साथ जोड़ा जाता था. डेटा की गहन प्रीप्रोसेसिंग या जटिल एजेंटिक लॉजिक से जुड़ी स्थितियों में, x86 होस्ट की वजह से सिस्टम में अक्सर बॉटलनेक आता है. इससे, बहुत तेज़ टीपीयू सिलिकॉन, डेटा के बिना काम नहीं कर पाता है [cite: 6, 7].

आठवीं जनरेशन में, इस समस्या को ठीक किया गया है. इसमें 8t और 8i, दोनों को सिर्फ़ Google के कस्टम Axion ARM-आधारित प्रोसेसर पर होस्ट किया जाता है [cite: 6, 7, 15]. Axion होस्ट, Neoverse N3 Armv9.2 कोर आर्किटेक्चर पर बनाए गए हैं. ये एक ही तरह के और बेहतर तरीके से ऑप्टिमाइज़ किए गए फ़ाउंडेशन उपलब्ध कराते हैं [cite: 18, 19]. इन्फ़्रेंस के लिए ज़्यादा काम करने वाले TPU 8i के लिए, Google ने Axion होस्ट को 2:1 के टीपीयू-टू-सीपीयू अनुपात में इंटिग्रेट किया है. इससे टीपीयू 7x की तुलना में, हर सर्वर पर फ़िज़िकल सीपीयू होस्ट की संख्या दोगुनी हो गई है [cite: 5, 6, 32]. यह सिस्टम, वर्कलोड को अलग-अलग करने के लिए, नॉन-यूनिफ़ॉर्म मेमोरी ऐक्सेस (एनयूएमए) आर्किटेक्चर का इस्तेमाल करता है. इससे यह पक्का होता है कि मेमोरी की लोकैलिटी बेहतर हो और डेटा तैयार करने से जुड़ी समस्या पूरी तरह से खत्म हो जाए [cite: 5, 7].

ऊर्जा की कम खपत करने वाले उपायों और बाज़ार पर उनके असर के बारे में जानकारी

मॉडर्न डेटा सेंटर को डिप्लॉय करने के लिए, एनर्जी डेंसिटी और पावर की उपलब्धता, तेज़ी से सबसे अहम बाध्यताएं बनती जा रही हैं. चौथी जनरेशन की लिक्विड कूलिंग और इंटिग्रेटेड, रीयल-टाइम पावर मैनेजमेंट का इस्तेमाल करके, टीपीयू 8t और 8i, दोनों ही शानदार पावर एफिशिएंसी हासिल करते हैं [cite: 7, 15, 22, 24]. यह पावर मैनेजमेंट, खास वर्कलोड फ़ेज़ के आधार पर पावर ड्रॉ को डाइनैमिक तरीके से अडजस्ट करता है. जैसे, ऐक्टिव कंप्यूटेशन बनाम कम्यूनिकेशन के लिए आइडलिंग. 8t में परफ़ॉर्मेंस-पर-वॉट में 124% की बढ़ोतरी हुई है, जबकि 8i में 117% की बढ़ोतरी हुई है. इससे टीपीयू 7x की तुलना में, एनर्जी एफिशिएंसी में कुल मिलाकर दो गुना (100%से ज़्यादा) सुधार हुआ है [cite: 15, 22, 30].

इस बेहतर परफ़ॉर्मेंस का असर, Google के नए और बेहतरीन मॉडल में दिखता है. Gemini 3.1 Pro की झलक के लिए बेंचमार्क से पता चलता है कि TPU 8i आर्किटेक्चर पर मॉडल को डिप्लॉय करने से, अनुमान लगाने वाले एपीआई की लागत में करीब 50% की कमी आती है. साथ ही, रिस्पॉन्स देने की क्षमता और लंबे कॉन्टेक्स्ट को हैंडल करने की क्षमताओं में काफ़ी सुधार होता है [cite: 24, 30].

कंपटीटिव लैंडस्केप: Google बनाम मर्चेंट सिलिकॉन

Google ने सिलिकॉन की रणनीति को दो हिस्सों में बांटने का फ़ैसला किया है. इससे आर्टिफ़िशियल इंटेलिजेंस के हार्डवेयर के पूरे इकोसिस्टम पर काफ़ी असर पड़ेगा. खास तौर पर, मर्चेंट सिलिकॉन उपलब्ध कराने वाली कंपनियों, जैसे कि Nvidia के साथ चल रही प्रतिस्पर्धा पर इसका असर पड़ेगा. इसके अलावा, AMD और AWS (Trainium3 प्लैटफ़ॉर्म के साथ) के साथ चल रही प्रतिस्पर्धा पर भी इसका असर पड़ेगा [cite: 17, 23].

Nvidia ने हमेशा एक ही आर्किटेक्चर की रणनीति अपनाई है. इसमें, प्री-ट्रेनिंग और रीयल-टाइम इन्फ़रेंस, दोनों को हैंडल करने के लिए, Blackwell B200 और Vera Rubin NVL72 जैसे सामान्य मकसद वाले प्लैटफ़ॉर्म का इस्तेमाल किया जाता है [cite: 2, 9]. अगर सिर्फ़ सिंगल-चिप के स्पेसिफ़िकेशन के हिसाब से देखा जाए, तो Nvidia के पास कुछ फ़ायदे हैं. उदाहरण के लिए, Nvidia की NVLink टेक्नोलॉजी, एक डिवाइस के इंटरकनेक्ट बैंडविड्थ को 14.4 Tb/s तक सपोर्ट करती है. साथ ही, अलग-अलग Rubin GPU, NVFP4 इन्फ़रेंस कंप्यूट के लिए करीब 50 PFLOPs उपलब्ध कराते हैं. यह TPU 8i के 10.1 PFLOPs से काफ़ी ज़्यादा है [cite: 2, 9].

हालांकि, Google का मानना है कि आर्टिफ़िशियल इंटेलिजेंस का भविष्य, क्लस्टर-स्केल की क्षमता पर निर्भर करता है, न कि सिंगल-चिप की परफ़ॉर्मेंस पर [cite: 9].

Boardfly टोपोलॉजी पर स्विच करके, Google एक टीपीयू 8i पॉड में मौजूद सभी 1, 152 चिप में,पूरी तरह से एक जैसा और शेयर किया गया मेमोरी पूल बनाता है [cite: 16]. इससे पॉड की कुल क्षमता 11.6 FP8 ExaFlops और 331.8 टीबी की यूनिफ़ाइड, कोहेरेंट एचबीएम [cite: 6, 16] हो जाती है. इसके उलट, NVL72 पर स्टैंडर्ड Nvidia GPU रैक-स्केल कोहेरेंसी, ज़्यादा से ज़्यादा 72 जीपीयू और करीब 20.7 टीबी एचबीएम [cite: 2, 16] पर काम करती है. सामान्य कामों के लिए इस्तेमाल होने वाले जीपीयू को 1,152 चिप वाले कॉन्फ़िगरेशन से मैच करने के लिए, करीब 16 अलग-अलग रैक को ब्रिज करने की ज़रूरत होती है [cite: 16]. इस तरह से अलग-अलग करने पर, मेमोरी को एक साथ प्रोसेस करने में समस्या आती है. साथ ही, इससे गंभीर इंतज़ार का समय से जुड़ी समस्याएं पैदा होती हैं. ये समस्याएं, लगातार और लंबे कॉन्टेक्स्ट के साथ एजेंटिक अनुमान के लिए काफ़ी गंभीर होती हैं [cite: 16].

इसके अलावा, Google ने बोर्डफ़्लाय के लिए ऑप्टिकल सर्किट स्विचिंग (OCS) को स्टैक में नीचे की ओर ले जाकर, ऑप्टिकल नेटवर्किंग की सप्लाई चेन में बुनियादी बदलाव किया है. इससे Lumentum और Coherent जैसे वेंडर से, खास ट्रांसीवर और लेज़र की मांग में भारी बढ़ोतरी हुई है [cite: 26].

Google के डिज़ाइन के सिद्धांत के मुताबिक, साल 2020 के आखिर में असली मुकाबला, किसी एक सिलिकॉन डाई पर ज़्यादा से ज़्यादा गणितीय थ्रूपुट से तय नहीं होगा. इसके बजाय, यह मुकाबला इस बात से तय होगा कि कौनसी कंपनी मेमोरी वॉल को बाईपास करने, अलग-अलग साइटों के बीच इंटरकनेक्ट को तेज़ी से बढ़ाने, और अरबों उपयोगकर्ताओं के लिए रीयल-टाइम एजेंट स्वार्म को डिप्लॉय करने की लागत को कम करने में बेहतर है [cite: 6, 16, 17].

नतीजा

Google Cloud की टेंसर प्रोसेसिंग यूनिट (टीपीयू) के विकास से पता चलता है कि आर्टिफ़िशियल इंटेलिजेंस के वर्कलोड अब ज़्यादा बेहतर और इंडस्ट्री के हिसाब से तैयार हो गए हैं. टीपीयू 7x के यूनिफ़ाइड फ़्रेमवर्क से लेकर टीपीयू 8t और टीपीयू 8i के खास डिकोटॉमी तक, टीपीयू के विकास से यह पता चलता है. जनरल-पर्पज़, यूनिफ़ाइड सिलिकॉन—डीप लर्निंग के शुरुआती दौर में यह काफ़ी अहम था. हालांकि, अब यह एजेंटिक एरा के लिए ज़रूरी परफ़ॉर्मेंस और इकोनॉमिक्स को बेहतर बनाने के लिए काफ़ी नहीं है.

TPU 8t, स्केल को बेहतर बनाने के लिए लगातार काम करने का नतीजा है. इसे इस तरह से डिज़ाइन किया गया है कि यह पहले की तुलना में ज़्यादा डेटा को प्रोसेस कर सके. इसके लिए, SparseCore को बनाए रखा गया है, MXU थ्रूपुट को दोगुना करने के लिए नेटिव FP4 प्रिसिशन को लागू किया गया है, और Virgo Network और TPUDirect Storage की क्षमताओं का इस्तेमाल किया गया है. यह आधुनिक डेटा सेंटर के स्केल-आउट बैंडविड्थ की सीमाओं को असरदार तरीके से कम करता है. इससे लाखों चिप, दुनिया भर में डिस्ट्रिब्यूट किए गए एक ही प्री-ट्रेनिंग इंजन के तौर पर काम कर पाती हैं.

इसके उलट, TPU 8i में लेटेन्सी को कम करने और लागत को कम करने पर ध्यान दिया गया है. टीपीयू 8i में, 3D टोरस के बजाय बोर्डफ़्लाई टोपोलॉजी का इस्तेमाल किया गया है. साथ ही, ऑन-डाई एसआरएएम को तीन गुना बढ़ाकर 384 एमबी कर दिया गया है. इसके अलावा, इसमें कलेक्टिव ऐक्सलरेशन इंजन को शामिल किया गया है, ताकि ऑटो-रिग्रेसिव सिंक्रनाइज़ेशन को तेज़ किया जा सके. इन बदलावों की वजह से, टीपीयू 8i, अनुमान लगाने के लिए मेमोरी की ज़रूरत को कम करता है. यह पक्का करता है कि जटिल और कई चरणों वाली एजेंटिक रीज़निंग के लिए ज़रूरी बड़ी केवी कैश, स्थानीय तौर पर उपलब्ध रहें और उन्हें लगभग शून्य लेटेंसी पर ऐक्सेस किया जा सके. साथ ही, यह लॉजिक डिज़ाइन को बेहतर बनाकर प्रोडक्शन की लागत को कम करता है.

पूरी तरह से इंटिग्रेट किए गए एआरएम पर आधारित Axion सीपीयू पर होस्ट किया गया और ऑटोनॉमस ऑप्टिकल सर्किट स्विचिंग की मदद से मैनेज किया गया आठवां जनरेशन, हाइपरस्केल इन्फ़्रास्ट्रक्चर में एक नया पैराडाइम बनाता है. यह आर्किटेक्चर का एक ऐसा स्टेटमेंट है जो यह बताता है कि आर्टिफ़िशियल इंटेलिजेंस के लिए, सिर्फ़ तेज़ चिप की ज़रूरत नहीं होती, बल्कि अलग-अलग हार्डवेयर फ़्रेमवर्क की भी ज़रूरत होती है. इन्हें खास तौर पर अलग-अलग वर्कलोड के लिए डिज़ाइन किया जाता है.

सोर्स: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. लिंक 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com