تکامل هوش مصنوعی از مدلهای زبانی بزرگ بنیادی به سیستمهای عاملی پیچیده و چند مرحلهای، تغییر الگوی اساسی در طراحی نیمههادیها را ایجاد کرده است. برای نزدیک به یک دهه، منطق غالب در معماری شتابدهنده هوش مصنوعی، منطق یکپارچهسازی بود. طراحان سیلیکون تلاش کردند تا معماریهای یکپارچه و منحصر به فردی را طراحی کنند که قادر به اجرای همزمان حجم کار عظیم و سنگین پیشآموزش مدل در کنار تقاضاهای حساس به تأخیر استنتاج تولید باشند [ذکر: 1، 2]. این رویکرد یکپارچه از زمان آغاز اولین شتابدهندههای سختافزاری تا استقرار نسل هفتم واحد پردازش تنسور ابری گوگل (TPU)، [ذکر: 2، 3، 4] بر صنعت حاکم بود.
با این حال، با تبدیل مدلهای مرزی به تریلیونها پارامتر و معماریهای استدلال بلادرنگ - مانند Mixture-of-Experts (MoE) و حلقههای بازخورد عامل پیوسته - به استاندارد تبدیل میشوند، الزامات سختافزاری برای آموزش و خدمترسانی به طور برگشتناپذیری از هم جدا شدهاند [ذکر: 5، 6، 7]. پیشآموزش به یک مسئله بهینهسازی پهنای باند و توان عملیاتی تبدیل شده است که نیاز به قابلیتهای افزایش مقیاس سرسامآور، پهنای باند دوبخشی اتصال داخلی عظیم و اشباع ریاضی ماتریس پیوسته دارد [ذکر: 6]. در مقابل، خدمترسانی عامل به عنوان یک مسئله تأخیر و حافظه محدود ظهور کرده است که با سرعتی که وزنها و حافظههای نهان کلید-مقدار (KV) میتوانند بدون ایجاد گلوگاه در عملیات همگامسازی سراسری به هستههای پردازشی منتقل شوند، محدود میشود [ذکر: 6، 8].
گوگل با درک این موضوع که تحمیل هر دو حجم کاری به سیلیکون یکسان منجر به ناکارآمدی سیستمی و کاهش بازده اقتصادی میشود، تصمیم معماری بیسابقهای را برای تقسیمبندی نسل هشتم TPU خود به دو بخش گرفت [ذکر: 1، 6، 9]. نتیجه، دو تراشه متمایز و بسیار تخصصی است که تا سطح زنجیره تأمین مهندسی شدهاند: TPU 8t، که برای توان عملیاتی آموزش عظیم در مقیاس ابررایانه طراحی شده است، و TPU 8i، که برای شکستن دیوار حافظه استنتاج و به حداقل رساندن تأخیر جمعی برای استدلال جهانی طراحی شده است [ذکر: 7، 9].
این گزارش تحقیقاتی جامع، تفاوتهای معماری، عملکرد و مقیاسبندی بین مبنای یکپارچه TPU 7x و TPU 8t و TPU 8i که به تازگی دوشاخه شدهاند را تجزیه و تحلیل میکند. این تحلیل از طریق بررسی جامع طراحی منطقی، سلسله مراتب حافظه چند لایه، توپولوژیهای اتصال داخلی مراکز داده، سوئیچینگ مدار نوری و طراحی مشترک سختافزار-نرمافزار، توضیح میدهد که چگونه سیلیکون تخصصی برای حفظ مقیاسبندی اقتصادی و محاسباتی نسل بعدی هوش مصنوعی مورد نیاز است.
زمینه تاریخی: مسیر به سوی تخصصگرایی
برای درک کامل تغییرات معماری در نسل هشتم، ردیابی تکامل تکراری خانواده TPU ضروری است. توسعه سختافزار گوگل به طور مداوم منعکس کننده تنگناهای رایج مدلهای یادگیری ماشین معاصر بوده است و از شتاب استنتاج ساده به پارچههای آموزشی عظیم در مقیاس خوشهای حرکت میکند [منبع: 10، 11].
از استنتاج تا آرایههای ماتریسی عظیم
گوگل TPU نسخه ۱ را در سال ۲۰۱۵ به عنوان یک شتابدهنده صرفاً استنتاجی معرفی کرد که برای مدیریت بار محاسباتی رو به رشد سرویسهای داخلی مانند جستجو، ترجمه و توصیههای یوتیوب طراحی شده بود [ذکر: ۱۱، ۱۲]. نسخه ۱ از ریاضیات عدد صحیح ۸ بیتی برای دستیابی به بهبودهای مرتبه بزرگی در عملیات به ازای هر وات در مقایسه با واحدهای پردازش مرکزی (CPU) همه منظوره و واحدهای پردازش گرافیکی (GPU) استفاده میکرد [ذکر: ۱۰، ۱۱]. تا سال ۲۰۱۷، TPU نسخه ۲ با معرفی فرمت bfloat16 (BF16) - یک فرمت ممیز شناور ۱۶ بیتی که محدوده دینامیکی اعداد شناور ۳۲ بیتی را حفظ میکرد و در عین حال مصرف حافظه را به نصف کاهش میداد - گذار به قابلیتهای آموزشی را رقم زد [ذکر: ۱۰].
نسلهای v3 تا v5 موتور محاسباتی اصلی - واحد ضرب ماتریس (MXU) - را بهینه کردند. برای چندین نسل، MXU یک آرایه سیستولیک 128x128 باقی ماند که قادر به انجام 16384 عملیات ضرب-انباشت به طور همزمان بود [استناد: 4، 10]. TPU نسخه 4 "SparseCore" را معرفی کرد، یک بلوک سختافزاری اختصاصی که به طور خاص برای تسریع جستجوهای جاسازی و دسترسیهای نامنظم به حافظه طراحی شده است و در نتیجه از توقف MXU در طول آموزش مدل توصیه جلوگیری میکند [استناد: 4، 6].
تکامل توپوگرافی و تریلیوم (نسخه 6e)
با افزایش اندازه مدلها، توپولوژیهای اتصال داخلی مورد نیاز برای همگامسازی گرادیانها در هزاران تراشه تکامل یافتند. گوگل یک توپولوژی چنبره دوبعدی را برای پادهای کوچکتر و مقرونبهصرفه (مانند v5e و v6e) به کار گرفت که مقیاسبندی تا 256 تراشه را ساده میکرد [استناد: 4، 10]. برای انواع بهینهسازیشده از نظر عملکرد (مانند v4 و v5p)، گوگل از یک توپولوژی چنبره سهبعدی استفاده کرد که تراشهها را در یک شبکه سهبعدی به هم متصل میکرد تا تأخیر ارتباطی را در پادهای بزرگتر با اندازههای مختلف از 4096 تا 8960 تراشه کاهش دهد [استناد: 4].
پیشگام بلافصل دوران مدرن، TPU v6e (Trillium) بود که در اواخر سال 2024 منتشر شد. Trillium با گسترش MXU از آرایه 128x128 به آرایه 256x256، جهش معماری عظیمی را نشان داد [ذکر: 10]. این امر عملیات ضرب-انباشت در هر چرخه را چهار برابر کرد. Trillium در ترکیب با پهنای باند دو برابر شده اتصال بین تراشهای (ICI) به میزان 3200 گیگابیت بر ثانیه (13 ترابایت بر ثانیه دو طرفه) و 32 گیگابایت حافظه با پهنای باند بالا (HBM) در هر تراشه، 4.7 برابر اوج محاسبات نسل قبلی خود را ارائه داد و در عین حال با 67٪ راندمان انرژی بیشتر کار کرد [ذکر: 10، 11].
| نسل TPU | سال انتشار | نوآوری اولیه | توپولوژی و حداکثر اندازه پاد | معماری MXU | اوج محاسبات به ازای هر تراشه |
|---|---|---|---|---|---|
| تی پی یو نسخه ۲ | ۲۰۱۷ | اولین آموزش پذیر (BF16) | توروس دوبعدی (۵۱۲ تراشه) | ۱۲۸x۱۲۸ | حدود ۴۵ ترافلاپ |
| تی پی یو نسخه ۴ | ۲۰۲۱ | معرفی SparseCore | توروس سهبعدی (۴۰۹۶ تراشه) | ۱۲۸x۱۲۸ | ۲۷۵ ترافلاپ |
| تی پی یو نسخه ۵ ای | ۲۰۲۳ | بهرهوری بهینه از نظر هزینه | توروس دوبعدی (۲۵۶ تراشه) | ۱۲۸x۱۲۸ | ۱۹۷ ترافلاپ |
| تی پی یو نسخه ۵ پی | ۲۰۲۳ | افزایش مقیاس عملکرد | توروس سهبعدی (۸۹۶۰ تراشه) | ۱۲۸x۱۲۸ | ۴۵۹ ترافلاپ |
| TPU نسخه 6e (تریلیوم) | ۲۰۲۴ | توسعه MXU با ابعاد ۲۵۶x۲۵۶ | توروس دوبعدی (۲۵۶ تراشه) | ۲۵۶x۲۵۶ | ۹۱۸ ترافلاپ |
اوج معماری یکپارچه: TPU 7x
نسل هفتم TPU 7x که در اواخر سال 2025 به طور عمومی عرضه شد، اوج استراتژی معماری یکپارچه گوگل را نشان میدهد. TPU 7x که برای اجرای پیشآموزش در مقیاس مرزی و استنتاج سنگین رمزگشایی در یک چارچوب معماری واحد طراحی شده است، محدودیتهای آنچه یک شتابدهنده دو منظوره میتوانست به آن دست یابد را کنار زد [منبع: 3، 10].
طراحی دو چیپلت و بهینهسازی آلفاچیپ
ساختار فیزیکی TPU 7x تغییر چشمگیری را نسبت به معماری تک هسته منطقی (MegaCore) موجود در v4 و v5p نشان داد [cite: 3]. TPU 7x از معماری دو چیپلتی استفاده میکند. هر تراشه کامل TPU 7x شامل دو چیپلت مجزا و مستقل است که توسط یک رابط اختصاصی و پرسرعت Die-to-Die (D2D) به هم متصل شدهاند [cite: 3]. این اتصال D2D با شش برابر سرعت یک لینک استاندارد ICI یک بعدی عمل میکند و به چیپلتها اجازه میدهد تا ضمن حفظ فضاهای حافظه اختصاصی خود، به سرعت با هم ارتباط برقرار کنند [cite: 3].
در سراسر تراشه یکپارچه کامل، TPU 7x دو TensorCore و چهار SparseCore را در خود جای داده است [cite: 3]. طرح فیزیکی این هستهها روی ماتریس سیلیکونی با استفاده از AlphaChip، ابزار یادگیری تقویتی اختصاصی گوگل، بهینه شده است تا طول سیم به حداقل برسد و راندمان حرارتی به حداکثر برسد [cite: 10]. یک پیکربندی استاندارد ماشین مجازی (VM) برای TPU 7x، چهار تراشه را به یک میزبان CPU متصل میکند و 224 vCPU و 960 گیگابایت رم را در معرض نمایش قرار میدهد [cite: 3].
سلسله مراتب حافظه چند لایه و قالب بندی دقیق
یک گلوگاه حیاتی در پردازش مدلهای متراکم و MoE، جابجایی مداوم دادهها بین لایههای ذخیرهسازی است. TPU 7x دارای یک سیستم حافظه چند لایه قوی است که برای اشباع نگه داشتن MXU های توسعهیافته طراحی شده است: * حافظه با پهنای باند بالا (HBM3E): هر تراشه TPU 7x به 192 گیگابایت HBM مجهز شده است که پهنای باند حافظه عظیمی معادل 7.37 ترابایت بر ثانیه (7380 گیگابایت بر ثانیه) را فراهم میکند [ذکر: 3، 10]. این افزایش ظرفیت شش برابری نسبت به Trillium امکان استفاده از دستههای بسیار بزرگتر را در طول آموزش فراهم میکند و امکان نگهداری حافظههای نهان KV بزرگتر را در طول استنتاج بر روی تراشه فراهم میکند و از افزایشهای پرهزینه تأخیر مرتبط با انتقال به حافظه میزبان کندتر جلوگیری میکند [ذکر: 4، 10، 13]. * حافظه برداری (VMEM): هر TensorCore که به عنوان یک دفترچه یادداشت SRAM فوق سریع بر روی تراشه عمل میکند، دارای 64 مگابایت VMEM (در مجموع 128 مگابایت در هر تراشه) است. VMEM پهنای باند بسیار بالاتری را نسبت به HBM به MXU ارائه میدهد [منبع: ۳، ۱۴]. از طریق تنظیم VMEM با دامنهی مشخص، توسعهدهندگان میتوانند حافظه را بین دامنهی محاسباتی فعلی و پیشواکشی وزن در آینده مجدداً تخصیص دهند، که امکان استفاده از اندازههای بزرگتر کاشی هسته (مانند آنهایی که در توجه فلش استفاده میشوند) را فراهم میکند و توقفهای حافظه را کاهش میدهد [منبع: ۱۳، ۱۴]. * حافظه میزبان (PCIe): از طریق یک شبکهی PCIe متصل میشود و از حافظه میزبان سیستم برای تخلیهی حالتها و فعالسازیهای بهینهساز استفاده میشود و فشار حافظه را برای مدلهایی که از ظرفیت HBM فراتر میروند، مدیریت میکند [منبع: ۳، ۱۴].
علاوه بر این، TPU 7x شتاب سختافزاری بومی را برای دقت ممیز شناور ۸ بیتی (FP8) معرفی کرد [cite: 4، 13]. با مهاجرت از فرمتهای استاندارد ۱۶ بیتی (BF16 یا FP16)، نمایش FP8 به طور مؤثر حداکثر توان محاسباتی را دو برابر میکند و در عین حال فضای حافظه مورد نیاز برای ذخیره وزنها و فعالسازیها را نصف میکند [cite: 4، 13]. یک تراشه TPU 7x که به صورت بومی در FP8 کار میکند، حداکثر توان محاسباتی ۴۶۱۴ ترافلاپ را ارائه میدهد، در مقایسه با ۲۳۰۷ ترافلاپ هنگام کار در BF16 [cite: 3، 4].
توپولوژی سه بعدی Torus و مقیاس Superpod
در سطح مرکز داده، TPU 7x به توپولوژی اتصال داخلی سه بعدی اثبات شده گوگل متکی است [cite: 3]. این معماری هر تراشه را مستقیماً به نزدیکترین همسایگانش در محورهای X، Y و Z متصل میکند و در نتیجه یک شبکه سه بعدی انعطافپذیر ایجاد میکند [cite: 3]. ارتباط درون این شبکه توسط پهنای باند ICI 1.2 ترابایت بر ثانیه (1200 گیگابایت بر ثانیه) در هر تراشه تسهیل میشود و ارتباط دو طرفه را با سرعت 200 گیگابایت بر ثانیه در هر محور فراهم میکند [cite: 3].
یک سوپرپاد TPU 7x کاملاً تحقق یافته، به 9216 تراشه خنک شونده با مایع تبدیل میشود. در این پیکربندی، این پاد در مجموع 42.5 اگزافلاپس قدرت محاسباتی FP8 ارائه میدهد [منبع: 8، 10]. برشهای بزرگتر از 64 تراشه با استفاده از "مکعبهای" ماژولار 4x4x4 از تراشهها ساخته میشوند که امکان توپولوژیهای بسیار انعطافپذیر از پیکربندیهای تک میزبان تا محیطهای چند میزبان عظیم را فراهم میکند [منبع: 3].
با وجود قابلیتهای فوقالعادهاش، ماهیت یکپارچه TPU 7x به این معنی بود که دارای سازشهای ذاتی است. در حالی که توپولوژی توروس سهبعدی برای هماهنگسازی گرادیان محلی و قابل پیشبینی مورد نیاز در پیشآموزش بسیار کارآمد است، منجر به قطر شبکه بالایی میشود. به عنوان مثال، یک غلاف 1024 تراشهای روی یک توروس سهبعدی دارای حداکثر قطر شبکه 16 هاپ است [ذکر: 15، 16]. در یک سناریوی استنتاج MoE، که در آن توکنها باید به سرعت به لایههای متخصص واقع در هر نقطه از غلاف هدایت شوند، این فاصله 16 هاپ، تأخیرهای دم غیرقابل قبولی را ایجاد میکند [ذکر: 6، 15، 16]. علاوه بر این، اختصاص دادن فضای سیلیکونی ارزشمند به SparseCores - که در جاسازی جستجوها برتری دارند - از فضایی که میتوانست برای موتورهای کاهش جمعی که برای گردشهای کاری زنجیره فکری عاملی حیاتی هستند، استفاده شود، کاست [ذکر: 6، 15]. این صنعت به محدودیتهای فیزیکی شتابدهنده "یک اندازه برای همه" رسیده بود.
دوگانگی استراتژیک: محرکهای اقتصادی و معماری
گذار از نسل هفتم به هشتم TPUها، مهمترین چرخش معماری در تاریخ سیلیکون گوگل را نشان میدهد [نقل قول: 9]. تقسیم خط تولید TPU به دو خانواده محصول مجزا - TPU 8t برای آموزش و TPU 8i برای استنتاج - که در Google Cloud Next 2026 اعلام شد، اذعان میکند که حجم کاری که دهه بعدی هوش مصنوعی را هدایت میکند، اساساً در سطح سختافزاری غیرقابل تطبیق هستند [نقل قول: 1، 2، 17].
منشأ این شکاف در اقتصادهای واگرا و شدتهای عملیاتی توسعه هوش مصنوعی نهفته است. آموزش یک مدل مرزی، یک هزینه عملیاتی بسیار سرمایهبر و یکباره است که با محاسبات مداوم در طول هفتهها یا ماهها اندازهگیری میشود [نقل قول: 9]. این مدل نیازمند حداکثر تراکم محاسباتی، پهنای باند اتصال بیسابقه در مقیاس بالا و دامنههای حافظه یکپارچه چند پتابایتی است که قادر به دریافت مجموعه دادههای چندوجهی با نرخ خطی باشند [نقل قول: 9].
برعکس، استنتاج یک هزینه عملیاتی مداوم است که به صورت خطی - یا نمایی - با تقاضای کاربر مقیاسبندی میشود [ذکر: 9]. در «عصر عامل» نوظهور، یک مدل هوش مصنوعی صرفاً نشانه بعدی را برای تولید یک بلوک متن پیشبینی نمیکند؛ بلکه به طور فعال استدلال میکند، سناریوهای آینده را شبیهسازی میکند، از طریق «تخیل» تکرار میکند، APIهای خارجی را فراخوانی میکند و با انبوهی از عاملهای تخصصی دیگر در حلقههای بازخورد مداوم تعامل میکند [ذکر: 5، 7، 15]. این پویایی به حجم عظیمی از حافظه برای ذخیره پنجرههای زمینه فعال و تأخیر شبکه بسیار کم برای مسیریابی تخصصی و همگامسازی جهانی نیاز دارد [ذکر: 15، 16].
گوگل با تقسیم خط تولید، سختافزار را در اعماق زنجیره تأمین بهینه کرد. TPU 8t با همکاری Broadcom طراحی شد، همکاریای که به سال ۲۰۱۵ برمیگردد [ذکر: ۹، ۱۷، ۱۸]. تخصص Broadcom در اتصالات پیچیده و پرسرعت SerDes، بستهبندی پیشرفته و شبکههای گسترده، آنها را به شریک ایدهآلی برای کنار زدن محدودیتهای فیزیکی پارچه آموزشی تبدیل کرد [ذکر: ۱۷، ۱۹].
برای تراشه استنتاج، گوگل سنتشکنی کرد و با مدیاتک برای طراحی TPU 8i همکاری کرد [cite: 9، 17، 18]. گوگل با بهرهگیری از تخصص عمیق مدیاتک در طراحی SoC موبایل با مصرف انرژی کارآمد و حجم بالا، یک شتابدهنده استنتاج بسیار بهینهشده ایجاد کرد [cite: 17، 19]. TPU 8i از طراحی سادهتری (یک تراشه محاسباتی در مقابل دو تراشه 8t) استفاده میکند که طبق گزارشها، تولید آن 20 تا 30 درصد ارزانتر از انواع سنتی با کارایی بالا است و به گوگل اجازه میدهد تا ظرفیت سرویسدهی جهانی خود را از نظر اقتصادی برای برآورده کردن نیازهای برنامههای کاربردی سازمانی و مصرفی افزایش دهد [cite: 9، 17]. هر دو تراشه بر روی گره پردازش پیشرفته 2 نانومتری TSMC ساخته شدهاند و از بستهبندی پیشرفته CoWoS پیشرفته برای ادغام تراشههای منطقی با پشتههای HBM بلند استفاده میکنند [cite: 9، 19].
اعتبارسنجی بازار برای این استراتژی دوگانه بلافاصله انجام شد. آنتروپیک، یک سازمان تحقیقاتی پیشرو در زمینه هوش مصنوعی، قرارداد چند میلیارد دلاری خود با گوگل کلود را گسترش داد و متعهد شد تا سال 2027، 3.5 گیگاوات ظرفیت محاسباتی را به این شرکت اختصاص دهد و به عنوان مشتری اصلی برای هر دو پلتفرم TPU 7x و نسل هشتم عمل کند [منبع: 9، 10، 20].
بررسی عمیق: TPU 8t (نیروی پیش از تمرین)
TPU 8t یک دستاورد مهندسی بینظیر است که با هدف کاهش چرخه توسعه مدلهای مرزی تریلیون پارامتری از ماهها به هفتهها [منبع: ۵، ۲۱] ساخته شده است. این دستاورد نه تنها با افزایش سرعت کلاک خام، بلکه با بازسازی دقت عملیات ریاضی، گسترش گسترده پهنای باند بین تراشهها و کاهش گلوگاههای فلجکننده مصرف دادهها که خوشههای آموزشی عظیم را آزار میدهند، محقق میشود [منبع: ۶، ۱۵].
معماری محاسباتی Dual-Die و FP4 بومی
از نظر فیزیکی، TPU 8t از معماری بسیار پیچیدهای شامل دو تراشه محاسباتی و یک چیپلت ورودی/خروجی استفاده میکند که توسط هشت پشته حافظه HBM3E با ظرفیت ۱۲ گیگابایت احاطه شده است [نقل قول: ۹]. این بستهبندی متراکم نیاز به مدیریت حرارتی پیشرفته دارد و برای دفع گرمای عظیم تولید شده توسط عملیات ماتریسی پایدار، به خنککننده مایع نسل چهارم گوگل متکی است [نقل قول: ۷، ۱۷، ۲۲].
یک تکامل اساسی در TPU 8t، معرفی دقت ممیز شناور ۴ بیتی (FP4) بومی است [ذکر: ۶، ۱۵]. الزامات ریاضی پیشآموزش، به شدت بر توان عملیاتی نسبت به دقت عددی بسیار بالا تأکید دارد. با کاهش اجرای بومی از FP8 به FP4، TPU 8t به طور مؤثر توان عملیاتی MXU را دو برابر میکند و همزمان تعداد بیتهایی را که باید به صورت فیزیکی در هر پارامتر از طریق تراشه جابجا شوند، نصف میکند [ذکر: ۶، ۱۵]. این کاهش شدید در جابجایی دادهها، واکشیهای حافظه پرانرژی را به حداقل میرساند و به لایههای مدل بزرگتر اجازه میدهد تا به راحتی در بافرهای سختافزاری محلی قرار گیرند [ذکر: ۶، ۱۵].
برای اطمینان از اشباع تراشه، TPU 8t مقیاسبندی واحد پردازش برداری (VPU) متعادلتری را پیادهسازی میکند. این امر به سیلیکون اجازه میدهد تا وظایف ترتیبی ضروری - مانند کوانتیزاسیون، سافتمکس و لایههنجارها - را با ضربهای ماتریسی سنگین که در MXU رخ میدهند، همپوشانی کند و عملاً زمان غیرماتریسیِ در معرض خطر را که در آن هستههای محاسباتی در غیر این صورت بیکار میمانند، از بین ببرد [نقل قول: 6، 15]. در نتیجه این بهینهسازیهای معماری، یک تراشه TPU 8t به تنهایی 12.6 پتافلاپ قدرت محاسباتی FP4 ارائه میدهد [نقل قول: 15، 23].
علاوه بر این، برخلاف خواهر و برادر متمرکز بر استنتاج خود، TPU 8t بلوکهای تخصصی SparseCore معرفی شده در نسلهای قبلی را حفظ میکند [cite: 1، 6، 15]. حجمهای کاری سنگین جاسازی - که در مدلهای بنیادی چندوجهی و سیستمهای توصیه رایج است - الگوهای دسترسی به حافظه نامنظمی را نشان میدهند که GPUهای سنتی را فلج میکند. SparseCore به صورت ناهمزمان عمل میکند و عملیات جمعآوری و جستجوی جاسازی وابسته به داده را تخلیه میکند [cite: 6، 15]. با جداسازی ریاضیات ماتریس متراکم به MXU و عملیات پراکنده به SparseCore، TPU 8t از گلوگاههای "zero-op" که باعث توقف محاسباتی میشوند جلوگیری میکند [cite: 6، 15].
پهنای باند، مصرف فضای ذخیرهسازی و TPUDirect
برای تغذیه MXU های بسیار شتاب یافته که در FP4 کار میکنند، TPU 8t به پهنای باند محلی و تجمعی بسیار بالایی نیاز دارد. هر تراشه دارای 216 گیگابایت HBM3e است که با سرعت 6528 گیگابایت بر ثانیه کار میکند [منبع: 15، 24]. با این حال، در مقیاس مدلهای مرزی، محدودیت سیستم اغلب از سرعت پردازش سیلیکون به سرعتی که مرکز داده میتواند پتابایتها داده آموزشی را از ذخیرهسازی سرد دریافت کند، تغییر میکند.
برای دور زدن گلوگاه مسیر داده سنتی، گوگل TPUDirect RDMA و TPUDirect Storage را ادغام کرد [cite: 5، 6، 10]. این پروتکلها امکان دسترسی مستقیم به حافظه (DMA) را بین حافظه با پهنای باند بالای TPU و آرایههای ذخیرهسازی شبکه مدیریتشده، مانند Google Cloud Managed Lustre 10T، فراهم میکنند [cite: 6، 15]. با مسیریابی مستقیم دادهها از سیستم فایل موازی Lustre به TPU از طریق کارت رابط شبکه (NIC)، TPUDirect به طور کامل CPU میزبان و DRAM میزبان را دور میزند [cite: 6]. این مسیر داده تخصصی به طور مؤثر شتاب 10 برابری در سرعت دسترسی به ذخیرهسازی را در مقایسه با آموزش روی نسل 7x TPU ارائه میدهد و تضمین میکند که واحدهای محاسباتی TPU 8t میتوانند مجموعه دادههای چندوجهی را با نرخ خط و بدون گرسنگی دریافت کنند [cite: 5، 6، 15].
زیرساخت در مقیاس بزرگ: شبکه ویرگو
شگفتانگیزترین شاهکار معماری اکوسیستم TPU 8t، قابلیت شبکهسازی آن است که محدودیت سیستم را از محاسبات محلی به پهنای باند در مقیاس مرکز داده تغییر میدهد [منبع: 25، 26].
در حالی که TPU 8t اتصال داخلی توروس سهبعدی بنیادی را برای ارتباط محلی پاد حفظ کرده است - که تا ۹۶۰۰ تراشه و ۲ پتابایت حافظه HBM مشترک بیسابقه را در یک ابرپاد واحد افزایش میدهد - ساختار مقیاسپذیر آن کاملاً بازطراحی شده است [نقل قول: ۵، ۶، ۱۵]. این ابرپاد به مجموع ۱۲۱ اگزافلاپس محاسبات FP4 دست مییابد که نشاندهنده افزایش ۲.۸ برابری نسبت به ۴۲.۵ اگزافلاپس TPU 7x است [نقل قول: ۶]. برای پشتیبانی از این امر، پهنای باند ICI درون پاد به ۱۹.۲ ترابیت بر ثانیه در هر تراشه دو برابر شده است [نقل قول: ۴، ۶، ۱۰].
با این حال، گوگل برای اتصال صدها عدد از این ابرپادها، شبکه Virgo را ساخت [منبع: 1، 6]. شبکه قبلی، Jupiter، از توپولوژی سه لایه Clos استفاده میکرد که ترافیک را از طریق چندین ردیف سوئیچ هدایت میکرد و باعث ایجاد گلوگاههای تأخیر و پهنای باند میشد (حداکثر 100 گیگابیت بر ثانیه در هر تراشه) [منبع: 25].
Virgo یک شبکهی مقیاسپذیر است که بر روی سوئیچهای با شعاع بالا (با مدیریت ۲۵۶ تا ۵۱۲ پورت) ساخته شده و از یک توپولوژی مسطح، دو لایه و بدون انسداد استفاده میکند [نقل قول: ۶، ۱۵، ۲۵]. Virgo با حذف فیزیکی لایههای شبکه، تأخیر را به شدت کاهش میدهد. این شبکه از یک طراحی چند سطحی با دامنههای کنترل مستقل استفاده میکند و تا ۴۰۰٪ (۴ برابر) افزایش در پهنای باند خام شبکه مرکز داده (DCN) را ارائه میدهد و به ۴۰۰ گیگابیت بر ثانیه در هر تراشه میرسد [نقل قول: ۶، ۱۵، ۲۴].
یک شبکهی Virgo میتواند بیش از ۱۳۴۰۰۰ تراشهی TPU 8t را در یک مرکز دادهی واحد به هم متصل کند و پهنای باند دوبخشی غیرقابل انسداد ۴۷ پتابیت در ثانیه را ارائه دهد [نقل قول: ۱، ۶، ۱۵]. علاوه بر این، TPU 8t که با نرمافزار Pathways گوگل و چارچوب JAX ادغام شده است، به خوشههای آموزشی توزیعشده اجازه میدهد تا به عنوان یک کار آموزشی منطقی واحد، بیش از یک میلیون تراشه را در چندین مکان جغرافیایی گسترش دهند [نقل قول: ۱، ۶، ۱۵]. این دستاورد، زیرساخت توزیعشدهی جهانی را به یک ابررایانهی یکپارچه و واحد تبدیل میکند و به طور چشمگیری از محدودیتهای مقیاسپذیری فعلی GPUهای همهکاره پیشی میگیرد [نقل قول: ۲۷].
پیکربندی مجدد خودکار و ۹۷٪ بازدهی خوب
در مقیاس صدها هزار تراشه، خرابیهای سختافزاری - از فرستنده-گیرندههای متورم گرفته تا گلوگاه حرارتی - قطعیتهای آماری هستند و نه موارد حاشیهای. در سیستمهای قدیمی، یک وقفه در شبکه میتواند یک اجرای آموزشی عظیم را متوقف کند و نیاز به یک بازگشت پر زحمت و پرهزینه به یک نقطه بازرسی قبلی داشته باشد. در مقیاس مرزی، هر درصد از کارایی از دست رفته به معنای روزهای آموزش فعال است [نقل قول: 5، 6].
اکوسیستم TPU 8t بیش از 97٪ "goodput" را هدف قرار میدهد - معیاری که نسبت زمان محاسبات مفید و مولد را به کل زمان روشن بودن تعریف میکند [cite: 6، 28]. این امر از طریق قابلیتهای پیشرفته قابلیت اطمینان، در دسترس بودن و سرویسپذیری (RAS) که توسط سوئیچینگ مدار نوری (OCS) [cite: 5، 6، 25] پشتیبانی میشوند، حاصل میشود. این سیستم از طریق تلهمتری بلادرنگ که دهها هزار تراشه را تجزیه و تحلیل میکند، میتواند به طور خودکار پیوندهای اتصال بین تراشهای معیوب را تشخیص دهد. OCS به صورت فیزیکی مسیرهای نور نوری را تغییر مسیر میدهد تا از خرابیهای سختافزاری در بلادرنگ جلوگیری کند، بدون نیاز به دخالت انسان و مهمتر از همه، بدون وقفه در کار آموزش فعال [cite: 5، 6، 28].
بررسی عمیق: TPU 8i (موتور استدلال)
اگر TPU 8t تمرینی در مقیاسبندی شدید و brute-force باشد، TPU 8i یک شاهکار در بهینهسازی تأخیر و معماری حافظه است [نقل قول: 6]. با تغییر مدلها به تولید در زمان واقعی، به ویژه مدلهای عظیم Mixture-of-Experts (MoE) و swarms agentic، توان محاسباتی خام نسبت به سرعت دسترسی به حافظه و مسیریابی در سراسر شبکه، اهمیت کمتری پیدا میکند [نقل قول: 21، 29].
شکستن دیوار حافظه استنتاج
در تولید خودهمبسته، یک مدل توکنهای خروجی را به صورت متوالی تولید میکند. با هر توکن جدید تولید شده، مدل باید به تاریخچه رو به رشد تمام توکنهای قبلی و روابط ریاضی آنها، که به عنوان حافظه پنهان کلید-مقدار (KV) شناخته میشود، مراجعه کند [ذکر: 1، 13]. برای مدلهای با زمینه طولانی که صدها هزار توکن را تجزیه و تحلیل میکنند، اندازه این حافظه پنهان KV افزایش مییابد. اگر حافظه پنهان از ظرفیت حافظه سریع پردازنده تراشه فراتر رود و به حافظه CPU میزبان کندتر سرریز شود، کل فرآیند محاسباتی متوقف میشود - پدیدهای که به طور گسترده به عنوان "دیوار حافظه" شناخته میشود [ذکر: 5، 8].
TPU 8i به طور خاص برای از بین بردن این دیوار ساخته شده است. اگرچه این یک طراحی سیلیکونی سادهتر و مقرون به صرفهتر است - با استفاده از یک تراشه محاسباتی و یک تراشه ورودی/خروجی با شش پشته HBM3e - ظرفیت حافظه آن به شدت برای خدمترسانی بهینه شده است [ذکر: 9]. * ظرفیت و پهنای باند HBM: هر TPU 8i مجهز به 288 گیگابایت HBM3E است که نشاندهنده افزایش ظرفیت 50 درصدی نسبت به TPU 7x است [ذکر: 5، 24، 30]. مهمتر از همه، از آنجا که مدلهای بزرگ MoE در طول استنتاج به پهنای باند حافظه محدود میشوند، پهنای باند حافظه به 8.6 ترابایت بر ثانیه (~8601 گیگابایت بر ثانیه) افزایش مییابد - تقریباً 1.3 برابر سریعتر از TPU 8t متمرکز بر آموزش [ذکر: 10، 15]. * SRAM عظیم روی تراشه: مهمترین تغییر سختافزاری، گنجاندن ۳۸۴ مگابایت حافظه دسترسی تصادفی استاتیک (SRAM) روی تراشه در هر تراشه است [cite: 10، ۱۵، ۳۰]. این نشان دهنده افزایش عظیم ۳۰۰٪ (۳ برابر) نسبت به TPU 7x و TPU 8t است [cite: 10، ۱۵، ۳۰]. SRAM سریعترین و کم تأخیرترین حافظه موجود در ماتریس سیلیکونی است. با سه برابر کردن این ظرفیت، TPU 8i میتواند میزبان حافظههای نهان KV عظیم کاملاً روی تراشه باشد [cite: 15، ۱۶]. این امر مانع از بیکار ماندن هستههای پردازشی در حین انتظار برای دریافت تاریخچه توکنها از لایههای حافظه کندتر میشود و امکان عملکرد حلقههای استدلال با همزمانی بالا را با روانی بیسابقهای فراهم میکند [cite: 5، ۱۵].
موتور شتابدهندهی جمعی (CAE)
از آنجا که TPU 8i استنتاج را هدف قرار میدهد، واحد SparseCore که در 7x و 8t برای جاسازی جستجوها استفاده میشد، استفاده ناکارآمد از فضای سیلیکونی برای این حجم کاری خاص تلقی میشد. به جای آن، مهندسان گوگل یک بلوک سختافزاری اختصاصی به نام موتور شتابدهنده جمعی (CAE) معرفی کردند [ذکر شده: 10، 15].
در طول رمزگشایی خودهمبسته و پردازش «زنجیرهای از افکار»، هستههای مجزا باید مرتباً محاسبات فردی خود را متوقف کنند تا نتایج ریاضی خود را در سراسر تراشه جمع، کاهش و همگامسازی کنند [نقل قول: 6، 15]. این عملیات همگامسازی سراسری میتواند تأخیر را به شدت کاهش دهد، به خصوص زمانی که هزاران عامل مستقل به طور همزمان در حال حل یک مسئله هستند.
برای هر تراشه TPU 8i، دو TensorCore روی هستههای اصلی قرار دارند که با یک CAE واقع در تراشه چیپلت (جایگزین چهار SparseCore موجود در TPU 7x) همراه هستند [cite: 6، 15]. CAE تخصصی به گونهای مهندسی شده است که نتایج را در هستهها با تأخیر نزدیک به صفر جمع کند و در نتیجه کاهش فوقالعاده 5 برابری در تأخیر جمعی روی تراشه در مقایسه با نسل TPU 7x را به همراه داشته باشد [cite: 10، 15]. با شتابدهی سختافزاری مراحل کاهش که بر گردشهای کاری عاملمحور غالب هستند، CAE تضمین میکند که سیستم بدون از دست دادن پاسخگویی در زمان واقعی، توان عملیاتی بالایی را حفظ کند [cite: 6، 15].
مسطحسازی شبکه: توپولوژی بوردفلای
یکی از ویژگیهای بارز TPU 8i، کنار گذاشتن کامل توپولوژی چنبره سهبعدی است. در حالی که چنبره سهبعدی برای انتقال دادههای همسایه به همسایه مورد نیاز در پیشآموزش استثنایی است، فواصل فیزیکی غیرقابل قبولی - که با گامهای شبکه اندازهگیری میشوند - برای مسیریابی توکن همه به همه مورد نیاز مدلهای استنتاج MoE ایجاد میکند [نقل قول: 2، 15]. در معماریهای MoE، هر توکن داده شده ممکن است نیاز به مسیریابی به یک لایه "متخصص" خاص واقع در یک تراشه کاملاً متفاوت در داخل غلاف داشته باشد. در یک چنبره سنتی، این بسته داده باید به طور متوالی از طریق تراشههای مداخلهگر عبور کند تا به مقصد خود برسد.
برای حل این مشکل، گوگل یک معماری شبکه جدید بهینه شده برای سرویسدهی به نام Boardfly طراحی کرد [cite: 15، 31]. Boardfly که از اصول توپولوژی Dragonfly الهام گرفته شده است، یک شبکه سلسله مراتبی با شعاع بالا است که برای مسطح کردن شدید معماری و به حداقل رساندن فاصله فیزیکی بین هر دو تراشه طراحی شده است [cite: 2، 15، 26].
توپولوژی Boardfly به صورت سلسله مراتبی ساخته میشود: ۱. بلوک سازنده: چهار تراشه TPU 8i کاملاً متصل، یک بلوک سازنده بنیادی با لینکهای ICI داخلی تشکیل میدهند [نقل قول: ۶، ۱۶]. ۲. برد: هشت بلوک سازنده از طریق کابلکشی مسی مستقیم به طور کامل به هم متصل شدهاند تا یک برد واحد را تشکیل دهند [نقل قول: ۶، ۱۶]. ۳. غلاف: سپس ۳۶ گروه از طریق سوئیچهای مدار نوری و لینکهای نوری مستقیم با مسافت طولانی به طور کامل به هم متصل میشوند تا یک غلاف یکپارچه از ۱۱۵۲ تراشه را تشکیل دهند [نقل قول: ۵، ۶، ۱۶، ۳۲].
مزیت تأخیر این رویکرد بسیار زیاد است. در یک پیکربندی استاندارد چنبره سهبعدی با 1024 تراشه، یک بسته داده ممکن است نیاز به طی کردن حداکثر قطر شبکه 16 گام داشته باشد [ذکر: 15، 25]. در توپولوژی Boardfly، این حداکثر قطر شبکه به تنها 7 گام کاهش مییابد [ذکر: 15، 25].
این کاهش ۵۶ درصدی در قطر شبکه، به بهبود چشمگیر ۵۰ درصدی در تأخیر انتهایی برای بارهای کاری استنتاج با ارتباطات فشرده منجر میشود [نقل قول: ۱۶، ۲۵، ۳۰]. استنتاج در نهایت توسط سرعت کندترین گره خود محدود میشود. با کاهش تأخیر انتهایی، توپولوژی Boardfly تضمین میکند که CAE هرگز در حالی که منتظر دادههای توکن برای عبور از غلاف است، بیکار نمیماند [نقل قول: ۶، ۱۵].
علاوه بر این، به دلیل این اتصال نوری بسیار منسجم، یک غلاف TPU 8i با 1152 تراشه به عنوان یک دامنه حافظه مشترک عظیم و یکپارچه با 331.8 ترابایت حافظه HBM منسجم عمل میکند [منبع: 16].
عملکرد تطبیقی، اقتصاد و زیرساخت سیستم
این دوگانگی معماری، پیشرفتهای عمیقی را هم در اقتصاد محاسباتی و هم در بهرهوری انرژی ارائه میدهد. ارزیابی سختافزار صرفاً بر اساس اوج عملیات ممیز شناور نظری، واقعیتهای سیستمی عملیات مرکز داده و توانمندسازی نرمافزار را نادیده میگیرد.
انتزاع نرمافزار و پشتیبانی از چارچوب
با وجود زیرساختهای سختافزاری متفاوت، گوگل سرمایهگذاری سنگینی روی حفظ یک پشته نرمافزاری هوش مصنوعی یکپارچه و با اولویت عملکرد انجام داده است تا از قفل شدن چارچوب جلوگیری کند. هر دو TPU 8t و 8i پشتیبانی بومی از JAX، Keras، MaxText، SGLang و موتور vLLM ارائه میدهند [cite: 5، 8، 14، 17]. علاوه بر این، پشتیبانی بومی از PyTorch (از طریق TorchTPU) به توسعهدهندگان این امکان را میدهد که مدلهای PyTorch موجود را مستقیماً به محیط TPU منتقل کنند و از ویژگیهای بومی مانند Eager Mode به طور کامل پشتیبانی کنند [cite: 15، 17].
در پشت صحنه، کامپایلر جبر خطی شتابیافته (XLA) ترجمه پیچیده توپولوژی Boardfly و همگامسازی CAE را مدیریت میکند و به توسعهدهندگان اجازه میدهد هستههای سفارشی سختافزارمحور را در پایتون (با استفاده از Pallas و Mosaic) بدون نیاز به برنامهریزی دستی اتصالات نوری بنویسند [نقل قول: 15].
معیارهای عملکرد کمی
جدول زیر مشخصات فنی اصلی معماریهای یکپارچه TPU 7x و TPUهای بسیار تخصصی 8t و 8i را خلاصه میکند [منبع: 3، 15، 24].
| ماتریس مشخصات | تی پی یو ۷x | تی پی یو 8 تی | تی پی یو 8i |
|---|---|---|---|
| حجم کار اولیه | یکپارچه (آموزش و استنتاج) | پیش آموزش در مقیاس بزرگ | استنتاج حساس به تأخیر |
| شریک طراحی ASIC | برادکام | برادکام | مدیاتک |
| توپولوژی شبکه | توروس سهبعدی | مقیاسبندی سهبعدی چنبره + سنبله | بوردفلای (الهام گرفته از سنجاقک) |
| سختافزار تخصصی | هسته پراکنده | هسته پراکنده | موتور شتاب جمعی (CAE) |
| فوکوس دقیق بومی | اف پی ۸ | اف پی ۴ | FP4 (با پشتیبانی از FP8/INT8) |
| اوج محاسبات به ازای هر تراشه | ۴.۶ پتافلاپ (FP8) | ۱۲.۶ پتافلاپ (FP4) | ۱۰.۱ پتافلاپ (FP4) |
| ظرفیت HBM به ازای هر تراشه | ۱۹۲ گیگابایت | ۲۱۶ گیگابایت | ۲۸۸ گیگابایت |
| پهنای باند HBM | ۷.۳۷ ترابایت بر ثانیه | ۶.۵۲ ترابایت بر ثانیه | ۸.۶۰ ترابایت بر ثانیه |
| SRAM روی تراشه (VMEM) | ۱۲۸ مگابایت | ۱۲۸ مگابایت | ۳۸۴ مگابایت |
| وزن مخصوص بین تراشهای (افزایش مقیاس) | ۹.۶ ترابیت بر ثانیه | ۱۹.۲ ترابایت بر ثانیه | ۱۹.۲ ترابایت بر ثانیه |
| حداکثر اندازه پاد/سوپرپاد | ۹,۲۱۶ چیپس | ۹۶۰۰ چیپس | ۱,۱۵۲ چیپس |
بهینهسازی هزینه-عملکرد و TCO
گوگل مدعی بهبود چشمگیر هزینه کل مالکیت (TCO) در نسل هشتم است. TPU 8t در مقایسه با TPU 7x، 170 تا 180 درصد افزایش - معادل 2.7 تا 2.8 برابر بهبود - در عملکرد به ازای هر دلار برای آموزش در مقیاس بزرگ ارائه میدهد. در همین حال، TPU 8i 80 درصد بهبود در عملکرد به ازای هر دلار برای استنتاج، به ویژه در اهداف تأخیر کم مورد نیاز برای مدلهای عظیم MoE ارائه میدهد. [ذکر: 15، 16، 30].
این دستاوردهای اقتصادی نه تنها توسط سیلیکون، بلکه توسط یکپارچهسازی سیستمی کامل نیز حاصل میشوند. از نظر تاریخی، TPUها با CPUهای میزبان x86 آماده جفت میشدند. در شرایطی که شامل پیشپردازش شدید دادهها یا منطق عاملی پیچیده بود، میزبان x86 اغلب سیستم را دچار گلوگاه میکرد و سیلیکون TPU فوق سریع را در حالت آماده به کار اما تشنه دادهها رها میکرد [نقل قول: 6، 7].
نسل هشتم این عدم تعادل مزمن را با میزبانی انحصاری هر دو 8t و 8i بر روی پردازندههای سفارشی گوگل مبتنی بر ARM، Axion، اصلاح میکند [cite: 6، 7، 15]. میزبانهای Axion که بر اساس معماری هسته Neoverse N3 Armv9.2 ساخته شدهاند، یک پایه یکپارچه و بسیار بهینه ارائه میدهند [cite: 18، 19]. برای TPU 8i که به استنتاج سنگین نیاز دارد، گوگل میزبانهای Axion را با نسبت 2:1 TPU به CPU ادغام کرد و میزبانهای CPU فیزیکی را در هر سرور در مقایسه با TPU 7x دو برابر کرد [cite: 5، 6، 32]. با استفاده از معماری دقیق دسترسی غیر یکنواخت به حافظه (NUMA) برای جداسازی بار کاری، این سیستم محل حافظه برتر را تضمین میکند و تنگنای آمادهسازی دادهها را به طور کامل از بین میبرد [cite: 5، 7].
Energy Efficiency and Market Implications
Energy density and power availability are rapidly becoming the ultimate binding constraints in modern data center deployment. Through the use of fourth-generation liquid cooling and integrated, real-time power management that dynamically adjusts power draw based on specific workload phases (eg, active computation versus idling for communication), both the TPU 8t and 8i achieve staggering power efficiencies [cite: 7, 15, 22, 24]. The 8t boasts a 124% gain in performance-per-watt, while the 8i yields a 117% gain, resulting in an overall 2x (100%+) improvement in energy efficiency over the TPU 7x [cite: 15, 22, 30].
The implications of this efficiency are evident in Google's own state-of-the-art models. Benchmarks for the Gemini 3.1 Pro preview indicate that deploying the model on the TPU 8i architecture results in a roughly 50% cost reduction for inference APIs, alongside vastly improved responsiveness and long-context handling capabilities [cite: 24, 30].
The Competitive Landscape: Google vs. Merchant Silicon
Google's decision to bifurcate its silicon strategy holds profound implications for the wider artificial intelligence hardware ecosystem, particularly in its ongoing competition with merchant silicon providers like Nvidia and, to a lesser extent, AMD and AWS (with its Trainium3 platform) [cite: 17, 23].
Nvidia has historically maintained a unified architecture strategy, utilizing highly capable but general-purpose platforms like the Blackwell B200 and the Vera Rubin NVL72 to handle both pre-training and real-time inference [cite: 2, 9]. When viewed purely through the lens of raw single-chip specifications, Nvidia maintains certain advantages. For example, Nvidia's NVLink technology supports single-device interconnect bandwidths of 14.4 Tb/s, and individual Rubin GPUs offer roughly 50 PFLOPs of NVFP4 inference compute—significantly higher than the 10.1 PFLOPs of the TPU 8i [cite: 2, 9].
However, Google's architectural bet rests on the conviction that the future of artificial intelligence is determined by cluster-scale efficiency, not single-chip peak capabilities [cite: 9].
By moving to the Boardfly topology, Google creates a fully coherent, shared memory pool across all 1,152 chips within a TPU 8i pod [cite: 16]. This results in an aggregate pod capacity of 11.6 FP8 ExaFlops and 331.8 TB of unified, coherent HBM [cite: 6, 16]. Conversely, standard Nvidia GPU rack-scale coherency on the NVL72 tops out at 72 GPUs and roughly 20.7 TB of HBM [cite: 2, 16]. Scaling general-purpose GPUs to match a 1,152-chip configuration requires bridging across approximately 16 separate racks [cite: 16]. This physical separation shatters true memory coherency and introduces severe latency penalties that are catastrophic for continuous, long-context agentic inference [cite: 16].
Furthermore, by moving optical circuit switching (OCS) lower in the stack to facilitate the Boardfly hierarchy, Google is fundamentally altering the optical networking supply chain, creating massive downstream demand for specialized transceivers and lasers from vendors like Lumentum and Coherent [cite: 26].
Ultimately, Google's design philosophy assumes that the real battleground of the late 2020s will not be determined by peak mathematical throughput on a singular silicon die, but rather by the ability to circumvent the memory wall, rapidly scale cross-site interconnects, and drive down the absolute cost-per-token economics of deploying real-time agent swarms to billions of users [cite: 6, 16, 17].
نتیجهگیری
The trajectory of Google Cloud's Tensor Processing Units from the unified framework of the TPU 7x to the highly specialized dichotomy of the TPU 8t and TPU 8i reflects the maturation and industrialization of artificial intelligence workloads. General-purpose, unified silicon—while foundational to the initial deep learning boom—is no longer sufficient to drive the economics or the performance required at the extreme margins of the agentic era.
The TPU 8t represents an uncompromising pursuit of scale. Through the retention of the SparseCore, the implementation of native FP4 precision to double MXU throughput, and the staggering capabilities of the Virgo Network and TPUDirect Storage, it is engineered to ingest and process data at a volume previously thought impossible. It effectively neutralizes the scale-out bandwidth constraints of modern data centers, allowing millions of chips to operate as a singular, globally distributed pre-training engine.
Conversely, the TPU 8i is an exercise in latency elimination and economic efficiency. By abandoning the 3D torus in favor of the hierarchical Boardfly topology, tripling on-die SRAM to 384 MB, and introducing the Collectives Acceleration Engine to accelerate auto-regressive synchronization, the TPU 8i systematically dismantles the inference memory wall. It ensures that the massive KV caches required for complex, multi-step agentic reasoning can remain localized and accessible at near-zero latency, all while reducing production costs through a streamlined logic design.
Together, hosted on fully integrated ARM-based Axion CPUs and managed by autonomous optical circuit switching, the bifurcated eighth generation establishes a new paradigm in hyperscale infrastructure. It serves as a definitive architectural statement that the future of artificial intelligence requires not just faster chips, but fundamentally divergent hardware frameworks co-designed precisely for the distinct workloads they are destined to serve.
Sources: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com