معماری عصر عاملیت: تحلیل تطبیقی ​​جامع Google Cloud TPU 7x، TPU 8t و TPU 8i

تکامل هوش مصنوعی از مدل‌های زبانی بزرگ بنیادی به سیستم‌های عاملی پیچیده و چند مرحله‌ای، تغییر الگوی اساسی در طراحی نیمه‌هادی‌ها را ایجاد کرده است. برای نزدیک به یک دهه، منطق غالب در معماری شتاب‌دهنده هوش مصنوعی، منطق یکپارچه‌سازی بود. طراحان سیلیکون تلاش کردند تا معماری‌های یکپارچه و منحصر به فردی را طراحی کنند که قادر به اجرای همزمان حجم کار عظیم و سنگین پیش‌آموزش مدل در کنار تقاضاهای حساس به تأخیر استنتاج تولید باشند [ذکر: 1، 2]. این رویکرد یکپارچه از زمان آغاز اولین شتاب‌دهنده‌های سخت‌افزاری تا استقرار نسل هفتم واحد پردازش تنسور ابری گوگل (TPU)، [ذکر: 2، 3، 4] بر صنعت حاکم بود.

با این حال، با تبدیل مدل‌های مرزی به تریلیون‌ها پارامتر و معماری‌های استدلال بلادرنگ - مانند Mixture-of-Experts (MoE) و حلقه‌های بازخورد عامل پیوسته - به استاندارد تبدیل می‌شوند، الزامات سخت‌افزاری برای آموزش و خدمت‌رسانی به طور برگشت‌ناپذیری از هم جدا شده‌اند [ذکر: 5، 6، 7]. پیش‌آموزش به یک مسئله بهینه‌سازی پهنای باند و توان عملیاتی تبدیل شده است که نیاز به قابلیت‌های افزایش مقیاس سرسام‌آور، پهنای باند دوبخشی اتصال داخلی عظیم و اشباع ریاضی ماتریس پیوسته دارد [ذکر: 6]. در مقابل، خدمت‌رسانی عامل به عنوان یک مسئله تأخیر و حافظه محدود ظهور کرده است که با سرعتی که وزن‌ها و حافظه‌های نهان کلید-مقدار (KV) می‌توانند بدون ایجاد گلوگاه در عملیات همگام‌سازی سراسری به هسته‌های پردازشی منتقل شوند، محدود می‌شود [ذکر: 6، 8].

گوگل با درک این موضوع که تحمیل هر دو حجم کاری به سیلیکون یکسان منجر به ناکارآمدی سیستمی و کاهش بازده اقتصادی می‌شود، تصمیم معماری بی‌سابقه‌ای را برای تقسیم‌بندی نسل هشتم TPU خود به دو بخش گرفت [ذکر: 1، 6، 9]. نتیجه، دو تراشه متمایز و بسیار تخصصی است که تا سطح زنجیره تأمین مهندسی شده‌اند: TPU 8t، که برای توان عملیاتی آموزش عظیم در مقیاس ابررایانه طراحی شده است، و TPU 8i، که برای شکستن دیوار حافظه استنتاج و به حداقل رساندن تأخیر جمعی برای استدلال جهانی طراحی شده است [ذکر: 7، 9].

این گزارش تحقیقاتی جامع، تفاوت‌های معماری، عملکرد و مقیاس‌بندی بین مبنای یکپارچه TPU 7x و TPU 8t و TPU 8i که به تازگی دوشاخه شده‌اند را تجزیه و تحلیل می‌کند. این تحلیل از طریق بررسی جامع طراحی منطقی، سلسله مراتب حافظه چند لایه، توپولوژی‌های اتصال داخلی مراکز داده، سوئیچینگ مدار نوری و طراحی مشترک سخت‌افزار-نرم‌افزار، توضیح می‌دهد که چگونه سیلیکون تخصصی برای حفظ مقیاس‌بندی اقتصادی و محاسباتی نسل بعدی هوش مصنوعی مورد نیاز است.

زمینه تاریخی: مسیر به سوی تخصص‌گرایی

برای درک کامل تغییرات معماری در نسل هشتم، ردیابی تکامل تکراری خانواده TPU ضروری است. توسعه سخت‌افزار گوگل به طور مداوم منعکس کننده تنگناهای رایج مدل‌های یادگیری ماشین معاصر بوده است و از شتاب استنتاج ساده به پارچه‌های آموزشی عظیم در مقیاس خوشه‌ای حرکت می‌کند [منبع: 10، 11].

از استنتاج تا آرایه‌های ماتریسی عظیم

گوگل TPU نسخه ۱ را در سال ۲۰۱۵ به عنوان یک شتاب‌دهنده صرفاً استنتاجی معرفی کرد که برای مدیریت بار محاسباتی رو به رشد سرویس‌های داخلی مانند جستجو، ترجمه و توصیه‌های یوتیوب طراحی شده بود [ذکر: ۱۱، ۱۲]. نسخه ۱ از ریاضیات عدد صحیح ۸ بیتی برای دستیابی به بهبودهای مرتبه بزرگی در عملیات به ازای هر وات در مقایسه با واحدهای پردازش مرکزی (CPU) همه منظوره و واحدهای پردازش گرافیکی (GPU) استفاده می‌کرد [ذکر: ۱۰، ۱۱]. تا سال ۲۰۱۷، TPU نسخه ۲ با معرفی فرمت bfloat16 (BF16) - یک فرمت ممیز شناور ۱۶ بیتی که محدوده دینامیکی اعداد شناور ۳۲ بیتی را حفظ می‌کرد و در عین حال مصرف حافظه را به نصف کاهش می‌داد - گذار به قابلیت‌های آموزشی را رقم زد [ذکر: ۱۰].

نسل‌های v3 تا v5 موتور محاسباتی اصلی - واحد ضرب ماتریس (MXU) - را بهینه کردند. برای چندین نسل، MXU یک آرایه سیستولیک 128x128 باقی ماند که قادر به انجام 16384 عملیات ضرب-انباشت به طور همزمان بود [استناد: 4، 10]. TPU نسخه 4 "SparseCore" را معرفی کرد، یک بلوک سخت‌افزاری اختصاصی که به طور خاص برای تسریع جستجوهای جاسازی و دسترسی‌های نامنظم به حافظه طراحی شده است و در نتیجه از توقف MXU در طول آموزش مدل توصیه جلوگیری می‌کند [استناد: 4، 6].

تکامل توپوگرافی و تریلیوم (نسخه 6e)

با افزایش اندازه مدل‌ها، توپولوژی‌های اتصال داخلی مورد نیاز برای همگام‌سازی گرادیان‌ها در هزاران تراشه تکامل یافتند. گوگل یک توپولوژی چنبره دوبعدی را برای پادهای کوچک‌تر و مقرون‌به‌صرفه (مانند v5e و v6e) به کار گرفت که مقیاس‌بندی تا 256 تراشه را ساده می‌کرد [استناد: 4، 10]. برای انواع بهینه‌سازی‌شده از نظر عملکرد (مانند v4 و v5p)، گوگل از یک توپولوژی چنبره سه‌بعدی استفاده کرد که تراشه‌ها را در یک شبکه سه‌بعدی به هم متصل می‌کرد تا تأخیر ارتباطی را در پادهای بزرگ‌تر با اندازه‌های مختلف از 4096 تا 8960 تراشه کاهش دهد [استناد: 4].

پیشگام بلافصل دوران مدرن، TPU v6e (Trillium) بود که در اواخر سال 2024 منتشر شد. Trillium با گسترش MXU از آرایه 128x128 به آرایه 256x256، جهش معماری عظیمی را نشان داد [ذکر: 10]. این امر عملیات ضرب-انباشت در هر چرخه را چهار برابر کرد. Trillium در ترکیب با پهنای باند دو برابر شده اتصال بین تراشه‌ای (ICI) به میزان 3200 گیگابیت بر ثانیه (13 ترابایت بر ثانیه دو طرفه) و 32 گیگابایت حافظه با پهنای باند بالا (HBM) در هر تراشه، 4.7 برابر اوج محاسبات نسل قبلی خود را ارائه داد و در عین حال با 67٪ راندمان انرژی بیشتر کار کرد [ذکر: 10، 11].

نسل TPU سال انتشار نوآوری اولیه توپولوژی و حداکثر اندازه پاد معماری MXU اوج محاسبات به ازای هر تراشه
تی پی یو نسخه ۲ ۲۰۱۷ اولین آموزش پذیر (BF16) توروس دوبعدی (۵۱۲ تراشه) ۱۲۸x۱۲۸ حدود ۴۵ ترافلاپ
تی پی یو نسخه ۴ ۲۰۲۱ معرفی SparseCore توروس سه‌بعدی (۴۰۹۶ تراشه) ۱۲۸x۱۲۸ ۲۷۵ ترافلاپ
تی پی یو نسخه ۵ ای ۲۰۲۳ بهره‌وری بهینه از نظر هزینه توروس دوبعدی (۲۵۶ تراشه) ۱۲۸x۱۲۸ ۱۹۷ ترافلاپ
تی پی یو نسخه ۵ پی ۲۰۲۳ افزایش مقیاس عملکرد توروس سه‌بعدی (۸۹۶۰ تراشه) ۱۲۸x۱۲۸ ۴۵۹ ترافلاپ
TPU نسخه 6e (تریلیوم) ۲۰۲۴ توسعه MXU با ابعاد ۲۵۶x۲۵۶ توروس دوبعدی (۲۵۶ تراشه) ۲۵۶x۲۵۶ ۹۱۸ ترافلاپ

اوج معماری یکپارچه: TPU 7x

نسل هفتم TPU 7x که در اواخر سال 2025 به طور عمومی عرضه شد، اوج استراتژی معماری یکپارچه گوگل را نشان می‌دهد. TPU 7x که برای اجرای پیش‌آموزش در مقیاس مرزی و استنتاج سنگین رمزگشایی در یک چارچوب معماری واحد طراحی شده است، محدودیت‌های آنچه یک شتاب‌دهنده دو منظوره می‌توانست به آن دست یابد را کنار زد [منبع: 3، 10].

طراحی دو چیپلت و بهینه‌سازی آلفاچیپ

ساختار فیزیکی TPU 7x تغییر چشمگیری را نسبت به معماری تک هسته منطقی (MegaCore) موجود در v4 و v5p نشان داد [cite: 3]. TPU 7x از معماری دو چیپلتی استفاده می‌کند. هر تراشه کامل TPU 7x شامل دو چیپلت مجزا و مستقل است که توسط یک رابط اختصاصی و پرسرعت Die-to-Die (D2D) به هم متصل شده‌اند [cite: 3]. این اتصال D2D با شش برابر سرعت یک لینک استاندارد ICI یک بعدی عمل می‌کند و به چیپلت‌ها اجازه می‌دهد تا ضمن حفظ فضاهای حافظه اختصاصی خود، به سرعت با هم ارتباط برقرار کنند [cite: 3].

در سراسر تراشه یکپارچه کامل، TPU 7x دو TensorCore و چهار SparseCore را در خود جای داده است [cite: 3]. طرح فیزیکی این هسته‌ها روی ماتریس سیلیکونی با استفاده از AlphaChip، ابزار یادگیری تقویتی اختصاصی گوگل، بهینه شده است تا طول سیم به حداقل برسد و راندمان حرارتی به حداکثر برسد [cite: 10]. یک پیکربندی استاندارد ماشین مجازی (VM) برای TPU 7x، چهار تراشه را به یک میزبان CPU متصل می‌کند و 224 vCPU و 960 گیگابایت رم را در معرض نمایش قرار می‌دهد [cite: 3].

سلسله مراتب حافظه چند لایه و قالب بندی دقیق

یک گلوگاه حیاتی در پردازش مدل‌های متراکم و MoE، جابجایی مداوم داده‌ها بین لایه‌های ذخیره‌سازی است. TPU 7x دارای یک سیستم حافظه چند لایه قوی است که برای اشباع نگه داشتن MXU های توسعه‌یافته طراحی شده است: * حافظه با پهنای باند بالا (HBM3E): هر تراشه TPU 7x به 192 گیگابایت HBM مجهز شده است که پهنای باند حافظه عظیمی معادل 7.37 ترابایت بر ثانیه (7380 گیگابایت بر ثانیه) را فراهم می‌کند [ذکر: 3، 10]. این افزایش ظرفیت شش برابری نسبت به Trillium امکان استفاده از دسته‌های بسیار بزرگتر را در طول آموزش فراهم می‌کند و امکان نگهداری حافظه‌های نهان KV بزرگتر را در طول استنتاج بر روی تراشه فراهم می‌کند و از افزایش‌های پرهزینه تأخیر مرتبط با انتقال به حافظه میزبان کندتر جلوگیری می‌کند [ذکر: 4، 10، 13]. * حافظه برداری (VMEM): هر TensorCore که به عنوان یک دفترچه یادداشت SRAM فوق سریع بر روی تراشه عمل می‌کند، دارای 64 مگابایت VMEM (در مجموع 128 مگابایت در هر تراشه) است. VMEM پهنای باند بسیار بالاتری را نسبت به HBM به MXU ارائه می‌دهد [منبع: ۳، ۱۴]. از طریق تنظیم VMEM با دامنه‌ی مشخص، توسعه‌دهندگان می‌توانند حافظه را بین دامنه‌ی محاسباتی فعلی و پیش‌واکشی وزن در آینده مجدداً تخصیص دهند، که امکان استفاده از اندازه‌های بزرگتر کاشی هسته (مانند آنهایی که در توجه فلش استفاده می‌شوند) را فراهم می‌کند و توقف‌های حافظه را کاهش می‌دهد [منبع: ۱۳، ۱۴]. * حافظه میزبان (PCIe): از طریق یک شبکه‌ی PCIe متصل می‌شود و از حافظه میزبان سیستم برای تخلیه‌ی حالت‌ها و فعال‌سازی‌های بهینه‌ساز استفاده می‌شود و فشار حافظه را برای مدل‌هایی که از ظرفیت HBM فراتر می‌روند، مدیریت می‌کند [منبع: ۳، ۱۴].

علاوه بر این، TPU 7x شتاب سخت‌افزاری بومی را برای دقت ممیز شناور ۸ بیتی (FP8) معرفی کرد [cite: 4، 13]. با مهاجرت از فرمت‌های استاندارد ۱۶ بیتی (BF16 یا FP16)، نمایش FP8 به طور مؤثر حداکثر توان محاسباتی را دو برابر می‌کند و در عین حال فضای حافظه مورد نیاز برای ذخیره وزن‌ها و فعال‌سازی‌ها را نصف می‌کند [cite: 4، 13]. یک تراشه TPU 7x که به صورت بومی در FP8 کار می‌کند، حداکثر توان محاسباتی ۴۶۱۴ ترافلاپ را ارائه می‌دهد، در مقایسه با ۲۳۰۷ ترافلاپ هنگام کار در BF16 [cite: 3، 4].

توپولوژی سه بعدی Torus و مقیاس Superpod

در سطح مرکز داده، TPU 7x به توپولوژی اتصال داخلی سه بعدی اثبات شده گوگل متکی است [cite: 3]. این معماری هر تراشه را مستقیماً به نزدیکترین همسایگانش در محورهای X، Y و Z متصل می‌کند و در نتیجه یک شبکه سه بعدی انعطاف‌پذیر ایجاد می‌کند [cite: 3]. ارتباط درون این شبکه توسط پهنای باند ICI 1.2 ترابایت بر ثانیه (1200 گیگابایت بر ثانیه) در هر تراشه تسهیل می‌شود و ارتباط دو طرفه را با سرعت 200 گیگابایت بر ثانیه در هر محور فراهم می‌کند [cite: 3].

یک سوپرپاد TPU 7x کاملاً تحقق یافته، به 9216 تراشه خنک شونده با مایع تبدیل می‌شود. در این پیکربندی، این پاد در مجموع 42.5 اگزافلاپس قدرت محاسباتی FP8 ارائه می‌دهد [منبع: 8، 10]. برش‌های بزرگتر از 64 تراشه با استفاده از "مکعب‌های" ماژولار 4x4x4 از تراشه‌ها ساخته می‌شوند که امکان توپولوژی‌های بسیار انعطاف‌پذیر از پیکربندی‌های تک میزبان تا محیط‌های چند میزبان عظیم را فراهم می‌کند [منبع: 3].

با وجود قابلیت‌های فوق‌العاده‌اش، ماهیت یکپارچه TPU 7x به این معنی بود که دارای سازش‌های ذاتی است. در حالی که توپولوژی توروس سه‌بعدی برای هماهنگ‌سازی گرادیان محلی و قابل پیش‌بینی مورد نیاز در پیش‌آموزش بسیار کارآمد است، منجر به قطر شبکه بالایی می‌شود. به عنوان مثال، یک غلاف 1024 تراشه‌ای روی یک توروس سه‌بعدی دارای حداکثر قطر شبکه 16 هاپ است [ذکر: 15، 16]. در یک سناریوی استنتاج MoE، که در آن توکن‌ها باید به سرعت به لایه‌های متخصص واقع در هر نقطه از غلاف هدایت شوند، این فاصله 16 هاپ، تأخیرهای دم غیرقابل قبولی را ایجاد می‌کند [ذکر: 6، 15، 16]. علاوه بر این، اختصاص دادن فضای سیلیکونی ارزشمند به SparseCores - که در جاسازی جستجوها برتری دارند - از فضایی که می‌توانست برای موتورهای کاهش جمعی که برای گردش‌های کاری زنجیره فکری عاملی حیاتی هستند، استفاده شود، کاست [ذکر: 6، 15]. این صنعت به محدودیت‌های فیزیکی شتاب‌دهنده "یک اندازه برای همه" رسیده بود.

دوگانگی استراتژیک: محرک‌های اقتصادی و معماری

گذار از نسل هفتم به هشتم TPUها، مهم‌ترین چرخش معماری در تاریخ سیلیکون گوگل را نشان می‌دهد [نقل قول: 9]. تقسیم خط تولید TPU به دو خانواده محصول مجزا - TPU 8t برای آموزش و TPU 8i برای استنتاج - که در Google Cloud Next 2026 اعلام شد، اذعان می‌کند که حجم کاری که دهه بعدی هوش مصنوعی را هدایت می‌کند، اساساً در سطح سخت‌افزاری غیرقابل تطبیق هستند [نقل قول: 1، 2، 17].

منشأ این شکاف در اقتصادهای واگرا و شدت‌های عملیاتی توسعه هوش مصنوعی نهفته است. آموزش یک مدل مرزی، یک هزینه عملیاتی بسیار سرمایه‌بر و یک‌باره است که با محاسبات مداوم در طول هفته‌ها یا ماه‌ها اندازه‌گیری می‌شود [نقل قول: 9]. این مدل نیازمند حداکثر تراکم محاسباتی، پهنای باند اتصال بی‌سابقه در مقیاس بالا و دامنه‌های حافظه یکپارچه چند پتابایتی است که قادر به دریافت مجموعه داده‌های چندوجهی با نرخ خطی باشند [نقل قول: 9].

برعکس، استنتاج یک هزینه عملیاتی مداوم است که به صورت خطی - یا نمایی - با تقاضای کاربر مقیاس‌بندی می‌شود [ذکر: 9]. در «عصر عامل» نوظهور، یک مدل هوش مصنوعی صرفاً نشانه بعدی را برای تولید یک بلوک متن پیش‌بینی نمی‌کند؛ بلکه به طور فعال استدلال می‌کند، سناریوهای آینده را شبیه‌سازی می‌کند، از طریق «تخیل» تکرار می‌کند، APIهای خارجی را فراخوانی می‌کند و با انبوهی از عامل‌های تخصصی دیگر در حلقه‌های بازخورد مداوم تعامل می‌کند [ذکر: 5، 7، 15]. این پویایی به حجم عظیمی از حافظه برای ذخیره پنجره‌های زمینه فعال و تأخیر شبکه بسیار کم برای مسیریابی تخصصی و همگام‌سازی جهانی نیاز دارد [ذکر: 15، 16].

گوگل با تقسیم خط تولید، سخت‌افزار را در اعماق زنجیره تأمین بهینه کرد. TPU 8t با همکاری Broadcom طراحی شد، همکاری‌ای که به سال ۲۰۱۵ برمی‌گردد [ذکر: ۹، ۱۷، ۱۸]. تخصص Broadcom در اتصالات پیچیده و پرسرعت SerDes، بسته‌بندی پیشرفته و شبکه‌های گسترده، آنها را به شریک ایده‌آلی برای کنار زدن محدودیت‌های فیزیکی پارچه آموزشی تبدیل کرد [ذکر: ۱۷، ۱۹].

برای تراشه استنتاج، گوگل سنت‌شکنی کرد و با مدیاتک برای طراحی TPU 8i همکاری کرد [cite: 9، 17، 18]. گوگل با بهره‌گیری از تخصص عمیق مدیاتک در طراحی SoC موبایل با مصرف انرژی کارآمد و حجم بالا، یک شتاب‌دهنده استنتاج بسیار بهینه‌شده ایجاد کرد [cite: 17، 19]. TPU 8i از طراحی ساده‌تری (یک تراشه محاسباتی در مقابل دو تراشه 8t) استفاده می‌کند که طبق گزارش‌ها، تولید آن 20 تا 30 درصد ارزان‌تر از انواع سنتی با کارایی بالا است و به گوگل اجازه می‌دهد تا ظرفیت سرویس‌دهی جهانی خود را از نظر اقتصادی برای برآورده کردن نیازهای برنامه‌های کاربردی سازمانی و مصرفی افزایش دهد [cite: 9، 17]. هر دو تراشه بر روی گره پردازش پیشرفته 2 نانومتری TSMC ساخته شده‌اند و از بسته‌بندی پیشرفته CoWoS پیشرفته برای ادغام تراشه‌های منطقی با پشته‌های HBM بلند استفاده می‌کنند [cite: 9، 19].

اعتبارسنجی بازار برای این استراتژی دوگانه بلافاصله انجام شد. آنتروپیک، یک سازمان تحقیقاتی پیشرو در زمینه هوش مصنوعی، قرارداد چند میلیارد دلاری خود با گوگل کلود را گسترش داد و متعهد شد تا سال 2027، 3.5 گیگاوات ظرفیت محاسباتی را به این شرکت اختصاص دهد و به عنوان مشتری اصلی برای هر دو پلتفرم TPU 7x و نسل هشتم عمل کند [منبع: 9، 10، 20].

بررسی عمیق: TPU 8t (نیروی پیش از تمرین)

TPU 8t یک دستاورد مهندسی بی‌نظیر است که با هدف کاهش چرخه توسعه مدل‌های مرزی تریلیون پارامتری از ماه‌ها به هفته‌ها [منبع: ۵، ۲۱] ساخته شده است. این دستاورد نه تنها با افزایش سرعت کلاک خام، بلکه با بازسازی دقت عملیات ریاضی، گسترش گسترده پهنای باند بین تراشه‌ها و کاهش گلوگاه‌های فلج‌کننده مصرف داده‌ها که خوشه‌های آموزشی عظیم را آزار می‌دهند، محقق می‌شود [منبع: ۶، ۱۵].

معماری محاسباتی Dual-Die و FP4 بومی

از نظر فیزیکی، TPU 8t از معماری بسیار پیچیده‌ای شامل دو تراشه محاسباتی و یک چیپلت ورودی/خروجی استفاده می‌کند که توسط هشت پشته حافظه HBM3E با ظرفیت ۱۲ گیگابایت احاطه شده است [نقل قول: ۹]. این بسته‌بندی متراکم نیاز به مدیریت حرارتی پیشرفته دارد و برای دفع گرمای عظیم تولید شده توسط عملیات ماتریسی پایدار، به خنک‌کننده مایع نسل چهارم گوگل متکی است [نقل قول: ۷، ۱۷، ۲۲].

یک تکامل اساسی در TPU 8t، معرفی دقت ممیز شناور ۴ بیتی (FP4) بومی است [ذکر: ۶، ۱۵]. الزامات ریاضی پیش‌آموزش، به شدت بر توان عملیاتی نسبت به دقت عددی بسیار بالا تأکید دارد. با کاهش اجرای بومی از FP8 به FP4، TPU 8t به طور مؤثر توان عملیاتی MXU را دو برابر می‌کند و همزمان تعداد بیت‌هایی را که باید به صورت فیزیکی در هر پارامتر از طریق تراشه جابجا شوند، نصف می‌کند [ذکر: ۶، ۱۵]. این کاهش شدید در جابجایی داده‌ها، واکشی‌های حافظه پرانرژی را به حداقل می‌رساند و به لایه‌های مدل بزرگتر اجازه می‌دهد تا به راحتی در بافرهای سخت‌افزاری محلی قرار گیرند [ذکر: ۶، ۱۵].

برای اطمینان از اشباع تراشه، TPU 8t مقیاس‌بندی واحد پردازش برداری (VPU) متعادل‌تری را پیاده‌سازی می‌کند. این امر به سیلیکون اجازه می‌دهد تا وظایف ترتیبی ضروری - مانند کوانتیزاسیون، سافت‌مکس و لایه‌هنجارها - را با ضرب‌های ماتریسی سنگین که در MXU رخ می‌دهند، همپوشانی کند و عملاً زمان غیرماتریسیِ در معرض خطر را که در آن هسته‌های محاسباتی در غیر این صورت بیکار می‌مانند، از بین ببرد [نقل قول: 6، 15]. در نتیجه این بهینه‌سازی‌های معماری، یک تراشه TPU 8t به تنهایی 12.6 پتافلاپ قدرت محاسباتی FP4 ارائه می‌دهد [نقل قول: 15، 23].

علاوه بر این، برخلاف خواهر و برادر متمرکز بر استنتاج خود، TPU 8t بلوک‌های تخصصی SparseCore معرفی شده در نسل‌های قبلی را حفظ می‌کند [cite: 1، 6، 15]. حجم‌های کاری سنگین جاسازی - که در مدل‌های بنیادی چندوجهی و سیستم‌های توصیه رایج است - الگوهای دسترسی به حافظه نامنظمی را نشان می‌دهند که GPUهای سنتی را فلج می‌کند. SparseCore به صورت ناهمزمان عمل می‌کند و عملیات جمع‌آوری و جستجوی جاسازی وابسته به داده را تخلیه می‌کند [cite: 6، 15]. با جداسازی ریاضیات ماتریس متراکم به MXU و عملیات پراکنده به SparseCore، TPU 8t از گلوگاه‌های "zero-op" که باعث توقف محاسباتی می‌شوند جلوگیری می‌کند [cite: 6، 15].

پهنای باند، مصرف فضای ذخیره‌سازی و TPUDirect

برای تغذیه MXU های بسیار شتاب یافته که در FP4 کار می‌کنند، TPU 8t به پهنای باند محلی و تجمعی بسیار بالایی نیاز دارد. هر تراشه دارای 216 گیگابایت HBM3e است که با سرعت 6528 گیگابایت بر ثانیه کار می‌کند [منبع: 15، 24]. با این حال، در مقیاس مدل‌های مرزی، محدودیت سیستم اغلب از سرعت پردازش سیلیکون به سرعتی که مرکز داده می‌تواند پتابایت‌ها داده آموزشی را از ذخیره‌سازی سرد دریافت کند، تغییر می‌کند.

برای دور زدن گلوگاه مسیر داده سنتی، گوگل TPUDirect RDMA و TPUDirect Storage را ادغام کرد [cite: 5، 6، 10]. این پروتکل‌ها امکان دسترسی مستقیم به حافظه (DMA) را بین حافظه با پهنای باند بالای TPU و آرایه‌های ذخیره‌سازی شبکه مدیریت‌شده، مانند Google Cloud Managed Lustre 10T، فراهم می‌کنند [cite: 6، 15]. با مسیریابی مستقیم داده‌ها از سیستم فایل موازی Lustre به TPU از طریق کارت رابط شبکه (NIC)، TPUDirect به طور کامل CPU میزبان و DRAM میزبان را دور می‌زند [cite: 6]. این مسیر داده تخصصی به طور مؤثر شتاب 10 برابری در سرعت دسترسی به ذخیره‌سازی را در مقایسه با آموزش روی نسل 7x TPU ارائه می‌دهد و تضمین می‌کند که واحدهای محاسباتی TPU 8t می‌توانند مجموعه داده‌های چندوجهی را با نرخ خط و بدون گرسنگی دریافت کنند [cite: 5، 6، 15].

زیرساخت در مقیاس بزرگ: شبکه ویرگو

شگفت‌انگیزترین شاهکار معماری اکوسیستم TPU 8t، قابلیت شبکه‌سازی آن است که محدودیت سیستم را از محاسبات محلی به پهنای باند در مقیاس مرکز داده تغییر می‌دهد [منبع: 25، 26].

در حالی که TPU 8t اتصال داخلی توروس سه‌بعدی بنیادی را برای ارتباط محلی پاد حفظ کرده است - که تا ۹۶۰۰ تراشه و ۲ پتابایت حافظه HBM مشترک بی‌سابقه را در یک ابرپاد واحد افزایش می‌دهد - ساختار مقیاس‌پذیر آن کاملاً بازطراحی شده است [نقل قول: ۵، ۶، ۱۵]. این ابرپاد به مجموع ۱۲۱ اگزافلاپس محاسبات FP4 دست می‌یابد که نشان‌دهنده افزایش ۲.۸ برابری نسبت به ۴۲.۵ اگزافلاپس TPU 7x است [نقل قول: ۶]. برای پشتیبانی از این امر، پهنای باند ICI درون پاد به ۱۹.۲ ترابیت بر ثانیه در هر تراشه دو برابر شده است [نقل قول: ۴، ۶، ۱۰].

با این حال، گوگل برای اتصال صدها عدد از این ابرپادها، شبکه Virgo را ساخت [منبع: 1، 6]. شبکه قبلی، Jupiter، از توپولوژی سه لایه Clos استفاده می‌کرد که ترافیک را از طریق چندین ردیف سوئیچ هدایت می‌کرد و باعث ایجاد گلوگاه‌های تأخیر و پهنای باند می‌شد (حداکثر 100 گیگابیت بر ثانیه در هر تراشه) [منبع: 25].

Virgo یک شبکه‌ی مقیاس‌پذیر است که بر روی سوئیچ‌های با شعاع بالا (با مدیریت ۲۵۶ تا ۵۱۲ پورت) ساخته شده و از یک توپولوژی مسطح، دو لایه و بدون انسداد استفاده می‌کند [نقل قول: ۶، ۱۵، ۲۵]. Virgo با حذف فیزیکی لایه‌های شبکه، تأخیر را به شدت کاهش می‌دهد. این شبکه از یک طراحی چند سطحی با دامنه‌های کنترل مستقل استفاده می‌کند و تا ۴۰۰٪ (۴ برابر) افزایش در پهنای باند خام شبکه مرکز داده (DCN) را ارائه می‌دهد و به ۴۰۰ گیگابیت بر ثانیه در هر تراشه می‌رسد [نقل قول: ۶، ۱۵، ۲۴].

یک شبکه‌ی Virgo می‌تواند بیش از ۱۳۴۰۰۰ تراشه‌ی TPU 8t را در یک مرکز داده‌ی واحد به هم متصل کند و پهنای باند دوبخشی غیرقابل انسداد ۴۷ پتابیت در ثانیه را ارائه دهد [نقل قول: ۱، ۶، ۱۵]. علاوه بر این، TPU 8t که با نرم‌افزار Pathways گوگل و چارچوب JAX ادغام شده است، به خوشه‌های آموزشی توزیع‌شده اجازه می‌دهد تا به عنوان یک کار آموزشی منطقی واحد، بیش از یک میلیون تراشه را در چندین مکان جغرافیایی گسترش دهند [نقل قول: ۱، ۶، ۱۵]. این دستاورد، زیرساخت توزیع‌شده‌ی جهانی را به یک ابررایانه‌ی یکپارچه و واحد تبدیل می‌کند و به طور چشمگیری از محدودیت‌های مقیاس‌پذیری فعلی GPUهای همه‌کاره پیشی می‌گیرد [نقل قول: ۲۷].

پیکربندی مجدد خودکار و ۹۷٪ بازدهی خوب

در مقیاس صدها هزار تراشه، خرابی‌های سخت‌افزاری - از فرستنده-گیرنده‌های متورم گرفته تا گلوگاه حرارتی - قطعیت‌های آماری هستند و نه موارد حاشیه‌ای. در سیستم‌های قدیمی، یک وقفه در شبکه می‌تواند یک اجرای آموزشی عظیم را متوقف کند و نیاز به یک بازگشت پر زحمت و پرهزینه به یک نقطه بازرسی قبلی داشته باشد. در مقیاس مرزی، هر درصد از کارایی از دست رفته به معنای روزهای آموزش فعال است [نقل قول: 5، 6].

اکوسیستم TPU 8t بیش از 97٪ "goodput" را هدف قرار می‌دهد - معیاری که نسبت زمان محاسبات مفید و مولد را به کل زمان روشن بودن تعریف می‌کند [cite: 6، 28]. این امر از طریق قابلیت‌های پیشرفته قابلیت اطمینان، در دسترس بودن و سرویس‌پذیری (RAS) که توسط سوئیچینگ مدار نوری (OCS) [cite: 5، 6، 25] پشتیبانی می‌شوند، حاصل می‌شود. این سیستم از طریق تله‌متری بلادرنگ که ده‌ها هزار تراشه را تجزیه و تحلیل می‌کند، می‌تواند به طور خودکار پیوندهای اتصال بین تراشه‌ای معیوب را تشخیص دهد. OCS به صورت فیزیکی مسیرهای نور نوری را تغییر مسیر می‌دهد تا از خرابی‌های سخت‌افزاری در بلادرنگ جلوگیری کند، بدون نیاز به دخالت انسان و مهمتر از همه، بدون وقفه در کار آموزش فعال [cite: 5، 6، 28].

بررسی عمیق: TPU 8i (موتور استدلال)

اگر TPU 8t تمرینی در مقیاس‌بندی شدید و brute-force باشد، TPU 8i یک شاهکار در بهینه‌سازی تأخیر و معماری حافظه است [نقل قول: 6]. با تغییر مدل‌ها به تولید در زمان واقعی، به ویژه مدل‌های عظیم Mixture-of-Experts (MoE) و swarms agentic، توان محاسباتی خام نسبت به سرعت دسترسی به حافظه و مسیریابی در سراسر شبکه، اهمیت کمتری پیدا می‌کند [نقل قول: 21، 29].

شکستن دیوار حافظه استنتاج

در تولید خودهمبسته، یک مدل توکن‌های خروجی را به صورت متوالی تولید می‌کند. با هر توکن جدید تولید شده، مدل باید به تاریخچه رو به رشد تمام توکن‌های قبلی و روابط ریاضی آنها، که به عنوان حافظه پنهان کلید-مقدار (KV) شناخته می‌شود، مراجعه کند [ذکر: 1، 13]. برای مدل‌های با زمینه طولانی که صدها هزار توکن را تجزیه و تحلیل می‌کنند، اندازه این حافظه پنهان KV افزایش می‌یابد. اگر حافظه پنهان از ظرفیت حافظه سریع پردازنده تراشه فراتر رود و به حافظه CPU میزبان کندتر سرریز شود، کل فرآیند محاسباتی متوقف می‌شود - پدیده‌ای که به طور گسترده به عنوان "دیوار حافظه" شناخته می‌شود [ذکر: 5، 8].

TPU 8i به طور خاص برای از بین بردن این دیوار ساخته شده است. اگرچه این یک طراحی سیلیکونی ساده‌تر و مقرون به صرفه‌تر است - با استفاده از یک تراشه محاسباتی و یک تراشه ورودی/خروجی با شش پشته HBM3e - ظرفیت حافظه آن به شدت برای خدمت‌رسانی بهینه شده است [ذکر: 9]. * ظرفیت و پهنای باند HBM: هر TPU 8i مجهز به 288 گیگابایت HBM3E است که نشان‌دهنده افزایش ظرفیت 50 درصدی نسبت به TPU 7x است [ذکر: 5، 24، 30]. مهمتر از همه، از آنجا که مدل‌های بزرگ MoE در طول استنتاج به پهنای باند حافظه محدود می‌شوند، پهنای باند حافظه به 8.6 ترابایت بر ثانیه (~8601 گیگابایت بر ثانیه) افزایش می‌یابد - تقریباً 1.3 برابر سریع‌تر از TPU 8t متمرکز بر آموزش [ذکر: 10، 15]. * SRAM عظیم روی تراشه: مهم‌ترین تغییر سخت‌افزاری، گنجاندن ۳۸۴ مگابایت حافظه دسترسی تصادفی استاتیک (SRAM) روی تراشه در هر تراشه است [cite: 10، ۱۵، ۳۰]. این نشان دهنده افزایش عظیم ۳۰۰٪ (۳ برابر) نسبت به TPU 7x و TPU 8t است [cite: 10، ۱۵، ۳۰]. SRAM سریع‌ترین و کم تأخیرترین حافظه موجود در ماتریس سیلیکونی است. با سه برابر کردن این ظرفیت، TPU 8i می‌تواند میزبان حافظه‌های نهان KV عظیم کاملاً روی تراشه باشد [cite: 15، ۱۶]. این امر مانع از بیکار ماندن هسته‌های پردازشی در حین انتظار برای دریافت تاریخچه توکن‌ها از لایه‌های حافظه کندتر می‌شود و امکان عملکرد حلقه‌های استدلال با همزمانی بالا را با روانی بی‌سابقه‌ای فراهم می‌کند [cite: 5، ۱۵].

موتور شتاب‌دهنده‌ی جمعی (CAE)

از آنجا که TPU 8i استنتاج را هدف قرار می‌دهد، واحد SparseCore که در 7x و 8t برای جاسازی جستجوها استفاده می‌شد، استفاده ناکارآمد از فضای سیلیکونی برای این حجم کاری خاص تلقی می‌شد. به جای آن، مهندسان گوگل یک بلوک سخت‌افزاری اختصاصی به نام موتور شتاب‌دهنده جمعی (CAE) معرفی کردند [ذکر شده: 10، 15].

در طول رمزگشایی خودهمبسته و پردازش «زنجیره‌ای از افکار»، هسته‌های مجزا باید مرتباً محاسبات فردی خود را متوقف کنند تا نتایج ریاضی خود را در سراسر تراشه جمع، کاهش و همگام‌سازی کنند [نقل قول: 6، 15]. این عملیات همگام‌سازی سراسری می‌تواند تأخیر را به شدت کاهش دهد، به خصوص زمانی که هزاران عامل مستقل به طور همزمان در حال حل یک مسئله هستند.

برای هر تراشه TPU 8i، دو TensorCore روی هسته‌های اصلی قرار دارند که با یک CAE واقع در تراشه چیپلت (جایگزین چهار SparseCore موجود در TPU 7x) همراه هستند [cite: 6، 15]. CAE تخصصی به گونه‌ای مهندسی شده است که نتایج را در هسته‌ها با تأخیر نزدیک به صفر جمع کند و در نتیجه کاهش فوق‌العاده 5 برابری در تأخیر جمعی روی تراشه در مقایسه با نسل TPU 7x را به همراه داشته باشد [cite: 10، 15]. با شتاب‌دهی سخت‌افزاری مراحل کاهش که بر گردش‌های کاری عامل‌محور غالب هستند، CAE تضمین می‌کند که سیستم بدون از دست دادن پاسخگویی در زمان واقعی، توان عملیاتی بالایی را حفظ کند [cite: 6، 15].

مسطح‌سازی شبکه: توپولوژی بوردفلای

یکی از ویژگی‌های بارز TPU 8i، کنار گذاشتن کامل توپولوژی چنبره سه‌بعدی است. در حالی که چنبره سه‌بعدی برای انتقال داده‌های همسایه به همسایه مورد نیاز در پیش‌آموزش استثنایی است، فواصل فیزیکی غیرقابل قبولی - که با گام‌های شبکه اندازه‌گیری می‌شوند - برای مسیریابی توکن همه به همه مورد نیاز مدل‌های استنتاج MoE ایجاد می‌کند [نقل قول: 2، 15]. در معماری‌های MoE، هر توکن داده شده ممکن است نیاز به مسیریابی به یک لایه "متخصص" خاص واقع در یک تراشه کاملاً متفاوت در داخل غلاف داشته باشد. در یک چنبره سنتی، این بسته داده باید به طور متوالی از طریق تراشه‌های مداخله‌گر عبور کند تا به مقصد خود برسد.

برای حل این مشکل، گوگل یک معماری شبکه جدید بهینه شده برای سرویس‌دهی به نام Boardfly طراحی کرد [cite: 15، 31]. Boardfly که از اصول توپولوژی Dragonfly الهام گرفته شده است، یک شبکه سلسله مراتبی با شعاع بالا است که برای مسطح کردن شدید معماری و به حداقل رساندن فاصله فیزیکی بین هر دو تراشه طراحی شده است [cite: 2، 15، 26].

توپولوژی Boardfly به صورت سلسله مراتبی ساخته می‌شود: ۱. بلوک سازنده: چهار تراشه TPU 8i کاملاً متصل، یک بلوک سازنده بنیادی با لینک‌های ICI داخلی تشکیل می‌دهند [نقل قول: ۶، ۱۶]. ۲. برد: هشت بلوک سازنده از طریق کابل‌کشی مسی مستقیم به طور کامل به هم متصل شده‌اند تا یک برد واحد را تشکیل دهند [نقل قول: ۶، ۱۶]. ۳. غلاف: سپس ۳۶ گروه از طریق سوئیچ‌های مدار نوری و لینک‌های نوری مستقیم با مسافت طولانی به طور کامل به هم متصل می‌شوند تا یک غلاف یکپارچه از ۱۱۵۲ تراشه را تشکیل دهند [نقل قول: ۵، ۶، ۱۶، ۳۲].

مزیت تأخیر این رویکرد بسیار زیاد است. در یک پیکربندی استاندارد چنبره سه‌بعدی با 1024 تراشه، یک بسته داده ممکن است نیاز به طی کردن حداکثر قطر شبکه 16 گام داشته باشد [ذکر: 15، 25]. در توپولوژی Boardfly، این حداکثر قطر شبکه به تنها 7 گام کاهش می‌یابد [ذکر: 15، 25].

این کاهش ۵۶ درصدی در قطر شبکه، به بهبود چشمگیر ۵۰ درصدی در تأخیر انتهایی برای بارهای کاری استنتاج با ارتباطات فشرده منجر می‌شود [نقل قول: ۱۶، ۲۵، ۳۰]. استنتاج در نهایت توسط سرعت کندترین گره خود محدود می‌شود. با کاهش تأخیر انتهایی، توپولوژی Boardfly تضمین می‌کند که CAE هرگز در حالی که منتظر داده‌های توکن برای عبور از غلاف است، بیکار نمی‌ماند [نقل قول: ۶، ۱۵].

علاوه بر این، به دلیل این اتصال نوری بسیار منسجم، یک غلاف TPU 8i با 1152 تراشه به عنوان یک دامنه حافظه مشترک عظیم و یکپارچه با 331.8 ترابایت حافظه HBM منسجم عمل می‌کند [منبع: 16].

عملکرد تطبیقی، اقتصاد و زیرساخت سیستم

این دوگانگی معماری، پیشرفت‌های عمیقی را هم در اقتصاد محاسباتی و هم در بهره‌وری انرژی ارائه می‌دهد. ارزیابی سخت‌افزار صرفاً بر اساس اوج عملیات ممیز شناور نظری، واقعیت‌های سیستمی عملیات مرکز داده و توانمندسازی نرم‌افزار را نادیده می‌گیرد.

انتزاع نرم‌افزار و پشتیبانی از چارچوب

با وجود زیرساخت‌های سخت‌افزاری متفاوت، گوگل سرمایه‌گذاری سنگینی روی حفظ یک پشته نرم‌افزاری هوش مصنوعی یکپارچه و با اولویت عملکرد انجام داده است تا از قفل شدن چارچوب جلوگیری کند. هر دو TPU 8t و 8i پشتیبانی بومی از JAX، Keras، MaxText، SGLang و موتور vLLM ارائه می‌دهند [cite: 5، 8، 14، 17]. علاوه بر این، پشتیبانی بومی از PyTorch (از طریق TorchTPU) به توسعه‌دهندگان این امکان را می‌دهد که مدل‌های PyTorch موجود را مستقیماً به محیط TPU منتقل کنند و از ویژگی‌های بومی مانند Eager Mode به طور کامل پشتیبانی کنند [cite: 15، 17].

در پشت صحنه، کامپایلر جبر خطی شتاب‌یافته (XLA) ترجمه پیچیده توپولوژی Boardfly و همگام‌سازی CAE را مدیریت می‌کند و به توسعه‌دهندگان اجازه می‌دهد هسته‌های سفارشی سخت‌افزارمحور را در پایتون (با استفاده از Pallas و Mosaic) بدون نیاز به برنامه‌ریزی دستی اتصالات نوری بنویسند [نقل قول: 15].

معیارهای عملکرد کمی

جدول زیر مشخصات فنی اصلی معماری‌های یکپارچه TPU 7x و TPUهای بسیار تخصصی 8t و 8i را خلاصه می‌کند [منبع: 3، 15، 24].

ماتریس مشخصات تی پی یو ۷x تی پی یو 8 تی تی پی یو 8i
حجم کار اولیه یکپارچه (آموزش و استنتاج) پیش آموزش در مقیاس بزرگ استنتاج حساس به تأخیر
شریک طراحی ASIC برادکام برادکام مدیاتک
توپولوژی شبکه توروس سه‌بعدی مقیاس‌بندی سه‌بعدی چنبره + سنبله بوردفلای (الهام گرفته از سنجاقک)
سخت‌افزار تخصصی هسته پراکنده هسته پراکنده موتور شتاب جمعی (CAE)
فوکوس دقیق بومی اف پی ۸ اف پی ۴ FP4 (با پشتیبانی از FP8/INT8)
اوج محاسبات به ازای هر تراشه ۴.۶ پتافلاپ (FP8) ۱۲.۶ پتافلاپ (FP4) ۱۰.۱ پتافلاپ (FP4)
ظرفیت HBM به ازای هر تراشه ۱۹۲ گیگابایت ۲۱۶ گیگابایت ۲۸۸ گیگابایت
پهنای باند HBM ۷.۳۷ ترابایت بر ثانیه ۶.۵۲ ترابایت بر ثانیه ۸.۶۰ ترابایت بر ثانیه
SRAM روی تراشه (VMEM) ۱۲۸ مگابایت ۱۲۸ مگابایت ۳۸۴ مگابایت
وزن مخصوص بین تراشه‌ای (افزایش مقیاس) ۹.۶ ترابیت بر ثانیه ۱۹.۲ ترابایت بر ثانیه ۱۹.۲ ترابایت بر ثانیه
حداکثر اندازه پاد/سوپرپاد ۹,۲۱۶ چیپس ۹۶۰۰ چیپس ۱,۱۵۲ چیپس

بهینه‌سازی هزینه-عملکرد و TCO

گوگل مدعی بهبود چشمگیر هزینه کل مالکیت (TCO) در نسل هشتم است. TPU 8t در مقایسه با TPU 7x، 170 تا 180 درصد افزایش - معادل 2.7 تا 2.8 برابر بهبود - در عملکرد به ازای هر دلار برای آموزش در مقیاس بزرگ ارائه می‌دهد. در همین حال، TPU 8i 80 درصد بهبود در عملکرد به ازای هر دلار برای استنتاج، به ویژه در اهداف تأخیر کم مورد نیاز برای مدل‌های عظیم MoE ارائه می‌دهد. [ذکر: 15، 16، 30].

این دستاوردهای اقتصادی نه تنها توسط سیلیکون، بلکه توسط یکپارچه‌سازی سیستمی کامل نیز حاصل می‌شوند. از نظر تاریخی، TPUها با CPUهای میزبان x86 آماده جفت می‌شدند. در شرایطی که شامل پیش‌پردازش شدید داده‌ها یا منطق عاملی پیچیده بود، میزبان x86 اغلب سیستم را دچار گلوگاه می‌کرد و سیلیکون TPU فوق سریع را در حالت آماده به کار اما تشنه داده‌ها رها می‌کرد [نقل قول: 6، 7].

نسل هشتم این عدم تعادل مزمن را با میزبانی انحصاری هر دو 8t و 8i بر روی پردازنده‌های سفارشی گوگل مبتنی بر ARM، Axion، اصلاح می‌کند [cite: 6، 7، 15]. میزبان‌های Axion که بر اساس معماری هسته Neoverse N3 Armv9.2 ساخته شده‌اند، یک پایه یکپارچه و بسیار بهینه ارائه می‌دهند [cite: 18، 19]. برای TPU 8i که به استنتاج سنگین نیاز دارد، گوگل میزبان‌های Axion را با نسبت 2:1 TPU به CPU ادغام کرد و میزبان‌های CPU فیزیکی را در هر سرور در مقایسه با TPU 7x دو برابر کرد [cite: 5، 6، 32]. با استفاده از معماری دقیق دسترسی غیر یکنواخت به حافظه (NUMA) برای جداسازی بار کاری، این سیستم محل حافظه برتر را تضمین می‌کند و تنگنای آماده‌سازی داده‌ها را به طور کامل از بین می‌برد [cite: 5، 7].

Energy Efficiency and Market Implications

Energy density and power availability are rapidly becoming the ultimate binding constraints in modern data center deployment. Through the use of fourth-generation liquid cooling and integrated, real-time power management that dynamically adjusts power draw based on specific workload phases (eg, active computation versus idling for communication), both the TPU 8t and 8i achieve staggering power efficiencies [cite: 7, 15, 22, 24]. The 8t boasts a 124% gain in performance-per-watt, while the 8i yields a 117% gain, resulting in an overall 2x (100%+) improvement in energy efficiency over the TPU 7x [cite: 15, 22, 30].

The implications of this efficiency are evident in Google's own state-of-the-art models. Benchmarks for the Gemini 3.1 Pro preview indicate that deploying the model on the TPU 8i architecture results in a roughly 50% cost reduction for inference APIs, alongside vastly improved responsiveness and long-context handling capabilities [cite: 24, 30].

The Competitive Landscape: Google vs. Merchant Silicon

Google's decision to bifurcate its silicon strategy holds profound implications for the wider artificial intelligence hardware ecosystem, particularly in its ongoing competition with merchant silicon providers like Nvidia and, to a lesser extent, AMD and AWS (with its Trainium3 platform) [cite: 17, 23].

Nvidia has historically maintained a unified architecture strategy, utilizing highly capable but general-purpose platforms like the Blackwell B200 and the Vera Rubin NVL72 to handle both pre-training and real-time inference [cite: 2, 9]. When viewed purely through the lens of raw single-chip specifications, Nvidia maintains certain advantages. For example, Nvidia's NVLink technology supports single-device interconnect bandwidths of 14.4 Tb/s, and individual Rubin GPUs offer roughly 50 PFLOPs of NVFP4 inference compute—significantly higher than the 10.1 PFLOPs of the TPU 8i [cite: 2, 9].

However, Google's architectural bet rests on the conviction that the future of artificial intelligence is determined by cluster-scale efficiency, not single-chip peak capabilities [cite: 9].

By moving to the Boardfly topology, Google creates a fully coherent, shared memory pool across all 1,152 chips within a TPU 8i pod [cite: 16]. This results in an aggregate pod capacity of 11.6 FP8 ExaFlops and 331.8 TB of unified, coherent HBM [cite: 6, 16]. Conversely, standard Nvidia GPU rack-scale coherency on the NVL72 tops out at 72 GPUs and roughly 20.7 TB of HBM [cite: 2, 16]. Scaling general-purpose GPUs to match a 1,152-chip configuration requires bridging across approximately 16 separate racks [cite: 16]. This physical separation shatters true memory coherency and introduces severe latency penalties that are catastrophic for continuous, long-context agentic inference [cite: 16].

Furthermore, by moving optical circuit switching (OCS) lower in the stack to facilitate the Boardfly hierarchy, Google is fundamentally altering the optical networking supply chain, creating massive downstream demand for specialized transceivers and lasers from vendors like Lumentum and Coherent [cite: 26].

Ultimately, Google's design philosophy assumes that the real battleground of the late 2020s will not be determined by peak mathematical throughput on a singular silicon die, but rather by the ability to circumvent the memory wall, rapidly scale cross-site interconnects, and drive down the absolute cost-per-token economics of deploying real-time agent swarms to billions of users [cite: 6, 16, 17].

نتیجه‌گیری

The trajectory of Google Cloud's Tensor Processing Units from the unified framework of the TPU 7x to the highly specialized dichotomy of the TPU 8t and TPU 8i reflects the maturation and industrialization of artificial intelligence workloads. General-purpose, unified silicon—while foundational to the initial deep learning boom—is no longer sufficient to drive the economics or the performance required at the extreme margins of the agentic era.

The TPU 8t represents an uncompromising pursuit of scale. Through the retention of the SparseCore, the implementation of native FP4 precision to double MXU throughput, and the staggering capabilities of the Virgo Network and TPUDirect Storage, it is engineered to ingest and process data at a volume previously thought impossible. It effectively neutralizes the scale-out bandwidth constraints of modern data centers, allowing millions of chips to operate as a singular, globally distributed pre-training engine.

Conversely, the TPU 8i is an exercise in latency elimination and economic efficiency. By abandoning the 3D torus in favor of the hierarchical Boardfly topology, tripling on-die SRAM to 384 MB, and introducing the Collectives Acceleration Engine to accelerate auto-regressive synchronization, the TPU 8i systematically dismantles the inference memory wall. It ensures that the massive KV caches required for complex, multi-step agentic reasoning can remain localized and accessible at near-zero latency, all while reducing production costs through a streamlined logic design.

Together, hosted on fully integrated ARM-based Axion CPUs and managed by autonomous optical circuit switching, the bifurcated eighth generation establishes a new paradigm in hyperscale infrastructure. It serves as a definitive architectural statement that the future of artificial intelligence requires not just faster chips, but fundamentally divergent hardware frameworks co-designed precisely for the distinct workloads they are destined to serve.

Sources: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com