Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

تصميم عصر الأنظمة المستندة إلى الوكلاء: تحليل مقارن شامل بين الإصدارات 7x و8t و8i من وحدات معالجة الموتّرات من Google Cloud

أدّى تطوّر الذكاء الاصطناعي من نماذج لغوية كبيرة أساسية إلى أنظمة وكيل معقّدة ومتعدّدة الخطوات إلى حدوث تحوّل أساسي في تصميم أشباه الموصلات. على مدار عقد من الزمن تقريبًا، كان المنطق السائد في بنية مسرّعات الذكاء الاصطناعي هو التوحيد. سعى مصمّمو شرائح السيليكون إلى تصميم بنى موحّدة ومتكاملة قادرة على تنفيذ مهام سير العمل الضخمة التي تتطلّب سرعة معالجة بيانات مرتفعة في مرحلة التدريب المسبق للنماذج، بالإضافة إلى تلبية متطلبات الاستنتاج في مرحلة الإصدار العلني التي تتطلّب وقت استجابة منخفضًا [cite: 1, 2]. وقد هيمن هذا النهج الموحّد على المجال منذ بداية ظهور أولى مسرّعات الأجهزة وحتى نشر الجيل السابع من وحدة معالجة الموتّرات من Google Cloud‏ (TPU) [cite: 2, 3, 4].

ومع ذلك، مع توسّع النماذج المتقدّمة لتشمل تريليونات المَعلمات، ومع ازدياد أهمية بنى الاستدلال في الوقت الفعلي، مثل "مزيج الخبراء" (MoE) وحلقات الملاحظات المستمرة المستندة إلى الذكاء الاصطناعي الوكيل، تباينت متطلبات الأجهزة اللازمة للتدريب والتشغيل بشكل لا رجعة فيه [cite: 5, 6, 7]. فقد أصبح التدريب المُسبَق مشكلة في تحسين معدل نقل البيانات وسرعة معالجة البيانات، ما يتطلّب إمكانات توسيع نطاق مذهلة، ونطاقًا تردديًا ثنائي الاتجاه هائلاً، وتشبعًا مستمرًا في العمليات الحسابية للمصفوفات [cite: 6]. في المقابل، ظهر التشغيل المستند إلى الذكاء الاصطناعي الوكيل كمشكلة مرتبطة بوقت الاستجابة والذاكرة، ومحدودة بالسرعة التي يمكن بها نقل الأوزان ومخازن مؤقتة لقيم المفاتيح (KV) إلى نوى المعالجة بدون حدوث مؤثِّر سلبي في عمليات المزامنة العامة [cite: 6, 8].

إدراكًا من Google أنّ فرض كلا عبءَي العمل على شرائح سيليكون متطابقة يؤدي إلى أوجه قصور منهجية وعائدات اقتصادية متناقصة، اتّخذت Google قرارًا غير مسبوق بشأن التصميم بتقسيم مجموعة شرائح TPU من الجيل الثامن [cite: 1, 6, 9]. والنتيجة هي شريحتان مختلفتان ومتخصصتان للغاية تم تصميمهما وصولاً إلى مستوى سلسلة الإمداد: شريحة TPU 8t، المصمَّمة لتحقيق سرعة معالجة بيانات تدريبية هائلة على مستوى الحواسيب الفائقة، وشريحة TPU 8i، المصمَّمة لتجاوز حدود ذاكرة الاستنتاج وتقليل وقت الاستجابة الجماعي للاستدلال الشامل [cite: 7, 9].

يحلّل تقرير البحث الشامل هذا الاختلافات في البنية والأداء وقابلية التوسّع بين خط الأساس الموحّد لوحدة TPU 7x ووحدتَي TPU 8t وTPU 8i اللتين تم فصلهما حديثًا. من خلال فحص شامل لتصميم المنطق، والتسلسلات الهرمية للذاكرة المتعددة المستويات، وطرق ربط مراكز البيانات، وتبديل الدوائر الضوئية، والتصميم المشترك للأجهزة والبرامج، يوضّح هذا التحليل كيف أنّ السيليكون المتخصّص مطلوب للحفاظ على التوسع الاقتصادي والحسابي للجيل التالي من الذكاء الاصطناعي.

السياق التاريخي: المسار نحو التخصّص

لتقدير التغييرات المعمارية التي تم إجراؤها في الجيل الثامن بشكل كامل، من الضروري تتبُّع التطور التكراري لعائلة TPU. لقد عكس تطوير الأجهزة من Google باستمرار الاختناقات السائدة في نماذج تعلُّم الآلة المعاصرة، بدءًا من تسريع الاستدلال البسيط إلى أنسجة التدريب الضخمة على مستوى المجموعات [cite: 10, 11].

من الاستدلال إلى مصفوفات المصفوفات الضخمة

طرحت Google الإصدار الأول من وحدة معالجة Tensor‏ (TPU) في عام 2015 كأداة تسريع مخصّصة للاستدلال فقط، ومصمَّمة للتعامل مع عبء الحوسبة المتزايد للخدمات الداخلية، مثل "بحث Google" و"ترجمة Google" واقتراحات YouTube [cite: 11, 12]. استخدم الإصدار الأول من وحدة معالجة Tensor عمليات حسابية للأعداد الصحيحة ذات 8 بت لتحقيق تحسينات كبيرة في العمليات لكل واط مقارنةً بوحدات المعالجة المركزية (CPU) ووحدات معالجة الرسومات (GPU) للأغراض العامة [cite: 10, 11]. بحلول عام 2017، مثّل الإصدار الثاني من وحدة معالجة Tensor مرحلة الانتقال إلى إمكانات التدريب، حيث تم تقديم تنسيق bfloat16 (BF16)، وهو تنسيق فاصلة عائمة 16 بت احتفظ بالنطاق الديناميكي للفاصلة العائمة 32 بت مع خفض استهلاك الذاكرة إلى النصف [cite: 10].

عملت الأجيال من الإصدار 3 إلى الإصدار 5 على تحسين محرّك الحوسبة الأساسي، أي وحدة ضرب المصفوفات (MXU). على مدار عدة أجيال، ظلّت وحدة MXU عبارة عن مصفوفة نبضية بحجم 128×128، قادرة على تنفيذ 16,384 عملية ضرب وتجميع في الوقت نفسه [cite: 4, 10]. قدّمت وحدة المعالجة المركزية الرابعة من نوع TPU ميزة "SparseCore"، وهي وحدة معدّات مخصّصة مصمَّمة خصيصًا لتسريع عمليات البحث عن التضمين وعمليات الوصول غير المنتظمة إلى الذاكرة، وبالتالي منع وحدة MXU من التوقف أثناء تدريب نموذج الاقتراحات [cite: 4, 6].

The Topographical Evolution and Trillium (v6e)

ومع زيادة أحجام النماذج، تطورت أشكال الربط البيني المطلوبة لمزامنة التدرجات على آلاف الشرائح. استخدمت Google بنية طوبولوجيا حلقية ثنائية الأبعاد لوحدات أصغر وأكثر فعالية من حيث التكلفة (مثل v5e وv6e)، ما سهّل توسيع نطاقها إلى 256 شريحة [cite: 4, 10]. بالنسبة إلى المتغيرات المحسَّنة للأداء (مثل v4 وv5p)، استخدمت Google بنية طوبولوجية حلقية ثلاثية الأبعاد، ربطت الشرائح في شبكة ثلاثية الأبعاد لتخفيض وقت استجابة الاتصال في أحجام مجموعات أكبر تتراوح بين 4,096 و8,960 شريحة [cite: 4].

كانت وحدة المعالجة العصبية TPU v6e (Trillium) التي تم طرحها في أواخر عام 2024 هي السلف المباشر للعصر الحديث. مثّلت Trillium نقلة نوعية هائلة في التصميم من خلال توسيع وحدة MXU من مصفوفة 128x128 إلى مصفوفة 256x256 [cite: 10]. وقد أدّى ذلك إلى مضاعفة عمليات الضرب والتجميع في كل دورة أربع مرات. بالإضافة إلى مضاعفة معدل نقل البيانات بين الشرائح (ICI) إلى 3,200 غيغابايت في الثانية (13 تيرابايت في الثانية إجماليًا في الاتجاهين) وذاكرة النطاق الترددي العالي (HBM) بسعة 32 غيغابايت لكل شريحة، قدّمت Trillium 4.7 ضعف قدرة الحوسبة القصوى مقارنةً بسابقتها مع تحقيق كفاءة أكبر في استهلاك الطاقة بنسبة% 67 [cite: 10, 11].

جيل وحدات معالجة الموتّرات	سنة الإصدار	الابتكار الأساسي	الطوبولوجيا والحدّ الأقصى لحجم مجموعة الأجهزة	بنية MXU	الحد الأقصى لقدرة الحوسبة لكل شريحة
TPU v2	2017	أول تدريب متوافق (BF16)	2D Torus (512 chips)	‫128x128	‫~45 TFLOPS
TPU v4	2021	مقدمة حول SparseCore	3D Torus (4,096 chips)	‫128x128	‫275 TFLOPS
TPU v5e	2023	الفعالية المحسَّنة من حيث التكلفة	2D Torus (256 chips)	‫128x128	‫197 TFLOPS
TPU v5p	2023	زيادة الأداء	3D Torus (8,960 chips)	‫128x128	‫459 تيرافلوب
TPU v6e (Trillium)	2024	توسيع نطاق MXU إلى 256x256	2D Torus (256 chips)	‫256x256	‫918 TFLOPS

أوج البنية الموحّدة: TPU 7x

تم طرح الجيل السابع من وحدات معالجة الموتّرات TPU 7x في أواخر عام 2025، وهو متوفر للجمهور العام، ويمثّل قمة استراتيجية البنية الموحّدة من Google. تم تصميم هذا الجيل لتنفيذ كلّ من التدريب المُسبَق على نطاق واسع والاستدلال الثقيل في فك الترميز ضمن إطار عمل معماري واحد، وقد تجاوزت وحدة TPU 7x حدود ما يمكن أن تحقّقه أداة تسريع ثنائية الغرض [cite: 3, 10].

تصميم ثنائي الرقائق وتحسين AlphaChip

يمثّل التصميم المادي لوحدة TPU 7x تحوّلاً جذريًا عن بنية النواة المنطقية الفردية (MegaCore) المتوفّرة في الإصدارين 4 و5p [cite: 3]. تستخدم وحدة TPU 7x بنية ثنائية الرقاقات، إذ تتألف كل رقاقة كاملة من وحدات TPU 7x من رقاقات منفصلة ومستقلة متصلة بواجهة مخصّصة وعالية السرعة بين الرقاقات (D2D) [cite: 3]. يعمل اتصال D2D بستة أضعاف سرعة رابط ICI أحادي الأبعاد العادي، ما يتيح للرقاقات التواصل بسرعة مع الحفاظ على مساحات الذاكرة المخصّصة الخاصة بها [cite: 3].

في الشريحة الموحّدة الكاملة، تحتوي وحدة TPU 7x على نواتَين من TensorCore وأربع من SparseCore [cite: 3]. تم تحسين التصميم الفعلي لهذه النوى على مصفوفة السيليكون باستخدام AlphaChip، وهي أداة تعلُّم معزّز مملوكة لشركة Google، وذلك لتقليل طول الأسلاك وزيادة الكفاءة الحرارية إلى أقصى حد [cite: 10]. يربط إعداد الجهاز الافتراضي (VM) العادي لوحدة TPU 7x أربع شرائح بمضيف وحدة المعالجة المركزية، ما يتيح استخدام 224 وحدة معالجة مركزية افتراضية و960 غيغابايت من ذاكرة الوصول العشوائي [cite: 3].

التسلسل الهرمي للذاكرة المتعددة المستويات والتنسيق الدقيق

تتمثّل إحدى المشاكل الكبيرة في معالجة النماذج الكثيفة ونماذج "الخبراء في المجال" في النقل المستمر للبيانات بين مستويات التخزين. تتضمّن شريحة TPU 7x نظام ذاكرة قويًا ومتعدد المستويات مصمّمًا للحفاظ على تشبّع وحدات MXU الموسّعة: * ذاكرة النطاق الترددي العالي (HBM3E): تم تجهيز كل شريحة TPU 7x بذاكرة HBM بسعة 192 غيغابايت، ما يوفّر نطاقًا تردديًا هائلاً للذاكرة يبلغ 7.37 تيرابايت في الثانية (7,380 غيغابايت في الثانية) [cite: 3, 10]. تتيح هذه الزيادة في السعة بمقدار ستة أضعاف مقارنةً بشريحة Trillium أحجام دفعات أكبر بكثير أثناء التدريب، كما تتيح الاحتفاظ بمخازن مؤقتة أكبر لقيم المفاتيح على الشريحة أثناء الاستدلال، ما يمنع حدوث ارتفاعات كبيرة في وقت الاستجابة المرتبطة بنقل البيانات إلى ذاكرة المضيف الأبطأ [cite: 4, 10, 13]. * ذاكرة المتجهات (VMEM): تعمل كل نواة TensorCore كلوحة خدش SRAM فائقة السرعة ومدمجة في الشريحة، وتتضمّن 64 ميجابايت من ذاكرة المتجهات (إجمالي 128 ميجابايت لكل شريحة). تتميّز ذاكرة VMEM بنطاق ترددي أعلى بكثير من ذاكرة HBM [cite: 3, 14]. من خلال ضبط VMEM النطاقي، يمكن للمطوّرين إعادة تخصيص الذاكرة بين نطاق الحساب الحالي وجلب البيانات المسبق للأوزان المستقبلية، ما يسمح بأحجام أكبر لمربّعات النواة (مثل تلك المستخدَمة في flash attention) ويقلّل من توقّف الذاكرة [cite: 13, 14]. * ذاكرة المضيف (PCIe): يتم استخدام ذاكرة المضيف في النظام المتصلة عبر شبكة PCIe لتفريغ حالات المحسِّن وعمليات التفعيل، وإدارة ضغط الذاكرة للنماذج التي تتجاوز سعة ذاكرة النطاق الترددي العالي (HBM) [cite: 3, 14].

علاوةً على ذلك، قدّمت وحدة TPU 7x تسريعًا أصليًا للأجهزة بدقة الفاصلة العائمة (FP8) ذات 8 بت [cite: 4, 13]. ومن خلال الانتقال من تنسيقات 16 بت العادية (BF16 أو FP16)، تضاعف تمثيل FP8 بشكل فعّال الحد الأقصى لإنتاجية الحوسبة مع خفض مساحة الذاكرة المطلوبة لتخزين الأوزان والتنشيطات إلى النصف [cite: 4, 13]. عند التشغيل بشكل أصلي في FP8، تقدّم شريحة TPU 7x واحدة حدًا أقصى للحوسبة يبلغ 4,614 تيرافلوبس، مقارنةً بـ 2,307 تيرافلوبس عند التشغيل في BF16 [cite: 3, 4].

طوبولوجيا الحلقات ثلاثية الأبعاد ونطاق Superpod

على مستوى مركز البيانات، تعتمد وحدة معالجة الموتّرات (TPU) 7x على بنية الربط البيني الحلقي ثلاثي الأبعاد التي أثبتت فعاليتها من Google [cite: 3]. تربط هذه البنية كل شريحة مباشرةً بأقرب جيرانها على طول المحاور X وY وZ، ما يؤدي إلى إنشاء شبكة متداخلة ثلاثية الأبعاد مرنة [cite: 3]. يتم تسهيل الاتصال داخل هذه الشبكة من خلال معدل نقل بيانات للربط البيني بين الشرائح (ICI) يبلغ 1.2 تيرابايت في الثانية (1,200 غيغابايت في الثانية) لكل شريحة، ما يتيح الاتصال الثنائي الاتجاه بسرعة 200 غيغابايت في الثانية لكل محور [cite: 3].

يمكن توسيع نطاق Superpod من الجيل السابع من وحدات TPU إلى 9,216 شريحة مبرّدة بالسوائل. في هذا الإعداد، توفّر المجموعة المتكاملة قوة حوسبة مجمّعة تبلغ 42.5 إكسا فلوب من FP8 [cite: 8, 10]. يتم إنشاء شرائح أكبر من 64 شريحة باستخدام "مكعبات" معيارية من 4x4x4 شرائح، ما يتيح تصميمات مرنة للغاية تتراوح بين عمليات الإعداد ذات المضيف الواحد والبيئات الضخمة ذات المضيفات المتعددة [cite: 3].

على الرغم من إمكاناتها الهائلة، كانت طبيعة TPU 7x الموحّدة تنطوي على بعض التنازلات. ففي حين أنّ بنية الطارة الثلاثية الأبعاد تتسم بكفاءة عالية في مزامنة التدرّج الموضعي والمتوقّع المطلوبة في مرحلة التدريب المُسبَق، فإنّها تؤدي إلى زيادة قطر الشبكة. على سبيل المثال، تتضمّن مجموعة من 1,024 شريحة على طارة ثلاثية الأبعاد حدًا أقصى لقطر الشبكة يبلغ 16 قفزة [cite: 15, 16]. وفي سيناريو استنتاج MoE، حيث يجب توجيه الرموز المميزة بسرعة إلى طبقات الخبراء الموجودة في أي مكان داخل المجموعة، تؤدي مسافة الـ 16 قفزة إلى حدوث تأخيرات غير مقبولة في جميع عمليات الإرسال والاستقبال [cite: 6, 15, 16]. علاوةً على ذلك، فإنّ تخصيص مساحة كبيرة من السيليكون الثمين لـ SparseCores، التي تتفوّق في عمليات البحث عن التضمين، قلّل من المساحة التي يمكن استخدامها لمحركات التجميع التي تُعدّ ضرورية لسير عمل سلسلة التفكير المستند إلى الوكلاء [cite: 6, 15]. لقد وصل المجال إلى الحدود المادية لمسرّع "المقاس الواحد يناسب الجميع".

التشعب الاستراتيجي: العوامل الاقتصادية والمعمارية

يمثّل الانتقال من الجيل السابع إلى الجيل الثامن من وحدات TPU أهم تحوّل في بنية السيليكون في تاريخ Google [cite: 9]. أعلنت Google في مؤتمر Google Cloud Next 2026 عن تقسيم سلسلة وحدات معالجة الموتّرات إلى سلسلتَي منتجات مختلفتَين، وهما TPU 8t للتدريب وTPU 8i للاستدلال، ما يؤكّد أنّ أحمال العمل التي ستدفع الذكاء الاصطناعي في العقد القادم لا يمكن التوفيق بينها على مستوى الأجهزة [cite: 1, 2, 17].

يعود سبب هذا الانقسام إلى اختلاف الجوانب الاقتصادية وكثافة العمليات في تطوير الذكاء الاصطناعي. إنّ تدريب نموذج متقدّم هو إنفاق تشغيلي لمرة واحدة يتطلّب رأس مال كبيرًا ويُقاس بالحوسبة المستمرة على مدار أسابيع أو أشهر [cite: 9]. تتطلّب هذه التطبيقات كثافة حوسبة قصوى، وعرض نطاق ترددي غير مسبوق للربط البيني، ومساحات ذاكرة موحّدة متعددة البيتابايت قادرة على استيعاب مجموعات البيانات المتعددة الوسائط بمعدل نقل البيانات [cite: 9].

في المقابل، الاستدلال هو تكلفة تشغيل مستمرة تتناسب طرديًا أو أُسّيًا مع طلب المستخدم [cite: 9]. في "عصر الذكاء الاصطناعي المستقل" الناشئ، لا يكتفي نموذج الذكاء الاصطناعي بتوقّع الرمز المميز التالي لإنشاء مجموعة من النصوص، بل يستدلّ بشكل نشط ويحاكي السيناريوهات المستقبلية ويكرّرها من خلال "التخيّل" ويطلب بيانات من واجهات برمجة التطبيقات الخارجية ويتفاعل مع مجموعات من الوكلاء المتخصّصين الآخرين في حلقات ملاحظات مستمرة [cite: 5, 7, 15]. يتطلّب هذا الديناميكي كميات هائلة من الذاكرة لتخزين نوافذ السياق النشطة ووقت استجابة منخفض للغاية للشبكة من أجل التوجيه إلى الخبراء والمزامنة العالمية [cite: 15, 16].

من خلال تقسيم مجموعة المنتجات، حسّنت Google الأجهزة على مستوى سلسلة الإمداد. تم تصميم وحدة معالجة الموتّرات 8t بالتعاون مع شركة Broadcom، وهي شراكة تعود إلى عام 2015 [cite: 9, 17, 18]. وبفضل خبرة Broadcom في عمليات الربط البيني المعقدة وعالية السرعة من نوع SerDes، والتغليف المتقدّم، وإنشاء الشبكات على نطاق واسع، أصبحت الشريك المثالي لتجاوز الحدود المادية لشبكة التدريب [cite: 17, 19].

بالنسبة إلى شريحة الاستدلال، خالفت Google التقاليد وتعاونت مع MediaTek لتصميم TPU 8i [cite: 9, 17, 18]. استفادت Google من خبرة MediaTek العميقة في تصميم أنظمة على شرائح (SoC) للأجهزة الجوّالة عالية الأداء والموفّرة للطاقة، فأنشأت أداة تسريع استنتاج محسّنة للغاية من حيث التكلفة [cite: 17, 19]. تستخدم وحدة TPU 8i تصميمًا أبسط (شريحة حوسبة واحدة مقابل شريحتين في وحدة 8t)، ويُقال إنّ تكلفة إنتاجها أقل بنسبة تتراوح بين% 20 و% 30 من تكلفة إنتاج الأنواع التقليدية عالية الأداء، ما يسمح لشركة Google بتوسيع نطاق قدرتها على تقديم الخدمات على مستوى العالم بشكل اقتصادي لتلبية متطلبات تطبيقات المؤسسات والمستهلكين [cite: 9, 17]. تم تصنيع كلتا الشريحتَين باستخدام عقدة معالجة متقدّمة بحجم 2 نانومتر من شركة TSMC، مع دمج أحدث تقنيات التغليف المتقدّمة CoWoS لدمج شرائح المعالجة مع حِزم HBM العالية [cite: 9, 19].

وقد حقّقت هذه الاستراتيجية المزدوجة نجاحًا فوريًا في السوق. وسّعت شركة Anthropic، وهي مؤسسة رائدة في مجال أبحاث الذكاء الاصطناعي، اتفاقيتها التي تبلغ قيمتها مليارات الدولارات مع Google Cloud، والتزمت بتوفير سعة حوسبة مذهلة تبلغ 3.5 غيغاوات بحلول عام 2027، ما يجعلها العميل الرئيسي لكلّ من منصة TPU 7x ومنصة الجيل الثامن [cite: 9, 10, 20].

نظرة متعمّقة: وحدة معالجة الموتّرات 8t (أداة قوية للتدريب المسبق)

إنّ وحدة المعالجة العصبية 8t هي إنجاز هندسي لا مثيل له يهدف إلى تقليل دورة تطوير النماذج المتطورة التي تتضمّن تريليونات المَعلمات من أشهر إلى أسابيع [cite: 5, 21]. ولا يتحقّق ذلك من خلال زيادة سرعات الساعة الأولية فحسب، بل من خلال إعادة هيكلة دقة العمليات الرياضية، وتوسيع نطاق نقل البيانات بين الشرائح بشكل كبير، والتخفيف من الاختناقات الشديدة في استيعاب البيانات التي تؤثر سلبًا في مجموعات التدريب الضخمة [cite: 6, 15].

بنية الحوسبة المزدوجة والقدرة الأصلية على معالجة أرقام الفاصلة العائمة بدقة 4

من الناحية المادية، تستخدم شريحة TPU 8t بنية معقدة للغاية تتألف من شريحتَي حوسبة وشريحة إدخال/إخراج واحدة، ويحيط بها ثماني حزم من ذاكرة HBM3E بارتفاع 12 شريحة [cite: 9]. تتطلّب هذه الحزمة الكثيفة إدارة حرارية متقدّمة، وتعتمد على نظام التبريد السائل من الجيل الرابع من Google لتبديد الحرارة الهائلة الناتجة عن عمليات المصفوفة المستمرة [cite: 7, 17, 22].

من التطورات الأساسية في TPU 8t طرح دقة الفاصلة العائمة الأصلية ذات 4 بتات (FP4) [cite: 6, 15]. تتطلّب العمليات الرياضية في مرحلة التدريب المسبق معدل نقل بيانات عاليًا أكثر من الدقة العددية الفائقة. ومن خلال خفض التنفيذ الأصلي من FP8 إلى FP4، يضاعف TPU 8t معدل نقل بيانات MXU بشكل فعّال مع خفض عدد البتات التي يجب نقلها فعليًا عبر الشريحة لكل مَعلم إلى النصف في الوقت نفسه [cite: 6, 15]. ويقلّل هذا الانخفاض الشديد في نقل البيانات من عمليات جلب الذاكرة التي تستهلك الكثير من الطاقة، ويتيح استيعاب طبقات النماذج الأكبر حجمًا بسهولة في المخازن المؤقتة للأجهزة الموضعية [cite: 6, 15].

لضمان بقاء الشريحة مشبّعة، تنفّذ شريحة TPU 8t توسيعًا أكثر توازنًا لوحدة معالجة المتجهات (VPU). يتيح ذلك لشريحة السيليكون تداخل المهام التسلسلية الأساسية، مثل التكميم وsoftmax وlayernorms، مع عمليات ضرب المصفوفات الكبيرة التي تحدث في MXU، ما يؤدي فعليًا إلى إلغاء الوقت غير المخصص للمصفوفات الذي تكون فيه نوى الحوسبة غير مستخدمة من قِبل أي برنامج حاليًا [cite: 6, 15]. نتيجةً لهذه التحسينات في البنية، تقدّم شريحة TPU 8t واحدة قوة معالجة مذهلة تبلغ 12.6 PFLOPs من قوة معالجة FP4 [cite: 15, 23].

علاوةً على ذلك، وعلى عكس شريحة TPU 8t المصمّمة بشكل أساسي للاستدلال، تحتفظ هذه الشريحة بكتل SparseCore المتخصّصة التي تم تقديمها في الأجيال السابقة [cite: 1, 6, 15]. وتُظهر أحمال العمل التي تتضمّن عمليات تضمين كثيفة، والتي تشيع في النماذج الأساسية المتعدّدة الوسائط وأنظمة الاقتراحات، أنماطًا غير منتظمة للوصول إلى الذاكرة تؤدي إلى إبطاء وحدات معالجة الرسومات التقليدية. وتعمل SparseCore بشكل غير متزامن، ما يؤدي إلى إيقاف عمليات جمع البيانات من جميع المصادر وعمليات البحث عن التضمين التي تعتمد على البيانات [cite: 6, 15]. ومن خلال فصل عمليات الرياضيات الخاصة بالمصفوفات الكثيفة إلى MXU والعمليات المتفرقة إلى SparseCore، تمنع شريحة TPU 8t الاختناقات التي تؤدي إلى توقّف العمليات الحسابية [cite: 6, 15].

النطاق الترددي واستيعاب مساحة التخزين وTPUDirect

لتوفير البيانات لوحدات MXU التي تعمل بسرعة فائقة في FP4، تتطلّب وحدة TPU 8t نطاقًا تردديًا محليًا ومجمّعًا كبيرًا جدًا. تحتوي كل شريحة على ذاكرة HBM3e بسعة 216 غيغابايت، وتعمل بسرعة 6,528 غيغابايت في الثانية [cite: 15, 24]. ومع ذلك، عند استخدام نماذج متقدّمة، غالبًا ما ينتقل قيد النظام من سرعة معالجة شريحة السيليكون إلى السرعة التي يمكن لمركز البيانات من خلالها استيعاب بيتابايت من بيانات التدريب من التخزين البارد.

للتغلب على مشكلة عنق الزجاجة في مسار البيانات التقليدي، دمجت Google تقنيتَي TPUDirect RDMA وTPUDirect Storage [cite: 5, 6, 10]. تتيح هذه البروتوكولات الوصول المباشر إلى الذاكرة (DMA) بين ذاكرة النطاق الترددي العالي في وحدة TPU ومصفوفات التخزين المُدارة على الشبكة، مثل Google Cloud Managed Lustre 10T [cite: 6, 15]. من خلال توجيه البيانات مباشرةً من نظام ملفات Lustre المتوازي إلى وحدة المعالجة المركزية TPU عبر بطاقة واجهة الشبكة (NIC)، تتجاوز تقنية TPUDirect تمامًا وحدة المعالجة المركزية المضيفة وذاكرة الوصول العشوائي الديناميكية (DRAM) الخاصة بالمضيف [cite: 6]. يوفّر مسار البيانات المتخصّص هذا تسريعًا بمقدار 10 أضعاف في سرعات الوصول إلى التخزين مقارنةً بالتدريب على الجيل السابع من وحدات معالجة Tensor، ما يضمن إمكانية أن تستوعب وحدات الحوسبة في TPU 8t مجموعات البيانات المتعدّدة الوسائط بمعدل خطي بدون انقطاع [cite: 5, 6, 15].

البنية التحتية الضخمة: شبكة Virgo

إنّ أبرز إنجاز معماري في منظومة TPU 8t المتكاملة هو إمكانية الربط الشبكي، ما ينقل قيود النظام بشكلٍ ثابت من الحوسبة الموضعية إلى النطاق الترددي على مستوى مركز البيانات [cite: 25, 26].

في حين أنّ TPU 8t يحتفظ بالاتصال الأساسي ثلاثي الأبعاد الحلقي الشكل للتواصل الموضعي بين الوحدات، ما يتيح توسيع نطاقه إلى 9,600 شريحة و2 بيتابايت غير مسبوقة من ذاكرة النطاق الترددي العالي المشتركة في وحدة فائقة واحدة، تمت إعادة تصميم بنية التوسيع بالكامل [cite: 5, 6, 15]. تحقّق الحاوية الفائقة قدرة حوسبة إجمالية تبلغ 121 إكسا فلوب من نوع FP4، ما يمثّل زيادة بمقدار 2.8 مرة مقارنةً بقدرة الحوسبة البالغة 42.5 إكسا فلوب من نوع TPU 7x [cite: 6]. ولإتاحة ذلك، تمت مضاعفة معدل نقل البيانات بين وحدات المعالجة المركزية (ICI) داخل المجموعة إلى 19.2 تيرابايت في الثانية لكل شريحة [cite: 4, 6, 10].

ومع ذلك، لربط مئات من هذه العُقد الفائقة، أنشأت Google شبكة Virgo [cite: 1, 6]. استخدمت الشبكة السابقة، Jupiter، بنية Clos ثلاثية الطبقات التي توجّه حركة البيانات عبر طبقات متعدّدة من المحوّلات، ما يؤدي إلى حدوث تأخير واختناقات في النطاق الترددي (بحد أقصى 100 غيغابايت في الثانية لكل شريحة) [cite: 25].

‫Virgo هي بنية أساسية قابلة للتوسيع تستند إلى محوّلات عالية الأساس (تُدير من 256 إلى 512 منفذًا) وتستخدم مخططًا مسطحًا من طبقتين لا يحظر أي بيانات [cite: 6, 15, 25]. من خلال إزالة مستويات الشبكة فعليًا، تقلّل Virgo وقت الاستجابة بشكل كبير. تستخدم الشبكة تصميمًا متعدد المستويات مع نطاقات تحكّم مستقلة، ما يؤدي إلى زيادة معدل نقل البيانات في شبكة مراكز البيانات (DCN) بنسبة تصل إلى ‎400% (أي 4 أضعاف)، والانتقال إلى معدل نقل بيانات يبلغ 400 جيجابت في الثانية لكل شريحة [cite: 6, 15, 24].

يمكن لشبكة Virgo واحدة ربط أكثر من 134,000 شريحة TPU 8t ضمن منشأة مركز بيانات واحد، ما يتيح معدل نقل بيانات مذهلاً يبلغ 47 بيتابت في الثانية من عرض النطاق الترددي الثنائي غير المحظور [cite: 1, 6, 15]. بالإضافة إلى ذلك، تتيح وحدة TPU 8t، المدمجة مع برنامج Pathways من Google وإطار عمل JAX، لمجموعات التدريب الموزّعة أن تتوسّع إلى أكثر من مليون شريحة في مواقع جغرافية متعددة كعملية تدريب منطقية واحدة [cite: 1, 6, 15]. يحوّل هذا الإنجاز البنية الأساسية الموزّعة عالميًا إلى حاسوب فائق واحد وسلس، ما يتجاوز بشكل كبير القيود الحالية على توسيع نطاق وحدات معالجة الرسومات للأغراض العامة [cite: 27].

إعادة الضبط الذاتي وتحقيق معدّل نقل بيانات صالح بنسبة% 97

وعندما يتعلق الأمر بمئات الآلاف من الشرائح، تصبح الأعطال في الأجهزة، بدءًا من أجهزة الإرسال والاستقبال التالفة إلى الحدّ من السرعة بسبب الحرارة، من الاحتمالات المؤكّدة إحصائيًا بدلاً من الحالات النادرة. في الأنظمة القديمة، يمكن أن يؤدي توقّف واحد للشبكة إلى إيقاف عملية تدريب ضخمة، ما يتطلّب العودة إلى الحالة السابقة إلى نقطة مرجعية سابقة، وهو أمر شاق ومكلف. وعلى نطاق واسع، تؤدي كل نقطة مئوية من الكفاءة المفقودة إلى ضياع أيام من وقت التدريب النشط [cite: 5, 6].

يستهدف نظام TPU 8t المتكامل أكثر من %97 من "الإنتاجية"، وهو مقياس يحدّد نسبة وقت الحوسبة المفيد والمنتج إلى إجمالي وقت التشغيل [cite: 6, 28]. ويتم تحقيق ذلك من خلال إمكانات متقدّمة في الموثوقية والتوفّر وقابلية الصيانة (RAS) تستند إلى تقنية تبديل الدوائر الضوئية (OCS) [cite: 5, 6, 25]. من خلال القياس عن بُعد في الوقت الفعلي وتحليل عشرات الآلاف من الشرائح، يمكن للنظام رصد الروابط المعطّلة بين الشرائح بشكل مستقل. تعيد OCS توجيه مسارات الضوء البصري فعليًا لتجاوز أعطال الأجهزة في الوقت الفعلي، بدون الحاجة إلى أي تدخل بشري، والأهم من ذلك، بدون مقاطعة مهمة التدريب النشطة [cite: 5, 6, 28].

نظرة متعمّقة: وحدة معالجة الموتّرات 8i (محرك الاستدلال)

إذا كانت وحدة TPU 8t مثالاً على التوسّع الشديد والقائم على القوة الغاشمة، فإنّ وحدة TPU 8i هي مثال على التحسين الفائق لوقت الاستجابة وبنية الذاكرة [6]. ومع انتقال النماذج إلى مرحلة الإنتاج في الوقت الفعلي، لا سيما نماذج Mixture-of-Experts (MoE) الضخمة والمجموعات القائمة على الوكلاء، يصبح معدل نقل البيانات الخام أقل أهمية من سرعة الوصول إلى الذاكرة وتوجيهها عبر الشبكة [21 و29].

تجاوز حاجز ذاكرة الاستدلال

في عملية الإنشاء التراجعي، ينشئ النموذج رموزًا مميزة للناتج بالتسلسل. ومع كل رمز مميز يتم إنشاؤه حديثًا، يجب أن يشير النموذج إلى سجلّ متزايد لجميع الرموز المميزة السابقة وعلاقاتها الرياضية، والمعروف باسم ذاكرة التخزين المؤقت للمفتاح والقيمة (KV) [cite: 1, 13]. بالنسبة إلى نماذج السياق الطويل التي تحلّل مئات الآلاف من الرموز المميزة، تتضخّم ذاكرة التخزين المؤقت للمفتاح والقيمة. وإذا تجاوزت سعة ذاكرة الوصول السريع المدمجة في الشريحة، وتم نقلها إلى ذاكرة وحدة المعالجة المركزية (CPU) الأبطأ، تتوقف عملية الحساب بأكملها، وهي ظاهرة تُعرف باسم "جدار الذاكرة" [cite: 5, 8].

تم تصميم TPU 8i خصيصًا للتغلّب على هذه المشكلة. وعلى الرغم من أنّه تصميم أسهل وأكثر فعالية من حيث التكلفة، إذ يستخدم شريحة حوسبة واحدة وشريحة إدخال/إخراج واحدة مع ست مجموعات من HBM3e، تم تحسين سعات الذاكرة بشكل كبير لتقديم [cite: 9]. * سعة HBM وعرض النطاق الترددي: تم تجهيز كل وحدة TPU 8i بسعة 288 غيغابايت من HBM3E، ما يمثّل زيادة في السعة بنسبة% 50 مقارنةً بوحدة TPU 7x [cite: 5, 24, 30]. والأهم من ذلك، بما أنّ نماذج MoE الكبيرة محدودة بعرض النطاق الترددي للذاكرة أثناء الاستدلال، يتم رفع عرض النطاق الترددي للذاكرة إلى 8.6 تيرابايت في الثانية (حوالي 8,601 غيغابايت في الثانية)، أي أسرع بحوالي 1.3 مرة من وحدة TPU 8t التي تركّز على التدريب [cite: 10, 15]. * ذاكرة SRAM كبيرة على الشريحة: التغيير الأهم في الأجهزة هو تضمين ذاكرة وصول عشوائي ثابتة (SRAM) بسعة 384 ميغابايت على الشريحة لكل شريحة [cite: 10, 15, 30]. يمثّل ذلك زيادة كبيرة بنسبة %300 (3 مرات) مقارنةً بكل من TPU 7x وTPU 8t [cite: 10, 15, 30]. ذاكرة SRAM هي أسرع ذاكرة متاحة مباشرةً على مصفوفة السيليكون وبأقل وقت استجابة. ومن خلال مضاعفة هذه السعة ثلاث مرات، يمكن لوحدة TPU 8i استضافة ذاكرة تخزين مؤقت كبيرة لقيم المفاتيح (KV) بالكامل على الشريحة [cite: 15, 16]. ويمنع ذلك نوى المعالجة من البقاء في وضع الخمول أثناء انتظار استرجاع سجلات الرموز المميزة من مستويات الذاكرة الأبطأ، ما يتيح تشغيل حلقات الاستدلال المتزامنة العالية بسلاسة غير مسبوقة [cite: 5, 15].

The Collectives Acceleration Engine (CAE)

بما أنّ TPU 8i يستهدف الاستدلال، تم اعتبار وحدة SparseCore المستخدَمة في 7x و8t لعمليات البحث عن التضمين استخدامًا غير فعّال لمساحة السيليكون المتاحة في هذا الحمل المحدّد. وبدلاً من ذلك، قدّم مهندسو Google وحدة أجهزة مملوكة تُعرف باسم "محرك تسريع المجموعات" (CAE) [cite: 10, 15].

أثناء فك الترميز التراجعي والمعالجة "المتسلسلة"، يجب أن توقف النوى المختلفة حساباتها الفردية بشكل متكرر لتجميع نتائجها الرياضية وتقليلها ومزامنتها على مستوى الشريحة [cite: 6, 15]. يمكن أن تؤدي عمليات المزامنة العامة هذه إلى حدوث مؤثِّر سلبي شديد في وقت الاستجابة، خاصةً عندما يواجه آلاف الوكلاء المستقلين مشكلة في الوقت نفسه.

بالنسبة إلى كل شريحة TPU 8i، يتوفّر نواتان من TensorCore على قوالب النواة، بالإضافة إلى وحدة CAE واحدة على قالب الشريحة الصغيرة (تحلّ محلّ نوى SparseCore الأربع المتوفّرة على TPU 7x) [cite: 6, 15]. تم تصميم وحدة CAE المتخصّصة لتجميع النتائج على مستوى النوى مع وقت استجابة يقارب الصفر، ما يؤدي إلى انخفاض كبير في وقت الاستجابة الجماعي على الشريحة بمقدار 5 مرات مقارنةً بجيل TPU 7x [cite: 10, 15]. ومن خلال تسريع خطوات الحدّ التي تهيمن على مهام سير العمل المستندة إلى الوكلاء، تضمن وحدة CAE الحفاظ على معدل نقل بيانات مرتفع للنظام بدون التأثير في الاستجابة في الوقت الفعلي [cite: 6, 15].

Network Flattening: The Boardfly Topology

من الميزات المحدِّدة لـ TPU 8i التخلي الكامل عن بنية الطارة الثلاثية الأبعاد. في حين أنّ طوبولوجيا التورس الثلاثية الأبعاد ممتازة لنقل البيانات من عقدة إلى أخرى كما هو مطلوب في مرحلة التدريب المُسبَق، إلا أنّها تؤدي إلى إنشاء مسافات فعلية طويلة بشكل غير مقبول، يتم قياسها بعدد القفزات في الشبكة، وذلك بالنسبة إلى توجيه الرموز المميزة من كل عقدة إلى كل العقد كما هو مطلوب في نماذج الاستدلال المستندة إلى MoE [cite: 2, 15]. في تصاميم MoE، قد تحتاج أيّ رمز مميّز إلى التوجيه إلى طبقة "خبير" معيّنة تقع على شريحة مختلفة تمامًا داخل الحزمة. في حلقة تقليدية، يجب أن تنتقل حزمة البيانات هذه بالتسلسل عبر الشرائح الإلكترونية المتداخلة للوصول إلى وجهتها.

لحلّ هذه المشكلة، صمّمت Google بنية شبكة جديدة محسّنة للعرض تُعرف باسم Boardfly [cite: 15, 31]. استنادًا إلى مبادئ تصميم Dragonfly، فإنّ Boardfly هي شبكة هرمية عالية الأساس مصمَّمة لتسوية البنية بشكل كبير وتقليل المسافة المادية بين أي شريحتَين [cite: 2, 15, 26].

تتكوّن بنية Boardfly بشكل هرمي: 1. الوحدة الأساسية: تتألف الوحدة الأساسية من أربع شرائح TPU 8i متصلة بالكامل مع روابط ICI داخلية [المصدر: 6 و16]. 2. اللوحة: يتم ربط ثماني وحدات أساسية بالكامل من خلال كابلات نحاسية مباشرة لتشكيل لوحة واحدة [المصدر: 6، 16]. 3- وحدة المعالجة المركزية (Pod): يتم ربط 36 مجموعة بشكل كامل من خلال محوّلات الدوائر الضوئية وروابط ضوئية مباشرة بعيدة المدى لتشكيل وحدة معالجة مركزية موحّدة تضم 1,152 شريحة [المصدر: 5 و6 و16 و32].

تُعدّ ميزة وقت الاستجابة المنخفض لهذا الأسلوب كبيرة. في إعداد حلقي ثلاثي الأبعاد عادي يتضمّن 1,024 شريحة، قد تحتاج حزمة البيانات إلى اجتياز قطر شبكة يبلغ 16 قفزة كحدّ أقصى [cite: 15, 25]. في طوبولوجيا Boardfly، يتم تقليل الحد الأقصى لقطر الشبكة إلى 7 قفزات فقط [cite: 15, 25].

يؤدي هذا الانخفاض بنسبة% 56 في قطر الشبكة إلى تحسُّن كبير بنسبة% 50 في وقت الاستجابة المتأخر لمهام الاستدلال التي تتطلّب الكثير من الاتصالات [cite: 16, 25, 30]. في النهاية، يكون الاستدلال مقيّدًا بسرعة أبطأ عقدة. ومن خلال خفض وقت الاستجابة المتأخر، تضمن بنية Boardfly عدم توقّف CAE عن العمل أثناء انتظار عبور بيانات الرموز المميزة في المجموعة [cite: 6, 15].

بالإضافة إلى ذلك، وبسبب هذا الربط البصري المتماسك للغاية، تعمل مجموعة واحدة من وحدات TPU 8i تضم 1,152 شريحة كوحدة ذاكرة مشتركة موحَّدة وضخمة تبلغ سعتها 331.8 تيرابايت من ذاكرة النطاق الترددي العالي المتماسكة [cite: 16].

الأداء المقارن والاقتصاد والبنية الأساسية للنظام

يؤدي التشعّب المعماري إلى تحسينات كبيرة في كلّ من الجدوى الاقتصادية للحوسبة وكفاءة استخدام الطاقة. إنّ تقييم الأجهزة استنادًا إلى الحد الأقصى النظري لعمليات الفاصلة العائمة فقط يتجاهل الحقائق المنهجية لعمليات مراكز البيانات وإمكانية استخدام البرامج.

تجريد البرامج ودعم إطار العمل

على الرغم من اختلاف الأسس التي تستند إليها الأجهزة، استثمرت Google بشكل كبير في الحفاظ على حزمة برامج موحّدة للذكاء الاصطناعي تركّز على الأداء، وذلك لمنع حصر الاستخدام في إطار عمل واحد. توفّر كلّ من TPU 8t و8i توافقًا أصليًا مع JAX وKeras وMaxText وSGLang ومحرّك vLLM [cite: 5, 8, 14, 17]. علاوةً على ذلك، تتيح إمكانية استخدام PyTorch الأصلية (من خلال TorchTPU) للمطوّرين نقل نماذج PyTorch الحالية مباشرةً إلى بيئة TPU مع توفير الدعم الكامل للميزات الأصلية، مثل "وضع التنفيذ الفوري" [cite: 15, 17].

في الخلفية، يتولّى برنامج Accelerated Linear Algebra (XLA) المجمّع عملية الترجمة المعقّدة لبنية Boardfly ومزامنة CAE، ما يتيح للمطوّرين كتابة نواة مخصّصة متوافقة مع الأجهزة بلغة Python (باستخدام Pallas وMosaic) بدون الحاجة إلى برمجة عمليات الربط البصري يدويًا [cite: 15].

مقاييس الأداء الكمية

يلخّص الجدول أدناه المواصفات الفنية الأساسية في بنية TPU 7x الموحّدة وبنيتَي TPU 8t و8i المتخصّصتَين للغاية [cite: 3, 15, 24].

مصفوفة المواصفات	TPU 7x	TPU 8t	TPU 8i
عبء العمل الأساسي	موحَّد (التدريب والاستدلال)	التدريب المُسبَق على نطاق واسع	الاستدلال الحساس لوقت الاستجابة
شريك تصميم الدوائر المتكاملة الخاصة بالتطبيقات (ASIC)	Broadcom	Broadcom	MediaTek
مخطط الشبكة	شكل حلقي ثلاثي الأبعاد	‫3D Torus + Virgo Scale-Out	Boardfly (مستوحى من اليعسوب)
الأجهزة المتخصّصة	SparseCore	SparseCore	Collectives Acceleration Engine (CAE)
Native Precision Focus	FP8	FP4	‫FP4 (مع إمكانية استخدام FP8/INT8)
الحد الأقصى لقدرة الحوسبة لكل شريحة	‫4.6 PFLOPs (FP8)	‫12.6 PFLOPs (FP4)	‫10.1 PFLOPs (FP4)
سعة الذاكرة ذات النطاق الترددي العالي لكل شريحة	‫192 غيغابايت	‫216 غيغابايت	‫288 غيغابايت
HBM Bandwidth	‫7.37 تيرابايت/ثانية	‫6.52 تيرابايت/ثانية	‫8.60 تيرابايت/ثانية
ذاكرة SRAM المضمّنة في الشريحة (VMEM)	128 ميغابايت	128 ميغابايت	‫384 ميغابايت
النطاق الترددي بين الشرائح (التوسيع)	‫9.6 تيرابايت/ثانية	‫19.2 تيرابايت/ثانية	‫19.2 تيرابايت/ثانية
الحد الأقصى لحجم الحزمة/الحزمة الفائقة	‫9,216 شريحة	‫9,600 شريحة	‫1,152 شريحة

تحسين التكلفة والأداء والتكلفة الإجمالية للملكية

تزعم Google أنّ الجيل الثامن يحقّق تحسينات مذهلة في التكلفة الإجمالية للملكية (TCO). تحقّق وحدة TPU 8t زيادة تتراوح بين% 170 و% 180 في الأداء لكل دولار، ما يعادل تحسّنًا يتراوح بين 2.7 و2.8 مرّة في التدريب على نطاق واسع مقارنةً بوحدة TPU 7x [cite: 6, 15, 30]. في الوقت نفسه، توفّر وحدة TPU 8i تحسّنًا بنسبة% 80 في الأداء لكل دولار للاستدلال، وتحديدًا عند استهداف وقت الاستجابة المنخفض المطلوب لنماذج MoE الضخمة [cite: 15, 16, 30].

ولا تتحقّق هذه المكاسب الاقتصادية من خلال السيليكون فحسب، بل من خلال الدمج المنهجي الكامل. في السابق، كانت وحدات TPU مقترنة بوحدات معالجة مركزية (CPU) مضيفة x86 جاهزة للاستخدام. في الحالات التي تتضمّن معالجة مسبقة مكثّفة للبيانات أو منطقًا معقّدًا للوكيل، كان المضيف x86 غالبًا ما يسبّب اختناقًا في النظام، ما يجعل شريحة TPU فائقة السرعة جاهزة للعمل ولكنها تفتقر إلى البيانات [cite: 6, 7].

تعالج الجيل الثامن هذا الخلل المزمن من خلال استضافة كلّ من 8t و8i حصريًا على معالجات Axion المخصّصة المستندة إلى ARM من Google [cite: 6, 7, 15]. توفّر مضيفات Axion بنية أساسية موحَّدة ومحسَّنة إلى حدّ كبير [cite: 18, 19]، وهي مستنِدة إلى بنية Neoverse N3 الأساسية من Armv9.2. بالنسبة إلى TPU 8i الذي يعتمد بشكل كبير على الاستدلال، دمجت Google مضيفي Axion بنسبة 2:1 بين وحدة معالجة الموتّرات ووحدة المعالجة المركزية، ما أدّى إلى مضاعفة عدد مضيفي وحدة المعالجة المركزية المادية لكل خادم مقارنةً بـ TPU 7x [cite: 5, 6, 32]. يضمن النظام إمكانية الوصول إلى الذاكرة بشكل أفضل، ويزيل تمامًا عنق الزجاجة في إعداد البيانات، وذلك من خلال استخدام بنية NUMA الصارمة لعزل أحمال العمل [cite: 5, 7].

كفاءة استهلاك الطاقة وتأثيراتها في السوق

تتزايد أهمية كثافة الطاقة وتوفّرها بشكل كبير، وأصبحا من أهم القيود الملزمة في عمليات نشر مراكز البيانات الحديثة. ومن خلال استخدام الجيل الرابع من أنظمة التبريد السائل وإدارة الطاقة المتكاملة في الوقت الفعلي التي تعدّل استهلاك الطاقة بشكل ديناميكي استنادًا إلى مراحل معيّنة من أحمال العمل (مثل الحوسبة النشطة مقابل التوقف مؤقتًا لإجراء الاتصالات)، حقّق كل من TPU 8t و8i كفاءة مذهلة في استهلاك الطاقة [المصدر: 7 و15 و22 و24]. حقّق الإصدار 8t تحسّنًا بنسبة% 124 في الأداء لكل واط، بينما حقّق الإصدار 8i تحسّنًا بنسبة% 117، ما أدّى إلى تحسّن إجمالي بنسبة 2x (أكثر من%100) في كفاءة استهلاك الطاقة مقارنةً بالإصدار TPU 7x [المصدر: 15 و22 و30].

تتضح آثار هذه الكفاءة في نماذج Google المتطورة. تشير مقاييس الأداء لمعاينة Gemini 3.1 Pro إلى أنّ نشر النموذج على بنية TPU 8i يؤدي إلى خفض التكلفة بنسبة% 50 تقريبًا لواجهات برمجة التطبيقات للاستدلال، بالإضافة إلى تحسّن كبير في سرعة الاستجابة وإمكانات معالجة السياق الطويل [cite: 24, 30].

الإطار التنافسي: مقارنة بين Google وMerchant Silicon

يحمل قرار Google بتقسيم استراتيجية السيليكون إلى قسمين آثارًا كبيرة على منظومة الذكاء الاصطناعي المتكاملة للأجهزة، لا سيما في منافستها المستمرة مع مورّدي السيليكون التجاريين، مثل Nvidia، وبدرجة أقل AMD وAWS (مع منصة Trainium3) [cite: 17, 23].

لطالما حافظت Nvidia على استراتيجية معمارية موحّدة، باستخدام منصات عامة الأغراض ولكنها عالية الأداء، مثل Blackwell B200 وVera Rubin NVL72 للتعامل مع كل من التدريب المُسبَق والاستدلال في الوقت الفعلي [cite: 2, 9]. وعند النظر إليها من منظور مواصفات الشريحة الواحدة الخام، تحتفظ Nvidia بمزايا معيّنة. على سبيل المثال، تتيح تقنية NVLink من Nvidia نطاقات تردّدية للربط البيني بين الأجهزة الفردية تبلغ 14.4 تيرابايت في الثانية، وتوفّر وحدات معالجة الرسومات الفردية من Rubin حوالي 50 بيتافلوب من قدرة الحوسبة للاستدلال باستخدام NVFP4، وهو معدّل أعلى بكثير من 10.1 بيتافلوب التي توفّرها TPU 8i [cite: 2, 9].

ومع ذلك، فإنّ رهان Google المعماري يستند إلى الاعتقاد بأنّ مستقبل الذكاء الاصطناعي يتحدّد بكفاءة النطاق على مستوى المجموعة، وليس بقدرات الذروة لشريحة واحدة [cite: 9].

من خلال الانتقال إلى بنية Boardfly، تنشئ Google مجموعة ذاكرة مشتركة ومتسقة تمامًا على مستوى جميع الشرائح البالغ عددها 1,152 شريحة ضمن وحدة TPU 8i [cite: 16]. يؤدي ذلك إلى توفير سعة مجمّعة لمجموعة الإعلانات المتسلسلة تبلغ 11.6 إكسا فلوب من FP8 و331.8 تيرابايت من ذاكرة النطاق الترددي العالي (HBM) الموحّدة والمتسقة [cite: 6, 16]. في المقابل، تبلغ سعة التخزين القصوى لوحدة معالجة الرسومات القياسية من Nvidia على مستوى الحامل في NVL72‏ 72 وحدة معالجة رسومات و20.7 تيرابايت تقريبًا من ذاكرة النطاق الترددي العالي [cite: 2, 16]. يتطلّب توسيع نطاق وحدات معالجة الرسومات للأغراض العامة لتتطابق مع إعدادات 1,152 شريحة ربطًا بين 16 حاملاً منفصلاً تقريبًا [cite: 16]. يؤدي هذا الفصل المادي إلى إضعاف اتساق الذاكرة ويفرض عقوبات شديدة على وقت الاستجابة، ما يؤثر سلبًا في الاستدلال المستمر الذي يتطلّب سياقًا طويلاً [cite: 16].

علاوةً على ذلك، من خلال نقل عملية تبديل الدوائر الضوئية (OCS) إلى مستوى أدنى في الحزمة لتسهيل التسلسل الهرمي لـ Boardfly، تعمل Google على تغيير سلسلة توريد الشبكات الضوئية بشكل أساسي، ما يؤدي إلى زيادة الطلب بشكل كبير على أجهزة الإرسال والاستقبال والليزر المتخصّصة من مورّدين مثل Lumentum وCoherent [cite: 26].

في النهاية، تفترض فلسفة تصميم Google أنّ ساحة المعركة الحقيقية في أواخر العقد الثاني من القرن الحادي والعشرين لن يتم تحديدها من خلال الحد الأقصى لسرعة معالجة البيانات الرياضية على شريحة سيليكون واحدة، بل من خلال القدرة على تجاوز حاجز الذاكرة، وتوسيع نطاق عمليات الربط البيني بين المواقع الإلكترونية بسرعة، وخفض التكلفة المطلقة لكل رمز مميز عند نشر أسراب من البرامج في الوقت الفعلي لمليارات المستخدمين [cite: 6, 16, 17].

الخاتمة

يعكس مسار وحدات معالجة الموتّرات (TPU) من Google Cloud، بدءًا من الإطار الموحّد لوحدة TPU 7x وصولاً إلى التقسيم الثنائي المتخصّص للغاية لوحدتَي TPU 8t وTPU 8i، تطوّر أحجام العمل في الذكاء الاصطناعي وتحويلها إلى صناعة. لم تعُد شريحة السيليكون الموحّدة للأغراض العامة، التي كانت أساسًا للنمو الأولي في مجال التعليم المعمّق، كافية لتحقيق الجدوى الاقتصادية أو الأداء المطلوب في الحدود القصوى لعصر الذكاء الاصطناعي المستند إلى الوكلاء.

يمثّل TPU 8t سعيًا حثيثًا لتحقيق التوسّع. ومن خلال الاحتفاظ بـ SparseCore، وتنفيذ دقة FP4 الأصلية لمضاعفة معدل نقل البيانات في MXU، والإمكانات المذهلة لشبكة Virgo Network وTPUDirect Storage، تم تصميم هذا النظام لاستيعاب البيانات ومعالجتها بكمية كان يُعتقد سابقًا أنّها مستحيلة. وهو يحدّ بشكل فعّال من قيود النطاق الترددي للتوسّع في مراكز البيانات الحديثة، ما يسمح لملايين الشرائح بالعمل كمحرك واحد للتدريب المُسبَق موزّع على مستوى العالم.

في المقابل، يركّز TPU 8i على إلغاء وقت الاستجابة وتحقيق الكفاءة الاقتصادية. ومن خلال التخلّي عن شكل الطارة الثلاثي الأبعاد لصالح بنية Boardfly الهرمية، ومضاعفة ذاكرة SRAM المضمّنة ثلاث مرات لتصل إلى 384 ميغابايت، وتقديم "محرك تسريع المجموعات" لتسريع المزامنة التلقائية للرجوع إلى الخلف، يزيل TPU 8i بشكل منهجي حاجز ذاكرة الاستدلال. ويضمن إمكانية إبقاء ذاكرات التخزين المؤقت الكبيرة لقيم المفاتيح المطلوبة للاستدلال المعقّد والمتعدد الخطوات في مكانها وإتاحتها بوقت استجابة يقترب من الصفر، مع خفض تكاليف الإنتاج في الوقت نفسه من خلال تصميم منطقي مبسط.

توفّر الجيل الثامن من البنية التحتية، الذي يستضيف وحدات معالجة مركزية من Axion مستندة إلى ARM ومتكاملة بالكامل وتديره عملية تبديل دوائر بصرية ذاتية التشغيل، نموذجًا جديدًا في البنية التحتية الفائقة التوسّع. ويقدّم هذا الجيل بيانًا معماريًا نهائيًا يوضح أنّ مستقبل الذكاء الاصطناعي لا يتطلّب شرائح أسرع فحسب، بل يتطلّب أيضًا أُطر أجهزة مختلفة تمامًا مصمَّمة بشكل دقيق خصيصًا لأحمال العمل المميّزة التي من المفترض أن تخدمها.

المراجع: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. الرابط 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com