Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

יצירת ארכיטקטורה בעידן של סוכנים: ניתוח השוואתי מקיף של Google Cloud TPU 7x,‏ TPU 8t ו-TPU 8i

ההתפתחות של הבינה המלאכותית ממודלים גדולים של שפה (LLM) למערכות מורכבות של סוכנים שמבצעים כמה שלבים, הובילה לשינוי פרדיגמה מהותי בתכנון מוליכים למחצה. במשך כמעט עשור, הלוגיקה שהייתה מקובלת בארכיטקטורה של מאיצי בינה מלאכותית הייתה לוגיקה של איחוד. מעצבי סיליקון שאפו לתכנן ארכיטקטורות יחידות ומונוליטיות שיכולות לבצע בו-זמנית את עומסי העבודה המסיביים של אימון מוקדם של מודלים, לצד הדרישות הרגישות לזמן האחזור של הסקת מסקנות בייצור [cite: 1, 2]. הגישה המאוחדת הזו שלטה בתעשייה מאז הקמת המאיצים הראשונים לחומרה ועד לפריסת יחידת עיבוד טנסור (TPU) של Google Cloud מהדור השביעי [cite: 2, 3, 4].

עם זאת, ככל שמודלים מתקדמים מתרחבים לטריליוני פרמטרים וארכיטקטורות של ניתוח בזמן אמת – כמו Mixture-of-Experts (MoE) ולולאות משוב רציפות של סוכנים – הופכות לסטנדרט, הדרישות לחומרה לאימון ולהצגה מתפצלות באופן בלתי הפיך [מקורות: 5, 6, 7]. אימון מוקדם התגבש לבעיה של אופטימיזציה של רוחב פס וקצב העברת נתונים, שדורשת יכולות מדהימות של הגדלת קנה מידה, רוחב פס עצום של חציית חיבורים ורוויה מתמשכת של מתמטיקה של מטריצות [מקור: 6]. לעומת זאת, הצגת סוכנים הפכה לבעיה של חביון וזיכרון, שמוגבלת על ידי המהירות שבה ניתן להזרים משקלים ומטמונים של זוגות מפתח-ערך (KV) לליבות עיבוד בלי ליצור צוואר בקבוק בפעולות סינכרון גלובליות [מקורות: 6, 8].

מתוך הבנה שכפיית שתי עומסי העבודה על סיליקון זהה מובילה לחוסר יעילות מערכתי ולתשואות כלכליות פוחתות, Google קיבלה החלטה ארכיטקטונית חסרת תקדים לפצל את סדרת ה-TPU מהדור השמיני שלה [מקורות: 1, 6, 9]. התוצאה היא שני שבבים ייחודיים וספציפיים מאוד שתוכננו עד לרמת שרשרת האספקה: TPU 8t, שתוכנן לתפוקת אימון עצומה בקנה מידה של מחשב-על, ו-TPU 8i, שנועד לפרוץ את מגבלת הזיכרון של ההיקש ולמזער את זמן האחזור הקולקטיבי לחשיבה רציונלית גלובלית [מקור: 7, 9].

בדוח המחקר המקיף הזה מנותחים ההבדלים בארכיטקטורה, בביצועים ובשינוי הגודל בין קו הבסיס המאוחד של TPU 7x לבין TPU 8t ו-TPU 8i החדשים. הניתוח הזה כולל בדיקה מקיפה של עיצוב לוגי, היררכיות זיכרון מרובות רמות, טופולוגיות של קישוריות בין מרכזי נתונים, מיתוג מעגלים אופטיים ועיצוב משותף של חומרה ותוכנה. הוא מסביר למה נדרש סיליקון ייעודי כדי לשמור על ההתפתחות הכלכלית והחישובית של הדור הבא של הבינה המלאכותית.

הקשר היסטורי: המסלול להתמחות

כדי להבין את השינויים הארכיטקטוניים שבוצעו בדור השמיני, חשוב לעקוב אחר ההתפתחות האיטרטיבית של משפחת ה-TPU. פיתוח החומרה של Google שיקף באופן עקבי את צווארי הבקבוק הנפוצים במודלים עכשוויים של למידת מכונה, והתקדם מהאצת הסקה פשוטה למערכות אימון מסיביות ברמת האשכול [cite: 10, 11].

מסקירה על תהליך ההיסק ועד למערכים גדולים של מטריצות

‫Google הציגה את TPU v1 בשנת 2015 כמאיץ רק להסקת מסקנות, שנועד להתמודד עם עומס החישובים הגדל של שירותים פנימיים כמו חיפוש, תרגום וההמלצות מ-YouTube [cite: 11, 12]. בגרסה 1 נעשה שימוש במתמטיקה של מספרים שלמים בני 8 ביט כדי להשיג שיפורים בסדר גודל של פעולות לוואט בהשוואה למעבדים מרכזיים (CPU) ולמעבדים גרפיים (GPU) למטרות כלליות [מקורות: 10, 11]. בשנת 2017, TPU v2 סימן את המעבר ליכולות אימון, והציג את הפורמט bfloat16 ‏ (BF16) – פורמט נקודה צפה של 16 ביט ששמר על הטווח הדינמי של נקודות צפות של 32 ביט, תוך צמצום צריכת הזיכרון בחצי [מקור: 10].

בדורות 3 עד 5 בוצעה אופטימיזציה של מנוע החישוב המרכזי – יחידת הכפל של מטריצות (MXU). במשך כמה דורות, ה-MXU נשאר מערך סיסטולי של 128x128, שיכול לבצע 16,384 פעולות של הכפלה וצבירה בו-זמנית [מקורות: 4, 10]. ב-TPU v4 הוצג SparseCore, בלוק חומרה ייעודי שתוכנן במיוחד כדי להאיץ חיפושים של הטמעה וגישות לא סדירות לזיכרון, וכך למנוע את עצירת ה-MXU במהלך אימון של מודל המלצות [cite: 4, 6].

The Topographical Evolution and Trillium (v6e)

ככל שגדלי המודלים גדלו, כך התפתחו הטופולוגיות של הקישוריות ההדדית שנדרשו כדי לסנכרן את הגרדיאנטים באלפי שבבים. Google פרסה טופולוגיית טורוס דו-ממדית עבור פודים קטנים וחסכוניים (כמו v5e ו-v6e), מה שפישט את ההרחבה עד ל-256 שבבים [מקור: 4, 10]. לגרסאות עם אופטימיזציה של הביצועים (כמו v4 ו-v5p),‏ Google השתמשה בטופולוגיית טורוס תלת-ממדית, שחיברה שבבים ברשת תלת-ממדית כדי להקטין את זמן האחזור של התקשורת בפודים גדולים יותר, בטווח של 4,096 עד 8,960 שבבים [מקור: 4].

הדור שקדם לדור הנוכחי היה TPU v6e‏ (Trillium), שהושק בסוף 2024. טריליום ייצג קפיצה אדריכלית משמעותית, עם הרחבת ה-MXU ממערך 128x128 למערך 256x256 [מקור: 10]. כך הוכפלו פי ארבע פעולות הכפל והצבירה בכל מחזור. בנוסף, רוחב הפס של הקישוריות בין השבבים (ICI) הוכפל ל-3,200 גיגה-ביט לשנייה (13 טרה-בייט לשנייה מצטבר דו-כיווני), וכל שבב כלל 32 גיגה-בייט של זיכרון ברוחב פס גבוה (HBM). כך, טריליום סיפק פי 4.7 משיא יכולת החישוב של קודמו, תוך פעולה עם יעילות אנרגטית גבוהה ב-67% [מקור: 10, 11].

דור ה-TPU	שנת ההפצה	Primary Innovation	טופולוגיה וגודל מקסימלי של Pod	ארכיטקטורת MXU	שיא יכולת החישוב לכל שבב
‫TPU v2	2017	הראשון עם יכולת אימון (BF16)	‫2D Torus (512 chips)	‫128x128	‫~45 TFLOPS
‫TPU v4	2021	הצגת SparseCore	‫3D Torus (4,096 chips)	‫128x128	‫275 TFLOPS
‫TPU v5e	2023	יעילות עם אופטימיזציה של עלויות	‫2D Torus (256 chips)‎	‫128x128	‫197 TFLOPS
‫TPU v5p	2023	הגדלת הביצועים	טורוס תלת-ממדי (8,960 צ'יפים)	‫128x128	‫459 TFLOPS
‫TPU v6e (Trillium)	2024	הרחבה של 256x256 MXU	‫2D Torus (256 chips)‎	256x256	‫918 TFLOPS

הפסגה של הארכיטקטורה המאוחדת: TPU 7x

‫TPU 7x, מהדור השביעי, הושק לזמינות לכלל המשתמשים (GA) בסוף 2025, והוא מייצג את פסגת האסטרטגיה של Google לארכיטקטורה מאוחדת. ‫TPU 7x, שנועד לבצע גם אימון מראש בקנה מידה רחב וגם הסקה עם פענוח כבד במסגרת ארכיטקטונית אחת, דחף את הגבולות של מה שמאיץ דו-תכליתי יכול להשיג [cite: 3, 10].

עיצוב עם שני צ'יפלטים ואופטימיזציה של AlphaChip

הבנייה הפיזית של TPU 7x סימנה שינוי דרמטי מהארכיטקטורה של ליבה לוגית יחידה (MegaCore) שנמצאת ב-v4 וב-v5p [מקור: 3]. ‫TPU 7x משתמש בארכיטקטורה של שני צ'יפלטים. כל שבב TPU 7x מלא מורכב משני שבבים קטנים נפרדים ועצמאיים שמחוברים באמצעות ממשק קנייני מהיר בין ליבות (D2D) [cite: 3]. החיבור הזה בין שני שבבים פועל במהירות שגדולה פי שישה מהמהירות של קישור ICI חד-ממדי רגיל, ומאפשר לשבבים הקטנים לתקשר במהירות תוך שמירה על מרחבי זיכרון ייעודיים משלהם [מקור: 3].

בכל השבב המאוחד, TPU 7x מכיל שני TensorCore וארבעה SparseCore [מקור: 3]. הפריסה הפיזית של הליבות האלה במטריצת הסיליקון עברה אופטימיזציה באמצעות AlphaChip, כלי קנייני של Google ללמידת חיזוק, כדי למזער את אורך החוטים ולמקסם את היעילות התרמית [cite: 10]. הגדרת מכונה וירטואלית (VM) סטנדרטית ל-TPU 7x מחברת ארבעה שבבים למארח CPU, וחושפת 224 vCPU ו-960GB של RAM [מקור: 3].

היררכיית זיכרון רב-שכבתית ועיצוב מדויק

צוואר בקבוק קריטי בעיבוד של מודלים צפופים ומודלים של תערובת מומחים (MoE) הוא התנועה הרציפה של נתונים בין רמות אחסון שונות. ל-TPU 7x יש מערכת זיכרון רבת-רמות חזקה שנועדה לשמור על רוויה של יחידות ה-MXU המורחבות: * זיכרון ברוחב פס גבוה (HBM3E): כל שבב TPU 7x מצויד ב-192GB של HBM, שמספק רוחב פס עצום של 7.37TB/s (7,380GBps) [מקור: 3, 10]. הקיבולת הזו גדולה פי שישה מזו של Trillium, ומאפשרת גדלים גדולים יותר של אצווה במהלך האימון, וגם שמירה של מטמוני KV גדולים יותר בשבב במהלך ההסקה, וכך מונעת עליות חדות ועלויות גבוהות של זמן האחזור שקשורות להעברה לזיכרון מארח איטי יותר [מקור: 4, 10, 13]. * זיכרון וקטורי (VMEM): כל TensorCore כולל 64MiB של VMEM (סה"כ 128MB לכל שבב), שמשמש כזיכרון מטמון SRAM מהיר במיוחד בשבב. רוחב הפס של ה-VMEM גבוה משמעותית מזה של ה-HBM ביחס ליחידת ה-MXU [מקור: 3, 14]. באמצעות כוונון של ה-VMEM בהיקף מוגדר, מפתחים יכולים להקצות מחדש זיכרון בין ההיקף החישובי הנוכחי לבין אחזור מראש של משקלים עתידיים, וכך לאפשר גדלים גדולים יותר של משבצות ליבה (כמו אלה שמשמשות ב-flash attention) ולהפחית את השהיות בזיכרון [מקור: 13, 14]. * זיכרון מארח (PCIe): זיכרון המארח של המערכת מחובר באמצעות רשת PCIe, והוא משמש להעברה של מצבי אופטימיזציה והפעלות, ולניהול של עומס הזיכרון במודלים שחורגים מהקיבולת של ה-HBM [מקור: 3, 14].

בנוסף, TPU 7x הציג האצת חומרה מקורית לדיוק של נקודה צפה (FP8) של 8 ביט [מקורות: 4, 13]. המעבר מפורמטים רגילים של 16 ביט (BF16 או FP16) לייצוג FP8 מכפיל למעשה את תפוקת החישוב המקסימלית, ומקטין בחצי את הזיכרון שבשימוש שנדרש לאחסון משקלים והפעלות [מקור: 4, 13]. שבב TPU 7x יחיד, שפועל באופן מקורי ב-FP8, מספק שיא של 4,614 TFLOPS של מחשוב, לעומת 2,307 TFLOPS כשפועל ב-BF16 [מקור: 3, 4].

טופולוגיית טורוס תלת-ממדית וקנה מידה של Superpod

ברמת מרכז הנתונים, ה-TPU 7x מסתמך על טופולוגיית קישוריות תלת-ממדית של טורוס [cite: 3] שהוכחה כיעילה על ידי Google. הארכיטקטורה הזו מחברת כל שבב ישירות לשכנים הקרובים ביותר שלו לאורך הצירים X,‏ Y ו-Z, וכך נוצרת רשת תלת-ממדית גמישה [מקור: 3]. התקשורת בתוך הרשת הזו מתבצעת באמצעות רוחב פס של ICI של 1.2TB/s ‏ (1,200GBps) לכל שבב, ומספקת תקשורת דו-כיוונית של 200GBps לכל ציר [מקור: 3].

סופרפוד TPU 7x מלא כולל 9,216 שבבים מקוררים בנוזל. בהגדרה הזו, הפוד מספק 42.5 אקסה-פלופס של כוח מחשוב FP8 [מקורות: 8, 10]. פרוסות גדולות מ-64 שבבים בנויות באמצעות 'קוביות' מודולריות של 4x4x4 שבבים, שמאפשרות טופולוגיות גמישות מאוד, החל מהגדרות של מארח יחיד ועד לסביבות מרובות מארחים [מקור: 3].

למרות היכולות המדהימות שלו, האופי המאוחד של TPU 7x הוביל לפשרות מובנות. טופולוגיית הטורוס התלת-ממדית יעילה מאוד לסינכרון המקומי והצפוי של הגרדיאנט שנדרש בשלב שלפני האימון, אבל היא מובילה לקוטר רשת גדול. לדוגמה, ב-pod של 1,024 שבבים בטורוס תלת-ממדי, קוטר הרשת המקסימלי הוא 16 קפיצות [מקורות: 15, 16]. בתרחיש של הסקת מסקנות ב-MoE, שבו צריך לנתב במהירות טוקנים לשכבות מומחים שנמצאות בכל מקום בתוך ה-pod, המרחק של 16 קפיצות גורם לזמני אחזור בלתי קבילים של כל-אל-כל [מקורות: 6, 15, 16]. בנוסף, הקצאת שטח סיליקון יקר ערך ל-SparseCores – שמתמחים בחיפושי הטמעה – גרעה מהשטח שאפשר היה להשתמש בו למנועי צמצום קולקטיביים, שחיוניים לתהליכי עבודה של שרשרת מחשבות של סוכנים [cite: 6, 15]. התעשייה הגיעה למגבלות הפיזיות של מאיץ שמתאים לכולם.

הפיצול האסטרטגי: גורמים כלכליים ואדריכליים

המעבר מהדור השביעי לדור השמיני של יחידות ה-TPU מייצג את השינוי המשמעותי ביותר בארכיטקטורה בהיסטוריה של הסיליקון של Google [cite: 9]. ההכרזה על הפיצול של סדרת ה-TPU לשתי משפחות מוצרים נפרדות – TPU 8t לאימון ו-TPU 8i להסקת מסקנות – נעשתה בכנס Google Cloud Next 2026. הפיצול הזה נועד לתת מענה לעומסי העבודה שמניעים את העשור הבא של הבינה המלאכותית, ושלא ניתן ליישם אותם ברמת החומרה [cite: 1, 2, 17].

הפיצול הזה נובע מהבדלים בכלכלה ובעוצמת הפעולה של פיתוח AI. אימון של מודל פורץ דרך הוא הוצאה תפעולית חד-פעמית שדורשת הון רב, ונמדדת בחישוב רציף לאורך שבועות או חודשים [cite: 9]. היא דורשת צפיפות חישוב מקסימלית, רוחב פס חסר תקדים לחיבור בין רכיבים, ודומיינים של זיכרון מאוחד של כמה פטה-בייט שיכולים להטמיע קבוצות נתונים מולטימודאליות במהירות קו [מקור: 9].

לעומת זאת, הסקת מסקנות היא עלות תפעול שוטפת שגדלה באופן לינארי – או אקספוננציאלי – בהתאם לביקוש מצד המשתמשים [מקור: 9]. במהלך "העידן האגנטי" המתפתח, מודל AI לא רק חוזה את הטוקן הבא כדי ליצור בלוק טקסט, אלא גם מסיק מסקנות באופן פעיל, מדמה תרחישים עתידיים, חוזר על תהליך של "דמיון", קורא לממשקי API חיצוניים ומתקשר עם קבוצות של סוכנים מומחים אחרים בלולאות משוב רציפות [cite: 5, 7, 15]. הדינמיקה הזו דורשת כמויות עצומות של זיכרון כדי לאחסן חלונות הקשר פעילים, וזמן אחזור נמוך במיוחד ברשת לניתוב מומחה ולסנכרון גלובלי [מקורות: 15, 16].

על ידי פיצול קו המוצרים, Google ביצעה אופטימיזציה של החומרה עמוק בתוך שרשרת האספקה. ה-TPU 8t תוכנן בשיתוף עם Broadcom, שותפות שהחלה בשנת 2015 [מקורות: 9, 17, 18]. המומחיות של Broadcom בחיבורי SerDes מורכבים ומהירים, באריזה מתקדמת וברשתות בקנה מידה עצום הפכה אותה לשותף האידיאלי להרחבת הגבולות הפיזיים של רשת האימון [cite: 17, 19].

במקרה של שבב ההסקה, Google חרגה מהמסורת ושיתפה פעולה עם MediaTek כדי לתכנן את TPU 8i [מקורות: 9, 17, 18]. בעזרת המומחיות של MediaTek בתכנון של מערכות SoC לניידים, שצורכות מעט חשמל ומיוצרות בכמויות גדולות, Google יצרה מאיץ הסקה שעבר אופטימיזציה גבוהה מבחינת עלות [cite: 17, 19]. ל-TPU 8i יש עיצוב פשוט יותר (שבב חישוב אחד לעומת שניים ב-8t), ועל פי הדיווחים, עלויות הייצור שלו נמוכות ב-20% עד 30% בהשוואה לגרסאות מסורתיות של ביצועים גבוהים. כך Google יכולה להגדיל את קיבולת ההגשה הגלובלית שלה בצורה חסכונית כדי לעמוד בדרישות של אפליקציות ארגוניות וצרכניות [מקור: 9, 17]. שני הצ'יפים מיוצרים בתהליך מתקדם של 2 ננומטר של TSMC, ומשלבים אריזה מתקדמת של CoWoS כדי לשלב את לוגיקת הליבות עם ערימות HBM גבוהות [מקורות: 9, 19].

האימות של השוק לגבי האסטרטגיה המפוצלת הזו היה מיידי. חברת Anthropic, ארגון מוביל בתחום מחקר ה-AI, הרחיבה את ההסכם שלה עם Google Cloud, ששוויו מיליארדי דולרים, והתחייבה לקיבולת מחשוב מדהימה של 3.5 גיגה-ואט עד 2027. היא משמשת כלקוח העוגן של פלטפורמות TPU 7x ופלטפורמות מהדור השמיני [cite: 9, 10, 20].

ניתוח מעמיק: TPU 8t (הכוח המניע של אימון מראש)

‫TPU 8t הוא הישג הנדסי חסר פשרות שמטרתו לקצר את מחזור הפיתוח של מודלים מתקדמים עם טריליוני פרמטרים מחודשים לשבועות [מקור: 5, 21]. הוא עושה את זה לא רק על ידי הגדלת מהירויות השעון הגולמיות, אלא גם על ידי שינוי המבנה של הדיוק של פעולות מתמטיות, הרחבה משמעותית של רוחב הפס בין השבבים והפחתה של צווארי הבקבוק המגבילים של הכנסת נתונים שקיימים באשכולות אימון גדולים [מקור: 6, 15].

ארכיטקטורת מחשוב עם שני שבבים ו-FP4 מקורי

מבחינה פיזית, ה-TPU 8t מבוסס על ארכיטקטורה מורכבת מאוד שכוללת שני שבבי מחשוב ושבב I/O אחד, ומשני הצדדים שמונה מחסניות של זיכרון HBM3E בגובה 12 [מקור: 9]. האריזה הצפופה הזו מחייבת ניהול תרמי מתקדם, שמסתמך על קירור נוזלי מהדור הרביעי של Google כדי לפזר את החום העצום שנוצר מפעולות מטריצה רציפות [cite: 7, 17, 22].

חידוש מהותי ב-TPU 8t הוא ההצגה של דיוק נקודה צפה (FP4) של 4 ביט [מקורות: 6, 15]. הדרישות המתמטיות של אימון מוקדם מעדיפות מאוד את התפוקה על פני דיוק מספרי קיצוני. על ידי הורדת הביצוע המקורי מ-FP8 ל-FP4,‏ TPU 8t מכפיל למעשה את התפוקה של ה-MXU, ובמקביל מצמצם בחצי את מספר הביטים שצריך להעביר פיזית על פני ה-die לכל פרמטר [מקורות: 6, 15]. הצמצום המשמעותי הזה בתנועת הנתונים ממזער את אחזור הזיכרון שדורש הרבה אנרגיה, ומאפשר לשכבות גדולות יותר של מודלים להתאים בנוחות למאגרי חומרה מקומיים [מקורות: 6, 15].

כדי לוודא שהשבב יישאר רווי, TPU 8t מיישם שינוי קנה מידה מאוזן יותר של יחידת עיבוד וקטורי (VPU). כך אפשר לחפוף בין משימות רצופות חיוניות – כמו קוונטיזציה, softmax ו-layernorms – לבין הכפל מטריצות הכבד שמתרחש ב-MXU, וכך למעשה מבטל את הזמן הלא מטריציוני שבו ליבות החישוב היו במצב המתנה [cite: 6, 15]. כתוצאה מהאופטימיזציות האלה בארכיטקטורה, שבב TPU 8t יחיד מספק עוצמת מחשוב מדהימה של 12.6 PFLOPs של FP4 [cite: 15, 23].

בנוסף, בניגוד ל-TPU 8t, שמתמקד בהסקת מסקנות, הוא שומר על בלוקי SparseCore המיוחדים שהוצגו בדורות קודמים [cite: 1, 6, 15]. עומסי עבודה כבדים של הטמעה – נפוצים במודלים בסיסיים מולטי-מודאליים ובמערכות המלצות – מציגים דפוסי גישה לא סדירים לזיכרון שמשבשים את פעולת ה-GPU המסורתי. ה-SparseCore פועל באופן אסינכרוני, ומבצע פעולות של איסוף נתונים תלויים וחיפושי הטמעה [cite: 6, 15]. על ידי הפרדה בין מתמטיקה של מטריצות צפופות ל-MXU ופעולות דלילות ל-SparseCore,‏ TPU 8t מונע את צווארי הבקבוק של 'אפס פעולות' שגורמים להשהיות בחישובים [cite: 6, 15].

רוחב פס, אחסון נתונים ו-TPUDirect

כדי לספק נתונים ליחידות MXU המואצות מאוד שפועלות ב-FP4, ‏ TPU 8t דורש רוחב פס מקומי ומצטבר קיצוני. לכל שבב יש 216GB של HBM3e, שפועל במהירות של 6,528GB/s [מקורות: 15, 24]. עם זאת, במודלים פורצי דרך, מגבלת המערכת עוברת לעיתים קרובות ממהירות העיבוד של הסיליקון למהירות שבה מרכז הנתונים יכול לקלוט פטה-בייט של נתוני אימון מאחסון נתונים בשימוש נדיר (cold storage).

כדי לעקוף את צוואר הבקבוק בנתיב הנתונים המסורתי, Google שילבה את TPUDirect RDMA ואת TPUDirect Storage [מקורות: 5, 6, 10]. הפרוטוקולים האלה מאפשרים גישה ישירה לזיכרון (DMA) בין הזיכרון בעל רוחב הפס הגבוה של ה-TPU לבין מערכי אחסון מנוהלים ברשת, כמו Google Cloud Managed Lustre 10T [מקורות: 6, 15]. באמצעות ניתוב נתונים ישירות ממערכת הקבצים המקבילית של Lustre אל ה-TPU דרך כרטיס רשת (NIC), ‏ TPUDirect עוקף לחלוטין את המעבד המארח ואת ה-DRAM של המארח [מקור: 6]. נתיב הנתונים המיוחד הזה מספק למעשה האצה של פי 10 במהירויות הגישה לאחסון בהשוואה לאימון בדור TPU 7x, וכך יחידות המחשוב של TPU 8t יכולות להטמיע מערכי נתונים מולטי-מודאליים בקצב קבוע ללא מחסור [מקורות: 5, 6, 15].

תשתית בקנה מידה עצום: רשת Virgo

ההישג הארכיטקטוני המדהים ביותר של מערכת TPU 8t הוא יכולת הרישות שלה, שמעבירה את מגבלת המערכת באופן חד משמעי ממחשוב מקומי לרוחב פס בקנה מידה של מרכז נתונים [מקור: 25, 26].

‫TPU 8t שומר על קישוריות הטורוס התלת-ממדי הבסיסית לתקשורת מקומית בין חבילות של שבבים – הרחבה לעד 9,600 שבבים ו-2 פטה-בייט של HBM משותף בתוך סופר-פוד יחיד – אבל המבנה של הרחבת הקיבולת עוצב מחדש לחלוטין [מקורות: 5, 6, 15]. הסופר-פוד משיג יכולת מחשוב של 121 אקסה-פלופים של FP4, עלייה של פי 2.8 לעומת 42.5 אקסה-פלופים של TPU 7x [מקור: 6]. כדי לתמוך בכך, רוחב הפס של ה-ICI בתוך ה-Pod הוכפל ל-19.2 Tb/s לכל שבב [מקורות: 4, 6, 10].

עם זאת, כדי לחבר מאות סופר-פודים כאלה, Google בנתה את רשת Virgo [מקורות: 1, 6]. ברשת הקודמת, Jupiter, נעשה שימוש בטופולוגיית Clos בת שלוש שכבות, שניתבה את התנועה דרך כמה רמות של מתגים, מה שהוביל לבעיות של חביון וצווארי בקבוק ברוחב הפס (עד 100Gbps לכל שבב) [מקור: 25].

‫Virgo היא רשת שניתנת להרחבה, שמבוססת על מתגים עם בסיס גבוה (ניהול של 256 עד 512 יציאות) ומשתמשת בטופולוגיה שטוחה, דו-שכבתית ולא חוסמת [cite: 6, 15, 25]. מערכת Virgo מקצרת את זמן האחזור באופן משמעותי על ידי ביטול שכבות רשת. הרשת מבוססת על עיצוב רב-מישורי עם דומיינים עצמאיים של בקרה, ומספקת עד 400% (פי 4) יותר רוחב פס גולמי של רשת מרכזי נתונים (DCN), עם מעבר ל-400 גיגה-ביט לשנייה לכל שבב [מקורות: 6, 15, 24].

מערכת Virgo אחת יכולה לקשר בין יותר מ-134,000 שבבי TPU 8t במתקן מרכז נתונים יחיד, ולספק רוחב פס דו-כיווני של 47 פטה-ביט לשנייה ללא חסימה [מקורות: 1, 6, 15]. בנוסף, TPU 8t משולב עם תוכנת Pathways של Google ועם מסגרת JAX, ומאפשר לאשכולות אימון מבוזרים להתרחב מעבר למיליון שבבים בכמה אתרים גיאוגרפיים כמשימת אימון לוגית יחידה [cite: 1, 6, 15]. ההישג הזה הופך תשתית שמפוזרת ברחבי העולם למחשב-על יחיד וחלק, ומתעלה באופן משמעותי על מגבלות ההתאמה הנוכחיות של GPU למטרות כלליות [מקור: 27].

הגדרה מחדש אוטונומית ו-97% Goodput

בסדר גודל של מאות אלפי שבבים, כשלים בחומרה – החל ממכשירי משדר/מקלט שנשרפו ועד להגבלת מהירות עקב התחממות יתר – הם עניין סטטיסטי ולא מקרים חריגים. במערכות מדור קודם, עצירה אחת ברשת עלולה לעצור תהליך אימון נרחב, ולדרוש ביצוע שחזור מורכב ויקר לנקודת ביקורת קודמת. בסביבה של מודלים מתקדמים, כל אחוז של יעילות שאובדת מתורגם לימים של זמן אימון פעיל [cite: 5, 6].

מערכת האקולוגית של TPU 8t מכוונת ל-97% של 'תפוקה' – מדד שמגדיר את היחס בין זמן מחשוב שימושי ופרודוקטיבי לבין זמן הפעולה הכולל [מקור: 6, 28]. אנחנו משיגים את זה באמצעות יכולות מתקדמות של אמינות, זמינות ושמישות (RAS), שמבוססות על מיתוג מעגלים אופטיים (OCS) [מקורות: 5, 6, 25]. באמצעות טלמטריה בזמן אמת שמנתחת עשרות אלפי שבבים, המערכת יכולה לזהות באופן אוטונומי קישורי חיבור בין שבבים פגומים. ה-OCS מנתב מחדש פיזית את נתיבי האור האופטי כדי לעקוף כשלים בחומרה בזמן אמת, ללא צורך בהתערבות אנושית, וחשוב מכך, ללא הפרעה לעבודת האימון הפעילה [מקורות: 5, 6, 28].

סקירה מפורטת: TPU 8i (מנוע ההסקה)

אם TPU 8t הוא תרגיל בהרחבה קיצונית של כוח מחשוב, TPU 8i הוא שיעור אמן באופטימיזציה של זמן האחזור ובארכיטקטורת הזיכרון [מקור: 6]. כשהמודלים עוברים לייצור בזמן אמת, במיוחד מודלים גדולים של Mixture-of-Experts ‏ (MoE) וקבוצות של סוכנים, תפוקת המחשוב הגולמית הופכת לפחות רלוונטית מהמהירות שבה אפשר לגשת לזיכרון ולנתב אותו ברשת [מקור: 21, 29].

Breaking the Inference Memory Wall

בשיטה של יצירה אוטומטית רגרסיבית, מודל יוצר טוקנים של פלט באופן רציף. עם כל טוקן חדש שנוצר, המודל צריך להתייחס להיסטוריה גדלה של כל הטוקנים הקודמים וליחסים המתמטיים ביניהם, שנקראים מטמון של זוגות מפתח-ערך (KV) [מקורות: 1, 13]. במודלים עם הקשר ארוך שמנתחים מאות אלפי טוקנים, גודל המטמון הזה גדל מאוד. אם המטמון חורג מהקיבולת של הזיכרון המהיר המובנה של השבב ועובר לזיכרון המארח של המעבד, שהוא איטי יותר, כל תהליך החישוב נעצר – תופעה שמוכרת בשם 'מחסום הזיכרון' [מקורות: 5, 8].

‫TPU 8i נועד במיוחד כדי לשבור את המחסום הזה. למרות שמדובר בעיצוב סיליקון פשוט יותר וחסכוני יותר – עם שבב חישוב יחיד ושבב קלט/פלט אחד עם שש ערימות של HBM3e – קיבולות הזיכרון שלו מותאמות במיוחד להצגת נתונים [cite: 9]. * קיבולת ורוחב פס של HBM: כל TPU 8i מצויד ב-288GB של HBM3E, שמייצג עלייה של 50% בקיבולת לעומת TPU 7x [cite: 5, 24, 30]. חשוב מכך, מכיוון שמודלים גדולים של MoE מוגבלים על ידי רוחב הפס של הזיכרון במהלך ההסקה, רוחב הפס של הזיכרון מגיע ל-8.6TB/s (כ-8,601GB/s) – מהירות גבוהה פי 1.3 בערך לעומת TPU 8t שמתמקד באימון [cite: 10, 15]. * SRAM עצום על השבב: השינוי הכי חשוב בחומרה הוא הכללת 384MB של זיכרון סטטי עם גישה אקראית (SRAM) על השבב לכל שבב [cite: 10, 15, 30]. מדובר בעלייה עצומה של 300% (פי 3) לעומת TPU 7x ו-TPU 8t [cite: 10, 15, 30]. ‏ SRAM הוא הזיכרון הכי מהיר עם הכי פחות זמן אחזור שזמין ישירות במטריצת הסיליקון. על ידי הכפלת הקיבולת הזו פי 3,‏ TPU 8i יכול לארח מטמוני KV עצומים על השבב [cite: 15, 16]. כך ליבות העיבוד לא נשארות במצב סרק בזמן ההמתנה לאחזור היסטוריית הטוקנים מרמות זיכרון איטיות יותר, מה שמאפשר לולאות של נימוקים עם מקביליות גבוהה לפעול בצורה חלקה במיוחד [cite: 5, 15].

The Collectives Acceleration Engine (CAE)

מכיוון שיעד השימוש ב-TPU 8i הוא הסקת מסקנות, השימוש ביחידת SparseCore ב-7x וב-8t לחיפושי הטמעה נחשב לשימוש לא יעיל בשטח הסיליקון עבור עומס העבודה הספציפי הזה. במקומו, מהנדסי Google הציגו בלוק חומרה קנייני שנקרא Collectives Acceleration Engine ‏ (CAE) [מקורות: 10, 15].

במהלך פענוח אוטומטי רגרסיבי ועיבוד של 'שרשרת מחשבות', ליבות שונות צריכות להשהות לעיתים קרובות את החישובים האישיים שלהן כדי לצבור, לצמצם ולסנכרן את התוצאות המתמטיות שלהן על פני השבב [מקורות: 6, 15]. פעולות הסנכרון הגלובליות האלה עלולות לגרום לצוואר בקבוק חמור בנתוני ההשהיה, במיוחד כשאלפי סוכנים עצמאיים פותרים בעיה בו-זמנית.

בכל שבב TPU 8i, יש שני TensorCore ב-core dies, ו-CAE אחד ב-chiplet die (במקום ארבעת ה-SparseCore שנמצאים ב-TPU 7x) [מקור: 6, ‏ 15]. ה-CAE המיוחד מתוכנן לצבירת תוצאות בין ליבות עם השהיה כמעט אפסית, וכתוצאה מכך יש הפחתה יוצאת דופן של פי 5 בהשהיה הקולקטיבית בשבב בהשוואה לדור TPU 7x [מקור: 10, ‏ 15]. באמצעות האצת החומרה של שלבי ההפחתה ששולטים בתהליכי עבודה של סוכנים, ה-CAE מבטיח שהמערכת תשמור על תפוקה גבוהה בלי לפגוע בתגובה בזמן אמת [מקור: 6, ‏ 15].

השטחת הרשת: טופולוגיית Boardfly

תכונה חשובה של TPU 8i היא ההסתמכות המלאה על טופולוגיית טורוס תלת-ממדית. בעוד שטבעת תלת-ממדית היא יוצאת דופן להעברת נתונים משכן לשכן שנדרשת באימון מוקדם, היא יוצרת מרחקים פיזיים ארוכים מדי – שנמדדים בקפיצות ברשת – לניתוב טוקנים מכולם לכולם שנדרש במודלים של הסקה מסוג MoE [מקור: 2, 15]. בארכיטקטורות של MoE, יכול להיות שיהיה צורך לנתב כל טוקן לשכבת "מומחה" ספציפית שנמצאת על שבב שונה לגמרי בתוך ה-pod. בטורוס רגיל, מנות הנתונים האלה צריכות לעבור באופן רציף דרך שבבים מתווכים כדי להגיע ליעד.

כדי לפתור את הבעיה הזו, Google תכננה ארכיטקטורת רשת חדשה שעברה אופטימיזציה להצגת מודעות, שנקראת Boardfly [מקור: 15, 31]. ‫Boardfly היא רשת היררכית עם בסיס גבוה, שנוצרה בהשראת עקרונות הטופולוגיה של Dragonfly. היא נועדה לשטח את הארכיטקטורה ולמזער את המרחק הפיזי בין כל שני שבבים [מקורות: 2, 15, 26].

הטופולוגיה של Boardfly בנויה בהיררכיה: ‫1. אבן הבניין: ארבעה צ׳יפים של TPU 8i שמחוברים באופן מלא יוצרים אבן בניין בסיסית עם קישורי ICI פנימיים [מקורות: 6, 16]. 2. הלוח: שמונה אבני בניין מחוברות באופן מלא באמצעות כבלי נחושת ישירים ויוצרות לוח אחד [מקור: 6, 16]. 3. ה-Pod: 36 קבוצות מקושרות באופן מלא באמצעות מתגי מעגלים אופטיים וקישורים אופטיים ישירים למרחקים ארוכים, ויוצרות Pod מאוחד של 1,152 שבבים [מקורות: 5, 6, 16, 32].

היתרון של הגישה הזו מבחינת זמן האחזור הוא משמעותי. בתצורת טורוס תלת-ממדית רגילה עם 1,024 שבבים, יכול להיות שחבילת נתונים תצטרך לעבור קוטר רשת מקסימלי של 16 קפיצות [מקורות: 15, 25]. בטופולוגיה של Boardfly, קוטר הרשת המקסימלי הזה מצטמצם ל-7 קפיצות בלבד [מקורות: 15, 25].

הקיטון הזה של 56% בקוטר הרשת מתורגם לשיפור משמעותי של 50% בזמן האחזור של הזנב עבור עומסי עבודה של הסקת מסקנות עתירת תקשורת [מקורות: 16, 25, 30]. בסופו של דבר, הסקת המסקנות מוגבלת על ידי המהירות של הצומת הכי איטי שלה. על ידי קיצוץ זמן האחזור של הזנב, טופולוגיית Boardfly מבטיחה ש-CAE אף פעם לא יישאר במצב סרק בזמן ההמתנה להעברת נתוני הטוקנים ב-pod [מקורות: 6, 15].

בנוסף, בגלל החיבור האופטי המאוד קוהרנטי הזה, מארז TPU 8i יחיד עם 1,152 שבבים פועל כזיכרון משותף מאוחד ועצום של 331.8TB של HBM קוהרנטי [מקור: 16].

השוואת ביצועים, כלכלה ותשתית מערכת

הפיצול הארכיטקטוני מוביל לשיפורים משמעותיים גם בחישובים הכלכליים וגם ביעילות האנרגטית. הערכת החומרה רק על סמך פעולות נקודה צפה תיאורטיות בשיא מתעלמת מהמציאות המערכתית של פעולות מרכזי נתונים ומהפעלת תוכנה.

הפשטת תוכנה ותמיכה במסגרות

למרות ההבדלים בבסיס החומרה, Google השקיעה מאמצים רבים בשמירה על מחסנית תוכנה מאוחדת של AI, שמתמקדת בביצועים, כדי למנוע נעילה של מסגרות. גם TPU 8t וגם 8i מציעים תמיכה מקומית ב-JAX, ‏ Keras, ‏ MaxText, ‏ SGLang ובמנוע vLLM [מקורות: 5, 8, 14, 17]. בנוסף, תמיכה מקומית ב-PyTorch (דרך TorchTPU) מאפשרת למפתחים להעביר מודלים קיימים של PyTorch ישירות לסביבת TPU עם תמיכה מלאה בתכונות מקומיות כמו Eager Mode [מקורות: 15, 17].

מאחורי הקלעים, קומפיילר אלגברה לינארית מואצת (XLA) מטפל בתרגום המורכב של טופולוגיית Boardfly ובסנכרון CAE, ומאפשר למפתחים לכתוב ליבות מותאמות אישית ב-Python (באמצעות Pallas ו-Mosaic) בלי צורך לתכנת ידנית את החיבורים האופטיים [cite: 15].

מדדי ביצועים כמותיים

בטבלה שלמטה מוצג סיכום של המפרטים הטכניים העיקריים של ארכיטקטורות TPU 7x המאוחדות ו-TPU 8t ו-8i המיוחדות [מקורות: 3, 15, 24].

מטריצת המפרטים	TPU 7x	TPU 8t	TPU 8i
עומס עבודה ראשי	מאוחד (אימון והסקת מסקנות)	אימון מראש בקנה מידה גדול	הסקה רגישה לזמן הטעינה
ASIC Design Partner	Broadcom	Broadcom	MediaTek
הטופולוגיה של הרשת	טורוס תלת-ממדי	3D Torus + Virgo Scale-Out	Boardfly (בהשראת שפירית)
חומרה ייעודית	SparseCore	SparseCore	Collectives Acceleration Engine (CAE)
Native Precision Focus	FP8	FP4	‫FP4 (עם תמיכה ב-FP8/INT8)
Peak Compute per Chip	‫4.6 פלופס (FP8)	‫12.6 PFLOPs (FP4)	‫10.1 PFLOPs (FP4)
קיבולת HBM לכל צ'יפ	‫192GB	‫216GB	‫288GB
HBM Bandwidth	‫7.37TB/s	‫6.52TB/s	‫8.60TB/s
SRAM על שבב (VMEM)	128‎ MB	128‎ MB	‫384MB
רוחב פס בין שבבים (הגדלה)	‫9.6 Tb/s	‫19.2 Tb/s	‫19.2 Tb/s
גודל מקסימלי של Pod או Superpod	‫9,216 צ'יפים	‫9,600 צ'יפים	‫1,152 צ'יפים

אופטימיזציה של עלות-ביצועים ושל עלות כוללת של בעלות (TCO)

‫Google טוענת שהדור השמיני מציע שיפורים משמעותיים בעלות הכוללת של הבעלות (TCO). ה-TPU 8t מספק שיפור של 170% עד 180% – ששווה לשיפור של פי 2.7 עד פי 2.8 – בביצועים לכל דולר לאימון בקנה מידה גדול בהשוואה ל-TPU 7x [מקור: 6, 15, 30]. בינתיים, ה-TPU 8i מציע שיפור של 80% בביצועים לכל דולר להסקת מסקנות, במיוחד ביעדים של השהיה נמוכה שנדרשים למודלים גדולים של MoE [מקור: 15, 16, 30].

הרווחים הכלכליים האלה נובעים לא רק מהסיליקון, אלא משילוב מערכתי מלא. בעבר, יחידות TPU שויכו למעבדי מארח x86 מדף. במצבים שבהם נדרשת עיבוד מקדים אינטנסיבי של נתונים או לוגיקה מורכבת של סוכן, המארח x86 יוצר לעיתים קרובות צוואר בקבוק במערכת, ומשאיר את סיליקון ה-TPU המהיר במיוחד במצב המתנה, אבל ללא נתונים [מקור: 6, 7].

בדור השמיני, חוסר האיזון הכרוני הזה נפתר באמצעות אירוח של 8t ו-8i באופן בלעדי במעבדי Axion מותאמים אישית של Google שמבוססים על ARM [מקורות: 6, 7, 15]. השרתים של Axion מבוססים על ארכיטקטורת הליבה Neoverse N3 Armv9.2, ומספקים בסיס מאוחד ומותאם במיוחד [מקורות: 18, 19]. ב-TPU 8i, שמתבסס על הסקה, Google שילבה את המארחים של Axion ביחס של 2:1 בין TPU ל-CPU, והכפילה את מספר המארחים הפיזיים של ה-CPU לכל שרת בהשוואה ל-TPU 7x [cite: 5, 6, 32]. המערכת משתמשת בארכיטקטורת Non-Uniform Memory Access‏ (NUMA) קפדנית לבידוד עומסי עבודה, ומבטיחה לוקאליות זיכרון מעולה ומסירה לחלוטין את צוואר הבקבוק של הכנת הנתונים [מקורות: 5, 7].

יעילות אנרגטית והשלכות על השוק

צפיפות האנרגיה והזמינות של החשמל הופכות במהירות למגבלות המחייבות העיקריות בפריסה של מרכזי נתונים מודרניים. באמצעות קירור נוזלי מהדור הרביעי וניהול צריכת חשמל משולב בזמן אמת, שמתאים באופן דינמי את צריכת החשמל על סמך שלבים ספציפיים של עומס עבודה (למשל, חישוב פעיל לעומת מצב סרק לצורך תקשורת), גם TPU 8t וגם TPU 8i משיגים יעילות אנרגטית מדהימה [cite: 7, 15, 22, 24]. ב-8t יש שיפור של 124% בביצועים לוואט, וב-8i יש שיפור של 117%, כך שבסך הכול יש שיפור של פי 2 (100%+) ביעילות האנרגטית בהשוואה ל-TPU 7x [מקורות: 15, 22, 30].

ההשלכות של היעילות הזו ניכרות במודלים המתקדמים של Google. המדדים של גרסת הטרום-השקה של Gemini 3.1 Pro מצביעים על כך שפריסת המודל בארכיטקטורה של TPU 8i מובילה לירידה של כ-50% בעלות של ממשקי API להסקת מסקנות, לצד שיפור משמעותי בתגובתיות וביכולות הטיפול בהקשרים ארוכים [cite: 24, 30].

הסביבה התחרותית: Google לעומת Merchant Silicon

להחלטה של Google לפצל את אסטרטגיית הסיליקון שלה יש השלכות משמעותיות על הסביבה העסקית הרחבה של חומרת בינה מלאכותית, במיוחד בהתחשב בתחרות המתמשכת שלה עם ספקי סיליקון מסחריים כמו Nvidia, ובמידה פחותה יותר, AMD ו-AWS (עם פלטפורמת Trainium3 שלה) [מקור: 17, 23].

חברת Nvidia שמרה לאורך השנים על אסטרטגיית ארכיטקטורה מאוחדת, והשתמשה בפלטפורמות כלליות עם יכולות גבוהות כמו Blackwell B200 ו-Vera Rubin NVL72 כדי לטפל גם בהסקה בזמן אמת וגם באימון מראש [מקורות: 2, 9]. כשבוחנים את המפרטים של שבב יחיד בלבד, ל-Nvidia יש יתרונות מסוימים. לדוגמה, טכנולוגיית NVLink של Nvidia תומכת ברוחבי פס של חיבורים בין מכשירים של 14.4Tb/s, ומעבדי GPU מסוג Rubin מציעים בערך 50 PFLOPs של NVFP4 inference compute – הרבה יותר מ-10.1 PFLOPs של TPU 8i [מקור: 2, 9].

עם זאת, ההימור הארכיטקטוני של Google מבוסס על ההנחה שהעתיד של הבינה המלאכותית תלוי ביעילות בסדר גודל של אשכול, ולא ביכולות שיא של שבב יחיד [מקור: 9].

במעבר לטופולוגיית Boardfly,‏ Google יוצרת מאגר זיכרון משותף ועקבי לחלוטין בכל 1,152 השבבים ב-TPU 8i pod [מקור: 16]. התוצאה היא קיבולת כוללת של 11.6 FP8 ExaFlops ו-331.8TB של HBM מאוחד ועקבי [מקורות: 6, 16]. לעומת זאת, עקביות סטנדרטית של Nvidia GPU בקנה מידה של מתלה ב-NVL72 מגיעה ל-72 GPUs ולכ-20.7TB של HBM [מקור: 2, 16]. כדי להגדיל את מספר ה-GPU לשימוש כללי כך שיתאים להגדרה של 1,152 שבבים, צריך לגשר בין כ-16 מתלים נפרדים [מקור: 16]. ההפרדה הפיזית הזו פוגעת בעקביות הזיכרון האמיתית וגורמת לעיכובים חמורים שפוגעים באופן משמעותי בהסקת מסקנות רציפה של סוכנים עם הקשר ארוך [cite: 16].

בנוסף, כדי לאפשר את ההיררכיה של Boardfly, Google משנה באופן מהותי את שרשרת האספקה של רשתות אופטיות, ויוצרת ביקוש עצום במורד הזרם למשדרים וללייזרים מיוחדים מספקים כמו Lumentum ו-Coherent [מקור: 26]. לשם כך, Google מעבירה את המיתוג האופטי של מעגלים (OCS) לחלק התחתון של הערימה.

בסופו של דבר, פילוסופיית העיצוב של Google מבוססת על ההנחה שזירת הקרב האמיתית בסוף שנות ה-20 של המאה ה-21 לא תיקבע על ידי תפוקה מתמטית מקסימלית על שבב סיליקון יחיד, אלא על ידי היכולת לעקוף את מגבלת הזיכרון, להרחיב במהירות את הקישוריות בין אתרים ולהוזיל את העלות המוחלטת לכל טוקן של פריסת נחילי סוכנים בזמן אמת למיליארדי משתמשים [מקורות: 6,‏ 16,‏ 17].

סיכום

המסלול של יחידות עיבוד טנסור (TPU) של Google Cloud, החל מהמסגרת המאוחדת של TPU 7x ועד לדיכוטומיה המיוחדת מאוד של TPU 8t ו-TPU 8i, משקף את ההתבגרות והתיעוש של עומסי עבודה של בינה מלאכותית. סיליקון מאוחד לשימוש כללי – שהיה בסיס לפריצת הדרך הראשונית של למידה עמוקה – כבר לא מספיק כדי להניע את הכלכלה או את הביצועים הנדרשים בשוליים הקיצוניים של עידן הסוכנים.

‫TPU 8t מייצג שאיפה בלתי מתפשרת להרחבת קנה המידה. הוא מתוכנן לקליטה ולעיבוד של נתונים בכמות שנחשבה בעבר לבלתי אפשרית, באמצעות שמירה של SparseCore, הטמעה של דיוק FP4 מקורי להכפלת התפוקה של MXU, ויכולות מדהימות של Virgo Network ו-TPUDirect Storage. הוא מנטרל ביעילות את מגבלות רוחב הפס של הרחבת קנה המידה במרכזי נתונים מודרניים, ומאפשר למיליוני שבבים לפעול כמנוע יחיד של אימון מוקדם שמפוזר באופן גלובלי.

לעומת זאת, TPU 8i הוא תרגיל בביטול זמן אחזור וביעילות כלכלית. ה-TPU 8i מפרק באופן שיטתי את חומת הזיכרון של ההסקה. הוא עושה זאת על ידי נטישת הטופולוגיה של הטורוס התלת-ממדי לטובת הטופולוגיה ההיררכית של Boardfly, הכפלת ה-SRAM שבשבב פי שלושה ל-384MB והצגת מנוע האצת ה-Collectives להאצת הסנכרון האוטומטי הרגרסיבי. הוא מבטיח שמטמוני ה-KV הענקיים שנדרשים להסקת מסקנות מורכבת ומרובת שלבים של סוכנים יוכלו להישאר מקומיים ונגישים עם זמן אחזור כמעט אפסי, וכל זאת תוך צמצום עלויות הייצור באמצעות תכנון לוגי יעיל.

הדור השמיני המפוצל, שמתארח במעבדי Axion מבוססי ARM משולבים לחלוטין ומנוהל על ידי מיתוג אוטונומי של מעגלים אופטיים, יוצר פרדיגמה חדשה בתשתית היפר-סקייל. הוא משמש כהצהרה אדריכלית חד-משמעית שלפיה העתיד של הבינה המלאכותית דורש לא רק שבבים מהירים יותר, אלא מסגרות חומרה שונות באופן מהותי, שתוכננו במשותף במיוחד לעומסי העבודה השונים שהן מיועדות לשרת.

מקורות: ‫1. moorinsightsstrategy.com ‫2. thenewstack.io ‫3. google.com ‫4. dev.to ‫5. blog.google ‫6. i-scoop.eu ‫7. kad8.com ‫8. google.com ‫9. thenextweb.com ‫10. medium.com ‫11. introl.com ‫12. dev.to ‫13. google.com ‫14. google.dev ‫15. קישור ‫16. io-fund.com ‫17. hyperframeresearch.com ‫18. wccftech.com ‫19. letsdatascience.com ‫20. youtube.com ‫21. techzine.eu ‫22. itpro.com ‫23. tomshardware.com ‫24. reddit.com ‫25. substack.com ‫26. substack.com ‫27. google.com ‫28. techtarget.com ‫29. thediligencestack.com ‫30. reddit.com ‫31. wandb.ai ‫32. servethehome.com