วิวัฒนาการของปัญญาประดิษฐ์ (AI) จากโมเดลภาษาขนาดใหญ่พื้นฐานไปจนถึงระบบ Agent แบบหลายขั้นตอนที่ซับซ้อนได้กระตุ้นให้เกิดการเปลี่ยนแปลงกระบวนทัศน์พื้นฐานในการออกแบบเซมิคอนดักเตอร์ เป็นเวลาเกือบ 10 ปีแล้วที่ตรรกะที่แพร่หลายในสถาปัตยกรรมตัวเร่งความเร็วของปัญญาประดิษฐ์คือการรวมเป็นหนึ่งเดียว นักออกแบบซิลิคอนพยายามออกแบบสถาปัตยกรรมแบบเอกพจน์และแบบโมโนลิธที่สามารถดำเนินการพร้อมกันกับปริมาณงานขนาดใหญ่ที่มีอัตราการส่งข้อมูลสูงของการฝึกโมเดลล่วงหน้าควบคู่ไปกับความต้องการที่มีความไวต่อเวลาในการตอบสนองของการอนุมานในเวอร์ชันที่ใช้งานจริง [อ้างอิง: 1, 2] แนวทางแบบครบวงจรนี้ครอบงำอุตสาหกรรมตั้งแต่เริ่มมีตัวเร่งความเร็วฮาร์ดแวร์ตัวแรกไปจนถึงการใช้งาน Cloud Tensor Processing Unit (TPU) ของ Google Cloud รุ่นที่ 7 [อ้างอิง: 2, 3, 4]
อย่างไรก็ตาม เมื่อโมเดลฟรอนเทียร์ขยายขนาดเป็นพารามิเตอร์หลายล้านล้านและสถาปัตยกรรมการให้เหตุผลแบบเรียลไทม์ เช่น Mixture-of-Experts (MoE) และวงจรความคิดเห็นของ Agent แบบต่อเนื่อง กลายเป็นมาตรฐาน ข้อกำหนดด้านฮาร์ดแวร์สำหรับการฝึกและให้บริการก็แยกออกไปอย่างถาวร [อ้างอิง: 5, 6, 7] การฝึกแบบล่วงหน้าได้กลายเป็นปัญหาการเพิ่มประสิทธิภาพแบนด์วิดท์และอัตราการส่งข้อมูล ซึ่งต้องใช้ความสามารถในการเพิ่มขนาดที่น่าทึ่ง แบนด์วิดท์แบบแบ่งครึ่งของการเชื่อมต่อขนาดใหญ่ และความอิ่มตัวของคณิตศาสตร์เมทริกซ์อย่างต่อเนื่อง [อ้างอิง: 6] ในทางกลับกัน การแสดงผลแบบเอเจนต์กลายเป็นปัญหาที่จำกัดด้วยเวลาในการตอบสนองและหน่วยความจำ โดยจำกัดด้วยความเร็วที่สามารถสตรีมน้ำหนักและแคชคีย์-ค่า (KV) ไปยังคอร์ประมวลผลได้โดยไม่เกิดคอขวดในการดำเนินการซิงค์ทั่วโลก [อ้างอิง: 6, 8]
Google ตระหนักดีว่าการบังคับให้เวิร์กโหลดทั้ง 2 แบบทำงานบนซิลิคอนที่เหมือนกันจะส่งผลให้เกิดความไม่มีประสิทธิภาพในระบบและผลตอบแทนทางเศรษฐกิจลดลง จึงตัดสินใจด้านสถาปัตยกรรมที่ไม่เคยมีมาก่อนในการแยกสายผลิตภัณฑ์ TPU รุ่นที่ 8 ออกเป็น 2 รุ่น [อ้างอิง: 1, 6, 9] ผลลัพธ์ที่ได้คือชิป 2 ตัวที่แตกต่างกันอย่างชัดเจนและมีความเชี่ยวชาญสูง ซึ่งได้รับการออกแบบมาจนถึงระดับซัพพลายเชน ได้แก่ TPU 8t ซึ่งออกแบบมาเพื่อรองรับปริมาณงานการฝึกขนาดใหญ่ในระดับซูเปอร์คอมพิวเตอร์ และ TPU 8i ซึ่งออกแบบมาเพื่อทำลายขีดจำกัดด้านหน่วยความจำของการอนุมานและลดเวลาในการตอบสนองโดยรวมสำหรับการให้เหตุผลทั่วโลก [อ้างอิง: 7, 9]
รายงานการค้นคว้าข้อมูลที่ครอบคลุมนี้จะวิเคราะห์ความแตกต่างด้านสถาปัตยกรรม ประสิทธิภาพ และการปรับขนาดระหว่างพื้นฐานแบบรวมของ TPU 7x กับ TPU 8t และ TPU 8i ที่แยกออกใหม่ การวิเคราะห์นี้จะอธิบายถึงความจำเป็นในการใช้ซิลิคอนเฉพาะทางเพื่อรองรับการปรับขนาดทางเศรษฐกิจและการคำนวณของปัญญาประดิษฐ์ (AI) รุ่นถัดไปผ่านการตรวจสอบการออกแบบตรรกะ ลำดับชั้นของหน่วยความจำแบบหลายระดับ โทโพโลยีการเชื่อมต่อศูนย์ข้อมูล การสลับวงจรแบบออปติคัล และการออกแบบร่วมระหว่างฮาร์ดแวร์กับซอฟต์แวร์อย่างละเอียด
บริบททางประวัติศาสตร์: เส้นทางการมุ่งสู่ความเชี่ยวชาญเฉพาะทาง
หากต้องการทำความเข้าใจการเปลี่ยนแปลงทางสถาปัตยกรรมในรุ่นที่ 8 อย่างเต็มที่ คุณต้องติดตามวิวัฒนาการแบบวนซ้ำของตระกูล TPU การพัฒนาฮาร์ดแวร์ของ Google สะท้อนให้เห็นถึงคอขวดที่พบได้ทั่วไปในโมเดลแมชชีนเลิร์นนิงร่วมสมัยอย่างต่อเนื่อง โดยเปลี่ยนจากการเร่งความเร็วการอนุมานแบบง่ายไปเป็นการฝึกแบบคลัสเตอร์ขนาดใหญ่ [อ้างอิง: 10, 11]
ตั้งแต่การอนุมานไปจนถึงอาร์เรย์เมทริกซ์ขนาดใหญ่
Google เปิดตัว TPU v1 ในปี 2015 ในฐานะตัวเร่งความเร็วสำหรับการอนุมานเท่านั้น ซึ่งออกแบบมาเพื่อรองรับภาระการประมวลผลที่เพิ่มขึ้นของบริการภายใน เช่น Search, Translate และคำแนะนำของ YouTube [อ้างอิง: 11, 12] โดย v1 ใช้การคำนวณจำนวนเต็ม 8 บิตเพื่อให้การดำเนินการต่อวัตต์ดีขึ้นหลายเท่าเมื่อเทียบกับหน่วยประมวลผลกลาง (CPU) และหน่วยประมวลผลกราฟิก (GPU) แบบอเนกประสงค์ [อ้างอิง: 10, 11] ในปี 2017 TPU v2 ได้เปลี่ยนไปใช้ความสามารถในการฝึกโมเดล โดยเปิดตัวรูปแบบ bfloat16 (BF16) ซึ่งเป็นรูปแบบทศนิยมแบบลอยตัว 16 บิตที่ยังคงช่วงไดนามิกของทศนิยมแบบลอยตัว 32 บิตไว้ในขณะที่ลดการใช้หน่วยความจำลงครึ่งหนึ่ง [อ้างอิง: 10]
รุ่นที่ 3 ถึงรุ่นที่ 5 ได้เพิ่มประสิทธิภาพเครื่องมือหลักในการคำนวณ ซึ่งก็คือหน่วยคูณเมทริกซ์ (MXU) MXU ยังคงเป็นอาร์เรย์ซิสโตลิกขนาด 128x128 มาหลายรุ่น ซึ่งสามารถดำเนินการคูณและสะสมได้ 16,384 รายการพร้อมกัน [อ้างอิง: 4, 10] TPU v4 เปิดตัว "SparseCore" ซึ่งเป็นบล็อกฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อเร่งการค้นหาการฝังและการเข้าถึงหน่วยความจำที่ไม่ปกติ ซึ่งจะช่วยป้องกันไม่ให้ MXU หยุดทำงานชั่วคราวระหว่างการฝึกโมเดลคำแนะนำ [อ้างอิง: 4, 6]
การพัฒนาภูมิประเทศและ Trillium (v6e)
เมื่อโมเดลมีขนาดใหญ่ขึ้น โทโพโลยีการเชื่อมต่อที่จำเป็นต่อการซิงค์การไล่ระดับสีในชิปหลายพันตัวก็พัฒนาขึ้น Google ได้ใช้โทโพโลยีทอรัส 2 มิติสำหรับพ็อดขนาดเล็กที่คุ้มค่า (เช่น v5e และ v6e) ซึ่งช่วยลดความซับซ้อนในการเพิ่มขนาดชิปได้สูงสุด 256 ตัว [อ้างอิง: 4, 10] สำหรับรุ่นที่เพิ่มประสิทธิภาพ (เช่น v4 และ v5p) Google ใช้โทโพโลยีทอรัส 3 มิติ ซึ่งเชื่อมต่อชิปในตารางกริดแบบห่อหุ้ม 3 มิติเพื่อลดเวลาในการตอบสนองของการสื่อสารในพ็อดขนาดใหญ่ขึ้นตั้งแต่ 4,096 ถึง 8,960 ชิป [อ้างอิง: 4]
TPU v6e (Trillium) ซึ่งเปิดตัวในช่วงปลายปี 2024 เป็นรุ่นก่อนหน้ายุคปัจจุบันโดยตรง Trillium แสดงให้เห็นถึงการก้าวกระโดดทางสถาปัตยกรรมครั้งใหญ่ด้วยการขยาย MXU จากอาร์เรย์ 128x128 เป็นอาร์เรย์ 256x256 [อ้างอิง: 10] ซึ่งเพิ่มการดำเนินการคูณสะสมต่อรอบเป็น 4 เท่า เมื่อรวมกับแบนด์วิดท์การเชื่อมต่อระหว่างชิป (ICI) ที่เพิ่มขึ้นเป็น 2 เท่าที่ 3,200 Gbps (13 TB/s แบบสองทิศทางรวม) และหน่วยความจำแบนด์วิดท์สูง (HBM) ขนาด 32 GB ต่อชิป Trillium จึงมีประสิทธิภาพการประมวลผลสูงสุดมากกว่ารุ่นก่อนหน้าถึง 4.7 เท่าในขณะที่ทำงานโดยมีประสิทธิภาพการใช้พลังงานเพิ่มขึ้น 67% [อ้างอิง: 10, 11]
| รุ่น TPU | ปีที่วางจำหน่าย | Primary Innovation | โทโพโลยีและขนาดสูงสุดของพ็อด | สถาปัตยกรรม MXU | การประมวลผลสูงสุดต่อชิป |
|---|---|---|---|---|---|
| TPU v2 | 2017 | พร้อมสำหรับการฝึกครั้งแรก (BF16) | 2D Torus (512 ชิป) | 128x128 | ~45 TFLOPS |
| TPU v4 | 2021 | การเปิดตัว SparseCore | ทอรัส 3 มิติ (4,096 ชิป) | 128x128 | 275 TFLOPS |
| TPU v5e | 2023 | ประสิทธิภาพที่เพิ่มต้นทุนให้เกิดประโยชน์สูงสุด | 2D Torus (ชิป 256 ตัว) | 128x128 | 197 TFLOPS |
| TPU v5p | 2023 | การเพิ่มประสิทธิภาพ | ทอรัส 3 มิติ (ชิป 8,960 ตัว) | 128x128 | 459 TFLOPS |
| TPU v6e (Trillium) | 2024 | การขยาย MXU 256x256 | 2D Torus (ชิป 256 ตัว) | 256x256 | 918 เทราฟลอปส์ |
จุดสูงสุดของสถาปัตยกรรมแบบรวม: TPU 7x
TPU 7x รุ่นที่ 7 ซึ่งเปิดตัวเวอร์ชันสำหรับผู้ใช้ทั่วไปในช่วงปลายปี 2025 แสดงให้เห็นถึงจุดสูงสุดของกลยุทธ์สถาปัตยกรรมแบบรวมของ Google ออกแบบมาเพื่อดำเนินการทั้งการฝึกแบบล่วงหน้าขนาดใหญ่และการอนุมานที่เน้นการถอดรหัสภายในเฟรมเวิร์กสถาปัตยกรรมเดียว TPU 7x ได้ขยายขีดจำกัดของสิ่งที่ตัวเร่งความเร็วแบบอเนกประสงค์สามารถทำได้ [อ้างอิง: 3, 10]
การออกแบบ Dual-Chiplet และการเพิ่มประสิทธิภาพ AlphaChip
การสร้าง TPU 7x จริงๆ เป็นการเปลี่ยนแปลงครั้งใหญ่จากสถาปัตยกรรมแกนตรรกะเดียว (MegaCore) ที่พบใน v4 และ v5p [อ้างอิง: 3] TPU 7x ใช้สถาปัตยกรรมแบบ 2 ชิปเล็ต ชิป TPU 7x เต็มรูปแบบแต่ละชิปประกอบด้วยชิปเล็ต 2 ชิปที่แตกต่างกันและทำงานได้ด้วยตัวเอง ซึ่งเชื่อมต่อกันด้วยอินเทอร์เฟซแบบดาย-ทู-ดาย (D2D) ความเร็วสูงที่เป็นกรรมสิทธิ์ [อ้างอิง: 3] การเชื่อมต่อ D2D นี้ทำงานเร็วกว่าลิงก์ ICI แบบ 1 มิติมาตรฐานถึง 6 เท่า ทำให้ชิปเล็ตสื่อสารกันได้อย่างรวดเร็วในขณะที่ยังคงมีพื้นที่หน่วยความจำเฉพาะของตนเอง [อ้างอิง: 3]
TPU 7x มี TensorCore 2 ตัวและ SparseCore 4 ตัวในชิปแบบรวมเต็มรูปแบบ [อ้างอิง: 3] เลย์เอาต์ทางกายภาพของคอร์เหล่านี้ในเมทริกซ์ซิลิคอนได้รับการเพิ่มประสิทธิภาพโดยใช้ AlphaChip ซึ่งเป็นเครื่องมือการเรียนรู้แบบเสริมกำลังที่เป็นกรรมสิทธิ์ของ Google เพื่อลดความยาวของสายไฟและเพิ่มประสิทธิภาพด้านความร้อน [อ้างอิง: 10] การกำหนดค่าเครื่องเสมือน (VM) มาตรฐานสำหรับ TPU 7x จะเชื่อมต่อชิป 4 ตัวกับโฮสต์ CPU ซึ่งแสดง vCPU 224 รายการและ RAM 960 GB [อ้างอิง: 3]
ลำดับชั้นของหน่วยความจำแบบหลายระดับและการจัดรูปแบบความแม่นยำ
คอขวดที่สำคัญในการประมวลผลโมเดลแบบหนาแน่นและ MoE คือการเคลื่อนย้ายข้อมูลอย่างต่อเนื่องระหว่างระดับพื้นที่เก็บข้อมูล TPU 7x มีระบบหน่วยความจำแบบหลายระดับที่แข็งแกร่ง ซึ่งออกแบบมาเพื่อรักษา MXU ที่ขยายให้ทำงานอย่างเต็มประสิทธิภาพ * หน่วยความจำแบนด์วิดท์สูง (HBM3E): ชิป TPU 7x แต่ละชิปมี HBM ขนาด 192 GB ซึ่งให้แบนด์วิดท์หน่วยความจำขนาดใหญ่ถึง 7.37 TB/s (7,380 GBps) [อ้างอิง: 3, 10] ความจุที่เพิ่มขึ้น 6 เท่าเมื่อเทียบกับ Trillium ช่วยให้มีขนาดกลุ่มที่ใหญ่ขึ้นอย่างมากในระหว่างการฝึก และช่วยให้สามารถเก็บแคช KV ขนาดใหญ่ไว้ในชิปในระหว่างการอนุมาน ซึ่งจะช่วยป้องกันไม่ให้เกิดการเพิ่มขึ้นของเวลาในการตอบสนองที่อาจมีค่าใช้จ่ายสูงซึ่งเกี่ยวข้องกับการส่งไปยังหน่วยความจำโฮสต์ที่ช้ากว่า [อ้างอิง: 4, 10, 13] * หน่วยความจำเวกเตอร์ (VMEM): TensorCore แต่ละตัวมี VMEM ขนาด 64 MiB (รวม 128 MB ต่อชิป) ซึ่งทำหน้าที่เป็นพื้นที่ทดลอง SRAM บนชิปที่มีความเร็วสูงมาก VMEM มีแบนด์วิดท์สูงกว่า HBM อย่างมากเมื่อเทียบกับ MXU [อ้างอิง: 3, 14] การปรับแต่ง VMEM ที่กำหนดขอบเขตช่วยให้นักพัฒนาแอปสามารถจัดสรรหน่วยความจำใหม่ระหว่างขอบเขตการคำนวณปัจจุบันและการดึงข้อมูลล่วงหน้าของน้ำหนักในอนาคต ซึ่งจะช่วยให้มีขนาดไทล์เคอร์เนลที่ใหญ่ขึ้น (เช่น ขนาดที่ใช้ใน Flash Attention) และลดการหยุดทำงานของหน่วยความจำ [อ้างอิง: 13, 14] หน่วยความจำโฮสต์ (PCIe): ระบบจะใช้หน่วยความจำโฮสต์ของระบบที่เชื่อมต่อผ่านเครือข่าย PCIe เพื่อลดภาระสถานะและการเปิดใช้งานเครื่องมือเพิ่มประสิทธิภาพ ซึ่งจะช่วยจัดการแรงกดดันด้านหน่วยความจำสำหรับโมเดลที่เกินความจุ HBM [อ้างอิง: 3, 14]
นอกจากนี้ TPU 7x ยังมีการเร่งฮาร์ดแวร์แบบเนทีฟสำหรับความแม่นยำของจุดลอยตัว 8 บิต (FP8) [อ้างอิง: 4, 13] การย้ายข้อมูลจากรูปแบบ 16 บิตมาตรฐาน (BF16 หรือ FP16) ไปยังการแสดง FP8 จะเพิ่มปริมาณงานการคำนวณสูงสุดได้อย่างมีประสิทธิภาพเป็น 2 เท่า ในขณะที่ลดร่องรอยหน่วยความจำที่จำเป็นสำหรับการจัดเก็บน้ำหนักและการเปิดใช้งานลงครึ่งหนึ่ง [อ้างอิง: 4, 13] ชิป TPU 7x เพียงชิปเดียวทำงานใน FP8 โดยให้การคำนวณสูงสุดที่ 4,614 TFLOPS เทียบกับ 2,307 TFLOPS เมื่อทำงานใน BF16 [อ้างอิง: 3, 4]
โทโพโลยีทอรัส 3 มิติและการปรับขนาด Superpod
ที่ระดับศูนย์ข้อมูล TPU 7x ใช้โทโพโลยีการเชื่อมต่อแบบทอรัส 3 มิติที่ได้รับการพิสูจน์แล้วของ Google [อ้างอิง: 3] สถาปัตยกรรมนี้เชื่อมต่อชิปแต่ละตัวกับชิปที่อยู่ใกล้ที่สุดตามแกน X, Y และ Z โดยตรง จึงทำให้เกิดเมช 3 มิติที่ยืดหยุ่น [อ้างอิง: 3] การสื่อสารภายใน Mesh นี้จะใช้แบนด์วิดท์ ICI ขนาด 1.2 TB/s (1,200 GBps) ต่อชิป ซึ่งจะช่วยให้สื่อสารได้แบบ 2 ทางที่ 200 GBps ต่อแกน [อ้างอิง: 3]
TPU 7x Superpod ที่ใช้งานอย่างเต็มรูปแบบจะปรับขนาดเป็นชิปที่ระบายความร้อนด้วยของเหลวจำนวนมหาศาลถึง 9,216 ชิป ในการกำหนดค่านี้ พ็อดจะให้กำลังการประมวลผล FP8 รวม 42.5 ExaFlops [อ้างอิง: 8, 10] ส่วน Slice ที่มีขนาดใหญ่กว่า 64 ชิปจะสร้างขึ้นโดยใช้ "ก้อน" ชิปแบบโมดูลาร์ขนาด 4x4x4 ซึ่งช่วยให้มีโทโพโลยีที่มีความยืดหยุ่นสูงตั้งแต่การกำหนดค่าแบบโฮสต์เดียวไปจนถึงสภาพแวดล้อมแบบหลายโฮสต์ขนาดใหญ่ [อ้างอิง: 3]
แม้ว่า TPU 7x จะมีความสามารถที่ยอดเยี่ยม แต่ลักษณะที่เป็นหนึ่งเดียวของ TPU 7x ก็หมายความว่าต้องมีการประนีประนอมในตัว แม้ว่าโทโพโลยีทอรัส 3 มิติจะมีประสิทธิภาพสูงสำหรับการซิงค์การไล่ระดับที่คาดการณ์ได้และเฉพาะที่ซึ่งจำเป็นในการฝึกแบบล่วงหน้า แต่ก็ทำให้เส้นผ่านศูนย์กลางของเครือข่ายสูง เช่น พ็อดที่มีชิป 1,024 ตัวบนทอรัส 3 มิติมีเส้นผ่านศูนย์กลางเครือข่ายสูงสุด 16 ฮ็อป [อ้างอิง: 15, 16] ในสถานการณ์การอนุมาน MoE ซึ่งต้องกำหนดเส้นทางโทเค็นอย่างรวดเร็วไปยังเลเยอร์ผู้เชี่ยวชาญที่อยู่ในพ็อดทุกที่ ระยะทาง 16 ฮ็อปนี้จะทำให้เกิดเวลาในการตอบสนองที่ส่วนท้ายแบบทั้งหมดต่อทั้งหมดที่ไม่สามารถยอมรับได้ [อ้างอิง: 6, 15, 16] นอกจากนี้ การจัดสรรพื้นที่ซิลิคอนที่มีค่าให้กับ SparseCore ซึ่งมีความโดดเด่นในการค้นหาการฝัง ยังทำให้พื้นที่ที่สามารถใช้สำหรับเครื่องมือลดการรวบรวมซึ่งมีความสำคัญต่อเวิร์กโฟลว์แบบลูกโซ่ของความคิดที่ใช้เอเจนต์ลดลง [อ้างอิง: 6, 15] อุตสาหกรรมนี้มาถึงขีดจำกัดทางกายภาพของตัวเร่งความเร็วแบบ "ขนาดเดียวใช้ได้กับทุกคน" แล้ว
การแยกออกเชิงกลยุทธ์: ปัจจัยขับเคลื่อนทางเศรษฐกิจและสถาปัตยกรรม
การเปลี่ยนจาก TPU รุ่นที่ 7 เป็นรุ่นที่ 8 ถือเป็นการเปลี่ยนแปลงสถาปัตยกรรมที่สำคัญที่สุดในประวัติศาสตร์ซิลิคอนของ Google [อ้างอิง: 9] การแยกสายผลิตภัณฑ์ TPU ออกเป็น 2 ตระกูลผลิตภัณฑ์ที่แตกต่างกัน ได้แก่ TPU 8t สำหรับการฝึก และ TPU 8i สำหรับการอนุมาน ซึ่งประกาศใน Google Cloud Next 2026 เป็นการยอมรับว่าภาระงานที่ขับเคลื่อนปัญญาประดิษฐ์ในทศวรรษหน้าไม่สามารถรวมกันได้ในระดับฮาร์ดแวร์ [อ้างอิง: 1, 2, 17]
การแยกนี้มีต้นกำเนิดมาจากการแยกความแตกต่างทางเศรษฐศาสตร์และความเข้มข้นในการปฏิบัติงานของการพัฒนา AI การฝึก Frontier Model ต้องใช้เงินทุนสูงมาก ซึ่งเป็นการใช้จ่ายในการปฏิบัติงานแบบครั้งเดียวที่วัดผลได้จากการคำนวณอย่างต่อเนื่องเป็นเวลาหลายสัปดาห์หรือหลายเดือน [อ้างอิง: 9] โดยต้องใช้ความหนาแน่นในการคำนวณสูงสุด แบนด์วิดท์การเชื่อมต่อแบบเพิ่มขนาดที่ไม่เคยมีมาก่อน และโดเมนหน่วยความจำแบบรวมหลายเพตะไบต์ที่สามารถรับชุดข้อมูลแบบหลายรูปแบบที่อัตราสาย [อ้างอิง: 9]
ในทางกลับกัน การอนุมานเป็นต้นทุนการดำเนินงานที่เกิดขึ้นอย่างต่อเนื่องซึ่งจะเพิ่มขึ้นแบบเชิงเส้นหรือแบบเอ็กซ์โปเนนเชียลตามความต้องการของผู้ใช้ [9] ใน "ยุคเอเจนต์" ที่กำลังจะมาถึง โมเดล AI ไม่ได้เพียงแค่คาดการณ์โทเค็นถัดไปเพื่อสร้างบล็อกข้อความ แต่ยังใช้เหตุผลอย่างแข็งขัน จำลองสถานการณ์ในอนาคต วนซ้ำผ่าน "จินตนาการ" เรียกใช้ API ภายนอก และโต้ตอบกับฝูงเอเจนต์เฉพาะทางอื่นๆ ในลูปความคิดเห็นอย่างต่อเนื่อง [5, 7, 15] ไดนามิกนี้ต้องใช้หน่วยความจำจำนวนมากเพื่อจัดเก็บหน้าต่างบริบทที่ใช้งานอยู่ และมีความหน่วงของเครือข่ายต่ำมากสำหรับการกำหนดเส้นทางของผู้เชี่ยวชาญและการซิงค์ทั่วโลก [15, 16]
การแยกสายผลิตภัณฑ์ทำให้ Google เพิ่มประสิทธิภาพฮาร์ดแวร์ในซัพพลายเชนได้ TPU 8t ได้รับการออกแบบร่วมกับ Broadcom ซึ่งเป็นพาร์ทเนอร์ที่ร่วมงานกันมาตั้งแต่ปี 2015 [อ้างอิง: 9, 17, 18] ความเชี่ยวชาญของ Broadcom ในการเชื่อมต่อ SerDes ที่ซับซ้อนและมีความเร็วสูง การบรรจุภัณฑ์ขั้นสูง และการเชื่อมต่อเครือข่ายขนาดใหญ่ทำให้ Broadcom เป็นพาร์ทเนอร์ที่เหมาะสมที่สุดในการก้าวข้ามขีดจำกัดทางกายภาพของโครงสร้างพื้นฐานการฝึก [อ้างอิง: 17, 19]
สำหรับชิปการอนุมาน Google ได้ฉีกแนวจากธรรมเนียมเดิมและร่วมมือกับ MediaTek เพื่อออกแบบ TPU 8i [อ้างอิง: 9, 17, 18] Google ได้สร้างตัวเร่งการอนุมานที่ได้รับการเพิ่มประสิทธิภาพด้านต้นทุนอย่างมาก [อ้างอิง: 17, 19] โดยใช้ประโยชน์จากความเชี่ยวชาญที่ลึกซึ้งของ MediaTek ในการออกแบบ SoC สำหรับอุปกรณ์เคลื่อนที่ที่มีประสิทธิภาพด้านพลังงานสูงและมีปริมาณมาก TPU 8i ใช้การออกแบบที่เรียบง่ายกว่า (ชิปประมวลผล 1 ตัวเทียบกับ 2 ตัวของ 8t) ซึ่งมีรายงานว่ามีต้นทุนการผลิตถูกกว่ารุ่นประสิทธิภาพสูงแบบเดิม 20-30% ทำให้ Google สามารถปรับขนาดความสามารถในการให้บริการทั่วโลกได้อย่างประหยัดเพื่อตอบสนองความต้องการของแอปพลิเคชันสำหรับองค์กรและผู้บริโภค [อ้างอิง: 9, 17] ชิปทั้ง 2 ตัวผลิตในโหนดกระบวนการ 2 นาโนเมตรขั้นสูงของ TSMC โดยใช้แพ็กเกจขั้นสูง CoWoS ที่ล้ำสมัยเพื่อผสานรวมไดส์ตรรกะกับสแต็ก HBM ที่สูงตระหง่าน [อ้างอิง: 9, 19]
การตรวจสอบตลาดสำหรับกลยุทธ์ที่แยกออกเป็น 2 ส่วนนี้เกิดขึ้นในทันที Anthropic ซึ่งเป็นองค์กรวิจัย AI ชั้นนำได้ขยายข้อตกลงมูลค่าหลายพันล้านดอลลาร์กับ Google Cloud โดยมุ่งมั่นที่จะมีกำลังการประมวลผลถึง 3.5 กิกะวัตต์ภายในปี 2027 ซึ่งจะทำหน้าที่เป็นลูกค้ารายสำคัญสำหรับทั้งแพลตฟอร์ม TPU 7x และแพลตฟอร์มรุ่นที่ 8 [อ้างอิง: 9, 10, 20]
เจาะลึก: TPU 8t (ขุมพลังการฝึกโมเดลล่วงหน้า)
TPU 8t เป็นความสำเร็จด้านวิศวกรรมที่ไม่มีข้อจำกัด โดยมีเป้าหมายเพื่อลดวงจรการพัฒนาโมเดลฟรอนเทียร์ที่มีพารามิเตอร์หลายล้านล้านจากหลายเดือนให้เหลือเพียงไม่กี่สัปดาห์ [อ้างอิง: 5, 21] ซึ่งไม่ได้ทำได้เพียงแค่เพิ่มความเร็วสัญญาณนาฬิกาดิบ แต่ยังปรับโครงสร้างความแม่นยำของการดำเนินการทางคณิตศาสตร์ ขยายแบนด์วิดท์ระหว่างชิปอย่างมาก และลดปัญหาคอขวดในการนำเข้าข้อมูลที่ทำให้คลัสเตอร์การฝึกขนาดใหญ่ทำงานไม่ได้ [อ้างอิง: 6, 15]
สถาปัตยกรรมประมวลผลแบบ Dual-Die และ FP4 ดั้งเดิม
ในทางกายภาพ TPU 8t ใช้สถาปัตยกรรมที่ซับซ้อนอย่างยิ่งซึ่งประกอบด้วยไดคอมพิวเตอร์ 2 ตัวและชิปเล็ต I/O 1 ตัว โดยมีหน่วยความจำ HBM3E สูง 12 ชั้น 8 กองอยู่ด้านข้าง [อ้างอิง: 9] การแพ็กเกจที่หนาแน่นนี้ต้องมีการจัดการความร้อนขั้นสูง ซึ่งอาศัยการระบายความร้อนด้วยของเหลวรุ่นที่ 4 ของ Google เพื่อกระจายความร้อนมหาศาลที่เกิดจากการดำเนินการกับเมทริกซ์อย่างต่อเนื่อง [อ้างอิง: 7, 17, 22]
การพัฒนาพื้นฐานใน TPU 8t คือการเปิดตัวความแม่นยำแบบจุดลอยตัว 4 บิต (FP4) ดั้งเดิม [อ้างอิง: 6, 15] ความต้องการทางคณิตศาสตร์ของการฝึกแบบ Pre-training เน้นที่อัตราการส่งข้อมูลมากกว่าความแม่นยำเชิงตัวเลขที่มากเกินไป การลดการดำเนินการดั้งเดิมจาก FP8 ลงมาเป็น FP4 ทำให้ TPU 8t เพิ่มอัตราการส่งข้อมูลของ MXU เป็น 2 เท่า ในขณะเดียวกันก็ลดจำนวนบิตที่ต้องย้ายจริงในดายต่อพารามิเตอร์ลงครึ่งหนึ่ง [อ้างอิง: 6, 15] การลดการเคลื่อนย้ายข้อมูลอย่างมากนี้ช่วยลดการดึงข้อมูลในหน่วยความจำที่ใช้พลังงานมาก และช่วยให้เลเยอร์โมเดลขนาดใหญ่ขึ้นพอดีกับบัฟเฟอร์ฮาร์ดแวร์ที่เฉพาะเจาะจง [อ้างอิง: 6, 15]
TPU 8t ใช้การปรับขนาดหน่วยประมวลผลเวกเตอร์ (VPU) ที่สมดุลมากขึ้นเพื่อให้มั่นใจว่าชิปจะยังคงทำงานอย่างเต็มประสิทธิภาพ ซึ่งช่วยให้ซิลิคอนสามารถทำงานที่จำเป็นตามลำดับพร้อมกันได้ เช่น การหาปริมาณ, Softmax และ Layernorm ไปพร้อมกับการคูณเมทริกซ์ที่ซับซ้อนซึ่งเกิดขึ้นใน MXU ซึ่งช่วยลดเวลาที่ไม่ได้ใช้เมทริกซ์ซึ่งแกนประมวลผลจะไม่ได้ใช้งาน [อ้างอิง: 6, 15] การเพิ่มประสิทธิภาพสถาปัตยกรรมเหล่านี้ทำให้ชิป TPU 8t เพียงชิปเดียวมีกำลังการประมวลผล FP4 ที่น่าทึ่งถึง 12.6 PFLOP [อ้างอิง: 15, 23]
นอกจากนี้ TPU 8t ยังคงใช้บล็อก SparseCore เฉพาะทางที่เปิดตัวในรุ่นก่อนๆ [อ้างอิง: 1, 6, 15] ซึ่งแตกต่างจากรุ่นอื่นๆ ที่เน้นการอนุมานเป็นหลัก ภาระงานที่ใช้การฝังจำนวนมาก ซึ่งพบได้ทั่วไปในโมเดลพื้นฐานแบบมัลติโมดัลและระบบการแนะนำ จะแสดงรูปแบบการเข้าถึงหน่วยความจำที่ไม่ปกติซึ่งทำให้ GPU แบบเดิมทำงานไม่ได้ SparseCore จะทำงานแบบอะซิงโครนัส โดยจะออฟโหลดการดำเนินการทั้งหมดที่ขึ้นอยู่กับข้อมูลและการค้นหาการฝัง [อ้างอิง: 6, 15] การแยกการคำนวณเมทริกซ์แบบหนาแน่นไปยัง MXU และการดำเนินการแบบกระจัดกระจายไปยัง SparseCore ทำให้ TPU 8t ป้องกันคอขวด "zero-op" ที่ทำให้การคำนวณหยุดชะงัก [อ้างอิง: 6, 15]
แบนด์วิดท์ การส่งผ่านข้อมูลพื้นที่เก็บข้อมูล และ TPUDirect
TPU 8t ต้องใช้แบนด์วิดท์ในเครื่องและแบนด์วิดท์รวมที่สูงมากเพื่อป้อนข้อมูลให้กับ MXU ที่เร่งความเร็วอย่างมากซึ่งทำงานใน FP4 ชิปแต่ละตัวมี HBM3e ขนาด 216 GB ซึ่งทำงานที่ 6,528 GB/s [อ้างอิง: 15, 24] อย่างไรก็ตาม ในระดับโมเดลฟรอนเทียร์ ข้อจำกัดของระบบมักจะเปลี่ยนจากความเร็วในการประมวลผลของซิลิคอนไปเป็นความเร็วที่ศูนย์ข้อมูลสามารถนำเข้าข้อมูลการฝึกขนาดเพตะไบต์จากที่เก็บข้อมูลแบบเย็น
Google ได้ผสานรวม RDMA ของ TPUDirect และที่เก็บข้อมูล TPUDirect [อ้างอิง: 5, 6, 10] เพื่อหลีกเลี่ยงปัญหาคอขวดในเส้นทางข้อมูลแบบเดิม โปรโตคอลเหล่านี้ช่วยให้เข้าถึงหน่วยความจำโดยตรง (DMA) ระหว่างหน่วยความจำแบนด์วิดท์สูงของ TPU กับอาร์เรย์พื้นที่เก็บข้อมูลเครือข่ายที่มีการจัดการ เช่น Google Cloud Managed Lustre 10T [cite: 6, 15] TPUDirect จะข้าม CPU ของโฮสต์และ DRAM ของโฮสต์โดยสมบูรณ์ [อ้างอิง: 6] ด้วยการกำหนดเส้นทางข้อมูลจากระบบไฟล์แบบขนาน Lustre ไปยัง TPU โดยตรงผ่านการ์ดอินเทอร์เฟซเครือข่าย (NIC) เส้นทางข้อมูลเฉพาะนี้ช่วยเพิ่มความเร็วในการเข้าถึงพื้นที่เก็บข้อมูลได้ถึง 10 เท่าเมื่อเทียบกับการฝึกใน TPU รุ่น 7x เพื่อให้มั่นใจว่าหน่วยประมวลผล TPU 8t สามารถรับชุดข้อมูลแบบมัลติโมดัลที่อัตราสายโดยไม่มีการขาดแคลน [อ้างอิง: 5, 6, 15]
โครงสร้างพื้นฐานขนาดใหญ่: เครือข่าย Virgo
ความสำเร็จด้านสถาปัตยกรรมที่น่าทึ่งที่สุดของระบบนิเวศ TPU 8t คือความสามารถด้านเครือข่าย ซึ่งเปลี่ยนข้อจำกัดของระบบจากคอมพิวเตอร์เฉพาะที่ไปเป็นแบนด์วิดท์ระดับศูนย์ข้อมูลอย่างมั่นคง [อ้างอิง: 25, 26]
แม้ว่า TPU 8t จะยังคงใช้การเชื่อมต่อแบบทอรัส 3 มิติพื้นฐานสำหรับการสื่อสารพ็อดในพื้นที่ โดยขยายขนาดได้สูงสุดถึง 9,600 ชิปและ HBM ที่แชร์ขนาด 2 เพตะไบต์ในซูเปอร์พ็อดเดียว แต่เราได้ออกแบบโครงสร้างการขยายขนาดใหม่ทั้งหมด [อ้างอิง: 5, 6, 15] Superpod มีการประมวลผล FP4 โดยรวม 121 ExaFlops ซึ่งเพิ่มขึ้น 2.8 เท่าจาก 42.5 ExaFlops ของ TPU 7x [อ้างอิง: 6] เพื่อรองรับการทำงานนี้ แบนด์วิดท์ ICI ภายในพ็อดจึงเพิ่มขึ้นเป็น 2 เท่าเป็น 19.2 Tb/s ต่อชิป [อ้างอิง: 4, 6, 10]
อย่างไรก็ตาม Google ได้สร้างเครือข่าย Virgo [อ้างอิง: 1, 6] เพื่อเชื่อมต่อ Superpod เหล่านี้หลายร้อยตัว เครือข่ายรุ่นก่อนหน้าอย่าง Jupiter ใช้โทโพโลยี Clos แบบ 3 เลเยอร์ที่กำหนดเส้นทางการรับส่งข้อมูลผ่านระดับสวิตช์หลายระดับ ซึ่งทำให้เกิดปัญหาคอขวดด้านเวลาในการตอบสนองและแบนด์วิดท์ (จำกัดไว้ที่ 100 Gbps ต่อชิป) [อ้างอิง: 25]
Virgo เป็นโครงสร้างที่ปรับขนาดได้ซึ่งสร้างขึ้นบนสวิตช์ที่มี Radix สูง (จัดการพอร์ต 256 ถึง 512 พอร์ต) ซึ่งใช้โทโพโลยีแบบ 2 เลเยอร์แบบไม่บล็อก [อ้างอิง: 6, 15, 25] การตัดระดับเครือข่ายออกทางกายภาพทำให้ Virgo ลดเวลาในการตอบสนองได้อย่างมาก เครือข่ายใช้การออกแบบแบบหลายระนาบที่มีโดเมนการควบคุมอิสระ ซึ่งเพิ่มแบนด์วิดท์เครือข่ายศูนย์ข้อมูล (DCN) ดิบได้สูงสุด 400% (4 เท่า) โดยเปลี่ยนไปใช้ 400 Gbps ต่อชิป [อ้างอิง: 6, 15, 24]
เนื้อผ้า Virgo เพียงชิ้นเดียวสามารถเชื่อมต่อชิป TPU 8t กว่า 134,000 ชิ้นภายในศูนย์ข้อมูลเดียว ซึ่งให้แบนด์วิดท์แบบแบ่งครึ่งที่ไม่บล็อกที่ 47 เพตะบิตต่อวินาที ซึ่งเป็นความเร็วที่เหลือเชื่อ [อ้างอิง: 1, 6, 15] นอกจากนี้ TPU 8t ยังผสานรวมกับซอฟต์แวร์ Pathways ของ Google และเฟรมเวิร์ก JAX ทำให้คลัสเตอร์การฝึกแบบกระจายสามารถขยายขนาดชิปได้มากกว่า 1 ล้านชิปในหลายๆ ไซต์ทางภูมิศาสตร์ในฐานะงานการฝึกเชิงตรรกะเดียว [อ้างอิง: 1, 6, 15] ความสำเร็จนี้เปลี่ยนโครงสร้างพื้นฐานที่กระจายอยู่ทั่วโลกให้กลายเป็นซูเปอร์คอมพิวเตอร์เครื่องเดียวที่ทำงานได้อย่างราบรื่น ซึ่งก้าวข้ามข้อจำกัดในการปรับขนาด GPU แบบอเนกประสงค์ในปัจจุบันไปอย่างมาก [อ้างอิง: 27]
การกำหนดค่าใหม่โดยอัตโนมัติและ Goodput 97%
เมื่อมีชิปหลายแสนตัว ความล้มเหลวของฮาร์ดแวร์ตั้งแต่ทรานซีฟเวอร์ที่ชำรุดไปจนถึงการควบคุมอุณหภูมิเป็นสิ่งที่เกิดขึ้นได้อย่างแน่นอน ไม่ใช่กรณีที่พบได้ยาก ในระบบเดิม การหยุดชะงักของเครือข่ายเพียงครั้งเดียวอาจทำให้การฝึกโมเดลขนาดใหญ่หยุดชะงักได้ ซึ่งต้องมีการย้อนกลับไปยังจุดตรวจสอบก่อนหน้าซึ่งเป็นกระบวนการที่ซับซ้อนและมีค่าใช้จ่ายสูง ในระดับฟรอนเทียร์ ประสิทธิภาพที่สูญเสียไปทุกๆ 1 เปอร์เซ็นต์จะส่งผลให้เวลาในการฝึกโมเดลเพิ่มขึ้นเป็นวันๆ [อ้างอิง: 5, 6]
ระบบนิเวศของ TPU 8t มีเป้าหมาย "goodput" มากกว่า 97% ซึ่งเป็นเมตริกที่กำหนดอัตราส่วนของเวลาในการประมวลผลที่มีประโยชน์และมีประสิทธิภาพต่อเวลาในการทำงานทั้งหมด [อ้างอิง: 6, 28] ซึ่งทำได้ผ่านความสามารถด้านความน่าเชื่อถือ ความพร้อมใช้งาน และความสามารถในการให้บริการ (RAS) ขั้นสูงที่ยึดตามการสลับวงจรแบบออปติคัล (OCS) [อ้างอิง: 5, 6, 25] ระบบสามารถตรวจหาลิงก์การเชื่อมต่อระหว่างชิปที่ผิดพลาดได้โดยอัตโนมัติผ่านการวิเคราะห์การวัดและส่งข้อมูลแบบเรียลไทม์ของชิปหลายหมื่นชิ้น OCS จะเปลี่ยนเส้นทางแสงแบบออปติคัลเพื่อหลีกเลี่ยงความล้มเหลวของฮาร์ดแวร์แบบเรียลไทม์โดยไม่ต้องมีการแทรกแซงจากมนุษย์ และที่สำคัญคือโดยไม่ขัดขวางงานการฝึกที่ใช้งานอยู่ [อ้างอิง: 5, 6, 28]
เจาะลึก: TPU 8i (เครื่องมือให้เหตุผล)
หาก TPU 8t เป็นการฝึกการปรับขนาดแบบสุดโต่งและแบบบรูทฟอร์ซ TPU 8i ก็เป็นคลาสเรียนขั้นสูงในการเพิ่มประสิทธิภาพเวลาในการตอบสนองและสถาปัตยกรรมหน่วยความจำ [อ้างอิง: 6] เมื่อโมเดลเปลี่ยนไปเป็นการผลิตแบบเรียลไทม์ โดยเฉพาะโมเดล Mixture-of-Experts (MoE) ขนาดใหญ่และกลุ่มเอเจนต์ อัตราการส่งข้อมูลการคำนวณดิบจึงมีความเกี่ยวข้องน้อยกว่าความเร็วในการเข้าถึงและกำหนดเส้นทางหน่วยความจำผ่านเครือข่าย [อ้างอิง: 21, 29]
การทำลายกำแพงหน่วยความจำของการอนุมาน
ในการสร้างแบบถดถอยอัตโนมัติ โมเดลจะสร้างโทเค็นเอาต์พุตตามลำดับ เมื่อสร้างโทเค็นใหม่แต่ละรายการ โมเดลต้องอ้างอิงประวัติที่เพิ่มขึ้นของโทเค็นก่อนหน้าทั้งหมดและความสัมพันธ์ทางคณิตศาสตร์ของโทเค็นเหล่านั้น ซึ่งเรียกว่าแคชคู่คีย์-ค่า (KV) [cite: 1, 13] สำหรับโมเดลบริบทแบบยาวที่วิเคราะห์โทเค็นหลายแสนรายการ แคช KV นี้จะมีขนาดใหญ่ขึ้น หากแคชเกินความจุของหน่วยความจำออนบอร์ดที่รวดเร็วของชิปและล้นไปยังหน่วยความจำ CPU ของโฮสต์ที่ช้ากว่า กระบวนการคำนวณทั้งหมดจะหยุดชะงัก ซึ่งเป็นปรากฏการณ์ที่รู้จักกันในชื่อ "กำแพงหน่วยความจำ" [อ้างอิง: 5, 8]
TPU 8i สร้างขึ้นเพื่อทำลายกำแพงนี้โดยเฉพาะ แม้ว่าจะเป็นการออกแบบซิลิคอนที่เรียบง่ายและคุ้มค่ากว่า โดยใช้ชิปประมวลผลเดียวและชิป I/O เดียวที่มี HBM3e 6 สแต็ก แต่ความจุหน่วยความจำได้รับการเพิ่มประสิทธิภาพอย่างมากสำหรับการให้บริการ [อ้างอิง: 9] * ความจุและแบนด์วิดท์ HBM: TPU 8i แต่ละตัวมี HBM3E ขนาด 288 GB ซึ่งแสดงถึงความจุที่เพิ่มขึ้น 50% เมื่อเทียบกับ TPU 7x [อ้างอิง: 5, 24, 30] ที่สำคัญกว่านั้นคือ เนื่องจากโมเดล MoE ขนาดใหญ่มีข้อจำกัดด้านแบนด์วิดท์หน่วยความจำในระหว่างการอนุมาน แบนด์วิดท์หน่วยความจำจึงเพิ่มขึ้นเป็น 8.6 TB/s (~8,601 GB/s) ซึ่งเร็วกว่า TPU 8t ที่เน้นการฝึกประมาณ 1.3 เท่า [อ้างอิง: 10, 15] * SRAM ในชิปขนาดใหญ่: การเปลี่ยนแปลงฮาร์ดแวร์ที่สำคัญที่สุดคือการรวมหน่วยความจำแบบสแตติกแรนดอมแอ็กเซส (SRAM) ในชิปขนาด 384 MB ต่อชิป [อ้างอิง: 10, 15, 30] ซึ่งแสดงถึงการเพิ่มขึ้นอย่างมากถึง 300% (3 เท่า) เมื่อเทียบกับทั้ง TPU 7x และ TPU 8t [อ้างอิง: 10, 15, 30] SRAM เป็นหน่วยความจำที่เร็วที่สุดและมีเวลาในการตอบสนองต่ำที่สุดที่พร้อมใช้งานโดยตรงในเมทริกซ์ซิลิคอน การเพิ่มความจุนี้เป็น 3 เท่าทำให้ TPU 8i สามารถโฮสต์แคช KV ขนาดใหญ่ในชิปได้ทั้งหมด [อ้างอิง: 15, 16] ซึ่งจะช่วยป้องกันไม่ให้แกนประมวลผลว่างเปล่าขณะรอการดึงข้อมูลประวัติโทเค็นจากระดับหน่วยความจำที่ช้ากว่า ทำให้ลูปการให้เหตุผลที่มีการทำงานพร้อมกันสูงทำงานได้อย่างราบรื่นอย่างที่ไม่เคยมีมาก่อน [อ้างอิง: 5, 15]
The Collectives Acceleration Engine (CAE)
เนื่องจาก TPU 8i มีเป้าหมายเป็นการอนุมาน เราจึงพิจารณาว่าการใช้หน่วย SparseCore ใน 7x และ 8t สำหรับการค้นหาการฝังเป็นการใช้พื้นที่ซิลิคอนอย่างไม่มีประสิทธิภาพสำหรับภาระงานเฉพาะนี้ วิศวกรของ Google จึงได้นำบล็อกฮาร์ดแวร์ที่เป็นกรรมสิทธิ์ของตนเองมาใช้แทนที่ ซึ่งรู้จักกันในชื่อ Collectives Acceleration Engine (CAE) [cite: 10, 15]
ในระหว่างการถอดรหัสแบบถดถอยอัตโนมัติและการประมวลผล "เชนออฟธ็อท" แกนประมวลผลที่แตกต่างกันจะต้องหยุดการคำนวณของแต่ละแกนเป็นระยะๆ เพื่อรวบรวม ลด และซิงค์ผลลัพธ์ทางคณิตศาสตร์ในชิป [อ้างอิง: 6, 15] การดำเนินการซิงค์ทั่วโลกเหล่านี้อาจทำให้เกิดปัญหาคอขวดอย่างรุนแรงในเวลาแฝง โดยเฉพาะอย่างยิ่งเมื่อมีเอเจนต์อิสระหลายพันรายที่พยายามแก้ปัญหาพร้อมกัน
สำหรับชิป TPU 8i แต่ละตัว TensorCore 2 ตัวจะอยู่ในไดหลัก พร้อมด้วย CAE 1 ตัวที่อยู่ในไดชิปเล็ก (แทนที่ SparseCore 4 ตัวที่พบใน TPU 7x) [อ้างอิง: 6, 15] CAE เฉพาะทางได้รับการออกแบบมาเพื่อรวบรวมผลลัพธ์ในหลายๆ คอร์โดยมีเวลาในการตอบสนองที่แทบจะเป็นศูนย์ ซึ่งส่งผลให้เวลาในการตอบสนองแบบรวมในชิปลดลงอย่างมากถึง 5 เท่าเมื่อเทียบกับ TPU รุ่น 7x [อ้างอิง: 10, 15] การเร่งฮาร์ดแวร์ขั้นตอนการลดที่ครอบงำเวิร์กโฟลว์ของเอเจนต์ CAE ช่วยให้มั่นใจได้ว่าระบบจะยังคงมีปริมาณงานสูงโดยไม่ลดทอนการตอบสนองแบบเรียลไทม์ [อ้างอิง: 6, 15]
การปรับเครือข่ายให้แบนราบ: โทโพโลยี Boardfly
ฟีเจอร์ที่สำคัญของ TPU 8i คือการละทิ้งโทโพโลยีทอรัส 3 มิติโดยสิ้นเชิง แม้ว่าโทโพโลยีทอรัส 3 มิติจะเหมาะอย่างยิ่งสำหรับการส่งข้อมูลแบบข้างบ้านที่จำเป็นในการฝึกแบบ Pre-Training แต่ก็ทำให้เกิดระยะทางจริงที่ยาวนานเกินรับได้ ซึ่งวัดเป็นฮอปของเครือข่ายสำหรับการกำหนดเส้นทางโทเค็นแบบทั้งหมดต่อทั้งหมดที่โมเดลการอนุมาน MoE ต้องการ [อ้างอิง: 2, 15] ในสถาปัตยกรรม MoE โทเค็นใดๆ ก็ตามอาจต้องกำหนดเส้นทางไปยังเลเยอร์ "ผู้เชี่ยวชาญ" ที่เฉพาะเจาะจงซึ่งอยู่บนชิปที่แตกต่างกันอย่างสิ้นเชิงภายในพ็อด ในโทโพโลยีทอรัสดั้งเดิม แพ็กเก็ตข้อมูลนี้จะต้องเดินทางผ่านชิปที่แทรกอยู่ตามลำดับเพื่อไปยังปลายทาง
Google จึงได้ออกแบบสถาปัตยกรรมเครือข่ายใหม่ที่เพิ่มประสิทธิภาพการแสดงผลชื่อว่า Boardfly [cite: 15, 31] เพื่อแก้ไขปัญหานี้ Boardfly ได้รับแรงบันดาลใจจากหลักการโทโพโลยี Dragonfly ซึ่งเป็นเครือข่ายแบบลำดับชั้นที่มีการเชื่อมต่อจำนวนมาก ออกแบบมาเพื่อลดความซับซ้อนของสถาปัตยกรรมและลดระยะทางจริงระหว่างชิป 2 ตัว [cite: 2, 15, 26]
โทโพโลยี Boardfly สร้างขึ้นตามลำดับชั้นดังนี้ 1. องค์ประกอบพื้นฐาน: ชิป TPU 8i ที่เชื่อมต่อกันอย่างเต็มรูปแบบ 4 ตัวจะสร้างองค์ประกอบพื้นฐานที่มีลิงก์ ICI ภายใน [อ้างอิง: 6, 16] 2. บอร์ด: บล็อก 8 บล็อกเชื่อมต่อกันอย่างสมบูรณ์ผ่านสายทองแดงโดยตรงเพื่อสร้างบอร์ดเดียว [อ้างอิง: 6, 16] 3. พ็อด: จากนั้นทั้ง 36 กลุ่มจะเชื่อมต่อกันอย่างสมบูรณ์ผ่านสวิตช์วงจรแบบออปติคัลและลิงก์แบบออปติคัลระยะไกลโดยตรงเพื่อสร้างพ็อดแบบรวมที่มีชิป 1,152 ตัว [อ้างอิง: 5, 6, 16, 32]
ข้อได้เปรียบด้านเวลาในการตอบสนองของแนวทางนี้เป็นเรื่องที่สำคัญมาก ในการกำหนดค่าทอรัส 3 มิติแบบชิป 1,024 ชิปมาตรฐาน แพ็กเก็ตข้อมูลอาจต้องข้ามเส้นผ่านศูนย์กลางเครือข่ายสูงสุด 16 ฮอป [อ้างอิง: 15, 25] ในโทโพโลยี Boardfly เส้นผ่านศูนย์กลางเครือข่ายสูงสุดนี้จะลดลงเหลือเพียง 7 ฮอป [อ้างอิง: 15, 25]
การลดเส้นผ่านศูนย์กลางของเครือข่ายลง 56% นี้ส่งผลให้เวลาในการตอบสนองที่ท้ายแถวของภาระงานการอนุมานที่เน้นการสื่อสารดีขึ้นอย่างมากถึง 50% [อ้างอิง: 16, 25, 30] ท้ายที่สุดแล้ว การอนุมานจะถูกจำกัดด้วยความเร็วของโหนดที่ช้าที่สุด โทโพโลยี Boardfly ช่วยให้มั่นใจได้ว่า CAE จะไม่ว่างเว้นขณะรอให้ข้อมูลโทเค็นเดินทางผ่านพ็อด [อ้างอิง: 6, 15] ด้วยการลดเวลาในการตอบสนองที่หาง
นอกจากนี้ ด้วยการเชื่อมต่อออปติคัลที่มีความเหนียวแน่นสูงนี้ พ็อด TPU 8i ที่มีชิป 1,152 ตัวจึงทำงานเป็นโดเมนหน่วยความจำที่ใช้ร่วมกันขนาดใหญ่แบบรวมที่มี HBM แบบโคฮีเรนต์ 331.8 TB [อ้างอิง: 16]
ประสิทธิภาพเชิงเปรียบเทียบ เศรษฐศาสตร์ และโครงสร้างพื้นฐานของระบบ
การแยกสถาปัตยกรรมออกเป็น 2 ส่วนช่วยปรับปรุงทั้งด้านเศรษฐศาสตร์การคำนวณและประสิทธิภาพการใช้พลังงานได้อย่างมาก การประเมินฮาร์ดแวร์ตามการดำเนินการจุดลอยตัวเชิงทฤษฎีสูงสุดเพียงอย่างเดียวเป็นการละเลยความเป็นจริงของระบบในการดำเนินงานของศูนย์ข้อมูลและการเปิดใช้ซอฟต์แวร์
การสนับสนุนเฟรมเวิร์กและการแยกซอฟต์แวร์
แม้ว่าฮาร์ดแวร์พื้นฐานจะแตกต่างกัน แต่ Google ก็ได้ลงทุนอย่างมากในการดูแลรักษาสแต็กซอฟต์แวร์ AI แบบรวมที่เน้นประสิทธิภาพเป็นอันดับแรกเพื่อป้องกันการล็อกอินเฟรมเวิร์ก ทั้ง TPU 8t และ 8i รองรับ JAX, Keras, MaxText, SGLang และเครื่องมือ vLLM โดยกำเนิด [อ้างอิง: 5, 8, 14, 17] นอกจากนี้ การรองรับ PyTorch โดยกำเนิด (ผ่าน TorchTPU) ยังช่วยให้นักพัฒนาแอปสามารถพอร์ตโมเดล PyTorch ที่มีอยู่ไปยังสภาพแวดล้อม TPU ได้โดยตรงพร้อมการรองรับฟีเจอร์โดยกำเนิดอย่างเต็มรูปแบบ เช่น โหมด Eager [อ้างอิง: 15, 17]
เบื้องหลังการทำงาน คอมไพเลอร์ Accelerated Linear Algebra (XLA) จะจัดการการแปลโทโพโลยีของ Boardfly และการซิงค์ CAE ที่ซับซ้อน ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์เขียนเคอร์เนลที่กำหนดเองซึ่งรับรู้ฮาร์ดแวร์ใน Python (โดยใช้ Pallas และ Mosaic) ได้โดยไม่ต้องเขียนโปรแกรมการเชื่อมต่อแบบออปติคัลด้วยตนเอง [อ้างอิง: 15]
เมตริกประสิทธิภาพเชิงปริมาณ
ตารางด้านล่างสรุปข้อกำหนดทางเทคนิคหลักๆ ของสถาปัตยกรรม TPU 7x แบบรวม และ TPU 8t และ 8i ที่มีความเฉพาะเจาะจงสูง [อ้างอิง: 3, 15, 24]
| เมทริกซ์ข้อกำหนด | TPU 7x | TPU 8t | TPU 8i |
|---|---|---|---|
| ภาระงานหลัก | รวม (การฝึกและการอนุมาน) | การฝึกโมเดลล่วงหน้าขนาดใหญ่ | การอนุมานที่ไวต่อเวลาในการตอบสนอง |
| ASIC Design Partner | Broadcom | Broadcom | MediaTek |
| โทโพโลยีเครือข่าย | ทอรัส 3 มิติ | 3D Torus + Virgo Scale-Out | Boardfly (ได้แรงบันดาลใจจาก Dragonfly) |
| ฮาร์ดแวร์เฉพาะ | SparseCore | SparseCore | Collectives Acceleration Engine (CAE) |
| โฟกัสความแม่นยำแบบเนทีฟ | FP8 | FP4 | FP4 (รองรับ FP8/INT8) |
| การประมวลผลสูงสุดต่อชิป | 4.6 PFLOPs (FP8) | 12.6 PFLOPs (FP4) | 10.1 PFLOPs (FP4) |
| ความจุ HBM ต่อชิป | 192 GB | 216 GB | 288 GB |
| แบนด์วิดท์ HBM | 7.37 TB/วินาที | 6.52 TB/วินาที | 8.60 TB/วินาที |
| SRAM บนชิป (VMEM) | 128 MB | 128 MB | 384 MB |
| แบนด์วิดท์ระหว่างชิป (เพิ่มขนาด) | 9.6 TB/วินาที | 19.2 TB/วินาที | 19.2 TB/วินาที |
| ขนาดสูงสุดของพ็อด/ซูเปอร์พ็อด | 9,216 ชิป | 9,600 ชิป | 1,152 ชิป |
การเพิ่มประสิทธิภาพด้านต้นทุนและประสิทธิภาพ รวมถึง TCO
Google อ้างว่ามีการปรับปรุงต้นทุนรวมในการเป็นเจ้าของ (TCO) ที่โดดเด่นในรุ่นที่ 8 TPU 8t ให้ประสิทธิภาพต่อดอลลาร์เพิ่มขึ้น 170% ถึง 180% ซึ่งเท่ากับการปรับปรุง 2.7 เท่าถึง 2.8 เท่าสำหรับการฝึกขนาดใหญ่เมื่อเทียบกับ TPU 7x [อ้างอิง: 6, 15, 30] ในขณะเดียวกัน TPU 8i ก็มีประสิทธิภาพต่อดอลลาร์เพิ่มขึ้น 80% สำหรับการอนุมาน โดยเฉพาะที่เป้าหมายที่มีเวลาในการตอบสนองต่ำซึ่งจำเป็นสำหรับโมเดล MoE ขนาดใหญ่ [อ้างอิง: 15, 16, 30]
การเติบโตทางเศรษฐกิจเหล่านี้ไม่ได้เกิดจากซิลิคอนเท่านั้น แต่เกิดจากการผสานรวมระบบแบบฟูลสแต็ก ในอดีต TPU จะจับคู่กับ CPU โฮสต์ x86 ที่มีจำหน่ายทั่วไป ในสถานการณ์ที่เกี่ยวข้องกับการประมวลผลข้อมูลเบื้องต้นอย่างเข้มข้นหรือตรรกะที่เป็น Agent ที่ซับซ้อน โฮสต์ x86 มักจะทำให้ระบบเกิดจุดคอขวด ทำให้ซิลิคอน TPU ที่รวดเร็วมากพร้อมทำงานแต่ขาดข้อมูล [อ้างอิง: 6, 7]
รุ่นที่ 8 แก้ไขความไม่สมดุลเรื้อรังนี้ด้วยการโฮสต์ทั้ง 8t และ 8i บนโปรเซสเซอร์ Axion ที่ใช้ ARM แบบกำหนดเองของ Google โดยเฉพาะ [cite: 6, 7, 15] Axion สร้างขึ้นบนสถาปัตยกรรมหลัก Neoverse N3 Armv9.2 และมีโฮสต์ที่ให้รากฐานแบบรวมที่ได้รับการเพิ่มประสิทธิภาพอย่างสูง [cite: 18, 19] สำหรับ TPU 8i ที่มีการอนุมานจำนวนมาก Google ได้ผสานรวมโฮสต์ Axion ในอัตราส่วน TPU ต่อ CPU ที่ 2:1 ซึ่งเพิ่มโฮสต์ CPU จริงต่อเซิร์ฟเวอร์เป็น 2 เท่าเมื่อเทียบกับ TPU 7x [cite: 5, 6, 32] ระบบใช้สถาปัตยกรรม Non-Uniform Memory Access (NUMA) ที่เข้มงวดเพื่อแยกปริมาณงาน จึงรับประกันการเข้าถึงหน่วยความจำที่เหนือกว่าและขจัดคอขวดในการเตรียมข้อมูลโดยสิ้นเชิง [cite: 5, 7]
การประหยัดพลังงานและผลกระทบต่อตลาด
ความหนาแน่นของพลังงานและความพร้อมใช้งานของพลังงานกำลังกลายเป็นข้อจำกัดที่สำคัญที่สุดในการติดตั้งใช้งานศูนย์ข้อมูลสมัยใหม่ การใช้ระบบระบายความร้อนด้วยของเหลวรุ่นที่ 4 และการจัดการพลังงานแบบเรียลไทม์แบบผสานรวมที่ปรับการดึงพลังงานแบบไดนามิกตามระยะของภาระงานที่เฉพาะเจาะจง (เช่น การคำนวณที่ใช้งานอยู่เทียบกับการไม่ได้ใช้งานเพื่อการสื่อสาร) ทำให้ทั้ง TPU 8t และ 8i มีประสิทธิภาพด้านพลังงานที่น่าทึ่ง [อ้างอิง: 7, 15, 22, 24] 8t มีประสิทธิภาพต่อวัตต์เพิ่มขึ้น 124% ส่วน 8i มีประสิทธิภาพต่อวัตต์เพิ่มขึ้น 117% ส่งผลให้ประสิทธิภาพการใช้พลังงานโดยรวมดีขึ้น 2 เท่า (100%ขึ้นไป) เมื่อเทียบกับ TPU 7x [อ้างอิง: 15, 22, 30]
ผลลัพธ์ของประสิทธิภาพนี้เห็นได้ชัดในโมเดลที่ล้ำสมัยของ Google เอง การเปรียบเทียบประสิทธิภาพของรุ่นตัวอย่าง Gemini 3.1 Pro แสดงให้เห็นว่าการใช้งานโมเดลในสถาปัตยกรรม TPU 8i จะช่วยลดต้นทุนสำหรับ API การอนุมานได้ประมาณ 50% พร้อมทั้งปรับปรุงความสามารถในการตอบสนองและการจัดการบริบทแบบยาวได้อย่างมาก [อ้างอิง: 24, 30]
ภาพรวมการแข่งขัน: Google กับชิปซิลิคอนของผู้ขาย
การตัดสินใจของ Google ในการแยกกลยุทธ์ซิลิคอนออกเป็น 2 ส่วนส่งผลกระทบอย่างมากต่อระบบนิเวศของฮาร์ดแวร์ปัญญาประดิษฐ์ในวงกว้าง โดยเฉพาะอย่างยิ่งในการแข่งขันอย่างต่อเนื่องกับผู้ให้บริการซิลิคอนสำหรับผู้ขาย เช่น Nvidia และ AMD รวมถึง AWS (ที่มีแพลตฟอร์ม Trainium3) [อ้างอิง: 17, 23]
Nvidia มีประวัติการใช้กลยุทธ์สถาปัตยกรรมแบบรวม โดยใช้แพลตฟอร์มที่มีความสามารถสูงแต่เป็นแบบอเนกประสงค์ เช่น Blackwell B200 และ Vera Rubin NVL72 เพื่อจัดการทั้งการฝึกโมเดลล่วงหน้าและการอนุมานแบบเรียลไทม์ [อ้างอิง: 2, 9] เมื่อพิจารณาจากข้อกำหนดของชิปเดี่ยวแบบดิบๆ Nvidia ยังคงมีความได้เปรียบบางอย่าง ตัวอย่างเช่น เทคโนโลยี NVLink ของ Nvidia รองรับแบนด์วิดท์การเชื่อมต่ออุปกรณ์เดียวที่ 14.4 Tb/s และ GPU ของ Rubin แต่ละตัวมีประสิทธิภาพการคำนวณการอนุมาน NVFP4 ประมาณ 50 PFLOP ซึ่งสูงกว่า 10.1 PFLOP ของ TPU 8i อย่างมาก [อ้างอิง: 2, 9]
อย่างไรก็ตาม การเดิมพันด้านสถาปัตยกรรมของ Google ขึ้นอยู่กับความเชื่อมั่นที่ว่าอนาคตของปัญญาประดิษฐ์ขึ้นอยู่กับประสิทธิภาพระดับคลัสเตอร์ ไม่ใช่ความสามารถสูงสุดของชิปตัวเดียว [อ้างอิง: 9]
การเปลี่ยนไปใช้โทโพโลยี Boardfly ทำให้ Google สร้างพูลหน่วยความจำที่ใช้ร่วมกันได้อย่างสมบูรณ์แบบในชิปทั้ง 1,152 ชิปภายในพ็อด TPU 8i [อ้างอิง: 16] ซึ่งส่งผลให้พ็อดมีความจุรวม 11.6 FP8 ExaFlops และ HBM ที่สอดคล้องและเป็นหนึ่งเดียวกัน 331.8 TB [cite: 6, 16] ในทางกลับกัน ความสอดคล้องระดับแร็คของ GPU Nvidia มาตรฐานใน NVL72 มี GPU สูงสุด 72 ตัวและ HBM ประมาณ 20.7 TB [อ้างอิง: 2, 16] การปรับขนาด GPU แบบอเนกประสงค์ให้ตรงกับการกำหนดค่าชิป 1,152 ตัวต้องมีการเชื่อมต่อระหว่างแร็กแยกกันประมาณ 16 แร็ก [อ้างอิง: 16] การแยกทางกายภาพนี้ทำลายความสอดคล้องของหน่วยความจำที่แท้จริง และทำให้เกิดการลงโทษด้านเวลาในการตอบสนองอย่างรุนแรง ซึ่งเป็นหายนะสำหรับการอนุมานแบบต่อเนื่องและมีบริบทขนาดยาวของเอเจนต์ [อ้างอิง: 16]
นอกจากนี้ การย้ายการสลับวงจรแบบออปติคัล (OCS) ลงไปในเลเยอร์ที่ต่ำกว่าในสแต็กเพื่ออำนวยความสะดวกให้กับลำดับชั้นของ Boardfly ยังเป็นการเปลี่ยนแปลงห่วงโซ่อุปทานเครือข่ายออปติคัลของ Google อย่างสิ้นเชิง ซึ่งสร้างดีมานด์ปลายทางจำนวนมากสำหรับทรานซีฟเวอร์และเลเซอร์เฉพาะทางจากผู้ให้บริการอย่าง Lumentum และ Coherent [อ้างอิง: 26]
ท้ายที่สุดแล้ว ปรัชญาการออกแบบของ Google สันนิษฐานว่าสมรภูมิรบที่แท้จริงในช่วงปลายทศวรรษ 2020 จะไม่ได้ขึ้นอยู่กับปริมาณงานทางคณิตศาสตร์สูงสุดในชิปซิลิคอนเพียงชิ้นเดียว แต่ขึ้นอยู่กับความสามารถในการหลีกเลี่ยงข้อจำกัดด้านหน่วยความจำ การขยายการเชื่อมต่อระหว่างเว็บไซต์อย่างรวดเร็ว และการลดต้นทุนต่อโทเค็นแบบสัมบูรณ์ของการปรับใช้ฝูงเอเจนต์แบบเรียลไทม์กับผู้ใช้หลายพันล้านคน [อ้างอิง: 6, 16, 17]
บทสรุป
วิถีของ Tensor Processing Unit ของ Google Cloud ตั้งแต่เฟรมเวิร์กแบบรวมของ TPU 7x ไปจนถึงการแยกออกเป็น 2 ส่วนที่มีความเชี่ยวชาญสูงของ TPU 8t และ TPU 8i สะท้อนให้เห็นถึงการเติบโตและการปรับใช้ปริมาณงานของปัญญาประดิษฐ์ในอุตสาหกรรม ซิลิคอนแบบรวมอเนกประสงค์ แม้จะเป็นพื้นฐานของการเติบโตของการเรียนรู้เชิงลึกในช่วงแรก แต่ก็ไม่เพียงพอที่จะขับเคลื่อนเศรษฐศาสตร์หรือประสิทธิภาพที่จำเป็นในขอบเขตที่มากที่สุดของยุคที่เป็น Agent
TPU 8t แสดงให้เห็นถึงการมุ่งมั่นในการปรับขนาดอย่างไม่ลดละ ด้วยการคง SparseCore ไว้ การใช้ความแม่นยำ FP4 ดั้งเดิมเพื่อเพิ่มอัตราการส่งข้อมูล MXU เป็น 2 เท่า รวมถึงความสามารถอันน่าทึ่งของเครือข่าย Virgo และที่เก็บข้อมูล TPUDirect ทำให้ได้รับการออกแบบมาเพื่อรับและประมวลผลข้อมูลในปริมาณที่ก่อนหน้านี้คิดว่าเป็นไปไม่ได้ ซึ่งช่วยลดข้อจำกัดด้านแบนด์วิดท์ในการเพิ่มโหนดของศูนย์ข้อมูลสมัยใหม่ได้อย่างมีประสิทธิภาพ ทำให้ชิปนับล้านทำงานเป็นเครื่องมือการฝึกแบบล่วงหน้าแบบกระจายทั่วโลกเครื่องเดียว
ในทางกลับกัน TPU 8i เป็นการลดเวลาในการตอบสนองและเพิ่มประสิทธิภาพทางเศรษฐศาสตร์ ด้วยการละทิ้งโทโพโลยีทอรัส 3 มิติเพื่อใช้โทโพโลยี Boardfly แบบลำดับชั้น การเพิ่ม SRAM บนชิปเป็น 384 MB และการเปิดตัว Collective Acceleration Engine เพื่อเร่งการซิงค์แบบถดถอยอัตโนมัติ TPU 8i จึงทำลายกำแพงหน่วยความจำของการอนุมานอย่างเป็นระบบ ซึ่งช่วยให้มั่นใจได้ว่าแคช KV ขนาดใหญ่ที่จำเป็นสำหรับการให้เหตุผลแบบหลายขั้นตอนที่ซับซ้อนจะยังคงอยู่ในเครื่องและเข้าถึงได้โดยมีเวลาในการตอบสนองเกือบเป็นศูนย์ ขณะเดียวกันก็ลดต้นทุนการผลิตผ่านการออกแบบตรรกะที่มีประสิทธิภาพ
เมื่อทำงานร่วมกันบน CPU Axion ที่ใช้ ARM ซึ่งผสานรวมอย่างเต็มรูปแบบและจัดการโดยการสลับวงจรแบบออปติคัลอัตโนมัติ รุ่นที่ 8 ที่แยกออกเป็น 2 ส่วนจะสร้างกระบวนทัศน์ใหม่ในโครงสร้างพื้นฐานแบบไฮเปอร์สเกล ซึ่งเป็นคำกล่าวที่ชัดเจนเกี่ยวกับสถาปัตยกรรมที่แสดงให้เห็นว่าอนาคตของปัญญาประดิษฐ์ไม่ได้ต้องการเพียงแค่ชิปที่เร็วขึ้น แต่ยังต้องการเฟรมเวิร์กฮาร์ดแวร์ที่แตกต่างกันโดยพื้นฐานซึ่งออกแบบร่วมกันอย่างแม่นยำสำหรับปริมาณงานที่แตกต่างกันซึ่งมีไว้เพื่อให้บริการ
แหล่งที่มา:1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com