การออกแบบยุคแห่งเอเจนต์: การวิเคราะห์เปรียบเทียบอย่างละเอียดของ Google Cloud TPU 7x, TPU 8t และ TPU 8i

วิวัฒนาการของปัญญาประดิษฐ์ (AI) จากโมเดลภาษาขนาดใหญ่พื้นฐานไปจนถึงระบบ Agent แบบหลายขั้นตอนที่ซับซ้อนได้กระตุ้นให้เกิดการเปลี่ยนแปลงกระบวนทัศน์พื้นฐานในการออกแบบเซมิคอนดักเตอร์ เป็นเวลาเกือบ 10 ปีแล้วที่ตรรกะที่แพร่หลายในสถาปัตยกรรมตัวเร่งความเร็วของปัญญาประดิษฐ์คือการรวมเป็นหนึ่งเดียว นักออกแบบซิลิคอนพยายามออกแบบสถาปัตยกรรมแบบเอกพจน์และแบบโมโนลิธที่สามารถดำเนินการพร้อมกันกับปริมาณงานขนาดใหญ่ที่มีอัตราการส่งข้อมูลสูงของการฝึกโมเดลล่วงหน้าควบคู่ไปกับความต้องการที่มีความไวต่อเวลาในการตอบสนองของการอนุมานในเวอร์ชันที่ใช้งานจริง [อ้างอิง: 1, 2] แนวทางแบบครบวงจรนี้ครอบงำอุตสาหกรรมตั้งแต่เริ่มมีตัวเร่งความเร็วฮาร์ดแวร์ตัวแรกไปจนถึงการใช้งาน Cloud Tensor Processing Unit (TPU) ของ Google Cloud รุ่นที่ 7 [อ้างอิง: 2, 3, 4]

อย่างไรก็ตาม เมื่อโมเดลฟรอนเทียร์ขยายขนาดเป็นพารามิเตอร์หลายล้านล้านและสถาปัตยกรรมการให้เหตุผลแบบเรียลไทม์ เช่น Mixture-of-Experts (MoE) และวงจรความคิดเห็นของ Agent แบบต่อเนื่อง กลายเป็นมาตรฐาน ข้อกำหนดด้านฮาร์ดแวร์สำหรับการฝึกและให้บริการก็แยกออกไปอย่างถาวร [อ้างอิง: 5, 6, 7] การฝึกแบบล่วงหน้าได้กลายเป็นปัญหาการเพิ่มประสิทธิภาพแบนด์วิดท์และอัตราการส่งข้อมูล ซึ่งต้องใช้ความสามารถในการเพิ่มขนาดที่น่าทึ่ง แบนด์วิดท์แบบแบ่งครึ่งของการเชื่อมต่อขนาดใหญ่ และความอิ่มตัวของคณิตศาสตร์เมทริกซ์อย่างต่อเนื่อง [อ้างอิง: 6] ในทางกลับกัน การแสดงผลแบบเอเจนต์กลายเป็นปัญหาที่จำกัดด้วยเวลาในการตอบสนองและหน่วยความจำ โดยจำกัดด้วยความเร็วที่สามารถสตรีมน้ำหนักและแคชคีย์-ค่า (KV) ไปยังคอร์ประมวลผลได้โดยไม่เกิดคอขวดในการดำเนินการซิงค์ทั่วโลก [อ้างอิง: 6, 8]

Google ตระหนักดีว่าการบังคับให้เวิร์กโหลดทั้ง 2 แบบทำงานบนซิลิคอนที่เหมือนกันจะส่งผลให้เกิดความไม่มีประสิทธิภาพในระบบและผลตอบแทนทางเศรษฐกิจลดลง จึงตัดสินใจด้านสถาปัตยกรรมที่ไม่เคยมีมาก่อนในการแยกสายผลิตภัณฑ์ TPU รุ่นที่ 8 ออกเป็น 2 รุ่น [อ้างอิง: 1, 6, 9] ผลลัพธ์ที่ได้คือชิป 2 ตัวที่แตกต่างกันอย่างชัดเจนและมีความเชี่ยวชาญสูง ซึ่งได้รับการออกแบบมาจนถึงระดับซัพพลายเชน ได้แก่ TPU 8t ซึ่งออกแบบมาเพื่อรองรับปริมาณงานการฝึกขนาดใหญ่ในระดับซูเปอร์คอมพิวเตอร์ และ TPU 8i ซึ่งออกแบบมาเพื่อทำลายขีดจำกัดด้านหน่วยความจำของการอนุมานและลดเวลาในการตอบสนองโดยรวมสำหรับการให้เหตุผลทั่วโลก [อ้างอิง: 7, 9]

รายงานการค้นคว้าข้อมูลที่ครอบคลุมนี้จะวิเคราะห์ความแตกต่างด้านสถาปัตยกรรม ประสิทธิภาพ และการปรับขนาดระหว่างพื้นฐานแบบรวมของ TPU 7x กับ TPU 8t และ TPU 8i ที่แยกออกใหม่ การวิเคราะห์นี้จะอธิบายถึงความจำเป็นในการใช้ซิลิคอนเฉพาะทางเพื่อรองรับการปรับขนาดทางเศรษฐกิจและการคำนวณของปัญญาประดิษฐ์ (AI) รุ่นถัดไปผ่านการตรวจสอบการออกแบบตรรกะ ลำดับชั้นของหน่วยความจำแบบหลายระดับ โทโพโลยีการเชื่อมต่อศูนย์ข้อมูล การสลับวงจรแบบออปติคัล และการออกแบบร่วมระหว่างฮาร์ดแวร์กับซอฟต์แวร์อย่างละเอียด

บริบททางประวัติศาสตร์: เส้นทางการมุ่งสู่ความเชี่ยวชาญเฉพาะทาง

หากต้องการทำความเข้าใจการเปลี่ยนแปลงทางสถาปัตยกรรมในรุ่นที่ 8 อย่างเต็มที่ คุณต้องติดตามวิวัฒนาการแบบวนซ้ำของตระกูล TPU การพัฒนาฮาร์ดแวร์ของ Google สะท้อนให้เห็นถึงคอขวดที่พบได้ทั่วไปในโมเดลแมชชีนเลิร์นนิงร่วมสมัยอย่างต่อเนื่อง โดยเปลี่ยนจากการเร่งความเร็วการอนุมานแบบง่ายไปเป็นการฝึกแบบคลัสเตอร์ขนาดใหญ่ [อ้างอิง: 10, 11]

ตั้งแต่การอนุมานไปจนถึงอาร์เรย์เมทริกซ์ขนาดใหญ่

Google เปิดตัว TPU v1 ในปี 2015 ในฐานะตัวเร่งความเร็วสำหรับการอนุมานเท่านั้น ซึ่งออกแบบมาเพื่อรองรับภาระการประมวลผลที่เพิ่มขึ้นของบริการภายใน เช่น Search, Translate และคำแนะนำของ YouTube [อ้างอิง: 11, 12] โดย v1 ใช้การคำนวณจำนวนเต็ม 8 บิตเพื่อให้การดำเนินการต่อวัตต์ดีขึ้นหลายเท่าเมื่อเทียบกับหน่วยประมวลผลกลาง (CPU) และหน่วยประมวลผลกราฟิก (GPU) แบบอเนกประสงค์ [อ้างอิง: 10, 11] ในปี 2017 TPU v2 ได้เปลี่ยนไปใช้ความสามารถในการฝึกโมเดล โดยเปิดตัวรูปแบบ bfloat16 (BF16) ซึ่งเป็นรูปแบบทศนิยมแบบลอยตัว 16 บิตที่ยังคงช่วงไดนามิกของทศนิยมแบบลอยตัว 32 บิตไว้ในขณะที่ลดการใช้หน่วยความจำลงครึ่งหนึ่ง [อ้างอิง: 10]

รุ่นที่ 3 ถึงรุ่นที่ 5 ได้เพิ่มประสิทธิภาพเครื่องมือหลักในการคำนวณ ซึ่งก็คือหน่วยคูณเมทริกซ์ (MXU) MXU ยังคงเป็นอาร์เรย์ซิสโตลิกขนาด 128x128 มาหลายรุ่น ซึ่งสามารถดำเนินการคูณและสะสมได้ 16,384 รายการพร้อมกัน [อ้างอิง: 4, 10] TPU v4 เปิดตัว "SparseCore" ซึ่งเป็นบล็อกฮาร์ดแวร์เฉพาะที่ออกแบบมาเพื่อเร่งการค้นหาการฝังและการเข้าถึงหน่วยความจำที่ไม่ปกติ ซึ่งจะช่วยป้องกันไม่ให้ MXU หยุดทำงานชั่วคราวระหว่างการฝึกโมเดลคำแนะนำ [อ้างอิง: 4, 6]

การพัฒนาภูมิประเทศและ Trillium (v6e)

เมื่อโมเดลมีขนาดใหญ่ขึ้น โทโพโลยีการเชื่อมต่อที่จำเป็นต่อการซิงค์การไล่ระดับสีในชิปหลายพันตัวก็พัฒนาขึ้น Google ได้ใช้โทโพโลยีทอรัส 2 มิติสำหรับพ็อดขนาดเล็กที่คุ้มค่า (เช่น v5e และ v6e) ซึ่งช่วยลดความซับซ้อนในการเพิ่มขนาดชิปได้สูงสุด 256 ตัว [อ้างอิง: 4, 10] สำหรับรุ่นที่เพิ่มประสิทธิภาพ (เช่น v4 และ v5p) Google ใช้โทโพโลยีทอรัส 3 มิติ ซึ่งเชื่อมต่อชิปในตารางกริดแบบห่อหุ้ม 3 มิติเพื่อลดเวลาในการตอบสนองของการสื่อสารในพ็อดขนาดใหญ่ขึ้นตั้งแต่ 4,096 ถึง 8,960 ชิป [อ้างอิง: 4]

TPU v6e (Trillium) ซึ่งเปิดตัวในช่วงปลายปี 2024 เป็นรุ่นก่อนหน้ายุคปัจจุบันโดยตรง Trillium แสดงให้เห็นถึงการก้าวกระโดดทางสถาปัตยกรรมครั้งใหญ่ด้วยการขยาย MXU จากอาร์เรย์ 128x128 เป็นอาร์เรย์ 256x256 [อ้างอิง: 10] ซึ่งเพิ่มการดำเนินการคูณสะสมต่อรอบเป็น 4 เท่า เมื่อรวมกับแบนด์วิดท์การเชื่อมต่อระหว่างชิป (ICI) ที่เพิ่มขึ้นเป็น 2 เท่าที่ 3,200 Gbps (13 TB/s แบบสองทิศทางรวม) และหน่วยความจำแบนด์วิดท์สูง (HBM) ขนาด 32 GB ต่อชิป Trillium จึงมีประสิทธิภาพการประมวลผลสูงสุดมากกว่ารุ่นก่อนหน้าถึง 4.7 เท่าในขณะที่ทำงานโดยมีประสิทธิภาพการใช้พลังงานเพิ่มขึ้น 67% [อ้างอิง: 10, 11]

รุ่น TPU ปีที่วางจำหน่าย Primary Innovation โทโพโลยีและขนาดสูงสุดของพ็อด สถาปัตยกรรม MXU การประมวลผลสูงสุดต่อชิป
TPU v2 2017 พร้อมสำหรับการฝึกครั้งแรก (BF16) 2D Torus (512 ชิป) 128x128 ~45 TFLOPS
TPU v4 2021 การเปิดตัว SparseCore ทอรัส 3 มิติ (4,096 ชิป) 128x128 275 TFLOPS
TPU v5e 2023 ประสิทธิภาพที่เพิ่มต้นทุนให้เกิดประโยชน์สูงสุด 2D Torus (ชิป 256 ตัว) 128x128 197 TFLOPS
TPU v5p 2023 การเพิ่มประสิทธิภาพ ทอรัส 3 มิติ (ชิป 8,960 ตัว) 128x128 459 TFLOPS
TPU v6e (Trillium) 2024 การขยาย MXU 256x256 2D Torus (ชิป 256 ตัว) 256x256 918 เทราฟลอปส์

จุดสูงสุดของสถาปัตยกรรมแบบรวม: TPU 7x

TPU 7x รุ่นที่ 7 ซึ่งเปิดตัวเวอร์ชันสำหรับผู้ใช้ทั่วไปในช่วงปลายปี 2025 แสดงให้เห็นถึงจุดสูงสุดของกลยุทธ์สถาปัตยกรรมแบบรวมของ Google ออกแบบมาเพื่อดำเนินการทั้งการฝึกแบบล่วงหน้าขนาดใหญ่และการอนุมานที่เน้นการถอดรหัสภายในเฟรมเวิร์กสถาปัตยกรรมเดียว TPU 7x ได้ขยายขีดจำกัดของสิ่งที่ตัวเร่งความเร็วแบบอเนกประสงค์สามารถทำได้ [อ้างอิง: 3, 10]

การออกแบบ Dual-Chiplet และการเพิ่มประสิทธิภาพ AlphaChip

การสร้าง TPU 7x จริงๆ เป็นการเปลี่ยนแปลงครั้งใหญ่จากสถาปัตยกรรมแกนตรรกะเดียว (MegaCore) ที่พบใน v4 และ v5p [อ้างอิง: 3] TPU 7x ใช้สถาปัตยกรรมแบบ 2 ชิปเล็ต ชิป TPU 7x เต็มรูปแบบแต่ละชิปประกอบด้วยชิปเล็ต 2 ชิปที่แตกต่างกันและทำงานได้ด้วยตัวเอง ซึ่งเชื่อมต่อกันด้วยอินเทอร์เฟซแบบดาย-ทู-ดาย (D2D) ความเร็วสูงที่เป็นกรรมสิทธิ์ [อ้างอิง: 3] การเชื่อมต่อ D2D นี้ทำงานเร็วกว่าลิงก์ ICI แบบ 1 มิติมาตรฐานถึง 6 เท่า ทำให้ชิปเล็ตสื่อสารกันได้อย่างรวดเร็วในขณะที่ยังคงมีพื้นที่หน่วยความจำเฉพาะของตนเอง [อ้างอิง: 3]

TPU 7x มี TensorCore 2 ตัวและ SparseCore 4 ตัวในชิปแบบรวมเต็มรูปแบบ [อ้างอิง: 3] เลย์เอาต์ทางกายภาพของคอร์เหล่านี้ในเมทริกซ์ซิลิคอนได้รับการเพิ่มประสิทธิภาพโดยใช้ AlphaChip ซึ่งเป็นเครื่องมือการเรียนรู้แบบเสริมกำลังที่เป็นกรรมสิทธิ์ของ Google เพื่อลดความยาวของสายไฟและเพิ่มประสิทธิภาพด้านความร้อน [อ้างอิง: 10] การกำหนดค่าเครื่องเสมือน (VM) มาตรฐานสำหรับ TPU 7x จะเชื่อมต่อชิป 4 ตัวกับโฮสต์ CPU ซึ่งแสดง vCPU 224 รายการและ RAM 960 GB [อ้างอิง: 3]

ลำดับชั้นของหน่วยความจำแบบหลายระดับและการจัดรูปแบบความแม่นยำ

คอขวดที่สำคัญในการประมวลผลโมเดลแบบหนาแน่นและ MoE คือการเคลื่อนย้ายข้อมูลอย่างต่อเนื่องระหว่างระดับพื้นที่เก็บข้อมูล TPU 7x มีระบบหน่วยความจำแบบหลายระดับที่แข็งแกร่ง ซึ่งออกแบบมาเพื่อรักษา MXU ที่ขยายให้ทำงานอย่างเต็มประสิทธิภาพ * หน่วยความจำแบนด์วิดท์สูง (HBM3E): ชิป TPU 7x แต่ละชิปมี HBM ขนาด 192 GB ซึ่งให้แบนด์วิดท์หน่วยความจำขนาดใหญ่ถึง 7.37 TB/s (7,380 GBps) [อ้างอิง: 3, 10] ความจุที่เพิ่มขึ้น 6 เท่าเมื่อเทียบกับ Trillium ช่วยให้มีขนาดกลุ่มที่ใหญ่ขึ้นอย่างมากในระหว่างการฝึก และช่วยให้สามารถเก็บแคช KV ขนาดใหญ่ไว้ในชิปในระหว่างการอนุมาน ซึ่งจะช่วยป้องกันไม่ให้เกิดการเพิ่มขึ้นของเวลาในการตอบสนองที่อาจมีค่าใช้จ่ายสูงซึ่งเกี่ยวข้องกับการส่งไปยังหน่วยความจำโฮสต์ที่ช้ากว่า [อ้างอิง: 4, 10, 13] * หน่วยความจำเวกเตอร์ (VMEM): TensorCore แต่ละตัวมี VMEM ขนาด 64 MiB (รวม 128 MB ต่อชิป) ซึ่งทำหน้าที่เป็นพื้นที่ทดลอง SRAM บนชิปที่มีความเร็วสูงมาก VMEM มีแบนด์วิดท์สูงกว่า HBM อย่างมากเมื่อเทียบกับ MXU [อ้างอิง: 3, 14] การปรับแต่ง VMEM ที่กำหนดขอบเขตช่วยให้นักพัฒนาแอปสามารถจัดสรรหน่วยความจำใหม่ระหว่างขอบเขตการคำนวณปัจจุบันและการดึงข้อมูลล่วงหน้าของน้ำหนักในอนาคต ซึ่งจะช่วยให้มีขนาดไทล์เคอร์เนลที่ใหญ่ขึ้น (เช่น ขนาดที่ใช้ใน Flash Attention) และลดการหยุดทำงานของหน่วยความจำ [อ้างอิง: 13, 14] หน่วยความจำโฮสต์ (PCIe): ระบบจะใช้หน่วยความจำโฮสต์ของระบบที่เชื่อมต่อผ่านเครือข่าย PCIe เพื่อลดภาระสถานะและการเปิดใช้งานเครื่องมือเพิ่มประสิทธิภาพ ซึ่งจะช่วยจัดการแรงกดดันด้านหน่วยความจำสำหรับโมเดลที่เกินความจุ HBM [อ้างอิง: 3, 14]

นอกจากนี้ TPU 7x ยังมีการเร่งฮาร์ดแวร์แบบเนทีฟสำหรับความแม่นยำของจุดลอยตัว 8 บิต (FP8) [อ้างอิง: 4, 13] การย้ายข้อมูลจากรูปแบบ 16 บิตมาตรฐาน (BF16 หรือ FP16) ไปยังการแสดง FP8 จะเพิ่มปริมาณงานการคำนวณสูงสุดได้อย่างมีประสิทธิภาพเป็น 2 เท่า ในขณะที่ลดร่องรอยหน่วยความจำที่จำเป็นสำหรับการจัดเก็บน้ำหนักและการเปิดใช้งานลงครึ่งหนึ่ง [อ้างอิง: 4, 13] ชิป TPU 7x เพียงชิปเดียวทำงานใน FP8 โดยให้การคำนวณสูงสุดที่ 4,614 TFLOPS เทียบกับ 2,307 TFLOPS เมื่อทำงานใน BF16 [อ้างอิง: 3, 4]

โทโพโลยีทอรัส 3 มิติและการปรับขนาด Superpod

ที่ระดับศูนย์ข้อมูล TPU 7x ใช้โทโพโลยีการเชื่อมต่อแบบทอรัส 3 มิติที่ได้รับการพิสูจน์แล้วของ Google [อ้างอิง: 3] สถาปัตยกรรมนี้เชื่อมต่อชิปแต่ละตัวกับชิปที่อยู่ใกล้ที่สุดตามแกน X, Y และ Z โดยตรง จึงทำให้เกิดเมช 3 มิติที่ยืดหยุ่น [อ้างอิง: 3] การสื่อสารภายใน Mesh นี้จะใช้แบนด์วิดท์ ICI ขนาด 1.2 TB/s (1,200 GBps) ต่อชิป ซึ่งจะช่วยให้สื่อสารได้แบบ 2 ทางที่ 200 GBps ต่อแกน [อ้างอิง: 3]

TPU 7x Superpod ที่ใช้งานอย่างเต็มรูปแบบจะปรับขนาดเป็นชิปที่ระบายความร้อนด้วยของเหลวจำนวนมหาศาลถึง 9,216 ชิป ในการกำหนดค่านี้ พ็อดจะให้กำลังการประมวลผล FP8 รวม 42.5 ExaFlops [อ้างอิง: 8, 10] ส่วน Slice ที่มีขนาดใหญ่กว่า 64 ชิปจะสร้างขึ้นโดยใช้ "ก้อน" ชิปแบบโมดูลาร์ขนาด 4x4x4 ซึ่งช่วยให้มีโทโพโลยีที่มีความยืดหยุ่นสูงตั้งแต่การกำหนดค่าแบบโฮสต์เดียวไปจนถึงสภาพแวดล้อมแบบหลายโฮสต์ขนาดใหญ่ [อ้างอิง: 3]

แม้ว่า TPU 7x จะมีความสามารถที่ยอดเยี่ยม แต่ลักษณะที่เป็นหนึ่งเดียวของ TPU 7x ก็หมายความว่าต้องมีการประนีประนอมในตัว แม้ว่าโทโพโลยีทอรัส 3 มิติจะมีประสิทธิภาพสูงสำหรับการซิงค์การไล่ระดับที่คาดการณ์ได้และเฉพาะที่ซึ่งจำเป็นในการฝึกแบบล่วงหน้า แต่ก็ทำให้เส้นผ่านศูนย์กลางของเครือข่ายสูง เช่น พ็อดที่มีชิป 1,024 ตัวบนทอรัส 3 มิติมีเส้นผ่านศูนย์กลางเครือข่ายสูงสุด 16 ฮ็อป [อ้างอิง: 15, 16] ในสถานการณ์การอนุมาน MoE ซึ่งต้องกำหนดเส้นทางโทเค็นอย่างรวดเร็วไปยังเลเยอร์ผู้เชี่ยวชาญที่อยู่ในพ็อดทุกที่ ระยะทาง 16 ฮ็อปนี้จะทำให้เกิดเวลาในการตอบสนองที่ส่วนท้ายแบบทั้งหมดต่อทั้งหมดที่ไม่สามารถยอมรับได้ [อ้างอิง: 6, 15, 16] นอกจากนี้ การจัดสรรพื้นที่ซิลิคอนที่มีค่าให้กับ SparseCore ซึ่งมีความโดดเด่นในการค้นหาการฝัง ยังทำให้พื้นที่ที่สามารถใช้สำหรับเครื่องมือลดการรวบรวมซึ่งมีความสำคัญต่อเวิร์กโฟลว์แบบลูกโซ่ของความคิดที่ใช้เอเจนต์ลดลง [อ้างอิง: 6, 15] อุตสาหกรรมนี้มาถึงขีดจำกัดทางกายภาพของตัวเร่งความเร็วแบบ "ขนาดเดียวใช้ได้กับทุกคน" แล้ว

การแยกออกเชิงกลยุทธ์: ปัจจัยขับเคลื่อนทางเศรษฐกิจและสถาปัตยกรรม

การเปลี่ยนจาก TPU รุ่นที่ 7 เป็นรุ่นที่ 8 ถือเป็นการเปลี่ยนแปลงสถาปัตยกรรมที่สำคัญที่สุดในประวัติศาสตร์ซิลิคอนของ Google [อ้างอิง: 9] การแยกสายผลิตภัณฑ์ TPU ออกเป็น 2 ตระกูลผลิตภัณฑ์ที่แตกต่างกัน ได้แก่ TPU 8t สำหรับการฝึก และ TPU 8i สำหรับการอนุมาน ซึ่งประกาศใน Google Cloud Next 2026 เป็นการยอมรับว่าภาระงานที่ขับเคลื่อนปัญญาประดิษฐ์ในทศวรรษหน้าไม่สามารถรวมกันได้ในระดับฮาร์ดแวร์ [อ้างอิง: 1, 2, 17]

การแยกนี้มีต้นกำเนิดมาจากการแยกความแตกต่างทางเศรษฐศาสตร์และความเข้มข้นในการปฏิบัติงานของการพัฒนา AI การฝึก Frontier Model ต้องใช้เงินทุนสูงมาก ซึ่งเป็นการใช้จ่ายในการปฏิบัติงานแบบครั้งเดียวที่วัดผลได้จากการคำนวณอย่างต่อเนื่องเป็นเวลาหลายสัปดาห์หรือหลายเดือน [อ้างอิง: 9] โดยต้องใช้ความหนาแน่นในการคำนวณสูงสุด แบนด์วิดท์การเชื่อมต่อแบบเพิ่มขนาดที่ไม่เคยมีมาก่อน และโดเมนหน่วยความจำแบบรวมหลายเพตะไบต์ที่สามารถรับชุดข้อมูลแบบหลายรูปแบบที่อัตราสาย [อ้างอิง: 9]

ในทางกลับกัน การอนุมานเป็นต้นทุนการดำเนินงานที่เกิดขึ้นอย่างต่อเนื่องซึ่งจะเพิ่มขึ้นแบบเชิงเส้นหรือแบบเอ็กซ์โปเนนเชียลตามความต้องการของผู้ใช้ [9] ใน "ยุคเอเจนต์" ที่กำลังจะมาถึง โมเดล AI ไม่ได้เพียงแค่คาดการณ์โทเค็นถัดไปเพื่อสร้างบล็อกข้อความ แต่ยังใช้เหตุผลอย่างแข็งขัน จำลองสถานการณ์ในอนาคต วนซ้ำผ่าน "จินตนาการ" เรียกใช้ API ภายนอก และโต้ตอบกับฝูงเอเจนต์เฉพาะทางอื่นๆ ในลูปความคิดเห็นอย่างต่อเนื่อง [5, 7, 15] ไดนามิกนี้ต้องใช้หน่วยความจำจำนวนมากเพื่อจัดเก็บหน้าต่างบริบทที่ใช้งานอยู่ และมีความหน่วงของเครือข่ายต่ำมากสำหรับการกำหนดเส้นทางของผู้เชี่ยวชาญและการซิงค์ทั่วโลก [15, 16]

การแยกสายผลิตภัณฑ์ทำให้ Google เพิ่มประสิทธิภาพฮาร์ดแวร์ในซัพพลายเชนได้ TPU 8t ได้รับการออกแบบร่วมกับ Broadcom ซึ่งเป็นพาร์ทเนอร์ที่ร่วมงานกันมาตั้งแต่ปี 2015 [อ้างอิง: 9, 17, 18] ความเชี่ยวชาญของ Broadcom ในการเชื่อมต่อ SerDes ที่ซับซ้อนและมีความเร็วสูง การบรรจุภัณฑ์ขั้นสูง และการเชื่อมต่อเครือข่ายขนาดใหญ่ทำให้ Broadcom เป็นพาร์ทเนอร์ที่เหมาะสมที่สุดในการก้าวข้ามขีดจำกัดทางกายภาพของโครงสร้างพื้นฐานการฝึก [อ้างอิง: 17, 19]

สำหรับชิปการอนุมาน Google ได้ฉีกแนวจากธรรมเนียมเดิมและร่วมมือกับ MediaTek เพื่อออกแบบ TPU 8i [อ้างอิง: 9, 17, 18] Google ได้สร้างตัวเร่งการอนุมานที่ได้รับการเพิ่มประสิทธิภาพด้านต้นทุนอย่างมาก [อ้างอิง: 17, 19] โดยใช้ประโยชน์จากความเชี่ยวชาญที่ลึกซึ้งของ MediaTek ในการออกแบบ SoC สำหรับอุปกรณ์เคลื่อนที่ที่มีประสิทธิภาพด้านพลังงานสูงและมีปริมาณมาก TPU 8i ใช้การออกแบบที่เรียบง่ายกว่า (ชิปประมวลผล 1 ตัวเทียบกับ 2 ตัวของ 8t) ซึ่งมีรายงานว่ามีต้นทุนการผลิตถูกกว่ารุ่นประสิทธิภาพสูงแบบเดิม 20-30% ทำให้ Google สามารถปรับขนาดความสามารถในการให้บริการทั่วโลกได้อย่างประหยัดเพื่อตอบสนองความต้องการของแอปพลิเคชันสำหรับองค์กรและผู้บริโภค [อ้างอิง: 9, 17] ชิปทั้ง 2 ตัวผลิตในโหนดกระบวนการ 2 นาโนเมตรขั้นสูงของ TSMC โดยใช้แพ็กเกจขั้นสูง CoWoS ที่ล้ำสมัยเพื่อผสานรวมไดส์ตรรกะกับสแต็ก HBM ที่สูงตระหง่าน [อ้างอิง: 9, 19]

การตรวจสอบตลาดสำหรับกลยุทธ์ที่แยกออกเป็น 2 ส่วนนี้เกิดขึ้นในทันที Anthropic ซึ่งเป็นองค์กรวิจัย AI ชั้นนำได้ขยายข้อตกลงมูลค่าหลายพันล้านดอลลาร์กับ Google Cloud โดยมุ่งมั่นที่จะมีกำลังการประมวลผลถึง 3.5 กิกะวัตต์ภายในปี 2027 ซึ่งจะทำหน้าที่เป็นลูกค้ารายสำคัญสำหรับทั้งแพลตฟอร์ม TPU 7x และแพลตฟอร์มรุ่นที่ 8 [อ้างอิง: 9, 10, 20]

เจาะลึก: TPU 8t (ขุมพลังการฝึกโมเดลล่วงหน้า)

TPU 8t เป็นความสำเร็จด้านวิศวกรรมที่ไม่มีข้อจำกัด โดยมีเป้าหมายเพื่อลดวงจรการพัฒนาโมเดลฟรอนเทียร์ที่มีพารามิเตอร์หลายล้านล้านจากหลายเดือนให้เหลือเพียงไม่กี่สัปดาห์ [อ้างอิง: 5, 21] ซึ่งไม่ได้ทำได้เพียงแค่เพิ่มความเร็วสัญญาณนาฬิกาดิบ แต่ยังปรับโครงสร้างความแม่นยำของการดำเนินการทางคณิตศาสตร์ ขยายแบนด์วิดท์ระหว่างชิปอย่างมาก และลดปัญหาคอขวดในการนำเข้าข้อมูลที่ทำให้คลัสเตอร์การฝึกขนาดใหญ่ทำงานไม่ได้ [อ้างอิง: 6, 15]

สถาปัตยกรรมประมวลผลแบบ Dual-Die และ FP4 ดั้งเดิม

ในทางกายภาพ TPU 8t ใช้สถาปัตยกรรมที่ซับซ้อนอย่างยิ่งซึ่งประกอบด้วยไดคอมพิวเตอร์ 2 ตัวและชิปเล็ต I/O 1 ตัว โดยมีหน่วยความจำ HBM3E สูง 12 ชั้น 8 กองอยู่ด้านข้าง [อ้างอิง: 9] การแพ็กเกจที่หนาแน่นนี้ต้องมีการจัดการความร้อนขั้นสูง ซึ่งอาศัยการระบายความร้อนด้วยของเหลวรุ่นที่ 4 ของ Google เพื่อกระจายความร้อนมหาศาลที่เกิดจากการดำเนินการกับเมทริกซ์อย่างต่อเนื่อง [อ้างอิง: 7, 17, 22]

การพัฒนาพื้นฐานใน TPU 8t คือการเปิดตัวความแม่นยำแบบจุดลอยตัว 4 บิต (FP4) ดั้งเดิม [อ้างอิง: 6, 15] ความต้องการทางคณิตศาสตร์ของการฝึกแบบ Pre-training เน้นที่อัตราการส่งข้อมูลมากกว่าความแม่นยำเชิงตัวเลขที่มากเกินไป การลดการดำเนินการดั้งเดิมจาก FP8 ลงมาเป็น FP4 ทำให้ TPU 8t เพิ่มอัตราการส่งข้อมูลของ MXU เป็น 2 เท่า ในขณะเดียวกันก็ลดจำนวนบิตที่ต้องย้ายจริงในดายต่อพารามิเตอร์ลงครึ่งหนึ่ง [อ้างอิง: 6, 15] การลดการเคลื่อนย้ายข้อมูลอย่างมากนี้ช่วยลดการดึงข้อมูลในหน่วยความจำที่ใช้พลังงานมาก และช่วยให้เลเยอร์โมเดลขนาดใหญ่ขึ้นพอดีกับบัฟเฟอร์ฮาร์ดแวร์ที่เฉพาะเจาะจง [อ้างอิง: 6, 15]

TPU 8t ใช้การปรับขนาดหน่วยประมวลผลเวกเตอร์ (VPU) ที่สมดุลมากขึ้นเพื่อให้มั่นใจว่าชิปจะยังคงทำงานอย่างเต็มประสิทธิภาพ ซึ่งช่วยให้ซิลิคอนสามารถทำงานที่จำเป็นตามลำดับพร้อมกันได้ เช่น การหาปริมาณ, Softmax และ Layernorm ไปพร้อมกับการคูณเมทริกซ์ที่ซับซ้อนซึ่งเกิดขึ้นใน MXU ซึ่งช่วยลดเวลาที่ไม่ได้ใช้เมทริกซ์ซึ่งแกนประมวลผลจะไม่ได้ใช้งาน [อ้างอิง: 6, 15] การเพิ่มประสิทธิภาพสถาปัตยกรรมเหล่านี้ทำให้ชิป TPU 8t เพียงชิปเดียวมีกำลังการประมวลผล FP4 ที่น่าทึ่งถึง 12.6 PFLOP [อ้างอิง: 15, 23]

นอกจากนี้ TPU 8t ยังคงใช้บล็อก SparseCore เฉพาะทางที่เปิดตัวในรุ่นก่อนๆ [อ้างอิง: 1, 6, 15] ซึ่งแตกต่างจากรุ่นอื่นๆ ที่เน้นการอนุมานเป็นหลัก ภาระงานที่ใช้การฝังจำนวนมาก ซึ่งพบได้ทั่วไปในโมเดลพื้นฐานแบบมัลติโมดัลและระบบการแนะนำ จะแสดงรูปแบบการเข้าถึงหน่วยความจำที่ไม่ปกติซึ่งทำให้ GPU แบบเดิมทำงานไม่ได้ SparseCore จะทำงานแบบอะซิงโครนัส โดยจะออฟโหลดการดำเนินการทั้งหมดที่ขึ้นอยู่กับข้อมูลและการค้นหาการฝัง [อ้างอิง: 6, 15] การแยกการคำนวณเมทริกซ์แบบหนาแน่นไปยัง MXU และการดำเนินการแบบกระจัดกระจายไปยัง SparseCore ทำให้ TPU 8t ป้องกันคอขวด "zero-op" ที่ทำให้การคำนวณหยุดชะงัก [อ้างอิง: 6, 15]

แบนด์วิดท์ การส่งผ่านข้อมูลพื้นที่เก็บข้อมูล และ TPUDirect

TPU 8t ต้องใช้แบนด์วิดท์ในเครื่องและแบนด์วิดท์รวมที่สูงมากเพื่อป้อนข้อมูลให้กับ MXU ที่เร่งความเร็วอย่างมากซึ่งทำงานใน FP4 ชิปแต่ละตัวมี HBM3e ขนาด 216 GB ซึ่งทำงานที่ 6,528 GB/s [อ้างอิง: 15, 24] อย่างไรก็ตาม ในระดับโมเดลฟรอนเทียร์ ข้อจำกัดของระบบมักจะเปลี่ยนจากความเร็วในการประมวลผลของซิลิคอนไปเป็นความเร็วที่ศูนย์ข้อมูลสามารถนำเข้าข้อมูลการฝึกขนาดเพตะไบต์จากที่เก็บข้อมูลแบบเย็น

Google ได้ผสานรวม RDMA ของ TPUDirect และที่เก็บข้อมูล TPUDirect [อ้างอิง: 5, 6, 10] เพื่อหลีกเลี่ยงปัญหาคอขวดในเส้นทางข้อมูลแบบเดิม โปรโตคอลเหล่านี้ช่วยให้เข้าถึงหน่วยความจำโดยตรง (DMA) ระหว่างหน่วยความจำแบนด์วิดท์สูงของ TPU กับอาร์เรย์พื้นที่เก็บข้อมูลเครือข่ายที่มีการจัดการ เช่น Google Cloud Managed Lustre 10T [cite: 6, 15] TPUDirect จะข้าม CPU ของโฮสต์และ DRAM ของโฮสต์โดยสมบูรณ์ [อ้างอิง: 6] ด้วยการกำหนดเส้นทางข้อมูลจากระบบไฟล์แบบขนาน Lustre ไปยัง TPU โดยตรงผ่านการ์ดอินเทอร์เฟซเครือข่าย (NIC) เส้นทางข้อมูลเฉพาะนี้ช่วยเพิ่มความเร็วในการเข้าถึงพื้นที่เก็บข้อมูลได้ถึง 10 เท่าเมื่อเทียบกับการฝึกใน TPU รุ่น 7x เพื่อให้มั่นใจว่าหน่วยประมวลผล TPU 8t สามารถรับชุดข้อมูลแบบมัลติโมดัลที่อัตราสายโดยไม่มีการขาดแคลน [อ้างอิง: 5, 6, 15]

โครงสร้างพื้นฐานขนาดใหญ่: เครือข่าย Virgo

ความสำเร็จด้านสถาปัตยกรรมที่น่าทึ่งที่สุดของระบบนิเวศ TPU 8t คือความสามารถด้านเครือข่าย ซึ่งเปลี่ยนข้อจำกัดของระบบจากคอมพิวเตอร์เฉพาะที่ไปเป็นแบนด์วิดท์ระดับศูนย์ข้อมูลอย่างมั่นคง [อ้างอิง: 25, 26]

แม้ว่า TPU 8t จะยังคงใช้การเชื่อมต่อแบบทอรัส 3 มิติพื้นฐานสำหรับการสื่อสารพ็อดในพื้นที่ โดยขยายขนาดได้สูงสุดถึง 9,600 ชิปและ HBM ที่แชร์ขนาด 2 เพตะไบต์ในซูเปอร์พ็อดเดียว แต่เราได้ออกแบบโครงสร้างการขยายขนาดใหม่ทั้งหมด [อ้างอิง: 5, 6, 15] Superpod มีการประมวลผล FP4 โดยรวม 121 ExaFlops ซึ่งเพิ่มขึ้น 2.8 เท่าจาก 42.5 ExaFlops ของ TPU 7x [อ้างอิง: 6] เพื่อรองรับการทำงานนี้ แบนด์วิดท์ ICI ภายในพ็อดจึงเพิ่มขึ้นเป็น 2 เท่าเป็น 19.2 Tb/s ต่อชิป [อ้างอิง: 4, 6, 10]

อย่างไรก็ตาม Google ได้สร้างเครือข่าย Virgo [อ้างอิง: 1, 6] เพื่อเชื่อมต่อ Superpod เหล่านี้หลายร้อยตัว เครือข่ายรุ่นก่อนหน้าอย่าง Jupiter ใช้โทโพโลยี Clos แบบ 3 เลเยอร์ที่กำหนดเส้นทางการรับส่งข้อมูลผ่านระดับสวิตช์หลายระดับ ซึ่งทำให้เกิดปัญหาคอขวดด้านเวลาในการตอบสนองและแบนด์วิดท์ (จำกัดไว้ที่ 100 Gbps ต่อชิป) [อ้างอิง: 25]

Virgo เป็นโครงสร้างที่ปรับขนาดได้ซึ่งสร้างขึ้นบนสวิตช์ที่มี Radix สูง (จัดการพอร์ต 256 ถึง 512 พอร์ต) ซึ่งใช้โทโพโลยีแบบ 2 เลเยอร์แบบไม่บล็อก [อ้างอิง: 6, 15, 25] การตัดระดับเครือข่ายออกทางกายภาพทำให้ Virgo ลดเวลาในการตอบสนองได้อย่างมาก เครือข่ายใช้การออกแบบแบบหลายระนาบที่มีโดเมนการควบคุมอิสระ ซึ่งเพิ่มแบนด์วิดท์เครือข่ายศูนย์ข้อมูล (DCN) ดิบได้สูงสุด 400% (4 เท่า) โดยเปลี่ยนไปใช้ 400 Gbps ต่อชิป [อ้างอิง: 6, 15, 24]

เนื้อผ้า Virgo เพียงชิ้นเดียวสามารถเชื่อมต่อชิป TPU 8t กว่า 134,000 ชิ้นภายในศูนย์ข้อมูลเดียว ซึ่งให้แบนด์วิดท์แบบแบ่งครึ่งที่ไม่บล็อกที่ 47 เพตะบิตต่อวินาที ซึ่งเป็นความเร็วที่เหลือเชื่อ [อ้างอิง: 1, 6, 15] นอกจากนี้ TPU 8t ยังผสานรวมกับซอฟต์แวร์ Pathways ของ Google และเฟรมเวิร์ก JAX ทำให้คลัสเตอร์การฝึกแบบกระจายสามารถขยายขนาดชิปได้มากกว่า 1 ล้านชิปในหลายๆ ไซต์ทางภูมิศาสตร์ในฐานะงานการฝึกเชิงตรรกะเดียว [อ้างอิง: 1, 6, 15] ความสำเร็จนี้เปลี่ยนโครงสร้างพื้นฐานที่กระจายอยู่ทั่วโลกให้กลายเป็นซูเปอร์คอมพิวเตอร์เครื่องเดียวที่ทำงานได้อย่างราบรื่น ซึ่งก้าวข้ามข้อจำกัดในการปรับขนาด GPU แบบอเนกประสงค์ในปัจจุบันไปอย่างมาก [อ้างอิง: 27]

การกำหนดค่าใหม่โดยอัตโนมัติและ Goodput 97%

เมื่อมีชิปหลายแสนตัว ความล้มเหลวของฮาร์ดแวร์ตั้งแต่ทรานซีฟเวอร์ที่ชำรุดไปจนถึงการควบคุมอุณหภูมิเป็นสิ่งที่เกิดขึ้นได้อย่างแน่นอน ไม่ใช่กรณีที่พบได้ยาก ในระบบเดิม การหยุดชะงักของเครือข่ายเพียงครั้งเดียวอาจทำให้การฝึกโมเดลขนาดใหญ่หยุดชะงักได้ ซึ่งต้องมีการย้อนกลับไปยังจุดตรวจสอบก่อนหน้าซึ่งเป็นกระบวนการที่ซับซ้อนและมีค่าใช้จ่ายสูง ในระดับฟรอนเทียร์ ประสิทธิภาพที่สูญเสียไปทุกๆ 1 เปอร์เซ็นต์จะส่งผลให้เวลาในการฝึกโมเดลเพิ่มขึ้นเป็นวันๆ [อ้างอิง: 5, 6]

ระบบนิเวศของ TPU 8t มีเป้าหมาย "goodput" มากกว่า 97% ซึ่งเป็นเมตริกที่กำหนดอัตราส่วนของเวลาในการประมวลผลที่มีประโยชน์และมีประสิทธิภาพต่อเวลาในการทำงานทั้งหมด [อ้างอิง: 6, 28] ซึ่งทำได้ผ่านความสามารถด้านความน่าเชื่อถือ ความพร้อมใช้งาน และความสามารถในการให้บริการ (RAS) ขั้นสูงที่ยึดตามการสลับวงจรแบบออปติคัล (OCS) [อ้างอิง: 5, 6, 25] ระบบสามารถตรวจหาลิงก์การเชื่อมต่อระหว่างชิปที่ผิดพลาดได้โดยอัตโนมัติผ่านการวิเคราะห์การวัดและส่งข้อมูลแบบเรียลไทม์ของชิปหลายหมื่นชิ้น OCS จะเปลี่ยนเส้นทางแสงแบบออปติคัลเพื่อหลีกเลี่ยงความล้มเหลวของฮาร์ดแวร์แบบเรียลไทม์โดยไม่ต้องมีการแทรกแซงจากมนุษย์ และที่สำคัญคือโดยไม่ขัดขวางงานการฝึกที่ใช้งานอยู่ [อ้างอิง: 5, 6, 28]

เจาะลึก: TPU 8i (เครื่องมือให้เหตุผล)

หาก TPU 8t เป็นการฝึกการปรับขนาดแบบสุดโต่งและแบบบรูทฟอร์ซ TPU 8i ก็เป็นคลาสเรียนขั้นสูงในการเพิ่มประสิทธิภาพเวลาในการตอบสนองและสถาปัตยกรรมหน่วยความจำ [อ้างอิง: 6] เมื่อโมเดลเปลี่ยนไปเป็นการผลิตแบบเรียลไทม์ โดยเฉพาะโมเดล Mixture-of-Experts (MoE) ขนาดใหญ่และกลุ่มเอเจนต์ อัตราการส่งข้อมูลการคำนวณดิบจึงมีความเกี่ยวข้องน้อยกว่าความเร็วในการเข้าถึงและกำหนดเส้นทางหน่วยความจำผ่านเครือข่าย [อ้างอิง: 21, 29]

การทำลายกำแพงหน่วยความจำของการอนุมาน

ในการสร้างแบบถดถอยอัตโนมัติ โมเดลจะสร้างโทเค็นเอาต์พุตตามลำดับ เมื่อสร้างโทเค็นใหม่แต่ละรายการ โมเดลต้องอ้างอิงประวัติที่เพิ่มขึ้นของโทเค็นก่อนหน้าทั้งหมดและความสัมพันธ์ทางคณิตศาสตร์ของโทเค็นเหล่านั้น ซึ่งเรียกว่าแคชคู่คีย์-ค่า (KV) [cite: 1, 13] สำหรับโมเดลบริบทแบบยาวที่วิเคราะห์โทเค็นหลายแสนรายการ แคช KV นี้จะมีขนาดใหญ่ขึ้น หากแคชเกินความจุของหน่วยความจำออนบอร์ดที่รวดเร็วของชิปและล้นไปยังหน่วยความจำ CPU ของโฮสต์ที่ช้ากว่า กระบวนการคำนวณทั้งหมดจะหยุดชะงัก ซึ่งเป็นปรากฏการณ์ที่รู้จักกันในชื่อ "กำแพงหน่วยความจำ" [อ้างอิง: 5, 8]

TPU 8i สร้างขึ้นเพื่อทำลายกำแพงนี้โดยเฉพาะ แม้ว่าจะเป็นการออกแบบซิลิคอนที่เรียบง่ายและคุ้มค่ากว่า โดยใช้ชิปประมวลผลเดียวและชิป I/O เดียวที่มี HBM3e 6 สแต็ก แต่ความจุหน่วยความจำได้รับการเพิ่มประสิทธิภาพอย่างมากสำหรับการให้บริการ [อ้างอิง: 9] * ความจุและแบนด์วิดท์ HBM: TPU 8i แต่ละตัวมี HBM3E ขนาด 288 GB ซึ่งแสดงถึงความจุที่เพิ่มขึ้น 50% เมื่อเทียบกับ TPU 7x [อ้างอิง: 5, 24, 30] ที่สำคัญกว่านั้นคือ เนื่องจากโมเดล MoE ขนาดใหญ่มีข้อจำกัดด้านแบนด์วิดท์หน่วยความจำในระหว่างการอนุมาน แบนด์วิดท์หน่วยความจำจึงเพิ่มขึ้นเป็น 8.6 TB/s (~8,601 GB/s) ซึ่งเร็วกว่า TPU 8t ที่เน้นการฝึกประมาณ 1.3 เท่า [อ้างอิง: 10, 15] * SRAM ในชิปขนาดใหญ่: การเปลี่ยนแปลงฮาร์ดแวร์ที่สำคัญที่สุดคือการรวมหน่วยความจำแบบสแตติกแรนดอมแอ็กเซส (SRAM) ในชิปขนาด 384 MB ต่อชิป [อ้างอิง: 10, 15, 30] ซึ่งแสดงถึงการเพิ่มขึ้นอย่างมากถึง 300% (3 เท่า) เมื่อเทียบกับทั้ง TPU 7x และ TPU 8t [อ้างอิง: 10, 15, 30] SRAM เป็นหน่วยความจำที่เร็วที่สุดและมีเวลาในการตอบสนองต่ำที่สุดที่พร้อมใช้งานโดยตรงในเมทริกซ์ซิลิคอน การเพิ่มความจุนี้เป็น 3 เท่าทำให้ TPU 8i สามารถโฮสต์แคช KV ขนาดใหญ่ในชิปได้ทั้งหมด [อ้างอิง: 15, 16] ซึ่งจะช่วยป้องกันไม่ให้แกนประมวลผลว่างเปล่าขณะรอการดึงข้อมูลประวัติโทเค็นจากระดับหน่วยความจำที่ช้ากว่า ทำให้ลูปการให้เหตุผลที่มีการทำงานพร้อมกันสูงทำงานได้อย่างราบรื่นอย่างที่ไม่เคยมีมาก่อน [อ้างอิง: 5, 15]

The Collectives Acceleration Engine (CAE)

เนื่องจาก TPU 8i มีเป้าหมายเป็นการอนุมาน เราจึงพิจารณาว่าการใช้หน่วย SparseCore ใน 7x และ 8t สำหรับการค้นหาการฝังเป็นการใช้พื้นที่ซิลิคอนอย่างไม่มีประสิทธิภาพสำหรับภาระงานเฉพาะนี้ วิศวกรของ Google จึงได้นำบล็อกฮาร์ดแวร์ที่เป็นกรรมสิทธิ์ของตนเองมาใช้แทนที่ ซึ่งรู้จักกันในชื่อ Collectives Acceleration Engine (CAE) [cite: 10, 15]

ในระหว่างการถอดรหัสแบบถดถอยอัตโนมัติและการประมวลผล "เชนออฟธ็อท" แกนประมวลผลที่แตกต่างกันจะต้องหยุดการคำนวณของแต่ละแกนเป็นระยะๆ เพื่อรวบรวม ลด และซิงค์ผลลัพธ์ทางคณิตศาสตร์ในชิป [อ้างอิง: 6, 15] การดำเนินการซิงค์ทั่วโลกเหล่านี้อาจทำให้เกิดปัญหาคอขวดอย่างรุนแรงในเวลาแฝง โดยเฉพาะอย่างยิ่งเมื่อมีเอเจนต์อิสระหลายพันรายที่พยายามแก้ปัญหาพร้อมกัน

สำหรับชิป TPU 8i แต่ละตัว TensorCore 2 ตัวจะอยู่ในไดหลัก พร้อมด้วย CAE 1 ตัวที่อยู่ในไดชิปเล็ก (แทนที่ SparseCore 4 ตัวที่พบใน TPU 7x) [อ้างอิง: 6, 15] CAE เฉพาะทางได้รับการออกแบบมาเพื่อรวบรวมผลลัพธ์ในหลายๆ คอร์โดยมีเวลาในการตอบสนองที่แทบจะเป็นศูนย์ ซึ่งส่งผลให้เวลาในการตอบสนองแบบรวมในชิปลดลงอย่างมากถึง 5 เท่าเมื่อเทียบกับ TPU รุ่น 7x [อ้างอิง: 10, 15] การเร่งฮาร์ดแวร์ขั้นตอนการลดที่ครอบงำเวิร์กโฟลว์ของเอเจนต์ CAE ช่วยให้มั่นใจได้ว่าระบบจะยังคงมีปริมาณงานสูงโดยไม่ลดทอนการตอบสนองแบบเรียลไทม์ [อ้างอิง: 6, 15]

การปรับเครือข่ายให้แบนราบ: โทโพโลยี Boardfly

ฟีเจอร์ที่สำคัญของ TPU 8i คือการละทิ้งโทโพโลยีทอรัส 3 มิติโดยสิ้นเชิง แม้ว่าโทโพโลยีทอรัส 3 มิติจะเหมาะอย่างยิ่งสำหรับการส่งข้อมูลแบบข้างบ้านที่จำเป็นในการฝึกแบบ Pre-Training แต่ก็ทำให้เกิดระยะทางจริงที่ยาวนานเกินรับได้ ซึ่งวัดเป็นฮอปของเครือข่ายสำหรับการกำหนดเส้นทางโทเค็นแบบทั้งหมดต่อทั้งหมดที่โมเดลการอนุมาน MoE ต้องการ [อ้างอิง: 2, 15] ในสถาปัตยกรรม MoE โทเค็นใดๆ ก็ตามอาจต้องกำหนดเส้นทางไปยังเลเยอร์ "ผู้เชี่ยวชาญ" ที่เฉพาะเจาะจงซึ่งอยู่บนชิปที่แตกต่างกันอย่างสิ้นเชิงภายในพ็อด ในโทโพโลยีทอรัสดั้งเดิม แพ็กเก็ตข้อมูลนี้จะต้องเดินทางผ่านชิปที่แทรกอยู่ตามลำดับเพื่อไปยังปลายทาง

Google จึงได้ออกแบบสถาปัตยกรรมเครือข่ายใหม่ที่เพิ่มประสิทธิภาพการแสดงผลชื่อว่า Boardfly [cite: 15, 31] เพื่อแก้ไขปัญหานี้ Boardfly ได้รับแรงบันดาลใจจากหลักการโทโพโลยี Dragonfly ซึ่งเป็นเครือข่ายแบบลำดับชั้นที่มีการเชื่อมต่อจำนวนมาก ออกแบบมาเพื่อลดความซับซ้อนของสถาปัตยกรรมและลดระยะทางจริงระหว่างชิป 2 ตัว [cite: 2, 15, 26]

โทโพโลยี Boardfly สร้างขึ้นตามลำดับชั้นดังนี้ 1. องค์ประกอบพื้นฐาน: ชิป TPU 8i ที่เชื่อมต่อกันอย่างเต็มรูปแบบ 4 ตัวจะสร้างองค์ประกอบพื้นฐานที่มีลิงก์ ICI ภายใน [อ้างอิง: 6, 16] 2. บอร์ด: บล็อก 8 บล็อกเชื่อมต่อกันอย่างสมบูรณ์ผ่านสายทองแดงโดยตรงเพื่อสร้างบอร์ดเดียว [อ้างอิง: 6, 16] 3. พ็อด: จากนั้นทั้ง 36 กลุ่มจะเชื่อมต่อกันอย่างสมบูรณ์ผ่านสวิตช์วงจรแบบออปติคัลและลิงก์แบบออปติคัลระยะไกลโดยตรงเพื่อสร้างพ็อดแบบรวมที่มีชิป 1,152 ตัว [อ้างอิง: 5, 6, 16, 32]

ข้อได้เปรียบด้านเวลาในการตอบสนองของแนวทางนี้เป็นเรื่องที่สำคัญมาก ในการกำหนดค่าทอรัส 3 มิติแบบชิป 1,024 ชิปมาตรฐาน แพ็กเก็ตข้อมูลอาจต้องข้ามเส้นผ่านศูนย์กลางเครือข่ายสูงสุด 16 ฮอป [อ้างอิง: 15, 25] ในโทโพโลยี Boardfly เส้นผ่านศูนย์กลางเครือข่ายสูงสุดนี้จะลดลงเหลือเพียง 7 ฮอป [อ้างอิง: 15, 25]

การลดเส้นผ่านศูนย์กลางของเครือข่ายลง 56% นี้ส่งผลให้เวลาในการตอบสนองที่ท้ายแถวของภาระงานการอนุมานที่เน้นการสื่อสารดีขึ้นอย่างมากถึง 50% [อ้างอิง: 16, 25, 30] ท้ายที่สุดแล้ว การอนุมานจะถูกจำกัดด้วยความเร็วของโหนดที่ช้าที่สุด โทโพโลยี Boardfly ช่วยให้มั่นใจได้ว่า CAE จะไม่ว่างเว้นขณะรอให้ข้อมูลโทเค็นเดินทางผ่านพ็อด [อ้างอิง: 6, 15] ด้วยการลดเวลาในการตอบสนองที่หาง

นอกจากนี้ ด้วยการเชื่อมต่อออปติคัลที่มีความเหนียวแน่นสูงนี้ พ็อด TPU 8i ที่มีชิป 1,152 ตัวจึงทำงานเป็นโดเมนหน่วยความจำที่ใช้ร่วมกันขนาดใหญ่แบบรวมที่มี HBM แบบโคฮีเรนต์ 331.8 TB [อ้างอิง: 16]

ประสิทธิภาพเชิงเปรียบเทียบ เศรษฐศาสตร์ และโครงสร้างพื้นฐานของระบบ

การแยกสถาปัตยกรรมออกเป็น 2 ส่วนช่วยปรับปรุงทั้งด้านเศรษฐศาสตร์การคำนวณและประสิทธิภาพการใช้พลังงานได้อย่างมาก การประเมินฮาร์ดแวร์ตามการดำเนินการจุดลอยตัวเชิงทฤษฎีสูงสุดเพียงอย่างเดียวเป็นการละเลยความเป็นจริงของระบบในการดำเนินงานของศูนย์ข้อมูลและการเปิดใช้ซอฟต์แวร์

การสนับสนุนเฟรมเวิร์กและการแยกซอฟต์แวร์

แม้ว่าฮาร์ดแวร์พื้นฐานจะแตกต่างกัน แต่ Google ก็ได้ลงทุนอย่างมากในการดูแลรักษาสแต็กซอฟต์แวร์ AI แบบรวมที่เน้นประสิทธิภาพเป็นอันดับแรกเพื่อป้องกันการล็อกอินเฟรมเวิร์ก ทั้ง TPU 8t และ 8i รองรับ JAX, Keras, MaxText, SGLang และเครื่องมือ vLLM โดยกำเนิด [อ้างอิง: 5, 8, 14, 17] นอกจากนี้ การรองรับ PyTorch โดยกำเนิด (ผ่าน TorchTPU) ยังช่วยให้นักพัฒนาแอปสามารถพอร์ตโมเดล PyTorch ที่มีอยู่ไปยังสภาพแวดล้อม TPU ได้โดยตรงพร้อมการรองรับฟีเจอร์โดยกำเนิดอย่างเต็มรูปแบบ เช่น โหมด Eager [อ้างอิง: 15, 17]

เบื้องหลังการทำงาน คอมไพเลอร์ Accelerated Linear Algebra (XLA) จะจัดการการแปลโทโพโลยีของ Boardfly และการซิงค์ CAE ที่ซับซ้อน ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์เขียนเคอร์เนลที่กำหนดเองซึ่งรับรู้ฮาร์ดแวร์ใน Python (โดยใช้ Pallas และ Mosaic) ได้โดยไม่ต้องเขียนโปรแกรมการเชื่อมต่อแบบออปติคัลด้วยตนเอง [อ้างอิง: 15]

เมตริกประสิทธิภาพเชิงปริมาณ

ตารางด้านล่างสรุปข้อกำหนดทางเทคนิคหลักๆ ของสถาปัตยกรรม TPU 7x แบบรวม และ TPU 8t และ 8i ที่มีความเฉพาะเจาะจงสูง [อ้างอิง: 3, 15, 24]

เมทริกซ์ข้อกำหนด TPU 7x TPU 8t TPU 8i
ภาระงานหลัก รวม (การฝึกและการอนุมาน) การฝึกโมเดลล่วงหน้าขนาดใหญ่ การอนุมานที่ไวต่อเวลาในการตอบสนอง
ASIC Design Partner Broadcom Broadcom MediaTek
โทโพโลยีเครือข่าย ทอรัส 3 มิติ 3D Torus + Virgo Scale-Out Boardfly (ได้แรงบันดาลใจจาก Dragonfly)
ฮาร์ดแวร์เฉพาะ SparseCore SparseCore Collectives Acceleration Engine (CAE)
โฟกัสความแม่นยำแบบเนทีฟ FP8 FP4 FP4 (รองรับ FP8/INT8)
การประมวลผลสูงสุดต่อชิป 4.6 PFLOPs (FP8) 12.6 PFLOPs (FP4) 10.1 PFLOPs (FP4)
ความจุ HBM ต่อชิป 192 GB 216 GB 288 GB
แบนด์วิดท์ HBM 7.37 TB/วินาที 6.52 TB/วินาที 8.60 TB/วินาที
SRAM บนชิป (VMEM) 128 MB 128 MB 384 MB
แบนด์วิดท์ระหว่างชิป (เพิ่มขนาด) 9.6 TB/วินาที 19.2 TB/วินาที 19.2 TB/วินาที
ขนาดสูงสุดของพ็อด/ซูเปอร์พ็อด 9,216 ชิป 9,600 ชิป 1,152 ชิป

การเพิ่มประสิทธิภาพด้านต้นทุนและประสิทธิภาพ รวมถึง TCO

Google อ้างว่ามีการปรับปรุงต้นทุนรวมในการเป็นเจ้าของ (TCO) ที่โดดเด่นในรุ่นที่ 8 TPU 8t ให้ประสิทธิภาพต่อดอลลาร์เพิ่มขึ้น 170% ถึง 180% ซึ่งเท่ากับการปรับปรุง 2.7 เท่าถึง 2.8 เท่าสำหรับการฝึกขนาดใหญ่เมื่อเทียบกับ TPU 7x [อ้างอิง: 6, 15, 30] ในขณะเดียวกัน TPU 8i ก็มีประสิทธิภาพต่อดอลลาร์เพิ่มขึ้น 80% สำหรับการอนุมาน โดยเฉพาะที่เป้าหมายที่มีเวลาในการตอบสนองต่ำซึ่งจำเป็นสำหรับโมเดล MoE ขนาดใหญ่ [อ้างอิง: 15, 16, 30]

การเติบโตทางเศรษฐกิจเหล่านี้ไม่ได้เกิดจากซิลิคอนเท่านั้น แต่เกิดจากการผสานรวมระบบแบบฟูลสแต็ก ในอดีต TPU จะจับคู่กับ CPU โฮสต์ x86 ที่มีจำหน่ายทั่วไป ในสถานการณ์ที่เกี่ยวข้องกับการประมวลผลข้อมูลเบื้องต้นอย่างเข้มข้นหรือตรรกะที่เป็น Agent ที่ซับซ้อน โฮสต์ x86 มักจะทำให้ระบบเกิดจุดคอขวด ทำให้ซิลิคอน TPU ที่รวดเร็วมากพร้อมทำงานแต่ขาดข้อมูล [อ้างอิง: 6, 7]

รุ่นที่ 8 แก้ไขความไม่สมดุลเรื้อรังนี้ด้วยการโฮสต์ทั้ง 8t และ 8i บนโปรเซสเซอร์ Axion ที่ใช้ ARM แบบกำหนดเองของ Google โดยเฉพาะ [cite: 6, 7, 15] Axion สร้างขึ้นบนสถาปัตยกรรมหลัก Neoverse N3 Armv9.2 และมีโฮสต์ที่ให้รากฐานแบบรวมที่ได้รับการเพิ่มประสิทธิภาพอย่างสูง [cite: 18, 19] สำหรับ TPU 8i ที่มีการอนุมานจำนวนมาก Google ได้ผสานรวมโฮสต์ Axion ในอัตราส่วน TPU ต่อ CPU ที่ 2:1 ซึ่งเพิ่มโฮสต์ CPU จริงต่อเซิร์ฟเวอร์เป็น 2 เท่าเมื่อเทียบกับ TPU 7x [cite: 5, 6, 32] ระบบใช้สถาปัตยกรรม Non-Uniform Memory Access (NUMA) ที่เข้มงวดเพื่อแยกปริมาณงาน จึงรับประกันการเข้าถึงหน่วยความจำที่เหนือกว่าและขจัดคอขวดในการเตรียมข้อมูลโดยสิ้นเชิง [cite: 5, 7]

การประหยัดพลังงานและผลกระทบต่อตลาด

ความหนาแน่นของพลังงานและความพร้อมใช้งานของพลังงานกำลังกลายเป็นข้อจำกัดที่สำคัญที่สุดในการติดตั้งใช้งานศูนย์ข้อมูลสมัยใหม่ การใช้ระบบระบายความร้อนด้วยของเหลวรุ่นที่ 4 และการจัดการพลังงานแบบเรียลไทม์แบบผสานรวมที่ปรับการดึงพลังงานแบบไดนามิกตามระยะของภาระงานที่เฉพาะเจาะจง (เช่น การคำนวณที่ใช้งานอยู่เทียบกับการไม่ได้ใช้งานเพื่อการสื่อสาร) ทำให้ทั้ง TPU 8t และ 8i มีประสิทธิภาพด้านพลังงานที่น่าทึ่ง [อ้างอิง: 7, 15, 22, 24] 8t มีประสิทธิภาพต่อวัตต์เพิ่มขึ้น 124% ส่วน 8i มีประสิทธิภาพต่อวัตต์เพิ่มขึ้น 117% ส่งผลให้ประสิทธิภาพการใช้พลังงานโดยรวมดีขึ้น 2 เท่า (100%ขึ้นไป) เมื่อเทียบกับ TPU 7x [อ้างอิง: 15, 22, 30]

ผลลัพธ์ของประสิทธิภาพนี้เห็นได้ชัดในโมเดลที่ล้ำสมัยของ Google เอง การเปรียบเทียบประสิทธิภาพของรุ่นตัวอย่าง Gemini 3.1 Pro แสดงให้เห็นว่าการใช้งานโมเดลในสถาปัตยกรรม TPU 8i จะช่วยลดต้นทุนสำหรับ API การอนุมานได้ประมาณ 50% พร้อมทั้งปรับปรุงความสามารถในการตอบสนองและการจัดการบริบทแบบยาวได้อย่างมาก [อ้างอิง: 24, 30]

ภาพรวมการแข่งขัน: Google กับชิปซิลิคอนของผู้ขาย

การตัดสินใจของ Google ในการแยกกลยุทธ์ซิลิคอนออกเป็น 2 ส่วนส่งผลกระทบอย่างมากต่อระบบนิเวศของฮาร์ดแวร์ปัญญาประดิษฐ์ในวงกว้าง โดยเฉพาะอย่างยิ่งในการแข่งขันอย่างต่อเนื่องกับผู้ให้บริการซิลิคอนสำหรับผู้ขาย เช่น Nvidia และ AMD รวมถึง AWS (ที่มีแพลตฟอร์ม Trainium3) [อ้างอิง: 17, 23]

Nvidia มีประวัติการใช้กลยุทธ์สถาปัตยกรรมแบบรวม โดยใช้แพลตฟอร์มที่มีความสามารถสูงแต่เป็นแบบอเนกประสงค์ เช่น Blackwell B200 และ Vera Rubin NVL72 เพื่อจัดการทั้งการฝึกโมเดลล่วงหน้าและการอนุมานแบบเรียลไทม์ [อ้างอิง: 2, 9] เมื่อพิจารณาจากข้อกำหนดของชิปเดี่ยวแบบดิบๆ Nvidia ยังคงมีความได้เปรียบบางอย่าง ตัวอย่างเช่น เทคโนโลยี NVLink ของ Nvidia รองรับแบนด์วิดท์การเชื่อมต่ออุปกรณ์เดียวที่ 14.4 Tb/s และ GPU ของ Rubin แต่ละตัวมีประสิทธิภาพการคำนวณการอนุมาน NVFP4 ประมาณ 50 PFLOP ซึ่งสูงกว่า 10.1 PFLOP ของ TPU 8i อย่างมาก [อ้างอิง: 2, 9]

อย่างไรก็ตาม การเดิมพันด้านสถาปัตยกรรมของ Google ขึ้นอยู่กับความเชื่อมั่นที่ว่าอนาคตของปัญญาประดิษฐ์ขึ้นอยู่กับประสิทธิภาพระดับคลัสเตอร์ ไม่ใช่ความสามารถสูงสุดของชิปตัวเดียว [อ้างอิง: 9]

การเปลี่ยนไปใช้โทโพโลยี Boardfly ทำให้ Google สร้างพูลหน่วยความจำที่ใช้ร่วมกันได้อย่างสมบูรณ์แบบในชิปทั้ง 1,152 ชิปภายในพ็อด TPU 8i [อ้างอิง: 16] ซึ่งส่งผลให้พ็อดมีความจุรวม 11.6 FP8 ExaFlops และ HBM ที่สอดคล้องและเป็นหนึ่งเดียวกัน 331.8 TB [cite: 6, 16] ในทางกลับกัน ความสอดคล้องระดับแร็คของ GPU Nvidia มาตรฐานใน NVL72 มี GPU สูงสุด 72 ตัวและ HBM ประมาณ 20.7 TB [อ้างอิง: 2, 16] การปรับขนาด GPU แบบอเนกประสงค์ให้ตรงกับการกำหนดค่าชิป 1,152 ตัวต้องมีการเชื่อมต่อระหว่างแร็กแยกกันประมาณ 16 แร็ก [อ้างอิง: 16] การแยกทางกายภาพนี้ทำลายความสอดคล้องของหน่วยความจำที่แท้จริง และทำให้เกิดการลงโทษด้านเวลาในการตอบสนองอย่างรุนแรง ซึ่งเป็นหายนะสำหรับการอนุมานแบบต่อเนื่องและมีบริบทขนาดยาวของเอเจนต์ [อ้างอิง: 16]

นอกจากนี้ การย้ายการสลับวงจรแบบออปติคัล (OCS) ลงไปในเลเยอร์ที่ต่ำกว่าในสแต็กเพื่ออำนวยความสะดวกให้กับลำดับชั้นของ Boardfly ยังเป็นการเปลี่ยนแปลงห่วงโซ่อุปทานเครือข่ายออปติคัลของ Google อย่างสิ้นเชิง ซึ่งสร้างดีมานด์ปลายทางจำนวนมากสำหรับทรานซีฟเวอร์และเลเซอร์เฉพาะทางจากผู้ให้บริการอย่าง Lumentum และ Coherent [อ้างอิง: 26]

ท้ายที่สุดแล้ว ปรัชญาการออกแบบของ Google สันนิษฐานว่าสมรภูมิรบที่แท้จริงในช่วงปลายทศวรรษ 2020 จะไม่ได้ขึ้นอยู่กับปริมาณงานทางคณิตศาสตร์สูงสุดในชิปซิลิคอนเพียงชิ้นเดียว แต่ขึ้นอยู่กับความสามารถในการหลีกเลี่ยงข้อจำกัดด้านหน่วยความจำ การขยายการเชื่อมต่อระหว่างเว็บไซต์อย่างรวดเร็ว และการลดต้นทุนต่อโทเค็นแบบสัมบูรณ์ของการปรับใช้ฝูงเอเจนต์แบบเรียลไทม์กับผู้ใช้หลายพันล้านคน [อ้างอิง: 6, 16, 17]

บทสรุป

วิถีของ Tensor Processing Unit ของ Google Cloud ตั้งแต่เฟรมเวิร์กแบบรวมของ TPU 7x ไปจนถึงการแยกออกเป็น 2 ส่วนที่มีความเชี่ยวชาญสูงของ TPU 8t และ TPU 8i สะท้อนให้เห็นถึงการเติบโตและการปรับใช้ปริมาณงานของปัญญาประดิษฐ์ในอุตสาหกรรม ซิลิคอนแบบรวมอเนกประสงค์ แม้จะเป็นพื้นฐานของการเติบโตของการเรียนรู้เชิงลึกในช่วงแรก แต่ก็ไม่เพียงพอที่จะขับเคลื่อนเศรษฐศาสตร์หรือประสิทธิภาพที่จำเป็นในขอบเขตที่มากที่สุดของยุคที่เป็น Agent

TPU 8t แสดงให้เห็นถึงการมุ่งมั่นในการปรับขนาดอย่างไม่ลดละ ด้วยการคง SparseCore ไว้ การใช้ความแม่นยำ FP4 ดั้งเดิมเพื่อเพิ่มอัตราการส่งข้อมูล MXU เป็น 2 เท่า รวมถึงความสามารถอันน่าทึ่งของเครือข่าย Virgo และที่เก็บข้อมูล TPUDirect ทำให้ได้รับการออกแบบมาเพื่อรับและประมวลผลข้อมูลในปริมาณที่ก่อนหน้านี้คิดว่าเป็นไปไม่ได้ ซึ่งช่วยลดข้อจำกัดด้านแบนด์วิดท์ในการเพิ่มโหนดของศูนย์ข้อมูลสมัยใหม่ได้อย่างมีประสิทธิภาพ ทำให้ชิปนับล้านทำงานเป็นเครื่องมือการฝึกแบบล่วงหน้าแบบกระจายทั่วโลกเครื่องเดียว

ในทางกลับกัน TPU 8i เป็นการลดเวลาในการตอบสนองและเพิ่มประสิทธิภาพทางเศรษฐศาสตร์ ด้วยการละทิ้งโทโพโลยีทอรัส 3 มิติเพื่อใช้โทโพโลยี Boardfly แบบลำดับชั้น การเพิ่ม SRAM บนชิปเป็น 384 MB และการเปิดตัว Collective Acceleration Engine เพื่อเร่งการซิงค์แบบถดถอยอัตโนมัติ TPU 8i จึงทำลายกำแพงหน่วยความจำของการอนุมานอย่างเป็นระบบ ซึ่งช่วยให้มั่นใจได้ว่าแคช KV ขนาดใหญ่ที่จำเป็นสำหรับการให้เหตุผลแบบหลายขั้นตอนที่ซับซ้อนจะยังคงอยู่ในเครื่องและเข้าถึงได้โดยมีเวลาในการตอบสนองเกือบเป็นศูนย์ ขณะเดียวกันก็ลดต้นทุนการผลิตผ่านการออกแบบตรรกะที่มีประสิทธิภาพ

เมื่อทำงานร่วมกันบน CPU Axion ที่ใช้ ARM ซึ่งผสานรวมอย่างเต็มรูปแบบและจัดการโดยการสลับวงจรแบบออปติคัลอัตโนมัติ รุ่นที่ 8 ที่แยกออกเป็น 2 ส่วนจะสร้างกระบวนทัศน์ใหม่ในโครงสร้างพื้นฐานแบบไฮเปอร์สเกล ซึ่งเป็นคำกล่าวที่ชัดเจนเกี่ยวกับสถาปัตยกรรมที่แสดงให้เห็นว่าอนาคตของปัญญาประดิษฐ์ไม่ได้ต้องการเพียงแค่ชิปที่เร็วขึ้น แต่ยังต้องการเฟรมเวิร์กฮาร์ดแวร์ที่แตกต่างกันโดยพื้นฐานซึ่งออกแบบร่วมกันอย่างแม่นยำสำหรับปริมาณงานที่แตกต่างกันซึ่งมีไว้เพื่อให้บริการ

แหล่งที่มา:1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com