Thiết kế kỷ nguyên dựa trên tác nhân: Phân tích so sánh toàn diện về Google Cloud TPU 7x, TPU 8t và TPU 8i

Sự phát triển của trí tuệ nhân tạo từ các mô hình ngôn ngữ lớn cơ bản đến các hệ thống phức tạp, nhiều bước đã kích hoạt một sự thay đổi cơ bản về mô hình trong thiết kế bán dẫn. Trong gần một thập kỷ, logic chủ đạo trong cấu trúc bộ tăng tốc trí tuệ nhân tạo là một trong những logic hợp nhất. Các nhà thiết kế vi mạch đã nỗ lực thiết kế các cấu trúc đơn lẻ, nguyên khối có khả năng thực thi đồng thời khối lượng công việc lớn, có thông lượng cao của quá trình huấn luyện trước mô hình cùng với các yêu cầu nhạy cảm về độ trễ của suy luận sản xuất [cite: 1, 2]. Phương pháp hợp nhất này đã thống trị ngành từ khi ra đời các bộ tăng tốc phần cứng đầu tiên cho đến khi triển khai Tensor Processing Unit (TPU) thế hệ thứ bảy của Google Cloud [cite: 2, 3, 4].

Tuy nhiên, khi các mô hình tiên tiến mở rộng thành hàng nghìn tỷ tham số và các kiến trúc suy luận theo thời gian thực (chẳng hạn như Mô hình kết hợp các chuyên gia (MoE) và các vòng phản hồi liên tục của tác nhân) trở thành tiêu chuẩn, các yêu cầu về phần cứng để huấn luyện và phân phát đã khác biệt không thể đảo ngược [dẫn chứng: 5, 6, 7]. Việc huấn luyện trước đã trở thành một vấn đề về tối ưu hoá băng thông và thông lượng, đòi hỏi khả năng mở rộng quy mô đáng kinh ngạc, băng thông hai chiều kết nối khổng lồ và độ bão hoà toán học ma trận liên tục [dẫn chứng: 6]. Ngược lại, việc phân phát dựa trên tác nhân đã trở thành một vấn đề về độ trễ và giới hạn bộ nhớ, bị giới hạn bởi tốc độ truyền các trọng số và bộ nhớ đệm khoá-giá trị (KV) đến các lõi xử lý mà không bị tắc nghẽn trong các hoạt động đồng bộ hoá toàn cầu [dẫn chứng: 6, 8].

Nhận thấy việc buộc cả hai khối lượng công việc vào cùng một silicon sẽ dẫn đến tình trạng không hiệu quả mang tính hệ thống và lợi nhuận kinh tế giảm sút, Google đã đưa ra quyết định chưa từng có về kiến trúc là phân nhánh dòng TPU thế hệ thứ 8 [cite: 1, 6, 9]. Kết quả là hai con chip riêng biệt, có độ chuyên biệt cao được thiết kế ở cấp độ chuỗi cung ứng: TPU 8t, được thiết kế để có thông lượng huấn luyện khổng lồ ở quy mô siêu máy tính và TPU 8i, được thiết kế để phá vỡ rào cản bộ nhớ suy luận và giảm thiểu độ trễ tập thể cho suy luận toàn cầu [dẫn chứng: 7, 9].

Báo cáo nghiên cứu toàn diện này phân tích sự khác biệt về cấu trúc, hiệu suất và khả năng mở rộng giữa đường cơ sở hợp nhất của TPU 7x và TPU 8t cũng như TPU 8i mới được phân nhánh. Thông qua việc xem xét kỹ lưỡng thiết kế logic, hệ thống phân cấp bộ nhớ nhiều tầng, các cấu trúc liên kết kết nối trung tâm dữ liệu, chuyển mạch mạch quang và thiết kế phần cứng-phần mềm, phân tích này làm sáng tỏ cách thức cần có silicon chuyên dụng để duy trì khả năng mở rộng về kinh tế và tính toán của thế hệ trí tuệ nhân tạo tiếp theo.

Bối cảnh lịch sử: Quá trình hướng đến chuyên môn hoá

Để đánh giá đầy đủ những thay đổi về kiến trúc trong thế hệ thứ 8, bạn cần phải theo dõi quá trình phát triển lặp đi lặp lại của dòng TPU. Hoạt động phát triển phần cứng của Google luôn phản ánh những điểm nghẽn phổ biến của các mô hình học máy hiện đại, từ việc tăng tốc suy luận đơn giản đến các cấu trúc huấn luyện quy mô lớn theo cụm [cite: 10, 11].

Từ suy luận đến mảng ma trận khổng lồ

Google ra mắt TPU phiên bản 1 vào năm 2015 dưới dạng một trình tăng tốc chỉ dành cho suy luận, được thiết kế để xử lý khối lượng công việc tính toán ngày càng tăng của các dịch vụ nội bộ như Tìm kiếm, Dịch và đề xuất trên YouTube [cite: 11, 12]. TPU phiên bản 1 sử dụng phép toán số nguyên 8 bit để đạt được mức cải thiện theo cấp số nhân về số lượng thao tác trên mỗi watt so với các đơn vị xử lý trung tâm (CPU) và đơn vị xử lý đồ hoạ (GPU) đa năng [cite: 10, 11]. Đến năm 2017, TPU phiên bản 2 đánh dấu sự chuyển đổi sang khả năng huấn luyện, giới thiệu định dạng bfloat16 (BF16) – một định dạng dấu phẩy động 16 bit giữ lại dải động của số thực 32 bit trong khi giảm một nửa mức tiêu thụ bộ nhớ [cite: 10].

TPU thế hệ thứ 3 đến thế hệ thứ 5 đã tối ưu hoá công cụ tính toán cốt lõi – Đơn vị nhân ma trận (MXU). Trong nhiều thế hệ, MXU vẫn là một mảng tâm thu 128x128, có khả năng thực hiện đồng thời 16.384 phép nhân tích luỹ [dẫn chứng: 4, 10]. TPU phiên bản 4 đã giới thiệu "SparseCore", một khối phần cứng chuyên dụng được thiết kế đặc biệt để tăng tốc các hoạt động tra cứu nhúng và truy cập bộ nhớ không thường xuyên, nhờ đó ngăn MXU bị tắc nghẽn trong quá trình huấn luyện mô hình đề xuất [dẫn chứng: 4, 6].

The Topographical Evolution and Trillium (v6e)

Khi kích thước mô hình tăng lên, các cấu trúc liên kết kết nối cần thiết để đồng bộ hoá độ dốc trên hàng nghìn chip cũng phát triển. Google đã triển khai cấu trúc liên kết hình xuyến 2D cho các nhóm nhỏ hơn, tiết kiệm chi phí (chẳng hạn như v5e và v6e), giúp đơn giản hoá việc mở rộng lên đến 256 chip [cite: 4, 10]. Đối với các biến thể được tối ưu hoá hiệu suất (chẳng hạn như v4 và v5p), Google đã sử dụng cấu trúc liên kết hình xuyến 3D, kết nối các chip trong một lưới bao quanh ba chiều để giảm độ trễ giao tiếp trên các nhóm có kích thước lớn hơn, từ 4.096 đến 8.960 chip [cite: 4].

Tiền thân trực tiếp của kỷ nguyên hiện đại là TPU v6e (Trillium), được phát hành vào cuối năm 2024. Trillium là một bước tiến lớn về kiến trúc khi mở rộng MXU từ mảng 128x128 thành mảng 256x256 [cite: 10]. Điều này giúp tăng gấp 4 lần số lượng thao tác nhân-tích luỹ trên mỗi chu kỳ. Kết hợp với băng thông kết nối giữa các chip (ICI) tăng gấp đôi lên 3.200 Gbps (tổng băng thông hai chiều là 13 TB/giây) và 32 GB bộ nhớ băng thông cao (HBM) cho mỗi chip,Trillium mang lại hiệu suất tính toán cao gấp 4, 7 lần so với thế hệ trước trong khi hoạt động với hiệu suất năng lượng cao hơn 67% [cite: 10, 11].

Thế hệ TPU Năm phát hành Primary Innovation Cấu trúc liên kết và kích thước tối đa của nhóm Cấu trúc MXU Điện toán tối đa trên mỗi chip
TPU phiên bản 2 2017 Có khả năng huấn luyện lần đầu (BF16) Torus 2D (512 chip) 128x128 ~45 TFLOPS
TPU phiên bản 4 2021 Giới thiệu về SparseCore Torus 3D (4.096 chip) 128x128 275 TFLOPS
TPU v5e 2023 Hiệu quả tối ưu hoá chi phí Torus 2D (256 chip) 128x128 197 TFLOPS
TPU v5p 2023 Tăng hiệu suất Hình xuyến 3D (8.960 khối) 128x128 459 TFLOPS
TPU v6e (Trillium) 2024 Bản mở rộng MXU 256x256 Torus 2D (256 chip) 256x256 918 TFLOPS

Đỉnh cao của Kiến trúc hợp nhất: TPU 7x

Được phát hành ở giai đoạn phát hành rộng rãi vào cuối năm 2025, TPU thế hệ thứ 7 (TPU 7x) là đỉnh cao tuyệt đối trong chiến lược kiến trúc hợp nhất của Google. Được thiết kế để thực thi cả hoạt động huấn luyện trước ở quy mô lớn và suy luận giải mã chuyên sâu trong một khung kiến trúc duy nhất, TPU 7x đã vượt qua giới hạn về những gì mà một bộ tăng tốc đa năng có thể đạt được [cite: 3, 10].

Thiết kế Dual-Chiplet và tối ưu hoá AlphaChip

Việc xây dựng vật lý TPU 7x đánh dấu một sự thay đổi đáng kể so với kiến trúc lõi logic đơn (MegaCore) có trong v4 và v5p [cite: 3]. TPU 7x sử dụng kiến trúc hai chiplet. Mỗi chip TPU 7x đầy đủ bao gồm 2 chiplet riêng biệt, độc lập được kết nối bằng một giao diện độc quyền, tốc độ cao từ khuôn đến khuôn (D2D) [cite: 3]. Kết nối D2D này hoạt động ở tốc độ gấp 6 lần tốc độ của một đường liên kết ICI một chiều tiêu chuẩn, cho phép các chiplet giao tiếp nhanh chóng trong khi vẫn duy trì không gian bộ nhớ chuyên dụng của riêng chúng [cite: 3].

Trên toàn bộ vi mạch hợp nhất, TPU 7x có 2 TensorCore và 4 SparseCore [dẫn chứng: 3]. Bố cục vật lý của các lõi này trên ma trận silicon được tối ưu hoá bằng AlphaChip (công cụ học tăng cường thuộc quyền sở hữu riêng của Google) để giảm thiểu chiều dài dây và tối đa hoá hiệu suất nhiệt [dẫn chứng: 10]. Cấu hình máy ảo (VM) tiêu chuẩn cho TPU 7x kết nối 4 vi mạch với một máy chủ CPU, cung cấp 224 vCPU và 960 GB RAM [dẫn chứng: 3].

Hệ thống phân cấp bộ nhớ nhiều tầng và định dạng chính xác

Một điểm nghẽn quan trọng trong việc xử lý các mô hình dày đặc và MoE là việc di chuyển liên tục dữ liệu giữa các cấp lưu trữ. TPU 7x có hệ thống bộ nhớ nhiều tầng mạnh mẽ được thiết kế để duy trì trạng thái bão hoà cho các MXU mở rộng: * Bộ nhớ băng thông cao (HBM3E): Mỗi chip TPU 7x được trang bị 192 GB HBM, cung cấp băng thông bộ nhớ khổng lồ là 7,37 TB/giây (7.380 GB/giây) [cite: 3, 10]. Việc tăng gấp 6 lần dung lượng so với Trillium cho phép kích thước lô lớn hơn đáng kể trong quá trình huấn luyện và cho phép duy trì bộ nhớ đệm KV lớn hơn trên chip trong quá trình suy luận, ngăn chặn tình trạng tăng độ trễ tốn kém liên quan đến việc chuyển sang bộ nhớ máy chủ chậm hơn [cite: 4, 10, 13]. * Bộ nhớ vectơ (VMEM): Là một bảng nhớ tạm SRAM siêu tốc độ trên chip, mỗi TensorCore có 64 MiB VMEM (tổng cộng 128 MB cho mỗi chip). VMEM có băng thông cao hơn đáng kể so với MXU so với HBM [trích dẫn: 3, 14]. Thông qua việc điều chỉnh VMEM theo phạm vi, nhà phát triển có thể phân bổ lại bộ nhớ giữa phạm vi tính toán hiện tại và việc tìm nạp trước trọng số trong tương lai, cho phép kích thước ô nhân lớn hơn (chẳng hạn như kích thước được dùng trong cơ chế chú ý nhanh) và giảm tình trạng tắc nghẽn bộ nhớ [dẫn chứng: 13, 14]. * Bộ nhớ máy chủ (PCIe): Được kết nối thông qua mạng PCIe, bộ nhớ máy chủ của hệ thống được dùng để giảm tải các trạng thái và lượt kích hoạt của trình tối ưu hoá, quản lý áp lực bộ nhớ cho các mô hình vượt quá dung lượng HBM [cite: 3, 14].

Hơn nữa, TPU 7x đã giới thiệu tính năng tăng tốc phần cứng gốc cho độ chính xác dấu phẩy động 8 bit (FP8) [dẫn chứng: 4, 13]. Bằng cách di chuyển từ các định dạng 16 bit tiêu chuẩn (BF16 hoặc FP16), biểu thị FP8 sẽ tăng gấp đôi thông lượng tính toán đỉnh một cách hiệu quả trong khi giảm một nửa mức sử dụng bộ nhớ cần thiết để lưu trữ trọng số và các hoạt động [cite: 4, 13]. Khi hoạt động ở chế độ gốc trong FP8, một chip TPU 7x duy nhất mang lại hiệu suất tính toán tối đa là 4.614 TFLOPS, so với 2.307 TFLOPS khi hoạt động trong BF16 [dẫn chứng: 3, 4].

Cấu trúc liên kết Torus 3D và quy mô Superpod

Ở cấp trung tâm dữ liệu, TPU 7x dựa vào cấu trúc liên kết liên kết 3D hình xuyến đã được chứng minh của Google [cite: 3]. Cấu trúc này kết nối từng chip trực tiếp với các chip lân cận nhất trên các trục X, Y và Z, tạo ra một mạng lưới ba chiều có khả năng phục hồi [cite: 3]. Hoạt động giao tiếp trong mạng lưới này được hỗ trợ bởi băng thông ICI là 1,2 TB/giây (1.200 GB/giây) cho mỗi chip, cung cấp hoạt động giao tiếp hai chiều ở tốc độ 200 GB/giây cho mỗi trục [cite: 3].

Một superpod TPU 7x hoàn chỉnh có thể mở rộng đến 9. 216 chip được làm mát bằng chất lỏng.Trong cấu hình này, pod cung cấp tổng cộng 42,5 ExaFlops sức mạnh điện toán FP8 [dẫn chứng: 8, 10]. Các lát lớn hơn 64 chip được tạo bằng cách sử dụng các "khối" chip 4x4x4 theo mô-đun, cho phép các cấu trúc liên kết có tính linh hoạt cao, từ cấu hình một máy chủ đến môi trường nhiều máy chủ quy mô lớn [dẫn chứng: 3].

Mặc dù có những khả năng vượt trội, nhưng bản chất thống nhất của TPU 7x có nghĩa là nó có những hạn chế vốn có. Mặc dù cấu trúc liên kết hình xuyến 3D có tính hiệu quả cao đối với quá trình đồng bộ hoá độ dốc cục bộ, có thể dự đoán được cần thiết trong quá trình huấn luyện trước, nhưng cấu trúc này lại dẫn đến đường kính mạng cao. Ví dụ: một nhóm gồm 1.024 chip trên một hình xuyến 3D có đường kính mạng tối đa là 16 bước nhảy [trích dẫn: 15, 16]. Trong trường hợp suy luận MoE, nơi các mã thông báo phải được định tuyến nhanh chóng đến các lớp chuyên gia nằm ở bất kỳ đâu trong nhóm, khoảng cách 16 bước này sẽ gây ra độ trễ đuôi không thể chấp nhận được [cite: 6, 15, 16]. Hơn nữa, việc dành diện tích silicon có giá trị cho SparseCores (vốn vượt trội trong việc nhúng các hoạt động tra cứu) đã làm giảm không gian có thể được dùng cho các công cụ giảm tập thể, vốn rất quan trọng đối với quy trình làm việc theo chuỗi suy luận dựa trên tác nhân [trích dẫn: 6, 15]. Ngành công nghiệp này đã đạt đến giới hạn vật lý của bộ tăng tốc "một kích thước phù hợp với tất cả".

Sự phân nhánh chiến lược: Các yếu tố kinh tế và kiến trúc

Việc chuyển đổi từ TPU thế hệ thứ 7 sang thế hệ thứ 8 đánh dấu bước chuyển đổi kiến trúc quan trọng nhất trong lịch sử phát triển vi mạch của Google [cite: 9]. Tại Google Cloud Next 2026, Google đã công bố việc phân chia dòng TPU thành 2 dòng sản phẩm riêng biệt: TPU 8t để huấn luyện và TPU 8i để suy luận. Điều này cho thấy rằng các khối lượng công việc thúc đẩy thập kỷ tiếp theo của trí tuệ nhân tạo về cơ bản không thể hoà giải ở cấp độ phần cứng [cite: 1, 2, 17].

Nguyên nhân dẫn đến sự phân chia này là do sự khác biệt về kinh tế và cường độ hoạt động của quá trình phát triển AI. Việc huấn luyện một mô hình tiên phong là một khoản chi phí hoạt động một lần, đòi hỏi nhiều vốn và được đo lường bằng khả năng tính toán liên tục trong nhiều tuần hoặc nhiều tháng [cite: 9]. Quá trình này đòi hỏi mật độ tính toán tối đa, băng thông kết nối chưa từng có và các miền bộ nhớ hợp nhất nhiều petabyte có khả năng tiếp nhận các tập dữ liệu đa phương thức ở tốc độ đường truyền [cite: 9].

Ngược lại, suy luận là một chi phí vận hành liên tục, tăng theo cấp số nhân hoặc cấp số cộng theo nhu cầu của người dùng [cite: 9]. Trong "Kỷ nguyên dựa trên tác nhân" đang nổi lên, một mô hình AI không chỉ dự đoán mã thông báo tiếp theo để tạo một khối văn bản; mà còn chủ động suy luận, mô phỏng các tình huống trong tương lai, lặp lại thông qua "trí tưởng tượng", gọi các API bên ngoài và tương tác với nhiều tác nhân chuyên biệt khác trong các vòng phản hồi liên tục [dẫn chứng: 5, 7, 15]. Động lực này đòi hỏi lượng lớn bộ nhớ để lưu trữ các cửa sổ ngữ cảnh đang hoạt động và độ trễ mạng cực thấp để định tuyến chuyên gia và đồng bộ hoá trên toàn cầu [dẫn chứng: 15, 16].

Bằng cách chia tách dòng sản phẩm, Google đã tối ưu hoá phần cứng một cách sâu sắc trong chuỗi cung ứng. TPU 8t được thiết kế cùng với Broadcom, một mối quan hệ đối tác từ năm 2015 [cite: 9, 17, 18]. Chuyên môn của Broadcom về các kết nối SerDes phức tạp, tốc độ cao, đóng gói tiên tiến và mạng quy mô lớn đã giúp họ trở thành đối tác lý tưởng để vượt qua các giới hạn vật lý của cấu trúc huấn luyện [cite: 17, 19].

Đối với chip suy luận, Google đã phá vỡ truyền thống và hợp tác với MediaTek để thiết kế TPU 8i [dẫn chứng: 9, 17, 18]. Tận dụng chuyên môn sâu rộng của MediaTek về thiết kế SoC di động tiết kiệm năng lượng với số lượng lớn, Google đã tạo ra một bộ tăng tốc suy luận có chi phí tối ưu cao [cite: 17, 19]. TPU 8i sử dụng thiết kế đơn giản hơn (một khuôn tính toán so với hai khuôn của TPU 8t). Theo báo cáo, chi phí sản xuất TPU 8i rẻ hơn từ 20% đến 30% so với các biến thể hiệu suất cao truyền thống, cho phép Google mở rộng năng lực phân phát toàn cầu một cách tiết kiệm để đáp ứng nhu cầu của các ứng dụng doanh nghiệp và người tiêu dùng [cite: 9, 17]. Cả hai chip đều được sản xuất trên nút quy trình 2 nanomet tiên tiến của TSMC, kết hợp với công nghệ đóng gói tiên tiến CoWoS để tích hợp các khuôn logic với các ngăn xếp HBM cao chót vót [cite: 9, 19].

Việc xác thực thị trường cho chiến lược phân nhánh này diễn ra ngay lập tức. Anthropic, một tổ chức nghiên cứu AI hàng đầu, đã mở rộng thoả thuận trị giá hàng tỷ đô la với Google Cloud, cam kết sử dụng 3,5 gigawatt công suất điện toán vào năm 2027, đóng vai trò là khách hàng chủ chốt cho cả nền tảng TPU 7x và nền tảng thế hệ thứ 8 [cite: 9, 10, 20].

Tìm hiểu chuyên sâu: TPU 8t (Sức mạnh của quá trình huấn luyện trước)

TPU 8t là một thành tựu kỹ thuật vượt trội nhằm rút ngắn chu kỳ phát triển của các mô hình tiên tiến có hàng nghìn tỷ tham số từ hàng tháng xuống hàng tuần [trích dẫn: 5, 21]. TPU 8t đạt được điều này không chỉ bằng cách tăng tốc độ xung nhịp thô mà còn bằng cách tái cấu trúc độ chính xác của các phép toán, mở rộng đáng kể băng thông giữa các chip và giảm thiểu các nút thắt nghiêm trọng về việc thu nạp dữ liệu gây ảnh hưởng đến các cụm huấn luyện quy mô lớn [trích dẫn: 6, 15].

Cấu trúc điện toán Dual-Die và FP4 gốc

Về mặt vật lý, TPU 8t sử dụng một cấu trúc rất phức tạp bao gồm 2 khuôn tính toán và 1 chiplet I/O, được bao quanh bởi 8 ngăn xếp bộ nhớ HBM3E 12 tầng [dẫn chứng: 9]. Việc đóng gói dày đặc này đòi hỏi phải có hệ thống quản lý nhiệt tiên tiến, dựa vào hệ thống làm mát bằng chất lỏng thế hệ thứ tư của Google để tản nhiệt lượng lớn do các hoạt động ma trận duy trì tạo ra [dẫn chứng: 7, 17, 22].

Một bước tiến cơ bản trong TPU 8t là việc giới thiệu độ chính xác dấu phẩy động (FP4) 4 bit gốc [dẫn chứng: 6, 15]. Các yêu cầu về toán học của quá trình huấn luyện trước ưu tiên thông lượng hơn độ chính xác số cực cao. Bằng cách giảm quá trình thực thi gốc từ FP8 xuống FP4, TPU 8t sẽ tăng gấp đôi công suất của MXU một cách hiệu quả, đồng thời giảm một nửa số bit phải được di chuyển thực tế trên mỗi tham số [cite: 6, 15]. Việc giảm đáng kể lượng dữ liệu di chuyển giúp giảm thiểu các hoạt động tìm nạp bộ nhớ tiêu tốn nhiều năng lượng và cho phép các lớp mô hình lớn hơn phù hợp một cách thoải mái trong các vùng đệm phần cứng cục bộ [dẫn chứng: 6, 15].

Để đảm bảo chip luôn bão hoà, TPU 8t triển khai tính năng mở rộng VPU (Vector Processing Unit – Đơn vị xử lý vectơ) cân bằng hơn. Điều này cho phép silicon chồng chéo các tác vụ tuần tự thiết yếu (chẳng hạn như lượng tử hoá, softmax và layernorm) với các phép nhân ma trận lớn xảy ra trong MXU, hầu như loại bỏ thời gian không phải ma trận đã hiển thị mà các lõi tính toán sẽ không hoạt động [dẫn chứng: 6, 15]. Nhờ những điểm tối ưu hoá về cấu trúc này, một chip TPU 8t duy nhất mang lại sức mạnh tính toán FP4 đáng kinh ngạc là 12,6 PFLOP [dẫn chứng: 15, 23].

Hơn nữa, không giống như phiên bản tập trung vào suy luận, TPU 8t vẫn giữ lại các khối SparseCore chuyên dụng được giới thiệu trong các thế hệ trước [cite: 1, 6, 15]. Các khối lượng công việc có nhiều hoạt động nhúng (thường thấy trong các mô hình cơ sở đa phương thức và hệ thống đề xuất) cho thấy các mẫu truy cập bộ nhớ không đều, làm giảm hiệu suất của GPU truyền thống. SparseCore hoạt động không đồng bộ, giảm tải các hoạt động thu thập tất cả phụ thuộc vào dữ liệu và tra cứu nhúng [cite: 6, 15]. Bằng cách phân tách toán học ma trận dày đặc thành MXU và các hoạt động thưa thớt thành SparseCore, TPU 8t ngăn chặn các tắc nghẽn "zero-op" gây ra tình trạng tắc nghẽn tính toán [trích dẫn: 6, 15].

Băng thông, Bộ nhớ lưu trữ và TPUDirect

Để cung cấp dữ liệu cho các MXU hoạt động ở FP4 với tốc độ cực cao, TPU 8t cần có băng thông cục bộ và tổng hợp cực lớn. Mỗi vi mạch có 216 GB HBM3e, hoạt động ở tốc độ 6.528 GB/giây [cite: 15, 24]. Tuy nhiên, ở quy mô của các mô hình tiên phong, giới hạn của hệ thống thường chuyển từ tốc độ xử lý của silicon sang tốc độ mà trung tâm dữ liệu có thể nhập hàng petabyte dữ liệu huấn luyện từ bộ nhớ lưu trữ lạnh.

Để khắc phục tình trạng điểm tắc nghẽn đường dẫn dữ liệu truyền thống, Google đã tích hợp RDMA TPUDirect và Bộ nhớ TPUDirect [dẫn chứng: 5, 6, 10]. Các giao thức này cho phép truy cập trực tiếp vào bộ nhớ (DMA) giữa bộ nhớ băng thông cao của TPU và các mảng bộ nhớ mạng được quản lý, chẳng hạn như Google Cloud Managed Lustre 10T [cite: 6, 15]. Bằng cách định tuyến dữ liệu trực tiếp từ hệ thống tệp song song Lustre vào TPU thông qua Thẻ giao diện mạng (NIC), TPUDirect hoàn toàn bỏ qua CPU máy chủ và DRAM của máy chủ [cite: 6]. Đường dẫn dữ liệu chuyên dụng này giúp tăng tốc độ truy cập vào bộ nhớ lên gấp 10 lần so với việc huấn luyện trên TPU thế hệ thứ 7, đảm bảo rằng các đơn vị tính toán TPU 8t có thể tiếp nhận các tập dữ liệu đa phương thức ở tốc độ dòng mà không bị thiếu dữ liệu [cite: 5, 6, 15].

Cơ sở hạ tầng quy mô lớn: Mạng Virgo

Thành tựu kiến trúc đáng kinh ngạc nhất của hệ sinh thái TPU 8t là khả năng kết nối mạng, giúp chuyển đổi ràng buộc hệ thống một cách chắc chắn từ điện toán cục bộ sang băng thông quy mô trung tâm dữ liệu [cite: 25, 26].

Mặc dù TPU 8t vẫn giữ lại kết nối liên kết 3D dạng xuyến cơ bản để giao tiếp giữa các nhóm cục bộ (mở rộng lên đến 9.600 chip và 2 petabyte HBM dùng chung chưa từng có trong một siêu nhóm), nhưng cấu trúc mở rộng quy mô đã được thiết kế lại hoàn toàn [trích dẫn: 5, 6, 15]. Superpod đạt tổng cộng 121 ExaFlops điện toán FP4, tức là tăng gấp 2,8 lần so với 42,5 ExaFlops của TPU 7x [cite: 6]. Để hỗ trợ điều này, băng thông ICI trong nhóm đã tăng gấp đôi lên 19,2 Tb/giây cho mỗi chip [cite: 4, 6, 10].

Tuy nhiên, để kết nối hàng trăm superpod này, Google đã xây dựng Mạng Virgo [cite: 1, 6]. Mạng tiền nhiệm, Jupiter, sử dụng cấu trúc liên kết Clos 3 lớp để định tuyến lưu lượng truy cập thông qua nhiều cấp độ chuyển đổi, gây ra độ trễ và tắc nghẽn băng thông (giới hạn ở 100 Gbps cho mỗi chip) [cite: 25].

Virgo là một cấu trúc mở rộng quy mô được xây dựng trên các công tắc có cơ số cao (quản lý từ 256 đến 512 cổng) sử dụng một cấu trúc liên kết không chặn, phẳng, hai lớp [cite: 6, 15, 25]. Bằng cách loại bỏ các cấp mạng một cách vật lý, Virgo giúp giảm đáng kể độ trễ. Mạng này sử dụng thiết kế đa mặt phẳng với các miền kiểm soát độc lập, giúp tăng băng thông Mạng trung tâm dữ liệu (DCN) thô lên đến 400% (gấp 4 lần), chuyển sang 400 Gbps cho mỗi chip [cite: 6, 15, 24].

Một cấu trúc Virgo duy nhất có thể liên kết hơn 134.000 chip TPU 8t trong một cơ sở trung tâm dữ liệu duy nhất, mang lại băng thông hai chiều không chặn là 47 petabit/giây [cite: 1, 6, 15]. Hơn nữa, khi được tích hợp với phần mềm Pathways của Google và khung JAX, TPU 8t cho phép các cụm huấn luyện phân tán mở rộng quy mô lên hơn một triệu chip trên nhiều địa điểm địa lý dưới dạng một công việc huấn luyện logic duy nhất [cite: 1, 6, 15]. Thành tựu này biến cơ sở hạ tầng phân tán trên toàn cầu thành một siêu máy tính duy nhất, liền mạch, vượt xa đáng kể những hạn chế về khả năng mở rộng GPU đa năng hiện tại [cite: 27].

Tự động định cấu hình lại và 97% thông lượng hiệu dụng

Với quy mô hàng trăm nghìn vi mạch, lỗi phần cứng (từ bộ thu phát bị hỏng đến hiện tượng điều tiết nhiệt) là điều chắc chắn xảy ra chứ không phải trường hợp hiếm gặp. Trong các hệ thống cũ, một sự cố mạng duy nhất có thể làm gián đoạn một lần chạy huấn luyện quy mô lớn, đòi hỏi phải khôi phục về một điểm kiểm tra trước đó một cách tốn công và tốn kém. Ở quy mô tiên tiến, mỗi điểm phần trăm hiệu suất bị mất sẽ tương đương với nhiều ngày thời gian huấn luyện thực tế [cite: 5, 6].

Hệ sinh thái TPU 8t nhắm đến "tốc độ truyền dữ liệu hiệu quả" trên 97% – một chỉ số xác định tỷ lệ thời gian tính toán hữu ích, hiệu quả so với tổng thời gian hoạt động [dẫn chứng: 6, 28]. Điều này đạt được thông qua các chức năng nâng cao về Độ tin cậy, Khả năng hoạt động và Khả năng bảo trì (RAS) dựa trên Công nghệ chuyển mạch mạch quang (OCS) [cite: 5, 6, 25]. Thông qua hoạt động đo từ xa theo thời gian thực để phân tích hàng chục nghìn chip, hệ thống có thể tự động phát hiện các đường liên kết kết nối giữa các chip bị lỗi. OCS định tuyến lại các đường dẫn ánh sáng quang học để bỏ qua các lỗi phần cứng theo thời gian thực, không yêu cầu sự can thiệp của con người và quan trọng là không làm gián đoạn công việc huấn luyện đang hoạt động [trích dẫn: 5, 6, 28].

Tìm hiểu chuyên sâu: TPU 8i (Công cụ suy luận)

Nếu TPU 8t là một bài tập về việc mở rộng quy mô cực lớn, thô sơ, thì TPU 8i là một lớp học nâng cao về việc tối ưu hoá độ trễ và kiến trúc bộ nhớ [cite: 6]. Khi các mô hình chuyển sang sản xuất theo thời gian thực, đặc biệt là các mô hình Kết hợp chuyên gia (MoE) và các mô hình nhóm tác nhân quy mô lớn, thông lượng tính toán thô sẽ trở nên ít phù hợp hơn so với tốc độ truy cập và định tuyến bộ nhớ trên mạng [dẫn chứng: 21, 29].

Phá vỡ rào cản bộ nhớ suy luận

Trong quá trình tạo tự hồi quy, một mô hình sẽ tạo ra các mã thông báo đầu ra theo trình tự. Với mỗi mã thông báo mới được tạo, mô hình phải tham chiếu đến một nhật ký ngày càng tăng của tất cả các mã thông báo trước đó và mối quan hệ toán học của chúng, được gọi là bộ nhớ đệm Khoá-Giá trị (KV) [cite: 1, 13]. Đối với các mô hình ngữ cảnh dài phân tích hàng trăm nghìn mã thông báo, bộ nhớ đệm KV này sẽ tăng kích thước. Nếu bộ nhớ đệm vượt quá dung lượng của bộ nhớ nhanh trên chip và tràn vào bộ nhớ CPU máy chủ chậm hơn, thì toàn bộ quy trình tính toán sẽ bị dừng lại – một hiện tượng thường được gọi là "tường bộ nhớ" [cite: 5, 8].

TPU 8i được thiết kế đặc biệt để phá vỡ rào cản này. Mặc dù có thiết kế silicon đơn giản và tiết kiệm chi phí hơn (sử dụng một khuôn tính toán và một khuôn I/O với 6 ngăn xếp HBM3e), nhưng dung lượng bộ nhớ của TPU 8i được tối ưu hoá rất nhiều để phân phát [cite: 9]. * Dung lượng và băng thông HBM: Mỗi TPU 8i được trang bị 288 GB HBM3E, tức là tăng 50% dung lượng so với TPU 7x [cite: 5, 24, 30]. Quan trọng hơn, vì các mô hình MoE lớn bị giới hạn băng thông bộ nhớ trong quá trình suy luận, nên băng thông bộ nhớ được đẩy lên 8,6 TB/giây (~8.601 GB/giây) – nhanh hơn khoảng 1, 3 lần so với TPU 8t tập trung vào việc huấn luyện [cite: 10, 15]. * SRAM khổng lồ trên chip: Thay đổi quan trọng nhất về phần cứng là việc bổ sung 384 MB Bộ nhớ truy cập ngẫu nhiên tĩnh (SRAM) trên chip cho mỗi chip [cite: 10, 15, 30]. Điều này cho thấy mức tăng khổng lồ 300% (gấp 3 lần) so với cả TPU 7x và TPU 8t [cite: 10, 15, 30]. SRAM là bộ nhớ nhanh nhất và có độ trễ thấp nhất hiện có ngay trên ma trận silicon. Bằng cách tăng gấp 3 lần dung lượng này, TPU 8i có thể lưu trữ các bộ nhớ đệm KV khổng lồ hoàn toàn trên khuôn [cite: 15, 16]. Điều này giúp các lõi xử lý không bị ở trạng thái chờ trong khi chờ các nhật ký mã thông báo được tìm nạp từ các cấp bộ nhớ chậm hơn, cho phép các vòng lặp suy luận có tính đồng thời cao hoạt động với độ linh hoạt chưa từng có [cite: 5, 15].

The Collectives Acceleration Engine (CAE)

Vì TPU 8i nhắm đến suy luận, nên đơn vị SparseCore được sử dụng trong 7x và 8t để tìm kiếm thông tin nhúng được coi là sử dụng không hiệu quả không gian silicon cho khối lượng công việc cụ thể này. Thay vào đó, các kỹ sư của Google đã giới thiệu một khối phần cứng độc quyền được gọi là Collectives Acceleration Engine (CAE) [dẫn chứng: 10, 15].

Trong quá trình giải mã tự hồi quy và xử lý "chuỗi suy luận", các lõi riêng biệt phải thường xuyên tạm dừng các phép tính riêng lẻ để tổng hợp, giảm và đồng bộ hoá kết quả toán học trên toàn bộ chip [trích dẫn: 6, 15]. Các hoạt động đồng bộ hoá trên toàn cầu này có thể làm giảm đáng kể độ trễ, đặc biệt là khi hàng nghìn tác nhân độc lập cùng lúc giải quyết một vấn đề.

Đối với mỗi chip TPU 8i, 2 TensorCore nằm trên các khuôn lõi, cùng với 1 CAE nằm trên khuôn chiplet (thay thế 4 SparseCore có trên TPU 7x) [cite: 6, 15]. CAE chuyên dụng được thiết kế để tổng hợp kết quả trên các lõi với độ trễ gần như bằng 0, giúp giảm độ trễ tổng thể trên chip xuống 5 lần so với thế hệ TPU 7x [trích dẫn: 10, 15]. Bằng cách tăng tốc phần cứng cho các bước giảm chiếm ưu thế trong quy trình làm việc của tác nhân, CAE đảm bảo rằng hệ thống duy trì thông lượng cao mà không làm giảm khả năng phản hồi theo thời gian thực [cite: 6, 15].

Giảm độ phức tạp của mạng: Cấu trúc liên kết Boardfly

Đặc điểm nổi bật của TPU 8i là việc từ bỏ hoàn toàn cấu trúc liên kết hình xuyến 3D. Mặc dù hình xuyến 3D rất phù hợp để truyền dữ liệu giữa các thiết bị lân cận (điều kiện bắt buộc trong quá trình huấn luyện trước), nhưng cấu trúc này lại tạo ra khoảng cách vật lý quá dài (được đo bằng số bước nhảy mạng) cho hoạt động định tuyến mã thông báo từ mọi thiết bị đến mọi thiết bị mà các mô hình suy luận MoE yêu cầu [cite: 2, 15]. Trong các cấu trúc MoE, mọi mã thông báo nhất định có thể cần được định tuyến đến một lớp "chuyên gia" cụ thể nằm trên một chip hoàn toàn khác trong nhóm. Trên một hình xuyến truyền thống, gói dữ liệu này phải truyền tuần tự qua các chip trung gian để đến đích.

Để giải quyết vấn đề này, Google đã thiết kế một kiến trúc mạng mới được tối ưu hoá để phân phát có tên là Boardfly [cite: 15, 31]. Lấy cảm hứng từ các nguyên tắc về cấu trúc liên kết Dragonfly, Boardfly là một mạng lưới phân cấp, có cơ số cao được thiết kế để san bằng cấu trúc một cách mạnh mẽ và giảm thiểu khoảng cách vật lý giữa hai chip bất kỳ [dẫn chứng: 2, 15, 26].

Cấu trúc liên kết Boardfly được xây dựng theo hệ phân cấp: 1. Thành phần cơ bản: Bốn chip TPU 8i được kết nối đầy đủ tạo thành một thành phần cơ bản với các đường liên kết ICI nội bộ [cite: 6, 16]. 2. Bo mạch: Tám khối xây dựng được kết nối hoàn toàn thông qua cáp đồng trực tiếp để tạo thành một bo mạch duy nhất [cite: 6, 16]. 3. Nhóm: 36 nhóm này được kết nối hoàn toàn thông qua Bộ chuyển mạch quang học và các đường liên kết quang học đường dài trực tiếp để tạo thành một nhóm hợp nhất gồm 1.152 chip [trích dẫn: 5, 6, 16, 32].

Ưu điểm về độ trễ của phương pháp này là rất lớn. Trong cấu hình hình xuyến 3D gồm 1.024 chip tiêu chuẩn, một gói dữ liệu có thể cần phải đi qua đường kính mạng tối đa là 16 bước nhảy [cite: 15, 25]. Trong cấu trúc liên kết Boardfly, đường kính mạng tối đa này được thu gọn chỉ còn 7 bước nhảy [cite: 15, 25].

Việc giảm 56% đường kính mạng này tương đương với mức cải thiện đáng kể là 50% về độ trễ đuôi đối với các khối lượng công việc suy luận cần nhiều hoạt động giao tiếp [dẫn chứng: 16, 25, 30]. Suy luận cuối cùng bị hạn chế bởi tốc độ của nút chậm nhất. Bằng cách giảm độ trễ đuôi, cấu trúc liên kết Boardfly đảm bảo rằng CAE không bao giờ ở trạng thái chờ trong khi chờ dữ liệu mã thông báo truyền qua nhóm [cite: 6, 15].

Hơn nữa, nhờ khả năng kết nối quang học có tính gắn kết cao này, một nhóm TPU 8i gồm 1.152 chip hoạt động như một miền bộ nhớ dùng chung hợp nhất,khổng lồ với 331, 8 TB HBM nhất quán [cite: 16].

Hiệu suất, kinh tế và cơ sở hạ tầng hệ thống so sánh

Sự phân nhánh kiến trúc mang lại những cải tiến đáng kể về cả kinh tế điện toán và hiệu quả sử dụng năng lượng. Việc chỉ đánh giá phần cứng dựa trên các hoạt động dấu phẩy động theo lý thuyết cao nhất bỏ qua thực tế có hệ thống về hoạt động của trung tâm dữ liệu và khả năng hỗ trợ phần mềm.

Hỗ trợ khung và trừu tượng hoá phần mềm

Mặc dù có nền tảng phần cứng khác nhau, nhưng Google đã đầu tư rất nhiều vào việc duy trì một ngăn xếp phần mềm AI hợp nhất, ưu tiên hiệu suất để ngăn chặn tình trạng khoá khung. Cả TPU 8t và 8i đều hỗ trợ JAX, Keras, MaxText, SGLang và công cụ vLLM [dẫn chứng: 5, 8, 14, 17]. Hơn nữa, khả năng hỗ trợ PyTorch gốc (thông qua TorchTPU) cho phép nhà phát triển chuyển trực tiếp các mô hình PyTorch hiện có sang môi trường TPU với khả năng hỗ trợ đầy đủ cho các tính năng gốc như Chế độ thực thi tức thì [cite: 15, 17].

Ở phía sau, trình biên dịch Đại số tuyến tính tăng tốc (XLA) xử lý quá trình dịch phức tạp của cấu trúc liên kết Boardfly và quá trình đồng bộ hoá CAE, cho phép nhà phát triển viết các nhân tuỳ chỉnh nhận biết phần cứng bằng Python (sử dụng Pallas và Mosaic) mà không cần lập trình thủ công các kết nối quang học [cite: 15].

Chỉ số hiệu suất định lượng

Bảng dưới đây tóm tắt các quy cách kỹ thuật cốt lõi trên TPU 7x hợp nhất và các cấu trúc TPU 8t và 8i có tính chuyên biệt cao [cite: 3, 15, 24].

Ma trận thông số kỹ thuật TPU 7x TPU 8t TPU 8i
Tải chính Thống nhất (Đào tạo và suy luận) Huấn luyện tiền kỳ trên quy mô lớn Suy luận nhạy cảm với độ trễ
Đối tác thiết kế ASIC Broadcom Broadcom MediaTek
Cấu trúc liên kết mạng Hình xuyến 3D Torus 3D + Virgo Scale-Out Boardfly (lấy cảm hứng từ Dragonfly)
Phần cứng chuyên dụng SparseCore SparseCore Collectives Acceleration Engine (CAE)
Lấy nét chính xác tự nhiên FP8 FP4 FP4 (có hỗ trợ FP8/INT8)
Điện toán đạt đỉnh trên mỗi khối 4,6 PFLOP (FP8) 12,6 PFLOP (FP4) 10,1 PFLOP (FP4)
Dung lượng HBM trên mỗi chip 192 GB 216 GB 288 GB
Băng thông HBM 7,37 TB/giây 6,52 TB/giây 8,60 TB/giây
SRAM trên chip (VMEM) 128 MB 128 MB 384 MB
BW giữa các chip (Tăng quy mô) 9,6 Tb/giây 19,2 Tb/giây 19,2 Tb/giây
Kích thước tối đa của nhóm/nhóm lớn 9.216 chip 9.600 chip 1.152 chip

Tối ưu hoá hiệu suất và tổng chi phí sở hữu

Google tuyên bố đã đạt được những điểm cải tiến đáng kể về Tổng chi phí sở hữu (TCO) với thế hệ thứ 8. TPU 8t mang lại mức tăng từ 170% đến 180% (tương đương với mức cải thiện từ 2,7 đến 2,8 lần) về hiệu suất trên mỗi đô la cho hoạt động huấn luyện quy mô lớn so với TPU 7x [dẫn chứng: 6, 15, 30]. Trong khi đó, TPU 8i cải thiện 80% hiệu suất trên mỗi đô la cho suy luận, đặc biệt là ở các mục tiêu có độ trễ thấp cần thiết cho các mô hình MoE quy mô lớn [cite: 15, 16, 30].

Những lợi ích kinh tế này không chỉ đến từ silicon mà còn từ việc tích hợp toàn bộ hệ thống. Trước đây, TPU thường được ghép nối với CPU máy chủ x86 có sẵn. Trong những trường hợp liên quan đến việc tiền xử lý dữ liệu chuyên sâu hoặc logic tác nhân phức tạp, máy chủ x86 thường sẽ làm tắc nghẽn hệ thống, khiến silicon TPU siêu nhanh ở trạng thái sẵn sàng nhưng thiếu dữ liệu [cite: 6, 7].

Thế hệ thứ 8 khắc phục sự mất cân bằng mãn tính này bằng cách lưu trữ cả 8t và 8i trên các bộ xử lý Axion tuỳ chỉnh dựa trên ARM của Google [dẫn chứng: 6, 7, 15]. Được xây dựng trên kiến trúc lõi Neoverse N3 Armv9.2, các máy chủ Axion cung cấp một nền tảng hợp nhất, được tối ưu hoá cao [dẫn chứng: 18, 19]. Đối với TPU 8i có mức sử dụng suy luận cao, Google đã tích hợp các máy chủ Axion theo tỷ lệ 2:1 giữa TPU và CPU, tăng gấp đôi số lượng máy chủ CPU vật lý trên mỗi máy chủ so với TPU 7x [dẫn chứng: 5, 6, 32]. Bằng cách sử dụng kiến trúc truy cập bộ nhớ không đồng nhất (NUMA) nghiêm ngặt để cô lập khối lượng công việc, hệ thống đảm bảo khả năng định vị bộ nhớ vượt trội và loại bỏ hoàn toàn nút thắt chuẩn bị dữ liệu [dẫn chứng: 5, 7].

Hiệu suất năng lượng và tác động đến thị trường

Mật độ năng lượng và nguồn điện có sẵn đang nhanh chóng trở thành những hạn chế ràng buộc cuối cùng trong việc triển khai trung tâm dữ liệu hiện đại. Thông qua việc sử dụng hệ thống làm mát bằng chất lỏng thế hệ thứ tư và hệ thống quản lý năng lượng tích hợp theo thời gian thực, có khả năng điều chỉnh mức tiêu thụ điện năng một cách linh hoạt dựa trên các giai đoạn khối lượng công việc cụ thể (ví dụ: tính toán chủ động so với trạng thái chờ để giao tiếp), cả TPU 8t và 8i đều đạt được hiệu suất năng lượng đáng kinh ngạc [dẫn chứng: 7, 15, 22, 24]. 8t có mức tăng hiệu suất trên mỗi watt là 124%, trong khi 8i có mức tăng 117%, dẫn đến mức cải thiện tổng thể về hiệu suất năng lượng gấp 2 lần (hơn 100%) so với TPU 7x [cite: 15, 22, 30].

Những tác động của hiệu quả này thể hiện rõ trong các mô hình tiên tiến của Google. Các điểm chuẩn cho bản dùng thử Gemini 3.1 Pro cho thấy việc triển khai mô hình này trên cấu trúc TPU 8i giúp giảm khoảng 50% chi phí cho các API suy luận, đồng thời cải thiện đáng kể khả năng phản hồi và xử lý ngữ cảnh dài [cite: 24, 30].

Bối cảnh cạnh tranh: Google so với Merchant Silicon

Quyết định phân nhánh chiến lược về chất bán dẫn của Google có ý nghĩa sâu sắc đối với hệ sinh thái phần cứng trí tuệ nhân tạo rộng lớn hơn, đặc biệt là trong cuộc cạnh tranh đang diễn ra với các nhà cung cấp chất bán dẫn thương mại như Nvidia và ở mức độ thấp hơn là AMD và AWS (với nền tảng Trainium3) [cite: 17, 23].

Từ trước đến nay, Nvidia vẫn duy trì chiến lược kiến trúc hợp nhất, sử dụng các nền tảng đa năng nhưng có hiệu suất cao như Blackwell B200 và Vera Rubin NVL72 để xử lý cả hoạt động huấn luyện trước và suy luận theo thời gian thực [cite: 2, 9]. Khi chỉ xem xét thông số kỹ thuật của một chip thô, Nvidia vẫn có một số lợi thế nhất định. Ví dụ: công nghệ NVLink của Nvidia hỗ trợ băng thông kết nối giữa các thiết bị là 14, 4 Tb/giây và từng GPU Rubin cung cấp khoảng 50 PFLOP điện toán suy luận NVFP4 – cao hơn đáng kể so với 10, 1 PFLOP của TPU 8i [cite: 2, 9].

Tuy nhiên, lựa chọn về kiến trúc của Google dựa trên niềm tin rằng tương lai của trí tuệ nhân tạo được quyết định bởi hiệu suất ở quy mô cụm, chứ không phải khả năng tối đa của một chip [cite: 9].

Bằng cách chuyển sang cấu trúc liên kết Boardfly, Google tạo ra một nhóm bộ nhớ dùng chung, hoàn toàn nhất quán trên tất cả 1.152 chip trong một nhóm TPU 8i [cite: 16]. Điều này dẫn đến tổng công suất của nhóm là 11,6 FP8 ExaFlops và 331,8 TB HBM thống nhất, nhất quán [dẫn chứng: 6, 16]. Ngược lại, tính nhất quán ở quy mô giá đỡ của GPU Nvidia tiêu chuẩn trên NVL72 đạt tối đa 72 GPU và khoảng 20,7 TB HBM [dẫn chứng: 2, 16]. Để mở rộng quy mô GPU đa năng cho phù hợp với cấu hình 1.152 chip,bạn cần phải kết nối khoảng 16 giá đỡ riêng biệt [cite: 16]. Việc tách biệt về mặt vật lý này làm giảm tính nhất quán thực sự của bộ nhớ và gây ra những mức phạt nghiêm trọng về độ trễ, điều này gây ra hậu quả nghiêm trọng cho suy luận liên tục, có ngữ cảnh dài [cite: 16].

Hơn nữa, bằng cách chuyển đổi mạch quang (OCS) xuống thấp hơn trong ngăn xếp để tạo điều kiện cho hệ thống phân cấp Boardfly, Google đang thay đổi cơ bản chuỗi cung ứng mạng quang, tạo ra nhu cầu lớn ở hạ nguồn đối với các bộ thu phát và laser chuyên dụng từ các nhà cung cấp như Lumentum và Coherent [cite: 26].

Cuối cùng, triết lý thiết kế của Google giả định rằng chiến trường thực sự vào cuối những năm 2020 sẽ không được xác định bằng thông lượng toán học cao nhất trên một khuôn silicon duy nhất, mà là khả năng vượt qua tường bộ nhớ, nhanh chóng mở rộng các kết nối liên kết chéo giữa các trang web và giảm chi phí tuyệt đối trên mỗi mã thông báo khi triển khai các nhóm tác nhân theo thời gian thực cho hàng tỷ người dùng [dẫn chứng: 6, 16, 17].

Kết luận

Quỹ đạo của các Đơn vị xử lý tensor của Google Cloud từ khung thống nhất của TPU 7x đến sự phân đôi chuyên biệt cao của TPU 8t và TPU 8i phản ánh sự trưởng thành và công nghiệp hoá của các khối lượng công việc trí tuệ nhân tạo. Silicon thống nhất, đa năng (mặc dù là nền tảng cho sự bùng nổ ban đầu của học sâu) không còn đủ để thúc đẩy kinh tế hoặc hiệu suất cần thiết ở mức biên độ cực cao của kỷ nguyên dựa trên tác nhân.

TPU 8t thể hiện sự nỗ lực không ngừng để mở rộng quy mô. Thông qua việc duy trì SparseCore, việc triển khai độ chính xác FP4 gốc để tăng gấp đôi công suất MXU và khả năng đáng kinh ngạc của Mạng Virgo và Bộ nhớ TPUDirect, hệ thống này được thiết kế để tiếp nhận và xử lý dữ liệu ở mức khối lượng mà trước đây người ta cho là không thể. Nó giúp trung hoà hiệu quả các hạn chế về băng thông mở rộng quy mô của các trung tâm dữ liệu hiện đại, cho phép hàng triệu chip hoạt động như một công cụ huấn luyện trước duy nhất, được phân phối trên toàn cầu.

Ngược lại, TPU 8i là một giải pháp giúp loại bỏ độ trễ và tăng hiệu quả kinh tế. Bằng cách từ bỏ cấu trúc liên kết hình xuyến 3D để chuyển sang cấu trúc liên kết Boardfly phân cấp, tăng gấp 3 lần SRAM trên chip lên 384 MB và giới thiệu Collectives Acceleration Engine (Công cụ tăng tốc tập hợp) để tăng tốc quá trình đồng bộ hoá tự hồi quy, TPU 8i sẽ loại bỏ một cách có hệ thống rào cản bộ nhớ suy luận. Nhờ đó, các bộ nhớ đệm KV lớn cần thiết cho quá trình suy luận phức tạp, nhiều bước của tác nhân có thể vẫn được bản địa hoá và truy cập được với độ trễ gần như bằng 0, đồng thời giảm chi phí sản xuất thông qua thiết kế logic tinh giản.

Được lưu trữ trên CPU Axion dựa trên ARM tích hợp đầy đủ và được quản lý bằng tính năng chuyển mạch mạch quang tự động, thế hệ thứ tám phân nhánh này thiết lập một mô hình mới trong cơ sở hạ tầng siêu quy mô. Đây là một tuyên bố kiến trúc dứt khoát rằng tương lai của trí tuệ nhân tạo không chỉ đòi hỏi các chip nhanh hơn mà còn đòi hỏi các khung phần cứng khác biệt cơ bản được thiết kế chính xác cho các khối lượng công việc riêng biệt mà chúng được thiết kế để phục vụ.

Nguồn: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Đường liên kết 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com