এজেন্সিক যুগের স্থাপত্য নির্মাণ: গুগল ক্লাউড TPU 7x, TPU 8t, এবং TPU 8i-এর একটি বিশদ তুলনামূলক বিশ্লেষণ

মৌলিক বৃহৎ ভাষা মডেল থেকে জটিল, বহু-ধাপের সক্রিয় সিস্টেমে কৃত্রিম বুদ্ধিমত্তার বিবর্তন সেমিকন্ডাক্টর ডিজাইনে একটি মৌলিক দৃষ্টান্তমূলক পরিবর্তন এনেছে। প্রায় এক দশক ধরে, কৃত্রিম বুদ্ধিমত্তা অ্যাক্সিলারেটর আর্কিটেকচারে প্রচলিত যুক্তি ছিল একীকরণের। সিলিকন ডিজাইনাররা এমন একক, অখণ্ড আর্কিটেকচার তৈরি করার চেষ্টা করেছেন যা মডেল প্রি-ট্রেনিংয়ের বিশাল, উচ্চ-ক্ষমতাসম্পন্ন কাজের চাপের পাশাপাশি প্রোডাকশন ইনফারেন্সের বিলম্ব-সংবেদনশীল চাহিদাগুলোও একই সাথে সম্পাদন করতে সক্ষম [উদ্ধৃতি: ১, ২]। প্রথম হার্ডওয়্যার অ্যাক্সিলারেটরগুলোর সূচনা থেকে শুরু করে গুগল ক্লাউড টেনসর প্রসেসিং ইউনিট (টিপিইউ)-এর সপ্তম প্রজন্মের স্থাপন পর্যন্ত এই একীভূত পদ্ধতিটি শিল্পে আধিপত্য বিস্তার করেছিল, [উদ্ধৃতি: ২, ৩, ৪]।

তবে, যেহেতু অত্যাধুনিক মডেলগুলো ট্রিলিয়ন ট্রিলিয়ন প্যারামিটারে উন্নীত হচ্ছে এবং মিক্সচার-অফ-এক্সপার্টস (MoE) ও কন্টিনিউয়াস এজেন্টিক ফিডব্যাক লুপের মতো রিয়েল-টাইম রিজনিং আর্কিটেকচারগুলো স্ট্যান্ডার্ড হয়ে উঠছে, তাই ট্রেনিং এবং সার্ভিংয়ের জন্য হার্ডওয়্যারের প্রয়োজনীয়তা অপরিবর্তনীয়ভাবে ভিন্ন হয়ে গেছে [উদ্ধৃতি: ৫, ৬, ৭]। প্রি-ট্রেনিং একটি ব্যান্ডউইথ এবং থ্রুপুট অপটিমাইজেশন সমস্যায় পরিণত হয়েছে, যার জন্য প্রয়োজন বিপুল স্কেল-আপ ক্ষমতা, বিশাল ইন্টারকানেক্ট বাইসেকশনাল ব্যান্ডউইথ এবং কন্টিনিউয়াস ম্যাট্রিক্স ম্যাথ স্যাচুরেশন [উদ্ধৃতি: ৬]। অন্যদিকে, এজেন্টিক সার্ভিং একটি ল্যাটেন্সি এবং মেমরি-বাউন্ড সমস্যা হিসেবে আবির্ভূত হয়েছে, যা গ্লোবাল সিনক্রোনাইজেশন অপারেশনে বাধা সৃষ্টি না করে ওয়েটস এবং কী-ভ্যালু (KV) ক্যাশেগুলোকে প্রসেসিং কোরে স্ট্রিম করার গতির দ্বারা সীমাবদ্ধ [উদ্ধৃতি: ৬, ৮]।

একই সিলিকনে উভয় ওয়ার্কলোড জোর করে চাপিয়ে দিলে যে সিস্টেমিক অদক্ষতা এবং ক্রমহ্রাসমান অর্থনৈতিক লাভ হয়, তা উপলব্ধি করে গুগল তার অষ্টম-প্রজন্মের টিপিইউ লাইনআপকে দুটি ভাগে বিভক্ত করার এক অভূতপূর্ব স্থাপত্যগত সিদ্ধান্ত নেয় [উদ্ধৃতি: ১, ৬, ৯]। এর ফলস্বরূপ সাপ্লাই চেইন স্তর পর্যন্ত ডিজাইন করা দুটি স্বতন্ত্র, অত্যন্ত বিশেষায়িত চিপ তৈরি হয়েছে: টিপিইউ 8t, যা সুপারকম্পিউটার স্কেলে বিপুল ট্রেনিং থ্রুপুটের জন্য ডিজাইন করা হয়েছে, এবং টিপিইউ 8i, যা ইনফারেন্স মেমরি ওয়াল ভাঙতে এবং গ্লোবাল রিজনিং-এর জন্য সম্মিলিত লেটেন্সি কমাতে ডিজাইন করা হয়েছে [উদ্ধৃতি: ৭, ৯]।

এই বিশদ গবেষণা প্রতিবেদনটি TPU 7x-এর একীভূত বেসলাইন এবং নতুনভাবে বিভক্ত TPU 8t ও TPU 8i-এর মধ্যেকার স্থাপত্যগত, কর্মক্ষমতা এবং স্কেলিং-এর পার্থক্য বিশ্লেষণ করে। লজিক ডিজাইন, বহুস্তরীয় মেমরি হায়ারার্কি, ডেটা সেন্টার ইন্টারকানেক্ট টপোলজি, অপটিক্যাল সার্কিট সুইচিং এবং হার্ডওয়্যার-সফ্টওয়্যার কো-ডিজাইনের পুঙ্খানুপুঙ্খ পর্যালোচনার মাধ্যমে এই বিশ্লেষণটি ব্যাখ্যা করে যে, পরবর্তী প্রজন্মের কৃত্রিম বুদ্ধিমত্তার অর্থনৈতিক এবং গণনাগত স্কেলিং বজায় রাখার জন্য কীভাবে বিশেষায়িত সিলিকন প্রয়োজন।

ঐতিহাসিক প্রেক্ষাপট: বিশেষায়নের দিকে গতিপথ

অষ্টম প্রজন্মে গৃহীত স্থাপত্যগত পরিবর্তনগুলোকে সম্পূর্ণরূপে উপলব্ধি করার জন্য, টিপিইউ পরিবারের পুনরাবৃত্তিমূলক বিবর্তনকে অনুসরণ করা অপরিহার্য। গুগলের হার্ডওয়্যার উন্নয়ন ধারাবাহিকভাবে সমসাময়িক মেশিন লার্নিং মডেলগুলোর প্রচলিত প্রতিবন্ধকতাগুলোকে প্রতিফলিত করেছে, যা সাধারণ ইনফারেন্স অ্যাক্সিলারেশন থেকে বিশাল ক্লাস্টার-স্কেল ট্রেনিং ফ্যাব্রিকের দিকে অগ্রসর হয়েছে [উদ্ধৃতি: ১০, ১১]।

অনুমান থেকে বিশাল ম্যাট্রিক্স অ্যারে পর্যন্ত

গুগল ২০১৫ সালে TPU v1 চালু করে, যা ছিল একটি ইনফারেন্স-অনলি অ্যাক্সিলারেটর। এটি সার্চ, ট্রান্সলেট এবং ইউটিউব রিকমেন্ডেশনের মতো অভ্যন্তরীণ পরিষেবাগুলির ক্রমবর্ধমান কম্পিউটেশনাল লোড সামলানোর জন্য ডিজাইন করা হয়েছিল [উদ্ধৃতি: ১১, ১২]। v1 সাধারণ সেন্ট্রাল প্রসেসিং ইউনিট (CPU) এবং গ্রাফিক্যাল প্রসেসিং ইউনিট (GPU)-এর তুলনায় প্রতি ওয়াটে অপারেশনের ক্ষেত্রে কয়েকগুণ উন্নতি সাধনের জন্য ৮-বিট ইন্টিজার ম্যাথ ব্যবহার করত [উদ্ধৃতি: ১০, ১১]। ২০১৭ সাল নাগাদ, TPU v2 ট্রেনিং সক্ষমতার দিকে উত্তরণ ঘটায় এবং bfloat16 (BF16) ফরম্যাট চালু করে—এটি একটি ১৬-বিট ফ্লোটিং-পয়েন্ট ফরম্যাট যা ৩২-বিট ফ্লোটের ডায়নামিক রেঞ্জ বজায় রেখে মেমরি ব্যবহার অর্ধেক কমিয়ে আনে [উদ্ধৃতি: ১০]।

v3 থেকে v5 প্রজন্ম পর্যন্ত মূল কম্পিউটেশনাল ইঞ্জিন—ম্যাট্রিক্স মাল্টিপ্লাই ইউনিট (MXU)-কে অপ্টিমাইজ করা হয়েছিল। বেশ কয়েকটি প্রজন্ম ধরে, MXU একটি 128x128 সিস্টোলিক অ্যারে হিসেবেই ছিল, যা একই সাথে 16,384টি মাল্টিপ্লাই-অ্যাকুমুলেট অপারেশন করতে সক্ষম ছিল [উদ্ধৃতি: 4, 10]। TPU v4 "স্পার্সকোর" (SparseCore) চালু করে, যা একটি ডেডিকেটেড হার্ডওয়্যার ব্লক। এটি বিশেষভাবে এমবেডিং লুকআপ এবং অনিয়মিত মেমরি অ্যাক্সেসকে ত্বরান্বিত করার জন্য ডিজাইন করা হয়েছিল, যার ফলে রিকমেন্ডেশন মডেল প্রশিক্ষণের সময় MXU স্টল হওয়া প্রতিরোধ করা সম্ভব হয় [উদ্ধৃতি: 4, 6]।

ভূ-পৃষ্ঠের বিবর্তন এবং ট্রিলিয়াম (v6e)

মডেলের আকার বাড়ার সাথে সাথে, হাজার হাজার চিপ জুড়ে গ্রেডিয়েন্ট সিঙ্ক্রোনাইজ করার জন্য প্রয়োজনীয় ইন্টারকানেক্ট টপোলজি বিকশিত হয়েছে। গুগল ছোট, সাশ্রয়ী পডগুলির (যেমন v5e এবং v6e) জন্য একটি 2D টোরাস টপোলজি ব্যবহার করেছে, যা ২৫৬টি চিপ পর্যন্ত স্কেল আপ করাকে সহজ করে দিয়েছে [উদ্ধৃতি: ৪, ১০]। পারফরম্যান্স-অপ্টিমাইজড ভ্যারিয়েন্টগুলির (যেমন v4 এবং v5p) জন্য, গুগল একটি 3D টোরাস টপোলজি ব্যবহার করেছে, যা ৪,০৯৬ থেকে ৮,৯৬০টি চিপ পর্যন্ত বড় আকারের পডগুলিতে কমিউনিকেশন ল্যাটেন্সি কমানোর জন্য চিপগুলিকে একটি ত্রিমাত্রিক র‍্যাপ-অ্যারাউন্ড গ্রিডে সংযুক্ত করেছে [উদ্ধৃতি: ৪]।

আধুনিক যুগের ঠিক আগের ধাপটি ছিল TPU v6e (ট্রিলিয়াম), যা ২০২৪ সালের শেষের দিকে প্রকাশিত হয়। ট্রিলিয়াম একটি বিশাল স্থাপত্যগত উল্লম্ফন নিয়ে আসে, যা MXU-কে একটি 128x128 অ্যারে থেকে 256x256 অ্যারেতে প্রসারিত করে [উদ্ধৃতি: 10]। এর ফলে প্রতি সাইকেলে মাল্টিপ্লাই-অ্যাকুমুলেট অপারেশনের সংখ্যা চারগুণ বেড়ে যায়। এর সাথে যুক্ত হয় দ্বিগুণ ইন্টার-চিপ ইন্টারকানেক্ট (ICI) ব্যান্ডউইথ 3,200 Gbps (13 TB/s অ্যাগ্রিগেট বাইডিরেকশনাল) এবং প্রতি চিপে 32 GB হাই-ব্যান্ডউইথ মেমরি (HBM)। এই সবকিছুর সমন্বয়ে ট্রিলিয়াম তার পূর্বসূরীর তুলনায় 4.7 গুণ বেশি সর্বোচ্চ কম্পিউট ক্ষমতা প্রদান করে এবং একই সাথে 67% বেশি শক্তি সাশ্রয়ীভাবে কাজ করে [উদ্ধৃতি: 10, 11]।

টিপিইউ প্রজন্ম মুক্তির বছর প্রাথমিক উদ্ভাবন টপোলজি এবং সর্বোচ্চ পড সাইজ এমএক্সইউ আর্কিটেকচার প্রতি চিপে সর্বোচ্চ গণনা
টিপিইউ ভি২ ২০১৭ প্রথম প্রশিক্ষণ সক্ষম (BF16) ২ডি টোরাস (৫১২ চিপ) ১২৮x১২৮ ~৪৫ টিএফএলওপিএস
টিপিইউ ভি৪ ২০২১ স্পার্সকোরের পরিচিতি ৩ডি টোরাস (৪,০৯৬টি চিপ) ১২৮x১২৮ ২৭৫ টিএফএলওপিএস
টিপিইউ ভি৫ই ২০২৩ ব্যয়-অপ্টিমাইজড দক্ষতা ২ডি টোরাস (২৫৬টি চিপ) ১২৮x১২৮ ১৯৭ টিএফএলওপিএস
টিপিইউ ভি৫পি ২০২৩ কর্মক্ষমতা স্কেল-আপ ৩ডি টোরাস (৮,৯৬০টি চিপ) ১২৮x১২৮ ৪৫৯ টিএফএলওপিএস
টিপিইউ ভি৬ই (ট্রিলিয়াম) ২০২৪ ২৫৬x২৫৬ এমএক্সইউ সম্প্রসারণ ২ডি টোরাস (২৫৬টি চিপ) ২৫৬x২৫৬ ৯১৮ টিএফএলওপিএস

একীভূত আর্কিটেকচারের শীর্ষবিন্দু: টিপিইউ ৭এক্স

২০২৫ সালের শেষের দিকে সর্বসাধারণের জন্য উন্মুক্ত হওয়া সপ্তম প্রজন্মের TPU 7x, গুগলের সমন্বিত আর্কিটেকচার কৌশলের চূড়ান্ত শিখরকে প্রতিনিধিত্ব করে। একটি একক আর্কিটেকচারাল কাঠামোর মধ্যে অত্যাধুনিক প্রি-ট্রেনিং এবং ডিকোড-নির্ভর ইনফারেন্স উভয়ই সম্পাদনের জন্য ডিজাইন করা TPU 7x, একটি দ্বৈত-উদ্দেশ্যমূলক অ্যাক্সিলারেটরের অর্জনের সীমাকে নতুন দিগন্তে ঠেলে দিয়েছে [উদ্ধৃতি: ৩, ১০]।

ডুয়াল-চিপলেট ডিজাইন এবং আলফাচিপ অপ্টিমাইজেশন

TPU 7x-এর ভৌত গঠন v4 এবং v5p-তে পাওয়া একক লজিক্যাল কোর (মেগাকোর) আর্কিটেকচার থেকে একটি নাটকীয় পরিবর্তন চিহ্নিত করেছে [উদ্ধৃতি: 3]। TPU 7x একটি ডুয়াল-চিপলেট আর্কিটেকচার ব্যবহার করে। প্রতিটি সম্পূর্ণ TPU 7x চিপ দুটি স্বতন্ত্র, স্বয়ংসম্পূর্ণ চিপলেট নিয়ে গঠিত যা একটি স্বত্বাধিকারযুক্ত, উচ্চ-গতির ডাই-টু-ডাই (D2D) ইন্টারফেস দ্বারা সংযুক্ত [উদ্ধৃতি: 3]। এই D2D সংযোগটি একটি সাধারণ এক-মাত্রিক ICI লিঙ্কের চেয়ে ছয় গুণ গতিতে কাজ করে, যা চিপলেটগুলিকে তাদের নিজস্ব ডেডিকেটেড মেমরি স্পেস বজায় রেখে দ্রুত যোগাযোগ করতে সক্ষম করে [উদ্ধৃতি: 3]।

সম্পূর্ণ একীভূত চিপ জুড়ে, TPU 7x-এ দুটি TensorCore এবং চারটি SparseCore রয়েছে [উদ্ধৃতি: 3]। সিলিকন ম্যাট্রিক্সে এই কোরগুলির ভৌত বিন্যাসকে আলফাচিপ (AlphaChip), গুগলের নিজস্ব রিইনফোর্সমেন্ট লার্নিং টুল, ব্যবহার করে অপ্টিমাইজ করা হয়েছিল, যাতে তারের দৈর্ঘ্য কমানো যায় এবং তাপীয় দক্ষতা বাড়ানো যায় [উদ্ধৃতি: 10]। TPU 7x-এর জন্য একটি স্ট্যান্ডার্ড ভার্চুয়াল মেশিন (VM) কনফিগারেশন একটি সিপিইউ হোস্টের সাথে চারটি চিপ সংযুক্ত করে, যা 224টি vCPU এবং 960 GB র‍্যাম সরবরাহ করে [উদ্ধৃতি: 3]।

বহু-স্তরীয় মেমরি অনুক্রম এবং নির্ভুল বিন্যাস

ডেন্স এবং MoE মডেল প্রক্রিয়াকরণে একটি গুরুত্বপূর্ণ প্রতিবন্ধকতা হলো স্টোরেজ স্তরগুলির মধ্যে ডেটার অবিরাম চলাচল। TPU 7x-এ একটি শক্তিশালী বহু-স্তরীয় মেমরি সিস্টেম রয়েছে যা বর্ধিত MXU-গুলিকে পরিপূর্ণ রাখতে ডিজাইন করা হয়েছে: * হাই-ব্যান্ডউইথ মেমরি (HBM3E): প্রতিটি TPU 7x চিপ 192 GB HBM দিয়ে সজ্জিত, যা 7.37 TB/s (7,380 GBps) এর একটি বিশাল মেমরি ব্যান্ডউইথ প্রদান করে [উদ্ধৃতি: 3, 10]। ট্রিলিয়ামের তুলনায় এই ছয়গুণ ক্ষমতা বৃদ্ধি প্রশিক্ষণের সময় উল্লেখযোগ্যভাবে বড় ব্যাচ সাইজের অনুমতি দেয় এবং ইনফারেন্সের সময় অন-চিপে বড় KV ক্যাশে ধরে রাখতে সক্ষম করে, যা ধীরগতির হোস্ট মেমরিতে অফলোডিংয়ের সাথে যুক্ত ব্যয়বহুল লেটেন্সি স্পাইক প্রতিরোধ করে [উদ্ধৃতি: 4, 10, 13]। * ভেক্টর মেমরি (VMEM): একটি অতি-উচ্চ-গতির, অন-চিপ SRAM স্ক্র্যাচপ্যাড হিসাবে কাজ করে, প্রতিটি TensorCore-এ 64 MiB VMEM (প্রতি চিপে মোট 128 MB) রয়েছে। HBM-এর তুলনায় VMEM-এর MXU-তে উল্লেখযোগ্যভাবে বেশি ব্যান্ডউইথ রয়েছে [উদ্ধৃতি: 3, 14]। স্কোপড VMEM টিউনিং-এর মাধ্যমে, ডেভেলপাররা বর্তমান কম্পিউটেশনাল স্কোপ এবং ভবিষ্যতের ওয়েট প্রিফেচিং-এর মধ্যে মেমরি পুনর্বন্টন করতে পারেন, যা বৃহত্তর কার্নেল টাইল সাইজের (যেমন ফ্ল্যাশ অ্যাটেনশনে ব্যবহৃত) সুযোগ দেয় এবং মেমরি স্টল কমায় [উদ্ধৃতি: 13, 14]। * হোস্ট মেমরি (PCIe): একটি PCIe নেটওয়ার্কের মাধ্যমে সংযুক্ত, সিস্টেমের হোস্ট মেমরি অপটিমাইজার স্টেট এবং অ্যাক্টিভেশন অফলোড করতে ব্যবহৃত হয়, যা HBM ধারণক্ষমতা অতিক্রমকারী মডেলগুলির জন্য মেমরির চাপ পরিচালনা করে [উদ্ধৃতি: 3, 14]।

এছাড়াও, TPU 7x ৮-বিট ফ্লোটিং-পয়েন্ট (FP8) প্রিসিশনের জন্য নেটিভ হার্ডওয়্যার অ্যাক্সিলারেশন চালু করেছে [উদ্ধৃতি: ৪, ১৩]। স্ট্যান্ডার্ড ১৬-বিট ফরম্যাট (BF16 বা FP16) থেকে স্থানান্তরিত হওয়ার ফলে, FP8 রিপ্রেজেন্টেশন কার্যকরভাবে সর্বোচ্চ কম্পিউটেশনাল থ্রুপুট দ্বিগুণ করে এবং একই সাথে ওয়েট ও অ্যাক্টিভেশন সংরক্ষণের জন্য প্রয়োজনীয় মেমরি ফুটপ্রিন্ট অর্ধেক করে দেয় [উদ্ধৃতি: ৪, ১৩]। নেটিভভাবে FP8-এ কাজ করার সময়, একটি একক TPU 7x চিপ সর্বোচ্চ ৪,৬১৪ TFLOPS কম্পিউট প্রদান করে, যেখানে BF16-এ কাজ করার সময় এর পরিমাণ ছিল ২,৩০৭ TFLOPS [উদ্ধৃতি: ৩, ৪]।

ত্রিমাত্রিক টোরাস টপোলজি এবং সুপারপড স্কেল

ডেটা সেন্টার পর্যায়ে, TPU 7x গুগলের প্রমাণিত 3D টোরাস ইন্টারকানেক্ট টপোলজির উপর নির্ভর করে [উদ্ধৃতি: 3]। এই আর্কিটেকচার প্রতিটি চিপকে X, Y, এবং Z অক্ষ বরাবর তার নিকটতম প্রতিবেশীদের সাথে সরাসরি সংযুক্ত করে, যার ফলে একটি স্থিতিস্থাপক ত্রিমাত্রিক জালিকা তৈরি হয় [উদ্ধৃতি: 3]। এই জালিকার মধ্যে যোগাযোগ প্রতিটি চিপের জন্য 1.2 ​​TB/s (1,200 GBps) ICI ব্যান্ডউইথের মাধ্যমে সহজতর করা হয়, যা প্রতি অক্ষে 200 GBps গতিতে দ্বিমুখী যোগাযোগ প্রদান করে [উদ্ধৃতি: 3]।

একটি সম্পূর্ণ বাস্তবায়িত TPU 7x সুপারপড বিশাল ৯,২১৬টি লিকুইড-কুলড চিপ পর্যন্ত স্কেল করতে পারে। এই কনফিগারেশনে, পডটি মোট ৪২.৫ এক্সাফ্লপস FP8 কম্পিউট পাওয়ার সরবরাহ করে [উদ্ধৃতি: ৮, ১০]। ৬৪টির চেয়ে বড় স্লাইসগুলো চিপের মডিউলার ৪x৪x৪ "কিউব" ব্যবহার করে তৈরি করা হয়, যা একক-হোস্ট কনফিগারেশন থেকে শুরু করে বিশাল মাল্টি-হোস্ট পরিবেশ পর্যন্ত অত্যন্ত নমনীয় টপোলজির সুযোগ দেয় [উদ্ধৃতি: ৩]।

এর অসাধারণ ক্ষমতা থাকা সত্ত্বেও, TPU 7x-এর একীভূত প্রকৃতির কারণে এতে কিছু অন্তর্নিহিত সীমাবদ্ধতা ছিল। যদিও 3D টোরাস টপোলজি প্রি-ট্রেনিং-এর জন্য প্রয়োজনীয় স্থানীয়, অনুমানযোগ্য গ্রেডিয়েন্ট সিনক্রোনাইজেশনের জন্য অত্যন্ত কার্যকর, এর ফলে নেটওয়ার্কের ব্যাস অনেক বেড়ে যায়। উদাহরণস্বরূপ, একটি 3D টোরাসের উপর একটি 1,024-চিপের পডের সর্বোচ্চ নেটওয়ার্ক ব্যাস 16 হপ [উদ্ধৃতি: 15, 16]। একটি MoE ইনফারেন্স পরিস্থিতিতে, যেখানে টোকেনগুলিকে পডের মধ্যে যেকোনো স্থানে অবস্থিত বিশেষজ্ঞ লেয়ারগুলিতে দ্রুত পাঠাতে হয়, এই 16-হপের দূরত্ব অগ্রহণযোগ্য অল-টু-অল টেইল ল্যাটেন্সি তৈরি করে [উদ্ধৃতি: 6, 15, 16]। উপরন্তু, স্পার্সকোরগুলির জন্য মূল্যবান সিলিকন এলাকা উৎসর্গ করা—যা এমবেডিং লুকআপে পারদর্শী—সেই স্থান কমিয়ে দেয় যা এজেন্টিক চেইন-অফ-থট ওয়ার্কফ্লোর জন্য গুরুত্বপূর্ণ কালেক্টিভ রিডাকশন ইঞ্জিনগুলির জন্য ব্যবহার করা যেত [উদ্ধৃতি: 6, 15]। শিল্পটি ‘সবার জন্য একই মাপের’ অ্যাক্সিলারেটরের ভৌত সীমায় পৌঁছে গিয়েছিল।

কৌশলগত দ্বিবিভাজন: অর্থনৈতিক ও স্থাপত্যগত চালক

সপ্তম থেকে অষ্টম প্রজন্মের টিপিইউ-তে রূপান্তর গুগলের সিলিকন ইতিহাসে সবচেয়ে গুরুত্বপূর্ণ স্থাপত্যগত পরিবর্তনকে প্রতিনিধিত্ব করে [উদ্ধৃতি: ৯]। গুগল ক্লাউড নেক্সট ২০২৬-এ ঘোষিত, টিপিইউ লাইনকে দুটি স্বতন্ত্র পণ্য পরিবারে বিভক্ত করা—প্রশিক্ষণের জন্য টিপিইউ ৮টি এবং ইনফারেন্সের জন্য টিপিইউ ৮আই—এই বিষয়টি স্বীকার করে যে, আগামী দশকে কৃত্রিম বুদ্ধিমত্তাকে চালিত করবে এমন ওয়ার্কলোডগুলো হার্ডওয়্যার স্তরে মৌলিকভাবে অসামঞ্জস্যপূর্ণ [উদ্ধৃতি: ১, ২, ১৭]।

এই বিভাজনের মূল কারণ হলো এআই উন্নয়নের ভিন্ন ভিন্ন অর্থনৈতিক এবং পরিচালনগত তীব্রতা। একটি ফ্রন্টিয়ার মডেলকে প্রশিক্ষণ দেওয়া একটি অত্যন্ত মূলধন-নিবিড়, এককালীন পরিচালন ব্যয় যা সপ্তাহ বা মাস ধরে অবিচ্ছিন্ন গণনার মাধ্যমে পরিমাপ করা হয় [উদ্ধৃতি: 9]। এর জন্য প্রয়োজন সর্বোচ্চ গণনা ঘনত্ব, অভূতপূর্ব স্কেল-আপ ইন্টারকানেক্ট ব্যান্ডউইথ, এবং মাল্টি-পেটাবাইট ইউনিফাইড মেমরি ডোমেইন যা লাইন রেটে মাল্টিমোডাল ডেটাসেট গ্রহণ করতে সক্ষম [উদ্ধৃতি: 9]।

বিপরীতভাবে, ইনফারেন্স হলো একটি চলমান পরিচালন ব্যয় যা ব্যবহারকারীর চাহিদার সাথে রৈখিকভাবে—অথবা সূচকীয়ভাবে—বৃদ্ধি পায় [উদ্ধৃতি: ৯]। উদীয়মান "এজেন্টিক যুগে," একটি এআই মডেল কেবল একটি টেক্সট ব্লক তৈরি করার জন্য পরবর্তী টোকেন ভবিষ্যদ্বাণী করে না; এটি সক্রিয়ভাবে যুক্তি দেয়, ভবিষ্যতের পরিস্থিতি অনুকরণ করে, "কল্পনার" মাধ্যমে পুনরাবৃত্তি করে, বাহ্যিক এপিআই কল করে, এবং অবিরাম ফিডব্যাক লুপে অন্যান্য বিশেষায়িত এজেন্টের ঝাঁকের সাথে যোগাযোগ করে [উদ্ধৃতি: ৫, ৭, ১৫]। এই গতিশীলতার জন্য সক্রিয় কনটেক্সট উইন্ডোগুলো সংরক্ষণ করতে বিপুল পরিমাণ মেমরি এবং বিশেষজ্ঞ রাউটিং ও গ্লোবাল সিনক্রোনাইজেশনের জন্য অত্যন্ত কম নেটওয়ার্ক লেটেন্সি প্রয়োজন [উদ্ধৃতি: ১৫, ১৬]।

প্রোডাক্ট লাইনকে বিভক্ত করার মাধ্যমে, গুগল সাপ্লাই চেইনের গভীরে হার্ডওয়্যারকে অপ্টিমাইজ করেছে। TPU 8t ব্রডকমের সাথে যৌথভাবে ডিজাইন করা হয়েছিল, এই অংশীদারিত্ব ২০১৫ সাল থেকে চলে আসছে [উদ্ধৃতি: ৯, ১৭, ১৮]। জটিল, উচ্চ-গতির SerDes ইন্টারকানেক্ট, উন্নত প্যাকেজিং এবং বৃহৎ পরিসরের নেটওয়ার্কিং-এ ব্রডকমের দক্ষতা, ট্রেনিং ফ্যাব্রিকের ভৌত সীমাবদ্ধতাকে অতিক্রম করার জন্য তাদেরকে আদর্শ অংশীদার করে তুলেছিল [উদ্ধৃতি: ১৭, ১৯]।

ইনফারেন্স চিপের জন্য, গুগল প্রচলিত ধারা ভেঙে মিডিয়াটেকের সাথে অংশীদারিত্ব করে TPU 8i ডিজাইন করেছে [উদ্ধৃতি: ৯, ১৭, ১৮]। শক্তি-সাশ্রয়ী, উচ্চ-পরিমাণে উৎপাদনযোগ্য মোবাইল SoC ডিজাইনে মিডিয়াটেকের গভীর দক্ষতাকে কাজে লাগিয়ে, গুগল একটি অত্যন্ত ব্যয়-সাশ্রয়ী ইনফারেন্স অ্যাক্সিলারেটর তৈরি করেছে [উদ্ধৃতি: ১৭, ১৯]। TPU 8i একটি সরলতর ডিজাইন ব্যবহার করে (8t-এর দুটি কম্পিউট ডাইয়ের পরিবর্তে একটি), যা প্রচলিত উচ্চ-ক্ষমতাসম্পন্ন সংস্করণগুলোর চেয়ে ২০% থেকে ৩০% কম খরচে উৎপাদন করা যায় বলে জানা গেছে। এটি গুগলকে এন্টারপ্রাইজ এবং কনজিউমার অ্যাপ্লিকেশনগুলোর চাহিদা মেটাতে অর্থনৈতিকভাবে তার বিশ্বব্যাপী পরিষেবা প্রদানের ক্ষমতা বাড়াতে সাহায্য করে [উদ্ধৃতি: ৯, ১৭]। উভয় চিপই TSMC-এর উন্নত ২-ন্যানোমিটার প্রসেস নোডে তৈরি করা হয়েছে এবং এতে অত্যাধুনিক CoWoS অ্যাডভান্সড প্যাকেজিং ব্যবহার করা হয়েছে, যা লজিক ডাইগুলোকে সুউচ্চ HBM স্ট্যাকের সাথে একীভূত করে [উদ্ধৃতি: ৯, ১৯]।

এই দ্বিবিভক্ত কৌশলের বাজারগত স্বীকৃতি তাৎক্ষণিক ছিল। শীর্ষস্থানীয় এআই গবেষণা সংস্থা অ্যানথ্রোপিক, গুগল ক্লাউডের সাথে তাদের বহু-বিলিয়ন ডলারের চুক্তি সম্প্রসারিত করে ২০২৭ সালের মধ্যে বিস্ময়কর ৩.৫ গিগাওয়াট কম্পিউটিং ক্ষমতার প্রতিশ্রুতি দিয়েছে এবং TPU 7x ও অষ্টম প্রজন্মের উভয় প্ল্যাটফর্মের প্রধান গ্রাহক হিসেবে কাজ করবে [উদ্ধৃতি: ৯, ১০, ২০]।

গভীর বিশ্লেষণ: টিপিইউ ৮টি (প্রশিক্ষণের পূর্ববর্তী শক্তিশালী ডিভাইস)

TPU 8t হলো একটি আপসহীন প্রকৌশলগত সাফল্য, যার লক্ষ্য হলো ট্রিলিয়ন-প্যারামিটার ফ্রন্টিয়ার মডেলের উন্নয়ন চক্রকে মাস থেকে সপ্তাহে নামিয়ে আনা [উদ্ধৃতি: 5, 21]। এটি কেবল কাঁচা ক্লক স্পিড বাড়িয়েই এই লক্ষ্য অর্জন করে না, বরং গাণিতিক ক্রিয়াকলাপের নির্ভুলতার পুনর্গঠন, আন্তঃ-চিপ ব্যান্ডউইথের ব্যাপক সম্প্রসারণ এবং বিশাল প্রশিক্ষণ ক্লাস্টারগুলোকে জর্জরিত করে এমন মারাত্মক ডেটা-ইনজেশন প্রতিবন্ধকতাগুলো প্রশমিত করার মাধ্যমেও এটি সম্ভব হয় [উদ্ধৃতি: 6, 15]।

ডুয়াল-ডাই কম্পিউট আর্কিটেকচার এবং নেটিভ FP4

শারীরিকভাবে, TPU 8t একটি অত্যন্ত জটিল স্থাপত্য ব্যবহার করে যা দুটি কম্পিউট ডাই এবং একটি I/O চিপলেট নিয়ে গঠিত, যার দুই পাশে 12-হাই HBM3E মেমরির আটটি স্ট্যাক রয়েছে [উদ্ধৃতি: 9]। এই ঘন প্যাকেজিংয়ের জন্য উন্নত তাপ ব্যবস্থাপনার প্রয়োজন, যা দীর্ঘস্থায়ী ম্যাট্রিক্স অপারেশনের ফলে উৎপন্ন প্রচণ্ড তাপ অপসারণের জন্য গুগলের চতুর্থ প্রজন্মের লিকুইড কুলিংয়ের উপর নির্ভর করে [উদ্ধৃতি: 7, 17, 22]।

TPU 8t-এর একটি মৌলিক বিবর্তন হলো নেটিভ ৪-বিট ফ্লোটিং পয়েন্ট (FP4) প্রিসিশনের প্রবর্তন [উদ্ধৃতি: ৬, ১৫]। প্রি-ট্রেনিংয়ের গাণিতিক চাহিদা চরম সাংখ্যিক নির্ভুলতার চেয়ে থ্রুপুটকে ব্যাপকভাবে প্রাধান্য দেয়। নেটিভ এক্সিকিউশন FP8 থেকে FP4-এ নামিয়ে আনার মাধ্যমে, TPU 8t কার্যকরভাবে MXU-এর থ্রুপুট দ্বিগুণ করে এবং একই সাথে প্রতি প্যারামিটারের জন্য ডাই জুড়ে ভৌতভাবে স্থানান্তরিত বিটের সংখ্যা অর্ধেক করে দেয় [উদ্ধৃতি: ৬, ১৫]। ডেটা স্থানান্তরের এই ব্যাপক হ্রাস শক্তি-নিবিড় মেমরি ফেচ কমিয়ে দেয় এবং বৃহত্তর মডেল লেয়ারগুলিকে স্থানীয় হার্ডওয়্যার বাফারের মধ্যে স্বাচ্ছন্দ্যে স্থান করে নিতে সাহায্য করে [উদ্ধৃতি: ৬, ১৫]।

চিপটি যাতে পরিপূর্ণ থাকে তা নিশ্চিত করার জন্য, TPU 8t আরও সুষম ভেক্টর প্রসেসিং ইউনিট (VPU) স্কেলিং প্রয়োগ করে। এটি সিলিকনকে MXU-তে সংঘটিত ভারী ম্যাট্রিক্স গুণনের সাথে কোয়ান্টাইজেশন, সফটম্যাক্স এবং লেয়ারনর্মের মতো অপরিহার্য সিকোয়েনশিয়াল কাজগুলিকে ওভারল্যাপ করতে সক্ষম করে, যার ফলে কার্যত সেই সমস্ত নন-ম্যাট্রিক্স সময় দূর হয়ে যায় যেখানে কম্পিউট কোরগুলি অন্যথায় নিষ্ক্রিয় থাকত [উদ্ধৃতি: 6, 15]। এই স্থাপত্যগত অপ্টিমাইজেশনের ফলস্বরূপ, একটি একক TPU 8t চিপ বিস্ময়কর 12.6 PFLOPs FP4 কম্পিউট শক্তি প্রদান করে [উদ্ধৃতি: 15, 23]।

তাছাড়া, এর ইনফারেন্স-কেন্দ্রিক সংস্করণের বিপরীতে, TPU 8t পূর্ববর্তী প্রজন্মগুলিতে প্রবর্তিত বিশেষায়িত স্পার্সকোর ব্লকগুলি ধরে রেখেছে [উদ্ধৃতি: ১, ৬, ১৫]। এমবেডিং-নির্ভর ওয়ার্কলোড—যা মাল্টিমোডাল ফাউন্ডেশন মডেল এবং রিকমেন্ডেশন সিস্টেমে সাধারণ—অনিয়মিত মেমরি অ্যাক্সেস প্যাটার্ন প্রদর্শন করে যা প্রচলিত GPU-গুলিকে অচল করে দেয়। স্পার্সকোর অ্যাসিঙ্ক্রোনাসভাবে কাজ করে, ডেটা-নির্ভর অল-গ্যাদার অপারেশন এবং এমবেডিং লুকআপগুলিকে অফলোড করে [উদ্ধৃতি: ৬, ১৫]। ডেন্স ম্যাট্রিক্স ম্যাথকে MXU-তে এবং স্পার্স অপারেশনগুলিকে স্পার্সকোরে পৃথক করার মাধ্যমে, TPU 8t সেই "জিরো-অপ" বাধাগুলি প্রতিরোধ করে যা কম্পিউটেশনাল স্টলের কারণ হয় [উদ্ধৃতি: ৬, ১৫]।

ব্যান্ডউইথ, স্টোরেজ ইনজেশন, এবং টিপিইউডাইরেক্ট

FP4-এ পরিচালিত অত্যন্ত দ্রুতগতির MXU-গুলিকে ডেটা সরবরাহ করার জন্য, TPU 8t-এর প্রচুর পরিমাণে লোকাল এবং অ্যাগ্রিগেট ব্যান্ডউইথের প্রয়োজন হয়। প্রতিটি চিপে ২১৬ জিবি HBM3e রয়েছে, যা ৬,৫২৮ জিবি/সেকেন্ড গতিতে কাজ করে [উদ্ধৃতি: ১৫, ২৪]। তবে, ফ্রন্টিয়ার মডেলের ক্ষেত্রে, সিস্টেমের সীমাবদ্ধতা প্রায়শই সিলিকনের প্রসেসিং গতি থেকে সরে গিয়ে সেই গতির দিকে চলে যায়, যে গতিতে ডেটা সেন্টার কোল্ড স্টোরেজ থেকে পেটাবাইট পরিমাণ ট্রেনিং ডেটা গ্রহণ করতে পারে।

প্রচলিত ডেটা পাথের প্রতিবন্ধকতা এড়াতে, গুগল TPUDirect RDMA এবং TPUDirect Storage একীভূত করেছে [উদ্ধৃতি: ৫, ৬, ১০]। এই প্রোটোকলগুলো TPU-এর উচ্চ-ব্যান্ডউইথ মেমরি এবং পরিচালিত নেটওয়ার্ক স্টোরেজ অ্যারে, যেমন গুগল ক্লাউড পরিচালিত লাস্টার 10T-এর মধ্যে সরাসরি মেমরি অ্যাক্সেস (DMA) সক্ষম করে [উদ্ধৃতি: ৬, ১৫]। নেটওয়ার্ক ইন্টারফেস কার্ড (NIC)-এর মাধ্যমে লাস্টার প্যারালাল ফাইল সিস্টেম থেকে সরাসরি TPU-তে ডেটা রাউটিং করার মাধ্যমে, TPUDirect হোস্ট CPU এবং হোস্টের DRAM-কে সম্পূর্ণরূপে বাইপাস করে [উদ্ধৃতি: ৬]। এই বিশেষায়িত ডেটা পাথ কার্যকরভাবে TPU 7x জেনারেশনে প্রশিক্ষণের তুলনায় স্টোরেজ অ্যাক্সেসের গতিতে ১০ গুণ ত্বরণ প্রদান করে, যা নিশ্চিত করে যে TPU 8t কম্পিউট ইউনিটগুলো কোনো রকম স্টারভেশন ছাড়াই লাইন রেটে মাল্টিমোডাল ডেটাসেট গ্রহণ করতে পারে [উদ্ধৃতি: ৫, ৬, ১৫]।

মেগা-স্কেল পরিকাঠামো: দ্য ভার্গো নেটওয়ার্ক

TPU 8t ইকোসিস্টেমের সবচেয়ে বিস্ময়কর স্থাপত্যগত কৃতিত্ব হলো এর নেটওয়ার্কিং ক্ষমতা, যা সিস্টেমের সীমাবদ্ধতাকে স্থানীয় কম্পিউট থেকে ডেটা সেন্টার-স্কেল ব্যান্ডউইথের দিকে দৃঢ়ভাবে স্থানান্তরিত করে [উদ্ধৃতি: ২৫, ২৬]।

যদিও TPU 8t স্থানীয় পড যোগাযোগের জন্য মৌলিক 3D টোরাস ইন্টারকানেক্ট ধরে রেখেছে—যা একটি একক সুপারপডে ৯,৬০০ চিপ এবং অভূতপূর্ব ২ পেটাবাইট শেয়ার্ড HBM পর্যন্ত স্কেল-আউট করতে পারে—এর স্কেল-আউট ফ্যাব্রিক সম্পূর্ণরূপে নতুন করে ডিজাইন করা হয়েছে [উদ্ধৃতি: ৫, ৬, ১৫]। সুপারপডটি মোট ১২১ এক্সাফ্লপস FP4 কম্পিউট অর্জন করে, যা TPU 7x-এর ৪২.৫ এক্সাফ্লপসের তুলনায় ২.৮ গুণ বেশি [উদ্ধৃতি: ৬]। এটিকে সমর্থন করার জন্য, প্রতি চিপে ইন্ট্রা-পড ICI ব্যান্ডউইথ দ্বিগুণ করে ১৯.২ Tb/s করা হয়েছে [উদ্ধৃতি: ৪, ৬, ১০]।

যাইহোক, এই শত শত সুপারপডকে সংযুক্ত করার জন্য, গুগল ভার্গো নেটওয়ার্ক তৈরি করেছে [উদ্ধৃতি: ১, ৬]। এর পূর্বসূরি নেটওয়ার্ক, জুপিটার, একটি তিন-স্তর বিশিষ্ট ক্লোস টপোলজি ব্যবহার করত যা একাধিক সুইচ স্তরের মাধ্যমে ট্র্যাফিক রাউট করত, ফলে ল্যাটেন্সি এবং ব্যান্ডউইথের প্রতিবন্ধকতা তৈরি হতো (প্রতি চিপে সর্বোচ্চ ১০০ জিবিপিএস পর্যন্ত) [উদ্ধৃতি: ২৫]।

ভার্গো হলো উচ্চ-রেডিক্স সুইচের (২৫৬ থেকে ৫১২টি পোর্ট পরিচালনাকারী) উপর নির্মিত একটি স্কেল-আউট ফ্যাব্রিক যা একটি ফ্ল্যাট, দ্বি-স্তরীয় নন-ব্লকিং টপোলজি ব্যবহার করে [উদ্ধৃতি: ৬, ১৫, ২৫]। নেটওয়ার্কের স্তরগুলোকে ভৌতভাবে বাদ দিয়ে, ভার্গো ল্যাটেন্সি ব্যাপকভাবে হ্রাস করে। এই নেটওয়ার্কটি স্বাধীন কন্ট্রোল ডোমেইনসহ একটি মাল্টি-প্ল্যানার ডিজাইন ব্যবহার করে, যা ডেটা সেন্টার নেটওয়ার্ক (DCN)-এর র ডেটা ব্যান্ডউইথ ৪০০% (৪ গুণ) পর্যন্ত বৃদ্ধি করে এবং প্রতি চিপে ৪০০ Gbps পর্যন্ত পৌঁছে দেয় [উদ্ধৃতি: ৬, ১৫, ২৪]।

একটি একক ভার্গো ফ্যাব্রিক একটি ডেটা সেন্টার সুবিধার মধ্যে ১,৩৪,০০০-এর বেশি TPU 8t চিপ সংযুক্ত করতে পারে, যা প্রতি সেকেন্ডে ৪৭ পেটাবিটের অবিশ্বাস্য নন-ব্লকিং বাইসেকশনাল ব্যান্ডউইথ সরবরাহ করে [উদ্ধৃতি: ১, ৬, ১৫]। অধিকন্তু, গুগলের পাথওয়েজ সফটওয়্যার এবং JAX ফ্রেমওয়ার্কের সাথে সমন্বিত হয়ে, TPU 8t ডিস্ট্রিবিউটেড ট্রেনিং ক্লাস্টারগুলোকে একাধিক ভৌগোলিক সাইট জুড়ে দশ লক্ষেরও বেশি চিপকে একটি একক লজিক্যাল ট্রেনিং জব হিসেবে স্কেল করতে সক্ষম করে [উদ্ধৃতি: ১, ৬, ১৫]। এই অর্জন বিশ্বব্যাপী বিতরণ করা পরিকাঠামোকে একটি একক, নির্বিঘ্ন সুপারকম্পিউটারে রূপান্তরিত করে, যা বর্তমান সাধারণ-উদ্দেশ্য জিপিইউ স্কেলিং সীমাবদ্ধতাকে ব্যাপকভাবে ছাড়িয়ে যায় [উদ্ধৃতি: ২৭]।

স্বায়ত্তশাসিত পুনর্গঠন এবং ৯৭% গুডপুট

লক্ষ লক্ষ চিপের বিশাল পরিসরে, হার্ডওয়্যার ব্যর্থতা—যেমন ট্রান্সসিভার নষ্ট হওয়া থেকে শুরু করে থার্মাল থ্রটলিং পর্যন্ত—এখন আর বিচ্ছিন্ন ঘটনা নয়, বরং পরিসংখ্যানগতভাবে নিশ্চিত। পুরোনো সিস্টেমে, একটিমাত্র নেটওয়ার্ক অচলাবস্থাও একটি বিশাল প্রশিক্ষণ প্রক্রিয়াকে থামিয়ে দিতে পারে, যার ফলে পূর্ববর্তী চেকপয়েন্টে ফিরে যাওয়ার জন্য শ্রমসাধ্য ও ব্যয়বহুল রোলব্যাকের প্রয়োজন হয়। অত্যাধুনিক পর্যায়ে, কর্মদক্ষতার প্রতিটি শতাংশ হ্রাস সক্রিয় প্রশিক্ষণের জন্য কয়েক দিনের সময় নষ্ট করে [উদ্ধৃতি: ৫, ৬]।

TPU 8t ইকোসিস্টেম ৯৭% এর বেশি "গুডপুট" অর্জনের লক্ষ্য রাখে—এটি এমন একটি মেট্রিক যা মোট আপটাইমের সাপেক্ষে কার্যকর, উৎপাদনশীল কম্পিউটিং সময়ের অনুপাতকে সংজ্ঞায়িত করে [উদ্ধৃতি: ৬, ২৮]। এটি অপটিক্যাল সার্কিট সুইচিং (OCS) দ্বারা চালিত উন্নত নির্ভরযোগ্যতা, প্রাপ্যতা এবং পরিষেবাযোগ্যতা (RAS) ক্ষমতার মাধ্যমে অর্জন করা হয় [উদ্ধৃতি: ৫, ৬, ২৫]। হাজার হাজার চিপ বিশ্লেষণকারী রিয়েল-টাইম টেলিমেট্রির মাধ্যমে, সিস্টেমটি স্বয়ংক্রিয়ভাবে ত্রুটিপূর্ণ আন্তঃ-চিপ ইন্টারকানেক্ট লিঙ্কগুলি সনাক্ত করতে পারে। OCS হার্ডওয়্যার ব্যর্থতা এড়াতে রিয়েল-টাইমে অপটিক্যাল আলোর পথকে ভৌতভাবে পুনঃনির্দেশিত করে, যার জন্য কোনো মানবিক হস্তক্ষেপের প্রয়োজন হয় না এবং সবচেয়ে গুরুত্বপূর্ণভাবে, এটি সক্রিয় প্রশিক্ষণ কাজটি ব্যাহত না করেই সম্পন্ন হয় [উদ্ধৃতি: ৫, ৬, ২৮]।

গভীর বিশ্লেষণ: টিপিইউ ৮আই (দ্য রিজনিং ইঞ্জিন)

যদি TPU 8t চরম, ব্রুট-ফোর্স স্কেলিং-এর একটি অনুশীলন হয়, তবে TPU 8i হলো ল্যাটেন্সি অপ্টিমাইজেশন এবং মেমরি আর্কিটেকচারের একটি মাস্টারক্লাস [উদ্ধৃতি: 6]। মডেলগুলো যখন রিয়েল-টাইম প্রোডাকশনে চলে আসে, বিশেষ করে ম্যাসিভ মিক্সচার-অফ-এক্সপার্টস (MoE) মডেল এবং এজেন্টিক সোয়ার্মের ক্ষেত্রে, তখন নেটওয়ার্ক জুড়ে মেমরি অ্যাক্সেস এবং রাউটিং করার গতির তুলনায় র কম্পিউট থ্রুপুট কম প্রাসঙ্গিক হয়ে ওঠে [উদ্ধৃতি: 21, 29]।

অনুমান স্মৃতি প্রাচীর ভাঙা

অটোরেগ্রেসিভ জেনারেশনে, একটি মডেল ক্রমানুসারে আউটপুট টোকেন তৈরি করে। প্রতিটি নতুন তৈরি হওয়া টোকেনের সাথে, মডেলটিকে অবশ্যই পূর্ববর্তী সমস্ত টোকেন এবং তাদের গাণিতিক সম্পর্কের একটি ক্রমবর্ধমান ইতিহাসকে রেফারেন্স হিসেবে ব্যবহার করতে হয়, যা কী-ভ্যালু (KV) ক্যাশে নামে পরিচিত [উদ্ধৃতি: ১, ১৩]। লক্ষ লক্ষ টোকেন বিশ্লেষণকারী লং-কন্টেক্সট মডেলগুলির জন্য, এই KV ক্যাশের আকার ফুলে ওঠে। যদি ক্যাশে চিপের দ্রুত অনবোর্ড মেমরির ধারণক্ষমতা অতিক্রম করে এবং ধীরগতির হোস্ট সিপিইউ মেমরিতে ছড়িয়ে পড়ে, তবে সম্পূর্ণ গণনা প্রক্রিয়াটি থেমে যায়—এই ঘটনাটি "মেমরি ওয়াল" নামে ব্যাপকভাবে পরিচিত [উদ্ধৃতি: ৫, ৮]।

এই প্রতিবন্ধকতা দূর করার জন্যই বিশেষভাবে TPU 8i তৈরি করা হয়েছিল। যদিও এটি একটি সরল, অধিক সাশ্রয়ী সিলিকন ডিজাইন—যেখানে একটিমাত্র কম্পিউট ডাই এবং একটি I/O ডাই-এর সাথে HBM3e-এর ছয়টি স্ট্যাক ব্যবহার করা হয়েছে—এর মেমোরি ধারণক্ষমতা সার্ভিং-এর জন্য বিশেষভাবে অপ্টিমাইজ করা হয়েছে [উদ্ধৃতি: 9]। * HBM ধারণক্ষমতা এবং ব্যান্ডউইথ: প্রতিটি TPU 8i-তে 288 GB HBM3E রয়েছে, যা TPU 7x-এর তুলনায় ধারণক্ষমতায় 50% বৃদ্ধি [উদ্ধৃতি: 5, 24, 30]। আরও গুরুত্বপূর্ণ বিষয় হলো, যেহেতু বড় MoE মডেলগুলো ইনফারেন্সের সময় মেমোরি-ব্যান্ডউইথ দ্বারা সীমাবদ্ধ থাকে, তাই মেমোরি ব্যান্ডউইথকে 8.6 TB/s (~8,601 GB/s) পর্যন্ত বাড়ানো হয়েছে—যা ট্রেনিং-কেন্দ্রিক TPU 8t-এর চেয়ে প্রায় 1.3 গুণ দ্রুততর [উদ্ধৃতি: 10, 15]। * বিশাল অন-চিপ SRAM: সবচেয়ে গুরুত্বপূর্ণ হার্ডওয়্যার পরিবর্তন হলো প্রতি চিপে ৩৮৪ মেগাবাইট অন-চিপ স্ট্যাটিক র‍্যান্ডম-অ্যাক্সেস মেমরি (SRAM) এর সংযোজন [উদ্ধৃতি: ১০, ১৫, ৩০]। এটি TPU 7x এবং TPU 8t উভয়ের তুলনায় ৩০০% (৩ গুণ) বিশাল বৃদ্ধি [উদ্ধৃতি: ১০, ১৫, ৩০]। SRAM হলো সিলিকন ম্যাট্রিক্সে সরাসরি উপলব্ধ সবচেয়ে দ্রুততম এবং সর্বনিম্ন-ল্যাটেন্সির মেমরি। এই ধারণক্ষমতা তিনগুণ করার মাধ্যমে, TPU 8i সম্পূর্ণরূপে অন-ডাই-তে বিশাল KV ক্যাশে ধারণ করতে পারে [উদ্ধৃতি: ১৫, ১৬]। এটি ধীরগতির মেমরি স্তর থেকে টোকেন হিস্ট্রি আনার জন্য অপেক্ষা করার সময় প্রসেসিং কোরগুলোকে নিষ্ক্রিয় থাকা থেকে বিরত রাখে, যা উচ্চ-কনকারেন্সি রিজনিং লুপগুলোকে অভূতপূর্ব সাবলীলতার সাথে কাজ করতে সক্ষম করে [উদ্ধৃতি: ৫, ১৫]।

কালেক্টিভস অ্যাক্সিলারেশন ইঞ্জিন (CAE)

যেহেতু TPU 8i-এর মূল কাজ হলো ইনফারেন্স, তাই 7x এবং 8t-তে এমবেডিং লুকআপের জন্য ব্যবহৃত স্পার্সকোর ইউনিটটিকে এই নির্দিষ্ট কাজের জন্য সিলিকন স্পেসের অদক্ষ ব্যবহার হিসেবে বিবেচনা করা হয়েছিল। এর পরিবর্তে, গুগলের প্রকৌশলীরা কালেক্টিভস অ্যাক্সিলারেশন ইঞ্জিন (CAE) নামে একটি নিজস্ব হার্ডওয়্যার ব্লক চালু করেন [উদ্ধৃতি: 10, 15]।

অটোরেগ্রেসিভ ডিকোডিং এবং "চেইন-অফ-থট" প্রক্রিয়াকরণের সময়, চিপ জুড়ে বিভিন্ন কোরকে তাদের গাণিতিক ফলাফল একত্রিত, হ্রাস এবং সিঙ্ক্রোনাইজ করার জন্য প্রায়শই তাদের স্বতন্ত্র গণনা থামাতে হয় [উদ্ধৃতি: 6, 15]। এই বৈশ্বিক সিঙ্ক্রোনাইজেশন অপারেশনগুলি লেটেন্সিকে মারাত্মকভাবে বাধাগ্রস্ত করতে পারে, বিশেষ করে যখন হাজার হাজার স্বাধীন এজেন্ট একই সাথে একটি সমস্যা নিয়ে কাজ করে।

প্রতিটি TPU 8i চিপে, কোর ডাই-এর উপর দুটি TensorCore থাকে, এবং এর সাথে চিপলেট ডাই-এর উপর একটি CAE থাকে (যা TPU 7x-এ থাকা চারটি SparseCore-এর পরিবর্তে ব্যবহৃত হয়) [উদ্ধৃতি: 6, 15]। এই বিশেষায়িত CAE-টি প্রায়-শূন্য ল্যাটেন্সিতে কোরগুলো জুড়ে ফলাফল একত্রিত করার জন্য ডিজাইন করা হয়েছে, যার ফলে TPU 7x প্রজন্মের তুলনায় অন-চিপ সম্মিলিত ল্যাটেন্সি অসাধারণভাবে ৫ গুণ কমে যায় [উদ্ধৃতি: 10, 15]। এজেন্টিক ওয়ার্কফ্লোতে প্রাধান্য পাওয়া রিডাকশন ধাপগুলোকে হার্ডওয়্যার-অ্যাক্সিলারেটিং করার মাধ্যমে, CAE নিশ্চিত করে যে সিস্টেমটি রিয়েল-টাইম রেসপন্সিভনেস বজায় রেখেও উচ্চ থ্রুপুট ধরে রাখে [উদ্ধৃতি: 6, 15]।

নেটওয়ার্ক সমতলকরণ: বোর্ডফ্লাই টপোলজি

TPU 8i-এর একটি প্রধান বৈশিষ্ট্য হলো এর 3D টোরাস টপোলজির সম্পূর্ণ বর্জন। যদিও প্রি-ট্রেনিং-এর জন্য প্রয়োজনীয় নেইবার-টু-নেইবার ডেটা আদান-প্রদানের ক্ষেত্রে একটি 3D টোরাস অসাধারণ, এটি MoE ইনফারেন্স মডেলগুলির জন্য প্রয়োজনীয় অল-টু-অল টোকেন রাউটিং-এর ক্ষেত্রে অগ্রহণযোগ্যভাবে দীর্ঘ ভৌত দূরত্ব তৈরি করে—যা নেটওয়ার্ক হপস-এর হিসাবে পরিমাপ করা হয় [উদ্ধৃতি: 2, 15]। MoE আর্কিটেকচারে, যেকোনো একটি টোকেনকে পডের মধ্যে সম্পূর্ণ ভিন্ন একটি চিপে অবস্থিত একটি নির্দিষ্ট "এক্সপার্ট" লেয়ারে রাউট করার প্রয়োজন হতে পারে। একটি প্রচলিত টোরাসে, এই ডেটা প্যাকেটটিকে তার গন্তব্যে পৌঁছানোর জন্য মধ্যবর্তী চিপগুলির মধ্য দিয়ে ক্রমানুসারে ভ্রমণ করতে হয়।

এর সমাধান করতে, গুগল বোর্ডফ্লাই [উদ্ধৃতি: ১৫, ৩১] নামে একটি নতুন সার্ভিং-অপ্টিমাইজড নেটওয়ার্কিং আর্কিটেকচার তৈরি করেছে। ড্রাগনফ্লাই টপোলজির নীতি দ্বারা অনুপ্রাণিত, বোর্ডফ্লাই হলো একটি হায়ারারকিক্যাল, হাই-রেডিক্স নেটওয়ার্ক যা আর্কিটেকচারকে ব্যাপকভাবে সমতল করতে এবং যেকোনো দুটি চিপের মধ্যে ভৌত দূরত্ব কমানোর জন্য ডিজাইন করা হয়েছে [উদ্ধৃতি: ২, ১৫, ২৬]।

বোর্ডফ্লাই টপোলজিটি স্তরক্রম অনুসারে গঠিত হয়: ১. বিল্ডিং ব্লক: চারটি সম্পূর্ণরূপে সংযুক্ত TPU 8i চিপ অভ্যন্তরীণ ICI লিঙ্কের মাধ্যমে একটি ভিত্তিগত বিল্ডিং ব্লক তৈরি করে [উদ্ধৃতি: ৬, ১৬]। ২. বোর্ড: আটটি বিল্ডিং ব্লক সরাসরি কপার ক্যাবলিংয়ের মাধ্যমে সম্পূর্ণরূপে সংযুক্ত হয়ে একটি একক বোর্ড গঠন করে [উদ্ধৃতি: ৬, ১৬]। ৩. পড: এরপর ৩৬টি গ্রুপ অপটিক্যাল সার্কিট সুইচ এবং সরাসরি অপটিক্যাল লং-হোল লিঙ্কের মাধ্যমে সম্পূর্ণরূপে আন্তঃসংযুক্ত হয়ে ১,১৫২টি চিপের একটি একীভূত পড গঠন করে [উদ্ধৃতি: ৫, ৬, ১৬, ৩২]।

এই পদ্ধতির লেটেন্সি সুবিধাটি সুদূরপ্রসারী। একটি সাধারণ ১,০২৪-চিপের ৩ডি টোরাস কনফিগারেশনে, একটি ডেটা প্যাকেটকে সর্বোচ্চ ১৬ হপের নেটওয়ার্ক ব্যাস অতিক্রম করতে হতে পারে [উদ্ধৃতি: ১৫, ২৫]। বোর্ডফ্লাই টপোলজিতে, এই সর্বোচ্চ নেটওয়ার্ক ব্যাস সংকুচিত হয়ে মাত্র ৭ হপে নেমে আসে [উদ্ধৃতি: ১৫, ২৫]।

নেটওয়ার্ক ডায়ামিটারের এই ৫৬% হ্রাস, যোগাযোগ-নিবিড় ইনফারেন্স ওয়ার্কলোডের ক্ষেত্রে টেইল ল্যাটেন্সিতে ব্যাপক ৫০% উন্নতি ঘটায় [উদ্ধৃতি: ১৬, ২৫, ৩০]। ইনফারেন্স শেষ পর্যন্ত এর সবচেয়ে ধীরগতির নোডের গতি দ্বারা সীমাবদ্ধ থাকে। টেইল ল্যাটেন্সি ব্যাপকভাবে হ্রাস করার মাধ্যমে, বোর্ডফ্লাই টপোলজি নিশ্চিত করে যে টোকেন ডেটা পড অতিক্রম করার জন্য অপেক্ষা করার সময় CAE কখনই নিষ্ক্রিয় থাকে না [উদ্ধৃতি: ৬, ১৫]।

অধিকন্তু, এই অত্যন্ত সুসংহত অপটিক্যাল ইন্টারকানেক্টের কারণে, একটি একক ১,১৫২-চিপের TPU 8i পড ৩৩১.৮ টেরাবাইট কোহেরেন্ট HBM-এর একটি বিশাল, একীভূত শেয়ার্ড মেমরি ডোমেন হিসেবে কাজ করে [উদ্ধৃতি: ১৬]।

তুলনামূলক কর্মক্ষমতা, অর্থনীতি এবং সিস্টেম অবকাঠামো

স্থাপত্যগত দ্বিবিভাজন গণনাগত অর্থনীতি এবং শক্তি দক্ষতা উভয় ক্ষেত্রেই ব্যাপক উন্নতি সাধন করে। শুধুমাত্র সর্বোচ্চ তাত্ত্বিক ফ্লোটিং-পয়েন্ট অপারেশনের উপর ভিত্তি করে হার্ডওয়্যারের মূল্যায়ন করলে ডেটা সেন্টার পরিচালনা এবং সফটওয়্যার সক্ষমকরণের পদ্ধতিগত বাস্তবতা উপেক্ষা করা হয়।

সফটওয়্যার অ্যাবস্ট্রাকশন এবং ফ্রেমওয়ার্ক সাপোর্ট

ভিন্ন ভিন্ন হার্ডওয়্যার ভিত্তি থাকা সত্ত্বেও, গুগল ফ্রেমওয়ার্ক লক-ইন প্রতিরোধ করার জন্য একটি সমন্বিত, পারফরম্যান্স-প্রথম এআই সফটওয়্যার স্ট্যাক বজায় রাখতে ব্যাপকভাবে বিনিয়োগ করেছে। TPU 8t এবং 8i উভয়ই JAX, Keras, MaxText, SGLang, এবং vLLM ইঞ্জিনের জন্য নেটিভ সাপোর্ট প্রদান করে [উদ্ধৃতি: 5, 8, 14, 17]। অধিকন্তু, নেটিভ PyTorch সাপোর্ট (TorchTPU-এর মাধ্যমে) ডেভেলপারদের বিদ্যমান PyTorch মডেলগুলিকে সরাসরি TPU পরিবেশে পোর্ট করার সুযোগ দেয়, যেখানে Eager Mode-এর মতো নেটিভ ফিচারগুলির সম্পূর্ণ সাপোর্ট থাকে [উদ্ধৃতি: 15, 17]।

নেপথ্যে, অ্যাক্সিলারেটেড লিনিয়ার অ্যালজেব্রা (XLA) কম্পাইলার বোর্ডফ্লাই টপোলজি এবং সিএই সিঙ্ক্রোনাইজেশনের জটিল অনুবাদ পরিচালনা করে, যা ডেভেলপারদের অপটিক্যাল ইন্টারকানেক্টগুলি ম্যানুয়ালি প্রোগ্রাম করার প্রয়োজন ছাড়াই পাইথনে (প্যালাস এবং মোজাইক ব্যবহার করে) হার্ডওয়্যার-সচেতন কাস্টম কার্নেল লিখতে সক্ষম করে [উদ্ধৃতি: 15]।

পরিমাণগত কর্মক্ষমতা মেট্রিক্স

নিচের সারণিতে সমন্বিত TPU 7x এবং অত্যন্ত বিশেষায়িত TPU 8t ও 8i আর্কিটেকচারগুলোর মূল প্রযুক্তিগত বৈশিষ্ট্যগুলোর সারসংক্ষেপ দেওয়া হয়েছে [উৎস: 3, 15, 24]।

স্পেসিফিকেশন ম্যাট্রিক্স টিপিইউ ৭x টিপিইউ ৮টি টিপিইউ ৮আই
প্রাথমিক কাজের চাপ একীভূত (প্রশিক্ষণ ও অনুমান) বৃহৎ আকারের প্রাক-প্রশিক্ষণ বিলম্ব-সংবেদনশীল অনুমান
ASIC ডিজাইন পার্টনার ব্রডকম ব্রডকম মিডিয়াটেক
নেটওয়ার্ক টপোলজি 3D টোরাস 3D টোরাস + ভার্গো স্কেল-আউট বোর্ডফ্লাই (ড্রাগনফ্লাই দ্বারা অনুপ্রাণিত)
বিশেষায়িত হার্ডওয়্যার স্পার্সকোর স্পার্সকোর কালেক্টিভস অ্যাক্সিলারেশন ইঞ্জিন (CAE)
নেটিভ প্রিসিশন ফোকাস FP8 এফপি৪ FP4 (FP8/INT8 সমর্থন সহ)
প্রতি চিপে সর্বোচ্চ গণনা ৪.৬ পিএফএলওপিএস (এফপি৮) ১২.৬ পিএফএলওপিএস (এফপি৪) ১০.১ পিএফএলওপিএস (এফপি৪)
প্রতি চিপে HBM ধারণক্ষমতা ১৯২ জিবি ২১৬ জিবি ২৮৮ জিবি
এইচবিএম ব্যান্ডউইথ ৭.৩৭ টিবি/সেকেন্ড ৬.৫২ টিবি/সেকেন্ড ৮.৬০ টিবি/সেকেন্ড
অন-চিপ SRAM (VMEM) ১২৮ এমবি ১২৮ এমবি ৩৮৪ এমবি
আন্তঃ-চিপ BW (স্কেল-আপ) ৯.৬ টিবি/সেকেন্ড ১৯.২ টিবি/সেকেন্ড ১৯.২ টিবি/সেকেন্ড
সর্বোচ্চ পড/সুপারপড আকার ৯,২১৬টি চিপস ৯,৬০০ চিপস ১,১৫২ টি চিপস

ব্যয়-কর্মক্ষমতা এবং TCO অপ্টিমাইজেশন

গুগল অষ্টম প্রজন্মের সাথে টোটাল কস্ট অফ ওনারশিপ (TCO)-তে উল্লেখযোগ্য উন্নতির দাবি করেছে। TPU 8t, TPU 7x-এর তুলনায় বৃহৎ পরিসরের প্রশিক্ষণের জন্য প্রতি ডলারে ১৭০% থেকে ১৮০% পর্যন্ত পারফরম্যান্স বৃদ্ধি করে—যা ২.৭x থেকে ২.৮x উন্নতির সমান [উদ্ধৃতি: ৬, ১৫, ৩০]। অন্যদিকে, TPU 8i ইনফারেন্সের জন্য প্রতি ডলারে ৮০% পারফরম্যান্স বৃদ্ধি করে, বিশেষত বিশাল MoE মডেলের জন্য প্রয়োজনীয় কম-লেটেন্সি লক্ষ্যমাত্রার ক্ষেত্রে [উদ্ধৃতি: ১৫, ১৬, ৩০]।

এই অর্থনৈতিক সুবিধাগুলো শুধু সিলিকনের দ্বারাই নয়, বরং ফুল-স্ট্যাক সিস্টেমিক ইন্টিগ্রেশনের দ্বারাও চালিত হয়। ঐতিহাসিকভাবে, টিপিইউ-গুলোকে বাজারে সহজলভ্য x86 হোস্ট সিপিইউ-এর সাথে যুক্ত করা হতো। নিবিড় ডেটা প্রিপ্রসেসিং বা জটিল এজেন্টিক লজিকের মতো পরিস্থিতিতে, x86 হোস্ট প্রায়শই সিস্টেমের গতিতে বাধা সৃষ্টি করত, যার ফলে অতি-দ্রুত টিপিইউ সিলিকন নিষ্ক্রিয় অবস্থায় প্রস্তুত থাকলেও ডেটার অভাবে ভুগত [উদ্ধৃতি: ৬, ৭]।

The eighth generation rectifies this chronic imbalance by hosting both the 8t and 8i exclusively on Google's custom Axion ARM-based processors [cite: 6, 7, 15]. Built on the Neoverse N3 Armv9.2 core architecture, the Axion hosts provide a unified, highly optimized foundation [cite: 18, 19]. For the inference-heavy TPU 8i, Google integrated the Axion hosts at a 2:1 TPU-to-CPU ratio, doubling the physical CPU hosts per server compared to TPU 7x [cite: 5, 6, 32]. Utilizing strict Non-Uniform Memory Access (NUMA) architecture for workload isolation, the system guarantees superior memory locality and removes the data preparation bottleneck entirely [cite: 5, 7].

Energy Efficiency and Market Implications

Energy density and power availability are rapidly becoming the ultimate binding constraints in modern data center deployment. Through the use of fourth-generation liquid cooling and integrated, real-time power management that dynamically adjusts power draw based on specific workload phases (eg, active computation versus idling for communication), both the TPU 8t and 8i achieve staggering power efficiencies [cite: 7, 15, 22, 24]. The 8t boasts a 124% gain in performance-per-watt, while the 8i yields a 117% gain, resulting in an overall 2x (100%+) improvement in energy efficiency over the TPU 7x [cite: 15, 22, 30].

The implications of this efficiency are evident in Google's own state-of-the-art models. Benchmarks for the Gemini 3.1 Pro preview indicate that deploying the model on the TPU 8i architecture results in a roughly 50% cost reduction for inference APIs, alongside vastly improved responsiveness and long-context handling capabilities [cite: 24, 30].

The Competitive Landscape: Google vs. Merchant Silicon

Google's decision to bifurcate its silicon strategy holds profound implications for the wider artificial intelligence hardware ecosystem, particularly in its ongoing competition with merchant silicon providers like Nvidia and, to a lesser extent, AMD and AWS (with its Trainium3 platform) [cite: 17, 23].

Nvidia has historically maintained a unified architecture strategy, utilizing highly capable but general-purpose platforms like the Blackwell B200 and the Vera Rubin NVL72 to handle both pre-training and real-time inference [cite: 2, 9]. When viewed purely through the lens of raw single-chip specifications, Nvidia maintains certain advantages. For example, Nvidia's NVLink technology supports single-device interconnect bandwidths of 14.4 Tb/s, and individual Rubin GPUs offer roughly 50 PFLOPs of NVFP4 inference compute—significantly higher than the 10.1 PFLOPs of the TPU 8i [cite: 2, 9].

However, Google's architectural bet rests on the conviction that the future of artificial intelligence is determined by cluster-scale efficiency, not single-chip peak capabilities [cite: 9].

By moving to the Boardfly topology, Google creates a fully coherent, shared memory pool across all 1,152 chips within a TPU 8i pod [cite: 16]. This results in an aggregate pod capacity of 11.6 FP8 ExaFlops and 331.8 TB of unified, coherent HBM [cite: 6, 16]. Conversely, standard Nvidia GPU rack-scale coherency on the NVL72 tops out at 72 GPUs and roughly 20.7 TB of HBM [cite: 2, 16]. Scaling general-purpose GPUs to match a 1,152-chip configuration requires bridging across approximately 16 separate racks [cite: 16]. This physical separation shatters true memory coherency and introduces severe latency penalties that are catastrophic for continuous, long-context agentic inference [cite: 16].

Furthermore, by moving optical circuit switching (OCS) lower in the stack to facilitate the Boardfly hierarchy, Google is fundamentally altering the optical networking supply chain, creating massive downstream demand for specialized transceivers and lasers from vendors like Lumentum and Coherent [cite: 26].

Ultimately, Google's design philosophy assumes that the real battleground of the late 2020s will not be determined by peak mathematical throughput on a singular silicon die, but rather by the ability to circumvent the memory wall, rapidly scale cross-site interconnects, and drive down the absolute cost-per-token economics of deploying real-time agent swarms to billions of users [cite: 6, 16, 17].

উপসংহার

The trajectory of Google Cloud's Tensor Processing Units from the unified framework of the TPU 7x to the highly specialized dichotomy of the TPU 8t and TPU 8i reflects the maturation and industrialization of artificial intelligence workloads. General-purpose, unified silicon—while foundational to the initial deep learning boom—is no longer sufficient to drive the economics or the performance required at the extreme margins of the agentic era.

The TPU 8t represents an uncompromising pursuit of scale. Through the retention of the SparseCore, the implementation of native FP4 precision to double MXU throughput, and the staggering capabilities of the Virgo Network and TPUDirect Storage, it is engineered to ingest and process data at a volume previously thought impossible. It effectively neutralizes the scale-out bandwidth constraints of modern data centers, allowing millions of chips to operate as a singular, globally distributed pre-training engine.

Conversely, the TPU 8i is an exercise in latency elimination and economic efficiency. By abandoning the 3D torus in favor of the hierarchical Boardfly topology, tripling on-die SRAM to 384 MB, and introducing the Collectives Acceleration Engine to accelerate auto-regressive synchronization, the TPU 8i systematically dismantles the inference memory wall. It ensures that the massive KV caches required for complex, multi-step agentic reasoning can remain localized and accessible at near-zero latency, all while reducing production costs through a streamlined logic design.

Together, hosted on fully integrated ARM-based Axion CPUs and managed by autonomous optical circuit switching, the bifurcated eighth generation establishes a new paradigm in hyperscale infrastructure. It serves as a definitive architectural statement that the future of artificial intelligence requires not just faster chips, but fundamentally divergent hardware frameworks co-designed precisely for the distinct workloads they are destined to serve.

Sources: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. Link 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com