기본 대규모 언어 모델에서 복잡한 다단계 에이전트 시스템으로 인공지능이 발전하면서 반도체 설계에 근본적인 패러다임 전환이 일어났습니다. 거의 10년 동안 인공지능 가속기 아키텍처의 지배적인 논리는 통합이었습니다. 실리콘 설계자는 모델 사전 학습의 대규모 처리량 중심 워크로드와 프로덕션 추론의 지연 시간에 민감한 요구사항을 동시에 실행할 수 있는 단일 모놀리식 아키텍처를 엔지니어링하기 위해 노력했습니다[인용: 1, 2]. 이 통합 접근 방식은 첫 번째 하드웨어 가속기의 시작부터 Google Cloud Tensor Processing Unit (TPU) 7세대 배포까지 업계를 지배했습니다[인용: 2, 3, 4].
하지만 트릴리온 단위의 파라미터로 확장되고 전문가 혼합 (MoE) 및 지속적인 에이전트형 피드백 루프와 같은 실시간 추론 아키텍처가 표준이 되면서 학습 및 제공을 위한 하드웨어 요구사항이 돌이킬 수 없이 달라졌습니다[인용: 5, 6, 7]. 사전 학습은 대역폭 및 처리량 최적화 문제로 굳어졌으며, 엄청난 수직 확장 기능, 대규모 인터커넥트 이등분 대역폭, 지속적인 행렬 수학 포화가 필요합니다[인용: 6]. 반대로 에이전트 기반 서빙은 지연 시간 및 메모리 제한 문제로 부상했으며, 이는 전역 동기화 작업에서 병목 현상이 발생하지 않고 가중치와 키-값 (KV) 캐시를 처리 코어로 스트리밍할 수 있는 속도에 의해 제한됩니다 [cite: 6, 8].
두 워크로드를 동일한 실리콘에 강제로 적용하면 시스템 비효율이 발생하고 경제적 수익이 감소한다는 점을 인식한 Google은 8세대 TPU 라인업을 이분화하는 전례 없는 아키텍처 결정을 내렸습니다[인용: 1, 6, 9]. 그 결과 공급망 수준까지 설계된 두 개의 고도로 전문화된 칩이 탄생했습니다. 슈퍼컴퓨터 규모에서 엄청난 학습 처리량을 위해 설계된 TPU 8t와 추론 메모리 장벽을 깨고 전역 추론을 위한 집단 지연 시간을 최소화하도록 설계된 TPU 8i입니다[인용: 7, 9].
이 포괄적인 조사 보고서는 TPU 7x의 통합 기준과 새로 분기된 TPU 8t 및 TPU 8i 간의 아키텍처, 성능, 확장 차이를 분석합니다. 논리 설계, 다중 계층 메모리 계층 구조, 데이터 센터 상호 연결 토폴로지, 광 회로 스위칭, 하드웨어-소프트웨어 공동 설계를 철저히 검토하여 이 분석은 차세대 인공지능의 경제적 및 컴퓨팅 확장을 유지하는 데 특수 실리콘 칩이 필요한 이유를 설명합니다.
역사적 맥락: 전문화로 향하는 궤적
8세대에서 취해진 아키텍처의 변화를 완전히 이해하려면 TPU 제품군의 반복적인 진화를 추적해야 합니다. Google의 하드웨어 개발은 간단한 추론 가속에서 대규모 클러스터 규모 학습 패브릭으로 이동하는 등 현대적인 머신러닝 모델의 일반적인 병목 현상을 지속적으로 반영해 왔습니다 [인용: 10, 11].
추론에서 대규모 행렬 배열까지
Google은 검색, 번역, YouTube 맞춤 동영상과 같은 내부 서비스의 증가하는 컴퓨팅 부하를 처리하도록 설계된 추론 전용 가속기로 2015년에 TPU v1을 도입했습니다[인용: 11, 12]. v1은 8비트 정수 연산을 활용하여 범용 중앙 처리 장치 (CPU) 및 그래픽 처리 장치 (GPU)에 비해 와트당 작업 수를 10배 개선했습니다[cite: 10, 11]. 2017년에는 TPU v2가 학습 기능으로 전환되어 bfloat16 (BF16) 형식이 도입되었습니다. 이는 32비트 부동 소수점의 동적 범위를 유지하면서 메모리 소비를 절반으로 줄이는 16비트 부동 소수점 형식입니다[인용: 10].
3세대부터 5세대까지는 핵심 연산 엔진인 행렬 곱셈 단위 (MXU)가 최적화되었습니다. 여러 세대에 걸쳐 MXU는 16,384개의 곱셈-누산 작업을 동시에 수행할 수 있는 128x128 시스톨릭 배열로 유지되었습니다[인용: 4, 10]. TPU v4에는 삽입 조회 및 불규칙한 메모리 액세스를 가속화하도록 특별히 설계된 전용 하드웨어 블록인 'SparseCore'가 도입되어 추천 모델 학습 중에 MXU가 멈추는 것을 방지합니다[인용: 4, 6].
지형학적 진화 및 Trillium (v6e)
모델 크기가 커짐에 따라 수천 개의 칩에서 그라데이션을 동기화하는 데 필요한 상호 연결 토폴로지가 발전했습니다. Google은 더 작고 비용 효율적인 포드 (예: v5e 및 v6e)에 2D 토러스 토폴로지를 배포하여 최대 256개의 칩으로 확장하는 작업을 간소화했습니다[인용: 4, 10]. 성능 최적화 변형 (예: v4 및 v5p)의 경우 Google은 3D 토러스 토폴로지를 활용하여 3차원 랩어라운드 그리드에서 칩을 연결하여 4,096~8,960개의 칩에 이르는 더 큰 포드 크기에서 통신 지연 시간을 줄였습니다[인용: 4].
현대의 직접적인 전조는 2024년 말에 출시된 TPU v6e (Trillium)였습니다. Trillium은 MXU를 128x128 배열에서 256x256 배열로 확장하여 대대적인 아키텍처 도약을 나타냈습니다[인용: 10]. 이를 통해 사이클당 곱셈 누산 연산이 4배로 증가했습니다. 3,200Gbps (양방향 집계 13TB/s)의 칩 간 상호 연결 (ICI) 대역폭과 칩당 32GB의 고대역폭 메모리 (HBM)가 결합된 Trillium은 이전 모델에 비해 최대 컴퓨팅이 4.7배 증가했으며 에너지 효율성은 67% 더 높았습니다[인용: 10, 11].
| TPU 세대 | 출시 연도 | 기본 혁신 | 토폴로지 및 최대 포드 크기 | MXU 아키텍처 | 칩당 최고 컴퓨팅 |
|---|---|---|---|---|---|
| TPU v2 | 2017 | 첫 번째 학습 가능 (BF16) | 2D 토러스 (512개 칩) | 128x128 | 약 45TFLOPS |
| TPU v4 | 2021 | SparseCore 소개 | 3D 토러스 (4,096개 칩) | 128x128 | 275 TFLOPS |
| TPU v5e | 2023 | 비용 최적화된 효율성 | 2D 토러스 (256개 칩) | 128x128 | 197 TFLOPS |
| TPU v5p | 2023 | 성능 스케일업 | 3D 토러스 (8,960개 칩) | 128x128 | 459 TFLOPS |
| TPU v6e(Trillium) | 2024 | 256x256 MXU 확장 | 2D 토러스 (256개 칩) | 256x256 | 918 TFLOPS |
통합 아키텍처의 정점: TPU 7x
2025년 말에 정식 버전으로 출시된 7세대 TPU 7x는 Google의 통합 아키텍처 전략의 정점을 나타냅니다. 단일 아키텍처 프레임워크 내에서 최첨단 규모의 사전 학습과 디코딩 집약적 추론을 모두 실행하도록 설계된 TPU 7x는 이중 목적 가속기가 달성할 수 있는 한계를 강제로 뛰어넘었습니다[인용: 3, 10].
듀얼 칩렛 설계 및 AlphaChip 최적화
TPU 7x의 물리적 구조는 v4 및 v5p에서 볼 수 있는 단일 논리 코어 (MegaCore) 아키텍처와 크게 달라졌습니다[인용: 3]. TPU 7x는 듀얼 칩렛 아키텍처를 활용합니다. 각 전체 TPU 7x 칩은 독점적인 고속 다이-다이 (D2D) 인터페이스로 연결된 두 개의 고유한 자체 포함 칩렛으로 구성됩니다[인용: 3]. 이 D2D 연결은 표준 1차원 ICI 링크보다 6배 빠른 속도로 작동하므로 칩렛이 전용 메모리 공간을 유지하면서 빠르게 통신할 수 있습니다 [cite: 3].
전체 통합 칩에서 TPU 7x에는 2개의 TensorCore와 4개의 SparseCore가 있습니다 [인용: 3]. 실리콘 매트릭스에서 이러한 코어의 물리적 레이아웃은 Google의 독점 강화 학습 도구인 AlphaChip을 사용하여 와이어 길이를 최소화하고 열 효율성을 최대화하도록 최적화되었습니다[인용: 10]. TPU 7x의 표준 가상 머신 (VM) 구성은 4개의 칩을 CPU 호스트에 연결하여 224개의 vCPU와 960GB의 RAM을 노출합니다[인용: 3].
다중 계층 메모리 계층 구조 및 정밀 형식 지정
밀도 높은 모델과 MoE 모델을 처리할 때 중요한 병목 현상은 스토리지 계층 간의 지속적인 데이터 이동입니다. TPU 7x는 확장된 MXU를 포화 상태로 유지하도록 설계된 강력한 다중 계층 메모리 시스템을 갖추고 있습니다. * 고대역폭 메모리 (HBM3E): 각 TPU 7x 칩에는 192GB의 HBM이 장착되어 있어 7.37TB/s (7,380GBps)의 대규모 메모리 대역폭을 제공합니다[인용: 3, 10]. Trillium에 비해 6배 증가한 용량으로 학습 중에 훨씬 더 큰 배치 크기를 사용할 수 있으며, 추론 중에 더 큰 KV 캐시를 온칩에 유지하여 느린 호스트 메모리로 오프로드하는 데 따른 비용이 많이 드는 지연 시간 급증을 방지할 수 있습니다[인용: 4, 10, 13]. * 벡터 메모리 (VMEM): 각 TensorCore는 초고속 온칩 SRAM 스크래치 패드로 작동하며 64MiB의 VMEM (칩당 총 128MB)을 제공합니다. VMEM은 HBM보다 MXU에 대한 대역폭이 훨씬 높습니다[인용: 3, 14]. 범위가 지정된 VMEM 튜닝을 통해 개발자는 현재 계산 범위와 향후 가중치 프리패치 간에 메모리를 재할당하여 더 큰 커널 타일 크기 (예: 플래시 어텐션에 사용되는 크기)를 허용하고 메모리 정체를 줄일 수 있습니다[인용: 13, 14]. * 호스트 메모리 (PCIe): PCIe 네트워크를 통해 연결된 시스템의 호스트 메모리는 옵티마이저 상태와 활성화를 오프로드하여 HBM 용량을 초과하는 모델의 메모리 압력을 관리하는 데 사용됩니다[인용: 3, 14].
또한 TPU 7x는 8비트 부동 소수점 (FP8) 정밀도를 위한 네이티브 하드웨어 가속을 도입했습니다[인용: 4, 13]. 표준 16비트 형식 (BF16 또는 FP16)에서 이전하면 FP8 표현은 가중치와 활성화를 저장하는 데 필요한 메모리 사용량을 절반으로 줄이면서 최대 컴퓨팅 처리량을 효과적으로 두 배로 늘립니다[인용: 4, 13]. FP8에서 네이티브로 작동하는 단일 TPU 7x 칩은 BF16에서 작동할 때의 2,307TFLOPS에 비해 최대 컴퓨팅 성능이 4,614TFLOPS입니다[인용: 3, 4].
3D 토러스 토폴로지 및 슈퍼포드 확장
데이터 센터 수준에서 TPU 7x는 Google의 입증된 3D 토러스 상호 연결 토폴로지를 사용합니다[인용: 3]. 이 아키텍처는 각 칩을 X, Y, Z 축을 따라 가장 가까운 이웃에 직접 연결하여 복원력이 있는 3차원 메시를 만듭니다[인용: 3]. 이 메시 내의 통신은 칩당 1.2TB/s (1,200GBps)의 ICI 대역폭으로 지원되어 축당 200GBps의 양방향 통신을 제공합니다[인용: 3].
완전히 실현된 TPU 7x 슈퍼포드는 9,216개의 액체 냉각 칩으로 확장됩니다. 이 구성에서 포드는 총 42.5ExaFlops의 FP8 컴퓨팅 성능을 제공합니다[인용: 8, 10]. 64개 이상의 칩으로 구성된 슬라이스는 모듈식 4x4x4 '큐브'의 칩을 사용하여 구성되므로 단일 호스트 구성에서 대규모 멀티 호스트 환경에 이르기까지 매우 유연한 토폴로지를 사용할 수 있습니다[인용: 3].
TPU 7x는 엄청난 기능을 제공하지만 통합된 특성으로 인해 내재된 절충안이 있었습니다. 3D 토러스 토폴로지는 사전 학습에 필요한 로컬화된 예측 가능한 그라데이션 동기화에 매우 효율적이지만 높은 네트워크 지름을 갖습니다. 예를 들어 3D 토러스의 1,024칩 포드는 최대 네트워크 지름이 16홉입니다[인용: 15, 16]. 토큰을 포드 내 어디에나 있는 전문가 레이어로 빠르게 라우팅해야 하는 MoE 추론 시나리오에서 이 16홉 거리는 허용할 수 없는 all-to-all 테일 지연 시간을 도입합니다[인용: 6, 15, 16]. 또한 임베딩 조회를 잘 수행하는 SparseCore에 귀중한 실리콘 영역을 할당하면 에이전트의 사고 체인 워크플로에 중요한 집단 감소 엔진에 사용할 수 있는 공간이 줄어듭니다[인용: 6, 15]. 업계는 '만능' 가속기의 물리적 한계에 도달했습니다.
전략적 분기: 경제적 및 아키텍처적 요인
7세대에서 8세대로의 TPU 전환은 Google 실리콘 역사상 가장 중요한 아키텍처 전환을 나타냅니다[인용: 9]. Google Cloud Next 2026에서 발표된 TPU 라인의 두 가지 별도 제품군(학습용 TPU 8t와 추론용 TPU 8i)으로의 분기는 향후 10년간 인공지능을 주도할 워크로드가 하드웨어 수준에서 근본적으로 양립할 수 없음을 인정합니다[인용: 1, 2, 17].
이러한 분할은 AI 개발의 경제성과 운영 강도가 서로 다르기 때문에 발생합니다. 프런티어 모델을 학습시키는 것은 자본 집약적이며, 몇 주 또는 몇 달에 걸쳐 지속적으로 컴퓨팅되는 일회성 운영 비용입니다[인용: 9]. 최대 컴퓨팅 밀도, 전례 없는 수직 확장 상호 연결 대역폭, 라인 속도로 멀티모달 데이터 세트를 수집할 수 있는 멀티 페타바이트 통합 메모리 도메인이 필요합니다[인용: 9].
반대로 추론은 사용자 수요에 따라 선형 또는 지수적으로 확장되는 지속적인 운영 비용입니다[인용: 9]. 새로운 '에이전트 시대'에서 AI 모델은 텍스트 블록을 생성하기 위해 다음 토큰을 예측하는 데 그치지 않고 적극적으로 추론하고, 미래 시나리오를 시뮬레이션하고, '상상력'을 통해 반복하고, 외부 API를 호출하고, 지속적인 피드백 루프에서 다른 전문 에이전트의 무리와 상호작용합니다[인용: 5, 7, 15]. 이 동적 기능에는 활성 컨텍스트 창을 저장하기 위한 대량의 메모리와 전문가 라우팅 및 전역 동기화를 위한 매우 낮은 네트워크 지연 시간이 필요합니다[인용: 15, 16].
제품 라인을 분할함으로써 Google은 공급망 깊숙이 하드웨어를 최적화했습니다. TPU 8t는 2015년부터 이어진 파트너십을 통해 Broadcom과 공동 설계했습니다[인용: 9, 17, 18]. 복잡한 고속 SerDes 상호 연결, 고급 패키징, 대규모 네트워킹에 대한 Broadcom의 전문성은 학습 패브릭의 물리적 한계를 뛰어넘는 데 이상적인 파트너가 되었습니다[인용: 17, 19].
추론 칩의 경우 Google은 전통을 깨고 MediaTek과 협력하여 TPU 8i를 설계했습니다[인용: 9, 17, 18]. Google은 전력 효율적이고 대량의 모바일 SoC 설계에 관한 MediaTek의 심도 있는 전문 지식을 활용하여 비용이 매우 최적화된 추론 가속기를 만들었습니다[인용: 17, 19]. TPU 8i는 기존 고성능 변형보다 생산 비용이 20~30% 저렴한 더 간단한 설계 (8t의 2개 컴퓨팅 다이와 비교)를 활용하여 Google이 엔터프라이즈 및 소비자 애플리케이션의 요구사항을 충족하기 위해 글로벌 서비스 용량을 경제적으로 확장할 수 있습니다[인용: 9, 17]. 두 칩 모두 TSMC의 고급 2나노미터 프로세스 노드에서 제작되며 최첨단 CoWoS 고급 패키징을 통합하여 로직 다이를 높은 HBM 스택과 통합합니다[인용: 9, 19].
이 양분된 전략에 대한 시장 검증은 즉각적이었습니다. 선도적인 AI 연구 조직인 Anthropic은 Google Cloud와의 수십억 달러 규모의 계약을 확대하여 2027년까지 3.5기가와트의 컴퓨팅 용량을 약속했으며, TPU 7x 및 8세대 플랫폼의 앵커 고객 역할을 하고 있습니다[인용: 9, 10, 20].
심층 분석: TPU 8t (사전 학습의 강자)
TPU 8t는 수조 개의 파라미터가 있는 최첨단 모델의 개발 주기를 몇 달에서 몇 주로 단축하기 위한 타협 없는 엔지니어링 성과입니다[인용: 5, 21]. 이는 원시 클럭 속도를 높이는 것뿐만 아니라 수학 연산의 정밀도를 재구성하고, 칩 간 대역폭을 크게 확장하고, 대규모 학습 클러스터를 괴롭히는 심각한 데이터 수집 병목 현상을 완화하여 달성됩니다[인용: 6, 15].
듀얼 다이 컴퓨팅 아키텍처 및 네이티브 FP4
물리적으로 TPU 8t는 12개의 HBM3E 메모리 스택 8개로 둘러싸인 2개의 컴퓨팅 다이와 1개의 I/O 칩렛으로 구성된 매우 복잡한 아키텍처를 활용합니다[인용: 9]. 이러한 고밀도 패키징에는 Google의 4세대 액체 냉각을 사용하여 지속적인 매트릭스 작업으로 생성되는 엄청난 열을 소산하는 고급 열 관리가 필요합니다[인용: 7, 17, 22].
TPU 8t의 기본적인 발전은 네이티브 4비트 부동 소수점 (FP4) 정밀도 도입입니다[인용: 6, 15]. 사전 학습의 수학적 요구사항은 극단적인 수치 정밀도보다 처리량을 훨씬 더 선호합니다. TPU 8t는 FP8에서 FP4로 네이티브 실행을 드롭하여 MXU의 처리량을 효과적으로 두 배로 늘리면서 동시에 파라미터당 다이를 통해 물리적으로 이동해야 하는 비트 수를 절반으로 줄입니다[인용: 6, 15]. 데이터 이동이 크게 줄어들면 에너지 집약적인 메모리 가져오기가 최소화되고 더 큰 모델 레이어가 로컬 하드웨어 버퍼에 편안하게 맞을 수 있습니다[인용: 6, 15].
칩이 포화 상태를 유지하도록 TPU 8t는 더 균형 잡힌 벡터 처리 단위 (VPU) 확장 기능을 구현합니다. 이를 통해 실리콘은 양자화, 소프트맥스, 레이어 정규화와 같은 필수 순차 작업을 MXU에서 발생하는 대규모 행렬 곱셈과 중첩하여 컴퓨팅 코어가 유휴 상태로 있는 노출된 비행렬 시간을 사실상 제거할 수 있습니다[인용: 6, 15]. 이러한 아키텍처 최적화의 결과로 단일 TPU 8t 칩은 놀라운 12.6PFLOP의 FP4 컴퓨팅 성능을 제공합니다[인용: 15, 23].
또한 추론에 중점을 둔 형제와 달리 TPU 8t는 이전 세대에서 도입된 특수 SparseCore 블록을 유지합니다[인용: 1, 6, 15]. 멀티모달 기본 모델과 추천 시스템에서 흔히 볼 수 있는 임베딩 중심 워크로드는 기존 GPU를 마비시키는 불규칙한 메모리 액세스 패턴을 보여줍니다. SparseCore는 비동기식으로 작동하여 데이터 종속 all-gather 작업을 오프로드하고 임베딩 조회를 실행합니다[인용: 6, 15]. 조밀 행렬 수학을 MXU로, 희소 연산을 SparseCore로 분리함으로써 TPU 8t는 계산 정체를 유발하는 '제로 연산' 병목 현상을 방지합니다[인용: 6, 15].
대역폭, 스토리지 수집, TPUDirect
FP4에서 작동하는 대규모로 가속화된 MXU를 공급하려면 TPU 8t에 극단적인 로컬 및 집계 대역폭이 필요합니다. 각 칩에는 6,528GB/s로 작동하는 HBM3e가 216GB 있습니다[인용: 15, 24]. 하지만 최첨단 모델의 규모에서는 시스템 제약 조건이 실리콘의 처리 속도에서 데이터 센터가 콜드 스토리지에서 페타바이트 단위의 학습 데이터를 수집할 수 있는 속도로 바뀌는 경우가 많습니다.
기존 데이터 경로 병목 현상을 해결하기 위해 Google은 TPUDirect RDMA와 TPUDirect Storage를 통합했습니다[인용: 5, 6, 10]. 이러한 프로토콜을 사용하면 TPU의 고대역폭 메모리와 Google Cloud Managed Lustre 10T와 같은 관리형 네트워크 스토리지 어레이 간에 직접 메모리 액세스 (DMA)가 가능합니다[인용: 6, 15]. 네트워크 인터페이스 카드 (NIC)를 통해 Lustre 병렬 파일 시스템에서 TPU로 데이터를 바로 라우팅함으로써 TPUDirect는 호스트 CPU와 호스트의 DRAM을 완전히 우회합니다[인용: 6]. 이 특수 데이터 경로는 TPU 7x 세대에서 학습하는 것과 비교해 스토리지 액세스 속도를 10배 높여 TPU 8t 컴퓨팅 단위가 고갈 없이 라인 속도로 멀티모달 데이터 세트를 수집할 수 있도록 합니다[인용: 5, 6, 15].
대규모 인프라: Virgo 네트워크
TPU 8t 생태계의 가장 놀라운 아키텍처적 업적은 네트워킹 기능으로, 시스템 제약 조건을 로컬 컴퓨팅에서 데이터 센터 규모 대역폭으로 확실하게 전환합니다[인용: 25, 26].
TPU 8t는 로컬 포드 통신을 위한 기본 3D 토러스 상호 연결을 유지하여 단일 슈퍼포드에서 최대 9,600개의 칩과 전례 없는 2페타바이트의 공유 HBM으로 확장할 수 있지만 스케일 아웃 패브릭은 완전히 재설계되었습니다[인용: 5, 6, 15]. 슈퍼포드는 총 121엑사플롭의 FP4 컴퓨팅을 달성하여 TPU 7x의 42.5엑사플롭에 비해 2.8배 증가했습니다[인용: 6]. 이를 지원하기 위해 포드 내 ICI 대역폭이 칩당 19.2Tb/s로 두 배 증가했습니다[cite: 4, 6, 10].
하지만 이러한 슈퍼포드를 수백 개 연결하기 위해 Google은 Virgo 네트워크를 구축했습니다[인용: 1, 6]. 이전 네트워크인 Jupiter는 여러 스위치 계층을 통해 트래픽을 라우팅하는 3계층 Clos 토폴로지를 활용하여 지연 시간과 대역폭 병목 현상 (칩당 100Gbps로 제한)을 도입했습니다[인용: 25].
Virgo는 평면 2계층 차단되지 않는 토폴로지를 사용하는 고기수 스위치 (256~512개 포트 관리)에 기반한 스케일 아웃 패브릭입니다[인용: 6, 15, 25]. 네트워크 계층을 물리적으로 잘라내어 Virgo는 지연 시간을 크게 줄입니다. 이 네트워크는 독립적인 제어 도메인이 있는 다중 평면 설계를 활용하여 원시 데이터 센터 네트워크(DCN) 대역폭을 최대 400% (4배)까지 늘려 칩당 400Gbps로 이동합니다[인용: 6, 15, 24].
단일 Virgo 패브릭은 단일 데이터 센터 시설 내에서 134,000개가 넘는 TPU 8t 칩을 연결하여 초당 47페타비트의 차단되지 않는 이등분 대역폭을 제공할 수 있습니다[인용: 1, 6, 15]. 또한 Google의 Pathways 소프트웨어 및 JAX 프레임워크와 통합된 TPU 8t를 사용하면 분산 학습 클러스터가 여러 지리적 위치에서 100만 개 이상의 칩으로 단일 논리적 학습 작업으로 확장될 수 있습니다[인용: 1, 6, 15]. 이러한 성과로 인해 전 세계에 분산된 인프라가 단일의 원활한 슈퍼컴퓨터로 변환되어 현재 범용 GPU 확장 제한을 크게 능가합니다[인용: 27].
자율 재구성 및 97% 처리량
수십만 개의 칩 규모에서는 트랜시버 고장에서 열 제한에 이르기까지 하드웨어 오류가 특이 사례가 아닌 통계적 확실성이 됩니다. 기존 시스템에서는 단일 네트워크 정체로 대규모 학습 실행이 중단되어 이전 체크포인트로의 번거롭고 비용이 많이 드는 롤백이 필요할 수 있습니다. 최첨단 규모에서는 효율성 손실이 1%만 발생해도 실제 학습 시간이 며칠이나 늘어납니다[인용: 5, 6].
TPU 8t 생태계는 유용하고 생산적인 컴퓨팅 시간의 비율을 총 가동 시간에 대한 비율로 정의하는 측정항목인 'goodput'을 97% 이상으로 타겟팅합니다[인용: 6, 28]. 이는 광 회로 스위칭 (OCS)을 기반으로 하는 고급 신뢰성, 가용성, 서비스 가능성 (RAS) 기능을 통해 달성됩니다[인용: 5, 6, 25]. 수만 개의 칩을 분석하는 실시간 원격 분석을 통해 시스템은 결함이 있는 칩 간 상호 연결 링크를 자율적으로 감지할 수 있습니다. OCS는 광 경로를 물리적으로 재라우팅하여 실시간으로 하드웨어 장애를 우회하므로 사람의 개입이 필요하지 않으며 중요한 점은 활성 학습 작업을 중단하지 않는다는 것입니다[인용: 5, 6, 28].
심층 분석: TPU 8i (추론 엔진)
TPU 8t가 극단적인 무차별 대입식 확장이라면 TPU 8i는 지연 시간 최적화 및 메모리 아키텍처의 마스터 클래스입니다[인용: 6]. 모델이 실시간 프로덕션, 특히 대규모 Mixture-of-Experts (MoE) 모델 및 에이전트 스웜으로 전환됨에 따라 원시 컴퓨팅 처리량은 메모리에 액세스하고 네트워크를 통해 라우팅할 수 있는 속도보다 덜 관련성이 있습니다[인용: 21, 29].
추론 메모리 벽 허물기
자동 회귀 생성에서 모델은 출력 토큰을 순차적으로 생성합니다. 새로 생성된 각 토큰을 사용하면 모델은 키-값 (KV) 캐시라고 하는 모든 이전 토큰과 그 수학적 관계의 증가하는 기록을 참조해야 합니다 [인용: 1, 13]. 수십만 개의 토큰을 분석하는 긴 컨텍스트 모델의 경우 이 KV 캐시의 크기가 커집니다. 캐시가 칩의 빠른 온보드 메모리 용량을 초과하여 느린 호스트 CPU 메모리로 넘쳐나면 전체 계산 프로세스가 중단됩니다. 이 현상은 '메모리 벽'으로 널리 알려져 있습니다[인용: 5, 8].
TPU 8i는 이 장벽을 없애기 위해 명시적으로 제작되었습니다. 단일 컴퓨팅 다이와 6개의 HBM3e 스택이 있는 하나의 I/O 다이를 사용하는 더 간단하고 비용 효율적인 실리콘 설계이지만 메모리 용량은 서빙에 맞게 크게 최적화되어 있습니다[인용: 9]. * HBM 용량 및 대역폭: 각 TPU 8i에는 288GB의 HBM3E가 장착되어 있으며 이는 TPU 7x에 비해 용량이 50% 증가한 것입니다[인용: 5, 24, 30]. 더 중요한 점은 대규모 MoE 모델이 추론 중에 메모리 대역폭에 제한되므로 메모리 대역폭이 8.6TB/s (~8,601GB/s)로 푸시된다는 것입니다. 이는 학습 중심 TPU 8t보다 약 1.3배 빠른 속도입니다[인용: 10, 15]. * 대규모 온칩 SRAM: 가장 중요한 하드웨어 변화는 칩당 384MB의 온칩 정적 랜덤 액세스 메모리 (SRAM)가 포함된다는 것입니다[cite: 10, 15, 30]. 이는 TPU 7x 및 TPU 8t에 비해 300% (3배)나 증가한 수치입니다[인용: 10, 15, 30]. SRAM은 실리콘 매트릭스에서 직접 사용할 수 있는 가장 빠르고 지연 시간이 가장 짧은 메모리입니다. 이 용량을 3배로 늘림으로써 TPU 8i는 대규모 KV 캐시를 완전히 다이에 호스팅할 수 있습니다[인용: 15, 16]. 이렇게 하면 토큰 기록이 느린 메모리 계층에서 가져오는 동안 처리 코어가 유휴 상태가 되지 않아 높은 동시성 추론 루프가 전례 없는 유연성으로 작동할 수 있습니다[인용: 5, 15].
Collectives Acceleration Engine (CAE)
TPU 8i는 추론을 타겟팅하므로 임베딩 조회를 위해 7x 및 8t에서 사용된 SparseCore 유닛은 이 특정 워크로드에 대해 실리콘 부동산을 비효율적으로 사용하는 것으로 간주되었습니다. 대신 Google 엔지니어는 Collectives Acceleration Engine (CAE)이라는 독점 하드웨어 블록을 도입했습니다[인용: 10, 15].
자기 회귀 디코딩 및 '생각의 사슬' 처리 중에 서로 다른 코어는 칩 전체에서 수학적 결과를 합산하고, 축소하고, 동기화하기 위해 개별 계산을 자주 일시중지해야 합니다 [인용: 6, 15]. 이러한 전역 동기화 작업은 특히 수천 개의 독립 에이전트가 동시에 문제에 몰려들 때 지연 시간을 심각하게 병목 현상으로 만들 수 있습니다.
각 TPU 8i 칩의 경우 두 개의 TensorCore가 코어 다이에 있으며, 칩렛 다이에 있는 하나의 CAE가 이를 지원합니다 (TPU 7x에 있는 4개의 SparseCore 대체) [인용: 6, 15]. 특수 CAE는 지연 시간이 거의 없는 코어 전반의 결과를 집계하도록 설계되어 TPU 7x 세대에 비해 온칩 집단 지연 시간이 5배나 줄어듭니다[인용: 10, 15]. 에이전트형 워크플로를 지배하는 감소 단계를 하드웨어로 가속화함으로써 CAE는 실시간 응답성을 희생하지 않고 시스템이 높은 처리량을 유지하도록 합니다 [인용: 6, 15].
네트워크 플래트닝: 보드플라이 토폴로지
TPU 8i의 특징은 3D 토러스 토폴로지를 완전히 포기했다는 점입니다. 3D 토러스는 사전 학습에 필요한 이웃 간 데이터 전달에 탁월하지만, MoE 추론 모델에 필요한 전체 토큰 라우팅에는 허용할 수 없을 정도로 긴 물리적 거리(네트워크 홉으로 측정)가 발생합니다[인용: 2, 15]. MoE 아키텍처에서는 특정 토큰을 포드 내 완전히 다른 칩에 있는 특정 '전문가' 레이어로 라우팅해야 할 수 있습니다. 기존 토러스에서는 이 데이터 패킷이 중간 칩을 순차적으로 통과하여 대상에 도달해야 합니다.
이 문제를 해결하기 위해 Google은 보드플라이(Boardfly)라는 새로운 서빙 최적화 네트워킹 아키텍처를 설계했습니다[인용: 15, 31]. 보드플라이는 드래곤플라이 토폴로지 원칙에서 영감을 받아 아키텍처를 과감하게 평탄화하고 두 칩 간의 물리적 거리를 최소화하도록 설계된 계층적 고기수 네트워크입니다[인용: 2, 15, 26].
Boardfly 토폴로지는 계층적으로 빌드됩니다. 1. 구성 요소: 완전히 연결된 4개의 TPU 8i 칩은 내부 ICI 링크를 사용하여 기본 구성 요소를 형성합니다[인용: 6, 16]. 2. 보드: 8개의 빌딩 블록이 직접 구리 케이블을 통해 완전히 연결되어 단일 보드를 형성합니다[인용: 6, 16]. 3. 포드: 36개 그룹은 광학 회로 스위치와 직접 광학 장거리 링크를 통해 완전히 상호 연결되어 1,152개 칩의 통합 포드를 형성합니다[인용: 5, 6, 16, 32].
이 접근 방식의 지연 시간 이점은 매우 큽니다. 표준 1,024칩 3D 토러스 구성에서 데이터 패킷은 최대 네트워크 지름인 16홉을 통과해야 할 수 있습니다[인용: 15, 25]. Boardfly 토폴로지에서 이 최대 네트워크 지름은 7홉으로 축소됩니다[cite: 15, 25].
네트워크 지름이 56% 감소하면 통신 집약적인 추론 워크로드의 테일 지연 시간이 50% 나 개선됩니다[인용: 16, 25, 30]. 추론은 궁극적으로 가장 느린 노드의 속도에 의해 제한됩니다. Boardfly 토폴로지는 테일 지연 시간을 줄여 토큰 데이터가 포드를 통과하는 동안 CAE가 유휴 상태로 남아 있지 않도록 합니다[인용: 6, 15].
또한 응집력이 높은 광학 상호 연결 덕분에 단일 1,152칩 TPU 8i 포드는 일관된 HBM 331.8TB의 대규모 통합 공유 메모리 도메인으로 작동합니다[인용: 16].
비교 성능, 경제성, 시스템 인프라
아키텍처 분기화는 컴퓨팅 경제성과 에너지 효율성을 모두 크게 개선합니다. 최대 이론적 부동 소수점 연산만으로 하드웨어를 평가하면 데이터 센터 운영 및 소프트웨어 지원의 시스템적 현실을 무시하게 됩니다.
소프트웨어 추상화 및 프레임워크 지원
기본 하드웨어는 다르지만 Google은 프레임워크 종속을 방지하기 위해 통합된 성능 우선 AI 소프트웨어 스택을 유지하는 데 많은 투자를 했습니다. TPU 8t와 8i 모두 JAX, Keras, MaxText, SGLang, vLLM 엔진을 기본적으로 지원합니다[인용: 5, 8, 14, 17]. 또한 기본 PyTorch 지원 (TorchTPU를 통해)을 통해 개발자는 Eager Mode와 같은 기본 기능을 완전히 지원하여 기존 PyTorch 모델을 TPU 환경으로 직접 포팅할 수 있습니다[인용: 15, 17].
내부적으로는 가속화된 선형 대수학 (XLA) 컴파일러가 Boardfly 토폴로지 및 CAE 동기화의 복잡한 변환을 처리하므로 개발자는 광학 상호 연결을 수동으로 프로그래밍하지 않고도 Python에서 하드웨어 인식 맞춤 커널을 작성할 수 있습니다 (Pallas 및 Mosaic 사용) [인용: 15].
정량적 실적 측정항목
아래 표에는 통합 TPU 7x와 고도로 전문화된 TPU 8t 및 8i 아키텍처의 핵심 기술 사양이 요약되어 있습니다[인용: 3, 15, 24].
| 사양 매트릭스 | TPU 7x | TPU 8t | TPU 8i |
|---|---|---|---|
| 기본 워크로드 | 통합 (학습 및 추론) | 대규모 사전 학습 | 지연 시간에 민감한 추론 |
| ASIC 설계 파트너 | Broadcom | Broadcom | MediaTek |
| 네트워크 토폴로지 | 3D 토러스 | 3D 토러스 + Virgo 스케일 아웃 | 보드플라이 (잠자리에서 영감을 받음) |
| 특수 하드웨어 | SparseCore | SparseCore | Collectives Acceleration Engine (CAE) |
| 네이티브 정밀 초점 | FP8 | FP4 | FP4 (FP8/INT8 지원) |
| 칩당 최고 컴퓨팅 | 4.6PFLOP (FP8) | 12.6 PFLOPs (FP4) | 10.1 PFLOPs (FP4) |
| 칩당 HBM 용량 | 192GB | 216 GB | 288 GB |
| HBM 대역폭 | 7.37 TB/s | 6.52 TB/s | 8.60 TB/s |
| 온칩 SRAM (VMEM) | 128MB | 128MB | 384MB |
| 칩 간 BW (수직 확장) | 9.6Tbps | 19.2Tbps | 19.2Tbps |
| 최대 Pod/Superpod 크기 | 9,216개 칩 | 9,600개 칩 | 칩 1,152개 |
비용-성능 및 TCO 최적화
Google은 8세대에서 총소유비용 (TCO)이 크게 개선되었다고 주장합니다. TPU 8t는 대규모 학습에서 TPU 7x에 비해 달러당 성능이 170~180% 향상되어 2.7~2.8배 개선되었습니다 [인용: 6, 15, 30]. 한편 TPU 8i는 특히 대규모 MoE 모델에 필요한 지연 시간이 짧은 타겟에서 추론을 위한 달러당 성능이 80% 향상되었습니다[인용: 15, 16, 30].
이러한 경제적 이점은 실리콘뿐만 아니라 풀 스택 시스템 통합에 의해 발생합니다. 이전에는 TPU가 시판 x86 호스트 CPU와 페어링되었습니다. 집중적인 데이터 전처리 또는 복잡한 에이전트형 로직이 필요한 상황에서 x86 호스트는 시스템의 병목 현상을 자주 일으켜 초고속 TPU 실리콘 칩이 유휴 상태로 유지되지만 데이터가 부족해집니다[인용: 6, 7].
8세대에서는 8t와 8i를 모두 Google의 맞춤 Axion ARM 기반 프로세서에서 독점적으로 호스팅하여 이 만성적인 불균형을 바로잡습니다[인용: 6, 7, 15]. Neoverse N3 Armv9.2 코어 아키텍처를 기반으로 빌드된 Axion 호스트는 통합되고 고도로 최적화된 기반을 제공합니다[인용: 18, 19]. 추론 중심의 TPU 8i의 경우 Google은 TPU 대 CPU 비율을 2:1로 하여 Axion 호스트를 통합하여 TPU 7x에 비해 서버당 물리적 CPU 호스트를 두 배로 늘렸습니다[인용: 5, 6, 32]. 워크로드 격리를 위해 엄격한 비균일 메모리 액세스 (NUMA) 아키텍처를 활용하는 이 시스템은 우수한 메모리 지역성을 보장하고 데이터 준비 병목 현상을 완전히 제거합니다[인용: 5, 7].
에너지 효율 및 시장 영향
에너지 밀도와 전력 가용성은 현대 데이터 센터 배포에서 빠르게 궁극적인 제약 조건이 되고 있습니다. 4세대 액체 냉각과 특정 워크로드 단계 (예: 활성 컴퓨팅과 통신을 위한 유휴 상태)에 따라 전력 소비를 동적으로 조정하는 통합 실시간 전력 관리를 통해 TPU 8t와 8i는 모두 놀라운 전력 효율성을 달성합니다[인용: 7, 15, 22, 24]. 8t는 와트당 성능이 124% 향상되었고 8i는 117% 향상되어 TPU 7x에 비해 에너지 효율성이 전반적으로 2배 (100%이상) 향상되었습니다[인용: 15, 22, 30].
이러한 효율성의 영향은 Google의 최첨단 모델에서 분명하게 드러납니다. Gemini 3.1 Pro 미리보기의 벤치마크에 따르면 TPU 8i 아키텍처에 모델을 배포하면 추론 API의 비용이 약 50% 절감되고 응답성과 긴 컨텍스트 처리 기능이 크게 개선됩니다[인용: 24, 30].
경쟁 환경: Google 대 판매자 실리콘
실리콘 전략을 이원화하려는 Google의 결정은 광범위한 인공지능 하드웨어 생태계, 특히 Nvidia와 같은 상업용 실리콘 공급업체 및 AMD와 AWS (Trainium3 플랫폼 포함)와의 지속적인 경쟁에 심오한 영향을 미칩니다[인용: 17, 23].
Nvidia는 블랙웰 B200 및 베라 루빈 NVL72와 같은 고성능 범용 플랫폼을 활용하여 사전 학습과 실시간 추론을 모두 처리하는 통합 아키텍처 전략을 유지해 왔습니다[인용: 2, 9]. 원시 단일 칩 사양의 관점에서만 보면 Nvidia가 특정 이점을 유지합니다. 예를 들어 Nvidia의 NVLink 기술은 14.4Tb/s의 단일 기기 상호 연결 대역폭을 지원하며 개별 Rubin GPU는 약 50PFLOP의 NVFP4 추론 컴퓨팅을 제공합니다. 이는 TPU 8i의 10.1PFLOP보다 훨씬 높은 수치입니다[인용: 2, 9].
하지만 Google의 아키텍처는 인공지능의 미래가 단일 칩의 최고 성능이 아닌 클러스터 규모 효율성에 달려 있다는 확신에 기반합니다[인용: 9].
Google은 Boardfly 토폴로지로 전환하여 TPU 8i 포드 내의 모든 1,152개 칩에서 완전히 일관된 공유 메모리 풀을 만듭니다[인용: 16]. 그 결과 집계 포드 용량은 11.6 FP8 ExaFlops와 331.8TB의 통합되고 일관된 HBM이 됩니다[인용: 6, 16]. 반대로 NVL72의 표준 Nvidia GPU 랙 규모 일관성은 GPU 72개와 약 20.7TB의 HBM에서 최고조에 달합니다[인용: 2, 16]. 범용 GPU를 1,152개 칩 구성에 맞게 확장하려면 약 16개의 별도 랙을 연결해야 합니다[인용: 16]. 이러한 물리적 분리로 인해 진정한 메모리 일관성이 깨지고 연속적인 긴 컨텍스트 에이전트 추론에 치명적인 심각한 지연 시간 페널티가 발생합니다[인용: 16].
또한 보드플라이 계층 구조를 지원하기 위해 스택에서 광회선 교환 (OCS)을 아래로 이동함으로써 Google은 광 네트워킹 공급망을 근본적으로 변경하여 Lumentum 및 Coherent와 같은 공급업체로부터 특수 트랜시버 및 레이저에 대한 대규모 다운스트림 수요를 창출하고 있습니다[인용: 26].
궁극적으로 Google의 설계 철학은 2020년대 후반의 실제 전장은 단일 실리콘 다이의 최대 수학적 처리량이 아니라 메모리 장벽을 우회하고, 사이트 간 상호 연결을 빠르게 확장하고, 수십억 명의 사용자에게 실시간 에이전트 스웜을 배포하는 절대적인 토큰당 비용 경제성을 낮추는 능력에 의해 결정된다고 가정합니다[인용: 6, 16, 17].
결론
TPU 7x의 통합 프레임워크에서 TPU 8t 및 TPU 8i의 고도로 전문화된 이분법으로 이어지는 Google Cloud의 Tensor Processing Unit의 궤적은 인공지능 워크로드의 성숙과 산업화를 반영합니다. 초기 딥 러닝 붐의 기반이 되었던 범용 통합 실리콘은 더 이상 에이전트 시대의 극단적인 마진에서 요구되는 경제성이나 성능을 제공하지 않습니다.
TPU 8t는 타협하지 않는 확장 추구를 나타냅니다. SparseCore 유지, MXU 처리량을 두 배로 늘리는 네이티브 FP4 정밀도 구현, Virgo 네트워크 및 TPUDirect Storage의 스테거링 기능을 통해 이전에는 불가능하다고 생각했던 양의 데이터를 수집하고 처리하도록 설계되었습니다. 이를 통해 최신 데이터 센터의 스케일 아웃 대역폭 제약이 효과적으로 중화되어 수백만 개의 칩이 전 세계에 분산된 단일 사전 학습 엔진으로 작동할 수 있습니다.
반대로 TPU 8i는 지연 시간 제거와 경제적 효율성을 위한 연습입니다. 계층적 Boardfly 토폴로지를 선호하여 3D 토러스를 포기하고, 온다이 SRAM을 384MB로 3배 늘리고, 자기 회귀 동기화를 가속화하는 Collectives Acceleration Engine을 도입함으로써 TPU 8i는 추론 메모리 벽을 체계적으로 해체합니다. 복잡한 다단계 에이전트 추론에 필요한 대규모 KV 캐시가 현지화되어 거의 제로에 가까운 지연 시간으로 액세스할 수 있도록 보장하는 동시에 간소화된 로직 설계를 통해 프로덕션 비용을 절감합니다.
완전히 통합된 ARM 기반 Axion CPU에서 호스팅되고 자율 광회선 교환으로 관리되는 8세대 분기형 아키텍처는 하이퍼스케일 인프라의 새로운 패러다임을 확립합니다. 이는 인공지능의 미래에는 더 빠른 칩뿐만 아니라 제공할 고유한 워크로드에 맞게 정확하게 공동 설계된 근본적으로 다른 하드웨어 프레임워크가 필요하다는 명확한 아키텍처적 선언입니다.
출처: 1. moorinsightsstrategy.com 2. thenewstack.io 3. google.com 4. dev.to 5. blog.google 6. i-scoop.eu 7. kad8.com 8. google.com 9. thenextweb.com 10. medium.com 11. introl.com 12. dev.to 13. google.com 14. google.dev 15. 링크 16. io-fund.com 17. hyperframeresearch.com 18. wccftech.com 19. letsdatascience.com 20. youtube.com 21. techzine.eu 22. itpro.com 23. tomshardware.com 24. reddit.com 25. substack.com 26. substack.com 27. google.com 28. techtarget.com 29. thediligencestack.com 30. reddit.com 31. wandb.ai 32. servethehome.com