구글 클라우드(Google Cloud)가 자사 커스텀 AI 칩셋인 TPU(Tensor Processing Unit)의 8세대 라인업을 발표했습니다. 이번 발표의 핵심은 워크로드의 특성에 따라 칩셋을 모델 학습용인 'TPU 8t'와 추론 전용인 'TPU 8i'로 이원화했다는 점입니다.
"8세대 TPU는 이전 세대 대비 최대 3배 빠른 학습 속도와 80% 향상된 달러당 성능을 제공하며, 단일 클러스터에서 100만 개 이상의 TPU를 연동할 수 있는 확장성을 갖췄습니다."
1. TPU 8t vs TPU 8i: 워크로드 최적화 전략
그동안 범용적으로 사용되던 가속기 시장에서 구글은 '학습(Training)'과 '추론(Inference)'이라는 두 마리 토끼를 잡기 위해 설계를 분리했습니다.
- TPU 8t (Training): 대규모 언어 모델(LLM)의 가중치를 계산하기 위한 고대역폭 메모리(HBM)와 연산 처리 능력에 집중했습니다.
- TPU 8i (Inference): 모델 배포 후 실시간 응답 속도와 전력 효율성을 극대화하여 운영 비용(OPEX)을 절감하는 데 최적화되었습니다.
2. 엔비디아(Nvidia)와의 공생 및 네트워킹 혁신
구글은 자사 칩셋을 강화하는 동시에 엔비디아와의 협력도 공고히 하고 있습니다. 올해 말 엔비디아의 차세대 칩인 Vera Rubin을 구글 클라우드 인프라에 도입할 예정이며, 특히 주목할 점은 'Falcon'이라 불리는 오픈소스 기반 네트워킹 기술입니다.
Falcon은 구글이 주도하여 Open Compute Project(OCP)에 기부한 소프트웨어 정의 네트워킹(SDN) 기술로, 엔비디아 시스템이 구글 클라우드 환경 내에서 더욱 효율적으로 작동하도록 돕는 핵심 가교 역할을 수행합니다.
시니어 아키텍트 관점에서 이번 발표는 하이퍼스케일러들이 직면한 TCO(총 소유 비용) 절감과 확장성(Scalability) 문제를 어떻게 해결하고 있는지를 극명하게 보여줍니다.
- 인프라 수직 계열화: 구글은 TPU를 통해 하드웨어부터 소프트웨어 스택까지 수직 계열화함으로써 엔비디아 의존도를 낮추고 자사 AI 모델(Gemini 등)에 최적화된 런타임을 제공하고 있습니다.
- 클러스터링 기술의 정점: 100만 개 이상의 칩을 하나의 클러스터로 묶는 기술은 단순한 연산 성능을 넘어 Optical Circuit Switching(OCS) 및 고도화된 패브릭 토폴로지가 뒷받침되어야 가능합니다. 이는 데이터센터 수준의 분산 컴퓨팅 설계 역량을 입증합니다.
- Falcon 프로토콜의 중요성: 대규모 AI 학습에서 병목은 개별 칩의 성능보다 '칩 간 통신(Interconnect)'에서 발생합니다. Falcon을 통한 네트워킹 최적화는 멀티 테넌트 클라우드 환경에서 GPU/TPU의 성능 손실을 최소화하려는 전략적 선택입니다.
결론적으로, 구글은 엔비디아를 완전히 대체하기보다는 특정 워크로드(In-house LLM 학습 및 대규모 추론 서비스)에서는 TPU를, 범용적인 마켓플레이스 수요에는 엔비디아를 제공하는 'Dual-Track' 전략을 더욱 가속화할 것으로 보입니다.
원문 출처: Google Cloud launches two new AI chips to compete with Nvidia
댓글
댓글 쓰기