이틀 전 라스베이거스에서 열린 구글 클라우드 Next '26에서 8세대 TPU 두 종이 공개됐다. 학습 전용 TPU 8t, 추론 전용 TPU 8i. 하나의 칩이 다 하던 시대를 구글 스스로 끊어버린 것이다. 이 소식을 가장 흥미롭게 봤을 한국 기업이 하나 있다.
2월의 깜짝 카드
정신아 카카오 대표가 올해 2월 4분기 실적 설명회에서 꺼낸 발표는 시장의 허를 찔렀다. 구글과 전략적 파트너십을 맺고 자사 데이터센터에 텐서처리장치를 들여와 'TPU 클라우드'를 운영하겠다는 것. 안산 데이터센터에 열복도 밀폐시스템까지 갖추면서 엔비디아 B200 칩 2,424장을 깔아놓은 회사가, 같은 자리에서 "고가 칩 수급에만 의존하지 않겠다"고 선언했다.
반응은 미지근했다. 구글의 전용 칩은 내부와 앤트로픽·애플 같은 소수 빅플레이어의 전유물이지 한국 기업이 자체 인프라에 넣을 물건은 아니라는 인식이 강했다. 그 판단이 이틀 전부터 흔들리기 시작했다.
TPU 8t/8i — 숫자가 말하는 것
구글이 8세대 칩을 학습과 추론으로 완전히 분리한 건 역대 처음이다. 두 칩의 스펙을 한번 놓고 보면 카카오가 왜 웃을 수밖에 없는지 드러난다.
| TPU 8t (학습) | TPU 8i (추론) | |
|---|---|---|
| 슈퍼팟 최대 규모 | 칩 9,600개 | — |
| FP4 연산 성능 | 121 엑사플롭스/팟 | — |
| HBM | — | 288GB |
| 온칩 SRAM | — | 384MB (이전 세대 3배) |
| 아이언우드 대비 성능/와트 | 2배 | 2배 |
| 아이언우드 대비 비용 효율 | — | 80% 개선 |
TPU 8t의 121 엑사플롭스는 대형 모델을 훈련시키는 하이퍼스케일러에게 의미 있는 숫자다. 하지만 카카오에게 더 중요한 건 오른쪽 열이다. 추론 전용 TPU 8i는 같은 비용으로 거의 두 배 많은 요청을 처리할 수 있다. 카카오톡, 카카오맵, 카카오T 같은 서비스의 AI 기능은 거대 모델 훈련이 아니라 수천만 사용자의 실시간 추론이 핵심이다. 추론 비용이 절반 가까이 떨어지면, 지금은 일부 트래픽에만 모델을 태우던 기능들을 전체 사용자에게 확장할 수 있게 된다.
네이버는 다른 길을 택했다
같은 시기, 네이버는 크래프톤·미래에셋과 함께 인도 뉴델리에서 최대 1조원 규모의 '유니콘 그로스 펀드'를 발족했다. 조마토와 그랩에 투자했던 아시아 그로스 펀드의 후속으로, AI·핀테크·콘텐츠 분야 고성장 기업에 베팅한다. 네이버는 하이퍼클로바X를 직접 훈련시키는 위치에 있으니 대규모 학습 칩이 절실하고, 현재로선 엔비디아 라인을 유지하면서 시장 다각화로 리스크를 분산하는 전략이다. 인프라 다각화(카카오) 대 시장 다각화(네이버) — 같은 문제에 대한 정반대 해법이 흥미롭다.
장밋빛만은 아니다
카카오의 베팅에 리스크가 없는 건 아니다.
한국 ML 엔지니어 대다수는 PyTorch로 일한다. 구글 전용 칩 생태계는 JAX와 XLA 기반이고, 이 전환 비용이 만만치 않다. 프레임워크 호환성 문제를 카카오 내부에서 얼마나 빨리 해결하느냐가 실제 채택 속도를 좌우할 것이다. 구글이 PyTorch/XLA 브릿지를 밀고 있지만, 프로덕션 수준의 안정성까지는 아직 거리가 있다는 평가도 있다.
그리고 이 파트너십의 범위가 단순 인프라를 넘어선다는 점도 주목할 필요가 있다. 구글 안드로이드 팀과의 온디바이스 AI 협업, 차세대 AI 글래스 서비스 연동까지 포함돼 있다. 카카오가 구글 생태계에 깊이 들어갈수록, 빠져나오기는 어려워진다. 이건 다각화인 동시에 새로운 종속이 될 수도 있다.
한 가지는 분명해졌다. "칩을 더 사면 된다"는 단순 공식이 한국 AI 인프라에서도 유효기간을 다하고 있다. 구글이 학습과 추론을 분리한 그 날, 선택지의 지형 자체가 바뀌었다.