TPU · MTIA · Trainium — 하이퍼스케일러 3대 Custom ASIC 심층 비교
Google TPU v7 · Meta MTIA v2 · AWS Trainium 3 — 누가 NVDA의 가장 큰 위협인가
TPU · MTIA · Trainium — 하이퍼스케일러 3대 Custom ASIC 심층 비교
"Google TPU v7 · Meta MTIA v2 · AWS Trainium 3 — 누가 NVDA의 가장 큰 위협인가"
도입: 세 가지 질문
질문 1. 2026년 4월 Meta가 Broadcom(AVGO)에 1GW 규모 커스텀 칩 계약을 확정. 왜 Meta는 NVIDIA Blackwell을 사지 않고 직접 칩을 설계하기로 했는가?
질문 2. Google TPU v7 (Ironwood)는 2025년 11월 공개 시점에 "Nvidia Blackwell GB200을 추론 성능에서 능가한다"고 발표. Google이 10년 7세대 반복한 이 칩이 진짜 NVDA 해자를 뚫을 수 있는가?
질문 3. 2028년까지 Custom ASIC 점유율이 15%→30%로 두 배 커지면 수혜는 누구에게? Broadcom(AVGO)인가, Marvell(MRVL)인가, TSMC(TSM)인가?
Quick Glossary
일상 비유:
- ASIC = 파스타 전용 국수 기계 (범용 오븐보다 훨씬 빠름)
- Systolic Array = 공장 컨베이어 벨트
- HBM = 책장을 수직으로 쌓아 사다리 없이 손닿는 거리
- Interconnect = 수천 명 실시간 화상회의
1절. Google TPU — 10년 여정 (v1 2016 → v7 2026)
1-1. 왜 Google이 세계 최초 ASIC
2013년 Google 분석: "사용자가 음성 검색을 하루 3분씩만 더 쓰면 전체 데이터센터 용량 2배 필요". CPU 너무 느림, GPU Nvidia 의존.
AI 핵심 연산은 행렬 곱셈 (전체 90%+). CPU는 반복 연산에 안 맞고, GPU는 비디오·그래픽도 처리해야 해서 낭비 많음. Google은 "행렬 곱셈만 광적으로 잘하는 칩"을 원함.
비유: 만능 셰프(CPU/GPU) vs 피자만 1분에 30판 굽는 자동 오븐(ASIC). AI 작업은 거의 "피자"인데 왜 만능 셰프?
1-2. Systolic Array — TPU 심장부
256명이 격자로 서서 옆 사람에게 숫자를 받아 곱해 다음에게 넘기는 구조. 중앙 통제 없이 데이터가 파도처럼 흐르며 각 교차점에서 자동 곱셈.
작동:
- 왼쪽에서 행렬 A 숫자 한 열씩 유입
- 위에서 행렬 B 숫자 한 행씩 내려옴
- 각 셀에서 곱해서 누적
- 클럭 한 번마다 한 칸 이동
- 격자 채워지면 행렬 곱셈 완료
왜 빠른가: CPU는 곱할 때마다 메모리에서 읽고 쓰기 반복. Systolic Array는 숫자 한 번 읽어서 수백 번 재사용. 메모리 접근은 전력 90%를 쓰는 병목인데 이걸 줄임.
규모: TPU v1 256×256 = 65,536개 곱셈기 동시 작동. 700MHz로 돌리면 초당 92조 회 연산 — 당시 GPU 15-30배 효율.
1-3. 세대별 진화
TPU v7 Ironwood 스펙 (2025-11 공개):
- 성능: 4,614 FP8 TFLOPS (v5p 대비 10배)
- 메모리: 192GB HBM3E, 7.37TB/s
- Pod 규모: 9,216칩 Pod으로 42.5 EFLOPS
- 인터커넥트: ICI 9.6 Tb/s
- 주 공략: 추론 — "첫 번째 Inference 시대의 TPU"
왜 v7이 중요한가: AI 추론 시대 진입 신호. 추론은 학습만큼 FP32 정확도 불필요, FP8·INT8 충분. TPU는 태생부터 저정밀도 최적화 → 추론 시대에 Nvidia GPU "범용성 프리미엄" 매력 감소.
투자자 관점에서 보면
TPU는 10년 7세대 축적 기술. Meta·AWS·MS 하루 아침에 따라잡기 어려움. Google은 외부 판매 없음 — Google Cloud 내부 사용. 투자자 간접 수혜: Google(GOOG) AI 인프라 원가 낮아짐. 생산 파트너: Broadcom(AVGO) — AVGO AI 매출 최대 단일 고객.
2절. Meta MTIA — Broadcom 1GW 계약
2-1. Meta는 왜 자체 칩
Meta 핵심 워크로드:
- 추천 시스템: 페북/인스타 피드 — 하루 수천억 회
- 생성형 AI: Llama 학습·서비스
Nvidia GPU로도 가능하지만 Meta 규모에선 연간 GPU 구매비만 $400-500억 추정. 매출 10% 가까이 Nvidia로. 자체 칩 시 단위당 원가 30-50% 절감 추정.
GPU 원가에 Nvidia 마진 (gross margin 70%) 포함. 하이퍼스케일러가 TSMC 직접 발주 시 원가 = 웨이퍼 + 설계 파트너(AVGO/MRVL) 로열티 = GPU의 절반 이하.
2-2. MTIA v1 → v500 로드맵
v1 (2023): 7nm, 추천 시스템 전용 추론. Meta 내부 소규모 배치. v2 (2024~): 5nm, HBM 탑재, 학습까지. 성능/와트 v1 대비 3배.
2026-04 대형 계약: Meta-Broadcom 1GW 규모 MTIA 계약. 다음 4세대(300/400/450/500) 로드맵 공개 — 2년 내 4세대 출시, multi-gigawatt 확장.
핵심 팩트:
- 공정: MTIA 300 2nm (세계 최초 AI 칩 2nm) — TSMC N2
- 파트너: Broadcom XPU 플랫폼 공동 개발
- 범위: 칩 설계 + 패키징 + 네트워킹
- 규모: 1GW → 2027까지 "multi-gigawatt"
1GW 의미: 중형 원전 1기분 전력. Meta 기존 DC 전체 10-12GW 중 AI 전용 1GW 배정. TDP 500W 가정 시 약 200만 칩.
2-3. Meta가 Broadcom 선택 이유
Broadcom 강점 3가지:
- Networking IP — Tomahawk 스위치 칩 시장 1위. 수천 칩 Interconnect Fabric 설계 가능 희소 기업
- SerDes IP — 112G/224G SerDes 업계 표준
- Google TPU 레퍼런스 — 10년 TPU 설계 파트너 경험
Marvell 아닌 Broadcom: Marvell은 AWS Trainium 파트너 — 전략 기밀 충돌. Broadcom XPU 플랫폼이 Meta 멀티 제너레이션 로드맵에 더 적합.
투자자 관점에서 보면
Meta-Broadcom 1GW 계약은 AVGO AI 매출 궤도를 2027-2028까지 확정. Bloomberg Intelligence: Broadcom은 AI ASIC 시장 60-80% 점유. Meta(META)는 NVDA 비용 절감 → 영업이익률 방어. 추적: Meta CapEx 중 "자체 실리콘" 비중, Broadcom AI 매출 가이던스 $14B → $20B → ??.
3절. AWS Trainium — Marvell에서 Alchip으로
3-1. AWS 차별화 — 수직 통합 최강
AWS는 4대 하이퍼스케일러 중 자체 실리콘 수직 통합 최강. 이유:
- AWS 이익률 최저 (Operating Margin 30%) → 원가 절감 동기 최대
- Annapurna Labs (이스라엘 스타트업, 2015 인수) — 자체 설계 자원
AWS 칩 3개:
- Graviton — ARM 기반 CPU (4세대)
- Inferentia — 추론 전용 (2세대)
- Trainium — 학습용 (3세대 2026)
3-2. Trainium 1→2→3
Trainium 3 핵심 업그레이드:
- 공정 점프: Trn2 N5 → Trn3 N3P (한 세대 건너뜀)
- UltraServer: 144 칩을 하나처럼 묶어 362 MXFP8 PFLOPS. 20.7TB HBM3e, 706TB/s 총 대역폭
- 용도: "Frontier-scale Transformer, MoE, 긴 문맥 아키텍처"
비유: UltraServer 144칩 = 144명 전문가가 한 방에서 실시간 협업하는 "초대형 오케스트라". Interconnect가 매우 빨라야 함.
3-3. Marvell → Alchip 파트너 전환
초기 (Trn 1, 2): Marvell(MRVL) 주요 설계 파트너. SerDes IP, 인터페이스 블록 공급.
Trainium 3 변화: 주요 컴퓨트 설계는 Alchip(대만 ASIC 디자인 하우스). Marvell 기여 일부 인터페이스 IP로 축소. Marvell AWS 매출 Trn3 세대에서 감소 경고.
왜 전환: AWS는 단일 벤더 의존 전략 회피. Alchip은 TSMC VCA 파트너로 최첨단 공정 접근 우위.
Marvell 대응: Microsoft Maia + 기타 하이퍼스케일러 설계 계약 다각화.
투자자 관점에서 보면
Trainium 3 채택 속도가 AMZN 주가 촉매. Anthropic·OpenAI·Apple이 Trainium 테스트 중 보도 — 대규모 학습 전환 시 NVDA 직격. 기대 미달 시 AMZN CapEx 효율 악화. MRVL은 Trainium 의존도 축소가 리스크 + 다변화 기회. 추적: AWS Trn3 UltraServer 매출, Anthropic Claude 차세대 모델 훈련 플랫폼.
4절. Microsoft Maia
4-1. Maia 100 (2023)
MS는 4대 중 자체 ASIC 가장 늦게 진입. OpenAI 독점 파트너십으로 Nvidia GPU 대량 확보.
Maia 100:
- TSMC N5 (5nm)
- 다이 면적 820mm²
- 메모리 HBM2E 64GB, 1.8TB/s (구세대)
- TDP 700W
- 패키징 CoWoS-S
- Tile 기반 구조 — TTU(Tile Tensor Unit) + TVP
왜 HBM2E 구세대: 공급 안정성·원가. HBM3 대신 HBM2E 선택 → 초기 리스크 최소화.
4-2. Maia 200 (Braga, 2026-01 공개)
- TSMC N3 (3nm)
- 성능 10.1 PetaOPS FP4
- 메모리 216GB HBM3e, 7TB/s
- SRAM 272MB 대용량
- TDP 750W (B300 1400W 대비 절반)
핵심 차별화:
- FP4 전용 최적화 — 추론 효율 극대화
- 메모리 용량 우위 — 216GB는 TPU v7 192GB, Trainium 3 144GB, B300 192GB 능가
- 전력 효율 — 750W로 B300(1400W) 대비 절반, 유사 성능
4-3. "AMD-유사 아키텍처"
업계 분석 포인트:
- Chiplet 설계 — AMD MI300처럼 여러 타일 결합
- HBM 밀착 패키징 — AMD infinity fabric 유사 내부 인터커넥트
- CPU+ASIC 통합 — MS Cobalt 100(ARM CPU)과 Maia 긴밀 통합. AMD APU 전략 유사
주의: Maia 200 핵심 IP는 MS 자체, AMD RDNA/CDNA 직접 복사 아님. "구조적 철학 유사" 정도.
투자자 관점에서 보면
Maia는 MS 자체 DC 내부만, Azure 외부 판매 없음. MSFT OpenAI GPT 추론 원가 절감 → 2026 Azure AI 부문 GM 개선 숨은 동력. Marvell 일부 참여, GUC 기여 큼. 추적: Azure AI 매출 내 Maia 비중, OpenAI GPT-5/6 추론 플랫폼 선택.
5절. 기술 스펙 비교표
4가지 패턴
패턴 1 — 모두 TSMC: 삼성·Intel 파운드리 채택 실패. TSMC 독점력 강화.
패턴 2 — HBM 병목: 4개 모두 HBM3/HBM3e 대량 채택. SK Hynix·Micron·Samsung 동시 수혜.
패턴 3 — 용도 분화: Google/MS 추론 주력, AWS 학습 주력, Meta 추천+추론. Nvidia만 학습+추론 양쪽 강점 — 단기간 밀리지 않는 이유.
패턴 4 — 전력 효율 경쟁: Maia 200 750W vs B300 1400W. Custom ASIC 최대 강점 = 전력 효율. 전력 병목 시대에 결정적.
6절. 왜 각 기업은 자체 ASIC
6-1. 커스텀 칩 경제학
Custom ASIC NRE $1.5-2.5억 + 마스크 $3000만-5000만.
손익분기 계산:
- Nvidia H100 ≈ $25,000
- 동등 성능 Custom ASIC 웨이퍼 원가 ≈ $8,000-12,000
- 칩당 절감 ≈ $13,000-17,000
- NRE $2억 회수 15,000-20,000 칩 생산 필요
하이퍼스케일러 연간 AI 칩 구매 10만-100만. 단 한 세대만으로 NRE 수십 배 회수. 규모의 경제 결정적.
중소기업 불가: 연 1000칩 이하면 NRE 회수 불가. Nvidia GPU 구매가 합리적.
6-2. 워크로드 특화 전략
6-3. Nvidia 방어선 — CUDA
- CUDA — AI 연구자·개발자 500만 명. Custom ASIC은 각자 프로그래밍 환경 (TPU=XLA, Trainium=Neuron, Maia=자체)
- 범용성 — 새 아키텍처(MoE, Mamba) 등장 시 Nvidia 즉시 지원
- 중소 고객 — 하이퍼스케일러 4개 외 수천 기업, 모두 Nvidia 고객
투자자 관점에서 보면
Custom ASIC이 Nvidia 매출 제로섬 만들지는 않음. 전체 AI 칩 TAM 빠르게 성장 → NVDA 매출도 성장 가능. 다만 NVDA 시장 점유율 점진적 하락 불가피. 중요: NVDA 매출 "성장률 둔화 시점" + Gross Margin 유지 가능성. 70% GPM이 60%로 떨어지면 밸류에이션 재평가.
7절. 2026→2028 시장 점유율 시나리오
7-1. 현재 (2026)
AI 가속기 시장 ~$300B 추정:
- Nvidia GPU: ~75% ($225B)
- AMD GPU: ~8%
- Google TPU (내부): ~6%
- AWS Trainium: ~3%
- Meta MTIA: ~2%
- MS Maia: ~2%
- 기타: ~4%
Custom ASIC 합계 ≈ 15%
7-2. 2028 전망 (Citi·Bloomberg·IDC)
$380-450B 추정:
- Nvidia GPU: ~60% ($228-270B) — 절대 매출은 성장
- AMD GPU: ~10%
- Custom ASIC 합계: ~25-30% ($95-135B)
- Google TPU ~8%
- AWS Trainium ~7%
- Meta MTIA ~6%
- MS Maia ~5%
- OpenAI 자체 칩 ~2%
핵심 변화:
- Nvidia 75% → 60% (15%p 하락)
- Custom ASIC 15% → 30% (2배)
- 절대 매출은 모두 증가 — 시장 1.3-1.5배 커짐
7-3. 2033 장기 (Bloomberg Intelligence)
2033 $600B+:
- Custom ASIC $118B (27% CAGR)
- 전체 내 비중 8% → 19%
7-4. 불확실성
Nvidia 방어: Blackwell Ultra·Rubin 연속 출시로 리드 + CUDA 장벽 + Enterprise 확장 → 70% 유지
Nvidia 침식: 2027 OpenAI 자체 칩 + Custom ASIC SW 환경 CUDA 수준 + 중국 규제 → 50% 이하
투자자 관점에서 보면
공통점: 어느 쪽이든 Custom ASIC 공급망 수혜자(AVGO, MRVL, TSM, HBM 3사) 확실히 이익. 차이는 NVDA 자체 상대 성과. Nvidia 단일 베팅보다 Custom ASIC 공급망 분산이 리스크 조정 수익률 우월 가능성.
8절. 투자자 관점 — 공급자 수혜 구도
8-1. 3대 수혜 티어
8-2. Tier 1 — 설계 파트너
Broadcom (AVGO)
- AI ASIC 시장 60-80% 점유
- Google TPU (10년), Meta MTIA (1GW), OpenAI(예정)
- 2026 AI 매출 ~$14B, 2027 $20B+
- 강점: Tomahawk 스위치 + XPU 플랫폼 + SerDes IP 조합
Marvell (MRVL)
- AI ASIC 시장 20-25%
- AWS Trainium 1/2 (Trn 3 일부로 축소), MS Maia 일부
- 강점: 광학 DSP + 112G/224G SerDes
8-3. Tier 2 — 파운드리
TSMC (TSM)
- 4대 Custom ASIC 전부 TSMC 의존 (3nm/2nm)
- 3nm 점유율 ~100%, 2nm도 2026-2027 ~100%
- CoWoS 패키징 증설 병목 — 2026 월 50K → 2027 100K 증설
- 대안 부재. 삼성·Intel 파운드리 뒤짐
8-4. Tier 3 — HBM·서브스트레이트·장비
HBM 3사 (SK Hynix, Micron, Samsung)
- 4대 모두 HBM3/HBM3e
- 2026 시장 $50B+ → 2028 $100B+
- SK Hynix 선두, Micron 추격
서브스트레이트: Ibiden(1위), Unimicron(2위) 장비: ASML(EUV 독점), Applied Materials, Lam Research(HBM 식각)
8-5. Nvidia 위치 재점검
NVDA 패배자인가: 아니다. 절대 매출 성장. 다만 시장 점유율 상대 하락 + GM 압박.
시나리오:
- Bull: Rubin(2026 말)로 Custom ASIC 리드 유지 → 70%+
- Base: 60% 점유, 연 매출 20% CAGR
- Bear: OpenAI 자체 칩 + 중국 규제 → 50% 이하
8-6. 3 KPI
-
Broadcom AI 매출 분기 가이던스
- FY2026 $14B → FY2027 $20B+ 시 Meta MTIA 본격 반영
- Custom ASIC 시장 성장 속도 1차 지표
-
TSMC CoWoS 월 생산능력
- 2026 말 80K/월, 2027 중반 100K/월
- Custom ASIC 증설 물리적 병목
-
Nvidia 분기 매출 YoY
- 2026년 30-40% 유지 = Bull, 20% 이하 하락 = Bear
- ASIC 침식 NVDA 성장 반영 시점
출처
- TPU7x Ironwood - Google Cloud Docs — 2026-01
- Ironwood: First TPU for Inference Age - Google Blog — 2025-11
- Google TPUv7: 900lb Gorilla - SemiAnalysis — 2025-11
- Google Unveils 7th-Gen TPU Ironwood - TrendForce — 2025-11-07
- Meta 1GW Custom Chips with Broadcom - CNBC — 2026-04-14
- Broadcom Extended Partnership Meta - IR — 2026-04-14
- AWS Trainium3 Deep Dive - SemiAnalysis — 2026
- Amazon Trainium Lab Tour - TechCrunch — 2026-03-22
- Microsoft Maia 200 - Tom's Hardware — 2026-01
- Microsoft Braga Maia 200 - NextPlatform — 2026-01-28
- AI Accelerator Market $600B by 2033 - Bloomberg — 2026
작성: IWANNAVY LAB | 발행: 2026-05-04 | 카테고리: Custom ASIC 경제학 Primer 2/3