Custom ASIC 경제학 개론 — 왜 하이퍼스케일러는 GPU를 떠나는가
TPU·MTIA·Trainium·Maia의 공통된 이유 — Custom Silicon이 GPU를 대체하는 경제적 논리
Custom ASIC 경제학 개론 — 왜 하이퍼스케일러는 GPU를 떠나는가
들어가기 전에 — 세 가지 질문
2024년까지 AI 반도체는 "NVIDIA 천하"였습니다. H100 한 장이 $30,000~$40,000에 팔리고, 하이퍼스케일러들은 분기마다 수십만 장씩 사들였죠. 그런데 2025~2026년에 Google, Meta, Amazon, Microsoft가 너도나도 **자체 AI 칩(Custom ASIC)**을 발표하고, 실제 데이터센터에 배치하기 시작했습니다.
Q1. 왜 Google TPU가 NVIDIA GPU를 대체하는가? Google Gemini 학습은 2024년부터 TPU v5p로 완전히 이전했고, Apple도 TPU로 학습. 왜 성능의 대명사였던 NVIDIA GPU가 외면받기 시작했을까요? 핵심은 워크로드 특화와 총비용(TCO).
Q2. Meta MTIA v2가 TCO 40% 절감한다는 말은 사실인가? Meta는 자사 추천엔진·Llama 추론용으로 MTIA(Meta Training and Inference Accelerator)를 개발 중. 2025년 "동일 워크로드에서 H100 대비 TCO 40%+ 절감" 주장.
Q3. Broadcom(AVGO)은 왜 Custom ASIC 디자인 수주를 휩쓰는가? AVGO 2025 AI 매출 $120억 중 약 70%가 Custom ASIC 디자인 서비스에서 나옴. Google TPU·Meta MTIA의 실제 설계 파트너가 바로 AVGO.
0. Quick Glossary
1. Custom ASIC vs Merchant Silicon — 두 가지 반도체 철학
1.1 일상 비유
- GPU = 만능 공구 세트. 어떤 일이든 할 수 있지만 전용 공구보다 효율 떨어짐
- ASIC = 한 가지 작업 전용 정밀 공구. 다른 건 못 하지만 그 한 가지는 세계 최고
1.2 Merchant Silicon
NVIDIA H100, AMD MI300, Intel Xeon처럼 누구나 살 수 있는 표준 칩.
장점: 범용성, CUDA 생태계, 빠른 접근. 단점: 가격 결정권이 공급자. H100 gross margin 75%+ 추정 — $30,000 칩의 원가 $7,000, 마진 $23,000.
1.3 Custom ASIC
특정 고객이 자신의 워크로드에 딱 맞게 설계한 전용 칩. Google TPU, Meta MTIA, Amazon Trainium, Microsoft Maia.
왜 이렇게까지?
- 워크로드 고정: Google은 검색·YouTube·Gemini만. 단 한 가지만 잘하면 됨
- 규모의 경제: NRE $3-5억이지만 수십만~수백만 장 쓸 하이퍼스케일러는 장당 $300-500 분담
- NVIDIA 의존도 감소: 협상력 확보
1.4 왜 "지금" Custom ASIC인가
2020년대 초는 비경제적이었음 (AI 모델 빠르게 바뀌어 18-24개월 설계 동안 구식). 2024년 이후 Transformer 아키텍처가 표준 고착 → "이 구조 맞춤 칩" 경제성 확보.
비유: 다양한 PC 게임 시절엔 만능 CPU 유리, 카지노 슬롯머신 한 종류만 돌리면 전용 칩이 훨씬 싸고 빠름. AI는 "Transformer 한 가지만 돌린다" 상태.
투자자 관점에서 보면
Custom ASIC 전환은 NVIDIA 단일 수혜에서 AVGO·MRVL·TSM으로의 수혜 확산. NVDA 2025 데이터센터 매출 성장률 둔화 시점부터 AVGO Custom Silicon 매출이 YoY 200%+ 성장 반전. 핵심 지표: AVGO 분기별 AI 매출 내 Custom ASIC 비중.
2. Training vs Inference — 두 가지 다른 세계
2.1 Training (학습)
AI 모델이 데이터 보고 패턴 학습. GPT-4·Gemini·Llama 수조 개 단어를 수개월에 걸쳐.
특징:
- 연산량 폭발: GPT-4 학습 $100M~$200M 컴퓨팅 (Epoch AI)
- 메모리 대역폭 병목: HBM 성능 핵심
- 유연성 필요: 새 모델 구조 실험 → 범용 GPU 유리
Training 단계는 NVIDIA GPU 여전히 우세. Transformer 외 실험적 구조 지원 + CUDA 생태계.
2.2 Inference (추론)
학습된 모델이 사용자 질문 답하거나 사진 분류하거나 광고 추천.
특징:
- 연산량은 학습보다 훨씬 적음 (GPU 몇 장으로 충분)
- 빈도 어마어마: Google 검색 초당 수만 건, ChatGPT 분당 수십만 건
- 워크로드 고정: 같은 모델 수억 번 반복 → 전용 회로 최적화 쉬움
Inference는 Custom ASIC 황금 시장:
- 반복성: 전용 회로로 굽히면 막대한 효율
- 전력 민감: 데이터센터 전기료 60-70%가 Inference → Power per TOPS 결정적
- 지연시간 민감: 사용자 대기 짧아야 → 전용 HW가 GPU보다 빠름
2.3 시장 규모
McKinsey·Morgan Stanley: 2030년 AI 연산 시장 70-80%는 Inference. Training은 한 번이면 끝이지만, Inference는 모델 살아있는 동안 계속.
"AI 반도체 = NVIDIA"는 Training 중심 사고. Inference 주류가 되는 2026-2028부터 Custom ASIC 비중 급상승.
투자자 관점에서 보면
Inference 시장 규모가 Training의 3-4배 → AVGO Custom Silicon 사업 TAM이 NVIDIA Training 시장보다 훨씬 클 수 있음. 현재는 Training 폭발로 NVIDIA 독점 유지, 2026-2027 Inference 전환 본격화 시 AVGO·MRVL Custom ASIC 매출이 NVIDIA Inference GPU 매출 잠식. 추적: 하이퍼스케일러 CapEx 내 Custom Silicon 비중.
3. TCO 분석 — 왜 Custom ASIC이 30-50% 저렴한가
3.1 TCO란
$$\text{TCO} = \text{칩 구매비} + \text{전력비} + \text{냉각비} + \text{공간비} + \text{유지보수} + \text{감가상각}$$
비유: $3만짜리 차도 10년 운전 시 기름·보험·수리비 합쳐 $7만+. "구매비"가 아니라 "소유비".
3.2 Custom ASIC TCO 낮추는 4가지
① Die size 축소
NVIDIA H100 die: 814mm² — GPU + Tensor Core + Ray Tracing Core + 범용 명령어 처리기.
Custom ASIC은 Transformer 핵심 회로만 남기고 나머지 제거:
- Google TPU v5e die: 약 450mm² (H100의 절반)
- 작아진 만큼 웨이퍼당 더 많은 칩 생산
- Yield 상승 — A4에 잉크 얼룩 확률이 A3보다 낮음
② 전력 효율 — Power per TOPS
- NVIDIA H100: 700W / 2,000 TOPS = 0.35 W/TOPS
- Google TPU v5p: 500W / 2,500 TOPS = 0.20 W/TOPS (43% 향상)
- Meta MTIA v2: H100 대비 전력당 성능 2.5배 주장
1GW AI 데이터센터 연간 전기료 $10억 고려 시 전력 40% 절감 = 연 $4억 절감.
③ 패키징 최적화 — HBM 유연성
- Training용: HBM3E 8스택 192GB
- Inference용: HBM3 4스택 64GB
CoWoS 비용 워크로드별 최적화 → 장당 $500-$1,500 절감.
④ 소프트웨어 스택 간소화 — CUDA 세금 회피
NVIDIA CUDA 라이선스 모델 의존성. Custom ASIC 쓰는 하이퍼스케일러는 자체 컴파일러(Google XLA, Meta PyTorch+MTIA 연동) → "CUDA 세금" 회피.
3.3 Meta MTIA TCO 40% 절감 분해 (추정)
투자자 관점에서 보면
TCO 40-50% 절감은 "같은 CapEx로 2배의 AI 용량" 의미. META·GOOG·AMZN 영업이익률 개선 여력 확대. 반대로 NVDA 데이터센터 매출 성장률 둔화 요인. 추적: 하이퍼스케일러 공시 CapEx 중 Custom Silicon 비중.
4. 주요 Custom ASIC 로드맵
4.1 Google TPU
- v5p (현행): Gemini 학습, 칩당 459 TFLOPS
- v6 Trillium (2026 양산): v5p 대비 컴퓨팅 4.7배, 에너지 효율 67% 향상
- v7 (2027 예정): HBM4 채택, 3D 패키징 스택 확장
설계 파트너: AVGO
4.2 Meta MTIA
- v1 (2023): 추천엔진 전용, 7nm
- v2 (2024~): 5nm, 354 TFLOPS, TCO 40% 절감
- v3 (2026 예정): Llama 추론까지, 3nm
설계 파트너: AVGO + MediaTek
4.3 Amazon Trainium/Inferentia
- Trainium 2 (2024~): Anthropic Claude 학습, 칩당 650 TFLOPS
- Trainium 3 (2025 말~2026): H200 유사 성능, 40% 저가
- Inferentia 3 (2026): 추론 전용 저전력
설계 파트너: Annapurna Labs + Marvell
4.4 Microsoft Maia
- Maia 100 (2024~): GPT-4 추론, Azure 일부
- Maia 2 (2026 예정): GPT-5급 타깃, TSMC 3nm
설계 파트너: GUC + AVGO 일부
4.5 로드맵 비교
투자자 관점에서 보면
2026-2027은 4대 하이퍼스케일러 모두 차세대 Custom ASIC 양산 변곡점. TSMC 3nm/2nm + CoWoS + HBM3E/HBM4 필요. 수혜: AVGO/MRVL(설계) → TSM(파운드리) → 메모리 3사. 추적: TSM CoWoS 2026 증설, SK하이닉스 HBM3E/HBM4 선주문.
5. AVGO·MRVL의 Custom 디자인 서비스
5.1 칩을 직접 만드는 것의 어려움
필요:
- 논리 설계 엔지니어 수백 명
- 물리 설계 엔지니어 수백 명
- 검증 엔지니어 수백 명
- EDA 툴 라이선스 수천만 달러
- 파운드리 접근권 (TSMC 협상력)
- IP 라이선스 (PCIe·DDR·SerDes)
최소 $5-10억 초기 투자 + 10년 이상 설계 역량 축적.
5.2 AVGO·MRVL 역할 — "외주 설계"
하이퍼스케일러 요구 → 설계 → TSMC 양산 관리 → 공급망 → 패키징 턴키 서비스.
비유: 건축주(하이퍼스케일러)가 땅·예산 제공, 시공사(AVGO)가 설계·자재·건축 책임.
5.3 AVGO Custom ASIC 규모 (2025)
- 전체 매출: $520억
- AI 매출: $120억 (+220% YoY)
- Custom ASIC: $80-90억 (AI 매출의 65-75%)
- 주요 고객: Google TPU (최대), Meta MTIA, ByteDance
5.4 AVGO·MRVL 경제학 — 수주가 수주를 부름
진입장벽:
- TSMC 접근권 — AVGO는 TSMC 최상위 VIP
- 설계 자산 재활용 — SerDes·메모리 컨트롤러·패키징 IP 여러 고객에 재판매
- 신뢰 관계 — 10년 쌓은 신뢰
후발주자가 따라올 수 없는 해자.
투자자 관점에서 보면
AVGO Custom Silicon은 고마진(GM 60%+)·고성장(YoY 200%+)·고진입장벽 3박자 드문 비즈니스. NVDA처럼 AMD 추격 노출 없음. 추적: AVGO 분기 AI 매출 내 Custom ASIC 비중, 2026 Trillium/MTIA v3 양산 개시, MRVL Trainium 3 수주 확정.
6. NVIDIA의 대응
6.1 NVIDIA Custom ASIC 위협
2026년 Custom ASIC 시장 25-30% 추정 (Morgan Stanley). NVIDIA 매출 성장률 둔화 시점.
6.2 Blackwell Ultra (2025-2026)
- HBM3E 288GB (기존 192GB)
- Rack-scale NVL72 — 72개 GPU 통합
- H100 대비 4배 성능
차별화: Training 워크로드에서 Custom ASIC보다 우세. Gemini·GPT-5·Claude 학습은 NVIDIA 천하 유지.
6.3 Rubin (2026 말~2027)
- HBM4 채택
- NVLink 6 — 통신 2배 이상
- 전력당 성능 2.5-3배 향상
6.4 CUDA 소프트웨어 해자
AI 연구자·개발자 500만 명 CUDA 익숙. PyTorch·TensorFlow 모두 CUDA 최적화. Custom ASIC 쓰려면 스택 재작성 → 하이퍼스케일러만 감당 가능.
소규모 AI 기업·스타트업·연구소는 여전히 NVIDIA.
6.5 NVIDIA Inference 전략
- DGX Cloud — 직접 AI 클라우드 제공 (하이퍼스케일러 우회)
- NIM(NVIDIA Inference Microservices) — 추론 전용 스택
- Blackwell B300 — Inference 특화
Custom ASIC TCO 40-50% 우위 따라잡기 구조적으로 어려움. 범용 GPU는 본질적으로 "불필요한 회로" 포함.
투자자 관점에서 보면
NVIDIA 2026-2028 **Training 시장(고마진, 성장 둔화)**에서 해자 유지, **Inference 시장(고성장, 마진 압박)**에서 점유율 하락 불가피. NVDA 매출 성장률 30-40% → 15-20% 둔화, gross margin 75%→65% 압축 예상. AVGO는 AI 매출 비중 확대와 Custom ASIC 구조적 성장으로 밸류에이션 리레이팅 여력.
7. 투자자 관점 종합
7.1 NVDA vs AVGO 구조
7.2 추적 KPI
① 하이퍼스케일러 CapEx 내 Custom Silicon 비중
- 2024 약 15% → 2026 30-35% → 2028 45-50%
② AVGO 분기 AI 매출 성장률
- 2025 FY $120억 → 2026 $200억+ 가이던스
- 분기 YoY 150%+ 유지 핵심
③ NVDA Data Center 매출 성장률 둔화 시점
- 2024 YoY 100%+ → 2025 80%+ → 2026 50-60% 예상
- 50% 이하 = Custom ASIC 전환기 신호탄
7.3 리스크
- Custom ASIC 설계 실패 — TPU v6, MTIA v3 버그 → NVIDIA 롤백 (저확률)
- NVIDIA 가격 전략 전환 — 30-40% 인하 시 Custom 우위 축소 (마진 구조상 낮은 확률)
- AI 수요 둔화 — 공통 피해, Custom이 상대적 회복력
7.4 결론
"AI 반도체 = NVIDIA" 단일 테제의 종언. 시장 분화:
- Training 최전선 → NVIDIA 유지 (OpenAI·Anthropic·xAI)
- Inference 대량 생산 → Custom ASIC 우위 (AVGO/MRVL 설계, TSM 제조, 메모리 3사 HBM)
밸류체인 전체 수혜 분산 이해 필요. AVGO는 Custom ASIC 순수 베팅, NVDA는 Training 점진적 둔화 노출. 성장 탄력성·리레이팅 여력은 AVGO 우위.
출처
- Broadcom Q4 FY2024 Earnings — 2024-12-12
- Meta Engineering: MTIA Next-Gen — 2024-04-10
- Google Cloud: Trillium 6th Gen TPUs — 2024-05-14
- Epoch AI: Cost to Train Frontier Models — 2024-07-18
- McKinsey: AI Power Data Center Capacity — 2024-11-25
- Morgan Stanley AI Infrastructure — 2024-11-12
- AWS Trainium2 — 2024-12-03
- NVIDIA Blackwell Architecture — 2024-03-18
- SemiAnalysis: Custom vs Merchant Silicon — 2024-09-15
- TSMC CoWoS Capacity Expansion — 2025-01-16
작성: IWANNAVY LAB | 발행: 2026-05-04 | 카테고리: Custom ASIC 경제학 Primer 1/3