TPU · MTIA · Trainium — 하이퍼스케일러 3대 Custom ASIC 심층 비교

"Google TPU v7 · Meta MTIA v2 · AWS Trainium 3 — 누가 NVDA의 가장 큰 위협인가"

도입: 세 가지 질문

질문 1. 2026년 4월 Meta가 Broadcom(AVGO)에 1GW 규모 커스텀 칩 계약을 확정. 왜 Meta는 NVIDIA Blackwell을 사지 않고 직접 칩을 설계하기로 했는가?

질문 2. Google TPU v7 (Ironwood)는 2025년 11월 공개 시점에 "Nvidia Blackwell GB200을 추론 성능에서 능가한다"고 발표. Google이 10년 7세대 반복한 이 칩이 진짜 NVDA 해자를 뚫을 수 있는가?

질문 3. 2028년까지 Custom ASIC 점유율이 15%→30%로 두 배 커지면 수혜는 누구에게? Broadcom(AVGO)인가, Marvell(MRVL)인가, TSMC(TSM)인가?

Quick Glossary

약어	풀네임	한 줄 정의
ASIC	Application-Specific Integrated Circuit	한 가지 작업 맞춤 칩
TPU	Tensor Processing Unit	Google 2016년부터 개발, 현 v7
MTIA	Meta Training and Inference Accelerator	Meta 자체 ASIC, v2~v500 로드맵
Trainium	AWS Trainium	AWS 자체 ASIC, 현 v3
Maia	Microsoft Maia	MS 자체 ASIC, Maia 100·200
Systolic Array	Systolic Array	심장 수축처럼 데이터가 파도치는 계산 구조 (TPU 핵심)
HBM	High Bandwidth Memory	초고속 메모리
Interconnect	Interconnect Fabric	수천 칩 하나처럼 묶는 고속 통신망
FLOPS	Floating Point Operations per Second	초당 부동소수점 연산
Inference	-	학습 끝난 AI 사용 단계

일상 비유:

ASIC = 파스타 전용 국수 기계 (범용 오븐보다 훨씬 빠름)
Systolic Array = 공장 컨베이어 벨트
HBM = 책장을 수직으로 쌓아 사다리 없이 손닿는 거리
Interconnect = 수천 명 실시간 화상회의

1절. Google TPU — 10년 여정 (v1 2016 → v7 2026)

1-1. 왜 Google이 세계 최초 ASIC

2013년 Google 분석: "사용자가 음성 검색을 하루 3분씩만 더 쓰면 전체 데이터센터 용량 2배 필요". CPU 너무 느림, GPU Nvidia 의존.

AI 핵심 연산은 행렬 곱셈 (전체 90%+). CPU는 반복 연산에 안 맞고, GPU는 비디오·그래픽도 처리해야 해서 낭비 많음. Google은 "행렬 곱셈만 광적으로 잘하는 칩"을 원함.

비유: 만능 셰프(CPU/GPU) vs 피자만 1분에 30판 굽는 자동 오븐(ASIC). AI 작업은 거의 "피자"인데 왜 만능 셰프?

1-2. Systolic Array — TPU 심장부

256명이 격자로 서서 옆 사람에게 숫자를 받아 곱해 다음에게 넘기는 구조. 중앙 통제 없이 데이터가 파도처럼 흐르며 각 교차점에서 자동 곱셈.

작동:

왼쪽에서 행렬 A 숫자 한 열씩 유입
위에서 행렬 B 숫자 한 행씩 내려옴
각 셀에서 곱해서 누적
클럭 한 번마다 한 칸 이동
격자 채워지면 행렬 곱셈 완료

왜 빠른가: CPU는 곱할 때마다 메모리에서 읽고 쓰기 반복. Systolic Array는 숫자 한 번 읽어서 수백 번 재사용. 메모리 접근은 전력 90%를 쓰는 병목인데 이걸 줄임.

규모: TPU v1 256×256 = 65,536개 곱셈기 동시 작동. 700MHz로 돌리면 초당 92조 회 연산 — 당시 GPU 15-30배 효율.

1-3. 세대별 진화

세대	출시	공정	성능	혁신
v1	2016	28nm	92 TOPS (INT8)	최초 AI ASIC, 256×256
v2	2017	20nm	45 TFLOPS	FP 연산, 4칩 Pod
v3	2018	16nm	123 TFLOPS	액체 냉각, 1024칩 Pod
v4	2021	7nm	275 TFLOPS	3D 토러스 인터커넥트
v5e/v5p	2023	5nm	197/459 TFLOPS	비용 효율 분화
v6e (Trillium)	2024	5nm	918 TFLOPS	성능 4.7배
v7 (Ironwood)	2026	3nm	4,614 FP8 TFLOPS	추론 시대 첫 TPU

TPU v7 Ironwood 스펙 (2025-11 공개):

성능: 4,614 FP8 TFLOPS (v5p 대비 10배)
메모리: 192GB HBM3E, 7.37TB/s
Pod 규모: 9,216칩 Pod으로 42.5 EFLOPS
인터커넥트: ICI 9.6 Tb/s
주 공략: 추론 — "첫 번째 Inference 시대의 TPU"

왜 v7이 중요한가: AI 추론 시대 진입 신호. 추론은 학습만큼 FP32 정확도 불필요, FP8·INT8 충분. TPU는 태생부터 저정밀도 최적화 → 추론 시대에 Nvidia GPU "범용성 프리미엄" 매력 감소.

투자자 관점에서 보면

TPU는 10년 7세대 축적 기술. Meta·AWS·MS 하루 아침에 따라잡기 어려움. Google은 외부 판매 없음 — Google Cloud 내부 사용. 투자자 간접 수혜: Google(GOOG) AI 인프라 원가 낮아짐. 생산 파트너: Broadcom(AVGO) — AVGO AI 매출 최대 단일 고객.

2절. Meta MTIA — Broadcom 1GW 계약

2-1. Meta는 왜 자체 칩

Meta 핵심 워크로드:

추천 시스템: 페북/인스타 피드 — 하루 수천억 회
생성형 AI: Llama 학습·서비스

Nvidia GPU로도 가능하지만 Meta 규모에선 연간 GPU 구매비만 $400-500억 추정. 매출 10% 가까이 Nvidia로. 자체 칩 시 단위당 원가 30-50% 절감 추정.

GPU 원가에 Nvidia 마진 (gross margin 70%) 포함. 하이퍼스케일러가 TSMC 직접 발주 시 원가 = 웨이퍼 + 설계 파트너(AVGO/MRVL) 로열티 = GPU의 절반 이하.

2-2. MTIA v1 → v500 로드맵

v1 (2023): 7nm, 추천 시스템 전용 추론. Meta 내부 소규모 배치. v2 (2024~): 5nm, HBM 탑재, 학습까지. 성능/와트 v1 대비 3배.

2026-04 대형 계약: Meta-Broadcom 1GW 규모 MTIA 계약. 다음 4세대(300/400/450/500) 로드맵 공개 — 2년 내 4세대 출시, multi-gigawatt 확장.

핵심 팩트:

공정: MTIA 300 2nm (세계 최초 AI 칩 2nm) — TSMC N2
파트너: Broadcom XPU 플랫폼 공동 개발
범위: 칩 설계 + 패키징 + 네트워킹
규모: 1GW → 2027까지 "multi-gigawatt"

1GW 의미: 중형 원전 1기분 전력. Meta 기존 DC 전체 10-12GW 중 AI 전용 1GW 배정. TDP 500W 가정 시 약 200만 칩.

2-3. Meta가 Broadcom 선택 이유

Broadcom 강점 3가지:

Networking IP — Tomahawk 스위치 칩 시장 1위. 수천 칩 Interconnect Fabric 설계 가능 희소 기업
SerDes IP — 112G/224G SerDes 업계 표준
Google TPU 레퍼런스 — 10년 TPU 설계 파트너 경험

Marvell 아닌 Broadcom: Marvell은 AWS Trainium 파트너 — 전략 기밀 충돌. Broadcom XPU 플랫폼이 Meta 멀티 제너레이션 로드맵에 더 적합.

투자자 관점에서 보면

Meta-Broadcom 1GW 계약은 AVGO AI 매출 궤도를 2027-2028까지 확정. Bloomberg Intelligence: Broadcom은 AI ASIC 시장 60-80% 점유. Meta(META)는 NVDA 비용 절감 → 영업이익률 방어. 추적: Meta CapEx 중 "자체 실리콘" 비중, Broadcom AI 매출 가이던스 $14B → $20B → ??.

3절. AWS Trainium — Marvell에서 Alchip으로

3-1. AWS 차별화 — 수직 통합 최강

AWS는 4대 하이퍼스케일러 중 자체 실리콘 수직 통합 최강. 이유:

AWS 이익률 최저 (Operating Margin 30%) → 원가 절감 동기 최대
Annapurna Labs (이스라엘 스타트업, 2015 인수) — 자체 설계 자원

AWS 칩 3개:

Graviton — ARM 기반 CPU (4세대)
Inferentia — 추론 전용 (2세대)
Trainium — 학습용 (3세대 2026)

3-2. Trainium 1→2→3

세대	출시	공정	성능	메모리	특이점
Trainium 1	2022	7nm	190 TFLOPS	32GB HBM	Annapurna 초기 시범
Trainium 2	2024	5nm	1,300 TFLOPS FP8	96GB HBM3	Anthropic 대규모 채택
Trainium 3	2026 초	3nm (N3P)	Trn2 대비 4.4배	144GB HBM3e, 4.9TB/s	Alchip 전환

Trainium 3 핵심 업그레이드:

공정 점프: Trn2 N5 → Trn3 N3P (한 세대 건너뜀)
UltraServer: 144 칩을 하나처럼 묶어 362 MXFP8 PFLOPS. 20.7TB HBM3e, 706TB/s 총 대역폭
용도: "Frontier-scale Transformer, MoE, 긴 문맥 아키텍처"

비유: UltraServer 144칩 = 144명 전문가가 한 방에서 실시간 협업하는 "초대형 오케스트라". Interconnect가 매우 빨라야 함.

3-3. Marvell → Alchip 파트너 전환

초기 (Trn 1, 2): Marvell(MRVL) 주요 설계 파트너. SerDes IP, 인터페이스 블록 공급.

Trainium 3 변화: 주요 컴퓨트 설계는 Alchip(대만 ASIC 디자인 하우스). Marvell 기여 일부 인터페이스 IP로 축소. Marvell AWS 매출 Trn3 세대에서 감소 경고.

왜 전환: AWS는 단일 벤더 의존 전략 회피. Alchip은 TSMC VCA 파트너로 최첨단 공정 접근 우위.

Marvell 대응: Microsoft Maia + 기타 하이퍼스케일러 설계 계약 다각화.

투자자 관점에서 보면

Trainium 3 채택 속도가 AMZN 주가 촉매. Anthropic·OpenAI·Apple이 Trainium 테스트 중 보도 — 대규모 학습 전환 시 NVDA 직격. 기대 미달 시 AMZN CapEx 효율 악화. MRVL은 Trainium 의존도 축소가 리스크 + 다변화 기회. 추적: AWS Trn3 UltraServer 매출, Anthropic Claude 차세대 모델 훈련 플랫폼.

4절. Microsoft Maia

4-1. Maia 100 (2023)

MS는 4대 중 자체 ASIC 가장 늦게 진입. OpenAI 독점 파트너십으로 Nvidia GPU 대량 확보.

Maia 100:

TSMC N5 (5nm)
다이 면적 820mm²
메모리 HBM2E 64GB, 1.8TB/s (구세대)
TDP 700W
패키징 CoWoS-S
Tile 기반 구조 — TTU(Tile Tensor Unit) + TVP

왜 HBM2E 구세대: 공급 안정성·원가. HBM3 대신 HBM2E 선택 → 초기 리스크 최소화.

4-2. Maia 200 (Braga, 2026-01 공개)

TSMC N3 (3nm)
성능 10.1 PetaOPS FP4
메모리 216GB HBM3e, 7TB/s
SRAM 272MB 대용량
TDP 750W (B300 1400W 대비 절반)

핵심 차별화:

FP4 전용 최적화 — 추론 효율 극대화
메모리 용량 우위 — 216GB는 TPU v7 192GB, Trainium 3 144GB, B300 192GB 능가
전력 효율 — 750W로 B300(1400W) 대비 절반, 유사 성능

4-3. "AMD-유사 아키텍처"

업계 분석 포인트:

Chiplet 설계 — AMD MI300처럼 여러 타일 결합
HBM 밀착 패키징 — AMD infinity fabric 유사 내부 인터커넥트
CPU+ASIC 통합 — MS Cobalt 100(ARM CPU)과 Maia 긴밀 통합. AMD APU 전략 유사

주의: Maia 200 핵심 IP는 MS 자체, AMD RDNA/CDNA 직접 복사 아님. "구조적 철학 유사" 정도.

투자자 관점에서 보면

Maia는 MS 자체 DC 내부만, Azure 외부 판매 없음. MSFT OpenAI GPT 추론 원가 절감 → 2026 Azure AI 부문 GM 개선 숨은 동력. Marvell 일부 참여, GUC 기여 큼. 추적: Azure AI 매출 내 Maia 비중, OpenAI GPT-5/6 추론 플랫폼 선택.

5절. 기술 스펙 비교표

항목	Google TPU v7	Meta MTIA 300	AWS Trainium 3	MS Maia 200	Nvidia B300 (벤치)
출시	2026	2026E	2026 초	2026	2025 말
공정	TSMC 3nm	TSMC N2 (2nm)	TSMC N3P	TSMC N3	TSMC 4NP
주 용도	추론 주력	추천+추론	학습 주력	추론 주력	학습+추론
성능	4,614 FP8 TFLOPS	미공개	Trn2 대비 4.4배	10.1 PetaOPS FP4	~20 PFLOPS FP4
메모리	192GB HBM3E	미공개	144GB HBM3e	216GB HBM3e	192GB HBM3e
메모리 대역폭	7.37 TB/s	미공개	4.9 TB/s	7 TB/s	8 TB/s
TDP	~600W	500W	미공개	750W	1,400W
Pod 규모	9,216 칩	미공개	144 (UltraServer)	미공개	576 (NVL576)
Pod 성능	42.5 EFLOPS	1GW	362 PFLOPS (MXFP8)	미공개	수십 EFLOPS
인터커넥트	ICI 9.6 Tb/s	Broadcom XPU	NeuronLink	MS 자체	NVLink 5
설계 파트너	Broadcom	Broadcom	Alchip (+MRVL 일부)	Marvell/GUC	-
파운드리	TSMC	TSMC	TSMC	TSMC	TSMC

4가지 패턴

패턴 1 — 모두 TSMC: 삼성·Intel 파운드리 채택 실패. TSMC 독점력 강화.

패턴 2 — HBM 병목: 4개 모두 HBM3/HBM3e 대량 채택. SK Hynix·Micron·Samsung 동시 수혜.

패턴 3 — 용도 분화: Google/MS 추론 주력, AWS 학습 주력, Meta 추천+추론. Nvidia만 학습+추론 양쪽 강점 — 단기간 밀리지 않는 이유.

패턴 4 — 전력 효율 경쟁: Maia 200 750W vs B300 1400W. Custom ASIC 최대 강점 = 전력 효율. 전력 병목 시대에 결정적.

6절. 왜 각 기업은 자체 ASIC

6-1. 커스텀 칩 경제학

Custom ASIC NRE $1.5-2.5억 + 마스크 $3000만-5000만.

손익분기 계산:

Nvidia H100 ≈ $25,000
동등 성능 Custom ASIC 웨이퍼 원가 ≈ $8,000-12,000
칩당 절감 ≈ $13,000-17,000
NRE $2억 회수 15,000-20,000 칩 생산 필요

하이퍼스케일러 연간 AI 칩 구매 10만-100만. 단 한 세대만으로 NRE 수십 배 회수. 규모의 경제 결정적.

중소기업 불가: 연 1000칩 이하면 NRE 회수 불가. Nvidia GPU 구매가 합리적.

6-2. 워크로드 특화 전략

기업	워크로드	최적화	NVDA 대비 우위
Google	검색·Gmail·YouTube·Gemini	Systolic Array, 대규모 Pod	10년 경험, 최대 Pod(9,216칩)
Meta	추천·Llama	추천+추론 겸용, 저정밀도	단일 용도 극한 최적화
AWS	고객 다양한 학습·추론	범용성 내 비용 최적화	서비스 원가 절감
MS	OpenAI 추론	FP4, 전력 효율	Azure 총비용 절감

6-3. Nvidia 방어선 — CUDA

CUDA — AI 연구자·개발자 500만 명. Custom ASIC은 각자 프로그래밍 환경 (TPU=XLA, Trainium=Neuron, Maia=자체)
범용성 — 새 아키텍처(MoE, Mamba) 등장 시 Nvidia 즉시 지원
중소 고객 — 하이퍼스케일러 4개 외 수천 기업, 모두 Nvidia 고객

투자자 관점에서 보면

Custom ASIC이 Nvidia 매출 제로섬 만들지는 않음. 전체 AI 칩 TAM 빠르게 성장 → NVDA 매출도 성장 가능. 다만 NVDA 시장 점유율 점진적 하락 불가피. 중요: NVDA 매출 "성장률 둔화 시점" + Gross Margin 유지 가능성. 70% GPM이 60%로 떨어지면 밸류에이션 재평가.

7절. 2026→2028 시장 점유율 시나리오

7-1. 현재 (2026)

AI 가속기 시장 ~$300B 추정:

Nvidia GPU: ~75% ($225B)
AMD GPU: ~8%
Google TPU (내부): ~6%
AWS Trainium: ~3%
Meta MTIA: ~2%
MS Maia: ~2%
기타: ~4%

Custom ASIC 합계 ≈ 15%

7-2. 2028 전망 (Citi·Bloomberg·IDC)

$380-450B 추정:

Nvidia GPU: ~60% ($228-270B) — 절대 매출은 성장
AMD GPU: ~10%
Custom ASIC 합계: ~25-30% ($95-135B)
- Google TPU ~8%
- AWS Trainium ~7%
- Meta MTIA ~6%
- MS Maia ~5%
- OpenAI 자체 칩 ~2%

핵심 변화:

Nvidia 75% → 60% (15%p 하락)
Custom ASIC 15% → 30% (2배)
절대 매출은 모두 증가 — 시장 1.3-1.5배 커짐

7-3. 2033 장기 (Bloomberg Intelligence)

2033 $600B+:

Custom ASIC $118B (27% CAGR)
전체 내 비중 8% → 19%

7-4. 불확실성

Nvidia 방어: Blackwell Ultra·Rubin 연속 출시로 리드 + CUDA 장벽 + Enterprise 확장 → 70% 유지

Nvidia 침식: 2027 OpenAI 자체 칩 + Custom ASIC SW 환경 CUDA 수준 + 중국 규제 → 50% 이하

투자자 관점에서 보면

공통점: 어느 쪽이든 Custom ASIC 공급망 수혜자(AVGO, MRVL, TSM, HBM 3사) 확실히 이익. 차이는 NVDA 자체 상대 성과. Nvidia 단일 베팅보다 Custom ASIC 공급망 분산이 리스크 조정 수익률 우월 가능성.

8절. 투자자 관점 — 공급자 수혜 구도

8-1. 3대 수혜 티어

8-2. Tier 1 — 설계 파트너

Broadcom (AVGO)

AI ASIC 시장 60-80% 점유
Google TPU (10년), Meta MTIA (1GW), OpenAI(예정)
2026 AI 매출 ~$14B, 2027 $20B+
강점: Tomahawk 스위치 + XPU 플랫폼 + SerDes IP 조합

Marvell (MRVL)

AI ASIC 시장 20-25%
AWS Trainium 1/2 (Trn 3 일부로 축소), MS Maia 일부
강점: 광학 DSP + 112G/224G SerDes

8-3. Tier 2 — 파운드리

TSMC (TSM)

4대 Custom ASIC 전부 TSMC 의존 (3nm/2nm)
3nm 점유율 ~100%, 2nm도 2026-2027 ~100%
CoWoS 패키징 증설 병목 — 2026 월 50K → 2027 100K 증설
대안 부재. 삼성·Intel 파운드리 뒤짐

8-4. Tier 3 — HBM·서브스트레이트·장비

HBM 3사 (SK Hynix, Micron, Samsung)

4대 모두 HBM3/HBM3e
2026 시장 $50B+ → 2028 $100B+
SK Hynix 선두, Micron 추격

서브스트레이트: Ibiden(1위), Unimicron(2위) 장비: ASML(EUV 독점), Applied Materials, Lam Research(HBM 식각)

8-5. Nvidia 위치 재점검

NVDA 패배자인가: 아니다. 절대 매출 성장. 다만 시장 점유율 상대 하락 + GM 압박.

시나리오:

Bull: Rubin(2026 말)로 Custom ASIC 리드 유지 → 70%+
Base: 60% 점유, 연 매출 20% CAGR
Bear: OpenAI 자체 칩 + 중국 규제 → 50% 이하

8-6. 3 KPI

Broadcom AI 매출 분기 가이던스
- FY2026 $14B → FY2027 $20B+ 시 Meta MTIA 본격 반영
- Custom ASIC 시장 성장 속도 1차 지표
TSMC CoWoS 월 생산능력
- 2026 말 80K/월, 2027 중반 100K/월
- Custom ASIC 증설 물리적 병목
Nvidia 분기 매출 YoY
- 2026년 30-40% 유지 = Bull, 20% 이하 하락 = Bear
- ASIC 침식 NVDA 성장 반영 시점

출처

TPU7x Ironwood - Google Cloud Docs — 2026-01
Ironwood: First TPU for Inference Age - Google Blog — 2025-11
Google TPUv7: 900lb Gorilla - SemiAnalysis — 2025-11
Google Unveils 7th-Gen TPU Ironwood - TrendForce — 2025-11-07
Meta 1GW Custom Chips with Broadcom - CNBC — 2026-04-14
Broadcom Extended Partnership Meta - IR — 2026-04-14
AWS Trainium3 Deep Dive - SemiAnalysis — 2026
Amazon Trainium Lab Tour - TechCrunch — 2026-03-22
Microsoft Maia 200 - Tom's Hardware — 2026-01
Microsoft Braga Maia 200 - NextPlatform — 2026-01-28
AI Accelerator Market $600B by 2033 - Bloomberg — 2026

작성: IWANNAVY LAB | 발행: 2026-05-04 | 카테고리: Custom ASIC 경제학 Primer 2/3

TPU · MTIA · Trainium — 하이퍼스케일러 3대 Custom ASIC 심층 비교

도입: 세 가지 질문

Quick Glossary

1절. Google TPU — 10년 여정 (v1 2016 → v7 2026)

1-1. 왜 Google이 세계 최초 ASIC

1-2. Systolic Array — TPU 심장부

1-3. 세대별 진화

투자자 관점에서 보면

2절. Meta MTIA — Broadcom 1GW 계약

2-1. Meta는 왜 자체 칩

2-2. MTIA v1 → v500 로드맵

2-3. Meta가 Broadcom 선택 이유

투자자 관점에서 보면

3절. AWS Trainium — Marvell에서 Alchip으로

3-1. AWS 차별화 — 수직 통합 최강

3-2. Trainium 1→2→3

3-3. Marvell → Alchip 파트너 전환

투자자 관점에서 보면

4절. Microsoft Maia

4-1. Maia 100 (2023)

4-2. Maia 200 (Braga, 2026-01 공개)

4-3. "AMD-유사 아키텍처"

투자자 관점에서 보면

5절. 기술 스펙 비교표

4가지 패턴

6절. 왜 각 기업은 자체 ASIC

6-1. 커스텀 칩 경제학

6-2. 워크로드 특화 전략

6-3. Nvidia 방어선 — CUDA

투자자 관점에서 보면

7절. 2026→2028 시장 점유율 시나리오

7-1. 현재 (2026)

7-2. 2028 전망 (Citi·Bloomberg·IDC)

7-3. 2033 장기 (Bloomberg Intelligence)

7-4. 불확실성

투자자 관점에서 보면

8절. 투자자 관점 — 공급자 수혜 구도

8-1. 3대 수혜 티어

8-2. Tier 1 — 설계 파트너

8-3. Tier 2 — 파운드리

8-4. Tier 3 — HBM·서브스트레이트·장비

8-5. Nvidia 위치 재점검

8-6. 3 KPI

출처

이 digest에서 정의한 핵심 용어

이 digest 주변 개념 맵 (2-hop)