AI Inference 시장 — Training보다 큰 TAM

도입 — 3 질문

Q1. 2024 컨센은 "AI 돈 = Training". 2026 마켓앤마켓 리포트: 추론 시장 2030 $254.98B, CAGR 19.2%. 일부 분석가 2030 추론 = 훈련의 10배. 훈련이 화려해 보이는데 왜 추론이 역전?

Q2. Microsoft FY2026 Q2 Capex $37.5B 중 67%($25B)가 GPU·커스텀 실리콘(추론 장비). 과거엔 데이터센터·네트워크 장수명 자산이 주였는데 왜 지금 "단기 소모성"(GPU 3-5년 감가)에 쏟나?

Q3. ChatGPT 주간 활성 2025-02 4억 → 2026-02 9억 (1년 2.25배). Gemini 월 7.5억, Meta AI 월 10억. 모델 훈련은 1번, 질문은 매번. "매번"의 총합이 어느 정도?

0절. Quick Glossary

용어	풀네임	정의
Inference	-	훈련된 모델이 새 입력에 답 내는 과정
Training	-	수천억 파라미터 학습시키는 과정
Token	-	영어 1단어 ≈ 1.3토큰, 한국어 1글자 ≈ 1-2토큰
TPS	Tokens Per Second	1초에 몇 글자 생산
TTFT	Time To First Token	첫 글자까지 시간
KV Cache	-	처리한 토큰 중간 계산 메모리 저장
vLLM	Virtual LLM	오픈소스 추론 엔진, PagedAttention으로 메모리 극대
NIM	NVIDIA Inference Microservice	컨테이너형 추론 서비스
ASIC	Application-Specific IC	전용 칩, 범용 GPU 대비 효율 3-10배
NPU	Neural Processing Unit	스마트폰·노트북 AI 가속기
Edge Inference	-	사용자 기기(폰·노트북)에서 추론
FP4/FP8	-	4비트/8비트 부동소수점

1절. Training vs Inference

1-1. 본질 차이

Training = 이벤트, Inference = 상태. Training은 자동차 공장 짓기(초기 자본 후 수년간 같은 공장). Inference는 그 공장에서 나오는 자동차 한 대 한 대. 2024까지 "공장 짓는 중", 2025-2030은 "공장에서 차 쏟아지는" 시기.

1-2. 비용 구조 비대칭

Training: 1회 거대 지출, 회수 수년. GPU 10,000-100,000장 수주-수개월 풀가동
Inference: 지속 가변비. GPU 24/7 가동 + 전기·냉각·메모리 대역폭 모두 태움

GPT-4 Training $100M(1,350억). 추론은 일 수십억 건 쿼리. 건당 $0.001이지만 10억 건 = $1M/일 = 연 $365M.

McKinsey: 2024 AI 컴퓨트 40% 추론 → 2026 60-70%, 2030 80%+. "Inference TAM 역전" 본질.

1-3. 왜 추론이 구조적으로 큰가

훈련은 1번, 추론은 매번. 모델 1번 훈련해 매일 수십억 질문 답. 질문 많을수록 추론 비용 선형 증가, 훈련은 변하지 않음
사용자 폭증. ChatGPT 주간 9억, Gemini 월 7.5억, Meta AI 월 10억. 3대 합산 월 수조 건 추론

투자자 관점에서 보면

Training 시장 = "한 번 장비 팔면 끝". NVIDIA H100/B200 매출 설치 시점 인식. 추론은 구독형 — 클라우드 GPU 인스턴스(AWS P5, Azure ND-H100) 시간당 과금. 반도체→클라우드→SaaS 전체 밸류체인에 반복 매출 공급. 특히 AVGO·AMZN·GOOG는 자사 클라우드에서 추론 직접 회수 → NVDA 대비 더 높은 수직통합 마진.

2절. Inference 수요 폭증 드라이버

2-1. 챗봇 사용자 급증

서비스	2025 초	2026 현재	증가
ChatGPT (주간)	4억	9억	2.25배
Gemini (월)	미공개	7.5억	-
Meta AI (월)	5억	10억	2배

ChatGPT 18개월 +350% (9to5Mac 2026-02-27). "연말까지 주간 10억" 전망. Gemini는 Google Search(월 100억+) 안에 AI Overview 통합 → 실제 호출 공개 수치보다 훨씬 큼.

2-2. Reasoning 모델 토큰 폭증

Chain-of-Thought 등장 후 모델 내부에서 "생각 흐름" 길게 출력. OpenAI o1, DeepSeek R1, Claude 4.5 Thinking은 답 하나에 수만-수십만 토큰. GPT-4 대비 10-100배 많은 추론 토큰.

비유: 과거 "정답 바로 말하는 학생", 새 모델 "풀이 과정 종이 가득 적는 학생". 풀이 길수록 정답률 오르지만 서버 태우는 토큰 비례 증가.

2-3. Agent 워크플로우

사람이 ChatGPT 질문 1번 = 1회 추론. 2026 Agent는 작업당 수십-수백 번 호출.

예: "Apple 분기 실적 분석 보고서" 요청:

10-K 검색 (1-3회)
재무 파싱 (5-10회)
경쟁사 비교 (10-20회)
초안 (3-5회)
검토 (5-10회)

총 30-50회 호출 = 50만 토큰. 사용자 눈 "1회"지만 백엔드 수십 번.

2-4. Multimodal

Sora, Veo 3, Runway, GPT-4o Vision — 이미지·비디오 생성. 비디오 1초 = 텍스트 1만 토큰의 약 100배. Google 2026 "YouTube 모든 영상 AI 요약" 시 일 수십억 시간 비디오 추론.

투자자 관점에서 보면

4 드라이버 곱해짐. 사용자 2배 × 토큰 10배 × Agent 30배 × 멀티모달 100배 = 이론 수천-수만 배. 일부만 실현돼도 추론 Capex 연 30-50% 수년 지속 가능. NVDA Data Center 2024 $47B → 2025 $115B → 2026(E) $180B+ 배경. 하이퍼스케일러 Capex $602B 60-70% AI, 그중 60-70% 추론 = $220-290B 순수 추론.

3절. Token Economics

3-1. 모델별 가격 (2026)

모델	입력 $/1M	출력 $/1M
GPT-4o	$2.50	$10.00
GPT-4o mini	$0.15	$0.60
Claude Sonnet 4.6	$3.00	$15.00 (캐시 $0.30)
Claude Haiku 4.5	$0.80	$4.00
Gemini 2.5 Pro	$2.50	$10.00
Gemini 2.5 Flash	$0.30	$2.50

3-2. "낮아 보이지만" 실제는

사례 1. Claude Sonnet 고객 지원:

일 10,000건, 건당 입력 5K + 출력 2K 토큰
일 입력 5천만 × $3 = $150
일 출력 2천만 × $15 = $300
월 $13,500 (1,820만 원)

사례 2. Agent 보고서 1개 50회 호출 50만 토큰:

Claude Sonnet 기준 $0.90 + $3.00 = $3.90/보고서
일 100개 = $390/일, 연 $142,350

3-3. 출력이 입력의 3-5배 비싼 이유

입력 = 병렬 처리 (5,000 토큰 한 번에 GPU 올려 1회 연산). 출력 = 순차 생성(autoregressive) (다음 토큰은 이전 토큰 본 후). 출력 1,000토큰 = 1,000번 순차 GPU 연산.

비유: 입력 = "공장 5,000개 부품 한 번에 검수", 출력 = "뜨개질하듯 한 땀 한 땀". 순차성 강할수록 GPU 유휴 시간 늘고 비쌈.

3-4. KV Cache & Prompt Caching

동일 질문·시스템 프롬프트 반복 시 Anthropic Prompt Caching으로 캐시 토큰 가격 $3 → $0.30(1/10). KV Cache(처리한 토큰 중간값) 디스크 저장 재사용. Agent에서 30-70% 절감.

투자자 관점에서 보면

토큰 가격 2024 대비 80-90% 하락. GPT-4 Turbo($10/$30) → GPT-4o($2.50/$10) ~75% 하락. 2 함의:

AI 앱 단위 경제학 개선 — Agent·Copilot 마진 구조적 개선. PLTR·CRM·MSFT Copilot 확대
추론 제공자 마진 압박 — NVDA GPU 쓰는 OpenAI·Anthropic 수익성 압박. 자사 ASIC 쓰는 Google(TPU)·AWS(Trainium) 유리

곧 토큰 하락 = 수직통합(GOOG·AMZN·META)이 비통합(OpenAI·Anthropic)보다 유리한 구조 변화.

4절. Serving Infrastructure

4-1. Model Serving

훈련된 모델 파일(수백 GB-수 TB) → 서비스로 만드는 Serving 계층. 사용자 요청 → GPU 로드 모델 전달 → 응답 반환.

비유: 훈련 모델 = "요리 레시피". Serving = "주방장+홀 서빙+예약 관리". 주방 엉망이면 손님 1시간 대기. 뛰어난 주방은 같은 재료로 3배 손님.

4-2. 주요 프레임워크

vLLM (Virtual LLM)

UC Berkeley 시작, 오픈소스 표준
PagedAttention — GPU 메모리를 OS 가상메모리처럼 페이지 관리. 기존 대비 메모리 낭비 60-80% 감소
Continuous Batching — 요청 길이 다른 것도 동적 묶음. 처리량 2-5배
2026 오픈소스 LLM 서빙 70%+ 점유. AMD·Intel 호환

NVIDIA Triton + TensorRT-LLM

NVIDIA 범용 + LLM 특화
H100에서 vLLM·TGI 대비 20-40% 우위
NVIDIA 전용, 모델 컴파일 복잡
엔터프라이즈 선호

NVIDIA NIM

2024 발표, 2026 주력
컨테이너(Docker) — 5분 배포
AI Enterprise 구독 $4,500/GPU/년 포함
하드웨어→소프트웨어 락인 전략

Hugging Face TGI

2025 말부터 유지보수 모드. 신규 배포 vLLM 권장

SGLang

LMSYS 개발, 2025-2026 급부상
구조화 생성(JSON·툴 호출) 특화
Long context 200K+ 토큰에서 vLLM보다 빠름

4-3. 경제학

같은 하드웨어(H100 8장) 프레임워크에 따라 처리량 2-5배 차이. 엉성한 서빙은 GPU 2-5배 더 사야. 추론 비용 70%가 GPU 임대료 → 프레임워크 선택이 단위 경제학 좌우.

투자자 관점에서 보면

2 경쟁축:

오픈소스 vs 엔터프라이즈: vLLM(무료) vs NIM(NVDA 유료). 스타트업·중소 vLLM, Fortune 500 NIM
하드웨어 락인: Triton = NVDA, ROCm/vLLM = AMD. AMD MI350/MI400이 vLLM에서 성능 격차 좁히는지가 2026-2027 관전

NVDA 장악 "HW+SW+서비스" 스택을 AMD·Google·AWS가 부분이라도 뚫으려면 서빙 오픈소스 성숙도 관건. vLLM이 AMD ROCm에서 NVDA CUDA 대비 80-90% 성능이면 하이퍼스케일러 AMD 가속.

5절. Inference 특화 칩

5-1. 왜 특화 칩

2022-2024 AI 칩 = NVIDIA H100 = 훈련·추론 겸용. 추론 워크로드 다른 요구:

낮은 정밀도 (FP4/INT8 정확도 95%+)
메모리 대역폭이 연산량보다 중요
에너지 효율 절대 핵심 (24/7)

5-2. 주요 스펙 (2026)

칩	제조사	출시	메모리	대역폭	FP4	특징
B300 (Blackwell Ultra)	NVIDIA	2026 Q1	288GB HBM3e	8 TB/s	15 PFLOPS	1,400W
GB300 NVL72	NVIDIA	2026 Q1	72 B300	-	1.1 EFLOPS	Hopper 5배
MI350	AMD	2025 말	288GB HBM3e	8 TB/s	FP4/FP6	CDNA4
MI400	AMD	2026 H2	432GB HBM4	19.6 TB/s	40 PFLOPS	CDNA5, N2
TPU v7 Ironwood	Google	2025 말	192GB HBM	7.2 TB/s	4.6 PFLOPS	9,216칩 42.5 EFLOPS
Trainium3	AWS	2026	144GB HBM3e	4.9 TB/s	2.52 PFLOPS	NeuronSwitch 144칩
Maia 200	Microsoft	2026	-	-	-	Azure 내부
MTIA v2	Meta	2025-2026	-	-	-	내부 추천·광고

5-3. NVIDIA B300/GB300 혁신

메모리 288GB (H100 80GB의 3.6배) → 큰 모델 단일 GPU 탑재, 노드 통신 병목 해소
FP4 15 PFLOPS — 추론용 4비트. H100 FP8 대비 이론 4배
GB300 NVL72 = 72 B300 + 36 Grace CPU + NVLink — 단일 "AI 공장". Hopper 대비 AI Factory 50배

비유: 과거 GPU 클러스터 = "100명이 따로 요리하며 소리쳐 공유하는 식당", GB300 NVL72 = "72 요리사가 한 주방 눈짓 협업". 통신 오버헤드 사라짐.

5-4. AMD MI400 2026

432GB HBM4 + 19.6 TB/s로 B300 메모리·대역폭 앞섬. NVDA는 2026 H2-2027 H1 Vera Rubin 반격. AMD 가격-성능비 20-30% 우위로 하이퍼스케일러(META·ORCL·MSFT) 듀얼 소싱 유도 시 NVDA 95% → 85-90% 하락.

5-5. Google TPU Ironwood — 추론 교과서

30배 전력 효율 (초대 대비). 처음부터 추론 설계:

HBM 192GB + 7.2 TB/s — 큰 모델 단일 칩
9,216칩 Pod = 42.5 EFLOPS — 세계 최대 슈퍼컴보다 강력
1.2 Tbps 인터커넥트 — 추론 통신 병목 최소화

Google Ironwood로 Gemini 2.5 Pro 추론 비용 H100 대비 40-60% 절감. Gemini 가격 GPT-4o와 동등 유지 + 더 높은 마진.

5-6. AWS Trainium3

1 UltraServer = 144칩, UltraCluster 3.0 = 100만 칩. "작지만 많이" 전략. 단일 성능(2.52 PFLOPS FP8)은 B300 낮지만 풀 스택 통합으로 총비용 낮춤. Anthropic "Project Rainier" Trainium 40만 칩 클러스터 사용.

5-7. Custom ASIC — AVGO 병목

구글 TPU, AWS Trainium, Meta MTIA, Microsoft Maia — 4대 하이퍼스케일러 ASIC 모두 Broadcom(AVGO) 또는 Marvell(MRVL) 설계·양산.

AVGO AI: FY2024 $12B → FY2025 $22B(E) → FY2026 $35-40B(E)
Jensen Huang: "Custom ASIC = NVDA GPU 1/3 수준 공존" (2025-12)

투자자 관점에서 보면

추론 칩 3층 구조 재편:

NVDA (50-60%) — Blackwell Ultra·Vera Rubin 리딩. 점유율 95% → 70-80%
AMD (5-15%) — MI350/MI400 듀얼 소싱. ORCL·META 일부
Custom ASIC (25-35%) — GOOG·AMZN·MSFT·META 내부. AVGO/MRVL이 Picks-and-Shovels

병목 수혜:

HBM: SK Hynix(70%)·Micron·삼성 — HBM3e/HBM4 추론 칩 절대 병목
CoWoS: TSMC 독점. 2026 월 450K wafer도 수요 초과
Custom ASIC 설계: AVGO·MRVL — 하이퍼스케일러 NVDA 탈의존 필수

6절. Edge Inference

6-1. 왜 엣지로

클라우드 추론 한계:

지연 — 서울→미국 150-250ms
프라이버시 — 의료·금융 클라우드 부담
비용 — 사용자당 월 수-수십 달러 추론비는 광고로 회수 불가
커넥티비티 — 지하철·비행기·해외 로밍

해결 = Edge Inference — 사용자 기기 직접.

6-2. NPU 성능 (2026)

NPU = Neural Processing Unit, 모바일 AI 가속기. TOPS (Tera Operations Per Second).

기기/칩	NPU	온디바이스 모델
Apple M4	38 TOPS	Apple Intelligence 3B
Apple A18 Pro	35 TOPS	Apple Intelligence 3B
Qualcomm Snapdragon 8 Elite	45 TOPS	Gemini Nano, Llama
Snapdragon X2 Plus (노트북)	80 TOPS	Phi-3.5, Mistral 7B
Intel Core Ultra 2 (Lunar Lake)	48 TOPS	Copilot+ PC
AMD Ryzen AI 300	50 TOPS	Copilot+ PC
Samsung Exynos 2500	59 TOPS	Galaxy AI

6-3. Apple Intelligence

Apple 2024 WWDC On-device Foundation Model 30억 파라미터. Neural Engine 실행:

텍스트 요약·재작성·교정
이메일·메시지 자동 정렬
Siri 기본 응답 (복잡은 ChatGPT 위임)

왜 중요: Apple은 사용자당 추론 비용 $0. Google이 Gemini 클라우드 비용 태우는 동안 Apple은 iPhone 자체 처리 → 마진 우위.

6-4. 온디바이스 한계·보완

모델 크기 3-7B 상한. GPT-4o(1.8T)·Claude Sonnet(~500B) 불가
멀티모달 제약 — 비디오 생성 여전히 클라우드
전력 제약 — 배터리 연속 15-30분에 발열·경고

해결: Hybrid Inference — 간단 온디바이스, 복잡 클라우드. Apple Intelligence "Private Cloud Compute".

6-5. 자동차·로봇·IoT

Tesla FSD / Dojo — 자동차 NPU 실시간 추론
Nvidia Drive Thor — 2025-2026 양산, 2,000 TOPS
Humanoid Robots (Figure, 1X, Tesla Optimus) — 온보드 AI 필수
Qualcomm IoT AI — 산업용·가전·스마트시티

투자자 관점에서 보면

Edge Inference = 클라우드 대체 아닌 보완. 엣지 처리 토큰만큼 클라우드 줄지 않음 — AI 사용 전체 파이가 커지며 둘 다 성장. 수혜:

모바일 AP: AAPL·QCOM·삼성전자·MediaTek
PC AI: INTC Lunar Lake·AMD Ryzen AI·QCOM Snapdragon X — Copilot+ PC 표준
자동차 AI: NVDA Drive·TSLA 자체·QCOM Ride — 2027-2030 대형 TAM
NPU IP: ARM·CEVA·Imagination — 설계 라이선스

특히 QCOM은 스마트폰+PC+자동차+XR 전 영역 엣지 AI 통합 리더.

7절. 투자자 관점 — 추론 시대 수혜

7-1. NVDA 마진 압박 시나리오

NVDA 2024-2025 Data Center +140% YoY로 GM 75% 유지. 2026-2028 압박:

AMD MI400 — 듀얼 소싱 ASP 5-10% 인하 압력
Custom ASIC 침투 — 하이퍼스케일러 내부 30-35% 자체 ASIC 이탈
HBM 원가 상승 — HBM3e/HBM4가 GPU 원가 40%. SK Hynix·Micron 인상 시 타격
규제 — 중국 수출, EU AI법, 미 AI 칩 통제

방어: CUDA·NIM·Omniverse 소프트웨어 스택. 하드웨어 마진 떨어져도 소프트웨어·서비스 구독으로 상쇄.

7-2. Custom ASIC — AVGO 구조적 수혜

AVGO AI 매출 궤적:

FY2024: $12.2B (전체 ~25%)
FY2025(E): $22-24B (~35%)
FY2026(E): $35-40B (~45%)
FY2027 목표: $60-90B (CEO Hock Tan)

Google TPU·Meta MTIA 설계 파트너로 $10B+. Anthropic·OpenAI도 Custom ASIC 탐색 — 계약 시 AVGO 1순위. NVDA와 달리 Capex 사이클 상대 면역 — NVDA→ASIC 이동 시 AVGO 흡수.

7-3. Inference TAM Top 5

1. NVIDIA (NVDA)

추론 GPU 리더 70-80%
드라이버: B300/GB300 NVL72, NIM 구독
리스크: ASIC 침투, AMD 경쟁
KPI: Data Center QoQ, Software 매출 비중

2. Broadcom (AVGO)

Custom ASIC 병목
드라이버: Google·Meta·차기 OpenAI·Anthropic ASIC 계약
리스크: NVDA "NVLink Fusion" 반격
KPI: AI 매출 QoQ, 신규 계약

3. Amazon (AMZN)

Trainium3 + Bedrock 수직통합
드라이버: Anthropic Project Rainier, Bedrock
리스크: NVDA 성능 열위, Azure·GCP 경쟁
KPI: AWS 영업마진, Bedrock/Trainium 매출

4. Alphabet (GOOG)

TPU Ironwood + Gemini 수직통합
드라이버: Gemini Enterprise, GCP 추론
리스크: Search Cannibalization
KPI: GCP 성장, 수익화 ARPU

5. AMD

NVDA 대안 MI350/MI400
드라이버: MI400 HBM4 432GB 메모리 우위, 듀얼 소싱
리스크: ROCm 성숙도, 점유율 10-15% 제한
KPI: MI400 출하, Tier-1 채택

7-4. Picks and Shovels

HBM: SK Hynix·Micron·삼성. 2026 Capex의 ~15%
CoWoS: TSMC 100%. 2026 450k wafer/월 수요 초과
파워·냉각 (GB300 1칩 1,400W, 랙당 120kW+): VRT·SU·GEV
광학 통신: COHR·LITE·Broadcom 실리콘 포토닉스
DC REITs: EQIX·DLR
전력/가스 터빈: GEV·시멘스·MHI

7-5. 3 KPI

1. Inference Capex 비중 — 하이퍼스케일러 "inference" 분기 언급

측정: 10-Q, 어닝콜 transcript
목표: 60% → 70%(2027)

2. Tokens per $ — 동일 벤치마크(MMLU 80)에서 1달러당 토큰

측정: Artificial Analysis, LMSYS + 가격
목표: 2024 대비 2026 10배, 2028 30배

3. Custom ASIC 점유율 — 하이퍼스케일러 내부 AI 중 자체 ASIC 비중

측정: Omdia, Dell'Oro 분기, re:Invent 발표
목표: 2024 15% → 2026 30% → 2030 45%+

마무리

Training = 일회성 수년. Inference = 지속 매초. ChatGPT 9억·Gemini 7.5억·Meta AI 10억이 만드는 월 수조 건은 Training으로 감당 불가, Inference 인프라만.

$602B Capex의 60-70% AI, 그중 60-70% Inference 구조 3-5년 지속. NVDA 여전히 리더 but AMD·Custom ASIC(AVGO)·Edge(QCOM·AAPL) 각자 포지션 동시 성장하는 다극화 시대. "NVDA 독점" 벗어나 추론 밸류체인 전 층 수혜 탐색 필요.

출처

AI Inference Market $254.98B by 2030 - MarketsandMarkets — 2026-01
AI Inference Market - Grand View — 2026-02
NVIDIA B300 Blackwell Ultra Guide - Spheron — 2026-01
NVIDIA GB300 NVL72 — 2026-01
Claude API Pricing - MetaCTO — 2026-03
AI API Pricing Comparison - IntuitionLabs — 2026-04
ChatGPT 900M WAU - ALM Corp — 2026-02-27
Google Gemini 750M MAU - TechCrunch — 2026-02-04
vLLM vs Triton vs TGI - Clarifai — 2026-02
Ironwood TPU for Inference - Google Blog — 2025-12
AMD MI350 Series - AMD Blog — 2025-12
AMD MI400 - Guru3D — 2026-02
Custom Silicon Inflection 2026 - Introl — 2026-01
NPU Comparison 2026 - Local AI Master — 2026-03
AI Capex 2026 $690B - Futurum — 2026-02
AI Workloads & Hyperscaler Strategy - McKinsey — 2025-12

작성: IWANNAVY LAB | 발행: 2026-05-18 | 카테고리: FM & Agent 경제학 Primer 3/4

AI Inference 시장 — Training보다 큰 TAM

도입 — 3 질문

0절. Quick Glossary

1절. Training vs Inference

1-1. 본질 차이

1-2. 비용 구조 비대칭

1-3. 왜 추론이 구조적으로 큰가

투자자 관점에서 보면

2절. Inference 수요 폭증 드라이버

2-1. 챗봇 사용자 급증

2-2. Reasoning 모델 토큰 폭증

2-3. Agent 워크플로우

2-4. Multimodal

투자자 관점에서 보면

3절. Token Economics

3-1. 모델별 가격 (2026)

3-2. "낮아 보이지만" 실제는

3-3. 출력이 입력의 3-5배 비싼 이유

3-4. KV Cache & Prompt Caching

투자자 관점에서 보면

4절. Serving Infrastructure

4-1. Model Serving

4-2. 주요 프레임워크

4-3. 경제학

투자자 관점에서 보면

5절. Inference 특화 칩

5-1. 왜 특화 칩

5-2. 주요 스펙 (2026)

5-3. NVIDIA B300/GB300 혁신

5-4. AMD MI400 2026

5-5. Google TPU Ironwood — 추론 교과서

5-6. AWS Trainium3

5-7. Custom ASIC — AVGO 병목

투자자 관점에서 보면

6절. Edge Inference

6-1. 왜 엣지로

6-2. NPU 성능 (2026)

6-3. Apple Intelligence

6-4. 온디바이스 한계·보완

6-5. 자동차·로봇·IoT

투자자 관점에서 보면

7절. 투자자 관점 — 추론 시대 수혜

7-1. NVDA 마진 압박 시나리오

7-2. Custom ASIC — AVGO 구조적 수혜

7-3. Inference TAM Top 5

7-4. Picks and Shovels

7-5. 3 KPI

마무리

출처

이 digest에서 정의한 핵심 용어

이 digest 주변 개념 맵 (2-hop)