AI Inference 시장 — Training보다 큰 TAM, 수혜 구도
왜 하이퍼스케일러 Capex의 60%가 추론으로 이동하는가
AI Inference 시장 — Training보다 큰 TAM
도입 — 3 질문
Q1. 2024 컨센은 "AI 돈 = Training". 2026 마켓앤마켓 리포트: 추론 시장 2030 $254.98B, CAGR 19.2%. 일부 분석가 2030 추론 = 훈련의 10배. 훈련이 화려해 보이는데 왜 추론이 역전?
Q2. Microsoft FY2026 Q2 Capex $37.5B 중 67%($25B)가 GPU·커스텀 실리콘(추론 장비). 과거엔 데이터센터·네트워크 장수명 자산이 주였는데 왜 지금 "단기 소모성"(GPU 3-5년 감가)에 쏟나?
Q3. ChatGPT 주간 활성 2025-02 4억 → 2026-02 9억 (1년 2.25배). Gemini 월 7.5억, Meta AI 월 10억. 모델 훈련은 1번, 질문은 매번. "매번"의 총합이 어느 정도?
0절. Quick Glossary
1절. Training vs Inference
1-1. 본질 차이
Training = 이벤트, Inference = 상태. Training은 자동차 공장 짓기(초기 자본 후 수년간 같은 공장). Inference는 그 공장에서 나오는 자동차 한 대 한 대. 2024까지 "공장 짓는 중", 2025-2030은 "공장에서 차 쏟아지는" 시기.
1-2. 비용 구조 비대칭
- Training: 1회 거대 지출, 회수 수년. GPU 10,000-100,000장 수주-수개월 풀가동
- Inference: 지속 가변비. GPU 24/7 가동 + 전기·냉각·메모리 대역폭 모두 태움
GPT-4 Training $100M(1,350억). 추론은 일 수십억 건 쿼리. 건당 $0.001이지만 10억 건 = $1M/일 = 연 $365M.
McKinsey: 2024 AI 컴퓨트 40% 추론 → 2026 60-70%, 2030 80%+. "Inference TAM 역전" 본질.
1-3. 왜 추론이 구조적으로 큰가
- 훈련은 1번, 추론은 매번. 모델 1번 훈련해 매일 수십억 질문 답. 질문 많을수록 추론 비용 선형 증가, 훈련은 변하지 않음
- 사용자 폭증. ChatGPT 주간 9억, Gemini 월 7.5억, Meta AI 월 10억. 3대 합산 월 수조 건 추론
투자자 관점에서 보면
Training 시장 = "한 번 장비 팔면 끝". NVIDIA H100/B200 매출 설치 시점 인식. 추론은 구독형 — 클라우드 GPU 인스턴스(AWS P5, Azure ND-H100) 시간당 과금. 반도체→클라우드→SaaS 전체 밸류체인에 반복 매출 공급. 특히 AVGO·AMZN·GOOG는 자사 클라우드에서 추론 직접 회수 → NVDA 대비 더 높은 수직통합 마진.
2절. Inference 수요 폭증 드라이버
2-1. 챗봇 사용자 급증
ChatGPT 18개월 +350% (9to5Mac 2026-02-27). "연말까지 주간 10억" 전망. Gemini는 Google Search(월 100억+) 안에 AI Overview 통합 → 실제 호출 공개 수치보다 훨씬 큼.
2-2. Reasoning 모델 토큰 폭증
Chain-of-Thought 등장 후 모델 내부에서 "생각 흐름" 길게 출력. OpenAI o1, DeepSeek R1, Claude 4.5 Thinking은 답 하나에 수만-수십만 토큰. GPT-4 대비 10-100배 많은 추론 토큰.
비유: 과거 "정답 바로 말하는 학생", 새 모델 "풀이 과정 종이 가득 적는 학생". 풀이 길수록 정답률 오르지만 서버 태우는 토큰 비례 증가.
2-3. Agent 워크플로우
사람이 ChatGPT 질문 1번 = 1회 추론. 2026 Agent는 작업당 수십-수백 번 호출.
예: "Apple 분기 실적 분석 보고서" 요청:
- 10-K 검색 (1-3회)
- 재무 파싱 (5-10회)
- 경쟁사 비교 (10-20회)
- 초안 (3-5회)
- 검토 (5-10회)
총 30-50회 호출 = 50만 토큰. 사용자 눈 "1회"지만 백엔드 수십 번.
2-4. Multimodal
Sora, Veo 3, Runway, GPT-4o Vision — 이미지·비디오 생성. 비디오 1초 = 텍스트 1만 토큰의 약 100배. Google 2026 "YouTube 모든 영상 AI 요약" 시 일 수십억 시간 비디오 추론.
투자자 관점에서 보면
4 드라이버 곱해짐. 사용자 2배 × 토큰 10배 × Agent 30배 × 멀티모달 100배 = 이론 수천-수만 배. 일부만 실현돼도 추론 Capex 연 30-50% 수년 지속 가능. NVDA Data Center 2024 $47B → 2025 $115B → 2026(E) $180B+ 배경. 하이퍼스케일러 Capex $602B 60-70% AI, 그중 60-70% 추론 = $220-290B 순수 추론.
3절. Token Economics
3-1. 모델별 가격 (2026)
3-2. "낮아 보이지만" 실제는
사례 1. Claude Sonnet 고객 지원:
- 일 10,000건, 건당 입력 5K + 출력 2K 토큰
- 일 입력 5천만 × $3 = $150
- 일 출력 2천만 × $15 = $300
- 월 $13,500 (1,820만 원)
사례 2. Agent 보고서 1개 50회 호출 50만 토큰:
- Claude Sonnet 기준 $0.90 + $3.00 = $3.90/보고서
- 일 100개 = $390/일, 연 $142,350
3-3. 출력이 입력의 3-5배 비싼 이유
입력 = 병렬 처리 (5,000 토큰 한 번에 GPU 올려 1회 연산). 출력 = 순차 생성(autoregressive) (다음 토큰은 이전 토큰 본 후). 출력 1,000토큰 = 1,000번 순차 GPU 연산.
비유: 입력 = "공장 5,000개 부품 한 번에 검수", 출력 = "뜨개질하듯 한 땀 한 땀". 순차성 강할수록 GPU 유휴 시간 늘고 비쌈.
3-4. KV Cache & Prompt Caching
동일 질문·시스템 프롬프트 반복 시 Anthropic Prompt Caching으로 캐시 토큰 가격 $3 → $0.30(1/10). KV Cache(처리한 토큰 중간값) 디스크 저장 재사용. Agent에서 30-70% 절감.
투자자 관점에서 보면
토큰 가격 2024 대비 80-90% 하락. GPT-4 Turbo($10/$30) → GPT-4o($2.50/$10) ~75% 하락. 2 함의:
- AI 앱 단위 경제학 개선 — Agent·Copilot 마진 구조적 개선. PLTR·CRM·MSFT Copilot 확대
- 추론 제공자 마진 압박 — NVDA GPU 쓰는 OpenAI·Anthropic 수익성 압박. 자사 ASIC 쓰는 Google(TPU)·AWS(Trainium) 유리
곧 토큰 하락 = 수직통합(GOOG·AMZN·META)이 비통합(OpenAI·Anthropic)보다 유리한 구조 변화.
4절. Serving Infrastructure
4-1. Model Serving
훈련된 모델 파일(수백 GB-수 TB) → 서비스로 만드는 Serving 계층. 사용자 요청 → GPU 로드 모델 전달 → 응답 반환.
비유: 훈련 모델 = "요리 레시피". Serving = "주방장+홀 서빙+예약 관리". 주방 엉망이면 손님 1시간 대기. 뛰어난 주방은 같은 재료로 3배 손님.
4-2. 주요 프레임워크
vLLM (Virtual LLM)
- UC Berkeley 시작, 오픈소스 표준
- PagedAttention — GPU 메모리를 OS 가상메모리처럼 페이지 관리. 기존 대비 메모리 낭비 60-80% 감소
- Continuous Batching — 요청 길이 다른 것도 동적 묶음. 처리량 2-5배
- 2026 오픈소스 LLM 서빙 70%+ 점유. AMD·Intel 호환
NVIDIA Triton + TensorRT-LLM
- NVIDIA 범용 + LLM 특화
- H100에서 vLLM·TGI 대비 20-40% 우위
- NVIDIA 전용, 모델 컴파일 복잡
- 엔터프라이즈 선호
NVIDIA NIM
- 2024 발표, 2026 주력
- 컨테이너(Docker) — 5분 배포
- AI Enterprise 구독 $4,500/GPU/년 포함
- 하드웨어→소프트웨어 락인 전략
Hugging Face TGI
- 2025 말부터 유지보수 모드. 신규 배포 vLLM 권장
SGLang
- LMSYS 개발, 2025-2026 급부상
- 구조화 생성(JSON·툴 호출) 특화
- Long context 200K+ 토큰에서 vLLM보다 빠름
4-3. 경제학
같은 하드웨어(H100 8장) 프레임워크에 따라 처리량 2-5배 차이. 엉성한 서빙은 GPU 2-5배 더 사야. 추론 비용 70%가 GPU 임대료 → 프레임워크 선택이 단위 경제학 좌우.
투자자 관점에서 보면
2 경쟁축:
- 오픈소스 vs 엔터프라이즈: vLLM(무료) vs NIM(NVDA 유료). 스타트업·중소 vLLM, Fortune 500 NIM
- 하드웨어 락인: Triton = NVDA, ROCm/vLLM = AMD. AMD MI350/MI400이 vLLM에서 성능 격차 좁히는지가 2026-2027 관전
NVDA 장악 "HW+SW+서비스" 스택을 AMD·Google·AWS가 부분이라도 뚫으려면 서빙 오픈소스 성숙도 관건. vLLM이 AMD ROCm에서 NVDA CUDA 대비 80-90% 성능이면 하이퍼스케일러 AMD 가속.
5절. Inference 특화 칩
5-1. 왜 특화 칩
2022-2024 AI 칩 = NVIDIA H100 = 훈련·추론 겸용. 추론 워크로드 다른 요구:
- 낮은 정밀도 (FP4/INT8 정확도 95%+)
- 메모리 대역폭이 연산량보다 중요
- 에너지 효율 절대 핵심 (24/7)
5-2. 주요 스펙 (2026)
5-3. NVIDIA B300/GB300 혁신
- 메모리 288GB (H100 80GB의 3.6배) → 큰 모델 단일 GPU 탑재, 노드 통신 병목 해소
- FP4 15 PFLOPS — 추론용 4비트. H100 FP8 대비 이론 4배
- GB300 NVL72 = 72 B300 + 36 Grace CPU + NVLink — 단일 "AI 공장". Hopper 대비 AI Factory 50배
비유: 과거 GPU 클러스터 = "100명이 따로 요리하며 소리쳐 공유하는 식당", GB300 NVL72 = "72 요리사가 한 주방 눈짓 협업". 통신 오버헤드 사라짐.
5-4. AMD MI400 2026
432GB HBM4 + 19.6 TB/s로 B300 메모리·대역폭 앞섬. NVDA는 2026 H2-2027 H1 Vera Rubin 반격. AMD 가격-성능비 20-30% 우위로 하이퍼스케일러(META·ORCL·MSFT) 듀얼 소싱 유도 시 NVDA 95% → 85-90% 하락.
5-5. Google TPU Ironwood — 추론 교과서
30배 전력 효율 (초대 대비). 처음부터 추론 설계:
- HBM 192GB + 7.2 TB/s — 큰 모델 단일 칩
- 9,216칩 Pod = 42.5 EFLOPS — 세계 최대 슈퍼컴보다 강력
- 1.2 Tbps 인터커넥트 — 추론 통신 병목 최소화
Google Ironwood로 Gemini 2.5 Pro 추론 비용 H100 대비 40-60% 절감. Gemini 가격 GPT-4o와 동등 유지 + 더 높은 마진.
5-6. AWS Trainium3
1 UltraServer = 144칩, UltraCluster 3.0 = 100만 칩. "작지만 많이" 전략. 단일 성능(2.52 PFLOPS FP8)은 B300 낮지만 풀 스택 통합으로 총비용 낮춤. Anthropic "Project Rainier" Trainium 40만 칩 클러스터 사용.
5-7. Custom ASIC — AVGO 병목
구글 TPU, AWS Trainium, Meta MTIA, Microsoft Maia — 4대 하이퍼스케일러 ASIC 모두 Broadcom(AVGO) 또는 Marvell(MRVL) 설계·양산.
- AVGO AI: FY2024 $12B → FY2025 $22B(E) → FY2026 $35-40B(E)
- Jensen Huang: "Custom ASIC = NVDA GPU 1/3 수준 공존" (2025-12)
투자자 관점에서 보면
추론 칩 3층 구조 재편:
- NVDA (50-60%) — Blackwell Ultra·Vera Rubin 리딩. 점유율 95% → 70-80%
- AMD (5-15%) — MI350/MI400 듀얼 소싱. ORCL·META 일부
- Custom ASIC (25-35%) — GOOG·AMZN·MSFT·META 내부. AVGO/MRVL이 Picks-and-Shovels
병목 수혜:
- HBM: SK Hynix(70%)·Micron·삼성 — HBM3e/HBM4 추론 칩 절대 병목
- CoWoS: TSMC 독점. 2026 월 450K wafer도 수요 초과
- Custom ASIC 설계: AVGO·MRVL — 하이퍼스케일러 NVDA 탈의존 필수
6절. Edge Inference
6-1. 왜 엣지로
클라우드 추론 한계:
- 지연 — 서울→미국 150-250ms
- 프라이버시 — 의료·금융 클라우드 부담
- 비용 — 사용자당 월 수-수십 달러 추론비는 광고로 회수 불가
- 커넥티비티 — 지하철·비행기·해외 로밍
해결 = Edge Inference — 사용자 기기 직접.
6-2. NPU 성능 (2026)
NPU = Neural Processing Unit, 모바일 AI 가속기. TOPS (Tera Operations Per Second).
6-3. Apple Intelligence
Apple 2024 WWDC On-device Foundation Model 30억 파라미터. Neural Engine 실행:
- 텍스트 요약·재작성·교정
- 이메일·메시지 자동 정렬
- Siri 기본 응답 (복잡은 ChatGPT 위임)
왜 중요: Apple은 사용자당 추론 비용 $0. Google이 Gemini 클라우드 비용 태우는 동안 Apple은 iPhone 자체 처리 → 마진 우위.
6-4. 온디바이스 한계·보완
- 모델 크기 3-7B 상한. GPT-4o(1.8T)·Claude Sonnet(~500B) 불가
- 멀티모달 제약 — 비디오 생성 여전히 클라우드
- 전력 제약 — 배터리 연속 15-30분에 발열·경고
해결: Hybrid Inference — 간단 온디바이스, 복잡 클라우드. Apple Intelligence "Private Cloud Compute".
6-5. 자동차·로봇·IoT
- Tesla FSD / Dojo — 자동차 NPU 실시간 추론
- Nvidia Drive Thor — 2025-2026 양산, 2,000 TOPS
- Humanoid Robots (Figure, 1X, Tesla Optimus) — 온보드 AI 필수
- Qualcomm IoT AI — 산업용·가전·스마트시티
투자자 관점에서 보면
Edge Inference = 클라우드 대체 아닌 보완. 엣지 처리 토큰만큼 클라우드 줄지 않음 — AI 사용 전체 파이가 커지며 둘 다 성장. 수혜:
- 모바일 AP: AAPL·QCOM·삼성전자·MediaTek
- PC AI: INTC Lunar Lake·AMD Ryzen AI·QCOM Snapdragon X — Copilot+ PC 표준
- 자동차 AI: NVDA Drive·TSLA 자체·QCOM Ride — 2027-2030 대형 TAM
- NPU IP: ARM·CEVA·Imagination — 설계 라이선스
특히 QCOM은 스마트폰+PC+자동차+XR 전 영역 엣지 AI 통합 리더.
7절. 투자자 관점 — 추론 시대 수혜
7-1. NVDA 마진 압박 시나리오
NVDA 2024-2025 Data Center +140% YoY로 GM 75% 유지. 2026-2028 압박:
- AMD MI400 — 듀얼 소싱 ASP 5-10% 인하 압력
- Custom ASIC 침투 — 하이퍼스케일러 내부 30-35% 자체 ASIC 이탈
- HBM 원가 상승 — HBM3e/HBM4가 GPU 원가 40%. SK Hynix·Micron 인상 시 타격
- 규제 — 중국 수출, EU AI법, 미 AI 칩 통제
방어: CUDA·NIM·Omniverse 소프트웨어 스택. 하드웨어 마진 떨어져도 소프트웨어·서비스 구독으로 상쇄.
7-2. Custom ASIC — AVGO 구조적 수혜
AVGO AI 매출 궤적:
- FY2024: $12.2B (전체 ~25%)
- FY2025(E): $22-24B (~35%)
- FY2026(E): $35-40B (~45%)
- FY2027 목표: $60-90B (CEO Hock Tan)
Google TPU·Meta MTIA 설계 파트너로 $10B+. Anthropic·OpenAI도 Custom ASIC 탐색 — 계약 시 AVGO 1순위. NVDA와 달리 Capex 사이클 상대 면역 — NVDA→ASIC 이동 시 AVGO 흡수.
7-3. Inference TAM Top 5
1. NVIDIA (NVDA)
- 추론 GPU 리더 70-80%
- 드라이버: B300/GB300 NVL72, NIM 구독
- 리스크: ASIC 침투, AMD 경쟁
- KPI: Data Center QoQ, Software 매출 비중
2. Broadcom (AVGO)
- Custom ASIC 병목
- 드라이버: Google·Meta·차기 OpenAI·Anthropic ASIC 계약
- 리스크: NVDA "NVLink Fusion" 반격
- KPI: AI 매출 QoQ, 신규 계약
3. Amazon (AMZN)
- Trainium3 + Bedrock 수직통합
- 드라이버: Anthropic Project Rainier, Bedrock
- 리스크: NVDA 성능 열위, Azure·GCP 경쟁
- KPI: AWS 영업마진, Bedrock/Trainium 매출
4. Alphabet (GOOG)
- TPU Ironwood + Gemini 수직통합
- 드라이버: Gemini Enterprise, GCP 추론
- 리스크: Search Cannibalization
- KPI: GCP 성장, 수익화 ARPU
5. AMD
- NVDA 대안 MI350/MI400
- 드라이버: MI400 HBM4 432GB 메모리 우위, 듀얼 소싱
- 리스크: ROCm 성숙도, 점유율 10-15% 제한
- KPI: MI400 출하, Tier-1 채택
7-4. Picks and Shovels
- HBM: SK Hynix·Micron·삼성. 2026 Capex의 ~15%
- CoWoS: TSMC 100%. 2026 450k wafer/월 수요 초과
- 파워·냉각 (GB300 1칩 1,400W, 랙당 120kW+): VRT·SU·GEV
- 광학 통신: COHR·LITE·Broadcom 실리콘 포토닉스
- DC REITs: EQIX·DLR
- 전력/가스 터빈: GEV·시멘스·MHI
7-5. 3 KPI
1. Inference Capex 비중 — 하이퍼스케일러 "inference" 분기 언급
- 측정: 10-Q, 어닝콜 transcript
- 목표: 60% → 70%(2027)
2. Tokens per $ — 동일 벤치마크(MMLU 80)에서 1달러당 토큰
- 측정: Artificial Analysis, LMSYS + 가격
- 목표: 2024 대비 2026 10배, 2028 30배
3. Custom ASIC 점유율 — 하이퍼스케일러 내부 AI 중 자체 ASIC 비중
- 측정: Omdia, Dell'Oro 분기, re:Invent 발표
- 목표: 2024 15% → 2026 30% → 2030 45%+
마무리
Training = 일회성 수년. Inference = 지속 매초. ChatGPT 9억·Gemini 7.5억·Meta AI 10억이 만드는 월 수조 건은 Training으로 감당 불가, Inference 인프라만.
$602B Capex의 60-70% AI, 그중 60-70% Inference 구조 3-5년 지속. NVDA 여전히 리더 but AMD·Custom ASIC(AVGO)·Edge(QCOM·AAPL) 각자 포지션 동시 성장하는 다극화 시대. "NVDA 독점" 벗어나 추론 밸류체인 전 층 수혜 탐색 필요.
출처
- AI Inference Market $254.98B by 2030 - MarketsandMarkets — 2026-01
- AI Inference Market - Grand View — 2026-02
- NVIDIA B300 Blackwell Ultra Guide - Spheron — 2026-01
- NVIDIA GB300 NVL72 — 2026-01
- Claude API Pricing - MetaCTO — 2026-03
- AI API Pricing Comparison - IntuitionLabs — 2026-04
- ChatGPT 900M WAU - ALM Corp — 2026-02-27
- Google Gemini 750M MAU - TechCrunch — 2026-02-04
- vLLM vs Triton vs TGI - Clarifai — 2026-02
- Ironwood TPU for Inference - Google Blog — 2025-12
- AMD MI350 Series - AMD Blog — 2025-12
- AMD MI400 - Guru3D — 2026-02
- Custom Silicon Inflection 2026 - Introl — 2026-01
- NPU Comparison 2026 - Local AI Master — 2026-03
- AI Capex 2026 $690B - Futurum — 2026-02
- AI Workloads & Hyperscaler Strategy - McKinsey — 2025-12
작성: IWANNAVY LAB | 발행: 2026-05-18 | 카테고리: FM & Agent 경제학 Primer 3/4