Foundation Model 경제학 — Scaling Laws와 훈련·추론 비용
왜 GPT-4 훈련에 $1억이 들었고 추론이 Training보다 더 큰 시장이 되는가
Foundation Model 경제학 — Scaling Laws와 훈련·추론 비용
도입 — 3 질문
2023-03 Sam Altman: "GPT-4 훈련 $1억+". 2025 GPT-5급 단일 훈련 $5억. 2026 하이퍼스케일러 Capex $690B — 한국 GDP의 1/3.
Q1. 왜 GPT-4 훈련 $1억? Scaling Laws의 Kaplan (2020) + Chinchilla (2022) 공식. 파라미터 N × 데이터 D × 컴퓨트 C = 2×10^25 FLOPS → H100 GPU 2.5만 개 × 90일 = $1억.
Q2. 왜 Inference가 Training보다 큰 시장? Training은 1회, Inference는 매번. ChatGPT 주간 4억 명, GPT-4o $2.50/1M 입력. 2026 Capex $690B 중 AI 75%, 그 중 Inference 60%.
Q3. 왜 투자자가 알아야? Scaling Laws 지속 여부가 NVDA·GOOG·META·MSFT·AMZN 밸류에이션 근본 변수. Scaling Wall 확증 시 AI Capex 가이던스 뿌리부터 흔들림.
0절. Quick Glossary
1절. Foundation Model이란
1-1. 정의
2021 스탠퍼드 HAI 제안. "방대한 데이터로 한 번 사전 학습해 두면, 다양한 과제(번역·요약·코딩·QA)에 범용 적용 가능한 대형 AI 모델".
이전: 과제별 별도 모델. Foundation Model: "대학 학부 교육 마친 범용 인재".
1-2. 대표 모델 (2026)
1-3. 왜 "대형"인가
비유: 요리책 1권 읽은 요리사 vs 전 세계 1억 권 본 요리사. 후자는 본 적 없는 재료에도 "추론" 가능. 일반화(generalization) 능력이 규모와 함께 질적 변화.
투자자 관점에서 보면
Foundation Model = "범용 기술(General Purpose Technology)". 증기기관·전기·인터넷처럼 토대 만들어지면 응용 수십 년 확산. 2026 기준 직접 훈련 가능 기업 6-7개(OpenAI, Anthropic, Google, Meta, Microsoft, xAI, DeepSeek/Alibaba) 과점. 이 구조가 훈련용 GPU 시장 NVIDIA 단일 공급 쏠리는 이유.
2절. Scaling Laws
2-1. 경험적 법칙
수학적 증명 아닌 경험적 법칙(empirical law). 수천 모델 훈련 후 발견된 규칙성. "매우 재현성 있는 패턴".
2-2. Kaplan 법칙 (2020)
OpenAI Kaplan Scaling Laws for Neural Language Models:
언어 모델 손실(loss) = 파라미터 N, 데이터 D, 컴퓨트 C의 거듭제곱 법칙
Kaplan: "컴퓨트 10배 → 대부분 모델 크기에, 데이터 조금". → GPT-3 175B, Gopher 280B가 파라미터 팽창 집중.
2-3. Chinchilla 법칙 (2022) — 게임 체인저
DeepMind Training Compute-Optimal LLMs. 70M-16B 400개+ 모델 훈련:
최적 파라미터·데이터 비율 = "파라미터 1개당 토큰 20개". 파라미터 2배 → 데이터 2배
DeepMind가 70B Chinchilla를 1.4조 토큰(비율 정확 20)에 훈련 → 280B Gopher를 모든 벤치마크에서 능가. 같은 컴퓨트로 더 작은 모델 + 더 많은 데이터 승리.
2-4. 비유 — 공부 vs 문제 풀이
Kaplan: "교과서 두께(파라미터) 늘려라". Chinchilla: "교과서 + 문제집 함께 늘려라, 페이지당 20배". 두꺼운 교과서만 있고 문제 덜 푼 학생 < 얇은 교과서 + 문제 많이 푼 학생.
2-5. 핵심 공식
C ≈ 6 × N × D (컴퓨트 ≈ 6 × 파라미터 × 토큰)
GPT-4: 1.8조 파라미터 × 13조 토큰 → 6 × 1.8×10^12 × 1.3×10^13 = 1.4×10^26 FLOPS. H100(10^15 FLOPS/초) 5만 년치 → 2.5만 GPU 병렬 90일.
투자자 관점에서 보면
Scaling Laws 지속은 AI 인프라 투자 내구성 결정. 2025 "Scaling Wall" 논쟁 시 NVDA 단기 20% 하락. OpenAI·Anthropic "아직 체감 한계 없다" 공언 시 Capex 가이던스 상향 + NVDA·VRT·ANET 동반 상승. Meta FAIR·DeepMind·Epoch AI 연구 블로그 "compute-performance curve" 업데이트를 분기 IR과 동등 가중치 추적.
3절. Training 비용 분해
3-1. 3대 구성
3-2. GPT-4 ($100M, 2022-2023)
- GPU: A100 2.5만 개 × 90-100일
- FLOPS: 2×10^25
- 토큰: 13조
- GPU 시간당 $2-3 × 2.5만 × 24 × 100일 = $1.5-2억
3-3. GPT-5급 ($500M+, 2024-2025)
- GPU: H100/B200 10만 개 × 100-150일
- FLOPS: 10^26 (GPT-4의 5배)
- 토큰: 20조+ (합성 데이터 포함)
- 데이터 품질 확보 비용 20%+ 증가
3-4. Frontier 모델 ($1B+, 2026-2028 전망)
Anthropic CEO Amodei: "2027년경 $10B 훈련 실행 현실화":
- GB300 NVL72 랙당 $3.5M, B300 10만 개 필요 시 랙만 $5B
- 100조+ 토큰 필요 (합성 데이터 필수)
- 단일 실행 전력 500MW (원전 0.5기)
3-5. 왜 기하급수 증가
C ≈ 6ND. 성능 1 단계 올리려면 파라미터·데이터 모두 증가 → 컴퓨트 제곱 속도 증가. "성능 20% 상승 = 컴퓨트 5-10배".
투자자 관점에서 보면
Training Capex 수직 상승 = "훈련용 GPU 단일 수요자" NVIDIA 지배력 강화. 점유율 95%+. AMD MI300/MI350은 추론 치우침. Training → Inference 중심 구도 이동 시 AMD·AVGO 수혜 여지 확대. 하이퍼스케일러 실적에서 "훈련용 클러스터 증설 비중" vs "추론용 서빙 인프라 비중" 분리 독해.
4절. Inference 경제학
4-1. Training vs Inference 차이
- Training: "모델 만들기" 1회성. 완료되면 끝
- Inference: "사용자 질문 답하기" 질문마다 반복
4-2. 토큰당 가격 (2026)
출력이 입력의 3-10배 비쌈. 출력은 "autoregressive" 순차 계산, 입력은 병렬.
4-3. 비유 — 도서관·복사기
Training = "도서관 책 수집 1회성". Inference = "이용자 책 빌릴 때마다 복사기". ChatGPT 주간 3억 명 × 일 10회 = 일 30억 건 추론. 복사기 운영비가 도서관 설립비를 수년 내 역전.
4-4. MoE로 추론 비용 1/10
GPT-4 결정적 혁신. 모델을 하나의 덩어리 아닌 여러 "전문가" 집합으로 만들고, 토큰마다 소수(2명)만 활성화.
Mixtral 8x7B:
- 8 전문가, 각 70억 = 총 470억
- 토큰당 2명만 활성 → 실제 계산 130억 파라미터치
- 성능 Llama 2 70B 수준, 비용 130억 수준
비유: 10명 전문의 종합병원. 환자 1명당 전부 진료 아니라 증상 맞는 2명만 호출. 유지비(메모리) 크지만 환자당 진료비(계산) 1/5.
GPT-4도 MoE(추정 16명 111B 전문가, 총 1.8조) → 1.8조 "지식" 가지되 토큰당 계산은 2,800억 dense 모델 수준.
4-5. 추론 비용 붕괴 — 2년 100배
Silicon Data 2026 분석:
2년 전 flagship LLM $10/1M → 2026 더 나은 모델 $2.50(1/4), "괜찮은" 모델 $0.10(1/100)
원인:
- MoE 확산 → 실효 계산 1/5-1/10
- GPU 발전 (A100→H100→B200) → 전력 효율 3배
- 추론 전용 ASIC (TPU, Trainium 2, AVGO 맞춤)
- SW 최적화 (FlashAttention, Speculative Decoding)
4-6. 볼륨 효과
Training = 분기 이벤트. Inference = 초 단위.
- ChatGPT 주간 활성 3억 명
- 사용자당 일 10회 × 1,000 토큰
- 일 토큰 3×10^12 = 3조
- 연 토큰 10^15 = 1,000조
평균 $2/1M = 연 $2B 단일 서비스. OpenAI+Anthropic+Google+Meta 합산 2026 추론 매출 $30-50B, 2028 $150B+ (Morgan Stanley, Goldman Sachs 컨센).
투자자 관점에서 보면
Inference 중심 전환 시사점:
- 추론 전용 ASIC 업체(AVGO, MRVL) TAM 급확대 — 2026 Google TPU v7, AWS Trainium 2 모두 Broadcom 설계
- 추론 서비스 사업자(하이퍼스케일러 + OpenAI/Anthropic) "토큰당 마진" 주가 드라이버. MoE 도입·자체 칩 전환이 2026-2027 마진 확장 스토리 핵심
- MSFT·GOOG "AI 관련 영업이익률" 추이 분기별 점검 필수
5절. 투자자 관점 — $690B Capex
5-1. 2026 하이퍼스케일러 Capex
AI 관련 75% → AI에만 $450-500B 2026 한 해 집행.
5-2. Training 40% vs Inference 60%
2024-2025는 Training 인프라 주도. 2026 변곡점:
- Training $180-200B (40%): 10만-20만 GPU 학습 클러스터, NVIDIA B200/B300
- Inference $270-300B (60%): 수십 리전 분산 서빙, 추론 전용 ASIC 확대, Edge 초기 투자
5-3. 병목 수혜 5대 티커
1) NVIDIA (NVDA) — Training GPU 독점
- 2026 매출 $200B+ (2024 대비 3배), B200/B300 양산
- 리스크: AMD MI350 추론 잠식, ASIC 확대
2) Microsoft (MSFT) — OpenAI 지분 + Azure AI
- Copilot 가격 인상, Azure AI 2026 $50B
- Backlog $300B+
3) Alphabet (GOOG) — Gemini + TPU 수직통합
- 자체 모델 + 자체 칩 = 가장 낮은 단위 비용
- YouTube·Search 통합 트래픽 = Gemini 학습 데이터원
4) Amazon (AMZN) — AWS Trainium 2 + Anthropic
- Anthropic $4B 투자, Claude를 Bedrock 우선
- Trainium 2 대량 배포 2026
5) Meta (META) — Llama + MTIA 칩
- Llama 4로 오픈소스 표준
- 광고 매출이 Capex 감당 (FCF 버퍼 큼)
5-4. 3대 리스크
- Scaling Laws 체감: 10배 키워도 성능 2% 미만 개선 시 Capex 감속. 합성 데이터·RLHF·test-time compute 우회
- DeepSeek 쇼크: 2025-01 DeepSeek V3가 1/10 비용으로 GPT-4급 성능 → NVDA 단기 15% 하락 but 중국 GPU 수요 오히려 증가 아이러니
- 추론 효율 혁신: MoE + 양자화 + 증류로 추가 10배 하락 시 단위 매출 감소가 볼륨 증가 압도 위험
투자자 관점에서 보면
Foundation Model 경제학 = 2026 초대형 성장주 밸류에이션 근본 가정. 하이퍼스케일러 4개사 EV/EBITDA 15-22배는 "2028까지 AI 매출 연 40%+ 성장" 가격 반영. 이 전제 훼손 시: (a) NVDA 영업이익률 75→60%, (b) 하이퍼스케일러 FCF 마진 20→12%. 단기 주가보다 "분기 Capex 가이던스 + 토큰당 가격 추이 + Scaling 실증 연구" 삼각 검증. Fwd P/E 단독 판단 금지 — EV/EBITDA, EV/FCF, FCF Yield, PEG 교차.
6절. Emergent Abilities
6-1. "창발"이란
2022 Google 정의:
"작은 모델에 전혀 없다가, 특정 임계 규모 넘으면 갑자기 나타나는 능력"
비유: 물 99°C 액체, 100°C 갑자기 기체. 상전이(phase transition). 모델 크기 서서히 키워도 완만한 상승 아닌 질적 도약.
6-2. 대표 3가지
(1) In-context Learning (GPT-3 175B+):
입력: "사과 → apple, 책 → book, 자동차 → ?"
출력: "car"
훈련 없이 프롬프트 "예시 3개"만 보고 패턴 파악. 10B 이하 거의 없음.
(2) Chain-of-Thought: "단계별 생각" 지시 시 추론 전개. 임계점 ~10^23 FLOPS(~100B 파라미터).
질문: "17 × 23 + 5 = ?"
CoT: 17 × 23 = (17×20)+(17×3) = 340+51 = 391. +5 = 396
산술·논리·법률·코딩 2-5배 성능 향상.
(3) Instruction Following: "5문장 요약 + 마지막 질문으로" 복잡 지시 한 번에 처리. RLHF 거친 대형 모델만.
6-3. 왜 투자자에게 중요
- 응용 TAM 확장: 새 emergent 등장마다 기존 불가능 업무(법률·의료·코딩) 가능 → API 매출 TAM 단계적 확장
- 모델 차별화: 벤치마크 1% 차이 아닌 특정 emergent 유무가 기업 채택 결정. 2025 Anthropic "Computer Use" RPA 시장 선점
- Scaling 지속 근거: Emergent는 Scaling Laws만으로 예측 불가 — 규모 키우면 아직 발견 안 된 능력 나타날 가능성 = 하이퍼스케일러 계속 투자 근거
6-4. 반론 — "착시"
2023 스탠퍼드: "많은 emergent는 측정 지표 착시". 정확도 쓰면 0%→50% 뜀, log-likelihood는 매끄러움. 논쟁 진행 중. 투자자는 "Emergent든 smooth든 모델 성능은 규모와 확실히 증가" 만 확정.
투자자 관점에서 보면
Emergent Abilities = Foundation Model 투자 사이클 옵션 가치. 현재 TAM 스프레드시트에 아직 발견 안 된 능력 가치 반영 X. 매년 새 응용 영역 열릴 확률 가중 기대값. 이 옵션 가치가 NVDA·MSFT·GOOG Fwd P/E 정당화 비수치 요인. 반대로 "Scaling Wall 확증" 시 가장 먼저 훼손. 모델 출시마다 새 능력 리스트 추적 필수.
마치며
6개 개념 요약:
- Foundation Model — 범용 AI + 6-7개 과점
- Scaling Laws — Kaplan + Chinchilla
- Training 비용 — C≈6ND + $100M→$500M→$1B 궤적
- Inference 경제학 — MoE 1/10 절감 + Training보다 큰 시장
- 투자자 관점 — $690B Capex, Training 40% vs Inference 60%
- Emergent Abilities — 규모 만드는 질적 도약
다음 Primer:
primer-ai-agent-platforms-2026-w22: Agent 플랫폼 4강 (PLTR AIP vs Bedrock vs Vertex vs Copilot)primer-ai-inference-market-2026-w22: Inference 시장 TAMfm-agent-scorecard-2026-w22: Scorecard
출처
- Chinchilla Scaling Laws (Hoffmann et al., 2022)
- DeepMind Chinchilla Blog
- Sam Altman GPT-4 $100M — 2023-05-17
- GPT-5 $500M per run — 2025-05
- Futurum - AI Capex 2026 $690B — 2026-02
- CNBC - Tech AI spending — 2026-02-06
- Silicon Data - LLM Cost Per Token — 2026
- HuggingFace - Mixture of Experts — 2023-12
- Emergent Abilities (Wei et al., 2022)
작성: IWANNAVY LAB | 발행: 2026-05-18 | 카테고리: FM & Agent 경제학 Primer 1/4