Foundation Model 경제학 — Scaling Laws와 훈련·추론 비용

도입 — 3 질문

2023-03 Sam Altman: "GPT-4 훈련 $1억+". 2025 GPT-5급 단일 훈련 $5억. 2026 하이퍼스케일러 Capex $690B — 한국 GDP의 1/3.

Q1. 왜 GPT-4 훈련 $1억? Scaling Laws의 Kaplan (2020) + Chinchilla (2022) 공식. 파라미터 N × 데이터 D × 컴퓨트 C = 2×10^25 FLOPS → H100 GPU 2.5만 개 × 90일 = $1억.

Q2. 왜 Inference가 Training보다 큰 시장? Training은 1회, Inference는 매번. ChatGPT 주간 4억 명, GPT-4o $2.50/1M 입력. 2026 Capex $690B 중 AI 75%, 그 중 Inference 60%.

Q3. 왜 투자자가 알아야? Scaling Laws 지속 여부가 NVDA·GOOG·META·MSFT·AMZN 밸류에이션 근본 변수. Scaling Wall 확증 시 AI Capex 가이던스 뿌리부터 흔들림.

0절. Quick Glossary

용어	풀네임	정의
Foundation Model	-	방대한 데이터로 사전 학습된 범용 대형 AI 모델
Parameter	-	모델 내부 숫자 가중치 (GPT-3 175B, GPT-4 ~1.8T)
Token	-	영어 단어 3/4개, 한국어 1-2글자
FLOPS	Floating Point Operations	1 ExaFLOPS = 10^18회
Scaling Laws	-	모델·데이터·컴퓨트 증가 → 성능 예측 가능 향상
Inference	-	훈련된 모델이 새 입력에 답 생성 (= 실사용)
MoE	Mixture of Experts	소수 전문가 활성화로 계산비 절감

1절. Foundation Model이란

1-1. 정의

2021 스탠퍼드 HAI 제안. "방대한 데이터로 한 번 사전 학습해 두면, 다양한 과제(번역·요약·코딩·QA)에 범용 적용 가능한 대형 AI 모델".

이전: 과제별 별도 모델. Foundation Model: "대학 학부 교육 마친 범용 인재".

1-2. 대표 모델 (2026)

모델	개발사	특징
GPT-5 시리즈	OpenAI	ChatGPT 엔진, 상용 API 선도
Claude 4 시리즈	Anthropic	안전성·긴 컨텍스트(1M 토큰)
Gemini 2.5	Google DeepMind	멀티모달 통합
Llama 4	Meta	오픈소스 대표
Grok 3	xAI	X 실시간 데이터 연동

1-3. 왜 "대형"인가

비유: 요리책 1권 읽은 요리사 vs 전 세계 1억 권 본 요리사. 후자는 본 적 없는 재료에도 "추론" 가능. 일반화(generalization) 능력이 규모와 함께 질적 변화.

투자자 관점에서 보면

Foundation Model = "범용 기술(General Purpose Technology)". 증기기관·전기·인터넷처럼 토대 만들어지면 응용 수십 년 확산. 2026 기준 직접 훈련 가능 기업 6-7개(OpenAI, Anthropic, Google, Meta, Microsoft, xAI, DeepSeek/Alibaba) 과점. 이 구조가 훈련용 GPU 시장 NVIDIA 단일 공급 쏠리는 이유.

2절. Scaling Laws

2-1. 경험적 법칙

수학적 증명 아닌 경험적 법칙(empirical law). 수천 모델 훈련 후 발견된 규칙성. "매우 재현성 있는 패턴".

2-2. Kaplan 법칙 (2020)

OpenAI Kaplan Scaling Laws for Neural Language Models:

언어 모델 손실(loss) = 파라미터 N, 데이터 D, 컴퓨트 C의 거듭제곱 법칙

Kaplan: "컴퓨트 10배 → 대부분 모델 크기에, 데이터 조금". → GPT-3 175B, Gopher 280B가 파라미터 팽창 집중.

2-3. Chinchilla 법칙 (2022) — 게임 체인저

DeepMind Training Compute-Optimal LLMs. 70M-16B 400개+ 모델 훈련:

최적 파라미터·데이터 비율 = "파라미터 1개당 토큰 20개". 파라미터 2배 → 데이터 2배

DeepMind가 70B Chinchilla를 1.4조 토큰(비율 정확 20)에 훈련 → 280B Gopher를 모든 벤치마크에서 능가. 같은 컴퓨트로 더 작은 모델 + 더 많은 데이터 승리.

2-4. 비유 — 공부 vs 문제 풀이

Kaplan: "교과서 두께(파라미터) 늘려라". Chinchilla: "교과서 + 문제집 함께 늘려라, 페이지당 20배". 두꺼운 교과서만 있고 문제 덜 푼 학생 < 얇은 교과서 + 문제 많이 푼 학생.

2-5. 핵심 공식

C ≈ 6 × N × D (컴퓨트 ≈ 6 × 파라미터 × 토큰)

GPT-4: 1.8조 파라미터 × 13조 토큰 → 6 × 1.8×10^12 × 1.3×10^13 = 1.4×10^26 FLOPS. H100(10^15 FLOPS/초) 5만 년치 → 2.5만 GPU 병렬 90일.

투자자 관점에서 보면

Scaling Laws 지속은 AI 인프라 투자 내구성 결정. 2025 "Scaling Wall" 논쟁 시 NVDA 단기 20% 하락. OpenAI·Anthropic "아직 체감 한계 없다" 공언 시 Capex 가이던스 상향 + NVDA·VRT·ANET 동반 상승. Meta FAIR·DeepMind·Epoch AI 연구 블로그 "compute-performance curve" 업데이트를 분기 IR과 동등 가중치 추적.

3절. Training 비용 분해

3-1. 3대 구성

항목	비중
GPU 운영비	65-75%
데이터 수집·전처리	10-15%
연구 인력·실패 실험	15-20%

3-2. GPT-4 ($100M, 2022-2023)

GPU: A100 2.5만 개 × 90-100일
FLOPS: 2×10^25
토큰: 13조
GPU 시간당 $2-3 × 2.5만 × 24 × 100일 = $1.5-2억

3-3. GPT-5급 ($500M+, 2024-2025)

GPU: H100/B200 10만 개 × 100-150일
FLOPS: 10^26 (GPT-4의 5배)
토큰: 20조+ (합성 데이터 포함)
데이터 품질 확보 비용 20%+ 증가

3-4. Frontier 모델 ($1B+, 2026-2028 전망)

Anthropic CEO Amodei: "2027년경 $10B 훈련 실행 현실화":

GB300 NVL72 랙당 $3.5M, B300 10만 개 필요 시 랙만 $5B
100조+ 토큰 필요 (합성 데이터 필수)
단일 실행 전력 500MW (원전 0.5기)

3-5. 왜 기하급수 증가

C ≈ 6ND. 성능 1 단계 올리려면 파라미터·데이터 모두 증가 → 컴퓨트 제곱 속도 증가. "성능 20% 상승 = 컴퓨트 5-10배".

투자자 관점에서 보면

Training Capex 수직 상승 = "훈련용 GPU 단일 수요자" NVIDIA 지배력 강화. 점유율 95%+. AMD MI300/MI350은 추론 치우침. Training → Inference 중심 구도 이동 시 AMD·AVGO 수혜 여지 확대. 하이퍼스케일러 실적에서 "훈련용 클러스터 증설 비중" vs "추론용 서빙 인프라 비중" 분리 독해.

4절. Inference 경제학

4-1. Training vs Inference 차이

Training: "모델 만들기" 1회성. 완료되면 끝
Inference: "사용자 질문 답하기" 질문마다 반복

4-2. 토큰당 가격 (2026)

모델	입력 $/1M	출력 $/1M
GPT-4o	$2.50	$10.00
Claude Opus 4	$5.00	$25.00
Claude Sonnet 4.6	$3.00	$15.00
Gemini 2.5	$1.25	$5.00
GPT-5.2	$1.75	$14.00
Grok 3	$0.20	$0.90

출력이 입력의 3-10배 비쌈. 출력은 "autoregressive" 순차 계산, 입력은 병렬.

4-3. 비유 — 도서관·복사기

Training = "도서관 책 수집 1회성". Inference = "이용자 책 빌릴 때마다 복사기". ChatGPT 주간 3억 명 × 일 10회 = 일 30억 건 추론. 복사기 운영비가 도서관 설립비를 수년 내 역전.

4-4. MoE로 추론 비용 1/10

GPT-4 결정적 혁신. 모델을 하나의 덩어리 아닌 여러 "전문가" 집합으로 만들고, 토큰마다 소수(2명)만 활성화.

Mixtral 8x7B:

8 전문가, 각 70억 = 총 470억
토큰당 2명만 활성 → 실제 계산 130억 파라미터치
성능 Llama 2 70B 수준, 비용 130억 수준

비유: 10명 전문의 종합병원. 환자 1명당 전부 진료 아니라 증상 맞는 2명만 호출. 유지비(메모리) 크지만 환자당 진료비(계산) 1/5.

GPT-4도 MoE(추정 16명 111B 전문가, 총 1.8조) → 1.8조 "지식" 가지되 토큰당 계산은 2,800억 dense 모델 수준.

4-5. 추론 비용 붕괴 — 2년 100배

Silicon Data 2026 분석:

2년 전 flagship LLM $10/1M → 2026 더 나은 모델 $2.50(1/4), "괜찮은" 모델 $0.10(1/100)

원인:

MoE 확산 → 실효 계산 1/5-1/10
GPU 발전 (A100→H100→B200) → 전력 효율 3배
추론 전용 ASIC (TPU, Trainium 2, AVGO 맞춤)
SW 최적화 (FlashAttention, Speculative Decoding)

4-6. 볼륨 효과

Training = 분기 이벤트. Inference = 초 단위.

ChatGPT 주간 활성 3억 명
사용자당 일 10회 × 1,000 토큰
일 토큰 3×10^12 = 3조
연 토큰 10^15 = 1,000조

평균 $2/1M = 연 $2B 단일 서비스. OpenAI+Anthropic+Google+Meta 합산 2026 추론 매출 $30-50B, 2028 $150B+ (Morgan Stanley, Goldman Sachs 컨센).

투자자 관점에서 보면

Inference 중심 전환 시사점:

추론 전용 ASIC 업체(AVGO, MRVL) TAM 급확대 — 2026 Google TPU v7, AWS Trainium 2 모두 Broadcom 설계
추론 서비스 사업자(하이퍼스케일러 + OpenAI/Anthropic) "토큰당 마진" 주가 드라이버. MoE 도입·자체 칩 전환이 2026-2027 마진 확장 스토리 핵심
MSFT·GOOG "AI 관련 영업이익률" 추이 분기별 점검 필수

5절. 투자자 관점 — $690B Capex

5-1. 2026 하이퍼스케일러 Capex

회사	2026 가이던스	증가율
Amazon	$200B	+35%
Alphabet	$175-185B	+30%
Meta	$115-135B	+45%
Microsoft	$120B+	+25%
Oracle	$50B	+100%
합계	$660-690B	+36%

AI 관련 75% → AI에만 $450-500B 2026 한 해 집행.

5-2. Training 40% vs Inference 60%

2024-2025는 Training 인프라 주도. 2026 변곡점:

Training $180-200B (40%): 10만-20만 GPU 학습 클러스터, NVIDIA B200/B300
Inference $270-300B (60%): 수십 리전 분산 서빙, 추론 전용 ASIC 확대, Edge 초기 투자

5-3. 병목 수혜 5대 티커

1) NVIDIA (NVDA) — Training GPU 독점

2026 매출 $200B+ (2024 대비 3배), B200/B300 양산
리스크: AMD MI350 추론 잠식, ASIC 확대

2) Microsoft (MSFT) — OpenAI 지분 + Azure AI

Copilot 가격 인상, Azure AI 2026 $50B
Backlog $300B+

3) Alphabet (GOOG) — Gemini + TPU 수직통합

자체 모델 + 자체 칩 = 가장 낮은 단위 비용
YouTube·Search 통합 트래픽 = Gemini 학습 데이터원

4) Amazon (AMZN) — AWS Trainium 2 + Anthropic

Anthropic $4B 투자, Claude를 Bedrock 우선
Trainium 2 대량 배포 2026

5) Meta (META) — Llama + MTIA 칩

Llama 4로 오픈소스 표준
광고 매출이 Capex 감당 (FCF 버퍼 큼)

5-4. 3대 리스크

Scaling Laws 체감: 10배 키워도 성능 2% 미만 개선 시 Capex 감속. 합성 데이터·RLHF·test-time compute 우회
DeepSeek 쇼크: 2025-01 DeepSeek V3가 1/10 비용으로 GPT-4급 성능 → NVDA 단기 15% 하락 but 중국 GPU 수요 오히려 증가 아이러니
추론 효율 혁신: MoE + 양자화 + 증류로 추가 10배 하락 시 단위 매출 감소가 볼륨 증가 압도 위험

투자자 관점에서 보면

Foundation Model 경제학 = 2026 초대형 성장주 밸류에이션 근본 가정. 하이퍼스케일러 4개사 EV/EBITDA 15-22배는 "2028까지 AI 매출 연 40%+ 성장" 가격 반영. 이 전제 훼손 시: (a) NVDA 영업이익률 75→60%, (b) 하이퍼스케일러 FCF 마진 20→12%. 단기 주가보다 "분기 Capex 가이던스 + 토큰당 가격 추이 + Scaling 실증 연구" 삼각 검증. Fwd P/E 단독 판단 금지 — EV/EBITDA, EV/FCF, FCF Yield, PEG 교차.

6절. Emergent Abilities

6-1. "창발"이란

2022 Google 정의:

"작은 모델에 전혀 없다가, 특정 임계 규모 넘으면 갑자기 나타나는 능력"

비유: 물 99°C 액체, 100°C 갑자기 기체. 상전이(phase transition). 모델 크기 서서히 키워도 완만한 상승 아닌 질적 도약.

6-2. 대표 3가지

(1) In-context Learning (GPT-3 175B+):

입력: "사과 → apple, 책 → book, 자동차 → ?"
출력: "car"

훈련 없이 프롬프트 "예시 3개"만 보고 패턴 파악. 10B 이하 거의 없음.

(2) Chain-of-Thought: "단계별 생각" 지시 시 추론 전개. 임계점 ~10^23 FLOPS(~100B 파라미터).

질문: "17 × 23 + 5 = ?"
CoT: 17 × 23 = (17×20)+(17×3) = 340+51 = 391. +5 = 396

산술·논리·법률·코딩 2-5배 성능 향상.

(3) Instruction Following: "5문장 요약 + 마지막 질문으로" 복잡 지시 한 번에 처리. RLHF 거친 대형 모델만.

6-3. 왜 투자자에게 중요

응용 TAM 확장: 새 emergent 등장마다 기존 불가능 업무(법률·의료·코딩) 가능 → API 매출 TAM 단계적 확장
모델 차별화: 벤치마크 1% 차이 아닌 특정 emergent 유무가 기업 채택 결정. 2025 Anthropic "Computer Use" RPA 시장 선점
Scaling 지속 근거: Emergent는 Scaling Laws만으로 예측 불가 — 규모 키우면 아직 발견 안 된 능력 나타날 가능성 = 하이퍼스케일러 계속 투자 근거

6-4. 반론 — "착시"

2023 스탠퍼드: "많은 emergent는 측정 지표 착시". 정확도 쓰면 0%→50% 뜀, log-likelihood는 매끄러움. 논쟁 진행 중. 투자자는 "Emergent든 smooth든 모델 성능은 규모와 확실히 증가" 만 확정.

투자자 관점에서 보면

Emergent Abilities = Foundation Model 투자 사이클 옵션 가치. 현재 TAM 스프레드시트에 아직 발견 안 된 능력 가치 반영 X. 매년 새 응용 영역 열릴 확률 가중 기대값. 이 옵션 가치가 NVDA·MSFT·GOOG Fwd P/E 정당화 비수치 요인. 반대로 "Scaling Wall 확증" 시 가장 먼저 훼손. 모델 출시마다 새 능력 리스트 추적 필수.

마치며

6개 개념 요약:

Foundation Model — 범용 AI + 6-7개 과점
Scaling Laws — Kaplan + Chinchilla
Training 비용 — C≈6ND + $100M→$500M→$1B 궤적
Inference 경제학 — MoE 1/10 절감 + Training보다 큰 시장
투자자 관점 — $690B Capex, Training 40% vs Inference 60%
Emergent Abilities — 규모 만드는 질적 도약

다음 Primer:

primer-ai-agent-platforms-2026-w22: Agent 플랫폼 4강 (PLTR AIP vs Bedrock vs Vertex vs Copilot)
primer-ai-inference-market-2026-w22: Inference 시장 TAM
fm-agent-scorecard-2026-w22: Scorecard

출처

Chinchilla Scaling Laws (Hoffmann et al., 2022)
DeepMind Chinchilla Blog
Sam Altman GPT-4 $100M — 2023-05-17
GPT-5 $500M per run — 2025-05
Futurum - AI Capex 2026 $690B — 2026-02
CNBC - Tech AI spending — 2026-02-06
Silicon Data - LLM Cost Per Token — 2026
HuggingFace - Mixture of Experts — 2023-12
Emergent Abilities (Wei et al., 2022)

작성: IWANNAVY LAB | 발행: 2026-05-18 | 카테고리: FM & Agent 경제학 Primer 1/4

Foundation Model 경제학 — Scaling Laws와 훈련·추론 비용

도입 — 3 질문

0절. Quick Glossary

1절. Foundation Model이란

1-1. 정의

1-2. 대표 모델 (2026)

1-3. 왜 "대형"인가

투자자 관점에서 보면

2절. Scaling Laws

2-1. 경험적 법칙

2-2. Kaplan 법칙 (2020)

2-3. Chinchilla 법칙 (2022) — 게임 체인저

2-4. 비유 — 공부 vs 문제 풀이

2-5. 핵심 공식

투자자 관점에서 보면

3절. Training 비용 분해

3-1. 3대 구성

3-2. GPT-4 ($100M, 2022-2023)

3-3. GPT-5급 ($500M+, 2024-2025)

3-4. Frontier 모델 ($1B+, 2026-2028 전망)

3-5. 왜 기하급수 증가

투자자 관점에서 보면

4절. Inference 경제학

4-1. Training vs Inference 차이

4-2. 토큰당 가격 (2026)

4-3. 비유 — 도서관·복사기

4-4. MoE로 추론 비용 1/10

4-5. 추론 비용 붕괴 — 2년 100배

4-6. 볼륨 효과

투자자 관점에서 보면

5절. 투자자 관점 — $690B Capex

5-1. 2026 하이퍼스케일러 Capex

5-2. Training 40% vs Inference 60%

5-3. 병목 수혜 5대 티커

5-4. 3대 리스크

투자자 관점에서 보면

6절. Emergent Abilities

6-1. "창발"이란

6-2. 대표 3가지

6-3. 왜 투자자에게 중요

6-4. 반론 — "착시"

투자자 관점에서 보면

마치며

출처

이 digest에서 정의한 핵심 용어

이 digest 주변 개념 맵 (2-hop)