<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Spot Instances on ICE-ICE-BEAR-BLOG</title><link>https://ice-ice-bear.github.io/ko/tags/spot-instances/</link><description>Recent content in Spot Instances on ICE-ICE-BEAR-BLOG</description><generator>Hugo -- gohugo.io</generator><language>ko</language><lastBuildDate>Wed, 22 Apr 2026 00:00:00 +0900</lastBuildDate><atom:link href="https://ice-ice-bear.github.io/ko/tags/spot-instances/index.xml" rel="self" type="application/rss+xml"/><item><title>RunPod Spot vs On-Demand — 50% 할인이 중단 위험을 감당할 가치가 있을 때</title><link>https://ice-ice-bear.github.io/ko/posts/2026-04-22-runpod-spot-vs-ondemand/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-04-22-runpod-spot-vs-ondemand/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post RunPod Spot vs On-Demand — 50% 할인이 중단 위험을 감당할 가치가 있을 때" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://www.runpod.io/blog/spot-vs-on-demand-instances-runpod" target="_blank" rel="noopener"
 &gt;RunPod의 &amp;ldquo;Spot vs. On-Demand Instances&amp;rdquo; 블로그 글&lt;/a&gt;은 짧지만, 많은 사람이 잘못 내리는 결정을 정확히 프레이밍한다. 스팟은 같은 GPU의 온디맨드 대비 대략 절반 가격이지만 예고 없이 중단될 수 있다. 이게 득이냐 재앙이냐는 워크로드의 단 하나의 속성에 달렸다: &lt;strong&gt;체크포인트하고 재개할 수 있는가?&lt;/strong&gt;&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;graph TD
 W["GPU 워크로드"] --&gt; Q1{"체크포인트/재개&amp;lt;br/&amp;gt;가능한가?"}
 Q1 --&gt;|"yes"| Q2{"완료 시간이&amp;lt;br/&amp;gt;중요한가?"}
 Q1 --&gt;|"no"| OD["항상&amp;lt;br/&amp;gt;On-Demand"]
 Q2 --&gt;|"yes"| OD
 Q2 --&gt;|"no"| Spot["Spot&amp;lt;br/&amp;gt;~50% 저렴"]
 Spot --&gt; Note1["맞는 워크로드:&amp;lt;br/&amp;gt;- 학습 런&amp;lt;br/&amp;gt;- 배치 추론&amp;lt;br/&amp;gt;- 체크포인트 있는 파인튜닝"]
 OD --&gt; Note2["OD 필요한 워크로드:&amp;lt;br/&amp;gt;- 인터랙티브 노트북&amp;lt;br/&amp;gt;- 사용자 대응 추론&amp;lt;br/&amp;gt;- 타이트 SLA"]&lt;/pre&gt;&lt;h2 id="가격의-실체"&gt;가격의 실체
&lt;/h2&gt;&lt;p&gt;글의 예시: A6000이 &lt;strong&gt;스팟 $0.232/gpu/hour&lt;/strong&gt;, &lt;strong&gt;온디맨드 $0.491/gpu/hour&lt;/strong&gt;. 할인율은 RTX 4090·A100·H100 등 대부분 SKU에서 50% 근처로 일관된다. 정확한 차이는 가용성에 따라 흔들린다. 계산은 깔끔하다: 24시간 학습 런이 온디맨드 $11.78, 스팟 $5.57. 한 달 헤비 학습이면 $353 vs $167의 차이.&lt;/p&gt;
&lt;p&gt;가격이 매력적이라 질문은 &amp;ldquo;스팟을 쓸까&amp;quot;가 아니라 &amp;ldquo;어떤 워크로드가 중단을 견디는가&amp;quot;다.&lt;/p&gt;
&lt;h2 id="중단-계약"&gt;중단 계약
&lt;/h2&gt;&lt;p&gt;글의 핵심 문장: &lt;em&gt;&amp;ldquo;스팟 인스턴스는 예고 없이 중단될 수 있고, 온디맨드 인스턴스는 중단 불가.&amp;rdquo;&lt;/em&gt; AWS EC2 스팟과 비교하면 RunPod 스팟은 &lt;strong&gt;더 거칠다&lt;/strong&gt; — AWS는 종료 전 2분 경고를 준다. RunPod은 주지 않을 수 있다. 실전 의미:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;graceful shutdown 핸들러에 상태 저장을 의존할 수 없다.&lt;/strong&gt; 두 줄 코드 사이에 인스턴스가 사라질 수 있다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;영속 볼륨 스토리지가 계약이다.&lt;/strong&gt; 중단 순간 팟 임시 디스크에 있던 건 사라진다. 붙은 볼륨에 있는 건 살아남는다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;체크포인트 빈도가 비용/신뢰성 노브다.&lt;/strong&gt; 1분마다 찍으면 체크포인트 쓰기에 컴퓨트를 낭비한다. 시간마다 찍으면 55분에 선점당해 55분을 잃는다.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="잘-맞는-워크로드"&gt;잘 맞는 워크로드
&lt;/h2&gt;&lt;p&gt;글과 프로덕션 경험을 종합:&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;자동 체크포인트 있는 학습 런.&lt;/strong&gt; PyTorch Lightning의 &lt;code&gt;ModelCheckpoint&lt;/code&gt;, Hugging Face &lt;code&gt;Trainer(save_steps=...)&lt;/code&gt;, 또는 N 스텝마다 커스텀 체크포인트 루프를 쓰는 것. 학습 루프가 마지막 체크포인트에서 1–2분 이상 손실 없이 재개할 수 있으면 스팟이 거의 항상 맞다.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;대용량 배치 추론.&lt;/strong&gt; 완료 항목 리스트를 붙은 볼륨에 영속해서 진행을 체크포인트한다. 선점되면 새 팟이 리스트를 읽고 이어간다. 고전적인 embarrassingly parallel 배치 작업.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;옵티마이저 상태 스냅샷 있는 파인튜닝.&lt;/strong&gt; 7B 모델의 LoRA 파인튜닝은 대체로 시간 단위 걸리고 자연스럽게 중간 체크포인트를 만든다. 스팟 선점 → 재기동 → 마지막 체크포인트에서 재개. 총 wall time은 늘지만 비용은 절반.&lt;/p&gt;
&lt;h2 id="온디맨드가-필요한-워크로드"&gt;온디맨드가 필요한 워크로드
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;인터랙티브 Jupyter 노트북.&lt;/strong&gt; 실험 중간 상태를 잃고 싶은 사람은 없다. 글의 문장: &lt;em&gt;&amp;ldquo;Jupyter 노트북에서 실험 흐름 중간에 중단되는 걸 원하는 사람은 없다.&amp;rdquo;&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;사용자 대응 추론.&lt;/strong&gt; 실제 사용자가 응답을 기다리면 요청 중간에 워커를 선점할 수 없다. PopCon의 GPU 워커가 바로 이 모양 — 사용자가 &amp;ldquo;생성&amp;quot;을 클릭하고 초 단위 응답을 기대한다.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;타이트 SLA 잡.&lt;/strong&gt; 4시간 데드라인을 놓치는 비즈니스 비용이 있다면, 스팟의 예측 불가 wall-clock은 리스크다. 달러 절약이 데드라인 리스크를 덮지 못한다.&lt;/p&gt;
&lt;h2 id="숨은-세-번째-옵션-serverless"&gt;숨은 세 번째 옵션: Serverless
&lt;/h2&gt;&lt;p&gt;글이 다루지는 않지만 RunPod &lt;strong&gt;Serverless&lt;/strong&gt;는 의미 있는 세 번째 카테고리다. Serverless가 풀 관리를 대신 한다 — 인스턴스가 워밍되고, 요청이 올 때까지 idle로 유지되고, 실행 시간 초 단위로 과금. 전통적 의미의 스팟도 온디맨드도 아니지만, 스팟이 해결하는 문제(idle GPU에 지불하지 않기)를 다른 메커니즘(관리 풀 + 요청별 과금)으로 푼다.&lt;/p&gt;
&lt;p&gt;언제 무엇을 고를까:&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;워크로드&lt;/th&gt;
 &lt;th&gt;최적&lt;/th&gt;
 &lt;th&gt;이유&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;인터랙티브 노트북&lt;/td&gt;
 &lt;td&gt;On-demand Pod&lt;/td&gt;
 &lt;td&gt;중단을 허용할 수 없음&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;사용자 대응 추론 (저QPS)&lt;/td&gt;
 &lt;td&gt;Serverless&lt;/td&gt;
 &lt;td&gt;0축소, 웜 엔드포인트의 콜드 스타트 페널티 無&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;사용자 대응 추론 (고QPS)&lt;/td&gt;
 &lt;td&gt;On-demand Pod&lt;/td&gt;
 &lt;td&gt;일관된 레이턴시, 스케일에서 예측 가능한 비용&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;학습 런 (체크포인트)&lt;/td&gt;
 &lt;td&gt;Spot&lt;/td&gt;
 &lt;td&gt;~50% 비용 절감, 중단 복구 가능&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;배치 추론&lt;/td&gt;
 &lt;td&gt;Spot&lt;/td&gt;
 &lt;td&gt;embarrassingly parallel, 체크포인트 쉬움&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;파인튜닝&lt;/td&gt;
 &lt;td&gt;Spot&lt;/td&gt;
 &lt;td&gt;체크포인트가 워크플로에 자연스럽게 있음&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="실전-룰"&gt;실전 룰
&lt;/h2&gt;&lt;p&gt;글의 프레이밍: &lt;em&gt;&amp;ldquo;자동화가 잘 되어 있거나, 워크로드가 그다지 중요하지 않고 도박을 감수할 수 있을 때 스팟을 써라. 멈추지 않음을 보장받아야 할 때 온디맨드를 써라.&amp;rdquo;&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;옳지만 실전 엔지니어링 룰을 빼놓았다: &lt;strong&gt;스팟 등급 절감은 체크포인트/재개를 이미 짰을 때에만 얻는다.&lt;/strong&gt; 안 짰다면 스팟의 실효 비용은 온디맨드 + 선점으로 실험이 파괴됐을 때 다시 짜는 시간이다. 네 시급을 절감 계산에 넣어라.&lt;/p&gt;
&lt;h2 id="인사이트"&gt;인사이트
&lt;/h2&gt;&lt;p&gt;스팟/온디맨드/서버리스 삼각형이 오늘날 GPU 클라우드 비용을 생각하는 맞는 방식이다. 너무 많은 팀이 모든 걸 온디맨드 기본값으로 돌리고 GPU 청구서를 불평한다. 반대편 실패 모드 — 체크포인트 없이 스팟 기본값 — 도 똑같이 나쁘다. 결정적 질문은 항상: &lt;strong&gt;이 인스턴스가 다음 60초 안에 죽으면 어떻게 되는가?&lt;/strong&gt; 답이 &amp;ldquo;마지막 체크포인트에서 재개한다&amp;quot;면 스팟. 답이 &amp;ldquo;실험을 잃는다 / 사용자가 에러를 본다&amp;quot;면 온디맨드나 Serverless. 체크포인트 레이어는 한 번 만들어두면 스팟이 청구서를 반으로 자르는 첫 학습 런에서 본전을 뽑는다.&lt;/p&gt;</description></item></channel></rss>