<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>On Device on ICE-ICE-BEAR-BLOG</title><link>https://ice-ice-bear.github.io/ko/tags/on-device/</link><description>Recent content in On Device on ICE-ICE-BEAR-BLOG</description><generator>Hugo -- gohugo.io</generator><language>ko</language><lastBuildDate>Thu, 07 May 2026 00:00:00 +0900</lastBuildDate><atom:link href="https://ice-ice-bear.github.io/ko/tags/on-device/index.xml" rel="self" type="application/rss+xml"/><item><title>LiteRT-LM v0.11.0 — Gemma 4 MTP로 모바일 GPU 디코드 2배, Windows 네이티브 지원</title><link>https://ice-ice-bear.github.io/ko/posts/2026-05-07-litert-lm-v0-11-0-gemma4-mtp/</link><pubDate>Thu, 07 May 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-05-07-litert-lm-v0-11-0-gemma4-mtp/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post LiteRT-LM v0.11.0 — Gemma 4 MTP로 모바일 GPU 디코드 2배, Windows 네이티브 지원" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;Google의 온디바이스 LLM 런타임 &lt;a class="link" href="https://ai.google.dev/edge/litert-lm" target="_blank" rel="noopener"
 &gt;LiteRT-LM&lt;/a&gt;이 &lt;a class="link" href="https://github.com/google-ai-edge/LiteRT-LM/releases/tag/v0.11.0" target="_blank" rel="noopener"
 &gt;v0.11.0&lt;/a&gt;을 풀었다. 핵심 두 가지: Gemma 4를 위한 &lt;strong&gt;Single Position Multi-token Prediction (MTP)&lt;/strong&gt; 으로 모바일 GPU 디코드 속도가 2배 이상 빨라졌고, &lt;strong&gt;Windows 네이티브&lt;/strong&gt;(CPU + GPU)가 처음으로 정식 지원된다. 같은 시기 워크스테이션 진영(DGX Spark + Qwen3.5)에서도 MTP-2가 +36% 속도를 보여준 만큼, MTP가 모바일부터 워크스테이션까지 가로지르는 &lt;strong&gt;공통 디코드 가속 기법&lt;/strong&gt;으로 빠르게 표준화되는 흐름이 보인다.&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;graph TD
 Input["입력 위치 t"] --&gt; Target["Gemma 4 타겟 모델"]
 Input --&gt; Drafter["MTP Drafter &amp;lt;br/&amp;gt; (lightweight)"]
 Drafter --&gt; Draft["draft 토큰 t+1, t+2, ..., t+k"]
 Draft --&gt; Verify["타겟 모델 1회 forward로 검증"]
 Target --&gt; Verify
 Verify --&gt; Accept["일치하는 prefix 채택 &amp;lt;br/&amp;gt; + 1개 추가 생성"]
 Accept --&gt; Output["다중 토큰을 단일 step에 emit"]&lt;/pre&gt;&lt;h2 id="1-gemma-4-multi-token-prediction-지원"&gt;1. Gemma 4 Multi-token Prediction 지원
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://github.com/google-ai-edge/LiteRT-LM/releases/tag/v0.11.0" target="_blank" rel="noopener"
 &gt;릴리스 노트&lt;/a&gt;의 첫 줄: &lt;strong&gt;&amp;ldquo;모바일 GPU에서 디코드 속도 2배 이상, 품질 저하 zero&amp;rdquo;&lt;/strong&gt;. 그 뒤 메커니즘은 &lt;a class="link" href="https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/" target="_blank" rel="noopener"
 &gt;Gemma 4용 MTP를 다룬 Google 블로그&lt;/a&gt;와 &lt;a class="link" href="https://ai.google.dev/edge/litert-lm/models/gemma-4" target="_blank" rel="noopener"
 &gt;공식 문서&lt;/a&gt;에 정리돼 있다.&lt;/p&gt;
&lt;p&gt;핵심은 &lt;strong&gt;speculative decoding의 변형&lt;/strong&gt;이다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;한 위치(single position)에서 lightweight &lt;strong&gt;drafter&lt;/strong&gt;가 미래 여러 토큰을 한 번에 예측&lt;/li&gt;
&lt;li&gt;큰 &lt;strong&gt;target 모델&lt;/strong&gt;(예: Gemma 4 26B/31B)이 한 번의 forward로 draft sequence 전체를 검증&lt;/li&gt;
&lt;li&gt;target이 동의하면 prefix 전체 채택 + 추가 토큰 1개를 자체 생성&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;표준 LLM 추론이 &lt;strong&gt;memory-bandwidth bound&lt;/strong&gt; 라서 대부분의 사이클이 파라미터 전송에 쓰이는데, MTP는 같은 메모리 패스에서 더 많은 토큰을 뽑아내는 식으로 이 병목을 비튼다.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;플랫폼별 가속:&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;플랫폼&lt;/th&gt;
 &lt;th&gt;백엔드&lt;/th&gt;
 &lt;th&gt;속도 향상&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;모바일 GPU (Samsung S26 Ultra, iPhone 17 Pro 등)&lt;/td&gt;
 &lt;td&gt;GPU&lt;/td&gt;
 &lt;td&gt;최대 2.2× decode&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;모바일 CPU&lt;/td&gt;
 &lt;td&gt;CPU&lt;/td&gt;
 &lt;td&gt;최대 1.5× decode&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Apple Silicon (M4 MacBook Pro)&lt;/td&gt;
 &lt;td&gt;CPU + SME&lt;/td&gt;
 &lt;td&gt;큰 개선 (batch 4–8에서 약 2.2×)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;NVIDIA RTX PRO 6000 (26B)&lt;/td&gt;
 &lt;td&gt;GPU&lt;/td&gt;
 &lt;td&gt;약 50% latency 감소&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;NVIDIA RTX 4090 / Linux ARM&lt;/td&gt;
 &lt;td&gt;GPU&lt;/td&gt;
 &lt;td&gt;일관된 가속&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;중요 디테일&lt;/strong&gt; — GPU 워크로드에서는 universally 권장, E4B는 CPU에서도 권장. &lt;strong&gt;E2B는 CPU에서 freeform 생성 시 약간 느려질 수 있음&lt;/strong&gt; — rewrite/summarization/coding 같이 input prefix가 긴 태스크에선 여전히 이득.&lt;/p&gt;
&lt;p&gt;지원 모델은 &lt;a class="link" href="https://ai.google.dev/edge/litert-lm/models/gemma-4" target="_blank" rel="noopener"
 &gt;&lt;code&gt;Gemma-4-E2B&lt;/code&gt;&lt;/a&gt; (2.58 GB) / &lt;code&gt;Gemma-4-E4B&lt;/code&gt; (3.65 GB)가 우선이고 26B A4B, 31B는 곧.&lt;/p&gt;
&lt;h2 id="2-windows-네이티브-지원"&gt;2. Windows 네이티브 지원
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://ai.google.dev/edge/litert-lm/cli" target="_blank" rel="noopener"
 &gt;LiteRT-LM CLI&lt;/a&gt;가 Windows에서 &lt;strong&gt;CPU와 GPU 백엔드 모두&lt;/strong&gt; 네이티브로 동작한다. 이전엔 Linux/macOS/Android 위주라 Windows 개발자는 WSL을 거쳐야 했다.&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;litert-lm run --from-huggingface-repo&lt;span class="o"&gt;=&lt;/span&gt;litert-community/gemma-4-E2B-it-litert-lm
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;명시되지 않은 의도가 분명히 보인다 — &lt;strong&gt;워크스테이션/노트북 개발자를 곧장 끌어들이는 이동 경로&lt;/strong&gt;다. Android 디바이스 없으면 손대기 어렵던 진입 장벽이 사라진다.&lt;/p&gt;
&lt;h2 id="3-litert-스택--tf-lite의-후속"&gt;3. LiteRT 스택 — TF Lite의 후속
&lt;/h2&gt;&lt;p&gt;조금 떨어져서 보면 이게 어디 들어맞는지 보인다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;TensorFlow Lite&lt;/strong&gt;(이전 이름) → &lt;a class="link" href="https://ai.google.dev/edge/litert" target="_blank" rel="noopener"
 &gt;LiteRT&lt;/a&gt; (Light Runtime, 2024 리브랜드)&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;LiteRT-LM&lt;/strong&gt; = LLM에 특화된 LiteRT 변형&lt;/li&gt;
&lt;li&gt;모델 패밀리: &lt;a class="link" href="https://ai.google.dev/gemma" target="_blank" rel="noopener"
 &gt;Gemma&lt;/a&gt; — Google의 오픈 가중치 LLM&lt;/li&gt;
&lt;li&gt;타겟: &lt;strong&gt;온디바이스 추론&lt;/strong&gt; — 모바일, 엣지, 임베디드, 데스크톱&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Apache 2.0 라이선스. CPU + GPU + (Apple Silicon에서) SME 백엔드. Hugging Face와 직접 연결되는 &lt;a class="link" href="https://huggingface.co/litert-community" target="_blank" rel="noopener"
 &gt;&lt;code&gt;litert-community&lt;/code&gt;&lt;/a&gt; 레포.&lt;/p&gt;
&lt;h2 id="4-mtp가-표준이-되는-중"&gt;4. MTP가 표준이 되는 중
&lt;/h2&gt;&lt;p&gt;흥미로운 건 MTP가 한 회사 / 한 모델 패밀리의 트릭이 아니라는 점이다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;며칠 전 &lt;a class="link" href="#" &gt;albond DGX Spark + Qwen3.5 포스트&lt;/a&gt;에서도 &lt;strong&gt;MTP-2&lt;/strong&gt; 가 +36% 디코드 속도를 보여줬다 — 워크스테이션 클래스 GPU에서.&lt;/li&gt;
&lt;li&gt;Gemma 4 + LiteRT-LM은 같은 아이디어를 **모바일 GPU에서 2.2×**로 뽑아낸다.&lt;/li&gt;
&lt;li&gt;두 케이스 모두 &lt;strong&gt;품질 저하 zero&lt;/strong&gt; — target 모델이 최종 검증을 하기 때문.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;MTP가 자리잡는 위치는 &lt;strong&gt;inference-time 가속의 사실상 표준&lt;/strong&gt;이다. transformer attention이 표준이 됐듯, 향후 1년 안에 거의 모든 production decoder에 어떤 형태로든 들어갈 가능성이 높다.&lt;/p&gt;
&lt;h2 id="5-클라우드와-엣지의-동시-발전"&gt;5. 클라우드와 엣지의 동시 발전
&lt;/h2&gt;&lt;p&gt;같은 날 OpenAI는 &lt;a class="link" href="https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api" target="_blank" rel="noopener"
 &gt;Realtime 음성 모델 3종&lt;/a&gt;과 &lt;a class="link" href="https://openai.com/index/mrc-supercomputer-networking" target="_blank" rel="noopener"
 &gt;MRC 슈퍼컴 네트워킹&lt;/a&gt;을 풀었고, 같은 날 Google은 LiteRT-LM v0.11.0을 풀었다. 한쪽은 &lt;strong&gt;단일 회사가 5사 컨소시엄을 이끌고 슈퍼컴 표준을 만드는&lt;/strong&gt; 그림, 다른 한쪽은 &lt;strong&gt;한 손에 들어가는 디바이스에서 LLM이 production-ready로 돌아가게 만드는&lt;/strong&gt; 그림. 양쪽 다 production-ready라는 점이 핵심이다 — LLM은 더 이상 &amp;ldquo;클라우드 vs 엣지&amp;rdquo; 양자택일이 아니라 &lt;strong&gt;둘 다 동시에 진보&lt;/strong&gt;하는 단계에 들어왔다.&lt;/p&gt;
&lt;h2 id="인사이트"&gt;인사이트
&lt;/h2&gt;&lt;p&gt;LiteRT-LM v0.11.0은 작은 마이너 릴리스처럼 보이지만 두 가지 시그널을 함께 던진다. 첫째, &lt;strong&gt;MTP가 모바일 GPU까지 내려왔다는 건&lt;/strong&gt; speculative decoding 계열 기법이 더 이상 데이터센터의 사치가 아니라 &lt;strong&gt;배터리·발열 예산 안에서 작동하는 표준 가속&lt;/strong&gt;이 됐다는 뜻이다. 둘째, &lt;strong&gt;Windows 네이티브 지원&lt;/strong&gt;은 단순한 OS 추가가 아니라 LiteRT-LM이 모바일 데모 라이브러리에서 &lt;strong&gt;개발자 진입 첫 화면&lt;/strong&gt;으로 위치를 옮겼다는 뜻이다. 같은 주에 Qwen3.5의 MTP-2와 Gemma 4의 MTP가 동시에 나온 건 우연이 아니라, &lt;strong&gt;2026년 하반기에 디코드 속도 향상이 모델 크기 경쟁만큼 중요한 축&lt;/strong&gt;이 된다는 신호다. 클라우드 쪽이 GPT-Realtime-2 + MRC로 빠르게 가는 동안 엣지 쪽도 Gemma 4 + LiteRT-LM으로 같이 빠르게 가고 있고, 이는 &lt;strong&gt;양 진영 모두에서 LLM이 production-ready로 동시에 들어가는&lt;/strong&gt; 첫 분기다. 한국 개발자 입장에서 가장 즉시 시도해볼 수 있는 건 Windows에서 &lt;code&gt;litert-lm run --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm&lt;/code&gt; 한 줄로 시작하는 길이다.&lt;/p&gt;
&lt;h2 id="참고"&gt;참고
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;Release&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/google-ai-edge/LiteRT-LM/releases/tag/v0.11.0" target="_blank" rel="noopener"
 &gt;google-ai-edge/LiteRT-LM v0.11.0 릴리스 페이지&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/google-ai-edge/LiteRT-LM" target="_blank" rel="noopener"
 &gt;google-ai-edge/LiteRT-LM 저장소&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Model and runtime docs&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://ai.google.dev/edge/litert" target="_blank" rel="noopener"
 &gt;LiteRT 홈페이지 (ai.google.dev/edge/litert)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://ai.google.dev/edge/litert-lm" target="_blank" rel="noopener"
 &gt;LiteRT-LM 공식 문서&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://ai.google.dev/edge/litert-lm/models/gemma-4" target="_blank" rel="noopener"
 &gt;Gemma 4 with LiteRT-LM&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://ai.google.dev/edge/litert-lm/cli" target="_blank" rel="noopener"
 &gt;LiteRT-LM CLI 문서&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://ai.google.dev/gemma" target="_blank" rel="noopener"
 &gt;Gemma 모델 패밀리&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.tensorflow.org/lite" target="_blank" rel="noopener"
 &gt;TensorFlow Lite (LiteRT 전신)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://huggingface.co/litert-community" target="_blank" rel="noopener"
 &gt;Hugging Face — litert-community&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;MTP technique references&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/" target="_blank" rel="noopener"
 &gt;Google: Multi-token Prediction for Gemma 4&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2211.17192" target="_blank" rel="noopener"
 &gt;Big Bench Audio / 일반 speculative decoding 배경&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;워크스테이션 사례 비교: 같은 가족 기법 — DGX Spark에서 Qwen3.5 + MTP-2 +36% 디코드 속도 (이전 포스트)&lt;/li&gt;
&lt;/ul&gt;</description></item></channel></rss>