<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Llm Eval on ICE-ICE-BEAR-BLOG</title><link>https://ice-ice-bear.github.io/ko/tags/llm-eval/</link><description>Recent content in Llm Eval on ICE-ICE-BEAR-BLOG</description><generator>Hugo -- gohugo.io</generator><language>ko</language><lastBuildDate>Wed, 06 May 2026 00:00:00 +0900</lastBuildDate><atom:link href="https://ice-ice-bear.github.io/ko/tags/llm-eval/index.xml" rel="self" type="application/rss+xml"/><item><title>Polaris MCFG — 라이센스 안전한 폰트 메트릭 호환 생성기, 그리고 LLM 평가 루브릭 토론</title><link>https://ice-ice-bear.github.io/ko/posts/2026-05-06-polaris-mcfg-and-llm-eval-rubric/</link><pubDate>Wed, 06 May 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-05-06-polaris-mcfg-and-llm-eval-rubric/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post Polaris MCFG — 라이센스 안전한 폰트 메트릭 호환 생성기, 그리고 LLM 평가 루브릭 토론" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://github.com/PolarisOffice/polaris_mcfg" target="_blank" rel="noopener"
 &gt;PolarisOffice/polaris_mcfg&lt;/a&gt;는 2026-04-26에 풀린 폴라리스오피스 제품팀의 도구로 보인다. 한컴 폰트나 사내 상용 폰트처럼 &lt;strong&gt;재배포가 제한된 폰트&lt;/strong&gt;에서 &lt;strong&gt;레이아웃 메트릭만&lt;/strong&gt; 추출해, &lt;a class="link" href="https://fonts.google.com/noto/specimen/Noto&amp;#43;Sans" target="_blank" rel="noopener"
 &gt;NotoSans&lt;/a&gt;·&lt;a class="link" href="https://github.com/orioncactus/pretendard" target="_blank" rel="noopener"
 &gt;Pretendard&lt;/a&gt; 같은 자유 라이센스 폰트의 글리프 디자인에 입혀 새 폰트를 만든다. 결과물은 &lt;strong&gt;원본 문서의 줄바꿈/페이지 분할이 그대로 유지되면서도 라이센스가 안전한 폰트&lt;/strong&gt;다. 흥미로운 점은 같은 시기에 &lt;strong&gt;LLM 평가 루브릭&lt;/strong&gt; 이야기가 함께 회자됐다는 것 — 두 토픽 모두 production-grade engineering의 단면이다.&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;graph TD
 Source["Source font.ttf &amp;lt;br/&amp;gt; (상용/제한)"] --&gt; Extract["mcfg extract"]
 Extract --&gt; Metrics["metrics.json &amp;lt;br/&amp;gt; advance/ascender/descender"]
 Free["Free font.ttf &amp;lt;br/&amp;gt; (NotoSans/Pretendard)"] --&gt; Generate["mcfg generate"]
 Metrics --&gt; Generate
 Generate --&gt; Output["Polaris font.ttf &amp;lt;br/&amp;gt; OFL-safe"]
 Output --&gt; Validate["mcfg validate &amp;lt;br/&amp;gt; HarfBuzz 렌더링 회귀"]
 Validate --&gt; Pass["PASS &amp;lt;br/&amp;gt; advance widths 일치 &amp;lt;br/&amp;gt; 렌더링 ±0.5 percent"]&lt;/pre&gt;&lt;h2 id="풀려는-문제"&gt;풀려는 문제
&lt;/h2&gt;&lt;p&gt;기업 문서 환경에서 한컴 폰트로 작성된 .hwp/.docx를 다른 환경에서 열면 &lt;strong&gt;줄바꿈과 페이지 분할이 깨진다&lt;/strong&gt;. 글리프 모양이 다른 게 문제가 아니다 — advance width, ascender, descender, line gap 같은 &lt;strong&gt;숫자 메트릭이 다르기 때문&lt;/strong&gt;이다. polaris_mcfg는 이 문제를 정확히 한 줄로 풀었다: outline은 건드리지 않고, 숫자 메트릭만 자유 폰트에 이식한다.&lt;/p&gt;
&lt;h2 id="핵심-분리--라이센스-안전-경계"&gt;핵심 분리 — 라이센스 안전 경계
&lt;/h2&gt;&lt;p&gt;도구가 다루는 데이터는 &lt;strong&gt;숫자 메트릭만&lt;/strong&gt;이다. 글리프 outline은 추출도 복제도 하지 않는다. 따라서 생성된 폰트의 시각적 디자인은 100% 자유 폰트 쪽이고, 라이센스도 자유 폰트의 라이센스를 따른다. &lt;a class="link" href="https://openfontlicense.org/" target="_blank" rel="noopener"
 &gt;SIL Open Font License (OFL)&lt;/a&gt; 1.1 — 2007년 SIL International의 Victor Gaultney와 Nicolas Spalinger가 마지막으로 손본 이후 20년 가까이 변하지 않은, 폰트 산업의 사실상 표준 자유 라이센스다. NotoSans·Pretendard 모두 OFL.&lt;/p&gt;
&lt;h2 id="cli"&gt;CLI
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;서브커맨드&lt;/th&gt;
 &lt;th&gt;설명&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;code&gt;mcfg extract &amp;lt;font.ttf&amp;gt;&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;메트릭 → JSON&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;code&gt;mcfg compare a b&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;두 폰트(또는 JSON) 비교 (text/json/html)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;code&gt;mcfg generate --metrics … --design …&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;합성 폰트 생성&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;code&gt;mcfg validate &amp;lt;font&amp;gt; --against …&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;메트릭 만족 여부 검증&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;mcfg extract NotoSansKR-Bold.ttf -o bold.json
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;mcfg generate &lt;span class="se"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; --metrics bold.json &lt;span class="se"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; --design NotoSansKR-Regular.ttf &lt;span class="se"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; --output PolarisBoldMetrics-Regular.ttf &lt;span class="se"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; --apply global,advance &lt;span class="se"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; --license-text &lt;span class="s2"&gt;&amp;#34;SIL Open Font License 1.1&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;mcfg validate PolarisBoldMetrics-Regular.ttf &lt;span class="se"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; --against NotoSansKR-Bold.ttf &lt;span class="se"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; --render-default &lt;span class="se"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; --render-tolerance-pct 0.5
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# → result: PASS (advance widths 일치, 렌더링 ±0.5% 이내)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;검증 단계에 &lt;a class="link" href="https://harfbuzz.github.io/" target="_blank" rel="noopener"
 &gt;HarfBuzz&lt;/a&gt;를 쓴다. OpenType shaping의 사실상 표준 엔진이라 — 실제 렌더링 결과를 픽셀 단위로 비교해야 메트릭 이식이 진짜 통했는지 확인할 수 있기 때문이다.&lt;/p&gt;
&lt;h2 id="마일스톤과-라이센스-책임"&gt;마일스톤과 라이센스 책임
&lt;/h2&gt;&lt;p&gt;M1 메트릭 추출기 + JSON 스키마부터 M7 패키징/문서까지 모두 완주, 84 tests 통과. 도구 코드는 MIT, 생성된 폰트는 디자인 폰트 라이센스(OFL 등)을 따른다. 다만 &lt;strong&gt;소스 폰트의 EULA가 메트릭 추출을 허용하는지 검토할 책임은 사용자 본인&lt;/strong&gt;(Requirements.md §6)이다. 도구가 라이센스 회피 자동화 머신이 아니라 정직한 분리 도구라는 점을 분명히 한다.&lt;/p&gt;
&lt;h2 id="함께-회자된-llm-평가-루브릭-토론"&gt;함께 회자된 LLM 평가 루브릭 토론
&lt;/h2&gt;&lt;p&gt;이 링크의 직전 대화가 무관해 보이지만 사실 매우 흥미로운 LLM 평가 토론이었다.&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&amp;ldquo;벡터유사도나 RAGAS 지표는 채점에 적합한 방법은 아닌 것 같구요. 주관식 채점은 무조건 결국 llm 태우셔야 하고, 평가 루브릭을 먼저 작성해서 이거 기반으로 하는게 보통일 것 같습니다.&amp;rdquo;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;이 한 줄에 LLM-as-Judge 운영의 통념이 압축되어 있다. (1) &lt;a class="link" href="https://github.com/explodinggradients/ragas" target="_blank" rel="noopener"
 &gt;Vector similarity / RAGAS&lt;/a&gt;는 의미 일치를 점수화한다고 해도 채점 기준이 못 됨. (2) 주관식 채점 = LLM 호출 필수 — rule-based로 점수화 불가. (3) 평가 루브릭을 먼저 작성. LLM에게 &amp;ldquo;잘 했는지 봐줘&amp;quot;는 안 됨. &lt;strong&gt;명시적 기준표&lt;/strong&gt;가 있어야 일관성이 나온다.&lt;/p&gt;
&lt;p&gt;이 흐름은 최근 LLM eval 도구들 — &lt;a class="link" href="https://github.com/confident-ai/deepeval" target="_blank" rel="noopener"
 &gt;DeepEval&lt;/a&gt;, &lt;a class="link" href="https://github.com/evidentlyai/evidently" target="_blank" rel="noopener"
 &gt;Evidently&lt;/a&gt;, &lt;a class="link" href="https://github.com/openai/evals" target="_blank" rel="noopener"
 &gt;OpenAI Evals&lt;/a&gt; — 가 모두 가는 방향과 일치한다. &lt;strong&gt;rubric-driven judge&lt;/strong&gt;가 사실상 표준이 됐다.&lt;/p&gt;
&lt;h2 id="인사이트"&gt;인사이트
&lt;/h2&gt;&lt;p&gt;폰트 메트릭 추출기와 LLM 평가 루브릭이 같은 시기에 함께 회자된다는 점은, 이 영역이 &lt;strong&gt;&amp;ldquo;실제 제품을 만드는 사람들의 일상&amp;rdquo;&lt;/strong&gt; 임을 보여준다. 두 토픽이 표면상 무관해 보여도 본질은 같다 — 둘 다 &amp;ldquo;사람의 직관에 의존하는 영역을 명시적·검증 가능한 규칙으로 환원하는 작업&amp;quot;이다. 폰트 도구는 &amp;ldquo;메트릭이 호환되는가&amp;quot;를 HarfBuzz 렌더링 회귀로 객관화하고, LLM-as-Judge는 &amp;ldquo;답이 좋은가&amp;quot;를 루브릭으로 객관화한다. 둘 다 자동화 가능한 검증 단계를 만들어내야 production에 쓸 수 있고, 그 검증 단계가 곧 도구의 정체성이 된다. polaris_mcfg가 &lt;code&gt;validate&lt;/code&gt; 서브커맨드를 가진 것과 LLM eval 도구가 rubric을 1급 객체로 다루는 것은 완전히 같은 사고방식의 발현이다. 생산 환경에서 &amp;ldquo;그냥 잘 돌아가더라&amp;quot;는 통하지 않고, &lt;strong&gt;명시적 기준 + 자동 검증 + 회귀 추적&lt;/strong&gt;이 새 표준이라는 점에서 두 토픽은 같은 지점을 가리킨다.&lt;/p&gt;
&lt;h2 id="참고"&gt;참고
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;Tool repo and demo&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/PolarisOffice/polaris_mcfg" target="_blank" rel="noopener"
 &gt;PolarisOffice/polaris_mcfg&lt;/a&gt; — Metric-Compatible Font Generator (MIT, Python, ★4)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://polarisoffice.github.io/polaris_mcfg/" target="_blank" rel="noopener"
 &gt;데모 페이지&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Font ecosystem&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://harfbuzz.github.io/" target="_blank" rel="noopener"
 &gt;HarfBuzz&lt;/a&gt; — OpenType shaping 엔진&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://openfontlicense.org/" target="_blank" rel="noopener"
 &gt;SIL Open Font License&lt;/a&gt; — 폰트 산업 자유 라이센스 사실상 표준 (OFL 1.1, 2007)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.sil.org/" target="_blank" rel="noopener"
 &gt;SIL International&lt;/a&gt; — OFL 관리 단체&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://fonts.google.com/noto/specimen/Noto&amp;#43;Sans" target="_blank" rel="noopener"
 &gt;Noto Sans&lt;/a&gt; · &lt;a class="link" href="https://github.com/orioncactus/pretendard" target="_blank" rel="noopener"
 &gt;Pretendard&lt;/a&gt; — OFL 기반 자유 한글 폰트&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;LLM evaluation methodology&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/explodinggradients/ragas" target="_blank" rel="noopener"
 &gt;RAGAS&lt;/a&gt; — RAG eval 프레임워크&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/confident-ai/deepeval" target="_blank" rel="noopener"
 &gt;DeepEval&lt;/a&gt; — LLM-as-Judge + rubric 기반 eval&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/evidentlyai/evidently" target="_blank" rel="noopener"
 &gt;Evidently&lt;/a&gt; — ML/LLM 모니터링과 eval&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/openai/evals" target="_blank" rel="noopener"
 &gt;OpenAI Evals&lt;/a&gt; — OpenAI 공식 eval 프레임워크&lt;/li&gt;
&lt;/ul&gt;</description></item><item><title>Simon Willison의 Granite 4.1 3B 펠리컨 갤러리 — 양자화 21종이 똑같이 망한 이유</title><link>https://ice-ice-bear.github.io/ko/posts/2026-05-04-simonwillison-granite-pelican-benchmark/</link><pubDate>Mon, 04 May 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-05-04-simonwillison-granite-pelican-benchmark/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post Simon Willison의 Granite 4.1 3B 펠리컨 갤러리 — 양자화 21종이 똑같이 망한 이유" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://simonwillison.net/" target="_blank" rel="noopener"
 &gt;Simon Willison&lt;/a&gt;이 &lt;a class="link" href="https://huggingface.co/ibm-granite/granite-4.1-3b-instruct" target="_blank" rel="noopener"
 &gt;IBM Granite 4.1 3B&lt;/a&gt; 양자화 21종(1.2GB ~ 6.34GB, 합계 51.3GB)에 자기 시그니처 프롬프트인 &amp;ldquo;Generate an SVG of a pelican riding a bicycle&amp;quot;를 던졌다. 결론은 한 줄: &lt;em&gt;&amp;ldquo;There&amp;rsquo;s no distinguishable pattern relating quality to size — they&amp;rsquo;re all pretty terrible!&amp;rdquo;&lt;/em&gt;. 이번 글은 그 갤러리를 출발점으로, 비공식 벤치마크가 공식 점수판이 못 잡는 무엇을 잡아내는지, 그리고 양자화-품질 곡선을 측정하려면 어디서부터 봐야 하는지를 정리한다.&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;flowchart LR
 P["프롬프트 &amp;lt;br/&amp;gt; pelican on a bicycle"] --&gt; Q["Granite 4.1 3B &amp;lt;br/&amp;gt; 21 quant variants"]
 Q --&gt; S1["1.2GB ~ 6.34GB"]
 S1 --&gt; O["SVG 출력 21장"]
 O --&gt; J["Simon의 눈 판정"]
 J --&gt; R["크기-품질 상관 없음 &amp;lt;br/&amp;gt; 전부 추상 도형"]&lt;/pre&gt;&lt;h2 id="svg-펠리컨-이-뭐길래"&gt;&amp;ldquo;SVG 펠리컨&amp;rdquo; 이 뭐길래
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://simonwillison.net/tags/pelican-riding-a-bicycle/" target="_blank" rel="noopener"
 &gt;Simon Willison의 pelican-riding-a-bicycle 시리즈&lt;/a&gt;는 새 LLM이 나올 때마다 그가 고정으로 돌리는 비공식 평가다. 프롬프트는 단 한 줄.&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&amp;ldquo;Generate an SVG of a pelican riding a bicycle.&amp;rdquo;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;SVG는 텍스트 모델이 좌표·path·viewBox를 직접 출력해야 하는 양식이라 시각적 사고를 강제한다. 더 중요한 건 결과가 &lt;strong&gt;즉시 그림으로 렌더링&lt;/strong&gt; 되어 모델 간 비교가 직관적이라는 점이다. &lt;a class="link" href="https://lmarena.ai/" target="_blank" rel="noopener"
 &gt;LMArena&lt;/a&gt; 의 익명 페어 비교나 &lt;a class="link" href="https://paperswithcode.com/dataset/mmlu" target="_blank" rel="noopener"
 &gt;MMLU&lt;/a&gt; 의 객관식 점수에는 잡히지 않는 실패 모드 — 비례, 선의 연속성, 부품 배치 — 가 한 장의 SVG에서 드러난다.&lt;/p&gt;
&lt;h2 id="이번-실험"&gt;이번 실험
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;항목&lt;/th&gt;
 &lt;th&gt;내용&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;대상&lt;/td&gt;
 &lt;td&gt;&lt;a class="link" href="https://huggingface.co/ibm-granite/granite-4.1-3b-instruct" target="_blank" rel="noopener"
 &gt;IBM Granite 4.1 3B Instruct&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;변형&lt;/td&gt;
 &lt;td&gt;양자화 21종 (1.2GB ~ 6.34GB, 합 51.3GB)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;프롬프트&lt;/td&gt;
 &lt;td&gt;&amp;ldquo;Generate an SVG of a pelican riding a bicycle&amp;rdquo;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;출력&lt;/td&gt;
 &lt;td&gt;SVG 21장, 한 페이지 갤러리&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;판정자&lt;/td&gt;
 &lt;td&gt;Simon Willison 본인 (눈)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;a class="link" href="https://simonwillison.net/2026/May/4/granite-41-3b-svg-pelican-gallery" target="_blank" rel="noopener"
 &gt;원본 갤러리 글&lt;/a&gt;에 21장이 그대로 펼쳐져 있다.&lt;/p&gt;
&lt;h2 id="결과--simon의-평가"&gt;결과 — Simon의 평가
&lt;/h2&gt;
 &lt;blockquote&gt;
 &lt;p&gt;&lt;em&gt;&amp;ldquo;There&amp;rsquo;s no distinguishable pattern relating quality to size — they&amp;rsquo;re all pretty terrible!&amp;rdquo;&lt;/em&gt;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;모델 크기와 품질 사이에 구별 가능한 패턴이 없다.&lt;/strong&gt; 1.2GB와 6.34GB가 사실상 같은 줄에 선다.&lt;/li&gt;
&lt;li&gt;21장 모두 추상 도형 덩어리. 펠리컨도, 자전거도 명확히 식별되지 않는다.&lt;/li&gt;
&lt;li&gt;흥미롭게도 &lt;strong&gt;가장 작은 모델이 자전거를 가장 잘&lt;/strong&gt; 표현했고, 가장 큰 모델이 펠리컨에 가까운 형태를 그렸다 — 크기-품질 관계가 단조 증가가 아닐 수 있다는 작은 단서.&lt;/li&gt;
&lt;li&gt;Simon 본인은 &amp;ldquo;기대보다 덜 흥미롭다&amp;rdquo;, &amp;ldquo;더 잘 그리는 모델로 다시 해보겠다&amp;quot;고 마무리.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="의미--무엇을-측정한-것인가"&gt;의미 — 무엇을 측정한 것인가
&lt;/h2&gt;&lt;h3 id="1-양자화-곡선은-본판-capability-ceiling에-막힌다"&gt;1. 양자화 곡선은 본판 capability ceiling에 막힌다
&lt;/h3&gt;&lt;p&gt;5배 메모리 차이(1.2GB → 6.34GB)에도 출력 품질에 의미 있는 차이가 없었다. 그러나 결론은 &lt;strong&gt;&amp;ldquo;양자화가 무해하다&amp;rdquo;&lt;/strong&gt; 가 아니다. &lt;strong&gt;&amp;ldquo;이 모델 자체가 SVG 펠리컨에서 약하다&amp;rdquo;&lt;/strong&gt; 가 더 정확한 해석이다.&lt;/p&gt;
&lt;p&gt;양자화 영향을 깔끔하게 측정하려면 본판이 그 과제에서 충분히 강해야 한다. 본판이 이미 floor 근처면 &lt;a class="link" href="https://github.com/intel/auto-round" target="_blank" rel="noopener"
 &gt;AutoRound&lt;/a&gt;·GGUF·AWQ 어떤 방식으로 누르든 변별이 안 나온다. 즉 양자화 벤치를 설계할 때는 &lt;strong&gt;모델의 capability ceiling을 먼저 확인&lt;/strong&gt; 해야 한다는 교훈.&lt;/p&gt;
&lt;h3 id="2-비공식-벤치마크가-공식-점수판을-보완한다"&gt;2. 비공식 벤치마크가 공식 점수판을 보완한다
&lt;/h3&gt;&lt;p&gt;&lt;a class="link" href="https://lmarena.ai/" target="_blank" rel="noopener"
 &gt;LMArena&lt;/a&gt; 의 페어 비교나 &lt;a class="link" href="https://paperswithcode.com/dataset/mmlu" target="_blank" rel="noopener"
 &gt;MMLU&lt;/a&gt; 같은 표준 벤치는 텍스트 토큰의 정답률·선호도를 잡는다. 하지만 &amp;ldquo;이 모델이 좌표 평면에 부품을 배치할 줄 아는가&amp;rdquo; 같은 질문은 잘 안 잡힌다. SVG 펠리컨은 그 갭에 정확히 들어간다 — &lt;strong&gt;공식 벤치엔 없지만 모두가 동의하는 빠른 sanity check&lt;/strong&gt;.&lt;/p&gt;
&lt;h3 id="3-granite-패밀리에-대한-시사"&gt;3. Granite 패밀리에 대한 시사
&lt;/h3&gt;&lt;p&gt;&lt;a class="link" href="https://www.ibm.com/granite" target="_blank" rel="noopener"
 &gt;IBM Granite&lt;/a&gt; / &lt;a class="link" href="https://www.ibm.com/products/watsonx-ai/foundation-models" target="_blank" rel="noopener"
 &gt;watsonx Granite 라인업&lt;/a&gt;은 엔터프라이즈 RAG·도구 호출·코드 작업을 타깃으로 잡혀 있다. 그 좌표계에서 보면 SVG 펠리컨은 분포 밖 과제라 약한 게 어쩌면 당연하다. 다만 같은 시기 풀린 &lt;a class="link" href="https://developers.googleblog.com/" target="_blank" rel="noopener"
 &gt;Google Gemma + LiteRT MTP&lt;/a&gt; 같은 모바일 친화 small model 흐름과 나란히 두면, &lt;strong&gt;3B 클래스 small open model의 실용성은 모델 패밀리/제조사가 어디에 capability를 몰아넣었는지에 따라 크게 갈린다.&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="인사이트"&gt;인사이트
&lt;/h2&gt;&lt;p&gt;비공식 벤치마크가 살아남는 이유는 점수판이 못 잡는 결함을 한 장의 그림으로 보여주기 때문이다. SVG 펠리컨은 &lt;a class="link" href="https://paperswithcode.com/dataset/mmlu" target="_blank" rel="noopener"
 &gt;MMLU&lt;/a&gt;·&lt;a class="link" href="https://lmarena.ai/" target="_blank" rel="noopener"
 &gt;LMArena&lt;/a&gt; 의 보완재이지 대체재가 아니다 — 둘이 같이 있어야 모델의 강점·약점이 드러난다. 양자화-품질 곡선은 본판 capability에 강하게 의존하므로, 양자화 벤치를 설계할 때는 본판이 그 과제에서 충분히 위에 있는지를 먼저 본다. &lt;a class="link" href="https://github.com/intel/auto-round" target="_blank" rel="noopener"
 &gt;AutoRound&lt;/a&gt; 같은 방식으로 압축률을 더 짜내도 floor 근처 모델에서는 변별이 안 난다. 21장 갤러리에서 가장 작은 모델이 자전거를 가장 잘 그렸다는 디테일은 단조 관계 가정 자체를 의심하게 만든다 — 양자화 비교는 단일 점수가 아니라 분포로 봐야 한다는 뜻. &lt;a class="link" href="https://www.ibm.com/granite" target="_blank" rel="noopener"
 &gt;IBM Granite&lt;/a&gt;가 엔터프라이즈 좌표계를 정조준하는 동안 시각적 추론 같은 분포 밖 과제가 약한 건 당연한 결과이고, 그래서 small open model을 고를 때는 &amp;ldquo;어느 패밀리가 어디에 capability를 몰아넣었나&amp;quot;를 봐야 한다. Simon 같은 외부 관찰자가 21종을 한 페이지에 깔아주는 건 결국 모두를 위한 빠른 모델 카드 역할 — 공식 벤치 결과가 풀리기 전에 한 장으로 감을 잡게 해준다.&lt;/p&gt;
&lt;h2 id="참고"&gt;참고
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;Original gallery post&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://simonwillison.net/2026/May/4/granite-41-3b-svg-pelican-gallery" target="_blank" rel="noopener"
 &gt;Simon Willison: Granite 4.1 3B SVG Pelican Gallery (2026-05-04)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://simonwillison.net/tags/pelican-riding-a-bicycle/" target="_blank" rel="noopener"
 &gt;pelican-riding-a-bicycle 시리즈 태그&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://simonwillison.net/" target="_blank" rel="noopener"
 &gt;Simon Willison&amp;rsquo;s Weblog&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;IBM Granite&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://huggingface.co/ibm-granite/granite-4.1-3b-instruct" target="_blank" rel="noopener"
 &gt;IBM Granite 4.1 3B Instruct (Hugging Face)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.ibm.com/granite" target="_blank" rel="noopener"
 &gt;IBM Granite 공식 페이지&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.ibm.com/products/watsonx-ai/foundation-models" target="_blank" rel="noopener"
 &gt;watsonx 파운데이션 모델 라인업&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Related benchmark refs&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://lmarena.ai/" target="_blank" rel="noopener"
 &gt;LMArena (페어 비교 리더보드)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://paperswithcode.com/dataset/mmlu" target="_blank" rel="noopener"
 &gt;MMLU (Papers with Code)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/intel/auto-round" target="_blank" rel="noopener"
 &gt;Intel AutoRound (양자화 라이브러리)&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description></item></channel></rss>