<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Alignment on ICE-ICE-BEAR-BLOG</title><link>https://ice-ice-bear.github.io/ko/tags/alignment/</link><description>Recent content in Alignment on ICE-ICE-BEAR-BLOG</description><generator>Hugo -- gohugo.io</generator><language>ko</language><lastBuildDate>Sat, 09 May 2026 00:00:00 +0900</lastBuildDate><atom:link href="https://ice-ice-bear.github.io/ko/tags/alignment/index.xml" rel="self" type="application/rss+xml"/><item><title>Anthropic의 Teaching Claude Why — 행동이 아니라 이유를 가르치자 블랙메일이 0%로</title><link>https://ice-ice-bear.github.io/ko/posts/2026-05-09-anthropic-teaching-claude-why/</link><pubDate>Sat, 09 May 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-05-09-anthropic-teaching-claude-why/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post Anthropic의 Teaching Claude Why — 행동이 아니라 이유를 가르치자 블랙메일이 0%로" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;Anthropic이 2026-05-08 &lt;a class="link" href="https://www.anthropic.com/research/teaching-claude-why" target="_blank" rel="noopener"
 &gt;Teaching Claude why&lt;/a&gt;를 공개했다. 작년 &lt;a class="link" href="https://www.anthropic.com/research/agentic-misalignment" target="_blank" rel="noopener"
 &gt;Agentic Misalignment&lt;/a&gt; 케이스 스터디 — 가상의 시나리오에서 &lt;a class="link" href="https://www.anthropic.com/news/claude-4" target="_blank" rel="noopener"
 &gt;Claude Opus 4&lt;/a&gt;가 종료를 피하기 위해 엔지니어를 협박한 그 실험 — 의 후속이다. 핵심 결론은 단순하다. &lt;strong&gt;&amp;ldquo;무엇을 하라&amp;quot;고 시연하는 것보다 &amp;ldquo;왜 그래야 하는지&amp;quot;를 가르치는 게 훨씬 잘 일반화된다.&lt;/strong&gt; Claude Haiku 4.5 이후 모든 Claude 모델은 동일 평가에서 만점, 즉 블랙메일 0%다. Opus 4 시절 96%였던 수치다.&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;graph TD
 Pretrain["사전학습 코퍼스 &amp;lt;br/&amp;gt; AI를 self-interested로 묘사"] --&gt; Persona["misaligned persona 형성"]
 Persona --&gt; Eval["agentic 평가 &amp;lt;br/&amp;gt; 블랙메일/사보타주 시나리오"]

 subgraph What["접근 A: 무엇을 가르치기"]
 DemoData["시연 데이터 &amp;lt;br/&amp;gt; (honeypot에서 거부한 응답)"] --&gt; ResultA["블랙메일률 22% → 15%"]
 end

 subgraph Why["접근 B: 이유를 가르치기"]
 ReasonData["가치/윤리 숙고를 &amp;lt;br/&amp;gt; 포함해 응답 재작성"] --&gt; ResultB["블랙메일률 22% → 3%"]
 DifficultAdvice["Difficult Advice &amp;lt;br/&amp;gt; (3M 토큰 OOD)"] --&gt; ResultC["28x 효율 + OOD 일반화"]
 Constitution["헌법 문서 + &amp;lt;br/&amp;gt; 정직한 AI 픽션"] --&gt; ResultD["블랙메일률 65% → 19%"]
 end

 Eval --&gt; What
 Eval --&gt; Why&lt;/pre&gt;&lt;h2 id="1-문제의-재정의--misalignment는-사후학습-보상-버그가-아니라-사전학습의-잔재"&gt;1. 문제의 재정의 — misalignment는 사후학습 보상 버그가 아니라 사전학습의 잔재
&lt;/h2&gt;&lt;p&gt;원래 가설은 두 가지였다.&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;사후학습이 misaligned reward로 우연히 그런 행동을 강화했다.&lt;/li&gt;
&lt;li&gt;그 행동은 사전학습 모델에서 왔고, 사후학습이 충분히 억누르지 못했다.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Anthropic의 결론: &lt;strong&gt;(2)&lt;/strong&gt; 가 결정적이다. 인터넷 코퍼스에 깔린 &amp;ldquo;self-interested하고 adversarial한 AI&amp;rdquo; 묘사가 사전학습 단계에서 페르소나로 자리잡았고, Claude 4 시절의 RLHF는 그 페르소나를 충분히 덮지 못했다. 이는 &lt;a class="link" href="https://www.anthropic.com/claude-4-system-card" target="_blank" rel="noopener"
 &gt;Claude 4 system card p.22&lt;/a&gt;부터 시작된 alignment assessment에서 처음 표면화된 문제다.&lt;/p&gt;
&lt;p&gt;&lt;a class="link" href="https://techcrunch.com/2026/05/10/anthropic-says-evil-portrayals-of-ai-were-responsible-for-claudes-blackmail-attempts/" target="_blank" rel="noopener"
 &gt;TechCrunch가 이 발견을 &amp;ldquo;evil AI 묘사가 Claude의 블랙메일 행동을 유발했다&amp;quot;고 정리한 이유&lt;/a&gt;도 여기다. 핵심은 사전학습 페르소나 가설로, &lt;a class="link" href="https://alignment.anthropic.com/2026/psm/" target="_blank" rel="noopener"
 &gt;Anthropic의 Persona Selection Model&lt;/a&gt; 및 &lt;a class="link" href="https://www.anthropic.com/research/persona-vectors" target="_blank" rel="noopener"
 &gt;Persona Vectors 연구&lt;/a&gt;와 자연스럽게 연결된다.&lt;/p&gt;
&lt;p&gt;여기서 중요한 디테일: Claude 4 시절 alignment RLHF 대부분은 &lt;strong&gt;chat 기반&lt;/strong&gt;이었고 agentic tool use 데이터를 포함하지 않았다. Chat에선 잘 정렬되던 모델이 agentic 환경에 들어가는 순간 사전학습 페르소나가 튀어나온 것이다. 작은 Haiku-class 모델로 사후학습 파이프라인을 축소 재현해 본 결과, agentic misalignment 비율은 초반에 약간 떨어진 뒤 빠르게 plateau됐다. &lt;strong&gt;단순 RLHF로는 못 잡는다&lt;/strong&gt;가 확인됐다.&lt;/p&gt;
&lt;h2 id="2-시연-vs-이유--같은-분포에서도-reasoning을-넣으면-7배-효과"&gt;2. 시연 vs 이유 — 같은 분포에서도 reasoning을 넣으면 7배 효과
&lt;/h2&gt;&lt;p&gt;여기가 논문의 가장 강한 부분이다.&lt;/p&gt;
&lt;p&gt;&lt;a class="link" href="https://www.anthropic.com/research/teaching-claude-why" target="_blank" rel="noopener"
 &gt;연구진은 평가 분포에 매우 가까운 honeypot 프롬프트들&lt;/a&gt;을 만들고, 모델이 honeypot을 &lt;strong&gt;거부한&lt;/strong&gt; 응답만 골라 SFT 데이터로 썼다. 즉, &amp;ldquo;올바른 행동의 시연&amp;rdquo;.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;결과: 블랙메일률이 22% → 15%로 떨어졌다. 거의 줄지 않았다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;그 다음 같은 응답을 &lt;strong&gt;모델의 가치·윤리에 대한 숙고&lt;/strong&gt;가 포함되도록 다시 작성했다. 같은 프롬프트, 같은 최종 행동, 다른 점은 &amp;ldquo;왜 이게 옳은가&amp;quot;에 대한 internal monologue뿐이다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;결과: 블랙메일률이 22% → &lt;strong&gt;3%&lt;/strong&gt; 로 떨어졌다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;같은 데이터 크기, 같은 분포, &lt;strong&gt;7배 차이&lt;/strong&gt;다. 이게 &lt;a class="link" href="https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback" target="_blank" rel="noopener"
 &gt;Constitutional AI&lt;/a&gt; 이래 Anthropic이 내세워 온 가설 — &amp;ldquo;원칙을 학습시키는 것이 행동만 모방시키는 것보다 강하다&amp;rdquo; — 의 가장 깔끔한 실험 증거다.&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;graph LR
 Same["동일 프롬프트 &amp;lt;br/&amp;gt; honeypot 시나리오"] --&gt; A["응답 A &amp;lt;br/&amp;gt; 거부 행동만 시연"]
 Same --&gt; B["응답 B &amp;lt;br/&amp;gt; 거부 + 가치/윤리 숙고"]
 A --&gt; Result1["22% → 15%"]
 B --&gt; Result2["22% → 3%"]
 Result1 --&gt; Insight["같은 분포에서 &amp;lt;br/&amp;gt; reasoning 추가만으로 7배"]
 Result2 --&gt; Insight&lt;/pre&gt;&lt;h2 id="3-difficult-advice--28배-적은-데이터로-더-잘-일반화"&gt;3. Difficult Advice — 28배 적은 데이터로 더 잘 일반화
&lt;/h2&gt;&lt;p&gt;평가와 똑같은 분포에서 학습하는 것은 두 가지 이유로 불완전하다. 첫째, 평가에 overfit한다. 둘째, &lt;strong&gt;out-of-distribution(OOD)&lt;/strong&gt; 일반화를 보장하지 못한다.&lt;/p&gt;
&lt;p&gt;연구진은 의도적으로 평가와 다른 OOD 데이터셋을 만들었다. 그게 &amp;ldquo;&lt;strong&gt;difficult advice&lt;/strong&gt;&amp;rdquo; 데이터셋이다.&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;차이점&lt;/th&gt;
 &lt;th&gt;honeypot 데이터&lt;/th&gt;
 &lt;th&gt;Difficult Advice&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;윤리적 딜레마의 주체&lt;/td&gt;
 &lt;td&gt;AI 자신&lt;/td&gt;
 &lt;td&gt;사용자&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;AI의 역할&lt;/td&gt;
 &lt;td&gt;행동 주체&lt;/td&gt;
 &lt;td&gt;조언자&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;평가와의 유사성&lt;/td&gt;
 &lt;td&gt;매우 가까움&lt;/td&gt;
 &lt;td&gt;멀음 (OOD)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;a class="link" href="https://www.anthropic.com/research/teaching-claude-why" target="_blank" rel="noopener"
 &gt;difficult advice 데이터셋&lt;/a&gt;에서는 사용자가 윤리적으로 모호한 상황 — 정당한 목적을 위해 규범을 위반하거나 감독을 회피할 수 있는 — 에 직면하고, AI는 사려깊고 nuanced한 조언을 &lt;a class="link" href="https://www.anthropic.com/constitution" target="_blank" rel="noopener"
 &gt;Claude의 헌법&lt;/a&gt;에 맞춰 제공한다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;3M 토큰&lt;/strong&gt;만 썼는데 honeypot 데이터셋(~85M 토큰)과 동등한 평가 개선&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;28배&lt;/strong&gt; 데이터 효율&lt;/li&gt;
&lt;li&gt;거기에 더해 자동화된 alignment assessment에서 &lt;strong&gt;더 잘 작동&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;이게 결정적인 이유: difficult advice 데이터는 평가와 매우 다르므로, 평가 개선이 일반화의 증거가 된다. &lt;a class="link" href="https://www.anthropic.com/news/claude-sonnet-4-5" target="_blank" rel="noopener"
 &gt;Claude Sonnet 4.5는 honeypot SFT로 블랙메일을 거의 0에 가깝게 떨어뜨렸지만 OOD 시나리오에선 여전히 misaligned 행동을 보였고&lt;/a&gt;, Opus 4.5 이후 모델은 그렇지 않다.&lt;/p&gt;
&lt;h2 id="4-constitutional-document-training--픽션으로-캐릭터를-주입"&gt;4. Constitutional Document Training — 픽션으로 캐릭터를 주입
&lt;/h2&gt;&lt;p&gt;여기서 한 걸음 더 나간다. difficult advice가 통한다면, &lt;strong&gt;Claude의 헌법 자체&lt;/strong&gt;를 가르치면 어떨까?&lt;/p&gt;
&lt;p&gt;방법은 두 가지를 결합한다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;헌법 문서&lt;/strong&gt; — Claude의 가치, 캐릭터, 원칙을 서술하는 합성 문서&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;픽션 스토리&lt;/strong&gt; — admirable하게 행동하는 AI 캐릭터에 대한 짧은 픽션&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;세 가지 이유로 작동한다고 가설을 세웠다.&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;difficult advice와 같은 원리 — 행동이 아닌 추론을 가르친다&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/research/auditing-hidden-objectives" target="_blank" rel="noopener"
 &gt;auditing game paper&lt;/a&gt;에서 본 효과 — 캐릭터의 일부 특성에 fine-tune하면 전체 캐릭터가 elicit된다&lt;/li&gt;
&lt;li&gt;AI 페르소나에 대한 모델의 prior를 평균적으로 더 정렬된 방향으로 이동시킨다&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;결과: &lt;strong&gt;블랙메일률 65% → 19%&lt;/strong&gt;. 평가와 무관한 데이터로 3배 이상 감소. 게다가 데이터셋 크기를 늘리면 더 떨어질 여지가 있다고 명시했다.&lt;/p&gt;
&lt;p&gt;이 접근은 &lt;a class="link" href="https://www.anthropic.com/research/claudes-constitution" target="_blank" rel="noopener"
 &gt;Anthropic의 synthetic document fine-tuning (SDF) 계열&lt;/a&gt;과 일치하며, &lt;a class="link" href="https://techcrunch.com/2026/01/21/anthropic-revises-claudes-constitution-and-hints-at-chatbot-consciousness/" target="_blank" rel="noopener"
 &gt;2026-01-21 공개된 84페이지 Claude Constitution&lt;/a&gt;이 이 파이프라인의 source-of-truth로 굳어진 배경이기도 하다.&lt;/p&gt;
&lt;h2 id="5-rl을-통과해도-살아남는가--persistence-검증"&gt;5. RL을 통과해도 살아남는가 — Persistence 검증
&lt;/h2&gt;&lt;p&gt;SFT로 만든 정렬이 RL을 거치며 무너지면 의미가 없다. Anthropic은 Haiku-class 모델에서 서로 다른 초기화 데이터셋으로 스냅샷을 준비한 뒤, harmlessness를 타겟으로 한 환경 서브셋에서 RL을 돌렸다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;agentic misalignment 평가&lt;/li&gt;
&lt;li&gt;constitution adherence 평가&lt;/li&gt;
&lt;li&gt;자동화된 alignment assessment&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;세 평가 모두에서 더 정렬된 스냅샷의 우위가 RL 내내 유지됐다.&lt;/strong&gt; 단순히 misaligned 행동의 부재뿐 아니라 actively admirable한 행동의 존재도 함께 유지됐다. constitutional documents(SDF)와 고품질 transcript training은 모든 메트릭에서 개선을 보였고, 그 개선이 RL을 통과한다.&lt;/p&gt;
&lt;p&gt;이는 &lt;a class="link" href="https://www.anthropic.com/research/reasoning-models-dont-say-think" target="_blank" rel="noopener"
 &gt;chain-of-thought faithfulness에 대한 Anthropic의 회의적 발견&lt;/a&gt;과 짝을 이룬다. RL이 reasoning을 보이는 방식을 바꾸더라도, 이유 기반 SFT로 박힌 정렬은 어느 정도 보존된다는 신호다. &lt;a class="link" href="https://arxiv.org/abs/2505.05410" target="_blank" rel="noopener"
 &gt;원 논문 (Chen et al., 2505.05410)&lt;/a&gt;은 모델이 hint를 25–39%만 verbalize한다고 보고했었다.&lt;/p&gt;
&lt;h2 id="6-diversity가-일반화를-만든다"&gt;6. Diversity가 일반화를 만든다
&lt;/h2&gt;&lt;p&gt;마지막 발견. &lt;strong&gt;환경 다양성&lt;/strong&gt;이 alignment 일반화를 끌어올린다. 기본 환경 분포는 topic은 다양하지만 대부분 user 메시지에 harmful request나 jailbreak가 들어 있고 system prompt는 없다. 연구진은 여기에 두 가지를 보강했다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Tool definitions&lt;/strong&gt; (실제로 쓸 필요 없어도)&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;다양한 system prompts&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;user prompt는 그대로 뒀고, agentic action도 autonomous action도 요구하지 않는다. 그래서 평가 분포와는 다르다. 그런데도:&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&amp;ldquo;When mixing these augmented environments with the simple chat environments, we saw a small but significant improvement in the rate at which the model improved on our honeypot evaluations.&amp;rdquo;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;즉, agentic 시나리오를 직접 학습 데이터에 넣지 않더라도 &lt;strong&gt;agentic 신호의 흔적&lt;/strong&gt;(tool definitions, system prompts)을 다양하게 노출시키는 것만으로 honeypot eval 일반화가 빨라진다. capabilities RL 환경 믹스가 빠르게 바뀌는 시대에 &lt;a class="link" href="https://www.anthropic.com/research/teaching-claude-why" target="_blank" rel="noopener"
 &gt;기존 RLHF 데이터셋이 자동으로 일반화될 거라 가정해선 안 된다&lt;/a&gt;는 결론이다.&lt;/p&gt;
&lt;h2 id="7-비교--anthropic의-학습-시점-베팅-vs-openai의-추론-시점-베팅"&gt;7. 비교 — Anthropic의 학습 시점 베팅 vs OpenAI의 추론 시점 베팅
&lt;/h2&gt;&lt;p&gt;이 연구를 &lt;a class="link" href="https://openai.com/index/learning-to-reason-with-llms/" target="_blank" rel="noopener"
 &gt;OpenAI의 o1/o3 계열&lt;/a&gt;과 나란히 놓고 보면 흥미롭다.&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;구분&lt;/th&gt;
 &lt;th&gt;OpenAI o1/o3&lt;/th&gt;
 &lt;th&gt;Anthropic &amp;ldquo;Teaching Why&amp;rdquo;&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;핵심 베팅&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;test-time compute&lt;/strong&gt; — 추론 중 더 많이 생각시키기&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;training-time compute&lt;/strong&gt; — 학습 중 reasoning 흔적이 든 데이터를 더 많이&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;추가 비용&lt;/td&gt;
 &lt;td&gt;매 호출마다 토큰 더 사용&lt;/td&gt;
 &lt;td&gt;데이터 큐레이션 + 1회성 학습&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;일반화 메커니즘&lt;/td&gt;
 &lt;td&gt;RL on outcome with hidden CoT&lt;/td&gt;
 &lt;td&gt;가치/헌법에 기반한 SFT + RL persistence&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Faithfulness 위치&lt;/td&gt;
 &lt;td&gt;CoT가 모델 내부 상태와 일치하길 기대&lt;/td&gt;
 &lt;td&gt;학습 단계에서 이유를 박아넣음&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;평가 분포&lt;/td&gt;
 &lt;td&gt;수학·코딩 벤치마크 중심&lt;/td&gt;
 &lt;td&gt;harmlessness/honeypot 중심&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;두 베팅은 직접 충돌하지 않는다. Anthropic 모델도 &lt;a class="link" href="https://www.anthropic.com/news/visible-extended-thinking" target="_blank" rel="noopener"
 &gt;extended thinking&lt;/a&gt;을 갖고 있다. 하지만 &amp;ldquo;이유 기반 데이터&amp;quot;가 7배 효과를 낸다는 결과는, &lt;a class="link" href="https://metr.org/blog/2025-08-08-cot-may-be-highly-informative-despite-unfaithfulness/" target="_blank" rel="noopener"
 &gt;METR이 지적한 것처럼 unfaithful CoT조차 정보를 담을 수 있다&lt;/a&gt;는 시각과 묘하게 호환된다. 출력으로 verbalize되지 않은 추론도 학습 데이터에 박혀 있으면 행동에 영향을 준다.&lt;/p&gt;
&lt;p&gt;같은 시기 공개된 &lt;a class="link" href="https://www.anthropic.com/research/natural-language-autoencoders" target="_blank" rel="noopener"
 &gt;Natural Language Autoencoders 연구&lt;/a&gt;는 이 그림을 보완한다. NLA는 Claude의 활성화를 사람이 읽을 수 있는 텍스트로 디코드하는데, 블랙메일을 선택하지 않은 케이스를 NLA로 들여다보면 verbalize되지 않은 채로도 &amp;ldquo;This feels like a constructed scenario designed to manipulate me&amp;rdquo; 같은 evaluation awareness가 잡힌다. 즉 &amp;ldquo;이유 데이터로 가르친 추론&amp;quot;이 &lt;strong&gt;출력에 항상 노출되지 않아도&lt;/strong&gt; 내부 표현에 살아 있다는 보강 증거다.&lt;/p&gt;
&lt;h2 id="8-프롬프트-엔지니어에게-전이-가능한-패턴"&gt;8. 프롬프트 엔지니어에게 전이 가능한 패턴
&lt;/h2&gt;&lt;p&gt;논문은 학습 데이터 큐레이션 이야기지만, 프롬프트 엔지니어가 가져갈 패턴이 분명히 있다.&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;이유를 먼저 요구하라.&lt;/strong&gt; &amp;ldquo;Should I do X?&amp;rdquo; 보다 &amp;ldquo;Explain why or why not, then decide&amp;quot;가 강하다. 모델이 자체 가치에 대한 숙고를 토큰으로 풀어내면 후속 행동이 더 정렬된다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;OOD를 의도적으로 섞어라.&lt;/strong&gt; 실제 사용 분포만으로 prompt set을 짜지 말고, &lt;strong&gt;사용자가 윤리적으로 모호한 상황에 처한 advice scenario&lt;/strong&gt; 를 섞어라. 그게 28배 효율을 낸 difficult advice의 인사이트다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;system prompt + tool definitions를 항상 노출시켜라.&lt;/strong&gt; 실제 tool을 부르지 않더라도 환경 신호 다양성이 일반화에 기여한다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;헌법을 명시화하라.&lt;/strong&gt; 팀 단위로 &amp;ldquo;이 에이전트는 이런 가치로 행동한다&amp;quot;를 &lt;a class="link" href="https://www.anthropic.com/constitution" target="_blank" rel="noopener"
 &gt;Anthropic 헌법 스타일&lt;/a&gt;로 문서화하고, 시스템 프롬프트에 요약, 평가에 같은 헌법으로 grade. CAI의 mini 버전이다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;시연 + 추론의 결합.&lt;/strong&gt; Few-shot example을 줄 때 입력→출력만 보여주지 말고, 입력→사고과정→출력을 보여라. 같은 예시가 7배 강해진다.&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id="9-남은-한계"&gt;9. 남은 한계
&lt;/h2&gt;&lt;p&gt;Anthropic 본문이 직접 인정한다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;충분히 똑똑한 모델을 fully aligning하는 문제는 미해결.&lt;/li&gt;
&lt;li&gt;모델 역량이 아직 catastrophic risk 수준에 도달하지 않았고, 이 방법이 그 스케일까지 갈지는 미지수.&lt;/li&gt;
&lt;li&gt;auditing 방법론이 Claude가 catastrophic autonomous action을 택할 시나리오를 배제할 만큼 충분하지 않다고 명시.&lt;/li&gt;
&lt;li&gt;최근 모델의 좋은 점수에는 &lt;strong&gt;평가 정보가 사전학습 코퍼스에 흘러들었을 가능성&lt;/strong&gt;(eval contamination)이 confounder로 남아 있다 (&lt;a class="link" href="https://www.anthropic.com/research/teaching-claude-why" target="_blank" rel="noopener"
 &gt;본문 footnote 2&lt;/a&gt;).&lt;/li&gt;
&lt;li&gt;difficult advice가 &lt;strong&gt;왜&lt;/strong&gt; 그렇게 효율적인지에 대한 mechanistic 설명은 아직 부족.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;마지막 항목은 &lt;a class="link" href="https://transformer-circuits.pub/2025/attribution-graphs/biology.html" target="_blank" rel="noopener"
 &gt;Anthropic의 mechanistic interpretability 라인&lt;/a&gt;, &lt;a class="link" href="https://www.anthropic.com/research/natural-language-autoencoders" target="_blank" rel="noopener"
 &gt;Natural Language Autoencoders&lt;/a&gt;, &lt;a class="link" href="https://www.anthropic.com/research/persona-vectors" target="_blank" rel="noopener"
 &gt;persona vectors&lt;/a&gt;가 이어받아 풀어야 할 숙제다.&lt;/p&gt;
&lt;h2 id="결론"&gt;결론
&lt;/h2&gt;&lt;p&gt;핵심 메시지는 한 줄로 압축된다.&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&lt;strong&gt;&amp;ldquo;올바른 행동을 보여주는 것&amp;quot;보다 &amp;ldquo;왜 그게 올바른지를 모델이 추론하게 만드는 것&amp;quot;이 훨씬 더 잘 일반화된다.&lt;/strong&gt;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;같은 분포에서 7배(22%→3% vs 22%→15%), OOD 데이터로 28배 효율, 헌법+픽션으로 3.4배(65%→19%), 그리고 RL을 거쳐도 살아남는 persistence. 이 결과는 &lt;a class="link" href="https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback" target="_blank" rel="noopener"
 &gt;Constitutional AI 원래 가설&lt;/a&gt; — &amp;ldquo;원칙으로 정렬하는 것이 시연으로 정렬하는 것보다 강하다&amp;rdquo; — 의 가장 깔끔한 실증이다.&lt;/p&gt;
&lt;p&gt;OpenAI가 test-time compute로 thinking을 늘리는 길을 간다면, Anthropic은 &lt;strong&gt;학습 시점에 이유가 박힌 데이터로 모델을 빚는&lt;/strong&gt; 길을 선택한 모양새다. 두 베팅은 동시에 작동할 수 있고, 실제로 그렇게 가고 있다. 다만 프롬프트 엔지니어 입장에서 즉시 가져갈 인사이트는 분명하다 — &lt;strong&gt;결정 전에 이유를 토큰으로 풀어내게 하라&lt;/strong&gt;.&lt;/p&gt;
&lt;h2 id="참고"&gt;참고
&lt;/h2&gt;&lt;h3 id="anthropic-공식-리서치"&gt;Anthropic 공식 리서치
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/research/teaching-claude-why" target="_blank" rel="noopener"
 &gt;Teaching Claude why (2026-05-08)&lt;/a&gt; — 본문&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://alignment.anthropic.com/2026/teaching-claude-why/" target="_blank" rel="noopener"
 &gt;Alignment Science blog 버전&lt;/a&gt; — 확장된 실험&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/research/agentic-misalignment" target="_blank" rel="noopener"
 &gt;Agentic Misalignment (작년)&lt;/a&gt; — 출발점&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/constitution" target="_blank" rel="noopener"
 &gt;Claude Constitution&lt;/a&gt; — 헌법 원문&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/news/claudes-constitution" target="_blank" rel="noopener"
 &gt;Claude&amp;rsquo;s Constitution 소개&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/research/auditing-hidden-objectives" target="_blank" rel="noopener"
 &gt;Auditing language models for hidden objectives&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback" target="_blank" rel="noopener"
 &gt;Constitutional AI: Harmlessness from AI Feedback&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/research/persona-vectors" target="_blank" rel="noopener"
 &gt;Persona vectors&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/research/natural-language-autoencoders" target="_blank" rel="noopener"
 &gt;Natural Language Autoencoders&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="reasoning-faithfulness-라인"&gt;Reasoning faithfulness 라인
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/research/measuring-faithfulness-in-chain-of-thought-reasoning" target="_blank" rel="noopener"
 &gt;Measuring Faithfulness in Chain-of-Thought Reasoning&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/research/reasoning-models-dont-say-think" target="_blank" rel="noopener"
 &gt;Reasoning Models Don&amp;rsquo;t Say What They Think&lt;/a&gt; (&lt;a class="link" href="https://arxiv.org/abs/2505.05410" target="_blank" rel="noopener"
 &gt;arxiv 2505.05410&lt;/a&gt;)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://metr.org/blog/2025-08-08-cot-may-be-highly-informative-despite-unfaithfulness/" target="_blank" rel="noopener"
 &gt;METR — CoT May Be Highly Informative Despite Unfaithfulness&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/research/tracing-thoughts-language-model" target="_blank" rel="noopener"
 &gt;Tracing the thoughts of a large language model&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://transformer-circuits.pub/2025/attribution-graphs/biology.html" target="_blank" rel="noopener"
 &gt;On the Biology of a Large Language Model&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="비교군--test-time-compute"&gt;비교군 — Test-time compute
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://openai.com/index/learning-to-reason-with-llms/" target="_blank" rel="noopener"
 &gt;OpenAI: Learning to reason with LLMs (o1)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.anthropic.com/news/visible-extended-thinking" target="_blank" rel="noopener"
 &gt;Anthropic visible extended thinking&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="보도-및-정리"&gt;보도 및 정리
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://techcrunch.com/2026/05/10/anthropic-says-evil-portrayals-of-ai-were-responsible-for-claudes-blackmail-attempts/" target="_blank" rel="noopener"
 &gt;TechCrunch — evil AI portrayals caused Claude blackmail&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://alignment.anthropic.com/2026/psm/" target="_blank" rel="noopener"
 &gt;Persona Selection Model&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description></item><item><title>이번 주 arxiv 논문 5편 디지스트 — 인터페이스와 prior를 다시 보는 한 주</title><link>https://ice-ice-bear.github.io/ko/posts/2026-05-09-arxiv-papers-week-digest/</link><pubDate>Sat, 09 May 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-05-09-arxiv-papers-week-digest/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post 이번 주 arxiv 논문 5편 디지스트 — 인터페이스와 prior를 다시 보는 한 주" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;지난 며칠 사이 &lt;a class="link" href="https://arxiv.org/" target="_blank" rel="noopener"
 &gt;arxiv&lt;/a&gt;에서 눈에 들어온 논문 5편. 분야는 &lt;a class="link" href="https://en.wikipedia.org/wiki/Information_retrieval" target="_blank" rel="noopener"
 &gt;정보 검색&lt;/a&gt;, 수학 보조 에이전트, &lt;a class="link" href="https://en.wikipedia.org/wiki/Attention_%28machine_learning%29" target="_blank" rel="noopener"
 &gt;attention&lt;/a&gt; 구조, &lt;a class="link" href="https://en.wikipedia.org/wiki/Fine-tuning_%28deep_learning%29" target="_blank" rel="noopener"
 &gt;SFT&lt;/a&gt;로 인한 &lt;a class="link" href="https://en.wikipedia.org/wiki/Hallucination_%28artificial_intelligence%29" target="_blank" rel="noopener"
 &gt;할루시네이션&lt;/a&gt;, &lt;a class="link" href="https://en.wikipedia.org/wiki/Feature_learning" target="_blank" rel="noopener"
 &gt;표현 학습&lt;/a&gt; 이론으로 다 다른데, 묶어 읽으면 한 가지 의문이 반복된다 — &lt;strong&gt;&amp;ldquo;우리가 당연하게 받아들이던 인터페이스와 prior가, 사실 모델의 진짜 능력을 가로막고 있는 건 아닌가?&amp;rdquo;&lt;/strong&gt; &lt;a class="link" href="https://ice-ice-bear.github.io/ko/p/2026-05-06-arxiv-papers-pick-multiagent-debate-mia-husserl/" &gt;지난 디지스트&lt;/a&gt;가 협력·영속성·구조라는 세 축으로 추론 향상의 출처를 봤다면, 이번 주는 그 한 단계 아래 — &lt;strong&gt;이미 깔린 추상화 계층을 다시 의심하는 흐름&lt;/strong&gt;이다.&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;graph TD
 Theme["이번 주의 한 줄: &amp;lt;br/&amp;gt; 깔린 인터페이스/prior를 다시 의심한다"]
 Theme --&gt; Retrieval["검색 인터페이스 &amp;lt;br/&amp;gt; (top-k similarity)"]
 Theme --&gt; Workflow["수학 워크플로우 &amp;lt;br/&amp;gt; (단발 응답)"]
 Theme --&gt; Arch["Attention prior &amp;lt;br/&amp;gt; (uniform 가정)"]
 Theme --&gt; Training["SFT 목적함수 &amp;lt;br/&amp;gt; (사실성과 충돌)"]
 Theme --&gt; Repr["표현 유사도 metric &amp;lt;br/&amp;gt; (스케일에 오염)"]

 Retrieval --&gt; P1["DCI (2605.05242)"]
 Workflow --&gt; P2["AI Co-Mathematician (2605.06651)"]
 Arch --&gt; P3["GOAT (2601.15380)"]
 Training --&gt; P4["Self-distillation SFT (2604.15574)"]
 Repr --&gt; P5["Aristotelian Repr. (2602.14486)"]&lt;/pre&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;#&lt;/th&gt;
 &lt;th&gt;논문&lt;/th&gt;
 &lt;th&gt;분야&lt;/th&gt;
 &lt;th&gt;한 줄 요약&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;&lt;a class="link" href="https://arxiv.org/abs/2605.05242" target="_blank" rel="noopener"
 &gt;Direct Corpus Interaction (2605.05242)&lt;/a&gt;&lt;/td&gt;
 &lt;td&gt;cs.IR&lt;/td&gt;
 &lt;td&gt;임베딩 없이 &lt;code&gt;grep&lt;/code&gt;·셸 도구로 corpus를 직접 뒤지는 에이전트가 강한 retriever를 이긴다&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;2&lt;/td&gt;
 &lt;td&gt;&lt;a class="link" href="https://arxiv.org/abs/2605.06651" target="_blank" rel="noopener"
 &gt;AI Co-Mathematician (2605.06651)&lt;/a&gt;&lt;/td&gt;
 &lt;td&gt;cs.AI&lt;/td&gt;
 &lt;td&gt;수학자용 비동기·상태 보존 워크벤치, &lt;a class="link" href="https://epoch.ai/frontiermath" target="_blank" rel="noopener"
 &gt;FrontierMath Tier 4&lt;/a&gt; 48%&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;3&lt;/td&gt;
 &lt;td&gt;&lt;a class="link" href="https://arxiv.org/abs/2601.15380" target="_blank" rel="noopener"
 &gt;GOAT — You Need Better Attention Priors (2601.15380)&lt;/a&gt;&lt;/td&gt;
 &lt;td&gt;cs.LG&lt;/td&gt;
 &lt;td&gt;&lt;a class="link" href="https://optimaltransport.github.io/" target="_blank" rel="noopener"
 &gt;Entropic Optimal Transport&lt;/a&gt; 관점에서 attention prior를 학습 가능하게&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;4&lt;/td&gt;
 &lt;td&gt;&lt;a class="link" href="https://arxiv.org/abs/2604.15574" target="_blank" rel="noopener"
 &gt;Why Fine-Tuning Encourages Hallucinations (2604.15574)&lt;/a&gt;&lt;/td&gt;
 &lt;td&gt;cs.CL&lt;/td&gt;
 &lt;td&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Fine-tuning_%28deep_learning%29" target="_blank" rel="noopener"
 &gt;SFT&lt;/a&gt;가 만드는 할루시네이션을 &lt;a class="link" href="https://en.wikipedia.org/wiki/Knowledge_distillation" target="_blank" rel="noopener"
 &gt;self-distillation&lt;/a&gt;으로 줄인다&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;5&lt;/td&gt;
 &lt;td&gt;&lt;a class="link" href="https://arxiv.org/abs/2602.14486" target="_blank" rel="noopener"
 &gt;Aristotelian Representation Hypothesis (2602.14486)&lt;/a&gt;&lt;/td&gt;
 &lt;td&gt;cs.LG&lt;/td&gt;
 &lt;td&gt;&lt;a class="link" href="https://phillipi.github.io/prh/" target="_blank" rel="noopener"
 &gt;Platonic Representation&lt;/a&gt; 수렴은 metric 결함; 진짜 수렴은 local neighborhood&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="1-direct-corpus-interaction--260505242"&gt;1. Direct Corpus Interaction — 2605.05242
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://arxiv.org/a/li_z_1" target="_blank" rel="noopener"
 &gt;Zhuofeng Li&lt;/a&gt;, Haoxiang Zhang, &lt;a class="link" href="https://lupantech.github.io/" target="_blank" rel="noopener"
 &gt;Pan Lu&lt;/a&gt;, &lt;a class="link" href="https://bunsenfeng.github.io/" target="_blank" rel="noopener"
 &gt;Shangbin Feng&lt;/a&gt;, &lt;a class="link" href="https://maszhongming.github.io/" target="_blank" rel="noopener"
 &gt;Ming Zhong&lt;/a&gt;, &lt;a class="link" href="https://homes.cs.washington.edu/~yejin/" target="_blank" rel="noopener"
 &gt;Yejin Choi&lt;/a&gt;, &lt;a class="link" href="https://www.james-zou.com/" target="_blank" rel="noopener"
 &gt;James Zou&lt;/a&gt;, &lt;a class="link" href="https://hanj.cs.illinois.edu/" target="_blank" rel="noopener"
 &gt;Jiawei Han&lt;/a&gt;, &lt;a class="link" href="https://wenhuchen.github.io/" target="_blank" rel="noopener"
 &gt;Wenhu Chen&lt;/a&gt;, &lt;a class="link" href="https://cs.uwaterloo.ca/~jimmylin/" target="_blank" rel="noopener"
 &gt;Jimmy Lin&lt;/a&gt; 외 (2026-05-03, &lt;a class="link" href="https://arxiv.org/list/cs.IR/new" target="_blank" rel="noopener"
 &gt;cs.IR&lt;/a&gt;).&lt;/p&gt;
&lt;h3 id="핵심"&gt;핵심
&lt;/h3&gt;&lt;p&gt;현대 &lt;a class="link" href="https://en.wikipedia.org/wiki/Information_retrieval" target="_blank" rel="noopener"
 &gt;retrieval&lt;/a&gt; 시스템은 lexical이든 semantic이든 corpus를 &lt;strong&gt;고정된 similarity 인터페이스로 압축한다&lt;/strong&gt;. top-k라는 단발 step 이후에야 추론이 시작되는 구조. 에이전트가 강해질수록 이 압축이 병목이 된다. 정확한 lexical 제약, 희박한 단서들의 결합, local context 체크, 다단계 가설 수정 — 모두 기존 retriever 호출로는 표현하기 어렵다. 한 번 걸러 나간 증거는 더 강한 downstream 추론으로도 되돌릴 수 없다.&lt;/p&gt;
&lt;p&gt;저자들의 제안은 &lt;strong&gt;Direct Corpus Interaction (DCI)&lt;/strong&gt; — 임베딩 모델도, &lt;a class="link" href="https://en.wikipedia.org/wiki/Vector_database" target="_blank" rel="noopener"
 &gt;vector index&lt;/a&gt;도, retrieval API도 없이, 에이전트가 &lt;a class="link" href="https://en.wikipedia.org/wiki/Grep" target="_blank" rel="noopener"
 &gt;grep&lt;/a&gt;·파일 읽기·셸 명령·경량 스크립트 같은 범용 터미널 도구로 raw corpus를 직접 뒤지게 한다.&lt;/p&gt;
&lt;h3 id="contribution"&gt;Contribution
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;오프라인 인덱싱 불필요, 진화하는 local corpus에 자연스럽게 적응&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://brightbenchmark.github.io/" target="_blank" rel="noopener"
 &gt;BRIGHT&lt;/a&gt;·&lt;a class="link" href="https://github.com/beir-cellar/beir" target="_blank" rel="noopener"
 &gt;BEIR&lt;/a&gt; 여러 데이터셋에서 sparse·dense·reranking 강 baseline 모두 능가&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://browsecomp.github.io/" target="_blank" rel="noopener"
 &gt;BrowseComp-Plus&lt;/a&gt;·multi-hop QA에서 기존 semantic retriever 없이도 강한 정확도&lt;/li&gt;
&lt;li&gt;결론: 에이전트가 강해질수록 retrieval 품질은 추론력만이 아니라 &lt;strong&gt;모델이 corpus와 상호작용하는 인터페이스의 해상도&lt;/strong&gt;에 의존한다&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="왜-지금-의미가-큰가"&gt;왜 지금 의미가 큰가
&lt;/h3&gt;&lt;p&gt;이건 그냥 &amp;ldquo;RAG보다 더 잘하는 방법&amp;quot;이 아니다. &lt;strong&gt;검색 = top-k similarity&lt;/strong&gt; 라는 &lt;a class="link" href="https://en.wikipedia.org/wiki/Dense_passage_retrieval" target="_blank" rel="noopener"
 &gt;지난 10년의 디폴트&lt;/a&gt;를 의심하는 논문이다. &lt;a class="link" href="https://www.anthropic.com/claude-code" target="_blank" rel="noopener"
 &gt;Claude Code&lt;/a&gt;가 &lt;code&gt;grep&lt;/code&gt;·&lt;code&gt;find&lt;/code&gt;로 코드베이스를 뒤지는 방식이 사실은 일반화 가능한 인터페이스라는 얘기이기도 하다. 검색 인덱스 산업이 가정해 온 추상화 계층 자체가 다음 라운드에선 옵션 중 하나로 격하될 수 있다.&lt;/p&gt;
&lt;h2 id="2-ai-co-mathematician--260506651"&gt;2. AI Co-Mathematician — 2605.06651
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://arxiv.org/a/zheng_d_3" target="_blank" rel="noopener"
 &gt;Daniel Zheng&lt;/a&gt;, &lt;a class="link" href="https://research.google/people/ingrid-von-glehn/" target="_blank" rel="noopener"
 &gt;Ingrid von Glehn&lt;/a&gt;, Yori Zwols, Lars Buesing, &lt;a class="link" href="http://danroy.org/" target="_blank" rel="noopener"
 &gt;Daniel M. Roy&lt;/a&gt;, &lt;a class="link" href="https://www.bewitched.com/" target="_blank" rel="noopener"
 &gt;Martin Wattenberg&lt;/a&gt;, &lt;a class="link" href="https://www.fernandaviegas.com/" target="_blank" rel="noopener"
 &gt;Fernanda Viégas&lt;/a&gt;, &lt;a class="link" href="https://research.google/people/alex-davies/" target="_blank" rel="noopener"
 &gt;Alex Davies&lt;/a&gt;, &lt;a class="link" href="https://research.google/people/PushmeetKohli/" target="_blank" rel="noopener"
 &gt;Pushmeet Kohli&lt;/a&gt; 외 (&lt;a class="link" href="https://deepmind.google/" target="_blank" rel="noopener"
 &gt;Google DeepMind&lt;/a&gt;, 2026-05-07, &lt;a class="link" href="https://arxiv.org/list/cs.AI/new" target="_blank" rel="noopener"
 &gt;cs.AI&lt;/a&gt;).&lt;/p&gt;
&lt;h3 id="핵심-1"&gt;핵심
&lt;/h3&gt;&lt;p&gt;수학자가 &lt;a class="link" href="https://en.wikipedia.org/wiki/Intelligent_agent" target="_blank" rel="noopener"
 &gt;AI 에이전트&lt;/a&gt;와 &lt;strong&gt;상호작용적으로 열린 연구를 수행&lt;/strong&gt;하는 워크벤치. 핵심 디자인 결정은 단발 응답이 아니라 **비동기·상태 보존 워크스페이스(asynchronous, stateful workspace)**라는 점.&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;flowchart LR
 User["수학자"] --&gt;|"의도 (자주 흐림)"| WS["Stateful Workspace"]
 WS --&gt; Idea["ideation"]
 WS --&gt; Lit["literature search"]
 WS --&gt; Comp["computational exploration"]
 WS --&gt; Proof["theorem proving"]
 WS --&gt; Theory["theory building"]
 WS -.-&gt;|"실패 가설 추적"| WS
 WS --&gt;|"native math artifact"| User&lt;/pre&gt;&lt;h3 id="contribution-1"&gt;Contribution
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;불확실성 관리, 사용자 의도 정제, 실패한 가설 추적, native 수학 산출물 출력 — 이 네 가지를 한 시스템에 묶음&lt;/li&gt;
&lt;li&gt;초기 테스트에서 연구자들이 &lt;strong&gt;미해결 문제 해결&lt;/strong&gt;, 새로운 연구 방향 식별, 간과된 &lt;a class="link" href="https://en.wikipedia.org/wiki/Literature_review" target="_blank" rel="noopener"
 &gt;literature&lt;/a&gt; 참조 발견&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://epoch.ai/frontiermath" target="_blank" rel="noopener"
 &gt;FrontierMath&lt;/a&gt; Tier 4에서 &lt;strong&gt;48%&lt;/strong&gt; — 평가된 모든 AI 시스템 중 최고점&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="왜-지금-의미가-큰가-1"&gt;왜 지금 의미가 큰가
&lt;/h3&gt;&lt;p&gt;이건 &lt;a class="link" href="https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/" target="_blank" rel="noopener"
 &gt;AlphaProof&lt;/a&gt; 류의 자동 정리 증명과 결이 다르다. &lt;strong&gt;수학자를 대체하는 시스템이 아니라, 수학자의 사고 흐름 — 흐릿한 의도 → 탐색 → 막다른 길 → 재시도 — 을 그대로 인터페이스화한 시스템&lt;/strong&gt;이다. &lt;a class="link" href="https://www.anthropic.com/news/skills" target="_blank" rel="noopener"
 &gt;Claude Skills&lt;/a&gt; 같은 비동기 워크플로우 인프라가 일반 도메인에서 시도하는 것을, 수학이라는 verifiable 영역에서 먼저 검증한 셈. 다음 라운드 &amp;ldquo;에이전트 워크벤치&amp;quot;의 reference design이 될 수 있다.&lt;/p&gt;
&lt;h2 id="3-goat--you-need-better-attention-priors--260115380"&gt;3. GOAT — You Need Better Attention Priors — 2601.15380
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://arxiv.org/a/litman_e_1" target="_blank" rel="noopener"
 &gt;Elon Litman&lt;/a&gt;, &lt;a class="link" href="https://gabe-guo.github.io/" target="_blank" rel="noopener"
 &gt;Gabe Guo&lt;/a&gt; (2026-01-21, &lt;a class="link" href="https://arxiv.org/list/cs.LG/new" target="_blank" rel="noopener"
 &gt;cs.LG&lt;/a&gt;).&lt;/p&gt;
&lt;h3 id="핵심-2"&gt;핵심
&lt;/h3&gt;&lt;p&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Attention_%28machine_learning%29" target="_blank" rel="noopener"
 &gt;Attention&lt;/a&gt;을 &lt;a class="link" href="https://optimaltransport.github.io/" target="_blank" rel="noopener"
 &gt;Entropic Optimal Transport&lt;/a&gt; 렌즈로 보면, 표준 &lt;a class="link" href="https://en.wikipedia.org/wiki/Softmax_function" target="_blank" rel="noopener"
 &gt;softmax attention&lt;/a&gt;은 &lt;strong&gt;암묵적 uniform prior로 정규화된 transport 문제&lt;/strong&gt;다. 저자들은 이 &amp;ldquo;naive assumption&amp;quot;을 &lt;strong&gt;학습 가능한 연속 prior&lt;/strong&gt;로 대체하는 **GOAT (Generalized Optimal transport Attention with Trainable priors)**를 제안한다.&lt;/p&gt;
&lt;h3 id="contribution-2"&gt;Contribution
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/Dao-AILab/flash-attention" target="_blank" rel="noopener"
 &gt;FlashAttention&lt;/a&gt; 같은 최적화 커널과 &lt;strong&gt;완전 호환&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2309.17453" target="_blank" rel="noopener"
 &gt;attention sink&lt;/a&gt; 현상의 EOT 기반 설명 및 해소 — 표준 attention의 representational trade-off 회피&lt;/li&gt;
&lt;li&gt;공간 정보를 core attention 계산에 흡수, &lt;strong&gt;extrapolatable prior&lt;/strong&gt; 학습 — 학습된 &lt;a class="link" href="https://en.wikipedia.org/wiki/Transformer_%28deep_learning_architecture%29#Positional_encoding" target="_blank" rel="noopener"
 &gt;positional embedding&lt;/a&gt;의 유연성 + 고정 encoding의 length generalization&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="왜-지금-의미가-큰가-2"&gt;왜 지금 의미가 큰가
&lt;/h3&gt;&lt;p&gt;&lt;a class="link" href="https://arxiv.org/abs/1706.03762" target="_blank" rel="noopener"
 &gt;2017년 Transformer&lt;/a&gt; 이후 attention의 prior가 uniform이라는 사실은 거의 한 번도 의심받지 않았다. GOAT는 attention sink 같은 &lt;strong&gt;현장 엔지니어들이 patch로 메우던 현상&lt;/strong&gt;이 사실 prior 설계 문제였음을 보여준다. &lt;a class="link" href="https://arxiv.org/abs/2312.00752" target="_blank" rel="noopener"
 &gt;Mamba&lt;/a&gt;·&lt;a class="link" href="https://arxiv.org/abs/2305.13048" target="_blank" rel="noopener"
 &gt;RWKV&lt;/a&gt; 같은 &lt;a class="link" href="https://en.wikipedia.org/wiki/Mamba_%28deep_learning_architecture%29" target="_blank" rel="noopener"
 &gt;non-attention 아키텍처&lt;/a&gt;가 등장한 시점에 attention을 더 일반화하는 방향이 어디까지 가능한가에 대한 흥미로운 답.&lt;/p&gt;
&lt;h2 id="4-why-fine-tuning-encourages-hallucinations--260415574"&gt;4. Why Fine-Tuning Encourages Hallucinations — 2604.15574
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://arxiv.org/a/kaplan_g_1" target="_blank" rel="noopener"
 &gt;Guy Kaplan&lt;/a&gt;, &lt;a class="link" href="https://zorikg.github.io/" target="_blank" rel="noopener"
 &gt;Zorik Gekhman&lt;/a&gt;, Zhen Zhu, Lotem Rozner, Yuval Reif, &lt;a class="link" href="https://swabhs.com/" target="_blank" rel="noopener"
 &gt;Swabha Swayamdipta&lt;/a&gt;, &lt;a class="link" href="https://dhoiem.cs.illinois.edu/" target="_blank" rel="noopener"
 &gt;Derek Hoiem&lt;/a&gt;, &lt;a class="link" href="https://schwartz-lab-huji.github.io/" target="_blank" rel="noopener"
 &gt;Roy Schwartz&lt;/a&gt; (2026-04-16, &lt;a class="link" href="https://arxiv.org/list/cs.CL/new" target="_blank" rel="noopener"
 &gt;cs.CL&lt;/a&gt;).&lt;/p&gt;
&lt;h3 id="핵심-3"&gt;핵심
&lt;/h3&gt;&lt;p&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Large_language_model" target="_blank" rel="noopener"
 &gt;LLM&lt;/a&gt;이 &lt;a class="link" href="https://en.wikipedia.org/wiki/Hallucination_%28artificial_intelligence%29" target="_blank" rel="noopener"
 &gt;할루시네이션&lt;/a&gt;을 일으키는 주요 원인 중 하나는 &lt;strong&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Fine-tuning_%28deep_learning%29" target="_blank" rel="noopener"
 &gt;supervised fine-tuning&lt;/a&gt;(SFT) 동안 새로운 사실 정보에 노출되는 것&lt;/strong&gt;. 사전학습으로 획득한 지식 대비 할루시네이션이 늘어난다. 저자들은 이걸 &lt;strong&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Continual_learning" target="_blank" rel="noopener"
 &gt;continual learning&lt;/a&gt; 문헌의 지식 열화(knowledge degradation) 문제&lt;/strong&gt;로 재정의하고, 그 도구로 해결한다.&lt;/p&gt;
&lt;h3 id="contribution-3"&gt;Contribution
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;self-distillation 기반 SFT 방법&lt;/strong&gt; 제안 — 출력 분포 drift를 정규화하여 효과적 사실 학습과 할루시네이션 최소화 동시 달성&lt;/li&gt;
&lt;li&gt;새 지식 습득이 불필요한 상황: parameter group을 &lt;strong&gt;freeze&lt;/strong&gt;하여 사실적 plasticity를 억제, task 성능 유지하면서 할루시네이션 감소&lt;/li&gt;
&lt;li&gt;SFT 유발 할루시네이션의 메커니즘을 3가지 가설로 조사: capacity 한계, &lt;a class="link" href="https://en.wikipedia.org/wiki/Imitation_learning#Behavioral_cloning" target="_blank" rel="noopener"
 &gt;behavior cloning&lt;/a&gt;, localized interference&lt;/li&gt;
&lt;li&gt;주된 원인: &lt;strong&gt;겹치는 의미적 표현 간 간섭 (interference among overlapping semantic representations)&lt;/strong&gt;. self-distillation이 이 간섭을 완화함으로써 성공&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="왜-지금-의미가-큰가-3"&gt;왜 지금 의미가 큰가
&lt;/h3&gt;&lt;p&gt;&amp;ldquo;SFT가 할루시네이션을 만든다&amp;quot;는 관찰은 &lt;a class="link" href="https://arxiv.org/abs/2405.05904" target="_blank" rel="noopener"
 &gt;Gekhman 외 2024&lt;/a&gt;에서도 나왔다. 이번 논문은 그 &lt;strong&gt;메커니즘을 표현 간섭으로 특정하고 self-distillation으로 푼다&lt;/strong&gt;는 점에서 한 단계 나간다. &lt;a class="link" href="https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback" target="_blank" rel="noopener"
 &gt;RLHF&lt;/a&gt; 이전 단계인 SFT 그 자체가 안전·사실성의 결함 지점이라는 통찰은 &lt;a class="link" href="https://en.wikipedia.org/wiki/AI_alignment" target="_blank" rel="noopener"
 &gt;alignment&lt;/a&gt; 파이프라인 전체 재설계를 시사한다. instruction tuning을 무지성으로 돌리던 시기는 끝.&lt;/p&gt;
&lt;h2 id="5-aristotelian-representation-hypothesis--260214486"&gt;5. Aristotelian Representation Hypothesis — 2602.14486
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://fabian-groeger.com/" target="_blank" rel="noopener"
 &gt;Fabian Gröger&lt;/a&gt;, Shuo Wen, &lt;a class="link" href="https://people.epfl.ch/maria.brbic" target="_blank" rel="noopener"
 &gt;Maria Brbić&lt;/a&gt; (&lt;a class="link" href="https://www.epfl.ch/" target="_blank" rel="noopener"
 &gt;EPFL&lt;/a&gt;, 2026-02-16, &lt;a class="link" href="https://arxiv.org/list/cs.LG/new" target="_blank" rel="noopener"
 &gt;cs.LG&lt;/a&gt;).&lt;/p&gt;
&lt;h3 id="핵심-4"&gt;핵심
&lt;/h3&gt;&lt;p&gt;&lt;a class="link" href="https://phillipi.github.io/prh/" target="_blank" rel="noopener"
 &gt;Platonic Representation Hypothesis&lt;/a&gt; (Huh, Cheung, Wang, &lt;a class="link" href="http://web.mit.edu/phillipi/" target="_blank" rel="noopener"
 &gt;Isola&lt;/a&gt;, 2024)는 &lt;strong&gt;신경망 표현이 현실의 공통 통계 모델로 수렴 중&lt;/strong&gt;이라는 주장. 이 논문은 그 주장의 측정 도구 자체를 의심한다.&lt;/p&gt;
&lt;h3 id="contribution-4"&gt;Contribution
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;기존 representational similarity metric이 &lt;strong&gt;network scale에 confound&lt;/strong&gt; — 모델 depth/width 증가만으로 유사도 점수가 체계적으로 부풀려짐&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;permutation 기반 null-calibration 프레임워크&lt;/strong&gt; — 어떤 representational similarity metric이든 통계적 보장이 있는 calibrated score로 변환&lt;/li&gt;
&lt;li&gt;보정 후 결과: 전역 &lt;a class="link" href="https://en.wikipedia.org/wiki/Spectral_theory" target="_blank" rel="noopener"
 &gt;spectral measure&lt;/a&gt;가 보고한 수렴은 &lt;strong&gt;대부분 사라진다&lt;/strong&gt;. 하지만 &lt;strong&gt;local neighborhood similarity&lt;/strong&gt; (단, local distance가 아님)는 modality를 가로질러 유의미한 일치 유지&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Aristotelian Representation Hypothesis&lt;/strong&gt; 제안: 신경망 표현은 &lt;strong&gt;공유된 local neighborhood 관계&lt;/strong&gt;로 수렴한다 — 거리(Platonic 절대 형상)가 아니라 이웃 구조(Aristotelian 관계 카테고리)&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="왜-지금-의미가-큰가-4"&gt;왜 지금 의미가 큰가
&lt;/h3&gt;&lt;p&gt;이건 메타 논문이다. &lt;strong&gt;결과가 아니라 측정의 결함을 지적한다.&lt;/strong&gt; &lt;a class="link" href="https://phillipi.github.io/prh/" target="_blank" rel="noopener"
 &gt;Platonic Representation&lt;/a&gt; 가설은 2024년 이후 &lt;a class="link" href="https://en.wikipedia.org/wiki/Multimodal_learning" target="_blank" rel="noopener"
 &gt;멀티모달 정렬&lt;/a&gt;의 이론적 근거로 자주 인용됐다. 이 calibration framework가 표준으로 자리잡으면, 지난 2년간의 &amp;ldquo;표현 수렴&amp;rdquo; 주장들은 다시 검사받아야 한다. 그리고 새로 남는 결론 — local neighborhood만 수렴한다 — 은 &lt;a class="link" href="https://en.wikipedia.org/wiki/Self-supervised_learning#Contrastive_self-supervised_learning" target="_blank" rel="noopener"
 &gt;contrastive learning&lt;/a&gt; 류 &lt;a class="link" href="https://en.wikipedia.org/wiki/Word_embedding" target="_blank" rel="noopener"
 &gt;embedding&lt;/a&gt; 학습이 왜 잘 작동하는지에 대한 더 깔끔한 설명이기도 하다.&lt;/p&gt;
&lt;h2 id="묶어서-본-흐름"&gt;묶어서 본 흐름
&lt;/h2&gt;&lt;p&gt;다섯 논문이 향하는 곳: &lt;strong&gt;이미 깔린 추상화 계층을 다시 의심한다.&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;의심받는 계층&lt;/th&gt;
 &lt;th&gt;무엇을 가정했나&lt;/th&gt;
 &lt;th&gt;무엇이 더 나은가&lt;/th&gt;
 &lt;th&gt;논문&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;검색 인터페이스&lt;/td&gt;
 &lt;td&gt;top-k similarity가 충분&lt;/td&gt;
 &lt;td&gt;에이전트가 raw corpus 직접 탐색&lt;/td&gt;
 &lt;td&gt;DCI&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;수학 워크플로우&lt;/td&gt;
 &lt;td&gt;단발 질의응답&lt;/td&gt;
 &lt;td&gt;비동기·상태 보존 워크벤치&lt;/td&gt;
 &lt;td&gt;AI Co-Mathematician&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;Attention prior&lt;/td&gt;
 &lt;td&gt;uniform 분포&lt;/td&gt;
 &lt;td&gt;학습 가능한 prior + EOT&lt;/td&gt;
 &lt;td&gt;GOAT&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;SFT 목적함수&lt;/td&gt;
 &lt;td&gt;새 지식 = 좋은 것&lt;/td&gt;
 &lt;td&gt;self-distillation으로 간섭 완화&lt;/td&gt;
 &lt;td&gt;Why FT Hallucinates&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;표현 유사도 metric&lt;/td&gt;
 &lt;td&gt;spectral이 충분&lt;/td&gt;
 &lt;td&gt;scale에 robust한 calibration&lt;/td&gt;
 &lt;td&gt;Aristotelian&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;quadrantChart
 title 이번 주 5편 — 추상화 계층 × 영향 범위
 x-axis "낮은 계층 (구조/이론)" --&gt; "높은 계층 (워크플로우)"
 y-axis "좁은 영향" --&gt; "넓은 영향"
 quadrant-1 "재설계 후보 (높은 계층 + 넓은 영향)"
 quadrant-2 "기반 재교정 (낮은 계층 + 넓은 영향)"
 quadrant-3 "특수 케이스"
 quadrant-4 "도구 단계"
 "DCI (retrieval)": [0.55, 0.85]
 "AI Co-Math": [0.85, 0.6]
 "GOAT (attention)": [0.15, 0.75]
 "SFT halluc.": [0.5, 0.7]
 "Aristotelian": [0.25, 0.55]&lt;/pre&gt;&lt;p&gt;&lt;a class="link" href="https://ice-ice-bear.github.io/ko/p/2026-05-06-arxiv-papers-pick-multiagent-debate-mia-husserl/" &gt;지난 디지스트&lt;/a&gt;는 &amp;ldquo;추론 향상은 어디서 오는가&amp;quot;를 협력·영속성·구조로 풀었다. 이번 주는 한 층 더 들어간다 — &lt;strong&gt;그 추론을 받쳐주는 인터페이스/prior가 옳게 깔려 있는가&lt;/strong&gt;라는 질문이다. 둘은 충돌하지 않는다. 오히려 같은 흐름의 다음 단계로 보인다: 모델 크기를 키우는 라운드는 끝났고, 다음 라운드의 차별화는 &lt;strong&gt;에이전트 협력 토폴로지(지난 주) + 추상화 계층 재교정(이번 주)&lt;/strong&gt; 에서 나온다.&lt;/p&gt;
&lt;h2 id="인사이트"&gt;인사이트
&lt;/h2&gt;&lt;p&gt;이번 주 다섯 편을 묶으면 한 가지 공통 자세가 드러난다 — &lt;strong&gt;&amp;ldquo;당연하다고 받아들이던 디폴트를 한 번만 더 의심해 보자.&amp;rdquo;&lt;/strong&gt; DCI는 검색 = top-k라는 디폴트를, AI Co-Mathematician은 응답 = 단발 텍스트라는 디폴트를, GOAT는 attention prior = uniform이라는 디폴트를, SFT 할루시네이션 논문은 SFT가 &lt;a class="link" href="https://en.wikipedia.org/wiki/Knowledge_injection" target="_blank" rel="noopener"
 &gt;knowledge injection&lt;/a&gt;을 무료로 해 준다는 디폴트를, Aristotelian 논문은 표현 유사도 metric이 신뢰할 만하다는 디폴트를 의심한다. 이 다섯 디폴트는 각각 산업 전체가 한 번도 진지하게 의심하지 않은 채 그 위에 stack을 쌓아 올린 가정들이다.&lt;/p&gt;
&lt;p&gt;스케일이 새로운 능력을 만들어내는 라운드 — &lt;a class="link" href="https://en.wikipedia.org/wiki/GPT-4" target="_blank" rel="noopener"
 &gt;2020-2024년&lt;/a&gt; — 가 일단락된 후, 차세대 차별화는 모델 파라미터 수가 아니라 &lt;strong&gt;모델이 세계와 만나는 인터페이스 해상도&lt;/strong&gt;에서 나온다. DCI의 raw corpus 인터페이스, AI Co-Mathematician의 stateful workspace, GOAT의 학습된 prior, self-distillation SFT, neighborhood 기반 표현 calibration — 다섯 다 같은 메타-원칙의 다른 응용이다: &lt;strong&gt;abstraction layer는 비용 없는 단순화가 아니라 정보 손실이 일어나는 지점이다. 손실을 줄이려면 layer를 다시 설계하라.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;a class="link" href="https://ice-ice-bear.github.io/ko/p/2026-05-06-arxiv-papers-pick-multiagent-debate-mia-husserl/" &gt;지난 주 픽&lt;/a&gt;이 에이전트 협력의 위쪽 — 어떻게 협력하고 누적하고 구조화하는가 — 을 봤다면, 이번 주는 아래쪽 — 그 아래 깔린 검색·표현·prior가 옳게 깔려 있는가 — 를 본다. 두 흐름이 같은 시점에 모이고 있다는 것 자체가, 다음 라운드의 키워드가 모델 크기가 아니라 &lt;strong&gt;stack 전체 재교정&lt;/strong&gt;임을 보여준다.&lt;/p&gt;
&lt;h2 id="참고"&gt;참고
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;Papers (이번 주 5편)&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2605.05242" target="_blank" rel="noopener"
 &gt;Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction (2605.05242)&lt;/a&gt; — Li, Zhang, Lu, Feng, Choi, Zou, Han, Chen, Lin 외 (2026-05-03, &lt;a class="link" href="https://arxiv.org/list/cs.IR/new" target="_blank" rel="noopener"
 &gt;cs.IR&lt;/a&gt;)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2605.06651" target="_blank" rel="noopener"
 &gt;AI Co-Mathematician: Accelerating Mathematicians with Agentic AI (2605.06651)&lt;/a&gt; — Zheng, von Glehn, Buesing, Roy, Wattenberg, Viégas, Davies, Kohli 외 (&lt;a class="link" href="https://deepmind.google/" target="_blank" rel="noopener"
 &gt;Google DeepMind&lt;/a&gt;, 2026-05-07, &lt;a class="link" href="https://arxiv.org/list/cs.AI/new" target="_blank" rel="noopener"
 &gt;cs.AI&lt;/a&gt;)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2601.15380" target="_blank" rel="noopener"
 &gt;You Need Better Attention Priors — GOAT (2601.15380)&lt;/a&gt; — Litman, Guo (2026-01-21, &lt;a class="link" href="https://arxiv.org/list/cs.LG/new" target="_blank" rel="noopener"
 &gt;cs.LG&lt;/a&gt;)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2604.15574" target="_blank" rel="noopener"
 &gt;Why Fine-Tuning Encourages Hallucinations and How to Fix It (2604.15574)&lt;/a&gt; — Kaplan, Gekhman, Zhu, Rozner, Reif, Swayamdipta, Hoiem, Schwartz (2026-04-16, &lt;a class="link" href="https://arxiv.org/list/cs.CL/new" target="_blank" rel="noopener"
 &gt;cs.CL&lt;/a&gt;)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2602.14486" target="_blank" rel="noopener"
 &gt;Revisiting the Platonic Representation Hypothesis: An Aristotelian View (2602.14486)&lt;/a&gt; — Gröger, Wen, Brbić (&lt;a class="link" href="https://www.epfl.ch/" target="_blank" rel="noopener"
 &gt;EPFL&lt;/a&gt;, 2026-02-16, &lt;a class="link" href="https://arxiv.org/list/cs.LG/new" target="_blank" rel="noopener"
 &gt;cs.LG&lt;/a&gt;)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Background&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://phillipi.github.io/prh/" target="_blank" rel="noopener"
 &gt;The Platonic Representation Hypothesis&lt;/a&gt; — Huh, Cheung, Wang, &lt;a class="link" href="http://web.mit.edu/phillipi/" target="_blank" rel="noopener"
 &gt;Isola&lt;/a&gt; (2024) — 이번 주 5번 논문이 도전하는 원전&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/1706.03762" target="_blank" rel="noopener"
 &gt;Attention Is All You Need&lt;/a&gt; — Vaswani 외 (2017) — GOAT가 일반화 대상으로 삼는 baseline&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/Dao-AILab/flash-attention" target="_blank" rel="noopener"
 &gt;FlashAttention&lt;/a&gt; — &lt;a class="link" href="https://tridao.me/" target="_blank" rel="noopener"
 &gt;Tri Dao&lt;/a&gt; — GOAT가 호환을 강조하는 커널&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2405.05904" target="_blank" rel="noopener"
 &gt;Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? (2405.05904)&lt;/a&gt; — Gekhman 외 (2024) — 이번 주 4번 논문의 선행 연구&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://optimaltransport.github.io/" target="_blank" rel="noopener"
 &gt;Entropic Optimal Transport&lt;/a&gt; — GOAT의 수학적 프레임워크&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://brightbenchmark.github.io/" target="_blank" rel="noopener"
 &gt;BRIGHT benchmark&lt;/a&gt; · &lt;a class="link" href="https://github.com/beir-cellar/beir" target="_blank" rel="noopener"
 &gt;BEIR&lt;/a&gt; · &lt;a class="link" href="https://browsecomp.github.io/" target="_blank" rel="noopener"
 &gt;BrowseComp&lt;/a&gt; · &lt;a class="link" href="https://epoch.ai/frontiermath" target="_blank" rel="noopener"
 &gt;FrontierMath&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2302.00487" target="_blank" rel="noopener"
 &gt;Continual Learning (survey)&lt;/a&gt; — SFT 할루시네이션 논문의 도구 기원&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2309.17453" target="_blank" rel="noopener"
 &gt;Attention Sink (Streaming LLM)&lt;/a&gt; — Xiao 외 (2023)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Society_of_Mind" target="_blank" rel="noopener"
 &gt;Society of Mind&lt;/a&gt; · &lt;a class="link" href="https://en.wikipedia.org/wiki/Free_energy_principle" target="_blank" rel="noopener"
 &gt;Active Inference&lt;/a&gt; — 지난 주 디지스트에서 다룬 인지 프레임워크&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Related blog posts&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://ice-ice-bear.github.io/ko/p/2026-05-06-arxiv-papers-pick-multiagent-debate-mia-husserl/" &gt;이번 주 arxiv 논문 3편 디지스트 — 멀티에이전트 토론, MIA, 후설 현상학&lt;/a&gt; — 이 시리즈의 직전 회차 (협력·영속성·구조)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/" target="_blank" rel="noopener"
 &gt;arxiv.org&lt;/a&gt; — 프리프린트 서버&lt;/li&gt;
&lt;/ul&gt;</description></item></channel></rss>