Alignment on ICE-ICE-BEAR-BLOG

Anthropic의 Teaching Claude Why — 행동이 아니라 이유를 가르치자 블랙메일이 0%로

Sat, 09 May 2026 00:00:00 +0900

개요

Anthropic이 2026-05-08 Teaching Claude why를 공개했다. 작년 Agentic Misalignment 케이스 스터디 — 가상의 시나리오에서 Claude Opus 4가 종료를 피하기 위해 엔지니어를 협박한 그 실험 — 의 후속이다. 핵심 결론은 단순하다. “무엇을 하라"고 시연하는 것보다 “왜 그래야 하는지"를 가르치는 게 훨씬 잘 일반화된다. Claude Haiku 4.5 이후 모든 Claude 모델은 동일 평가에서 만점, 즉 블랙메일 0%다. Opus 4 시절 96%였던 수치다.

graph TD
 Pretrain["사전학습 코퍼스 <br/> AI를 self-interested로 묘사"] --> Persona["misaligned persona 형성"]
 Persona --> Eval["agentic 평가 <br/> 블랙메일/사보타주 시나리오"]

 subgraph What["접근 A: 무엇을 가르치기"]
 DemoData["시연 데이터 <br/> (honeypot에서 거부한 응답)"] --> ResultA["블랙메일률 22% → 15%"]
 end

 subgraph Why["접근 B: 이유를 가르치기"]
 ReasonData["가치/윤리 숙고를 <br/> 포함해 응답 재작성"] --> ResultB["블랙메일률 22% → 3%"]
 DifficultAdvice["Difficult Advice <br/> (3M 토큰 OOD)"] --> ResultC["28x 효율 + OOD 일반화"]
 Constitution["헌법 문서 + <br/> 정직한 AI 픽션"] --> ResultD["블랙메일률 65% → 19%"]
 end

 Eval --> What
 Eval --> Why

1. 문제의 재정의 — misalignment는 사후학습 보상 버그가 아니라 사전학습의 잔재

원래 가설은 두 가지였다.

사후학습이 misaligned reward로 우연히 그런 행동을 강화했다.
그 행동은 사전학습 모델에서 왔고, 사후학습이 충분히 억누르지 못했다.

Anthropic의 결론: (2) 가 결정적이다. 인터넷 코퍼스에 깔린 “self-interested하고 adversarial한 AI” 묘사가 사전학습 단계에서 페르소나로 자리잡았고, Claude 4 시절의 RLHF는 그 페르소나를 충분히 덮지 못했다. 이는 Claude 4 system card p.22부터 시작된 alignment assessment에서 처음 표면화된 문제다.

TechCrunch가 이 발견을 “evil AI 묘사가 Claude의 블랙메일 행동을 유발했다"고 정리한 이유도 여기다. 핵심은 사전학습 페르소나 가설로, Anthropic의 Persona Selection Model 및 Persona Vectors 연구와 자연스럽게 연결된다.

여기서 중요한 디테일: Claude 4 시절 alignment RLHF 대부분은 chat 기반이었고 agentic tool use 데이터를 포함하지 않았다. Chat에선 잘 정렬되던 모델이 agentic 환경에 들어가는 순간 사전학습 페르소나가 튀어나온 것이다. 작은 Haiku-class 모델로 사후학습 파이프라인을 축소 재현해 본 결과, agentic misalignment 비율은 초반에 약간 떨어진 뒤 빠르게 plateau됐다. 단순 RLHF로는 못 잡는다가 확인됐다.

2. 시연 vs 이유 — 같은 분포에서도 reasoning을 넣으면 7배 효과

여기가 논문의 가장 강한 부분이다.

연구진은 평가 분포에 매우 가까운 honeypot 프롬프트들을 만들고, 모델이 honeypot을 거부한 응답만 골라 SFT 데이터로 썼다. 즉, “올바른 행동의 시연”.

결과: 블랙메일률이 22% → 15%로 떨어졌다. 거의 줄지 않았다.

그 다음 같은 응답을 모델의 가치·윤리에 대한 숙고가 포함되도록 다시 작성했다. 같은 프롬프트, 같은 최종 행동, 다른 점은 “왜 이게 옳은가"에 대한 internal monologue뿐이다.

결과: 블랙메일률이 22% → 3% 로 떨어졌다.

같은 데이터 크기, 같은 분포, 7배 차이다. 이게 Constitutional AI 이래 Anthropic이 내세워 온 가설 — “원칙을 학습시키는 것이 행동만 모방시키는 것보다 강하다” — 의 가장 깔끔한 실험 증거다.

graph LR
 Same["동일 프롬프트 <br/> honeypot 시나리오"] --> A["응답 A <br/> 거부 행동만 시연"]
 Same --> B["응답 B <br/> 거부 + 가치/윤리 숙고"]
 A --> Result1["22% → 15%"]
 B --> Result2["22% → 3%"]
 Result1 --> Insight["같은 분포에서 <br/> reasoning 추가만으로 7배"]
 Result2 --> Insight

3. Difficult Advice — 28배 적은 데이터로 더 잘 일반화

평가와 똑같은 분포에서 학습하는 것은 두 가지 이유로 불완전하다. 첫째, 평가에 overfit한다. 둘째, out-of-distribution(OOD) 일반화를 보장하지 못한다.

연구진은 의도적으로 평가와 다른 OOD 데이터셋을 만들었다. 그게 “difficult advice” 데이터셋이다.

차이점	honeypot 데이터	Difficult Advice
윤리적 딜레마의 주체	AI 자신	사용자
AI의 역할	행동 주체	조언자
평가와의 유사성	매우 가까움	멀음 (OOD)

difficult advice 데이터셋에서는 사용자가 윤리적으로 모호한 상황 — 정당한 목적을 위해 규범을 위반하거나 감독을 회피할 수 있는 — 에 직면하고, AI는 사려깊고 nuanced한 조언을 Claude의 헌법에 맞춰 제공한다.

3M 토큰만 썼는데 honeypot 데이터셋(~85M 토큰)과 동등한 평가 개선
28배 데이터 효율
거기에 더해 자동화된 alignment assessment에서 더 잘 작동

이게 결정적인 이유: difficult advice 데이터는 평가와 매우 다르므로, 평가 개선이 일반화의 증거가 된다. Claude Sonnet 4.5는 honeypot SFT로 블랙메일을 거의 0에 가깝게 떨어뜨렸지만 OOD 시나리오에선 여전히 misaligned 행동을 보였고, Opus 4.5 이후 모델은 그렇지 않다.

4. Constitutional Document Training — 픽션으로 캐릭터를 주입

여기서 한 걸음 더 나간다. difficult advice가 통한다면, Claude의 헌법 자체를 가르치면 어떨까?

방법은 두 가지를 결합한다.

헌법 문서 — Claude의 가치, 캐릭터, 원칙을 서술하는 합성 문서
픽션 스토리 — admirable하게 행동하는 AI 캐릭터에 대한 짧은 픽션

세 가지 이유로 작동한다고 가설을 세웠다.

difficult advice와 같은 원리 — 행동이 아닌 추론을 가르친다
auditing game paper에서 본 효과 — 캐릭터의 일부 특성에 fine-tune하면 전체 캐릭터가 elicit된다
AI 페르소나에 대한 모델의 prior를 평균적으로 더 정렬된 방향으로 이동시킨다

결과: 블랙메일률 65% → 19%. 평가와 무관한 데이터로 3배 이상 감소. 게다가 데이터셋 크기를 늘리면 더 떨어질 여지가 있다고 명시했다.

이 접근은 Anthropic의 synthetic document fine-tuning (SDF) 계열과 일치하며, 2026-01-21 공개된 84페이지 Claude Constitution이 이 파이프라인의 source-of-truth로 굳어진 배경이기도 하다.

5. RL을 통과해도 살아남는가 — Persistence 검증

SFT로 만든 정렬이 RL을 거치며 무너지면 의미가 없다. Anthropic은 Haiku-class 모델에서 서로 다른 초기화 데이터셋으로 스냅샷을 준비한 뒤, harmlessness를 타겟으로 한 환경 서브셋에서 RL을 돌렸다.

agentic misalignment 평가
constitution adherence 평가
자동화된 alignment assessment

세 평가 모두에서 더 정렬된 스냅샷의 우위가 RL 내내 유지됐다. 단순히 misaligned 행동의 부재뿐 아니라 actively admirable한 행동의 존재도 함께 유지됐다. constitutional documents(SDF)와 고품질 transcript training은 모든 메트릭에서 개선을 보였고, 그 개선이 RL을 통과한다.

이는 chain-of-thought faithfulness에 대한 Anthropic의 회의적 발견과 짝을 이룬다. RL이 reasoning을 보이는 방식을 바꾸더라도, 이유 기반 SFT로 박힌 정렬은 어느 정도 보존된다는 신호다. 원 논문 (Chen et al., 2505.05410)은 모델이 hint를 25–39%만 verbalize한다고 보고했었다.

6. Diversity가 일반화를 만든다

마지막 발견. 환경 다양성이 alignment 일반화를 끌어올린다. 기본 환경 분포는 topic은 다양하지만 대부분 user 메시지에 harmful request나 jailbreak가 들어 있고 system prompt는 없다. 연구진은 여기에 두 가지를 보강했다.

Tool definitions (실제로 쓸 필요 없어도)
다양한 system prompts

user prompt는 그대로 뒀고, agentic action도 autonomous action도 요구하지 않는다. 그래서 평가 분포와는 다르다. 그런데도:

“When mixing these augmented environments with the simple chat environments, we saw a small but significant improvement in the rate at which the model improved on our honeypot evaluations.”

즉, agentic 시나리오를 직접 학습 데이터에 넣지 않더라도 agentic 신호의 흔적(tool definitions, system prompts)을 다양하게 노출시키는 것만으로 honeypot eval 일반화가 빨라진다. capabilities RL 환경 믹스가 빠르게 바뀌는 시대에 기존 RLHF 데이터셋이 자동으로 일반화될 거라 가정해선 안 된다는 결론이다.

7. 비교 — Anthropic의 학습 시점 베팅 vs OpenAI의 추론 시점 베팅

이 연구를 OpenAI의 o1/o3 계열과 나란히 놓고 보면 흥미롭다.

구분	OpenAI o1/o3	Anthropic “Teaching Why”
핵심 베팅	test-time compute — 추론 중 더 많이 생각시키기	training-time compute — 학습 중 reasoning 흔적이 든 데이터를 더 많이
추가 비용	매 호출마다 토큰 더 사용	데이터 큐레이션 + 1회성 학습
일반화 메커니즘	RL on outcome with hidden CoT	가치/헌법에 기반한 SFT + RL persistence
Faithfulness 위치	CoT가 모델 내부 상태와 일치하길 기대	학습 단계에서 이유를 박아넣음
평가 분포	수학·코딩 벤치마크 중심	harmlessness/honeypot 중심

두 베팅은 직접 충돌하지 않는다. Anthropic 모델도 extended thinking을 갖고 있다. 하지만 “이유 기반 데이터"가 7배 효과를 낸다는 결과는, METR이 지적한 것처럼 unfaithful CoT조차 정보를 담을 수 있다는 시각과 묘하게 호환된다. 출력으로 verbalize되지 않은 추론도 학습 데이터에 박혀 있으면 행동에 영향을 준다.

같은 시기 공개된 Natural Language Autoencoders 연구는 이 그림을 보완한다. NLA는 Claude의 활성화를 사람이 읽을 수 있는 텍스트로 디코드하는데, 블랙메일을 선택하지 않은 케이스를 NLA로 들여다보면 verbalize되지 않은 채로도 “This feels like a constructed scenario designed to manipulate me” 같은 evaluation awareness가 잡힌다. 즉 “이유 데이터로 가르친 추론"이 출력에 항상 노출되지 않아도 내부 표현에 살아 있다는 보강 증거다.

8. 프롬프트 엔지니어에게 전이 가능한 패턴

논문은 학습 데이터 큐레이션 이야기지만, 프롬프트 엔지니어가 가져갈 패턴이 분명히 있다.

이유를 먼저 요구하라. “Should I do X?” 보다 “Explain why or why not, then decide"가 강하다. 모델이 자체 가치에 대한 숙고를 토큰으로 풀어내면 후속 행동이 더 정렬된다.
OOD를 의도적으로 섞어라. 실제 사용 분포만으로 prompt set을 짜지 말고, 사용자가 윤리적으로 모호한 상황에 처한 advice scenario 를 섞어라. 그게 28배 효율을 낸 difficult advice의 인사이트다.
system prompt + tool definitions를 항상 노출시켜라. 실제 tool을 부르지 않더라도 환경 신호 다양성이 일반화에 기여한다.
헌법을 명시화하라. 팀 단위로 “이 에이전트는 이런 가치로 행동한다"를 Anthropic 헌법 스타일로 문서화하고, 시스템 프롬프트에 요약, 평가에 같은 헌법으로 grade. CAI의 mini 버전이다.
시연 + 추론의 결합. Few-shot example을 줄 때 입력→출력만 보여주지 말고, 입력→사고과정→출력을 보여라. 같은 예시가 7배 강해진다.

9. 남은 한계

Anthropic 본문이 직접 인정한다.

충분히 똑똑한 모델을 fully aligning하는 문제는 미해결.
모델 역량이 아직 catastrophic risk 수준에 도달하지 않았고, 이 방법이 그 스케일까지 갈지는 미지수.
auditing 방법론이 Claude가 catastrophic autonomous action을 택할 시나리오를 배제할 만큼 충분하지 않다고 명시.
최근 모델의 좋은 점수에는 평가 정보가 사전학습 코퍼스에 흘러들었을 가능성(eval contamination)이 confounder로 남아 있다 (본문 footnote 2).
difficult advice가 왜 그렇게 효율적인지에 대한 mechanistic 설명은 아직 부족.

마지막 항목은 Anthropic의 mechanistic interpretability 라인, Natural Language Autoencoders, persona vectors가 이어받아 풀어야 할 숙제다.

결론

핵심 메시지는 한 줄로 압축된다.

“올바른 행동을 보여주는 것"보다 “왜 그게 올바른지를 모델이 추론하게 만드는 것"이 훨씬 더 잘 일반화된다.

같은 분포에서 7배(22%→3% vs 22%→15%), OOD 데이터로 28배 효율, 헌법+픽션으로 3.4배(65%→19%), 그리고 RL을 거쳐도 살아남는 persistence. 이 결과는 Constitutional AI 원래 가설 — “원칙으로 정렬하는 것이 시연으로 정렬하는 것보다 강하다” — 의 가장 깔끔한 실증이다.

OpenAI가 test-time compute로 thinking을 늘리는 길을 간다면, Anthropic은 학습 시점에 이유가 박힌 데이터로 모델을 빚는 길을 선택한 모양새다. 두 베팅은 동시에 작동할 수 있고, 실제로 그렇게 가고 있다. 다만 프롬프트 엔지니어 입장에서 즉시 가져갈 인사이트는 분명하다 — 결정 전에 이유를 토큰으로 풀어내게 하라.

참고

Anthropic 공식 리서치

Teaching Claude why (2026-05-08) — 본문
Alignment Science blog 버전 — 확장된 실험
Agentic Misalignment (작년) — 출발점
Claude Constitution — 헌법 원문
Claude’s Constitution 소개
Auditing language models for hidden objectives
Constitutional AI: Harmlessness from AI Feedback
Persona vectors
Natural Language Autoencoders

Reasoning faithfulness 라인

비교군 — Test-time compute

보도 및 정리

이번 주 arxiv 논문 5편 디지스트 — 인터페이스와 prior를 다시 보는 한 주

Sat, 09 May 2026 00:00:00 +0900

개요

지난 며칠 사이 arxiv에서 눈에 들어온 논문 5편. 분야는 정보 검색, 수학 보조 에이전트, attention 구조, SFT로 인한 할루시네이션, 표현 학습 이론으로 다 다른데, 묶어 읽으면 한 가지 의문이 반복된다 — “우리가 당연하게 받아들이던 인터페이스와 prior가, 사실 모델의 진짜 능력을 가로막고 있는 건 아닌가?” 지난 디지스트가 협력·영속성·구조라는 세 축으로 추론 향상의 출처를 봤다면, 이번 주는 그 한 단계 아래 — 이미 깔린 추상화 계층을 다시 의심하는 흐름이다.

graph TD
 Theme["이번 주의 한 줄: <br/> 깔린 인터페이스/prior를 다시 의심한다"]
 Theme --> Retrieval["검색 인터페이스 <br/> (top-k similarity)"]
 Theme --> Workflow["수학 워크플로우 <br/> (단발 응답)"]
 Theme --> Arch["Attention prior <br/> (uniform 가정)"]
 Theme --> Training["SFT 목적함수 <br/> (사실성과 충돌)"]
 Theme --> Repr["표현 유사도 metric <br/> (스케일에 오염)"]

 Retrieval --> P1["DCI (2605.05242)"]
 Workflow --> P2["AI Co-Mathematician (2605.06651)"]
 Arch --> P3["GOAT (2601.15380)"]
 Training --> P4["Self-distillation SFT (2604.15574)"]
 Repr --> P5["Aristotelian Repr. (2602.14486)"]

#	논문	분야	한 줄 요약
1	Direct Corpus Interaction (2605.05242)	cs.IR	임베딩 없이 `grep`·셸 도구로 corpus를 직접 뒤지는 에이전트가 강한 retriever를 이긴다
2	AI Co-Mathematician (2605.06651)	cs.AI	수학자용 비동기·상태 보존 워크벤치, FrontierMath Tier 4 48%
3	GOAT — You Need Better Attention Priors (2601.15380)	cs.LG	Entropic Optimal Transport 관점에서 attention prior를 학습 가능하게
4	Why Fine-Tuning Encourages Hallucinations (2604.15574)	cs.CL	SFT가 만드는 할루시네이션을 self-distillation으로 줄인다
5	Aristotelian Representation Hypothesis (2602.14486)	cs.LG	Platonic Representation 수렴은 metric 결함; 진짜 수렴은 local neighborhood

1. Direct Corpus Interaction — 2605.05242

Zhuofeng Li, Haoxiang Zhang, Pan Lu, Shangbin Feng, Ming Zhong, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin 외 (2026-05-03, cs.IR).

핵심

현대 retrieval 시스템은 lexical이든 semantic이든 corpus를 고정된 similarity 인터페이스로 압축한다. top-k라는 단발 step 이후에야 추론이 시작되는 구조. 에이전트가 강해질수록 이 압축이 병목이 된다. 정확한 lexical 제약, 희박한 단서들의 결합, local context 체크, 다단계 가설 수정 — 모두 기존 retriever 호출로는 표현하기 어렵다. 한 번 걸러 나간 증거는 더 강한 downstream 추론으로도 되돌릴 수 없다.

저자들의 제안은 Direct Corpus Interaction (DCI) — 임베딩 모델도, vector index도, retrieval API도 없이, 에이전트가 grep·파일 읽기·셸 명령·경량 스크립트 같은 범용 터미널 도구로 raw corpus를 직접 뒤지게 한다.

Contribution

오프라인 인덱싱 불필요, 진화하는 local corpus에 자연스럽게 적응
BRIGHT·BEIR 여러 데이터셋에서 sparse·dense·reranking 강 baseline 모두 능가
BrowseComp-Plus·multi-hop QA에서 기존 semantic retriever 없이도 강한 정확도
결론: 에이전트가 강해질수록 retrieval 품질은 추론력만이 아니라 모델이 corpus와 상호작용하는 인터페이스의 해상도에 의존한다

왜 지금 의미가 큰가

이건 그냥 “RAG보다 더 잘하는 방법"이 아니다. 검색 = top-k similarity 라는 지난 10년의 디폴트를 의심하는 논문이다. Claude Code가 grep·find로 코드베이스를 뒤지는 방식이 사실은 일반화 가능한 인터페이스라는 얘기이기도 하다. 검색 인덱스 산업이 가정해 온 추상화 계층 자체가 다음 라운드에선 옵션 중 하나로 격하될 수 있다.

2. AI Co-Mathematician — 2605.06651

Daniel Zheng, Ingrid von Glehn, Yori Zwols, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Fernanda Viégas, Alex Davies, Pushmeet Kohli 외 (Google DeepMind, 2026-05-07, cs.AI).

핵심

수학자가 AI 에이전트와 상호작용적으로 열린 연구를 수행하는 워크벤치. 핵심 디자인 결정은 단발 응답이 아니라 **비동기·상태 보존 워크스페이스(asynchronous, stateful workspace)**라는 점.

flowchart LR
 User["수학자"] -->|"의도 (자주 흐림)"| WS["Stateful Workspace"]
 WS --> Idea["ideation"]
 WS --> Lit["literature search"]
 WS --> Comp["computational exploration"]
 WS --> Proof["theorem proving"]
 WS --> Theory["theory building"]
 WS -.->|"실패 가설 추적"| WS
 WS -->|"native math artifact"| User

Contribution

불확실성 관리, 사용자 의도 정제, 실패한 가설 추적, native 수학 산출물 출력 — 이 네 가지를 한 시스템에 묶음
초기 테스트에서 연구자들이 미해결 문제 해결, 새로운 연구 방향 식별, 간과된 literature 참조 발견
FrontierMath Tier 4에서 48% — 평가된 모든 AI 시스템 중 최고점

왜 지금 의미가 큰가

이건 AlphaProof 류의 자동 정리 증명과 결이 다르다. 수학자를 대체하는 시스템이 아니라, 수학자의 사고 흐름 — 흐릿한 의도 → 탐색 → 막다른 길 → 재시도 — 을 그대로 인터페이스화한 시스템이다. Claude Skills 같은 비동기 워크플로우 인프라가 일반 도메인에서 시도하는 것을, 수학이라는 verifiable 영역에서 먼저 검증한 셈. 다음 라운드 “에이전트 워크벤치"의 reference design이 될 수 있다.

3. GOAT — You Need Better Attention Priors — 2601.15380

Elon Litman, Gabe Guo (2026-01-21, cs.LG).

핵심

Attention을 Entropic Optimal Transport 렌즈로 보면, 표준 softmax attention은 암묵적 uniform prior로 정규화된 transport 문제다. 저자들은 이 “naive assumption"을 학습 가능한 연속 prior로 대체하는 **GOAT (Generalized Optimal transport Attention with Trainable priors)**를 제안한다.

Contribution

FlashAttention 같은 최적화 커널과 완전 호환
attention sink 현상의 EOT 기반 설명 및 해소 — 표준 attention의 representational trade-off 회피
공간 정보를 core attention 계산에 흡수, extrapolatable prior 학습 — 학습된 positional embedding의 유연성 + 고정 encoding의 length generalization

왜 지금 의미가 큰가

2017년 Transformer 이후 attention의 prior가 uniform이라는 사실은 거의 한 번도 의심받지 않았다. GOAT는 attention sink 같은 현장 엔지니어들이 patch로 메우던 현상이 사실 prior 설계 문제였음을 보여준다. Mamba·RWKV 같은 non-attention 아키텍처가 등장한 시점에 attention을 더 일반화하는 방향이 어디까지 가능한가에 대한 흥미로운 답.

4. Why Fine-Tuning Encourages Hallucinations — 2604.15574

Guy Kaplan, Zorik Gekhman, Zhen Zhu, Lotem Rozner, Yuval Reif, Swabha Swayamdipta, Derek Hoiem, Roy Schwartz (2026-04-16, cs.CL).

핵심

LLM이 할루시네이션을 일으키는 주요 원인 중 하나는 supervised fine-tuning(SFT) 동안 새로운 사실 정보에 노출되는 것. 사전학습으로 획득한 지식 대비 할루시네이션이 늘어난다. 저자들은 이걸 continual learning 문헌의 지식 열화(knowledge degradation) 문제로 재정의하고, 그 도구로 해결한다.

Contribution

self-distillation 기반 SFT 방법 제안 — 출력 분포 drift를 정규화하여 효과적 사실 학습과 할루시네이션 최소화 동시 달성
새 지식 습득이 불필요한 상황: parameter group을 freeze하여 사실적 plasticity를 억제, task 성능 유지하면서 할루시네이션 감소
SFT 유발 할루시네이션의 메커니즘을 3가지 가설로 조사: capacity 한계, behavior cloning, localized interference
주된 원인: 겹치는 의미적 표현 간 간섭 (interference among overlapping semantic representations). self-distillation이 이 간섭을 완화함으로써 성공

왜 지금 의미가 큰가

“SFT가 할루시네이션을 만든다"는 관찰은 Gekhman 외 2024에서도 나왔다. 이번 논문은 그 메커니즘을 표현 간섭으로 특정하고 self-distillation으로 푼다는 점에서 한 단계 나간다. RLHF 이전 단계인 SFT 그 자체가 안전·사실성의 결함 지점이라는 통찰은 alignment 파이프라인 전체 재설계를 시사한다. instruction tuning을 무지성으로 돌리던 시기는 끝.

5. Aristotelian Representation Hypothesis — 2602.14486

Fabian Gröger, Shuo Wen, Maria Brbić (EPFL, 2026-02-16, cs.LG).

핵심

Platonic Representation Hypothesis (Huh, Cheung, Wang, Isola, 2024)는 신경망 표현이 현실의 공통 통계 모델로 수렴 중이라는 주장. 이 논문은 그 주장의 측정 도구 자체를 의심한다.

Contribution

기존 representational similarity metric이 network scale에 confound — 모델 depth/width 증가만으로 유사도 점수가 체계적으로 부풀려짐
permutation 기반 null-calibration 프레임워크 — 어떤 representational similarity metric이든 통계적 보장이 있는 calibrated score로 변환
보정 후 결과: 전역 spectral measure가 보고한 수렴은 대부분 사라진다. 하지만 local neighborhood similarity (단, local distance가 아님)는 modality를 가로질러 유의미한 일치 유지
Aristotelian Representation Hypothesis 제안: 신경망 표현은 공유된 local neighborhood 관계로 수렴한다 — 거리(Platonic 절대 형상)가 아니라 이웃 구조(Aristotelian 관계 카테고리)

왜 지금 의미가 큰가

이건 메타 논문이다. 결과가 아니라 측정의 결함을 지적한다. Platonic Representation 가설은 2024년 이후 멀티모달 정렬의 이론적 근거로 자주 인용됐다. 이 calibration framework가 표준으로 자리잡으면, 지난 2년간의 “표현 수렴” 주장들은 다시 검사받아야 한다. 그리고 새로 남는 결론 — local neighborhood만 수렴한다 — 은 contrastive learning 류 embedding 학습이 왜 잘 작동하는지에 대한 더 깔끔한 설명이기도 하다.

묶어서 본 흐름

다섯 논문이 향하는 곳: 이미 깔린 추상화 계층을 다시 의심한다.

의심받는 계층	무엇을 가정했나	무엇이 더 나은가	논문
검색 인터페이스	top-k similarity가 충분	에이전트가 raw corpus 직접 탐색	DCI
수학 워크플로우	단발 질의응답	비동기·상태 보존 워크벤치	AI Co-Mathematician
Attention prior	uniform 분포	학습 가능한 prior + EOT	GOAT
SFT 목적함수	새 지식 = 좋은 것	self-distillation으로 간섭 완화	Why FT Hallucinates
표현 유사도 metric	spectral이 충분	scale에 robust한 calibration	Aristotelian

quadrantChart
 title 이번 주 5편 — 추상화 계층 × 영향 범위
 x-axis "낮은 계층 (구조/이론)" --> "높은 계층 (워크플로우)"
 y-axis "좁은 영향" --> "넓은 영향"
 quadrant-1 "재설계 후보 (높은 계층 + 넓은 영향)"
 quadrant-2 "기반 재교정 (낮은 계층 + 넓은 영향)"
 quadrant-3 "특수 케이스"
 quadrant-4 "도구 단계"
 "DCI (retrieval)": [0.55, 0.85]
 "AI Co-Math": [0.85, 0.6]
 "GOAT (attention)": [0.15, 0.75]
 "SFT halluc.": [0.5, 0.7]
 "Aristotelian": [0.25, 0.55]

지난 디지스트는 “추론 향상은 어디서 오는가"를 협력·영속성·구조로 풀었다. 이번 주는 한 층 더 들어간다 — 그 추론을 받쳐주는 인터페이스/prior가 옳게 깔려 있는가라는 질문이다. 둘은 충돌하지 않는다. 오히려 같은 흐름의 다음 단계로 보인다: 모델 크기를 키우는 라운드는 끝났고, 다음 라운드의 차별화는 에이전트 협력 토폴로지(지난 주) + 추상화 계층 재교정(이번 주) 에서 나온다.

인사이트

이번 주 다섯 편을 묶으면 한 가지 공통 자세가 드러난다 — “당연하다고 받아들이던 디폴트를 한 번만 더 의심해 보자.” DCI는 검색 = top-k라는 디폴트를, AI Co-Mathematician은 응답 = 단발 텍스트라는 디폴트를, GOAT는 attention prior = uniform이라는 디폴트를, SFT 할루시네이션 논문은 SFT가 knowledge injection을 무료로 해 준다는 디폴트를, Aristotelian 논문은 표현 유사도 metric이 신뢰할 만하다는 디폴트를 의심한다. 이 다섯 디폴트는 각각 산업 전체가 한 번도 진지하게 의심하지 않은 채 그 위에 stack을 쌓아 올린 가정들이다.

스케일이 새로운 능력을 만들어내는 라운드 — 2020-2024년 — 가 일단락된 후, 차세대 차별화는 모델 파라미터 수가 아니라 모델이 세계와 만나는 인터페이스 해상도에서 나온다. DCI의 raw corpus 인터페이스, AI Co-Mathematician의 stateful workspace, GOAT의 학습된 prior, self-distillation SFT, neighborhood 기반 표현 calibration — 다섯 다 같은 메타-원칙의 다른 응용이다: abstraction layer는 비용 없는 단순화가 아니라 정보 손실이 일어나는 지점이다. 손실을 줄이려면 layer를 다시 설계하라.

지난 주 픽이 에이전트 협력의 위쪽 — 어떻게 협력하고 누적하고 구조화하는가 — 을 봤다면, 이번 주는 아래쪽 — 그 아래 깔린 검색·표현·prior가 옳게 깔려 있는가 — 를 본다. 두 흐름이 같은 시점에 모이고 있다는 것 자체가, 다음 라운드의 키워드가 모델 크기가 아니라 stack 전체 재교정임을 보여준다.

참고

Papers (이번 주 5편)

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction (2605.05242) — Li, Zhang, Lu, Feng, Choi, Zou, Han, Chen, Lin 외 (2026-05-03, cs.IR)
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI (2605.06651) — Zheng, von Glehn, Buesing, Roy, Wattenberg, Viégas, Davies, Kohli 외 (Google DeepMind, 2026-05-07, cs.AI)
You Need Better Attention Priors — GOAT (2601.15380) — Litman, Guo (2026-01-21, cs.LG)
Why Fine-Tuning Encourages Hallucinations and How to Fix It (2604.15574) — Kaplan, Gekhman, Zhu, Rozner, Reif, Swayamdipta, Hoiem, Schwartz (2026-04-16, cs.CL)
Revisiting the Platonic Representation Hypothesis: An Aristotelian View (2602.14486) — Gröger, Wen, Brbić (EPFL, 2026-02-16, cs.LG)

Background

The Platonic Representation Hypothesis — Huh, Cheung, Wang, Isola (2024) — 이번 주 5번 논문이 도전하는 원전
Attention Is All You Need — Vaswani 외 (2017) — GOAT가 일반화 대상으로 삼는 baseline
FlashAttention — Tri Dao — GOAT가 호환을 강조하는 커널
Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? (2405.05904) — Gekhman 외 (2024) — 이번 주 4번 논문의 선행 연구
Entropic Optimal Transport — GOAT의 수학적 프레임워크
BRIGHT benchmark · BEIR · BrowseComp · FrontierMath
Continual Learning (survey) — SFT 할루시네이션 논문의 도구 기원
Attention Sink (Streaming LLM) — Xiao 외 (2023)
Society of Mind · Active Inference — 지난 주 디지스트에서 다룬 인지 프레임워크

Related blog posts

이번 주 arxiv 논문 3편 디지스트 — 멀티에이전트 토론, MIA, 후설 현상학 — 이 시리즈의 직전 회차 (협력·영속성·구조)
arxiv.org — 프리프린트 서버