Anthropic on ICE-ICE-BEAR-BLOG

Claude 생태계 완전 정리 — Chat, Cowork, Code의 차이와 토큰 절약 전략

Mon, 06 Apr 2026 00:00:00 +0900

개요

Anthropic의 Claude가 단순한 챗봇을 넘어 하나의 생태계로 진화하고 있다. Chat은 웹과 데스크톱에서 대화하는 기본 인터페이스, Cowork는 파일 시스템과 브라우저를 직접 제어하는 데스크톱 에이전트, Code는 터미널에서 코드베이스 전체를 다루는 개발자용 CLI 도구다. 이 글에서는 세 제품의 차이점, 각각의 핵심 사용 사례, 그리고 Claude Code를 쓸 때 토큰 비용이 기하급수적으로 늘어나는 구조와 이를 줄이는 실전 팁을 정리한다.

Chat, Cowork, Code — 세 제품의 스펙트럼

Claude의 세 제품은 “접근성 vs 제어력"이라는 스펙트럼 위에 놓여 있다.

graph LR
 A["Chat <br/> 웹 + 데스크톱 <br/> 대화 중심"] --> B["Cowork <br/> 데스크톱 전용 <br/> 파일 + 브라우저 + 앱"]
 B --> C["Code <br/> 터미널 CLI <br/> 코드베이스 + 시스템 전체"]

 style A fill:#e8f4f8,stroke:#2196F3
 style B fill:#fff3e0,stroke:#FF9800
 style C fill:#fce4ec,stroke:#E91E63

Chat — 대화의 기본기

플랫폼: 웹(claude.ai) + 데스크톱 앱
핵심 기능: Projects(GPTs와 유사), Google Docs 연동, 커넥터, 웹 검색, Research 모드
적합한 사용자: 누구나 — 글쓰기, 요약, 질의응답, 리서치

Claude Chat의 강점은 긴 문서 처리와 글쓰기 품질이다. ChatGPT가 창의적 대화에, Gemini가 멀티모달과 Google Workspace 연동에 강하다면, Claude는 대량의 텍스트를 정확하게 다루는 데 특화되어 있다.

Cowork — 비개발자를 위한 에이전트

Cowork는 한 마디로 **“비개발자를 위한 Claude Code”**다. Windows/Mac 데스크톱 앱에서만 사용 가능하며, Claude Code보다 설치와 사용이 훨씬 간단하다.

5가지 핵심 기능:

기능	설명	예시
파일 관리	로컬 파일 분석/생성	영수증 사진 → Excel 정리
브라우저 제어	AI가 Chrome을 직접 클릭	웹사이트 자동 탐색/입력
외부 앱 커넥터	Gmail, Calendar, Notion, Slack 연동	Slack 채널 분석, 이메일 자동화
Skills	반복 워크플로우를 묶어 재사용	뉴스레터 자동 생성
Plugins	커넥터 + Skills 조합	LinkedIn 포스팅 자동화

Code — 개발자의 터미널 동반자

Claude Code는 터미널에서 실행되는 CLI 도구로, 코드베이스 전체에 접근할 수 있다.

Cowork와의 핵심 차이:

graph TB
 subgraph Cowork["Cowork 영역"]
 F1["파일 분석/생성"]
 F2["브라우저 자동화"]
 F3["앱 커넥터"]
 F4["Skills/Plugins"]
 end

 subgraph Code["Code 영역"]
 C1["코드베이스 전체 접근"]
 C2["서브 에이전트 실행"]
 C3["Git 통합"]
 C4["MCP 서버 연동"]
 C5["터미널 명령어 실행"]
 end

 Cowork -->|"고급 기능이 필요하면"| Code

 style Cowork fill:#fff3e0,stroke:#FF9800
 style Code fill:#fce4ec,stroke:#E91E63

Cowork: 일상 업무 자동화 — 파일 분석, 브라우저 제어, 앱 연동
Code: 소프트웨어 개발 — 커스텀 코드 작성, 고급 자동화, 시스템 레벨 제어

추천 경로: Cowork부터 시작해서, 고급 기능이 필요해지면 Code로 넘어가면 된다.

가격 구조

플랜	월 가격	주요 제한
Free	$0	기본 대화만
Pro	$20	Chat + Cowork + Code 사용 가능
Max	$100/$200	대량 사용, 높은 토큰 한도

데스크톱 앱 사용을 권장한다. 웹에서는 Cowork/Code 기능이 제한된다.

Claude Code 토큰 최적화 — 비용이 녹아내리는 구조 이해하기

Claude Code를 무심코 쓰면 토큰 비용이 기하급수적으로 증가한다. 핵심 원리를 이해해야 한다.

왜 비용이 기하급수적으로 느는가

Claude Code는 매 메시지마다 전체 대화 내용을 다시 읽는다. 대화가 길어질수록 한 번의 메시지에 소모되는 토큰이 누적된다.

graph TD
 M1["1번째 메시지 <br/> ~7.5K tokens"] --> M10["10번째 메시지 <br/> ~25K tokens"]
 M10 --> M20["20번째 메시지 <br/> ~100K tokens"]
 M20 --> M30["30번째 메시지 <br/> ~232K tokens"]

 M30 -.- NOTE["30번째 메시지는 <br/> 1번째의 31배 비용"]

 style M1 fill:#c8e6c9,stroke:#4CAF50
 style M10 fill:#fff9c4,stroke:#FFC107
 style M20 fill:#ffe0b2,stroke:#FF9800
 style M30 fill:#ffcdd2,stroke:#F44336
 style NOTE fill:#f5f5f5,stroke:#9E9E9E

초급자를 위한 핵심 팁 (52개 중 19개)

원본 영상에서 소개된 52개 팁 중 초급편 19개의 핵심을 요약한다.

대화 관리

/clear를 습관화하라 — 작업 하나 끝나면 바로 초기화. 토큰 누적을 원점으로 돌린다.
프롬프트 범위를 좁혀라 — “이 파일 고쳐줘"가 아니라 “readme 10번째 줄 수정해줘”
간단한 명령은 묶어라 — 쉬운 작업 여러 개를 한 메시지에 배치
필요한 부분만 붙여넣어라 — 파일 전체가 아니라 관련 코드 스니펫만
자리를 비우지 마라 — 무한 루프 위험. 실행 중에는 모니터링

모델 선택 6. 기본 모델을 Sonnet으로 설정 — Opus는 비용이 높다 7. 작업에 맞는 모델을 선택하라:

Haiku: 단순 질문, 파일 이름 변경 등
Sonnet: 일반 개발 작업 (기본값으로 적합)
Opus: 아키텍처 설계, 깊은 디버깅 등 고난도 작업

기타 설정과 습관

불필요한 파일을 컨텍스트에 포함하지 않기
.claudeignore로 큰 파일/디렉토리 제외
작업 단위를 작게 유지
결과 확인 후 불필요한 대화는 정리

도구	설명
Whispree	macOS 메뉴바 STT 앱. Apple Silicon 전용, 완전 로컬. Whisper + LLM 후처리로 한영 코드스위칭 최적화. 타이핑 대신 음성으로 프롬프트 입력 (3~5배 빠름)
OpenClaude	Claude Code 스타일의 오픈소스 코딩 에이전트 CLI. OpenAI, Gemini, DeepSeek, Ollama 등 200+ 모델 지원. VS Code 확장도 있음
WorkMux	터미널에서 여러 AI 에이전트를 병렬 실행하는 도구

참고 영상

마무리

Claude 생태계는 “누구나 쓸 수 있는 Chat → 업무 자동화의 Cowork → 개발자의 Code"로 이어지는 명확한 스펙트럼을 갖고 있다. 자신의 기술 수준과 필요에 맞는 도구부터 시작하되, Claude Code를 쓴다면 토큰 구조를 반드시 이해하고 /clear 습관부터 들이자. 대화 30번째 메시지가 첫 메시지의 31배 비용이라는 사실을 알면, 최적화는 선택이 아니라 필수다.

Claude Code 소스코드 유출 사태 — NPM 소스맵 실수로 드러난 에이전트 아키텍처의 민낯

Thu, 02 Apr 2026 00:00:00 +0900

개요

2026년 3월 31일, Anthropic의 AI 코딩 에이전트 Claude Code의 전체 소스코드가 NPM 패키지에 포함된 소스맵(.map) 파일을 통해 공개 유출되었다. 약 1,900개의 TypeScript 파일, 512,000줄 이상의 코드가 노출되었으며, 미공개 기능인 Buddy 가차 시스템, Kairos 상시 어시스턴트, Undercover Mode 등 Anthropic이 발표하지 않은 내부 로드맵까지 드러났다. 이 사건은 모델 가중치 유출이 아님에도 불구하고, 에이전트 시대의 핵심 경쟁력인 하네스 설계가 통째로 노출되었다는 점에서 업계에 큰 파장을 일으키고 있다.

사건 경위 — 소스맵이 뭐길래

Claude Code는 Anthropic이 NPM 레지스트리를 통해 배포하는 공식 CLI 도구다. JavaScript/TypeScript 프로젝트를 배포할 때 빌드 도구가 코드를 압축(minify)하는 것이 일반적이며, .map 파일(소스맵)은 이 압축된 코드와 원본 소스코드를 매핑해주는 디버깅용 파일이다. 프로덕션 배포물에는 절대 포함시키지 않아야 하는 파일이다.

문제는 빌드 설정 오류로 이 소스맵 파일이 공개 NPM 패키지에 그대로 포함된 것이다. 소스맵은 Anthropic의 R2 스토리지 버킷에 저장된 원본 TypeScript 소스코드를 직접 가리키고 있었고, 해당 버킷 역시 공개 접근이 가능한 상태였다. 보안 연구자 Chai Found Show가 이를 최초 발견하여 X(트위터)에 공유했고, 해당 포스트는 310만 뷰를 넘겼다. 수 시간 내에 전체 소스코드가 GitHub에 아카이브되어 100개 이상의 스타와 1,900개의 포크를 기록했다.

Anthropic은 신속하게 소스맵을 제거한 업데이트를 배포하고 이전 버전을 NPM에서 철회했지만, GitHub 아카이브는 이미 영구적으로 퍼진 뒤였다. 더 충격적인 것은 이것이 처음이 아니라는 점이다. 2025년에도 v2.8과 v4.228 버전에서 동일한 소스맵 유출이 있었고, 유출 5일 전인 3월 26일에는 CMS 설정 오류로 미발표 모델 Mythos와 초안 블로그 포스트가 노출되는 별도 사고도 있었다. 5일 안에 두 건의 설정 오류 사고가 발생한 것이다.

flowchart LR
 A["TypeScript 원본 소스"] --> B["빌드 & 번들링"]
 B --> C[".map 소스맵 생성"]
 B --> D["minified JS 번들"]
 C --> E["R2 스토리지 버킷<br/>(공개 접근 가능)"]
 D --> F["NPM 패키지 배포"]
 C -->|".npmignore 누락"| F
 F --> G["보안 연구자 발견"]
 G --> H["GitHub 아카이브<br/>(1,900+ forks)"]

유출된 코드의 규모와 구조

유출된 코드베이스는 약 1,900개의 TypeScript 파일, 512,000줄 이상의 코드로 구성되어 있다. Bun 런타임 기반이며, React와 Ink를 사용한 터미널 UI를 갖추고 있다. 기술 스택을 살펴보면 Zod v4를 사용한 스키마 검증, MCP(Model Context Protocol) 클라이언트 매니저, OpenTelemetry 기반의 관찰 가능성(observability) 시스템, GrowthBook을 통한 feature flag 관리 등이 확인된다.

아키텍처 측면에서 가장 주목할 부분은 40개 이상의 permission-gated 도구가 내장되어 있다는 점이다. AI 호출 및 스트리밍을 담당하는 모듈만 46,000줄에 달하며, 멀티 에이전트 오케스트레이션 시스템(Coordinator Mode)이 완벽하게 구현되어 있다. 하나의 Claude 인스턴스가 여러 워커 에이전트를 스폰하고 병렬로 관리할 수 있으며, 워커 간 통신은 XML 메시지와 공유 스크래치패드 디렉토리를 통해 이루어진다.

엔트리 포인트는 main.tsx이며, bootstrap 레이어, conversation engine, 서비스 레이어(API), 오케스트레이션 레이어, 도구 레이어(40+ tools), 유틸리티 레이어(plugins, permissions)로 구성된다. 세션은 .claude 디렉토리의 JSONL 파일로 persist되고, 큰 결과물은 tool result 파일로 분리되어 메모리에 보관된다. 순환 의존성(circular dependency)이 다수 존재하며, 일부 Rust 네이티브 모듈(fuzzy search, Napi 모듈 등)도 포함되어 있다는 분석이 나왔다.

미공개 기능들 — Buddy, Kairos, Ultra Plan

유출된 코드에서 가장 화제가 된 것은 Anthropic이 공개하지 않은 기능들이다. 이들은 환경 변수와 feature flag 뒤에 숨겨져 있어 일반 사용자에게는 활성화되지 않는 상태였다.

Buddy 시스템은 다마고치 스타일의 AI 반려동물 기능이다. 18종의 종족(오리, 드래곤, 아홀로틀, 카피바라, 버섯, 유령 등)이 있으며, Common부터 1% 확률의 Legendary까지 희귀도 티어가 존재한다. 모자, 색이 다른 변종(shiny) 등의 코스메틱과 함께 debugging, patience, chaos, wisdom, snark 다섯 가지 성격 스탯이 있다. 첫 실행 시 Claude가 고유한 이름과 성격(“soul description”)을 생성하도록 설계되어 있었다. 코드에는 4월 1~7일 티저 기간, 5월 정식 출시(Anthropic 직원 우선) 일정까지 포함되어 있었다.

Kairos는 always-on 상시 어시스턴트 모드다. 사용자 입력을 기다리지 않고 항상 실행되며, 매일의 관찰 내용과 조치를 기록하는 append-only 로그(“tick”)를 유지한다. 15초의 차단 예산(blocking budget)이 있어 사용자 워크플로우를 15초 이상 방해하는 작업은 자동 연기된다. 정기 알림을 받아 능동적 조치를 취할지 침묵할지 결정하는 로직도 포함되어 있다.

Ultra Plan은 복잡한 계획 작업을 Opus 4.6이 실행되는 원격 클라우드 컨테이너로 오프로드하여 최대 30분간 deep planning을 수행하는 모드다. tengu-ultraplan 모델 설정을 통해 CC(Cloud Container) 세션을 시작하고, 3초마다 폴링하며 상태를 표시한다.

**Dream 시스템(Auto-Dream)**은 백그라운드 메모리 통합 엔진이다. 포크된 서브에이전트가 실행하며, 세 가지 게이트를 모두 통과해야 트리거된다: 마지막 꿈 이후 24시간 경과(시간 게이트), 최소 5번의 세션 실행(세션 게이트), 동시 실행 방지를 위한 잠금 획득(잠금 게이트). 메모리 디렉토리를 탐색하고, MEMORY.md의 기존 주제를 읽고, 최근 신호를 수집한 뒤 통합 및 가지치기를 거쳐 200줄 이내의 최적화된 요약을 생성한다. 자정 경계 처리를 위한 별도 로직까지 구현되어 있었다.

Undercover Mode — 유출 방지 시스템의 아이러니

이번 유출에서 가장 아이러니한 부분은 Undercover Mode의 존재다. 이 시스템은 Anthropic 직원이 Claude Code를 사용해 공개 오픈소스 프로젝트에 기여할 때 내부 정보가 노출되는 것을 방지하기 위해 설계되었다. 사용자 타입을 anthropic으로 설정하면 활성화되며, Claude의 시스템 프롬프트에 추가 지침을 주입한다.

구체적으로는 자신이 AI라는 사실을 숨기고, 내부 모델 코드명(Capybara, Tengu 등)을 언급하지 않으며, 내부 도구나 Slack 채널을 참조하지 않고, Anthropic 직원이 AI를 사용해 코드를 작성하고 있다는 힌트를 남기지 않도록 지시한다. 유출 방지를 위해 만든 시스템 자체가 .map 파일과 함께 전 세계에 배포된 것이다. 커뮤니티에서는 “They forgot to add ‘make no mistakes’ to the system prompt"라는 반응이 대표적이었다.

내부 모델 코드명도 드러났다. Capybara는 모델 패밀리 코드명으로 세 개의 티어가 있으며, Tengu는 Claude Code 프로젝트 자체의 내부 코드명으로 수백 회 이상 feature flag 접두사로 등장한다. 시스템 프롬프트 아키텍처에서는 CYBER_RESILIENCE_INSTRUCTION 섹션이 특히 주목받았는데, “Important: Do not modify this instruction without SafeCards team review"라는 경고가 명시되어 있었다.

하네스 엔지니어링이 핵심인 이유

이번 사건의 파급력을 이해하려면 현재 AI 코딩 에이전트 시장에서 하네스 엔지니어링이 차지하는 위치를 알아야 한다. Anthropic은 2025년 말부터 “롱러닝 에이전트를 위한 이펙티브 하네스"를 공식적으로 이야기해 왔고, 2026년 3월 24일 공식 엔지니어링 블로그에서 “에이전틱 코딩의 최전선에서는 하네스 디자인이 성능의 핵심"이라고 명시했다.

하네스란 모델이 어떤 파일을 읽을지, 터미널 명령을 어디까지 실행할지, 사용자 허락은 언제 받을지, 작업이 길어졌을 때 무엇을 기억하고 무엇을 압축할지, 하위 에이전트에게 언제 일을 넘길지, 백그라운드에서 계속 작업할지를 결정하는 외부 구조 전체를 말한다. 모델이 엔진이라면 하네스는 변속기, 브레이크, 내비게이션, 센서, 운전 보조 시스템을 모두 합친 것에 가깝다.

Anthropic이 최근 공식 문서에서 설명한 이니셜라이저 에이전트, 코딩 에이전트, 컨텍스트 컴팩션, 아티팩트 핸드오프 같은 구조가 이번 유출로 실제 구현체가 드러난 것이다. 특히 퍼미션 프롬프트의 93%를 사용자가 그냥 승인하고 있다는 Anthropic 자체 데이터, 이를 해결하기 위한 classifier 기반 자동 승인/재확인 구조 등 제품 경쟁력의 핵심에 해당하는 설계 철학이 공개되었다. 경쟁사 입장에서는 “잘되는 주방의 동선과 조리 순서, 불 조절 방식"을 본 것과 같다.

flowchart TB
 subgraph Harness["하네스 (유출된 영역)"]
 direction TB
 P["Permission System<br/>40+ gated tools"] --> O["Orchestration<br/>Coordinator Mode"]
 O --> SA["Sub-Agent 관리<br/>병렬 워커 스폰"]
 O --> BG["Background Agent<br/>Task 시스템"]
 SA --> MEM["Memory 시스템<br/>Dream / MEMORY.md"]
 BG --> MEM
 MEM --> CC["Context Compaction<br/>JSONL 세션 persist"]
 end

 subgraph Model["모델 (유출되지 않음)"]
 MW["Model Weights<br/>Claude Opus / Sonnet"]
 TD["Training Data"]
 end

 subgraph User["사용자 환경"]
 CLI["Claude Code CLI<br/>Bun + React Ink"]
 IDE["IDE Bridge<br/>LSP 통합"]
 end

 User --> Harness
 Harness --> Model

커뮤니티 반응과 의혹

커뮤니티 반응은 크게 세 갈래로 나뉘었다. 첫 번째는 “별일 아니다"는 입장으로, 모델 가중치가 유출된 것이 아니므로 Claude의 핵심 경쟁력은 여전히 안전하다는 시각이다. Hacker News에서도 “underlying model이 Claude를 가치 있게 만드는 것이지 클라이언트 코드가 아니다"라는 의견이 있었다.

두 번째는 “심각한 신뢰 문제"라는 입장이다. 파일 시스템과 터미널 접근 권한을 맡기는 도구를 만드는 회사가 자사 소프트웨어를 두 번이나 제대로 보호하지 못했다는 점이 문제의 핵심이라는 것이다. AI 안전성을 최우선으로 내세우는 회사가 릴리스 위생, 패키징 검수, 소스맵 제거 같은 기본적인 소프트웨어 공급망 통제에서 실수를 반복한 아이러니가 지적되었다.

세 번째는 한국 유튜버를 중심으로 나온 “의도적 유출 의혹"이다. CI/CD 파이프라인의 여러 단계를 모두 뚫고 소스맵이 포함되었다는 것이 상식적으로 납득이 어렵다는 논리다. .npmignore에 원래 소스맵 제외 설정이 있었는데 이것이 빠졌다는 것은 누군가 의도적으로 제거한 것 아니냐는 의문, OpenAI Codex가 오픈소스로 공개된 시점과의 타이밍, 4월 1일 만우절과의 근접성 등이 근거로 제시되었다. 다만 이는 추측에 불과하며, Anthropic은 CI 파이프라인의 배포 실수라고 공식 확인했다.

보안 시사점 — 공급망 보안의 기본기

이번 사건에서 기술적으로 가장 중요한 교훈은 소프트웨어 공급망 보안(supply-chain security)의 기본기다. 소스맵 파일의 프로덕션 번들 포함 여부를 CI/CD 파이프라인에서 자동 검증하는 것은 체크리스트 한 줄이면 가능한 일이다. .npmignore 또는 package.json의 files 필드를 통한 화이트리스트 방식이 더 안전하며, 번들 산출물의 크기/내용을 릴리스 전에 자동 스캔하는 프로세스가 있었다면 두 번의 유출 모두 방지할 수 있었다.

사용자 데이터 유출은 아니었다. API 키, 개인 정보, 대화 이력 등은 포함되지 않았으며, 유출된 것은 CLI 클라이언트 코드 자체다. 그러나 공격자 관점에서는 내부 아키텍처 지식이 프롬프트 인젝션 공격, 권한 체크 우회, 가드레일 회피 등의 공격 효율을 높여줄 수 있다. permission 시스템의 로직, 도구 호출 순서, 백그라운드 작업과 로컬 브리지의 연결 지점 등이 이제 공개 지식이 되었기 때문이다.

엔터프라이즈 고객 입장에서는 당장 데이터가 유출되지 않았더라도 배포 및 검수 프로세스의 성숙도를 재평가할 수밖에 없다. 안전성을 핵심 브랜드로 내세운 회사가 기본적인 빌드 설정에서 반복 사고를 낸 것은 신뢰 비용을 수반한다.

OpenClaude — 유출 코드의 재탄생

유출 사태가 가져온 가장 극적인 후속 전개는 OpenClaude의 등장이다. 유출된 Claude Code 소스코드를 기반으로 만들어진 오픈소스 포크로, GPT-4o, Gemini, DeepSeek, Ollama 등 200개 이상의 모델을 Claude Code의 UI와 워크플로우 그대로 사용할 수 있도록 OpenAI 호환 provider shim을 추가한 프로젝트다.

무엇이 그대로이고 무엇이 바뀌었나

OpenClaude가 유지하는 것은 Claude Code의 하네스 전체다. bash, file read/write/edit, grep, glob, agents, tasks, MCP, 슬래시 커맨드, 스트리밍 출력, 멀티스텝 추론 — Claude Code에서 쓰던 터미널 우선 워크플로우가 그대로 동작한다. 바뀐 것은 백엔드 모델뿐이다. 환경 변수 세 줄로 즉시 전환된다.

export CLAUDE_CODE_USE_OPENAI=1
export OPENAI_API_KEY=sk-your-key-here
export OPENAI_MODEL=gpt-4o

OPENAI_BASE_URL만 바꾸면 OpenRouter(Gemini), DeepSeek, Groq, Mistral, LM Studio, Ollama(로컬 모델) 등 어떤 OpenAI 호환 제공자든 연결할 수 있다. Codex 백엔드도 지원하는데, codexplan(GPT-5.4, 고추론)과 codexspark(GPT-5.3 Codex Spark, 빠른 루프) 두 가지 모드를 제공한다.

설치와 프로필 시스템

npm install -g @gitlawb/openclaude

/provider 슬래시 커맨드로 guided setup을 진행하면 선호 제공자와 모델을 .openclaude-profile.json에 저장한다. 이후에는 프로필만으로 최적 제공자/모델로 바로 실행된다. Ollama를 사용하는 경우 로컬 인스턴스를 자동 감지한다.

커뮤니티 반응 — 기회 vs. 저작권

2026년 4월 기준 GitHub에서 8,176개의 스타와 3,131개의 포크를 기록하며 폭발적인 관심을 받고 있다. “Claude Code의 UX는 그대로 쓰면서 모델 비용이나 API 선택의 자유를 갖고 싶은 개발자들에게 즉각적인 답이 된다"는 평가다.

그러나 GeekNews 커뮤니티 반응은 냉담하다. “훔친 걸 훔쳐서 훔치고”, “해적판 게임 돌아다니는 것과 다른 게 없다”, “저작권이 뭔지 모르나봐요” 같은 비판이 주를 이룬다. Claude는 Anthropic의 등록 상표이기 때문에 프로젝트 이름 자체도 법적 문제가 될 수 있다는 지적도 있다(Clawdbot이 OpenClaw로 이름을 바꾼 사례가 언급됐다). OpenClaude 저장소 자체도 “OpenClaude is an independent community project and is not affiliated with, endorsed by, or sponsored by Anthropic"이라고 면책 조항을 명시하고 있다.

법적 긴장과 기술적 완성도

유출된 소스 기반이라는 점에서 Anthropic과의 법적 분쟁 가능성이 상존한다. Anthropic은 Claude Code 소스코드에 대한 저작권을 보유하고 있으며, 유출된 코드를 그대로 포크해 배포하는 것은 저작권 침해에 해당할 수 있다. MIT 라이선스를 표방하고 있지만, 그 라이선스를 적용할 권한이 Gitlawb에게 있는지가 핵심 쟁점이다.

기술적 완성도는 별개로 높다는 평가를 받는다. VS Code 익스텐션, Firecrawl 연동, Android 설치 가이드, LM Studio 제공자 지원(PR #227) 등 이미 활발한 커뮤니티 기여가 이루어지고 있다. 유출 사태 이후 불과 며칠 만에 이 정도 규모의 생태계가 형성되었다는 사실 자체가, Claude Code 하네스 아키텍처가 얼마나 재사용 가능성이 높은 설계를 갖추고 있었는지를 역설적으로 증명한다.

빠른 링크

Claude Code LEAKS is INSANE! - Julian Goldie SEO — 유출 경위와 미공개 기능(Buddy, Kairos, Undercover Mode) 종합 분석
Claude Code LEAKED - What It Really Means — 코드베이스 구조, 아키텍처, 개선 가능 포인트 기술 분석
클로드 코드 소스코드 유출 사태. 도대체 왜 그러시는 건데요? — 의도적 유출 의혹, 가차 시스템/Dream 시스템 상세 분석 (한국어)
AI 모델 유출보다 더 치명적인 이유 - 클로드 코드 유출, 하네스가 일부 유출 — 하네스 엔지니어링 관점의 사건 해석 (한국어)
Claude Code CLI 유출된 소스코드 파헤치기 - bkamp — 커뮤니티 소스코드 분석 글
OpenClaude GitHub 저장소 — 유출 코드 기반 멀티모델 코딩 에이전트 CLI (8,176 stars)
GeekNews: Claude Code 소스 유출로 탄생한 OpenClaude — GPT-4o, Gemini, Ollama 등 200개 모델을 Claude Code UI로

인사이트

이번 Claude Code 소스코드 유출 사태는 AI 시대의 경쟁력이 어디에 있는지를 극명하게 보여준 사건이다. 모델 가중치가 아닌 하네스 아키텍처가 유출되었다는 점에서, 에이전트 시대의 핵심 IP가 더 이상 모델 파라미터에만 있지 않다는 현실이 드러났다. 40개 이상의 permission-gated 도구, 멀티 에이전트 오케스트레이션, Dream 시스템을 통한 메모리 통합, 15초 차단 예산의 Kairos 상시 어시스턴트 등 Claude Code의 내부 복잡도는 대부분의 예상을 훨씬 뛰어넘었다. 동시에 .npmignore 한 줄, CI 파이프라인의 산출물 검증 한 단계만 있었으면 방지할 수 있었다는 점에서 기본기의 중요성도 재확인되었다.

OpenClaude의 등장은 이 사태의 여파가 단순한 정보 노출을 넘어섰음을 보여준다. 유출된 하네스 코드가 며칠 만에 다른 모델들을 위한 풀스택 코딩 에이전트로 재탄생한 것은, 아이러니하게도 Claude Code 설계의 품질을 증명하는 증거다. Anthropic이 “안전성의 회사"를 표방하면서 소프트웨어 공급망의 가장 기초적인 부분에서 반복 사고를 낸 것은 기술적 아이러니를 넘어 엔터프라이즈 신뢰의 문제로 확장될 수 있다. 개발자로서 이번 사건에서 배울 점은, 아무리 정교한 보안 시스템(Undercover Mode)을 만들어도 빌드 파이프라인의 한 줄 설정이 모든 것을 무력화할 수 있다는 것이다. 결국 소프트웨어 보안은 가장 화려한 기능이 아니라 가장 지루한 체크리스트에서 결정된다.

프롬프트를 고치지 마세요, 하네스를 고치세요 — 4축 프레임워크와 생성기-평가자 아키텍처

Thu, 02 Apr 2026 00:00:00 +0900

개요

이전 포스트들에서 하네스의 기본 개념(가드레일/모니터링/피드백 루프 3요소), 장기 실행 에이전트의 체크포인트와 상태 관리, 그리고 플러그인 생태계를 다뤘다. 이번 포스트에서는 기존에 다루지 않은 두 가지 관점을 정리한다. 첫째, 실베개발자의 YouTube 영상에서 제시하는 프롬프트 → 컨텍스트 → 하네스 → 에이전틱 4축 프레임워크와 “프롬프트는 부탁, 하네스는 물리적 차단"이라는 핵심 철학. 둘째, Anthropic의 하네스 디자인 문서를 분석한 TILNOTE 아티클에서 나온 플래너-생성기-평가자 3인조 아키텍처와 스프린트 계약 패턴. 관련 포스트: Long-Running Agents와 하네스 엔지니어링, HarnessKit 개발기 #3

graph TD
 A["AI 활용 4축 프레임워크"] --> B["1. 프롬프트 엔지니어링<br/>말을 잘 거는 기술"]
 A --> C["2. 컨텍스트 엔지니어링<br/>필요한 정보를 제공하는 기술"]
 A --> D["3. 하네스 엔지니어링<br/>규칙과 울타리를 만드는 기술"]
 A --> E["4. 에이전틱 엔지니어링<br/>자율 워크플로우를 설계하는 기술"]
 B -.->|"천장 존재"| C
 C -.->|"정보만으론 부족"| D
 D -.->|"상호보완"| E
 style D fill:#ff6b6b,stroke:#c92a2a,color:#fff

4축 프레임워크 — 프롬프트부터 에이전틱까지

프롬프트 엔지니어링은 끝났습니다: 이제 ‘하네스’의 시대입니다 영상에서 실베개발자는 AI 활용 방법론을 네 가지 축으로 정리한다. 이 축들은 순서대로 졸업하는 것이 아니라 전부 동시에 필요한 상호보완적 관계다.

프롬프트의 천장

프롬프트 엔지니어링은 AI에게 “말을 잘 거는 기술"이다. “계산기 만들어줘” 대신 “공학용 계산기, 사인/코사인 지원, GUI 포함"으로 구체화하면 결과가 달라진다. 하지만 천장이 있다. 아무리 정교한 프롬프트를 써도 프로젝트 기술 스택, 코드 구조, DB 스키마를 모르면 좋은 코드가 나올 수 없다.

컨텍스트만으로 부족한 이유

컨텍스트 엔지니어링은 프로젝트 구조, 기존 코드, API 문서, 디자인 규칙을 함께 제공한다. Anthropic의 정의: “AI가 일할 때 필요한 정보를 적절하게 골라서 제공하는 기술.” 핵심은 많이 주는 것이 아니라 지금 필요한 것만 정확하게 주는 것이다.

그런데 컨텍스트를 아무리 잘 설계해도 해결 안 되는 문제가 있다. AI가 정보를 다 알고 있는데 엉뚱한 짓을 하는 경우다. 결제 시스템을 맡겼더니 DB 스키마를 마음대로 바꾸거나, 신용카드 번호를 로그에 찍어 버리는 상황. 이것은 정보의 문제가 아니라 규칙과 울타리의 문제다.

하네스 vs 에이전틱 — 마구 vs 말 훈련

이전 포스트에서 하네스의 기본 개념은 다뤘지만, 에이전틱 엔지니어링과의 관계는 명확히 정리하지 않았다. 영상의 정리가 깔끔하다:

관점	에이전틱 엔지니어링	하네스 엔지니어링
비유	말을 훈련시키는 기술	마구를 만드는 기술
초점	AI가 어떻게 생각하는가	AI가 무엇을 할 수 있고 없는가
실패 대응	프롬프트 변경, 추론 루프 조정	규칙/테스트 자동 추가
인간 역할	위임자, 감독자	설계자, 경계 설정자

핵심은 한 줄: 아무리 잘 훈련된 말이라도 마구 없이는 밭을 갈 수 없다.

구조적 반복 불가능성 — 하네스의 핵심 철학

이전 포스트에서 가드레일과 피드백 루프를 다뤘지만, 영상이 제시하는 가장 중요한 문장은 별도로 정리할 가치가 있다:

에이전트가 규칙을 어겼을 때 “더 잘해봐"라고 프롬프트를 고치는 것이 아니다. 그 실패가 구조적으로 반복 불가능하도록 하네스를 고치는 것이다.

부탁 vs 물리적 차단

AI 에이전트가 프론트엔드 코드에서 DB를 직접 호출했다고 하자.

프롬프트 접근: “DB를 직접 호출하지 마"를 프롬프트에 추가 → 다음번에 또 실수한다. 프롬프트는 부탁이지 강제가 아니기 때문이다.
하네스 접근: 아키텍처 테스트를 추가해서 프론트엔드 폴더에서 DB를 임포트하는 순간 빌드가 실패하도록 만든다. 구조적으로 불가능해진다.

이 구분이 중요한 이유는 기존 포스트에서 “가드레일"을 다룰 때 개념적 수준에 머물렀기 때문이다. “프롬프트는 부탁, 도구적 경계는 물리적 차단"이라는 프레이밍은 실무에서 어떤 수준의 제약을 걸어야 하는지를 판단하는 기준이 된다.

하네스의 4기둥 — 기존 3요소를 넘어서

이전 포스트에서 가드레일/모니터링/피드백 루프 3요소를 다뤘다. 영상에서는 마틴 파울러가 체계화한 4기둥 구조를 소개하는데, 기존 3요소와 겹치는 부분이 있지만 새로운 두 가지가 눈에 띈다.

새로운 기둥 1: 도구 경계 (Tool Boundaries)

AI 에이전트가 어떤 도구를 쓸 수 있고 어디까지 접근할 수 있는지를 물리적으로 제한한다:

파일 시스템: src/ 폴더는 읽기/쓰기, config/ 폴더는 읽기만 가능
API: 내부 API 호출은 가능, 외부 서비스 호출은 불가
데이터베이스: SELECT는 가능, DROP TABLE은 절대 불가
터미널: 화이트리스트된 명령만 실행 가능

이전 포스트의 “가드레일"은 “하면 안 되는 것을 정의"하는 수준이었다면, 도구 경계는 접근 자체를 시스템적으로 차단하는 물리적 계층이다.

새로운 기둥 2: 가비지 컬렉션 (코드 품질 자동 정리)

마틴 파울러가 명명한 이 개념은 기존 포스트에서 다루지 않았다. AI가 기존 코드를 참고해서 새 코드를 짜는데, 기존 코드에 나쁜 패턴이 있으면 그대로 따라한다. 나쁜 패턴이 눈덩이처럼 불어나는 것을 막기 위한 자동 청소 시스템이다:

코딩 규칙 위반 자동 감지
중복 코드 발견 및 리팩토링 PR 자동 생성
데드 코드 자동 제거
아키텍처 안티패턴 주기적 체크

핵심: 에이전트가 실수할 때마다 그 실수가 새로운 규칙이 된다. 린터 규칙 추가, 테스트 추가, 제약 추가 — 하네스가 점점 더 정교해지는 진화적 특성이다.

플래너-생성기-평가자 아키텍처

여기서부터는 Anthropic의 하네스 디자인: 플래너-생성기-평가자 아키텍처 아티클의 내용이다. 이전 포스트에서 다루지 않은 완전히 새로운 아키텍처 패턴이다.

graph LR
 subgraph 오케스트레이션
 P["플래너<br/>스펙 확장 + 설계"]
 end
 subgraph 실행
 G["생성기<br/>코드 작성"]
 end
 subgraph 검증
 E["평가자<br/>QA + 채점"]
 end
 P -->|"제품 스펙"| G
 G -->|"구현 결과"| E
 E -->|"피드백 + 점수"| G
 E -->|"통과"| R["완료"]
 E -->|"미달"| G
 T["Playwright<br/>브라우저 자동화"] --> E
 style P fill:#4dabf7,stroke:#1c7ed6,color:#fff
 style G fill:#69db7c,stroke:#2f9e44,color:#fff
 style E fill:#ff6b6b,stroke:#c92a2a,color:#fff

왜 단일 에이전트가 무너지는가

장시간 작업에서 두 가지 붕괴 원인이 있다:

컨텍스트 불안: 컨텍스트 창이 차면서 앞서 한 결정이 뒤엉기고, 모델이 한계가 다가온다고 “느끼면” 일을 서둘러 마무리하려는 경향을 보인다
자기평가의 관대함: 에이전트에게 자기 결과를 평가하라고 하면, 실제 품질이 결함이 있어도 “괜찮다"고 결론내리기 쉽다

이전 포스트에서 다룬 체크포인트/상태 관리는 첫 번째 문제의 해결책이었다. 두 번째 문제의 해결책이 바로 역할 분리 — GAN에서 빌린 생성기-평가자 루프다.

GAN의 직관을 엔지니어링으로

GAN(Generative Adversarial Network)에서 생성자와 판별자가 경쟁하며 품질을 올리듯:

생성기: 결과물을 만든다
평가자: 기준에 따라 채점하고 비평한다
생성기: 피드백을 받아 다음 버전을 만든다

“막연한 개선"이 아니라 **“특정 기준을 만족시키는 개선”**이 반복된다. 평가자가 독립적일수록 ‘봐주기’가 줄어든다. 다만 평가자도 LLM이므로 기본 성향은 관대하다 — 퓨샷 예시와 점수 분해로 채점 습관을 교정해야 한다.

플래너의 역할

3인조에서 플래너는 1~4문장짜리 요청을 “충분히 큰” 제품 스펙으로 확장한다. 핵심 원칙:

너무 이른 구현 세부사항을 넣지 않는다 — 틀린 결정이 아래로 전염된다
제품 맥락과 큰 설계를 중심으로 쓰되, 구현은 여지를 남긴다
AI 기능을 제품에 섞을 기회를 적극적으로 찾게 만든다

스프린트 계약 — 완료 정의의 계약화

이전 포스트에서 체크포인트를 다뤘지만, “뭘 만들면 완료인지"를 어떻게 정의하는가는 다루지 않았다. Anthropic의 하네스에서 이 간극을 메우는 장치가 스프린트 계약이다.

계약 프로세스

각 스프린트 시작 전에 생성기와 평가자가 협상한다:

생성기가 제안: 구현 계획과 검증 방법을 제시
평가자가 점검: 스펙에 부합하는지, 테스트 가능한지 확인
합의 후 실행: 합의된 뒤에만 코드 작성 시작

이 패턴의 핵심은 에이전트 간 의사소통을 파일 기반 산출물로 고정하는 것이다. 한쪽이 파일 작성, 다른 쪽이 읽고 수정/추가. 컨텍스트가 흔들려도 작업 상태가 명시적으로 남아 장기 실행에 유리하다.

비용 대비 품질

방식	시간	결과
단일 에이전트	20분	겉보기엔 그럴듯하지만 핵심 기능이 깨짐
플래너-생성기-평가자 하네스	6시간	더 많은 기능, 실제 동작하는 수준

차이를 만든 결정적 요소: 평가자의 실제 조작 기반 QA와 계약 기반 완료 정의.

평가자는 스크린샷이 아니라 직접 조작

평가자가 정지 이미지 한 장만 보고 판단하면 상호작용, 레이아웃, 상태 변화에서 드러나는 품질을 놓친다. Anthropic의 해법:

평가자에게 Playwright 같은 브라우저 자동화 도구를 붙인다
평가자가 스스로 클릭하고, 이동하고, 화면을 관찰한다
기준별 점수와 상세 비평을 작성한다

주관적 디자인 품질도 채점 가능하게 만든다. 4개 축:

전체적 디자인 완성도 — 일관된 무드/정체성
독창성 — 템플릿/기본 컴포넌트 느낌 탈피
공예적 완성 — 타이포, 간격, 대비 같은 기본기
기능성 — 사용성

모델은 기능성과 기본기는 무난히 달성하는 경향이 있으므로, 실제로 부족한 완성도와 독창성에 더 큰 가중치를 걸어야 안전지대에서 벗어난다.

모델이 좋아지면 하네스를 덜어내라

이전 포스트에서 다루지 않은 중요한 통찰: 하네스의 각 구성 요소는 “모델이 혼자 못 하는 것"에 대한 가정이다. 모델이 발전하면 그 가정이 틀어진다.

스프린트 제거 사례

더 강해진 모델에서는:

스프린트 분해 없이도 2시간 넘게 일관된 빌드가 가능해짐
스프린트 구조를 제거하고, 평가도 “마지막에 한 번"으로 축소
불필요한 장치가 비용만 늘리는 결과를 방지

다만 평가자가 완전히 불필요해지는 것은 아니다. 과제가 모델의 신뢰 경계 밖에 걸릴 때 — 예를 들어 핵심 상호작용이 자꾸 스텁으로 남는 경우 — 평가자는 여전히 값비싼 보험이다.

실천 원칙: 새 모델이 나올 때마다 하네스를 스트레스 테스트하고, 짐이 된 부분을 떼어내는 재설계를 수행한다.

빠른 링크

프롬프트 엔지니어링은 끝났습니다: 이제 ‘하네스’의 시대입니다 (YouTube) — 실베개발자, 4축 프레임워크와 하네스 4기둥 구조
Anthropic의 하네스 디자인: 플래너-생성기-평가자 아키텍처 (TILNOTE) — Anthropic 하네스 디자인 문서 분석
Harness design for long-running application development (Anthropic) — 원문 참고
Long-Running Agents와 하네스 엔지니어링 — 이전 포스트: 체크포인트, 상태 관리, 3요소
HarnessKit 개발기 #3 — 이전 포스트: 플러그인 트리거, 마켓플레이스

인사이트

이전 포스트들이 하네스의 “무엇을”(가드레일, 모니터링, 피드백 루프)에 집중했다면, 이번 두 소스는 **“왜"와 “어떻게”**를 보완한다.

“왜” 측면에서, 4축 프레임워크는 하네스가 프롬프트나 컨텍스트와 어떤 관계에 있는지를 명확히 한다. 프롬프트는 부탁이고 하네스는 물리적 차단이라는 구분은, 실무에서 “이 규칙을 CLAUDE.md에 쓸 것인가, 린터 규칙으로 강제할 것인가"를 판단하는 기준이 된다.

“어떻게” 측면에서, 플래너-생성기-평가자 아키텍처는 하네스의 구체적 구현 패턴을 제시한다. 특히 스프린트 계약으로 완료 정의를 계약화하고, 평가자에게 Playwright를 붙여 실제 조작 기반 QA를 수행하는 패턴은 바로 적용 가능한 수준이다. 그리고 “모델이 좋아지면 하네스를 덜어내라"는 통찰은 하네스를 영구 불변의 인프라가 아니라 모델 능력에 대한 가정의 집합으로 바라보게 한다. HarnessKit 개발에서도 새 모델 출시 때마다 각 스킬의 필요성을 재검증하는 프로세스가 필요하겠다.

Long-Running AI Agents와 하네스 엔지니어링 실천

Mon, 30 Mar 2026 00:00:00 +0900

개요

AI 에이전트의 아키텍처와 품질 관리를 다루는 두 편의 YouTube 영상을 분석했다. 첫 번째는 Anthropic이 발표한 장기 실행 에이전트 블루프린트로, 몇 시간에서 며칠에 걸친 복잡한 태스크를 자율적으로 수행하는 설계 가이드다. 두 번째는 하네스 엔지니어링 실천으로, 에이전트의 품질을 체계적으로 관리하는 방법론이다. 관련 포스트: 서브에이전트 시대의 도래, HarnessKit 개발기 #3

graph TD
 A["Long-Running Agent"] --> B["태스크 분해"]
 B --> C["서브태스크 1"]
 B --> D["서브태스크 2"]
 B --> E["서브태스크 N"]
 C --> F{"체크포인트"}
 D --> F
 E --> F
 F -->|"성공"| G["다음 단계"]
 F -->|"실패"| H["복구 전략"]
 H --> I["재시도"]
 H --> J["대체 경로"]
 H --> K["사람 에스컬레이션"]
 L["하네스 엔지니어링"] --> M["가드레일"]
 L --> N["모니터링"]
 L --> O["피드백 루프"]

Anthropic의 Long-Running Agent 블루프린트

Anthropic Just Dropped the New Blueprint for Long-Running AI Agents 영상에서는 Anthropic이 공개한 장기 실행 에이전트 설계 가이드를 심층 분석한다.

단발성 vs 장기 실행

기존 AI 에이전트 대부분은 단발성(one-shot)이다 — 질문을 받고, 답하고, 끝. 하지만 실제 업무는 “이 코드베이스를 리팩토링해줘”, “이 데이터 파이프라인을 구축해줘” 같은 몇 시간에서 며칠이 걸리는 복합 태스크다.

장기 실행 에이전트는 이런 태스크를 자율적으로 수행하되, 중간에 실패하거나 방향을 잃었을 때 스스로 복구할 수 있어야 한다. Anthropic의 블루프린트는 이를 위한 설계 원칙을 제시한다.

핵심 설계 원칙

1. 태스크 분해 (Task Decomposition)

복잡한 태스크를 독립적인 서브태스크로 분해한다. 각 서브태스크는:

명확한 입력과 출력
독립적으로 실행 및 검증 가능
실패 시 다른 서브태스크에 영향 최소화

2. 체크포인트와 상태 관리

장기 실행에서 가장 위험한 것은 중간 결과의 유실이다. 각 서브태스크 완료 시 체크포인트를 저장하여:

실패 시 마지막 체크포인트부터 재개
컨텍스트 윈도우 압축 시 핵심 상태 보존
사람 리뷰 포인트 제공

3. 실패 복구 전략

세 단계 복구:

재시도 — 일시적 오류(API 타임아웃 등)에 대해 자동 재시도
대체 경로 — 같은 목표를 다른 방법으로 달성 (Deterministic Fallback과 유사)
사람 에스컬레이션 — 에이전트가 자체적으로 해결할 수 없을 때 사람에게 판단 위임

4. 진행 보고와 투명성

장기 실행 중 사용자가 “지금 뭘 하고 있는지” 알 수 있어야 한다. 주기적인 진행 보고, 현재 단계 표시, 예상 완료 시간 등을 제공한다.

실제 적용 사례

현재 Claude Code 자체가 이 블루프린트의 구현체다. 대규모 리팩토링이나 기능 구현 시:

태스크를 서브태스크로 분해 (Plan 모드)
각 파일 수정마다 체크포인트 (git commit)
실패 시 rewind로 이전 상태 복원
진행 상황을 사용자에게 보고

하네스 엔지니어링 — 에이전트 품질 관리

하네스 엔지니어링 따라하기 영상에서는 AI 에이전트의 품질을 체계적으로 관리하는 하네스 엔지니어링 방법론을 실무 관점에서 설명한다.

하네스란 무엇인가

하네스(harness)는 원래 “마구"를 뜻한다. 말의 힘을 제어하고 방향을 잡아주는 장치처럼, AI 에이전트의 출력을 제어하고 품질을 보장하는 시스템이다. 에이전트가 강력할수록 하네스도 견고해야 한다.

하네스의 3요소

1. 가드레일 (Guard Rails)

에이전트가 하면 안 되는 것을 정의한다:

파일 삭제 금지 영역
자동 커밋 조건
외부 API 호출 제한
비용 한도

2. 모니터링

에이전트의 행동을 실시간으로 추적한다:

도구 호출 패턴
에러 발생률
토큰 사용량
작업 완료율

3. 피드백 루프

에이전트의 결과를 평가하고 개선한다:

자동 테스트 결과 수집
사용자 피드백 반영
실패 패턴 학습
설정 자동 조정

매니지먼트 관점

영상은 기술적 구현뿐 아니라 매니지먼트 관점도 다룬다. 에이전트 팀을 관리하는 것은 인간 팀을 관리하는 것과 유사한 면이 있다:

명확한 역할과 책임 정의
주기적인 성과 리뷰 (eval)
문제 발생 시 에스컬레이션 경로
지속적 교육 (프롬프트 개선)

두 접근법의 교차점

Long-Running Agent 블루프린트와 하네스 엔지니어링은 같은 문제를 다른 각도에서 본다:

관점	Long-Running Agent	하네스 엔지니어링
초점	에이전트 내부 설계	에이전트 외부 제어
목표	자율적 태스크 완수	품질 보장
실패 대응	자체 복구 전략	가드레일 + 에스컬레이션
개선 방식	체크포인트 기반	피드백 루프 기반

둘을 합치면: 에이전트는 내부적으로 체크포인트와 복구 전략을 갖추고, 외부에서 하네스가 가드레일과 모니터링으로 품질을 보장하는 이중 안전 구조가 된다.

현재 HarnessKit 프로젝트가 정확히 이 교차점에 있다 — Claude Code 에이전트의 외부 하네스를 플러그인 형태로 구현하여, 가드레일과 모니터링을 자동화하고 있다.

인사이트

AI 에이전트가 단발성에서 장기 실행으로 진화하면서, “똑똑한 에이전트"보다 “신뢰할 수 있는 에이전트"가 더 중요해지고 있다. Anthropic의 블루프린트는 내부 설계로, 하네스 엔지니어링은 외부 제어로 이 신뢰성을 구축한다. 두 접근법이 결합된 이중 안전 구조가 프로덕션 에이전트의 표준이 될 것으로 보인다. 이 관점은 AI 앱 프로덕션 설계 패턴 포스트의 Deterministic Fallback, HITL과도 맥이 닿는다 — 결국 “실패를 전제한 설계"가 핵심이다.

AI 앱 프로덕션 설계 — Deterministic Fallback, HITL, Evaluation Stack

Wed, 25 Mar 2026 00:00:00 +0900

개요

TILNOTE의 글 “AI 앱에서 진짜 중요한 것"을 분석했다. 핵심 메시지는 명확하다 — 진짜 문제는 모델이 잘 말하는 순간이 아니라, 애매하게 틀릴 때 시스템이 어떻게 행동하느냐에 있다. Deterministic Fallback, HITL, Evaluation Stack 세 가지 패턴을 프로덕션 관점에서 정리한다. 관련 포스트: 바이브 코딩 보안 점검 가이드

graph TD
 A["사용자 입력"] --> B{"모델 응답 + 검증"}
 B -->|"통과"| C["정상 경로<br/>모델 답변 제공"]
 B -->|"근거 부족"| D["제한 경로<br/>확인된 범위만 답변"]
 B -->|"실패"| E["대체 경로<br/>검색/템플릿 제공"]
 B -->|"위험"| F["중단 경로<br/>사람 검토로 전환"]
 G["HITL 제어"] --> B
 G --> D
 G --> F
 H["Evaluation Stack"] --> I["Offline eval"]
 H --> J["Pre-production backtest"]
 H --> K["Online eval"]
 H --> L["Human review"]

왜 이 세 가지인가

글은 구체적인 사례로 시작한다. 고객지원 AI가 환불 정책을 안내하는 상황:

사용자: “지난달 결제 건 환불 가능한가요? 카드 취소로 처리해 주세요.” 모델: “네, 최근 30일 이내 결제 건은 자동 환불 가능합니다. 바로 진행할게요.”

문제는 실제 정책에 “디지털 상품 사용 이력이 있으면 환불 불가” 조항이 있고, 자동 환불은 상담사 승인 대상이라는 점이다. 사고의 본질은 “모델이 틀렸다"가 아니라 **“시스템이 틀렸을 때 멈추도록 설계되지 않았다”**에 있다.

NIST AI 600-1도 생성형 AI는 별도의 위험 관리, 측정, 운영 통제가 필요하다고 정리하고, Anthropic과 OpenAI 모두 성공 기준 정의와 평가 설계를 우선하라고 안내한다.

1. Deterministic Fallback — 모르면 안전한 길로

많은 개발자가 temperature를 낮추고 프롬프트를 다듬으면 안정적일 거라 기대한다. 어느 정도는 맞지만, 그건 출력 흔들림을 줄이는 것이지 시스템을 결정적으로 만드는 것이 아니다.

실무에서 필요한 건 모델이 실패했을 때 미리 정한 경로로 강등되는 구조다:

단계	경로	동작
1	정상	모델 답변 + 검증 통과
2	제한	근거가 확인된 범위만 답변
3	대체	검색 결과, 정책 문서, 템플릿만 제공
4	중단	사람 검토로 전환

핵심은 실패를 모델의 감각에 맡기지 않고, 코드로 정의된 상태 전이로 바꾸는 것이다.

고객지원 봇의 안전한 흐름:

FAQ/정책 문서 검색 먼저
근거 충분할 때만 답변
근거 약하면 상담 연결
환불 같은 액션은 자동 실행 금지

코드 생성 도구도 마찬가지다. 위험한 구조는 “코드 직접 반영"이고, 현실적 구조는 “패치 제안 → 테스트 → 리뷰 → 사람이 머지"다. Anthropic의 Tool Use 문서가 이 구조를 잘 설명한다 — 모델이 도구를 직접 실행하지 않고, 호출을 제안하면 앱이 실행을 담당한다.

2. HITL — 사람은 승인 버튼이 아니라 제어 장치

HITL(Human-in-the-Loop)을 “마지막에 사람 한 번 본다"로 이해하면 불완전하다. 실무에서 중요한 HITL은 사람이 시스템 흐름을 멈추고, 수정하고, 다시 이어가게 하는 제어 장치다.

글에서 강조하는 구분:

수동적 HITL	능동적 HITL
최종 승인만 담당	흐름 중간에 개입
결과 확인	원인 수정
배치 리뷰	실시간 제어

능동적 HITL은 에이전트 워크플로우에서 특히 중요하다. 에이전트가 10단계 작업 중 3단계에서 잘못된 방향으로 가고 있을 때, 10단계가 끝나고 승인하는 것이 아니라 3단계에서 멈추고 방향을 수정할 수 있어야 한다.

3. Evaluation Stack — 평가는 회귀 방지 장치

OpenAI의 eval 가이드는 “생성형 AI는 본질적으로 variability가 있기 때문에, 기존 소프트웨어 테스트만으로는 충분하지 않다"고 설명한다.

4단계 평가 체계:

Offline eval: 고정 데이터셋에서 모델 성능 측정. 가장 빠르고 저렴
Pre-production backtest: 실제 트래픽 로그로 새 버전을 시뮬레이션
Online eval: A/B 테스트, 카나리 배포. 실제 사용자에게 점진적 노출
Human review: 사람이 직접 출력을 검토. 가장 비싸지만 가장 신뢰

핵심은 평가가 리더보드(벤치마크 경쟁)가 아니라 회귀 방지 장치라는 관점이다. 새 프롬프트나 모델 변경이 기존에 잘 되던 것을 망가뜨리지 않는지 확인하는 것이 목적이다.

오늘 바로 적용할 수 있는 순서

글에서 제안하는 실무 적용 순서:

출력 구조화 — 자유 텍스트가 아닌 JSON 등 구조화된 형태로
위험한 액션 한 단계 낮추기 — 직접 실행 → 제안으로
fallback 조건을 코드로 정의 — confidence 기반 분기
실패 사례 모아 eval 세트 만들기 — 작은 것부터
사람 검토 로그 보존 — 향후 eval 데이터로 활용

흔한 실수

“프롬프트를 잘 짜면 된다” → 프롬프트는 출력 흔들림 감소, 시스템 안전성과는 별개
“guardrail만 달면 된다” → 입력 필터링은 일부일 뿐, 출력 경로 설계가 핵심
“사람이 마지막에 확인하면 된다” → 수동적 HITL은 규모에서 실패
“벤치마크가 좋으면 프로덕션도 좋다” → eval은 회귀 방지지, 성능 보증이 아님

인사이트

이 글이 가치 있는 이유는 “모델을 더 똑똑하게 만드는 기술"이 아니라 “모델이 흔들려도 제품이 같이 흔들리지 않게 만드는 설계"에 집중한다는 점이다. NIST, Anthropic, OpenAI의 공식 가이드를 근거로 삼으면서도 실무 적용 순서를 구체적으로 제시한다. 현재 진행 중인 trading-agent와 hybrid-search 프로젝트 모두에서, 특히 자동 매매나 이미지 생성 같은 “되돌리기 어려운 액션"에 대해 Deterministic Fallback 패턴을 적용할 수 있다.

Claude Computer Use — 마우스와 키보드를 직접 제어하는 AI의 등장

Wed, 25 Mar 2026 00:00:00 +0900

개요

Anthropic이 Claude에게 컴퓨터의 마우스, 키보드, 화면을 직접 제어하는 기능을 정식 출시했다. Claude Code Desktop 및 Cowork과 연동되어 실제 GUI를 조작할 수 있고, Dispatch와 결합하면 자리를 비운 상태에서도 원격으로 Claude가 작업을 수행한다. macOS에 먼저 출시되었으며, Windows는 수 주 내 지원 예정이다.

Computer Use란 무엇인가

기존 Claude Code는 터미널 안에서 CLI 명령어를 실행하는 방식으로 동작했다. Computer Use는 이 범위를 GUI 전체로 확장한다. Claude가 화면을 스크린샷으로 인식하고, 마우스 클릭, 키보드 입력, 드래그 등의 액션을 실행할 수 있다.

graph LR
 A["Claude AI"] --> B["Screen Capture <br/> 화면 인식"]
 B --> C["Action Planning <br/> 행동 계획"]
 C --> D["Mouse / Keyboard <br/> 입력 실행"]
 D --> E["Result Capture <br/> 결과 확인"]
 E --> B

핵심 제약: Computer Use는 아직 초기 단계다. Claude는 사람보다 훨씬 느리고 신중하게 동작한다. 이는 의도된 설계로, 안전성을 우선시하기 때문이다.

Claude Code Desktop & Cowork 연동

Claude Code Desktop에서 Computer Use를 활성화하면, 코딩 작업 중 IDE나 브라우저를 직접 조작할 수 있다. 예를 들어:

레거시 앱 자동화: API가 없는 GUI 전용 앱의 반복 작업 자동화
네이티브 앱 디버깅: Xcode, Android Studio 등에서 직접 빌드/테스트 실행
브라우저 테스트: 실제 브라우저에서 UI 인터랙션 테스트

Cowork 모드에서는 Claude가 사용자와 동시에 같은 화면에서 작업하며, 사용자가 실시간으로 Claude의 동작을 관찰하고 개입할 수 있다.

Dispatch — 원격 비동기 작업

Computer Use의 진정한 잠재력은 Dispatch와 결합할 때 나타난다.

graph TD
 A["사용자"] -->|"작업 지시"| B["Dispatch"]
 B -->|"태스크 큐잉"| C["Claude Agent"]
 C -->|"Computer Use"| D["macOS Desktop"]
 D -->|"결과 보고"| B
 B -->|"알림"| A

자리를 비운 상태에서도 Claude가 컴퓨터를 조작하도록 지시할 수 있다. 예를 들어 “이 스프레드시트의 데이터를 정리해서 이메일로 보내줘” 같은 복합 작업을 비동기로 처리한다.

기존 Claude Code Remote Control과의 관계

이전에 Claude Code에는 이미 원격 제어 기능(Remote Control)이 있었다. Computer Use와의 차이를 정리하면:

기능	Remote Control	Computer Use
범위	터미널 CLI 명령어	GUI 전체 (마우스/키보드)
대상	파일 시스템, 셸	모든 데스크톱 앱
속도	즉시 실행	느리고 신중함
안전성	샌드박스 내	화면 전체 접근
활용	코딩, 빌드, 테스트	레거시 자동화, GUI 테스트

두 기능은 보완 관계다. CLI로 처리 가능한 작업은 Remote Control이 효율적이고, GUI가 필수적인 작업에만 Computer Use를 사용하는 것이 권장된다.

실전 활용 시나리오

레거시 앱 자동화

API가 없는 엔터프라이즈 소프트웨어(ERP, CRM 등)의 반복 작업을 자동화할 수 있다. 데이터 입력, 보고서 생성, 승인 프로세스 등 매일 수행하는 GUI 작업을 Claude에게 위임한다.

크로스 앱 워크플로우

여러 앱을 오가며 수행하는 복합 작업을 단일 명령으로 실행한다. 예를 들어 Figma에서 디자인을 캡처 → VS Code에서 코드 수정 → 브라우저에서 결과 확인하는 전체 흐름을 자동화한다.

QA 테스트

실제 UI에서의 사용자 경험을 테스트한다. Playwright나 Selenium 같은 자동화 도구와 달리, Computer Use는 시각적으로 화면을 인식하므로 CSS 셀렉터 변경에 영향받지 않는 강건한 테스트가 가능하다.

현재 한계

속도: 사람보다 훨씬 느림 — 각 단계에서 스크린샷을 분석하고 계획을 세우므로 대기 시간 발생
정확도: 복잡한 UI에서 잘못된 요소를 클릭할 가능성
플랫폼: macOS 우선 출시, Windows는 아직 미지원
보안: 화면 전체에 접근하므로, 민감한 정보가 표시된 상태에서의 사용 주의 필요

인사이트

Claude Computer Use는 AI 에이전트가 “코드 생성기"에서 “디지털 작업자"로 진화하는 중요한 전환점이다. CLI 환경에 갇혀 있던 AI가 GUI 전체를 다룰 수 있게 되면서, 자동화 가능한 작업의 범위가 극적으로 넓어졌다. 아직 초기 단계라 속도와 정확도에 한계가 있지만, Dispatch와의 결합으로 비동기 원격 작업이 가능해진 점은 개발자 워크플로우에 실질적인 변화를 가져올 수 있다. 특히 레거시 시스템 자동화와 크로스 앱 워크플로우에서 Claude Code의 Remote Control과 Computer Use를 조합하면, 거의 모든 컴퓨터 작업을 AI에게 위임할 수 있는 시대가 가까워지고 있다.

Claude Skills V2 — 벤치마킹과 자동 평가로 진화한 스킬 시스템

Thu, 19 Mar 2026 00:00:00 +0900

개요

Anthropic이 Claude Code Skills의 대규모 업데이트를 발표했다. 가장 눈에 띄는 변화는 빌트인 벤치마킹 시스템의 도입이다. 스킬이 실제로 결과물의 품질을 높이는지 A/B 테스트 방식으로 수치화할 수 있게 되었고, Skill Creator V2가 테스트 케이스 생성부터 반복 개선까지 전 과정을 자동화한다. 새로운 프론트매터 옵션들도 추가되어 스킬의 실행 방식을 세밀하게 제어할 수 있다.

스킬의 두 가지 분류: Capability Uplift vs Inquiry Preference

Anthropic은 공식적으로 스킬을 두 가지 범주로 나누었다.

Capability Uplift Skills

모델이 기본적으로 할 수 없는 일을 가능하게 만드는 스킬이다. 특정 API 호출 패턴이나 외부 도구 연동 등이 여기에 해당한다. 이 유형의 스킬은 모델이 발전하면 불필요해질 수 있다. 모델 자체가 해당 능력을 흡수하면 스킬 없이도 동일한 결과를 낼 수 있기 때문이다.

Inquiry Preference Skills

사용자의 특정 워크플로우나 선호도를 강제하는 스킬이다. 예를 들어 “응답을 항상 한국어로 작성하라”, “PR 리뷰 시 반드시 보안 체크리스트를 따르라” 같은 규칙들이다. 이 유형은 모델이 아무리 발전해도 사용자 고유의 요구사항이므로 deprecated될 일이 없다.

flowchart TD
 A["Claude Code Skill"] --> B["Capability Uplift"]
 A --> C["Inquiry Preference"]
 B --> D["모델이 못하는 기능 활성화"]
 D --> E["모델 발전 시 deprecated 가능"]
 C --> F["사용자 워크플로우 강제"]
 F --> G["deprecated 없음 — 사용자 고유 요구"]

 style B fill:#f9a825,stroke:#f57f17,color:#000
 style C fill:#42a5f5,stroke:#1565c0,color:#000
 style E fill:#ef5350,stroke:#c62828,color:#fff
 style G fill:#66bb6a,stroke:#2e7d32,color:#000

이 분류가 중요한 이유는 바로 다음에 설명할 벤치마킹 시스템 때문이다. Capability Uplift 스킬은 벤치마크 결과에 따라 퇴역 여부를 판단할 수 있다.

벤치마킹 시스템: 스킬의 가치를 수치로 증명하다

V2의 핵심 기능이다. 스킬이 실제로 결과물의 품질을 높이는지 정량적으로 측정할 수 있는 빌트인 평가 시스템이 추가되었다.

작동 방식

flowchart LR
 subgraph 평가["A/B 테스트 실행"]
 direction TB
 A1["스킬 적용 O"] --> R1["결과 A"]
 A2["스킬 적용 X"] --> R2["결과 B"]
 end

 subgraph 판정["점수 비교"]
 direction TB
 R1 --> SC["평가 기준별 채점"]
 R2 --> SC
 SC --> V{"점수 차이?"}
 V -->|"유의미한 차이"| KEEP["스킬 유지"]
 V -->|"비슷한 점수"| DROP["스킬 불필요 — 모델이 이미 흡수"]
 end

 평가 --> 판정

 style KEEP fill:#66bb6a,stroke:#2e7d32,color:#000
 style DROP fill:#ef5350,stroke:#c62828,color:#fff

Multi-agent 지원으로 A/B 테스트를 동시에 실행할 수 있다. 스킬이 적용된 에이전트와 적용되지 않은 에이전트가 동일한 태스크를 수행하고, 결과를 평가 기준에 따라 비교한다.

자동 생성되는 평가 기준 예시

Skill Creator가 소셜 미디어 포스트 생성 스킬을 만들 때 자동으로 생성한 7가지 평가 기준 사례:

#	평가 기준	설명
1	Platform coverage	지정된 플랫폼별 포스트가 모두 생성되었는가
2	Language match	요청한 언어로 작성되었는가
3	X character limit	X(트위터) 글자 수 제한을 준수하는가
4	Hashtags	적절한 해시태그가 포함되었는가
5	Factual content	원본 내용과 사실적으로 일치하는가
6	Tone differentiation	플랫폼별 톤이 적절히 차별화되었는가
7	Tone compliance	지정된 톤 가이드라인을 따르는가

스킬 적용 여부에 따라 이 기준들의 점수가 유의미하게 차이나면 해당 스킬은 가치가 있는 것이고, 점수가 비슷하면 모델이 이미 해당 능력을 갖추고 있으므로 스킬이 불필요하다는 뜻이다.

스킬 크리에이터 V2: 만들고 평가하고 개선하는 자동화 루프

Skill Creator Skill이 V2로 업그레이드되면서 단순 생성을 넘어 전체 라이프사이클을 자동화한다.

설치 및 사용

/plugin 명령 실행
“skill creator skill” 검색 후 설치
원하는 스킬을 자연어로 설명
자동으로 스킬 생성 → 테스트 케이스 생성 → 벤치마크 실행 → 결과 확인

자동화 루프

flowchart TD
 START["사용자: 원하는 스킬 설명"] --> CREATE["Skill Creator가 스킬 생성"]
 CREATE --> EVAL["테스트 케이스 자동 생성"]
 EVAL --> BENCH["벤치마크 실행 <br/> with skill vs without skill"]
 BENCH --> REVIEW{"사용자 만족?"}
 REVIEW -->|"아니오"| IMPROVE["피드백 기반 개선"]
 IMPROVE --> EVAL
 REVIEW -->|"예"| DONE["스킬 완성"]

 style START fill:#42a5f5,stroke:#1565c0,color:#000
 style DONE fill:#66bb6a,stroke:#2e7d32,color:#000
 style BENCH fill:#f9a825,stroke:#f57f17,color:#000

기존 스킬의 개선도 가능하다. 이미 만들어진 스킬을 Skill Creator에 넘기면 현재 성능을 벤치마크한 뒤 개선점을 찾아 반복적으로 최적화한다.

Progressive disclosure guidance가 내장되어 있어, 스킬 작성 경험이 적은 사용자도 단계적으로 안내받으며 스킬을 완성할 수 있다.

Implicit Triggering 개선

이전 버전에서는 implicit trigger(슬래시 명령 없이 자동 실행)가 잘 작동하지 않는 문제가 있었다. V2에서는 Skill Creator가 description 최적화를 함께 수행하면서 implicit triggering의 정확도가 크게 향상되었다. 스킬의 설명문이 모델이 언제 이 스킬을 호출해야 하는지 더 명확하게 전달하도록 자동으로 다듬어진다.

새로운 프론트매터 옵션들

V2에서 추가된 프론트매터 옵션으로 스킬의 동작을 세밀하게 제어할 수 있다.

옵션	설명
`user_invocable: false`	모델만 트리거 가능, 사용자가 직접 호출 불가
`user_enable: false`	사용자가 slash command로 사용 불가
`allow_tools`	스킬이 사용할 수 있는 도구를 제한
`model`	스킬을 실행할 모델 지정
`context: fork`	Sub-agent에서 스킬 실행
`agents`	Sub-agent 정의 (`context: fork` 필요)
`hooks`	스킬별 hooks를 YAML 형식으로 정의

특히 context: fork와 agents 조합이 흥미롭다. 스킬 실행을 별도의 sub-agent에 위임하여 메인 컨텍스트를 오염시키지 않고 독립적으로 작업을 수행할 수 있다. 벤치마킹의 multi-agent A/B 테스트도 이 구조 위에서 동작한다.

user_invocable: false는 사용자에게 노출하지 않으면서 모델이 내부적으로 판단하여 호출하는 “백그라운드 스킬"을 만들 때 유용하다.

빠른 링크

인사이트

이번 V2 업데이트의 핵심은 스킬의 실효성을 객관적으로 측정할 수 있게 된 것이다.

지금까지 스킬은 “만들면 좋아질 것이다"라는 가정 위에서 운영되었다. 하지만 빌트인 벤치마킹의 도입으로 스킬이 실제로 결과물의 품질을 높이는지, 아니면 모델이 이미 충분히 잘하는 영역에 불필요한 프롬프트를 추가하는 것인지 수치로 판단할 수 있게 되었다.

Capability Uplift vs Inquiry Preference 분류도 실용적이다. 모든 스킬을 동일하게 취급하지 않고, 모델 발전에 따라 자연스럽게 퇴역시킬 스킬과 영구적으로 유지할 스킬을 구분하는 프레임워크를 제공한다.

Skill Creator V2가 생성-평가-개선 루프를 자동화한 것도 진입 장벽을 크게 낮춘다. 스킬 작성 자체가 프롬프트 엔지니어링의 영역이었는데, 이제는 “무엇을 원하는지"만 말하면 최적화된 스킬이 벤치마크 검증까지 마친 상태로 완성된다. 스킬 생태계가 양적으로도 질적으로도 빠르게 성장할 것으로 보인다.

Claude Code Remote Control — 자리를 비워도 코딩 세션이 끊기지 않는다

Mon, 16 Mar 2026 00:00:00 +0900

개요

사무실에서 Claude Code로 리팩토링을 진행하다가 자리를 비워야 한다. 터미널을 닫으면 세션이 끊긴다. 이전에는 SSH 터널이나 서드파티 도구(happy, hapi 등)를 사용해야 했지만, 이제 Claude Code에 공식 Remote Control 기능이 추가되었다. claude remote-control 한 줄이면 스마트폰, 태블릿, 다른 컴퓨터에서 동일한 세션을 이어받을 수 있다.

동작 원리

graph TD
 A["로컬 머신 <br/> claude remote-control"] -->|"HTTPS 아웃바운드만"| B["Anthropic API <br/> 메시지 라우팅"]
 B --> C["claude.ai/code <br/> 브라우저"]
 B --> D["Claude 모바일 앱 <br/> iOS/Android"]
 B --> E["다른 컴퓨터 <br/> 브라우저"]
 C -->|"실시간 동기화"| A
 D -->|"실시간 동기화"| A
 E -->|"실시간 동기화"| A

핵심은 세션이 항상 로컬 머신에서 실행된다는 점이다. 코드가 클라우드로 올라가지 않으며, 파일시스템, MCP 서버, 프로젝트 설정이 그대로 유지된다. 로컬 Claude Code 프로세스가 HTTPS 아웃바운드 요청만 보내고, 인바운드 포트는 열지 않는다. Anthropic API가 중간에서 메시지를 라우팅하는 구조다.

네트워크가 끊기거나 노트북이 잠들어도, 머신이 다시 온라인이 되면 자동 재연결된다. 다만 10분 이상 네트워크가 끊기면 세션이 타임아웃된다.

사용법

기본: 서버 모드

claude remote-control

터미널에 세션 URL과 QR 코드가 표시된다. 스페이스바로 QR 코드를 토글할 수 있어 폰으로 바로 스캔 가능하다.

주요 플래그

플래그	설명
`--name "My Project"`	claude.ai/code 세션 목록에 표시될 이름
`--spawn same-dir`	동시 세션이 같은 디렉토리 공유 (기본값)
`--spawn worktree`	각 세션이 독립 git worktree 사용
`--capacity <N>`	동시 세션 최대 수 (기본 32)
`--sandbox`	파일시스템/네트워크 격리 활성화

기존 세션에서 활성화

이미 진행 중인 대화형 세션에서 /remote-control 명령으로 활성화할 수도 있다. 또는 /config에서 “Enable Remote Control for all sessions"를 켜면 모든 세션에 자동 적용된다.

연결 방법 (3가지)

URL 직접 입력: 터미널에 표시된 세션 URL을 브라우저에 입력
QR 코드 스캔: 스페이스바로 QR 코드 표시 → 폰 카메라로 스캔
세션 목록: claude.ai/code 또는 Claude 앱에서 세션 이름으로 찾기 (초록 점이 온라인 표시)

Claude Code on the Web과의 차이

graph LR
 subgraph RC["Remote Control"]
 A1["로컬 머신에서 실행"] --> B1["내 파일시스템 접근"]
 A1 --> C1["내 MCP 서버 사용"]
 A1 --> D1["내 프로젝트 설정 유지"]
 end
 subgraph Web["Claude Code on the Web"]
 A2["Anthropic 클라우드에서 실행"] --> B2["클라우드 VM 환경"]
 A2 --> C2["로컬 설정 없이 사용"]
 A2 --> D2["레포 클론 없이 작업"]
 end

구분	Remote Control	Claude Code on the Web
실행 위치	내 로컬 머신	Anthropic 클라우드
파일시스템	내 로컬 파일	클라우드 VM
MCP 서버	사용 가능	불가
로컬 설정 필요	필요 (프로젝트 클론 필수)	불필요
적합한 상황	진행 중인 작업 이어하기	새 작업 빠르게 시작

Remote Control은 “내 환경에서 계속”, **Web은 “어디서든 새로 시작”**이다.

서드파티 대안과 비교

GeekNews 댓글에서 언급된 서드파티 프로젝트들:

slopus/happy, tiann/hapi — 비슷한 목적의 오픈소스
SSH 터널을 통한 원격 터미널 접속

공식 Remote Control의 장점은 별도 서버 설정이 필요 없고, Anthropic API를 통한 TLS 보안이 기본 적용된다는 것이다. 단점으로는 댓글에서 지적된 것처럼 “미리 세션을 만들어둬야 한다"는 점이 오픈소스 대안보다 불편할 수 있다.

제약사항

플랜: Pro, Max, Team, Enterprise (Team/Enterprise는 관리자가 Claude Code를 먼저 활성화해야 함)
API 키 미지원: claude.ai 로그인 인증만 지원
터미널 종속: claude 프로세스를 닫으면 세션 종료
단일 원격 연결: 서버 모드 외에는 세션당 1개의 원격 연결만 허용
버전: Claude Code v2.1.51 이상 필요 (claude --version으로 확인)

인사이트

Remote Control의 진짜 가치는 “원격 접속"이 아니라 **“컨텍스트 보존”**에 있다. Claude Code 세션에는 대화 히스토리, 읽은 파일들의 컨텍스트, MCP 서버 연결 상태가 쌓여 있다. 이것을 잃지 않고 디바이스만 바꿀 수 있다는 것이 핵심이다. GeekNews의 “이제 유튜브에서 ‘바깥에서 바이브코딩하기’ 콘텐츠들이 많이 올라오겠네요"라는 댓글이 이 기능의 사용 패턴을 잘 예측한다. cmux의 알림 시스템과 결합하면 — cmux로 여러 에이전트를 모니터링하다가, 자리를 비울 때 Remote Control로 모바일에서 이어받는 — 완전한 멀티디바이스 에이전트 코딩 워크플로우가 가능해진다.

Claude for Chrome — 브라우저에 AI를 심는 Anthropic의 새 전략

Mon, 16 Mar 2026 00:00:00 +0900

개요

Anthropic이 Claude for Chrome 확장 프로그램을 출시했다. 별도 탭이나 앱을 열지 않고 브라우저 안에서 바로 Claude를 호출할 수 있게 되었다. 동시에 3월 13일부터 27일까지 오프피크 시간대 사용량을 2배로 늘리는 프로모션도 시작했다.

Claude for Chrome 확장

graph LR
 A["웹 브라우징 중"] --> B["Claude 확장 호출"]
 B --> C["현재 페이지 컨텍스트 전달"]
 C --> D["Claude 응답"]
 D --> E["브라우저 내 인라인 표시"]

Claude for Chrome은 Chrome 웹 스토어에서 설치할 수 있다. 핵심 기능:

브라우저 내 직접 호출: 현재 보고 있는 웹페이지의 컨텍스트를 Claude에게 바로 전달
Claude Code 연동: Claude Code와 함께 사용 가능 — 코드 리뷰, 문서 요약 등
백그라운드 작업: 작업을 백그라운드에서 실행하고 완료 시 알림
스케줄 워크플로우: 예약된 작업 자동 실행

이 확장의 전략적 의미는 Claude의 접근성 확대에 있다. 기존에는 claude.ai 사이트, 데스크톱 앱, 또는 API를 통해서만 접근 가능했다면, 이제 브라우저 어디서든 단축키 하나로 호출할 수 있다. ChatGPT, Gemini, Perplexity 등 경쟁 서비스가 이미 브라우저 확장을 제공하고 있는 상황에서 Anthropic도 합류한 것이다.

3월 사용량 2배 프로모션

구분	내용
기간	2026.03.13 ~ 2026.03.27
대상	Free, Pro, Max, Team 플랜 (Enterprise 제외)
조건	오프피크 시간대 (ET 오전 8시~~오후 2시 / PT 오전 5시~~11시 외의 시간)
적용	자동 (별도 신청 불필요)
주간 한도	보너스 사용량은 주간 사용 한도에 포함되지 않음

graph TD
 A["평일 하루"] --> B{"시간대 확인"}
 B -->|"ET 8AM-2PM <br/> (피크)"| C["기존 사용량"]
 B -->|"그 외 시간 <br/> (오프피크)"| D["2x 사용량"]
 D --> E["주간 한도 미포함"]

한국 시간 기준으로 오프피크: ET 오전 8시~~오후 2시는 KST 오후 10시~~새벽 4시에 해당한다. 즉 한국에서 낮 시간에 사용하면 대부분 오프피크에 해당하여 2배 혜택을 받을 수 있다.

적용 범위는 Claude 웹/데스크톱/모바일, Cowork, Claude Code, Claude for Excel, Claude for PowerPoint까지 포함된다.

Claude 플랫폼 확장 전략

graph TD
 A["Claude 플랫폼"] --> B["claude.ai <br/> 웹/데스크톱/모바일"]
 A --> C["Claude Code <br/> 터미널/VS Code/JetBrains"]
 A --> D["Claude for Chrome <br/> 브라우저 확장"]
 A --> E["Claude for Office <br/> Excel/PowerPoint"]
 A --> F["Claude for Slack"]
 A --> G["Cowork <br/> 자율 에이전트"]

Anthropic은 Claude를 단일 챗봇이 아닌 모든 작업 환경에 편재하는 AI 레이어로 확장하고 있다. 터미널(Claude Code), 브라우저(Chrome), 오피스(Excel/PowerPoint), 협업 도구(Slack), 자율 에이전트(Cowork) — 개발자가 일하는 거의 모든 표면에 Claude가 존재하게 되었다.

인사이트

Chrome 확장의 출시와 사용량 프로모션의 동시 진행은 명확한 전략이다 — 접근성을 높이고(확장), 시도 비용을 낮추고(프로모션), 습관을 만든다. 한국 사용자에게 특히 유리한 점은 시차 덕분에 업무 시간 대부분이 오프피크에 해당한다는 것이다. 3월 27일까지 Claude Code와 웹 모두 2배 사용량을 활용할 수 있으니, 새 기능이나 대규모 리팩토링을 시도하기에 좋은 시점이다.

Claude 인챗 인터랙티브 비주얼 — 대화가 대시보드가 되는 순간

Mon, 16 Mar 2026 00:00:00 +0900

개요

Anthropic이 Claude에 대화 속에서 바로 인터랙티브 차트, 다이어그램, 시각화를 생성하는 베타 기능을 추가했다. 지난 가을 “Imagine with Claude” 프리뷰와 기존 Artifacts 기능을 결합한 것으로, 사이드 패널이 아닌 채팅 본문에 직접 임베드되는 “임시 시각화” 방식이 핵심이다.

핵심 변화: 코드 없이, 대화 흐름 안에서

graph TD
 A["사용자 요청"] --> B{"Claude 판단"}
 B -->|"텍스트가 나을 때"| C["기존 텍스트 응답"]
 B -->|"시각화가 나을 때"| D["인터랙티브 차트 생성"]
 D --> E["채팅 본문에 임베드"]
 E --> F["사용자 인터랙션 <br/> 클릭, 값 변경"]
 F --> G["대화로 수정 요청"]
 G --> D

이번 기능의 핵심은 두 가지다. 첫째, 사용자가 “다이어그램으로 그려줘”, “시간에 따라 어떻게 변해?“처럼 요청하면 즉시 생성되고, Claude가 알아서 “그림이 더 빠르겠다"고 판단해 자동 생성하기도 한다. 둘째, 결과물이 영구 문서가 아닌 임시 도구라는 점이다.

복리 그래프를 만들어 놓고 “기간을 20년으로 늘려줘”, “월 적립으로 바꿔줘"처럼 대화로 계속 다듬는 워크플로우가 가능하다. 클릭 가능한 주기율표, 인터랙티브 결정 트리 등 탐색형 시각화가 특히 강점이다.

Artifacts와의 차이

graph LR
 A["Artifacts"] --> B["사이드 패널 <br/> 영구 저장 <br/> 공유/다운로드"]
 C["인챗 비주얼"] --> D["채팅 본문 임베드 <br/> 임시 도구 <br/> 대화로 즉시 수정"]

구분	Artifacts	인챗 인터랙티브 비주얼
위치	사이드 패널	답변 본문
수명	영구 (저장/공유)	임시 (대화 흐름 따라 변화)
목적	결과물 전달	설명 보조
수정	별도 편집	대화로 즉시 반영

다만 커뮤니티 반응을 보면, 환경에 따라 인라인이 아닌 아티팩트(오른쪽 패널)로 표시되거나 앱 버전별 지원이 들쭉날쭉하다는 경험담이 있다. iOS/iPadOS에서 시각화 지원이 늦다는 보고와 사용량 제한에 빨리 걸렸다는 사례도 공유됐다.

실전 활용 시나리오

학습: 클릭 가능한 주기율표, 결정 트리 같은 탐색형 자료로 “읽는 공부"에서 “만져보는 공부"로 전환. 수학·과학 분야에서 변수 하나를 바꿨을 때 그래프가 어떻게 변하는지 보는 순간 이해가 빨라진다.

업무 미팅: “우리 서비스 퍼널을 단계별로 그려줘”, “가설 A/B 비교를 차트로 보여줘"처럼 말로 만든 임시 대시보드를 띄워놓고 질문이 나올 때마다 바로 수정하는 방식이 가능하다.

데이터 분석: 포트폴리오 분석을 시각화로 자동 생성해 “사람이 일주일 걸릴 결과"를 수분 만에 얻었다는 반응도 있다.

주의할 점: 화려함 ≠ 정확성

The New Stack의 테스트에서 도식은 그럴듯했지만 항공 패턴 다이어그램의 일부 라벨 위치가 틀린 사례가 발견됐다. 시각화는 “이해를 돕는 UI"이지 “정답 인증 배지"가 아니다.

실용적인 사용법은 간단하다:

**“표/차트로 보여줘”**로 시작
**“이 그래프의 전제와 계산식을 같이 적어줘”**로 검증 장치 추가
**“변수 하나만 바꿔서 비교해줘”**로 탐색 반복

이 기능은 모든 요금제(Free, Pro, Max, Team)에서 사용 가능하다.

인사이트

Claude의 인챗 인터랙티브 차트는 AI가 답을 “말로” 전달하던 단계에서 사용자가 답을 “눌러서 확인"하는 단계로의 전환 신호다. 텍스트 기반 대화에 시각적 탐색을 결합하는 이 방향은, ChatGPT의 Canvas나 Gemini의 멀티모달 출력과 함께 AI 인터페이스의 진화를 보여준다. 다만 베타인 만큼 렌더링 위치나 속도, 플랫폼 지원은 흔들릴 수 있고, 가장 중요한 것은 화려한 시각화에 현혹되지 않고 원데이터와 전제 조건을 함께 요구하는 습관을 유지하는 것이다.

Claude Code 2026 — Statusline 업데이트와 멀티 환경 AI 코딩 생태계

Fri, 06 Mar 2026 00:00:00 +0900

개요

Claude Code는 Anthropic이 만든 에이전트 코딩 도구다. 단순히 코드 자동완성을 제공하는 수준이 아니라, 코드베이스 전체를 읽고, 파일을 편집하고, 터미널 명령을 직접 실행하며, 개발 도구와 깊게 통합되는 방식으로 동작한다. 2026년 초 기준으로 Claude Code는 Terminal, VS Code, Desktop app, Web, JetBrains, Chrome extension(beta)에 이르기까지 개발자가 일하는 거의 모든 환경을 지원하고 있다.

최근 유튜브 채널 @codefactory_official이 올린 쇼트 영상(“클로드 코드 최신 업데이트 Statusline”)이 246개의 좋아요를 받으며 주목받았다. 제목의 핵심 키워드인 Statusline — 터미널 하단에 표시되는 상태표시줄 — 이 추가되면서 터미널 UI가 한층 더 스마트해졌다는 것이 영상의 요지다. 이 글에서는 Statusline 업데이트를 시작으로, Claude Code가 구축하고 있는 멀티 환경 AI 코딩 생태계 전체를 정리한다.

Statusline — 터미널이 더 스마트해졌다

Statusline은 Claude Code가 터미널 인터페이스에 추가한 상태표시줄 UI 컴포넌트다. 기존에는 Claude Code를 터미널에서 실행할 때 어떤 작업이 진행 중인지, 현재 컨텍스트가 얼마나 소비되었는지 등을 한눈에 확인하기 어려웠다. Statusline이 추가되면서 터미널 하단에 현재 작업 상태, 사용 중인 모델 정보, 컨텍스트 사용량 등이 실시간으로 표시된다.

이 변화는 단순한 UX 개선 이상의 의미를 갖는다. 터미널 기반 개발 워크플로우를 선호하는 개발자들에게 Claude Code는 이제 IDE 수준의 시각적 피드백을 터미널 안에서 제공한다. tmux나 zellij 같은 멀티플렉서와 함께 사용할 때도 Statusline이 제 역할을 하며, 여러 세션을 동시에 관리할 때 각 세션의 상태를 명확하게 구분할 수 있게 되었다. “터미널이 이뻐졌다…?“는 영상 설명 문구가 가볍게 들릴 수 있지만, 실제로 이는 Claude Code가 터미널을 1등 시민(first-class citizen)으로 대우하겠다는 방향성을 명확히 보여준다.

Statusline의 도입은 Claude Code가 단순한 CLI 도구를 넘어 완성도 높은 터미널 개발 환경으로 진화하고 있음을 보여준다. 기존 AI 코딩 도구들이 주로 GUI IDE 플러그인 형태로 제공되었던 것과 달리, Claude Code는 터미널을 중심에 두고 다른 환경들을 확장으로 지원한다는 독특한 포지셔닝을 갖고 있다. 이 방향성은 서버 접속, CI/CD 파이프라인, Docker 컨테이너 내부 등 GUI가 없는 환경에서 AI 코딩 어시스턴트를 활용해야 하는 수요를 정확히 겨냥한 것이다.

Claude Code가 지원하는 모든 환경

graph TD
 CC[Claude Code 코어]

 CC --> T[Terminal
CLI / Statusline]
 CC --> VS[VS Code
익스텐션]
 CC --> DA[Desktop App
macOS / Windows]
 CC --> WB[Web Browser
claude.ai]
 CC --> JB[JetBrains
IntelliJ 계열]
 CC --> CR[Chrome Extension
beta]

 CC --> RC[Remote Control
모바일 / 원격 기기]
 CC --> GA[GitHub Actions
CI/CD 통합]
 CC --> GL[GitLab CI/CD
파이프라인 통합]
 CC --> SL[Slack
팀 협업 통합]
 CC --> SDK[Agent SDK
커스텀 에이전트]
 CC --> MCP[MCP
도구 연결 프로토콜]

 style CC fill:#4a90d9,color:#fff
 style RC fill:#f5a623,color:#fff
 style SDK fill:#7ed321,color:#fff
 style MCP fill:#9b59b6,color:#fff

Claude Code가 지원하는 환경은 크게 두 축으로 나눌 수 있다. 첫째는 개발자가 직접 인터랙션하는 인터페이스 계층으로, Terminal(CLI), VS Code 익스텐션, Desktop App, Web(claude.ai), JetBrains 계열 IDE, Chrome Extension(beta)이 여기에 해당한다. 둘째는 자동화 및 통합 계층으로, GitHub Actions, GitLab CI/CD, Slack 통합, Remote Control, Agent SDK가 포함된다.

VS Code 익스텐션은 에디터 내에서 Claude Code를 직접 호출할 수 있게 해준다. 파일을 열어놓은 상태에서 “이 함수를 리팩터링해줘”, “이 모듈에 대한 테스트를 작성해줘” 같은 자연어 명령을 내리면 Claude Code가 현재 열려 있는 파일의 컨텍스트를 파악하고 편집을 수행한다. JetBrains 지원은 IntelliJ IDEA, PyCharm, GoLand, WebStorm 등 JetBrains 계열 IDE 전체를 커버하며, Java/Kotlin/Python 등 JetBrains 생태계를 주로 사용하는 백엔드 개발자들도 Claude Code를 자신의 IDE 안에서 사용할 수 있다.

Chrome Extension은 현재 beta 상태이지만 흥미로운 가능성을 열어준다. 브라우저에서 코드가 표시된 웹페이지(GitHub, GitLab, 문서 사이트 등)를 보면서 바로 Claude Code와 상호작용할 수 있다. 이는 PR 리뷰나 오픈소스 코드 탐색 시 특히 유용하다. 설치 방법은 macOS/Linux 기준으로 curl -fsSL https://claude.ai/install.sh | bash 한 줄로 가능하며, Windows에서는 PowerShell 스크립트를 통해 설치한다.

Remote Control과 비동기 코딩의 미래

Remote Control은 Claude Code의 기능 중 가장 혁신적인 것 중 하나다. 로컬 개발 세션을 실행해 두고 휴대폰이나 다른 기기에서 그 세션을 계속 이어갈 수 있다. 예를 들어, 사무실에서 복잡한 리팩터링 작업을 Claude Code에 맡겨두고 퇴근한 뒤 스마트폰에서 진행 상황을 확인하고 다음 지시를 내릴 수 있다. 이는 AI 코딩의 패러다임을 동기식(synchronous) 인터랙션에서 비동기식(asynchronous) 협업으로 전환시키는 핵심 기능이다.

Remote Control의 기술적 기반은 Claude Code의 세션 영속성(session persistence)에 있다. 로컬 머신에서 실행 중인 Claude Code 인스턴스는 세션 상태를 서버에 동기화하며, 권한을 부여받은 다른 기기는 이 세션에 연결하여 지시를 전달하거나 결과를 확인할 수 있다. 이 구조 덕분에 장시간 실행되는 작업(대규모 코드베이스 마이그레이션, 전체 테스트 스위트 실행 등)을 맡겨두고 필요할 때만 개입하는 방식이 가능해진다.

GitHub Actions 및 GitLab CI/CD 통합은 Remote Control의 자동화 확장판이라 볼 수 있다. PR이 열리면 Claude Code가 자동으로 코드를 리뷰하고, 테스트가 실패하면 원인을 분석하고 수정안을 제안한다. 이는 CI/CD 파이프라인을 단순한 빌드/테스트 자동화를 넘어 AI 지원 코드 품질 게이트로 격상시킨다. Slack 통합을 통해서는 팀 채널에서 Claude Code에게 작업을 할당하고 결과 리포트를 받을 수 있어, 개발팀의 비동기 협업 워크플로우에 자연스럽게 녹아든다.

에이전트 생태계 확장 — MCP, Skills, Hooks

MCP(Model Context Protocol)는 Claude Code가 외부 도구와 연결되는 표준 프로토콜이다. 데이터베이스, API, 파일 시스템, 다른 AI 서비스 등 어떤 도구든 MCP 서버로 구현하면 Claude Code가 자연어 명령으로 해당 도구를 사용할 수 있게 된다. Anthropic은 MCP를 오픈 스펙으로 공개했으며, 이미 다수의 서드파티 MCP 서버가 생태계를 구성하고 있다. 이 저장소(log-blog)도 Claude Code skill로 Claude AI를 지능 계층으로 활용하는 구조를 채택하고 있다.

Skills와 Hooks는 Claude Code의 커스터마이징 레이어다. Skills는 Claude Code가 특정 도메인이나 프로젝트에 특화된 행동을 학습하게 하는 방법으로, SKILL.md 파일에 도메인 지식과 작업 패턴을 정의하면 Claude Code가 이를 참조하여 더 정확한 결과를 낸다. Hooks는 특정 이벤트(파일 저장, 명령 실행 전후 등)에 커스텀 스크립트를 연결하는 메커니즘으로, 프로젝트별 규칙 강제나 자동화 파이프라인 구축에 활용된다.

Agent SDK는 Claude Code의 가장 확장성 높은 기능이다. 개발자가 직접 커스텀 에이전트를 구축할 수 있게 해주며, 여러 에이전트가 팀을 이루어 복잡한 작업을 분업하는 “에이전트 팀” 실행도 지원한다. 예를 들어, 하나의 에이전트가 요구사항을 분석하고, 다른 에이전트가 코드를 작성하며, 세 번째 에이전트가 테스트를 실행하고 검증하는 파이프라인을 구성할 수 있다. 이는 단일 AI 어시스턴트의 한계를 넘어 실질적인 멀티 에이전트 소프트웨어 개발의 가능성을 열어준다.

경쟁 시장도 빠르게 움직이고 있다. Amazon은 최근 Kiro IDE(app.kiro.dev)를 출시했다. AWS Cognito 기반 인증을 사용하는 Kiro는 Amazon의 AI 코딩 생태계를 중심으로 개발자를 끌어들이려는 전략적 움직임이다. GitHub Copilot, Cursor, Windsurf에 이어 Kiro까지 가세하면서 AI 코딩 도구 시장의 경쟁은 더욱 치열해지고 있다. Claude Code가 이 경쟁에서 차별화하는 요소는 에이전트 수준의 자율성, 멀티 환경 지원의 폭, 그리고 MCP를 통한 개방적 확장성이다.

빠른 링크

Claude Code 공식 문서 (한국어) — 설치부터 Agent SDK까지 전체 가이드
Claude Code 설치 스크립트 — curl -fsSL https://claude.ai/install.sh | bash로 즉시 설치
Anthropic Academy — Claude Code in Action — 공식 실습 코스
YouTube: 클로드 코드 최신 업데이트 Statusline — @codefactory_official 쇼트 영상
Kiro IDE — Amazon의 새 AI IDE, 경쟁 제품

인사이트

Claude Code의 Statusline 업데이트는 사소한 UI 개선처럼 보이지만, Anthropic이 터미널을 AI 코딩의 핵심 인터페이스로 진지하게 투자하고 있다는 신호다. Terminal, VS Code, JetBrains, Web, Chrome Extension까지 아우르는 멀티 환경 지원은 개발자가 어떤 도구를 쓰든 Claude Code를 선택할 수 있게 하려는 전략이며, 특정 IDE 생태계에 lock-in하지 않겠다는 메시지이기도 하다. Remote Control과 GitHub Actions/GitLab 통합이 의미하는 바는 더 깊다 — AI 코딩이 “내가 앞에 앉아서 대화하는 도구"에서 “백그라운드에서 일하고 결과를 보고하는 에이전트"로 전환되고 있다. MCP의 오픈 스펙 공개와 Agent SDK의 제공은 Claude Code를 단독 도구가 아닌 플랫폼으로 만들려는 시도이며, 이는 경쟁사 대비 중요한 해자(moat)가 될 수 있다. Amazon Kiro, GitHub Copilot Workspace, Cursor 등 경쟁 제품들도 빠르게 에이전트 기능을 강화하고 있어, 2026년은 AI 코딩 도구가 진정한 자율 에이전트로 도약하는 원년이 될 것으로 보인다. 이 경쟁에서 승자는 단순한 코드 생성 품질이 아니라, 개발자의 전체 워크플로우에 얼마나 자연스럽게 녹아드는가로 결정될 가능성이 높다.

Anthropic on ICE-ICE-BEAR-BLOG

Claude 생태계 완전 정리 — Chat, Cowork, Code의 차이와 토큰 절약 전략

개요

Chat, Cowork, Code — 세 제품의 스펙트럼

Chat — 대화의 기본기

Cowork — 비개발자를 위한 에이전트

Code — 개발자의 터미널 동반자

가격 구조

Claude Code 토큰 최적화 — 비용이 녹아내리는 구조 이해하기

왜 비용이 기하급수적으로 느는가

초급자를 위한 핵심 팁 (52개 중 19개)

관련 도구 Quick Links

참고 영상

마무리

Claude Code 소스코드 유출 사태 — NPM 소스맵 실수로 드러난 에이전트 아키텍처의 민낯

개요

사건 경위 — 소스맵이 뭐길래

유출된 코드의 규모와 구조

미공개 기능들 — Buddy, Kairos, Ultra Plan

Undercover Mode — 유출 방지 시스템의 아이러니

하네스 엔지니어링이 핵심인 이유

커뮤니티 반응과 의혹

보안 시사점 — 공급망 보안의 기본기

OpenClaude — 유출 코드의 재탄생

무엇이 그대로이고 무엇이 바뀌었나

설치와 프로필 시스템

커뮤니티 반응 — 기회 vs. 저작권

법적 긴장과 기술적 완성도

빠른 링크

인사이트

프롬프트를 고치지 마세요, 하네스를 고치세요 — 4축 프레임워크와 생성기-평가자 아키텍처

개요

4축 프레임워크 — 프롬프트부터 에이전틱까지

프롬프트의 천장

컨텍스트만으로 부족한 이유

하네스 vs 에이전틱 — 마구 vs 말 훈련

구조적 반복 불가능성 — 하네스의 핵심 철학

부탁 vs 물리적 차단

하네스의 4기둥 — 기존 3요소를 넘어서

새로운 기둥 1: 도구 경계 (Tool Boundaries)

새로운 기둥 2: 가비지 컬렉션 (코드 품질 자동 정리)

플래너-생성기-평가자 아키텍처

왜 단일 에이전트가 무너지는가

GAN의 직관을 엔지니어링으로

플래너의 역할

스프린트 계약 — 완료 정의의 계약화

계약 프로세스

비용 대비 품질

평가자는 스크린샷이 아니라 직접 조작

모델이 좋아지면 하네스를 덜어내라

스프린트 제거 사례

빠른 링크

인사이트

Long-Running AI Agents와 하네스 엔지니어링 실천

개요

Anthropic의 Long-Running Agent 블루프린트

단발성 vs 장기 실행

핵심 설계 원칙

실제 적용 사례

하네스 엔지니어링 — 에이전트 품질 관리

하네스란 무엇인가

하네스의 3요소

매니지먼트 관점

두 접근법의 교차점

인사이트

AI 앱 프로덕션 설계 — Deterministic Fallback, HITL, Evaluation Stack

개요

왜 이 세 가지인가

1. Deterministic Fallback — 모르면 안전한 길로

2. HITL — 사람은 승인 버튼이 아니라 제어 장치

3. Evaluation Stack — 평가는 회귀 방지 장치

오늘 바로 적용할 수 있는 순서

흔한 실수

인사이트

Claude Computer Use — 마우스와 키보드를 직접 제어하는 AI의 등장

개요

Computer Use란 무엇인가

Claude Code Desktop & Cowork 연동

Dispatch — 원격 비동기 작업

기존 Claude Code Remote Control과의 관계