Page 5 - ICE-ICE-BEAR-BLOG

Machine Learning

DGX Spark에서 Qwen3.5-122B를 28.3에서 51 tok/s로 끌어올린 추론 최적화 레시피

단일 워크스테이션에서 100B급 MoE 모델을 vLLM AutoRound MTP TurboQuant 조합으로 80퍼센트 가속한 albond 레시피 분석

Fly.io의 Machines가 진짜로 모든 것의 빌딩 블록인 이유

Fly.io 공식 영상 두 편을 보고 정리한 노트 — Firecracker microVM, fctl이 fat client인 이유, 그리고 Machines 플랫폼이 fly launch부터 사용자가 직접 호출할 수 있는 API까지 어떻게 같은 빌딩 블록을 공유하는지

Google Cloud Fraud Defense — reCAPTCHA의 다음 진화, 마찰 레이어에서 리스크 엔진 레이어로

Google Cloud Next 26에서 발표된 Fraud Defense를 reCAPTCHA의 18년 진화와 봇 경제의 변화 관점에서 해부한다 — 마찰 레이어에서 리스크 엔진 레이어로의 이동, agentic web 시대의 신뢰 인프라, 그리고 빌더가 신경 써야 할 것들

hybrid-image-search 개발일지 #18 — OpenAI gpt-image-2 합류, 모델/제품 라이브러리, 그리고 내부 권한 분리

73개 커밋이 이끈 다섯 흐름 — Gemini 옆에 OpenAI 라우팅 추가, 인젝션 모드 폐기 후 모델/제품 라이브러리 도입, 0428/0429 톤 풀 큐레이션, 내부 사용자 권한 티어, 카메라/렌즈 피커 UX

LiteRT-LM v0.11.0 — Gemma 4 MTP로 모바일 GPU 디코드 2배, Windows 네이티브 지원

Google의 LiteRT-LM v0.11.0 릴리스가 Gemma 4 Multi-token Prediction과 Windows 네이티브 지원을 추가하며 온디바이스 LLM 추론을 한 단계 끌어올린다

OpenAI 2026-05-07 발표 5건 디지스트 — Cyber 모델, ChatGPT 광고, Trusted Contact, Realtime 음성, MRC 네트워크

같은 날 한 번에 풀린 OpenAI 5건의 발표를 모델·API·제품 정책·인프라 4계층으로 정리한 디지스트

OPENAI Privacy Filter Reversible — 익명화가 아니라 '복원 가능한 가명화' 레이어

OpenAI Privacy Filter 위에 reversible tokenization vault를 옵트인으로 얹은 deformatic의 확장 — 가명화 대 익명화 구분과 서비스 boundary 설계

popcon 개발일지 #11 — 크레딧 시스템, R2 마이그레이션, ToonOut, 그리고 Brutal 리디자인

2주 동안 popcon에 들어간 다섯 가지 큰 흐름 — 결제 인프라, Cloudflare R2 스토리지 컷오버, 애니 전용 매팅 모델, D1 brutal UI, 한국어 i18n

Machine Learning

ToonOut과 BiRefNet — 애니 캐릭터 전용 매팅 모델이 픽셀 정확도 99.5%를 만드는 방법

BiRefNet을 1228장의 애니 이미지로 fine-tuning한 ToonOut 모델 — 일반 사진 매팅 모델이 애니 머리카락에서 무너지는 문제를 어떻게 풀었는지, 그리고 BiRefNet 자체의 dynamic resolution 학습 전략까지

Anthropic, SpaceX Colossus 1 통째로 임대 — Claude 사용 한도 인상의 진짜 의미

Anthropic이 SpaceX Colossus 1 데이터센터 전량을 임대해 Claude Code와 API 한도를 올린다. 220K GPU·300MW가 어떻게 사용 한도로 환산되는지, 그리고 경쟁사 인프라를 빌려쓴다는 결정이 의미하는 바