단일 워크스테이션에서 100B급 MoE 모델을 vLLM AutoRound MTP TurboQuant 조합으로 80퍼센트 가속한 albond 레시피 분석
Fly.io 공식 영상 두 편을 보고 정리한 노트 — Firecracker microVM, fctl이 fat client인 이유, 그리고 Machines 플랫폼이 fly launch부터 사용자가 직접 호출할 수 있는 API까지 어떻게 같은 빌딩 블록을 공유하는지
Google Cloud Next 26에서 발표된 Fraud Defense를 reCAPTCHA의 18년 진화와 봇 경제의 변화 관점에서 해부한다 — 마찰 레이어에서 리스크 엔진 레이어로의 이동, agentic web 시대의 신뢰 인프라, 그리고 빌더가 신경 써야 할 것들
73개 커밋이 이끈 다섯 흐름 — Gemini 옆에 OpenAI 라우팅 추가, 인젝션 모드 폐기 후 모델/제품 라이브러리 도입, 0428/0429 톤 풀 큐레이션, 내부 사용자 권한 티어, 카메라/렌즈 피커 UX
Google의 LiteRT-LM v0.11.0 릴리스가 Gemma 4 Multi-token Prediction과 Windows 네이티브 지원을 추가하며 온디바이스 LLM 추론을 한 단계 끌어올린다
같은 날 한 번에 풀린 OpenAI 5건의 발표를 모델·API·제품 정책·인프라 4계층으로 정리한 디지스트
OpenAI Privacy Filter 위에 reversible tokenization vault를 옵트인으로 얹은 deformatic의 확장 — 가명화 대 익명화 구분과 서비스 boundary 설계
2주 동안 popcon에 들어간 다섯 가지 큰 흐름 — 결제 인프라, Cloudflare R2 스토리지 컷오버, 애니 전용 매팅 모델, D1 brutal UI, 한국어 i18n
BiRefNet을 1228장의 애니 이미지로 fine-tuning한 ToonOut 모델 — 일반 사진 매팅 모델이 애니 머리카락에서 무너지는 문제를 어떻게 풀었는지, 그리고 BiRefNet 자체의 dynamic resolution 학습 전략까지
Anthropic이 SpaceX Colossus 1 데이터센터 전량을 임대해 Claude Code와 API 한도를 올린다. 220K GPU·300MW가 어떻게 사용 한도로 환산되는지, 그리고 경쟁사 인프라를 빌려쓴다는 결정이 의미하는 바