Segmentation on ICE-ICE-BEAR-BLOG

ToonOut — 애니메이션 머리카락을 드디어 제대로 잡아내는 BiRefNet 포크

Fri, 17 Apr 2026 00:00:00 +0900

개요

MatteoKartoon/BiRefNet — 브랜드명 ToonOut — 은 인기 있는 고해상도 세그멘테이션 모델 BiRefNet의 포크로, 애니메이션 스타일 캐릭터에 특화 파인튜닝되었다. 가중치, 1,228장 학습 데이터셋, arXiv:2509.06839 논문, 그리고 작지만 잘 정돈된 코드베이스가 함께 공개됐다. GitHub 스타 92, 코드·가중치는 MIT, 데이터셋은 CC-BY 4.0. 수치가 인상적이다 — 도메인 파인튜닝 후 테스트셋 픽셀 정확도가 **95.3% → 99.5%**로 뛴다.

graph TD
 A["BiRefNet (베이스 모델)"] --> B["애니 1,228장으로 파인튜닝"]
 B --> C["ToonOut 가중치 (joelseytre/toonout)"]
 D["ToonOut 데이터셋 (CC-BY 4.0)"] --> B
 C --> E["머리카락/투명도 처리 개선"]
 E --> F["픽셀 정확도 99.5퍼센트"]

왜 플러그인이 아니라 포크인가

범용 배경 제거 모델 — U²-Net, rembg, 심지어 일반 BiRefNet — 은 사진 이미지를 대상으로 학습된다. 애니메이션 캐릭터는 이 모델들이 조용히 가정하는 세 가지 전제를 무너뜨린다.

머리카락 가장자리가 단단하다. 사진의 머리카락은 가늘고 대비가 낮은 결이 섞여 있지만, 애니 머리카락은 단색 실루엣에 내부 구멍이 간헐적으로 있을 뿐이다. 사진 기반 모델은 머리카락 사이 틈에 배경이 번지게 하거나, 뾰족한 삐침을 지워 버린다.
투명도가 광학이 아닌 스타일 요소다. 반투명 마법 이펙트, 유리 장식, 베일 같은 요소는 사진에서처럼 부드러운 광 감쇠 없이 50% 알파로 그려진다. 사진 투명도로 학습된 모델은 없는 그라디언트를 환각한다.
선화는 피사체의 일부다. 캐릭터를 감싸는 얇은 검은 외곽선은 신호지 노이즈가 아니다. 사진 학습 세그멘터는 가끔 이걸 “엣지 아티팩트"로 잘라낸다.

ToonOut은 이 세 가지 케이스를 명시적으로 어노테이션한 데이터셋으로 파인튜닝해 해결한다. 논문은 이 모델이 “애니 스타일 이미지에 대한 배경 제거 정확도가 뚜렷하게 향상됐다"고 보고하고 — 보류셋에서 픽셀 정확도 4.2 포인트 상승이 그 주장의 측정 가능한 부분이다.

엔지니어링 디테일이 알차다

레포 구조를 보면 이건 연구 코드 투하가 아니라 재사용을 염두에 두고 다시 짠 결과물이다.

train_finetuning.sh — 파인튜닝 중 NaN 그래디언트 폭발을 피하기 위해 데이터 타입을 bfloat16으로 명시적으로 전환한 설정. BiRefNet을 fp16으로 파인튜닝해 본 사람이라면 이게 어떤 고통을 피하는지 정확히 안다.
evaluations.py — 원본 eval_existingOnes.py를 올바른 설정으로 깔끔하게 재작성. 원본 BiRefNet 평가 스크립트는 까다롭기로 유명해서, 신뢰할 수 있는 평가기를 확보하는 것이 절반의 승리다.
정돈된 폴더 구조 — 코드는 birefnet/ (라이브러리), scripts/ (Python 진입점), bash_scripts/ (각 스크립트용 셸 래퍼)로 분리. 다섯 개 스크립트가 전체 라이프사이클을 커버한다: 분할, 학습, 테스트, 평가, 시각화. 세 개 유틸리티는 베이스라인 예측, 알파 마스크 추출, Photoroom API 비교를 담당.

하드웨어 고지는 솔직해서 신선하다 — “이 레포는 24GB VRAM의 GeForce RTX 4090 2개 환경에서 사용됐다.” 번역: 더 작은 카드로 파인튜닝한다면 배치 사이즈를 조정해야 한다. 이 경고를 각주에 숨기지 않았다는 점이 좋다.

데이터셋 투명성

1,228장의 애니 이미지가 train / val / test로 분할되고, 각 분할은 다시 generation 폴더별로 조직된다(데이터셋이 감정·의상·액션 같은 여러 어노테이션 라운드에 걸쳐 반복적으로 구축됐음을 암시). 각 이미지는 세 가지 뷰로 존재한다.

im/ — 원본 RGB
gt/ — 정답 알파 마스크
an/ — 투명도가 합성된 RGBA

CC-BY 4.0 라이선스는 저작자를 표기하는 한 상업적 사용을 허용한다. 애니 관련 데이터셋치고는 드문 일이다 — 이 분야는 대개 비상업 라이선스 아니면 출처에 대해 침묵하는 “제발 소송 걸지 마세요” 영역에 머문다.

파이프라인에 어떻게 꽂히나

프로덕션 배경 제거 스택을 운영하는 사람(나도 popcon과 hybrid-image-search-demo에서 운영 중)에게 ToonOut은 BiRefNet 모델 파일의 드롭인 교체다.

graph LR
 A[입력 애니 이미지] --> B["BiRefNet 아키 (동일)"]
 B --> C["로드: ToonOut 가중치"]
 C --> D[알파 마스크 출력]
 D --> E["RGBA로 합성"]

추론 경로는 그대로다 — 같은 아키텍처, 같은 입출력 스펙. 체크포인트만 바꾸면 애니 피사체의 머리카락·투명도가 개선된다. 단점: 사진 피사체 성능은 회귀한다. 파인튜닝이 도메인 특화이기 때문이다. 파이프라인이 실사와 스타일화된 입력을 모두 다룬다면, 앞단에 분류기를 두거나 모델 엔드포인트를 둘로 나눠야 한다.

빠른 링크

MatteoKartoon/BiRefNet GitHub — 가중치·데이터셋·논문이 포함된 포크
arXiv:2509.06839 — 논문
joelseytre/toonout Hugging Face — 바로 쓸 수 있는 가중치
원본 BiRefNet — 비교 대상

인사이트

ToonOut은 도메인 파인튜닝 경제학의 좋은 케이스 스터디다. 현대 기준으로 1,228장은 아주 작은 데이터셋이고 — 그럼에도 메운 픽셀 정확도 격차(이미 95% 이상이던 베이스라인에서 4.2 포인트)는 프로덕션에서 가장 중요한 라스트마일 개선에 해당한다. 흥미로운 패턴은 오픈소스 세그멘테이션 모델이 이제 패션·의료 분류기가 몇 년째 해 오던 방식으로 도메인 특화되고 있다는 것이다. 강력한 범용 백본을 가져오고, 도메인 데이터셋을 큐레이션하고, 파인튜닝하고, 둘 다 공개한다. 좋은 범용 모델의 비용이 충분히 낮아지면, 경쟁의 표면은 데이터 큐레이션과 도메인 특화로 옮겨 간다. 그래서 가중치와 데이터셋을 함께 공개하는 것이 어느 한쪽만 공개하는 것보다 중요하다 — 다음 포크가 500장을 더 추가해 재학습하고 수치를 다시 움직일 수 있기 때문이다.

BiRefNet — rembg를 조용히 이기고 있는 고해상도 세그멘테이션 모델

Wed, 15 Apr 2026 00:00:00 +0900

개요

BiRefNet은 rembg, u2net과 헤드 투 헤드 비교 테스트 끝에 결국 프로덕션 파이프라인에 꽂아 넣은 고해상도 세그멘테이션 모델이다. CAAI AIR 2024에 게재됐고(Peng Zheng 외), GitHub 스타 3.3K, 상업 친화적인 MIT 라이선스. “실제로 쓸만한 오픈 세그멘테이션” 경쟁에서 조용한 승자가 되고 있다.

graph TD
 A["입력 이미지 (고해상도)"] --> B[Localization 모듈: 대략적 영역]
 A --> C[Reconstruction 모듈: 세부 디테일]
 B --> D[양방향 참조 융합]
 C --> D
 D --> E["이분법 마스크 (binary fg/bg)"]

이분법 세그멘테이션이란

Dichotomous Image Segmentation(DIS)은 전경 추출의 하드모드다. 복잡한 배경에서 고도로 세밀한 피사체(나뭇가지, 머리카락, 곤충 다리 같은 것)를 full resolution에서 단일 binary 마스크로 분리해야 한다. 기존 모델들은 해상도를 낮춰서 다루기 쉽게 만들거나, 객체 경계에서 디테일이 번진다. BiRefNet의 트릭은 양방향 참조(bilateral reference) — 객체 위치를 찾는 branch(coarse)와 세부 구조를 재구성하는 branch(detail)를 병렬로 돌리고 융합한다.

매팅 파이프라인에서 왜 중요한가

내 테스트: 같은 제품 사진 12장을 rembg(u2net 기본값), IS-Net, BiRefNet에 돌려봤다. BiRefNet이 세 축에서 이긴다.

엣지 정밀도 — 머리카락과 털이 회색 헤일로로 평균화되지 않는다. rembg는 실루엣은 알아볼 만하지만 가는 머리카락의 ~40%를 잃는다.
배경 거부 — 피사체 아래 그림자가 알파 채널로 번지지 않고 제대로 배제된다.
해상도 — BiRefNet은 네이티브 입력 크기(2048×2048까지 테스트)로 타일링 아티팩트 없이 돌아간다. rembg는 내부에서 다운샘플한 뒤 업샘플하는데, 이게 엣지가 뭉개지는 원인이다.

트레이드오프는 컴퓨트. BiRefNet은 더 무거운 모델(ViT 계열 인코더)이고 CPU에서는 이미지당 수 초 단위다. RTX A5000(24GB)에서 1024×1024 기준 1초 이내로 들어온다. GPU 워커에선 받아들일 만하지만 월 $5짜리 VPS에선 고통이다.

커밋과 커뮤니티 시그널

최근 커밋이 신호다. a767b77, 07f74e9은 README churn — awards section 추가/제거 — 저자들이 예상치 못한 traction을 받고 있다는 뜻이다. 2cddd79은 더 본질적: “Avoid using item values in init of model for compatibility with transformer 5.x.” Hugging Face Transformers 5.x 마이그레이션을 적극적으로 추적하고 있다는 얘기다. 논문 발표 후에도 인프라 변화에 맞춰 버전을 올리는 건 살아있고 실제로 쓸 수 있는 모델이라는 신뢰할 만한 지표다.

리포지토리 토픽에는 뻔한 background-removal과 함께 camouflaged-object-detection, salient-object-detection이 붙어 있다. 같은 모델을 세 개의 관련 태스크에 파인튜닝한 것이다 — 아키텍처가 한 태스크만 신경쓰더라도 이해해둘 만큼 일반적이라는 뜻.

사용법 — 두 줄 코드

from transformers import AutoModelForImageSegmentation
model = AutoModelForImageSegmentation.from_pretrained(
 "ZhengPeng7/BiRefNet", trust_remote_code=True
)

Hugging Face Spaces 데모: ZhengPeng7/BiRefNet_demo. HF 모델 카드를 저자가 직접 관리한다는 점이 중요하다. trust_remote_code=True는 저자의 커스텀 추론 코드를 pull해 온다는 뜻이니, 서드파티 포크 대신 원본 리포의 HF 미러를 쓰는 게 안전한 기본값이다.

대안들과의 위치

rembg — 배치 CPU 작업이나 낮은 리스크의 배경 제거라면 여전히 “pip install 후 바로 가는” 최선의 선택. 빠르고 의존성 가볍고 MIT. 한계는 엣지 품질.
Matanyone / ViTMatte — 실제 매팅(trimap 기반, 연속적 알파)에는 더 낫지만 trimap이나 유저 scribble을 요구한다. 대부분의 제품 사진 플로우에는 오버킬.
SAM2 (Meta) — 프롬프트(점, 박스, 마스크) 기반 대화형 세그멘테이션. 완전히 다른 도구 — SAM에겐 “이 픽셀에 뭐 있어?“를 묻고 BiRefNet에겐 “전경이 뭐야?“를 묻는 것.
BiRefNet — 고해상도, 자동, 유저 입력 없는 단일 마스크 전경 추출을 원하고 실제로 쓸 수 있는 상업 라이선스가 필요할 때의 스위트 스팟.

인사이트

계속 눈에 띄는 패턴 하나. 오픈소스 CV는 개별적으로 SOTA를 주장하는 모델을 꾸준히 뽑아내지만 그 중 실제 파이프라인 승리로 번역되는 건 소수다. BiRefNet이 번역된 이유는 (a) MIT 라이선스라 상업 사용에 문이 열려 있고, (b) HF 통합이 1st-party고, (c) 양방향 참조 아키텍처가 U-Net 후손들과 질적으로 다른 엣지를 만들어내기 때문이다. 세 번째가 벤치마크 수치상 rembg와 비슷해 보여도 실전에서 뒤집는 이유다 — 벤치마크는 실제 제품 사진 95th 퍼센타일에서 머리카락 디테일을 거의 포착하지 못한다. 다운스트림에서 합성되거나 업스케일링되거나 인쇄되는 무언가를 만들고 있다면 엣지 품질 차이는 즉시 드러난다.