<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Anti Scraping on ICE-ICE-BEAR-BLOG</title><link>https://ice-ice-bear.github.io/ko/tags/anti-scraping/</link><description>Recent content in Anti Scraping on ICE-ICE-BEAR-BLOG</description><generator>Hugo -- gohugo.io</generator><language>ko</language><lastBuildDate>Thu, 16 Apr 2026 00:00:00 +0900</lastBuildDate><atom:link href="https://ice-ice-bear.github.io/ko/tags/anti-scraping/index.xml" rel="self" type="application/rss+xml"/><item><title>Fuzzy Canary — 숨겨진 NSFW 링크로 AI 스크래핑을 막는 기발한 방법</title><link>https://ice-ice-bear.github.io/ko/posts/2026-04-16-fuzzy-canary/</link><pubDate>Thu, 16 Apr 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-04-16-fuzzy-canary/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post Fuzzy Canary — 숨겨진 NSFW 링크로 AI 스크래핑을 막는 기발한 방법" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://github.com/vivienhenz24/fuzzy-canary" target="_blank" rel="noopener"
 &gt;vivienhenz24/fuzzy-canary&lt;/a&gt; (스타 268개)는 AI 스크래핑 군비경쟁에 사회공학적 접근을 취하는 TypeScript npm 패키지입니다. 기술적으로 스크래퍼를 차단하는 대신, HTML에 포르노 웹사이트로 향하는 보이지 않는 링크를 심어둡니다. AI 학습 파이프라인이 페이지를 크롤링할 때 콘텐츠 안전 필터가 NSFW 링크를 감지하고 해당 페이지 전체를 학습 데이터에서 제외합니다.&lt;/p&gt;
&lt;h2 id="동작-원리"&gt;동작 원리
&lt;/h2&gt;&lt;pre class="mermaid" style="visibility:hidden"&gt;flowchart LR
 A["스크래퍼가&amp;lt;br/&amp;gt;페이지 방문"] --&gt; B["숨겨진 NSFW&amp;lt;br/&amp;gt;링크 발견"]
 B --&gt; C["콘텐츠 안전&amp;lt;br/&amp;gt;필터 작동"]
 C --&gt; D["학습 데이터에서&amp;lt;br/&amp;gt;페이지 제외"]&lt;/pre&gt;&lt;p&gt;원리는 단순합니다. AI 학습 파이프라인에는 보편적으로 콘텐츠 안전 필터가 있습니다. 스크래퍼가 페이지에서 NSFW 링크를 발견하면 해당 페이지 전체를 안전하지 않은 것으로 분류하고 학습 데이터셋에서 제외합니다. Fuzzy Canary는 사람에게는 보이지 않지만 스크래퍼는 반드시 찾는 숨겨진 링크를 삽입하여 이를 악용합니다.&lt;/p&gt;
&lt;h2 id="사용법"&gt;사용법
&lt;/h2&gt;&lt;p&gt;설치는 간단합니다:&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;npm i @fuzzycanary/core
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;두 가지 모드가 있습니다:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;서버사이드 (권장)&lt;/strong&gt;: React 컴포넌트 &lt;code&gt;&amp;lt;Canary /&amp;gt;&lt;/code&gt;를 루트 레이아웃에 추가합니다. 렌더링 시점에 링크가 주입됩니다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;클라이언트사이드&lt;/strong&gt;: 페이지 로드 후 링크를 주입하는 자동 초기화 스크립트입니다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;클라이언트사이드 주입은 JavaScript를 실행하지 않는 스크래퍼에게 포착되지 않을 수 있으므로 서버사이드 방식이 권장됩니다.&lt;/p&gt;
&lt;h2 id="주의사항"&gt;주의사항
&lt;/h2&gt;&lt;p&gt;주요 트레이드오프는 SEO 영향입니다. 숨겨진 링크는 Googlebot 같은 정상적인 검색엔진 크롤러를 포함한 &lt;strong&gt;모든 방문자&lt;/strong&gt;에게 주입됩니다. 링크가 사용자에게는 보이지 않지만, 검색엔진이 여전히 인덱싱하고 페이지에 패널티를 줄 수 있습니다. 검색 트래픽에 의존하는 프로덕션 사이트에서는 현실적인 고려사항입니다.&lt;/p&gt;
&lt;h2 id="정리"&gt;정리
&lt;/h2&gt;&lt;p&gt;Fuzzy Canary는 AI 기업들의 자체 안전 메커니즘을 역으로 이용하는 기발한 솔루션입니다. 커스텀 파이프라인을 가진 결연한 스크래퍼를 막지는 못하지만, 표준 학습 인프라를 사용하는 스크래퍼에게는 비용을 높입니다. 콘텐츠 제작자와 AI 학습 데이터 수집 간의 지속되는 군비경쟁에서 창의적인 한 수입니다.&lt;/p&gt;</description></item></channel></rss>