AI '데이터 브로커'는 어떻게 콘텐츠 100%를 가져가는가

美 디지데이 "수십 개 신생 스크래퍼 업체가 새 중간자로 부상"

10억 달러 시장 형성… 콘텐츠 제작자 몫은 '0원'인 이유

긁어모아 → 가공 → 판매… 4단계 구조로 본 '스크래퍼 경제'

"세금 아닌 적대적 인수"… "냅스터는 왔는데 아이튠즈는 없다"

AI 시대에 새로운 중간자(middleman)가 등장했다. 디지털 광고 시대의 '애드테크 세금'은 광고비의 일부를 떼어가는 구조였지만, 새로 등장한 'AI 데이터 브로커(AI Data Broker)'는 콘텐츠 일부가 아니라 100%를 가져가면서 한 푼도 지불하지 않는다.

심지어 그 콘텐츠로 만든 경쟁 상품을 통해 원작자인 퍼블리셔(언론사·콘텐츠 제작사)를 시장에서 밀어내는 사례까지 나오고 있다. 도대체 어떤 메커니즘이 이런 구조를 만들어내는 것일까. 미국 디지털 미디어 전문매체 디지데이(Digiday)가 4일(현지시간) 보도한 미국 퍼블리셔 업계의 위기감을 토대로, 그 작동 원리를 단계별로 짚어본다.

◇ '데이터 브로커'란 무엇인가… AI에 콘텐츠 떠먹여주는 새 산업

'데이터 브로커(data broker)'라는 용어 자체는 새로운 것이 아니다. 전통적으로는 개인정보·소비자 데이터를 수집해 마케팅 회사 등에 판매하는 사업자를 가리켰다. 그러나 이번 디지데이 보도가 다루는 'AI 데이터 브로커'는 그와 결이 다르다.

이들은 AI 기업을 대신해 인터넷 곳곳에서 뉴스 기사·블로그 글·이미지·동영상 등 콘텐츠를 자동으로 긁어모아(scraping), AI 학습용 데이터셋으로 가공한 뒤, 이를 OpenAI·앤트로픽·구글 같은 AI 회사에 판매하거나 API 형태로 제공하는 사업자다.

왜 이런 사업자가 필요한가. ChatGPT 같은 거대언어모델(LLM)을 학습시키려면 수십억~수조 개 단어 분량의 텍스트가 필요하다. 사람을 대신해 웹을 탐색·예약·구매하는 AI 에이전트(AI Agent)도 끊임없이 최신 웹 콘텐츠를 읽어와야 작동한다. AI 회사가 이 모든 데이터를 직접 수집하기는 부담스럽다. 기술적으로도, 법적으로도 그렇다. '데이터를 대신 수집해주는 전문 외주' 역할이 바로 AI 데이터 브로커다.

디지데이가 인용한 익명의 퍼블리싱 업계 임원은 이들을 '콘텐츠 시장의 DSP(수요측 플랫폼)'에 비유했다. 디지털 광고 시장에서 광고주를 대신해 광고 지면을 자동으로 사들이는 플랫폼이 DSP라면, AI 데이터 브로커는 AI 회사를 대신해 콘텐츠를 자동으로 긁어모으는 플랫폼이라는 의미다. 그는 "콘텐츠 영역에서만 30~50개의 신생 DSP가 등장했는데, 이들이 모두 100% 수수료를 떼어가는 셈"이라고 진단했다.

엄밀히 말하면 '스크래퍼(scraper)'는 콘텐츠를 자동 수집하는 기술 또는 업체를, '데이터 브로커(data broker)'는 그렇게 수집·가공한 데이터를 판매하는 사업자를 가리킨다. 그러나 최근 AI 시장에서는 두 역할이 한 회사에 수직 통합돼 있어, 사실상 같은 의미로 쓰인다. 디지데이 기사에서도 '제3자 웹 스크래퍼'와 'AI 데이터 브로커'를 사실상 동일한 의미로 혼용하고 있다.

◇ 어떻게 작동하나… '긁어모아 → 가공 → 판매' 4단계 구조

AI 데이터 브로커가 콘텐츠 100%를 가져가는 구조는 다음 4단계로 작동한다. 이 흐름을 이해하면, 왜 콘텐츠 제작자에게 한 푼도 돌아가지 않는지가 명확해진다.

[1단계] 수집(Crawling/Scraping) — 데이터 브로커가 운영하는 자동 프로그램(크롤러·봇)이 인터넷의 웹사이트를 끊임없이 방문해 페이지의 텍스트·이미지·동영상을 통째로 다운로드한다. 퍼블리셔의 동의는 거치지 않는다. robots.txt에 'no-crawl(수집 금지)'이 명시돼 있어도 이를 우회하거나 무시하는 사례가 늘고 있다.

[2단계] 가공(Processing/Structuring) — 수집한 원본 콘텐츠를 AI 학습에 쓰기 좋은 형태로 가공한다. 광고·메뉴·내비게이션 같은 부속 요소를 제거하고, 본문·제목·작성자·발행일자 등 메타 정보를 정형화한다. 이미지는 캡션을 붙이고, 동영상은 자막을 추출한다. 이 단계에서 원본은 '구조화된 학습 데이터셋'으로 변신한다.

[3단계] 판매(Selling/API) — 가공한 데이터셋을 AI 기업에 판매하거나, 실시간으로 콘텐츠를 공급하는 API 서비스를 제공한다. OpenAI·앤트로픽·구글 같은 대형 AI 기업뿐 아니라, AI 답변 엔진·에이전트 스타트업이 모두 고객이 된다. 이 시장 규모가 시장조사기관 모도르 인텔리전스(Mordor Intelligence) 추산으로 이미 10억 달러(약 1조 4000억 원)에 달한다.

[4단계] 재활용(Reuse/Competing Products) — AI 기업은 이 데이터를 학습시켜 챗봇·검색엔진·요약 서비스 등을 만든다. 이용자는 이제 신문사 사이트를 방문하지 않고도, AI 답변창에서 그 신문 기사의 내용을 요약·인용한 답을 얻는다. 결국 콘텐츠 원작자(퍼블리셔)는 트래픽도, 광고 수익도 잃는다.

이 4단계 구조에서 콘텐츠 원작자가 등장하는 곳은 1단계뿐이다. 그것도 '수집 대상'으로서다. 2단계 가공의 부가가치는 데이터 브로커가, 3단계 판매 매출은 데이터 브로커가, 4단계 재활용 가치는 AI 기업이 가져간다. 정작 원본을 만든 퍼블리셔에게 돌아가는 정산 몫은 0원이다. 디지데이가 "콘텐츠 100%를 가져가고 0%를 지불한다"고 표현한 것은 바로 이 구조 때문이다.

◇ "세금이 아니라 적대적 인수"… Candr Media CEO의 분노

캔드르 미디어(Candr Media)의 크리스 디커(Chris Dicker) 최고경영자(CEO)의 진단은 직설적이다. 그는 디지데이에 "애드테크 중간자들과 거래할 때만 해도 퍼블리셔는 적어도 무언가를 돌려받았다"며 "그러나 스크래퍼들의 가치 추출은 100%다"라고 말했다.

디커 CEO는 이어 "콘텐츠의 100%를 가져가고 0%를 지불한 뒤, 어떤 경우에는 그 콘텐츠로 만든 경쟁 상품을 통해 퍼블리셔를 시장에서 완전히 제거한다"고 비판했다. 그는 이를 두고 "세금이 아니라, 우리의 IP(지식재산권)로 자금이 조달되는 적대적 인수(hostile takeover)"라고 규정했다.

'적대적 인수'라는 표현은 단순한 분노 표현이 아니다. M&A 시장에서 적대적 인수란 대상 기업의 경영진 동의 없이 자본력을 동원해 지배권을 빼앗는 행위를 가리킨다. 디커 CEO의 비유에 따르면, 지금 AI 업계는 퍼블리셔의 동의 없이 그들의 자산(IP·콘텐츠)을 활용해, 결국 그 퍼블리셔를 시장에서 밀어낼 수 있는 자본·기술적 토대를 쌓고 있다는 의미다.

구체적인 작동 사례는 이렇다. AI 챗봇이 신문사 기사 수만 건을 학습한다 → 이용자가 "오늘 미국 금리 동향은?"이라고 묻는다 → 챗봇은 신문사 기사를 종합·요약해 답을 내놓는다 → 이용자는 더 이상 신문사 사이트를 방문할 이유가 없어진다 → 신문사는 트래픽·광고·구독 수익을 모두 잃는다. 신문사 콘텐츠로 만든 AI 서비스가, 그 신문사의 수익 기반을 구조적으로 잠식하는 셈이다.

◇ "노 크롤(No-Crawl) 무시"… 인터넷 신사 협정의 붕괴

디커 CEO가 행위 자체보다 더 심각하게 본 것은 그 위에 얹혀 있는 '악의적 행위(bad-faith behavior)'다. 그는 디지데이에 "일부 업체는 비공개·비신고 크롤러(stealth, undeclared crawlers)를 동원해 웹사이트의 'no-crawl' 지시를 우회하고, 일부는 공개적으로 '우리는 그 지시를 따르지 않겠다'고 선언한다"고 지적했다.

웹사이트 운영자는 보통 robots.txt라는 파일을 통해 "이 사이트는 크롤링하지 마시오"라는 지시를 명시할 수 있다. 이는 인터넷 초창기인 1994년부터 이어져 온 일종의 '신사 협정'이다. 검색엔진을 비롯한 대부분의 사업자는 이 지시를 존중해왔고, 이 신뢰가 인터넷 생태계의 기본 약속이었다.

그러나 일부 AI 데이터 브로커는 두 가지 방식으로 이 약속을 깨뜨린다. 첫째, '스텔스 크롤러'다. 봇임을 숨기고 일반 사용자처럼 위장해 콘텐츠에 접근한다. 둘째, 공개적 무시다. "우리는 robots.txt를 따르지 않겠다"고 선언하고 그대로 수집한다. 전자가 기만이라면, 후자는 도발이다.

독립미디어연합(Independent Media Alliance) 이사를 겸하고 있는 디커 CEO는 "단순한 무임승차가 아니라, 퍼블리셔에게 남은 몇 안 되는 방어 수단마저 무력화시키려는 적극적 기만이자 규모의 남용"이라고 비판했다. 그는 "메시지가 'no-crawl'이라면, 노(No)는 노라는 점을 분명히 해야 한다"고 강조했다. 성희롱 논의에서 "No means no(노라고 했으면 노다)"라는 표현을 끌어와, 동의 없는 콘텐츠 수집의 부당성을 부각한 셈이다.

robots.txt는 웹사이트 루트에 두는 텍스트 파일로, 웹 크롤러에게 "어디까지 수집해도 좋고 어디는 안 된다"를 알려주는 표준 규약이다. 법적 강제력은 약하지만, 검색엔진 등 대부분의 사업자가 이를 따라왔기 때문에 사실상의 규범으로 작동해왔다. 최근에는 AI 학습용 크롤러를 차단하기 위한 별도 지시(User-agent: GPTBot, ClaudeBot 등)도 추가됐다.

◇ 스크래퍼 경제 10억 달러… 21~40개 업체 식별

미디어 애널리스트 매튜 스콧 골드스타인(Matthew Scott Goldstein)이 최근 발표한 보고서는 이 시장의 윤곽을 처음으로 가시화했다. 보고서는 모도르 인텔리전스 자료를 인용해 '스크래퍼 경제(scraper economy)'를 10억 달러 규모 산업으로 규정했다. 그러면서 "이 산업에서 퍼블리셔의 몫은 한 푼

📎 Read full article on K-EnterTech Hub →

About K-EnterTech Forum · K-엔터테크포럼

K-EnterTech Forum (K-ETF, K-엔터테크포럼)은 엔터테인먼트 테크놀로지, K-콘텐츠, 한류, 미디어 정책 분야의 전문 인사이트를 제공하는 국내 대표 플랫폼입니다. K-팝·K-드라마·K-푸드·K-컬처와 AI·스트리밍·크리에이터 이코노미·방송 기술의 공진화(Co-Evolution) 전략을 연구하고, 국내외 포럼·행사를 통해 정책 및 산업 협력 의제를 이끌고 있습니다.
K-EnterTech Forum is Korea's leading platform for insights on entertainment technology, K-Content, Hallyu, and media policy — bridging Korean cultural industries with global technology trends.

고삼석 상임의장 · Chairman Samseog Ko

고삼석(Ko Samseog)은 K-EnterTech Forum 상임의장입니다. 동국대학교 첨단융합대학 석좌교수이자 국가인공지능전략위원회 분과위원으로, 30년 이상의 방송통신 정책 및 산업 경험을 바탕으로 K-콘텐츠와 글로벌 엔터테인먼트 기술의 융합을 선도하고 있습니다. 前 방송통신위원회 상임위원을 역임했으며, ZDNet Korea에 정기 칼럼을 연재 중입니다.
Samseog Ko is the founding Chairman (상임의장) of K-EnterTech Forum. He is a Distinguished Professor at Dongguk University and a member of Korea's National AI Strategy Committee. Former Commissioner of the Korea Communications Commission (KCC).

📩 familygang@naver.com | 🌐 entertechfrum.com | 고삼석 상임의장 소개 →