레딧은 마이크로소프트가 자사의 사이트를 검색하고 데이터를 사용하여 AI를 훈련하는 것을 차단했습니다.

Microsoft Reddit
레딧의 CEO인 스티브 허프먼은 기술 세계에서 마이크로소프트의 비밀스러운 습관을 강조했습니다. 그는 마이크로소프트가 레딧의 방대한 데이터 수집을 이용해 자사의 AI 서비스를 교육했다는 흥미로운 진술을 했습니다.

버지(The Verge)와의 인터뷰에서 허프먼은 마이크로소프트, 앤스로픽(Anthropic), 그리고 퍼플렉시티(Perplexity)와 같은 AI 기업들이 AI 훈련을 위해 콘텐츠를 자유롭게 활용하며 인터넷이 그들의 것인 것처럼 행동했다는 점을 언급했습니다. 이는 레딧이 검색 엔진이 자사의 데이터에 접근하기를 원한다면 비용을 지불하라는 강력한 입장을 취한 이후 나온 이야기로, 현재까지 구글만이 비용을 지불했습니다.

허프먼은 이러한 대형 기술 기업들이 레딧의 데이터에 접근하는 것을 막는 것이 얼마나 어려운지를 설명하기 위해 명확한 비유를 사용했습니다. 그는 다람쥐를 새 먹이통에서 멀리하는 것과 비슷하다고 말했습니다. 물론 마이크로소프트는 웹마스터 크롤링 제어 옵션을 제공했지만, 레딧은 언급되지 않은 다른 검색 엔진을 사용하기로 결정했습니다.

그럼에도 불구하고, 레딧은 검색을 위해 빙(Bing)이 자사의 사이트를 크롤링하는 것을 차단했으며, 다른 검색 엔진을 선호하여 빙과 빙 기반 엔진의 경쟁에 영향을 미쳤습니다. — 조르디 리바스(@JordiRib1) 2024년 7월 29일

이 상황은 레딧과 마이크로소프트만의 문제가 아닙니다. 대신, 기술 기업들이 공공 데이터를 AI 목표에 어떻게 활용하는지에 대한 더 넓은 논의의 한 단면을 보여줍니다. 마이크로소프트 AI CEO 무스타파 술레이만의 “인터넷 데이터는 무료 소프트웨어였다”는 언급은 데이터가 인공지능 훈련에 사용될 수 있다는 오랜 이해를 시사하며 더 많은 논의를 불러일으킵니다.

허프먼의 입장은 콘텐츠 제작자들이 검색 엔진 및 AI 기업과의 관계를 인식하는 방식을 변화시킬 가능성을 제안합니다. 데이터와 트래픽을 교환하는 예전의 방식이 변화하고 있는 것으로 보입니다. AI의 데이터 수요가 증가함에 따라 상호 작용의 조건이 재정의되고 있습니다. 레딧의 결정은 첫 번째 사례를 만들고 추가 콘텐츠 제공자들을 동기부여하여 크롤러들이 동의하는 것을 방지할 수도 있습니다.

레딧과 마이크로소프트 간의 이 진행 중인 이야기는 두 기업 간의 극적인 불일치 이상의 의미를 지니고 있습니다. 이는 데이터 프라이버시, 인공지능 개발, 그리고 인터넷의 기본 원칙 간의 복잡한 관계를 보여주는 중요한 시대적 문제를 나타냅니다.