조사 결과, 기술 기업들이 유튜브 자막을 기반으로 AI를 훈련시켰음이 밝혀졌다.

인공지능은 마법적이지 않다 - 이름에서 알 수 있듯이 “인공적”이다. 우리는 콘텐츠가 어디서 왔는지 알고 있다. 조사를 통해 애플을 포함한 몇몇 유명 기술 기업들이 유튜브 비디오의 자막을 기반으로 자사의 AI 기술을 훈련시켰다는 사실이 드러났다 - 모두 허가 없이.
조사 결과, 유튜브 자막 사용이 확인되다
Proof News는 데이터셋에서 유튜브를 검색할 수 있는 도구를 포함한 조사를 수행했다. 조사 결과, 48,000개 이상의 채널에서 거의 175,000개의 유튜브 비디오 자막이 기술 기업들에 의해 사용되었음을 확인했다.
사용된 비디오에는 The Late Show with Stephen Colbert와 Jimmy Kimmel Live의 심야 TV 에피소드가 포함되었다. 또한 MrBeast, PewDiePie, Marques Brownlee의 비디오도 조사에 포함되었다.

데이터셋은 “the Pile”에서 비롯되었다. 2020년, the Pile은 비영리단체 EleutherAI의 22가지 데이터셋의 혼합물로 설명되었다.
구글 대변인은 CNET에 보낸 이메일에서 회사가 이전에 말한 바를 지지한다고 밝혔다. CEO 닐 모한은 그 당시 OpenAI가 유튜브 비디오를 사용했는지 확실히 알지 못한다고 말했다. 그러나 만약 사용했었다면, 유튜브의 서비스 약관을 위반한 것이라고 인정했다.
AI 콘텐츠의 출처는 어디인가?
거의 모든 기술 기업들이 최근 AI 시스템을 개발하고 있거나 개발했다고 발표했다. 처음에 언급했듯이, 그것이 마법적이지 않고 콘텐츠가 어디서 오는지를 알고 있다. AI가 유튜브 자막에서 비롯되었다는 것은 예측하지 못했던 사실이다.
ChatGPT의 제작자 OpenAI는 이전에 AI 훈련을 위한 데이터셋을 찾는 것이 점점 어려워지고 있으며, 이로 인해 Reddit 및 News Corp.와 콘텐츠 거래를 체결했다고 언급했다. 구글은 AI 훈련에서 유튜브 콘텐츠를 사용할 수 있도록 콘텐츠 제작자와의 계약이 있다고 밝혔다. 최근 구글 검색에 AI 개요가 추가되었다. AI 개요가 마음에 들지 않는다면 이를 끄는 방법을 배워보라.

그럼에도 불구하고 Anthropic의 대변인은 Proof News에 Claude라는 AI 어시스턴트 훈련 위해 Pile을 사용했다고 인정했다. 대변인은 또한 Pile에 일부 유튜브 자막이 포함되어 있다고 인정했다.
Claude, ChatGPT 또는 다른 AI 기술을 사용하든, 그것은 데이터셋을 기반으로 훈련되었다. 질문은 그것이 Reddit과 같은 자발적인 콘텐츠 제공자에 의해 훈련되었는지, 아니면 제작자의 동의 없이 사용된 콘텐츠로 제공자를 찾았는지 여부다. AI 챗봇을 다음 번에 사용할 때 꼭 고려해야 할 사항이다.