A investigação mostra que empresas de tecnologia treinaram a IA com transcrições do YouTube

Inteligência artificial não é mágica – está no nome: “artificial.” Sabemos que o conteúdo vem de algum lugar. Uma investigação mostrou que alguns dos grandes nomes da tecnologia, incluindo a Apple, treinaram sua tecnologia de IA com transcrições de vídeos do YouTube – tudo sem permissão.
Investigação Mostra Uso de Transcrições do YouTube
A Proof News conduziu uma investigação que incluiu uma ferramenta de busca para localizar o YouTube no conjunto de dados. A investigação determinou que as legendas de quase 175.000 vídeos do YouTube de mais de 48.000 canais foram utilizadas por empresas de tecnologia.
Os vídeos que foram utilizados incluíram episódios de programas noturnos como The Late Show with Stephen Colbert e Jimmy Kimmel Live. Também apareceram na investigação vídeos de MrBeast, PewDiePie e Marques Brownlee.

O conjunto de dados veio de “the Pile.” Em 2020, o Pile foi descrito como uma mistura de 22 conjuntos de dados da EleutherAI, uma organização sem fins lucrativos.
Um porta-voz do Google disse em um e-mail para a CNET que a empresa mantém o que já havia dito anteriormente, voltando a um comentário de abril. O CEO Neal Mohan disse na época que não sabia se a OpenAI havia usado vídeos do YouTube. Mas se o fez, ele reconheceu que isso seria uma violação dos TOS do YouTube.
De Onde Mais Vem o Conteúdo de IA?
Quase toda empresa de tecnologia anunciou recentemente que está desenvolvendo ou já desenvolveu um sistema de IA. Como mencionado inicialmente, sabemos que não é mágico e que o conteúdo vem de algum lugar. Não se esperava que a IA estivesse vindo de transcrições do YouTube.
A OpenAI, criadora do ChatGPT, mencionou anteriormente que estava se tornando mais difícil encontrar conjuntos de dados para treinar a IA, o que a levou a fazer acordos com Reddit e News Corp. para seu conteúdo. O Google disse que tem um acordo com criadores de conteúdo que permite usar conteúdo do YouTube em seu treinamento de IA. O AI Overview foi adicionado recentemente ao Google Search. Aprenda como desativar o AI Overview se não for do seu agrado.

No entanto, um porta-voz da Anthropic reconheceu à Proof News que usou o Pile para treinar Claude, seu assistente de IA. O porta-voz também reconheceu que há algumas legendas do YouTube no Pile.
Seja você um usuário do Claude, ChatGPT ou outra tecnologia de IA, ela foi treinada em um conjunto de dados. A questão é se foi treinada com provedores de conteúdo dispostos, como o Reddit, ou se a busca por provedores se expandiu para conteúdos que foram utilizados sem o conhecimento dos criadores. Definitivamente, é algo que você deve considerar na próxima vez que usar um chatbot de IA.
Crédito da imagem: Unsplash