La investigación muestra que las empresas de tecnología entrenaron a la IA con transcripciones de YouTube

La inteligencia artificial no es mágica; está en el nombre: “artificial”. Sabemos que el contenido proviene de algún lugar. Una investigación mostró que algunos de los grandes nombres en tecnología, incluidos Apple, entrenaron su tecnología de IA con transcripciones de videos de YouTube, todo sin permiso.
La investigación muestra que se utilizaron transcripciones de YouTube
Proof News realizó una investigación que incluyó una herramienta de búsqueda para buscar YouTube en el conjunto de datos. La investigación determinó que los subtítulos de casi 175,000 videos de YouTube de más de 48,000 canales fueron utilizados por empresas tecnológicas.
Los videos utilizados incluían episodios de televisión nocturna de The Late Show with Stephen Colbert y Jimmy Kimmel Live. También aparecieron en la investigación videos de MrBeast, PewDiePie y Marques Brownlee.

El conjunto de datos provino de “the Pile”. En 2020, “the Pile” fue descrito como una mezcla de 22 conjuntos de datos de EleutherAI, una organización sin fines de lucro.
Un portavoz de Google dijo en un correo electrónico a CNET que la compañía defiende lo que ha dicho anteriormente, regresando a un comentario de abril. El CEO Neal Mohan dijo en ese momento que no sabía si OpenAI había utilizado videos de YouTube. Pero si lo hizo, reconoció que sería una violación de los términos de servicio de YouTube.
¿De dónde proviene el contenido de la IA?
Casi todas las empresas tecnológicas han anunciado recientemente que están desarrollando o han desarrollado un sistema de IA. Como se indicó inicialmente, sabemos que no es mágica y que el contenido proviene de algún lugar. Simplemente no se esperaba que la IA procediera de transcripciones de YouTube.
OpenAI, los creadores de ChatGPT, han mencionado anteriormente que estaba siendo cada vez más difícil encontrar conjuntos de datos para entrenar a la IA, y eso los llevó a hacer tratos con Reddit y News Corp. para su contenido. Google ha dicho que tiene un acuerdo con los creadores de contenido que le permite utilizar contenido de YouTube en su entrenamiento de IA. AI Overview se agregó recientemente a Google Search. Aprende cómo desactivar AI Overview si no es de tu agrado.

Sin embargo, un portavoz de Anthropic reconoció a Proof News que utilizó “the Pile” para entrenar a Claude, su asistente de IA. El portavoz también reconoció que hay algunos subtítulos de YouTube en “the Pile”.
Ya sea que uses Claude, ChatGPT o alguna otra tecnología de IA, fue entrenada en un conjunto de datos. La pregunta es si fue entrenada en proveedores de contenido dispuestos, como Reddit, o si la búsqueda de proveedores se expandió a contenido que fue utilizado sin el conocimiento de los creadores. Definitivamente es algo que deberías considerar la próxima vez que uses un chatbot de IA.