L'indagine mostra che le aziende tecnologiche hanno addestrato l'IA sui trascritti di YouTube

Ai Trained Youtube Video Transcripts Featured

L’intelligenza artificiale non è magica – è nel nome: “artificiale”. Sappiamo che il contenuto proviene da qualche parte. Un’indagine ha dimostrato che alcuni dei nomi più importanti nel settore tecnologico, tra cui Apple, hanno addestrato la propria tecnologia AI sui trascritti di video di YouTube – tutto senza permesso.

L’indagine mostra che sono stati utilizzati trascritti di YouTube

Proof News ha condotto un’indagine che includeva uno strumento di ricerca per cercare YouTube nel dataset. L’indagine ha determinato che i sottotitoli di quasi 175.000 video di YouTube provenienti da oltre 48.000 canali sono stati utilizzati dalle aziende tecnologiche.

I video utilizzati includevano episodi di talk show notturni come The Late Show with Stephen Colbert e Jimmy Kimmel Live. Sono apparsi anche video di MrBeast, PewDiePie e Marques Brownlee.

Ai Trained Yourube Videos How Do Llm Work

Il dataset proveniva da “the Pile”. Nel 2020, il Pile è stato descritto come un mix di 22 dataset di EleutherAI, un’organizzazione no-profit.

Un portavoce di Google ha dichiarato in un’email a CNET che l’azienda sostiene quanto già affermato in precedenza, risalente a un commento di aprile. Il CEO Neal Mohan ha affermato a quel tempo di non sapere se OpenAI avesse utilizzato video di YouTube. Ma se lo avesse fatto, ha riconosciuto che sarebbe stata una violazione dei TOS di YouTube.

Da dove proviene il contenuto dell’IA?

Quasi ogni azienda tecnologica ha annunciato di recente di stare sviluppando o di aver sviluppato un sistema AI. Come affermato all’inizio, sappiamo che non è magico e che il contenuto proviene da qualche parte. Non ci si aspettava semplicemente che l’IA provenisse dai trascritti di YouTube.

OpenAI, i creatori di ChatGPT, ha menzionato in precedenza che stava diventando sempre più difficile trovare dataset per addestrare l’IA, e ciò l’ha portata a stipulare accordi con Reddit e News Corp. per il loro contenuto. Google ha dichiarato di avere un accordo con i creatori di contenuti che gli consente di utilizzare contenuti di YouTube nel suo addestramento IA. L’AI Overview è stata recentemente aggiunta alla Ricerca Google. Scopri come disattivare AI Overview se non fa per te.

Ai Trained Yourube Videos Chatgpt

Tuttavia, un portavoce di Anthropic ha riconosciuto a Proof News di aver utilizzato il Pile per addestrare Claude, il suo assistente AI. Il portavoce ha anche confermato che ci sono alcuni sottotitoli di YouTube nel Pile.

Sia che utilizzi Claude, ChatGPT o un’altra tecnologia AI, è stata addestrata su un dataset. La questione è se sia stata addestrata su fornitori di contenuti disposti, come Reddit, oppure se la ricerca di fornitori si sia espansa a contenuti utilizzati senza la conoscenza dei creatori. È sicuramente qualcosa che dovresti considerare la prossima volta che utilizzi un chatbot IA.