Une enquête montre que les entreprises technologiques ont formé l'IA sur des transcriptions de vidéos YouTube

L’intelligence artificielle n’est pas magique - c’est dans le nom : « artificiel ». Nous savons que le contenu vient de quelque part. Une enquête a montré que certains des grands noms de la technologie, y compris Apple, ont formé leur technologie IA sur des transcriptions de vidéos YouTube - tout cela sans permission.
L’enquête montre que les transcriptions YouTube ont été utilisées
Proof News a mené une enquête qui incluait un outil de recherche pour repérer YouTube dans le jeu de données. L’enquête a déterminé que les sous-titres de près de 175 000 vidéos YouTube provenant de plus de 48 000 chaînes ont été utilisés par les entreprises technologiques.
Les vidéos utilisées incluaient des épisodes de télévision de fin de nuit de The Late Show with Stephen Colbert et Jimmy Kimmel Live. Étaient également présents dans l’enquête des vidéos de MrBeast, PewDiePie et Marques Brownlee.

Le jeu de données provenait de « The Pile ». En 2020, The Pile a été décrit comme un mélange de 22 ensembles de données d’EleutherAI, une organisation à but non lucratif.
Un porte-parole de Google a déclaré dans un e-mail à CNET que l’entreprise maintenait ce qu’elle avait dit précédemment, en revenant à un commentaire d’avril. Le PDG Neal Mohan a déclaré à l’époque qu’il ne savait pas si OpenAI avait utilisé des vidéos YouTube. Mais si c’était le cas, il a reconnu que ce serait une violation des conditions de service de YouTube.
D’où provient également le contenu de l’IA ?
Presque toutes les entreprises technologiques ont annoncé récemment qu’elles développaient ou avaient développé un système d’IA. Comme indiqué au départ, nous savons que ce n’est pas magique et que le contenu provient de quelque part. Il n’était simplement pas prévu que l’IA provienne des transcriptions de YouTube.
OpenAI, les créateurs de ChatGPT, ont précédemment mentionné qu’il devenait de plus en plus difficile de trouver des ensembles de données pour entraîner l’IA, ce qui les a amenés à conclure des accords avec Reddit et News Corp. pour leur contenu. Google a déclaré avoir un accord avec les créateurs de contenu qui lui permet d’utiliser le contenu YouTube dans son entraînement IA. L’aperçu de l’IA a été récemment ajouté à la recherche Google. Découvrez comment désactiver l’aperçu de l’IA s’il ne vous convient pas.

Pourtant, un porte-parole d’Anthropic a reconnu à Proof News qu’il avait utilisé The Pile pour entraîner Claude, son assistant IA. Le porte-parole a également reconnu qu’il y a quelques sous-titres YouTube dans The Pile.
Que vous utilisiez Claude, ChatGPT ou une autre technologie IA, elle a été formée sur un ensemble de données. La question est de savoir si elle a été formée sur des fournisseurs de contenu volontaires, comme Reddit, ou si la recherche de fournisseurs s’est étendue à du contenu utilisé sans la connaissance des créateurs. C’est certainement quelque chose que vous devriez envisager la prochaine fois que vous utilisez un chatbot IA.
Crédit photo : Unsplash