調査結果:テック企業がYouTubeのトランスクリプトでAIを訓練していたことが判明

Ai Trained Youtube Video Transcripts Featured

人工知能は魔法ではなく、その名前に「人工」という言葉が示す通りです。コンテンツはどこかから発生しています。調査によって、Appleを含む一部の大手テック企業がYouTubeの動画トランスクリプトを用いてAI技術を訓練していたことが明らかになりました - すべて許可なしで行われていました。

YouTubeトランスクリプトの使用が判明

Proof Newsは、データセット内でYouTubeを探すための検索ツールを含む調査を実施しました。この調査では、4万8000以上のチャンネルからの約175,000本のYouTube動画の字幕がテック企業によって使用されていたことが判明しました。

使用された動画には、『ザ・レイト・ショー・ウィズ・スティーブン・コルベール』や『ジミー・キンメル・ライブ』の深夜テレビエピソードが含まれていました。また、調査にはMrBeast、PewDiePie、Marques Brownleeの動画も登場しました。

Ai Trained Yourube Videos How Do Llm Work

データセットは「The Pile」から取得されました。2020年、このPileはEleutherAIという非営利団体が持つ22のデータセットの混合物として説明されていました。

Googleの広報担当者はCNETへのメールで、会社は以前の発言を支持していると述べ、4月からのコメントに戻るとしました。CEOのニール・モハンは、その時点でOpenAIがYouTube動画を使用していたかどうかわからないと述べました。しかし、もし使用していた場合、それはYouTubeの利用規約に違反することを認識していると述べました。

AIコンテンツは他にどこから来るのか?

最近、ほぼすべてのテック企業がAIシステムを開発中または開発済みであると発表しています。最初に述べたように、これは魔法ではなく、コンテンツはどこかから来ていることがわかります。ただし、AIがYouTubeのトランスクリプトから来るとは予想されていませんでした。

ChatGPTのクリエイターであるOpenAIは、AIを訓練するためのデータセットを見つけるのが難しくなってきていると以前に言及しており、その結果、RedditやNews Corpとのコンテンツ契約を結ぶことになりました。Googleは、YouTubeコンテンツをAI訓練に使用できるようコンテンツクリエイターとの合意があると述べました。最近、AI概要がGoogle検索に追加されました。もしそれが合わない場合、AI概要をオフにする方法を学びましょう。

Ai Trained Yourube Videos Chatgpt

しかし、Anthropicの広報担当者はProof Newsに対し、ClaudeというAIアシスタントを訓練するためにPileを使用したことを認めました。また、その担当者はPile内にいくつかのYouTube字幕が含まれていることも認めました。

Claude、ChatGPT、または他のAI技術を使用しているかどうかにかかわらず、それはデータセットで訓練されています。問題は、それがRedditのような意欲的なコンテンツ提供者のもので訓練されたのか、それとも提供者の知らないところで使用されたコンテンツに広がったのかということです。これは次回AIチャットボットを使用する際に考慮すべき重要な点です。

画像提供: Unsplash