Redditは、Microsoftが自社のサイトを検索し、そのデータを使用してAIを訓練することをブロックしました

Microsoft Reddit RedditのCEO、スティーブ・ハフマンは、技術界のひねりの中でMicrosoftの秘密の習慣を強調しました。この執行役員は、MicrosoftがRedditの膨大なデータ収集を利用して、Redditの知らないうちにAIサービスを訓練する方法について興味深い発言をしました。

The Vergeとのインタビューで、ハフマンは、Microsoft、Anthropic、PerplexityがAI企業の中で、コンテンツを自由に利用してAIの訓練を行ったように振る舞ったことを指摘しました。これは、Redditが検索エンジンに対してデータアクセスを求める場合には支払いを要求するという強化された立場を取った後に起こりました—これまでに支払ったのはGoogleだけです。

ハフマンは、これらの大手テクノロジー企業がRedditのデータにアクセスするのを防ぐことがいかに難しいかを説明するために明確な例えを使用しました。彼は、彼らを追い払うことは、リスを鳥の餌台から遠ざけようとするようなものだと言いました。Microsoftはウェブマスターのクローリング制御のオプションを提供しましたが、Redditは別の検索エンジンを利用することに決めましたが、それはハフマンが言及しなかったものです。

それにもかかわらず、RedditはBingが自社のサイトを検索するためにクロールすることをブロックし、別の検索エンジンを優遇し、BingおよびBingを利用したエンジンへの競争に影響を与えています。 — Jordi Ribas (@JordiRib1) 2024年7月29日

この状況は、単にRedditとMicrosoftの問題ではありません。むしろ、技術企業がAIの目標のために公的データをどのように利用しているかに関する広範な議論の小さな一面を提供しています。Microsoft AIのCEO、ムスタファ・スレイマンが「インターネットデータは「フリーウェア」である」と発言したことは、データが人工知能の訓練に使用されるという長年の理解を示唆し、さらなる議論を引き起こします。

ハフマンの立場は、コンテンツ製作者が検索エンジンやAI企業との関係をどのように認識するかを変えることを示唆しています。データとトラフィックを交換する旧来の取り決めは変わりつつあるようです。AIのデータ欲が高まるにつれて、相互作用の条件が再定義されています。Redditの決定は初の事例を作り出し、追加のコンテンツプロバイダーに動機を与え、クローラーの合意を防ぐ可能性があります。

Reddit対Microsoftのこの進行中のストーリーは、単なる二社間の劇的な対立以上に重要です。それは、データプライバシー、人工知能の開発、そしてインターネットが機能するための基本的な原則との複雑なつながりを示しており、我々の時代の重要な問題を代表しています。