Reddit bloqueó a Microsoft de buscar en su sitio y utilizar los datos para entrenar sus IA

Microsoft Reddit
El CEO de Reddit, Steve Huffman, destacó el hábito secreto de Microsoft en un giro del mundo tecnológico. El ejecutivo hizo una declaración interesante sobre cómo Microsoft utilizó la extensa recopilación de datos de Reddit para enseñar sus servicios de IA sin el conocimiento de Reddit.

En una entrevista con The Verge, Huffman mencionó que Microsoft, Anthropic y Perplexity están entre las empresas de IA que actuaron como si Internet fuera su ostra al usar libremente contenido para entrenar su IA. Esto se produjo después de que Reddit decidiera adoptar una postura firme exigiendo a los motores de búsqueda que paguen si quieren acceder a sus datos; hasta ahora, solo Google ha pagado.

Huffman utilizó una analogía clara para explicar lo difícil que es evitar que estas grandes empresas tecnológicas accedan a los datos de Reddit. Dijo que bloquearlos es como intentar mantener a las ardillas alejadas de un comedero para aves. A pesar de que Microsoft ofreció opciones para controles de rastreo de webmasters, Reddit decidió utilizar otro motor de búsqueda, que Huffman no mencionó.

A pesar de esto, Reddit ha bloqueado a Bing de rastrear su sitio para búsqueda, favoreciendo a otro motor de búsqueda e impactando la competencia de Bing y los motores impulsados por Bing. — Jordi Ribas (@JordiRib1) 29 de julio de 2024

Esta situación no se trata únicamente de Reddit y Microsoft. En cambio, ofrece una pequeña mirada a la discusión más amplia sobre cómo las empresas tecnológicas utilizan datos públicos para sus objetivos de IA. El comentario del CEO de Microsoft AI, Mustafa Suleyman, de que los datos de Internet han sido “software libre” aviva más discusión, implicando una comprensión de larga data de que los datos pueden ser utilizados para entrenar inteligencia artificial.

La posición de Huffman sugiere un cambio en cómo los creadores de contenido perciben su conexión con los motores de búsqueda y las empresas de IA. El antiguo arreglo de intercambiar datos por tráfico parece estar cambiando. A medida que la hambre de datos de la IA aumenta, las condiciones para la interacción se están redefiniendo. La decisión de Reddit podría crear un primer precedente, motivando a proveedores de contenido adicionales y evitando que los rastreadores acepten.

Esta historia en curso de Reddit versus Microsoft es más significativa que solo un desacuerdo dramático entre dos empresas. Representa un asunto crucial de nuestro tiempo, mostrando la intrincada conexión entre la privacidad de los datos, el desarrollo de la inteligencia artificial y los principios fundamentales sobre los cuales funciona Internet.