Se a Microsoft quiser recolher dados do Reddit para treinar a sua IA «vai ter de pagar»

Steve Huffman, CEO do Reddit, avsiou a Microsoft de que, se quiser usar dados deste fórum para treinar os seus modelos de inteligência artificial, vai ter de pagar. Isto é o que acontece, neste momento, com a Google e a OpenAI.

- Publicidade -

As duas empresas chegaram a acordo com o Reddit para que os seus web crawlers pesquisem e recolham informação dos diferentes fóruns, para usarem nas bases de conhecimento do Gemini e do ChatGPT.

«Sem estes acordos, não temos qualquer palavra a dizer ou conhecimento sobre a forma como os nossos dados são apresentados e para que são utilizados, o que nos coloca agora numa posição de bloquear empresas que não estão dispostas a pagar», disse Steve Huffman em entrevista ao The Verge.

O CEO diz que as parcerias com as empresas permitem assegurar o Reddit decide de que forma é que os dados dos seus fóruns são ou não usados para treinar IA. Além da Microsoft, Anthropic e Perplexity também estão na mira de Steve Huffman: «Recusam-se a negociar e é uma verdadeira dor de cabeça bloqueá-las».

Em Julho, o Reddit tinha anunciado que o seu ficheiro robots.txt foi actualizado para «bloquear os web crawlers das empresas com as quais não tem acordos». Contudo, isto não tem impedido, aparentemente, a Microsoft de usar esta informação.

«A Microsoft tem usado os dados do Reddit para treinar a sua IA e resumir o seu conteúdo nos resultados do Bing sem nos dizer. Além disso, os dados também foram vendidos através da API do Bing a outros motores de busca», acusa o CEO.

Para Steve Huffman, a Microsoft, a Anthropic e a Perplexity «agiram como se todo o conteúdo da Internet fosse gratuito para usarem como querem». Como “contra-ataque”, o Reddit passou a impedir que os resultados do seu site aparecessem Bing (o motor de busca da Microsoft). Desta forma, e para já, apenas o Google e o futuro SearchGPT vão mostrar informação deste fórum nas pesquisas dos utilizadores.

- Publicidade -