Conteúdos em blogues no WordPress e Tumblr vão ser usados para o treino de IA

Os modelos usados na inteligência artificial generativa usam grandes quantidades de dados para melhorarem as respostas que dão aos utilizadores e as empresas responsáveis por eles estão sempre à procura de mais conteúdos para os desenvolver. Agora, foi noticiado que a Automattic, a empresa que detém o serviço WordPress.com, vai começar a cobrar para alimentar os modelos de larga escala com mais dados. A empresa compromete-se a respeitar a privacidade dos utilizadores, mas podem já ter sido fornecidos dados privados aos seus parceiros.

- Publicidade -

A Automattic está a negociar um acordo com a Midjourney e com a OpenAI para o fornecimento de dados para o treino de IA e já tem um conjunto preparado para enviar. Uma fonte dentro da empresa revelou ao site 404 Media que o fecho do acordo está iminente e que a documentação interna da empresa prova que o processo de partilha dos dados publicados nas plataformas da Automattic é “confuso”.

A Automattic foi fundada em 2005 por Matt Mullenweg e detém as plataformas Tumblr e WordPress.com, o serviço comercial de alojamento de blogues que usa o software de gestão de conteúdos de código aberto WordPress. A fonte do 404 Media diz que a empresa vai dar aos utilizadores a capacidade de negarem a utilização dos seus dados, incluindo artigos e imagens. No entanto, documentos internos indicam que o Tumblr já enviou um conjunto inicial de dados à Midjourney e à OpenAI que inclui todos artigos publicados entre 2014 e 2013. Para além do envio destes dados, ocorreu um “erro” que fez com que a Automattic partilhasse dados privados dos utilizadores do Tumblr com estas duas empresas de IA.

Depois de o 404 Media ter publicado o artigo sobre esta parceria, a Automattic lançou uma nota de imprensa que fala da “protecção das escolhas dos utilizadores” numa altura em que a tecnologia de inteligência artificial se está a desenvolver muito rapidamente. A empresa disse ainda que está a encontrar maneiras de respeitar a privacidade dos utilizadores e ao mesmo tempo trabalhar com as empresas que estão a desenvolver sistemas de inteligência artificial.

Neste momento, a Automattic bloqueia os crawlers (programas que lêem o conteúdo dos sites) ao serviço das empresas de IA. O WordPress.com e o Tumblr já têm definições para ‘desencorajar’ a recolha de dados por parte das empresas de inteligência artificial, que estão ligadas por defeito em todas as contas que desligaram a indexação feita pelos motores de busca.

A Automattic admite que não existem regras que obriguem os crawlers das empresas de IA a absterem-se de recolher dados.