A empresa-mãe do Facebook, a Meta, está actualmente a lutar contra uma acção judicial colectiva que alega violação de direitos de autor e concorrência desleal, entre outros, relativamente à forma como treinou o LLaMA. De acordo com uma publicação no X de vx-underground, registos judiciais revelam que a empresa de redes sociais usou torrents pirateados para descarregar 81,7 TB de dados de bibliotecas clandestinas, incluindo o Anna’s Archive, Z-Library e LibGen. Em seguida, usou a informação para treinar os seus modelos de IA.
As provas, sob a forma de comunicação escrita, mostram as preocupações dos investigadores sobre o uso de materiais pirateados pela Meta. Em Outubro de 2022, um investigador sénior de IA disse: “Não acho que devamos usar material pirateado. Preciso mesmo de traçar uma linha aqui.” Enquanto outro disse: “Usar material pirateado deve estar além do nosso limiar ético”, acrescentando depois: “SciHub, ResearchGate, LibGen são basicamente como o PirateBay ou algo do género, estão a distribuir conteúdo protegido por direitos de autor e estão a infringi-los.”
Depois, em Janeiro de 2023, o próprio Mark Zuckerberg participou numa reunião onde disse: “Precisamos de fazer esta coisa avançar… precisamos de encontrar uma maneira de desbloquear tudo isto.” Cerca de três meses depois, um funcionário da Meta enviou uma mensagem a outro dizendo que estava preocupado com o facto de os endereços IP da Meta estarem a ser usados “para fazer download de conteúdo pirateado”. Acrescentou ainda: “Usar torrents a partir de um portátil da empresa não parece bem”, seguido de emojis de riso.
Unsealed court documents from February 5th, 2024, in Kadrey v. Meta show Meta (formerly Facebook) illegally torrented 81.7TB of data from “shadow libraries” such as Anna’s Archive, Z-Library, and LibGen to train Meta artificial intelligence.
Highlights include:
– A senior AI… pic.twitter.com/Bqf60Hhbb6
— vx-underground (@vxunderground) February 8, 2025
Além destas mensagens, os documentos também revelaram que a empresa tomou medidas para que a sua infra-estrutura não fosse usada nessas operações de download e de seeding, para que estas actividades não fossem rastreadas até à Meta. Os documentos judiciais afirmam que isto constitui prova das actividades ilegais da Meta, que, neste caso, parece estar a tomar medidas deliberadas para contornar as leis de direitos de autor.
No entanto, esta não é a primeira vez que as empresas que investem na criação e treino de modelos de IA são acusadas de roubar informação da Internet para as suas actividades. Em Junho de 2023, a OpenAI foi processada por vários autores por usar as suas obras para treinar os seus modelos de linguagem de larga escala. Em Dezembro do mesmo ano foi a vez do The New York Times processar a empresa.
A Nvidia também foi alvo de um processo movido por vários autores que acusaram a empresa de usar sem permissão 196.640 livros para treinar o seu modelo NeMo, que, entretanto, foi desactivado. Um ex-funcionário da Nvidia denunciou a empresa em Agosto do ano passado, dizendo que esta recolhia mais de 426 mil horas de vídeos diariamente para usar no treino de IA. Mais recentemente, a OpenAI está a investigar se a DeepSeek obteve ilegalmente dados do ChatGPT, o que mostra tudo isto não está livre de ser irónico.
O caso contra a Meta ainda está a decorrer, pelo que teremos de esperar que o tribunal divulgue a sua decisão para dizer se a empresa cometeu uma infracção. E mesmo que os autores ganhem este caso, a Meta, com a sua enorme capacidade financeira, provavelmente recorrerá da decisão, o que significa que teremos de esperar vários meses, senão anos, para ficar a saber o desfecho deste caso.