Em 2025, tudo parece quase irreal: uma escalada das tensões internacionais; novas posições de força em conflitos armados que perduram; e a implementação de novas tarifas aduaneiras, que inevitavelmente se vão reflectir no abrandamento global de todas as economias. Este agravamento das hostilidades reflecte-se em todas as áreas da economia e as tecnologias emergentes, como a inteligência artificial e, mais especificamente, os modelos de linguagem de grande escala, não são excepção.
Numa área em que a concorrência está ao rubro, o lançamento comercial do Deepseek passou, inicialmente, quase despercebido, mas cedo ganhou relevância. Teoricamente, a relação directa entre a necessidade de processamento e as restrições às importações de processadores de alto desempenho não permitiria a uma empresa privada chinesa concorrer neste mercado. No entanto, todos ficaram surpreendidos com o desempenho e os baixos custos de operação deste novo modelo de aprendizagem. Apesar de a infraestrutura usada não ser do conhecimento público, surgiram rumores de que, pelo menos uma parte dos processadores utilizados, seriam já de nova geração, escapando, assim, à restrição da sua importação.
Entretanto, novos modelos ainda mais leves e menos exigentes foram anunciados por outras empresas privadas chinesas, atiçando ainda mais esta corrida ao conhecimento. Se é sempre possível melhorar a forma e a eficiência com que uma máquina “aprende”, isto não é possível sem material de aprendizagem. Por isso, a fonte de informação passou a ser tão, ou mais, relevante que o método de aprender, sendo o conhecimento estruturado visto como um recurso extremamente valioso.
Como seria de esperar, as fontes públicas de acesso livre são os conteúdos primordiais para alimentar estes modelos, mas não são suficientes para satisfazer a sua fome de conhecimento. Como tal, a Meta foi recentemente acusada de usar torrents para obter uma grande base de dados de livros piratas para treinar os seus modelos de IA. Em consequência, a OpenAI e a Google fizeram, nos Estados Unidos, um pedido insólito: usar qualquer tipo de conteúdos passíveis de direitos de autor para a aprendizagem de modelos de inteligência artificial.
Não deixa de ser caricato que se procurem formas obscuras de obter informação de qualidade para ensinar máquinas, enquanto cada vez mais humanos investem o seu tempo em tipos de entretenimento com baixo nível de conhecimento. Entramos, assim, numa nova era dos Descobrimentos, onde os mares do conhecimento estão abertos aos corsários digitais e fechados (intelectual e legalmente) a todos os piratas humanos que tentem circunvagar os direitos de autor.