A chegada dos modelos de Inteligência Artificial generativa começou a permitir a criação de coisas que nunca existiram. Quer seja uma imagem que viu em sonhos ou ideias para um jantar com amigos que se esqueceu de planear, tudo o que é preciso fazer é a pergunta certa ao modelo de IA certo. O mais recente modelo de IA generativa da Nvidia, chamado Fugatto, foi criado para gerar som. Os utilizadores só têm de escrever o que quiserem ou carregar um som que tenham no seu dispositivo e o modelo consegue criar o que quiser.
O Fugatto é um modelo de IA generativo de larga escala, baseado na mesma tecnologia que faz funcionar outros, como o ChatGPT. No entanto, em vez de ser treinado apenas com texto, o Fugatto foi treinado com áudio. O modelo final tem 2,5 mil milhões de parâmetros e foi treinado num sistema DGX da Nvidia com 32 aceleradores de IA H100 Hopper.
De acordo com a Nvidia, um dos aspectos mais difíceis na criação do Fugatto foi a construção dos conjuntos de dados adequados para o treino. Naturalmente, esses dados incluem samples de áudio (cerca de 50 milhões de horas), mas a equipa trabalhou bastante para manter o modelo o mais compacto possível. A equipa trabalhou para gerar dados e instruções para expandir as capacidades do modelo sem a necessidade de adicionar mais dados. O projecto demorou mais de um ano e os resultados falam por si.
Ao perceber como é que os dados de treino interagem, a equipa de desenvolvimento foi capaz de fazer com que o Fugatto obtivesse resultados para além daquilo que consideramos realidade. O modelo da Nvidia é capaz de criar sons completamente “impossíveis” como saxofones que ladram. A utilização optimizada dos dados de treino permitem também combinar várias propriedades de áudio, mesmo que não tenham sido combinadas durante o processo de treino. Por exemplo, o Fugatto pode adicionar emoção e sotaques às vozes que são geradas pelo modelo.
Algumas das capacidades do Fugatto podem ser úteis para quem é músico ou produtor. Estes utilizadores podem carregar ficheiros de áudio e pedir-lhe para fazer modificações como isolar a voz ou adicionar uma nova faixa instrumental em tempo real. O modelo também é capaz de criar som a partir de prompts de texto.
O Fugatto ainda não está disponível para ser usado pelo público em geral, mas a Nvidia criou uma página no Github que mostra aquilo que é capaz de fazer.