Basta uma fotografia e um clip de voz: depois, ao juntar estes dois elementos, o VASA-1 consegue gerar um vídeo em tempo real da cara de uma pessoa, com várias expressões. Desta forma, ao analisar o clip de som carregado, o modelo da Microsoft consegue transformar o texto que quisermos em áudio e colocá-lo na boca de um avatar.
A Microsoft descreve este modelo como uma «estrutura para gerar rostos realistas de personagens virtuais com capacidades visuais e afectivas». Há dois anos, surgiu um recurso semelhante, embora bastante mais limitado e embrionário: o LiveStory do site de genealogia My Heritage, já depois de ter sido lançado o Deep Nostalgia, na mesma plataforma.
Basicamente, aqui, fazíamos o upload de uma foto de um familiar, escrevíamos um texto sobre a sua história de vida e o site, com recurso a IA, gerava um vídeo com áudio de uma voz sintetizada e dava vida ao rosto dessa pessoa, como se estivesse a falar, na realidade.
O VASA-1, apesar de fazer lembrar o Deep Nostalgia e o LiveStory do My Heritage, é mais avançado e, segundo a Microsoft, «abre caminho a interacções em tempo real com avatares realistas que emulam comportamentos humanos de conversação». Para isso, este modelo «não só capaz de produzir movimentos labiais perfeitamente sincronizados com o áudio, mas também de captar um amplo espetro de nuances faciais e movimentos naturais da cabeça que contribuem para a perceção de autenticidade e vivacidade», diz a empresa.
A Microsoft já partilhou vários exemplos no seu site, incluindo um que mostra a Mona Lisa a cantar um rap. Relativamente aos outros vídeos, temos avatares a fazer discursos triviais sobre experiências de vida. Os vídeos têm 512 x 512 e chegam aos 45 fps em modo offline; para streaming, há um limite de 40 fps.
Sobre os riscos que esta tecnologia implica, com a possibilidade de gerar deepfakes em tempo real e cada vez mais realistas, a Microsoft sublinha que o VASA-1 «não se destina a criar conteúdos que sejam utilizados para induzir em erro ou enganar». Contudo, a empresa assume que este modelo pode ser «utilizada de forma incorrecta».
Todos os detalhes sobre as capacidades e forma de funcionamento do VASA-1 podem ser vistos aqui.