O sucessor do ChatGPT e do DALL-E é uma ferramenta que consegue gerar vídeos de sessenta segundos a partir de simples prompts de texto, tal como já existem algumas IA que o conseguem fazer com imagens.
Gerar vídeos a partir de texto não é propriamente uma novidade – há um ano que se fazem experiências nesta área e há outras empresas concorrentes da OpenAI que já o tinham anunciado, como a Meta ou a Google.
Contudo, a Sora parece estar num nível superior: com base nos exemplos partilhados pela OpenAI, vamos poder criar vídeos com um toque de realidade que, até agora, parecia ser impossível. Entre as reacções que se podem ler nas redes sociais, há uma que parece consensual: «A partir deste dia, o cinema muda para sempre».
Mas, afinal, o que está em causa com o lançamento desta nova IA? O Sora é um modelo de difusão gera vídeos a partir de instruções de texto. Inspirado nos modelos GPT e DALL-E, destaca-se pela «capacidade de criar vídeos complexos, com detalhes precisos».
Segundo a OpenAI, o Sora usa uma «arquitectura transformadora, semelhante à dos modelos GPT», embora aprimorada, permite um «desempenho superior». Este modelo não se limita apenas à geração de vídeos a partir de texto, mas também consegue animar imagens estáticas.
Além disso, o Sora também pode expandir vídeos existentes, preenchendo os fotogramas em falta, tal como acontece com as ferramentas ‘generative fill’ actuam nas imagens – o Photoshop tem uma, por exemplo.
A OpenAI sublinha que o Sora é um «passo significativo» para chegar ao conceito de AGI (Inteligência Artificial Geral): «Serve de base para modelos capazes de compreender e simular o mundo real, uma capacidade que acreditamos ser um marco importante para a concretização desta realidade».
Ainda assim, esta plataforma não está isenta de limitações. A OpenAI reconhece que o Sora pode ter «dificuldades em simular com precisão a física de cenas complexas e pode confundir instruções nos prompts». Além disso, o modelo «pode não compreender instâncias específicas de causa e efeito, como evidenciado pela descrição de uma pessoa a morder uma bolacha sem deixar uma marca visível».
Neste momento, a OpenAI está a disponibilizar o Sora a equipas de desenvolvimento, artistas, criativos e outros profissionais do meio audiovisual para ter feedback; o objectivo é fazer a «avaliação dos riscos» que esta ferramenta pode ter no desempenho das suas profissões».
A empresa reforça ainda a «importância de aprender com a utilização no mundo real» e garante que esta é uma fórmula «essencial para desenvolver sistemas de IA mais seguros, ao longo do tempo». Todos os exemplos de vídeos criados pela OpenAI no Sora, assim como uma explicação detalhada sobre este modelo, estão aqui.