O FramePack foi lançado no GitHub na semana passada e é o fruto de uma colaboração de Lvmin Zhang com Maneesh Agrawala da Universidade de Stanford. O FramePack oferece uma implementação prática de difusão de vídeo usando contexto temporal de comprimento fixo para um processamento mais eficiente, permitindo vídeos mais longos e de maior qualidade. Um modelo de Inteligência Artificial com 13 mil milhões de parâmetros, construído usando a arquitectura FramePack, pode gerar um clipe com 60 segundos em sistemas que tenham apenas 6 GB de memória de vídeo.
O FramePack é uma arquitectura de rede neural que usa técnicas de optimização multi-estágio para permitir a geração local de vídeo por IA. Actualmente, diz-se o FramePack usa um modelo de IA personalizado, baseado no modelo Hunyuan, embora o artigo publicado sobre o software mencione que modelos pré-treinados existentes podem ser ajustados através do FramePack.
Os modelos de difusão típicos processam dados de frames com ruído, gerados anteriormente, para prever o conteúdo do próximo frame, com ligeiramente menos ruido. O número de frames de entrada considerados para cada previsão é chamado comprimento do contexto temporal, cresce com o tamanho do vídeo. Os modelos de difusão de vídeo padrão exigem uma grande quantidade de VRAM, sendo os 12 GB um ponto de partida comum. È possível fazer o mesmo com menos memória, mas isso é conseguido à custa da extensão dos de clipes, menor qualidade e de tempos de processamento mais longos.
É aqui que entra o FramePack: uma nova arquitectura que comprime os frames de entrada, com base na sua importância, num comprimento de contexto de tamanho fixo, reduzindo drasticamente a sobrecarga na memória da GPU. Todos os frames devem ser comprimidos para convergir num limite superior desejado para o comprimento do contexto. Os autores descrevem os custos computacionais como semelhantes aos da difusão de imagens.
Juntamente com técnicas para mitigar o “desvio” (“drifting”), onde a qualidade se degrada com o comprimento do vídeo, o FramePack oferece geração de vídeo mais longa sem comprometer significativamente a fidelidade. Actualmente, o FramePack requer um GPU da série RTX 30/40/50 com suporte para os formatos de dados FP16 e BF16. O suporte em arquitecturas Turing e mais antigas não foi verificado, e também não há qualquer menção à possibilidade de se poder usar hardware AMD ou Intel.
Com excepção da RTX 3050 com 4 GB, a maioria das placas gráficas modernas (RTX) cumpre ou excede o requisito dos 6 GB. Em termos de velocidade, uma RTX 4090 pode gerar até 0,6 frames por segundo, portanto, o desempenho varia bastante dependendo da placa gráfica que estiver a ser usada. De qualquer forma, cada frame é mostrado assim que for gerado, dando um feedback visual imediato.
O modelo empregado provavelmente tem um limite de 30 FPS, o que pode não ser adequado para muitos utilizadores. Dito isto, em vez de depender de serviços de terceiros (que normalmente são caros), o FramePack está a abrir caminho para tornar a geração de vídeo por IA mais acessível ao consumidor médio. Mesmo que não seja um criador de conteúdo, esta é uma ferramenta divertida para fazer GIF, memes e outras coisas.