Acabei de ver que a Intel disponibilizou no Hugging Face as versões quantizadas em INT4 dos modelos de vídeo Wan 2.2 da Alibaba. Isso é bastante interessante do ponto de vista de otimização de modelos.



Basicamente, a Intel conseguiu reduzir o tamanho dos pesos de cada modelo de forma significativa. Cada peso que ocupava 2 bytes em BF16 agora ocupa apenas 0,5 bytes depois da quantização INT4. Isso significa que o tamanho total cai para aproximadamente um quarto do original. A ferramenta usada foi a AutoRound.

Os três modelos liberados são o T2V-A14B (texto para vídeo), I2V-A14B (imagem para vídeo) e TI2V-5B (entrada híbrida de texto e imagem). Os modelos A14B originais rodam em arquitetura MoE com 27 bilhões de parâmetros totais, sendo 14 bilhões ativados por etapa. Sem a quantização INT4, exigem pelo menos 80GB de VRAM por GPU só para trabalhar com resolução 720p.

O mais prático é o TI2V-5B, um modelo denso que consegue rodar 720p a 24fps em uma GPU 4090 mesmo na forma original. Imagina com a otimização INT4 aplicada.

O detalhe importante é que a Intel ainda não divulgou benchmarks completos sobre consumo de VRAM ou qualidade visual após a quantização INT4. Vai depender de verificação por terceiros mesmo. Pra quem quiser testar, a Intel aponta o branch vllm-omni como a opção de implantação, já que esses modelos não rodam no pipeline principal do vLLM.

É o tipo de otimização que torna esses modelos de vídeo muito mais acessíveis pra quem não tem hardware de ponta.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar