Nucleus-Image de código aberto, inferência de 17B parâmetros ativa apenas 2B, sem benchmark pós-treinamento supera Imagen4

robot
Geração de resumo em curso

ME News Notícias, 16 de abril (UTC+8), de acordo com o monitoramento do Beating, a equipe Nucleus AI lançou o modelo de geração de imagens a partir de texto Nucleus-Image, disponibilizando também os pesos do modelo, o código de treino e o conjunto de dados de treino, sob licença Apache 2.0, permitindo uso comercial. O modelo utiliza uma arquitetura de transformador de difusão com especialistas esparsos (MoE), com um total de 17 bilhões de parâmetros, distribuídos em 64 especialistas por camada, ativando aproximadamente 2 bilhões de parâmetros por inferência, o que reduz significativamente o custo de inferência em comparação com modelos densos de tamanho semelhante. Em três benchmarks padrão, o Nucleus-Image iguala ou supera modelos de ponta fechados: pontuação de 0,87 no GenEval, equivalente ao modelo de imagem Qianwen, com a subcategoria de localização espacial (0,85) liderando todos os modelos comparados; pontuação de 88,79 no DPG-Bench, posição de liderança geral; pontuação de 0,522 no OneIG-Bench, superando o Google Imagen4 (0,515) e Recraft V3 (0,502). Todos esses resultados foram obtidos apenas com pré-treinamento, sem uso de DPO, aprendizagem por reforço ou ajuste com preferências humanas. A Nucleus AI afirma que este é “o primeiro modelo de difusão MoE totalmente de código aberto neste nível de qualidade”. Os dados de treino foram coletados em larga escala na internet, filtrados, deduplicados e avaliados esteticamente várias vezes, resultando em 700 milhões de imagens e 1,5 bilhão de pares de texto e imagem; o treino foi realizado em três fases, de resolução de 256 a 1024, ao longo de 1,7 milhão de passos. O codificador de texto usa o Qwen3-VL-8B-Instruct, acessado via biblioteca diffusers, com cache de texto KV integrado para etapas de remoção de ruído, reduzindo ainda mais o custo de inferência. Para desenvolvedores que precisam implantar geração de imagens localmente, o fato de o modelo ter 17 bilhões de parâmetros, mas ativar apenas 2 bilhões, significa que GPUs de consumo podem suportar sua execução. A abertura completa (pesos + código de treino + conjunto de dados) é relativamente rara — a maioria dos modelos de geração de imagens de código aberto disponibiliza apenas os pesos, enquanto os detalhes do conjunto de dados e do treinamento permanecem fechados, sendo uma das principais barreiras para a reprodutibilidade na pesquisa de geração de imagens a partir de texto. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar