As ilustrações em papel também podem ser geradas automaticamente, usando o modelo de difusão, e aceitas pelo ICLR

Se os gráficos do artigo não precisam ser desenhados, é uma comodidade para os pesquisadores? Algumas pessoas exploraram esse aspecto, usando descrições de texto para gerar gráficos em papel, e os resultados são impressionantes!

Editores: Du Wei, Zi Wen

Fonte da imagem: Gerada por Unbounded AI

A IA generativa tornou-se popular na comunidade de inteligência artificial. Seja um indivíduo ou uma empresa, todos desejam criar aplicativos de transformação modal relacionados, como diagrama Wensheng, vídeo Wensheng, música Wensheng e assim por diante.

Recentemente, vários pesquisadores de instituições de pesquisa como ServiceNow Research e LIVIA tentaram gerar gráficos em artigos baseados em descrições de texto. Para tanto, eles propuseram um novo método de FigGen, e artigos relacionados também foram incluídos como Tiny Paper pelo ICLR 2023.

Endereço de papel:

Algumas pessoas podem perguntar, o que há de tão difícil em gerar os gráficos no papel? Como isso ajuda a pesquisa científica?

A geração de gráficos científicos ajuda a divulgar os resultados da pesquisa de maneira concisa e compreensível, e a geração automática de gráficos pode trazer muitas vantagens para os pesquisadores, como economia de tempo e esforço na criação de gráficos a partir do zero. Além disso, projetar figuras visualmente atraentes e compreensíveis pode tornar o papel mais acessível a mais pessoas.

No entanto, a geração de diagramas também enfrenta alguns desafios, que precisam representar relacionamentos complexos entre componentes discretos, como caixas, setas e texto. Ao contrário da geração de imagens naturais, os conceitos em gráficos de papel podem ter representações diferentes, exigindo compreensão refinada, por exemplo, gerar um gráfico de rede neural envolve problemas mal colocados com alta variância.

Portanto, os pesquisadores deste artigo treinam um modelo generativo em um conjunto de dados de pares de diagramas em papel, capturando a relação entre os componentes do diagrama e o texto correspondente no artigo. Isso requer lidar com comprimentos variados e descrições de texto altamente técnicas, estilos de gráfico variados, proporções de imagem e fontes, tamanhos e orientações de renderização de texto.

No processo de implementação específico, os pesquisadores foram inspirados por conquistas recentes de conversão de texto em imagem, usando o modelo de difusão para gerar gráficos, e propuseram um modelo de difusão potencial para gerar gráficos de pesquisa científica a partir de descrições de texto——FigGen.

O que há de único nesse modelo de difusão? Vamos aos detalhes.

Modelo e método

Os pesquisadores treinaram um modelo de difusão latente do zero.

Um autoencoder de imagem é primeiramente aprendido para mapear imagens em representações latentes comprimidas. Os codificadores de imagem usam perda de KL e perda de percepção de OCR. O codificador de texto usado para ajuste é aprendido de ponta a ponta durante o treinamento desse modelo de difusão. A Tabela 3 abaixo mostra os parâmetros detalhados da arquitetura do autoencoder de imagem.

O modelo de difusão, então, interage diretamente no espaço latente, realizando o escalonamento de dados corrompidos, enquanto aprende a recuperar o processo com uma U-Net de redução de ruído condicional temporal e textual.

Quanto ao conjunto de dados, os pesquisadores usaram o Paper2Fig100k, que consiste em pares de gráficos e textos de artigos e contém 81.194 amostras de treinamento e 21.259 amostras de validação. A Figura 1 abaixo é um exemplo de gráfico gerado usando descrições de texto no conjunto de teste Paper2Fig100k.

Detalhes do modelo

O primeiro é o codificador de imagem. No primeiro estágio, o autoencoder da imagem aprende um mapeamento do espaço do pixel para a representação latente comprimida, tornando o treinamento do modelo de difusão mais rápido. Os codificadores de imagem também precisam aprender a mapear a imagem subjacente de volta ao espaço do pixel sem perder detalhes importantes do gráfico (como a qualidade da renderização do texto).

Para isso, definimos um codec convolucional de gargalo que diminui a resolução das imagens por um fator f=8. O codificador é treinado para minimizar a perda de KL, perda de percepção de VGG e perda de percepção de OCR com distribuição gaussiana.

O segundo é o codificador de texto. Os pesquisadores descobriram que os codificadores de texto de uso geral não são adequados para a tarefa de gerar gráficos. Eles, portanto, definem um transformador Bert treinado do zero durante a difusão com um tamanho de canal de incorporação de 512, que também é o tamanho de incorporação que regula as camadas de atenção cruzada da U-Net. Os pesquisadores também exploraram a variação do número de camadas do transformador em diferentes configurações (8, 32 e 128).

Finalmente, há o modelo de difusão latente. A Tabela 2 abaixo mostra a arquitetura de rede do U-Net. Realizamos o processo de difusão em uma representação latente perceptualmente equivalente de uma imagem cujo tamanho de entrada é compactado para 64x64x4, tornando o modelo de difusão mais rápido. Eles definiram 1.000 etapas de difusão e um cronograma de ruído linear.

Detalhes do treinamento

Para treinar o autoencoder de imagem, os pesquisadores usaram um otimizador Adam com um tamanho de lote efetivo de 4 amostras e uma taxa de aprendizado de 4,5e−6, usando quatro placas gráficas NVIDIA V100 de 12 GB. Para alcançar a estabilidade do treinamento, eles aquecem o modelo em 50k iterações sem usar o discriminador.

Para treinar o modelo de difusão latente, também usamos o otimizador Adam com um tamanho de lote efetivo de 32 e uma taxa de aprendizado de 1e−4. Ao treinar o modelo no conjunto de dados Paper2Fig100k, eles usaram oito placas gráficas Nvidia A100 de 80 GB.

Resultados experimentais

No processo de geração, os pesquisadores adotaram um amostrador DDIM com 200 etapas e geraram 12.000 amostras para cada modelo para calcular FID, IS, KID e OCR-SIM1. Steady usa orientação livre de classificador (CFG) para testar o excesso de regulamentação.

A Tabela 1 abaixo mostra os resultados de diferentes codificadores de texto. Pode-se ver que o codificador de texto grande produz os melhores resultados qualitativos e a geração condicional pode ser melhorada aumentando o tamanho do CFG. Embora as amostras qualitativas não sejam de qualidade suficiente para resolver o problema, o FigGen compreendeu a relação entre texto e imagens.

A Figura 2 abaixo mostra amostras FigGen adicionais geradas ao ajustar os parâmetros de orientação livre de classificador (CFG). Os pesquisadores observaram que aumentar o tamanho do CFG (que também foi quantificado) resultou em uma melhoria na qualidade da imagem.

A Figura 3 abaixo mostra mais alguns exemplos de geração de FigGen. Esteja ciente da variação de comprimento entre as amostras, bem como do nível técnico da descrição do texto, que afeta de perto a dificuldade do modelo em gerar corretamente imagens inteligíveis.

No entanto, os pesquisadores também admitem que, embora esses gráficos gerados não possam fornecer ajuda prática aos autores do artigo, eles ainda são uma direção promissora de exploração.

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)