Las ilustraciones en papel también pueden generarse automáticamente, utilizando el modelo de difusión, y ser aceptadas por ICLR

2023-06-26 05:21:51

Si no es necesario dibujar los gráficos en el papel, ¿es conveniente para los investigadores? Algunas personas han explorado este aspecto, utilizando descripciones de texto para generar gráficos en papel, ¡y los resultados son bastante impresionantes!

Editores: Du Wei, Zi Wen

Fuente de la imagen: Generada por Unbounded AI

La IA generativa se ha vuelto popular en la comunidad de inteligencia artificial. Ya sea un individuo o una empresa, todos están interesados en crear aplicaciones de transformación modal relacionadas, como el diagrama de Wensheng, el video de Wensheng, la música de Wensheng, etc.

Recientemente, varios investigadores de instituciones de investigación como ServiceNow Research y LIVIA intentaron generar gráficos en artículos basados en descripciones de texto. Con este fin, propusieron un nuevo método de FigGen, y ICLR 2023 también incluyó artículos relacionados como Tiny Paper.

Dirección en papel:

Algunas personas pueden preguntar, ¿qué es tan difícil de generar los gráficos en el papel? ¿Cómo ayuda esto a la investigación científica?

La generación de gráficos científicos ayuda a difundir los resultados de la investigación de manera concisa y comprensible, y la generación automática de gráficos puede brindar muchas ventajas a los investigadores, como ahorrar tiempo y esfuerzo en el diseño de gráficos desde cero. Además, el diseño de figuras visualmente atractivas y comprensibles puede hacer que el papel sea más accesible para más personas.

Sin embargo, la generación de diagramas también enfrenta algunos desafíos, que deben representar relaciones complejas entre componentes discretos como cuadros, flechas y texto. A diferencia de la generación de imágenes naturales, los conceptos en gráficos de papel pueden tener diferentes representaciones, lo que requiere una comprensión detallada, por ejemplo, generar un gráfico de red neuronal implica problemas mal planteados con una gran variación.

Por lo tanto, los investigadores de este artículo entrenan un modelo generativo en un conjunto de datos de pares de diagramas de papel, capturando la relación entre los componentes del diagrama y el texto correspondiente en el artículo. Esto requiere lidiar con longitudes variables y descripciones de texto altamente técnicas, estilos de gráficos variables, relaciones de aspecto de imagen y fuentes, tamaños y orientaciones de representación de texto.

En el proceso de implementación específico, los investigadores se inspiraron en los logros recientes de texto a imagen, utilizando el modelo de difusión para generar gráficos, y propusieron un modelo de difusión potencial para generar gráficos de investigación científica a partir de descripciones de texto: FigGen.

¿Qué tiene de especial este modelo de difusión? Pasemos a los detalles.

Modelo y método

Los investigadores entrenaron un modelo de difusión latente desde cero.

Primero se aprende a un codificador automático de imágenes para mapear imágenes en representaciones latentes comprimidas. Los codificadores de imágenes usan pérdida KL y pérdida perceptual OCR. El codificador de texto utilizado para la sintonización se aprende de principio a fin durante el entrenamiento de este modelo de difusión. La Tabla 3 a continuación muestra los parámetros detallados de la arquitectura del codificador automático de imágenes.

Luego, el modelo de difusión interactúa directamente en el espacio latente, realizando una programación hacia adelante corrupta de datos, mientras aprende a recuperar el proceso con una U-Net condicionada temporal y textualmente.

En cuanto al conjunto de datos, los investigadores utilizaron Paper2Fig100k, que consta de pares de gráficos y textos de documentos y contiene 81 194 muestras de entrenamiento y 21 259 muestras de validación. La figura 1 a continuación es un ejemplo de un gráfico generado usando descripciones de texto en el conjunto de prueba Paper2Fig100k.

Detalles del modelo

El primero es el codificador de imágenes. En la primera etapa, el codificador automático de imágenes aprende una asignación del espacio de píxeles a la representación latente comprimida, lo que hace que el entrenamiento del modelo de difusión sea más rápido. Los codificadores de imágenes también deben aprender a mapear la imagen subyacente de nuevo al espacio de píxeles sin perder detalles importantes del gráfico (como la calidad de representación del texto).

Con este fin, definimos un códec convolucional de cuello de botella que reduce la muestra de las imágenes por un factor f = 8. El codificador está capacitado para minimizar la pérdida de KL, la pérdida de percepción de VGG y la pérdida de percepción de OCR con distribución gaussiana.

El segundo es el codificador de texto. Los investigadores descubrieron que los codificadores de texto de uso general no son adecuados para la tarea de generar gráficos. Por lo tanto, definen un transformador Bert entrenado desde cero durante la difusión con un tamaño de canal de incrustación de 512, que también es el tamaño de incrustación que regula las capas de atención cruzada de U-Net. Los investigadores también exploraron la variación del número de capas de transformadores en diferentes configuraciones (8, 32 y 128).

Finalmente está el modelo de difusión latente. La Tabla 2 a continuación muestra la arquitectura de red de U-Net. Realizamos el proceso de difusión en una representación latente perceptualmente equivalente de una imagen cuyo tamaño de entrada se comprime a 64x64x4, lo que hace que el modelo de difusión sea más rápido. Definieron 1.000 pasos de difusión y un programa de ruido lineal.

Detalles de la capacitación

Para entrenar el codificador automático de imágenes, los investigadores utilizaron un optimizador Adam con un tamaño de lote efectivo de 4 muestras y una tasa de aprendizaje de 4,5e−6, utilizando cuatro tarjetas gráficas NVIDIA V100 de 12 GB. Para lograr la estabilidad del entrenamiento, calientan el modelo en 50k iteraciones sin usar el discriminador.

Para entrenar el modelo de difusión latente, también usamos el optimizador Adam con un tamaño de lote efectivo de 32 y una tasa de aprendizaje de 1e−4. Al entrenar el modelo en el conjunto de datos Paper2Fig100k, utilizaron ocho tarjetas gráficas Nvidia A100 de 80 GB.

Resultados experimentales

En el proceso de generación, los investigadores adoptaron un muestreador DDIM con 200 pasos y generaron 12 000 muestras para cada modelo para calcular FID, IS, KID y OCR-SIM1. Steady utiliza la guía sin clasificador (CFG) para probar la sobrerregulación.

La Tabla 1 a continuación muestra los resultados de diferentes codificadores de texto. Se puede ver que el codificador de texto grande produce los mejores resultados cualitativos, y la generación condicional se puede mejorar aumentando el tamaño del CFG. Aunque las muestras cualitativas no tienen la calidad suficiente para resolver el problema, FigGen ha captado la relación entre texto e imágenes.

La figura 2 a continuación muestra muestras adicionales de FigGen generadas al ajustar los parámetros de orientación sin clasificador (CFG). Los investigadores observaron que aumentar el tamaño del CFG (que también se cuantificó) resultó en una mejora en la calidad de la imagen.

La Figura 3 a continuación muestra algunos ejemplos más de la generación de FigGen. Tenga en cuenta la variación de longitud entre las muestras, así como el nivel técnico de la descripción del texto, que afecta de cerca la dificultad que tiene el modelo para generar correctamente imágenes inteligibles.

Sin embargo, los investigadores también admiten que, aunque estos gráficos generados no pueden proporcionar ayuda práctica a los autores del artículo, siguen siendo una dirección de exploración prometedora.

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#PI#
306k publicaciones
#BTC#
271k publicaciones
#ETH#
178k publicaciones
4#GateioInto11#
83k publicaciones
5#GT#
70k publicaciones
6#ContentStar#
69k publicaciones
7#DOGE#
64k publicaciones
8#BOME#
62k publicaciones
9#MAGA#
53k publicaciones
10#SLERF#
51k publicaciones

Anclado