Если графики в статье не нужно рисовать, удобно ли это исследователям? Некоторые люди исследовали этот аспект, используя текстовые описания для создания бумажных диаграмм, и результаты весьма впечатляющие!
Монтажеры: Ду Вэй, Цзы Вэнь
Источник изображения: сгенерировано Unbounded AI
Генеративный ИИ стал популярным в сообществе искусственного интеллекта.Будь то частное лицо или предприятие, все они стремятся создавать связанные приложения модального преобразования, такие как диаграмма Вэньшэн, видео Вэньшэн, музыка Вэньшэн и так далее.
Недавно несколько исследователей из исследовательских институтов, таких как ServiceNow Research и LIVIA, попытались создать графики в статьях на основе текстовых описаний. С этой целью они предложили новый метод FigGen, и связанные с ним статьи также были включены в список Tiny Paper на ICLR 2023.
Адрес бумаги:
Некоторые люди могут спросить, что такого сложного в построении графиков в статье? Как это помогает научным исследованиям?
Генерация научных графиков помогает распространять результаты исследований в краткой и понятной форме, а автоматическое создание графиков может дать исследователям множество преимуществ, таких как экономия времени и усилий при разработке графиков с нуля. Кроме того, разработка визуально привлекательных и понятных рисунков может сделать бумагу более доступной для большего числа людей.
Однако создание диаграмм также сталкивается с некоторыми проблемами, которые должны представлять сложные отношения между отдельными компонентами, такими как поля, стрелки и текст. В отличие от создания естественных изображений, концепции на бумажных графиках могут иметь разные представления, что требует детального понимания, например, создание графика нейронной сети включает некорректно поставленные задачи с высокой дисперсией.
Поэтому исследователи в этой статье обучают генеративную модель на наборе данных пар бумажных диаграмм, фиксируя взаимосвязь между компонентами диаграммы и соответствующим текстом в документе. Это требует работы с текстовыми описаниями разной длины и высокотехнологичного характера, с различными стилями диаграмм, соотношениями сторон изображения и шрифтами, размерами и ориентацией рендеринга текста.
В конкретном процессе реализации исследователи были вдохновлены недавними достижениями преобразования текста в изображение, используя модель диффузии для создания графиков, и предложили потенциальную модель диффузии для создания графиков научных исследований из текстовых описаний — FigGen.
В чем уникальность этой диффузионной модели? Давайте перейдем к деталям.
Модель и метод
Исследователи обучили модель скрытой диффузии с нуля.
Автокодировщик изображений сначала учится преобразовывать изображения в сжатые скрытые представления. Кодировщики изображений используют потери KL и потери восприятия OCR. Кодировщик текста, используемый для настройки, полностью изучается во время обучения этой модели распространения. В таблице 3 ниже показаны подробные параметры архитектуры автокодировщика изображений.
Затем диффузионная модель взаимодействует непосредственно в скрытом пространстве, выполняя прямое планирование с поврежденными данными и обучаясь восстанавливать процесс с помощью U-Net с временным и текстовым условным шумоподавлением.
Что касается набора данных, исследователи использовали Paper2Fig100k, который состоит из пар «график-текст» из статей и содержит 81 194 обучающих образца и 21 259 проверочных образцов. На рисунке 1 ниже приведен пример графика, созданного с использованием текстовых описаний в тестовом наборе Paper2Fig100k.
Информация о модели
Во-первых, это кодировщик изображений. На первом этапе автокодер изображений изучает отображение пространства пикселей в сжатое скрытое представление, что ускоряет обучение диффузионной модели. Кодировщики изображений также должны научиться отображать базовое изображение обратно в пространство пикселей, не теряя важных деталей графика (например, качества рендеринга текста).
С этой целью мы определяем сверточный кодек с узким местом, который понижает частоту дискретизации изображений с коэффициентом f=8. Кодер обучен минимизировать потери KL, потери восприятия VGG и потери восприятия OCR с распределением Гаусса.
Во-вторых, кодировщик текста. Исследователи обнаружили, что текстовые кодировщики общего назначения плохо подходят для задачи генерации графов. Поэтому они определяют преобразователь Берта, обученный с нуля во время распространения, с размером канала внедрения 512, который также является размером внедрения, который регулирует уровни перекрестного внимания U-Net. Исследователи также изучили изменение количества слоев трансформатора при разных настройках (8, 32 и 128).
Наконец, существует модель скрытой диффузии. В таблице 2 ниже показана сетевая архитектура U-Net. Мы выполняем процесс диффузии на перцептивно эквивалентном скрытом представлении изображения, размер которого сжат до 64x64x4, что делает модель диффузии быстрее. Они определили 1000 шагов диффузии и график линейного шума.
Подробности обучения
Для обучения автокодировщика изображений исследователи использовали оптимизатор Adam с эффективным размером пакета 4 выборки и скоростью обучения 4,5e−6, используя четыре видеокарты NVIDIA V100 емкостью 12 ГБ. Чтобы добиться стабильности обучения, они прогревают модель за 50 000 итераций без использования дискриминатора.
Для обучения модели скрытой диффузии мы также используем оптимизатор Adam с эффективным размером пакета 32 и скоростью обучения 1e−4. При обучении модели на наборе данных Paper2Fig100k они использовали восемь видеокарт Nvidia A100 емкостью 80 ГБ.
Результаты эксперимента
В процессе генерации исследователи использовали семплер DDIM с 200 шагами и создали 12 000 образцов для каждой модели для расчета FID, IS, KID и OCR-SIM1. Steady использует руководство без классификатора (CFG) для проверки чрезмерного регулирования.
В таблице 1 ниже показаны результаты различных текстовых кодировщиков. Видно, что кодировщик большого текста дает наилучшие качественные результаты, а условную генерацию можно улучшить, увеличив размер CFG. Хотя качественные образцы не имеют достаточного качества для решения проблемы, FigGen уловил взаимосвязь между текстом и изображениями.
На рисунке 2 ниже показаны дополнительные образцы FigGen, созданные при настройке параметров навигации без классификатора (CFG). Исследователи заметили, что увеличение размера CFG (которое также было определено количественно) привело к улучшению качества изображения.
На рисунке 3 ниже показаны еще несколько примеров генерации FigGen. Имейте в виду разницу в длине между образцами, а также технический уровень текстового описания, который сильно влияет на то, насколько сложно модели правильно генерировать понятные изображения.
Однако исследователи также признают, что, хотя эти сгенерированные диаграммы не могут оказать практическую помощь авторам статьи, они по-прежнему являются многообещающим направлением исследований.
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Бумажные иллюстрации также могут создаваться автоматически с использованием модели распространения и приниматься ICLR.
Монтажеры: Ду Вэй, Цзы Вэнь
Генеративный ИИ стал популярным в сообществе искусственного интеллекта.Будь то частное лицо или предприятие, все они стремятся создавать связанные приложения модального преобразования, такие как диаграмма Вэньшэн, видео Вэньшэн, музыка Вэньшэн и так далее.
Недавно несколько исследователей из исследовательских институтов, таких как ServiceNow Research и LIVIA, попытались создать графики в статьях на основе текстовых описаний. С этой целью они предложили новый метод FigGen, и связанные с ним статьи также были включены в список Tiny Paper на ICLR 2023.
Некоторые люди могут спросить, что такого сложного в построении графиков в статье? Как это помогает научным исследованиям?
Генерация научных графиков помогает распространять результаты исследований в краткой и понятной форме, а автоматическое создание графиков может дать исследователям множество преимуществ, таких как экономия времени и усилий при разработке графиков с нуля. Кроме того, разработка визуально привлекательных и понятных рисунков может сделать бумагу более доступной для большего числа людей.
Однако создание диаграмм также сталкивается с некоторыми проблемами, которые должны представлять сложные отношения между отдельными компонентами, такими как поля, стрелки и текст. В отличие от создания естественных изображений, концепции на бумажных графиках могут иметь разные представления, что требует детального понимания, например, создание графика нейронной сети включает некорректно поставленные задачи с высокой дисперсией.
Поэтому исследователи в этой статье обучают генеративную модель на наборе данных пар бумажных диаграмм, фиксируя взаимосвязь между компонентами диаграммы и соответствующим текстом в документе. Это требует работы с текстовыми описаниями разной длины и высокотехнологичного характера, с различными стилями диаграмм, соотношениями сторон изображения и шрифтами, размерами и ориентацией рендеринга текста.
В конкретном процессе реализации исследователи были вдохновлены недавними достижениями преобразования текста в изображение, используя модель диффузии для создания графиков, и предложили потенциальную модель диффузии для создания графиков научных исследований из текстовых описаний — FigGen.
В чем уникальность этой диффузионной модели? Давайте перейдем к деталям.
Модель и метод
Исследователи обучили модель скрытой диффузии с нуля.
Автокодировщик изображений сначала учится преобразовывать изображения в сжатые скрытые представления. Кодировщики изображений используют потери KL и потери восприятия OCR. Кодировщик текста, используемый для настройки, полностью изучается во время обучения этой модели распространения. В таблице 3 ниже показаны подробные параметры архитектуры автокодировщика изображений.
Затем диффузионная модель взаимодействует непосредственно в скрытом пространстве, выполняя прямое планирование с поврежденными данными и обучаясь восстанавливать процесс с помощью U-Net с временным и текстовым условным шумоподавлением.
Во-первых, это кодировщик изображений. На первом этапе автокодер изображений изучает отображение пространства пикселей в сжатое скрытое представление, что ускоряет обучение диффузионной модели. Кодировщики изображений также должны научиться отображать базовое изображение обратно в пространство пикселей, не теряя важных деталей графика (например, качества рендеринга текста).
С этой целью мы определяем сверточный кодек с узким местом, который понижает частоту дискретизации изображений с коэффициентом f=8. Кодер обучен минимизировать потери KL, потери восприятия VGG и потери восприятия OCR с распределением Гаусса.
Во-вторых, кодировщик текста. Исследователи обнаружили, что текстовые кодировщики общего назначения плохо подходят для задачи генерации графов. Поэтому они определяют преобразователь Берта, обученный с нуля во время распространения, с размером канала внедрения 512, который также является размером внедрения, который регулирует уровни перекрестного внимания U-Net. Исследователи также изучили изменение количества слоев трансформатора при разных настройках (8, 32 и 128).
Наконец, существует модель скрытой диффузии. В таблице 2 ниже показана сетевая архитектура U-Net. Мы выполняем процесс диффузии на перцептивно эквивалентном скрытом представлении изображения, размер которого сжат до 64x64x4, что делает модель диффузии быстрее. Они определили 1000 шагов диффузии и график линейного шума.
Для обучения автокодировщика изображений исследователи использовали оптимизатор Adam с эффективным размером пакета 4 выборки и скоростью обучения 4,5e−6, используя четыре видеокарты NVIDIA V100 емкостью 12 ГБ. Чтобы добиться стабильности обучения, они прогревают модель за 50 000 итераций без использования дискриминатора.
Для обучения модели скрытой диффузии мы также используем оптимизатор Adam с эффективным размером пакета 32 и скоростью обучения 1e−4. При обучении модели на наборе данных Paper2Fig100k они использовали восемь видеокарт Nvidia A100 емкостью 80 ГБ.
Результаты эксперимента
В процессе генерации исследователи использовали семплер DDIM с 200 шагами и создали 12 000 образцов для каждой модели для расчета FID, IS, KID и OCR-SIM1. Steady использует руководство без классификатора (CFG) для проверки чрезмерного регулирования.
В таблице 1 ниже показаны результаты различных текстовых кодировщиков. Видно, что кодировщик большого текста дает наилучшие качественные результаты, а условную генерацию можно улучшить, увеличив размер CFG. Хотя качественные образцы не имеют достаточного качества для решения проблемы, FigGen уловил взаимосвязь между текстом и изображениями.