Якщо графіки в статті не потрібно малювати, чи це зручно для дослідників? Деякі люди досліджували цей аспект, використовуючи текстові описи для створення паперових діаграм, і результати досить вражаючі!
Редактори: Ду Вей, Цзи Вень
Джерело зображення: створено Unbounded AI
Генеративний штучний інтелект став популярним у спільноті штучного інтелекту. Незалежно від того, чи це окрема особа, чи компанія, усі вони прагнуть створювати пов’язані програми модального перетворення, такі як діаграма Веншен, відео Веншен, музика Веншен тощо.
Нещодавно кілька дослідників з дослідницьких установ, таких як ServiceNow Research і LIVIA, спробували створити графіки в статтях на основі текстових описів. З цією метою вони запропонували новий метод FigGen, і відповідні документи також були включені як Tiny Paper ICLR 2023.
Адреса паперу:
Деякі люди можуть запитати, що такого складного у створенні графіків у статті? Як це допомагає науковим дослідженням?
Генерація наукових графіків допомагає поширювати результати досліджень у стислій та зрозумілій формі, а автоматична генерація графіків може принести багато переваг дослідникам, наприклад, заощадити час і зусилля при розробці графіків з нуля. Крім того, створення візуально привабливих і зрозумілих фігур може зробити папір доступнішим для більшої кількості людей.
Однак створення діаграм також стикається з деякими проблемами, які потребують представлення складних зв’язків між окремими компонентами, такими як поля, стрілки та текст. На відміну від генерування природних зображень, концепції в паперових графіках можуть мати різні представлення, вимагаючи детального розуміння, наприклад, генерація графіка нейронної мережі включає некоректні проблеми з високою дисперсією.
Тому дослідники в цій статті тренують генеративну модель на наборі даних пар паперових діаграм, фіксуючи зв’язок між компонентами діаграми та відповідним текстом у папері. Для цього потрібно мати справу з різною довжиною та суворо технічним описом тексту, різними стилями діаграм, співвідношенням сторін зображення та шрифтами, розмірами та орієнтаціями відтворення тексту.
У конкретному процесі реалізації дослідники були натхненні нещодавніми досягненнями перетворення тексту в зображення, використовуючи модель дифузії для створення графіків, і запропонували потенційну модель дифузії для створення графіків наукових досліджень із текстових описів—FigGen.
Чим унікальна ця модель дифузії? Переходимо до деталей.
Модель і метод
Дослідники навчили модель прихованої дифузії з нуля.
Спочатку автокодер зображень навчився відображати зображення в стислі латентні представлення. Кодери зображень використовують втрати KL і втрати сприйняття OCR. Текстовий кодер, який використовується для налаштування, вивчається наскрізно під час навчання цієї дифузійної моделі. Таблиця 3 нижче показує детальні параметри архітектури автокодувальника зображення.
Дифузійна модель потім взаємодіє безпосередньо в латентному просторі, виконуючи спотворені даними пряме планування, одночасно навчаючись відновлювати процес за допомогою тимчасової та текстової умовної U-Net.
Що стосується набору даних, дослідники використовували Paper2Fig100k, який складається з пар граф-текст із документів і містить 81 194 навчальних зразків і 21 259 перевірочних зразків. На малюнку 1 нижче наведено приклад графіка, створеного з використанням текстових описів у тестовому наборі Paper2Fig100k.
Деталі моделі
Перший - кодувальник зображень. На першому етапі автокодер зображення вивчає відображення з простору пікселів на стиснуте приховане представлення, прискорюючи навчання дифузійної моделі. Кодери зображень також повинні навчитися відображати базове зображення назад у простір пікселів, не втрачаючи важливих деталей графіка (таких як якість відтворення тексту).
З цією метою ми визначаємо вузьке місце згорткового кодека, який зменшує дискретизацію зображень на коефіцієнт f=8. Кодер навчений мінімізувати втрати KL, втрати сприйняття VGG і втрати сприйняття OCR за допомогою розподілу Гауса.
По-друге, це кодувальник тексту. Дослідники виявили, що кодери тексту загального призначення не дуже добре підходять для завдання генерації графіків. Таким чином, вони визначають трансформатор Берта, навчений з нуля під час дифузії, з розміром каналу вбудовування 512, який також є розміром вбудовування, який регулює рівні перехресної уваги U-Net. Дослідники також досліджували варіацію кількості шарів трансформатора при різних налаштуваннях (8, 32 і 128).
Нарешті, існує модель прихованої дифузії. Таблиця 2 нижче показує мережеву архітектуру U-Net. Ми виконуємо процес дифузії на перцепційно еквівалентному прихованому представленні зображення, вхідний розмір якого стиснено до 64x64x4, що робить модель дифузії швидшою. Вони визначили 1000 кроків дифузії та лінійний графік шуму.
Деталі навчання
Щоб навчити автокодер зображення, дослідники використовували оптимізатор Adam з ефективним розміром пакету 4 зразки та швидкістю навчання 4,5e−6, використовуючи чотири відеокарти NVIDIA V100 на 12 ГБ. Щоб досягти стабільності навчання, вони розігрівають модель за 50 тисяч ітерацій без використання дискримінатора.
Для навчання моделі латентної дифузії ми також використовуємо оптимізатор Адама з ефективним розміром пакета 32 і швидкістю навчання 1e-4. Під час навчання моделі на наборі даних Paper2Fig100k вони використовували вісім відеокарт Nvidia A100 на 80 ГБ.
Експериментальні результати
У процесі генерації дослідники застосували семплер DDIM із 200 кроками та згенерували 12 000 зразків для кожної моделі для розрахунку FID, IS, KID та OCR-SIM1. Steady використовує настанови без класифікаторів (CFG) для перевірки надмірного регулювання.
Таблиця 1 нижче показує результати різних кодувальників тексту. Можна побачити, що кодер великого тексту дає найкращі якісні результати, а умовну генерацію можна покращити шляхом збільшення розміру CFG. Хоча якісні зразки недостатньо якісні для вирішення проблеми, FigGen зрозумів зв’язок між текстом і зображеннями.
На рисунку 2 нижче показані додаткові зразки FigGen, згенеровані під час налаштування параметрів Classifier-Free Guidance (CFG). Дослідники помітили, що збільшення розміру CFG (яке також було визначено кількісно) призвело до покращення якості зображення.
На малюнку 3 нижче показано ще кілька прикладів генерації FigGen. Майте на увазі різницю в довжині між зразками, а також технічний рівень текстового опису, який безпосередньо впливає на те, наскільки важко моделі правильно генерувати зрозумілі зображення.
Однак дослідники також визнають, що хоча ці згенеровані діаграми не можуть надати практичної допомоги авторам статті, вони все ще є перспективним напрямком дослідження.
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Паперові ілюстрації також можуть бути створені автоматично за допомогою моделі дифузії та прийняті ICLR
Редактори: Ду Вей, Цзи Вень
Генеративний штучний інтелект став популярним у спільноті штучного інтелекту. Незалежно від того, чи це окрема особа, чи компанія, усі вони прагнуть створювати пов’язані програми модального перетворення, такі як діаграма Веншен, відео Веншен, музика Веншен тощо.
Нещодавно кілька дослідників з дослідницьких установ, таких як ServiceNow Research і LIVIA, спробували створити графіки в статтях на основі текстових описів. З цією метою вони запропонували новий метод FigGen, і відповідні документи також були включені як Tiny Paper ICLR 2023.
Деякі люди можуть запитати, що такого складного у створенні графіків у статті? Як це допомагає науковим дослідженням?
Генерація наукових графіків допомагає поширювати результати досліджень у стислій та зрозумілій формі, а автоматична генерація графіків може принести багато переваг дослідникам, наприклад, заощадити час і зусилля при розробці графіків з нуля. Крім того, створення візуально привабливих і зрозумілих фігур може зробити папір доступнішим для більшої кількості людей.
Однак створення діаграм також стикається з деякими проблемами, які потребують представлення складних зв’язків між окремими компонентами, такими як поля, стрілки та текст. На відміну від генерування природних зображень, концепції в паперових графіках можуть мати різні представлення, вимагаючи детального розуміння, наприклад, генерація графіка нейронної мережі включає некоректні проблеми з високою дисперсією.
Тому дослідники в цій статті тренують генеративну модель на наборі даних пар паперових діаграм, фіксуючи зв’язок між компонентами діаграми та відповідним текстом у папері. Для цього потрібно мати справу з різною довжиною та суворо технічним описом тексту, різними стилями діаграм, співвідношенням сторін зображення та шрифтами, розмірами та орієнтаціями відтворення тексту.
У конкретному процесі реалізації дослідники були натхненні нещодавніми досягненнями перетворення тексту в зображення, використовуючи модель дифузії для створення графіків, і запропонували потенційну модель дифузії для створення графіків наукових досліджень із текстових описів—FigGen.
Чим унікальна ця модель дифузії? Переходимо до деталей.
Модель і метод
Дослідники навчили модель прихованої дифузії з нуля.
Спочатку автокодер зображень навчився відображати зображення в стислі латентні представлення. Кодери зображень використовують втрати KL і втрати сприйняття OCR. Текстовий кодер, який використовується для налаштування, вивчається наскрізно під час навчання цієї дифузійної моделі. Таблиця 3 нижче показує детальні параметри архітектури автокодувальника зображення.
Дифузійна модель потім взаємодіє безпосередньо в латентному просторі, виконуючи спотворені даними пряме планування, одночасно навчаючись відновлювати процес за допомогою тимчасової та текстової умовної U-Net.
Перший - кодувальник зображень. На першому етапі автокодер зображення вивчає відображення з простору пікселів на стиснуте приховане представлення, прискорюючи навчання дифузійної моделі. Кодери зображень також повинні навчитися відображати базове зображення назад у простір пікселів, не втрачаючи важливих деталей графіка (таких як якість відтворення тексту).
З цією метою ми визначаємо вузьке місце згорткового кодека, який зменшує дискретизацію зображень на коефіцієнт f=8. Кодер навчений мінімізувати втрати KL, втрати сприйняття VGG і втрати сприйняття OCR за допомогою розподілу Гауса.
По-друге, це кодувальник тексту. Дослідники виявили, що кодери тексту загального призначення не дуже добре підходять для завдання генерації графіків. Таким чином, вони визначають трансформатор Берта, навчений з нуля під час дифузії, з розміром каналу вбудовування 512, який також є розміром вбудовування, який регулює рівні перехресної уваги U-Net. Дослідники також досліджували варіацію кількості шарів трансформатора при різних налаштуваннях (8, 32 і 128).
Нарешті, існує модель прихованої дифузії. Таблиця 2 нижче показує мережеву архітектуру U-Net. Ми виконуємо процес дифузії на перцепційно еквівалентному прихованому представленні зображення, вхідний розмір якого стиснено до 64x64x4, що робить модель дифузії швидшою. Вони визначили 1000 кроків дифузії та лінійний графік шуму.
Щоб навчити автокодер зображення, дослідники використовували оптимізатор Adam з ефективним розміром пакету 4 зразки та швидкістю навчання 4,5e−6, використовуючи чотири відеокарти NVIDIA V100 на 12 ГБ. Щоб досягти стабільності навчання, вони розігрівають модель за 50 тисяч ітерацій без використання дискримінатора.
Для навчання моделі латентної дифузії ми також використовуємо оптимізатор Адама з ефективним розміром пакета 32 і швидкістю навчання 1e-4. Під час навчання моделі на наборі даних Paper2Fig100k вони використовували вісім відеокарт Nvidia A100 на 80 ГБ.
Експериментальні результати
У процесі генерації дослідники застосували семплер DDIM із 200 кроками та згенерували 12 000 зразків для кожної моделі для розрахунку FID, IS, KID та OCR-SIM1. Steady використовує настанови без класифікаторів (CFG) для перевірки надмірного регулювання.
Таблиця 1 нижче показує результати різних кодувальників тексту. Можна побачити, що кодер великого тексту дає найкращі якісні результати, а умовну генерацію можна покращити шляхом збільшення розміру CFG. Хоча якісні зразки недостатньо якісні для вирішення проблеми, FigGen зрозумів зв’язок між текстом і зображеннями.