Ilustrasi kertas juga dapat dihasilkan secara otomatis, menggunakan model difusi, dan diterima oleh ICLR

Jika grafik di kertas tidak perlu digambar, apakah itu memudahkan peneliti? Beberapa orang telah menjelajahi aspek ini, menggunakan deskripsi teks untuk menghasilkan bagan kertas, dan hasilnya cukup mengesankan!

Editor: Du Wei, Zi Wen

Sumber gambar: Dihasilkan oleh AI Tak Terbatas

AI generatif telah menjadi populer di komunitas kecerdasan buatan, baik itu individu atau perusahaan, mereka semua tertarik untuk membuat aplikasi transformasi modal terkait, seperti diagram Wensheng, video Wensheng, musik Wensheng, dan sebagainya.

Baru-baru ini, beberapa peneliti dari lembaga penelitian seperti ServiceNow Research dan LIVIA mencoba membuat grafik dalam makalah berdasarkan deskripsi teks. Untuk tujuan ini, mereka mengusulkan metode baru FigGen, dan makalah terkait juga dimasukkan sebagai Tiny Paper oleh ICLR 2023.

Alamat kertas:

Beberapa orang mungkin bertanya, apa susahnya membuat grafik di kertas? Bagaimana ini membantu penelitian ilmiah?

Pembuatan grafik ilmiah membantu menyebarkan hasil penelitian secara ringkas dan mudah dipahami, dan pembuatan grafik otomatis dapat membawa banyak keuntungan bagi peneliti, seperti menghemat waktu dan tenaga dalam merancang grafik dari awal. Selain itu, mendesain figur yang menarik secara visual dan mudah dipahami dapat membuat makalah lebih mudah diakses oleh lebih banyak orang.

Namun, pembuatan diagram juga menghadapi beberapa tantangan, yang perlu merepresentasikan hubungan kompleks antara komponen diskrit seperti kotak, panah, dan teks. Tidak seperti menghasilkan gambar alami, konsep dalam grafik kertas mungkin memiliki representasi yang berbeda, membutuhkan pemahaman yang halus, misalnya membuat grafik jaringan saraf melibatkan masalah yang tidak tepat dengan varian tinggi.

Oleh karena itu, para peneliti dalam makalah ini melatih model generatif pada dataset pasangan diagram kertas, menangkap hubungan antara komponen diagram dan teks yang sesuai di makalah. Ini membutuhkan penanganan dengan berbagai panjang dan deskripsi teks yang sangat teknis, berbagai gaya bagan, rasio aspek gambar, dan font, ukuran, dan orientasi rendering teks.

Dalam proses implementasi khusus, para peneliti terinspirasi oleh pencapaian teks-ke-gambar baru-baru ini, menggunakan model difusi untuk menghasilkan grafik, dan mengusulkan model difusi potensial untuk menghasilkan grafik penelitian ilmiah dari deskripsi teks——GbrGen.

Apa yang unik dari model difusi ini? Mari beralih ke detailnya.

Model dan metode

Para peneliti melatih model difusi laten dari awal.

Autoencoder gambar pertama kali dipelajari untuk memetakan gambar menjadi representasi laten terkompresi. Encoder gambar menggunakan kehilangan KL dan kehilangan persepsi OCR. Encoder teks yang digunakan untuk penyetelan dipelajari secara menyeluruh selama pelatihan model difusi ini. Tabel 3 di bawah menunjukkan parameter detail dari arsitektur image autoencoder.

Model difusi kemudian berinteraksi langsung di ruang laten, melakukan penjadwalan maju yang rusak data, sambil belajar untuk memulihkan proses dengan U-Net bersyarat temporal dan tekstual.

Adapun dataset, peneliti menggunakan Paper2Fig100k, yang terdiri dari pasangan grafik-teks dari makalah dan berisi 81.194 sampel pelatihan dan 21.259 sampel validasi. Gambar 1 di bawah adalah contoh grafik yang dihasilkan menggunakan deskripsi teks dalam set pengujian Paper2Fig100k.

Detail model

Yang pertama adalah encoder gambar. Pada tahap pertama, image autoencoder mempelajari pemetaan dari ruang piksel ke representasi laten terkompresi, membuat pelatihan model difusi menjadi lebih cepat. Pembuat enkode gambar juga perlu mempelajari cara memetakan gambar yang mendasari kembali ke ruang piksel tanpa kehilangan detail penting grafik (seperti kualitas rendering teks).

Untuk tujuan ini, kami mendefinisikan codec konvolusional bottleneck yang menurunkan sampel gambar dengan faktor f=8. Encoder dilatih untuk meminimalkan kehilangan KL, kehilangan persepsi VGG, dan kehilangan persepsi OCR dengan distribusi Gaussian.

Kedua adalah encoder teks. Para peneliti menemukan bahwa pembuat enkode teks tujuan umum tidak cocok untuk tugas menghasilkan grafik. Oleh karena itu mereka mendefinisikan trafo Bert yang dilatih dari awal selama difusi dengan ukuran saluran penyematan 512, yang juga merupakan ukuran penyematan yang mengatur lapisan perhatian silang U-Net. Para peneliti juga mengeksplorasi variasi jumlah lapisan trafo pada pengaturan yang berbeda (8, 32 dan 128).

Akhirnya ada model difusi laten. Tabel 2 di bawah menunjukkan arsitektur jaringan U-Net. Kami melakukan proses difusi pada representasi laten perseptual ekivalen dari gambar yang ukuran inputnya dikompresi menjadi 64x64x4, membuat model difusi lebih cepat. Mereka menentukan 1.000 langkah difusi dan jadwal kebisingan linier.

Rincian Pelatihan

Untuk melatih autoencoder gambar, para peneliti menggunakan pengoptimal Adam dengan ukuran batch efektif 4 sampel dan kecepatan pembelajaran 4,5e−6, menggunakan empat kartu grafis NVIDIA V100 12GB. Untuk mencapai stabilitas pelatihan, mereka melakukan pemanasan model dalam iterasi 50k tanpa menggunakan diskriminator.

Untuk melatih model difusi laten, kami juga menggunakan pengoptimal Adam dengan ukuran batch efektif 32 dan kecepatan pembelajaran 1e−4. Saat melatih model pada kumpulan data Paper2Fig100k, mereka menggunakan delapan kartu grafis Nvidia A100 80 GB.

Hasil Eksperimen

Dalam proses pembangkitan, para peneliti mengadopsi sampler DDIM dengan 200 langkah dan menghasilkan 12.000 sampel untuk setiap model untuk menghitung FID, IS, KID dan OCR-SIM1. Steady menggunakan panduan bebas pengklasifikasi (CFG) untuk menguji overregulasi.

Tabel 1 di bawah ini menunjukkan hasil dari berbagai text encoders. Dapat dilihat bahwa encoder teks besar menghasilkan hasil kualitatif terbaik, dan pembangkitan bersyarat dapat ditingkatkan dengan meningkatkan ukuran CFG. Meskipun sampel kualitatif tidak cukup berkualitas untuk menyelesaikan masalah, FigGen telah memahami hubungan antara teks dan gambar.

Gambar 2 di bawah menunjukkan sampel FigGen tambahan yang dihasilkan saat menyetel parameter Classifier-Free Guidance (CFG). Para peneliti mengamati bahwa meningkatkan ukuran CFG (yang juga dihitung) menghasilkan peningkatan kualitas gambar.

Gambar 3 di bawah menunjukkan beberapa contoh generasi FigGen. Waspadai variasi panjang antar sampel, serta tingkat teknis deskripsi teks, yang sangat memengaruhi kesulitan model untuk menghasilkan gambar yang dapat dipahami dengan benar.

Namun, para peneliti juga mengakui bahwa meskipun bagan yang dihasilkan ini tidak dapat memberikan bantuan praktis kepada penulis makalah, bagan tersebut masih merupakan arah eksplorasi yang menjanjikan.

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)