يمكن أيضًا إنشاء الرسوم التوضيحية الورقية تلقائيًا ، باستخدام نموذج الانتشار ، والموافقة عليها من قبل ICLR

إذا كانت الرسوم البيانية في الورقة لا تحتاج إلى الرسم ، فهل هذا مريح للباحثين؟ لقد اكتشف بعض الأشخاص هذا الجانب ، باستخدام الأوصاف النصية لإنشاء مخططات ورقية ، وكانت النتائج رائعة جدًا!

المحررون: دو وي ، زي وين

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI

أصبح الذكاء الاصطناعي التوليدي شائعًا في مجتمع الذكاء الاصطناعي. سواء كان فردًا أو مؤسسة ، فجميعهم حريصون على إنشاء تطبيقات تحويل نمطية ذات صلة ، مثل مخطط Wensheng ، فيديو Wensheng ، موسيقى Wensheng وما إلى ذلك.

في الآونة الأخيرة ، حاول العديد من الباحثين من المؤسسات البحثية مثل ServiceNow Research و LIVIA إنشاء رسوم بيانية في الأوراق بناءً على أوصاف النص. ولهذه الغاية ، اقترحوا طريقة جديدة لـ FigGen ، كما تم تضمين الأوراق ذات الصلة في ورقة Tiny Paper بواسطة ICLR 2023.

عنوان الورق:

قد يتساءل البعض ، ما هو الأمر الصعب في إنشاء الرسوم البيانية في الورقة؟ كيف يساعد هذا البحث العلمي؟

يساعد إنشاء الرسم البياني العلمي في نشر نتائج البحث بطريقة موجزة ومفهومة ، ويمكن أن يجلب إنشاء الرسم البياني التلقائي العديد من المزايا للباحثين ، مثل توفير الوقت والجهد في تصميم الرسوم البيانية من البداية. علاوة على ذلك ، فإن تصميم أشكال جذابة بصريًا ومفهومة يمكن أن يجعل الورق في متناول المزيد من الناس.

ومع ذلك ، فإن إنشاء المخططات يواجه أيضًا بعض التحديات ، والتي تحتاج إلى تمثيل العلاقات المعقدة بين المكونات المنفصلة مثل المربعات والسهام والنص. على عكس إنشاء الصور الطبيعية ، قد يكون للمفاهيم في الرسوم البيانية الورقية تمثيلات مختلفة ، مما يتطلب فهمًا دقيقًا ، على سبيل المثال ، إنشاء رسم بياني للشبكة العصبية ينطوي على مشاكل غير موضوعية مع تباين كبير.

لذلك ، يقوم الباحثون في هذه الورقة بتدريب نموذج توليدي على مجموعة بيانات من أزواج المخططات الورقية ، والتقاط العلاقة بين مكونات الرسم التخطيطي والنص المقابل في الورقة. يتطلب ذلك التعامل مع أطوال متفاوتة وأوصاف نصية عالية التقنية ، وأنماط مخططات متباينة ، ونسب أبعاد الصورة ، وخطوط عرض النص ، والأحجام ، والاتجاهات.

في عملية التنفيذ المحددة ، استوحى الباحثون من الإنجازات الحديثة في تحويل النص إلى صورة ، باستخدام نموذج الانتشار لإنشاء الرسوم البيانية ، واقترحوا نموذجًا محتملاً للنشر لإنشاء رسوم بيانية للبحث العلمي من أوصاف النص —— فيجين.

ما الذي يميز نموذج الانتشار هذا؟ دعنا ننتقل إلى التفاصيل.

** النموذج والطريقة **

قام الباحثون بتدريب نموذج الانتشار الكامن من الصفر.

يتم تعلم المشفر التلقائي للصور أولاً لتعيين الصور في تمثيلات كامنة مضغوطة. تستخدم برامج ترميز الصور فقدان KL وفقدان التعرف الضوئي على الحروف. يتم التعرف على مشفر النص المستخدم للضبط من طرف إلى طرف أثناء تدريب نموذج الانتشار هذا. يوضح الجدول 3 أدناه المعلمات التفصيلية لمعمارية المشفر التلقائي للصور.

يتفاعل نموذج الانتشار بعد ذلك مباشرة في الفضاء الكامن ، ويؤدي جدولة إلى الأمام تالفة بالبيانات ، بينما يتعلم استرداد العملية باستخدام تقصير U-Net الشرطي الزماني والنصي.

بالنسبة لمجموعة البيانات ، استخدم الباحثون Paper2Fig100k ، والتي تتكون من أزواج نصية بيانية من الأوراق وتحتوي على 81194 عينة تدريب و 21259 عينة تحقق. الشكل 1 أدناه هو مثال على رسم بياني تم إنشاؤه باستخدام أوصاف نصية في مجموعة اختبار Paper2Fig100k.

** تفاصيل النموذج **

الأول هو برنامج تشفير الصور. في المرحلة الأولى ، يتعلم المشفر التلقائي للصور تعيينًا من مساحة البكسل إلى التمثيل الكامن المضغوط ، مما يجعل تدريب نموذج الانتشار أسرع. تحتاج برامج ترميز الصور أيضًا إلى تعلم كيفية تعيين الصورة الأساسية مرة أخرى إلى مساحة البكسل دون فقدان التفاصيل المهمة للرسم البياني (مثل جودة عرض النص).

تحقيقا لهذه الغاية ، نحدد الكودك التلافيفي عنق الزجاجة الذي يختزل عينات الصور بعامل f = 8. تم تدريب المشفر لتقليل فقد KL ، وفقدان الإدراك الحسي VGG وفقدان إدراك OCR مع التوزيع Gaussian.

الثاني هو مشفر النص. وجد الباحثون أن برامج ترميز النص ذات الأغراض العامة ليست مناسبة تمامًا لمهمة إنشاء الرسوم البيانية. لذلك يقومون بتعريف محول Bert الذي تم تدريبه من نقطة الصفر أثناء الانتشار بحجم قناة التضمين 512 ، وهو أيضًا حجم التضمين الذي ينظم طبقات الانتباه المتبادل في U-Net. استكشف الباحثون أيضًا تباين عدد طبقات المحولات في ظل إعدادات مختلفة (8 و 32 و 128).

أخيرًا هناك نموذج الانتشار الكامن. يوضح الجدول 2 أدناه بنية شبكة U-Net. نقوم بإجراء عملية الانتشار على تمثيل كامن مكافئ إدراكي لصورة يتم ضغط حجم إدخالها إلى 64 × 64 × 4 ، مما يجعل نموذج الانتشار أسرع. لقد حددوا 1000 خطوة انتشار وجدول ضوضاء خطي.

** تفاصيل التدريب **

لتدريب المشفر التلقائي للصور ، استخدم الباحثون مُحسِّن آدم بحجم دفعة فعال مكون من 4 عينات ومعدل تعلم 4.5e − 6 ، باستخدام أربع بطاقات رسومات NVIDIA V100 بسعة 12 جيجابايت. لتحقيق الاستقرار في التدريب ، يقومون بإحماء النموذج بتكرار 50 ألف بدون استخدام أداة التمييز.

لتدريب نموذج الانتشار الكامن ، نستخدم أيضًا مُحسِّن آدم بحجم دفعة فعال يبلغ 32 ومعدل تعلم 1e − 4. عند تدريب النموذج على مجموعة البيانات Paper2Fig100k ، استخدموا ثماني بطاقات رسومات Nvidia A100 بسعة 80 جيجابايت.

نتائج تجريبية

في عملية التوليد ، اعتمد الباحثون عينة DDIM مع 200 خطوة وأنتجوا 12000 عينة لكل نموذج لحساب FID و IS و KID و OCR-SIM1. يستخدم Steady إرشادات خالية من المصنف (CFG) لاختبار الإفراط في التنظيم.

يوضح الجدول 1 أدناه نتائج برامج ترميز النص المختلفة. يمكن ملاحظة أن مشفر النص الكبير ينتج أفضل النتائج النوعية ، ويمكن تحسين الجيل الشرطي عن طريق زيادة حجم CFG. على الرغم من أن العينات النوعية ليست ذات جودة كافية لحل المشكلة ، فقد أدرك FigGen العلاقة بين النص والصور.

يوضح الشكل 2 أدناه عينات إضافية من FigGen تم إنشاؤها عند ضبط معلمات التوجيه الخالي من المصنف (CFG). لاحظ الباحثون أن زيادة حجم CFG (الذي تم قياسه كميًا أيضًا) أدى إلى تحسين جودة الصورة.

يوضح الشكل 3 أدناه بعض الأمثلة الأخرى لتوليد FigGen. كن على دراية بالاختلاف في الطول بين العينات ، بالإضافة إلى المستوى الفني لوصف النص ، والذي يؤثر بشكل وثيق على مدى صعوبة إنشاء النموذج لصور واضحة بشكل صحيح.

ومع ذلك ، يعترف الباحثون أيضًا أنه على الرغم من أن هذه الرسوم البيانية التي تم إنشاؤها لا يمكن أن توفر مساعدة عملية لمؤلفي الورقة ، إلا أنها لا تزال اتجاهًا واعدًا للاستكشاف.

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت