أصدرت شركة تطوير النماذج الكبيرة التي تعمل بالذكاء الاصطناعي MosaicML مؤخرًا نموذجًا جديدًا للغة كبيرة مفتوح المصدر متاحًا تجاريًا MPT-30B ، مع 30 مليار معلمة ، وهو أقوى بكثير من نموذج لغة الجيل السابق MPT-7B (7 مليارات معلمة) ، وأدائه هو أفضل من GPT-3.
مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI
بالإضافة إلى ذلك ، أصدروا نموذجين دقيقين: MPT-30B-Instruct و MPT-30B-Chat ، اللذان يعتمدان على MPT-30B وهما جيدان في تتبع التعليمات أحادية المنعطف والحوار متعدد الأدوار ، على التوالي.
ميزات طراز MPT-30B:
نافذة سياق رمزية 8K أثناء التدريب
دعم سياقات أطول عبر ALiBi
تحقيق الاستدلال الفعال + أداء التدريب من خلال FlashAttention
تتمتع سلسلة MPT-30B أيضًا بقدرات تشفير قوية نظرًا لمزيج البيانات المدربة مسبقًا.
تم تمديد النموذج إلى نافذة سياق رمز 8k على NVIDIA H100 ، مما يجعله أول LLM تم تدريبه على H100.
** MPT-30B أقوى من GPT-3؟ **
MPT-30B هو نموذج قاعدة مفتوح المصدر مرخص تجاري من Apache 2.0 وهو أقوى من GPT-3 الأصلي وقادر على المنافسة مع نماذج أخرى مفتوحة المصدر مثل LLaMa-30B و Falcon-40B.
(أعلى) دقة إطلاق النار الصفري لـ MPT-30B مقابل GPT-3 في تسع مهام للتعلم السياقي (ICL). يتفوق MPT-30B على GPT-3 في ستة من أصل تسعة مقاييس.
قامت MosaicML بتدريب MPT-30B لمدة شهرين ، باستخدام مجموعة Nvidia's H100 GPU للتدريب.
كما هو موضح في الشكل أدناه ، بيانات التدريب لـ MPT-30B:
تم تدريب MPT-30B مسبقًا عن طريق خلط البيانات ، ويتم جمع الرموز المميزة لبيانات ما قبل التدريب 1T من 10 نصوص نصية مفتوحة المصدر مختلفة ، ويتم تقسيم النص باستخدام الرمز المميز EleutherAI GPT-NeoX-20B ، وأخذ عينات وفقًا للنسبة المذكورة أعلاه .
مقارنة بين MPT-7B و MPT-30B
** تكلفة التدريب MPT-30B **
قال نافين راو ، الرئيس التنفيذي والمؤسس المشارك لشركة MosaicML ، إن تكلفة تدريب MPT-30B تبلغ 700000 دولار أمريكي (حوالي 5.0244 مليون يوان) ، وهو أقل بكثير من عشرات الملايين من الدولارات المطلوبة لمنتجات مماثلة مثل GPT- 3..
كم من الوقت والمال سيستغرق تدريب نموذج MPT-30B مخصص؟ لنبدأ بالنموذج الأساسي.
يوضح الشكل أعلاه وقت وتكلفة التدريب المسبق MPT-30B من البداية باستخدام وحدات معالجة الرسومات A100 أو H100. مع البنية التحتية MosaicML ، يمكنك تدريب MPT-30B المخصص الخاص بك من البداية باستخدام توكن 1T في أسبوعين.
ماذا لو كنت لا تريد التدرب من الصفر ، ولكنك تريد فقط ضبط نموذج موجود؟
يوضح الشكل أدناه تفاصيل وقت وتكلفة ضبط MPT-30B لكل رمز مميز 1B. باستخدام بنية MosaicML الأساسية ، يمكنك ضبط نموذج MPT-30B الخاص بك بشكل كامل دون القلق بشأن قيود ذاكرة النظام ، وبضع مئات من الدولارات فقط!
قالت MosaicML أن توسيع النموذج إلى 30 مليار معلمة ليس سوى الخطوة الأولى ، وبعد ذلك سيطلقون نموذجًا أكبر وأعلى جودة على أساس خفض التكاليف.
مراجع:
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
المصدر المفتوح والمتاح تجاريًا ، تكلفة النموذج الكبير MPT-30B 30 مليار معلمة ليست سوى جزء بسيط من GPT-3
أصدرت شركة تطوير النماذج الكبيرة التي تعمل بالذكاء الاصطناعي MosaicML مؤخرًا نموذجًا جديدًا للغة كبيرة مفتوح المصدر متاحًا تجاريًا MPT-30B ، مع 30 مليار معلمة ، وهو أقوى بكثير من نموذج لغة الجيل السابق MPT-7B (7 مليارات معلمة) ، وأدائه هو أفضل من GPT-3.
بالإضافة إلى ذلك ، أصدروا نموذجين دقيقين: MPT-30B-Instruct و MPT-30B-Chat ، اللذان يعتمدان على MPT-30B وهما جيدان في تتبع التعليمات أحادية المنعطف والحوار متعدد الأدوار ، على التوالي.
ميزات طراز MPT-30B:
تم تمديد النموذج إلى نافذة سياق رمز 8k على NVIDIA H100 ، مما يجعله أول LLM تم تدريبه على H100.
** MPT-30B أقوى من GPT-3؟ **
MPT-30B هو نموذج قاعدة مفتوح المصدر مرخص تجاري من Apache 2.0 وهو أقوى من GPT-3 الأصلي وقادر على المنافسة مع نماذج أخرى مفتوحة المصدر مثل LLaMa-30B و Falcon-40B.
قامت MosaicML بتدريب MPT-30B لمدة شهرين ، باستخدام مجموعة Nvidia's H100 GPU للتدريب.
كما هو موضح في الشكل أدناه ، بيانات التدريب لـ MPT-30B:
** تكلفة التدريب MPT-30B **
قال نافين راو ، الرئيس التنفيذي والمؤسس المشارك لشركة MosaicML ، إن تكلفة تدريب MPT-30B تبلغ 700000 دولار أمريكي (حوالي 5.0244 مليون يوان) ، وهو أقل بكثير من عشرات الملايين من الدولارات المطلوبة لمنتجات مماثلة مثل GPT- 3..
كم من الوقت والمال سيستغرق تدريب نموذج MPT-30B مخصص؟ لنبدأ بالنموذج الأساسي.
ماذا لو كنت لا تريد التدرب من الصفر ، ولكنك تريد فقط ضبط نموذج موجود؟
يوضح الشكل أدناه تفاصيل وقت وتكلفة ضبط MPT-30B لكل رمز مميز 1B. باستخدام بنية MosaicML الأساسية ، يمكنك ضبط نموذج MPT-30B الخاص بك بشكل كامل دون القلق بشأن قيود ذاكرة النظام ، وبضع مئات من الدولارات فقط!
مراجع: