Велика модель MPT-30B із відкритим вихідним кодом і комерційно доступна вартість 30 мільярдів параметрів становить лише незначну частину GPT-3

Компанія з розробки великих моделей штучного інтелекту MosaicML нещодавно випустила нову комерційно доступну велику мовну модель MPT-30B з відкритим кодом із 30 мільярдами параметрів, яка значно потужніша за мовну модель попереднього покоління MPT-7B (7 мільярдів параметрів), а її продуктивність становить краще, ніж GPT-3.

Джерело зображення: створено Unbounded AI

Крім того, вони випустили дві вдосконалені моделі: MPT-30B-Instruct і MPT-30B-Chat, які створені на базі MPT-30B і добре підходять для відстеження інструкцій за один хід і багатоповоротного діалогу відповідно.

Особливості моделі MPT-30B:

  • Контекстне вікно маркера 8k під час навчання
  • Підтримка довших контекстів через ALiBi
  • Досягніть ефективного висновку + ефективності навчання за допомогою FlashAttention
  • Серія MPT-30B також має потужні можливості кодування завдяки попередньо налаштованому міксу даних.

Модель було розширено до вікна контексту маркерів 8k на NVIDIA H100, що робить її першим LLM, навченим на H100.

MPT-30B сильніший за GPT-3?

MPT-30B — це комерційна базова модель із відкритим вихідним кодом під ліцензією Apache 2.0, потужніша за оригінальну GPT-3 і конкурентоспроможна з іншими моделями з відкритим кодом, такими як LLaMa-30B і Falcon-40B.

(Вгорі) Точність нульового удару MPT-30B проти GPT-3 у дев’яти завданнях контекстного навчання (ICL). MPT-30B перевершує GPT-3 за шістьма з дев’яти показників.

MosaicML навчав MPT-30B протягом 2 місяців, використовуючи для навчання кластер Nvidia H100 GPU.

Як показано на малюнку нижче, навчальні дані MPT-30B:

MPT-30B попередньо навчається за допомогою змішування даних, і 1T маркерів даних попереднього навчання збирається з 10 різних корпусів тексту з відкритим вихідним кодом, а текст сегментується за допомогою EleutherAI GPT-NeoX-20B tokenizer і відбирається відповідно до наведеного вище співвідношення .

Порівняння MPT-7B і MPT-30B

Вартість навчання MPT-30B

Навін Рао, генеральний директор і співзасновник MosaicML, сказав, що вартість навчання MPT-30B становить 700 000 доларів США (приблизно 5,0244 мільйона юанів), що набагато менше, ніж десятки мільйонів доларів, необхідні для аналогічних продуктів, таких як GPT- 3. .

Скільки часу та грошей займе навчання моделі MPT-30B на замовлення? Почнемо з базової моделі.

На малюнку вище показано час і вартість попереднього навчання MPT-30B з нуля за допомогою графічних процесорів A100 або H100. Завдяки інфраструктурі MosaicML ви можете навчити свій власний MPT-30B з нуля за допомогою токенів 1T за 2 тижні.

Що робити, якщо ви не хочете тренуватися з нуля, а просто налаштовуєте існуючу модель?

На малюнку нижче показано час і вартість тонкого налаштування MPT-30B для кожного токена 1B. Завдяки інфраструктурі MosaicML ви можете повністю налаштувати свою модель MPT-30B, не турбуючись про обмеження системної пам’яті, і лише за кілька сотень доларів!

У MosaicML заявили, що розширення моделі до 30 мільярдів параметрів є лише першим кроком, а потім вони запустять більшу та якіснішу модель на основі зниження витрат.

Література:

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити