Компанія з розробки великих моделей штучного інтелекту MosaicML нещодавно випустила нову комерційно доступну велику мовну модель MPT-30B з відкритим кодом із 30 мільярдами параметрів, яка значно потужніша за мовну модель попереднього покоління MPT-7B (7 мільярдів параметрів), а її продуктивність становить краще, ніж GPT-3.
Джерело зображення: створено Unbounded AI
Крім того, вони випустили дві вдосконалені моделі: MPT-30B-Instruct і MPT-30B-Chat, які створені на базі MPT-30B і добре підходять для відстеження інструкцій за один хід і багатоповоротного діалогу відповідно.
Особливості моделі MPT-30B:
Контекстне вікно маркера 8k під час навчання
Підтримка довших контекстів через ALiBi
Досягніть ефективного висновку + ефективності навчання за допомогою FlashAttention
Серія MPT-30B також має потужні можливості кодування завдяки попередньо налаштованому міксу даних.
Модель було розширено до вікна контексту маркерів 8k на NVIDIA H100, що робить її першим LLM, навченим на H100.
MPT-30B сильніший за GPT-3?
MPT-30B — це комерційна базова модель із відкритим вихідним кодом під ліцензією Apache 2.0, потужніша за оригінальну GPT-3 і конкурентоспроможна з іншими моделями з відкритим кодом, такими як LLaMa-30B і Falcon-40B.
(Вгорі) Точність нульового удару MPT-30B проти GPT-3 у дев’яти завданнях контекстного навчання (ICL). MPT-30B перевершує GPT-3 за шістьма з дев’яти показників.
MosaicML навчав MPT-30B протягом 2 місяців, використовуючи для навчання кластер Nvidia H100 GPU.
Як показано на малюнку нижче, навчальні дані MPT-30B:
MPT-30B попередньо навчається за допомогою змішування даних, і 1T маркерів даних попереднього навчання збирається з 10 різних корпусів тексту з відкритим вихідним кодом, а текст сегментується за допомогою EleutherAI GPT-NeoX-20B tokenizer і відбирається відповідно до наведеного вище співвідношення .
Порівняння MPT-7B і MPT-30B
Вартість навчання MPT-30B
Навін Рао, генеральний директор і співзасновник MosaicML, сказав, що вартість навчання MPT-30B становить 700 000 доларів США (приблизно 5,0244 мільйона юанів), що набагато менше, ніж десятки мільйонів доларів, необхідні для аналогічних продуктів, таких як GPT- 3. .
Скільки часу та грошей займе навчання моделі MPT-30B на замовлення? Почнемо з базової моделі.
На малюнку вище показано час і вартість попереднього навчання MPT-30B з нуля за допомогою графічних процесорів A100 або H100. Завдяки інфраструктурі MosaicML ви можете навчити свій власний MPT-30B з нуля за допомогою токенів 1T за 2 тижні.
Що робити, якщо ви не хочете тренуватися з нуля, а просто налаштовуєте існуючу модель?
На малюнку нижче показано час і вартість тонкого налаштування MPT-30B для кожного токена 1B. Завдяки інфраструктурі MosaicML ви можете повністю налаштувати свою модель MPT-30B, не турбуючись про обмеження системної пам’яті, і лише за кілька сотень доларів!
У MosaicML заявили, що розширення моделі до 30 мільярдів параметрів є лише першим кроком, а потім вони запустять більшу та якіснішу модель на основі зниження витрат.
Література:
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Велика модель MPT-30B із відкритим вихідним кодом і комерційно доступна вартість 30 мільярдів параметрів становить лише незначну частину GPT-3
Компанія з розробки великих моделей штучного інтелекту MosaicML нещодавно випустила нову комерційно доступну велику мовну модель MPT-30B з відкритим кодом із 30 мільярдами параметрів, яка значно потужніша за мовну модель попереднього покоління MPT-7B (7 мільярдів параметрів), а її продуктивність становить краще, ніж GPT-3.
Крім того, вони випустили дві вдосконалені моделі: MPT-30B-Instruct і MPT-30B-Chat, які створені на базі MPT-30B і добре підходять для відстеження інструкцій за один хід і багатоповоротного діалогу відповідно.
Особливості моделі MPT-30B:
Модель було розширено до вікна контексту маркерів 8k на NVIDIA H100, що робить її першим LLM, навченим на H100.
MPT-30B сильніший за GPT-3?
MPT-30B — це комерційна базова модель із відкритим вихідним кодом під ліцензією Apache 2.0, потужніша за оригінальну GPT-3 і конкурентоспроможна з іншими моделями з відкритим кодом, такими як LLaMa-30B і Falcon-40B.
MosaicML навчав MPT-30B протягом 2 місяців, використовуючи для навчання кластер Nvidia H100 GPU.
Як показано на малюнку нижче, навчальні дані MPT-30B:
Вартість навчання MPT-30B
Навін Рао, генеральний директор і співзасновник MosaicML, сказав, що вартість навчання MPT-30B становить 700 000 доларів США (приблизно 5,0244 мільйона юанів), що набагато менше, ніж десятки мільйонів доларів, необхідні для аналогічних продуктів, таких як GPT- 3. .
Скільки часу та грошей займе навчання моделі MPT-30B на замовлення? Почнемо з базової моделі.
Що робити, якщо ви не хочете тренуватися з нуля, а просто налаштовуєте існуючу модель?
На малюнку нижче показано час і вартість тонкого налаштування MPT-30B для кожного токена 1B. Завдяки інфраструктурі MosaicML ви можете повністю налаштувати свою модель MPT-30B, не турбуючись про обмеження системної пам’яті, і лише за кілька сотень доларів!
Література: