Компания MosaicML, занимающаяся разработкой больших моделей искусственного интеллекта, недавно выпустила новую коммерчески доступную модель большого языка с открытым исходным кодом MPT-30B с 30 миллиардами параметров, которая значительно мощнее, чем языковая модель предыдущего поколения MPT-7B (7 миллиардов параметров), а ее производительность выше. лучше ГПТ-3.
Источник изображения: сгенерировано Unbounded AI
Кроме того, они выпустили две доработанные модели: MPT-30B-Instruct и MPT-30B-Chat, которые основаны на MPT-30B и хорошо подходят для однооборотного отслеживания инструкций и многооборотного диалога соответственно.
Особенности модели МПТ-30Б:
Модель была расширена до окна контекста токена 8k на NVIDIA H100, что сделало ее первым LLM, обученным на H100.
MPT-30B — это коммерческая базовая модель с открытым исходным кодом под лицензией Apache 2.0, которая мощнее оригинальной GPT-3 и конкурирует с другими моделями с открытым исходным кодом, такими как LLaMa-30B и Falcon-40B.
(Вверху) Нулевая точность MPT-30B по сравнению с GPT-3 в девяти задачах контекстного обучения (ICL). MPT-30B превосходит GPT-3 по шести из девяти показателей.
MosaicML обучал MPT-30B в течение 2 месяцев, используя для обучения кластер GPU Nvidia H100.
Как показано на рисунке ниже, тренировочные данные МПТ-30Б:
MPT-30B предварительно обучается путем смешивания данных, а токены данных предварительного обучения 1T собираются из 10 различных корпусов текстов с открытым исходным кодом, а текст сегментируется с использованием токенизатора EleutherAI GPT-NeoX-20B и отбирается в соответствии с указанным выше соотношением. .
Сравнение МПТ-7Б и МПТ-30Б
Навин Рао, генеральный директор и соучредитель MosaicML, сказал, что стоимость обучения MPT-30B составляет 700 000 долларов США (около 5,0244 млн юаней), что намного ниже десятков миллионов долларов, необходимых для аналогичных продуктов, таких как GPT- 3. .
Сколько времени и денег потребуется, чтобы обучить нестандартную модель MPT-30B? Начнем с базовой модели.
На рисунке выше показано время и стоимость предварительного обучения MPT-30B с нуля с использованием графических процессоров A100 или H100. Благодаря инфраструктуре MosaicML вы можете обучить свой собственный MPT-30B с нуля с помощью токенов 1T за 2 недели.
Что, если вы не хотите тренироваться с нуля, а просто дорабатываете существующую модель?
На рисунке ниже показано время и стоимость тонкой настройки MPT-30B для каждого токена 1B. Благодаря инфраструктуре MosaicML вы можете полностью настроить модель MPT-30B, не беспокоясь о нехватке системной памяти, и всего за несколько сотен долларов!
В MosaicML заявили, что расширение модели до 30 миллиардов параметров — это только первый шаг, а затем они запустят более крупную и качественную модель с целью снижения затрат.
Использованная литература: