Открытый исходный код и коммерчески доступная стоимость большой модели MPT-30B с 30 миллиардами параметров составляет лишь часть GPT-3.

巴比特_

Компания MosaicML, занимающаяся разработкой больших моделей искусственного интеллекта, недавно выпустила новую коммерчески доступную модель большого языка с открытым исходным кодом MPT-30B с 30 миллиардами параметров, которая значительно мощнее, чем языковая модель предыдущего поколения MPT-7B (7 миллиардов параметров), а ее производительность выше. лучше ГПТ-3.

Источник изображения: сгенерировано Unbounded AI

Кроме того, они выпустили две доработанные модели: MPT-30B-Instruct и MPT-30B-Chat, которые основаны на MPT-30B и хорошо подходят для однооборотного отслеживания инструкций и многооборотного диалога соответственно.

Особенности модели МПТ-30Б:

  • Окно контекста токена 8k во время обучения
  • Поддержка более длинных контекстов через ALiBi
  • Добейтесь эффективного логического вывода + производительности обучения с помощью FlashAttention
  • Серия MPT-30B также обладает широкими возможностями кодирования благодаря предварительно обученному набору данных.

Модель была расширена до окна контекста токена 8k на NVIDIA H100, что сделало ее первым LLM, обученным на H100.

МПТ-30Б сильнее ГПТ-3?

MPT-30B — это коммерческая базовая модель с открытым исходным кодом под лицензией Apache 2.0, которая мощнее оригинальной GPT-3 и конкурирует с другими моделями с открытым исходным кодом, такими как LLaMa-30B и Falcon-40B.

(Вверху) Нулевая точность MPT-30B по сравнению с GPT-3 в девяти задачах контекстного обучения (ICL). MPT-30B превосходит GPT-3 по шести из девяти показателей.

MosaicML обучал MPT-30B в течение 2 месяцев, используя для обучения кластер GPU Nvidia H100.

Как показано на рисунке ниже, тренировочные данные МПТ-30Б:

MPT-30B предварительно обучается путем смешивания данных, а токены данных предварительного обучения 1T собираются из 10 различных корпусов текстов с открытым исходным кодом, а текст сегментируется с использованием токенизатора EleutherAI GPT-NeoX-20B и отбирается в соответствии с указанным выше соотношением. .

Сравнение МПТ-7Б и МПТ-30Б

Стоимость обучения MPT-30B

Навин Рао, генеральный директор и соучредитель MosaicML, сказал, что стоимость обучения MPT-30B составляет 700 000 долларов США (около 5,0244 млн юаней), что намного ниже десятков миллионов долларов, необходимых для аналогичных продуктов, таких как GPT- 3. .

Сколько времени и денег потребуется, чтобы обучить нестандартную модель MPT-30B? Начнем с базовой модели.

На рисунке выше показано время и стоимость предварительного обучения MPT-30B с нуля с использованием графических процессоров A100 или H100. Благодаря инфраструктуре MosaicML вы можете обучить свой собственный MPT-30B с нуля с помощью токенов 1T за 2 недели.

Что, если вы не хотите тренироваться с нуля, а просто дорабатываете существующую модель?

На рисунке ниже показано время и стоимость тонкой настройки MPT-30B для каждого токена 1B. Благодаря инфраструктуре MosaicML вы можете полностью настроить модель MPT-30B, не беспокоясь о нехватке системной памяти, и всего за несколько сотен долларов!

В MosaicML заявили, что расширение модели до 30 миллиардов параметров — это только первый шаг, а затем они запустят более крупную и качественную модель с целью снижения затрат.

Использованная литература:

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев