Open source et disponible dans le commerce, le coût du grand modèle MPT-30B de 30 milliards de paramètres n'est qu'une fraction de GPT-3

巴比特_

La grande société de développement de modèles AI MosaicML a récemment publié un nouveau modèle de langage MPT-30B open source disponible dans le commerce, avec 30 milliards de paramètres, ce qui est nettement plus puissant que le modèle de langage MPT-7B de la génération précédente (7 milliards de paramètres), et ses performances sont mieux que GPT-3.

Source de l’image : générée par l’IA illimitée

En outre, ils ont publié deux modèles affinés : MPT-30B-Instruct et MPT-30B-Chat, qui s’appuient sur MPT-30B et sont bons pour le suivi des instructions à un tour et le dialogue à plusieurs tours, respectivement.

Caractéristiques du modèle MPT-30B :

  • Fenêtre de contexte de jeton 8k pendant la formation
  • Prise en charge de contextes plus longs via ALiBi
  • Obtenez une inférence efficace + des performances d’entraînement grâce à FlashAttention
  • La série MPT-30B possède également de fortes capacités d’encodage grâce à son mélange de données pré-formé.

Le modèle a été étendu à une fenêtre de contexte de jeton 8k sur NVIDIA H100, ce qui en fait le premier LLM formé sur H100.

MPT-30B plus fort que GPT-3 ?

MPT-30B est un modèle de base open source sous licence Apache 2.0 commercial qui est plus puissant que le GPT-3 d’origine et compétitif avec d’autres modèles open source tels que LLaMa-30B et Falcon-40B.

(Haut) Précision zéro coup du MPT-30B par rapport au GPT-3 sur neuf tâches d’apprentissage contextuel (ICL). MPT-30B surpasse GPT-3 sur six mesures sur neuf.

MosaicML a formé le MPT-30B pendant 2 mois, en utilisant le cluster GPU H100 de Nvidia pour la formation.

Comme le montre la figure ci-dessous, les données d’entraînement du MPT-30B :

MPT-30B est pré-formé par mélange de données, et des jetons de données de pré-formation 1T sont collectés à partir de 10 corpus de texte open source différents, et le texte est segmenté à l’aide du tokenizer EleutherAI GPT-NeoX-20B, et échantillonné selon le rapport ci-dessus .

Comparaison de MPT-7B et MPT-30B

Coût de la formation MPT-30B

Naveen Rao, PDG et co-fondateur de MosaicML, a déclaré que le coût de formation du MPT-30B est de 700 000 dollars américains (environ 5,0244 millions de yuans), ce qui est bien inférieur aux dizaines de millions de dollars requis pour des produits similaires tels que GPT- 3. .

Combien de temps et d’argent faudra-t-il pour former un modèle MPT-30B personnalisé ? Commençons par le modèle de base.

La figure ci-dessus montre le temps et le coût de la pré-formation MPT-30B à partir de zéro en utilisant des GPU A100 ou H100. Avec l’infrastructure MosaicML, vous pouvez former votre propre MPT-30B personnalisé à partir de zéro avec des jetons 1T en 2 semaines.

Que faire si vous ne voulez pas vous entraîner à partir de zéro, mais simplement affiner un modèle existant ?

La figure ci-dessous détaille le temps et le coût de réglage fin du MPT-30B pour chaque jeton 1B. Avec l’infrastructure MosaicML, vous pouvez entièrement affiner votre modèle MPT-30B sans vous soucier des contraintes de mémoire système, et pour seulement quelques centaines de dollars !

MosaicML a déclaré que l’extension du modèle à 30 milliards de paramètres n’est que la première étape, puis ils lanceront un modèle plus grand et de meilleure qualité sur la base de la réduction des coûts.

Les références:

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)