De código abierto y disponible comercialmente, el costo del modelo grande MPT-30B de 30 mil millones de parámetros es solo una fracción de GPT-3

La compañía de desarrollo de modelos grandes de IA MosaicML lanzó recientemente un nuevo modelo de lenguaje grande de código abierto disponible comercialmente MPT-30B, con 30 mil millones de parámetros, que es significativamente más poderoso que el modelo de lenguaje MPT-7B de la generación anterior (7 mil millones de parámetros), y su rendimiento es mejor que GPT-3.

Fuente de la imagen: Generada por Unbounded AI

Además, lanzaron dos modelos perfeccionados: MPT-30B-Instruct y MPT-30B-Chat, que se basan en MPT-30B y son buenos para el seguimiento de instrucciones de un solo turno y el diálogo de varios turnos, respectivamente.

Características del modelo MPT-30B:

  • Ventana de contexto de token de 8k durante el entrenamiento
  • Soporte para contextos más largos a través de ALiBi
  • Logre inferencia eficiente + rendimiento de entrenamiento a través de FlashAttention
  • La serie MPT-30B también tiene fuertes capacidades de codificación debido a su combinación de datos preentrenados.

El modelo se ha ampliado a una ventana de contexto de token de 8k en NVIDIA H100, lo que lo convierte en el primer LLM formado en H100.

¿MPT-30B más fuerte que GPT-3?

MPT-30B es un modelo base comercial de código abierto con licencia Apache 2.0 que es más fuerte que el GPT-3 original y competitivo con otros modelos de código abierto como LLaMa-30B y Falcon-40B.

(Arriba) Precisión de disparo cero de MPT-30B frente a GPT-3 en nueve tareas de aprendizaje contextual (ICL). MPT-30B supera a GPT-3 en seis de nueve métricas.

MosaicML entrenó el MPT-30B durante 2 meses, utilizando el clúster de GPU H100 de Nvidia para el entrenamiento.

Como se muestra en la figura a continuación, los datos de entrenamiento de MPT-30B:

MPT-30B se entrena previamente mediante la combinación de datos, y los tokens de datos de entrenamiento previo de 1T se recopilan de 10 corpus de texto de código abierto diferentes, y el texto se segmenta utilizando el tokenizador EleutherAI GPT-NeoX-20B, y se muestrea de acuerdo con la proporción anterior .

Comparación de MPT-7B y MPT-30B

Costo de entrenamiento de MPT-30B

Naveen Rao, director ejecutivo y cofundador de MosaicML, dijo que el costo de capacitación de MPT-30B es de 700 000 dólares estadounidenses (alrededor de 5,0244 millones de yuanes), que es mucho más bajo que las decenas de millones de dólares necesarios para productos similares como GPT- 3. .

¿Cuánto tiempo y dinero se necesita para entrenar un modelo MPT-30B personalizado? Comencemos con el modelo básico.

La figura anterior muestra el tiempo y el costo de entrenar previamente el MPT-30B desde cero usando las GPU A100 o H100. Con la infraestructura MosaicML, puede entrenar su propio MPT-30B personalizado desde cero con tokens 1T en 2 semanas.

¿Qué sucede si no desea entrenar desde cero, sino simplemente ajustar un modelo existente?

La siguiente figura detalla el tiempo y el costo de ajustar MPT-30B para cada token de 1B. Con la infraestructura de MosaicML, puede ajustar completamente su modelo MPT-30B sin preocuparse por las limitaciones de la memoria del sistema, ¡y por solo unos pocos cientos de dólares!

MosaicML dijo que expandir el modelo a 30 mil millones de parámetros es solo el primer paso, y luego lanzarán un modelo más grande y de mayor calidad con la premisa de reducir costos.

Referencias:

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)