Código aberto e comercialmente disponível, o custo do modelo grande de 30 bilhões de parâmetros MPT-30B é apenas uma fração do GPT-3

A MosaicML, empresa de desenvolvimento de grandes modelos de IA, lançou recentemente um novo modelo de linguagem grande de código aberto comercialmente disponível MPT-30B, com 30 bilhões de parâmetros, significativamente mais poderoso do que o modelo de linguagem MPT-7B da geração anterior (7 bilhões de parâmetros), e seu desempenho é melhor do que GPT-3.

Fonte da imagem: Gerada por Unbounded AI

Além disso, eles lançaram dois modelos ajustados: MPT-30B-Instruct e MPT-30B-Chat, que se baseiam no MPT-30B e são bons em rastreamento de instruções de volta única e diálogo de várias voltas, respectivamente.

Características do modelo MPT-30B:

  • Janela de contexto de token de 8k durante o treinamento
  • Suporte para contextos mais longos via ALiBi
  • Obtenha inferência eficiente + desempenho de treinamento por meio do FlashAttention
  • A série MPT-30B também possui fortes recursos de codificação devido à sua mistura de dados pré-treinados.

O modelo foi estendido para uma janela de contexto de token de 8k no NVIDIA H100, tornando-o o primeiro LLM treinado no H100.

MPT-30B mais forte que GPT-3?

O MPT-30B é um modelo base de código aberto licenciado Apache 2.0 comercial que é mais forte que o GPT-3 original e competitivo com outros modelos de código aberto, como LLaMa-30B e Falcon-40B.

(Acima) Precisão zero-shot de MPT-30B versus GPT-3 em nove tarefas de aprendizado contextual (ICL). O MPT-30B supera o GPT-3 em seis das nove métricas.

O MosaicML treinou o MPT-30B por 2 meses, usando o cluster de GPU H100 da Nvidia para treinamento.

Conforme mostrado na figura abaixo, os dados de treinamento do MPT-30B:

MPT-30B é pré-treinado por mistura de dados, e tokens de dados de pré-treinamento 1T são coletados de 10 corpora de texto de código aberto diferentes, e o texto é segmentado usando o tokenizador EleutherAI GPT-NeoX-20B e amostrado de acordo com a proporção acima .

Comparação de MPT-7B e MPT-30B

Custo de treinamento MPT-30B

Naveen Rao, CEO e co-fundador da MosaicML, disse que o custo de treinamento do MPT-30B é de 700.000 dólares americanos (cerca de 5,0244 milhões de yuans), o que é muito inferior às dezenas de milhões de dólares necessários para produtos similares, como GPT- 3. .

Quanto tempo e dinheiro serão necessários para treinar um modelo MPT-30B personalizado? Vamos começar com o modelo básico.

A figura acima mostra o tempo e o custo do pré-treinamento do MPT-30B do zero usando GPUs A100 ou H100. Com a infraestrutura MosaicML, você pode treinar seu próprio MPT-30B personalizado do zero com tokens 1T em 2 semanas.

E se você não quiser treinar do zero, mas apenas ajustar um modelo existente?

A figura abaixo detalha o tempo e o custo do ajuste fino do MPT-30B para cada token 1B. Com a infraestrutura MosaicML, você pode ajustar totalmente seu modelo MPT-30B sem se preocupar com restrições de memória do sistema e por apenas algumas centenas de dólares!

A MosaicML disse que expandir o modelo para 30 bilhões de parâmetros é apenas o primeiro passo e, em seguida, eles lançarão um modelo maior e de maior qualidade com a premissa de reduzir custos.

Referências:

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)