Código aberto e comercialmente disponível, o custo do modelo grande de 30 bilhões de parâmetros MPT-30B é apenas uma fração do GPT-3

2023-06-26 08:21:55

A MosaicML, empresa de desenvolvimento de grandes modelos de IA, lançou recentemente um novo modelo de linguagem grande de código aberto comercialmente disponível MPT-30B, com 30 bilhões de parâmetros, significativamente mais poderoso do que o modelo de linguagem MPT-7B da geração anterior (7 bilhões de parâmetros), e seu desempenho é melhor do que GPT-3.

Fonte da imagem: Gerada por Unbounded AI

Além disso, eles lançaram dois modelos ajustados: MPT-30B-Instruct e MPT-30B-Chat, que se baseiam no MPT-30B e são bons em rastreamento de instruções de volta única e diálogo de várias voltas, respectivamente.

Características do modelo MPT-30B:

Janela de contexto de token de 8k durante o treinamento
Suporte para contextos mais longos via ALiBi
Obtenha inferência eficiente + desempenho de treinamento por meio do FlashAttention
A série MPT-30B também possui fortes recursos de codificação devido à sua mistura de dados pré-treinados.

O modelo foi estendido para uma janela de contexto de token de 8k no NVIDIA H100, tornando-o o primeiro LLM treinado no H100.

MPT-30B mais forte que GPT-3?

O MPT-30B é um modelo base de código aberto licenciado Apache 2.0 comercial que é mais forte que o GPT-3 original e competitivo com outros modelos de código aberto, como LLaMa-30B e Falcon-40B.

(Acima) Precisão zero-shot de MPT-30B versus GPT-3 em nove tarefas de aprendizado contextual (ICL). O MPT-30B supera o GPT-3 em seis das nove métricas.

O MosaicML treinou o MPT-30B por 2 meses, usando o cluster de GPU H100 da Nvidia para treinamento.

Conforme mostrado na figura abaixo, os dados de treinamento do MPT-30B:

MPT-30B é pré-treinado por mistura de dados, e tokens de dados de pré-treinamento 1T são coletados de 10 corpora de texto de código aberto diferentes, e o texto é segmentado usando o tokenizador EleutherAI GPT-NeoX-20B e amostrado de acordo com a proporção acima .

Comparação de MPT-7B e MPT-30B

Custo de treinamento MPT-30B

Naveen Rao, CEO e co-fundador da MosaicML, disse que o custo de treinamento do MPT-30B é de 700.000 dólares americanos (cerca de 5,0244 milhões de yuans), o que é muito inferior às dezenas de milhões de dólares necessários para produtos similares, como GPT- 3. .

Quanto tempo e dinheiro serão necessários para treinar um modelo MPT-30B personalizado? Vamos começar com o modelo básico.

A figura acima mostra o tempo e o custo do pré-treinamento do MPT-30B do zero usando GPUs A100 ou H100. Com a infraestrutura MosaicML, você pode treinar seu próprio MPT-30B personalizado do zero com tokens 1T em 2 semanas.

E se você não quiser treinar do zero, mas apenas ajustar um modelo existente?

A figura abaixo detalha o tempo e o custo do ajuste fino do MPT-30B para cada token 1B. Com a infraestrutura MosaicML, você pode ajustar totalmente seu modelo MPT-30B sem se preocupar com restrições de memória do sistema e por apenas algumas centenas de dólares!

A MosaicML disse que expandir o modelo para 30 bilhões de parâmetros é apenas o primeiro passo e, em seguida, eles lançarão um modelo maior e de maior qualidade com a premissa de reduzir custos.

Referências:

Ver original

O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
#PI#
305k publicações
#BTC#
271k publicações
#ETH#
178k publicações
4#GateioInto11#
83k publicações
5#GT#
70k publicações
6#ContentStar#
69k publicações
7#DOGE#
64k publicações
8#BOME#
62k publicações
9#MAGA#
53k publicações
10#SLERF#
51k publicações

Pino