A MosaicML, empresa de desenvolvimento de grandes modelos de IA, lançou recentemente um novo modelo de linguagem grande de código aberto comercialmente disponível MPT-30B, com 30 bilhões de parâmetros, significativamente mais poderoso do que o modelo de linguagem MPT-7B da geração anterior (7 bilhões de parâmetros), e seu desempenho é melhor do que GPT-3.
Fonte da imagem: Gerada por Unbounded AI
Além disso, eles lançaram dois modelos ajustados: MPT-30B-Instruct e MPT-30B-Chat, que se baseiam no MPT-30B e são bons em rastreamento de instruções de volta única e diálogo de várias voltas, respectivamente.
Características do modelo MPT-30B:
Janela de contexto de token de 8k durante o treinamento
Suporte para contextos mais longos via ALiBi
Obtenha inferência eficiente + desempenho de treinamento por meio do FlashAttention
A série MPT-30B também possui fortes recursos de codificação devido à sua mistura de dados pré-treinados.
O modelo foi estendido para uma janela de contexto de token de 8k no NVIDIA H100, tornando-o o primeiro LLM treinado no H100.
MPT-30B mais forte que GPT-3?
O MPT-30B é um modelo base de código aberto licenciado Apache 2.0 comercial que é mais forte que o GPT-3 original e competitivo com outros modelos de código aberto, como LLaMa-30B e Falcon-40B.
(Acima) Precisão zero-shot de MPT-30B versus GPT-3 em nove tarefas de aprendizado contextual (ICL). O MPT-30B supera o GPT-3 em seis das nove métricas.
O MosaicML treinou o MPT-30B por 2 meses, usando o cluster de GPU H100 da Nvidia para treinamento.
Conforme mostrado na figura abaixo, os dados de treinamento do MPT-30B:
MPT-30B é pré-treinado por mistura de dados, e tokens de dados de pré-treinamento 1T são coletados de 10 corpora de texto de código aberto diferentes, e o texto é segmentado usando o tokenizador EleutherAI GPT-NeoX-20B e amostrado de acordo com a proporção acima .
Comparação de MPT-7B e MPT-30B
Custo de treinamento MPT-30B
Naveen Rao, CEO e co-fundador da MosaicML, disse que o custo de treinamento do MPT-30B é de 700.000 dólares americanos (cerca de 5,0244 milhões de yuans), o que é muito inferior às dezenas de milhões de dólares necessários para produtos similares, como GPT- 3. .
Quanto tempo e dinheiro serão necessários para treinar um modelo MPT-30B personalizado? Vamos começar com o modelo básico.
A figura acima mostra o tempo e o custo do pré-treinamento do MPT-30B do zero usando GPUs A100 ou H100. Com a infraestrutura MosaicML, você pode treinar seu próprio MPT-30B personalizado do zero com tokens 1T em 2 semanas.
E se você não quiser treinar do zero, mas apenas ajustar um modelo existente?
A figura abaixo detalha o tempo e o custo do ajuste fino do MPT-30B para cada token 1B. Com a infraestrutura MosaicML, você pode ajustar totalmente seu modelo MPT-30B sem se preocupar com restrições de memória do sistema e por apenas algumas centenas de dólares!
A MosaicML disse que expandir o modelo para 30 bilhões de parâmetros é apenas o primeiro passo e, em seguida, eles lançarão um modelo maior e de maior qualidade com a premissa de reduzir custos.
Referências:
Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
Código aberto e comercialmente disponível, o custo do modelo grande de 30 bilhões de parâmetros MPT-30B é apenas uma fração do GPT-3
A MosaicML, empresa de desenvolvimento de grandes modelos de IA, lançou recentemente um novo modelo de linguagem grande de código aberto comercialmente disponível MPT-30B, com 30 bilhões de parâmetros, significativamente mais poderoso do que o modelo de linguagem MPT-7B da geração anterior (7 bilhões de parâmetros), e seu desempenho é melhor do que GPT-3.
Além disso, eles lançaram dois modelos ajustados: MPT-30B-Instruct e MPT-30B-Chat, que se baseiam no MPT-30B e são bons em rastreamento de instruções de volta única e diálogo de várias voltas, respectivamente.
Características do modelo MPT-30B:
O modelo foi estendido para uma janela de contexto de token de 8k no NVIDIA H100, tornando-o o primeiro LLM treinado no H100.
MPT-30B mais forte que GPT-3?
O MPT-30B é um modelo base de código aberto licenciado Apache 2.0 comercial que é mais forte que o GPT-3 original e competitivo com outros modelos de código aberto, como LLaMa-30B e Falcon-40B.
O MosaicML treinou o MPT-30B por 2 meses, usando o cluster de GPU H100 da Nvidia para treinamento.
Conforme mostrado na figura abaixo, os dados de treinamento do MPT-30B:
Custo de treinamento MPT-30B
Naveen Rao, CEO e co-fundador da MosaicML, disse que o custo de treinamento do MPT-30B é de 700.000 dólares americanos (cerca de 5,0244 milhões de yuans), o que é muito inferior às dezenas de milhões de dólares necessários para produtos similares, como GPT- 3. .
Quanto tempo e dinheiro serão necessários para treinar um modelo MPT-30B personalizado? Vamos começar com o modelo básico.
E se você não quiser treinar do zero, mas apenas ajustar um modelo existente?
A figura abaixo detalha o tempo e o custo do ajuste fino do MPT-30B para cada token 1B. Com a infraestrutura MosaicML, você pode ajustar totalmente seu modelo MPT-30B sem se preocupar com restrições de memória do sistema e por apenas algumas centenas de dólares!
Referências: