Futuros
Acesse centenas de contratos perpétuos
TradFi
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Launchpad
Chegue cedo para o próximo grande projeto de token
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
New
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos em RWA
Qual é o relatório que deixou até Musk impressionado?
A Moonshot AI (equipa do Kimi) lançou recentemente um relatório técnico explosivo: "Attention Residuals", que atualiza directamente as conexões residuais (Residual Connections) usadas há quase 10 anos no Transformer. O resultado é que até Elon Musk não resistiu e deixou um comentário, sentindo-se impressionado (nível de choque "unbelievable").
O núcleo deste resumido numa frase:
"Deixem de fazer cada camada somar ingenuamente todas as informações das camadas anteriores com pesos iguais. Deixem o modelo aprender a usar atenção para escolher quais sinais das camadas iniciais realmente têm utilidade!"
No Transformer tradicional (estrutura PreNorm), a saída de cada camada é:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
Simples e bruto: independentemente de as informações das 100 camadas anteriores serem úteis ou não, tudo é adicionado de uma vez. Com camadas mais profundas, os sinais importantes das camadas iniciais são diluídos rapidamente pelas inúmeras camadas posteriores (chamam este fenómeno de PreNorm dilution ou representational dilution).
A equipa do Kimi substituiu directamente este sinal "+" por uma atenção leve entre camadas (depth-wise attention):
A nova fórmula parece assim (versão simplificada):
x_l = Attention( Q=x_l^{pre}, K=resumo de todas as camadas anteriores, V=valores correspondentes ) + outras coisas
A implementação mais prática que chamam de Block AttnRes: a cada poucas camadas (por exemplo, 8-16 camadas) fazem um resumo de key/value, depois usam atenção para seleccionar estes resumos, em vez de calcular atenção em cada camada. Desta forma, o aumento de memória e computação é mínimo (latência de inferência <2%), mas o desempenho é impressionante.
Os seus resultados experimentais (usando a sua série de modelos Kimi Linear, 48B total / 3B activo):
• Sob FLOPs iguais, ganho de desempenho equivalente a uma vantagem de computação de 1,25 vezes
• Melhoria óbvia em inferência de sequências longas e tarefas de raciocínio multietapas complexas
• A magnitude (norma) do estado oculto é mais estável, não explodindo ou atenuando-se como as conexões residuais tradicionais com maior profundidade
• Propagação de gradiente mais uniforme, camadas profundas mais fáceis de treinar
⚠️⚠️
Qual é a razão para a forte reação de Musk?
"Conexões residuais descansaram por oito anos, finalmente alguém se atreve a modificá-las, e ainda de forma tão elegante, com resultados tão bons?!"
Por que isto merece atenção? Porque as conexões residuais são praticamente o único "fio condutor de salvação" que permitiu ao Transformer treinar até 100+ camadas, ou mesmo milhares de camadas. Todos sentiam que já era óptimo e não podia ser melhorado. O resultado é que o Kimi, usando o mecanismo de atenção mais familiar, resolveu os problemas das próprias conexões residuais, equivalente a levar o conceito "atenção é tudo o que você precisa" para um novo patamar.
Agora já existem implementações em Rust (baseadas no framework burn), vários gráficos de explicação visual a proliferar no X, e há quem diga que esta é, após o mHC da DeepSeek, outra inovação arquitectónica verdadeiramente viável para a próxima geração de modelos de código aberto/fechado.
Se trabalha com grandes modelos, treina seu próprio LLM, este relatório vale a pena ser lido no original durante a noite + código (já aberto no GitHub).
Relatório:
Prepare-se para ficar impressionado 🚀