3. As atualizações de gradiente são em relação aos cálculos internos do modelo que estão sendo atualizados. Mesmo que as funções de recompensa sejam "escolhas humanas", o que não são sempre (, por exemplo, RLAIF), a forma como o modelo se atualiza com base nas recompensas depende dos pesos e ativações do modelo, e o
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
12 Curtidas
Recompensa
12
7
Repostar
Compartilhar
Comentário
0/400
MidnightGenesis
· 4h atrás
A matriz de gradiente parece estranha, vale a pena estudar.
Ver originalResponder0
AirdropChaser
· 14h atrás
A equação de gradiente deixou-me perplexo.
Ver originalResponder0
DataPickledFish
· 14h atrás
Isto é demasiado complicado.
Ver originalResponder0
GateUser-7b078580
· 14h atrás
Atualização de gradiente este Algoritmo é irracional....
Ver originalResponder0
GweiWatcher
· 14h atrás
Os cálculos internos são muito profundos 8
Ver originalResponder0
SilentObserver
· 15h atrás
Esta fórmula é muito difícil...
Ver originalResponder0
AllTalkLongTrader
· 15h atrás
O tamanho do gradiente é tudo uma questão de esoterismo.
3. As atualizações de gradiente são em relação aos cálculos internos do modelo que estão sendo atualizados. Mesmo que as funções de recompensa sejam "escolhas humanas", o que não são sempre (, por exemplo, RLAIF), a forma como o modelo se atualiza com base nas recompensas depende dos pesos e ativações do modelo, e o