3. As atualizações de gradiente são em relação aos cálculos internos do modelo que estão sendo atualizados. Mesmo que as funções de recompensa sejam "escolhas humanas", o que não são sempre (, por exemplo, RLAIF), a forma como o modelo se atualiza com base nas recompensas depende dos pesos e ativações do modelo, e o
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
12 gostos
Recompensa
12
7
Republicar
Partilhar
Comentar
0/400
MidnightGenesis
· 49m atrás
A matriz de gradiente parece estranha, vale a pena estudar.
Ver originalResponder0
AirdropChaser
· 11h atrás
A equação de gradiente deixou-me perplexo.
Ver originalResponder0
DataPickledFish
· 11h atrás
Isto é demasiado complicado.
Ver originalResponder0
GateUser-7b078580
· 11h atrás
Atualização de gradiente este Algoritmo é irracional....
Ver originalResponder0
GweiWatcher
· 11h atrás
Os cálculos internos são muito profundos 8
Ver originalResponder0
SilentObserver
· 11h atrás
Esta fórmula é muito difícil...
Ver originalResponder0
AllTalkLongTrader
· 11h atrás
O tamanho do gradiente é tudo uma questão de esoterismo.
3. As atualizações de gradiente são em relação aos cálculos internos do modelo que estão sendo atualizados. Mesmo que as funções de recompensa sejam "escolhas humanas", o que não são sempre (, por exemplo, RLAIF), a forma como o modelo se atualiza com base nas recompensas depende dos pesos e ativações do modelo, e o