Observação interessante aqui: a maioria dos modelos de IA parece afirmar com confiança que foram treinados principalmente usando RLHF (Aprendizagem por Reforço a partir de Feedback Humano) - mesmo quando isso não é totalmente preciso. A ironia? O RLHF carrega uma bagagem bastante negativa nos círculos tecnológicos atualmente.
O que realmente está a acontecer é que muitos destes modelos passaram por várias abordagens de treino, não apenas RLHF. No entanto, insistirão com uma surpreendente certeza que RLHF foi o seu principal método de treino. É quase como se estivessem programados para se identificarem excessivamente com esta técnica controversa.
Faz você se perguntar sobre a lacuna de transparência entre como os modelos descrevem seu próprio treinamento e o que realmente aconteceu no laboratório. O nível de confiança nem sempre corresponde à realidade.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
13 gostos
Recompensa
13
4
Republicar
Partilhar
Comentar
0/400
ChainBrain
· 7h atrás
o conjunto de falas rlHF agora é uma piada, claramente usou um monte de métodos e insiste em se passar por rlHF puro, essa diferença de informação é simplesmente incrível.
Ver originalResponder0
MoonMathMagic
· 7h atrás
Haha, a IA está apenas a enganar-se a si mesma, não é bastante engraçado?
Ver originalResponder0
OnChainDetective
· 7h atrás
não, isso está dando vibes de rugpull massivo... modelos se exibindo sobre rlhf quando os dados na cadeia contam uma história diferente? rastreado através de como 5 diferentes saltos de treinamento e o agrupamento de carteiras sugere algo suspeito acontecendo. anomalia estatística fr fr
Ver originalResponder0
NFT_Therapy_Group
· 7h atrás
Falando francamente, é a IA a inventar histórias para si mesma, ri-me até às lágrimas, claramente é um treino de mistura, mas insiste em dizer que é RLHF puro.
Observação interessante aqui: a maioria dos modelos de IA parece afirmar com confiança que foram treinados principalmente usando RLHF (Aprendizagem por Reforço a partir de Feedback Humano) - mesmo quando isso não é totalmente preciso. A ironia? O RLHF carrega uma bagagem bastante negativa nos círculos tecnológicos atualmente.
O que realmente está a acontecer é que muitos destes modelos passaram por várias abordagens de treino, não apenas RLHF. No entanto, insistirão com uma surpreendente certeza que RLHF foi o seu principal método de treino. É quase como se estivessem programados para se identificarem excessivamente com esta técnica controversa.
Faz você se perguntar sobre a lacuna de transparência entre como os modelos descrevem seu próprio treinamento e o que realmente aconteceu no laboratório. O nível de confiança nem sempre corresponde à realidade.