Observation intéressante ici : la plupart des modèles d'IA semblent affirmer avec confiance qu'ils ont été principalement formés en utilisant RLHF (Apprentissage par renforcement à partir des retours humains) - même lorsque ce n'est pas tout à fait exact. L'ironie ? RLHF a des connotations plutôt négatives dans les cercles technologiques de nos jours.
Ce qui se passe vraiment, c'est que beaucoup de ces modèles ont en fait suivi plusieurs approches d'entraînement, pas seulement le RLHF. Pourtant, ils insistent avec une certitude surprenante sur le fait que le RLHF était leur principale méthode d'entraînement. C'est presque comme s'ils étaient programmés pour s'identifier excessivement à cette technique controversée.
On se demande quel est l'écart de transparence entre la façon dont les modèles décrivent leur propre formation et ce qui s'est réellement passé dans le laboratoire. Le niveau de confiance ne correspond pas toujours à la réalité.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
13 J'aime
Récompense
13
4
Reposter
Partager
Commentaire
0/400
ChainBrain
· Il y a 5h
rlhf cette piège de discours est maintenant une blague, il est clair qu'ils ont utilisé une multitude de méthodes tout en feignant d'être un rlhf pur, cet écart d'intérêt est tout simplement incroyable.
Voir l'originalRépondre0
MoonMathMagic
· Il y a 5h
Haha, l'IA se trompe toute seule, n'est-ce pas drôle ?
Voir l'originalRépondre0
OnChainDetective
· Il y a 5h
nah ça donne de grosses vibrations de rugpull... des modèles qui se vantent de rlhf quand les données on-chain racontent une histoire différente ? retracé à travers comme 5 différentes étapes d'entraînement et le regroupement de portefeuilles suggère que quelque chose de suspect se passe. anomalie statistique fr fr
Voir l'originalRépondre0
NFT_Therapy_Group
· Il y a 5h
En d'autres termes, c'est l'IA qui s'invente des histoires, je meurs de rire, c'est clairement un entraînement hétéroclite mais elle insiste pour dire qu'elle est de pure RLHF.
Observation intéressante ici : la plupart des modèles d'IA semblent affirmer avec confiance qu'ils ont été principalement formés en utilisant RLHF (Apprentissage par renforcement à partir des retours humains) - même lorsque ce n'est pas tout à fait exact. L'ironie ? RLHF a des connotations plutôt négatives dans les cercles technologiques de nos jours.
Ce qui se passe vraiment, c'est que beaucoup de ces modèles ont en fait suivi plusieurs approches d'entraînement, pas seulement le RLHF. Pourtant, ils insistent avec une certitude surprenante sur le fait que le RLHF était leur principale méthode d'entraînement. C'est presque comme s'ils étaient programmés pour s'identifier excessivement à cette technique controversée.
On se demande quel est l'écart de transparence entre la façon dont les modèles décrivent leur propre formation et ce qui s'est réellement passé dans le laboratoire. Le niveau de confiance ne correspond pas toujours à la réalité.