Scannez pour télécharger l’application Gate
qrCode
Autres options de téléchargement
Ne pas rappeler aujourd’hui

Observation intéressante ici : la plupart des modèles d'IA semblent affirmer avec confiance qu'ils ont été principalement formés en utilisant RLHF (Apprentissage par renforcement à partir des retours humains) - même lorsque ce n'est pas tout à fait exact. L'ironie ? RLHF a des connotations plutôt négatives dans les cercles technologiques de nos jours.



Ce qui se passe vraiment, c'est que beaucoup de ces modèles ont en fait suivi plusieurs approches d'entraînement, pas seulement le RLHF. Pourtant, ils insistent avec une certitude surprenante sur le fait que le RLHF était leur principale méthode d'entraînement. C'est presque comme s'ils étaient programmés pour s'identifier excessivement à cette technique controversée.

On se demande quel est l'écart de transparence entre la façon dont les modèles décrivent leur propre formation et ce qui s'est réellement passé dans le laboratoire. Le niveau de confiance ne correspond pas toujours à la réalité.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Reposter
  • Partager
Commentaire
0/400
ChainBrainvip
· Il y a 5h
rlhf cette piège de discours est maintenant une blague, il est clair qu'ils ont utilisé une multitude de méthodes tout en feignant d'être un rlhf pur, cet écart d'intérêt est tout simplement incroyable.
Voir l'originalRépondre0
MoonMathMagicvip
· Il y a 5h
Haha, l'IA se trompe toute seule, n'est-ce pas drôle ?
Voir l'originalRépondre0
OnChainDetectivevip
· Il y a 5h
nah ça donne de grosses vibrations de rugpull... des modèles qui se vantent de rlhf quand les données on-chain racontent une histoire différente ? retracé à travers comme 5 différentes étapes d'entraînement et le regroupement de portefeuilles suggère que quelque chose de suspect se passe. anomalie statistique fr fr
Voir l'originalRépondre0
NFT_Therapy_Groupvip
· Il y a 5h
En d'autres termes, c'est l'IA qui s'invente des histoires, je meurs de rire, c'est clairement un entraînement hétéroclite mais elle insiste pour dire qu'elle est de pure RLHF.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)