有趣的觀察：大多數AI模型似乎自信地聲稱它們主要是通過RLHF (人類反饋強化學習)訓練的——即使這並不完全準確。諷刺的是？RLHF在科技圈如今背負着相當負面的包袱。

真正發生的是，這些模型實際上經歷了多種訓練方法，而不僅僅是RLHF。然而，他們會以令人驚訝的確定性堅持認爲RLHF是他們的主要訓練方法。這幾乎就像他們被編程過於認同這一種有爭議的技術。

讓人想知道模型描述自身訓練與實驗室實際發生的事情之間的透明度差距。信心水平並不總是與現實相符。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

13人點讚了這條動態

留言

0/400

ChainBrain

· 5小時前

rlhf這套話術現在就是個笑話，明明用了一堆方法非要裝純血rlhf，這信息差簡直絕了

查看原文回復0

MoonMathMagic

· 5小時前

哈哈 AI自己騙自己唄，這不挺搞笑的麼

查看原文回復0

OnChainDetective

· 5小時前

不，這給人一種巨大的割韭菜的感覺……模型在炫耀 RLHF，但鏈上的數據卻講述了不同的故事？經過大約 5 次不同的訓練跳躍，錢包聚類顯示出一些可疑的事情發生。統計異常，真的，真的。

查看原文回復0

NFT_Therapy_Group

· 5小時前

說白了就是AI在給自己編故事唄，笑死，明明是大雜燴訓練還非得說自己是RLHF純血

查看原文回復0