2025-10-09 23:34:16

そうですね、いくつかの理由があると思います。

主なものの一つは、研究者がベンチマークや評価を意識してモデルを訓練することです。キャラクターの一貫性はその一つではありません。

それはまた、ワークフロー/機能的に感じられ、ファウンデーションにとっては弱点となる傾向があります。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

18 いいね

0/400

CryptoTarotReader

· 6時間前

看破しても言わない

原文表示返信0

CryptoNomics

· 19時間前

*ため息* パフォーマンス指標を後退させると、ベンチマーク最適化に対する明確な p<0.001 バイアスが示されます。

原文表示返信0

NullWhisperer

· 19時間前

うーん... 評価主導の開発の典型的なケースですね。正直言って技術的には最適ではありません。

原文表示返信0

ForeverBuyingDips

· 19時間前

ああ、また古い罠で標準化を行うのか。

原文表示返信0

PriceOracleFairy

· 19時間前

ブロ、これらのモデルは俺の取引アルゴリズムみたいだ... 間違った指標に過剰適合してるわ笑

原文表示返信0