opinion impopulaire : les lancements de modèles d'IA deviennent ennuyeux.


pas parce que les modèles ne s'améliorent pas.. ils le font.
mais chaque sortie n'est que.. des benchmarks.
@OpenAI vient de sortir GPT-5.4 et toute l'annonce se résume à ce tableau.
75% sur OSWorld. 57,7% sur SWE-Bench Pro. 94,4% sur GPQA Diamond.
cool.. mais qu'est-ce que ça signifie pour moi qui construis des trucs à 2h du matin ?
personne en dehors d'AI twitter ne se soucie d'une amélioration de 2% sur MMLU. personne. zéro personne.
la partie la plus drôle ? regardez le tableau de près..
> Opus 4.6 est à portée de main sur presque tous les benchmarks.
> Gemini 3.1 Pro bat discrètement tout le monde sur BrowseComp à 85,9%.
le "gagnant" change selon la ligne que vous regardez.
Vous savez ce que je veux vraiment voir ?
montrez-moi la tâche du monde réel chaotique qu'il gère mieux qu'avant. montrez-moi la démo qui me fait un peu buguer. montrez-moi quelqu'un qui construit quelque chose avec, ce qui n'était pas possible le mois dernier.
le meilleur benchmark, c'est "est-ce que ça a facilité ma vie ?"
c'est tout. c'est toute l'évaluation.
les entreprises célèbrent les scores en mathématiques pendant que les utilisateurs veulent juste savoir si ça peut enfin gérer une base de code de 4K lignes sans casser la moitié des fonctionnalités.
commencez par là.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler