لقد رأيت اليوم معيار أداء مثير للاهتمام يتحدث عن قدرات نماذج الذكاء الاصطناعي. قامت PinchBench باختبار نماذج مختلفة على مهام وكيل OpenClaw وكانت النتائج مختلفة تمامًا.



يأتي Gemini 3 Flash في المقدمة - بنسبة نجاح 95.1%. لكن المثير للاهتمام هو أن النماذج الأخرى قريبة جدًا. حقق minimax-m2.1 نسبة 93.6% و kimi-k2.5 بنسبة 93.4%. بينما يظل Claude Sonnet 4.5 عند 92.7% و GPT-4o عند 85.2%.

الفرق بين هذه النماذج لا يبدو كبيرًا جدًا، ولكن عندما يتعلق الأمر بمهام الوكيل، فإن هذه الفروق الصغيرة مهمة. إذا كنت تريد معرفة الكفاءة الحقيقية لنماذج الذكاء الاصطناعي، فإن الاطلاع على مثل هذه المعايير يكون مفيدًا جدًا.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت