امسح ضوئيًا لتحميل تطبيق Gate
qrCode
خيارات تحميل إضافية
لا تذكرني بذلك مرة أخرى اليوم

ظهور كلود أوبوس 4.5! نسبة الدقة تفوق GPT-5.1 و Gemini 3، لوتون: تطور ذاتي قوي

بعد أسبوع واحد فقط من إطلاق Google لـ Gemini 3، أعلنت Anthropic أيضًا في 11/25 عن إطلاق أحدث نموذج رئيسي لها Claude Opus 4.5، وأكدت أن هذا الإصدار قد تم تحسينه بشكل كبير في برمجة الكمبيوتر، وتشغيل الوكلاء الذكية، واستخدام تطبيقات الكمبيوتر، بالإضافة إلى القدرة على معالجة محادثات أطول. حتى أن مدير علاقات المطورين في Anthropic، أليكس ألبرت، صرح في مقابلة له قائلاً: “هذا هو أذكى نموذج في العالم.”

كلود أوبوس 4.5 أقوى النقاط البارزة في لمحة واحدة

النقطة المضيئة الأولى: الأداء يتفوق على GPT-5.1 و Gemini 3، وتعزيز تطبيقات الوكيل

حدد الرسمي Opus 4.5 كأحد “أقوى النماذج في العالم”، وابتداءً من اليوم، سيتاح الاستخدام على التطبيقات و API وثلاثة منصات سحابية (AWS و GCP و Azure). يمكننا معرفة ذلك من خلال مقارنة أداء نموذج AI المقدم من Anthropic:

“أوبوس 4.5 يتمتع بدقة تصل إلى 80.9 %، متفوقًا على جمني 3 برو و جي بي تي 5.1.”

أعلنت الجهة الرسمية أن إصدار Opus 4.5 هذا يتألق بشكل خاص في البرمجة، وعملاء الذكاء الاصطناعي، والاستدلال متعدد الخطوات، وتشغيل أدوات الكمبيوتر، حيث أن الأداء في التطبيقات العامة مثل الأبحاث الطويلة، وPowerPoint، وExcel قد تحسن بشكل ملحوظ.

وتم تحديد السعر الجديد بمبلغ 5 دولارات لكل مليون توكن مدخل و 25 دولارًا لكل مليون توكن مخرج، وهو أكثر ملاءمة مقارنةً بالجيل السابق Opus 4.1، مما يتيح المزيد من الشركات والفرق اعتماد ميزات مستوى Opus.

النقطة البارزة الثانية: تقييمات إيجابية متسقة من الاختبارات الداخلية، يمكن فهمها وحلها

أفادت أنثروبيك أن أعضاء الفريق قدموا تعليقات متسقة بعد إصدار النسخة التجريبية. وخاصة:

“Opus 4.5 قادر على التعامل مع بعض المشاكل الغامضة والتوازنات الاستنتاجية، وعندما يواجه أخطاء معقدة في أنظمة متعددة، سيبحث عن الحلول بنفسه.”

في السابق ، كانت المهمة التي كانت Sonnet 4.5 غير قادرة تقريبًا على إنجازها ، يمكن الآن لـ Opus 4.5 إتمامها. وقد أشار المختبرون بشكل عام إلى أن Opus 4.5 يفهم “نية المستخدم” بشكل جيد ، وتعتقد الشركة الرسمية أن هذا يجلب فارقًا واضحًا في التجربة.

Windsurf، GitHub وغيرها من المديرين التنفيذيين جميعهم يدعمون Opus 4.5. النقطة البارزة الثالثة: سجل الابتكار في اختبار البرمجة، أداء الأسئلة في ساعتين يتجاوز البشر.

أشارت شركة أنثروبيك إلى أنها تستخدم اختبارًا عمليًا عالي الصعوبة عند توظيف المهندسين. خلال نفس فترة الإجابة التي تبلغ ساعتين، تمكن كلود أوبس 4.5 من تجاوز أداء جميع المتقدمين البشريين على مر السنين، محققًا رقمًا قياسيًا جديدًا.

التوضيح الرسمي، هذه الاختبار تقيم بشكل رئيسي القدرات الفنية والقدرة على اتخاذ القرارات تحت الضغط، ولا تتعلق بالمهارات الناعمة مثل التعاون والتواصل. ومع ذلك، من خلال هذه النتائج، يمكننا أن نرى أن الذكاء الاصطناعي يتقدم بسرعة كبيرة في الجوانب الفنية البحتة في مجال الهندسة.

النقطة الرابعة: تعزيز الأمان، مما يجعل من الصعب التعرض لخداع هجمات حقن التنبيهات.

أشارت أنثروبيك إلى أن Opus 4.5 هو “النموذج الأكثر توافقًا وأمانًا حتى الآن”.

تتمثل النقطة الرئيسية في ترقية الأمان هذه في أن قدرة النموذج على مقاومة هجمات حقن الإرشادات قد زادت بشكل كبير، مما يجعل من الصعب تضمين أوامر خبيثة في النموذج وأيضًا يجعل من الأصعب خداع النظام لتنفيذ سلوك غير مناسب. بالمقارنة مع نماذج متقدمة أخرى، حقق Opus 4.5 أيضًا أفضل النتائج في اختبارات الأمان ذات الصلة. يمكن ملاحظة ذلك من الصورة أدناه:

“أوبوس 4.5 وبقية النماذج المعروفة تحت نفس ظروف الاختبار، هي الأقل عرضة للخداع، والأقل عرضة لنجاح هجمات حقن التلميحات، حيث كانت أداء الدفاع بارزاً.”

الميزة الخامسة: محادثات طويلة بلا انقطاع، تحسين شامل للتجربة على كروم والتطبيق

أنتروبك قامت أيضًا بتحديث العديد من المنتجات. أولاً، وضع التخطيط لبرنامج كلود كود تم ترقيته، حيث سيتم توضيح السؤال أولاً ثم إنشاء ملف plan.md قابل للتعديل تلقائيًا قبل تنفيذ البرنامج. النسخة المكتبية أضافت أيضًا جلسات متعددة، مما يسمح لعدة وكلاء بتنفيذ مهام مختلفة في نفس الوقت.

تم تحسين تطبيق Claude الذي يستخدمه المستخدمون العاديون أيضًا، حيث لا تتوقف المحادثات الطويلة بسبب طول السياق، بل يقوم النظام تلقائيًا بتنظيم المحتوى السابق لضمان عدم انقطاع المحادثة. كما أن Claude for Chrome مفتوح بالكامل لمستخدمي Max، مما يسمح بمعالجة العمليات المعقدة عبر علامات التبويب.

كان Claude for Excel في الأصل مقتصراً على مستخدمي Beta، لكنه توسع الآن ليشمل مستخدمي Max وTeam وEnterprise، ويدمج Opus 4.5 لتعزيز قدرات معالجة الجداول والبيانات. أخيراً، قامت Anthropic أيضاً برفع الحد الأقصى لاستخدام الكلي، وألغت القيود المخصصة لـ Opus، مما يسمح لمستخدمي Max وTeam Premium باستخدام Opus 4.5 بمستوى “حجم العمل اليومي”، وإذا تم إطلاق نماذج أقوى في المستقبل، فسوف يتم تعديل الاستخدام ذي الصلة.

(ملاحظة:

plan.md

ليس ملفًا خارجيًا، بل هو نوع من “ملف خطة المهمة” يتم إنشاؤه تلقائيًا بواسطة كود كلود قبل تنفيذ المهام، يتم استخدام تنسيق Markdown الشائع. )

الساعة 2:6: ذكرت لكتين أن Opus 4.5 يتمتع بوظيفة التطور الذاتي

من بين النقاط البارزة، أشارت Rakuten( في اليابان إلى أن Claude Opus 4.5 قد حقق تقدمًا ملحوظًا في وكيل الذكاء الاصطناعي القابل للتطور الذاتي.

في التطبيقات العملية للأتمتة المكتبية، يمكن للوكالات ذات الصلة تحسين قدراتها بشكل تلقائي، حيث يمكنها تحقيق أفضل أداء في أربع دورات فقط، بينما لا تستطيع النماذج الأخرى حتى بعد عشر دورات أن تصل إلى نفس الجودة.

أكدت لكتان أن هذا الاختلاف يجعل Opus 4.5 يظهر كفاءة أعلى في التطبيقات على مستوى المؤسسات.

ظهور هذه المقالة Claude Opus 4.5! دقة أكبر بكثير من GPT-5.1 و Gemini 3، Rakuten: أقوى في التطور الذاتي. ظهرت لأول مرة في Chain News ABMedia.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت