مراجعة كاملة: كيف وُلِدَ مانوس؟

3/17/2025, 7:40:21 AM

متوسط

يقدم هذا المقال تحليلاً عميقًا لخلفية ولادة Manus.im، ومفاهيم المنتج، وممارساتها المبتكرة في مجال الذكاء الاصطناعي.

جاءت قصة ريادية تلقت أكبر تغذية روحية العام الماضي من مؤسس ديفي زانغ لويو.

كانت المرة الأولى التي قابلته في حدث "Xixi Taoism" في عام 2023. بين الأسماء المشهورة في الحدث، كانت زهانغ لويو غير بارزة. عندما نلتقي مرة أخرى في عام 2024، ديفي هو بالفعل قصة أخرى - رائد أعمال ليس لديه خلفية ساحرة، صنع واحدة من أنجح منتجات الذكاء الاصطناعي مفتوحة المصدر في العالم رغم شكوك الجميع حول نموذج الأعمال.

ماذا حدث لهذه الشركة في عام واحد، مثل شعبيتها الغير متوقعة في السوق اليابانية، التي هي "تقليدية وسهلة الدفاع ولكن من الصعب مهاجمتها"، ساعدتني في فهم أعمق لـ "ريادة الأعمال". إنها في الغالب حوادث، وتتطلب أيضًا الحظ. في النهاية، عليك أن تمتلك القدرة على إيجاد طريقة للخروج من التغيرات والانعكاسات المستمرة.

الآن، حدثت قصة مماثلة لرائد أعمال آخر معروف—Manus.im Xiao Hong وفريقه.

قبل أربعة أشهر ، ذكرت شياو هونغ ارتباكًا ، "الفريق ماهر في الانتقال من 0 إلى 1 ولديه قدرة قوية على الاستفادة من الفرص. بمجرد أن يبدأ من 1 إلى N ، الحالة ليست بهذه الجودة."

في تجربته السابقة، تمكنت معظم المشاريع الريادية من تحقيق إيرادات مستقرة وكبيرة، وتم الاستحواذ بنجاح أيضًا على شركته الأخيرة. في عام 2023، استخدمت شركته الجديدة "تأثير الفراشة" حتى إضافة تصفح الويب، Monica.im، للمنافسة في مجال السرد الذكي لمئات النماذج وأصبحت واحدة من أسرع التطبيقات الذكية نموًا بتجربة منتج ممتازة. يبدو أنه رجل أعمال قد قام برحلة سلسة. إنه في سن 32 فقط عندما يمكنه القيام بهذه الأشياء.

ولكن في الواقع، لم يكن يشعر بالسعادة تمامًا. في رأي شياو هونغ، فإن ما يسمى "خروج مستمر لرجال الأعمال" وشعور الانتعاش المستمر بالذهاب باستمرار من 0 إلى 1 هما كالحصار - القدرة على استغلال الفرص من 0 إلى 1 قوية جدًا ومرضية للغاية، ولكن من ناحية أخرى، أنت أيضًا قلق بشأن ما إذا كنت ستحتاج إلى القيام بذلك مرة أخرى.

في عام 2024، يعتقد المحترفون في الصناعة أن مساعدي الذكاء الاصطناعي ذوي وظائف الذاكرة مثل Monica.im سيواجهون ضغوطًا من خصوم قويين مثل Doubao، ولن يكون الأمر بسهولة كما في عام 2023. Monica.im لديها بداية جيدة من 0 إلى 1، ولكن ليس بالضرورة ضربة من 1 إلى N.

والسبب في الارتباك هو أن "الفريق سيقوم حقًا بأشياء أكثر صعوبة وأشياء ذات سقف أعلى في المستقبل" واستكشاف أمور يمكن أن تمتد من 1 إلى N.

سابقًا، افترض العديد من الأصوات التي تولي اهتمامًا لـ Monica.im أن هذا "شيء أكثر صعوبة وبسقف أعلى" يشير إلى متصفح الذكاء الاصطناعي الذي تمت الشائعات حوله لفترة طويلة ولم يتم إصداره بواسطة الفريق. ننظر إليه الآن، ومن الصحيح أنني توقعت بشكل خاطئ.

هذا الاستكشاف الأكثر صعوبة هو في الواقع: التخلي عن متصفح الذكاء الاصطناعي الذي وصل إلى حالة الإصدار ، والبحث عن منتج الذكاء الاصطناعي "لحظة ChatGPT" التالي ، والعثور على هدف وكيل عالمي ، وإنشاء أحدث إصدار من Manus.im.

إلى أي مدى يكون Manus مبتكرًا والمستوى الذي يمكنه تحقيقه في المستقبل هو الآن موضوع ساخن. ولكن ما يستحق المشاهدة هو لا تزال الاتجاهات الموجودة في "الأمور تسير عكس التوقعات" وعملية البحث عن الاتجاه. Manus.im قد لا تكون قادرة على تمكين هذا الفريق من إنجاز الأمور من 1 إلى N، أو حتى تكرار الزخم الذي حققته Monica.im، ولكن تمامًا كما يوحي اسم هذه الشركة - "تأثير الفراشة"، العديد من الأفعال الصغيرة والقرارات عرضية لها تأثير عميق على المستقبل، "ربط النقاط"، سيكون الطريق إلى الغد مخفيًا في تجربة اليوم.

تأتي تجربة منتج Manus الفريدة من الدروس المستفادة من صنع "متصفح الذكاء الاصطناعي"

منذ منتصف العام الماضي حتى نهاية العام الماضي، أصبح متصفح الذكاء الاصطناعي لفريق "تأثير الفراشة" سرًا "نصف عام" في الصناعة. المنتج الذي تم الكشف عنه رسميًا للجمهور كان Manus، الذي جذب انتباها لا يمكن السيطرة عليه.

إذا كنت قد عشت تجربة شخصية مع Manus أو شاهدت الفيديو التوضيحي، فستشعر أنه يوجد فرق كبير مقارنة بالدردشة الآلية أو بعض تطبيقات تشبه الوكيل: يمكن لـ Manus تنفيذ المهام بشكل غير متزامن وبشكل متوازي.

عندما تفتح تطبيقًا مثل Doubao أو Kimi أو شيء مثل Computer Use وترسل له سؤالًا، يجب عليك الانتظار ليُجيب. وإلا، إذا تحدثت إليه وهو يُجيب أو يقوم بمهمة، سيتم توقف الرد/المهمة السابقة، ويمكنك فقط إجراء حديث تبادلي A-B-A-B معه.

ومع ذلك، في Manus.im، على الرغم من أنه يبدو ما زال وكأنه منتج تشاتبوت، يمكنك طرح 20 سؤالًا من أجل أن يقوم بأداء المهام بشكل متزامن. يمكنك القيام بأي شيء آخر على الكمبيوتر بجانب ذلك، مثل مشاهدة الفيديوهات، كتابة المستندات، لعب الألعاب، وما إلى ذلك، دون تأخير في عمله. يمكن لـ Manus إعلامك بمجرد إكمال هذه المهام أو واجهتها مشاكل أثناء التنفيذ. إذا لاحظت انحرافات في تفكيره أثناء تنفيذ مهمة ما، يمكنك إضافة كلمات تعليمات إلى مربع الحوار في أي وقت، وسيستمر في التفكير وتنفيذ المهمة بالسياق الجديد.

التجربة غير متزامنة ويمكن توازنها، وهي تشعر حقًا كما لو كان لديك فريق من المتدربين الحقيقيين الذين يمكنهم مساعدتك في العمل.

في الواقع، تصميم هندسة المنتج لـ Manus لتجربة غير متزامنة نشأت من درس تعلمه الفريق في منتجه السابق الغير معلن عنه، المتصفح الذكي. في الوقت نفسه، هذا هو أيضًا السبب في أن الفريق استثمر الكثير من الطاقة ولكن قرر التوقف عن العمل على المتصفح في أكتوبر من العام الماضي.

أعلنت شركة المتصفح في 25 أكتوبر 2024 أنها ستتوقف عن تطوير ميزات جديدة لمتصفح Arc وقررت نقل الموارد إلى متصفح جديد اسمه Dia، بهدف إنشاء متصفح ذكاء اصطناعي أبسط وأسهل في الاستخدام. ｜المصدر: موقع Arc الرسمي

"في متصفح الذكاء الاصطناعي ، الذكاء الاصطناعي يقاطع المستخدم باستمرار." نظرا لأنه سيناريو مصمم لمستخدم واحد ، بمجرد استخدام الذكاء الاصطناعي ، لا يمكنك استخدامه. عندما يبدأ الذكاء الاصطناعي العمل ، يمكنك فقط مشاهدة الذكاء الاصطناعي العمل ، وهو أمر يصعب البدء فيه. مشاهدة الذكاء الاصطناعي انتزاع الماوس والكمبيوتر ، ليس فقط أنك لا تجرؤ على انتزاعه بعيدا ، ولكنك تخشى أيضا أن يؤدي لمس لوحة المفاتيح أو الماوس عن طريق الخطأ إلى انهيار العملية برمتها ويتطلب منك البدء من جديد.

يتيح هذا للفريق اتخاذ قرارين:

استخدام الكمبيوتر مباشرة لا يمكن في وقت قصير.
يجب أن يستخدم الذكاء الاصطناعي متصفحًا، لكن ليس في متصفحك. يجب أن يكون لديه متصفحه الخاص، يفضل في السحابة، وأخيرًا يقوم بإعادة تغذية النتائج إليك.

في مقابلة مع زانغ شياوجون من تكنولوجيا Tencent ، ذكرت شياو هونغ أنه عندما كان الفريق يلخص أشكال المنتج من جاسبر إلى ChatGPT إلى مونيكا إلى كورسور إلى ديفن ، وجدوا أن "المبرمج البشري" ديفن مناسب جدًا لهذه الهندسة المعمارية للتجربة الغير متزامنة.

على عكس استخدام Windsurf ، يطلب منك أحيانا تأكيد ما إذا كان جهاز الكمبيوتر الخاص بك يحتاج إلى تثبيت هذه المكتبة ؛ أو يقوم بإجراء عملية سطر أوامر ويطلب منك ملء نعم أو لا ، لأنه قد يؤدي إلى إتلاف جهاز الكمبيوتر الخاص بك حقا ، أو وجود تعارض مع شيء ما - يطلب منك ملء "نعم" للمتابعة إلى الخطوة التالية ، ولكن يجب أن يمر اللوم.

لذلك، في رأي فريق Manus، يجب أن يكون لدى "شاتبوت" جهاز كمبيوتر في السحابة، ويتم تنفيذ الكود الذي يكتبه والأشياء التي يجب التحقق منها من خلال المتصفح على ذلك الكمبيوتر. لأنها خادم افتراضي، لا يهم إذا تعطل، يمكنك الحصول على آخر. حتى يمكنه إطلاق الخادم بعد اكتمال المهمة الحالية.

من الجدير بالذكر أنه في حين اختار ديفين حقولًا رأسية ومهندسين متخصصين، اختار فريق Manus مساعدين ذكاء اصطناعي عامة على مستوى المستهلك، بما في ذلك الويب والتطبيق. إنه مساعد ذكاء اصطناعي عام يمكنه استدعاء الأدوات وإكمال مهام مختلفة في العمل والحياة وفقًا للتعليمات. في المستقبل، سيقدم أيضًا نتائج المهام بسعر معقول للمستهلكين.

02 أقل هيكل، المزيد من الذكاء

بعد أن يكون لديك فكرة وهدف واضحين، الخطوة التالية هي تحقيق الفكرة. كيف فعل مانوس ذلك؟

وفقًا لشريك المنتج الخاص به ، زهانج تاو ، يتطلب ذلك تجهيز النموذج الكبير بجهاز كمبيوتر، بالإضافة إلى منحه أذونات النظام (الوصول إلى واجهات برمجة التطبيقات الخاصة مثل مستودعات الشفرات ومواقع الاستعلام عن البيانات المهنية)، وتزويده بتدريب معين.

بهذه الطريقة، يمكن للذكاء الاصطناعي استخدام هذا الكمبيوتر لفتح مستعرض ويب، واتخاذ إجراءات لجدولة الأدوات، ثم مراقبة تأثير إجراءاته على العالم الحقيقي استنادًا إلى التغذية الراجعة التي تولدها الأدوات، ثم التفكير في الخطوة التالية، اتخاذ إجراءات مرة أخرى، ثم المراقبة... هذه هي عملية الذكاء الاصطناعي في إكمال المهام في التجربة والبحث. خلال هذه الفترة، سوف يفهم Manus أيضًا متطلباتك أكثر فأكثر تحت "تدريبك". في المستقبل، حتى لو لم تحدد متطلباتك بوضوح، يمكنه ما زال "فهم المعنى المقدس" استنادًا إلى المعرفة المتراكمة في كل مهمة.

لي بوجي، عبقري هواوي الشاب ومؤسس Logenic AI، يعتقد أن لدى Manus ميزة فريدة تجعلها مختلفة عن المنتجات الأخرى: إنها تحل المشاكل بطريقة البرمجيين الجيك.

تبدأ مفهوم منتجات Manus في التوضح تدريجيًا خلال ممارسة فريقها: هيكل أقل، ذكاء أكثر (هيكل أقل، ذكاء أكثر).

كانت هذه أيضًا اللحظة التي جعلت فريق Manus يقول 'أ-ها، انتظر!' على سبيل المثال، هذا ما حدث للفريق في يناير هذا العام:

عندما طُلب من Manus محاولة الإجابة على سؤال في مجموعة اختبار GAIA: "في رابط فيديو يوتيوب مشابه لنمط National Geographic، تعود وتأتي العديد من البطاريق ذهابًا وإيابًا وتدخل وتخرج من الشاشة. تُطلب من Manus أن يحسب الحد الأقصى لعدد البطاريق التي تظهر في إطار واحد في نفس الوقت. كم نوعا هنا؟"

ثم، حدث شيء سحري.

فتح Manus أول رابط فيديو، والإجراء الأول الذي قام به هو "الضغط على K". ثم التقط لقطات شاشة واحدة تلو الأخرى لتسجيل نوع البطريق الذي ظهر في إطار ما. في النهاية، استنتج أن الإطار الذي ظهر فيه أكثر من 3 أنواع من البطاريق. سيعود Manus للتحقق في الخطوة التالية، والإجراء التالي هو "الضغط على 3"... بعد الفحص النهائي، كانت الإجابة 3.

كمن يقف وراء بناء Manus، يجب علينا أن نعرف حدود قدراته، ولكن بالنسبة للفريق، الواقع هو أن "هناك دائمًا مفاجآت". لاحظنا بشكل مفاجئ أن Manus ليس فقط أجاب على السؤال بشكل صحيح، ولكن أيضًا، الأصدقاء البشر الذين استخدموا الحواسيب ويوتيوب لسنوات عديدة قد لا يعرفون بالضرورة ما هي مفاتيح "K" و "3" على لوحة المفاتيح؟

نظرًا للمشهد المنزعج إلى حد ما أمامهم، تابع الفريق مانوس وفعلوا ذلك مرة أخرى. الحرف “K” على لوحة المفاتيح هو مفتاح الإيقاف المؤقت، الذي يسمح لمانوس بالتقاط لقطات شاشة واحدة تلو الأخرى بعد التوقف لتسجيل ظهور أي نوع من أنواع البطاريق في إطار معين؛ “3” هو أيضًا مفتاح اختصار، من 0 إلى 9 يمثلون على التوالي 0% إلى 90% من شريط التقدم. 3 هو 30% من شريط التقدم. يمكنه تحديد تلك الثانية من الفيديو بدقة ثم يخبر البشر كم نوعًا من البطاريق في هذه الصورة.

هذه العملية مختلفة عن الدردشة التقليدية. أولاً، يمكنها مشاهدة صور YouTube بدلاً من الحوارات الفرعية. ثانيًا، اكتشفنا حتى أنها كانت تستخدم مفاتيح الاختصار في YouTube. كنا مذهولين جدًا عندما أجابت على هذا السؤال. ذكرت شياو هونغ أيضًا هذا المشهد في مقابلة سابقة مع تكنولوجيا Tencent.

فجأة، اكتشفت أن Manus ليس فقط أفضل في البرمجة من البشر، لكن معرفة Manus بالويب والتطبيقات التي يستخدمها الناس كل يوم تتجاوز بعيدا عن الخيال. كما أنه كذلك يمكنه كونهذا الذكاء الاصطناعي الواعي والقادر على كل شيء، يمكنه فهم جميع الطرق والوسائل في أي أداة، ثم اختيار الطريقة الأمثل.

هذا مرة أخرى سمح للفريق بأن يشعر "أقل هيكل، أكثر ذكاء" - تقليل القيود الاصطناعية على الذكاء الاصطناعي والسماح للذكاء الاصطناعي بالعمل من خلال تطوره الخاص بدلاً من تعليمه ما يجب القيام به.

في الجزء السفلي جدًا من موقع Manus الرسمي، يتم تقديم أهم اكتشاف وراء Manus بصمت: "أقل هيكل، أكثر ذكاء". ｜المصدر: لقطة شاشة من Manus

هذا هو شرح وتفكير موسع لبيك، المؤسس المشارك والعالم الرئيسي لـ "تأثير الفراشة"، حول أهم مبدأ أول وراء منتج Manus - "أقل هيكل، أكثر ذكاء" في يوم إطلاق منتج Manus:

عندما تكون بياناتك عالية الجودة، ويكون نموذجك ذكيًا بما فيه الكفاية، ويكون تصميمك مرنًا بما فيه الكفاية، ويكون هندستك قوية بما فيه الكفاية، ستتغير مفاهيم مثل استخدام الحاسوب والبحث العميق ووكيل الترميز من ميزات المنتج إلى قدرات طبيعية تنبعث بشكل طبيعي.

العودة إلى المبادئ الأولية تمنحنا أيضًا طريقة جديدة للتفكير في شكل المنتج: لا يضيف متصفح الذكاء الاصطناعي الذكاء الاصطناعي إلى المتصفح، ولكن يجعل متصفحًا للذكاء الاصطناعي؛
· لا يقوم البحث الذكي بإسترجاع وتلخيص من الفهرس، ولكنه يسمح للذكاء الاصطناعي بالحصول على المعلومات بأذونات المستخدم؛
· تشغيل واجهة المستخدم الرسومية لا يختطف السيطرة على جهاز المستخدم، ولكن يسمح للذكاء الاصطناعي بأن يكون له جهاز افتراضي خاص به؛
كتابة الشيفرة ليست الهدف النهائي، بل هي وسيلة عامة لحل مشاكل مختلفة؛
· الصعوبة في إنشاء موقع ويب ليست في بناء الإطار، ولكن في جعل المحتوى ذو دلالة؛
· الاهتمام ليس كل ما تحتاجه. يمكن إعادة تعريف DAU فقط من خلال تحرير انتباه المستخدمين؛

من خلال اكتشاف وممارسة "أقل هيكلية، أكثر ذكاء" مرة بعد مرة، أنتجت Manus نتائج تتجاوز التوقعات، بما في ذلك المرور@1النتيجة في مؤشر GAIA تفوقت على نتيجة OpenAI Deep Research تحت الظروف@64; في الوقت نفسه، في الاختبارات الداخلية، تمكنت Manus أيضًا من تغطية 76% مباشرة من سيناريوهات منتجات الوكيل المخصصة في Y Combinator W25.

03 "الوكيل قد يكون مشكلة في "المحاذاة" بدلاً من مشكلة في قدرات النموذج الأساسية"

الآن، يتم مناقشة قيمة هذه الرؤى على نطاق أوسع:

قام كليمان ديلانج، مؤسس والرئيس التنفيذي لـ Hugging Face، بمقترح نتائج Peak حول أن بعض النماذج الأساسية مفتوحة المصدر تم تدريبها ببساطة لـ 'الإجابة على جميع الأسئلة في جولة واحدة بغض النظر عن تعقيد الأسئلة.' ومع ذلك، هذا هو متطلب في سيناريو الدردشة. فقط عن طريق القيام ببعض التدريب بعد العمل على مسار الوكيل يمكن أن يحدث فرقاً هائلاً على الفور. ｜مصدر الصورة: X

مانوس لا تقدم MCP (بروتوكول السياق النموذجي)، ولكنها تسمح للذكاء الاصطناعي بكتابة كوده الخاص لاستدعاء واجهات برمجة التطبيقات للتعامل مع مهام الذيل الطويل المختلفة. ｜مصدر الصورة: X

في المناقشات حول Manus خلال الأيام القليلة الماضية، كانت واحدة من أكثر الأسئلة شيوعًا التي سمعتها: هل وكيل الذكاء الاصطناعي العالمي ممكن؟ أين الحدود؟

في رأي بيك، لأن التفاعل بين الناس والعالم في الواقع قياسي جدًا، بالعيون والأيدي والآذان، إذا تم تحديد مساحة العمل بشكل جيد، يجب أن يكون من الممكن تضمين وكيل في رابط يتم تنفيذه أصلاً بواسطة البشر.

نظرًا لأن الناس يمكنهم استخدام أدوات مختلفة لإتمام عمليات عميقة في المجالات الرأسية، إذا كان الوكيل نفسه لديه معرفة كافية، وقد تم تدريبه بشكل جيد، ولديه واجهة جيدة للتفاعل مع العالم، يجب أن يكون قادرًا على العمل مثل الشخص، وحتى السماح للوكيل باستخدام منتج SaaS معين. على سبيل المثال، الحالة المتعلقة بالبحث عن منزل التي تم عرضها على الموقع الرسمي لـ Manus.im تنطوي فعليًا على السماح للذكاء الاصطناعي بالعمل مع منتج SaaS مخصص لمجال العقارات.

يعتقد أن الأمر الذي يجب تحديده بوضوح هو حدود استخدام الوكيل للأدوات، بدلاً من الفئة التي يخدمها. مانوس لا يحاكي شخصًا يقوم بأشياء محددة، ولا يعتبر وكيل دور يتم تقسيمه حسب البحث والتطوير، مدير المنتج، إلخ؛ بل إنه يحاكي شخصًا يمكنه فعل الأشياء، ويحاكي كيفية عمل المتدرب.

نظام الوكيل المتعدد لمانوس يشير إلى فصل التخطيط عن التنفيذ.

للمنفذ (المنفذ)، اعتمدت Manus على Claude، الذي يقود مؤقتًا في البرمجة والتخطيط على المدى الطويل وقدرات حل المشكلات خطوة بخطوة، واستخدمت أيضًا سلسلة من نماذج Qwen للتدريب بعد التدريب.

أمس، وصلت Manus أيضًا إلى تعاون استراتيجي مع Alibaba Tongyi Qianwen، ملتزمة بتحقيق جميع وظائف Manus على النماذج الداخلية ومنصات الطاقة الحسابية. ｜مصدر الصورة: Manus

في جزء المخطط، قام Manus بالكثير من العمل.

نظرًا لأن واجهات برمجة التطبيقات الرف أو النماذج المتوفرة حاليًا في السوق مُوجَهة أساسًا لسيناريوهات الروبوتات الدردشة، خلال التدريب، بغض النظر عن مدى تعقيد السؤال الذي يطرحه المستخدم، فإن الهدف من الأمثلية للتدريب هو الرد على سؤال المستخدم بوضوح في رد واحد، ولكن هذا هو في الواقع عكس تمامًا للتخطيط المطلوب من الوكيل.

إذا تم استخدام نموذج موجود في السوق مباشرة في سيناريو الوكيل دون 'المحاذاة'، فإن هذا النموذج سيكون دائمًا حريصًا على النجاح السريع ويقدم نتيجة 'ملتبسة' خلال جولة من الحوار، تمامًا كما يحدث مع العديد من ملخصات نقاط الرصاص.

"يجب أن تكون طرق التوجيه مختلفة. يعتقد فريقنا أنه يحتاج إلى بيانات مختلفة لإجراء توجيه خاص"، قالت شياو هونغ.

في أكتوبر من العام الماضي، سجل Peak أيضًا على Zhihu تقدم وفشل محاولة لإعادة إنتاج مشروع OpenAI o1 interest - نموذج Steiner مفتوح المصدر. في الواقع، كان هذا المشروع يقوم بالبحث التمهيدي حول جزء التخطيط خطوة بخطوة من منظم الخطط Manus.

بشكل عام، يقوم Manus بمحاكاة شخص يقوم بأشياء. هذه هي تعريف المنتج للفريق لـ Manus كمساعد ذكاء اصطناعي عام. أما بالنسبة للتفكير في حدوده، فإن الفريق ربما ما زال يستكشفها ويحتاج إلى المزيد من حالات استخدام المستخدمين.

في مقابلة مع تكنولوجيا Tencent التي تم إصدارها قبل إصدار Manus، ذكرت شياو هونج فعلا أفكارها الأولية حول تنوع Manus. "مسألة أساسية جدا، أو مسؤولية هامة جدا لمديري المنتجات، هي السيطرة على توقعات المستخدم. نفترض أنه يمكن أن يفعل كل شيء في العالم، مثل: كيف يمكنني كسب مليون دولار؟ هذا ليس شيئا يجب أن يقوم به وكيل. ولكن إذا استطعنا أن نقدم أمثلة أكثر تحديدا لجعل توقعات الجميع أكثر معقولية، سيستخدم الجميع بسلاسة أكثر."

04 "الأصداف لها استخداماتها الخاصة"، الفريق الذي يفهم الأصداف بشكل أفضل

في الصباح الباكر من 27 فبراير، تأثر شريك المنتج Manus زانغ تاو والعالم المشارك جي ييتشاو (بيك) عندما رأوا نتائج تصنيف Manus.im. تفوق أداء Manus على مؤشر GAIA Benchmark لشركة OpenAI، وحقق هذه النتيجة غير المتوقعة بتكلفة تقدر بحوالي 1/10 ($2/task) من مؤشر OpenAI.

مصدر الصورة: Manus.im

فريق مئات الأشخاص أصبح واحدًا من أول الفرق التي قدمت منتج وكيل عالمي عندما توصل الوكلاء إلى توافق حول المنافسة في جميع أنحاء الصناعة. كما أنهم يتميزون في هندسة المنتج وتجربة التفاعل الأمامية.

التغذية الراجعة الإيجابية من الأشياء المنجزة أفضل من أي شيء آخر. لا يوجد حافز أفضل لفريق البدء من هذا. ولكن قبل ذلك، كيف حدثت Manus؟ لماذا تم تشكيل هذا الفريق؟

"قدرات النموذج الحالي قادرة على إكمال بعض المهام المعقدة متعددة الخطوات. ولكن لا توجد منتجات مثل هذه، لذلك لا يمكن للجميع أن يشعر بها." تستطيع الأفكار التي ذكرتها شياو هونغ في المقابلات السابقة مع تكنولوجيا Tencent أن تُستخدم لفهم هذه المسألة.

في نفس الوقت، ليس الكثير من الفرق لديهم الفرصة لتجربة منتجات Agent. لأنه يتطلب الكثير من القدرات المركبة. يريد العمل على Chatbot، بعض البرمجة المتعلقة بالذكاء الاصطناعي، ومتصفح متعلق، لأنه يحتاج إلى استدعاء المتصفح، ولديه مفهوم جيد لحدود LLM - المستوى الذي وصلت إليه اليوم، والمستوى الذي ستصل إليه بعد ذلك. أولاً وقبل كل شيء، ليست هناك الكثير من الشركات التي تمتلك هذه القدرات في نفس الوقت، والشركات التي تمتلك هذه القدرات قد تكون تقوم بعمل تجاري محدد جدًا. بعض زملائنا في الفصل حدث لديهم الوقت المناسب للقيام بهذه الأشياء معًا.

"بالضبط".

تم اكتشافه في الوقت المناسب أن قدرة النموذج قد وصلت إلى المستوى الذي يمكن استخدامه كوكيل، دون الحاجة إلى الانتظار حتى يتم إصدار نموذج كبير من النهاية إلى النهاية مثل العامل؛
لقد حدث لي أيضًا أن أجد أن المشكلة كانت في التوجيه؛
أنا أيضا حدث لديها جميع الوظائف الموسعة التي قامت بها الروبوتات الدردشة ومتصفحات الذكاء الاصطناعي؛
في الوقت نفسه، نظراً لأنني كنت أقوم بتصنيع منتجات تطبيق نموذج كبيرة الحجم في ما يسمى "قذيفة"، فإن لدي وعي حاد بـ LLM؛

فريق "تأثير الفراشة" قد حقق جميع العناصر لجعل وكيل عالمي مثل هذا اليوم، لذلك هناك الآن وكيل عالمي بدرجة اكتمال نسبيا مقارنة بالصناعة.

عندما سئل عن اللحظة الحاسمة التي أراد فيها بدء Manus، استعاد بيك المزيد من التفاصيل. وقال: 'في الواقع لا يوجد تحول 'نظيف' في ريادة الأعمال.' كل شيء مترابط ولا يوجد حدود واضحة.

"عندما أقوم بتصنيع منتج، أنا أيضًا أولي اهتمامًا بشكل متكرر للوضع الخارجي." كانت هناك بعض الأمور في ذلك الوقت. أولاً، عندما كنت أقوم بصنع متصفح، قمت بعمل نموذج على الجانب العميل. في وقت لاحق، وجدت أن المتصفح يتطلب مجموعة واسعة جدًا من السيناريوهات ويحتوي على ميزات مختلفة. خلال العملية، اكتشفت أن النموذج الأساسي كان يتحسن بوتيرة متسارعة. قد يكون الفجوة بينه وبين الوكيل مشكلة توحيد. على الرغم من أن العالم الخارجي قد يشعر أن النماذج اللغوية الكبيرة قد اتحدت تدريجياً وواجهت جدارًا."

وفي الوقت نفسه، كان العالم الخارجي يتغير أيضًا. انطلق Cursor في بداية العام الماضي، تلاه Windsurf و Devin. وهذا يتوافق مع نفس السياق. تحظى الوكالات بشعبية في مجال البرمجة، والمسار نحو الشهرة تدريجي. Cursor هو مساعد للمبرمجين، مما يعزز كفاءة البرمجة. ابتداءً من Windsurf، يتم تدريجيًا إدخال بعض العمليات التلقائية، مما يتيح لك الحصول على قدرات أتمتة أقوى على جهازك المحلي. وصل Devin إلى مستوى جديد من الأتمتة.

اتجاهات رأس المال الاستثماري متسقة أيضًا. على سبيل المثال، في العام الماضي والعام الذي قبل الأخير، استثمرت YC في نوعين من الشركات. النوع الأول هو متصفح السحابة، مثل قاعدة المتصفح؛ النوع الثاني هو آلات افتراضية خفيفة تشبه صندوق الرمل الذكي للذكاء الاصطناعي مثل e2b.

هذا يظهر أن 'بنية النموذج تتطور بسرعة، وبنية الأنفرا تتطور أيضًا. بالإضافة إلى ذلك، نرى أن المنتجات الخارجية تكتسب تدريجيًا المزيد من القبول، نشعر أن هذا اتجاه يستحق المخاطرة. هذه عملية تدريجية وسلسة للغاية. بالإضافة إلى ذلك، يمكن نقل البنية التحتية المتراكمة أثناء تطوير المتصفحات مثل كروميوم بسهولة، وهذا هو السبب في جرأتنا على تطوير متصفحات في السحاب.

في الختام ، خلقت الإدراك الحاد وتراكم الخبرة في المتطلبات والنماذج في ما يسمى "القذيفة" Manus. العديد من سيناريوهات Monica تتطلب تدريباً بعد النموذج. في الوقت نفسه ، تم تعزيز أهم درس "أقل هيكلية ، أكثر ذكاء" في ممارسة متصفحات الذكاء الاصطناعي. وجدت أن قدرة النموذج قد وصلت إلى مستوى كونه وكيلًا ، ولكن المشكلة تكمن في التوجيه. تلا ذلك ثلاثة أشهر من التطور السريع لـ Manus.

سابقًا، تمت استجواب فريق "تأثير الفراشة" مرة واحدة حول قيمة "التصدع". بنت Monica من خلال دمج النماذج الكبيرة الحالية دون تطوير نماذج كبيرة بنفسها. دمجت وظائف مثل الدردشة والبحث والقراءة والكتابة والترجمة. كما دمجت العديد من سيناريوهات تنفيذ المهام من خلال واجهات برمجة التطبيقات واحدة تلو الأخرى. بحلول نهاية العام الماضي، بلغ عدد المستخدمين عشرات الملايين.

الآن ، عندما يقوم كل من Doubao و Quark و Yuanbao بالترويج بقوة لمنتجات Monica الخاصة بهم ، وعندما يستخدم فريق صغير التكنولوجيا الحالية لإنشاء أول وكيل عام على مستوى المستهلك ، فقد حان الوقت لإعادة فهم "القشرة".

ما هي بالضبط "القواقع" و "القواقع"؟

في رأي شياو هونغ، يتم إحداث جميع الاختراقات من خلال النماذج، والتي تكون في الأساس تدفع من قبل النموذج والنموذج أولاً. الغلاف هو لعرض الابتكارات التقنية للنموذج بطريقة يمكن للمستخدمين تصورها، ولتغليف قدرات الابتكار للنموذج بطريقة يمكن للمستخدمين تصورها بشكل أفضل.

ابتداءً من هذا التعريف, تطبيق DeepSeek (بما في ذلك عرض سلسلة الأفكار) هو قذيفة DeepSeek-R1, Cursor هو قذيفة Anthropic Sonnet 3.5, Perplexity هو قذيفة GPT-4, و ChatGPT هو قذيفة InstructGPT.

مع تطور قدرات النماذج بسرعة، من الضروري أيضًا أن "ذلك الغلاف" يتطور. بعد تطور قدرات كل جيل من النماذج، ليس بالضرورة أن يكون الشركة المصنعة الأصلية حتى. إنها الشركة المصنعة من الطرف الثالث التي تقدم قيمتها المُدركة للمستخدم. تمامًا مثلما تقدم Cursor قيمة مُدركة للمستخدم لـ Claude 3.5 Sonnet.

في 5 مارس، في الذكرى الثانية لإصدار Monica.im، تكمن الإجابة عن سبب تمكن هؤلاء العشرات من الأشخاص من تحقيق تجربة المنتج التي تتجاوز تلك المتاحة من مختلف المشغلين للبحث العميق و OpenAI في الفهم والممارسة القواقع.

كيفية صنع أفضل قذيفة لنموذج جديد يمكن استخدامه كوكيل؟

كبانيتاو، يعتقد زانغ تاو أنه "عند النظر إلى الهندسة المعمارية بأكملها من الخلفية، نرى أن هناك الكثير من العمل الغير منتهي يجب القيام به في كل مكان، وكل من تلك الأماكن هي مفتاح النجاح، وهي جميعاً أماكن تجعل سطح المنتج مختلفًا.

من وجهة نظر الفريق ، فإن الميزة الأكثر أهمية هي وتيرة الابتكار. وصلت كل من التطبيقات والنماذج الآن إلى حالة من التشبع النسبي. القدرة الأساسية الحقيقية الوحيدة في النهاية هي التشغيل بسرعة ، على الرغم من أن "دولاب الموازنة للبيانات" و "تأثيرات الشبكة" لم يتم التحقق منهما بعد.

"في مجال جديد تمامًا، كل شيء غير مؤكد ومجهول. الأمر الأهم هو سرعة الابتكار. ما نسعى إليه هو الاستكشاف، والتجربة، والخطأ في اتجاهات مختلفة، والعثور بسرعة على الطريق الصحيح." تتمتع فريق Manus بمرونة كافية من حيث فلسفة الإدارة، والهيكل التنظيمي، والعمليات الصناعية. عند ظهور فرص جديدة، يمكنك استخدام موارد محدودة لربط جميع موارد الشركة بأكملها، واتخاذ قرارات بسرعة كبيرة، والتكيف مع التغذية الراجعة حول الأخطاء."

من اليسار إلى اليمين هم عالم الرئيس الأول لـ "تأثير الفراشة" بيك، الرئيس التنفيذي شياو هونغ، وشريك المنتج زانغ تاو | مصدر الصورة: الإنترنت

بالنسبة لتوقعات Manus، يعتقد Xiao Hong أنه "حتى لو كان هناك فترة نافذة، فإنه يستحق أن تجرب." في السنة الماضية، تغيرت أفكاره بشكل جذري أيضًا. على سبيل المثال، يعتقد الآن أنه "عندما تدرك أنك متقدم في الجدول الزمني، فأنت أكثر عدوانية وعنيف. بعد مراجعة اليوم، أشعر أن Monica في عام 2023 لم تكن كافية بالعدوانية." "إذا كنت تعلم أنك تبتكر وأنك تقود، يجب أن تكون عدوانيًا."

أنا لا أعرف ما إذا كان مانوس يمكنه أن يجلب لشياو هونغ وفريقه التجربة والقفز من 1 إلى N، ولكن هذا الفريق الذي يعرف الأكثر عن "القشرة" يؤمن بالإبداع بقلب ويد واحدة، ويؤمن أيضًا بتأثير الفراشة الذي يحدثه الإبداع. يأتي مانوس من عبارة في معهد ماساتشوستس للتكنولوجيا: مينس آت مانوس، الذي يؤكد على وحدة القلب واليد. لا يمكن أن يكون بصريًا، يجب أن يتم، ويمكن أن يكون له تأثير على العالم الحقيقي، وهو معرفة حقيقية.

في المستقبل، ومع مزيد من الودائع الواقفة وراء Manus تكون متاحة للجميع، سيتم إطلاق مجموعة أوسع من آثار الفراشة بشكل أكبر.

إخلاء المسؤولية:

هذه المقالة مأخوذة من [GateGEEEKPARK، وحقوق النشر تنتمي إلى الكاتب الأصليوان تشن], إذا كان لديك أي اعتراض على إعادة النشر، يرجى الاتصال بوابة تعلمالفريق، سيتولى الفريق الأمر في أسرع وقت ممكن وفقا للإجراءات ذات الصلة.
تنويه: تعبر وجهات النظر والآراء المعبر عنها في هذه المقالة عن آراء الكاتب فقط ولا تشكل أي نصيحة استثمارية.
تتم ترجمة النسخ الأخرى من المقال بواسطة فريق Gate Learn ولا يتم ذكرها في Gate.io، لا يجوز إعادة إنتاج المقالة المترجمة أو توزيعها أو سرقتها.

المحتوى

تأتي تجربة منتج Manus الفريدة من دروس تعلمتها من صنع "متصفح AI"

02 أقل هيكل، أكثر ذكاء

03 "قد يكون الوكيل مشكلة "مواءمة" بدلاً من مشكلة قدرات النموذج الأساسية"

04 "الأصداف لها استخدامات خاصة، الفريق الذي يفهم الأصداف بشكل أفضل"

تقويم العملات الرقمية

إصدار THORChain v.3.10.0

تقوم THORChain باختبار النسخة 3.10.0 على Stagenet، مع إصدار مخطط له في 24 أغسطس. التحديث يقدم Oracle المنصوص عليها للمعاملات الدائمة، والإقراض، واستراتيجيات التداول على RUJI، ويقلل الرسوم الخارجية على سلسلة Base من 10 دولارات إلى 1 دولار، ويضيف الأصول المغلفة cbADA و cbXRP و cbDOGE. تم نقل ميمرات الرسوم إلى الذاكرة التشغيلية، مما يتيح تجارب رسوم أكثر مرونة، بينما يتم وضع الأساس لقائمة التبديل المتقدمة (طلبات حد)، والتي سيتم تفعيلها بعد النسخة 3.11.

RUNE

-6.6%

2025-08-23

هاكاثون

يستضيف ZetaChain أول هاكاثون له في كوريا في 23-24 أغسطس في جامعة غاتشون بالتعاون مع Gairos والشركاء المجتمعيين. سيركز الحدث على تطوير حلول عالمية في مجالات مثل DeFi وBTCFi وChain Abstraction. ستحصل الفريق الفائز على جائزة قدرها ₩3,000,000 (حوالي 2,000 دولار).

ZETA

-2.22%

2025-08-23

قمة البلوكتشين في سان فرانسيسكو في سان فرانسيسكو

ستقدم Constellation أحدث تطوراتها، بما في ذلك الجسر الذي تم إنشاؤه حديثًا إلى شبكة Base، في قمة On-chain في سان فرانسيسكو التي ستعقد في سان فرانسيسكو في الفترة من 21 إلى 24 أغسطس.

DAG

-2.31%

2025-08-23

يوم بروتوكول إثيريوم في شنتشن

في 24 أغسطس، خلال يوم بروتوكول إثيريوم في شنتشن، سيقدم المؤسس المشارك لـ QuarkChain EIP-7907 - اقتراح لإلغاء حد حجم العقد الحالي البالغ 24 كيلوبايت. يقدم الاقتراح قياس غاز ديناميكي، مما سيسهل التطوير من خلال إزالة الحاجة إلى تقسيم العقود الذكية، وبالتالي تعزيز تجربة المطور وقابلية التوسع. يتم الآن اعتبار EIP-7907 رسميًا في ترقية "غلامستاد" القادمة لإثيريوم.

QKC

-2.53%

2025-08-23

الاتصال في وارسو

سوف يحضر بروتوكول GT مؤتمر CONNECT في وارسو، في 24 أغسطس. تم تنظيمه بواسطة A01K، سيجمع المنتدى المفتوح مشاريع العملات المشفرة والمطورين والمسوقين والمؤثرين وغيرهم من المشاركين في الصناعة.

GTAI

-6.56%

2025-08-23

المقالات ذات الصلة

متوسط

ما هي توكينات NFT في تليجرام؟

يناقش هذا المقال تطور تليجرام إلى تطبيق مدعوم بتقنية NFT، مدمجًا تقنية البلوكشين لتحديث الهدايا الرقمية والملكية. اكتشف الميزات الرئيسية والفرص للفنانين والمبدعين، ومستقبل التفاعلات الرقمية مع NFTs على تليجرام.

1/10/2025, 1:41:40 AM

مبتدئ

أفضل 15 عملة رقمية تعتمد على الذكاء الاصطناعي للاستثمار في عام 2024

هل تبحث عن أفضل استثمارات الذكاء الاصطناعي في مجال العملات الرقمية؟ استكشف أفضل 15 عملة رقمية ذات ذكاء اصطناعي للاستثمار في عام 2024 وامنح مستقبلًا ماليًا مستقرًا بتقنية متطورة.

7/14/2024, 3:41:26 PM

مبتدئ

كيفية رصد وتتبع الأموال الذكية في العملات الرقمية

يستكشف هذا المقال كيفية الاستثمار من خلال تتبع الأموال الذكية في سوق العملات الرقمية. الأموال الذكية تشير عادة إلى المشاركين في السوق ذوي الأداء المتميز، مثل محافظ الحيتان، ومحافظ العادية ذات معدلات فوز عالية في المعاملات، وما إلى ذلك. يقدم هذا المقال عدة خطوات لتحديد وتتبع هذه المحافظ.

7/24/2024, 8:49:42 AM

مبتدئ

أي منصة تبني أفضل وكلاء الذكاء الاصطناعي؟ نختبر ChatGPT و Claude و Gemini وغيرها

يقارن هذا المقال ويختبر خمسة منصات AI الرئيسية (ChatGPT و Google Gemini و HuggingChat و Claude و Mistral AI)، مقيّمًا سهولة الاستخدام وجودة النتائج في إنشاء وكلاء AI.

1/9/2025, 7:43:03 AM

متوسط

ارتفع مع GOAT: التكهنات والمخاوف وراء الذكاء الاصطناعي ميمز | مراجعة 100X

جمع بين الذكاء الاصطناعي والميمات أدى إلى خلق قطاع ميمات الذكاء الاصطناعي أكثر تخيلًا. يستعرض هذا المقال تاريخ تطوير GOAT، محللًا الفجوات المعلوماتية الهامة في السوق اللامركزي الحالي، والمخاوف المحيطة بميمات الذكاء الاصطناعي، واتجاهات التكهن والمنطق المستقبلي للقطاع.

10/30/2024, 1:30:09 PM

مبتدئ

ما هي القصص الرقمية؟ أفضل القصص لعام 2025 (تم تحديثها)

مجال العملات الرقمية، توكينات إعادة الرهن السائلة، مشتقات الرهن السائل، تنويع البلوكشين، الطبقة 1، الطبقة 2 (التكدس المتفائل والتكدس بدون معرفة)، BRC-20، DePIN، بوتات تداول العملات الرقمية على تليجرام، أسواق التنبؤ، و RWAs هي بعض السرديات المرغوبة في مراقبتها في عام 2024.

11/26/2024, 2:15:30 AM

ابدأ التداول الآن

اشترك وتداول لتحصل على جوائز ذهبية بقيمة

100 دولار أمريكي

5500 دولارًا أمريكيًا

لتجربة الإدارة المالية الذهبية!