المؤلف الأصلي: Yihan Xu، Foresight Ventures
نحن نناقش تطبيق قوة الحوسبة الموزعة في التدريب ، ونركز بشكل عام على تدريب نماذج اللغة الكبيرة. والسبب الرئيسي هو أن تدريب النماذج الصغيرة لا يتطلب الكثير من قوة الحوسبة. من أجل القيام بخصوصية البيانات الموزعة ومجموعة من المشاريع المشكلة ليست فعالة من حيث التكلفة ، فمن الأفضل حلها بشكل مباشر ومركزي. نموذج اللغة الكبير لديه طلب كبير على قوة الحوسبة ، وهو الآن في المرحلة الأولى من الانفجار. من عام 2012 إلى عام 2018 ، سيتضاعف الطلب على الحوسبة للذكاء الاصطناعي كل 4 أشهر ، والآن أصبح أكثر طلبًا على قوة الحوسبة يمكن للنقاط المركزة أن تتنبأ بالمستقبل ؛ 5-8 سنوات ستظل طلبًا متزايدًا ضخمًا.
في حين أن هناك فرصًا ضخمة ، يجب أيضًا رؤية المشاكل بوضوح. يعلم الجميع أن المشهد ضخم ، ولكن أين التحديات المحددة؟ من يستطيع “استهداف” هذه المشاكل بدلاً من الدخول بشكل أعمى في اللعبة ، وهو جوهر الحكم على المشاريع الممتازة لهذا المسار.
!
؛ (إطار عمل NVIDIA NeMo Megatron)
خذ تدريب نموذج كبير مع 175 مليار معلمة كمثال. نظرًا للحجم الهائل للنموذج ، يجب تدريبه بشكل متوازٍ على العديد من أجهزة “GPU”. لنفترض أن هناك غرفة كمبيوتر مركزية ، هناك ؛ 100 ؛ GPUs ، كل جهاز ؛ 32 ؛ GB ؛ الذاكرة.
تتضمن هذه العملية قدرًا كبيرًا من نقل البيانات ومزامنتها ، والتي قد تصبح عنق الزجاجة لكفاءة التدريب. لذلك ، يعد تحسين عرض النطاق الترددي للشبكة ووقت الاستجابة واستخدام استراتيجيات التوازي والمزامنة الفعالة أمرًا مهمًا للغاية للتدريب على النماذج واسعة النطاق.
وتجدر الإشارة إلى أن عنق الزجاجة في الاتصال هو أيضًا السبب في أن شبكة طاقة الحوسبة الموزعة الحالية لا يمكنها إجراء تدريب كبير على نموذج اللغة.
تحتاج كل عقدة إلى تبادل المعلومات بشكل متكرر للعمل معًا ، مما يؤدي إلى زيادة تكلفة الاتصال. بالنسبة لنماذج اللغات الكبيرة ، تكون هذه المشكلة خطيرة بشكل خاص بسبب العدد الكبير من معلمات النموذج. يتم تقسيم النفقات العامة للاتصالات إلى هذه الجوانب:
على الرغم من وجود بعض الطرق لتقليل نفقات الاتصال ، مثل ضغط المعلمات والتدرجات ، والاستراتيجيات الموازية الفعالة ، وما إلى ذلك ، فقد تؤدي هذه الأساليب إلى زيادة العبء الحسابي أو التأثير سلبًا على تأثير التدريب للنموذج. أيضًا ، لا يمكن لهذه الطرق أن تحل مشكلة الاتصال العلوية تمامًا ، خاصة في حالة ظروف الشبكة السيئة أو المسافات الكبيرة بين عقد الحوسبة.
كمثال:
** شبكة طاقة الحوسبة الموزعة اللامركزية **
GPT-3 ؛ النموذج يحتوي ؛ 175 مليار ؛ مليار معلمة ، وإذا استخدمنا أرقام فاصلة عائمة أحادية الدقة (كل معلمة ؛ 4 ؛ بايت) لتمثيل هذه المعلمات ، فإن تخزين هذه المعلمات يتطلب ~ ؛ 700 ؛ جيجابايت ؛ من الذاكرة . في التدريب الموزع ، يجب نقل هذه المعلمات وتحديثها بشكل متكرر بين عقد الحوسبة.
لنفترض أن هناك ؛ 100 ؛ عقد حوسبة ، وكل عقدة تحتاج إلى تحديث جميع المعلمات في كل خطوة ، ثم تحتاج كل خطوة إلى نقل حوالي ؛ 70 ؛ تيرابايت (700 ؛ غيغابايت * ؛ 100 ؛) من البيانات. إذا افترضنا أن خطوة ما تأخذ ؛ 1 ؛ ق (افتراض متفائل جدًا) ، إذن كل ثانية تحتاج إلى نقل ؛ 70 ؛ تيرابايت ؛ من البيانات. هذا الطلب على النطاق الترددي يفوق بكثير بالفعل طلب معظم الشبكات وهو أيضًا مسألة جدوى.
في الواقع ، بسبب تأخيرات الاتصال وازدحام الشبكة ، قد يكون وقت نقل البيانات أطول بكثير من ؛ 1 ؛ ثانية. هذا يعني أن عقد الحوسبة قد تحتاج إلى قضاء الكثير من الوقت في انتظار نقل البيانات بدلاً من إجراء حسابات فعلية. سيؤدي هذا إلى تقليل كفاءة التدريب بشكل كبير ، ولا يمكن حل هذا الانخفاض في الكفاءة بالانتظار ، ولكن الفرق بين ممكن وغير ممكن ، مما سيجعل عملية التدريب بأكملها غير قابلة للتنفيذ.
** غرفة كمبيوتر مركزية **
حتى في بيئة غرفة الكمبيوتر المركزية ، لا يزال تدريب النماذج الكبيرة يتطلب تحسينًا كثيفًا للاتصالات.
في بيئة غرفة الكمبيوتر المركزية ، تُستخدم أجهزة الحوسبة عالية الأداء كمجموعة ، متصلة عبر شبكة عالية السرعة لمشاركة مهام الحوسبة. ومع ذلك ، حتى عند تدريب نموذج مع عدد كبير جدًا من المعلمات في بيئة شبكة عالية السرعة ، لا تزال عبء الاتصال يمثل عنق الزجاجة ، لأن معلمات وتدرجات النموذج تحتاج إلى النقل والتحديث بشكل متكرر بين أجهزة الحوسبة المختلفة .
كما ذكرنا في البداية ، افترض أن هناك ؛ 100 ؛ عقد حوسبة ، كل خادم لديه ؛ 25 ؛ جيجابت في الثانية ؛ عرض النطاق الترددي للشبكة. إذا احتاج كل خادم إلى تحديث جميع المعلمات في كل خطوة تدريب ، فيجب أن ترسل كل خطوة تدريب حوالي 700 ؛ غيغابايت ؛ احتياجات البيانات ~ ؛ 224 ؛ ثانية. من خلال الاستفادة من غرفة الكمبيوتر المركزية ، يمكن للمطورين تحسين طوبولوجيا الشبكة داخل مركز البيانات واستخدام تقنيات مثل نموذج التوازي لتقليل هذا الوقت بشكل كبير.
في المقابل ، إذا تم تنفيذ نفس التدريب في بيئة موزعة ، فمن المفترض أنه لا يزال هناك ؛ 100 ؛ عقد حوسبة موزعة في جميع أنحاء العالم ، ومتوسط عرض النطاق الترددي للشبكة لكل عقدة هو فقط ؛ 1 ؛ جيجابت في الثانية. في هذه الحالة ، نقل نفس ؛ 700 ؛ غيغابايت ؛ يستغرق البيانات ~ ؛ 5600 ؛ ثانية ، أطول بكثير من غرفة الكمبيوتر المركزية. أيضًا ، نظرًا لتأخيرات الشبكة وازدحامها ، فقد يكون الوقت الفعلي المطلوب أطول.
ومع ذلك ، مقارنةً بالموقف في شبكة طاقة الحوسبة الموزعة ، فمن السهل نسبيًا تحسين عبء الاتصال في بيئة غرفة كمبيوتر مركزية. لأنه في بيئة غرفة الكمبيوتر المركزية ، عادةً ما تكون أجهزة الحوسبة متصلة بنفس الشبكة عالية السرعة ، ويكون عرض النطاق الترددي وتأخير الشبكة جيدًا نسبيًا. في شبكة طاقة الحوسبة الموزعة ، قد يتم توزيع عقد الحوسبة في جميع أنحاء العالم ، وقد تكون ظروف الشبكة رديئة نسبيًا ، مما يجعل مشكلة الاتصال الزائد أكثر خطورة.
في عملية تدريب GPT-3 ، تبنت OpenAI إطار عمل موازٍ نموذجي يسمى “Megatron” لحل مشكلة الاتصال الزائد. يقسم ميجاترون معلمات النموذج ويعالجها بالتوازي بين وحدات معالجة رسومات متعددة ، وكل جهاز مسؤول فقط عن تخزين وتحديث جزء من المعلمات ، وبالتالي تقليل كمية المعلمات التي يحتاجها كل جهاز للمعالجة وتقليل عبء الاتصال. في الوقت نفسه ، تُستخدم أيضًا شبكة ربط عالي السرعة أثناء التدريب ، ويتم تقليل طول مسار الاتصال عن طريق تحسين هيكل الشبكة.
!
البيانات المستخدمة لتدريب نماذج LLM)
يمكن القيام بذلك ، ولكن بالمقارنة مع غرفة الكمبيوتر المركزية ، فإن تأثير هذه التحسينات محدود للغاية.
** تحسين طوبولوجيا الشبكة **: في غرفة الكمبيوتر المركزية ، يمكن التحكم في أجهزة الشبكة وتخطيطها بشكل مباشر ، لذلك يمكن تصميم هيكل الشبكة وتحسينه وفقًا للاحتياجات. ومع ذلك ، في بيئة موزعة ، يتم توزيع عقد الحوسبة في مواقع جغرافية مختلفة ، حتى واحدة في الصين وواحدة في الولايات المتحدة ، ولا توجد طريقة للتحكم المباشر في اتصال الشبكة بينهما. على الرغم من أنه يمكن استخدام البرامج لتحسين مسار نقل البيانات ، إلا أنها ليست فعالة مثل التحسين المباشر لشبكة الأجهزة. في الوقت نفسه ، نظرًا للاختلافات في المواقع الجغرافية ، فإن تأخيرات الشبكة وعروض النطاق تختلف أيضًا بشكل كبير ، مما يحد بشكل أكبر من تأثير تحسين طوبولوجيا الشبكة.
** نموذج التوازي **: نموذج التوازي هو تقنية تقسم معلمات النموذج إلى عقد حوسبة متعددة ، وتحسن سرعة التدريب من خلال المعالجة المتوازية. ومع ذلك ، تحتاج هذه الطريقة عادةً إلى نقل البيانات بين العقد بشكل متكرر ، لذلك فهي تتطلب متطلبات عالية بشأن النطاق الترددي للشبكة ووقت الاستجابة. في غرفة الكمبيوتر المركزية ، نظرًا لارتفاع عرض النطاق الترددي للشبكة وزمن وصول منخفض ، يمكن أن يكون نموذج التوازي فعالًا للغاية. ومع ذلك ، في بيئة موزعة ، يكون نموذج التوازي محدودًا إلى حد كبير بسبب ظروف الشبكة السيئة. ؛؛؛؛
قد تؤثر جميع الروابط التي تتضمن معالجة البيانات ونقلها تقريبًا على أمان البيانات وخصوصيتها:
** توزيع البيانات **: يجب توزيع بيانات التدريب على كل عقدة مشاركة في الحساب. قد يتم استخدام / تسريب البيانات الموجودة في هذا الارتباط بشكل ضار على العقد الموزعة.
** تدريب النموذج **: أثناء عملية التدريب ، ستستخدم كل عقدة البيانات المخصصة لها للحساب ، ثم تقوم بإخراج التحديث أو التدرج اللوني لمعلمات النموذج. أثناء هذه العملية ، إذا سُرقت عملية حساب العقدة أو تم تحليل النتيجة بشكل ضار ، فقد يتم أيضًا تسريب البيانات.
** المعلمة وتجميع التدرج **: يجب تجميع ناتج كل عقدة لتحديث النموذج العالمي ، وقد يؤدي الاتصال أثناء عملية التجميع أيضًا إلى تسريب معلومات حول بيانات التدريب.
** ما الحلول المتاحة لمخاوف خصوصية البيانات؟ **
ملخص
كل من الطرق المذكورة أعلاه لها سيناريوهات وقيود قابلة للتطبيق ، ولا يمكن لأي من الطرق أن تحل تمامًا مشكلة خصوصية البيانات في تدريب النموذج الكبير لشبكة طاقة الحوسبة الموزعة.
** هل ستحل ZK ، التي لديها آمال كبيرة ، مشكلة خصوصية البيانات في تدريب النماذج الكبيرة؟ **
نظريًا ؛ ZKP ؛ يمكن استخدامها لضمان خصوصية البيانات في الحوسبة الموزعة ، مما يسمح للعقدة بإثبات أنها أجرت حسابات وفقًا للوائح ، ولكنها لا تحتاج إلى الكشف عن بيانات المدخلات والمخرجات الفعلية.
ولكن في الواقع ، ستواجه “ZKP” الاختناقات التالية في سيناريو استخدام شبكة طاقة الحوسبة الموزعة على نطاق واسع لتدريب النماذج الكبيرة:
ملخص
سوف يستغرق الأمر عدة سنوات من البحث والتطوير لاستخدام “ZKP” لشبكات الحوسبة الموزعة واسعة النطاق لتدريب النماذج الكبيرة ، كما سيتطلب المزيد من الطاقة والموارد من المجتمع الأكاديمي في هذا الاتجاه.
سيناريو آخر كبير نسبيًا لقوة الحوسبة الموزعة هو الاستدلال النموذجي.وفقًا لحكمنا على مسار تطوير النماذج الكبيرة ، فإن الطلب على تدريب النموذج سوف يتباطأ تدريجياً مع نضوج النماذج الكبيرة بعد اجتياز نقطة عالية. ستزداد متطلبات الاستدلال بالمقابل بشكل كبير مع نضج النماذج الكبيرة و “AIGC”.
بالمقارنة مع مهام التدريب ، عادةً ما يكون لمهام الاستدلال تعقيد حسابي أقل وتفاعل بيانات أضعف ، وتكون أكثر ملاءمة للبيئات الموزعة.
!
(استدلال Power LLM مع NVIDIA Triton)
** تأخير الاتصال: **
في بيئة موزعة ، يعد الاتصال بين العقد أمرًا ضروريًا. في شبكة طاقة الحوسبة الموزعة اللامركزية ، قد تنتشر العقد في جميع أنحاء العالم ، لذلك يمكن أن يمثل زمن انتقال الشبكة مشكلة ، خاصةً في المهام المنطقية التي تتطلب استجابة في الوقت الفعلي.
** نشر النموذج وتحديثه: **
يجب نشر النموذج على كل عقدة. إذا تم تحديث النموذج ، فستحتاج كل عقدة إلى تحديث نموذجها ، مما يستهلك الكثير من عرض النطاق الترددي للشبكة والوقت.
خصوصية البيانات:
على الرغم من أن مهام الاستدلال تتطلب عادةً بيانات ونماذج إدخال فقط ، ولا تحتاج إلى إرجاع كمية كبيرة من البيانات والمعلمات الوسيطة ، فقد تظل بيانات الإدخال تحتوي على معلومات حساسة ، مثل المعلومات الشخصية للمستخدمين.
** نموذج الأمان: **
في الشبكة اللامركزية ، يجب نشر النموذج على عقد غير موثوق بها ، مما سيؤدي إلى تسرب النموذج ويؤدي إلى مشكلة حقوق الملكية النموذجية وإساءة الاستخدام. يمكن أن يثير هذا أيضًا مخاوف تتعلق بالأمان والخصوصية ، إذا تم استخدام نموذج لمعالجة البيانات الحساسة ، يمكن للعقد استنتاج معلومات حساسة من خلال تحليل سلوك النموذج.
** مراقبة الجودة: **
قد يكون لكل عقدة في شبكة طاقة الحوسبة الموزعة اللامركزية قدرات وموارد حوسبة مختلفة ، مما قد يجعل من الصعب ضمان أداء وجودة مهام الاستدلال.
التعقيد الحسابي:
في مرحلة التدريب ، يحتاج النموذج إلى التكرار بشكل متكرر. أثناء عملية التدريب ، من الضروري حساب الانتشار الأمامي والانتشار الخلفي لكل طبقة ، بما في ذلك حساب وظيفة التنشيط ، وحساب وظيفة الخسارة ، وحساب التدرج وتحديث الوزن. لذلك ، فإن التعقيد الحسابي لتدريب النموذج مرتفع.
في مرحلة الاستدلال ، يلزم مرور أمامي واحد فقط لحساب التنبؤ. على سبيل المثال ، في ؛ GPT-3 ؛ ، من الضروري تحويل نص الإدخال إلى متجه ، ثم إجراء الانتشار الأمامي من خلال كل طبقة من النموذج (عادةً ؛ محول ؛ طبقة) ، وأخيراً الحصول على توزيع احتمالية الإخراج ، و توليد وفقا لهذا التوزيع الكلمة التالية. في ؛ GANs ؛ يحتاج النموذج إلى إنشاء صورة بناءً على متجه ضوضاء الإدخال. تتضمن هذه العمليات فقط الانتشار الأمامي للنموذج ، ولا تحتاج إلى حساب التدرجات أو تحديث المعلمات ، ولديها تعقيد حسابي منخفض.
** تفاعل البيانات: **
أثناء مرحلة الاستدلال ، يعالج النموذج عادةً إدخالًا واحدًا بدلاً من مجموعة كبيرة من البيانات أثناء التدريب. تعتمد نتيجة كل استنتاج فقط على المدخلات الحالية ، وليس على مدخلات أو مخرجات أخرى ، لذلك ليست هناك حاجة لقدر كبير من تفاعل البيانات ، وضغط الاتصال أقل.
أخذ نموذج الصورة التوليدية كمثال ، بافتراض أننا نستخدم ؛ GANs ؛ لإنشاء الصور ، نحتاج فقط إلى إدخال ناقل ضوضاء في النموذج ، ومن ثم سيقوم النموذج بإنشاء صورة مقابلة. في هذه العملية ، سيولد كل إدخال ناتجًا واحدًا فقط ، ولا توجد تبعية بين المخرجات ، لذلك ليست هناك حاجة لتفاعل البيانات.
إذا أخذنا “GPT-3” كمثال ، فإن كل جيل من الكلمة التالية لا يتطلب سوى إدخال النص الحالي وحالة النموذج ، ولا يحتاج إلى التفاعل مع المدخلات أو المخرجات الأخرى ، لذا فإن متطلبات تفاعل البيانات ضعيفة أيضًا .
ملخص
بغض النظر عما إذا كان نموذجًا للغة كبيرة أو نموذجًا للصورة التوليدية ، فإن التعقيد الحسابي وتفاعل البيانات لمهام التفكير منخفض نسبيًا ، وهو أكثر ملاءمة لشبكات طاقة الحوسبة الموزعة اللامركزية ، وهذا هو السبب في أن معظم المشاريع نراها الآن في اتجاه واحد القوة.
إن العتبة التقنية والعرض التقني لشبكة طاقة الحوسبة اللامركزية الموزعة عالية جدًا ، وتتطلب أيضًا دعم موارد الأجهزة ، لذلك لم نشهد الكثير من المحاولات الآن. خذ ؛ معًا ؛ و ؛ Gensyn.ai ؛ على سبيل المثال:
!
(RedPajama من معًا)
معًا ؛ هي شركة مفتوحة المصدر تركز على النماذج الكبيرة وتلتزم باللامركزية ؛ الذكاء الاصطناعي ؛ حلول طاقة الحوسبة ، على أمل أن يتمكن أي شخص من الوصول إليها واستخدامها في أي مكان ؛ الذكاء الاصطناعي. معًا ؛ اكتمل للتو ؛ لوكس كابيتال ؛ بقيادة ؛ 20 ؛ مليون دولار أمريكي ؛ جولة أولية من التمويل.
معًا ؛ شارك في تأسيسها ؛ كريس ، بيرسي ، سي ؛ القصد الأصلي هو أن التدريب على النماذج الكبيرة يتطلب عددًا كبيرًا من وحدات معالجة الرسومات عالية الجودة ؛ المجموعات والنفقات باهظة الثمن ، وتتركز هذه الموارد وقدرات التدريب النموذجية أيضًا في عدد قليل الشركات الكبيرة.
من وجهة نظري ، فإن خطة ريادة الأعمال الأكثر منطقية لقوة الحوسبة الموزعة هي:
** الخطوة ؛ 1. نموذج مفتوح المصدر **
لتنفيذ الاستدلال النموذجي في شبكة طاقة الحوسبة الموزعة اللامركزية ، فإن الشرط الأساسي هو أن العقد يجب أن تكون قادرة على الحصول على النموذج بتكلفة منخفضة ، أي أن النموذج الذي يستخدم شبكة طاقة الحوسبة اللامركزية يجب أن يكون مفتوح المصدر (إذا كان النموذج يحتاج إلى ترخيص في المقابل إذا تم استخدامه أدناه ، فإنه سيزيد من تعقيد وتكلفة التنفيذ). على سبيل المثال ، chatgpt ، كنموذج غير مفتوح المصدر ، غير مناسب للتنفيذ على شبكة طاقة حوسبة لامركزية.
لذلك ، يمكن التكهن بأن الحاجز غير المرئي للشركة التي توفر شبكة طاقة حوسبة لامركزية يحتاج إلى تطوير نماذج قوية على نطاق واسع وقدرات صيانتها. يمكن لـ “نموذج أساسي” قوي تطويره ذاتيًا ومفتوح المصدر التخلص من الاعتماد على نموذج مفتوح المصدر لجهة خارجية إلى حد معين ، وحل المشكلات الأساسية لشبكة طاقة الحوسبة اللامركزية. في الوقت نفسه ، من الأفضل إثبات أن شبكة طاقة الحوسبة يمكنها بشكل فعال تنفيذ تدريب واستدلال النماذج الكبيرة.
و “معا” تفعل الشيء نفسه. تم إصداره مؤخرًا ؛ استنادًا إلى ؛ LLaMA ؛ ؛ نموذج اللغة.
** الخطوة ؛ 2. توزيع القدرة الحاسوبية على منطق النموذج **
كما هو مذكور في القسمين أعلاه ، مقارنةً بتدريب النموذج ، فإن الاستدلال النموذجي له تعقيد حسابي وتفاعل بيانات أقل ، وهو أكثر ملاءمة للبيئة الموزعة اللامركزية.
استنادًا إلى نموذج المصدر المفتوح ، أجرى فريق البحث والتطوير في Together ؛ سلسلة من التحديثات على طرازات "RedPajama-INCITE-3 ؛ B ؛ M ؛ 2 Pro ؛ المعالج ؛ MacBook Pro) تعمل بسلاسة أكبر. في الوقت نفسه ، على الرغم من أن حجم هذا النموذج صغير ، إلا أن قدرته تفوق النماذج الأخرى من نفس الحجم ، وقد تم تطبيقه عمليًا في السيناريوهات القانونية والاجتماعية وغيرها.
** الخطوة ؛ 3. تنفيذ قوة الحوسبة الموزعة في تدريب النموذج **
!
(التغلب على اختناقات الاتصال للتدريب اللامركزي ؛ رسم تخطيطي لشبكة الطاقة الحاسوبية)
من منظور متوسط إلى طويل الأجل ، على الرغم من مواجهة تحديات كبيرة واختناقات فنية ، يجب أن يكون الأكثر جاذبية لتنفيذ متطلبات طاقة الحوسبة “AI” للتدريب على النماذج واسعة النطاق. معًا ؛ في بداية إنشائها ، بدأت في تحديد كيفية التغلب على عنق الزجاجة في التدريب اللامركزي. كما قاموا بنشر ورقة ذات صلة حول NeurIPS 2022: ** التغلب على معوقات الاتصال للتدريب اللامركزي **. يمكننا تلخيص الاتجاهات التالية بشكل أساسي:
** جدولة التحسين **
عند التدريب في بيئة لامركزية ، من المهم تعيين مهام اتصالات ثقيلة للأجهزة ذات الاتصالات الأسرع لأن الاتصالات بين العقد لها فترات انتقال وعرض نطاق مختلفة. معًا ؛ من خلال بناء نموذج لوصف تكلفة استراتيجية جدولة محددة ، قم بتحسين استراتيجيات الجدولة بشكل أفضل لتقليل تكاليف الاتصال وتعظيم إنتاجية التدريب. معًا ؛ وجد الفريق أيضًا أنه على الرغم من أن الشبكة كانت أبطأ 100 مرة ، إلا أن معدل نقل التدريب من طرف إلى طرف كان أبطأ من 1.7 إلى 2.3 مرة فقط. لذلك ، من المثير للاهتمام اللحاق بالفجوة بين الشبكات الموزعة والمجموعات المركزية من خلال جدولة التحسين.
** تحسين ضغط الاتصال **
معًا ؛ يقترح ضغط الاتصال للتنشيطات الأمامية والتدرجات الخلفية ، وتقديم خوارزمية “AQ-SGD” ، والتي توفر ضمانات صارمة لتقارب نزول التدرج العشوائي. AQ-SGD ؛ قادر على ضبط النماذج الأساسية الكبيرة على الشبكات البطيئة (على سبيل المثال ؛ 500 ميجابت في الثانية) ، أبطأ فقط من أداء التدريب الشامل على الشبكات المركزية (على سبيل المثال ؛ 10 جيجابت في الثانية) بدون ضغط ؛ 31٪ ؛. بالإضافة إلى ذلك ، AQ-SGD ؛ يمكن أيضًا دمجه مع أحدث تقنيات ضغط التدرج (مثل ؛ QuantizedAdam) لتحقيق ؛ 10٪ ؛ تحسين السرعة من طرف إلى طرف.
ملخص المشروع
معًا ؛ تكوين الفريق شامل للغاية ، يتمتع الأعضاء جميعًا بخلفية أكاديمية قوية للغاية ، ويتم دعمهم من قبل خبراء الصناعة من تطوير النماذج على نطاق واسع ، والحوسبة السحابية إلى تحسين الأجهزة. و “معًا” يظهر وضع المريض طويل الأمد في تخطيط المسار ، من تطوير نماذج كبيرة مفتوحة المصدر إلى اختبار قوة الحوسبة الخاملة (مثل ؛ mac) في شبكة طاقة الحوسبة الموزعة باستخدام تفكير النموذج ، ثم إلى الحوسبة الموزعة. تخطيط القوات على تدريب نموذج كبير. - يوجد هذا النوع من التراكم وشعور الشعر الخفيف :) ؛
لكن حتى الآن ، لم نشهد “معًا” نتائج بحث كثيرة جدًا في طبقة الحوافز. أعتقد أن هذا له نفس أهمية البحث والتطوير التكنولوجي ، وهو عامل رئيسي لضمان تطوير شبكة طاقة حوسبة لامركزية.
!
؛ (Gensyn.ai)
من المسار التقني لـ “معًا” ، يمكننا أن نفهم تقريبًا عملية تنفيذ شبكة طاقة الحوسبة اللامركزية في تدريب النموذج والاستدلال ، بالإضافة إلى تركيز البحث والتطوير المقابل.
هناك نقطة مهمة أخرى لا يمكن تجاهلها وهي تصميم طبقة الحوافز / خوارزمية الإجماع لشبكة الطاقة الحاسوبية. على سبيل المثال ، تحتاج الشبكة الممتازة إلى:
تأكد من أن الفوائد جذابة بما فيه الكفاية ؛
ضمان حصول كل عامل منجم على المزايا التي يستحقها ، بما في ذلك مكافحة الغش والمزيد من الأجر مقابل المزيد من العمل ؛
التأكد من جدولة المهام بشكل مباشر ومعقول وتوزيعها على عقد مختلفة ، ولن يكون هناك عدد كبير من العقد الخاملة أو اكتظاظ بعض العقد ؛
خوارزمية الحوافز بسيطة وفعالة ، ولن تتسبب في زيادة عبء النظام والتأخير ؛
……
** انظر كيف ؛ Gensyn.ai ؛ هل هو: **
بادئ ذي بدء ، يتنافس “الحل” في شبكة الطاقة الحاسوبية على الحق في معالجة المهام المقدمة من “المستخدم” من خلال طريقة “العطاء” ، ووفقًا لحجم المهمة وخطر العثور على الغش ، حلال ، يحتاج إلى رهن مبلغ معين.
Solver ؛ ينشئ متعددة ؛ نقاط التحقق (لضمان الشفافية وإمكانية تتبع العمل) أثناء التحديث ؛ المعلمات ؛ وسيقوم بشكل دوري بإنشاء منطق تشفير التشفير حول المهام ؛ البراهين (إثباتات التقدم في العمل) ؛
عندما يكمل Solver العمل وينتج جزءًا من نتائج الحساب ، سيختار البروتوكول ؛ المدقق ، المدقق ؛ سوف يتعهد أيضًا بمبلغ معين (لضمان أن ؛ المدقق ؛ يقوم بالتحقق بأمانة) ، وبناءً على المقدمة أعلاه ؛ جزء من نتائج الحساب.
من خلال بنية البيانات المستندة إلى “شجرة ميركل” ، حدد الموقع الدقيق الذي تختلف فيه نتائج الحساب. ستكون عملية التحقق بأكملها على السلسلة ، وسيتم خصم الغشاشين من المبلغ المرهون به.
ملخص المشروع
تصميم خوارزمية التحفيز والتحقق يجعل Gensyn.ai لا يحتاج إلى إعادة عرض جميع نتائج مهمة الحوسبة بأكملها أثناء عملية التحقق ، ولكنه يحتاج فقط إلى نسخ جزء من النتائج والتحقق منه وفقًا للإثبات المقدم ، مما يحسن بشكل كبير من كفاءة التحقق. في الوقت نفسه ، تحتاج العقد فقط إلى تخزين جزء من نتائج الحساب ، مما يقلل أيضًا من استهلاك مساحة التخزين وموارد الحوسبة. بالإضافة إلى ذلك ، لا يمكن لعقد الغش المحتملة أن تتنبأ بالأجزاء التي سيتم اختيارها للتحقق منها ، وبالتالي فإن هذا يقلل أيضًا من مخاطر الغش ؛
يمكن أيضًا لهذه الطريقة في التحقق من الاختلافات واكتشاف الغشاشين العثور بسرعة على الخطأ في عملية الحساب دون مقارنة نتيجة الحساب بالكامل (بدءًا من العقدة الجذرية لـ “شجرة Merkle” والانتقال خطوة بخطوة) ، وهي فعالة جدًا في التعامل مع مهام الحوسبة واسعة النطاق.
باختصار ، هدف تصميم طبقة التحفيز / التحقق الخاصة بـ Gensyn.ai هو: بسيط وفعال. ومع ذلك ، فهو يقتصر حاليًا على المستوى النظري ، وقد يواجه التنفيذ المحدد التحديات التالية:
لم يتم التحقق من مسألة من يحتاج إلى شبكة طاقة حوسبة لامركزية. من الواضح أن تطبيق قوة الحوسبة الخاملة على التدريب على النماذج واسعة النطاق التي تتطلب موارد طاقة حوسبة ضخمة هو الأكثر أهمية ؛ ومن المنطقي أيضًا أن يكون الفضاء الأكثر إبداعًا. ولكن في الواقع ، يجب أن تدفعنا الاختناقات مثل الاتصال والخصوصية إلى إعادة التفكير:
هل هناك أمل حقًا في التدريب اللامركزي للنماذج الكبيرة؟
إذا قفزت من هذا الإجماع ، “سيناريو الهبوط الأكثر منطقية” ، فهل هو سيناريو كبير لتطبيق قوة الحوسبة اللامركزية لتدريب نماذج الذكاء الاصطناعي الصغيرة؟ من وجهة نظر فنية ، تم حل العوامل المحددة الحالية نظرًا لحجم النموذج وبنيته. وفي الوقت نفسه ، من وجهة نظر السوق ، شعرنا دائمًا أن تدريب النماذج الكبيرة سيكون ضخمًا من الآن إلى المستقبل ، ولكن صغير ؛ الذكاء الاصطناعي ؛ نموذج هل السوق غير جذاب؟
أنا لا أعتقد ذلك. بالمقارنة مع النماذج الكبيرة ، فإن نماذج “AI” الصغيرة أسهل في النشر والإدارة ، وهي أكثر كفاءة من حيث سرعة المعالجة واستخدام الذاكرة. في عدد كبير من سيناريوهات التطبيق ، لا يحتاج المستخدمون أو الشركات إلى قدرات التفكير الأكثر عمومية نماذج لغوية كبيرة ، لكنها معنية فقط بهدف تنبؤ دقيق للغاية. لذلك ، لا تزال نماذج “الذكاء الاصطناعي” الصغيرة هي الخيار الأكثر قابلية للتطبيق في معظم السيناريوهات ولا ينبغي تجاهلها قبل الأوان في موجة “فومو” للنماذج الكبيرة.
تراهن شركة Foresight Ventures على عملية ابتكار العملة المشفرة في العقود القليلة القادمة ، وتدير عدة صناديق تحت إدارتها: رأس مال VC ؛ صندوق ، صندوق إدارة ثانوي نشط ، إستراتيجيات متعددة ؛ FOF ، غرض خاص ؛ S ؛ صندوق “Foresight Secondary Fund l” ، إجمالي الأصول حجم الإدارة يتجاوز ؛ 4 ؛ مليون دولار أمريكي. تلتزم شركة Foresight Ventures بمفهوم “فريد ، ومستقل ، وعدواني ، وطويل الأجل” وتوفر دعمًا مكثفًا للمشاريع من خلال قوى بيئية قوية. يأتي فريقها من كبار الموظفين من كبار الشركات المالية والتكنولوجية بما في ذلك Sequoia China و CICC و Google و Bitmain ، إلخ.
موقع إلكتروني:؛
** إخلاء المسؤولية: Foresight Ventures ؛ لا يُقصد من جميع المقالات أن تكون نصيحة استثمارية. الاستثمار محفوف بالمخاطر ، يرجى تقييم تحملك للمخاطر الشخصية واتخاذ قرارات الاستثمار بحكمة. **