Foresight Ventures: وجهة نظر عقلانية حول شبكات الطاقة الحاسوبية اللامركزية

星球日报

2023-06-01 11:04:41

المؤلف الأصلي: Yihan Xu، Foresight Ventures

TL ؛ DR

في الوقت الحالي ، تشتمل مجموعة “AI + Crypto” بشكل أساسي على “2” اتجاهات كبيرة نسبيًا: قوة الحوسبة الموزعة و “ZKML”. حول “ZKML” ، يمكنك الرجوع إلى مقالتي السابقة. ** ستحلل هذه المقالة شبكة طاقة الحوسبة الموزعة اللامركزية وتتأمل فيها **. ؛
في ظل الاتجاه التنموي للنموذج الكبير “AI” ، ** ستكون موارد طاقة الحوسبة ساحة المعركة الكبرى في العقد المقبل ، وأيضًا أهم شيء للمجتمع البشري في المستقبل ** ، ولن تبقى فقط في المجال التجاري المنافسة ، ولكن أيضا تصبح دولة كبيرة الموارد الاستراتيجية للعبة. في المستقبل ، سيزداد الاستثمار في البنية التحتية للحوسبة عالية الأداء واحتياطيات طاقة الحوسبة بشكل كبير.
تتمتع شبكة الطاقة الحاسوبية الموزعة اللامركزية بأكبر طلب على الذكاء الاصطناعي ؛ تدريب نموذج كبير ، لكنها تواجه أيضًا أكبر التحديات والاختناقات التقنية. بما في ذلك الحاجة إلى مزامنة البيانات المعقدة وقضايا تحسين الشبكة. بالإضافة إلى ذلك ، تعتبر خصوصية البيانات وأمنها قيودًا مهمة أيضًا. على الرغم من أن بعض التقنيات الحالية يمكن أن توفر حلولًا أولية ، إلا أنها لا تزال غير قابلة للتطبيق في مهام التدريب الموزعة على نطاق واسع بسبب النفقات العامة الحاسوبية والتواصلية الضخمة.
تتمتع شبكة طاقة الحوسبة الموزعة اللامركزية بفرصة أفضل للهبوط في تفكير النموذج ، ويمكنها أن تتنبأ بأن المساحة الإضافية المستقبلية كبيرة أيضًا بدرجة كافية. لكنها تواجه أيضًا تحديات مثل تأخير الاتصال وخصوصية البيانات وأمن النموذج. مقارنةً بتدريب النموذج ، يكون للاستدلال تعقيد حسابي وتفاعل بيانات أقل ، وهو أكثر ملاءمة للبيئات الموزعة.
من خلال حالتي “Together” و “Gensyn.ai” شركتين مبتدئتين ، يتم توضيح الاتجاه العام للبحث والأفكار المحددة لشبكة الطاقة الحاسوبية الموزعة اللامركزية من منظور تحسين التكنولوجيا وتصميم طبقة الحوافز.

1. قوة الحوسبة الموزعة - تدريب النموذج الكبير

نحن نناقش تطبيق قوة الحوسبة الموزعة في التدريب ، ونركز بشكل عام على تدريب نماذج اللغة الكبيرة. والسبب الرئيسي هو أن تدريب النماذج الصغيرة لا يتطلب الكثير من قوة الحوسبة. من أجل القيام بخصوصية البيانات الموزعة ومجموعة من المشاريع المشكلة ليست فعالة من حيث التكلفة ، فمن الأفضل حلها بشكل مباشر ومركزي. نموذج اللغة الكبير لديه طلب كبير على قوة الحوسبة ، وهو الآن في المرحلة الأولى من الانفجار. من عام 2012 إلى عام 2018 ، سيتضاعف الطلب على الحوسبة للذكاء الاصطناعي كل 4 أشهر ، والآن أصبح أكثر طلبًا على قوة الحوسبة يمكن للنقاط المركزة أن تتنبأ بالمستقبل ؛ 5-8 سنوات ستظل طلبًا متزايدًا ضخمًا.

في حين أن هناك فرصًا ضخمة ، يجب أيضًا رؤية المشاكل بوضوح. يعلم الجميع أن المشهد ضخم ، ولكن أين التحديات المحددة؟ من يستطيع “استهداف” هذه المشاكل بدلاً من الدخول بشكل أعمى في اللعبة ، وهو جوهر الحكم على المشاريع الممتازة لهذا المسار.

؛ (إطار عمل NVIDIA NeMo Megatron）

1. عملية التدريب الشاملة

خذ تدريب نموذج كبير مع 175 مليار معلمة كمثال. نظرًا للحجم الهائل للنموذج ، يجب تدريبه بشكل متوازٍ على العديد من أجهزة “GPU”. لنفترض أن هناك غرفة كمبيوتر مركزية ، هناك ؛ 100 ؛ GPUs ، كل جهاز ؛ 32 ؛ GB ؛ الذاكرة.

** إعداد البيانات **: أولاً ، يلزم وجود مجموعة بيانات ضخمة تحتوي على بيانات مختلفة مثل معلومات الإنترنت ، والأخبار ، والكتب ، وما إلى ذلك. يجب معالجة هذه البيانات مسبقًا قبل التدريب ، بما في ذلك تنظيف النص ، والترميز ، وبناء المفردات ، وما إلى ذلك.
** تقسيم البيانات **: سيتم تقسيم البيانات التي تمت معالجتها إلى عدة ؛ دفعات للمعالجة المتوازية على عدة ؛ وحدات معالجة الرسومات ؛ افترض أن المحدد ؛ الدُفعة ؛ الحجم ؛ 512 ؛ أي أن كل دفعة تحتوي على ؛ 512 ؛ تسلسل نصي. بعد ذلك ، قمنا بتقسيم مجموعة البيانات بأكملها إلى دفعات ، لتشكيل قائمة انتظار من الدُفعات.
** نقل البيانات بين الأجهزة **: في بداية كل خطوة تدريب ، تأخذ وحدة المعالجة المركزية دفعة من قائمة انتظار الدُفعات ، ثم ترسل بيانات هذه الدُفعة إلى ؛ PCIe ؛ ناقل إلى ؛ GPU. بافتراض أن متوسط طول كل تسلسل نصي هو ؛ 1024 ؛ رمزًا مميزًا ، ثم يكون حجم البيانات لكل دفعة تقريبًا ؛ 512 \ * 1024 \ * 4 ؛ ب = 2 ؛ ميغا بايت (بافتراض استخدام كل رمز مميز ؛ 4 ؛ بايت دقة واحدة عائمة تمثيل نقطة). عادةً ما تستغرق عملية نقل البيانات هذه بضع مللي ثانية فقط.
** التدريب الموازي **: بعد تلقي البيانات ، يبدأ كل جهاز “GPU” في إجراء حسابات التمرير إلى الأمام والخلف ، ويحسب التدرج اللوني لكل معلمة. نظرًا للحجم الكبير للنموذج ، لا يمكن لذاكرة “GPU” واحدة تخزين جميع المعلمات ، لذلك نستخدم التكنولوجيا المتوازية النموذجية لتوزيع معلمات النموذج على “وحدات معالجة الرسومات” المتعددة.
** تجميع التدرج وتحديث المعلمة **: بعد اكتمال حساب backpropagation ، يحصل كل منهما ؛ GPU ؛ على التدرج اللوني لجزء من المعلمات. يجب بعد ذلك تجميع هذه التدرجات عبر الكل ؛ GPU ؛ الأجهزة من أجل حساب التدرجات العالمية. وهذا يتطلب نقل البيانات عبر الشبكة ، بافتراض أن الشبكة “25 ؛ جيجابت في الثانية” مستخدمة ، ثم نقل "700 ؛ غيغابايت ؛ غيغابايت) يستغرق حوالي ؛ 224 ؛ ثانية. ثم تقوم كل وحدة ؛ GPU بتحديث معلماتها المخزنة وفقًا للتدرج اللوني العام.
** Sync **: بعد تحديث المعلمة ، يجب مزامنة جميع ؛ GPU ؛ الأجهزة للتأكد من أنها تستخدم جميعًا معلمات نموذجية متسقة للخطوة التالية من التدريب. يتطلب هذا أيضًا نقل البيانات عبر الشبكة.
** كرر خطوات التدريب **: كرر الخطوات المذكورة أعلاه حتى يتم الانتهاء من تدريب جميع المجموعات ، أو الوصول إلى العدد المحدد مسبقًا من جولات التدريب (الحقبة).

تتضمن هذه العملية قدرًا كبيرًا من نقل البيانات ومزامنتها ، والتي قد تصبح عنق الزجاجة لكفاءة التدريب. لذلك ، يعد تحسين عرض النطاق الترددي للشبكة ووقت الاستجابة واستخدام استراتيجيات التوازي والمزامنة الفعالة أمرًا مهمًا للغاية للتدريب على النماذج واسعة النطاق.

2. عنق الزجاجة للتواصل:

وتجدر الإشارة إلى أن عنق الزجاجة في الاتصال هو أيضًا السبب في أن شبكة طاقة الحوسبة الموزعة الحالية لا يمكنها إجراء تدريب كبير على نموذج اللغة.

تحتاج كل عقدة إلى تبادل المعلومات بشكل متكرر للعمل معًا ، مما يؤدي إلى زيادة تكلفة الاتصال. بالنسبة لنماذج اللغات الكبيرة ، تكون هذه المشكلة خطيرة بشكل خاص بسبب العدد الكبير من معلمات النموذج. يتم تقسيم النفقات العامة للاتصالات إلى هذه الجوانب:

** نقل البيانات **: تحتاج العقد إلى تبادل معلمات النموذج ومعلومات التدرج بشكل متكرر أثناء التدريب. يتطلب ذلك نقل كمية كبيرة من البيانات في الشبكة ، مما يستهلك قدرًا كبيرًا من النطاق الترددي للشبكة. إذا كانت ظروف الشبكة رديئة أو كانت المسافة بين عقد الحوسبة كبيرة ، فسيكون التأخير في نقل البيانات مرتفعًا ، مما يزيد من عبء الاتصال.
** مشكلة التزامن **: أثناء التدريب ، تحتاج العقد للعمل معًا لضمان التدريب الصحيح. يتطلب ذلك عمليات مزامنة متكررة بين العقد ، مثل تحديث معلمات النموذج ، وحساب التدرجات العالمية ، وما إلى ذلك. تحتاج هذه العمليات المتزامنة إلى نقل كمية كبيرة من البيانات في الشبكة ، وتحتاج إلى انتظار جميع العقد لإكمال العملية ، مما سيؤدي إلى الكثير من الاتصالات ووقت الانتظار.
** تراكم التدرج وتحديثه **: أثناء عملية التدريب ، تحتاج كل عقدة إلى حساب التدرج اللوني الخاص بها وإرساله إلى العقد الأخرى للتراكم والتحديث. يتطلب ذلك نقل كمية كبيرة من بيانات التدرج في الشبكة ، والحاجة إلى انتظار جميع العقد لإكمال حساب التدرجات ونقلها ، وهو أيضًا سبب وجود قدر كبير من الحمل الزائد للاتصالات.
** اتساق البيانات **: من الضروري التأكد من أن معلمات النموذج لكل عقدة متسقة. يتطلب هذا المجموع الاختباري المتكرر للبيانات وعمليات المزامنة بين العقد ، مما ينتج عنه قدر كبير من حمل الاتصال.

على الرغم من وجود بعض الطرق لتقليل نفقات الاتصال ، مثل ضغط المعلمات والتدرجات ، والاستراتيجيات الموازية الفعالة ، وما إلى ذلك ، فقد تؤدي هذه الأساليب إلى زيادة العبء الحسابي أو التأثير سلبًا على تأثير التدريب للنموذج. أيضًا ، لا يمكن لهذه الطرق أن تحل مشكلة الاتصال العلوية تمامًا ، خاصة في حالة ظروف الشبكة السيئة أو المسافات الكبيرة بين عقد الحوسبة.

كمثال:

** شبكة طاقة الحوسبة الموزعة اللامركزية **

GPT-3 ؛ النموذج يحتوي ؛ 175 مليار ؛ مليار معلمة ، وإذا استخدمنا أرقام فاصلة عائمة أحادية الدقة (كل معلمة ؛ 4 ؛ بايت) لتمثيل هذه المعلمات ، فإن تخزين هذه المعلمات يتطلب ~ ؛ 700 ؛ جيجابايت ؛ من الذاكرة . في التدريب الموزع ، يجب نقل هذه المعلمات وتحديثها بشكل متكرر بين عقد الحوسبة.

لنفترض أن هناك ؛ 100 ؛ عقد حوسبة ، وكل عقدة تحتاج إلى تحديث جميع المعلمات في كل خطوة ، ثم تحتاج كل خطوة إلى نقل حوالي ؛ 70 ؛ تيرابايت (700 ؛ غيغابايت * ؛ 100 ؛) من البيانات. إذا افترضنا أن خطوة ما تأخذ ؛ 1 ؛ ق (افتراض متفائل جدًا) ، إذن كل ثانية تحتاج إلى نقل ؛ 70 ؛ تيرابايت ؛ من البيانات. هذا الطلب على النطاق الترددي يفوق بكثير بالفعل طلب معظم الشبكات وهو أيضًا مسألة جدوى.

في الواقع ، بسبب تأخيرات الاتصال وازدحام الشبكة ، قد يكون وقت نقل البيانات أطول بكثير من ؛ 1 ؛ ثانية. هذا يعني أن عقد الحوسبة قد تحتاج إلى قضاء الكثير من الوقت في انتظار نقل البيانات بدلاً من إجراء حسابات فعلية. سيؤدي هذا إلى تقليل كفاءة التدريب بشكل كبير ، ولا يمكن حل هذا الانخفاض في الكفاءة بالانتظار ، ولكن الفرق بين ممكن وغير ممكن ، مما سيجعل عملية التدريب بأكملها غير قابلة للتنفيذ.

** غرفة كمبيوتر مركزية **

حتى في بيئة غرفة الكمبيوتر المركزية ، لا يزال تدريب النماذج الكبيرة يتطلب تحسينًا كثيفًا للاتصالات.

في بيئة غرفة الكمبيوتر المركزية ، تُستخدم أجهزة الحوسبة عالية الأداء كمجموعة ، متصلة عبر شبكة عالية السرعة لمشاركة مهام الحوسبة. ومع ذلك ، حتى عند تدريب نموذج مع عدد كبير جدًا من المعلمات في بيئة شبكة عالية السرعة ، لا تزال عبء الاتصال يمثل عنق الزجاجة ، لأن معلمات وتدرجات النموذج تحتاج إلى النقل والتحديث بشكل متكرر بين أجهزة الحوسبة المختلفة .

كما ذكرنا في البداية ، افترض أن هناك ؛ 100 ؛ عقد حوسبة ، كل خادم لديه ؛ 25 ؛ جيجابت في الثانية ؛ عرض النطاق الترددي للشبكة. إذا احتاج كل خادم إلى تحديث جميع المعلمات في كل خطوة تدريب ، فيجب أن ترسل كل خطوة تدريب حوالي 700 ؛ غيغابايت ؛ احتياجات البيانات ~ ؛ 224 ؛ ثانية. من خلال الاستفادة من غرفة الكمبيوتر المركزية ، يمكن للمطورين تحسين طوبولوجيا الشبكة داخل مركز البيانات واستخدام تقنيات مثل نموذج التوازي لتقليل هذا الوقت بشكل كبير.

في المقابل ، إذا تم تنفيذ نفس التدريب في بيئة موزعة ، فمن المفترض أنه لا يزال هناك ؛ 100 ؛ عقد حوسبة موزعة في جميع أنحاء العالم ، ومتوسط عرض النطاق الترددي للشبكة لكل عقدة هو فقط ؛ 1 ؛ جيجابت في الثانية. في هذه الحالة ، نقل نفس ؛ 700 ؛ غيغابايت ؛ يستغرق البيانات ~ ؛ 5600 ؛ ثانية ، أطول بكثير من غرفة الكمبيوتر المركزية. أيضًا ، نظرًا لتأخيرات الشبكة وازدحامها ، فقد يكون الوقت الفعلي المطلوب أطول.

ومع ذلك ، مقارنةً بالموقف في شبكة طاقة الحوسبة الموزعة ، فمن السهل نسبيًا تحسين عبء الاتصال في بيئة غرفة كمبيوتر مركزية. لأنه في بيئة غرفة الكمبيوتر المركزية ، عادةً ما تكون أجهزة الحوسبة متصلة بنفس الشبكة عالية السرعة ، ويكون عرض النطاق الترددي وتأخير الشبكة جيدًا نسبيًا. في شبكة طاقة الحوسبة الموزعة ، قد يتم توزيع عقد الحوسبة في جميع أنحاء العالم ، وقد تكون ظروف الشبكة رديئة نسبيًا ، مما يجعل مشكلة الاتصال الزائد أكثر خطورة.

في عملية تدريب GPT-3 ، تبنت OpenAI إطار عمل موازٍ نموذجي يسمى “Megatron” لحل مشكلة الاتصال الزائد. يقسم ميجاترون معلمات النموذج ويعالجها بالتوازي بين وحدات معالجة رسومات متعددة ، وكل جهاز مسؤول فقط عن تخزين وتحديث جزء من المعلمات ، وبالتالي تقليل كمية المعلمات التي يحتاجها كل جهاز للمعالجة وتقليل عبء الاتصال. في الوقت نفسه ، تُستخدم أيضًا شبكة ربط عالي السرعة أثناء التدريب ، ويتم تقليل طول مسار الاتصال عن طريق تحسين هيكل الشبكة.

البيانات المستخدمة لتدريب نماذج LLM）

3. لماذا لا تقوم شبكة طاقة الحوسبة الموزعة بهذه التحسينات

يمكن القيام بذلك ، ولكن بالمقارنة مع غرفة الكمبيوتر المركزية ، فإن تأثير هذه التحسينات محدود للغاية.

** تحسين طوبولوجيا الشبكة **: في غرفة الكمبيوتر المركزية ، يمكن التحكم في أجهزة الشبكة وتخطيطها بشكل مباشر ، لذلك يمكن تصميم هيكل الشبكة وتحسينه وفقًا للاحتياجات. ومع ذلك ، في بيئة موزعة ، يتم توزيع عقد الحوسبة في مواقع جغرافية مختلفة ، حتى واحدة في الصين وواحدة في الولايات المتحدة ، ولا توجد طريقة للتحكم المباشر في اتصال الشبكة بينهما. على الرغم من أنه يمكن استخدام البرامج لتحسين مسار نقل البيانات ، إلا أنها ليست فعالة مثل التحسين المباشر لشبكة الأجهزة. في الوقت نفسه ، نظرًا للاختلافات في المواقع الجغرافية ، فإن تأخيرات الشبكة وعروض النطاق تختلف أيضًا بشكل كبير ، مما يحد بشكل أكبر من تأثير تحسين طوبولوجيا الشبكة.
** نموذج التوازي **: نموذج التوازي هو تقنية تقسم معلمات النموذج إلى عقد حوسبة متعددة ، وتحسن سرعة التدريب من خلال المعالجة المتوازية. ومع ذلك ، تحتاج هذه الطريقة عادةً إلى نقل البيانات بين العقد بشكل متكرر ، لذلك فهي تتطلب متطلبات عالية بشأن النطاق الترددي للشبكة ووقت الاستجابة. في غرفة الكمبيوتر المركزية ، نظرًا لارتفاع عرض النطاق الترددي للشبكة وزمن وصول منخفض ، يمكن أن يكون نموذج التوازي فعالًا للغاية. ومع ذلك ، في بيئة موزعة ، يكون نموذج التوازي محدودًا إلى حد كبير بسبب ظروف الشبكة السيئة. ؛؛؛؛

4. تحديات أمن البيانات والخصوصية

قد تؤثر جميع الروابط التي تتضمن معالجة البيانات ونقلها تقريبًا على أمان البيانات وخصوصيتها:

** توزيع البيانات **: يجب توزيع بيانات التدريب على كل عقدة مشاركة في الحساب. قد يتم استخدام / تسريب البيانات الموجودة في هذا الارتباط بشكل ضار على العقد الموزعة.
** تدريب النموذج **: أثناء عملية التدريب ، ستستخدم كل عقدة البيانات المخصصة لها للحساب ، ثم تقوم بإخراج التحديث أو التدرج اللوني لمعلمات النموذج. أثناء هذه العملية ، إذا سُرقت عملية حساب العقدة أو تم تحليل النتيجة بشكل ضار ، فقد يتم أيضًا تسريب البيانات.
** المعلمة وتجميع التدرج **: يجب تجميع ناتج كل عقدة لتحديث النموذج العالمي ، وقد يؤدي الاتصال أثناء عملية التجميع أيضًا إلى تسريب معلومات حول بيانات التدريب.

** ما الحلول المتاحة لمخاوف خصوصية البيانات؟ **

الحوسبة الآمنة متعددة الأطراف: SMC ؛ تم تطبيقها بنجاح في بعض مهام الحوسبة المحددة الصغيرة. ومع ذلك ، في مهام التدريب الموزعة على نطاق واسع ، نظرًا لحملها الكبير في مجال الحوسبة والاتصالات ، لم يتم استخدامها على نطاق واسع حتى الآن.
الخصوصية التفاضلية: تُطبق في بعض مهام جمع البيانات وتحليلها ، مثل ؛ Chrome ؛ إحصاءات المستخدم ، إلخ. ولكن في مهام التعلم العميق واسعة النطاق ، سيكون لـ DP تأثير على دقة النموذج. في الوقت نفسه ، يمثل تصميم آلية مناسبة لتوليد الضوضاء وإضافتها تحديًا.
التعلم الموحد: يتم تطبيقه في مهام التدريب النموذجية لبعض الأجهزة المتطورة ، مثل ؛ Android ؛ توقع مفردات لوحة المفاتيح ، إلخ. ولكن في مهام التدريب الموزعة على نطاق واسع ، تواجه FL ؛ مشاكل مثل ارتفاع تكاليف الاتصال والتنسيق المعقد.
التشفير متماثل الشكل: تم تطبيقه بنجاح في بعض المهام مع تعقيد حسابي أقل. ومع ذلك ، في مهام التدريب الموزعة على نطاق واسع ، نظرًا لارتفاع تكاليفها الحسابية ، لم يتم استخدامها على نطاق واسع حتى الآن.

ملخص

كل من الطرق المذكورة أعلاه لها سيناريوهات وقيود قابلة للتطبيق ، ولا يمكن لأي من الطرق أن تحل تمامًا مشكلة خصوصية البيانات في تدريب النموذج الكبير لشبكة طاقة الحوسبة الموزعة.

** هل ستحل ZK ، التي لديها آمال كبيرة ، مشكلة خصوصية البيانات في تدريب النماذج الكبيرة؟ **

نظريًا ؛ ZKP ؛ يمكن استخدامها لضمان خصوصية البيانات في الحوسبة الموزعة ، مما يسمح للعقدة بإثبات أنها أجرت حسابات وفقًا للوائح ، ولكنها لا تحتاج إلى الكشف عن بيانات المدخلات والمخرجات الفعلية.

ولكن في الواقع ، ستواجه “ZKP” الاختناقات التالية في سيناريو استخدام شبكة طاقة الحوسبة الموزعة على نطاق واسع لتدريب النماذج الكبيرة:

** النفقات العامة الحاسوبية والتواصلية ؛ أعلى **: يتطلب إنشاء براهين انعدام المعرفة والتحقق منها الكثير من موارد الحوسبة. بالإضافة إلى ذلك ، ZKP ؛ لديه أيضًا عبء اتصال كبير بسبب الحاجة إلى إرسال الدليل نفسه. يمكن أن تصبح هذه النفقات العامة ذات أهمية خاصة في حالة تدريب النموذج الكبير. على سبيل المثال ، إذا كان حساب كل دفعة صغيرة يتطلب إنشاء إثبات ، فقد يؤدي ذلك إلى زيادة الوقت الإجمالي وتكلفة التدريب بشكل كبير.
** ZK ؛ تعقيد البروتوكول **: سيكون تصميم وتنفيذ بروتوكول “ZKP” مناسب لتدريب النماذج الكبيرة أمرًا معقدًا للغاية. يحتاج هذا البروتوكول إلى أن يكون قادرًا على التعامل مع البيانات واسعة النطاق والحسابات المعقدة ، ويجب أن يكون قادرًا على التعامل مع الأخطاء غير الطبيعية المحتملة.
** توافق الأجهزة والبرامج **: استخدام ؛ ZKP ؛ يتطلب دعمًا محددًا للأجهزة والبرامج ، والذي قد لا يكون متاحًا على جميع أجهزة الحوسبة الموزعة.

ملخص

سوف يستغرق الأمر عدة سنوات من البحث والتطوير لاستخدام “ZKP” لشبكات الحوسبة الموزعة واسعة النطاق لتدريب النماذج الكبيرة ، كما سيتطلب المزيد من الطاقة والموارد من المجتمع الأكاديمي في هذا الاتجاه.

2. قوة الحوسبة الموزعة - نموذج التفكير

سيناريو آخر كبير نسبيًا لقوة الحوسبة الموزعة هو الاستدلال النموذجي.وفقًا لحكمنا على مسار تطوير النماذج الكبيرة ، فإن الطلب على تدريب النموذج سوف يتباطأ تدريجياً مع نضوج النماذج الكبيرة بعد اجتياز نقطة عالية. ستزداد متطلبات الاستدلال بالمقابل بشكل كبير مع نضج النماذج الكبيرة و “AIGC”.

بالمقارنة مع مهام التدريب ، عادةً ما يكون لمهام الاستدلال تعقيد حسابي أقل وتفاعل بيانات أضعف ، وتكون أكثر ملاءمة للبيئات الموزعة.

(استدلال Power LLM مع NVIDIA Triton)

1. التحدي

** تأخير الاتصال: **

في بيئة موزعة ، يعد الاتصال بين العقد أمرًا ضروريًا. في شبكة طاقة الحوسبة الموزعة اللامركزية ، قد تنتشر العقد في جميع أنحاء العالم ، لذلك يمكن أن يمثل زمن انتقال الشبكة مشكلة ، خاصةً في المهام المنطقية التي تتطلب استجابة في الوقت الفعلي.

** نشر النموذج وتحديثه: **

يجب نشر النموذج على كل عقدة. إذا تم تحديث النموذج ، فستحتاج كل عقدة إلى تحديث نموذجها ، مما يستهلك الكثير من عرض النطاق الترددي للشبكة والوقت.

خصوصية البيانات:

على الرغم من أن مهام الاستدلال تتطلب عادةً بيانات ونماذج إدخال فقط ، ولا تحتاج إلى إرجاع كمية كبيرة من البيانات والمعلمات الوسيطة ، فقد تظل بيانات الإدخال تحتوي على معلومات حساسة ، مثل المعلومات الشخصية للمستخدمين.

** نموذج الأمان: **

في الشبكة اللامركزية ، يجب نشر النموذج على عقد غير موثوق بها ، مما سيؤدي إلى تسرب النموذج ويؤدي إلى مشكلة حقوق الملكية النموذجية وإساءة الاستخدام. يمكن أن يثير هذا أيضًا مخاوف تتعلق بالأمان والخصوصية ، إذا تم استخدام نموذج لمعالجة البيانات الحساسة ، يمكن للعقد استنتاج معلومات حساسة من خلال تحليل سلوك النموذج.

** مراقبة الجودة: **

قد يكون لكل عقدة في شبكة طاقة الحوسبة الموزعة اللامركزية قدرات وموارد حوسبة مختلفة ، مما قد يجعل من الصعب ضمان أداء وجودة مهام الاستدلال.

2. الجدوى

التعقيد الحسابي:

في مرحلة التدريب ، يحتاج النموذج إلى التكرار بشكل متكرر. أثناء عملية التدريب ، من الضروري حساب الانتشار الأمامي والانتشار الخلفي لكل طبقة ، بما في ذلك حساب وظيفة التنشيط ، وحساب وظيفة الخسارة ، وحساب التدرج وتحديث الوزن. لذلك ، فإن التعقيد الحسابي لتدريب النموذج مرتفع.

في مرحلة الاستدلال ، يلزم مرور أمامي واحد فقط لحساب التنبؤ. على سبيل المثال ، في ؛ GPT-3 ؛ ، من الضروري تحويل نص الإدخال إلى متجه ، ثم إجراء الانتشار الأمامي من خلال كل طبقة من النموذج (عادةً ؛ محول ؛ طبقة) ، وأخيراً الحصول على توزيع احتمالية الإخراج ، و توليد وفقا لهذا التوزيع الكلمة التالية. في ؛ GANs ؛ يحتاج النموذج إلى إنشاء صورة بناءً على متجه ضوضاء الإدخال. تتضمن هذه العمليات فقط الانتشار الأمامي للنموذج ، ولا تحتاج إلى حساب التدرجات أو تحديث المعلمات ، ولديها تعقيد حسابي منخفض.

** تفاعل البيانات: **

أثناء مرحلة الاستدلال ، يعالج النموذج عادةً إدخالًا واحدًا بدلاً من مجموعة كبيرة من البيانات أثناء التدريب. تعتمد نتيجة كل استنتاج فقط على المدخلات الحالية ، وليس على مدخلات أو مخرجات أخرى ، لذلك ليست هناك حاجة لقدر كبير من تفاعل البيانات ، وضغط الاتصال أقل.

أخذ نموذج الصورة التوليدية كمثال ، بافتراض أننا نستخدم ؛ GANs ؛ لإنشاء الصور ، نحتاج فقط إلى إدخال ناقل ضوضاء في النموذج ، ومن ثم سيقوم النموذج بإنشاء صورة مقابلة. في هذه العملية ، سيولد كل إدخال ناتجًا واحدًا فقط ، ولا توجد تبعية بين المخرجات ، لذلك ليست هناك حاجة لتفاعل البيانات.

إذا أخذنا “GPT-3” كمثال ، فإن كل جيل من الكلمة التالية لا يتطلب سوى إدخال النص الحالي وحالة النموذج ، ولا يحتاج إلى التفاعل مع المدخلات أو المخرجات الأخرى ، لذا فإن متطلبات تفاعل البيانات ضعيفة أيضًا .

ملخص

بغض النظر عما إذا كان نموذجًا للغة كبيرة أو نموذجًا للصورة التوليدية ، فإن التعقيد الحسابي وتفاعل البيانات لمهام التفكير منخفض نسبيًا ، وهو أكثر ملاءمة لشبكات طاقة الحوسبة الموزعة اللامركزية ، وهذا هو السبب في أن معظم المشاريع نراها الآن في اتجاه واحد القوة.

3. المشروع

إن العتبة التقنية والعرض التقني لشبكة طاقة الحوسبة اللامركزية الموزعة عالية جدًا ، وتتطلب أيضًا دعم موارد الأجهزة ، لذلك لم نشهد الكثير من المحاولات الآن. خذ ؛ معًا ؛ و ؛ Gensyn.ai ؛ على سبيل المثال:

1- معًا

（RedPajama من معًا）

معًا ؛ هي شركة مفتوحة المصدر تركز على النماذج الكبيرة وتلتزم باللامركزية ؛ الذكاء الاصطناعي ؛ حلول طاقة الحوسبة ، على أمل أن يتمكن أي شخص من الوصول إليها واستخدامها في أي مكان ؛ الذكاء الاصطناعي. معًا ؛ اكتمل للتو ؛ لوكس كابيتال ؛ بقيادة ؛ 20 ؛ مليون دولار أمريكي ؛ جولة أولية من التمويل.

معًا ؛ شارك في تأسيسها ؛ كريس ، بيرسي ، سي ؛ القصد الأصلي هو أن التدريب على النماذج الكبيرة يتطلب عددًا كبيرًا من وحدات معالجة الرسومات عالية الجودة ؛ المجموعات والنفقات باهظة الثمن ، وتتركز هذه الموارد وقدرات التدريب النموذجية أيضًا في عدد قليل الشركات الكبيرة.

من وجهة نظري ، فإن خطة ريادة الأعمال الأكثر منطقية لقوة الحوسبة الموزعة هي:

** الخطوة ؛ 1. نموذج مفتوح المصدر **

لتنفيذ الاستدلال النموذجي في شبكة طاقة الحوسبة الموزعة اللامركزية ، فإن الشرط الأساسي هو أن العقد يجب أن تكون قادرة على الحصول على النموذج بتكلفة منخفضة ، أي أن النموذج الذي يستخدم شبكة طاقة الحوسبة اللامركزية يجب أن يكون مفتوح المصدر (إذا كان النموذج يحتاج إلى ترخيص في المقابل إذا تم استخدامه أدناه ، فإنه سيزيد من تعقيد وتكلفة التنفيذ). على سبيل المثال ، chatgpt ، كنموذج غير مفتوح المصدر ، غير مناسب للتنفيذ على شبكة طاقة حوسبة لامركزية.

لذلك ، يمكن التكهن بأن الحاجز غير المرئي للشركة التي توفر شبكة طاقة حوسبة لامركزية يحتاج إلى تطوير نماذج قوية على نطاق واسع وقدرات صيانتها. يمكن لـ “نموذج أساسي” قوي تطويره ذاتيًا ومفتوح المصدر التخلص من الاعتماد على نموذج مفتوح المصدر لجهة خارجية إلى حد معين ، وحل المشكلات الأساسية لشبكة طاقة الحوسبة اللامركزية. في الوقت نفسه ، من الأفضل إثبات أن شبكة طاقة الحوسبة يمكنها بشكل فعال تنفيذ تدريب واستدلال النماذج الكبيرة.

و “معا” تفعل الشيء نفسه. تم إصداره مؤخرًا ؛ استنادًا إلى ؛ LLaMA ؛ ؛ نموذج اللغة.

** الخطوة ؛ 2. توزيع القدرة الحاسوبية على منطق النموذج **

كما هو مذكور في القسمين أعلاه ، مقارنةً بتدريب النموذج ، فإن الاستدلال النموذجي له تعقيد حسابي وتفاعل بيانات أقل ، وهو أكثر ملاءمة للبيئة الموزعة اللامركزية.

استنادًا إلى نموذج المصدر المفتوح ، أجرى فريق البحث والتطوير في Together ؛ سلسلة من التحديثات على طرازات "RedPajama-INCITE-3 ؛ B ؛ M ؛ 2 Pro ؛ المعالج ؛ MacBook Pro) تعمل بسلاسة أكبر. في الوقت نفسه ، على الرغم من أن حجم هذا النموذج صغير ، إلا أن قدرته تفوق النماذج الأخرى من نفس الحجم ، وقد تم تطبيقه عمليًا في السيناريوهات القانونية والاجتماعية وغيرها.

** الخطوة ؛ 3. تنفيذ قوة الحوسبة الموزعة في تدريب النموذج **

(التغلب على اختناقات الاتصال للتدريب اللامركزي ؛ رسم تخطيطي لشبكة الطاقة الحاسوبية)

من منظور متوسط إلى طويل الأجل ، على الرغم من مواجهة تحديات كبيرة واختناقات فنية ، يجب أن يكون الأكثر جاذبية لتنفيذ متطلبات طاقة الحوسبة “AI” للتدريب على النماذج واسعة النطاق. معًا ؛ في بداية إنشائها ، بدأت في تحديد كيفية التغلب على عنق الزجاجة في التدريب اللامركزي. كما قاموا بنشر ورقة ذات صلة حول NeurIPS 2022: ** التغلب على معوقات الاتصال للتدريب اللامركزي **. يمكننا تلخيص الاتجاهات التالية بشكل أساسي:

** جدولة التحسين **

عند التدريب في بيئة لامركزية ، من المهم تعيين مهام اتصالات ثقيلة للأجهزة ذات الاتصالات الأسرع لأن الاتصالات بين العقد لها فترات انتقال وعرض نطاق مختلفة. معًا ؛ من خلال بناء نموذج لوصف تكلفة استراتيجية جدولة محددة ، قم بتحسين استراتيجيات الجدولة بشكل أفضل لتقليل تكاليف الاتصال وتعظيم إنتاجية التدريب. معًا ؛ وجد الفريق أيضًا أنه على الرغم من أن الشبكة كانت أبطأ 100 مرة ، إلا أن معدل نقل التدريب من طرف إلى طرف كان أبطأ من 1.7 إلى 2.3 مرة فقط. لذلك ، من المثير للاهتمام اللحاق بالفجوة بين الشبكات الموزعة والمجموعات المركزية من خلال جدولة التحسين.

** تحسين ضغط الاتصال **

معًا ؛ يقترح ضغط الاتصال للتنشيطات الأمامية والتدرجات الخلفية ، وتقديم خوارزمية “AQ-SGD” ، والتي توفر ضمانات صارمة لتقارب نزول التدرج العشوائي. AQ-SGD ؛ قادر على ضبط النماذج الأساسية الكبيرة على الشبكات البطيئة (على سبيل المثال ؛ 500 ميجابت في الثانية) ، أبطأ فقط من أداء التدريب الشامل على الشبكات المركزية (على سبيل المثال ؛ 10 جيجابت في الثانية) بدون ضغط ؛ 31٪ ؛. بالإضافة إلى ذلك ، AQ-SGD ؛ يمكن أيضًا دمجه مع أحدث تقنيات ضغط التدرج (مثل ؛ QuantizedAdam) لتحقيق ؛ 10٪ ؛ تحسين السرعة من طرف إلى طرف.

ملخص المشروع

معًا ؛ تكوين الفريق شامل للغاية ، يتمتع الأعضاء جميعًا بخلفية أكاديمية قوية للغاية ، ويتم دعمهم من قبل خبراء الصناعة من تطوير النماذج على نطاق واسع ، والحوسبة السحابية إلى تحسين الأجهزة. و “معًا” يظهر وضع المريض طويل الأمد في تخطيط المسار ، من تطوير نماذج كبيرة مفتوحة المصدر إلى اختبار قوة الحوسبة الخاملة (مثل ؛ mac) في شبكة طاقة الحوسبة الموزعة باستخدام تفكير النموذج ، ثم إلى الحوسبة الموزعة. تخطيط القوات على تدريب نموذج كبير. - يوجد هذا النوع من التراكم وشعور الشعر الخفيف :) ؛

لكن حتى الآن ، لم نشهد “معًا” نتائج بحث كثيرة جدًا في طبقة الحوافز. أعتقد أن هذا له نفس أهمية البحث والتطوير التكنولوجي ، وهو عامل رئيسي لضمان تطوير شبكة طاقة حوسبة لامركزية.

2.Gensyn.ai

؛ (Gensyn.ai)

من المسار التقني لـ “معًا” ، يمكننا أن نفهم تقريبًا عملية تنفيذ شبكة طاقة الحوسبة اللامركزية في تدريب النموذج والاستدلال ، بالإضافة إلى تركيز البحث والتطوير المقابل.

هناك نقطة مهمة أخرى لا يمكن تجاهلها وهي تصميم طبقة الحوافز / خوارزمية الإجماع لشبكة الطاقة الحاسوبية. على سبيل المثال ، تحتاج الشبكة الممتازة إلى:

تأكد من أن الفوائد جذابة بما فيه الكفاية ؛
ضمان حصول كل عامل منجم على المزايا التي يستحقها ، بما في ذلك مكافحة الغش والمزيد من الأجر مقابل المزيد من العمل ؛
التأكد من جدولة المهام بشكل مباشر ومعقول وتوزيعها على عقد مختلفة ، ولن يكون هناك عدد كبير من العقد الخاملة أو اكتظاظ بعض العقد ؛
خوارزمية الحوافز بسيطة وفعالة ، ولن تتسبب في زيادة عبء النظام والتأخير ؛

……

** انظر كيف ؛ Gensyn.ai ؛ هل هو: **

** كن عقدة **

بادئ ذي بدء ، يتنافس “الحل” في شبكة الطاقة الحاسوبية على الحق في معالجة المهام المقدمة من “المستخدم” من خلال طريقة “العطاء” ، ووفقًا لحجم المهمة وخطر العثور على الغش ، حلال ، يحتاج إلى رهن مبلغ معين.

يؤكد

Solver ؛ ينشئ متعددة ؛ نقاط التحقق (لضمان الشفافية وإمكانية تتبع العمل) أثناء التحديث ؛ المعلمات ؛ وسيقوم بشكل دوري بإنشاء منطق تشفير التشفير حول المهام ؛ البراهين (إثباتات التقدم في العمل) ؛

عندما يكمل Solver العمل وينتج جزءًا من نتائج الحساب ، سيختار البروتوكول ؛ المدقق ، المدقق ؛ سوف يتعهد أيضًا بمبلغ معين (لضمان أن ؛ المدقق ؛ يقوم بالتحقق بأمانة) ، وبناءً على المقدمة أعلاه ؛ جزء من نتائج الحساب.

** إذا كان ؛ ؛ حلال ؛ و ؛ المدقق ؛ الاختلاف **

من خلال بنية البيانات المستندة إلى “شجرة ميركل” ، حدد الموقع الدقيق الذي تختلف فيه نتائج الحساب. ستكون عملية التحقق بأكملها على السلسلة ، وسيتم خصم الغشاشين من المبلغ المرهون به.

ملخص المشروع

تصميم خوارزمية التحفيز والتحقق يجعل Gensyn.ai لا يحتاج إلى إعادة عرض جميع نتائج مهمة الحوسبة بأكملها أثناء عملية التحقق ، ولكنه يحتاج فقط إلى نسخ جزء من النتائج والتحقق منه وفقًا للإثبات المقدم ، مما يحسن بشكل كبير من كفاءة التحقق. في الوقت نفسه ، تحتاج العقد فقط إلى تخزين جزء من نتائج الحساب ، مما يقلل أيضًا من استهلاك مساحة التخزين وموارد الحوسبة. بالإضافة إلى ذلك ، لا يمكن لعقد الغش المحتملة أن تتنبأ بالأجزاء التي سيتم اختيارها للتحقق منها ، وبالتالي فإن هذا يقلل أيضًا من مخاطر الغش ؛

يمكن أيضًا لهذه الطريقة في التحقق من الاختلافات واكتشاف الغشاشين العثور بسرعة على الخطأ في عملية الحساب دون مقارنة نتيجة الحساب بالكامل (بدءًا من العقدة الجذرية لـ “شجرة Merkle” والانتقال خطوة بخطوة) ، وهي فعالة جدًا في التعامل مع مهام الحوسبة واسعة النطاق.

باختصار ، هدف تصميم طبقة التحفيز / التحقق الخاصة بـ Gensyn.ai هو: بسيط وفعال. ومع ذلك ، فهو يقتصر حاليًا على المستوى النظري ، وقد يواجه التنفيذ المحدد التحديات التالية:

في النموذج الاقتصادي ، كيفية تحديد المعايير المناسبة بحيث يمكنها منع الاحتيال بشكل فعال دون تحديد عتبة عالية جدًا للمشاركين.
فيما يتعلق بالتنفيذ الفني ، فإن كيفية صياغة إثبات منطقي فعال للتشفير الدوري هي أيضًا مشكلة معقدة تتطلب معرفة متقدمة بالتشفير.
فيما يتعلق بتخصيص المهام ، فإن الطريقة التي تختار بها شبكة الطاقة الحاسوبية المهام وتعينها إلى “حلول” مختلفة تتطلب أيضًا دعمًا لخوارزمية جدولة معقولة. ومن الواضح أنها مفتوحة للتساؤل من حيث الكفاءة والجدوى لتعيين المهام فقط وفقًا لـ آلية “العطاء” ، على سبيل المثال ، يمكن للعقد ذات القدرة الحاسوبية القوية التعامل مع المهام على نطاق أوسع ، ولكنها قد لا تشارك فيها ؛ العطاء (يتضمن هنا مسألة حوافز “توفر” العقدة) ، والعقد ذات القدرة الحوسبية المنخفضة قد تقدم عرضًا على الأعلى ولكنها غير مناسبة لمعالجة بعض مهام الحوسبة المعقدة واسعة النطاق.

4. التفكير في المستقبل

لم يتم التحقق من مسألة من يحتاج إلى شبكة طاقة حوسبة لامركزية. من الواضح أن تطبيق قوة الحوسبة الخاملة على التدريب على النماذج واسعة النطاق التي تتطلب موارد طاقة حوسبة ضخمة هو الأكثر أهمية ؛ ومن المنطقي أيضًا أن يكون الفضاء الأكثر إبداعًا. ولكن في الواقع ، يجب أن تدفعنا الاختناقات مثل الاتصال والخصوصية إلى إعادة التفكير:

هل هناك أمل حقًا في التدريب اللامركزي للنماذج الكبيرة؟

إذا قفزت من هذا الإجماع ، “سيناريو الهبوط الأكثر منطقية” ، فهل هو سيناريو كبير لتطبيق قوة الحوسبة اللامركزية لتدريب نماذج الذكاء الاصطناعي الصغيرة؟ من وجهة نظر فنية ، تم حل العوامل المحددة الحالية نظرًا لحجم النموذج وبنيته. وفي الوقت نفسه ، من وجهة نظر السوق ، شعرنا دائمًا أن تدريب النماذج الكبيرة سيكون ضخمًا من الآن إلى المستقبل ، ولكن صغير ؛ الذكاء الاصطناعي ؛ نموذج هل السوق غير جذاب؟

أنا لا أعتقد ذلك. بالمقارنة مع النماذج الكبيرة ، فإن نماذج “AI” الصغيرة أسهل في النشر والإدارة ، وهي أكثر كفاءة من حيث سرعة المعالجة واستخدام الذاكرة. في عدد كبير من سيناريوهات التطبيق ، لا يحتاج المستخدمون أو الشركات إلى قدرات التفكير الأكثر عمومية نماذج لغوية كبيرة ، لكنها معنية فقط بهدف تنبؤ دقيق للغاية. لذلك ، لا تزال نماذج “الذكاء الاصطناعي” الصغيرة هي الخيار الأكثر قابلية للتطبيق في معظم السيناريوهات ولا ينبغي تجاهلها قبل الأوان في موجة “فومو” للنماذج الكبيرة.

مرجع

حول Foresight Ventures

تراهن شركة Foresight Ventures على عملية ابتكار العملة المشفرة في العقود القليلة القادمة ، وتدير عدة صناديق تحت إدارتها: رأس مال VC ؛ صندوق ، صندوق إدارة ثانوي نشط ، إستراتيجيات متعددة ؛ FOF ، غرض خاص ؛ S ؛ صندوق “Foresight Secondary Fund l” ، إجمالي الأصول حجم الإدارة يتجاوز ؛ 4 ؛ مليون دولار أمريكي. تلتزم شركة Foresight Ventures بمفهوم “فريد ، ومستقل ، وعدواني ، وطويل الأجل” وتوفر دعمًا مكثفًا للمشاريع من خلال قوى بيئية قوية. يأتي فريقها من كبار الموظفين من كبار الشركات المالية والتكنولوجية بما في ذلك Sequoia China و CICC و Google و Bitmain ، إلخ.

موقع إلكتروني:؛

** إخلاء المسؤولية: Foresight Ventures ؛ لا يُقصد من جميع المقالات أن تكون نصيحة استثمارية. الاستثمار محفوف بالمخاطر ، يرجى تقييم تحملك للمخاطر الشخصية واتخاذ قرارات الاستثمار بحكمة. **

شاهد النسخة الأصلية

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

تعليق

0/400

لا توجد تعليقات