ทำไมการคำนวณแบบกระจายเป็นตัวขับเคลื่อนสำคัญสำหรับการพัฒนา AI หรือความสามารถในการประมวลผลของเครือข่ายคอมพิวเตอร์?

บทความวันนี้เกี่ยวกับเซ็กเตอร์การคำนวณแบบกระจายที่กำลังเจริญขึ้นในโลกคริปโต พวกเราได้ลงทุนในทัศนคติพื้นฐานทางด้านโครงสร้างพื้นฐาน AI เพื่อเข้าใจว่าทางเลือกแบบกระจายสามารถแข่งขันในระดับเสรีได้อย่างไร

ส่งต่อชื่อเรื่องเดิม: Decentralised Compute

บทความวันนี้เกี่ยวกับภาครัฐที่เกิดขึ้นในส่วนของการคำนวณแบบกระจายในโลกคริปโต พวกเราจะศึกษาพื้นที่พื้นฐานของโครงสร้างพื้นฐาน AI เพื่อเข้าใจว่าสถานการณ์แบบกระจายสามารถแข่งขันได้ในระดับที่เป็นไปได้

เราสำรวจคำถามเช่น: ASI สามารถฝึกอบรมบนเครือข่ายกระจายได้หรือไม่? เครือข่ายคริปโตมีข้อดีที่ไม่เหมือนใครอย่างไร? และทำไมโครงสร้างคอมพิวเตอร์ที่ไม่จำกัดสิทธิ์อาจกลายเป็นสิ่งที่สำคัญต่อ AI เช่นเดียวกับ Bitcoin ต่อการเงิน

รูปแบบที่คุณจะสังเกตเห็นบ่อยในบทความคือการเติบโตแบบกำลังสองของทุกอย่างเกี่ยวกับ AI - การลงทุน การคำนวณ และความสามารถ สิ่งนี้สอดคล้องกับการฟื้นคืนในตลาดคริปโตและความสนใจทางจิตวิทยา เราตื่นเต้นมากเกี่ยวกับจุดที่สองนี้ของคลื่นเทคโนโลยีที่ใหญ่ใหญ่

สวัสดี!

ในวันที่แสงแดดส่องอย่างสดใสที่เมมฟิส รัฐเทนเนสซี, เครื่องบินลอยอยู่บนอาคารอุตสาหกรรมซึ่งผู้โดยสารกำลังถ่ายภาพอย่างระหว่างกัน. นี่ไม่ใช่ฉากจากการลับสงครามเย็นแต่เป็นเหตุการณ์ในปี 2024 ครับ ผลักเป้าหมายไม่ใช่ที่ตั้งทหารหรือสถานที่แข็งแรงที่เติมยูเรเนียมแต่เป็นโรงงานเครื่องใช้ไฟฟ้าเก่าที่ตอนนี้เป็นที่ตั้งของหนึ่งในเครื่องคอมพิวเตอร์ที่มีกำลังสูงที่สุดของโลก. ผู้โดยสารไม่ใช่สถาบันต่างด้าวแต่เป็นพนักงานของบริษัทศูนย์ข้อมูลคู่แข่ง

ทุกๆ สามสิบปี จะเกิดเทคโนโลยีที่เปลี่ยนแปลงเป็นเหตุการณ์ที่ไม่สามารถถูกทำลายได้ เหตุการณ์เช่นนี้จะเป็นการแข่งขันระหว่างองค์กรที่มีอิทธิพลมากที่สุดในโลกเพื่อเข้าใจเทคโนโลยีนี้ก่อนใคร ผลตอบแทนมีค่ามากมาย และผลที่เกิดขึ้นเมื่อล้มเหลวก็มีผลกระทบที่ทำลายทันที ดังนั้น องค์กรเหล่านี้จึงรีบรวบรวมทรัพยากรทั้งหมดที่มีอยู่ในอาร์เซนอลของตน - ความสามารถของมนุษย์และทุนทรัพย์ - เพื่อเป็นเจ้าของเทคโนโลยีนี้

ในศตวรรษที่ 20 มีเทคโนโลยีสองอย่างที่ตรงกับคำนิยามนี้ คืออาวุธนิวเคลียร์และการสำรวจอวกาศ การแข่งขันในการใช้เทคโนโลยีเหล่านี้เกี่ยวข้องกับประเทศที่มีอำนาจมากที่สุด ความสำเร็จของสหรัฐฯ ในทั้งสองสามารถเซ็มเมนต์สถานะเป็นกำลังอำนาจสุดยอดของโลก นำเข้ายุคที่ไม่เหมือนใคร สำหรับผู้แพ้ - เยอรมันนาซีและสหภาพโซเวียต ผลกระทบที่เกิดขึ้นมีผลร้ายอย่างมาก แม้ในบางครั้งอาจเป็นที่สิ้นสุด

โรงงาน K-25 ขนาดใหญ่ 44 เอเคอร์ในโอ๊คริดจังหวัดเทนเนสซี ประเทศสหรัฐอเมริกา ที่ผลิตยูเรเนียมสำหรับอาวุธนิวเคลียร์ครั้งแรกต้นฉบับ)

ความชนะของอเมริกาเสียเงินมาก. โครงการแมนฮัตตันใช้เงินเกือบ 2 พันล้านดอลลาร์ (ประมาณ 30 พันล้านดอลลาร์ที่ปรับเพื่อความเทียบเท่ากับการเงิน) และจ้างงานกว่า 120,000 คน - คนละคนในพันคนของชาวอเมริกันหนึ่งคน. การแข่งขันอวกาศต้องการทรัพยากรที่มากกว่านั้น. โปรแกรม Apollo ใช้เงิน 28 พันล้านดอลลาร์ในยุค 1960 (ประมาณ 300 พันล้านดอลลาร์ในสกุลเงินปัจจุบัน) และมีผู้ร่วมงานกว่า 400,000 คน - คนละคนใน 490 คนของชาวอเมริกัน. ในยอดสูงสุดของปี 1966 หน่วยงาน NASA ควบคุมงบประมาณของรัฐบาลสหรัฐฯ 4.4% ของงบประมาณทั้งหมด

Apollo 11 กำลังจะขึ้นอวกาศเพื่อภารกิจไปยังดวงจันทร์แหล่งกำเนิด)

การเปิดตัว ChatGPT ในปี 2022 ติดตามเริ่มขึ้นของการแข่งขันใหม่ที่มีสัดส่วนที่เปลี่ยนแปลงสำคัญกับการตามหาปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัย

คราวนี้ผู้เข้าแข่งขันไม่ใช่รัฐบาล (อย่างน้อยก็ยังไม่ใช่ในขณะนี้) แต่เป็นบริษัทที่ใหญ่ที่สุดในโลก (Microsoft, Google, Meta, Amazon), สตาร์ทอัพที่ฮอตที่สุด (OpenAI, Anthropic), และบุคคลที่รวยที่สุด (Elon Musk) ในขณะที่ Big Tech มีทุนทรัพย์ที่ไม่เคยมีมาก่อนในการสร้างพื้นฐานสำหรับการฝึกโมเดลที่มีพลังมากขึ้นอย่างไม่เคยมีมาก่อน สตาร์ทอัพกำลังรักษาrecord-breakingการระดมทุนเวนเชอร์แคปปิตอล อีลอนก็คือทำสิ่งที่ Elon ทำศูนย์ข้อมูลภายใต้การตรวจสอบความปลอดภัยเป็นของบริษัทของเขา xAI)

จากนั้นก็มีคนอื่น ๆ ไม่ว่าจะเป็นองค์กร บริษัท ขนาดเล็กและสตาร์ทอัพที่อาจไม่ปรารถนาที่จะสร้าง ASI แต่กระตือรือร้นที่จะควบคุมความสามารถล้ําสมัยที่ปลดล็อกโดย AI เพื่อเพิ่มประสิทธิภาพธุรกิจของพวกเขาทําลายอุตสาหกรรมหรือสร้างสิ่งใหม่ทั้งหมด รางวัลที่เป็นไปได้นั้นกว้างใหญ่มากจนทุกคนกําลังดิ้นรนเพื่อเรียกร้องส่วนแบ่งจากเศรษฐกิจที่ขับเคลื่อนด้วยเครื่องจักรอัจฉริยะใหม่นี้

หัวใจสําคัญของการปฏิวัติ AI คือองค์ประกอบที่สําคัญที่สุด: หน่วยประมวลผลกราฟิก (GPU) เดิมทีออกแบบมาเพื่อขับเคลื่อนวิดีโอเกมชิปคอมพิวเตอร์เฉพาะนี้ได้กลายเป็นสินค้าที่ร้อนแรงที่สุดในโลก ความต้องการ GPU นั้นล้นหลามจน บริษัท ต่างๆมักอดทน รายชื่อที่ต้องรอนานหลายเดือนเพียงเพื่อซื้อบางส่วน ความต้องการนี้ทำให้ NVIDIA ผู้ผลิตหลักของพวกเขา ได้รับการยิงยาวเข้าไปในตำแหน่งของบริษัทมูลค่าที่สูงที่สุดในโลก

สําหรับธุรกิจที่ไม่สามารถหรือไม่เต็มใจที่จะซื้อ GPU โดยตรงการเช่าพลังการประมวลผลได้กลายเป็นตัวเลือกที่ดีที่สุดต่อไป สิ่งนี้ได้กระตุ้นการเพิ่มขึ้นของผู้ให้บริการคลาวด์ AI ซึ่งเป็น บริษัท ที่ดําเนินงานศูนย์ข้อมูลที่ซับซ้อนซึ่งปรับให้เหมาะกับความต้องการด้านการคํานวณของ AI บูม อย่างไรก็ตามความต้องการที่เพิ่มขึ้นและลักษณะที่คาดเดาไม่ได้หมายความว่าไม่มีการรับประกันราคาหรือความพร้อมใช้งาน

I ถกเถียงว่าสกุลเงินดิจิทัลทำหน้าที่เป็นเทคโนโลยี "Coasian" ที่ออกแบบมาเพื่อ "เจียมของลื่น ปูถนน และเสริมสร้างสะพาน" เพื่อให้นวัตกรรมที่รบกวนเกิดขึ้นได้ ส่วน AI กำลังเกิดขึ้นเป็นแรงกระตุ้นของยุคเรา ความขาดแคลนและค่าใช้จ่ายที่สูงของการเข้าถึง GPU เป็นอุปสรรคของนวัตกรรมหลายราย เจ้าหน้าที่ของซีรีย์คริปโตกำลังเข้ามาแก้ไขปัญหาเหล่านี้ด้วยสิ่งสร้างสรรค์ที่ใช้เทคโนโลยีบล็อกเชน

ในบทความวันนี้เราเริ่มถอยห่างจาก crypto เพื่อตรวจสอบพื้นฐานของโครงสร้างพื้นฐาน AI สมัยใหม่ - เครือข่ายประสาทเทียมเรียนรู้อย่างไรทําไม GPU จึงมีความสําคัญและศูนย์ข้อมูลในปัจจุบันมีการพัฒนาอย่างไรเพื่อตอบสนองความต้องการด้านการคํานวณที่ไม่เคยมีมาก่อน จากนั้นเราจะดําดิ่งสู่โซลูชันการประมวลผลแบบกระจายอํานาจสํารวจว่าพวกเขาสามารถแข่งขันกับผู้ให้บริการแบบดั้งเดิมได้จริงหรือไม่ข้อได้เปรียบที่ไม่เหมือนใครของเครือข่าย crypto ที่นําเสนอและทําไมแม้ว่าพวกเขาจะไม่ให้ AGI แก่เรา แต่ก็ยังจําเป็นต่อการทําให้แน่ใจว่าทุกคนสามารถเข้าถึงประโยชน์ของ AI ได้

เรามาเริ่มต้นด้วยเหตุผลที่ GPUs มีความสำคัญมากในที่แรก

GPUs

นี่คือ David รูปปั้นจากหินอ่อนสูง 17 ฟุต น้ำหนัก 6 ตัน ที่ถูกสร้างขึ้นโดยนักปั้นอัจฉริยะชาวอิตาเลียนของยุค Renaissance ซึ่งแสดงให้เห็นถึงฮีโร่ทางพระคำจากเรื่องราวเกี่ยวกับ David กับ Goliath และถูกพิจารณาว่าเป็นเรื่องสร้างสรรค์สุดยอดเนื่องจากการแสดงตัวอักษรของมนุษย์ที่ไม่มีตำหนิและการใส่ใจอย่างล้ำลึกและรายละเอียด

เหมือนกับปูนหินหลักทั้งหมด ดาวิดเริ่มต้นจากชิ้นหินคาราราขนาดใหญ่ที่ไม่เรียบร้อย ในการเป็นรูปที่ยอดเยี่ยมสุดท้ายของมัน ไมเคิลแองเจโลต้องทำการล้างแรงโดยวิธีการตัดกระจายในหิน โดยเริ่มต้นด้วยการเสียบสีกว้างเพื่อสร้างรูปพื้นฐานของรูปร่างมนุษย์ จากนั้นเขาก้าวหน้าไปสู่รายละเอียดที่สูงขึ้นเรื่อยๆ - เส้นโค้งของกล้ามเนื้อ เส้นเลือดที่ตึงตัว เสียงแสดงออกที่ละเอียดอ่อนในดวงตา ในขณะที่จำเป็น ใช้เวลาสามปีให้ไมเคิลแองเจโลปลดปล่อยเดวิดออกจากหิน

แต่ทำไมถึงพูดถึงรูปปั้นหินอันเก่ากว่าพันปีในบทความเกี่ยวกับ AI?

เช่นเดวิดทุกเครือข่ายประสาทเริ่มต้นเป็นศักยภาพสุด pure - คอลเลคชันของโหนดที่เริ่มต้นด้วยตัวเลขสุ่ม (น้ำหนัก) เช่นเดียวกับบล็อกขนาดใหญ่ของหิน Carrara แบบไม่มีรูปร่าง

โมเดลดิบนี้ถูกป้อนข้อมูลการฝึกอบรมซ้ําๆ ซึ่งเป็นอินสแตนซ์ของอินพุตจํานวนนับไม่ถ้วนที่จับคู่กับเอาต์พุตที่ถูกต้อง จุดข้อมูลแต่ละจุดที่ผ่านเครือข่ายทําให้เกิดการคํานวณหลายพันรายการ ในทุกโหนด (เซลล์ประสาท) การเชื่อมต่อขาเข้าจะคูณค่าอินพุตด้วยน้ําหนักของการเชื่อมต่อรวมผลิตภัณฑ์เหล่านี้และแปลงผลลัพธ์ผ่าน "ฟังก์ชั่นการเปิดใช้งาน" ที่กําหนดความแข็งแรงในการยิงของเซลล์ประสาท

เช่นเดียวกับมิเคลแองจ๊อเลาจะถอยหลังมองผลงานของเขาและให้การประเมินและปรับปรุงระบบปรับปรุงทางประวัติศาสตร์เรียนรู้หลังจากการผ่านไปทางข้างหน้าแต่ละครั้งเครือข่ายเปรียบเทียบผลลัพธ์กับคำตอบที่ถูกต้องและคำนวณขอบเขตของความผิดพลาดของมันผ่านกระบวนการที่เรียกว่า backpropagation มันวัดว่าแต่ละการเชื่อมต่อมีส่วนสําคัญอย่างไรต่อความผิดพลาดและเช่นในการโยธามิเคลแองจ๊อเลาทำการปรับปรุงค่าของมันถ้าการเชื่อมต่อนั้นทําให้การคาดการณ์ผิดพลาดมีผลกระทบลดลง ถ้ามันช่วยให้ได้คําตอบที่ถูกต้องมีผลกระทบเพิ่มขึ้น

เมื่อข้อมูลทั้งหมดผ่านเครือข่าย (เสร็จสิ้นขั้นตอนการเผยแพร่ไปข้างหน้าและข้างหลังหนึ่งขั้นตอนต่อจุดข้อมูล) จะเป็นจุดสิ้นสุดของ "ยุค" กระบวนการนี้ทําซ้ําหลายครั้งโดยแต่ละรอบจะขัดเกลาความเข้าใจของเครือข่าย ในช่วงยุคแรก ๆ การเปลี่ยนแปลงน้ําหนักนั้นน่าทึ่งเนื่องจากเครือข่ายทําการปรับเปลี่ยนในวงกว้างเช่นสิ่วตัวหนาตัวแรก ในยุคต่อมาการเปลี่ยนแปลงจะละเอียดยิ่งขึ้นโดยปรับแต่งการเชื่อมต่อเพื่อประสิทธิภาพสูงสุดเช่นเดียวกับการสัมผัสขั้นสุดท้ายที่ละเอียดอ่อนทําให้รายละเอียดของเดวิดออกมา

ในที่สุด หลังจากการทดลองซ้ำซ้อนหรือซ้ำซ้อนหลายล้านครั้ง โมเดลที่ได้รับการฝึกจะเกิดขึ้น อย่างเดวิดที่ยกย่องในรูปแบบที่สมบูรณ์ของมัน เครือข่ายประสาทเปลี่ยนแปลงจากเสียงรบกวนสุ่มเป็นระบบที่สามารถรู้จำรูปแบบ ทำนาย สร้างภาพของแมวขี่สกู๊ตเตอร์ หรือทำให้คอมพิวเตอร์เข้าใจและตอบสนองภาษามนุษย์ได้

ทำไมใช้ GPU?

ไมเคิลแองเจโลซึ่งทํางานคนเดียวกับเดวิดสามารถตีสิ่วได้ครั้งละหนึ่งครั้งโดยแต่ละครั้งต้องใช้การคํานวณมุมแรงและตําแหน่งที่แม่นยํา ความแม่นยําที่อุตสาหะนี้เป็นเหตุผลว่าทําไมเขาจึงใช้เวลาสามปีอย่างไม่รู้จักเหน็ดเหนื่อยในการทําผลงานชิ้นเอกของเขาให้สําเร็จ แต่ลองนึกภาพประติมากรที่มีทักษะเท่าเทียมกันหลายพันคนทํางานกับเดวิดในการประสานงานที่สมบูรณ์แบบ—ทีมหนึ่งบนลอนผมอีกทีมหนึ่งบนกล้ามเนื้อลําตัวและอีกหลายร้อยคนในรายละเอียดที่ซับซ้อนของใบหน้ามือและเท้า ความพยายามคู่ขนานดังกล่าวจะบีบอัดสามปีนั้นให้เหลือเพียงไม่กี่วัน

อย่างไรก็ตาม ในขณะที่ CPU เป็นทรงพลังและแม่นยำ แต่พวกเขาสามารถทำเพียงหนึ่งการคำนวณในเวลาเดียว การฝึกฝนเครือข่ายประสาทเทียมไม่ต้องการการคำนวณที่ซับซ้อนแต่ต้องการการคูณและการบวกจำนวนแสนล้านที่หลายๆ ครั้งในแต่ละโหนด ตัวอย่างเช่น เครือข่ายประสาทเทียมตัวอย่างที่กล่าวไว้ก่อนหน้านี้ ที่มีเพียง 18 โหนดและประมาณ 100 การเชื่อมต่อ (พารามิเตอร์) สามารถฝึกฝนบน CPU ได้ในเวลาระ reasonable.

อย่างไรก็ตาม โมเดลที่มีกำลังการทำงานที่สุดในปัจจุบัน เช่น GPT-4 ของ OpenAI มีพารามิเตอร์ 1.8 ล้านล้าน! แม้แต่โมเดลขนาดเล็กก็ต้องมีพารามิเตอร์อย่างน้อยหนึ่งพันล้าน การฝึกโมเดลเหล่านี้หนึ่งการคำนวณต่อหนึ่งครั้งจะใช้เวลาหลายศตวรรษ นี่คือสิ่งที่ GPU ทำได้ดี: พวกเขาสามารถทำการคำนวณทางคณิตศาสตร์ที่เรียบง่ายจำนวนมากพร้อมกัน ทำให้เหมาะสำหรับการประมวลผลโหนดของเครือข่ายประสาทหลายๆ โหนดพร้อมกัน

GPU รุ่นล่าสุดของ NVIDIA คือ B200 ประกอบด้วยมากกว่า 200 พันล้านตัวขยายและสนับสนุนการคำนวณแบบขนาน 2,250 ล้านครั้งต่อวินาที (2,250 TFLOPS) กราฟิกการ์ด B200 รุ่นเดียวสามารถจัดการรุ่นที่มีพารามิเตอร์มากถึง 740 พันล้านตัว สิ่งเหล่านี้แสดงให้เห็นถึงความสามารถทางวิศวกรรมที่สูงของยุคปัจจุบัน ซึ่งอธิบายว่าทำไม NVIDIA ได้เห็นการเพิ่มขึ้นของราคาหุ้นมากกว่า 2,500% ในระยะเวลา 5 ปี โดยขายแต่ละหน่วยในราคา 40,000 ดอลลาร์

เจ็นเซ็น ฮวัง นำเสนอ NVIDIA B200

แม้แต่เครื่องจักรที่น่าเกรงขามเหล่านี้ก็ไม่สามารถฝึกโมเดล AI เพียงอย่างเดียวได้ จําได้ว่าในระหว่างการฝึกอบรมอินสแตนซ์ข้อมูลแต่ละรายการจะต้องผ่านโมเดลในรอบไปข้างหน้าและข้างหลังทีละรายการ โมเดลภาษาขนาดใหญ่สมัยใหม่ (LLMs) ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่ครอบคลุมอินเทอร์เน็ตทั้งหมด ตัวอย่างเช่น GPT-4 ประมวลผลโทเค็นประมาณ 12 ล้านล้านโทเค็น (ประมาณ 9 ล้านล้านคํา) และคาดว่าโมเดลรุ่นต่อไปจะรองรับโทเค็นได้มากถึง 100 ล้านล้านโทเค็น การใช้ GPU ตัวเดียวสําหรับข้อมูลปริมาณมหาศาลเช่นนี้ยังคงต้องใช้เวลาหลายศตวรรษ

คำตอบอยู่ในการเพิ่มชั้นของความสามารถในการประยุกต์ใช้พรัอลิซึม-การสร้างกลุ่ม GPU ที่งานฝึกอบรมถูกกระจายไประหว่าง GPU หลายตัวที่ทำงานร่วมกันเป็นระบบเดียวกัน ภารกิจการฝึกโมเดลสามารถถูกแบ่งขึ้นเป็นขั้นตอนได้ในทางที่สาม

Data Parallelism: หลาย GPU แต่ละตัวเก็บรักษาสำเนาแบบเต็มของโมเดลเนอรอลเน็ตเวิร์คในขณะที่ประมวลผลส่วนต่าง ๆ ของข้อมูลการฝึกอบรม แต่ละ GPU ประมวลผลชุดข้อมูลที่ได้รับมอบหมายอิสระกันก่อนที่จะซิงโครไนซ์เป็นระยะเวลาบางครั้งกับ GPU ทั้งหมดอื่น ๆ ในช่วงซิงโครไนเซชันนี้ GPU จะติดต่อสื่อสารกันเพื่อค้นหาค่าเฉลี่ยรวมของน้ำหนักและอัปเดตน้ำหนักแต่ละคนให้เหมือนกัน ด้วยเหตุนี้ GPU จะดำเนินการฝึกอบรมต่อที่ชุดข้อมูลของตัวเองก่อนเวลาที่จะซิงค์อีกครั้ง

เมื่อโมเดลมีขนาดใหญ่ขึ้น การคัดลอกเดียวสามารถกลายเป็นใหญ่เกินไปที่จะพอดีกับหนึ่ง GPU ตัวอย่างเช่น GPU ล่าสุดรุ่น B200 สามารถรองรับเพียง 740 พารามิเตอร์ล้านล้านในขณะที่โมเดล GPT-4 เป็นโมเดลพารามิเตอร์ 1.8 ล้านพันล้าน การแยกข้อมูลข้าม GPU แต่ละตัวไม่สามารถทำงานในกรณีนี้

Tensor Parallelism: วิธีการนี้จัดการกับข้อ จํากัด ของหน่วยความจําโดยการกระจายงานและน้ําหนักของแต่ละเลเยอร์รุ่นผ่าน GPU หลายตัว GPU แลกเปลี่ยนการคํานวณระดับกลางกับคลัสเตอร์ทั้งหมดในระหว่างทุกขั้นตอนการขยายพันธุ์ไปข้างหน้าและข้างหลัง โดยทั่วไปแล้ว GPU เหล่านี้จะถูกจัดกลุ่มในเซิร์ฟเวอร์แปดหน่วย ซึ่งเชื่อมต่อผ่าน NVLink ซึ่งเป็นการเชื่อมต่อระหว่าง GPU-to-GPU โดยตรงความเร็วสูงของ NVIDIA การตั้งค่านี้ต้องใช้แบนด์วิดท์สูง (สูงสุด 400 Gb/s) และการเชื่อมต่อที่มีเวลาแฝงต่ําระหว่าง GPU คลัสเตอร์เทนเซอร์ทําหน้าที่เป็น GPU ขนาดใหญ่ตัวเดียวได้อย่างมีประสิทธิภาพ

การแบ่งการประมวลผลแบบ Pipeline: วิธีนี้แบ่งโมเดลออกเป็นหลาย GPU โดยแต่ละ GPU จะจัดการเลเยอร์ที่กำหนดไว้เฉพาะ ข้อมูลจะไหลผ่าน GPU เหล่านี้ในลำดับสายซึ่งคล้ายกับการวิ่งรีเลย์ที่แต่ละนักวิ่ง (GPU) จัดการส่วนของตนเองก่อนที่จะส่งแถบไปต่อ การแบ่งการประมวลผลแบบ pipeline เป็นวิธีที่มีประสิทธิภาพมากในการเชื่อมต่อเซิร์ฟเวอร์ 8-GPU ต่างๆ ภายในศูนย์ข้อมูลโดยใช้เครือข่าย InfiniBand ความเร็วสูงสำหรับการสื่อสารระหว่างเซิร์ฟเวอร์ แม้ว่าความต้องการในการสื่อสารจะเกินความสามารถของการประมวลผลแบบข้อมูลแบบขนาน แต่มันยังน้อยกว่าการแบ่งการประมวลผลแบบตรีนเซอร์ที่มีการแลกเปลี่ยน GPU อย่างหนัก

ขนาดของคลัสเตอร์ที่ทันสมัยนั้นน่าทึ่งมาก GPT-4 ที่มีพารามิเตอร์ 1.8 ล้าน และชั้น 120 ชั้น ต้องใช้ A100 GPUs จำนวน 25,000 เครื่องในการฝึกอบรม กระบวนการนี้ใช้เวลาสามเดือนและค่าใช้จ่ายเกิน 60 ล้านดอลลาร์ A100 เป็นรุ่นเก่าสองรุ่น; หากใช้ B200 GPUs รุ่นปัจจุบัน จะต้องใช้เพียงประมาณ 8,000 หน่วยและใช้เวลาในการฝึกอบรมเพียง 20 วันเท่านั้น แค่การสาธิตถึงความเร็วของ AI ที่เคลื่อนไหวได้อย่างรวดเร็ว

แต่คลาสของโมเดล GPT-4 นั้นเป็นของเล่นเก่าแล้ว การฝึกอบรมสำหรับรุ่นก้าวหน้าของโมเดลที่มีอยู่ในศูนย์ข้อมูลที่มีในตัวจำนวนมากถึง 100,000 B100 หรือ H100 GPUs (ส่วนหนึ่งเป็นรุ่นก่อนหน้า) กลุ่มเหล่านี้ซึ่งมีมูลค่าเกิน 4 พันล้านเหรียญอเมริกันในการลงทุนใน GPU คือเครื่องคอมพิวเตอร์ที่มีความสามารถที่สูงที่สุดของมนุษย์ สามารถให้พลังคำนวณต่อเนื่องมากถึง 4 เท่าของอุปกรณ์ที่เป็นเจ้าของโดยรัฐบาล

นอกเหนือจากการรักษาความปลอดภัยการประมวลผลดิบแล้วผู้ปรารถนา ASI ยังประสบปัญหาอื่นเมื่อพยายามตั้งค่าคลัสเตอร์เหล่านี้: ไฟฟ้า GPU แต่ละตัวใช้พลังงาน 700W เมื่อคุณรวม 100,000 คลัสเตอร์ทั้งหมด (รวมถึงฮาร์ดแวร์ที่รองรับ) จะใช้พลังงานมากกว่า 150MW การบริโภคนี้เท่ากับเมืองที่มีประชากร 300,000 คน ซึ่งเทียบได้กับนิวออร์ลีนส์หรือซูริก

ความบ้าบอยยังไม่สิ้นที่นี่ ส่วนใหญ่ผู้สมัคร ASI เชื่อว่ากฎหมายเกี่ยวกับการขยายมาตรา—ซึ่งแนะนำว่าประสิทธิภาพของโมเดลจะดีขึ้นอย่างที่คาดการณ์ได้เมื่อขนาดของโมเดล ขนาดของชุดข้อมูล และการคำนวณการฝึกฝนเพิ่มขึ้น—จะยังคงเป็นความจริง แผนการฝึกวิ่งของโมเดลที่มีพลังงานมากขึ้นก็ได้เริ่มมีการดำเนินการแล้ว ถึงปี 2025 คาดว่าค่าใช้จ่ายของแต่ละกลุ่มการฝึกฝนจะเกิน 10 พันล้านดอลลาร์ ถึงปี 2027 เกิน 100 พันล้านดอลลาร์ ขณะที่ตัวเลขเหล่านี้เข้าใกล้กับการลงทุนของรัฐบาลสหรัฐในโปรแกรมอพอลโล จึงเป็นชัดเจนว่าทำไมการบรรลุความสามารถทางปัญญาประดิษฐ์ (ASI) จึงเป็นการแข่งขันที่กำหนดค่าของยุคของเรา

Metrics for models starting GPT-5 are estimations

เนื่องจากการบริโภคไฟฟ้าเพิ่มขึ้นพร้อมกับขนาดของคลัสเตอร์ การรันการฝึกอบรมปีหน้าจะต้องใช้พลังงานกว่า 1GW ขึ้นไป ปีหลังจากนั้น 10GW หรือมากกว่า โดยไม่มีสัญญาณใด ๆ ที่บ่งชี้ถึงการขยายตัวนี้ลดลง คาดว่าศูนย์ข้อมูลจะมีการบริโภคประมาณ 4.5% ของผลิตภัณฑ์โลกโดย 2030. กริดไฟฟ้าที่มีอยู่,กำลังต่อสู้กับความต้องการของโมเดลปัจจุบันแล้วไม่สามารถสร้างพลังงานเพียงพอสำหรับคลัสเตอร์ในอนาคต นี้เป็นคำถามที่สำคัญ: พลังงานนี้จะมาจากที่ไหน? บิ๊กเทคกำลังนำเส้นทางสองทาง

ในระยะยาวทางออกเดียวที่เป็นไปได้คือสําหรับผู้ปรารถนา ASI ในการผลิตไฟฟ้าของตนเอง ด้วยความมุ่งมั่นด้านสภาพภูมิอากาศพลังงานนี้จะต้องมาจากแหล่งพลังงานหมุนเวียน พลังงานนิวเคลียร์โดดเด่นเป็นทางออกหลัก อเมซอน ซื้อเมื่อเร็วๆ นี้ศูนย์ข้อมูลที่มีพลังงานจากโรงไฟฟ้านิวเคลียร์มูลค่า 650 ล้านเหรียญสำหรับ Microsoftได้ว่าจ้างหัวหน้าเทคโนโลยีนิวเคลียร์และฟื้นฟูโรงไฟฟ้า Three Mile Island ที่มีความสำคัญในอดีต. Google มี ได้รับการได้มา หลายตัวของเครื่องกำเนิดพลังงานนิวเคลียร์ขนาดเล็ก จาก Kairos Power ของแคลิฟอร์เนีย Sam Altman จาก OpenAI ได้สนับสนุนสตาร์ทอัพด้านพลังงานอย่าง เฮลิออน, ExowattและOklo.

Microsoft กําลังเปิดโรงงานนิวเคลียร์ Three Mile Island อีกครั้ง (ภาพต้นฉบับ)

ในขณะที่เมล็ดพันธุ์ของพลังงานนิวเคลียร์กําลังถูกหว่านในขณะนี้ผลไม้ (หรือพลังงาน) จะใช้เวลาหลายปีในการแบกรับ แล้วความต้องการพลังงานสําหรับการสร้างโมเดลทันทีล่ะ? โซลูชันชั่วคราวเกี่ยวข้องกับการฝึกอบรมแบบกระจายในศูนย์ข้อมูลหลายแห่ง แทนที่จะมุ่งเน้นความต้องการพลังงานจํานวนมากในที่เดียว บริษัท ต่างๆเช่น Microsoft และ Google กําลังกระจายคลัสเตอร์การฝึกอบรมในหลายไซต์

แน่นอนว่าความท้าทายคือการทำให้ระบบกระจายเหล่านี้ทำงานร่วมกันได้อย่างมีประสิทธิภาพ แม้จะใช้ความเร็วของแสง ข้อมูลก็ใช้เวลาประมาณ 43 มิลลิวินาทีในการเดินทางไปกลับจากทางทิศตะวันออกของสหรัฐฯ ไปยังทางทิศตะวันตก - ซึ่งถือเป็นเวลานานในทางคอมพิวเตอร์อีกด้วย นอกจากนี้หากมีชิปเพียงหนึ่งอันที่ล้าหลังไปอย่างน้อย 10% ก็จะทำให้การรันการฝึกอบรมทั้งหมดช้าลงด้วยอัตราเดียวกัน

โซลูชันนี้อยู่ที่การเชื่อมต่อศูนย์ข้อมูลในหลายไซต์ด้วยเครือข่ายไฟเบอร์ออปติกความเร็วสูงและใช้เทคนิคการขนานที่กล่าวถึงก่อนหน้านี้เพื่อซิงโครไนซ์การทํางาน ความขนานของ Tensor ถูกนําไปใช้กับ GPU ภายในแต่ละเซิร์ฟเวอร์ทําให้สามารถทํางานเป็นหน่วยเดียวได้ ความขนานของไปป์ไลน์ที่มีความต้องการเครือข่ายต่ํากว่าถูกนํามาใช้เพื่อเชื่อมโยงเซิร์ฟเวอร์ภายในศูนย์ข้อมูลเดียวกัน สุดท้ายศูนย์ข้อมูลในสถานที่ต่างๆ (เรียกว่า "เกาะ") จะซิงโครไนซ์ข้อมูลเป็นระยะโดยใช้ความขนานของข้อมูล

ก่อนหน้านี้เราได้ระบุว่าการแบ่งงานข้อมูลไม่ได้มีประสิทธิภาพสำหรับ GPU แต่ละตัวเนื่องจากไม่สามารถรองรับโมเดลขนาดใหญ่ได้อิสระ อย่างไรก็ตาม เมื่อเราทำการแบ่งงานแบบเกาะเกี่ยวกับเกาะที่มีหลายพันหน่วยประมวลผล การฝึกอบรมข้อมูลถูกกระจายในแต่ละเกาะ และเกาะเหล่านี้จะทำการซิงโครไนซ์อย่างเป็นระยะห่างในการเชื่อมต่อใยแก้วออพติกที่สัมพันธ์เร็วกว่า (เมื่อเทียบกับ NVLink และ Infiniband)

ศูนย์ข้อมูล

เรามาเปลี่ยนศูนย์รวมใจความสนใจของเราจากการฝึกอบรมและหน่วยประมวลผลกราฟิก (GPU) ไปยังศูนย์ข้อมูลเอง

เมื่อยี่สิบปีที่แล้ว Amazon ได้เปิดตัว Amazon Web Services (AWS) ซึ่งเป็นหนึ่งในธุรกิจที่มีการเปลี่ยนแปลงมากที่สุดในประวัติศาสตร์ และสร้างอุตสาหกรรมใหม่ทั้งหมดที่เรียกว่าการประมวลผลบนระบบคลาวด์ ผู้นําระบบคลาวด์ในปัจจุบัน (Amazon, Microsoft, Google และ Oracle) มีอํานาจเหนือกว่าอย่างสะดวกสบาย โดยสร้างรายได้รวมต่อปีเกือบ 300 พันล้านดอลลาร์โดยมีอัตรากําไรขั้นต้น 30-40% ตอนนี้การเกิดขึ้นของ AI ได้สร้างโอกาสใหม่ ๆ ในตลาดที่ยังคงมีอํานาจเป็นส่วนใหญ่มานานหลายปี

ความต้องการทางกายภาพ ความซับซ้อนทางเทคนิค และเศรษฐศาสตร์ของศูนย์ข้อมูล AI ที่ใช้ GPU มีความแตกต่างอย่างมากจากเครื่องกลางทั่วไป

เราได้พูดคุยกันก่อนหน้านี้ว่า GPU ที่หิวพลังงานเป็นอย่างไร สิ่งนี้ทําให้ศูนย์ข้อมูล AI มีความหนาแน่นของพลังงานมากขึ้นและทําให้เกิดความร้อนมากขึ้น ในขณะที่ศูนย์ข้อมูลแบบดั้งเดิมใช้พัดลมขนาดยักษ์ (การระบายความร้อนด้วยอากาศ) เพื่อกระจายความร้อน แต่วิธีการนี้ไม่เพียงพอหรือมีศักยภาพทางการเงินสําหรับสิ่งอํานวยความสะดวก AI ศูนย์ข้อมูล AI กําลังใช้ระบบระบายความร้อนด้วยของเหลวที่บล็อกน้ํายึดติดกับ GPU และส่วนประกอบร้อนอื่น ๆ โดยตรงเพื่อกระจายความร้อนได้อย่างมีประสิทธิภาพและเงียบกว่า (B200 GPU มาพร้อมกับสถาปัตยกรรมในตัว) การสนับสนุนระบบระบายความร้อนด้วยของเหลวจําเป็นต้องเพิ่มหอทําความเย็นขนาดใหญ่สิ่งอํานวยความสะดวกระบบน้ําแบบรวมศูนย์และท่อเพื่อขนส่งน้ําไปและกลับจาก GPU ทั้งหมดซึ่งเป็นการปรับเปลี่ยนพื้นฐานในโครงสร้างพื้นฐานของศูนย์ข้อมูล

นอกจากการบริโภคพลังงานสูงสุดแล้ว ศูนย์ข้อมูล AI มีความต้องการในการโหลดที่แตกต่าง ในขณะที่ศูนย์ข้อมูลแบบดั้งเดิมรักษาการบริโภคพลังงานที่สามารถทำนายได้ AI มีแบบแบรนด์ในการใช้พลังงานของโหลดที่หลากหลายมากขึ้น ความผันผวนนี้เกิดขึ้นเพราะ GPU ทำการสลับโลกอย่างสม่ำเสมอระหว่างการทำงานที่ 100% และการลดลงเกือบหยุดเมื่อการฝึกอบรมถึงจุดสำคัญ ที่นั่นน้ำหนักจะถูกเก็บไว้ที่หน่วยความจำหรือเช่นเดียวกับที่เราเห็นก่อนหน้านี้ ถูกปรับปรุงกับเกาะอื่น ๆ ศูนย์ข้อมูล AI ต้องการโครงสร้างพลังงานที่เชี่ยวชาญเพื่อจัดการกับความผันผวนของโหลดเหล่านี้

การสร้างคลัสเตอร์ GPU นั้นยากกว่าการสร้างคลาวด์คอมพิวเตอร์ทั่วไปมาก GPU ต้องพูดคุยกันอย่างรวดเร็ว เพื่อให้สิ่งนี้เกิดขึ้นพวกเขาจะต้องบรรจุไว้ใกล้กันมาก สิ่งอํานวยความสะดวก AI ทั่วไปต้องการสายเคเบิลพิเศษมากกว่า 200,000 สายที่เรียกว่าการเชื่อมต่อ InfiniBand สายเคเบิลเหล่านี้ช่วยให้ GPU สื่อสารได้ หากสายเคเบิลเพียงเส้นเดียวหยุดทํางานระบบทั้งหมดจะปิดตัวลง กระบวนการฝึกอบรมไม่สามารถดําเนินต่อไปได้จนกว่าสายเคเบิลนั้นจะได้รับการแก้ไข

ข้อกําหนดด้านโครงสร้างพื้นฐานเหล่านี้ทําให้แทบจะเป็นไปไม่ได้เลยที่จะปรับปรุงศูนย์ข้อมูลแบบดั้งเดิมด้วย GPU ประสิทธิภาพสูงเพื่อให้พร้อมใช้งาน AI การอัพเกรดดังกล่าวจะต้องมีการยกเครื่องโครงสร้างเกือบสมบูรณ์ บริษัทต่างๆ กําลังสร้างศูนย์ข้อมูลใหม่ที่ออกแบบมาโดยเฉพาะสําหรับ AI ตั้งแต่ต้น โดยองค์กรต่างๆ กําลังดําเนินการในระดับที่แตกต่างกัน

บริษัทเทคโนโลยีชั้นนํากําลังแข่งกันสร้างศูนย์ข้อมูล AI ของตนเอง Meta กําลังลงทุนอย่างมากในสิ่งอํานวยความสะดวกเพื่อการพัฒนา AI ของตัวเองโดยถือว่าเป็นการลงทุนโดยตรงเนื่องจากไม่มีบริการคลาวด์ Microsoft กําลังสร้างศูนย์ขนาดใหญ่ในทํานองเดียวกันเพื่อขับเคลื่อนทั้งโครงการ AI ของตัวเองและให้บริการลูกค้าหลักเช่น OpenAI ออราเคิลยังได้เข้าสู่พื้นที่นี้อย่างจริงจังโดยรักษาความปลอดภัย OpenAI ในฐานะลูกค้าที่มีชื่อเสียง Amazon ยังคงขยายโครงสร้างพื้นฐานอย่างต่อเนื่องโดยเฉพาะอย่างยิ่งเพื่อสนับสนุน บริษัท AI ที่เกิดขึ้นใหม่เช่น Anthropic xAI ของ Elon Musk ไม่ต้องการพึ่งพา บริษัท อื่นเลือกที่จะสร้างคลัสเตอร์ GPU 100,000 ของตัวเอง

ภายในศูนย์ข้อมูล GPU 100,000 H100 ของ xAI (แหล่งที่มา)

พร้อมกับผู้ครองตำแหน่งที่เป็นปัจจุบัน “neoclouds” กำลังเกิดขึ้น - ผู้ให้บริการคลาวด์ที่เชี่ยวชาญเฉพาะเรื่องในการคำนวณ GPU สำหรับหน้าที่การทำงานทางด้าน AI พวกเหล่านี้หารือกันเป็นสองหมวดหมู่ที่แตกต่างกันตามขนาด

โฮสต์คลาวด์ขนาดใหญ่รวมถึง CoreWeave, ครูโซ, และ LLama Labsใช้งานคลัสเตอร์ GPU มากกว่า 2,000 ตัว พวกเขาสร้างความแตกต่างจากบริการคลาวด์แบบดั้งเดิมในสองวิธี: นําเสนอโซลูชันโครงสร้างพื้นฐานที่กําหนดเองแทนที่จะเป็นแพ็คเกจมาตรฐานและต้องใช้ภาระผูกพันระยะยาวกับลูกค้าแทนการจัดการแบบจ่ายต่อการใช้งาน

แบบจำลองธุรกิจของพวกเขาใช้สัญญายาวนานเหล่านี้และความสามารถในการชำระหนี้ของลูกค้าเพื่อรับการจัดการเงินสำหรับโครงสร้างพื้นฐาน รายได้เกิดจากอัตราพรีเมียมที่เรียกเก็บสำหรับบริการที่เชี่ยวชาญ และกำไรจากการแบ่งแยกระหว่างต้นทุนการจัดการเงินที่ต่ำกับการชำระเงินของลูกค้า

นี่คือวิธีที่ระบบการจัดการแบบนี้ทำงานโดยปกติ: ผู้ให้บริการเนโอคลาวด์รับสัญญา 3 ปีกับ AI startup ที่มีทุนเงินมาก 10,000 H100 GPUs ในราคา 40 ล้านดอลลาร์ต่อเดือน โดยใช้การทำรายได้ที่รับประกันนี้ 1.44 พันล้านดอลลาร์ ผู้ให้บริการจะได้รับเงินทุนเงินฝากที่เป็นที่รับรองจากธนาคาร (ดอกเบี้ย 6%) เพื่อซื้อและติดตั้งโครงสร้างพื้นฐานมูลค่า 700 ล้านดอลลาร์ รายได้ต่อเดือน 40 ล้านดอลลาร์ครอบคลุมค่าใช้จ่ายในการดำเนินงาน 10 ล้านดอลลาร์และการชำระเงินกู้ยืม 20 ล้านดอลลาร์ ทำให้ได้รายได้สุทธิต่อเดือน 10 ล้านดอลลาร์ในขณะที่ startup ได้รับพลังการคำนวณที่กำหนดแบบกำหนดเองแบบที่พิเศษ

โมเดลนี้ต้องการการเลือกลูกค้าที่ระมัดระวังอย่างยิ่ง ผู้ให้บริการโดยทั่วไปมองหา บริษัทที่มีเงินสดสำรองมากหรือมีการสนับสนุนทุนอันแข็งแกร่ง - โดยทั่วไปมีการประเมินมูลค่า 500 ล้านเหรียญสหรัฐหรือมากกว่า

เมฆเน็ตที่เล็กน้อยนี้ให้สร้างกลุ่ม GPU ที่มีขนาดไม่เกิน 2,000 เครื่องและเป็นเป้าหมายสำหรับกลุ่มตลาด AI ขนาดเล็กและขนาดกลาง - ระดับธุรกิจเริ่มต้นขนาดเล็กและกลาง บริษัทเหล่านี้จะฝึกฝนโมเดลที่เล็กกว่า (ไม่เกิน 70 พันล้านพารามิเตอร์) หรือปรับแต่งโมเดลโอเพ่นซอร์ส (ปรับแต่งเป็นกระบวนการปรับแต่งโมเดลพื้นฐานให้เข้ากับกรณีการใช้งานที่เฉพาะเจาะจง) ทั้งสองข้อมูลที่ต้องการความสามารถในการคำนวณที่เหมาะสมแต่มีระยะเวลาสั้น

ผู้ให้บริการเหล่านี้มีการให้บริการคอมพิวเตอร์ตามคำสั่งพร้อมอัตราค่าบริการรายชั่วโมงสำหรับการเข้าถึงคลัสเตอร์โดยไม่มีการหยุดพักนาน. แม้ว่าราคานี้จะสูงกว่าสัญญาในระยะยาว แต่มันช่วยให้ธุรกิจรุ่นเริ่มต้นสามารถทดลองโดยไม่ต้องยึดติดกับข้อตกลงที่มีมูลค่าหลายล้านดอลลาร์

สุดท้ายแล้ว นอกจากผู้ให้บริการคลาวด์และผู้ให้บริการเมฆรุ่นใหม่ เรายังมีผู้แทนคนกลางในพื้นที่โครงสร้างพื้นฐาน AI: แพลตฟอร์มและผู้รวมรวม ผู้แทนนี้ไม่ครอบครองโครงสร้าง GPU แต่เชื่อมต่อเจ้าของทรัพยากรคำนวณกับผู้ที่ต้องการเขาใช้

ผู้ให้บริการพื้นที่เช่น HydraHost และ Fluidstackบริการเป็น Shopify ของการคำนวณ GPU ทุกอย่างเช่น Shopify ช่วยให้ผู้ขายสามารถเริ่มต้นร้านค้าออนไลน์โดยไม่ต้องสร้างโครงสร้างการค้าออนไลน์เหล่านี้ช่วยให้ผู้ดำเนินศูนย์ข้อมูลและเจ้าของ GPU สามารถให้บริการคำนวณโดยไม่ต้องพัฒนาอินเตอร์เฟซลูกค้าของตนเองพวกเขาให้บริการแพคเกจเทคนิคเต็มรูปแบบสำหรับการดำเนินธุรกิจคำนวณ GPU รวมถึงเครื่องมือการจัดการโครงสร้างระบบจัดจำหน่ายลูกค้าและโซลูชันการเรียกเก็บเงิน

Marketplace aggregators like Vast.aifunction ในโลก GPU เหมืองแร่ที่เป็นเสมือนเป็น Amazon พวกเขาสร้างตลาดที่รวมการเสนอขายความสามารถในการคำนวณที่หลากหลายจากผู้ให้บริการต่าง ๆ - ตั้งแต่การ์ด RTX รุ่นใช้งานทั่วไปไปจนถึง GPU H100 รุ่นมืออาชีพ เจ้าของ GPU รายการทรัพยากรของพวกเขาพร้อมกับเมตริกประสิทธิภาพและคะแนนความเชื่อถืออย่างละเอียด ส่วนลูกค้าซื้อเวลาคำนวณผ่านแพลตฟอร์มเซลฟ์เซอร์วิส

การอ่านความหมาย

จนถึงตอนนี้การอภิปรายของเรามุ่งเน้นไปที่รูปแบบการฝึกอบรม (หรือการปรับแต่ง) อย่างไรก็ตาม เมื่อผ่านการฝึกอบรมแล้ว จะต้องปรับใช้โมเดลเพื่อให้บริการแก่ผู้ใช้ปลายทาง ซึ่งเป็นกระบวนการที่เรียกว่าการอนุมาน ทุกครั้งที่คุณแชทกับ ChatGPT คุณกําลังใช้ GPU ที่เรียกใช้ปริมาณงานการอนุมานที่ป้อนข้อมูลของคุณและสร้างการตอบสนองของโมเดล ลองกลับไปพูดถึงรูปปั้นหินอ่อนสักนาที

นี่ยังเป็นเดวิด—ไม่ใช่ต้นฉบับของไมเคิลแองเจโล แต่เป็นปูนปลาสเตอร์ที่พระราชินีวิกตอเรียมอบหมายในปี 1857 สําหรับพิพิธภัณฑ์วิคตอเรียแอนด์อัลเบิร์ตในลอนดอน ในขณะที่ Michelangelo ใช้เวลาสามปีในการบิ่นหินอ่อนอย่างระมัดระวังเพื่อสร้างต้นฉบับในฟลอเรนซ์การหล่อปูนปลาสเตอร์นี้ทําจากแม่พิมพ์โดยตรงของรูปปั้นซึ่งทําซ้ําทุกโค้งมุมและรายละเอียดที่ Michelangelo สร้างขึ้นอย่างสมบูรณ์แบบ งานสร้างสรรค์ที่เข้มข้นเกิดขึ้นครั้งเดียว หลังจากนั้นก็กลายเป็นเรื่องของการจําลองคุณสมบัติเหล่านี้อย่างซื่อสัตย์ วันนี้แบบจําลองของเดวิดปรากฏทุกที่ตั้งแต่ห้องโถงพิพิธภัณฑ์ไปจนถึงลานคาสิโนลาสเวกัส

นี่คือวิธีการแปลงความคิดให้เป็นสิ่งที่เป็นไปได้ใน AI การฝึกโมเดลภาษาขนาดใหญ่เหมือนกระบวนการสร้างรูปปั้นของไมเคิลแองเจโลราวกับกระบวนการที่ใช้เวลานานและใช้ทรัพยากรมาก โมเดลจะเรียนรู้รูปร่างที่ถูกต้องของภาษาผ่านการปรับเปลี่ยนเล็ก ๆ น้อย ๆ ล้านครั้ง แต่การใช้โมเดลที่ฝึกเรียนแล้ว (การแปลงความคิด) เหมือนการสร้างสำเนา การสนทนากับ ChatGPT คุณไม่ได้สอนภาษาให้เรียนรู้ตั้งแต่ต้นแต่ใช้สำเนาของโมเดลที่พารามิเตอร์ (เช่นเส้นโค้งและมุมของเดวิด) ถูกปรับปรุงแล้ว

ปริมาณงานการอนุมานแตกต่างจากการฝึกอบรมโดยพื้นฐาน ในขณะที่การฝึกอบรมต้องใช้คลัสเตอร์ขนาดใหญ่และหนาแน่นของ GPU ล่าสุดเช่น H100s เพื่อจัดการกับการคํานวณที่เข้มข้นการอนุมานสามารถทํางานบนเซิร์ฟเวอร์ GPU เดียวโดยใช้ฮาร์ดแวร์รุ่นเก่าเช่น A100s หรือแม้แต่การ์ดระดับผู้บริโภคทําให้คุ้มค่ากว่ามาก ดังที่กล่าวไว้ปริมาณงานการอนุมานมีความต้องการเฉพาะของตนเอง:

  • ความครอบคลุมทางภูมิศาสตร์ที่กว้างขวาง: โมเดลจําเป็นต้องปรับใช้ในศูนย์ข้อมูลหลายแห่งทั่วโลกเพื่อให้แน่ใจว่าผู้ใช้ในสิงคโปร์จะได้รับการตอบสนองอย่างรวดเร็วเช่นเดียวกับผู้ใช้ในซานฟรานซิสโก
  • High uptime: ไม่เหมือนการฝึกอบรมที่สามารถหยุดและดำเนินการต่อได้ การใช้ทำนายจำเป็นต้องพร้อมใช้งานตลอด 24/7 เนื่องจากผู้ใช้คาดหวังการตอบสนองทันทีตลอดเวลา
  • ความไม่จำเป็น: ต้องมีเซิร์ฟเวอร์หลายเครื่องที่พร้อมรับมือคำขอในกรณีที่บางเครื่องล้มเหลวหรือเกินพลัง

คุณลักษณะเหล่านี้ทําให้ปริมาณงานการอนุมานเหมาะสําหรับรูปแบบการกําหนดราคาเฉพาะจุด ภายใต้การกําหนดราคาแบบสปอตทรัพยากร GPU มีส่วนลดมากมายซึ่งมักจะต่ํากว่าอัตราตามความต้องการ 30-50% ด้วยความเข้าใจว่าบริการอาจหยุดชั่วคราวเมื่อลูกค้าที่มีลําดับความสําคัญสูงกว่าต้องการทรัพยากร รุ่นนี้เหมาะกับการอนุมานเนื่องจากการปรับใช้ที่ซ้ําซ้อนช่วยให้ปริมาณงานเปลี่ยนไปเป็น GPU ที่พร้อมใช้งานได้อย่างรวดเร็วหากถูกขัดจังหวะ

ในที่สุดก็มาถึงจุดนี้ เมื่อเรามีการใช้งาน GPUs และ AI cloud computing อย่างแท้จริง ตอนนี้เรามีโอกาสเริ่มสำรวจว่าคริปโตสกุลจะเข้ามาเล่นบทบาทในสิ่งเหล่านี้อย่างไร มาเริ่มกันเถอะ

ที่สิ่งที่เกี่ยวข้องกับคริปโต

โครงการและรายงานบ่อยครั้งอ้างอิงถึงการสังเกตของ Peter Thiel ที่ว่า "AI กำลังกลายเป็นศูนย์กลาง ส่วนคริปโตกำลังกลายเป็นศูนย์กลาง" เมื่อพูดถึงบทบาทของคริปโตในการฝึก AI ในขณะที่คำกล่าวของ Thiel เป็นความจริงที่ไม่สามารถเสี่ยงทายได้ แต่เราเพิ่งเห็นหลักฐานที่เพียงพอเกี่ยวกับความได้เปรียบของ Big Tech ในการฝึก AI ที่มักถูกนำมาใช้ผิดให้เสียงเสียงว่าคริปโตและคอมพิวเตอร์ที่กระจายเป็นสิ่งที่เสนอตัวเลือกหลักในการตอบสนองต่ออิทธิพลของ Big Tech

คำอ้างเหตุเช่นนี้กล่าวถึงความเกินความจริงเกี่ยวกับความเป็นไปได้ของสกุลเงินดิจิตอลในการเปลี่ยนแปลงสื่อสังคม เกม และอุตสาหกรรมอื่น ๆ ได้ยินมากมายแล้ว ไม่เพียงเป็นการเสียเวลาแต่ยังรู้สึกไม่เป็นทางการ และจริงไปตามที่ฉันจะอธิบายในไม่ช้าก็ยังไม่เป็นไปได้ - อย่างน้อยในระยะสั้น

ฉันจะใช้แนวทางในทางปฏิบัติมากขึ้น ฉันจะสมมติว่าสตาร์ทอัพ AI ที่กําลังมองหาการประมวลผลไม่สนใจหลักการของการกระจายอํานาจหรือการต่อต้านทางอุดมการณ์กับ Big Tech แต่พวกเขามีปัญหา - พวกเขาต้องการเข้าถึงการประมวลผล GPU ที่เชื่อถือได้ด้วยต้นทุนที่ต่ําที่สุด หากโครงการ crypto สามารถให้ทางออกที่ดีกว่าสําหรับปัญหานี้มากกว่าทางเลือกที่ไม่ใช่ crypto พวกเขาจะใช้มัน

ด้วยเหตุนี้เรามาเข้าใจก่อนว่าโครงการที่ใช้เทคโนโลยีเช่นนี้แข่งขันกับใคร ก่อนหน้านี้เราได้พูดถึงหมวดหมู่ต่าง ๆ ของผู้ให้บริการคลาวด์ AI—Big Tech และ hyperscalers, big neoclouds, small neoclouds, ผู้ให้บริการแพลตฟอร์มและตลาด

สารตั้งต้นของการคำนึงถึงการคำนวณแบบกระจาย (เช่นโครงการ DePIN ทั้งหมด) คือตลาดคำนวณปัจจุบันทำงานได้ไม่เป็นประสบการณ์เต็มที่ ความต้องการ GPU ยังคงสูงอย่างมากในขณะที่มีการจัดหาที่แยกจากกันและไม่ได้ใช้งานในศูนย์ข้อมูลทั่วโลกและบ้านส่วนตัว โครงการส่วนใหญ่ในกลุ่มนี้แข่งขันโดยตรงกับตลาดโดยรวบรวมการจัดหาที่แพร่กระจายนี้เพื่อลดความไม่ได้เป็นประสิทธิภาพ

With that established, let’s look at how these projects (and compute marketplaces in general) can aid with different AI workloads—training, fine-tuning and inference.

การฝึกอบรม

อันดับแรก ไม่ อาศิตจะไม่ถูกฝึกฝนบนเครือข่ายที่กระจายอยู่ทั่วโลกของหน่วยประมวลผลกราฟิกส่วนตัว อย่างน้อยก็ไม่ในเส้นทางปัจจุบันของ AI นี่คือเหตุผล

เราได้พูดถึงความใหญ่ของกลุ่มโมเดลพื้นฐานที่กำลังเพิ่มขึ้นเรื่อย ๆ คุณต้องใช้ GPU ที่มีประสิทธิภาพสูงสุด 100,000 ตัวในโลกเพื่อเริ่มการแข่งขัน จำนวนนี้เพิ่มขึ้นเรื่อย ๆ ในทุก ๆ ปี โดยภายในปี 2026 คาดว่าต้นทุนของการฝึกอาจเกิน 100 พันล้านดอลลาร์ ต้องใช้ GPU หรือมากกว่าหนึ่งล้านตัวอาจจะจำเป็น

บริษัทเทคโนโลยีใหญ่ที่ได้รับการสนับสนุนจากเนโอคลาวด์ระดับใหญ่และมีพันธมิตรของ Nvidia ที่ตรงไปตรงมาเท่านั้นที่สามารถรวมกลุ่มคอมพิวเตอร์ขนาดใหญ่นี้ได้ โดยจำไว้ว่าเรากำลังแข่งขันสำหรับ ASI และผู้เข้าร่วมทั้งหมดมีแรงจูงใจและทุนทรัพย์มากเพียงพอ หากมีการผลิต GPU มากเพียงพอ (ซึ่งไม่มี) พวกเขาจะเป็นผู้แรกที่ได้รับการจัดหาใช้งาน

แม้ว่าโครงการ crypto จะรวบรวมการประมวลผลที่จําเป็น แต่อุปสรรคพื้นฐานสองประการก็ป้องกันการพัฒนา ASI แบบกระจายอํานาจ:

ประการแรก GPU ยังคงต้องเชื่อมต่อในคลัสเตอร์ขนาดใหญ่เพื่อให้ทํางานได้อย่างมีประสิทธิภาพ แม้ว่ากลุ่มเหล่านี้จะถูกแบ่งระหว่างเกาะในเมือง พวกเขาจะต้องเชื่อมต่อกันด้วยสายไฟเบอร์ออปติกเฉพาะ สิ่งเหล่านี้ไม่สามารถทําได้ในสภาพแวดล้อมแบบกระจายอํานาจ นอกเหนือจากการจัดซื้อ GPU แล้ว การจัดตั้งศูนย์ข้อมูลที่พร้อมสําหรับ AI ยังต้องการการวางแผนอย่างพิถีพิถัน ซึ่งโดยปกติจะเป็นกระบวนการหนึ่งถึงสองปี (xAI ทําได้ในเวลาเพียง 122 วัน แต่ไม่น่าเป็นไปได้ที่ Elon จะเปิดตัวโทเค็นในเร็ว ๆ นี้)

เพียงแค่สร้างศูนย์ข้อมูล AI ก็ไม่เพียงพอที่จะเกิด AI ที่มีความฉลาดเหนือมนุษย์ เช่น ผู้ก่อตั้ง Anthropic Dario Amodeirecently explainedการปรับขนาดใน AI นั้นคล้ายคลึงกับปฏิกิริยาเคมี เช่นเดียวกับปฏิกิริยาทางเคมีที่ต้องใช้รีเอเจนต์หลายตัวในสัดส่วนที่แม่นยําเพื่อดําเนินการต่อการปรับขนาด AI ที่ประสบความสําเร็จนั้นขึ้นอยู่กับส่วนผสมสําคัญสามอย่างที่เติบโตร่วมกัน: เครือข่ายที่ใหญ่ขึ้นเวลาในการฝึกอบรมที่ยาวนานขึ้นและชุดข้อมูลที่ใหญ่ขึ้น หากคุณปรับขนาดองค์ประกอบหนึ่งโดยไม่มีองค์ประกอบอื่นกระบวนการจะหยุดทํางาน

แม้ว่าเราจะจัดการเพื่อสะสมทั้งการประมวลผลและทําให้คลัสเตอร์ทํางานร่วมกัน แต่เราก็ยังต้องการข้อมูลคุณภาพสูงหลายเทราไบต์เพื่อให้โมเดลที่ผ่านการฝึกอบรมนั้นดี หากไม่มีแหล่งข้อมูลที่เป็นกรรมสิทธิ์ของ Big Tech เงินทุนในการเขียนข้อตกลงมูลค่าหลายล้านดอลลาร์กับฟอรัมออนไลน์และสื่อหรือรูปแบบที่มีอยู่เพื่อสร้างข้อมูลสังเคราะห์การได้รับข้อมูลการฝึกอบรมที่เพียงพอเป็นไปไม่ได้

มีการคาดเดาในช่วงปลายว่ากฎหมายการปรับขนาดอาจสูงโดย LLM อาจกระทบเพดานประสิทธิภาพ บางคนตีความว่านี่เป็นการเปิดสําหรับการพัฒนา AI แบบกระจายอํานาจ อย่างไรก็ตาม สิ่งนี้มองข้ามปัจจัยสําคัญ—ความเข้มข้นของพรสวรรค์ บริษัท Big Tech และห้องปฏิบัติการ AI ในปัจจุบันเป็นที่ตั้งของนักวิจัยชั้นนําของโลก เส้นทางทางเลือกที่ก้าวหน้าไปยัง AGI มีแนวโน้มที่จะโผล่ออกมาจากศูนย์เหล่านี้ เมื่อพิจารณาถึงภูมิทัศน์การแข่งขันการค้นพบดังกล่าวจะยังคงได้รับการปกป้องอย่างใกล้ชิด

พิจารณาทุกข้อเท็จจริงเหล่านี้ ฉันมั่นใจ 99.99% ว่าการฝึกอบรม ASI หรือแม้กระทั่งโมเดลที่ทรงพลังที่สุดในโลก จะไม่ได้รับการฝึกอบรมบนโครงการคำนวณแบบกระจาย ในกรณีนั้น โมเดลอะไรบ้างที่เงินดิจิทัลจริงจังสามารถช่วยฝึกอบรมได้บ้าง

เพื่อให้โมเดลสามารถถูกฝึกฝนระหว่างกลุ่ม GPU ที่แตกต่างกันทางภูมิภาค เราจำเป็นต้องใช้การกระจายข้อมูลระหว่างพวกเขา (จำได้ว่าการกระจายข้อมูลคือวิธีที่เกี่ยวกับเกาะต่าง ๆ ของ GPU ที่ทำงานกับชุดข้อมูลการฝึกฝนที่แตกต่างกัน จะตั้งค่ากับกัน) โมเดลที่ถูกฝึกฝนมากขึ้นจะต้องมีปริมาณข้อมูลที่ต้องแลกเปลี่ยนกันมากขึ้น เช่นเดียวกับที่เราได้พูดถึง สำหรับโมเดลอันยิ่งใหญ่ที่มีพารามิเตอร์เกินหนึ่งล้านล้าน การแบนด์วิดท์ที่ต้องการจะมากพอที่จะต้องใช้การเชื่อมต่อไฟเบอร์ออปติกที่ไว้วางการใช้งาน

อย่างไรก็ตามสำหรับโมเดลขนาดเล็ก ความต้องการแบนด์วิดท์จะลดลงตรงไปตรงมา ความก้าวหน้าล่าสุดในอัลกอริทึมการฝึกอบรมที่ใช้การสื่อสารต่ำ โดยเฉพาะในการฝึกอบรมแบบเลื่อนการประสานเวลาได้เป็นโอกาสที่มีความมั่นใจสำหรับการฝึกอบรมโมเดลขนาดเล็กถึงกลางขนาดในลักษณะที่กระจายอย่างแบ่งเบา ทีมงานสองทีมเป็นผู้นำในการพยายามทดลองเหล่านี้

Nous Researchเป็นบริษัทเร่งความเร็ว AI และเป็นผู้เล่นใหญ่ในการพัฒนา AI โอเพนซอร์ส พวกเขาเป็นที่รู้จักดีสำหรับชุดโมเดลภาษา Hermes และโครงการนวัตกรรมเช่น World Sim ในช่วงต้นปีนี้พวกเขาให้บริการซับเน็ต LLM-ranking BitTensor เป็นเวลาไม่กี่เดือน พวกเขาได้ลอยน้ำเข้าสู่การคำนวณแบบกระจายโดยการเปิดเผยDisTrOโครงการ Distributed Training Over the Internet ที่พวกเขาสามารถฝึกฝนโมเดล Llama-2 ที่มีพารามิเตอร์ 1.2 พันล้านได้อย่างประสบความสำเร็จโดยลดความต้องการแบนด์วิดท์ระหว่าง GPU ลงถึง 857 เท่า

รายงาน DisTrO โดย Nous Research

Prime Intellectซึ่งเป็นสตาร์ทอัพที่พัฒนาโครงสร้างพื้นฐานสําหรับ AI แบบกระจายอํานาจในวงกว้าง โดยมีเป้าหมายเพื่อรวบรวมทรัพยากรการประมวลผลทั่วโลกและเปิดใช้งานการฝึกอบรมร่วมกันของโมเดลที่ล้ําสมัยผ่านระบบแบบกระจาย ของพวกเขา โครงสร้าง OpenDiLoCo (การนำมาใช้ของ DeepMind วิธีการกระจายการสื่อสารที่ต่ำ) ฝึกอบรมสำเร็จโมเดลพารามิเตอร์หนึ่งพันล้านตัวข้างทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวน 90-95% การใช้โปรแกรม

แต่การฝึกอบรมแบบกระจายทำงานอย่างไร?

ความขนานของข้อมูลแบบดั้งเดิมต้องใช้ GPU ในการแบ่งปันและเฉลี่ยน้ําหนักหลังจากทุกขั้นตอนการฝึกอบรมซึ่งเป็นไปไม่ได้ผ่านการเชื่อมต่ออินเทอร์เน็ต แต่โครงการเหล่านี้ปล่อยให้แต่ละ "เกาะ" ของ GPU ฝึกอย่างอิสระเป็นเวลาหลายร้อยขั้นตอนก่อนที่จะซิงโครไนซ์ ลองนึกถึงทีมวิจัยอิสระที่ทํางานในโครงการเดียวกัน: แทนที่จะตรวจสอบซึ่งกันและกันอย่างต่อเนื่องพวกเขาก้าวหน้าอย่างมีนัยสําคัญอย่างอิสระก่อนที่จะแบ่งปันสิ่งที่ค้นพบ

DisTrO และ OpenDiLoCo ซิงค์เฉพาะทุก 500 ขั้นตอนเท่านั้น โดยใช้วิธีการทำเพิ่มเติมสองตัวเลือก:

  • เครื่องมือเพิ่มประสิทธิภาพ "ภายใน" ที่จัดการการอัปเดตในเครื่องของ GPU แต่ละตัว เช่น ทีมทําการค้นพบในท้องถิ่น
  • เครื่องมือเพิ่มประสิทธิภาพ "ด้านนอก" ที่จัดการการซิงค์เป็นระยะระหว่าง GPU โดยทําหน้าที่เป็นผู้ประสานงานที่นําสิ่งที่ค้นพบทั้งหมดมารวมกัน

เมื่อพวกเขาซิงค์กัน ไม่ใช่การแบ่งปันน้ำหนักทั้งหมด พวกเขาแบ่งปัน "แกรดิเอนแบบเทียบเท่า" - มีความแตกต่างในน้ำหนักปัจจุบันของพวกเขาและน้ำหนักจากการซิงค์ครั้งล่าสุด นี่เป็นวิธีที่มีประสิทธิภาพอย่างน่าทึ่ง เหมือนการแบ่งปันเฉพาะสิ่งที่เปลี่ยนแปลงในเอกสาร ไม่ใช่การส่งเอกสารทั้งหมดทุกครั้ง

INTELLECT-1การนำไปใช้จริงของ OpenDiLoCo โดย Prime Intellect เป็นการผลักดันแนวคิดนี้ไปอีกขั้นตอนหนึ่งโดยการฝึกฝนโมเดล 10B พารามิเตอร์ - ความพยายามในการฝึกฝนแบบกระจายที่ใหญ่ที่สุดจนถึงปัจจุบัน พวกเขาได้เพิ่มการปรับปรุงที่สำคัญเช่น:

  • การบีบอัดข้อมูลที่พวกเขาต้องการแบ่งปัน ทำให้การสื่อสารมีประสิทธิภาพมากขึ้น
  • สร้างระบบสำรองเพื่อให้การฝึกอบรมสามารถดำเนินต่อได้ แม้ว่าบางเครื่องคอมพิวเตอร์จะหยุดทำงาน
  • ทำให้กระบวนการซิงโครไนเซชันเร็วมาก - น้อยกว่าหนึ่งนาที

INTELLECT-1, ซึ่งได้รับการฝึกอบรมโดยกลุ่ม GPU มากกว่า 20 กลุ่มที่กระจายอยู่ทั่วโลก เสร็จลงล่าสุดpretrainingและจะถูกเปิดเผยเต็มรูปแบบในเร็ว ๆ นี้ในรูปแบบโอเพนซอร์ส

แดชบอร์ดการฝึกอบรม INTELLECT-1

ทีมเช่นนี้เช่นแมคโครคอสมอส are using similar algorithms to โมเดลการฝึกอบรมในนิเวศ Bittensor

หากอัลกอริทึมการฝึกองค์กรแบบกระจายเหล่านี้ยังคงดีขึ้นต่อไป อาจสามารถสนับสนุนโมเดลขนาดถึง 100 พันพารามิเตอร์ ด้วยรุ่น GPU รุ่นถัดไป โมเดลขนาดเช่นนี้สามารถเป็นประโยชน์อย่างมากสำหรับกรณีการใช้ที่หลากหลาย:

  1. การวิจัยและทดลองกับสถาปัตยกรรมใหม่ที่ไม่ต้องการการประมวลผลระดับชายแดน
  2. รุ่นทั่วไปขนาดเล็กที่ถูกปรับแต่งให้มีประสิทธิภาพและความเร็วสูงกว่าความฉลาดของข้อมูลต้นฉบับ
  3. โมเดลเฉพาะด้านโดเมน

การปรับจูนอย่างละเอียด

การปรับแต่งอย่างละเอียดเป็นกระบวนการของการใช้โมเดลพื้นฐานที่ผ่านการฝึกอบรมล่วงหน้า (โดยปกติจะเป็นโอเพ่นซอร์สโดย Meta, Mistral หรือ Alibaba) และฝึกอบรมเพิ่มเติมเกี่ยวกับชุดข้อมูลเฉพาะเพื่อปรับให้เข้ากับงานหรือโดเมนเฉพาะ สิ่งนี้ต้องการการประมวลผลน้อยกว่าการฝึกอบรมตั้งแต่เริ่มต้นเนื่องจากโมเดลได้เรียนรู้รูปแบบภาษาทั่วไปแล้วและจําเป็นต้องปรับน้ําหนักสําหรับโดเมนใหม่เท่านั้น

คำนวณความต้องการสำหรับการปรับปรุงมาตราสเกลด้วยขนาดโมเดล โดยสมมติว่าการฝึกอบรมบน H100:

  • รุ่นเล็ก (1-7B พารามิเตอร์): เพียง GPU เดียว สามารถทำเสร็จภายใน 12 ชั่วโมง
  • รุ่นขนาดกลาง (7-13B): คลัสเตอร์ GPU 2-4 คลัสเตอร์เสร็จสิ้นภายใน 36 ชั่วโมง
  • โมเดลขนาดใหญ่ (>30B): สูงสุด 8 กลุ่ม GPU, การเสร็จสิ้นภายใน 4 วัน

ด้วยข้อกําหนดเหล่านี้การปรับแต่งอย่างละเอียดไม่ต้องการอัลกอริธึมการฝึกอบรมแบบกระจายที่ซับซ้อนที่กล่าวถึงก่อนหน้านี้ รูปแบบตามความต้องการซึ่งนักพัฒนาเช่าคลัสเตอร์ GPU ในช่วงเวลาสั้น ๆ ที่กระจุกตัวให้การสนับสนุนอย่างเพียงพอ ตลาดการประมวลผลแบบกระจายอํานาจที่มีความพร้อมใช้งานของ GPU ที่แข็งแกร่งอยู่ในตําแหน่งที่เหมาะสมในการจัดการกับปริมาณงานเหล่านี้

การสรุปความ

การอนุมานคือจุดที่ตลาดการประมวลผลแบบกระจายอํานาจมีเส้นทางที่ชัดเจนที่สุดสู่ความเหมาะสมของตลาดผลิตภัณฑ์ น่าแปลกที่นี่เป็นเวิร์กโฟลว์ที่กล่าวถึงน้อยที่สุดในบริบทของการฝึกอบรมแบบกระจายอํานาจ สิ่งนี้เกิดจากสองปัจจัย: การอนุมานขาดการอุทธรณ์ของการฝึกอบรม "แบบจําลองพระเจ้า" ของ GPU 100,000 ครั้งและส่วนหนึ่งเป็นเพราะขั้นตอนปัจจุบันของการปฏิวัติ AI

จนถึงวันนี้การคำนวณส่วนใหญ่จะเป็นการฝึกฝนจริง ๆ การแข่งขันเพื่อ ASI กำลังนำไปสู่การลงทุนรายใหญ่โดยตรงในโครงสร้างพื้นฐานการฝึกฝน อย่างไรก็ตาม สมดุลนี้มักเปลี่ยนไปเมื่อแอปพลิเคชัน AI เปลี่ยนจากการวิจัยเป็นการผลิต สำหรับแบบธุรกิจที่เกี่ยวกับ AI เพื่อให้ยังคงอยู่ได้ต้องมีรายได้จากการอ่านอย่างน้อยต้องมากกว่าต้นทุนของการฝึกฝนและการอ่านรวมกัน ในขณะที่การฝึก GPT-4 เป็นรายจ่ายที่มากมาย นั่นเป็นค่าใช้จ่ายครั้งเดียว ค่าใช้จ่ายในการคำนวณต่อเนื่องและเส้นทางสู่ความสามารถในการทำกำไรของ OpenAI ได้รับการขับเคลื่อนโดยการให้บริการคำขอการอ่านพันล้านให้กับลูกค้าที่ชำระเงิน

ตลาดประมวลผลกระจายอํานาจหรืออื่น ๆ โดยธรรมชาติของการรวม GPU รุ่นต่างๆ (เก่าและใหม่) จากทั่วโลกพบว่าตัวเองอยู่ในตําแหน่งที่ไม่เหมือนใครเพื่อรองรับปริมาณงานการอนุมาน

ตลาดคอมพิวเตอร์ไม่ว่าจะได้รับการแยกตามสถานที่หรือเป็นแบบดั้งเดิม มีความสามารถในการทำงานที่เกี่ยวข้องกับ GPUs ที่หลากหลาย (ทั้งรุ่นปัจจุบันและรุ่นก่อนหน้า) อย่างเหมาะสมทั่วโลก ข้อดีที่แท้จริงของพวกเขาสอดคล้องกับความต้องการในการสร้างองค์ความรู้: การกระจายทางภูมิภาคกว้างขวาง การรองรับที่เสถียรต่อเวลาทำงาน ระบบสำรอง และความเข้ากันได้ของรุ่น GPU ทั้งหมด

แต่ทำไมถึงเลือกใช้คริปโต?

เราได้พูดถึงเวิร์กโฟลว์ต่างๆ การประมวลผลแบบกระจายอํานาจสามารถและไม่สามารถช่วยได้ ตอนนี้เราต้องตอบคําถามสําคัญอีกข้อหนึ่ง: เหตุใดนักพัฒนาจึงเลือกที่จะรักษาความปลอดภัยการประมวลผลจากผู้ให้บริการแบบกระจายอํานาจผ่านผู้ให้บริการแบบรวมศูนย์ โซลูชันแบบกระจายอํานาจมีข้อได้เปรียบที่น่าสนใจอะไรบ้าง

ราคาและช่วง

สกุลเงินคงที่บรรจุผลิตภายใต้การตลาดด้วยการให้ทางเลือกที่ดีกว่าในการโอนเงินข้ามชาติทางด้านเดิม ปัจจัยที่สำคัญคือสกุลเงินคงที่เพียงแค่ถูกกว่าอย่างมาก! อย่างที่เดียวที่สำคัญที่สุดที่ส่งผู้พัฒนา AI เลือกให้บริการคลาวด์คือต้นทุน ในการแข่งขันกับผู้ให้บริการคอมพิวต์แบบกระจายให้สามารถแข่งขันได้อย่างมีประสิทธิภาพจริง ๆ พวกเขาต้องส่งมอบราคาที่ดีกว่าก่อน

ตลาดคอมพิวเตอร์เช่นเดียวกับตลาดทั้งหมดเป็นธุรกิจเอฟเฟกต์เครือข่าย ยิ่งอุปทานของ GPU บนแพลตฟอร์มมากเท่าไหร่สภาพคล่องและความพร้อมใช้งานของลูกค้าก็จะยิ่งมากขึ้นเท่านั้นซึ่งจะดึงดูดความต้องการมากขึ้น เมื่อความต้องการเพิ่มขึ้นสิ่งนี้จูงใจให้เจ้าของ GPU เข้าร่วมเครือข่ายมากขึ้นสร้างวงจรคุณธรรม อุปทานที่เพิ่มขึ้นยังช่วยให้ราคาแข่งขันได้มากขึ้นผ่านการจับคู่ที่ดีขึ้นและลดเวลาว่าง เมื่อลูกค้าสามารถค้นหาการประมวลผลที่ต้องการได้อย่างสม่ําเสมอในอัตราที่น่าดึงดูดพวกเขามีแนวโน้มที่จะสร้างการพึ่งพาทางเทคนิคที่ยั่งยืนบนแพลตฟอร์มซึ่งจะช่วยเสริมสร้างผลกระทบของเครือข่าย

ความเคลื่อนไหวนี้มีความสำคัญอย่างยิ่งในการอินเฟอเรนซ์ ที่ทำให้การกระจายทางภูมิภาคของการจัดหาสามารถเสริมสร้างการเสนอสินค้าได้อย่างแท้จริงโดยการลดความล่าช้าสำหรับผู้ใช้สุดท้าย ตลาดที่เป็นตลาดเปิดทั้งแบบนี้ที่มีมหาศาลจะมีข้อได้เปรียบทางการแข่งขันที่สำคัญ เนื่องจากทั้งผู้ผลิตและลูกค้าจะต้องเผชิญกับค่าใช้จ่ายในการเปลี่ยนแปลงเมื่อพวกเขาได้รวมกับเครื่องมือและกระบวนการทำงานของแพลตฟอร์ม

ผลกระทบเครือข่ายตลาด GPU มู่เล่

ในตลาดที่ผู้ชนะเหนือทุกคนเช่นนี้การบูตเครือข่ายและการเข้าสู่ความเร็วหนีไปเป็นเฟสที่สำคัญที่สุด ที่นี่คริปโตให้โครงการคอมพิวเตอร์ที่กระจายอยู่ด้วยเครื่องมือที่มีประสิทธิภาพมากมายที่คู่แข่งที่เป็นกลางไม่มีเพียงอย่างเดียว: ผลตอบแทนโทเคน

กลไกสามารถตรงไปตรงมา แต่ทรงพลัง โปรโตคอลจะเปิดตัวโทเค็นที่มีตารางรางวัลเงินเฟ้อก่อน ซึ่งอาจแจกจ่ายการจัดสรรเบื้องต้นให้กับผู้มีส่วนร่วมในช่วงต้นผ่าน airdrops การปล่อยโทเค็นเหล่านี้จะเป็นเครื่องมือหลักในการบูตทั้งสองด้านของตลาด

สําหรับผู้ให้บริการ GPU โครงสร้างรางวัลควรได้รับการออกแบบอย่างรอบคอบเพื่อกําหนดพฤติกรรมด้านอุปทาน ผู้ให้บริการจะได้รับโทเค็นตามสัดส่วนของการคํานวณและอัตราการใช้ประโยชน์ที่มีส่วนร่วม แต่ระบบควรไปไกลกว่ารางวัลเชิงเส้นอย่างง่าย โปรโตคอลนี้สามารถใช้ตัวคูณรางวัลแบบไดนามิกเพื่อจัดการกับความไม่สมดุลทางภูมิศาสตร์หรือประเภทฮาร์ดแวร์ ซึ่งคล้ายกับวิธีที่ Uber ใช้การกําหนดราคาที่เพิ่มขึ้นเพื่อจูงใจผู้ขับขี่ในพื้นที่ที่มีความต้องการสูง

ผู้ให้บริการอาจได้รับรางวัล 1.5 เท่าสำหรับการให้บริการคำนวณในพื้นที่ที่ไม่ได้รับการบริการเพียงพอหรือ 2 เท่าสำหรับการให้บริการประเภท GPU ที่ขาดแคลนชั่วคราว การแบ่งระดับรางวัลเพิ่มเติมตามอัตราการใช้งานที่สม่ำเสมอจะส่งเสริมให้ผู้ให้บริการรักษาความพร้อมที่มั่นคงและไม่สลับระหว่างแพลตฟอร์มโดย opportunistic.

ในด้านความต้องการลูกค้าจะได้รับรางวัลโทเค็นซึ่งจะสนับสนุนการใช้งานของพวกเขาอย่างมีประสิทธิภาพ โปรโตคอลอาจเสนอรางวัลที่เพิ่มขึ้นสำหรับการสัญญาณคอมพิวเตอร์ที่ยาวนานเพื่อกระตุ้นผู้ใช้ให้สร้างความขึ้นอยู่กับแพลตฟอร์มทางเทคนิคที่ลึกลงมากขึ้น รางวัลเหล่านี้อาจถูกสร้างเพื่อให้สอดคล้องกับแนวทางยุทธศาสตร์ของแพลตฟอร์มเช่นการจับต้องความต้องการในภูมิภาคที่แน่นอน

อัตราฐานของการคำนวณอาจถูกเก็บไว้ที่ระดับตลาดหรือต่ำกว่าราคาตลาดเล็กน้อย โดยโปรโตคอลที่ใช้oracles zkTLSเพื่อติดตามและจับคู่ราคาของคู่แข่งอย่างต่อเนื่อง รางวัลโทเค็นก็จะทำหน้าที่เป็นชั้นเสริมของการกระตุ้นเพิ่มเติมที่อยู่เหนือระดับราคาฐานที่แข่งขัน โมเดลราคาคู่สองชั้นนี้จะช่วยให้แพลตฟอร์มรักษาความแข่งขันของราคาในขณะเดียวกันก็ใช้สิทธิตัวกระตุ้นโทเค็นในการส่งเสริมพฤติกรรมที่เฉพาะเจาะจงที่เสริมสร้างเครือข่าย

โดยการแจกไอน้ำสิทธิ์ให้กับผู้ให้บริการและลูกค้าทั้งสองฝ่ายจะเริ่มเก็บสะสมส่วนได้เสียในเครือข่าย ในขณะที่บางคน บางครั้งอาจขายส่วนได้เสียเหล่านี้ คนอื่นก็จะยึดมันไว้ โดยจะกลายเป็นผู้เกี่ยวข้องและผู้สนับสนุนแพลตฟอร์ม ผู้เข้าร่วมที่พึ่งพาจะมีความสนใจที่สำคัญในความสำเร็จของเครือข่าย ในการส่งเสริมการเติบโตและการใช้งานที่เกินกว่าการใช้งานโดยตรงหรือการให้บริการทรัพยากรคอมพิวเตอร์

เมื่อเวลาผ่านไปเมื่อเครือข่ายถึงความเร็วหลบหนีและสร้างผลกระทบเครือข่ายที่แข็งแกร่งสิ่งจูงใจโทเค็นเหล่านี้สามารถค่อยๆลดลงได้ ประโยชน์ตามธรรมชาติของการเป็นตลาดที่ใหญ่ที่สุด - การจับคู่ที่ดีขึ้นการใช้ประโยชน์ที่สูงขึ้นความครอบคลุมทางภูมิศาสตร์ที่กว้างขึ้นจะกลายเป็นตัวขับเคลื่อนการเติบโตอย่างยั่งยืน

วิธีการสร้างกระแสตลาด GPU ด้วยการให้สิทธิ์ตั๋ว

การต่อต้านการเซ็นเซอร์

ในขณะที่ราคาและช่วงเป็นตัวแบ่งที่สำคัญ ระบบคอมพิวเตอร์ที่กระจายแก้ไขปัญหาความจำกัดในการดำเนินการจากผู้ให้บริการที่ให้บริการแบบกลาง ผู้ให้บริการคลาวด์แบบดั้งเดิมได้แสดงให้เห็นถึงความพร้อมที่จะระงับหรือยุติบริการตามนโยบายเนื้อหาและแรงกดดันจากภายนอก. ปฏิบัติเหล่านี้เป็นการเสนอคำถามที่ถูกต้องเกี่ยวกับว่านโยบายที่คล้ายกันอาจส่งต่อไปสู่การพัฒนาและการใช้งานโมเดล AI ได้อย่างไร

เมื่อโมเดล AI มีความซับซ้อนมากขึ้นและจัดการกับกรณีการใช้งานที่หลากหลายมากขึ้นจึงมีความเป็นไปได้จริงที่ผู้ให้บริการระบบคลาวด์อาจใช้ข้อ จํากัด ในการฝึกอบรมและให้บริการโมเดลคล้ายกับแนวทางการกลั่นกรองเนื้อหาที่มีอยู่ สิ่งนี้อาจส่งผลกระทบไม่เพียง แต่เนื้อหา NSFW และหัวข้อที่ถกเถียงกัน แต่ยังรวมถึงกรณีการใช้งานที่ถูกต้องตามกฎหมายในด้านต่างๆเช่นการถ่ายภาพทางการแพทย์การวิจัยทางวิทยาศาสตร์หรือศิลปะสร้างสรรค์ที่อาจเรียกใช้ตัวกรองอัตโนมัติที่ระมัดระวังมากเกินไป

เครือข่ายแบบไม่มีศูนย์กลางนี้ให้ตัวเลือกทางโครงสร้างที่เป็นอิสระแก่ผู้มีส่วนร่วมในตลาดเพื่อสร้างสภาพแวดล้อมที่เสรีและไม่จำกัดสำหรับนวัตกรรมได้อย่างเป็นอิสระ

ด้านกลับของสถาปัตยกรรมที่ไม่ต้องขออนุญาตคือความเป็นส่วนตัวที่ยากขึ้น เมื่อการคำนวณแบ่งแยกกันไปทั่วเครือข่ายของผู้ให้บริการแทนที่จะอยู่ในศูนย์ข้อมูลของภาคีเครือข่ายที่เชื่อถือได้เดียว นักพัฒนาจำเป็นต้องมีความระมัดระวังในเรื่องความปลอดภัยของข้อมูล ในขณะที่การเข้ารหัสและสิ่งแวดล้อมการดำเนินการที่เชื่อถือได้สามารถช่วยได้ นั่นคือมีการแลกเปลี่ยนระหว่างความต้านทานการตรวจสอบและความเป็นส่วนตัวที่นักพัฒนาต้องจัดการตามความต้องการที่เฉพาะเจาะจงของพวกเขา

ความเชื่อใจและการปฏิบัติตามสัญญา

ด้วยความต้องการสูงสุดของการคำนวณ AI จากผู้ให้บริการ GPU สามารถใช้ตำแหน่งของพวกเขาเพื่อสกัดกำไรสูงสุดจากลูกค้าที่ประสบความสำเร็จได้โพสต์จากปีที่แล้วในบทความที่ผู้พัฒนาคนดังอย่าง Pieter Levels แชร์ถึงประสบการณ์ของเขาและนักพัฒนาคนอื่นที่พบว่าผู้ให้บริการของพวกเขาเพิ่มราคาอย่างกะทันหันถึง 600% เมื่อเขาเผยแพร่รายได้จากแอปพลิเคชัน AI ของพวกเขา

ระบบที่ไม่มีศูนย์กลางสามารถให้ความสำคัญในการแก้ปัญหานี้ - การบังคับสัญญาโดยไม่มีการเชื่อมั่น เมื่อข้อตกลงถูกเข้ารหัสบนเชนแทนที่จะถูกฝังอยู่ในเงื่อนไขการให้บริการ พวกเขากลายเป็นโปร่งใสและไม่สามารถเปลี่ยนแปลงได้ ผู้ให้บริการไม่สามารถเพิ่มราคาหรือเปลี่ยนแปลงเงื่อนไขกลางสัญญาได้โดยไม่มีการเห็นด้วยโดยชัดเจนผ่านโปรโตคอล

นอกเหนือจากการกำหนดราคา ระบบที่ไม่ centralised สามารถใช้ประโยชน์จากtrusted execution environments (TEEs)เพื่อให้การคำนวณสามารถตรวจสอบได้ นั่นหมายความว่านักพัฒนาจะได้รับทรัพยากร GPU ที่พวกเขาจ่ายเงินให้แท้จริงทั้งในเรื่องของข้อมูลเฮาส์แวร์และการเข้าถึงที่ได้รับการจัดสรรเฉพาะ ตัวอย่างเช่น เมื่อนักพัฒนาจ่ายเงินเพื่อเข้าถึง H100 GPUs 8 ตัวสำหรับการฝึกโมเดล พรูฟร์เเวร์ทางคริปโทฟิคสามารถยืนยันได้ว่าข้อมูลที่พวกเขาทำงานจริงๆบน H100s ที่มีหน่วยความจำเต็ม 80GB ต่อ GPU ไม่ได้ถูกลดรุ่นลงนั่นเองหรือไม่ก็คือมีการใช้ทรัพยากรร่วมกับผู้ใช้อื่น ๆ อย่างเงียบ ๆ

Permissionless

เครือข่ายคอมพิวเตอร์แบบกระจายอํานาจสามารถให้ทางเลือกที่ไม่ได้รับอนุญาตอย่างแท้จริงแก่นักพัฒนา ซึ่งแตกต่างจากผู้ให้บริการแบบดั้งเดิมที่ต้องการกระบวนการ KYC ที่กว้างขวางและการตรวจสอบเครดิตทุกคนสามารถเข้าร่วมเครือข่ายเหล่านี้และเริ่มใช้หรือจัดหาทรัพยากรการประมวลผล สิ่งนี้ช่วยลดอุปสรรคในการเข้าสู่ตลาดได้อย่างมากโดยเฉพาะอย่างยิ่งสําหรับนักพัฒนาในตลาดเกิดใหม่หรือผู้ที่ทํางานในโครงการทดลอง

ความสำคัญของลักษณะที่ไม่ต้องขออนุญาตนี้กลายเป็นสิ่งที่มีประสิทธิภาพมากยิ่งขึ้นเมื่อพิจารณาถึงอนาคตของตัวแทน AI ตัวแทน AI เพิ่งเริ่มหาที่วางเท้าของตน ด้วยตัวแทนบูรณาการแนวตั้งคาดว่าจะเกินขนาดของอุตสาหกรรม SaaS ด้วยความชอบTruth TerminalและZerebroเราเห็นสัญญาณแรกของตัวแทนที่ได้รับเอกราชและเรียนรู้วิธีใช้เครื่องมือภายนอกเช่นโซเชียลมีเดียและตัวสร้างภาพ

เมื่อระบบเหล่านี้ก้าวไปสู่ความฉลาดที่ซับซ้อนมากขึ้น อาจจะต้องมีการจัดสรรทรัพยากรคอมพิวเตอร์ของตนเองอย่างไดนามิก ระบบเครือข่ายที่กระจายแบบที่สัญญาสามารถดำเนินการได้โดยไม่ต้องเชื่อมั่นในรหัสโดยตรงโดยตัวคอมพิวเตอร์แทนบุคคลตัวกลางเป็นอินฟราสตรัคเจอร์สำหรับอนาคตนี้ ตัวแทนสามารถเจรจาสัญญาโดยอัตโนมัติ ตรวจสอบประสิทธิภาพ และปรับใช้การคำนวณของตนอย่างอัตโนมัติตามความต้องการ โดยไม่ต้องการการเข้ามาของมนุษย์หรือการอนุมัติ

ภูมิประเทศ

แนวคิดของเครือข่ายคำนวณที่ไม่มีการกระจายก็ไม่ใหม่ - โครงการต่าง ๆ ได้พยายามทำให้มีการเข้าถึงทรัพยากรคำนวณที่ขาดแคลนมานานก่อนทวีความคิดปัจจุบันเครือข่ายเรนเดอร์ได้ทำงานตั้งแต่ปี 2017 โดยรวมทรัพยากร GPU สำหรับการสร้างภาพคอมพิวเตอร์อากาชเริ่มต้นในปี 2020 เพื่อสร้างตลาดเปิดรูปแบบสำหรับการคำนวณทั่วไป โครงการทั้งสองพบความสำเร็จปานกลางในส่วนของพวกเขา แต่ตอนนี้กำลังโฟกัสในโหลดงาน AI

อย่างเดียวกันระบบเก็บข้อมูลแบบกระจายเช่น gate.ioFilecoinและArweaveกำลังขยายธุรกิจเข้าสู่การคำนวณด้วย พวกเขารับรู้ว่าเมื่อ AI เป็นผู้บริโภคหลักของการเก็บข้อมูลและการคำนวณ การนำเสนอ解决方案ที่เชื่อมโยงกันเป็นสิ่งที่เหมาะสม

เช่นเดียวกับศูนย์ข้อมูลแบบดั้งเดิมที่ต้องพยายามการแข่งขันกับสถานที่ที่ตั้งไว้สำหรับสิ่งประดิษฐ์ AI เครือข่ายที่มีอยู่อย่างมากนี้ก็พบว่าต้องเผชิญกับการต่อสู้ที่ยากลำบากเมื่อเทียบกับโซลูชัน AI สามารถดำเนินการออร์เคสเทรชันที่ซับซ้อนที่ต้องการสำหรับภารกิจที่เกี่ยวข้องกับ AI แทนที่จะพบว่ากำลังค้นหาวิธีการโดยการเป็นผู้ให้บริการคอมพิวเตอร์แก่เครือข่าย AI อื่น ๆ ตัวอย่างเช่น Render และ Akash ตอนนี้ทำให้ GPU ของพวกเขามีอยู่ในตลาดของ io.net

เป็นตลาด AI-native ใหม่เหล่านี้คือใคร?io.netเป็นหนึ่งในผู้นำในการรวมแหล่งที่มีคุณภาพของ GPU สำหรับองค์กรในช่วงเริ่มแรก มี GPU ที่ได้รับการยืนยันมากกว่า 300,000 ในเครือข่ายของตน เขาบอกว่าพวกเขามีการประหยัดต้นทุนถึง 90% ต่อเทียบกับผู้เชี่ยวชาญที่ทำการรวมกลุ่มแล้ว และได้รับรายได้รายวันมากกว่า $25,000 ($9m ต่อปี) เช่นเดียวกัน Aethirรวมกว่า 40,000 GPU (รวมถึง H100 4,000+) เพื่อให้บริการทั้งกรณีการใช้งาน AI และคลาวด์คอมพิวติ้ง

ก่อนหน้านี้เราได้พูดถึงว่า Prime Intellect กำลังสร้างกรอบการฝึกอบรมแบบกระจายกลุ่มในมาตรฐานที่ใหญ่ขึ้น นอกจากนี้พวกเขายังให้บริการ ตลาด GPUที่ผู้ใช้สามารถเช่า H100s ตามความต้องการGensynเป็นโครงการอีกโครงการที่เล่นเดมพันใหญ่ในการฝึกอบรมแบบไม่มีส่วนในการกำหนดเวลาสอนที่คล้ายคลึงกับกรอบการฝึกอบรมรวมถึงการเข้าถึงตลาด GPU

ในขณะที่เหล่านี้เป็นตลาดที่ไม่ขึ้นกับภาระงาน (พวกเขาสนับสนุนการฝึกอบรมและการอิงเซ็น), โครงการบางโครงการเน้นไปที่การอิงเซ็นเท่านั้น - ภาระงานคำนวณที่กระจายที่เราตื่นเต้นที่สุด ที่สำคัญที่สุดคือ Exo Labs ซึ่งทำให้ผู้ใช้สามารถเรียกใช้ LLMs ระดับชั้นประทับใจบนอุปกรณ์ประจำวัน พวกเขาได้พัฒนาแพลตฟอร์มโอเพ่นซอร์สที่ช่วยให้การกระจายงานการอิงเซ็น AI ไปยังอุปกรณ์หลายตัวเช่น iPhone, Android และ Macแสดงเร็วๆ นี้ทำงานด้วยโมเดล 70-B (มีความยืดหยุ่นสูงสุดถึง 400-B) ที่กระจายอยู่ทั่วทั้งสี่เครื่อง Mac Mini รุ่น M4 Pro

โครงสร้างพื้นฐานที่สำคัญ

เมื่อซาโตชิเปิดตัวบิตคอยน์ในปี 2008 ประโยชน์ของมัน คือ ทองคำดิจิทัลที่มีจำนวนจำกัดและเป็นเงินที่ต้านการเซ็นเซอร์ นั้นเป็นเพียงทฤษฎีเท่านั้น ระบบการเงินดั้งเดิม ถึงแม้มันจะมีข้อบกพร่อง ก็ยังทำงานได้ ธนาคารกลางยังไม่ได้เริ่มการพิมพ์เงินอย่างไม่เกรงขาม การลงโทษระหว่างประเทศยังไม่ได้ถูกใช้อย่างเต็มที่ต่อเศรษฐกิจทั้งหมด ความจำเป็นที่จะต้องมีทางเลือก ดูเหมือนเป็นเรื่องทฤษฎีมากกว่าเรื่องเร่งด่วน

ใช้เวลาหลายสิบปีในการผ่อนคลายเชิงปริมาณ ซึ่งนําไปสู่การขยายตัวทางการเงินในยุคโควิด เพื่อประโยชน์ทางทฤษฎีของ Bitcoin ในการตกผลึกเป็นมูลค่าที่จับต้องได้ วันนี้เมื่ออัตราเงินเฟ้อกัดกร่อนการออมและความตึงเครียดทางภูมิรัฐศาสตร์คุกคามการครอบงําของดอลลาร์บทบาทของ Bitcoin ในฐานะ "ทองคําดิจิทัล" ได้พัฒนาจากความฝันของ cypherpunk เป็นสินทรัพย์ที่สถาบันและรัฐชาตินํามาใช้

แบบนี้เกิดซ้ำกับสกุลเงินที่มั่นคง ทันทีที่มีบล็อกเชนชนิดทั่วไปใน Ethereum มีอยู่ สกุลเงินที่มั่นคงก็ทันทีกลายเป็นหนึ่งในกรณีใช้ที่มีความเป็นไปได้มากที่สุด แต่ใช้เวลาหลายปีในการปรับปรุงเทคโนโลยีและเศรษฐกิจของประเทศเช่นอาร์เจนตินาและตุรกีที่ถูกทำลายด้วยการเงินเพื่อสกุลเงินที่มั่นคงให้ก้าวไกลจากนวัตกรรมคริปโตเล็กน้อยเป็นโครงสร้างการเงินที่สำคัญที่เคลื่อนย้ายเงินตันต่อปีหลายล้านดอลลาร์

เทคโนโลยีรหัสสกุลเงินเป็นเทคโนโลยีที่เป็นธรรมชาติที่เป็นเทคโนโลยีป้องกัน - นวัตกรรมที่ดูเหมือนไม่จำเป็นในช่วงเวลาที่ดี แต่กลายเป็นสิ่งจำเป็นในช่วงวิกฤต ความจำเป็นในการใช้งานเหล่านี้เกิดขึ้นเมื่อระบบที่มีอยู่ล้มเหลวหรือเปิดเผยความจริงของพวกเขาเท่านั้น

วันนี้เรากำลังอยู่ในยุคทองของ AI ทุนการลงทุนไหลเวียนอิสระ บริษัทแข่งขันเพื่อให้บริการในราคาที่ต่ำที่สุดและข้อจำกัดหากมีอยู่ก็น้อยมาก ในสภาพแวดล้อมเช่นนี้ ทางเลือกที่ไม่ส่วนกลางอาจดูซับซ้อนได้ ทำไมต้องเจริญกับเศรษฐศาสตร์โทเค็นและระบบพิสูจน์เมื่อผู้ให้บริการแบบดั้งเดิมทำงานได้ดี

แต่ด้วยการเริ่มต้นของคลื่นเทคโนโลยีที่สำคัญในอดีต ความกรุณาอย่างนี้เป็นชั่วคราวเท่านั้น เราอยู่ในช่วงเวลาสองปีเพียงเท่านั้นในการปฏิวัติ AI ในขณะที่เทคโนโลยีกำลังเจริญเติบโตและผู้ชนะในการแข่งขัน AI กำลังเกิดขึ้น พลังจริงๆ ของพวกเขาจะปรากฏออกมา บริษัทที่เดียวกันที่ในปัจจุบันนี้มอบการเข้าถึงอย่างเอื้ออาจจะมีอำนาจในอนาคต - ผ่านการกำหนดราคา ผ่านนโยบาย ผ่านการอนุญาต

นี่ไม่ใช่รอบที่สำคัญของเทคโนโลยีอื่น ๆ ที่เกี่ยวข้อง ปัจจุบัน AI เป็นฐานการดำเนินชีวิตใหม่ของมนุษยชาติ - เลนส์ที่เราจะใช้ประมวลผลข้อมูล สร้างศิลปะ ตัดสินใจ และสุดท้ายแล้ว พัฒนาตนเองเป็นสายพันธุ์ใหม่ การคำนวณไม่เพียงเป็นเพียงแค่ทรัพยากร มันเป็นสกุลเงินของความคิดเป็นรากฐาน ผู้ที่ควบคุมการไหลของมันจะเป็นผู้กำหนดทางหน้าสมองของมนุษยชาติ

การคำนวณที่ไม่centralised ไม่ได้เกี่ยวกับการ提供 GPU ราคาถูกหรือตัวเลือกการ implement ที่ยืดหยุ่นมากขึ้น (แม้ว่ามันต้องทำทั้งสองอย่างเพื่อประสบความสำเร็จ) มันเกี่ยวกับการให้ความสำคัญให้การเข้าถึงปัจจุบัน สู่ปัจจุบัน ที่เป็นเทคโนโลยีที่ทรงพลังที่สุดของมนุษย์ ที่ยังคงไม่สามารถถูกเซ็นเซอร์ได้และเป็นอิสระ มันเป็นเท็จารณะของเราต่ออนาคตที่เป็นอนิเวทิเบิลที่บริษัทในอนาคตจะกำหนดไม่เพียงแค่ใครสามารถใช้ AI ได้ แต่ยังมีวิธีการคิดด้วย

เรากำลังสร้างระบบเหล่านี้ในวันนี้ไม่ใช่เพราะว่าเราต้องการใช้งานทันที แต่เพราะว่าพวกเขาจะเป็นสิ่งสำคัญในวันพรุ่งนี้ เมื่อ AI เป็นสิ่งที่เป็นพื้นฐานสำหรับสังคมเช่นเดียวกับเงินการคำนวณที่ไม่ต้องได้รับอนุญาตจะไม่เป็นทางเลือกเท่าที่ Bitcoin และ stablecoin เป็นสิ่งสำคัญในการต่อต้านการควบคุมทางการเงิน

การแข่งขันสู่ซุปเปอร์อินเทอร์เล็กชั่นที่อาจอยู่นอกเหนือจากระบบแบบกระจาย แต่การให้แน่นอนว่าผลของปัญญาเทียมนี้ยังคงเข้าถึงได้สำหรับทุกคน? นั่นเป็นการแข่งขันที่คุ้มค่าที่ควรทำ

ประกาศการปฏิเสธความรับผิด

  1. บทความนี้ถูกพิมพ์ซ้ำจาก [Decentralised.co]. ส่งต่อชื่อเรื่องเดิม: คำนวณแบบกระจาย ลิขสิทธิ์ทั้งหมดเป็นของผู้เขียนเดิม [ Shlok Khemani]. หากมีคำประทับใจต่อการเผยแพร่นี้ กรุณาติดต่อ Gate Learnทีมของเราจะดูแลมันโดยเร็ว
  2. คำประกาศความรับผิดชอบ: มุมมองและความคิดเห็นที่แสดงในบทความนี้เป็นเพียงของผู้เขียนเท่านั้นและไม่เป็นการให้คำแนะนำในการลงทุนใด ๆ
  3. การแปลบทความเป็นภาษาอื่นๆ ทำโดยทีม Gate Learn หากไม่ได้กล่าวถึง การคัดลอก การแจกจ่าย หรือการลอกเลียนแบบบทความที่แปลนั้นถือเป็นการละเมิดกฎหมาย

ทำไมการคำนวณแบบกระจายเป็นตัวขับเคลื่อนสำคัญสำหรับการพัฒนา AI หรือความสามารถในการประมวลผลของเครือข่ายคอมพิวเตอร์?

ขั้นสูง1/7/2025, 6:46:55 AM
บทความวันนี้เกี่ยวกับเซ็กเตอร์การคำนวณแบบกระจายที่กำลังเจริญขึ้นในโลกคริปโต พวกเราได้ลงทุนในทัศนคติพื้นฐานทางด้านโครงสร้างพื้นฐาน AI เพื่อเข้าใจว่าทางเลือกแบบกระจายสามารถแข่งขันในระดับเสรีได้อย่างไร

ส่งต่อชื่อเรื่องเดิม: Decentralised Compute

บทความวันนี้เกี่ยวกับภาครัฐที่เกิดขึ้นในส่วนของการคำนวณแบบกระจายในโลกคริปโต พวกเราจะศึกษาพื้นที่พื้นฐานของโครงสร้างพื้นฐาน AI เพื่อเข้าใจว่าสถานการณ์แบบกระจายสามารถแข่งขันได้ในระดับที่เป็นไปได้

เราสำรวจคำถามเช่น: ASI สามารถฝึกอบรมบนเครือข่ายกระจายได้หรือไม่? เครือข่ายคริปโตมีข้อดีที่ไม่เหมือนใครอย่างไร? และทำไมโครงสร้างคอมพิวเตอร์ที่ไม่จำกัดสิทธิ์อาจกลายเป็นสิ่งที่สำคัญต่อ AI เช่นเดียวกับ Bitcoin ต่อการเงิน

รูปแบบที่คุณจะสังเกตเห็นบ่อยในบทความคือการเติบโตแบบกำลังสองของทุกอย่างเกี่ยวกับ AI - การลงทุน การคำนวณ และความสามารถ สิ่งนี้สอดคล้องกับการฟื้นคืนในตลาดคริปโตและความสนใจทางจิตวิทยา เราตื่นเต้นมากเกี่ยวกับจุดที่สองนี้ของคลื่นเทคโนโลยีที่ใหญ่ใหญ่

สวัสดี!

ในวันที่แสงแดดส่องอย่างสดใสที่เมมฟิส รัฐเทนเนสซี, เครื่องบินลอยอยู่บนอาคารอุตสาหกรรมซึ่งผู้โดยสารกำลังถ่ายภาพอย่างระหว่างกัน. นี่ไม่ใช่ฉากจากการลับสงครามเย็นแต่เป็นเหตุการณ์ในปี 2024 ครับ ผลักเป้าหมายไม่ใช่ที่ตั้งทหารหรือสถานที่แข็งแรงที่เติมยูเรเนียมแต่เป็นโรงงานเครื่องใช้ไฟฟ้าเก่าที่ตอนนี้เป็นที่ตั้งของหนึ่งในเครื่องคอมพิวเตอร์ที่มีกำลังสูงที่สุดของโลก. ผู้โดยสารไม่ใช่สถาบันต่างด้าวแต่เป็นพนักงานของบริษัทศูนย์ข้อมูลคู่แข่ง

ทุกๆ สามสิบปี จะเกิดเทคโนโลยีที่เปลี่ยนแปลงเป็นเหตุการณ์ที่ไม่สามารถถูกทำลายได้ เหตุการณ์เช่นนี้จะเป็นการแข่งขันระหว่างองค์กรที่มีอิทธิพลมากที่สุดในโลกเพื่อเข้าใจเทคโนโลยีนี้ก่อนใคร ผลตอบแทนมีค่ามากมาย และผลที่เกิดขึ้นเมื่อล้มเหลวก็มีผลกระทบที่ทำลายทันที ดังนั้น องค์กรเหล่านี้จึงรีบรวบรวมทรัพยากรทั้งหมดที่มีอยู่ในอาร์เซนอลของตน - ความสามารถของมนุษย์และทุนทรัพย์ - เพื่อเป็นเจ้าของเทคโนโลยีนี้

ในศตวรรษที่ 20 มีเทคโนโลยีสองอย่างที่ตรงกับคำนิยามนี้ คืออาวุธนิวเคลียร์และการสำรวจอวกาศ การแข่งขันในการใช้เทคโนโลยีเหล่านี้เกี่ยวข้องกับประเทศที่มีอำนาจมากที่สุด ความสำเร็จของสหรัฐฯ ในทั้งสองสามารถเซ็มเมนต์สถานะเป็นกำลังอำนาจสุดยอดของโลก นำเข้ายุคที่ไม่เหมือนใคร สำหรับผู้แพ้ - เยอรมันนาซีและสหภาพโซเวียต ผลกระทบที่เกิดขึ้นมีผลร้ายอย่างมาก แม้ในบางครั้งอาจเป็นที่สิ้นสุด

โรงงาน K-25 ขนาดใหญ่ 44 เอเคอร์ในโอ๊คริดจังหวัดเทนเนสซี ประเทศสหรัฐอเมริกา ที่ผลิตยูเรเนียมสำหรับอาวุธนิวเคลียร์ครั้งแรกต้นฉบับ)

ความชนะของอเมริกาเสียเงินมาก. โครงการแมนฮัตตันใช้เงินเกือบ 2 พันล้านดอลลาร์ (ประมาณ 30 พันล้านดอลลาร์ที่ปรับเพื่อความเทียบเท่ากับการเงิน) และจ้างงานกว่า 120,000 คน - คนละคนในพันคนของชาวอเมริกันหนึ่งคน. การแข่งขันอวกาศต้องการทรัพยากรที่มากกว่านั้น. โปรแกรม Apollo ใช้เงิน 28 พันล้านดอลลาร์ในยุค 1960 (ประมาณ 300 พันล้านดอลลาร์ในสกุลเงินปัจจุบัน) และมีผู้ร่วมงานกว่า 400,000 คน - คนละคนใน 490 คนของชาวอเมริกัน. ในยอดสูงสุดของปี 1966 หน่วยงาน NASA ควบคุมงบประมาณของรัฐบาลสหรัฐฯ 4.4% ของงบประมาณทั้งหมด

Apollo 11 กำลังจะขึ้นอวกาศเพื่อภารกิจไปยังดวงจันทร์แหล่งกำเนิด)

การเปิดตัว ChatGPT ในปี 2022 ติดตามเริ่มขึ้นของการแข่งขันใหม่ที่มีสัดส่วนที่เปลี่ยนแปลงสำคัญกับการตามหาปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัยปัจจัย

คราวนี้ผู้เข้าแข่งขันไม่ใช่รัฐบาล (อย่างน้อยก็ยังไม่ใช่ในขณะนี้) แต่เป็นบริษัทที่ใหญ่ที่สุดในโลก (Microsoft, Google, Meta, Amazon), สตาร์ทอัพที่ฮอตที่สุด (OpenAI, Anthropic), และบุคคลที่รวยที่สุด (Elon Musk) ในขณะที่ Big Tech มีทุนทรัพย์ที่ไม่เคยมีมาก่อนในการสร้างพื้นฐานสำหรับการฝึกโมเดลที่มีพลังมากขึ้นอย่างไม่เคยมีมาก่อน สตาร์ทอัพกำลังรักษาrecord-breakingการระดมทุนเวนเชอร์แคปปิตอล อีลอนก็คือทำสิ่งที่ Elon ทำศูนย์ข้อมูลภายใต้การตรวจสอบความปลอดภัยเป็นของบริษัทของเขา xAI)

จากนั้นก็มีคนอื่น ๆ ไม่ว่าจะเป็นองค์กร บริษัท ขนาดเล็กและสตาร์ทอัพที่อาจไม่ปรารถนาที่จะสร้าง ASI แต่กระตือรือร้นที่จะควบคุมความสามารถล้ําสมัยที่ปลดล็อกโดย AI เพื่อเพิ่มประสิทธิภาพธุรกิจของพวกเขาทําลายอุตสาหกรรมหรือสร้างสิ่งใหม่ทั้งหมด รางวัลที่เป็นไปได้นั้นกว้างใหญ่มากจนทุกคนกําลังดิ้นรนเพื่อเรียกร้องส่วนแบ่งจากเศรษฐกิจที่ขับเคลื่อนด้วยเครื่องจักรอัจฉริยะใหม่นี้

หัวใจสําคัญของการปฏิวัติ AI คือองค์ประกอบที่สําคัญที่สุด: หน่วยประมวลผลกราฟิก (GPU) เดิมทีออกแบบมาเพื่อขับเคลื่อนวิดีโอเกมชิปคอมพิวเตอร์เฉพาะนี้ได้กลายเป็นสินค้าที่ร้อนแรงที่สุดในโลก ความต้องการ GPU นั้นล้นหลามจน บริษัท ต่างๆมักอดทน รายชื่อที่ต้องรอนานหลายเดือนเพียงเพื่อซื้อบางส่วน ความต้องการนี้ทำให้ NVIDIA ผู้ผลิตหลักของพวกเขา ได้รับการยิงยาวเข้าไปในตำแหน่งของบริษัทมูลค่าที่สูงที่สุดในโลก

สําหรับธุรกิจที่ไม่สามารถหรือไม่เต็มใจที่จะซื้อ GPU โดยตรงการเช่าพลังการประมวลผลได้กลายเป็นตัวเลือกที่ดีที่สุดต่อไป สิ่งนี้ได้กระตุ้นการเพิ่มขึ้นของผู้ให้บริการคลาวด์ AI ซึ่งเป็น บริษัท ที่ดําเนินงานศูนย์ข้อมูลที่ซับซ้อนซึ่งปรับให้เหมาะกับความต้องการด้านการคํานวณของ AI บูม อย่างไรก็ตามความต้องการที่เพิ่มขึ้นและลักษณะที่คาดเดาไม่ได้หมายความว่าไม่มีการรับประกันราคาหรือความพร้อมใช้งาน

I ถกเถียงว่าสกุลเงินดิจิทัลทำหน้าที่เป็นเทคโนโลยี "Coasian" ที่ออกแบบมาเพื่อ "เจียมของลื่น ปูถนน และเสริมสร้างสะพาน" เพื่อให้นวัตกรรมที่รบกวนเกิดขึ้นได้ ส่วน AI กำลังเกิดขึ้นเป็นแรงกระตุ้นของยุคเรา ความขาดแคลนและค่าใช้จ่ายที่สูงของการเข้าถึง GPU เป็นอุปสรรคของนวัตกรรมหลายราย เจ้าหน้าที่ของซีรีย์คริปโตกำลังเข้ามาแก้ไขปัญหาเหล่านี้ด้วยสิ่งสร้างสรรค์ที่ใช้เทคโนโลยีบล็อกเชน

ในบทความวันนี้เราเริ่มถอยห่างจาก crypto เพื่อตรวจสอบพื้นฐานของโครงสร้างพื้นฐาน AI สมัยใหม่ - เครือข่ายประสาทเทียมเรียนรู้อย่างไรทําไม GPU จึงมีความสําคัญและศูนย์ข้อมูลในปัจจุบันมีการพัฒนาอย่างไรเพื่อตอบสนองความต้องการด้านการคํานวณที่ไม่เคยมีมาก่อน จากนั้นเราจะดําดิ่งสู่โซลูชันการประมวลผลแบบกระจายอํานาจสํารวจว่าพวกเขาสามารถแข่งขันกับผู้ให้บริการแบบดั้งเดิมได้จริงหรือไม่ข้อได้เปรียบที่ไม่เหมือนใครของเครือข่าย crypto ที่นําเสนอและทําไมแม้ว่าพวกเขาจะไม่ให้ AGI แก่เรา แต่ก็ยังจําเป็นต่อการทําให้แน่ใจว่าทุกคนสามารถเข้าถึงประโยชน์ของ AI ได้

เรามาเริ่มต้นด้วยเหตุผลที่ GPUs มีความสำคัญมากในที่แรก

GPUs

นี่คือ David รูปปั้นจากหินอ่อนสูง 17 ฟุต น้ำหนัก 6 ตัน ที่ถูกสร้างขึ้นโดยนักปั้นอัจฉริยะชาวอิตาเลียนของยุค Renaissance ซึ่งแสดงให้เห็นถึงฮีโร่ทางพระคำจากเรื่องราวเกี่ยวกับ David กับ Goliath และถูกพิจารณาว่าเป็นเรื่องสร้างสรรค์สุดยอดเนื่องจากการแสดงตัวอักษรของมนุษย์ที่ไม่มีตำหนิและการใส่ใจอย่างล้ำลึกและรายละเอียด

เหมือนกับปูนหินหลักทั้งหมด ดาวิดเริ่มต้นจากชิ้นหินคาราราขนาดใหญ่ที่ไม่เรียบร้อย ในการเป็นรูปที่ยอดเยี่ยมสุดท้ายของมัน ไมเคิลแองเจโลต้องทำการล้างแรงโดยวิธีการตัดกระจายในหิน โดยเริ่มต้นด้วยการเสียบสีกว้างเพื่อสร้างรูปพื้นฐานของรูปร่างมนุษย์ จากนั้นเขาก้าวหน้าไปสู่รายละเอียดที่สูงขึ้นเรื่อยๆ - เส้นโค้งของกล้ามเนื้อ เส้นเลือดที่ตึงตัว เสียงแสดงออกที่ละเอียดอ่อนในดวงตา ในขณะที่จำเป็น ใช้เวลาสามปีให้ไมเคิลแองเจโลปลดปล่อยเดวิดออกจากหิน

แต่ทำไมถึงพูดถึงรูปปั้นหินอันเก่ากว่าพันปีในบทความเกี่ยวกับ AI?

เช่นเดวิดทุกเครือข่ายประสาทเริ่มต้นเป็นศักยภาพสุด pure - คอลเลคชันของโหนดที่เริ่มต้นด้วยตัวเลขสุ่ม (น้ำหนัก) เช่นเดียวกับบล็อกขนาดใหญ่ของหิน Carrara แบบไม่มีรูปร่าง

โมเดลดิบนี้ถูกป้อนข้อมูลการฝึกอบรมซ้ําๆ ซึ่งเป็นอินสแตนซ์ของอินพุตจํานวนนับไม่ถ้วนที่จับคู่กับเอาต์พุตที่ถูกต้อง จุดข้อมูลแต่ละจุดที่ผ่านเครือข่ายทําให้เกิดการคํานวณหลายพันรายการ ในทุกโหนด (เซลล์ประสาท) การเชื่อมต่อขาเข้าจะคูณค่าอินพุตด้วยน้ําหนักของการเชื่อมต่อรวมผลิตภัณฑ์เหล่านี้และแปลงผลลัพธ์ผ่าน "ฟังก์ชั่นการเปิดใช้งาน" ที่กําหนดความแข็งแรงในการยิงของเซลล์ประสาท

เช่นเดียวกับมิเคลแองจ๊อเลาจะถอยหลังมองผลงานของเขาและให้การประเมินและปรับปรุงระบบปรับปรุงทางประวัติศาสตร์เรียนรู้หลังจากการผ่านไปทางข้างหน้าแต่ละครั้งเครือข่ายเปรียบเทียบผลลัพธ์กับคำตอบที่ถูกต้องและคำนวณขอบเขตของความผิดพลาดของมันผ่านกระบวนการที่เรียกว่า backpropagation มันวัดว่าแต่ละการเชื่อมต่อมีส่วนสําคัญอย่างไรต่อความผิดพลาดและเช่นในการโยธามิเคลแองจ๊อเลาทำการปรับปรุงค่าของมันถ้าการเชื่อมต่อนั้นทําให้การคาดการณ์ผิดพลาดมีผลกระทบลดลง ถ้ามันช่วยให้ได้คําตอบที่ถูกต้องมีผลกระทบเพิ่มขึ้น

เมื่อข้อมูลทั้งหมดผ่านเครือข่าย (เสร็จสิ้นขั้นตอนการเผยแพร่ไปข้างหน้าและข้างหลังหนึ่งขั้นตอนต่อจุดข้อมูล) จะเป็นจุดสิ้นสุดของ "ยุค" กระบวนการนี้ทําซ้ําหลายครั้งโดยแต่ละรอบจะขัดเกลาความเข้าใจของเครือข่าย ในช่วงยุคแรก ๆ การเปลี่ยนแปลงน้ําหนักนั้นน่าทึ่งเนื่องจากเครือข่ายทําการปรับเปลี่ยนในวงกว้างเช่นสิ่วตัวหนาตัวแรก ในยุคต่อมาการเปลี่ยนแปลงจะละเอียดยิ่งขึ้นโดยปรับแต่งการเชื่อมต่อเพื่อประสิทธิภาพสูงสุดเช่นเดียวกับการสัมผัสขั้นสุดท้ายที่ละเอียดอ่อนทําให้รายละเอียดของเดวิดออกมา

ในที่สุด หลังจากการทดลองซ้ำซ้อนหรือซ้ำซ้อนหลายล้านครั้ง โมเดลที่ได้รับการฝึกจะเกิดขึ้น อย่างเดวิดที่ยกย่องในรูปแบบที่สมบูรณ์ของมัน เครือข่ายประสาทเปลี่ยนแปลงจากเสียงรบกวนสุ่มเป็นระบบที่สามารถรู้จำรูปแบบ ทำนาย สร้างภาพของแมวขี่สกู๊ตเตอร์ หรือทำให้คอมพิวเตอร์เข้าใจและตอบสนองภาษามนุษย์ได้

ทำไมใช้ GPU?

ไมเคิลแองเจโลซึ่งทํางานคนเดียวกับเดวิดสามารถตีสิ่วได้ครั้งละหนึ่งครั้งโดยแต่ละครั้งต้องใช้การคํานวณมุมแรงและตําแหน่งที่แม่นยํา ความแม่นยําที่อุตสาหะนี้เป็นเหตุผลว่าทําไมเขาจึงใช้เวลาสามปีอย่างไม่รู้จักเหน็ดเหนื่อยในการทําผลงานชิ้นเอกของเขาให้สําเร็จ แต่ลองนึกภาพประติมากรที่มีทักษะเท่าเทียมกันหลายพันคนทํางานกับเดวิดในการประสานงานที่สมบูรณ์แบบ—ทีมหนึ่งบนลอนผมอีกทีมหนึ่งบนกล้ามเนื้อลําตัวและอีกหลายร้อยคนในรายละเอียดที่ซับซ้อนของใบหน้ามือและเท้า ความพยายามคู่ขนานดังกล่าวจะบีบอัดสามปีนั้นให้เหลือเพียงไม่กี่วัน

อย่างไรก็ตาม ในขณะที่ CPU เป็นทรงพลังและแม่นยำ แต่พวกเขาสามารถทำเพียงหนึ่งการคำนวณในเวลาเดียว การฝึกฝนเครือข่ายประสาทเทียมไม่ต้องการการคำนวณที่ซับซ้อนแต่ต้องการการคูณและการบวกจำนวนแสนล้านที่หลายๆ ครั้งในแต่ละโหนด ตัวอย่างเช่น เครือข่ายประสาทเทียมตัวอย่างที่กล่าวไว้ก่อนหน้านี้ ที่มีเพียง 18 โหนดและประมาณ 100 การเชื่อมต่อ (พารามิเตอร์) สามารถฝึกฝนบน CPU ได้ในเวลาระ reasonable.

อย่างไรก็ตาม โมเดลที่มีกำลังการทำงานที่สุดในปัจจุบัน เช่น GPT-4 ของ OpenAI มีพารามิเตอร์ 1.8 ล้านล้าน! แม้แต่โมเดลขนาดเล็กก็ต้องมีพารามิเตอร์อย่างน้อยหนึ่งพันล้าน การฝึกโมเดลเหล่านี้หนึ่งการคำนวณต่อหนึ่งครั้งจะใช้เวลาหลายศตวรรษ นี่คือสิ่งที่ GPU ทำได้ดี: พวกเขาสามารถทำการคำนวณทางคณิตศาสตร์ที่เรียบง่ายจำนวนมากพร้อมกัน ทำให้เหมาะสำหรับการประมวลผลโหนดของเครือข่ายประสาทหลายๆ โหนดพร้อมกัน

GPU รุ่นล่าสุดของ NVIDIA คือ B200 ประกอบด้วยมากกว่า 200 พันล้านตัวขยายและสนับสนุนการคำนวณแบบขนาน 2,250 ล้านครั้งต่อวินาที (2,250 TFLOPS) กราฟิกการ์ด B200 รุ่นเดียวสามารถจัดการรุ่นที่มีพารามิเตอร์มากถึง 740 พันล้านตัว สิ่งเหล่านี้แสดงให้เห็นถึงความสามารถทางวิศวกรรมที่สูงของยุคปัจจุบัน ซึ่งอธิบายว่าทำไม NVIDIA ได้เห็นการเพิ่มขึ้นของราคาหุ้นมากกว่า 2,500% ในระยะเวลา 5 ปี โดยขายแต่ละหน่วยในราคา 40,000 ดอลลาร์

เจ็นเซ็น ฮวัง นำเสนอ NVIDIA B200

แม้แต่เครื่องจักรที่น่าเกรงขามเหล่านี้ก็ไม่สามารถฝึกโมเดล AI เพียงอย่างเดียวได้ จําได้ว่าในระหว่างการฝึกอบรมอินสแตนซ์ข้อมูลแต่ละรายการจะต้องผ่านโมเดลในรอบไปข้างหน้าและข้างหลังทีละรายการ โมเดลภาษาขนาดใหญ่สมัยใหม่ (LLMs) ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่ครอบคลุมอินเทอร์เน็ตทั้งหมด ตัวอย่างเช่น GPT-4 ประมวลผลโทเค็นประมาณ 12 ล้านล้านโทเค็น (ประมาณ 9 ล้านล้านคํา) และคาดว่าโมเดลรุ่นต่อไปจะรองรับโทเค็นได้มากถึง 100 ล้านล้านโทเค็น การใช้ GPU ตัวเดียวสําหรับข้อมูลปริมาณมหาศาลเช่นนี้ยังคงต้องใช้เวลาหลายศตวรรษ

คำตอบอยู่ในการเพิ่มชั้นของความสามารถในการประยุกต์ใช้พรัอลิซึม-การสร้างกลุ่ม GPU ที่งานฝึกอบรมถูกกระจายไประหว่าง GPU หลายตัวที่ทำงานร่วมกันเป็นระบบเดียวกัน ภารกิจการฝึกโมเดลสามารถถูกแบ่งขึ้นเป็นขั้นตอนได้ในทางที่สาม

Data Parallelism: หลาย GPU แต่ละตัวเก็บรักษาสำเนาแบบเต็มของโมเดลเนอรอลเน็ตเวิร์คในขณะที่ประมวลผลส่วนต่าง ๆ ของข้อมูลการฝึกอบรม แต่ละ GPU ประมวลผลชุดข้อมูลที่ได้รับมอบหมายอิสระกันก่อนที่จะซิงโครไนซ์เป็นระยะเวลาบางครั้งกับ GPU ทั้งหมดอื่น ๆ ในช่วงซิงโครไนเซชันนี้ GPU จะติดต่อสื่อสารกันเพื่อค้นหาค่าเฉลี่ยรวมของน้ำหนักและอัปเดตน้ำหนักแต่ละคนให้เหมือนกัน ด้วยเหตุนี้ GPU จะดำเนินการฝึกอบรมต่อที่ชุดข้อมูลของตัวเองก่อนเวลาที่จะซิงค์อีกครั้ง

เมื่อโมเดลมีขนาดใหญ่ขึ้น การคัดลอกเดียวสามารถกลายเป็นใหญ่เกินไปที่จะพอดีกับหนึ่ง GPU ตัวอย่างเช่น GPU ล่าสุดรุ่น B200 สามารถรองรับเพียง 740 พารามิเตอร์ล้านล้านในขณะที่โมเดล GPT-4 เป็นโมเดลพารามิเตอร์ 1.8 ล้านพันล้าน การแยกข้อมูลข้าม GPU แต่ละตัวไม่สามารถทำงานในกรณีนี้

Tensor Parallelism: วิธีการนี้จัดการกับข้อ จํากัด ของหน่วยความจําโดยการกระจายงานและน้ําหนักของแต่ละเลเยอร์รุ่นผ่าน GPU หลายตัว GPU แลกเปลี่ยนการคํานวณระดับกลางกับคลัสเตอร์ทั้งหมดในระหว่างทุกขั้นตอนการขยายพันธุ์ไปข้างหน้าและข้างหลัง โดยทั่วไปแล้ว GPU เหล่านี้จะถูกจัดกลุ่มในเซิร์ฟเวอร์แปดหน่วย ซึ่งเชื่อมต่อผ่าน NVLink ซึ่งเป็นการเชื่อมต่อระหว่าง GPU-to-GPU โดยตรงความเร็วสูงของ NVIDIA การตั้งค่านี้ต้องใช้แบนด์วิดท์สูง (สูงสุด 400 Gb/s) และการเชื่อมต่อที่มีเวลาแฝงต่ําระหว่าง GPU คลัสเตอร์เทนเซอร์ทําหน้าที่เป็น GPU ขนาดใหญ่ตัวเดียวได้อย่างมีประสิทธิภาพ

การแบ่งการประมวลผลแบบ Pipeline: วิธีนี้แบ่งโมเดลออกเป็นหลาย GPU โดยแต่ละ GPU จะจัดการเลเยอร์ที่กำหนดไว้เฉพาะ ข้อมูลจะไหลผ่าน GPU เหล่านี้ในลำดับสายซึ่งคล้ายกับการวิ่งรีเลย์ที่แต่ละนักวิ่ง (GPU) จัดการส่วนของตนเองก่อนที่จะส่งแถบไปต่อ การแบ่งการประมวลผลแบบ pipeline เป็นวิธีที่มีประสิทธิภาพมากในการเชื่อมต่อเซิร์ฟเวอร์ 8-GPU ต่างๆ ภายในศูนย์ข้อมูลโดยใช้เครือข่าย InfiniBand ความเร็วสูงสำหรับการสื่อสารระหว่างเซิร์ฟเวอร์ แม้ว่าความต้องการในการสื่อสารจะเกินความสามารถของการประมวลผลแบบข้อมูลแบบขนาน แต่มันยังน้อยกว่าการแบ่งการประมวลผลแบบตรีนเซอร์ที่มีการแลกเปลี่ยน GPU อย่างหนัก

ขนาดของคลัสเตอร์ที่ทันสมัยนั้นน่าทึ่งมาก GPT-4 ที่มีพารามิเตอร์ 1.8 ล้าน และชั้น 120 ชั้น ต้องใช้ A100 GPUs จำนวน 25,000 เครื่องในการฝึกอบรม กระบวนการนี้ใช้เวลาสามเดือนและค่าใช้จ่ายเกิน 60 ล้านดอลลาร์ A100 เป็นรุ่นเก่าสองรุ่น; หากใช้ B200 GPUs รุ่นปัจจุบัน จะต้องใช้เพียงประมาณ 8,000 หน่วยและใช้เวลาในการฝึกอบรมเพียง 20 วันเท่านั้น แค่การสาธิตถึงความเร็วของ AI ที่เคลื่อนไหวได้อย่างรวดเร็ว

แต่คลาสของโมเดล GPT-4 นั้นเป็นของเล่นเก่าแล้ว การฝึกอบรมสำหรับรุ่นก้าวหน้าของโมเดลที่มีอยู่ในศูนย์ข้อมูลที่มีในตัวจำนวนมากถึง 100,000 B100 หรือ H100 GPUs (ส่วนหนึ่งเป็นรุ่นก่อนหน้า) กลุ่มเหล่านี้ซึ่งมีมูลค่าเกิน 4 พันล้านเหรียญอเมริกันในการลงทุนใน GPU คือเครื่องคอมพิวเตอร์ที่มีความสามารถที่สูงที่สุดของมนุษย์ สามารถให้พลังคำนวณต่อเนื่องมากถึง 4 เท่าของอุปกรณ์ที่เป็นเจ้าของโดยรัฐบาล

นอกเหนือจากการรักษาความปลอดภัยการประมวลผลดิบแล้วผู้ปรารถนา ASI ยังประสบปัญหาอื่นเมื่อพยายามตั้งค่าคลัสเตอร์เหล่านี้: ไฟฟ้า GPU แต่ละตัวใช้พลังงาน 700W เมื่อคุณรวม 100,000 คลัสเตอร์ทั้งหมด (รวมถึงฮาร์ดแวร์ที่รองรับ) จะใช้พลังงานมากกว่า 150MW การบริโภคนี้เท่ากับเมืองที่มีประชากร 300,000 คน ซึ่งเทียบได้กับนิวออร์ลีนส์หรือซูริก

ความบ้าบอยยังไม่สิ้นที่นี่ ส่วนใหญ่ผู้สมัคร ASI เชื่อว่ากฎหมายเกี่ยวกับการขยายมาตรา—ซึ่งแนะนำว่าประสิทธิภาพของโมเดลจะดีขึ้นอย่างที่คาดการณ์ได้เมื่อขนาดของโมเดล ขนาดของชุดข้อมูล และการคำนวณการฝึกฝนเพิ่มขึ้น—จะยังคงเป็นความจริง แผนการฝึกวิ่งของโมเดลที่มีพลังงานมากขึ้นก็ได้เริ่มมีการดำเนินการแล้ว ถึงปี 2025 คาดว่าค่าใช้จ่ายของแต่ละกลุ่มการฝึกฝนจะเกิน 10 พันล้านดอลลาร์ ถึงปี 2027 เกิน 100 พันล้านดอลลาร์ ขณะที่ตัวเลขเหล่านี้เข้าใกล้กับการลงทุนของรัฐบาลสหรัฐในโปรแกรมอพอลโล จึงเป็นชัดเจนว่าทำไมการบรรลุความสามารถทางปัญญาประดิษฐ์ (ASI) จึงเป็นการแข่งขันที่กำหนดค่าของยุคของเรา

Metrics for models starting GPT-5 are estimations

เนื่องจากการบริโภคไฟฟ้าเพิ่มขึ้นพร้อมกับขนาดของคลัสเตอร์ การรันการฝึกอบรมปีหน้าจะต้องใช้พลังงานกว่า 1GW ขึ้นไป ปีหลังจากนั้น 10GW หรือมากกว่า โดยไม่มีสัญญาณใด ๆ ที่บ่งชี้ถึงการขยายตัวนี้ลดลง คาดว่าศูนย์ข้อมูลจะมีการบริโภคประมาณ 4.5% ของผลิตภัณฑ์โลกโดย 2030. กริดไฟฟ้าที่มีอยู่,กำลังต่อสู้กับความต้องการของโมเดลปัจจุบันแล้วไม่สามารถสร้างพลังงานเพียงพอสำหรับคลัสเตอร์ในอนาคต นี้เป็นคำถามที่สำคัญ: พลังงานนี้จะมาจากที่ไหน? บิ๊กเทคกำลังนำเส้นทางสองทาง

ในระยะยาวทางออกเดียวที่เป็นไปได้คือสําหรับผู้ปรารถนา ASI ในการผลิตไฟฟ้าของตนเอง ด้วยความมุ่งมั่นด้านสภาพภูมิอากาศพลังงานนี้จะต้องมาจากแหล่งพลังงานหมุนเวียน พลังงานนิวเคลียร์โดดเด่นเป็นทางออกหลัก อเมซอน ซื้อเมื่อเร็วๆ นี้ศูนย์ข้อมูลที่มีพลังงานจากโรงไฟฟ้านิวเคลียร์มูลค่า 650 ล้านเหรียญสำหรับ Microsoftได้ว่าจ้างหัวหน้าเทคโนโลยีนิวเคลียร์และฟื้นฟูโรงไฟฟ้า Three Mile Island ที่มีความสำคัญในอดีต. Google มี ได้รับการได้มา หลายตัวของเครื่องกำเนิดพลังงานนิวเคลียร์ขนาดเล็ก จาก Kairos Power ของแคลิฟอร์เนีย Sam Altman จาก OpenAI ได้สนับสนุนสตาร์ทอัพด้านพลังงานอย่าง เฮลิออน, ExowattและOklo.

Microsoft กําลังเปิดโรงงานนิวเคลียร์ Three Mile Island อีกครั้ง (ภาพต้นฉบับ)

ในขณะที่เมล็ดพันธุ์ของพลังงานนิวเคลียร์กําลังถูกหว่านในขณะนี้ผลไม้ (หรือพลังงาน) จะใช้เวลาหลายปีในการแบกรับ แล้วความต้องการพลังงานสําหรับการสร้างโมเดลทันทีล่ะ? โซลูชันชั่วคราวเกี่ยวข้องกับการฝึกอบรมแบบกระจายในศูนย์ข้อมูลหลายแห่ง แทนที่จะมุ่งเน้นความต้องการพลังงานจํานวนมากในที่เดียว บริษัท ต่างๆเช่น Microsoft และ Google กําลังกระจายคลัสเตอร์การฝึกอบรมในหลายไซต์

แน่นอนว่าความท้าทายคือการทำให้ระบบกระจายเหล่านี้ทำงานร่วมกันได้อย่างมีประสิทธิภาพ แม้จะใช้ความเร็วของแสง ข้อมูลก็ใช้เวลาประมาณ 43 มิลลิวินาทีในการเดินทางไปกลับจากทางทิศตะวันออกของสหรัฐฯ ไปยังทางทิศตะวันตก - ซึ่งถือเป็นเวลานานในทางคอมพิวเตอร์อีกด้วย นอกจากนี้หากมีชิปเพียงหนึ่งอันที่ล้าหลังไปอย่างน้อย 10% ก็จะทำให้การรันการฝึกอบรมทั้งหมดช้าลงด้วยอัตราเดียวกัน

โซลูชันนี้อยู่ที่การเชื่อมต่อศูนย์ข้อมูลในหลายไซต์ด้วยเครือข่ายไฟเบอร์ออปติกความเร็วสูงและใช้เทคนิคการขนานที่กล่าวถึงก่อนหน้านี้เพื่อซิงโครไนซ์การทํางาน ความขนานของ Tensor ถูกนําไปใช้กับ GPU ภายในแต่ละเซิร์ฟเวอร์ทําให้สามารถทํางานเป็นหน่วยเดียวได้ ความขนานของไปป์ไลน์ที่มีความต้องการเครือข่ายต่ํากว่าถูกนํามาใช้เพื่อเชื่อมโยงเซิร์ฟเวอร์ภายในศูนย์ข้อมูลเดียวกัน สุดท้ายศูนย์ข้อมูลในสถานที่ต่างๆ (เรียกว่า "เกาะ") จะซิงโครไนซ์ข้อมูลเป็นระยะโดยใช้ความขนานของข้อมูล

ก่อนหน้านี้เราได้ระบุว่าการแบ่งงานข้อมูลไม่ได้มีประสิทธิภาพสำหรับ GPU แต่ละตัวเนื่องจากไม่สามารถรองรับโมเดลขนาดใหญ่ได้อิสระ อย่างไรก็ตาม เมื่อเราทำการแบ่งงานแบบเกาะเกี่ยวกับเกาะที่มีหลายพันหน่วยประมวลผล การฝึกอบรมข้อมูลถูกกระจายในแต่ละเกาะ และเกาะเหล่านี้จะทำการซิงโครไนซ์อย่างเป็นระยะห่างในการเชื่อมต่อใยแก้วออพติกที่สัมพันธ์เร็วกว่า (เมื่อเทียบกับ NVLink และ Infiniband)

ศูนย์ข้อมูล

เรามาเปลี่ยนศูนย์รวมใจความสนใจของเราจากการฝึกอบรมและหน่วยประมวลผลกราฟิก (GPU) ไปยังศูนย์ข้อมูลเอง

เมื่อยี่สิบปีที่แล้ว Amazon ได้เปิดตัว Amazon Web Services (AWS) ซึ่งเป็นหนึ่งในธุรกิจที่มีการเปลี่ยนแปลงมากที่สุดในประวัติศาสตร์ และสร้างอุตสาหกรรมใหม่ทั้งหมดที่เรียกว่าการประมวลผลบนระบบคลาวด์ ผู้นําระบบคลาวด์ในปัจจุบัน (Amazon, Microsoft, Google และ Oracle) มีอํานาจเหนือกว่าอย่างสะดวกสบาย โดยสร้างรายได้รวมต่อปีเกือบ 300 พันล้านดอลลาร์โดยมีอัตรากําไรขั้นต้น 30-40% ตอนนี้การเกิดขึ้นของ AI ได้สร้างโอกาสใหม่ ๆ ในตลาดที่ยังคงมีอํานาจเป็นส่วนใหญ่มานานหลายปี

ความต้องการทางกายภาพ ความซับซ้อนทางเทคนิค และเศรษฐศาสตร์ของศูนย์ข้อมูล AI ที่ใช้ GPU มีความแตกต่างอย่างมากจากเครื่องกลางทั่วไป

เราได้พูดคุยกันก่อนหน้านี้ว่า GPU ที่หิวพลังงานเป็นอย่างไร สิ่งนี้ทําให้ศูนย์ข้อมูล AI มีความหนาแน่นของพลังงานมากขึ้นและทําให้เกิดความร้อนมากขึ้น ในขณะที่ศูนย์ข้อมูลแบบดั้งเดิมใช้พัดลมขนาดยักษ์ (การระบายความร้อนด้วยอากาศ) เพื่อกระจายความร้อน แต่วิธีการนี้ไม่เพียงพอหรือมีศักยภาพทางการเงินสําหรับสิ่งอํานวยความสะดวก AI ศูนย์ข้อมูล AI กําลังใช้ระบบระบายความร้อนด้วยของเหลวที่บล็อกน้ํายึดติดกับ GPU และส่วนประกอบร้อนอื่น ๆ โดยตรงเพื่อกระจายความร้อนได้อย่างมีประสิทธิภาพและเงียบกว่า (B200 GPU มาพร้อมกับสถาปัตยกรรมในตัว) การสนับสนุนระบบระบายความร้อนด้วยของเหลวจําเป็นต้องเพิ่มหอทําความเย็นขนาดใหญ่สิ่งอํานวยความสะดวกระบบน้ําแบบรวมศูนย์และท่อเพื่อขนส่งน้ําไปและกลับจาก GPU ทั้งหมดซึ่งเป็นการปรับเปลี่ยนพื้นฐานในโครงสร้างพื้นฐานของศูนย์ข้อมูล

นอกจากการบริโภคพลังงานสูงสุดแล้ว ศูนย์ข้อมูล AI มีความต้องการในการโหลดที่แตกต่าง ในขณะที่ศูนย์ข้อมูลแบบดั้งเดิมรักษาการบริโภคพลังงานที่สามารถทำนายได้ AI มีแบบแบรนด์ในการใช้พลังงานของโหลดที่หลากหลายมากขึ้น ความผันผวนนี้เกิดขึ้นเพราะ GPU ทำการสลับโลกอย่างสม่ำเสมอระหว่างการทำงานที่ 100% และการลดลงเกือบหยุดเมื่อการฝึกอบรมถึงจุดสำคัญ ที่นั่นน้ำหนักจะถูกเก็บไว้ที่หน่วยความจำหรือเช่นเดียวกับที่เราเห็นก่อนหน้านี้ ถูกปรับปรุงกับเกาะอื่น ๆ ศูนย์ข้อมูล AI ต้องการโครงสร้างพลังงานที่เชี่ยวชาญเพื่อจัดการกับความผันผวนของโหลดเหล่านี้

การสร้างคลัสเตอร์ GPU นั้นยากกว่าการสร้างคลาวด์คอมพิวเตอร์ทั่วไปมาก GPU ต้องพูดคุยกันอย่างรวดเร็ว เพื่อให้สิ่งนี้เกิดขึ้นพวกเขาจะต้องบรรจุไว้ใกล้กันมาก สิ่งอํานวยความสะดวก AI ทั่วไปต้องการสายเคเบิลพิเศษมากกว่า 200,000 สายที่เรียกว่าการเชื่อมต่อ InfiniBand สายเคเบิลเหล่านี้ช่วยให้ GPU สื่อสารได้ หากสายเคเบิลเพียงเส้นเดียวหยุดทํางานระบบทั้งหมดจะปิดตัวลง กระบวนการฝึกอบรมไม่สามารถดําเนินต่อไปได้จนกว่าสายเคเบิลนั้นจะได้รับการแก้ไข

ข้อกําหนดด้านโครงสร้างพื้นฐานเหล่านี้ทําให้แทบจะเป็นไปไม่ได้เลยที่จะปรับปรุงศูนย์ข้อมูลแบบดั้งเดิมด้วย GPU ประสิทธิภาพสูงเพื่อให้พร้อมใช้งาน AI การอัพเกรดดังกล่าวจะต้องมีการยกเครื่องโครงสร้างเกือบสมบูรณ์ บริษัทต่างๆ กําลังสร้างศูนย์ข้อมูลใหม่ที่ออกแบบมาโดยเฉพาะสําหรับ AI ตั้งแต่ต้น โดยองค์กรต่างๆ กําลังดําเนินการในระดับที่แตกต่างกัน

บริษัทเทคโนโลยีชั้นนํากําลังแข่งกันสร้างศูนย์ข้อมูล AI ของตนเอง Meta กําลังลงทุนอย่างมากในสิ่งอํานวยความสะดวกเพื่อการพัฒนา AI ของตัวเองโดยถือว่าเป็นการลงทุนโดยตรงเนื่องจากไม่มีบริการคลาวด์ Microsoft กําลังสร้างศูนย์ขนาดใหญ่ในทํานองเดียวกันเพื่อขับเคลื่อนทั้งโครงการ AI ของตัวเองและให้บริการลูกค้าหลักเช่น OpenAI ออราเคิลยังได้เข้าสู่พื้นที่นี้อย่างจริงจังโดยรักษาความปลอดภัย OpenAI ในฐานะลูกค้าที่มีชื่อเสียง Amazon ยังคงขยายโครงสร้างพื้นฐานอย่างต่อเนื่องโดยเฉพาะอย่างยิ่งเพื่อสนับสนุน บริษัท AI ที่เกิดขึ้นใหม่เช่น Anthropic xAI ของ Elon Musk ไม่ต้องการพึ่งพา บริษัท อื่นเลือกที่จะสร้างคลัสเตอร์ GPU 100,000 ของตัวเอง

ภายในศูนย์ข้อมูล GPU 100,000 H100 ของ xAI (แหล่งที่มา)

พร้อมกับผู้ครองตำแหน่งที่เป็นปัจจุบัน “neoclouds” กำลังเกิดขึ้น - ผู้ให้บริการคลาวด์ที่เชี่ยวชาญเฉพาะเรื่องในการคำนวณ GPU สำหรับหน้าที่การทำงานทางด้าน AI พวกเหล่านี้หารือกันเป็นสองหมวดหมู่ที่แตกต่างกันตามขนาด

โฮสต์คลาวด์ขนาดใหญ่รวมถึง CoreWeave, ครูโซ, และ LLama Labsใช้งานคลัสเตอร์ GPU มากกว่า 2,000 ตัว พวกเขาสร้างความแตกต่างจากบริการคลาวด์แบบดั้งเดิมในสองวิธี: นําเสนอโซลูชันโครงสร้างพื้นฐานที่กําหนดเองแทนที่จะเป็นแพ็คเกจมาตรฐานและต้องใช้ภาระผูกพันระยะยาวกับลูกค้าแทนการจัดการแบบจ่ายต่อการใช้งาน

แบบจำลองธุรกิจของพวกเขาใช้สัญญายาวนานเหล่านี้และความสามารถในการชำระหนี้ของลูกค้าเพื่อรับการจัดการเงินสำหรับโครงสร้างพื้นฐาน รายได้เกิดจากอัตราพรีเมียมที่เรียกเก็บสำหรับบริการที่เชี่ยวชาญ และกำไรจากการแบ่งแยกระหว่างต้นทุนการจัดการเงินที่ต่ำกับการชำระเงินของลูกค้า

นี่คือวิธีที่ระบบการจัดการแบบนี้ทำงานโดยปกติ: ผู้ให้บริการเนโอคลาวด์รับสัญญา 3 ปีกับ AI startup ที่มีทุนเงินมาก 10,000 H100 GPUs ในราคา 40 ล้านดอลลาร์ต่อเดือน โดยใช้การทำรายได้ที่รับประกันนี้ 1.44 พันล้านดอลลาร์ ผู้ให้บริการจะได้รับเงินทุนเงินฝากที่เป็นที่รับรองจากธนาคาร (ดอกเบี้ย 6%) เพื่อซื้อและติดตั้งโครงสร้างพื้นฐานมูลค่า 700 ล้านดอลลาร์ รายได้ต่อเดือน 40 ล้านดอลลาร์ครอบคลุมค่าใช้จ่ายในการดำเนินงาน 10 ล้านดอลลาร์และการชำระเงินกู้ยืม 20 ล้านดอลลาร์ ทำให้ได้รายได้สุทธิต่อเดือน 10 ล้านดอลลาร์ในขณะที่ startup ได้รับพลังการคำนวณที่กำหนดแบบกำหนดเองแบบที่พิเศษ

โมเดลนี้ต้องการการเลือกลูกค้าที่ระมัดระวังอย่างยิ่ง ผู้ให้บริการโดยทั่วไปมองหา บริษัทที่มีเงินสดสำรองมากหรือมีการสนับสนุนทุนอันแข็งแกร่ง - โดยทั่วไปมีการประเมินมูลค่า 500 ล้านเหรียญสหรัฐหรือมากกว่า

เมฆเน็ตที่เล็กน้อยนี้ให้สร้างกลุ่ม GPU ที่มีขนาดไม่เกิน 2,000 เครื่องและเป็นเป้าหมายสำหรับกลุ่มตลาด AI ขนาดเล็กและขนาดกลาง - ระดับธุรกิจเริ่มต้นขนาดเล็กและกลาง บริษัทเหล่านี้จะฝึกฝนโมเดลที่เล็กกว่า (ไม่เกิน 70 พันล้านพารามิเตอร์) หรือปรับแต่งโมเดลโอเพ่นซอร์ส (ปรับแต่งเป็นกระบวนการปรับแต่งโมเดลพื้นฐานให้เข้ากับกรณีการใช้งานที่เฉพาะเจาะจง) ทั้งสองข้อมูลที่ต้องการความสามารถในการคำนวณที่เหมาะสมแต่มีระยะเวลาสั้น

ผู้ให้บริการเหล่านี้มีการให้บริการคอมพิวเตอร์ตามคำสั่งพร้อมอัตราค่าบริการรายชั่วโมงสำหรับการเข้าถึงคลัสเตอร์โดยไม่มีการหยุดพักนาน. แม้ว่าราคานี้จะสูงกว่าสัญญาในระยะยาว แต่มันช่วยให้ธุรกิจรุ่นเริ่มต้นสามารถทดลองโดยไม่ต้องยึดติดกับข้อตกลงที่มีมูลค่าหลายล้านดอลลาร์

สุดท้ายแล้ว นอกจากผู้ให้บริการคลาวด์และผู้ให้บริการเมฆรุ่นใหม่ เรายังมีผู้แทนคนกลางในพื้นที่โครงสร้างพื้นฐาน AI: แพลตฟอร์มและผู้รวมรวม ผู้แทนนี้ไม่ครอบครองโครงสร้าง GPU แต่เชื่อมต่อเจ้าของทรัพยากรคำนวณกับผู้ที่ต้องการเขาใช้

ผู้ให้บริการพื้นที่เช่น HydraHost และ Fluidstackบริการเป็น Shopify ของการคำนวณ GPU ทุกอย่างเช่น Shopify ช่วยให้ผู้ขายสามารถเริ่มต้นร้านค้าออนไลน์โดยไม่ต้องสร้างโครงสร้างการค้าออนไลน์เหล่านี้ช่วยให้ผู้ดำเนินศูนย์ข้อมูลและเจ้าของ GPU สามารถให้บริการคำนวณโดยไม่ต้องพัฒนาอินเตอร์เฟซลูกค้าของตนเองพวกเขาให้บริการแพคเกจเทคนิคเต็มรูปแบบสำหรับการดำเนินธุรกิจคำนวณ GPU รวมถึงเครื่องมือการจัดการโครงสร้างระบบจัดจำหน่ายลูกค้าและโซลูชันการเรียกเก็บเงิน

Marketplace aggregators like Vast.aifunction ในโลก GPU เหมืองแร่ที่เป็นเสมือนเป็น Amazon พวกเขาสร้างตลาดที่รวมการเสนอขายความสามารถในการคำนวณที่หลากหลายจากผู้ให้บริการต่าง ๆ - ตั้งแต่การ์ด RTX รุ่นใช้งานทั่วไปไปจนถึง GPU H100 รุ่นมืออาชีพ เจ้าของ GPU รายการทรัพยากรของพวกเขาพร้อมกับเมตริกประสิทธิภาพและคะแนนความเชื่อถืออย่างละเอียด ส่วนลูกค้าซื้อเวลาคำนวณผ่านแพลตฟอร์มเซลฟ์เซอร์วิส

การอ่านความหมาย

จนถึงตอนนี้การอภิปรายของเรามุ่งเน้นไปที่รูปแบบการฝึกอบรม (หรือการปรับแต่ง) อย่างไรก็ตาม เมื่อผ่านการฝึกอบรมแล้ว จะต้องปรับใช้โมเดลเพื่อให้บริการแก่ผู้ใช้ปลายทาง ซึ่งเป็นกระบวนการที่เรียกว่าการอนุมาน ทุกครั้งที่คุณแชทกับ ChatGPT คุณกําลังใช้ GPU ที่เรียกใช้ปริมาณงานการอนุมานที่ป้อนข้อมูลของคุณและสร้างการตอบสนองของโมเดล ลองกลับไปพูดถึงรูปปั้นหินอ่อนสักนาที

นี่ยังเป็นเดวิด—ไม่ใช่ต้นฉบับของไมเคิลแองเจโล แต่เป็นปูนปลาสเตอร์ที่พระราชินีวิกตอเรียมอบหมายในปี 1857 สําหรับพิพิธภัณฑ์วิคตอเรียแอนด์อัลเบิร์ตในลอนดอน ในขณะที่ Michelangelo ใช้เวลาสามปีในการบิ่นหินอ่อนอย่างระมัดระวังเพื่อสร้างต้นฉบับในฟลอเรนซ์การหล่อปูนปลาสเตอร์นี้ทําจากแม่พิมพ์โดยตรงของรูปปั้นซึ่งทําซ้ําทุกโค้งมุมและรายละเอียดที่ Michelangelo สร้างขึ้นอย่างสมบูรณ์แบบ งานสร้างสรรค์ที่เข้มข้นเกิดขึ้นครั้งเดียว หลังจากนั้นก็กลายเป็นเรื่องของการจําลองคุณสมบัติเหล่านี้อย่างซื่อสัตย์ วันนี้แบบจําลองของเดวิดปรากฏทุกที่ตั้งแต่ห้องโถงพิพิธภัณฑ์ไปจนถึงลานคาสิโนลาสเวกัส

นี่คือวิธีการแปลงความคิดให้เป็นสิ่งที่เป็นไปได้ใน AI การฝึกโมเดลภาษาขนาดใหญ่เหมือนกระบวนการสร้างรูปปั้นของไมเคิลแองเจโลราวกับกระบวนการที่ใช้เวลานานและใช้ทรัพยากรมาก โมเดลจะเรียนรู้รูปร่างที่ถูกต้องของภาษาผ่านการปรับเปลี่ยนเล็ก ๆ น้อย ๆ ล้านครั้ง แต่การใช้โมเดลที่ฝึกเรียนแล้ว (การแปลงความคิด) เหมือนการสร้างสำเนา การสนทนากับ ChatGPT คุณไม่ได้สอนภาษาให้เรียนรู้ตั้งแต่ต้นแต่ใช้สำเนาของโมเดลที่พารามิเตอร์ (เช่นเส้นโค้งและมุมของเดวิด) ถูกปรับปรุงแล้ว

ปริมาณงานการอนุมานแตกต่างจากการฝึกอบรมโดยพื้นฐาน ในขณะที่การฝึกอบรมต้องใช้คลัสเตอร์ขนาดใหญ่และหนาแน่นของ GPU ล่าสุดเช่น H100s เพื่อจัดการกับการคํานวณที่เข้มข้นการอนุมานสามารถทํางานบนเซิร์ฟเวอร์ GPU เดียวโดยใช้ฮาร์ดแวร์รุ่นเก่าเช่น A100s หรือแม้แต่การ์ดระดับผู้บริโภคทําให้คุ้มค่ากว่ามาก ดังที่กล่าวไว้ปริมาณงานการอนุมานมีความต้องการเฉพาะของตนเอง:

  • ความครอบคลุมทางภูมิศาสตร์ที่กว้างขวาง: โมเดลจําเป็นต้องปรับใช้ในศูนย์ข้อมูลหลายแห่งทั่วโลกเพื่อให้แน่ใจว่าผู้ใช้ในสิงคโปร์จะได้รับการตอบสนองอย่างรวดเร็วเช่นเดียวกับผู้ใช้ในซานฟรานซิสโก
  • High uptime: ไม่เหมือนการฝึกอบรมที่สามารถหยุดและดำเนินการต่อได้ การใช้ทำนายจำเป็นต้องพร้อมใช้งานตลอด 24/7 เนื่องจากผู้ใช้คาดหวังการตอบสนองทันทีตลอดเวลา
  • ความไม่จำเป็น: ต้องมีเซิร์ฟเวอร์หลายเครื่องที่พร้อมรับมือคำขอในกรณีที่บางเครื่องล้มเหลวหรือเกินพลัง

คุณลักษณะเหล่านี้ทําให้ปริมาณงานการอนุมานเหมาะสําหรับรูปแบบการกําหนดราคาเฉพาะจุด ภายใต้การกําหนดราคาแบบสปอตทรัพยากร GPU มีส่วนลดมากมายซึ่งมักจะต่ํากว่าอัตราตามความต้องการ 30-50% ด้วยความเข้าใจว่าบริการอาจหยุดชั่วคราวเมื่อลูกค้าที่มีลําดับความสําคัญสูงกว่าต้องการทรัพยากร รุ่นนี้เหมาะกับการอนุมานเนื่องจากการปรับใช้ที่ซ้ําซ้อนช่วยให้ปริมาณงานเปลี่ยนไปเป็น GPU ที่พร้อมใช้งานได้อย่างรวดเร็วหากถูกขัดจังหวะ

ในที่สุดก็มาถึงจุดนี้ เมื่อเรามีการใช้งาน GPUs และ AI cloud computing อย่างแท้จริง ตอนนี้เรามีโอกาสเริ่มสำรวจว่าคริปโตสกุลจะเข้ามาเล่นบทบาทในสิ่งเหล่านี้อย่างไร มาเริ่มกันเถอะ

ที่สิ่งที่เกี่ยวข้องกับคริปโต

โครงการและรายงานบ่อยครั้งอ้างอิงถึงการสังเกตของ Peter Thiel ที่ว่า "AI กำลังกลายเป็นศูนย์กลาง ส่วนคริปโตกำลังกลายเป็นศูนย์กลาง" เมื่อพูดถึงบทบาทของคริปโตในการฝึก AI ในขณะที่คำกล่าวของ Thiel เป็นความจริงที่ไม่สามารถเสี่ยงทายได้ แต่เราเพิ่งเห็นหลักฐานที่เพียงพอเกี่ยวกับความได้เปรียบของ Big Tech ในการฝึก AI ที่มักถูกนำมาใช้ผิดให้เสียงเสียงว่าคริปโตและคอมพิวเตอร์ที่กระจายเป็นสิ่งที่เสนอตัวเลือกหลักในการตอบสนองต่ออิทธิพลของ Big Tech

คำอ้างเหตุเช่นนี้กล่าวถึงความเกินความจริงเกี่ยวกับความเป็นไปได้ของสกุลเงินดิจิตอลในการเปลี่ยนแปลงสื่อสังคม เกม และอุตสาหกรรมอื่น ๆ ได้ยินมากมายแล้ว ไม่เพียงเป็นการเสียเวลาแต่ยังรู้สึกไม่เป็นทางการ และจริงไปตามที่ฉันจะอธิบายในไม่ช้าก็ยังไม่เป็นไปได้ - อย่างน้อยในระยะสั้น

ฉันจะใช้แนวทางในทางปฏิบัติมากขึ้น ฉันจะสมมติว่าสตาร์ทอัพ AI ที่กําลังมองหาการประมวลผลไม่สนใจหลักการของการกระจายอํานาจหรือการต่อต้านทางอุดมการณ์กับ Big Tech แต่พวกเขามีปัญหา - พวกเขาต้องการเข้าถึงการประมวลผล GPU ที่เชื่อถือได้ด้วยต้นทุนที่ต่ําที่สุด หากโครงการ crypto สามารถให้ทางออกที่ดีกว่าสําหรับปัญหานี้มากกว่าทางเลือกที่ไม่ใช่ crypto พวกเขาจะใช้มัน

ด้วยเหตุนี้เรามาเข้าใจก่อนว่าโครงการที่ใช้เทคโนโลยีเช่นนี้แข่งขันกับใคร ก่อนหน้านี้เราได้พูดถึงหมวดหมู่ต่าง ๆ ของผู้ให้บริการคลาวด์ AI—Big Tech และ hyperscalers, big neoclouds, small neoclouds, ผู้ให้บริการแพลตฟอร์มและตลาด

สารตั้งต้นของการคำนึงถึงการคำนวณแบบกระจาย (เช่นโครงการ DePIN ทั้งหมด) คือตลาดคำนวณปัจจุบันทำงานได้ไม่เป็นประสบการณ์เต็มที่ ความต้องการ GPU ยังคงสูงอย่างมากในขณะที่มีการจัดหาที่แยกจากกันและไม่ได้ใช้งานในศูนย์ข้อมูลทั่วโลกและบ้านส่วนตัว โครงการส่วนใหญ่ในกลุ่มนี้แข่งขันโดยตรงกับตลาดโดยรวบรวมการจัดหาที่แพร่กระจายนี้เพื่อลดความไม่ได้เป็นประสิทธิภาพ

With that established, let’s look at how these projects (and compute marketplaces in general) can aid with different AI workloads—training, fine-tuning and inference.

การฝึกอบรม

อันดับแรก ไม่ อาศิตจะไม่ถูกฝึกฝนบนเครือข่ายที่กระจายอยู่ทั่วโลกของหน่วยประมวลผลกราฟิกส่วนตัว อย่างน้อยก็ไม่ในเส้นทางปัจจุบันของ AI นี่คือเหตุผล

เราได้พูดถึงความใหญ่ของกลุ่มโมเดลพื้นฐานที่กำลังเพิ่มขึ้นเรื่อย ๆ คุณต้องใช้ GPU ที่มีประสิทธิภาพสูงสุด 100,000 ตัวในโลกเพื่อเริ่มการแข่งขัน จำนวนนี้เพิ่มขึ้นเรื่อย ๆ ในทุก ๆ ปี โดยภายในปี 2026 คาดว่าต้นทุนของการฝึกอาจเกิน 100 พันล้านดอลลาร์ ต้องใช้ GPU หรือมากกว่าหนึ่งล้านตัวอาจจะจำเป็น

บริษัทเทคโนโลยีใหญ่ที่ได้รับการสนับสนุนจากเนโอคลาวด์ระดับใหญ่และมีพันธมิตรของ Nvidia ที่ตรงไปตรงมาเท่านั้นที่สามารถรวมกลุ่มคอมพิวเตอร์ขนาดใหญ่นี้ได้ โดยจำไว้ว่าเรากำลังแข่งขันสำหรับ ASI และผู้เข้าร่วมทั้งหมดมีแรงจูงใจและทุนทรัพย์มากเพียงพอ หากมีการผลิต GPU มากเพียงพอ (ซึ่งไม่มี) พวกเขาจะเป็นผู้แรกที่ได้รับการจัดหาใช้งาน

แม้ว่าโครงการ crypto จะรวบรวมการประมวลผลที่จําเป็น แต่อุปสรรคพื้นฐานสองประการก็ป้องกันการพัฒนา ASI แบบกระจายอํานาจ:

ประการแรก GPU ยังคงต้องเชื่อมต่อในคลัสเตอร์ขนาดใหญ่เพื่อให้ทํางานได้อย่างมีประสิทธิภาพ แม้ว่ากลุ่มเหล่านี้จะถูกแบ่งระหว่างเกาะในเมือง พวกเขาจะต้องเชื่อมต่อกันด้วยสายไฟเบอร์ออปติกเฉพาะ สิ่งเหล่านี้ไม่สามารถทําได้ในสภาพแวดล้อมแบบกระจายอํานาจ นอกเหนือจากการจัดซื้อ GPU แล้ว การจัดตั้งศูนย์ข้อมูลที่พร้อมสําหรับ AI ยังต้องการการวางแผนอย่างพิถีพิถัน ซึ่งโดยปกติจะเป็นกระบวนการหนึ่งถึงสองปี (xAI ทําได้ในเวลาเพียง 122 วัน แต่ไม่น่าเป็นไปได้ที่ Elon จะเปิดตัวโทเค็นในเร็ว ๆ นี้)

เพียงแค่สร้างศูนย์ข้อมูล AI ก็ไม่เพียงพอที่จะเกิด AI ที่มีความฉลาดเหนือมนุษย์ เช่น ผู้ก่อตั้ง Anthropic Dario Amodeirecently explainedการปรับขนาดใน AI นั้นคล้ายคลึงกับปฏิกิริยาเคมี เช่นเดียวกับปฏิกิริยาทางเคมีที่ต้องใช้รีเอเจนต์หลายตัวในสัดส่วนที่แม่นยําเพื่อดําเนินการต่อการปรับขนาด AI ที่ประสบความสําเร็จนั้นขึ้นอยู่กับส่วนผสมสําคัญสามอย่างที่เติบโตร่วมกัน: เครือข่ายที่ใหญ่ขึ้นเวลาในการฝึกอบรมที่ยาวนานขึ้นและชุดข้อมูลที่ใหญ่ขึ้น หากคุณปรับขนาดองค์ประกอบหนึ่งโดยไม่มีองค์ประกอบอื่นกระบวนการจะหยุดทํางาน

แม้ว่าเราจะจัดการเพื่อสะสมทั้งการประมวลผลและทําให้คลัสเตอร์ทํางานร่วมกัน แต่เราก็ยังต้องการข้อมูลคุณภาพสูงหลายเทราไบต์เพื่อให้โมเดลที่ผ่านการฝึกอบรมนั้นดี หากไม่มีแหล่งข้อมูลที่เป็นกรรมสิทธิ์ของ Big Tech เงินทุนในการเขียนข้อตกลงมูลค่าหลายล้านดอลลาร์กับฟอรัมออนไลน์และสื่อหรือรูปแบบที่มีอยู่เพื่อสร้างข้อมูลสังเคราะห์การได้รับข้อมูลการฝึกอบรมที่เพียงพอเป็นไปไม่ได้

มีการคาดเดาในช่วงปลายว่ากฎหมายการปรับขนาดอาจสูงโดย LLM อาจกระทบเพดานประสิทธิภาพ บางคนตีความว่านี่เป็นการเปิดสําหรับการพัฒนา AI แบบกระจายอํานาจ อย่างไรก็ตาม สิ่งนี้มองข้ามปัจจัยสําคัญ—ความเข้มข้นของพรสวรรค์ บริษัท Big Tech และห้องปฏิบัติการ AI ในปัจจุบันเป็นที่ตั้งของนักวิจัยชั้นนําของโลก เส้นทางทางเลือกที่ก้าวหน้าไปยัง AGI มีแนวโน้มที่จะโผล่ออกมาจากศูนย์เหล่านี้ เมื่อพิจารณาถึงภูมิทัศน์การแข่งขันการค้นพบดังกล่าวจะยังคงได้รับการปกป้องอย่างใกล้ชิด

พิจารณาทุกข้อเท็จจริงเหล่านี้ ฉันมั่นใจ 99.99% ว่าการฝึกอบรม ASI หรือแม้กระทั่งโมเดลที่ทรงพลังที่สุดในโลก จะไม่ได้รับการฝึกอบรมบนโครงการคำนวณแบบกระจาย ในกรณีนั้น โมเดลอะไรบ้างที่เงินดิจิทัลจริงจังสามารถช่วยฝึกอบรมได้บ้าง

เพื่อให้โมเดลสามารถถูกฝึกฝนระหว่างกลุ่ม GPU ที่แตกต่างกันทางภูมิภาค เราจำเป็นต้องใช้การกระจายข้อมูลระหว่างพวกเขา (จำได้ว่าการกระจายข้อมูลคือวิธีที่เกี่ยวกับเกาะต่าง ๆ ของ GPU ที่ทำงานกับชุดข้อมูลการฝึกฝนที่แตกต่างกัน จะตั้งค่ากับกัน) โมเดลที่ถูกฝึกฝนมากขึ้นจะต้องมีปริมาณข้อมูลที่ต้องแลกเปลี่ยนกันมากขึ้น เช่นเดียวกับที่เราได้พูดถึง สำหรับโมเดลอันยิ่งใหญ่ที่มีพารามิเตอร์เกินหนึ่งล้านล้าน การแบนด์วิดท์ที่ต้องการจะมากพอที่จะต้องใช้การเชื่อมต่อไฟเบอร์ออปติกที่ไว้วางการใช้งาน

อย่างไรก็ตามสำหรับโมเดลขนาดเล็ก ความต้องการแบนด์วิดท์จะลดลงตรงไปตรงมา ความก้าวหน้าล่าสุดในอัลกอริทึมการฝึกอบรมที่ใช้การสื่อสารต่ำ โดยเฉพาะในการฝึกอบรมแบบเลื่อนการประสานเวลาได้เป็นโอกาสที่มีความมั่นใจสำหรับการฝึกอบรมโมเดลขนาดเล็กถึงกลางขนาดในลักษณะที่กระจายอย่างแบ่งเบา ทีมงานสองทีมเป็นผู้นำในการพยายามทดลองเหล่านี้

Nous Researchเป็นบริษัทเร่งความเร็ว AI และเป็นผู้เล่นใหญ่ในการพัฒนา AI โอเพนซอร์ส พวกเขาเป็นที่รู้จักดีสำหรับชุดโมเดลภาษา Hermes และโครงการนวัตกรรมเช่น World Sim ในช่วงต้นปีนี้พวกเขาให้บริการซับเน็ต LLM-ranking BitTensor เป็นเวลาไม่กี่เดือน พวกเขาได้ลอยน้ำเข้าสู่การคำนวณแบบกระจายโดยการเปิดเผยDisTrOโครงการ Distributed Training Over the Internet ที่พวกเขาสามารถฝึกฝนโมเดล Llama-2 ที่มีพารามิเตอร์ 1.2 พันล้านได้อย่างประสบความสำเร็จโดยลดความต้องการแบนด์วิดท์ระหว่าง GPU ลงถึง 857 เท่า

รายงาน DisTrO โดย Nous Research

Prime Intellectซึ่งเป็นสตาร์ทอัพที่พัฒนาโครงสร้างพื้นฐานสําหรับ AI แบบกระจายอํานาจในวงกว้าง โดยมีเป้าหมายเพื่อรวบรวมทรัพยากรการประมวลผลทั่วโลกและเปิดใช้งานการฝึกอบรมร่วมกันของโมเดลที่ล้ําสมัยผ่านระบบแบบกระจาย ของพวกเขา โครงสร้าง OpenDiLoCo (การนำมาใช้ของ DeepMind วิธีการกระจายการสื่อสารที่ต่ำ) ฝึกอบรมสำเร็จโมเดลพารามิเตอร์หนึ่งพันล้านตัวข้างทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวนทวน 90-95% การใช้โปรแกรม

แต่การฝึกอบรมแบบกระจายทำงานอย่างไร?

ความขนานของข้อมูลแบบดั้งเดิมต้องใช้ GPU ในการแบ่งปันและเฉลี่ยน้ําหนักหลังจากทุกขั้นตอนการฝึกอบรมซึ่งเป็นไปไม่ได้ผ่านการเชื่อมต่ออินเทอร์เน็ต แต่โครงการเหล่านี้ปล่อยให้แต่ละ "เกาะ" ของ GPU ฝึกอย่างอิสระเป็นเวลาหลายร้อยขั้นตอนก่อนที่จะซิงโครไนซ์ ลองนึกถึงทีมวิจัยอิสระที่ทํางานในโครงการเดียวกัน: แทนที่จะตรวจสอบซึ่งกันและกันอย่างต่อเนื่องพวกเขาก้าวหน้าอย่างมีนัยสําคัญอย่างอิสระก่อนที่จะแบ่งปันสิ่งที่ค้นพบ

DisTrO และ OpenDiLoCo ซิงค์เฉพาะทุก 500 ขั้นตอนเท่านั้น โดยใช้วิธีการทำเพิ่มเติมสองตัวเลือก:

  • เครื่องมือเพิ่มประสิทธิภาพ "ภายใน" ที่จัดการการอัปเดตในเครื่องของ GPU แต่ละตัว เช่น ทีมทําการค้นพบในท้องถิ่น
  • เครื่องมือเพิ่มประสิทธิภาพ "ด้านนอก" ที่จัดการการซิงค์เป็นระยะระหว่าง GPU โดยทําหน้าที่เป็นผู้ประสานงานที่นําสิ่งที่ค้นพบทั้งหมดมารวมกัน

เมื่อพวกเขาซิงค์กัน ไม่ใช่การแบ่งปันน้ำหนักทั้งหมด พวกเขาแบ่งปัน "แกรดิเอนแบบเทียบเท่า" - มีความแตกต่างในน้ำหนักปัจจุบันของพวกเขาและน้ำหนักจากการซิงค์ครั้งล่าสุด นี่เป็นวิธีที่มีประสิทธิภาพอย่างน่าทึ่ง เหมือนการแบ่งปันเฉพาะสิ่งที่เปลี่ยนแปลงในเอกสาร ไม่ใช่การส่งเอกสารทั้งหมดทุกครั้ง

INTELLECT-1การนำไปใช้จริงของ OpenDiLoCo โดย Prime Intellect เป็นการผลักดันแนวคิดนี้ไปอีกขั้นตอนหนึ่งโดยการฝึกฝนโมเดล 10B พารามิเตอร์ - ความพยายามในการฝึกฝนแบบกระจายที่ใหญ่ที่สุดจนถึงปัจจุบัน พวกเขาได้เพิ่มการปรับปรุงที่สำคัญเช่น:

  • การบีบอัดข้อมูลที่พวกเขาต้องการแบ่งปัน ทำให้การสื่อสารมีประสิทธิภาพมากขึ้น
  • สร้างระบบสำรองเพื่อให้การฝึกอบรมสามารถดำเนินต่อได้ แม้ว่าบางเครื่องคอมพิวเตอร์จะหยุดทำงาน
  • ทำให้กระบวนการซิงโครไนเซชันเร็วมาก - น้อยกว่าหนึ่งนาที

INTELLECT-1, ซึ่งได้รับการฝึกอบรมโดยกลุ่ม GPU มากกว่า 20 กลุ่มที่กระจายอยู่ทั่วโลก เสร็จลงล่าสุดpretrainingและจะถูกเปิดเผยเต็มรูปแบบในเร็ว ๆ นี้ในรูปแบบโอเพนซอร์ส

แดชบอร์ดการฝึกอบรม INTELLECT-1

ทีมเช่นนี้เช่นแมคโครคอสมอส are using similar algorithms to โมเดลการฝึกอบรมในนิเวศ Bittensor

หากอัลกอริทึมการฝึกองค์กรแบบกระจายเหล่านี้ยังคงดีขึ้นต่อไป อาจสามารถสนับสนุนโมเดลขนาดถึง 100 พันพารามิเตอร์ ด้วยรุ่น GPU รุ่นถัดไป โมเดลขนาดเช่นนี้สามารถเป็นประโยชน์อย่างมากสำหรับกรณีการใช้ที่หลากหลาย:

  1. การวิจัยและทดลองกับสถาปัตยกรรมใหม่ที่ไม่ต้องการการประมวลผลระดับชายแดน
  2. รุ่นทั่วไปขนาดเล็กที่ถูกปรับแต่งให้มีประสิทธิภาพและความเร็วสูงกว่าความฉลาดของข้อมูลต้นฉบับ
  3. โมเดลเฉพาะด้านโดเมน

การปรับจูนอย่างละเอียด

การปรับแต่งอย่างละเอียดเป็นกระบวนการของการใช้โมเดลพื้นฐานที่ผ่านการฝึกอบรมล่วงหน้า (โดยปกติจะเป็นโอเพ่นซอร์สโดย Meta, Mistral หรือ Alibaba) และฝึกอบรมเพิ่มเติมเกี่ยวกับชุดข้อมูลเฉพาะเพื่อปรับให้เข้ากับงานหรือโดเมนเฉพาะ สิ่งนี้ต้องการการประมวลผลน้อยกว่าการฝึกอบรมตั้งแต่เริ่มต้นเนื่องจากโมเดลได้เรียนรู้รูปแบบภาษาทั่วไปแล้วและจําเป็นต้องปรับน้ําหนักสําหรับโดเมนใหม่เท่านั้น

คำนวณความต้องการสำหรับการปรับปรุงมาตราสเกลด้วยขนาดโมเดล โดยสมมติว่าการฝึกอบรมบน H100:

  • รุ่นเล็ก (1-7B พารามิเตอร์): เพียง GPU เดียว สามารถทำเสร็จภายใน 12 ชั่วโมง
  • รุ่นขนาดกลาง (7-13B): คลัสเตอร์ GPU 2-4 คลัสเตอร์เสร็จสิ้นภายใน 36 ชั่วโมง
  • โมเดลขนาดใหญ่ (>30B): สูงสุด 8 กลุ่ม GPU, การเสร็จสิ้นภายใน 4 วัน

ด้วยข้อกําหนดเหล่านี้การปรับแต่งอย่างละเอียดไม่ต้องการอัลกอริธึมการฝึกอบรมแบบกระจายที่ซับซ้อนที่กล่าวถึงก่อนหน้านี้ รูปแบบตามความต้องการซึ่งนักพัฒนาเช่าคลัสเตอร์ GPU ในช่วงเวลาสั้น ๆ ที่กระจุกตัวให้การสนับสนุนอย่างเพียงพอ ตลาดการประมวลผลแบบกระจายอํานาจที่มีความพร้อมใช้งานของ GPU ที่แข็งแกร่งอยู่ในตําแหน่งที่เหมาะสมในการจัดการกับปริมาณงานเหล่านี้

การสรุปความ

การอนุมานคือจุดที่ตลาดการประมวลผลแบบกระจายอํานาจมีเส้นทางที่ชัดเจนที่สุดสู่ความเหมาะสมของตลาดผลิตภัณฑ์ น่าแปลกที่นี่เป็นเวิร์กโฟลว์ที่กล่าวถึงน้อยที่สุดในบริบทของการฝึกอบรมแบบกระจายอํานาจ สิ่งนี้เกิดจากสองปัจจัย: การอนุมานขาดการอุทธรณ์ของการฝึกอบรม "แบบจําลองพระเจ้า" ของ GPU 100,000 ครั้งและส่วนหนึ่งเป็นเพราะขั้นตอนปัจจุบันของการปฏิวัติ AI

จนถึงวันนี้การคำนวณส่วนใหญ่จะเป็นการฝึกฝนจริง ๆ การแข่งขันเพื่อ ASI กำลังนำไปสู่การลงทุนรายใหญ่โดยตรงในโครงสร้างพื้นฐานการฝึกฝน อย่างไรก็ตาม สมดุลนี้มักเปลี่ยนไปเมื่อแอปพลิเคชัน AI เปลี่ยนจากการวิจัยเป็นการผลิต สำหรับแบบธุรกิจที่เกี่ยวกับ AI เพื่อให้ยังคงอยู่ได้ต้องมีรายได้จากการอ่านอย่างน้อยต้องมากกว่าต้นทุนของการฝึกฝนและการอ่านรวมกัน ในขณะที่การฝึก GPT-4 เป็นรายจ่ายที่มากมาย นั่นเป็นค่าใช้จ่ายครั้งเดียว ค่าใช้จ่ายในการคำนวณต่อเนื่องและเส้นทางสู่ความสามารถในการทำกำไรของ OpenAI ได้รับการขับเคลื่อนโดยการให้บริการคำขอการอ่านพันล้านให้กับลูกค้าที่ชำระเงิน

ตลาดประมวลผลกระจายอํานาจหรืออื่น ๆ โดยธรรมชาติของการรวม GPU รุ่นต่างๆ (เก่าและใหม่) จากทั่วโลกพบว่าตัวเองอยู่ในตําแหน่งที่ไม่เหมือนใครเพื่อรองรับปริมาณงานการอนุมาน

ตลาดคอมพิวเตอร์ไม่ว่าจะได้รับการแยกตามสถานที่หรือเป็นแบบดั้งเดิม มีความสามารถในการทำงานที่เกี่ยวข้องกับ GPUs ที่หลากหลาย (ทั้งรุ่นปัจจุบันและรุ่นก่อนหน้า) อย่างเหมาะสมทั่วโลก ข้อดีที่แท้จริงของพวกเขาสอดคล้องกับความต้องการในการสร้างองค์ความรู้: การกระจายทางภูมิภาคกว้างขวาง การรองรับที่เสถียรต่อเวลาทำงาน ระบบสำรอง และความเข้ากันได้ของรุ่น GPU ทั้งหมด

แต่ทำไมถึงเลือกใช้คริปโต?

เราได้พูดถึงเวิร์กโฟลว์ต่างๆ การประมวลผลแบบกระจายอํานาจสามารถและไม่สามารถช่วยได้ ตอนนี้เราต้องตอบคําถามสําคัญอีกข้อหนึ่ง: เหตุใดนักพัฒนาจึงเลือกที่จะรักษาความปลอดภัยการประมวลผลจากผู้ให้บริการแบบกระจายอํานาจผ่านผู้ให้บริการแบบรวมศูนย์ โซลูชันแบบกระจายอํานาจมีข้อได้เปรียบที่น่าสนใจอะไรบ้าง

ราคาและช่วง

สกุลเงินคงที่บรรจุผลิตภายใต้การตลาดด้วยการให้ทางเลือกที่ดีกว่าในการโอนเงินข้ามชาติทางด้านเดิม ปัจจัยที่สำคัญคือสกุลเงินคงที่เพียงแค่ถูกกว่าอย่างมาก! อย่างที่เดียวที่สำคัญที่สุดที่ส่งผู้พัฒนา AI เลือกให้บริการคลาวด์คือต้นทุน ในการแข่งขันกับผู้ให้บริการคอมพิวต์แบบกระจายให้สามารถแข่งขันได้อย่างมีประสิทธิภาพจริง ๆ พวกเขาต้องส่งมอบราคาที่ดีกว่าก่อน

ตลาดคอมพิวเตอร์เช่นเดียวกับตลาดทั้งหมดเป็นธุรกิจเอฟเฟกต์เครือข่าย ยิ่งอุปทานของ GPU บนแพลตฟอร์มมากเท่าไหร่สภาพคล่องและความพร้อมใช้งานของลูกค้าก็จะยิ่งมากขึ้นเท่านั้นซึ่งจะดึงดูดความต้องการมากขึ้น เมื่อความต้องการเพิ่มขึ้นสิ่งนี้จูงใจให้เจ้าของ GPU เข้าร่วมเครือข่ายมากขึ้นสร้างวงจรคุณธรรม อุปทานที่เพิ่มขึ้นยังช่วยให้ราคาแข่งขันได้มากขึ้นผ่านการจับคู่ที่ดีขึ้นและลดเวลาว่าง เมื่อลูกค้าสามารถค้นหาการประมวลผลที่ต้องการได้อย่างสม่ําเสมอในอัตราที่น่าดึงดูดพวกเขามีแนวโน้มที่จะสร้างการพึ่งพาทางเทคนิคที่ยั่งยืนบนแพลตฟอร์มซึ่งจะช่วยเสริมสร้างผลกระทบของเครือข่าย

ความเคลื่อนไหวนี้มีความสำคัญอย่างยิ่งในการอินเฟอเรนซ์ ที่ทำให้การกระจายทางภูมิภาคของการจัดหาสามารถเสริมสร้างการเสนอสินค้าได้อย่างแท้จริงโดยการลดความล่าช้าสำหรับผู้ใช้สุดท้าย ตลาดที่เป็นตลาดเปิดทั้งแบบนี้ที่มีมหาศาลจะมีข้อได้เปรียบทางการแข่งขันที่สำคัญ เนื่องจากทั้งผู้ผลิตและลูกค้าจะต้องเผชิญกับค่าใช้จ่ายในการเปลี่ยนแปลงเมื่อพวกเขาได้รวมกับเครื่องมือและกระบวนการทำงานของแพลตฟอร์ม

ผลกระทบเครือข่ายตลาด GPU มู่เล่

ในตลาดที่ผู้ชนะเหนือทุกคนเช่นนี้การบูตเครือข่ายและการเข้าสู่ความเร็วหนีไปเป็นเฟสที่สำคัญที่สุด ที่นี่คริปโตให้โครงการคอมพิวเตอร์ที่กระจายอยู่ด้วยเครื่องมือที่มีประสิทธิภาพมากมายที่คู่แข่งที่เป็นกลางไม่มีเพียงอย่างเดียว: ผลตอบแทนโทเคน

กลไกสามารถตรงไปตรงมา แต่ทรงพลัง โปรโตคอลจะเปิดตัวโทเค็นที่มีตารางรางวัลเงินเฟ้อก่อน ซึ่งอาจแจกจ่ายการจัดสรรเบื้องต้นให้กับผู้มีส่วนร่วมในช่วงต้นผ่าน airdrops การปล่อยโทเค็นเหล่านี้จะเป็นเครื่องมือหลักในการบูตทั้งสองด้านของตลาด

สําหรับผู้ให้บริการ GPU โครงสร้างรางวัลควรได้รับการออกแบบอย่างรอบคอบเพื่อกําหนดพฤติกรรมด้านอุปทาน ผู้ให้บริการจะได้รับโทเค็นตามสัดส่วนของการคํานวณและอัตราการใช้ประโยชน์ที่มีส่วนร่วม แต่ระบบควรไปไกลกว่ารางวัลเชิงเส้นอย่างง่าย โปรโตคอลนี้สามารถใช้ตัวคูณรางวัลแบบไดนามิกเพื่อจัดการกับความไม่สมดุลทางภูมิศาสตร์หรือประเภทฮาร์ดแวร์ ซึ่งคล้ายกับวิธีที่ Uber ใช้การกําหนดราคาที่เพิ่มขึ้นเพื่อจูงใจผู้ขับขี่ในพื้นที่ที่มีความต้องการสูง

ผู้ให้บริการอาจได้รับรางวัล 1.5 เท่าสำหรับการให้บริการคำนวณในพื้นที่ที่ไม่ได้รับการบริการเพียงพอหรือ 2 เท่าสำหรับการให้บริการประเภท GPU ที่ขาดแคลนชั่วคราว การแบ่งระดับรางวัลเพิ่มเติมตามอัตราการใช้งานที่สม่ำเสมอจะส่งเสริมให้ผู้ให้บริการรักษาความพร้อมที่มั่นคงและไม่สลับระหว่างแพลตฟอร์มโดย opportunistic.

ในด้านความต้องการลูกค้าจะได้รับรางวัลโทเค็นซึ่งจะสนับสนุนการใช้งานของพวกเขาอย่างมีประสิทธิภาพ โปรโตคอลอาจเสนอรางวัลที่เพิ่มขึ้นสำหรับการสัญญาณคอมพิวเตอร์ที่ยาวนานเพื่อกระตุ้นผู้ใช้ให้สร้างความขึ้นอยู่กับแพลตฟอร์มทางเทคนิคที่ลึกลงมากขึ้น รางวัลเหล่านี้อาจถูกสร้างเพื่อให้สอดคล้องกับแนวทางยุทธศาสตร์ของแพลตฟอร์มเช่นการจับต้องความต้องการในภูมิภาคที่แน่นอน

อัตราฐานของการคำนวณอาจถูกเก็บไว้ที่ระดับตลาดหรือต่ำกว่าราคาตลาดเล็กน้อย โดยโปรโตคอลที่ใช้oracles zkTLSเพื่อติดตามและจับคู่ราคาของคู่แข่งอย่างต่อเนื่อง รางวัลโทเค็นก็จะทำหน้าที่เป็นชั้นเสริมของการกระตุ้นเพิ่มเติมที่อยู่เหนือระดับราคาฐานที่แข่งขัน โมเดลราคาคู่สองชั้นนี้จะช่วยให้แพลตฟอร์มรักษาความแข่งขันของราคาในขณะเดียวกันก็ใช้สิทธิตัวกระตุ้นโทเค็นในการส่งเสริมพฤติกรรมที่เฉพาะเจาะจงที่เสริมสร้างเครือข่าย

โดยการแจกไอน้ำสิทธิ์ให้กับผู้ให้บริการและลูกค้าทั้งสองฝ่ายจะเริ่มเก็บสะสมส่วนได้เสียในเครือข่าย ในขณะที่บางคน บางครั้งอาจขายส่วนได้เสียเหล่านี้ คนอื่นก็จะยึดมันไว้ โดยจะกลายเป็นผู้เกี่ยวข้องและผู้สนับสนุนแพลตฟอร์ม ผู้เข้าร่วมที่พึ่งพาจะมีความสนใจที่สำคัญในความสำเร็จของเครือข่าย ในการส่งเสริมการเติบโตและการใช้งานที่เกินกว่าการใช้งานโดยตรงหรือการให้บริการทรัพยากรคอมพิวเตอร์

เมื่อเวลาผ่านไปเมื่อเครือข่ายถึงความเร็วหลบหนีและสร้างผลกระทบเครือข่ายที่แข็งแกร่งสิ่งจูงใจโทเค็นเหล่านี้สามารถค่อยๆลดลงได้ ประโยชน์ตามธรรมชาติของการเป็นตลาดที่ใหญ่ที่สุด - การจับคู่ที่ดีขึ้นการใช้ประโยชน์ที่สูงขึ้นความครอบคลุมทางภูมิศาสตร์ที่กว้างขึ้นจะกลายเป็นตัวขับเคลื่อนการเติบโตอย่างยั่งยืน

วิธีการสร้างกระแสตลาด GPU ด้วยการให้สิทธิ์ตั๋ว

การต่อต้านการเซ็นเซอร์

ในขณะที่ราคาและช่วงเป็นตัวแบ่งที่สำคัญ ระบบคอมพิวเตอร์ที่กระจายแก้ไขปัญหาความจำกัดในการดำเนินการจากผู้ให้บริการที่ให้บริการแบบกลาง ผู้ให้บริการคลาวด์แบบดั้งเดิมได้แสดงให้เห็นถึงความพร้อมที่จะระงับหรือยุติบริการตามนโยบายเนื้อหาและแรงกดดันจากภายนอก. ปฏิบัติเหล่านี้เป็นการเสนอคำถามที่ถูกต้องเกี่ยวกับว่านโยบายที่คล้ายกันอาจส่งต่อไปสู่การพัฒนาและการใช้งานโมเดล AI ได้อย่างไร

เมื่อโมเดล AI มีความซับซ้อนมากขึ้นและจัดการกับกรณีการใช้งานที่หลากหลายมากขึ้นจึงมีความเป็นไปได้จริงที่ผู้ให้บริการระบบคลาวด์อาจใช้ข้อ จํากัด ในการฝึกอบรมและให้บริการโมเดลคล้ายกับแนวทางการกลั่นกรองเนื้อหาที่มีอยู่ สิ่งนี้อาจส่งผลกระทบไม่เพียง แต่เนื้อหา NSFW และหัวข้อที่ถกเถียงกัน แต่ยังรวมถึงกรณีการใช้งานที่ถูกต้องตามกฎหมายในด้านต่างๆเช่นการถ่ายภาพทางการแพทย์การวิจัยทางวิทยาศาสตร์หรือศิลปะสร้างสรรค์ที่อาจเรียกใช้ตัวกรองอัตโนมัติที่ระมัดระวังมากเกินไป

เครือข่ายแบบไม่มีศูนย์กลางนี้ให้ตัวเลือกทางโครงสร้างที่เป็นอิสระแก่ผู้มีส่วนร่วมในตลาดเพื่อสร้างสภาพแวดล้อมที่เสรีและไม่จำกัดสำหรับนวัตกรรมได้อย่างเป็นอิสระ

ด้านกลับของสถาปัตยกรรมที่ไม่ต้องขออนุญาตคือความเป็นส่วนตัวที่ยากขึ้น เมื่อการคำนวณแบ่งแยกกันไปทั่วเครือข่ายของผู้ให้บริการแทนที่จะอยู่ในศูนย์ข้อมูลของภาคีเครือข่ายที่เชื่อถือได้เดียว นักพัฒนาจำเป็นต้องมีความระมัดระวังในเรื่องความปลอดภัยของข้อมูล ในขณะที่การเข้ารหัสและสิ่งแวดล้อมการดำเนินการที่เชื่อถือได้สามารถช่วยได้ นั่นคือมีการแลกเปลี่ยนระหว่างความต้านทานการตรวจสอบและความเป็นส่วนตัวที่นักพัฒนาต้องจัดการตามความต้องการที่เฉพาะเจาะจงของพวกเขา

ความเชื่อใจและการปฏิบัติตามสัญญา

ด้วยความต้องการสูงสุดของการคำนวณ AI จากผู้ให้บริการ GPU สามารถใช้ตำแหน่งของพวกเขาเพื่อสกัดกำไรสูงสุดจากลูกค้าที่ประสบความสำเร็จได้โพสต์จากปีที่แล้วในบทความที่ผู้พัฒนาคนดังอย่าง Pieter Levels แชร์ถึงประสบการณ์ของเขาและนักพัฒนาคนอื่นที่พบว่าผู้ให้บริการของพวกเขาเพิ่มราคาอย่างกะทันหันถึง 600% เมื่อเขาเผยแพร่รายได้จากแอปพลิเคชัน AI ของพวกเขา

ระบบที่ไม่มีศูนย์กลางสามารถให้ความสำคัญในการแก้ปัญหานี้ - การบังคับสัญญาโดยไม่มีการเชื่อมั่น เมื่อข้อตกลงถูกเข้ารหัสบนเชนแทนที่จะถูกฝังอยู่ในเงื่อนไขการให้บริการ พวกเขากลายเป็นโปร่งใสและไม่สามารถเปลี่ยนแปลงได้ ผู้ให้บริการไม่สามารถเพิ่มราคาหรือเปลี่ยนแปลงเงื่อนไขกลางสัญญาได้โดยไม่มีการเห็นด้วยโดยชัดเจนผ่านโปรโตคอล

นอกเหนือจากการกำหนดราคา ระบบที่ไม่ centralised สามารถใช้ประโยชน์จากtrusted execution environments (TEEs)เพื่อให้การคำนวณสามารถตรวจสอบได้ นั่นหมายความว่านักพัฒนาจะได้รับทรัพยากร GPU ที่พวกเขาจ่ายเงินให้แท้จริงทั้งในเรื่องของข้อมูลเฮาส์แวร์และการเข้าถึงที่ได้รับการจัดสรรเฉพาะ ตัวอย่างเช่น เมื่อนักพัฒนาจ่ายเงินเพื่อเข้าถึง H100 GPUs 8 ตัวสำหรับการฝึกโมเดล พรูฟร์เเวร์ทางคริปโทฟิคสามารถยืนยันได้ว่าข้อมูลที่พวกเขาทำงานจริงๆบน H100s ที่มีหน่วยความจำเต็ม 80GB ต่อ GPU ไม่ได้ถูกลดรุ่นลงนั่นเองหรือไม่ก็คือมีการใช้ทรัพยากรร่วมกับผู้ใช้อื่น ๆ อย่างเงียบ ๆ

Permissionless

เครือข่ายคอมพิวเตอร์แบบกระจายอํานาจสามารถให้ทางเลือกที่ไม่ได้รับอนุญาตอย่างแท้จริงแก่นักพัฒนา ซึ่งแตกต่างจากผู้ให้บริการแบบดั้งเดิมที่ต้องการกระบวนการ KYC ที่กว้างขวางและการตรวจสอบเครดิตทุกคนสามารถเข้าร่วมเครือข่ายเหล่านี้และเริ่มใช้หรือจัดหาทรัพยากรการประมวลผล สิ่งนี้ช่วยลดอุปสรรคในการเข้าสู่ตลาดได้อย่างมากโดยเฉพาะอย่างยิ่งสําหรับนักพัฒนาในตลาดเกิดใหม่หรือผู้ที่ทํางานในโครงการทดลอง

ความสำคัญของลักษณะที่ไม่ต้องขออนุญาตนี้กลายเป็นสิ่งที่มีประสิทธิภาพมากยิ่งขึ้นเมื่อพิจารณาถึงอนาคตของตัวแทน AI ตัวแทน AI เพิ่งเริ่มหาที่วางเท้าของตน ด้วยตัวแทนบูรณาการแนวตั้งคาดว่าจะเกินขนาดของอุตสาหกรรม SaaS ด้วยความชอบTruth TerminalและZerebroเราเห็นสัญญาณแรกของตัวแทนที่ได้รับเอกราชและเรียนรู้วิธีใช้เครื่องมือภายนอกเช่นโซเชียลมีเดียและตัวสร้างภาพ

เมื่อระบบเหล่านี้ก้าวไปสู่ความฉลาดที่ซับซ้อนมากขึ้น อาจจะต้องมีการจัดสรรทรัพยากรคอมพิวเตอร์ของตนเองอย่างไดนามิก ระบบเครือข่ายที่กระจายแบบที่สัญญาสามารถดำเนินการได้โดยไม่ต้องเชื่อมั่นในรหัสโดยตรงโดยตัวคอมพิวเตอร์แทนบุคคลตัวกลางเป็นอินฟราสตรัคเจอร์สำหรับอนาคตนี้ ตัวแทนสามารถเจรจาสัญญาโดยอัตโนมัติ ตรวจสอบประสิทธิภาพ และปรับใช้การคำนวณของตนอย่างอัตโนมัติตามความต้องการ โดยไม่ต้องการการเข้ามาของมนุษย์หรือการอนุมัติ

ภูมิประเทศ

แนวคิดของเครือข่ายคำนวณที่ไม่มีการกระจายก็ไม่ใหม่ - โครงการต่าง ๆ ได้พยายามทำให้มีการเข้าถึงทรัพยากรคำนวณที่ขาดแคลนมานานก่อนทวีความคิดปัจจุบันเครือข่ายเรนเดอร์ได้ทำงานตั้งแต่ปี 2017 โดยรวมทรัพยากร GPU สำหรับการสร้างภาพคอมพิวเตอร์อากาชเริ่มต้นในปี 2020 เพื่อสร้างตลาดเปิดรูปแบบสำหรับการคำนวณทั่วไป โครงการทั้งสองพบความสำเร็จปานกลางในส่วนของพวกเขา แต่ตอนนี้กำลังโฟกัสในโหลดงาน AI

อย่างเดียวกันระบบเก็บข้อมูลแบบกระจายเช่น gate.ioFilecoinและArweaveกำลังขยายธุรกิจเข้าสู่การคำนวณด้วย พวกเขารับรู้ว่าเมื่อ AI เป็นผู้บริโภคหลักของการเก็บข้อมูลและการคำนวณ การนำเสนอ解决方案ที่เชื่อมโยงกันเป็นสิ่งที่เหมาะสม

เช่นเดียวกับศูนย์ข้อมูลแบบดั้งเดิมที่ต้องพยายามการแข่งขันกับสถานที่ที่ตั้งไว้สำหรับสิ่งประดิษฐ์ AI เครือข่ายที่มีอยู่อย่างมากนี้ก็พบว่าต้องเผชิญกับการต่อสู้ที่ยากลำบากเมื่อเทียบกับโซลูชัน AI สามารถดำเนินการออร์เคสเทรชันที่ซับซ้อนที่ต้องการสำหรับภารกิจที่เกี่ยวข้องกับ AI แทนที่จะพบว่ากำลังค้นหาวิธีการโดยการเป็นผู้ให้บริการคอมพิวเตอร์แก่เครือข่าย AI อื่น ๆ ตัวอย่างเช่น Render และ Akash ตอนนี้ทำให้ GPU ของพวกเขามีอยู่ในตลาดของ io.net

เป็นตลาด AI-native ใหม่เหล่านี้คือใคร?io.netเป็นหนึ่งในผู้นำในการรวมแหล่งที่มีคุณภาพของ GPU สำหรับองค์กรในช่วงเริ่มแรก มี GPU ที่ได้รับการยืนยันมากกว่า 300,000 ในเครือข่ายของตน เขาบอกว่าพวกเขามีการประหยัดต้นทุนถึง 90% ต่อเทียบกับผู้เชี่ยวชาญที่ทำการรวมกลุ่มแล้ว และได้รับรายได้รายวันมากกว่า $25,000 ($9m ต่อปี) เช่นเดียวกัน Aethirรวมกว่า 40,000 GPU (รวมถึง H100 4,000+) เพื่อให้บริการทั้งกรณีการใช้งาน AI และคลาวด์คอมพิวติ้ง

ก่อนหน้านี้เราได้พูดถึงว่า Prime Intellect กำลังสร้างกรอบการฝึกอบรมแบบกระจายกลุ่มในมาตรฐานที่ใหญ่ขึ้น นอกจากนี้พวกเขายังให้บริการ ตลาด GPUที่ผู้ใช้สามารถเช่า H100s ตามความต้องการGensynเป็นโครงการอีกโครงการที่เล่นเดมพันใหญ่ในการฝึกอบรมแบบไม่มีส่วนในการกำหนดเวลาสอนที่คล้ายคลึงกับกรอบการฝึกอบรมรวมถึงการเข้าถึงตลาด GPU

ในขณะที่เหล่านี้เป็นตลาดที่ไม่ขึ้นกับภาระงาน (พวกเขาสนับสนุนการฝึกอบรมและการอิงเซ็น), โครงการบางโครงการเน้นไปที่การอิงเซ็นเท่านั้น - ภาระงานคำนวณที่กระจายที่เราตื่นเต้นที่สุด ที่สำคัญที่สุดคือ Exo Labs ซึ่งทำให้ผู้ใช้สามารถเรียกใช้ LLMs ระดับชั้นประทับใจบนอุปกรณ์ประจำวัน พวกเขาได้พัฒนาแพลตฟอร์มโอเพ่นซอร์สที่ช่วยให้การกระจายงานการอิงเซ็น AI ไปยังอุปกรณ์หลายตัวเช่น iPhone, Android และ Macแสดงเร็วๆ นี้ทำงานด้วยโมเดล 70-B (มีความยืดหยุ่นสูงสุดถึง 400-B) ที่กระจายอยู่ทั่วทั้งสี่เครื่อง Mac Mini รุ่น M4 Pro

โครงสร้างพื้นฐานที่สำคัญ

เมื่อซาโตชิเปิดตัวบิตคอยน์ในปี 2008 ประโยชน์ของมัน คือ ทองคำดิจิทัลที่มีจำนวนจำกัดและเป็นเงินที่ต้านการเซ็นเซอร์ นั้นเป็นเพียงทฤษฎีเท่านั้น ระบบการเงินดั้งเดิม ถึงแม้มันจะมีข้อบกพร่อง ก็ยังทำงานได้ ธนาคารกลางยังไม่ได้เริ่มการพิมพ์เงินอย่างไม่เกรงขาม การลงโทษระหว่างประเทศยังไม่ได้ถูกใช้อย่างเต็มที่ต่อเศรษฐกิจทั้งหมด ความจำเป็นที่จะต้องมีทางเลือก ดูเหมือนเป็นเรื่องทฤษฎีมากกว่าเรื่องเร่งด่วน

ใช้เวลาหลายสิบปีในการผ่อนคลายเชิงปริมาณ ซึ่งนําไปสู่การขยายตัวทางการเงินในยุคโควิด เพื่อประโยชน์ทางทฤษฎีของ Bitcoin ในการตกผลึกเป็นมูลค่าที่จับต้องได้ วันนี้เมื่ออัตราเงินเฟ้อกัดกร่อนการออมและความตึงเครียดทางภูมิรัฐศาสตร์คุกคามการครอบงําของดอลลาร์บทบาทของ Bitcoin ในฐานะ "ทองคําดิจิทัล" ได้พัฒนาจากความฝันของ cypherpunk เป็นสินทรัพย์ที่สถาบันและรัฐชาตินํามาใช้

แบบนี้เกิดซ้ำกับสกุลเงินที่มั่นคง ทันทีที่มีบล็อกเชนชนิดทั่วไปใน Ethereum มีอยู่ สกุลเงินที่มั่นคงก็ทันทีกลายเป็นหนึ่งในกรณีใช้ที่มีความเป็นไปได้มากที่สุด แต่ใช้เวลาหลายปีในการปรับปรุงเทคโนโลยีและเศรษฐกิจของประเทศเช่นอาร์เจนตินาและตุรกีที่ถูกทำลายด้วยการเงินเพื่อสกุลเงินที่มั่นคงให้ก้าวไกลจากนวัตกรรมคริปโตเล็กน้อยเป็นโครงสร้างการเงินที่สำคัญที่เคลื่อนย้ายเงินตันต่อปีหลายล้านดอลลาร์

เทคโนโลยีรหัสสกุลเงินเป็นเทคโนโลยีที่เป็นธรรมชาติที่เป็นเทคโนโลยีป้องกัน - นวัตกรรมที่ดูเหมือนไม่จำเป็นในช่วงเวลาที่ดี แต่กลายเป็นสิ่งจำเป็นในช่วงวิกฤต ความจำเป็นในการใช้งานเหล่านี้เกิดขึ้นเมื่อระบบที่มีอยู่ล้มเหลวหรือเปิดเผยความจริงของพวกเขาเท่านั้น

วันนี้เรากำลังอยู่ในยุคทองของ AI ทุนการลงทุนไหลเวียนอิสระ บริษัทแข่งขันเพื่อให้บริการในราคาที่ต่ำที่สุดและข้อจำกัดหากมีอยู่ก็น้อยมาก ในสภาพแวดล้อมเช่นนี้ ทางเลือกที่ไม่ส่วนกลางอาจดูซับซ้อนได้ ทำไมต้องเจริญกับเศรษฐศาสตร์โทเค็นและระบบพิสูจน์เมื่อผู้ให้บริการแบบดั้งเดิมทำงานได้ดี

แต่ด้วยการเริ่มต้นของคลื่นเทคโนโลยีที่สำคัญในอดีต ความกรุณาอย่างนี้เป็นชั่วคราวเท่านั้น เราอยู่ในช่วงเวลาสองปีเพียงเท่านั้นในการปฏิวัติ AI ในขณะที่เทคโนโลยีกำลังเจริญเติบโตและผู้ชนะในการแข่งขัน AI กำลังเกิดขึ้น พลังจริงๆ ของพวกเขาจะปรากฏออกมา บริษัทที่เดียวกันที่ในปัจจุบันนี้มอบการเข้าถึงอย่างเอื้ออาจจะมีอำนาจในอนาคต - ผ่านการกำหนดราคา ผ่านนโยบาย ผ่านการอนุญาต

นี่ไม่ใช่รอบที่สำคัญของเทคโนโลยีอื่น ๆ ที่เกี่ยวข้อง ปัจจุบัน AI เป็นฐานการดำเนินชีวิตใหม่ของมนุษยชาติ - เลนส์ที่เราจะใช้ประมวลผลข้อมูล สร้างศิลปะ ตัดสินใจ และสุดท้ายแล้ว พัฒนาตนเองเป็นสายพันธุ์ใหม่ การคำนวณไม่เพียงเป็นเพียงแค่ทรัพยากร มันเป็นสกุลเงินของความคิดเป็นรากฐาน ผู้ที่ควบคุมการไหลของมันจะเป็นผู้กำหนดทางหน้าสมองของมนุษยชาติ

การคำนวณที่ไม่centralised ไม่ได้เกี่ยวกับการ提供 GPU ราคาถูกหรือตัวเลือกการ implement ที่ยืดหยุ่นมากขึ้น (แม้ว่ามันต้องทำทั้งสองอย่างเพื่อประสบความสำเร็จ) มันเกี่ยวกับการให้ความสำคัญให้การเข้าถึงปัจจุบัน สู่ปัจจุบัน ที่เป็นเทคโนโลยีที่ทรงพลังที่สุดของมนุษย์ ที่ยังคงไม่สามารถถูกเซ็นเซอร์ได้และเป็นอิสระ มันเป็นเท็จารณะของเราต่ออนาคตที่เป็นอนิเวทิเบิลที่บริษัทในอนาคตจะกำหนดไม่เพียงแค่ใครสามารถใช้ AI ได้ แต่ยังมีวิธีการคิดด้วย

เรากำลังสร้างระบบเหล่านี้ในวันนี้ไม่ใช่เพราะว่าเราต้องการใช้งานทันที แต่เพราะว่าพวกเขาจะเป็นสิ่งสำคัญในวันพรุ่งนี้ เมื่อ AI เป็นสิ่งที่เป็นพื้นฐานสำหรับสังคมเช่นเดียวกับเงินการคำนวณที่ไม่ต้องได้รับอนุญาตจะไม่เป็นทางเลือกเท่าที่ Bitcoin และ stablecoin เป็นสิ่งสำคัญในการต่อต้านการควบคุมทางการเงิน

การแข่งขันสู่ซุปเปอร์อินเทอร์เล็กชั่นที่อาจอยู่นอกเหนือจากระบบแบบกระจาย แต่การให้แน่นอนว่าผลของปัญญาเทียมนี้ยังคงเข้าถึงได้สำหรับทุกคน? นั่นเป็นการแข่งขันที่คุ้มค่าที่ควรทำ

ประกาศการปฏิเสธความรับผิด

  1. บทความนี้ถูกพิมพ์ซ้ำจาก [Decentralised.co]. ส่งต่อชื่อเรื่องเดิม: คำนวณแบบกระจาย ลิขสิทธิ์ทั้งหมดเป็นของผู้เขียนเดิม [ Shlok Khemani]. หากมีคำประทับใจต่อการเผยแพร่นี้ กรุณาติดต่อ Gate Learnทีมของเราจะดูแลมันโดยเร็ว
  2. คำประกาศความรับผิดชอบ: มุมมองและความคิดเห็นที่แสดงในบทความนี้เป็นเพียงของผู้เขียนเท่านั้นและไม่เป็นการให้คำแนะนำในการลงทุนใด ๆ
  3. การแปลบทความเป็นภาษาอื่นๆ ทำโดยทีม Gate Learn หากไม่ได้กล่าวถึง การคัดลอก การแจกจ่าย หรือการลอกเลียนแบบบทความที่แปลนั้นถือเป็นการละเมิดกฎหมาย
เริ่มตอนนี้
สมัครและรับรางวัล
$100
It seems that you are attempting to access our services from a Restricted Location where Gate.io is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.