Foresight Ventures: Một cái nhìn hợp lý về mạng điện toán phi tập trung

星球日报

2023-06-01 11:04:41

Tác giả gốc: Yihan Xu, Foresight Ventures

TL;DR

Hiện tại, sự kết hợp giữa “AI + Tiền điện tử” chủ yếu bao gồm “2” hướng tương đối lớn: sức mạnh tính toán phân tán và “ZKML”. Về “ZKML”, bạn có thể tham khảo bài viết trước của tôi. Bài viết này sẽ phân tích và phản ánh về mạng điện toán phân tán phi tập trung. ;
Theo xu hướng phát triển của mô hình lớn “AI”, ** tài nguyên năng lượng điện toán sẽ là chiến trường lớn trong thập kỷ tới và cũng là điều quan trọng nhất đối với xã hội loài người trong tương lai**, và nó sẽ không chỉ dừng lại ở lĩnh vực thương mại cạnh tranh, nhưng cũng trở thành một quốc gia lớn Các tài nguyên chiến lược của trò chơi. Trong tương lai, đầu tư vào cơ sở hạ tầng điện toán hiệu suất cao và dự trữ năng lượng điện toán sẽ tăng theo cấp số nhân.
Mạng điện toán phân tán phi tập trung có nhu cầu lớn nhất về AI; đào tạo mô hình lớn, nhưng nó cũng phải đối mặt với những thách thức lớn nhất và tắc nghẽn kỹ thuật. Kể cả nhu cầu đồng bộ dữ liệu phức tạp và vấn đề tối ưu hóa mạng. Ngoài ra, quyền riêng tư và bảo mật dữ liệu cũng là những ràng buộc quan trọng. Mặc dù một số kỹ thuật hiện có có thể cung cấp các giải pháp sơ bộ, nhưng chúng vẫn không thể áp dụng trong các nhiệm vụ đào tạo phân tán quy mô lớn do chi phí truyền thông và tính toán rất lớn.
Mạng điện toán phân tán phi tập trung có cơ hội tiếp cận lý luận mô hình tốt hơn và nó có thể dự đoán rằng không gian gia tăng trong tương lai cũng đủ lớn. Nhưng nó cũng phải đối mặt với những thách thức như độ trễ giao tiếp, quyền riêng tư dữ liệu và bảo mật mô hình. So với đào tạo mô hình, suy luận có độ phức tạp tính toán và tương tác dữ liệu thấp hơn và phù hợp hơn với môi trường phân tán.
Thông qua trường hợp của hai công ty khởi nghiệp “Together” và “Gensyn.ai”, hướng nghiên cứu tổng thể và ý tưởng cụ thể của mạng điện toán phân tán phi tập trung được minh họa từ góc độ tối ưu hóa công nghệ và thiết kế lớp khuyến khích.

1. Sức mạnh tính toán phân tán—Đào tạo mô hình lớn

Chúng tôi đang thảo luận về ứng dụng của sức mạnh tính toán phân tán trong đào tạo và thường tập trung vào việc đào tạo các mô hình ngôn ngữ lớn. Lý do chính là việc đào tạo các mô hình nhỏ không yêu cầu nhiều sức mạnh tính toán. Để thực hiện quyền riêng tư dữ liệu phân tán và một loạt của các dự án Vấn đề không hiệu quả về chi phí, tốt hơn là giải quyết nó một cách trực tiếp và tập trung. Mô hình ngôn ngữ lớn có nhu cầu rất lớn về sức mạnh tính toán và hiện đang ở giai đoạn đầu của sự bùng nổ, từ năm 2012 đến năm 2018, nhu cầu tính toán của AI sẽ tăng gấp đôi sau mỗi 4 tháng, và bây giờ nó thậm chí còn đòi hỏi nhiều hơn về sức mạnh tính toán .Điểm tập trung có thể dự đoán tương lai 5-8 năm vẫn sẽ là một nhu cầu gia tăng rất lớn.

Trong khi có những cơ hội to lớn, những vấn đề cũng cần được nhìn thấy rõ ràng. Mọi người đều biết rằng bối cảnh là rất lớn, nhưng những thách thức cụ thể ở đâu? Ai có thể “nhắm mục tiêu” những vấn đề này thay vì lao vào cuộc chơi một cách mù quáng, đó chính là yếu tố cốt lõi để đánh giá những dự án xuất sắc của đường đua này.

;(Khung NVIDIA NeMo Megatron）

1. Tổng thể quá trình đào tạo

Hãy đào tạo một mô hình lớn với 175 tỷ tham số làm ví dụ. Do kích thước của mô hình rất lớn nên nó cần được đào tạo song song trên nhiều thiết bị “GPU”. Giả sử có một phòng máy tập trung, có ;100;GPU, mỗi máy có ;32;GB;bộ nhớ.

Chuẩn bị dữ liệu: Đầu tiên, cần có một bộ dữ liệu khổng lồ, chứa nhiều dữ liệu khác nhau như thông tin Internet, tin tức, sách, v.v. Những dữ liệu này cần được xử lý trước khi đào tạo, bao gồm làm sạch văn bản, mã thông báo, xây dựng từ vựng, v.v.
Chia dữ liệu: Dữ liệu được xử lý sẽ được chia thành nhiều đợt để xử lý song song trên nhiều GPU; Giả sử rằng; lô; kích thước được chọn là; 512;, tức là mỗi lô chứa; 512; chuỗi văn bản. Sau đó, chúng tôi chia toàn bộ tập dữ liệu thành các lô, tạo thành một hàng các lô.
Truyền dữ liệu giữa các thiết bị: Khi bắt đầu mỗi bước đào tạo, CPU;lấy một lô từ hàng đợi lô, sau đó gửi dữ liệu của lô này tới;PCIe;bus tới GPU. Giả sử độ dài trung bình của mỗi chuỗi văn bản là; 1024; mã thông báo, thì kích thước dữ liệu của mỗi lô xấp xỉ; 512 * 1024 * 4;B = 2; MB (giả sử mỗi mã thông báo sử dụng; 4; byte thả nổi có độ chính xác đơn -biểu diễn điểm). Quá trình truyền dữ liệu này thường chỉ mất vài mili giây.
Đào tạo song song: Sau khi nhận được dữ liệu, mỗi thiết bị “GPU” bắt đầu thực hiện các phép tính chuyển tiếp và chuyển lùi, đồng thời tính toán độ dốc của từng tham số. Do quy mô lớn của mô hình, bộ nhớ của một “GPU” đơn lẻ không thể lưu trữ tất cả các tham số, vì vậy chúng tôi sử dụng công nghệ song song mô hình để phân phối các tham số mô hình trên nhiều “GPU”.
Cập nhật thông số và tổng hợp độ dốc: Sau khi tính toán lan truyền ngược hoàn tất, mỗi;GPU;nhận độ dốc của một phần tham số. Sau đó, các độ dốc này cần được tổng hợp trên tất cả;GPU;thiết bị để tính toán độ dốc toàn cầu. Điều này yêu cầu truyền dữ liệu qua mạng, giả sử rằng mạng 25; Gbps; được sử dụng, sau đó truyền 700; GB; ; GB) mất khoảng ;224; giây. Sau đó, mỗi; GPU; cập nhật các tham số được lưu trữ của nó theo độ dốc toàn cầu.
Đồng bộ hóa: Sau khi cập nhật tham số, tất cả;GPU;thiết bị cần phải được đồng bộ hóa để đảm bảo rằng tất cả chúng đều sử dụng các tham số mô hình nhất quán cho bước đào tạo tiếp theo. Điều này cũng yêu cầu truyền dữ liệu qua mạng.
Lặp lại các bước huấn luyện: Lặp lại các bước trên cho đến khi hoàn tất quá trình huấn luyện của tất cả các đợt hoặc đạt đến số vòng huấn luyện (kỷ nguyên) được xác định trước.

Quá trình này liên quan đến một lượng lớn dữ liệu được truyền và đồng bộ hóa, điều này có thể trở thành nút thắt cổ chai đối với hiệu quả đào tạo. Do đó, việc tối ưu hóa độ trễ và băng thông mạng cũng như sử dụng các chiến lược đồng bộ hóa và song song hiệu quả là rất quan trọng đối với việc đào tạo mô hình quy mô lớn.

2. Điểm nghẽn về chi phí truyền thông:

Cần lưu ý rằng nút cổ chai giao tiếp cũng là lý do tại sao mạng điện toán phân tán hiện tại không thể đào tạo mô hình ngôn ngữ lớn.

Mỗi nút cần trao đổi thông tin thường xuyên để làm việc cùng nhau, điều này tạo ra chi phí truyền thông. Đối với các mô hình ngôn ngữ lớn, vấn đề này đặc biệt nghiêm trọng do số lượng lớn các tham số của mô hình. Chi phí truyền thông được chia thành các khía cạnh sau:

Truyền dữ liệu: Các nút cần thường xuyên trao đổi thông số mô hình và thông tin độ dốc trong quá trình đào tạo. Điều này đòi hỏi phải truyền một lượng lớn dữ liệu trong mạng, tiêu tốn một lượng lớn băng thông mạng. Nếu điều kiện mạng kém hoặc khoảng cách giữa các nút tính toán lớn, độ trễ truyền dữ liệu sẽ cao, làm tăng thêm chi phí liên lạc.
Sự cố đồng bộ hóa: Trong quá trình đào tạo, các nút cần phải làm việc cùng nhau để đảm bảo đào tạo chính xác. Điều này đòi hỏi các hoạt động đồng bộ hóa thường xuyên giữa các nút, chẳng hạn như cập nhật các tham số mô hình, tính toán độ dốc toàn cầu, v.v. Các hoạt động đồng bộ này cần truyền một lượng lớn dữ liệu trong mạng và cần đợi tất cả các nút hoàn thành hoạt động, điều này sẽ gây ra nhiều chi phí liên lạc và thời gian chờ đợi.
Tích lũy và cập nhật độ dốc: Trong quá trình đào tạo, mỗi nút cần tính toán độ dốc của riêng mình và gửi nó đến các nút khác để tích lũy và cập nhật. Điều này đòi hỏi phải truyền một lượng lớn dữ liệu độ dốc trong mạng và cần phải đợi tất cả các nút hoàn thành việc tính toán và truyền độ dốc, đây cũng là lý do gây ra một lượng lớn chi phí liên lạc.
Tính nhất quán của dữ liệu: Cần đảm bảo rằng các tham số mô hình của mỗi nút nhất quán. Điều này đòi hỏi các hoạt động đồng bộ hóa và kiểm tra dữ liệu thường xuyên giữa các nút, dẫn đến một lượng lớn chi phí liên lạc.

Mặc dù có một số phương pháp để giảm chi phí truyền thông, chẳng hạn như nén tham số và độ dốc, chiến lược song song hiệu quả, v.v., những phương pháp này có thể tạo thêm gánh nặng tính toán hoặc ảnh hưởng tiêu cực đến hiệu quả đào tạo của mô hình. Ngoài ra, các phương pháp này không thể giải quyết hoàn toàn vấn đề chi phí liên lạc, đặc biệt trong trường hợp điều kiện mạng kém hoặc khoảng cách lớn giữa các nút tính toán.

Ví dụ:

Mạng điện toán phân tán phi tập trung

Mô hình GPT-3; có; 175 tỷ; tỷ tham số và nếu chúng tôi sử dụng các số dấu phẩy động có độ chính xác đơn (mỗi tham số; 4; byte) để biểu thị các tham số này, thì việc lưu trữ các tham số này cần ~; 700; GB; bộ nhớ . Trong đào tạo phân tán, các tham số này cần được truyền và cập nhật thường xuyên giữa các nút tính toán.

Giả sử có; 100; nút tính toán và mỗi nút cần cập nhật tất cả các tham số trong mỗi bước, thì mỗi bước cần truyền khoảng; 70; TB (700; GB*; 100;) dữ liệu. Nếu chúng ta giả định rằng một bước mất ;1;s (giả định rất lạc quan), thì mỗi giây 70;TB; dữ liệu cần được truyền đi. Nhu cầu về băng thông này đã vượt xa nhu cầu của hầu hết các mạng và cũng là một vấn đề về tính khả thi.

Trong thực tế, do sự chậm trễ trong giao tiếp và tắc nghẽn mạng, thời gian truyền dữ liệu có thể lâu hơn;1;s. Điều này có nghĩa là các nút điện toán có thể cần dành nhiều thời gian chờ truyền dữ liệu thay vì thực hiện các phép tính thực tế. Điều này sẽ làm giảm đáng kể hiệu quả của đào tạo và việc giảm hiệu quả này không thể được giải quyết bằng cách chờ đợi mà là sự khác biệt giữa khả thi và không khả thi, điều này sẽ khiến toàn bộ quá trình đào tạo trở nên không khả thi.

Phòng máy tính tập trung

Ngay cả trong môi trường phòng máy tính tập trung, việc đào tạo các mô hình lớn vẫn đòi hỏi tối ưu hóa giao tiếp nặng nề.

Trong môi trường phòng máy tính tập trung, các thiết bị tính toán hiệu suất cao được sử dụng như một cụm, được kết nối thông qua mạng tốc độ cao để chia sẻ các tác vụ tính toán. Tuy nhiên, ngay cả khi đào tạo một mô hình với số lượng tham số cực lớn trong môi trường mạng tốc độ cao như vậy, chi phí truyền thông vẫn là một nút cổ chai, bởi vì các tham số và độ dốc của mô hình cần được truyền và cập nhật thường xuyên giữa các thiết bị máy tính khác nhau .

Như đã đề cập ở phần đầu, giả sử có; 100; nút điện toán, mỗi máy chủ có; 25; Gbps; băng thông mạng. Nếu mỗi máy chủ cần cập nhật tất cả các thông số trong mỗi bước huấn luyện thì mỗi bước huấn luyện cần truyền khoảng ;700;GB;dữ liệu cần ~;224;giây. Bằng cách tận dụng phòng máy tính tập trung, các nhà phát triển có thể tối ưu hóa cấu trúc liên kết mạng bên trong trung tâm dữ liệu và sử dụng các công nghệ như mô hình song song để giảm đáng kể thời gian này.

Ngược lại, nếu việc đào tạo tương tự được thực hiện trong một môi trường phân tán, giả định rằng vẫn còn; 100; nút điện toán được phân phối trên toàn thế giới và băng thông mạng trung bình của mỗi nút chỉ là; 1; Gbps. Trong trường hợp này, việc truyền cùng một; 700; GB; dữ liệu mất ~; 5600; giây, lâu hơn nhiều so với trong một phòng máy tính tập trung. Ngoài ra, do sự chậm trễ và tắc nghẽn mạng, thời gian thực tế cần thiết có thể lâu hơn.

Tuy nhiên, so với tình huống trong mạng điện toán phân tán, việc tối ưu hóa chi phí liên lạc trong môi trường phòng máy tính tập trung là tương đối dễ dàng. Bởi vì trong môi trường phòng máy tính tập trung, các thiết bị máy tính thường được kết nối với cùng một mạng tốc độ cao, băng thông và độ trễ của mạng tương đối tốt. Trong một mạng điện toán phân tán, các nút điện toán có thể được phân phối trên toàn thế giới và điều kiện mạng có thể tương đối kém, điều này làm cho vấn đề chi phí liên lạc trở nên nghiêm trọng hơn.

Trong quá trình đào tạo GPT-3, OpenAI đã áp dụng một khung song song mô hình có tên “Megatron” để giải quyết vấn đề chi phí liên lạc. Megatron chia các tham số của mô hình và xử lý song song giữa nhiều GPU và mỗi thiết bị chỉ chịu trách nhiệm lưu trữ và cập nhật một phần tham số, do đó giảm lượng tham số mà mỗi thiết bị cần xử lý và giảm chi phí giao tiếp. Đồng thời, mạng kết nối tốc độ cao cũng được sử dụng trong quá trình đào tạo và độ dài của đường truyền thông được giảm bằng cách tối ưu hóa cấu trúc liên kết mạng.

（Dữ liệu được sử dụng để huấn luyện các mô hình LLM）

3. Tại sao mạng điện toán phân tán không thực hiện được những tối ưu này

Nó có thể được thực hiện, nhưng so với phòng máy tính tập trung, hiệu quả của những tối ưu hóa này là rất hạn chế.

Tối ưu hóa cấu trúc liên kết mạng: Trong phòng máy tính tập trung, phần cứng và bố cục mạng có thể được kiểm soát trực tiếp, do đó cấu trúc liên kết mạng có thể được thiết kế và tối ưu hóa theo nhu cầu. Tuy nhiên, trong một môi trường phân tán, các nút điện toán được phân bổ ở các vị trí địa lý khác nhau, thậm chí một ở Trung Quốc và một ở Hoa Kỳ và không có cách nào để kiểm soát trực tiếp kết nối mạng giữa chúng. Mặc dù phần mềm có thể được sử dụng để tối ưu hóa đường truyền dữ liệu, nhưng nó không hiệu quả bằng việc tối ưu hóa trực tiếp mạng phần cứng. Đồng thời, do sự khác biệt về vị trí địa lý, độ trễ mạng và băng thông cũng khác nhau rất nhiều, điều này càng hạn chế hiệu quả của việc tối ưu hóa cấu trúc liên kết mạng.
Song song mô hình: Song song mô hình là công nghệ phân chia các tham số của mô hình thành nhiều nút tính toán và cải thiện tốc độ đào tạo thông qua xử lý song song. Tuy nhiên, phương thức này thường phải truyền dữ liệu giữa các nút thường xuyên nên có yêu cầu cao về băng thông mạng và độ trễ. Trong một phòng máy tính tập trung, do băng thông mạng cao và độ trễ thấp, mô hình song song hóa có thể rất hiệu quả. Tuy nhiên, trong một môi trường phân tán, tính song song của mô hình bị hạn chế rất nhiều do điều kiện mạng kém. ; ; ; ; ;

4. Thách thức về bảo mật dữ liệu và quyền riêng tư

Hầu như tất cả các liên kết liên quan đến xử lý và truyền dữ liệu đều có thể ảnh hưởng đến bảo mật và quyền riêng tư của dữ liệu:

Phân phối dữ liệu: Dữ liệu đào tạo cần được phân phối cho từng nút tham gia tính toán. Dữ liệu trong liên kết này có thể bị sử dụng/rò rỉ một cách ác ý trên các nút phân tán.
Huấn luyện mô hình: Trong quá trình huấn luyện, mỗi nút sẽ sử dụng dữ liệu được chỉ định để tính toán, sau đó xuất bản cập nhật hoặc độ dốc của các tham số mô hình. Trong quá trình này, nếu quá trình tính toán của nút bị đánh cắp hoặc kết quả bị phân tích ác ý, dữ liệu cũng có thể bị rò rỉ.
Tham số và tập hợp độ dốc: Đầu ra của mỗi nút cần được tổng hợp để cập nhật mô hình toàn cầu và giao tiếp trong quá trình tổng hợp cũng có thể làm rò rỉ thông tin về dữ liệu đào tạo.

**Có những giải pháp nào cho những lo ngại về quyền riêng tư dữ liệu? **

Bảo mật điện toán đa bên: SMC; đã được ứng dụng thành công trong một số tác vụ điện toán cụ thể, quy mô nhỏ. Tuy nhiên, trong các nhiệm vụ đào tạo phân tán quy mô lớn, do chi phí tính toán và truyền thông lớn nên nó vẫn chưa được sử dụng rộng rãi.
Quyền riêng tư khác biệt: Được áp dụng trong một số tác vụ thu thập và phân tích dữ liệu nhất định, chẳng hạn như; Chrome; thống kê người dùng, v.v. Nhưng trong các nhiệm vụ học sâu quy mô lớn, DP; sẽ có tác động đến độ chính xác của mô hình. Đồng thời, nó cũng là một thách thức để thiết kế một cơ chế tạo và bổ sung tiếng ồn phù hợp.
Federated Learning: Ứng dụng trong các tác vụ huấn luyện mô hình của một số thiết bị biên như; Android; dự đoán từ vựng của bàn phím, v.v. Nhưng trong các nhiệm vụ đào tạo phân tán quy mô lớn hơn, FL; phải đối mặt với các vấn đề như chi phí liên lạc cao và sự phối hợp phức tạp.
Mã hóa đồng cấu: Đã được áp dụng thành công trong một số tác vụ ít phức tạp tính toán. Tuy nhiên, trong các nhiệm vụ đào tạo phân tán quy mô lớn, do chi phí tính toán cao nên nó vẫn chưa được sử dụng rộng rãi.

Bản tóm tắt

Mỗi phương pháp trên đều có các kịch bản và giới hạn có thể áp dụng, và không có phương pháp nào có thể giải quyết hoàn toàn vấn đề bảo mật dữ liệu trong đào tạo mô hình lớn của mạng điện toán phân tán.

**Liệu ZK, công ty có nhiều hy vọng, có giải quyết được vấn đề bảo mật dữ liệu trong đào tạo mô hình lớn không? **

Về lý thuyết; ZKP; có thể được sử dụng để đảm bảo tính riêng tư của dữ liệu trong điện toán phân tán, cho phép một nút chứng minh rằng nó đã thực hiện các phép tính theo quy định, nhưng không cần tiết lộ dữ liệu đầu vào và đầu ra thực tế.

Nhưng trên thực tế, “ZKP” sẽ gặp phải các nút thắt sau trong kịch bản sử dụng mạng điện toán phân tán quy mô lớn để đào tạo các mô hình lớn:

Chi phí tính toán và truyền thông; lên: Việc xây dựng và xác minh bằng chứng không kiến thức đòi hỏi nhiều tài nguyên máy tính. Ngoài ra, ZKP; cũng có chi phí liên lạc lớn do nhu cầu tự truyền bằng chứng. Những chi phí này có thể trở nên đặc biệt quan trọng trong trường hợp đào tạo mô hình lớn. Ví dụ: nếu tính toán của từng lô nhỏ yêu cầu tạo bằng chứng, điều này có thể làm tăng đáng kể tổng thời gian và chi phí đào tạo.
ZK; Độ phức tạp của giao thức: Việc thiết kế và triển khai giao thức “ZKP” phù hợp với đào tạo mô hình lớn sẽ rất phức tạp. Giao thức này cần có khả năng xử lý dữ liệu quy mô lớn và các tính toán phức tạp, đồng thời nó cần có khả năng xử lý các lỗi bất thường có thể xảy ra.
Khả năng tương thích của phần cứng và phần mềm: Việc sử dụng ;ZKP; yêu cầu hỗ trợ phần cứng và phần mềm cụ thể, có thể không khả dụng trên tất cả các thiết bị điện toán phân tán.

Bản tóm tắt

Sẽ mất vài năm nghiên cứu và phát triển để sử dụng “ZKP” cho các mạng máy tính phân tán quy mô lớn để đào tạo các mô hình lớn, đồng thời nó cũng sẽ cần nhiều năng lượng và tài nguyên hơn từ cộng đồng học thuật theo hướng này.

2. Sức mạnh tính toán phân tán—Lập luận mô hình

Một kịch bản tương đối lớn khác của sức mạnh tính toán phân tán là suy luận mô hình. Theo nhận định của chúng tôi về lộ trình phát triển của các mô hình lớn, nhu cầu đào tạo mô hình sẽ dần chậm lại khi các mô hình lớn trưởng thành sau khi vượt qua điểm cao. Yêu cầu suy luận sẽ tương ứng tăng theo cấp số nhân với sự trưởng thành của các mô hình lớn và “AIGC”.

So với các tác vụ huấn luyện, các tác vụ suy luận thường có độ phức tạp tính toán thấp hơn và tương tác dữ liệu yếu hơn, đồng thời phù hợp hơn với môi trường phân tán.

(Suy luận Power LLM với NVIDIA Triton)

1. Thử thách

Chậm giao tiếp:

Trong một môi trường phân tán, giao tiếp giữa các nút là điều cần thiết. Trong một mạng điện toán phân tán phi tập trung, các nút có thể trải rộng khắp thế giới, do đó, độ trễ của mạng có thể là một vấn đề, đặc biệt đối với các tác vụ lý luận yêu cầu phản hồi theo thời gian thực.

Triển khai và cập nhật mô hình:

Mô hình cần được triển khai cho từng nút. Nếu mô hình được cập nhật, mỗi nút cần cập nhật mô hình của nó, điều này tiêu tốn rất nhiều băng thông mạng và thời gian.

Bảo mật dữ liệu:

Mặc dù các tác vụ suy luận thường chỉ yêu cầu dữ liệu đầu vào và mô hình và không cần trả lại một lượng lớn dữ liệu và tham số trung gian, nhưng dữ liệu đầu vào vẫn có thể chứa thông tin nhạy cảm, chẳng hạn như thông tin cá nhân của người dùng.

Mẫu bảo mật:

Trong một mạng phi tập trung, mô hình cần được triển khai trên các nút không đáng tin cậy, điều này sẽ dẫn đến rò rỉ mô hình và dẫn đến vấn đề lạm dụng và quyền sở hữu mô hình. Điều này cũng có thể gây lo ngại về bảo mật và quyền riêng tư, nếu một mô hình được sử dụng để xử lý dữ liệu nhạy cảm, các nút có thể suy ra thông tin nhạy cảm bằng cách phân tích hành vi của mô hình.

QC:

Mỗi nút trong mạng điện toán phân tán phi tập trung có thể có các khả năng và tài nguyên điện toán khác nhau, điều này có thể gây khó khăn cho việc đảm bảo hiệu suất và chất lượng của các tác vụ suy luận.

2. Tính khả thi

Độ phức tạp tính toán:

Trong giai đoạn huấn luyện, mô hình cần lặp đi lặp lại nhiều lần, trong quá trình huấn luyện cần tính toán lan truyền xuôi và lan truyền ngược cho từng lớp bao gồm tính toán hàm kích hoạt, tính toán hàm mất mát, tính toán gradient và cập nhật trọng số. . Do đó, độ phức tạp tính toán của đào tạo mô hình là cao.

Trong giai đoạn suy luận, chỉ cần một lần chuyển tiếp để tính toán dự đoán. Ví dụ: trong; GPT-3;, cần chuyển đổi văn bản đầu vào thành một vectơ, sau đó thực hiện lan truyền thuận qua từng lớp của mô hình (thường là; Biến áp; lớp), và cuối cùng lấy phân phối xác suất đầu ra, và tạo theo phân phối này từ tiếp theo. Trong;GANs;, mô hình cần tạo một hình ảnh dựa trên vectơ nhiễu đầu vào. Các hoạt động này chỉ liên quan đến việc truyền về phía trước của mô hình, không cần tính toán độ dốc hoặc cập nhật tham số và có độ phức tạp tính toán thấp.

Tương tác dữ liệu:

Trong giai đoạn suy luận, mô hình thường xử lý một đầu vào duy nhất thay vì lô dữ liệu lớn trong quá trình đào tạo. Kết quả của mỗi suy luận chỉ phụ thuộc vào đầu vào hiện tại, không phụ thuộc vào đầu vào hoặc đầu ra khác, do đó không cần lượng tương tác dữ liệu lớn và áp lực giao tiếp ít hơn.

Lấy mô hình hình ảnh tổng quát làm ví dụ, giả sử chúng ta sử dụng; GAN; để tạo hình ảnh, chúng ta chỉ cần nhập một vectơ nhiễu cho mô hình, sau đó mô hình sẽ tạo ra một hình ảnh tương ứng. Trong quá trình này, mỗi đầu vào sẽ chỉ tạo ra một đầu ra và không có sự phụ thuộc giữa các đầu ra nên không cần tương tác dữ liệu.

Lấy “GPT-3” làm ví dụ, mỗi thế hệ của từ tiếp theo chỉ yêu cầu đầu vào văn bản hiện tại và trạng thái của mô hình, không cần tương tác với các đầu vào hoặc đầu ra khác, do đó yêu cầu về tương tác dữ liệu cũng yếu .

Bản tóm tắt

Bất kể đó là mô hình ngôn ngữ lớn hay mô hình hình ảnh tổng quát, độ phức tạp tính toán và tính tương tác dữ liệu của các tác vụ lý luận đều tương đối thấp, phù hợp hơn với các mạng điện toán phân tán phi tập trung, đó là lý do tại sao hầu hết các dự án chúng ta thấy hiện nay đều theo một hướng của lực lượng.

3. Dự án

Ngưỡng kỹ thuật và phạm vi kỹ thuật của mạng điện toán phân tán phi tập trung là rất cao và nó cũng yêu cầu sự hỗ trợ của tài nguyên phần cứng, vì vậy chúng tôi chưa thấy quá nhiều lần thử. Lấy ;Together; và ;Gensyn.ai; làm ví dụ:

1.Cùng nhau

（RedPajama từ Together）

Together; là một công ty mã nguồn mở tập trung vào các mô hình lớn và cam kết phi tập trung; AI; giải pháp sức mạnh điện toán, hy vọng rằng bất kỳ ai cũng có thể truy cập và sử dụng nó ở bất cứ đâu; AI. Cùng nhau;vừa hoàn thành;Lux Capital;đã dẫn đầu;20;triệu USD;vòng gọi vốn hạt giống.

Cùng nhau; đồng sáng lập bởi; Chris, Percy, Ce; mục đích ban đầu là đào tạo mô hình lớn đòi hỏi một số lượng lớn GPU cao cấp; cụm và chi phí đắt đỏ, đồng thời các tài nguyên và khả năng đào tạo mô hình này cũng tập trung vào một số ít các công ty lớn.

Theo quan điểm của tôi, một kế hoạch kinh doanh hợp lý hơn cho sức mạnh tính toán phân tán là:

Bước;1. Mô hình mã nguồn mở

Để triển khai lý luận mô hình trong mạng điện toán phân tán phi tập trung, điều kiện tiên quyết là các nút phải có khả năng lấy mô hình với chi phí thấp, nghĩa là mô hình sử dụng mạng điện toán phi tập trung cần phải là nguồn mở (nếu mô hình cần phải được cấp phép tương ứng. Nếu sử dụng bên dưới, nó sẽ làm tăng độ phức tạp và chi phí thực hiện). Ví dụ: chatgpt, với tư cách là một mô hình không phải nguồn mở, không phù hợp để thực thi trên mạng điện toán phi tập trung.

Do đó, có thể suy đoán rằng rào cản vô hình của một công ty cung cấp mạng điện toán phi tập trung cần phải có khả năng bảo trì và phát triển mô hình quy mô lớn mạnh mẽ. Một “mô hình cơ sở” mạnh mẽ và tự phát triển nguồn mở có thể thoát khỏi sự phụ thuộc vào mô hình nguồn mở của bên thứ ba ở một mức độ nhất định và giải quyết các vấn đề cơ bản nhất của mạng điện toán phi tập trung. Đồng thời, việc chứng minh rằng mạng điện toán có thể thực hiện hiệu quả việc đào tạo và lý luận của các mô hình lớn sẽ thuận lợi hơn.

Và “Together” cũng làm như vậy. Mới phát hành; dựa trên; LLaMA;; mô hình ngôn ngữ.

Bước;2. Sức mạnh tính toán phân tán dựa trên lý luận mô hình

Như đã đề cập ở hai phần trên, so với đào tạo mô hình, suy luận mô hình có độ phức tạp tính toán và tương tác dữ liệu thấp hơn, đồng thời phù hợp hơn với môi trường phân tán phi tập trung.

Dựa trên mô hình mã nguồn mở, nhóm R&D của Together; đã thực hiện một loạt bản cập nhật để các mẫu "RedPajama-INCITE-3; B; ;M;2 Pro;processor;MacBook Pro) chạy mượt mà hơn. Đồng thời, mặc dù quy mô của mô hình này nhỏ nhưng khả năng của nó vượt xa các mô hình khác có cùng quy mô và nó đã được áp dụng thực tế trong các tình huống pháp lý, xã hội và các tình huống khác.

Bước;3. Triển khai sức mạnh tính toán phân tán trong đào tạo mô hình

(Vượt qua tắc nghẽn giao tiếp để đào tạo phi tập trung; sơ đồ mạng điện toán)

Trong trung và dài hạn, mặc dù phải đối mặt với những thách thức lớn và tắc nghẽn kỹ thuật, nhưng nó phải là điều hấp dẫn nhất để thực hiện các yêu cầu về sức mạnh tính toán “AI” để đào tạo mô hình quy mô lớn. Cùng nhau; khi bắt đầu thành lập, nó bắt đầu vạch ra cách vượt qua nút cổ chai giao tiếp trong đào tạo phi tập trung. Họ cũng đã xuất bản một bài báo liên quan về NeurIPS 2022: Khắc phục nút cổ chai giao tiếp để đào tạo phi tập trung. Chúng tôi chủ yếu có thể tóm tắt các hướng sau:

Tối ưu hóa lập lịch

Khi đào tạo trong môi trường phi tập trung, điều quan trọng là phải giao các nhiệm vụ nặng về giao tiếp cho các thiết bị có kết nối nhanh hơn vì kết nối giữa các nút có độ trễ và băng thông khác nhau. Cùng nhau; bằng cách xây dựng một mô hình để mô tả chi phí của một chiến lược lập lịch cụ thể, tối ưu hóa tốt hơn các chiến lược lập lịch để giảm thiểu chi phí liên lạc và tối đa hóa thông lượng đào tạo. Đồng thời, nhóm cũng phát hiện ra rằng mặc dù mạng chậm hơn 100 lần nhưng thông lượng đào tạo từ đầu đến cuối chỉ chậm hơn từ 1,7 đến 2,3 lần. Do đó, thật thú vị khi bắt kịp khoảng cách giữa các mạng phân tán và các cụm tập trung thông qua tối ưu hóa lập lịch trình.

Tối ưu hóa nén truyền thông

Cùng nhau; đề xuất nén giao tiếp để kích hoạt chuyển tiếp và độ dốc ngược, giới thiệu thuật toán “AQ-SGD”, cung cấp các đảm bảo nghiêm ngặt cho sự hội tụ giảm dần độ dốc ngẫu nhiên. AQ-SGD; có thể tinh chỉnh các mô hình cơ sở lớn trên các mạng chậm (ví dụ: 500 Mbps), chỉ chậm hơn hiệu suất đào tạo đầu cuối trên các mạng tập trung (ví dụ: 10 Gbps) mà không cần nén;31%; Ngoài ra, AQ-SGD; cũng có thể được kết hợp với các kỹ thuật nén gradient hiện đại (chẳng hạn như; QuantizedAdam) để đạt được; 10%; cải thiện tốc độ từ đầu đến cuối.

Tóm tắt dự án

Cùng nhau; cấu hình nhóm rất toàn diện, các thành viên đều có nền tảng học vấn rất vững chắc và được các chuyên gia trong ngành hỗ trợ từ phát triển mô hình quy mô lớn, điện toán đám mây đến tối ưu hóa phần cứng. Và “Together” thể hiện tư thế kiên nhẫn lâu dài trong việc lập kế hoạch lộ trình, từ phát triển các mô hình lớn mã nguồn mở đến thử nghiệm sức mạnh tính toán nhàn rỗi (chẳng hạn như; mac) trong mạng điện toán phân tán bằng cách sử dụng lý luận mô hình, rồi đến điện toán phân tán. bố trí lực lượng trên huấn luyện mô hình lớn. — Có kiểu tích tụ và cảm giác tóc mỏng đấy :);

Nhưng cho đến nay, chúng ta vẫn chưa thấy quá nhiều kết quả nghiên cứu “Cùng nhau” trong lớp khuyến khích, tôi nghĩ rằng điều này có tầm quan trọng tương tự như nghiên cứu và phát triển công nghệ, và nó là yếu tố then chốt để đảm bảo sự phát triển của mạng điện toán phi tập trung.

2.Gensyn.ai

;(Gensyn.ai)

Từ lộ trình kỹ thuật của “Cùng nhau”, chúng ta có thể hiểu sơ bộ về quy trình triển khai mạng điện toán phi tập trung trong đào tạo và lý luận mô hình, cũng như trọng tâm R&D tương ứng.

Một điểm quan trọng nữa không thể không nhắc đến đó là thiết kế tầng khuyến khích/thuật toán đồng thuận của mạng điện toán, chẳng hạn một mạng xuất sắc cần có:

Đảm bảo lợi ích đủ hấp dẫn;
Đảm bảo rằng mỗi người khai thác đều nhận được những lợi ích xứng đáng, bao gồm chống gian lận và trả nhiều tiền hơn cho nhiều công việc hơn;
Đảm bảo rằng các nhiệm vụ được lên lịch và phân bổ trực tiếp và hợp lý trên các nút khác nhau, và sẽ không có một số lượng lớn các nút nhàn rỗi hoặc quá tải một số nút;
Thuật toán khuyến khích đơn giản và hiệu quả, đồng thời sẽ không gây ra gánh nặng và sự chậm trễ quá mức cho hệ thống;

……

Xem cách thức;Gensyn.ai;thực hiện:

Trở thành một nút

Trước hết, “người giải quyết” trong mạng điện toán cạnh tranh để giành quyền xử lý các nhiệm vụ do “người dùng” gửi thông qua phương thức “đặt giá thầu” và theo quy mô của nhiệm vụ và nguy cơ bị phát hiện là gian lận, người giải quyết; cần thế chấp một số tiền nhất định.

xác minh

Bộ giải; tạo nhiều; điểm kiểm tra (để đảm bảo tính minh bạch và truy xuất nguồn gốc của công việc) trong khi cập nhật; tham số; và sẽ tạo định kỳ lý luận mã hóa mật mã về các tác vụ; bằng chứng (bằng chứng về tiến độ công việc);

Khi Người giải quyết; hoàn thành công việc và tạo ra một phần kết quả tính toán, giao thức sẽ chọn một; người xác minh, người xác minh; cũng sẽ cam kết một số tiền nhất định (để đảm bảo rằng; người xác minh; thực hiện việc xác minh một cách trung thực), và dựa trên trên cung cấp; Một phần của kết quả tính toán.

Nếu ;solver; và ;verifier; phân kỳ

Thông qua cấu trúc dữ liệu dựa trên “cây Merkle”, xác định vị trí chính xác nơi kết quả tính toán khác nhau. Toàn bộ hoạt động xác minh sẽ diễn ra trên chuỗi và những kẻ gian lận sẽ bị khấu trừ vào số tiền đã cam kết.

Tóm tắt dự án

Thiết kế của thuật toán khuyến khích và xác minh khiến; Gensyn.ai; không cần phát lại tất cả kết quả của toàn bộ tác vụ tính toán trong quá trình xác minh mà chỉ cần sao chép và xác minh một phần kết quả theo bằng chứng được cung cấp, giúp cải thiện đáng kể hiệu quả xác minh. Đồng thời, các nút chỉ cần lưu trữ một phần kết quả tính toán, điều này cũng làm giảm mức tiêu thụ không gian lưu trữ và tài nguyên máy tính. Ngoài ra, các nút gian lận tiềm năng không thể dự đoán phần nào sẽ được chọn để xác minh, vì vậy điều này cũng làm giảm nguy cơ gian lận;

Phương pháp xác minh sự khác biệt và phát hiện những kẻ gian lận này cũng có thể nhanh chóng tìm ra lỗi trong quá trình tính toán mà không cần so sánh toàn bộ kết quả tính toán (bắt đầu từ nút gốc của “cây Merkle” và đi xuống từng bước), rất hiệu quả trong xử lý các tác vụ tính toán quy mô lớn.

Tóm lại, mục tiêu thiết kế của lớp khuyến khích/xác minh của Gensyn.ai là: đơn giản và hiệu quả. Tuy nhiên, hiện tại nó chỉ giới hạn ở mức độ lý thuyết và việc triển khai cụ thể có thể gặp phải những thách thức sau:

Trong mô hình kinh tế, làm thế nào để thiết lập các thông số phù hợp để có thể ngăn chặn gian lận một cách hiệu quả mà không đặt ra ngưỡng quá cao đối với người tham gia.
Về mặt triển khai kỹ thuật, làm thế nào để hình thành một bằng chứng lý luận mã hóa định kỳ hiệu quả cũng là một vấn đề phức tạp đòi hỏi kiến thức về mật mã nâng cao.
Về mặt phân bổ nhiệm vụ, riêng cách mạng điện toán lựa chọn và giao nhiệm vụ cho các “bộ giải” khác nhau cũng cần có sự hỗ trợ của thuật toán lập lịch trình hợp lý. cơ chế “đặt giá thầu”, Ví dụ: các nút có sức mạnh tính toán mạnh có thể xử lý các tác vụ quy mô lớn hơn, nhưng không được tham gia ;giá thầu (ở đây liên quan đến vấn đề ưu đãi cho nút ;tính khả dụng;), các nút có sức mạnh tính toán thấp có thể đặt giá thầu cao nhất nhưng không phù hợp để xử lý một số tác vụ điện toán quy mô lớn phức tạp.

4. Nghĩ về tương lai

Câu hỏi ai cần một mạng điện toán phi tập trung vẫn chưa được xác minh. Việc áp dụng sức mạnh tính toán nhàn rỗi để đào tạo mô hình quy mô lớn đòi hỏi tài nguyên sức mạnh tính toán khổng lồ rõ ràng là nhiều nhất; có ý nghĩa cũng là không gian giàu trí tưởng tượng nhất. Nhưng trên thực tế, những nút thắt như giao tiếp và quyền riêng tư khiến chúng ta phải suy nghĩ lại:

Có thực sự hy vọng cho việc đào tạo phi tập trung của các mô hình lớn không?

Nếu bạn nhảy ra khỏi sự đồng thuận này, “kịch bản hạ cánh hợp lý nhất”, thì đó có phải là một kịch bản lớn để áp dụng sức mạnh tính toán phi tập trung vào việc đào tạo các mô hình AI nhỏ không? Từ quan điểm kỹ thuật, các yếu tố hạn chế hiện tại đã được giải quyết do kích thước và kiến trúc của mô hình.Đồng thời, từ quan điểm thị trường, chúng tôi luôn cảm thấy rằng việc đào tạo các mô hình lớn sẽ rất lớn từ bây giờ đến tương lai, nhưng nhỏ; AI; mô hình Thị trường không hấp dẫn?

Tôi không nghĩ vậy. So với các mô hình lớn, các mô hình “AI” nhỏ dễ triển khai và quản lý hơn, đồng thời hiệu quả hơn về tốc độ xử lý và mức sử dụng bộ nhớ. Trong một số lượng lớn các tình huống ứng dụng, người dùng hoặc công ty không cần khả năng suy luận tổng quát hơn của các mô hình ngôn ngữ lớn, nhưng nó chỉ liên quan đến một mục tiêu dự đoán rất chi tiết. Do đó, các mô hình “AI” nhỏ vẫn là lựa chọn khả thi hơn trong hầu hết các tình huống và không nên bỏ qua sớm trong làn sóng “fomo” của các mô hình lớn.

Thẩm quyền giải quyết

Giới thiệu về tầm nhìn xa

Foresight Ventures đặt cược vào quá trình đổi mới của tiền điện tử trong vài thập kỷ tới và quản lý nhiều quỹ dưới sự quản lý của mình: VC; quỹ, quỹ quản lý tích cực thứ cấp, đa chiến lược; FOF, mục đích đặc biệt; S; quỹ “Quỹ thứ cấp tầm nhìn xa l” , tổng tài sản Quy mô quản lý vượt ;4;triệu đô la Mỹ. Foresight Ventures tuân thủ khái niệm “Độc đáo, Độc lập, Tích cực, Lâu dài” và cung cấp hỗ trợ rộng rãi cho các dự án thông qua các lực lượng sinh thái mạnh mẽ. Nhóm của nó đến từ các nhân sự cấp cao từ các công ty tài chính và công nghệ hàng đầu bao gồm Sequoia China, CICC, Google, Bitmain, v.v.

Trang mạng:;

** Tuyên bố miễn trừ trách nhiệm: Dự đoán mạo hiểm; tất cả các bài viết không nhằm mục đích tư vấn đầu tư. Đầu tư là rủi ro, vui lòng đánh giá mức độ chấp nhận rủi ro cá nhân của bạn và đưa ra quyết định đầu tư một cách thận trọng. **

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận