Foresight Ventures: una visión racional de las redes eléctricas de computación descentralizada

星球日报

2023-06-01 11:04:41

Autor original: Yihan Xu, Foresight Ventures

##TL;RD

En la actualidad, la combinación de “AI + Crypto” incluye principalmente “2” direcciones relativamente grandes: potencia informática distribuida y “ZKML”. Acerca de “ZKML”, puede consultar mi artículo anterior. Este artículo analizará y reflexionará sobre la red de potencia informática distribuida descentralizada. ;
Bajo la tendencia de desarrollo del modelo grande “IA”, los recursos de potencia informática serán el gran campo de batalla en la próxima década, y también lo más importante para la sociedad humana en el futuro, y no solo se mantendrá comercial competencia, sino también convertirse en un gran país Los recursos estratégicos del juego. En el futuro, la inversión en infraestructura informática de alto rendimiento y las reservas de potencia informática aumentarán exponencialmente.
La red de potencia informática distribuida descentralizada tiene la mayor demanda de IA; entrenamiento de modelos grandes, pero también enfrenta los mayores desafíos y cuellos de botella técnicos. Incluyendo la necesidad de problemas complejos de sincronización de datos y optimización de red. Además, la privacidad y la seguridad de los datos también son limitaciones importantes. Aunque existen algunas técnicas existentes que pueden proporcionar soluciones preliminares, todavía no son aplicables en tareas de entrenamiento distribuidas a gran escala debido a la enorme sobrecarga computacional y de comunicación.
La red de potencia informática distribuida descentralizada tiene más posibilidades de aterrizar en el razonamiento del modelo y puede predecir que el futuro espacio incremental también es lo suficientemente grande. Pero también enfrenta desafíos como el retraso en la comunicación, la privacidad de los datos y la seguridad del modelo. En comparación con el entrenamiento de modelos, la inferencia tiene menor complejidad computacional e interacción de datos, y es más adecuada para entornos distribuidos.
A través de los casos de “Together” y “Gensyn.ai”, dos empresas emergentes, se ilustra la dirección general de la investigación y las ideas específicas de la red de potencia informática distribuida descentralizada desde las perspectivas de la optimización de la tecnología y el diseño de la capa de incentivos.

1. Potencia informática distribuida: formación de modelos grandes

Estamos discutiendo la aplicación del poder de cómputo distribuido en el entrenamiento, y generalmente nos enfocamos en el entrenamiento de modelos de lenguaje grandes. La razón principal es que el entrenamiento de modelos pequeños no requiere mucho poder de cómputo. Para hacer privacidad de datos distribuidos y un montón de proyectos El problema no es rentable, es mejor resolverlo de forma directa y centralizada. El modelo de lenguaje grande tiene una gran demanda de poder de cómputo, y ahora se encuentra en la etapa inicial de la explosión. De 2012 a 2018, la demanda de cómputo de la IA se duplicará cada 4 meses, y ahora es aún más exigente para el poder de cómputo. Los puntos concentrados pueden predecir el futuro, 5-8 años seguirá siendo una gran demanda incremental.

Si bien existen grandes oportunidades, los problemas también deben verse con claridad. Todos saben que la escena es enorme, pero ¿dónde están los desafíos específicos? ¿Quién puede “apuntar” a estos problemas en lugar de entrar ciegamente en el juego, que es el núcleo para juzgar los excelentes proyectos de esta pista?

;(Marco de NVIDIA NeMo Megatron)

1. Proceso general de formación

Tome como ejemplo el entrenamiento de un modelo grande con 175 mil millones de parámetros. Debido al gran tamaño del modelo, debe entrenarse en paralelo en muchos dispositivos “GPU”. Supongamos que hay una sala de computadoras centralizada, hay 100 GPU, cada dispositivo tiene 32 GB de memoria.

Preparación de datos: Primero, se requiere un gran conjunto de datos, que contiene varios datos, como información de Internet, noticias, libros, etc. Estos datos deben procesarse previamente antes del entrenamiento, incluida la limpieza de texto, tokenización, construcción de vocabulario, etc.
División de datos: los datos procesados se dividirán en múltiples lotes para el procesamiento paralelo en múltiples GPU; Suponga que el tamaño del lote seleccionado es 512, es decir, cada lote contiene 512 secuencias de texto. Luego, dividimos todo el conjunto de datos en lotes, formando una cola de lotes.
Transferencia de datos entre dispositivos: al comienzo de cada paso de entrenamiento, la CPU toma un lote de la cola de lotes y luego envía los datos de este lote al bus PCIe a la GPU. Suponiendo que la longitud promedio de cada secuencia de texto es;1024;tokens, entonces el tamaño de los datos de cada lote es aproximadamente;512*1024*4;B=2;MB (suponiendo que cada token utiliza;4;bytes flotantes de precisión simple -representación de puntos). Este proceso de transferencia de datos generalmente solo toma unos pocos milisegundos.
Entrenamiento paralelo: después de recibir los datos, cada dispositivo “GPU” comienza a realizar cálculos de pase hacia adelante y hacia atrás, y calcula el gradiente de cada parámetro. Debido a la gran escala del modelo, la memoria de una sola “GPU” no puede almacenar todos los parámetros, por lo que utilizamos la tecnología paralela del modelo para distribuir los parámetros del modelo en varias “GPU”.
Agregación de gradientes y actualización de parámetros: después de completar el cálculo de retropropagación, cada GPU obtiene el gradiente de una parte de los parámetros. Luego, estos gradientes deben agregarse en todos los dispositivos GPU para calcular los gradientes globales. Esto requiere la transmisión de datos a través de la red, asumiendo que se utiliza la red de “25; Gbps”, entonces la transmisión de "700; GB; ;GB) toma aproximadamente ;224; segundos. Luego, cada GPU actualiza sus parámetros almacenados de acuerdo con el gradiente global.
Sincronización: después de la actualización de parámetros, todos los dispositivos GPU deben sincronizarse para garantizar que todos usen parámetros de modelo consistentes para el siguiente paso de entrenamiento. Esto también requiere la transferencia de datos a través de la red.
Repita los pasos de entrenamiento: repita los pasos anteriores hasta que se complete el entrenamiento de todos los lotes o se alcance el número predeterminado de rondas de entrenamiento (época).

Este proceso implica una gran cantidad de transferencia y sincronización de datos, lo que puede convertirse en un cuello de botella para la eficiencia del entrenamiento. Por lo tanto, la optimización del ancho de banda y la latencia de la red, y el uso de estrategias eficientes de sincronización y paralelo son muy importantes para el entrenamiento de modelos a gran escala.

2. El cuello de botella de la sobrecarga de comunicación:

Cabe señalar que el cuello de botella de la comunicación también es la razón por la cual la red de potencia de computación distribuida actual no puede realizar un entrenamiento de modelo de lenguaje grande.

Cada nodo necesita intercambiar información con frecuencia para trabajar juntos, lo que crea una sobrecarga de comunicación. Para modelos de lenguaje grande, este problema es especialmente serio debido a la gran cantidad de parámetros del modelo. La sobrecarga de comunicación se divide en estos aspectos:

Transmisión de datos: los nodos necesitan intercambiar con frecuencia los parámetros del modelo y la información de gradiente durante el entrenamiento. Esto requiere la transmisión de una gran cantidad de datos en la red, consumiendo una gran cantidad de ancho de banda de la red. Si las condiciones de la red son malas o la distancia entre los nodos informáticos es grande, la demora en la transmisión de datos será alta, lo que aumentará aún más la sobrecarga de comunicación.
Problema de sincronización: durante el entrenamiento, los nodos deben trabajar juntos para garantizar un entrenamiento correcto. Esto requiere frecuentes operaciones de sincronización entre nodos, como actualizar los parámetros del modelo, calcular gradientes globales, etc. Estas operaciones sincrónicas deben transmitir una gran cantidad de datos en la red y deben esperar a que todos los nodos completen la operación, lo que provocará una gran sobrecarga de comunicación y tiempo de espera.
Acumulación y actualización de gradientes: Durante el proceso de entrenamiento, cada nodo necesita calcular su propio gradiente y enviarlo a otros nodos para su acumulación y actualización. Esto requiere la transmisión de una gran cantidad de datos de gradiente en la red y la necesidad de esperar a que todos los nodos completen el cálculo y la transmisión de gradientes, que también es la razón de una gran cantidad de sobrecarga de comunicación.
Coherencia de datos: Es necesario asegurarse de que los parámetros del modelo de cada nodo sean consistentes. Esto requiere sumas de verificación de datos frecuentes y operaciones de sincronización entre nodos, lo que da como resultado una gran cantidad de sobrecarga de comunicación.

Aunque existen algunos métodos para reducir la sobrecarga de comunicación, como la compresión de parámetros y gradientes, estrategias paralelas eficientes, etc., estos métodos pueden introducir una carga computacional adicional o afectar negativamente el efecto de entrenamiento del modelo. Además, estos métodos no pueden resolver por completo el problema de la sobrecarga de comunicación, especialmente en el caso de malas condiciones de la red o grandes distancias entre los nodos informáticos.

Como ejemplo:

Red de energía informática distribuida descentralizada

El modelo GPT-3 tiene 175 mil millones de parámetros, y si usamos números de punto flotante de precisión simple (cada parámetro; 4; bytes) para representar estos parámetros, almacenar estos parámetros requiere ~; 700; GB; de memoria . En el entrenamiento distribuido, estos parámetros deben transmitirse y actualizarse con frecuencia entre los nodos informáticos.

Supongamos que hay; 100; nodos informáticos, y cada nodo necesita actualizar todos los parámetros en cada paso, entonces cada paso necesita transmitir aproximadamente; 70; TB (700; GB*; 100;) de datos. Si asumimos que un paso toma ;1;s (suposición muy optimista), entonces cada segundo ;70;TB; de datos deben transferirse. Esta demanda de ancho de banda ya supera con creces la de la mayoría de las redes y también es una cuestión de viabilidad.

En realidad, debido a los retrasos en la comunicación y la congestión de la red, el tiempo de transmisión de datos puede ser mucho mayor que;1;s. Esto significa que los nodos informáticos pueden necesitar pasar mucho tiempo esperando la transmisión de datos en lugar de realizar cálculos reales. Esto reducirá mucho la eficiencia de la formación, y esta reducción de la eficiencia no se resuelve esperando, sino la diferencia entre factible e inviable, que hará inviable todo el proceso de formación.

Sala de cómputo centralizada

Incluso en un entorno de sala de ordenadores centralizada, el entrenamiento de modelos grandes aún requiere una gran optimización de la comunicación.

En un entorno de sala de informática centralizada, los dispositivos informáticos de alto rendimiento se utilizan como un clúster, conectados a través de una red de alta velocidad para compartir tareas informáticas. Sin embargo, incluso cuando se entrena un modelo con una cantidad extremadamente grande de parámetros en un entorno de red de alta velocidad, la sobrecarga de comunicación sigue siendo un cuello de botella, porque los parámetros y gradientes del modelo deben transmitirse y actualizarse con frecuencia entre varios dispositivos informáticos. .

Como se mencionó al principio, supongamos que hay; 100; nodos de cómputo, cada servidor tiene; 25; Gbps; ancho de banda de red. Si cada servidor necesita actualizar todos los parámetros en cada paso de entrenamiento, entonces cada paso de entrenamiento necesita transmitir alrededor de; 700; GB; los datos necesitan ~; 224; segundos. Al aprovechar la sala de computadoras centralizada, los desarrolladores pueden optimizar la topología de la red dentro del centro de datos y usar tecnologías como el paralelismo de modelos para reducir significativamente este tiempo.

Por el contrario, si el mismo entrenamiento se realiza en un entorno distribuido, se supone que todavía hay; 100; nodos de cómputo distribuidos por todo el mundo, y el ancho de banda de red promedio de cada nodo es solo; 1; Gbps. En este caso, transferir los mismos; 700; GB; datos toma ~; 5600; segundos, mucho más que en una sala de computadoras centralizada. Además, debido a los retrasos y la congestión de la red, el tiempo real requerido puede ser mayor.

Sin embargo, en comparación con la situación en una red de potencia informática distribuida, es relativamente fácil optimizar la sobrecarga de comunicación en un entorno de sala de ordenadores centralizado. Porque en un entorno de sala de computadoras centralizado, los dispositivos informáticos generalmente están conectados a la misma red de alta velocidad, y el ancho de banda y la demora de la red son relativamente buenos. En una red de potencia informática distribuida, los nodos informáticos pueden estar distribuidos por todo el mundo y las condiciones de la red pueden ser relativamente deficientes, lo que hace que el problema de la sobrecarga de comunicaciones sea más grave.

En el proceso de entrenamiento de GPT-3, OpenAI adoptó un marco paralelo modelo llamado “Megatron” para resolver el problema de la sobrecarga de comunicación. Megatron divide los parámetros del modelo y los procesa en paralelo entre múltiples GPU, y cada dispositivo solo es responsable de almacenar y actualizar una parte de los parámetros, reduciendo así la cantidad de parámetros que cada dispositivo necesita procesar y reduciendo la sobrecarga de comunicación. Al mismo tiempo, también se utiliza una red de interconexión de alta velocidad durante el entrenamiento y la longitud de la ruta de comunicación se reduce al optimizar la topología de la red.

(Datos utilizados para entrenar modelos LLM)

3. ¿Por qué la red de potencia informática distribuida no puede realizar estas optimizaciones?

Se puede hacer, pero en comparación con la sala de computadoras centralizada, el efecto de estas optimizaciones es muy limitado.

Optimización de la topología de la red: en la sala de computadoras centralizada, el hardware y el diseño de la red se pueden controlar directamente, por lo que la topología de la red se puede diseñar y optimizar de acuerdo con las necesidades. Sin embargo, en un entorno distribuido, los nodos informáticos se distribuyen en distintas ubicaciones geográficas, incluso uno en China y otro en Estados Unidos, y no hay forma de controlar directamente la conexión de red entre ellos. Aunque se puede usar software para optimizar la ruta de transmisión de datos, no es tan efectivo como optimizar directamente la red de hardware. Al mismo tiempo, debido a las diferencias en las ubicaciones geográficas, los retrasos de la red y los anchos de banda también varían mucho, lo que limita aún más el efecto de la optimización de la topología de la red.
Paralelismo de modelos: El paralelismo de modelos es una tecnología que divide los parámetros del modelo en múltiples nodos de computación y mejora la velocidad de entrenamiento a través del procesamiento paralelo. Sin embargo, este método generalmente necesita transmitir datos entre nodos con frecuencia, por lo que tiene altos requisitos de latencia y ancho de banda de red. En una sala de computadoras centralizada, debido al alto ancho de banda de la red y la baja latencia, el paralelismo de modelos puede ser muy efectivo. Sin embargo, en un entorno distribuido, el paralelismo del modelo está muy limitado debido a las malas condiciones de la red. ; ; ; ; ;

4. Desafíos de privacidad y seguridad de datos

Casi todos los enlaces que involucran el procesamiento y la transmisión de datos pueden afectar la seguridad y privacidad de los datos:

Distribución de datos: los datos de entrenamiento deben distribuirse a cada nodo que participa en el cálculo. Los datos en este enlace pueden usarse/filtrarse de manera malintencionada en nodos distribuidos.
Entrenamiento del modelo: durante el proceso de entrenamiento, cada nodo usará sus datos asignados para el cálculo y luego generará la actualización o el gradiente de los parámetros del modelo. Durante este proceso, si se roba el proceso de cálculo del nodo o se analiza maliciosamente el resultado, también se pueden filtrar datos.
Agregación de parámetros y gradientes: la salida de cada nodo debe agregarse para actualizar el modelo global, y la comunicación durante el proceso de agregación también puede filtrar información sobre los datos de entrenamiento.

**¿Qué soluciones hay disponibles para los problemas de privacidad de datos? **

Computación multipartita segura: SMC; se ha aplicado con éxito en algunas tareas informáticas específicas a pequeña escala. Sin embargo, en tareas de entrenamiento distribuidas a gran escala, debido a su gran sobrecarga computacional y de comunicación, aún no se ha utilizado ampliamente.
Privacidad diferencial: Aplicada en determinadas tareas de recopilación y análisis de datos, como; Chrome; estadísticas de usuarios, etc. Pero en tareas de aprendizaje profundo a gran escala, DP tendrá un impacto en la precisión del modelo. Al mismo tiempo, también es un desafío diseñar un mecanismo apropiado de generación y adición de ruido.
Aprendizaje Federado: Aplicado en tareas de entrenamiento de modelos de algunos dispositivos edge, como; Android; predicción de vocabulario de teclado, etc. Pero en tareas de entrenamiento distribuidas a gran escala, FL se enfrenta a problemas como una alta sobrecarga de comunicación y una coordinación compleja.
Cifrado homomórfico: Ha sido aplicado con éxito en algunas tareas de menor complejidad computacional. Sin embargo, en tareas de entrenamiento distribuidas a gran escala, debido a su alta sobrecarga computacional, aún no ha sido ampliamente utilizado.

Resumen

Cada uno de los métodos anteriores tiene sus escenarios y limitaciones aplicables, y ninguno de los métodos puede resolver por completo el problema de la privacidad de los datos en el entrenamiento de modelos grandes de la red de potencia informática distribuida.

** ¿ZK, que tiene grandes esperanzas, resolverá el problema de privacidad de datos en el entrenamiento de modelos grandes? **

En teoría, ZKP se puede utilizar para garantizar la privacidad de los datos en la computación distribuida, lo que permite que un nodo demuestre que ha realizado cálculos de acuerdo con las regulaciones, pero no necesita revelar los datos reales de entrada y salida.

Pero, de hecho, “ZKP” enfrentará los siguientes cuellos de botella en el escenario del uso de una red de potencia informática distribuida a gran escala para entrenar modelos grandes:

Gastos generales computacionales y de comunicación; arriba: Construir y verificar pruebas de conocimiento cero requiere una gran cantidad de recursos informáticos. Además, ZKP también tiene una gran sobrecarga de comunicación debido a la necesidad de transmitir la prueba en sí. Estos gastos generales pueden volverse especialmente significativos en el caso del entrenamiento de modelos grandes. Por ejemplo, si el cálculo de cada minilote requiere la generación de una prueba, esto puede aumentar significativamente el tiempo y el costo total del entrenamiento.
ZK; Complejidad del protocolo: diseñar e implementar un protocolo “ZKP” adecuado para el entrenamiento de modelos grandes será muy complicado. Este protocolo debe poder manejar datos a gran escala y cálculos complejos, y debe poder manejar posibles errores anormales.
Compatibilidad de hardware y software: el uso de ;ZKP; requiere soporte específico de hardware y software, que puede no estar disponible en todos los dispositivos informáticos distribuidos.

Resumen

Tomará varios años de investigación y desarrollo usar “ZKP” para redes informáticas distribuidas a gran escala para entrenar modelos grandes, y también requerirá más energía y recursos de la comunidad académica en esta dirección.

2. Potencia informática distribuida: razonamiento modelo

Otro escenario relativamente grande de poder de cómputo distribuido es el razonamiento de modelos. De acuerdo con nuestro juicio sobre la ruta de desarrollo de modelos grandes, la demanda de entrenamiento de modelos se ralentizará gradualmente a medida que los modelos grandes maduren después de pasar un punto alto. Los requisitos de inferencia aumentarán correspondientemente exponencialmente con la madurez de los modelos grandes y “AIGC”.

En comparación con las tareas de entrenamiento, las tareas de inferencia suelen tener una menor complejidad computacional y una interacción de datos más débil, y son más adecuadas para entornos distribuidos.

(Power LLM inferencia con NVIDIA Triton)

1. Desafío

Retraso en la comunicación:

En un entorno distribuido, la comunicación entre nodos es fundamental. En una red de potencia informática distribuida descentralizada, los nodos pueden estar repartidos por todo el mundo, por lo que la latencia de la red puede ser un problema, especialmente para tareas de razonamiento que requieren una respuesta en tiempo real.

Implementación y actualización del modelo:

El modelo debe implementarse en cada nodo. Si se actualiza el modelo, cada nodo necesita actualizar su modelo, lo que consume mucho ancho de banda y tiempo de la red.

Privacidad de datos:

Aunque las tareas de inferencia generalmente solo requieren datos y modelos de entrada, y no necesitan devolver una gran cantidad de datos y parámetros intermedios, los datos de entrada aún pueden contener información confidencial, como la información personal de los usuarios.

Seguridad del modelo:

En una red descentralizada, el modelo debe implementarse en nodos no confiables, lo que provocará la fuga del modelo y generará el problema de los derechos de propiedad y el abuso del modelo. Esto también puede generar problemas de seguridad y privacidad, si se usa un modelo para procesar datos confidenciales, los nodos pueden inferir información confidencial al analizar el comportamiento del modelo.

Control de calidad:

Cada nodo en una red de potencia informática distribuida descentralizada puede tener diferentes capacidades y recursos informáticos, lo que puede dificultar la garantía del rendimiento y la calidad de las tareas de inferencia.

2. Viabilidad

Complejidad computacional:

En la fase de entrenamiento, el modelo necesita iterar repetidamente.Durante el proceso de entrenamiento, es necesario calcular la propagación hacia adelante y la propagación hacia atrás de cada capa, incluido el cálculo de la función de activación, el cálculo de la función de pérdida, el cálculo de el gradiente y la actualización del peso. Por lo tanto, la complejidad computacional del entrenamiento de modelos es alta.

En la fase de inferencia, solo se requiere un paso hacia adelante para calcular la predicción. Por ejemplo, en; GPT-3;, es necesario convertir el texto de entrada en un vector, y luego realizar la propagación hacia adelante a través de cada capa del modelo (generalmente; Transformador; capa), y finalmente obtener la distribución de probabilidad de salida, y generar de acuerdo con esta distribución la siguiente palabra. En;GANs;, el modelo necesita generar una imagen basada en el vector de ruido de entrada. Estas operaciones solo involucran la propagación directa del modelo, no necesitan calcular gradientes o actualizar parámetros y tienen una baja complejidad computacional.

Interactividad de datos:

Durante la fase de inferencia, el modelo generalmente procesa una sola entrada en lugar del gran lote de datos durante el entrenamiento. El resultado de cada inferencia solo depende de la entrada actual, no de otra entrada o salida, por lo que no hay necesidad de una gran cantidad de interacción de datos y la presión de comunicación es menor.

Tomando el modelo de imagen generativa como ejemplo, suponiendo que usamos GAN, para generar imágenes, solo necesitamos ingresar un vector de ruido al modelo, y luego el modelo generará una imagen correspondiente. En este proceso, cada entrada solo generará una salida y no hay dependencia entre las salidas, por lo que no hay necesidad de interacción de datos.

Tomando “GPT-3” como ejemplo, cada generación de la siguiente palabra solo requiere la entrada de texto actual y el estado del modelo, y no necesita interactuar con otras entradas o salidas, por lo que el requisito de interactividad de datos también es débil. .

Resumen

Independientemente de si se trata de un modelo de lenguaje grande o un modelo de imagen generativa, la complejidad computacional y la interactividad de los datos de las tareas de razonamiento son relativamente bajas, lo que es más adecuado para las redes de potencia informática distribuida descentralizada, razón por la cual la mayoría de los proyectos que vemos ahora en una dirección de fuerza

3. Proyecto

El umbral técnico y la amplitud técnica de una red de potencia informática distribuida descentralizada son muy altos, y también requiere el apoyo de recursos de hardware, por lo que no hemos visto demasiados intentos ahora. Tome ;Juntos; y ;Gensyn.ai; por ejemplo:

1.Juntos

(Pijama rojo de Together)

Together; es una empresa de código abierto que se enfoca en modelos grandes y está comprometida con soluciones de potencia informática descentralizadas; IA, con la esperanza de que cualquiera pueda acceder y usarlas en cualquier lugar; IA. Juntos;recién completados;Lux Capital;lideró;20;m USD;ronda inicial de financiación.

Juntos; co-fundados por; Chris, Percy, Ce; la intención original es que el entrenamiento de modelos grandes requiera una gran cantidad de clústeres de GPU de gama alta y gastos costosos, y estos recursos y capacidades de entrenamiento de modelos también se concentran en unos pocos grandes compañias.

Desde mi punto de vista, un plan empresarial más razonable para el poder de cómputo distribuido es:

Paso 1. Modelo de código abierto

Para implementar el razonamiento de modelos en una red de potencia de cómputo distribuida descentralizada, el requisito previo es que los nodos deben poder obtener el modelo a bajo costo, es decir, el modelo que utiliza la red de potencia de cómputo descentralizada debe ser de código abierto (si el modelo necesita ser licenciado en el correspondiente Si se usa a continuación, aumentará la complejidad y el costo de la implementación). Por ejemplo, chatgpt, como modelo de código no abierto, no es adecuado para su ejecución en una red de potencia informática descentralizada.

Por lo tanto, se puede especular que la barrera invisible de una empresa que proporciona una red de potencia informática descentralizada debe tener capacidades sólidas de desarrollo y mantenimiento de modelos a gran escala. Desarrollado por sí mismo y de código abierto, un “modelo base” poderoso puede deshacerse de la dependencia del modelo de código abierto de terceros hasta cierto punto, y resolver los problemas más básicos de la red de potencia informática descentralizada. Al mismo tiempo, es más propicio para demostrar que la red de potencia informática puede llevar a cabo de manera efectiva el entrenamiento y el razonamiento de modelos grandes.

Y “Juntos” hace lo mismo. Lanzado recientemente; basado en; LLaMA;; modelo de lenguaje.

Paso 2. La potencia informática distribuida aterriza en el razonamiento del modelo

Como se mencionó en las dos secciones anteriores, en comparación con el entrenamiento de modelos, la inferencia de modelos tiene menor complejidad computacional e interacción de datos, y es más adecuada para un entorno distribuido descentralizado.

Basado en el modelo de código abierto, el equipo de I+D de Together ha realizado una serie de actualizaciones en los modelos "RedPajama-INCITE-3; B; ;M;2 Pro;procesador;MacBook Pro) que funcionan de forma más suave como la seda. Al mismo tiempo, aunque la escala de este modelo es pequeña, su capacidad supera a otros modelos de la misma escala y se ha aplicado prácticamente en escenarios legales, sociales y otros.

Paso 3. La implementación de la potencia informática distribuida en el entrenamiento de modelos

(Superación de cuellos de botella de comunicación para la capacitación descentralizada; diagrama esquemático de la red de potencia informática)

Desde una perspectiva de mediano a largo plazo, aunque enfrenta grandes desafíos y cuellos de botella técnicos, debe ser el más atractivo para cumplir con los requisitos de potencia de cómputo de “IA” para el entrenamiento de modelos a gran escala. Juntos, al inicio de su establecimiento, comenzó a plantear cómo superar el cuello de botella de comunicación en la formación descentralizada. También publicaron un artículo relacionado sobre NeurIPS 2022: Superación de los cuellos de botella de comunicación para la capacitación descentralizada. Principalmente podemos resumir las siguientes direcciones:

Optimización de programación

Cuando se entrena en un entorno descentralizado, es importante asignar tareas de comunicación intensiva a dispositivos con conexiones más rápidas porque las conexiones entre nodos tienen diferentes latencias y anchos de banda. Juntos, al construir un modelo para describir el costo de una estrategia de programación específica, optimice mejor las estrategias de programación para minimizar los costos de comunicación y maximizar el rendimiento de la capacitación. Juntos, el equipo también descubrió que, aunque la red era 100 veces más lenta, el rendimiento del entrenamiento de extremo a extremo era solo de 1,7 a 2,3 veces más lento. Por lo tanto, es interesante recuperar la brecha entre las redes distribuidas y los clústeres centralizados mediante la optimización de la programación.

Optimización de la compresión de comunicaciones

En conjunto, propone la compresión de comunicación para activaciones hacia adelante y gradientes hacia atrás, introduciendo el algoritmo “AQ-SGD”, que proporciona garantías estrictas para la convergencia de descenso de gradiente estocástico. AQ-SGD; capaz de ajustar con precisión modelos de base grande en redes lentas (p. ej., 500 Mbps), solo más lento que el rendimiento de entrenamiento de extremo a extremo en redes centralizadas (p. ej., 10 Gbps) sin compresión; 31 %;. Además, AQ-SGD también se puede combinar con técnicas de compresión de gradiente de última generación (como QuantizedAdam) para lograr una mejora de la velocidad de extremo a extremo del 10 %.

Resumen del proyecto

Juntos, la configuración del equipo es muy completa y todos los miembros tienen una formación académica muy sólida. Están respaldados por expertos de la industria desde el desarrollo de modelos a gran escala, computación en la nube hasta optimización de hardware. Y “Juntos” muestra una postura paciente a largo plazo en la planificación de rutas, desde el desarrollo de grandes modelos de código abierto hasta la prueba de la potencia informática inactiva (como, por ejemplo, mac) en la red de potencia informática distribuida mediante el razonamiento de modelos, y luego a la informática distribuida. Disposición de fuerzas en entrenamiento de modelos grandes. — Hay ese tipo de acumulación y sensación de cabello fino:);

Pero hasta ahora, no hemos visto demasiados resultados de investigación “Juntos” en la capa de incentivos. Creo que esto tiene la misma importancia que la investigación y el desarrollo de tecnología, y es un factor clave para garantizar el desarrollo de la red de potencia informática descentralizada.

2.Gensyn.ai

;(Gensyn.ai)

Desde la ruta técnica de “Juntos”, podemos comprender aproximadamente el proceso de implementación de la red de potencia informática descentralizada en el entrenamiento y el razonamiento del modelo, así como el enfoque de I+D correspondiente.

Otro punto importante que no se puede ignorar es el diseño de la capa de incentivos/algoritmo de consenso de la red de potencia de cómputo, por ejemplo, una red excelente debe tener:

Asegúrese de que los beneficios sean lo suficientemente atractivos;
Garantizar que cada minero obtenga los beneficios que se merece, incluida la lucha contra las trampas y más paga por más trabajo;
Asegúrese de que las tareas se programen y asignen directa y razonablemente en diferentes nodos, y que no haya una gran cantidad de nodos inactivos o sobrecarga de algunos nodos;
El algoritmo de incentivos es simple y eficiente, y no causará una carga ni un retraso excesivos en el sistema;

……

Vea cómo;Gensyn.ai;lo hace:

Conviértete en un Nodo

En primer lugar, el “solucionador” en la red de potencia informática compite por el derecho a procesar las tareas enviadas por el “usuario” a través del método de “oferta”, y de acuerdo con la escala de la tarea y el riesgo de ser encontrado engañando, el solucionador; necesita hipotecar una cierta cantidad.

verificar

Solver; durante la actualización; parámetros; genera múltiples; puntos de control (para garantizar la transparencia y la trazabilidad del trabajo), y generará periódicamente razonamiento criptográfico de cifrado sobre las tareas; pruebas (pruebas del progreso del trabajo);

Cuando el Solucionador complete el trabajo y produzca una parte de los resultados del cálculo, el protocolo elegirá un verificador, verificador; también prometerá una cierta cantidad (para garantizar que el verificador realice la verificación honestamente), y en base a la proporcionado arriba; Parte de los resultados del cálculo.

Si el ;solucionador; y el ;verificador; divergen

A través de la estructura de datos basada en el “árbol de Merkle”, localice la ubicación exacta donde difieren los resultados del cálculo. Toda la operación de verificación estará en la cadena y los tramposos se deducirán de la cantidad prometida.

Resumen del proyecto

El diseño del algoritmo de incentivo y verificación hace que Gensyn.ai no necesite reproducir todos los resultados de toda la tarea informática durante el proceso de verificación, sino que solo necesita copiar y verificar una parte de los resultados de acuerdo con la prueba proporcionada, lo que mejora en gran medida la eficiencia de verificación. Al mismo tiempo, los nodos solo necesitan almacenar parte de los resultados de los cálculos, lo que también reduce el consumo de espacio de almacenamiento y recursos informáticos. Además, los posibles nodos de trampas no pueden predecir qué partes se seleccionarán para la verificación, por lo que esto también reduce el riesgo de trampas;

Este método de verificación de diferencias y descubrimiento de tramposos también puede encontrar rápidamente el error en el proceso de cálculo sin comparar todo el resultado del cálculo (comenzando desde el nodo raíz del “árbol de Merkle” y recorriendo paso a paso), lo cual es muy efectivo. en el manejo de tareas informáticas a gran escala.

En resumen, el objetivo de diseño de la capa de incentivos/verificación de Gensyn.ai es: simple y eficiente. Sin embargo, actualmente se limita al nivel teórico, y la implementación específica puede enfrentar los siguientes desafíos:

En el modelo económico, cómo establecer los parámetros adecuados para que pueda prevenir eficazmente el fraude sin establecer un umbral demasiado alto para los participantes.
En términos de implementación técnica, cómo formular una prueba de razonamiento de encriptación periódica efectiva también es un tema complejo que requiere conocimientos criptográficos avanzados.
En términos de asignación de tareas, solo la forma en que la red de poder de cómputo selecciona y asigna tareas a diferentes “solucionadores” también requiere el apoyo de un algoritmo de programación razonable. Obviamente, es cuestionable en términos de eficiencia y factibilidad para asignar tareas solo de acuerdo con el mecanismo de “oferta”. Por ejemplo, los nodos con un gran poder de cómputo pueden manejar tareas de mayor escala, pero no pueden participar en la ;oferta (aquí se trata de la cuestión de los incentivos para la ;disponibilidad del nodo); los nodos con un bajo poder de cómputo pueden ofertar el más alto, pero no son adecuados para procesar algunas tareas informáticas complejas a gran escala.

4. Pensar en el futuro

La cuestión de quién necesita una red de potencia informática descentralizada no se ha verificado. La aplicación de la potencia informática inactiva al entrenamiento de modelos a gran escala que requiere enormes recursos de potencia informática es obviamente el más importante; tener sentido es también el espacio más imaginativo. Pero, de hecho, cuellos de botella como la comunicación y la privacidad nos tienen que hacer replantearnos:

¿Hay realmente esperanza para el entrenamiento descentralizado de modelos grandes?

Si salta de este consenso, “el escenario de aterrizaje más razonable”, ¿es un gran escenario para aplicar el poder de cómputo descentralizado al entrenamiento de pequeños modelos de IA? Desde un punto de vista técnico, se han resuelto las limitaciones actuales por el tamaño y la arquitectura del modelo, al mismo tiempo, desde el punto de vista del mercado, siempre hemos sentido que el entrenamiento de modelos grandes será enorme desde ahora hacia el futuro, pero pequeño, AI, modelo ¿El mercado es poco atractivo?

No me parece. En comparación con los modelos grandes, los modelos pequeños de IA son más fáciles de implementar y administrar, y son más eficientes en términos de velocidad de procesamiento y uso de memoria.En una gran cantidad de escenarios de aplicaciones, los usuarios o las empresas no necesitan las capacidades de razonamiento más generales del lenguaje grande. modelos, pero solo se ocupa de un objetivo de predicción muy detallado. Por lo tanto, los modelos pequeños de “IA” siguen siendo la opción más viable en la mayoría de los escenarios y no deben ignorarse prematuramente en la marea “fomo” de los modelos grandes.

Referencia

Acerca de Foresight Ventures

Foresight Ventures apuesta al proceso de innovación de las criptomonedas en las próximas décadas, y maneja múltiples fondos bajo su administración: VC; fondo, fondo secundario de gestión activa, multiestrategia; FOF, propósito especial; S; fondo “Foresight Secondary Fund l” , activos totales La escala de gestión supera los 4 millones de dólares estadounidenses. Foresight Ventures se adhiere al concepto de “Único, Independiente, Agresivo, a largo plazo” y brinda un amplio apoyo para proyectos a través de fuertes fuerzas ecológicas. Su equipo está formado por personal senior de las principales empresas financieras y tecnológicas, incluidas Sequoia China, CICC, Google, Bitmain, etc.

Sitio web:;

**Descargo de responsabilidad: Foresight Ventures; todos los artículos no pretenden ser un consejo de inversión. La inversión es riesgosa, evalúe su tolerancia personal al riesgo y tome decisiones de inversión con prudencia. **

Ver originales

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

Sin comentarios