Al aprovechar el poder de los algoritmos, la potencia informática y los datos, el avance de la tecnología de IA está redefiniendo los límites del procesamiento de datos y la toma de decisiones inteligente. Al mismo tiempo, DePIN representa un cambio de paradigma de una infraestructura centralizada a redes descentralizadas basadas en blockchain.
A medida que el mundo acelera su ritmo hacia la transformación digital, la IA y DePIN (infraestructura física descentralizada) se han convertido en tecnologías fundamentales que impulsan la transformación en todas las industrias. La fusión de AI y DePIN no solo promueve una rápida iteración tecnológica y una aplicación generalizada, sino que también abre un modelo de servicio más seguro, transparente y eficiente, lo que trae cambios profundos a la economía global.
DePIN es la abreviatura de Infraestructura Física Descentralizada. En un sentido estricto, DePIN se refiere principalmente a la red distribuida de infraestructura física tradicional respaldada por tecnología de contabilidad distribuida, como redes eléctricas, redes de comunicación, redes de posicionamiento, etc. En términos generales, todas las redes distribuidas respaldadas por dispositivos físicos pueden denominarse DePIN. como redes de almacenamiento y redes informáticas.
Fuente de la imagen: Messari
Si Crypto ha provocado cambios descentralizados a nivel financiero, entonces DePIN es una solución descentralizada en la economía real. Se puede decir que la máquina minera PoW es una especie de DePIN. Entonces, DePIN ha sido un pilar fundamental de Web3 desde el primer día.
Generalmente se considera que el desarrollo de la inteligencia artificial se basa en tres elementos clave: algoritmos, potencia informática y datos. Los algoritmos se refieren a los modelos matemáticos y la lógica del programa que impulsan los sistemas de IA, la potencia informática se refiere a los recursos informáticos necesarios para ejecutar estos algoritmos y los datos son la base para entrenar y optimizar los modelos de IA.
¿Cuál de los tres elementos es el más importante? Antes de la aparición de chatGPT, la gente generalmente lo consideraba un algoritmo; de lo contrario, las conferencias académicas y los artículos de revistas no estarían llenos de ajustes de algoritmos uno tras otro. Pero cuando se dieron a conocer chatGPT y el modelo de lenguaje grande LLM que respalda su inteligencia, la gente comenzó a darse cuenta de la importancia de los dos últimos. Una potencia informática masiva es el requisito previo para el nacimiento de modelos. La calidad y diversidad de los datos son cruciales para construir un sistema de IA sólido y eficiente. En comparación, los requisitos para los algoritmos ya no son tan exigentes como antes.
En la era de los grandes modelos, la IA ha pasado del ajuste fino a la fuerza bruta, con una demanda cada vez mayor de datos y potencia computacional. Resulta que DePIN puede proporcionar eso. Los incentivos simbólicos aprovecharán el mercado de cola larga, donde la potencia informática y el almacenamiento masivos para el consumidor se convertirán en el mejor alimento para los modelos grandes.
Por supuesto, alguien podría preguntarse, ¿por qué elegir DePIN en lugar de servicios centralizados cuando tanto la potencia computacional como los datos están disponibles en los centros de datos de AWS y, además, AWS supera a DePIN en términos de estabilidad y experiencia de usuario?
Esta afirmación, naturalmente, tiene su fundamento. Al fin y al cabo, en la situación actual, casi todos los grandes modelos son desarrollados directa o indirectamente por grandes empresas de Internet. Detrás de chatGPT está Microsoft y detrás de Gemini está Google. En China, casi todas las grandes empresas de Internet tienen un modelo grande. ¿Porqué es eso? Esto se debe a que sólo las grandes empresas de Internet tienen el poder computacional respaldado por datos de alta calidad y sólidos recursos financieros. Pero esto no es correcto. La gente ya no quiere ser manipulada por los gigantes de Internet.
Por un lado, la IA centralizada conlleva riesgos de seguridad y privacidad de los datos y puede estar sujeta a censura y control. Por otro lado, la IA producida por los gigantes de Internet fortalecerá aún más la dependencia de las personas, conducirá a la concentración del mercado y aumentará las barreras a la innovación.
desde: https://www.gensyn.ai/
La humanidad ya no debería necesitar a un Martín Lutero en la era de la IA. La gente debería tener derecho a hablar directamente con Dios.
Incluso dejando de lado el debate entre los valores de descentralización y centralización, desde una perspectiva empresarial, todavía existen ventajas al utilizar DePIN para la IA.
En primer lugar, es importante reconocer que, aunque los gigantes de Internet controlan una gran cantidad de recursos de tarjetas gráficas de alta gama, la combinación de tarjetas gráficas de consumo en manos de individuos aún puede formar una importante red de potencia informática, conocida como la cola larga. efecto de la potencia de cálculo. Estas tarjetas gráficas de consumo suelen tener altas tasas de inactividad. Mientras los incentivos proporcionados por DePIN excedan el costo de la electricidad, los usuarios tendrán la motivación para contribuir con su potencia informática a la red. Además, dado que los usuarios administran ellos mismos la infraestructura física, la red DePIN no soporta los costos operativos que los proveedores centralizados no pueden evitar y puede centrarse únicamente en el diseño del protocolo.
En el caso de los datos, la red DePIN puede desbloquear la usabilidad potencial de los datos y reducir los costos de transmisión a través de la informática de punta y otros métodos. Además, la mayoría de las redes de almacenamiento distribuidas tienen capacidades de deduplicación automática, lo que reduce la necesidad de una limpieza exhaustiva de datos en la capacitación en IA.
Por último, la criptoeconomía aportada por DePIN mejora la tolerancia a fallos del sistema y tiene el potencial de lograr una situación beneficiosa para los proveedores, los consumidores y las plataformas.
Imagen de: UCLA
En caso de que no lo creas, la última investigación de UCLA muestra que el uso de la computación descentralizada logra un rendimiento 2,75 veces mejor que los clústeres de GPU tradicionales al mismo costo. En concreto, es 1,22 veces más rápido y 4,83 veces más barato.
Elegimos ir a la luna y hacer otras cosas en esta década no porque sean fáciles, sino porque son difíciles. -John Fitzgerald Kennedy
El uso del almacenamiento distribuido y la computación distribuida de DePIN para construir modelos de IA sin confianza todavía plantea muchos desafíos.
Esencialmente, tanto el cálculo del modelo de aprendizaje profundo como la minería PoW son formas de cálculo general, con cambios de señal subyacentes entre los circuitos de puerta. A nivel macro, la minería PoW es un "cálculo inútil", que intenta encontrar un valor hash con un prefijo de n ceros a través de innumerables cálculos de funciones hash y generación de números aleatorios. Por otro lado, la computación de aprendizaje profundo es una "computación útil", que calcula los valores de los parámetros de cada capa en el aprendizaje profundo mediante la propagación hacia adelante y hacia atrás, construyendo así un modelo de IA eficiente.
El hecho es que los "cálculos inútiles", como la minería PoW, utilizan funciones hash. Es fácil calcular la imagen a partir de la imagen original, pero es difícil calcular la imagen original a partir de la imagen, por lo que cualquiera puede verificar fácil y rápidamente la validez del cálculo; Para el cálculo del modelo de aprendizaje profundo, debido a la estructura jerárquica, la salida de cada capa se utiliza como entrada de la siguiente capa. Por lo tanto, verificar la validez del cálculo requiere realizar todo el trabajo previo, y no puede verificarse de manera simple y efectiva.
Imagen de: AWS
La verificación del trabajo es muy crítica; de lo contrario, el proveedor del cálculo no podría realizar el cálculo en absoluto y enviar un resultado generado aleatoriamente.
Una idea es hacer que diferentes servidores realicen las mismas tareas informáticas y verificar la efectividad del trabajo repitiendo la ejecución y comprobando si es el mismo. Sin embargo, la gran mayoría de los cálculos del modelo no son deterministas y los mismos resultados no se pueden reproducir ni siquiera en el mismo entorno informático, y sólo pueden ser similares en un sentido estadístico. Además, la doble contabilización conducirá a un rápido aumento de los costos, lo que es inconsistente con el objetivo clave de DePIN de reducir costos y aumentar la eficiencia.
Otra categoría de ideas es el mecanismo optimista, que asume de manera optimista que el resultado se calcula correctamente y permite que cualquiera pueda verificar el resultado del cálculo. Si se encuentra algún error, se puede enviar una prueba de fraude. El protocolo penaliza al defraudador y recompensa al denunciante.
Como se mencionó anteriormente, DePIN aprovecha principalmente el mercado de potencia informática de consumo de cola larga, lo que significa que la potencia informática proporcionada por un solo dispositivo es relativamente limitada. Para modelos de IA grandes, el entrenamiento en un solo dispositivo llevará mucho tiempo y se debe utilizar la paralelización para acortar el tiempo de entrenamiento.
La principal dificultad para paralelizar el entrenamiento de aprendizaje profundo radica en la dependencia entre las tareas anteriores y posteriores, lo que dificulta la paralelización.
Actualmente, la paralelización del entrenamiento de aprendizaje profundo se divide principalmente en paralelismo de datos y paralelismo de modelos.
El paralelismo de datos se refiere a la distribución de datos entre varias máquinas. Cada máquina guarda todos los parámetros de un modelo, utiliza datos locales para el entrenamiento y finalmente agrega los parámetros de cada máquina. El paralelismo de datos funciona bien cuando la cantidad de datos es grande, pero requiere comunicación sincrónica para agregar parámetros.
El paralelismo del modelo significa que cuando el tamaño del modelo es demasiado grande para caber en una sola máquina, el modelo se puede dividir en varias máquinas y cada máquina guarda una parte de los parámetros del modelo. Las propagaciones hacia adelante y hacia atrás requieren comunicación entre diferentes máquinas. El paralelismo del modelo tiene ventajas cuando el modelo es grande, pero la sobrecarga de comunicación durante la propagación hacia adelante y hacia atrás es grande.
La información de gradiente entre diferentes capas se puede dividir en actualización sincrónica y actualización asincrónica. La actualización sincrónica es simple y directa, pero aumentará el tiempo de espera; el algoritmo de actualización asincrónica tiene un tiempo de espera breve, pero introducirá problemas de estabilidad.
Imagen de: Universidad de Stanford, Aprendizaje profundo paralelo y distribuido
La tendencia global de proteger la privacidad personal está aumentando y los gobiernos de todo el mundo están fortaleciendo la protección de la seguridad de la privacidad de los datos personales. Aunque la IA hace un uso extensivo de conjuntos de datos públicos, lo que realmente diferencia los diferentes modelos de IA son los datos de usuario exclusivos de cada empresa.
¿Cómo obtener los beneficios de los datos privados durante la capacitación sin exponer la privacidad? ¿Cómo garantizar que no se filtren los parámetros del modelo de IA construido?
Estos son dos aspectos de la privacidad, la privacidad de los datos y la privacidad del modelo. La privacidad de los datos protege a los usuarios, mientras que la privacidad del modelo protege a la organización que construye el modelo. En el escenario actual, la privacidad de los datos es mucho más importante que la privacidad del modelo.
Se están intentando diversas soluciones para abordar la cuestión de la privacidad. El aprendizaje federado garantiza la privacidad de los datos mediante la capacitación en la fuente de los datos, manteniéndolos localmente y transmitiendo los parámetros del modelo; y la prueba de conocimiento cero puede convertirse en una estrella en ascenso.
Gensyn
Gensyn es una red informática distribuida diseñada para entrenar modelos de IA. La red utiliza una cadena de bloques de capa uno basada en Polkadot para verificar la ejecución adecuada de las tareas de aprendizaje profundo y activar pagos mediante comandos. Fundada en 2020, reveló una ronda de financiación Serie A de 43 millones de dólares en junio de 2023, con a16z liderando la inversión.
Gensyn utiliza los metadatos del proceso de optimización basado en gradientes para crear certificados del trabajo realizado, ejecutados consistentemente mediante un protocolo de precisión multigranular basado en gráficos y un evaluador cruzado para permitir que los trabajos de validación se vuelvan a ejecutar y comparar para mantener la coherencia. y finalmente por la cadena Confírmalo tú mismo para asegurar la validez del cálculo. Para fortalecer aún más la confiabilidad de la verificación del trabajo, Gensyn introduce apuestas para crear incentivos.
Hay cuatro tipos de participantes en el sistema: remitentes, solucionadores, verificadores y denunciantes.
• Los remitentes son usuarios finales del sistema que proporcionan tareas para ser calculadas y se les paga por las unidades de trabajo completadas.
• El solucionador es el principal trabajador del sistema, realiza el entrenamiento del modelo y genera pruebas para que el verificador las inspeccione.
• El validador es clave para vincular el proceso de entrenamiento no determinista con el cálculo lineal determinista, replicar pruebas parciales del solucionador y comparar distancias con umbrales esperados.
• El denunciante es la última línea de defensa, verifica el trabajo del verificador y plantea desafíos, y recibe recompensas después de superar el desafío.
El solucionador debe hacer una promesa y el denunciante pone a prueba el trabajo del solucionador. Si descubre alguna maldad, la desafiará. Una vez superado el desafío, las fichas apostadas por el solucionador serán multadas y el denunciante será recompensado.
Según las predicciones de Gensyn, se espera que esta solución reduzca los costos de capacitación a 1/5 de los de los proveedores centralizados.
Fuente: Gensyn
FedML
FedML es una plataforma colaborativa descentralizada de aprendizaje automático para IA descentralizada y colaborativa, en cualquier lugar y a cualquier escala. Más específicamente, FedML proporciona un ecosistema MLOps que entrena, implementa, monitorea y mejora continuamente modelos de aprendizaje automático mientras colabora en datos, modelos y recursos informáticos combinados de una manera que preserva la privacidad. Fundada en 2022, FedML reveló una ronda inicial de 6 millones de dólares en marzo de 2023.
FedML consta de dos componentes clave: FedML-API y FedML-core, que representan API de alto nivel y API de bajo nivel respectivamente.
FedML-core incluye dos módulos independientes: comunicación distribuida y capacitación de modelos. El módulo de comunicación es responsable de la comunicación subyacente entre diferentes trabajadores/clientes y está basado en MPI; el módulo de capacitación modelo está basado en PyTorch.
FedML-API se basa en FedML-core. Con FedML-core, se pueden implementar fácilmente nuevos algoritmos distribuidos mediante la adopción de interfaces de programación orientadas al cliente.
El último trabajo del equipo de FedML demuestra que usar FedML Nexus AI para la inferencia de modelos de IA en la GPU RTX 4090 de consumo es 20 veces más barato y 1,88 veces más rápido que usar A100.
de: FedML
Un día, la IA se convertirá aún más en AGI y la potencia informática se convertirá en la moneda universal de facto. DePIN hará que este proceso se realice con anticipación.
La intersección y colaboración de AI y DePIN ha abierto un nuevo punto de crecimiento tecnológico, brindando enormes oportunidades para el desarrollo de la inteligencia artificial. DePIN proporciona a la IA datos y potencia informática distribuida masiva, lo que ayuda a entrenar modelos a mayor escala y lograr una inteligencia más sólida. Al mismo tiempo, DePIN también permite que la IA se desarrolle hacia una dirección más abierta, segura y confiable, reduciendo la dependencia de una única infraestructura centralizada.
De cara al futuro, la IA y DePIN seguirán desarrollándose en sinergia. Las redes distribuidas proporcionarán una base sólida para entrenar modelos supergrandes, que desempeñarán un papel importante en las aplicaciones DePIN. Al tiempo que protege la privacidad y la seguridad, la IA también contribuirá a la optimización de los protocolos y algoritmos de la red DePIN. Esperamos que AI y DePIN brinden un mundo digital más eficiente, justo y confiable.
Bagikan
Konten
Al aprovechar el poder de los algoritmos, la potencia informática y los datos, el avance de la tecnología de IA está redefiniendo los límites del procesamiento de datos y la toma de decisiones inteligente. Al mismo tiempo, DePIN representa un cambio de paradigma de una infraestructura centralizada a redes descentralizadas basadas en blockchain.
A medida que el mundo acelera su ritmo hacia la transformación digital, la IA y DePIN (infraestructura física descentralizada) se han convertido en tecnologías fundamentales que impulsan la transformación en todas las industrias. La fusión de AI y DePIN no solo promueve una rápida iteración tecnológica y una aplicación generalizada, sino que también abre un modelo de servicio más seguro, transparente y eficiente, lo que trae cambios profundos a la economía global.
DePIN es la abreviatura de Infraestructura Física Descentralizada. En un sentido estricto, DePIN se refiere principalmente a la red distribuida de infraestructura física tradicional respaldada por tecnología de contabilidad distribuida, como redes eléctricas, redes de comunicación, redes de posicionamiento, etc. En términos generales, todas las redes distribuidas respaldadas por dispositivos físicos pueden denominarse DePIN. como redes de almacenamiento y redes informáticas.
Fuente de la imagen: Messari
Si Crypto ha provocado cambios descentralizados a nivel financiero, entonces DePIN es una solución descentralizada en la economía real. Se puede decir que la máquina minera PoW es una especie de DePIN. Entonces, DePIN ha sido un pilar fundamental de Web3 desde el primer día.
Generalmente se considera que el desarrollo de la inteligencia artificial se basa en tres elementos clave: algoritmos, potencia informática y datos. Los algoritmos se refieren a los modelos matemáticos y la lógica del programa que impulsan los sistemas de IA, la potencia informática se refiere a los recursos informáticos necesarios para ejecutar estos algoritmos y los datos son la base para entrenar y optimizar los modelos de IA.
¿Cuál de los tres elementos es el más importante? Antes de la aparición de chatGPT, la gente generalmente lo consideraba un algoritmo; de lo contrario, las conferencias académicas y los artículos de revistas no estarían llenos de ajustes de algoritmos uno tras otro. Pero cuando se dieron a conocer chatGPT y el modelo de lenguaje grande LLM que respalda su inteligencia, la gente comenzó a darse cuenta de la importancia de los dos últimos. Una potencia informática masiva es el requisito previo para el nacimiento de modelos. La calidad y diversidad de los datos son cruciales para construir un sistema de IA sólido y eficiente. En comparación, los requisitos para los algoritmos ya no son tan exigentes como antes.
En la era de los grandes modelos, la IA ha pasado del ajuste fino a la fuerza bruta, con una demanda cada vez mayor de datos y potencia computacional. Resulta que DePIN puede proporcionar eso. Los incentivos simbólicos aprovecharán el mercado de cola larga, donde la potencia informática y el almacenamiento masivos para el consumidor se convertirán en el mejor alimento para los modelos grandes.
Por supuesto, alguien podría preguntarse, ¿por qué elegir DePIN en lugar de servicios centralizados cuando tanto la potencia computacional como los datos están disponibles en los centros de datos de AWS y, además, AWS supera a DePIN en términos de estabilidad y experiencia de usuario?
Esta afirmación, naturalmente, tiene su fundamento. Al fin y al cabo, en la situación actual, casi todos los grandes modelos son desarrollados directa o indirectamente por grandes empresas de Internet. Detrás de chatGPT está Microsoft y detrás de Gemini está Google. En China, casi todas las grandes empresas de Internet tienen un modelo grande. ¿Porqué es eso? Esto se debe a que sólo las grandes empresas de Internet tienen el poder computacional respaldado por datos de alta calidad y sólidos recursos financieros. Pero esto no es correcto. La gente ya no quiere ser manipulada por los gigantes de Internet.
Por un lado, la IA centralizada conlleva riesgos de seguridad y privacidad de los datos y puede estar sujeta a censura y control. Por otro lado, la IA producida por los gigantes de Internet fortalecerá aún más la dependencia de las personas, conducirá a la concentración del mercado y aumentará las barreras a la innovación.
desde: https://www.gensyn.ai/
La humanidad ya no debería necesitar a un Martín Lutero en la era de la IA. La gente debería tener derecho a hablar directamente con Dios.
Incluso dejando de lado el debate entre los valores de descentralización y centralización, desde una perspectiva empresarial, todavía existen ventajas al utilizar DePIN para la IA.
En primer lugar, es importante reconocer que, aunque los gigantes de Internet controlan una gran cantidad de recursos de tarjetas gráficas de alta gama, la combinación de tarjetas gráficas de consumo en manos de individuos aún puede formar una importante red de potencia informática, conocida como la cola larga. efecto de la potencia de cálculo. Estas tarjetas gráficas de consumo suelen tener altas tasas de inactividad. Mientras los incentivos proporcionados por DePIN excedan el costo de la electricidad, los usuarios tendrán la motivación para contribuir con su potencia informática a la red. Además, dado que los usuarios administran ellos mismos la infraestructura física, la red DePIN no soporta los costos operativos que los proveedores centralizados no pueden evitar y puede centrarse únicamente en el diseño del protocolo.
En el caso de los datos, la red DePIN puede desbloquear la usabilidad potencial de los datos y reducir los costos de transmisión a través de la informática de punta y otros métodos. Además, la mayoría de las redes de almacenamiento distribuidas tienen capacidades de deduplicación automática, lo que reduce la necesidad de una limpieza exhaustiva de datos en la capacitación en IA.
Por último, la criptoeconomía aportada por DePIN mejora la tolerancia a fallos del sistema y tiene el potencial de lograr una situación beneficiosa para los proveedores, los consumidores y las plataformas.
Imagen de: UCLA
En caso de que no lo creas, la última investigación de UCLA muestra que el uso de la computación descentralizada logra un rendimiento 2,75 veces mejor que los clústeres de GPU tradicionales al mismo costo. En concreto, es 1,22 veces más rápido y 4,83 veces más barato.
Elegimos ir a la luna y hacer otras cosas en esta década no porque sean fáciles, sino porque son difíciles. -John Fitzgerald Kennedy
El uso del almacenamiento distribuido y la computación distribuida de DePIN para construir modelos de IA sin confianza todavía plantea muchos desafíos.
Esencialmente, tanto el cálculo del modelo de aprendizaje profundo como la minería PoW son formas de cálculo general, con cambios de señal subyacentes entre los circuitos de puerta. A nivel macro, la minería PoW es un "cálculo inútil", que intenta encontrar un valor hash con un prefijo de n ceros a través de innumerables cálculos de funciones hash y generación de números aleatorios. Por otro lado, la computación de aprendizaje profundo es una "computación útil", que calcula los valores de los parámetros de cada capa en el aprendizaje profundo mediante la propagación hacia adelante y hacia atrás, construyendo así un modelo de IA eficiente.
El hecho es que los "cálculos inútiles", como la minería PoW, utilizan funciones hash. Es fácil calcular la imagen a partir de la imagen original, pero es difícil calcular la imagen original a partir de la imagen, por lo que cualquiera puede verificar fácil y rápidamente la validez del cálculo; Para el cálculo del modelo de aprendizaje profundo, debido a la estructura jerárquica, la salida de cada capa se utiliza como entrada de la siguiente capa. Por lo tanto, verificar la validez del cálculo requiere realizar todo el trabajo previo, y no puede verificarse de manera simple y efectiva.
Imagen de: AWS
La verificación del trabajo es muy crítica; de lo contrario, el proveedor del cálculo no podría realizar el cálculo en absoluto y enviar un resultado generado aleatoriamente.
Una idea es hacer que diferentes servidores realicen las mismas tareas informáticas y verificar la efectividad del trabajo repitiendo la ejecución y comprobando si es el mismo. Sin embargo, la gran mayoría de los cálculos del modelo no son deterministas y los mismos resultados no se pueden reproducir ni siquiera en el mismo entorno informático, y sólo pueden ser similares en un sentido estadístico. Además, la doble contabilización conducirá a un rápido aumento de los costos, lo que es inconsistente con el objetivo clave de DePIN de reducir costos y aumentar la eficiencia.
Otra categoría de ideas es el mecanismo optimista, que asume de manera optimista que el resultado se calcula correctamente y permite que cualquiera pueda verificar el resultado del cálculo. Si se encuentra algún error, se puede enviar una prueba de fraude. El protocolo penaliza al defraudador y recompensa al denunciante.
Como se mencionó anteriormente, DePIN aprovecha principalmente el mercado de potencia informática de consumo de cola larga, lo que significa que la potencia informática proporcionada por un solo dispositivo es relativamente limitada. Para modelos de IA grandes, el entrenamiento en un solo dispositivo llevará mucho tiempo y se debe utilizar la paralelización para acortar el tiempo de entrenamiento.
La principal dificultad para paralelizar el entrenamiento de aprendizaje profundo radica en la dependencia entre las tareas anteriores y posteriores, lo que dificulta la paralelización.
Actualmente, la paralelización del entrenamiento de aprendizaje profundo se divide principalmente en paralelismo de datos y paralelismo de modelos.
El paralelismo de datos se refiere a la distribución de datos entre varias máquinas. Cada máquina guarda todos los parámetros de un modelo, utiliza datos locales para el entrenamiento y finalmente agrega los parámetros de cada máquina. El paralelismo de datos funciona bien cuando la cantidad de datos es grande, pero requiere comunicación sincrónica para agregar parámetros.
El paralelismo del modelo significa que cuando el tamaño del modelo es demasiado grande para caber en una sola máquina, el modelo se puede dividir en varias máquinas y cada máquina guarda una parte de los parámetros del modelo. Las propagaciones hacia adelante y hacia atrás requieren comunicación entre diferentes máquinas. El paralelismo del modelo tiene ventajas cuando el modelo es grande, pero la sobrecarga de comunicación durante la propagación hacia adelante y hacia atrás es grande.
La información de gradiente entre diferentes capas se puede dividir en actualización sincrónica y actualización asincrónica. La actualización sincrónica es simple y directa, pero aumentará el tiempo de espera; el algoritmo de actualización asincrónica tiene un tiempo de espera breve, pero introducirá problemas de estabilidad.
Imagen de: Universidad de Stanford, Aprendizaje profundo paralelo y distribuido
La tendencia global de proteger la privacidad personal está aumentando y los gobiernos de todo el mundo están fortaleciendo la protección de la seguridad de la privacidad de los datos personales. Aunque la IA hace un uso extensivo de conjuntos de datos públicos, lo que realmente diferencia los diferentes modelos de IA son los datos de usuario exclusivos de cada empresa.
¿Cómo obtener los beneficios de los datos privados durante la capacitación sin exponer la privacidad? ¿Cómo garantizar que no se filtren los parámetros del modelo de IA construido?
Estos son dos aspectos de la privacidad, la privacidad de los datos y la privacidad del modelo. La privacidad de los datos protege a los usuarios, mientras que la privacidad del modelo protege a la organización que construye el modelo. En el escenario actual, la privacidad de los datos es mucho más importante que la privacidad del modelo.
Se están intentando diversas soluciones para abordar la cuestión de la privacidad. El aprendizaje federado garantiza la privacidad de los datos mediante la capacitación en la fuente de los datos, manteniéndolos localmente y transmitiendo los parámetros del modelo; y la prueba de conocimiento cero puede convertirse en una estrella en ascenso.
Gensyn
Gensyn es una red informática distribuida diseñada para entrenar modelos de IA. La red utiliza una cadena de bloques de capa uno basada en Polkadot para verificar la ejecución adecuada de las tareas de aprendizaje profundo y activar pagos mediante comandos. Fundada en 2020, reveló una ronda de financiación Serie A de 43 millones de dólares en junio de 2023, con a16z liderando la inversión.
Gensyn utiliza los metadatos del proceso de optimización basado en gradientes para crear certificados del trabajo realizado, ejecutados consistentemente mediante un protocolo de precisión multigranular basado en gráficos y un evaluador cruzado para permitir que los trabajos de validación se vuelvan a ejecutar y comparar para mantener la coherencia. y finalmente por la cadena Confírmalo tú mismo para asegurar la validez del cálculo. Para fortalecer aún más la confiabilidad de la verificación del trabajo, Gensyn introduce apuestas para crear incentivos.
Hay cuatro tipos de participantes en el sistema: remitentes, solucionadores, verificadores y denunciantes.
• Los remitentes son usuarios finales del sistema que proporcionan tareas para ser calculadas y se les paga por las unidades de trabajo completadas.
• El solucionador es el principal trabajador del sistema, realiza el entrenamiento del modelo y genera pruebas para que el verificador las inspeccione.
• El validador es clave para vincular el proceso de entrenamiento no determinista con el cálculo lineal determinista, replicar pruebas parciales del solucionador y comparar distancias con umbrales esperados.
• El denunciante es la última línea de defensa, verifica el trabajo del verificador y plantea desafíos, y recibe recompensas después de superar el desafío.
El solucionador debe hacer una promesa y el denunciante pone a prueba el trabajo del solucionador. Si descubre alguna maldad, la desafiará. Una vez superado el desafío, las fichas apostadas por el solucionador serán multadas y el denunciante será recompensado.
Según las predicciones de Gensyn, se espera que esta solución reduzca los costos de capacitación a 1/5 de los de los proveedores centralizados.
Fuente: Gensyn
FedML
FedML es una plataforma colaborativa descentralizada de aprendizaje automático para IA descentralizada y colaborativa, en cualquier lugar y a cualquier escala. Más específicamente, FedML proporciona un ecosistema MLOps que entrena, implementa, monitorea y mejora continuamente modelos de aprendizaje automático mientras colabora en datos, modelos y recursos informáticos combinados de una manera que preserva la privacidad. Fundada en 2022, FedML reveló una ronda inicial de 6 millones de dólares en marzo de 2023.
FedML consta de dos componentes clave: FedML-API y FedML-core, que representan API de alto nivel y API de bajo nivel respectivamente.
FedML-core incluye dos módulos independientes: comunicación distribuida y capacitación de modelos. El módulo de comunicación es responsable de la comunicación subyacente entre diferentes trabajadores/clientes y está basado en MPI; el módulo de capacitación modelo está basado en PyTorch.
FedML-API se basa en FedML-core. Con FedML-core, se pueden implementar fácilmente nuevos algoritmos distribuidos mediante la adopción de interfaces de programación orientadas al cliente.
El último trabajo del equipo de FedML demuestra que usar FedML Nexus AI para la inferencia de modelos de IA en la GPU RTX 4090 de consumo es 20 veces más barato y 1,88 veces más rápido que usar A100.
de: FedML
Un día, la IA se convertirá aún más en AGI y la potencia informática se convertirá en la moneda universal de facto. DePIN hará que este proceso se realice con anticipación.
La intersección y colaboración de AI y DePIN ha abierto un nuevo punto de crecimiento tecnológico, brindando enormes oportunidades para el desarrollo de la inteligencia artificial. DePIN proporciona a la IA datos y potencia informática distribuida masiva, lo que ayuda a entrenar modelos a mayor escala y lograr una inteligencia más sólida. Al mismo tiempo, DePIN también permite que la IA se desarrolle hacia una dirección más abierta, segura y confiable, reduciendo la dependencia de una única infraestructura centralizada.
De cara al futuro, la IA y DePIN seguirán desarrollándose en sinergia. Las redes distribuidas proporcionarán una base sólida para entrenar modelos supergrandes, que desempeñarán un papel importante en las aplicaciones DePIN. Al tiempo que protege la privacidad y la seguridad, la IA también contribuirá a la optimización de los protocolos y algoritmos de la red DePIN. Esperamos que AI y DePIN brinden un mundo digital más eficiente, justo y confiable.