Autor original: Yihan Xu, Foresight Ventures
##TL;RD
Estamos discutiendo la aplicación del poder de cómputo distribuido en el entrenamiento, y generalmente nos enfocamos en el entrenamiento de modelos de lenguaje grandes. La razón principal es que el entrenamiento de modelos pequeños no requiere mucho poder de cómputo. Para hacer privacidad de datos distribuidos y un montón de proyectos El problema no es rentable, es mejor resolverlo de forma directa y centralizada. El modelo de lenguaje grande tiene una gran demanda de poder de cómputo, y ahora se encuentra en la etapa inicial de la explosión. De 2012 a 2018, la demanda de cómputo de la IA se duplicará cada 4 meses, y ahora es aún más exigente para el poder de cómputo. Los puntos concentrados pueden predecir el futuro, 5-8 años seguirá siendo una gran demanda incremental.
Si bien existen grandes oportunidades, los problemas también deben verse con claridad. Todos saben que la escena es enorme, pero ¿dónde están los desafíos específicos? ¿Quién puede “apuntar” a estos problemas en lugar de entrar ciegamente en el juego, que es el núcleo para juzgar los excelentes proyectos de esta pista?
;(Marco de NVIDIA NeMo Megatron)
Tome como ejemplo el entrenamiento de un modelo grande con 175 mil millones de parámetros. Debido al gran tamaño del modelo, debe entrenarse en paralelo en muchos dispositivos “GPU”. Supongamos que hay una sala de computadoras centralizada, hay 100 GPU, cada dispositivo tiene 32 GB de memoria.
Este proceso implica una gran cantidad de transferencia y sincronización de datos, lo que puede convertirse en un cuello de botella para la eficiencia del entrenamiento. Por lo tanto, la optimización del ancho de banda y la latencia de la red, y el uso de estrategias eficientes de sincronización y paralelo son muy importantes para el entrenamiento de modelos a gran escala.
Cabe señalar que el cuello de botella de la comunicación también es la razón por la cual la red de potencia de computación distribuida actual no puede realizar un entrenamiento de modelo de lenguaje grande.
Cada nodo necesita intercambiar información con frecuencia para trabajar juntos, lo que crea una sobrecarga de comunicación. Para modelos de lenguaje grande, este problema es especialmente serio debido a la gran cantidad de parámetros del modelo. La sobrecarga de comunicación se divide en estos aspectos:
Aunque existen algunos métodos para reducir la sobrecarga de comunicación, como la compresión de parámetros y gradientes, estrategias paralelas eficientes, etc., estos métodos pueden introducir una carga computacional adicional o afectar negativamente el efecto de entrenamiento del modelo. Además, estos métodos no pueden resolver por completo el problema de la sobrecarga de comunicación, especialmente en el caso de malas condiciones de la red o grandes distancias entre los nodos informáticos.
Como ejemplo:
Red de energía informática distribuida descentralizada
El modelo GPT-3 tiene 175 mil millones de parámetros, y si usamos números de punto flotante de precisión simple (cada parámetro; 4; bytes) para representar estos parámetros, almacenar estos parámetros requiere ~; 700; GB; de memoria . En el entrenamiento distribuido, estos parámetros deben transmitirse y actualizarse con frecuencia entre los nodos informáticos.
Supongamos que hay; 100; nodos informáticos, y cada nodo necesita actualizar todos los parámetros en cada paso, entonces cada paso necesita transmitir aproximadamente; 70; TB (700; GB*; 100;) de datos. Si asumimos que un paso toma ;1;s (suposición muy optimista), entonces cada segundo ;70;TB; de datos deben transferirse. Esta demanda de ancho de banda ya supera con creces la de la mayoría de las redes y también es una cuestión de viabilidad.
En realidad, debido a los retrasos en la comunicación y la congestión de la red, el tiempo de transmisión de datos puede ser mucho mayor que;1;s. Esto significa que los nodos informáticos pueden necesitar pasar mucho tiempo esperando la transmisión de datos en lugar de realizar cálculos reales. Esto reducirá mucho la eficiencia de la formación, y esta reducción de la eficiencia no se resuelve esperando, sino la diferencia entre factible e inviable, que hará inviable todo el proceso de formación.
Sala de cómputo centralizada
Incluso en un entorno de sala de ordenadores centralizada, el entrenamiento de modelos grandes aún requiere una gran optimización de la comunicación.
En un entorno de sala de informática centralizada, los dispositivos informáticos de alto rendimiento se utilizan como un clúster, conectados a través de una red de alta velocidad para compartir tareas informáticas. Sin embargo, incluso cuando se entrena un modelo con una cantidad extremadamente grande de parámetros en un entorno de red de alta velocidad, la sobrecarga de comunicación sigue siendo un cuello de botella, porque los parámetros y gradientes del modelo deben transmitirse y actualizarse con frecuencia entre varios dispositivos informáticos. .
Como se mencionó al principio, supongamos que hay; 100; nodos de cómputo, cada servidor tiene; 25; Gbps; ancho de banda de red. Si cada servidor necesita actualizar todos los parámetros en cada paso de entrenamiento, entonces cada paso de entrenamiento necesita transmitir alrededor de; 700; GB; los datos necesitan ~; 224; segundos. Al aprovechar la sala de computadoras centralizada, los desarrolladores pueden optimizar la topología de la red dentro del centro de datos y usar tecnologías como el paralelismo de modelos para reducir significativamente este tiempo.
Por el contrario, si el mismo entrenamiento se realiza en un entorno distribuido, se supone que todavía hay; 100; nodos de cómputo distribuidos por todo el mundo, y el ancho de banda de red promedio de cada nodo es solo; 1; Gbps. En este caso, transferir los mismos; 700; GB; datos toma ~; 5600; segundos, mucho más que en una sala de computadoras centralizada. Además, debido a los retrasos y la congestión de la red, el tiempo real requerido puede ser mayor.
Sin embargo, en comparación con la situación en una red de potencia informática distribuida, es relativamente fácil optimizar la sobrecarga de comunicación en un entorno de sala de ordenadores centralizado. Porque en un entorno de sala de computadoras centralizado, los dispositivos informáticos generalmente están conectados a la misma red de alta velocidad, y el ancho de banda y la demora de la red son relativamente buenos. En una red de potencia informática distribuida, los nodos informáticos pueden estar distribuidos por todo el mundo y las condiciones de la red pueden ser relativamente deficientes, lo que hace que el problema de la sobrecarga de comunicaciones sea más grave.
En el proceso de entrenamiento de GPT-3, OpenAI adoptó un marco paralelo modelo llamado “Megatron” para resolver el problema de la sobrecarga de comunicación. Megatron divide los parámetros del modelo y los procesa en paralelo entre múltiples GPU, y cada dispositivo solo es responsable de almacenar y actualizar una parte de los parámetros, reduciendo así la cantidad de parámetros que cada dispositivo necesita procesar y reduciendo la sobrecarga de comunicación. Al mismo tiempo, también se utiliza una red de interconexión de alta velocidad durante el entrenamiento y la longitud de la ruta de comunicación se reduce al optimizar la topología de la red.
(Datos utilizados para entrenar modelos LLM)
Se puede hacer, pero en comparación con la sala de computadoras centralizada, el efecto de estas optimizaciones es muy limitado.
Optimización de la topología de la red: en la sala de computadoras centralizada, el hardware y el diseño de la red se pueden controlar directamente, por lo que la topología de la red se puede diseñar y optimizar de acuerdo con las necesidades. Sin embargo, en un entorno distribuido, los nodos informáticos se distribuyen en distintas ubicaciones geográficas, incluso uno en China y otro en Estados Unidos, y no hay forma de controlar directamente la conexión de red entre ellos. Aunque se puede usar software para optimizar la ruta de transmisión de datos, no es tan efectivo como optimizar directamente la red de hardware. Al mismo tiempo, debido a las diferencias en las ubicaciones geográficas, los retrasos de la red y los anchos de banda también varían mucho, lo que limita aún más el efecto de la optimización de la topología de la red.
Paralelismo de modelos: El paralelismo de modelos es una tecnología que divide los parámetros del modelo en múltiples nodos de computación y mejora la velocidad de entrenamiento a través del procesamiento paralelo. Sin embargo, este método generalmente necesita transmitir datos entre nodos con frecuencia, por lo que tiene altos requisitos de latencia y ancho de banda de red. En una sala de computadoras centralizada, debido al alto ancho de banda de la red y la baja latencia, el paralelismo de modelos puede ser muy efectivo. Sin embargo, en un entorno distribuido, el paralelismo del modelo está muy limitado debido a las malas condiciones de la red. ; ; ; ; ;
Casi todos los enlaces que involucran el procesamiento y la transmisión de datos pueden afectar la seguridad y privacidad de los datos:
Distribución de datos: los datos de entrenamiento deben distribuirse a cada nodo que participa en el cálculo. Los datos en este enlace pueden usarse/filtrarse de manera malintencionada en nodos distribuidos.
Entrenamiento del modelo: durante el proceso de entrenamiento, cada nodo usará sus datos asignados para el cálculo y luego generará la actualización o el gradiente de los parámetros del modelo. Durante este proceso, si se roba el proceso de cálculo del nodo o se analiza maliciosamente el resultado, también se pueden filtrar datos.
Agregación de parámetros y gradientes: la salida de cada nodo debe agregarse para actualizar el modelo global, y la comunicación durante el proceso de agregación también puede filtrar información sobre los datos de entrenamiento.
**¿Qué soluciones hay disponibles para los problemas de privacidad de datos? **
Resumen
Cada uno de los métodos anteriores tiene sus escenarios y limitaciones aplicables, y ninguno de los métodos puede resolver por completo el problema de la privacidad de los datos en el entrenamiento de modelos grandes de la red de potencia informática distribuida.
** ¿ZK, que tiene grandes esperanzas, resolverá el problema de privacidad de datos en el entrenamiento de modelos grandes? **
En teoría, ZKP se puede utilizar para garantizar la privacidad de los datos en la computación distribuida, lo que permite que un nodo demuestre que ha realizado cálculos de acuerdo con las regulaciones, pero no necesita revelar los datos reales de entrada y salida.
Pero, de hecho, “ZKP” enfrentará los siguientes cuellos de botella en el escenario del uso de una red de potencia informática distribuida a gran escala para entrenar modelos grandes:
Resumen
Tomará varios años de investigación y desarrollo usar “ZKP” para redes informáticas distribuidas a gran escala para entrenar modelos grandes, y también requerirá más energía y recursos de la comunidad académica en esta dirección.
Otro escenario relativamente grande de poder de cómputo distribuido es el razonamiento de modelos. De acuerdo con nuestro juicio sobre la ruta de desarrollo de modelos grandes, la demanda de entrenamiento de modelos se ralentizará gradualmente a medida que los modelos grandes maduren después de pasar un punto alto. Los requisitos de inferencia aumentarán correspondientemente exponencialmente con la madurez de los modelos grandes y “AIGC”.
En comparación con las tareas de entrenamiento, las tareas de inferencia suelen tener una menor complejidad computacional y una interacción de datos más débil, y son más adecuadas para entornos distribuidos.
(Power LLM inferencia con NVIDIA Triton)
Retraso en la comunicación:
En un entorno distribuido, la comunicación entre nodos es fundamental. En una red de potencia informática distribuida descentralizada, los nodos pueden estar repartidos por todo el mundo, por lo que la latencia de la red puede ser un problema, especialmente para tareas de razonamiento que requieren una respuesta en tiempo real.
Implementación y actualización del modelo:
El modelo debe implementarse en cada nodo. Si se actualiza el modelo, cada nodo necesita actualizar su modelo, lo que consume mucho ancho de banda y tiempo de la red.
Privacidad de datos:
Aunque las tareas de inferencia generalmente solo requieren datos y modelos de entrada, y no necesitan devolver una gran cantidad de datos y parámetros intermedios, los datos de entrada aún pueden contener información confidencial, como la información personal de los usuarios.
Seguridad del modelo:
En una red descentralizada, el modelo debe implementarse en nodos no confiables, lo que provocará la fuga del modelo y generará el problema de los derechos de propiedad y el abuso del modelo. Esto también puede generar problemas de seguridad y privacidad, si se usa un modelo para procesar datos confidenciales, los nodos pueden inferir información confidencial al analizar el comportamiento del modelo.
Control de calidad:
Cada nodo en una red de potencia informática distribuida descentralizada puede tener diferentes capacidades y recursos informáticos, lo que puede dificultar la garantía del rendimiento y la calidad de las tareas de inferencia.
Complejidad computacional:
En la fase de entrenamiento, el modelo necesita iterar repetidamente.Durante el proceso de entrenamiento, es necesario calcular la propagación hacia adelante y la propagación hacia atrás de cada capa, incluido el cálculo de la función de activación, el cálculo de la función de pérdida, el cálculo de el gradiente y la actualización del peso. Por lo tanto, la complejidad computacional del entrenamiento de modelos es alta.
En la fase de inferencia, solo se requiere un paso hacia adelante para calcular la predicción. Por ejemplo, en; GPT-3;, es necesario convertir el texto de entrada en un vector, y luego realizar la propagación hacia adelante a través de cada capa del modelo (generalmente; Transformador; capa), y finalmente obtener la distribución de probabilidad de salida, y generar de acuerdo con esta distribución la siguiente palabra. En;GANs;, el modelo necesita generar una imagen basada en el vector de ruido de entrada. Estas operaciones solo involucran la propagación directa del modelo, no necesitan calcular gradientes o actualizar parámetros y tienen una baja complejidad computacional.
Interactividad de datos:
Durante la fase de inferencia, el modelo generalmente procesa una sola entrada en lugar del gran lote de datos durante el entrenamiento. El resultado de cada inferencia solo depende de la entrada actual, no de otra entrada o salida, por lo que no hay necesidad de una gran cantidad de interacción de datos y la presión de comunicación es menor.
Tomando el modelo de imagen generativa como ejemplo, suponiendo que usamos GAN, para generar imágenes, solo necesitamos ingresar un vector de ruido al modelo, y luego el modelo generará una imagen correspondiente. En este proceso, cada entrada solo generará una salida y no hay dependencia entre las salidas, por lo que no hay necesidad de interacción de datos.
Tomando “GPT-3” como ejemplo, cada generación de la siguiente palabra solo requiere la entrada de texto actual y el estado del modelo, y no necesita interactuar con otras entradas o salidas, por lo que el requisito de interactividad de datos también es débil. .
Resumen
Independientemente de si se trata de un modelo de lenguaje grande o un modelo de imagen generativa, la complejidad computacional y la interactividad de los datos de las tareas de razonamiento son relativamente bajas, lo que es más adecuado para las redes de potencia informática distribuida descentralizada, razón por la cual la mayoría de los proyectos que vemos ahora en una dirección de fuerza
El umbral técnico y la amplitud técnica de una red de potencia informática distribuida descentralizada son muy altos, y también requiere el apoyo de recursos de hardware, por lo que no hemos visto demasiados intentos ahora. Tome ;Juntos; y ;Gensyn.ai; por ejemplo:
(Pijama rojo de Together)
Together; es una empresa de código abierto que se enfoca en modelos grandes y está comprometida con soluciones de potencia informática descentralizadas; IA, con la esperanza de que cualquiera pueda acceder y usarlas en cualquier lugar; IA. Juntos;recién completados;Lux Capital;lideró;20;m USD;ronda inicial de financiación.
Juntos; co-fundados por; Chris, Percy, Ce; la intención original es que el entrenamiento de modelos grandes requiera una gran cantidad de clústeres de GPU de gama alta y gastos costosos, y estos recursos y capacidades de entrenamiento de modelos también se concentran en unos pocos grandes compañias.
Desde mi punto de vista, un plan empresarial más razonable para el poder de cómputo distribuido es:
Paso 1. Modelo de código abierto
Para implementar el razonamiento de modelos en una red de potencia de cómputo distribuida descentralizada, el requisito previo es que los nodos deben poder obtener el modelo a bajo costo, es decir, el modelo que utiliza la red de potencia de cómputo descentralizada debe ser de código abierto (si el modelo necesita ser licenciado en el correspondiente Si se usa a continuación, aumentará la complejidad y el costo de la implementación). Por ejemplo, chatgpt, como modelo de código no abierto, no es adecuado para su ejecución en una red de potencia informática descentralizada.
Por lo tanto, se puede especular que la barrera invisible de una empresa que proporciona una red de potencia informática descentralizada debe tener capacidades sólidas de desarrollo y mantenimiento de modelos a gran escala. Desarrollado por sí mismo y de código abierto, un “modelo base” poderoso puede deshacerse de la dependencia del modelo de código abierto de terceros hasta cierto punto, y resolver los problemas más básicos de la red de potencia informática descentralizada. Al mismo tiempo, es más propicio para demostrar que la red de potencia informática puede llevar a cabo de manera efectiva el entrenamiento y el razonamiento de modelos grandes.
Y “Juntos” hace lo mismo. Lanzado recientemente; basado en; LLaMA;; modelo de lenguaje.
Paso 2. La potencia informática distribuida aterriza en el razonamiento del modelo
Como se mencionó en las dos secciones anteriores, en comparación con el entrenamiento de modelos, la inferencia de modelos tiene menor complejidad computacional e interacción de datos, y es más adecuada para un entorno distribuido descentralizado.
Basado en el modelo de código abierto, el equipo de I+D de Together ha realizado una serie de actualizaciones en los modelos "RedPajama-INCITE-3; B; ;M;2 Pro;procesador;MacBook Pro) que funcionan de forma más suave como la seda. Al mismo tiempo, aunque la escala de este modelo es pequeña, su capacidad supera a otros modelos de la misma escala y se ha aplicado prácticamente en escenarios legales, sociales y otros.
Paso 3. La implementación de la potencia informática distribuida en el entrenamiento de modelos
(Superación de cuellos de botella de comunicación para la capacitación descentralizada; diagrama esquemático de la red de potencia informática)
Desde una perspectiva de mediano a largo plazo, aunque enfrenta grandes desafíos y cuellos de botella técnicos, debe ser el más atractivo para cumplir con los requisitos de potencia de cómputo de “IA” para el entrenamiento de modelos a gran escala. Juntos, al inicio de su establecimiento, comenzó a plantear cómo superar el cuello de botella de comunicación en la formación descentralizada. También publicaron un artículo relacionado sobre NeurIPS 2022: Superación de los cuellos de botella de comunicación para la capacitación descentralizada. Principalmente podemos resumir las siguientes direcciones:
Optimización de programación
Cuando se entrena en un entorno descentralizado, es importante asignar tareas de comunicación intensiva a dispositivos con conexiones más rápidas porque las conexiones entre nodos tienen diferentes latencias y anchos de banda. Juntos, al construir un modelo para describir el costo de una estrategia de programación específica, optimice mejor las estrategias de programación para minimizar los costos de comunicación y maximizar el rendimiento de la capacitación. Juntos, el equipo también descubrió que, aunque la red era 100 veces más lenta, el rendimiento del entrenamiento de extremo a extremo era solo de 1,7 a 2,3 veces más lento. Por lo tanto, es interesante recuperar la brecha entre las redes distribuidas y los clústeres centralizados mediante la optimización de la programación.
Optimización de la compresión de comunicaciones
En conjunto, propone la compresión de comunicación para activaciones hacia adelante y gradientes hacia atrás, introduciendo el algoritmo “AQ-SGD”, que proporciona garantías estrictas para la convergencia de descenso de gradiente estocástico. AQ-SGD; capaz de ajustar con precisión modelos de base grande en redes lentas (p. ej., 500 Mbps), solo más lento que el rendimiento de entrenamiento de extremo a extremo en redes centralizadas (p. ej., 10 Gbps) sin compresión; 31 %;. Además, AQ-SGD también se puede combinar con técnicas de compresión de gradiente de última generación (como QuantizedAdam) para lograr una mejora de la velocidad de extremo a extremo del 10 %.
Resumen del proyecto
Juntos, la configuración del equipo es muy completa y todos los miembros tienen una formación académica muy sólida. Están respaldados por expertos de la industria desde el desarrollo de modelos a gran escala, computación en la nube hasta optimización de hardware. Y “Juntos” muestra una postura paciente a largo plazo en la planificación de rutas, desde el desarrollo de grandes modelos de código abierto hasta la prueba de la potencia informática inactiva (como, por ejemplo, mac) en la red de potencia informática distribuida mediante el razonamiento de modelos, y luego a la informática distribuida. Disposición de fuerzas en entrenamiento de modelos grandes. — Hay ese tipo de acumulación y sensación de cabello fino:);
Pero hasta ahora, no hemos visto demasiados resultados de investigación “Juntos” en la capa de incentivos. Creo que esto tiene la misma importancia que la investigación y el desarrollo de tecnología, y es un factor clave para garantizar el desarrollo de la red de potencia informática descentralizada.
;(Gensyn.ai)
Desde la ruta técnica de “Juntos”, podemos comprender aproximadamente el proceso de implementación de la red de potencia informática descentralizada en el entrenamiento y el razonamiento del modelo, así como el enfoque de I+D correspondiente.
Otro punto importante que no se puede ignorar es el diseño de la capa de incentivos/algoritmo de consenso de la red de potencia de cómputo, por ejemplo, una red excelente debe tener:
Asegúrese de que los beneficios sean lo suficientemente atractivos;
Garantizar que cada minero obtenga los beneficios que se merece, incluida la lucha contra las trampas y más paga por más trabajo;
Asegúrese de que las tareas se programen y asignen directa y razonablemente en diferentes nodos, y que no haya una gran cantidad de nodos inactivos o sobrecarga de algunos nodos;
El algoritmo de incentivos es simple y eficiente, y no causará una carga ni un retraso excesivos en el sistema;
……
Vea cómo;Gensyn.ai;lo hace:
En primer lugar, el “solucionador” en la red de potencia informática compite por el derecho a procesar las tareas enviadas por el “usuario” a través del método de “oferta”, y de acuerdo con la escala de la tarea y el riesgo de ser encontrado engañando, el solucionador; necesita hipotecar una cierta cantidad.
Solver; durante la actualización; parámetros; genera múltiples; puntos de control (para garantizar la transparencia y la trazabilidad del trabajo), y generará periódicamente razonamiento criptográfico de cifrado sobre las tareas; pruebas (pruebas del progreso del trabajo);
Cuando el Solucionador complete el trabajo y produzca una parte de los resultados del cálculo, el protocolo elegirá un verificador, verificador; también prometerá una cierta cantidad (para garantizar que el verificador realice la verificación honestamente), y en base a la proporcionado arriba; Parte de los resultados del cálculo.
A través de la estructura de datos basada en el “árbol de Merkle”, localice la ubicación exacta donde difieren los resultados del cálculo. Toda la operación de verificación estará en la cadena y los tramposos se deducirán de la cantidad prometida.
Resumen del proyecto
El diseño del algoritmo de incentivo y verificación hace que Gensyn.ai no necesite reproducir todos los resultados de toda la tarea informática durante el proceso de verificación, sino que solo necesita copiar y verificar una parte de los resultados de acuerdo con la prueba proporcionada, lo que mejora en gran medida la eficiencia de verificación. Al mismo tiempo, los nodos solo necesitan almacenar parte de los resultados de los cálculos, lo que también reduce el consumo de espacio de almacenamiento y recursos informáticos. Además, los posibles nodos de trampas no pueden predecir qué partes se seleccionarán para la verificación, por lo que esto también reduce el riesgo de trampas;
Este método de verificación de diferencias y descubrimiento de tramposos también puede encontrar rápidamente el error en el proceso de cálculo sin comparar todo el resultado del cálculo (comenzando desde el nodo raíz del “árbol de Merkle” y recorriendo paso a paso), lo cual es muy efectivo. en el manejo de tareas informáticas a gran escala.
En resumen, el objetivo de diseño de la capa de incentivos/verificación de Gensyn.ai es: simple y eficiente. Sin embargo, actualmente se limita al nivel teórico, y la implementación específica puede enfrentar los siguientes desafíos:
La cuestión de quién necesita una red de potencia informática descentralizada no se ha verificado. La aplicación de la potencia informática inactiva al entrenamiento de modelos a gran escala que requiere enormes recursos de potencia informática es obviamente el más importante; tener sentido es también el espacio más imaginativo. Pero, de hecho, cuellos de botella como la comunicación y la privacidad nos tienen que hacer replantearnos:
¿Hay realmente esperanza para el entrenamiento descentralizado de modelos grandes?
Si salta de este consenso, “el escenario de aterrizaje más razonable”, ¿es un gran escenario para aplicar el poder de cómputo descentralizado al entrenamiento de pequeños modelos de IA? Desde un punto de vista técnico, se han resuelto las limitaciones actuales por el tamaño y la arquitectura del modelo, al mismo tiempo, desde el punto de vista del mercado, siempre hemos sentido que el entrenamiento de modelos grandes será enorme desde ahora hacia el futuro, pero pequeño, AI, modelo ¿El mercado es poco atractivo?
No me parece. En comparación con los modelos grandes, los modelos pequeños de IA son más fáciles de implementar y administrar, y son más eficientes en términos de velocidad de procesamiento y uso de memoria.En una gran cantidad de escenarios de aplicaciones, los usuarios o las empresas no necesitan las capacidades de razonamiento más generales del lenguaje grande. modelos, pero solo se ocupa de un objetivo de predicción muy detallado. Por lo tanto, los modelos pequeños de “IA” siguen siendo la opción más viable en la mayoría de los escenarios y no deben ignorarse prematuramente en la marea “fomo” de los modelos grandes.
Foresight Ventures apuesta al proceso de innovación de las criptomonedas en las próximas décadas, y maneja múltiples fondos bajo su administración: VC; fondo, fondo secundario de gestión activa, multiestrategia; FOF, propósito especial; S; fondo “Foresight Secondary Fund l” , activos totales La escala de gestión supera los 4 millones de dólares estadounidenses. Foresight Ventures se adhiere al concepto de “Único, Independiente, Agresivo, a largo plazo” y brinda un amplio apoyo para proyectos a través de fuertes fuerzas ecológicas. Su equipo está formado por personal senior de las principales empresas financieras y tecnológicas, incluidas Sequoia China, CICC, Google, Bitmain, etc.
Sitio web:;
**Descargo de responsabilidad: Foresight Ventures; todos los artículos no pretenden ser un consejo de inversión. La inversión es riesgosa, evalúe su tolerancia personal al riesgo y tome decisiones de inversión con prudencia. **