CPU: Diseño de computación general, con pocos núcleos potentes, especializado en lógica compleja, decisiones condicionales y tareas a nivel de sistema. Tiene caché profundo y DRAM fuera del chip (memoria principal), adecuado para sistemas operativos, bases de datos, etc., pero no muy eficiente para multiplicaciones matriciales repetitivas necesarias en redes neuronales.
GPU: No unos pocos núcleos potentes, sino miles de núcleos más pequeños ejecutando la misma instrucción simultáneamente (SIMD). Este alto grado de paralelismo encaja perfectamente con las operaciones matemáticas de las redes neuronales, por lo que domina en entrenamiento de IA.
TPU (diseñado por Google): Una especialización adicional. La unidad central es una cuadrícula de unidades de multiplicación-acumulación (MAC), con datos fluyendo en forma de "olas": los pesos entran desde un lado, los valores de activación desde el otro, y el resultado se propaga directamente sin necesidad de volver a escribir en memoria cada vez. Toda la ejecución es controlada por el compilador (no por la programación del hardware), optimizada específicamente para cargas de trabajo de redes neuronales.
NPU (Unidad de Procesamiento Neural): Versión optimizada para dispositivos en el borde. Incluye Neural Compute Engine (una gran matriz de MAC + SRAM en el chip), pero usa memoria del sistema de bajo consumo en lugar de HBM de alto ancho de banda. El objetivo es ejecutar inferencias en teléfonos, dispositivos portátiles, IoT, etc., con un consumo de energía de unos pocos vatios (Apple Neural Engine, Intel NPU, entre otros, pertenecen a esta categoría).
LPU (Unidad de Procesamiento de Lenguaje, por sus siglas en inglés, lanzada por Groq): Miembro más reciente. Elimina completamente la memoria fuera del chip, y todos los pesos se almacenan en SRAM en el chip. Ejecuta de forma totalmente determinista, programada por el compilador, sin fallos de caché ni costos de programación en tiempo de ejecución. La desventaja es que la memoria en un solo chip es limitada, requiriendo cientos de chips interconectados para modelos grandes, pero la ventaja en latencia es muy significativa.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
271.07K Popularidad
#
比特币Breaks79K
14.8K Popularidad
#
IsraelStrikesIranBTCPlunges
34.15K Popularidad
#
CryptoMarketsRiseBroadly
82.67K Popularidad
#
WHCADinnerShootingIncident
11.57K Popularidad

Anclado

Actualmente, la IA está dominada por 5 arquitecturas de hardware diferentes, cada una haciendo diferentes compromisos entre flexibilidad, paralelismo y acceso a memoria.

Temas de actualidad

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Anclado