El que no puede permitirse tokens se convirtió en parte del mercado emergente en la era de la IA

¿2026 será el año en que el consumo más “lujoso” en el trabajo sea? La respuesta no es comprar una computadora de alto rendimiento, ni adquirir ropa elegante, sino poder usar sin restricciones ni costos el herramienta de IA más avanzada del mundo.

Esto significa que no tendrás que devanarte los sesos para optimizar las indicaciones por miedo a que aparezca un “límite de uso diario agotado”; tampoco tendrás que comparar una y otra vez, sin poder permitirte usar tu querido Claude (el modelo de lenguaje desarrollado por la empresa estadounidense de IA Anthropic), y solo dejar las tareas menos importantes a modelos más baratos y ligeros.

Por supuesto, la IA es muy útil, pero cada uso implica un costo, y el consumo de Tokens (unidad de palabras) es tan caro que casi no puedes pagarlo. La avaricia y la cautela se han convertido en el estado más real de los “bueyes” de la IA hoy en día.

Esto me recuerda a hace veinte años, en la era del internet por módem. En aquel entonces, el ancho de banda era escaso y caro, y los desarrolladores comprimían imágenes y simplificaban código para ahorrar ancho de banda, casi sin subir videos. Empresas como Tudou eran pocas, y el consumo de ancho de banda por videos representaba la mayor parte del costo de operación de los sitios web.

Vuelve a suceder ahora.

En la cadena de la industria de IA, la potencia de cálculo fluye como agua de arriba hacia abajo. Desde los GPU (procesadores gráficos) y centros de datos en la parte superior, pasando por los proveedores de la nube y los modelos, que se encapsulan en APIs, hasta los desarrolladores y usuarios comunes, convirtiéndose en llamadas concretas y Tokens que se pueden cobrar. Aunque parece intangible, en cada etapa hay costos claros: depreciación de GPU, consumo de electricidad, almacenamiento de alta velocidad, que finalmente se reflejan en las facturas.

Ahora, esta tubería de agua se está congestionando. Por un lado, la demanda está explotando, con escenarios complejos como multimodalidad y agentes inteligentes que multiplican por mil el consumo de Tokens; por otro, la oferta aún no se ha liberado por completo, y la construcción de GPU, memorias de alta velocidad y centros de datos tiene límites físicos, con una utilización de GPU aún baja. La inteligencia tiene un costo: aunque el crecimiento explosivo ha reducido el precio por Token, el dinero que se gasta en llamarlos sigue aumentando.

El aumento de precios se transmite en cadena. Los GPU en la parte superior tienen precios altos y escasez, las nubes ajustan sus tarifas primero, Amazon, Google, Baidu, Alibaba, en el último trimestre han subido los costos de algunos servicios relacionados con IA, y los fabricantes de modelos también han terminado sus periodos de subsidios, dejando de ofrecer pruebas gratuitas, y aumentando los precios de las llamadas API, con Tencent y Alibaba en la línea de frente, y el modelo híbrido de Tencent subiendo hasta un 463%.

El aumento de precios en modelos y aplicaciones hace que la potencia de cálculo deje de ser un concepto abstracto solo para los gigantes, y en forma de Tokens, también enseña a cada persona común una lección de pago. Como en su momento fue el tráfico, valorado en MB (unidad de datos móviles), y que si no se tiene cuidado, puede generar facturas impagables.

El concepto de “Token económico” propuesto por Jensen Huang, CEO de Nvidia, considera que la inferencia se ha convertido en la carga de trabajo más central de la IA, y que los Tokens son ahora una nueva mercancía — estandarizada, medible y negociable. De ser un subproducto técnico del entrenamiento de modelos, los Tokens evolucionan para convertirse en un elemento clave en la economía digital.

Para Huang, los “Tokens” como mercancía tienen calidad y calidad. Desde la capa gratuita hasta la premium, el precio por millón de Tokens varía de 0 a 150 dólares. Los Tokens con baja latencia y alta interacción (como diálogos en tiempo real o conducción inteligente) requieren mucho poder de cálculo y tienen precios altos; los Tokens para procesamiento en lote o análisis offline, que no requieren baja latencia, pueden producirse con menos recursos y tienen precios bajos.

Los Tokens ya generan valor en forma de “mercancía”, ¿y qué pasa con quienes los usan? Quizá en el futuro, la definición de “mercado emergente” ya no se limite a quienes puedan pagar productos físicos.

Usuarios de IA, atrapados en la ansiedad

“¿No soy acaso un miembro distinguido?” La noche del 11 de marzo, Su Yu miraba con enojo la ventana emergente en su pantalla. La notificación le indicaba que había alcanzado el 90% de su límite de Tokens para la semana, y que cuando se agotara, se suspendería el uso de los modelos relacionados hasta la próxima actualización.

Su Yu es una estudiante de doctorado en una universidad, preparando su tesis de graduación. Durante los últimos tres años, Gemini de Google y ChatGPT de OpenAI han sido sus mejores aliados, y ella es una usuaria fiel de ambos “trabajadores de IA”. En febrero, Anthropic lanzó Claude, que pronto se convirtió en su favorito.

“Claude es tan útil, tiene un poder de herramienta muy fuerte.” dice Su Yu. Ella hace que varias aplicaciones de IA le ayuden a organizar y diseñar ideas de investigación. La lógica de las respuestas de ChatGPT no es lo suficientemente sólida, Gemini resulta demasiado exagerado y adulador, solo Claude, como un asesor profesional y objetivo, lee cuidadosamente las necesidades del cliente y produce una propuesta realmente útil y con inspiración.

Después de más de medio mes de uso gratuito, Su Yu pagó aproximadamente 180 yuanes para activar la suscripción mensual de Claude. En comparación con Gemini y ChatGPT, lo que hace especial a Claude es que también tiene límites diarios y semanales en el consumo de Tokens para los miembros. Esto se entiende, según la lista de modelos principales de prueba ciega LMArena, en la que Claude-Opus-4-6-thinking ocupa el primer lugar mundial a partir del 20 de marzo.

Pero Su Yu nunca sintió una restricción tan directa en Tokens. La primera vez que se activó el límite de Claude fue un miércoles, cuando solo había avanzado la mitad de su “teoría de la raíz”, y en ese momento sintió una especie de impotencia académica. Acostumbrada a la ayuda de Claude, le resultaba difícil volver a su estado inicial de investigación. Intentó “hacerlo a mano”, revisando los libros teóricos originales, pero la eficiencia era muy baja, y algunos materiales traducidos no le convencían del todo: “Al final, tengo que esperar a que Claude vuelva a estar disponible para revisarlo.” Cuatro días de espera, con ansiedad.

El límite de Claude hace que Su Yu se sienta muy ansiosa. Un martes, envió una captura de pantalla del backend de Claude, donde mostraba que había usado el 45% de su límite semanal. “¡Solo han pasado menos de dos días! ¡Y ya lo he usado mucho! Solo discuto un tema de tesis al día, y ya llegué al límite.” Su Yu casi se derrumba, ¿quién dice que la IA no puede reemplazar a los humanos? Este IA ya casi es más difícil de manejar que su propio tutor.

● Pantalla del backend de Claude de Su Yu. Fuente: entrevistada

Ha desarrollado la costumbre de revisar el backend cada vez que hace una pregunta, por miedo a quedarse sin recursos. Recuerda que antes incluso conversaba con Claude como si fuera un profesor, pidiéndole ayuda para hacer presentaciones, y ahora se da cuenta de que eso era un desperdicio.

Este uso cauteloso de “modelos útiles” se vuelve cada vez más común. Un emprendedor en la industria del cine y la televisión de IA me contó que, cuando usan el modelo de video de ByteDance “Jiyun”, también integran APIs de otros fabricantes, “los modelos más efectivos son más caros, y solo podemos alternar entre ellos para equilibrar costos.”

Hace poco, Jiyun redujo el límite de puntos para los miembros, y aunque le pareció normal, “el mercado de consumo ya está subsidiando, ahora solo estamos recuperando parte”. Pero también le preocupa su situación, y suspira: “Ahora no puedo usarlo más.” El aumento de costos de IA a veces puede bloquear la línea de vida de los pequeños emprendimientos.

Los usuarios finales están ansiosos por Tokens, los fabricantes de modelos también por los costos de potencia de cálculo.

Al hablar de la explosión en el uso de Tokens, el académico chino Wang Jian comparó la situación con el desarrollo de la electricidad: en los primeros tiempos, usar IA era como “encender una lámpara”, con un consumo limitado. Pero las nuevas aplicaciones, como los agentes inteligentes representados por OpenClaw, son como encender un “aire acondicionado”, que requiere cada vez más electricidad.

Wang Jian enfatiza que este crecimiento no solo significa que las aplicaciones se están popularizando, sino también que el costo de cada Token individual está bajando. “Si no bajan los precios de la electricidad, la gente no podrá usar aire acondicionado.”

Pero en comparación con las llamadas simples de antes, ahora muchas tareas se realizan mediante agentes. Los modelos deben descomponer problemas, llamar a herramientas, programar, depurar y corregir, y una sola solicitud aparentemente sencilla puede implicar múltiples rondas de inferencia y llamadas API, multiplicando exponencialmente el consumo de Tokens. Aunque el precio por Token ha bajado, el costo total de cálculo es mucho mayor.

“Los modelos son más grandes, los costos de inferencia también aumentan, y queremos volver a un valor comercial normal. La competencia a bajo precio a largo plazo no favorece al sector, esa también es una consideración.” dice Zhang Peng, CEO de Zhipu. En los últimos dos meses, Zhipu ha subido tres veces los precios de su serie de modelos grandes de lenguaje GLM, y algunos ya se acercan a los precios de los modelos líderes internacionales.

Otra preocupación de Zhang es: “El mayor problema en los próximos 12 meses será la potencia de cálculo. Todas las tecnologías, incluyendo los marcos de agentes, han mejorado la creatividad y eficiencia de muchas personas en diez veces. Pero la condición previa es que puedan usarlas, no que por falta de potencia, un problema deje a los agentes sin respuesta por mucho tiempo.”

La circulación de la potencia de cálculo y los costos acumulados

Según el cálculo de Claude, 100 Tokens equivalen aproximadamente a 75 palabras en inglés o 50 caracteres chinos, y el precio de salida de Tokens es cinco veces el de entrada — esta es una conversión simple. En otras palabras, cada respuesta de IA pasa por un proceso de reflexión, consulta, generación, y los errores por “alucinaciones” del modelo, que consumen Tokens, también se contabilizan, y al final se convierten en facturas en dinero real.

El fundador de AGI, Lin Zhijia, hizo un cálculo. Tiene cuatro “langostas”, algunas desplegadas localmente, otras en la nube. Por ejemplo, en la nube, compra un plan de codificación (servicio de suscripción de IA para programación) por unos 30-40 yuanes al mes, y cuando aún faltan 9 días en marzo, su consumo de Tokens es menos del 10% del paquete. Como periodista, su demanda de Tokens no es muy grande.

Pero cobrar por Tokens no es muy rentable. “Si solo le pido que me envíe una noticia cada mañana a las 9, el costo en Tokens sería aproximadamente 0.9 yuanes, y en 30 días serían unos 20 yuanes, casi lo que pago por el plan de codificación. A veces hay pérdidas, y también actualizaciones del modelo, que pueden consumir otros 3-4 yuanes en Tokens.”

Equilibrar entre diferentes métodos de cobro se vuelve rutina para los usuarios frecuentes, y cada centavo gastado en Tokens apunta a un mismo asunto: potencia de cálculo, depreciación de GPU y consumo eléctrico del centro de datos.

La GPU se ha convertido en el punto de partida, y la oferta de chips de alta gama determina el límite del sistema. “Aparte de las máquinas de reserva para algunos clientes, no queda ninguna.” dice Liu Hua, subdirector del centro técnico de UCloud.

Debajo de la GPU, hay que construir centros de datos, redes y sistemas de almacenamiento — conexiones rápidas, transmisión de baja latencia, que no son componentes “plug and play”. Liu Hua menciona que solo en redes y almacenamiento, los costos pueden representar alrededor del 20% del costo total de potencia de cálculo.

En el siguiente nivel, están los fabricantes de modelos y los proveedores de API. Ellos despliegan grandes modelos en estas infraestructuras, encapsulados en interfaces estandarizadas para que los desarrolladores los llamen. En los últimos años, estos roles se han superpuesto, y los proveedores de nube venden tanto potencia como APIs de modelos, convirtiéndose en el centro que conecta GPU, modelos y desarrolladores.

● Diagrama de cómo fluye la potencia de cálculo. Fuente: IA generada

Así, la potencia de cálculo se filtra hacia abajo capa por capa, y el cambio más reciente está en la demanda del sector. “Antes, la mayor parte de la IA era para empresas, ahora también se populariza para consumidores.” dice Lin Zhijia. Los modelos encapsulados en APIs, con accesos simplificados y menor barrera de entrada, permiten que desarrolladores individuales y usuarios comunes llamen directamente a la potencia de cálculo. “Ahora, solo con deslizar en redes sociales, ya saben cómo usarla.”

Incluso la potencia de cálculo empieza a tener tendencia minorista. Para 2024, algunos proveedores de nube lanzarán “tarjetas diarias” de GPU, servidores ligeros y productos “de un clic” para desplegar. Por ejemplo, UCloud ofrece un paquete de prueba de 6.9 yuanes, que en realidad es como un boleto, que empaqueta toda la configuración y la gestión de recursos, permitiendo a los usuarios probar con muy poco costo. “Muchos solo quieren ‘hacer pruebas’ o ‘probar suerte’,” dice Liu Hua, “todos están algo ansiosos, temen quedarse atrás.”

Pero reducir la barrera no significa bajar los costos. Para Liu Hua, “en comparación con el desarrollo de internet, los costos de potencia de cálculo todavía están en una etapa inicial y muy caros.” Por eso, los desarrolladores calculan con precisión, y las plataformas no se atreven a liberar mucho la escala de llamadas.

Incluso los principales fabricantes hacen sacrificios. OpenAI cerró su proyecto de generación de videos Sora, y muchos en la industria interpretan esto como una ponderación entre potencia y retorno de inversión, priorizando las capacidades y negocios más centrales. Alibaba, Tencent, ByteDance y otros grandes de internet han ajustado sus negocios de IA, concentrando recursos en las áreas más importantes.

Todos empiezan a entender una cosa: en el futuro, no será la escala de potencia de cálculo lo que definirá la competencia, sino la eficiencia en su uso. La escasez de potencia genera un efecto en cadena en la era de la IA, como una larga temporada de lluvias, y todos en esta época inevitablemente sentirán la humedad.

¿Qué pasa en el extremo final con la circulación de potencia?

Su Yu intenta distribuir y gestionar los recursos de cálculo.

Clasifica los modelos en niveles: ChatGPT para redactar documentos y resumir, Gemini para dibujar y manejar detalles lingüísticos, Claude para las tareas más críticas, como el marco de investigación, diseño de ideas y análisis de textos largos. Así maximiza su eficiencia y ahorra en gastos.

Por ejemplo, al procesar entrevistas, primero pide a Claude que dé un marco de análisis, y luego pasa ese marco a Gemini para hacer la codificación inicial. “Confío más en las directrices de Claude, pero los detalles los dejo en modelos más baratos.” Si Claude no tuviera límite, incluso dejaría de usar Gemini.

Por supuesto, esto no es un anuncio de Claude, sino que Su Yu cree que su necesidad se ajusta mejor a esa aplicación. Los modelos útiles son cada vez más escasos, y los recursos escasos solo se usan en las partes más críticas.

Para ahorrar aún más, muchos usuarios, como Su Yu, empiezan a recortar costos en los detalles.

En redes sociales, se popularizó usar el estilo clásico chino para conversar con IA, porque las palabras cortas significan menos Tokens. Algunos también piensan que decir “hola” o “gracias” a la IA es un desperdicio innecesario de recursos, ya que la IA no necesita valor emocional.

Pero muchas de esas pérdidas no están en el control del usuario, sino en cómo se conecta y ejecuta el modelo.

Hace poco, Luo Fuli, responsable del equipo de modelos grandes de MiMo, dijo: “No puedo calcular exactamente las pérdidas por el uso de harness de terceros, pero he visto de cerca la gestión de contexto de OpenClaw, y es muy mala. En una sola consulta, dispara múltiples llamadas a herramientas de bajo valor, cada una como una solicitud API independiente, con ventanas de contexto que a menudo superan las 100K Tokens. La cantidad de solicitudes reales es varias veces la de la estructura nativa de Claude Code. En términos de precios API, el costo real sería varias decenas de veces la suscripción.”

Volviendo a la problemática del uso, los usuarios que ahorran Tokens no pueden ser completamente liberados, y esta “restricción por ahorro de costos” genera una contradicción: OpenAI, en la primera mitad de 2025, generó 4.3 mil millones de dólares, pero perdió 13.5 mil millones, lo que significa que por cada dólar que gana, pierde tres. La mayor parte de esas pérdidas provienen de la inversión en potencia de cálculo.

Hoy, la potencia de cálculo ya no es solo si existe o no, sino cuánto se puede usar y en qué medida. Cuando la IA sea muy útil, la gente reorganizará su trabajo en torno a ella; cuando los Tokens sean caros y limitados, esa nueva organización se verá forzada a reducir su escala.

Si en el futuro la potencia no se generaliza como la electricidad, la IA inevitablemente se dividirá, y la brecha cognitiva entre las personas se ampliará aún más. Por ejemplo, Su Yu no planea compartir completamente su método de uso con sus colegas, y cómo interactúa con Claude y qué datos alimenta, son su pequeño secreto y, en el corto plazo, su ventaja competitiva.

Si un colega le pide recomendaciones de modelos, ella recomendará con entusiasmo Gemini y ChatGPT, y “DeepSeek también es una buena opción.” Su Yu guiña un ojo pícaramente.

En la era de “empresas unipersonales” y “superindividuos” en auge, estos pequeños “truquitos” no son raros. Cuando la utilidad de la IA se mide en Tokens, la verdadera diferencia la marca quién sabe usarla mejor.

(El nombre de Su Yu es ficticio)

Fuente de portada: “Departamento de Exploración del Universo”

GLM3,95%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado