"Quemar Token" como KPI, un programador gastó 150.000 en un mes

金色财经_

Autor: Xiaojing

Silicon Valley está popularizando un nuevo término: Tokenmaxxing (uso máximo de tokens).

Dentro de Meta y OpenAI, los ingenieros comienzan a competir en la clasificación de uso de IA. Según informes de medios extranjeros, incluso hay un ingeniero que consumió 210 mil millones de tokens en una semana, equivalente a 33 textos de Wikipedia. Algunos tienen facturas mensuales de hasta 150,000 dólares solo por IA.

Un ingeniero de Ericsson en Estocolmo gasta más en Claude que su salario, pero la factura la paga la empresa. El presupuesto de tokens está convirtiéndose en un nuevo beneficio laboral para los ingenieros, “como lo fueron antes las snacks gratis o el almuerzo gratis”.

El CEO de Shopify, Tobi Lütke, publicó en abril de 2025 un memorando interno que declaraba que “el uso de IA es la línea base esperada en Shopify”, exigiendo que todos los equipos demuestren que la IA no puede realizar un trabajo antes de solicitar nuevos recursos, e incluyendo el uso de IA en las evaluaciones de desempeño. Posteriormente, Meta anunció que a partir de 2026, la “influencia impulsada por IA” sería oficialmente parte de la evaluación de rendimiento de todos los empleados.

Cuando el consumo de tokens empieza a aparecer en los KPIs, se convierte en una señal de comportamiento organizacional.

Al mismo tiempo, las señales a nivel industrial también son intensas. El 16 de marzo, Jensen Huang en la conferencia GTC de Nvidia definió los tokens como “la piedra angular de la era de la IA”, diciendo que se convertirán en “la mercancía más valiosa”. Al día siguiente, Alibaba anunció la creación del grupo de negocios Alibaba Token Hub, dirigido directamente por el CEO Wu Yongming, con la misión de “crear tokens, distribuir tokens y aplicar tokens”.

[Imagen: Jensen Huang en la conferencia GTC mostrando un gráfico de relación entre costos y beneficios de los tokens, dividiendo los centros de datos en capas gratuitas, intermedias, avanzadas y premium, y mostrando una predicción de que el chip Vera Rubin generará cinco veces más ingresos que Grace Blackwell.]

Hace un año, los tokens solo eran una unidad técnica de medición que interesaba a los desarrolladores. Ahora, se han convertido en el lenguaje que usan las empresas de chips para definir el valor de sus productos, en la razón por la cual los gigantes de internet reorganizan sus grupos de negocio en torno a ellos, y en un nuevo beneficio y KPI central en las ofertas para ingenieros.

Pero, la clasificación de Tokenmaxxing solo registra el consumo, no quién mide cuántas tareas efectivas se completan con esos tokens.

Ese es precisamente el mayor área ciega en toda la economía de tokens hoy en día.


¿Realmente qué quema un ingeniero?


210 mil millones de tokens suenan como una cifra asombrosa. Pero entender su significado real requiere abandonar una suposición: que los tokens son productos estándar.

[Imagen: Clasificación global de consumo de tokens en Tokscale, una herramienta de código abierto para rastrear y clasificar el uso de tokens, soportando plataformas como Claude Code, Cursor, OpenCode, Codex, entre otras. Los usuarios pueden enviar datos y participar en el ranking global.]

Hace dos años, la fijación de precios de los grandes modelos era relativamente simple, generalmente solo diferenciando entre tokens de entrada y tokens de salida. Pero hoy, los principales proveedores tienen sistemas de precios claramente estratificados, y el mismo “token” puede tener tarifas completamente diferentes según las condiciones de uso.

Por ejemplo, Anthropic cobra 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida en Claude Opus 4.6. Si se habilita el caché de prompts, el almacenamiento en caché de 5 minutos cuesta 6.25 dólares, una hora 10 dólares, y la lectura del caché 0.50 dólares. Usando la API por lotes, los precios de entrada y salida se reducen a la mitad. Si se realiza inferencia solo en EE. UU., los precios aumentan un 10%. En modo rápido, los precios de entrada y salida de Opus 4.6 se multiplican por seis.

Es decir, la misma empresa, el mismo modelo, y la misma unidad de facturación llamada “token” puede tener precios que varían varias veces o incluso más de diez veces, dependiendo de caché, procesamiento por lotes, región y velocidad.

Lo que realmente aumenta los costos ya no es solo la llamada al modelo. La tabla de precios de OpenAI muestra que la búsqueda web se cobra por tipo de modelo: 10 dólares por mil búsquedas para GPT-4.1, GPT-4o, y 25 dólares para GPT-5 y modelos de inferencia.

El costo de búsqueda de archivos es de 2.50 dólares por mil llamadas, más 0.10 dólares por GB de almacenamiento por día, con el primer GB gratis. Los contenedores de código también se cobran por separado: actualmente, 0.03 dólares por GB, y precios más altos para 4GB, 16GB y 64GB. Desde el 31 de marzo de 2026, estos precios cambiarán a un sistema de facturación por sesión de 20 minutos por contenedor.

Fuera del modelo, los costos de búsqueda, recuperación, almacenamiento y ejecución en entornos separados, que antes se consideraban “capacidades accesorias”, ahora se han convertido en centros de costo independientes.

Google también avanza en esta dirección. La página oficial de precios de Vertex AI muestra que desde el 11 de febrero de 2026, Code Execution, Sessions y Memory Bank en Agent Engine comenzaron a cobrar tarifas, ya no en paquetes, sino por hora de vCPU y por GB de memoria.

Por lo tanto, hoy en día, hablar solo del precio de los tokens de entrada y salida ya no es suficiente. Lo que realmente ha cambiado es la lógica de facturación: los fabricantes de grandes modelos venden ahora un conjunto completo de capacidades básicas de IA que son operables, almacenables, buscables, invocables y sostenibles.

[Imagen: Captura de pantalla de la página de precios de OpenAI, mostrando la estructura de tarifas multinivel (Web Search, File Search, Containers, etc.) con cargos independientes.]


¿Por qué los tokens son cada vez más baratos, pero las facturas más caras?


Si solo miramos los precios en la API del modelo, los tokens parecen estar llegando a precios de ganga. Opus de Anthropic bajó de 15 dólares por millón de tokens a 5 dólares, una reducción de dos tercios. DeepSeek V3.2 cuesta 0.28 dólares. Google Gemini 2.5 Flash Lite cuesta aproximadamente 0.10 dólares.

Los modelos chinos tienen ventajas de precio aún más evidentes. Datos de OpenRouter muestran que los tokens de modelos chinos cuestan aproximadamente una sexta o décima parte de los de la competencia extranjera. Incluso después de que Tencent Cloud Mix Yuan HY2.0 Instruct terminara su período de prueba y aumentara los precios en más del 460%, el costo de entrada equivale a unos 0.62 dólares por millón de tokens, aún por debajo del más barato de Anthropic, Haiku 4.5 (1 dólar), y mucho menor que Sonnet 4.6.

[Imagen: Artificial Analysis mantiene un ranking en tiempo real de los modelos LLM, donde la diferencia de precios entre modelos es enorme.]

Pero el costo total de uso de IA no ha bajado. Tres mecanismos están en juego simultáneamente.

Primero, los modelos son más inteligentes, pero eso los hace más “habladores”. El informe de Artificial Analysis indica que el uso promedio de tokens en la salida de modelos de inferencia es aproximadamente 5.5 veces mayor que en modelos no inferenciales. Tanto Anthropic como OpenAI cobran por tokens de pensamiento extendido, por lo que cuanto más profundo sea el razonamiento, más larga será la factura. Aunque el precio por token ha bajado, el total de tokens necesarios para completar una tarea ha aumentado varias veces.

Segundo, los agentes convierten el consumo de tokens de “una sola vez” a “consumo continuo”. Esa es la verdadera fuerza motriz de Tokenmaxxing: los ingenieros no están simplemente enviando tokens manualmente, sino que sus agentes de programación de IA operan 24/7, dividiendo tareas, llamando herramientas y auto-iterando. Según Alibaba Cloud, un solo agente consume entre 100 y 1000 veces más recursos que un chatbot tradicional. El consumo diario total de tokens en China superó los 300 billones en 2025 y alcanzó los 1800 billones en febrero de 2026.

Tercero, los costos subyacentes de producir tokens están en aumento. El 18 de marzo de 2026, Alibaba Cloud y Baidu Cloud anunciaron aumentos en los precios de sus productos de computación y almacenamiento de IA, hasta un 34%. AWS subió en enero los precios de sus bloques de capacidad de aprendizaje automático en aproximadamente un 15%. Google Cloud anunció aumentos en sus costos de infraestructura de IA a partir de mayo.

Un experto en la industria de la computación en la nube afirmó: “Este ajuste de precios en el mercado de la nube está principalmente determinado por la oferta y demanda, y por los costos. Los precios futuros seguirán la tendencia de toda la cadena de suministro.”

GPU, almacenamiento paralelo, redes de alta velocidad y energía en centros de datos, los precios de los modelos bajan, pero todo lo que se necesita para producir tokens está en alza. Cuando Anthropic lanzó Opus 4.6, enfatizó que “el precio se mantiene”, lo que implica que las capacidades más avanzadas las absorbe la propia empresa.

En otras palabras, los modelos son el motor, pero el combustible, el peaje y los costos de autopista están en aumento.

La combinación de estos tres mecanismos crea una brecha cada vez mayor entre el precio nominal del token y el costo real de completar tareas.


La esencia de la ansiedad por los tokens


Volviendo a Tokenmaxxing. La clasificación registra el consumo de tokens, pero no la calidad del output. Que un ingeniero consuma en una semana el equivalente a 33 Wikipedia no significa que haya completado 33 trabajos de valor equivalente.

Las grandes empresas incluyen el consumo de tokens en sus KPIs o lo consideran un beneficio, pero ¿realmente eso representa un aumento en productividad? ¿O es solo una “performance de productividad”?

Esto toca la falla estructural más profunda de la economía de tokens: aún no se ha establecido una métrica efectiva que relacione el consumo de tokens con la finalización de tareas. El token mide la inversión, no el resultado. Un agente que gasta 1 millón de tokens en una tarea y otro que gasta 100,000 en la misma, en la clasificación Tokenmaxxing, el primero aparece mejor, aunque en realidad puede ser menos eficiente.

El CEO de Shopify, Lütke, en su memorando, dijo algo importante: afirmó que algunos colegas estaban logrando “10 veces más producción de lo que antes se pensaba posible”, pero no dio una métrica concreta.

Ha surgido una nueva ansiedad profesional: si no se demuestra productividad mediante un alto consumo de tokens, se puede ser considerado obsoleto. Esta ansiedad es similar a la lógica de principios de los 2000, cuando las empresas competían por tener sitios web, o en los 2010, cuando cada marca debía tener una app: la adopción tecnológica se convirtió en una señal, el consumo en un indicador proxy, y la verdadera valoración se pospuso.

Pero a diferencia del pasado, el costo de esta carrera es tangible. Facturas mensuales de 150,000 dólares, consumo semanal de 210 mil millones de tokens, costos crecientes de infraestructura y almacenamiento: Tokenmaxxing no es gratis. Cuando los costos son tan altos, la diferencia entre “quemar tokens” y “usar tokens para crear valor” pasa de ser un problema filosófico a uno financiero.

El precio por token seguirá bajando, eso no hay duda.

Lo que realmente preocupa es quién puede convertir tokens en tareas completadas de la manera más eficiente. Para cada programador, cada empresa y cada usuario común, la métrica no es cuánto cuesta cada millón de tokens, sino cuánto vale completar una tarea concreta.

La diferencia entre estos dos números representa la mayor oportunidad comercial y la trampa de costos más profunda en la próxima fase de la era inteligente basada en tokens.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios