Si alguna vez usaste ChatGPT y te apareció un error que decía algo sobre el «límite de contexto», ya te topaste con el problema de los tokens sin saberlo. O si pagas por una API de IA y ves que te cobran por tokens, probablemente te preguntaste qué es exactamente lo que estás pagando.
Los tokens son la unidad básica con la que los modelos de lenguaje procesan el texto. No son palabras exactamente, ni letras. Son algo intermedio, y entenderlos bien te ayuda a usar mejor las herramientas de IA y a evitar sorpresas en la factura.
Qué es un token, de verdad
Un modelo de lenguaje no lee texto como lo haces tú. Convierte el texto en números antes de procesarlo. Para hacer eso, primero divide el texto en fragmentos llamados tokens. Cada token corresponde a un pedazo de texto, que puede ser una palabra completa, parte de una palabra, o incluso un solo carácter con ciertos símbolos o idiomas.
En inglés, la regla aproximada es que 1 token equivale a unas 4 letras, o 3/4 de una palabra. En español el promedio es un poco distinto porque las palabras tienden a ser más largas. Una oración como «El cliente pagó con Yape» tiene unos 7-8 tokens, dependiendo del tokenizador.
Cómo se divide el texto en tokens
El proceso lo hace un programa llamado tokenizador. Cada modelo tiene el suyo. GPT-4 usa un tokenizador llamado tiktoken. Llama y otros modelos open source usan variantes distintas.
Lo que hace el tokenizador es buscar patrones frecuentes en el texto. Las palabras comunes como «de», «la», «en» generalmente son un solo token. Las palabras menos frecuentes o muy largas se dividen en varios. Por ejemplo, «extraordinariamente» puede ser 4-5 tokens. Las palabras en otros idiomas, nombres propios o términos técnicos tienden a consumir más tokens por carácter.
Por qué importa el conteo de tokens
Dos razones principales: costo y límite de contexto.
Primero, el costo. Si usas APIs como la de OpenAI, Google o Anthropic, te cobran por tokens. Tanto los que envías (input) como los que recibes en la respuesta (output). Los precios varían según el modelo, pero pueden ir desde 0.15 dólares por millón de tokens hasta 15 dólares o más para los modelos más potentes. No es mucho para una conversación, pero si tienes una app que procesa miles de solicitudes al día, el costo escala rápido.
Segundo, el límite de contexto. Cada modelo tiene un tope de cuántos tokens puede manejar en una sola interacción. Ese tope incluye todo: tus instrucciones iniciales, el historial de la conversación y la respuesta que genera. Si superas ese límite, el modelo empieza a «olvidar» lo que dijiste al principio, o directamente te da un error.
Ventana de contexto: lo que el modelo «recuerda»
La ventana de contexto es el espacio total en tokens que el modelo puede ver a la vez. GPT-4 Turbo tiene una ventana de 128,000 tokens. Claude 3 Opus llega a 200,000. Algunos modelos más pequeños solo manejan 4,000 o 8,000.
Para darte una idea: 128,000 tokens son aproximadamente 100,000 palabras en español, más o menos un libro entero. Eso parece mucho, pero si subes un contrato largo, pides análisis de varios documentos y llevas una conversación extensa, puedes llegar al límite más rápido de lo que esperas.
Una aplicación bien diseñada gestiona el contexto de forma inteligente: resume conversaciones antiguas, elimina partes redundantes, prioriza lo relevante. Si usas ChatGPT directamente, esto lo maneja la plataforma por ti. Si construyes tu propia app, tienes que pensarlo tú.
Tokens y calidad de las respuestas
El modelo genera tokens de forma secuencial: elige el siguiente token basándose en todos los anteriores. Por eso, cuanto más claro y conciso sea tu prompt, mejor suele ser la respuesta. Un prompt con mucho relleno consume tokens sin sumar valor, y deja menos espacio para la respuesta.
También hay un parámetro llamado «max tokens» en muchas APIs. Si lo pones muy bajo, el modelo puede cortar su respuesta a la mitad. Si lo pones muy alto, pagas por capacidad que quizás no uses. Para uso normal, un rango de 500-1500 tokens de respuesta suele ser razonable dependiendo del caso.
Consejos prácticos para manejar tokens
- Sé directo en tus prompts. Evita repetir contexto que ya diste o agregar frases de cortesía innecesarias al inicio.
- Si trabajas con documentos largos, resume o extrae solo las secciones relevantes antes de pasarlas al modelo.
- Para apps con muchos usuarios, elige el modelo más pequeño que haga bien la tarea. No siempre necesitas GPT-4 para responder preguntas simples.
- Usa la herramienta de conteo de tokens de OpenAI o el tokenizador de Hugging Face para estimar costos antes de lanzar algo a producción.
Tokens en el mundo real: un ejemplo peruano
Imagina que una pyme de San Isidro quiere automatizar respuestas a clientes por WhatsApp usando la API de un modelo de IA. Cada mensaje del cliente y cada respuesta del bot consumen tokens. Si el bot recibe 500 conversaciones al día y cada una tiene en promedio 200 tokens de ida y vuelta, eso son 100,000 tokens diarios. Con un modelo económico que cuesta 0.50 dólares por millón de tokens, el costo es prácticamente nulo. Con un modelo premium a 15 dólares el millón, ya son 1.50 dólares al día, 45 al mes. Parece poco, pero si el volumen crece o el sistema es más complejo, la cuenta sube.
Antes de lanzar cualquier producto con IA, vale la pena hacer este cálculo. Muchos equipos se llevan sorpresas desagradables a fin de mes porque no midieron bien el uso de tokens desde el principio.
Tokens y el costo real de tus proyectos con IA
Cuando evalúas si un proyecto de IA es viable para tu empresa, el costo por tokens es uno de los factores que más se subestima al inicio. Un prototipo que procesa 50 solicitudes al día parece barato con cualquier modelo. Pero si ese prototipo escala a 5,000 solicitudes diarias, o si cada solicitud implica documentos largos como contratos o reportes, los números cambian rápido.
Lo que conviene hacer antes de comprometerte con un modelo específico es estimar tu volumen mensual de tokens. Toma un día representativo de operación, cuenta las interacciones y calcula el promedio de tokens por interacción (prompt más respuesta). Multiplica por 30. Luego compara ese número contra el precio por millón de tokens de los modelos que estás evaluando. A veces un modelo con menor costo por token pero ligeramente menor calidad es perfectamente suficiente para tu caso.
Estrategias para reducir el uso de tokens sin sacrificar calidad
Hay varias formas de optimizar sin que el usuario note la diferencia. La primera es usar prompts del sistema eficientes: muchas empresas repiten instrucciones largas en cada solicitud cuando podrían resumirlas. Revisar y condensar esas instrucciones puede reducir el consumo 20-30% sin cambiar el comportamiento del sistema.
La segunda es elegir el modelo adecuado para cada tarea. Para clasificar un correo como urgente o no urgente, no necesitas GPT-4. Un modelo más pequeño y económico lo hace igual de bien a una fracción del costo. Reserva los modelos grandes para las tareas que realmente los necesitan: razonamiento complejo, redacción matizada, análisis de documentos largos.
La tercera es cachear respuestas frecuentes. Si tu chatbot recibe las mismas 50 preguntas el 80% del tiempo, puedes guardar esas respuestas y servirlas directamente sin llamar al modelo. Reduces costos y mejoras la velocidad de respuesta al mismo tiempo.
Preguntas frecuentes
¿Puedo saber cuántos tokens usa mi texto antes de enviarlo?
Sí. OpenAI tiene una herramienta online llamada Tokenizer que muestra exactamente cómo divide tu texto y cuántos tokens consume. También puedes usar la librería tiktoken en Python para contarlos programáticamente antes de hacer llamadas a la API.
¿Los tokens en imágenes funcionan igual que en texto?
No exactamente. Cuando envías una imagen a modelos como GPT-4 Vision, la imagen se convierte en tokens visuales. El costo depende del tamaño y resolución de la imagen. Una imagen en resolución alta puede consumir varios cientos de tokens, mucho más que un texto equivalente en información.
¿Por qué en español se gastan más tokens que en inglés?
Porque el tokenizador fue entrenado principalmente con texto en inglés, así que conoce mejor sus patrones. Las palabras en español, especialmente las más largas o menos comunes, se dividen en más fragmentos. En promedio, un texto en español puede consumir entre 10% y 30% más tokens que la misma información en inglés.
¿Qué pasa si mi conversación supera el límite de tokens?
El modelo empieza a perder el contexto más antiguo de la conversación. En plataformas como ChatGPT, esto ocurre automáticamente sin que lo notes mucho. En tus propias aplicaciones, si no manejas bien la ventana de contexto, puedes recibir errores o respuestas que ignoran información importante que diste al inicio.
¿Los tokens afectan la velocidad de respuesta?
Sí. Generar más tokens toma más tiempo. Si pides una respuesta muy larga, esperas más. También influye el modelo: los más pequeños generan tokens más rápido aunque con menor calidad. Para aplicaciones donde la velocidad importa, como chatbots en vivo, conviene ajustar el parámetro max_tokens y elegir modelos rápidos.