Gemini 3.1 Flash-Lite a $0.25 por millón de tokens: el modelo de IA más barato de Google y para qué sirve en México
Google lanzó Gemini 3.1 Flash-Lite el 3 de marzo de 2026: multimodal, contexto de 1M tokens y 4 veces más barato que Claude Haiku. La guía para devs y startups mexicanas.
Hay dos tipos de devs en México: los que pagan $20 dólares al mes por una suscripción y usan la IA desde la UI, y los que conectan APIs y les importa cada fracción de centavo que les cobra el proveedor. Este artículo es para los segundos.
El 3 de marzo de 2026, Google soltó Gemini 3.1 Flash-Lite en preview: su modelo más barato de la generación actual, con contexto de un millón de tokens, soporte multimodal completo y un precio de $0.25 por millón de tokens de entrada. Si estás construyendo algo con IA en México y tienes presupuesto limitado, esto es lo que debes saber.
Qué es y qué puede hacer
Gemini 3.1 Flash-Lite no es el modelo más poderoso de Google. Ese es el 3.1 Pro. Pero tampoco pretende serlo. Es el modelo pensado para volumen alto con presupuesto bajo: pipelines de procesamiento masivo, chatbots de atención, clasificación de documentos, extracción de datos, ese tipo de trabajo que se hace en producción y donde el costo de tokens importa mucho.
Lo que lo hace interesante es que, siendo el modelo más barato de la línea Gemini 3, mantiene capacidades que modelos baratos anteriores no tenían:
- Contexto de 1 millón de tokens: equivale a unas 1,500 páginas tamaño carta. Para referencia, GPT-4o Mini llega apenas a 128K
- Multimodal completo: acepta texto, imágenes, audio y video como entrada
- Salida de hasta 64,000 tokens
- Razonamiento configurable: puedes elegir entre niveles mínimo, bajo, medio y alto, según si quieres más velocidad o mejor calidad en la respuesta
- Velocidad de salida: entre 232.5 y 381.9 tokens por segundo según diferentes benchmarks (Artificial Analysis reporta 232.5 tps vía Google API; otros benchmarks reportan hasta 381.9 tps)
Respecto a la generación anterior, Google reporta una mejora de 2.5x en velocidad de respuesta comparado con Gemini 2.5 Flash, con un 45% más de velocidad en la generación de tokens.
El número que importa: cuánto cuesta vs. la competencia
Aquí está el punto central del asunto. Esto es lo que paga un developer por millón de tokens en 2026:
| Modelo | Input ($/1M tokens) | Output ($/1M tokens) | Contexto |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 1M |
| GPT-4o Mini | $0.15 | $0.60 | 128K |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K |
| Gemini 3.1 Pro | ~$2.00 | ~$8.00 | 1M |
La comparativa directa que más le conviene a Google es contra Claude Haiku 4.5: Flash-Lite es 4x más barato en input y 3.3x en output. En volúmenes altos eso es una diferencia brutal.
Contra GPT-4o Mini el asunto es más parejo: en costo de tokens, OpenAI gana por un poco en input ($0.15 vs $0.25). Pero ahí es donde entra el contexto de 1M tokens. Si tu caso de uso necesita procesar documentos largos, llamadas de soporte completas, código de repos enteros o videos, Flash-Lite gana sin discusión.
Y contra el Gemini 3.1 Pro, es literalmente 1/8 del precio, como dice el título.
Benchmarks: ¿qué tan bueno es realmente?
Gemini 3.1 Flash-Lite tiene un Intelligence Index de 34 puntos en Artificial Analysis, colocándolo en el lugar #21 de 132 modelos evaluados, y significativamente por encima de la mediana (19 puntos) para modelos de su categoría de precio.
En benchmarks específicos comparado con Claude Haiku 4.5:
- GPQA (razonamiento científico): 86.9% vs 73% a favor de Flash-Lite
- Según Google, Gemini 3.1 Flash-Lite alcanza 82.4% en MMLU. Claude Haiku 4.5 alcanza 83.0% en MMLU.
- HumanEval (código): 74.2%
No va a reemplazar a un modelo premium para tareas que requieren razonamiento complejo o creatividad. Pero para clasificación, extracción, resúmenes y procesamiento de documentos, la diferencia no es tan grande como el precio sugiere.
Casos de uso reales para startups y devs mexicanos
Si ya sabes lo básico de consumir APIs, ya comparaste opciones en nuestra guía de herramientas de IA para programar en 2026, y ahora necesitas decidir qué modelo metes en producción, estos son los casos donde Flash-Lite tiene sentido en México:
Startups de fintech y facturación: extracción de datos de CFDIs, clasificación de gastos, análisis de estados de cuenta. Son tareas de alto volumen donde el costo de tokens se siente directo en el P&L.
Plataformas de atención al cliente: chatbots para e-commerce o SaaS que manejan miles de conversaciones al mes. El contexto de 1M tokens significa que puedes meter toda la base de conocimiento de tu empresa en un solo prompt sin truncar.
Procesamiento de documentos legales o médicos: contratos, expedientes, notas clínicas. Aquí el contexto largo es clave.
Apps que procesan multimedia: si tu producto acepta imágenes, audio o video del usuario y necesitas extraer información, Flash-Lite lo maneja sin pagar el precio premium de un modelo de gama alta.
Pipelines de datos para agencias y consultoras: scraping + clasificación + resumen + reporte. El tipo de trabajo donde corres miles de llamadas al día y el costo se acumula rápido.
Vale la pena mencionar que si lo que quieres es experimentar sin pagar nada, correr modelos locales con Ollama o LM Studio sigue siendo una opción para desarrollo y pruebas. Pero para producción con tráfico real, la API de Google es más estable que cualquier setup local.
Cuándo NO es la opción correcta
Si tu caso de uso requiere razonamiento profundo, generación de código compleja, escritura creativa de calidad alta o tareas donde el error tiene consecuencias graves, Flash-Lite no es lo que buscas. Ahí el costo adicional de un Claude Sonnet, un GPT-4o o un Gemini 3.1 Pro se justifica.
Tampoco es ideal si tu app tiene una carga baja y el costo de tokens no es un factor. Si haces 10,000 llamadas al mes, la diferencia entre $0.25 y $1.00 por millón de tokens es literalmente de centavos. Para ese volumen, mejor usa el modelo que te dé mejor calidad sin pensar tanto en precio.
El time to first token reportado varía entre 5.18 y 7.92 segundos según la fuente y condiciones de medición (Artificial Analysis: 6.74-7.92 segundos; otros benchmarks: 5.18-6.79 segundos), por encima de la mediana de 1.76 segundos del mercado. Para aplicaciones donde el usuario espera respuesta instantánea en una UI, eso se nota. Para pipelines batch donde no hay usuario esperando, no importa.
Cómo acceder hoy
Gemini 3.1 Flash-Lite está disponible en preview desde el 3 de marzo de 2026 en dos lugares:
- Google AI Studio: para developers individuales, prototipado y experimentación. Tiene tier gratuito con límites de rate.
- Vertex AI: para empresas que necesitan SLAs, más control y escala. Aquí ya vas con cuenta de Google Cloud.
El ID del modelo en la API es gemini-3.1-flash-lite-preview. La documentación oficial en Vertex AI tiene los endpoints y ejemplos de código.
En cuanto a precios en pesos, con un tipo de cambio actual cercano a los 19-20 pesos por dólar, procesar un millón de tokens de entrada te cuesta alrededor de $4.75 a $5 pesos. Para output, entre $28 y $30 pesos por millón. En escala real: un chatbot que maneja 10,000 conversaciones de 500 tokens cada una gasta alrededor de $25 pesos en input. Eso es básicamente nada.
La neta sobre Flash-Lite
Google está jugando inteligente. No puede ganarle a OpenAI o Anthropic en los modelos premium todavía, pero sí puede hacer que sea ridículamente barato construir sobre su infraestructura. Flash-Lite es básicamente una apuesta a que los devs que empiezan con precio bajo se queden en el ecosistema de Google cuando escalen.
Para quien está haciendo algo real con IA en México con presupuesto ajustado, es una joya, especialmente si tu caso de uso necesita contexto largo o procesamiento multimodal. Si solo necesitas texto y el volumen no es enorme, GPT-4o Mini sigue siendo más barato en input. Pero en la mayoría de los escenarios de producción reales, Flash-Lite es difícil de ignorar.
Ya que probas en AI Studio y ves que funciona para tu caso, la migración a Vertex AI para producción es directa. No hay excusa para no probarlo.
¿Ya lo están usando en algún proyecto? Si les genera alguna duda sobre cómo compararlo con otros modelos en el contexto de la comparativa general de servicios de IA en 2026, échenla en los comentarios.
Fuentes
- Google Blog: Gemini 3.1 Flash-Lite, our fastest and most cost-efficient Gemini 3 model
- Artificial Analysis: Gemini 3.1 Flash-Lite Preview, benchmarks y velocidad
- AnotherWrapper: Claude Haiku 4.5 vs Gemini 3.1 Flash-Lite, comparativa de precios
- SiliconANGLE: Google launches speedy Gemini 3.1 Flash-Lite model in preview
- Google Cloud Docs: Gemini 3.1 Flash-Lite en Vertex AI
Comentarios
No te pierdas ningún post
Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.
También te puede interesar
Gemini 3 Deep Think: el modelo de razonamiento de Google que saca 100% en olimpiadas de matemáticas (y cuesta casi 5 mil pesos al mes en México)
Google activó Gemini 3 Deep Think para suscriptores Ultra en México: el modelo de razonamiento que saca 100% en el AIME y compite directo con GPT-5.4 Thinking. Benchmarks reales, precios en pesos y cuándo te conviene.
Google no descarta meter anuncios en Gemini: lo que eso cambia para usuarios y empresas en México
El SVP Nick Fox le dijo a WIRED que los ads en Gemini no están descartados. Si ya vives de la versión gratuita, esto te va a afectar.
Gemma 4 ya es tuyo sin restricciones: Apache 2.0, multimodal y corre en tu celular o servidor privado
Google lanzó Gemma 4 el 2 de abril bajo licencia Apache 2.0: cuatro modelos open-weight que cualquier startup o dev puede desplegar sin costo por token, sin límite de usuarios y sin pedirle permiso a nadie.