ia

Gemini 3.5 Flash ya le ganó a Gemini 3.1 Pro siendo más barato: lo que los devs en México necesitan saber hoy

ia · 6 min de lectura

Gemini 3.5 Flash ya le ganó a Gemini 3.1 Pro siendo más barato: lo que los devs en México necesitan saber hoy

Google lanzó en el I/O 2026 un modelo Flash que supera al Pro en coding y agentes, corre a 289 tokens/segundo y cuesta la tercera parte que GPT-5.5. Aquí los números reales.

Gemini 3.5 Flash ya le ganó a Gemini 3.1 Pro siendo más barato: lo que los devs en México necesitan saber hoy

Google acaba de hacer algo que nadie en el mercado de modelos de IA esperaba tan rápido: lanzar un modelo Flash que le saca la vuelta a su propio Pro en las tareas que más les importan a los devs. No es marketing, son benchmarks. Y encima, lo están vendiendo más barato que lo que tenían antes.

El 19 de mayo en el Google I/O 2026, Google presentó oficialmente Gemini 3.5 Flash, y desde que salió los desarrolladores en Twitter y Reddit no han parado de hablar de eso. Con razón.

Qué cambió con Gemini 3.5 Flash

La promesa de siempre con los modelos “Flash” era: más rápido pero menos capaz. Sacrificabas rendimiento para conseguir latencia y precio. Con la versión 3.5 esa ecuación se rompió, al menos en los casos de uso que le importan a quien construye productos reales.

El modelo corre a 289 tokens por segundo, lo que Google posiciona como 4 veces más rápido que otros modelos frontera. Para una app de agentes donde el usuario está esperando que el asistente complete tareas en cadena, esa diferencia la sientes. No es cosmética.

Lo que sí es un dato honesto: Gemini 3.5 Flash no gana en todo. En razonamiento abstracto puro (benchmarks como Humanity’s Last Exam o ARC-AGI-2) y en recuperación de contexto largo (MRCR v2 a 128k tokens), Gemini 3.1 Pro todavía le gana. Si tu caso de uso es contestar preguntas de doctorado o procesar documentos enormes de una sola pasada, quizá el Pro sigue siendo tu opción.

Pero si estás construyendo agentes, pipelines de código o sistemas que necesitan hacer varias llamadas seguidas, 3.5 Flash ya es el modelo a usar.

Los benchmarks que importan para developers

Según el análisis detallado de llm-stats.com, estas son las diferencias concretas entre ambos modelos:

BenchmarkGemini 3.5 FlashGemini 3.1 Pro
Terminal-Bench 2.176.2%70.3%
MCP Atlas (agentes)83.6%78.2%
Finance Agent v257.9%43.0%
GDPval-AA Elo1,6561,314
Humanity’s Last Exam40.2%44.4%
MRCR v2 (128k)77.3%84.9%

La diferencia en Finance Agent (+14.9 puntos) es la que más me llama la atención. No es un benchmark académico: mide al modelo completando tareas financieras reales en múltiples pasos. Ahí es donde los agentes necesitan funcionar bien en producción.

La tabla de precios que todos estaban esperando

Aquí está la comparativa que te interesa si estás eligiendo qué API conectar a tu proyecto:

ModeloInput / 1M tokensOutput / 1M tokens
Gemini 3.5 Flash$1.50$9.00
Gemini 3.1 Pro$2.00$12.00
Claude Opus 4.6$5.00$25.00
GPT-5.5$5.00$30.00

Sí, leíste bien. Gemini 3.5 Flash cuesta 3.3 veces menos que GPT-5.5 en input y 3.3 veces menos en output. Y OpenAI subió el precio de GPT-5.5 en abril pasado al doble respecto al 5.4, así que la brecha es reciente y duele más.

Para una startup mexicana que está pagando en dólares desde una tarjeta en pesos, esa diferencia no es menor. Si consumes 10 millones de tokens de output al mes, estás hablando de $90 con Gemini 3.5 Flash contra $300 con GPT-5.5. Un ahorro de $210 dólares mensuales, o cerca de 4,300 pesos al tipo de cambio actual.

Esto conecta directamente con lo que veníamos discutiendo en nuestro análisis de Claude Sonnet 4.6 vs GPT-5 vs Gemini 3.1 Pro: el costo por token es hoy el factor que más impacta en la viabilidad de proyectos de IA en LATAM.

Contexto de ventana y lo técnico que necesitas saber

El modelo tiene una ventana de contexto de 1,048,576 tokens de entrada y 65,536 de salida. En la práctica eso es suficiente para la enorme mayoría de casos de uso.

Soporta texto, imágenes, audio y video como entrada, con salida solo en texto. El knowledge cutoff es enero 2026. Se lanzó directamente en GA (general availability), sin período de preview, lo que significa que puedes usarlo en producción desde hoy en Google AI Studio y la API de Gemini.

La integración con herramientas de agentes también es real: function calling, structured output, ejecución de código, y lo que Google llama “Managed Agents API” que levanta entornos Linux aislados para el agente con una sola llamada. Eso es relevante si estás construyendo sobre MCP o pipelines de automatización.

¿Reemplaza completamente a Gemini 3.1 Pro?

No del todo, pero sí en la mayoría de los casos de uso prácticos.

Si construyes: agentes de código, bots de automatización, sistemas de análisis financiero, pipelines de procesamiento de documentos con múltiples pasos, o cualquier cosa que necesite velocidad de respuesta alta, Gemini 3.5 Flash es tu nuevo default.

Si construyes: sistemas de QA académico de alto nivel, procesamiento de documentos gigantes en una sola llamada donde necesitas máxima precisión en recuperación de contexto largo, el Pro todavía tiene ventaja.

La noticia más grande aquí no es que Flash sea mejor en algún benchmark: es que Google movió el punto de frontera hacia abajo en el árbol de precios. Lo que antes costaba Pro-tier de dinero ahora viene incluido en el precio de Flash. Y para los que ya cubrimos la situación en México donde el costo de infraestructura de IA está frenando proyectos reales, eso importa.

Cuándo y cómo usarlo desde México

Disponible ahora mismo en Google AI Studio y vía la Gemini API. No hay restricción geográfica para el acceso a la API desde México, aunque los precios en regiones no-globales tienen un incremento del 10% ($1.65/$9.90 en lugar de $1.50/$9.00).

El modelo ya es el default en la app de Gemini globalmente, así que si la usas en el día a día, ya estás corriendo sobre él.

No hay distribuidores locales que interesen aquí porque es puramente API. Paga con tarjeta de crédito directamente en la consola de Google Cloud o Google AI Studio. Billeteras digitales como Clip o Mercado Pago no funcionan para esto.

Para comparar consumo y costos de distintos modelos antes de migrar, llm-stats.com tiene una calculadora bastante decente que ya incluye Gemini 3.5 Flash.

La vaina está bacana: un modelo que supera al Pro en agentes y coding, pero a precio de Flash. Eso no pasa todos los días.

¿Ya lo probaste? ¿Estás migrando desde GPT-5.5 o se quedan con otro modelo? La discusión está abierta en los comentarios.

Fuentes

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar