ia

Gemini 3 Deep Think: el modelo de razonamiento de Google que saca 100% en olimpiadas de matemáticas (y cuesta casi 5 mil pesos al mes en México)

ia · 7 min de lectura (actualizado)

Gemini 3 Deep Think: el modelo de razonamiento de Google que saca 100% en olimpiadas de matemáticas (y cuesta casi 5 mil pesos al mes en México)

Google activó Gemini 3 Deep Think para suscriptores Ultra en México: el modelo de razonamiento que saca 100% en el AIME y compite directo con GPT-5.4 Thinking. Benchmarks reales, precios en pesos y cuándo te conviene.

Gemini 3 Deep Think: el modelo de razonamiento de Google que saca 100% en olimpiadas de matemáticas (y cuesta casi 5 mil pesos al mes en México)

El 12 de febrero de 2026, Google lanzó algo que pone los pelos de punta si te gustan las matemáticas: Gemini 3 Deep Think saca 100% en el AIME (la olimpiada de matemáticas más cabrona del mundo), tiene un Elo de 3,455 en Codeforces, y en ARC-AGI-2 le gana a GPT-5.4 Thinking por más de un punto. En papel, es el modelo de razonamiento más poderoso disponible hoy.

El problema: en México te cuesta $4,949 pesos al mes para accederlo en la app de Gemini.

Aquí te cuento exactamente qué es, qué puede y qué no puede, y si el precio tiene sentido para tu caso.

Primero lo básico: ¿qué es un modelo de razonamiento?

Los modelos de IA normales generan texto en un solo pase de izquierda a derecha. Tú preguntas, ellos responden. Rápido, eficiente, pero con límites claros cuando el problema requiere varios pasos encadenados sin fallar en ninguno.

Los modelos de razonamiento son diferentes desde su entrenamiento: usan reinforcement learning donde no solo se premia la respuesta final correcta, sino el proceso de llegar a ella. El modelo aprende a construir cadenas de pensamiento internas antes de responder, como un estudiante que hace borrador antes de escribir la respuesta limpia.

En la práctica, el modelo gasta compute extra antes de darte su output. Esos “tokens de pensamiento” son invisibles para ti, pero ahí está el modelo explorando múltiples caminos, descartando callejones sin salida y verificando su trabajo. Más lento y más caro por consulta que un modelo estándar, pero la diferencia en problemas complejos es brutal.

OpenAI inició esta categoría con o1 en 2024. Google respondió con el modo “Flash Thinking” en Gemini 2.0, y Gemini 3 Deep Think es su apuesta más seria hasta ahora.

Qué hace Deep Think diferente

Según el anuncio oficial de Google en su blog, Deep Think usa “razonamiento paralelo para explorar múltiples hipótesis simultáneamente”. No es solo pensar en secuencia, sino abrir varias ramas de solución al mismo tiempo y quedarse con la mejor.

Está diseñado para ciencia, ingeniería e investigación: los problemas donde cada paso importa y equivocarte en el intermedio arruina todo lo que viene después.

Una advertencia real: las respuestas pueden tardarse minutos. Esto no es para “resume este correo” ni “hazme un caption para Instagram”. Es para cuando te sientas a resolver algo que podría tomarte una tarde entera.

Como hemos cubierto en este blog, Google lleva tiempo apostando fuerte a todo su ecosistema de IA, desde Google Personal Intelligence accediendo a tu Gmail y fotos en el extremo cotidiano, hasta Deep Think para el extremo hardcore científico. La estrategia de Mountain View es clara: quieren ser relevantes en todos los niveles.

Los benchmarks: la neta de los números

Aquí está lo que dicen las comparativas verificadas. Sin rodeos:

Matemáticas y razonamiento científico (Deep Think gana claro):

BenchmarkGemini 3 Deep ThinkGPT-5.4 ThinkingClaude Opus 4.6
AIME 2025100%no reportadono reportado
Olimpiada Internacional de Mat. 202581.5%71.4%no reportado
GPQA Diamond93.8%83.9-92.8%87.4%
ARC-AGI-284.6%83.3%68.8%
Olimpiada de Física 202587.7%no reportado71.6%

Código (más parejo, depende del benchmark):

BenchmarkGemini 3 Deep ThinkGPT-5.4Claude Opus 4.6
Codeforces Elo3,455no reportado2,352
HumanEval89.2%93.1%90.4%
Terminal-Bench 2.056.2-68.5%75.1%65.4%

El benchmark SWE-Bench Verified 80.6% citado pertenece a Gemini 3.1 Pro, no a Gemini 3 Deep Think. Gemini 3.1 Pro logra 80.6%, no Gemini 3 Deep Think específicamente.

Trabajo profesional y escritura:

BenchmarkGemini 3.1 ProGPT-5.4Claude Opus 4.6
MMLU Pro90.8%92.3%91.7%
Escritura creativa7.3/107.8/108.6/10
Computer use (OSWorld)no reportado75%no reportado

La conclusión honesta, según la comparativa de benchmarks de MindStudio entre los tres modelos: Deep Think es el rey del razonamiento matemático y científico. GPT-5.4 Thinking gana en tareas de agentes autónomos y uso de computadoras. Claude Opus 4.6 escribe mejor. Nadie lo barre a todos en todo. El Índice de Inteligencia General de Artificial Analysis los tiene prácticamente empatados: Gemini 3.1 Pro Preview en 57.2 vs GPT-5.4 Pro en 57.0.

Si eres dev y lo que te importa es el uso diario para programar, cubrimos eso a fondo en nuestra comparativa de Claude Code vs Cursor vs Copilot vs Windsurf, donde el factor decisivo es el flujo de trabajo, no solo los benchmarks de papel.

Cuánto cuesta en México

Aquí viene el jalón. Según la página oficial de suscripciones de Google en México:

PlanPrecio MXN/mes¿Deep Think?
Free$0No
Google AI Plus$99No
Google AI Pro$395No
Google AI Ultra$4,949

Hay promo de introducción: $2,449/mes los primeros 3 meses. Aun así.

Para contexto: ChatGPT Pro anda en $200 USD al mes, que son aproximadamente $4,000 pesos. Claude Max Plan está en rango similar. O sea, Deep Think no está fuera de lugar en precio para la categoría premium, pero sigue siendo dinero serio para la mayoría.

Detalle importante: la página mexicana avisa que algunas features de Ultra pueden estar restringidas a inglés/EUA en su lanzamiento inicial. Antes de suscribirte, verifica que Deep Think ya esté disponible al 100% en español desde México.

Para API: todavía está en early access para investigadores y empresas seleccionadas. No hay precio público por token todavía. Si lo necesitas en producción hoy, tienes que contactar a Google directamente.

¿Cuándo tiene sentido pagarlo?

Deep Think NO es para:

  • Resumir correos o documentos
  • Hacer prompts creativos sencillos
  • Búsquedas generales de información
  • Redacción casual o redes sociales

Deep Think SÍ es para:

  • Matemáticas, estadística o lógica formal de varios pasos
  • Debugging de código donde el problema está varios layers adentro
  • Análisis de negocios que requiere razonamiento encadenado: proyecciones, modelos de decisión, escenarios complejos
  • Research científico: revisar hipótesis, diseñar experimentos, analizar papers
  • Código competitivo o problemas algorítmicos difíciles

Está al palo para equipos técnicos con presupuesto real para herramientas de IA. Para uso personal casual, los casi cinco mil pesos mensuales son difíciles de justificar. Si solo quieres probar Deep Think puntualmente, espera a que Google abra el API al público.

¿Vale más que GPT-5.4 Thinking?

Depende de qué haces.

Si tu trabajo es matemáticas puras, ciencia, o código competitivo: Deep Think gana claro. La ventaja en olimpiadas de matemáticas y en Codeforces no es cosmética, es una brecha real.

Si haces más trabajo de agentes autónomos, computer use, o necesitas velocidad: GPT-5.4 Thinking tiene la ventaja en esos casos.

Lo que hemos explicado antes en nuestra comparativa general de ChatGPT vs Claude vs Gemini vs Grok vs DeepSeek sigue siendo verdad: no hay un modelo que gane en todo, y la respuesta correcta depende de para qué lo usas.

La apuesta de Google es que hay un segmento de usuarios, investigadores, ingenieros y empresas, dispuestos a pagar premium por el mejor razonamiento disponible en matemáticas y ciencia. Y con esos números de benchmark, el argumento se sostiene.

¿Ya lo probaste? ¿O te parece que $4,949 al mes no tiene ningún sentido para lo que haces? Cuéntame en los comentarios.

Fuentes

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar