ia 4 de abril de 2026 · 5 min de lectura (actualizado)

Gemma 4 ya es tuyo sin restricciones: Apache 2.0, multimodal y corre en tu celular o servidor privado

Google lanzó Gemma 4 el 2 de abril bajo licencia Apache 2.0: cuatro modelos open-weight que cualquier startup o dev puede desplegar sin costo por token, sin límite de usuarios y sin pedirle permiso a nadie.

Al Chile Team

Al Chile Tech

Gemma 4 ya es tuyo sin restricciones: Apache 2.0, multimodal y corre en tu celular o servidor privado

Google acaba de soltar algo que importa de verdad para devs y startups mexicanas: Gemma 4, cuatro modelos de IA open-weight lanzados el 2 de abril bajo licencia Apache 2.0 sin restricciones comerciales. Sin límite de usuarios activos, sin cláusulas de uso aceptable que te amarren las manos, sin tener que pedirle permiso a Google cada que tu producto crece. Los descargas, los despliegas, los modificas, y listo.

Esto no es lo mismo que el artículo de Gemini 3.1 Flash-Lite a $0.25 por millón de tokens que salió la semana pasada. Aquello es un servicio en la nube de Google. Gemma 4 es tuyo: corre en tu servidor, en tu nube, en tu laptop o incluso en un teléfono. Sin API keys, sin facturas por token, sin dependencia de nadie.

Cuatro modelos para cada caso de uso

La familia Gemma 4 viene en cuatro tamaños:

Modelo	Parámetros	Parámetros activos	Contexto	Para qué sirve
E2B	2.3B efectivos	2.3B	128K tokens	Móviles, edge, IoT
E4B	4.5B efectivos	4.5B	128K tokens	Laptops, SBCs, dispositivos limitados
26B A4B (MoE)	26B totales	3.8B	256K tokens	Servidores medianos, GPU de 24GB
31B denso	31B	31B	256K tokens	Producción seria, H100

El truco del 26B es que usa Mixture of Experts: tiene 26 mil millones de parámetros en total, pero por cada token que procesa solo activa 3.8B. El resultado es que rinde como un modelo grandote pero consume recursos como uno chico. Es el punto dulce de toda la familia.

Y los números en benchmarks no son de adorno: según el anuncio oficial en el blog de Google DeepMind, el 31B score 89.2% en AIME 2026 (matemáticas avanzadas), 84.3% en GPQA Diamond (ciencias) y 80% en LiveCodeBench (código). Para contexto, la generación anterior Gemma 3 sacaba 20.8% en AIME. No es una actualización menor, es un salto de generación completo.

El 31B ya está rankeado #3 entre todos los modelos abiertos en la Arena AI de texto. El 26B MoE está en el #6, y eso activando solo 4B de parámetros.

Lo que cambia con Apache 2.0

Las versiones anteriores de Gemma tenían restricciones: límites de usuarios activos por mes, cláusulas de uso aceptable que prohibían ciertos verticales, condiciones que te hacían depender del criterio de Google. Apache 2.0 elimina todo eso.

¿Qué significa en la práctica? Que una startup mexicana puede:

Desplegar Gemma 4 en su propio servidor o en Hetzner/DigitalOcean/AWS sin pagar por token
Hacer fine-tuning con sus propios datos de negocio y quedarse con el modelo ajustado
Integrar el modelo en productos comerciales sin restricciones de escala
Distribuir versiones modificadas dentro del equipo o a clientes

Si ya leíste nuestra guía para correr IA local con Ollama y LM Studio, esto te va a sonar familiar: mismo concepto, pero ahora con modelos que realmente pelean en el nivel alto.

Multimodal de verdad, no de a mentiras

Todos los modelos de Gemma 4 entienden texto e imágenes. Los modelos edge (E2B y E4B) además procesan audio. Los modelos grandes (26B y 31B) entienden video hasta 60 segundos. Contexto de 256K tokens en los modelos grandes significa que puedes meterle documentos enteros, transcripciones largas, bases de código completas.

Capacidades concretas verificadas:

Análisis de imágenes con detección de objetos y OCR de escritura a mano
Llamadas a funciones nativas (function calling) sin trucos raros
Más de 140 idiomas, incluido el español con buena cobertura
Comprensión de gráficos, diagramas y documentos escaneados
Razonamiento con pasos de pensamiento largos

Para una empresa que quiere procesar facturas, contratos, imágenes de productos o transcripciones de llamadas sin que sus datos salgan de su infraestructura, esto es una chimba.

Cómo correrlo ahorita mismo

La forma más fácil es con Ollama. Tres comandos y tienes el modelo corriendo:

# E4B para laptops con 8GB+ de RAM
ollama pull gemma4

# 26B MoE para GPUs con 24GB VRAM
ollama pull gemma4:26b

# 31B denso para producción seria
ollama pull gemma4:31b

También está disponible en:

Hugging Face: colección completa de Gemma 4 con checkpoints base e instruction-tuned
Google AI Studio: para pruebas rápidas sin instalar nada
Kaggle: incluido en notebooks
Vertex AI: para despliegue empresarial en GCP

Para quienes quieran afinar el modelo con datos propios, hay soporte en TRL y Unsloth Studio desde día uno. GGUF para llama.cpp y ONNX para dispositivos móviles también están listos.

¿Qué hardware necesitas?

El E4B corre fluido con 16GB de RAM en modo Q8 (cuantización completa). Si tienes una GPU NVIDIA de 24GB como una RTX 3090 o 4090, el 26B MoE cuantizado a 4 bits entra sin problema y el rendimiento es lo más cercano que vas a encontrar a GPT-4 class sin pagar un centavo por token. El 31B denso pide una H100 de 80GB para correr sin cuantizar, pero cuantizado a 4 bits baja a 24GB también.

Para una startup que ya paga servidores, el cálculo es directo: cuanto pagas mensualmente en API calls versus un servidor con una 4090 o dos. En volúmenes medianos, los modelos locales ya ganan.

El contexto más amplio: Google vs los modelos chinos

The Register señala que Google lanzó Gemma 4 directamente como respuesta a los modelos chinos de código abierto: Qwen, DeepSeek, y compañía. Es una movida estratégica: si el ecosistema open-source se llena de modelos de DeepSeek y Alibaba, Google pierde influencia sobre cómo se construye IA en el mundo. Con Gemma 4 bajo Apache 2.0 y con benchmarks competitivos, la pelea se vuelve interesante.

Para nosotros los usuarios, la competencia es pura ganancia. Que Google tenga que soltar sus mejores modelos abiertos porque si no DeepSeek se come el mercado… no hay queja posible.

¿Ya tienes suficiente VRAM para probar el 26B MoE? ¿O planeas armar algo con los modelos edge en hardware más modesto? Suéltalo en los comentarios.

Fuentes

¡Comparte!

#ia #google #open-source #llm #modelos-abiertos

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar

ia 12 abr 2026 · 3 min

Gemma 4: Google lanzó el modelo de IA que corre offline en tu celular y ya aplasta a modelos 10 veces más grandes

Google liberó Gemma 4 el 2 de abril bajo licencia Apache 2.0 pura: corre en tu smartphone sin internet, soporta 256K tokens de contexto y el 31B supera en benchmarks a modelos 20 veces más grandes. Esto cambia todo para devs en México y LATAM.

Leer

ia 8 abr 2026 · 3 min

Google TurboQuant: de $1 a $0.05 por millón de tokens y el golpe que le metió a los chips de memoria

Google comprimió los KV caches de LLMs 6 veces sin perder precisión. Los costos de inferencia bajan 20x y Samsung, SK Hynix y Micron ya sienten el madrazo. Qué significa para devs y startups en México.

Leer

ia 21 may 2026 · 3 min

Gemini 3.5 Flash ya le ganó a Gemini 3.1 Pro siendo más barato: lo que los devs en México necesitan saber hoy

Google lanzó en el I/O 2026 un modelo Flash que supera al Pro en coding y agentes, corre a 289 tokens/segundo y cuesta la tercera parte que GPT-5.5. Aquí los números reales.

Leer

Más de ia Todas las categorías