Gemma 4 ya es tuyo sin restricciones: Apache 2.0, multimodal y corre en tu celular o servidor privado
Google lanzó Gemma 4 el 2 de abril bajo licencia Apache 2.0: cuatro modelos open-weight que cualquier startup o dev puede desplegar sin costo por token, sin límite de usuarios y sin pedirle permiso a nadie.
Google acaba de soltar algo que importa de verdad para devs y startups mexicanas: Gemma 4, cuatro modelos de IA open-weight lanzados el 2 de abril bajo licencia Apache 2.0 sin restricciones comerciales. Sin límite de usuarios activos, sin cláusulas de uso aceptable que te amarren las manos, sin tener que pedirle permiso a Google cada que tu producto crece. Los descargas, los despliegas, los modificas, y listo.
Esto no es lo mismo que el artículo de Gemini 3.1 Flash-Lite a $0.25 por millón de tokens que salió la semana pasada. Aquello es un servicio en la nube de Google. Gemma 4 es tuyo: corre en tu servidor, en tu nube, en tu laptop o incluso en un teléfono. Sin API keys, sin facturas por token, sin dependencia de nadie.
Cuatro modelos para cada caso de uso
La familia Gemma 4 viene en cuatro tamaños:
| Modelo | Parámetros | Parámetros activos | Contexto | Para qué sirve |
|---|---|---|---|---|
| E2B | 2.3B efectivos | 2.3B | 128K tokens | Móviles, edge, IoT |
| E4B | 4.5B efectivos | 4.5B | 128K tokens | Laptops, SBCs, dispositivos limitados |
| 26B A4B (MoE) | 26B totales | 3.8B | 256K tokens | Servidores medianos, GPU de 24GB |
| 31B denso | 31B | 31B | 256K tokens | Producción seria, H100 |
El truco del 26B es que usa Mixture of Experts: tiene 26 mil millones de parámetros en total, pero por cada token que procesa solo activa 3.8B. El resultado es que rinde como un modelo grandote pero consume recursos como uno chico. Es el punto dulce de toda la familia.
Y los números en benchmarks no son de adorno: según el anuncio oficial en el blog de Google DeepMind, el 31B score 89.2% en AIME 2026 (matemáticas avanzadas), 84.3% en GPQA Diamond (ciencias) y 80% en LiveCodeBench (código). Para contexto, la generación anterior Gemma 3 sacaba 20.8% en AIME. No es una actualización menor, es un salto de generación completo.
El 31B ya está rankeado #3 entre todos los modelos abiertos en la Arena AI de texto. El 26B MoE está en el #6, y eso activando solo 4B de parámetros.
Lo que cambia con Apache 2.0
Las versiones anteriores de Gemma tenían restricciones: límites de usuarios activos por mes, cláusulas de uso aceptable que prohibían ciertos verticales, condiciones que te hacían depender del criterio de Google. Apache 2.0 elimina todo eso.
¿Qué significa en la práctica? Que una startup mexicana puede:
- Desplegar Gemma 4 en su propio servidor o en Hetzner/DigitalOcean/AWS sin pagar por token
- Hacer fine-tuning con sus propios datos de negocio y quedarse con el modelo ajustado
- Integrar el modelo en productos comerciales sin restricciones de escala
- Distribuir versiones modificadas dentro del equipo o a clientes
Si ya leíste nuestra guía para correr IA local con Ollama y LM Studio, esto te va a sonar familiar: mismo concepto, pero ahora con modelos que realmente pelean en el nivel alto.
Multimodal de verdad, no de a mentiras
Todos los modelos de Gemma 4 entienden texto e imágenes. Los modelos edge (E2B y E4B) además procesan audio. Los modelos grandes (26B y 31B) entienden video hasta 60 segundos. Contexto de 256K tokens en los modelos grandes significa que puedes meterle documentos enteros, transcripciones largas, bases de código completas.
Capacidades concretas verificadas:
- Análisis de imágenes con detección de objetos y OCR de escritura a mano
- Llamadas a funciones nativas (function calling) sin trucos raros
- Más de 140 idiomas, incluido el español con buena cobertura
- Comprensión de gráficos, diagramas y documentos escaneados
- Razonamiento con pasos de pensamiento largos
Para una empresa que quiere procesar facturas, contratos, imágenes de productos o transcripciones de llamadas sin que sus datos salgan de su infraestructura, esto es una chimba.
Cómo correrlo ahorita mismo
La forma más fácil es con Ollama. Tres comandos y tienes el modelo corriendo:
# E4B para laptops con 8GB+ de RAM
ollama pull gemma4
# 26B MoE para GPUs con 24GB VRAM
ollama pull gemma4:26b
# 31B denso para producción seria
ollama pull gemma4:31b
También está disponible en:
- Hugging Face: colección completa de Gemma 4 con checkpoints base e instruction-tuned
- Google AI Studio: para pruebas rápidas sin instalar nada
- Kaggle: incluido en notebooks
- Vertex AI: para despliegue empresarial en GCP
Para quienes quieran afinar el modelo con datos propios, hay soporte en TRL y Unsloth Studio desde día uno. GGUF para llama.cpp y ONNX para dispositivos móviles también están listos.
¿Qué hardware necesitas?
El E4B corre fluido con 16GB de RAM en modo Q8 (cuantización completa). Si tienes una GPU NVIDIA de 24GB como una RTX 3090 o 4090, el 26B MoE cuantizado a 4 bits entra sin problema y el rendimiento es lo más cercano que vas a encontrar a GPT-4 class sin pagar un centavo por token. El 31B denso pide una H100 de 80GB para correr sin cuantizar, pero cuantizado a 4 bits baja a 24GB también.
Para una startup que ya paga servidores, el cálculo es directo: cuanto pagas mensualmente en API calls versus un servidor con una 4090 o dos. En volúmenes medianos, los modelos locales ya ganan.
El contexto más amplio: Google vs los modelos chinos
The Register señala que Google lanzó Gemma 4 directamente como respuesta a los modelos chinos de código abierto: Qwen, DeepSeek, y compañía. Es una movida estratégica: si el ecosistema open-source se llena de modelos de DeepSeek y Alibaba, Google pierde influencia sobre cómo se construye IA en el mundo. Con Gemma 4 bajo Apache 2.0 y con benchmarks competitivos, la pelea se vuelve interesante.
Para nosotros los usuarios, la competencia es pura ganancia. Que Google tenga que soltar sus mejores modelos abiertos porque si no DeepSeek se come el mercado… no hay queja posible.
¿Ya tienes suficiente VRAM para probar el 26B MoE? ¿O planeas armar algo con los modelos edge en hardware más modesto? Suéltalo en los comentarios.
Fuentes
Comentarios
No te pierdas ningún post
Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.
También te puede interesar
Gemini 3 Deep Think: el modelo de razonamiento de Google que saca 100% en olimpiadas de matemáticas (y cuesta casi 5 mil pesos al mes en México)
Google activó Gemini 3 Deep Think para suscriptores Ultra en México: el modelo de razonamiento que saca 100% en el AIME y compite directo con GPT-5.4 Thinking. Benchmarks reales, precios en pesos y cuándo te conviene.
gpt-oss: la guía práctica para devs en México que OpenAI no quiere que leas primero
OpenAI lanzó gpt-oss con licencia Apache 2.0: 120B parámetros, gratis para uso comercial y disponible en Hugging Face. Aquí cómo correrlo en tu GPU y cómo se compara con Llama 4 y Gemma 3.
Google TurboQuant: corre modelos de IA con 6 veces menos RAM y sin perder ni un bit de precisión
Google anunció TurboQuant, un algoritmo que comprime el KV cache de los LLMs hasta 6x sin reentrenar nada y sin perder precisión. Qué significa para devs y startups de IA en México, y qué está pasando con los precios del DDR5.