Google Gemma 4: La Familia de Modelos Abiertos Qué Cambio Nuestra Infraestructura
Google Gemma 4: La Familia de Modelos Abiertos Que Cambio Nuestra Infraestructura
Hace unas semanas publicamos nuestro analisis de Gemma 2 9B y lo llamamos “el mejor modelo pequeno para IA empresarial europea.” Lo deciamos en serio. Ejecutaba nuestras tareas de planificacion, cabia en hardware modesto y seguia instrucciones con una fiabilidad sorprendente. Entonces Google lanzo Gemma 4 el 2 de abril de 2026 y convirtio a Gemma 2 en un borrador.
Esta es la familia de modelos que estabamos esperando. No porque sea perfecta — no lo es — sino porque por fin cierra la brecha entre lo que los modelos abiertos pequenos pueden hacer y lo que las empresas realmente necesitan. Reemplazamos Gemma 2 en produccion en 48 horas. Aqui esta lo que paso, lo que nos impresiono y donde estan los limites.

Cuatro Variantes, Cuatro Casos de Uso
Gemma 4 no es un modelo unico. Es una familia de cuatro, cada uno disenado para un nivel diferente de hardware y carga de trabajo. Esto es Google haciendo lo que mejor sabe: escalar una sola arquitectura a traves de presupuestos de recursos radicalmente distintos.
| Variante | Params Totales | Efectivos / Activos | Contexto | Audio | Tamano Ollama | Ranking Arena AI |
|---|---|---|---|---|---|---|
| E2B | 5.1B (con embeddings) | 2.3B efectivos | 128K | Si | ~3.5 GB | — |
| E4B | 8B (con embeddings) | 4.5B efectivos | 128K | Si | 9.6 GB | — |
| 26B MoE | 25.2B total | 3.8B activos (8/128 expertos) | 256K | No | 18 GB | #6 abierto |
| 31B Dense | 30.7B | 30.7B (todo denso) | 256K | No | 20 GB | #3 abierto |
Las variantes E2B y E4B son multimodales — aceptan texto, imagenes y audio como entrada y producen texto. Las 26B y 31B manejan texto e imagenes solamente. Las cuatro soportan mas de 140 idiomas, modos de razonamiento configurables, llamadas a funciones nativas, salida JSON estructurada e instrucciones de sistema.
xychart-beta
title "Gemma 4 Variants — Parameters vs Memory"
x-axis ["E2B (2.3B)", "E4B (4B)", "26B MoE", "31B Dense"]
y-axis "Memory Required (GB)" 0 --> 25
bar [4, 9.6, 18, 20]
Ese modelo 31B Dense en el puesto #3 del ranking Arena AI entre todos los modelos abiertos del mundo no es una errata. La variante 26B MoE ocupa el puesto #6. La afirmacion de Google de que Gemma 4 “supera a modelos 20 veces su tamano” suena a marketing hasta que ves los benchmarks.
Como Ejecutar Cada Variante con Ollama
Empezar requiere un solo comando por variante:
# E2B — ultraligero, nuestro motor de planificacion
ollama pull gemma4:e2b
# E4B — carga media, contenido y briefings
ollama pull gemma4:e4b
# 26B MoE — razonamiento pesado con activacion dispersa
ollama pull gemma4:26b
# 31B Dense — maxima calidad, necesita hardware potente
ollama pull gemma4:31b
El E2B ocupa menos de 4 GB. El E4B se situa en 9.6 GB — justo en una maquina de 16 GB pero comodo en 32 GB. Las variantes 26B y 31B necesitan 18-20 GB de VRAM o memoria unificada, lo que las coloca en territorio de Mac Studio o GPU dedicada. Para orientacion sobre hardware, consulta nuestra guia de hardware para IA edge.
Lo Que Ejecutamos en Produccion
En VORLUX AI, ejecutamos Gemma 4 E2B y E4B en un Mac Mini M4 como parte de nuestra infraestructura de IA local. Asi encajan:
Gemma 4 E2B es nuestro modelo principal de planificacion. Gestiona 58 trabajos del orquestador — enrutamiento de tareas, actualizaciones de estado, clasificacion ligera y salidas JSON estructuradas para agentes posteriores. Con 2.3B parametros efectivos, es absurdamente rapido. Los tiempos de respuesta promedian menos de 800ms para prompts tipicos de planificacion. Reemplazo a Gemma 2 9B para estas tareas y usa aproximadamente la mitad de memoria.
Gemma 4 E4B es nuestro modelo de carga media para briefings, redaccion de contenido y analisis de varios pasos. Cuando una tarea necesita mas razonamiento del que E2B puede ofrecer pero no justifica un modelo de 26B+, E4B se encarga. La ventana de contexto de 128K significa que podemos alimentarlo con documentos completos sin fragmentarlos.
El Mac Mini M4 ejecuta ambos simultaneamente con margen de sobra. Esto habria sido impensable hace un ano.
Lo Que Gemma 4 Hace Excepcionalmente Bien
Llamadas a funciones y salida estructurada. Soporte nativo, no anadido como parche. Le pasamos a Gemma 4 un esquema de herramientas y devuelve llamadas a funciones en JSON valido de forma consistente. Esto importa enormemente para la orquestacion de agentes — se acabaron los regex para parsear texto libre.
Seguimiento de instrucciones. Los modos de razonamiento configurables nos permiten alternar entre respuestas rapidas (pensamiento desactivado) y razonamiento deliberado (pensamiento activado) por solicitud. Para planificacion, desactivamos el pensamiento. Para analisis de contenido, lo activamos.
Rendimiento multilingue. Con mas de 140 idiomas, nuestros flujos de trabajo en castellano e ingles funcionan sobre el mismo modelo sin fine-tuning. Para una consultora con sede en Valencia que atiende PYMEs espanolas, esto no es un extra — es esencial.
Entrada de audio en E2B/E4B. Aun no lo hemos desplegado en produccion, pero la capacidad de procesar audio de forma nativa abre puertas para transcripcion de reuniones, flujos de trabajo por voz y funciones de accesibilidad sin necesitar un pipeline separado de speech-to-text.
Donde Se Queda Corto — Limites Honestos
Prometimos analisis honestos y lo cumplimos.
Razonamiento profundo y codigo complejo. Para demostraciones matematicas de varios pasos o desafios de programacion competitiva, Gemma 4 31B es fuerte pero sigue detras de Llama 3.3 70B y Qwen 2.5 72B Coder. Si tu carga de trabajo principal es generacion de codigo, Qwen sigue siendo la mejor opcion especializada. Gemma 4 es un generalista que programa bien — no es un especialista en codigo.
El trade-off del 26B MoE. La arquitectura Mixture-of-Experts es brillante para eficiencia — solo 3.8B de los 25.2B parametros se activan por token. Pero los modelos MoE pueden ser impredecibles en tareas que caen entre las fronteras de los expertos. Hemos visto inconsistencia ocasional en tareas hibridas que el 31B Dense resuelve limpiamente.
Sin generacion de texto a partir de imagenes o audio. Gemma 4 puede entender imagenes y audio como entrada, pero solo genera texto. Si necesitas generacion de imagenes o sintesis de audio, sigues necesitando modelos separados.
Presion de VRAM en las variantes grandes. El 31B Dense a 20 GB queda justo en un Mac de 32 GB. Ejecutarlo junto a otros modelos requiere gestion cuidadosa de memoria. Consulta nuestra comparativa de modelos Q2 2026 para presupuestos de VRAM lado a lado.
Gemma 4 vs Gemma 2: Merece la Pena Actualizar?
Sin ninguna duda. Solo el E2B hace redundante a Gemma 2 9B para la mayoria de tareas de planificacion y clasificacion — es mas rapido, mas pequeno y mas capaz. La ventana de contexto de 128K (frente a 8K en Gemma 2) elimina los workarounds de fragmentacion que necesitabamos. El soporte de llamadas a funciones significo que borramos cientos de lineas de codigo de parseo de salida. Y la calidad multilingue paso de “funcional” a “genuinamente buena.”
Si actualmente ejecutas Gemma 2, la ruta de migracion es directa: descarga el modelo nuevo, prueba tus prompts y cambia. Nosotros lo hicimos en un fin de semana.
Quien Deberia Usar Cada Variante?
- E2B: Dispositivos edge, planificacion, clasificacion, IoT, movil. Todo donde la velocidad y el tamano importan mas que la profundidad.
- E4B: Estaciones de trabajo PYME, generacion de contenido, briefings, soporte al cliente. El punto optimo para la mayoria de casos de uso empresariales.
- 26B MoE: Investigacion, analisis, procesamiento de documentos largos. Ideal cuando necesitas 256K de contexto pero quieres mantener la memoria razonable.
- 31B Dense: Maxima calidad en tareas exigentes. Traduccion, analisis complejo, razonamiento multi-turno. Merece la pena si tienes el hardware.
Lecturas relacionadas
- IA en la Nube vs Local: Analisis Real de Costes para PYMEs Espanolas en 2026
- Llama 4 Scout y Maverick: Análisis Práctico para Despliegue Local de IA
- AESIA: Lo Que Toda Empresa Española que Usa IA Debe Saber en 2026
Como Empezar
Gemma 4 esta disponible ahora en Ollama y el blog oficial de Google tiene los detalles tecnicos completos. Todas las variantes usan la licencia Gemma, que permite uso comercial.
Si quieres ayuda desplegando Gemma 4 en tu propio hardware — ya sea un Mac Mini o una flota de dispositivos edge — eso es exactamente lo que hacemos. Construimos sistemas de IA local para PYMEs europeas que mantienen los datos en las instalaciones y los costes predecibles. Consulta nuestros servicios o contactanos para una consulta gratuita.
La era de necesitar presupuestos masivos en la nube para IA capaz esta terminando. Gemma 4 es la prueba.