Google DeepMind ha rilasciato Gemma 4 il 2 aprile 2026: quattro modelli open source con licenza Apache 2.0, multimodali nativi (testo, immagini, video), context window fino a 256k token. Il modello da 31B parametri è attualmente al terzo posto nella classifica mondiale Arena AI leaderboard tra tutti i modelli open, battendo sistemi con 10 volte i suoi parametri. La variante 26B usa architettura Mixture-of-Experts e durante l’inference ne attiva solo 3,8B — rendendola praticabile su hardware consumer con una GPU da 16GB VRAM.
Quattro varianti per ogni hardware
- Gemma 4 E2B — Effective 2B: ottimizzata per dispositivi mobili e CPU, context window 128k token. Richiede circa 2,5 GB di storage non quantizzata.
- Gemma 4 E4B — Effective 4B: bilanciamento tra capacità e requisiti hardware, context window 128k token. Ideale per laptop e GPU entry-level da 8GB VRAM.
- Gemma 4 26B MoE — Mixture of Experts: attiva solo 3,8B parametri per token durante l’inference. Context window 256k token. Girabilesu GPU da 16GB VRAM con quantizzazione Q4.
- Gemma 4 31B Dense — modello flagship, architettura densa. Context window 256k token. Richiede GPU da 24GB VRAM o superiore (RTX 4090, RTX 5000 series). #3 al mondo su Arena AI.
Benchmark — dove si posiziona Gemma 4
I risultati sono riferiti alla variante 31B (Arena AI leaderboard e benchmark standard, aprile 2026):
- AIME 2026 (matematica avanzata): 89,2% — Llama 4: 88,3%
- LiveCodeBench v6 (coding): 80,0% — Llama 4: 77,1%
- GPQA Diamond (scienze a livello dottorato): 84,3% — Llama 4: 82,3%
- Arena AI Text Leaderboard: #3 open source mondiale (31B), #6 (26B MoE)
La variante 26B MoE è particolarmente interessante: pur attivando effettivamente 3,8B parametri per token, le performance sono vicine al 31B Dense — un ottimo rapporto capacità/VRAM per chi ha hardware nella fascia RTX 4070-4080.
Come scaricarlo e usarlo in locale
Tramite Ollama (macOS, Linux, Windows):
# Modello consigliato per hardware consumer (16GB VRAM)
ollama pull gemma4:27b
ollama run gemma4:27b
# Versione leggera per GPU da 8GB o CPU
ollama pull gemma4:4b
ollama run gemma4:4b
# Per iPhone (via Google AI Edge Gallery — App Store, gratis)
# Cerca: Google AI Edge Gallery
Da LM Studio: apri il catalogo e cerca “gemma4” — trovi tutte le varianti con VRAM richiesta indicata per ogni livello di quantizzazione.
Su HuggingFace: google/gemma-4-27b-it per la variante instruction-tuned da 27B (versione Ollama del 26B MoE).
Per chi è adatto
Gemma 4 E2B/E4B: chi vuole AI locale su hardware modesto — laptop con GPU integrata, MacBook con Apple Silicon, o anche solo CPU. Con 128k di context window è utilizzabile per documenti lunghi e sessioni di chat estese.
Gemma 4 26B MoE: il punto dolce per chi ha una RTX 4070/4080/5070. Ottimo per coding assistance, RAG su documenti propri, e task multimodali (analisi immagini, chart, screenshot).
Gemma 4 31B Dense: chi ha una RTX 4090 o 5090 e vuole le massime performance open source disponibili oggi su singola GPU consumer.
Licenza Apache 2.0: uso commerciale consentito senza restrizioni, fine-tuning libero, redistribuzione consentita.
Fonte: Google DeepMind Blog, Arena AI Leaderboard — aprile 2026
