Gemma 4: Google lancia 4 modelli open source Apache 2.0 — il 31B è #3 al mondo

Google DeepMind ha rilasciato Gemma 4 il 2 aprile 2026: quattro modelli open source con licenza Apache 2.0, multimodali nativi (testo, immagini, video), context window fino a 256k token. Il modello da 31B parametri è attualmente al terzo posto nella classifica mondiale Arena AI leaderboard tra tutti i modelli open, battendo sistemi con 10 volte i suoi parametri. La variante 26B usa architettura Mixture-of-Experts e durante l’inference ne attiva solo 3,8B — rendendola praticabile su hardware consumer con una GPU da 16GB VRAM.

Quattro varianti per ogni hardware

Gemma 4 E2B — Effective 2B: ottimizzata per dispositivi mobili e CPU, context window 128k token. Richiede circa 2,5 GB di storage non quantizzata.
Gemma 4 E4B — Effective 4B: bilanciamento tra capacità e requisiti hardware, context window 128k token. Ideale per laptop e GPU entry-level da 8GB VRAM.
Gemma 4 26B MoE — Mixture of Experts: attiva solo 3,8B parametri per token durante l’inference. Context window 256k token. Girabilesu GPU da 16GB VRAM con quantizzazione Q4.
Gemma 4 31B Dense — modello flagship, architettura densa. Context window 256k token. Richiede GPU da 24GB VRAM o superiore (RTX 4090, RTX 5000 series). #3 al mondo su Arena AI.

Benchmark — dove si posiziona Gemma 4

I risultati sono riferiti alla variante 31B (Arena AI leaderboard e benchmark standard, aprile 2026):

AIME 2026 (matematica avanzata): 89,2% — Llama 4: 88,3%
LiveCodeBench v6 (coding): 80,0% — Llama 4: 77,1%
GPQA Diamond (scienze a livello dottorato): 84,3% — Llama 4: 82,3%
Arena AI Text Leaderboard: #3 open source mondiale (31B), #6 (26B MoE)

La variante 26B MoE è particolarmente interessante: pur attivando effettivamente 3,8B parametri per token, le performance sono vicine al 31B Dense — un ottimo rapporto capacità/VRAM per chi ha hardware nella fascia RTX 4070-4080.

Come scaricarlo e usarlo in locale

Tramite Ollama (macOS, Linux, Windows):

# Modello consigliato per hardware consumer (16GB VRAM)
ollama pull gemma4:27b
ollama run gemma4:27b

# Versione leggera per GPU da 8GB o CPU
ollama pull gemma4:4b
ollama run gemma4:4b

# Per iPhone (via Google AI Edge Gallery — App Store, gratis)
# Cerca: Google AI Edge Gallery

Da LM Studio: apri il catalogo e cerca “gemma4” — trovi tutte le varianti con VRAM richiesta indicata per ogni livello di quantizzazione.

Su HuggingFace: google/gemma-4-27b-it per la variante instruction-tuned da 27B (versione Ollama del 26B MoE).

Per chi è adatto

Gemma 4 E2B/E4B: chi vuole AI locale su hardware modesto — laptop con GPU integrata, MacBook con Apple Silicon, o anche solo CPU. Con 128k di context window è utilizzabile per documenti lunghi e sessioni di chat estese.

Gemma 4 26B MoE: il punto dolce per chi ha una RTX 4070/4080/5070. Ottimo per coding assistance, RAG su documenti propri, e task multimodali (analisi immagini, chart, screenshot).

Gemma 4 31B Dense: chi ha una RTX 4090 o 5090 e vuole le massime performance open source disponibili oggi su singola GPU consumer.

Licenza Apache 2.0: uso commerciale consentito senza restrizioni, fine-tuning libero, redistribuzione consentita.

Fonte: Google DeepMind Blog, Arena AI Leaderboard — aprile 2026

Quattro varianti per ogni hardware

Benchmark — dove si posiziona Gemma 4

Come scaricarlo e usarlo in locale

Per chi è adatto

Lascia un commento Annulla risposta