Google DeepMind ha rilasciato Gemma 4 il 2 aprile 2026: quattro modelli open source con licenza Apache 2.0, multimodali nativi (testo, immagini, video), context window fino a 256k token. Il modello da 31B parametri è attualmente al terzo posto nella classifica mondiale Arena AI leaderboard tra tutti i modelli open, battendo sistemi con 10 volte i suoi parametri. La variante 26B usa architettura Mixture-of-Experts e durante l’inference ne attiva solo 3,8B — rendendola praticabile su hardware consumer con una GPU da 16GB VRAM.

Quattro varianti per ogni hardware

Benchmark — dove si posiziona Gemma 4

I risultati sono riferiti alla variante 31B (Arena AI leaderboard e benchmark standard, aprile 2026):

La variante 26B MoE è particolarmente interessante: pur attivando effettivamente 3,8B parametri per token, le performance sono vicine al 31B Dense — un ottimo rapporto capacità/VRAM per chi ha hardware nella fascia RTX 4070-4080.

Come scaricarlo e usarlo in locale

Tramite Ollama (macOS, Linux, Windows):

# Modello consigliato per hardware consumer (16GB VRAM)
ollama pull gemma4:27b
ollama run gemma4:27b

# Versione leggera per GPU da 8GB o CPU
ollama pull gemma4:4b
ollama run gemma4:4b

# Per iPhone (via Google AI Edge Gallery — App Store, gratis)
# Cerca: Google AI Edge Gallery

Da LM Studio: apri il catalogo e cerca “gemma4” — trovi tutte le varianti con VRAM richiesta indicata per ogni livello di quantizzazione.

Su HuggingFace: google/gemma-4-27b-it per la variante instruction-tuned da 27B (versione Ollama del 26B MoE).

Per chi è adatto

Gemma 4 E2B/E4B: chi vuole AI locale su hardware modesto — laptop con GPU integrata, MacBook con Apple Silicon, o anche solo CPU. Con 128k di context window è utilizzabile per documenti lunghi e sessioni di chat estese.

Gemma 4 26B MoE: il punto dolce per chi ha una RTX 4070/4080/5070. Ottimo per coding assistance, RAG su documenti propri, e task multimodali (analisi immagini, chart, screenshot).

Gemma 4 31B Dense: chi ha una RTX 4090 o 5090 e vuole le massime performance open source disponibili oggi su singola GPU consumer.

Licenza Apache 2.0: uso commerciale consentito senza restrizioni, fine-tuning libero, redistribuzione consentita.

Fonte: Google DeepMind Blog, Arena AI Leaderboard — aprile 2026

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *