NVIDIA Nemotron-Cascade-2 su Ollama: 30B MoE, 256k context, reasoning e coding

NVIDIA ha portato Nemotron-Cascade-2 su Ollama: un modello MoE da 30B parametri totali con 3B attivi per token, context window di 256k token e un focus dichiarato su reasoning avanzato e capacità agentiche. Sul piano dei benchmark: gold medal all’IMO 2025 (matematica) e all’IOI 2025 (informatica). 73mila download in due settimane.

Specifiche tecniche

Architettura: Mixture of Experts — 30B parametri totali, 3B attivi per token in inference
Context window: 256.000 token — tra le più ampie disponibili in locale
Download: 24 GB (pesi interi — quantizzazione Q4 non ancora disponibile)
VRAM richiesta: ~24 GB per esecuzione full — in attesa di varianti quantizzate
Modalità: thinking (ragionamento step-by-step visibile) e instruct (risposta diretta)
Input: solo testo

Come scaricarlo e usarlo

# Download del modello (24GB — pianifica il tempo)
ollama pull nemotron-cascade-2

# Avvio in modalità chat interattiva
ollama run nemotron-cascade-2

# Test rapido — chiedi un problema di ragionamento
>>> Risolvi: se un treno parte da Milano a 120 km/h e un altro da Roma a 90 km/h, in che punto si incontrano sapendo che la distanza è 570 km?

# Per modalità thinking esplicita (ragionamento visibile)
ollama run nemotron-cascade-2 --think

Benchmark e confronto

Modello	Parametri attivi	IMO 2025	Context	VRAM
Nemotron-Cascade-2	3B (su 30B)	Gold medal	256k	24 GB
Qwen3-coder:14b	14B	n/d	128k	9 GB (Q4)
DeepSeek R2	n/d	n/d	128k	variabile
Gemma 4 31B Dense	31B	n/d	256k	~20 GB (Q4)

Fonte: NVIDIA / Ollama library, aprile 2026. IMO = International Mathematical Olympiad 2025.

Per chi ha senso oggi

Il limite attuale è la VRAM: 24GB di pesi interi significano RTX 4090, RTX 5080 o Apple Silicon con almeno 24GB di memoria unificata. Chi ha 16GB può provare con offload su RAM (lento), ma non è un’esperienza d’uso pratica.

Nemotron-Cascade-2 ha senso se: lavori su problemi di ragionamento matematico complesso, coding algoritmico, o task agentici con contesti molto lunghi (256k token è un vantaggio reale quando devi analizzare codebase grandi o documenti tecnici estesi).

Da aspettare se: hai meno di 24GB VRAM — appena arriveranno le varianti Q4 (prevedibile entro poche settimane con questa community interest), il requisito scenderà a ~12-16GB.

Specifiche tecniche

Come scaricarlo e usarlo

Benchmark e confronto

Per chi ha senso oggi

Lascia un commento Annulla risposta