NVIDIA ha portato Nemotron-Cascade-2 su Ollama: un modello MoE da 30B parametri totali con 3B attivi per token, context window di 256k token e un focus dichiarato su reasoning avanzato e capacità agentiche. Sul piano dei benchmark: gold medal all’IMO 2025 (matematica) e all’IOI 2025 (informatica). 73mila download in due settimane.

Specifiche tecniche

Come scaricarlo e usarlo

# Download del modello (24GB — pianifica il tempo)
ollama pull nemotron-cascade-2

# Avvio in modalità chat interattiva
ollama run nemotron-cascade-2

# Test rapido — chiedi un problema di ragionamento
>>> Risolvi: se un treno parte da Milano a 120 km/h e un altro da Roma a 90 km/h, in che punto si incontrano sapendo che la distanza è 570 km?

# Per modalità thinking esplicita (ragionamento visibile)
ollama run nemotron-cascade-2 --think

Benchmark e confronto

Modello Parametri attivi IMO 2025 Context VRAM
Nemotron-Cascade-2 3B (su 30B) Gold medal 256k 24 GB
Qwen3-coder:14b 14B n/d 128k 9 GB (Q4)
DeepSeek R2 n/d n/d 128k variabile
Gemma 4 31B Dense 31B n/d 256k ~20 GB (Q4)

Fonte: NVIDIA / Ollama library, aprile 2026. IMO = International Mathematical Olympiad 2025.

Per chi ha senso oggi

Il limite attuale è la VRAM: 24GB di pesi interi significano RTX 4090, RTX 5080 o Apple Silicon con almeno 24GB di memoria unificata. Chi ha 16GB può provare con offload su RAM (lento), ma non è un’esperienza d’uso pratica.

Nemotron-Cascade-2 ha senso se: lavori su problemi di ragionamento matematico complesso, coding algoritmico, o task agentici con contesti molto lunghi (256k token è un vantaggio reale quando devi analizzare codebase grandi o documenti tecnici estesi).

Da aspettare se: hai meno di 24GB VRAM — appena arriveranno le varianti Q4 (prevedibile entro poche settimane con questa community interest), il requisito scenderà a ~12-16GB.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *