NVIDIA ha portato Nemotron-Cascade-2 su Ollama: un modello MoE da 30B parametri totali con 3B attivi per token, context window di 256k token e un focus dichiarato su reasoning avanzato e capacità agentiche. Sul piano dei benchmark: gold medal all’IMO 2025 (matematica) e all’IOI 2025 (informatica). 73mila download in due settimane.
Specifiche tecniche
- Architettura: Mixture of Experts — 30B parametri totali, 3B attivi per token in inference
- Context window: 256.000 token — tra le più ampie disponibili in locale
- Download: 24 GB (pesi interi — quantizzazione Q4 non ancora disponibile)
- VRAM richiesta: ~24 GB per esecuzione full — in attesa di varianti quantizzate
- Modalità: thinking (ragionamento step-by-step visibile) e instruct (risposta diretta)
- Input: solo testo
Come scaricarlo e usarlo
# Download del modello (24GB — pianifica il tempo)
ollama pull nemotron-cascade-2
# Avvio in modalità chat interattiva
ollama run nemotron-cascade-2
# Test rapido — chiedi un problema di ragionamento
>>> Risolvi: se un treno parte da Milano a 120 km/h e un altro da Roma a 90 km/h, in che punto si incontrano sapendo che la distanza è 570 km?
# Per modalità thinking esplicita (ragionamento visibile)
ollama run nemotron-cascade-2 --think
Benchmark e confronto
| Modello | Parametri attivi | IMO 2025 | Context | VRAM |
|---|---|---|---|---|
| Nemotron-Cascade-2 | 3B (su 30B) | Gold medal | 256k | 24 GB |
| Qwen3-coder:14b | 14B | n/d | 128k | 9 GB (Q4) |
| DeepSeek R2 | n/d | n/d | 128k | variabile |
| Gemma 4 31B Dense | 31B | n/d | 256k | ~20 GB (Q4) |
Fonte: NVIDIA / Ollama library, aprile 2026. IMO = International Mathematical Olympiad 2025.
Per chi ha senso oggi
Il limite attuale è la VRAM: 24GB di pesi interi significano RTX 4090, RTX 5080 o Apple Silicon con almeno 24GB di memoria unificata. Chi ha 16GB può provare con offload su RAM (lento), ma non è un’esperienza d’uso pratica.
Nemotron-Cascade-2 ha senso se: lavori su problemi di ragionamento matematico complesso, coding algoritmico, o task agentici con contesti molto lunghi (256k token è un vantaggio reale quando devi analizzare codebase grandi o documenti tecnici estesi).
Da aspettare se: hai meno di 24GB VRAM — appena arriveranno le varianti Q4 (prevedibile entro poche settimane con questa community interest), il requisito scenderà a ~12-16GB.
