Z.AI (Zhipu) ha rilasciato GLM-5.1, un modello Mixture-of-Experts da 754 miliardi di parametri con licenza MIT. I benchmark lo posizionano a pochi decimali di distanza da Claude Opus 4.6 su coding, matematica avanzata e ragionamento scientifico. La differenza più rilevante rispetto ai modelli precedenti: le capacità agentiche — GLM-5.1 può eseguire task autonomi per fino a 8 ore consecutive senza intervento umano.
Parametri e licenza
- Parametri: 754B (architettura MoE — non tutti attivi contemporaneamente)
- Architettura: Mixture of Experts
- Licenza: MIT — uso commerciale libero, fine-tuning consentito, nessuna restrizione
- Disponibile su: HuggingFace (weights pubblici)
- Requisiti hardware: configurazione multi-GPU per i weights interi — quantizzazioni ridotte in arrivo
Benchmark vs Claude Opus 4.6
Confronto diretto su benchmark standard (fonte: Z.AI / Zhipu, aprile 2026):
- SWE-Bench Pro (coding su codebase reali): GLM-5.1 58,4% — Claude Opus 4.6 59,1%
- AIME 2026 (matematica olimpiadi): GLM-5.1 95,3% — Claude Opus 4.6 95,6%
- Terminal-Bench 2.0 (task da terminale): GLM-5.1 66,5% — Claude Opus 4.6 67,0%
- GPQA Diamond (scienze livello dottorato): GLM-5.1 86,2% — Claude Opus 4.6 87,0%
In tutti i test il gap è inferiore all’1%. Non è un modello che “si avvicina” a Claude Opus 4.6 — è un modello che gli è pari nei task misurabili, con la differenza che è open source e a licenza MIT.
Le capacità agentiche: 8 ore autonome
Il dato più interessante non è nei benchmark standard ma nelle capacità agentiche: GLM-5.1 è progettato per eseguire task autonomi lunghi — fino a 8 ore consecutive — senza supervisione. Questo include navigazione web, esecuzione di codice, gestione file, compilazione di report. È la stessa categoria di task su cui si compete Claude Opus 4.6 con la sua modalità agentica estesa.
Per chi costruisce agenti o pipeline automatizzate: avere un modello con questa capacità a costo zero (inference locale) o a costo marginale (via API Z.AI) cambia significativamente l’equazione economica.
Come scaricarlo
# Su HuggingFace (weights completi — serve hardware multi-GPU)
https://huggingface.co/THUDM/GLM-5.1
# Via API Z.AI (alternativa cloud per chi non ha hardware adeguato)
# Registrazione su z.ai — tier gratuito disponibile
Attenzione: a 754B parametri, la versione completa richiede hardware multi-GPU enterprise (almeno 4x H100 80GB per bf16, o configurazioni con quantizzazione aggressiva Q2-Q3 su più GPU consumer). Le versioni quantizzate per hardware consumer sono attese nelle prossime settimane sulla base del pattern di rilascio dei modelli MoE precedenti.
Per chi è adatto
Subito utile: chi vuole usarlo via API Z.AI per pipeline agentiche senza costi per token elevati rispetto alle API Anthropic. Il tier gratuito permette di testare le capacità prima di scalare.
Prossimamente: chi ha hardware multi-GPU o accetta quantizzazioni Q3-Q4 aggressive — attendere le versioni GGUF comunitarie su HuggingFace.
Licenza MIT: nessuna restrizione su uso commerciale, fine-tuning, redistribuzione. Zero royalty anche per prodotti commerciali.
Fonte: Z.AI / Zhipu AI, creati.ai — aprile 2026
