IBM Research pubblica ALTK-Evolve: un sistema di memoria a lungo termine per agenti AI che trasforma le esperienze passate in linee guida riutilizzabili. In pratica, risolve il problema che chiunque ha già incontrato con gli agenti AI — ripetono gli stessi errori perché dimenticano tutto tra una sessione e l’altra. I benchmark: +8,9% aggregate su AppWorld, +14,2% sui task difficili.
Il problema: “The Eternal Intern Problem”
La maggior parte degli agenti AI oggi funziona come un intern che ogni mattina dimentica tutto ciò che ha imparato il giorno prima. Ri-legge le trascrizioni delle sessioni precedenti invece di estrarne principi. Non trasferisce le lezioni apprese a nuovi contesti. Ripete gli errori già fatti su tool diversi.
ALTK-Evolve risolve questo con due flussi operativi:
- Downward Flow: cattura le traiettorie complete dell’agente (tool calls, pensieri, risultati), le memorizza e ne estrae pattern strutturali
- Upward Flow: consolida e assegna score alle linee guida candidate, elimina quelle deboli, recupera quelle rilevanti just-in-time e le inietta nel contesto dell’agente prima di ogni task
Benchmark su AppWorld
| Difficoltà task | Baseline | + ALTK-Evolve | Miglioramento |
|---|---|---|---|
| Easy | 79,0% | 84,2% | +5,2% |
| Medium | 56,2% | 62,5% | +6,3% |
| Hard | 19,1% | 33,3% | +14,2% |
| Aggregate | 50,0% | 58,9% | +8,9% |
Fonte: IBM Research / ALTK-Evolve paper, AppWorld benchmark, aprile 2026. Il miglioramento sui task difficili è +74% relativo (da 19,1% a 33,3%).
Importante: il miglioramento è su task non visti durante il training della memoria — è apprendimento genuino, non memorizzazione degli esempi.
Come integrarlo: tre livelli
No-code — plugin per Claude Code e Codex
# Installazione come plugin Claude Code
claude plugin marketplace add AgentToolkit/altk-evolve
claude plugin install evolve-lite@evolve-marketplace
# Da questo momento Claude Code memorizza le linee guida
# apprese tra una sessione e l'altra nel tuo progetto
Limitazione della modalità lite: nessuna consolidazione cross-session, nessun garbage collection automatico delle linee guida obsolete.
Low-code — ReAct Agent con OpenTelemetry
import altk_evolve.auto
# Il sistema emette tracce verso Arize Phoenix UI
# Sincronizza per generare linee guida di miglioramento
# Compatibile con OpenAI, LiteLLM, HuggingFace Agents
Pro-code — integrazione MCP completa
# Prima di ogni task: recupera linee guida specifiche
guidelines = get_guidelines(task_context)
# Dopo ogni task: invia la traiettoria per il learning
save_trajectory(agent_trace, outcome)
# Il sistema consolida automaticamente e aggiorna le linee guida
Perché conta
Uno studio MIT del 2025 ha documentato che il 95% dei pilot AI in azienda fallisce perché gli agenti non si adattano on-the-job. ALTK-Evolve è la risposta tecnica a questo problema — e il fatto che si integri già con Claude Code come plugin significa che chiunque stia costruendo automazioni con agenti può testarlo adesso senza riscrivere nulla.
