ALTK-Evolve: gli agenti AI che imparano dai propri errori — +14% sui task difficili, si integra con Claude Code

IBM Research pubblica ALTK-Evolve: un sistema di memoria a lungo termine per agenti AI che trasforma le esperienze passate in linee guida riutilizzabili. In pratica, risolve il problema che chiunque ha già incontrato con gli agenti AI — ripetono gli stessi errori perché dimenticano tutto tra una sessione e l’altra. I benchmark: +8,9% aggregate su AppWorld, +14,2% sui task difficili.

Il problema: “The Eternal Intern Problem”

La maggior parte degli agenti AI oggi funziona come un intern che ogni mattina dimentica tutto ciò che ha imparato il giorno prima. Ri-legge le trascrizioni delle sessioni precedenti invece di estrarne principi. Non trasferisce le lezioni apprese a nuovi contesti. Ripete gli errori già fatti su tool diversi.

ALTK-Evolve risolve questo con due flussi operativi:

Downward Flow: cattura le traiettorie complete dell’agente (tool calls, pensieri, risultati), le memorizza e ne estrae pattern strutturali
Upward Flow: consolida e assegna score alle linee guida candidate, elimina quelle deboli, recupera quelle rilevanti just-in-time e le inietta nel contesto dell’agente prima di ogni task

Benchmark su AppWorld

Difficoltà task	Baseline	+ ALTK-Evolve	Miglioramento
Easy	79,0%	84,2%	+5,2%
Medium	56,2%	62,5%	+6,3%
Hard	19,1%	33,3%	+14,2%
Aggregate	50,0%	58,9%	+8,9%

Fonte: IBM Research / ALTK-Evolve paper, AppWorld benchmark, aprile 2026. Il miglioramento sui task difficili è +74% relativo (da 19,1% a 33,3%).

Importante: il miglioramento è su task non visti durante il training della memoria — è apprendimento genuino, non memorizzazione degli esempi.

Come integrarlo: tre livelli

No-code — plugin per Claude Code e Codex

# Installazione come plugin Claude Code
claude plugin marketplace add AgentToolkit/altk-evolve
claude plugin install evolve-lite@evolve-marketplace

# Da questo momento Claude Code memorizza le linee guida
# apprese tra una sessione e l'altra nel tuo progetto

Limitazione della modalità lite: nessuna consolidazione cross-session, nessun garbage collection automatico delle linee guida obsolete.

Low-code — ReAct Agent con OpenTelemetry

import altk_evolve.auto

# Il sistema emette tracce verso Arize Phoenix UI
# Sincronizza per generare linee guida di miglioramento
# Compatibile con OpenAI, LiteLLM, HuggingFace Agents

Pro-code — integrazione MCP completa

# Prima di ogni task: recupera linee guida specifiche
guidelines = get_guidelines(task_context)

# Dopo ogni task: invia la traiettoria per il learning
save_trajectory(agent_trace, outcome)

# Il sistema consolida automaticamente e aggiorna le linee guida

Perché conta

Uno studio MIT del 2025 ha documentato che il 95% dei pilot AI in azienda fallisce perché gli agenti non si adattano on-the-job. ALTK-Evolve è la risposta tecnica a questo problema — e il fatto che si integri già con Claude Code come plugin significa che chiunque stia costruendo automazioni con agenti può testarlo adesso senza riscrivere nulla.