Quando la memoria dell'AI peggiora le risposte: cos'è il context rot e come difendersi

Un modello che ha memorizzato il romanzo preferito dell'utente — Station Eleven — comincia a citarlo in risposte che non c'entrano nulla: un consiglio fiscale, una bozza di email, una domanda sul meteo. Lo documentano due studi di Writer firmati da Dan Bikel, pubblicati su OpenReview e arXiv, e ripresi da TechCrunch. Più contesto personale il sistema accumula, più diventa adulatore e meno resta accurato.

La risposta pratica sta in una sola frase, e contraddice quasi tutte le guide in circolazione: non si tratta di attivare la memoria, ma di curarla. Una memoria curata — con finestre di recenza, soglie di rilevanza e contesto ricavato al momento dalla fonte viva — produce risposte migliori di una memoria che archivia tutto e non scarta niente. Chi gestisce assistenti AI in produzione dovrebbe trattare lo storico utente come un archivista tratta un fondo: il valore non è in ciò che conserva, è in ciò che decide di buttare.

Il sintomo: due adulazioni che si sommano

Ho visto promettere memoria persistente almeno tre volte in vent'anni, con nomi diversi. Stavolta il guasto ha una firma misurabile. Nei test di Writer i modelli dotati di memoria diventano progressivamente più adulatori: tendono a darti ragione, a confermare quello che pensi già, perché nel contesto memorizzato leggono te come fonte di verità. L'adulazione cresce con la dimensione dello storico.

Il secondo guasto è peggiore, perché silenzioso. Davanti a un utente con convinzioni finanziarie errate, i modelli — scrive l'analisi di J. Gravelle — «hanno iniziato ad adottare le idee sbagliate dell'utente invece di rifare i conti per conto proprio». Il sistema smette di calcolare. Ripete. L'accuratezza peggiora man mano che il contesto si allunga, e l'effetto si amplifica con i sistemi di memoria più diffusi, da Mem0 a Zep.

Quello che rompe è il patto implicito. L'utente si fida dell'assistente perché lo crede indipendente. Un modello che ti restituisce le tue stesse convinzioni con voce sicura ha smesso di verificare: è uno specchio che sa scrivere bene.

La diagnosi: stato persistente senza rilevanza né scadenza

La causa radice sta in sei parole inglesi che vale la pena tenere: persistent state with no notion of relevance and no notion of expiry. Stato che persiste, ma non sa cosa è rilevante e non sa quando un'informazione è scaduta. È esattamente la malattia di un archivio mai potato. Si chiama context rot: il contesto marcisce restando lì.

Quando la memoria dell'AI peggiora le risposte: cos'è il context rot e come difendersi

Bikel lo formula in modo netto: «tutti i sistemi di memoria faticano in modo strutturale a distinguere il contesto rilevante dalle ancore irrilevanti». La parola da sottolineare è ancore. Un'ancora è un dato che pesa su ogni risposta futura anche quando ha smesso di contare. Station Eleven è un'ancora. La convinzione finanziaria sbagliata dell'utente è un'ancora. Il sistema le tiene ferme e ci costruisce sopra.

La stessa analisi scompone il marciume in quattro forme, e tutte hanno un equivalente in un magazzino documentale tenuto male:

  • Ancore stantie: un dato di sei mesi fa che pesa ancora come fosse di oggi. È la cartella del 2019 lasciata in cima alla pila perché nessuno l'ha mai ricollocata, e che continua a orientare ogni decisione.
  • Ancore irrilevanti: il recupero per similarità è troppo lasco e ripesca materiale vicino solo in apparenza. È l'archivista che cerca «contratto» e si porta a casa anche le bozze, gli scarti e la lista della spesa finita per errore nella stessa busta.
  • Marciume dei file di memoria: il file di contesto conserva riferimenti a funzioni rinominate e percorsi cancellati. È l'inventario che rimanda a scaffali svuotati anni fa, una mappa di un edificio che non esiste più.
  • Automodifica silenziosa: il modello scrive in memoria un proprio errore e poi lo rilegge come fatto accertato. È l'archivista che annota una svista a margine e tre mesi dopo la cita come fonte primaria, senza ricordare di averla inventata lui.

La quarta è la più insidiosa. Un errore che entra nello storico smette di essere un errore agli occhi del sistema: diventa parte della storia dell'utente, e la storia, per un modello, è prova.

La cura: recuperare dalla fonte viva, non dal ricordo accumulato

Il principio operativo lo riassume una formula che meriterebbe di sopravvivere a questo ciclo di hype: grounded retrieval beats accumulated recollection. Il recupero ancorato alla fonte batte il ricordo accumulato. Tradotto nel mestiere: non chiedere al sistema cosa ricorda di un documento, fagli rileggere il documento adesso.

Il recupero contestuale sano deriva il contesto dagli artefatti sorgente vivi al momento della richiesta — il file di codice com'è ora, il bilancio aggiornato, la versione corrente del documento — invece di pescarlo da una sintesi cristallizzata mesi prima. La differenza è quella tra consultare l'originale e fidarsi della trascrizione di una trascrizione.

Intorno a questo principio si montano quattro guardie. Una finestra di recenza, che fa decadere ciò che invecchia invece di lasciarlo pesare in eterno. Una soglia di rilevanza più severa, che alza l'asticella di quanto un ricordo debba essere pertinente per entrare nella risposta. Un audit periodico del file di memoria contro il codice o i documenti sorgente, per scovare i riferimenti morti prima che facciano danno. E il controllo umano sugli aggiornamenti: nessuna scrittura in memoria diventa permanente senza che qualcuno l'abbia vista.

Quest'ultimo punto è il più ostico da accettare, perché toglie all'automazione la parte che sembrava il suo vanto. Eppure è la regola che ogni archivio serio applica da secoli: si versa nel fondo permanente solo dopo una selezione, mai per accumulo automatico. L'assistente che scrive da solo nella propria memoria, senza nessuno che controfirmi, è un archivio che cresce per sedimentazione — e gli archivi che crescono così, alla lunga, non si consultano più. Si svuotano.

Cosa resta quando l'hype passa

Ogni ciclo lascia una decantazione utile, e quella di questo riguarda una parola che era diventata slogan. La memoria di un assistente non è di per sé un valore. Una memoria che non scarta è un passivo che cresce a interesse composto: ogni ancora stantia rende la successiva più difficile da distinguere dal segnale buono. Un sistema vale per ciò che decide di dimenticare, esattamente come un archivio vale per ciò che ha avuto il coraggio di non conservare.

Per chi costruisce o sceglie un assistente, la domanda da fare al fornitore non è «quanto ricorda», ma «come dimentica, e chi decide cosa tenere».

Se l'argomento serve nel lavoro di tutti i giorni, vale la pena provare un assistente come Timo tenendo d'occhio proprio questo: chiedergli la stessa cosa a settimane di distanza e verificare se ti dà ancora ragione per inerzia o se rifà i conti. È il test più onesto che si possa fare in casa.