Risorsa

Token economy: come Timo riduce il costo reale di lavorare con le AI

Una guida tecnica per chi sa che il token è una moneta.

Il token rappresenta l'unità di fatturazione nei servizi AI. I provider applicano tariffe precise: Anthropic addebita 3 dollari per milione di token in input su Sonnet e 15 in output, mentre OpenAI chiede 2,50 e 10 dollari su GPT-4o.

Una sessione lavorativa seria con un modello frontier può costare tra 1 e 3 dollari. Mille sessioni al mese, su un team di dieci persone, fanno 10.000–30.000 dollari l'anno solo in token.

Il problema invisibile: il broadcast del contesto

I modelli linguistici mancano di memoria persistente tra le chiamate API. Attualmente esistono due approcci principali.

Il primo utilizza un system prompt ampio contenente regole e decisioni storiche. Questo testo viene rispedito al modello a ogni singolo turno. Se il system prompt pesa 8.000 token e la conversazione dura 50 turni, si pagano 400.000 token dedicati alla sola memoria.

Il secondo approccio inserisce documenti rilevanti nei messaggi di chat. Il contesto cresce nel tempo: a turno 30, il modello sta rileggendo per la trentesima volta tutto quello che hai scritto nei turni precedenti. Pagato ogni volta.

Questo è il broadcast del contesto: spari tutto a tutti i turni, sperando che dentro ci sia quello che serve. È un metodo economicamente insostenibile su larga scala.

Come Timo cambia l'equazione

Timo fornisce una memoria persistente strutturata, esposta al modello come strumento. Invece di risiedere nel context window, utilizza un spazio separato indicizzato per ricerca intelligente. Il modello vi accede solo quando serve, recuperando solo ciò che serve.

Il costo di una query Timo comprende tre componenti: l'output della tool call (50–150 token), il payload restituito dal server e l'output finale del modello. Una ricerca intelligente con top_k=10 restituisce tipicamente 2.000–5.000 token. Sembrano numeri grandi. Ma sono numeri discreti, controllabili, recuperati una volta sola.

Il confronto, in numeri

Scenario: recuperare una decisione su un cliente specifico registrata tre mesi fa in una nota di 8KB all'interno di una knowledge base di 200 note.

Con Timo — Una query mirata recupera 3 chunk rilevanti (~1.500 token in input), risposta sintetica (~300 token in output). Totale: 1.800 token, costo Sonnet 0,009 dollari.

Senza Timo, knowledge base nel system prompt — 200 note compresse a 50 token medi = 10.000 token in system, pagati a ogni turno. Conversazione di 5 turni: 50.000 token in input cumulativi, output cumulativo ~2.000 token. Totale: 52.000 token, costo Sonnet 0,18 dollari.

Rapporto: 20x. Su 1.000 conversazioni mensili si risparmiano 170 dollari. Annualmente per utente: 2.000 dollari. Per un team di 10 persone: 20.000 dollari l'anno.

Onestà tecnica: quando Timo non conviene

Conversazioni brevissime su un singolo argomento con note pesanti potrebbero consumare più token che l'incollamento diretto. Il vantaggio di Timo emerge sulla durata e sulla ripetizione.

Se il modello esegue 3–4 hybrid_search con query mal formulate prima di trovare il chunk giusto, ognuna costa il suo payload. La qualità del prompt che istruisce l'AI sull'utilizzo di Timo è cruciale.

Spazi disorganizzati — note lunghe senza chunking sensato — comportano il recupero di informazioni poco utili. Il chunking è dove la differenza di setup si vede.

Timo conviene quando il knowledge base è grande, quando solo una piccola frazione serve per ogni domanda, e quando le sessioni sono ricorrenti e attingono a porzioni diverse della stessa base.

La proiezione su scala

Per i singoli utenti il risparmio si misura in centinaia di euro annuali.

Per chi gestisce sessioni AI per clienti — agenzie e consulenti — il risparmio diventa strutturale. Ogni chat cliente paga solo le query effettive, senza un system prompt grasso iniziale.

Per chi costruisce prodotti su API — chatbot e copilot specializzati — il risparmio scala linearmente. Il TCO della componente AI di un prodotto SaaS, oggi, è una voce pesante.

La conclusione, secca

Il broadcast del contesto è il modo amatoriale di dare memoria a un'AI. Funziona, costa caro, scala male.

Il recupero mirato rappresenta l'approccio professionale. Timo è un'implementazione di questo secondo pattern, abbastanza matura da essere usata in produzione, abbastanza semplice da girare su un Raspberry Pi nel cassetto.

Il token è la tua moneta. Timo te ne fa spendere meno. Ecco come.

Leggi anche: Memoria persistente AI →