Cos'è un token in un LLM

Se hai mai usato le API di un modello AI, ti sei imbattuto nei "token": sono l'unità con cui si misura tutto, dai costi ai limiti. Capirli è essenziale per chiunque costruisca con gli LLM. In questo articolo ti spiego cos'è un token in modo semplice e perché è così importante. Se non sai cosa sia un LLM, parti da cosa sono i Large Language Model.

Cos'è un token in parole semplici

Un token è l'unità minima di testo con cui un LLM elabora il linguaggio: un pezzo di parola, una parola intera o un segno di punteggiatura. Gli LLM non leggono lettera per lettera né parola per parola come noi, ma spezzano il testo in token e lavorano su quelli.

In media, per l'inglese, un token corrisponde a circa 4 caratteri o a circa ¾ di parola. Per l'italiano il rapporto è simile, anche se varia. Quindi una parola può essere uno o più token a seconda di lunghezza e frequenza.

Come viene spezzato il testo

Il processo di divisione del testo in token si chiama tokenizzazione. Qualche esempio per dare l'idea:

Una parola comune e corta come "casa" → di solito 1 token.
Una parola lunga o rara → spesso più token (es. "internazionalizzazione" viene spezzata in pezzi).
La punteggiatura e gli spazi → contano anch'essi come token o parte di essi.

Il modello converte ogni token in numeri, li elabora e produce token in uscita, che vengono poi riconvertiti in testo leggibile.

Perché i token sono importanti

I token non sono un dettaglio tecnico: governano tre aspetti pratici fondamentali quando usi un LLM.

1. I costi

Quando usi le API di un modello, paghi in base ai token, sia quelli che invii (input) sia quelli che ricevi (output). Più testo elabori, più paghi. Stimare i token aiuta a controllare i costi di un'applicazione AI.

2. I limiti (context window)

Ogni modello ha una finestra di contesto (context window): il numero massimo di token che può gestire in una singola interazione, contando input e output insieme. Se superi quel limite, il modello "dimentica" le parti più vecchie o rifiuta la richiesta. Per questo, su documenti lunghi, servono tecniche come il RAG.

3. Le prestazioni

Più token elabori, più tempo (e risorse) serve. Prompt più snelli sono spesso più veloci ed economici.

Come stimare i token

Una regola pratica per farti un'idea veloce:

Testo	Token approssimativi
1 parola	~1,3 token (media)
1 frase breve	~15-20 token
1 pagina di testo	~500 token
1 libro di 100 pagine	~50.000 token

Sono stime indicative: ogni modello ha il suo tokenizer e i numeri reali variano. Le piattaforme dei modelli offrono strumenti per contare i token esatti di un testo.

Token e ottimizzazione dei costi

Per chi costruisce applicazioni AI, gestire bene i token è una competenza concreta che incide sui costi reali. Qualche accorgimento:

Prompt concisi: elimina il superfluo dall'input.
Limita l'output: chiedi risposte della lunghezza giusta, non infinite.
Usa il caching dove possibile, per non rielaborare gli stessi contenuti.
Scegli il modello giusto: non sempre serve il più grande e costoso.

È uno degli aspetti che distingue un AI engineer capace: saper costruire applicazioni efficienti, non solo funzionanti.

In sintesi

Un token è l'unità minima di testo con cui un LLM elabora il linguaggio: un pezzo di parola, una parola o un segno di punteggiatura (in media ~4 caratteri). I token contano perché governano i costi (si paga a token), i limiti (la finestra di contesto) e le prestazioni. Saperli stimare e ottimizzare è fondamentale per costruire applicazioni AI efficienti.

Per il quadro generale, vedi cosa sono i Large Language Model e prompt engineering.