Quando interagiamo con un modello linguistico abbiamo l’impressione che stia scrivendo, o addirittura pensando. In effetti, i modelli di linguaggio apprendono la parola successiva (o meglio, il token) dato un contesto (una sequenza di parole già generate): producono quindi del testo da sinistra a destra, come farebbe un essere umano. Resta però una distanza significativa sul piano del pensiero: un essere umano può generare concetti anche senza utilizzare il linguaggio interiore, che per sua natura è sequenziale. La costruzione del significato può non seguire una direzione fissa e definita (da sinistra a destra, prima e dopo), ma emergere in modo globale, come struttura che precede la sua verbalizzazione.
Significato globale negli LLM
Un primo livello di questa globalità si osserva già nel linguaggio stesso, attraverso la concordanza tra parti del discorso anche molto distanti tra loro. Consideriamo la lingua tedesca: elementi molto lontani nella frase devono essere mutualmente coerenti. Ad esempio, nella frase Der Mann, der gestern angekommen ist, […] kommt il soggetto Der Mann è singolare e il verbo kommt deve riflettere questa proprietà. Nel processo di generazione, questa dipendenza è naturalmente direzionale: il soggetto compare all’inizio e il verbo viene scelto successivamente, adattandosi al contesto già prodotto. Tuttavia, la relazione di concordanza è intrinsecamente bidirezionale: dato Der Mann, il verbo sarà singolare; dato kommt, possiamo inferire che il soggetto è singolare. Possiamo rappresentare questa relazione come una forma di equivalenza:
der Mann ≃ kommt e kommt ≃ der Mann
La bidirezionalità, quindi, non risiede nel processo di generazione, che è unidirezionale, ma nella struttura simmetrica delle relazioni apprese. In questo modo il modello riesce ad estrarre vincoli globali tra elementi della sequenza da regole locali orientate.
Questa osservazione introduce una tensione fondamentale: la struttura del linguaggio è simmetrica, ma il processo che la genera è direzionale. Questa ambivalenza riflette una distinzione più generale nel modo in cui i modelli apprendono dai dati: alcuni modelli imparano relazioni orientate (i cosidetti modelli discriminativi) altri, invece, riproducono la struttura globale dei dati (i cosiddetti modelli generativi).
Modelli discriminativi e generativi
La distinzione tra modelli discriminativi e generativi è fondamentale nel machine-learning:
- I modelli discriminativi apprendono una relazione tra input e output. Questo viene fatto modellando la probabilità di ottenere un output, dato un determinato input, ovvero si calcola la cosiddetta probabilità condizionata $P(y \mid x)$. Vengono utilizzati per compiti di:
- classificazione: dato un input, viene assegnata una categoria discreta. Ad esempio la recensione di un film può essere classificata come positiva, neutra o negativa
- regressione: dato un input, viene stimato un valore (tipicamente continuo). Ad esempio, data la stagione dell’anno un modello di regressione potrebbe prevedere la temperatura media giornaliera
- I modelli generativi, invece, cercano di imparare come sono fatti i dati in input, con lo scopo di produrne nuovi esempi plausibili. Per farlo, apprendono la distribuzione dei dati P(x), con lo scopo di produrre nuovi esempi plausibili come testo, immagini o suoni.
Gli LLM si collocano in una posizione interessante tra questi due paradigmi. Il loro meccanismo fondamentale è predittivo: dato un contesto, stimano la probabilità del prossimo token, cioè $P(x_t \mid x_1, …, x_{t-1})$: un modello linguistico non conosce direttamente la probabilità di una frase, ma utilizza la probabilità di ogni parola data le precedenti. Il modello fornisce una stima di queste probabilità condizionate dato un qualsiasi contesto (anche il contesto “vuoto”): è sempre possibile quindi determinare la probabilità del token successivo, qualsiasi esso sia. Il modello definisce così implicitamente $P(x)$ (o in formule $P(x) = \prod_{i=1}^{n} P(x_i \mid x_1, \dots, x_{i-1})$ ) ed è quindi a tutti gli effetti generativo. La generazione del testo diventa quindi un processo di campionamento: una sequenza di scelte locali (il token successivo) che, accumulate, producono la struttura globale (la frase). Gli LLM non pianificano una struttura complessiva del testo: il significato globale emerge dalla sequenza di decisioni locali. In altre parole, gli LLM non costruiscono strutture, le attraversano: questo rende il modello più fragile e prono all’accumulo di errori di significato lungo la traiettoria di generazione.
Questa prospettiva aiuta anche a chiarire perché gli LLM possano essere utilizzati per task discriminativi, come la classificazione o la traduzione. In questi casi, il problema viene riformulato come generazione vincolata dal prompt (cioè si applica $P(x_t \mid x_1, …, x_{t-1})$), simulando il comportamento di questo tipo di modelli.
Attenendoci strettamente all’interpretazione probabilistica, molti modelli autoregressivi (come gli ARIMA ad esempio) sono a tutti gli effetti generativi: definiscono una distribuzione sui dati e possono essere utilizzati per il campionamento (ad esempio di serie temporali). Tuttavia, nella pratica, la loro capacità espressiva è limitata: modellano dipendenze locali e strutture semplici. Per questo motivo vengono utilizzati principalmente per previsione, mentre i modelli più espressivi (come gli LLM) permettono di catturare strutture globali molto più ricche, rendendo la natura generativa del modello più evidente e operativamente utile.
Conclusione
In definitiva, la domanda iniziale può essere riformulata: non si tratta tanto di stabilire se gli LLM siano predittivi o generativi, ma di capire come la generazione emerga da un processo di predizione iterativa. La loro capacità di produrre significato nasce dall’accumulo di scelte locali condizionate dal contesto, in un processo che trasforma probabilità in struttura e sequenze in interpretazioni.