Anche per merito di Paolo Cavone e uMoR, mi son ritrovato a 22 anni a ri-studiare la grammatica italiana.

Ho, dunque, rispolverato i vecchi libri delle elementari e un pò di intuito per strutturare mentalmente un’idea di grammatica, che in un primo abbozzo figurava come qualcosa di simile a questo array:

0=>Array(0=>0, 1=>1, 2=>1, 3=>1, .., n=>0);
1=>Array(0=>1, 1=>0, 2=>1, 3=>1, .., n=>1);
2=>Array(0=>0, 1=>1, 2=>0, 3=>1, .., n=>0);
3=>Array(0=>1, 1=>1, 2=>1, 3=>0, .., n=>1);
..=>Array(..=>.., ..=>.., ..=>.., ..=>.., .., ..=>..);
n=>Array(0=>1, 1=>1, 2=>0, 3=>1, .., n=>0);

Che con un pò di fantasia potete rileggere nel seguente modo:

articolo=>Array(articolo=>0, verbo=>1, nome=>1, aggettivo=>1, .., n=>0);
verbo=>Array(articolo=>1, verbo=>0, nome=>1, aggettivo=>1, .., n=>1);
nome=>Array(articolo=>0, verbo=>1, nome=>0, aggettivo=>1, .., n=>0);
aggettivo=>Array(articolo=>1, verbo=>1, nome=>1, aggettivo=>0, .., n=>1);
..=>Array(..=>.., ..=>.., ..=>.., ..=>.., .., ..=>..);
n=>Array(articolo=>1, verbo=>1, nome=>0, aggettivo=>1, .., n=>0);

L’array come figurato sopra analizza la correlazione tra elementi adiacenti presenti in un testo, assegnando ad ognuno un valore booleano che rappresenta la possibilità o l’impossibilità del verificarsi di quel determinato evento. A questo livello sarebbe già possibile simulare una grammatica che non commette errori banali, come quello di inserire due articoli adiacenti o 2 verbi adiacenti o un articolo seguito da una congiunzione o da una preposizione. Però è evidente che il testo generato da una simile struttura non può essere considerato un testo scritto in buon italiano.

Dopo una breve analisi è facile dedurre che per migliorare sensibilmente la qualità del testo generato si può abinare ad ogni coppia di elementi non un valore booleano, ma una percentuale che ne identifica la reale possibilità che questi due elementi siano adiacenti in un testo. Per esempio, mentre è ovvio che è praticamente impossibile trovare 2 articoli adiacenti in un testo corretto, non è detto che solo per il fatto che sia possibile trovare la sequenza “articolo pronome”, la percentuale di questa sia identica a quella dell’occorrenza “articolo nome”.

Nasce però un problema: come è possibile avere l’esatta stima di quanto è probabile una determinata coppia di elementi?

Vi lascio con il fiato in sospeso e rimando al prossimo appuntamento.