Grammatica Italiana Wednesday, Nov 8 2006
Dentro la Parola 10:15 pm
Anche per merito di Paolo Cavone e uMoR, mi son ritrovato a 22 anni a ri-studiare la grammatica italiana.
Ho, dunque, rispolverato i vecchi libri delle elementari e un pò di intuito per strutturare mentalmente un’idea di grammatica, che in un primo abbozzo figurava come qualcosa di simile a questo array:
0=>Array(0=>0, 1=>1, 2=>1, 3=>1, .., n=>0);
1=>Array(0=>1, 1=>0, 2=>1, 3=>1, .., n=>1);
2=>Array(0=>0, 1=>1, 2=>0, 3=>1, .., n=>0);
3=>Array(0=>1, 1=>1, 2=>1, 3=>0, .., n=>1);
..=>Array(..=>.., ..=>.., ..=>.., ..=>.., .., ..=>..);
n=>Array(0=>1, 1=>1, 2=>0, 3=>1, .., n=>0);
Che con un pò di fantasia potete rileggere nel seguente modo:
articolo=>Array(articolo=>0, verbo=>1, nome=>1, aggettivo=>1, .., n=>0);
verbo=>Array(articolo=>1, verbo=>0, nome=>1, aggettivo=>1, .., n=>1);
nome=>Array(articolo=>0, verbo=>1, nome=>0, aggettivo=>1, .., n=>0);
aggettivo=>Array(articolo=>1, verbo=>1, nome=>1, aggettivo=>0, .., n=>1);
..=>Array(..=>.., ..=>.., ..=>.., ..=>.., .., ..=>..);
n=>Array(articolo=>1, verbo=>1, nome=>0, aggettivo=>1, .., n=>0);
L’array come figurato sopra analizza la correlazione tra elementi adiacenti presenti in un testo, assegnando ad ognuno un valore booleano che rappresenta la possibilità o l’impossibilità del verificarsi di quel determinato evento. A questo livello sarebbe già possibile simulare una grammatica che non commette errori banali, come quello di inserire due articoli adiacenti o 2 verbi adiacenti o un articolo seguito da una congiunzione o da una preposizione. Però è evidente che il testo generato da una simile struttura non può essere considerato un testo scritto in buon italiano.
Dopo una breve analisi è facile dedurre che per migliorare sensibilmente la qualità del testo generato si può abinare ad ogni coppia di elementi non un valore booleano, ma una percentuale che ne identifica la reale possibilità che questi due elementi siano adiacenti in un testo. Per esempio, mentre è ovvio che è praticamente impossibile trovare 2 articoli adiacenti in un testo corretto, non è detto che solo per il fatto che sia possibile trovare la sequenza “articolo pronome”, la percentuale di questa sia identica a quella dell’occorrenza “articolo nome”.
Nasce però un problema: come è possibile avere l’esatta stima di quanto è probabile una determinata coppia di elementi?
Vi lascio con il fiato in sospeso e rimando al prossimo appuntamento.
Trackback URI



Questo blog è parte del network
November 9th, 2006 at 8:09 am
“ti dò il la” per questa operazione.
E ti lascio subito un esempio di due articoli consecutivi, sebbene “LA” sia una nota in questo contesto. ma il contesto non conta per l’analizzatore, no?
November 9th, 2006 at 8:22 am
Perfetto tambu
hai azzeccato tutte e 2 le cose:
1) La è una nota in questo caso
2) di semantica ne parleremo in uno degli ultimi articoli credo (ma dubito che per allora avrò trovato una soluzione a questo problema)
In ogni caso..non voglio buttare troppa carne sul fuoco (ne parlerò meglio nel prossimo articolo), ma La è sia nome che articolo. E bisogna anche definire (secondo me) in che percentuale è l’uno o l’altro..ma non per la stesura di un testo (in quel caso è inutile immagino)..più che altro per la fase di analisi.
November 10th, 2006 at 6:21 pm
Ciao Kerouac3001!
come discusso in macchina (di Raele) tra castelfalfi e Roma sto rispolverando (approfonditamente…) la Grammatica Italiana per studiare algoritmi di Text Mining e Reti Semantiche. Data l’enorme complessità della Lingua Italiana più che determinare probabilità che due “oggetti” grammaticali siano adiacenti cercherei prima di analizzare un sistema per estrapolare da un testo una porzione di una rete semantica. Una volta che sono le relazioni tra i Nouns ed i Concetti sarà tutto più semplice…
November 10th, 2006 at 8:23 pm
@paocavo:
domani cerco di fare la seconda parte dell’articolo così mi rispondi anche lì.
Diciamo che attualmente non sto puntando alla semantica, ma alla sintassi.
Un passo alla volta analizzo tutto e cerco di trovare mie soluzioni per ogni aspetto della lingua.
November 11th, 2006 at 7:55 am
[…] Molto tecnico ma altresì interessante, come quasi sempre gli succede nel suo blog, il mitico Kerouac3001 il 08.11.2006 ha scritto questo post imperdibile, soprattutto se ami la seo dal punto di vista della programmazione. […]
November 11th, 2006 at 8:32 am
Allora sarà utile dare un sguardo a:
Analsi sintattica efficiente ed agli documenti disponibili nella Home Page del sito suddetto.