Titelbild der EENS

Ευρωπαϊκή Εταιρεία Νεοελληνικών Σπουδών

Γ΄ συνέδριο της Ευρωπαϊκής Εταιρείας Νεοελληνικών Σπουδών

Σωκράτης Δ. Μπαλτζής[1], Σταύρος Κολαλάς, Ευγενία Ευμοιρίδου, Άρης Αλεξάκης, Δέσποινα Δούκα

Ένα καινοτόμο Ηλεκτρονικό Λεξικό της Νέας Ελληνικής Γλώσσας

Πρώτο μέρος : Μορφολογικό Λεξικό

 

Περίληψη

Στην ανακοίνωση αυτή παρουσιάζουμε το πρώτο μέρος – το μορφολογικό – ενός καινοτόμου ηλεκτρονικού-υπολογιστικού λεξικού της νέας ελληνικής γλώσσας : καινοτόμου ως προς το είδος, την ποιότητα, την ποικιλία και την ακρίβεια των αυτόματων-ηλεκτρονικών υπηρεσιών που παρέχει. Το ηλεκτρονικό αυτό λεξικό παράγει και αναγνωρίζει, με επιτυχία 100%, όλους τους μορφολογικούς τύπους, μονολεκτικούς ή περιφραστικούς, της νέας ελληνικής γλώσσας, ανεξάρτητα από την πολυπλοκότητα των δεδομένων (μέρη του λόγου, ποικιλία κλίσεων, είδος και πολλαπλότητα τύπων) που χειρίζεται κάθε φορά.

1. Εισαγωγή

Η μορφολογική ανάλυση αποτελεί αφενός το πρώτο και βασικότερο βήμα στην αυτόματη επεξεργασία μιας γλώσσας, αφετέρου μία από τις τέσσερις διαστάσεις για την εκμάθηση και σωστή χρήση μιας γλώσσας ως πρώτης ή δεύτερης. Οι άλλες τρεις διαστάσεις είναι το λεξιλόγιο, η σύνταξη και η σημασιολογία της.
Στην προσπάθειά μας να κατασκευάσουμε εργαλεία αυτόματης επεξεργασίας της νέας ελληνικής γλώσσας, αναπτύξαμε ένα εργαλείο, το οποίο χειρίζεται τη μορφολογία της και αποτελείται από ένα λεξικό και αλγορίθμους – διαδικασίες – που το συνοδεύουν και περιγράφουν τη μορφολογική αναγνώριση και παραγωγή όλων των μορφολογικών τύπων των λέξεων που περιλαμβάνει. Το ονομάσαμε Υπολογιστικό Μορφολογικό Λεξικό της Νέας Ελληνικής Γλώσσας.

Το εργαλείο αυτό, υλοποιημένο, μπορεί να χρησιμοποιηθεί ως ανεξάρτητο ή και σε συνδυασμό με το σύνολο των άλλων ηλεκτρονικών υπολογιστικών λεξικών για την επεξεργασία της νέας ελληνικής γλώσσας, που αποτελούν μέρος του ευρύτερου ερευνητικού προγράμματός μας και συνθέτουν το Ηλεκτρονικό Υπολογιστικό Λεξικό της Νέας Ελληνικής Γλώσσας. Αυτά τα άλλα επιμέρους λεξικά είναι : το Λογικό Υπολογιστικό Λεξικό Βασικών Εννοιών της Νέας Ελληνικής Γλώσσας, το Υπολογιστικό Λεξικό Συνδυασμών Εννοιών της Νέας Ελληνικής Γλώσσας και το Υπολογιστικό Συντακτικό Λεξικό της Νέας Ελληνικής Γλώσσας. Τα ηλεκτρονικά-υπολογιστικά αυτά λεξικά τα αναπτύξαμε για να χειριστούμε υπολογιστικά – αυτόματα – τη νέα ελληνική γλώσσα σε όλες τις γλωσσολογικές διαστάσεις της (Baldzis S.D.1993 & Baldzis et al., 2002) για περαιτέρω αξιοποίηση.

Ως ανεξάρτητο εργαλείο το Υπολογιστικό Μορφολογικό Λεξικό της Νέας Ελληνικής Γλώσσας (Baldzis et al., 2005a & 2005b) καλύπτει όλη την ποικιλία της μορφολογίας της· δηλαδή, έχει τις δυνατότητες χειρισμού (αναγνώρισης και παραγωγής) ομαλών, ανώμαλων και ειδικών περιπτώσεων κλίσεως των κλιτών μερών του λόγου, μονολεκτικών και περιφραστικών τύπων. Επίσης καλύπτει ελέγχους περιορισμένης έκτασης μορφολογικής συμφωνίας συνδυασμού λέξεων όπως άρθρου « ουσιαστικού, άρθρου « επιθέτου, άρθρου « μετοχής και αντωνυμίας « ρήματος.
Το Υπολογιστικό Μορφολογικό Λεξικό της Νέας Ελληνικής Γλώσσας, λειτουργώντας ως συνιστώσα του Ηλεκτρονικού Υπολογιστικού Λεξικού της Νέας Ελληνικής Γλώσσας, έχει επιπλέον τη δυνατότητα να ελέγχει τον τύπο κάθε λέξης σε σχέση με τον συντακτικό της ρόλο. Επίσης, έχει τη δυνατότητα να ελέγχει τις μορφολογικές συμφωνίες συνδυασμού λέξεων, όπως : επιθέτου « ουσιαστικού και αντωνυμίας « ουσιαστικού. Ακόμα μπορεί να αναγνωρίσει περιφραστικούς μορφολογικούς τύπους στους οποίους παρεμβάλλονται άλλες λέξεις.

Στο παρόν άρθρο παρουσιάζουμε το Υπολογιστικό Μορφολογικό Λεξικό της Νέας Ελληνικής Γλώσσας ως ανεξάρτητο εργαλείο.

2. Τα ιδιαίτερα χαρακτηριστικά της Μορφολογίας της Νέας Ελληνικής Γλώσσας ως βάση της υπολογιστικής διάστασης του Λεξικού

Η νεοελληνική γλώσσα, ως γνωστόν, είναι μια υψηλού βαθμού κλιτή γλώσσα. Αποτελείται από 11 μέρη του λόγου, εκ των οποίων τα 6 είναι κλιτά. Αυτά περιλαμβάνουν μια μεγάλη ποικιλία μορφολογικών μονολεκτικών και περιφραστικών τύπων. Οι κανόνες παραγωγής τους, οι κλίσεις τους δηλαδή, ταξινομούνται, βάσει της Νεοελληνικής Γραμματικής (Triandafyllidis, 1982), ως προς το κλιτό μέρος του λόγου στο οποίο ανήκουν, π.χ. ουσιαστικά, επίθετα, ρήματα, ως προς τις υποδιαιρέσεις τους, για παράδειγμα γένη και τύπος για τα ουσιαστικά, και ως προς τον τρόπο που σχηματίζονται οι μορφολογικοί τύποι τους, σε ομαλές κλίσεις, ανώμαλες κλίσεις και ειδικές εξαιρέσεις των κλίσεων. Ενδεικτικά σημειώνουμε επίσης ότι για κάθε ουσιαστικό παράγονται κατά κανόνα 8 μορφολογικοί τύποι, για κάθε ρήμα 76, για κάθε επίθετο 120 τύποι, κ.λπ. Σε αυτούς τους μορφολογικούς τύπους πρέπει να προσθέσουμε τους δεύτερους και τους τρίτους μορφολογικούς τύπους που πολλές φορές συναντούμε όταν επεξεργαζόμαστε κείμενα.

Είναι ακόμα γνωστό ότι οι διάφοροι μορφολογικοί τύποι των κλιτών μερών του λόγου χρησιμοποιούν συχνά για τον σχηματισμό τους, πέρα από τις διαφορετικές καταλήξεις, και διαφορετικά θέματα. Για παράδειγμα το ρήμα «βλέπω» (ενεστώτας οριστικής) γίνεται «είδα» στον αόριστο της οριστικής. Στην πρώτη περίπτωση το θέμα είναι «βλέπ-», ενώ στη δεύτερη είναι «είδ-». Συμβαίνει όμως, διαφορετικοί μορφολογικοί τύποι σε συγκεκριμένα κλιτά μέρη του λόγου να είναι όμοιοι και να μπορούν να διακριθούν μόνο με τη βοήθεια των συμφραζομένων τους. Για παράδειγμα, σε πολλά ουσιαστικά η ονομαστική, αιτιατική και κλητική σχηματίζουν τον ίδιο μορφολογικό τύπο στον ενικό και αντίστοιχα στον πληθυντικό, όπως ο ίδιος μορφολογικός τύπος αντιστοιχεί στη γενική πληθυντικού σε όλα τα γένη του ίδιου επιθέτου. Στην πρώτη περίπτωση οι διαφορετικές πτώσεις μπορούν να εντοπιστούν με τη βοήθεια του άρθρου που προηγείται, ενώ στη δεύτερη από το ουσιαστικό που έπεται. Η πολυπλοκότητα των δεδομένων που ήδη περιγράφηκε αυξάνεται δραματικά όταν κάποιες λέξεις, εκτός του ότι αντιστοιχούν σε διαφορετικούς τύπους του ιδίου μέρους του λόγου, ανήκουν ταυτόχρονα και σε άλλα μέρη του λόγου. Για παράδειγμα ο μορφολογικός τύπος «καλά», μπορεί να αντιστοιχεί στην ονομαστική, αιτιατική και κλητική πληθυντικού του επιθέτου «καλός» στο ουδέτερο γένος, μπορεί επίσης να είναι τροπικό επίρρημα «καλά», αλλά μπορεί να είναι και ένας αδύνατος ρηματικός τύπος, το τρίτο ενικό πρόσωπο της οριστικής του ενεστώτα του ρήματος «καλώ».

Η σχεδίαση μιας διαδικασίας αυτόματου χειρισμού κάθε μίας ξεχωριστά από τις περιπτώσεις που προαναφέραμε, θα οδηγούσε σε ένα σύστημα πολύπλοκο, μακριά από τους επιδιωκόμενους στόχους μας. Οι στόχοι μας είναι να διατυπώσουμε αφενός αλγορίθμους, απλούς ως προς τον σχεδιασμό τους και αποτελεσματικούς ως προς την ακρίβεια στις διαδικασίες παραγωγής και αναγνώρισης οποιουδήποτε τύπου καθώς και ως προς την ταχύτητα πρόσβασης στα δεδομένα, αφετέρου ευέλικτες βάσεις δεδομένων, δηλαδή εύκολες στη συντήρηση, τον εμπλουτισμό και τη βελτίωσή τους.
Έτσι, δομήσαμε τις μορφολογικές πληροφορίες σε δύο επίπεδα. Στο υψηλότερο επίπεδο, το αφηρημένο, τυποποιείται το σύνολο των αρχών της μορφοποίησης και της μορφολογικής περιγραφής των λέξεων της νεοελληνικής γλώσσας με την ταξινόμηση διακριτών μορφολογικών τύπων σε κλάσεις καλώς ορισμένων αντικειμένων. Κάθε κλάση χαρακτηρίζεται από τις ιδιότητες και τους μηχανισμούς της, οι οποίοι είναι υπεύθυνοι για τη συνολική γλωσσολογική συμπεριφορά του αντικειμένου της καθώς και για την αναγνώριση και παραγωγή των διακριτών μορφολογικών της τύπων. Έτσι, κάθε ένα από τα 11 μέρη του λόγου αποτελεί μία κλάση η οποία συνοδεύεται από τις ιδιότητες και τους μηχανισμούς της. Για παράδειγμα, το μέρος του λόγου ουσιαστικό αποτελεί μία κλάση, και οι ιδιότητες και μηχανισμοί της, κωδικοποιημένοι, αντιστοιχούν στην καταγραφή αυτού καθαυτού του μέρους του λόγου (ουσιαστικό), του τύπου (κοινό, κύριο, εθνικό), της κλίσης (μηχανισμός : α΄ κλίση αρσενικού, κ.ο.κ), του γένους, της πτώσης (μηχανισμός: ονομαστική, κ.λ.π.) και του αριθμού. Σημειώνουμε ότι οι προαναφερόμενες ιδιότητες και μηχανισμοί περιγράφονται έτσι ώστε εύκολα να μετατρέπονται σε δομές και ενέργειες άμεσα αναγνωρίσιμες από τα προγράμματα αναγνώρισης και παραγωγής των μορφολογικών τύπων της κάθε κλάσης. Σημειώνουμε επίσης, ότι αυτές οι ιδιότητες και οι μηχανισμοί τυποποιούνται ανεξάρτητα από τις ιδιαιτερότητες των δεδομένων που περιγράφουν.

Στο χαμηλότερο επίπεδο, το συγκεκριμένο, δομούνται και ταξινομούνται κωδικοποιημένα τα άμεσα χρησιμοποιούμενα δεδομένα της γλώσσας, όπως οι λέξεις, τα θέματα, οι καταλήξεις των κλίσεων με όλες τις ιδιομορφίες τους, καθώς και οι κανόνες σχηματισμού των μορφολογικών τύπων κάθε κλάσης.

Η δόμηση των μορφολογικών πληροφοριών σε δύο επίπεδα είναι αποφασιστική για την απεμπλοκή της τυποποίησης των κανόνων από τις ιδιαιτερότητες των δεδομένων, ώστε να σχεδιαστούν απλοί και αποτελεσματικοί αλγόριθμοι, ευέλικτοι και ανεξάρτητοι από τα δεδομένα που χειρίζονται. Έτσι δίδονται στους αλγορίθμους αναγνώρισης και παραγωγής μορφολογικών τύπων – και κατά συνέπεια στα αντίστοιχα προγράμματα – ανάλογες ιδιότητες με τους αλγορίθμους-προγράμματα που υπολογίζουν πράξεις πρόσθεσης, πολλαπλασιασμού, κ.λπ., και είναι ανεξάρτητοι από τους αριθμούς που χειρίζονται.

Ο αποτελεσματικός χειρισμός των άκλιτων μερών του λόγου είναι θέμα που αφορά αποκλειστικά στην όσο το δυνατόν πληρέστερη ενημέρωση των αντίστοιχων βάσεων δεδομένων. Αντίθετα ο αποτελεσματικός χειρισμός των κλιτών μερών του λόγου και του συνόλου των μορφολογικών τους τύπων έχει να κάνει και με τον αποτελεσματικό σχεδιασμό-οργάνωση των βάσεων δεδομένων και με την τυποποίηση-κωδικοποίηση των δομολειτουργικών μορφολογικών κανόνων. Το σύστημά μας χειρίζεται 1053 κατηγορίες κλίσεων, οι οποίες καλύπτουν όλο το φάσμα της νεοελληνικής μορφολογίας. Ταξινομώντας τις κλιτές λέξεις ανάλογα με την κλίση τους, ελαχιστοποιούμε τις πληροφορίες που απαιτείται να αποθηκευτούν στις βάσεις, μεγιστοποιώντας συγχρόνως την ταχύτητα των διαδικασιών αναγνώρισης και παραγωγής των τύπων τους. Με τον τρόπο αυτόν το λεξικό εμπλουτίζεται εύκολα καθώς η μόνη πληροφορία που χρειάζεται να καταχωρηθεί για κάθε καινούρια λέξη είναι η κλίση και τα θέματά της.

Το μορφολογικό λεξικό που παρουσιάζουμε – στην παρούσα πειραματική φάση του – αναγνωρίζει και παράγει 3.000 ουσιαστικά, 1.600 επίθετα, 2.100 ρήματα και τις αντίστοιχες μετοχές τους, 50 αντωνυμίες και 250 μη κλιτές λέξεις. Υπολογίζοντας ότι κάθε ουσιαστικό έχει συνήθως 8 διακεκριμένους μορφολογικούς τύπους, κάθε επίθετο 120, κάθε ρήμα 76, κ.ο.κ., μπορούμε να συναγάγουμε ότι το σύστημά μας αναγνωρίζει και παράγει περίπου 1.000.000 τύπους συμπεριλαμβανομένων και των δεύτερων και τρίτων τύπων κάποιων περιπτώσεων. Οι καταχωρημένες ήδη λέξεις είναι αντιπροσωπευτικές όλων των κλίσεων και περιπτώσεων. Έτσι ο εμπλουτισμός ή η επέκταση του λεξικού μας με μερικές εκατοντάδες ή και χιλιάδες λέξεις είναι θέμα απλής καταχώρησής τους.

3. Παραδείγματα των παρεχόμενων υπηρεσιών του Λεξικού

Στην παράγραφο αυτή παραθέτουμε συνοπτικά τις δυνατότητες του προτεινόμενου Υπολογιστικού Μορφολογικού Λεξικού της Νέας Ελληνικής Γλώσσας και ενδεικτικά παραδείγματά τους. Έτσι οι αυτόματες-ηλεκτρονικές υπηρεσίες που παρέχει το ηλεκτρονικό-υπολογιστικό λεξικό, και οι οποίες είναι απόρροια του σχεδιασμού και της δομής του, είναι οι ακόλουθες :

  1. αναγνώριση και – προκειμένου για κλιτά μέρη του λόγου – πρόσβαση από οποιονδήποτε τύπο τους σε όλους τους άλλους, έστω και αν ο αρχικός τύπος είναι περιφραστικός (βλέπε οθόνη 1 έως οθόνη 5) ή δίδεται ανορθόγραφα (βλέπε οθόνη 13)·
  2. παραγωγή οποιουδήποτε από τους πολλαπλούς τύπους των κλιτών μερών του λόγου (βλέπε οθόνες 6, 7, 9, 10 και11)·
  3. έλεγχος των συμφωνιών άρθρου με ουσιαστικό, επίθετο, μετοχή, καθώς και αντωνυμίας με ρήμα, για τον εντοπισμό και την αναγνώριση του ακριβούς τύπου στις περιπτώσεις όμοιων τύπων (βλέπε οθόνη 12)·
  4. παροχή γραμματικών πληροφοριών σχετικών με τη μορφολογία οποιουδήποτε τύπου οποιουδήποτε λήμματος (βλέπε οθόνη 8)·
  5. συμβατότητα με άλλες εφαρμογές επιστημονικές ή του εμπορίου. Για παράδειγμα, η εγκατάστασή του σε οποιονδήποτε επεξεργαστή κειμένου, και η ενεργοποίηση και χρήση του με εικονίδιο από τη γραμμή εργαλείων του επεξεργαστή.

Οθόνη 1 : Μορφολογική αναγνώριση πολλαπλών και διαφορετικών τύπων λέξης, και απαιτούμενος χρόνος αναγνώρισής τους

 

Οθόνη 2 : Μορφολογική αναγνώριση τύπου λέξης που ανήκει σε διαφορετικά μέρη του λόγου και απαιτούμενος χρόνος αναγνώρισής του

 

Οθόνη 3 : Μορφολογική αναγνώριση περιφραστικού τύπου λέξης

 

Οθόνη 4 : Μορφολογική αναγνώριση (α) πολλαπλών, περιφραστικών τύπων του υπερθετικού του επιθέτου καλός

 

Οθόνη 5 : Μορφολογική αναγνώριση (β) πολλαπλών, περιφραστικών τύπων του υπερθετικού του επιθέτου καλός

 


Οθόνη 6 : Μορφολογική αναγνώριση των πολλαπλών, περιφραστικών τύπων του υπερθετικού του επιθέτου καλός της οθόνης 4, τα γένη και η κλίση του αρσενικού των μονολεκτικών τύπων του υπερθετικού

 

Οθόνη 7 : Εύρεση και επιλογή του επιθέτου επιμελής από το γλωσσάριο, αναγνώριση και κλίση του θετικού βαθμού του αρσενικού

 

Οθόνη 8 : Εύρεση και επιλογή του επιθέτου επιμελής από το γλωσσάριο, αναγνώριση και ανάκληση των μορφολογικών κανόνων που διέπουν το επίθετο

 

Οθόνη 9 : Γένη μονολεκτικού υπερθετικού και κλίση του αρσενικού μονολεκτικού υπερθετικού του επιθέτου επιμελής

 

Οθόνη 10 : Γένη περιφραστικού υπερθετικού και κλίση του θηλυκού περιφραστικού υπερθετικού του επιθέτου επιμελής

 

Οθόνη 11: Κλίση της οριστικής του ενεστώτα του ρήματος γελάω – γελώ και απαιτούμενος χρόνος κλίσης


Οθόνη 12 : Ακριβής μορφολογική αναγνώριση τύπου στηριζόμενη στη συμφωνία πτώσης άρθρου ↔ ουσιαστικού και απαιτούμενος χρόνος αναγνώρισής του

 

Οθόνη 13 : Πιθανές σωστές εκδοχές ανορθόγραφης λέξης



4. Διαφορές με άλλα υπάρχοντα Λεξικά

Ηλεκτρονικά λεξικά κυκλοφορούν πολλά. Όμως ηλεκτρονικά μορφολογικά λεξικάπου να είναι συγχρόνως και υπολογιστικά δεν υπάρχουν. Τα ηλεκτρονικά λεξικά του χώρου αυτού είναι κυρίως ερμηνευτικά, ετυμολογικά, εγκυκλοπαιδικά κ.ά., τα οποία όπως είναι προφανές έχουν άλλο σχεδιασμό, αντικείμενο και στόχους, αλλά και αν μπορούν να δώσουν μορφολογικές πληροφορίες για κλίσεις ή μορφολογικούς τύπους λέξεων, αυτοί είναι αποθηκευμένοι, και απλά ανακαλούνται· δεν παράγονται. Tα ηλεκτρονικά υπολογιστικά μορφολογικά λεξικά αναπτύσσονται κυρίως από ερευνητικές ομάδες ως εργαλεία για την αυτόματη επεξεργασία της νεοελληνικής γλώσσας. Εξαιτίας του γεγονότος ότι η νέα ελληνική γλώσσα ανήκει στις υψηλού βαθμού κλιτές γλώσσες, έχουν γίνει πολλές προσπάθειες προς την κατεύθυνση αυτή, αφού η κατασκευή ηλεκτρονικών μορφολογικών επεξεργαστών αποτελεί το πρώτο βήμα οποιασδήποτε προσπάθειας αυτόματης επεξεργασίας της.

Η πλειονότητα αυτών των εργαλείων – μορφολογικοί επεξεργαστές, ετικετοποιητές, ανιχνευτές θεμάτων (θέμα κατάληξη) – χρησιμοποιούν πρακτικές καθιερωμένες παγκόσμια όπως : το μορφολογικό μοντέλο των δύο επιπέδων του Koskenniemi (Sgarbas et al., 1995), το άμεσο ακυκλικό γράφημα λέξης (Sgarbas et al., 2000a; 2000b), οι τεχνικές μηχανικής εκμάθησης (Petasis et al. 2000; 2001, Papageorgiou et al., 2000), οι στατιστικές μέθοδοι (Tambouratzis and Carayiannis, 2001), δοκιμάζοντας την αποτελεσματικότητά τους σε σχέση με τη μορφολογία της νέας ελληνικής γλώσσας.
Παρόλη την ποικιλία των θεωρητικών μοντέλων και υλοποιήσεων των μεθόδων, όλα τα συστήματα έχουν ένα κοινό χαρακτηριστικό : βασίζονται σε προσεγγίσεις οι οποίες αναπτύχθηκαν για να αντιμετωπίσουν τη μορφολογία φτωχότερων κλιτικά γλωσσών. Γεγονός που προδικάζει τις δυσκολίες που αναφύονται στην προσπάθεια χειρισμού δια μέσου αυτών της μορφολογίας της νέας ελληνικής γλώσσας.

Αντίθετα το μοντέλο μορφολογικής ανάλυσης και σύνθεσης που προτείνουμε σχεδιάστηκε εξ αρχής με βάση τις ιδιαιτερότητες της ελληνικής γλώσσας και μάλιστα το πλήθος και την ποικιλία των μορφολογικών τύπων των λέξεων. Έτσι αποφύγαμε ένα μοντέλο που επικεντρώνεται στη λέξη, και το οποίο αντιστοιχεί και χειρίζεται την κάθε λέξη ξεχωριστά. Το μοντέλο αυτό στην αρχή θα είχε τη δυνατότητα επεξεργασίας περιορισμένου αριθμού μερών του λόγου, σταδιακά όμως θα επεκτεινόταν με όλο και περισσότερους κανόνες για να μπορεί να αντιμετωπίσει όσο το δυνατόν περισσότερες εξαιρέσεις. Οι συνέπειες του χειρισμού επιβαρυμένων συστημάτων είναι πολλές φορές απρόβλεπτες, αφού οδηγούν στη διακοπή λειτουργίας του (κρέμασμα) ή σε άλλες αδιέξοδες καταστάσεις. Ομοίως αποφύγαμε και τις στατιστικές μεθόδους, αφού το μόνο που θα μπορούσαν να δώσουν ήταν προσεγγιστικές μέθοδοι και προσεγγιστικά αποτελέσματα. Αντίθετα προτείνουμε ένα μοντέλο όσο το δυνατόν γενικότερο, το οποίο αντιμετωπίζει συνολικά τη δομολειτουργία της γλώσσας, έτσι ώστε οι μηχανισμοί αναγνώρισης και παραγωγής μορφολογικών τύπων (μονολεκτικών ή περιφραστικών, 1ων, 2ων ή 3ων) να λειτουργούν ανεξάρτητα από την πολυπλοκότητα των δεδομένων που χειρίζονται κάθε φορά. Τα δεδομένα, κωδικοποιημένα, είναι αρχειοθετημένα και ταξινομημένα στη βάση δεδομένων του συστήματος. Το αποτέλεσμα αυτής της καινοτομίας οδήγησε στην 100% αναγνώριση όλων των μορφολογικών τύπων της νέας ελληνικής γλώσσας και κατ’ επέκταση στην παραγωγή τους με απλούς, αποτελεσματικούς και ταχείς αλγορίθμους. Οι χρόνοι αναγνώρισης είναι πολύ μικροί, ακόμη και αυτοί που αντιστοιχούν σε αποτελέσματα περισσότερα του ενός : βλέπε οθόνες 1, 2 και 12. Ο χρόνος παραγωγής είναι μηδενικός : βλέπε οθόνη 11.

5. Συμπεράσματα

Στο άρθρο αυτό παρουσιάσαμε ένα ηλεκτρονικό υπολογιστικό μορφολογικό λεξικό που βρίσκεται σε πειραματικό στάδιο και είναι ένα από τα αποτελέσματα ερευνητικής προσπάθειάς μας για την επινόηση αποτελεσματικών εργαλείων αυτόματης επεξεργασίας της νέας ελληνικής γλώσσας. Το λεξικό αυτό είναι καινοτόμο ως προς τον τρόπο που σχεδιάστηκε και, κατά συνέπεια, ως προς τις υπηρεσίες που προσφέρει.

Το λεξικό σχεδιάστηκε με βάση τις ιδιαιτερότητες της κλιτής νέας ελληνικής γλώσσας, ως υπολογιστικό εργαλείο ταχείας, ακριβούς και πλήρους αναγνώρισης – ανεξάρτητα από την πολυπλοκότητα των δεδομένων που χειρίζεται κάθε φορά – και – προκειμένου για κλιτά μέρη του λόγου – πρόσβασης από οποιονδήποτε τύπο σε όλους τους άλλους, έστω και αν ο αρχικός τύπος είναι περιφραστικός. Με τον όρο υπολογιστικό εννοούμε ότι στηρίζεται σε μηχανισμούς ανάλυσης και σύνθεσης μορφολογικών τύπων και όχι εντοπισμού μορφολογικών τύπων σχηματισμένων εκ των προτέρων και καταχωρημένων στις βάσεις δεδομένων του. Κατά συνέπεια, η περαιτέρω αξιοποίηση αυτών των μηχανισμών προσδίδει επιπλέον δυνατότητες στο λεξικό, όπως για παράδειγμα παραγωγής οποιουδήποτε τύπου 1ου, 2ου, 3ου των κλιτών μερών του λόγου, διόρθωσης ανορθόγραφων τύπων, και ελέγχου των συμφωνιών άρθρου με ουσιαστικό, επίθετο, μετοχή, καθώς και αντωνυμίας με ρήμα, για τον εντοπισμό και την αναγνώριση του ακριβούς τύπου στις περιπτώσεις όμοιων τύπων. Η σχεδίαση του λεξικού έλαβε υπόψη τις άμεσες και έμμεσες μορφολογικές πληροφορίες που φέρουν οι νεοελληνικές λέξεις και καθορίζουν τη μορφολογική τους συμπεριφορά. Οι πληροφορίες αυτές ταξινομήθηκαν, κωδικοποιήθηκαν, αρχειοθετήθηκαν σε ανάλογα σχεδιασμένες βάσεις δεδομένων, ώστε κάθε φορά να απαιτούνται οι ελάχιστες από αυτές για να αξιοποιηθούν από τους μηχανισμούς[2] αναγνώρισης και παραγωγής, καθώς και εισαγωγής νέων λέξεων στο λεξικό. Εύκολα ενσωματώνεται σε άλλες εφαρμογές. Εξίσου εύκολα εμπλουτίζονται ή επεκτείνονται οι μηχανισμοί αναγνώρισης και παραγωγής με περισσότερους κανόνες στον χειρισμό μεγαλύτερων αλυσίδων λέξεων. Επιπλέον, όταν αυτό το λεξικό χρησιμοποιηθεί συνδεδεμένο και με τα υπόλοιπα λεξικά του Ηλεκτρονικού Υπολογιστικού Λεξικού της Νέας Ελληνικής Γλώσσας θα μπορεί να ελέγχει τον μορφολογικό τύπο οποιασδήποτε λέξης σε σχέση με τον συντακτικό της ρόλο και τη σημασιολογική της συμπεριφορά. Αυτό που αποτελεί την πρώτη μας προτεραιότητα για το μέλλον είναι να εφαρμόσουμε τον μορφολογικό μας αναλυτή σε σώματα κειμένων γενικού περιεχομένου.

 

Βιβλιογραφικές Αναφορές

BALDZIS, S.D. (1993). Αυτόματη Επεξεργασία της Νεοελληνικής με Τροποποιημένης Εκδοχής των Γραμματικών της Ιεραρχίας Chomsky και με το Βασικό Νεοελληνικό Πολυλεξικό. (Modern Greek Language Processing with a Modification of Grammars of the Chomsky Hierarchy and with the Basic Modern Greek Multilexicon), PhD Thesis, University of Ioannina Press, Ioannina - Greece.
BALDZIS, S.D., EUMERIDOU, E.. & KOLALAS, S. (2002). «A Complete and Comprehensive System for Modern Greek Language Processing Proposed as a Modern Greek Language Call Method Developer», Literary and Linguistic Computing, U.K., Vol. 17(4), 373-400.
BALDZIS, S.D., KOLALAS, S. & EUMERIDOU, E. (2005a).«Computational Modern Greek Morphological Lexicon – An Efficient and Comprehensive System for Morphological Analysis and Synthesis», Literary and Linguistic Computing, U.K., Vol. 20(2) : pp.153-187.
BALDZIS, S.D., KOLALAS, S. & EUMERIDOU, E. (2005b).«Computational Morphological Lexicons – Current tools for Knowledge and Communication Management», Proceedings of the 2nd Balkan Conference in Informatics, Ohrid – FYROM, pp. 346-356.
PAPAGEORGIOU, H., PROKOPITHIS, P., GIOULI, V & PIPERIDIS, P., (2000). «A Unified POS Tagging Architecture and its Application to Greek», RLEC, Athens, pp. 1455-1463.
PAPAKITSOS, E., GRIGORIADOU, M. & PHILOKYPROU, G. (2002). «Modeling a Morpheme-based Lexicon for Modern Greek», Literary and Linguistic Computing, U.K., Vol. 17(4), pp. 475-490.
PETASIS, G., PALIOURAS, G., KARAKATSELIS, V., SPYROPOYLOS, CD. & I. ANDRITSOPOULOS. (2000). «Using Machine Learning Techniques for Part-of-Speech Tagging in the Greek Language», in D.I. Fotiadis and S.D. Nikolopoulos (eds.) Advances in Informatics, World Scientific, Singapore, pp.273-281.
PETASIS, G., KARAKATSELIS, V., FARMAKIOTOU, D., SAMARITAKIS, G., SPYROPOYLOS, CD. & I. ANDRITSOPOULOS. (2001). «A Greek Morphological Lexicon and its Exploitation by a Greek Controlled Language Checker», 8th Panhellenic Conference on Informatics, Cyprus, vol. 1, pp. 80-89.
SGARBAS, K., FAKOTAKIS, N. & G. KOKKINAKIS (1995). «A PC-KIMMO-Based Morphological Description of Modern Greek», Literary and Linguistic Computing, U.K., Vol. 10 (3) pp. 189-201.
SGARBAS, K., FAKOTAKIS, N. & G. KOKKINAKIS . (2000a). «Two Algorithms for Incremental Construction of Directed Acyclic Word Graphs», International Journal on Artificial Intelligence Tools, World Scientific, Vol.4(3) pp. 369-381.
SGARBAS, K., FAKOTAKIS, N. & G. KOKKINAKIS (2000b). «A Straightforward Approach to Morphological Analysis and Synthesis», Proceedings COMLEX 2000, Workshop on Computational Lexicography and Multimedia Dictionaries, Greece, pp. 31-34.
TAMBOURATZIS, G., & G. CARAYANNIS. (2001). «Automatic Corpora-Based Stemming in Greek», Literary and Linguistic Computing, U.K., Vol.16 (4), pp. 445-466.
TRIANDAFYLLIDIS, M. (1982). ΝεοελληνικήΓραμματική (Modern Greek Grammar). ΟΕΔΒ (Publishing Organization of Educational Books), Athens.
ΚLAIRIS, CHR. & G. BABINIOTIS. (2005). In collaboration with MOZER, A, BAKAKOU-ORFANOU, AIK, & ST. SKOPETEA. Γραμματική της Νέας Ελληνικής. Δομολειτουργική-Επικοινωνιακή (Grammar of the Modern Greek Language. Structural-Functional-Communicative). Ελληνικά Γράμματα, Athens.

 

 

[1] sbaldzis@cc.uoi.gr : Εργαστήριο Επεξεργασίας Φυσικής Γλώσσας και Μαθηματικών Προβλημάτων – Τμήμα Μαθηματικών – Πανεπιστήμιο Ιωαννίνων

[2] Οι μηχανισμοί αυτοί είναι, τυποποιημένοι, οι μορφολογικοί δομολειτουργικοί κανόνες της νέας ελληνικής γλώσσας, οι οποίοι περιγράφονται με μικρούς ευέλικτους και ταχείς αλγορίθμους (διαδικασίες).