ΑΝΑΠΤΥΞΗ ΕΝΟΣ ΕΚΠΑΙΔΕΥΣΙΜΟΥ ΑΝΙΧΝΕΥΤΗ ΟΡΙΩΝ ΦΡΑΣΕΩΝ (TEXT CHUNKER) ΓΙΑ ΤΑ ΝΕΑ ΕΛΛΗΝΙΚΑ

ΑΝΑΠΤΥΞΗ ΕΝΟΣ ΕΚΠΑΙΔΕΥΣΙΜΟΥ ΑΝΙΧΝΕΥΤΗ ΟΡΙΩΝ ΦΡΑΣΕΩΝ (TEXT CHUNKER) ΓΙΑ ΤΑ ΝΕΑ ΕΛΛΗΝΙΚΑ Η Διπλωματική Εργασία παρουσιάστηκε ενώπιον του Διδακτικού Προσωπικού του Πανεπιστημίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το Δίπλωμα του Μηχανικού Πληροφοριακών και Επικοινωνιακών Συστημάτων των ΚΟΥΡΛΑ ΕΛΕΝΗΣ ΜΠΟΥΜΠΑΡΗ ΓΕΩΡΓΙΟΥ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2007

Η ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ ΔΙΔΑΣΚΟΝΤΩΝ ΕΠΙΚΥΡΩΝΕΙ ΤΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΤΩΝ ΚΟΥΡΛΑ ΕΛΕΝΗΣ ΜΠΟΥΜΠΑΡΗ ΓΕΩΡΓΙΟΥ: ΣΤΑΜΑΤΑΤΟΣ ΕΥΣΤΑΘΙΟΣ, Επιβλέπων Ημερομηνία Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων [ΟΝΟΜΑ ΔΙΔΑΣΚΟΝΤΑ], Μέλος Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων [ΟΝΟΜΑ ΔΙΔΑΣΚΟΝΤΑ], Μέλος Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2007

ΠΕΡΙΛΗΨΗ Η παρούσα διπλωματική εργασία υλοποιεί την ανάπτυξη ενός εκπαιδεύσιμου ανιχνευτή ορίων φράσεων σε προτάσεις φυσικής γλώσσας για τα Νέα Ελληνικά με χρήση Δέντρων Απόφασης (decson trees). Βασίζεται σε τμήμα της διδακτορικής διατριβής του επιβλέποντος καθηγητή της διπλωματικής αυτής εργασίας. Η εκπαίδευση και αξιολόγηση του συστήματος της εργασίας έγιναν σε ένα σώμα κειμένων αποτελούμενο από άρθρα του ημερήσιου τύπου. Για την τελική επιλογή του αλγορίθμου πραγματοποιήθηκαν πειράματα στο περιβάλλον αλγορίθμων Μηχανικής Μάθησης Weka, αξιολογούμενα από τρία μέτρα αξιολόγησης, την ακρίβεια, την ανάκληση και (τον συνδυασμό αυτών) τον αρμονικό μέσο όρο F. Τις υψηλότερες τιμές των τριών αυτών μετρικών έδωσε ο ταξινομητής J48 των δέντρων απόφασης, με την χρήση ενός βέλτιστου εύρους δεδομένων εκπαίδευσης, ο οποίος και τελικά επιλέχθηκε με τελική απόδοση (F) ίση με 90,35%, Τέλος, εφαρμόστηκε και μια μέθοδος για την επίλυση του προβλήματος της ανισορροπίας των κλάσεων με αποτέλεσμα την βελτίωση της απόδοσης σε 94,69%. 2007 των ΚΟΥΡΛΑ ΕΛΕΝΗΣ ΜΠΟΥΜΠΑΡΗ ΓΕΩΡΓΙΟΥ Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ABSTRACT Ths dssertaton explores the text chunkng on Modern Greek texts wth the usage of machne learnng algorthm, Decson Trees. The tranng set was based on corpus consstng of daly newspaper artcles. In order to choose the approprate machne learnng algorthm a set of experments were taken place n Weka s envronment, whch s a lbrary of machne learnng algorthms. The evaluaton of the model was measured wth three rates whch are recall, precson and the combnaton of them (F-Measure). The hghest values were gven by decson s trees classfer, J48, wth the best vector of tranng data and the fnal F-Measure s 90,35%. To end up, a method was appled to the fnal model so as to resolve the problem of class mbalance, mprovng ths way the F-Measure to 94,69%. 2007 GEORGIOS BOUMPARIS ELENI KOURLA Department of Informaton and Communcaton Systems Engneerng UNIVERSITY OF THE AEGEAN v

ΕΥΧΑΡΙΣΤΙΕΣ - ΑΦΙΕΡΩΣΕΙΣ v

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ... ABSTRACT... v ΕΥΧΑΡΙΣΤΙΕΣ - ΑΦΙΕΡΩΣΕΙΣ... v ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ... v ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ... v ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ... x ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ... 11 1.1 Δομή της Διπλωματικής Εργασίας... 11 ΚΕΦΑΛΑΙΟ 2 - ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ... 13 2.1 Ανίχνευση ορίων μη επικαλυπτόμενων φράσεων (Text Chunkng)... 13 2.2 Μηχανική Μάθηση... 14 2.2.1 Μάθηση κατά Bays - Αφελής Ταξινομητής Bayes (Nave Bayes)... 19 2.2.2 Δέντρα Απόφασης - Αλγόριθμος C4.5 (J48)... 21 2.2.3 Αλγόριθμος k κοντινότερων γειτόνων (k- Nearest Neghbor, k-nn)... 24 2.2.4 Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machnes, SVMs)... 27 2.2.5 Μετά-μάθηση (Ταξινομητές Boostng και Baggng)... 31 2.2.6 Το πρόβλημα του Class Imbalance... 32 2.3 Weka Δοκιμές... 32 2.4 Μέτρα Εκτίμησης Επίδοσης Συστημάτων... 32 ΚΕΦΑΛΑΙΟ 3 - ΠΡΟΗΓΟΥΜΕΝΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ... 34 3.1 Abney (1991) Parsng By Chunks... 34 3.2 Προσεγγίσεις για τα Νέα Ελληνικά... 34 3.3 Προσεγγίσεις βασισμένες σε Γραμματικές... 34 3.4 Προσεγγίσεις βασισμένες σε στατιστικά μοντέλα... 35 3.5 Ramshaw and Marcus (1995) Text chunkng usng Transorfmaton-Based Learnng... 35 3.6 Άλλες προσεγγίσεις... 36 3.7 Προσεγγίσεις που παρουσιάστηκαν στον CoNLL- 2000 Διαγωνισμό... 36 3.7.1 Herve Dejean (Learnng Syntactc Structures wth XML)... 36 3.7.2 Chrster Johansson (A Context Senstve Maxmum Lkelhood Approach to Chunkng)... 37 3.7.3 Rob Koelng (Chunkng wth Maxmum Entropy Models)... 38 3.7.4 Taku Kudoh, Yuj Matsumoto (Use of Vector Learnng for Chunk Identfcaton)... 38 3.7.5 Mles Osborne (Shallow Parsng as Part-of-Speech Taggng)... 39 3.7.6 Ferran Pla, Antono Molna, Natvdad Preto (Improvng Chunkng by Means of Lexcal-Contexual Informaton n Statstcal Language Models)... 39 v

3.7.7 Erk F. Tjong Km Sang (Text Chunkng by System Combnaton)... 40 3.7.8 Hans vas Halteren (Chunkng wth WPDF Models)... 42 3.7.9 John Veenstra, Antal van den Bosch (Sngle-Classfer Memory-Based Phrase Chunkng)... 43 3.7.10 Marc Vlan, Davd Day (Phrase Parsng wth Rule Sequence Processors: an Applcaton to the Shared CoNLL Task)... 43 3.7.11 GuoDong Zhou, Jan Su, TongGuan Tey (Hybrd Text Chunkng)... 44 3.7.12 Συγκριτικά αποτελέσματα των προσεγγίσεων που παρουσιάστηκαν στον CoNLL- 2000 Διαγωνισμό... 45 ΚΕΦΑΛΑΙΟ 4 - ΠΕΡΙΓΡΑΦΗ ΣΥΣΤΗΜΑΤΟΣ... 47 4.1 Εισαγωγή... 47 4.2 Είδη Φράσεων - chunk... 47 4.3 Σώμα Κειμένων (Corpus)... 50 4.4 Μορφολογική Πληροφορία... 50 4.4.1 Λεξικό Λέξεων-Κλειδιών... 50 4.4.2 Λεξικό Καταλήξεων... 51 4.5 Επιλογή Χαρακτηριστικών Δεδομένα Εκπαίδευσης-Αξιολόγησης... 52 4.6 Πειράματα στο Weka... 55 4.6.1 Πείραμα 1 Επιλογή αλγορίθμου... 56 4.6.2 Πείραμα 2 Σημεία Στίξης / Κύρια Ονόματα... 58 4.6.3 Πείραμα 3 Εύρεση βέλτιστου μήκους παραθύρου... 59 4.6.4 Πείραμα 4 Ενοποίηση NP και NPG... 63 4.6.5 Πείραμα 5 Μετά-μάθηση (Meta-learnng)... 64 4.6.6 Πείραμα 6 Class Imbalance... 64 4.7 Αναγνώρίση Ορίων Ονοματικών Φράσεων... 67 ΚΕΦΑΛΑΙΟ 5 - ΣΥΜΠΕΡΑΣΜΑΤΑ... 68 ΒΙΒΛΙΟΓΡΑΦΙΑ... 69 ΠΑΡΑΡΤΗΜΑ I - ΕΓΓΡΑΦΕΣ ΛΕΞΙΚΩΝ... 72 Λεξικό Λέξεων Κλειδιών... 72 Λεξικό κοινών καταλήξεων των Νέων Ελληνικών... 80 v

ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Πίνακας 3-1: Συγκεντρωτικά αποτελέσματα των έντεκα προσεγγίσεων.... 46 Πίνακας 4-1: Τα είδη των φράσεων σύμφωνα με το μοντέλο IOB.... 48 Πίνακας 4-2: Απεικόνιση των chunk μιας περιόδου με την χρήση του μοντέλου IOB.... 49 Πίνακας 4-3: Απεικόνιση των chunk μιας περιόδου με την χρήση αγκυλών.... 49 Πίνακας 4-4: Απεικόνιση των chunk μιας περιόδου με την χρήση του μοντέλου IOB, μόνο για τις Ονοματικές Φράσεις.... 49 Πίνακας 4-5: Αντιστοιχίες Μέρη του Λόγου POS-tag.... 51 Πίνακας 4-6: Αντιστοιχίες επεκτάσεων και των ερμηνειών τους.... 51 Πίνακας 4-7: Επιπρόσθετη επέκταση όσον αφορά το λεξικό των καταλήξεων.... 52 Πίνακας 4-8: Σημεία στίξης.... 53 Πίνακας 4-9: Είδη chunk.... 54 Πίνακας 4-10: Αποτελέσματα με την χρήση του τελικού διανύσματος χαρακτηριστικών για εύρος παραθύρου [w -4, w -3, w -2, w -1, w, w +1 ] με την χρήση του ταξινομητή J48.... 55 Πίνακας 4-11: Πείραμα 1 ο Αποτελέσματα του αλγόριθμου Naïve Bayes για μήκος παραθύρου [w -2, w -1, w, w +1 ].... 56 Πίνακας 4-12: Πείραμα 1 ο Αποτελέσματα του ταξινομητή IB1 για μήκος παραθύρου [w -2, w -1, w, w +1 ].... 57 Πίνακας 4-13: Πείραμα 1 ο Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -2, w -1, w, w +1 ].... 57 Πίνακας 4-14: Πείραμα 2 Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -2, w -1, w, w +1 ].... 58 Πίνακας 4-15: Πείραμα 3 Δοκιμή 1 Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -2, w -1, w, w +1 w +2 ].... 60 Πίνακας 4-16: Πείραμα 3 Δοκιμή 2 Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -3, w -2, w -1, w, w +1 ].... 60 Πίνακας 4-17: Πείραμα 3 Δοκιμή 3 Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -4, w -3, w -2, w -1, w, w +1 ]... 61 Πίνακας 4-18: Πείραμα 3 Δοκιμή 4 Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -5, w -4, w -3, w -2, w -1, w, w +1 w +2 ].... 62 Πίνακας 4-19: Πείραμα 3 Δοκιμή Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -5, w -4, w -3, w -2, w -1, w, w +1 w +2 ].... 62 Πίνακας 4-20: Απώλειες στην ταξινόμηση μεταξύ ΟΦ και ΟΦΓ πριν την ενοποίηση.... 63 Πίνακας 4-21: Πείραμα 4 Ενοποίηση Κλάσεων Ονοματικών Φράσεων Γενικής και Ονοματικών Φράσεων.... 63 v

Πίνακας 4-22: Αποτελέσματα με την χρήση του τελικού διανύσματος χαρακτηριστικών για εύρος παραθύρου [w -4, w -3, w -2, w -1, w, w +1 ] με τον αλγόριθμο baggng (με ταξινομητή J48) και διαχωρισμό στιγμιότυπων με την μέθοδο percentage.... 64 Πίνακας 4-23: Πλήθος στιγμιότυπων πριν και μετά την εξισορρόπηση.... 65 Πίνακας 4-24: Αποτελέσματα με την χρήση του τελικού διανύσματος χαρακτηριστικών για εύρος παραθύρου [w -4, w -3, w -2, w -1, w, w +1 ], με χρήση του ταξινομητή J48, μετά την επίλυση της ανισορροπίας των κλάσεων.... 66 Πίνακας 4-25: Αποτελέσματα με την χρήση του τελικού διανύσματος χαρακτηριστικών για εύρος παραθύρου [w -4, w -3, w -2, w -1, w, w +1 ] με την χρήση του ταξινομητή J48 για την αναγνώριση Ορίων Ονοματικών Φράσεων.... 67 x

ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ Σχήμα 2-1: Γραμμικώς διαχωριζόμενα υπερεπίπεδα [Sch06]... 29 Σχήμα 2-2: Μη γραμμικά διαχωρίσιμες κατηγορίες.... 30 Σχήμα 2-3: Περιπτώσεις υπερ/υπο-ταιριάσματος και η μέση λύση.... 31 Σχήμα 3-1: Προσέγγιση των Ferran Pla, Antono Molna και Natvdad Preto.... 40 Σχήμα 3-2: Συγκριτικό διάγραμμα για το μέτρο F.... 46 Σχήμα 3-3: Συγκριτικό διάγραμμα για την ακρίβεια και την ανάκληση των προσεγγίσεων.... 46 Σχήμα 4-1: Τελικό Διάνυσμα Χαρακτηριστικών [w -4, w -3, w -2, w -1, w, w +1 ].... 53 Σχήμα 4-2: Ταξινόμηση των στιγμιότυπων στις κλάσεις.... 55 Σχήμα 4-3: Πείραμα 1 ο Διάνυσμα χαρακτηριστικών [w -2, w -1, w, w +1 ]... 56 Σχήμα 4-4: Πείραμα 2 Διάνυσμα χαρακτηριστικών [w -2, w -1, w, w +1 ].... 58 Σχήμα 4-5: Πείραμα 3 Δοκιμή 1 Διάνυσμα χαρακτηριστικών [w -2, w -1, w, w +1 w +2 ]... 59 Σχήμα 4-6: Πείραμα 3 Δοκιμή 2 Διάνυσμα χαρακτηριστικών [w -3, w -2, w -1, w, w +1 ].... 60 Σχήμα 4-7: Πείραμα 3 Δοκιμή 3 Διάνυσμα χαρακτηριστικών [w -4, w -3, w -2, w -1, w, w +1 ].... 61 Σχήμα 4-8: Πείραμα 3 Δοκιμή 4 Διάνυσμα χαρακτηριστικών [w -5, w -4, w -3, w -2, w -1, w, w +1 ].... 61 Σχήμα 4-9: Πείραμα 3 Δοκιμή 5 Διάνυσμα χαρακτηριστικών [w -1, w, w +1, w +2 ].... 62 Σχήμα 4-10: Απεικόνιση των κλάσεων πριν την εξισορρόπηση από το εργαλείο Weka.... 65 Σχήμα 4-11: Απεικόνιση των κλάσεων μετά την εξισορρόπηση από το εργαλείο Weka.... 66 Σχήμα 4-12: Μεταβολή ακρίβειας (precson) με εξισορρόπηση.... 66 Σχήμα 4-13: Μεταβολή ανάκλησης (recall) με εξισορρόπηση.... 67 Σχήμα 5-1: Πορεία πειραμάτων.... 68 x

ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ Η σύγχρονη γλωσσολογία και η Τεχνητή Νοημοσύνη δημιουργήθηκαν και αναπτύχθηκαν περίπου την ίδια εποχή, με κοινή περιοχή ένα υβριδικό πεδίο που ονομάζεται υπολογιστική γλωσσολογία (computatonal lngustcs) ή αλλιώς επεξεργασία φυσικής γλώσσας (natural language processng NLP). Το αντικείμενο του πεδίου αυτού είναι η αυτοματοποίηση της ανάλυσης κειμένων τα οποία βρίσκονται σε ηλεκτρονική μορφή και περιλαμβάνει δύο διαδικασίες: την κατανόηση της φυσικής γλώσσας (Natural Language Understandng) και την παραγωγή της φυσικής γλώσσας (Natural Language Generaton). Μερικές τυπικές εφαρμογές της NLP είναι η μηχανική ή αυτόματη μετάφραση, η αυτόματη απάντηση ερωτήσεων, η αυτόματη σύνθεση κειμένου, η αυτόματη περίληψη, η ανάκτηση πληροφορίας, η κατηγοριοποίηση κειμένου, κ.α. Η ανάπτυξη υπολογιστικών μοντέλων επεξεργασίας πληροφορίας που βρίσκεται σε φυσική (ανθρώπινη) γλώσσα καλείται Γλωσσική Τεχνολογία (language technology). Μια εφαρμογή στο χώρο αυτό είναι και η Ανίχνευση ορίων φράσεων (phrase boundary detecton, text chunkng) σε κείμενα χωρίς περιορισμούς. Η ανίχνευση ορίων μη επικαλυπτόμενων φράσεων (text chunkng) σε προτάσεις φυσικής γλώσσας πραγματοποιεί το χωρισμός μιας πρότασης σε μη-επικαλυπτόμενα τμήματα βάσει μιας απλής συντακτικής ανάλυσης και αποτελεί πολύ σημαντική εφαρμογή στα συστήματα φυσικής γλώσσας. Παράλληλα, τα τελευταία χρόνια έχει παρατηρηθεί μια τάση προς την ανάπτυξη εμπειρικών μεθόδων, επαναφέροντας στην επιφάνεια τις στατιστικές τεχνικές. Τέτοιες προσεγγίσεις βασίζονται σε μεγάλα σώματα εκπαίδευσης και όχι σε θεωρίες της γλωσσικής τεχνολογίας, οι οποίες, ενώ δεν υποστηρίζουν πλήρη κατανόηση του κειμένου αποτελούν αποδεδειγμένα μια αξιόπιστη λύση. Μεγάλη ανάπτυξη επίσης, γνωρίζει και η εφαρμογή μεθόδων της τεχνητής νοημοσύνης (artfcal ntellgence) και πιο συγκεκριμένα της μηχανικής μάθησης (Machne Learnng) για την επεξεργασία φυσικής γλώσσας. Σ αυτές τις περιπτώσεις η γλωσσολογική γνώση που απαιτείται για την ανάλυση του κειμένου, εξάγεται αυτόματα βάσει ενός σώματος κειμένων εκπαίδευσης και οι τεχνικές αυτές καλούνται μέθοδοι βάσει σώματος κειμένου (corpusbased methods). Στην παρούσα εργασία υλοποιείται η ανάπτυξη ενός μοντέλου ανίχνευσης ορίων φράσεων σε προτάσεις φυσικής γλώσσας για τα Νέα Ελληνικά με χρήση μεθόδων Μηχανικής Μάθησης. Το μοντέλο που προκύπτει είναι ένας εκπαίδευσιμος ανιχνευτής ορίων φράσεων, ο οποίος μετά την εκπαίδευση του μπορεί να αναλύει ένα οποιοδήποτε κείμενο με καλό βαθμό αξιοπιστίας. Ο χωρισμός ενός κειμένου σε Φράσεις είναι μια διαδικασία χρονοβόρα, η οποία όμως μπορεί να υλοποιηθεί με ελάχιστο υπολογιστικό κόστος με τη χρήση υπολογιστικών μοντέλων όπως η μέθοδος που περιγράφεται στην παρούσα εργασία. Με το συγκεκριμένο θέμα έχουν ασχοληθεί αρκετοί επιστήμονες, κυρίως στα αγγλικά, επιλύνοντάς το, όχι μόνο με στοχαστικές μεθόδους, δίνοντας ενθαρρυντικά αποτελέσματα και προσφέροντας μια βάση για περαιτέρω έρευνα και αξιοποίηση του παραπάνω εργαλείου. 1.1 Δομή της Διπλωματικής Εργασίας Στο Κεφάλαιο 1 γίνεται μια εισαγωγή για το αντικείμενο που διαπραγματεύεται η παρούσα εργασία και μια σύντομη επισκόπηση των κεφαλαίων που ακολουθούν. Στο Κεφάλαιο 2 παρουσιάζεται το απαραίτητο θεωρητικό υπόβαθρο της γλωσσικής τεχνολογίας, της ανίχνευσης ορίων φράσεων (text chunkng) και οι βασικότερες έννοιες της Μηχανικής Μάθησης και της Τεχνητής Νοημοσύνης γενικότερα. Στη συνέχεια, παρουσιάζονται οι 11

σημαντικότερες κατηγορίες αλγορίθμων Μηχανικής Μάθησης και τέσσερις συγκεκριμένοι αλγόριθμοι, οι οποίοι εξετάστηκαν στην παρούσα εργασία για την ανάπτυξη ενός αποδοτικού μοντέλου ανίχνευσης ορίων φράσεων σε κείμενα των Νέων Ελληνικών. Τέλος παρουσιάζονται οι μετρικές με τις οποίες αξιολογείται το παρόν σύστημα μηχανικής μάθησης και το περιβάλλον Weka με το οποίο πραγματοποιήθηκαν πειράματα για την εκπαίδευση και αξιολόγηση του παρόντος συστήματος. Στο κεφάλαιο 3 παρουσιάζονται οι σημαντικότερες προσεγγίσεις για την ανίχνευση ορίων μη επικαλυπτόμενων φράσεων (text chunkng). Κυρίως, όμως, αναλύονται οι έντεκα προσεγγίσεις για text chunkng σε αγγλικά κείμενα με τη χρήση αλγορίθμων Μηχανικής Μάθησης που παρουσιάστηκαν στο CoNLL -2000 συνέδριο και αξιολογήθηκαν βάσει της απόδοσης τους. Στο κεφάλαιο 4 γίνεται περιγραφή του συστήματος και των πειραμάτων που πραγματοποιήθηκαν στο περιβάλλον αλγορίθμων Μηχανικής Μάθησης Weka, για την ανάπτυξη ενός αξιόπιστου και αποδοτικού μοντέλου. Παρουσιάζονται, επίσης, διάφορες τεχνικές για περαιτέρω βελτίωση των αποτελεσμάτων. Τέλος, στο κεφάλαιο 5 παρουσιάζονται τα συμπεράσματα που προέκυψαν κατά την διεκπεραίωση της παρούσας διπλωματικής εργασίας. 12

ΚΕΦΑΛΑΙΟ 2 - ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 2.1 Ανίχνευση ορίων μη επικαλυπτόμενων φράσεων (Text Chunkng) Η ανίχνευση ορίων μη επικαλυπτόμενων φράσεων (text chunkng) σε προτάσεις φυσικής γλώσσας για τα Νέα Ελληνικά αποτελεί ένα πολύ σημαντικό εργαλείο στα συστήματα φυσικής γλώσσας και έχει σαν στόχο το χωρισμό των περιόδων ενός κειμένου σε απλές συντακτικές δομές, όπως ονοματικές φράσεις και ρηματικές φράσεις. Η αναγνώριση ορίων ενδοπεριοδικών φράσεων προτάθηκε από τον Abney ως ένα βήμα προεπεξεργασίας κειμένου πριν από την πλήρη συντακτική ανάλυση (full parsng). Σύμφωνα με το Συντακτικό της Νέας Ελληνικής παραθέτουμε τον ορισμό της περιόδου: Ένας λόγος ολοκληρωμένος, που αποτελείται από μία η περισσότερες προτάσεις και καταλήγει, όταν είναι γραπτός, σε τελεία ή βρίσκεται ανάμεσα σε δύο τελείες, ονομάζεται περίοδος [ΣυΝΕ]. Ένας ανιχνευτής ορίων φράσεων (Text Chunker) προσδιορίζει τα όρια των ενδοπεριοδικών, μη επικαλυπτόμενων φράσεων σε κείμενο χωρίς περιορισμούς. Σύμφωνα με το Λεξικό της νέας ελληνικής γλώσσας του Μπαμπινιώτη παραθέτουμε τον ορισμό της φράσης: Φράση είναι το σύνολο των λέξεων που αποτελεί μια συντακτική ενότητα, τμήμα προτάσεως [Μπα98]. Τα όρια μη επικαλυπτόμενων φράσεων προσδιορίζουν την αρχή και το τέλος μίας φράσης μέσα σε μία πρόταση. Η ακριβής μετάφραση της λέξης chunk είναι «κομματάρα» ή «μεγάλο κομμάτι». Με την ετικέτα chunk-tag δηλώνεται το είδος και τα όρια μιας ενδοπεριοδικής φράσης. Αντίστοιχα με τον όρο POS-tag (Part Of Speech tag) δηλώνεται το μέρος του λόγου μιας λέξης. Για ευκολία και συντομία αντί του όρου chunk-tag χρησιμοποιείται στην παρούσα εργασία ο όρος chunk. Σχεδόν όλες οι προσεγγίσεις σ αυτό το πρόβλημα βασίστηκαν σε ογκώδη λεξικά και πολύπλοκους πόρους, όπως λεξικά που περιέχουν δεκάδες χιλιάδες λήμματα και γραμματικές εκατοντάδων ή χιλιάδων κανόνων. Οι λύσεις αυτές απαιτούν μεγάλο υπολογιστικό κόστος και οι τροποποιήσεις στην περίπτωση αυτή είναι δύσκολες και χρονοβόρες. Στις περισσότερες προσεγγίσεις που αφορούν την Αγγλική γλώσσα, πρώτα πραγματοποιείται συντακτική ανάλυση, με τη χρήση ενός σχολιαστή μέρους-του-λόγου (POS-tagger), ο οποίος αποδίδει ένα POS-tag σε μία λέξη. Οι περισσότερες προσεγγίσεις χρησιμοποιούν τον POS-tagger του Brll (Brll s POS-tagger) [Br94]. Βάσει των αποτελεσμάτων του POS tagger γίνεται τελικά η ανίχνευση ορίων φράσεων (text chunkng). Οι καταλήξεις της Νέας Ελληνικής γλώσσας είναι πολύ χαρακτηριστικές και μπορούν να οδηγήσουν σε συμπεράσματα για τη μορφολογική περιγραφή της κάθε λέξης. Επιπλέον, τα άρθρα, οι προθέσεις και τα μόρια, τα οποία είναι υποχρεωτικά μπροστά από συγκεκριμένου τύπου λέξεων μπορούν να σηματοδοτήσουν συνήθως την έναρξη ονοματικής, ρηματικής ή προθετικής φράσης αντίστοιχα. Η εργασία που παρουσιάζεται εδώ υλοποιεί την ανάπτυξη ενός τέτοιου μοντέλου ανίχνευσης ορίων φράσεων σε προτάσεις φυσικής γλώσσας για τα Νέα Ελληνικά εκμεταλλευόμενο τα ποικίλα χαρακτηριστικά της Ελληνικής γλώσσας, χωρίς την χρήση POS-tagger. Το μοντέλο είναι εκπαιδεύσιμο, δηλ. προκύπτει μέσα από την ανάλυση ενός ήδη υπάρχοντος κατάλληλα σχολιασμένου σώματος κειμένων (corpus), έτσι ώστε μετά την εκπαίδευση του να μπορεί να εφαρμόζεται σε οποιοδήποτε νέο κείμενο και να το αναλύει με καλό βαθμό αξιοπιστίας. 13

Για την κατασκευή ενός τέτοιου μοντέλου μπορεί να χρησιμοποιηθεί είτε κάποια στοχαστική διαδικασία, είτε κάποια μέθοδος μηχανικής μάθησης, για την αυτόματη εξαγωγή κανόνων. Στην προσέγγιση μας μελετήσαμε αλγορίθμους μηχανικής μάθησης. Με τη χρήση ενός κατάλληλου αλγορίθμου μηχανικής μάθησης το σύστημα μαθαίνει από ήδη συντακτικά σχολιασμένα κείμενα (corpus) που έχουν αναλυθεί χειρονακτικά από φιλόλογο, έτσι ώστε με τους εξαγόμενους κανόνες να μπορεί να αναλύσει οποιοδήποτε κείμενο. 2.2 Μηχανική Μάθηση Ένας τομέας της Τεχνητής Νοημοσύνης που παρουσιάζει ιδιαίτερα μεγάλο ενδιαφέρον για τους επιστήμονες του κλάδου αυτού - και όχι μόνο - είναι αυτός της Μηχανικής Μάθησης (Machne Learnng) ΜΜ, αντικείμενό της οποίας αποτελεί η κατασκευή προγραμμάτων ικανών να προσαρμόζουν αυτόματα τη λειτουργία τους, με σκοπό τη βελτίωση της απόδοσή τους, μέσω της εμπειρίας που αποκτούν κατά την εκτέλεσή τους. Είναι πλέον γεγονός η δημιουργία αλγορίθμων ικανών να αυτοματοποιήσουν την κατασκευή ευφυών συστημάτων χρησιμοποιώντας δεδομένα εκπαίδευσης. Το γεγονός αυτό αποδεικνύει πλήθος επιστημονικών, αλλά και εμπορικών εφαρμογών που έχουν αναπτυχθεί τα τελευταία χρόνια με τη χρήση αλγορίθμων ΜΜ. 2.3.1 Βασικές Έννοιες της Μηχανικής Μάθησης Ένας απλός ορισμός ορισμός της ΜΜ είναι ο παρακάτω: Ένα πρόγραμμα μαθαίνει από την εμπειρία Ε που αποκτά κατά την εκτέλεση ενός συνόλου διεργασιών Δ, εφόσον η απόδοσή του Α βελτιώνεται με την αξιοποίηση της εμπειρίας Ε. [Mt97]. Από τον παραπάνω ορισμό γίνεται σαφές ότι για να ορισθεί τυπικά ένα πρόβλημα μάθησης, θα πρέπει να προσδιορισθούν πρώτα τα παρακάτω: Το σύνολο των διεργασιών που θα πρέπει να εκτελεστούν. Το μέτρο της απόδοσης το οποίο επιδιώκουμε να αυξήσουμε. Το είδος της εμπειρίας που απαιτείται για την αύξηση αυτή. Το πρώτο στάδιο της σχεδίασης ενός συστήματος ΜΜ περιλαμβάνει τον προσδιορισμό της γνώσης που θα χρησιμοποιηθεί κατά την εκπαίδευσή του. Μια από τις σημαντικότερες επιλογές που μπορούν να γίνουν όσον αφορά στο είδος της παρεχόμενης γνώσης-πληροφορίας, είναι το κατά πόσο αυτή προσφέρει στο σύστημα ΜΜ άμεση ή έμμεση πληροφόρηση για την υπό εκμάθηση έννοια (concept), αναγκάζοντάς έτσι το ίδιο το σύστημα να προβεί στην ανακάλυψή της, από το αποτέλεσμα του σταδίου της εκπαίδευσης. Ιδιαίτερη σημασία για την ποιότητα του σώματος εκπαίδευσης δίνεται στην κατανομή των παραδειγμάτων από τα οποία θα αντληθεί η γνώση από το σύστημα ΜΜ, ενώ παράλληλα θα πρέπει να είναι ίδια με την αντίστοιχη κατανομή των περιπτώσεων που θα χρησιμοποιηθούν για τον έλεγχο της απόδοσης και ακόμα περισσότερο για τη λειτουργία του. Μια από τις πιο συνηθισμένες μορφές αναπαράστασης των παραδειγμάτων εκπαίδευσης είναι η διανυσματική, όπου κάθε παράδειγμα εκπαίδευσης, ή αλλιώς στιγμιότυπο (nstance), αποτελείται από ένα σύνολο χαρακτηριστικών (attrbutes ή features), δηλ. μετρήσιμες ποσότητες οι οποίες έχουν επιλεγεί κατάλληλα από τα δεδομένα εκπαίδευσης, έτσι ώστε το σύστημα ΜΜ να μπορεί να εξάγει από τις τιμές τους τη γνώση που χρειάζεται. Στη συνέχεια, ανάλογα με το είδος της πληροφορίας που προσδιορίζει ένα χαρακτηριστικό, μπορεί να είναι συνεχές (contnuous) (π.χ. ένας πραγματικός ή ακέραιος αριθμός), ή ονομαστικό 14

(nomnal). Το τελευταίο λαμβάνει ένα προκαθορισμένο σύνολο διακριτών τιμών, αριθμητικών ή συμβολικών. Με τον τρόπο αυτό, έχοντας επιλέξει l χαρακτηριστικά, απεικονίζουμε το χώρο του προβλήματος σε έναν l-διάστατο χώρο, ο οποίος αποτελεί τον χώρο των στιγμιότυπων (nstance space), αντιστοιχώντας κάθε στιγμιότυπο εκπαίδευσης σε ένα διάνυσμα l διαστάσεων. Το επόμενο στάδιο της σχεδίασης ενός συστήματος ΜΜ περιλαμβάνει τον τρόπο με τον οποίο θα διαχειρισθεί το σύστημα τη γνώση την οποία αποκομίζει κατά το στάδια της εκπαίδευσης, με σκοπό την αποδοτικότερη λειτουργία του. Σύμφωνα με το μοντέλο της διανυσματικής αναπαράστασης, αναζητείται μια συνάρτηση f η οποία θα προσεγγίζει όσο το δυνατόν περισσότερο μια ιδανική συνάρτηση με την οποία μοντελοποιείται το πρόβλημα, και λέγεται συνάρτηση στόχος (target functon) f. Οι δύο συναρτήσεις έχουν ελεύθερη μεταβλητή ένα τυχαίο διάνυσμα xv, με πεδίο ορισμού το χώρο των στιγμιότυπων και σύνολο τιμών καθορισμένο ανάλογα με την κάθε εφαρμογή. Έτσι, η επίλυση ενός προβλήματος ΜΜ ανάγεται στην επίλυση ενός προβλήματος προσέγγισης των τιμών μιας συνάρτησης (functon approxmaton). Επιπλέον, ανάλογα με το είδος της γνώσης η οποία παρέχεται για εκπαίδευση, το πεδίο της μηχανικής μάθησης χωρίζεται σε δύο μεγάλες κατηγορίες: τη μάθηση με επίβλεψη (supervsed learnng) και τη μάθηση χωρίς επίβλεψη (unsupervsed learnng). Στην πρώτη περίπτωση, η διαδικασία της μάθησης καθοδηγείται από τα στιγμιότυπα εκπαίδευσης, υποδεικνύοντας στον αλγόριθμο μάθησης την τιμή της συνάρτησης στόχου που επιδιώκει να προσεγγίσει. Στην κατηγορία αυτή ανήκουν τα προβλήματα ταξινόμησης (classfcaton learnng), στα οποία το αποτέλεσμα της κατηγοριοποίησης αποτελεί χαρακτηριστικό των στιγμιότυπων εκπαίδευσης και η τιμή του για κάθε στιγμιότυπο συμπεριλαμβάνεται στα δεδομένα εκπαίδευσης. Αντίθετα, στην περίπτωση της μάθησης χωρίς επίβλεψη, ο αλγόριθμος ανακαλύπτει δομικούς σχηματισμούς στα στιγμιότυπα εκπαίδευσης, με βάσει κριτήρια τα οποία δεν παρέχονται άμεσα στο σύστημα. Επιπλέον, μπορούμε να διακρίνουμε τους παράγοντες που συμβάλλουν στην ικανότητα γενίκευσης ενός συστήματος σε δύο κατηγορίες: σε αυτούς που σχετίζονται με την ποιότητα της παρεχόμενης εμπειρίας στον αλγόριθμο μάθησης (σώμα εκπαίδευσης) και σε αυτούς που σχετίζονται με το μηχανισμό αξιοποίησης της πληροφορίας αυτής (αναζήτηση της βέλτιστης υπόθεσης). Σημαντικοί παράγοντες για τη σχεδίαση ενός αποδοτικού συστήματος ΜΜ θεωρούνται οι παρακάτω: η ικανότητα γενίκευσης (generalzaton ablty), δηλ. η ικανότητά του συστήματος να χρησιμοποιεί την εμπειρία που απέκτησε από τα στιγμιότυπα εκπαίδευσης, όσο το δυνατόν αποτελεσματικότερα για το συνόλου των άγνωστων στιγμιότυπων ελέγχου. Επίσης, εφόσον η υπόθεση στην οποία κατέληξε το σύστημα μετά την εκπαίδευσή του είναι συνεπής (consstent) με την πλειοψηφία των στιγμιότυπων εκπαίδευσης, τότε θα είναι σε μεγάλο βαθμό συνεπής και με τα άγνωστα στιγμιότυπα που θα κληθεί να διαχειρισθεί κατά την κανονική λειτουργία του (στιγμιότυπα ελέγχου). Το φαινόμενο αυτό είναι το φαινόμενο του υπερταιριάσματος (overfttng). Καθοριστική σημασία στην ποιότητα του σώματος εκπαίδευσης έχει και η ορθή επιλογή των χαρακτηριστικών τα οποία θα συστήσουν το χώρο του προβλήματος, καθώς μέσω αυτών γίνεται δυνατή η αναπαράσταση της γνώσης που απαιτείται για την αποδοτική λειτουργία του συστήματος. Ενώ απαραίτητη είναι και η ομοιότητα της κατανομής των στιγμιότυπων εκπαίδευσης με την κατανομή των στιγμιότυπων που θα συναντήσει το σύστημα κατά τη διάρκεια της λειτουργίας του. Ο παράγοντας αυτός σχετίζεται άμεσα με το μέγεθος του σώματος εκπαίδευσης, το οποίο αποτελεί ένα περιορισμένο δείγμα του χώρου του προβλήματος. Τέλος, ιδιαίτερη προσοχή δίνεται και στην ορθότητα των δεδομένων που χρησιμοποιούνται για την εκπαίδευση, για το λόγο ότι δεν είναι σπάνια η περίπτωση εμφάνισης σφαλμάτων στις τιμές 15

των χαρακτηριστικών κάποιων στιγμιότυπων. Το φαινόμενο αυτό ονομάζεται θόρυβος (nose) και συμβαίνει κατά τη συλλογή δεδομένων από πειραματικές μετρήσεις, αλλά και γενικότερα όπου υπάρχει ο ανθρώπινος παράγοντας στη δημιουργία δεδομένων εκπαίδευσης. Παρόμοιο φαινόμενο είναι και αυτό της απουσίας τιμών (mssng values), δηλ. περιπτώσεων στις οποίες οι τιμές ορισμένων χαρακτηριστικών δεν αναφέρονται για κάποια από τα στιγμιότυπα. 2.3.2 Κατηγορίες Αλγόριθμων Μηχανικής Μάθησης Υπάρχει μεγάλη ποικιλία αλγορίθμων ΜΜ, οι οποίοι χωρίζονται σε κατηγορίες με βασικό κριτήριο τα είδη των προβλημάτων που χειρίζονται. Στην ενότητα αυτή παρουσιάζονται εν συντομία οι βασικότερες κατηγορίες αλγορίθμων ΜΜ με τα κυριότερα πλεονεκτήματα τους. Μάθηση κατά Bayes Η λειτουργία των αλγορίθμων αυτών βασίζεται στην υπόθεση κατά την οποία η υπό εκμάθηση έννοια συσχετίζεται άμεσα με την κατανομή των πιθανοτήτων που παρουσιάζουν τα στιγμιότυπα του προβλήματος, όσον αφορά στην κλάση στην οποία ανήκουν. Τα βασικότερα πλεονεκτήματα της κατηγορίας αυτής είναι: Η δυνατότητα αξιολόγησης των υποθέσεων στις οποίες καταλήγει ο αλγόριθμος μάθησης, μέσω της ορθότητάς τους, η οποία αντιστοιχεί στην πιθανότητα να είναι συνεπείς με την πλειοψηφία των παρατηρούμενων δεδομένων Η συμβολή της στη καλύτερη κατανόηση και ανάλυση αλγορίθμων μάθησης οι οποίοι δεν χειρίζονται απ ευθείας πιθανότητες. Παράδειγμα της ιδιότητας αυτής είναι επαγωγική προδιάθεση (nductve bas) ενός αλγορίθμου, για το συνόλου των υποθέσεων στις οποίες στηρίζεται ο αλγόριθμος, ώστε να παράγει ένα μοντέλο ικανό να γενικεύει τις υποθέσεις στις οποίες κατέληξε μετά το χειρισμό άγνωστων στιγμιότυπων. Η παροχή ενός μέτρου σύγκρισης με άλλες μεθόδους ΜΜ, αφού οι αλγόριθμοι της κατηγορίας αυτής εγγυώνται τη βέλτιστη επίλυση ενός προβλήματος, δεδομένου ενός συνόλου υποθέσεων οι οποίες απλοποιούν την κατασκευή του μοντέλου. Οι υποθέσεις αυτές και ειδικά ο Αφελής Αλγόριθμος Bayes (Nave Bayes), παρουσιάζονται αναλυτικά παρακάτω. Μάθηση βασισμένη σε Δένδρα Απόφασης Μια άλλη μέθοδος ΜΜ είναι αυτή που βασίζεται σε δένδρα απόφασης, με την οποία επιχειρείται η προσέγγιση μιας άγνωστης διακριτής συνάρτησης στόχου, ακολουθώντας την τεχνική του διαίρει και βασίλευε (Dvde and Conquer). Ο χώρος του προβλήματος, στην περίπτωση αυτή, χωρίζεται σε περιοχές από στιγμιότυπα τα οποία έχουν την ίδια τιμή ως προς κάποιο χαρακτηριστικό. Αυτό είναι μια διαδικασία η οποία επαναλαμβάνεται αναδρομικά και αναπαριστά το παραγόμενο μοντέλο ως δένδρο απόφασης. Οι εσωτερικοί κόμβοι ενός τέτοιου δένδρου αντιστοιχούν στη σύγκριση της τιμής ενός χαρακτηριστικού κάποιου στιγμιότυπου με μια σταθερά. Τα φύλλα του δέντρου αντιπροσωπεύουν την απόφαση του μοντέλου για την ταξινόμηση του εκάστοτε στιγμιότυπου, η οποία μπορεί να έχει τη μορφή της κλάσης στην οποία αυτό ανήκει, ή ενός συνόλου κλάσεων, ή ακόμα και μιας πιθανοτικής κατανομής για το σύνολο των κλάσεων στις οποίες θα μπορούσε να αποδοθεί. Βάσει της παραπάνω αναπαράστασης, ένα άγνωστο στιγμιότυπο ακολουθεί τη διαδρομή από τη ρίζα προς κάποιο φύλλο του δένδρου, καθοδηγούμενο από το αποτέλεσμα των ελέγχων που διεξάγονται στους εσωτερικούς κόμβους από τους οποίους πέρασε. Στην ουσία ένα δένδρο απόφασης αναπαριστά μια διάζευξη συζευγμένων περιορισμών για ένα συνόλου δεδομένων απόφασης. Η διαδρομή από τη ρίζα προς κάποιο φύλλο αντιστοιχεί σε σύζευξη περιορισμών στις τιμές των χαρακτηριστικών ενός στιγμιότυπου οι οποίες θα πρέπει να ισχύουν 16

ταυτόχρονα για την απόδοση της απόφασης που αναφέρεται στο φύλλο. Πλεονεκτήματα του αλγορίθμου αυτού είναι τα παρακάτω: Η ευρωστία του, όσον αφορά το θόρυβο που είναι πιθανόν να παρουσιαστεί στα δεδομένα του χώρο του προβλήματος. Η ανοχή στην απουσία τιμών (mssng values), για ορισμένα χαρακτηριστικά του σώματος εκπαίδευσης. Η χρήση και συνεχών (μη διακριτών) χαρακτηριστικών και η προσέγγιση μη διακριτών συναρτήσεων στόχου, μέσω τεχνικών που αναλαμβάνουν τη διακριτοποίησή τους (dscretzaton), τη διαδικασία δηλ. η οποία μετατρέπει τα συνεχή αριθμητικά χαρακτηριστικά σε ονομαστικά. Η δυνατότητα μεταφοράς του παραγόμενου μοντέλου από δένδρο απόφασης σε ένα σύνολο κανόνων συμπερασμού, για τη διευκόλυνση της κατανόησής του. Παρακάτω παρουσιάζεται αναλυτικά ο πλέον διαδεδομένος αλγόριθμος της κατηγορίας αυτής, ο C4.5. Αυτόματη Εκμάθηση Κανόνων Μια μεθοδολογία επαγωγικής κατασκευής ταξινομητών, η οποία μοιάζει με τη μεθοδολογία των δένδρων απόφασης, αποτελεί η αυτόματη εκμάθηση κανόνων, χαρακτηριστική για την ικανότητά της να παράγει ιδιαίτερα εύληπτα μοντέλα με τη μορφή κανόνων συμπερασμού (f-then rules). Ένας μεγάλος αριθμός αλγορίθμων της κατηγορίας αυτής μαθαίνουν κανόνες Κατηγορηματικής Λογικής Πρώτης Τάξης (Frst order Horn Clauses), οι οποίοι μπορούν να εκφραστούν με τη χρήση της γλώσσας PROLOG. Για το λόγο αυτό, η κατηγορία αυτή συναντάται στη βιβλιογραφία και ως Επαγωγικός Λογικός Προγραμματισμός (Inductve Logc Programmng ή ILP). Μάθηση βασισμένη σε Στιγμιότυπα Πρόκειται για μια απλή προσέγγιση του προβλήματος της ΜΜ, η οποία όμως παρουσιάζει μια σημαντική διαφορά με τις υπόλοιπες κατηγορίες. Η διαφορά είναι ότι ένας αλγόριθμος μάθησης βασισμένος σε στιγμιότυπα δεν περιλαμβάνει το στάδιο της εκπαίδευσης, όπου αντί για αυτό, ο αλγόριθμος αρκείται στην απομνημόνευση των στιγμιότυπων εκπαίδευσης που του παρέχονται και τα οποία χρησιμοποιεί μόνο όταν κληθεί να αποφασίσει για ένα άγνωστο στιγμιότυπο. Η απόφαση αυτή λαμβάνεται βάσει της ομοιότητας του αγνώστου στιγμιότυπου με τα αποθηκευμένα στιγμιότυπα και το είδος αυτό της μάθησης αποκαλείται νωχελική μάθηση (lazy learnng). Ο έλεγχος της ομοιότητας δύο στιγμιότυπων γίνεται με τη χρήση μιας συνάρτησης απόστασης, η οποία επιλέγεται ανάλογα το κάθε πρόβλημα. Οι αλγόριθμοι της κατηγορίας αυτής δεν κατασκευάζουν ένα μοντέλο που να αναπαριστά τη γνώση που απέκτησαν από τα δεδομένα εκπαίδευσης και ο προσδιορισμός της συνάρτησης στόχου γίνεται τοπικά. Αυτή ακριβώς η διαφοροποίηση της συγκεκριμένης κατηγορίας αλγορίθμων αποτελεί ένα από τα σημαντικότερα πλεονεκτήματα και συγχρόνως μειονεκτήματά τους. Αυτό γιατί η μεταφορά του προσδιορισμού της συνάρτησης στόχου στο στάδιο της λήψης της απόφασης έχει σαν αποτέλεσμα την αύξηση του κόστους της ταξινόμησης των νέων στιγμιότυπων, και ως προς τον χρόνο που απαιτείται αλλά και ως προς την υπολογιστική πολυπλοκότητα. Τέλος, οι παραπάνω αλγόριθμοι χαρακτηρίζονται για την αστάθειά τους στην ύπαρξη θορύβου στα δεδομένα εκπαίδευσης. Κυριότεροι εκπρόσωποι της κατηγορίας αυτής είναι οι αλγόριθμοι 17

των k κοντινότερων γειτόνων (k Nearest Neghbors - k-nn), της τοπικής παλινδρόμησης με βάρη (Locally Weghted Regresson), της συλλογιστικής βασισμένης σε περιπτώσεις (Case-Based Reasonng) και οι Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machnes ή SVMs) οι οποίες περιγράφονται αναλυτικά παρακάτω. Τεχνητά Νευρωνικά Δίκτυα Τα Τεχνητά Νευρωνικά Δίκτυα (Artfcal Neural Networks - A.N.N.s), επιδιώκουν να μιμηθούν τη λειτουργία του σχηματισμού των νευρώνων οι οποίοι συναντώνται στα βιολογικά συστήματα μάθησης και αποτελούνται από ένα σύνολο πολύπλοκα συνδεδεμένων απλούστερων μονάδων, διατεταγμένων κυρίως σε επίπεδα. Η εκμάθηση της συνάρτησης στόχου αντιστοιχεί στην αναζήτηση των συνδέσμων μεταξύ ενός νευρώνα του επιπέδου και των νευρώνων του επόμενου επιπέδου +1. Τα τεχνητά νευρωνικά δίκτυα διακρίνονται για την ικανότητά τους να προσεγγίζουν τόσο διακριτές όσο και συνεχείς αλλά ακόμα και διανυσματικές συναρτήσεις στόχου. Επίσης διακρίνονται για την ευρωστία τους, όσον αφορά το θορύβου στα δεδομένα εκπαίδευσης, καθώς και για την ταχύτητά τους κατά την ταξινόμηση άγνωστων στιγμιότυπων. Απαιτούν όμως μεγάλους χρόνους εκπαίδευσης, ενώ τις περισσότερες φορές το εξαγόμενο μοντέλο δεν παρέχεται σε κατανοητή μορφή. Γενετικοί Αλγόριθμοι Οι αλγόριθμοι αυτοί βασίζονται στη διαδικασία της αναπαραγωγής των ζωντανών οργανισμών. Εδώ η εύρεση της συνάρτησης στόχου ξεκινά με ένα σύνολο αρχικών υποθέσεων, οι οποίες συνήθως αναπαρίστανται ως ακολουθίες δυαδικών ψηφίων. Το σύνολο αυτό εξελίσσεται συνεχώς με τη χρήση των διαδικασιών της διασταύρωσης (crossover) και της μεταλλαγής (mutaton), όροι οι οποίοι είναι δανεισμένοι από τη βιολογία και υποδηλώνουν ότι μια νέα γενιά υποθέσεων προκύπτει από την προηγούμενη της γενιά, μέσω της συγχώνευσης των χαρακτηριστικών παλαιότερων υποθέσεων και της μεταλλαγής αυτών σε νέα χαρακτηριστικά. Κάθε βήμα της εξελικτικής αυτής διαδικασίας περιλαμβάνει την επιλογή ενός υποσυνόλου με τις πιο υγιείς υποθέσεις, οι οποίες θα αποτελέσουν το υλικό για την αναπαραγωγή και το σχηματισμό έπειτα μιας νέας γενιάς. Οι γενετικοί αλγόριθμοι κρίνονται ιδανικοί για τη χρήση τους σε χώρους υποθέσεων που περιέχουν περίπλοκους σχηματισμούς και αλληλεπιδρούν μεταξύ τους με τέτοιο τρόπο που καθιστά ιδιαίτερα δύσκολη τη μοντελοποίησή τους. Τέλος, ο μεγάλος βαθμός παραλληλίας που τους χαρακτηρίζει, επιτρέπει την εκτέλεσή τους σε παράλληλα συστήματα. Μετά-Μάθηση (Meta-Learnng) Μια εναλλακτική προσέγγιση η οποία επιχειρεί να αυξήσει την αξιοπιστία ενός συστήματος ΜΜ, εκμεταλλευόμενη την εμπειρία περισσότερων από ένα μοντέλων, με τον κατάλληλο συνδυασμό τους για την τελική απόφασή, είναι η Μετά-Μάθηση (Meta-Learnng). Στην κατηγορία αυτή συγκαταλέγονται οι ακόλουθες μεθοδολογίες για τον συνδυασμού μοντέλων: Baggng: Η μέθοδος αυτή παράγει έναν αριθμό μοντέλων, προερχόμενων από έναν κοινό αλγόριθμο μάθησης, χρησιμοποιώντας διαφορετική διαμέριση του σώματος εκπαίδευσης για κάθε ένα από αυτά. Για τη λήψη απόφασης ακολουθείται συνήθως η λογική της πληοψηφίας. Boostng: Παρόμοια διαδικασία με την προηγούμενη εφαρμόζεται και στην περίπτωση της αυτή, με τη διαφορά ότι τα μοντέλα τα οποία συστήνουν την επιτροπή των ειδικών παράγονται διαδοχικά, έτσι ώστε κάθε νέο μοντέλο να επηρεάζεται άμεσα από την 18

απόδοση των προηγουμένων του, για να αποφύγει λανθασμένες αποφάσεις που ενδεχομένως προηγήθηκαν [Fr+Sch95]. Stackng: Η μέθοδος της Συσσωρευμένης Γενίκευσης (Stacked Generalzaton ή Stackng) κάνει χρήση ενός συνόλου μοντέλων που προέρχονται από διαφορετικούς αλγορίθμους μάθησης. Η λήψη της τελικής απόφασης δεν προϋποθέτει την υιοθέτηση της απόφασης της πλειοψηφίας, αλλά κάνει χρήση ενός μοντέλου προέδρου, το οποίο μαθαίνει ποιο από τα μέλη της επιτροπής θα πρέπει να εμπιστεύεται σε κάθε περίπτωση. Κωδικοποίηση Διόρθωσης Λαθών Εξόδου (Error-Correctng Output Codes): Η τεχνική αυτή χρησιμοποιείται για τη βελτίωση της απόδοσης των αλγορίθμων ΜΜ, στην περίπτωση προβλημάτων πολλών κλάσεων. Ένα πρόβλημα ν κλάσεων διασπάται σε ένα σύνολο ανεξάρτητων ισάριθμων προβλημάτων δύο κλάσεων, για κάθε ένα από τα οποία εκπαιδεύεται ένας αλγόριθμος μάθησης. 2.2.1 Μάθηση κατά Bays - Αφελής Ταξινομητής Bayes (Nave Bayes) Στη μάθηση κατά Bayes (Bayesan learnng) κάθε παράδειγμα εκπαίδευσης μπορεί σταδιακά να μειώνει ή να αυξάνει την πιθανότητα να είναι σωστή μια υπόθεση. Η δυσκολία στην εφαρμογή της μάθησης κατά Bayes είναι η απαίτηση της γνώσης πολλών τιμών πιθανοτήτων, όταν αυτές οι τιμές δεν είναι δυνατό να υπολογιστούν ακριβώς και υπολογίζονται κατ' εκτίμηση από παλαιότερες υποθέσεις ή εμπειρική γνώση. Η δυσκολία αυτή έχει δώσει μεγάλη πρακτική αξία σε μια απλουστευμένη εκδοχή της μάθησης κατά Bayes, τον απλό ταξινομητή Bayes (Nave Bays), στον οποίο γίνεται η απλή παραδοχή ότι τα χαρακτηριστικά είναι ανεξάρτητα μεταξύ τους. Ένας από τους σημαντικότερους στόχους της πιθανοθεωρητικής προσέγγισης στη μηχανική μάθηση είναι η εύρεση της πιο πιθανής υπόθεσης του χώρου υποθέσεων H, δεδομένου ενός σώματος εκπαίδευσης D και της γνώσης που ενδεχομένως διατίθεται για τις πιθανότητες των διαφόρων υποθέσεων hh. Η πιθανότητα ισχύος μιας υπόθεσης h δεδομένου ενός συνόλου στιγμιότυπων D δίδεται από τον νόμο του Bayes: Pr( h)pr( D h) Pr( h D) (2.1) Pr( D) όπου, Pr(h) : ή εκ των προτέρων πιθανότητα ισχύος της h, χωρίς να προηγηθεί παρατήρηση των δεδομένων του D. Pr(D h) : η δεσμευμένη πιθανότητα που εκφράζει το ενδεχόμενο παρατήρησης των δεδομένων του D, ισχυούσης της h (πιθανοφάνεια lkelhood). Pr(D) : η εκ των προτέρων πιθανότητα παρατήρησης των δεδομένων του D. (Ο συγκεκριμένος όρος απλοποιείται και δε συμμετέχει στους υπολογισμούς). Pr( h D ) : η ζητούμενη εκ των υστέρων πιθανότητα ισχύος της h δεδομένης της παρατήρησης των δεδομένων του D. Η αναζήτηση της πιο πιθανής υπόθεσης h δεδομένου του D ανάγεται στην εύρεση της υπόθεσης με τη μεγαλύτερη εκ των υστέρων πιθανότητα (maxmum a-posteror ή MAP hypothess). Ορίζεται η υπόθεση αυτή ως εξής: 19

Pr( h)pr( D h) hmap arg max{pr( h D)} arg max arg max{pr( h) Pr( D h)} hh hh Pr( D) hh (2.2) Ο παραπάνω αλγόριθμος υπάρχει στη βιβλιογραφία με το όνομα Βέλτιστος Ταξινομητής Bayes [TK99] και αποδεικνύεται θεωρητικά πως είναι σε θέση να υπολογίσει το άνω φράγμα των επιδόσεων ενός συστήματος ταξινόμησης για ένα συγκεκριμένο πρόβλημα. Για το πρόβλημα της ταξινόμησης, χρησιμοποιώντας διανυσματική αναπαράσταση των δεδομένων, γίνονται οι παρακάτω υποθέσεις: C: τυχαία μεταβλητή που δείχνει την κλάση ενός στιγμιότυπου. X: διάνυσμα τυχαίων μεταβλητών που δείχνει τις τιμές των παρατηρούμενων χαρακτηριστικών. c: μια συγκεκριμένη ετικέτα κλάσης. x: ένα συγκεκριμένο παρατηρούμενο διάνυσμα. Για ένα στιγμιότυπο δοκιμής x για ταξινόμηση, με τη χρήση του νόμο του Bayes για τον υπολογισμό της εκ των υστέρων πιθανότητας για κάθε κλάση δεδομένου του διανύσματος x, πραγματοποιείται η επιλογή της μεγαλύτερης από αυτές: p( C c) p( x C c) arg max{ p( C c x)} arg max arg max{ p( C c) p( x C c)} c c p( x) c Εδώ X = x αναπαριστά το γεγονός X1 x1 X2 x2... Xk οπότε: arg max{ p( C c x)} arg max{ p( C c) p( x C c)} (2.3) c c Όπου οι πιθανότητες στο δεξί μέλος της ισότητας (2.3) υπολογίζονται από τα ταξινομημένα στιγμιότυπα του σώματος εκπαίδευσης. Αφελής Ταξινομητής Bayes (nave Bayes classfer) Όπως αναφέραμε, η δυσκολία στην εφαρμογή της μάθησης κατά Bayes [Βλχ02] είναι η απαίτηση για την γνώση πολλών τιμών συζευγμένων και μη συζευγμένων πιθανοτήτων, η οποία ξεπερνάτε με τη χρήση του απλού κατηγοριοποιητή Bayes (smple/nave Bayes classfer), στον οποίο γίνεται παραδοχή ότι τα χαρακτηριστικά που χρησιμοποιούνται ως τιμές εισόδου είναι ανεξάρτητα μεταξύ τους. Ο απλός ταξινομητής Bayes είναι μια πρακτική μέθοδος μάθησης που στηρίζεται σε στατιστικά στοιχεία (κατανομές πιθανότητας) και προσφέρει μια απλή πιθανοθεωρητική προσέγγιση στα προβλήματα μάθησης με επίβλεψη, όπου ο στόχος είναι η ακριβής πρόβλεψη της κατηγορίαςκλάσης των στιγμιότυπων δοκιμής, χρησιμοποιώντας ταξινομημένα στιγμιότυπα εκπαίδευσης τα οποία περιλαμβάνουν την πληροφορία της κλάσης που ανήκουν. Ο ταξινομητής Nave Bayes βασίζεται σε δυο σημαντικές υποθέσεις, ενώ παράλληλα υποθέτει ότι κάθε χαρακτηριστικό των στιγμιότυπων είναι στοχαστικά ανεξάρτητο των υπόλοιπων, δεδομένης της κλάσης και του γεγονότος ότι δεν υπάρχουν άλλα κρυφά χαρακτηριστικά που να επηρεάζουν την διαδικασία της πρόβλεψης. Έτσι η πιθανότητα της σχέσης (2.3) μετατρέπεται σε γινόμενο πιθανοτήτων, όπως φαίνεται παρακάτω: 20

arg max{ p( C c x)} arg max{ p( C c) p( X x C c)} (2.4) c c Ο παράγοντας p(c=c) υπολογίζεται βάσει της συχνότητας εμφάνισης της κλάσης c στα στιγμιότυπα του σώματος εκπαίδευσης. Οι δεσμευμένες πιθανότητες p( X x C c) υπολογίζονται ανάλογα με το αν το χαρακτηριστικό 2 είναι διακριτό ή συνεχές. Για τα διακριτά χαρακτηριστικά των διανυσμάτων, εκείνα δηλαδή που παίρνουν διακριτές τιμές, η πιθανότητα αυτή είναι ένας πραγματικός αριθμός, μεταξύ 0 και 1, ο οποίος αντιπροσωπεύει την πιθανότητα το χαρακτηριστικό X να πάρει την τιμή x δεδομένης της κλάσης c. Για τα συνεχή χαρακτηριστικά, θεωρείται ότι οι τιμές ακολουθούν μια πιθανοτική κατανομή (ξεχωριστή για κάθε χαρακτηριστικό), η οποία προσεγγίζεται από τα διανύσματα εκπαίδευσης. Η πιο συνηθισμένη θεώρηση είναι οι τιμές των χαρακτηριστικών να είναι κανονικά κατανεμημένες. Οπότε για συνεχή χαρακτηριστικά ισχύει: 2 ( x) 2 2 p( X x C c) g( x ;, ), c, c 1 όπου, g( x;, ) e η συνάρτηση πυκνότητας πιθανότητας μια κανονικής 2 (Gaussan) κατανομής. Το παραπάνω μοντέλο αφήνει ένα μικρό αριθμό παραμέτρων που θα εκτιμηθούν από το σώμα εκπαίδευσης. Για κάθε κλάση και για κάθε διακριτό χαρακτηριστικό χρειάζεται να να γίναι εκτίμιση της πιθανότητας το χαρακτηριστικό να πάρει κάθε τιμή από τις δυνατές διακριτές τιμές του, δεδομένης της κλάσης. Για κάθε κλάση και για κάθε συνεχές χαρακτηριστικό χρειάζεται ο υπολογισμός της μέσης τιμής και της τυπικής απόκλισης της κατανομής που ακολουθούν οι τιμές του χαρακτηριστικού, δεδομένης της κλάσης. Τέλος, ο ταξινομητής είναι σε θέση να υπολογίσει τις πιθανότητες p( C x) και p( C x) για ένα άγνωστο στιγμιότυπο x και να το ταξινομήσει στην κλάση που έχει την μεγαλύτερη εκ των υστέρων πιθανότητα. 2.2.2 Δέντρα Απόφασης - Αλγόριθμος C4.5 (J48) Πολύ σημαντικοί αλγορίθμους μηχανικής μάθησης είναι και οι αλγόριθμοι επαγωγικής κατασκευής δένδρων απόφασης, λόγω της παραστατικής μορφής των μοντέλων που παράγουν, η οποία δεν χρειάζεται να αποδοθεί με κάποιο διαφορετικό τρόπο για να γίνει κατανοητή. Οι σημαντικότεροι εκπρόσωποι της κατηγορίας αυτής είναι ο ID3 [Qu86] και οι διάδοχοί του, C4.5 [Qu93] και C5.0. Στην ενότητα αυτή, περιγράφεται ο αλγόριθμο C4.5, ο οποίος χρησιμοποιήθηκε στο πειραματικό μέρος της εργασίας και συγκεκριμένα ο J48 ταξινομητής. Ο ταξινομητής αυτός αποτελεί μια υλοποίηση του Weka για τον αλγόριθμο ταξινόμησης C4.5, ο οποίος με τη σειρά του βασίζεται στον αλγόριθμο ID3, και ταξινομεί τα δεδομένα δημιουργώντας δέντρα απόφασης (decson trees). Η στρατηγική που ακολουθεί ο C4.5 για την κατασκευή ενός δένδρου από την παρατήρηση των στιγμιότυπων εκπαίδευσης, μπορεί να εκφραστεί, αναδρομικά, ως εξής: Αρχικά επιλέγεται το καλύτερο χαρακτηριστικό για να χρησιμοποιηθεί ως ρίζα του δένδρου. 21

Για κάθε διαφορετική τιμή του δημιουργείται ένας απόγονος του κόμβου-ρίζα, στον οποίο αντιστοιχούνται όλα τα στιγμιότυπα του σώματος εκπαίδευσης που έχουν τη συγκεκριμένη τιμή του χαρακτηριστικού αυτού. Η διαδικασία αυτή επαναλαμβάνεται αναδρομικά, για κάθε απόγονο του αρχικού κόμβου, περιορίζοντας το εξεταζόμενο υποσύνολο εκπαίδευσης στα στιγμιότυπα που έχουν αντιστοιχηθεί στον κόμβο αυτό. Ο τερματισμός γίνεται με την εκπλήρωση μιας από των δύο παρακάτω συνθηκών: o o Όλα τα στιγμιότυπα του τρέχοντος κόμβου ανήκουν στην ίδια κλάση. Όλα τα χαρακτηριστικά έχουν χρησιμοποιηθεί. Μεγάλη βαρύτητα στην κατασκευή ενός δένδρου απόφασης, και κατ επέκταση και στην απόδοσή του, δίνεται στην επιλογή του κατάλληλου χαρακτηριστικού που θα πρέπει να χρησιμοποιηθεί σε κάθε κόμβο, με σκοπό να εξασφαλίσει την αποτελεσματικότερη διαίρεση του χώρου του προβλήματος σε περιοχές. Το μέτρο που χρησιμοποιείται συνήθως για την αξιολόγηση των χαρακτηριστικών σε κάθε κόμβο ονομάζεται Πληροφοριακό Κέρδος (Informaton Gan IG). Για τον ορισμό του πληροφοριακού κέρδους, γίνεται αναφορά σε ένα μέτρο που χρησιμοποιείται στην Θεωρία Πληροφορίας, την Εντροπία (Entropy), η οποία χαρακτηρίζει την καθαρότητα σε πληροφοριακό περιεχόμενο ενός σώματος στιγμιότυπων. Συγκεκριμένα, θεωρώντας ένα τυχαίο σώμα στιγμιότυπων S του προβλήματος, καθώς και μια συνάρτηση στόχου f με πεδίο ορισμού το διανυσματικό χώρο που ορίζουν τα χαρακτηριστικά του προβλήματος και σύνολο τιμών ένα σύνολο κλάσεων C, με πληθικότητα C = c > 1, ορίζεται εντροπία του σώματος S, η μέση ποσότητα πληροφορίας ανά κλάση, η οποία δίνεται από την παρακάτω σχέση: Entropy( S) p log 2 p (2.5) όπου p το πλήθος των διανυσμάτων του S που ανήκουν στην κλάση προς την πληθικότητα του S. Η εντροπία εκφράζει τον ελάχιστο αριθμό bts που απαιτούνται για την κωδικοποίηση μιας κλάσης στην οποία ταξινομείται ένα τυχαίο στιγμιότυπο του S. Έχοντας οριστεί το μέτρο της εντροπίας για ένα πρόβλημα κατηγοριοποίησης, το Κέρδος Πληροφορίας αντιστοιχεί στη μείωση της εντροπίας και εκφράζει το αποτέλεσμα της υποδιαίρεσης ενός σώματος στιγμιότυπων, μέσω της χρήσης ενός συγκεκριμένου χαρακτηριστικού, έστω Α. Πιο τυπικά : το Κέρδος Πληροφορίας, IG(S, A) ενός χαρακτηριστικού Α σε σχέση με ένα σώμα στιγμιότυπων του προβλήματος S αποτελεί τη σχετική μείωση του πλήθους των bts που απαιτούνται για την κωδικοποίηση της τιμής της συνάρτησης στόχου ενός τυχαίου στιγμιότυπου του S, γνωρίζοντας εκ των προτέρων την τιμή του χαρακτηριστικού A. Αυτό εκφράζεται από την παρακάτω σχέση: S IG( S, A) Entropy( S) Entropy( S ) (2.6) S Values ( A) όπου Values(A), το σύνολο τιμών του χαρακτηριστικού A και Sv το υποσύνολο του S με στιγμιότυπα των οποίων οι τιμές του χαρακτηριστικού A είναι ίσες με v. Παράλληλα, ενώ οι ιδιότητες του IG το καθιστούν, φαινομενικά, ιδανικό ως μέτρο για την επιλογή του χαρακτηριστικού που διαχωρίζει το χώρο των στιγμιότυπων, κατά βέλτιστο τρόπο, σε κάθε εσωτερικό κόμβο του δένδρου, στην πράξη αυτό δεν ισχύει γιατί το IG έχει προδιάθεση 22

να επιλέγει χαρακτηριστικά με μεγάλο σύνολο τιμών, σε σχέση με άλλα χαρακτηριστικά τα οποία λαμβάνουν λιγότερες τιμές. Η επιλογή ενός τέτοιου χαρακτηριστικού μπορεί να είναι επικίνδυνη. Αυτό φαίνεται θεωρώντας ένα πρόβλημα ταξινόμησης, στο οποίο τα στιγμιότυπα προσδιορίζονται μοναδικά από την τιμή ενός χαρακτηριστικού, έστω του ID. Τότε κατά το σχηματισμό του δένδρου απόφασης, το χαρακτηριστικό αυτό θα έχει τη μεγαλύτερη τιμή του IG, αφού θα διαχωρίσει το σώμα εκπαίδευσης σε ισάριθμα σύνολα στιγμιότυπων, με την εντροπία καθενός από αυτά ίση με μηδέν. Η παραγωγή ενός τέτοιου δένδρου (βάθος 1 και παράγοντα διακλάδωσης ίσο με τα στιγμιότυπα εκπαίδευσης) δεν εξυπηρετεί κανένα σκοπό, γιατι στερείται της απαιτούμενης ικανότητας γενίκευσης, η οποία θα του επέτρεπε την σωστή ταξινόμηση ενός άγνωστου στιγμιότυπου. Την αδυναμία αυτή του IG καλύπτει ο Λόγος του Κέρδους Πληροφορίας (Informaton Gan Rato GR) [Qu86], ο οποίος υιοθετεί το μέτρο της Πληροφορίας Διαχωρισμού (Splt Informaton - SI), με σκοπό να αποθαρρύνει την επιλογή χαρακτηριστικών που παραπλανούν, λόγω του μεγάλου κέρδους πληροφορίας τους, τείνοντας έτσι να δημιουργήσουν δένδρα με μεγάλο παράγοντα διακλάδωσης. Συγκεκριμένα, το μέτρο της Πληροφορίας Διαχωρισμού αποτελεί ένδειξη της ευρύτητας και της ομοιομορφίας του διαχωρισμού του σώματος εκπαίδευσης S που επιτυγχάνει ένα χαρακτηριστικό Α. Το μέτρο αυτό αντιστοιχεί στην εντροπία του S, σύμφωνα με τις τιμές του A και εκφράζεται από τη σχέση: A S S SI( S, A) log 2 (2.7) S S όπου S τα υποσύνολα του S που παίρνουν την τιμή για το χαρακτηριστικό A. Με βάση το παραπάνω, ο Λόγος του Κέρδους Πληροφορίας ορίζεται ως εξής: 1 IG( S, A) GR( S, A) (2.8) SI( S, A) Το μέτρο του Λόγου του Κέρδους Πληροφορίας πραγματοποιεί αποτελεσματική διαμέριση του χώρου, στην περίπτωση που η πληθικότητα των υποσύνολων S διαφέρει μεταξύ τους. Σε άλλη περίπτωση, η τιμή του S γίνεται πολύ μικρή με αποτέλεσμα το GR να γίνεται απροσδιόριστο ή l πολύ μεγάλο. Μια ευριστική μέθοδος, η οποία μειώνει την ενέργεια αυτή, υπολογίζει το GR των χαρακτηριστικών εκείνων των οποίων η τιμή του IG είναι μεγαλύτερη της μέσης τιμής του μέτρου αυτού για όλα τα χαρακτηριστικά. Η μοντελοποίηση του αλγορίθμου αυτού, προϋποθέτει τη χρήση διακριτών χαρακτηριστικών. Ο αλγόριθμος C4.5 και οι επεκτάσεις του έχουν όμως τη δυνατότητα να διαχειριστούν και συνεχή χαρακτηριστικά, εφαρμόζοντας στην αρχή κάθε αναδρομικού βήματος μια διαδικασία μετατροπής τους σε ένα σύνολο διακριτών λογικών (Boolean) χαρακτηριστικών, η οποία λέγεται Διακριτοποίηση (Dscretzaton). Η διαδικασία αυτή ξεκινά με την διάταξη των στιγμιότυπων του υποσυνόλου του σώματος εκπαίδευσης που πρόκειται να χρησιμοποιηθούν στο τρέχον βήμα κατά αύξουσα σειρά, βάσει της τιμής που έχουν για ένα συνεχές χαρακτηριστικό A. Με τον τρόπο αυτό εντοπίζονται όλα τα διαδοχικά στιγμιότυπα x, x, τα οποία ανήκουν σε διαφορετική μεταξύ τους κλάση. Η τιμή του k l A στο δεύτερο κατά σειρά στιγμιότυπο κάθε τέτοιου ζεύγους ανατίθεται σε ένα κατώφλι (threshold), t, j, με βάση το οποίο ορίζεται ένα λογικό χαρακτηριστικό A, j. Το νέο 23

χαρακτηριστικό παίρνει την τιμή 1 αν η τιμή του αρχικού A υπερβαίνει την τιμή του κατωφλίου t, j, αλλιώς η τιμή του είναι 0. Έτσι το χαρακτηριστικό A αντικαθίσταται από ένα σύνολο λογικών χαρακτηριστικών A, 1, A, 2,, A, m με αντίστοιχα κατώφλια. Ο αλγόριθμος στη συνέχεια εξελίσσεται όπως περιγράφηκε προηγουμένως, αναζητώντας το χαρακτηριστικό A, με το μεγαλύτερο GR, για τη δημιουργία του νέου εσωτερικού κόμβου και τον παραπέρα διαχωρισμό του σώματος εκπαίδευσης. Για την αποφυγή του φαινομένου του υπερταιριάσματος στα δεδομένα εκπαίδευσης, το οποίο συνδέεται άμεσα με το βάθος ανάπτυξης του δένδρου ο C4.5 χρησιμοποιεί τη μέθοδο η οποία ονομάζεται Κλάδεμα (prunng) και πραγματοποιεί κλάδεμα του δένδρου, αφού αυτό έχει φθάσει ήδη στην πλήρη ανάπτυξή του. Δύο γνωστές προσεγγίσεις για κλάδεμα είναι οι εξής: της Αντικατάστασης Υποδένδρου (Subtree Replacement) και της Ανύψωσης Υποδένδρου (Subtree Rasng), όπως φαίνεται παρακάτω: Σε κάθε κόμβο του δένδρου, ο αλγόριθμος καλείται να αποφασίσει αν θα αφήσει το υποδένδρο που ξεκινά απ αυτόν όπως είναι, ή αν θα το αντικαταστήσει με έναν κόμβο φύλλο (Αντικατάσταση Υποδένδρου) ή αν θα τον αντικαταστήσει με κάποιο από τους άμεσους απογόνους του, αναδιατάσσοντας τα στιγμιότυπα του αρχικού υποδένδρου στο νέο δέντρο που δημιουργήθηκε (Ανύψωση Υποδένδρου). Τέλος, σε κάθε περίπτωση γενικότερα, απαιτείται ο προσδιορισμός του αναμενόμενου σφάλματος ταξινόμησης που πιθανόν να οδηγήσει κάθε μια από τις τρεις αποφάσεις. Μια τεχνική που εφαρμόζεται για αυτό το σκοπό, είναι το Κλάδεμα Μειωμένου Σφάλματος (Reduced Error Prunng), το οποίο προϋποθέτει τη χρήση ενός μέρους του σώματος εκπαίδευσης αποκλειστικά για τη διεξαγωγή του παραπάνω ελέγχου, με το τίμημα, όμως, το δένδρο το οποίο θα αναπτυχθεί τελικά, να βασίζεται σε λιγότερα δεδομένα εκπαίδευσης. Ενώ υπάρχουν και άλλες εναλλακτικές προσεγγίσεις οι οποίες κάνουν χρήση στατιστικών μεθόδων [Mt97], [Wt+Fr00]. 2.2.3 Αλγόριθμος k κοντινότερων γειτόνων (k- Nearest Neghbor, k-nn) Σε αντίθεση με τις άλλες μεθόδους μηχανικής μάθησης οι οποίες κωδικοποιούν τα παραδείγματα εκπαίδευσης σε μία συμπαγή περιγραφή, στη μάθηση βασισμένη σε παραδείγματα (nstance-based learnng) τα δεδομένα εκπαίδευσης διατηρούνται αυτούσια [Βλαχάβας 02]. Όταν ένα τέτοιο σύστημα κληθεί να αποφασίσει για μια νέα περίπτωση, εξετάζει τη σχέση της με τις ήδη αποθηκευμένες περιπτώσεις. Χαρακτηριστικός αλγόριθμος αυτής της κατηγορίας είναι ο αλγόριθμος των k-κοντινότερων γειτόνων (k-nearest Neghbor), στον οποίο γίνεται η παραδοχή ότι τα διάφορα συμβάντα-παραδείγματα μπορούν να αναπαρασταθούν ως σημεία με θετικό ή αρνητικό χαρακτηρισμό σε κάποιο Ευκλείδειο χώρο με διαστάσεις, οι οποίες σχετίζονται με τις παραμέτρους εισόδου του προβλήματος. Κάθε νέα περίπτωση τοποθετείται στο χώρο αυτό ως ένα νέο σημείο και χαρακτηρίζεται ως θετικό ή αρνητικό παράδειγμα με βάση το χαρακτηρισμό των k γειτονικών σημείων. Η βασική ιδέα του k-nn είναι ότι κατά τη διάρκεια της εκπαίδευσης ο αλγόριθμος αποθηκεύει τα διανύσματα των αντικειμένων του συνόλου εκπαίδευσης και στη συνέχεια για κάθε αντικείμενο του συνόλου ελέγχου υπολογίζεται η απόσταση του διανύσματός του από τα διανύσματα όλων των αντικειμένων του συνόλου εκπαίδευσης. Τέλος επιλέγονται τα k αντικείμενα εκπαίδευσης που έχουν τις μικρότερες αποστάσεις από το εξεταζόμενο αντικείμενο, το οποίο κατατάσσεται στην κατηγορία η οποία πλειοψηφεί μεταξύ των k γειτόνων. Σημαντικό ρόλο για την καλύτερη απόδοση του αλγορίθμου παίζει και η επιλογή της τιμής του k. Συνήθως, μία τιμή μεταξύ του 5 και του 10 δίνει πολύ καλά αποτελέσματα για δεδομένα με λίγες j 24

διαστάσεις, ενώ μία καλή τεχνική για τον καθορισμό του k είναι η διασταυρωμένη επικύρωση. Για την εύρεση των k κοντινότερων γειτόνων πρέπει να ορισθεί κατάλληλα ένα μέτρο απόστασης. Ο κάθε χρήστης μπορεί να προσθέσει τα δικά του μέτρα απόστασης, ανάλογα με το είδος της εργασίας. Τέτοια μέτρα είναι η ευκλείδεια απόσταση, η απόσταση Hammng, η απόσταση Mahalanobs ή τέλος η απόσταση Manhattan. Πολύ σημαντικό πλεονέκτημα του k-nn αλγορίθμου αποτελεί το γεγονός ότι μπορεί να μάθει κάθε είδους συνάρτηση και δεν περιορίζεται μόνο σε γραμμικούς διαχωριστές. Τα κύρια χαρακτηριστικά του αλγορίθμου αυτού περιγράφονται παρακάτω. Το πιο συνηθισμένο μέτρο που χρησιμοποιείται για τον προσδιορισμό της απόστασης αντικειμένων είναι το μέτρο επικάλυψης (Overlap metrc) που περιγράφεται από τις δύο παρακάτω σχέσεις : n ( X, Y) ( x, y ) 1 (2.9) x y abs max mn ( x, y ) 0 1 αν αριθμητικές τιμές, αλλιώς αν αν x y x y (2.10) Στις σχέσεις αυτές ( X, Y ) είναι η απόσταση μεταξύ των αντικειμένων X και Y, όπου το καθένα έχει n ιδιότητες, και x, y ) είναι η απόσταση για κάθε ιδιότητα. Η απόσταση μεταξύ ( δύο αντικειμένων είναι το άθροισμα των διαφορών ανάμεσα στις ιδιότητες. Ο αλγόριθμος που χρησιμοποιεί το συγκεκριμένο μέτρο και είναι η απλούστερη μορφή του k-nn είναι ο IB1 [AhK91]. Το μέτρο επικάλυψης έχει το μειονέκτημα ότι περιορίζεται στο ακριβές ταίριασμα μεταξύ των τιμών των συμβολικών ιδιοτήτων, το οποίο σημαίνει ότι όλες οι δυνατές τιμές που μπορεί να πάρει μία ιδιότητα διαφέρουν το ίδιο μεταξύ τους. Αυτό όμως επειδή δεν ισχύει πάντα οι Stanfll και Waltz όρισαν ένα μέτρο [StWa86] το οποίο βελτιώθηκε από τους Cost και Salzberg [CoSa93] και ονομάζεται τροποποιημένο μέτρο διαφοράς τιμών (Modfed Value Dfference Metrc (MVDM)). Το μέτρο αυτό περιγράφεται από την παρακάτω σχέση: m 1, 2 ) P( C 1) P( C 2 ) 1 ( (2.11) Η σχέση αυτή μπορεί να χρησιμοποιηθεί και για αριθμητικές ιδιότητες, αλλά στις περισσότερες υλοποιήσεις χρησιμοποιείται το μέτρο επικάλυψης. Το μέτρο αυτό αποτελεί έναν τρόπο προσδιορισμού της ομοιότητας των τιμών μίας ιδιότητας εξετάζοντας τη συνύπαρξη των τιμών αυτών με τις κατηγορίες τους. Όταν χρησιμοποιείται το μέτρο επικάλυψης με μη αριθμητικές ιδιότητες, η απόσταση υπολογίζεται ως το άθροισμα των ιδιοτήτων στις οποίες τα αντικείμενα έχουν διαφορετικές τιμές. Αυτό κάνει πολλά παραδείγματα εκπαίδευσης να φαίνεται ότι ισαπέχουν από το υπό κατάταξη αντικείμενο, ενώ σε κάποια από αυτά τα παραδείγματα εκπαίδευσης οι διαφορές στις τιμές των ιδιοτήτων από το υπό κατάταξη αντικείμενο μπορεί να είναι πιο σημαντικές από ότι σε άλλα. 25

Με το MVDM, οι αποστάσεις προσδιορίζουν καλύτερα τις ουσιώδεις διαφορές μεταξύ των αντικειμένων και είναι πιο δύσκολο να βρεθούν πολλά παραδείγματα εκπαίδευσης στην ίδια απόσταση από το υπό κατάταξη αντικείμενο, κάτι το οποίο κάνει ευκολότερη την επιλογή των k κοντινότερων γειτόνων. Το μέτρο απόστασης της σχέσης (2.9) δίνει ίση βαρύτητα σε όλες τις ιδιότητες. Αυτή η επιλογή είναι λογική εφόσον όλες οι ιδιότητες είναι εξίσου σημαντικές. Διαφορετικά ορίζουμε βάρη για τις ιδιότητες, τα οποία προσδιορίζουν το πόσο χρήσιμες είναι οι διάφορες ιδιότητες για την πρόβλεψη της κατηγορίας ενός νέου αντικείμενου. Η Θεωρία Πληροφορίας μας παρέχει ένα τέτοιο εργαλείο, το πληροφοριακό κέρδος [Qu86]. Το πληροφοριακό κέρδος (nformaton gan) εξετάζει κάθε ιδιότητα ξεχωριστά και μετράει την ποσότητα της πληροφορίας που συμβάλει στην εύρεση τη σωστής κατηγορίας. Το πληροφοριακό κέρδος της -οστής ιδιότητας μετριέται υπολογίζοντας την μείωση της αβεβαιότητας για τη σωστή κατηγορία που προκαλεί η γνώση της τιμής αυτής της ιδιότητας: w H( C) P( ) H( C ) (2.12) V Στην παραπάνω σχέση με C συμβολίζουμε το σύνολο των κατηγοριών, με V το σύνολο των τιμών της -οστής ιδιότητας, H(C) είναι η εντροπία των κατηγοριών και H(C v) η εντροπία των κατηγοριών, αν η τιμή της ιδιότητας είναι v, όπως φαίνεται στις δύο παρακάτω σχέσεις: H ( C) P( c)log 2 P( c) (2.13) cc cc H ( C ) P( c )log 2 P( c ) (2.14) Οι πιθανότητες υπολογίζονται από τις σχετικές συχνότητες στο σύνολο εκπαίδευσης. Για ιδιότητες με αριθμητικές τιμές, πρέπει να γίνει ένα ενδιάμεσο βήμα καθώς είναι δύσκολο να εκτιμηθούν οι πιθανότητες για όλες τις δυνατές αριθμητικές τιμές. Για κάθε μία αριθμητική ιδιότητα, τα παραδείγματα εκπαίδευσης τοποθετούνται στον άξονα των πραγματικών αριθμών, σύμφωνα με τις τιμές που έχουν στη συγκεκριμένη ιδιότητα. Στη συνέχεια ο άξονας των πραγματικών αριθμών διαχωρίζεται σε διαστήματα, κάθε ένα από τα οποία περιέχει τον ίδιο αριθμό παραδειγμάτων εκπαίδευσης. Τέλος, τα παραδείγματα εκπαίδευσης σε κάθε ένα από αυτά τα διαστήματα χρησιμοποιούνται στον υπολογισμό του πληροφοριακού κέρδους σαν να έχουν όλα την ίδια τιμή. Αυτός ο διαχωρισμός είναι προσωρινός και δε χρησιμοποιείται στον υπολογισμό του μέτρου απόστασης. Οι τιμές που προκύπτουν από τον υπολογισμό του πληροφοριακού κέρδους ή της αναλογίας κέρδους μπορούν να χρησιμοποιηθούν ως βάρη κατά τον υπολογισμό του μέτρου απόστασης, όπως φαίνεται στην παρακάτω σχέση. Ο αλγόριθμος k-nn που χρησιμοποιεί αυτό το μέτρο απόστασης ονομάζεται στο TMBL IB1-IG [DaBo92]. n ( X, Y) w ( x, y ) (2.15) Η πιο συνηθισμένη μέθοδος ψηφοφορίας των k κοντινότερων γειτόνων για να αποφασίσουν την κατηγορία ενός νέου αντικειμένου είναι η ζυγισμένη ψήφος με βάση την απόσταση (Dstanceweghted class votng), κατά την οποία η ψήφος κάθε γείτονα έχει την ίδια βαρύτητα. Το νέο αντικείμενο κατατάσσεται στην κατηγορία που θα πάρει τις περισσότερες ψήφους. 1 26

Όταν χρησιμοποιείται η μέθοδος της πλειοψηφίας, είναι πολύ πιθανό να υπάρξουν ισοπαλίες μεταξύ δύο ή περισσοτέρων κατηγοριών. Το φαινόμενο αυτό είναι εντονότερο όταν δε χρησιμοποιούνται ζυγισμένες ψήφοι. Για παράδειγμα αν έχουμε ένα σύνολο δέκα κοντινότερων γειτόνων, μπορεί πέντε να ψηφίσουν για την κατηγορία Α και πέντε για την κατηγορία Β. Μία μέθοδος για την αντιμετώπιση ισοπαλιών (te breakng) είναι η ακόλουθη: Αρχικά, αυξάνεται το k κατά ένα και πραγματοποιείται νέα ψηφοφορία από το καινούριο σύνολο κοντινότερων γειτόνων. Αν η ισοπαλία παραμένει, επιλέγεται από τις υποψήφιες κατηγορίες αυτή με τα περισσότερες εμφανίσεις στο σύνολο εκπαίδευσης. Αν υπάρχουν περισσότερες από μία τέτοιες κατηγορίες, τότε επιλέγεται τυχαία μία από αυτές. Εναλλακτικά, η αντιμετώπιση ισοπαλιών μπορεί να γίνει με τυχαία επιλογή από τις ισόπαλες κατηγορίες, με την προϋπόθεση κάθε κατηγορία να έχει πιθανότητα επιλογής ανάλογη της συχνότητάς της στο σύνολο εκπαίδευσης. Τέλος στην περίπτωση που έχουμε μόνο δύο κατηγορίες μπορούμε απλά να επιλέξουμε περιττή τιμή για το k, οπότε και δε θα υπάρξουν ποτέ ισοπαλίες. 2.2.4 Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machnes, SVMs) Οι Μηχανές Διανυσμάτων Υποστήριξης (ΜΔΥ, Support Vector Machnes, SVMs) είναι ένας αλγόριθμος μηχανικής μάθησης ο οποίος στηρίζεται στη Θεωρία Στατιστικής Μάθησης (Statstcal Learnng Theory) και στα νευρωνικά δίκτυα τύπου Perceptron. Προτάθηκε από τον Vladmr Vapnk [Vap95] και τους συνεργάτες του το 1995. Οι ΜΔΥ [Vla04] [SBS98] αποτελούν συγγενή των νευρωνικών δικτύων και αντιμετωπίζουν το πρόβλημα της κατηγοριοποίησης επιλέγοντας τα διανύσματα υποστήριξης (support vectors) τα οποία συνορεύουν στο χώρο του προβλήματος με δεδομένα άλλων κλάσεων. Με βάση τα επιλεγμένα αυτά, τα δεδομένα χρησιμοποιούνται για την κατασκευή μιας γραμμικής συνάρτησης διάκρισης (dscrmnant functon), με σκοπό να τα διαχωρίσει όσο το δυνατόν περισσότερο. Στην απλή περίπτωση των 2 διαστάσεων ο αλγόριθμος θα προσπαθήσει να βρει το βέλτιστο υπερεπίπεδο μίας διάστασης, δηλαδή μία γραμμή. Στην περίπτωση της ταξινόμησης, οι Μ Υ ψάχνουν μια υπερεπιφάνεια (hypersurface) η οποία θα διαχωρίζει τα αρνητικά από τα θετικά παραδείγματα-δεδομένα στο χώρο των παραδειγμάτων. Η υπερεπιφάνεια αυτή επιλέγεται έτσι ώστε να απέχει όσο το δυνατόν περισσότερο από τα κοντινότερα θετικά και αρνητικά παραδείγματα (maxmum margn hypersurface). Οι μηχανές διανυσμάτων υποστήριξης έχουν πολλές σημαντικές ιδιότητες που άλλοι αλγόριθμοι μάθησης δεν έχουν, όπως η μεγιστοποίηση του περιθωρίου (maxmzaton of margn) και ο μη γραμμικός μετασχηματισμός του χώρου εισόδου (nput space) στο χώρο των χαρακτηριστικών (feature space) χρησιμοποιώντας μεθόδους πυρήνων (kernel methods). Στο Σχήμα 3.1 φαίνεται ένα παράδειγμα ενός απλού δισδιάστατου προβλήματος που είναι γραμμικά διαχωρίσιμο. Κάθε χαρακτηριστικό αντιστοιχεί σε μια διάσταση στο χώρο των χαρακτηριστικών και η απόσταση ενός σημείου δεδομένου από το υπερεπίπεδο καθορίζεται από την ισχύ κάθε χαρακτηριστικού του δεδομένου. Οι ΜΔΥ χρησιμοποιούνται ιδιαίτερα για την επίλυση προβλημάτων μάθησης που δεν μπορούν να αντιμετωπιστούν με γραμμικά μοντέλα, επειδή μπορούν να παράγουν μη γραμμικές επιφάνειες απόφασης. Ένα ακόμα πλεονέκτημα των ΜΔΥ είναι η ικανότητά τους να χειρίζονται πολύ μεγάλους χώρους χαρακτηριστικών. Για τα προβλήματα τα οποία δεν είναι γραμμικά διαχωρίσιμα, μπορούν να χρησιμοποιηθούν μέθοδοι πυρήνων που μετασχηματίζουν ένα μη γραμμικό χώρο εισόδου σε ένα γραμμικό χώρο χαρακτηριστικών (βλ. Σχήμα 2.2). Επίσης, στις περιπτώσεις που τα σημεία δεν είναι γραμμικά διαχωρίσιμα, ο αλγόριθμος ΜΔΥ έχει μια παράμετρο (C), η οποία επηρεάζει το πλήθος των δεδομένων εκπαίδευσης που θα βρίσκονται στη λάθος μεριά του υπερεπιπέδου. 27

Σημαντική επίσης είναι και η ανεκτικότητα που παρουσιάζουν οι αλγόριθμοι αυτοί όσον αφορά στο πλήθος των στιγμιότυπων εκπαίδευσης, ιδιαίτερα όταν αυτό διαφέρει μεταξύ των δύο κλάσεων. Αυτό γιατί οι ΜΔΥ δεν επιδιώκουν να ελαχιστοποιήσουν το σφάλμα των δεδομένων εκπαίδευσης, αλλά να τα διαχωρίσουν αποτελεσματικά σε ένα χώρο μεγάλης διάστασης. Στη συνέχεια αναπτύσσονται τα βασικά σημεία της θεωρίας των γραμμικών ΜΔΥ στην περίπτωση ενός προβλήματος ταξινόμησης δύο κλάσεων. Σύμφωνα με το μοντέλο της διανυσματικής αναπαράστασης του χώρου του προβλήματος, θεωρείται ένα σύνολο l παρατηρήσεων, όπου κάθε μία από τις παρατηρήσεις αποτελείται από το n ζεύγος ενός διανύσματος x R, =1,...l και μιας τιμής y {-1,1} που αντιστοιχεί στην κλάση στην οποία ανήκει το -οστό στιγμιότυπο. Έστω ότι υπάρχει ένα υπερεπίπεδο Η το οποίο διαχωρίζει τα αρνητικά από τα θετικά στιγμιότυπα. Τα διανύσματα x που βρίσκονται στο υπερεπίπεδο ικανοποιούν την εξίσωση w x b 0, όπου w το κανονικό διάνυσμα του Η,. το σύμβολο του εσωτερικού γινομένου, b / w η κατακόρυφη απόσταση της αρχής του συστήματος συντεταγμένων από το H και w η Ευκλείδεια νόρμα του w. Έστω d + ( d ) η κοντινότερη απόσταση του υπερεπιπέδου από το πλησιέστερο θετικό (αρνητικό) στιγμιότυπο, ορίζεται το περιθώριο (margn) ενός υπερεπιπέδου ως d + + d -. Στην περίπτωση των γραμμικά διαχωρίσιμων κλάσεων ο αλγόριθμος ψάχνει το υπερεπίπεδο με το μεγαλύτερο περιθώριο. Έστω ότι όλα τα δεδομένα εκπαίδευσης ικανοποιούν τους παρακάτω περιορισμούς: w x w x b 1, αν y 1 (2.16) b 1, αν y 1 (2.17) οι οποίοι εκφράζονται ισοδύναμα και ως εξής: y ( w x b) 1 0 (2.18) Θεωρούνται τα διανύσματα εκπαίδευσης που ικανοποιούν την ισότητα της σχέσης (2.17). Αυτά θα βρίσκονται στο υπερεπίπεδο Η 1 : w x b 1, με w το κανονικό του διάνυσμα και με 1 b / w την κατακόρυφη απόσταση της αρχής του συστήματος συντεταγμένων από το Η 1. Ομοίως, τα σημεία που ικανοποιούν την ισότητα της (2.17) θα βρίσκονται στο υπερεπίπεδο Η 2 : w x b 1, με w το κανονικό του διάνυσμα και με b w 1 / την κατακόρυφη απόσταση της αρχής του συστήματος συντεταγμένων από το Η 2. Επομένως ισχύει d d 1/ w και το περιθώριο είναι 2 / w. Τα Η 1 και Η 2 είναι παράλληλα και δεν υπάρχουν διανύσματα εκπαίδευσης που να βρίσκονται μεταξύ τους. Επομένως μπορεί να βρεθεί το ζεύγος των υπερεπιπέδων που δίνουν το μέγιστο περιθώριο 2 ελαχιστοποιώντας το w, σύμφωνα με τους περιορισμούς της σχέσης (2.18). Τα στιγμιότυπα εκπαίδευσης που ικανοποιούν την εξίσωση (2.18), δηλαδή εκείνα που βρίσκονται πάνω σε κάποιο από τα υπερεπίπεδα H 1, H 2 και τα οποία καθορίζουν τη μορφή της λύσης, ονομάζονται 28

διανύσματα εκπαίδευσης (support vectors). Η μορφή της λύσης στην περίπτωση των γραμμικά διαχωρίσιμων κλάσεων φαίνεται στο (Σχήμα 2.1). Σχήμα 2-1: Γραμμικώς διαχωριζόμενα υπερεπίπεδα [Sch06]. Αποδεικνύεται ([Vap95],[Bur98]) ότι η ελαχιστοποίηση της νόρμας του διανύσματος w επιτυγχάνεται μεγιστοποιώντας την Lagrangan: L D a 1 aa j ( x x j ) y y 2 j j (2.19) όπου a 0, = 1,...,l θετικοί πολλαπλασιαστές Lagrange που πληρούν τον περιορισμό a 0 (δυαδικό πρόβλημα Wolfe). Η λύση δίνεται από την σχέση: y w a y x (2.20) Τα σημεία για τα οποία ισχύει αυστηρά a > 0 είναι τα διανύσματα υποστήριξης. Μετά τον υπολογισμό των διανυσμάτων υποστήριξης κατά την εκπαίδευση του αλγορίθμου, έστω r στον αριθμό, η ταξινόμηση ενός άγνωστου στιγμιότυπου x συνίσταται στον υπολογισμό του πρόσημου της συνάρτησης απόφασης (decson functon): f ( x ) w x b (2.21) Στις περιπτώσεις όπου η υπόθεση της γραμμικής διαχωρισιμότητας των κλάσεων δεν ισχύει, αναθεωρείται η αυστηρότητα της απαίτησης για τον πλήρη διαχωρισμό των κατηγοριών, επιτρέποντας έτσι τη λανθασμένη κατηγοριοποίηση κάποιων από τα δεδομένα εκπαίδευσης, όπως φαίνεται στο (Σχήμα 2.2). 29

Σχήμα 2-2: Μη γραμμικά διαχωρίσιμες κατηγορίες. Με σκοπό τη μείωση της ισχύς των περιορισμούς (2.16) και (2.17) εισάγουμε τις θετικές μεταβλητές, 1,..., l ώστε να λάβουν τελικά την παρακάτω μορφή: x w b 1 για y = +1 (2.22) x w b 1 για y = -1 (2.23) Η λύση ανάγεται και πάλι στη μεγιστοποίηση της συνάρτησης Lagrangan (2.19) με βάση τους περιορισμούς a 0 και 0 a C, όπου C μια παράμετρος κόστους που καθορίζει την y ισορροπία ανάμεσα στην ανοχή λανθασμένης κατηγοριοποίησης των δεδομένων εκπαίδευσης και N της απαίτησης αυστηρού περιθωρίου. Η λύση δίνεται από την S w a y x, όπου NS ο αριθμός των διανυσμάτων υποστήριξης. Η μόνη διαφορά από την περίπτωση της γραμμικής διαχωρισιμότητας είναι ότι τα a έχουν ως άνω όριο τη C. Η επιλογή της C στην περίπτωση που δεν ισχύει η γραμμική διαχωρισιμότητα είναι καθοριστικής σημασίας, για το γεγονός ότι όσο μεγαλύτερη είναι η τιμή της τόσο πιο αυστηρό είναι, το επαγόμενο μοντέλο, στον προσδιορισμό ενός υπερεπιπέδου ικανού να διαχωρίσει σωστά την πλειοψηφία των διανυσμάτων εκπαίδευσης. Επίσης, μεγάλες τιμές της C, σε συνδυασμό με άλλες παραμέτρους, μπορεί να προκαλέσουν το φαινόμενο του υπερταιριάσματος (overfttng). Κάτι τέτοιο έχει σαν αποτέλεσμα να μην μπορεί να γίνει καλή γενίκευση του μοντέλου όταν συμπεριληφθούν νέα δεδομένα. Αντίθετα πολύ μικρές τιμές της C θα μπορούσαν, επίσης, να οδηγήσουν σε υποταίριασμα (underfttng), όπως φαίνεται στο Σχήμα 2.3 Σημειώνεται ότι οι ταξινομητές ΜΔΥ προσβάλλονται σπάνια από το φαινόμενο του υπερταιριάσματος, το οποίο είναι και ένα από τα σημαντικότερα πλεονεκτήματά τους. 1 30

Σχήμα 2-3: Περιπτώσεις υπερ/υπο-ταιριάσματος και η μέση λύση. Οι παραπάνω μέθοδοι μπορούν να γενικευτούν για περιπτώσεις στις οποίες η συνάρτηση απόφασης δεν είναι γραμμική ως προς τα δεδομένα εκπαίδευσης, μετασχηματίζοντας το χώρο του προβλήματος σε έναν άλλο χώρο, μεγαλύτερης ή άπειρης διάστασης, ανάγοντας έτσι τη μη γραμμική επιφάνεια διάκρισης του αρχικού χώρου σε γραμμική. 2.2.5 Μετά-μάθηση (Ταξινομητές Boostng και Baggng) Όπως αναφέραμε και παραπάνω στην σύντομη περιγραφή των αλγορίθμων Μετά-Μάθησης, μέθοδοι για την επίλυση ενός προβλήματος μάθησης, οι οποίες συνδυάζουν ένα σύνολο ασθενών μοντέλων (weak learners), είναι η Προώθηση (Boostng), [FS95] και η μέθοδος Baggng. Οι δύο παραπάνω μέθοδοι εκμεταλλεύονται την αστάθεια που παρουσιάζουν διάφοροι αλγόριθμοι μηχανικής μάθησης, δηλαδή την ευαισθησία που παρουσιάζουν στις μικρές μεταβολές των δεδομένων εκπαίδευσης. Σκοπός αυτών των μεθόδων είναι η διαδοχική δημιουργία μοντέλων, τα οποία προέρχονται από τον ίδιο αλγόριθμο μάθησης, και είναι ικανά να αλληλοσυμπληρώνονται, δηλαδή το κάθε ένα μοντέλο αποδίδει τα μέγιστα σε ένα υποσύνολο του σώματος εκπαίδευσης, κάτι το οποίο τα υπόλοιπα μοντέλα δεν μπορούν να ανταποκριθούν αποτελεσματικά. Ο αλγόριθμος AdaBoost.M1 [FS95], ο οποίος αποτελεί τη βάση μιας κατηγόρίας αλγορίθμων προώθησης, αναθέτει στα στιγμιότυπα εκπαίδευσης ένα βάρος σύμφωνα με τη δυσκολία που παρουσιάζει το υπό εκμάθηση τρέχον μοντέλο στην ταξινόμησή του και κατ επέκταση και της βαρύτητας που θα πρέπει να δοθεί σε αυτό κατά την παραγωγή του επόμενου μοντέλου, με στόχο να αναγνωρισθεί σωστά από αυτό. Με τη χρήση του αλγόριθμου AdaBoost.M1, κατά την ταξινόμηση ενός άγνωστου στιγμιότυπου, κάθε ένα από τα παραγόμενα μοντέλα εκτελεί εκτίμηση της κλάσης του, η οποία συμμετέχει με διαφορετική βαρύτητα στην τελική απόφαση. Συγκεκριμένα, σε κάθε μοντέλο ανατίθεται ένας συντελεστής βαρύτητας, ο οποίος πολλαπλασιάζεται με την εκτίμηση του μοντέλου με σκοπό την τελική απόφαση της επιτροπής. Από τον τύπο του συντελεστή βαρύτητας φαίνεται επίσης η αναγκαιότητα της συνθήκης τερματισμού. Τέλος, ένα σημαντικό χαρακτηριστικό του αλγορίθμου της προώθησης είναι και το γεγονός ότι η εκτέλεση ενός αρκετά μεγάλου αριθμού επαναλήψεών τον οδηγεί σε πολύ καλά αποτελέσματα, 31

ακόμα και στην περίπτωση που το συνολικό σφάλμα του τελικού μοντέλου από τα δεδομένα εκπαίδευσης έχει ελαχιστοποιηθεί. Επίσης, είναι γεγονός και η ανθεκτικότητα που παρουσιάζει ο παραπάνω αλγόριθμος στο φαινόμενο του υπερταιριάσματος. 2.2.6 Το πρόβλημα του Class Imbalance Αν και στη περισσότερα συστήματα Μηχανικής μάθησης, πριν το σχεδιασμό τους, γίνεται η θεώρηση ότι τα δεδομένα εκπαίδευσης είναι εξισορροπημένο, δεν είναι απαραίτητα σωστή. Σε πολλά προβλήματα παρατηρείται το φαινόμενο μια κλάση, των δεδομένων εκπαίδευσης, να αναπαριστάται από ένα μεγάλο αριθμό παραδειγμάτων ενώ συγχρόνως οι άλλες κλάσεις αναπαρίστανται από λίγα μόνο παραδείγματα. Αυτή η ανισορροπία των κλάσεων (Class Imbalance) προκαλεί μείωση στην απόδοση των κλασικών ταξινομητών. Έχει παρατηρηθεί ότι με την εξισορρόπηση των κλάσεων ενός προβλήματος μηχανικής μάθησης η απόδοση αυξάνεται σημαντικά. Για το πρόβλημα της ανισορροπίας των κλάσεων υπάρχουν τρεις κατηγορίες διαδικασιών επίλυσης του: Μέθοδοι με τις οποίες, η κλάση που αναπαριστάται από μικρό αριθμό δεδομένων εκπαίδευσης επαναπροσδιορίζεται, αυξάνοντας τα δεδομένα, έτσι ώστε να ταιριάζει με το μέγεθος των άλλων κλάσεων. Μέθοδοι με τις οποίες, η κλάση που αναπαριστάται από μεγάλο αριθμό δεδομένων εκπαίδευσης επαναπροσδιορίζεται, μειώνοντας τα δεδομένα, έτσι ώστε να ταιριάζει με το μέγεθος των άλλων κλάσεων. Μέθοδοι οι οποίες κατά κύριο λόγο αγνοούν μια από τις δύο κλάσεις, εντελώς, χρησιμοποιώντας ένα επαγωγικό σχήμα βασισμένο στην αναγνώριση αντί στην ορθή κρίση. 2.3 Weka Δοκιμές Το Weka είναι ένα περιβάλλον ανάπτυξης εφαρμογών μηχανικής μάθησης και εξόρυξης γνώσης, το οποίο αναπτύχθηκε στο πανεπιστήμιο του Wakato στη Νέα Ζηλανδία. Είναι γραμμένο σε Java, έτσι ώστε να μπορεί να χρησιμοποιηθεί με όσο το δυνατόν περισσότερα λειτουργικά συστήματα, και διατίθεται ελεύθερα (συμπεριλαμβανομένου του πηγαίου κώδικα). Παρέχει ένα ευρύ σύνολο από υλοποιήσεις αλγορίθμων μηχανικής μάθησης (τόσο για κατηγοριοποίηση όσο και για συσταδοποίηση), καθώς και μηχανισμούς για προ-επεξεργασία δεδομένων και μετάεπεξεργασία αποτελεσμάτων. Ο χρήστης έχει τη δυνατότητα να χρησιμοποιήσει τις υλοποιήσεις των αλγορίθμων είτε από τη γραμμή εντολών είτε από το γραφικό περιβάλλον το οποίο προσφέρει το Weka, ενώ ο προγραμματιστής μπορεί να καλέσει τις υλοποιήσεις των αλγορίθμων από τα δικά του προγράμματα. Έτσι το Weka μπορεί να λειτουργήσει σαν μια βιβλιοθήκη υλοποιήσεων αλγορίθμων μηχανικής μάθησης, που μπορεί να χρησιμοποιηθεί για την δημιουργία νέων προγραμμάτων. Επίσης, καθώς παρέχει μια πλήρη βιβλιοθήκη με κώδικα για αξιολόγηση αποτελεσμάτων, μπορούν πολύ εύκολα να συγκριθούν νέες μέθοδοι με ήδη υπάρχουσες. 2.4 Μέτρα Εκτίμησης Επίδοσης Συστημάτων Για τον έλεγχο συστημάτων εξαγωγής πληροφορίας έχουν καθιερωθεί τα εξής δύο μεγέθη: Ανάκληση (Recall) και Ακρίβεια (Precson). Για την αξιολόγηση ενός συστήματος ανίχνευσης ορίων φράσεων χρησιμοποιούνται επίσης τα δύο παραπάνω μέτρα εκτίμησης επίδοσης συστημάτων τα οποία ορίζονται ως εξής: 32

Ανάκληση (Recall) ορίζεται ο λόγος του αριθμού των σωστά προσδιορισμένων φράσεων από το σύστημα προς τον αριθμό όλων των φράσεων του κειμένου. Ακρίβεια (Precson) ορίζεται ο λόγος του αριθμού των σωστά προσδιορισμένων φράσεων από το σύστημα προς τον αριθμό των συνολικών φράσεων που ανίχνευσε το σύστημα. Τις σωστά προσδιορισμένες φράσεις τις υπολογίζουμε συγκρίνοντας τα εξαγόμενα αποτελέσματα για ένα συγκεκριμένο σώμα κειμένων (corpus), που δείχνουν σε ποια φράση ανήκει η κάθε λέξη με αυτά που έχουμε υπολογίσει χειρονακτικά για το συγκεκριμένο σώμα κειμένου, τα οποία είναι και τα σωστά. Και οι δύο αυτές μετρικές υπολογίζονται σε πρώτη φάση για κάθε τύπο φράσης ξεχωριστά (π.χ. ρηματικές φράσεις) και ύστερα για το σύνολο των φράσεων. Όπως γίνεται αντιληπτό μπορεί για ένα είδος φράσεων να έχουμε πολύ καλά ποσοστά απόδοσης, ενώ συγχρόνως για κάποιο άλλο είδος να είναι χαμηλά, για το ίδιο πάντα σώμα κειμένων. Επιπλέον, η ακρίβεια και η ανάκτηση είναι αντιστρόφως ανάλογα ποσά. Στην πράξη οι δύο παραπάνω μετρικές δεν μπορούν να εκτιμηθούν χωριστά, καθώς παρέχουν μια αλληλοσυμπληρούμενη εικόνα της αποτελεσματικότητας ενός ταξινομητή. Μία μετρική που συνδυάζει την ανάκληση και την ακρίβεια είναι ο αρμονικός μέσος όρος F ανάκλησης και ακρίβειας που ορίζεται ως εξής: 2 recall precson F ( recall precson ) και ο οποίος επίσης υπολογίζεται για κάθε τύπο φράσης ξεχωριστά και για όλο το σύνολο των φράσεων συνολικά. 33

ΚΕΦΑΛΑΙΟ 3 - ΠΡΟΗΓΟΥΜΕΝΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ 3.1 Abney (1991) Parsng By Chunks Το text chunkng προτάθηκε για πρώτη φορά από τον Steven P. Abney το 1991 σαν ένα αξιόπιστο και χρήσιμο βήμα προεπεξεργασίας κειμένου πριν από την πλήρη συντακτική ανάλυση (full parsng). Ο Abney εισήγαγε πρώτος την έννοια του chunk, εμπνευσμένος μερικώς από τους Gee και Grosjean, οι οποίοι το 1983 εισήγαγαν την έννοια των δομών επίδοσης (performance structures) υποστηρίζοντας ότι υπάρχει ψυχολογική ένδειξη για την ύπαρξη των chunks. Οι Gee και Grosjean συνέδεσαν τις περιόδους παύσης κατά την ανάγνωση ενός κειμένου με απλές διαγραμματικές προτάσεις, τις οποίες και ονόμασαν προτάσεις μηδενικού επιπέδου ( -phrases), ομαδοποιώντας κατά αυτόν τον τρόπο το κείμενο. Ένα άλλο κίνητρο για τον Abney ήταν διαδικαστικό, βασισμένο στις υποθέσεις ότι η ταυτοποίηση των chunks μπορεί να γίνει δίκαια αξιόπιστη, με μεθόδους πεπερασμένων καταστάσεων (fnte state methods), αναβάλλοντας τις αποφάσεις που απαιτούν υψηλότερου επιπέδου ανάλυση για τη φάση της συντακτικής ανάλυσης (parsng), κατά την οποία γίνεται η επιλογή για το πως θα συνδυαστούν, τελικά, τα chunks [Abn91]. 3.2 Προσεγγίσεις για τα Νέα Ελληνικά Όσον αφορά στην Ελληνική γλώσσα, ο πρώτος που ασχολήθηκε ήταν ο Μίχος (1997). Δημιούργησε έναν αναλυτή για τα Νέα Ελληνικά ο οποίος προσδιορίζει τον τύπο των προτάσεων που αποτελούν μια περίοδο και τις φράσεις που αποτελούν την κάθε πρόταση με χρήση ενός συνόλου ευρετικών κανόνων. Η προσέγγιση αυτή απαιτεί πλήρη μορφολογική ανάλυση κάθε λέξης σε ένα κείμενο. Επίσης, το σύστημα αυτό δεν επιφέρει καμία χρήσιμη πληροφορία όταν το κείμενο περιέχει άγνωστες λέξεις ή λέξεις ιδιάζουσας σύνταξης. Η προσέγγιση αυτή παρουσίασε ακρίβεια της τάξης του 84%. Έπειτα ο Σταματάτος (2000) παρουσίασε έναν αναλυτή για τα Νέα Ελληνικά, προσφέροντας γρήγορη και αξιόπιστη ανάλυση μεγάλων όγκων κειμένου, με ελάχιστο υπολογιστικό κόστος. Η υφολογική πληροφορία, του μοντέλου αυτού, εξάγεται μέσω ανάλυσης του κειμένου από ένα υπολογιστικό εργαλείο ικανό να ανιχνεύει τα όρια των περιόδων και των φράσεων σε οποιοδήποτε κείμενο. Ο ανιχνευτής ορίων φράσεων βασίζεται σε ένα μικρό σύνολο λέξεων κλειδιών και στις καταλήξεις των λέξεων για να εκτιμήσει την πιο πιθανή μορφολογική περιγραφή της κάθε λέξης. Η διαδικασία της ανάλυσης έγινε μέσω τεχνικής πολλαπλού περάσματος και πέτυχε ανάκληση και ακρίβεια της τάξης του 90% και 95% αντίστοιχα. [Στα00] 3.3 Προσεγγίσεις βασισμένες σε Γραμματικές Μια εναλλακτική πρόταση στους συμβατικούς αναλυτές είναι οι επιφανειακοί αναλυτές (shallow parsers) οι οποίοι παρέχουν αναλύσεις που είναι λιγότερο πλήρεις. Ένας επιφανειακός αναλυτής αναγνωρίζει μερικές φραστικές δομές, όπως τις ονοματικές φράσεις, χωρίς να προσδιορίζει όμως την εσωτερική τους δομή και το ρόλο τους μέσα στην περίοδο. Πολλοί ερευνητές έχουν εφαρμόσει μεθόδους βασισμένες σε γραμματικές, συνδυάζοντας λεξικολογικά δεδομένα πεπερασμένων καταστάσεων ή άλλων γραμματολογικών περιορισμών ενώ άλλοι έχουν δουλέψει αποτελεσματικά εξάγοντας στατιστικά μοντέλα είτε κατευθείαν από τις λέξεις ή από προτάσεις με αυτόματα ορισμένα μέρη του λόγου. Το σύστημα LEXTER [Bou92] είναι ένας επιφανειακός συντακτικός αναλυτής που εξάγει ονοματικές φράσεις μέγιστου μήκους από Γαλλικά κείμενα για εφαρμογές αυτόματης εξαγωγής 34

ορολογίας (termnology acquston). Το σύστημα, αρχικά με τη χρήση ευριστικής ανάλυσης βρίσκει το μέγιστο μήκος των ονοματικών φράσεων και έπειτα με τη χρήση Γραμματικής εξάγει μονάδες ορολογίας. Γύρω στο 95% όλων των ονοματικών φράσεων μέγιστου μήκους αναγνωρίζεται σωστά. Ένα άλλο σύστημα εξαγωγής ονοματικών φράσεων μέγιστου μήκους είναι το Nptool [Vou93]. Το εργαλείο αυτό βασίζεται σε ένα χειροποίητο λεξικό και σε δύο αναλυτές πεπερασμένης κατάστασης (fnte state parsers), έναν εχθρικό και έναν φιλικό προς τις ονοματικές φράσεις, αντίστοιχα. Ο συνδυασμός των αναλυτών αυτών παράγει μία λίστα από αποδεκτές ονοματικές φράσεις, οι οποίες μπορούν να χρησιμοποιηθούν σε εφαρμογές εξαγωγής ορολογίας. Το σύστημα αξιολογήθηκε σε ένα σώμα κειμένων 20.000 λέξεων με κείμενα από διάφορους τομείς επιτυγχάνοντας ανάκληση και ακρίβεια της τάξης του 98,5-100% και 95-98% αντίστοιχα. 3.4 Προσεγγίσεις βασισμένες σε στατιστικά μοντέλα Ο Church το 1988 [Chu88] με τη χρήση στατιστικών μοντέλων προσδιόρισε τα όρια [brackets] απλών μη αναδρομικών ονοματικών φράσεων εκπαιδεύοντας το σύστημα βάσει του σώματος κειμένων του Brown. Για κάθε ζευγάρι POS tags t, t, η πιθανότητα να ξεκινά ή να τελειώνει μια ονοματική φράση μεταξύ των t και ανάκληση 98%. j j t μπορεί να υπολογιστεί. Το σύστημα αυτό έδωσε Την ίδια περίοδο ο Ejerhed [Eje88]συνεργαζόμενος με τον Church, εξέτασε τις αποδόσεις των μεθόδων πεπερασμένων καταστάσεων σε αντίθεση με τα στατιστικά μοντέλα του Church, με σκοπό την ταυτοποίηση των μη αναδρομικών προτάσεων και των μη αναδρομικών ονοματικών φράσεων σε ένα αγγλικό κείμενο. Στην πρώτη περίπτωση η ακρίβεια είναι 93,5% για προτάσεις και 98,6% για ονοματικές φράσεις, ενώ στη δεύτερη 87% για προτάσεις και 97,8% για ονοματικές φράσεις. Άλλη μια στοχαστική προσέγγιση στην αναγνώριση ορίων φράσεων περιγράφεται από τους Skut και Brants [SkBr98], οι οποίοι χρησιμοποίησαν μοντέλα Μαρκώφ και έναν σχολιαστή μέρους του λόγου (part-of-speech tagger). Πρόκειται επίσης για μερική συντακτική ανάλυση (partal parsng), όπου η αναγνώριση ορίων φράσεων έγινε για σύνθετες φράσεις NP, PP, ADVP και AP. Επηρεασμένοι από τον Church, οι Skut και Brants χρησιμοποίησαν στατιστικά μοντέλα για την αναγνώριση των ονοματικών φράσεων και για τα δεδομένα εκπαίδευσης χρησιμοποίησε το εξαρτώμενα προσανατολισμένο NEGRA Treebank πρότυπο σώματος κειμένων. 3.5 Ramshaw and Marcus (1995) Text chunkng usng Transorfmaton- Based Learnng Οι Ramshaw και Marcus [RM95] προσέγγισαν την ανίχνευση ορίων μη επικαλυπτόμενων φράσεων (Text chunkng) χρησιμοποιώντας μάθηση βασισμένη σε μετασχηματισμούς (Transformaton-based Learnng). Στην προσέγγιση αυτή απαραίτητη ήταν η προεπεξεργασία με έναν σχολιαστή μέρους του λόγου (part-of-speech tagger), από την ακρίβεια του οποίου εξαρτάται άμεσα και η ακρίβεια του συστήματος. Ο Erc Brll εφάρμοσε μάθηση βασισμένη σε μετασχηματισμούς για part-of-speech taggng παίρνοντας δίκαια υψηλής ακρίβειας αποτελέσματα. Η ίδια μέθοδος μπορεί να εφαρμοστεί σε μια υψηλότερου επιπέδου ερμηνεία κειμένου για τον εντοπισμό των chunks σε ένα κείμενο με ετικέτες (tags), συγκαταλέγοντας τις μη αναδρομικές (non-recursve) ονοματικές φράσεις. Έτσι οι Ramshaw και Marcus αντιμετώπισαν το chunkng σαν ένα πρόβλημα taggng κωδικοποιώντας τη δομή των chunk σε μια νέα προσάρτηση tags για κάθε λέξη. Όσον αφορά στα δεδομένα εκπαίδευσης και αξιολόγησης και στις ετικέτες των chunks κωδικοποιήθηκαν καθένα 35

από αυτά σε δομές που παράγονται αυτόματα από το WSJ (Wall Street Journal) σώμα κειμένων του Penn Treebank. Για την αξιολόγηση του συστήματος χρησιμοποιήθηκαν τα παραπάνω δεδομένα αξιολόγησης επιτυγχάνοντας ανάκληση και ακρίβεια της τάξης του 92% για απλές ονοματικές φράσεις και 88% περίπου για κάπως πιο περίπλοκα είδη φράσεων. 3.6 Άλλες προσεγγίσεις Η προσέγγιση των Ramshaw και Marcus ενέπνευσε πολλούς άλλους επιστήμονες να εφαρμόσουν μεθόδους μηχανικής μάθησης για την αναγνώριση ορίων φράσεων για απλές ονοματικές φράσεις (Noun Phrase chunkng). Τα υπόλοιπα είδη φράσεων δεν έχουν λάβει την αντίστοιση προσοχή των Ονοματικές Φράσεων. Η πιο πλήρης δουλειά είναι των Sabne Buchholz, Jorn Veenstra και Walter Daelemans [BVD99] η οποία παρουσίασε αποτελέσματα για NP, VP, PP, ADJP και ADVP chunks. Επίσης αξιοσημείωτη είναι και η δουλειά του Jorn Veenstra το 1999 [Vee99] κατά την οποία έγινε αναγνώριση των ΝP, VP και PP chunks με απόδοση γύρω στο 94-95%. 3.7 Προσεγγίσεις που παρουσιάστηκαν στον CoNLL- 2000 Διαγωνισμό Στο συνέδριο αυτό παρουσιάστηκαν έντεκα διαφορετικές προσεγγίσεις για text chunkng σε αγγλικά κείμενα. Σε όλες τις προσεγγίσεις χρησιμοποιήθηκαν ανιχνευτές μέρους του λόγου (POS taggers) για την συντακτική ανάλυση του κειμένου, όπως ρήμα ουσιαστικό κ.α. και αλγόριθμοι μηχανικής μάθησης, με αποτέλεσμα εκπαιδεύσιμα συστήματα για text chunkng. Διάφορες ακολουθίες POS tags μαζί με αντίστοιχες ακολουθίες λέξεων και άλλων επιλεγμένων χαρακτηριστικών αποτέλεσαν τα δεδομένα εκπαίδευσης (tranng set) των αλγορίθμων μηχανικής μάθησης που χρησιμοποιήθηκαν, με στόχο την εξαγωγή τελικά ετικετών chunk (chunk labelschunk tags) για κάθε λέξη από τα δεδομένα αξιολόγησης (test set). Οι τύποι των φράσεων, που χρησιμοποιήθηκαν για τα αγγλικά κείμενα, ήταν έντεκα (NP, VP, PP, ADVP, SBAR, ADJP, PRT, CONJP, INTJ, LST, UCP). Επίσης, τα έντεκα συστήματα που παρουσιάζονται ανήκουν σε τέσσερις κατηγορίες: Σε συστήματα πού βασίζονται σε κανόνες (Rule-based systems), σε συστήματα βασισμένα στη μνήμη (Memory-based systems), σε στατιστικά συστήματα (Statstcal systems) και τέλος σε συνδυασμένα συστήματα (Combned systems). Για κάθε σύστημα μετρήθηκε η ακρίβεια (precson), η ανάκληση (recall) καιτο μέτρο που τα συνδυάζει F=(2*p*r)/(p+r), για κάθε τύπο φράσεων ξεχωριστά και συνολικά. Οι δύο καλύτερες προσεγγίσεις ήταν: το συνδυασμένο σύστημα WPDV που χρησιμοποιήθηκε από τον Van Halteren και οι μηχανές διανυσμάτων υποστήριξης (Support Vector Machnes) που χρησιμοποιήθηκαν από τους Kudoh και Matsumoto. Παρακάτω παρουσιάζονται τα βασικά στοιχεία των έντεκα διαφορετικών συστημάτων για text chunkng. 3.7.1 Herve Dejean (Learnng Syntactc Structures wth XML) Ο Herve Dejean [Dej00] εξετάζει τη χρήση ενός συμβολικού συστήματος μηχανικής μάθησης που ονομάζεται ALLS (Archtecture for Learnng Lngustc Structure) και είναι βασισμένο στη θεωρία της διύλισης (refnement theory). Σ αυτή την προσέγγιση ο Dejean δείχνει ότι το σχήμα XML όχι μόνο προσφέρει έναν καλό σκελετό σχολιασμού κειμένων, αλλά επίσης παρέχει μια πολύ καλή στερεοτυπία και σημαντικά εργαλεία για την εκμάθηση συντακτικών δομών. Το σύστημα ALLS επιδιώκει να τελειοποιήσει μία υπάρχουσα ατελή γραμματική χρησιμοποιώντας δύο τελεστές : contexualzaton και lexcalzaton. Ο πρώτος απαρτίζεται από προσδιορισμένα συμφραζόμενα για την κάθε λέξη και ο δεύτερος από τα tags της κάθε λέξης. Το σύστημα αυτό διαχωρίζει το κομμάτι παραγωγής κανόνων από το κομμάτι της χρήσης τους και χρησιμοποιεί δομή XML για την αναπαράσταση των δεδομένων εκπαίδευσης και των ερωτήσεων 36

(queres) με σκοπό την τελική κατηγοριοποίηση των φράσεων ενός κειμένου. Οι κανόνες πού παράγει η ALLS περιέχουν αρκετή πληροφορία συμφραζομένων με αποτέλεσμα να είναι εφικτός ο μετασχηματισμός τους σε άλλους φορμαλισμούς. Στη συνέχεια, για την συντακτική ανάλυση (parsng) χρησιμοποιήθηκαν τα εξής τρία εργαλεία: CASS, XFST, LT TTT. Το πρώτο (CASS) παρέχει έναν πολύ γρήγορο αναλυτή κειμένου χρησιμοποιώντας μια γραμματική απλής μορφής ενώ συγχρόνως παρουσιάζει δυο δυσκολίες. Πρώτον χειρίζεται μόνο tags, με αποτέλεσμα να απαιτεί προεπεξεργασίες και μετεπεξεργασίες και δεύτερον είναι αδύνατον να χρησιμοποιήσει πληροφορία συμφραζομένων. Χρησιμοποιώντας τελικά αυτό το εργαλείο είναι δύσκολή η εφαρμογή των κανόνων πού έχουν παραχθεί από τους δυο τελεστές της διύλισης του συστήματος ALLS. Το XFST (Xerox fnte State Tool) εργαλείο προσφέρει έναν πλούσιο φορμαλισμό πεπερασμένης κατάστασης και σε κάθε λέξη όπως επίσης αντιστοιχεί σε κάθε συμφραζόμενο πού υπάρχει στους κανόνες της ALLS έναν μετατροπέα. Το πρόβλημα στη χρήση του εργαλείου αυτού βρίσκεται στον αριθμό των μετατροπέων πού δημιουργούνται από την μέθοδο ALLS. Το τρίτο εργαλείο LT TTT είναι ένα σύστημα το οποίο χωρίζει το κείμενο σε σύμβολα (tokenzaton) και αποτελείται από ένα σετ εργαλείων. Ένα από τα εργαλεία του είναι το fsgmatch το οποίο διαβάζει μια γραμματική και εκφράζεται σε σχήμα XML. Το τελευταίο αποτελεί έναν πολύ καλό συνδυασμό της ταχύτητας της CASS με τον πλούσιο φορμαλισμό της XFST, όπου τελικά είναι και το πιο κατάλληλο. Οι κανόνες στο σύστημα αυτό, εφαρμόζονται μια φορά και μετά προσαρμόζονται στη φόρμα του αναλυτή fsgmatch. Οι διαφορετικές δομές που υπάρχουν εφαρμόζονται για μάθηση ακολουθητικά. Τα αποτελέσματα αυτής της προσέγγισης ήταν ικανοποιητικά. Precson=91,87%, Recall=92,31% και F=92,09. 3.7.2 Chrster Johansson (A Context Senstve Maxmum Lkelhood Approach to Chunkng) Ο Johansson [Joh00] στην προσέγγιση αυτή εξετάζει τη χρήση των λεξικών συμφραζομένων (λέξεις και σημεία στίξης) γύρω από μια λέξη και τις επιδόσεις μιας απλής συλλογής των πιο συχνών tag για δοσμένα συμφραζόμενα μιας λέξης, υπό τον όρο ότι ένα μεγαλύτερο συμφραζόμενο υπερισχύει ενός μικρότερου. Αυτό είναι μια προέκταση ενός σχολιαστή μέρους του λόγου (tagger), κατασκευασμένο από τον Erc Brll, ο οποίος ορίζει για κάθε λέξη το πιο συνηθισμένο tag. Χρησιμοποιεί τον tagger αυτό για να βρει το μέρος του λόγου κάθε λέξης και των συμφραζόμενων της, ενώ στη συνέχεια το σύστημα εκπαιδεύεται βάσει της πιο πιθανής ετικέτας chunk της κάθε λέξης, η οποία προκύπτει από συχνές ακολουθίες tag. Για την εκπαίδευση του συστήματος ορίστηκε ένα συμμετρικό n-contexts για κάθε λέξη και τελικά έγινε επιλογή, λόγω καλύτερης απόδοσης, της χρήσης μέχρι 5-context. Λέγοντας 5-context εννοούμε το σύνολο των POS tags της ίδιας της λέξης, των δύο προηγούμενων και των δύο επόμενων ([t 0, t -1, t +1, t -2, t +2 ]). Για κάθε σετ των n-contexts μιας λέξης καθορίστηκε η πιο συχνή ετικέτα chunk. Για εξοικονόμηση χώρου, η ετικέτα αυτή λαμβάνεται σαν πληροφορία στα δεδομένα εκπαίδευσης μόνο όταν είναι διαφορετική από την κοντινότερη πιο χαμηλή σε κατάταξη ετικέτα συμφραζομένου. Για παράδειγμα αν το chunk tag μιας λέξης σε 3-context ([t 0, t - 1, t +1 ]) είναι ίδιο με αυτό της λέξης αυτής, χωρίς συμφραζόμενα ([t 0 ]), δεν προστίθεται. Στη φάση ελέγχου χρησιμοποιήθηκε ένας μόνο κανόνας, ο οποίος καθορίζει το chunk tag μιας λέξης. Αυτός ο κανόνας δέχεται ένα σετ, με το μέγιστο n-context που έχει οριστεί (εδώ 5- context), για την κάθε λέξη και ψάχνει στο σύνολό των n-context, ξεκινώντας από το 5-context, μέχρι να βρει το chunk tag της λέξης. Η απόδοση τελικά του συστήματος με τη χρήση συνόλου έως 5-context είναι F=87,23, ενώ για 3-context είναι F=87,09 και για 7-context F=87.21. 37

3.7.3 Rob Koelng (Chunkng wth Maxmum Entropy Models) Στην προσέγγιση αυτή ο Koelng [Koe00] πραγματοποιεί μια πρώτη απόπειρα δημιουργίας ενός text chunker με τη χρήση του μοντέλου μέγιστης εντροπίας MaxEnt (Maxmum Entropy model), παίρνοντας ενθαρρυντικά αποτελέσματα. Χρησιμοποιήθηκε αρκετή ποσότητα τοπικής λεξικολογικής πληροφορίας, όπως τα POS-tags της λέξης και των γύρω απ αυτήν λέξεων, την ίδια τη λέξη και τις γύρω της λέξεις, όπως επίσης και συνδυασμούς αυτών, υπολογίζοντας την εντροπία του καθενός. Μετά από δοκιμές κατέληξε σε ένα περιβάλλον χαρακτηριστικών αποτελούμενα από την ίδια τη λέξη, τις τρεις προηγούμενες και τις δύο επόμενες. Πιο συγκεκριμένα ένα σύνολο αποτελούμενο από την ίδια τη λέξη, την προηγούμενη και την επόμενη, τα POS-tags της τρέχουσας λέξης, των τριών προηγούμενων και των δύο επόμενων, τα NP-chunks tags των τριών προηγούμενων λέξεων και συνδυασμούς αυτών. Επειδή η πληροφορία για τα chunk tags των προηγούμενων λέξεων δεν είναι εκ των προτέρων γνωστή, αλλά την γεννά το μοντέλο κάθε φορά, χρησιμοποιήθηκαν και τα chunk tags των επόμενων λέξεων. Αυτό όμως επειδή δεν είναι διαθέσιμο, χρειάζεται η εφαρμογή μιας μεθόδου με στοίβες (cascaded), η οποία όμως δοκιμάσθηκε χωρίς σημαντικά αποτελέσματα. Το μοντέλο της MaxEnt που εφαρμόστηκε χρησιμοποιεί ομοιόμορφη κατανομή πιθανότητας, έχοντας ένα σίγουρο γεγονός. Ο συνδυασμός των χαρακτηριστικών των λέξεων που επιλέχθηκαν δίνει επιπλέον πληροφορία για την εκπαίδευση του συστήματος, την οποία υπολογίζει το μοντέλο της μέγιστης εντροπίας. Για τον συνδυασμό αυτό απαραίτητη ήταν η χρήση ενός αλγορίθμου ο οποίος μπορεί να ελέγχει την αλληλεπίδραση μεταξύ των χαρακτηριστικών και να προτείνει ποια απ αυτά μπορούν να συνδυαστούν αποτελεσματικά. Για το λόγο αυτό χρησιμοποιήθηκε ένα κατώφλι, το οποίο σε συνδυασμό με τον αριθμό επαναλήψεων για την εκπαίδευση του συστήματος έδωσε ανάλογα αποτελέσματα για την απόδοση του. Ο Koelng θέτοντας ως κατώφλι το 2 και εκτελώντας 100 επαναλήψεις έδωσε ακρίβεια και ανάκληση με τελική απόδοση F=91,97. 3.7.4 Taku Kudoh, Yuj Matsumoto (Use of Vector Learnng for Chunk Identfcaton) Οι Kudoh και Matsumoto [KM00] ερευνούν την χρήση των Μηχανών διανυσμάτων υποστήριξης SVMs (Support Vector Machnes) για text chunkng. Τα διανύσματα αυτά εφαρμόζονται για κατηγοριοποίηση κειμένου με υψηλή ακρίβεια ακόμη και με μεγάλο αριθμό χαρακτηριστικών της λέξης. Για την ταυτοποίηση των chunk χρησιμοποιήθηκε το μοντέλο IOB (I η λέξη μέσα στο chunk, Ο έξω και B στην αρχή) σύμφωνα με το οποίο μια λέξη θα βρίσκεται ή στην αρχή ή μέσα στο chunk (Ι-Β). Γνωρίζοντας επίσης 11 τύπους chunk (NP, VP κ.α.) γίνεται τελικά ταξινόμηση 22 τύπων chunk. Υπάρχουν δύο προσεγγίσεις επέκτασης της δυαδικής ταξινόμησης, που υποστηρίζουν τα SVMs, σε ταξινόμηση με 22 κλάσεις. Η πρώτη είναι η one class vs. All others στην οποία υπάρχουν K ταξινομητές που διαχωρίζουν κάθε κλάση από όλες τις άλλες και η δεύτερη είναι η parwse classfcaton στην οποία γίνεται διαχωρισμός κλάσεων ανά δύο, με C(κ, 2) ταξινομητές. Μετά από δοκιμές επιλέχθηκε για εφαρμογή η δεύτερη προσέγγιση. Τα χαρακτηριστικά που επιλέχτηκαν για την αναγνώριση του chunk tag για τη λέξη είναι: w j, t j (j = -2, -1,, +1, +2) και c j (j = -2, -1), οπού w η -οστή λέξη, t το POS-tag της w και c το chunk label της w. Επειδή στα δεδομένα ελέγχου δεν είναι γνωστά τα chunk label, εφαρμόστηκε δυναμικός προγραμματισμός (DP) με την χρήση της ακτινωτής αναζήτησης (Beam Search). Η απόδοση του συστήματος μετρήθηκε για συγκεκριμένα δεδομένα και ήταν η καλύτερη από όλες τις άλλες προσεγγίσεις με F=93,48. Για την συνάρτηση Kernel χρησιμοποίησε δευτέρου βαθμού πολυωνυμική συνάρτηση και για το beam search εύρος 5. Τέλος η μέθοδος αυτή 38

αποδείχθηκε καλύτερη, όσον αφορά τα χαρακτηριστικά πού επιλέχθηκαν, σε σχέση με άλλους αλγορίθμους μηχανικής μάθησης όπως τα δέντρα απόφασης και το μοντέλο μέγιστης εντροπίας. 3.7.5 Mles Osborne (Shallow Parsng as Part-of-Speech Taggng) Στην προσέγγιση αυτή ο Osborne [Osb00] εφαρμόζει μια επιφανειακή συντακτική ανάλυση (Shallow Parsng) ως POS-taggng παίρνοντας παρόμοια αποτελέσματα με άλλες πιο περίπλοκες προσεγγίσεις. Ένας τέτοιος αναλυτής αναγνωρίζει ορισμένες μόνο φραστικές δομές, όπως τις ονοματικές φράσεις, χωρίς να προσδιορίζει την εσωτερική δομή τους. Σ αυτή την προσέγγιση χρησιμοποιήθηκε ένας POS-tagger βασισμένος στη μέγιστη εντροπία (Ratnaparkh). Για την εκπαίδευση του tagger χρησιμοποιήθηκαν λέξεις, οι οποίες ήταν σχηματισμοί από πραγματικές λέξεις, POS tags, chunk types, προθέματα και καταλήξεις των λέξεων, ή ένα από τα δύο. Η διαδικασία αυτή γεφυρώνει το χάσμα ανάμεσα στο απλό POS taggng και στο shallow parsng. Οι μετασχηματισμοί είναι αλληλουχίες από διάφορα στοιχεία των δεδομένων εκπαίδευσης, κατάλληλα να πάρουν απόφαση σχετικά με την εκχώρηση των chunk labels, τις οποίες ονόμασε προβλέψεις. Στα πειράματα που έκανε μέτρησε τις αποδόσεις τεσσάρων μετασχηματισμών που επέλεξε, αυξάνοντας βαθμιαία το ποσό της πληροφορίας για κάθε λέξη. Ξεκινώντας με την τρέχουσα λέξη, συνέχισε με το tag της τρέχουσας λέξης, ύστερα πήρε αυτά τα δύο tag μαζί, συν το chunk label της τρέχουσας λέξης και τελευταίο τον μετασχηματισμό της τρέχουσας λέξης, του tag της επόμενης, του chunk της τρέχουσας λέξης, των δύο τελευταίων γραμμάτων του chunk label της επόμενης λέξης, των δύο πρώτων και των τεσσάρων τελευταίων γραμμάτων της τρέχουσας λέξης. Ο μετασχηματισμός αυτός έδωσε τελικά την καλύτερη απόδοση (94,88). Οι επιφανειακοί αναλυτές παρουσιάζουν όμως τρεις κατηγορίες λαθών, τα οποία ξεπερνιόνται αναλόγως. Πρώτον, δύσκολες συντακτικές δομές, δεύτερον λάθη στην εκπαίδευση ή στον έλεγχο και τρίτον κάποια άλλα ιδιαίτερα και ασυνήθιστα λάθη. Σ αυτό το συνδυαστικό σύστημα η τελική απόδοση μετρήθηκε ίση με F = 91,94. 3.7.6 Ferran Pla, Antono Molna, Natvdad Preto (Improvng Chunkng by Means of Lexcal-Contexual Informaton n Statstcal Language Models) Σ αυτή τη προσέγγιση [PMP00] παρουσιάζεται η χρήση μιας στοχαστικής διαδικασίας επίσης για επιφανειακή συντακτική ανάλυση (shallow parsng). Όπως σε όλες τις διαδικασίες shallow parsng έτσι κι εδώ χρησιμοποιείται ως είσοδος για την διαδικασία chunkng μια ακολουθία από tags λέξεων, τα οποία έχουν προέλθει από έναν POS-tagger. Το σύστημα αυτό εκτελεί taggng και chunkng με τη χρήση ενός ολοκληρωμένου γλωσσολογικού μοντέλου (Integrated Language Model - ILM), το οποίο τυποποιείται με τη χρήση ενός Μαρκοβιανού μοντέλου. Το μοντέλο αυτό ολοκληρώνει διάφορες πηγές γνώσης, όπως λεξικολογικές πιθανότητες, ένα γλωσσολογικό μοντέλο συμφραζομένων (LM) για κάθε chunk και ένα γλωσσολογικό μοντέλο συμφραζομένων για τις προτάσεις. Προσθέτοντας λεξιλογική πληροφορία στο γλωσσολογικό μοντέλο συμφραζομένων πραγματοποιήθηκε επέκταση του IML. Η βασική δομή του συστήματος περιγράφεται με τη χρήση του μοντέλου Ν-grams για Ν=2 (bgrams), τυποποιημένο με μαθηματικά μοντέλα πεπερασμένων καταστάσεων. Το N-grams είναι ένας μετατροπέας αποτελούμενος από δύο επίπεδα. Στο ανώτερο επίπεδο παρουσιάζεται το γλωσσολογικό μοντέλο συμφραζομένων (LM) για τις προτάσεις, το οποίο συσχετίζει τις καταστάσεις POS-tags (C ) με τους περιγραφείς των chunks (S ) (σχήμα 1a). Στο κατώτερο επίπεδο μοντελοποιούνται τα διαφορετικά chunks (σχήμα 1b). Στην περίπτωση αυτή τα σύμβολα είναι τα POS-tags (C ) τα οποία ανήκουν στα αντίστοιχα chunk (S ). Μπορούμε επομένως να κάνουμε μια απλή αντικατάσταση του κατώτερου επιπέδου στο ανώτερο παίρνοντας ένα απλό 39

ολοκληρωμένο γλωσσολογικό μοντέλο, στο οποίο φαίνεται η πιθανή σύνδεση των tags με τα chunks (σχήμα 1c). Επίσης, κάθε κατάσταση επαναπροσδιορίζεται με μία πλειάδα (C, S j ), όπου C είναι το σύνολο των POS-tags και S = {[S, S ], S, S 0 } είναι το ορισμένο σύνολο των chunk. Το [S and S ] αντιπροσωπεύει την αρχική και τελική κατάσταση του chunk, τις οποίες περιγράφει η S. H S κατάσταση αντιστοιχίζεται με τις καταστάσεις των chunk πού είναι μέσα στο S και η S 0 με αυτές που είναι έξω από κάθε chunk. Οι λεξιλογικές πιθανότητες δεν έχουν προσδιοριστεί για κάθε κατάσταση διαφορετικών μοντέλων συμφραζομένων και υποθέτουμε ότι είναι ίσες με P(W j (C, S )) = P(W j C ). Σχήμα 3-1: Προσέγγιση των Ferran Pla, Antono Molna και Natvdad Preto. Όλα τα περίπλοκα γλωσσολογικά μοντέλα έχουν εξομαλυνθεί με τη χρήση τεχνικών απόσυρσης και χρησιμοποιείται επίσης δυναμικός προγραμματισμός και συγκεκριμένα ο αλγόριθμος Vterb, ο οποίος έχει μοντελοποιηθεί για τη χρήση του στα μοντέλα που αναφερόμαστε. Τα σύνολα των λέξεων που έχουν καθοριστεί χρησιμοποιούν ευριστικούς μηχανισμούς (heurstcs). Τα σύνολα αυτά αποτελούνται από τις πιο συχνές λέξεις στο σώμα εκπαίδευσης, τις λέξεις με τον υψηλότερο ρυθμό σφάλματος taggng, τις λέξεις που ανήκουν σε συγκεκριμένες κατηγορίες ή οποιεσδήποτε λέξεις ακολουθούν κάποια ειδικά γλωσσολογικά κριτήρια. Βάσει αυτού, προστίθεται στο σύνολο POS-tag το σύνολο των δομημένων tags (W, C j ) για κάθε ειδική λέξη W σε όλες τις δυνατές κατηγορίες C j. Έτσι επαναπροσδιορίζεται το σώμα εκπαίδευσης ως εξής : Αν η W είναι τσεκαρισμένη με C j,αυτό αλλάζει σε (W, C j ) και η διαδικασία μάθησης εκτελείται για το νέο σύνολο δεδομένων εκπαίδευσης. Στο βασικό γλωσσολογικό μοντέλο (ILM) η κατάσταση συμβολίζεται ως (C, S j ), ενώ στο ειδικό ILM η κατάσταση συμβολίζεται ως (W k, C, S j ), με πιθανότητα για την λέξη W k ίση με 1. Τα τελικά αποτελέσματα για το chunkng με τη χρήση ειδικού ILM είναι F = 90,14 και Accuracy=93,79%, ενώ το σύστημα αποδείχθηκε αρκετά ευέλικτο στις αλλαγές. 3.7.7 Erk F. Tjong Km Sang (Text Chunkng by System Combnaton) Ο Km Sang [TKS00] στην προσέγγιση του αυτή χρησιμοποιεί ένα σύστημα εσωτερικού συνδυασμού ταξινομητών μάθησης που βασίζονται στη μνήμη. Η ιδέα ήταν η παραγωγή διαφορετικών chunkng μοντέλων από τη χρήση διαφορετικών chunk αναπαραστάσεων. Αρχικά το συνδυασμένο αυτό σύστημα χρησιμοποιήθηκε για την αναγνώρισή ονοματικών προτάσεων (NP). 40

Για την αναπαράσταση των chunk χρησιμοποιούνται τέσσερις παραλλαγές του μοντέλου IOB. Τα B tags μπορούν να χρησιμοποιηθούν για την αναπαράσταση της πρώτης λέξης ενός chunk πού ακολουθείται αμέσως από ένα άλλο chunk (IOB1), ή κάθε αρχικής λέξης ενός chunk (IOB2). Εναλλακτικά, τα Ε tags μπορούν να χρησιμοποιηθούν για την αναπαράσταση της τελευταίας λέξης ενός chunk πού ακολουθείται αμέσως από ένα άλλο chunk (IOΕ1), ή κάθε τελικής λέξης ενός chunk (IOΕ2). Μπορούν επίσης τα tags να αναπαρασταθούν με τη χρήση δύο ροών οι οποίες καθορίζουν πότε μια λέξη αρχίζει ένα chunk ή όχι (Ο), ή πότε μια λέξη είναι στο τέλος του chunk ή όχι (C). Οι παραπάνω ταξινομητές χρησιμοποιούν συγκεκριμένα τον IB1-IG αλγόριθμο μάθησης που βασίζεται στη μνήμη για τον καθορισμό των πιο πιθανών tags κάθε λέξης. Στον αλγόριθμο αυτό ένα νέο στοιχείο προστίθεται στα ήδη αποθηκευμένα δεδομένα εκπαίδευσης τα οποία αναπαρίστανται ως σετ με ζευγάρια Χαρακτηριστικό-Τιμή (Feature-Value). Τα χαρακτηριστικά λαμβάνουν βάρη τα οποία βασίζονται στο ποσό πληροφορίας που προσφέρουν στα δεδομένα εκπαίδευσης για την ταξινόμηση τους. Στη συνέχεια πραγματοποιείται έρευνα με εννέα διαφορετικές μεθόδους για συνδυασμό των αποτελεσμάτων πέντε chunker. Οι πέντε από αυτές καλούνται μέθοδοι ψηφοφορίας (votng methods). Η πιο απλή αναθέτει ομοιόμορφα βάρη και συλλέγει τα tags που εμφανίζονται πιο συχνά (Majorty). Μια πιο προηγμένη μέθοδος αναθέτει βάρη με βάση την ορθότητα (accuracy) των ταξινομητών πάνω σε ορισμένα μέρη των δεδομένων εκπαίδευσης, τα δεδομένα ρύθμισης (Tot-Precson). Παρόμοια άλλη μια μέθοδος αναθέτει βάρη με βάση την ακρίβεια των ταξινομητών για ειδική τιμή εξόδου (TagPrecson). Εναλλακτικά μπορεί να χρησιμοποιηθεί σαν βάρος, σε μια άλλη μέθοδο, ο συνδυασμός της ακρίβειας και της ανάκλησης για τα tags εξόδου (Precson-Recall). Τέλος η πιο προηγμένη μέθοδος ψηφοφορίας εξετάζει τις τιμές εξόδου ζευγαριών από τους ταξινομητές και δίνει βάρη στα tags βασιζόμενη στο πόσο συχνά εμφανίζονται τα ζευγάρια αυτά στα δεδομένα ρύθμισης (Tag-Par). Εκτός από τις μεθόδους ψηφοφορίας δοκιμάζονται δύο αλγόριθμοι μάθησης βασισμένοι στη μνήμη για την έξοδο των πέντε ταξινομητών, οι οποίοι σε αντίθεση με τις μεθόδους ψηφοφορίας δεν απαιτούν ομοιόμορφα βάρη για τους ταξινομητές, με αποτέλεσμα τη δυνατότητα υπολογισμού της απόδοση τους, τροφοδοτώντας τους με πληροφορία για την είσοδο στο πρώτο στάδια ταξινόμησης. Ο πρώτος είναι ο IB1-IG και ο δεύτερος ο IGTREE που αποτελεί μια παραλλαγή του IB1-IG με χρήση δέντρων απόφασης. Τέλος εξετάζονται τρεις στρατηγικές για τον έλεγχο του κατά πόσο η απόδοση του chunkng αυξάνεται κάνοντας διάκριση ανάμεσα στα IOB chunk που έχουν βρεθεί και στα ταυτοποιημένα chunk. Η πρώτη είναι η sngle-pass method οπού κάθε ατομικός ταξινομητής επιχειρεί να βρει το σωστό chunk tag για κάθε λέξη σε ένα βήμα. Η δεύτερη είναι η double-pass method στην οποία πρώτα ψάχνει τα όρια των chunks και ύστερα ταυτοποιεί τους τύπους των chunk που βρέθηκαν. Τέλος, η τρίτη είναι η n-pass method η οποία εκτελεί τόσα περάσματα όσοι και οι διαφορετικοί τύποι chunk μέχρι να βρει chunks ενός μονού τύπου. Για την τελική επιλογή της μεθόδου επεξεργασίας και μιας από τις εννέα συνδυαστικές μεθόδους δοκιμάστηκαν ορισμένοι συνδυασμοί τους και συγκρίθηκαν οι αποδόσεις τους. Παρόλο που η n- pass αποδείχθηκε καλύτερη είχε το μειονέκτημα ότι χρειαζόταν πολλά περάσματα με αποτέλεσμα πολλούς υπολογισμούς. Επιλέχθηκε τελικά η double-pass method γιατί είχε πολύ καλά αποτελέσματα σε συνδυασμό με την πλειοψηφία της ψηφοφορίας (majorty votng) των μεθόδων ψηφοφορίας. Η τελική απόδοση αυτού το συστήματος είναι F = 92,50. 41

3.7.8 Hans vas Halteren (Chunkng wth WPDF Models) Στην προσέγγιση αυτή [Hal00] περιγράφεται η εφαρμογή των WPDV (Weghted Probablty Dstrbuton Votng) αλγορίθμων για την ταυτοποίηση των chunk σε αγγλικά κείμενα. Ο Haltern χρησιμοποιεί αρχιτεκτονική τριών επιπέδων. Στο πρώτο επίπεδο δοκιμάζονται πέντε διαφορετικοί chunkers, στη συνέχεια συνδυάζονται τα αποτελέσματα τους και στο τελικό στάδιο διορθώνονται ορισμένα επαναλαμβανόμενα λάθη. Εκτός από τον έναν απ αυτούς chunker, ο οποίος χρησιμοποιεί το σύστημα μηχανικής μάθησης TMBL και βασίζεται στη μνήμη, οι υπόλοιποι τέσσερις είναι βασισμένοι στα μοντέλα WPDV. Οι πέντε διαφορετικοί βασικοί chunkers πού δοκιμάστηκαν κατά το πρώτο στάδιο της αρχιτεκτονικής του Halteren είναι: 1) Ένας chunker βασισμένος στο στοιβαγμένο μοντέλο TMBL, ο οποίος χρησιμοποιεί σε ένα πρώτο επίπεδο, ως χαρακτηριστικά λέξεις και tags σε ένα εύρος παραθύρου από πέντε θέσεις αριστερά και τρεις θέσεις δεξιά της τρέχουσας λέξης. Σε ένα δεύτερο στάδιο χρησιμοποιεί μικρότερου μεγέθους παράθυρο, τεσσάρων λέξεων αριστερά και δύο δεξιά, άλλα προσθέτει τις IOB προτάσεις που ταυτοπιούνται από το πρώτο στάδιο, για μία θέση αριστερά και μία δεξιά και όχι για το κέντρο. 2) Ένας chunker ο οποίος χρησιμοποιεί το βασικό μοντέλο WPDV, με χαρακτηριστικά τις λέξεις σε ένα μήκος παραθύρου μίας λέξης αριστερά και μίας δεξιά, τα tags σε ένα εύρος τριών θέσεων αριστερά και τριών δεξιά και την IOB πληροφορία για τα παραπάνω. 3) Ένας chunker ο οποίος χρησιμοποιεί το ανεστραμμένο μοντέλο WPDV, στο οποίο η διαδικασία chunkng εκτελείται με την ανάποδη φορά, απ ότι στον προηγούμενο chunker. 4) Ένας chunker ο οποίος χρησιμοποιεί το R&M μοντέλο WPDV, στον οποίο τα chunks χαρακτηρίζονται με B-tag μόνο όταν το προηγούμενο chunk δεν αλλάζει, αλλιώς χαρακτηρίζονται με I-tag. 5) Ένας chunker ο οποίος χρησιμοποιεί το LOB μοντέλο WPDV, στον οποίο τα tags των λέξεων πού βρέθηκαν από τον Brll tagger αντικαθίστανται από την έξοδο του εκπαιδευμένου WPDV tagger, στο 90% του σώματος κειμένων του LOB μοντέλου. Στο δεύτερο στάδιο της αρχιτεκτονικής του Halteren πραγματοποιείται συνδυασμός των αποτελεσμάτων των πέντε παραπάνω chunkers με τη χρήση ενός άλλου WPDV μοντέλου. Κάθε chunker σ αυτό το στάδιο συνεισφέρει ένα χαρακτηριστικό το οποίο περιέχει τις IOB προτάσεις τις τρέχουσας, της προηγούμενης και της επόμενης λέξης. Προσθετικά, υπάρχει ένα χαρακτηριστικό για την τρέχουσα λέξη και ένα το οποίο περιέχει τα tags της τρέχουσας, της προηγούμενης και της επόμενης λέξης. Τέλος, στο τρίτο στάδιο εφαρμόζονται διορθωτικά μέτρα για τα συστηματικά λάθη τα οποία παρατηρούνται κατά την έξοδο των πειραμάτων εκπαίδευσης. Για όλα τα μοντέλα WPDV ο αριθμός των χαρακτηριστικών είναι τόσο μεγάλος έτσι ώστε αυτά να μην μπορούν να χειριστούν εύκολα από την τρέχουσα WPDV υλοποίηση. Για το λόγο αυτό επιλέγεται το μέγιστο υποσύνολο χαρακτηριστικών μεγέθους τέσσερα και ένα κατώφλι συχνότητας μεγέθους δύο. Για το συνδυασμένο αυτό μοντέλο δεν χρησιμοποιείται κανένας περιορισμός χαρακτηριστικών και δεν εκτελείται η προκαθορισμένη διαδικασία αναρρίχησης λόφων (hll-clmbng), αλλά παραμένουν, τελικά, τα αρχικά βάρη της πρώτης επιλογής. Μετά την διόρθωση των επαναλαμβανόμενων λαθών, τα τελικά αποτελέσματα του συνδυαστικού αυτού chunker είναι πάρα πολύ καλά με F = 93,32 και η προσέγγιση αυτή βάσει των αποδόσεων είναι η δεύτερη καλύτερη στο συνέδριο του CoNLL-2000. 42

3.7.9 John Veenstra, Antal van den Bosch (Sngle-Classfer Memory-Based Phrase Chunkng) Στην προσέγγιση αυτή [VB00] εξετάζεται το κατά πόσο η εφαρμογή αλγορίθμου μηχανής μάθησης, όπως αυτός υλοποιήθηκε από το TMBL σύστημα λογισμικού, μπορεί να χειριστεί χαρακτηριστικά πολλαπλών τιμών (mult-valued features) για την συντακτική ανάλυση ενός κειμένου. Για τη χρήση ταξινομητών, έγινε περιορισμός σε μονούς ταξινομητές, αγνοώντας το ενδεχόμενο της χρήσης μιας αρχιτεκτονικής ενός metalearnng ταξινομητή, με την οποία θα ήταν δυνατή η βελτίωση της ακρίβειας. Για τα δεδομένα εκπαίδευσης του συστήματος, αφού επιλέγεται ένα βέλτιστο μέγεθος παραθύρου αποτελούμενο από πέντε λέξεις και τα POS tags τους αριστερά, την ίδια τη λέξη και τρεις λέξεις και τα POS-tags τους δεξιά, εξετάζεται η εφαρμογή τεσσάρων μεθόδων, οι οποίες χρησιμοποίησαν και τον αλγόριθμο k-nn (k κοντινότερων γειτόνων). Αρχικά, για το προκαθορισμένο TMBL περιβάλλον, το οποίο αποτελείται από mult-valued features, την επικαλύπτον συνάρτηση (overlap metrc) και τη βαρύτητα των χαρακτηριστικών (features weghtng), εφαρμόζεται ο IB1-IG αλγόριθμος μάθησης βασισμένος στη μνήμη ο οποίος χτίζει μια βάση από στιγμιότυπα (nstance base) κατά τη διάρκεια της εκπαίδευσης. Ένα στιγμιότυπο αποτελείται από αμετάβλητου μήκους διανύσματα από n ζευγάρια χαρακτηριστικώντιμών (feature-value) και η πληροφορία αυξάνεται με την ταξινόμηση των καθορισμένων αυτών διανυσμάτων. Τα νέα στιγμιότυπα συγκρίνονται με αυτά της βάσης και ταξινομούνται με βάση την απόσταση τους από κάθε στιγμιότυπο της βάσης. Η απόσταση αυτή δίνεται από την βασικότερη εξίσωση των προτύπων συμβολικών χαρακτηριστικών, την Overlap metrc, η οποία μαζί με τον k-nn αλγόριθμο και εξισώνοντας τη βαρύτητα όλων των χαρακτηριστικών λέγεται IB1. Τέλος γίνεται ρύθμιση στα βάρη των χαρακτηριστικών για καθαρότερη ταξινόμηση σύμφωνα με το εργαλείο Informaton Gan (IG). Όλοι οι παραπάνω υπολογισμοί εκτελέστηκαν για k=1,,3,5,7. Στη συνέχεια, εφαρμόζεται η μέθοδος Modfed Value Dfference Metrc (MVDM), η οποία υπολογίζει την απόσταση μεταξύ δύο τιμών ενός χαρακτηριστικού σε σχέση με την κατανομή του και λειτουργεί καλύτερα για χαρακτηριστικά με υψηλή συχνότητα εμφανίσεων. Οι υπολογισμοί έγιναν μία φορά για όλα τα χαρακτηριστικά και για k=1,,3,5,7 και μία φορά μόνο για POS-tag χαρακτηριστικά και επίσης για τα ίδια k. Στην Τρίτη σειρά πειραμάτων πραγματοποιείται αποπύκνωση των χαρακτηριστικών (Unpackng Feature), οπού σε όλα τα χαρακτηριστικά ανατέθηκαν μεμονωμένες τιμές στα βάρη και για k=1. Τέλος, πραγματοποιείται συνδυασμός χαρακτηριστικών (Complex Features) με τη χρήση αλγορίθμου επαγωγής κανόνων, συγκεκριμένα του Rpper και για k=1 και μετρήθηκαν οι αποδόσεις όλων των παραπάνω συνδυασμών, με καλύτερα αποτελέσματα για την εφαρμογή της MVDM-POS μεθόδου για k=3 με F = 91.54. 3.7.10 Marc Vlan, Davd Day (Phrase Parsng wth Rule Sequence Processors: an Applcaton to the Shared CoNLL Task) Στην προσέγγιση αυτή [VD00] εξετάζεται η ανίχνευση ορίων φράσεων (chunkng) από δύο σκοπιές. Πρώτον, ως τμήμα ενός συστήματος εξαγωγής και συγκεκριμένα του Alembc, όπου ο chunker σκιαγραφεί έναν περιγραφέα φράσεων για οντότητες εξαγωγής. Δεύτερον, ως μέρος της τρέχουσας ερευνάς για το parsng, όπου τα chunks παρέχουν μια στρωματοποιημένη προσέγγιση του συντακτικού σε ένα πρώτο επίπεδο και σε ένα δεύτερο επίπεδο ορίζονται από γραμματικές σχέσεις, παρόμοιες με αυτές της προσπάθειας του SPARKLE. 43

Πιο συγκεκριμένα, παρουσιάζονται τρεις διαφορετικές αξιολογήσεις για το parsng σε επίπεδο φράσης και γίνεται σύγκριση των αποτελεσμάτων τους. Η πρώτη είναι μια εκδοχή του chunkng ως taggng, μια προσέγγιση που πρωτοπαρουσιάστηκε από τους Ramshaw και Marcus. Το δεύτερο σύνολο αποτελεσμάτων εκθέτει την απόδοση ενός εκπαιδεύσιμου συστήματος βασισμένου σε κανόνες και συγκεκριμένα ενός συντακτικού αναλυτή κανόνων φράσεων του Alembc (Alembc phrase rule parser) και τέλος συμπεριλαμβάνεται και ένα τρίτο σύνολο αποτελεσμάτων, τα οποία παράχθηκαν από την εφαρμογή του προκαθορισμένου Alembc chunker (Standard Alembc chunker), με ελάχιστη έως καθόλου προσαρμογή. Όσον αφορά την πρώτη εκδοχή, το chunkng ως taggng, πραγματοποιείται εκπαίδευση ενός POS tagger με σκοπό να παράγει ετικέτες chunk. Η διαδικασία μάθησης είναι μια επαναεφαρμογή της προσέγγισης του Brll, η οποία βασίζεται σε μετασχηματισμούς και επεκτάθηκε έτσι ώστε να καλύψει κατά προσέγγιση μια διάταξη από σχήματα κανόνων μετασχηματισμού μεγαλύτερου μεγέθους. Επειδή η διαδικασία μάθησης δεν είναι γρήγορη, χρησιμοποιούνται υποσύνολα των δεδομένων εκπαίδευσης, εξάγοντας κανόνες από τις πρώτες 1000, 2000, 4000 προτάσεις του συνόλου εκπαίδευσης. Για κάθε περίπτωση εξάγονται 500 κανόνες μετασχηματισμού οι οποίοι εκτιμούνται για συγκεκριμένο σύνολο δοκιμής και είναι για τις τρεις παραπάνω περιπτώσεις αντίστοιχα: F=77, F=82 και F=81. Όσον αφορά το δεύτερο σύστημα, ο Alembc phrase rule parser αποτελεί τον πυρήνα της συντακτικής επεξεργασίας του συστήματος. Στις συγκεκριμένες εφαρμογές εξαγωγής, ένας ανιχνευτής φράσεων (phraser), αρχικά βάζει ετικέτες στα Κύρια Ονόματα (named enttes) και σε άλλες σταθερής κατηγορίας οντότητες (fxed-class enttes), όπως οι Τίτλοι. Αυτό το προκαταρτικό βήμα της συντακτικής ανάλυσης αποτελεί μέρος της εισόδου του chunker, ο οποίος είναι προσαρμοσμένος σαν parser κανόνων φράσεων. Η αρχιτεκτονική του συγκεκριμένου parser είναι βασισμένη στην προσέγγιση του Brll. Δουλειά των κανόνων φράσης είναι να αυξήσουν τα όρια των φράσεων αριστερά και δεξιά και να αντιστοιχίσουν σ αυτές έναν τύπο, όπως name tag ή chunk tag. Τέλος, ο phraser διατρέχει κατά σειρά τον κατάλογο με τους κανόνες, εφαρμόζει τον καθέναν όπου ταιριάζει και στη συνέχεια τον απορρίπτει προχωρώντας στον επόμενο. Τελικά η απόδοση του συστήματος αυτού μετρήθηκε ίση με F=86. Τέλος, εφαρμόζεται και ένα τρίτο σύστημα με τη χρήση ενός χειροποίητου chunker (Hand- Engneered chunker), ο οποίος έδωσε απογοητευτικά αποτελέσματα, F=77 με μέγεθος λαθών εκπληκτικά μεγάλο και επιλέχθηκε το πιο επιτυχημένο από τα τρία συστήματα, το Alembc phrase rule parser με F=85,76. 3.7.11 GuoDong Zhou, Jan Su, TongGuan Tey (Hybrd Text Chunkng) Η προσέγγιση αυτή [ZST00] προτείνει έναν text chunk tagger βασισμένο σε κρυφά μοντέλα Markov (Hdden Markov Montel-HMM) καθοδηγούμενο από σφάλματα (error-drven). Σε σύγκριση με τον πρότυπο tagger που βασίζεται στα HMM, ο συγκεκριμένος tagger ενσωματώνει περισσότερη πληροφορία συμφραζομένων μέσα στη λεξικολογική είσοδο. Επιπλέον, η προσέγγιση error-drven μάθησης για τη μείωση της απαιτούμενης μνήμης κρατάει μόνο της θετικές λεξικολογικές εισόδους καθιστώντας δυνατή την πρόσθετη ενσωμάτωση περισσότερων λεξικολογικών εισόδων, οι οποίες εξαρτώνται από τα συμφραζόμενα. Τέλος, για την εκπαίδευση του συστήματος χρησιμοποιείται αλγόριθμός που βασίζεται στη μνήμη και ο οποίος αυξάνει την απόδοση του chunk tagger. Αρχικά, για τη δομή των δεδομένων που χρησιμοποιεί ο συγκεκριμένος tagger, ορίζεται μία ακολουθία από σύμβολα g από το 1 έως το n (G 1 n = g 1 g 2 g 3...gn) και σαν στόχο μία βέλτιστη ακολουθία tag (T 1 n =t 1 t 2 t 3...t n ) που βελτιστοποιεί τον λογάριθμο της πιθανότητας P(T 1 n G 1 n ), η οποία ισούται με την κοινή πληροφορία μεταξύ της ακολουθίας T 1 n και της δοσμένης ακολουθίας 44

G 1 n. Σύμφωνα με τη θεώρηση ότι η κοινή πληροφορία μεταξύ της T 1 n και της G 1 n είναι ίση με το άθροισμα των κοινών πληροφοριών μεταξύ της G 1 n και του ξεχωριστού tag t (1 n), βγαίνει το συμπέρασμα ότι ο λογάριθμος της πιθανότητας P(T 1 n G 1 n ) ισούται με το άθροισμα του λογαρίθμου της πιθανότητας της T 1 n και του αθροίσματος των κοινών πληροφοριών μεταξύ της G 1 n και του ξεχωριστού tag t (1 n). Ο log P(T 1 n G 1 n ) υπολογίζεται με τη χρήση αλυσιδωτών κανόνων και κάθε tag έχει αναλάβει να είναι πιθανοτικά εξαρτημένο από τα n-1 προηγούμενα. Η βέλτιστη ακολουθία tag μπορεί να υπολογιστεί από τη μεγιστοποίηση της παραπάνω εξίσωσης για όλες της δυνατές ακολουθίες tag χρησιμοποιώντας τον αλγόριθμο Vterb. Η βασική διαφορά μεταξύ του tagger που αναφέρεται παραπάνω και των άλλων προκαθορισμένων tagger είναι ότι ο πρώτος χρησιμοποιεί λεξικό εξαρτώμενο από τα συμφραζόμενα (context-dependent lexcon), ενώ οι άλλοι χρησιμοποιούν λεξικό ανεξάρτητο συμφραζόμενων και για τον chunk tagger ισχύει g 1 =p w, όπου W 1 n =w 1 w 2...w n είναι η ακολουθία λέξεων και p 1 n =p 1 p 2...p n η ακολουθία POS tags. Για την αναπαράσταση των δομών chunkng, χρησιμοποιήθηκαν δομημένα tags, τα οποία αποτελούνται από τρία μέρη: 1) Τις δομικές σχέσεις (Structural relaton), όπου δοσμένης μίας ακολουθίας εισόδου από ζευγάρια λέξης και POS-tags, ορίζεται η δομική σχέση ανάμεσα στην προηγούμενη θέση εισόδου και την τρέχουσα θέση. 00 για την περίπτωση που η τρέχουσα θέση εισόδου και η προηγούμενη έχουν τον ίδιο γονέα. 90 για την περίπτωση που ένας πρόγονος της τρέχουσας θέσης εισόδου και της προηγούμενης έχουν τον ίδιο γονέα. 09 όταν η τρέχουσα θέση εισόδου και ένας πρόγονος της προηγούμενης έχουν τον ίδιο γονέα και τέλος 99 όταν ένας πρόγονος της τρέχουσας θέσης εισόδου και ένας πρόγονος της προηγούμενης έχουν τον ίδιο γονέα. 2) Την κατηγορία φράσης (Phrase category), κατά την οποία πραγματοποιείται ταυτοποίηση της κατηγορίας φράσης των θέσεων εισόδου. 3) Το μέρος του λόγου (Part-of-speech), το οποίο προστίθεται στα δομημένα tags για να αναπαραστήσει περισσότερη ακριβή πληροφορία. Τελικά για τη μείωση μνήμης και υπολογιστικής πολυπλοκότητας, ο chunk tagger που βασίζεται στο HHM και στον οποίο αναφερόμαστε εδώ χρησιμοποίησε τα προηγούμενα και τα τρέχοντα POS-tags και τις λέξεις των οποίων τα POS-tags προέρχονται από σίγουρο παιδί. Μετά την ανάλυση των αποτελεσμάτων του chunkng βρέθηκαν πολλά λάθη τα οποία προκλήθηκαν από τον χρήση περιορισμένου αριθμού λέξεων. Για να ξεπεραστούν τέτοια λάθη εφαρμόστηκε μάθηση καθοδηγούμενη από λάθη (error-drven learnng), με αποτέλεσμα την αύξηση της απόδοσης του συστήματος. Τέλος, έγινε ενσωμάτωση μάθησης βασισμένης στη μνήμη, η οποία βελτίωσε ακόμη περισσότερο την απόδοση του συστήματος με τελικό αποτέλεσμα F=92,12. 3.7.12 Συγκριτικά αποτελέσματα των προσεγγίσεων που παρουσιάστηκαν στον CoNLL- 2000 Διαγωνισμό Παρακάτω πίνακα παρατίθενται τα συγκριτικά αποτελέσματα των έντεκα παραπάνω προσεγγίσεων. Αναφέρονται αναλυτικά για κάθε προσέγγιση οι μετρικές: ακρίβεια, ανάκληση και F. Οι δύο προσεγγίσεις που ξεχώρισαν με διαφορά ήταν: τα Support Vector Machnes των Kudoh και Matsumoto και το combnaton system WPDV του Van Halteren. 45

Σύστημα Ακρίβεια Ανάκληση F β=1 1 Kudoh and Matsumoto 93,45% 93,51% 93,48 2 Van Halteren 93,13% 93,51% 93,32 3 Tjong Km Sang 94,04% 91,00% 92,50 4 Zhou, Tey and Su 91,99% 92,25% 92,12 5 Dejean 91,87% 92,31% 92,09 6 Koelng 92,08% 91,86% 91,97 7 Osborne 91,65% 92,23% 91,94 8 Veenstra and Van den Bosch 91,05% 92,03% 91,54 9 Pla, Molna and Preto 90,63% 89,65% 90,14 10 Johansson 86,24% 88,25% 87,23 11 Vlan and Day 88,82% 82,91% 85,76 Πίνακας 3-1: Συγκεντρωτικά αποτελέσματα των έντεκα προσεγγίσεων. F(β=1) 96 94 92 90 88 86 84 82 80 1 2 3 4 5 6 7 8 9 10 11 Σχήμα 3-2: Συγκριτικό διάγραμμα για το μέτρο F. Ακρίβεια Ανάκληση 96,00% 94,00% 92,00% 90,00% 88,00% 86,00% 84,00% 82,00% 80,00% 78,00% 76,00% 1 2 3 4 5 6 7 8 9 10 11 Σχήμα 3-3: Συγκριτικό διάγραμμα για την ακρίβεια και την ανάκληση των προσεγγίσεων. 46

ΚΕΦΑΛΑΙΟ 4 - ΠΕΡΙΓΡΑΦΗ ΣΥΣΤΗΜΑΤΟΣ 4.1 Εισαγωγή Σκοπός του εργασίας αυτής, όπως αναφέρθηκε στην εισαγωγή, είναι η ανάπτυξη ενός μοντέλου ανίχνευσης ορίων φράσεων σε προτάσεις φυσικής γλώσσας για τα Νέα Ελληνικά, εκμεταλλευόμενο τα ποικίλα χαρακτηριστικά της Ελληνικής γλώσσας. Η βασική επιδίωξη είναι το μοντέλο αυτό, μετά την εκπαίδευση του με τα κατάλληλα επιλεγμένα δεδομένα εκπαίδευσης, να μπορεί να εφαρμόζεται σε οποιοδήποτε νέο κείμενο και να το αναλύει με ένα καλό βαθμό αξιοπιστίας. Το μοντέλο αυτό προκύπτει μέσα από την ανάλυση ενός ήδη υπάρχοντος κατάλληλα σχολιασμένου σώματος κειμένων (corpus). Για την επιλογή των κατάλληλων δεδομένων εκπαίδευσης και του αλγορίθμου μηχανικής μάθησης πραγματοποιήθηκαν πειράματα στο Weka δοκιμάζοντας διάφορα διανύσματα χαρακτηριστικών με τέσσερις διαφορετικούς αλγόριθμους μηχανικής μάθησης. Τα πειράματα αυτά περιγράφονται αναλυτικά στο κεφάλαιο αυτό. 4.2 Είδη Φράσεων - chunk Σκοπός, όπως έχει αναφερθεί, είναι η ανίχνευση ορίων μη επικαλυπτόμενων φράσεων (text chunkng) σε προτάσεις φυσικής γλώσσας για τα Νέα Ελληνικά, δηλαδή ο χωρισμός των προτάσεων ενός κειμένου σε απλές συντακτικές δομές, όπως για παράδειγμα σε ονοματικές φράσεις και ρηματικές φράσεις Οι δομές που χρησιμοποιήθηκαν στην παρούσα εργασία είναι τα κύρια είδη των φράσεων στην Νέα Ελληνική, όπως παρακάτω: Ονοματικές Φράσεις (ΟΦ) Ρηματικές Φράσεις (ΡΦ) Προθετικές Φράσεις (ΠΦ) Επιρρηματικές Φράσεις (ΕΦ) καθώς και δύο ακόμη βοηθητικά είδη: Ονοματικές Φράσεις Γενικής (ΟΦΓ) Συνδετικές Φράσεις (ΣΦ) Οι Ονοματικές Φράσεις Γενικής αποτελούν Ονοματικές Φράσεις που είναι σε γενική πτώση (π.χ. [ΟΦΓ της ωραίας Ελένης]). Στην εργασία χρησιμοποιούνται οι ΟΦ και οι ΟΦΓ για την κατηγοριοποίηση των Ονοματικές Φράσεις, ώστε να εμπλουτιστούν τα δεδομένα εκπαίδευσης με περισσότερη πληροφορία για τις τελευταίες με το χαρακτηριστικό της γενικής πτώσης των λέξεων. Συνδετικές Φράσεις χαρακτηρίζονται όλες οι ακολουθίες συνδέσμων που συνδέουν δύο άλλες φράσεις (π.χ. [ΟΦ Καταιγισμό][ΟΦΓ επιστολών][σφ και][οφγ τηλεφωνημάτων]...). Χρησιμοποιούνται οι ετικέτες POS-tag και chunk που αναφέρονται στο μέρος-του-λόγου μίας λέξης και στον τύπο chunk μιας φράσης αντίστοιχα (βλ.2.2). Παρατίθεται ως παράδειγμα η περίοδος: «Επί όλων αυτών ούτε η κυβέρνηση ούτε οι συνδικαλιστές λένε τίποτα.» με τα αντίστοιχα chunk: [ΠΦ Επί όλων αυτών] [ΣΦ ούτε] [ΟΦ η κυβέρνηση] [ΣΦ ούτε] [ΟΦ οι συνδικαλιστές] [ΡΦ λένε] [ΟΦ τίποτα]. 47

Μια περίοδος ενός κειμένου αποτελείται από δείγματα (tokens), δηλ. από αλφαριθμητικά που περιέχουν λέξεις, σημεία στίξης, αριθμούς κτλ. Άρα η παραπάνω πρόταση χωρίζεται στα tokens: t 1 [Επί], t 2 [όλων], t 3 [αυτών], t 4 [ούτε], t 5 [η], t 6 [κυβέρνηση], t 7 [ούτε], t 8 [οι], t 9 [συνδικαλιστές], t 10 [λένε], t 11 [τίποτα.]. Να σημειωθεί ότι στο 11o token εμπεριέχεται και η τελεία. Για την ταυτοποίηση των tokens μέσα σε ένα chunk χρησιμοποιήθηκε το μοντέλο IOB. Στο μοντέλο αυτό η ετικέτα chunk συμπληρώνεται με ένα από τα γράμματα Μ, Ε ή Α, ανάλογα με το αν η λέξη του token που πρόκειται να χαρακτηρισθεί βρίσκεται Μέσα, Έξω ή στην Αρχή του chunk. Στα πειράματα, αρχικά, συναντώνται μόνο οι Μ και Α, καθώς κάθε λέξη ανήκει σε ένα ορισμένο chunk. Στα τελευταία πειράματα που το ενδιαφέρον επικεντρώνεται μόνο στην εύρεση των Ονοματικών Φράσεων χρησιμοποιείται και το Ε, αφού κάθε λέξη ή θα ξεκινά, ή θα είναι μέσα ή εκτός μιας Ονοματικής Φράσης. Κατά αυτόν τον τρόπο οι δυνατοί τύποι των chunk για κάθε token σε ένα ελληνικό κείμενο, το οποίο χαρακτηρίζεται από έξι τύπους φράσεων, είναι οι παρακάτω: Είδος Φράσης Αρχή Φράσης Μέσα στην Φράση Εκτός Φράσης Ονοματικές Φράσεις ΟΦ ΑΟΦ ΜΟΦ ΕΟΦ Ρηματικές Φράσεις ΡΦ ΑΡΦ ΜΡΦ ΕΡΦ Προθετικές Φράσεις ΠΦ ΑΠΦ ΜΠΦ ΕΠΦ Επιρρηματικές Φράσεις ΕΦ ΑΕΦ ΜΕΦ ΕΕΦ Ονοματικές Φράσεις Γενικής ΟΦΓ ΑΟΦΓ ΜΟΦΓ ΕΟΦΓ Συνδετικές Φράσεις ΣΦ ΑΣΦ ΜΣΦ ΕΣΦ Πίνακας 4-1: Τα είδη των φράσεων σύμφωνα με το μοντέλο IOB. Μια αντίστοιχη περιγραφή, χωρίς τη χρήση του μοντέλου IOB, είναι με την χρήση αγκυλών. Στην τέλος της ετικέτας ενός chunk προστίθεται η αριστερή αγκύλη [ για tokens που αποτελούν την αρχή του chunk και την δεξιά αγκύλη ] για tokens που αποτελούν το τέλος του. Τα tokens που βρίσκονται μέσα στην φράση μένουν ως έχουν. Είναι σημαντικό να σημειωθεί ότι δεν περιγράφεται η κατάσταση ενός token που βρίσκεται εκτός chunk. Έτσι η περιγραφή αυτή δεν μπορεί να χρησιμοποιηθεί για την περίπτωση ενός τύπου chunk, όπως αναφέρθηκε παραπάνω για τις Ονοματικές Φράσεις. Στους παρακάτω πίνακες φαίνεται η απεικόνιση μιας περιόδου με τη χρήση του μοντέλου IOB και με την χρήση αγκύλών. Τέλος παρατίθεται, με την χρήση του μοντέλου IOB, ο χαρακτηρισμός της περιόδου μόνο σε σχέση με τις Ονοματικές Φράσεις. Αυτή η περιγραφή είναι σημαντική, καθώς πολλές εφαρμογές εστιάζουν στην εύρεση Ονοματικών Φράσεων σε ένα κείμενο. Αντίστοιχα πειράματα παρατίθενται στο παρόν Κεφάλαιο. 48

chunk token Chunk token ΑΠΦ Επί ΠΦ[ Επί ΜΠΦ όλων ΠΦ όλων ΜΠΦ αυτών ΠΦ] αυτών ΑΣΦ ούτε ΣΦ[ ούτε ΑΟΦ η ΟΦ[ η ΜΟΦ κυβέρνηση ΟΦ] κυβέρνηση ΑΣΦ ούτε ΣΦ[ ούτε ΑΟΦ οι ΟΦ[ οι ΜΟΦ συνδικαλιστές ΟΦ] συνδικαλιστές ΑΡΦ λένε ΡΦ[ λένε ΑΟΦ τίποτα. ΟΦ[ τίποτα. Πίνακας 4-2: Απεικόνιση των chunk μιας περιόδου με την χρήση του μοντέλου IOB. Πίνακας 4-3: Απεικόνιση των chunk μιας περιόδου με την χρήση αγκυλών. chunk ΕΟΦ ΕΟΦ ΕΟΦ ΕΟΦ ΑΟΦ ΜΟΦ ΕΟΦ ΑΟΦ ΜΟΦ ΕΟΦ ΑΟΦ token Επί όλων αυτών ούτε η κυβέρνηση ούτε οι συνδικαλιστές λένε τίποτα. Πίνακας 4-4: Απεικόνιση των chunk μιας περιόδου με την χρήση του μοντέλου IOB, μόνο για τις Ονοματικές Φράσεις. 49

4.3 Σώμα Κειμένων (Corpus) Για την πειραματική διαδικασία της εργασίας αυτής χρησιμοποιήθηκε ένα σώμα κειμένων (corpus) 205.122 λέξεων αποτελούμενο από άρθρα της εφημερίδας ΤΟ ΒΗΜΑ. Τα κείμενα που περιλαμβάνονται σ αυτό ανήκουν σε όλους σχεδόν τους τύπους κειμένου που μπορούμε να συναντήσουμε σε μια εβδομαδιαία εφημερίδα. Το σώμα αυτό χρησιμοποιήθηκε πρώτα για την εκπαίδευση του συστήματος, ως ένα ήδη σχολιασμένο κείμενο (annotated corpora) στο οποίο είναι προσδιορισμένα χειρονακτικά ο τύπος chunk για την κάθε λέξη, και έπειτα για την αξιολόγηση του συστήματος ως ένα μη σχολιασμένο κείμενο (no annotated corpora), δηλ. χωρίς να φαίνονται τα προσδιορισμένα chunk της κάθε λέξης. Η μορφή του σώματος κειμένων είναι όπως φαίνεται παραπάνω στον Πίνακα 4.3. Τα είδη των chunk που εμφανίζονται είναι τα έξι είδη φράσεων με το μοντέλο των αγκυλών. Σε κάθε token εμφανίζεται πρώτα το chunk, έπειτα η λέξη και τέλος το σημείο στίξης αν υπάρχει. 4.4 Μορφολογική Πληροφορία Για την εύρεση της μορφολογικής πληροφορίας των λέξεων χρησιμοποιήθηκε ένα λεξικό περίπου 580 λέξεων-κλειδιών (keywords), το οποίο περιέχει άρθρα, προθέσεις, μόρια, αριθμητικά, αντωνυμίες, και κάποια ειδικά επιρρήματα (όπως τα πάνω και κάτω), και ένα λεξικό 350 περίπου κοινών καταλήξεων που περιέχει τις πιο συνηθισμένες καταλήξεις των Νέων Ελληνικών. Και τα δύο αυτά λεξικά περιέχουν επιπλέον μορφολογικές πληροφορίες. Πληροφορία αντλήθηκε και από την ύπαρξη σημείων στίξεως (π.χ. «της χαράς!») και κύριων ονομάτων (π.χ. «Ο Γιώργος πήγαινε»). 4.4.1 Λεξικό Λέξεων-Κλειδιών Όσον αφορά το λεξικό με τις λέξεις κλειδιά κάθε εγγραφή του είναι της μορφής: και αναλύεται ως εξής: λέξη-κλειδί POS-tag1 POS-tag2 POS-tag3 POS-tag4 επέκταση λέξη κλειδί: Προσδιορίζει την ίδια την λέξη που περιέχει το λεξικό. POS-tag: Προσδιορίζει το μέρος του λόγου (POS) που χαρακτηρίζει την λέξη. Επειδή μία λέξη μπορεί να χαρακτηρισθεί με διαφορετικό μέρος του λόγου, ανάλογα με την έννοια που της αποδίδεται μέσα στην πρόταση (π.χ.: τον άνθρωπο άρθρο, τον κυνηγάνε προσωπική αντωνυμία), τα POS-tag1 έως POS-tag4 αποδίδουν το σύνολο των πιθανών αποδόσεων μέρων του λόγου για μία λέξη. Το πλήθος των αντωνυμιών και τα είδη τους οφείλεται η κατηγοριοποίηση τους. Διαφορετικές κατηγορίες χρησιμοποιήθηκαν για τις προσωπικές (π.χ.: τον έδιωξαν), τις κτητικές (π.χ.: έτρεξε σπίτι του) και όλες τις υπόλοιπες αντωνυμίες. Ο τύπος των δεδομένων POS-tag είναι ονομαστικός (nomnal) και δέχεται δεκατρείς δυνατές τιμές. Στον πίνακα που ακολουθεί παρουσιάζονται τα μέρη του λόγου και οι αντιστοιχίες τους σε POS-tag: 50

Μέρος του Λόγου (POS) POS-tag Ρήμα v Ουσιαστικό n Επίθετο a Επίρρημα b Αντωνυμία r Αντωνυμία Κτητική (υποκατηγορία) r1 Αντωνυμία Προσωπική (υποκατηγορία) r2 Άρθρο d Πρόθεση p Αριθμητικό μόριο u Σύνδεσμος c Επιφώνημα e Τίποτα από τα παραπάνω xw Πίνακας 4-5: Αντιστοιχίες Μέρη του Λόγου POS-tag. επέκταση: Αντιστοιχεί σε περαιτέρω πληροφορία για τη λέξη-κλειδί. Πολλές από τις λέξεις κλειδιά παρατηρήθηκε ότι βρίσκονται στη γενική πτώση. Αυτό βοηθάει στην κατηγοριοποίηση των Ονοματικών Φράσεων Γενικής. Για το χαρακτηριστικό αυτό προσθέσαμε τις ετικέτες g0 και g1. Σαν g0 χαρακτηρίστηκαν οι λέξεις, οι οποίες είναι κλιτές και είναι βέβαιο ότι δεν είναι στην γενική πτώση. Αντίστοιχα με g1 χαρακτηρίστηκαν οι κλιτές λέξεις, που είναι βέβαιο ότι είναι στην γενική πτώση. Εν συνεχεία μερικές λέξεις παρατηρήθηκε ότι ανήκαν πάντα σε κάποιο συγκεκριμένο είδος φράσης (όπως η λέξεις θα ή να που ανήκουν πάντα σε ΡΦ). Στις συγκεκριμένες λέξεις αποδόθηκαν πέντε είδη επεκτάσεων. Ο τύπος των δεδομένων αυτών είναι επίσης ονομαστικός (nomnal) και παίρνει οχτώ δυνατές τιμές, όπως φαίνεται στον παρακάτω πίνακα: Ερμηνεία επέκτασης Κλιτή λέξη σε Γενική πτώση. Κλιτή λέξη που δεν είναι σε Γενική πτώση. Λέξη που ανήκει πάντα ΡΦ. Λέξη που ανήκει πάντα ΟΦ. Λέξη που ανήκει πάντα ΟΦΓ. Πρόθεση που ανήκει πάντα ΠΦ. Πρόθεση που ανήκει πάντα ΕΦ. Λέξη-κλειδί που δεν ανήκει σε μία από τις παραπάνω κατηγορίες. επέκταση g1 g0 vp np npg pp ap xr Πίνακας 4-6: Αντιστοιχίες επεκτάσεων και των ερμηνειών τους. 4.4.2 Λεξικό Καταλήξεων Όσον αφορά το λεξικό με τις κοινές καταλήξεις των Νέων Ελληνικών για κάθε λέξη που δεν ανήκει στις λέξεις κλειδιά γίνεται μια εκτίμηση της μορφολογικής της πληροφορίας σύμφωνα με την κατάληξη της. Κάθε εγγραφή του είναι της μορφής: κατάληξη POS-tag1 POS-tag2 POS-tag3 POS-tag4 επέκταση 51

κατάληξη: Προσδιορίζει την ίδια την κατάληξη που περιέχει το λεξικό. POS-tag: Προσδιορίζει το μέρος του λόγου (POS) που χαρακτηρίζει την κατάληξη. Όπως και στο λεξικό με τις λέξεις κλειδιά, έτσι και εδώ, μια λέξη που έχει κατάληξη ω και δεν ανήκει στις λέξεις κλειδιά είναι πάντα ρήμα (π.χ. κάνω). Όμως μία κατάληξη μπορεί να έχει και παραπάνω από μία ερμηνείες. Για παράδειγμα, η κατάληξη ης μπορεί να ανήκει σε ένα επίθετο (π.χ. όμορφης) ή σε ένα ουσιαστικό (π.χ. μάχης). Έτσι και εδώ, έχουμε τέσσερα πιθανά POS-tags, ίδια με εκείνα του Πίνακα 4.5. Ο τύπος των δεδομένων αυτών είναι ονομαστικός (nomnal) και παίρνει δεκατρείς δυνατές τιμές επέκταση: Ομοίως και εδώ η επέκταση αφορά περαιτέρω πληροφορία για την κατάληξη. Όπως στον Πίνακα 4.6 οι ερμηνείες των επεκτάσεων αφορούν τις καταλήξεις του λεξικού. Ο τύπος των δεδομένων είναι ονομαστικός (nomnal) και δέχεται εννέα δυνατές τιμές, αφού στις προηγούμενες οχτώ προστίθεται η επέκταση engl που αναφέρεται σε αγγλικές λέξεις, όπως στον Πίνακα 4-7: Ερμηνεία επέκτασης Αγγλική λέξη. επέκταση engl Πίνακας 4-7: Επιπρόσθετη επέκταση όσον αφορά το λεξικό των καταλήξεων. 4.5 Επιλογή Χαρακτηριστικών Δεδομένα Εκπαίδευσης-Αξιολόγησης Στο πρώτο στάδιο της σχεδίασης του συστήματος προσδιορίστηκε η γνώση που χρησιμοποιήθηκε κατά την εκπαίδευσή του. Επειδή η μεγάλη διάσταση του πλήθους των χαρακτηριστικών είναι δυνατόν να προκαλέσει επιβάρυνση στον αλγόριθμο ταξινόμησης σε ένα πρόβλημα μηχανικής μάθησης, δόθηκε ιδιαίτερη προσοχή στην επιλογή των χαρακτηριστικών για την αναπαράσταση των δειγμάτων εκπαίδευσης. Επιλέχθηκε η διανυσματική μορφή αναπαράστασης των παραδειγμάτων εκπαίδευσης, όπου κάθε παράδειγμα εκπαίδευσης, ή αλλιώς στιγμιότυπο (nstance), αποτελεί ένα σύνολο χαρακτηριστικών (attrbutes). Με τη χρήση ενός προγραμματιστικού εργαλείου, διατρέξαμε το σώμα κειμένων (corpus), αντιστοιχίζοντας σε κάθε λέξη τη μορφολογική πληροφορία που περικλείεται στα δύο λεξικά που περιγράφηκαν παραπάνω. Επιπλέον πληροφορία αποδόθηκε σε κάθε στιγμιότυπο, όσον αφορά τα σημεία στίξης. Τέλος έχει συμπεριληφθεί πληροφορία για τα κύρια ονόματα που συναντώνται μέσα σε μία πρόταση. Μετά από πειράματα στο Weka που περιγράφονται αναλυτικά στη συνέχεια του κεφαλαίου, το τελικό διάνυσμα χαρακτηριστικών είναι όπως στο Σχήμα 4.1. Το διάνυσμα αναφέρεται κάθε φορά στην πληροφορία που εξάγεται για το τρέχον token (με δείκτη 0) και αποτελείται από το σύνολο των χαρακτηριστικών της τρέχουσας λέξης, των δύο προηγούμενων και των δύο επόμενων, καθώς και από πληροφορία για την στίξη. Παρακάτω περιγράφεται το διάνυσμα των χαρακτηριστικών αναλυτικά: (POS tag) x : Αναφέρεται στο μέρος του λόγου που αποδίδουν τα λεξικά των λέξεων κλειδιών ή καταλήξεων για την λέξη του token x. Η μεταβλητή είναι τύπου nomnal και δέχεται δεκατρείς δυνατές τιμές (βλ. Πίνακα 4.5). ext x : Αναφέρεται στην επέκταση που αποδίδουν τα λεξικά των λέξεων κλειδιών ή καταλήξεων για την λέξη του token x. Η μεταβλητή είναι τύπου nomnal και δέχεται εννέα δυνατές τιμές (βλ. Πίνακα 4.6 Πίνακα 4.7). 52

(POS tag1) -4 (POS tag2) -4 (POS tag3) -4 (POS tag4) -4 ext -4 (POS tag1) -3 (POS tag2) -3 (POS tag3) -3 (POS tag4) -3 ext -3 (POS tag1) -2 (POS tag2) -2 (POS tag3) -2 (POS tag4) -2 ext -2 (POS tag1) -1 (POS tag2) -1 (POS tag3) -1 (POS tag4) -1 ext -1 punct -1 (POS tag1) (POS tag2) (POS tag3) (POS tag4) ext punct (POS tag1) +1 (POS tag2) +1 (POS tag3) +1 (POS tag4) +1 ext +1 chunk Σχήμα 4-1: Τελικό Διάνυσμα Χαρακτηριστικών [w -4, w -3, w -2, w -1, w, w +1 ]. punct x : Προσδιορίζει το σημείο στίξης στο τέλος του token x. Η μεταβλητή είναι τύπου nomnal και δέχεται τέσσερις δυνατές τιμές, όπως στον Πίνακα 4.8. Για παράδειγμα στο token: «τίποτα!», η τιμή του punct θα είναι tte λόγω της ύπαρξης θαυμαστικού. Αρχικά, η πρώτη κατηγορία επιλέχθηκε, γιατί τα συγκεκριμένα σημεία στίξης (.! ; ) έχουν την ιδιότητα να δηλώνουν το τέλος μιας περιόδου και κατ επέκταση το τέλος της μιας φράσης. Η κατηγορία για το κόμμα, διαφέρει από εκείνη των παραπάνω, αφού μετά από αυτό έχουμε αλλαγή chunk, αλλά συχνά παρεμβάλλεται μέσα στα όρια ενός είδους chunk (π.χ.: [PP τους κκ. Σημίτη, Λιονέλ Ζοσπέν και Τόνι Μπλερ]). Η Τρίτη κατηγορία αφορά όλα τα υπόλοιπα σημεία στίξης, ενώ η τελευταία την περίπτωση μη-ύπαρξης σημείου στίξης σε ένα token. Σημείο στίξης (punctuaton mark) Πίνακας 4-8: Σημεία στίξης. punct τελεία. θαυμαστικό! tte ερωτηματικό ; κόμμα, komma άλλο - ( * κ.α... allo χωρίς σημείο στίξης xs chunk x : Προσδιορίζει τον τύπο του chunk του token x. Η μεταβλητή είναι τύπου nomnal και δέχεται δέκα δυνατές τιμές, όπως στον Πίνακα 4.9. Όπως φαίνεται, έγινε ενοποίηση όλων των Ονοματικών Φράσεων. Όπως αναφέρθηκε, οι Ονοματικές Φράσεις Γενικής χρησιμοποιήθηκαν για τον εμπλουτισμό των δεδομένων εκπαίδευσης με στοιχεία για την γενική πτώση πολλών λέξεων του Σώματος Κειμένων. Αφού συλλέχτηκε η πληροφορία αυτή, οι ΟΦΓ ενοποιήθηκαν στην κατηγορία ΟΦ, χωρίς σφάλμα. Στα πειράματα που ακολουθούν, στο παρόν κεφάλαιο, φαίνεται η διαδικασία της ενοποίησης. 53

Το βασικό ζητούμενο είναι το μέγεθος του περιβάλλοντος που δίνει σημαντική πληροφορία, δηλ. η εύρεση του βέλτιστου μήκους παραθύρου των δεδομένων εκπαίδευσης. Έτσι, μετά από δοκιμές, το τελικό μήκος παραθύρου είναι: [w -3, w -2, w -1 w, w +1 ]. Το εύρος παραθύρου απεικονίζεται όπως προηγουμένως χρησιμοποιώντας τον συμβολισμό w x για τα χαρακτηριστικά της λέξης του token x. Στον συμβολισμό δεν απεικονίζεται το χαρακτηριστικό punct. Στα πειράματα που διενεργούνται οι μεταβολές επικεντρώνονται στα POS tags και την επέκταση για προηγούμενες ή επόμενες λέξεις ενός token. Η πληροφορία για τα σημεία στίξης δεν μεταβάλλεται (αφορά πάντα το ίδιο το token και το προηγούμενο) και έτσι θεωρείται δεδομένη. Τα χαρακτηριστικά POS tag1, POS tag2, POS tag3, POS tag4 και ext, επιλέχθηκαν για την τρέχουσα λέξη (w ), τις τρεις προηγούμενες (w -3, w -2, w -1 ) και την μία επόμενη της (w +1 ). Το χαρακτηριστικό punct, επιλέχθηκε για την προηγούμενη (w -1 ) και για την τρέχουσα λέξη (w ), καθώς η πιο σημαντική πληροφορία των σημείων στίξης είναι το γεγονός ότι μετά από τα πιο συχνά σημεία στίξης (.! ; ) αρχίζει πάντα νέα φράση. Τέλος η υπό εκμάθηση μεταβλητή του διανύσματος ήταν η ετικέτα chunk για την τρέχουσα λέξη. Σημείωση για τα Κύρια Ονόματα: Κάθε λέξη ενός token που αρχίζει με κεφαλαίο γράμμα και δεν προηγείται σημείο στίξης τύπου tte, χαρακτηρίζεται ως Κύριο Όνομα. Σ αυτή την περίπτωση στη μεταβλητή POS tag ανατίθεται η τιμή n (ουσιαστικό) και παραλείπεται οποιαδήποτε πληροφορία από τα δύο λεξικά. Είδη Φράσεων Πίνακας 4-9: Είδη chunk. chunk Αρχή Ονοματικής Φράσης ΑΟΦ Αρχή Ονοματικής Φράσης Γενικής ΜΟΦ BNP Μέσα σε Ονοματική Φράση ΑΟΦΓ Μέσα σε Ονοματική Φράση Γενικής ΜΟΦΓ INP Αρχή Ρηματικής Φράσης ΑΡΦ BVP Μέσα σε Ρηματική Φράση ΜΡΦ IVP Αρχή Προθετικής Φράσης ΑΠΦ BPP Μέσα σε Προθετική Φράση ΜΠΦ IPP Αρχή Επιρρηματικής Φράσης ΑΕΦ BAP Μέσα σε Επιρρηματική Φράση ΜΕΦ IAP Αρχή Συνδετικής Φράσης ΑΣΦ BCON Μέσα σε Συνδετική Φράση ΜΣΦ ICON Η μέτρηση με το παραπάνω διάνυσμα χαρακτηριστικών έγινε με το εργαλείο Weka, χρησιμοποιώντας τον ταξινομητή J48 του αλγορίθμου δέντρων απόφασης. Για τον διαχωρισμό των στιγμιότυπων σε δεδομένα εκπαίδευσης και αξιολόγησης χρησιμοποιήθηκε η μέθοδος cross valdaton, όπου τα στιγμιότυπα χωρίζονται σε δέκα σύνολα. Τα εννέα σύνολα χρησιμοποιούνται σαν δεδομένα εκπαίδευσης και το ένα για την αξιολόγηση. Αυτό γίνεται συνέχεια έως όλα τα σύνολα να έχουν πάρει την θέση των δεδομένων αξιολόγησης. Τα τελικά αποτελέσματα δίνονται από τον συνδυασμό των αποτελεσμάτων των δέκα προηγούμενων συνδυασμών. Σημείωση: Η μέθοδος cross valdaton χρησιμοποιείται σε όλες τις μετρήσεις εκτός από ελάχιστες όπου και αναφέρεται στις οποίες το εργαλείο Weka αδυνατεί να λειτουργήσει λόγω έλλειψης υπολογιστικής μνήμης. Σ αυτές τις περιπτώσεις χρησιμοποιήθηκε η μέθοδος percentage όπου τα στιγμιότυπα χωρίζονται σε δεδομένα εκπαίδευσης σε ποσοστό 66% και σε δεδομένα αξιολόγησης σε ποσοστό 33% 54

Οι μετρικές με τις οποίες αξιολογείται το μοντέλο είναι η ακρίβεια και η ανάκληση κάθε τύπου chunk, καθώς και οι συνολικές. Στο Σχήμα 4.2 φαίνεται η ακριβής ταξινόμηση των κλάσεων, ενώ στον Πίνακα 4.10 οι μετρικές αξιολόγησης. Τις μεγαλύτερες τιμές ακρίβειας και ανάκλησης δίνουν οι φράσεις τύπου ΑΠΦ με τιμές 96,3% και 96,2% αντίστοιχα. Σημαντική είναι η διαφορά των τριών μονάδων της ακρίβειας και της ανάκλησης του τύπου ΜΟΦ. Η ερμηνεία δίνεται απ το γεγονός ότι το σύστημα ταξινομεί εσφαλμένα πολλά chunk σαν MOΦ (INP). Τέλος οι χαμηλές τιμές στον τύπο ΜΕΦ (IAP), οφείλονται στο μειωμένο αριθμό στιγμιότυπων της κλάσης. Η συνολική ακρίβεια και ανάκληση είναι της τάξης του 90,28% και 90,42% αντίστοιχα, ενώ ο αρμονικός μέσος όρος F είναι της τάξης του 90,35 (Πίνακας 4-10). Σχήμα 4-2: Ταξινόμηση των στιγμιότυπων στις κλάσεις. Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 45692 22,28% 89,1% 90,6% 89,84 ΜΟΦ 49681 24,22% 89,4% 92,5% 90,92 ΑΡΦ 24104 11,75% 91,2% 91,1% 91,15 ΜΡΦ 11904 5,80% 91,9% 93,5% 92,69 ΑΠΦ 17134 8,35% 96,3% 96,2% 96,25 ΜΠΦ 33016 16,10% 92,3% 88,1% 90,15 ΑΕΦ 9133 4,45% 85,4% 84,1% 84,75 ΜΕΦ 1441 0,70% 55,7% 20,4% 29,86 ΑΣΦ 12387 6,04% 89,7% 88,9% 89,30 ΜΣΦ 630 0,31% 72,1% 74,6% 73,33 Σύνολο 205122 100,00% 90,28% 90,42% 90,35 Πίνακας 4-10: Αποτελέσματα με την χρήση του τελικού διανύσματος χαρακτηριστικών για εύρος παραθύρου [w -4, w -3, w -2, w -1, w, w +1 ] με την χρήση του ταξινομητή J48. 4.6 Πειράματα στο Weka Παρακάτω παρατίθενται μία σειρά δοκιμών που διενεργήθηκαν στο περιβάλλον Weka. Η σειρά που ακολουθήθηκε, αρχικά διαμορφώθηκε βάσει της απόδοσης του μέτρου F, με τη χρήση τεσσάρων αλγορίθμων μηχανικής μάθησης, σε συγκεκριμένο μήκος παραθύρου. Εν συνεχεία ακολούθησε εμπλουτισμός των χαρακτηριστικών με την πληροφορία των σημείων στίξεως των Κύριων Οναμάτων. Ομοίως η σειρά που ακολουθήθηκε, διαμορφώθηκε βάσει της απόδοσης του μέτρου F, σε πέντε διαφορετικά μήκη παραθύρου. Τέλος δοκιμάστηκε μία μέθοδος αντιμετώπισης της ανισορροπίας μεταξύ των κλάσεων (class mbalance) των chunk, και δύο αλγόριθμοι μετά-μάθησης (meta-learnng): AdaBoost M1 και Baggng. Δεν δόθηκε βαρύτητα στη 55

διαχείριση υπολογιστικής μνήμης, ενώ ο χρόνος απόκρισης των μετρήσεων έπαιξε σημαντικό ρόλο στην τελική επιλογή του αλγορίθμου ΜΜ. 4.6.1 Πείραμα 1 Επιλογή αλγορίθμου Αρχικά δοκιμάστηκε ένα περιβάλλον δεδομένων εκπαίδευσης αποτελούμενο από τα χαρακτηριστικά που περιγράφονται παρακάτω για την ίδια τη λέξη, δύο προηγούμενων και μιας επόμενης ( [w -2, w -1, w 0, w +1 ] ). Για κάθε λέξη επιλέχθηκαν τα τέσσερα πιθανά POS tag, καθώς και η επέκταση ext. Οι δυνατές τιμές για κάθε τύπο μεταβλητής είναι όπως περιγράφηκαν στο τελικό διάνυσμα, εκτός την υπό-εκμάθηση μεταβλητή που συμπεριλαμβάνει και την απεικόνιση των ΟΦΓ Ονοματικές Φράσεις Γενικής (άρα δώδεκα τύπους chunk). Επιλέχθηκε, για αρχή, το συγκεκριμένο παράθυρο με βάση την εμπειρία από τις προσεγγίσεις που παρουσιάστηκαν, ότι η πληροφορία που περιέχουν οι προηγούμενες λέξεις είναι πιο σημαντική για τον προσδιορισμό του τρέχοντος chunk. Ο στόχος του πειράματος είναι η εύρεση του καταλληλότερου αλγόριθμου μηχανικής μάθησης μεταξύ των Naïve Bays, k-nn, δέντρων απόφασης και των SVM, οι οποίοι περιγράφονται στο Κεφάλαιο 2. Στο Σχήμα 4.2 απεικονίζεται το διάνυσμα χαρακτηριστικών που χρησιμοποιήθηκε για την εκπαίδευση του συστήματος, ενώ στους Πίνακες 4.11έως 4.13 παρατίθενται τα αποτελέσματα των παραπάνω δεδομένων εκπαίδευσης με τους ταξινομητές των τριών αλγορίθμων ΜΜ. (POS tag1) -2 (POS tag2) -2 (POS tag3) -2 (POS tag4) -2 ext -2 (POS tag1) -1 (POS tag2) -1 (POS tag3) -1 (POS tag4) -1 ext -1 (POS tag1) (POS tag2) (POS tag3) (POS tag4) ext (POS tag1) +1 (POS tag2) +1 (POS tag3) +1 (POS tag4) +1 ext +1 chunk Σχήμα 4-3: Πείραμα 1 ο Διάνυσμα χαρακτηριστικών [w -2, w -1, w, w +1 ]. Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 32665 15,92% 77,6% 76,3% 76,94 ΜΟΦ 33191 16,18% 74,0% 78,7% 76,28 ΑΟΦΓ 13027 6,35% 69,3% 80,5% 74,48 ΜΟΦΓ 16490 8,04% 74,2% 84,0% 78,80 ΑΡΦ 24104 11,75% 84,7% 77,9% 81,16 ΜΡΦ 11904 5,80% 77,3% 85,5% 81,19 ΑΠΦ 17134 8,35% 94,4% 91,3% 92,82 ΜΠΦ 33016 16,10% 90,7% 75,5% 82,40 ΑΕΦ 9133 4,45% 64,7% 79,8% 71,46 ΜΕΦ 1441 0,70% 17,7% 9,4% 12,28 ΑΣΦ 12387 6,04% 83,0% 76,9% 79,83 ΜΣΦ 630 0,31% 41,9% 65,7% 51,17 Σύνολο 205122 100,00% 79,77% 79,11% 79,44 Πίνακας 4-11: Πείραμα 1 ο Αποτελέσματα του αλγόριθμου Naïve Bayes για μήκος παραθύρου [w -2, w -1, w, w +1 ]. 56

Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 32665 15,92% 77,1% 77,6% 77,35 ΜΟΦ 33191 16,18% 75,6% 81,2% 78,30 ΑΟΦΓ 13027 6,35% 78,6% 77,6% 78,10 ΜΟΦΓ 16490 8,04% 79,5% 82,3% 80,88 ΑΡΦ 24104 11,75% 70,9% 71,5% 71,20 ΜΡΦ 11904 5,80% 76,1% 80,7% 78,33 ΑΠΦ 17134 8,35% 82,2% 81,2% 81,70 ΜΠΦ 33016 16,10% 79,1% 77,6% 78,34 ΑΕΦ 9133 4,45% 58,9% 46,4% 51,91 ΜΕΦ 1441 0,70% 16,3% 13,5% 14,77 ΑΣΦ 12387 6,04% 59,5% 61,1% 60,29 ΜΣΦ 630 0,31% 23,7% 30,6% 26,71 Σύνολο 205122 100,00% 74,64% 75,34% 74,99 Πίνακας 4-12: Πείραμα 1 ο Αποτελέσματα του ταξινομητή IB1 για μήκος παραθύρου [w -2, w -1, w, w +1 ]. Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 32665 15,92% 87,0% 88,1% 87,55 ΜΟΦ 33191 16,18% 79,8% 87,5% 83,47 ΑΟΦΓ 13027 6,35% 84,5% 84,3% 84,40 ΜΟΦΓ 16490 8,04% 85,4% 88,1% 86,73 ΑΡΦ 24104 11,75% 90,5% 90,8% 90,65 ΜΡΦ 11904 5,80% 91,4% 93,6% 92,49 ΑΠΦ 17134 8,35% 94,8% 96,2% 95,49 ΜΠΦ 33016 16,10% 89,9% 80,9% 85,16 ΑΕΦ 9133 4,45% 84,1% 82,2% 83,14 ΜΕΦ 1441 0,70% 54,9% 18,5% 27,67 ΑΣΦ 12387 6,04% 89,7% 87,5% 88,59 ΜΣΦ 630 0,31% 71,8% 75,4% 73,56 Σύνολο 205122 100,00% 87,09% 87,09% 87,09 Πίνακας 4-13: Πείραμα 1 ο Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -2, w -1, w, w +1 ]. Από τους παραπάνω πίνακες, προκύπτει ότι η χρήση του J48 ταξινομητή με τα δέντρα απόφασης (decson trees) προσδίδει τη μεγαλύτερη τιμή για την ανάκληση (87,09%) και την ακρίβεια (87,09%). Σύμφωνα με το παραπάνω αποτέλεσμα και σε συνδυασμό με το θεωρητικό υπόβαθρο και τις προηγούμενες προσεγγίσεις, η χρήση των δέντρων απόφασης αποδεικνύεται κατάλληλη για αναπαράσταση τέτοιων προβλημάτων. Οι τιμές που δίνονται στα δεδομένα εκπαίδευσης είναι όλα διακριτές και έτσι προκύπτουν ονομαστικά χαρακτηριστικά. Βασικά πλεονεκτήματα για την επιλογή των δέντρων απόφασης είναι η παραστατική μορφή των μοντέλων που παράγουν, η οποία δεν χρειάζεται να αποδοθεί με κάποιο διαφορετικό τρόπο για να γίνει κατανοητή, καθώς και η δυνατότητα μεταφοράς του παραγόμενου μοντέλου από δένδρο απόφασης σε ένα σύνολο κανόνων για τη διευκόλυνση της κατανόησής του. Τέλος, παρουσιάζει ευρωστία, όσον αφορά στο θόρυβο που παρουσιάζεται στα δεδομένα του χώρου του προβλήματος. 57

Εκτός από τις χαμηλές αποδόσεις των υπόλοιπων αλγορίθμων, ο χρόνος απόκρισης του συστήματος μάθησης με την χρήση του ταξινομητή ΙΒ1 είναι αποθαρρυντικός. Ομοίως οι υψηλές απαιτήσεις διαχειριστικής μνήμης που απαιτεί ο αλγόριθμος SVM (ταξινομητής SMO), για τον χειρισμό των συγκεκριμένων στιγμιότυπων, καθιστά αδύνατη την εφαρμογή του. Έτσι τελικά, έγινε επιλογή του J48 ταξινομητή για την εκπαίδευση του συστήματος, οπότε τα πειράματα που ακολουθούν, για την βελτίωση της απόδοσης, πραγματοποιήθηκαν με τον συγκεκριμένο ταξινομητή. 4.6.2 Πείραμα 2 Σημεία Στίξης / Κύρια Ονόματα Στο συγκεκριμένο πείραμα προστέθηκε στα δεδομένα εκπαίδευσης πληροφορία σχετική με τα σημεία στίξης και τα Κύρια Ονόματα, όπως περιγράφηκε στην Παράγραφο 4.5. Το τελικό διάνυσμα χαρακτηριστικών έχει την μορφή που φαίνεται στο Σχήμα 4-3, ενώ στον Πίνακα 4.14, παρουσιάζονται τα αποτελέσματα των αποδόσεων του συστήματος. (POS tag1) -2 (POS tag2) -2 (POS tag3) -2 (POS tag4) -2 ext -2 (POS tag1) -1 (POS tag2) -1 (POS tag3) -1 (POS tag4) -1 ext -1 punct -1 (POS tag1) (POS tag2) (POS tag3) (POS tag4) ext punct (POS tag1) +1 (POS tag2) +1 (POS tag3) +1 (POS tag4) +1 ext +1 chunk Σχήμα 4-4: Πείραμα 2 Διάνυσμα χαρακτηριστικών [w -2, w -1, w, w +1 ]. Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 32665 15,92% 87,4% 91,1% 89,21 ΜΟΦ 33191 16,18% 81,1% 88,3% 84,55 ΑΟΦΓ 13027 6,35% 87,2% 84,1% 85,62 ΜΟΦΓ 16490 8,04% 86,3% 89,1% 87,68 ΑΡΦ 24104 11,75% 91,3% 90,8% 91,05 ΜΡΦ 11904 5,80% 91,8% 93,7% 92,74 ΑΠΦ 17134 8,35% 96,3% 96,2% 96,25 ΜΠΦ 33016 16,10% 90,6% 81,4% 85,75 ΑΕΦ 9133 4,45% 85,4% 83,8% 84,59 ΜΕΦ 1441 0,70% 59,7% 20,9% 30,96 ΑΣΦ 12387 6,04% 89,5% 89,2% 89,35 ΜΣΦ 630 0,31% 72,9% 74,6% 73,74 Σύνολο 205122 100,00% 88,05% 88,04% 88,04 Πίνακας 4-14: Πείραμα 2 Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -2, w -1, w, w +1 ]. Παρατηρήθηκε μια σημαντική αύξηση τόσο στην ακρίβεια (88.05%) όσο και στην ανάκληση (88.04%). Τη μεγαλύτερη αύξηση παρουσιάζουν τα chunk που προσδιορίζουν Επιρρηματικές Φράσεις. Αυτό οφείλεται στο γεγονός ότι τα συγκεκριμένα είδη συνήθως ακολουθούν ή ακολουθούνται από σημεία στίξης. Γενικότερα, παρουσιάζεται μία σημαντική αύξηση στα chunk που δηλώνουν αρχή φράσεων (σε όλα τα είδη φράσεων), η οποία οφείλεται στην χρήση της πληροφορίας των σημείων στίξης. 58

4.6.3 Πείραμα 3 Εύρεση βέλτιστου μήκους παραθύρου Η έννοια του μήκους παραθύρου αφορά το πλήθος των λέξεων πριν και μετά την τρέχουσα λέξη από τις οποίες αντλείται πληροφορία. Στο παρόν πείραμα ο στόχος είναι η εύρεση του παραθύρου εκείνου που δίνει την ιδανική πληροφορία για την εκπαίδευση του συστήματος, και κατ επέκταση την μέγιστη απόδοση του. Για το σκοπό αυτό πραγματοποιήθηκαν μια σειρά δοκιμών αυξομειώνοντας το μήκος παραθύρου των token που περιέχουν τις λέξεις πριν και μετά την τρέχουσα λέξη, δίνοντας λιγότερη ή περισσότερη πληροφορία αντίστοιχα, μέχρι να βρεθεί το βέλτιστο μήκος παραθύρου λέξεων. Μετά την δοκιμή με εύρος παραθύρου [w -2, w -1, w, w +1 ], όπως παρουσιάζεται στο Πείραμα 2, προστέθηκε πληροφορία και για την δεύτερη επόμενη λέξη από την τρέχουσα, με αποτέλεσμα το νέο εύρος παράθυρου να είναι: [w -2, w -1, w, w +1 w +2 ]. Το νέο διάνυσμα χαρακτηριστικών (Σχήμα 4.5 ) προκαλεί μικρή μείωση τόσο της ακρίβειας από 88,05% σε 88,04%, όσο και της ανάκλησης από 88,04% σε 88,00% (Πίνακας 4.15). Εν συνεχεία, δοκιμάζεται το διάνυσμα [w -3, w -2, w -1, w, w +1 ] (Σχήμα 4.6), με πληροφορία για τις τρεις προηγούμενες λέξεις και την μία επόμενη. Η ακρίβεια καθώς και η ανάκληση αυξάνονται σε 89,16% και 89,23% αντίστοιχα (Πίνακας 4.16). Η επόμενη δοκιμή πραγματοποιείται με αύξηση μιας ακόμα προηγούμενης λέξης από την τρέχουσα άρα το νέο εύρος παραθύρου έγινε: [w -4, w -3, w -2, w -1, w, w +1 ] (Σχήμα 4.7). Η ακρίβεια καθώς και η ανάκληση αυξάνονται σε 89,19% και 89,30% αντίστοιχα (Πίνακας 4.17). Στη συνέχεια, δοκιμάζοντας το εύρος παραθύρου [w -5, w -4, w -3, w -2, w -1, w, w +1 ] (Σχήμα 4.8), με ακόμα μία προηγούμενη λέξη, η απόδοση μειώθηκε (ακρίβεια: 89,16% - ανάκληση: 89,28% - Πίνακας 4.18). Στις παραπάνω δοκιμές μετά το εύρος παραθύρου [w -2, w -1, w, w +1 w +2 ] αυξήθηκε η πληροφορία για προηγούμενες λέξεις από την τρέχουσα, ενώ όσον αφορά τις επόμενες μειώθηκε. Η τελευταία δοκιμή παρουσιάζει την αύξηση της πληροφορίας για τις επόμενες λέξεις και μείωση για τις προηγούμενες, δηλ. το ακριβώς αντίθετο από τα προηγούμενα. Τα αποτελέσματα των μετρήσεων του νέου εύρους παραθύρου [w -1, w, w +1, w +2 ] (Σχήμα 4.9), σε σύγκριση με το παράθυρο [w -2, w -1, w, w +1 ] (Σχήμα 4.4), αποδεικνύουν τη μεγάλη σημασία της πληροφορίας που παρέχουν οι προηγούμενες λέξεις (ακρίβεια: από 88,05% σε 83,21% - ανάκληση: από 88,04% σε 82,80% - Πίνακες 4.14 και 4.19). Στα Σχήματα και στους Πίνακες που ακολουθούν παρουσιάζονται τα διανύσματα χαρακτηριστικών και τα αποτελέσματα που απέδωσαν οι παραπάνω δοκιμές: (POS tag1) -2 (POS tag2) -2 (POS tag3) -2 (POS tag4) -2 ext -2 (POS tag1) -1 (POS tag2) -1 (POS tag3) -1 (POS tag4) -1 ext -1 punct -1 (POS tag1) (POS tag2) (POS tag3) (POS tag4) ext punct (POS tag1) +1 (POS tag2) +1 (POS tag3) +1 (POS tag4) +1 ext +1 (POS tag1) +2 (POS tag2) +2 (POS tag3) +2 (POS tag4) +2 ext +2 chunk Σχήμα 4-5: Πείραμα 3 Δοκιμή 1 Διάνυσμα χαρακτηριστικών [w -2, w -1, w, w +1 w +2 ]. 59

Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 32665 15,92% 87,2% 90,9% 89,01 ΜΟΦ 33191 16,18% 81,0% 88,3% 84,49 ΑΟΦΓ 13027 6,35% 86,9% 84,1% 85,48 ΜΟΦΓ 16490 8,04% 86,8% 88,6% 87,69 ΑΡΦ 24104 11,75% 91,4% 91,1% 91,25 ΜΡΦ 11904 5,80% 91,8% 93,7% 92,74 ΑΠΦ 17134 8,35% 96,3% 96,2% 96,25 ΜΠΦ 33016 16,10% 90,5% 81,3% 85,65 ΑΕΦ 9133 4,45% 84,9% 83,9% 84,40 ΜΕΦ 1441 0,70% 57,8% 19,8% 29,50 ΑΣΦ 12387 6,04% 90,5% 89,3% 89,90 ΜΣΦ 630 0,31% 70,6% 78,4% 74,30 Σύνολο 205122 100,00% 88,04% 88,00% 88,02 Πίνακας 4-15: Πείραμα 3 Δοκιμή 1 Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -2, w -1, w, w +1 w +2 ]. (POS tag1) -3 (POS tag2) -3 (POS tag3) -3 (POS tag4) -3 ext -3 (POS tag1) -2 (POS tag2) -2 (POS tag3) -2 (POS tag4) -2 ext -2 (POS tag1) -1 (POS tag2) -1 (POS tag3) -1 (POS tag4) -1 ext -1 punct -1 (POS tag1) (POS tag2) (POS tag3) (POS tag4) ext punct (POS tag1) +1 (POS tag2) +1 (POS tag3) +1 (POS tag4) +1 ext +1 chunk Σχήμα 4-6: Πείραμα 3 Δοκιμή 2 Διάνυσμα χαρακτηριστικών [w -3, w -2, w -1, w, w +1 ]. Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 32665 15,92% 87,5% 90,8% 89,12 ΜΟΦ 33191 16,18% 85,9% 89,9% 87,85 ΑΟΦΓ 13027 6,35% 87,8% 83,2% 85,44 ΜΟΦΓ 16490 8,04% 87,8% 89,7% 88,74 ΑΡΦ 24104 11,75% 91,2% 90,8% 91,00 ΜΡΦ 11904 5,80% 92,0% 93,6% 92,79 ΑΠΦ 17134 8,35% 96,3% 96,2% 96,25 ΜΠΦ 33016 16,10% 91,7% 87,7% 89,66 ΑΕΦ 9133 4,45% 85,1% 83,6% 84,34 ΜΕΦ 1441 0,70% 58,7% 20,6% 30,50 ΑΣΦ 12387 6,04% 89,5% 89,1% 89,30 ΜΣΦ 630 0,31% 72,2% 75,1% 73,62 Σύνολο 205122 100,00% 89,16% 89,23% 89,19 Πίνακας 4-16: Πείραμα 3 Δοκιμή 2 Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -3, w -2, w -1, w, w +1 ]. 60

(POS tag1) -4 (POS tag2) -4 (POS tag3) -4 (POS tag4) -4 ext -4 (POS tag1) -3 (POS tag2) -3 (POS tag3) -3 (POS tag4) -3 ext -3 (POS tag1) -2 (POS tag2) -2 (POS tag3) -2 (POS tag4) -2 ext -2 (POS tag1) -1 (POS tag2) -1 (POS tag3) -1 (POS tag4) -1 ext -1 punct -1 (POS tag1) (POS tag2) (POS tag3) (POS tag4) ext punct (POS tag1) +1 (POS tag2) +1 (POS tag3) +1 (POS tag4) +1 ext +1 chunk Σχήμα 4-7: Πείραμα 3 Δοκιμή 3 Διάνυσμα χαρακτηριστικών [w -4, w -3, w -2, w -1, w, w +1 ]. Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 32665 15,92% 87,4% 90,6% 88,97 ΜΟΦ 33191 16,18% 86,5% 90,0% 88,22 ΑΟΦΓ 13027 6,35% 87,6% 83,0% 85,24 ΜΟΦΓ 16490 8,04% 87,8% 89,7% 88,74 ΑΡΦ 24104 11,75% 91,1% 90,7% 90,90 ΜΡΦ 11904 5,80% 91,8% 93,5% 92,64 ΑΠΦ 17134 8,35% 96,3% 96,2% 96,25 ΜΠΦ 33016 16,10% 91,8% 88,4% 90,07 ΑΕΦ 9133 4,45% 84,8% 83,7% 84,25 ΜΕΦ 1441 0,70% 56,7% 20,0% 29,57 ΑΣΦ 12387 6,04% 89,5% 89,2% 89,35 ΜΣΦ 630 0,31% 72,3% 74,6% 73,43 Σύνολο 205122 100,00% 89,19% 89,30% 89,25 Πίνακας 4-17: Πείραμα 3 Δοκιμή 3 Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -4, w -3, w -2, w -1, w, w +1 ]. (POS tag1) -5 (POS tag2) -5 (POS tag3) -5 (POS tag4) -5 ext -5 (POS tag1) -4 (POS tag2) -4 (POS tag3) -4 (POS tag4) -4 ext -4 (POS tag1) -3 (POS tag2) -3 (POS tag3) -3 (POS tag4) -3 ext -3 (POS tag1) -2 (POS tag2) -2 (POS tag3) -2 (POS tag4) -2 ext -2 (POS tag1) -1 (POS tag2) -1 (POS tag3) -1 (POS tag4) -1 ext -1 punct -1 (POS tag1) (POS tag2) (POS tag3) (POS tag4) ext punct (POS tag1) +1 (POS tag2) +1 (POS tag3) +1 (POS tag4) +1 ext +1 chunk Σχήμα 4-8: Πείραμα 3 Δοκιμή 4 Διάνυσμα χαρακτηριστικών [w -5, w -4, w -3, w -2, w -1, w, w +1 ]. 61

Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 32665 15,92% 87,4% 90,7% 89,02 ΜΟΦ 33191 16,18% 86,6% 89,9% 88,22 ΑΟΦΓ 13027 6,35% 87,3% 82,9% 85,04 ΜΟΦΓ 16490 8,04% 87,8% 89,6% 88,69 ΑΡΦ 24104 11,75% 91,1% 90,7% 90,90 ΜΡΦ 11904 5,80% 91,9% 93,5% 92,69 ΑΠΦ 17134 8,35% 96,3% 96,2% 96,25 ΜΠΦ 33016 16,10% 91,7% 88,4% 90,02 ΑΕΦ 9133 4,45% 84,7% 83,6% 84,15 ΜΕΦ 1441 0,70% 56,1% 19,6% 29,05 ΑΣΦ 12387 6,04% 89,4% 89,2% 89,30 ΜΣΦ 630 0,31% 72,9% 74,8% 73,84 Σύνολο 205122 100,00% 89,16% 89,28% 89,22 Πίνακας 4-18: Πείραμα 3 Δοκιμή 4 Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -5, w -4, w -3, w -2, w -1, w, w +1 w +2 ]. (POS tag1) -1 (POS tag2) -1 (POS tag3) -1 (POS tag4) -1 ext -1 punct -1 (POS tag1) (POS tag2) (POS tag3) (POS tag4) ext punct (POS tag1) +1 (POS tag2) +1 (POS tag3) +1 (POS tag4) +1 ext +1 (POS tag1) +2 (POS tag2) +2 (POS tag3) +2 (POS tag4) +2 ext +2 chunk Σχήμα 4-9: Πείραμα 3 Δοκιμή 5 Διάνυσμα χαρακτηριστικών [w -1, w, w +1, w +2 ]. Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 32665 15,92% 86,3% 91,2% 88,68 ΜΟΦ 33191 16,18% 65,9% 80,6% 72,51 ΑΟΦΓ 13027 6,35% 84,7% 85,1% 84,90 ΜΟΦΓ 16490 8,04% 79,5% 81,7% 80,58 ΑΡΦ 24104 11,75% 91,3% 91,1% 91,20 ΜΡΦ 11904 5,80% 90,3% 93,0% 91,63 ΑΠΦ 17134 8,35% 96,3% 96,3% 96,30 ΜΠΦ 33016 16,10% 81,6% 59,6% 68,89 ΑΕΦ 9133 4,45% 85,2% 84,4% 84,80 ΜΕΦ 1441 0,70% 58,9% 19,4% 29,19 ΑΣΦ 12387 6,04% 90,4% 89,2% 89,80 ΜΣΦ 630 0,31% 69,9% 78,7% 74,04 Σύνολο 205122 100,00% 83,21% 82,80% 83,00 Πίνακας 4-19: Πείραμα 3 Δοκιμή Αποτελέσματα του ταξινομητή J48 για μήκος παραθύρου [w -5, w -4, w -3, w -2, w -1, w, w +1 w +2 ]. 62

4.6.4 Πείραμα 4 Ενοποίηση NP και NPG Στο πείραμα αυτό περιγράφεται η διαδικασία ενοποίησης των Ονοματικών Φράσεων Γενικής με τις Ονοματικές Φράσεις. Στο Σώμα Κειμένων, κάθε ΟΦΓ αντιμετωπίζεται σαν απλή ΟΦ, οπότε οι δυο κλάσεις ενοποιούνται σε μία και το νέο πλήθος των κλάσεων μειώνονται σε δέκα (Πίνακας 4.21). Η ενοποίηση αυτή έγινε γιατί στην πραγματικότητα οι ΟΦΓ αποτελούν υποκατηγορία των απλών ΟΦ και όπως φαίνεται στον Πίνακα 4.20 σημαντικός αριθμός ΟΦ ταξινομούνταν στην κατηγορία των ΟΦΓ και αντίστροφα. Είδη Φράσεων ταξινομήθηκαν σαν... ΑΟΦ ΜΟΦ ΑΟΦΓ ΜΟΦΓ ΑΟΦ 29602 1044 226 335 ΜΟΦ 1062 29863 364 527 ΑΟΦΓ 456 768 10811 463 ΜΟΦΓ 242 673 333 14786 Πίνακας 4-20: Απώλειες στην ταξινόμηση μεταξύ ΟΦ και ΟΦΓ πριν την ενοποίηση. Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 45692 22,28% 89,1% 90,6% 89,84 ΜΟΦ 49681 24,22% 89,4% 92,5% 90,92 ΑΟΦΓ ΜΟΦΓ ΑΡΦ 24104 11,75% 91,2% 91,1% 91,15 ΜΡΦ 11904 5,80% 91,9% 93,5% 92,69 ΑΠΦ 17134 8,35% 96,3% 96,2% 96,25 ΜΠΦ 33016 16,10% 92,3% 88,1% 90,15 ΑΕΦ 9133 4,45% 85,4% 84,1% 84,75 ΜΕΦ 1441 0,70% 55,7% 20,4% 29,86 ΑΣΦ 12387 6,04% 89,7% 88,9% 89,30 ΜΣΦ 630 0,31% 72,1% 74,6% 73,33 Σύνολο 205122 100,00% 90,28% 90,42% 90,35 Πίνακας 4-21: Πείραμα 4 Ενοποίηση Κλάσεων Ονοματικών Φράσεων Γενικής και Ονοματικών Φράσεων. Παρατίθεται ως παράδειγμα η περίοδος: «Άλλων 1000 την ανάγκη δημιούργησε η μείωση του αριθμού των μαθητών από 36 σε 30 στην Α Γυμνασίου και στην Α Λυκείου.» με τα αντίστοιχα chunk: [ΟΦΓ Άλλων 1000] [ΟΦ την ανάγκη] [ΡΦ δημιούργησε] [ΟΦ η μείωση] [ΟΦΓ του αριθμού] [ΟΦΓ των μαθητών] [ΠΦ από 36] [ΠΦ σε 30] [ΠΦ στην Α Γυμνασίου] [ΣΦ και] [ΠΦ στην Α Λυκείου]. Μετά την ενοποίηση των Ονοματικών Φράσεων η περίοδος έχει ως εξής: [ΟΦ Άλλων 1000] [ΟΦ την ανάγκη] [ΡΦ δημιούργησε] [ΟΦ η μείωση] [ΟΦ του αριθμού] [ΟΦ των μαθητών] [ΠΦ από 36] [ΠΦ σε 30] [ΠΦ στην Α Γυμνασίου] [ΣΦ και] [ΠΦ στην Α Λυκείου]. 63

Η παραπάνω δοκιμή βελτίωσε σημαντικά την ακρίβεια, την ανάκληση και τελικά το μέτρο F (90,28%, 90,42% και 90,35 αντίστοιχα) και αποτελεί την μέτρηση που αναφέρεται στην Παράγραφο 4.4 με τα υψηλότερα αποτελέσματα. Σημείωση: Ενώ η απόδοση αυξάνεται κι άλλο σε επόμενη δοκιμή, με την αντιμετώπιση του φαινομένου της ανισορροπίας των κλάσεων (class mbalance), δεν θεωρείται βέλτιστη, καθώς η εξισορρόπηση παρεμβαίνει στην πληροφορία και αλλάζει τα στιγμιότυπα στα δεδομένα εκπαίδευσης. 4.6.5 Πείραμα 5 Μετά-μάθηση (Meta-learnng) Στο πείραμα αυτό δοκιμάστηκε ο αλγόριθμος μετά-μάθησης Baggng με την χρήση του ταξινομητή J.48, συνδυάζοντας δέκα διαφορετικά μοντέλα διαφορετικής διαμέρισης του σώματος εκπαίδευσης για κάθε ένα από αυτά. Τα αποτελέσματα φαίνονται στον Πίνακα 4.22. Το τελικό μοντέλο που προέκυψε δεν αποδείχθηκε καλύτερο από το προηγούμενο και η απόδοση του μετρήθηκε ίση με 90.21. Στην συνέχεια επιχειρήθηκε η χρήση του αλγόριθμου AdaBoostM1, ο οποίος λειτουργεί όπως ο Baggng, με την διαφορά ότι τα μοντέλα παράγονται διαδοχικά, με αποτέλεσμα κάθε νέο μοντέλο να επηρεάζεται από την απόδοση των προηγούμενων του. Εξαιτίας των υψηλών απαιτήσεων διαχειριστικής μνήμης που απαιτούσε ο αλγόριθμος, δεν έγινε δυνατή η εφαρμογή του στα δεδομένα. Για τον ίδιο λόγο, τα αποτελέσματα του Baggng προέκυψαν με την χρήση της μεθόδου percentage στον διαχωρισμό των στιγμιότυπων σε δεδομένα εκπαίδευσης και αξιολόγησης. Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 45692 22,28% 89,4% 90,4% 89,90 ΜΟΦ 49681 24,22% 89,1% 92,3% 90,67 ΑΡΦ 24104 11,75% 91,2% 90,6% 90,90 ΜΡΦ 11904 5,80% 91,4% 93,2% 92,29 ΑΠΦ 17134 8,35% 96,4% 96,4% 96,40 ΜΠΦ 33016 16,10% 91,6% 88,0% 89,76 ΑΕΦ 9133 4,45% 85,8% 84,0% 84,89 ΜΕΦ 1441 0,70% 57,6% 23,2% 33,08 ΑΣΦ 12387 6,04% 89,4% 88,8% 89,10 ΜΣΦ 630 0,31% 69,7% 80,6% 74,75 Σύνολο 205122 100,00% 90,15% 90,28% 90,21 Πίνακας 4-22: Αποτελέσματα με την χρήση του τελικού διανύσματος χαρακτηριστικών για εύρος παραθύρου [w -4, w -3, w -2, w -1, w, w +1 ] με τον αλγόριθμο baggng (με ταξινομητή J48) και διαχωρισμό στιγμιότυπων με την μέθοδο percentage. 4.6.6 Πείραμα 6 Class Imbalance Στο πείραμα αυτό δοκιμάστηκε η αντιμετώπιση του φαινομένου της ανισορροπίας των κλάσεων, με την μέθοδο της αύξησης των στιγμιότυπων των κλάσεων σε ένα κοινό επίπεδο, όπως περιγράφτηκε στο θεωρητικό υπόβαθρο. Στο Σχήμα 4.10 φαίνεται η αναπαράσταση των κλάσεων από το εργαλείο Weka, και η μεγάλη διαφορετικότητα που παρουσιάζουν. Έτσι, για να μην υπάρχει απώλεια πληροφορίας, επιλέχθηκε το μεγαλύτερο πλήθος κλάσεων οι ΜΟΦ, σαν επίπεδο 64

στόχος, κοντά στο οποίο θα ισορροπήσουν οι κλάσεις. Τα πολλαπλάσια των κλάσεων που επιλέχθηκαν φαίνονται στον Πίνακα 4.23, ενώ η νέα απεικόνιση των κλάσεων από το Weka, στο Σχήμα 4.11. Με την χρήση των νέων κλάσεων, παρατηρήθηκε μεγάλη αύξηση των μετρικών αξιολόγησης της τάξης των τεσσάρων μονάδων. Έτσι η ακρίβεια από 92,28% έφτασε περίπου στο 94,69%, η ανάκληση από 90,42% στο 94,70% και τέλος η συνολική μετρική F από 90,35 σε 94,69, τα οποία φαίνονται αναλυτικά στον Πίνακα 4.24. Μεγάλη αύξηση παρατηρείται στην ακρίβεια και την ανάκληση των ΜΕΦ (Μέσα σε Επιρρηματική Φράση), όπως και των ΜΔΦ (Μέσα σε Συνδετική Φράση), για το λόγο ότι υπήρχαν πολύ λίγα στιγμιότυπα αυτών των φράσεων με αποτέλεσμα να μην επαρκούν για την επιτυχή εκπαίδευση του συστήματος. Είδη Φράσεων Πλήθος φράσεων ΠΡΙΝ την εξισορρόπηση Ακέραιος Συντελεστής Πλήθος φράσεων ΜΕΤΑ την εξισορρόπηση ΑΟΦ 45692 x 1 45692 ΜΟΦ 49681 x 1 49681 ΑΡΦ 24104 x 2 48208 ΜΡΦ 11904 x 4 47616 ΑΠΦ 17134 x 2 34268 ΜΠΦ 33016 x 1 33016 ΑΕΦ 9133 x 5 45665 ΜΕΦ 1441 x 30 43230 ΑΣΦ 12387 x 4 49548 ΜΣΦ 630 x 70 44100 Σύνολο 205122 441024 Πίνακας 4-23: Πλήθος στιγμιότυπων πριν και μετά την εξισορρόπηση. Σχήμα 4-10: Απεικόνιση των κλάσεων πριν την εξισορρόπηση από το εργαλείο Weka. 65

Σχήμα 4-11: Απεικόνιση των κλάσεων μετά την εξισορρόπηση από το εργαλείο Weka. Είδη Πλήθος Ποσοστό Precson Recall Φράσεων φράσεων Φράσεων (Ακρίβεια) (Ανάκληση) F-measure ΑΟΦ 45692 10,36% 90,1% 88,0% 89,04 ΜΟΦ 49681 11,26% 89,6% 91,0% 90,29 ΑΡΦ 48208 10,93% 93,9% 92,7% 93,30 ΜΡΦ 47616 10,80% 96,3% 98,2% 97,24 ΑΠΦ 34268 7,77% 98,4% 96,3% 97,34 ΜΠΦ 33016 7,49% 93,1% 84,9% 88,81 ΑΕΦ 45665 10,35% 95,1% 97,6% 96,33 ΜΕΦ 43230 9,80% 95,9% 100,0% 97,91 ΑΣΦ 49548 11,23% 96,0% 96,6% 96,30 ΜΣΦ 44100 10,00% 99,5% 100,0% 99,75 Σύνολο 441024 100,00% 94,69% 94,70% 94,69 Πίνακας 4-24: Αποτελέσματα με την χρήση του τελικού διανύσματος χαρακτηριστικών για εύρος παραθύρου [w -4, w -3, w -2, w -1, w, w +1 ], με χρήση του ταξινομητή J48, μετά την επίλυση της ανισορροπίας των κλάσεων. Ακρίβεια (Precson) 120,0% 100,0% 80,0% 60,0% 40,0% 20,0% 0,0% ΑΟΦ ΜΟΦ ΑΡΦ ΜΡΦ ΑΠΦ ΜΠΦ ΑΕΦ ΜΕΦ ΑΣΦ ΜΣΦ χωρίς εξισορρόπηση με εξισορρόπηση Σχήμα 4-12: Μεταβολή ακρίβειας (precson) με εξισορρόπηση. 66