ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΑΝΑΓΝΩΡΙΣΗ ΚΑΙ ΚΑΤΑΤΑΞΗ ΟΝΟΜΑΤΩΝ ΟΝΤΟΤΗΤΩΝ ΣΕ ΕΛΛΗΝΙΚΑ ΚΕΙΜΕΝΑ ΜΕ ΧΡΗΣΗ ΤΥΧΑΙΩΝ ΔΑΣΩΝ»

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΑΝΑΓΝΩΡΙΣΗ ΚΑΙ ΚΑΤΑΤΑΞΗ ΟΝΟΜΑΤΩΝ ΟΝΤΟΤΗΤΩΝ ΣΕ ΕΛΛΗΝΙΚΑ ΚΕΙΜΕΝΑ ΜΕ ΧΡΗΣΗ ΤΥΧΑΙΩΝ ΔΑΣΩΝ»"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ» ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Με τίτλο «ΑΝΑΓΝΩΡΙΣΗ ΚΑΙ ΚΑΤΑΤΑΞΗ ΟΝΟΜΑΤΩΝ ΟΝΤΟΤΗΤΩΝ ΣΕ ΕΛΛΗΝΙΚΑ ΚΕΙΜΕΝΑ ΜΕ ΧΡΗΣΗ ΤΥΧΑΙΩΝ ΔΑΣΩΝ» της ΖΑΓΓΑΝΑ ΕΛΕΝΗΣ (Α.Μ. 661) Επιβλέπων: Λυκοθανάσης Σπυρίδων, Καθηγητής Πάτρα, Οκτώβριος 2012

2

3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ» ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Με τίτλο «ΑΝΑΓΝΩΡΙΣΗ ΚΑΙ ΚΑΤΑΤΑΞΗ ΟΝΟΜΑΤΩΝ ΟΝΤΟΤΗΤΩΝ ΣΕ ΕΛΛΗΝΙΚΑ ΚΕΙΜΕΝΑ ΜΕ ΧΡΗΣΗ ΤΥΧΑΙΩΝ ΔΑΣΩΝ» της ΖΑΓΓΑΝΑ ΕΛΕΝΗΣ (Α.Μ. 661) Επιβλέπων: Λυκοθανάσης Σπυρίδων, Καθηγητής Εγκρίθηκε από την τριμελή εξεταστική επιτροπή την 8 η Οκτωβρίου Σπυρίδων Λυκοθανάσης Δημήτριος Χριστοδουλάκης Ευστράτιος Γεωργόπουλος Καθηγητής Καθηγητής Αναπληρωτής Καθηγητής Πάτρα, Οκτώβριος 2012

4 . ΖΑΓΓΑΝΑ ΕΛΕΝΗ Διπλωματούχος Μηχανικός Η/Υ & Πληροφορικής της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών all rights reserved

5

6 ΕΥΧΑΡΙΣΤΙΕΣ Η παρούσα διπλωματική εργασία εκπονήθηκε στα πλαίσια του Μεταπτυχιακού Προγράμματος Σπουδών, «Επιστήμη και Τεχνολογία Υπολογιστών», του Τμήματος Μηχανικών Η/Υ & Πληροφορικής του Πανεπιστημίου Πατρών, υπό την επίβλεψη του Καθηγητή κ. Σπυρίδωνος Λυκοθανάση. Θα ήθελα λοιπόν να ευχαριστήσω θερμά τον κύριο Σπυρίδωνα Λυκοθανάση καθηγητή και διευθυντή του Εργαστηρίου Αναγνώρισης Προτύπων του Τμήματος Μηχανικών Η/Υ & Πληροφορικής, για την ευκαιρία που μου έδωσε να ασχοληθώ με ένα τόσο ενδιαφέρον αντικείμενο, που ανταποκρίνεται πλήρως στα επιστημονικά μου ενδιαφέροντα καθώς και για την αμέριστη συμπαράσταση του καθ όλη τη διάρκεια εκπόνησης. Επίσης ευχαριστώ την κυρία Σοφία Στάμου, λέκτορα, του Ιονίου Πανεπιστημίου και τον κύριο Κωνσταντίνο Θεοφιλάτο, υποψήφιο διδάκτορα του Πανεπιστημίου Πατρών για την καθοδήγηση και συμβολή τους στην ολοκλήρωση της παρούσας εργασίας. Τέλος, θέλω να ευχαριστήσω, τους κυρίους Δημήτριο Χριστοδουλάκη, καθηγητή, και Ευστράτιο Γεωργόπουλο, αναπληρωτή καθηγητή, που με τίμησαν με τη συμμετοχή τους στην τριμελή εξεταστική επιτροπή.

7 ΠΕΡΙΛΗΨΗ Η αναγνώριση και κατηγοριοποίηση ονομάτων οντοτήτων είναι μία ιδιαίτερα χρήσιμη υπό-εργασία σε πολλές εφαρμογές επεξεργασίας φυσικής γλώσσας. Σε αυτήν την εργασία παρουσιάζεται μία προσπάθεια αναγνώρισης και κατηγοριοποίησης ονομάτων προσώπων, ημερομηνιών, περιοχών(πόλεων, χωρών) και οργανισμών(π.χ. Δημόσια Επιχείρηση Ηλεκτρισμού) χρησιμοποιώντας μια νέα μέθοδο επιβλεπόμενης μάθησης για ταξινόμηση δεδομένων, τα «Τυχαία Δάση». Η μέθοδος κατηγοριοποίησης αυτή, χρησιμοποιεί ένα σύνολο δέντρων απόφασης, όπου το κάθε ένα «ψηφίζει» μια κατηγορία. Η τελική και οριστική κατηγοριοποίηση γίνεται με το «τυχαίο δάσος» να διαλέγει την κατηγορία με τις περισσότερες ψήφους. Σε μια συλλογή ελληνικών κειμένων, εφαρμόστηκαν τεχνικές επεξεργασίας κειμένων για διαχωρισμό και κατηγοριοποίηση των λέξεων, όπου το αποτέλεσμα που προέκυψε ήταν ένα σύνολο χαρακτηριστικών για κάθε λέξη. Το σύνολο των χαρακτηριστικών χωρίστηκε σε ένα «σύνολο εκπαίδευσης» και ένα «σύνολο ελέγχου». Το «σύνολο εκπαίδευσης» χρησιμοποιήθηκε για την εκπαίδευση του «τυχαίου δάσους». Το τελευταίο, θα χρησιμοποιηθεί για την αναγνώριση της κατηγορίας στην οποία ανήκει μια λέξη. Το Τυχαίο Δάσος που αναπτύχθηκε, ελέγχθηκε με βάση το «σύνολο ελέγχου» και προέκυψαν ικανοποιητικά αποτελέσματα, πιο συγκεκριμένα για την κατάταξη ημερομηνιών και οργανισμών η απόδοση ήταν 96% ενώ η ακρίβειά του ήταν 93%. Επιπλέον, για το πρόβλημα που διερευνάται, συγκρίθηκαν τα αποτελέσματα της χρήσης Μηχανών Διανυσμάτων Υποστήριξης και Νευρωνικών Δικτύων με αυτά των Τυχαίων Δασών.

8 ABSTRACT Name entity recognition and categorization is a very important subtask in several natural language processing applications. In this master thesis, we present an attempt to recognize and categorize person names, temporal expressions(i.e. dates), areas (cities/countries), organizations (e.g. Public Electric Company) by using a new supervised learning method for classification, Random Forests. This classification method, uses a group of decision trees where each tree, votes for one classification category. The Random Forest results to the classification category with the most votes. In a Greek corpus (collection of texts), text processing techniques were applied such as stemming and tokenization. The result obtained was a set of features for each word. The set of features was divided to a train dataset and a test dataset. The train dataset was used in order to train the Random Forest. The latter will classify each word to one of the four categories mentioned before. The Random Forest, was tested against the test dataset and the results were very satisfactory, in particular the performance for classifying dates and organizations was 96%, in addition classification accuracy was 93%. Furthermore, for the problem examined, the results of using Support Vector Machines and Neural Networks, where compared with the ones of Random Forests.

9 Πίνακας Περιεχομένων ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 1: ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ Ορισμός Προβλήματος Ιστορική Ανασκόπηση Ελληνικά Συστήματα ΚΕΦΑΛΑΙΟ 2: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΑΝΑΛΥΣΗ ΓΛΩΣΣΙΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ Εξαγωγή Πληροφορίας Μηχανική Μάθηση Ορισμός Κατηγορίες μηχανικής μάθησης Εκτίμηση επίδοσης αλγορίθμων μηχανικής μάθησης Ακρίβεια (precision) Ανάκληση (recall) Specificity F-measure Λεξιλογική Ανάλυση Διαχωριστής Προτάσεων και Λεκτικών Μονάδων Αναγνώριση Μερών του Λόγου Αναζήτηση σε λεξικό ΚΕΦΑΛΑΙΟ 3: ΤΥΧΑΙΑ ΔΑΣΗ Μηχανική Μάθηση Επιβλεπόμενη μάθηση Μη Επιβλεπόμενη μάθηση Αλγόριθμοι Ταξινόμησης... 39

10 Δέντρα απόφασης/ταξινόμησης Τυχαία Δάση Out- of- bag data Variable Importance Proximities Επιλογή Χαρακτηριστικών (Feature Selection) Πλεονεκτήματα και εφαρμογές ΚΕΦΑΛΑΙΟ 4: ΥΛΟΠΟΙΗΣΗ ΑΛΓΟΡΙΘΜΟΥ ΤΥΧΑΙΩΝ ΔΑΣΩΝ- ΑΠΟΤΕΛΕΣΜΑΤΑ Σκοπός της έρευνας και μορφή των δεδομένων Αλγόριθμος Relief Αλγόριθμος Κατηγοριοποίησης Λέξεων με χρήση Τυχαίων Δασών Αποτελέσματα Αλγορίθμου Τυχαίων Δασών Αξιολόγηση Αποτελεσμάτων Τυχαίων Δασών Σύγκριση Αποτελεσμάτων Τυχαίων Δασών Νευρωνικών Δικτύων Σύγκριση Αποτελεσμάτων Τυχαίων Δασών Μηχανών Διανυσμάτων Υποστήριξης73 ΚΕΦΑΛΑΙΟ 5: ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ Συμπεράσματα Μελλοντική Έρευνα ΠΑΡΑΡΤΗΜΑ ΒΙΒΛΙΟΓΡΑΦΙΑ... 91

11 Κατάλογος Εικόνων Εικόνα 1. Τμήμα εγγράφου στο οποίο οι λέξεις με τονισμένη γραφή αποτελούν οντότητες προς εξαγωγή 26 Εικόνα 2. Στάδια Επεξεργασίας του Συστήματος 31 Εικόνα 3. Αποτέλεσμα του Αναγνωριστή Μερών του Λόγου 33 Εικόνα 4: Βήματα κατασκευής ενός ταξινομητή 41 Εικόνα 5: Ένα απλό Decision Tree 43 Εικόνα 6. Ένα απλό training set 45 Εικόνα 7: Ένα απλό διάγραμμα Τυχαίου Δάσους 48 Εικόνα 8: Variable importance of Colorado data 51 Εικόνα 9: Outlier Analysis for Colorado data 53 Εικόνα 10. Out of Bag Classification Error για ταξινομητή Τυχαίων Δασών 65 Εικόνα 11. Variable Importance για ταξινομητή Τυχαίων Δασών 66 Εικόνα 12: Outlier Analysis για τον Ταξινομητή Τυχαίων Δασών 67 Εικόνα 13: Mean square classification error στο ταξινομητή Νευρωνικών Δικτύων με δεκαέξι κρυφούς νευρώνες 71 Εικόνα 14: Outlier Analysis στον ταξινομητή Νευρωνικών Δικτύων με δεκαέξι κρυφούς νευρώνες 72 Εικόνα 15. Βέλτιστες παράμετροι C και Gamma κατά το Cross Validation για τον ταξινομητή Μηχανών Διανυσμάτων Υποστήριξης 75 Κατάλογος Πινάκων Πίνακας 1: Πίνακας δεδομένων με επιπλέον γνώση για τις κατηγορίες των λέξεων. 39 Πίνακας 2. Proximities για κάθε ζευγάρι περιπτώσεων για ένα δένδρο 52 Πίνακας 3. Μέρος του συνόλου δεδομένων με 60 δείγματα και 7 ιδιότητες 60 Πίνακας 4. Μετρικές Αξιολόγησης του Ταξινομητή Τυχαίων Δασών 67 Πίνακας 5. Ποσοστό εκφράσεων που χαρακτηρίστηκαν λανθασμένα σε κάθε κατηγορία 68 Πίνακας 6. Ανάλυση εκφράσεων που δεν εντοπίστηκαν σε κάθε κατηγορία 69 Πίνακας 7. Μετρικές Αξιολόγησης του Ταξινομητή Νευρωνικών Δικτύων με δεκαέξι κρυφούς νευρώνες 72 Πίνακας 8. Μετρικές Αξιολόγησης του Ταξινομητή Διανυσμάτων Υποστήριξης 75 Πίνακας 9. Συγκριτικά Αποτελέσματα F1-Measure για Τυχαία Δάση και ΜΔΥ 78

12 ΕΙΣΑΓΩΓΗ Η εργασία της αναγνώρισης και κατηγοριοποίησης ονομάτων οντοτήτων (nameentity recognition and categorization) αποσκοπεί στον εντοπισμό και την κατάταξη σε κατηγορίες, ονομάτων οντοτήτων που εμφανίζονται σε συλλογές κειμένων. Στόχος είναι ο εντοπισμός ονομάτων προσώπων και εταιρειών, τοπωνυμικών, ημερομηνιών, αριθμητικών εκφράσεων, ονομάτων πρωτεϊνών σε ιατρικά κείμενα, ονομάτων προϊόντων σε ιστοσελίδες κ.α. Η αναγνώριση και κατηγοριοποίηση ονομάτων οντοτήτων αποτελεί προκαταρκτικό στάδιο σε πολλά συστήματα επεξεργασίας φυσικής γλώσσας, όπως τα συστήματα εξαγωγής πληροφοριών από κείμενα και τα συστήματα ερωταποκρίσεων για συλλογές κειμένων. Με την αναγνώριση και κατηγοριοποίηση ονομάτων οντοτήτων, κυρίως για αγγλικά κείμενα, έχουν ασχοληθεί αρκετά διεθνή συνέδρια, τα σημαντικότερα των οποίων ήταν τα Message Understanding Conferences (MUC) [1],[2]. Σε αυτά συμμετείχαν, αρχικά κυρίως, συστήματα που στηρίζονταν σε χειρωνακτικά κατασκευασμένους κανόνες. Σταδιακά προστέθηκαν συστήματα που χρησιμοποιούσαν μηχανική μάθηση. Το θέμα της αναγνώρισης και κατηγοριοποίησης ονομάτων οντοτήτων έχει απασχολήσει και το συνέδριο Computational Natural Language Learning [3]. Ένα μέτρο αξιολόγησης που χρησιμοποιείται σε αυτή την περιοχή είναι το F-measure, ένας συνδυασμός ανάκλησης και ακρίβειας που προέρχεται από την ανάκτηση πληροφοριών και ορίζεται παρακάτω. Το F-measure των συστημάτων αναγνώρισης και κατηγοριοποίησης ονομάτων οντοτήτων έχει πλέον ξεπεράσει το 93-94% για τα αγγλικά κείμενα. Για τα ελληνικά κείμενα έχουν γίνει σχετικές προσπάθειες, από το Ινστιτούτο Επεξεργασίας του Λόγου και το Ε.Κ.Ε.Φ.Ε. «Δημόκριτος», με μεθόδους παρόμοιες εκείνων που έχουν χρησιμοποιηθεί για αγγλικά κείμενα. Τα περισσότερα από τα ελληνικά συστήματα, όμως, δεν είναι ελεύθερα διαθέσιμα. 12

13 Σε αυτή την εργασία παρουσιάζεται μια νέα προσέγγιση για κατασκευή ενός συστήματος αναγνώρισης και κατηγοριοποίησης ονομάτων οντοτήτων για ελληνικά κείμενα. Έχουν ήδη παρουσιαστεί συστήματα που κάνουν χρήση της μεθόδου επιβλεπόμενης μάθησης Μηχανές Διανυσμάτων Υποστήριξης (SVM- Support Vector Machines)[4]. H προσπάθεια αφορά αναγνώριση α) ονομάτων προσώπων, β) ημερομηνιών, γ) περιοχών (πόλεων/χωρών) και δ) οργανισμών. Στόχος είναι το σύστημα που αναπτύχθηκε να επεκταθεί στη διάρκεια μελλοντικών εργασιών, ώστε να υποστηρίζει και άλλες κατηγορίες ονομάτων. Το σύστημα χρησιμοποιεί μια μέθοδο επιβλεπόμενης μηχανικής μάθησης τα Τυχαία Δάση (RF, Random Forests) [5]. Το Τυχαίο Δάσος είναι ένα ταξινομητής που αποτελείται από πολλά δέντρα απόφασης και σαν αποτέλεσμα, εξάγει την κατηγορία που «αποφασίζεται» περισσότερες φορές από τα μεμονωμένα δέντρα. Βασικός σκοπός της εργασίας ήταν να ερευνηθεί, αν τα Τυχαία Δάση μπορούν να επιτύχουν καλύτερη απόδοση στο πρόβλημα της αναγνώρισης και κατάταξης ονομάτων οντοτήτων, σε σχέση με προσεγγίσεις που έχουν παρουσιαστεί στο παρελθόν. Για να γίνει εφικτή η εφαρμογή της μεθόδου αυτής σε ένα σύνολο κειμένων, προηγήθηκε η συλλογή και η επεξεργασία ελληνικών κειμένων ποικίλης θεματολογίας. Εφαρμόστηκαν τεχνικές επεξεργασίας κειμένων όπως αναζήτηση ρίζας μιας λέξης (stemming), διαχωρισμός λέξεων/προτάσεων (tokenization), εύρεση του μέρους του λόγου κάθε λέξης(part-of-speech tagging) και αναζήτηση σε λεξικό(dictionary lookup). Τα αποτελέσματα της επεξεργασίας αυτής ήταν ένα σύνολο χαρακτηριστικών για κάθε λέξη, μέρος του οποίου χρησιμοποιήθηκε για την εκπαίδευση του ταξινομητή («Τυχαίο Δάσος»). Άλλο μέρος του συνόλου αυτού απομονώθηκε για να μην λάβει μέρος στην εκπαίδευση και να αποτελέσει το σύνολο ελέγχου του ταξινομητή κατά την διεξαγωγή των πειραμάτων. Τα πειραματικά αποτελέσματα της εργασίας δείχνουν ότι η χρήση Τυχαίων Δασών, με βάση το μέτρο αξιολόγησης F-measure, επιτυγχάνει καλύτερη απόδοση σε σχέση με τις Μηχανές Διανυσμάτων Υποστήριξης. Συγκεκριμένα, για την κατηγοριοποίηση ημερομηνιών και οργανισμών το F-measure είχε τιμή 96%. 13

14 Στη συνέχεια, στο Κεφάλαιο 1, επιχειρείται ο ορισμός του προβλήματος «αναγνώριση και κατηγοριοποίηση ονομάτων οντοτήτων», μέσω παρουσίασης παλαιότερων προσεγγίσεων που έχουν δημοσιευτεί, όσο αναφορά πάντα, τα ελληνικά κείμενα. Στο Κεφάλαιο 2, θα αναλυθούν οι τεχνικές επεξεργασίας ελληνικών κειμένων που εφαρμόστηκαν και θα περιγραφεί ο τρόπος με τον οποίο δημιουργήθηκε το σύνολο των χαρακτηριστικών για το σύνολο των λέξεων που έλαβε μέρος στην εκπαίδευση και τον έλεγχο του τυχαίου δάσους. Στο Κεφάλαιο 3, θα αναλυθεί η μέθοδος των Τυχαίων Δασών και θα παρουσιαστούν τεχνικές(cross validation και επιλογής χαρακτηριστικών) που εφαρμόστηκαν για την ανάλυση του συνόλου των χαρακτηριστικών, τα οποία χρησιμοποιήθηκαν στην εκπαίδευση του τυχαίου δάσους. Στο Κεφάλαιο 4, παρουσιάζεται η μορφή των κειμένων που χρησιμοποιήθηκαν, οι κανόνες διαχωρισμού του συνόλου των χαρακτηριστικών σε εκπαίδευσης/ελέγχου, ο αλγόριθμος που υλοποιήθηκε και τα πειραματικά αποτελέσματα. Επίσης, γίνεται η σύγκριση των πειραματικών αποτελεσμάτων για Τυχαία Δάση σε σχέση με τα πειραματικά αποτελέσματα Νευρωνικών Δικτύων και Μηχανών Διανυσμάτων Στήριξης στο ίδιο σύνολο χαρακτηριστικών. Στο Κεφάλαιο 5, συνοψίζονται τα συμπεράσματα της εργασίας και προτείνονται τομείς μελλοντικής έρευνας. Η διπλωματική εργασία ολοκληρώνεται με την παράθεση των βιβλιογραφικών πηγών, που χρησιμοποιήθηκαν για την περάτωσή της. 14

15 ΚΕΦΑΛΑΙΟ 1: ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΕΠΙΣΚΟΠΗΣΗ 1.1. Ορισμός Προβλήματος Η παρούσα διπλωματική εργασία ερευνά τη δυνατότητα αξιοποίησης μιας μεθόδου μηχανικής μάθησης για επεξεργασία φυσικής γλώσσας με σκοπό την δημιουργία αξιοποιήσιμων συστημάτων, άμεσα εφαρμόσιμων για την επεξεργασία κειμένων. Η αυξανόμενη διαθεσιμότητα σωμάτων κειμένων (corpora), οφειλόμενη εν πολλοίς στην ανάπτυξη του παγκόσμιου ιστού και ο συνδυασμός τους με μεθόδους μηχανικής μάθησης, οδηγεί στην ολοένα αυξανόμενη χρήση των συστημάτων επεξεργασίας φυσικής γλώσσας. Η γλωσσική προ-επεξεργασία αποτελεί ένα από τα πρώτα στάδια ενός συστήματος επεξεργασίας φυσική γλώσσας, και συνεπώς εξαγωγής πληροφορίας. Η προεπεξεργασία συνήθως περιλαμβάνει κάποιες βασικές εργασίες, όπως η αναγνώριση λέξεων, προτάσεων, μέρων του λόγου των λέξεων, ενώ συχνά περιλαμβάνει και πιο σύνθετη μορφολογική ανάλυση, όπως η εύρεση θεμάτων ή λημμάτων λέξεων. Η εργασία οριοθετείται σε δυο σημαντικούς άξονες ενός συστήματος εξαγωγής πληροφορίας: Τεχνικές γλωσσικής επεξεργασίας για την Ελληνική γλώσσα. Αναγνώριση ονομάτων οντοτήτων. Ο όρος «τεχνικές γλωσσικής επεξεργασίας» αναφέρεται στη διαδικασία ανάλυσης ενός κειμένου με σκοπό την αναζήτηση της αρχής και του τέλους κάθε περιόδου, την αναγνώριση του μέρους του λόγου κάθε λέξης, την εύρεση της ρίζας της αλλά και άλλων γλωσσικών χαρακτηριστικών της που θα βοηθήσουν ένα σύστημα επεξεργασίας φυσικής γλώσσας στην εξαγωγή πληροφορίας από το κείμενο. Η αναγνώριση μερών του λόγου 15

16 συχνά αποτελεί μέρος μιας ευρύτερης ανάλυσης, γνωστή με την ονομασία μορφολογική ανάλυση, η οποία απαντάται σε αρκετά συστήματα επεξεργασίας φυσικής γλώσσας. Η ευρύτητα χρήσης των αναγνωριστικών μερών του λόγου αποτελεί μια ισχυρή ένδειξη της σημαντικότητας αυτής της ερευνητικής περιοχής, η οποία είναι ταυτόχρονα εξαιρετικά ενδιαφέρουσα ερευνητικά, ιδιαίτερα όταν αφορά γλώσσες με πλούσια μορφολογία όπως η Ελληνική. Η «αναγνώριση ονομάτων οντοτήτων», περιλαμβάνει τον εντοπισμό λέξεων και φράσεων, οι οποίες αποτελούν το όνομα κάποιας οντότητας και τον προσδιορισμό της κατηγορίας της οντότητας αυτής (πρόσωπο, τοποθεσία, οργανισμός, ημερομηνία κλπ). Ένα σημαντικό εμπόδιο στο πρόβλημα αυτό είναι η αποσαφήνιση (disambiguation) όρων. Για παράδειγμα η χώρα Ελλάδα μπορεί να αναγνωριστεί ως Ελλάδα, Ελλάς, και Ελληνική Δημοκρατία, ενώ μπορεί να υπάρχουν και διαφορετικές οντότητες με παρόμοια ονόματα. Η εργασία αυτή στοχεύει στην αναγνώριση ονομάτων οντοτήτων σε μεγάλα σύνολα εγγράφων και στη κατάταξη τους σε προκαθορισμένες οντότητες, μέσω αναγνώρισης παρόμοιων χαρακτηριστικών μεταξύ τους. Ο τομέας αυτός συγκεντρώνει μεγάλο επιστημονικό ενδιαφέρον καθώς υπάρχει η ανάγκη για αναγνώριση/κατηγοριοποίηση οντοτήτων τόσο στην βίο-πληροφορική/βίοιατρική, στην μοριακή βιολογία και στην οικολογία. Ταυτόχρονα έχουν προταθεί στην βιβλιογραφία, συστήματα για αναγνώριση και κατηγοριοποίηση ονομάτων/οντοτήτων στις περισσότερες γλώσσες, χαρακτηριστικά παραδείγματα αποτελούν τα Γιαπωνέζικα[6], τα Κινέζικα[7] και τα Πορτογαλικά [8]. 16

17 1.2. Ιστορική Ανασκόπηση Η ιστορία της επεξεργασίας φυσικής γλώσσας είναι συνυφασμένη με την εξέλιξη των ηλεκτρονικών υπολογιστών (Η/Υ) και την εξέλιξη της τεχνητής νοημοσύνης. Από πολύ νωρίς η επεξεργασία κειμένων ήταν ένα επιθυμητό πεδίο εφαρμογής των Η/Υ, έχοντας σαν αποτέλεσμα μια πλούσια βιβλιογραφία η οποία περιλαμβάνει αρκετές δεκαετίες έρευνας. Η αναγνώριση μέρων του λόγου είναι μια περιοχή με σημαντικό ερευνητικό ενδιαφέρον, αφού η μορφολογική πληροφορία που αποδίδεται σε κάθε λέξη ενός κειμένου αποτελεί την βάση για την περαιτέρω επεξεργασία του. Φυσικά οι πρώτες προσπάθειες αφορούσαν την κλασική ανάπτυξη αναγνωριστών μέρων του λόγου, με την μορφή έμπειρων συστημάτων (expert systems). Οι ειδικοί (γλωσσολόγοι) κωδικοποιούσαν την γλωσσολογική πληροφορία με την μορφή κανόνων και περιορισμών, μέσω των οποίων γινόταν ο χαρακτηρισμός των λέξεων. Παραδείγματα τέτοιων συστημάτων μπορούν να βρεθούν από αρκετές δεκαετίες πριν [9] μέχρι σχετικά πρόσφατα [10]. Ωστόσο, η ανάπτυξη κάθε έμπειρου συστήματος είναι μια χρονοβόρα και ακριβή διαδικασία, ενώ η εφαρμοσιμότητά του είναι περιορισμένη, εξαρτώμενη από την ειδικευμένη γνώση των κανόνων και περιορισμών, καθώς και την προσέγγιση του ειδικού στο πρόβλημα. Η αναγνώριση μερών του λόγου ήταν μια από τις πρώτες μορφές επεξεργασίας φυσικής γλώσσας όπου εφαρμόστηκαν τεχνικές μηχανικής μάθησης, η εκπαίδευση των οποίων βασιζόταν στην διαθεσιμότητα κατάλληλα επί-σημειωμένων σωμάτων κειμένων. Τα βασικά μέτρα επίδοσης είναι η ανάκληση(recall), η ακρίβεια (precision) και το F- measure, το οποίο αποτελεί ένα συνδυασμό ακρίβειας και ανάκλησης. Τα μέτρα αυτά, χρησιμοποιήθηκαν και για την αξιολόγηση του συστήματος που παρουσιάζεται στην παρούσα εργασία και ορίζονται στην ενότητα 2.3 Εκτίμηση επίδοσης αλγορίθμων μηχανικής μάθησης. Οι πρώτες προσπάθειες αφορούσαν την χρήση κρυφών μοντέλων Markov (Hidden Markov models- HMMs) [11], [12]. Τα κρυφά μοντέλα Markov υποθέτουν ότι οι πιθανότητες κατηγοριοποίησης μιας λέξης v εξαρτώνται μόνο από τις πιθανότητες των προηγούμενων ν-1 λέξεων. Αν και αυτή η υπόθεση για την 17

18 συγκεκριμένη εργασία είναι προφανώς λανθασμένη, η εφαρμογή των κρυφών μοντέλων Markov οδήγησε σε αρκετά ακριβή αποτελέσματα στην αναγνώριση μερών του λόγου, η επίδοση των οποίων κυμαίνεται από 95% έως 98% για την Αγγλική γλώσσα. Λόγω της υπόθεσης, ότι η κατηγοριοποίηση μιας λέξης εξαρτάται μόνο από τις v-1 προηγούμενες λέξεις, οι αναγνωριστές αυτοί είναι γνωστοί και με την ονομασία «ν- γραμματικοί αναγνωριστές» (n-gram taggers), ενώ μια συνήθης τιμή του v είναι 3 («τρι-γραμματικοί αναγνωριστές» trigram taggers). Η καλή επίδοση των κρυφών μοντέλων Markov οδήγησε την χρήση τους σε μια πληθώρα γλωσσών, συμπεριλαμβανομένης και της Ελληνικής γλώσσας [13]. Μια παρεμφερή προσέγγιση αποτελεί η χρήση νευρωνικών δικτύων [14], η οποία αποδίδει συγκρίσιμα ή και λίγο καλύτερα με τα κρυφά μοντέλα Markov. Πιο πρόσφατες μέθοδοι αφορούν την χρήση στατιστικών μεθόδων, που βασίζονται στην μεγιστοποίηση της εντροπίας (maximum entropy) [15], [16], [17], [18], [19], αλλά και σε αποθήκευση στην μνήμη (memory-based learning) [20]. Ταυτόχρονα, για αγγλικά κείμενα, παρουσιάστηκαν σε διεθνή συνέδρια και άλλα παρόμοια συστήματα όπως το LaSIE του Πανεπιστημίου του Sheffield, το οποίο βασιζόταν σε 206 χειρωνακτικά κατασκευασμένους κανόνες γραμματικής και η συνολική ακρίβεια του συστήματος ήταν 92%. Χρησιμοποιείται επισημειωτής μέρων του λόγου (part-of-speech tagger), διαχωριστής περιόδων, καθώς και λίστες με ονόματα διαφόρων κατηγοριών. To FACILE [21] του Πανεπιστημίου του Μάντσεστερ, χρησιμοποιεί επίσης, προσέγγιση βασισμένη σε κανόνες προτύπων, οι οποίοι κατασκευάστηκαν χειρωνακτικά. Η ακρίβεια του συστήματος ήταν 87%. Το κύριο χαρακτηριστικό του συστήματος ήταν ότι τα πρότυπα λαμβάνουν υπόψη τα συμφραζόμενα, ενώ χρησιμοποιούνται βάρη ούτως ώστε να επιλεχθεί ποιος κανόνας θα εφαρμοστεί. Το σύστημα MENE [22] του Πανεπιστημίου της Νέας Υόρκης, που συμμετείχε στο MUC-7[2], βασίζεται στο μοντέλο της μέγιστης εντροπίας (maximum entropy mode). Χρησιμοποιεί συνολικά 29 ετικέτες για τις 8 κατηγορίες (7 κατηγορίες οντοτήτων και η κατηγορία μη-οντότητα) και συγκεκριμένα: αρχή οντότητας, τέλος οντότητας, μέση οντότητας και μονολεκτική οντότητα (4*7 + 1 = 29). Χρησιμοποιούνται δυαδικές ιδιότητες για να αναπαρασταθούν μορφολογικά χαρακτηριστικά των λέξεων, καθώς και 18

19 ιδιότητες που προκύπτουν από λίστες ονομάτων προσώπων, οργανισμών και τοποθεσιών. Το F-measure που πέτυχε το σύστημα στην επίσημη αξιολόγηση του MUC-7 είναι 88,8%. Το σύστημα της ομάδας LTG [23],[24] του Πανεπιστημίου του Εδιμβούργου ακολουθεί την υβριδική μέθοδο. Το σύστημα αυτό χρησιμοποιεί πολλαπλά περάσματα (πέντε), μια ιδέα η οποία εφαρμόστηκε και σε σύστημα αναγνώρισης ονομάτων οντοτήτων για την ελληνική γλώσσα [4]. Στο πρώτο στάδιο εφαρμόζονται χειρωνακτικά κατασκευασμένοι «σίγουροι» κανόνες, οι οποίοι βασίζονται στην ύπαρξη φράσεων όπως Mr., Dr., Ltd., Inc., και χρησιμοποιούνται λίστες με ονόματα οργανισμών και τοπωνυμιών. Σε αυτό το στάδιο αποφεύγεται να χαρακτηριστούν ως οντότητες ονόματα για τα οποία το σύστημα δεν είναι απολύτως σίγουρο. Για παράδειγμα, η λέξη Washington παρόλο που ανήκει στη λίστα με τα τοπωνύμια δεν χαρακτηρίζεται ως τοπωνύμιο σε αυτήν τη φάση, καθώς μπορεί να αποτελεί στη συγκεκριμένη εμφάνισή της επώνυμο ή όνομα οργανισμού. Με βάση τα αποτελέσματα του σταδίου αυτού, στο επόμενο στάδιο συλλέγονται οι εκφράσεις που χαρακτηρίστηκαν ως ονόματα οντοτήτων και γίνεται προσπάθεια να βρεθούν όλες οι διαφορετικές εμφανίσεις τους στο κείμενο. Λέγοντας διαφορετικές εμφανίσεις εννοείται ότι οι εκφράσεις διασπώνται στις διάφορες λέξεις από τις οποίες αποτελούνται, ούτως ώστε να είναι δυνατόν να εντοπιστούν ακόμα και αν δεν εμφανίζονται ολόκληρες σε άλλα σημεία. Για παράδειγμα, αν στο πρώτο στάδιο έχει εντοπιστεί το όνομα του οργανισμού Adam Kluver Ltd, τότε εμφανίσεις όπως Kluver Ltd ή Adam Ltd σημειώνονται στο δεύτερο στάδιο ως πιθανά ονόματα οργανισμών. Στη συνέχεια, εφαρμόζεται ένα πιθανοτικό μοντέλο μέγιστης εντροπίας. Στην περίπτωση όπου το μοντέλο χαρακτηρίσει κάποια φράση, που προέκυψε από το δεύτερο στάδιο, ως οντότητα τότε οριστικοποιείται η κατηγορία της. Στο τρίτο στάδιο εφαρμόζονται και πάλι γραμματικοί κανόνες, με τη διαφορά ότι οι αρχικοί κανόνες χαλαρώνουν, δηλαδή δεν είναι τόσο αυστηροί, και χρησιμοποιούν τα αποτελέσματα των προηγούμενων σταδίων. Σε αυτήν τη φάση χρησιμοποιείται και μια λίστα με ονόματα προσώπων. Η λίστα αυτή δεν χρησιμοποιήθηκε προηγουμένως, καθώς μπορούσε ένα όνομα προσώπου να συμμετέχει σε όνομα οργανισμού. Επίσης, λαμβάνεται απόφαση 19

20 για τις περιπτώσεις συνένωσης. Για παράδειγμα, για τη φράση China International Trust and Investment Corp, την οποία οι κανόνες της πρώτης φάσης απέφυγαν να σημειώσουν καθώς δεν μπορούσαν να είναι σίγουροι αν πρόκειται για μια ή δυο εταιρίες που συνδέονται με το and, αποφασίζεται αν αποτελεί ένα ή δυο οργανισμούς, βάσει άλλων εμφανίσεων της στο ίδιο κείμενο. Στο τέταρτο στάδιο ακολουθείται ακριβώς η ίδια διαδικασία με το δεύτερο, χρησιμοποιώντας τις επιπλέον πληροφορίες του τρίτου σταδίου. Η τελευταία φάση αφορά αποκλειστικά κάποιους τίτλους, οι οποίοι είναι γραμμένοι με κεφαλαία γράμματα. Τελικά, το F-measure του συστήματος είναι περίπου 93%. Το σύστημα του Florian κ.α. [25] αγγίζει για το F-measure τιμή κοντά στο 94% στα αγγλικά κείμενα για την κατηγορία των ονομάτων προσώπων και συνολικά περίπου 89% για όλες τις κατηγορίες. Συνδυάζει τέσσερις διαφορετικούς ταξινομητές (κανόνες προτύπων, κρυφά μοντέλα Markov, συμπαγής ταξινομητής ελαχιστοποίησης του ρίσκου robust risk minimization classifier, μοντέλο μέγιστης εντροπίας), οι οποίοι ψηφίζουν με διαφορετικό βάρος ο καθένας. Χρησιμοποιεί επίσης επισημειωτή μερών του λόγου, καθώς και λίστες με διάφορες κατηγορίες ονομάτων. Το σύστημα των Chieu και Ng [26] βασίζεται στο μοντέλο της Μέγιστης Εντροπίας. To ενδιαφέρον στο σύστημα είναι ότι δε λαμβάνει απλώς υπόψη τα συμφραζόμενα της υπό εξέταση λέξης και τα μορφολογικά χαρακτηριστικά της, αλλά χρησιμοποιεί και την πληροφορία προηγούμενων εμφανίσεων της λέξης στο ίδιο κείμενο. Για παράδειγμα, υπάρχει μια λίστα με λέξεις που προηγούνται από ονόματα προσώπων, η οποία κατασκευάζεται δυναμικά για κάθε κείμενο ξεχωριστά. Αν η προηγούμενη λέξη της υπό εξέτασης λέξης ανήκει σε αυτή τη λίστα, τότε ενημερώνεται η τιμή της κατάλληλης ιδιότητας. Το F-measure που επιτεύχθηκε για την κατηγορία ονομάτων προσώπων είναι 93,5%, ενώ το συνολικό F-measure για όλες τις κατηγορίες ξεπερνάει το 88%. 20

21 Ελληνικά Συστήματα Όσον αφορά την Ελληνική γλώσσα, αρκετές από τις παραπάνω τεχνικές έχουν εφαρμοστεί με αρκετή επιτυχία. Γενικά, τα περισσότερα ελληνικά συστήματα προϋποθέτουν έναν επισημειωτή μερών του λόγου, γεγονός αναμενόμενο λόγω της περίπλοκης μορφολογίας της ελληνικής γλώσσας. Στο [27] (Καρκαλέτσης κ.α.) συγκρίνονται δυο διαφορετικές προσεγγίσεις για τις κατηγορίες των ονομάτων προσώπων και των ονομάτων οργανισμών. Η πρώτη βασίζεται σε χειρωνακτικά κατασκευασμένους κανόνες γραμματικής. Τα κείμενα αποτελούνται από άρθρα γενικών θεμάτων, ενώ η ανάκληση(recall) του συστήματος για την κατηγορία των ονομάτων προσώπων είναι 77% και η ακρίβεια (precision) πλησιάζει το 89%. Κατά την δεύτερη προσέγγιση διερευνάται η χρήση του αλγορίθμου C4.5 (αλγόριθμος που χρησιμοποιείται για την δημιουργία δέντρων απόφασης που αναπτύχθηκε από τον Quinlan [28]), η οποία αποφέρει καλύτερα αποτελέσματα, 95% για την ακρίβεια και 80% για την ανάκληση. Ο επισημειωτής μερών του λόγου τροφοδοτεί με ιδιότητες τον C4.5, ενώ χρησιμοποιούνται και οι λίστες ονομάτων. Το σύστημα των Μπούτση κ.α. [29] χρησιμοποιεί 110 χειρωνακτικά κατασκευασμένους κανόνες για τις εκφράσεις ονομάτων οντοτήτων του MUC-7 [2]. Οι υπό-διαδικασίες από τις οποίες αποτελείται είναι: διαχωρισμός λεκτικών μονάδων, επισημείωση μερών του λόγου, αποκοπή καταλήξεων, αναζήτηση σε λίστες ονομάτων και εφαρμογή κανόνων. Ενδιαφέρον παρουσιάζει το γεγονός ότι επιλέχθηκαν κείμενα που περιέχουν μεγάλο αριθμό λέξεων που αρχίζουν με το κεφαλαίο γράμμα, καθώς και ότι οι κανόνες λαμβάνουν υπόψη τους αυτό το γεγονός. Τα κείμενα που χρησιμοποιήθηκαν είναι κατά κύριο λόγο οικονομικού περιεχομένου(από οικονομικές εφημερίδες). Το F-measure για την κατηγορία ονομάτων προσώπων είναι 71%, ενώ το συνολικό για όλες τις κατηγορίες 83%. Οι Δερματάς και Κοκκινάκης [13] εφάρμοσαν μοντέλα Markov, με το σύστημα να πετυχαίνει επίδοση 95% έχοντας εκπαιδευτεί με βάση ένα σώμα κειμένων αποτελούμενο από λέξεις. Στην περίπτωση του αναγνωριστή μερών του λόγου 21

22 που παρουσιάζεται στις εργασίες [30] και [31], εφαρμόζονται δέντρα αποφάσεων σε συνεργασία με ένα μορφολογικό λεξικό, όπου τα δέντρα αποφάσεων καλούνται να άρουν την αμφισημία λέξεων που ανήκουν σε περισσότερα από ένα μέρη του λόγου σύμφωνα με το λεξικό, καθώς και να αναγνωρίσουν το μέρος του λόγου σε λέξεις που δεν περιέχονται στο λεξικό. Η επίδοση του συστήματος κυμαίνεται από 93% έως 95% για την αποσαφήνιση, και από 82% έως 88% για την κατηγοριοποίηση άγνωστων στο λεξικό λέξεων. Αντίστοιχα, ο Μαλακασιώτης [32] εφάρμοσε ενεργητική μάθηση (active learning) πετυχαίνοντας μια επίδοση της τάξης του 80%. To σύστημα των Φαρμακιώτου κ.α. [33] αφορά αποκλειστικά οικονομικά κείμενα, βασίζεται σε χειρωνακτικά κατασκευασμένη γραμματική κανόνων, ενώ αποτελεί μέρος ενός μεγαλύτερου ελληνικού συστήματος εξαγωγής πληροφοριών. Το F-measure για την κατηγορία των ονομάτων προσώπων είναι 81,6%. Και σε αυτήν την περίπτωση χρησιμοποιείται επισημειωτής μερών του λόγου, καθώς και λίστες με ονόματα. Επίσης, αποκόπτεται η κατάληξη των λέξεων, απομακρύνονται οι τόνοι και οι λέξεις μετατρέπονται στις αντίστοιχες με μικρά γράμματα, ούτως ώστε να μειωθεί το μέγεθος των λιστών που χρησιμοποιούνται. Γενικά, το σύστημα χωρίζεται σε δύο στάδια. Στο πρώτο γίνεται προσπάθεια να βρεθούν τα όρια των ονομάτων οντοτήτων χρησιμοποιώντας 3 προκαθορισμένα πρότυπα, ενώ στο δεύτερο (στάδιο κατηγοριοποίησης) εφαρμόζονται οι κανόνες με τη βοήθεια των λιστών ονομάτων οντοτήτων. Μια ενδιαφέρουσα προσέγγιση είναι το σύστημα των Πετάση κ.α. [34], όπου χρησιμοποιείται μηχανική μάθηση για να ενημερώνονται οι κανόνες της γραμματικής του συστήματος. Ουσιαστικά, πρόκειται για δυο υποσυστήματα, ένα κανόνων γραμματικής (χρησιμοποιείται το σύστημα των Φαρμακιώτου κ.α. που παρουσιάστηκε προηγουμένως) και ένα μηχανικής μάθησης όπου χρησιμοποιείται ο C4.5. Στην αρχή εφαρμόζεται το σύστημα των κανόνων και επισημειώνονται τα κείμενα. Στην συνέχεια, χρησιμοποιώντας τα κείμενα αυτά (δεν χρειάζεται επιπλέον επισημείωση) εκπαιδεύεται ο C4.5. Ακολούθως, σε μια καινούργια συλλογή εφαρμόζονται οι κανόνες και εκτελείται 22

23 ο C4.5 που εκπαιδεύτηκε προηγουμένως. Τελικά, μελετάται η απόκλιση μεταξύ των δυο συστημάτων και μεταβάλλεται κατάλληλα η γραμματική του πρώτου συστήματος. Στο [4] (Λουκαρέλλι, κ.α.) παρουσιάζεται μία προσπάθεια αναγνώρισης και κατηγοριοποίησης ονομάτων προσώπων και χρονικών εκφράσεων χρησιμοποιώντας Μηχανές Διανυσμάτων Υποστήριξης και ημι-αυτόματα παραγόμενα πρότυπα αντίστοιχα. Το σύστημα που αναπτύχθηκε ελέγχθηκε σε δύο διαφορετικές συλλογές ελληνικών κειμένων με ικανοποιητικά αποτελέσματα. Επιπλέον, διερευνήθηκαν τα αποτελέσματα της χρήσης ενεργητικής μάθησης και βρέθηκε πως η ενεργητική μάθηση βοηθάει σημαντικά στη μείωση του απαιτούμενου αριθμού των επισημειωμένων κειμένων εκπαίδευσης. Η αξιολόγηση του συστήματος έγινε σε δυο διαφορετικές συλλογές κειμένων, μια ποικίλης θεματολογίας και μια οικονομικών κειμένων. Στην πρώτη συλλογή το F-measure της κατηγορίας των ονομάτων προσώπων με χρήση Μηχανών Διανυσμάτων Υποστήριξης πλησιάζει το 87,5%, ενώ της κατηγορίας των χρονικών εκφράσεων με χρήση ημι-αυτόματων παραγόμενων προτύπων ξεπερνάει το 94,5%. Για τη δεύτερη συλλογή τα αντίστοιχα αποτελέσματα είναι 93,34% και 96,46%. 23

24 ΚΕΦΑΛΑΙΟ 2: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΑΝΑΛΥΣΗ ΓΛΩΣΣΙΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ Στο κεφάλαιο αυτό παρουσιάζονται οι βασικές έννοιες που απαιτούνται για την κατανόηση των μεθόδων και τεχνικών που αναπτύχθηκαν στα πλαίσια τη παρούσας εργασίας. Συγκεκριμένα, γίνεται αναφορά στις έννοιες που αφορούν την εξαγωγή πληροφορίας από κείμενα, την μηχανική μάθηση και την εκτίμηση της επίδοσης αλγορίθμων μηχανικής μάθησης Εξαγωγή Πληροφορίας O όρος «εξαγωγή πληροφορίας» αναφέρεται στην αυτόματη εξαγωγή δομημένης πληροφορίας (structured information) από αδόμητο κείμενο, κυρίως σε φυσική γλώσσα. Λόγω της γενικότητας του όρου «δομημένη πληροφορία», η εξαγωγή πληροφορίας καλύπτει μια ευρεία ερευνητική περιοχή, από τον απλό εντοπισμό στοιχείων από ιστοσελίδες με χρήση προτύπων (patterns) και κανονικών γραμματικών (regular grammars), μέχρι την σημασιολογική ανάλυση της γλώσσας για εξαγωγή νοήματος και εννοιών, όπως οι ερευνητικές περιοχές της αποσαφήνισης εννοιών λέξεων (word sense disambiguation) ή της ανάλυσης συναισθήματος (sentiment analysis). Η βασική ιδέα της εξαγωγής πληροφορίας (η συγκέντρωση της βασικής πληροφορίας ενός εγγράφου σε δομημένη μορφή, κυρίως με την μορφή πίνακα) είναι αρκετά παλαιά, με τις πρώτες προσεγγίσεις να εμφανίζονται την δεκαετία του 1950, όπου η εφαρμοσιμότητα της εξαγωγής πληροφορίας προτάθηκε από τον Zellig Harris, με τα πρώτα πρακτικά συστήματα να εμφανίζονται στα τέλη της δεκαετίας του 1970, όπως τα συστήματα του Roger Schank [35], [36], που εξήγαγαν πληροφορία από ειδησεογραφικά άρθρα εφημερίδων. 24

25 Το γεγονός ότι η έξοδος ενός συστήματος εξαγωγής πληροφορίας είναι δομημένη πληροφορία, συχνά σε μορφή πίνακα, ήταν ένα σημαντικό πλεονέκτημα που βοήθησε στην εξέλιξη της ερευνητικής περιοχής. Η ευκολία αποτίμησης (evaluation) των συστημάτων εξαγωγής πληροφορίας έναντι άλλων τεχνολογιών επεξεργασίας φυσικής γλώσσας όπως η μηχανική μετάφραση ή εξαγωγή περιλήψεων, όπου η αποτίμηση είναι ακόμα ένα ανοικτό ερευνητικό ζήτημα, τα έκανε αρκετά δημοφιλή. Η ευκολία αποτίμησης σε συνδυασμό με τις άμεσες εφαρμογές, οδήγησε σε χρηματοδότηση της ερευνητικής περιοχής καθώς και στα συνέδρια αξιολόγησης Message Understanding Conferences (MUC), [37],[1],[2], τα οποία επαναπροσδιόρισαν την περιοχή. Η εξαγωγή πληροφορίας δεν πρέπει να συγχέεται με την ανάκτηση πληροφορίας (information retrieval) όπου το πρόβλημα είναι ο εντοπισμός και η ανάκτηση σχετικών εγγράφων από ένα σύνολο εγγράφων. Ταυτόχρονα, δεν πρέπει να συγχέεται και με την κατανόηση κειμένου(text understanding), το οποίο είναι ένα περιπλοκότερο πρόβλημα. Η εξαγωγή πληροφορίας τοποθετείται μεταξύ της ανάκτησης πληροφορίας και της κατανόησης κειμένων. Αντίθετα από την ανάκτηση πληροφορίας, όπου ο στόχος είναι να βρεθούν κείμενα (ή περιοχές τους) σχετικά με ένα θέμα ή ένα ερώτημα, η εξαγωγή πληροφορίας στοχεύει στον αυτόματο προσδιορισμό καθορισμένων τύπων οντοτήτων, σχέσεων ή γεγονότων σε ελεύθερο κείμενο. Πιο συγκεκριμένα, ένας τομέας της εξαγωγής πληροφορίας ασχολείται με την εξαγωγή οντοτήτων (entities): κειμενικές περιοχές ιδιαίτερου ενδιαφέροντος, όπως ονόματα προσώπων, τοποθεσιών, οργανισμών, κλπ., καθώς και χρονικές εκφράσεις (π.χ. ημερομηνίες). Για τον ορισμό της εξαγωγής πληροφορίας προ-απαιτούνται οι ακόλουθες έννοιες και ορισμοί: Έστω ένα έγγραφο D, το οποίο τμηματοποιείται σε λεκτικές μονάδες(tokens) {t 1,..t n }, οι οποίες ορίζονται ως τμήματα κειμένου (συνήθως λέξεις) μεταξύ δυο διαδοχικών συμβόλων που έχουν ρόλο διαχωριστικού (π.χ. κενά ή σημεία στίξης). Ως όριο(boundary) μιας λεκτικής μονάδας ορίζεται το εικονικό διάστημα μεταξύ δυο γειτονικών λεκτικών μονάδων, δηλαδή τα κενά διαστήματα ή οποιαδήποτε άλλη ακολουθία χαρακτήρων. Για παράδειγμα, ο Πίνακας 1 δείχνει ένα τμήμα μιας 25

26 ιστοσελίδας η οποία περιγράφει ένα κοινωνικό γεγονός, όπου τα προς εξαγωγή τμήματα κειμένου είναι τονισμένα με έντονη γραφή. Το πρωί της περασμένης Δευτέρας 6 Ιανουαρίου η ομάδα των μηχανικών και γεωλόγων που εργάζονται στο εργοτάξιο έκανε τις συνήθεις μετρήσεις στην περιοχή. Ο πρόεδρος της "Αττικό Μετρό" κ. Ιωάννης Χρυσικόπουλος, που βρέθηκε από τα ξημερώματα στον τόπο του ατυχήματος, δεν έκρυβε την έκπληξή του. Εικόνα 1. Τμήμα εγγράφου στο οποίο οι λέξεις με τονισμένη γραφή αποτελούν οντότητες προς εξαγωγή Κατά τη διάρκεια των συνεδρίων MUC, το πρόβλημα της εξαγωγής πληροφορίας διαιρέθηκε και τυποποιήθηκε σε αρκετά υπό-προβλήματα τα οποία έχουν ειδικευμένους και διακριτούς στόχους [38], ένα από αυτά είναι η αναγνώριση ονομάτων οντοτήτων (name entity recognition). Οι οντότητες εξαρτώνται από την θεματική περιοχή, ενώ συχνά αφορούν πρόσωπα, οργανισμούς, αντικείμενα καθώς και χρηματικές, ημερολογιακές και χρονικές εκφράσεις Μηχανική Μάθηση Η μηχανική μάθηση (machine learning) αποτελεί έναν από τους σημαντικότερους τομείς έρευνας της τεχνητής νοημοσύνης. Στόχος της είναι η δημιουργία συστημάτων που να είναι σε θέση να εκπαιδεύονται από εμπειρικά δεδομένα που έχουν παρατηρηθεί στο παρελθόν, ώστε να εκτελούν την εργασία για την οποία προορίζονται αποτελεσματικότερα. Η διαδικασία εκμάθησης μπορεί να αναλυθεί στα παρακάτω στάδια: Απόκτηση εμπειρικών δεδομένων (παραδειγμάτων εκπαίδευσης) από την αλληλεπίδραση με το περιβάλλον. 26

27 Επεξεργασία των δεδομένων, ούτως ώστε να βρεθούν πιθανές γενικεύσεις ή εξειδικεύσεις (διαδικασία μάθησης). Χρησιμοποίηση των αποτελεσμάτων της επεξεργασίας για την εκτέλεση της εργασίας στόχου Ορισμός Μάθηση είναι η διαδικασία εκτίμησης μιας άγνωστης συνάρτησης ή δομής που εμφανίζεται στα δεδομένα εισόδου και εξόδου ενός συστήματος χρησιμοποιώντας έναν περιορισμένο αριθμό παρατηρήσεων (διαθέσιμων δεδομένων που συσχετίζουν είσοδο με έξοδο ενός συστήματος). Μια μέθοδος μάθησης είναι ένας αλγόριθμος (λογισμικό) ο οποίος εκτιμά (estimates) την άγνωστη απεικόνιση εξάρτησης (dependency) μεταξύ δεδομένων εισόδου και εξόδου ενός συστήματος από τα διαθέσιμα δεδομένα. Μετά την εκτίμηση μιας τέτοιας εξάρτησης (dependency), αυτή μπορεί να χρησιμοποιηθεί για την πρόβλεψη μελλοντικών εξόδων από γνωστές τιμές εισόδου [39]. Σύμφωνα με τον Mitchell [40], «ένα πρόγραμμα υπολογιστή θεωρείται ότι μαθαίνει από εμπειρία E, σε σχέση με κάποια κατηγορία εργασιών T και μετρική αποτίμησης P, εάν η απόδοση στις εργασίες του T, όπως μετριέται από το P, βελτιώνεται με την εμπειρία E» Κατηγορίες μηχανικής μάθησης Η μηχανική μάθηση μπορεί να διακριθεί στην επιβλεπόμενη μάθηση (supervised learning) και στη μάθηση χωρίς επίβλεψη (unsupervised learning). Ένα σύστημα επιβλεπόμενης μάθησης, εκπαιδεύεται αρχικά σε ένα σύνολο παραδειγμάτων εκπαίδευσης όπου κάθε παράδειγμα χαρακτηρίζεται από μια κατηγορία. Τυπικό παράδειγμα επιβλεπόμενης μάθησης αποτελούν τα προβλήματα ταξινόμησης(classification). Σε ένα πρόβλημα ταξινόμησης, κάθε παράδειγμα εκπαίδευσης αντιστοιχεί σε ένα διάνυσμα. Ένα τέτοιο διάνυσμα είναι ένα σύνολο τιμών χαρακτηριστικών, ή αλλιώς γνωρισμάτων, το οποίο περιέχει και μια τιμή κατηγορίας (ή 27

28 κλάσης class) η οποία περιγράφει το επιθυμητό αποτέλεσμα, ή αλλιώς, την έννοια στόχο. Πληθώρα αλγορίθμων μηχανικής μάθησης είναι σχεδιασμένοι για προβλήματα ταξινόμησης, όπως είναι οι αλγόριθμοι ID3 [41] και C4.5 [42] για την εκμάθηση δέντρων αποφάσεων (decision trees), η μάθηση στηριζόμενη σε κανόνες μετασχηματισμού καθοδηγούμενη από σφάλματα (transformation-based error-driven learning TBED) [43], [44], [45], [46] για την εκμάθηση λιστών αποφάσεων, ο αλγόριθμος Naive Bayes [47], ο αλγόριθμος των k-κοντινότερων γειτόνων (k-nearest-neighbors) [48], τα κρυφά μοντέλα Markov [49], τα Τυχαία Δάση (Random Forests) [5] κ.α. Το εκπαιδευμένο μοντέλο που προκύπτει από την εφαρμογή ενός αλγορίθμου ταξινόμησης σε ένα σύνολο διανυσμάτων χαρακτηριστικών συχνά καλείται και ταξινομητής (classifier). Στη μάθηση χωρίς επίβλεψη, δεν υπάρχει προκαθορισμένο σύνολο τιμών. Τα παραδείγματα εκπαίδευσης χωρίζονται σε, άγνωστες εκ των προτέρων, ομάδες με βάση τα χαρακτηριστικά τους, μια διαδικασία που συχνά αναφέρεται σαν κατηγοριοποίηση (clustering). Παραδείγματα αλγορίθμων μη επιβλεπόμενης μάθησης αποτελούν οι αλγόριθμοι COBWEB [50], Apriori [51], AutoClass [52] κ.α. Μια περισσότερο λεπτομερής περιγραφή του πεδίου της μηχανικής μάθησης ακολουθεί στο Κεφάλαιο Εκτίμηση επίδοσης αλγορίθμων μηχανικής μάθησης Στην ενότητα αυτή θα παρουσιαστούν δημοφιλείς μετρικές αποτίμησης/αξιολόγησης που χρησιμοποιούνται για την μέτρηση της επίδοσης πολλών εργασιών στην περιοχή της επεξεργασίας φυσικής γλώσσας Ακρίβεια (precision) Η μετρική της ακρίβειας (precision) εκτιμά την ορθότητα των αποτελεσμάτων μιας εργασίας. Αν υποθέσουμε ένα σύστημα, στο οποίο όλες οι σωστές απαντήσεις που 28

29 υπάρχουν είναι Χ, και λαμβάνουμε απαντήσεις Υ, εκ των οποίων οι Ν είναι σωστές, τότε η ακρίβεια ορίζεται σαν: ακρίβεια= (1) Ανάκληση (recall) Η μετρική της ανάκλησης (recall ή sensitivity) εκτιμά την πληρότητα (completeness) των αποτελεσμάτων μιας εργασίας. Αν υποθέσουμε ένα σύστημα, στο οποίο όλες οι σωστές απαντήσεις που υπάρχουν είναι Χ, και λαμβάνουμε απαντήσεις Y, εκ των οποίων οι N είναι σωστές, τότε η ανάκληση ορίζεται σαν: ανάκληση= (2) Specificity Η μετρική specificity μετρά το ποσοστό των αρνητικών δειγμάτων που έχουν αναγνωριστεί σωστά (π.χ. το ποσοστό των υγιών ατόμων που έχουν αναγνωριστεί σωστά ότι δεν έχουν την πάθηση). Εάν μια εργασία έχει υψηλό specificity, ένα θετικό αποτέλεσμα από τον έλεγχο σημαίνει μια υψηλή πιθανότητα της παρουσίας της νόσου F-measure Η μετρική F-Measure δίνει μια εκτίμηση της επίδοσης μιας εργασίας, συνδυάζοντας την ακρίβεια και την ανάκληση. Για την ακρίβεια η μετρική F-Measure αποτελεί τον αρμονικό μέσο όρο (harmonic mean) της ακρίβειας και της ανάκλησης, ενώ ορίζεται από την ακόλουθη εξίσωση: 29

30 F - measure= (3) Η μετρική αυτή είναι γνωστή και σαν F 1, επειδή προσδίδει την ίδια βαρύτητα στην ακρίβεια και την ανάκληση Λεξιλογική Ανάλυση Η επιλογή των κατηγοριών των ονομάτων οντοτήτων έγινε με βάση τις οδηγίες του MUC- 7 [2]. Πιο συγκεκριμένα, το σύστημα σχεδιάσθηκε ώστε να υποστηρίζει τις εξής κατηγορίες: Κύρια ονόματα (ΕΝΑΜΕΧ) Ονόματα προσώπων (PERSON) Ονόματα οργανισμών (ORGANIZATION) Τοπωνύμια (LOCATION) Χρονικές εκφράσεις (TIMEX) Ημερομηνίες (DATE) Όπως αναφέρθηκε και προηγουμένως, ελπίζουμε ότι το σύστημα θα επεκταθεί σε μελλοντικές εργασίες, ώστε να υποστηρίζει και άλλες κατηγορίες, όπως ποσοστά, νομισματικές εκφράσεις, εκφράσεις ώρας κ.α. Τα βασικά στάδια της λεξιλογικής επεξεργασίας του συστήματος όπως φαίνονται και στο παρακάτω σχήμα είναι τα εξής: Διαχωρισμός σε περιόδους και λεκτικές μονάδες(tokens) Αναγνώριση μέρων του λόγου (εξαγωγή δομημένης πληροφορίας) Αναζήτηση σε λεξικό Αναγνώριση και επισημείωση ονομάτων οντοτήτων Το στάδιο της αναγνώρισης μέρων του λόγου και του διαχωρισμού σε περιόδους και λεκτικές μονάδες είναι αλληλοεξαρτώμενα και εκτελούνται παράλληλα. Το στάδιο 30

31 αναζήτησης σε λεξικό εξαρτάται από τα προηγούμενα στάδια και πρέπει να εκτελεστεί έπειτα από αυτά. Το στάδιο αναγνώρισης ονομάτων οντοτήτων, αντίστοιχα, εξαρτάται από τα τρία προηγούμενα, από τα οποία αντλεί ιδιότητες. Για αυτόν το λόγο είναι απαραίτητο να εκτελεστεί τελευταίο. Στη συνέχεια θα παρουσιαστούν αναλυτικά τα τρία πρώτα στάδια επεξεργασίας. Το τέταρτο στάδιο θα περιγραφεί στο επόμενο κεφάλαιο. Εικόνα 2. Στάδια Επεξεργασίας του Συστήματος Διαχωριστής Προτάσεων και Λεκτικών Μονάδων Ο διαχωριστής προτάσεων(sentence splitter) και λεκτικών μονάδων (tokenizer) δέχεται ως είσοδο ένα κείμενο. Το χωρίζει σε προτάσεις, σε λεκτικές μονάδες (tokens) και δημιουργεί μια δομή που τις περιέχει. Η δομή αυτή χρησιμοποιείται και από τα υπόλοιπα στάδια επεξεργασίας, όπως θα εξηγηθεί παρακάτω. Ως λεκτική μονάδα θεωρείται: Κάθε ακολουθία ελληνικών ή λατινικών χαρακτήρων. Κάθε ακολουθία αριθμητικών χαρακτήρων. Κάθε άλλος μη κενός χαρακτήρας(non-whitespace), ακόμα και αν δυο ή περισσότεροι συνεχόμενοι μπορούν να θεωρηθούν γραμματικά ή συντακτικά ως μια οντότητα. Για παράδειγμα, οι τρεις τελείες ( ) θεωρούνται ως τρεις ξεχωριστές λεκτικές μονάδες. Επίσης, το κόμμα και η τελεία που μπορούν να περιέχονται σε 31

32 έναν αριθμό θεωρούνται ξεχωριστές λεκτικές μονάδες. Παραδείγματος χάριν, ο αριθμός «7,14» αποτελείται από τρεις λεκτικές μονάδες, το 7, το «,» και το 14. Η δομή που τελικά δημιουργείται είναι μια xml δομή, που περιέχει τις λεκτικές μονάδες του κειμένου εισόδου, με τη σειρά που συναντούνται στο κείμενο και στην οποία αποτυπώνεται σε ποιο σημείο της πρότασης εμφανίζεται η λεκτική μονάδα. H πληροφορία που δείχνει αν μια λεκτική μονάδα αποτελεί την αρχή ή το τέλος μιας πρότασης είναι διαθέσιμη στην δομή που προκύπτει. Ως χαρακτήρας που δηλώνει το τέλος μιας πρότασης και αρχή μιας νέας ορίζεται η τελεία. Εκτός από τις τελείες υπάρχουν και άλλα σύμβολα που σηματοδοτούν τέλος περιόδου, όπως θαυμαστικά ή τα ερωτηματικά. Τα σύμβολα αυτά δεν εμφανίζονται συχνά στα κείμενα εφημερίδων που χρησιμοποιήθηκαν κατά τη διεξαγωγή των πειραμάτων και για αυτόν το λόγο αγνοήθηκαν (η αναλογία των εμφανίσεων των τελειών προς το άθροισμα των εμφανίσεων των υπόλοιπων συμβόλων που είναι δυνατόν να σηματοδοτούν τέλος περιόδου είναι μεγαλύτερη από 100 προς 1) Αναγνώριση Μερών του Λόγου Μετά από το διαχωρισμό των προτάσεων και των λεκτικών μονάδων ο αναγνωριστής μέρων του λόγου δέχεται ως είσοδο το αποτέλεσμα του προηγούμενου σταδίου επεξεργασίας και για κάθε λεκτική μονάδα αναγνωρίζει τις εξής ιδιότητες: Το λήμμα από το οποίο προήλθε η λεκτική μονάδα, δηλαδή την ρίζα της λέξης. Για παράδειγμα η λεκτική μονάδα «αναταραχές» είναι ρίζα της λέξης «αναταράσσω». Ο αναγνωριστής για να βρει την ρίζα αυτή χρησιμοποιεί ένα κατάλληλα επεξεργασμένο λεξικό της ελληνικής γλώσσας. Το μέρος του λόγου μιας λεκτικής μονάδας, δηλαδή αν πρόκειται για ουσιαστικό, ρήμα, επίθετο, κ.α. 32

33 Την κλίση και το γένος μιας λεκτικής μονάδας, για παράδειγμα η λεκτική μονάδα «κρατούμενες» αναγνωρίζεται ότι είναι σε πληθυντικό αριθμό και αφορά θηλυκό γένος. Ταυτόχρονα, δίνονται τα παραπάνω χαρακτηριστικά, για την λεκτική μονάδα που προηγείται και για την λεκτική μονάδα που έπεται, της τρέχουσας. Η πληροφορία αυτή, όπως προαναφέρθηκε, είναι διαθέσιμη μέσα από μια xml δομή. Ένα παράδειγμα, αποτελέσματος που εξάγεται από τον αναγνωριστή μέρων του λόγου εμφανίζεται στην παρακάτω εικόνα: <s> <gw cat="prpart" attrs="mscntrsngacc" lemma="στο">στο</gw><gw cat="n" attrs="ntrsngnomaccvoc" lemma="κύκλωμα">κύκλωμα</gw><gw cat="v" attrs="psvprsfucindsjvsng_c_" lemma="φέρω">φέρεται</gw><gw cat="cnj" lemma="ότι">ότι</gw><gw cat="v" attrs="actpscindsng_c_" lemma="συμμετέχω">συμμετείχε</gw><gw cat="cnj" lemma="και">και</gw> <gw cat="prn" attrs="femsngnomacc" lemma="άλλος">άλλη</gw> <gw cat="arith" attrs="femsngnomacc" lemma="ένας">μία</gw><gw cat="n" attrs="femsngnomaccvoc" lemma="κρατούμενος">κρατούμενη</gw><punc>,</punc> <gw cat="art" attrs="femsngnom" lemma="ο">η</gw> <gw cat="prn" attrs="femsngnomacc + NtrPlrNomAcc" lemma="οποίος">οποία</gw><gw cat="v" attrs="psvpstindsng_c_" lemma="αποφυλακίζω">αποφυλακίστηκε</gw><gw cat="adv" lemma="πρόσφατα">πρόσφατα</gw><punc>.</punc> </s> Εικόνα 3. Αποτέλεσμα του Αναγνωριστή Μερών του Λόγου Πιο συγκεκριμένα, η ιδιότητα «attrs» κάθε λέξης δηλώνει τον Αριθμό (Πληθυντικό/ Ενικό), την Πτώση και το Γένος της λέξης, για παράδειγμα ο χαρακτηρισμός «NtrSngGen» για την λέξη «κυκλώματος» δηλώνει ουδέτερο γένος, ενικό αριθμός και γενική πτώση. Η ιδιότητα «cat» υποδεικνύει το μέρος του λόγου και η ιδιότητα «lemma» το λήμμα της λέξης. 33

34 Η πληροφορία που προκύπτει από όλα τα κείμενα μετά από επεξεργασία, μετασχηματίζεται από την xml δομή σε μορφή πίνακα όπου για κάθε λέξη(token) υπάρχει τιμή για κάθε ιδιότητα(attribute) που της απέδωσε ο αναγνωριστής μέρων του λόγου. Ο διαχωριστής προτάσεων/λεκτικών μονάδων και ο αναγνωριστής μερών του λόγου διατέθηκαν ως έτοιμα εργαλεία από το Εργαστήριο Βάσεων Δεδομένων του Τμήματος Μηχανικών Η/Υ & Πληροφορικής της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών Αναζήτηση σε λεξικό Μετά από την αναγνώριση των μέρων του λόγου και την αποθήκευση των αποτελεσμάτων σε μια δομή πίνακα, απομονώθηκαν οι λέξεις που χαρακτηρίστηκαν ως «ουσιαστικό» καθώς μόνο αυτές μπορούν να είναι οι υποψήφιες για κατάταξη σε μια από τις τέσσερις κατηγορίες που προαναφέρθηκαν. Επιπλέον, οι λέξεις αυτές επεξεργάστηκαν έτσι ώστε κάθε χαρακτήρας να είναι στα κεφαλαία έτσι ώστε να αποφευχθούν αναντιστοιχίες με λάθος τονισμούς κατά την προσπάθεια εύρεσης τους σε ένα λεξικό. Μετά από την προεργασία αυτή, κάθε λέξη αναζητήθηκε(query) στο λεξικό της κοινής νεοελληνικής, που είναι διαθέσιμο σε ηλεκτρονική μορφή μέσα από την Πύλη για την Ελληνική γλώσσα του Κέντρου Ελληνικής Γλώσσας [53]. Το λεξικό περιέχει λίστες ονομάτων αλλά και γεωγραφικές περιοχές. Για κάθε λέξη μέσα στο λεξικό υπήρχε αντίστοιχη πληροφορία για την οντότητα στην οποία ανήκε. Το αποτέλεσμα της αναζήτησης κάθε λέξης, αποθηκεύτηκε στον πίνακα που περιείχε τα αποτελέσματα του αναγνωριστή μερών του λόγου σε μια νέα στήλη. Η νέα στήλη μπορούσε να περιέχει μια από τις παρακάτω τιμές: Όνομα Περιοχή NULL(Καμία Τιμή), καθώς στο λεξικό δεν υπήρχαν λέξεις που να μπορούν να αναγνωριστούν ως ημερομηνίες ή οργανισμοί, π.χ. 4 Ιανουαρίου 2002, Δημόσια Επιχείρηση Ηλεκτρισμού. 34

35 Το λεξικό που χρησιμοποιήθηκε είχε περίπου εγγραφές και είναι πολύ μικρότερο σε μέγεθος σε σχέση με αντίστοιχα λεξικά που κατασκευάστηκαν για συστήματα αναγνώρισης ονομάτων οντοτήτων στην αγγλική γλώσσα. Για παράδειγμα το λεξικό του LTG [24] περιείχε εγγραφές με ονόματα και το LaSIE-II [54], αντίστοιχα περιείχε Το ποσοστό επιτυχίας κατά την αναζήτηση στο λεξικό ήταν κοντά στο 80%, καθώς υπήρχαν αρκετά κύρια ονόματα μέσα στα κείμενα τα οποία ήταν γραμμένα με ελληνικούς χαρακτήρες αλλά προέρχονταν από την αγγλική γλώσσα, π.χ. «Τζον». Συνοψίζοντας, στο κεφάλαιο αυτό παρουσιάστηκαν τα βήματα της γλωσσικής επεξεργασίας που εφαρμόστηκαν σε μια συλλογή κειμένων που είναι γραμμένα στην ελληνική γλώσσα. Το αποτέλεσμα της επεξεργασίας αυτής είναι ένας πίνακας που περιέχει για κάθε λέξη του κειμένου, τιμή στις παρακάτω ιδιότητες-χαρακτηριστικά (ή σε υποσύνολο αυτών): Λήμμα, Μέρος του Λόγου, Χαρακτηρισμός Λέξης (Πληθυντικός/Ενικός, Πτώση, Γένος), Αποτέλεσμα Λεξικού, Μέρος του Λόγου Προηγούμενης Λέξης, Χαρακτηρισμός Προηγούμενης Λέξης (Πληθυντικός/Ενικός, Πτώση, Γένος κ.α.), Μέρος του Λόγου Επόμενης Λέξης, Χαρακτηρισμός Επόμενης Λέξης (Πληθυντικός/Ενικός, Πτώση, Γένος κ.α.). Για να γίνει εφικτή η ανάλυση των χαρακτηριστικών, από τυχαία δάση θα πρέπει οι τιμές τους να είναι σε αριθμητική μορφή. Ωστόσο, τα αποτελέσματα που συλλέχθηκαν για τις προαναφερθείσες ιδιότητες ήταν σε αλφαριθμητική μορφή(γράμματα και αριθμοί). Για το λόγο αυτό έγινε αντιστοίχηση των διακριτών τιμών κάθε ιδιότητας με έναν ακέραιο αριθμό. Ο μετασχηματισμός των δεδομένων σε αριθμητική μορφή, τα κατέστησε κατάλληλα για χρήση από τον αλγόριθμο ταξινόμησης τυχαία δάση, ο οποίος προτείνεται για την επίλυση του προβλήματος που περιγράφηκε στο Κεφάλαιο 1. Η προτεινόμενη λύση παρουσιάζεται στο Κεφάλαιο 4. 35

36 ΚΕΦΑΛΑΙΟ 3: ΤΥΧΑΙΑ ΔΑΣΗ Στο κεφάλαιο αυτό παρουσιάζονται οι βασικές έννοιες που διέπουν τους αλγόριθμους μηχανικής μάθησης που χρησιμοποιούνται για ταξινόμηση. Πιο συγκεκριμένα, παρουσιάζονται οι αλγόριθμοι επιβλεπόμενης μάθησης Δέντρα Απόφασης (Decision Trees) και Τυχαία Δάση (Random Forests), αλλά και οι ιδιότητές τους Μηχανική Μάθηση Οι αλγόριθμοι μηχανικής μάθησης κατηγοριοποιούνται ανάλογα με το επιθυμητό αποτέλεσμα του αλγορίθμου. Οι συνηθέστερες κατηγορίες είναι οι εξής: Επιβλεπόμενη μάθηση, επιτηρούμενη μάθηση ή μάθηση με επίβλεψη (supervised learning), όπου ο αλγόριθμος κατασκευάζει μια συνάρτηση που απεικονίζει δεδομένες εισόδους σε γνωστές, επιθυμητές εξόδους (σύνολο εκπαίδευσης), με απώτερο στόχο τη γενίκευση της συνάρτησης αυτής και για εισόδους με άγνωστη έξοδο (σύνολο ελέγχου). Μη επιβλεπόμενη μάθηση, μη επιτηρούμενη μάθηση ή μάθηση χωρίς επίβλεψη (unsupervised learning), όπου ο αλγόριθμος κατασκευάζει ένα μοντέλο για κάποιο σύνολο εισόδων χωρίς να γνωρίζει επιθυμητές εξόδους για το σύνολο εκπαίδευσης. Ενισχυτική μάθηση (reinforcement learning), όπου ο αλγόριθμος μαθαίνει μια στρατηγική ενεργειών για μια δεδομένη παρατήρηση[55],[56],[40] Επιβλεπόμενη μάθηση Στην επιβλεπόμενη μάθηση, υποθέτουμε ότι υπάρχει στην διάθεσή μας εκ των προτέρων (a priori) επιπρόσθετη πληροφορία για κάποια ή και όλα τα παραδείγματα ενός συνόλου δεδομένων όπως αυτό που αναλύθηκε στο προηγούμενο κεφάλαιο. Αυτή η επιπρόσθετη 36

37 πληροφορία συνήθως είναι μία κατηγορία στην οποία ανήκει ένα σύνολο δεδομένων. Για παράδειγμα, κάθε λέξη μπορεί να ανήκει σε μία εκ των τεσσάρων κατηγοριών: 1) όνομα (Ο), 2) ημερομηνία (Η), 3) Οργανισμός (ΟΡ), 4) Περιοχή (P). Η πληροφορία αυτή μπορεί να ενσωματωθεί στους πίνακες των δεδομένων ως μία επιγραφή ή ετικέτα (label) - Πίνακας 1. Για να γίνει πιο κατανοητό, ας θεωρηθεί πως υπάρχει ένας επιβλέπων ο οποίος δίνει μια ετικέτα κατηγορίας (label) σε κάθε πρότυπο(λέξη) ενός συνόλου εκπαίδευσης. Στην κατηγορία της επιβλεπόμενης μάθησης, εκμεταλλευόμαστε την πληροφορία που παρέχεται (ποιες λέξεις ανήκουν σε ποια κατηγορία), με σκοπό, συνήθως, να κατασκευαστεί ένας ταξινομητής, ο οποίος να μπορεί να προβλέπει την κατηγοριοποίηση (classification) των δεδομένων. Τεχνική του Cross-Validation Για να κατασκευαστεί το μοντέλο του ταξινομητή σύμφωνα με το οποίο θα ταξινομηθούν τα δεδομένα, χρησιμοποιείται ένα σύνολο δεδομένων γνωστών κατηγοριών για εκπαίδευση του μοντέλου (σύνολο εκπαίδευσης training set) και ένα άλλο σύνολο για έλεγχο του (σύνολο ελέγχου test set), με σκοπό να γίνει δυνατή η ταξινόμηση μελλοντικών δεδομένων. Στις περιπτώσεις που δεν υπάρχει μεγάλο σύνολο δεδομένων έτσι ώστε να εκπαιδευτεί το μοντέλο, χρησιμοποιείται μια τεχνική που λέγεται N-fold cross-validation [26]. Σύμφωνα με αυτήν, το σύνολο των παραδειγμάτων χωρίζεται σε Ν υποσύνολα, και μετά κάθε ένα από αυτά χρησιμοποιείται διαδοχικά σαν σύνολο ελέγχου, ενώ τα υπόλοιπα Ν-1 υποσύνολα ενώνονται και χρησιμοποιούνται σαν σύνολο εκπαίδευσης. Στο τέλος των Ν εκπαιδεύσεων, χρησιμοποιούνται τα αποτελέσματα για να βγει ένας μέσος όρος ακρίβειας για το μοντέλο. Η τυπική τιμή για το Ν είναι

38 Λέξεις/Χαρακτηριστικά Λέξη Λήμμα Χαρακτ. Λέξης Λεξικό Μέρος του Λόγου Χαρακτ. Πρ. Λέξης Μέρος του Λόγου Επ.Λ Χαρακτ. Επ. Λέξης label Πρ. Λ. 1 Μαριάν θη MscSng GenAcc Voc ΟΝΟΜΑ Art FemSng Nom N - Ο 2 - NtrSngN omaccv oc - Art MscSng Acc Cnj - ΟΡ Τ ι μ έ ς 3 4 Μυτιλήν η Ιανουάρ ιος FemSng NomAcc Voc MscSng Gen ΠΕΡΙΟΧΗ - Art Art FemSng Acc FemSng Gen MscSngN Art om Π punc - Η Ν Αμαλία FemSng NomAcc ΟΝΟΜΑ abbr - N - Ο 38

39 Voc Πίνακας 1: Πίνακας δεδομένων με επιπλέον γνώση για τις κατηγορίες των λέξεων Μη Επιβλεπόμενη μάθηση Στη μη επιβλεπόμενη μάθηση ή αλλιώς ομαδοποίηση (clustering) γίνεται η υπόθεση ότι δεν υπάρχει καμία εκ των προτέρων γνώση για τις κατηγορίες των πειραμάτων, και έτσι η μάθηση στηρίζεται αποκλειστικά στα χαρακτηριστικά τους. Εδώ, δεν υπάρχει κανένας επιβλέπων και το σύστημα σχηματίζει συστοιχίες (clusters) ή «φυσικούς σχηματισμούς ομάδων» πάνω στα πρότυπα εισόδου. Η δημιουργία τέτοιων ομάδων πραγματοποιείται κατασκευάζοντας εξειδικευμένους αλγορίθμους, τους λεγόμενους, αλγόριθμους ομαδοποίησης. Ένας τέτοιος αλγόριθμος, π.χ., είναι ο k-means. Στην ομαδοποίηση, λοιπόν, μη γνωρίζοντας τις κατηγορίες των δεδομένων, σκοπός είναι να δημιουργηθούν ομάδες από σχετιζόμενα δείγματα, με μοναδική γνώση τις τιμές των χαρακτηριστικών τους. Έτσι μπορούν να ανακαλυφθούν σχέσεις και συσχετίσεις που προηγουμένως δεν είχαν εκτιμηθεί Αλγόριθμοι Ταξινόμησης Το πρόβλημα της ταξινόμησης μπορεί να οριστεί ως ένα πρόβλημα πρόβλεψης ή μάθησης στο οποίο, στην μεταβλητή(λέξη) που πρέπει να προβλέψουμε, ανατίθενται κάποιες τιμές {c 1, c 2,, c k }, με τυχαίες επιγραφές {1, 2,..., Κ}, που αντιστοιχούν σε Κ προκαθορισμένες κλάσεις, όπως π.χ. οι τέσσερις κατηγορίες κατάταξης ονομάτωνοντοτήτων που περιγράφονται στο πρώτο κεφάλαιο. 39

40 Όπως αναφέρθηκε στο προηγούμενο κεφάλαιο στην επιβλεπόμενη μάθηση, ένας από τους στόχους της ανάλυσης των δεδομένων είναι η κατασκευή ταξινομητών, όπως για παράδειγμα οι γραμμικοί διαχωριστές (Linear Discriminants), οι Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines), τα νευρωνικά δίκτυα (neural networks), οι k πλησιέστεροι γείτονες (k-nearest neighboors), τα δέντρα απόφασης (Decision Trees) ή τα τυχαία δάση (Random Forests), που θα εξεταστούν στην συνέχεια. Αν επιτευχθεί, η κατασκευή ενός ταξινομητή που να διαχωρίζει για παράδειγμα δύο διαφορετικές, αλλά παρόμοιες μεταξύ τους, λέξεις, τότε θα μπορεί να χρησιμοποιηθεί και ως μοντέλο ταξινόμησης λέξεων σε προκαθορισμένες κατηγορίες ονομάτων-οντοτήτων. Επιπλέον, αν αυτός ο ταξινομητής βασίζεται σε ένα σύνολο απλών κανόνων, μπορεί να χρησιμοποιηθεί και για να παρέχει πληροφορία ως προς τα χαρακτηριστικά που διέπουν κάθε κατηγορία ονομάτων-οντοτήτων [57]. Οι ταξινομητές αυτοί αρχικά εκπαιδεύονται σε ένα υποσύνολο των δεδομένων, για το οποίο υπάρχει εκ των προτέρων γνώση (a priori) ως προς τις κατηγορίες ταξινόμησης (training set), και έπειτα ελέγχονται σε ένα άλλο υποσύνολο(test set) για κατηγορίες που είναι γνωστές. Αφού επιβεβαιωθεί η ποιότητα της πρόβλεψης, ο ταξινομητής μπορεί να χρησιμοποιηθεί για δεδομένα για τα οποία δεν γνωρίζουμε την κατηγορία. Στην Εικόνα 4 παρουσιάζεται η διαδικασία με βάση την οποία κατασκευάζεται ένας ταξινομητής. Έστω ότι κατασκευάζεται ένα ταξινομητής για πρόβλεψη αποτελεσμάτων (νίκη ή ήττα) μίας ποδοσφαιρικής ομάδας. Αρχικά, με βάση τα δεδομένα από τα προηγούμενα παιχνίδια της ομάδας, που είναι και η υπάρχουσα γνώση (αφού γνωρίζουμε αν έχει νικήσει ή όχι), κατασκευάζεται ένα μοντέλο εκπαίδευσης (learner) του ταξινομητή και σύμφωνα με αυτό κατασκευάζεται και ο τελικός ταξινομητής (classifier). Στη συνέχεια εισάγονται τα δεδομένα από κάθε μελλοντικό παιχνίδι (future game), στον ταξινομητή και ο τελευταίος βγάζει στην έξοδό του (outcome), την πρόβλεψη για νίκη ή ήττα. Ας σημειωθεί, ότι υπάρχει η δυνατότητα να χωριστούν τα previous games μεταξύ τους, έτσι ώστε να κρατηθούν κάποια ως test set, για τον ταξινομητή (όπως περιγράφηκε στην τεχνική του cross validation). 40

41 Εικόνα 4: Βήματα κατασκευής ενός ταξινομητή Στο υποκεφάλαιο θα περιγράφει ακριβώς, και θα αναλυθεί το πώς κατασκευάζεται και το πώς λειτουργεί ένα τέτοιος ταξινομητής: τα τυχαία δάση (random forests) Δέντρα απόφασης/ταξινόμησης Τα «Δένδρα Απόφασης/ταξινόμησης» (Decision/Classification trees) αποτελούν ένα είδος ταξινομητή από τους πολλούς που έχουν επινοηθεί μέχρι στιγμής. Είναι ένα δυναμικό και δημοφιλές πλέον εργαλείο για ταξινόμηση δεδομένων, αλλά και για την πρόβλεψη σημαντικών αποτελεσμάτων [58], [59]. Σε αυτό το υποκεφάλαιο θα περιγράψουμε εν συντομία, το πώς λειτουργεί ο συγκεκριμένος αλγόριθμός ταξινόμησης καθώς αποτελεί την βάση για την κατανόηση της μεθόδου ταξινόμησης «Τυχαία Δάση», που περιγράφεται στο παρακάτω υποκεφάλαιο. Η γενική ιδέα στα Δέντρα Απόφασης είναι η εξής: 41

42 Αρχικά, βασική προϋπόθεση αποτελεί το ότι κάθε δείγμα (objects ή cases) του data set πρέπει να μπορεί να εκφράζεται ως μία συλλογή από τα χαρακτηριστικά (attributes) του data set. Ο αλγόριθμος λαμβάνει ως είσοδο κάθε case ως ένα input vector με τις τιμές των μεταβλητών και την αντίστοιχη κλάση που ανήκει Π.χ. σε ένα data set, ένας ασθενής είναι μία case που εκφράζεται από τα attributes φύλλο και ηλικία, bm_x, ch_y και tumor grade και ανήκει στην κλάση Y και το vector που λαμβάνεται ως είσοδος είναι το [ Θ/65, , 1.8, 4, Υ] Αυτές οι cases input vectors αποτελούν το training set του ταξινομητή. Στη συνέχεια, παρατηρώντας και συγκρίνοντας αν τα vectors, των οποίων οι τιμές είναι κοντά η μία στην άλλη, ανήκουν ή όχι στην ίδια κλάση, κατασκευάζει ένα σετ από κανόνες αποφάσεων (decision rules) με σκοπό την ταξινόμηση μελλοντικών δειγμάτων (test set) στις γνωστές κλάσεις. Παραδείγματος χάριν, έστω data set με μεταβλητές x, y, z και οι κλάσεις «Αγόρι», «Κορίτσι». Κάθε μεταβλητή έχει και ένα δικό της, συγκεκριμένο, σύνολο τιμών. Ένας τέτοιος κανόνας απόφασης είναι: Αν «x< τιμή 1» τότε : «Αγόρι» Αλλιώς Αν «y< τιμή 2» τότε: «Κορίτσι» Αλλιώς: «Αγόρι» 42

43 Το σημείο όπου γίνεται η υπόθεση για μία μεταβλητή είναι αυτό στο οποίο η μεταβλητή χωρίζεται (split) ανάμεσα σε δύο τιμές και ταυτόχρονα χωρίζει το training set σε δύο subsets. Σχηματικά, στην απεικόνιση του δένδρου το σημείο αυτό ονομάζεται «node». Από το κάθε node γεννιούνται 2 subsets - «κλαδιά» (branches) με την αντίστοιχη απόφαση ή ένα κλαδί το οποίο καταλήγει σε μία κλάση. Όταν καταλήξουμε σε μία κλάση, αυτή βρίσκεται σε ένα «φύλλο» - leaf. Σχηματικά, όπως φαίνεται και στην Εικόνα 5 έχει τη μορφή ενός «αντίστροφου δέντρου» (τα φύλλα κάτω και η ρίζα στην κορυφή), γι αυτό και ο αλγόριθμος έχει αυτήν την ιδιαίτερη ονομασία «Δένδρα Αποφάσεων». Εικόνα 5: Ένα απλό Decision Tree Στην παραπάνω εικόνα απεικονίζεται ένα απλό Decision Tree, το οποίο προέκυψε από τα δεδομένα της Εικόνα 6 τα οποία χρησιμοποιήθηκαν για την εκπαίδευση του συγκεκριμένου δένδρου [40]. Πιο συγκεκριμένα, τα χαρακτηριστικά attributes αποτέλεσαν ο καιρός, η θερμοκρασία, η υγρασία και ο άνεμος. Κάθε attribute- χαρακτηριστικό έχει το δικό του σύνολο τιμών: 43

44 Καιρός: {sunny, overcast, rain} Θερμοκρασία: {cool, mild, hot} Υγρασία: {high, normal} Άνεμος: {true, false} or {strong, weak} Οπότε, μία απλή μέρα (που εκφράζει ένα αντικείμενο) μπορεί να περιγραφεί ως εξής και αποτελεί ένα input vector στον αλγόριθμό: Νεφελώδης καιρός με χαμηλή θερμοκρασία και υψηλή υγρασία με την ύπαρξη ανέμου. Όπως, περιγράφηκε και παραπάνω, κάθε αντικείμενο ενός training set ανήκει σε μία μοναδική κλάση-κατηγορία, η οποία είναι γνωστή εκ των προτέρων. Στο παράδειγμα αυτό, για απλούστευση υπάρχουν μόνο δύο κλάσεις P και N ( θετικές και αρνητικές περιπτώσεις - positive and negative). Σκοπός, είναι να αναπτυχθούν κάποιοι κανόνες ταξινόμησης (Classification rules) που να μπορούν να αποφασίζουν για ένα μελλοντικό αντικείμενο, σε ποια από τις δύο κλάσεις θα ανήκει. Το training set φαίνεται στην Εικόνα 6 και το decision tree που εκπαιδεύτηκε σύμφωνα με αυτό απεικονίζεται στην Εικόνα 5. Φαίνεται, λοιπόν, ότι το δένδρο που κατασκευάστηκε αποτελείται από πολλούς κανόνες απόφασης, όπως οι παρακάτω: Μία απλή μέρα την οποία ο καιρός είναι ηλιόλουστος-sunny και η υγρασία υψηλή-high ανήκει στην κλάση N. Ενώ μία μέρα βροχερή χωρίς άνεμο ανήκει στην κλάση P. 44

45 Εικόνα 6. Ένα απλό training set Τυχαία Δάση Μία νέα και εξαιρετική μέθοδος ταξινόμησης δεδομένων είναι τα «Τυχαία Δάση» - Random Forests, η οποία είναι αλληλένδετη με την μέθοδο των Δέντρων Απόφασης/ταξινόμησης, που παρουσιάστηκε στο προηγούμενο κεφάλαιο. Τα Random Forests είναι ουσιαστικά μία συλλογή από decision trees. Εμπνευστής της μεθόδου των Random Forests είναι ο Leo Breiman [5]. Τα παρακάτω βήματα, δίνουν μία γενική ιδέα για το πώς λειτουργούν τα random forests: Αρχικά, αναπτύσσονται πολλά classification decision trees Το πώς ακριβώς αναπτύσσονται θα αναφερθεί αναλυτικά στη συνέχεια του κεφαλαίου. Κάθε tree δίνει μία ταξινόμηση «Το δέντρο ψηφίζει αυτήν την κλάση». Έτσι, κάθε κλάση έχει έναν αριθμό «ψήφων» (votes). Η τελική και οριστική ταξινόμηση γίνεται με το «δάσος» να διαλέγει την κλάση με τις περισσότερες votes 45

46 Εύκολα προκύπτει το συμπέρασμα, ότι στα παραπάνω βήματα κύριο ρόλο παίζει το πώς ακριβώς αναπτύσσονται τα decision trees. Κάθε δέντρο, λοιπόν, αναπτύσσεται σύμφωνα με τον παρακάτω αλγόριθμο [28]: i. Θέσε: Ν = αριθμός των objects ή cases του training set και M = αριθμός των μεταβλητών-χαρακτηριστικών (input variables) ii. Για κάθε δένδρο επέλεξε από το data set Ν cases στην τύχη με εναπόθεση (with replacement). bootstrap sampling. Αυτές οι Ν cases αποτελούν το training set για κάθε δένδρο. H μέθοδος του bootstrap sampling αποτελεί μία τεχνική συλλογής δειγμάτων από ένα data set και λειτουργεί ως εξής: Έστω ότι υπάρχει ένα καλάθι με 5 μπάλες (samples) με ονόματα (labels): {A, B, C, D, E} Από το καλάθι επιλέγεται στην τύχη μία μπάλα και καταγράφεται το όνομα της, έστω η B. Στη συνέχεια, επανατοποθετείται η μπάλα B στο καλάθι και ξανά επιλέγεται μία στην τύχη. Η διαδικασία αυτή επαναλαμβάνεται όσες φορές είναι επιθυμητό. Στο τέλος η καταγραφή των δειγμάτων που επιλέχθηκε μπορεί να μοιάζει σαν και αυτή: [B, E, D, B, C, C, A, D, E, B, A, A, E, C, E, D] 46

47 Η τεχνική αυτή ονομάζεται bootstrap sampling ή sampling with replacement και το τελικό δείγμα bootstrap sample (το οποίο είναι το input vector που δέχεται και ξεκινάει την ανάπτυξή του κάθε ένα δένδρο). Εφαρμόζοντας την τεχνική αυτή, σε μεθόδους ταξινόμησης, δίνεται η δυνατότητα να δημιουργηθούν από ένα data set περισσότερα από ένα training sets. Αυτός είναι και ο λόγος που χρησιμοποιείται στα random forests, καθώς θέλουμε να δημιουργήσουμε πολλά διαφορετικά δένδρα και επομένως πολλά training sets (εφόσον κάθε δένδρο πρέπει να έχει το δικό του training set). iii. Επέλεξε τυχαία m<<m από τις Μ μεταβλητές και το καλύτερο split που μπορεί να γίνει σε αυτές τις m μεταβλητές επιλέγεται για να χρησιμοποιηθεί στο node. Η τιμή του m παραμένει σταθερή κατά τη διάρκεια κατασκευής όλου του δάσους και παίζει πολύ σημαντικό ρόλο για το classification error του δάσους όπως θα δούμε και στη συνέχεια αυτού του υπό-κεφαλαίου. iv. Κάθε δένδρο αναπτύσσεται στο μεγαλύτερο δυνατό βαθμό χωρίς να πραγματοποιείται «κλάδεμα» (no pruning). Για το λόγο του ότι αναπτύσσονται πάρα πολλά decision trees το σφάλμα γενίκευσης (generalization error) περιορίζεται σημαντικά. Κάτι τέτοιο σημαίνει ότι είναι αδύνατο να εμφανιστεί το φαινόμενο της Υπέρ-ειδίκευσης (over-fitting), γεγονός που αποτελεί έναν πολύ ενισχυτικό παράγοντα για την πρόβλεψη των ταξινομητών (prediction). Στην Εικόνα 7 παρακάτω, βλέπουμε το διάγραμμα ενός εκπαιδευόμενου δάσους. Κάθε decision tree δέχεται ξεχωριστό data point (input vector of attributes) και δίνει διαφορετική ταξινόμηση «ψηφίζοντας» μία κλάση. 47

48 Εικόνα 7: Ένα απλό διάγραμμα Τυχαίου Δάσους Όσο αφορά το βαθμό λάθους που έχει η μέθοδος των random forests στην ταξινόμηση των δεδομένων και στην πρόβλεψη μελλοντικών αποτελεσμάτων (classification and prediction error rate), αποδεικνύεται [5] ότι εξαρτάται από δύο μεταβλητές: τη συσχέτιση μεταξύ δύο δένδρων (correlation) και τη «δύναμη» κάθε δένδρου (strength). Όσο δύο δένδρα είναι παρόμοια μεταξύ τους (η συσχέτισή τους είναι υψηλή) τόσο μεγαλύτερο είναι το error rate του δάσους (forest error rate). Τα decision trees του δάσους όμως, εκπαιδεύονται με βάση τα bootstrap samples, τα οποία όπως προαναφέρθηκε δημιουργούνται με bootstrap sampling πράγμα που σημαίνει ότι σπανίως διαλέγονται ίδια ή και παρόμοια input vectors. Αυτό με τη σειρά του οδηγεί στην ανάπτυξη δένδρων τα οποία σπανίως παρουσιάζουν υψηλή συσχέτιση μεταξύ τους και επομένως το forest error rate είναι μικρό. Όσο αφορά τη δύναμη κάθε δένδρου, όταν λέμε δύναμη εννοούμε πόσο καλός ταξινομητής είναι το εκάστοτε decision tree. Ένα δένδρο με μικρό error rate, είναι και ένας καλός- «δυνατός» ταξινομητής. Έτσι, αυξάνοντας τη «δύναμη» των δένδρων μειώνεται το error rate του δάσους Out- of- bag data Ακολουθεί λεπτομερέστερη ανάλυση για το πώς λειτουργούν τα random forests. Όπως αναφέρθηκε προηγουμένως, για κάθε δένδρο επιλέγονται Ν cases με bootstrapping, με βάση τις οποίες θα γίνει η εκπαίδευσή του. Όταν καθοριστεί, λοιπόν, το training set για το 48

49 εκάστοτε δέντρο, περίπου το 1/3 των cases μένουν εκτός του δείγματος. Τα δεδομένα αυτών των cases που μένουν εκτός ονομάζονται out-of-bag data (oob data - (N/3)) και οι cases αυτές αποτελούν το testing set του δένδρου. Με αυτόν τον τρόπο το data set χωρίζεται αυτόματα σε training και testing set και έτσι δεν υπάρχει η ανάγκη για κατασκευή ξεχωριστών testing examples. Συνεπώς δεν καθίσταται αναγκαία ούτε η εφαρμογή της τεχνικής του cross-validation στα δεδομένα ώστε να εκτιμήσουμε το σφάλμα ταξινόμησης (classification error). Στα random forests μας δίνεται η δυνατότητα να πάρουμε μία αμερόληπτη εκτίμηση για το σφάλμα μέσω των out-of-bag δεδομένων με τον ακόλουθο τρόπο: Όπως προαναφέρθηκε, περίπου το 1/3 των cases μένουν εκτός του bootstrap sample και δεν χρησιμοποιούνται για την ανάπτυξη του δένδρου. Παίρνουμε, λοιπόν, κάθε out-of-bag case, την τρέχουμε στο δένδρο και αυτό την ταξινομεί σε μία κλάση. Αυτό γίνεται για κάθε δένδρο στο οποίο η case αυτή ήταν out of bag. Έστω j η κλάση με τις περισσότερες votes από την ταξινόμηση αυτή και tc (true class) η γνωστή κλάση της out of bag case Tο ποσοστό των φορών όπου j tc αποτελεί την εκτίμηση του ζητούμενου λάθους, το λεγόμενο OOB ERROR ESTIMATE. Παραδείγματος χάριν, έστω ότι έχουμε ένα data set με 10 samples-cases και υλοποιούμε ένα random forest με 100 decision trees. Κάθε decision tree θα έχει ως out of bag περίπου 3 cases από τις 10. Έστω ότι η 1 η case είναι out-of-bag σε 46 δένδρα. Κάθε ένα από τα 46 δένδρα που έχουν δημιουργηθεί ξανατρέχει με είσοδο (ως input vector) την 1 η case του data set και το ταξινομεί σε μία κλάση. Από τις 46 «ψήφους» των δένδρων, το δάσος επιλέγει πια κλάση επικρατεί. Συγκρίνει αν αυτή η κλάση (j) συμπίπτει με την πραγματική κλάση (tc) στην οποία ανήκει η case 1. Η διαδικασία αυτή πραγματοποιείται και για τις υπόλοιπες 9 cases 49

50 και στο τέλος ο αλγόριθμος εξετάζει πόσες φορές η εκάστοτε κλάση (j) συνέπιπτε με την πραγματική κλάση (tc). Το αντίστοιχο ποσοστό είναι η ζητούμενη εκτίμηση Variable Importance Περιγράφοντας προηγουμένως τον αλγόριθμο με τον οποίο αναπτύσσεται κάθε δένδρο του δάσους, αναφέρθηκε η επιλογή μίας μεταβλητής m η οποία είναι ο αριθμός των χαρακτηριστικών (attributes) στα οποία γίνεται το split σε κάθε node του δένδρου. Η variable importance είναι μία μετρική που εκφράζει την «αναγκαιότητα» και το πόσο πολύ επηρεάζουν (αρνητικά ή θετικά) τα attributes, το classification error του δάσους. Όσο προστίθενται δέντρα στο δάσος, τα out-of-bag data είναι αυτά που χρησιμοποιούνται για να μας δίνουν μία τρέχον εκτίμηση του classification error αλλά και του variable importance. Για να γίνει καλύτερα κατανοητή η έννοια και η σημασία του μεγέθους αυτού, αναφέρονται τα βήματα που ακολουθούνται ώστε να υπολογιστεί η τιμή του: 1. Για κάθε δέντρο που παράγεται, ξεχώρισε τις out-of-bag cases και μέτρα τις votes για την correct class - classification Στις out-of-bag cases μετάθεσε τυχαία τις τιμές της μεταβλητής m και τρέξε το δένδρο με τις cases αυτές, που πλέον για τα m attributes έχουν νέες τιμές- classification 2. - Π.χ. αν σε ένα data set με 20 cases, βγαίνουν out-of-bag οι 5. Οι τιμές που έχει το χαρακτηριστικό m σε αυτές τις 5 cases εναλλάσσονται μεταξύ τους και έτσι η κάθε case έχει νέα τιμή για το χαρακτηριστικό της m. 3. Αφαίρεσε τον αριθμό των votes του 2 ου classification από τον αριθμό των votes του 1 ου classification. Αποθήκευσε τον αριθμό αυτό για το συγκεκριμένο δένδρο. 4. Επανέλαβε τα βήματα 1 έως 3 σε όλα τα δένδρα του δάσους. Ο μέσος όρος των αριθμών κάθε δένδρου του 3 ου βήματος αποτελεί τη «σημαντική μετρική για τη μεταβλητή m» - (variable importance). 50

51 Η variable importance είναι μία πολύ σημαντική μετρική, καθώς δίνει τη δυνατότητα σε περίπτωση που οι τιμές της είναι ανεξάρτητες από δένδρο σε δένδρο, το σφάλμα ταξινόμησης (classification error) να υπολογίζεται σύμφωνα με ένα συγκεκριμένο υπολογισμό. Στην Εικόνα 8 απεικονίζεται ένα διάγραμμα με τις τιμές της variable importance για τις επτά μεταβλητές (attributes) ενός data set με γεωγραφικά δεδομένα από την περιοχή του Colorado των Η.Π.Α.. Το συγκεκριμένο σύνολο εκπαίδευσης αποτελείται από 1008 δείγματα (cases) [60]. Εικόνα 8: Variable importance of Colorado data Proximities Μία άλλη σημαντική μετρική που υπάρχει στα random forests, είναι τα Proximities. Τα proximities αποτελούν ένα από τα πιο χρήσιμα εργαλεία των random forests καθώς βρίσκουν εφαρμογή στην αποκατάσταση χαμένων δεδομένων, στον εντοπισμό outliers ενώ παράγουν, χαμηλής ορατότητας, προβολές των δεδομένων. Ουσιαστικά, πρόκειται για μία τιμή που υπολογίζεται για κάθε ζευγάρι cases, μετρώντας πόσα δένδρα έχουν ταξινομήσει αυτές τις δυο cases στην ίδια κλάση. Για να γίνει καλύτερα κατανοητό, ας περιγράψουμε τα βήματα υπολογισμού των proximities: 1) Αφού κατασκευαστεί ένα δένδρο, ταξινόμησε (με αυτό) όλα τα data (training & oob). 51

52 2) Αν δύο cases, έστω k και n, καταλήγουν στο ίδιο τερματικό node (leaf) αύξησε το proximity τους κατά 1: proximity++. 3) Στο τέλος, κανονικοποίησέ τα : proximities / αριθμό των trees. Ο υπολογισμός των proximities παράγει ένα μητρώο συμμετρικό μεγέθους N x N, όπου N το πλήθος των cases, με τα διαγώνια στοιχεία του να είναι ίσα με 1. Για παράδειγμα αν Ν=10 cases, υπολογίζοντας τα proximities για όλα τα πιθανά ζευγάρια δειγμάτων (σε ένα δένδρο) παράγεται ένας πίνακας σαν και τον Πίνακας 2. Case Case Case Case Case Case No Case Case Case Case Case Πίνακας 2. Proximities για κάθε ζευγάρι περιπτώσεων για ένα δένδρο Η μετρική των proximities χρησιμοποιείται, όπως αναφέρθηκε, και για τον εντοπισμό των λεγόμενων outliers. Τα outliers είναι οι cases που αφαιρούνται από το κύριο σώμα των 52

53 δεδομένων. Ο ορισμός αυτός μπορεί να μεταφραστεί ως εξής: Τα outliers είναι οι cases αυτές των οποίων τα proximities τους με τις υπόλοιπες cases είναι γενικά μικρά. Πιο συγκεκριμένα, για κάθε δείγμα (case) υπολογίζεται ένα μέσο τετραγωνικό proximity σε σχέση με τα υπόλοιπα δείγματα για την συγκεκριμένη κλάση στην οποία ανήκει αυτό το δείγμα. Για παράδειγμα, ένα outlier στην κλάση j είναι μία case της οποίας τα proximities με όλες τις υπόλοιπες cases που ανήκουν και αυτές στην κλάση j είναι μικρά. Το μέσο proximity της case n που ανήκει στην κλάση j ορίζεται ως : Και το outlier της case n ισούται με τον συνολικό αριθμό των δειγμάτων διαιρεμένο με το average proximity: Outlier(n) = Ν / P(n) Στην Εικόνα 9: Outlier Analysis μπορούμε να παρατηρήσουμε τις τιμές των outliers για 1008 cases του data set με τα γεωγραφικά δεδομένα της περιοχής του Colorado των Η.Π.Α. που αναφέρθηκαν και προηγουμένως [60]. Εικόνα 9: Outlier Analysis for Colorado data 53

54 Επιλογή Χαρακτηριστικών (Feature Selection) Στη μηχανική μάθηση και τη στατιστική, η επιλογή χαρακτηριστικών (feature selection) γνωστή και ως επιλογή μεταβλητών(variable selection), αφαίρεση χαρακτηριστικών (feature reduction), επιλογή ιδιοτήτων (attribute selection) ή επιλογή υποσυνόλου μεταβλητών (variable subset selection), είναι μια τεχνική για επιλογή ενός υποσυνόλου χαρακτηριστικών με σκοπό την κατασκευή εύρωστων μοντέλων μάθησης/εκπαίδευσης. Η επιλογή χαρακτηριστικών είναι ένα ιδιαίτερα σημαντικό βήμα στην ανάλυση δεδομένων, καθώς αρκετά συχνά το πλήθος των δεδομένων είναι πολύ μικρό αλλά ο αριθμός των χαρακτηριστικών που προέκυψαν κατά την ανάλυση είναι πολύ μεγάλος. Αφαιρώντας τα μη σχετικά και τα περιττά χαρακτηριστικά από τα δεδομένα, η επιλογή χαρακτηριστικών βοηθά στην βελτίωση της απόδοσης των μοντέλων μάθησης, ενισχύοντας την ικανότητα γενίκευσης του μοντέλου και επιταχύνοντας την διαδικασία εκμάθησης. Η επιλογή των χαρακτηριστικών βοηθά στην καλύτερη κατανόηση των δεδομένων, αποκαλύπτοντας τα πιο σημαντικά από αυτά αλλά και το πώς σχετίζονται μεταξύ τους. Οι απλοί αλγόριθμοι επιλογής χαρακτηριστικών είναι ad hoc, αλλά υπάρχουν και άλλες μεθοδολογικές προσεγγίσεις. Από θεωρητική σκοπιά, μπορεί να αποδειχτεί ότι η βέλτιστη επιλογή χαρακτηριστικών για προβλήματα επιβλεπόμενης μάθησης (όπως αυτό που εξετάζεται στην παρούσα εργασία) απαιτεί μια εξονυχιστική έρευνα σε όλα τα πιθανά υποσύνολα χαρακτηριστικών για το επιλεγμένο πλήθος. Αν ο αριθμός των χαρακτηριστικών που είναι διαθέσιμα είναι πολύ μεγάλος τότε αυτό είναι αδύνατο. Για τα προβλήματα επιβλεπόμενης μάθησης, η αναζήτηση διεξάγεται για ένα ικανοποιητικό σύνολο χαρακτηριστικών αντί για το βέλτιστο. Οι αλγόριθμοι επιλογής χαρακτηριστικών συνήθως χωρίζονται σε δυο κατηγορίες: βαθμολόγησης χαρακτηριστικών (feature ranking) και επιλογής υποσυνόλου(subset selection). Η βαθμολόγηση χαρακτηριστικών αναθέτει σε κάθε χαρακτηριστικό έναν βαθμό με μια μετρική και εξαλείφει όλα τα χαρακτηριστικά που δεν επιτυγχάνουν έναν επαρκή βαθμό. Η επιλογή υποσυνόλου αναζητά το σύνολο των χαρακτηριστικών για την εύρεση του βέλτιστου υποσυνόλου αυτών [61]. 54

55 Στην παρούσα εργασία, πριν την εκπαίδευση του Τυχαίου Δάσους, θα εφαρμοστεί στα χαρακτηριστικά που συλλέχτηκαν κατά την ανάλυση των κειμένων, ο αλγόριθμος επιλογής χαρακτηριστικών Relief. Ο αλγόριθμος αυτός θεωρείται ως ένας από τους πιο επιτυχημένους αλγόριθμους για την εκτίμηση της ποιότητας των χαρακτηριστικών λόγω της απλότητας και της αποδοτικότητας του. Η βασική ιδέα του Relief είναι να υπολογιστεί ένας βαθμός για κάθε χαρακτηριστικό, που να υποδηλώνει πόσο καλά μπορεί να διαχωρίσει δείγματα(=λέξεις) που ανήκουν στην ίδια κατηγορία. Ο αλγόριθμος αναζητά για κάθε δείγμα που συμμετέχει στο σύνολο των δεδομένων, τον κοντινότερο γείτονα (nearest neighbor) από την ίδια κατηγορία(nearest hit) και από μια αντίθετη κατηγορία(nearest miss). O βαθμός Relief για ένα χαρακτηριστικό είναι, η διαφορά (ή o λόγος) ανάμεσα στην απόσταση από τον κοντινότερο γείτονα μιας αντίθετης κατηγορίας και στην απόσταση από τον κοντινότερο γείτονα μιας ίδιας κατηγορίας [62]. Ο αλγόριθμος Τυχαίων Δασών, με βάση των τρόπο λειτουργίας που παρουσιάστηκε παραπάνω και σε συνδυασμό με την τεχνική bootstrap sampling, εκτελεί μια τυχαία επιλογή χαρακτηριστικών, προκειμένου να κατασκευάσει τη συλλογή δέντρων απόφασης [63] Πλεονεκτήματα και εφαρμογές Τα περισσότερα πλεονεκτήματα των random forests έχουν αναφερθεί αρκετές φορές κατά τη διάρκεια της ανάλυσής τους στο υπο-κεφαλαίο αυτό. Γι αυτό και ξανά - αναφέρονται συντόμως παρακάτω: Το σφάλμα γενίκευσης είναι αρκετά περιορισμένο από τη στιγμή που αναπτύσσεται ένας πολύ μεγάλος αριθμός δέντρων με αποτέλεσμα να είναι απίθανο να παρουσιαστεί το πρόβλημα της υπέρ-εκπαίδευσης (over fitting). Η τυχαία επιλογή των μεταβλητών πρόβλεψης (υπεύθυνες για το splitting στα nodes) μειώνει τη σχέση των μεγάλων και un-pruned δένδρων, κάτι που κάνει την όλη μέθοδο αρκετά αμερόληπτη. 55

56 Ακόμη, διαπιστώνεται ότι η τεχνική των random forests παραλληλοποιεί πολλές τεχνικές που στα decision trees γίνονται ακολουθιακά. Τέλος, μετρικές όπως οι variable importance, proximities και outliers δίνουν πολύ σημαντικές πληροφορίες για τις προβλεπόμενες κλάσεις καθώς και για τα data set που έχουμε στη διάθεσή μας. Το μόνο αρκετά σημαντικό μειονέκτημα των random forests είναι το γεγονός ότι είναι πολύ απαιτητικά όσο αφορά τον χρόνο και υπολογιστικές δυνατότητες (computer resources). Θεωρείται ως ένα μοντέλο καθαρά «μαύρου κουτιού» (black box model). Όπως αναφέρθηκε και στο πρώτο κεφάλαιο παρούσας εργασίας, αν και τα «τυχαία δάση» είναι μία μέθοδος σχετικά πρόσφατη, υπάρχουν αρκετές δημοσιευμένες εφαρμογές τους σε GIS applications [64], στην αστρονομία και σε αστρονομικές εφευρέσεις [65] [66], στη βίο-πληροφορική (microarrays data sets) [67], στην οικολογία [68] και σε άλλα [69]. 56

57 ΚΕΦΑΛΑΙΟ 4: ΥΛΟΠΟΙΗΣΗ ΑΛΓΟΡΙΘΜΟΥ ΤΥΧΑΙΩΝ ΔΑΣΩΝ- ΑΠΟΤΕΛΕΣΜΑΤΑ Όπως αναφέρθηκε και στην εισαγωγή, στα πλαίσια της παρούσας διπλωματικής εργασίας, έγινε η επεξεργασία μιας συλλογής νέο-ελληνικών κειμένων με τη μέθοδο μηχανικής μάθησης (machine learning) - Τυχαία Δάση (Random Forests) με σκοπό την κατάταξη των λέξεων της συλλογής σε προκαθορισμένες κατηγορίες ονομάτων οντοτήτων. Χρησιμοποιώντας τo Σώμα Κειμένων της εφημερίδας «ΤΑ ΝΕΑ» που είναι ελεύθερα διαθέσιμο σε ηλεκτρονική μορφή μέσα από την Πύλη για την Ελληνική γλώσσα του Κέντρου Ελληνικής Γλώσσας [70], εφαρμόστηκαν οι τεχνικές γλωσσικής επεξεργασίας που περιγράφηκαν στο Κεφάλαιο 2, από τις οποίες προέκυψε για κάθε λέξη των κειμένων ένα σύνολο χαρακτηριστικών. Ένα από τα χαρακτηριστικά που ήταν διαθέσιμο μετά την επεξεργασία, ήταν το μέρος του λόγου της κάθε λέξης. Μέσου αυτού επιλέχθηκαν μόνο οι λέξεις που χαρακτηρίστηκαν ως «ουσιαστικό» καθώς μόνο αυτές θα μπορούσαν να κατηγοριοποιηθούν στις τέσσερις δυνατές κατηγορίες που εξετάζονται στο πρόβλημα της παρούσας εργασίας. Στις λέξεις αυτές ανατέθηκε μέσω χειρωνακτικής διαδικασίας, επιλέγοντας μια από τις τέσσερις δυνατές, η κατηγορία στην οποία ανήκουν. Όπως περιγράφηκε και στην ενότητα Επιβλεπόμενη μάθηση, η χειρωνακτικά ανατεθειμένη κατηγορία θα αποτελεί την κατηγορία που είναι γνωστή εκ των προτέρων για κάθε λέξη. Κάθε χαρακτηριστικό των επιλεγμένων λέξεων είχε μια αλφαριθμητική τιμή, οπότε για να γίνει δυνατή η χρήση τους από τον αλγόριθμο των Τυχαίων Δασών, ήταν απαιτητό κάθε διακριτή αλφαριθμητική τιμή κάθε χαρακτηριστικού να αντιστοιχηθεί με μια διακριτή ακέραια αριθμητική τιμή. Το σύνολο των επιλεγμένων λέξεων, θα αναφέρεται στην συνέχεια του παρόντος κεφαλαίου ως σύνολο δεδομένων(data set). Στο τελευταίο, εφαρμόστηκε η μέθοδος των Τυχαίων δασών που αναλύθηκε στο προηγούμενο κεφάλαιο. Πριν όμως γίνει η παρουσίαση της υλοποίησης της μεθόδου και η περιγραφή των αποτελεσμάτων, είναι απαραίτητο να περιγραφεί η ακριβής μορφή των δεδομένων. 57

58 4.1. Σκοπός της έρευνας και μορφή των δεδομένων Όπως περιγράφηκε και στο Κεφάλαιο 1, σκοπός της έρευνας στην παρούσα διπλωματική εργασία είναι να εξεταστεί εάν η μέθοδος επιβλεπόμενης μάθησης Τυχαία Δάση(Random Forests) θα επιφέρει καλύτερα αποτελέσματα στο πρόβλημα της αναγνώρισης και κατάταξης ονομάτων οντοτήτων στην ελληνική γλώσσα, σε σχέση με την μέθοδο επιβλεπόμενης μάθησης Μηχανές Διανυσμάτων Υποστήριξης(Support Vector Machines). Για το σκοπό αυτό, δημιουργήθηκε το σύνολο δεδομένων, μέρος του οποίου φαίνεται και παρακάτω στον Πίνακας 3, το οποίο αποτελούνταν από 2400 δείγματα (samples), κάθε ένα από τα οποία αντιστοιχεί και σε μια λέξη, και περιέχει 7 χαρακτηριστικά(features): 1) Λήμμα(lemma): Το λήμμα της κάθε λέξης π.χ. Κορυδαλλός, Προκόπης, κ.α., 2) Χαρακτηρισμός Λέξης(token type): Δηλώνει τον αριθμό της λέξης Πληθυντικός/Ενικός, το γένος θηλυκό/αρσενικό, την πτώση Γενική/Ονομαστική, π.χ. για τη λέξη «Ιανουάριου», MscSngGen, δηλαδή το γένος δεν αναγνωρίστηκε, Ενικός αριθμός, Γενική πτώση. 3) Αποτέλεσμα Λεξικού(gazetteer lookup): Το αποτέλεσμα της αναζήτησης στο λεξικό της κοινής νεοελληνικής, ΠΕΡΙΟΧΗ αν η λέξη αναφερόταν σε περιοχή, ΟΝΟΜΑ αν η λέξη αναφερόταν σε όνομα, NULL στις υπόλοιπες περιπτώσεις, 4) Μέρος του Λόγου Προηγούμενης Λέξης (part of speech 1 st before): Το μέρος του λόγου της προηγούμενης λέξης π.χ. N(=ουσιαστικό), Adv(=επίρρημα), Adj(=επίθετο), κ.α., 5) Χαρακτηρισμός Προηγούμενης Λέξης(token type 1 st before): Δηλώνει τον αριθμό της προηγούμενης λέξης Πληθυντικός/Ενικός, το γένος θηλυκό/αρσενικό, την πτώση Γενική/Ονομαστική, π.χ για το άρθρο «τις» FemPlrAcc, το Θηλυκό γένος, Πληθυντικός αριθμός, Αιτιατική πτώση. 6) Μέρος του Λόγου Επόμενης Λέξης (part of speech 1 st after): Το μέρος του λόγου της προηγούμενης λέξης π.χ. N(=ουσιαστικό), V=(ρήμα), Art (=άρθρο), κ.α., 58

59 7) Χαρακτηρισμός Επόμενης Λέξης (Πληθυντικός/Ενικός, Πτώση, Γένος κ.α.) (token type 1 st after): Δηλώνει τον αριθμό της επόμενης λέξης Πληθυντικός/Ενικός, το γένος θηλυκό/αρσενικό, την πτώση Γενική/Ονομαστική, π.χ. για τη λέξη «θόρυβος», MscSngNom, το γένος δεν αναγνωρίστηκε, Ενικός αριθμός, Ονομαστική πτώση. A/A Token Type Lemma Token Type 1st Before Part Of Speech 1st Before Token Type 1st After Part Of Speech 1st After Gazetteer Lookup 1 FemSngNomAccVoc πρωτοχρονιά FemSngAcc Art MscSngNom Art NULL 2 MscSngGenAccVoc ελαιώνας MscNtrSngGen Art ActPrsFucIndSjvSng_C_ V ΠΕΡΙΟΧΗ 3 FemSngGen Θεσσαλονίκη FemSngGen Art PsvPscIndSngPlr_C_ V ΠΕΡΙΟΧΗ 4 MscFemPlrGen Αθηναίος MscSngGen N FemSngNom Art NULL 5 MscSngAcc ταύρος MscSngAcc PrpArt MscSngNom Art ΠΕΡΙΟΧΗ 6 MscSngGen ταύρος MscSngAcc N MscSngNom Art NULL 7? MscNtrSngGen Art MscSngNom N NULL 8 MscSngGenAccVoc ελαιώνας MscNtrSngGen Art ActPrsFucIndSjvSng_C_ V ΠΕΡΙΟΧΗ 9 FemSngNomAccVoc Αθήνα FemSngAcc Art FemSngAcc PrpArt ΠΕΡΙΟΧΗ 10 NtrSngNomGenAccVoc Αιγάλεω MscNtrSngGen Art MscFemPlrNom Art ΠΕΡΙΟΧΗ 11 FemSngNomAccVoc Κολομβία FemSngAcc Art FemSngAcc PrpArt ΠΕΡΙΟΧΗ 12? FemPlrAcc PrpArt MscPlrAcc Adj ΠΕΡΙΟΧΗ 13 FemSngGen Κολομβία FemSngGen Art ActPscIndPlr_C_ V ΠΕΡΙΟΧΗ 14 FemSngNomAccVoc Ελλάδα FemSngAcc PrpArt MscSngNom N ΠΕΡΙΟΧΗ 15? MscNtrSngGen Art ActPscPstIndPlr_C_ V NULL 16 MscSngGenAccVoc Διονύσιος MscSngGenAccVoc N NtrSngNomAccVoc N ΟΝΟΜΑ 17 FemSngNomAccVoc Ηλία MscSngGenAccVoc N FemSngNomAccVoc Adj ΟΝΟΜΑ 18 FemSngNomAccVoc Αθήνα FemSngAcc PrpArt MscSngAcc + NtrSngNomAcc Art ΠΕΡΙΟΧΗ 19 MscSngGen κορυδαλλός MscNtrSngGen Art ActPstIndSng_C_ + ActPstImpSng_B_ V NULL 20 MscSngAcc κορυδαλλός MscSngAcc PrpArt PsvPscIndSng_A_ V NULL 21 MscSngAcc Οκτώβριος MscSngAcc PrpArt MscNtrSngGen Art NULL 22 FemSngNomAccVoc Ευγενία FemSngNom Art SngGenAcc_A_ Clt ΟΝΟΜΑ 23? MscSngAcc + NtrSngNomAcc Art ActPrsFucIndSjvSng_C_ V NULL 24 FemSngGen Αττική FemSngNomAccVoc N MscSngAcc Art ΠΕΡΙΟΧΗ 25 MscSngAcc Μάιος MscSngAcc Art MscNtrSngGen Art NULL 26? MscSngAcc + ActPrsFucIndSng_C_ + Art NtrSngNomAcc ActPrsSjvSng_C_ V NULL 27 MscSngAcc Ιούνιος MscSngAcc Art MscNtrSngGen Art NULL 59

60 28 FemSngNomAccVoc Ελλάδα FemSngAcc PrpArt FemSngAcc PrpArt ΠΕΡΙΟΧΗ 29? MscSngNom N ActPrsFucIndSjvSng_C_ V NULL 30? MscNtrSngGen Art PsvPrsFucIndSjvSngPlr_C_ V NULL 31 MscSngAcc Μάρτιος MscSngAcc Art ActPrsFucIndSjvSng_C_ V NULL 32 MscSngGenAccVoc Πειραιάς MscSngAcc Art PsvPscIndPlr_C_ V ΠΕΡΙΟΧΗ 33 MscSngAcc Κηφισός MscSngAcc PrpArt PsvPrsFucIndSjvSng_C_ V ΠΕΡΙΟΧΗ 34 MscSngAcc Μάιος MscSngAcc Art MscNtrSngGen Art NULL 35 MscSngGen Ιανουάριος FemSngNomAccVoc Adj NtrSngNomAcc_C_ Clt NULL 36 FemSngAcc Κάρυστος FemSngAcc Art FemSngGen N ΠΕΡΙΟΧΗ 37 FemSngNomAccVoc Καλλιθέα FemSngAcc PrpArt PsvPrsFucIndSng_C_ + PsvPrsSjvSng_C_ V ΠΕΡΙΟΧΗ 38 MscSngNom απόστολος MscSngNom N FemSngGen N ΟΝΟΜΑ 39 MscSngNom απόστολος MscSngNom N FemSngGen N ΟΝΟΜΑ 40 FemSngNomAccVoc Ολλανδία FemSngAcc Art NtrSngNomAccVoc N ΠΕΡΙΟΧΗ 41 FemSngGen Κύπρος FemSngNomAccVoc N NtrSngNomAccVoc N ΠΕΡΙΟΧΗ 42 MscSngAcc απόστολος MscSngAcc N FemSngNomAccVoc N ΟΝΟΜΑ 43 NtrSngNomAccVoc Χαλάνδρι MscNtrSngAcc PrpArt ActPstIndSng_C_ V ΠΕΡΙΟΧΗ 44? MscNtrSngGen Art NtrSngGen N NULL 45? MscSngAcc + NtrSngNomAcc Art FemSngGen N NULL 46? MscNtrSngGen Art FemSngAcc Art NULL 47 MscSngNom Χρίστος MscSngNom Art MscSngGen N ΟΝΟΜΑ 48 MscSngGen Γιώργος MscNtrSngGen Art MscFemSngPlrNom GenAccVoc N ΟΝΟΜΑ 49 MscSngNom Κώστας MscFemSngNom N MscSngNom N ΟΝΟΜΑ 50 FemSngAccVoc Κύπρος FemSngAcc Art FemSngNomAccVoc Adj ΠΕΡΙΟΧΗ 51 FemSngGen Αθήνα FemSngGen Art PsvPrsFucIndSjvSngPlr_C_ V ΠΕΡΙΟΧΗ 52 FemSngGen Θεσσαλονίκη MscSngAcc N FemSngNom Art NULL 53 FemSngNomAccVoc Αθήνα FemSngNom Art FemPlrAcc PrpArt ΠΕΡΙΟΧΗ 54 MscSngGenAccVoc Κώστας MscFemSngGen N MscSngGenAccVoc N ΟΝΟΜΑ 55 FemSngNomAccVoc Τουρκία FemSngNom Art PsvPrsFucIndSjvSngPlr_C_ V ΠΕΡΙΟΧΗ 56 MscSngGenAccVoc Κώστας MscFemSngGen N MscSngGenAccVoc N ΟΝΟΜΑ 57 FemSngNomAccVoc Τουρκία FemSngNom Art ActPstIndSng_C_ V ΠΕΡΙΟΧΗ 58 FemSngNomAccVoc Ευρώπη FemSngAcc Art MscSngAcc N ΠΕΡΙΟΧΗ 59 FemSngNomAccVoc Τουρκία FemSngNom Art ActPrsFucIndSjvSng_C_ V ΠΕΡΙΟΧΗ 60 MscSngGen Νοέμβριος MscNtrSngGen Art ActPrsFucIndSjvSng_A_ V NULL Πίνακας 3. Μέρος του συνόλου δεδομένων με 60 δείγματα και 7 ιδιότητες 60

61 4.2. Αλγόριθμος Relief Όπως αναλύθηκε και στην αρχή του παρόντος κεφαλαίου, για να γίνει εφικτή η ανάλυση των παραπάνω χαρακτηριστικών του συνόλου δεδομένων από τον αλγόριθμο των Τυχαίων Δασών, θα πρέπει οι τιμές τους να είναι σε αριθμητική μορφή. Τα αποτελέσματα που συλλέχθηκαν όμως είναι σε αλφαριθμητική μορφή(γράμματα και αριθμοί). Για το λόγο αυτό έγινε αντιστοίχηση των διακριτών τιμών κάθε χαρακτηριστικού με έναν ακέραιο αριθμό. Μετά τον μετασχηματισμό αυτό, εφαρμόστηκε ο αλγόριθμος Relief στο σύνολο εκπαίδευσης(training set) του συνόλου δεδομένων για την επιλογή των χαρακτηριστικών εκείνων, που είναι πιο σημαντικά και θα βοηθήσουν στην υλοποίηση του κατάλληλου ταξινομητή Τυχαίων Δασών. Ο τρόπος κατασκευής του συνόλου εκπαίδευσης περιγράφεται στο παρακάτω υποκεφάλαιο. >>A=importdata('DATA.XLS'); % table A holds, on first column an auto-increment number % rest columns contain the features selected for all the samples in the dataset in the % order described in 4.1 chapter, % last column holds the already-known classification category for each sample >>[ranked,weights] = relieff(a(:,2:8),a(:,9),10, 'method', 'classification') ranked = weights = Κώδικας 1. Εκτέλεση Αλγόριθμου Relief 61

62 Από τα παραπάνω, προέκυψε ότι τα χαρακτηριστικά «Χαρακτηρισμός Προηγούμενης Λέξης» και «Χαρακτηρισμός Επόμενης Λέξης» δεν θα συμβάλλουν σημαντικά στη διαδικασία κατηγοριοποίησης των δειγμάτων του συνόλου δεδομένων και για το λόγο αυτό αποφασίστηκε να εξαιρεθούν από την εκπαίδευση του Τυχαίου Δάσους. Ως αποτέλεσμα, ο ταξινομητής που θα υλοποιηθεί με τη χρήση Τυχαίων Δασών θα εκπαιδευτεί με τα πέντε ακόλουθα χαρακτηριστικά: Λήμμα(lemma), Χαρακτηρισμός Λέξης(token type), Αποτέλεσμα Λεξικού(gazetteer lookup), Μέρος του Λόγου Προηγούμενης Λέξης (part of speech 1 st before), Μέρος του Λόγου Επόμενης Λέξης (part of speech 1 st after) Αλγόριθμος Κατηγοριοποίησης Λέξεων με χρήση Τυχαίων Δασών Η μέθοδος ταξινόμησης που εφαρμόστηκε στις λέξεις που συλλέχτηκαν από ένα σύνολο νέο ελληνικών κειμένων, ήταν η μέθοδος των «Τυχαίων Δασών» - Random Forests - περιγράφηκε αναλυτικά στο Κεφάλαιο 3. Επιλέχτηκε η συγκεκριμένη μέθοδος ταξινόμησης γιατί αποτελεί μια εξαιρετικά αξιόπιστη τεχνική εξαγωγής χρήσιμων στοιχείων για την ταξινόμηση των δεδομένων. Αποτελέσματα όπως το ποιες κατηγορίες έχουν «ψηφιστεί» από πόσα δένδρα, κάτω από ποιες συνθήκες, αλλά και η εκτίμηση μεγεθών, όπως η εκτίμηση του out of bag σφάλματος, η εκτίμηση της importance κάθε μεταβλητής που λήφθηκε υπ όψιν στη ταξινόμηση και τα proximities, είναι ιδιαίτερα χρήσιμα. Βασιζόμενοι σε αυτά μπορούμε να συμπεράνουμε με μεγάλη ακρίβεια αν τα συγκεκριμένα δεδομένα μπορούν να ταξινομηθούν σωστά ή όχι στις συγκεκριμένες κατηγορίες. Η υλοποίηση της μεθόδου και η εφαρμογή της στα διαθέσιμα δεδομένα πραγματοποιήθηκε στο προγραμματιστικό περιβάλλον της MATLAB R2011a. Στον κώδικα που κατασκευάστηκε και παρουσιάζεται στη συνέχεια, οι συναρτήσεις που καλούνται για την κατασκευή του εκάστοτε δάσους υπάρχουν έτοιμες από το [71]. Τo σύνολο εκπαίδευσης(training set) ήταν ένα και περιείχε το μισό πλήθος λέξεων του συνόλου δεδομένων με ίση κατανομή λέξεων ανά κατηγορία ταξινόμησης. Πιο συγκεκριμένα, για την 62

63 κάθε κατηγορία (όνομα, οργανισμός, περιοχή, ημερομηνία) υπήρχαν 300 δείγματα στο σύνολο εκπαίδευσης. Αντίστοιχη κατανομή είχε και το σύνολο ελέγχου δεδομένων(test set) που χρησιμοποιείται για την αξιολόγηση του Τυχαίου Δάσους που δημιουργήθηκε. Ακολουθεί η περιγραφή του κώδικα που αναπτύχθηκε και στη συνέχεια τα αποτελέσματα από τις εκτελέσεις του κώδικα. Αρχείο rf_main.m Η συνάρτηση αυτή είναι η βασική συνάρτηση στην οποία φορτώνονται τα δεδομένα, γίνονται όλες οι απαραίτητες αρχικοποιήσεις και διαχωρίζεται το σύνολο δεδομένων σε σύνολο ελέγχου και σύνολο εκπαίδευσης. Το σύνολο εκπαίδευσης επιπλέον διαχωρίζεται σε ένα σύνολο εκπαίδευσης και ένα validation σύνολο. Τα δυο τελευταία χρησιμοποιούνται ώστε να διερευνηθεί ποια είναι η κατάλληλη τιμή για τον αριθμό των δέντρων που θα χρησιμοποιηθούν για την εκπαίδευση του ταξινομητή Τυχαίων Δασών. Κατά την διερεύνηση για τον βέλτιστο αριθμό δέντρων ο ταξινομητής εκπαιδεύεται και αξιολογείται για διαφορετικό αριθμό δέντρων κάθε φορά, ενώ το εύρος των αριθμών που εξετάζεται είναι από 10:10:200. Το αποτέλεσμα της διερεύνησης, δηλαδή ο αριθμός των δέντρων για τον οποίο επιτυγχάνεται η μέγιστη ακρίβεια για τον ταξινομητή Τυχαίων Δασών, χρησιμοποιείται στην συνάρτηση εκπαίδευσης του τελικού ταξινομητή. Στην συνάρτηση εκπαίδευσης του ταξινομητή, τόσο κατά την διαδικασία εύρεσης του βέλτιστου αριθμού δέντρων όσο και κατά την εκπαίδευση του τελικού ταξινομητή ορίζεται ότι το ποσοστό δεδομένων που θα επιλεγούν με bootstrap sampling (3.2.2) θα είναι 80%. Μετά το τέλος της εκπαίδευσης του ταξινομητή με το βέλτιστο αριθμό δέντρων, αυτός ελέγχεται με βάση το σύνολο ελέγχου. Τα αποτελέσματα που έδωσε ο ταξινομητής για το σύνολο ελέγχου συγκρίνονται με τα αποτελέσματα που γνωρίζουμε εκ των προτέρων για αυτό με την βοήθεια της συνάρτησης rf_evaluate που ακολουθεί. Η υλοποίηση της συνάρτησης rf_main (Κώδικας 2. Υλοποίηση Αλγορίθμου Τυχαίων Δασών) παρουσιάζεται στο ΠΑΡΑΡΤΗΜΑ της παρούσας εργασίας. 63

64 Αρχείο rf_evaluate.m Η συνάρτηση αυτή αξιολογεί την απόδοση ενός ταξινομητή. Λαμβάνει ως είσοδο δυο σύνολα δεδομένων, το ένα περιέχει το αποτέλεσμα που «προέβλεψε» ο ταξινομητής και το άλλο την κατηγορία ταξινόμησης που γνωρίζουμε εκ των προτέρων. Σαν αποτέλεσμα λαμβάνεται η ακρίβεια του μοντέλου - ταξινομητή, η ανάκληση(recall), η ακρίβεια(precision) και το F1-measure για κάθε κατηγορία ταξινόμησης. Για τον υπολογισμό των μετρικών αυτών χρησιμοποιούνται οι συναρτήσεις που έχουν οριστεί στο 2.3. Η υλοποίηση της συνάρτησης αυτής (Κώδικας 3. Υλοποίηση Συνάρτησης Αξιολόγησης Ταξινομητή) παρουσιάζεται στο ΠΑΡΑΡΤΗΜΑ της παρούσας εργασίας Αποτελέσματα Αλγορίθμου Τυχαίων Δασών Όπως αναφέρθηκε και παραπάνω, υπολογίστηκε ο βέλτιστος αριθμός δέντρων που πρέπει να χρησιμοποιηθούν για την εκπαίδευση του ταξινομητή ότι είναι 140. Η ακρίβεια του ταξινομητή που εκπαιδεύτηκε με χρήση Τυχαίων Δασών, αποτελούμενος από τον προαναφερθέντα αριθμό δέντρων, ήταν 93%. Στα αποτελέσματα που ακολουθούν από την υλοποίηση του κώδικα περιλαμβάνονται τα εξής: ΟΟΒ classification error Επειδή στα Τυχαία Δάση το classification error υπολογίζεται μόνο από τα out-ofbag δεδομένα, παρατίθεται η γραφική παράσταση που απεικονίζει το πόσο αυξάνεται ή μειώνεται το classification error όσο προστίθενται δέντρα - ταξινομητές στο τυχαίο δάσος. Variable Importance Στη συνέχεια απεικονίζεται το πόσο πολύ κάθε μεταβλητή, παίζει ρόλο στην μείωση της ακρίβειας της ταξινόμησης. Outlier Measure Απεικονίζει ποια δείγματα αποτελούν πιθανά outliers του συνόλου εκπαίδευσης και δεν συμβάλλουν στην ορθή ταξινόμηση των δεδομένων. 64

65 Recall, Precision, Specificity, F-measure Στον πίνακα που ακολουθεί, αποτυπώνονται για κάθε κατηγορία ταξινόμησης οι παραπάνω μετρικές που αξιολογούν την απόδοση του ταξινομητή που δημιουργήθηκε. Οι μετρικές αυτές ορίστηκαν στο Κεφάλαιο 2. Εικόνα 10. Out of Bag Classification Error για ταξινομητή Τυχαίων Δασών 65

66 Εικόνα 11. Variable Importance για ταξινομητή Τυχαίων Δασών 66

67 Εικόνα 12: Outlier Analysis για τον Ταξινομητή Τυχαίων Δασών Μετρικές/Κατηγορίες Ταξινόμησης Όνομα Οργανισμός Περιοχή Ημερομηνία Recall 84% 97% 95% 95% Precision 92% 95% 89% 96% Specificity 97% 98% 96% 99% F1-measure 88% 96% 92% 96% Πίνακας 4. Μετρικές Αξιολόγησης του Ταξινομητή Τυχαίων Δασών 67

68 4.5. Αξιολόγηση Αποτελεσμάτων Τυχαίων Δασών Τα αποτελέσματα της αξιολόγησης δείχνουν ότι η προτεινόμενη προσέγγιση αποδίδει καλά σε σύγκριση με προσεγγίσεις που υπάρχουν στην βιβλιογραφία για το αντίστοιχο πρόβλημα. Για παράδειγμα, στην εργασία [4], η προτεινόμενη προσέγγιση, η οποία γενίκευσε με χρήση Μηχανών Διανυσμάτων Υποστήριξης, παρουσιάζει μια απόδοση γύρω στο 93.34% (F1-measure) για αναγνώριση ονομάτων προσώπων σε 715 άρθρα νέων, από ειδησεογραφικούς οργανισμούς, όπως «TΑ ΝΕΑ» και «ΤΟ ΒΗΜΑ». Μια διερεύνηση των εκφράσεων που το σύστημα χαρακτήρισε λανθασμένα ως ονόματα (false positives), έδειξε ότι αρκετά λάθη οφείλονταν στην ύπαρξη εκφράσεων όπως «Παρασκευή», «Κυριακή» ή «Ιούλιος», «Αύγουστος», τα οποία αποτελούν και ημέρες της εβδομάδας ή και μήνες (βλ παρακάτω πίνακα). Στα κείμενα που χρησιμοποιήθηκαν υπήρξαν μηδαμινές περιπτώσεις λέξεων - οργανισμών («17 Νοέμβρη», «Οργανωτική Επιτροπή Αθήνα 2004») ή τοποθεσιών («Αγία Παρασκευή») που κατετάγησαν λανθασμένα ως εκφράσεις ημερομηνίας. Αξίζει να σημειωθεί ότι στο σύνολο των κειμένων που χρησιμοποιήθηκαν δεν υπήρξαν περιπτώσεις λέξεων - οργανισμών που να κατετάγησαν λανθασμένα ως ονόματα. Παρ όλο αυτά είναι φανερό ότι μπορεί να υπάρξουν και τέτοια λάθη. Ένα παράδειγμα είναι ο οργανισμός «Σύλλογος Φίλων Παιδιών με Καρκίνο Ελπίδα» ή «Σύλλογος Αγάπη» τα οποία περιέχουν τα κύρια ονόματα «Αγάπη» και «Ελπίδα». Κατηγορία Ημερομηνία Οργανισμοί Τοποθεσίες Ονόματα Ποσοστό 1.25% 0.41% 1.94% 3.61% Πίνακας 5. Ποσοστό εκφράσεων που χαρακτηρίστηκαν λανθασμένα σε κάθε κατηγορία Από την άλλη πλευρά, από τη διερεύνηση των εκφράσεων που το σύστημα δεν κατάφερε να εντοπίσει (false negatives), προκύπτει ότι η μη επιτυχημένη ταξινόμησή των ονομάτων οφείλεται στην ύπαρξη συντομογραφιών πριν από αυτά. Για παράδειγμα «κ. Γιώργος», «κ. Μαρία». Οι συντομογραφίες αυτές δεν αναγνωρίστηκαν κατά την γλωσσική ανάλυση και σε αρκετές περιπτώσεις το χαρακτηριστικό «Μέρος του Λόγου Προηγούμενης 68

69 Λέξης» το οποίο όπως προέκυψε και από τη γραφική παράσταση Εικόνα 11. Variable Importance για ταξινομητή Τυχαίων Δασών, είναι το δεύτερο πιο σημαντικό για τον ταξινομητή που κατασκευάστηκε. Κατηγορία Ημερομηνία Οργανισμοί Τοποθεσίες Ονόματα Ποσοστό 1.80% 1.66% 1.52% 2.22% Πίνακας 6. Ανάλυση εκφράσεων που δεν εντοπίστηκαν σε κάθε κατηγορία 4.6. Σύγκριση Αποτελεσμάτων Τυχαίων Δασών Νευρωνικών Δικτύων Όπως αναφέρθηκε και στην εισαγωγή, το ίδιο σύνολο δεδομένων που συγκεντρώθηκε από την γλωσσική επεξεργασία των νεοελληνικών κειμένων που περιγράφεται στο Κεφάλαιο 2, θα χρησιμοποιηθεί για την εκπαίδευση ενός ταξινομητή νευρωνικών δικτύων. Στον ταξινομητή αυτόν θα οριστούν οι ίδιες παράμετροι όπως και σε αυτόν που περιγράφηκε στην παραπάνω υποενότητα. Το σύνολο εκπαίδευσης (training set) που χρησιμοποιήθηκε για την εκπαίδευση του ταξινομητή τυχαίου δάσους χρησιμοποιείται για την εκπαίδευση του ταξινομητή νευρωνικών δικτύων. Αντίστοιχα ισχύει και για το σύνολο ελέγχου (test set). Κατά την υλοποίηση του νευρωνικού δικτύου, που παρουσιάζεται στο ΠΑΡΑΡΤΗΜΑ της παρούσας εργασίας (Κώδικας 4. Υλοποίηση Αλγορίθμου Νευρωνικών Δικτύων), ορίζονται και οι επιπλέον παράμετροι που χρησιμοποιήθηκαν για την εκπαίδευσή του. Οι παράμετροι αυτοί είναι, η συνάρτηση εκπαίδευσης του νευρωνικού δικτύου trainlm, ο μέγιστος αριθμός εποχών 150, η συνάρτηση απόδοσης του ταξινομητή mse και η παράμετρος μάθησης Πριν την έναρξη της εκπαίδευσης του νευρωνικού δικτύου τα σύνολα εκπαίδευσης και ελέγχου μετετέθησαν (transpose matrixes) ώστε να είναι δυνατή η χρήση τους από τις συναρτήσεις εκπαίδευσης train. Το νευρωνικό δίκτυο είχε στο επίπεδο εισόδου πέντε κρυφούς νευρώνες (ισάριθμους με τον αριθμό των χαρακτηριστικών του συνόλου δεδομένων), τέσσερις κρυφούς νευρώνες στο επίπεδο εξόδου (ισάριθμους με τον αριθμό 69

70 των κατηγοριών που θα κατατάσσει ο ταξινομητής τα δείγματα) και ένα κρυφό επίπεδο. Για να χρησιμοποιηθεί κατά την τελική εκπαίδευση του ταξινομητή, ο βέλτιστος αριθμός νευρώνων στο κρυφό επίπεδο, ακολουθήθηκε μια επαναληπτική διαδικασία εκπαίδευσης και αξιολόγησης του ταξινομητή όπου κάθε φορά ο αριθμός των κρυφών νευρώνων έπαιρνε σειριακά μια τιμή από το εύρος ένα έως είκοσι. Μετά από την επαναληπτική διαδικασία εκπαίδευσης και αξιολόγησης του ταξινομητή νευρωνικών δικτύων διαπιστώθηκε ότι η μεγαλύτερη ακρίβεια για αυτόν, επιτυγχάνεται όταν στο ενδιάμεσο επίπεδο(hidden layer) χρησιμοποιηθούν δεκαέξι κρυφοί νευρώνες. Στην συνέχεια, έγινε η τελική εκπαίδευση και αξιολόγηση του ταξινομητή νευρωνικών δικτύων χρησιμοποιώντας τον βέλτιστο αριθμό κρυφών νευρώνων που υπολογίστηκε και τις τιμές για τις προαναφερθείσες παραμέτρους. Η ακρίβεια του ταξινομητή κατά την τελική αξιολόγηση βρέθηκε ότι ήταν 77%. H χαμηλή αυτή ακρίβεια όπως και οι χαμηλές τιμές στις μετρικές που ακολουθούν, δηλώνει ότι ο ταξινομητής τυχαίων δασών είναι αποτελεσματικότερος σε σχέση με τον ταξινομητή νευρωνικών δικτύων. Ο αριθμός των εποχών που απαιτήθηκαν για να εκπαιδευτεί ο ταξινομητής με δεκαέξι κρυφούς νευρώνες στο ενδιάμεσο επίπεδο ήταν 53. Στα αποτελέσματα που ακολουθούν από την υλοποίηση του κώδικα περιλαμβάνονται τα εξής: Mean square classification error H μέση τιμή τετραγωνικού σφάλματος (MSE) ενός ταξινομητή είναι ένας από τους πολλούς τρόπους να εκφραστεί ποσοτικά η διαφορά μεταξύ των τιμών που εκτιμήθηκαν και των πραγματικών τιμών που έπρεπε να υπολογιστούν. Outlier Measure Απεικονίζει ποια δείγματα αποτελούν πιθανά outliers του συνόλου εκπαίδευσης και δεν συμβάλλουν στην ορθή ταξινόμηση των δεδομένων. Recall, Precision, Specificity, F-measure Στον πίνακα που ακολουθεί αποτυπώνονται για κάθε κατηγορία ταξινόμησης οι παραπάνω μετρικές, που αξιολογούν την απόδοση του ταξινομητή νευρωνικών 70

71 δικτύων με δεκαέξι κρυφούς νευρώνες. Οι μετρικές αυτές ορίστηκαν στο Κεφάλαιο 2. Εικόνα 13: Mean square classification error στο ταξινομητή Νευρωνικών Δικτύων με δεκαέξι κρυφούς νευρώνες 71

72 Εικόνα 14: Outlier Analysis στον ταξινομητή Νευρωνικών Δικτύων με δεκαέξι κρυφούς νευρώνες Μετρικές/Κατηγορίες Ταξινόμησης Όνομα Οργανισμός Περιοχή Ημερομηνία Recall 57% 83% 81% 88% Precision 68% 96% 74% 72% Specificity 91% 99% 91% 89% F1-measure 62% 89% 77% 79% Πίνακας 7. Μετρικές Αξιολόγησης του Ταξινομητή Νευρωνικών Δικτύων με δεκαέξι κρυφούς νευρώνες 72

73 4.7. Σύγκριση Αποτελεσμάτων Τυχαίων Δασών Μηχανών Διανυσμάτων Υποστήριξης Το ίδιο σύνολο δεδομένων που συγκεντρώθηκε από την γλωσσική επεξεργασία των νεοελληνικών κειμένων που περιγράφεται στο Κεφάλαιο 2, θα χρησιμοποιηθεί για την εκπαίδευση ενός ταξινομητή Μηχανών Διανυσμάτων Υποστήριξης (Support Vector Machines). Στον ταξινομητή αυτόν θα οριστούν οι ίδιες παράμετροι όπως και σε αυτόν που περιγράφηκε στην υποενότητα 4.3. Το σύνολο εκπαίδευσης (training set) που χρησιμοποιήθηκε για την εκπαίδευση του ταξινομητή τυχαίου δάσους χρησιμοποιείται για την εκπαίδευση του ταξινομητή μηχανών διανυσμάτων υποστήριξης. Αντίστοιχα ισχύει και για το σύνολο ελέγχου (test set). Η υλοποίηση του ταξινομητή Μηχανών Διανυσμάτων Υποστήριξης, παρουσιάζεται στο Παράρτημα της παρούσας εργασίας (Κώδικας 5. Υλοποίηση Αλγορίθμου Μηχανών Διανυσμάτων Υποστήριξης). Πριν ξεκινήσει η εκπαίδευση του ταξινομητή με βάση το σύνολο εκπαίδευσης, ορίστηκαν οι παράμετροι που χρησιμοποιήθηκαν για την συνάρτηση εκπαίδευσης του ταξινομητή Μηχανών Διανυσμάτων Υποστήριξης (svmtrain). Ως συνάρτηση kernel της συνάρτησης εκπαίδευσης svmtrain ορίστηκε η RBF (Radial Basis Function) ενώ για την επιλογή τιμών για τις παραμέτρους C και Gamma της συνάρτησης kernel, ακολουθήθηκε διαδικασία grid search και cross validation. Κατά τη διαδικασία αυτή, ο ταξινομητής μηχανών διανυσμάτων υποστήριξης εκπαιδεύτηκε και αξιολογήθηκε για διαφορετικές τιμές C και Gamma. Το αποτέλεσμα ήταν η εύρεση των βέλτιστων τιμών για τις παραμέτρους C και Gamma, για τις οποίες ο ταξινομητής είχε την μεγαλύτερη ακρίβεια. Στην συνέχεια, έγινε η τελική εκπαίδευση και αξιολόγηση του ταξινομητή Μηχανών Διανυσμάτων Υποστήριξης με βάση τις βέλτιστες τιμές για τις προαναφερθείσες παραμέτρους. Η ακρίβεια του ταξινομητή αξιολογήθηκε ότι ήταν 81%. Αξίζει να σημειωθεί ότι η ακρίβεια του ταξινομητή που εκπαιδεύτηκε με νευρωνικά δίκτυα ήταν 77%. H χαμηλή ακρίβεια του ταξινομητή μηχανών διανυσμάτων υποστήριξης και του ταξινομητή νευρωνικών δικτύων όπως και οι χαμηλές τιμές στις μετρικές F1-measure και Ακρίβεια 73

74 (Precision) (για τις κατηγορίες Περιοχή και Ημερομηνία του ταξινομητή Μηχανών Διανυσμάτων Υποστήριξης) σε σχέση με τον ταξινομητή τυχαίων δασών που προτείνεται στην παρούσα διπλωματική εργασία επιβεβαιώνει την ορθότητα της προτεινόμενης μεθόδου για την επίλυση του προβλήματος αναγνώρισης και κατάταξης ονομάτων οντοτήτων στην ελληνική γλώσσα. Στα αποτελέσματα που ακολουθούν από την υλοποίηση του κώδικα περιλαμβάνονται τα εξής: Cross Validation Accuracy Απεικονίζει ποιες ήταν οι βέλτιστες παράμετροι C και Gamma που βρέθηκαν κατά την διαδικασία του cross validation για τον ταξινομητή μηχανών διανυσμάτων υποστήριξης. Recall, Precision, Specificity, F-measure Στον πίνακα που ακολουθεί αποτυπώνονται για κάθε κατηγορία ταξινόμησης οι παραπάνω μετρικές, που αξιολογούν την απόδοση του ταξινομητή που δημιουργήθηκε. Οι μετρικές αυτές ορίστηκαν στο Κεφάλαιο 2. 74

75 Εικόνα 15. Βέλτιστες παράμετροι C και Gamma κατά το Cross Validation για τον ταξινομητή Μηχανών Διανυσμάτων Υποστήριξης Μετρικές/Κατηγορίες Ταξινόμησης Όνομα Οργανισμός Περιοχή Ημερομηνία Recall 99% 82% 92% 52% Precision 84% 99% 66% 87% Specificity 94% 100% 84% 97% F1-measure 91% 90% 77% 65% Πίνακας 8. Μετρικές Αξιολόγησης του Ταξινομητή Διανυσμάτων Υποστήριξης 75

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

«Αναγνώριση και κατάταξη ονοµάτων οντοτήτων σε ελληνικά κείµενα»

«Αναγνώριση και κατάταξη ονοµάτων οντοτήτων σε ελληνικά κείµενα» ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ιπλωµατική Εργασία Μεταπτυχιακού ιπλώµατος Ειδίκευσης «Αναγνώριση και κατάταξη ονοµάτων οντοτήτων σε ελληνικά

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη 6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη Σάββας Νικολαΐδης 1 ο

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων Οικονομικό Πανεπιστήμιο Αθηνών Πρόγραμμα Μεταπτυχιακών Σπουδών «Επιστήμη των Υπολογιστών» Διπλωματική Εργασία Μαρία-Ελένη Κολλιάρου 2

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Εργασία 1η Classification

Αναγνώριση Προτύπων Εργασία 1η Classification ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Αναγνώριση Προτύπων Εργασία 1η Classification Κιντσάκης Αθανάσιος 6667 Μόσχογλου Στυλιανός 6978 30 Νοεμβρίου,

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής Εξόρυξη γνώσης από σχόλια σε τουριστικές ιστοσελίδες και παραγοντική ανάλυση του αισθήματος ικανοποίησης των πελατών για το ξενοδοχείο τους Γιώργος ταλίδης 1, Παναγιώτης ταλίδης 2, Κώστας Διαμαντάρας 2

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Σοφιανόπουλος Σωκράτης Ινστιτούτο Επεξεργασίας του Λόγου Δομή παρουσίασης Τι είναι η Μηχανική Μετάφραση (Machine Translation) Ιστορική αναδρομή Είδη συστημάτων

Διαβάστε περισσότερα

Κεφάλαιο 1 Ανάλυση προβλήματος

Κεφάλαιο 1 Ανάλυση προβλήματος Κεφάλαιο 1 Ανάλυση προβλήματος 1.1 Η έννοια πρόβλημα Με τον όρο πρόβλημα εννοείται μια κατάσταση η οποία χρειάζεται αντιμετώπιση, απαιτεί λύση, η δε λύση της δεν είναι γνωστή, ούτε προφανής. 1.2 Κατανόηση

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 8 ο : Εξαγωγή πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction Information Extraction Μορφή της πληροφορίας Δομημένα δεδομένα Relational Databases (SQL) XML markup Μη-δομημένα δεδομένα

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Διδακτικές Τεχνικές (Στρατηγικές)

Διδακτικές Τεχνικές (Στρατηγικές) Διδακτικές Τεχνικές (Στρατηγικές) Ενδεικτικές τεχνικές διδασκαλίας: 1. Εισήγηση ή διάλεξη ή Μονολογική Παρουσίαση 2. Συζήτηση ή διάλογος 3. Ερωταποκρίσεις 4. Χιονοστιβάδα 5. Καταιγισμός Ιδεών 6. Επίδειξη

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΕΥΑΓΓΕΛΙΑΣ Π. ΛΟΥΚΟΓΕΩΡΓΑΚΗ Διπλωματούχου Πολιτικού Μηχανικού ΟΛΟΚΛΗΡΩΜΕΝΟ

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»

Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Εθνική Ερευνητική Υποδομή Υποέργο 3 Κατασκευή αποθετηρίου και διεπαφή με διαδικτυακές γλωσσικές υπηρεσίες Π3.4.1: Κατάλογος Γλωσσικών Τεχνολογιών (ΓΤ) Ε.Κ.Ε.Φ.Ε. «Δημόκριτος» Συγγραφείς: Διαθεσιμότητα:

Διαβάστε περισσότερα

Διπλωματική εργασία Θέμα: «Δημιουργία ευφυούς συστήματος για τη διαχείριση και διαλογή των ασθενών Τμήματος Επειγόντων Περιστατικών

Διπλωματική εργασία Θέμα: «Δημιουργία ευφυούς συστήματος για τη διαχείριση και διαλογή των ασθενών Τμήματος Επειγόντων Περιστατικών Διπλωματική εργασία Θέμα: «Δημιουργία ευφυούς συστήματος για τη διαχείριση και διαλογή των ασθενών Τμήματος Επειγόντων Περιστατικών Μεταπτυχιακός φοιτητής: Γεώργιος Κηπουργός Νοσηλευτής Τ.Ε Επιβλέπων καθηγητής:

Διαβάστε περισσότερα

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής Προγραμματισμός Η/Υ Προτεινόμενα θέματα εξετάσεων Εργαστήριο Μέρος 1 ό ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής Ιανουάριος 2011 Καλογιάννης Γρηγόριος Επιστημονικός/ Εργαστηριακός

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΣΧΟ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ Τομέας Ρευστών Εργαστήριο Θερμικών Στροβιλομηχανών

ΣΧΟ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ Τομέας Ρευστών Εργαστήριο Θερμικών Στροβιλομηχανών ΣΧΟ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ Τομέας Ρευστών Εργαστήριο Θερμικών Στροβιλομηχανών Αλγόριθμος προσαρμογής διδιάστατων υβριδικών πλεγμάτων στην υπό εξέλιξη λύση ενός πεδίου ροής και πιστοποίηση Διπλωματική Εργασία

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος. Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα

Διαβάστε περισσότερα

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή διατριβή

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή διατριβή ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή διατριβή ΑΝΑΛΥΣΗ ΕΓΧΡΩΜΩΝ ΙΑΤΡΙΚΩΝ ΕΙΚΟΝΩΝ ΜΕ ΠΛΗΓΕΣ ΓΙΑ ΤΗΝ ΠΑΡΑΚΟΛΟΥΘΗΣΗ ΚΑΙ ΕΞΑΚΡΙΒΩΣΗ ΤΟΥ ΠΟΣΟΣΤΟΥ ΙΑΣΕΩΣ Ορθοδοξία Μιτσή Λεμεσός

Διαβάστε περισσότερα

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ ΕΘΝΙΚΟ & ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΑΝΑΓΝΩΣΤΗΡΙΟ Πανεπιστημιούπολη, Κτήρια Πληροφορικής & Τηλεπικοινωνιών 15784 ΑΘΗΝΑ Τηλ.: 210 727 5190, email: library@di.uoa.gr,

Διαβάστε περισσότερα

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ

ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΤΙΤΛΟΣ ΑΝΑΦΟΡΑΣ: ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΕΠΙΛΕΓΜΕΝΕΣ ΠΕΡΙΤΠΩΣΕΙΣ ΚΩΔΙΚΟΣ ΠΑΡΑΔΟΤΕΟΥ: Π18 ΑΡΙΘΜΟΣ ΠΡΩΤΟΚΟΛΛΟΥ ΈΡΓΟΥ: ΤΠΕ/ΟΡΖΙΟ/0308(ΒΕ)/03 ΤΙΤΛΟΣ ΕΡΓΟΥ: ΓΕΝΙΚΕΥΜΕΝΟ ΣΥΣΤΗΜΑ ΑΣΑΦΟΥΣ ΓΝΩΣΤΙΚΟΥ ΧΑΡΤΗ

Διαβάστε περισσότερα

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition) Ο στόχος της διπλωματικής είναι η αναγνώριση του συναισθήματος ενός συγκεκριμένου ανθρώπου από μια αλληλουχία εικόνων στις οποίες παίρνει διάφορες εκφράσεις. Αυτό θα γίνει κάνοντας χρήση τεχνικών βαθιάς

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου Τίμος Κουλουμπής Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου Αντικείμενο Εργασίας Εισαγωγή στην Αυτόματη Κατηγοριοποίηση Κειμένου Μεθοδολογίες Συγκριτική Αποτίμηση Συμπεράσματα

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ

ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 18 ου Πανελληνίου Συνεδρίου Στατιστικής (2005) σελ.247-256 ΑΛΓΟΡΙΘΜΟΣ ΕΠΙΛΟΓΗΣ ΥΠΟΠΙΝΑΚΑ ΜΕ ΤΗΝ ΠΛΗΣΙΕΣΤΕΡΗ ΑΠΕΙΚΟΝΙΣΗ ΜΕΣΩ ΤΗΣ AFC ΣΤΟ ΓΕΝΙΚΕΥΜΕΝΟ ΠΙΝΑΚΑ ΣΥΜΠΤΩΣΕΩΝ

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θ.Ε. ΠΛΗ31 (2004-5) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #3 Στόχος Στόχος αυτής της εργασίας είναι η απόκτηση δεξιοτήτων σε θέματα που αφορούν τα Τεχνητά Νευρωνικά Δίκτυα και ποιο συγκεκριμένα θέματα εκπαίδευσης και υλοποίησης.

Διαβάστε περισσότερα

ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ

ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ Σχολή Mηχανικής και Τεχνολογίας Πτυχιακή εργασία ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ Στέλιος Καράσαββας Λεμεσός, Μάιος 2017

Διαβάστε περισσότερα

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων

ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ. Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση. Στη δήλωση ορισμό κανονικών εκφράσεων ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ 2 Ο Εργαστηριακό Μάθημα Λεξική Ανάλυση Σκοπός: Το μάθημα αυτό αναφέρεται: Στις βασικές έννοιες που σχετίζονται με τη λεξική ανάλυση Στη δήλωση ορισμό κανονικών εκφράσεων Θεωρία Πρόλογος

Διαβάστε περισσότερα

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής

Διαβάστε περισσότερα

Κεφάλαιο 5: Στρατηγική χωροταξικής διάταξης

Κεφάλαιο 5: Στρατηγική χωροταξικής διάταξης K.5.1 Γραμμή Παραγωγής Μια γραμμή παραγωγής θεωρείται μια διάταξη με επίκεντρο το προϊόν, όπου μια σειρά από σταθμούς εργασίας μπαίνουν σε σειρά με στόχο ο κάθε ένας από αυτούς να κάνει μια ή περισσότερες

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Α.Μ. 123/04 ΕΠΙΒΛΕΠΩΝ: ΣΑΜΑΡΑΣ ΝΙΚΟΛΑΟΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΝΙΟΣ 2007 Περιεχόμενα

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 17η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Artificia Inteigence A Modern Approach των S. Russe και

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Στρατηγική Αξιολόγησης κατά την Υλοποίηση Εκπαιδευτικού Λογισμικού

Στρατηγική Αξιολόγησης κατά την Υλοποίηση Εκπαιδευτικού Λογισμικού Στρατηγική Αξιολόγησης κατά την Υλοποίηση Εκπαιδευτικού Λογισμικού Μαρία Καραβελάκη, Γεώργιος Παπαπαναγιώτου, Γιάννα Κοντού INTE*LEARN Αγν.Στρατιώτη 46, Καλλιθέα τηλ. 95 91 853, fax. 95 72 098, e-mail:

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΣΤΡΑΤΗΓΙΚΗ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ Αθανάσιος Νταραβάνογλου Διπλωματική

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα

Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα 9ο Συνέδριο «Ελληνική Γλώσσα και Ορολογία», Αθήνα, 7-9 Νοεμβρίου 2013 Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα Τσιμπούρης Χαράλαμπος Υπ. Διδάκτορας Εργαστήριο Ενσύρματης

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης)

ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ. Υποχρεωτικής επιλογής (Κατεύθυνσης) ΕΙΔΙΚΟ ΕΝΤΥΠΟ ΠΕΡΙΓΡΑΦΗΣ ΜΑΘΗΜΑΤΩΝ Ακαδημαϊκή Μονάδα: Τομέας: Εργαστήριο/Σπουδαστήριο/Κλινική: Τίτλος Μαθήματος / Θέμα Εργασίας: Κωδικός Μαθήματος: Τύπος Μαθήματος: ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΥΣΤΗΜΑΤΑ ΣΤΗΡΙΞΗΣ

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Διοίκησης Συστημάτων Εφοδιασμού Μάθημα: Εισαγωγή στην Εφοδιαστική (Εργαστήριο) Ανάλυση του άρθρου με τίτλο: «Intelligent Decision Support Systems» των Stephanie Guerlain,

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 13: Δημιουργία Βάσεων Κανόνων Από Δεδομένα- Αξιολόγηση Βάσης Κανόνων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner 10. Text Mining Για να μπορέσουμε να χρησιμοποιήσουμε τις δυνατότητες text mining του Rapid Miner πρέπει να εγκαταστήσουμε το Text Mining Extension. Πηγαίνουμε Help Updates and Extensions (Marketplace)

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος Οικονομικό Πανεπιστήμιο Αθηνών Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης Άρης Κοσμόπουλος Πρόβλημα ανεπιθύμητων μηνυμάτων Περισσότερα από το 60% των ηλεκτρονικών μηνυμάτων είναι ανεπιθύμητα

Διαβάστε περισσότερα

Αυτόματη εξαγωγή αρμοδιοτήτων και δομής οργανισμών από την Εφημερίδα της Κυβέρνησης

Αυτόματη εξαγωγή αρμοδιοτήτων και δομής οργανισμών από την Εφημερίδα της Κυβέρνησης Αυτόματη εξαγωγή αρμοδιοτήτων και δομής οργανισμών από την Εφημερίδα της Κυβέρνησης Ηρακλής Βαρλάμης, varlamis@hua.gr Χαροκόπειο Πανεπιστήμιο: Επίκουρος Καθηγητής, Τμ. Πληροφορικής και Τηλεματικής ΕΕΛΛΑΚ:

Διαβάστε περισσότερα

Georgios Lucarelli and Ion Androutsopoulos Dept. of Informatics, Athens University of Economics and Business Patision 76, GR-104 34, Athens, Greece

Georgios Lucarelli and Ion Androutsopoulos Dept. of Informatics, Athens University of Economics and Business Patision 76, GR-104 34, Athens, Greece A Greek Named-Entity Recognizer that Uses Support Vector Machines and Active Learning Georgios Lucarelli and Ion Androutsopoulos Dept. of Informatics, Athens University of Economics and Business Patision

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη.

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. 4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη. Η μετατροπή μιας εντολής επανάληψης σε μία άλλη ή στις άλλες δύο εντολές επανάληψης, αποτελεί ένα θέμα που αρκετές φορές έχει εξεταστεί σε πανελλαδικό

Διαβάστε περισσότερα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Αντικείμενο Μελέτη και ανάπτυξη μεθόδων από τον χώρο της μηχανικής μάθησης για

Διαβάστε περισσότερα

Σκοπός του μαθήματος

Σκοπός του μαθήματος Σκοπός του μαθήματος Στο μάθημα αυτό γίνεται εφαρμογή, με τη βοήθεια του υπολογιστή και τη χρήση του στατιστικού προγράμματος S.P.S.S., της στατιστικής θεωρίας που αναπτύχθηκε στα μαθήματα «Εισαγωγή στη

Διαβάστε περισσότερα

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ 2013 ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ Περιήγηση στις δυνατότητες του λογισμικού και στον τρόπο χρήσης του ΟΜΑΔΑ ΕΡΓΟΥ ΔΙΕΥΘΥΝΣΗΣ

Διαβάστε περισσότερα

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ Σχολή Μηχανικής & Τεχνολογίας Τμήμα Πολιτικών & Μηχανικών Γεωπληροφορικής Μεταπτυχιακή διατριβή ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.) ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.) «Διερμηνεία και Μετάφραση» Tων Τμημάτων: Φιλολογίας, Αγγλικής Γλώσσας και Φιλολογίας, Γαλλικής Γλώσσας και

Διαβάστε περισσότερα

Ενότητα 14 (XIV): Γλωσσική-Λεξιλογική προσέγγιση, επεξεργασία και γραμματικής ανακεφαλαίωση.

Ενότητα 14 (XIV): Γλωσσική-Λεξιλογική προσέγγιση, επεξεργασία και γραμματικής ανακεφαλαίωση. Ενότητα 14 (XIV): Γλωσσική-Λεξιλογική προσέγγιση, επεξεργασία και γραμματικής ανακεφαλαίωση. Βέλτιστο Σενάριο Γνωστικό αντικείμενο: Λατινικά Δημιουργός: ΚΑΛΛΙΟΠΗ ΤΥΜΠΑΝΙΔΟΥ ΙΝΣΤΙΤΟΥΤΟ ΕΚΠΑΙΔΕΥΤΙΚΗΣ ΠΟΛΙΤΙΚΗΣ

Διαβάστε περισσότερα

ΕΜΠΕΙΡΙΚΗ ΔΙΕΡΕΥΝΙΣΗ ΚΙΝΔΥΝΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΓΡΑΜΜΑΤΩΝ ΣΕ ΕΠΙΛΕΓΜΕΝΟΥΣ ΤΡΑΠΕΖΙΚΟΥΣ ΟΡΓΑΝΙΣΜΟΥΣ

ΕΜΠΕΙΡΙΚΗ ΔΙΕΡΕΥΝΙΣΗ ΚΙΝΔΥΝΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΓΡΑΜΜΑΤΩΝ ΣΕ ΕΠΙΛΕΓΜΕΝΟΥΣ ΤΡΑΠΕΖΙΚΟΥΣ ΟΡΓΑΝΙΣΜΟΥΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΣΤΡΑΤΗΓΙΚΗ ΕΜΠΕΙΡΙΚΗ ΔΙΕΡΕΥΝΙΣΗ ΚΙΝΔΥΝΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΓΡΑΜΜΑΤΩΝ ΣΕ ΕΠΙΛΕΓΜΕΝΟΥΣ

Διαβάστε περισσότερα

Μαλούτα Θεανώ Σελίδα 1

Μαλούτα Θεανώ Σελίδα 1 ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Α. ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ ΦΥΛΛΑΔΙΟ 6 ο ( Ενότητες 2.3 ) 1.Τι είναι πρόγραμμα; 2. Ποια είναι τα πλεονεκτήματα των γλωσσών υψηλού επιπέδου σε σχέση με τις γλώσσες

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 16 ης διάλεξης

Ασκήσεις μελέτης της 16 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 16 ης διάλεξης 16.1. (α) Έστω ένα αντικείμενο προς κατάταξη το οποίο

Διαβάστε περισσότερα

Μεθοδολογίες Αξιοποίησης Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων Μεθοδολογίες Αξιοποίησης Δεδομένων Βλάχος Σ. Ιωάννης Λέκτορας 407/80, Ιατρικής Σχολής Πανεπιστημίου Αθηνών Εργαστήριο Πειραματικής Χειρουργικής και Χειρουργικής Ερεύνης «Ν.Σ. Σ Χρηστέας» Στάδια Αξιοποίησης

Διαβάστε περισσότερα

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Τι είναι η ερευνητική εργασία Η ερευνητική εργασία στο σχολείο είναι μια δυναμική διαδικασία, ανοιχτή στην αναζήτηση για την κατανόηση του πραγματικού κόσμου.

Διαβάστε περισσότερα