ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΔΙΠΛΩΜΑ ΕΙΔΙΚΕΥΣΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Σύστημα Εξαγωγής Γνωρισμάτων Κειμένου από Συλλογές Κειμένων, Ανεξάρτητα από τη Γλώσσα Γραφής και Ανάπτυξη Μοντέλων Εξόρυξης Συμπερασμάτων. (Μεθοδολογία Αξιολόγησης Μοντέλων Εξόρυξης Συμπερασμάτων) Μπουλούμπασης Α. Νικόλαος Α.Μ.: 502 Επιβλέπων Καθηγητής: Μεγαλοοικονόμου Βασίλειος Πάτρα, Οκτώβριος 2016

2 1

3 UNIVERSITY OF PATRAS SCHOOL OF ENGINEERING DEPARTMENT OF COMPUTER ENGINEERING AND INFORMATICS POST GRADUATE MASTERS DEGREE MASTERS DISSERTATION Language Independent Text Feature Extraction System for the Deployment of Opinion Mining Models. (Evaluation Methodology of Opinion Mining Models) Bouloubasis A. Nikolaos A.M.: 502 SUPERVISOR: Prof. Megalooikonomou Vasileios Patras, October

4 3

5 Σύστημα Εξαγωγής Γνωρισμάτων Κειμένου από Συλλογές Κειμένων, Ανεξάρτητα από τη Γλώσσα Γραφής και Ανάπτυξη Μοντέλων Εξόρυξης Συμπερασμάτων. (Μεθοδολογία Αξιολόγησης Μοντέλων Εξόρυξης Συμπερασμάτων) Μπουλούμπασης Α. Νικόλαος Μεταπτυχιακό Δίπλωμα Ειδίκευσης Επιβλέπων: Μεγαλοοικονόμου Βασίλειος, Καθηγητής, Τμήμα Μηχανικών Η/Υ και Πληροφορικής Παν/μιο Πατρών Στην Τριμελή Συμβουλευτική Επιτροπή, εκτός από τον επιβλέποντα καθηγητή, συμμετείχαν οι: Παυλίδης Γεώργιος, Καθηγητής, Τμήμα Μηχανικών Η/Υ και Πληροφορικής Παν/μιο Πατρών Μακρής Χρήστος, Επίκουρος Καθηγητής, Τμήμα Μηχανικών Η/Υ και Πληροφορικής Παν/μιο Πατρών 4

6 5

7 Στην πολυαγαπημένη μου μητέρα, Χρυσάνθη που μας άφησε τόσο νωρίς 6

8 7

9 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ... 8 ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ ΕΥΧΑΡΙΣΤΙΕΣ ΠΕΡΙΛΗΨΗ ABSTRACT Κεφάλαιο 1: Εισαγωγή Εισαγωγικά Σκοπός της έρευνας Διάρθρωση της έρευνας Κεφάλαιο 2: Θεωρητικό Υπόβαθρο Βασικές έννοιες Σχετική έρευνα Κεφάλαιο 3: Μεθοδολογία Γενική Περιγραφή Σύνολο Δεδομένων Τεχνικές Εξαγωγής Γνωρισμάτων Ανάπτυξη συνόλων εκπαίδευσης κατηγοριοποιητών με αλγορίθμους μηχανικής μάθησης Αλγόριθμοι μηχανικής μάθησης Δέντρα Αποφάσεων (Decision Trees) C Random Forest Random Tree Bayesian Αλγόριθμοι Μηχανικής Μάθησης Bayes Net IBK (K-Nearest Neighbors Algorithm) SVM (Support Vector Machines) - SMO (Sequential minimal optimization) SVM SMO - Poly Kernel SMO -RBF Kernel Μοντέλα Συγκριτικής Αξιολόγησης Μέθοδος Σύντηξης Κατηγοριοποιητών Κεφάλαιο 4: Εργαλεία Γλώσσες Προγραμματισμού Σύστημα Διαχείρισης Βάσεων Δεδομένων

10 4.3. Πακέτο λογισμικού εξόρυξης δεδομένων - WEKA Κεφάλαιο 5: Ανάπτυξη Συστήματος Υλοποίηση Πειραμάτων Αρχιτεκτονική Συστήματος Σύστημα Διαχείρισης Βάσης Δεδομένων Συλλογή - Προ επεξεργασία Συνόλου Δεδομένων Τεχνικές Εξαγωγής Γνωρισμάτων Κειμένου Εκπαίδευση Κατηγοριοποιητών Κεφάλαιο 6: Αποτελέσματα Αποτελέσματα βάση Αλγορίθμου Κατηγοριοποίησης Συγκριτικά αποτελέσματα βάση τεχνικών εξαγωγής γνωρισμάτων Συγκριτικά αποτελέσματα βάση γλωσσικού μοντέλου n-gram Συγκριτικά αποτελέσματα βάση μέγιστου αριθμού αναγνωριστικών εξέτασης Συγκριτικά αποτελέσματα ανά γλώσσα Συνδυασμός Κατηγοριοποιητών Κεφάλαιο 7: Συμπεράσματα - Μελλοντική Έρευνα Κεφάλαιο 8: Βιβλιογραφία - Πηγές

11 ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ Εικόνα 1. Διάγραμμα ροής για το σύστημα πολύγλωσσης εξαγωγής απόψεων Εικόνα 2. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Πολύγλωσσου Train Set Εικόνα 3. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Πολύγλωσσου Test Set Εικόνα 4. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Αγγλικό Train Set Εικόνα 5. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Αγγλικό Test Set Εικόνα 6. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Ισπανικό Train Set Εικόνα 7.Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Ισπανικό Test Set Εικόνα 8. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Τούρκικο Train Set Εικόνα 9. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Τούρκικο Test Set Εικόνα 10. Διάγραμμα ροής για το σύστημα εκπαίδευσης και αξιολόγησης συστήματος εξαγωγής απόψεων Εικόνα 11. Διάγραμμα σύντηξης κατηγοριοποιητών Εικόνα 12. Αρχικό Menu Canopy. Εικόνα 13. Package Manager Canopy Εικόνα 14. Editor Command line Canopy Εικόνα 15. NetBeans Βιβλιοθήκες του Weka Εικόνα 16. NetBeans Μέθοδοι διαχείρισης κατηγοριοποιητών του Weka Εικόνα 17. Xampp Control Panel Εικόνα 18. Διαχειριστικό Περιβάλλον του Server Εικόνα 19. Διαχειριστικό Περιβάλλον του συστήματος Διαχείρισης Βάσεων Δεδομένων MySql Εικόνα 20. Αρχικό Menu του WEKA Εικόνα 21. WEKA Explorer Εικόνα 22. WEKA Explorer αρχείο arff Εικόνα 23. WEKA Επιλογή κατηγοριοποιητή για εκπαίδευση Εικόνα 24. WEKA Επιλογή παραμέτρων αξιολόγησης Εικόνα 25. WEKA Αποτελέσματα εκπαίδευσης κατηγοριοποιητή Εικόνα 26. Αρχιτεκτονική Συστήματος Αυτόματης Εξαγωγής Απόψεων από πολύγλωσσα σύνολα διαδικτυακών κριτικών ταινιών Εικόνα 27. Σχεσιακό Διάγραμμα Συστήματος Βάσης Δεδομένων Εικόνα 28. Μέσες τιμές των μετρικών για όλους τους αλγορίθμους σε σχέση με τις τεχνικές εξαγωγής αναγνωριστικών Εικόνα 29 Γράφημα μέσων τιμών αλγορίθμου Bayes σε σχέση με n-gram model Εικόνα 30. Γράφημα μέσων τιμών αλγορίθμου IBK σε σχέση με n-gram model Εικόνα 31. Γράφημα μέσων τιμών αλγορίθμου J48 σε σχέση με n-gram model Εικόνα 32. Γράφημα μέσων τιμών αλγορίθμου Random Forest σε σχέση με n-gram model Εικόνα 33. Γράφημα μέσων τιμών αλγορίθμου Random Tree σε σχέση με n-gram model Εικόνα 34. Γράφημα μέσων τιμών αλγορίθμου SMO Poly Kernel σε σχέση με n-gram model Εικόνα 35. Γράφημα μέσων τιμών αλγορίθμου SMO RBF Kernel σε σχέση με n-gram model Εικόνα 36. Γράφημα μέσων τιμών τεχνικής Bows-Frequency σε σχέση με n-gram model Εικόνα 37. Γράφημα μέσων τιμών τεχνικής Bows-Occurrence σε σχέση με n-gram model Εικόνα 38. Γράφημα μέσων τιμών τεχνικής Bows-TfIdf σε σχέση με n-gram model Εικόνα 39. Γράφημα μέσων τιμών τεχνικής Bows-Frequency σε σχέση με μέγιστο αριθμό αναγνωριστικών Εικόνα 40. Γράφημα μέσων τιμών τεχνικής Bows-Occurrence σε σχέση με μέγιστο αριθμό αναγνωριστικών Εικόνα 41. Γράφημα μέσων τιμών τεχνικής Bows-TfIdf σε σχέση με μέγιστο αριθμό αναγνωριστικών

12 ΕΥΧΑΡΙΣΤΙΕΣ Αρχικά θα ήθελα να ευχαριστήσω όλους όσους µε βοήθησαν, είτε µε τις γνώσεις τους, είτε παρέχοντάς µου ψυχολογική στήριξη, ώστε να ολοκληρώσω την παρούσα μεταπτυχιακή εργασία. Θα ήθελα να αναφερθώ στον αποβιώσαντα καθηγητή του Τμήματος Μηχανικών Η/Υ και Πληροφορικής, Δημήτριο Χριστοδουλάκη και πιο συγκεκριμένα στην πολύτιμη καθοδήγηση του και βοήθειά του κατά την διάρκεια της φοίτησής μου στο Μεταπτυχιακό Πρόγραμμα ΕΤΥ. Ένα ιδιαίτερα θερμό ευχαριστώ οφείλω στον επιβλέποντα της ιπλωµατικής µου εργασίας, καθηγητή Μεγαλοοικονόμου Βασίλειο, για τη μοναδική ευκαιρία που µου έδωσε να ασχοληθώ µε ένα τόσο ενδιαφέρον και πολλά υποσχόμενο θέμα. Επίσης θέλω να τον ευχαριστήσω για την εμπιστοσύνη που µου έδειξε και την υποστήριξή του κατά την διάρκεια συγγραφής της παρούσας εργασίας. Οφείλω επίσης ένα μεγάλο ευχαριστώ στα υπόλοιπα µέλη της τριμελούς συμβουλευτικής επιτροπής για την πολύτιμή συνεισφορά τους στην ολοκλήρωση της εργασίας αυτής. Θα ήθελα επίσης να ευχαριστήσω την Αθανασία Κουμπούρη, υποψήφια Διδάκτωρ του Τμήματος Μηχανικών Η/Υ και Πληροφορικής, για την συνεχή και πολύτιμη καθοδήγηση που μου προσέφερε και κυρίως για την απεριόριστη προθυμία της να με βοηθήσει οποιαδήποτε στιγμή χρειάστηκε. Τέλος θα ήθελα να ευχαριστήσω τον πατέρα μου Ανδρέα, την αδερφή μου Μαρία την οικογένειά μου Γιάννη, Αναστασία, Κώστα, Διονύση, Ανδριανή, καθώς και την αγαπημένη μου Κατερίνα, για την στήριξή τους στην δύσκολη προσπάθεια για την ολοκλήρωση της Μεταπτυχιακής μου εργασίας. 11

13 ΠΕΡΙΛΗΨΗ Αυτή η εργασία πραγματεύεται τον προσδιορισμό συμπερασμάτων και απόψεων από συλλογές κειμένων ανεξάρτητα από την γλώσσα που χρησιμοποιείται σε αυτά. Για το σκοπό αυτό, εξετάζονται και υλοποιούνται μεθοδολογίες εξαγωγής γνωρισμάτων κειμένου (text-features), από συλλογές που αφορούν διαδικτυακές κριτικές ταινιών, για τη δημιουργία μοντέλων αυτόματης αξιολόγησης των υπό μελέτη κριτικών με δυαδική ταξινόμηση (θετική/αρνητική). Τα γνωρίσματα που εξάγονται για τη συγκεκριμένη μελέτη, πρέπει να έχουν τον μέγιστο βαθμό ανεξαρτησίας από την εκάστοτε γλώσσα κειμένου. Πιο συγκεκριμένα, παρουσιάζονται δυο διαφορετικές προσεγγίσεις εξαγωγής γνωρισμάτων κειμένου για σημασιολογική κατηγοριοποίηση: (α) Στατιστική προσέγγιση (Εμφάνιση γνωρισμάτων Συχνότητα εμφάνισης γνωρισμάτων) και (β) προσέγγιση με γνώμονα τα δεδομένα (Bag of Words, N-gram model). Οι προτεινόμενες προσεγγίσεις προσφέρουν στη μελέτη πλήρη ανεξαρτησία από την γλώσσα γραφής των κειμένων. Στην παρούσα εργασία υλοποιούνται οι παραπάνω προσεγγίσεις όχι μόνο ανεξάρτητα αλλά και σε συνδυασμό ώστε να επιτευχθούν τα βέλτιστα δυνατά αποτελέσματα πρόβλεψης ως αναφορά την αυτόματη εξαγωγή απόψεων. Το σύνολο των δεδομένων που χρησιμοποιείται για την εκπόνηση της εργασίας, αποτελείται από τρία επιμέρους υποσύνολα με κείμενα που αφορούν διαδικτυακές κριτικές ταινιών ανάλογα με την γλώσσα γραφής των κριτικών. Τα κείμενα που εξετάζονται είναι γραμμένα σε τρεις διαφορετικές γλώσσες: Αγγλικά, Ισπανικά και Τούρκικα απαρτίζουν κατ αντιστοιχία το Αγγλικό, το Ισπανικό και το Τούρκικο υποσύνολο δεδομένων. Οι προτεινόμενες τεχνικές εξαγωγής γνωρισμάτων κειμένου εφαρμόζονται στα τρία υποσύνολα (Αγγλικό, Ισπανικό και Τούρκικο) και στο σύνολό τους ώστε να αναπτυχθεί ένα συγκριτικό μοντέλο αξιολόγησης. Για τον αυτόματο προσδιορισμό συμπερασμάτων από το σύνολο των κριτικών, η μελέτη βασίζεται σε έξι πασίγνωστους αλγορίθμους μηχανικής μάθησης χρησιμοποιώντας μοντέλα κατηγοριοποίησης βασισμένα σε decision trees, support vector machines και lazy - learning αλγόριθμους. Τέλος, ερευνάται η αποδοτικότητα των εργαλείων και των μεθόδων εξαγωγής χαρακτηριστικών κειμένου στη βελτίωση της ακρίβειας του προσδιορισμού συμπερασμάτων από το σύνολο των διαδικτυακών κριτικών ταινιών. Λέξεις Κλειδιά: Εξόρυξη Γνώμης, Εξαγωγή Γνωρισμάτων Κειμένου, Κατηγοριοποίηση, Γλωσσικό Μοντέλο, Ανεξαρτησία από Γλώσσα γραφής, Στατιστικό Μοντέλο 12

14 ABSTRACT The present study addresses the problem of automatic language independent opinion identification of web users of movie reviews. Text feature extraction methodologies are implemented and evaluated over a dataset of web movie reviews written in three different languages (English, Spanish and Turkish) for the construction of automatic opinion mining models with binary classification. The text features are being extracted regardless the language used for every examined movie review. Specifically, this study presents two different text feature extraction approaches for automatic sentiment classification on movie reviews. The proposed approaches: (a) Statistical based (Term occurrence, Term frequency) and (b) Bag-of-Words based, which are totally language independent, are implemented not only individually but also in combination, in order the best possible prediction s accuracy to be achieved as reference to the automatic opinion identification. The dataset used for this project, is separated in three subsets of web movie reviews according to the language used for those reviews. Therefore the first subset contains reviews written in English, the second one has the Spanish reviews and the third one consists of reviews in Turkish. Thus the proposed text feature extraction techniques are applied in the whole dataset and in every individual subset too for the development of a comparative evaluation model. Finally, relying on six well-known machine learning algorithms, this study investigates the effectiveness of feature selection in the improvement of the accuracy of opinion identification. The feature ranking is performed over a set of statistical and data model based features. In the experiments, classification models are employed, based on decision trees, support vector machines and lazy-learning algorithms. Keywords: Opinion Mining, Text Feature Extraction, Classification, Language Model, Language Independent, Statistical Model 13

15 Κεφάλαιο 1: Εισαγωγή 1.1. Εισαγωγικά Η ταχεία ανάπτυξη του Web την τελευταία δεκαετία έχει αλλάξει δραστικά τον τρόπο με τον οποίο εκφράζουν οι άνθρωποι τις απόψεις τους. Πλέον μπορούν να βρεθούν σχεδόν παντού απόψεις / γνώμες πχ. ιστοσελίδες, κοινωνικά δίκτυα, ιστοσελίδες δημόσιων συζητήσεων (forums) και τόποι συγγραφής κριτικών. Αυτό έχει ως αποτέλεσμα την ανάπτυξη μιας τεράστιας ποσότητας περιεχομένου που παράγεται από τους χρήστες του διαδικτύου, το οποίο έχει κυριεύσει τον Παγκόσμιο Ιστό. Η απεικόνιση της κοινής γνώμης για κοινωνικά γεγονότα, πολιτικές κινήσεις, εταιρικές στρατηγικές και προτιμήσεις προϊόντων συγκεντρώνει όλο ένα και περισσότερο το ενδιαφέρον της επιστημονικής κοινότητας (για ενδιαφέρουσες ανοιχτές προκλήσεις) και του εταιρικού κόσμου (για σημαντικές επιπτώσεις στην αγορά και για πιθανές χρηματοπιστωτικές προβλέψεις) [1]. Είναι κοινή πρακτική στις μέρες μας να μοιραζόμαστε απόψεις και εμπειρίες για προϊόντα και υπηρεσίες. Έτσι, η ανάγκη για το εντοπισμό και την κατανόηση απόψεων που εκφράζονται στο κοινωνικό ιστό είναι σημαντική για κάθε χρήστη του διαδικτύου και για τις εταιρίες τις αγοράς. Κάθε ένας που θέλει να αγοράσει ένα προϊόν ή μια υπηρεσία, έχει πολύ εύκολα τη δυνατότητα να αξιολογήσει απόψεις και εμπειρίες άλλων ατόμων για αυτά. Από την άλλη πλευρά, οι εταιρίες της αγοράς μπορούν να εκμεταλλευτούν την κοινή γνώμη για την ανάπτυξη νέων προϊόντων αλλά και για την υλοποίηση στοχευμένων διαφημίσεων. Έτσι τα τελευταία χρόνια, το πεδίο της εξόρυξης απόψεων έχει κερδίσει ένα σημαντικό μέρος της προσοχής του ερευνητικού κόσμου λόγο του μεγάλου φάσματος επιστημονικών προκλήσεων που περιλαμβάνει αλλά και της πρακτικής εφαρμογής του στην αγορά και στις ακαδημαϊκές κοινότητες. Η εξόρυξη γνώμης είναι η διαδικασία της ανάλυσης, κατηγοριοποίησης και εξαγωγής υποκειμενικών πληροφοριών και συναισθημάτων που σχετίζονται με ένα συγκεκριμένο στόχο. Η κύρια πρόκληση στο πεδίο αυτό, είναι η πολική ταξινόμηση κατά την οποία μια άποψη που εκφράζεται σε ένα κείμενο, χαρακτηρίζεται ως θετική ή αρνητική είτε σε επίπεδο εγγράφου, είτε σε επίπεδο πρότασης είτε ακόμα και σε επίπεδο ενός χαρακτηριστικού του κειμένου (Sentiment Polarity Detection - SPD). Πρέπει να αναφερθεί ότι η γενική ιδέα της κατηγοριοποίησης ενός κειμένου με βάση το συναίσθημα, είναι η διαδικασία της επισημείωσης του κειμένου (έγγραφο, πρόταση, κριτική κτλ.) με τους χαρακτηρισμούς: θετικό, αρνητικό ή ουδέτερο. Στο πεδίο της αυτόματης εξόρυξης απόψεων από κείμενα που έχουν δημιουργηθεί από χρήστες του διαδικτύου, έχει γίνει μεγάλη έρευνα το μεγαλύτερο μέρος της οποίας αφορά κείμενα γραμμένα στα Αγγλικά. Ωστόσο το διαδίκτυο ως ένα διεθνές μέσω ανταλλαγής πληροφοριών, περιέχει υπηρεσίες που χρησιμοποιούνται από ανθρώπους που εκφράζουν τις απόψεις και τις εμπειρίες τους σε διαφορετικές γλώσσες. Η χρήση διαφορετικών γλωσσών αυξάνει τις απαιτήσεις στο πεδίο της εξόρυξης συναισθημάτων από κείμενα του διαδικτύου, καθώς η ανάλυση κειμένων με χρήση χαρακτηριστικών μόνο μιας γλώσσας, καλύπτει μόνο ένα μέρος του συνολικού διαθέσιμου περιεχομένου στο διαδίκτυο. Συχνά γίνονται έρευνες που λαμβάνουν υπόψη συγκεκριμένα χαρακτηριστικά μιας μόνο γλώσσας (κυρίως Αγγλικά) με αποτέλεσμα την 14

16 αύξηση της ποιότητας κατηγοριοποίησης των απόψεων για τη γλώσσα αυτή, αλλά και τη μείωση της απόδοσης των κατηγοριοποιητών για άλλες γλώσσες. Έτσι αυξάνεται όλο και περισσότερο η ανάγκη για τη διαχείριση και τη μελέτη της συναισθηματικής ανάλυσης σε κείμενα γραμμένα σε άλλες γλώσσες εκτός της Αγγλικής Σκοπός της έρευνας Η παρούσα μελέτη αποσκοπεί στον σχεδιασμό, στην υλοποίηση και στην αξιολόγηση ενός μοντέλου εξαγωγής συμπερασμάτων από συλλογές κειμένων που είναι γραμμένα σε τρεις διαφορετικές γλώσσες, Αγγλικά, Ισπανικά και Τούρκικα ώστε αυτό να αποτελέσει τη βάση για ανάπτυξη συστημάτων πολύγλωσσης εξόρυξης απόψεων. Οι παραδοσιακές τεχνικές πολύγλωσσης κατηγοριοποίησης συναισθημάτων από σώματα κειμένου [2], απαιτούν επιπλέον πηγές όπως παράλληλες συλλογές κειμένων για κάθε γλώσσα για την οποία πρέπει να γίνει κατηγοριοποίηση. Επιπλέον οι εξειδικευμένοι κατηγοριοποιητές για κάθε γλώσσα, χρειάζονται τα κείμενα που δέχονται ως είσοδο, να είναι γραμμένα μόνο στην γλώσσα που υποστηρίζουν. Μια προσέγγιση για κατηγοριοποιήσεις που δεν περιορίζονται στην ανάλυση μόνο μιας γλώσσας θα μπορούσε να συλλέξει πολύ περισσότερες συναισθηματικές πληροφορίες από το πολύγλωσσο περιεχόμενο του διαδικτύου απ ότι μια προσέγγιση που αφορά μόνο μία ευρέως χρησιμοποιούμενη γλώσσα όπως τα Αγγλικά. Μια τέτοια τεχνική θα απαιτούσε ιδανικά την ελάχιστη δυνατή προσπάθεια για να εφαρμοστεί σε περισσότερες γλώσσες. Οι πληροφορίες συναισθημάτων που εξάγονται από κείμενα διαφορετικών γλωσσών μπορούν να βοηθήσουν την ακαδημαϊκή κοινότητα και τις εταιρίες να αποκτήσουν ταυτόχρονη πληροφόρηση για απόψεις ανθρώπων απ όλο τον κόσμο. Έτσι, μια εταιρία θα έχει τη δυνατότητα να απεικονίσει τις απόψεις και τις εμπειρίες που αφορούν μια υπηρεσία ή ένα προϊόν ανά τον κόσμο. Αντίστοιχα η ερευνητική κοινότητα θα έχει ευρεία πρόσβαση σε απόψεις και συμπεράσματα ερευνητών από όλο τον κόσμο χωρίς γλωσσικούς περιορισμούς. Αυτή η έρευνα στηρίζεται σε τέσσερις βασικούς άξονες: (α) Στην εφαρμογή συνδυασμών τεχνικών εξαγωγής γνωρισμάτων κειμένου, (β) στην εκπαίδευση κατηγοριοποιητών με αλγορίθμους μηχανικής μάθησης, (γ) στην εφαρμογή των κατηγοριοποιητών για αυτόματη εξαγωγή συμπερασμάτων και (δ) τη συγκριτική αξιολόγηση των αποτελεσμάτων. Επιγραμματικά, εφαρμόζονται διαδοχικές επιλογές ανεξάρτητων από τη γλώσσα γραφής γνωρισμάτων κειμένου για τη βελτίωση της ακρίβειας των κατηγοριοποιήσεων των απόψεων που εκφράζονται σε κριτικές ταινιών. Τα γνωρίσματα επιλέγονται από ένα τεράστιο σύνολο γνωρισμάτων κειμένου βάσει μεθοδολογιών που βασίζονται σε στατιστικά μοντέλα και σε μοντέλα γλωσσικών δεδομένων. Οι προσδιορισμοί των υπό εξέταση κριτικών, αξιολογούνται από αλγορίθμους μηχανικής μάθησης κατηγοριοποιητών, ώστε να εξεταστεί η απόδοση της κατηγοριοποίησης των απόψεων, για διαφορετικό αριθμό γνωρισμάτων κειμένου, για διαφορετική γλώσσα κειμένου, για όλες τις γλώσσες της μελέτης και για διαφορετικούς κατηγοριοποιητές. 15

17 Για τη μελέτη χρησιμοποιείται ένα σύνολο από διαφορετικές διαδικτυακές κριτικές ταινιών που απαρτίζεται από τρία επιμέρους υποσύνολα ανάλογα με τη γλώσσα γραφής (Αγγλικό, Ισπανικό και Τούρκικο υποσύνολο) της εκάστοτε κριτικής Διάρθρωση της έρευνας Το υπόλοιπο της εργασίας είναι οργανωμένο όπως περιγράφεται ακολούθως: Στο Κεφάλαιο 2 επιχειρείται μια ανασκόπηση της βιβλιογραφίας που είναι σχετική με την παρούσα εργασία. Αναλύονται οι έννοιες της συναισθηματικής ανάλυσης, της εξόρυξης γνωρισμάτων κειμένου και της συναισθηματικής κατηγοριοποίησης κειμένου. Επίσης γίνεται αναφορά στις έννοιες της προ-επεξεργασίας κειμένου και της Επεξεργασίας Φυσικής Γλώσσας. Στο Κεφάλαιο 3, παρουσιάζεται αναλυτικά η μεθοδολογία που χρησιμοποιείται στην συγκεκριμένη μελέτη. Τα εργαλεία και οι γλώσσες προγραμματισμού που χρησιμοποιήθηκαν για την ανάπτυξη του ζητούμενου συστήματος καταγράφονται στο Κεφάλαιο 4. Στο Κεφάλαιο 5, περιγράφεται λεπτομερώς η διαδικασία που ακολουθήθηκε για την υλοποίηση του συστήματος εξαγωγής γνωρισμάτων κειμένου καθώς και για την πειραματική εφαρμογή των προτεινόμενων μοντέλων εξόρυξης συμπερασμάτων. Τα αποτελέσματα των πειραματικών διαδικασιών καθώς και η αξιολόγησή τους παρουσιάζονται στο κεφάλαιο 6. Τέλος, στο Κεφάλαιο 7, περιλαμβάνονται τα συμπεράσματα της έρευνας ενώ γίνεται αναφορά σε μελλοντικές επεκτάσεις της παρούσας εργασίας. Τέλος στο Κεφάλαιο 8 παρατίθενται οι πηγές που χρησιμοποιήθηκαν για την εκπόνηση της συγκεκριμένης έρευνας. 16

18 Κεφάλαιο 2: Θεωρητικό Υπόβαθρο 2.1. Βασικές έννοιες Παρακάτω παρουσιάζονται και αναλύονται ορισμένες έννοιες που χρησιμοποιούνται στη μελέτη: Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing, NLP) είναι ο κλάδος της επιστήμης των υπολογιστών και της γλωσσολογίας ο οποίος ασχολείται με την αλληλεπίδραση μεταξύ της γλώσσας των υπολογιστών και της φυσικής (ανθρώπινης) γλώσσας. Μελετά και διερευνά τους τρόπους με τους οποίους οι υπολογιστές μπορούν να κατανοήσουν την ανθρώπινη γλώσσα, ώστε αυτή η γνώση να χρησιμοποιηθεί σε χρήσιμα υπολογιστικά μοντέλα που έχουν ως κύριο στόχο να διευκολύνουν την σχέση του χρήστη με την τεχνολογία. Οι διαδικασίες, οι τεχνικές και τα εργαλεία επεξεργασίας της φυσικής γλώσσας αντιστοιχούν στον όρο Γλωσσική Τεχνολογία, η οποία συμπεριλαμβάνεται στον κλάδο NLP. Εξόρυξη Δεδομένων (Data Mining) είναι η εξεύρεση μιας (ενδιαφέρουσας, αυτονόητης, μη προφανούς και πιθανόν χρήσιμης) πληροφορίας ή προτύπων από μεγάλες βάσεις δεδομένων με χρήση αλγορίθμων ομαδοποίησης ή κατηγοριοποίησης και των αρχών της στατιστικής, της τεχνητής νοημοσύνης, της μηχανικής μάθησης και των συστημάτων βάσεων δεδομένων. Στόχος της εξόρυξης δεδομένων είναι η πληροφορία που θα εξαχθεί και τα πρότυπα που θα προκύψουν να έχουν δομή κατανοητή προς τον άνθρωπο έτσι ώστε να τον βοηθήσουν να πάρει τις κατάλληλες αποφάσεις. H Εξόρυξη Δεδομένων Κειμένου (Text Data Mining) αναφέρεται σε μια διαδικασία εξαγωγής πληροφοριών υψηλής ποιότητας από κείμενα. Οι πληροφορίες αυτές παράγονται από τον σχεδιασμό προτύπων και τάσεων. Η εξόρυξη δεδομένων κειμένου συνήθως περιλαμβάνει την διαδικασία της δόμησης του εισαγόμενου προς επεξεργασία κειμένου, για την δημιουργία προτύπων από δομημένα δεδομένα, την διαδικασία της αξιολόγησης και ερμηνείας της εξόδου. Οι εργασίες που γίνονται κατά την εξόρυξη δεδομένων κειμένου είναι η κατηγοριοποίηση κειμένου, η εξαγωγή οντοτήτων και θεμάτων, η παραγωγή ταξινομήσεων, η συναισθηματική ανάλυση, η ομαδοποίηση κειμένου, η περίληψη κειμένου και το σχεσιακό μοντέλο οντοτήτων. H Συναισθηματική Ανάλυση (Sentimental Analysis) / Εξόρυξη Γνώμης (Opinion Mining) αναφέρεται στη χρήση της Επεξεργασίας Φυσικής Γλώσσας, της επεξεργασίας κειμένου και της Υπολογιστικής Γλωσσολογίας για τον προσδιορισμό και την εξαγωγή υποκειμενικών πληροφοριών από πηγές κειμένων, η Συναισθηματική ανάλυση, χρησιμοποιείται σε κριτικές και κοινωνικά δίκτυα από ποικιλία εφαρμογών που εκτείνονται από την απλή προώθηση προϊόντων μέχρι και την εξυπηρέτηση πελατών. H Εξαγωγή Γνωρισμάτων Κειμένου (Text Feature Extraction) ξεκινάει από ένα αρχικό σύνολο γνωρισμάτων κειμένου με συγκεκριμένα χαρακτηριστικά και τους χτίζει παραγόμενες τιμές ώστε να είναι χρήσιμες πληροφοριακά και όχι περιττές, διευκολύνοντας την διαδικασία της γενίκευσης και της μηχανικής εκμάθησης. Έτσι όταν το σύνολο των δεδομένων που εισάγονται σε έναν αλγόριθμο, είναι πολύ μεγάλο για επεξεργασία και θεωρείται ότι περιέχει αρκετά περιττά στοιχεία, τότε μπορεί να μετατραπεί σε ένα μειωμένο σύνολο από γνωρίσματα. Τα γνωρίσματα αυτά περιέχουν 17

19 αυτές τις πληροφορίες του αρχικού συνόλου ώστε ο αλγόριθμος να μπορεί να εφαρμοστεί στο μειωμένο σύνολο δεδομένων αντί για το αρχικό. Η Κατηγοριοποίηση είναι η διαδικασία κατά την οποία ιδέες και αντικείμενα αναγνωρίζονται, διαφοροποιούνται και γίνονται κατανοητά. Η κατηγοριοποίηση συνεπάγεται την ομαδοποίηση των αντικειμένων σε κατηγορίες, συνήθως για κάποιο συγκεκριμένο σκοπό. Στην ιδανική περίπτωση, μια κατηγορία απεικονίζει μια σχέση μεταξύ των αντικειμένων που περιέχει και του θέματος που της αντιστοιχεί. Η κατηγοριοποίηση είναι θεμελιώδης για τη γλωσσική επεξεργασία, για προβλέψεις, για εξαγωγή συμπερασμάτων και για λήψη αποφάσεων. Οι Κατηγοριοποιητές είναι μηχανισμοί εφαρμογής της διαδικασίας της κατηγοριοποίησης σε σύνολα δεδομένων. Μηχανική μάθηση είναι υποπεδίο της επιστήμης των υπολογιστών που αναπτύχθηκε από τη μελέτη της αναγνώρισης προτύπων και της υπολογιστικής θεωρίας μάθησης στην τεχνητή νοημοσύνη. Η μηχανική μάθηση διερευνά τη μελέτη και την κατασκευή αλγορίθμων που μπορούν να μαθαίνουν από τα δεδομένα και να κάνουν προβλέψεις σχετικά με αυτά. Τέτοιοι αλγόριθμοι λειτουργούν κατασκευάζοντας μοντέλα από πειραματικά δεδομένα, προκειμένου να κάνουν προβλέψεις βασιζόμενες στα δεδομένα ή να εξάγουν αποφάσεις που εκφράζονται ως το αποτέλεσμα. Η μηχανική μάθηση είναι στενά συνδεδεμένη και συχνά συγχέεται με υπολογιστική στατιστική, ένας κλάδος, που επίσης επικεντρώνεται στην πρόβλεψη μέσω της χρήσης των υπολογιστών. Έχει ισχυρούς δεσμούς με τη μαθηματική βελτιστοποίηση, η οποία παρέχει μεθόδους, τη θεωρία και τομείς εφαρμογής. Η Μηχανική μάθηση εφαρμόζεται σε μια σειρά από υπολογιστικές εργασίες, όπου τόσο ο σχεδιασμός όσο και ο ρητός προγραμματισμός των αλγορίθμων είναι ανέφικτος. Παραδείγματα εφαρμογών αποτελούν τα φίλτρα spam (spam filtering), η οπτική αναγνώριση χαρακτήρων (OCR), οι μηχανές αναζήτησης και η υπολογιστική όραση. Η Μηχανική μάθηση μερικές φορές συγχέεται με την εξόρυξη δεδομένων, όπου η τελευταία επικεντρώνεται περισσότερο στην εξερευνητική ανάλυση των δεδομένων, γνωστή και ως μη επιτηρούμενη μάθηση. Στο πεδίο της ανάλυσης δεδομένων, η μηχανική μάθηση είναι μια μέθοδος που χρησιμοποιείται για την επινόηση πολύπλοκων μοντέλων και αλγορίθμων που οδηγούν στην πρόβλεψη. Τα αναλυτικά μοντέλα επιτρέπουν στους ερευνητές, τους επιστήμονες δεδομένων, τους μηχανικούς και τους αναλυτές να παράγουν αξιόπιστες αποφάσεις και αποτελέσματα και να αναδείξουν αλληλοσυσχετίσεις μέσω της μάθησης από ιστορικές σχέσεις και τάσεις στα δεδομένα. Επιτηρούμενη μάθηση (αλλιώς επιβλεπόμενη μάθηση ή μάθηση με επίβλεψη) (supervised learning): Το υπολογιστικό πρόγραμμα δέχεται τις παραδειγματικές εισόδους καθώς και τα επιθυμητά αποτελέσματα από έναν «δάσκαλο», και ο στόχος είναι να μάθει έναν γενικό κανόνα προκειμένου να αντιστοιχίσει τις εισόδους με τα αποτελέσματα. Μη επιτηρούμενη μάθηση (αλλιώς μη επιβλεπόμενη μάθηση ή μάθηση χωρίς επίβλεψη - unsupervised learning): Χωρίς να παρέχεται κάποια εμπειρία στον αλγόριθμο μάθησης, πρέπει να βρει την δομή των δεδομένων εισόδου. Η μη επιτηρούμενη μάθηση μπορεί να είναι αυτοσκοπός (ανακαλύπτοντας κρυμμένα μοτίβα σε δεδομένα) ή μέσο για ένα τέλος (χαρακτηριστικό της μάθησης). 18

20 2.2. Σχετική έρευνα Εξόρυξη Γνώμης (Opinion Mining) Συναισθηματική Ανάλυση (Sentimental Analysis) Η εξόρυξη απόψεων (Opinion mining) βασίζεται στην τεχνολογία της εξόρυξης δεδομένων (Data mining) και της επεξεργασίας φυσικής γλώσσας (Natural Language Processing NLP), για την ανάκτηση και την εξαγωγή απόψεων από κείμενα που βρίσκονται κυρίως στο διαδίκτυο. Οι ερευνητές έχουν προτείνει διάφορες προσεγγίσεις και μεθοδολογίες για την εξόρυξη απόψεων και διαφορετικές μεθόδους υλοποίησης της συγκεκριμένης δραστηριότητας. Το ζήτημα της εξαγωγής και ταξινόμησης των απόψεων που πηγάζουν από ένα κείμενο, μπορεί να χωριστεί σε δυο βασικές προσεγγίσεις, αυτήν της μηχανικής μάθησης και αυτήν που στηρίζεται στη χρήση λεξικών. Η πρώτη προσέγγιση εξετάζει την εξαγωγή γνώμης ως ένα πρόβλημα κατηγοριοποίησης κειμένων χρησιμοποιώντας συντακτικά ή γλωσσικά χαρακτηριστικά των κειμένων και αλγορίθμους μηχανικής μάθησης για κατηγοριοποίηση. Η δεύτερη προσέγγιση βασίζεται σε λεξικά απόψεων και κάνει χρήση της πολικότητας που έχει αντιστοιχηθεί εκ των προτέρων σε λέξεις ή σε ορισμένες εκφράσεις. Για την προσέγγιση της μηχανικής μάθησης, έχουν αναπτυχθεί αρκετές μέθοδοι οι οποίες χωρίζονται σε δυο κύριες κατηγορίες: με επιτήρηση και χωρίς επιτήρηση. Οι Pang και Lee [3] ανέφεραν μια τεχνική για την ταξινόμηση κριτικών ταινιών σε δύο κατηγορίες, θετικές και αρνητικές. Πειραματίστηκαν με τρεις κατηγοριοποιητές ( naive Bayes, μέγιστης εντροπίας και support vector machines) και χαρακτηριστικά όπως unigrams, bigrams, συχνότητα χαρακτηριστικών (term frequency), παρουσία χαρακτηριστικών (term presence), θέση (term position) και μέρη του λόγου. Μια άλλη προσέγγιση [4] βασίζεται στον πολυωνυμικό naive Bayes κατηγοριοποιητή που χρησιμοποιεί χαρακτηριστικά n-gram και επισημάνσεις για μέρη του λόγου (Part of Speech tags), για να κατηγοριοποιήσει tweets ως θετικά, αρνητικά ή ουδέτερα. Επίσης προτάθηκε [5] ένα μοντέλο αναδρομικού νευρωνικού δικτύου με πίνακες, το οποίο παίρνει ως είσοδο φράσεις οποιουδήποτε μήκους και τις παρουσιάζει ως διανύσματα από λέξεις και ένα δέντρο συντακτικής ανάλυσης. Το μοντέλο αυτό υπολογίζει διανύσματα για τις υψηλότερες κορυφές του δέντρου χρησιμοποιώντας την ίδια συνάρτηση σύνθεσης πινάκων. Ως αναφορά στις μεθόδους μη επιτηρούμενης μάθησης, στην [6] παρουσιάστηκε η ταξινόμηση διαδικτυακών κριτικών ως «προτεινόμενο» και «μη προτεινόμενο», όπου ο αλγόριθμος υπολόγιζε κοινή πληροφορία ανά σημείο, για την κάθε υποψήφια λέξη σε σχέση με τον σημασιολογικό της προσανατολισμό χρησιμοποιώντας δυο δεδομένες λέξεις, π.χ. φτωχός και άριστος. Ο αλγόριθμος στηριζόταν σε πρότυπα δυο διαδοχικών λέξεων στα οποία η μια λέξη είναι επίρρημα ή επίθετο που χρησιμοποιείται για προσδιορισμό και η άλλη λέξη χρησιμοποιείται για την αναπαράσταση του περιεχομένου. Τα επίθετα και τα επιρρήματα με διαφορετικά πρότυπα από κατηγορίες όρων, χρησιμοποιήθηκαν για τον σημασιολογικό προσδιορισμό και κάθε κριτική χαρακτηρίστηκε ως «προτεινόμενη» εάν ο μέσος όρος του σημασιολογικού προσανατολισμού των προτάσεων της ήταν θετικός και ως «μη προτεινόμενη», εάν ο αντίστοιχος μέσος όρος ήταν αρνητικός. 19

21 Μια άλλη μελέτη [7] εξετάζεται η μια μη επιτηρούμενη τεχνική για την εξαγωγή χαρακτηριστικών προϊόντων και απόψεις χρηστών από διαδικτυακές κριτικές με την παρουσίαση του συστήματος OPINE. Το OPINE βασίζεται σε μια προσέγγιση μη επιτηρούμενης εξαγωγής πληροφοριών για την εξόρυξη χαρακτηριστικών προϊόντων από κριτικές και χρησιμοποιεί συντακτικά πρότυπα για τον σημασιολογικό προσανατολισμό των λέξεων ώστε να προσδιοριστούν οι φράσεις που περιλαμβάνουν τις απόψεις και η πολικότητά τους. Εκτός από τις επιτηρούμενες και τις μη επιτηρούμενες μεθόδους, έχουν προταθεί και οι ημι-επιτηρούμενες τεχνικές. Οι Dasgupta, S. και Ng, V. [8] προτείνουν μια ημιεπιτηρούμενη τεχνική κατά την οποία πρώτα εξάγουν σαφής κριτικές χρησιμοποιώντας φασματικές τεχνικές με τη βοήθεια του συνδυασμού ενεργής μάθησης, μεταβιβαστικής μάθησης και συνολικής μάθησης. Οι Goldberg και Zhu [9] παρουσίασαν μια τεχνική με τη χρήση ενός γραφήματος για επισημασμένα και μη δεδομένα. Τα έγγραφα αναπαρίστανται με ένα γράφημα, όπου οι κορυφές αντιστοιχούν σε κάθε έγγραφο και οι ακμές σχεδιάζονται ώστε να ενώνουν παρόμοια έγγραφα, χρησιμοποιώντας μια μετρική απόστασης που υπολογίζεται βάσει των γνωρισμάτων των κειμένων. Επιπρόσθετα οι Zhai, Z., Liu, B., Xu, H και Jia P [10] περιγράφουν μια ημι-επιτηρούμενη τεχνική για την ομαδοποίηση γνωρισμάτων κειμένου. Καθώς τα ίδια γνωρίσματα μπορούν να εκφραστούν με διαφορετικά συνώνυμα, λέξεις ή φράσεις, αυτές οι λέξεις και οι φράσεις ομαδοποιούνται. Για την ομαδοποίηση των γνωρισμάτων η συγκεκριμένη εργασία παράγει μια αρχική λίστα για την εκκίνηση της διαδικασίας, χρησιμοποιώντας τα λεκτικά χαρακτηριστικά των όρων του κειμένου. Σχετικά με τις τεχνικές που βασίζονται σε λεξικά, αυτές χωρίζονται σε δυο κύριες κατηγορίες: στις σημασιολογικές τεχνικές και στις δομικές τεχνικές. Οι σημασιολογικές τεχνικές, χρησιμοποιούν ένα προκατασκευασμένο λεξικό το οποίο περιέχει λέξεις με την αντίστοιχη συναισθηματική πολικότητά. Οι πιο φημισμένες προσεγγίσεις για ανάλυση συναισθήματος με χρήση τέτοιων λεξικών είναι το General Inquirer και το SentiWordNet. Οι παραπάνω τεχνικές έχουν χρησιμοποιηθεί αρκετά σε διάφορες ερευνητικές προσπάθειες είτε για την εξεύρεση λέξεων που εκφράζουν απόψεις είτε κατευθείαν για την βαθμολόγηση της πολικότητας των λέξεων. Οι περισσότερες μέθοδοι που χρησιμοποιούν λεξικά, αθροίζουν τις τιμές της πολικότητας μιας πρότασης ή ενός κειμένου και υπολογίζουν το παραγόμενο συναίσθημα χρησιμοποιώντας απλούς αλγορίθμους με κανόνες [11]. Στο [12, 13] παρουσιάζονται δυο τεχνικές λεξικών, που βασίζονται στην αρχικοποίηση ενός συνόλου μικρών λέξεων που εκφράζουν γνώμη ( ρήματα και επίθετα) με γνωστό συναισθηματικό προσανατολισμό. Το σύνολο αυτό επεκτείνεται με την εξαγωγή, από το WordNet των συνώνυμων και αντώνυμων λέξεων που αντιστοιχούν στις λέξεις του. Τα συνώνυμα που προέρχονται από το WordNet τοποθετούνται στην ίδια αρχική λίστα, ενώ τα αντώνυμα εμπλουτίζουν μια άλλη λίστα. Οι δομικές μέθοδοι, βασίζονται σε συντακτικές και στατιστικές τεχνικές όπως η συνύπαρξη μιας λέξης με μια άλλη, της οποίας η πολικότητα είναι γνωστή. Στο [14], προβλέπεται ο προσανατολισμός των επιθέτων με την υπόθεση ότι τα ζεύγη των επιθέτων που ενώνονται με τον σύνδεσμο και έχουν τον ίδιο προσανατολισμό ενώ τα επίθετα που ενώνονται με τον σύνδεσμο αλλά έχουν αντίθετο προσανατολισμό. Αξιοσημείωτη έρευνα έχει γίνει από τους Alec Go, Richa Bhayani, και Lei Huang [15], οι οποίοι εκπαίδευσαν κατηγοριοποιητές ώστε να χαρακτηρίζουν την πολικότητα των Tweets ως θετική ή αρνητική. Συνέκριναν διαφορετικές μεθόδους μηχανικής μάθησης, Naive Bayes, Maximum Entropy και Support Vector Machines (SVM), με unigram 20

22 γνωρίσματα, bigram γνωρίσματα και γνωρίσματα σχετικά με τα μέρη του λόγου. Το σύνολο εκπαίδευσης που χρησιμοποίησαν περιλάμβανε 1.6 εκατομμύρια Tweets (προτάσεις, εκφράσεις απόψεων στο κοινωνικό δίκτυο Twitter), τα οποία χωρίστηκαν σε δύο ισάριθμα σύνολα από θετικά και αρνητικά Tweets και η αξιολόγηση έγινε σε 359 προσημειωμένα Tweets (182 θετικά και 177 αρνητικά). Καθώς η γλώσσα που χρησιμοποιείται σε κοινωνικά δίκτυα και πλατφόρμες συζητήσεων δεν είναι επίσημη και διαφέρει αρκετά από του παραδοσιακούς τύπους κειμένων, σε πάρα πολλές έρευνες απαιτείται προ επεξεργασία κατά την οποία προσδιορίζονται τα εικονίδια διάθεσης, αφαιρούνται τυχόν ηλεκτρονικές διευθύνσεις (URL) και επεκτείνονται οι συντομογραφίες. Τα πιο αξιόλογα χαρακτηριστικά που χρησιμοποιούνται είναι τα n-grams, τιμές από λεξικά συναισθημάτων, μέρη του λόγου και ειδικά χαρακτηριστικά που εμφανίζονται σε διαδικτυακές πλατφόρμες [16, 17] (εικονίδια διάθεσης - emoticons, ειδικά σύμβολα, επαναλήψεις γραμμάτων και ειδικά σημεία στίξης). Άλλες έρευνες που σχετίζονται με την συναισθηματική κατηγοριοποίηση, επικεντρώθηκαν στην απλή κατηγοριοποίηση. Έτσι οι Jiang et al. [18], προσπάθησαν να εφαρμόσουν μια πιο λεπτομερή κατηγοριοποίηση, αντιστοιχίζοντας την ένταση του εξαγόμενου συναισθήματος από με τιμές από το 1 έως το 5. Τέλος οι Thelwall et al.[19] κατασκεύασαν έναν κατηγοριοποιητή που λάμβανε υπόψιν τους στόχους στους οποίους αναφέρονταν οι εκφράσεις συναισθήματος σε συνδυασμό με παρόμοιες εκφράσεις απόψεων. Πολύγλωσσή Εξόρυξη Γνώμης (Opinion Mining) Συναισθηματική Ανάλυση (Sentimental Analysis) Συνήθως οι τεχνικές που σχετίζονται με την πολύγλωσση εξόρυξη απόψεων, κατηγοριοποιούν τις απόψεις χρησιμοποιώντας δίγλωσση εκπαίδευση σε κατηγοριοποιητές για αγγλικά κείμενα. Ωστόσο, αυτή η πρακτική, απαιτεί επιπρόσθετες πηγές, όπως παράλληλα σώματα κειμένων που συνδέουν κατά μια έννοια τα Αγγλικά με κάθε γλώσσα για την οποία γίνεται η κατηγοριοποίηση. Άλλες προσεγγίσεις βασίζονται στην αυτόματη μετάφραση, ώστε τα κείμενα άλλων γλωσσών να μετατραπούν πρώτα σε αγγλικά κείμενα και στην συνέχεια να υποστούν τεχνικές κατηγοριοποίησης. Αντιθέτως, άλλοι ερευνητές [20] χρησιμοποιούν ειδικά γνωρίσματα της εκάστοτε γλώσσας ώστε να προσαρμόσουν τις τεχνικές κατηγοριοποίησης. Μια πολύ ενδιαφέρουσα έρευνα πάνω στο πεδίο της πολύγλωσσης εξαγωγής συναισθημάτων έχει πραγματοποιηθεί από τους Sascha Narr, Michael Hülfenhaus και Sahin Albayrak, [21] οι οποίοι εκπαίδευσαν κατηγοριοποιητές για Tweets από τέσσερις διαφορετικές γλώσσες και αξιολόγησαν το μοντέλο τους με χιλιάδες προσημειωμένα από διαδικτυακούς χρήστες, Tweets. 21

23 Κεφάλαιο 3: Μεθοδολογία 3.1. Γενική Περιγραφή Για τον προσδιορισμό των απόψεων από πολύγλωσσες διαδικτυακές κριτικές ταινιών η έρευνα αυτή βασίζεται στην χρήση συνδυασμών τεχνικών εξαγωγής γνωρισμάτων από κείμενα καθώς και στην εφαρμογή συνδυασμών διαφορετικών αλγορίθμων μηχανικής μάθησης και κατηγοριοποιητών. Για την εξαγωγή των απόψεων από τις κριτικές που εξετάζονται χρησιμοποιείται η δυαδική ταξινόμηση (Binary Classification). Έτσι η γνώμη που πηγάζει από μια κριτική, μπορεί να είναι είτε θετική (positive) είτε αρνητική (negative). Η μελέτη υλοποιείται σε τέσσερα στάδια. Στο πρώτο στάδιο γίνεται η συλλογή των δεδομένων, η προ-επεξεργασία τους και η εφαρμογή τεχνικών εξαγωγής γνωρισμάτων για την εκπαίδευση των κατηγοριοποιητών. Στο δεύτερο στάδιο γίνεται η επεξεργασία των αποτελεσμάτων των μηχανισμών εξαγωγής γνωρισμάτων ώστε να αποτελέσουν αντίστοιχα το σύνολο εκπαίδευσης των αλγορίθμων μάθησης και το σύνολο αξιολόγησης των κατηγοριοποιητών. Στη συνέχεια τα παραγόμενα σύνολα εκπαίδευσης τροφοδοτούν τους αλγορίθμους μάθησης των κατηγοριοποιητών, κάθε έναν ξεχωριστά, ενώ τα σύνολα εκπαίδευσης χρησιμοποιούνται για την αξιολόγηση της αναγνώρισης συναισθήματος από τους κατηγοριοποιητές. Στο τρίτο στάδιο, οι έξοδοι από τα αποτελέσματα κάθε μοντέλου κατηγοριοποίησης, συνδυάζονται σε συγκριτικά μοντέλα [22] από τα οποίο προκύπτουν τα συμπεράσματα για τις επιλογές των γνωρισμάτων και τους αλγορίθμους μηχανικής μάθησης που χρησιμοποιούνται. Τέλος στο τέταρτο στάδιο χρησιμοποιούνται μέθοδοι σύντηξης για τους κατηγοριοποιητές και τα αντίστοιχα γνωρίσματα που είχαν τα καλύτερα αποτελέσματα αναγνώρισης απόψεων. Το σχηματικό διάγραμμα των σταδίων της μεθοδολογίας παρουσιάζεται στην Εικόνα 1. Εικόνα 1. Διάγραμμα ροής για το σύστημα πολύγλωσσης εξαγωγής απόψεων. 22

24 3.2. Σύνολο Δεδομένων Το αρχικό σύνολο (dataset) των δεδομένων που χρησιμοποιείται στη μελέτη, αποτελείται από τρεις διαφορετικές συλλογές κειμένων με διαδικτυακές κριτικές ταινιών και διαφέρουν μεταξύ τους ως προς τη γλώσσα έκφρασης και ως προς την αρχική τους μορφή. Είναι σημαντικό να σημειωθεί ότι όλες οι κριτικές είναι προσημειωμένες με δυαδικό χαρακτηρισμό του τύπου: positive (θετική) ή negative (αρνητική). Πιο αναλυτικά, η μια συλλογή περιέχει κριτικές ταινιών στα Αγγλικά εκ των οποίων οι είναι προσημειωμένες ως θετικές και υπόλοιπες ως αρνητικές. Η δεύτερη συλλογή περιέχει κριτικές στα Ισπανικά με τις μισές θετικές και τις υπόλοιπες αρνητικές. Η τρίτη συλλογή αποτελείται από κριτικές στα Τούρκικα, χωρισμένες σε θετικές και αρνητικές. ΑΓΓΛΙΚΑ ΙΣΠΑΝΙΚΑ ΤΟΥΡΚΙΚΑ Θετικά Αρνητικά Θετικά Αρνητικά Θετικά Αρνητικά Πίνακας 1. Τα σύνολα κριτικών και για τις τρεις γλώσσες Το αγγλικό dataset είναι δομημένο σε δυο υποσύνολα ισάριθμων αρχείων κειμένου, ένα για τις θετικές κριτικές και ένα για τις αρνητικές. Το ισπανικό dataset περιέχει αρχεία μορφής xml, ενώ το τούρκικο dataset περιλαμβάνει δυο αρχεία κειμένου, εκ των οποίων το ένα έχει όλες τις θετικές κριτικές και το άλλο όλες τις αρνητικές κριτικές ταινιών. Γι αυτό τον λόγο είναι απαραίτητος ο σχεδιασμός και η υλοποίηση εργαλείων κανονικοποίησης των διαφορετικών datasets, ώστε να αποτελέσουν ένα ομοιόμορφο προς επεξεργασία σύνολο δεδομένων. Για τους σκοπούς της μελέτης, η κανονικοποίηση των datasets κάθε γλώσσας στηρίζεται στους εξής βασικούς άξονες: Κάθε dataset πρέπει να περιέχει κείμενα με καθαρό περιεχόμενο από μεταδεδομένα, στοιχεία μορφοποίησης, εικονίδια διάθεσης και ηλεκτρονικές διευθύνσεις. Ενώ όλα τα κεφαλαία γράμματα πρέπει να μετατραπούν σε μικρά. Κάθε σχόλιο/κριτική πρέπει να είναι αποθηκευμένη σε ένα ξεχωριστό αρχείο κειμένου. Ο προσημειωμένος χαρακτηρισμός (Θετική / Αρνητική) κάθε κριτικής εμφανίζεται στο όνομα του αρχείου που την περιέχει. 23

25 Επομένως τα κείμενα τις μελέτης, θα έχουν την παρακάτω μορφή: Κριτική στα Αγγλικά - Θετική Όνομα Αρχείου pos_xxx.txt Κριτική στα Αγγλικά - Αρνητική Κείμενο Αρχείου sylvester stallone breaks no new ground, cinematically speaking, but he covers familiar territory quite well Όνομα Αρχείου Κείμενο Αρχείου sylvester stallone has made some crap films neg_xxx.txt in his lifetime, but this has got to be one of the worst Πίνακας 2.1 Μορφή κριτικής από το Αγγλικό dataset Κριτική στα Ισπανικά - Θετική Όνομα Αρχείου pos_xxx.txt Κριτική στα Ισπανικά - Αρνητική Κείμενο Αρχείου pero con una manera de combinar los "clichs" lo suficientemente bien como para hacerla divertida e intrigante. Όνομα Αρχείου Κείμενο Αρχείου La historia es que se espera de una pelcula neg_xxx.txt as, pero resulta larga y carece de accin suficiente para enganchar Πίνακας 2.2 Μορφή κριτικής από το Ισπανικό dataset Κριτική στα Τούρκικα - Θετική Όνομα Αρχείου pos_xxx.txt Κριτική στα Τούρκικα - Αρνητική Κείμενο Αρχείου jack nicholson da morgan freeman da bir harika mutlaka izlenmesi gereken bir film. Όνομα Αρχείου Κείμενο Αρχείου gayet siradan ve gόzel olmayan bi neg_xxx.txt film...sinemada izlemeye degmez bence sadece ani ηikislarla όrkόtme ηabalarindan olusan bir film... Πίνακας 2.3 Μορφή κριτικής από το Τούρκικο dataset Κάθε dataset χωρίζεται σε δυο υποσύνολα, το σύνολο εκπαίδευσης (train set) και το σύνολο αξιολόγησης (test set). Το ένα υποσύνολο χρησιμοποιείται για εκπαίδευση των κατηγοριοποιητών, μέσω αλγορίθμων μάθησης και το δεύτερο υποσύνολο χρησιμοποιείται για την αξιολόγηση των αποτελεσμάτων. Ο διαχωρισμός των datasets σε υποσύνολα, γίνεται με αναλογία 80 % για εκπαίδευση (train) και 20 % για τεστ (test). Σε κάθε υποσύνολο πρέπει να βρίσκονται αρχεία με θετικές κριτικές σε ποσοστό 50 % και αρχεία με αρνητικές κριτικές σε ποσοστό επίσης 50 %. Ο διαχωρισμός των δεδομένων και για τα τρία σύνολα παρουσιάζεται στον παρακάτω πίνακα: ΑΓΓΛΙΚΑ ΙΣΠΑΝΙΚΑ ΤΟΥΡΚΙΚΑ Train Test Train Test Train Test 24

26 pos neg pos neg pos neg pos neg pos neg pos neg Πίνακας 3. Διαχωρισμός των αρχικών συλλογών σε Train και Test Το πολύγλωσσο σύνολο σχηματίζεται από τον συνδυασμό των παραπάνω συνόλων. Για να είναι δίκαιο το τελικό δείγμα, περιέχει ίσο αριθμό κειμένων από το Αγγλικό, το Ισπανικό και το Τούρκικο σύνολο. Επίσης κάθε σύνολο δίνει τα κείμενα του στο πολύγλωσσο σύνολο, με ποσοστό 80% για εκπαίδευση με 50% θετικές και 50% αρνητικές και 20% για τεστ με 50% θετικές και 50% αρνητικές κριτικές. Στον παρακάτω πίνακα φαίνεται συνοπτικά ο τρόπος που διαμορφώνεται το τελικό dataset. ΠΟΛΥΓΛΩΣΣΟ ΑΓΓΛΙΚΑ ΙΣΠΑΝΙΚΑ ΤΟΥΡΚΙΚΑ Train Test Train Test Train Test pos neg pos neg pos neg pos neg pos neg pos neg Train Test pos neg pos neg Πίνακας 4. Το πολύγλωσσο σύνολο κειμένων, έπειτα από τον συνδυασμό των τριών συνόλων 3.3. Τεχνικές Εξαγωγής Γνωρισμάτων Σε αυτή την ενότητα περιγράφονται οι μέθοδοι εξαγωγής γνωρισμάτων, από τη διαθέσιμη συλλογή δεδομένων. Η συγκεκριμένη συλλογή, έχει τις εξής ιδιαιτερότητες: τον τρόπο γραφής και τις διαφορετικές γλώσσες γραφής. Πιο συγκεκριμένα τα κείμενα που εξετάζονται είναι διαδικτυακές κριτικές, γραμμένες από χρήστες του Web χωρίς επομένως δεν υπόκεινται σε ορθογραφικούς, δομικούς, μορφολογικούς και συντακτικούς κανόνες. Είναι κείμενα που δεν έχουν την τυπική μορφή γραφής και οποιαδήποτε χρήση γνωρισμάτων που έχουν να κάνουν με την τυπική γραφή, όπως αριθμός παραγράφων, αριθμός προτάσεων, σημείων στίξης. Από την άλλη χρησιμοποιούνται τρεις διαφορετικές γλώσσες και αυτό έχει ως συνέπεια να μην είναι δυνατή η κοινή αντιμετώπιση των κειμένων με αναγνωριστικά κειμένου, όπως τα μέρη του λόγου χωρίς τη χρήση επιπρόσθετων πηγών για κάθε γλώσσα. (Pos Taggers, Lexicon Corpus). Η μελέτη χρησιμοποιεί ως βασική οντότητα εξέτασης τις λέξεις των κειμένων. Εφαρμόζονται τεχνικές για τη μετατροπή της πληροφορίας που μπορεί να προσφέρει μια λέξη, που δεν είναι γνωστή η έννοιά της ούτε ο ρόλος της στο εκάστοτε κείμενο, σε χρήσιμη αριθμητική πληροφορία για την εκμάθηση των κατηγοριοποιητών. Μια πολύ γνωστή μέθοδος αναπαράστασης κειμένων που χρησιμοποιείται στην επεξεργασία φυσικής γλώσσας (NLP) είναι το Bag Of Words, κατά την οποία ένα κείμενο μπορεί να αναπαρασταθεί από το σύνολο των λέξεων του,ανεξάρτητα από την γραμματική τους ή από της θέση τους. Όταν το Bag Of Words εφαρμόζεται σε πολλά κείμενα, κατασκευάζει ένα λεξικό από τις λέξεις όλων των κειμένων και αναπαριστά κάθε 25

27 κείμενο μετρώντας τον αριθμό των εμφανίσεων της κάθε λέξης του λεξικού στο εκάστοτε κείμενο. Χρησιμοποιώντας το Bag Of Words για όλα τα κείμενα έχουν κατανεμηθεί σε ένα train set και για αυτά που είναι στο ένα test set, δημιουργούνται δυο λεξικά, ένα από τα κείμενα του train set και ένα από αυτά του test set. Το ένα λεξικό περιέχει όλες τις λέξεις που εμφανίζονται στα κείμενα του train set και το άλλο αποτελείται απ όλες τις λέξεις που εμφανίζονται στο test set. Αντίστοιχα τα κείμενα των δυο συνόλων αναπαρίστανται αριθμητικά ως διανύσματα με μήκος όσο είναι το πλήθος των λέξεων του λεξικού κάθε συνόλου και με τιμές που σχετίζονται με την συχνότητα της εμφάνισης των λέξεων του λεξικού, στο κάθε κείμενο. Θεωρώντας, ότι το train set αποτελείται από N μοναδικές λέξεις w1,w2, wn που απαρτίζουν το λεξικό W και ότι περιέχει Μ κείμενα Κ1,Κ2,, ΚΜ, τότε το κείμενο Kj για 1 j M, αποτελείται από L λέξεις οι οποίες ανήκουν και αυτές στο W. Έστω ότι ο κείμενο Kj είναι το : w 1 w 3 w 35 w 1 w 60, τότε η αναπαράστασή του θα είναι: w1 w2 w3 wh. wi.wn w35. w60... w N Πίνακας 5. Κείμενο από τη συλλογή εκπαίδευσης με Bag of Words - Frequency Με την εφαρμογή του Bag of Words στο σύνολο εκπαίδευσης, προκύπτει η ένας πίνακας M x N (όπου Μ το πλήθος των κειμένων και N το πλήθος των λέξεων) με τιμές fij (όπου fij η συχνότητα της εμφάνισης της λέξης j στο κείμενο i), όπως φαίνεται παρακάτω: ΛΕΞΕΙΣ ΣΥΛΛΟΓΗΣ ΕΚΠΑΙΔΕΥΣΗΣ (Train set) Κ Ε Ι Μ Ε Ν Α w1 w2.... wd... w N K1 f11 f f1d f1n K2 f21 f f2d f2n K3 f31 f f3d f3n Kh fh1 fh2.... fhd fhn KM fm1 fm2.... fmd fmn Πίνακας 6. Συλλογή εκπαίδευσης με Bag of Words - Frequency Η αντίστοιχη θεώρηση γίνεται και για το test set, όπου αποτελείται από S μοναδικές λέξεις d1,d2, ds που απαρτίζουν το λεξικό D και ότι περιέχει R κείμενα K1,K2,, KR, τότε το κείμενο Ki για 1 j R, αποτελείται από U λέξεις οι οποίες ανήκουν και αυτές στο D. Έστω ότι ο κείμενο Ki είναι το : d 1 d 3 d 35 d 1 d 60, τότε η αναπαράστασή του θα είναι: 26

28 d1 d2 d3 dh...di..dn d35. d60... d S Πίνακας 7.. Κείμενο από τη συλλογή αξιολόγησης με Bag of Words - Frequency Με την εφαρμογή του Bag of Words στο σύνολο αξιολόγησης, προκύπτει η ένας πίνακας R x S (όπου R το πλήθος των κειμένων και S το πλήθος των λέξεων) με τιμές fij (όπου fij η συχνότητα της εμφάνισης της λέξης j στο κείμενο i), όπως φαίνεται παρακάτω: ΛΕΞΕΙΣ ΣΥΛΛΟΓΗΣ ΑΞΙΟΛΟΓΗΣΗΣ (Test set) Κ Ε Ι Μ Ε Ν Α d1 d2.... dd... ds K1 f11 f f1d f1s K2 f21 f f2d f2s K3 f31 f f3d f3s Kh fh1 fh2.... fhd fhs KR fr1 fr2.... frd frs Πίνακας 8. Συλλογή αξιολόγησης με Bag of Words - Frequency Η αναπαράσταση των δυο συνόλων σε μορφή πινάκων, δίνει τη δυνατότητα ανάπτυξης διανυσματικών μοντέλων εξαγωγής αναγνωριστικών κειμένων. Τα μοντέλα που υλοποιούνται στην εργασία βασίζονται στο συνδυασμό του Bag of Words με στατιστικά μοντέλα και με γλωσσικά μοντέλα (n-grams). Μέτρηση συχνότητας εμφάνισης (Frequency) των λέξεων της συλλογής στο σώμα του εκάστοτε κειμένου. Η αναπαράσταση των κειμένων και των συλλογών εκπαίδευσης και αξιολόγησης των κατηγοριοποιητών γίνεται με τη χρήση του Bag Of Word και τα διανύσματα και οι πίνακες που παράγονται περιέχουν τιμές φυσικών αριθμών, καθώς κάθε τιμή των διανυσμάτων και των πινάκων, αντιστοιχεί στον πλήθος των εμφανίσεων ενός όρου του λεξικού της συλλογής, σε ένα κείμενο. (Πίνακες 5,6,7,8). Μέτρηση απλής εμφάνισης (Occurrence) των λέξεων της συλλογής στο σώμα του εκάστοτε κειμένου. Η αναπαράσταση των κειμένων και των συλλογών εκπαίδευσης και αξιολόγησης των κατηγοριοποιητών γίνεται με τη χρήση του Bag Of Word και τα διανύσματα και οι πίνακες που παράγονται περιέχουν δυαδικές τιμές 0 και 1, καθώς κάθε τιμή των διανυσμάτων και των πινάκων, αντιστοιχεί στην εμφάνιση ή μη ενός όρου του λεξικού της συλλογής, σε ένα κείμενο. Θεωρώντας, ότι το train set αποτελείται από N μοναδικές λέξεις w1,w2, wn που απαρτίζουν το λεξικό W και ότι περιέχει Μ κείμενα Κ1,Κ2,, ΚΜ, τότε το κείμενο Kj για 1 j M, αποτελείται από L λέξεις οι οποίες ανήκουν και αυτές στο W. Έστω ότι ο κείμενο Kj είναι το : w 1 w 3 w 35 w 1 w 60, τότε η αναπαράστασή του θα είναι: 27

29 w1 w2 w3 wh. wi.wn w35. w60... w N Πίνακας 9. Κείμενο από τη συλλογή εκπαίδευσης με Bag of Words - Occurrence Με την εφαρμογή του Bag of Words και της μέτρησης απλής εμφάνισης όρων στο σύνολο εκπαίδευσης, προκύπτει η ένας πίνακας M x N (όπου Μ το πλήθος των κειμένων και N το πλήθος των λέξεων) με τιμές Oij. Όπου Oij η εμφάνιση ή μη της λέξης j στο κείμενο i, η οποία λαμβάνει τιμές 0 (αν ο όρος δεν υπάρχει στο κείμενο) και 1 (αν ο όρος υπάρχει στο κείμενο. ΛΕΞΕΙΣ ΣΥΛΛΟΓΗΣ ΕΚΠΑΙΔΕΥΣΗΣ (Train set) Κ Ε Ι Μ Ε Ν Α w1 w2.... wd... w N K1 O11 O O1d O1N K2 O21 O O2d O2N K3 O31 O O3d O3N Kh Oh1 Oh2.... Ohd OhN KM OM1 OM2.... OMd OMN Πίνακας 10. Συλλογή εκπαίδευσης με Bag of Words - Occurrence Η αντίστοιχη θεώρηση γίνεται και για το test set, όπου αποτελείται από S μοναδικές λέξεις d1,d2, ds που απαρτίζουν το λεξικό D και ότι περιέχει R κείμενα K1,K2,, KR, τότε το κείμενο Ki για 1 j R, αποτελείται από U λέξεις οι οποίες ανήκουν και αυτές στο D. Έστω ότι ο κείμενο Ki είναι το : d 1 d 3 d 35 d 1 d 60, τότε η αναπαράστασή του θα είναι: d1 d2 d3 dh...di..dn d35. d60... d S Πίνακας 11. Κείμενο από τη συλλογή αξιολόγησης με Bag of Words - Occurrence Από τη χρήση του Bag of Words και της μέτρησης απλής εμφάνισης όρων στο σύνολο αξιολόγησης, προκύπτει η ένας πίνακας R x S (όπου R το πλήθος των κειμένων και S το πλήθος των λέξεων) με τιμές Oij. Όπου Oij η εμφάνιση ή μη της λέξης j στο κείμενο i,με τιμές (αν ο όρος δεν υπάρχει στο κείμενο) και 1 (αν ο όρος υπάρχει στο κείμενο). Στον Πίνακα 12 φαίνεται η αναπαράσταση του 28

30 ΛΕΞΕΙΣ ΣΥΛΛΟΓΗΣ ΑΞΙΟΛΟΓΗΣΗΣ (Test set) Κ Ε Ι Μ Ε Ν Α d1 d2.... dd... ds K1 O11 O O1d O1S K2 O21 O O2d O2S K3 O31 O O3d O3S Kh Oh1 Oh2.... Ohd OhS KR OR1 OR2.... ORd ORS Πίνακας 12. Συλλογή αξιολόγησης με Bag of Words - Occurrence H Μέτρηση σπουδαιότητας των όρων (Tf-Idf) είναι μια μέθοδος υπολογισμού του βάρους που έχει κάθε όρος στο κείμενο το οποίο ανήκει. Η έννοια βάρος αφορά στο πόσο σημαντικός είναι ένας όρος για το κείμενο από μια συλλογή κειμένων. Η αξία μιας λέξης αυξάνεται ανάλογα με το πλήθος των εμφανίσεών της στο κείμενο, αλλά αντισταθμίζεται από την συχνότητα της σε ολόκληρη τη συλλογή των κειμένων. Τυπικά το Tf-Idf βάρος, δημιουργείται από δυο όρους: ο ένας υπολογίζει τον κανονικοποιημένη Term Frequency (TF) (συχνότητα των όρων) και ο άλλος είναι ο Inverse Term Frequency (Idf) (αντίστροφη συχνότητα όρων). Ο TF υπολογίζεται από το πλήθος εμφάνισης μιας λέξης σε ένα κείμενο, διαιρούμενο με τον συνολικό αριθμό των λέξεων του κειμένου. Η διαίρεση αυτή συμβάλει στην κανονικοποίηση του TF, τα κείμενα της συλλογής δεν έχουν το ίδιο μέγεθος, έτσι είναι πιθανό να εμφανίζεται μια λέξη περισσότερες φορές σε μεγάλα κείμενα απ ότι σε μικρότερα. TF (t) = (Πλήθος εμφανίσεων του t σε ένα κείμενο) / (Συνολικός αριθμός λέξεων του κειμένου). Ο Idf για έναν όρο υπολογίζεται από τον λογάριθμο του αριθμού των κειμένων της συλλογής διαιρούμενο από τον αριθμό των κειμένων που περιέχουν τον όρο. Ουσιαστικά αυτή η μετρική ελέγχει τη σημαντικότητα μιας λέξης, καθώς στον υπολογισμό του TF όλοι οι όροι θεωρούνται εξίσου σημαντικοί. Ωστόσο, είναι γνωστό ότι κάποιες λέξεις, εμφανίζονται πάρα πολλές φορές αλλά έχουν μικρή σημασία για το εκάστοτε κείμενο. Έτσι για να αντισταθμιστεί η μεγάλη συχνότητα λέξεων χωρίς ιδιαίτερη σημαντικότητα, με τη μικρότερη συχνότητα πιο σημαντικών λέξεων ο IDF υπολογίζεται ως εξής: IDF (t) = log (Συνολικός αριθμός κειμένων / Πλήθος κειμένων που έχουν τον όρο t) 29

31 Το Tf-Idf ενός όρου, είναι το γινόμενο του TF με το Idf του όρου: Tf-Idf (t) = TF (t) * Idf (t) Θεωρώντας, ότι το train set αποτελείται από N μοναδικές λέξεις w1,w2, wn που απαρτίζουν το λεξικό W και ότι περιέχει Μ κείμενα Κ1,Κ2,, ΚΜ, τότε το κείμενο Kj για 1 j M, αποτελείται από λέξεις οι οποίες ανήκουν και αυτές στο W. Έστω ότι ο κείμενο Kj είναι το : w 1 w 3 w 35 w 1 w 60, και το Tf-Idf για μια λέξη wi είναι Tiτότε η αναπαράστασή του θα είναι: w1 w2 w3 wh. wi.wn w35. w60... w N T1 0 T T T Πίνακας 13. Κείμενο από τη συλλογή εκπαίδευσης με Bag of Words Tf-Idf Με την εφαρμογή του Bag of Words και της μέτρησης απλής εμφάνισης όρων στο σύνολο εκπαίδευσης, προκύπτει η ένας πίνακας M x N (όπου Μ το πλήθος των κειμένων και N το πλήθος των λέξεων) με τιμές Tij. Όπου Tij το Tf-Idf της λέξης j στο κείμενο i, η οποία λαμβάνει τιμές από 0 έως 1. ΛΕΞΕΙΣ ΣΥΛΛΟΓΗΣ ΕΚΠΑΙΔΕΥΣΗΣ (Train set) Κ Ε Ι Μ Ε Ν Α w1 w2.... wd... w N K1 Τ11 Τ Τ1d Τ1N K2 Τ21 Τ Τ2d Τ2N K3 Τ31 Τ Τ3d Τ3N Kh Τh1 Τh2.... Τhd ΤhN KM ΤM1 ΤM2.... ΤMd ΤMN Πίνακας 14. Συλλογή εκπαίδευσης με Bag of Words - Tf-Idf Η αντίστοιχη θεώρηση γίνεται και για το test set, όπου αποτελείται από S μοναδικές λέξεις d1,d2, ds που απαρτίζουν το λεξικό D και ότι περιέχει R κείμενα K1,K2,, KR, τότε το κείμενο Ki για 1 j R, αποτελείται από U λέξεις οι οποίες ανήκουν και αυτές στο D. Έστω ότι ο κείμενο Ki είναι το : d 1 d 3 d 35 d 1 d 60, τότε η αναπαράστασή του θα είναι: d1 d2 d3 dh...di..dn d35. d60... d S T1 0 T T T Πίνακας 15. Κείμενο από τη συλλογή αξιολόγησης με Bag of Words - Tf-Idf 30

32 Από τη χρήση του Bag of Words και της μέτρησης απλής εμφάνισης όρων στο σύνολο αξιολόγησης, προκύπτει η ένας πίνακας R x S (όπου R το πλήθος των κειμένων και S το πλήθος των λέξεων) με τιμές Tij. Όπου Tij το Tf-Idf της λέξης j στο κείμενο i, η οποία λαμβάνει τιμές από 0 έως 1. ΛΕΞΕΙΣ ΣΥΛΛΟΓΗΣ ΑΞΙΟΛΟΓΗΣΗΣ (Test set) Κ Ε Ι Μ Ε Ν Α d1 d2.... dd... ds K1 Τ11 Τ Τ1d Τ1S K2 Τ21 Τ Τ2d Τ2S K3 Τ31 Τ Τ3d Τ3S Kh Τh1 Τh2.... Τhd ΤhS KR ΤR1 ΤR2.... ΤRd ΤRS Πίνακας 16. Συλλογή αξιολόγησης με Bag of Words - Tf-Idf Το Γλωσσικό μοντέλα αναπαράστασης κειμένου N-gram είναι μια συνεχής ακολουθία όρων για μια δεδομένη αλληλουχία κειμένου. Οι όροι μπορεί να είναι γράμματα, συλλαβές, φράσεις ή λέξεις. Στη συγκεκριμένη μελέτη, έννοια όρος στο μοντέλο n-gram αφορά τις λέξεις. Ένα N-gram μεγέθους N=1 ονομάζεται unigram, για N=2 ονομάζεται bigram και για N=3 trigram, όπου Ν θεωρείται ο αριθμός των συνεχόμενων όρων που αποτελούν μια οντότητα στο μοντέλο N-gram. Πιο αναλυτικά, ένα κείμενο Κ με την μορφή: W1 W2 W3 W4 W5, (όπου Wi οι λέξεις του κειμένου), μπορεί να αναπαρασταθεί με N-gram ως εξής : Unigram W1 W2 W3 W4 W5 Bigram - Συλλογή διαδοχικών λέξεων σε διαδοχικά ζεύγη W1 W2 W2 W3 W3 W4 W4 W5 W5 Trigram - Συλλογή διαδοχικών λέξεων σε διαδοχικές τριάδες W1 W2 W3 W2 W3 W4 W3 W4 W5 W4 W5 W5 Στην μελέτη χρησιμοποιούνται επίσης πιο πολύπλοκες μορφές αναπαράστασης με N- gram όπως τα, Uni-Bigram (συλλογή μιας λέξης και του ζεύγους με την επόμενη), Uni Trigram (συλλογή μιας λέξης και της τριάδας της με τις δύο επόμενες), Bi Trigram (συλλογή ζεύγους λέξεων και της τριάδας τους με την επόμενη). 31

33 Uni - Bigram W1 W1W2 W2 W2W3 W3 W3W4 W4 W4W5 W5 Uni - Trigram W1 W1W2 W3 W2 W2 W3W4 W3 W3W4W5 W4 W5 Bi - Trigram W1 W2 W3 W2 W3 W4 W3 W4 W5 W4 W5 W5 Εφαρμογή Τεχνικών Εξόρυξης Αναγνωριστικών Κειμένου Στη μελέτη υλοποιούνται συνδυασμοί των παραπάνω τεχνικών εξαγωγής γνωρισμάτων για την παραγωγή συνόλων με χρήσιμες πληροφορίες για την τροφοδοσία των αλγορίθμων μηχανικής μάθησης των κατηγοριοποιητών που χρησιμοποιούνται για τον προσδιορισμό των απόψεων από τις διαθέσιμες πολύγλωσσες διαδικτυακές κριτικές ταινιών. Έχοντας διαχωρισμένο των σύνολο των πολύγλωσσων κριτικών σε Train και Test set, εφαρμόζονται οι τεχνικές και στα δυο σύνολα παράλληλα. Αρχικά τα δυο σύνολα (Train και Test) αναπαρίστανται με όλα τα παραπάνω γλωσσικά μοντέλα n-gram (Unigram, Bigram, Trigram, Uni-Bigram, Uni-Trigram και Bi-Trigram), στη συνέχεια εφαρμόζονται οι τεχνικές: Bag of Words με συχνότητα εμφάνισης όρων (Frequency), Bag of Words με μέτρηση απλής εμφάνισης όρων (Occurrence) και Bag of Words με Tf-Idf βάρη, για κάθε παραγόμενη αναπαράσταση. Αρχικά τα δυο σύνολα (Train και Test) αναπαρίστανται με όλα τα παραπάνω γλωσσικά μοντέλα n-gram (Unigram, Bigram, Trigram, Uni-Bigram, Uni-Trigram και Bi-Trigram), στη συνέχεια εφαρμόζονται οι τεχνικές: Bag of Words με συχνότητα εμφάνισης όρων (Frequency), Bag of Words με μέτρηση απλής εμφάνισης όρων (Occurrence) και Bag of Words με Tf-Idf βάρη, για κάθε παραγόμενη αναπαράσταση. Παρακάτω παρουσιάζεται με πίνακα και σχηματικά η συνδυαστική εφαρμογή των τεχνικών στα διαθέσιμα σύνολα: Τεχνικές εξαγωγής γνωρισμάτων από πολύγλωσσο Train set Εικόνα 2. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Πολύγλωσσου Train Set. 32

34 Lang. Model Data Model Statistic Model TRAIN SET Unigram Uni -Bigram Uni - Trigram Bigram Bi-Trigram Trigram BoWs BoWs BoWs BoWs BoWs BoWs Oc. Fr. Tf- Idf Oc. Fr. Tf- Idf Oc. Fr. Tf- Idf Oc. Fr. Tf- Idf Data For Classification Algorithms Classifiers Oc. Fr. Tf- Idf Oc. Fr. Tf- Idf Πίνακας 17. Τεχνικές εξόρυξης αναγνωριστικών κειμένου Πολύγλωσσου Test Set Τεχνικές εξαγωγής γνωρισμάτων από πολύγλωσσο Test set Εικόνα 3. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Πολύγλωσσου Test Set. Lang. Model Data Model Statistic Model TEST SET Unigram Uni -Bigram Uni - Trigram Bigram Bi-Trigram Trigram BoWs BoWs BoWs BoWs BoWs BoWs Oc. Fr. Tf- Idf Oc. Fr. Tf- Idf Oc. Fr. Tf- Idf Oc. Fr. Tf- Idf Data For Classification Algorithms Classifiers Oc. Fr. Tf- Idf Oc. Fr. Tf- Idf Πίνακας 18. Τεχνικές εξόρυξης αναγνωριστικών κειμένου Πολύγλωσσου Test Set Στη συνέχεια οι ίδιες τεχνικές εφαρμόζονται και για τα σύνολα των Αγγλικών, των Ισπανικών και των Τούρκικων, όπως φαίνεται παρακάτω: 33

35 Τεχνικές εξαγωγής γνωρισμάτων από Αγγλικό Train set Εικόνα 4. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Αγγλικό Train Set. Τεχνικές εξαγωγής γνωρισμάτων από Αγγλικό Test set Εικόνα 5. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Αγγλικό Test Set. 34

36 Τεχνικές εξαγωγής γνωρισμάτων από Ισπανικό Train set Εικόνα 6. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Ισπανικό Train Set. Τεχνικές εξαγωγής γνωρισμάτων από Ισπανικό Test set Εικόνα 7.Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Ισπανικό Test Set. 35

37 Τεχνικές εξαγωγής γνωρισμάτων από Τούρκικο Train set Εικόνα 8. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Τούρκικο Train Set. Τεχνικές εξαγωγής γνωρισμάτων από Τούρκικο Test set Εικόνα 9. Διάγραμμα Τεχνικών εξόρυξης αναγνωριστικών κειμένου Τούρκικο Test Set. 36

38 Πρέπει να σημειωθεί ότι η αναπαράσταση των κειμένων με Bag of Words αφορά τον αριθμό όλων των διακριτών λέξεων απ όλη τη συλλογή. Ωστόσο, το μέγεθος και η ανομοιομορφία (λόγου των διαφορετικών γλωσσών) του διαθέσιμου συνόλου, δημιουργεί πολύ μεγάλο ποσοστό άχρηστης πληροφορίας στους πίνακες που απεικονίζουν τις κριτικές, έπειτα από της εφαρμογή των τεχνικών εξαγωγής αναγνωριστικών. Για το λόγο αυτό, το Bag of Words υλοποιείται για τα n συχνότερα εμφανιζόμενα αναγνωριστικά κειμένου, στο κάθε σύνολο (train και test) Ανάπτυξη συνόλων εκπαίδευσης κατηγοριοποιητών με αλγορίθμους μηχανικής μάθησης Για το μοντέλο εξόρυξης απόψεων από τις διαδικτυακές κριτικές, στη συγκεκριμένη έρευνα χρησιμοποιείται το μοντέλο της επιβλεπόμενης μάθησης. Στην επιβλεπόμενη μάθηση τα δεδομένα εκπαίδευσης, δηλαδή οι μετρήσεις από τις τεχνικές εξαγωγής γνωρισμάτων, συνοδεύονται από ετικέτες που δείχνουν την κλάση τους. Οι πίνακες αναπαράστασης του συνόλου εκπαίδευσης που προέκυψαν από την εφαρμογή των τεχνικών εξόρυξης γνωρισμάτων κειμένου, αποτελούνται από στήλες με αριθμητικές τιμές για κάθε όρο της συλλογής. Για να χρησιμοποιηθούν ως σύνολα εκπαίδευσης για επιβλεπόμενη μάθηση, είναι απαραίτητο να διαθέτουν πληροφορία για την κλάση (θετική ή αρνητική κριτική) στην οποία ανήκει κάθε κείμενο της συλλογής. Λαμβάνοντας υπόψιν ότι κάθε κριτική απεικονίζεται από ένα διάνυσμα (γραμμή) του πίνακα αναπαράστασης της συλλογής, η πληροφορία για την κλάση της μπορεί να αποθηκευτεί σε μια επιπλέον στήλη στο τέλος του διανύσματος. Έτσι για το train set το οποίο αποτελείται από N μοναδικές λέξεις w1,w2, wn που απαρτίζουν το λεξικό W και περιέχει Μ κείμενα Κ1,Κ2,, ΚΜ, το κείμενο Kj για 1 j M, που αντιστοιχεί στην κλάση Cj με επιτρεπόμενες τιμές {Positive,Negative} και έχει τιμές Vd για κάθε λέξη wd ανάλογα με την τεχνική εξαγωγής γνωρισμάτων από την οποία δημιουργείται, αναπαρίσταται ως εξής: K w1 w2 w3 wh... wz w N Class Kj V1 V2 V3..Vh.... Vz VN Cj Πίνακας 19. Κείμενο από τη συλλογή εκπαίδευσης με την αντίστοιχη κλάση του Αντίστοιχα το σύνολο εκπαίδευσης απεικονίζεται: ΛΕΞΕΙΣ ΣΥΛΛΟΓΗΣ ΕΚΠΑΙΔΕΥΣΗΣ (Train set) Κλάση Κ Ε Ι Μ Ε Ν Α w1 w2.... wd... w N Class K1 V11 V V1d V1N C1 K2 V21 V V2d V2N C Kh Vh1 Vh2.... Vhd VhN Ch KM VM1 VM2.... VMd VMN CN Πίνακας 20. Συλλογή εκπαίδευσης με πληροφορία για τις κλάσεις των κειμένων 37

39 Ο πίνακας της συλλογής εκπαίδευσης, έτσι όπως έχει διαμορφωθεί έπειτα από την προσθήκη της στήλης που αντιπροσωπεύει την κλάση κάθε κριτικής, διαθέτει όλες τις πληροφορίες που απαιτούνται για τους αλγορίθμους εκπαίδευσης. Ωστόσο διαθέτει και μια στήλη με το όνομα του κάθε κειμένου, η οποία περιλαμβάνει μοναδικές τιμές για κάθε κείμενο, βάση της αρχικής θεώρησης ότι τα κείμενα του συνόλου είναι διαφορετικά. Η πληροφορία της ονομασίας του εκάστοτε κειμένου, όχι μόνο είναι περιττή για τους αλγορίθμους μάθησης αλλά επιβαρύνει την πολυπλοκότητα του συστήματος. Αφαιρώντας, την στήλη της ονομασίας των κειμένων το τελικό σύνολο εκπαίδευσης απεικονίζεται: ΛΕΞΕΙΣ ΣΥΛΛΟΓΗΣ ΕΚΠΑΙΔΕΥΣΗΣ (Train set) Κλάση w1 w2.... wd... w N Class V11 V V1d V1N C1 V21 V V2d V2N C Vh1 Vh2.... Vhd VhN Ch VM1 VM2.... VMd VMN CN Πίνακας 21. Συλλογή εκπαίδευσης αλγορίθμων μηχανικής μάθησης Για την αξιολόγηση των αποτελεσμάτων της αυτόματης εξαγωγής απόψεων από πολύγλωσσες διαδικτυακές κριτικές χρησιμοποιείται ένα σύνολο αξιολόγησης. Αυτό το σύνολο προωθείται στους κατηγοριοποιητές για να υλοποιήσουν την αυτόματη εξαγωγή συναισθήματος, έπειτα από την εκπαίδευσή τους. Ωστόσο είναι απαραίτητο να περιέχει πληροφορία για την κλάση των κειμένων του, έτσι ώστε να γίνει η αξιολόγηση των προβλέψεων που παράγουν οι εκπαιδευμένοι κατηγοριοποιητές. Επίσης δεν πρέπει να περιλαμβάνει πληροφορία για την ονομασία των κειμένων του καθώς όχι μόνο είναι περιττή για την αξιολόγηση αλλά και οι κατηγοριοποιητές δεν έχουν εκπαιδευτεί για τη συγκεκριμένη πληροφορία. Επομένως το σύνολο αξιολόγησης απεικονίζεται ως εξής: ΛΕΞΕΙΣ ΣΥΛΛΟΓΗΣ ΕΚΠΑΙΔΕΥΣΗΣ (Test set) Κλάση w1 w2.... wd... w N Class V11 V V1d V1N C1 V21 V V2d V2N C Vh1 Vh2.... Vhd VhN Ch VM1 VM2.... VMd VMN CN Πίνακας 22. Συλλογή αξιολόγησης αλγορίθμων μηχανικής μάθησης 38

40 3.5. Αλγόριθμοι μηχανικής μάθησης Μετά το πέρας της ανάλυσης του διαθέσιμου συνόλου, οι πίνακες με αναγνωριστικά κειμένου που παράγονται από το train set, αποτελούν τα δεδομένα για την εκπαίδευση των κατηγοριοποιητών για αυτόματη εξαγωγή απόψεων από τη πολύγλωσση συλλογή. Επίσης οι πίνακες που παράγονται από το test set, αποτελούν τα δεδομένα αξιολόγησης των αποτελεσμάτων των κατηγοριοποιητών. Η εργασία χρησιμοποιεί τους αλγόριθμους, IBK (Κοντινότερος Γείτονας, K NN) και SMO (Sequential minimal optimization), τρία δέντρα αποφάσεων: C4.5, Random Forest και Random Tree και έναν πιθανοτικό αλγόριθμο των Bayesian Network (Bayes Net) Δέντρα Αποφάσεων (Decision Trees) C4.5 Ο αλγόριθμος C4.5 δημιουργεί δέντρα αποφάσεων από ένα σύνολο δεδομένων εκπαίδευσης χρησιμοποιώντας την έννοια της εντροπίας της πληροφορίας. Η εντροπία είναι μια μετρική της πληροφορίας, η οποία εκφράζεται συνήθως ως ο μέσος όρος του πλήθους των bits που απαιτούνται για την αποθήκευσης ενός όρου σε ένα κείμενο. Τύπος υπολογισμού εντροπίας Τα δεδομένα εκπαίδευσης είναι ένα σύνολο S = s1,s2, από δείγματα που είναι ήδη κατηγοριοποιημένα. Κάθε δείγμα si αποτελείται από ένα διάνυσμα (x1,i,x2,i,,xp,i) μεγέθους p, με το xj να αντιστοιχεί στις τιμές των γνωρισμάτων του δείγματος καθώς και την κλάση στην οποία ανήκει το δείγμα. Σε κάθε κορυφή του δέντρου, ο C4.5 επιλέγει το γνώρισμα των δεδομένων, που χωρίζουν πιο αποτελεσματικά το σύνολο των δειγμάτων σε υποσύνολα της μιας (θετικής) ή της άλλης κλάσης (αρνητικής). Το κριτήριο διαχωρισμού είναι το κανονικοποιημένο κέρδος πληροφορίας (information gain). Το κέρδος πληροφορίας (information gain) είναι μια μετρική που υπολογίζει το πλήθος των πληροφοριών που ανακτώνται από την γνώση της τιμής ενός γνωρίσματος. Το κέρδος πληροφορίας υπολογίζεται με την αφαίρεση της εντροπίας της συνολικής κατανομής των δειγμάτων πριν τον διαχωρισμό μείον την εντροπία της κατανομής μετά τον διαχωρισμό του συνόλου. Έτσι επιλέγεται το γνώρισμα με το μεγαλύτερο κέρδος πληροφορίας για την λήψη απόφασης. Ο αλγόριθμος έχει τις εξής περιπτώσεις: Αν όλα τα δείγματα ανήκουν στην ίδια κλάση, ο αλγόριθμος δημιουργεί ένα φύλλο απόφασης με την συγκεκριμένη κλάση. Αν κανένα από τα γνωρίσματα δεν παρέχει κέρδος πληροφορίας, ο αλγόριθμος δημιουργεί μια κορυφή σε υψηλότερο επίπεδο του δέντρου χρησιμοποιώντας την αναμενόμενη τιμή κλάσης. 39

41 Όταν εμφανίζονται περιπτώσεις με κλάσεις που δεν έχουν ξαναβρεθεί στο δέντρο, ο αλγόριθμος δημιουργεί μια κορυφή απόφασης σε υψηλότερο επίπεδο χρησιμοποιώντας την συγκεκριμένη κλάση. Η γενική μορφή του αλγορίθμου για την δημιουργία δέντρων αποφάσεων είναι [23]: Έλεγχος των παραπάνω περιπτώσεων. Για κάθε γνώρισμα g, υπολογισμός της αναλογίας του κέρδους πληροφορίας σε περίπτωση διαχωρισμού στο g. Με g_best το γνώρισμα με το υψηλότερο κέρδος πληροφορίας. Δημιουργία κορυφής απόφασης που διασπά το σύνολο στο γνώρισμα g_best. Επανάληψη των παραπάνω βημάτων στα υποσύνολα που δημιουργούνται από τον αρχικό διαχωρισμό και δημιουργία νέων κορυφών απόφασης ως παιδιά της αρχικής κορυφής. Random Forest Ο αλγόριθμος Random Forest είναι μια μέθοδος εκμάθησης συνόλων για κατηγοριοποίηση και λειτουργεί με την κατασκευή ενός πλήθους από δέντρα απόφασης στο στάδιο της εκπαίδευσης και με την εξαγωγή της κλάσης (κατηγοριοποίησης) που προέρχεται από την προσαρμογή των κλάσεων (κατηγοριοποίησης) των ξεχωριστών δέντρων. Ο αλγόριθμος εκπαίδευσης για το Random Forest, εφαρμόζει την τεχνική bagging (σακούλιασμα) στα δέντρα εκμάθησης. Δεδομένου ενός συνόλου X = X1,, Xn με αποφάσεις Y = Y1,, Yn,το επαναλαμβανόμενο για Β φορές bagging, επιλέγει ένα τυχαίο δείγμα από το σύνολο εκπαίδευσης και το προωθεί στα δέντρα. Έτσι για b = 1, B: δειγματίζονται με αντικατάσταση, n παραδείγματα εκπαίδευσης από τα X και Y, έστω Xb, Yb. Εκπαιδεύεται ένα δέντρο απόφασης fb στα δεδομένα Xb, Yb. Μετά την εκπαίδευση, γίνονται προβλέψεις για τα υπόλοιπα δείγματα x που δεν έχουν κατηγοριοποιηθεί, με την χρήση του μέσου όρου των προβλέψεων από τα ξεχωριστά δέντρα αποφάσεων στα x ή λαμβάνοντας υπόψη την πλειοψηφία των αποφάσεων των δέντρων απόφασης. Ο Random Forest χρησιμοποιεί την τεχνική bagging σε συνδυασμό με έναν αλγόριθμο εκπαίδευσης δέντρων, οποίος επιλέγει ένα τυχαίο σύνολο αναγνωριστικών για κάθε υποψήφιο διαχωρισμό στην διαδικασία εκπαίδευσης. Ο λόγος για τον οποίον γίνεται αυτή η τυχαία επιλογή είναι η συσχέτιση των δέντρων στην αντιμετώπιση ενός συνηθισμένου δείγματος, καθώς εάν ένα ή περισσότερα χαρακτηριστικά είναι πολύ δυνατά ως αναφορά στο κέρδος, αυτά πληροφορίας που παρέχουν, τότε αυτά τα χαρακτηριστικά θα επιλεγούν από πάρα πολλά δέντρα και θα δημιουργηθεί συσχέτιση μεταξύ των αποφάσεων των δέντρων. 40

42 Random Tree Ένας Random Tree αλγόριθμος χρησιμοποιεί μια συλλογή από δέντρα πρόβλεψης που λέγεται δάσος (Forest). Στη διαδικασία της κατηγοριοποίηση, δέχεται ως είσοδο ένα διάνυσμα χαρακτηριστικών, το ταξινομεί με κάθε δέντρο από το δάσος και εξάγει την κλάση που προέρχεται από την πλειοψηφία των αποφάσεων των δέντρων. Όλα τα δέντρα εκπαιδεύονται με τις ίδιες παραμέτρους αλλά σε διαφορετικά σύνολα εκπαίδευσης. Αυτά τα σύνολα προέρχονται με τη χρήση της bagging διαδικασίας (επιλογή με αντικατάσταση). Έτσι για κάθε σύνολο εκπαίδευσης επιλέγεται τυχαία ο ίδιος αριθμός διανυσμάτων με το αρχικό σύνολο εκπαίδευσης. Αυτό έχει ως συνέπεια, τα παραγόμενα σύνολα εκπαίδευσης να έχουν διανύσματα που να εμφανίζονται στο ίδιο σύνολο περισσότερες της μιας φορές ή να απουσιάζουν εντελώς. Σε κάθε κορυφή κάθε εκπαιδευόμενου δέντρου, δεν επιλέγονται όλες οι διαθέσιμες μεταβλητές για το καλύτερο διαχωρισμό, αλλά ένα τυχαίο υποσύνολό τους. Επίσης με την δημιουργία μιας νέας κορυφής δημιουργείται καινούριο υποσύνολο μεταβλητών προς εξέταση. Τα υποσύνολα μεταβλητών που εξετάζονται έχουν πάντα το ίδιο μέγεθος για κάθε κορυφή και για κάθε δέντρο. Στα Random Trees, δεν απαιτείται καμία διαδικασία υπολογισμού ακρίβειας της κατηγοριοποίησης καθώς το σφάλμα εκτιμάται εσωτερικά κατά την διαδικασία εκπαίδευσης με τον υπολογισμό της αναλογίας του πλήθους των μη κατηγοριοποιημένων διανυσμάτων από όλα τα διανύσματα του αρχικού συνόλου Bayesian Αλγόριθμοι Μηχανικής Μάθησης Οι Bayesian αλγόριθμοι ταξινόμησης είναι στατιστικοί αλγόριθμοι που μπορούν να υπολογίσουν την πιθανότητα ένα δοθέν στιγμιότυπο κάποιου προβλήματος να ανήκει σε µία από τις προκαθορισμένες κλάσεις του προβλήματος. Στηρίζονται στο θεώρημα του Bayes το οποίο διατυπώνεται ως εξής: Έστω: P είναι η διαμοίραση πιθανότητας. D είναι µια συλλογή στιγµιότυπων για τα οποία είναι γνωστή η κλάση τους. h είναι µια υπόθεση, όπως για παράδειγμα τα δεδομένα D να ανήκουν σε µία συγκεκριμένη κλάση C. Εάν γνωρίζουμε: P(h), την a - priori πιθανότητα η υπόθεση h να είναι σωστή. P(D), την πιθανότητα να παρατηρηθούν τα δεδομένα D P(D h), την posteriori πιθανότητα να παρατηρηθούν τα δεδομένα D µε την προϋπόθεση ότι η υπόθεση h είναι σωστή 41

43 τότε το θεώρημά του Bayes προσφέρει µια μέθοδο υπολογισμού της posteriori πιθανότητας P(h D), δηλαδή της πιθανότητας να είναι σωστή η υπόθεση h δεδομένου ότι παρατηρούνται τα δεδομένα D. ίνεται από τη σχέση: P(h D)=P(D h)*p(h)/p(d) Θεωρητικά οι Bayesian κατηγοριοποιητές έχουν το μικρότερο ρυθμό λάθους συγκρινόμενοι µε τους υπόλοιπους κατηγοριοποιητές. Στην πράξη, ωστόσο, αυτό δεν ισχύει πάντα λόγω των σφαλμάτων που γίνονται στις υποθέσεις, όπως για παράδειγμα στην υπόθεση για την ανεξαρτησία ως προς την κατανομή των κλάσεων. Επίσης, οι Bayesian κατηγοριοποιητές είναι χρήσιμοι και επειδή προσφέρουν µια θεωρητική αιτιολόγηση για άλλους κατηγοριοποιητές λόγω του θεωρήματος του Bayes. Για παράδειγμα, κάτω από συγκεκριμένες συνθήκες µπορεί να αποδειχθεί πως πολλά νευρωνικά δίκτυα παράγουν ως έξοδο την υπόθεση µε τη μεγαλύτερη posteriori πιθανότητα όπως ακριβώς κάνουν και οι Bayesian κατηγοριοποιητές. Οι Bayesian κατηγοριοποιητές παρουσιάζουν υψηλή απόδοση σε ακρίβεια και ταχύτητα όταν εφαρμόζονται σε µεγάλες βάσεις δεδοµένων. Μια πολύ γνωστή εφαρμογή των Bayesian κατηγοριοποιητών είναι τα Bayesian Networks. Bayes Net Τα δίκτυά Πεποίθησης Bayes(Bayesian Belief Networks, ΒΒΝ) αποτελούν ένα σημαντικό εργαλείο αναπαράστασης γνώσης και εξαγωγής συμπερασμάτων, υπό συνθήκες αβεβαιότητας. εδοµένου ενός συνόλου µμεταβλητών D = X1, X2 XN, όπου κάθε μεταβλητή Xi παίρνει τιμές από ένα σύνολο T(Xi), ένα BBN περιγράφει την κατανομή πιθανότητας στο σύνολο αυτό. Με κεφαλαία γράµµατα, όπως X, Y συμβολίζονται οι µμεταβλητές και πεζά γράµµατα όπως x, y συμβολίζονται οι τιμές των µμεταβλητών αυτών. Τυπικά, ένα BBN είναι ένας κατευθυνόμενος ακυκλικός γράφος (Directed Acyclic Graph- DAG) που αναπαριστά µία συνδυασμένη πιθανοτική κατανομή (joint probability distribution). Ένα δίκτυο Β συμβολίζεται σαν ένα ζεύγος Β= {G,Θ} [24] όπου G ένας DAG του οποίου οι κόμβοι αντιστοιχούν στις µμεταβλητές του D και Θ το σύνολο των παραμέτρων που ποσοτικοποιούν το δίκτυο. Ο G ενσωματώνει την ακόλουθη υπόθεση για την ανεξαρτησία των παραμέτρων: κάθε µεταβλητή Xi είναι ανεξάρτητη από τις µή-απογόνους της, δεδομένου του συνόλου των πατρικών της µμεταβλητών. Η παράμετρος Θ περιλαμβάνει πληροφορίες για την κατανομή πιθανότητας μιας τιμής xi µιας μεταβλητής Xi, δεδοµένων των τιμών των αμέσως προηγούμενων µμεταβλητών. Η μοναδική συνδυασμένη πιθανοτική κατανομή για το σύνολο {X1, X2 XN} που περιγράφει ένα δίκτυο Β υπολογίζεται από τον τύπο: Η εκπαίδευση ενός ΒΒΝ περιλαμβάνει δύο διαδικασίες, την εκπαίδευση της δομής και την εκπαίδευση των παραμέτρων Θ της δομής αυτής. Για τη δεύτερη διαδικασία, 42

44 χρησιμοποιούνται οι συχνότητες εμφάνισης των τιμών του σώματος εκπαίδευσης [25]. Όσον αφορά τη δομή του δικτύου, χρησιμοποιείται ν παρακάτω εξίσωση μαζί µε το θεώρημα του Bayes για την εξακρίβωση της σχέση r μεταξύ δύο υποψηφίων δικτύων Β1 και Β2 αντίστοιχα: Τύπος υπολογισμού σχέσης μεταξύ των δυο δικτύων Τύπος από το θεώρημα Bayes όπου: P(B D) η πιθανότητα το δίκτυο B να είναι το επιθυμητό δεδομένου του συνόλου D. P(D B) η πιθανότητα που δίνει το δίκτυο Β στα δεδομένα D. P(D) η «γενική» πιθανότητα των δεδοµένων. P(B) η πιθανότητα του δικτύου Β προτού να δοθούν τα δεδομένα. Με την εφαρμογή της εξίσωσης από το θεώρημα του Bayes στη εξίσωση για τον υπολογισμό της σχέσης των δικτύων και θεωρώντας ότι τα υποψήφια δίκτυα είναι ισοπίθανα (P(B1)=P(B2)) και λαμβάνοντας υπόψη ότι δεν υπάρχει πρότερη γνώση για την πιθανότητα ενός δικτύου πριν εμφανιστούν τα δεδομένα - η σχέση που εκφράζει το r γίνεται: Η πιθανότητα που δίνει το δίκτυο στα δεδομένα υπολογίζεται από την εξίσωση [26]: IBK (K-Nearest Neighbors Algorithm) Ο αλγόριθμος k-nearest Neighbors ( k-κοντινότεροι γείτονες) είναι μια μη παραμετρική μέθοδος για κατηγοριοποίηση. Η είσοδος που δέχεται αποτελείται από τα k πιο κοντινά δείγματα εκπαίδευσης από τον χώρο των γνωρισμάτων. Η έξοδός του η κλάση ταξινόμησης των δειγμάτων του συνόλου. Ένα αντικείμενο κατηγοριοποιείται με βάση 43

45 την πλειοψηφία των γειτόνων του και ταξινομείται στην κλάση η οποία είναι πιο κοινή στους k κοντινότερους γείτονές του. Το k μπορεί να είναι θετικός ακέραιος και όταν το k=1, τότε το αντικείμενο ταξινομείται στην κλάση του κοντινότερου γείτονα. Οι γείτονες ενός αντικειμένου επιλέγονται από ένα σύνολο για το οποίο η κλάση είναι γνωστή, αυτό το σύνολο αποτελεί και το σύνολο εκπαίδευσης του αλγορίθμου. Τα δείγματα εκπαίδευσης είναι διανύσματα σε έναν πολυδιάστατο χώρο γνωρισμάτων με ετικέτες κλάσης. Η φάση εκπαίδευσης του αλγορίθμου αποτελείται μόνο από την αποθήκευση των διανυσμάτων των γνωρισμάτων με τις αντίστοιχες ετικέτες κλάσης. Στη φάση της κατηγοριοποίησης, το k είναι μια σταθερά που ορίζεται από τον χρήστη και κάθε διάνυσμα χωρίς ετικέτα κλάσης, κατηγοριοποιείται με ανάθεση της ετικέτας της κλάσης η οποία είναι η πιο συχνή στα k κοντινότερα δείγματα εκπαίδευσης από αυτό SVM (Support Vector Machines) - SMO (Sequential minimal optimization) SVM Στη μηχανική μάθηση οι Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines SVM) είναι επιτηρούμενα μοντέλα μάθησης με συντονισμένους αλγορίθμους μάθησης που αναλύουν δεδομένα που χρησιμοποιούνται για κατηγοριοποίηση. Δεδομένου ενός συνόλου δεδομένων εκπαίδευσης όπου κάθε διάνυσμά του είναι χαρακτηρισμένο να ανήκει σε μια από τις δυο αρχικές κλάσεις (θετικό, αρνητικό), ένας SVM αλγόριθμος μάθησης, χτίζει ένα γραμμικό δυαδικό μοντέλο κατηγοριοποίησης, το οποίο ταξινομεί νέα διανύσματα σε μια από τις δυο κλάσεις. Ένα SVM μοντέλο είναι η αναπαράσταση όλων των διανυσμάτων ως σημεία στο χώρο, σχεδιασμένα με τέτοιο τρόπο ώστε τα διανύσματα που ανήκουν σε διαφορετικές κλάσεις να έχουν μεγάλο διάστημα μεταξύ τους. Στη συνέχεια νέα διανύσματα αντιστοιχίζονται σε αυτό τον χώρο και γίνεται πρόβλεψη για την κλάση στην οποία ταξινομούνται ανάλογα με τη πλευρά του κενού χώρου που γίνεται η αντιστοίχιση. Εκτός από τη γραμμική ταξινόμηση τα SVM έχουν την δυνατότητα να υλοποιήσουν μη γραμμική ταξινόμηση με χρήση αλγορίθμων ανάλυσης προτύπων, αντιστοιχίζοντας τις εισόδους τους σε υψηλών διαστάσεων χώρους χαρακτηριστικών. SMO Ο αλγόριθμος Ελάχιστης Διαδοχικής Βελτιστοποίησης (Sequential minimal optimization SMO) [27] χρησιμοποιείται από τα SVM για την επίλυση του προβλήματος του Τετραγωνικού Προγραμματισμού (Quadratic Programming QP Το πρόβλημα της βελτιστοποίησης μιας τετραγωνικής συνάρτησης με πολλές μεταβλητές που υπόκεινται σε γραμμικούς περιορισμούς ). Ο SMO διασπά το μεγάλο QP πρόβλημα σε μια σειρά από τα μικρότερα δυνατά QP προβλήματα. Αυτά επιλύονται αναλυτικά ξεχωριστά και έτσι αποφεύγεται η δαπανηρή χρονικά, εσωτερική βελτιστοποίηση. Το μέγεθος της μνήμης που απαιτείται για τον SMO είναι γραμμικό με το μέγεθος του συνόλου εκπαίδευσης, γεγονός που του επιτρέπει να διαχειριστεί πολύ μεγάλα σύνολα εκπαίδευσης. Καθώς ο υπολογισμό πινάκων αποφεύγεται, ο SMO κυμαίνεται μεταξύ γραμμικού και τετραγωνικού μεγέθους σε σχέση με το μέγεθος του συνόλου εκπαίδευσης, ενώ ο κλασσικός αλγόριθμος κατακερματισμού 44

46 SVM, κυμαίνεται μεταξύ γραμμικού και κυβικού μεγέθους σε σχέση με το σύνολο εκπαίδευσης. Ο χρόνος υπολογισμού από τον SMO είναι πολύ μικρότερος απ ότι από τις απλές SVM. SMO - Poly Kernel Ο Πολυωνυμικός Πυρήνας (Polynomial Kernel) είναι μια συνάρτηση που χρησιμοποιείται στην μηχανική μάθηση από τα SVM όταν αναπαριστούν τα διανύσματα χαρακτηριστικών σε ένα χώρο γνωρισμάτων με πολυώνυμα των γνήσιων μεταβλητών. Ο Poly Kernel δεν εξετάζει μόνο τα διαθέσιμα χαρακτηριστικά εισόδου για να προσδιορίσει ομοιότητες, αλλά και τους συνδυασμούς τους. Όταν τα γνωρίσματα εισόδου έχουν δυαδικές τιμές, τότε τα γνωρίσματα του Poly Kernel αντιστοιχούν σε συνδυασμούς των γνωρισμάτων εισόδου. SMO -RBF Kernel O Πυρήνας Ακτινικής Συνάρτησης Βάσης (RBF Kernel) είναι μια συνάρτηση που χρησιμοποιείται στην κατηγοριοποίηση με SVM. Ο RBF Kernel για δυο δείγματα x και x, που αναπαρίστανται ως διανύσματα στον ίδιο χώρο εισόδου ορίζεται από τον παρακάτω τύπο: Όπου x - x 2 είναι η Ευκλείδεια τετραγωνική απόσταση μεταξύ των δυο διανυσμάτων και όπου σ είναι μια ελεύθερη παράμετρος Μοντέλα Συγκριτικής Αξιολόγησης Για την εύρεση του καλύτερου μηχανισμού αυτόματης εξαγωγής συναισθημάτων, σχεδιάζεται ένα μοντέλο συγκριτικής αξιολόγησης των αποτελεσμάτων που εξάγονται από τους παραπάνω κατηγοριοποιητές. Υπάρχουν διάφορες μετρικές για την αξιολόγηση των αποτελεσμάτων κατηγοριοποίησης, όμως πριν την ανάλυσή τους, παρουσιάζονται κάποιοι σημαντικοί όροι οι οποίοι χρησιμοποιούνται τις μετρικές αξιολόγησης. Πιο αναλυτικά, True Positive (TP) ο συνολικός αριθμός των θετικών κλάσεων που προβλέφθηκαν σωστά. True Negative (TN) ο συνολικός αριθμός των αρνητικών κλάσεων που προβλέφθηκαν σωστά. False Positive (FP) ο συνολικός αριθμός των θετικών κλάσεων που προβλέφθηκαν λανθασμένα. 45

47 False Negative (FN) ο συνολικός αριθμός των αρνητικών κλάσεων που προβλέφθηκαν λανθασμένα. True Positive Rate (TPR) τα θετικά που κατηγοριοποιήθηκαν σωστά / συνολικό αριθμό θετικών. False Positive Rate (FPR) τα θετικά που κατηγοριοποιήθηκαν λανθασμένα / συνολικό αριθμό θετικών. Ν Συνολικός αριθμός κατηγοριοποιημένων στιγμιότυπων. Στη μελέτη χρησιμοποιούνται τέσσερις μετρικές αξιολόγησης των αποτελεσμάτων των κατηγοριοποιητών: η Ορθότητα (Accuracy), η Ακρίβεια (Precision), η Ανάκληση (Recall) και η F-Measure. Παρακάτω παρουσιάζονται οι τύποι υπολογισμού των τεσσάρων μετρικών αξιολόγησης. Accuracy: Προσδιορίζει την αναλογία του αριθμού των σωστών προβλέψεων σε σχέση με το συνολικό αριθμό περιπτώσεων. Accuracy = TP + TN Precision: Είναι η αναλογία των σωστά κατηγοριοποιημένων θετικά περιπτώσεων προς τον συνολικό αριθμό των περιπτώσεων που κατηγοριοποιήθηκαν ως θετικές. (Μετρική ακρίβειας) Precision = N TP TP + FP Recall: Η Ανάκληση είναι η αναλογία των θετικών περιπτώσεων που κατηγοριοποιήθηκαν σωστά, προς τον αριθμό όλων των θετικών περιπτώσεων. (Μετρική ολοκλήρωσης) Recall = TP TP + FN F-measure: Είναι ο αρμονικός μέσος όρος της ακρίβειας και της ανάκλησης. Είναι μια πολύ σημαντική μετρική καθώς δίνει ίδια σημαντικότητα στην ακρίβεια και στην ανάκληση. F Measure = 2 x Precision x Recall Precision + Recall Για την εύρεση του καλύτερου μηχανισμού αυτόματης εξαγωγής συναισθημάτων, σχεδιάζεται ένα μοντέλο συγκριτικής αξιολόγησης των αποτελεσμάτων που εξάγονται από τους παραπάνω κατηγοριοποιητές. Υπάρχουν διάφορες μετρικές για την αξιολόγηση των αποτελεσμάτων κατηγοριοποίησης, όμως πριν την ανάλυσή τους, παρουσιάζονται κάποιοι σημαντικοί όροι οι οποίοι χρησιμοποιούνται τις μετρικές αξιολόγησης. 46

48 Πιο αναλυτικά, True Positive (TP) ο συνολικός αριθμός των θετικών κλάσεων που προβλέφθηκαν σωστά. True Negative (TN) ο συνολικός αριθμός των αρνητικών κλάσεων που προβλέφθηκαν σωστά. False Positive (FP) ο συνολικός αριθμός των θετικών κλάσεων που προβλέφθηκαν λανθασμένα. False Negative (FN) ο συνολικός αριθμός των αρνητικών κλάσεων που προβλέφθηκαν λανθασμένα. True Positive Rate (TPR) τα θετικά που κατηγοριοποιήθηκαν σωστά / συνολικό αριθμό θετικών. False Positive Rate (FPR) τα θετικά που κατηγοριοποιήθηκαν λανθασμένα / συνολικό αριθμό θετικών. Ν Συνολικός αριθμός κατηγοριοποιημένων στιγμιότυπων. Στη μελέτη χρησιμοποιούνται τέσσερις μετρικές αξιολόγησης των αποτελεσμάτων των κατηγοριοποιητών: η Ορθότητα (Accuracy), η Ακρίβεια (Precision), η Ανάκληση (Recall) και η F-Measure. Παρακάτω παρουσιάζονται οι τύποι υπολογισμού των τεσσάρων μετρικών αξιολόγησης. Accuracy: Προσδιορίζει την αναλογία του αριθμού των σωστών προβλέψεων σε σχέση με το συνολικό αριθμό περιπτώσεων. Accuracy = TP+TN N Precision: Είναι η αναλογία των σωστά κατηγοριοποιημένων θετικά περιπτώσεων προς τον συνολικό αριθμό των περιπτώσεων που κατηγοριοποιήθηκαν ως θετικές. (Μετρική ακρίβειας) Precision = TP TP + FP Recall: Η Ανάκληση είναι η αναλογία των θετικών περιπτώσεων που κατηγοριοποιήθηκαν σωστά, προς τον αριθμό όλων των θετικών περιπτώσεων. (Μετρική ολοκλήρωσης) Recall = TP TP + FN F-measure: Είναι ο αρμονικός μέσος όρος της ακρίβειας και της ανάκλησης. Είναι μια πολύ σημαντική μετρική καθώς δίνει ίδια σημαντικότητα στην ακρίβεια και στην ανάκληση. 47

49 F Measure = 2 x Precision x Recall Precision + Recall Έπειτα από την εκπαίδευση των εφτά κατηγοριοποιητών ( C4.5, Random Forest, Random Tree, IBK, Bayes Net, SMO- Poly Kernel και SMO- ABF Kernel) με το διαθέσιμο train set, όπως αυτό διαμορφώθηκε μετά την εκτέλεση των τεχνικών εξόρυξης γνωρισμάτων κειμένου ( Bag Of Words- Frequency, Bag Of Words- Occurrence, Bag Of Words- Tf- Idf), χρησιμοποιείται το Test Set, όπως αυτό είναι διαμορφωμένο από τις ίδιες μεθόδους εξαγωγής γνωρισμάτων κειμένου, για την αξιολόγηση του μοντέλου αυτόματης εξαγωγής συναισθημάτων από πολύγλωσσες διαδικτυακές κριτικές ταινιών. Όπως φαίνεται στο παρακάτω διάγραμμα, κάθε κατηγοριοποιητής δέχεται το Train Set πριν τη διαδικασία της μηχανικής μάθησης. Κατά τη διαδικασία της μηχανικής μάθησης ο εκάστοτε κατηγοριοποιητής χρησιμοποιεί το Train Set για την ανάπτυξη μοντέλων αυτόματης πρόβλεψης γνώμης. Με το πέρας της μηχανικής εκπαίδευσης και την ολοκλήρωση της δημιουργίας των μοντέλων αυτόματης πρόβλεψης ο κατηγοριοποιητής δέχεται ως είσοδο το Test Set στο οποίο εφαρμόζει τον μηχανισμό αυτόματης πρόβλεψης. Η συνολική διαδικασία ολοκληρώνεται με την εξαγωγή των αποτελεσμάτων της κατηγοριοποίησης των κειμένων του Test Set ( θετικά- αρνητικά) συγκρίνοντάς τα με την αρχική τους ταξινόμηση( θετικά- αρνητικά). Από την τελική σύγκριση προκύπτουν τιμές για τις μετρικές αξιολόγησης των κατηγοριοποιητών. Εικόνα 10. Διάγραμμα ροής για το σύστημα εκπαίδευσης και αξιολόγησης συστήματος εξαγωγής απόψεων. 48

50 Αξιοποιώντας τις παραπάνω μετρικές κατασκευάζονται μηχανισμοί αξιολόγησής (α) των κατηγοριοποιητών και (β) των τεχνικών εξαγωγής αναγνωριστικών κειμένων. Πιο αναλυτικά: Αξιολόγηση Κατηγοριοποιητών για κάθε γλωσσικό μοντέλο n-gram: Για έναν κατηγοριοποιητή Ci με i I={ 1 C4.5, 2 Random Forest, 3 Random Tree, 4 Bayes Net, 5 IBK, 6 SMO- Poly Kernel,7 SMO- ABF Kernel } και NI το πλήθος του Ι, με σύνολο εκπαίδευσης Tj με j J ={ 1 Bag Of Words- Frequency, 2 Bag Of Words- Occurrence, 3 Bag Of Words- Tf- Idf } και NJ το πλήθος του J και μέγιστα εξεταζόμενα γνωρίσματα από το Train Set, m με m M = { 100,, 1000 (με βήμα 100), 2000,3000} και ΝΜ το πλήθος του Μ, εξάγονται το Accuracy Ai,j,m, το Precision Pi,j,m, το Recall Ri,j,m και το F-Measure FMi,j,m. Υπολογίζεται η τελική τιμή για όλες τις μετρικές, ως το άθροισμα της μέση τιμής που λαμβάνουν οι μετρικές για όλες τις τιμές του m, για κάθε τεχνική εξαγωγής γνωρισμάτων, δια του πλήθους των τεχνικών. Average Accuracy Ci: AAi AA i = NJ j=1 A i,j,100 + A i,j, A i,j,1000 ΝΜ NJ Average Precision Ci: APi AP i = NJ j=1 P i,j,100 + P i,j, P i,j,1000 ΝΜ NJ Average Recall Ci: ARi AR i = NJ j=1 R i,j,100 + R i,j, R i,j,1000 ΝΜ NJ Average F-Measure Ci: AFMi AFM i = NJ j=1 FM i,j,100 + FM i,j, FM i,j,1000 ΝΜ NJ 49

51 Αξιολόγηση Τεχνικών εξαγωγής γνωρισμάτων κειμένου για κάθε γλωσσικό μοντέλο n-gram: Για μια τεχνική j που εφαρμόζεται σε σύνολο εκπαίδευσης Tj με j J ={ 1 Bag Of Words- Frequency, 2 Bag Of Words- Occurrence, 3 Bag Of Words- Tf- Idf } και NJ το πλήθος του J, με μέγιστα εξεταζόμενα γνωρίσματα από το Train Set, m με m M = { 100,, 1000 (με βήμα 100), 2000,3000} και ΝΜ το πλήθος του Μ, το οποίο προωθείται σε κατηγοριοποιητή Ci με i I={ 1 C4.5, 2 Random Forest, 3 Random Tree, 4 Bayes Net, 5 IBK, 6 SMO- Poly Kernel,7 SMO- ABF Kernel } και NI το πλήθος του Ι, εξάγονται το Accuracy Aj,i,m, το Precision Pj,i,m, το Recall Rj,i,m και το F-Measure FMj,i,m. Υπολογίζεται η τελική τιμή για όλες τις μετρικές, ως το άθροισμα της μέση τιμής που λαμβάνουν οι μετρικές για όλες τις τιμές του m, για κάθε κατηγοριοποίηση δια του πλήθους των κατηγοριοποιητών. Average Accuracy j: AAj AA j = NI i=1 A j,i,100 + A j,i, A j,i,1000 ΝΜ NI Average Precision j: APj AP j = NI i=1 P j,i,100 + P j,i, P j,i,1000 ΝΜ NI Average Recall j: ARj AR j = NI i=1 R j,i,100 + R j,i, R j,i,1000 ΝΜ NI Average F-Measure j: AFMj AFM j = NI i=1 FM j,i,100 + FM j,i, FM j,i,1000 ΝΜ NI 50

52 3.7. Μέθοδος Σύντηξης Κατηγοριοποιητών Στο τελικό στάδιο της μελέτης επιλέγονται οι κατηγοριοποιητές και οι τεχνικές εξαγωγής γνωρισμάτων από το σύνολο εκπαίδευσης των διαδικτυακών κριτικών, με τις καλύτερες τιμές, για την ανάπτυξη ενός μοντέλου σύντηξης με στόχο την εξαγωγή των βέλτιστων τιμών για τις εξεταζόμενες μετρικές. Πιο συγκεκριμένα, υλοποιείται ένα σύστημα συνολικής μάθησης για τους κατηγοριοποιητές με τα καλύτερα αποτελέσματα για το οποίο χρησιμοποιείται Train Set που έχει προκύψει από την εφαρμογή των τεχνικών με τα καλύτερα αποτελέσματα στο αρχικό Train Set. Παρακάτω παρουσιάζεται σχηματικά η σύντηξη των κατηγοριοποιητών: Εικόνα 11. Διάγραμμα σύντηξης κατηγοριοποιητών. 51

53 Κεφάλαιο 4: Εργαλεία Μετά την ανάλυση της μεθοδολογίας που αναπτύσσεται στην έρευνα, παρουσιάζονται τα εργαλεία που χρησιμοποιήθηκαν για την κατασκευή του συνολικού συστήματος αυτόματης εξόρυξης απόψεων από πολύγλωσσες διαδικτυακές κριτικές ταινιών Γλώσσες Προγραμματισμού Για την υλοποίηση του συστήματος και την διεξαγωγή πειραματικών εργασιών αξιολόγησης, χρησιμοποιήθηκαν δυο γλώσσες προγραμματισμού: η Python 3.5 με περιβάλλον προγραμματισμού το Enthought Canopy και η Java 1.8 σε περιβάλλον NetBeans IDE 8.1 H Python 3.5 είναι αυτή που επιλέχθηκε για: την προ επεξεργασία των αρχικών συνόλων δεδομένων, για τη υλοποίηση εργαλείων εξαγωγής των κατάλληλων γνωρισμάτων από τις διαθέσιμες κριτικές αλλά για την εφαρμογή των εργαλείων στα επεξεργασμένα σύνολα δεδομένων και την εξαγωγή των συνόλων εκπαίδευσης και αξιολόγησης των κατηγοριοποιητών Η επιλογή της συγκεκριμένης γλώσσας για τις παραπάνω δραστηριότητες, έγινε καθώς ο κώδικας της Python είναι εύκολα αναγνώσιμος σε περίπτωση μελλοντική προσπάθειας βελτίωσης και επέκτασης του συστήματος. Επίσης η Python διαθέτει άριστη λειτουργικότητα για επεξεργασία γλωσσικών δεδομένων. Η σημασιολογία και το συντακτικό της είναι διαφανείς και παρουσιάζει πολύ καλή λειτουργικότητα ως προς το χειρισμό χαρακτηριστικών κειμένου (λέξεις, χαρακτήρες κτλ.). Αξίζει να αναφερθεί ότι υπάρχει στην Python το εργαλείο NTLK (Natural Language Toolkit) το οποίο περιλαμβάνει ήδη υλοποιημένα εργαλεία για επεξεργασία φυσικής γλώσσας και χρησιμοποιείται ευρύτατα ως ερευνητικό εργαλείο στο πεδίο της υπολογιστικής γλωσσολογίας. Η αναζήτηση για την γλώσσα προγραμματισμού Python και την επεξεργασία φυσικής γλώσσας οδήγησε στο Enthought Canopy, το οποίο είναι ένα περιβάλλον που περιέχει ενσωματωμένα τα εργαλεία NumPy, SciPy, and matplotlib καθώς και το Scikit-learn που είναι απαραίτητα για την επεξεργασία κειμένων και την αναπαράσταση κειμένων σε πίνακες και διανυσματικές μορφές. Εικόνα 12. Αρχικό Menu Canopy. Εικόνα 13. Package Manager Canopy. 52

54 Εικόνα 14. Editor Command line Canopy. H Java επιλέχθηκε για τη χρήση των εργαλείων κατηγοριοποίησης που προσφέρονται από το πακέτο λογισμικού εξόρυξης δεδομένων Weka, που αναλύεται σε παρακάτω ενότητα. Το Weka είναι υλοποιημένο σε Java και γι αυτό τον λόγο η υλοποίηση εργαλείων σε Java είναι όχι μόνο πιο γρήγορη, από άποψη προγραμματισμού αλλά και πιο αποδοτική καθώς τα ίδια εργαλεία υλοποιημένα σε Java έχουν καλύτερη απόκριση από το Weka σε σχέση με τα αυτά που είναι υλοποιημένα σε Python. Εικόνα 15. NetBeans Βιβλιοθήκες του Weka. Και στις δυο γλώσσες υλοποιήθηκαν εργαλεία επικοινωνίας με το κεντρικό σύστημα διαχείρισης βάσεων δεδομένων της μελέτης, για ανάκτηση, αποθήκευση και διαχείριση δεδομένων και αποτελεσμάτων. 53

55 Εικόνα 16. NetBeans Μέθοδοι διαχείρισης κατηγοριοποιητών του Weka Σύστημα Διαχείρισης Βάσεων Δεδομένων Για την αποθήκευση και την αυτόματη επεξεργασία και ανάκτηση των αρχικών δεδομένων αλλά και αυτών που προκύπτουν από την εφαρμογή των εργαλείων που υλοποιούνται κατά την εκπόνηση της μελέτης, χρησιμοποιείται η MySql (Maria DB), ως το κεντρικό Σύστημα διαχείρισης Βάσεων Δεδομένων του συστήματος. Η My Sql είναι ένα σύστημα διαχείρισης σχεσιακών βάσεων δεδομένων, το οποίο τρέχει σε έναν Server (Apache Server για τη μελέτη με χρήση Xampp), παρέχοντας πρόσβαση πολλών χρηστών σε ένα σύνολο βάσεων δεδομένων. Εικόνα 17. Xampp Control Panel. 54

56 Εικόνα 18. Διαχειριστικό Περιβάλλον του Server. Εικόνα 19. Διαχειριστικό Περιβάλλον του συστήματος Διαχείρισης Βάσεων Δεδομένων MySql 4.3. Πακέτο λογισμικού εξόρυξης δεδομένων - WEKA Από τα διαθέσιμα πακέτα λογισμικού εξόρυξης δεδομένων (data mining), το Weka είναι αυτό που τελικά επιλέχθηκε ως περιβάλλον εργασίας. Το WEKA (Waikato Environment for Knowledge Analysis) είναι ένα πρόγραμμα ανάπτυξης εφαρμογών μηχανικής μάθησης και εξόρυξης γνώσης από δεδομένα (data mining), το οποίο αναπτύχθηκε στο τμήμα Επιστήμης Υπολογιστών του Πανεπιστημίου του Waikato της Νέας Ζηλανδίας. 55

57 Πρόκειται για πακέτο λογισμικού ανοιχτού κώδικα υλοποιημένο σε Java, και χρησιμοποιείται ευρέως τόσο για ερευνητικούς και εκπαιδευτικούς λόγους όσο και για εφαρμογές που σχετίζονται με τον τομέα της εξόρυξης δεδομένων. Παρέχει μια ολοκληρωμένη συλλογή από υλοποιήσεις αλγορίθμων γνωστές μεθόδους φιλτραρίσματος, επιλογής χαρακτηριστικών, ταξινόμησης, εύρεσης κανόνων συσχέτισης (association), κατηγοριοποίησης (categorization) και ομαδοποίησης (clustering), καθώς και μηχανισμούς για προ-επεξεργασία δεδομένων (preprocessing) και μετέπειτα επεξεργασία αποτελεσμάτων (post-processing). Το λογισμικό του WEKA παρουσιάζεται σε διάφορες εκδόσεις, καθώς αναπτύσσεται συνεχώς Οι ρουτίνες είναι υλοποιημένες σαν classes και ταξινομημένες σε packages, ενώ περιέχεται και ένα αναλυτικό γραφικό περιβάλλον (GUI Interface). Οι χρήστες έχουν τη δυνατότητα να χρησιμοποιήσουν τις υλοποιήσεις τον αλγορίθμων τόσο από τη γραμμή εντολών όσο και από το γραφικό περιβάλλον του WEKA, ενώ οι προγραμματιστές έχουν τη δυνατότητα να χρησιμοποιούν τις υλοποιήσεις αυτές καλώντας τις αντίστοιχες κλάσεις του WEKA από τα δικά τους προγράμματα. Έτσι, το WEKA μπορεί κάλλιστα να αποτελέσει μια βιβλιοθήκη υλοποιήσεων αλγορίθμων εξόρυξης δεδομένων, οι κλάσεις της οποίας μπορούν να χρησιμοποιούνται για τη δημιουργία νέων προγραμμάτων. Όσον αφορά στη μορφή των δεδομένων, το WEKA χρησιμοποιεί flat text files (αρχεία τα οποία περιέχουν εγγραφές, στα οποία κάθε εγγραφή περιγράφεται σε μία μόνο γραμμή, τα δε πεδία των εγγραφών έχουν σταθερό πλάτος και χωρίζονται με κενά) για την περιγραφή των δεδομένων. Η είσοδος στο WEKA δίνεται ως σύνολο δεδομένων (data set), μέσω διαφόρων μορφών αρχείων όπως CSV (comma separated values: *.csv), binary serialized instances (*.bsi) κ.α., με προτιμότερη και πιο εξυπηρετική τη μορφή ARFF (*.arff) η οποία παράγεται μάλιστα από το ίδιο το WEKA. Τα δεδομένα μπορούν επίσης να διαβαστούν και από μία ηλεκτρονική διεύθυνση ή από μια βάση δεδομένων (με χρήση JDBC). Ένα data set αρχείου.arff θα έμοιαζε κάπως class NUMERIC NUMERIC NUMERIC NUMERIC NUMERIC {positive, 1,0,1,1,0,positive 0,1,0,0,1,negative... Η διαδικασία δημιουργίας μοντέλου κατηγοριοποίησης και αξιολόγησής του με τη χρήση του Weka γίνεται σε τρία στάδια. Στο πρώτο στάδιο ο χρήστης, μέσω του Weka Explorer επιλέγει το αρχείο δεδομένων εκπαίδευσης, το οποίο συνήθως είναι της μορφής *.arff ή *.csv. 56

58 Εικόνα 20. Αρχικό Menu του WEKA Εικόνα 21. WEKA Explorer Εικόνα 22. WEKA Explorer αρχείο arff Στη συνέχεια επιλέγεται η καρτέλα Classify και στο πεδίο Classifier Choose, δίνεται η δυνατότητα επιλογής του επιθυμητού κατηγοριοποιητή. 57

59 Εικόνα 23. WEKA Επιλογή κατηγοριοποιητή για εκπαίδευση Έπειτα από την επιλογή κατηγοριοποιητή, δίνεται η δυνατότητα επιλογής τρόπου αξιολόγησης: Εικόνα 24. WEKA Επιλογή παραμέτρων αξιολόγησης Τέλος με το Start, ξεκινάει η κατηγοριοποίηση και τα αποτελέσματα εμφανίζονται στην οθόνη Classifier Output : Εικόνα 25. WEKA Αποτελέσματα εκπαίδευσης κατηγοριοποιητή 58

60 Κεφάλαιο 5: Ανάπτυξη Συστήματος Υλοποίηση Πειραμάτων Σε αυτό το κεφάλαιο παρουσιάζεται αναλυτικά η αρχιτεκτονική του συστήματος που υλοποιείται στην εργασία, τα βήματα υλοποίησης καθώς και η πειραματική διαδικασία που ακολουθήθηκε Αρχιτεκτονική Συστήματος Το σύστημα αποτελείται από τέσσερα επιμέρους υποσυστήματα, τα οποία συνδέονται μεταξύ τους ως προς την ανταλλαγή πληροφοριών μέσω ενός συστήματος βάσεων δεδομένων. Τα βασικά υποσυστήματα της μελέτης είναι: Υποσύστημα προ επεξεργασίας των αρχικών συνόλων διαδικτυακών κριτικών. Υποσύστημα εφαρμογής τεχνικών εξαγωγής αναγνωριστικών κειμένου. Υποσύστημα επεξεργασίας αποτελεσμάτων των τεχνικών εξόρυξης αναγνωριστικών. Υποσύστημα εκπαίδευσης κατηγοριοποιητών και ανάκτησης αποτελεσμάτων. Σύστημα διαχείρισης βάσης δεδομένων. Σχηματικά παρουσιάζεται η αρχιτεκτονική του συστήματος στην Εικόνα 17. Εικόνα 26. Αρχιτεκτονική Συστήματος Αυτόματης Εξαγωγής Απόψεων από πολύγλωσσα σύνολα διαδικτυακών κριτικών ταινιών 59

61 Αναλύοντας το διάγραμμα της Εικόνας 17., το σύστημα δέχεται τρία διαφορετικά σύνολα δεδομένων διαδικτυακών κριτικών ταινιών, ένα με Αγγλικές κριτικές, ένα με Ισπανικές κριτικές και ένα με Τούρκικες κριτικές. Για να έχουν ομοιομορφία τα δεδομένα και να αποτελέσουν ένα γενικό σύνολο κριτικών ταινιών προς επεξεργασία, ανεξαρτήτως του συνόλου από το οποίο προέρχονται, χρησιμοποιούνται εργαλεία προ επεξεργασίας, ξεχωριστά για κάθε αρχικό σύνολο. Τα αποτελέσματα της προ επεξεργασίας αποθηκεύονται ως αρχεία στο File System του υπολογιστικού συστήματος, αλλά και στη Βάση Δεδομένων - ΒΔ. Στη συνέχεια το σύστημα εξαγωγής αναγνωριστικών κειμένου, ανακτά τα δεδομένα από τη ΒΔ, και εφαρμόζει τεχνικές εξαγωγής γνωρισμάτων και στα δεδομένα που ανήκουν στο Train Set και σε αυτά που ανήκουν στο Test Set. Έπειτα από την εφαρμογή κάθε μίας τεχνικής τα παράγονται αρχεία CSV τα οποία περιέχουν τιμές εξαρτώμενες από το ποια τεχνική εφαρμόστηκε σε ποιο σύνολο. Τα CSV αρχεία αποθηκεύονται στο File System και το μονοπάτι (path) στο οποίο βρίσκονται, αποθηκεύεται στη ΒΔ. Για τη διαδικασία της εκπαίδευσης των κατηγοριοποιητών, είναι απαραίτητο τόσο τα δεδομένα εκπαίδευσης όσο και αυτά της αξιολόγησης, να έχουν μορφή που να είναι επεξεργάσιμη και εκμεταλλεύσιμη από τους κατηγοριοποιητές. Για αυτό το λόγο, το σύστημα κανονικοποίησης των αρχείων εκπαίδευσης και αξιολόγησης, ανακτά τα CSV αρχεία από τη ΒΔ και εφαρμόζει μηχανισμούς κανονικοποίησης ώστε να αφαιρεθούν πληροφορίες που δεν χρησιμεύουν στην κατηγοριοποίηση. Τα CSV αρχεία μετατρέπονται σε *.arff (μορφή αρχείων επεξεργάσιμων από το Weka), τα οποία στην συνέχεια αποθηκεύονται στο File System και στη ΒΔ. Τέλος στο στάδιο της εκπαίδευσης των κατηγοριοποιητών και της αξιολόγησης των αποτελεσμάτων, το σύστημα εκπαίδευσης και αξιολόγησης, λαμβάνει τα *.arff αρχεία που αντιστοιχούν στο Train Set και τα προωθεί στους κατηγοριοποιητές για εκπαίδευση, ενώ παράλληλα τους τροφοδοτεί με τα *.arff αρχεία που αντιστοιχούν στο Test Set, για την άμεση αξιολόγηση της εκπαίδευσης. Τα αποτελέσματα της συνολικής διαδικασίας αποθηκεύονται στη ΒΔ Σύστημα Διαχείρισης Βάσης Δεδομένων Το πλήθος των κειμένων με κριτικές ταινιών (8.548) και ο αριθμός των συνδυασμών των τεχνικών εξόρυξης γνωρισμάτων {3 (πλήθος τεχνικών εξόρυξης γνωρισμάτων) * 10 (οι διακριτές τιμές των μέγιστων εξεταζόμενων αναγνωριστικών ανά τεχνική) * 7 (αλγόριθμοι μηχανικής μάθησης) * 4 σύνολα (πολύγλωσσο, αγγλικό, ισπανικό, τούρκικο) 840 συνδυασμοί} επιβάλλουν την χρήση συστήματος διαχείρισης δεδομένων. Για την εργασία υλοποιείται μια Βάση Δεδομένων σε MySQL, για την αποθήκευση πληροφοριών για τα κείμενα (επεξεργασμένα και μη), για τις μεθόδου εξόρυξης γνωρισμάτων, για τους κατηγοριοποιητές και για τα τελικά αποτελέσματα. Όλες οι παραπάνω πληροφορίες μπορούν να ανακτηθούν αυτόματα από όλα τα υποσυστήματα της έρευνας. Η βάση δεδομένων αποτελείται από εννέα πίνακες, για τη διαχείριση όλων των παραπάνω πληροφοριών. Παρακάτω παρουσιάζονται οι πίνακες με την χρησιμότητά τους στο σύστημα: 60

62 Πίνακας Data: Εδώ αποθηκεύονται πληροφορίες για όλα τα αρχεία (file path κατάσταση κτλ) δεδομένων που χρησιμοποιούνται στο σύστημα. Πεδία πίνακα Data: Id_data : το κλειδί του πίνακα Data file path: το μονοπάτι στο οποίο είναι αποθηκευμένο το αρχείο status_id : ξένο κλειδί στον πίνακα Status που προσδιορίζει την κατάσταση του αρχείου (οι καταστάσεις αναλύονται στον πίνακα Status). file_from : αναδρομική σχέση που προσδιορίζει το αρχείο από το οποίο προήλθε το εκάστοτε αρχείο (αρχείο πατέρας) ftt_mf_id : προσδιορίζει από ποιο συνδυασμό τεχνικών εξόρυξης γνωρισμάτων και μέγιστων εξεταστέων αναγνωριστικών προέρχεται το αρχείο. Πίνακας Status: Ο πίνακας έχει πληροφορίες για την κατάσταση των αρχείων ανάλογα με το στάδιο στο οποίο βρίσκεται η επεξεργασία τους. Λαμβάνει τέσσερις τιμές (γνήσια δεδομένα, δεδομένα μετά από προεργασία, δεδομένα μετά από εξαγωγή γνωρισμάτων και δεδομένα για κατηγοριοποιητές. Πεδία πίνακα Status : id_status: κλειδί του πίνακα Status. desc_status : περιγραφή κατάστασης. Πίνακας FeatureTextExtrTechs: Περιλαμβάνει πληροφορίες για τις τεχνικές εξαγωγής αναγνωριστικών κειμένων, που χρησιμοποιούνται στην έρευνα. Πεδία Πίνακα FeatureTextExtrTechs: id_tech: κλειδί του πίνακα FeatureTextExtrTechs Πίνακας MaxFeat: Περιέχει πληροφορίες για τον αριθμό των μέγιστων εξεταζόμενων αναγνωριστικών Πεδία Πίνακα MaxFeat: feat_no: αριθμός αναγνωριστικών κειμένου, κλειδί του πίνακα. Πίνακας FeatTextExtrTechs_ MaxFeat: Αποθηκεύεται η τεχνική εξαγωγής αναγνωριστικών κειμένων με το πλήθος των αναγνωριστικών που εξετάζονται. Πεδία Πίνακα FeatTextExtrTechs_ MaxFeat: id_ftt_mf: κλειδί πίνακα FeatTextExtrTechs_ MaxFeat tech_id : ξένο κλειδί στον πίνακα FeatureTextExtrTechs max_feat: ξένο κλειδί στον πίνακα MaxFeat Πίνακας Classifiers: Περιλαμβάνονται πληροφορίες σχετικά με τους κατηγοριοποιητές που χρησιμοποιούνται στη μελέτη. Πεδία Πίνακα Classifiers: id_classifier: κλειδί του Πίνακα Classifiers desc_ classifier : ονομασία κατηγοριοποιητή 61

63 Κάθε κατηγοριοποιητής χρειάζεται διαφορετικές παραμέτρους για την εκπαίδευσή του. Αυτές αποθηκεύονται στον πίνακα ClassParam σαν αναπαράσταση μίας σχέσης: 1 Classifier- has - N Parameters. Πίνακας ClassParam: αποθηκεύονται πληροφορίες που αφορούν τις παραμέτρους που χρειάζεται ο εκάστοτε κατηγοριοποιητής. Πεδία του Πίνακα ClassParam: id_class_param: κλειδί του πίνακα ClassParam. class_id : ξένο κλειδί στον πίνακα Classifiers parameter: όνομα παραμέτρου param_value: τιμή παραμέτρου Εικόνα 27. Σχεσιακό Διάγραμμα Συστήματος Βάσης Δεδομένων Πίνακας DataClassif: Παρέχει πληροφορίες για τη διαδικασία της κατηγοριοποίησης. Πεδία του Πίνακα DataClassif: id_data_classif: κλειδί του πίνακα DataClassif. data_train_id: ξένο κλειδί στον πίνακα Data (train file). data_test_id: ξένο κλειδί στον πίνακα Data (test file). Class_param_id: ξένο κλειδί στον πίνακα ClassParam. Πίνακας Results: Περιλαμβάνει πληροφορίες για τα αποτελέσματα της αξιολόγησης της κατηγοριοποίησης. Πεδία Πίνακα Results: Id_results: κλειδί του πίνακα Results. data_classif_id: ξένο κλειδί στον πίνακα DataClassif 62

64 accuracy: Τιμή της μετρικής accuracy που προκύπτει από τη διαδικασία εκπαίδευσης και αξιολόγησης. precision: Τιμή της μετρικής precision που προκύπτει από τη διαδικασία εκπαίδευσης και αξιολόγησης. recall: Τιμή της μετρικής recall που προκύπτει από τη διαδικασία εκπαίδευσης και αξιολόγησης. f_measure: Τιμή της μετρικής f-measure που προκύπτει από τη διαδικασία εκπαίδευσης και αξιολόγησης Συλλογή - Προ επεξεργασία Συνόλου Δεδομένων Καθώς τα κείμενα των κριτικών των ταινιών προέρχονται από διαφορετικές συλλογές δεδομένων και έχουν διαφορετική μορφή, χτίζονται εργαλεία για την επεξεργασία τους με σκοπό τη δημιουργία ενός συνόλου με ομοιόμορφα δεδομένα. Οι βασικοί κανόνες που ακολουθούνται για την προ-επεξεργασία των διαφορετικών αρχείων δεδομένων (μορφή, περιεκτικότητα) είναι οι εξής: Κάθε μία διαδικτυακή κριτική οποιασδήποτε γλώσσας αποθηκεύεται σε ξεχωριστό αρχείο κειμένου μορφής *.txt Η πολικότητα (θετική αρνητική) που αντιστοιχεί εκ των προτέρων σε κάθε κριτική αποθηκεύεται στο όνομα του αρχείου που την περιέχει με την μορφή pos_xxx.txt, για τις θετικές κριτικές και neg_xxx.txt για τις αρνητικές κριτικές. Κάθε συλλογή χωρίζεται σε δύο υποσύνολα, το υποσύνολο εκπαίδευσης και το υποσύνολο αξιολόγησης. Στο πρώτο (train set) αποθηκεύονται το 80% της συνολικής συλλογής κριτικών, εκ των οποίων το 50% έχει προσημειωθεί θετικά και το άλλο 50% αρνητικά. Στο δεύτερο (test set) αποθηκεύονται το υπόλοιπο 20% της συλλογής των κριτικών, εκ των οποίων το 50% έχει προσημειωθεί θετικά και το άλλο 50% αρνητικά. Προκειμένου να ικανοποιηθούν οι παραπάνω κανόνες είναι απαραίτητο να προσδιοριστεί η πολικότητα κάθε κριτικής από το Αγγλικό, Τούρκικο, Ισπανικό σύνολο. Επιπλέον πρέπει να γίνει διακριτή η εκάστοτε κριτική μέσα από το σύνολο στο οποίο ανήκει, ώστε να αποθηκευτεί σε ξεχωριστό αρχείο. Η προ-επεξεργασία των τριών συλλογών γίνεται με ξεχωριστά εργαλεία λόγω της ανομοιομορφίας τους. Προ-επεξεργασία Αγγλικής συλλογής Πηγή Cornel University Department of Computer Science Η αγγλική συλλογή περιλαμβάνει δύο φακέλους (folders) με τις ονομασίες POS και NEG. Ο φάκελος POS περιέχει αρχεία κειμένου (*txt) με κριτικές οι οποίες είναι προ-σημειωμένες ως θετικές. Ο φάκελος NEG περιέχει αρχεία κειμένου (*txt) με 63

65 κριτικές οι οποίες είναι προ-σημειωμένες ως αρνητικές. Και στους δύο φακέλους η ονομασία των αρχείων περιλαμβάνει την πολικότητα των κριτικών, κάτι που ικανοποιεί τους δύο πρώτους βασικούς κανόνες της αρχικής θεώρησης. Προκειμένου να είναι το σύνολο έτοιμο για επεξεργασία διαχωρίζεται σε δύο φακέλους train και test με την αναλογία που περιγράφεται στον τρίτο κανόνα. Προ-επεξεργασία Ισπανικής συλλογής Πηγή University of Seville Στην Ισπανική συλλογή το σύνολο των κριτικών είναι αποθηκευμένο σε ένα φάκελο που περιλαμβάνει αρχεία της μορφής *xml. Κάθε xml αρχείο διαθέτει πληροφορίες (βαθμολογία, κείμενο) για μία μόνο κριτική. Με στόχο να ικανοποιηθούν οι κανόνες της αρχικής θεώρησης, εξάγεται από κάθε xml η βαθμολογία της κάθε κριτικής καθώς και το κείμενό της. Κάθε Ισπανική κριτική είναι εκ των προτέρων βαθμολογημένη με τιμές από 1 έως 5. Οι κριτικές με βαθμολογία ίση ή μεγαλύτερη του 3 θεωρούνται θετικές ενώ οι υπόλοιπες με βαθμολογία κάτω του 3, αρνητικές. Το καθαρό κείμενο (χωρίς σύμβολα μορφοποίησης) και ο προσδιορισμός της πολικότητας αποθηκεύονται σε ένα txt αρχείο με περιεχόμενο το καθαρό κείμενο και ονομασία ανάλογη της αξιολόγησης (POS_xxx.txt ή NEG_xxx.txt, αντίστοιχα). Τέλος, για να ικανοποιηθεί ο τρίτος κανόνας, τα αρχεία κειμένου που προέκυψαν αποθηκεύονται σε φακέλους train και test, με τις αναλογίες που επιβάλλονται από τον κανόνα. Παρακάτω απεικονίζεται η αρχική μορφή των Ισπανικών κειμένων. <?xml version="1.0"?> <review author="torbe" title="la guerra de los mundos" rank="1" maxrank="5" source="muchocine"> <summary>hasta los cojones de los yankis</summary> <body>cada vez me gusta menos el cine de masas. Las peliculas que ven todo el mundo me parecen cada vez mas coñazo y mas insufribles. No se porqué pero siempre el prota es tonto del culo y tiene suerte, y al final de la peli, cuando ha logrado vencer al mal, se convierte en listo, y las chorradas que hacia al comienzo de la pelicula se esfuman como por arte de magia. </body> </review> Αρνητική κριτική Ισπανικά <review author="heitor Pan" title="los Crνmenes de Oxford" rank="4" maxrank="5" source="muchocine"> <summary>aquel que vaya a ver?los crνmenes de Oxford? olvidαndose de quiιn es el director, dispuesto tan solo a dejarse llevar por el juego, disfrutarα un Cluedo de primera categorνa, con giros sorprendentes y personajes deliciosos.</summary> <body> El crimen perfecto no es aquel que queda sin resolver, sino el que se resuelve con un falso culpable.el gran (en varios sentidos) Alex de la Iglesia cambia de registro, de temαtica y de paνs para servirnos un producto de puro entretenimiento, al estilo de las novelas de Dan Brown, con un extraρo crimen relacionado con las matemαticas, unos cuantos sospechosos bastante freaks y unos diαlogos cargados de teorνas conspirativas, visiones pseudo-filosσficas y pinceladas 64

66 de humor marca de la casa.martin (Elijah Word) es un brillante estudiante de matemαticas que vuela desde Amιrica hasta Londres para que el profesor Seldom (John Hurt), una reconocida eminencia, supervise su doctorado. <body> </review> Θετική κριτική Ισπανικά Προ-επεξεργασία Τούρκικης συλλογής Πηγή Eindhoven University Η Τούρκικη συλλογή αποτελείται δύο txt αρχεία με ονομασία POS.txt και NEG.txt αντίστοιχα. Το πρώτο αρχείο περιέχει γραμμές, όπου κάθε γραμμή αντιστοιχεί σε μία θετική κριτική. Το δεύτερο αρχείο περιέχει επίσης γραμμές, όπου κάθε γραμμή αντιστοιχεί σε μία αρνητική κριτική. Από κάθε αρχείο εξάγονται οι κριτικές και αποθηκεύονται σε ξεχωριστά αρχεία με ονομασία που προσδιορίζεται από το αρχικό αρχείο (POS_xxx.txt ή NEG_xxx.txt, αντίστοιχα). Τέλος το σύνολο των αρχείων χωρίζεται σε train και test με βάση την αναλογία του τρίτου κανόνα θεώρησης. Δημιουργία πολύγλωσσης συλλογής Η δημιουργία του πολύγλωσσου συνόλου από διαδικτυακές κριτικές ταινιών βασίζεται στους παρακάτω κανόνες: Να περιλαμβάνει τον ίδιο αριθμό Αγγλικών, Ισπανικών και Τούρκικων κειμένων. Να περιέχει τον ίδιο αριθμό θετικών και αρνητικών κειμένων. Να χωρίζεται σε δύο υποσύνολα, το υποσύνολο εκπαίδευσης και το υποσύνολο αξιολόγησης. Στο πρώτο (train set) αποθηκεύονται το 80% της συνολικής συλλογής κριτικών, εκ των οποίων το 50% έχει προσημειωθεί θετικά και το άλλο 50% αρνητικά. Στο δεύτερο (test set) αποθηκεύονται το υπόλοιπο 20% της συλλογής των κριτικών, εκ των οποίων το 50% έχει προσημειωθεί θετικά και το άλλο 50% αρνητικά. Το σύνολο εκπαίδευσης από την πολύγλωσση συλλογή δημιουργείται με την επιλογή: 1600 Αγγλικών κριτικών, από το αντίστοιχο σύνολο εκπαίδευσης της Αγγλικής συλλογής. (800 θετικές και 800 αρνητικές) 1600 τυχαία επιλεγμένων Ισπανικών κριτικών από το σύνολο εκπαίδευσης της Ισπανικής συλλογής με ποσοστό 50% θετικών και 50% αρνητικών ( 2038 στο σύνολο) (1019 θετικές και 1019 αρνητικές) τυχαία επιλεγμένων Τούρκικων κριτικών από το σύνολο εκπαίδευσης της Τούρκικης συλλογής με ποσοστό 50% θετικών και 50% αρνητικών ( 3200 στο σύνολο) (1600 θετικές και 1600 αρνητικές). 65

67 Αντίστοιχα το σύνολο αξιολόγησης από την πολύγλωσση συλλογή δημιουργείται με την επιλογή: 400 Αγγλικών κριτικών, από το αντίστοιχο σύνολο αξιολόγησης της Αγγλικής συλλογής. (200 θετικές και 200 αρνητικές) 400 τυχαία επιλεγμένων Ισπανικών κριτικών από το σύνολο αξιολόγησης της Ισπανικής συλλογής με ποσοστό 50% θετικών και 50% αρνητικών ( 510 στο σύνολο). (255 θετικές και 255 αρνητικές). 400 τυχαία επιλεγμένων Τούρκικων κριτικών από το σύνολο αξιολόγησης της Τούρκικης συλλογής με ποσοστό 50% θετικών και 50% αρνητικών ( 800 στο σύνολο) (400 θετικές και 400 αρνητικές) Τεχνικές Εξαγωγής Γνωρισμάτων Κειμένου Το σύστημα εξαγωγής αναγνωριστικών κειμένου αποτελείται από τρία βασικά εργαλεία τα οποία αντιστοιχούν στις τρεις βασικές τεχνικές εξαγωγής γνωρισμάτων κειμένου που εξετάζονται στη μελέτη (Bag Of Words- Frequency, Bag Of Words- Occurrence και Bag Of Words-Tf Idf). Το σύστημα αυτό δέχεται ως είσοδο όλο το πολύγλωσσο σύνολο κριτικών όπως αυτό είναι διαμορφωμένο από τα προηγούμενα συστήματα (train set και data set). Τα δεδομένα εισόδου προωθούνται διαδοχικά στα επιμέρους υποσυστήματα, τα οποία με τη σειρά τους εφαρμόζουν τις τεχνικές και εξάγουν δεδομένα εκπαίδευσης και αξιολόγησης των κατηγοριοποιητών. Πιο αναλυτικά το υποσύστημα Bag Of Words- Frequency δέχεται ολόκληρη τη συλλογή ως είσοδο και εξετάζει κάθε κείμενο ξεχωριστά, ώστε να το αναπαραστήσει ως ένα διάνυσμα. Πριν τη δημιουργία του διανύσματος το κείμενο μετατρέπεται σε ένα σύνολο από αναγνωριστικά, τα οποία εξαρτώνται από το γλωσσικό μοντέλο που χρησιμοποιείται κάθε φορά (n-grams). Τα αναγνωριστικά αυτά αποτελούν τη βασική μονάδα εξέτασης για τη δημιουργία του διανύσματος. Το μήκος του διανύσματος εξαρτάται από το μέγιστο αριθμό αναγνωριστικών κειμένων που εξετάζονται κάθε φορά. Στην πρώτη θέση του διανύσματος αποθηκεύεται ένας αύξοντας αριθμός που αντιστοιχεί στη σειρά με την οποία εξετάζεται το κείμενο. Στην τελευταία θέση αποθηκεύεται η πολικότητα που αντιστοιχεί στο κείμενο- κριτική (POS, NEG). Οι ενδιάμεσες τιμές του διανύσματος αντιστοιχούν στη συχνότητα εμφάνισης στο κείμενο των αναγνωριστικών που συναντώνται στη συλλογή. Πρέπει να σημειωθεί ότι, πριν την αναπαράσταση κάθε κειμένου σε διάνυσμα, αφαιρούνται από το κείμενο όλα τα σημεία στίξης και όλα τα κεφαλαία γράμματα μετατρέπονται σε μικρά. Στη συνέχεια το διάνυσμα που παράγεται εισάγεται σε έναν πίνακα ανάλογα με το σύνολο προέλευσης του εξεταζόμενου κειμένου. Το σύστημα εξάγει δύο πίνακες που αποτελούνται από τα διανύσματα αναπαράστασης των κειμένων. Ο ένας πίνακας περιλαμβάνει διανύσματα από τα κείμενα του train set και ο δεύτερος πίνακας περιλαμβάνει διανύσματα από τα κείμενα του test set. Οι εξαγόμενοι πίνακες αποθηκεύονται ως train_xxx.csv και test_xxx.csv στο file system του υπολογιστικού συστήματος σε συγκεκριμένο file path το οποίο αποθηκεύεται στη βάση δεδομένων. 66

68 Το υποσύστημα Bag Of Words- Occurrence δέχεται ολόκληρη τη συλλογή ως είσοδο και εξετάζει κάθε κείμενο ξεχωριστά, ώστε να το αναπαραστήσει ως ένα διάνυσμα. Πριν τη δημιουργία του διανύσματος το κείμενο μετατρέπεται σε ένα σύνολο από αναγνωριστικά, τα οποία εξαρτώνται από το γλωσσικό μοντέλο που χρησιμοποιείται κάθε φορά (n-grams). Τα αναγνωριστικά αυτά αποτελούν τη βασική μονάδα εξέτασης για τη δημιουργία του διανύσματος. Το μήκος του διανύσματος εξαρτάται από τον μέγιστο αριθμό αναγνωριστικών κειμένων που εξετάζονται κάθε φορά. Στην πρώτη θέση του διανύσματος αποθηκεύεται ένας αύξοντας αριθμός που αντιστοιχεί στη σειρά με την οποία εξετάζεται το κείμενο. Στην τελευταία θέση αποθηκεύεται η πολικότητα που αντιστοιχεί στο κείμενο- κριτική (POS, NEG). Οι ενδιάμεσες τιμές του διανύσματος αντιστοιχούν στην απλή εμφάνιση ( τιμές 0,1) στο κείμενο των αναγνωριστικών που συναντώνται στη συλλογή. Στη συνέχεια το διάνυσμα που παράγεται εισάγεται σε έναν πίνακα ανάλογα με το σύνολο προέλευσης του εξεταζόμενου κειμένου. Το σύστημα εξάγει δύο πίνακες που αποτελούνται από τα διανύσματα αναπαράστασης των κειμένων. Ο ένας πίνακας περιλαμβάνει διανύσματα από τα κείμενα του train set και ο δεύτερος πίνακας περιλαμβάνει διανύσματα από τα κείμενα του test set. Οι εξαγόμενοι πίνακες αποθηκεύονται ως train_xxx.csv και test_xxx.csv στο file system του υπολογιστικού συστήματος σε συγκεκριμένο file path το οποίο αποθηκεύεται στη βάση δεδομένων. Το υποσύστημα Bag Of Words-Tf Idf δέχεται ολόκληρη τη συλλογή ως είσοδο και εξετάζει κάθε κείμενο ξεχωριστά, ώστε να το αναπαραστήσει ως ένα διάνυσμα. Πριν τη δημιουργία του διανύσματος το κείμενο μετατρέπεται σε ένα σύνολο από αναγνωριστικά, τα οποία εξαρτώνται από το γλωσσικό μοντέλο που χρησιμοποιείται κάθε φορά (n-grams). Τα αναγνωριστικά αυτά αποτελούν τη βασική μονάδα εξέτασης για τη δημιουργία του διανύσματος. Το μήκος του διανύσματος εξαρτάται από τον μέγιστο αριθμό αναγνωριστικών κειμένων που εξετάζονται κάθε φορά. Στην πρώτη θέση του διανύσματος αποθηκεύεται ένας αύξοντας αριθμός που αντιστοιχεί στη σειρά με την οποία εξετάζεται το κείμενο. Στην τελευταία θέση αποθηκεύεται η πολικότητα που αντιστοιχεί στο κείμενο- κριτική (POS, NEG). Οι ενδιάμεσες τιμές του διανύσματος αντιστοιχούν στο βάρος Tf-Idf της κάθε λέξης του κειμένου. Στη συνέχεια το διάνυσμα που παράγεται εισάγεται σε έναν πίνακα ανάλογα με το σύνολο προέλευσης του εξεταζόμενου κειμένου. Το σύστημα εξάγει δύο πίνακες που αποτελούνται από τα διανύσματα αναπαράστασης των κειμένων. Ο ένας πίνακας περιλαμβάνει διανύσματα από τα κείμενα του train set και ο δεύτερος πίνακας περιλαμβάνει διανύσματα από τα κείμενα του test set. Οι εξαγόμενοι πίνακες αποθηκεύονται ως train_xxx.csv και test_xxx.csv στο file system του υπολογιστικού συστήματος σε συγκεκριμένο file path το οποίο αποθηκεύεται στη βάση δεδομένων. Κάθε csv αρχείο που εξάγεται από τα παραπάνω εργαλεία περιέχει έναν πίνακα με μέγεθος Μx(Ν+2), όπου Μ ο αριθμός των κειμένων της συλλογής από την οποία παράγεται το αρχείο (train ή test), όπου Ν ο αριθμός των αναγνωριστικών που εξετάζονται κάθε φορά, 1 στήλη (στην αρχή του πίνακα) που περιέχει έναν αύξοντα αριθμό και μια στήλη στο τέλος του πίνακα που περιλαμβάνει την πολικότητα της κάθε κριτικής (pos, neg). Για παράδειγμα, ένα csv αρχείο που παράγεται από την επεξεργασία του train set από ένα από τα τρία εργαλεία με 100 αναγνωριστικά εξέτασης έχει μέγεθος Μ x 102,όπου Μ ο αριθμός των κριτικών του Train set. 67

69 Ανάπτυξη εργαλείων εξαγωγής γνωρισμάτων κειμένου Για την ανάπτυξη των τριών υποσυστημάτων χρησιμοποιείται η Python 3.5 στο περιβάλλον Enthought Canopy και οι βιβλιοθήκες scikit-learn οι οποίες παρέχουν συναρτήσεις για εργαλεία μηχανικής μάθησης και για εργαλεία εξόρυξης και ανάλυσης δεδομένων. Η υλοποίηση των συστημάτων εξαγωγής αναγνωριστικών κειμένου και κατασκευής συνόλων χρήσιμων για την διαδικασία της μηχανικής εκπαίδευσης, χρησιμοποιεί μια βασική κλάση, την FeatureExtract(), η οποία αποτελείται από τρεις μεθόδους: την Bows(), την getcorpus() και την ExecBows(). Η μέθοδος getcorpus(): Λαμβάνει ως είσοδο, τα file paths του συνόλου εκπαίδευσης Train Set και του συνόλου αξιολόγησης Test Set. Από τα txt αρχεία του κάθε συνόλου δημιουργεί δυο λεξικά, ένα λεξικό με τα κείμενα από όλα τα αρχεία του Train set και ένα από όλες τις λέξεις του Test set. Τα λεξικά αυτά είναι, στη ουσία, δυο λίστες (μια για κάθε σύνολο), οι οποίες έχουν ως τιμές πίνακες με δυο στήλες. Στη μια στήλη αποθηκεύονται τα κείμενα της συλλογής και στη δεύτερη στήλη η πολικότητά τους. Η πολικότητα κάθε κειμένου που αποθηκεύεται στη λίστα, ανακτάται από την ονομασία του αρχείου που το περιέχει (Pos_xxx.txt ή Neg_xxx.txt). Η μέθοδος Bows(): Δέχεται ως είσοδο τέσσερις παραμέτρους: binaryvar, ngramvara, ngramvarb, maxfeatvar. Η παράμετρος binaryvar λαμβάνει δυο τιμές: True και False. Η τιμή True χρησιμοποιείται στην περίπτωση που η μέθοδος ελέγχει την απλή εμφάνιση αναγνωριστικών κειμένου ενώ η τιμή False χρησιμοποιείται στην περίπτωση που εξετάζεται η συχνότητα εμφάνισης των αναγνωριστικών. Οι παράμετροι ngramvara και ngramvarb λαμβάνουν τιμές από {1, 2, 3} η κάθε μία και χρησιμοποιούνται για το χτίσιμο μου γλωσσικού μοντέλου αναπαράστασης n-gram. Η παράμετρος maxfeatvar αφορά στον μέγιστο αριθμό αναγνωριστικών που εξετάζονται σε κάθε πείραμα. Η Bows() χρησιμοποιεί τη getcorpus ώστε να ανακτήσει τις λίστες που αντιστοιχούν στα κείμενα του Train και του Test Set Με τη χρήση της μεθόδου CountVectorizer ή της μεθόδου TfIdfVectorizer, οι οποίες προέρχεται από τη βιβλιοθήκη sktlearn.*, μετατρέπονται οι λίστες των κειμένων του Train και του test set σε πίνακες της μορφής: 68

70 ΛΕΞΕΙΣ ΣΥΛΛΟΓΗΣ ΕΚΠΑΙΔΕΥΣΗΣ (Train set) Κλάση Κ Ε Ι Μ Ε Ν Α w1 w2.... wd... wn Class K1 V11 V V1d V1N C1 K2 V21 V V2d V2N C Kh Vh1 Vh2.... Vhd VhN Ch KM VM1 VM2.... VMd VMN CN Πίνακας 23. Αναπαράσταση συνόλου εκπαίδευσης, με τις τεχνικές εξαγωγής αναγνωριστικών Αυτοί οι πίνακες αποθηκεύονται σε αρχεία της μορφής csv ενώ το όνομα του εκάστοτε csv αρχείου που δημιουργείται, περιέχει πληροφορίες: για το γλωσσικό μοντέλο αναπαράστασης, για τον μέγιστο αριθμό αναγνωριστικών καθώς και για την μέθοδο που χρησιμοποιήθηκε (συχνότητα, εμφάνιση) για τη δημιουργία του. Η μέθοδος ExecBows(): Εκτελεί την Bows() για όλες τις πιθανές παραμέτρους που απαιτούνται για την δημιουργία δεδομένων για εκπαίδευση και αξιολόγηση των κατηγοριοποιητών. Τα αρχεία train_xxx.csv και test_xxx.csv που προκύπτουν από το παραπάνω σύστημα περιέχουν μια στήλη η οποία δεν προσφέρει καμία πληροφορία στην διαδικασία της εκπαίδευσης. Αυτή η στήλη είναι η αρχική στήλη κάθε CSV και έχει πληροφορία για τον αύξοντα αριθμό επεξεργασίας κάθε κριτικής. Κάθε CSV αρχείο εισάγεται σε ένα εργαλείο κανονικοποίησης το οποίο είναι υλοποιημένο με τη χρήση των βιβλιοθηκών του WEKA: weka.core.converters.arffsaver weka.core.converters.csvloader weka.core.converters.converterutils.datasource weka.filters.filter weka.filters.unsupervised.attribute.remove Το σύστημα κανονικοποίησης των CSV αρχείων, αφαιρεί την πρώτη στήλη με την περιττή πληροφορία και μετατρέπει τα αρχεία σε Arff, ώστε να προωθηθούν στο σύστημα εκπαίδευσης και αξιολόγησης των κατηγοριοποιητών. 69

71 Ανάπτυξη εργαλείου κανονικοποίησης αποτελεσμάτων από τις τεχνικές εξαγωγής γνωρισμάτων κειμένου. Το σύστημα κανονικοποίησης, είναι υλοποιημένο σε Java και αποτελείται από μια βασική κλάση: την DataConverter(), η οποία περιέχει δυο μεθόδους: την Convert() και την RemoveAttribute(). Η μέθοδος Convert() ανακτά τα csv αρχεία που έχουν δημιουργηθεί και με τη χρήση κλάσεων CSVLoader και ArffSaver που παρέχονται από το package weka.core.converters.*, τα μετατρέπει σε αρχεία arff. Η μέθοδος RemoveAttribute() ανακτά τα νέα arff αρχεία και με τη χρήση των κλάσεων Remove() και ArffSaver() που παρέχονται από τα packages weka.filters.* και weka.core.converters.*, αφαιρεί το πρώτο attribute από τα arff αρχεία. Το πρώτο attribute περιέχει το όνομα του εκάστοτε κειμένου, πληροφορία η οποία δεν είναι χρήσιμη για την εκπαίδευση των κατηγοριοποιητών. Τα νέα αρχεία arff έπειτα από την επιβολή του φίλτρου αφαίρεσης του πρώτου attribute, αποθηκεύονται στην Βάση Δεδομένων του συστήματος και στο File System του υπολογιστικού συστήματος Εκπαίδευση Κατηγοριοποιητών Τα αρχεία Arff που προκύπτουν, από την επεξεργασία των αποτελεσμάτων των τεχνικών εξαγωγής γνωρισμάτων, προωθούνται στο σύστημα εκπαίδευσης και αξιολόγησης κατηγοριοποιητών, σε ζεύγη. Πιο συγκεκριμένα ένα αρχείο train_xxx.arff, εισέρχεται στο σύστημα κατηγοριοποίησης μαζί με το αντίστοιχο test_xxx.arff. Κάνοντας χρήση των βιβλιοθηκών : Για την εκπαίδευση: weka.classifiers.trees.j48 weka.classifiers.trees.randomforest weka.classifiers.trees.randomtree weka.classifiers.lazy.ibk; weka.classifiers.bayes.bayesnet; weka.classifiers.functions.supportvector.kernel weka.classifiers.functions.supportvector.polykernel weka.classifiers.functions.supportvector.rbfkernel Για την αξιολόγηση: weka.classifiers.evaluation Το σύστημα εκπαιδεύει του κατηγοριοποιητές με τα train_xxx.arff, και ταυτόχρονα τους τροφοδοτεί με τα test_xxx.arff για να ξεκινήσει η αξιολόγηση. Με το πέρας 70

72 εκπαίδευσης και της αξιολόγησης, λαμβάνει αποτελέσματα, τα οποία τα αποθηκεύει στο σύστημα της Βάσης δεδομένων. Ανάπτυξη εργαλείου εκπαίδευσης και αξιολόγησης κατηγοριοποιητών. Το υποσύστημα εκπαίδευση και αξιολόγησης κατηγοριοποιητών έχει αναπτυχθεί σε Java και χρησιμοποιεί μια βασική κλάση ClassifyTrainTest() οποία καλεί μεθόδους από επτά κλάσεις του συστήματος που αντιστοιχούν στους επτά αλγορίθμους μηχανικής μάθησης του συστήματος: J48Tree(), RandomForestTree(), RandomTreeCl(), BayesNetCl(), IbkCl(), SMOPoly() και SMORbf(). Κάθε μία από τις παραπάνω κλάσεις περιέχει μεθόδους που εκτελούν σου αλγορίθμους μηχανικής μάθησης με είσοδο κάθε arff αρχείο που αντιστοιχεί σε σύνολο εκπαίδευσης. Οι μέθοδοι που εφαρμόζουν τους αλγορίθμου μηχανικής μάθησης στα δεδομένα εκπαίδευσης προέρχονται από το package weka.classifiers.* το οποίο περιέχει κλάσεις που αντιστοιχούν στους αλγορίθμους μάθησης. Για παράδειγμα η κλάση J48Tree() καλεί την κλάση J48() που προέρχεται από το package weka.classifiers.trees.j48 ώστε να υλοποιήσει τον αλγόριθμο μηχανικής μάθησης J48 Tree. Στη συνέχεια όλες οι κλάσεις εκτελούν μεθόδους αξιολόγησης των αποτελεσμάτων της εκπαίδευσης των αντίστοιχων κατηγοριοποιητών, που υπάρχουν στο package weka.classifiers.evaluation. Τέλος τα αποτελέσματα που εξάγονται από την εκτέλεση των μεθόδων αξιολόγησης, εισέρχονται στη Βάση Δεδομένων του συστήματος. 71

73 Κεφάλαιο 6: Αποτελέσματα 6.1. Αποτελέσματα βάση Αλγορίθμου Κατηγοριοποίησης Η παρουσίαση των αποτελεσμάτων με βάση τους αλγορίθμους κατηγοριοποίησης, γίνεται σε δυο φάσεις. Στην πρώτη, παρατίθενται οι μέσοι όροι των τιμών που έχουν προκύψει από τα πειράματα, με βάση των εκάστοτε αλγόριθμο κατηγοριοποίησης. Στη δεύτερη φάση, παρουσιάζονται οι καλύτερες τιμές των μετρικών, ανά κατηγοριοποιητή και οι σχετικές παράμετροι που έχουν επηρεάσει την πιθανή απόκλιση από τους μέσους όρους. Στον παρακάτω πίνακα παρουσιάζονται οι μέσοι όροι των μετρικών αξιολόγησης της διαδικασίας κατηγοριοποίησης βάση των αλγορίθμων που χρησιμοποιούνται. Πίνακας 24. Μέσες τιμές των μετρικών για όλους τους αλγορίθμους Οι μέσες τιμές των μετρικών για όλους τους αλγορίθμους υπολογίζονται ανεξάρτητα από τις τεχνικές εξαγωγής γνωρισμάτων, από τα μοντέλα αναπαράστασης και από τον μέγιστο αριθμό αναγνωριστικών που εξετάζονται. Στον Πίνακα 24, φαίνεται ότι ο SMO με RBF Kernel επιτυγχάνει την καλύτερη μέση τιμή στο Accuracy με 61,1 %, ενώ ο SMO με Poly Kernel επιτυγχάνει την καλύτερη μέση τιμή στις υπόλοιπες μετρικές με 0,576 Precision, 0,574 Recall και 0,572 F-Measure. Στη συνέχεια γίνεται παραβολή των Μέσων όρων των μετρικών σε σχέση με τους κατηγοριοποιητές που χρησιμοποιήθηκαν, εξετάζοντας κάθε φορά διαφορετικές παραμέτρους (μέθοδο εξαγωγής γνωρισμάτων, γλωσσικό μοντέλο αναπαράστασης και μέγιστο αριθμό αναγνωριστικών). Πιο αναλυτικά, παρουσιάζονται μετρήσεις που αφορούν: Το μέσο όρο των τιμών Accuracy, Precision, Recall και F-Measure, για κάθε αλγόριθμο μάθησης, ανάλογα με την μέθοδο εξαγωγής γνωρισμάτων κειμένου. Στη συγκεκριμένη μέτρηση απεικονίζεται ο τρόπος με τον οποίο επηρεάζονται οι τιμές των μετρικών για κάθε αλγόριθμο, σε σχέση μόνο με τις τεχνικές εξόρυξης γνωρισμάτων, ανεξάρτητα από τα μοντέλα αναπαράσταση και τον μέγιστο αριθμό αναγνωριστικών που χρησιμοποιούνται σε κάθε μέτρηση. 72

74 Πίνακας 25. Μέσες τιμές των μετρικών για όλους τους αλγορίθμους σε σχέση με τις τεχνικές εξαγωγής αναγνωριστικών SMO RBFKERNEL-BOWS - TFIDF SMO RBFKERNEL-BOWS - OCCURRENCE SMO RBFKERNEL-BOWS - FREQUENCY SMO POLYKERNEL-BOWS - TFIDF SMO POLYKERNEL-BOWS - OCCURRENCE SMO POLYKERNEL-BOWS - FREQUENCY RANDOM TREE-BOWS - TFIDF RANDOM TREE-BOWS - OCCURRENCE RANDOM TREE-BOWS - FREQUENCY RANDOM FOREST-BOWS - TFIDF F-MEASURE RECALL PRECISION ACCURACY RANDOM FOREST-BOWS - OCCURRENCE RANDOM FOREST-BOWS - FREQUENCY J48-BOWS - TFIDF J48-BOWS - OCCURRENCE J48-BOWS - FREQUENCY IBK-BOWS - TFIDF IBK-BOWS - OCCURRENCE IBK-BOWS - FREQUENCY BAYESNET-BOWS - TFIDF BAYESNET-BOWS - OCCURRENCE BAYESNET-BOWS - FREQUENCY 0,400 0,450 0,500 0,550 0,600 0,650 Metric Values Εικόνα 28. Μέσες τιμές των μετρικών για όλους τους αλγορίθμους σε σχέση με τις τεχνικές εξαγωγής αναγνωριστικών 73

75 Στον Πίνακα 25 καθώς και στο αντίστοιχο γράφημα (Εικ. 28), είναι εμφανές ότι οι τιμές των μετρικών για κάθε αλγόριθμο είναι αυξημένες σε σύγκριση με τις μέσες τιμές. Πιο αναλυτικά, παρατηρείται ο SMO με RBF Kernel, έχει μέγιστη τιμή στη μετρική Accuracy, 62,5%, με χρήση τεχνικών Bows Frequency και Bows Occurrence. Επίσης οι τιμές των υπόλοιπων μετρικών του SMO με RBF Kernel είναι αυξημένες κατά 0,3 0,4 σε σχέση με τις μέσες τιμές. Εντυπωσιακή είναι η διαφορά για τον Bayes Net που ενώ η μέση τιμή του Precision ανεξάρτητα από τις υπόλοιπες παραμέτρους, είναι 0,25, η αντίστοιχη μέτρηση σε σύγκριση με τις τεχνικές εξαγωγής γνωρισμάτων, φτάνει στο 0,56. Το ίδιο παρατηρείται και στην μετρική F Measure του Bayes Net που είναι αυξημένη από 0,33 σε 0,57. Οι παραπάνω μετρήσεις αποδεικνύουν την μεγάλη σημασία που έχει η επιλογή μιας τεχνικής εξαγωγής αναγνωριστικών από κείμενα για την διαδικασία της μηχανικής μάθησης και της αυτόματης εξαγωγής απόψεων. Το μέσο όρο των τιμών των μετρικών, για κάθε αλγόριθμο μάθησης, ανάλογα με το γλωσσικό μοντέλο αναπαράστασης που χρησιμοποιείται για τα Train και Test Set. Πίνακας 26. Μέσες τιμές των μετρικών για όλους τους αλγορίθμους σε σχέση με το γλωσσικό μοντέλο αναπαράστασης 74

76 Bayes IBK (k-nearest Neighbor 0,700 0,700 Values 0,600 0,500 0,400 0, Language Model ACCURACY PRECISION RECALL Values 0,600 0,500 0,400 F-MEASURE 0, Language Model ACCURACY PRECISION RECALL F-MEASURE Εικόνα 29 Γράφημα μέσων τιμών αλγορίθμου Bayes σε σχέση με n-gram model Εικόνα 30. Γράφημα μέσων τιμών αλγορίθμου IBK σε σχέση με n-gram model J48 Random Forest 0,700 0,700 Values 0,600 0,500 0,400 0, Language Model ACCURACY PRECISION RECALL F-MEASURE Values 0,600 0,500 0, Language Model ACCURACY PRECISION RECALL F-MEASURE Εικόνα 31. Γράφημα μέσων τιμών αλγορίθμου J48 σε σχέση με n-gram model Εικόνα 32. Γράφημα μέσων τιμών αλγορίθμου Random Forest σε σχέση με n- gram model Random Tree SMO Poly Kernel Values 0,700 0,500 0, Language Model ACCURACY PRECISION RECALL F-MEASURE Values 0,600 0, Language Models ACCURACY PRECISION RECALL F-MEASURE Εικόνα 33. Γράφημα μέσων τιμών αλγορίθμου Random Tree σε σχέση με n- gram model Εικόνα 34. Γράφημα μέσων τιμών αλγορίθμου SMO Poly Kernel σε σχέση με n- gram model SMO Rbf Kernel 0,700 Values 0,600 0,500 0, Language Models ACCURACY PRECISION RECALL F-MEASURE Εικόνα 35. Γράφημα μέσων τιμών αλγορίθμου SMO RBF Kernel σε σχέση με n-gram model 75

77 Στον Πίνακα 26 και στα συνοδευτικά γραφήματα, απεικονίζεται χαρακτηριστικά η σημασία της επιλογής γλωσσικών μοντέλων αναπαράστασης στην περίπτωση εργασιών μηχανικής μάθησης και αυτόματης εξαγωγή απόψεων. Οι τιμές των μετρικών είναι αισθητά ανεβασμένες σε σχέση με το ανεξάρτητο από παραμέτρους, μέσο όρο για τους αλγόριθμους. Πιο αναλυτικά, παρατηρείται ότι η μετρική Accuracy λαμβάνει τιμή έως και 63,6% για τον αλγόριθμο SMO με RBF Kernel ενώ για τον αλγόριθμο Random Forest λαμβάνει έως και 61,1% ενώ η αντίστοιχη μετρική για τον ίδιο αλγόριθμο έχει μέγιστη μέση τιμή 58,8%. Αντίστοιχα οι υπόλοιπες μετρικές παρουσιάζουν αύξηση της τάξης του 0,6-0,8 για όλους τους αλγορίθμους σε σύγκριση με τις μέσες τιμές και αύξηση της τάξης του 0,2-0,4 σε σχέση με τις μέσες τιμές των αλγορίθμων σε αναλογία με τις μεθόδους εξαγωγής αναγνωριστικών. Το μέσο όρο των τιμών των μετρικών, για κάθε αλγόριθμο μάθησης, ανάλογα με τον μέγιστο αριθμό αναγνωριστικών που εξετάζονται σε κάθε περίπτωση. Πίνακας 27. Μέσες τιμές των μετρικών για τον αλγόριθμο Bayes Net σε σχέση με το μέγιστο αριθμό αναγνωριστικών εξέτασης Πίνακας 28. Μέσες τιμές των μετρικών για τον αλγόριθμο IBK σε σχέση με το μέγιστο αριθμό αναγνωριστικών εξέτασης Πίνακας 29. Μέσες τιμές των μετρικών για τον αλγόριθμο J48 σε σχέση με το μέγιστο αριθμό αναγνωριστικών εξέτασης 76

78 Πίνακας 30. Μέσες τιμές των μετρικών για τον αλγόριθμο Random Forest σε σχέση με το μέγιστο αριθμό αναγνωριστικών εξέτασης Πίνακας 31. Μέσες τιμές των μετρικών για τον αλγόριθμο Random Tree σε σχέση με το μέγιστο αριθμό αναγνωριστικών εξέτασης Πίνακας 32. Μέσες τιμές των μετρικών για τον αλγόριθμο SMO Poly Kernel σε σχέση με το μέγιστο αριθμό αναγνωριστικών εξέτασης Πίνακας 33. Μέσες τιμές των μετρικών για τον αλγόριθμο SMO RBF Kernel σε σχέση με το μέγιστο αριθμό αναγνωριστικών εξέτασης Στους Πίνακες 27-33, παρουσιάζονται οι μέσες τιμές των μετρικών για κάθε αλγόριθμο μηχανικής μάθησης σε σχέση με τον αριθμό εξεταζόμενων γνωρισμάτων κειμένου για όλες τις υπόλοιπες παραμέτρους. Σε ορισμένες περιπτώσεις οι τιμές των μετρικών είναι κατά πολύ αυξημένες σε σχέση με τις αρχικές μέσες τιμές. Για παράδειγμα ο SMO με RBF Kernel επιτυγχάνει έως και 64,3% Accuracy στην περίπτωση εξέτασης 2000 αναγνωριστικών, (3% μεγαλύτερο από τη μέση τιμή). Αντίστοιχα επιτυγχάνει 0,642 77

79 Precision, 0,652 Recall και 0,652 F-Measure στην περίπτωση εξέτασης 3000 αναγνωριστικών. Ο Random Forest επιτυγχάνει μέγιστη μέση τιμή Accuracy έως και 62,7% στην περίπτωση εξέτασης 3000 γνωρισμάτων κειμένου, μια αύξηση της τάξεως του 4 % σε σχέση με την αρχική μέση τιμή. Οι υπόλοιπες μετρικές για τον Random Forest παρουσιάζουν αυξημένες τιμές έως και 0,6 σε σχέση με τις αρχικές μέσες τιμές. Η παραβολή όλων των παραπάνω μετρήσεων αποσκοπεί στην απεικόνιση του βαθμού που επηρεάζει κάθε παράγοντας (μέθοδο εξαγωγής γνωρισμάτων, γλωσσικό μοντέλο αναπαράστασης και μέγιστο αριθμό αναγνωριστικών) τα αποτελέσματα του συστήματος. Παρακάτω παρουσιάζονται οι καλύτερες τιμές για τις μετρικές αξιολόγησης ανά κατηγοριοποιητή και οι συνδυασμοί των παραγόντων που οδηγούν σε αυτές. Πίνακας 34. Μέγιστες τιμές Accuracy όλων των αλγορίθμων και ο αντίστοιχος συνδυασμός παραμέτρων Πίνακας 35. Μέγιστες τιμές Precision όλων των αλγορίθμων και ο αντίστοιχος συνδυασμός παραμέτρων 78

80 Πίνακας 36. Μέγιστες τιμές Recall όλων των αλγορίθμων και ο αντίστοιχος συνδυασμός παραμέτρων Πίνακας 37. Μέγιστες τιμές F-Measure όλων των αλγορίθμων και ο αντίστοιχος συνδυασμός παραμέτρων Στους Πίνακες 34-37, παρουσιάζονται οι μέγιστες τιμές που επιτυγχάνονται για όλους του αλγορίθμους μηχανικής μάθησης, σε συνδυασμό με όλες τις παραμέτρους που χρησιμοποιούνται για την διαδικασία εκπαίδευσης και αξιολόγησης των κατηγοριοποιητών. Στον Πίνακα 34, απεικονίζονται οι τιμές του μέγιστου Accuracy που επιτυγχάνεται από όλους τους αλγορίθμους, με καλύτερη τιμή αυτή του SMO με RBF Kernel, η οποία φτάνει στο 69,5% ορθότητα αυτόματης εξαγωγής συναισθήματος από πολύγλωσσες συλλογές διαδικτυακών κριτικών ταινιών. Η τιμή αυτή επιτυγχάνεται με τον συνδυασμό της τεχνικής Bows Occurrence σε συλλογή πολύγλωσσων κριτικών, με γλωσσικό μοντέλο αναπαράστασης Unigram και εξέταση 3000 αναγνωριστικών κειμένου. Πρέπει να σημειωθεί ότι οι έξι από του επτά αλγορίθμους μηχανικής μάθησης, επιτυγχάνουν μέγιστες τιμές για εξέταση 3000 αναγνωριστικών, εκτός από τον IBK (knearest neighbor) που επιτυγχάνει καλύτερες τιμές στην περίπτωση εξέτασης 800 αναγνωριστικών. Οι αλγόριθμοι J48, Random Forest, Bayes Net, SMO Poly Kernel και SMO RBF Kernel, έχουν καλύτερες τιμές για τον συνδυασμό Unigram μοντέλου αναπαράστασης κειμένων και 3000 μέγιστων εξεταζόμενων αναγνωριστικών. Αντίστοιχα ο Random Tree έχει καλύτερες τιμές με τη χρήση Bigram μοντέλου και με την εξέταση 3000 αναγνωριστικών, ενώ ο ΙΒΚ με τη χρήση Uni Bigram μοντέλου σε συνδυασμό με την εξέταση 800 αναγνωριστικών. 79

81 6.2. Συγκριτικά αποτελέσματα βάση τεχνικών εξαγωγής γνωρισμάτων Στον παρακάτω πίνακα παρουσιάζονται οι μέσοι όροι των μετρικών αξιολόγησης της διαδικασίας κατηγοριοποίησης βάση των τεχνικών εξαγωγής γνωρισμάτων που χρησιμοποιούνται. Πίνακας 38. Μέσες τιμές για όλες τις τεχνικές εξαγωγής αναγνωριστικών κειμένου Οι μέσες τιμές των μετρικών για όλες τις τεχνικές εξαγωγής γνωρισμάτων κειμένου υπολογίζονται ανεξάρτητα από τους αλγορίθμους μηχανικής μάθησης, από τα μοντέλα αναπαράστασης και από τον μέγιστο αριθμό αναγνωριστικών που εξετάζονται. Στον Πίνακα 38, φαίνεται ότι δεν υπάρχει μεγάλη μεταβολή στις τιμές των μετρικών ανά τεχνική εξαγωγής γνωρισμάτων, δίχως τον έλεγχο των υπόλοιπων παραμέτρων που χρησιμοποιούνται στα πειράματα μηχανικής μάθησης. Στη συνέχεια γίνεται παραβολή των Μέσων όρων των μετρικών σε σχέση με τις τεχνικές εξαγωγής γνωρισμάτων που χρησιμοποιήθηκαν, εξετάζοντας κάθε φορά διαφορετικές παραμέτρους (γλωσσικό μοντέλο αναπαράστασης και μέγιστο αριθμό αναγνωριστικών οι μέσες τιμές σε σχέση με τους αλγορίθμους κατηγοριοποίησης έχουν ήδη παρουσιαστεί). Πιο αναλυτικά, παρουσιάζονται μετρήσεις που αφορούν: Το μέσο όρο των τιμών των μετρικών, για κάθε για κάθε μέθοδο εξαγωγής γνωρισμάτων, ανάλογα με το γλωσσικό μοντέλο αναπαράστασης που χρησιμοποιείται για τα Train και Test Set. Πίνακας 39. Μέσες τιμές των μετρικών για όλες τις μεθόδους εξαγωγής αναγνωριστικών σε σχέση με το γλωσσικό μοντέλο αναπαράστασης 80

82 Bows - Frequency Bows - Occurrence 0,700 0,700 Values 0,600 0,500 ACCURACY PRECISION Values 0,600 0,500 ACCURACY PRECISION 0, Language Model RECALL F-MEASURE 0, Language Model RECALL F-MEASURE Εικόνα 36. Γράφημα μέσων τιμών τεχνικής Bows-Frequency σε σχέση με n- gram model Εικόνα 37. Γράφημα μέσων τιμών τεχνικής Bows-Occurrence σε σχέση με n- gram model Values 0,700 0,650 0,600 0,550 0,500 0,450 0,400 Bows - Tf Idf Language Model ACCURACY PRECISION RECALL F-MEASURE Εικόνα 38. Γράφημα μέσων τιμών τεχνικής Bows-TfIdf σε σχέση με n-gram model Στον Πίνακα 39 και στα αντίστοιχα γραφήματα (Εικ ), φαίνεται ότι και οι τρεις τεχνικές, Bows-Frequency, Bows-Occurrence και Bows-Tf Idf, επιτυγχάνουν καλύτερες τιμές σε συνδυασμό με το Unigram μοντέλο αναπαράστασης, ανεξάρτητα από τον αλγόριθμο μηχανικής μάθησης και τα εξεταζόμενα αναγνωριστικά. Το μέσο όρο των τιμών των μετρικών, για κάθε για κάθε μέθοδο εξαγωγής γνωρισμάτων, ανάλογα με τον μέγιστο αριθμό αναγνωριστικών που εξετάζονται σε κάθε περίπτωση. Στον Πίνακα 40 και στα αντίστοιχα γραφήματα (Εικ ), φαίνεται ότι και οι τρεις τεχνικές, Bows-Frequency, Bows-Occurrence και Bows-Tf Idf, επιτυγχάνουν καλύτερες τιμές σε συνδυασμό με μέγιστο αριθμό αναγνωριστικών εξέτασης, 3000, ανεξάρτητα από τον αλγόριθμο μηχανικής μάθησης και τον γλωσσικό μοντέλο αναπαράστασης. Η παραβολή όλων των μετρήσεων αποσκοπεί στην απεικόνιση του βαθμού που επηρεάζει κάθε παράγοντας (αλγόριθμος μάθησης, γλωσσικό μοντέλο αναπαράστασης και μέγιστο αριθμό αναγνωριστικών) τα αποτελέσματα του συστήματος. 81

83 Πίνακας 40. Μέσες τιμές των μετρικών για όλες τις μεθόδους εξαγωγής αναγνωριστικών σε σχέση με το μέγιστο αριθμό εξεταζόμενων αναγνωριστικών κειμένου Bows Frequency Values 0,620 0,600 0,580 0,560 0,540 0,520 0,500 0,480 0, Max Features ACCURACY PRECISION RECALL F-MEASURE Εικόνα 39. Γράφημα μέσων τιμών τεχνικής Bows-Frequency σε σχέση με μέγιστο αριθμό αναγνωριστικών 82

84 Values 0,700 0,650 0,600 0,550 0,500 0,450 0,400 Bows Occurrence Max Features ACCURACY PRECISION RECALL F-MEASURE Εικόνα 40. Γράφημα μέσων τιμών τεχνικής Bows-Occurrence σε σχέση με μέγιστο αριθμό αναγνωριστικών 0,700 Bows TfIdf Values 0,600 0,500 0, Max Features ACCURACY PRECISION RECALL F-MEASURE Εικόνα 41. Γράφημα μέσων τιμών τεχνικής Bows-TfIdf σε σχέση με μέγιστο αριθμό αναγνωριστικών Παρακάτω παρουσιάζονται οι καλύτερες τιμές για τις μετρικές αξιολόγησης ανά μέθοδο εξαγωγής αναγνωριστικών από τις κριτικές και οι συνδυασμοί των υπόλοιπων παραγόντων που οδηγούν σε αυτές, έπειτα από την κατηγοριοποίηση του πολύγλωσσου συνόλου. Πίνακας 41. Μέγιστες τιμές Accuracy όλων των τεχνικών εξαγωγής γνωρισμάτων και ο αντίστοιχος συνδυασμός παραμέτρων Πίνακας 42. Μέγιστες τιμές Precision όλων των τεχνικών εξαγωγής γνωρισμάτων και ο αντίστοιχος συνδυασμός παραμέτρων 83

85 Πίνακας 43. Μέγιστες τιμές Recall όλων των τεχνικών εξαγωγής γνωρισμάτων και ο αντίστοιχος συνδυασμός παραμέτρων Πίνακας 44. Μέγιστες τιμές F-Measure όλων των τεχνικών εξαγωγής γνωρισμάτων και ο αντίστοιχος συνδυασμός παραμέτρων Στους Πίνακες 41-44, παρουσιάζονται οι μέγιστες τιμές που επιτυγχάνονται για όλες τις μεθόδους εξαγωγής αναγνωριστικών κειμένου, σε συνδυασμό με όλες τις παραμέτρους που χρησιμοποιούνται για την διαδικασία εκπαίδευσης και αξιολόγησης των κατηγοριοποιητών. Στον Πίνακα 41, απεικονίζονται οι τιμές του μέγιστου Accuracy που επιτυγχάνεται από όλες τις μεθόδους, με καλύτερες τιμές αυτές των Bows-Frequency και Bows- Occurrence, οι οποίες φτάνουν στο 69,5% ορθότητα αυτόματης εξαγωγής συναισθήματος από πολύγλωσσες συλλογές διαδικτυακών κριτικών ταινιών. Οι τιμές αυτές επιτυγχάνεται με τους συνδυασμούς των τεχνικών Bows Occurrence σε συλλογή πολύγλωσσων κριτικών, με γλωσσικό μοντέλο αναπαράστασης Unigram και εξέταση 3000 αναγνωριστικών κειμένου και Bows Frequency σε συλλογή πολύγλωσσων κριτικών, με γλωσσικό μοντέλο αναπαράστασης Unigram και εξέταση 3000 αναγνωριστικών κειμένου. Πρέπει να σημειωθεί ότι και οι τρεις μέθοδοι, επιτυγχάνουν μέγιστες τιμές για εξέταση 3000 αναγνωριστικών με Unigram γλωσσικό μοντέλο αναπαράστασης. 84

86 6.3. Συγκριτικά αποτελέσματα βάση γλωσσικού μοντέλου n- gram Στον παρακάτω πίνακα παρουσιάζονται οι μέσοι όροι των μετρικών αξιολόγησης της διαδικασίας κατηγοριοποίησης ανά γλωσσικό μοντέλο αναπαράστασης: Πίνακας 45. Μέσες τιμές για τα μοντέλα γλωσσικής αναπαράστασης n-gram Οι μέσες τιμές των μετρικών για όλα τα γλωσσικά μοντέλα αναπαράστασης κειμένου υπολογίζονται ανεξάρτητα από τους αλγορίθμους μηχανικής μάθησης, από τις μεθόδους εξαγωγής γνωρισμάτων αναπαράστασης και από τον μέγιστο αριθμό αναγνωριστικών που εξετάζονται. Στον Πίνακα 45, φαίνεται ότι οι καλύτερες μέσες τιμές επιτυγχάνονται με το Unigram γλωσσικό μοντέλο. Ωστόσο οι διαφορές των τιμών ανά γλωσσικό μοντέλο είναι πάρα πολύ μικρές. Στη συνέχεια γίνεται παραβολή των Μέσων όρων των μετρικών σε σχέση με τα γλωσσικά μοντέλα που χρησιμοποιήθηκαν, εξετάζοντας τις παραμέτρους που απέμειναν (μέγιστο αριθμό αναγνωριστικών) καθώς η σχέση των τιμών με τις υπόλοιπες παραμέτρους, έχει απεικονιστεί στις παραπάνω ενότητες. Πιο αναλυτικά, παρουσιάζονται μετρήσεις που αφορούν: Το μέσο όρο των τιμών των μετρικών, για κάθε για κάθε γλωσσικό μοντέλο, ανάλογα με τον μέγιστο αριθμό αναγνωριστικών που εξετάζονται σε κάθε περίπτωση. Πίνακας 46. Μέσες τιμές για Unigram μοντέλο γλωσσικής αναπαράστασης ανάλογα με τον μέγιστο αριθμό εξεταζόμενων γνωρισμάτων 85

87 Πίνακας 47. Μέσες τιμές Uni-Bigram μοντέλου γλωσσικής αναπαράστασης ανάλογα με τον μέγιστο αριθμό εξεταζόμενων γνωρισμάτων Πίνακας 48. Μέσες τιμές Uni-Trigram μοντέλου γλωσσικής αναπαράστασης ανάλογα με τον μέγιστο αριθμό εξεταζόμενων γνωρισμάτων Πίνακας 50. Μέσες τιμές Bigram μοντέλου γλωσσικής αναπαράστασης ανάλογα με τον μέγιστο αριθμό εξεταζόμενων γνωρισμάτων 86

88 Πίνακας 51. Μέσες τιμές Bi-Trigram μοντέλου γλωσσικής αναπαράστασης ανάλογα με τον μέγιστο αριθμό εξεταζόμενων γνωρισμάτων Πίνακας 52. Μέσες τιμές Trigram μοντέλου γλωσσικής αναπαράστασης ανάλογα με τον μέγιστο αριθμό εξεταζόμενων γνωρισμάτων Στους Πίνακες 46-52, φαίνεται ότι οι τιμές των μετρικών αυξάνονται με την αύξηση του αριθμού των γνωρισμάτων εξέτασης για όλα τα γλωσσικά μοντέλα αναπαράστασης εκτός από το Trigram δεν παρουσιάζει αξιοσημείωτες μεταβολές τιμών με την αλλαγή του αριθμού γνωρισμάτων εξέτασης. Η παραβολή όλων των παραπάνω μετρήσεων αποσκοπεί στην απεικόνιση του βαθμού που επηρεάζει κάθε παράγοντας (αλγόριθμος μάθησης, τεχνικές εξαγωγής γνωρισμάτων και μέγιστο αριθμό αναγνωριστικών) τα αποτελέσματα του συστήματος. Παρακάτω παρουσιάζονται οι καλύτερες τιμές για τις μετρικές αξιολόγησης ανά γλωσσικό μοντέλο αναπαράστασης των κειμένων και οι συνδυασμοί των υπόλοιπων παραγόντων που οδηγούν σε αυτές. 87

89 Πίνακας 53. Μέγιστες τιμές Accuracy όλων των n-gram μοντέλων αναπαράστασης και ο αντίστοιχος συνδυασμός παραμέτρων Πίνακας 54. Μέγιστες τιμές Precision όλων των n-gram μοντέλων αναπαράστασης και ο αντίστοιχος συνδυασμός παραμέτρων Πίνακας 55. Μέγιστες τιμές Recall όλων των n-gram μοντέλων αναπαράστασης και ο αντίστοιχος συνδυασμός παραμέτρων 88

90 Πίνακας 56. Μέγιστες τιμές F-Measure όλων των n-gram μοντέλων αναπαράστασης και ο αντίστοιχος συνδυασμός παραμέτρων Στους Πίνακες 53-56, παρουσιάζονται οι μέγιστες τιμές που επιτυγχάνονται για όλα τα γλωσσικά μοντέλα αναπαράστασης κειμένου, σε συνδυασμό με όλες τις παραμέτρους που χρησιμοποιούνται για τη διαδικασία εκπαίδευσης και αξιολόγησης των κατηγοριοποιητών. Στον Πίνακα 53, απεικονίζονται οι τιμές του μέγιστου Accuracy που επιτυγχάνεται από όλα τα n-gram μοντέλα, με καλύτερη τιμή αυτή του Unigram, η οποία φτάνουν στο 69,5% ορθότητα αυτόματης εξαγωγής συναισθήματος από πολύγλωσσες συλλογές διαδικτυακών κριτικών ταινιών. Η τιμή αυτή επιτυγχάνεται με τον συνδυασμό του γλωσσικού μοντέλου αναπαράστασης Unigram, της τεχνικής Bows Occurrence σε συλλογή πολύγλωσσων κριτικών και την εξέταση 3000 αναγνωριστικών κειμένου. Αντίστοιχα το Uni-Bigram μοντέλο παρουσιάζει τα αμέσως καλύτερα αποτελέσματα για εξέταση 1000 αναγνωριστικών κειμένου με τα υπόλοιπα γλωσσικά μοντέλα να επιτυγχάνουν τις καλύτερες τιμές τους σε εξέταση 3000 αναγνωριστικών, με τεχνική Bows Frequency και αλγόριθμο μηχανικής μάθησης τον SMO RBF Kernel. 89

91 6.4. Συγκριτικά αποτελέσματα βάση μέγιστου αριθμού αναγνωριστικών εξέτασης Στον παρακάτω πίνακα παρουσιάζονται οι μέσοι όροι των μετρικών αξιολόγησης της διαδικασίας κατηγοριοποίησης ανά μέγιστο αριθμό αναγνωριστικών εξέτασης: Πίνακας 57. Μέσες τιμές για όλες τις τιμές μέγιστου πλήθους αναγνωριστικών εξέτασης Οι μέσες τιμές των μετρικών για όλες τις τιμές του αριθμού των αναγνωριστικών εξέτασης για κάθε πείραμα, υπολογίζονται ανεξάρτητα από τους αλγορίθμους μηχανικής μάθησης, από τις μεθόδους εξαγωγής γνωρισμάτων αναπαράστασης και από τα γλωσσικά μοντέλα αναπαράστασης. Στον Πίνακα 57, απεικονίζεται η αύξηση των τιμών όλων των μετρικών καθώς αυξάνεται το πλήθος των υπό εξέταση αναγνωριστικών. Η παραβολή των Μέσων όρων των μετρικών σε σχέση με το μέγιστο πλήθος των αναγνωριστικών, εξετάζοντας κάθε φορά διαφορετικές παραμέτρους (αλγόριθμος κατηγοριοποίησης, τεχνικές εξαγωγής γνωρισμάτων και γλωσσικά μοντέλα αναπαράστασης), έχει γίνει στις προηγούμενες ενότητες του κεφαλαίου Παρακάτω παρουσιάζονται οι καλύτερες τιμές για τις μετρικές αξιολόγησης ανά μέγιστο αριθμό αναγνωριστικών εξέτασης και οι συνδυασμοί των παραγόντων που οδηγούν σε αυτές, έπειτα από την κατηγοριοποίηση του πολύγλωσσου συνόλου. 90

92 Πίνακας 58. Μέγιστες τιμές Accuracy για όλες τις τιμές μέγιστου αριθμού γνωρισμάτων παραμέτρων και ο αντίστοιχος συνδυασμός παραμέτρων Πίνακας 59. Μέγιστες τιμές Precision για όλες τις τιμές μέγιστου αριθμού γνωρισμάτων παραμέτρων και ο αντίστοιχος συνδυασμός παραμέτρων 91

93 Πίνακας 60. Μέγιστες τιμές Recall για όλες τις τιμές μέγιστου αριθμού γνωρισμάτων παραμέτρων και ο αντίστοιχος συνδυασμός παραμέτρων Πίνακας 61. Μέγιστες τιμές F-Measure για όλες τις τιμές μέγιστου αριθμού γνωρισμάτων παραμέτρων και ο αντίστοιχος συνδυασμός παραμέτρων 92

94 Στους Πίνακες 58-61, παρουσιάζονται οι μέγιστες τιμές που επιτυγχάνονται για όλες τις τιμές του μέγιστου πλήθους εξεταζόμενων γνωρισμάτων, σε συνδυασμό με όλες τις παραμέτρους που χρησιμοποιούνται για την διαδικασία εκπαίδευσης και αξιολόγησης των κατηγοριοποιητών. Επιβεβαιώνοντας τις μετρήσεις των προηγούμενων ενοτήτων, οι μέγιστες τιμές επιτυγχάνονται για 3000 εξεταζόμενα αναγνωριστικά, με χρήση αλγορίθμου SMO RBF Kernel και μεθόδου Bows Frequency, σε συλλογές κειμένων με Unigram μοντέλο γλωσσικής αναπαράστασης Συγκριτικά αποτελέσματα ανά γλώσσα Στην ενότητα αυτή παρουσιάζονται οι καλύτερες τιμές ανά γλώσσα σε σύγκριση με τις καλύτερες τιμές για το πολύγλωσσο κείμενο. Πίνακας 62. Μέγιστες τιμές Accuracy για όλα τα διαθέσιμα σύνολα διαδικτυακών κριτικών ταινιών Στον Πίνακα 62, απεικονίζονται οι μέγιστες τιμές της μετρικής Accuracy έπειτα από την εφαρμογή του συνολικού συστήματος και στα τέσσερα διαθέσιμα σύνολα: Αγγλικό, Ισπανικό, Τούρκικο και πολύγλωσσο. 93

95 Η μέγιστη τιμή Accuracy για το πολύγλωσσο σύνολο είναι 69,5% και επιτυγχάνεται με τον συνδυασμό της χρήσης του αλγορίθμου SMO RBF Kernel,με την μέθοδο Bows- Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 3000 γνωρισμάτων. Η αντίστοιχη μέγιστη τιμή του Accuracy για το Αγγλικό σύνολο είναι 83,3% και επιτυγχάνεται με την χρήση του αλγορίθμου SMO RBF Kernel,με την μέθοδο Bows-Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 900 αναγνωριστικών. Για το Ισπανικό σύνολο η μέγιστη τιμή Accuracy είναι 65,3%, με χρήση του αλγορίθμου SMO RBF Kernel,με την μέθοδο Bows-Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 700 αναγνωριστικών. Τέλος για το Τούρκικο σύνολο η μέγιστη τιμή Accuracy είναι 76,4% με συνδυασμό του αλγορίθμου SMO Poly Kernel με μέθοδο Bows-TfIdf για μοντέλο γλωσσικής αναπαράστασης Unigram και μέγιστο αριθμό εξεταζόμενων αναγνωριστικών 400. Πίνακας 63. Μέγιστες τιμές Precision για όλα τα διαθέσιμα σύνολα διαδικτυακών κριτικών ταινιών Στον Πίνακα 63, απεικονίζονται οι μέγιστες τιμές της μετρικής Precision έπειτα από την εφαρμογή του συνολικού συστήματος και στα τέσσερα διαθέσιμα σύνολα: Αγγλικό, Ισπανικό, Τούρκικο και πολύγλωσσο. Η μέγιστη τιμή του Precision στην πολύγλωσση συλλογή, είναι 0,698 και επιτυγχάνεται με τον συνδυασμό της χρήσης του αλγορίθμου SMO RBF Kernel,με την 94

96 μέθοδο Bows-Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 3000 γνωρισμάτων. Η αντίστοιχη για την Αγγλική συλλογή είναι 0,833 και επιτυγχάνεται με την χρήση του αλγορίθμου SMO RBF Kernel,με την μέθοδο Bows-Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 900 αναγνωριστικών. Για το Ισπανικό σύνολο η μέγιστη τιμή του Precision είναι 0,751 και επιτυγχάνεται με τον συνδυασμό του αλγορίθμου IBK με μέθοδο εξαγωγής αναγνωριστικών κειμένου, Bows TfIdf για μοντέλο γλωσσικής αναπαράστασης Trigram και μέγιστο αριθμό εξεταζόμενων γνωρισμάτων 800. Τέλος στο Τούρκικο σύνολο η μέγιστη τιμή του Precision είναι 0,764 με συνδυασμό του αλγορίθμου SMO Poly Kernel με μέθοδο Bows-TfIdf για μοντέλο γλωσσικής αναπαράστασης Unigram και μέγιστο αριθμό εξεταζόμενων αναγνωριστικών 400. Πίνακας 64. Μέγιστες τιμές Recall για όλα τα διαθέσιμα σύνολα διαδικτυακών κριτικών ταινιών Στον Πίνακα 64, απεικονίζονται οι μέγιστες τιμές της μετρικής Recall έπειτα από την εφαρμογή του συνολικού συστήματος και στα τέσσερα διαθέσιμα σύνολα: Αγγλικό, Ισπανικό, Τούρκικο και πολύγλωσσο. Η μέγιστη τιμή του Recall στην πολύγλωσση συλλογή, είναι 0,695 και επιτυγχάνεται με τον συνδυασμό της χρήσης του αλγορίθμου SMO RBF Kernel,με την μέθοδο Bows- Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 3000 γνωρισμάτων. Η αντίστοιχη τιμή για την Αγγλική συλλογή είναι 0,833 και επιτυγχάνεται με την χρήση του αλγορίθμου SMO RBF Kernel,με την μέθοδο Bows-Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 900 αναγνωριστικών. Για το Ισπανικό σύνολο η μέγιστη τιμή του Recall είναι 0,653 και επιτυγχάνεται με χρήση του 95

97 αλγορίθμου SMO RBF Kernel, με την μέθοδο Bows-Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 700 αναγνωριστικών Τέλος στο Τούρκικο σύνολο η μέγιστη τιμή του Recall είναι 0,764 με συνδυασμό του αλγορίθμου SMO Poly Kernel με μέθοδο Bows-TfIdf για μοντέλο γλωσσικής αναπαράστασης Unigram και μέγιστο αριθμό εξεταζόμενων αναγνωριστικών 400. Πίνακας 65. Μέγιστες τιμές F-Measure για όλα τα διαθέσιμα σύνολα διαδικτυακών κριτικών ταινιών Στον Πίνακα 65, απεικονίζονται οι μέγιστες τιμές της μετρικής F-Measure έπειτα από την εφαρμογή του συνολικού συστήματος και στα τέσσερα διαθέσιμα σύνολα: Αγγλικό, Ισπανικό, Τούρκικο και πολύγλωσσο. Η μέγιστη τιμή του F-Measure στην πολύγλωσση συλλογή, είναι 0,694 και επιτυγχάνεται με τον συνδυασμό της χρήσης του αλγορίθμου SMO RBF Kernel,με την μέθοδο Bows-Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 3000 γνωρισμάτων. Η αντίστοιχη τιμή για την Αγγλική συλλογή είναι 0,832 και επιτυγχάνεται με την χρήση του αλγορίθμου SMO RBF Kernel,με την μέθοδο Bows-Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 900 αναγνωριστικών. Για το Ισπανικό σύνολο η μέγιστη τιμή του F-Measure είναι 0,652 και επιτυγχάνεται με χρήση του αλγορίθμου SMO RBF Kernel, με την μέθοδο Bows-Occurrence για Unigram μοντέλο αναπαράστασης σε μέγιστο πλήθος 700 αναγνωριστικών Τέλος στο Τούρκικο σύνολο η μέγιστη τιμή του F-Measure είναι 0,764 με συνδυασμό του αλγορίθμου SMO Poly Kernel με μέθοδο Bows-TfIdf για μοντέλο γλωσσικής αναπαράστασης Unigram και μέγιστο αριθμό εξεταζόμενων αναγνωριστικών 400. Με τη συγκριτική ανάλυση των τιμών που λαμβάνουν οι μετρικές αξιολόγησης για τα τέσσερα διαθέσιμα σύνολα, παρατηρείται ότι η απόδοση του συστήματος για την εξαγωγή 96

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής Εξόρυξη γνώσης από σχόλια σε τουριστικές ιστοσελίδες και παραγοντική ανάλυση του αισθήματος ικανοποίησης των πελατών για το ξενοδοχείο τους Γιώργος ταλίδης 1, Παναγιώτης ταλίδης 2, Κώστας Διαμαντάρας 2

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Opinion Mining and Sentiment analysis

Opinion Mining and Sentiment analysis Opinion Mining and Sentiment analysis Τμήμα Μηχανικών Η/Υ και Πληροφορικής επιβλέπων καθηγητής: Μακρής Χρήστος Επισκόπηση και πειραματική αξιολόγηση τεχνικών για opinion mining και sentiment analysis Παναγόπουλος

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Opinion Mining Opinion Mining Συνώνυμο: Sentiment Analysis Ορισμός: Ανάλυση κειμένων που αναφέρονται σε μια οντότητα/αντικείμενο Εντοπισμός

Διαβάστε περισσότερα

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου Τίμος Κουλουμπής Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου Αντικείμενο Εργασίας Εισαγωγή στην Αυτόματη Κατηγοριοποίηση Κειμένου Μεθοδολογίες Συγκριτική Αποτίμηση Συμπεράσματα

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Α.Μ. 123/04 ΕΠΙΒΛΕΠΩΝ: ΣΑΜΑΡΑΣ ΝΙΚΟΛΑΟΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΝΙΟΣ 2007 Περιεχόμενα

Διαβάστε περισσότερα

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ Τι είναι η ερευνητική εργασία Η ερευνητική εργασία στο σχολείο είναι μια δυναμική διαδικασία, ανοιχτή στην αναζήτηση για την κατανόηση του πραγματικού κόσμου.

Διαβάστε περισσότερα

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος. Γλωσσική Τεχνολογία Εισαγωγή 2015 16 Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/in/ Τι θα ακούσετε Εισαγωγή στη γλωσσική τεχνολογία. Ύλη και οργάνωση του μαθήματος. Προαπαιτούμενες γνώσεις και άλλα προτεινόμενα

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΟΜΕΑΣ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ Η/Υ, ΠΛΗΡΟΦΟΡΙΚΗΣ & ΔΙΚΤΥΩΝ Εργ. Τεχνολογίας Λογισμικού & Υπηρεσιών S 2 E Lab Π Τ Υ Χ Ι

Διαβάστε περισσότερα

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Διοίκησης Συστημάτων Εφοδιασμού Μάθημα: Εισαγωγή στην Εφοδιαστική (Εργαστήριο) Ανάλυση του άρθρου με τίτλο: «Intelligent Decision Support Systems» των Stephanie Guerlain,

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS

NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS NATIONAL AND KAPODISTRIAN UNIVERSITY OF ATHENS SCHOOL OF SCIENCE FACULTY OF INFORMATICS AND TELECOMMUNICATIONS INTERDICIPLINARY POSTGRADUATE PROGRAMME "INFORMATION TECHNOLOGIES IN MEDICINE AND BIOLOGY"

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Οδηγός. Σχολιασμού. Διπλωματικής Εργασίας

Οδηγός. Σχολιασμού. Διπλωματικής Εργασίας ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Μεταπτυχιακό Δίπλωμα Ειδίκευσης: «Σπουδές στην Εκπαίδευση» Οδηγός Σχολιασμού Διπλωματικής Εργασίας (βιβλιογραφική σύνθεση) ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: «ΕΞΕΛΙΞΗ ΤΟΥ ΠΑΙΔΙΟΥ ΣΤΟ ΚΟΙΝΩΝΙΚΟ

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: 2012 2013 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Τι είναι η γλωσσική τεχνολογία;

Διαβάστε περισσότερα

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ Σχολή Μηχανικής & Τεχνολογίας Τμήμα Πολιτικών & Μηχανικών Γεωπληροφορικής Μεταπτυχιακή διατριβή ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΑΝΘΡΩΠΙΝΗΣ ΚΙΝΗΣΗΣ ΚΑΙ ΠΟΙΟΤΗΤΑΣ ΖΩΗΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Οδηγός Εκπόνησης Διπλωματικής Εργασίας ΣΠΑΡΤΗ 2010-11 Περιεχόμενα 1.ΔΟΜΗ ΚΑΙ ΠΕΡΙΕΧΟΜΕΝΟ Της ΔΙΠΛΩΜΑΤΙΚΗΣ

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

Opinion Mining and Sentiment Analysis

Opinion Mining and Sentiment Analysis Τμήμα Μηχανικών Η/Υ και Πληροφορικής επιβλέπων: Μακρής Χρήστος, Επίκουρος Καθηγητής Opinion Mining and Sentiment Analysis Επισκόπηση και πειραματική αξιολόγηση τεχνικών για opinion mining και sentiment

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction Information Extraction Μορφή της πληροφορίας Δομημένα δεδομένα Relational Databases (SQL) XML markup Μη-δομημένα δεδομένα

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

AΕΙ ΠΕΙΡΑΙΑ T.T. ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ

AΕΙ ΠΕΙΡΑΙΑ T.T. ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ AΕΙ ΠΕΙΡΑΙΑ T.T. ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ T.E. ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Ανάλυση συναισθήματος σε ελληνικό κείμενο με χρήση αλγόριθμων μηχανικής μάθησης

Διαβάστε περισσότερα

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης Σοφιανόπουλος Σωκράτης Ινστιτούτο Επεξεργασίας του Λόγου Δομή παρουσίασης Τι είναι η Μηχανική Μετάφραση (Machine Translation) Ιστορική αναδρομή Είδη συστημάτων

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ (1) ΓΕΝΙΚΑ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΔΔΜΠΣ «ΑΝΟΡΓΑΝΗ ΒΙΟΛΟΓΙΚΗ ΧΗΜΕΙΑ» ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ 1 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 3 ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ Συνέχιση και Ολοκλήρωση

Διαβάστε περισσότερα

Πτυχιακή διατριβή. Η επίδραση της τασιενεργής ουσίας Ακεταλδεΰδης στη δημιουργία πυρήνων συμπύκνωσης νεφών (CCN) στην ατμόσφαιρα

Πτυχιακή διατριβή. Η επίδραση της τασιενεργής ουσίας Ακεταλδεΰδης στη δημιουργία πυρήνων συμπύκνωσης νεφών (CCN) στην ατμόσφαιρα ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Πτυχιακή διατριβή Η επίδραση της τασιενεργής ουσίας Ακεταλδεΰδης στη δημιουργία πυρήνων συμπύκνωσης νεφών (CCN)

Διαβάστε περισσότερα

Εισαγωγή στις Αρχές της επιστήμης των ΗΥ

Εισαγωγή στις Αρχές της επιστήμης των ΗΥ Εισαγωγή στις Αρχές της επιστήμης των ΗΥ Ερωτήσεις και ασκήσεις για επανάληψη 1. Τι είναι πρόβλημα (σελ 14) 2. Ποιες είναι οι κατηγορίες προβλημάτων με βάση την επίλυση; Δώστε τον ορισμό για κάθε μια κατηγορία.

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 19/2/213 1 ο ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ Αντικείμενο του Μαθήματος 2 Εφαρμογές και εργαλεία ΓλωσσικήςΤεχνολογίας με στόχο τη βελτίωση της πρωτογενούς

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΣΤΡΑΤΗΓΙΚΗ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ Αθανάσιος Νταραβάνογλου Διπλωματική

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet Σημασιολογικά Δίκτυα Ένα δίκτυο που αναπαριστά συσχετίσεις μεταξύ εννοιών. Οι κορυφές παριστάνουν έννοιες και οι ακμές σημασιολογικές

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα ΤµήµαΕφαρµοσµένης Πληροφορικής Πανεπιστήµιο Μακεδονίας Θεσσαλονίκη Ιούνιος 2006 εισαγωγικού µαθήµατος προγραµµατισµού υπολογιστών.

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Επιβλέπων Καθηγητής: Δρ. Νίκος Μίτλεττον Η ΣΧΕΣΗ ΤΟΥ ΜΗΤΡΙΚΟΥ ΘΗΛΑΣΜΟΥ ΜΕ ΤΗΝ ΕΜΦΑΝΙΣΗ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 2 ΣΤΗΝ ΠΑΙΔΙΚΗ ΗΛΙΚΙΑ Ονοματεπώνυμο: Ιωσηφίνα

Διαβάστε περισσότερα

þÿ ÀÌ Ä º± µä À ¹ ¼ ½

þÿ ÀÌ Ä º± µä À ¹ ¼ ½ Neapolis University HEPHAESTUS Repository School of Economic Sciences and Business http://hephaestus.nup.ac.cy Master Degree Thesis 2016 þÿ ÀÌ Ä º± µä À ¹ ¼ ½ þÿµºà±¹ µåä¹ºì ¹ ¹º ĹºÌ ÃÍÃÄ ¼± þÿãä ½ º±Ä±½µ¼

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ Διπλωματική

Διαβάστε περισσότερα

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση Οι συµφράσεις είναι ακολουθίες όρων οι οποίοι συνεµφανίζονται σε κείµενο µε µεγαλύτερη συχνότητα από εκείνη της εµφάνισης

Διαβάστε περισσότερα

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ. Μεταπτυχιακό πρόγραμμα ΑΣΚΗΣΗ ΚΑΙ ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ. Μεταπτυχιακό πρόγραμμα ΑΣΚΗΣΗ ΚΑΙ ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ Μεταπτυχιακό πρόγραμμα ΑΣΚΗΣΗ ΚΑΙ ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ 1. ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ: Θεωρία και εφαρμογές επεξεργασίας πληροφορίας 2.

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ. «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΝΟΣΟΚΟΜΕΙΑΚΟΥ ΠΡΟΣΩΠΙΚΟΥ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ. «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΝΟΣΟΚΟΜΕΙΑΚΟΥ ΠΡΟΣΩΠΙΚΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΝΟΣΟΚΟΜΕΙΑΚΟΥ ΠΡΟΣΩΠΙΚΟΥ Μαστρογιάννη Μαρία Διπλωματική Εργασία υποβληθείσα

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας. ΚΕΦΑΛΑΙΟ 1 Εισαγωγή Η Μεθοδολογία της Έρευνας (research methodology) είναι η επιστήμη που αφορά τη μεθοδολογία πραγματοποίησης μελετών με συστηματικό, επιστημονικό και λογικό τρόπο, με σκοπό την παραγωγή

Διαβάστε περισσότερα

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ ΕΘΝΙΚΟ & ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΑΝΑΓΝΩΣΤΗΡΙΟ Πανεπιστημιούπολη, Κτήρια Πληροφορικής & Τηλεπικοινωνιών 15784 ΑΘΗΝΑ Τηλ.: 210 727 5190, email: library@di.uoa.gr,

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ (1) ΓΕΝΙΚΑ ΣΧΟΛΗ ΠΟΛΥΤΕΧΝΙΚΗ ΤΜΗΜΑ Μηχανικών Οικονομίας και Διοίκησης ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΓΕ0145 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 4ο ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ Εργαστήριο Προγράμματος

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ (1) ΓΕΝΙΚΑ ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΤΜΗΜΑ ΝΑΥΠΗΓΩΝ ΜΗΧΑΝΙΚΩΝ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ ΠΡΟΠΤΥΧΙΑΚΟ ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΝAOME1372 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 10 ο ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΑΥΤΟΤΕΛΕΙΣ ΔΙΔΑΚΤΙΚΕΣ

Διαβάστε περισσότερα

ΝΑΥΤΙΛΙΑΚΟΙ ΚΥΚΛΟΙ ΚΑΙ ΧΡΗΜΑΤΟΔΟΤΗΣΗ ΝΑΥΤΙΛΙΑΚΩΝ ΕΠΕΝΔΥΣΕΩΝ

ΝΑΥΤΙΛΙΑΚΟΙ ΚΥΚΛΟΙ ΚΑΙ ΧΡΗΜΑΤΟΔΟΤΗΣΗ ΝΑΥΤΙΛΙΑΚΩΝ ΕΠΕΝΔΥΣΕΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Σχολή Διοίκησης και Οικονομίας Μεταπτυχιακή διατριβή ΝΑΥΤΙΛΙΑΚΟΙ ΚΥΚΛΟΙ ΚΑΙ ΧΡΗΜΑΤΟΔΟΤΗΣΗ ΝΑΥΤΙΛΙΑΚΩΝ ΕΠΕΝΔΥΣΕΩΝ ΔΗΜΗΤΡΗΣ ΤΡΥΦΩΝΟΣ Λεμεσός, Μάιος 2017 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα.

Διαβάστε περισσότερα

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ

ΑΠΟΓΡΑΦΙΚΟ ΔΕΛΤΙΟ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΤΙΤΛΟΣ ΕΘΝΙΚΟ & ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΑΝΑΓΝΩΣΤΗΡΙΟ Πανεπιστημιούπολη, Κτήρια Πληροφορικής & Τηλεπικοινωνιών 15784 ΑΘΗΝΑ Τηλ.: 210 727 5190, email: library@di.uoa.gr,

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ: Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Ημερίδα παρουσίασης CLARIN-EL 1/10/2010 Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" ΧΑΡΤΟΓΡΑΦΗΣΗ ΧΩΡΟΥ ΓΤ ΓΙΑ ΚΑΕ Στο

Διαβάστε περισσότερα

Το έργο αυτό ( ES01-KA ) συγγραφέα, και η Επιτροπή δεν μπορεί να. θεωρηθεί υπεύθυνη για οποιαδήποτε χρήση. περιέχονται σε αυτήν.

Το έργο αυτό ( ES01-KA ) συγγραφέα, και η Επιτροπή δεν μπορεί να. θεωρηθεί υπεύθυνη για οποιαδήποτε χρήση. περιέχονται σε αυτήν. 2015 Δραστηριότητα 1. Έκθεση του State of the Art σχετικά με υπηρεσίες επαγγελματικού προσανατολισμού και συμβουλευτικής για τους μετανάστες: ανάλυση πλαισίου, ανάγκες και συστάσεις ΠΕΡΙΛΗΨΗ / ΕΛΛΗΝΙΚΑ

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

ΚΑΤΑΣΚΕΥΗ ΠΙΝΑΚΩΝ ΚΑΙ ΣΧΗΜΑΤΩΝ ΣΤΟ ΔΟΚΙΜΙΟ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: Μερικές χρήσιμες(;) υποδείξεις. Βασίλης Παυλόπουλος

ΚΑΤΑΣΚΕΥΗ ΠΙΝΑΚΩΝ ΚΑΙ ΣΧΗΜΑΤΩΝ ΣΤΟ ΔΟΚΙΜΙΟ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: Μερικές χρήσιμες(;) υποδείξεις. Βασίλης Παυλόπουλος ΚΑΤΑΣΚΕΥΗ ΠΙΝΑΚΩΝ ΚΑΙ ΣΧΗΜΑΤΩΝ ΣΤΟ ΔΟΚΙΜΙΟ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: Μερικές χρήσιμες(;) υποδείξεις Βασίλης Παυλόπουλος Διάγραμμα της παρουσίασης Πότε (δεν) χρειάζονται πίνακες και σχήματα σε μια ερευνητική

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΕΥΑΓΓΕΛΙΑΣ Π. ΛΟΥΚΟΓΕΩΡΓΑΚΗ Διπλωματούχου Πολιτικού Μηχανικού ΟΛΟΚΛΗΡΩΜΕΝΟ

Διαβάστε περισσότερα

Υπολογιστικές μέθοδοι για την ανάλυση της πληροφορίας των εικόνων και την κατανόηση του περιεχομένου

Υπολογιστικές μέθοδοι για την ανάλυση της πληροφορίας των εικόνων και την κατανόηση του περιεχομένου Ανάλυση Εικόνων Εικόνα : μορφή πληροφορίας Ανάλυση : εξαγωγή γνώσης Υπολογιστικές μέθοδοι για την ανάλυση της πληροφορίας των εικόνων και την κατανόηση του περιεχομένου Θέματα ειδίκευσης Υπολογιστική Όραση

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ (1) ΓΕΝΙΚΑ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΔΔΜΠΣ «ΑΝΟΡΓΑΝΗ ΒΙΟΛΟΓΙΚΗ ΧΗΜΕΙΑ» ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ 2 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 2 Συλλογή βιβλιογραφικών δεδομένων και Παρουσίαση

Διαβάστε περισσότερα

Τμήμα Επιστημών της Θάλασσας Σύντομες οδηγίες συγγραφής της Πτυχιακής Εργασίας

Τμήμα Επιστημών της Θάλασσας Σύντομες οδηγίες συγγραφής της Πτυχιακής Εργασίας Τμήμα Επιστημών της Θάλασσας Σύντομες οδηγίες συγγραφής της Πτυχιακής Εργασίας Περίληψη (τυπική έκταση: 2-3 παράγραφοι) Η Περίληψη συνοψίζει την εργασία και τα κύρια ευρήματα αυτής με τέτοιον τρόπο, ώστε

Διαβάστε περισσότερα

Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ

Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Διπλωματική Εργασία Μεταπτυχιακού Προγράμματος στην Εφαρμοσμένη Πληροφορική Κατεύθυνση: Συστήματα Υπολογιστών

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΕΠΙΛΥΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΜΕΤΑΔΟΣΗΣ ΣΕ ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ ΜΕ ΣΥΣΚΕΥΕΣ ΔΙΑΚΡΙΤΩΝ ΤΙΜΩΝ ΙΣΧΥΟΣ ΜΕ ΤΗ ΧΡΗΣΗ

Διαβάστε περισσότερα

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος Αναστασιάδης Αντώνιος Τα ιστολόγια σήμερα Διπλωματική Εργασία Η σημασία των πληροφοριών των ιστολόγιων Μέθοδοι κατάτμησης ιστολόγιων Αξιολόγηση κατάτμησης Ταξινόμηση καταχωρήσεων Αξιολόγηση ταξινόμησης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

Πρόγραμμα Μεταπτυχιακών Σπουδών MA in Education (Education Sciences) ΑΣΠΑΙΤΕ-Roehampton ΠΜΣ MA in Education (Education Sciences) Το Μεταπτυχιακό Πρόγραμμα Σπουδών στην Εκπαίδευση (Επιστήμες της Αγωγής),

Διαβάστε περισσότερα

Ανακοίνωση. Ο Πρόεδρος τού Τμήματος Ταμπακάς Βάσίλειος Καθηγητής

Ανακοίνωση. Ο Πρόεδρος τού Τμήματος Ταμπακάς Βάσίλειος Καθηγητής Ανακοίνωση Σχετικά με την ανάθεση των πτυχιακών εργασιών οι φοιτητές πρέπει να έχουν υπόψη τους τα εξής: 1. Για διευκρινήσεις σχετικά με το περιεχόμενο της πτυχιακής εργασίας πρέπει να επικοινωνούν με

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

«Αριθμητική και πειραματική μελέτη της διεπιφάνειας χάλυβασκυροδέματος στις σύμμικτες πλάκες με χαλυβδόφυλλο μορφής»

«Αριθμητική και πειραματική μελέτη της διεπιφάνειας χάλυβασκυροδέματος στις σύμμικτες πλάκες με χαλυβδόφυλλο μορφής» ΠΕΡΙΛΗΨΗ ΤΗΣ ΔΙΔΑΚΤΟΡΙΚΗΣ ΔΙΑΤΡΙΒΗΣ «Αριθμητική και πειραματική μελέτη της διεπιφάνειας χάλυβασκυροδέματος στις σύμμικτες πλάκες με χαλυβδόφυλλο μορφής» του Θεμιστοκλή Τσαλκατίδη, Δρ. Πολιτικού Μηχανικού

Διαβάστε περισσότερα

Συστήματα Πληροφοριών Διοίκησης

Συστήματα Πληροφοριών Διοίκησης ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Συστήματα Πληροφοριών Διοίκησης Ενότητα 2: Γενική θεώρηση και κατάταξη συστημάτων πληροφοριών διοίκησης Διονύσιος Γιαννακόπουλος, Καθηγητής Τμήμα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ 1. ΓΕΝΙΚΑ ΣΧΟΛΗ ΟΙΚΟΝΟΜΙΑΣ ΔΙΟΙΚΗΣΗΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Μεταπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ Επεξεργασία

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Μηχανική Μάθηση Εργασία 2

Μηχανική Μάθηση Εργασία 2 Πανεπιστήμιο Ιωαννίνων Ακαδ. Έτος 2014-15 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Εαρινό Εξάμηνο Παρασκευάς Τσανταρλιώτης Α.Μ. 318 Μηχανική Μάθηση Εργασία 2 Ο κώδικας για τις παρακάτω ασκήσεις είναι διαθέσιμος

Διαβάστε περισσότερα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΟΜΑΔΑ Λ Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τι είναι η βιοπληροφορική; Αποκαλείται ο επιστημονικός κλάδος ο οποίος προέκυψε από

Διαβάστε περισσότερα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Αντικείμενο Μελέτη και ανάπτυξη μεθόδων από τον χώρο της μηχανικής μάθησης για

Διαβάστε περισσότερα

Σύστημα. Αντώνης Μαϊργιώτης

Σύστημα. Αντώνης Μαϊργιώτης Σύστημα Αντώνης Μαϊργιώτης Σε ένα οργανισμό υπάρχουν προβλήματα για λύση Η διεύθυνση του οργανισμού αναθέτει τη λύση στους κατάλληλους ανθρώπους Οι πιο κατάλληλοι άνθρωποι είναι αυτοί που θέλουν τις κατάλληλες

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Ανάλυση ποιοτικών δεδομένων

Ανάλυση ποιοτικών δεδομένων Ανάλυση ποιοτικών δεδομένων Σύνοψη κεφαλαίου Σύνδεση θεωρίας και ανάλυσης Επεξεργασία ποιοτικών δεδομένων Δεοντολογία και ανάλυση ποιοτικών δεδομένων Αξιολογώντας την ποιότητα των ποιοτικών ερευνών Εισαγωγή

Διαβάστε περισσότερα

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ GD2670

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ GD2670 ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ GD2670 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ Έκτο ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ Δομές Δεδομένων και Αλγόριθμοι ΑΥΤΟΤΕΛΕΙΣ ΔΙΔΑΚΤΙΚΕΣ

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας A. Montgomery Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας Καρολίνα Δουλουγέρη, ΜSc Υποψ. Διαδάκτωρ Σήμερα Αναζήτηση βιβλιογραφίας Επιλογή μεθοδολογίας Ερευνητικός σχεδιασμός Εγκυρότητα και αξιοπιστία

Διαβάστε περισσότερα

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών

κεφάλαιο Βασικές Έννοιες Επιστήμη των Υπολογιστών κεφάλαιο 1 Βασικές Έννοιες Επιστήμη 9 1Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ Στόχοι Στόχος του κεφαλαίου είναι οι μαθητές: να γνωρίσουν βασικές έννοιες και τομείς της Επιστήμης. Λέξεις κλειδιά Επιστήμη

Διαβάστε περισσότερα

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής

Προγραμματισμός Η/Υ. Προτεινόμενα θέματα εξετάσεων Εργαστήριο. Μέρος 1 ό. ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής Προγραμματισμός Η/Υ Προτεινόμενα θέματα εξετάσεων Εργαστήριο Μέρος 1 ό ΤΕΙ Λάρισας- Σχολή Τεχνολογικών Εφαρμογών Τμήμα Πολιτικών Έργων Υποδομής Ιανουάριος 2011 Καλογιάννης Γρηγόριος Επιστημονικός/ Εργαστηριακός

Διαβάστε περισσότερα

Αναζητήσεις στο Διαδίκτυο

Αναζητήσεις στο Διαδίκτυο Αναζητήσεις στο Διαδίκτυο Πλεονεκτήματα από τη χρήση του Διαδικτύου για την αναζήτηση πληροφοριών Υπάρχει πληθώρα πληροφοριών (που περιλαμβάνουν μεγάλο εύρος από media). Οι μαθητές καθίστανται «ερευνητές

Διαβάστε περισσότερα

Ανάλυση, Sentiment Analysis, Hybrid Method, SentiWordNet, Word Graphs, Deep Learning, Lexicon Based Approach

Ανάλυση, Sentiment Analysis, Hybrid Method, SentiWordNet, Word Graphs, Deep Learning, Lexicon Based Approach Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής Υβριδική Λεξιλογική Προσέγγιση της Μεθόδου Γράφων Λέξεων

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Eθνικό Μετσόβιο Πολυτεχνείο Σχολή Πολιτικών Μηχανικών EMΠ

Eθνικό Μετσόβιο Πολυτεχνείο Σχολή Πολιτικών Μηχανικών EMΠ Eθνικό Μετσόβιο Πολυτεχνείο Σχολή Πολιτικών Μηχανικών EMΠ Ανάπτυξη μοντέλου βελτιστοποίησης της κατανομής πόρων για την συντήρηση των λιμένων της Ελλάδας Σωτήριος Χαριζόπουλος Επιβλέποντες: Γιώργος Γιαννής,

Διαβάστε περισσότερα

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΣΧΥΕΙ ΚΑΤΑ ΤΟ ΜΕΡΟΣ ΠΟΥ ΑΦΟΡΑ ΤΟ ΛΥΚΕΙΟ ΓΙΑ ΤΗΝ ΥΠΟΧΡΕΩΤΙΚΗ ΕΚΠΑΙΔΕΥΣΗ ΙΣΧΥΟΥΝ ΤΟ ΔΕΠΠΣ

Διαβάστε περισσότερα