ΑΥΤΟΜΑΤΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΤΩΝ ΜΗΝΥΜΑΤΩΝ ΣΕ ΦΑΚΕΛΟΥΣ

Transcript

1 ΑΥΤΟΜΑΤΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΤΩΝ ΜΗΝΥΜΑΤΩΝ ΣΕ ΦΑΚΕΛΟΥΣ Η Διπλωματική Εργασία παρουσιάστηκε ενώπιον του Διδακτικού Προσωπικού του Πανεπιστημίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το Δίπλωμα του Μηχανικού Πληροφοριακών και Επικοινωνιακών Συστημάτων των ΦΟΥΡΝΑΡΙΔΗ ΓΕΩΡΓΙΟΥ ΦΟΥΡΝΑΡΙΔΗ ΗΛΙΑ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2

2 Η ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ ΔΙΔΑΣΚΟΝΤΩΝ ΕΓΚΡΙΝΕΙ ΤΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΤΩΝ ΦΟΥΡΝΑΡΙΔΗ ΓΕΩΡΓΙΟΥ ΚΑΙ ΦΟΥΡΝΑΡΙΔΗ ΗΛΙΑ: ΣΤΑΜΑΤΑΤΟΣ ΕΥΣΤΑΘΙΟΣ, Επιβλέπων Μάρτιος 2 Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων [ΟΝΟΜΑ ΔΙΔΑΣΚΟΝΤΑ], Μέλος Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων [ΟΝΟΜΑ ΔΙΔΑΣΚΟΝΤΑ], Μέλος Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2 ii

3 ΠΕΡΙΛΗΨΗ Η αυτόματη ταξινόμηση μηνυμάτων εμαιλ σε φακέλους είναι μια μορφή ταξινόμησης κειμένων που παρουσιάζει ιδιαίτερο ενδιαφέρον. Ορισμένα στοιχεία που δυσκολεύουν το έργο της ταξινόμησης είναι ότι τα μηνύματα εμαιλ είναι συνήθως μικρού μεγέθους, πολλές φορές περιέχουν ορθογραφικά λάθη και τέλος ο τρόπος σκέψης με τον οποίο κάθε χρήστης ταξινομεί τα εμαιλ του διαφέρει. Ορισμένοι χρήστες ταξινομούν τα μηνύματά τους είτε με βάση τον αποστολέα, είτε με βάση το θέμα, είτε με άλλο τρόπο. Επίσης κάποιοι φάκελοι εγκαταλείπονται ενώ παράλληλα δημιουργούνται νέοι φάκελοι. Όλα αυτά καθιστούν πολύπλοκη την διαδικασία της ταξινόμησης. Ένα σύστημα που κάνει ταξινόμηση των νέων εισερχόμενων μηνυμάτων με βάση έναν αλγόριθμο ταξινόμησης πρέπει να γνωρίζει τον τρόπο με τον οποίο ο χρήστης ταξινομεί τα μηνύματά του. Συνεπώς το σύστημα χρειάζεται κάποια μηνύματα που έχουν ήδη ταξινομηθεί από τον χρήστη σε φακέλους, τα οποία αποτελούν το σύνολο εκπαίδευσης του αλγορίθμου. Δύο αλγόριθμοι ταξινόμησης με τους οποίους θα ασχοληθούμε είναι ο Naive Bayes και ο SMO που ανήκει στην οικογένεια των Support Vector Machines (SVMs). Ο πρώτος χρησιμοποιεί το θεώρημα του Bayes και με βάση τα μοντέλα πιθανοτήτων που κατασκευάζει, ταξινομεί τα νέα εισερχόμενα μηνύματα. Οι ταξινομητές SVMs αναπαριστούν τα δεδομένα εκπαίδευσης σαν σημεία σε πολυδιάστατο χώρο με τέτοιο τρόπο ώστε τα σημεία κάθε κατηγορίας να είναι ομαδοποιημένα και οι ομάδες να έχουν το ξεκάθαρο κενό μεταξύ τους. Κάθε κενό που χωρίζει μια ομάδα από μια άλλη, προσδιορίζεται από δυο ευθείες (υπερεπίπεδα). Τα σημεία τα οποία είναι πάνω στα υπερεπίπεδα ονομάζονται Support Vectors. Τα νέα μηνύματα αναπαριστούνται σαν σημεία στο πολυδιάστατο χώρο και σύμφωνα με την ομάδα στην οποία είναι πιο κοντά, παίρνουν και την ανάλογη κατηγορία. Οι αλγόριθμοι ταξινόμησης αξιολογούνται συνήθως από μέτρα επίδοσης που τα συναντάμε στην ανάκτηση πληροφορίας, όπως recall, precision και άλλα. Τα μηνύματα δεν έχουν την κατάλληλη μορφή για να αποτελέσουν είσοδο για τους αλγόριθμους ταξινόμησης. Η μορφή με την οποία συνήθως αναπαριστάται ένα μήνυμα είναι με το μοντέλο του διανυσματικού χώρου. Με άλλα λόγια κάθε μήνυμα είναι ένα διάνυσμα από όρους ή αλλιώς χαρακτηριστικά (features). Το Πανεπιστήμιο της Μασαχουσέτης, που ασχολήθηκε με την συλλογή μηνυμάτων της Enron, χρησιμοποίησε λέξεις ως χαρακτηριστικά για την κατασκευή διανυσμάτων. Στην δική μας έρευνα χρησιμοποιήσαμε ως χαρακτηριστικά Ν-grams (, ), Ονόματα () και συνδυασμό αυτών. Στο τέλος συγκρίναμε τα αποτελέσματα των πειραμάτων μας και παρουσιάζουμε τα micro-average accuracy, macroaverage precision και macro-average recall για κάθε χρήστη της Enron που μελετήσαμε. Επίσης γίνεται ανάλυση για το σύστημα που μετατρέπει τα μηνύματα σε διανύσματα χαρακτηριστικών, παρουσιάζονται διαγράμματα use-case, διαγράμματα ροής δεδομένων, διαγράμματα αλληλουχίας ενεργειών, διαγράμματα κλάσεων και περιγράφεται η λειτουργία του. Φουρναρίδης Γεώργιος και Φουρναρίδης Ηλίας Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ 2 iii

4 ABSTRACT Automatic categorization of s into folders is called foldering. foldering is a rich and multi-faceted problem, with many difficulties that make it different from traditional topic-based categorization. s are usually documents of small size, which sometimes contain misspellings. It is also interesting to note that content and foldering habits differ drastically from one user to another, so while automated methods may perform well for one user, they may fail horribly for another. Two well known algorithms that are used in classification task, are Naive Bayes and SVMs. In this thesis we use SMO, a simple form of SVMs. s messages must be transformed in an appropriate form in order to be used as input for the algorithms. One simple form to represent a document is the vector space model that is a vector of features. There are many kinds of features such as words, ngrams, name entities etc. Each kind of features has its advantages and disadvantages. We also apply feature selection in order to use the most important features and reduce the size of the vectors. Our dataset of s is provided by Enron Company. The University of Massachusetts used this corpora and represented s as vectors of words. In our research, we represented s as vectors of ngrams (, ), Name Entities () and combination of ngrams and. At the end of every classification task we applied evaluation techniques that are also used in Information Retrieval. We compared our results to the Massachusetts results and we state the type of features that performs well in classification. Additionally we present an analysis of our system whose main purpose is to create vectors of features from messages. Use-case diagram, data flow diagram, sequence diagram, class diagram and system s manual are also available in that chapter. Fournaridis Georgios and Fournaridis Elias Department of Information and Communication Systems Engineering UNIVERSITY OF THE AEGEAN [2] iv

5 ΕΥΧΑΡΙΣΤΙΕΣ - ΑΦΙΕΡΩΣΕΙΣ Θέλουμε να ευχαριστήσουμε θερμά τον επιβλέποντα καθηγητή της διπλωματικής μας κ. Σταματάτο Ευστάθιο για την πολύτιμη καθοδήγηση και βοήθεια που μας προσέφερε σε όλη την διάρκεια της εργασίας μας. Επίσης ευχαριστούμε τα Πανεπιστήμια Waikato και Stanford για τα εργαλεία Weka και Name Entity Recognition αντίστοιχα. Τέλος, θα θέλαμε να ευχαριστήσουμε την οικογένειά μας για την ηθική και υλική συμπαράσταση που μας προσφέρουν όλα αυτά τα χρόνια, καθώς και τους φίλους για την στήριξή τους σε αυτή την προσπάθεια. v

6 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ...iii ABSTRACT... iv ΕΥΧΑΡΙΣΤΙΕΣ - ΑΦΙΕΡΩΣΕΙΣ... v ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ... vi ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ...viii ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ... ix ΚΕΦΑΛΑΙΟ - ΕΙΣΑΓΩΓΗ.... Γενικά....2 Στόχος της Διπλωματικής Δομή της Διπλωματικής... 2 ΚΕΦΑΛΑΙΟ 2 - ΤΑΞΙΝΟΜΗΣΗ ΚΕΙΜΕΝΟΥ Μοντελοποίηση του προβλήματος Μέθοδοι ταξινόμησης Naive Bayes Support Vector Machines (SVMs) Μέτρα αξιολόγησης των αλγορίθμων (Performance Measures)... 9 ΚΕΦΑΛΑΙΟ 3 - ΤΑΞΙΝΟΜΗΣΗ ΜΗΝΥΜΑΤΩΝ ENRON Προετοιμασία συλλογής Διαγραφή φακέλων γενικού περιεχομένου Κατάργηση της ιεραρχίας των φακέλων Διαγραφή φακέλων με λίγα μηνύματα Επιλογή χρηστών Στάδια εκτέλεσης αυτόματης ταξινόμησης (training/test splits) Αναπαράσταση μηνυμάτων Λέξεις (words) N-grams Ονόματα (Name Entities) Επιλογή χαρακτηριστικών (Feature Selection) Κατασκευή διανυσμάτων... 3 ΚΕΦΑΛΑΙΟ 4 - ΣΥΣΤΗΜΑ ΓΙΑ ΤΗΝ ΜΕΤΑΤΡΟΠΗ ΜΗΝΥΜΑΤΩΝ ΣΕ ΔΙΑΝΥΣΜΑΤΑ Γενικά Σχεδιασμός του συστήματος Διάγραμμα Use Case του συστήματος Διάγραμμα Αλληλουχίας Ενεργειών του συστήματος (Sequence Diagram) vi

7 4.2.3 Διάγραμμα Κλάσεων του συστήματος (Class Diagram) Διάγραμμα Ροής Δεδομένων (Data Flow Diagram DFD) Λειτουργία του συστήματος ΚΕΦΑΛΑΙΟ 5 - ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΕΙΡΑΜΑΤΩΝ Γενικά Αποτελέσματα για τους χρήστες της Enron Χρήστης beck-s Χρήστης farmer-d Χρήστης kaminski-v Χρήστης kitchen-l Χρήστης lokay-m Χρήστης sanders-r Χρήστης williams-w Σύγκριση αποτελεσμάτων ΚΕΦΑΛΑΙΟ 6 - ΣΥΜΠΕΡΑΣΜΑΤΑ ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ I - ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΕΙΡΑΜΑΤΩΝ vii

8 ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Πίνακας 2-: Ανάκληση και Ακρίβεια... 9 Πίνακας 3-: Χρήστες Enron Πίνακας 3-2: Τα κοινά CF-DF για τους 4 χρήστες Πίνακας 4-: Ορίσματα της κλάσης prog... 4 Πίνακας 5-: Σύγκριση αποτελεσμάτων για τον αλγόριθμο Naive Bayes Πίνακας 5-2: Σύγκριση αποτελεσμάτων για τον αλγόριθμο SMO viii

9 ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ Εικόνα 2-: Παράδειγμα υπερεπιπέδων... 6 Εικόνα 2-2: Το όρια περιθωρίου και το υπερεπίπεδο μέγιστου περιθωρίου για στιγμιότυπα που ανήκουν σε μία από δύο κλάσεις. Τα στιγμιότυπα που πέφτουν στα όρια λέγονται support vectors Εικόνα 2-3: Δεδομένα από Σύστημα Ανάκτησης Πληροφορίας... 9 Εικόνα 2-4: Σχέση Precision-Recall... 2 Εικόνα 3-: Παράδειγμα μηνύματος Εικόνα 3-2: Παράδειγμα αρχείου ARFF... 3 Εικόνα 4-: Διάγραμμα Use Case του συστήματος Εικόνα 4-2: Sequence Diagram του συστήματος Εικόνα 4-3α: Class Diagram του συστήματος Εικόνα 4-3β: Class Diagram του συστήματος Εικόνα 4-4: Διάγραμμα Ροής Δεδομένων του συστήματος Εικόνα 4-5: Διάγραμμα ροής δεδομένων για την διαδικασία Εικόνα 5-: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη beck-s Εικόνα 5-2: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη beck-s Εικόνα 5-3: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη farmer-d Εικόνα 5-4: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη farmer-d Εικόνα 5-5: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη kaminski-v Εικόνα 5-6: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη kaminski-v Εικόνα 5-7: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη kitchen-l Εικόνα 5-8: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη kitchen-l Εικόνα 5-9: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη lokay-m Εικόνα 5-: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη lokay-m ix

10 Εικόνα 5-: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη sanders-r... 5 Εικόνα 5-2: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη sanders-r... 5 Εικόνα 5-3: Διάγραμμα micro-average accuracy με τη χρήση του Naive Bayes για τον χρήστη williams-w Εικόνα 5-4: Διάγραμμα micro-average accuracy με τη χρήση του SMO για τον χρήστη williams-w x

11 ΚΕΦΑΛΑΙΟ - ΕΙΣΑΓΩΓΗ. Γενικά Η διαδικασία αυτόματης ταξινόμησης ενός κειμένου, το οποίο ανήκει σε μια συγκεκριμένη συλλογή κειμένων, σε μια κατηγορία από ένα συγκεκριμένο πλήθος κατηγοριών, λέγεται κατηγοριοποίηση κειμένων. Η κατηγοριοποίηση μπορεί να γίνει ανάλογα με το είδος των κειμένων [], τον συγγραφέα [2] ή το φύλο του συγγραφέα [3] κ.ά. Η κατηγοριοποίηση κειμένων εφαρμόζεται σε αρκετές περιπτώσεις όπως αυτόματη καταχώρηση κειμένων για συστήματα ανάκτησης πληροφορίας, οργάνωση κειμένων, φιλτράρισμα κειμένων, οργάνωση ιστοσελίδων σε ευρετήρια κ.ά. Ένα παράδειγμα φιλτράρισμα κειμένων είναι η κατηγοριοποίηση των ηλεκτρονικών μηνυμάτων αλληλογραφίας ( ) σε χρήσιμα και σε ανεπιθύμητα μηνύματα (spam). Ο Ανδρουτσόπουλος με την ερευνητική του ομάδα [4] απέδειξαν ότι η κατηγοριοποίηση s με συγκεκριμένο αλγόριθμο ταξινόμησης (Naïve Bayes) είχε καλύτερα αποτελέσματα από τον απλό εντοπισμό λέξεων κλειδιών (keywords). Όμως εκτός από τον διαχωρισμό των σε χρήσιμα και ανεπιθύμητα, σημαντικό ενδιαφέρον παρουσιάζει και η αυτόματη ταξινόμησή τους, με βάση το θέμα, στους προσωπικούς φακέλους που έχει ο κάθε χρήστης στον λογαριασμό ηλεκτρονικής αλληλογραφίας ( foldering). Η ταξινόμηση των μηνυμάτων σε φακέλους είναι ενδιαφέρουσα αλλά ταυτόχρονα είναι και δύσκολη γιατί παρουσιάζει αρκετές ιδιαιτερότητες. Τα μηνύματα είναι κείμενα συνήθως μικρού μεγέθους και πολλές φορές περιέχουν ορθογραφικά λάθη και συντομογραφίες. Οι χρήστες πολύ συχνά δημιουργούν νέους φακέλους, ενώ παράλληλα εγκαταλείπουν παλαιότερους φακέλους. Επίσης υπάρχουν φάκελοι που δεν έχουν ξεκάθαρο σημασιολογικό θέμα και μπορεί να περιέχουν μηνύματα που είναι από συγκεκριμένους αποστολείς, μηνύματα που αφορούν συγκεκριμένες ομάδες εργασίας ή μηνύματα που ο χρήστης δεν έχει αποφασίσει ακόμα για το που τελικά θα τα κατατάξει. Οφείλουμε να τονίσουμε ότι σε κάθε χρήστη, το περιεχόμενο των μηνυμάτων καθώς και ο τρόπος με τον οποίο τα κατηγοριοποιεί μπορεί να διαφέρουν από λίγο έως αρκετά. Συνεπώς τα συστήματα ταξινόμησης μηνυμάτων θα έχουν καλύτερα αποτελέσματα σε κάποιους χρήστες, ενώ σε άλλους χρήστες δεν θα είναι τα αναμενόμενα. Ένα άλλο σημαντικό θέμα είναι ότι κάποια μηνύματα έχουν ξεκάθαρο νόημα μόνο αν λάβουμε υπόψη προηγούμενα μηνύματα. Αποτελούν δηλαδή απάντηση στα προηγούμενα μηνύματα (threads). Πολλές φορές αρκετά τέτοια μηνύματα μπορούν να αλλάξουν σημασιολογικό θέμα. Για παράδειγμα, μπορεί τα προηγούμενα μηνύματα να είχαν θέμα για χρηματιστηριακές επενδύσεις και τα επόμενα μηνύματα να έχουν ως θέμα για την συμπεριφορά εταιριών κατά την διάρκεια της οικονομικής κρίσης.

12 .2 Στόχος της Διπλωματικής Η διπλωματική εργασία αφορά την αυτόματη κατηγοριοποίηση μηνυμάτων σε φακέλους με βάση το θέμα των μηνυμάτων. Ουσιαστικά πρόκειται για αυτοματοποίηση της διαδικασίας που ακολουθούμε στην ταξινόμηση μηνυμάτων στο προσωπικό μας mailbox. Θα γίνει μελέτη κατάλληλων τεχνικών αναπαράστασης μηνυμάτων, λαμβάνοντας υπόψη τις ιδιαιτερότητές τους, και τεχνικών μηχανικής μάθησης για την αυτόματη ταξινόμηση. Η εργασία θα βασιστεί στη διαθέσιμη συλλογή μηνυμάτων Εnron [5] (που περιλαμβάνει ολόκληρα τα inboxes των υπαλλήλων μιας εταιρείας, 5. μηνύματα από 5 υπαλλήλους) και θα δοθεί έμφαση στη σύγκριση με αποτελέσματα από παρόμοιες δημοσιευμένες εργασίες..3 Δομή της Διπλωματικής Στο κεφάλαιο 2 θα αναφερθούν περισσότερες λεπτομέρειες για την ταξινόμηση κειμένων. Θα παρουσιάσουμε το πρόβλημα μέσα από τύπους, θα αναφέρουμε τους αλγόριθμους ταξινόμησης που θα χρησιμοποιήσουμε, καθώς και τα μέτρα αξιολόγησής τους. Στο κεφάλαιο 3 θα γίνει επεξεργασία των μηνυμάτων της εταιρίας Enron. Θα επιλεγούν οι χρήστες για τους οποίους θα γίνει προετοιμασία των μηνυμάτων, όπως καθαρισμός ανεπιθύμητων χαρακτήρων και επιλογή συγκεκριμένων πληροφοριών. Επίσης θα γίνει αναλυτική περιγραφή για την εξαγωγή των σημαντικών χαρακτηριστικών (features) για κάθε μήνυμα, ώστε να έχει την κατάλληλη αναπαράσταση για να εισαχθεί στους αλγόριθμους ταξινόμησης. Θα εξηγήσουμε με ποιο τρόπο επιλέξαμε τα χαρακτηριστικά που προαναφέραμε. Στο κεφάλαιο 4 θα περιγράψουμε το σύστημα που δημιουργήσαμε για την μετατροπή των μηνυμάτων σε διανύσματα χαρακτηριστικών. Θα παρουσιάσουμε το διάγραμμα ροής δεδομένων, το διάγραμμα αλληλουχίας ενεργειών, το διάγραμμα κλάσεων, το διάγραμμα usecase και επίσης θα περιγράψουμε την λειτουργία του συστήματος. Στο κεφάλαιο 5 θα παρουσιάσουμε τα αποτελέσματα της εργασίας, τα μέτρα αξιολόγησης των αλγορίθμων που εφαρμόστηκαν για τα μηνύματα του κάθε χρήστη της Enron. Επίσης θα γίνει σύγκριση με αποτελέσματα παρόμοιων εργασιών. Τέλος στο κεφάλαιο 6 θα παρουσιαστούν τα συμπεράσματα της όλης εργασίας. 2

13 ΚΕΦΑΛΑΙΟ 2 - ΤΑΞΙΝΟΜΗΣΗ ΚΕΙΜΕΝΟΥ 2. Μοντελοποίηση του προβλήματος Η κατηγοριοποίηση των μηνυμάτων του ηλεκτρονικού ταχυδρομείου είναι μια συγκεκριμένη περίπτωση ταξινόμησης κειμένων. Για να είναι εφικτή η αυτοματοποίηση της διαδικασίας, προϋποθέτει την ύπαρξη ενός συνόλου κειμένων που είναι εξ αρχής ταξινομημένα σε κατηγορίες. Το σύνολο των κειμένων που αναφέραμε αποτελεί το σύνολο κειμένων για την εκπαίδευση του συστήματος και ονομάζεται D και ορίζεται ως εξής: D train d,...,,, train d n όπου το di ανήκει σε ένα σύνολο κειμένων D και το στο προκαθορισμένο σύνολο κατηγοριών C, όπου: C c,..., n i, που είναι η κατηγορία του c m d i, ανήκει Σκοπός της ταξινόμησης κειμένων είναι να υπάρξει ένας επαγωγικός αλγόριθμος μηχανικής μάθησης που έχοντας ως δεδομένο το σύνολο D train να παράγει μια μέθοδο h : D C, δηλαδή να αποδώσει μια κατηγορία σε κάθε νέο κείμενο που θέλουμε να ταξινομήσουμε. Η σχεδίαση ενός αλγορίθμου μάθησης για ταξινόμηση κειμένων απαιτεί την εστίαση της προσοχής σε τρία βασικά σημεία: (2.) (2.2) Την αναπαράσταση των κειμένων: Ένα κείμενο για να μπορεί να δεχτεί επεξεργασία και μελέτη στο πρόγραμμα, απαιτείται να έχει την κατάλληλη μορφή για την μέθοδο ταξινόμησης. Τις περισσότερες φορές αναπαριστούμε τα κείμενα με ένα σύνολο από κάποια χαρακτηριστικά (features), όπου αυτά μπορούν να είναι λέξεις (words) [6], φράσεις από λέξεις (sequence of words) [8], μέρη από λέξεις (word clusters) [7], λέξεις με συντακτική έννοια (part-of-speech tags) [] κ.ά. Συνήθως ο αριθμός των χαρακτηριστικών είναι μεγάλος, για αυτό και επιλέγουμε ένα σύνολο από αυτά [9]. Την επιλογή της μεθόδου ταξινόμησης: Υπάρχουν αρκετοί μέθοδοι ταξινόμησης που έχουν διαφορετικά αποτελέσματα μεταξύ τους. Έτσι πρέπει να επιλεχθεί η κατάλληλη μέθοδος για το κατάλληλο πρόβλημα. Παράμετροι της μεθόδου ταξινόμησης: Έχοντας επιλέξει συγκεκριμένη αναπαράσταση των κειμένων και συγκεκριμένη μέθοδο ταξινόμησης, πρέπει να δώσουμε ιδιαίτερη προσοχή στις διάφορες παραμέτρους που τυχών υπάρχουν. Τα αποτελέσματα εξαρτώνται άμεσα από αυτές τις παραμέτρους (όπως ο τύπος πυρήνα για την μέθοδο Support Vector Machine, SVM) και μπορούν να έχουν από πολύ χαμηλή απόδοση εάν επιλεχθούν λάθος παράμετροι, έως υψηλή απόδοση σε ορισμένες περιπτώσεις. 3

14 2.2 Μέθοδοι ταξινόμησης Ως μέθοδοι ταξινόμησης επιλέξαμε τον Naive Bayes και τον SMO από την οικογένεια των Support Vector Machines. Παρακάτω θα παρουσιάσουμε ορισμένα στοιχεία για τον κάθε ένα Naive Bayes Ο Naive Bayes στηρίζεται στο θεώρημα του Bayes, συνεπώς θα αναφερθούμε πρώτα σε αυτό []. Στην Μηχανική Μάθηση, μας ενδιαφέρει συνήθως να καθορίσουμε ποια είναι η καλύτερη υπόθεση h από ένα σύνολο υποθέσεων H, αφού πρώτα έχουμε εξετάσει χρησιμοποιήσει τα δεδομένα D, για την εκπαίδευση του συστήματος,. Ένας τρόπος για να βρούμε αυτή την υπόθεση είναι να αναζητήσουμε την πιο πιθανή υπόθεση, λαμβάνοντας εξ αρχής τα δεδομένα D καθώς και όποια αρχική γνώση υπάρχει για όλες τις υποθέσεις. Το θεώρημα του Bayes παρέχει μια μέθοδο για τον άμεσο υπολογισμό τέτοιων πιθανοτήτων, και διαμορφώνεται ως εξής: όπου: h D P h D P D P hph D P είναι η πιθανότητα να ισχύει η υπόθεση h έχοντας υπό όψη τα παρατηρηθέντα δεδομένα D. Αυτή η πιθανότητα συνήθως καλείται ως εκ των υστέρων πιθανότητα της h (posterior probability of h), γιατί εκφράζει την εμπιστοσύνη μας προς την h αφού έχουμε παρατηρήσει τα δεδομένα D. D h P είναι η πιθανότητα να παρατηρηθούν τα δεδομένα D σε ένα κόσμο, στον οποίο ισχύει η υπόθεση h. P h είναι η αρχική πιθανότητα να ισχύει η υπόθεση h, χωρίς να έχουμε παρατηρήσει τα δεδομένα D. Η P h συνήθως καλείται ως εκ των προτέρων πιθανότητα της h (prior probability of h) και εκφράζει οποιαδήποτε προηγούμενη γνώση έχουμε για την ισχύ της υπόθεσης h. Σε περίπτωση που δεν έχουμε κάποια αρχική γνώση για οποιαδήποτε υπόθεση, τότε θεωρούμε ότι όλες οι υποψήφιες υποθέσεις h έχουν την ίδια εκ των προτέρων πιθανότητα. D P είναι η πιθανότητα να παρατηρηθούν τα δεδομένα D, χωρίς να έχουμε γνώση από πριν για το ποια υπόθεση h ισχύει. Όπως είναι λογικό, με βάση το θεώρημα Bayes, η P h D αυξάνεται όταν αυξάνεται η P h και η P D h. Αντίθετα η P h D μειώνεται όταν αυξάνεται η P D, γιατί το όσο πιθανό είναι να παρατηρηθούν τα δεδομένα D ανεξαρτήτως κάποιας υπόθεσης h, τόσο πιο πολύ αποδυναμώνεται μια υπόθεση h. Στις περισσότερες περιπτώσεις μηχανικής μάθησης, ο αλγόριθμος ψάχνει την πιο πιθανή υπόθεση h από ένα σύνολο υποθέσεων H, με βάση την παρατήρηση των δεδομένων D. Η πιο πιθανή υπόθεση μπορεί να είναι μία ή περισσότερες, αλλά ο αλγόριθμος θα επιλέξει μία από αυτές. Αυτή η υπόθεση λέγεται μέγιστη εκ των υστέρων (MAP, maximum a posteriori), P h D μεταξύ τους, δηλαδή: υπόθεση, και την βρίσκουμε συγκρίνοντας όλα τα (2.3) 4

15 h hmap arg max P hh D P D arg max hh P arg max P D hh hph D hph (2.4) Παρατηρούμε ότι στο τελευταίο στάδιο της εξίσωσης, ο παρανομαστής του κλάσματος P D είναι μια σταθερά ανεξάρτητη από κάθε υπόθεση h. απαλείφεται γιατί η Στην περίπτωση που κάθε υπόθεση στο σύνολο H έχει την ίδια εκ των προτέρων πιθανότητα, δηλαδή Phi Ph j, hi, h j H, ο τύπος (2.4) γίνεται πιο απλός. Η h MAP εξαρτάται μόνο από τον όρο P D h. Η υπόθεση h που δίνει την μέγιστη τιμή του P D h καλείται υπόθεση μέγιστης πιθανοφάνειας (maximum likelihood hypothesis), h ML. h ML arg max P D Συνήθως δεν μας ενδιαφέρει τόσο ποια είναι η πιθανή υπόθεση με βάση τα δεδομένα, όσο ποια είναι η τιμή της συνάρτησης-στόχου για ένα νέο στιγμιότυπο, με βάση τα δεδομένα. Με μια απλή σκέψη θεωρούμε ότι η τιμή της h MAP είναι αυτό που ψάχνουμε, άλλα πρέπει να αναφέρουμε ότι υπάρχει και καλύτερη λύση. Η λύση είναι να λάβουμε υπό όψη τις πιθανότητες όλων των υποθέσεων ζυγισμένες με την εκ των υστέρων πιθανότητά τους. h (2.5) Η γραμμική πολυπλοκότητα του πλήθους των υποθέσεων του συνόλου H, καθώς και η γνώση ή η εκτίμηση πάρα πολλών πιθανοτήτων, καθιστά τον παραπάνω τρόπο λύσης δύσκολο και απαιτητικό σε χρόνο και δεδομένα. Ο αλγόριθμος Naive Bayes απλοποιεί όλα τα προβλήματα που αναφέραμε. Εφαρμόζεται στα προβλήματα μάθησης που τα στιγμιότυπα (νέα εισερχόμενα δεδομένα) παρουσιάζονται σαν διανύσματα από ορισμένα χαρακτηριστικά []. Κάθε στιγμιότυπο εξαρτάται από τα χαρακτηριστικά (features) E, E2,..., En τα οποία είναι ανεξάρτητα μεταξύ τους και όλα τα χαρακτηριστικά καθορίζουν την τιμή C της συνάρτησης στόχου, δηλαδή η C εξαρτάται από αυτά P C E,..., E n, οπότε σύμφωνα με το θεώρημα του Bayes (τύπος 2.3) έχουμε : P C E,..., E n P 5 C P P E,..., E E,..., E Ο παρανομαστής μπορεί να αφαιρεθεί γιατί είναι μια σταθερά που δεν εξαρτάται από την C και οι τιμές των χαρακτηριστικών είναι δεδομένες. Επίσης, έχοντας ως δεδομένο ότι τα χαρακτηριστικά είναι ανεξάρτητα μεταξύ τους, τότε ο τύπος 2.6 γίνεται: P n n i i n n C C E,..., E Z PC PE C όπου το Ζ είναι μεταβλητή που εξαρτάται μόνο από τα E,..., En και είναι σταθερά όταν είναι γνωστή η τιμή του κάθε E. Ο τύπος 2.7 είναι το μοντέλο πιθανότητας Naive Bayes και i (2.6) (2.7)

16 συνδυάζεται με ένα κανόνα απόφασης για την εξαγωγή του ταξινομητή. Διαλέγοντας την μέγιστη εκ των υστέρων υπόθεση, έχουμε τον αντίστοιχο κανόνα απόφασης. Ο ταξινομητής είναι η συνάρτηση cl και ορίζεται ως εξής: cl n n c i i i e,..., e arg max PC c PE e C c (2.8) Ένας τρόπος για τον υπολογισμό των παραμέτρων του συγκεκριμένου μοντέλου είναι η καταγραφή των συχνοτήτων των χαρακτηριστικών στα δεδομένα D. train Support Vector Machines (SVMs) Οι SVMs ταξινομητές χρησιμοποιούνται για ταξινόμηση και για παλινδρόμηση. Σε απλά λόγια, έχοντας κάποια δεδομένα ως εκπαίδευση του συστήματος, κάθε ένα από αυτά τα δεδομένα έχουν ετικέτα ώστε να ανήκουν σε μια από δύο συγκεκριμένες κατηγορίες. Ο αλγόριθμος SVM δημιουργεί ένα μοντέλο που προβλέπει σε ποια από τις δύο κατηγορίες θα ανήκει το νέο στιγμιότυπο του συστήματος. Ο SVM αναπαριστά τα δεδομένα που αποτελούν την αρχική γνώση ως σημεία σε ένα χώρο δύο διαστάσεων, με τέτοιο τρόπο ώστε τα σημεία κάθε κατηγορίας να είναι κατά ένα τρόπο ομαδοποιημένα και οι δύο ομάδες να έχουν ένα ξεκάθαρο κενό μεταξύ τους. Τα νέα στιγμιότυπα του συστήματος αναπαριστούνται και αυτά σαν σημεία στο δυσδιάστατο χώρο και παίρνουν την ετικέτα της ανάλογης ομάδας (κατηγορίας) στην οποία έχουν ενταχθεί. Πιο συγκεκριμένα ο SVM δημιουργεί ένα υπερεπίπεδο ή ένα σύνολο υπερεπιπέδων σε πολυδιάστατο χώρο, που χρησιμοποιούνται για εργασίες ταξινόμησης και παλινδρόμησης. Ο SVM που χωρίζει τα στιγμιότυπα με υπερεπίπεδα λέγεται γραμμικός ταξινομητής (linear classifier). Ένα καλό υπερεπίπεδο είναι εκείνο που απέχει την περισσότερη απόσταση από κάθε κοντινό σημείο οποιασδήποτε κλάσης. Όση μεγαλύτερη είναι η απόσταση, τόσο μικρότερο είναι το λάθος του ταξινομητή. X 2 H 2 H 3 H X Εικόνα 2-: Παράδειγμα υπερεπιπέδων Στην Εικόνα 2-, έχουμε τρία υπερεπίπεδα. Το πράσινο υπερεπίπεδο (H3) δεν είναι σωστό γιατί δεν χωρίζει τις κλάσεις μεταξύ τους. Το μπλε (Η2) και το κόκκινο (Η) υπερεπίπεδο χωρίζουν τις κλάσεις αλλά το Η είναι το καλύτερο γιατί απέχει μεγαλύτερη απόσταση από τα κοντινότερα σημεία κάθε κλάσης. Έτσι το υπερεπίπεδο Η ονομάζεται ως υπερεπίπεδο με το μέγιστο περιθώριο (maximum-margin hyperplane). 6

17 Ο αλγόριθμος SVM μπορεί να μοντελοποιηθεί ως εξής. Αν έχουμε ένα σύνολο δεδομένων εκπαίδευσης D που αποτελείται από n στιγμιότυπα, τότε: (2.9) όπου το c i είναι ή - και με αυτή την τιμή ξεχωρίζει το κάθε στιγμιότυπο x i σε ποια κλάση ανήκει. Κάθε στιγμιότυπο είναι ένα p-διάστατο διάνυσμα από πραγματικούς αριθμούς. Ένα υπερεπίπεδο μπορεί να γραφτεί σαν ένα σύνολο στοιχείων (στιγμιότυπα) που ικανοποιούν την παρακάτω εξίσωση: (2.) όπου ο πολλαπλασιασμός w και x είναι το εσωτερικό γινόμενο των διανυσμάτων. Το διάνυσμα w είναι ένα νορμάλ διάνυσμα, δηλαδή είναι κάθετο στο υπερεπίπεδό μας. Η παράμετρος b w καθορίζει την απόσταση του υπερεπιπέδου από την αρχή των αξόνων σε σχέση με το διάνυσμα w. Σκοπός είναι να διαλέξουμε το w και το b ώστε να μεγιστοποιηθεί το περιθώριο ή αλλιώς η απόσταση ανάμεσα στα παράλληλα υπερεπίπεδα ώστε να είναι όσο πιο μακριά γίνεται και ταυτόχρονα να χωρίζουν τα δεδομένα. Αυτά τα υπερεπίπεδα περιγράφονται από τις ακόλουθες εξισώσεις: w x b w x b (2.) (2.2) Αν τα δεδομένα εκπαίδευσης μπορούν να διαχωριστούν γραμμικά, τότε διαλέγουμε τα υπερεπίπεδα που σχηματίζουν το μεγαλύτερο περιθώριο ανάμεσά τους χωρίς να περιέχουν κάποιο στιγμιότυπο ανάμεσά τους. Εικόνα 2-2: Το όρια περιθωρίου και το υπερεπίπεδο μέγιστου περιθωρίου για στιγμιότυπα που ανήκουν σε μία από δύο κλάσεις. Τα στιγμιότυπα που πέφτουν στα όρια λέγονται support vectors. 7

18 Παρατηρώντας την Εικόνα 2-2, βλέπουμε ότι η απόσταση μεταξύ των δύο υπερεπιπέδων των τύπων 2. και 2.2 είναι ίση με 2. Άρα για να μεγαλώσει το περιθώριο, πρέπει ο w παρανομαστής να μικρύνει, δηλαδή το w. Επίσης πρέπει να βάλουμε και κάποιο περιορισμό ώστε τα στιγμιότυπα να μην πέφτουν μέσα στο περιθώριο, δηλαδή: w x i w x i b b Ο τύπος 2.3 αναφέρεται στα στιγμιότυπα x i που ανήκουν στην πρώτη κλάση, ενώ ο τύπος 2.4 αναφέρεται για τα x i της δεύτερης κλάσης. Αυτοί οι δύο τύποι μπορούν να εκφραστούν ως ένας τύπος, δηλαδή: c w x b, i i όπου i n (2.5) Άρα το πρόβλημα βελτιστοποίησης (optimization problem) είναι να μειώσουμε το μέτρο του w και να το συνδυάσουμε με τον τύπο 2.5. Σε αυτή τη σκέψη υπάρχει μια δυσκολία. Το μέτρο του w περιέχει τετραγωνική ρίζα. Όμως ευτυχώς υπάρχει λύση, η οποία είναι να 2 αντικαταστήσουμε το w με 2 w χωρίς να αλλάξει το αποτέλεσμα. Έτσι το πρόβλημά μας είναι πλέον η βελτιστοποίηση μιας δευτεροβάθμιας εξίσωσης (quadratic programming optimization problem). Ο τύπος 2.5 με τη χρήση μη αρνητικών συντελεστών Lagrange a i, γράφεται ως εξής: (2.3) (2.4) n 2 min{ 2 w a [ c ( w x b) ]} (2.6) i i i w, b, a i Ο παράγοντας ½ είναι για τη διευκόλυνση της επίλυσης. Ο τύπος 2.6 μπορεί να λυθεί με τις γνωστές λύσεις για δευτεροβάθμια εξίσωση και οι λύση εκφράζεται ως γραμμικός συνδυασμός των όρων των διανυσμάτων εκπαίδευσης, δηλαδή: w n i a c x i i i (2.7) Από τους συντελεστές ai είναι λίγοι αυτοί που είναι μεγαλύτεροι του μηδενός. Τα αντίστοιχα xi είναι τα support vectors, δηλαδή τα στιγμιότυπα που πέφτουν στα όρια και ικανοποιούν την εξίσωση c ( w x b) i i. Στην περίπτωση της ταξινόμησης κειμένων, οι κατηγορίες - κλάσεις είναι παραπάνω από δύο (multiclass). Το πρόβλημα αυτό θα λυθεί σαν πολλά μικρότερα προβλήματα δύο κλάσεων (binary classification problem). Η επίλυση του προβλήματος γίνεται με τη χρήση δυαδικών ταξινομητών (binary classifiers), που έχουν δύο μεθόδους. Η πρώτη μέθοδος είναι να συγκρίνει κάθε μία κλάση με όλες τις άλλες (one versus all), ενώ η δεύτερη μέθοδος είναι να συγκρίνει τις κλάσεις μεταξύ τους ανά ζευγάρια (one versus one). Για τις δικές μας ανάγκες χρησιμοποιήσαμε τον αλγόριθμο Sequential Minimal Optimization (SMO), ο οποίος είναι γνωστός δυαδικός ταξινομητής. 8

19 2.3 Μέτρα αξιολόγησης των αλγορίθμων (Performance Measures) Οι αλγόριθμοι ταξινόμησης αξιολογούνται συνήθως από μέτρα επίδοσης που τα συναντάμε στην ανάκτηση πληροφορίας. Τα μέτρα αυτά είναι τα Recall (ανάκληση), Precision (ακρίβεια), Accuracy, Error Rate και F. Ένα σύστημα ανάκτησης πληροφορίας δέχεται σαν είσοδο ένα ερώτημα (query) και με βάση αυτό επιστρέφει κάποια δεδομένα κείμενα, από τα οποία ορισμένα είναι σχετικά κ τα υπόλοιπα είναι μη σχετικά με το ερώτημα. Οπότε αν το σύστημα έχει συνολικά Ν κείμενα, τότε έχουμε το εξής σχήμα: Συλλογή κειμένων Σχετικά κείμενα Ανακτημένα κείμενα Α Β Ν Εικόνα 2-3: Δεδομένα από Σύστημα Ανάκτησης Πληροφορίας Συλλογή Κειμένων TRUE Ανακτημένα Κείμενα FALSE TRUE Σχετικά Κείμενα που ανακτήθηκαν Σχετικά Κείμενα που ΔΕΝ ανακτήθηκαν Σχετικά Κείμενα FALSE Μη Σχετικά Κείμενα που ανακτήθηκαν Μη Σχετικά Κείμενα που ΔΕΝ ανακτήθηκαν Σύμφωνα με τον Πίνακα 2-, έχουμε: Πίνακας 2-: Ανάκληση και Ακρίβεια Recall (R) = Αριθμός σχετικών κειμένων που ανακτήθηκαν Συνολικός αριθμός σχετικών κειμένων (2.8) Precision (P) = Αριθμός σχετικών κειμένων που ανακτήθηκαν Συνολικός αριθμός κειμένων που ανακτήθηκαν (2.9) 9

20 Στην ανάκτηση πληροφορίας, τα σχετικά κείμενα που ανακτήθηκαν ονομάζονται ως true positive (TP), τα μη σχετικά κείμενα που ανακτήθηκαν ονομάζονται ως false positive (FP), τα σχετικά κείμενα που δεν ανακτήθηκαν ονομάζονται ως false negative (FN) και τέλος τα μη σχετικά κείμενα που δεν ανακτήθηκαν ονομάζονται ως true negative (TN). Έτσι οι τύποι 2.8 και 2.9 μπορούν να γραφτούν και ως εξής: TP R TP FN TP P TP FP (2.2) (2.2) Όταν το Precision είναι, σημαίνει ότι όλα τα κείμενα που ανακτήθηκαν είναι σχετικά, χωρίς όμως να ξέρουμε αν υπάρχουν και άλλα σχετικά κείμενα τα οποία δεν ανακτήσαμε. Αντίθετα το Recall όταν είναι, σημαίνει ότι έχουμε ανακτήσει όλα τα σχετικά κείμενα από όλη την συλλογή κειμένων N. Όμως σε όλα αυτά που έχουμε ανακτήσει, σίγουρα υπάρχουν και πολλά κείμενα που δεν είναι σχετικά. Έτσι και τα δύο μέτρα είναι απαραίτητα και δεν μπορούμε να αναφερόμαστε μόνο στο ένα από τα δύο. Το ένα μέτρο συμπληρώνει το άλλο και συνήθως είναι αντιστρόφως ανάλογα [2]. Είναι εφικτό να αυξήσουμε το ένα σε βάρος του άλλου. Για παράδειγμα σε ένα σύστημα ανάκτησης πληροφορίας, όπως μια μηχανή αναζήτησης, το Recall μπορεί να αυξηθεί ώστε να επιστρέφει πολλές σχετικές ιστοσελίδες, αλλά θα ρίξει την ποιότητά του, δηλαδή το Precision, γιατί θα περιέχει επίσης και πολλές άχρηστες ιστοσελίδες. Το ιδανικό σύστημα Precision Recall Εικόνα 2-4: Σχέση Precision-Recall Επίσης εκτός από το Recall και το Precision, έχουμε και άλλα μέτρα αξιολόγησης όπως αναφέραμε. Είναι το Accuracy, το Error Rate και το F b -measure που είναι συνδυασμός των Recall και Precision, και όλα αυτά ορίζονται ως εξής [3][4]: TP TN Acc TP FP FN TN FP FN Err TP FP FN TN (2.22) (2.23) 2

21 F P R ( 2 ) 2 P R (2.24) Από τους τύπους 2.22 και 2.23 βλέπουμε ότι το Accuracy είναι το συμπληρωματικό του Error Rate. Επίσης ο τύπος 2.24 χρησιμοποιεί το Precision και Recall, και με τη χρήση του συντελεστή β δίνουμε περισσότερο βάρος στο Precision όταν β > ή δίνουμε περισσότερο βάρος στο Recall όταν β <. Στην περίπτωση που το β =, τότε το Precision έχει ίδια βαρύτητα με το Recall και το F β -measure ονομάζεται F -measure. F P R 2 P R (2.25) Στην ταξινόμηση κειμένων, οι κατηγορίες (κλάσεις) είναι σαν τα queries σε ένα σύστημα ανάκτησης πληροφορίας. Τα κείμενα μιας κατηγορίας i που θα ταξινομηθούν στην κατηγορία i είναι τα true positives, τα άσχετα κείμενα που θα ταξινομηθούν στην κατηγορία i είναι τα false positive, ενώ όσα κείμενα που ανήκουν στην κατηγορία i ταξινομηθούν σε άλλες κατηγορίες είναι τα false negative. Συνεπώς κάθε κατηγορία έχει τα δικά της μέτρα, Precision και Recall. Τέσσερα επιπλέον μέτρα αξιολόγησης είναι τα micro-average precision, microaverage recall, macro-average precision και macro-average recall [3][4]. Αν C το πλήθος των κλάσεων, τότε: (2.26) (2.27) Στην περίπτωση των micro-average μέτρων, πρέπει να δημιουργηθεί ένας πίνακας συσχέτισης (confusion matrix) με όλες τις κλάσεις, ώστε να υπολογιστούν τα TP i, FP i και FP i για κάθε κατηγορία i. Η περίπτωση των macro-average μέτρων είναι ο μέσος όρος για όλα τα recall και ο μέσος όρος για όλα precision. Από τους τύπους 2.26 και 2.27, συμπεραίνουμε ότι τα microaverage μέτρα δίνουν ίση βαρύτητα σε όλα τα κείμενα, ενώ τα macro-average μέτρα δίνουν ίση βαρύτητα σε όλες τις κλάσεις. Επίσης όταν έχουμε τον πίνακα συσχέτισης, το άθροισμα των TP i όλων των κλάσεων δια το συνολικό αριθμό κειμένων είναι η ακρίβεια ταξινόμησης του αλγορίθμου ταξινόμησης (classification accuracy). 2

22 ΚΕΦΑΛΑΙΟ 3 - ΤΑΞΙΝΟΜΗΣΗ ΜΗΝΥΜΑΤΩΝ ENRON Λίγες μελέτες υπάρχουν για την αυτόματη ταξινόμηση μηνυμάτων εμαιλ. Ο λόγος για τον οποίο συμβαίνει αυτό είναι ότι δεν υπάρχουν πολλές συλλογές μηνυμάτων εμαιλ διαθέσιμες στο ευρύ κοινό. Παρόλα αυτά υπάρχει μια μεγάλη συλλογή εμαιλ από την εταιρία Enron Corporation. Η συλλογή περιέχει πάνω από 5. μηνύματα από 5 υπάλληλους της Enron. Ασχοληθήκαμε με αυτή τη συλλογή (dataset) επειδή περιέχει αρκετά εμαιλ και γιατί θέλουμε να συγκρίνουμε τα αποτελέσματά μας με τα αποτελέσματα από το Πανεπιστήμιο της Μασαχουσέτης. 3. Προετοιμασία συλλογής Συνήθως οι ακατέργαστες συλλογές εμαιλ χρειάζονται ένα καθάρισμα και κάποια στάδια προετοιμασίας προτού ξεκινήσει η διαδικασία της ταξινόμησης. Η συλλογή εμαιλ της Enron δεν αποτελεί εξαίρεση και θα υποστεί προετοιμασία ίδια με αυτή που έκανε το Πανεπιστήμιο της Μασαχουσέτης. 3.. Διαγραφή φακέλων γενικού περιεχομένου Φάκελοι γενικού περιεχομένου λέγονται οι φάκελοι που περιέχουν μηνύματα εμαιλ ανεξάρτητα από το θέμα των μηνυμάτων. Τέτοιοι φάκελοι είναι τα «Εισερχόμενα» (Inbox), «Απεσταλμένα» (Sent Items), «Διαγραμμένα» (Trash) και «Πρόχειρα» (Drafts). Η απομάκρυνση τέτοιων φακέλων κρίνεται απαραίτητη γιατί η ταξινόμηση έχει νόημα όταν γίνεται σε φακέλους που δημιουργήθηκαν από το χρήστη. Έτσι, έχουμε τρεις κατηγορίες φακέλων γενικού περιεχομένου, οι οποίες είναι: Φάκελοι που δημιουργήθηκαν αυτόματα από εμαιλ εφαρμογές, όπως MS Outlook, Pine, KΜail κλπ. Τέτοιοι φάκελοι είναι όπως τα «Εισερχόμενα», «Απεσταλμένα» κλπ. Φάκελοι που έχουν δημιουργηθεί από την εταιρία για όλους τους χρήστες και ο κύριος σκοπός τους είναι η αποθήκευση των μηνυμάτων. Οι χρήστες της Enron, έχουν τέτοιους φακέλους, όπως all_documents κλπ. Φάκελοι που δημιουργήθηκαν από τους χρήστες και περιέχουν μηνύματα για τα οποία δεν έχει ασχοληθεί αρκετά ο κάθε χρήστης ώστε να τα κατατάξει στο σωστό φάκελο. Οι φάκελοι γενικού περιεχομένου που αφαιρέθηκαν από το λογαριασμό κάθε χρήστη είναι από τις δύο πρώτες κατηγορίες και είναι οι "all_documents", "calendar", "contacts", "deleted_items", "discussion_threads", "inbox", "notes_inbox", "sent", "sent_items" και "_sent_mail". Δεν αφαιρέσαμε φακέλους από την τρίτη κατηγορία γιατί δεν μπορούμε να ξέρουμε τον τρόπο με τον οποίο σκέπτεται ο κάθε χρήστης και δημιουργεί φακέλους Κατάργηση της ιεραρχίας των φακέλων Αρκετοί φάκελοι κάθε χρήστη εκτός από μηνύματα περιέχουν μέσα τους και άλλους φακέλους. Το Πανεπιστήμιο της Μασαχουσέτης κατάργησε την ιεραρχία και όλοι οι φάκελοι απέκτησαν το ίδιο «επίπεδο». Για παράδειγμα, αν είχαμε 2 φακέλους που ο κάθε ένας είχε από δύο υποφακέλους, μετά την κατάργηση της ιεραρχίας, το αποτέλεσμα θα ήταν να έχουμε 6 22

23 φακέλους, τους δύο αρχικούς και τους υπόλοιπους που ήρθαν στο ίδιο επίπεδο. Ακολουθήσαμε και εμείς την ίδια τακτική Διαγραφή φακέλων με λίγα μηνύματα Φάκελοι με λίγα μηνύματα είναι σύνηθες φαινόμενο για όλους τους χρήστες. Η αυτόματη ταξινόμηση θα γίνει και για τέτοιους φακέλους, αρκεί να έχουν έναν επαρκή αριθμό μηνυμάτων ώστε το σύστημα να μπορεί να εκπαιδευτεί. Φάκελοι με λιγότερα από τρία μηνύματα διαγράφτηκαν. 3.2 Επιλογή χρηστών Παρατηρήσαμε ότι η πλειοψηφία των χρηστών είχε λίγα μηνύματα και αυτό το γεγονός δεν βοηθάει στην εξαγωγή σωστών συμπερασμάτων. Έτσι επιλέξαμε να εφαρμόσουμε την αυτόματη ταξινόμηση σε επτά χρήστες της Enron, οι οποίοι είχαν τα περισσότερα μηνύματα. Παρακάτω ακολουθεί πίνακας με τους χρήστες και κάποια στατιστικά στοιχεία: Χρήστης Αριθμός φακέλων Αριθμός μηνυμάτων Αριθμός μηνυμάτων μικρότερου φακέλου Αριθμός μηνυμάτων μεγαλύτερου φακέλου beck-s farmer-d kaminski-v kitchen-l lokay-m sanders-r williams-w Πίνακας 3-: Χρήστες Enron 3.3 Στάδια εκτέλεσης αυτόματης ταξινόμησης (training/test splits) Για να γίνει η ταξινόμηση, χρειάζεται να υπάρχουν τα μηνύματα με τα οποία θα εκπαιδευτεί ο αλγόριθμος και τα μηνύματα τα οποία θα δεχτούν ταξινόμηση. Το πρώτο σύνολο μηνυμάτων ονομάζεται σύνολο εκπαίδευσης (training set) και το δεύτερο ονομάζεται σύνολο τεστ (test set). Κάθε χρήστης εκτελώντας την αυτόματη ταξινόμηση αποσκοπεί στην ταξινόμηση των νέων εισερχόμενων μηνυμάτων. Συνεπώς το σύνολο εκπαίδευσης πρέπει να αποτελείται από προηγούμενα μηνύματα, ενώ το σύνολο τεστ πρέπει να αποτελείται από μηνύματα χρονολογικά πιο φρέσκα [5]. Έτσι για κάθε χρήστη που μελετήσαμε (Πίνακας 3-), βάλαμε σε χρονολογική σειρά όλα τα μηνύματα τους. 23

24 Επίσης ο Klimt and Yang [5] πρότειναν να χωριστεί, με βάση την χρονολογική σειρά, η συλλογή μηνυμάτων ενός χρήστη σε δύο μέρη. Το πρώτο μέρος θα αποτελεί το σύνολο εκπαίδευσης και το δεύτερο μέρος θα είναι το σύνολο τεστ. Όμως ένας τέτοιος διαχωρισμός θα δημιουργούσε περίεργα αποτελέσματα για δύο λόγους. Ο πρώτος λόγος είναι ότι συνήθως τα μηνύματα ενός χρήστη δεν έχουν συνέχεια το ίδιο θέμα, οπότε μηνύματα που έχουν μεγάλες χρονολογικές διαφορές θα είναι άσχετα μεταξύ τους. Ο δεύτερος λόγος είναι ότι ένας χρήστης συχνά δημιουργεί νέους φακέλους, ενώ εγκαταλείπει κάποιους άλλους, έτσι ορισμένα μηνύματα που ανήκουν στο σύνολο τεστ μπορεί να ανήκουν σε φακέλους που να μην υπάρχουν οι αντίστοιχοι φάκελοι στο σύνολο εκπαίδευσης. Συνεπώς το σύνολο εκπαίδευσης πρέπει να μην είναι «παλιό» και να ανανεώνεται συχνά. Βέβαια ο ρυθμός ανανέωσης δεν πρέπει να είναι πολύ συχνός όπως έκαναν ο Segal and Kephart [6], οι οποίοι ανανέωναν το σύνολο εκπαίδευσης μετά από κάθε νέο εισερχόμενο μήνυμα. Στην εργασία μας, όπως και στην εργασία του πανεπιστημίου της Μασαχουσέτης, έχοντας αρχικά βάλει σε χρονολογική σειρά όλα τα μηνύματα για κάθε χρήστη, χωρίσαμε τα μηνύματα σε K κομμάτια, όπου κάθε κομμάτι είχε Ν μηνύματα (N=). Έτσι την πρώτη φορά ο αλγόριθμος ταξινόμησης εκπαιδεύτηκε στα πρώτα Ν μηνύματα και ταξινόμησε τα επόμενα Ν μηνύματα. Στην συνέχεια ο αλγόριθμος εκπαιδεύτηκε στα πρώτα 2Ν μηνύματα και ταξινόμησε τα επόμενα Ν μηνύματα κ.ο.κ. Τέλος εκπαιδεύτηκε στα (K-)N μηνύματα και ταξινόμησε τα υπόλοιπα που απέμειναν. Για παράδειγμα για τον χρήστη sanders-r έγιναν φάσεις ταξινόμησης, για να παρατηρήσουμε την απόδοση του αλγορίθμου καθώς αυξάνεται το σύνολο εκπαίδευσης. Ομοίως και για τους άλλους χρήστες. Τέλος πρέπει να τονίσουμε ότι σε κάθε περίπτωση της διαδικασίας, που αναφέραμε παραπάνω, όσα μηνύματα από το σύνολο τεστ ανήκαν σε φάκελο που δεν υπήρχε στο σύνολο εκπαίδευσης, τότε δεν λήφθηκαν υπόψη. 3.4 Αναπαράσταση μηνυμάτων Τα μηνύματα όπως είναι αυτούσια δεν μπορούν να εισαχθούν με αυτή τη μορφή στον αλγόριθμο μάθησης. Πρέπει να μετατραπούν σε κατάλληλη μορφή ώστε να είναι επεξεργάσιμα από τον αλγόριθμο ταξινόμησης. Η μορφή με την οποία συνήθως αναπαριστάται ένα μήνυμα είναι με το μοντέλο του διανυσματικού χώρου. Με άλλα λόγια κάθε μήνυμα είναι ένα διάνυσμα από όρους ή αλλιώς χαρακτηριστικά (features). Οι όροι μπορούν να είναι λέξεις (words) [6], φράσεις από λέξεις (sequence of words) [8], μέρη από λέξεις (word clusters) [7], λέξεις με συντακτική έννοια (part-of-speech tags) [] κ.ά Λέξεις (words) Το Πανεπιστήμιο της Μασαχουσέτης έκανε την αναπαράσταση των μηνυμάτων με διανύσματα λέξεων. Η επιλογή λέξεων ως όρους στα διανύσματα, απαιτεί κάποια προεργασία πριν την κατασκευή των διανυσμάτων. Ως λέξη ορίζουν μια σειρά από γράμματα, αριθμούς και από το χαρακτήρα underscore. Στην Εικόνα 3- βλέπουμε πως είναι η μορφή ενός μηνύματος. Το πανεπιστήμιο της Μασαχουσέτης για την εξαγωγή των λέξεων χρησιμοποίησε τις επικεφαλίδες και το κύριο μέρος του μηνύματος. Από τις επικεφαλίδες εξαιρέθηκε το πεδίο X-folder γιατί αναφέρει την κατηγορία στην οποία ανήκει το μήνυμα. Επίσης δεν ασχολήθηκαν με οτιδήποτε είχε σχέση με επισυναπτόμενα αρχεία. Στην συνέχεια, σε όλες τις λέξεις τα κεφαλαία γράμματα αντικαταστάθηκαν με πεζά γράμματα (downcased). 24

25 Message-ID: Date: Tue, 3 Oct 2 4:44: -7 (PDT) From: bob.lee@enron.com To: michael.anderson@enron.com Subject: Re: Joint Probabilities Cc: stinson.gibner@enron.com, vince.kaminski@enron.com, zimin.lu@enron.com Mime-Version:. Content-Type: text/plain; charset=us-ascii Content-Transfer-Encoding: 7bit Bcc: stinson.gibner@enron.com, vince.kaminski@enron.com, zimin.lu@enron.com X-From: Bob Lee X-To: Michael Anderson X-cc: Stinson Gibner, Vince J Kaminski, Zimin Lu X-bcc: X-Folder: \Vincent_Kaminski_Jun2_5\Notes Folders\Azurix\Azurix X-Origin: Kaminski-V X-FileName: vkamins.nsf Michael The updated probabilities are attached. The probability of reaching any Fx times RAB multiple are the same as the original analysis. The probabilities of reaching a given stock price are lower than the original analysis in both the optimistic and pessimistic cases because the debt levels are higher, and hence the stock value is lower for any Fx-RAB value. Bob Lee x3563 Εικόνα 3-: Παράδειγμα μηνύματος Ύστερα, έχοντας εξάγει τις λέξεις από όλα τα μηνύματα, για να αποφύγουν το πρόβλημα της διαστασιμότητας, αφαίρεσαν τις πιο κοινές λέξεις και τις λέξεις που εμφανίζονται μια φορά. Για την εύρεση των πιο κοινών λέξεων σε μια συγκεκριμένη γλώσσα υπάρχουν έτοιμες λίστες από λέξεις γνωστές ως stop-word lists. Οι λόγοι για τον οποίους γίνεται η μείωση της διαστασιμότητας είναι δυο. Ο πρώτος λόγος είναι η μείωση της πολυπλοκότητας των υπολογισμών για τον αλγόριθμο ταξινόμησης. Έτσι θα έχουμε μείωση του χρόνου εκπαίδευσης του συστήματος. Ο δεύτερος λόγος είναι ότι δεν είναι πάντα σίγουρο ότι όσο πιο πολλούς όρους έχουμε στα διανύσματα τόσο πιο μεγάλη ακρίβεια ταξινόμησης θα έχει ο αλγόριθμος. Στις λέξεις που απέμειναν δεν έκαναν λημματοποίηση (stemming). H λημματοποίηση είναι η μετατροπή μιας λέξης στην ρίζα από την οποία προέρχεται. Για παράδειγμα οι λέξεις computer και compute έχουν το ίδιο λήμμα, δηλαδή το comput. Με αυτό τον τρόπο μειώνεται ο συνολικός αριθμός των λέξεων, συνεπώς και του διανύσματος. Παρόλα αυτά δεν εφαρμόστηκε. 25

26 3.4.2 N-grams Στην δική μας περίπτωση, δεν χρησιμοποιήσαμε τις λέξεις για την αναπαράσταση των μηνυμάτων. Χρησιμοποιήσαμε συμβολοσειρές σταθερού μήκους (n-grams) και ονόματα (Name Entities). Ένα n-gram είναι ένα κομμάτι n χαρακτήρων από μια μεγαλύτερη συμβολοσειρά []. Κατά την δημιουργία των ngrams σε ένα κείμενο, ο χαρακτήρας κενό (space character) αντιμετωπίζεται σαν απλός χαρακτήρας που συνήθως αντικαθιστάται από την κάτω παύλα (underscore) και δεν οριοθετεί τα ngrams όπως οριοθετεί τις λέξεις. Έτσι ένα ngram μπορεί να αποτελείται από τους τελευταίους χαρακτήρες μιας λέξης, το κενό (ως κάτω παύλα) και τους αρχικούς χαρακτήρες της επόμενης λέξης. Για παράδειγμα, στην φράση TEXT CATEGORIZATION αν n = 3, τότε τα tri-grams είναι { TEX, EXT, XT_, T_C, _CA, CAT, ATE, TEG, EGO, GOR, ORI, RIZ, IZA, ZAT, ATI, TIO, ION }. Όπως βλέπουμε ο χαρακτήρας κενό έχει αντικατασταθεί με την κάτω παύλα. Γενικά, αν Α το σύνολο των χαρακτήρων ενός αλφάβητου, A ο αριθμός των χαρακτήρων του συνόλου Α και Α(n) ο αριθμός των μοναδικών n-grams για το σύνολο Α, τότε A(n) = A n.για παράδειγμα, το λατινικό αλφάβητο που περιέχει 27 χαρακτήρες, συμπεριλαμβανομένου και του κενού χαρακτήρα, έχει για n =, 27 uni-grams. Για n = 2 έχει 27 2 = 729 bi-grams, ενώ για n = 3 έχει 27 3 = 9683 tri-grams. Στην πραγματικότητα, δεν πρόκειται να συναντήσουμε όλα τα ngrams σε μια συλλογή κειμένων. Αυτό συμβαίνει γιατί σε μια γλώσσα π.χ. την Αγγλική δεν πρόκειται να συναντήσουμε το tri-gram qqq, όπως και πολλά άλλα. Όπότε στην πραγματικότητα ο αριθμός των ngrams είναι μικρότερος από το A n. Η χρήση των ngrams προσφέρει αρκετά πλεονεκτήματα σε αντίθεση με την χρήση των λέξεων, τα οποία είναι: Ανθεκτικά στα ορθογραφικά λάθη, που συχνά εμφανίζονται στα μηνύματα εμαιλ που γράφονται βιαστικά. Έτσι αν μια λέξη έχει ένα ορθογραφικό λάθος, τότε με την μέθοδο των λέξεων, θα ήταν άχρηστη. Αντίθετα στην περίπτωση των ngrams, θα αποτύχει (δηλαδή θα είναι άχρηστο) ένα ngram από το σύνολο των ngrams που θα παραχθούν από την συγκεκριμένη λέξη. Γνωστό το σύνολο των features. Για ένα κείμενο ή μια συλλογή κειμένων μπορούμε να υπολογίσουμε τον μέγιστο αριθμό των πιθανών ngrams. Αντίθετα με τις λέξεις δεν είναι εφικτό. Ανεξάρτητα από το θέμα. Αν ασχολούμαστε με μια συλλογή κειμένων με θέμα είτε την ιατρική, είτε την λογοτεχνία, τα ngrams δεν έχουν καμία πληροφορία που να δείχνει από ποια συλλογή προήλθαν. Αντίθετα, στην περίπτωση των λέξεων, οι λέξεις θα είχαν σχέση με το θέμα των κειμένων της συλλογής. Δεν χρειάζονται επεξεργασίες, όπως λημματοποίηση και αφαίρεση κοινών λέξεων (stop-words). Ανεξάρτητα από την γλώσσα. Είτε ασχολούμαστε με μια συλλογή αγγλικών κειμένων, είτε γερμανικών κειμένων, τα ngrams που θα προκύψουν δεν θα έχουν το χαρακτηριστικό της γλώσσας. Αντίθετα, στην περίπτωση των λέξεων, θα ήταν απαραίτητη η ύπαρξη λίστας με κοινές λέξεις στη συγκεκριμένη γλώσσα, καθώς και λίστας stemming. 26

27 Όμως η χρήση των ngrams έχει και δύο μειονεκτήματα, τα οποία είναι: Το πλήθος των ngrams. Ο αριθμός τους είναι πολύ μεγάλος όσο το n αυξάνεται και αυτό δημιουργεί την ανάγκη για περισσότερη μνήμη στο σύστημα. Περιορισμένη πληροφορία. Όπως είπαμε, κάθε κείμενο της συλλογής θα αναπαριστάται από ένα διάνυσμα από όρους (features) σταθερού μεγέθους. Αν αυτοί οι όροι είναι λέξεις τότε το διάνυσμα περιέχει περισσότερη πληροφορία έναντι των ngrams, γιατί αν δημιουργούσαμε ngrams από τις λέξεις που χρησιμοποιούνται ως όροι, τότε τα ngrams θα ήταν πολύ παραπάνω σε αριθμό Ονόματα (Name Entities) Τα ονόματα είναι ουσιαστικά λέξεις αλλά αναφέρονται μόνο σε πρόσωπα, εταιρίες και τοποθεσίες. Στη συλλογή μηνυμάτων της Enron αναφέρονται αρκετά ονόματα και προκαλούν το ενδιαφέρον για την αυτόματη ταξινόμηση εμαιλ, χρησιμοποιώντας τα ονόματα ως χαρακτηριστικά (features) για την κατασκευή διανυσμάτων. Το εργαλείο το οποίο χρησιμοποιήσαμε για να εντοπίσουμε τα ονόματα στη συλλογή είναι το Name Entity Recognition () από το Πανεπιστήμιο Stanford. Πρόκειται για ένα πρόγραμμα που έχει ως είσοδο ένα κείμενο και δίνει ως έξοδο το ίδιο κείμενο έχοντας προσαρτήσει ετικέτες (πρόσωπο, εταιρία, τοποθεσία) σε κάθε όνομα που έχει βρει. Στη παρούσα εργασία αναπαραστήσαμε τα κείμενα με πέντε τρόπους: διανύσματα μόνο με τη χρήση διανύσματα μόνο με τη χρήση διανύσματα μόνο με τη χρήση Ονομάτων () διανύσματα με τη χρήση και Ονομάτων () διανύσματα με τη χρήση και Ονομάτων () Για την δημιουργία των, και Ονομάτων χρησιμοποιήσαμε δύο μέρη από κάθε μήνυμα, την επικεφαλίδα Θέμα (Subject) και το Κύριο Μέρος (Body). Στην περίπτωση των ngrams, κάθε μήνυμα καθαρίστηκε και οι χαρακτήρες που παρέμειναν ήταν τα πεζά γράμματα (a-z), τα κεφαλαία γράμματα (A-Z), ο κενός χαρακτήρας (ο οποίος μετατράπηκε σε κάτω παύλα) και όποια νούμερα ήταν στην αρχή, στο τέλος ή ενδιάμεσα μιας λέξης. Για παράδειγμα η φράση The user George85 has 5 posts!!! μετατράπηκε σε The_user_George85_has_posts. Δεν μετατρέψαμε τους κεφαλαίους χαρακτήρες σε πεζούς, αλλά τους αφήσαμε όπως ήταν γιατί πιστεύουμε ότι δίνουν μια επιπρόσθετη πληροφορία. Στην περίπτωση των ονομάτων () κάθε μήνυμα δέχτηκε την εξής επεξεργασία. Οι χαρακτήρες αλλαγή γραμμής (\r και \n), οι χαρακτήρες < και >, ο χαρακτήρας tab (\t) και ο χαρακτήρας / αντικαταστάθηκαν με τον χαρακτήρα κενό. Χρησιμοποιήσαμε τον χαρακτήρα κενό και όχι την κάτω παύλα, γιατί το εργαλείο εντοπίζει λέξεις. Τέλος οι χαρακτήρες που αναφέραμε, αντικαταστάθηκαν με το κενό για την ομαλή λειτουργία του εργαλείου. 27

28 3.5 Επιλογή χαρακτηριστικών (Feature Selection) Όπως αναφέραμε παραπάνω, ο αριθμός των χαρακτηριστικών που προκύπτουν από μια συλλογή είναι πολύ μεγάλος και απαιτείται η επιλογή των κυριότερων χαρακτηριστικών για την αποφυγή του προβλήματος της διαστασιμότητας. Στην δική μας περίπτωση θέλαμε να έχουμε όριο. χαρακτηριστικά. Δύο γνωστά κριτήρια επιλογής χαρακτηριστικών είναι η συχνότητα ενός όρου CF (Corpus Frequency) σε ολόκληρο το κείμενο εκπαίδευσης (training corpus) και το κριτήριο IDF (Inverse Document Frequency). Το CF είναι ο αριθμός εμφανίσεων ενός χαρακτηριστικού σε όλα τα μηνύματα και παίρνει τιμές μεγαλύτερες του. Το IDF είναι ένα νούμερο που δείχνει την σημαντικότητα ενός χαρακτηριστικού στη συλλογή. Όσο πιο πολλά κείμενα (μηνύματα) έχουν τον ίδιο όρο, τότε μειώνεται η σημαντικότητα του συγκεκριμένου όρου. Αν όλα τα κείμενα έχουν τον ίδιο όρο, τότε η σημαντικότητα του όρου είναι ίση με μηδέν. Αν ένας όρος υπάρχει μόνο σε ένα μήνυμα, τότε το IDF λαμβάνει την μέγιστη τιμή του. Ο παρακάτω τύπος δείχνει πως υπολογίζουμε το IDF για έναν όρο i. IDFi log 2 N DF i (3.) όπου Ν είναι το πλήθος των μηνυμάτων του συνόλου εκπαίδευσης και το DF i (document frequency) είναι το πλήθος των μηνυμάτων του συνόλου εκπαίδευσης που περιέχουν τον όρο i. Παρατηρούμε ότι το DF έχει άμεση σχέση με το IDF και όσο αυξάνεται το ένα, μειώνεται το άλλο. Συνεπώς και το DF μπορεί να αποτελέσει ένα κριτήριο για την επιλογή χαρακτηριστικών, άρα όταν θα ζητάμε χαρακτηριστικά με υψηλή σημαντικότητα (IDF υψηλό) στην ουσία ζητάμε χαρακτηριστικά που εμφανίζονται σε λίγα μηνύματα (DF χαμηλό). Όπως αναφέραμε το πανεπιστήμιο της Μασαχουσέτης αφαίρεσε τις πιο κοινές λέξεις και τις λέξεις που είχαν συχνότητα ίση με ένα (CF=). Στην περίπτωση την δική μας, δεν μπορούμε να κάνουμε το ίδιο γιατί τα ngrams είναι πολύ παραπάνω σε αριθμό. Για αυτό ακριβώς τον λόγο επιλέξαμε με βάση το CF και το DF. Ο λόγος για τον οποίο χρησιμοποιήσαμε το DF είναι για να απλοποιηθεί η διαδικασία. Τα κριτήρια αυτά χρησιμοποιήθηκαν για όλες τις περιπτώσεις, ngrams και ονόματα. Έχοντας αποφασίσει ποια θα είναι τα κριτήρια επιλογής χαρακτηριστικών, το πρόβλημα εστιάζεται στο ποια θα είναι η τιμή τους που θα αποδώσει τα καλύτερα αποτελέσματα στην αυτόματη ταξινόμηση. Ένα χαρακτηριστικό i όταν εμφανίζεται μόνο μία φορά στο σύνολο εκπαίδευσης δηλαδή CF i =, ή όταν εμφανίζεται μόνο σε ένα μήνυμα, δηλαδή DF i =, τότε αυτό το χαρακτηριστικό είναι άχρηστο. Η πρώτη περίπτωση, που το CF i =, ενδέχεται να είναι χαρακτηριστικό που έχει προέλθει από ορθογραφικό λάθος. Στη δεύτερη περίπτωση, που το DF i =, το χαρακτηριστικό i δεν υπάρχει σε άλλα μηνύματα και δεν μπορεί να δημιουργήσει μια σχέση μεταξύ μηνυμάτων. Άρα μέχρι τώρα έχουμε καταλήξει ότι τα κριτήρια πρέπει να έχουν τιμή μεγαλύτερη του. Για να βρούμε την κατάλληλη τιμή για κάθε ένα κριτήριο, κάναμε πειράματα με τους συνδυασμούς για CF = 2 έως CF = 6 και DF = 2 έως DF = 5. Για κάθε χρήστη ήταν 2 πειράματα για τα, 2 πειράματα για τα και 2 πειράματα για τα ονόματα (). Επειδή τα συνολικά πειράματα ήταν 6 για κάθε χρήστη, κάναμε τα πειράματα στους 4 από τους 7 χρήστες της Enron. Οι χρήστες ήταν οι beck-s, lokay-m, sanders-r, williams-w3. Σκοπός μας ήταν να βρούμε τα κατάλληλα CF-DF για κάθε περίπτωση ταξινόμησης (,, ) τα οποία θα ήταν κοινά για τους 4 χρήστες και οι αλγόριθμοι ταξινόμησης (Naive Bayes, SMO) θα έδιναν καλά αποτελέσματα. 28

Δείτε περισσότερα