Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Οικονομικό Πανεπιστήμιο Αθηνών Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης Άρης Κοσμόπουλος

Πρόβλημα ανεπιθύμητων μηνυμάτων Περισσότερα από το 60% των ηλεκτρονικών μηνυμάτων είναι ανεπιθύμητα (spam). Χρειαζόμαστε έναν τρόπο ανίχνευσής τους με τα εξής χαρακτηριστικά: i. Μικρή πιθανότητα λαθών (2 τύποι λαθών): 1) Κατάταξη ενός ανεπιθύμητου μηνύματος ως επιθυμητού. 2) Κατάταξη ενός επιθυμητού μηνύματος ως ανεπιθύμητου. (Πιο σημαντικό) ii. Υψηλός βαθμός αυτοματοποίησης. iii. Ανεπαίσθητη χρονική επιβάρυνση.

Πρόβλημα ανεπιθύμητων μηνυμάτων Περισσότερα από το 60% των ηλεκτρονικών μηνυμάτων είναι ανεπιθύμητα (spam). Χρειαζόμαστε ένα τρόπο ανίχνευσης τους με τα εξής χαρακτηριστικά: i. Μικρή πιθανότητα λαθών (2 τύποι λαθών): 1) Κατάταξη ενός ανεπιθύμητου μηνύματος ως επιθυμητού. 2) Κατάταξη ενός επιθυμητού μηνύματος ως ανεπιθύμητου. (Πιο σημαντικό) ii. Υψηλός βαθμός αυτοματοποίησης. iii. Ανεπαίσθητη χρονική επιβάρυνση.

Μερικές μέθοδοι αντιμετώπισης προβλήματος Χρήση κεντρικών ή κατανεμημένων βάσεων δεδομένων. Αποτυπώματα ανεπιθύμητων μηνυμάτων που έχουν αναφερθεί (π.χ. κωδικοί κατακερματισμού). Πρόβλημα: προσθήκητυχαίωντμημάτωνκειμένωνσεκάθεαντίγραφο ανεπιθύμητου μηνύματος. Χρήση Black/White Lists. Αποθήκευση IPs ή ηλεκτρονικών διευθύνσεων. Πρόβλημα: δυναμικά ΙPs ήψεύτικεςδιευθύνσεις. Χρήση αλγορίθμων μηχανικής μάθησης. Πλεονέκτημα: εξειδίκευση φίλτρων στις ανάγκες του εκάστοτε χρήστη και προσαρμογή στη θεματολογία των ανεπιθύμητων μηνυμάτων. Μειονέκτημα: ανάγκη εκπαίδευσης των φίλτρων με συλλογές μηνυμάτων.(προβλήματα προστασίας προσωπικών δεδομένων).

Περιεχόμενα παρουσίασης Σκοπός εργασίας Μορφές απλοϊκού ταξινομητή Bayes που χρησιμοποιήθηκαν Πειράματα επιλογής της «καλύτερης» μορφής απλοϊκού ταξινομητή Bayes Ιδιότητες που αντιστοιχούν σε n-γράμματα χαρακτήρων Πειράματα με ανταλλαγή φίλτρων και ομαδικό φίλτρο Τελικά συμπεράσματα Μελλοντικές επεκτάσεις

Απλοϊκός ταξινομητής Bayes You have won a prize!! Κάθε xi αντιστοιχεί σε μια ιδιότητα. Στα κείμενα αγνοούμε: Κείμενο εκτός body και subject. HTML ετικέτες, εικόνες. Συνημμένα. Ένα μήνυμα κατατάσεται ως spam αν: Αν λογαριθμίσουμε παίρνουμε τον εξής τύπο:

Ιδιότητες Κάθε μια ιδιότητα παρέχει πληροφορίες για: μία διαφορετική λεκτική μονάδα (token) ή μία ακολουθία χαρακτήρων (n-γράμματα, n-grams) του μηνύματος. Π.χ. αν η πρότασή μας είναι «I_am_Aris», περιέχει: token: «I», «am», «Aris» 3-grams: I_a», «_am», «am_», «m_a», «_Ar», «Ari», «ris». Αγνοούμε tokens/n-grams, που εμφανίζονται σε λιγότερα από 5 μηνύματα εκπαίδευσης. Κρατάμε τις m ιδιότητες, με το μεγαλύτερο πληροφοριακό κέρδος. Το πληροφοριακό κέρδος μετράει την αναμενόμενη μείωση της εντροπίας της C (κατηγορία του μηνύματος), στην οποία οδηγεί η γνώση της τιμής της Χ.

Πολυμεταβλητή μορφή Bernoulli του απλοϊκού ταξινομητή Bayes You have won a prize!! prize money! Κάθε μεταβλητή xi δείχνει αν μια λεκτική μονάδα ti εμφανίζεται στο μήνυμα ή όχι. Θεωρούμε ότι πραγματοποιούνται m ανεξάρτητες δοκιμές Bernoulli. Spams εκπαίδευσης στα οποία εμφανίζεται το ti Σύνολο μηνυμάτων spam εκπαίδευσης

Πολυωνυμικός απλοϊκός ταξινομητής Bayes με ιδιότητες TF You have won a prize!! prize money! Πολυωνυμική κατανομή: Θεωρούμε ότι το μέγεθος του μηνύματος ( d ) σε λεκτικές μονάδες δεν εξαρτάται από την κατηγορία (spam ή ham). Συνολικός αριθμός εμφανίσεων ti στα spam εκπαίδευσης Συνολικός αριθμός tokens στα spam εκπαίδευσης

Πολυωνυμικός απλοϊκός ταξινομητής Bayes με δυαδικές ιδιότητες You have won a prize!! prize money! Όμοιος με τον πολυωνυμικό απλοϊκό ταξινομητή Bayes με ιδιότητες TF, με τη διαφορά ότι εδώ οι ιδιότητες είναι δυαδικές. Συνολικός αριθμός εμφανίσεων ti στα spam εκπαίδευσης Συνολικός αριθμός tokens στα spam εκπαίδευσης

Πολυωνυμικός απλοϊκός ταξινομητής Bayes με μετασχηματισμένες ιδιότητες Βήματα μετασχηματισμού: 1. TF μετασχηματισμός: TF Προσπαθεί να αντιμετωπίσει το ότι ο αριθμός εμφανίσεων μιας λεκτικής μονάδας δεν ακολουθεί πολυωνυμική κατανομή. 2. IDF Μετασχηματισμός: Μεγαλύτερη βαρύτητα σε λέξεις που δεν εμφανίζονται σε πολλά μηνύματα. 3. Κανονικοποίηση μήκους: Κανονικοποίηση ως προς το μήκος του μηνύματος.

Άλλες μορφές Πολυμεταβλητή μορφή Gauss τουαπλοϊκούταξινομητήbayes: Θεωρεί ότι κάθε ιδιότητα ακολουθεί κανονική κατανομή δεδομένης της κατηγορίας του μηνύματος. Μπορεί να χειριστεί πραγματικές τιμές ιδιοτήτων. Απορρίφθηκε λόγω κακών αποτελεσμάτων και προβλημάτων εκτίμησης της τυπικής απόκλισης (μηδενικές εκτιμήσεις). Flexible Bayes: Θεωρεί ότι κάθε ιδιότητα ακολουθεί μείγμα κανονικών κατανομών. Απορρίφθηκε κυρίως λόγω αυξημένης πολυπλοκότητας. Το φίλτρο του Paul Graham : Χρησιμοποιείται σε πολλά διαθέσιμα φίλτρα.

Διαγράμματα ROC 95% διαστήμα εμπιστοσύνης Θέλουμε:

Συλλογές μηνυμάτων 1. Συλλογή Enron-Spam Subject: learn to make a fortune on ebay! You are very lucky today!!!!!!! 2. Συλλογή Δημόκριτου ham + spam ham:spam ham, spam periods user 1 8134:1731 14.11.2005-15.06.2006 user 2 3045:7081 14.11.2005-15.06.2006 user 3 3562:9982 14.11.2005-15.06.2006 user 4 7785:9729 14.11.2005-15.06.2006 user 5 4670:3604 14.11.2005-15.06.2006 user 6 9214:11497 14.11.2005-15.06.2006 Subject: 692 2 134782 975 47869 149101 149102 149103 149104 149105 Αντικατάσταση token με αριθμούς

Πειράματα επιλογής της καλύτερης μορφής απλοϊκού ταξινομητή Bayes Χρησιμοποιήσαμε και τις δύο συλλογές μηνυμάτων. 1. Την πρώτη για επιβεβαίωση ορθότητας λογισμικού (σύγκριση με αποτελέσματα προηγούμενου άρθρου). 2. Την δεύτερη για την επιλογή «καλύτερου» ταξινομητή. Αγνοήσαμε tokens που δεν εμφανίζονται σε τουλάχιστον 5 διαφορετικά μηνύματα. Επιλέξαμε τις m ιδιότητες με το υψηλότερο πληροφοριακό κέρδος για m = 500, 1000, 3000, ALL. train1 test1 test2 test3 train2 train3

Multinomial, TF transformed attributes Paul Graham Multivariate Bernoulli Multinomial, Boolean attributes Συμπεράσματα: 1.Υπεροχή του πολυωνυμικού απλοϊκού ταξινομητής Bayes με μετασχηματισμένες TF ιδιότητες. 2.Αντικατάσταση Paul Graham. Multinomial, TF attributes Συλλογή μηνυμάτων Δημόκριτου

Σύγκριση πολυωνυμικού απλοϊκού ταξινομητή Bayes για διάφορα πλήθη ιδιοτήτων. 3000 ALL 1000 500 Συμπεράσματα: 1.Καλύτερα αποτελέσματα για m = 3000. 2.Πολύ κοντά στο m=all. Άρα δεν αξίζει να διαλέγουμε τις m καλύτερες ιδιότητες, βάσει πληροφοριακού κέρδους. Άρα συνεχίζουμε τα πειράματα για m = ALL

Ιδιότητες που αντιστοιχούν σε n- γράμματα χαρακτήρων Συμπέρασμα: Τα tokens δίνουν καλύτερα αποτελέσματα. Συλλογή μηνυμάτων Enron Χωρίς επιλογή m καλύτερων ιδιοτήτων βάσει πληροφοριακού κέρδους

Πειράματα με ανταλλαγή φίλτρων και ομαδικό φίλτρο Ημέρα 1 2 3 Η 1. Κάθε χρήστης επανεκπαιδεύει το φίλτρο του στο τέλος της μέρας. 2. Στέλνει το φίλτρο του σε όλους τους άλλους. 3. Κάθε χρήστης υπολογίζει το βαθμό εμπιστοσύνης τουσεκάθεφίλτρο. Ημέρα Η+1 Χρήστης 1 Χρήστης 2 Χρήστης 3 Χρήστης 4 Χρήστης 5 Χρήστης 6 Προσδιορισμός Βαθμού Εμπιστοσύνης 1.Μετράμε πόσα (Xi) από τα προηγούμενα μηνύματα του συγκεκριμένου χρήστη κατατάσσει σωστά κάθε φίλτρο (i). 2.Ο βαθμόςεμπιστοσύνηςσεκάθεφίλτρο(i) ισούται με:

Συμπεράσματα Το ομαδικό φίλτρο έδωσε τα καλύτερα αποτελέσματα. Η ανταλλαγή φίλτρων έδωσε τα χειρότερα αποτελέσματα. Συλλογή μηνυμάτων Δημόκριτου Χωρίς επιλογή m καλύτερων ιδιοτήτων βάσει πληροφοριακού κέρδους

Τελικά συμπεράσματα Ο πολυωνυμικός απλοϊκός ταξινομητής Bayes με μετασχηματισμένες TF ιδιότητες δίνει τα καλύτερα αποτελέσματα. Μπορεί να αντικαταστήσει το φίλτρο του Paul Graham. Οι λεκτικές μονάδες είναι προτιμότερες των 3- γραμμάτων. Η χρήση ομαδικού φίλτρου δείχνει να είναι προτιμότερη από τη χρήση ατομικών ή την ανταλλαγή ατομικών φίλτρων.

Μελλοντικές Επεκτάσεις Εναλλακτικοί τρόποι υλοποίησης της ανταλλαγής φίλτρων. Ενσωμάτωση φίλτρων στο Thunderbird. (Έχει ήδη ξεκινήσει από συνάδελφο φοιτητή.) Υλοποίηση ενός πραγματικού συστήματος με δυνατότητες ανταλλαγής φίλτρων.

Ευχαριστώ πολύ, Άρης Κοσμόπουλος