Aueb Spam Filter A personal spam filter for Thunderbird Μπόχτης Δημήτρης
Το Πρόβλημα του Spam 2005 30 δισεκατομμύρια ημερησίως. 2006 55 δισεκατομμύρια ημερησίως. 2007 (Φεβ.) 90 δισεκατομμύρια ημερησίως. 2007 (Ιουν.) 100 δισεκατομμύρια ημερησίως. 85% της εισερχόμενης αλληλογραφίας χαρακτηρίζεται ως μη επιθυμητή.
Κόστος εξαιτίας του Spam Κόστος που οφείλεται σε χαμένες εργατοώρες. 21,58 δισεκατομμύρια δολάρια στις ΗΠΑ (2004). 50 δισεκατομμύρια δολάρια παγκοσμίως. Σήμερα η βιομηχανία του IT διαθέτει 198 δις δολάρια για την αντιμετώπιση του Spam. Κατανομή κόστους: Αποστολέας 0,01%. Παραλήπτης το υπόλοιπο.
Τρόποι Αντιμετώπισης Authenrcaron and Reputaron Challenge/response systems DNS based Blacklists Greylisrng Hybrid filtering(spamassasin etc.) Starsrcal content filtering
Προσωπικά Φίλτρα Αντιμετώπιση Spam σε επίπεδο τελικού παραλήπτη. Κατανομή υπολογιστικής πολυπλοκότητας στους τελικούς χρήστες. Όχι άμεση απελευθέρωση δικτυακών πόρων. Προσαρμογή στις εκάστοτε ανάγκες του χρήστη Ο χαρακτηρισμός ενός μηνύματος ως spam έχει και υποκειμενικά κριτήρια. Κατάλληλο και για τον μη μέσο χρήστη. Ανάγκη για αρχική τουλάχιστον εκπαίδευση του φίλτρου. Επίτευξη μεγαλύτερης ακρίβειας και αποτελεσματικότητας.
Τι είναι το Aueb Spam Filter Προσωπικό φίλτρο ανεπιθύμητης ηλεκτρονικής αλληλογραφίας. Χρήση παραλλαγών απλού ταξινομητή Naïve Bayes. Υλοποιήση συστήματος «απόδειξης ανθρώπινης αλληλεπίδρασης». Ενσωμάτωση με την μορφή extension στο Mozilla Thunderbird.
Αueb Spam Filter Classifiers Mulrnomial Naïve Bayes with transformed TF aåributes Default Mulrnomial Naïve Bayes with TF aåributes Mulrnomial Naïve Bayes with Boolean aåributes Mulrvariate Bernoulli Naïve Bayes Σχετικά Α. Κοσμόπουλος, "Διήθηση ανεπιθύμητης ηλεκτρονικής αλληλογραφίας με διάφορες μορφές του απλοϊκού ταξινομητή Bayes και διαμοιρασμό φίλτρων μεταξύ χρηστών", μεταπτυχιακή διπλωματική εργασία, Τμήμα Πληροφορικής, Οικονομικό Πανεπιστήμιο Αθηνών, 2007.
Screenshot 1
White Lists Επιλογή εξαίρεσης των διευθύνσεων του Address Book. Μείωση υπολογιστικής πολυπλοκότητας. Εξασφάλιση παραλαβής μηνυμάτων από έγκυρους παραλήπτες. Μείωση αριθμού False posirves.
Training Data Από τα μηνύματα εκπαίδευσης διατηρούνται: Τα tokens Ο συνολικός αριθμός εμφανίσεων τους σε spam και legit μηνύματα. Ο αριθμός των spam μηνυμάτων που περιέχουν το token. Ο αριθμός των legit μηνυμάτων που περιέχουν το token.
Training Data 2 Διατίθεται επιλογή χρήσης των Ν τελευταίων μαρκαρισμένων μηνυμάτων ως σύνολο εκπαίδευσης. Διατήρηση μεγέθους του συνόλου σε μικρό και ταυτόχρονα αποτελεσματικό μέγεθος. Γρήγορη προσαρμογή σε αλλαγές των προτιμήσεων του χρήστη.
Filtering Levels Τέσσερεις διαθέσιμες στάθμες αυστηρότητας του φίλτρου: Low Normal High Custom Ρύθμιση του φίλτρου για πιο γρήγορη σύγκλιση.
Screenshot 2
Human Interacrve Proofs Υλοποίηση συστήματος «απόδειξης ανθρώπινης αλληλεπίδρασης». Όταν ένα μήνυμα κατατάσσεται ως Spam Τοποθετείται προσωρινά σε ένα φάκελο αναμονής. Αποστέλλεται ένα μήνυμα στον αποστολέας του με ένα challenge (ερώτηση φυσικής γλώσσας). Αναμονή μερικών ημερών για το response. Αν έχουμε σωστή απάντηση το μήνυμα χαρακτηρίζεται ως Ham, προσθήκη αποστολέα στη white list. Aν όχι το μήνυμα κατατάσσεται ως spam.
Human Interacrve Proofs 2 Σε πειραματικό στάδιο Προϋποθέσεις Η διεύθυνση αποστολέα να είναι έγκυρη. Να αντιστοιχεί σε άνθρωπο ώστε να μπορεί να απαντήσει στο challenge Σχετικές τεχνολογίες DKIM SenderID
Screenshot 3
Starsrcs Διατήρηση Στατιστικών Spams Marked αριθμός μηνυμάτων μαρκαρισμένων ως spam. Hams Marked αριθμός μηνυμάτων μαρκαρισμένων ως ham. False Posirves αριθμός μηνυμάτων που το φίλτρο ταξινόμησε ως spam και ο χρήστης έπειτα τα μάρκαρε ως ham. False Negarves αριθμός μηνυμάτων που το φίλτρο ταξινόμησε ως ham και ο χρήστης έπειτα τα μάρκαρε ως spam. True Posirves shows how many messages the filter had classified as spam and the user did not mark manually (did not correct) as ham. It is assumed that if the user does not correct the decision of the filter for a message, the filter has guessed the correct class of the message. True Negarves shows how many messages the filter had classified as ham and the user did not mark manually (did not correct) as spam. Δυνατότητα Αποστολής Στατιστικών μέσω e mail.
Screenshot 4
Training Data Export/Import Δυνατότητα εξαγωγής του συνόλου εκπαίδευσης και εισαγωγής στου σε άλλη εγκατάσταση του Aueb Spam Filter. Πιο εύκολη η πειραματική αξιολόγηση. Δυνατότητα διάθεσης προεκπαιδευμένων φίλτρων. Μικρότερη ανάγκη αρχικής εκπαίδευσης. Προσοχή κατά τη διάθεση τους Προστασία προσωπικών δεδομένων
Τεχνικά Θέματα Το extension : javascript Χρήση του Mozilla Framework Οι ταξινομητές C++ Μορφή dll Καλούνται από την javascript σαν XPCOM Components Περισσότερα στο MDC håp://developer.mozilla.org
Σύγκριση με Thunderbird Junk Mail Control Χρήση της συλλογής μηνυμάτων Enron Spam Αξιολογείται το σώμα του μηνύματος Αναπαράσταση σε καμπύλες ROC (spam recall, 1 ham recall) Απαλείφονται Html tags Headers (εκτός του subject) Συννημένα
Σύγκριση με Thunderbird Junk Mail Control 2
Σύγκριση με Thunderbird Junk Mail Control 3 Υπερτερεί η πολυωνυμική μορφή με μετασχηματισμένα χαρακτηριστικά TF Εξίσου υψηλά ποσοστά SR πετυχαίνει και το JMC Όμως όχι στην περιοχή όπου το 1 HR τείνει στο 0. Περιοχή που δεν ταξινομούνται legit μηνύματα ως spam Χαρακτηριστικό ιδιαίτερα βασικό για κάθε φίλτρο.
Επεκτάσεις Ανταλλαγή Φίλτρων Συνδυασμός με DKIM ή SenderID και πειραματική αξιολόγηση HIPs. Ανάπτυξη extension για το Mozilla Firefox Πχ. Web based φίλτρο για το gmail.
Περισσότερα... Bochrs, D. (2007). Development of an e mail filter for Mozilla Thunderbird. BSc thesis, Athens University of Economics and Business, Department of Informarcs. Kosmopoulos, A. (2007). E mail spam filtering with various forms of the Naive Bayes classifier and filter sharing among users. MSc thesis, Athens University of Economics and Business, Department of Informarcs. Metsis, V., Androutsopoulos, I., & Paliouras, G. (2006). Spam Filtering with Naive Bayes Which Naive Bayes? 3rd Conference on Email and AnD Spam. Mountain View, CA. Michelakis, E., Androutsopoulos, I., Paliouras, G., Sakkis, G., & Stamatopoulos, P. (2004). Filtron: A Learning Based Anr Spam Filter. 1st Conference on Email and AnD Spam. Mountain View, CA. Vassilakis, D., Androutsopoulos, I., & Mageirou, E. (2007). A Game Theorerc Invesrgaron of the Effect of Human Interacrve Proofs on Spam E mail. 4th Conference on Email and AnD Spam. Mountain View, CA.
Download/Support håp://venus.cslab.aueb.gr/forum/viewtopic.php?f=90&t=5880 håp://venus.cslab.aueb.gr/forum Ερευνητική Δραστηριότητα Aueb Spam Filter