Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Σχετικά έγγραφα
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Aueb Spam Filter. A personal spam filter for Thunderbird. Μπόχτης Δημήτρης

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Οικονοµικό Πανεπιστήµιο Αθηνών. ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη φίλτρου διήθησης ηλεκτρονικής αλληλογραφίας για το Mozilla Thunderbird» ηµήτρης Μπόχτης

Ασκήσεις μελέτης της 16 ης διάλεξης

Διάλεξη 18: Πρόβλημα Βυζαντινών Στρατηγών. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Ερωτήσεις Ασκήσεις στη Διαλογή Έργου και Επιλογή

Προγραμματισμός Υπολογιστών με C++

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Διαλογικά Συσ τήματα Αποδείξεων Διαλογικά Συστήματα Αποδείξεων Αντώνης Αντωνόπουλος Κρυπτογραφία & Πολυπλοκότητα 17/2/2012

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

Προγραμματισμός Υπολογιστών με C++

Εκλογή αρχηγού σε σύγχρονο δακτύλιο: Οι αλγόριθμοι LCR και HS. 1 Ο αλγόριθμος LCR (Le Lann, Chang, and Roberts)

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΗΥ-217-ΠΙΘΑΝΟΤΗΤΕΣ-ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ 2016 ΔΙΔΑΣΚΩΝ: ΠΑΝΑΓΙΩΤΗΣ ΤΣΑΚΑΛΙΔΗΣ

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

HMY 795: Αναγνώριση Προτύπων

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Lexicon Software Pachutzu

Κατανεμημένα Συστήματα Ι

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

Σειρά Προβλημάτων 5 Λύσεις

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Κεφάλαιο 9. Έλεγχοι υποθέσεων

συγκέντρωση της ουσίας στον παραπόταμο είναι αυξημένη σε σχέση με τον ίδιο τον ποταμό;

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Πληροφοριακά Συστήματα Διοίκησης (ΜΒΑ) Ενότητα 5: Διαχείριση Έργων υπό συνθήκες αβεβαιότητας

P (X = x) = (0.001) x (0.999) 1000 x

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΑΞΙΟΛΟΓΗΣΗ ΣΤΟ ΣΧΕΔΙΑΣΜΟ ΤΟΥ ΧΩΡΟΥ. ΑΣΚΗΣΗ 3 η ΜΕΘΟΔΟΣ ELECTRE II ΠΑΡΑΔΕΙΓΜΑ ΕΦΑΡΜΟΓΗΣ. Υπεύθυνη μαθήματος Αναστασία Στρατηγέα Αναπλ. Καθηγ. Ε.Μ.Π.

Δυναμικά Σύνολα. Δυναμικό σύνολο. Tα στοιχεία του μεταβάλλονται μέσω εντολών εισαγωγής και διαγραφής. διαγραφή. εισαγωγή

Πληροφοριακά Συστήματα Διοίκησης (ΜΒΑ) Ενότητα 7: Εισαγωγή στη Θεωρία Αποφάσεων Δέντρα Αποφάσεων

Οδηγίες. για το web περιβάλλον διαχείρισης λογαριασμών. my.teiath.gr

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Σχεδιασμός και κατασκευή εφαρμογής ταξινόμησης αντικειμένων σε γραμμή μεταφοράς προϊόντων με χρήση όρασης μηχανής

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Διάλεξη 17: Συμφωνία με Βυζαντινά Σφάλματα. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Οικονομετρία. Απλή Παλινδρόμηση. Έλεγχοι υποθέσεων και διαστήματα εμπιστοσύνης των συντελεστών. Τμήμα: Αγροτικής Οικονομίας & Ανάπτυξης

Ε.Μ.Π Τομέας Υδατικών Πόρων Υδραυλικών & Θαλασσίων Έργων Μάθημα: Τεχνολογία Συστημάτων Υδατικών Πόρων 9 ο Εξάμηνο Πολ. Μηχανικών Ε. Μπαλτάς.

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Άσκηση 3 Υπολογισμός του μέτρου της ταχύτητας και της επιτάχυνσης

Υπολογιστικά & Διακριτά Μαθηματικά

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Κατανεμημένα Συστήματα με Java. Ενότητα # 4: Αμοιβαίος αποκλεισμός Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

HMY 795: Αναγνώριση Προτύπων

Γ. Πειραματισμός - Βιομετρία

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Κατανεμημένα Συστήματα Ι

Πληροφοριακά Συστήματα Διοίκησης Ενότητα 10: Διαχείριση Έργων (2ο Μέρος)

ΣΥΝΔΥΑΣΤΙΚΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΜΑΘΗΜΑΤΙΚΩΝ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ» ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΠΑΝΑΛΗΠΤΙΚΗ ΤΕΛΙΚΗ ΕΞΕΤΑΣΗ 5 Ιουλίου 2009

Επιλογή επενδύσεων κάτω από αβεβαιότητα

Γνωστό: P (M) = 2 M = τρόποι επιλογής υποσυνόλου του M. Π.χ. M = {A, B, C} π. 1. Π.χ.

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΠΛΑΙΣΙΟ ΔΙΔΑΣΚΑΛΙΑΣ: ΠΕΡΙΓΡΑΦΗ ΔΙΔΑΣΚΑΛΙΑΣ:

α) t-test µε ίσες διακυµάνσεις β) ανάλυση διακύµανσης µε έναν παράγοντα Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις

ΗΥ370 Ψηφιακή Επεξεργασία Σήματος

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αριθμοθεωρητικοί Αλγόριθμοι

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

Στοιχεία παρουσίασης. Εισαγωγή Θεωρητικό υπόβαθρο Υλοποίηση λογισμικού μέρους συστήματος Συμπεράσματα Μελλοντικές Επεκτάσεις

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Έλεγχος υποθέσεων Ι z-test & t-test

Σχεδίαση & Ανάλυση Αλγορίθμων

Γραπτή Εξέταση Περιόδου Φεβρουαρίου 2011 για τα Τμήματα Ε.Τ.Τ. και Γ.Β. στη Στατιστική 25/02/2011

Διακριτά Μαθηματικά. Άγγελος Κιαγιάς. aggelos. Τμήμα Πληροφορικής & Τηλεπικοινωνιών. π.

Διάλεξη 16: Πρόβλημα Συμφωνίας. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

Μαθηματική Λογική και Λογικός Προγραμματισμός

ΚΕΦΑΛΑΙΟ 3 ΤΟ ΔΙΩΝΥΜΙΚΟ ΘΕΩΡΗΜΑ

Ψηφιακά Πιστοποιητικά Ψηφιακές Υπογραφές

07/11/2016. Στατιστική Ι. 6 η Διάλεξη (Βασικές διακριτές κατανομές)

3. Κατανομές πιθανότητας

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Σφάλματα Είδη σφαλμάτων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση 8/6/2017 Διδάσκων: Ι. Λυχναρόπουλος

Λύσεις 4ης Ομάδας Ασκήσεων

Οι παραγγελίες ακολουθούν την κατανομή Poisson. Σύμφωνα με τα δεδομένα ο

5. Έλεγχοι Υποθέσεων

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Η πιθανότητα επομένως που ζητείται να υπολογίσουμε, είναι η P(A 1 M 2 ). Η πιθανότητα αυτή μπορεί να γραφεί ως εξής:

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Transcript:

Οικονομικό Πανεπιστήμιο Αθηνών Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης Άρης Κοσμόπουλος

Πρόβλημα ανεπιθύμητων μηνυμάτων Περισσότερα από το 60% των ηλεκτρονικών μηνυμάτων είναι ανεπιθύμητα (spam). Χρειαζόμαστε έναν τρόπο ανίχνευσής τους με τα εξής χαρακτηριστικά: i. Μικρή πιθανότητα λαθών (2 τύποι λαθών): 1) Κατάταξη ενός ανεπιθύμητου μηνύματος ως επιθυμητού. 2) Κατάταξη ενός επιθυμητού μηνύματος ως ανεπιθύμητου. (Πιο σημαντικό) ii. Υψηλός βαθμός αυτοματοποίησης. iii. Ανεπαίσθητη χρονική επιβάρυνση.

Πρόβλημα ανεπιθύμητων μηνυμάτων Περισσότερα από το 60% των ηλεκτρονικών μηνυμάτων είναι ανεπιθύμητα (spam). Χρειαζόμαστε ένα τρόπο ανίχνευσης τους με τα εξής χαρακτηριστικά: i. Μικρή πιθανότητα λαθών (2 τύποι λαθών): 1) Κατάταξη ενός ανεπιθύμητου μηνύματος ως επιθυμητού. 2) Κατάταξη ενός επιθυμητού μηνύματος ως ανεπιθύμητου. (Πιο σημαντικό) ii. Υψηλός βαθμός αυτοματοποίησης. iii. Ανεπαίσθητη χρονική επιβάρυνση.

Μερικές μέθοδοι αντιμετώπισης προβλήματος Χρήση κεντρικών ή κατανεμημένων βάσεων δεδομένων. Αποτυπώματα ανεπιθύμητων μηνυμάτων που έχουν αναφερθεί (π.χ. κωδικοί κατακερματισμού). Πρόβλημα: προσθήκητυχαίωντμημάτωνκειμένωνσεκάθεαντίγραφο ανεπιθύμητου μηνύματος. Χρήση Black/White Lists. Αποθήκευση IPs ή ηλεκτρονικών διευθύνσεων. Πρόβλημα: δυναμικά ΙPs ήψεύτικεςδιευθύνσεις. Χρήση αλγορίθμων μηχανικής μάθησης. Πλεονέκτημα: εξειδίκευση φίλτρων στις ανάγκες του εκάστοτε χρήστη και προσαρμογή στη θεματολογία των ανεπιθύμητων μηνυμάτων. Μειονέκτημα: ανάγκη εκπαίδευσης των φίλτρων με συλλογές μηνυμάτων.(προβλήματα προστασίας προσωπικών δεδομένων).

Περιεχόμενα παρουσίασης Σκοπός εργασίας Μορφές απλοϊκού ταξινομητή Bayes που χρησιμοποιήθηκαν Πειράματα επιλογής της «καλύτερης» μορφής απλοϊκού ταξινομητή Bayes Ιδιότητες που αντιστοιχούν σε n-γράμματα χαρακτήρων Πειράματα με ανταλλαγή φίλτρων και ομαδικό φίλτρο Τελικά συμπεράσματα Μελλοντικές επεκτάσεις

Απλοϊκός ταξινομητής Bayes You have won a prize!! Κάθε xi αντιστοιχεί σε μια ιδιότητα. Στα κείμενα αγνοούμε: Κείμενο εκτός body και subject. HTML ετικέτες, εικόνες. Συνημμένα. Ένα μήνυμα κατατάσεται ως spam αν: Αν λογαριθμίσουμε παίρνουμε τον εξής τύπο:

Ιδιότητες Κάθε μια ιδιότητα παρέχει πληροφορίες για: μία διαφορετική λεκτική μονάδα (token) ή μία ακολουθία χαρακτήρων (n-γράμματα, n-grams) του μηνύματος. Π.χ. αν η πρότασή μας είναι «I_am_Aris», περιέχει: token: «I», «am», «Aris» 3-grams: I_a», «_am», «am_», «m_a», «_Ar», «Ari», «ris». Αγνοούμε tokens/n-grams, που εμφανίζονται σε λιγότερα από 5 μηνύματα εκπαίδευσης. Κρατάμε τις m ιδιότητες, με το μεγαλύτερο πληροφοριακό κέρδος. Το πληροφοριακό κέρδος μετράει την αναμενόμενη μείωση της εντροπίας της C (κατηγορία του μηνύματος), στην οποία οδηγεί η γνώση της τιμής της Χ.

Πολυμεταβλητή μορφή Bernoulli του απλοϊκού ταξινομητή Bayes You have won a prize!! prize money! Κάθε μεταβλητή xi δείχνει αν μια λεκτική μονάδα ti εμφανίζεται στο μήνυμα ή όχι. Θεωρούμε ότι πραγματοποιούνται m ανεξάρτητες δοκιμές Bernoulli. Spams εκπαίδευσης στα οποία εμφανίζεται το ti Σύνολο μηνυμάτων spam εκπαίδευσης

Πολυωνυμικός απλοϊκός ταξινομητής Bayes με ιδιότητες TF You have won a prize!! prize money! Πολυωνυμική κατανομή: Θεωρούμε ότι το μέγεθος του μηνύματος ( d ) σε λεκτικές μονάδες δεν εξαρτάται από την κατηγορία (spam ή ham). Συνολικός αριθμός εμφανίσεων ti στα spam εκπαίδευσης Συνολικός αριθμός tokens στα spam εκπαίδευσης

Πολυωνυμικός απλοϊκός ταξινομητής Bayes με δυαδικές ιδιότητες You have won a prize!! prize money! Όμοιος με τον πολυωνυμικό απλοϊκό ταξινομητή Bayes με ιδιότητες TF, με τη διαφορά ότι εδώ οι ιδιότητες είναι δυαδικές. Συνολικός αριθμός εμφανίσεων ti στα spam εκπαίδευσης Συνολικός αριθμός tokens στα spam εκπαίδευσης

Πολυωνυμικός απλοϊκός ταξινομητής Bayes με μετασχηματισμένες ιδιότητες Βήματα μετασχηματισμού: 1. TF μετασχηματισμός: TF Προσπαθεί να αντιμετωπίσει το ότι ο αριθμός εμφανίσεων μιας λεκτικής μονάδας δεν ακολουθεί πολυωνυμική κατανομή. 2. IDF Μετασχηματισμός: Μεγαλύτερη βαρύτητα σε λέξεις που δεν εμφανίζονται σε πολλά μηνύματα. 3. Κανονικοποίηση μήκους: Κανονικοποίηση ως προς το μήκος του μηνύματος.

Άλλες μορφές Πολυμεταβλητή μορφή Gauss τουαπλοϊκούταξινομητήbayes: Θεωρεί ότι κάθε ιδιότητα ακολουθεί κανονική κατανομή δεδομένης της κατηγορίας του μηνύματος. Μπορεί να χειριστεί πραγματικές τιμές ιδιοτήτων. Απορρίφθηκε λόγω κακών αποτελεσμάτων και προβλημάτων εκτίμησης της τυπικής απόκλισης (μηδενικές εκτιμήσεις). Flexible Bayes: Θεωρεί ότι κάθε ιδιότητα ακολουθεί μείγμα κανονικών κατανομών. Απορρίφθηκε κυρίως λόγω αυξημένης πολυπλοκότητας. Το φίλτρο του Paul Graham : Χρησιμοποιείται σε πολλά διαθέσιμα φίλτρα.

Διαγράμματα ROC 95% διαστήμα εμπιστοσύνης Θέλουμε:

Συλλογές μηνυμάτων 1. Συλλογή Enron-Spam Subject: learn to make a fortune on ebay! You are very lucky today!!!!!!! 2. Συλλογή Δημόκριτου ham + spam ham:spam ham, spam periods user 1 8134:1731 14.11.2005-15.06.2006 user 2 3045:7081 14.11.2005-15.06.2006 user 3 3562:9982 14.11.2005-15.06.2006 user 4 7785:9729 14.11.2005-15.06.2006 user 5 4670:3604 14.11.2005-15.06.2006 user 6 9214:11497 14.11.2005-15.06.2006 Subject: 692 2 134782 975 47869 149101 149102 149103 149104 149105 Αντικατάσταση token με αριθμούς

Περιεχόμενα παρουσίασης Σκοπός εργασίας Μορφές απλοϊκού ταξινομητή Bayes που χρησιμοποιήθηκαν Πειράματα επιλογής της «καλύτερης» μορφής απλοϊκού ταξινομητή Bayes Ιδιότητες που αντιστοιχούν σε n-γράμματα χαρακτήρων Πειράματα με ανταλλαγή φίλτρων και ομαδικό φίλτρο Τελικά συμπεράσματα Μελλοντικές επεκτάσεις

Πειράματα επιλογής της καλύτερης μορφής απλοϊκού ταξινομητή Bayes Χρησιμοποιήσαμε και τις δύο συλλογές μηνυμάτων. 1. Την πρώτη για επιβεβαίωση ορθότητας λογισμικού (σύγκριση με αποτελέσματα προηγούμενου άρθρου). 2. Την δεύτερη για την επιλογή «καλύτερου» ταξινομητή. Αγνοήσαμε tokens που δεν εμφανίζονται σε τουλάχιστον 5 διαφορετικά μηνύματα. Επιλέξαμε τις m ιδιότητες με το υψηλότερο πληροφοριακό κέρδος για m = 500, 1000, 3000, ALL. train1 test1 test2 test3 train2 train3

Multinomial, TF transformed attributes Paul Graham Multivariate Bernoulli Multinomial, Boolean attributes Συμπεράσματα: 1.Υπεροχή του πολυωνυμικού απλοϊκού ταξινομητής Bayes με μετασχηματισμένες TF ιδιότητες. 2.Αντικατάσταση Paul Graham. Multinomial, TF attributes Συλλογή μηνυμάτων Δημόκριτου

Σύγκριση πολυωνυμικού απλοϊκού ταξινομητή Bayes για διάφορα πλήθη ιδιοτήτων. 3000 ALL 1000 500 Συμπεράσματα: 1.Καλύτερα αποτελέσματα για m = 3000. 2.Πολύ κοντά στο m=all. Άρα δεν αξίζει να διαλέγουμε τις m καλύτερες ιδιότητες, βάσει πληροφοριακού κέρδους. Άρα συνεχίζουμε τα πειράματα για m = ALL

Περιεχόμενα παρουσίασης Σκοπός εργασίας Μορφές απλοϊκού ταξινομητή Bayes που χρησιμοποιήθηκαν Πειράματα επιλογής της «καλύτερης» μορφής απλοϊκού ταξινομητή Bayes Ιδιότητες που αντιστοιχούν σε n-γράμματα χαρακτήρων Πειράματα με ανταλλαγή φίλτρων και ομαδικό φίλτρο Τελικά συμπεράσματα Μελλοντικές επεκτάσεις

Ιδιότητες που αντιστοιχούν σε n- γράμματα χαρακτήρων Συμπέρασμα: Τα tokens δίνουν καλύτερα αποτελέσματα. Συλλογή μηνυμάτων Enron Χωρίς επιλογή m καλύτερων ιδιοτήτων βάσει πληροφοριακού κέρδους

Περιεχόμενα παρουσίασης Σκοπός εργασίας Μορφές απλοϊκού ταξινομητή Bayes που χρησιμοποιήθηκαν Πειράματα επιλογής της «καλύτερης» μορφής απλοϊκού ταξινομητή Bayes Ιδιότητες που αντιστοιχούν σε n-γράμματα χαρακτήρων Πειράματα με ανταλλαγή φίλτρων και ομαδικό φίλτρο Τελικά συμπεράσματα Μελλοντικές επεκτάσεις

Πειράματα με ανταλλαγή φίλτρων και ομαδικό φίλτρο Ημέρα 1 2 3 Η 1. Κάθε χρήστης επανεκπαιδεύει το φίλτρο του στο τέλος της μέρας. 2. Στέλνει το φίλτρο του σε όλους τους άλλους. 3. Κάθε χρήστης υπολογίζει το βαθμό εμπιστοσύνης τουσεκάθεφίλτρο. Ημέρα Η+1 Χρήστης 1 Χρήστης 2 Χρήστης 3 Χρήστης 4 Χρήστης 5 Χρήστης 6 Προσδιορισμός Βαθμού Εμπιστοσύνης 1.Μετράμε πόσα (Xi) από τα προηγούμενα μηνύματα του συγκεκριμένου χρήστη κατατάσσει σωστά κάθε φίλτρο (i). 2.Ο βαθμόςεμπιστοσύνηςσεκάθεφίλτρο(i) ισούται με:

Συμπεράσματα Το ομαδικό φίλτρο έδωσε τα καλύτερα αποτελέσματα. Η ανταλλαγή φίλτρων έδωσε τα χειρότερα αποτελέσματα. Συλλογή μηνυμάτων Δημόκριτου Χωρίς επιλογή m καλύτερων ιδιοτήτων βάσει πληροφοριακού κέρδους

Περιεχόμενα παρουσίασης Σκοπός εργασίας Μορφές απλοϊκού ταξινομητή Bayes που χρησιμοποιήθηκαν Πειράματα επιλογής της «καλύτερης» μορφής απλοϊκού ταξινομητή Bayes Ιδιότητες που αντιστοιχούν σε n-γράμματα χαρακτήρων Πειράματα με ανταλλαγή φίλτρων και ομαδικό φίλτρο Τελικά συμπεράσματα Μελλοντικές επεκτάσεις

Τελικά συμπεράσματα Ο πολυωνυμικός απλοϊκός ταξινομητής Bayes με μετασχηματισμένες TF ιδιότητες δίνει τα καλύτερα αποτελέσματα. Μπορεί να αντικαταστήσει το φίλτρο του Paul Graham. Οι λεκτικές μονάδες είναι προτιμότερες των 3- γραμμάτων. Η χρήση ομαδικού φίλτρου δείχνει να είναι προτιμότερη από τη χρήση ατομικών ή την ανταλλαγή ατομικών φίλτρων.

Μελλοντικές Επεκτάσεις Εναλλακτικοί τρόποι υλοποίησης της ανταλλαγής φίλτρων. Ενσωμάτωση φίλτρων στο Thunderbird. (Έχει ήδη ξεκινήσει από συνάδελφο φοιτητή.) Υλοποίηση ενός πραγματικού συστήματος με δυνατότητες ανταλλαγής φίλτρων.

Ευχαριστώ πολύ, Άρης Κοσμόπουλος