Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά Xerox Research Centre Europe LIP6 - Université Pierre et Marie Curie (Paris VI) 11 Ιουνίου 2008 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 1
Κίνητρα Κίνητρα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 2
Κίνητρα Κίνητρα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 2
Κίνητρα Κίνητρα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 2
Κίνητρα Κίνητρα Ημι-επιβλεπόμενη μάθηση: Χρησιμοποιεί τα διαθέσιμα μη-επισημειωμένα δεδομένα μαζί με τα επισημειωμένα, έτσι ώστε να βελτιώσει την απόδοση με όσον το δυνατόν λιγότερα επισημειωμένα δεδομένα Ενεργητική μάθηση Προσπαθεί να βρει τα πιο χρήσιμα δεδομένα, ώστε να μειώσει στο ελάχιστο τον αριθμό των επισημειωμένων δεδομένων που είναι απαραίτητα για τη μάθηση Και οι δυο προσεγγίσεις προσπαθούν να λύσουν το ίδιο πρόβλημα, αυτό του κόστους επισημείωσης των δεδομένων, αλλά από δυο διαφορετικές σκοπιές 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 3
Κίνητρα Κίνητρα Ημι-επιβλεπόμενη μάθηση: Χρησιμοποιεί τα διαθέσιμα μη-επισημειωμένα δεδομένα μαζί με τα επισημειωμένα, έτσι ώστε να βελτιώσει την απόδοση με όσον το δυνατόν λιγότερα επισημειωμένα δεδομένα Ενεργητική μάθηση Προσπαθεί να βρει τα πιο χρήσιμα δεδομένα, ώστε να μειώσει στο ελάχιστο τον αριθμό των επισημειωμένων δεδομένων που είναι απαραίτητα για τη μάθηση Και οι δυο προσεγγίσεις προσπαθούν να λύσουν το ίδιο πρόβλημα, αυτό του κόστους επισημείωσης των δεδομένων, αλλά από δυο διαφορετικές σκοπιές 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 3
Κίνητρα Κίνητρα Ημι-επιβλεπόμενη μάθηση: Χρησιμοποιεί τα διαθέσιμα μη-επισημειωμένα δεδομένα μαζί με τα επισημειωμένα, έτσι ώστε να βελτιώσει την απόδοση με όσον το δυνατόν λιγότερα επισημειωμένα δεδομένα Ενεργητική μάθηση Προσπαθεί να βρει τα πιο χρήσιμα δεδομένα, ώστε να μειώσει στο ελάχιστο τον αριθμό των επισημειωμένων δεδομένων που είναι απαραίτητα για τη μάθηση Και οι δυο προσεγγίσεις προσπαθούν να λύσουν το ίδιο πρόβλημα, αυτό του κόστους επισημείωσης των δεδομένων, αλλά από δυο διαφορετικές σκοπιές 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 3
Κίνητρα Κίνητρα Πολυπλοκότητα δεδομένων: Τα δεδομένα είναι πιο πολύπλοκα απ'ότι υποθέτουν πολλά πιθανοτικά μοντέλα (πχ Naive Bayes) Λανθάνοντα μοντέλα (Aspect Models) Προσπαθούν να μοντελοποιήσουν καλύτερα τα δεδομένα αυτά, αφού λαμβάνουν υπόψην τα διαφορετικά θέματα (aspects/facets) τα οποία καλύπτουν Μέχρι τώρα δεν έχει γίνει προσπάθεια να επεκταθούν να υπάρχοντα λανθάνοντα μοντέλα χρησιμοποιώντας μερικώς επισημειωμένα δεδομένα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 4
Κίνητρα Κίνητρα Πολυπλοκότητα δεδομένων: Τα δεδομένα είναι πιο πολύπλοκα απ'ότι υποθέτουν πολλά πιθανοτικά μοντέλα (πχ Naive Bayes) Λανθάνοντα μοντέλα (Aspect Models) Προσπαθούν να μοντελοποιήσουν καλύτερα τα δεδομένα αυτά, αφού λαμβάνουν υπόψην τα διαφορετικά θέματα (aspects/facets) τα οποία καλύπτουν Μέχρι τώρα δεν έχει γίνει προσπάθεια να επεκταθούν να υπάρχοντα λανθάνοντα μοντέλα χρησιμοποιώντας μερικώς επισημειωμένα δεδομένα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 4
Κίνητρα Κίνητρα Πολυπλοκότητα δεδομένων: Τα δεδομένα είναι πιο πολύπλοκα απ'ότι υποθέτουν πολλά πιθανοτικά μοντέλα (πχ Naive Bayes) Λανθάνοντα μοντέλα (Aspect Models) Προσπαθούν να μοντελοποιήσουν καλύτερα τα δεδομένα αυτά, αφού λαμβάνουν υπόψην τα διαφορετικά θέματα (aspects/facets) τα οποία καλύπτουν Μέχρι τώρα δεν έχει γίνει προσπάθεια να επεκταθούν να υπάρχοντα λανθάνοντα μοντέλα χρησιμοποιώντας μερικώς επισημειωμένα δεδομένα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 4
Κίνητρα Περιεχόμενα 1 Πιθανοτική λανθάνουσα σημασειολογική ανάλυση Probabilistic Latent Semantic Analysis (PLSA) 2 PLSA με ημι-επιβλεπόμενη μάθηση ssplsa με ένα "fake label" μόντελο ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) 3 Συνδυασμός Ημι-επιβλεπόμενης και Ενεργητικής μάθησης Margin-based μέθοδος 4 Αξιολόγηση 5 Επίλογος Entropy-based μέθοδος Πειράματα Αποτελέσματα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 5
PLSA Μοντέλο Πιθανοτική λανθάνουσα σημασειολογική ανάλυση Probabilistic Latent Semantic Analysis Εισάγουμε μία λανθάνουσα μεταβλητή (latent variable) α A = {α 1,, α A } Μοντελοποιούμε τα δεδομένα χρησιμοποιώντας mixture model, υποθέτοντας ότι x και w είναι ανεξάρτητα: P(w, x) = P(x) α Οι παράμετροι του μοντέλου είναι: P(w α)p(α x) Ξ = {P(α x), P(w α) : α A, x X, w W} Εκπαίδευση του μοντέλου Μεγιστοποίηση της log-likelihood χρησιμοποιώντας τον αλγοριθμο EM (Expectation-Maximization) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 6
PLSA Μοντέλο Πιθανοτική λανθάνουσα σημασειολογική ανάλυση Probabilistic Latent Semantic Analysis Εισάγουμε μία λανθάνουσα μεταβλητή (latent variable) α A = {α 1,, α A } Μοντελοποιούμε τα δεδομένα χρησιμοποιώντας mixture model, υποθέτοντας ότι x και w είναι ανεξάρτητα: P(w, x) = P(x) α Οι παράμετροι του μοντέλου είναι: P(w α)p(α x) Ξ = {P(α x), P(w α) : α A, x X, w W} Εκπαίδευση του μοντέλου Μεγιστοποίηση της log-likelihood χρησιμοποιώντας τον αλγοριθμο EM (Expectation-Maximization) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 6
PLSA Μοντέλο Πιθανοτική λανθάνουσα σημασειολογική ανάλυση Probabilistic Latent Semantic Analysis Εισάγουμε μία λανθάνουσα μεταβλητή (latent variable) α A = {α 1,, α A } Μοντελοποιούμε τα δεδομένα χρησιμοποιώντας mixture model, υποθέτοντας ότι x και w είναι ανεξάρτητα: P(w, x) = P(x) α Οι παράμετροι του μοντέλου είναι: P(w α)p(α x) Ξ = {P(α x), P(w α) : α A, x X, w W} Εκπαίδευση του μοντέλου Μεγιστοποίηση της log-likelihood χρησιμοποιώντας τον αλγοριθμο EM (Expectation-Maximization) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 6
PLSA Μοντέλο Πιθανοτική Λανθάνουσα Σημασειολογική Ανάλυση Probabilistic Latent Semantic Analysis (PLSA) Διαδικασία παραγωγής: Επέλεξε ένα δεδομένο x με πιθανότητα P(x), Διάλεξε μια λανθάνουσα μεταβλητή α σύμφωνα με την υπό συνθήκη πιθανότητα P(α x) Παρήγαγε ένα χαρακτηριστικό (feature) w με πιθανότητα P(w α) Παρήγαγε την κλάση του κειμένου y σύμφωνα με την πιθανότητα P(y α) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 7
PLSA Μοντέλο Πιθανοτική Λανθάνουσα Σημασειολογική Ανάλυση Probabilistic Latent Semantic Analysis (PLSA) Διαδικασία παραγωγής: Επέλεξε ένα δεδομένο x με πιθανότητα P(x), Διάλεξε μια λανθάνουσα μεταβλητή α σύμφωνα με την υπό συνθήκη πιθανότητα P(α x) Παρήγαγε ένα χαρακτηριστικό (feature) w με πιθανότητα P(w α) Παρήγαγε την κλάση του κειμένου y σύμφωνα με την πιθανότητα P(y α) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 7
PLSA Αλγόριθμος PLSΑ για κατηγοριοποίηση δεδομένων Input : Το σύνολο των επισημειωμένων δεδομένων X = X l, Τυχαία αρχικοποίηση των μεταβλητών Ξ (0) repeat E-step: Εκτίμηση των latent class posteriors x X, w W, α A P(α w, x) = π (j) P α (w, x) = (j) (α x)p (j) (w α) P (j) (α x)p (j) (w α ) α A M-step: Υπολογισμός των νέων παραμέτρων του μοντέλου Ξ (j+1), μεγιστοποιώντας την log-likelihood: P (j+1) (w α) x P (j+1) (α x) w n(w, x)π (j) α (w, x) n(w, x)π (j) α (w, x) j j + 1 until σύγκλιση της log-likelihood ; Output : Ο αλγόριθμος κατηγοριοποίησης με παραμέτρους Ξ (j) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 8
PLSA Αλγόριθμος Περιεχόμενα 1 Πιθανοτική λανθάνουσα σημασειολογική ανάλυση Probabilistic Latent Semantic Analysis (PLSA) 2 PLSA με ημι-επιβλεπόμενη μάθηση ssplsa με ένα "fake label" μόντελο ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) 3 Συνδυασμός Ημι-επιβλεπόμενης και Ενεργητικής μάθησης Margin-based μέθοδος 4 Αξιολόγηση 5 Επίλογος Entropy-based μέθοδος Πειράματα Αποτελέσματα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 9
ssplsa ssplsa με fake label μοντέλο ssplsa με fake label μοντέλο Όταν τα μη-επισημειωμένα δεδομένα είναι πολύ περισσότερα από τα επισημειωμένα: = Κάποια components είναι πολύ πιθανόν να περιέχουν μόνο μη-επισημειωμένα δεδομένα Λύση Σε αυτή την περίπτωση, αυθαίρετες πιθανότητες θα δωθούν σε αυτά τα components Εισάγουμε μια επιπλέον "ψεύτικη" κλάση ("fake" label) y 0 Όλα τα επισημειωμένα δεδομένα διατηρούν την ετικέτα (label) τους 'Ολα τα μη-επισημειωμένα δεδομένα αποκτούν τη νέα "ψεύτικη" ετικέτα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 10
ssplsa ssplsa με fake label μοντέλο ssplsa με fake label μοντέλο Όταν τα μη-επισημειωμένα δεδομένα είναι πολύ περισσότερα από τα επισημειωμένα: = Κάποια components είναι πολύ πιθανόν να περιέχουν μόνο μη-επισημειωμένα δεδομένα Λύση Σε αυτή την περίπτωση, αυθαίρετες πιθανότητες θα δωθούν σε αυτά τα components Εισάγουμε μια επιπλέον "ψεύτικη" κλάση ("fake" label) y 0 Όλα τα επισημειωμένα δεδομένα διατηρούν την ετικέτα (label) τους 'Ολα τα μη-επισημειωμένα δεδομένα αποκτούν τη νέα "ψεύτικη" ετικέτα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 10
ssplsa ssplsa με fake label μοντέλο ssplsa με fake label μοντέλο Model Παράμετροι: Λ = {P(α x), P(w α), P(z α) : α A, x X, w W, z {y + y 0 }} Log-likelihood: L 1 = x X Αλγόριθμος EM Fake labels P(y x) α where λ << 1 w W log P(w, x, z) Διανέμουμε τις πιθανότητες της ``fake'' κλάσης στις αληθινές: P(α x)p(y α) + λ α P(α x)p(y =y 0 α) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 11
ssplsa ssplsa με fake label μοντέλο ssplsa με fake label μοντέλο Model Παράμετροι: Λ = {P(α x), P(w α), P(z α) : α A, x X, w W, z {y + y 0 }} Log-likelihood: L 1 = x X Αλγόριθμος EM Fake labels P(y x) α where λ << 1 w W log P(w, x, z) Διανέμουμε τις πιθανότητες της ``fake'' κλάσης στις αληθινές: P(α x)p(y α) + λ α P(α x)p(y =y 0 α) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 11
ssplsa ssplsa με fake label μοντέλο Περιεχόμενα 1 Πιθανοτική λανθάνουσα σημασειολογική ανάλυση Probabilistic Latent Semantic Analysis (PLSA) 2 PLSA με ημι-επιβλεπόμενη μάθηση ssplsa με ένα "fake label" μόντελο ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) 3 Συνδυασμός Ημι-επιβλεπόμενης και Ενεργητικής μάθησης Margin-based μέθοδος 4 Αξιολόγηση 5 Επίλογος Entropy-based μέθοδος Πειράματα Αποτελέσματα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 12
ssplsa ssplsa-mislabeling ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) Κίνητρα Μείωση των σφαλμάτων της κατηγοριοποίησης για τα μη-επισημειωμένα δεδομένα στο σύνολο εκπαίδευσης Για όλα τα μη-επισημειωμένα δεδομένα υποθέτουμε ότι υπάρχει: μία τέλεια (perfect) ετικέτα (η αληθινή y ) μία ατελής (imperfect) ετικέτα (η εκτιμώμενη ỹ ) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 13
ssplsa ssplsa-mislabeling ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) Κίνητρα Μείωση των σφαλμάτων της κατηγοριοποίησης για τα μη-επισημειωμένα δεδομένα στο σύνολο εκπαίδευσης Για όλα τα μη-επισημειωμένα δεδομένα υποθέτουμε ότι υπάρχει: μία τέλεια (perfect) ετικέτα (η αληθινή y ) μία ατελής (imperfect) ετικέτα (η εκτιμώμενη ỹ ) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 13
ssplsa ssplsa-mislabeling ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) Μοντελοποιούμε αυτές τις ετικέτες με τις παρακάτω πιθανότητες: (k, h) C C, β kh = p(ỹ = k y = h) υπό τον περιορισμό h, k β kh = 1 Η διαδικασία παραγωγής του μοντέλου για τα μη-επισημειωμένα δεδομένα είναι: Επέλεξε ένα δεδομένο x με πιθανότητα P(x), Διάλεξε μία λανθάνουσα μεταβλητή α σύμφωμα με την υπό συνθήκη πιθανότητα P(α x) Παρήγαγε ένα χαρακτηριστικό (feature) w με πιθανότητα P(w α) Παρήγαγε την λανθάνουσα (latent) κλάση y σύμφωνα με την πιθανότητα P(y α) Η ατελής (imperfect) κλάση ỹ παράγεται με πιθανότητα βỹ y = P(ỹ y) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 14
ssplsa ssplsa-mislabeling ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) Μοντελοποιούμε αυτές τις ετικέτες με τις παρακάτω πιθανότητες: (k, h) C C, β kh = p(ỹ = k y = h) υπό τον περιορισμό h, k β kh = 1 Η διαδικασία παραγωγής του μοντέλου για τα μη-επισημειωμένα δεδομένα είναι: Επέλεξε ένα δεδομένο x με πιθανότητα P(x), Διάλεξε μία λανθάνουσα μεταβλητή α σύμφωμα με την υπό συνθήκη πιθανότητα P(α x) Παρήγαγε ένα χαρακτηριστικό (feature) w με πιθανότητα P(w α) Παρήγαγε την λανθάνουσα (latent) κλάση y σύμφωνα με την πιθανότητα P(y α) Η ατελής (imperfect) κλάση ỹ παράγεται με πιθανότητα βỹ y = P(ỹ y) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 14
ssplsa ssplsa-mislabeling ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) Δύο παραλλαγές Διαφορά: ssplsa-mem με άκαμπτη ομαδοποίηση (hard clustering) ssplsa-mem με εύκαμπτη ομαδοποίηση (soft clustering) για τα μη-επισημειωμένα δεδομένα ssplsa-mem Hard Η παράμετρος P(y α) είναι σταθερή ssplsa-mem Soft Η παράμετρος P(y α) για τα μη-επισημειωμένα δεδομένα υπολογίζεται κατά τη διάρκεια του αλγορίθμου EM 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 15
ssplsa-mem Hard ssplsa ssplsa-mislabeling Μοντέλο: Παράμετροι: Φ = {P(α x), P(w α), βỹ y : x X, w W, α A, y C, ỹ C} Log-likelihood: L 2 = n(w, x) log P(x)P(w α)p(α x)p(y α) x X l w α + n(w, x) log P(x)P(w α)p(α x) βỹ y P(y α) w α y x X u 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 16
ssplsa-mem hard Input : ssplsa ssplsa-mislabeling Ένα μερικώς επισημειωμένο σύνολο δεδομένων X = X l X u / Τυχαία αρχικοποίηση των μεταβλητών Φ (0) "Τρέχουμε έναν απλό αλγόριθμο PLSA για την εκτίμηση των αρχικών ỹ repeat E-step:Εκτίμηση των latent class posteriors π α (w, x, y) = P(α x)p(w α)p(y α) α P(α x)p(w α)p(y α), if x X l π α (w, x, ỹ) = P(α x)p(w α) y P(y α)β ỹ y α P(α x)p(w α) y P(y α)β, if x X u ỹ y M-step: Υπολογισμός των νέων παραμέτρων του μοντέλου Φ (j+1) μεγιστοποιώντας την log-likelihood P (j+1) (w α) n(w, x)π (j) α (w, x, y(x)) + x X l x Xu { P (j+1) (α x) π n(w, x) α (j) (w, x, y(x)), for x X l w π α (j) (w, x, ỹ(x)), for x X u β (j+1) n(w, x) π (j) ỹ y α (w, x, ỹ) w x Xu α α y n(w, x) π (j) α (w, x, ỹ(x)) until Σύγκληση της log-likelihood ; Output : Φ (j) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 17
ssplsa-mem Soft ssplsa ssplsa-mislabeling Μοντέλο: Παράμετροι: Φ = {P(α x), P(w α), βỹ y, P(y α) : x X, w W, α A, y C, ỹ C} Log-likelihood: L 2 = n(w, x) log P(x)P(w α)p(α x)p(y α) x X l w α + n(w, x) log P(x)P(w α)p(α x) βỹ y P(y α) w α y x X u 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 18
ssplsa-mem soft repeat E-step:Εκτίμηση των latent class posteriors ssplsa ssplsa-mislabeling π α(w, x, y) = P(α x)p(w α)p(y α) α P(α x)p(w α)p(y α), if x X l π α(w, x, ỹ) = P(α x)p(w α) y P(y α)βỹ y α P(α x)p(w α) y P(y α)βỹ y, if x X u M-step: Υπολογισμός των νέων παραμέτρων του μοντέλου Φ (j+1) μεγιστοποιώντας την log-likelihood P (j+1) (w α) n(w, x)π (j) α (w, x, y(x)) + x X l x Xu { P (j+1) (α x) π n(w, x) α (j) (w, x, y(x)), for x X l w π α (j) (w, x, ỹ(x)), for x X u β (j+1) n(w, x) π (j) ỹ y α (w, x, ỹ) w x Xu α α y P (j+1) (y α) = P(j) (y α) w x Xu n(w, x) n(w, x) π (j) α (w, x, ỹ(x)) P (j) (α x)p (j) (w α)β (j) ỹ(x) y α P(j) (α x)p (j) (w α) y P (j) (y α)β (j) ỹ y until Σύγκληση της log-likelihood ; 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 19
ssplsa ssplsa-mislabeling Περιεχόμενα 1 Πιθανοτική λανθάνουσα σημασειολογική ανάλυση Probabilistic Latent Semantic Analysis (PLSA) 2 PLSA με ημι-επιβλεπόμενη μάθηση ssplsa με ένα "fake label" μόντελο ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) 3 Συνδυασμός Ημι-επιβλεπόμενης και Ενεργητικής μάθησης Margin-based μέθοδος 4 Αξιολόγηση 5 Επίλογος Entropy-based μέθοδος Πειράματα Αποτελέσματα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 20
SSL+Active Συνδυάζοντας ημιεπιβλεπόμενη και ενεργητική μάθηση 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 21
SSL+Active Συνδυάζοντας ημιεπιβλεπόμενη και ενεργητική μάθηση 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 21
SSL+Active Συνδυάζοντας ημιεπιβλεπόμενη και ενεργητική μάθηση 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 21
SSL+Active Margin-based Μέθοδος Margin-based Μέθοδος Ιδέα: Επιλογή των δεδομένων που βρίσκονται πιο κοντά στα όρια (boundaries) των κλάσεων μας δίνει ένα μέτρο εμπιστοσύνης του αλγόριθμου κατηγοριοποίησης στις ετικέτες που έχει αναθέσει στα δεδομένα B(x) = y P(y x) log P(y x),όπου x X u Όσο μεγαλύτερο είναι το B, τόση λιγότερη εμπιστοσύνη έχει ο αλγόριθμος κατηγοριοποίησης για τις ετικέτες του συγκεκριμένου x 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 22
SSL+Active Margin-based Μέθοδος Margin-based Μέθοδος Ιδέα: Επιλογή των δεδομένων που βρίσκονται πιο κοντά στα όρια (boundaries) των κλάσεων μας δίνει ένα μέτρο εμπιστοσύνης του αλγόριθμου κατηγοριοποίησης στις ετικέτες που έχει αναθέσει στα δεδομένα B(x) = y P(y x) log P(y x),όπου x X u Όσο μεγαλύτερο είναι το B, τόση λιγότερη εμπιστοσύνη έχει ο αλγόριθμος κατηγοριοποίησης για τις ετικέτες του συγκεκριμένου x 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 22
SSL+Active Entropy-based Μέθοδος Entropy-based Μέθοδος Ιδέα: Επιλογή των δεδομένων για τα οποία ο αλγόριθμος αλλάζει την ετικέτα τους κατά τη διάρκεια των επαναλήψεων V (y, x) Οι φορές που η ετικέτα y έχει δωθεί στο δεδομένο x κατά τη διάρκεια των προηγούμενων επαναλήψεων (iterations) Vote Entropy ενός δεδομένου x : VE(x) = y V (y, x) V (y, x) log iters iters όπου iters είναι ο αριθμός των επαναλήψεων 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 23
SSL+Active Entropy-based Μέθοδος Entropy-based Μέθοδος Ιδέα: Επιλογή των δεδομένων για τα οποία ο αλγόριθμος αλλάζει την ετικέτα τους κατά τη διάρκεια των επαναλήψεων V (y, x) Οι φορές που η ετικέτα y έχει δωθεί στο δεδομένο x κατά τη διάρκεια των προηγούμενων επαναλήψεων (iterations) Vote Entropy ενός δεδομένου x : VE(x) = y V (y, x) V (y, x) log iters iters όπου iters είναι ο αριθμός των επαναλήψεων 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 23
SSL+Active Συνδυάζοντας ssplsa και ενεργητική μάθηση Input repeat : Ένα μερικώς επισημειωμένο σύνολο δεδομένων X = X l X u "Τρέχουμε" έναν ssplsa αλγόριθμο (και υπολογίζουμε την P(y x)) Υπολογίζουμε το βαθμό εμπιστοσύνης του αλγορίθμου στα μη-επισημειωμένα δεδομένα Επιλέγουμε τα δεδομένα με μικρότερο βαθμό εμπιστοσύνης και τα προσθέτουμε στα επισημειωμένα δεδομένα εκπαίδευσης until Έναν ορισμένο αριθμό ερωτημάτων (queries) ή μία ορισμένη απόδοση ; 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 24
Περιεχόμενα 1 Πιθανοτική λανθάνουσα σημασειολογική ανάλυση Probabilistic Latent Semantic Analysis (PLSA) 2 PLSA με ημι-επιβλεπόμενη μάθηση ssplsa με ένα "fake label" μόντελο ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) 3 Συνδυασμός Ημι-επιβλεπόμενης και Ενεργητικής μάθησης Margin-based μέθοδος 4 Αξιολόγηση 5 Επίλογος Entropy-based μέθοδος Πειράματα Αποτελέσματα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 25
Αξιολόγηση Πειράματα Πειράματα Χαρακτηριστικά των συλλογών δεδομένων Συλλογή 20Newsgroups WebKB Reuters XLS Μέγεθος 20000 4196 4381 54770 # Κλάσεων, K 20 4 7 2 Μέγεθος W 38300 9400 4749 10000 Δεδομένα εκπαίδευσης, D l D u 16000 3257 3504 20000 Δεδομένα τεστ 4000 839 876 34770 Μέτρα αξιολόγησης Υπολογίζουμε το F-score: F = 2PR P+R P Precision (λόγος των true positives προς όλα τα αποτελέσματα) R Recall (λόγος των true positives προς όλα τα positives) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 26
Αξιολόγηση Αποτελέσματα Αποτελέσματα: ssplsa F-score (y-axis) vs ποσοστό των επισημειωμένων δεδομένων εκπαίδευσης (x-axis), για τις συλλογές WebKB (right, A =16) και Reuters (left, A =14) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 27
Αξιολόγηση Αποτελέσματα Αποτελέσματα: ssplsa F-score (y-axis) vs ποσοστό των επισημειωμένων δεδομένων εκπαίδευσης (x-axis), για τις συλλογές 20Newsgroups (right, A =40) και XLS (left, A =4) 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 28
Αξιολόγηση Αποτελέσματα Αποτελέσματα: ssplsa Σύγκριση με PLSA επιβλεπόμενης μάθησης 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 29
Αξιολόγηση Αποτελέσματα Results 20Newsgroups WebKB Reuters XLS ratio Algorithm F-score F-score F-score F-score 03% 05% 08% 1% ssplsa-mem hard 3262 3882 4776 6141 ssplsa-mem soft 4405 4878 6634 6516 ssplsa-mem hard 4126 4086 5202 6452 ssplsa-mem soft 5246 5155 6874 6619 ssplsa-mem hard 512 4416 5742 6487 ssplsa-mem soft 6062 5633 7511 6704 ssplsa-mem hard 5824 4984 6693 6557 ssplsa-mem soft 6623 6056 7753 6717 Table: Σύγκριση των δύο παραλλαγών ssplsa-mem Hard και ssplsa-mem Soft στις συλλογές 20Newsgroups, WebKB, Reuters και XLS 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 30
Αξιολόγηση Αποτελέσματα Αποτελέσματα: ssplsa + Ενεργητική μάθηση F-score (y-axis) vs ποσοστό των επισημειωμένων δεδομένων εκπαίδευσης (x-axis), για τις συλλογή 20Newsgroups 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 31
Αξιολόγηση Αποτελέσματα Αποτελέσματα: ssplsa + Ενεργητική μάθηση F-score (y-axis) vs ποσοστό των επισημειωμένων δεδομένων εκπαίδευσης (x-axis), για τις συλλογή XLS 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 32
Αξιολόγηση Αποτελέσματα Αποτελέσματα: ssplsa + Ενεργητική μάθηση F-score (y-axis) vs ποσοστό των επισημειωμένων δεδομένων εκπαίδευσης (x-axis), για τις συλλογή Reuters 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 33
Αξιολόγηση Αποτελέσματα Αποτελέσματα: ssplsa + Ενεργητική μάθηση F-score (y-axis) vs ποσοστό των επισημειωμένων δεδομένων εκπαίδευσης (x-axis), για τις συλλογή WebKB 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 34
Αξιολόγηση Αποτελέσματα Αποτελέσματα: ssplsa + Ενεργητική μάθηση F-score (y-axis) vs ποσοστό των επισημειωμένων δεδομένων εκπαίδευσης (x-axis), για τις συλλογή XLS 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 35
Αξιολόγηση Αποτελέσματα Περιεχόμενα 1 Πιθανοτική λανθάνουσα σημασειολογική ανάλυση Probabilistic Latent Semantic Analysis (PLSA) 2 PLSA με ημι-επιβλεπόμενη μάθηση ssplsa με ένα "fake label" μόντελο ssplsa με μοντελοποίηση σφαλμάτων (mislabeling error model) 3 Συνδυασμός Ημι-επιβλεπόμενης και Ενεργητικής μάθησης Margin-based μέθοδος 4 Αξιολόγηση 5 Επίλογος Entropy-based μέθοδος Πειράματα Αποτελέσματα 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 36
Επίλογος Επίλογος Κίνητρο Μέιωση του κόστους επισημείωσης των δεδομένων για την κατηγοροιοποίηση Παραλλαγές του αλγόριθμου PLSA χρησιμοποιώντας τεχνικές ημι-επιβλεπόμενης μάθησης Συνδυασμός των παραπάνω μεθόδων με δύο τεχνικές ενεργητικής μάθησης Αξιολόγηση σε 4 συλλογές δεδομένων 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 37
Επίλογος Ευχαριστώ Ερωτήσεις; 11 Ιουνίου 2008 ΕΚΕΦΕ "ΔΗΜΟΚΡΙΤΟΣ" 38