Τεχνικές Μηχανικής Μάθησης για Ροές Δεδομένων με Πολλαπλές Ετικέτες

Transcript

1 ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ, ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Τεχνικές Μηχανικής Μάθησης για Ροές Δεδομένων με Πολλαπλές Ετικέτες Καρπόνη Κωνσταντίνα Επιβλέπων Καθηγητής: Τσουμάκας Γρηγόριος 24/2/2016

2 Πίνακας περιεχομένων 1 Εισαγωγή Γνωστικό Υπόβαθρο και Σχετικές Εργασίες Ταξινόμηση δεδομένων με πολλαπλές ετικέτες Μετασχηματισμός Προβλημάτων Algorithm Adaptation Βιβλιοθήκες για μάθηση δεδομένων με πολλαπλές ετικέτες Ταξινόμηση Ροών Δεδομένων Εισαγωγή Ερευνητικά προβλήματα Προσεγγιστικές λύσεις Τεχνικές Ταξινόμησης Πλατφόρμες για κατανεμημένη εξόρυξη δεδομένων Πλατφόρμες για μη κατανεμημένη εξόρυξη δεδομένων Ταξινόμηση ροών δεδομένων με πολλαπλές ετικέτες Εισαγωγή Συγκριτική Μελέτη Αξιολόγηση αλγορίθμων Μεθοδολογία αξιολόγησης Μετρικές αξιολόγησης Λογισμικό για Ταξινόμηση Ροών Δεδομένων με Πολλαπλές Ετικέτες Εισαγωγή Prequential Evaluator Kappa Statistic Base Kappa Temporal Statistic Kappa Statistic

3 3.6 Incremental Binary Relevance SMART Pruned Sets Updateable Multilabel Hoeffding Tree Multilabel Info Gain Split Metric Class Incremental Learning Naïve Bayes Class Incremental Πειράματα Αποτελέσματα Σύνολο δεδομένων Αλγόριθμοι και ρυθμίσεις τους Binary Relevance με Naïve Bayes Binary Relevance με SGD (Hinge loss, SVM) Binary Relevance με SGD (Logistic Regression) Binary Relevance Updateable με Naïve Bayes Updateable Binary Relevance Updateable με SGD (Hinge Loss, SVM) Binary Relevance Updateable με SGD (Logistic Regression) Multilabel Windows Classifier με knn Multilabel Hoeffding Tree με Pruned Sets Updateable και Naïve Bayes Updateable Multilabel Hoeffding Tree με Class Incremental και Naïve Bayes Class Incremental SMART Παρουσίαση και Ανάλυση Αποτελεσμάτων Συμπεράσματα και Μελλοντικές Κατευθύνσεις Βιβλιογραφία

4 1 Εισαγωγή Στην παρούσα εργασία, εξετάζεται το πρόβλημα της ταξινόμησης ροών δεδομένων με πολλαπλές ετικέτες, χρησιμοποιώντας τεχνικές μηχανικής μάθησης. Μέχρι στιγμής οι περισσότερες εργασίες της ανάλογης βιβλιογραφίας, έχουν ασχοληθεί με την ταξινόμηση ροών δεδομένων και με τη ταξινόμηση δεδομένων με πολλαπλές ετικέτες. Ωστόσο, πολλά προβλήματα του πραγματικού κόσμου περιλαμβάνουν δεδομένα τα οποία μπορούν να θεωρηθούν ως ροές δεδομένων με πολλαπλές ετικέτες. Η διαδικασία της μάθησης με εξελισσόμενα δεδομένα είναι περισσότερο απαιτητική, καθώς οι ταξινομητές πρέπει να είναι ικανοί να προσαρμόζονται στις αλλαγές που εμφανίζονται κατά την πάροδο του χρόνου έχοντας ως περιορισμό το διαθέσιμο χρόνο και τη διαθέσιμη μνήμη. Στο Κεφάλαιο 2 παρουσιάζονται τόσο οι τρόποι ταξινόμησης δεδομένων με πολλαπλές ετικέτες όσο και η ταξινόμηση ροών δεδομένων με μία ετικέτα. Επιπλέον, γίνεται μία πρώτη αναφορά στους ήδη υπάρχοντες αλγορίθμους που έχουν κατασκευαστεί για την ταξινόμηση ροών δεδομένων με πολλαπλές ετικέτες. Τέλος παρουσιάζονται μέθοδοι και μετρικές αξιολόγησης που αφορούν ροές δεδομένων και δεδομένα με πολλαπλές ετικέτες. Αυτή η εκτενής βιβλιογραφική μελέτη δίνει μια αρκετά ολοκληρωμένη εικόνα του προβλήματος της ταξινόμησης ροών δεδομένων με πολλαπλές ετικέτες. Με απώτερο σκοπό την εκτέλεση πειραμάτων συγκριτικής αξιολόγησης, ορισμένοι από τους αλγορίθμους που μελετήθηκαν στη βιβλιογραφία υλοποιήθηκαν στο πλαίσιο της βιβλιοθήκης MULAN [1]. Τα κύρια σημεία του λογισμικού που αναπτύχθηκε περιγράφονται στο Κεφάλαιο 3. Στο Κεφάλαιο 4 παρουσιάζεται ένα σύνολο πειραμάτων με διάφορους αλγορίθμους ταξινόμησης ροών δεδομένων με πολλαπλές ετικέτες. Συγκεκριμένα απαριθμούνται τα πειράματα που πραγματοποιήθηκαν μαζί με τις απαραίτητες ρυθμίσεις που έπρεπε να γίνουν έτσι ώστε να παραχθούν τα καλύτερα δυνατά αποτελέσματα. Τέλος γίνεται μια ανάλυση των αποτελεσμάτων με στόχο την εξαγωγή συμπερασμάτων. 4

5 Το Κεφάλαιο 5, παρουσιάζει τα γενικότερα συμπεράσματα της παρούσας εργασίας καθώς και ενδιαφέροντα μελλοντικά μονοπάτια περαιτέρω έρευνας στο πρόβλημα της ταξινόμησης ροών δεδομένων με πολλαπλές ετικέτες. 5

6 2 Γνωστικό Υπόβαθρο και Σχετικές Εργασίες 2.1 Ταξινόμηση δεδομένων με πολλαπλές ετικέτες Ένα μεγάλο κομμάτι των μεθόδων μάθησης με επίβλεψη ασχολείται με την ανάλυση των δεδομένων μίας ετικέτας, όπου τα παραδείγματα αντιστοιχίζονται κάθε φορά σε μία και μοναδική ετικέτα που ανήκει σε ένα σύνολο από μη όμοιες ετικέτες. Ωστόσο, τα παραδείγματα εκπαίδευσης σε πολλές εφαρμογές μπορούν να αντιστοιχιστούν σε ένα σύνολο από ετικέτες τέτοιο ώστε να είναι υποσύνολο του ευρύτερου συνόλου ετικετών ( δεδομένα πολλαπλών ετικετών. ). Τέτοιου είδους δεδομένα ονομάζονται Πιο συγκεκριμένα, τα δεδομένα που αφορούν κείμενα και ιστοσελίδες είναι τα πιο συχνά συσχετισμένα με παραπάνω από μία ετικέτα. Για παράδειγμα, ένα άρθρο της εφημερίδας σχετικά με την ταινία Rush που είναι αφιερωμένη στον Niki Lauda, θα μπορούσε να αντιστοιχιστεί τόσο στην ετικέτα «Ταινίες» όσο και στην ετικέτα «Αυτοκίνητα». Τον τελευταίο καιρό η μάθηση δεδομένων πολλαπλών ετικετών έχει τραβήξει την προσοχή πολλών ερευνητών καθώς έχει αρχίσει παρέχει λύσεις σε έναν αυξανόμενο αριθμό νέων εφαρμογών όπως o σημασιολογικός σχολιασμός των εικόνων ( [2], [3] ) και των βίντεο ( [4], [5] ), κατηγοριοποίηση μουσικής με βάση το συναίσθημα ( [6] ). Γενικά, υπάρχουν δύο διαφορετικοί τρόποι μάθησης με επίβλεψη των δεδομένων πολλαπλών ετικετών. Η πρώτη μέθοδος είναι η ταξινόμηση πολλαπλών ετικετών (multilabel classification), η οποία αφορά την εκπαίδευση ενός μοντέλου που εμφανίζει μία κατανομή των ετικετών σε σχετικές και μη σχετικές αναφορικά με ένα νέο παράδειγμα. Η δεύτερη μέθοδος περιγράφει την κατάταξη των ετικετών (label ranking), δηλαδή την εκπαίδευση ενός μοντέλου που εξάγει μία ταξινόμηση των κλάσεων ετικετών ανάλογα με την σχετικότητά τους με το νέο παράδειγμα. Τόσο η πρώτη όσο και η δεύτερη μέθοδος είναι σημαντικές στην εξόρυξη δεδομένων πολλαπλών ετικετών. Για παράδειγμα, σε εφαρμογές φιλτραρίσματος 6

7 ειδήσεων είναι σημαντικό να παρέχονται στο χρήστη τα ενδιαφέροντα άρθρα, αλλά επίσης θα ήταν χρήσιμο να γνωρίζει τα πιο ενδιαφέροντα άρθρα στην κορυφή της λίστας. Το ιδανικό σενάριο, είναι να κατασκευαστούν μέθοδοι που είναι ικανές να εξορύξουν και τα δύο είδη πληροφορίας από ένα σύνολο δεδομένων πολλαπλών ετικετών. Μία τέτοιου είδους εργασία ονομάζεται κατάταξη πολλαπλών ετικετών (multilabel ranking). Παρακάτω θα παρουσιαστούν και οι τρεις μέθοδοι που προαναφέρθηκαν, οι οποίες είναι ομαδοποιημένες σε δύο κατηγορίες: 1. Μετασχηματισμός προβλημάτων (Problem Transformation): εδώ οι μέθοδοι είναι ανεξάρτητες από αλγορίθμους και μετασχηματίζουν μία διαδικασία εκπαίδευσης σε μία ή περισσότερες διαδικασίες ταξινόμησης δεδομένων μίας ετικέτας. 2. Algorithm Adaptation: οι μέθοδοι αυτής της περίπτωσης επεκτείνουν ήδη υπάρχοντες αλγορίθμους έτσι ώστε να διαχειριστούν απευθείας τα δεδομένα πολλαπλών ετικετών. Για την περιγραφή όλων των μεθόδων θα χρησιμοποιήσουμε το L = { λj : j=1 q } ως το πεπερασμένο σύνολο ετικετών για την εκπαίδευση με δεδομένα πολλαπλών ετικετών, το D = { ( xi, Yi ), i=1 m } για να ορίσουμε το σύνολο των παραδειγμάτων εκπαίδευσης με πολλαπλές χαρακτηριστικών και ετικέτες, όπου xi είναι το διάνυσμα των ως το σύνολο των ετικετών του i-οστού παραδείγματος Μετασχηματισμός Προβλημάτων Για να γίνουν κατανοητές οι συγκεκριμένες μέθοδοι, θα χρησιμοποιηθεί το σύνολο δεδομένων που απεικονίζεται στον Πίνακα 1. Παράδειγμα Χαρακτηριστικά Σύνολο Ετικετών x1 x2 x3 x4 {λ1, λ4} {λ3, λ4} {λ1} {λ2, λ3, λ4} Πίνακας 1. Σύνολο Δεδομένων Πολλαπλών Ετικετών 7

8 Υπάρχουν διάφοροι απλοί μετασχηματισμοί για την μετατροπή των δεδομένων πολλαπλών ετικετών σε δεδομένα μίας ετικέτας, χρησιμοποιώντας το ίδιο σύνολο ετικετών ( [2], [7]). Έπειτα, το μοντέλο μπορεί να εκπαιδευτεί για την κατάταξη των ετικετών με βάση τις πιθανοτικές κατανομές που εξάγει ο ταξινομητής απλής ετικέτας. Η κλάση/ετικέτα με τη μεγαλύτερη πιθανότητα θα καταταχθεί πρώτη, η κλάση/ετικέτα με τη δεύτερη μεγαλύτερη πιθανότητα θα καταταχθεί δεύτερη κτλπ. Ξεκινώντας την περιγραφή των μετασχηματισμών βασιζόμενοι στην εργασία [8], συναντάμε αρχικά τον μετασχηματισμό της αντιγραφής (copy transformation), ο οποίος αντικαθιστά κάθε παράδειγμα πολλαπλών ετικετών ( x i, Y i ) με Y i παραδείγματα ( x j, λ j ) για κάθε. Παράδειγμα Ετικέτα 1a λ 1 1b λ 4 2a λ 3 2b λ 4 3 λ 1 4a λ 2 4b λ 3 4c λ 4 Πίνακας 2. Μετασχηματισμός δεδομένων Πίνακα 1 με copy Όπως φαίνεται και στον Πίνακα 3, μία παραλλαγή αυτού του μετασχηματισμού είναι ο επονομαζόμενος copy-weight ο οποίος συσχετίζει κάθε παραγόμενο παράδειγμα με βάρος. Παράδειγμα Ετικέτα Βάρος 1a λ b λ a λ b λ λ a λ b λ c λ Πίνακας 3. Μετασχηματισμός δεδομένων Πίνακα 1 με copy-weight Ένας επιπλέον μετασχηματισμός είναι ο select ο οποίος αντικαθιστά το Y i με κάποια ετικέτα από τα μέλη του. Αυτή η ετικέτα μπορεί να είναι η περισσότερο συχνή 8

9 (select-max) ή η λιγότερη συχνή (select-min) μεταξύ όλων των παραδειγμάτων. Μπορεί όμως να επιλεχθεί και τυχαία (select-random). Παράδειγμα Ετικέτα 1 λ 4 2 λ 4 3 λ 1 4 λ 4 Πίνακας 4. Μετασχηματισμός δεδομένων Πίνακα 1 με select-max Παράδειγμα Ετικέτα 1 λ 1 2 λ 3 3 λ 1 4 λ 2 Πίνακας 5. Μετασχηματισμός δεδομένων Πίνακα 1 με select-min Παράδειγμα Ετικέτα 1 λ 1 2 λ 4 3 λ 1 4 λ 3 Πίνακας 6. Μετασχηματισμός δεδομένων Πίνακα 1 με selectrandom Επιπρόσθετα, ο μετασχηματισμός ignore, αγνοεί κάθε παράδειγμα με πολλαπλές ετικέτες. Παράδειγμα Ετικέτα 3 λ 1 Πίνακας 7. Μετασχηματισμός δεδομένων Πίνακα 1 με ignore Ένας ακόμα αποτελεσματικός μετασχηματισμός προβλήματος είναι το label powerset, το οποίο θεωρεί κάθε μοναδικό σύνολο ετικετών που υπάρχει σε ένα σύνολο εκπαίδευσης με πολλαπλές ετικέτες ως μία από τις κλάσεις της νέας ταξινόμησης απλής ετικέτας. Ο συγκεκριμένος μετασχηματισμός φαίνεται και στο παρακάτω παράδειγμα: Παράδειγμα Ετικέτα 1 λ 1,4 2 λ 3,4 3 λ 1 4 λ 2,3,4 Πίνακας 8. Μετασχηματισμός δεδομένων Πίνακα 1 με label powerset Δεδομένου ενός νέου παραδείγματος, ο ταξινομητής του LP εξάγει την πιο πιθανή κλάση που στην πραγματικότητα είναι ένα σύνολο από ετικέτες. Εάν αυτός ο ταξινομητής μπορεί να εξάγει μία πιθανοτική κατανομή για όλες τις κλάσεις τότε ο LP μπορεί εύκολα να κατατάξει όλες τις ετικέτες. Στον Πίνακα 9, εμφανίζεται μία πιθανοτική κατανομή που θα μπορούσε να παραχθεί από τον LP για ένα νέο παράδειγμα με άγνωστο σύνολο ετικετών και με δεδομένα εκπαίδευσης αυτά του Πίνακα 8. Για την απόκτηση της κατάταξης των ετικετών μπορούμε για κάθε ετικέτα 9

10 να υπολογίσουμε το άθροισμα των πιθανοτήτων των κλάσεων που την περιέχουν. Με αυτό τον τρόπο ο LP μπορεί να λύσει το πρόβλημα της κατάταξης πολλαπλών ετικετών (multilabel ranking). c p(c X) λ 1 λ 2 λ 3 λ 4 λ 1, λ 3, λ λ 2,3, Πίνακας 9. Κατάταξη με τον LP Η πολυπλοκότητα του LP εξαρτάται από την πολυπλοκότητα των βασικών ταξινομητών αναφορικά με τον αριθμό των κλάσεων, που είναι ίσος με τον αριθμό των διακριτών συνόλων ετικετών του συνόλου εκπαίδευσης. Αυτός ο αριθμός έχει ως άνω όριο το min(m,2 q ) και παρόλο που είναι αρκετά μικρός, δημιουργείται πρόβλημα πολυπλοκότητας, ειδικά για μεγάλα m και q. Επίσης ο μεγάλος αριθμός των κλάσεων, καθώς και το γεγονός ότι πολλές από αυτές είναι συνδεδεμένες μόνο με λίγα παραδείγματα, καθιστά την διαδικασία εκπαίδευσης δύσκολη. Μία επέκταση του LP είναι η μέθοδος pruned problem transformation (PPT) [9] και προσπαθεί να λύσει τα προβλήματα που προαναφέρθηκαν. Σε αυτήν την περίπτωση ορίζεται ένα όριο (πχ. 2 ή 3) και αφαιρούνται τα σύνολα ετικετών που εμφανίζονται λιγότερες φορές από αυτόν τον αριθμό. Επίσης δίνεται η δυνατότητα να αντικατασταθεί αυτή η πληροφορία που χάθηκε με ξένα υποσύνολα αυτών των συνόλων ετικετών και που εμφανίζονται περισσότερες φορές από το όριο που τέθηκε. Η μέθοδος random k-labelsets (RAkEL) [10] κατασκευάζει ένα ensemble από LP ταξινομητές. Για την εκπαίδευση των LP ταξινομητών επιλέγεται κάθε φορά ένα τυχαίο μικρό υποσύνολο του συνόλου ετικετών. Η σπουδαιότητα του συγκεκριμένου αλγορίθμου έγκειται στο γεγονός ότι λαμβάνει υπόψη τις συσχετίσεις που τυχόν να υπάρχουν μεταξύ των ετικετών και παράλληλα αποφεύγει τα προβλήματα του LP. Επίσης μπορεί να πραγματοποιηθεί και κατάταξη ετικετών 10

11 με τον μέσο όρο των ψήφων από κάθε μοντέλο (πρόβλεψη 0 ή 1) για κάθε ετικέτα. Έπειτα το όριο χρησιμοποιείται για να χωρίσει τις ετικέτες σε σχετικές ή μη σχετικές. Ο πιο δημοφιλής μετασχηματισμός προβλήματος είναι ο binary relevance (BR), ο οποίος για κάθε διαφορετική ετικέτα εκπαιδεύει ένα δυαδικό ταξινομητή (q πλήθος ταξινομητών). Το αρχικό σύνολο δεδομένων μετατρέπεται σε q σύνολα δεδομένων που περιέχουν όλα τα παραδείγματα του αρχικού, εκ των οποίων το καθένα είναι χαρακτηρισμένο θετικά εάν το αρχικό σύνολο ετικετών περιείχε την ετικέτα λ j ή διαφορετικά αρνητικά. Για την ταξινόμηση ενός νέου παραδείγματος, ο BR εξάγει την ένωση των ετικετών λ j που χαρακτηρίστηκαν θετικά από τους q ταξινομητές. Ο παρακάτω πίνακας εμφανίζει τα 4 σύνολα δεδομένων που κατασκευάστηκαν από τον BR εφαρμοσμένο στο σύνολο δεδομένων του Πίνακα 1. Παράδειγμα Ετικέτα 1 λ1 2 λ1 3 λ1 4 λ1 Παράδειγμα Ετικέτα 1 λ2 2 λ2 3 λ2 4 λ2 Παράδειγμα Ετικέτα 1 λ3 2 λ3 3 λ3 4 λ3 Παράδειγμα Ετικέτα 1 λ4 2 λ4 3 λ4 4 λ4 Πίνακας 10. Σύνολα δεδομένων μετά τον BR Ο μετασχηματισμός ranking by pairwise comparison (RPC) [11], μετατρέπει το σύνολο δεδομένων πολλαπλών ετικετών σε σύνολα δεδομένων με δυαδικές ετικέτες, δηλαδή ένα για κάθε ζευγάρι ετικετών (λ i,λ j ), 1 i < j q. Κάθε τέτοιο σύνολο δεδομένων, περιέχει τα παραδείγματα του αρχικού συνόλου που χαρακτηρίζονται με μία από τις δύο αντίστοιχες ετικέτες, αλλά όχι και τις δύο. Επίσης από κάθε ένα σύνολο δεδομένων, εκπαιδεύεται ένα ταξινομητής ο οποίος μαθαίνει να ξεχωρίζει τις δύο ετικέτες. Δεδομένου ενός νέου παραδείγματος, όλοι οι δυαδικοί ταξινομητές βγάζουν μία πρόβλεψη, και δημιουργείται μία κατάταξη καταμετρώντας όλες τις ψήφους για κάθε ετικέτα. Ο Πίνακας 11, εμφανίζει τα αποτελέσματα του RPC όταν εφαρμόζεται στο σύνολο δεδομένων του Πίνακα 1. Παρ. Ετικέτα 1 λ 1, 2 3 λ 1, 2 4 λ 1,2 Παρ. Ετικέτα 1 λ 1, 3 2 λ 1,3 3 λ 1, 3 4 λ 1,3 Παρ. Ετικέτα 2 λ 1,4 3 λ 1, 4 4 λ 1,4 Παρ. Ετικέτα 2 λ 2,3 Παρ. Ετικέτα 1 λ 2,4 2 λ 2,4 Παρ. Ετικέτα 1 λ 3,4 11

12 Πίνακας 11. Σύνολα δεδομένων μετά τον RPC Επιπρόσθετα, ο multilabel pairwise perceptron (MLPP) αλγόριθμος [12], είναι μια εφαρμογή του RPC η οποία χρησιμοποιεί perceptrons για τη διαδικασία της δυαδικής ταξινόμησης. Μία επιπλέον επέκταση του RPC είναι ο μετασχηματισμός calibrated label ranking (CLR) [13], ο οποίος κάνει χρήση μίας επιπρόσθετης εικονικής ετικέτας που διαχωρίζει τις σχετικές ετικέτες από τις μη σχετικές κατά τη διάρκεια της κατάταξης. Επομένως η CLR καταφέρνει να λύσει πλήρως τα προβλήματα του MLR. Παρατηρώντας τη μέθοδο, ανακαλύπτουμε ότι τα δυαδικά μοντέλα που εκπαιδεύονται ώστε να διακρίνουν την εικονική ετικέτα και όλες τις υπόλοιπες, αντιστοιχούν στα μοντέλα του BR μετασχηματισμού. Αυτό συμβαίνει διότι κάθε παράδειγμα που χαρακτηρίζεται από μία ετικέτα, θεωρείται θετικό για αυτήν την ετικέτα αλλά αρνητικό για την εικονική. Αντίστοιχα, κάθε παράδειγμα που δεν χαρακτηρίζεται από μία ετικέτα θεωρείται αρνητικό για αυτήν και θετικό για την εικονική. Εφαρμόζοντας τη συγκεκριμένη μέθοδο στο σύνολο δεδομένων του Πίνακα 1, κατασκευάζονται τα σύνολα δεδομένων τόσο του Πίνακα 10 όσο και του Πίνακα 11. Τέλος, ο InsDif [14] αλγόριθμος κατασκευάζει ένα διάνυσμα για κάθε ετικέτα, υπολογίζοντας το μέσο όρο όλων των παραδειγμάτων εκπαίδευσης που ανήκουν σε αυτήν την ετικέτα. Έπειτα, κάθε παράδειγμα μετατρέπεται σε έναν σάκο από q παραδείγματα, καθένα από τα οποία είναι ίσο με τη διαφορά μεταξύ του αρχικού παραδείγματος και ενός από τα διανύσματα. Για την εκπαίδευση με το μετασχηματισμένο σύνολο δεδομένων απαιτείται μία στρατηγική δύο επιπέδων ταξινόμησης Algorithm Adaptation Όσον αφορά την επέκταση των ήδη υπαρχόντων αλγορίθμων, ο C4.5 μετατράπηκε έτσι ώστε να επιτρέπονται πολλαπλές ετικέτες στα φύλλα του δέντρου και ο τύπος της εντροπίας τροποποιήθηκε. Για τον AdaBoost έχουν σχεδιαστεί δύο επεκτάσεις, η AdaBoost.MH και η AdaBoost.MR. Η πρώτη ελαχιστοποιεί το Hamming Loss και η 12

13 δεύτερη βρίσκει μία υπόθεση που τοποθετεί τις σωστές ετικέτες στην κορυφή της κατάταξης. Στην εργασία [15], έγινε ένας συνδυασμός του AdaBoost.MH με έναν αλγόριθμο που παρήγαγε δέντρα απόφασης εναλλάξ. Το κίνητρο ήταν να δημιουργούνται μοντέλα πολλαπλών ετικετών που να είναι κατανοητά από τους ανθρώπους. Αναφορικά με μοντέλα παραγωγής πιθανοτήτων, προτάθηκε στην εργασία [16] η δημιουργία διαφορετικών λέξεων για κάθε ετικέτα. Με βάση αυτό το μοντέλο, η παραγωγή ενός εγγράφου με πολλαπλές ετικέτες γίνεται με τη μίξη των κατανομών λέξεων από τις ετικέτες του. Το multi-class multi-label perceptron (MMP) είναι μια οικογένεια από αλγορίθμους πραγματικού χρόνου για την κατάταξη των ετικετών δεδομένων πολλαπλών ετικετών με βάση τον αλγόριθμο του perceptron. Για κάθε ετικέτα ο MMP διατηρεί ένα perceptron, αλλά η ενημέρωση των βαρών για καθένα από αυτά γίνεται έτσι ώστε να επιτυγχάνεται τέλεια κατάταξη για όλες τις ετικέτες. Στην εργασία [17], προτείνεται ένας αλγόριθμος SVM ο οποίος ελαχιστοποιεί την απώλεια όσον αφορά την κατάταξη (ranking loss). Επιπλέον στην εργασία [18] πραγματοποιήθηκαν τρεις βελτιώσεις για να εφαρμοστεί η BR μέθοδος μαζί με τους SVM ταξινομητές. Η κύρια ιδέα της πρώτης βελτίωσης ήταν να επεκταθεί το αρχικό σύνολο δεδομένων με q επιπλέον χαρακτηριστικά τα οποία περιέχουν την πρόβλεψη του κάθε δυαδικού ταξινομητή. Έπειτα εκπαιδεύονται q νέοι ταξινομητές με αυτά τα νέα σύνολα δεδομένων που επεκτάθηκαν. Το προτέρημα αυτής της βελτίωσης είναι ότι λαμβάνονται υπόψη οι πιθανές εξαρτήσεις μεταξύ των διαφορετικών ετικετών. Η δεύτερη βελτίωση που ονομάζεται ConfMat, εμπεριέχει την αφαίρεση των αρνητικών παραδειγμάτων εκπαίδευσης μίας ετικέτας εάν είναι πολύ όμοια με τα θετικά παραδείγματα εκπαίδευσης της, βασιζόμενη σε έναν πίνακα σύγχυσης που κατασκευάζεται από την εφαρμογή ενός γρήγορου και ακριβή ταξινομητή σε ένα παρακρατημένο validation σύνολο. Επιπρόσθετα, η τρίτη βελτίωση ονομάζεται 13

14 BandSVM και αφαιρεί τα πολύ όμοια αρνητικά παραδείγματα εκπαίδευσης που βρίσκονται μέσα σε μία οριοθετημένη απόσταση με σημείο αναφοράς το υπερεπίπεδο του SVM. Τέλος, πολλές μέθοδοι βασίστηκαν στο δημοφιλή k-nn lazy learning αλγόριθμο. Όλες έχουν κοινό πρώτο βήμα, δηλαδή να βρουν τα k πλησιέστερα παραδείγματα, αλλά αυτό που διαφέρει μεταξύ τους είναι η συνάθροιση των συνόλων ετικετών των παραδειγμάτων αυτών Βιβλιοθήκες για μάθηση δεδομένων με πολλαπλές ετικέτες Δύο από τις πιο διαδεδομένες βιβλιοθήκες για τη μάθηση δεδομένων με πολλαπλές ετικέτες είναι η MULAN και το MEKA. Η MULAN [1] είναι μία βιβλιοθήκη Java ανοιχτού λογισμικού βασισμένη στο Weka [19] και χρησιμοποιείται για την εκπαίδευση μοντέλων από σύνολα δεδομένων με πολλαπλές ετικέτες. Η συγκεκριμένη βιβλιοθήκη προσφέρει μία πληθώρα από τους πιο σύγχρονους αλγορίθμους για την ταξινόμηση δεδομένων με πολλαπλές ετικέτες και την κατάταξη ετικετών όπως επίσης και ένα framework αξιολόγησης το οποίο υπολογίζει μία μεγάλη ποικιλία από μετρικές πολλαπλών ετικετών. Επιπλέον, αυτή η βιβλιοθήκη προσφέρει έναν αριθμό από στρατηγικές εφαρμογής ορίου, απλές βασικές μεθόδους για μείωση διαστάσεων πολλαπλών ετικετών και υποστηρίζει την ιεραρχική ταξινόμηση δεδομένων με πολλαπλές ετικέτες, συμπεριλαμβανομένου ενός υλοποιημένου αλγορίθμου. Η MULAN είναι βιβλιοθήκη, επομένως προσφέρει μόνο προγραμματικά APIs στους χρήστες της. Δεν υπάρχει διαθέσιμη γραφική διεπαφή χρήστη (GUI), όπως επίσης δεν υπάρχει δυνατότητα χρήσης της βιβλιοθήκης από τη γραμμή εντολών. Ένα ακόμα μειονέκτημά της είναι ότι εκτελεί τα πάντα στην κύρια μνήμη, κι επομένως υπάρχουν περιορισμοί όσον αφορά μεγάλα σύνολα δεδομένων. Τέλος, ένα από τα σπουδαία χαρακτηριστικά της βιβλιοθήκης είναι ένα πακέτο πειραμάτων του οποίου ο στόχος είναι να φιλοξενήσει κώδικα ο οποίος αναπαράγει 14

15 αποτελέσματα πειραμάτων που έχουν αναφερθεί σε δημοσιεύσεις που αφορούν μάθηση πολλαπλών ετικετών. Μία ακόμα βιβλιοθήκη για την ταξινόμηση δεδομένων με πολλαπλές ετικέτες και της αξιολόγησής της, είναι η MEKA [20]. Το συγκεκριμένο εργαλείο παραχωρεί στον χρήστη ανοιχτού λογισμικού υλοποιήσεις μεθόδων σε JAVA και βασίζεται στο toolkit μηχανικής μάθησης WEKA του Πανεπιστημίου του Waikato. Η βιβλιοθήκη περιέχει ενσωματωμένες πολλές βασικές μεθόδους, όπως επίσης και μεθόδους για pruned sets και classifier chains, άλλες μεθόδους της επιστημονικής κοινότητας, και έναν wrapper για την πλατφόρμα της MULAN. Το ΜΕΚΑ δεν έχει ενσωματωθεί ακόμα στη γραφική διεπαφή του WEKA και στοχεύει κυρίως στο να προσφέρει υλοποιήσεις δημοσιευμένων αλγορίθμων. 2.2 Ταξινόμηση Ροών Δεδομένων Εισαγωγή Με την πρόοδο της τεχνολογίας τόσο στον τομέα του hardware όσο και του software, η αυτόματη παραγωγή δεδομένων και η αποθήκευσή τους έχει γίνει πολύ πιο γρήγορη σε σχέση με τα προηγούμενα χρόνια. Αυτού του είδους τα δεδομένα ονομάζονται ροές δεδομένων. Οι ροές δεδομένων είναι πλέον πολύ διαδεδομένες και η αποθήκευση, ανάλυση και οπτικοποίηση αυτού του μεγάλου όγκου δεδομένων εμφανίζει πολύ μεγάλο ενδιαφέρον. Εξαιτίας των περιορισμών των πόρων όσον αφορά την μνήμη και τον χρόνο εκτέλεση, οι πιο συνηθισμένες μέθοδοι εξόρυξης δεδομένων πρέπει να προσαρμοστούν έτσι ώστε να μπορούν να τρέξουν σε ένα περιβάλλον ροών. Επιπλέον, όπως θα αναλυθεί και παρακάτω, υπάρχει μεγάλη πιθανότητα οι ροές δεδομένων που εξετάζονται να εμφανίσουν το λεγόμενο concept drift, το οποίο καθιστά και πιο δύσκολη την εφαρμογή των συνηθισμένων αλγορίθμων. Ένα σημαντικό πρόβλημα εξόρυξης δεδομένων είναι αυτό της ταξινόμησης. Στο πρόβλημα της ταξινόμησης, επιχειρούμε να μοντελοποιήσουμε μία κλάση-μεταβλητή με βάση ένα ή περισσότερα δεδομένα χαρακτηριστικά. Από την οπτική γωνία της απλής εξόρυξης δεδομένων αυτό το 15

16 πρόβλημα έχει μελετηθεί εκτεταμένα, παρόλα αυτά παρουσιάζει ιδιαίτερες ιδιότητες στο επίπεδο των ροών δεδομένων. Τα προβλήματα ταξινόμησης έχουν μελετηθεί εκτενώς ως μία μεγάλη κατηγορία για την ανάλυση δεδομένων στη μηχανική μάθηση, τη στατιστική παρεμβολή, και την εξόρυξη δεδομένων. Οι μέθοδοι ταξινόμησης παρουσιάζουν ένα σύνολο τεχνικών μάθησης με επίβλεψη όπου ένα σύνολο εξαρτώμενων μεταβλητών χρειάζεται να προβλεφθεί με βάση ένα άλλο σύνολο χαρακτηριστικών εισόδου. Υπάρχουν δύο χαρακτηριστικές προσεγγίσεις στην κατηγορία των μεθόδων μάθησης με επίβλεψη: η ταξινόμηση και η παλινδρόμηση. Η ταξινόμηση ασχολείται κυρίως με ρητά χαρακτηριστικά ως εξαρτώμενες μεταβλητές. Από την άλλη πλευρά, η παλινδρόμηση ασχολείται με αριθμητικά χαρακτηριστικά ως έξοδο. Γενικά η διαδικασία της ταξινόμησης διαιρείται σε δύο φάσεις: η κατασκευή του μοντέλου και η επαλήθευση του μοντέλου. Στη φάση της κατασκευής του μοντέλου, ένας αλγόριθμος μάθησης διατρέχει το σύνολο δεδομένων ώστε να εκπαιδεύσει το μοντέλο που θα χρησιμοποιηθεί και για την εκτίμηση της εξόδου. Η ποιότητα αυτής της εκτίμησης αξιολογείται στην φάση της επαλήθευσης του μοντέλου. Επίσης διαδικασία της κατασκευής του μοντέλου αναφέρεται και ως εκπαίδευση. Υπάρχει ποικιλία μεθόδων που χρησιμοποιούνται για το πρόβλημα της ταξινόμησης όπως τα δέντρα απόφασης, οι μέθοδοι βασισμένες σε κανόνες και τα νευρωνικά δίκτυα. Πολλές από αυτές τις τεχνικές έχουν σχεδιαστεί έτσι ώστε να κατασκευάζουν τα μοντέλα ταξινόμησης με τη βοήθεια στατικών συνόλων δεδομένων που δίνουν τη δυνατότητα να προσπελαστούν αρκετές φορές καθώς είναι αποθηκευμένα στο δίσκο. Αυτό όμως δεν είναι πραγματοποιήσιμο στην περίπτωση των ροών δεδομένων. Εκεί είναι απαραίτητο να γίνει επεξεργασία όλου του συνόλου δεδομένων με ένα πέρασμα. Επιπλέον, το πρόβλημα της ταξινόμησης πρέπει να επανασχεδιαστεί για να υπολογιστεί και ο παράγοντας του concept drift, που εμφανίζεται μοναδικά στις ροές δεδομένων. Οι εφαρμογές της ταξινόμησης ροών δεδομένων μπορεί να ποικίλει από σημαντικές αστρονομικές και γεωφυσικές εφαρμογές μέχρι υποστήριξη αποφάσεων σε πραγματικό χρόνο σε επιχειρησιακές και εργοστασιακές εφαρμογές. Υπάρχουν 16

17 πολλά πιθανά σενάρια για τέτοιου είδους εφαρμογές. Ένα παράδειγμα σημαντικής εφαρμογής είναι η ταξινόμηση και η ανάλυση μετρήσεων βιοαισθητήρων τοποθετημένους σε μια πόλη για λόγους ασφαλείας. Η ανάλυση των αποτελεσμάτων προσομοίωσης και των αναγνώσεων του αισθητήρα στις επιστημονικές εφαρμογές, έχει ως στόχο να τροποποιεί το πλάνο ή τις πειραματικές ρυθμίσεις του έργου σε πραγματικό χρόνο. Η ανάλυση της ροής των κλικ του ποντικιού και των αρχείων καταγραφής του Παγκόσμιου Ιστού είναι μία σημαντική εφαρμογή για τον τομέα της ηλεκτρονικής διαφήμισης. Μία ακόμα ενδιαφέρουσα εφαρμογή είναι η ταξινόμηση των ροών δεδομένων που παράγονται από την αγορά Ερευνητικά προβλήματα Η διαδικασία της προσαρμογής των μοντέλων ταξινόμησης σε πολλές από τις παραπάνω εφαρμογές είναι συχνά μη τετριμμένη. Η πιο σημαντική πρόκληση σε σχέση με την ταξινόμηση είναι αυτή του concept drift για τις εξελισσόμενες ροές δεδομένων. Το φαινόμενο του concept drift προκαλείται από την φυσική τάση των δεδομένων να εξελίσσονται κατά την πάροδο του χρόνου. Το πιο πιθανό είναι μετά από ένα συγκεκριμένο χρονικό διάστημα, ο ταξινομητής να καταστεί απαρχαιωμένος εξαιτίας της συνεχούς αλλαγής των πληροφοριών της ροής σε διαρκή βάση. Μερικά από τα πιο σημαντικά προβλήματα που εμφανίζονται κατά τη διάρκεια της εξόρυξης των ροών δεδομένων είναι τα εξής: Η μεγάλη ταχύτητα με την οποία καταφθάνουν οι πληροφορίες της ροής δεδομένων Το περιορισμένο μέγεθος της μνήμης και οι απαιτήσεις που υπάρχουν για μεγαλύτερο χώρο Το concept drift όπως αναφέρθηκε και προηγουμένως Η ισορροπία που πρέπει να υπάρχει μεταξύ της ακρίβειας των αποτελεσμάτων και της αποδοτικότητας χώρου και χρόνου για την πραγματοποίηση της ταξινόμησης 17

18 2.2.3 Προσεγγιστικές λύσεις Πολλά από αυτά τα προβλήματα μπορούν να επιλυθούν με τη χρήση καλών στατιστικών και υπολογιστικών μεθόδων. Παρόλα αυτά οι διαφορετικές μέθοδοι έχουν κοινά χαρακτηριστικά και μπορούν να χωριστούν σε δύο κατηγορίες: οι βασισμένες σε δεδομένα και οι βασισμένες σε εργασίες. Στην πρώτη κατηγορία, η ιδέα είναι να εξεταστεί μόνο ένα υποσύνολο από το συνολικό σύνολο δεδομένων ή να προσαρμοστούν τα δεδομένα καθέτως ή οριζοντίως σε ένα μικρότερο μέγεθος. Αυτή η προσέγγιση επιτρέπει να προσαρμόσουμε πολλές από τις ήδη υπάρχουσες τεχνικές εξόρυξης δεδομένων στην περίπτωση των ροών δεδομένων. Από την άλλη πλευρά, στις λύσεις βασισμένες σε εργασίες, εφαρμόζονται κάποιες συνηθισμένες τεχνικές για την μετατροπή των αλγορίθμων έτσι ώστε να επιτευχθούν αποδοτικές λύσεις όσον αφορά το χώρο και το χρόνο Τεχνικές Ταξινόμησης Παρακάτω θα αναλυθούν ορισμένες διαδεδομένες τεχνικές ταξινόμησης ροών δεδομένων. Ensemble Based Classification: Η μέθοδος αυτή αποτελεί ένα γενικό πλαίσιο για την εξόρυξη δεδομένων από ροές που παρουσιάζουν το φαινόμενο του concept drift. Η ιδέα βασίζεται στη χρήση ενός συνόλου από μοντέλα ταξινόμησης όπως τα δέντρα απόφασης που χρησιμοποιούν τον C4.5, τον RIPPER, τον Naïve Bayes και άλλους ώστε να συγκεντρώσουν ψήφους για να αποφασίσουν την έξοδο που θα παραχθεί από την ταξινόμηση, έτσι ώστε να αυξηθεί η ακρίβεια της πρόβλεψης. Η ανάπτυξη αυτής της μεθόδου έγινε με απώτερο σκοπό να αντιμετωπισθούν το concept drift, η αποδοτικότητα και το robustness στην ταξινόμηση των ροών δεδομένων. Very Fast Decision Trees: Αποτελεί ένα σύστημα εκπαίδευσης δέντρων απόφασης, βασισμένα στα δέντρα Hoeffding. Η μέθοδος χωρίζει το δέντρο χρησιμοποιώντας το εκάστοτε καλύτερο χαρακτηριστικό λαμβάνοντας υπόψη ότι ο αριθμός των παραδειγμάτων που χρησιμοποιούνται ικανοποιεί το όριο του Hoeffding. Μία τέτοια τεχνική έχει την ιδιότητα να παράγει μία 18

19 έξοδο που είναι (ασυμπτωτικά) σχεδόν ίδια με αυτή ενός συμβατικού εκπαιδευτή. Η VFDT είναι μία επεκταμένη έκδοση τέτοια μεθόδου που μπορεί να αντιμετωπίσει τα εξής προβλήματα όσον αφορά τις ροές δεδομένων: τις σχέσεις μεταξύ των χαρακτηριστικών, την απαιτούμενη μνήμη και την αποδοτικότητα και την ακρίβεια. On demand classification: Σε αυτήν την περίπτωση εφαρμόζεται η ιδέα των μικρο-ομάδων (micro-clusters). Η κατά απαίτηση ταξινόμηση διαιρεί την διαδικασία της ταξινόμησης σε δύο συνιστώσες. Στην πρώτη συνιστώσα, αποθηκεύονται συνεχώς στατιστικά που έχουν συνοψιστεί σχετικά με τις ροές δεδομένων. Στη δεύτερη συνιστώσα χρησιμοποιούνται συνεχώς τα συνοψισμένα στατιστικά για την πραγματοποίηση της ταξινόμησης. Τα συνοψισμένα στατιστικά παρουσιάζονται στη μορφή των μικρο-ομάδων βάσει των κλάσεων-ετικετών. Αυτό σημαίνει ότι κάθε μία από τις μικροομάδες σχετίζεται με μία συγκεκριμένη κλάση ετικέτα που ορίζει την κλάση ετικέτα των σημείων που συμπεριλαμβάνει. Σημειωτέον, και οι δυο συνιστώσες της μεθόδου μπορούν να χρησιμοποιηθούν σε χρόνο χρήστη και επομένως η προσέγγιση αναφέρεται ως on demand classification μέθοδος. Αυτό συμβαίνει διότι το σύνολο των παραδειγμάτων επαλήθευσης μπορούν να καταφθάσουν στη μορφή της ροής δεδομένων και πρέπει να ταξινομηθούν αποδοτικά κατ εντολή. Την ίδια στιγμή, τα συνοψισμένα στατιστικά (και επομένως το μοντέλο εκπαίδευσης) μπορούν να ενημερωθούν αποδοτικά οποιαδήποτε στιγμή καταφθάνει κάποια νέα πληροφορία. Η πολύ καλή προσαρμοστικότητα μίας τέτοιας μεθόδου μπορεί να φανεί χρήσιμη σε ποικίλες εφαρμογές Πλατφόρμες για κατανεμημένη εξόρυξη δεδομένων Προκειμένου να λυθούν προβλήματα του πραγματικού κόσμου στο πλαίσιο εφαρμογών αναζήτησης που χρησιμοποιούν εξόρυξη δεδομένων και μηχανική μάθηση, σχεδιάστηκαν μηχανές κατανεμημένης επεξεργασίας ροών δεδομένων. Οι δεδομένες μηχανές αναζήτησης, όπως η Google, η Bing και η Yahoo! εξασφαλίζουν τόσο τα αποτελέσματα στο ερώτημα του χρήστη όσο και διαφημίσεις που 19

20 παραχωρούν έσοδα βασιζόμενα στο cost-per-click μοντέλο χρέωσης. Για να εμφανιστούν οι πιο κατάλληλες διαφημίσεις και στην βέλτιστη θέση στη σελίδα, οι επιστήμονες ανέπτυξαν αλγορίθμους οι οποίοι υπολόγιζαν δυναμικά την πιθανότητα του κλικ σε κάθε διαφήμιση δεδομένου ενός περιεχομένου. Το περιεχόμενο αυτό μπορεί να περιλαμβάνει προτιμήσεις χρήστη, γεωγραφική θέση, προηγούμενη ερωτήματα στη μηχανή αναζήτησης, προηγούμενα clicks κτλπ. Επομένως, μία μεγάλη μηχανή αναζήτησης μπορεί να επεξεργαστεί χιλιάδες ερωτήματα ανά δευτερόλεπτο, που είναι λογικό να περιλαμβάνουν και αρκετές διαφημίσεις ανά σελίδα. Πιο συγκεκριμένα, για την επεξεργασία της ανάδρασης του χρήστη, αναπτύχθηκε η S4 [21], που είναι μία κλιμακώσιμη μηχανή επεξεργασίας ροών δεδομένων. Η S4 βασίζεται στο προγραμματιστικό μοντέλου του MapReduce και είναι μία πλατφόρμα γενικού ενδιαφέροντος, που διαχειρίζεται την πληροφορία κατανεμημένα, έχει μερική ανοχή σε λάθη και προσφέρει εύκολη δυνατότητα διασύνδεσης. Αυτά τα χαρακτηριστικά καθιστούν την ανάπτυξη εφαρμογών για την επεξεργασία ροών δεδομένων αρκετά τετριμμένη. Αποδεικνύεται ότι ο σχεδιασμός της S4 πλατφόρμας είναι εκπληκτικά προσαρμόσιμος και προσδίδεται για την εκτέλεσή της σε μεγάλα clusters που είναι κατασκευασμένα από χαμηλού κόστους hardware. Στο ίδιο πλαίσιο βρίσκεται και το Apache Storm [22], το οποίο είναι ένα δωρεάν και ανοιχτού λογισμικού κατανεμημένο υπολογιστικό σύστημα πραγματικού χρόνου. Το Storm δίνει την ευκολία της αξιόπιστης επεξεργασίας απεριόριστων ροών δεδομένων, πραγματοποιώντας σε πραγματικό χρόνο ότι και το Hadoop για επεξεργασία batch δεδομένων. Επίσης θεωρείται απλό σε χρήση και μπορεί να του εφαρμοστεί οποιαδήποτε γλώσσα προγραμματισμού. Τα σενάρια χρήσης του είναι πολλά: μέθοδοι ανάλυσης πραγματικού χρόνου, μηχανική μάθηση σε χρόνο χρήστη, συνεχείς υπολογισμοί, κατανεμημένο RPC, ETL και πολλά ακόμα. Επιπλέον, το Storm είναι αρκετά γρήγορο, κλιμακώσιμο, με ανοχή σε λάθη και εύκολο σε χρήση. 20

21 Εικόνα 1. Υπολογιστικό σύστημα Storm Το υπολογιστικό σύστημα Storm είναι αρκετά ευέλικτη ώστε να μπορεί να ενσωματωθεί και στις τεχνολογίες ουράς και βάσεων δεδομένων που χρησιμοποιεί ο κάθε χρήστης. Τέλος, η τοπολογία της επεξεργάζεται τις ροές δεδομένων με αυθαιρέτως πολύπλοκους τρόπους και τις τμηματοποιεί μεταξύ κάθε υπολογιστικού σταδίου αναλόγως με τις ανάγκες. Όπως φαίνεται και στην Εικόνα 2, παρόμοια με το S4 και το Storm υπάρχει και το SAMOA (Scalable Advanced Massive Online Analysis) [23] που είναι τόσο πλατφόρμα όσο και βιβλιοθήκη αλγορίθμων μηχανικής μάθησης και εξόρυξης δεδομένων από big data. Η αρχιτεκτονική του επιτρέπει την εκτέλεσή του σε αρκετές κατανεμημένες μηχανές επεξεργασίας ροών (SPEs Stream Processing Engines). Για το S4 και το Storm, προσφέρεται μία αρχική υποστήριξη αλλά συνδέσεις για άλλα νέα συστήματα μπορούν να προστεθούν εξίσου εύκολα. Επίσης το SAMOA φροντίζει να αποκρυφτούν όλες οι διαφορές μεταξύ των χρησιμευόντων SPEs όταν πρόκειται για τα APIs, το μοντέλο υπολογισμού και τα θέματα ανάπτυξης. Ακόμη υποστηρίζει της πιο συχνές εργασίες της μηχανικής μάθησης όπως η ταξινόμηση και η ομαδοποίηση. Περιλαμβάνει κατανεμημένες εκδόσεις των κλασικών αλγορίθμων ροής όπως τα Hoeffding δέντρα απόφασης και την ομαδοποίηση με βάση τον k- means. Τέλος το SAMOA παρέχει ένα απλοποιημένο API για την ανάπτυξη αλγορίθμων για την κατανεμημένη επεξεργασία ροών δεδομένων. 21

22 Εικόνα 2. Ταξινόμηση εργαλείων Μηχανικής Μάθησης Τέλος, μία ακόμα πλατφόρμα κατανεμημένης επεξεργασίας ροών δεδομένων είναι το Apache Samza [24]. Το Samza χρησιμοποιεί το Apache Kafka για τη διάδοση μηνυμάτων και το Apache Hadoop YARN για να προσφέρει ανοχή σε λάθη, απομόνωση επεξεργαστή, ασφάλεια και διαχείριση πόρων. Χαρακτηρίζεται κυρίως από ένα απλό API σε σχέση με το MapReduce και επιτρέπει τη λήψη στιγμιότυπου της κατάστασης του επεξεργαστή της ροής και την επαναφορά αυτού. Το Samza έχει κατασκευαστεί ούτως ώστε να μπορεί να διαχειριστεί μεγάλο όγκο από τέτοιες καταστάσεις του επεξεργαστή. Ένα σημαντικό ακόμα πλεονέκτημα του Samza είναι η ανοχή που προσφέρει σε λάθη. Επομένως όποτε ένα μηχάνημα του cluster αποτυγχάνει, τότε το Samza συνεργάζεται με το YARN για να μεταφέρει προσωρινά και αφανώς τις εργασίες του συγκεκριμένου μηχανήματος σε ένα άλλο. Επιπλέον, με τη χρήση του Kafka το Samza εγγυάται ότι δεν χάνονται μηνύματα και ότι είναι κλιμακώσιμο. Παρ όλο που το Samza λειτουργεί με το Kafka και το YARN, προσφέρει και API που επιτρέπει στο χρήστη να τρέξει το Samza με άλλα συστήματα ανταλλαγής μηνυμάτων και περιβάλλοντα εκτέλεσης. Τέλος, όσον αφορά την απομόνωση του επεξεργαστή, το YARN υποστηρίζει το μοντέλο ασφαλείας του Hadoop και την απομόνωση των πόρων μέσω του Linux CGroups. 22

23 2.2.6 Πλατφόρμες για μη κατανεμημένη εξόρυξη δεδομένων Το ΜΟΑ (Massive Online Analysis) [25] είναι ένα προγραμματιστικό περιβάλλον που αφορά την υλοποίηση αλγορίθμων και την εκτέλεση πειραμάτων για την εκπαίδευση ενός μοντέλου σε πραγματικό χρόνο από εξελισσόμενες ροές δεδομένων. Είναι σχεδιασμένο έτσι ώστε να αντιμετωπίζει το πρόβλημα της προσαρμογής της υλοποίησης σύγχρονων αλγορίθμων σε σύνολα δεδομένων πραγματικού κόσμου. Περιέχει μία συλλογή από αλγορίθμους πραγματικού και μη χρόνου, τόσο για την ταξινόμηση όσο και για την ομαδοποίηση, όπως επίσης και εργαλεία αξιολόγησης αυτών των διαδικασιών. Πιο συγκεκριμένα, για την ταξινόμηση υπάρχουν το boosting, το bagging και τα Hoeffding Trees, έχοντας την επιλογή για τη χρήση ή μη Naïve Bayes ταξινομητών στα φύλλα. Για την ομαδοποίηση, υλοποιείται ο StreamKM++, ο CluStream, ο ClusTree, ο Den-Stream, ο D-Stream και ο CobWeb. Πιο αναλυτικά το ΜΟΑ περιέχει γεννήτριες ροών, ταξινομητές και μεθόδους αξιολόγησης. Μπορεί να χρησιμοποιηθεί τόσο μέσω γραφικού περιβάλλοντος όσο και από τη γραμμή εντολών. Επιπλέον μπορεί να αντιμετωπίσει το φαινόμενο του concept drift ως ένα συνδυασμό δύο κατανομών που χαρακτηρίζουν τα σενάρια (concepts) που εμφανίζουν τα δεδομένα πριν και μετά την εμφάνιση του drift. Εντός αυτού του πλαισίου, μπορεί να υπολογιστεί η πιθανότητα τα δεδομένα της ροής να ανήκουν στο νέο concept μετά το drift, μέσω της σιγμοειδούς συνάρτησης. Οι γεννήτριες δεδομένων που εμπεριέχει το ΜΟΑ είναι και αυτές που συναντώνται πιο συχνά στη βιβλιογραφία. Οι ροές δεδομένων μπορούν να χτιστούν από την πλατφόρμα χρησιμοποιώντας γεννήτριες, διαβάζοντας αρχεία με κατάληξη ARFF, συνενώνοντας διάφορες ροές, ή τροποποιώντας άλλες ροές. Με αυτόν τον τρόπο επιτρέπεται η προσομοίωση απείρων ακολουθιών δεδομένων. Οι γεννήτριες που είναι αυτή τη στιγμή διαθέσιμες είναι οι εξής: Random Tree Generator, SEA Concepts Generator, STAGGER Concepts Generator, Rotating Hyperplane, Random RBF Generator, LED Generator, Waveform Generator και Function Generator. Οι υλοποιημένοι ταξινομητές είναι οι ακόλουθοι: Naïve Bayes, Decision Stump, 23

24 Hoeffding Tree, Hoeffding Option Tree, Bagging, Boosting, Bagging χρησιμοποιώντας ADWIN και Bagging χρησιμοποιώντας Adaptive-Size Hoeffding Trees. Εκτός από την ταξινόμηση, το ΜΟΑ προσφέρει και την ομαδοποίηση (clustering) ροών δεδομένων, που επιτρέπουν τη σύγκριση διαφορετικών προσεγγίσεων των ρυθμίσεων στα δεδομένα πραγματικού κόσμου. Τα χαρακτηριστικά του ΜΟΑ για την ομαδοποίηση ροών, περιλαμβάνουν: γεννήτριες εξελισσόμενων ροών δεδομένων, ένα επεκτεινόμενο σύνολο αλγορίθμων για ομαδοποίηση ροών, μετρικές για την αξιολόγηση της ομαδοποίησης ροών και τέλος εργαλεία οπτικοποίησης για την ανάλυση των αποτελεσμάτων και την σύγκριση διαφορετικών ρυθμίσεων. Αυτή τη στιγμή το ΜΟΑ περιέχει αρκετές μεθόδους για ομαδοποίηση ροών όπως ο StreamKM++, ο CluStream, ο ClusTree, ο DenStream, ο D-Stream, και ο CobWeb. Όσον αφορά τις διαθέσιμες μετρικές αξιολόγησης, αυτές αξιολογούν τόσο τα σωστά ομαδοποιημένα παραδείγματα όσο και το μέγεθος που έχει κάθε ομάδα στα αποτελέσματα. 2.3 Ταξινόμηση ροών δεδομένων με πολλαπλές ετικέτες Εισαγωγή Η ταξινόμηση ροών δεδομένων με πολλαπλές ετικέτες προέκυψε πρόσφατα ως μία επέκταση της προαναφερθείσας ταξινόμησης ροής δεδομένων με μία ετικέτα και εμφανίζεται ως απάντηση σε εφαρμογές όπου τα παραδείγματα που καταφθάνουν απαιτούν μία ή περισσότερες ετικέτες. Αυτό συνήθως συμβαίνει είτε επειδή η έννοια των ετικετών είναι απόλυτη είτε επειδή δεν είναι εφικτό να οριστούν ετικέτες που είναι απόλυτα ορισμένες αλλά και υποκειμενικές την ίδια στιγμή. Τέτοιου είδους ετικέτες συναντώνται για παράδειγμα στην κατηγοριοποίηση εισερχόμενων ή επιχειρηματικών εγγράφων: τέτοια παραδείγματα μπορούν να είναι σχετικά με μία θεματική ετικέτα όπως επίσης και σε μία ετικέτα που αφορά εμπιστευτικότητα. Αυτές οι κλάσεις είναι από προηγουμένως ρητά ορισμένες αλλά μπορούν να υπάρξουν και συσχετίσεις μεταξύ τους (π.χ. παραδείγματα που ανήκουν σε ένα συγκεκριμένο θέμα, μπορεί να χαρακτηρίζονται ως εμπιστευτικά). Η επικάλυψη των κλάσεων δεν είναι σπάνιο φαινόμενο. Για παράδειγμα, ένα άρθρο 24

25 σχετικά με την πυρηνική έκρηξη της Φουκουσίμα μπορεί να χαρακτηριστεί με ετικέτες όπως «πυρηνική κρίση», «Ειδήσεις Ασίας-Ειρηνικού», «ενέργεια» και «περιβάλλον» Συγκριτική Μελέτη Υπάρχουν πολλές αποδοτικές μέθοδοι για την ταξινόμηση πολλαπλών ετικετών σε σενάρια στατικών δεδομένων. Παρόλα αυτά, η εκπαίδευση σε εξελισσόμενες ροές δεδομένων είναι πολύ πιο απαιτητική διαδικασία, καθώς οι ταξινομητές πρέπει να είναι ικανοί να προσαρμοστούν στις αλλαγές και σε συνθήκες περιορισμένου χώρου και χρόνου. Στην εργασία [26], οι συγγραφείς αντιμετωπίζουν το πρόβλημα του multi-label stream classification λαμβάνοντας υπόψη το concept drift και το class imbalance που εμφανίζονται κατά την πάροδο του χρόνου. Πιο συγκεκριμένα, η ροή δεδομένων με πολλαπλές ετικέτες περιέχει πολλαπλούς στόχους (concepts) οι οποίοι όμως δεν εξελίσσονται όλοι ταυτόχρονα ή με τον ίδιο ρυθμό. Επομένως κάθε ετικέτα μπορεί να παρουσιάσει τη δικιά της πορεία εμφανίσεων στη ροή δεδομένων. Σχετικά με το πρόβλημα του class imbalance, κάθε ετικέτα έχει συνήθως περισσότερα αρνητικά παρά θετικά παραδείγματα αλλά πάραυτα ορισμένες ετικέτες έχουν περισσότερα θετικά παραδείγματα σε σχέση με άλλες. Είναι κατανοητό ότι ορισμένες ετικέτες έχουν αρκετά παραδείγματα για να γίνει η εκπαίδευση για τη θετική κλάση, αλλά άλλες ετικέτες μπορεί να έχουν λιγοστά ή και καθόλου θετικά παραδείγματα. Η νέα μέθοδος που προτείνεται χρησιμοποιεί δύο σταθερού μεγέθους παράθυρα για κάθε ετικέτα, ένα παράθυρο για τα θετικά παραδείγματα και ένα για τα αρνητικά. Κάθε νέο παράδειγμα εκπαίδευσης τοποθετείται στο παράθυρο των θετικών ή αρνητικών παραδειγμάτων των σχετικών ή μη ετικετών του αντίστοιχα. Επιπλέον χρησιμοποιείται η μέθοδος Binary Relevance (BR), καθώς γίνεται μετατροπή ενός προβλήματος πολλαπλών ετικετών σε πολλαπλά δυαδικά προβλήματα, από τα οποία αντιμετωπίζεται το καθένα τους ξεχωριστά. 25

26 Μια άλλη συμβολή της εργασίας ήταν η εφαρμογή ενός αποδοτικού τρόπου διαχείρισης του χώρου κατά τον οποίο τα παραδείγματα διαμοιράζονται από κοινού μεταξύ των παραθύρων. Χρησιμοποιείται ένας κοινός buffer Β σε μορφή ουράς, στον οποίο αποθηκεύεται κάθε νέο παράδειγμα και φεύγει το πιο παλιό σε περίπτωση που αυτός είναι γεμάτος. Τα παράθυρα των θετικών και αρνητικών παραδειγμάτων αποθηκεύουν αναφορές προς τα αρχικά παραδείγματα που είναι αποθηκευμένα στον Β. Ως βασικός ταξινομητής για κάθε ετικέτα χρησιμοποιείται ο k-nearest-neighbors (knn) καθώς είναι ένας αποδοτικός ως προς το χρόνο αλγόριθμος και εφαρμόστηκε με μία τροποποίηση της λειτουργίας του. Για την αντιμετώπιση του προβλήματος του class imbalance, το οποίο επηρεάζει αρνητικά την επίδοση των BR ταξινομητών, χρησιμοποιήθηκε μια batch-incremental thresholding τεχνική η οποία υπολογίζει ένα διαφορετικό όριο, ανεξάρτητα για κάθε ετικέτα. Με βάση αυτό το όριο και την εκτίμηση της πιθανότητας για την σχετικότητα της ετικέτας με ένα νέο παράδειγμα, καθορίζεται από τον knn ταξινομητή εάν η ετικέτα είναι σχετική ή όχι με αυτό το νέο παράδειγμα. Στην εργασία [27], οι συγγραφείς προσπάθησαν να λύσουν το πρόβλημα της ταξινόμησης σε ροές δεδομένων πολλαπλών ετικετών λαμβάνοντας υπόψη τις παρακάτω τρεις ανταγωνιστικές παραμέτρους: 1. Οι συσχετίσεις που υπάρχουν μεταξύ δυάδων διαφορετικών ετικετών 2. Το joint sparseness μεταξύ διαφορετικών ετικετών. Δηλαδή η πληθικότητα του συνόλου ετικετών κάθε παραδείγματος συνήθως δε μπορεί να είναι ούτε πολύ μεγάλη ούτε πολύ μικρή, και οι ετικέτες πρέπει να έχουν μία νοηματική συνοχή. 3. Ο μεγάλος όγκος δεδομένων που καταφθάνουν με μεγάλη ταχύτητα και το concept drift όπως και στην εργασία [26], που πιθανώς να εμφανιστεί κατά την πάροδο του χρόνου. Η προσέγγιση που προτάθηκε στην εργασία, ονομάζεται Streaming Multi-label Random Trees (SMART). Πιο συγκεκριμένα, για την διατήρηση των ετικετών που 26

27 εμφανίζονται στη ροή δεδομένων και των μεταξύ τους συσχετίσεων, χρησιμοποιήθηκε ένας random-tree αλγόριθμος. Τα δέντρα κατασκευάζονται στην αρχή της ροής με τυχαία επιλεγμένα χαρακτηριστικά διάσπασης και τυχαίες τιμές αποκοπής στους κόμβους. Επομένως σημαντικό να αναφερθεί είναι ότι η διαδικασία αυτή είναι ιδιαίτερα αποδοτική και καταναλώνει σταθερού μεγέθους μνήμη. Το μοντέλο έχει τη δυνατότητα της γνώσης των συσχετίσεων των ετικετών και του joint sparseness με την βοήθεια ορισμένων απλών στατιστικών που διατηρούνται σε κάθε κόμβο ενώ για την διαχείριση του concept drift στη ροή δεδομένων, σχεδιάστηκε ένας fading factor ο οποίος περιορίζει την επιρροή που έχουν τα παλαιότερα δεδομένα στα στατιστικά κάθε κόμβου. Τα στατιστικά που επιλέγονται σε κάθε κόμβο είναι: η εκτίμηση της συσχέτισης μεταξύ των ετικετών σε κάθε κόμβο και ο εκτιμώμενος αριθμός του συνόλου ετικετών σε κάθε κόμβο. Έπειτα εκπαιδεύονται πολλαπλά random trees ως ένα ensemble και τα τελικά αποτελέσματα υπολογίζονται ως μέσος όρος όλων των δέντρων, που βελτιώνει την ικανότητα γενίκευσης στο μοντέλο. Στην έρευνα [28], αντιμετωπίζονται τα εξής τρία προβλήματα: 1. Ο μεγάλος όγκος δεδομένων που πρέπει να υποστεί επεξεργασία, αποτρέπει την εκπαίδευση του μοντέλου. 2. Το Concept Drift και 3. Το Class Imbalance, όπως και στις προαναφερθείσες έρευνες. Για την επίλυση των τριών αυτών προβλημάτων κατασκευάζεται μία πλατφόρμα η οποία αναλύει το πρόβλημα πολλαπλών ετικετών σε πολλά προβλήματα μίας ετικέτας με τη βοήθεια της μεθόδου Binary Relevance (ακριβώς όπως και στις προηγούμενες μεθόδους), και χρησιμοποιεί την Ενεργή Μάθηση. Πιο αναλυτικά κάθε ταξινομητής του ensemble υλοποιείται με βάση μία ετικέτα έτσι ώστε να αντιμετωπιστεί η ανομοιομορφία των κλάσεων, χρησιμοποιείται μία νέα Minimal Classifier Uncertainty (MCU) sampling συνάρτηση για την επιλογή του πιο πληροφοριακού παραδείγματος, και για το concept drift επιλέχθηκε το 27

28 Maximum Posterior (MP) σχήμα βαρών για την συνεχή ενημέρωση των βαρών των βασικών ταξινομητών. Εάν η ακρίβεια πρόβλεψης ενός βασικού ταξινομητή στα δεδομένα πρόβλεψης είναι μεγάλη τότε και το βάρος του είναι υψηλό, διαφορετικά είναι χαμηλό. Σε αντίθεση με τις προηγούμενες έρευνες, εδώ χρησιμοποιείται η Ενεργή Μάθηση (οι άλλες δύο ήταν Μάθηση με Ημι-Επίβλεψη) καθώς επιτρέπει τη συνεχή ανανέωση του διανύσματος βαρών κάθε βασικού ταξινομητή βάσει της ακρίβειας πρόβλεψης στα δεδομένα ροής. Στην έρευνα [29], παρουσιάζονται επεκτάσεις του ΜΟΑ για ταξινόμηση δεδομένων ροής με πολλαπλές ετικέτες. Οι διαφόρων ειδών ταξινομητές που παρουσιάζονται εκπαιδεύονται από ένα παράδειγμα τη φορά, μέσω συνθετικών δεδομένων. Πιο συγκεκριμένα, οι μέθοδοι που παρουσιάζονται βασίζονται στους μετασχηματισμούς δεδομένων πολλαπλών ετικετών που αναφέρθηκαν και στην Ενότητα Ξεκινώντας από τoν Binary Relevance μετασχηματισμό, είναι σχετικά εύκολα εφαρμόσιμος στη ροή δεδομένων με πολλαπλές ετικέτες όταν γίνεται χρήση ταξινομητών οι οποίοι προβλέπουνε τη τιμή ενός παραδείγματος και μετά χρησιμοποιούν αυτό το παράδειγμα για να βελτιστοποιηθούνε. Τα πλεονεκτήματα των μεθόδων του BR είναι η χαμηλή πολυπλοκότητα και η δυνατότητα να τρέχουν παράλληλα, καθώς επίσης και η καλή αντοχή του στο over fitting που πιθανώς να εμφανιστεί στο σύνολο των ετικετών. Ένα μειονέκτημα της συγκεκριμένης μεθόδου είναι ότι δεν λαμβάνει υπόψη της το Class Imbalance το οποίο μπορεί να χειροτερέψει το μοντέλο όταν εμφανίζεται μεγάλος αριθμός από παραδείγματα εκπαίδευσης. Γι αυτό το λόγο έχουν δημιουργηθεί και κάποιες τεχνικές (τις οποίες είδαμε κ στις προαναφερθείσες έρευνες) όπως η χρήση ορίου για το σύνολο ετικετών ή η χρήση βαρών. Επιπλέον, η BR μέθοδος δεν προτιμάται και για τον λόγο ότι το μοντέλο δεν συνυπολογίζει και τις συσχετίσεις μεταξύ των ετικετών, αν και υπάρχουν στη βιβλιογραφία πολλές μέθοδοι που ξεπερνούν αυτό το πρόβλημα. 28

29 Η χρήση μεθόδων που βασίζονται στον Label Powerset (LP) μετασχηματισμό συνεπάγεται ένα πρόβλημα μίας ετικέτας του οποίου όμως το σύνολο ετικετών επεκτείνεται κατά την πάροδο του χρόνου. Αυτό συμβαίνει διότι όπως είδαμε και στην Ενότητα ο μετασχηματισμός LP θεωρεί κάθε συνδυασμό ετικετών ως μία ξεχωριστή ετικέτα, αλλά σε περιβάλλον ροής δεδομένων εμφανίζονται συνεχώς καινούργιοι συνδυασμοί. Παρόλα αυτά υπάρχουν διάφορες στρατηγικές για να ξεπεραστεί το συγκεκριμένο εμπόδιο. Η καταλληλότερη από αυτές χρησιμοποιεί την PS μέθοδο [9] η οποία εκμεταλλεύεται έναν buffer έτσι ώστε έχει καλύτερη ανταπόκριση στην ποικιλία των ετικετών που εμφανίζονται και μοντέλο να μη πραγματοποιεί συχνά επανεκκίνηση. επιτρέπει στο Στα μειονεκτήματα της συγκεκριμένης μεθόδου ανήκει η μεγάλη υπολογιστική πολυπλοκότητα της χειρότερης περίπτωσης και η τάση να γίνεται over fitting στα δεδομένα εκπαίδευσης, αν και αυτό έχει ξεπεραστεί με νεότερες μεθόδους. Η Pair Wise Classification (PW) μέθοδος είναι ένας ακόμα τρόπος που μπορεί να βοηθήσει στην ταξινόμηση ροών δεδομένων με πολλαπλές ετικέτες. Μπορεί να εφαρμοστεί μόνο εάν ο αριθμός των ετικετών είναι περιορισμένος. Επομένως αυτή η μέθοδος δεν είναι προσιτή όταν πρόκειται για μεγάλης εμβέλειας πρόβλημα. H μέθοδος Ranking and Threshold (RT) είναι μία ειδική περίπτωση της LP με το πλεονέκτημα όμως ότι θέτει ένα όριο για το ποιες είναι οι σχετικές ετικέτες και ποιες όχι και επομένως περιορίζεται ο αριθμός των πιθανών αποτελεσμάτων. Παρόμοια με τις μεθόδους BR και PW, η συγκεκριμένη μέθοδος δε λαμβάνει υπόψιν της τις συσχετίσεις των ετικετών. Τέλος, είδαμε και προηγουμένως ότι σε πολλές τεχνικές εφαρμόζεται η Ensemble μέθοδος καθώς εμφανίζει πολύ καλά ποσοστά στην πρόβλεψη, καλή κλιμάκωση και παραλληλοποίηση. Η Ensemble μέθοδος συνδυάζει πολλά μοντέλα δίνοντας ενώ η πρόβλεψη πραγματοποιείται με χρήση ψήφου από αυτά τα μοντέλα. Επιπλέον μπορεί να βοηθήσει στην αντιμετώπιση του concept drift με την εφαρμογή του ADWIN Bagging [30]. Το ADWIN είναι ένας detector αλλαγών, ο οποίος διαγράφει τα 29

30 μέλη του ensemble εάν εντοπιστεί αλλαγή και αυτά υπολειτουργούν και έπειτα τα αντικαθιστά με καινούργια. Όσον αφορά την χρήση δέντρων, η προτεινόμενη λύση είναι τα Multilabel Hoeffding Trees [29]. Αποτελούν επέκταση του Hoeffding Tree το οποίο είναι ένας καινοτόμος ταξινομητής για ροές δεδομένων με μία ετικέτα και πραγματοποιεί την πρόβλεψη επιλέγοντας την επικρατούσα κλάση (majority class) σε κάθε φύλλο. Η ακρίβεια πρόβλεψης μπορεί να αυξηθεί προσθέτοντας μοντέλα του Naïve Bayes στα φύλλα. Για την ανάπτυξη ενός Hoeffding Tree κατά την πάροδο του χρόνου, είναι απαραίτητος ο υπολογισμός του Information Gain. Με βάση την τιμή αυτού του κριτηρίου λαμβάνεται η απόφαση εάν οι κόμβοι-φύλλα αξίζει να διασπαστούν. Για τον υπολογισμό του για ένα χαρακτηριστικό Α, είναι απαραίτητο να είναι γνωστή η διαφορά της εντροπίας των δεδομένων εκπαίδευσης που διασχίζουν τον κόμβο με το άθροισμα με συντελεστή στάθμισης (weighted sum) της εντροπίας των υποσυνόλων που δημιουργούνται από το διαχωρισμό των τιμών για το χαρακτηριστικό Α. Επομένως, το Multilabel Hoeffding Tree προϋποθέτει τη τροποποίηση του υπολογισμού των εντροπιών έτσι ώστε να αρμόζει σε πολλαπλές κλάσεις. Επιπλέον, ο προεπιλεγμένος ταξινομητής στα φύλλα είναι ο multilabel majority-labelset. Παρ όλα αυτά η εργασία προτείνει αντ αυτού τη χρήση του μετασχηματισμού PS. Η μέθοδος PS θεωρείται ιδανική για τις απαιτήσεις της ροής δεδομένων σε τέτοιου είδους δέντρα καθώς συνεχώς ενημερώνει αυξητικά το μοντέλο και δεν αποθηκεύει τα παραδείγματα που εμφανίζονται. Επομένως η εκπαίδευση και η πρόβλεψη πραγματοποιούνται σε πραγματικό χρόνο. Οι περισσότερες μέθοδοι λαμβάνουν υπόψη τις συσχετίσεις μεταξύ των ετικετών αλλά εστιάζουν μόνο στους ήδη υπάρχοντες συχνούς συνδυασμούς ετικετών, το οποίο οδηγεί σε χειρότερη απόδοση όσον αφορά την ταξινόμηση δεδομένων με πολλαπλές ετικέτες. Για την αντιμετώπιση αυτών των προβλημάτων, η εργασία [31] προτείνει ένα αλγόριθμο ο οποίος αναγνωρίζει δυναμικά ορισμένους νέους συχνούς συνδυασμούς ετικετών και ενημερώνει τον εκπαιδευμένο ταξινομητή με 30

31 την class incremental τεχνική μάθησης σε πραγματικό χρόνο. Αυτός ο τρόπος καθιστά το μοντέλο πιο ακριβές. Βασιζόμενοι στο νέο αλγόριθμο, οι συγγραφείς απέδειξαν ότι είναι δυνατό να επιτευχθεί καλύτερη απόδοση στην τεχνική Multilabel Hoeffding Tree με PS στα φύλλα. Από τη στιγμή που είναι σχεδόν απίθανο να χωρέσει ένα ολόκληρο σύνολο δεδομένων στη μνήμη, ο βασικός ταξινομητής εκπαιδεύεται με παραδείγματα που περιέχουν συχνούς συνδυασμούς ετικετών. Αυτό επιτυγχάνεται με τη βοήθεια ενός buffer που αρχικοποιείται με τα πρώτα παραδείγματα που καταφθάνουν από τη ροή δεδομένων. Σημαντικό στοιχείο ήταν η απομάκρυνση των συνδυασμών ετικετών που δεν είναι συχνοί και προκαλούν προβλήματα overfitting και πολυπλοκότητας. Παρ όλα αυτά είναι απαραίτητη η σωστή επιλογή του μεγέθους του αρχικού buffer, καθώς μια μικρή τιμή δεν μπορεί να αναπαραστήσει όλη την κατανομή της ροής δεδομένων, αλλά και μια μεγάλη τιμή θα πάρει πολύ ώρα για να εκπαιδεύσει το βασικό ταξινομητή (παρ ολο που μπορεί να περιέχει περισσότερους συχνούς συνδυασμούς). Τέλος, μέχρι πρότινος το σύνολο των συχνών συνδυασμών ετικετών είχε σταθερό μέγεθος και δεν άλλαζε κατά την πάροδο του χρόνου για την εκπαίδευση του βασικού ταξινομητή. Αυτό οδηγούσε στην πιθανότητα να μην αποθηκευτούν ορισμένοι συχνοί συνδυασμοί ετικετών που μπορεί να εμφανίζονταν μετέπειτα και επομένως στην κακή απόδοση του ταξινομητή. Η class incremental τεχνική που εφαρμόστηκε, έλυσε αποτελεσματικά αυτό το πρόβλημα. Στον παρακάτω πίνακα εμφανίζονται οι μέθοδοι που μελετήσαμε και ποια προβλήματα λύνουν ή ποιες τεχνικές χρησιμοποιούν: 31

32 [26] SMART [28] BR LP Concept drift Class Imbalance Σταθερού μεγέθους μνήμη Joint sparsness Συσχετίσεις ετικετών Active learning Χρήση βαρών Χρήση ορίου συνόλου ετικετών Αντοχή σε Overfitting Ensemble 2.4 Αξιολόγηση αλγορίθμων Μεθοδολογία αξιολόγησης Ένας σημαντικός παράγοντας για οποιοδήποτε νοήμον σύστημα είναι η μεθοδολογία της αξιολόγησής του. Στόχος των συστημάτων μάθησης είναι να βελτιώνονται κατά την πάροδο του χρόνου καθώς αποκτούν περισσότερη εμπειρία και συνεχώς να τροποποιούν αυτόματα την εσωτερική τους κατάσταση. Η απεικόνιση του πραγματικού κόσμου είναι προσεγγιστική και οι μετρικές αξιολόγησης επιτρέπουν την εκτίμηση της προσέγγισης αυτής. Λαμβάνοντας υπόψη τη διαδικασία που θα χρησιμοποιηθεί στις ροές δεδομένων, ένα από τα θέματα που προκύπτουν είναι το πώς θα κατασκευαστεί ένα πλαίσιο ακρίβειας κατά τη πάροδο του χρόνου. Οι λύσεις που προτείνονται είναι δύο: Holdout: Στην περίπτωση της μάθησης με στατικά δεδομένα, η μέθοδος του cross-validation μπορεί να φτάσει σε ένα οριακό σημείο, όπου καταναλώνεται πολύς χρόνος για την αξιολόγηση του μοντέλου. Αντ αυτού, είναι επιτρεπτό να μετρηθεί η απόδοση με βάση ένα σύνολο δεδομένων που έχει παρακρατηθεί (holdout set). Αυτό είναι αρκετά χρήσιμο όταν 32

33 προϋπάρχει η διαίρεση μεταξύ του συνόλου εκπαίδευσης και του συνόλου επαλήθευσης, έτσι ώστε τα αποτελέσματα διαφορετικών πειραμάτων να μπορούν να συγκριθούν άμεσα. Αναφορικά με τις ροές δεδομένων, η λύση έγκειται στην εφαρμογή του μοντέλου στο δεδομένο σύνολο επαλήθευσης (το οποίο στη συγκεκριμένη περίπτωση μπορεί να χαρακτηριστεί και holdout set) σε διαφορετικές χρονικές στιγμές. Η απώλεια που υπολογίζεται στο holdout set είναι ένας αρκετά δίκαιος εκτιμητής. Prequential (Predictive Sequential): Εδώ, κάθε παράδειγμα ξεχωριστά χρησιμοποιείται για την επαλήθευση του μοντέλου πριν από τη χρήση του για εκπαίδευση και με αυτόν τον τρόπο μπορεί να βελτιωθεί η ακρίβεια. Η διαδικασία αυτή είναι εφαρμόσιμη, καθώς το μοντέλο επαληθεύεται από παραδείγματα που νωρίτερα όμως δεν έχει ξαναδεί. Στα πλεονεκτήματα της Prequential αξιολόγησης, περιλαμβάνεται η πλήρης χρήση των διαθέσιμων δεδομένων χωρίς να χρειάζεται να παρακρατηθεί ξεχωριστό σύνολο δεδομένων (όπως αναφέρθηκε στην προηγούμενη περίπτωση). Επιπλέον, εγγυάται την ομαλή πορεία της ακρίβειας κατά την πάροδο του χρόνου, καθώς κάθε παράδειγμα γίνεται όλο και λιγότερο σημαντικό ως προς το συνολικό μέσο όρο Μετρικές αξιολόγησης Το σύνολο δεδομένων χωρίζεται σε σύνολο εκπαίδευσης και σε σύνολο επαλήθευσης. Το σύνολο εκπαίδευσης χρησιμοποιείται για την εκπαίδευση των ταξινομητών με βάση τις ετικέτες. Από την άλλη πλευρά, το σύνολο επαλήθευσης χρησιμοποιείται για την αξιολόγηση των μοντέλων ταξινόμησης που δημιουργήθηκαν προηγουμένως. Η ταξινόμηση δεδομένων με πολλαπλές ετικέτες απαιτεί διαφορετικές μετρικές αξιολόγησης από τις ταξινομήσεις δεδομένων με μία ετικέτα. Κάποιες από αυτές τις μετρικές υπολογίζονται με βάση το μέσο όρο των διαφορών μεταξύ των πραγματικών και των προβλεπόμενων ετικετών επί όλου του συνόλου των παραδειγμάτων επαλήθευσης. Άλλες μετρικές αποσυνθέτουν την διαδικασία της αξιολόγησης σε ξεχωριστές αξιολογήσεις για κάθε ετικέτα, τις οποίες εν συνεχεία χρησιμοποιούν για να υπολογίσουν το μέσο όρο για κάθε ετικέτα. Η 33

34 πρώτη κατηγορία περιλαμβάνει τις example-based μετρικές αξιολόγησης ενώ η δεύτερη τις label-based μετρικές αξιολόγησης [10]. Υπάρχει και τρίτη κατηγορία μετρικών, η οποία δε σχετίζεται άμεσα με την ταξινόμηση δεδομένων με πολλαπλές ετικέτες, αλλά χρησιμοποιείται συχνά από τη βιβλιογραφία. Οι μετρικές αυτές λέγονται ranking-based μετρικές και παρουσιάζονται στην εργασία [32]. Βασιζόμενοι στις δυαδικές αποφάσεις των αλγορίθμων, οι προαναφερθείσες κατηγορίες περιλαμβάνουν τις εξής μετρικές: EXAMPLE-BASED ΜΕΤΡΙΚΕΣ Οι παρακάτω μετρικές υπολογίζονται για κάθε παράδειγμα ξεχωριστά και έπειτα υπολογίζεται ο μέσος όρος τους για όλα τα παραδείγματα [18]. Hamming-loss: βασίζεται στη συμμετρική διαφορά μεταξύ των πραγματικών ετικετών των παραδειγμάτων και των ετικετών που προβλέπει ο ταξινομητής για ένα σύνολο δεδομένων επαλήθευσης. Όσο μικρότερη η τιμή του, τόσο καλύτερη απόδοση έχει ο ταξινομητής. Subset accuracy: είναι μία πολύ αυστηρή μετρική αξιολόγησης καθώς απαιτεί το προβλεπόμενο σύνολο ετικετών να έχει πλήρη ταύτιση με τις πραγματικές ετικέτες του συνόλου δεδομένων επαλήθευσης. Precision: Precision είναι η αναλογία των σωστά προβλεπόμενων ετικετών προς τον αριθμό των προβλεπόμενων ετικετών. Recall: Recall είναι η αναλογία των σωστά προβλεπόμενων ετικετών προς τον αριθμό των πραγματικών ετικετών. Accuracy: το accuracy ορίζεται ως η αναλογία των σωστά προβλεπόμενων ετικετών προς το συνολικό αριθμό των πραγματικών και προβλεπόμενων ετικετών. : είναι ο αρμονικός μέσος όρος μεταξύ του precision και του recall λόγω του trade-off που υπάρχει μεταξύ τους. LABEL-BASED ΜΕΤΡΙΚΕΣ 34

35 Αυτές οι μετρικές αξιολογούν κάθε ετικέτα και έπειτα υπολογίζεται ο μέσος όρος για όλες τις ετικέτες. Κάθε μία από τις παρακάτω μετρικές μπορεί να υπολογιστεί είτε για κάθε μία ετικέτα ξεχωριστά και έπειτα να υπολογιστεί ο μέσος όρος για όλες τις ετικέτες, είτε να υπολογιστεί συνολικά για όλα τα παραδείγματα και όλες τις ετικέτες. Ο πρώτος τρόπος λέγεται macro-averaging και ο δεύτερος microaveraging [33]. Παρακάτω αναφέρονται οι μετρικές: Micro/Macro precision Micro/Macro recall Micro/Macro Micro/Macro specificity Micro/Macro AUC (Area under ROC curve) Είναι σημαντικό να σημειωθεί ότι το macro-averaged επηρεάζεται περισσότερο από την απόδοση των κλάσεων που περιλαμβάνονται σε λιγότερα παραδείγματα, ενώ το micro-averaged επηρεάζεται περισσότερο από την απόδοση των κλάσεων που έχουν περισσότερα παραδείγματα [34]. RANKING-BASED ΜΕΤΡΙΚΕΣ Εάν ένας αλγόριθμος μπορεί να μάθει να κατατάσσει τις προβλεπόμενες ετικέτες, τότε οι παρακάτω μετρικές βοηθούν στην αξιολόγηση της απόδοσης ενός αλγορίθμου [8]. One-error: Η one-error μετρική, υπολογίζει πόσες φορές οι top ranked προβλεπόμενες ετικέτες δε βρίσκονται στο σύνολο των πραγματικών ετικετών ενός παραδείγματος. Όσο μικρότερη η τιμή της, τόσο καλύτερη η απόδοση της ταξινόμησης. Coverage: Αυτή η μετρική αξιολογεί πόσο χαμηλά κατά μέσο όρο πρέπει ο αλγόριθμος να κατέβει στην ταξινομημένη λίστα των προβλέψεων ώστε να βρει όλες τις πραγματικές ετικέτες ενός παραδείγματος. Όπως και στη προηγούμενη μετρική, επιθυμητή τιμή είναι αυτή που πλησιάζει στο 0. 35

36 Ranking Loss: υπολογίζει την μέση αναλογία των ζευγαριών ετικετών που δεν έχουν ταξινομηθεί σωστά στην κατάταξη για ένα παράδειγμα. Η τιμές της αξιολογούνται αντίστοιχα με τις προηγούμενες μετρικές της κατηγορίας. Average precision: για κάθε κατάλληλη ετικέτα, η average precision υπολογίζει την αναλογία των πραγματικών ετικετών που έχουν οριστεί στην κατάταξη πριν από αυτήν και τελικά υπολογίζει το μέσο όρο όλων των ετικετών. Όσο πιο μεγάλη η τιμή της τόσο καλύτερη απόδοση έχει ο ταξινομητής. Σχετικά με την αξιολόγηση των αλγορίθμων η εργασία [35] παρουσιάζει μία μεθοδολογία για την αξιολόγηση ταξινομητών σε ροές δεδομένων με χρονική εξάρτηση (temporal dependence). Η χρονική συσχέτιση (γνωστή και ως αυτοσυσχέτιση autocorrelation) συναντάται συχνά στους τομείς της θεωρίας ελέγχου, της στατιστικής ανάλυσης ή της παραδοσιακής χρονικής ανάλυσης, όπου χρησιμοποιείται μοντέλο παλινδρόμησης και η κύρια πηγή της πληροφορίας που θα προβλεφθεί είναι οι προηγούμενες τιμές του σήματος που εξετάζεται. Όταν πρόκειται για την περίπτωση ροών δεδομένων, ως πηγή πληροφορίας πρόβλεψης χρησιμοποιούνται οι πολυδιάστατες μεταβλητές εισόδου και όχι οι προηγούμενες τιμές της μεταβλητής στόχου. Το σενάριο των ροών δεδομένων διαφέρει σε σχέση με τη ταξινόμηση ακολουθιών (sequence classification) και της επιβλεπόμενης μάθησης ακολουθιών (sequential supervised learning) στα εξής: στην ταξινόμηση ακολουθιών, ο κύριος στόχος είναι η πρόβλεψη μίας ετικέτας που εφαρμόζεται σε ολόκληρη την ακολουθία εισόδου, ενώ στις ροές δεδομένων στόχος είναι η πρόβλεψη μίας ετικέτας για κάθε παρατήρηση. Επιπροσθέτως, στην επιβλεπόμενη μάθηση ακολουθιών, ολόκληρη η ακολουθία είναι διαθέσιμη πριν να γίνουν οι προβλέψεις των ετικετών, ενώ στις ροές δεδομένων που οι παρατηρήσεις έρχονται κατά τμήματα, οι προβλέψεις πρέπει να γίνουν αμέσως και τα μοντέλα πρόβλεψης πρέπει να ενημερώνονται συνεχώς καθώς δεν είναι διαθέσιμη ολόκληρη η ακολουθία. Η χρονική εξάρτηση συναντάται πολύ συχνά στις ροές δεδομένων που προέρχονται από συσκευές εγγραφής, όπως είναι οι κάμερες παρακολούθησης, αισθητήρες 36

37 περιβάλλοντος κτλ. Γενικά, οποιαδήποτε έξυπνη εφαρμογή αισθητήρων, μπορεί να παράγει ροές δεδομένων με χρονική εξάρτηση. Από την άλλη πλευρά, στις περιπτώσεις που οι παρατηρήσεις βασίζονται σε θέματα συμπεριφορών, όπως για παράδειγμα αυτές που η κάθε μία τους αντιπροσωπεύει ανθρώπους που προέρχονται από διαφορετικές περιοχές (πχ. οι επισκέπτες μιας ιστοσελίδας), το πρόβλημα της χρονικής εξάρτησης δεν είναι τόσο έντονο. Για την αξιολόγηση της απόδοσης της ταξινόμησης σε ροές δεδομένων με χρονική εξάρτηση, η συγκεκριμένη εργασία προτείνει τη χρήση κάποιων «βασικών» ταξινομητών (baselines). Οι «βασικοί» ταξινομητές είναι ταξινομητές που για να πραγματοποιήσουν την ταξινόμηση χρησιμοποιούν μόνο τις κλάσεις-ετικέτες και όχι τις πληροφορίες των παρατηρήσεων. Η επιλογή τους είναι σημαντική καθώς μπορεί να μας βοηθήσει να θέσουμε μία ελάχιστη επιθυμητή απόδοση για τον «έξυπνο» ταξινομητή που θέλουμε να σχεδιάσουμε, διαφορετικά μπορεί να σπαταληθεί πολλή από τη σχεδιαστική και υπολογιστική προσπάθεια που καταβάλαμε. Είναι πιθανό να συγκριθούν πολλοί «έξυπνοι» ταξινομητές και να βρεθεί ότι κάποιος είναι σημαντικά καλύτερος από τους υπόλοιπους, αλλά αν όλοι είναι χειρότεροι από τους naïve ταξινομητές, τότε κανείς τους δεν είναι καλός. Οι «βασικοί» ταξινομητές που προτείνονται είναι τρεις και χρησιμοποιούν διαφορετική πληροφορία σχετικά με τις πιθανότητες των κλάσεων-ετικετών: Ταξινόμηση χωρίς πληροφορία για την κατανομή των δεδομένων Ταξινόμηση με βάση τις εκ των προτέρων πιθανότητες των κλάσεων (Majority Class classifier) Ταξινόμηση με βάση τις μεταβατικές πιθανότητες των κλάσεων (Persistent classifier) Στον πρώτο ταξινομητή δεν έχουμε καθόλου πληροφορία για τα δεδομένα και επομένως η καλύτερη στρατηγική είναι να θέσουμε μία ετικέτα τυχαία. Στη Majority Class ταξινόμηση, έχουμε τουλάχιστον ένα δείγμα παρατηρήσεων πριν θέσουμε τον ταξινομητή σε λειτουργία και μπορούμε να υπολογίσουμε τις εκ των προτέρων πιθανότητες. Εάν δεν έχουμε καθόλου άλλες πληροφορίες για μία 37

38 δεδομένη πρόβλεψη, η καλύτερη επιλογή είναι να προβλέψουμε την κλάση που έχει τη μέγιστη εκ των προτέρων πιθανότητα. Στην περίπτωση που θεωρούμε ότι θα εμφανιστεί χρονική εξάρτηση, χρησιμοποιούμε τον Persistent ταξινομητή ο οποίος λαμβάνει υπόψη του τις προσωρινές πληροφορίες. Εάν δεν υπάρχουν διαθέσιμες άλλες πληροφορίες η καλύτερη στρατηγική είναι να προβλέψουμε την ίδια ετικέτα που παρατηρήθηκε τελευταία φορά. Όλοι οι προαναφερθέντες «βασικοί» ταξινομητές, δέχονται ως είσοδο μόνο τις πραγματικές ετικέτες του υποκείμενου συνόλου δεδομένων. Η εργασία μάς παρουσιάζει ακόμα ένα «βασικό» ταξινομητή, ο οποίος παίρνει ως είσοδο τις πραγματικές ετικέτες του υποκείμενου συνόλου δεδομένων μαζί με τις εκ των προτέρων πιθανότητες των προβλέψεων που πραγματοποίησε ο «έξυπνος» ταξινομητής που εξετάζουμε. Ο «βασικός» αυτός ταξινομητής ονομάζεται Random ταξινομητής και προβλέπει τυχαία μία ετικέτα με βάση την κατανομή πιθανοτήτων των προβλέψεων του εξεταζόμενου ταξινομητή. Ως επόμενο βήμα, η εργασία αποδεικνύει ορισμένες προτάσεις σχετικά με τη σύγκριση των ακριβειών των ταξινομητών. Αρχικά, θεωρούμε ότι είναι η ακρίβεια του Majority Class ταξινομητή, η ακρίβεια του Random ταξινομητή και η ακρίβεια του ταξινομητή που δεν έχουμε καθόλου πληροφορία. Αποδεικνύεται ότι η ακρίβεια του Majority Class ταξινομητή είναι μεγαλύτερη ή ίση της ακρίβεια του Random ταξινομητή και μεγαλύτερη ή ίση της ακρίβειας ταξινόμησης χωρίς πληροφορία. Πιο συγκεκριμένα και, και αυτές οι ακρίβειες είναι ίδιες είτε υπάρχει χρονική εξάρτηση είτε όχι. Επομένως, εάν βρεθεί ότι ο εξεταζόμενος ταξινομητής έχει καλύτερη απόδοση από τον Majority Class, τότε δε χρειάζεται να εξετάσουμε και τους άλλους δύο. Επίσης αποδεικνύεται ότι εάν τα δεδομένα είναι ανεξάρτητα κατανεμημένα, τότε η ακρίβεια του Majority Class ταξινομητή είναι μεγαλύτερη ή ίση της ακρίβειας του Persistent ταξινομητή. Δηλαδή, και η ισότητα ισχύει εάν οι εκ των προτέρων πιθανότητες των κλάσεων είναι ίσες μεταξύ τους. Η τελευταία πρόταση που αποδεικνύεται αναφέρει 38

39 ότι εάν τα δεδομένα έχουν χρονική εξάρτηση τέτοια ώστε, όπου k ο αριθμός των κλάσεων και Μ η κλάση πλειοψηφίας, τότε ο Persistent ταξινομητής είναι πιο ακριβής από τον Majority Class ταξινομητή, δηλαδή. Τέλος, για την συγκριτική αξιολόγηση των ακριβειών ταξινόμησης σε class imbalance σενάρια προτιμήθηκε η λεγόμενη μετρική Cohen s Kappa statistic, η οποία χρησιμοποιείται είτε σε ταξινόμηση στατικών δεδομένων είτε σε ταξινόμηση ροών δεδομένων. Στην περίπτωση που δεν εμφανίζεται χρονική εξάρτηση στα δεδομένα η μετρική ορίζεται ως μετρική παίρνει την τιμή, ενώ στην αντίθετη περίπτωση η (Kappa temporal statistic), όπου p είναι η ακρίβεια του ταξινομητή που εξετάζουμε. Εάν οι προβλέψεις του «βασικού» ταξινομητή και του ταξινομητή υπό εξέταση είναι απόλυτα σωστές, τότε το θα ισούται με ένα, διαφορετικά εάν οι προβλέψεις συμπίπτουν κατά τύχη τότε το θα ισούται με 0. Το πλεονέκτημα του έναντι του, είναι ότι μας δίνει τη δυνατότητα να εντοπίσουμε την παραπλανητική απόδοση ταξινομητών για δεδομένα με χρονική εξάρτηση. Αντίθετα, για δεδομένα που δεν παρουσιάζουν ισορροπία και είναι ανεξάρτητα κατανεμημένα, ο Majority Class ταξινομητής πιθανώς να είναι καλύτερος του Persistent και επομένως το δε θα είναι αρκετό. Συνεπώς, γίνεται η πρόταση να συνδυάσουμε το και το μαζί, χρησιμοποιώντας είτε το γεωμετρικό είτε το αριθμητικό τους άθροισμα. Το επιθυμητό είναι ένας καλός ταξινομητής να αποδίδει καλά και στις δυο εισαγόμενες μετρικές. Γι αυτό το λόγο το γεωμετρικό άθροισμα είναι καταλληλότερο, καθώς «τιμωρεί» τις μεγάλες διαφορές μεταξύ των δύο μετρικών. 39

40 3 Λογισμικό για Ταξινόμηση Ροών Δεδομένων με Πολλαπλές Ετικέτες 3.1 Εισαγωγή Για την υλοποίηση των αλγορίθμων που εξετάστηκαν και αξιολογήθηκαν στα πειράματα, αναπτύχθηκε κώδικας στη βιβλιοθήκη MULAN. Αρχικά, για τη διαδικασία της αξιολόγησης αναπτύχθηκαν τέσσερεις κλάσεις: η Prequential Evaluator και ως μετρικές αξιολόγησης η Kappa Statistic και Kappa Temporal Statistic, οι οποίες κληρονομούν την εξίσου καινούργια κλάση Kappa Statistic Base. Για την εκτέλεση των πειραμάτων απαιτήθηκε η υλοποίηση εφτά ακόμα κλάσεων, οι οποίες είναι: η Binary Relevance Updateable, η SMART, η Multilabel Hoeffding Tree, η Multilabel Info Gain Split Metric για τη διάσπαση των κόμβων ενός Multilabel Hoeffding Tree, η Pruned Sets Updateable και Class Incremental Learning για τη χρήση τους στους κόμβους-φύλλα του Multilabel Hoeffding Tree. Επιπλέον, υλοποιήθηκε και η Naïve Bayes Class Incremental, η οποία είναι η τροποποιημένη εκδοχή του Naïve Bayes Updateable του WEKA και απαιτείται για τη σωστή λειτουργία του Class Incremental αλγορίθμου. Τέλος, υλοποιήθηκε και μία ακόμη βοηθητική κλάση για την εύρεση δώδεκα συχνών και τεσσάρων μη συχνών αντιπροσωπευτικών ετικετών στο σύνολο δεδομένων που εφαρμόστηκαν τα πειράματα, έτσι ώστε να μειωθεί ο χρόνος εκτέλεσης των πειραμάτων. 3.2 Prequential Evaluator O prequential evaluator που κατασκευάστηκε, κληρονομεί την κλάση Evaluator της MULAN. Η μέθοδος preparemeasures προετοιμάζει όλες τις διαθέσιμες μετρικές αξιολόγησης που περιέχει η MULAN, προσθέτοντας και τις Kappa Temporal Statistic και Kappa Statistic οι οποίες αναλύονται παρακάτω. 40

41 Η μέθοδος preqevaluate της κλάσης δέχεται ως είσοδο το σύνολο επαλήθευσης με το οποίο θα πραγματοποιήσει την αξιολόγηση και τον ταξινομητή που εξετάζεται. Για κάθε νέο παράδειγμα, εκτελείται η μέθοδος του μοντέλου για την πρόβλεψη των ετικετών και έπειτα γίνεται ενημέρωση τόσο των μετρικών αξιολόγησης όσο και του μοντέλου. 3.3 Kappa Statistic Base Η KappaStatisticBase αποτελεί την βασική κλάση για τους υπολογισμούς των διαφόρων Kappa Statistic μετρικών. Ο κατασκευαστής της δέχεται ως είσοδο τον παράγοντα εξασθένισης (decay factor) που απαιτεί ο αλγόριθμος, τις εκ των προτέρων πιθανότητες των ετικετών που υπολογίζονται με βάση το σύνολο εκπαίδευσης που δίνεται για την αρχικοποίηση των αλγορίθμων και την πρόβλεψη μαζί με τις πιθανότητες της ενός παραδείγματος που απαιτούνται για την αρχικοποίηση της μετρικής. Κάθε φορά που προβλέπεται ένα σύνολο ετικετών για ένα παράδειγμα, η μετρική ενημερώνεται με τη μέθοδο update, η οποία δέχεται ως είσοδο την πρόβλεψη του μοντέλου μαζί με το πραγματικό σύνολο ετικετών που χαρακτηρίζει το παράδειγμα. Μέσα στη μέθοδο αυτή γίνεται ενημέρωση των εκ των προτέρων πιθανοτήτων, των δεσμευμένων πιθανοτήτων και των εκ των προτέρων πιθανοτήτων των προβλέψεων, για κάθε ετικέτα ξεχωριστά. Επιπλέον έχουν υλοποιηθεί οι βοηθητικές μέθοδοι setprevioustruth, getmeanaccuracy, getmeanpersistent και getmeanrandom. Η setprevioustruth αποθηκεύει το πραγματικό σύνολο ετικετών του τελευταίου παραδείγματος που εμφανίστηκε στη ροή, καθώς είναι απαραίτητο για την ενημέρωση της μετρικής. Η μέθοδος getmeanaccuracy, επιστρέφει τη μέση ακρίβεια για όλες τις ετικέτες, η getmeanpersistent υπολογίζει τη μέση ακρίβεια του Persistent ταξινομητή για όλες τις ετικέτες και τέλος η getmeanrandom επιστρέφει τη μέση ακρίβεια του Random ταξινομητή. 41

42 3.4 Kappa Temporal Statistic Η κλάση KappaTemporalStatistic υλοποιεί την αντίστοιχη μετρική που αναφέρθηκε στην Ενότητα και κληρονομεί την κλάση KappaStatisticBase. Η μέθοδος getvalue επιστρέφει την τελική τιμή της μετρικής καλώντας τις μεθόδους getmeanaccuracy και getmeanpersistent και κάνοντας τους αντίστοιχους υπολογισμούς. 3.5 Kappa Statistic Η μέθοδος KappaStatistic κληρονομεί την κλάση KappaStatisticBase που αναφέρεται στην Ενότητα Κύρια μέθοδος που χρησιμοποιεί είναι η getvalue η οποία επιστρέφει την τελική τιμή της μετρικής με τη βοήθεια των μεθόδων getmeanaccuracy και getmeanrandom. 3.6 Incremental Binary Relevance Για την υλοποίηση του Incremental Binary Relevance δημιουργήθηκε η κλάση BinaryRelevanceUpdateable η οποία κληρονομεί την κλάση MultiLabelStreamClassifierBase. Ο κατασκευαστής αυτής της κλάσης, παίρνει ως είσοδο έναν ταξινομητή μονής ετικέτας, τον οποίο και ελέγχει εάν υλοποιεί την κλάση UpdateableClassifier, για να εξασφαλίσει ότι είναι incremental. Ο συγκεκριμένος ταξινομητής χρησιμοποιείται ως «βασικός» στα μοντέλα που θα δημιουργηθούν μετέπειτα. Η μέθοδος initializeinternal παίρνει ως είσοδο ένα σύνολο εκπαίδευσης το οποίο χρησιμοποιείται για τη δημιουργία και την εκπαίδευση του ensemble των δυαδικών ταξινομητών. Για την εκπαίδευση των δυαδικών ταξινομητών, πραγματοποιείται μετατροπή των πολλαπλών ετικετών του συνόλου εκπαίδευσης σε σύνολο εκπαίδευσης με παραδείγματα απλής ετικέτας. 42

43 Η μέθοδος updatemodelinternal δέχεται ως είσοδο ένα παράδειγμα, το μετατρέπει σε παραδείγματα απλής ετικέτας για τους δυαδικούς ταξινομητές και έπειτα τους ενημερώνει. Τέλος η μέθοδος makepredictioninternal, δέχεται ως είσοδο το παράδειγμα για το οποίο απαιτείται να γίνει η πρόβλεψη ετικετών. Για κάθε ένα μοντέλο του ensemble επιστρέφεται η πρόβλεψη για την εκάστοτε ετικέτα μαζί με πιθανότητες εμπιστοσύνης (confidence). 3.7 SMART Ο αλγόριθμος SMART υλοποιήθηκε έτσι ώστε να κληρονομεί την κλάση MultiLabelStreamClassifierBase. Ο κατασκευαστής του δέχεται ως ορίσματα των αριθμό των τυχαίων δέντρων που θέλουμε να κατασκευάσουμε, το ύψος του κάθε δέντρου και την παράμετρο lamda. Για την αρχικοποίηση του αλγορίθμου πρέπει να εκτελεστεί η μέθοδος initializeinternal, η οποία χτίζει τα δέντρα με τη βοήθεια ενός αρχικού συνόλου εκπαίδευσης. Η μέθοδος updatemodelinternal ενημερώνει τα δέντρα ένα προς ένα για το καινούργιο παράδειγμα που καταφτάνει. Επιπλέον, υπάρχει η μέθοδος makepredictioninternal η οποία αφού υπολογίσει το μέσο όρο των προβλέψεων για όλα τα δέντρα για ένα συγκεκριμένο παράδειγμα, ταξινομεί αυτούς τους μέσους όρους και επιλέγει τόσες ετικέτες όσες επιτρέπει η τιμή του theta. Οι ετικέτες αυτές μαζί με τις πιθανότητες εμπιστοσύνης επιστρέφονται από τη μέθοδο ως πρόβλεψη για το συγκεκριμένο παράδειγμα. Για την αναπαράσταση των κόμβων του δέντρου έχει οριστεί εσωτερικά η κλάση Tree. Ο κατασκευαστής αυτής της κλάσης επιλέγει τυχαία το χαρακτηριστικό του συνόλου δεδομένων με βάση το οποίο θα γίνει ο διαχωρισμός των παραδειγμάτων που διατρέχουν τον κόμβο. Επίσης υλοποιείται η μέθοδος treeupdate η οποία ενημερώνει τα στατιστικά του κόμβου κάθε φορά που καλείται και προχωράει με 43

44 την ενημέρωση αναδρομικά και των υπόλοιπων κόμβων που πρέπει να διατρέξει το παράδειγμα. Μία ακόμα μέθοδος που υλοποιείται μέσα στην κλάση Tree είναι η treepredict η οποία διατρέχει το δέντρο για ένα παράδειγμα και επιστρέφει ένα ζευγάρι με τις πιθανότητες των ετικετών μαζί με την τιμή της μεταβλητής theta. 3.8 Pruned Sets Updateable Η κλάση αυτή κληρονομεί την κλάση PrunedSets, υλοποιεί τη διεπαφή MultilabelStreamClassifier και αποτελεί την incremental εκδοχή των Pruned Sets. Ο κατασκευαστής της δέχεται ως όρισμα τον βασικό ταξινομητή που θα χρησιμοποιήσει, ο οποίος οφείλει να είναι incremental και να υλοποιεί τη διεπαφή UpdateableClassifier και γίνεται ο αντίστοιχος έλεγχος. Ένα άλλο όρισμα είναι η τιμή p για τον αριθμό των παραδειγμάτων που πρέπει να παρατηρηθούν για να συμπεριληφθεί ένα σύνολο ετικετών στην εκπαίδευση του ταξινομητή. Επιπλέον, ορίζονται η στρατηγική για την επεξεργασία των ετικετών που δεν είναι συχνές, μαζί με την παράμετρο b που είναι απαραίτητη για την επεξεργασία αυτή. Για την αρχικοποίηση του αλγορίθμου, είναι απαραίτητη η χρήση της μεθόδου initialize, η οποία χρησιμοποιεί ένα σύνολο εκπαίδευσης για αυτόν το σκοπό. Η μέθοδος processrejected δέχεται ως ορίσματα ένα παράδειγμα και το σύνολο ετικετών του. Σε περίπτωση που έχει επιλεχθεί η μέθοδος Α για την επεξεργασία μη συχνών συνόλων ετικετών, τότε υπολογίζονται τα υποσύνολα του συνόλου ετικετών που δέχθηκε η μέθοδος ως είσοδο και αποθηκεύονται όσα έχουν ξαναεμφανιστεί περισσότερες από p φορές. Από αυτά τα υποσύνολα επιλέγονται τα b πρώτα που έχουν τις περισσότερες εμφανίσεις και δημιουργούνται νέα παραδείγματα χαρακτηριστικά αυτά του αρχικού παραδείγματος και ετικέτες αυτές που επιλέχθηκαν. Σε περίπτωση που οριστεί η μέθοδος B ως στρατηγική, τότε γίνεται η ίδια διαδικασία με τη διαφορά ότι επιλέγονται b σύνολα ετικετών χωρίς όμως να λαμβάνεται υπόψη η συχνότητά τους. 44

45 Για την ενημέρωση του μοντέλου αρμόδια μέθοδος είναι η updatemodel. Για κάθε νέο παράδειγμα που καταφθάνει, ελέγχει εάν το σύνολο ετικετών του έχει ξαναεμφανιστεί και εάν οι εμφανίσεις του είναι περισσότερες από τη παράμετρο p. Σε τέτοια περίπτωση γίνεται ενημέρωση του βασικού ταξινομητή. Διαφορετικά, καλείται η μέθοδος processrejected η οποία επιστρέφει μία λίστα από παραδείγματα τα οποία έχουν παραχθεί ανάλογα με την στρατηγική που έχει επιλεχθεί και γίνεται ενημέρωση του βασικού ταξινομητή με τα παραδείγματα αυτά. 3.9 Multilabel Hoeffding Tree Η κλάση MultilabelHoeffdingTree είναι η έκδοση του Hoeffding Tree αλλά για πολλαπλές ετικέτες, γι αυτό το λόγο κληρονομεί την κλάση HoeffdingTree και υλοποιεί τη διεπαφή MultiLabelStreamClassifier. Βασική προϋπόθεση για τη σωστή λειτουργία του ταξινομητή είναι ο ορισμός των εσωτερικών κλάσεων MultilabelInactiveLearningNode και MultilabelLearningNodeClassifier. Η κλάση MultilabelInactiveLearningNode, η οποία κληρονομεί την InactiveHNode του WEKA, αναπαριστά τους κόμβους του δέντρου οι οποίοι δεν μπορούν να διαχωριστούν περεταίρω και επομένως γίνονται ανενεργοί. Η μέθοδός της, updatenode, ενημερώνει με τη βοήθεια της updatedistribution την κατανομή των ετικετών κλάσεων για κάθε νέο παράδειγμα που καταφθάνει. Από την άλλη πλευρά, η κλάση MultilabelLearningNodeClassifier κληρονομεί την κλάση ActiveHNode του WEKA και αναπαριστά τους κόμβους-φύλλα του δέντρου στους οποίους υπάρχουν οι ταξινομητές. Ο κατασκευαστής της κλάσης αυτής απαιτεί ως όρισμα έναν ταξινομητή πολλαπλών ετικετών. Κάθε φορά που κάποιο παράδειγμα διαπερνά τον κόμβο καλείται η μέθοδος updatenode, η οποία αφού ενημερώσει τον ταξινομητή του κόμβου, ενημερώνει την κατανομή των ετικετών κλάσεων καθώς επίσης και τα στατιστικά του κόμβου σχετικά με τα παραδείγματα που τον έχουνε διασχίσει. Επίσης για την πρόβλεψη των ετικετών 45

46 ενός παραδείγματος, χρησιμοποιείται η μέθοδος getprediction η οποία επιστρέφει την πρόβλεψη του ταξινομητή. Επιστρέφοντας στις μεθόδους της κλάσης MultilabelHoeffdingTree, η initialize και η buildclassifier χρησιμοποιούνται για την αρχικοποίηση και το χτίσιμο του δέντρου με ένα σύνολο εκπαίδευσης. Η buildclassifier για κάθε παράδειγμα του συνόλου εκπαίδευσης, βρίσκει το φύλλο του δέντρου στο οποίο καταλήγει. Έπειτα ελέγχει εάν ο κόμβος-φύλλο πληροί τα κριτήρια για να γίνει διαχωρισμός του με τη βοήθεια της μεθόδου trysplit. Η μέθοδος updatemodel και κατ επέκταση η updateclassifier καλούνται κάθε φορά που καταφθάνει ένα νέο παράδειγμα. Η updateclassifier είναι ίδια με αυτή της buildclassifier με τις διαφορές ότι η λειτουργία της εφαρμόζεται μόνο στο νέο παράδειγμα που καταφτάνει και ότι γίνεται ενημέρωση του ταξινομητή του φύλλου στο οποίο καταλήγει το παράδειγμα. Όσον αφορά την πρόβλεψη των ετικετών ενός παραδείγματος, η μέθοδος makeprediction φροντίζει να βρει τον κόμβο φύλλο στον οποίο καταλήγει το παράδειγμα και έπειτα καλείται η getprediction της κλάσης MultilabelLearningNodeClassifier Multilabel Info Gain Split Metric Για το διαχωρισμό ενός κόμβου στα Multilabel Hoeffding Trees είναι απαραίτητος ο υπολογισμός του Info gain. Όπως αναφέρεται και στην εργασία [29], το μόνο που απαιτείται να τροποποιηθεί για τον υπολογισμό της μετρικής είναι η εντροπία. Πιο συγκεκριμένα, δημιουργήθηκε η κλάση MultilabelInfoGainSplitMetric, η οποία κληρονομεί την κλάση InfoGainSplitMetric του WEKA και τροποποιήθηκε η μέθοδος entropy Class Incremental Learning Η κλάση ClassIncrementalLearning κληρονομεί την κλάση MultiLabelStreamClassifierBase και ορίζει με τον κατασκευαστή τον βασικό 46

47 ταξινομητή που θα χρησιμοποιήσει, όπως επίσης και τις παραμέτρους p για την αποκοπή των μη συχνών συνόλων ετικετών και b για το μέγεθος του buffer. Η αρχικοποίηση του αλγορίθμου πραγματοποιείται με τη μέθοδο initializeinternal όπου συγκεντρώνονται παραδείγματα μέχρι να γεμίσει ο buffer. Έπειτα αυτά τα παραδείγματα χρησιμοποιούνται για να εκπαιδευτεί ο βασικός ταξινομητής με τη μέθοδο buildclassifier. Επίσης στην initializeinternal αρχικοποιούνται και υπολογίζονται και άλλες μεταβλητές απαραίτητες για τον αλγόριθμο όπως το σύνολο συχνών ετικετών. Για κάθε νέο παράδειγμα της ροής δεδομένων, καλείται η updateinternal η οποία ενημερώνει τόση τη λίστα των συχνών ετικετών όσο και το βασικό ταξινομητή. Για να επιτευχθεί η διαφορετική ενημέρωση του βασικού ταξινομητή ανάλογα με την class incremental ή την instance incremental τεχνική, απαιτήθηκε η επεξεργασία του αλγορίθμου του βασικού ταξινομητή που χρησιμοποιήθηκε. Πιο αναλυτικά οι αλλαγές περιγράφονται στην Ενότητα Επιπλέον, η makepredictioninternal καλεί για ένα παράδειγμα τη μέθοδο distributionforinstance του βασικού ταξινομητή και επιστρέφει μία πρόβλεψη για το παράδειγμα αυτό. Υλοποιήθηκαν άλλες τρεις βοηθητικές μέθοδοι, η prunelc, η updatelc και η setminimum. Η πρώτη καλείται κατά την αρχικοποίηση του αλγορίθμου, έτσι ώστε να βρεθούν στο σύνολο των παραδειγμάτων που γέμισαν τον buffer, τα σύνολα ετικετών που εμφανίζονται περισσότερες από p φορές. Η updatelc καλείται κατά την ενημέρωση του μοντέλου και εξετάζει εάν κάποιο σύνολο ετικετών θεωρείται πλέον συχνό, έτσι ώστε να εφαρμοστεί η class incremental στρατηγική. Σε διαφορετική περίπτωση εφαρμόζεται η instance incremental. Τέλος, η μέθοδος setminimum καλείται στη φάση της αρχικοποίησης για να βρει το σύνολο ετικετών που θεωρείται συχνό αλλά έχει τις λιγότερες εμφανίσεις σε σχέση με τα υπόλοιπα. 47

48 3.12 Naïve Bayes Class Incremental Για τη σωστή λειτουργία του Class Incremental αλγορίθμου, απαιτήθηκε η επεξεργασία του Naïve Bayes Updateable του WEKA, ο οποίος θα οριζόταν ως βασικός ταξινομητής. Γι αυτό το λόγο δημιουργήθηκε η κλάση NaiveBayesClassIncremental η οποία κληρονομεί την κλάση NaiveBayesUpdateable. Για να επιτευχθεί η Class Incremental ενημέρωση του Naïve Bayes, αρχικά μετατράπηκε ο στατικός πίνακας των κατανομών των χαρακτηριστικών ανά κλάση (m_distributions) σε δυναμική δομή. Με αυτόν τον τρόπο κάθε φορά που εμφανίζεται μία νέα κλάση μπορεί να προστίθεται και να ενημερώνονται εύκολα τα ήδη υπάρχοντα στατιστικά. Επιπλέον, για την m_classdistribution, η οποία είναι ένας DiscreteEstimator, απαιτήθηκε η επεξεργασία της κλάσης που υλοποιεί καθώς τα στατιστικά που χρησιμοποιεί αποθηκεύονται εσωτερικά σε στατικές δομές. Επομένως δημιουργήθηκε η κλάση DiscreteEstimatorIncremental, με κύρια διαφορά το πεδίο m_counts το οποίο αποθηκεύει το συνολικό βάρος των κλάσεων που εμφανίζονται. Κατ επέκταση άλλαξε και η μέθοδος addvalue η οποία πλέον ελέγχει εάν η κλάση υπάρχει ήδη στη δομή m_counts για να την ενημερώσει ή πρέπει να προστεθεί ένα νέο στοιχείο. 48

49 4 Πειράματα Αποτελέσματα 4.1 Σύνολο δεδομένων Το αρχικό σύνολο δεδομένων, συλλέχθηκε από τη σάρωση ενός αριθμού Ελληνικών άρθρων από το Μάιο του 2013 ως το Σεπτέμβριο του 2013 από την εταιρεία DataScouting. Τα άρθρα αυτά κατατμήθηκαν χειροκίνητα και το κείμενό τους εξάχθηκε μέσω OCR (Optical Character Recognition) λογισμικού. Το κείμενο των άρθρων έχει αναπαρασταθεί χρησιμοποιώντας το bag-of-words μοντέλο [36], το οποίο χρησιμοποιείται στην επεξεργασία φυσικής γλώσσας (Natural Language Processing [37]) και στην ανάκτηση πληροφορίας (Information Retrieval [38]). Για κάθε λεκτική μονάδα που συναντάται μέσα στο κείμενο όλων των άρθρων, υπολογίστηκε 1η tf-idf [39] στατιστική όπως επίσης και εφαρμόστηκε η κανονικοποίηση τμημάτων (unit normalization) στις tf-idf τιμές του κάθε άρθρου. Μετά από την παραπάνω επεξεργασία, παρατηρήθηκαν αριθμητικά (numerical) χαρακτηριστικά που αντιστοιχούν στις λεκτικές μονάδες που συναντώνται μέσα στο κείμενο των συλλεγμένων άρθρων. Επιπλέον τα άρθρα αυτά αντιστοιχήθηκαν χειροκίνητα με μία ή περισσότερες ετικέτες από ένα σύνολο 203 ετικετών. Ο αριθμός των άρθρων που συλλέχθηκε είναι 99780, από τα οποία τα πρώτα με χρονολογική σειρά αποτέλεσαν το σύνολο εκπαίδευσης ενώ τα υπόλοιπα το σύνολο επαλήθευσης. Τα δεδομένα δόθηκαν σε αρχείο ARFF [40] που υποστηρίζεται κυρίως από το WEKA και βρίσκονται σε αραιή μορφή (sparse). Στο αρχείο αυτό, το πρώτο χαρακτηριστικό αποτελεί το ID του άρθρου ενώ τα υπόλοιπα είναι αριθμητικά χαρακτηριστικά όπως προαναφέρθηκε. Ακολουθούν άλλα 203 δυαδικά χαρακτηριστικά που αντιστοιχούν στις διαφορετικές ετικέτες. Για την αποτελεσματική εκτέλεση των πειραμάτων επιλέχθηκαν 16 από τις 203 ετικέτες. Για να διατηρηθεί η ισορροπία στην κατανομή τους, βεβαιώθηκε ότι οι 12 από τις 16 ετικέτες εμφανίζονται συχνά στο σύνολο δεδομένων, ενώ οι υπόλοιπες 4 49

50 εμφανίζονται σπάνια. Ως αποτέλεσμα το σύνολο εκπαίδευσης μειώθηκε στα άρθρα και το σύνολο επαλήθευσης πλέον περιέχει άρθρα. 4.2 Αλγόριθμοι και ρυθμίσεις τους Σε αυτήν την ενότητα, αναλύονται οι αλγόριθμοι που υλοποιήθηκαν και οι ρυθμίσεις που απαιτήθηκαν για κάθε έναν από αυτούς έτσι ώστε να εκτελεστούν τα πειράματα για την έγκυρη σύγκριση των αποτελεσμάτων τους. Το σύνολο δεδομένων που χρησιμοποιήθηκε σε όλες τις περιπτώσεις, είναι αυτό που αναφέρθηκε στην Ενότητα Binary Relevance με Naïve Bayes Το μοντέλο που εκπαιδεύτηκε σε αυτή την περίπτωση, έκανε χρήση του μετασχηματισμού Binary Relevance που υπάρχει υλοποιημένος στη MULAN. Ως βασικός ταξινομητής σε κάθε υπό-ταξινομητή του μετασχηματισμού, ορίστηκε ο Naïve Bayes αλγόριθμος που είναι υλοποιημένος στο WEKA. Το συνολικό μοντέλο εκπαιδεύτηκε με το σύνολο εκπαίδευσης της DataScouting και έπειτα χρησιμοποιήθηκε ο evaluator της MULAN για την αξιολόγηση των προβλέψεων επί του συνόλου επαλήθευσης Binary Relevance με SGD (Hinge loss, SVM) Παρόμοια με την προηγούμενη περίπτωση, το συγκεκριμένο πείραμα περιελάμβανε το μετασχηματισμό Binary Relevance του οποίου κάθε υποταξινομητής χρησιμοποιεί Stochastic Gradient Descent και πιο συγκεκριμένα ως loss function την Hinge Loss. Δεν πραγματοποιήθηκαν επιπλέον ρυθμίσεις και αφού το μοντέλο εκπαιδεύτηκε με το σύνολο εκπαίδευσης, έπειτα αξιολογήθηκε στο σύνολο επαλήθευσης Binary Relevance με SGD (Logistic Regression) Με βάση τα αποτελέσματα του διαγωνισμού WISE 2014 Challenge [41], εφαρμόστηκε το πείραμα Binary Relevance με Stochastic Gradient Descent βασικούς ταξινομητές, οι οποίοι είχαν ως ρυθμισμένη loss function την Binary Class Logistic 50

51 Regression. Ως regularization παράμετρος για τη Logistic Regression, χρησιμοποιήθηκε η τιμή 6 η οποία επέφερε και τα καλύτερα αποτελέσματα στα πειράματα του διαγωνισμού. Έπειτα το μοντέλο εκπαιδεύτηκε με τα δεδομένα εκπαίδευσης και αξιολογήθηκε με τον evaluator της MULAN στα δεδομένα επαλήθευσης Binary Relevance Updateable με Naïve Bayes Updateable Σε αντίθεση με τη στατική εκδοχή του πειράματος Binary Relevance με Naïve Bayes (4.2.1), εδώ εφαρμόστηκε η incremental εκδοχή Binary Relevance Updateable που υλοποιήθηκε στη MULAN, με βασικό ταξινομητή τον Naïve Bayes Updateable του WEKA. Για αυτό το πείραμα δεν εφαρμόστηκαν ειδικές ρυθμίσεις, παρά μόνο αρχικοποιήθηκε το μοντέλο με το σύνολο εκπαίδευσης και έπειτα αξιολογήθηκε το σύνολο επαλήθευσης με prequential evaluation που υλοποιήθηκε στη MULAN Binary Relevance Updateable με SGD (Hinge Loss, SVM) Το συγκεκριμένο πείραμα περιελάμβανε το μετασχηματισμό Binary Relevance στην Incremental εκδοχή του, του οποίου κάθε υποταξινομητής χρησιμοποιεί Stochastic Gradient Descent και πιο συγκεκριμένα ως loss function την Hinge Loss. Δεν πραγματοποιήθηκαν επιπλέον ρυθμίσεις, το μοντέλο αρχικοποιήθηκε με το σύνολο εκπαίδευσης και έπειτα αξιολογήθηκε η απόδοση του με prequential evaluation στο σύνολο επαλήθευσης Binary Relevance Updateable με SGD (Logistic Regression) Σε αυτή την περίπτωση εκτελέστηκε το πείραμα Binary Relevance Updateable με Stochastic Gradient Descent βασικούς ταξινομητές, οι οποίοι είχαν ως ρυθμισμένη loss function την binary class logistic regression. Ως regularization παράμετρος για τη logistic regression, χρησιμοποιήθηκε και πάλι η τιμή 6 για να καταστεί δυνατή η σύγκριση με τη στατική εκδοχή του πειράματος (Binary Relevance με SGD (Logistic Regression, 4.2.3). Έπειτα το μοντέλο αρχικοποιήθηκε με τα δεδομένα εκπαίδευσης και αξιολογήθηκε με τον prequential evaluator στα δεδομένα επαλήθευσης. 51

52 4.2.7 Multilabel Windows Classifier με knn Για την εφαρμογή του Multilabel Windows Classifier (ο οποίος έχει υλοποιηθεί στη MULAN), χρησιμοποιήθηκε ο knn ως βασικός ταξινομητής με αριθμό γειτόνων 11. Επιπλέον, το μέγεθος του παραθύρου που περιέχει η μέθοδος, ρυθμίστηκε σε χωρητικότητα ίση με 1000 παραδείγματα. Εξ αυτών τα 400 είναι το παράθυρο για τα θετικά, όσον αφορά τις ετικέτες, παραδείγματα και τα υπόλοιπα 600 για τα αρνητικά. Επίσης, ο αλγόριθμος ρυθμίστηκε έτσι ώστε να χρησιμοποιεί thresholding ενημέρωσης ανά 1000 παραδείγματα. Έπειτα το μοντέλο αρχικοποιήθηκε με το σύνολο εκπαίδευσης και επιστρατεύθηκε ο prequential evaluator που κατασκευάστηκε στη MULAN, για την αξιολόγηση του συνόλου επαλήθευσης Multilabel Hoeffding Tree με Pruned Sets Updateable και Naïve Bayes Updateable Σε αυτό το πείραμα, το μοντέλο που χρησιμοποιήθηκε ήταν Multilabel Hoeffding Tree που υλοποιήθηκε στη MULAN. Σε κάθε φύλλο του χρησιμοποιήθηκε ο μετασχηματισμός Pruned Sets Updateable (επίσης υλοποιημένος στη MULAN) με βασικό ταξινομητή τον Naïve Bayes Updateable του WEKA. Για τον μετασχηματισμό Pruned Sets Updateable, η τιμή αποκοπής p ορίστηκε σε 1. Η στρατηγική που εφαρμόστηκε για την επεξεργασία κάθε μη συχνού συνόλου ετικετών, ταξινομεί τα υποσύνολά του πρώτον ως προς τον αριθμό των ετικετών που περιέχουν και δεύτερον ως προς τις φορές που εμφανίζονται. Από αυτήν την ταξινομημένη λίστα, επιλέγονται τα b πρώτα σύνολα ετικετών, όπου το b τέθηκε στην τιμή 1. Επιπλέον, ο τρόπος υπολογισμού των πιθανοτήτων εμπιστοσύνης για κάθε ετικέτα, ορίστηκε να θέτει ως x την πιθανότητα της επικρατούσας κλάσης. Για παράδειγμα, εάν η ετικέτα είναι αληθής τότε η πιθανότητα εμπιστοσύνης τίθεται x, ενώ αν η ετικέτα είναι ψευδής, η πιθανότητα ορίζεται ως 1-x. Τέλος, για τη σωστή λειτουργία του μετασχηματισμού με τον βασικό του ταξινομητή, ήταν απαραίτητη η αρχικοποίησή του με το 1/3 του συνόλου εκπαίδευσης. 52

53 Αφού πραγματοποιηθούν τα παραπάνω, αρχικοποιείται ολόκληρο το μοντέλο με τα υπόλοιπα 2/3 του συνόλου εκπαίδευσης και εφαρμόζεται το prequential evaluation στο σύνολο επαλήθευσης για την παραγωγή των αποτελεσμάτων Multilabel Hoeffding Tree με Class Incremental και Naïve Bayes Class Incremental Το συγκεκριμένο πείραμα είναι αντίστοιχο του Multilabel Hoeffding Tree με Pruned Sets Updateable και Naïve Bayes Updateable που περιγράφηκε στην Ενότητα 4.2.8, με τη διαφορά ότι στα φύλλα του Multilabel Hoeffding Tree εφαρμόζεται η Class Incremental τεχνική με βασικό ταξινομητή τον Naïve Bayes Class Incremental. Για την Class Incremental τεχνική ορίστηκε ο buffer σε χωρητικότητα 200 παραδειγμάτων και η τιμή αποκοπής p ίση με 1. Για την αρχικοποίησή της χρησιμοποιήθηκε το 1/3 του συνόλου εκπαίδευσης. Τα υπόλοιπα 2/3 του συνόλου εκπαίδευσης χρησιμοποιήθηκαν για την αρχικοποίηση όλου του δέντρου και έπειτα εφαρμόστηκε το prequential evaluation στο σύνολο εκπαίδευσης SMART Για την υλοποίηση του SMART μοντέλου, ο αριθμός των τυχαίων δέντρων που χρησιμοποιεί ο αλγόριθμος ορίστηκε σε 20, ενώ το ύψος καθενός από αυτά σε 15. Ο fading παράγοντας λ τέθηκε ίσος με 200. Έπειτα, όπως και στις προηγούμενες περιπτώσεις, γίνεται αρχικοποίηση του μοντέλου με τη βοήθεια του συνόλου εκπαίδευσης και αφετέρου εφαρμόζεται το prequential evaluation στο σύνολο επαλήθευσης για την παραγωγή των αποτελεσμάτων. 4.3 Παρουσίαση και Ανάλυση Αποτελεσμάτων Στην Εικόνα 3, παρουσιάζονται τα αποτελέσματα των μετρικών αξιολόγησης για τα πειράματα που εκτελέστηκαν. Για κάθε μετρική αξιολόγησης, τονίζεται με πράσινο χρώμα το καλύτερο αποτέλεσμα μεταξύ όλων των πειραμάτων, ενώ με κόκκινο το χειρότερο. Τα υπόλοιπα κελιά τονίζονται με κίτρινη μπάρα, ανάλογα με την 53

54 κατάταξή τους μεταξύ του πρώτου καλύτερου και του τελευταίου χειρότερου αποτελέσματος. Εικόνα 3. Αποτελέσματα Πειραμάτων Τα πειράματα που πραγματοποιήθηκαν είναι τα εξής (με τη σειρά εμφάνισης στην Εικόνα 3): Binary Relevance με Naïve Bayes (4.2.1), Binary Relevance Updateable με Naïve Bayes Updateable (4.2.4), Binary Relevance με SGD και loss function την Hinge Loss (4.2.2), Binary Relevance Updateable με SGD και loss function την Hinge Loss (4.2.5), Binary Relevance με SGD και loss function τη Logistic Regression (4.2.3), Binary Relevance Updateable με SGD και loss function τη Logistic Regression (4.2.6), Multilabel Windows Classifier με knn (4.2.7), Multilabel Hoeffding Tree με Pruned 54

Δείτε περισσότερα