Τεχνικές Δειγματοληψίας σε Δεδομένα Πολλαπλών Ετικετών

Transcript

1 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής Διπλωματική Εργασία Τεχνικές Δειγματοληψίας σε Δεδομένα Πολλαπλών Ετικετών Ειρήνη Παπαγιαννοπούλου Επιβλέπων: Γρηγόριος Τσουμάκας Φεβρουάριος 2013

2 Abstract This thesis has as objective the study of existing techniques for stratified sampling of multilabel data. Then, we propose a new method for stratified sampling of multi-label data which is based on a combination of the previous stratification methods. More specifically, we studied two techniques (algorithms) for stratified sampling. In the first technique, the groups of the examples are formed based on the different combinations of labels (labelsets) that exist in the training set. In the second technique, each label is treated independently of the other while maintaining the distribution of positive and negative examples for each label. These two methods have been modified to create groups of examples with unequal rates of examples. Finally, we propose a new "hybrid" stratification method which combines the two methods that are mentioned above. The basic idea is to maintain the proportions of examples per label in the groups that arise. This is accomplished applying, initially, the first stratification method and if certain conditions are satisfied, we apply the second stratification method. 1

3 Περίληψη Η παρούσα διπλωματική εργασία έχει ως στόχο τη μελέτη των ήδη υπαρχόντων τεχνικών διαστρωματωμένης δειγματοληψίας για δεδομένα πολλαπλών ετικετών. Επίσης, προτείνεται μία νέα μέθοδο διαστρωματωμένης δειγματοληψίας για δεδομένα πολλαπλών ετικετών που βασίζεται στο συνδυασμό προηγούμενων μεθόδων διαστρωματωμένης δειγματοληψίας. Πιο συγκεκριμένα, μελετήθηκαν δύο τεχνικές (αλγόριθμοι) διαστρωματωμένης δειγματοληψίας. Στην πρώτη, οι ομάδες παραδειγμάτων διαμορφώνονται με βάση τους διαφορετικούς συνδυασμούς των ετικετών (labelsets) που υπάρχουν στα παραδείγματα εκπαίδευσης. Στη δεύτερη, κάθε ετικέτα αντιμετωπίζεται ανεξάρτητα από τις άλλες διατηρώντας την κατανομή θετικών και αρνητικών παραδειγμάτων για κάθε ετικέτα. Οι δύο παραπάνω μέθοδοι τροποποιήθηκαν ώστε να δουλεύουν και για δημιουργία ομάδων με άνισα ποσοστά παραδειγμάτων. Τέλος, προτείνουμε μία νέα υβριδική μέθοδο διαστρωματωμένης δειγματοληψίας η οποία συνδυάζει τις δύο μεθόδους που αναφέρθηκαν παραπάνω. Το βασικό σκεπτικό είναι να διατηρηθούν οι αναλογίες των παραδειγμάτων ανά ετικέτα στις ομάδες που προκύπτουν. Αυτό επιτυγχάνεται εφαρμόζοντας αρχικά την πρώτη μέθοδο δειγματοληψίας και εφόσον ικανοποιούνται κάποιες συνθήκες εφαρμόζεται η δεύτερη μέθοδος. 2

4 Ευχαριστίες Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή Δρ. Γρηγόριο Δ. Τσουμάκα που μου έδωσε την ευκαιρία να εργαστώ πάνω σε ένα θέμα που με ενδιαφέρει και για την καθοδήγηση του καθ 'όλη τη διάρκεια της διπλωματικής μου εργασίας. Επίσης, θα ήθελα να ευχαριστήσω την οικογένειά μου για τη συμπαράσταση και υποστήριξη που μου προσέφερε στη διάρκεια των σπουδών μου. 3

5 Περιεχόμενα Κατάλογος Πινάκων...6 Κατάλογος Σχημάτων...7 Κεφάλαιο 1 Εισαγωγή Σκοπός της Εργασίας Δομή της Διπλωματικής Εργασίας...10 Κεφάλαιο 2 Θεωρητικό Υπόβαθρο Μηχανική Μάθηση Μάθηση από Δεδομένα Πολλαπλών Ετικετών Μέθοδοι Ταξινόμησης και Κατάταξης Μετασχηματισμός Προβλήματος Προσαρμογή Αλγορίθμου Στατιστικά Μέτρα και Σύνολα Δεδομένων Μέτρα Αξιολόγησης Διαμερίσεις Κατάταξη Ιεραρχία Λογισμικό για Εξόρυξη Δεδομένων Πολλαπλών Ετικετών...28 Κεφάλαιο 3 Η Συνεισφορά μας Διαστρωματωμένη Δειγματοληψία σε Δεδομένα Πολλαπλών Ετικετών Προηγούμενες Μέθοδοι Δειγματοληψίας Μέθοδος Label-Powerset Μέθοδος Iterative Υβριδική Μέθοδος Διαστρωματωμένης Δειγματοληψίας

6 Κεφάλαιο 4 Πειραματικά Αποτελέσματα Περιγραφή Συνόλων Δεδομένων Αλγόριθμοι Μάθησης Μέτρα Αξιολόγησης Μέτρα Αξιολόγησης για τις Στατιστικές Ιδιότητες των Υποσυνόλων Μέτρα Αξιολόγησης για την Εκτίμηση της Ακρίβειας των Μεθόδων Στόχος Πειραμάτων Επιλογή Κατάλληλου Μεγέθους Δείγματος Περιγραφή Πειραματικών Αποτελεσμάτων...57 Κεφάλαιο 5 Συμπεράσματα και Μελλοντικές Επεκτάσεις Συμπεράσματα Μελλοντικές Επεκτάσεις...66 Βιβλιογραφία

7 Κατάλογος Πινάκων Πίνακας 2.1: Παράδειγμα μίας κατάταξης από την LP...18 Πίνακας 2.2: Στατιστικά στοιχεία συνόλων δεδομένων πολλαπλών ετικετών...24 Πίνακας 3.1: Ένα πλήθος από διαφορετικά σύνολα δεδομένων πολλαπλών ετικετών και τα στατιστικά τους: αριθμός ετικετών, παραδειγμάτων, διαφορετικών συνδυασμών ετικετών (labelsets) και συνδυασμών ετικετών ανά παράδειγμα, μαζί με τον ελάχιστο, το μέσο όρο και το μέγιστο αριθμό παραδειγμάτων ανά συνδυασμό ετικετών και ανά ετικέτα Πίνακας 4.1: Εφτά μετρικές αξιολόγησης για δεδομένα πολλαπλών ετικετών, κατηγοριοποιημένες σύμφωνα με το είδος της εξόδου που απαιτείται από το μοντέλο...49 Πίνακας 4.2: Τα σύνολα δεδομένων και τα αντίστοιχα μεγέθη των δειγμάτων που χρησιμοποιήθηκαν στα πειράματα...51 Πίνακας 4.3: Τα σύνολα δεδομένων και οι συνδυασμοί ετικετών ανά παράδειγμα (labelsets/examples) που ισχύει στο δείγμα του κάθε συνόλου...58 Πίνακας 4.4: Στατιστικές ιδιότητες των υποσυνόλων μετά την εφαρμογή των μεθόδων δειγματοληψίας a) (H)ybrid, b) (L)abelPowerset, c) (I)terative και d) (R)andom: Κατανομή των Ετικετών (LD), Κατανομή των Παραδειγμάτων (ED), η μετρική (FZ) που υπολογίζει τον αριθμό των υποσυνόλων που περιέχουν τουλάχιστον μία ετικέτα με μηδενικό αριθμό θετικών παραδειγμάτων και η μετρική (FLZ) που υπολογίζει τον αριθμό των ζευγών υποσυνόλου-ετικέτας με μηδενικό αριθμό θετικών παραδειγμάτων...59 Πίνακας 4.5: Ο μέσος όρος για τις 7 μετρικές αξιολόγησης για δεδομένα πολλαπλών ετικετών (στήλες 3-9). Ο υπολογισμός έγινε με 10-fold-cross validation, τον αλγόριθμο Binary Relevance με liblinear και τις 4 μεθόδους δειγματοληψίας: a) (H)ybrid, b) (L)abelPowerset, c) (I)terative και d) (R)andom. Οι 6 πρώτες γραμμές αντιστοιχούν σε σύνολα δεδομένων με σχετικά μικρή αναλογία συνδυασμών ετικετών-παραδειγμάτων (< 0.36). Οι υπόλοιπες γραμμές αντιστοιχούν σε σύνολα δεδομένων με μεγάλη αναλογία συνδυασμών ετικετών-παραδειγμάτων (> 0.36). Η τελευταία γραμμή παρουσιάζει τη μέση κατάταξη των μεθόδων στα 12 σύνολα δεδομένων

8 Κατάλογος Σχημάτων Σχήμα 2.1: Παράδειγμα ενός συνόλου δεδομένων πολλαπλών ετικετών...16 Σχήμα 2.2: Μετασχηματισμός συνόλου δεδομένων του Σχήματος 1 με χρήση: (α) copy, (b) copy-weight, (c) select-max, (d) select-min, (e) select-random (ένα από τα πιθανά) και (f) ignore...17 Σχήμα 2.3: Μετασχηματισμένο σύνολο δεδομένων με χρήση της μεθόδου Label powerset...17 Σχήμα 2.4: Σύνολα δεδομένων που παράγονται από τη μέθοδο BR...19 Σχήμα 2.5: Σύνολα δεδομένων που παράγονται από τη μέθοδο RPC...20 Σχήμα 3.1: Πίνακας συνάφειας που αφορά στις προβλέψεις μίας ετικέτας...32 Σχήμα 4.1: Καμπύλη μάθησης για το σύνολο δεδομένων emotions. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (78). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...51 Σχήμα 4.2: Καμπύλη μάθησης για το σύνολο δεδομένων enron. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (342). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...52 Σχήμα 4.3: Καμπύλη μάθησης για το σύνολο δεδομένων genbase. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (88). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...52 Σχήμα 4.4: Καμπύλη μάθησης για το σύνολο δεδομένων medical. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (130). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...53 Σχήμα 4.5: Καμπύλη μάθησης για το σύνολο δεδομένων scene. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (322). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...53 Σχήμα 4.6: Καμπύλη μάθησης για το σύνολο δεδομένων yeast. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (322). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP

9 Σχήμα 4.7: Καμπύλη μάθησης για το σύνολο δεδομένων ImageCLEF2012. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (1004). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...54 Σχήμα 4.8: Καμπύλη μάθησης για το σύνολο δεδομένων bibtex. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (1320). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...55 Σχήμα 4.9: Καμπύλη μάθησης για το σύνολο δεδομένων corel5k. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (892). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...55 Σχήμα 4.10: Καμπύλη μάθησης για το σύνολο δεδομένων ImageCLEF2011. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (1071). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...56 Σχήμα 4.11: Καμπύλη μάθησης για το σύνολο δεδομένων mediamill. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (2940). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...56 Σχήμα 4.12: Καμπύλη μάθησης για το σύνολο δεδομένων tmc2007. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (1914). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP

10 Κεφάλαιο 1 Εισαγωγή Στο Κεφάλαιο 1, αρχικά, γίνεται μία εισαγωγή στο θέμα της διπλωματικής εργασίας και στη συνέχεια παρουσιάζεται ο σκοπός και η δομή της. 1.1 Σκοπός της Εργασίας Η διαστρωματωμένη δειγματοληψία είναι μία μέθοδος δειγματοληψίας που λαμβάνει υπόψη την ύπαρξη ομάδων, ξένων μεταξύ τους, ενός πληθυσμού και παράγει δείγματα όπου η αναλογία αυτών των ομάδων διατηρείται. Στην ταξινόμηση δεδομένων που χαρακτηρίζονται από μία ετικέτα, οι ομάδες διαφοροποιούνται με βάση την τιμή της μεταβλητής στόχου. Όμως, στη μάθηση από δεδομένα πολλαπλών ετικετών, όπου υπάρχουν πολλαπλές μεταβλητές στόχου, δεν είναι ξεκάθαρο πώς μπορεί να γίνει η διαστρωματωμένη δειγματοληψία. Σε αυτήν την εργασία εστιάζουμε στη δειγματοληψία δεδομένων πολλαπλών ετικετών. Μελετούμε δύο τεχνικές δειγματοληψίας για δεδομένα πολλαπλών ετικετών και στη συνέχεια προτείνουμε μία νέα σύνθετη τεχνική δειγματοληψίας που συνδυάζει τα οφέλη των δύο παραπάνω μεθόδων. Τέλος, συγκρίνουμε όλες αυτές τις τεχνικές δειγματοληψίας 9

11 εκτελώντας πειράματα σε έναν αριθμό από σύνολα δεδομένων πολλαπλών ετικετών και παραθέτουμε τα αποτελέσματά τους, τα οποία αποκαλύπτουν ενδιαφέροντα συμπεράσματα για τη χρησιμότητα της κάθε μεθόδου ανάλογα με τα χαρακτηριστικά του κάθε συνόλου. Η διπλωματική εργασία έχει βασική κατεύθυνση τη μελέτη τεχνικών διαστρωματωμένης δειγματοληψίας για δεδομένα πολλαπλών ετικετών. Σε αυτό το πλαίσιο αναπτύσσεται μία νέα μέθοδος διαστρωματωμένης δειγματοληψίας για δεδομένα πολλαπλών ετικετών που βασίζεται στο συνδυασμό δύο προηγούμενων μεθόδων διαστρωματωμένης δειγματοληψίας. Ο κύριος σκοπός της εργασίας είναι να καταλήξουμε σε συμπεράσματα για τη χρησιμότητα της κάθε μεθόδου ανάλογα με τα χαρακτηριστικά του εκάστοτε συνόλου δεδομένων πολλαπλών ετικετών στο οποίο θα εφαρμόζεται η ανάλογη μέθοδος. Αρχικά, μελετάμε δύο βασικές τεχνικές διαστρωματωμένης δειγματοληψίας: Στην πρώτη, οι ομάδες παραδειγμάτων διαμορφώνονται με βάση τους διαφορετικούς συνδυασμούς των ετικετών (labelsets) που υπάρχουν στα παραδείγματα εκπαίδευσης (μέθοδος Label Powerset). Στη δεύτερη, κάθε ετικέτα αντιμετωπίζεται ανεξάρτητα από τις άλλες διατηρώντας την κατανομή θετικών και αρνητικών παραδειγμάτων για κάθε ετικέτα (μέθοδος Iterative). Και οι δύο παραπάνω μέθοδοι τροποποιήθηκαν ώστε να δουλεύουν και για δημιουργία ομάδων με άνισα ποσοστά παραδειγμάτων. Στη συνέχεια προτείνουμε τη νέα μέθοδο διαστρωματωμένης δειγματοληψίας η οποία συνδυάζει τις δύο μεθόδους που αναφέρθηκαν και έχει ως βασικό στόχο να διατηρεί τις αναλογίες των παραδειγμάτων ανά ετικέτα στις ομάδες που προκύπτουν. 1.2 Δομή της Διπλωματικής Εργασίας Η δομή της διπλωματικής εργασίας είναι η εξής: 10

12 Κεφάλαιο 2: Σε αυτό το κεφάλαιο παρουσιάζεται το θεωρητικό υπόβαθρο της παρούσας εργασίας. Αρχικά, γίνεται μία μικρή εισαγωγή στη Μηχανική Μάθηση και στο πρόβλημα της μάθησης από δεδομένα πολλαπλών ετικετών. Στη συνέχεια, αναλύονται μέθοδοι ταξινόμησης και κατάταξης για δεδομένα πολλαπλών ετικετών. Τέλος, παρουσιάζονται στατιστικά μέτρα για τέτοιου είδους σύνολα καθώς και μέτρα αξιολόγησης των μεθόδων. Κεφάλαιο 3: Η συνεισφορά μας με αυτήν την διπλωματική εργασία παρουσιάζεται σε αυτό το κεφάλαιο. Αρχικά, γίνεται μία εισαγωγή στη διαστρωματωμένη δειγματοληψία σε δεδομένα πολλαπλών ετικετών. Στη συνέχεια, παρουσιάζονται δύο βασικές τεχνικές διαστρωματωμένης δειγματοληψίας και η τροποποίησή τους ώστε να έχουν τη δυνατότητα να δημιουργούν ομάδες παραδειγμάτων άνισων ποσοστών. Τέλος, αναλύεται η νέα μέθοδος που προτείνουμε στην παρούσα εργασία. Κεφάλαιο 4: Σε αυτό το κεφάλαιο, αρχικά, γίνεται μία συνοπτική αναφορά στα σύνολα δεδομένων που χρησιμοποιήθηκαν στα πειράματα. Στη συνέχεια, αναφέρονται οι αλγόριθμοι μάθησης και τα μέτρα αξιολόγησης που χρησιμοποιήθηκαν. Επιπλέον, παρουσιάζονται και αναλύονται εκτενώς τα πειραματικά αποτελέσματα. Κεφάλαιο 5: Στο τελευταίο κεφάλαιο συνοψίζουμε τη συνεισφορά μας και διατυπώνουμε τα συμπεράσματα της διπλωματικής εργασίας καθώς και τις μελλοντικές επεκτάσεις. 11

13 Κεφάλαιο 2 Θεωρητικό Υπόβαθρο Σε αυτό το κεφάλαιο παρουσιάζεται το θεωρητικό υπόβαθρο της παρούσας εργασίας. Αρχικά, γίνεται μία μικρή εισαγωγή στη Μηχανική Μάθηση και στο πρόβλημα της μάθησης από δεδομένα πολλαπλών ετικετών. Στη συνέχεια, αναλύονται μέθοδοι ταξινόμησης και κατάταξης για δεδομένα πολλαπλών ετικετών (μέθοδοι μετασχηματισμού προβλήματος και προσαρμογής αλγορίθμων). Τέλος, παρουσιάζονται στατιστικά μέτρα για τέτοιου είδους σύνολα καθώς και μέτρα αξιολόγησης των μεθόδων. 2.1 Μηχανική Μάθηση Η μηχανική μάθηση (ΜΜ) αποτελεί έναν από τους σημαντικότερους τομείς έρευνας της τεχνητής νοημοσύνης. Στόχος της είναι η δημιουργία συστημάτων που να είναι σε θέση να εκπαιδεύονται από εμπειρικά δεδομένα που έχουν παρατηρήσει στο παρελθόν, ώστε να εκτελούν την εργασία για την οποία προορίζονται αποτελεσματικότερα. Ο όρος μάθηση έγκειται στο γεγονός ότι τα συστήματα αυτά δεν είναι στατικά, αλλά αλληλεπιδρώντας με το περιβάλλον δράσης τους, αυτοτροφοδοτούνται με νέα γνώση για τον τρόπο που πρέπει να ενεργούν. Έτσι μαθαίνουν και βελτιώνονται. Σύμφωνα με τον Mitchell (Mitchell, 1997) ένα πρόγραμμα υπολογιστή θεωρείται ότι μαθαίνει από εμπειρία E, σε σχέση με κάποια 12

14 κατηγορία εργασιών T και μετρική αποτίμησης P, εάν η απόδοση στις εργασίες του T, όπως μετριέται από το P, βελτιώνεται με την εμπειρία E. Έχουν αναπτυχθεί πολλές τεχνικές ΜΜ οι οποίες χρησιμοποιούνται ανάλογα με τη φύση του προβλήματος και εμπίπτουν σε ένα από τα παρακάτω τρία είδη: μάθηση με επίβλεψη (supervised learning) ή μάθηση με παραδείγματα (learning from examples), μάθηση χωρίς επίβλεψη (unsupervised learning) ή μάθηση από παρατήρηση (learning from observation) και ενισχυτική μάθηση (Reinforcement learning). Αναλυτικά: Στη μάθηση με επίβλεψη το σύστημα καλείται να "μάθει" μια έννοια ή συνάρτηση από ένα σύνολο δεδομένων, η οποία αποτελεί περιγραφή ενός μοντέλου. Ονομάζεται έτσι επειδή θεωρείται ότι υπάρχει κάποιος "επιβλέπων", ο οποίος παρέχει τη σωστή τιμή εξόδου της συνάρτησης για τα δεδομένα που εξετάζονται. Στη μάθηση χωρίς επίβλεψη το σύστημα πρέπει μόνο του να ανακαλύψει συσχετίσεις ή ομάδες σε ένα σύνολο δεδομένων, δημιουργώντας πρότυπα, χωρίς να είναι γνωστό αν υπάρχουν, πόσα και ποια είναι. Ώς αποτέλεσμα προκύπτουν πρότυπα (περιγραφές), κάθε ένα από τα οποία περιγράφει ένα μέρος από τα δεδομένα. Στην ενισχυτική μάθηση η μάθηση γίνεται μέσω επιβράβευσης ή/και τιμωρίας. Χρησιμοποιείται κυρίως σε νοήμονες πράκτορες οι οποίοι είναι οντότητες που αντιλαμβάνονται το περιβάλλον μέσα στο οποίο βρίσκονται με τη βοήθεια αισθητήρων, είναι μέρος του περιβάλλοντος αυτού, κάνουν συλλογισμούς για το περιβάλλον και δρουν πάνω σ αυτό με τη βοήθεια μηχανισμών δράσης για την επίτευξη κάποιων στόχων. Ο στόχος των αλγορίθμων ενισχυτικής μάθησης είναι παρατηρώντας τα αποτελέσματα μιας αλληλουχίας ενεργειών, να βρουν μία πολιτική που να χαρτογραφεί τις καταστάσεις του περιβάλλοντος, σε ενέργειες που οφείλουν να πράττουν οι πράκτορες όταν βρεθούν στις καταστάσεις αυτές. Η μάθηση του συστήματος έγκειται στο ότι υπάρχει επιβράβευση του πράκτορα ανάλογα με το πόσο σωστός είναι ο τρόπος με τον οποίο επιλέγει να μεταβεί από μία κατάσταση σε μία άλλη. Η διαφορά της ενισχυτικής μάθησης από την επιβλεπόμενη μάθηση είναι ότι στην πρώτη δεν χρησιμοποιείται προηγούμενη γνώση. 13

15 2.2 Μάθηση από Δεδομένα Πολλαπλών Ετικετών Ένας μεγάλος όγκος έρευνας στην επιβλεπόμενη μάθηση, ασχολείται με την ανάλυση δεδομένων που χαρακτηρίζονται μόνο από μία ετικέτα, όπου τα παραδείγματα του συνόλου εκπαίδευσης σχετίζονται με μία μόνο ετικέτα λ, ενός συνόλου ετικετών L οι οποίες είναι ξένες μεταξύ τους. Όμως, τα παραδείγματα του συνόλου εκπαίδευσης σε μερικούς τομείς εφαρμογών συχνά χαρακτηρίζονται από ένα σύνολο ετικετών Υ L. Τέτοια δεδομένα ονομάζονται δεδομένα πολλαπλών ετικετών (Tsoumakas et al., 2010). Τα δεδομένα κειμένου, όπως έγγραφα και ιστοσελίδες, συχνά χαρακτηρίζονται από περισσότερες από μία ετικέτες. Για παράδειγμα, ένα άρθρο που αφορά στις αντιδράσεις της Χριστιανικής εκκλησίας για την ταινία Ο κώδικας Da Vinci μπορεί να χαρακτηριστεί και ως θρησκευτικό και ως ταινία. Η κατηγοριοποίηση δεδομένων κειμένου είναι ίσως η πιο δημοφιλής εφαρμογή πολλαπλών ετικετών. Πρόσφατα, το θέμα της μάθησης από δεδομένα πολλαπλών ετικετών έχει προσελκύσει σημαντικά την προσοχή πολλών ερευνητών οι οποίοι παρακινούνται από τον αυξημένο αριθμό νέων εφαρμογών, όπως ο σημασιολογικός χαρακτηρισμός εικόνων (Boutell et al. 2004; Zhang και Ζhou, 2007; Yang et al., 2007) και βίντεο (Qi et al., 2007; Snoek et al., 2006), η λειτουργική γενομική (Clare και King, 2001; Elisseeff και Weston, 2002; Blockeel et al., 2006; Cesa-Bianchi et al., 2006; Barutcuoglu et al., 2006), η κατηγοριοποίηση της μουσικής σε συναισθήματα (Li και Ogihara, 2003; Li και Ogihara, 2006; Weiczorkowska et al., 2006; Trohidis et al., 2008) και το κατευθυνόμενο marketing (Zhang et al., 2006). 2.3 Μέθοδοι Ταξινόμησης και Κατάταξης Υπάρχουν δύο κύριες εργασίες στην επιβλεπόμενη μάθηση από δεδομένα πολλαπλών ετικετών: η ταξινόμηση πολλαπλών ετικετών (MultiLabel Classification, MLC) και η κατάταξη των ετικετών (Label Ranking, LR). Η ταξινόμηση πολλαπλών ετικετών ασχολείται με την εκμάθηση ενός μοντέλου το οποίο δίνει ως αποτέλεσμα μία διαμέριση του συνόλου ετικετών σε σχετικές και άσχετες με ένα παράδειγμα. Η κατάταξη των ετικετών ασχολείται με την εκμάθηση ενός μοντέλου το οποίο δίνει ως αποτέλεσμα μία κατάταξη των ετικετών 14

16 σύμφωνα με τη σχετικότητά τους με ένα παράδειγμα. Σημειώνουμε ότι τα μοντέλα κατάταξης των ετικετών μπορούν επίσης να μάθουν από δεδομένα εκπαίδευσης τα οποία χαρακτηρίζονται από μία ετικέτα, συνολικές κατατάξεις των ετικετών καθώς και ζεύγη προτιμήσεων πάνω σε ένα σύνολο ετικέτων (Vembu και Gartner, 2009). Και η ταξινόμηση πολλαπλών ετικετών και η κατάταξη των ετικετών είναι σημαντικές στην εξόρυξη δεδομένων πολλαπλών ετικετών. Σε μία εφαρμογή που ο χρήστης φιλτράρει τις ειδήσεις, θα πρέπει να εμφανίζονται στο χρήστη μόνο άρθρα του ενδιαφέροντός του αλλά και τα πιο ενδιαφέροντα να είναι στην κορυφή της λίστας. Ιδανικά, θα θέλαμε οι μέθοδοι να κάνουν τόσο κατάταξη όσο και διαμέριση των ετικετών. Μία τέτοια εργασία λέγεται κατάταξη πολλαπλών ετικετών (MultiLabel Ranking, MLR) (Brinker et al., 2006) και αποτελεί μία ενδιαφέρουσα και χρήσιμη γενικευση των MLC και LR. Παρακάτω παρουσιάζουμε τις μεθόδους MLR, MLC και LR ομαδοποιημένες σε δύο κατηγορίες όπως παρουσιάζεται και στην εργασία (Tsoumakas και Katakis, 2007): (i) μετασχηματισμός προβλήματος και (ii) προσαρμογή αλγορίθμου. Η πρώτη ομάδα μεθόδων είναι ανεξάρτητες των αλγορίθμων. Μετασχηματίζουν ένα πρόβλημα μάθησης σε ένα ή περισσότερα προβλήματα ταξινόμησης δεδομένων που χαρακτηρίζονται από μία μόνο ετικέτα (υπάρχει μεγάλη βιβλιογραφία για αλγορίθμους μάθησης). Η δεύτερη ομάδα μεθόδων επεκτείνει συγκεκριμένους αλγορίθμους μάθησης για να χειριστεί άμεσα δεδομένα πολλαπλών ετικετών. Για μία τυπική περιγραφή των μεθόδων θα συμβολίζουμε με L = {λj: j = 1...q}, το πεπερασμένο σύνολο των ετικετών μίας εργασίας μάθησης δεδομένων πολλαπλών ετικετών και με D = {(xi, Yi), i = 1...m}, τα παραδείγματα ενός συνόλου εκπαίδευσης πολλαπλών ετικετών, όπου xi είναι το διάνυσμα των χαρακτηριστικών και Yi L, το σύνολο των ετικετών που χαρακτηρίζουν το i-οστό παράδειγμα Μετασχηματισμός Προβλήματος Οι μέθοδοι μετασχηματισμού προβλήματος θα επεξηγηθούν μέσα από τα δεδομένα πολλαπλών ετικετών του Σχήματος 2.1. Αποτελείται από τέσσερα παραδείγματα που χαρακτηρίζονται από μία ή περισσότερες από τις τέσσερις ετικέτες: λ1, λ2, λ3, λ4. Καθώς οι 15

17 μετασχηματισμοί επηρεάζουν μόνο το χώρο των ετικετών, στα υπόλοιπα σχήματα της παραγράφου, θα παραλείπεται ο χώρος των χαρακτηριστικών για λόγους απλότητας. Σχήμα 2.1: Παράδειγμα ενός συνόλου δεδομένων πολλαπλών ετικετών Υπάρχουν μερικοί απλοί μετασχηματισμοί που μπορούν να χρησιμοποιηθούν για να μετατραπεί ένα σύνολο δεδομένων πολλαπλών ετικετών σε σύνολο δεδομένων που χαρακτηρίζονται από μία μόνο ετικέτα με το ίδιο σύνολο ετικετών (Boutell et al., 2004; Chen et al., 2007). Ένας ταξινομητής δεδομένων που χαρακτηρίζονται από μία ετικέτα ο οποίος εξάγει κατανομές πιθανότητας για όλες τις κλάσεις, μπορεί να χρησιμοποιηθεί για να μάθει μία κατάταξη. Η κλάση με την υψηλότερη πιθανότητα θα καταταχθεί πρώτη, η κλάση με τη δεύτερη καλύτερη πιθανότητα θα καταταχθεί δεύτερη κοκ. Ο μετασχηματισμός αντιγραφής (copy) αντικαθιστά κάθε παράδειγμα πολλαπλών ετικετών (xi, Yi) με Yi παραδείγματα (xi, λj) για κάθε λj Yi. Μία παραλλαγή αυτού του μετασχηματισμού, που λέγεται αντιγραφή με βάρη (copy-weight), συσχετίζει ένα βάρος 1/ Yi με καθένα από τα παραγόμενα παραδείγματα. Η οικογένεια μετασχηματισμών επιλογής (select) αντικαθιστά το Yi με ένα από τα μέλη του. Αυτή η ετικέτα μπορεί να είναι είτε η πιο συχνή (select-max) είτε η πιο σπάνια (select-min) ανάμεσα στα παραδείγματα. Θα μπορούσε, επίσης, να επιλεχθεί τυχαία (select-random). Τέλος, αναφέρουμε το μετασχηματισμό που αγνοεί (ignore) κάθε παράδειγμα που χαρακτηρίζεται από πολλές ετικέτες. Το Σχήμα 2.2 δείχνει το μετασχηματισμένο σύνολο δεδομένων με τη χρήση των παραπάνω απλών μεθόδων μετασχηματισμού. Η Label powerset (LP) είναι μία απλή αλλά αποτελεσματική μέθοδος μετασχηματισμού προβλήματος η οποία δουλεύει ως εξής: θεωρεί κάθε μοναδικό συνδυασμό από ετικέτες (labelset) που εμφανίζεται στο σύνολο εκπαίδευσης (πολλαπλών ετικετών), σαν μία από τις κλάσεις μίας νέας εργασίας ταξινόμησης δεδομένων τα οποία χαρακτηρίζονται από μία μόνο ετικέτα. Το Σχήμα 2.3 δείχνει το αποτέλεσμα του μετασχηματισμού του συνόλου δεδομένων του Σχήματος 2.1 με τη χρήση της Label powerset. 16

18 Σχήμα 2.2: Μετασχηματισμός συνόλου δεδομένων του Σχήματος 1 με χρήση: (α) copy, (b) copy-weight, (c) select-max, (d) select-min, (e) select-random (ένα από τα πιθανά) και (f) ignore Σχήμα 2.3: Μετασχηματισμένο σύνολο δεδομένων με χρήση της μεθόδου Label powerset Δοθέντος ενός νέου παραδείγματος, ένας ταξινομητης της LP για δεδομένα που χαρακτηρίζονται από μία μόνο ετικέτα, δίνει ως αποτέλεσμα την πιο πιθανή κλάση, που είναι στην πραγματικότητα ένα σύνολο από ετικέτες. Εάν αυτός ο ταξινομητής μπορεί να δώσει ως έξοδο μία κατανομή πιθανότητας πάνω σε όλες τις κλάσεις, τότε η LP μπορεί να κατατάξει, επίσης, τις ετικέτες ακολουθώντας την προσέγγιση της εργασίας (Read, 2008). Ο Πίνακας 2.1 δείχνει ένα παράδειγμα μίας κατανομής πιθανότητας που μπορεί να παραχθεί από την LP, με εκπαίδευση στα δεδομένα του Σχήματος 2.3, δοθέντος ενός νέου παραδείγματος x με άγνωστο σύνολο ετικετών. Για να πάρουμε μία κατάταξη ετικετών υπολογίζουμε για κάθε ετικέτα το άθροισμα των πιθανοτήτων των κλάσεων που την περιέχουν. Έτσι, με αυτόν τον τρόπο η LP μπορεί να επιλύσει την πλήρη MLR εργασία. 17

19 Πίνακας 2.1: Παράδειγμα μίας κατάταξης από την LP Η υπολογιστική πολυπλοκότητα της LP, σε σχέση με το q, εξαρτάται από την πολυπλοκότητα του βασικού ταξινομητή σε σχέση με τον αριθμό των κλάσεων, ο οποίος είναι ίσος με τον αριθμό των διαφορετικών συνδυασμών ετικετών του συνόλου εκπαίδευσης. Αυτός ο αριθμός είναι άνω φραγμένος από το min(m, 2 q ), και παρά το ότι συνήθως είναι αρκετά μικρότερος, θέτει ένα σημαντικό πρόβλημα πολυπλοκότητας, ειδικά για μεγάλες τιμές των m και q. Επίσης, ο μεγάλος αριθμός των κλάσεων, με πολλές από αυτές να σχετίζονται με πολύ λίγα παραδείγματα, δυσκολεύει τη διαδικασία της μάθησης. Η μέθοδος μετασχηματισμού προβλήματος pruned (PPT) (Read, 2008) επεκτείνει την LP σε μία προσπάθεια να αντιμετωπίσει τα προαναφερθέντα προβλήματα. Απομακρύνει όλους τους συνδυασμούς ετικετών που εμφανίζονται λιγότερες φορές από ένα μικρό κατώφλι, το οποίο ορίζεται από το χρήστη (π.χ. 2 ή 3) και επιλεκτικά αντικαθιστά την πληροφορία τους, εισάγοντας ξένα υποσύνολα αυτών των συνδυασμών ετικετών που εμφανίζονται περισσότερες φορές από το κατώ φράγμα. Η μέθοδος random-k-labelsets (RAkEL) (Tsoumakas και Vlahavas, 2007) κατασκευάζει ένα σύνολο ταξινομητών LP. Κάθε ταξινομητής LP εκπαιδεύεται με τη χρήση ενός τυχαίου, μικρού, διαφορετικού υποσυνόλου του συνόλου ετικετών. Με αυτόν τον τρόπο η RAkEL καταφέρνει να λάβει υπόψη της τις συσχετίσεις των ετικετών, αποφεύγοντας τα προβλήματα της LP. Παράγεται μία κατάταξη των ετικετών παίρνοντας το μέσο όρο των προβλέψεων 0-1 του κάθε μοντέλου ανά θεωρούμενη ετικέτα. Στη συνέχεια, χρησιμοποιείται κατώφλι για να παραχθεί μία διαμέριση. Η Binary Relevance (BR) είναι μία δημοφιλής μέθοδος μετασχηματισμού προβλήματος η οποία μαθαίνει q δυαδικούς ταξινομητές, έναν για κάθε ετικέτα του L. Μετασχηματίζει το αρχικό σύνολο δεδομένων σε q σύνολα δεδομένων D λj, j = 1...q, τα οποία περιέχουν όλα 18

20 τα παραδείγματα του αρχικού συνόλου δεδομένων, χαρακτηρισμένα θετικά εάν o συνδυασμός ετικετών του αρχικού παραδείγματος περιέχει την ετικέτα λj και αρνητικά εάν δεν την περιέχει. Για την ταξινόμηση ενός νέου παραδείγματος, η BR δίνει ως αποτέλεσμα την ένωση των ετικετών λj οι οποίες έχουν προβλεφθεί ως θετικές από τους q ταξινομητές. Το Σχήμα 2.4 δείχνει τα σύνολα δεδομένων που κατασκευάζονται από την BR, όταν εφαρμοστεί στο σύνολο δεδομένων του Σχήματος 2.1. Σχήμα 2.4: Σύνολα δεδομένων που παράγονται από τη μέθοδο BR Η μέθοδος κατάταξης με σύγκριση ανά ζεύγη (Ranking by Pairwise Comparison, RPC) μετασχηματίζει το σύνολο δεδομένων πολλαπλών ετικετών σε q(q-1)/2 σύνολα δεδομένων που χαρακτηρίζονται από δύο ετικέτες, ένα για κάθε ζεύγος ετικετών (λ i, λ j ), 1 i < j q. Κάθε σύνολο δεδομένων περιέχει εκείνα τα παραδείγματα του D τα οποία χαρακτηρίζονται από μία τουλάχιστον από τις δύο αντίστοιχες ετικέτες, αλλά όχι και από τις δύο. Ένας δυαδικός ταξινομητής που μαθαίνει να διαχωρίζει δύο ετικέτες, εκπαιδεύεται από αυτά τα σύνολα δεδομένων. Δοθέντος ενός νέου παραδείγματος, καλούνται όλοι οι δυαδικοί ταξινομητές και δίνουν μία κατάταξη μετρώντας όλες τις ψήφους που λαμβάνει η κάθε ετικέτα. Το Σχήμα 2.5 δείχνει τα σύνολα δεδομένων που παράγονται από τη μέθοδο RPC, μετά από εφαρμογή της στο σύνολο δεδομένων του Σχήματος 2.1. Ο αλγόριθμος Multi- Label Pairwise Perceptron (MLPP) (Loza Mencia και Furnkranz, 2008) είναι μια μέθοδος RPC που χρησιμοποιεί νευρώνες perceptron για τις εργασίες δυαδικής ταξινόμησης. Η μέθοδος Calibrated Label Ranking (CLR) (Furnkranz et al., 2008) επεκτείνει την RPC εισάγοντας μία επιπλέον εικονική ετικέτα η οποία παίζει το ρόλο του σημείου τομής για την κατάταξη σε σχετικό και άσχετο σύνολο ετικετών. Με αυτόν τον τρόπο η CLR καταφέρνει να επιλύσει την πλήρη ΜLR εργασία. Τα δυαδικά μοντέλα που μαθαίνουν να ξεχωρίζουν την εικονική ετικέτα από κάθε μία από τις υπόλοιπες ετικέτες, αντιστοιχούν στα μοντέλα της BR. Αυτό συμβαίνει γιατί κάθε παράδειγμα το οποίο χαρακτηρίζεται από μία δοθείσα 19

21 ετικέτα θεωρείται θετικό για αυτήν την ετικέτα και αρνητικό για την εικονική ετικέτα, ενώ κάθε παράδειγμα το οποίο δε χαρακτηρίζεται από μία ετικέτα θεωρείται αρνητικό για αυτήν την ετικέτα και θετικό για την εικονική ετικέτα. Όταν η μέθοδος CLR εφαρμόζεται στα δεδομένα του Σχήματος 2.1, κατασκευάζονται τα σύνολα δεδομένων του Σχήματος 2.5 και του Σχήματος 2.4. Σχήμα 2.5: Σύνολα δεδομένων που παράγονται από τη μέθοδο RPC Προσαρμογή Αλγορίθμου Ο αλγόριθμος C4.5 προσαρμόστηκε στην εργασία (Clare και King, 2001) για το χειρισμό δεδομένων πολλαπλών ετικετών. Συγκεκριμένα, επιτράπηκαν πολλαπλές ετικέτες στα φύλλα του δένδρου και ο τύπος του υπολογισμού της εντροπίας τροποποιήθηκε ως εξής: όπου p(λj) = σχετική συχνότητα της κλάσης λj και q(λj) = 1 p(λj). AdaBoost.MH και AdaBoost.MR (Schapire και Singer, 2000) είναι δύο επεκτάσεις του AdaBoost για δεδομένα πολλαπλών ετικετών. Ενώ ο AdaBoost.MH είναι σχεδιασμένος ώστε να ελαχιστοποιεί τη μετρική Hamming Loss, ο AdaBoost.MR σχεδιάστηκε ώστε να βρίσκει μία υπόθεση η οποία να τοποθετεί τις σωστές ετικέτες στην κορυφή της κατάταξης. Ένας συνδυασμός του AdaBoost.MH με έναν αλγόριθμο για παραγωγή εναλλακτικών δέντρων απόφασης παρουσιάζεται στην εργασία (Comite et al, 2003). Το βασικό κίνητρο 20

22 ήταν η παραγωγή μοντέλων πολλαπλών ετικετών που μπορούν να κατανοηθούν από ανθρώπους. Ένα πιθανοκρατικό παραγωγικό μοντέλο προτείνεται στην εργασία (McCallum, 1999), σύμφωνα με το οποίο κάθε ετικέτα παράγει διαφορετικές λέξεις. Με βάση αυτό το μοντέλο ένα έγγραφο πολλαπλών ετικετών παράγεται από ένα μίγμα κατανομών λέξεων των ετικετών του. Ένα παρόμοιο μοντέλο μίγματος βασισμένο στις λέξεις για ταξινόμηση κειμένου πολλαπλών ετικετών υπάρχει στην εργασία (Ueda και Saito, 2003). Άλλη μία προσέγγιση προτείνεται στην εργασία (Streich και Buhmann, 2008), προκειμένου να εκτιμηθεί η μεμονωμένη συνεισφορά της κάθε ετικέτας σε ένα συγκεκριμένο στοιχείο. Η χρήση υπό συνθήκη τυχαίων πεδίων εξερευνάται στην εργασία (Ghamrawi και McCallum, 2005), όπου προτείνονται δύο γραφικά μοντέλα που παραμετροποιούν συνυπάρξεις ετικετών. Το πρώτο, που ονομάζεται collective multi-label, συλλέγει πρότυπα συνύπαρξης μεταξύ των ετικετών, ενώ το δεύτερο, που ονομάζεται collective multi-label with features, προσπαθεί να συλλάβει τις επιδράσεις ενός μεμονωμένου χαρακτηριστικού πάνω στην πιθανότητα συνύπαρξης ενός ζεύγους ετικετών. Ο BP-MLL (Zhang και Zhou, 2006) είναι μία προσαρμογή του δημοφιλούς αλγορίθμου backpropagation για μάθηση δεδομένων πολλαπλών ετικετών. Η κύρια τροποποίηση στον αλγόριθμο είναι η εισαγωγή μίας νέας συνάρτησης λάθους που παίρνει υπόψη πολλαπλές ετικέτες. Η Multi-class Multi-label Perceptron (MMP) είναι μία οικογένεια αλγορίθμων για κατάταξη ετικετών για δεδομένα πολλαπλών ετικετών που βασίζονται σε νευρώνες perceptron. H οικογένεια αλγορίθμων MMP διατηρεί ένα νευρώνα perceptron για κάθε ετικέτα, αλλά η ενημέρωση των βαρών γίνεται έτσι ώστε να επιτευχθεί μία τέλεια κατάταξη όλων των ετικετών. Ένας SVM αλγόριθμος που ελαχιστοποιεί τη μετρική ranking loss προτείνεται στην εργασία (Elisseeff και Weston, 2002). Τρεις υλοποιήσεις της μεθόδου BR με ταξινομητή SVM δίνονται στην εργασία (Godbole και Sarawagi, 2004). Οι δύο πρώτες θα μπορούσαν εύκολα να χρησιμοποιηθούν με κάθε αλγόριθμο ταξινόμησης και για αυτό θα μπορούσαν να θεωρηθούν μία επέκταση της BR, ενώ η τρίτη είναι ειδικά για SVMs. 21

23 Η βασική ιδέα στην πρώτη βελτίωση είναι να επεκταθεί το αρχικό σύνολο δεδομένων με q επιπλέον χαρακτηριστικά, περιλαμβάνοντας τις προβλέψεις του κάθε δυαδικού ταξινομητή. Στη συνέχεια, διεξάγεται ένας δεύτερος γύρος εκπαίδευσης q νέων, δυαδικών ταξινομητών, αυτή τη φορά χρησιμοποιώντας τα επεκτεταμένα σύνολα δεδομένων. Για την ταξινόμηση ενός νέου παραδείγματος, χρησιμοποιούνται αρχικά οι δυαδικοί ταξινομητές του πρώτου γύρου και το αποτέλεσμά τους προστίθεται στα χαρακτηριστικά του παραδείγματος ώστε να σχηματιστεί ένα μέτα-παράδειγμα. Μετά, αυτό το μετα-παράδειγμα ταξινομείται από τους δυαδικούς ταξινομητές του δεύτερου γύρου. Μέσω αυτής της επέκτασης, αυτή η προσέγγιση λαμβάνει υπόψη τις πιθανές εξαρτήσεις μεταξύ των διαφορετικών ετικετών. Σημειώστε ότι αυτή η βελτίωση είναι στην πραγματικότητα μία ειδική περίπτωση εφαρμογής της μεθόδου Stacking για το συνδυασμό πολλαπλών ταξινομητών (Wolpert, 1992), πάνω από την BR. Ένας αριθμός μεθόδων (Luo και Zincir-Heywood, 2005; Wieczorkowska et al., 2006; Brinker και Hullermeier, 2007; Zhang και Zhou, 2007; Spyromitros et al., 2008) βασίζεται στο δημοφιλή αλγόριθμο μάθησης των k πλησιέστερων γειτόνων (k-nearest-neighbors, knn). Το πρώτο βήμα σε αυτές τις προσεγγίσεις είναι το ίδιο όπως συμβαίνει στον knn, δηλαδή ανάκτηση των k πλησιέστερων παραδειγμάτων. Αυτό που τις διαφοροποιεί είναι ο συγκερασμός (aggregation) των συνόλων ετικετών αυτών των παραδειγμάτων. Για παράδειγμα, ο ML-kNN (Zhang και Zhou, 2007) χρησιμοποιεί την αρχή της μέγιστης εκ των υστέρων πιθανότητας, προκειμένου να αποφασίσει το σύνολο ετικετών του παραδείγματος (ελέγχου) με βάση τις εκ των προτέρων και εκ των υστέρων πιθανότητες για τη συχνότητα της κάθε ετικέτας στους k πλησιέστερους γείτονες. Ο MMAC (Thabtah et al., 2004) είναι ένας αλγόριθμος που ακολουθεί το παράδειγμα της ταξινόμησης με συσχέτιση (associative classification), η οποία ασχολείται με την κατασκευή συνόλων κανόνων ταξινόμησης, χρησιμοποιώντας εξόρυξη κανόνων συσχέτισης. Ο MMAC μαθαίνει ένα αρχικό σύνολο από κανόνες ταξινόμησης μέσω εξόρυξης κανόνων συσχέτισης, διαγράφει τα παραδείγματα που σχετίζονται με αυτό το σύνολο κανόνων και αναδρομικά μαθαίνει ένα νέο σύνολο κανόνων από τα υπόλοιπα παραδείγματα μέχρις ότου να μην υπάρχουν συχνά αντικείμενα. Αυτά τα σύνολα πολλαπλών κανόνων μπορεί να περιέχουν κανόνες με παρόμοιες προϋποθέσεις αλλά 22

24 διαφορετικές ετικέτες στο δεξί μέλος του κανόνα. Τέτοιοι κανόνες συνενώνονται σε έναν κανόνα πολλαπλών ετικετών. Οι ετικέτες κατατάσσονται σύμφωνα με την υποστήριξη (support) των μεμονωμένων κανόνων. Τέλος, μία προσέγγιση που συνδυάζει μάθηση κατά περίπτωση και μάθηση με κανόνες συσχέτισης προτείνεται στην εργασία (Veloso et al, 2007), όπου η επαγωγική διαδικασία καθυστερείται μέχρι να δοθεί για ταξινόμηση ένα παράδειγμα. 2.4 Στατιστικά Μέτρα και Σύνολα Δεδομένων Σε μερικές εφαρμογές, ο αριθμός των ετικετών του κάθε παραδείγματος είναι μικρός σε σύγκριση με το q, ενώ σε άλλες είναι μεγάλος. Αυτό μπορεί να είναι μία παράμετρος που επηρεάζει την απόδοση των διαφορετικών μεθόδων δεδομένων πολλαπλών ετικετών. Σε αυτήν την παράγραφο εξηγούμε τις έννοιες της πληθυκότητας ετικέτας (Label-Cardinality) και της πυκνότητας ετικέτας (Label-Density) ενός συνόλου δεδομένων. Η πληθυκότητα ετικέτας ενός συνόλου δεδομένων D είναι ο μέσος όρος του αριθμού των ετικετών των παραδειγμάτων στο D: Η πυκνότητα ετικέτας του D είναι ο μέσος όρος του αριθμού των ετικετών των παραδειγμάτων στο D, διαιρεμένος με q: Η πληθυκότητα ετικέτας είναι ανεξάρτητη του αριθμού των ετικετών q στο πρόβλημα της ταξινόμησης, και χρησιμοποιείται για να ποσοτικοποιήσει τον αριθμό των εναλλακτικών ετικετών που χαρακτηρίζουν τα παραδείγματα του συνόλου εκπαίδευσης. Η πυκνότητα ετικέτας λαμβάνει υπόψη των αριθμό των ετικετών του αντικειμένου. Δύο σύνολα δεδομένων με την ίδια πληθυκότητα ετικέτας αλλά με μεγάλη διαφορά στον αριθμό των ετικετών (διαφορετική πυκνότητα ετικέτας) δεν μπορούν να παρουσιάσουν τις ίδιες ιδιότητες και μπορεί να προκαλέσουν διαφορετική συμπεριφορά στις μεθόδους μάθησης πολλαπλών ετικετών. Ο αριθμός των διαφορετικών συνόλων ετικετών είναι επίσης σημαντικός για πολλές αλγοριθμικές μεθόδους μετασχηματισμού που λειτουργούν σε 23

25 υποσύνολα ετικετών. Στον Πίνακα 2.2 παρουσιάζονται ενδεικτικά σύνολα δεδομένων από διάφορους τομείς μαζί με τα αντίστοιχα στατιστικά τους στοιχεία. Πίνακας 2.2: Στατιστικά στοιχεία συνόλων δεδομένων πολλαπλών ετικετών 2.5 Μέτρα Αξιολόγησης Οι μέθοδοι που μαθαίνουν από δεδομένα πολλαπλών ετικετών απαιτούν διαφορετικές μετρικές από αυτές που μαθαίνουν από δεδομένα που χαρακτηρίζονται από μία ετικέτα. Αυτή η ενότητα παρουσιάζει τα διαφορετικά μέτρα που έχουν προταθεί στο παρελθόν για αξιολόγηση i) διαμερίσεων και ii) κατατάξεων σύμφωνα με τις πραγματικές τιμές (ground truth) των δεδομένων πολλαπλών ετικετών. Η ενότητα καταλήγει σε μία υποενότητα που περιλαμβάνει μέτρα τα οποία λαμβάνουν υπόψη τους μία υπάρχουσα ιεραρχία ετικετών. Για τους ορισμούς αυτών των μέτρων θα θεωρήσουμε ένα σύνολο δεδομένων αξιολόγησης από παραδείγματα πολλαπλών ετικετών (xi, Yi), i = 1...m και Yi L, όπου Yi το σύνολο των ετικετών που χαρακτηρίζουν το παράδειγμα xi και L = {λj: j = 1...q}, το πεπερασμένο σύνολο των ετικετών. Δοθέντος ενός παραδείγματος xi το σύνολο των ετικετών που προβλέπεται από μία MLC μέθοδο συμβολίζεται με Zi, ενώ η κατάταξη που προβλέπεται από μία LR μέθοδο για μία ετικέτα λ συμβολίζεται με ri(λ). Η πιο σχετική ετικέτα λαμβάνει την υψηλότερη κατάταξη (1), ενώ η λιγότερο σχετική λαμβάνει τη χαμηλότερη κατάταξη (q). 24

26 2.5.1 Διαμερίσεις Κάποια από τα μέτρα που αξιολογούν διαμερίσεις υπολογίζονται με βάση το μέσο όρο των διαφορών μεταξύ των πραγματικών και προβλεπόμενων συνόλων ετικετών πάνω στα παραδείγματα του συνόλου δεδομένων αξιολόγησης. Άλλα διαχωρίζουν τη διαδικασία αξιολόγησης σε ξεχωριστές αξιολογήσεις για την κάθε ετικέτα και στη συνέχεια υπολογίζουν το μέσο όρο όλων των ετικετών. Καλούμε τα πρώτα ως μέτρα αξιολόγησης που βασίζονται στα παραδείγματα (example-based) και τα τελευταία ως μέτρα αξιολόγησης που βασίζονται στις ετικέτες (label-based). Mέτρα Αξιολόγησης που Βασίζονται στα Παραδείγματα Η μετρική Hamming-Loss (Schapire και Singer, 2000) ορίζεται ως εξής: όπου το αντιπροσωπεύει τη συμμετρική διαφορά των δύο συνόλων, η οποία είναι ισοδύναμη της αποκλειστικής διάζευξης (λειτουργία XOR) σε Boolean λογική. Η Ακρίβεια ταξινόμησης (classification accuracy) (Zhu et al., 2005) ή ακρίβεια υποσυνόλου (subset accuracy) (Ghamrawi και McCallum, 2005) ορίζεται ως εξής: όπου I(true) = 1 και I(false) = 0. Αυτό είναι ένα πολύ αυστηρό μέτρο αξιολόγησης καθώς απαιτεί το προβλεπόμενο σύνολο ετικετών να συμπίπτει με το πραγματικό σύνολο των ετικετών. Τα παρακάτω μέτρα χρησιμοποιούνται στην εργασία (Godbole και Sarawagi, 2004): 25

27 Mέτρα Αξιολόγησης που Βασίζονται στις Ετικέτες Κάθε γνωστό μέτρο για δυαδική αξιολόγηση μπορεί να χρησιμοποιηθεί εδώ, όπως η ακρίβεια (accuracy), η περιοχή κάτω από την καμπύλη ROC, η μετρική precision και η ανάκληση (recall). Ο υπολογισμός αυτών των μέτρων για όλες τις ετικέτες μπορεί να επιτευχθεί χρησιμοποιώντας δύο είδη υπολογισμών του μέσου όρου, οι οποίοι λέγονται macro-averaging και micro-averaging (Yang, 1999). Αυτά τα είδη υπολογισμού, συνήθως, χρησιμοποιούνται για το μέσο όρο του precision, της ανάκλησης και του αρμονικού μέσου (F-measure) στις εργασίες της Ανάκτησης Πληροφορίας. Ας θεωρήσουμε ένα δυαδικό μέτρο αξιολόγησης Β(tp, tn, fp, fn) το οποίο υπολογίζεται με βάση τον αριθμό των αληθώς θετικών παραδειγμάτων (tp), των αληθώς αρνητικών (tn), των ψευδώς θετικών (fp) και των ψευδώς αρνητικών (fn). Συμβολίζουμε με tpλ, tnλ, fpλ, fnλ τον αριθμό των αληθώς θετικών παραδειγμάτων, των αληθώς αρνητικών, των ψευδώς θετικών και των ψευδώς αρνητικών μετά τη δυαδική αξιολόγηση μιας ετικέτας λ. Οι macroaveraged και micro-averaged τύποι του Β υπολογίζονται ως εξής: Σημειώνουμε ότι ο macro-averaging υπολογισμός έχει το ίδιο αποτέλεσμα με τον microaveraging για κάποια μέτρα αξιολόγησης, όπως η ακρίβεια (accuracy), ενώ διαφέρει σε κάποια άλλα όπως το precision, η ανάκληση και η περιοχή κάτω από την καμπύλη ROC. Επίσης, σημειώνουμε ότι ο μέσος όρος (micro/macro) της ακρίβειας και του μέτρου Hamming loss αθροίζουν στη μονάδα, καθώς το Hamming loss είναι στην πραγματικότητα το μέσο λάθος της δυαδικής ταξινόμησης. 26

28 2.5.2 Κατάταξη Το μέτρο αξιολόγησης One-Error αξιολογεί πόσες φορές η ετικέτα που βρίσκεται στην κορυφή της κατάταξης δεν ανήκει στο σύνολο των σχετικών ετικετών του παραδείγματος: όπου Το μέτρο αξιολόγησης Κάλυψη (Coverage) αξιολογεί πόσο, κατά μέσο όρο, χρειάζεται να κατέβουμε προς τα κάτω στην κατάταξη των ετικετών ώστε να καλύψουμε όλες τις σχετικές ετικέτες του παραδείγματος: Η μετρική Απώλεια Κατάταξης (Ranking loss) εκφράζει το πόσες φορές άσχετες ετικέτες κατατάσσονται υψηλότερα από τις σχετικές ετικέτες: όπου Ῡi είναι το συμπλήρωμα του συνόλου Υi με βάση το L. Τέλος, η μετρική Μέση Ακρίβεια (Αverage Precision) αξιολογεί το μέσο ποσοστό των ετικετών που κατατάσσονται πάνω από μία συγκεκριμένη ετικέτα λ Υi η οποία πραγματικά ανήκει στο Υi. 27

29 2.5.3 Ιεραρχία Η Ιεραρχική Απώλεια (Hierarchical loss) (Cesa-Bianchi et al., 2006) είναι ένας τροποποιημένος τύπος του Hamming loss που παίρνει υπόψη της μία υπάρχουσα ιεραρχική δομή των ετικετών. Εξετάζει τις προβλεπόμενες ετικέτες με έναν από πάνω προς τα κάτω τρόπο σύμφωνα με την ιεραρχία και όποτε η πρόβλεψη για μία ετικέτα είναι λάθος, το υποδέντρο που έχει ως ρίζα αυτό τον κόμβο δε λαμβάνεται υπόψη στον περαιτέρω υπολογισμό της απώλειας. Συμβολίζουμε με anc(λ) το σύνολο όλων των προγενέστερων κόμβων της λ. Η Ιεραρχική Απώλεια ορίζεται ως εξής: Άλλα μέτρα για ιεραρχική ταξινόμηση δεδομένων πολλαπλών ετικετών εξετάζονται στις εργασίες (Streich και Buhmann, 2008; Sun και Lim, 2001). 2.6 Λογισμικό για Εξόρυξη Δεδομένων Πολλαπλών Ετικετών Υπάρχει ένας αριθμός υλοποιήσεων συγκεκριμένων αλγορίθμων για εξόρυξη δεδομένων πολλαπλών ετικετών, οι περισσότεροι από τους αποίους έχουν συζητηθεί στην παράγραφο 2.3. Το BoosTexter σύστημα υλοποιεί προσεγγίσεις βασισμένες στην τεχνική του boosting (Schapire και Singer, 2000). Επίσης, υπάρχουν υλοποιήσεις σε Matlab για MLkNN και BPMLL. Υπάρχουν, επίσης, γενικότερου σκοπού λογισμικά που διαχειρίζονται δεδομένα πολλαπλών ετικετών ως μέρος της λειτουργικότητάς τους. Η LibSVM (Chang και Lin, 2001) είναι μία βιβλιοθήκη μηχανών διανυσμάτων υποστήριξης (SVMs) που χρησιμοποιούνται για μάθηση από δεδομένα πολλαπλών ετικετών με χρήση της μεθόδου μετασχηματισμού BR. Τέλος, η Mulan είναι ένα λογισμικό ανοιχτού κώδικα αφιερωμένο στην εξόρυξη δεδομένων πολλαπλών ετικετών. Περιλαμβάνει υλοποιήσεις ενός μεγάλου αριθμού αλγορίθμων μάθησης, βασικών δυνατοτήτων για μείωση διαστάσεων και ιεραρχικής ταξινόμησης δεδομένων πολλαπλών ετικετών και ένα εκτεταμένο πλαίσιο αξιολόγησης. 28

30 Κεφάλαιο 3 Η Συνεισφορά μας Σε αυτό το κεφάλαιο παρουσιάζεται η συνεισφορά της διπλωματικής εργασίας. Γίνεται μία εισαγωγή στη διαστρωματωμένη δειγματοληψία σε δεδομένα πολλαπλών ετικετών. Επίσης, παρουσιάζονται δύο βασικές τεχνικές διαστρωματωμένης δειγματοληψίας και η τροποποίησή τους ώστε να έχουν τη δυνατότητα να δημιουργούν υποσύνολα παραδειγμάτων άνισων ποσοστών. Στο τέλος του κεφαλαίου, αναλύεται η νέα μέθοδος που προτείνουμε. 3.1 Διαστρωματωμένη Δειγματοληψία σε Δεδομενα Πολλαπλών Ετικετών Σε δεδομένα πολλαπλών ετικετών, μπορούν να σχηματιστούν ομάδες με βάση τους διαφορετικούς συνδυασμούς των ετικετών (labelsets) που χαρακτηρίζουν τα παραδείγματα εκπαίδευσης. Το πλήθος των διαφορετικών συνδυασμών ετικετών ενός συνόλου δεδομένων πολλαπλών ετικετών με m παραδείγματα και q ετικέτες είναι άνω φραγμένο από το min(m, 2 q ). Συνήθως αυτό το φράγμα είναι ίσο με m, επειδή στις περισσότερες 29

31 εφαρμογές το q δεν είναι πολύ μικρό και αυτό έχει ως αποτέλεσμα το 2 q να είναι ένας πάρα πολύ μεγάλος αριθμός. Στον Πίνακα 3.1 φαίνεται ότι, σε μία ποικιλία συνόλων δεδομένων πολλαπλών ετικετών, ο αριθμός των διαφορετικών συνδυασμών ετικετών είναι συχνά αρκετά μεγάλος και μερικές φορές κοντά στον αριθμό των παραδειγμάτων του εκάστοτε συνόλου. Σε τέτοιες περιπτώσεις, αυτή η αυστηρή ερμηνεία της διαστρωματωμένης δειγματοληψίας σε δεδομένα πολλαπλών ετικετών είναι ασύμφορη για την εκτέλεση k-fold cross-validation (διασταυρωμένη επικύρωση σε k μέρη) ή holdout (με διαχωρισμό σε σύνολο εκπαίδευσης και ελέγχου) πειραμάτων, καθώς οι περισσότερες ομάδες (labelsets) θα αποτελούνταν από ένα μόνο παράδειγμα. Ο Πίνακας 3.1 είναι ταξινομημένος κατά αύξουσα σειρά της αναλογίας μεταξύ των διαφορετικών συνδυασμών ετικετών και του αριθμού των παραδειγμάτων και συνεπώς κατά φθίνουσα σειρά του μεσου όρου των παραδειγμάτων ανά διακριτό συνδυασμό ετικετών. Παρατηρούμε ότι στα τελευταία τρία σύνολα δεδομένων, ο μέσος όρος των παραδειγμάτων ανά διακριτό συνδυασμό ετικετών είναι 1 (με στρογγυλοποίηση). Θεωρούμε, επιπλέον, μία πιο χαλαρή έννοια της διαστρωματωμένης δειγματοληψίας από δεδομένα πολλαπλών ετικετών, με την οποία θέτουμε ως στόχο τη διατήρηση της κατανομής των θετικών και αρνητικών παραδειγμάτων για κάθε ετικέτα (Sechidis et al. 2011). Αυτή η ερμηνεία βλέπει κάθε ετικέτα ανεξάρτητα. Όμως, σημειώνουμε ότι δεν μπορούμε να εφαρμόσουμε διαστρωμάτωση (stratification) ανεξάρτητα σε κάθε ετικέτα, καθώς αυτό θα οδηγούσε σε διαφορετικά διακριτά υποσύνολα των δεδομένων για την κάθε ετικέτα. Τέτοια σύνολα δεδομένων είναι ακατάλληλα για την αξιολόγηση αλγορίθμων μάθησης για δεδομένα πολλαπλών ετικετών, με εξαίρεση την απλή προσέγγιση του binary relevance. Ακόμη και αυτή η προσέγγιση, ωστόσο, θα μπορούσε να αξιολογηθεί μόνο με τη χρήση μετρικών οι οποίες στηρίζονται σε ανεξάρτητους υπολογισμούς για την κάθε ετικέτα, όπως για παράδειγμα οι μετρικές: Hamming loss και macro-averaged precision, ανάκληση (recall) και F1. Η επίτευξη αυτού του είδους διαστρωμάτωσης κατά την εκτέλεση k-fold cross-validation και holdout πειραμάτων σε δεδομένα πολλαπλών ετικετών είναι εξαιρετικά σημαντική, επειδή οι περισσότερες ετικέτες σε τέτοιου είδους δεδομένα παρουσιάζουν δυσαναλογία κλάσεων (class imbalance) (He και Garcia, 2009; Chawla et al., 2004). Οι τελευταίες τρεις 30

32 στήλες του Πίνακα 3.1 δείχνουν τον ελάχιστο, το μέσο όρο και το μέγιστο αριθμό παραδειγμάτων ανά ετικέτα για κάθε σύνολο δεδομένων. Μας δίνουν, ουσιαστικά, μία εικόνα της ανισσοροπίας των αναλογιών αυτών που εντοπίστηκαν σε σύνολα δεδομένων πολλαπλών ετικέτων. dataset labels examples labelsets labelsets/ examples Examples per labelset Examples per label min avg max min avg max scene emotions tmc genbase yeast medical mediamill bibtex enron ImageClef corel5k ImageClef Πίνακας 3.1: Ένα πλήθος από διαφορετικά σύνολα δεδομένων πολλαπλών ετικετών και τα στατιστικά τους: αριθμός ετικετών, παραδειγμάτων, διαφορετικών συνδυασμών ετικετών (labelsets) και συνδυασμών ετικετών ανά παράδειγμα, μαζί με τον ελάχιστο, το μέσο όρο και το μέγιστο αριθμό παραδειγμάτων ανά συνδυασμό ετικετών και ανά ετικέτα. Επιπλέον, η επίτευξη αυτού του είδους διαστρωμάτωσης αναμένεται να είναι επωφελής σε δύο κατευθύνσεις. Πρώτον, με βάση προηγούμενες μελέτες σε δεδομένα που χαρακτηρίζονται από μία μόνο ετικέτα, αναμένεται να έχει καλύτερα αποτελέσματα από την τυχαία κατανομή σε ό,τι αφορά στην εκτίμηση της μεροληψίας (bias) και της διακύμανσης (variance). Δεύτερον, θα μείωνε την πιθανότητα παραγωγής υποσυνόλων με μηδενικά θετικά παραδείγματα για μία ή περισσότερες ετικέτες. Σε τέτοιου είδους υποσύνολα, προκύπτουν θέματα σχετικά με τον υπολογισμό ορισμένων μετρικών αξιολόγησης για δεδομένα πολλαπλών ετικετών που χρησιμοποιούνται ευρέως, όπως είναι οι macro- 31

33 averaged εκδόσεις της ανάκλησης (recall), της F1, της AUC (Area Under the receiver operating characteristic Curve) και του μέσου όρου ακρίβειας (average precision), μία δημοφιλής μετρική για πολυμεσική ανάκτηση πληροφορίας (Nowak et al., 2010). Θεωρείστε το παράδειγμα του πίνακα συνάφειας που απεικονίζεται στο Σχήμα 3.1, ο οποίος αφορά στις προβλέψεις για μία ετικέτα. Στην περίπτωση όπου το σύνολο ελέγχου δεν έχει κανένα θετικό παράδειγμα από αυτήν την ετικέτα, τότε το fn = tp = 0. Σχήμα 3.1: Πίνακας συνάφειας που αφορά στις προβλέψεις μίας ετικέτας Δοθέντος ότι η ανάκληση ορίζεται ως tp/(tp+fn), η τιμή της ανάκλησης για αυτήν την ετικέτα δεν ορίζεται (0/0). Αν το μοντέλο είναι σωστό και δεν προβλέπει αυτήν ετικέτα για κανένα από τα παραδείγματα του συνόλου ελέγχου, τότε το fp = 0, καθιστώντας την τιμή της ακρίβειας για αυτήν την ετικέτα τέτοια ώστε και πάλι να μην ορίζεται (0/0), αφού η ακρίβεια ορίζεται ως tp/(tp+fp). Το μέτρο F1 είναι ο αρμονικός μέσος της ακρίβειας και της ανάκλησης, το οποίο εξ ορισμού δεν ορίζεται όταν είτε η ακρίβεια είτε η ανάκληση δεν ορίζεται. Το AUC επίσης δεν ορίζεται επειδή εξαρτάται από την αναλογία των αληθώς θετικών παραδειγμάτων η οποία είναι ισοδύναμη με την ανάκληση. Η μέση ακρίβεια θεωρεί μία κατάταξη των θετικά προβλεπόμενων παραδειγμάτων μίας ετικέτας βασισμένη σε τιμές πιθανοτήτων. Είναι ο μέσος όρος των tp ακριβειών, που συμβολίζονται ως Precisioni, i = 1...tp, όπου Precisioni είναι η ακρίβεια που υπολογίζεται για τα προβλεπόμενα ως θετικά παραδείγματα καταταγμένα σε υψηλότερη ή ίση θέση με το i-στο αληθώς θετικό παράδειγμα σε αυτή την κατάταξη. Εφόσον tp = 0, η μέση ακρίβεια, επίσης, δεν ορίζεται. Οι macro-averaging μέσοι όροι παίρνουν το μέσο όρο των μετρικών για όλες τις ετικέτες. Αν μία μετρική δεν ορίζεται για μία ετικέτα, ο μέσος όρος της για όλες της ετικέτες, επίσης, δε θα ορίζεται. 32

34 3.2 Προηγούμενες Μέθοδοι Δειγματοληψίας Σε αυτήν την παράγραφο αναλύονται δύο μέθοδοι διαστρωματωμένης δειγματοληψίας, Label Powerset Stratification και Iterative Stratification, καθώς και οι αλλαγές που έγιναν σε αυτές ώστε να μπορούν να χειρίζονται τη δημιουργία υποσυνόλων που περιέχουν διαφορετικό ποσοστό παραδειγμάτων μεταξύ τους από ένα σύνολο δεδομένων Μέθοδος Label Powerset Σε αυτήν την παράγραφο παρουσιάζεται η αρχική μέθοδος Label Powerset η οποία παράγει υποσύνολα ενός συνόλου δεδομένων με το ίδιο ποσοστό παραδειγμάτων καθώς και η τροποποίησή της ώστε να παράγει υποσύνολα ενός συνόλου δεδομένων με διαφορετικό ποσοστό παραδειγμάτων το καθένα. Αρχική μέθοδος Label Powerset Stratification Η είσοδος του αλγορίθμου είναι ένα σύνολο δεδομένων πολλαπλών ετικετών, D, το οποίο χαρακτηρίζεται από ένα σύνολο ετικετών L = {λ1,..., λq} και ένα επιθυμητό πλήθος από υποσύνολα k, οπότε αυτόματα και το ποσοστό των παραδειγμάτων σε κάθε υποσύνολο θεωρείται ότι είναι ίσο με 1/k. Για παράδειγμα, εάν θα θέλαμε να χρησιμοποιήσουμε τον αλγόριθμο για να εκτελέσουμε 10-fold CV, τότε το k θα πρέπει να είναι 10 και το ποσοστό παραδειγμάτων ανά υποσύνολο είναι το 1/10. Αρχικά, το σύνολο δεδομένων πολλαπλών ετικετών μετατρέπεται σε σύνολο δεδομένων που χαρακτηρίζονται από μία μοναδική ετικέτα. Αυτό γίνεται ουσιαστικά θεωρώντας τον κάθε διαφορετικό συνδυασμό ετικετών που χαρακτηρίζουν τα παραδείγματα ως μία διαφορετική κλάση ενός πρόσθετου χαρακτηριστικού το οποίο παίζει το ρόλο της μοναδικής ετικέτας του συνόλου. Στη συνέχεια, γίνεται η κατανομή των παραδειγμάτων στα k υποσύνολα με τέτοιο τρόπο ώστε κάθε υποσύνολο να περιέχει ίδιο αριθμό παραδειγμάτων από τον κάθε συνδυασμό ετικετών. Επομένως, και ο συνολικός αριθμός των παραδειγμάτων σε κάθε υποσύνολο είναι ο ίδιος. Η ανάθεση των παραδειγμάτων στα 33

Δείτε περισσότερα