Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Ή Ε Ρ ΓΑ Σ Ί Α

Transcript

1 Α Ρ Ι Σ Τ Ο Τ Έ Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Ή Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ί Κ Η Σ ΣΧΟΛΉ ΘΕΤΙΚΏΝ ΕΠΙΣΤΗΜΏΝ ΤΜΉΜΑ ΠΛΗΡΟΦΟΡΙΚΉΣ Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Ή Ε Ρ ΓΑ Σ Ί Α «ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΔΕΔΟΜΕΝΩΝ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ» «ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ» ΕΠΙΒΛΈΠΩΝ ΚΑΘΗΓΗΤΉΣ: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ, ΚΑΘΗΓΗΤΗΣ ΘΕΣΣΑΛΟΝΊΚΗ 2010

2

3

4 ΠΕΡΙΛΗΨΗ Π ε ρ ί λ η ψ η Αντικείμενο της παρούσας εργασίας είναι η ανάπτυξη και πειραματική μελέτη αλγορίθμων ταξινόμησης δεδομένων πολλαπλών ετικετών, δηλαδή δεδομένων τα οποία ανήκουν ταυτόχρονα σε δυο ή και περισσότερες κατηγορίες ετικέτας. Στην παρούσα εργασία στόχος είναι ο εμπλουτισμός του λογισμικού MULAN (Multi-LAbel LearniNg). Αρχικά παρουσιάζεται η θεωρεία της μάθησης από δεδομένα πολλαπλών ετικετών και αναλύονται οι μέθοδοι μετασχηματισμού δεδομένων (Copy, Select, Ignore, LP, BR) και οι μέθοδοι προσαρμογής αλγορίθμων. Η εργασία επικεντρώνεται ειδικότερα στο θέμα της της ταξινόμησης δεδομένων πολλαπλών ετικετών, όταν οι ετικέτες ανήκουν σε μια ιεραρχική δομή. Αναλύονται τρεις αλγόριθμοι που παράγουν δέντρα απόφασης για να κατηγοριοποιήσουν, ο Clus-HMC, o Clus-SC και ο Clus-HSC. Ακολουθεί η πειραματική μελέτη του Clus-HMC εξετάζοντας την απόδοση πρόβλεψης του με διαφορετική παραμετροποίηση. Στην συνέχεια παρουσιάζονται κομμάτια του κώδικα υλοποίησης του αλγορίθμου αυτού, εξηγώντας τον τρόπο σκέψης που ακολουθήθηκε. IV ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

5 ABSTRACT A b s t r a c t The object of the current project was the development and experimental study of algorithms for the task of classification of multi-label data, which are the data that belong at the same time in two or more class labels. The main target of the project is the enrichment of MULAN software library (Multi-LAbel LearniNg). with methods of multi-label classification. Firstly, the project presenting the general idea of the task of classifying multi-label data, analyze the methods of dataset transformation from multi-label to single label (Copy, Select, Ignore, LP, BR) and the groups of adaptive algorithms. The project focus at the task of Hierarchical multi-label data classification. Represents the adaptation for HMC problems of three algorithms that produce decision trees, Clus-HMC, Clus-SC and Clus-HSC. It followed by the experimental study of Clus-HMC, and the examination of the predictive performance with different parameters values. At next there is a presentation of part of the developing code and the explanation of the way of thinking. The project concludes with results that showed in at the developing process. ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ V

6 ΕΥΧΑΡΙΣΤΙΕΣ Ε υ χ α ρ ι σ τ ί ε ς Πριν την παρουσίαση των αποτελεσμάτων της παρούσας εργασίας, αισθάνομαι την υποχρέωση να ευχαριστήσω ορισμένους από τους ανθρώπους που γνώρισα, συνεργάστηκα μαζί τους και έπαιξαν πολύ σημαντικό ρόλο στην πραγματοποίησή της. Αρχικά θα ήθελα να ευχαριστήσω τον επιβλέπων καθηγητή μου κ. Βλαχάβα Ιωάννη για την αρχική εμπιστοσύνη και ανάθεση της μεταπτυχιακής εργασίας και για την κατανόηση που έδειξε κατά τη διάρκεια ολοκλήρωσής της. Στην συνέχεια θα ήθελα να ευχαριστήσω ιδιαίτερα τον λέκτορα κ. Τσουμάκα Γρηγόριο, για την υπομονή που έδειξε, καθώς και για την καθοδήγηση και την οργάνωση της διπλωματικής εργασίας. Η συμβολή του ήταν πολύτιμη σε όλη την διάρκεια εκπόνησης της διπλωματικής εργασίας. Τέλος, θα ήθελα να ευχαριστήσω την οικογένεια και τους φίλους μου για την συμπαράσταση τους και κυρίως του γονείς μου Θεόδωρο και Ευθαλία για την ηθική και υλική υποστήριξή τους, < > Μπακιρτζόγλου Σταύρος VI ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

7 ΠΕΡΙΕΧΟΜΕΝΑ Π ε ρ ι ε χ ό μ ε ν α ΠΕΡΊΛΗΨΗ...IV ABSTRACT...V ΕΥΧΑΡΙΣΤΊΕΣ...VI ΠΕΡΙΕΧΌΜΕΝΑ...VII ΛΊΣΤΑ ΣΧΗΜΆΤΩΝ...X ΛΊΣΤΑ ΠΙΝΆΚΩΝ...XI ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΉ...13 ΚΕΦΑΛΑΙΟ 2:ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ ΚΑΤΗΓΟΡΙΟΠΟΊΗΣΗ ΔΕΔΟΜΈΝΩΝ ΚΑΤΗΓΟΡΙΟΠΟΊΗΣΗ ΕΤΙΚΕΤΏΝ ΜΈΘΟΔΟΙ ΕΚΠΑΊΔΕΥΣΗΣ Μέθοδοι Μετασχηματισμού Μέθοδοι Προσαρμογής Αλγορίθμων ΣΤΑΤΙΣΤΙΚΉ ΣΥΝΌΛΩΝ ΔΕΔΟΜΈΝΩΝ ΠΕ ΜΕΤΡΙΚΈΣ ΑΞΙΟΛΌΓΗΣΗΣ Μετρικές Διχοτόμησης Μετρικές Κατάταξης ΜΕΊΩΣΗ ΤΗΣ ΔΙΆΣΤΑΣΗΣ ΤΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΏΝ Επιλογή Χαρακτηριστικών Εξαγωγή Χαρακτηριστικών ΑΞΙΟΠΟΊΗΣΗ ΔΟΜΉΣ ΕΤΙΚΕΤΏΝ ΚΛΙΜΆΚΩΣΗ ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ VII

8 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ ΚΕΦΑΛΑΙΟ 3:ΚΑΤΗΓΟΡΙΟΠΟΊΗΣΗ ΙΕΡΑΡΧΙΚΏΝ ΔΕΔΟΜΈΝΩΝ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ ΟΡΙΣΜΌΣ ΜΈΘΟΔΟΙ ΧΕΙΡΙΣΜΟΎ ΔΕΝΤΡΆ ΑΠΌΦΑΣΗΣ ΓΙΑ HMC Ορισμός Προβλήματος Δέντρα Πρόβλεψης Ομαδοποίησης Αλγόριθμος Clus-HMC Αλγόριθμος Clus-SC Αλγόριθμος Clus-HSC Σύγκριση ΙΕΡΑΡΧΊΕΣ ΔΟΜΗΜΈΝΕΣ ΜΕ DAGS Προσαρμογή του Clus-HMC Προσαρμογή του Clus-HSC ΜΕΤΡΙΚΈΣ ΑΞΙΟΛΌΓΗΣΗΣ ΠΡΌΒΛΕΨΗΣ Ιεραρχική Απώλεια Καμπύλη Ακρίβειας-Επανάκλησης ΚΕΦΑΛΑΙΟ 4:ΕΡΓΑΛΕΊΑ WEKA Σύνολο Δεδομένων Αρχείο ARFF Κατηγοριοποιητής Φίλτρα WEKA API MULAN Μορφή Δεδομένων Εκπαιδευτές Πολλαπλών Ετικετών ΚΕΦΑΛΑΙΟ 5:ΠΕΙΡΑΜΑΤΙΚΈΣ ΜΕΤΡΉΣΕΙΣ ΠΑΡΆΜΕΤΡΟΣ W ΠΑΡΆΜΕΤΡΟΣ MINCASES ΠΑΡΆΜΕΤΡΟΣ THRESHOLD ΠΑΡΆΜΕΤΡΟΣ SIGNIFICANT LEVEL ΚΕΦΑΛΑΙΟ 6:ΑΝΆΛΥΣΗ ΚΏΔΙΚΑ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΊ MultiClass Μετασχηματισμοί Ειδικοί Μετασχηματισμοί ΑΛΓΌΡΙΘΜΌΣ CLUSHMC Υλοποίηση Δέντρου Απόφασης Υλοποίηση Αλγόριθμου Χρήσιμες Μέθοδοι ΚΕΦΑΛΑΙΟ 7:ΣΥΜΠΕΡΆΣΜΑΤΑ...85 VIII ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

9 ΠΕΡΙΕΧΟΜΕΝΑ 7.1ΠΕΠΡΑΧΘΈΝΤΑ - ΠΡΟΒΛΉΜΑΤΑ ΑΝΟΙΧΤΆ ΖΗΤΉΜΑΤΑ ΠΑΡΑΡΤΗΜΑ I:ΑΝΑΦΟΡΈΣ...90 ΠΑΡΑΡΤΗΜΑ II:ΑΚΡΏΝΥΜΑ...95 ΠΑΡΑΡΤΗΜΑ III:ΓΛΩΣΣΆΡΙΟ...97 ΠΑΡΑΡΤΗΜΑ IV:ΕΥΡΕΤΉΡΙΟ...99 ΠΑΡΑΡΤΗΜΑ V:ΚΏΔΙΚΑΣ ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ IX

10 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ Λ ί σ τ α Σ χ η μ ά τ ω ν ΕΙΚΌΝΑ 1: (Α) ΜΙΑ ΜΙΚΡΉ ΙΕΡΑΡΧΊΑ. ΤΑ ΟΝΌΜΑΤΑ ΤΩΝ ΚΛΆΣΕΩΝ ΤΩΝ ΕΤΙΚΕΤΏΝ ΑΠΕΙΚΟΝΊΖΟΥΝ ΤΗΝ ΘΈΣΗ ΤΟΥΣ ΣΤΗΝ ΙΕΡΑΡΧΊΑ. (Β) ΤΟ ΣΎΝΟΛΟ ΤΩΝ ΚΛΆΣΕΩΝ {1, 2, 2.2}, ΥΠΟΔΗΛΏΝΕΤΕ ΑΠΌ ΤΟ ΈΝΤΟΝΟ ΓΡΆΦΗΜΑ ΣΤΗΝ ΙΕΡΑΡΧΊΑ ΣΑΝ ΔΙΆΝΥΣΜΑ...43 ΕΙΚΌΝΑ 2:(Α) HMC: ΈΝΑ ΔΈΝΤΡΟ ΠΟΥ ΠΡΟΒΛΈΠΕΙ ΣΕ ΚΆΘΕ ΦΎΛΛΟ ΤΗΝ ΠΙΘΑΝΌΤΗΤΑ ΓΙΑ ΚΆΘΕ ΚΛΆΣΗ ΣΤΗΝ ΙΕΡΑΡΧΊΑ. (Β) SC: ΈΝΑ ΞΕΧΩΡΙΣΤΌ ΔΈΝΤΡΟ ΓΙΑ ΚΆΘΕ ΚΛΆΣΗ. (Γ) HSC: ΈΝΑ ΞΕΧΩΡΙΣΤΌ ΔΈΝΤΡΟ ΓΙΑ ΚΆΘΕ ΆΚΡΗ ΤΗΣ ΙΕΡΑΡΧΊΑΣ. ΣΤΟ ΑΡΙΣΤΕΡΌ ΜΈΡΟΣ ΦΑΊΝΕΤΑΙ ΠΩΣ ΤΑ ΔΈΝΤΡΑ ΟΡΓΑΝΏΝΟΝΤΑΙ ΣΤΗΝ ΙΕΡΑΡΧΊΑ ΤΩΝ ΚΛΆΣΕΩΝ. ΣΤΟ ΔΕΞΙΌ ΜΈΡΟΣ ΠΑΡΟΥΣΙΆΖΟΝΤΑΙ ΤΑ ΦΎΛΛΑ T(2.1 2) ΚΑΙ Τ(2.2 2) ΠΟΥ ΠΡΟΒΛΈΠΟΥΝ ΤΟΥΣ ΌΡΟΥΣ ΠΙΘΑΝΟΤΉΤΩΝ, ΚΑΙ ΤΑ ΔΈΝΤΡΑ Τ(1), Τ(2) ΚΑΙ Τ(3) ΕΊΝΑΙ ΌΜΟΙΑ ΜΕ ΑΥΤΆ ΤΟΥ SC ΕΙΚΌΝΑ 3: (Α)ΜΙΑ ΙΕΡΑΡΧΊΑ ΚΛΆΣΕΩΝ ΌΠΩΣ ΣΧΗΜΑΤΊΖΕΤΑΙ ΣΑΝ ΓΡΆΦΗΜΑ DAG. ΤΑ ΣΧΕΤΙΚΆ ΜΕ ΤΗΝ ΚΛΆΣΗ ΒΆΡΗ ΣΗΜΕΙΏΝΟΝΤΑΙ ΚΆΤΩ ΑΠΌ ΤΗΝ ΚΛΆΣΗ ΚΑΙ ΥΠΟΛΟΓΊΖΟΝΤΑΙ ΓΙΑ ΤΟΝ CLUS-HMC ΜΕ ΤΗΝ ΑΘΡΟΙΣΤΙΚΉ ΣΥΝΆΡΤΗΣΗ ΚΑΙ ΓΙΑ. (Β) ΤΑ ΔΈΝΤΡΑ ΣΧΗΜΑΤΊΖΟΝΤΑΙ ΜΕ ΤΟΝ ΑΛΓΌΡΙΘΜΟ CLUS-HSC. ΑΝ ΥΠΟΤΕΘΕΊ ΌΤΙ ΤΑ ΔΈΝΤΡΑ ΠΡΟΒΛΈΠΟΥΝ, ΓΙΑ ΚΆΘΕ ΔΕΔΟΜΈΝΟ ΣΤΙΓΜΙΌΤΥΠΟ ΕΛΈΓΧΟΥ, ΟΙ ΌΡΟΙ ΤΩΝ ΠΙΘΑΝΟΤΉΤΩΝ ΣΗΜΕΙΏΝΟΝΤΑΙ ΚΆΤΩ ΑΠΌ ΚΆΘΕ ΔΈΝΤΡΟ. Ο ΑΛΓΌΡΙΘΜΟΣ ΠΡΟΒΛΈΠΕΙ ΤΗΝ ΠΙΘΑΝΌΤΗΤΑ ΜΙΑ ΔΟΘΕΊΣΑΣ ΚΛΆΣΗΣ C ΜΕ ΣΥΝΔΥΑΣΤΙΚΌ ΚΑΝΌΝΑ...49 X ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

11 ΛΙΣΤΑ ΠΙΝΑΚΩΝ Λ ί σ τ α Π ι ν ά κ ω ν ΠΊΝΑΚΑΣ 1: ΠΑΡΆΔΕΙΓΜΑ ΔΕΔΟΜΈΝΩΝ ΠΟΛΛΑΠΛΉΣ ΕΤΙΚΈΤΑΣ...21 ΠΊΝΑΚΑΣ 2: ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΊ ΤΩΝ ΔΕΔΟΜΈΝΩΝ ΤΟΥ ΠΊΝΑΚΑ 1 ΧΡΗΣΙΜΟΠΟΙΏΝΤΑΣ (Α)ΑΝΤΙΓΡΑΦΉ, (Β)ΑΝΤΙΓΡΑΦΉ-ΒΆΡΟΣ, (Γ)ΕΠΙΛΟΓΉ ΜΈΓΙΣΤΟΥ, (Δ) ΕΠΙΛΟΓΉ ΕΛΆΧΙΣΤΟΥ, (Ε) ΕΠΙΛΟΓΉ ΤΥΧΑΊΟΥ, (ΣΤ) ΠΑΡΆΒΛΕΨΗ...23 ΠΊΝΑΚΑΣ 3: ΜΕΤΑΣΧΗΜΑΤΙΣΜΌΣ ΤΩΝ ΔΕΔΟΜΈΝΩΝ ΤΟΥ ΠΊΝΑΚΑ 1 ΧΡΗΣΙΜΟΠΟΙΏΝΤΑΣ ΤΗΝ ΜΈΘΟΔΟ ΤΟΥ ΔΥΝΑΜΟΣΎΝΟΛΟΥ (Α) ΚΑΙ ΠΑΡΆΔΕΙΓΜΑ ΕΞΑΓΩΓΉ ΚΑΤΆΤΑΞΗΣ ΜΕ LP...24 ΠΊΝΑΚΑΣ 4: ΤΑ ΣΎΝΟΛΑ ΔΕΔΟΜΈΝΩΝ ΠΟΥ ΣΧΗΜΑΤΊΖΟΝΤΑΙ ΜΕ ΤΗΝ ΜΈΘΟΔΟ BR...24 ΠΊΝΑΚΑΣ 5: ΤΑ ΣΎΝΟΛΑ ΔΕΔΟΜΈΝΩΝ ΠΟΥ ΣΧΗΜΑΤΊΖΟΝΤΑΙ ΜΕ ΤΗΝ ΜΈΘΟΔΟ RPC...25 ΠΊΝΑΚΑΣ 6: Ο ΑΛΓΌΡΙΘΜΟΣ ΕΠΑΓΩΓΉΣ ΑΠΌ ΠΆΝΩ ΠΡΟΣ ΤΑ ΚΆΤΩ ΓΙΑ ΤΑ ΔΈΝΤΡΑ PCT ΌΠΟΥ I ΤΑ ΣΤΙΓΜΙΌΤΥΠΑ ΕΚΠΑΊΔΕΥΣΗΣ, T ΤΟ ΧΑΡΑΚΤΗΡΙΣΤΙΚΌ ΕΛΈΓΧΟΥ, P Ο ΧΏΡΟΣ ΠΟΥ ΕΠΆΓΕΤΑΙ ΑΠΌ ΤΟ T ΓΙΑ ΤΟ I ΚΑΙ H Η ΕΥΡΙΣΤΙΚΉ ΤΙΜΉ ΤΟΥ T. Ο ΕΚΘΈΤΗΣ * ΑΦΟΡΆ ΤΙΣ ΤΡΈΧΟΝΤΕΣ ΤΙΜΈΣ ΤΩΝ ΜΕΤΑΒΛΗΤΏΝ. ΟΙ ΣΥΝΑΡΤΉΣΕΙΣ...40 ΠΊΝΑΚΑΣ 7: ΠΑΡΆΔΕΙΓΜΑ ΑΡΧΕΊΟΥ ARFF ΣΤΟ WEKA...57 ΠΊΝΑΚΑΣ 8 (Α) ΔΉΛΩΣΗ ΕΤΙΚΕΤΏΝ ΣΤΟ ΑΡΧΕΊΟ ARFF, (Β) ΔΉΛΩΣΗ ΕΤΙΚΕΤΏΝ ΣΤΟ ΑΡΧΕΊΟ XML, (Γ) ΔΉΛΩΣΗ ΙΕΡΑΡΧΙΚΏΝ ΣΧΈΣΕΩΝ ΜΕΤΑΞΎ ΕΤΙΚΕΤΏΝ ΣΤΟ ΑΡΧΕΊΟ XML...60 ΠΊΝΑΚΑΣ 9 : ΜΕΤΡΉΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΡΆΜΕΤΡΟ W ΠΊΝΑΚΑΣ 10 : ΜΕΤΡΉΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΡΆΜΕΤΡΟ MINCASES...66 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ XI

12 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ ΠΊΝΑΚΑΣ 11 : ΜΕΤΡΉΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΡΆΜΕΤΡΟ THRESHOLD...68 ΠΊΝΑΚΑΣ 12 : ΜΕΤΡΉΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΡΆΜΕΤΡΟ SIGNIFICANT LEVEL...69 XII ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

13 Κ Ε Φ Α Λ Α Ι Ο 1 : Ε ι σ α γ ω γ ή

14 ΜΠΑΚΙΡΤΖΌΓΛΟΥ ΣΤΑΥΡΟΣ ΕΙΣΑΓΩΓΉ Είναι γενικότερα αποδεκτό, ότι η σημερινή εποχή χαρακτηρίζεται από την εισβολή μεγάλου όγκου πληροφοριών σε όλους του τομείς της ζωής και σε κάθε δραστηριότητα του ανθρώπου. Φυσιολογικά λοιπόν, η γνώση και η κατοχή μιας πληροφορίας μπορεί να είναι σημαντικό πλεονέκτημα για οποιονδήποτε. Πλέον με την άνθιση του διαδικτύου, είναι προσβάσιμη στον καθένα, σχεδόν κάθε πληροφορία που μπορεί να υπάρχει για κάποιο συγκεκριμένο θέμα. Το ζητούμενο είναι, το πόσο σύντομα χρονικά μπορεί κάποιος να ανακτήσει την πληροφορία που τον ενδιαφέρει, αλλά και το πως θα ερμηνεύσει το περιεχόμενο της, καθώς το μεγαλύτερο μέρος της δεν είναι ταξινομημένο και πολλές φορές η πληροφορία από μόνη της δεν σημαίνει κάτι απτό. Στους διάφορους servers στο διαδίκτυο, άλλα και στον κάθε προσωπικό υπολογιστή, αποθηκεύονται μεγάλα μεγέθη πληροφορίας, που μπορούν να είναι άρθρα, ιστολόγια, φωτογραφίες και εικόνες, μουσικά κομμάτια ή αρχεία βίντεο. Αυτά μπορούν να περιέχουν γνώση για κάθε τομέα ανθρώπινης ενασχόλησης ανήκοντας ταυτόχρονα σε μία ή και περισσότερες θεματικές ενότητες. Επιπλέον κάθε αντικείμενο μπορεί να εμπεριέχει περισσότερη πληροφορία από ότι αρχικά είναι εμφανής. Όλα αυτά τα αντικείμενα-πληροφορίες είναι προσβάσιμα από κάθε εξουσιοδοτημένο χρήστη, αλλά αυτό από μόνο του δεν εξασφαλίζει ότι θα βρεθεί η πληροφορία που χρειάζεται κάποιος εκτελώντας κάποια διαδικασία αναζήτησης. Ο όγκος είναι τέτοιος, ώστε δημιουργήθηκε η ανάγκη όλα αυτά τα δεδομένα να ταξινομηθούν σε κατηγορίες ή να δημιουργηθούν τρόποι ταξινόμησης νέων περιπτώσεων. Η κατηγοριοποίηση δεδομένων εξελίχθηκε ταυτόχρονα με την χρήση των υπολογιστών και βοήθησε σημαντικά πολλούς επιστημονικούς κλάδους, όπως για παράδειγμα την εφαρμοσμένη γενετική στην καταγραφή του ανθρώπινου γονιδιώματος. Εφαρμογές κατηγοριοποίησης έκαναν την εμφάνιση τους στο διαδίκτυο, με την χρήση αρχικά θεματικών καταλόγων ταξινομώντας ιστοσελίδες σε στατικές κατηγορίες και στην συνέχεια με πιο σύνθετες μηχανές αναζήτησης, όπου στον πυρήνα τους η ταξινόμηση γίνεται με πολύπλοκους αλγόριθμους. Σήμερα η κατηγοριοποίηση των δεδομένων είναι ένα πρόβλημα που ακόμη απασχολεί και παρουσιάζει μεγάλο ενδιαφέρον αποτελώντας εργαλείο για την εξόρυξη δεδομένων 14 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

15 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ και την ανάκτηση πληροφορίας στα πλαίσια της μηχανικής μάθησης. Ένα δημοφιλής τρόπος ταξινόμησης, είναι ο καθορισμός μιας ετικέτας (Label) που υποδηλώνει την κατηγορία όπου ανήκει ένα αντικείμενο. Η ετικέτα αυτή, επισυνάπτεται στο αντικείμενο, κάνοντας ευκολότερη την ταξινόμηση και την αναζήτηση του. Η πληροφορία αυτή μπορεί να χρησιμοποιηθεί σε μεθόδους εφαρμογής μηχανικής μάθησης, για να γίνει η πρόβλεψη της κατηγορίας για ένα νέο άγνωστο σχετικό αντικείμενο. Γενικότερα η ταξινόμηση με ετικέτες χωρίζεται σε δύο κατηγορίες, την ταξινόμηση με μοναδική ετικέτα (single-label classification) και την ταξινόμηση με πολλαπλές ετικέτες (multi-label classification) Αντικείμενο της παρούσας εργασίας είναι η ανάπτυξη αλγορίθμων για την διαχείριση προβλημάτων ταξινόμησης δεδομένων πολλαπλής ετικέτας. Συγκεκριμένα στα πλαίσια της εργασίας επεκτάθηκε η βιβλιοθήκη του λογισμικού MULAN, με μεθόδους μετασχηματισμού δεδομένων και την υλοποίηση ενός αλγορίθμου που βασίζεται στην δομή ενός δέντρου απόφασης, από την υπάρχουσα βιβλιογραφία. Η εργασία δομείται σε κεφάλαια ως εξής: Στο Κεφάλαιο 2 αρχικά γίνεται μια γενική ανάλυση του τι ακριβώς είναι η κατηγοριοποίηση δεδομένων πολλαπλών ετικετών. Δίνεται ο ορισμός και αναφέρονται οι περιπτώσεις προβλημάτων συμπεριλαμβάνει. Στην συνέχεια παρουσιάζονται οι μέθοδοι μετασχηματισμού δεδομένων από πολλαπλές σε απλή ετικέτα καθώς και οι προσαρμοσμένοι αλγόριθμοι που μπορούν να επεξεργαστούν άμεσα δεδομένα τέτοιας μορφής. Έπειτα περιγράφονται οι μετρικές που εφαρμόζονται για να γίνει ο έλεγχος απόδοσης της πρόβλεψης των μεθόδων και το κεφάλαιο ολοκληρώνεται με μια αναφορά στα προβλήματα που μπορούν να παρουσιαστούν σε τέτοιου είδους εργασίες κατηγοριοποίησης. Στο Κεφάλαιο 3 αναλύεται ένα πιο ειδικό κομμάτι, η κατηγοριοποίηση ιεραρχικών δεδομένων πολλαπλών ετικετών. Ορίζονται η δομή της ιεραρχίας ανάμεσα στις ετικέτες και το αντίστοιχο πρόβλημα ταξινόμησης. Στη συνέχεια περιγράφονται τρεις αλγόριθμοι που στηρίζονται στα δέντρα απόφασης, προσαρμοσμένοι έτσι ώστε να χειριστούν δεδομένα με ετικέτες που συσχετίζονται μεταξύ τους με ιεραρχική δομή. Μετά τη σύγκριση των αλγορίθμων, ακολουθεί η περιγραφή της τροποποίησης του καθένα, έτσι ώστε να μπορούν να χρησιμοποιηθούν σε προβλήματα που περιγράφονται από γραφήματα DAG. Στο τέλος του κεφαλαίου ορίζονται οι μετρικές ελέγχου απόδοσης των αλγορίθμων. ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 15

16 ΜΠΑΚΙΡΤΖΌΓΛΟΥ ΣΤΑΥΡΟΣ Στο Κεφάλαιο 4 γίνεται μια σύντομη αναφορά στα εργαλεία που χρειάστηκαν και χρησιμοποιήθηκαν για την περάτωση της εργασίας. Πρώτα αναφέρεται το λογισμικό εφαρμογής αλγόριθμων Μηχανικής Μάθησης WEKA. Αναλύεται σύντομα η δομή των συνόλων δεδομένων που χρησιμοποιεί, κάποιες βασικές έννοιες για το API της εφαρμογής. Στο τέλος αναφέρεται η βιβλιοθήκη λογισμικού WEKA, αναλύοντας κυρίως την τροποποίηση της δομής που χρειάζεται να έχουν τα δεδομένα, έτσι ώστε να μπορεί η εφαρμογή να τα επεξεργαστεί. Στο Κεφάλαιο 5 γίνεται μια πειραματική μελέτη του αλγόριθμου Clus-HMC που υλοποιήθηκε στα πλαίσια της εργασίας για το σύνολο δεδομένο PhenoFun. Παρουσιάζονται πίνακες με τα αποτελέσματα των τιμών που δείχνουν οι μετρικές του MULAN, έτσι όπως προκύπτουν για διάφορες τιμές των παραμέτρων του αλγόριθμου. Στο Κεφάλαιο 6 αναλύονται εκτενώς σημαντικά κομμάτια του κώδικα υλοποίησης που κρίνεται ότι χρειάζονται ιδιαίτερη επεξήγηση. Σε πρώτο επίπεδο παρουσιάζεται ο κώδικας των μεθόδων μετασχηματισμού και σε δεύτερο επίπεδο ο κώδικας της υλοποίησης του αλγόριθμοι ClusHMC. Στο Κεφάλαιο 7 γίνεται αρχικά μια κριτική αναφορά στα πεπραχθέντα της εργασίας, συνοψίζονται τα συμπεράσματα της, αναλύονται τα προβλήματα που προέκυψαν και προτείνονται ζητήματα που μπορούν να αναπτυχθούν μελλοντικά. Στο Παράρτημα I παρουσιάζονται αλφαβητικά η βιβλιογραφία και οι δικτυακοί τόποι που αναφέρονται στην εργασία. Στο Παράρτημα IΙ παρουσιάζονται τα ακρωνύμια τα οποία χρησιμοποιούνται σε αυτή την εργασία για την διευκόλυνση του αναγνώστη. Στο Παράρτημα IIΙ παρουσιάζεται το γλωσσάριο ξενικών όρων οι οποίοι χρησιμοποιούνται σε αυτή την εργασία για την διευκόλυνση του αναγνώστη. Στο Παράρτημα IV παρουσιάζεται το ευρετήριο των όρων οι οποίοι χρησιμοποιούνται σε αυτή την εργασία για την διευκόλυνση του αναγνώστη. Στο Παράρτημα V παρουσιάζεται συνολικά ο κώδικα που γράφτηκε στα πλαίσια της εργασίας. 16 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

17 Κ Ε Φ Α Λ Α Ι Ο 2 : Μ ά θ η σ η Α π ό Δ ε δ ο μ έ ν α Π ο λ λ α π λ ώ ν Ε τ ι κ ε τ ώ ν

18 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ ΜΑΘΗΣΗ ΑΠΟ ΔΕΔΟΜΕΝΑ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ 2.1 Κατηγοριοποίηση Δεδομέ νων Η εργασία της κατηγοριοποίησης βασίζεται στην εξέταση των χαρακτηριστικών ενός αντικειμένου, το όποιο με βάση τις τιμές και των συνδυασμό τους για τα χαρακτηριστικά αυτά, αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κατηγοριών (κλάσεων) και από το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου, το οποίο αποτελείται από παραδείγματα που έχουν ήδη συνδεθεί με κάποια κατηγορία. Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο το οποίο μπορεί να εφαρμοστεί για να αντιστοιχιστούν δεδομένα που δεν έχουν ακόμα κατηγοριοποιηθεί. Υπάρχουν διάφορες μέθοδοι και διαφορετικοί τύποι δεδομένων, όπου για να γίνει η ταξινόμηση ακολουθείται το ίδιο πλάνο. Στα κλασικά προβλήματα αναγνώρισης προτύπων, οι κλάσεις είναι εξ ορισμού αμοιβαία αποκλειστικές για κάθε αντικείμενο. Πρακτικά αυτό σημαίνει ότι κάθε αντικείμενο μπορεί να ανήκει σε μία μόνο από τις πολλές κλάσεις. Τα προβλήματα αυτά ονομάζονται πολλαπλής τάξης (multi-class). Υπάρχουν όμως περιπτώσεις εφαρμογών όπου ένα αντικείμενο μπορεί να ανήκει ταυτόχρονα σε διαφορετικές κλάσεις. Ειδικότερα, το πεδίο ορισμού κάθε κλάσης μπορεί να επικαλύπτει το πεδίο ορισμού κάποιας άλλης, σχετίζοντας ένα αντικείμενο με πολλές κλάσης. Τέτοιους είδους προβλήματα ονομάζονται πολλαπλών ετικετών (multi-label). Συγκεκριμένα ένα πρόβλημα κατηγοριοποίησης αποτελείται από ένα σύνολο παραδειγμάτων για εκπαίδευση, της μορφής x i, f x i, όπου χρησιμοποιούνται με στόχο την απόκτηση γνώσης για την δημιουργία μιας προσεγγιστικής συνάρτησης f x. Στην κατηγοριοποίηση πολλαπλών ετικετών, η προσεγγιστική συνάρτηση f x μπορεί να πάρει αρκετές τιμές από το σύνολο των ετικετών της κλάσης. Η βασική κλάση δεν είναι αμοιβαία αποκλειστική για κάθε αντικείμενο και μπορεί να επικαλύπτει εξ ορισμού άλλες κλάσης. Το πρόβλημα τυποποιείται, χαρακτηρίζοντας ως X το σύνολο των παραδειγμάτων εκπαίδευσης, ως ={1,..., k} το σύνολο των ετικετών της κλάσης, δεδομένου ενός συνόλου παραδειγμάτων εκπαίδευσης της μορφής x i,y i, x i X, Y i 2, έχοντας σαν στόχο την εκπαίδευση μιας προσεγγιστικής συνάρτησης f x, η οποία παίρνει μοναδικές τιμές από το 2 18 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

19 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ παρουσιάζοντας μικρό σφάλμα. Ο ορισμός τους σφάλματος στην περίπτωση προβλημάτων πολλαπλής ετικέτας, είναι δύσκολος εξ αιτίας των διαφορετικών λογικών ερμηνειών. Στις περισσότερες περιπτώσεις η προσέγγιση πολλαπλής ετικέτας επιφέρει μια ταξινόμηση των πιθανών ετικετών για ένα στιγμιότυπο (instance) του αντικειμένου και γι αυτό το λόγο ο αλγόριθμος εκπαίδευσης μπορεί να θεωρηθεί ως f : X R. Με αυτό τον τρόπο οι ετικέτες μπορούν να καταταχθούν με την συνάρτηση f x,.. Τυπικά μπορεί να οριστεί μια συνάρτηση κατάταξης μιας ετικέτας l ενός στιγμιότυπου x υπό μια συνάρτηση f ως rank f x,l. Η συνάρτηση rank είναι ένα προς ένα απεικόνιση στο {1,...,k }, όπου ισχύει αν f x,l 1 f x, l 2 τότε rank f x,l 1 rank f x,l 2.[3] 2.2 Κατηγοριοποίηση Ετικετών Ένα μεγάλο κομμάτι επιστημονικής έρευνας γύρω από την μάθηση με επίβλεψη (supervised learning) ασχολείται με δεδομένα μοναδικής ετικέτας. Η κατηγοριοποίηση με μοναδική ετικέτα, παραδοσιακά προσδιορίζει ένα αντικείμενο ακριβώς σε μία κλάση από τις δύο (2) ή περισσότερες πιθανές. Συγκεκριμένα singlelabel classification θεωρείται η διαδικασία μάθησης, όπου ένα σύνολο παραδειγμάτων συσχετίζει αντίστοιχα κάθε παράδειγμα του με μία μοναδική ετικέτα l, που ανήκει σε ένα σύνολο διάσπαρτων ετικετών L, όπου L 1. Αν το L =2 τότε το πρόβλημα μάθησης ονομάζεται δυαδικό (binary) πρόβλημα κατηγοριοποίησης ή φιλτράρισμα (filtering) σε περιπτώσεις δεδομένων κειμένου ή διαδικτύου, ενώ αν το L 2 τότε έχουμε να κάνουμε με πρόβλημα κατηγοριοποίησης πολλαπλών ετικετών. Κατά την κατηγοριοποίηση πολλαπλών ετικετών (multi-label classification), τα παραδείγματα συσχετίζονται αντίστοιχα με ένα σύνολο από ετικέτες Υ που είναι υποσύνολο των ετικετών L ώστε να ισχύει Υ L. Η κατηγοριοποίηση πολλαπλών ετικετών, ξεκίνησε να έχει εφαρμογή σε προβλήματα ταξινόμησης δεδομένων κειμένων αλλά και ιατρικών διαγνώσεων. Για παράδειγμα, ένα άρθρο μιας εφημερίδας μπορεί να αφορά ταυτόχρονα διαφορετικές κατηγορίες ειδήσεων, ενώ αντίστοιχα, η διάγνωση ενός ασθενή μπορεί να δείχνει ότι πάσχει από περισσότερες από μια παθήσεις. Σήμερα η εφαρμογή των μεθόδων κατηγοριοποίησης πολλαπλών ετικετών βρίσκει εφαρμογή στην βιολογία, στην γενετική, στην μουσική, στην ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 19

20 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ σημασιολογική ταυτοποίηση εικόνων και βίντεο καθώς και σε κατευθυνόμενο μάρκετινγκ [1][2]. Υπάρχουν πιο εξειδικευμένα προβλήματα ταξινόμησης, όπου κάθε κλάσηκατηγορία που αντιπροσωπεύεται από μια ετικέτα, μπορεί να χωρίζεται σε μία ή περισσότερες πιο συγκεκριμένες υποκατηγορίες και αυτές με την σειρά τους το ίδιο. Οι κλάσεις με αυτό τον τρόπο συσχετίζονται μεταξύ τους σε μια ιεραρχική δομή που έχει συγκεκριμένο αριθμό επιπέδων. Όταν οι ετικέτες ανήκουν σε δεδομένα που κατηγοριοποιούνται με ιεραρχική δομή τότε το πρόβλημα ονομάζεται ιεραρχική ταξινόμηση (Hierarchical Classification). Αν κάθε παράδειγμα καθορίζεται από περισσότερες ετικέτες που ανήκουν σε διαφορετικούς κόμβους της ιεραρχικής δομής, τότε το πρόβλημα ονομάζεται ιεραρχική ταξινόμηση πολλαπλών ετικετών (hierarchical multi-label classification) [1]. 2.3 Μέθοδοι Εκπαίδευσης Υπάρχουν δύο κύριες κατηγορίες εργασιών στην μάθηση με επίβλεψη από δεδομένα πολλαπλών ετικετών, η κατηγοριοποίηση (multi-label classification-mlc) και ή κατάταξη (label ranking-lr). Η κατηγοριοποίηση εμπλέκεται με την εκπαίδευση ενός μοντέλου που παράγει την διχοτόμηση ενός συνόλου ετικετών, σε σχετικές και άσχετες, ανάλογα με το αν είναι θετικές η αρνητικές σε ένα αντικείμενο που τίθεται ως ερώτημα πρόβλεψης. Η κατάταξη εμπλέκεται με ένα μοντέλο εκπαίδευσης που παράγει μια ταξινόμηση των ετικετών κάθε κλάσης., σύμφωνα με το συσχετισμός τους με το αντικείμενο ερώτησης. Τα μοντέλα κατάταξης, μπορούν να εκπαιδευτούν από δεδομένα που περιέχουν σύνολα μονής ετικέτας, σύνολα κατάταξης, καθώς και ζεύγη προτιμήσεων πάνω στο σύνολο των ετικετών. Οι παραπάνω κατηγορίες είναι ιδιαίτερα χρήσιμες στην εξόρυξη δεδομένων πολλαπλής ετικέτας. Η εξέλιξη τους έχει δώσει μεθόδους όπου λειτουργούν συνδυαστικά, αξιοποιώντας ταυτόχρονα την ταξινόμηση και την διχοτόμηση ενός συνόλου ετικετών από δεδομένα πολλαπλών ετικετών. Αυτή η κατηγορία εργασιών, ονομάζεται κατάταξη πολλαπλών ετικετών (multi-label ranking-mlr)[5]. Οι μέθοδοι που χρησιμοποιούνται από τις παραπάνω εργασίες για την επίλυση προβλημάτων πολλαπλής ετικέτας, χωρίζονται σε δύο κύριες κατηγορίες: α) Στις μεθόδους προβλημάτων μετασχηματισμού (problem transformation methods) 20 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

21 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ β) Στις μεθόδους προσαρμογής αλγορίθμων (algorithm adaptation methods). Στην πρώτη κατηγορία περιλαμβάνονται οι μέθοδοι που είναι ανεξάρτητες από τον αλγόριθμο που θα χρησιμοποιηθεί. Μετασχηματίζουν το πρόβλημα εκπαίδευσης, από κατηγοριοποίησης πολλαπλής ετικέτας σε ένα ή περισσότερα προβλήματα κατηγοριοποίησης μονής ετικέτας ή παλινδρόμησης (regression), όπου για τέτοιου τύπου προβλήματα υπάρχει μεγάλος αριθμός αλγόριθμων μάθησης. Η δεύτερη κατηγορία περιλαμβάνει μεθόδους που χρησιμοποιούν συγκεκριμένους αλγόριθμους μάθησης, προσαρμόζοντας και επεκτείνοντας τους, ώστε να μπορούν να χειριστούν άμεσα δεδομένα πολλαπλής ετικέτας. Για την συμβατική περιγραφή των μεθόδων, θα χρησιμοποιηθεί το L={λ j : j=1 M } για να δηλώσει ένα πεπερασμένο σύνολο ετικετών σε ένα πρόβλημα εκπαίδευσης πολλαπλών ετικετών και D={ x i,y i,i=1 N } για να δηλώσει το σύνολο των παραδειγμάτων εκπαίδευση, όπου x i είναι το διάνυσμα του χαρακτηριστικού και Y i L το σύνολο των ετικετών του i-οστού παραδείγματος Μέ θοδοι Μετασχηματισμού Οι μέθοδοι αυτοί ασχολούνται κυρίως με τον μετασχηματισμό του συνόλου των δεδομένων με στόχο να απλοποιήσουν τα αντικείμενα που ανήκουν σε πολλές ετικέτες, έτσι ώστε να ανήκουν σε μία. Η κάθε μέθοδος αντιμετωπίζει διαφορετικά το πρόβλημα και παράγει ένα νέο σύνολο, μορφής συμβατής για χρήση από αλγόριθμους κατηγοριοποίησης μοναδικής ετικέτας. Υπάρχουν μέθοδοι που μετατρέπουν άμεσα το πρόβλημα μάθησης σε κλασική κατηγοριοποίηση μοναδικής ετικέτας. Ένας τέτοιος κατηγοριοποιητής, μπορεί να παράξει μια κατανομή πιθανοτήτων για όλες τις κλάσεις και να χρησιμοποιηθεί για την εκπαίδευση προβλημάτων κατάταξης. Για την περιγραφή των μεθόδων θα χρησιμοποιηθεί το σύνολο δεδομένων πολλαπλών ετικετών του πίνακα 1, που αποτελείται από 4 στιγμιότυπα παραδείγματα Παράδειγμα Σύνολο Ετικετών 1 {λ 1, λ 4 } 2 {λ 3,λ 4 } 3 {λ 1 } 4 {λ 2, λ 3, λ 4 } Πίνακας 1: Παράδειγμα δεδομένων πολλαπλής ετικέτας ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 21

22 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ που περιγράφονται από μια η περισσότερες ετικέτες λ 1, λ 2, λ 3, λ 4. Η πρώτη μέθοδος είναι ο μετασχηματισμός Αντιγραφής (Copy) ή PT5, που αντικαθιστά κάθε παράδειγμα πολλαπλής ετικέτας με μορφή x i,y i, με πλήθος Y i παραδειγμάτων τύπου x i, λ j, για κάθε λ j Y i. Στην συνέχεια εκπαιδεύει με το τροποποιημένο σύνολο δεδομένων ένα κατηγοριοποιητή μονής ετικέτας που βασίζεται στην κάλυψη (coverage-based). Ένας τέτοιος κατηγοριοποιητής κατανομής (Distribution) παράγει ως αποτέλεσμα μια κατανομή από βαθμούς βεβαιότητας ή πιθανότητες, για όλες τις ετικέτες στο σύνολο L. Ολοκληρώνοντας επεξεργάζεται το αποτέλεσμα της κατανομής, παράγοντας ένας σύνολο από ετικέτες. Ένας απλώς τρόπος για επιτευχθεί αυτό, είναι να παραχθούν οι ετικέτες για τις οποίες ο βαθμός βεβαιότητας είναι μεγαλύτερος από ένα καθορισμένο κατώφλι ή πιο σύνθετα, να επιλεχθούν οι ετικέτες για τις οποίες η τιμή του βαθμού βεβαιότητας είναι κάποιο ποσοστό της μέγιστης τιμής. Μια παραλλαγή αυτού του μετασχηματισμού ονομάζεται Αντιγραφής-Βάρους (Copy- Weight), όπου η διαφορά σε σχέση με την αρχική μέθοδο, είναι η συσχέτιση κάθε παραγόμενου παραδείγματος, με ένα βάρος της μορφής 1 {Y i }. Μια οικογένεια παρόμοιων μεθόδων, είναι οι μετασχηματισμοί επιλογής (Select). Η βασική ιδέα λειτουργίας τους, είναι η αντικατάσταση των αντικειμένων του σύνολου των ετικετών Y i, με κάποια από τις ετικέτες του αντικειμένου, σύμφωνα με κάποια συνθήκη επιλογής. Έτσι κρατείται μια ετικέτα και απορρίπτονται οι υπόλοιπες. Η επιλογή αυτή μπορεί να είναι η ετικέτα με την μέγιστη (Select-Max), την ελάχιστη συχνότητα (Select-Min) ή κάποια τυχαία (Select-Random), ανάλογα με τον τύπο μετασχηματισμού που εφαρμόζεται. Η τελευταία μέθοδος αναφέρεται και ως PT1. Η επόμενη μέθοδος ονομάζεται μετασχηματισμός Παράβλεψης (Ignore) ή PT2, και λειτουργεί πιο απλά. Εξετάζει όλα τα παραδείγματα στο σύνολο δεδομένων πολλαπλών ετικετών και απορρίπτει όλα όσα έχουν περισσότερα από μία ετικέτα. Σε αυτές τις απλές μεθόδους το αποτέλεσμα που προκύπτει είναι ένα σύνολο δεδομένων, όπου κάθε παράδειγμα χαρακτηρίζεται από μια μόνο ετικέτα. Το βασικό μειονέκτημα των μεθόδων, είναι ότι απορρίπτεται μεγάλο μέρος της πληροφορίας που περιέχει το αρχικό σύνολο δεδομένων, αλλοιώνοντας την ικανότητα σωστής κατηγοριοποίησης κάθε παραδείγματος. Αυτή η αδυναμία είναι 22 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

23 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ και ο λόγος για τον οποίο δεν χρησιμοποιούνται συχνά. Στο πίνακα 2 παρουσιάζονται οι μετασχηματισμοί. Ο επόμενος μετασχηματισμός αναφέρεται ως Δυναμοσύνολο ετικετών (Label Παρ. Ετικέτα Παρ. Ετικέτα Βάρος Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα 1α λ 1 1α λ λ 4 1 λ 1 1 λ 1 1β λ 4 1β λ λ 4 2 λ 3 2 λ 4 2α λ 3 2α λ λ 1 3 λ 1 3 λ 1 2β λ 4 2β λ λ 4 4 λ 2 4 λ 3 3 λ 1 3 λ (γ) (δ) (ε) 4α λ 2 4α λ β λ 3 4β λ Παρ. Ετικέτα 4γ λ 4 (α) 4γ λ (β) 3 λ 1 (στ) Πίνακας 2: Μετασχηματισμοί των δεδομένων του πίνακα 1 χρησιμοποιώντας (α)αντιγραφή, (β)αντιγραφή-βάρος, (γ)επιλογή μέγιστου, (δ) επιλογή ελάχιστου, (ε) επιλογή τυχαίου, (στ) παράβλεψη Powerset-LP) ή PT3 και είναι μια απλή αλλά αποτελεσματική μέθοδος. Η ιδιαιτερότητα της μεθόδου είναι ότι θεωρεί το κάθε μοναδικό υποσύνολο του συνδυασμού ετικετών που χαρακτηρίζει κάθε παράδειγμα του συνόλου εκπαίδευσης πολλαπλών ετικετών, ως μία μονή ετικέτα-κλάση όπως δείχνει ο πίνακας 3α. Ουσιαστικά διακριτοποιεί κάθε τέτοιο συνδυασμό. Το μετασχηματισμένο σύνολο μπορεί άμεσα να χρησιμοποιηθεί από ένα κατηγοριοποιητής μονή ετικέτας H : X P L όπου P L είναι δυναμικό σύνολο του L. Δεδομένου ενός νέου στιγμιότυπου, ο κατηγοριοποιητής μπορεί εξάγει να την πιθανότερη διακριτή κλάση, η οποία είναι ένα σύνολο από ετικέτες. Αν ο κατηγοριοποιητής παράξει μια κατανομή πιθανοτήτων για κάθε κλάση, τότε η μέθοδος μπορεί να κατατάξει τις ετικέτες σύμφωνα με αυτή την προσέγγιση[6]. Στον πίνακα 3β παρουσιάζεται μια τέτοια κατάταξη, υπολογίζοντας για κάθε ετικέτα το σύνολο των πιθανοτήτων των κλάσεων που την περιέχουν. Με αυτό τον τρόπο μπορούν να λυθούν προβλήματα MLR. Το μειονέκτημα της μεθόδου, είναι ότι μπορεί να συμπεριλάβει πολλές ετικέτες σε κάθε παραγόμενη διακριτή κλάση. Αυτό μπορεί να οδηγήσει στην δημιουργία σύνολων δεδομένων με μεγάλο αριθμό κλάσεων αλλά με μικρή αντιστοιχία παραδειγμάτων για κάθε κλάση. Η πολυπλοκότητα υπολογισμού της LP σε σχέση με τον αριθμό M των ετικετών, εξαρτάται από τον βασικό κατηγοριοποιητή ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 23

24 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ λαμβάνοντας υπόψη τον αριθμό των κλάσεων, ο οποίος είναι ίσος με αριθμό των διαφορετικών ετικετών του συνόλου εκπαίδευσης. Το ανώτερο όριο του αριθμού υπολογίζεται από την συνάρτηση min N,2 M και παρότι τυπικά είναι αρκετά μικρό, διατηρεί ένα σημαντικό πολύπλοκο πρόβλημα, ιδιαίτερα για μεγάλες τιμές των N και M. Παρ. Ετικέτα c p(c x) λ 1 λ 2 λ 3 λ 4 1 λ 1,4 λ 1, λ 3,4 λ 3, λ 1 λ λ 2,3,4 λ 2,3, Σ c p(c x)λ j (α) (β) Πίνακας 3: Μετασχηματισμός των δεδομένων του πίνακα 1 χρησιμοποιώντας την μέθοδο του δυναμοσύνολου (α) και παράδειγμα εξαγωγή κατάταξης με LP. Η παραπάνω μέθοδος μπορεί να επεκταθεί στο μετασχηματισμό κλαδέματος προβλήματος (Pruned Problem Transformation-PTT)[6]. Η μέθοδος κλαδεύει τα σύνολα ετικετών που παρουσιάζονται λιγότερες φορές από ένα μικρό κατώφλι που ορίζεται από τον χρήστη. Προαιρετικά μπορεί να αντικαταστήσει την πληροφορία, εισάγοντας ασυνάρτητα δεδομένα από τα σύνολα ετικετών που υπάρχουν και παρουσιάζονται περισσότερες φορές από την τιμή κατωφλίου. Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα 1 λ 1 1 λ 2 1 λ 3 1 λ 4 2 λ 1 2 λ 2 2 λ 3 2 λ 4 3 λ 1 3 λ 2 3 λ 3 3 λ 4 4 λ 1 4 λ 2 4 λ 3 4 λ 4 (α) (β) (γ) (δ) Πίνακας 4: Τα σύνολα δεδομένων που σχηματίζονται με την μέθοδο BR Από τις πιο συνηθισμένες και πιο δημοφιλής μεθόδους μετασχηματισμού, είναι η μέθοδος δυαδικής σχέσης (Binary Revelance-BR) ή PT4. Η μέθοδος εκπαιδεύει δυαδικούς κατηγοριοποιητές (binary classifier) τόσους όσους και ο αριθμός των ετικετών L. Για κάθε ετικέτα λ που υπάρχει στο σύνολο L ορίζεται ένας κατηγοριοποιητής H l : X {λ, λ}. Η διαδικασία αυτή μετατρέπει το αρχικό σύνολο σε M σύνολα, μορφής D λj, j=1 M που περιέχουν όλα τα παραδείγματα 24 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

25 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ πρωτότυπου συνόλου. Κάθε παράδειγμα καθορίζεται θετικά, σαν αντικείμενο που ανήκει στην ετικέτα λ j, αν αρχικά χαρακτηριζόταν από αυτή την ετικέτα λ j. Διαφορετικά χαρακτηρίζεται αρνητικά ως λ j, όπως φαίνεται στον πίνακα 4. Αυτή η λύση εφαρμόζεται και για την διαχείριση προβλημάτων μοναδικής ετικέτας πολλαπλών κλάσεων με δυαδικό κατηγοριοποιητή. Για την ταξινόμηση ενός νέου παραδείγματος x, η μέθοδος παράγει σαν σύνολο ετικετών, την ένωση των θετικών ετικετών που παράγονται από τους Μ κατηγοριοποιητές όπου αναπαριστώνται ως H PT4 x = λ L {λ }: H λ x =λ. Η μέθοδος των τυχαίων κ-συνόλων δεδομένων (random k-labelsets-rakel) [1], δημιουργεί ένα σύνολο από LP κατηγοριοποιητές. Καθένας τους εκπαιδεύεται χρησιμοποιώντας ένα μικρό, τυχαίο υποσύνολο από το σύνολο των ετικετών. Με αυτό τον τρόπο ο RAKEL καταφέρνει να λάβει υπόψη τους συσχετισμούς της ετικέτας, αποφεύγοντας ταυτόχρονα τα προβλήματα του LP. Μια κατάταξη των ετικετών παράγεται, εξάγοντας τον μέσο όρο, από τις προβλέψεις μηδέν και ένα, από κάθε μοντέλο για κάθε ετικέτα. Η κατάταξη σύγκρισης ζευγών (Ranking Pairwise Comparison-RPC)[7], μετατρέπει το σύνολο πολλαπλών ετικετών, σε Μ Μ 1 2 δυαδικά σύνολα ετικέτας, ένα για κάθε ζεύγος από ετικέτες της μορφής λ i, λ j,1 i j M. Κάθε σύνολο περιέχει τα παραδείγματα από το αρχικό σύνολο D, τα οποία σημαίνονται τουλάχιστον από μία από τις δύο σχετιζόμενες ετικέτες, αλλά όχι και από τις δύο ταυτόχρονα. Ένας δυαδικός κατηγοριοποιητής εκπαιδεύεται από αυτά τα σύνολα δεδομένων και μαθαίνει να διαχωρίζει μεταξύ τους τις δύο ετικέτες,. Δεδομένου ενός νέου στιγμιότυπου, όλοι οι δυαδικοί κατηγοριοποιητές επικαλούνται και σχηματίζεται μια κατάταξη μετρώντας τις εμφανίσεις κάθε ετικέτας. Ένα παράδειγμα εφαρμογής παρουσιάζεται στο πίνακα 5. Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα 1 λ 1, 2 1 λ 1, 3 2 λ 1,4 2 λ 2,3 1 λ 2,4 3 λ 1, 2 2 λ 1,3 3 λ 1, 4 (δ) 2 λ 2,4 4 λ 1,2 3 λ 1, 3 4 λ 1,4 Παρ. Ετικέτα (ε) (α) 4 λ 1,3 (γ) 1 λ 3,4 (β) (στ) Πίνακας 5: Τα σύνολα δεδομένων που σχηματίζονται με την μέθοδο RPC Ο αλγόριθμος πολλαπλών ετικετών με ζεύγη percetron (MLPP), είναι μια ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 25

26 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ παραλλαγή του RPC, που χρησιμοποιεί για τις εργασίες δυαδικής ταξινόμησης, νευρώνες τύπου perceptron. Μια εκδοχή του αλγόριθμο RPC, αφορά ζεύγη πολλαπλών ετικετών από νευρώνες percetron και ονομάζεται αλγόριθμος MLPP[10]. Χρησιμοποιεί τους νευρώνες για να εφαρμόσει δυαδική ταξινόμηση Άλλη μια μέθοδος που επεκτείνει τον RPC είναι ο βαθμονομημένη κατάταξη ετικέτας (Calibrated Label Ranking-CLR)[8]. Εισάγει μια εικονική, επιπρόσθετη ετικέτα, που ενεργεί σαν σημείο διάσπασης της κατάταξης σε σχετικές και άσχετες ετικέτες. Με αυτό τον τρόπο επιλύονται προβλήματα τύπου MLR. Ο αλγόριθμος INSDIF[9], υπολογίζει ένα πρότυπο διάνυσμα για κάθε ετικέτα, εξάγοντας το μέσο όρο όλων των στιγμιοτύπων του συνόλου εκπαίδευσης που ανήκουν σε αυτή την ετικέτα. Έπειτα κάθε στιγμιότυπο μετατρέπεται σε ένα σύνολο από M στιγμιότυπα, το καθένα ίσο με την διαφορά μεταξύ του αρχικού στιγμιότυπου και ενός από τα πρότυπα διανύσματα. Εφαρμόζεται μια στρατηγική κατηγοριοποίησης 2 επιπέδων για να γίνει η εκπαίδευση από το μετασχηματισμένο σύνολο δεδομένων. Η τελευταία μέθοδος που θα εξεταστεί είναι η PT6. Αυτή η μέθοδος μπορεί να χρησιμοποιηθεί στον πυρήνα προσαρμοσμένων αλγόριθμων συγκεκριμένης μαθησιακής προσέγγισης. Κατά την εφαρμογή του, κάθε παράδειγμα μορφής x,y, αναλύεται σε συνθετικά μέρη από πλήθος L παραδειγμάτων μορφής x, λ, Y [ λ ], για κάθε ετικέτα που ανήκει στο σύνολο λ L, όπου Y [λ ]= λ αν λ Υ και Υ [λ ]= λ διαφορετικά Μέ θοδοι Προσαρμογής Αλ γ ορίθμων Το πρόβλημα της κατηγοριοποίησης πολλαπλών ετικετών είναι πιο σύνθετο, από την κλασσική κατηγοριοποίηση τάξεων, οπού συνήθως σχετίζεται με την ύπαρξη δύο διασπασμένων κλάσεων από τις οποίες εκπαιδεύεται ο κατηγοριοποιητής, γιατί θεωρεί πως κάθε αντικείμενο δεν μπορεί να ταξινομηθεί σε έναν αριθμό από καθορισμένες αποκλειστικές κλάσεις. Στον τομέα της μηχανικής μάθησης δεν είναι πολλές οι μέθοδοι προσέγγισης τέτοιου τύπου προβλημάτων. Οι μέθοδοι αυτοί, χρησιμοποιούν τροποποιημένους αλγορίθμους, σχεδιασμένους έτσι ώστε να μπορούν να χειριστούν δεδομένα της κατηγορίας πολλαπλών ετικετών. Η τροποποίηση μπορεί να περιλαμβάνει χρήση κάποιου μέρους των μεθόδων που χρησιμοποιούνται στα 26 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

27 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ προβλήματα μετασχηματισμού δεδομένων Δέντρα Απόφασης και Boosting Ο αλγόριθμος C4.5 αποτελεί ένα γνωστό κατηγοριοποιητή δέντρου απόφασης. Μια παραλλαγή του παρουσίασαν οι Clare και King [11], προσαρμόζοντας τον αλγόριθμο για χρήση δεδομένων πολλαπλών ετικετών. Ο τύπος υπολογισμού της εντροπίας τροποποιείτε ως : N entropy S = p c i q c i log q c i i=1 όπου p λ j η σχετική συχνότητα της κλάσης και q λ j =1 p λ j το συμπλήρωμα ώς προς 1. Με αυτό πετυχαίνεται η αποθήκευση πολλαπλών ετικετών στα φύλλα του δέντρου απόφασης. Μια άλλη συνηθισμένη προσέγγιση είναι η χρήση δυαδικών αλγορίθμων. Ένας γνωστός αλγόριθμος είναι ο AdaBoost [11]. Στην βιβλιογραφία υπάρχουν δύο τροποποιήσεις του, στοχευμένοι για κατηγοριοποίηση πολλαπλών ετικετών, οι AdaBoost.MH και AdaBoost.MR [12]. Και οι δύο εφαρμόζουν έναν ασθενή κατηγοριοποιητή AdaBoost της μορφής Η : Χ Ζ R. Η διαφοροποίηση του πρώτου βρίσκεται στο ότι ελέγχει το πρόσημο από το παραγόμενο αποτέλεσμα των ασθενών κατηγοριοποιητών. Αν αυτό είναι θετικό για κάθε νέο παράδειγμα x και μια ετικέτα l, τότε θεωρεί ότι στο παράδειγμα μπορεί να τοποθετηθεί η ετικέτα, ενώ αν είναι αρνητικό τότε δεν μπορεί να κατηγοριοποιηθεί από την ετικέτα l. Είναι σχεδιασμένος για να ελαχιστοποιεί την απώλεια Hamming. Ο δεύτερος χρησιμοποιεί το αποτέλεσμα των ασθενών κατηγοριοποιητών για να βαθμολογήσει κάθε ετικέτα που υπάρχει στο σύνολο L. Σχεδιάστηκε για να βρίσκει μια υπόθεση για την οποία οι σωστές ετικέτες βρίσκονται στην κορυφή της κατάταξης. Οι δύο αλγόριθμοι είναι μετατροπές μιας συγκεκριμένη μαθησιακής προσέγγισης, αλλά στον πυρήνα τους χρησιμοποιούν την μέθοδο μετασχηματισμού PT6. Ένας συνδυασμός του AdaBoost.MH και ενός αλγόριθμου που παράγει εναλλακτικά δέντρα απόφασής, παρουσιάστηκε στο [13]. Το βασικό κίνητρο είναι η παραγωγή μοντέλων πολλαπλών ετικετών, που να είναι κατανοητά στον άνθρωπο Πιθανολογικές Μέθοδοι Η επόμενη μέθοδος βασίζεται σε ένα μοντέλο που έχει προτείνει ο McCallum [14]. Αυτό ορίζει ένα πιθανολογικό παραγωγικό μοντέλο, σύμφωνα με το οποίο κάθε ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 27

28 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ ετικέτα παράγει διαφορετικές λέξεις. Σύμφωνα με αυτό, ένα έγγραφο πολλαπλών ετικετών παράγεται από τον συνδυασμό των κατανομών των αντίστοιχων ετικετών της λέξης. Οι παράμετροι του μοντέλου εκπαιδεύονται μεγιστοποιώντας μια μεταγενέστερη εκτίμηση από τα εκπαιδευόμενα έγγραφα που έχουν ετικέτα, χρησιμοποιώντας τον αλγόριθμο Μεγιστοποίησης Πρόβλεψης (Expectation Maximization) για να υπολογιστούν ποιες ετικέτες είναι ταυτόχρονα ο συνδυασμός των βαρών αλλά και και οι κατανομές της λέξης κάθε ετικέτας. Δίνοντας ένα νέο έγγραφο η ετικέτα που καθορίζεται,, επιλέγεται με κανόνα Bayes. Αυτή η προσέγγιση κατηγοριοποίησης ενός νέου εγγράφου ακολουθεί την μέθοδο PT3, όπου κάθε διαφορετικό σύνολο ετικετών, θεωρείται ανεξάρτητο σαν μια νέα τάξη Νευρωνικά Δίκτυα και Μηχανές Υποστήριξης Διανυσμάτων (SVM) Ο BP-MLL που προτάθηκε το 2006[15], είναι προσαρμογή του αλγόριθμου αντίστροφης μετάδοσης για εκπαίδευση πολλαπλών ετικετών. Εισάγει μια συνάρτηση λάθους που λαμβάνει υπόψη τις πολλαπλές ετικέτες. Ένας αλγόριθμος που χρησιμοποιεί νευρώνες percetron είναι ο MMP[16] και χρησιμοποιείται για κατάταξη ετικετών. Για κάθε ετικέτα διατηρείται ένας νευρώνας, όπου η αλλαγή στα βάρη εκτελείται έτσι ώστε να επιτευχθεί ακριβής κατάταξη όλων των ετικετών. Μια άλλη προσέγγιση είναι αλγόριθμοι φιλοσοφίας SVM. Ένας τέτοιος αλγόριθμος κατάταξης, παρουσιάστηκε από τους Elisseeff και Weston [17]. Είναι ένα γραμμικό μοντέλο που προσπαθεί να ελαχιστοποιήσει μια συνάρτηση κόστους, διατηρώντας ένα μεγάλο περιθώριο. Η συνάρτηση κόστους χρησιμοποιεί την απώλεια κατάταξης (ranking loss), που ορίζεται ως ο μέσος όρος τους κλάσματος, από ζεύγη ετικετών που είναι ταξινομημένα λανθασμένα. Δυο βελτιώσεις αλγορίθμων μηχανών υποστήριξης διανυσμάτων (SVM) για δεδομένα πολλαπλών ετικετών παρουσιάστηκαν από τους Godbole & Sarawagi[18]. Η πρώτη βελτίωση, επεκτείνει το αρχικό σύνολο δεδομένων με M επιπλέον χαρακτηριστικά που περιέχουν τι προβλέψεις κάθε δυαδικού κατηγοριοποιητή. Στον πρώτο βρόγχο, Μ καινούργιοι δυαδικοί κατηγοριοποιητές εκπαιδεύονται χρησιμοποιώντας τα νέα σύνολα. Για την κατηγοριοποίηση ενός νέου παραδείγματος, χρησιμοποιούνται οι αρχικοί δυαδικοί κατηγοριοποιητές, προσθέτοντας στην έξοδο τους, τα χαρακτηριστικά του παραδείγματος, σχηματίζοντας ένα meta-παράδειγμα. 28 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

29 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ Αυτό με την σειρά του, κατηγοριοποιείται στον δεύτερο βρόγχο. Με αυτή την επέκταση εξετάζονται οι πιθανές εξαρτήσεις ανάμεσα στις ετικέτες. Η δεύτερη βελτίωση έγκειται στην αφαίρεση των αρνητικών στιγμιοτύπων εκπαίδευσης μιας ετικέτας, αν είναι αρκετά όμοια με την θετική ετικέτα. Αυτό βασίζεται σε ένα πίνακα που υπολογίζεται χρησιμοποιώντας ένα γρήγορο και σχετικά ακριβή κατηγοριοποιητή, σε ένα κρατημένο σύνολο επαλήθευσης Αναβλητικές Μέθοδοι και Μέθοδοι που βασίζονται σε Κανόνες Συσχέτισης Ο ML-kNN [19] είναι μια παραλλαγή του αδρανή αλγόριθμου εκπαίδευσης knn για δεδομένα πολλαπλών ετικετών. Στην πραγματικότητα η μέθοδος ακολουθεί τον τρόπο λειτουργίας του PT4. Ουσιαστικά ο αλγόριθμος χρησιμοποιεί τον knn ανεξάρτητα για κάθε ετικέτα l, βρίσκοντας τα k πλησιέστερα παραδείγματα ως προς το εξεταζόμενο παράδειγμα, θεωρώντας ως τα θετικά τα παραδείγματα που περιέχουν την ετικέτα l και ως αρνητικά τα υπόλοιπα. Ο ML-kNN έχει την ικανότητα να βαθμολογήσει της ετικέτες κατά τη παραγωγή των αποτελεσμάτων ενώ η κυριότερη διαφορά μεταξύ της μεθόδου και της εφαρμογής του αρχικού αλγόριθμου knn σε ένα σύνολο δεδομένων μετασχηματισμένο με το PT4, είναι η χρήση πρωταρχικών πιθανοτήτων. Μια άλλη παραλλαγή του κατηγοριοποιητή κνν παρουσιάστηκε για ταξινόμηση δεδομένων εγγράφων πολλαπλής ετικέτας, από τους Luo και Zincir- Heywood [20]. Η βασική συνεισφορά τους βρίσκεται στο τομέα της προεπεξεργασίας για την αποτελεσματική παρουσίαση εγγράφων. Για την κατηγοριοποίηση ενός νέου αντικειμένου, αρχικά υπολογίζονται τα k πλησιέστερα παραδείγματα. Στην συνέχεια για κάθε εμφάνιση κάθε μιας ετικέτας από τα παραδείγματα, αυξάνεται ένας αντίστοιχος μετρητής. Τελικά υπολογίζονται στην έξοδο οι N ετικέτες με τις υψηλότερες τιμές στον μετρητή του. Ο αριθμός του πλήθους N επιλέγεται με βάση τον αριθμό των ετικετών του αντικειμένου. Αυτό όμως δεν έχει μεγάλη εφαρμογή σε πραγματικά δεδομένα, γιατί συνήθως ο αριθμός των ετικετών ενός αντικειμένου είναι άγνωστος. Ο αλγόριθμος MMAC [21] ακολουθεί το παράδειγμα της κατηγοριοποίησης συνάφειας (associative classification). Κατασκευάζει σύνολα κανόνων κατηγοριοποίησης, σύμφωνα με τους οποίους εκπαιδεύει το αρχικό σύνολο, αφαιρώντας τα παραδείγματα που σχετίζονται με τον κανόνα. Στην συνέχεια ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 29

30 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ εκπαιδεύει ένα νέο κανόνα αναδρομικά για τα εναπομείναντα παραδείγματα, μέχρι να μην μείνουν άλλα σχετικά αντικείμενα. Τα πολλαπλά σύνολα κανόνων, μπορεί να έχουν όμοιες αρχικές συνθήκες, αλλά διαφορετική επιλογή ετικέτας. Όλα τα σύνολα κανόνων συνενώνονται σε έναν απλό κανόνα πολλαπλών ετικετών. Οι ετικέτες κατατάσσονται σύμφωνα με την υποστήριξη των σχετικών μοναδικών κανόνων. 2.4 Στατιστική Συνόλων Δεδομέ νων ΠΕ Όλα τα σύνολα δεδομένων πολλαπλών ετικετών δεν είναι ισοδύναμα. Σε κάποιες εφαρμογές το πλήθος των ετικετών κάθε παραδείγματος, είναι μικρό σε σχέση με το πλήθος του συνόλου ετικετών M, ενώ σε άλλες συμβαίνει το αντίθετο. Αυτή η παράμετρος μπορεί να επηρεάζει την απόδοση των διαφόρων μεθόδων πολλαπλών ετικετών. Για να υπάρχει ένα μέτρο ελέγχου εισάγονται οι έννοιες του πληθάριθμου ετικέτας (label cardinality) και πυκνότητας ετικέτας (label density). Ορίζονται στο πλαίσιο ενός συνόλου δεδομένων πολλαπλών ετικετών D, που αποτελείται από πλήθος Ν παραδειγμάτων πολλαπλής ετικέτας, της μορφής x i, Y i,i=1 Ν. Ο πληθάριθμος ετικέτας του D είναι ο μέσος αριθμός του πλήθους των ετικετών που υπάρχουν στα παραδείγματα στο D: Label Cardinality= 1 N N i=1 Y i Η πυκνότητα ετικέτας του D είναι ο μέσος αριθμός των ετικετών των παραδειγμάτων, διαιρούμενος από το πλήθος του Μ: Label Density= 1 N Y i N i=1 M To πλήθος του συνόλου ετικέτας, είναι ανεξάρτητο από των αριθμό των ετικετών M που υπάρχουν στο πρόβλημα ταξινόμησης και χρησιμοποιείται για να προσδιορίσει τον αριθμό των εναλλακτικών ετικετών που χαρακτηρίζουν τα παραδείγματα ενός εκπαιδευόμενου συνόλου δεδομένων πολλαπλών ετικετών. Η πυκνότητα ετικέτας φέρνει σε μελέτη τον αριθμό των ετικετών στο πρόβλημα ταξινόμησης. Δύο σύνολα δεδομένων με το ίδιο πλήθος ξεχωριστών ετικετών αλλά με μεγάλη διαφορά στον αριθμό των ετικετών (διαφορετική πυκνότητα ετικετών) μπορεί να παρουσιάζουν διαφορετικές ιδιότητες και να προκαλέσουν διαφορετική συμπεριφορά στις μεθόδους κατηγοριοποίησης πολλαπλών ετικετών. Οι δύο μετρικές μπορούν να σχετίζονται μεταξύ τους ως LC=M LD. 30 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

31 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ 2.5 Μετρικές Αξιολόγησης Υπάρχουν διάφορες μέθοδοι που έχουν προταθεί για να αξιολογηθούν τα αποτελέσματα της μάθηση; από δεδομένα πολλαπλών ετικετών. Οι μετρικές που απαιτούνται είναι διαφορετικές από αυτές που χρησιμοποιούνται στην παραδοσιακή κατηγοριοποίηση μοναδικής ετικέτας. Μπορούν να χωριστούν σε 2 τύπους, στις μετρικές διχοτόμησης (Bipartition), που χρησιμοποιούν τα κριτήρια από την κλασική ανάκτηση δεδομένων και σε μετρικές κατάταξης (Ranking), που το κριτήριο τους βασίζεται στην αξιολόγηση του βαθμού κατάταξης κάθε ετικέτας. Για τον καθορισμό των μετρικών, ορίζεται ένα σύνολο αξιολόγησης από δεδομένα πολλαπλής ετικέτας, που αποτελείται από πλήθος Ν παραδειγμάτων μορφής x i, Y i,i=1 Ν.όπου Y i L είναι το σύνολο των σωστών ετικετών, και L={λ j : j=1 M } είναι το σύνολο όλων των ετικετών. Δεδομένου ενός στιγμιότυπου x i το σύνολο των ετικετών που προβλέπεται από μία μέθοδο MLC και ορίζεται ως Z i, ενώ η κατάταξη προβλέπεται από μια LR μέθοδο για την ετικέτα λ και ορίζεται ως r i λ. Η ετικέτα με την μεγαλύτερη συνάφεια, παίρνει την υψηλότερη κατάταξη με τιμή 1, ενώ η ετικέτα με την μικρότερη συνάφεια κατατάσσεται με την τιμή M Μετρικέ ς Διχοτόμησης Οι μετρικές που αξιολογούν με διχοτόμηση, χωρίζονται σε δύο κατηγορίες. Σε αυτές που βασίζονται σε παράδειγμα (example-based) και σε αυτές που βασίζονται στην ετικέτα (label-based) Με Βάση Παράδειγμα Βασίζονται στον υπολογισμό των διαφορών των ετικετών, του πραγματικού και του προβλεπόμενου συνόλου ετικετών, πάνω σε όλα τα παραδείγματα του συνόλου δεδομένων αξιολόγησης. Μια τέτοια μετρική είναι η απώλεια Hamming (Hamming Loss) [12] ορίζεται ως : Hamming Loss= 1 Ν Y i xor Z i Ν i=1 Μ όπου αντιπροσωπεύει την συμμετρική διαφορά των δύο συνόλων, που είναι ισοδύναμο με την αποκλειστικό διαχωρισμό XOR της Boolean λογικής. ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 31

32 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ Η ευστοχία κατηγοριοποίησης (Classification Accuracy) [22] ή ευστοχία υποσυνόλου (Subset Accuracy), ορίζεται ακολούθως ως : ClassificationAccuracy= 1 Ν Ν i=1 I Z i =Y i όπου I true =1 και I false =0. Πρόκειται για ένα αυστηρό μέτρο αξιολόγησης καθώς απαιτεί το προβλεπόμενο σύνολο ετικετών, να ταιριάζει απόλυτα με το σύνολο των αληθινών ετικετών. Κάποιες άλλες μετρικές που χρησιμοποιούνται είναι η Ευστοχία (Accuracy), η Ακρίβεια (Precision), η Επανάκληση (Recall) και το F1 κριτήριο [23]. Ορίζονται παρακάτω ως: Ν Accuracy= 1 Ν i=1 Ν Recall= 1 Ν i=1 Y i Z i Y i Z i Y i Z i Y i Ν Precision= 1 Ν i=1 Y i Z i Z i F 1 = 1 Ν Y i Z i Ν i=1 Z i Y i Μια γενικότερη έκδοση της ευστοχίας δόθηκε από τον Boutell (2004), χρησιμοποιώντας μια παράμετρο α 0 που ονομάζεται ρυθμός συγχώρεσης (forgiveness rate). Ο τύπος τροποποιείται ως: Accuracy= 1 N N Y α i Z i i=1 Y i Z i Με Βάση Ετικέτα Βασίζεται στην ανάλυση της διαδικασίας αξιολόγησης σε ξεχωριστές αξιολογήσεις για κάθε ετικέτα, που μεταγενέστερα παράγουν τον μέσο όρο για όλες τις ετικέτες. Μπορεί να χρησιμοποιηθεί κάθε γνωστή μετρική για δυαδική αξιολόγηση, όπως η ακρίβεια, η επανάκληση, η ευστοχία και η περιοχή κάτω από την καμπύλη ROC. Ο υπολογισμός τους για όλες τις ετικέτες, πετυχαίνεται χρησιμοποιώντας δύο διαδικασίες μέσου όρου, που ονομάζονται macro-averaging και micro-averaging. Αν θεωρηθεί ένα δυαδικό μέτρο αξιολόγησης μορφής B tp,tn, fp, fn που έχει υπολογιστεί βασιζόμενο σε ένα αριθμό αποτελεσμάτων από αληθή θετικά (tp), αληθή αρνητικά (tn), λανθασμένα θετικά (fp) και λανθασμένα αρνητικά (fn). Αν οι παραπάνω τιμές υπολογιστούν για μια ετικέτα λ, τότε ο μεγάλος και ο μικρός μέσος όρος του B μπορεί να υπολογιστεί ακολούθως: M B macro = 1 B t M p λ, f pλ,t n λ, f nλ λ=1 32 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

33 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ M B micro = B λ=1 M t p λ, λ=1 M f p λ, λ=1 M t nλ, λ=1 Σημειώνεται ότι ο μεγάλος και ο μικρός μέσος όρος μπορεί να έχουν την ίδια τιμή για μερικές μετρικές, όπως η ευστοχία και διαφορετική για την ακρίβεια και την επανάκληση. Επιπλέον η μέση ακρίβεια (macro/micro) έχει άθροισμα με την απώλεια Hamming αποτελούν το ένα για το άλλο συμπλήρωμα προς το 1, γιατί η απώλεια f nλ Hamming είναι το μέσο σφάλμα της δυαδικής κατηγοριοποίησης Μετρικέ ς Κατάταξης Μια τέτοια μετρική είναι αυτή του ενός λάθους (One-Error). Αξιολογεί πόσες φορές η ετικέτα με την υψηλότερη κατάταξη, δεν βρίσκεται στο σύνολο των σχετικών ετικετών του στιγμιότυπου. Υπολογίζετε ως: Ν 1 Error= 1 Ν i=1 δ arg λ L minr i λ όπου δ λ = { 1αν λ L 0αλλιώς } Η μετρική της κάλυψης (Coverage) αξιολογεί το βάθος στο οποίο χρειάζεται να φτάσουμε σε μια λίστα κατάταξης ετικετών, για να καλυφθούν όλες οι σχετικές ετικέτες του παραδείγματος. Ν Cov= 1 max Ν λ Y i r i λ i=1 Η απώλεια κατάταξης (Ranking Loss) εκφράζει τον πλήθος των φορών που μια άσχετη ετικέτα κατατάσσεται υψηλότερα από τις σχετικές ετικέτες. Ορίζεται ως: Ν R Loss= 1 Ν i=1 1 Y i Y i { λ a, λ b : r i λ a r i λ 2, y a, y b Y i Y i } όπου το Y i είναι το συμπληρωματικό σύνολο του Y i σε σχέση με το L. Η μετρική της μέσης ακρίβειας (Average Precision) υπολογίζει το μέσο λόγο των ετικετών που κατατάχθηκαν, πάνω από μία ξεχωριστή ετικέτα λ Y i που βρίσκεται στο Y i. Ορίζεται ως Ν AvgPrec= 1 Ν i =1 1 Y i { λ Υ i : r i λ r i λ } λ Y i r i λ 2.6 Μείωση της Διάστασης των Χαρακτηριστικών Σε πολλές περιπτώσεις δεδομένων, η μάθηση με πολλαπλές ετικέτες μπορεί να περιέχει μεγάλο αριθμό από χαρακτηριστικά, αυξάνοντας τον βαθμό ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 33

34 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ πολυπλοκότητας. Αυτό αντιμετωπίζεται με την μείωση των διαστάσεων. Κάποιες μέθοδοι, που μπορούν να εφαρμοστούν άμεσα σε δεδομένα πολλαπλών ετικετών, ενώ άλλες είναι επέκταση μεθόδων που εφαρμόζονται σε δεδομένα μοναδικής ετικέτας. Χωρίζονται σε επιλογής χαρακτηριστικού (Feature Selection) και σε εξαγωγής χαρακτηριστικού (Feature Extraction) Επιλογή Χαρακτηριστικών Μια προσέγγιση επιλογής χαρακτηριστικού, δεδομένου ενός αλγόριθμου μάθησης πολλαπλών ετικετών, είναι η εύρεση ενός υποσυνόλου από χαρακτηριστικά που να μπορεί να βελτιστοποιεί την συνάρτηση απώλειας πολλαπλών ετικετών, σε ένα σύνολο δεδομένων αξιολόγησης [24]. Διαφορετική επιλογή επίλυσης του προβλήματος είναι η μετατροπή του συνόλου δεδομένων πολλαπλής ετικέτας σε ένα ή περισσότερα σύνολα δεδομένων μοναδικής ετικέτας, όπου μπορούν να εφαρμοστούν κλασσικές μέθοδοι επιλογής χαρακτηριστικού. Αρκετά δημοφιλής στην κατηγοριοποίηση κειμένων, είναι ο μετασχηματισμός BR, που αναφέρθηκε παραπάνω, που εφαρμόζεται για να αξιολογήσει την διακεκριμένη δύναμη κάθε χαρακτηριστικού, λαμβάνοντας υπ' όψη ξεχωριστά κάθε ετικέτα, ανεξάρτητα από τις υπόλοιπες Εξαγ ωγή Χαρακτηριστικών Οι μέθοδοι αυτής της κατηγορίας, δημιουργούν νέα χαρακτηριστικά που εξάγονται είτε σύμφωνα με τα αρχικά χαρακτηριστικά, είτε χρησιμοποιώντας πληροφορίες της κλάσης. Ένας τρόπος εξαγωγής, είναι με μεθόδους χωρίς επίβλεψη όπως η κύρια ανάλυση στοιχείων και η αφανή σημασιολογική βαθμοθέτηση (Latent Semantic Indexing-LSI) [21], που είναι άμεσα εφαρμόσιμες σε δεδομένα πολλαπλών ετικετών. Αντίθετα οι μέθοδοι με επίβλεψη, απαιτούν προσαρμογή πριν την εφαρμογή τους. Ενδεικτικά αναφέρονται η γραμμική διακρίνουσα ανάλυση (Linear Discriminant Analysis-LDA) [25] και η MLSI [26] που βασίζεται στην LSI αλλά χρησιμοποιεί τις πληροφορίες της ετικέτας. 2.7 Αξιοποίηση Δομής Ετικετών Σε συγκεκριμένες κατηγορίες πολλαπλών ετικετών, όπως η εξόρυξη εγγράφων και η βιοπληροφορική, οι ετικέτες μπορούν να οργανώνονται σε μια ιεραρχική δομή με 34 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

Δείτε περισσότερα