Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Ή Ε Ρ ΓΑ Σ Ί Α

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Ή Ε Ρ ΓΑ Σ Ί Α"

Transcript

1 Α Ρ Ι Σ Τ Ο Τ Έ Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Ή Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ί Κ Η Σ ΣΧΟΛΉ ΘΕΤΙΚΏΝ ΕΠΙΣΤΗΜΏΝ ΤΜΉΜΑ ΠΛΗΡΟΦΟΡΙΚΉΣ Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Ή Ε Ρ ΓΑ Σ Ί Α «ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΔΕΔΟΜΕΝΩΝ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ» «ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ» ΕΠΙΒΛΈΠΩΝ ΚΑΘΗΓΗΤΉΣ: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ, ΚΑΘΗΓΗΤΗΣ ΘΕΣΣΑΛΟΝΊΚΗ 2010

2

3

4 ΠΕΡΙΛΗΨΗ Π ε ρ ί λ η ψ η Αντικείμενο της παρούσας εργασίας είναι η ανάπτυξη και πειραματική μελέτη αλγορίθμων ταξινόμησης δεδομένων πολλαπλών ετικετών, δηλαδή δεδομένων τα οποία ανήκουν ταυτόχρονα σε δυο ή και περισσότερες κατηγορίες ετικέτας. Στην παρούσα εργασία στόχος είναι ο εμπλουτισμός του λογισμικού MULAN (Multi-LAbel LearniNg). Αρχικά παρουσιάζεται η θεωρεία της μάθησης από δεδομένα πολλαπλών ετικετών και αναλύονται οι μέθοδοι μετασχηματισμού δεδομένων (Copy, Select, Ignore, LP, BR) και οι μέθοδοι προσαρμογής αλγορίθμων. Η εργασία επικεντρώνεται ειδικότερα στο θέμα της της ταξινόμησης δεδομένων πολλαπλών ετικετών, όταν οι ετικέτες ανήκουν σε μια ιεραρχική δομή. Αναλύονται τρεις αλγόριθμοι που παράγουν δέντρα απόφασης για να κατηγοριοποιήσουν, ο Clus-HMC, o Clus-SC και ο Clus-HSC. Ακολουθεί η πειραματική μελέτη του Clus-HMC εξετάζοντας την απόδοση πρόβλεψης του με διαφορετική παραμετροποίηση. Στην συνέχεια παρουσιάζονται κομμάτια του κώδικα υλοποίησης του αλγορίθμου αυτού, εξηγώντας τον τρόπο σκέψης που ακολουθήθηκε. IV ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

5 ABSTRACT A b s t r a c t The object of the current project was the development and experimental study of algorithms for the task of classification of multi-label data, which are the data that belong at the same time in two or more class labels. The main target of the project is the enrichment of MULAN software library (Multi-LAbel LearniNg). with methods of multi-label classification. Firstly, the project presenting the general idea of the task of classifying multi-label data, analyze the methods of dataset transformation from multi-label to single label (Copy, Select, Ignore, LP, BR) and the groups of adaptive algorithms. The project focus at the task of Hierarchical multi-label data classification. Represents the adaptation for HMC problems of three algorithms that produce decision trees, Clus-HMC, Clus-SC and Clus-HSC. It followed by the experimental study of Clus-HMC, and the examination of the predictive performance with different parameters values. At next there is a presentation of part of the developing code and the explanation of the way of thinking. The project concludes with results that showed in at the developing process. ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ V

6 ΕΥΧΑΡΙΣΤΙΕΣ Ε υ χ α ρ ι σ τ ί ε ς Πριν την παρουσίαση των αποτελεσμάτων της παρούσας εργασίας, αισθάνομαι την υποχρέωση να ευχαριστήσω ορισμένους από τους ανθρώπους που γνώρισα, συνεργάστηκα μαζί τους και έπαιξαν πολύ σημαντικό ρόλο στην πραγματοποίησή της. Αρχικά θα ήθελα να ευχαριστήσω τον επιβλέπων καθηγητή μου κ. Βλαχάβα Ιωάννη για την αρχική εμπιστοσύνη και ανάθεση της μεταπτυχιακής εργασίας και για την κατανόηση που έδειξε κατά τη διάρκεια ολοκλήρωσής της. Στην συνέχεια θα ήθελα να ευχαριστήσω ιδιαίτερα τον λέκτορα κ. Τσουμάκα Γρηγόριο, για την υπομονή που έδειξε, καθώς και για την καθοδήγηση και την οργάνωση της διπλωματικής εργασίας. Η συμβολή του ήταν πολύτιμη σε όλη την διάρκεια εκπόνησης της διπλωματικής εργασίας. Τέλος, θα ήθελα να ευχαριστήσω την οικογένεια και τους φίλους μου για την συμπαράσταση τους και κυρίως του γονείς μου Θεόδωρο και Ευθαλία για την ηθική και υλική υποστήριξή τους, < > Μπακιρτζόγλου Σταύρος VI ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

7 ΠΕΡΙΕΧΟΜΕΝΑ Π ε ρ ι ε χ ό μ ε ν α ΠΕΡΊΛΗΨΗ...IV ABSTRACT...V ΕΥΧΑΡΙΣΤΊΕΣ...VI ΠΕΡΙΕΧΌΜΕΝΑ...VII ΛΊΣΤΑ ΣΧΗΜΆΤΩΝ...X ΛΊΣΤΑ ΠΙΝΆΚΩΝ...XI ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΉ...13 ΚΕΦΑΛΑΙΟ 2:ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ ΚΑΤΗΓΟΡΙΟΠΟΊΗΣΗ ΔΕΔΟΜΈΝΩΝ ΚΑΤΗΓΟΡΙΟΠΟΊΗΣΗ ΕΤΙΚΕΤΏΝ ΜΈΘΟΔΟΙ ΕΚΠΑΊΔΕΥΣΗΣ Μέθοδοι Μετασχηματισμού Μέθοδοι Προσαρμογής Αλγορίθμων ΣΤΑΤΙΣΤΙΚΉ ΣΥΝΌΛΩΝ ΔΕΔΟΜΈΝΩΝ ΠΕ ΜΕΤΡΙΚΈΣ ΑΞΙΟΛΌΓΗΣΗΣ Μετρικές Διχοτόμησης Μετρικές Κατάταξης ΜΕΊΩΣΗ ΤΗΣ ΔΙΆΣΤΑΣΗΣ ΤΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΏΝ Επιλογή Χαρακτηριστικών Εξαγωγή Χαρακτηριστικών ΑΞΙΟΠΟΊΗΣΗ ΔΟΜΉΣ ΕΤΙΚΕΤΏΝ ΚΛΙΜΆΚΩΣΗ ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ VII

8 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ ΚΕΦΑΛΑΙΟ 3:ΚΑΤΗΓΟΡΙΟΠΟΊΗΣΗ ΙΕΡΑΡΧΙΚΏΝ ΔΕΔΟΜΈΝΩΝ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ ΟΡΙΣΜΌΣ ΜΈΘΟΔΟΙ ΧΕΙΡΙΣΜΟΎ ΔΕΝΤΡΆ ΑΠΌΦΑΣΗΣ ΓΙΑ HMC Ορισμός Προβλήματος Δέντρα Πρόβλεψης Ομαδοποίησης Αλγόριθμος Clus-HMC Αλγόριθμος Clus-SC Αλγόριθμος Clus-HSC Σύγκριση ΙΕΡΑΡΧΊΕΣ ΔΟΜΗΜΈΝΕΣ ΜΕ DAGS Προσαρμογή του Clus-HMC Προσαρμογή του Clus-HSC ΜΕΤΡΙΚΈΣ ΑΞΙΟΛΌΓΗΣΗΣ ΠΡΌΒΛΕΨΗΣ Ιεραρχική Απώλεια Καμπύλη Ακρίβειας-Επανάκλησης ΚΕΦΑΛΑΙΟ 4:ΕΡΓΑΛΕΊΑ WEKA Σύνολο Δεδομένων Αρχείο ARFF Κατηγοριοποιητής Φίλτρα WEKA API MULAN Μορφή Δεδομένων Εκπαιδευτές Πολλαπλών Ετικετών ΚΕΦΑΛΑΙΟ 5:ΠΕΙΡΑΜΑΤΙΚΈΣ ΜΕΤΡΉΣΕΙΣ ΠΑΡΆΜΕΤΡΟΣ W ΠΑΡΆΜΕΤΡΟΣ MINCASES ΠΑΡΆΜΕΤΡΟΣ THRESHOLD ΠΑΡΆΜΕΤΡΟΣ SIGNIFICANT LEVEL ΚΕΦΑΛΑΙΟ 6:ΑΝΆΛΥΣΗ ΚΏΔΙΚΑ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΊ MultiClass Μετασχηματισμοί Ειδικοί Μετασχηματισμοί ΑΛΓΌΡΙΘΜΌΣ CLUSHMC Υλοποίηση Δέντρου Απόφασης Υλοποίηση Αλγόριθμου Χρήσιμες Μέθοδοι ΚΕΦΑΛΑΙΟ 7:ΣΥΜΠΕΡΆΣΜΑΤΑ...85 VIII ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

9 ΠΕΡΙΕΧΟΜΕΝΑ 7.1ΠΕΠΡΑΧΘΈΝΤΑ - ΠΡΟΒΛΉΜΑΤΑ ΑΝΟΙΧΤΆ ΖΗΤΉΜΑΤΑ ΠΑΡΑΡΤΗΜΑ I:ΑΝΑΦΟΡΈΣ...90 ΠΑΡΑΡΤΗΜΑ II:ΑΚΡΏΝΥΜΑ...95 ΠΑΡΑΡΤΗΜΑ III:ΓΛΩΣΣΆΡΙΟ...97 ΠΑΡΑΡΤΗΜΑ IV:ΕΥΡΕΤΉΡΙΟ...99 ΠΑΡΑΡΤΗΜΑ V:ΚΏΔΙΚΑΣ ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ IX

10 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ Λ ί σ τ α Σ χ η μ ά τ ω ν ΕΙΚΌΝΑ 1: (Α) ΜΙΑ ΜΙΚΡΉ ΙΕΡΑΡΧΊΑ. ΤΑ ΟΝΌΜΑΤΑ ΤΩΝ ΚΛΆΣΕΩΝ ΤΩΝ ΕΤΙΚΕΤΏΝ ΑΠΕΙΚΟΝΊΖΟΥΝ ΤΗΝ ΘΈΣΗ ΤΟΥΣ ΣΤΗΝ ΙΕΡΑΡΧΊΑ. (Β) ΤΟ ΣΎΝΟΛΟ ΤΩΝ ΚΛΆΣΕΩΝ {1, 2, 2.2}, ΥΠΟΔΗΛΏΝΕΤΕ ΑΠΌ ΤΟ ΈΝΤΟΝΟ ΓΡΆΦΗΜΑ ΣΤΗΝ ΙΕΡΑΡΧΊΑ ΣΑΝ ΔΙΆΝΥΣΜΑ...43 ΕΙΚΌΝΑ 2:(Α) HMC: ΈΝΑ ΔΈΝΤΡΟ ΠΟΥ ΠΡΟΒΛΈΠΕΙ ΣΕ ΚΆΘΕ ΦΎΛΛΟ ΤΗΝ ΠΙΘΑΝΌΤΗΤΑ ΓΙΑ ΚΆΘΕ ΚΛΆΣΗ ΣΤΗΝ ΙΕΡΑΡΧΊΑ. (Β) SC: ΈΝΑ ΞΕΧΩΡΙΣΤΌ ΔΈΝΤΡΟ ΓΙΑ ΚΆΘΕ ΚΛΆΣΗ. (Γ) HSC: ΈΝΑ ΞΕΧΩΡΙΣΤΌ ΔΈΝΤΡΟ ΓΙΑ ΚΆΘΕ ΆΚΡΗ ΤΗΣ ΙΕΡΑΡΧΊΑΣ. ΣΤΟ ΑΡΙΣΤΕΡΌ ΜΈΡΟΣ ΦΑΊΝΕΤΑΙ ΠΩΣ ΤΑ ΔΈΝΤΡΑ ΟΡΓΑΝΏΝΟΝΤΑΙ ΣΤΗΝ ΙΕΡΑΡΧΊΑ ΤΩΝ ΚΛΆΣΕΩΝ. ΣΤΟ ΔΕΞΙΌ ΜΈΡΟΣ ΠΑΡΟΥΣΙΆΖΟΝΤΑΙ ΤΑ ΦΎΛΛΑ T(2.1 2) ΚΑΙ Τ(2.2 2) ΠΟΥ ΠΡΟΒΛΈΠΟΥΝ ΤΟΥΣ ΌΡΟΥΣ ΠΙΘΑΝΟΤΉΤΩΝ, ΚΑΙ ΤΑ ΔΈΝΤΡΑ Τ(1), Τ(2) ΚΑΙ Τ(3) ΕΊΝΑΙ ΌΜΟΙΑ ΜΕ ΑΥΤΆ ΤΟΥ SC ΕΙΚΌΝΑ 3: (Α)ΜΙΑ ΙΕΡΑΡΧΊΑ ΚΛΆΣΕΩΝ ΌΠΩΣ ΣΧΗΜΑΤΊΖΕΤΑΙ ΣΑΝ ΓΡΆΦΗΜΑ DAG. ΤΑ ΣΧΕΤΙΚΆ ΜΕ ΤΗΝ ΚΛΆΣΗ ΒΆΡΗ ΣΗΜΕΙΏΝΟΝΤΑΙ ΚΆΤΩ ΑΠΌ ΤΗΝ ΚΛΆΣΗ ΚΑΙ ΥΠΟΛΟΓΊΖΟΝΤΑΙ ΓΙΑ ΤΟΝ CLUS-HMC ΜΕ ΤΗΝ ΑΘΡΟΙΣΤΙΚΉ ΣΥΝΆΡΤΗΣΗ ΚΑΙ ΓΙΑ. (Β) ΤΑ ΔΈΝΤΡΑ ΣΧΗΜΑΤΊΖΟΝΤΑΙ ΜΕ ΤΟΝ ΑΛΓΌΡΙΘΜΟ CLUS-HSC. ΑΝ ΥΠΟΤΕΘΕΊ ΌΤΙ ΤΑ ΔΈΝΤΡΑ ΠΡΟΒΛΈΠΟΥΝ, ΓΙΑ ΚΆΘΕ ΔΕΔΟΜΈΝΟ ΣΤΙΓΜΙΌΤΥΠΟ ΕΛΈΓΧΟΥ, ΟΙ ΌΡΟΙ ΤΩΝ ΠΙΘΑΝΟΤΉΤΩΝ ΣΗΜΕΙΏΝΟΝΤΑΙ ΚΆΤΩ ΑΠΌ ΚΆΘΕ ΔΈΝΤΡΟ. Ο ΑΛΓΌΡΙΘΜΟΣ ΠΡΟΒΛΈΠΕΙ ΤΗΝ ΠΙΘΑΝΌΤΗΤΑ ΜΙΑ ΔΟΘΕΊΣΑΣ ΚΛΆΣΗΣ C ΜΕ ΣΥΝΔΥΑΣΤΙΚΌ ΚΑΝΌΝΑ...49 X ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

11 ΛΙΣΤΑ ΠΙΝΑΚΩΝ Λ ί σ τ α Π ι ν ά κ ω ν ΠΊΝΑΚΑΣ 1: ΠΑΡΆΔΕΙΓΜΑ ΔΕΔΟΜΈΝΩΝ ΠΟΛΛΑΠΛΉΣ ΕΤΙΚΈΤΑΣ...21 ΠΊΝΑΚΑΣ 2: ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΊ ΤΩΝ ΔΕΔΟΜΈΝΩΝ ΤΟΥ ΠΊΝΑΚΑ 1 ΧΡΗΣΙΜΟΠΟΙΏΝΤΑΣ (Α)ΑΝΤΙΓΡΑΦΉ, (Β)ΑΝΤΙΓΡΑΦΉ-ΒΆΡΟΣ, (Γ)ΕΠΙΛΟΓΉ ΜΈΓΙΣΤΟΥ, (Δ) ΕΠΙΛΟΓΉ ΕΛΆΧΙΣΤΟΥ, (Ε) ΕΠΙΛΟΓΉ ΤΥΧΑΊΟΥ, (ΣΤ) ΠΑΡΆΒΛΕΨΗ...23 ΠΊΝΑΚΑΣ 3: ΜΕΤΑΣΧΗΜΑΤΙΣΜΌΣ ΤΩΝ ΔΕΔΟΜΈΝΩΝ ΤΟΥ ΠΊΝΑΚΑ 1 ΧΡΗΣΙΜΟΠΟΙΏΝΤΑΣ ΤΗΝ ΜΈΘΟΔΟ ΤΟΥ ΔΥΝΑΜΟΣΎΝΟΛΟΥ (Α) ΚΑΙ ΠΑΡΆΔΕΙΓΜΑ ΕΞΑΓΩΓΉ ΚΑΤΆΤΑΞΗΣ ΜΕ LP...24 ΠΊΝΑΚΑΣ 4: ΤΑ ΣΎΝΟΛΑ ΔΕΔΟΜΈΝΩΝ ΠΟΥ ΣΧΗΜΑΤΊΖΟΝΤΑΙ ΜΕ ΤΗΝ ΜΈΘΟΔΟ BR...24 ΠΊΝΑΚΑΣ 5: ΤΑ ΣΎΝΟΛΑ ΔΕΔΟΜΈΝΩΝ ΠΟΥ ΣΧΗΜΑΤΊΖΟΝΤΑΙ ΜΕ ΤΗΝ ΜΈΘΟΔΟ RPC...25 ΠΊΝΑΚΑΣ 6: Ο ΑΛΓΌΡΙΘΜΟΣ ΕΠΑΓΩΓΉΣ ΑΠΌ ΠΆΝΩ ΠΡΟΣ ΤΑ ΚΆΤΩ ΓΙΑ ΤΑ ΔΈΝΤΡΑ PCT ΌΠΟΥ I ΤΑ ΣΤΙΓΜΙΌΤΥΠΑ ΕΚΠΑΊΔΕΥΣΗΣ, T ΤΟ ΧΑΡΑΚΤΗΡΙΣΤΙΚΌ ΕΛΈΓΧΟΥ, P Ο ΧΏΡΟΣ ΠΟΥ ΕΠΆΓΕΤΑΙ ΑΠΌ ΤΟ T ΓΙΑ ΤΟ I ΚΑΙ H Η ΕΥΡΙΣΤΙΚΉ ΤΙΜΉ ΤΟΥ T. Ο ΕΚΘΈΤΗΣ * ΑΦΟΡΆ ΤΙΣ ΤΡΈΧΟΝΤΕΣ ΤΙΜΈΣ ΤΩΝ ΜΕΤΑΒΛΗΤΏΝ. ΟΙ ΣΥΝΑΡΤΉΣΕΙΣ...40 ΠΊΝΑΚΑΣ 7: ΠΑΡΆΔΕΙΓΜΑ ΑΡΧΕΊΟΥ ARFF ΣΤΟ WEKA...57 ΠΊΝΑΚΑΣ 8 (Α) ΔΉΛΩΣΗ ΕΤΙΚΕΤΏΝ ΣΤΟ ΑΡΧΕΊΟ ARFF, (Β) ΔΉΛΩΣΗ ΕΤΙΚΕΤΏΝ ΣΤΟ ΑΡΧΕΊΟ XML, (Γ) ΔΉΛΩΣΗ ΙΕΡΑΡΧΙΚΏΝ ΣΧΈΣΕΩΝ ΜΕΤΑΞΎ ΕΤΙΚΕΤΏΝ ΣΤΟ ΑΡΧΕΊΟ XML...60 ΠΊΝΑΚΑΣ 9 : ΜΕΤΡΉΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΡΆΜΕΤΡΟ W ΠΊΝΑΚΑΣ 10 : ΜΕΤΡΉΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΡΆΜΕΤΡΟ MINCASES...66 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ XI

12 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ ΠΊΝΑΚΑΣ 11 : ΜΕΤΡΉΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΡΆΜΕΤΡΟ THRESHOLD...68 ΠΊΝΑΚΑΣ 12 : ΜΕΤΡΉΣΕΙΣ ΓΙΑ ΤΗΝ ΠΑΡΆΜΕΤΡΟ SIGNIFICANT LEVEL...69 XII ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

13 Κ Ε Φ Α Λ Α Ι Ο 1 : Ε ι σ α γ ω γ ή

14 ΜΠΑΚΙΡΤΖΌΓΛΟΥ ΣΤΑΥΡΟΣ ΕΙΣΑΓΩΓΉ Είναι γενικότερα αποδεκτό, ότι η σημερινή εποχή χαρακτηρίζεται από την εισβολή μεγάλου όγκου πληροφοριών σε όλους του τομείς της ζωής και σε κάθε δραστηριότητα του ανθρώπου. Φυσιολογικά λοιπόν, η γνώση και η κατοχή μιας πληροφορίας μπορεί να είναι σημαντικό πλεονέκτημα για οποιονδήποτε. Πλέον με την άνθιση του διαδικτύου, είναι προσβάσιμη στον καθένα, σχεδόν κάθε πληροφορία που μπορεί να υπάρχει για κάποιο συγκεκριμένο θέμα. Το ζητούμενο είναι, το πόσο σύντομα χρονικά μπορεί κάποιος να ανακτήσει την πληροφορία που τον ενδιαφέρει, αλλά και το πως θα ερμηνεύσει το περιεχόμενο της, καθώς το μεγαλύτερο μέρος της δεν είναι ταξινομημένο και πολλές φορές η πληροφορία από μόνη της δεν σημαίνει κάτι απτό. Στους διάφορους servers στο διαδίκτυο, άλλα και στον κάθε προσωπικό υπολογιστή, αποθηκεύονται μεγάλα μεγέθη πληροφορίας, που μπορούν να είναι άρθρα, ιστολόγια, φωτογραφίες και εικόνες, μουσικά κομμάτια ή αρχεία βίντεο. Αυτά μπορούν να περιέχουν γνώση για κάθε τομέα ανθρώπινης ενασχόλησης ανήκοντας ταυτόχρονα σε μία ή και περισσότερες θεματικές ενότητες. Επιπλέον κάθε αντικείμενο μπορεί να εμπεριέχει περισσότερη πληροφορία από ότι αρχικά είναι εμφανής. Όλα αυτά τα αντικείμενα-πληροφορίες είναι προσβάσιμα από κάθε εξουσιοδοτημένο χρήστη, αλλά αυτό από μόνο του δεν εξασφαλίζει ότι θα βρεθεί η πληροφορία που χρειάζεται κάποιος εκτελώντας κάποια διαδικασία αναζήτησης. Ο όγκος είναι τέτοιος, ώστε δημιουργήθηκε η ανάγκη όλα αυτά τα δεδομένα να ταξινομηθούν σε κατηγορίες ή να δημιουργηθούν τρόποι ταξινόμησης νέων περιπτώσεων. Η κατηγοριοποίηση δεδομένων εξελίχθηκε ταυτόχρονα με την χρήση των υπολογιστών και βοήθησε σημαντικά πολλούς επιστημονικούς κλάδους, όπως για παράδειγμα την εφαρμοσμένη γενετική στην καταγραφή του ανθρώπινου γονιδιώματος. Εφαρμογές κατηγοριοποίησης έκαναν την εμφάνιση τους στο διαδίκτυο, με την χρήση αρχικά θεματικών καταλόγων ταξινομώντας ιστοσελίδες σε στατικές κατηγορίες και στην συνέχεια με πιο σύνθετες μηχανές αναζήτησης, όπου στον πυρήνα τους η ταξινόμηση γίνεται με πολύπλοκους αλγόριθμους. Σήμερα η κατηγοριοποίηση των δεδομένων είναι ένα πρόβλημα που ακόμη απασχολεί και παρουσιάζει μεγάλο ενδιαφέρον αποτελώντας εργαλείο για την εξόρυξη δεδομένων 14 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

15 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ και την ανάκτηση πληροφορίας στα πλαίσια της μηχανικής μάθησης. Ένα δημοφιλής τρόπος ταξινόμησης, είναι ο καθορισμός μιας ετικέτας (Label) που υποδηλώνει την κατηγορία όπου ανήκει ένα αντικείμενο. Η ετικέτα αυτή, επισυνάπτεται στο αντικείμενο, κάνοντας ευκολότερη την ταξινόμηση και την αναζήτηση του. Η πληροφορία αυτή μπορεί να χρησιμοποιηθεί σε μεθόδους εφαρμογής μηχανικής μάθησης, για να γίνει η πρόβλεψη της κατηγορίας για ένα νέο άγνωστο σχετικό αντικείμενο. Γενικότερα η ταξινόμηση με ετικέτες χωρίζεται σε δύο κατηγορίες, την ταξινόμηση με μοναδική ετικέτα (single-label classification) και την ταξινόμηση με πολλαπλές ετικέτες (multi-label classification) Αντικείμενο της παρούσας εργασίας είναι η ανάπτυξη αλγορίθμων για την διαχείριση προβλημάτων ταξινόμησης δεδομένων πολλαπλής ετικέτας. Συγκεκριμένα στα πλαίσια της εργασίας επεκτάθηκε η βιβλιοθήκη του λογισμικού MULAN, με μεθόδους μετασχηματισμού δεδομένων και την υλοποίηση ενός αλγορίθμου που βασίζεται στην δομή ενός δέντρου απόφασης, από την υπάρχουσα βιβλιογραφία. Η εργασία δομείται σε κεφάλαια ως εξής: Στο Κεφάλαιο 2 αρχικά γίνεται μια γενική ανάλυση του τι ακριβώς είναι η κατηγοριοποίηση δεδομένων πολλαπλών ετικετών. Δίνεται ο ορισμός και αναφέρονται οι περιπτώσεις προβλημάτων συμπεριλαμβάνει. Στην συνέχεια παρουσιάζονται οι μέθοδοι μετασχηματισμού δεδομένων από πολλαπλές σε απλή ετικέτα καθώς και οι προσαρμοσμένοι αλγόριθμοι που μπορούν να επεξεργαστούν άμεσα δεδομένα τέτοιας μορφής. Έπειτα περιγράφονται οι μετρικές που εφαρμόζονται για να γίνει ο έλεγχος απόδοσης της πρόβλεψης των μεθόδων και το κεφάλαιο ολοκληρώνεται με μια αναφορά στα προβλήματα που μπορούν να παρουσιαστούν σε τέτοιου είδους εργασίες κατηγοριοποίησης. Στο Κεφάλαιο 3 αναλύεται ένα πιο ειδικό κομμάτι, η κατηγοριοποίηση ιεραρχικών δεδομένων πολλαπλών ετικετών. Ορίζονται η δομή της ιεραρχίας ανάμεσα στις ετικέτες και το αντίστοιχο πρόβλημα ταξινόμησης. Στη συνέχεια περιγράφονται τρεις αλγόριθμοι που στηρίζονται στα δέντρα απόφασης, προσαρμοσμένοι έτσι ώστε να χειριστούν δεδομένα με ετικέτες που συσχετίζονται μεταξύ τους με ιεραρχική δομή. Μετά τη σύγκριση των αλγορίθμων, ακολουθεί η περιγραφή της τροποποίησης του καθένα, έτσι ώστε να μπορούν να χρησιμοποιηθούν σε προβλήματα που περιγράφονται από γραφήματα DAG. Στο τέλος του κεφαλαίου ορίζονται οι μετρικές ελέγχου απόδοσης των αλγορίθμων. ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 15

16 ΜΠΑΚΙΡΤΖΌΓΛΟΥ ΣΤΑΥΡΟΣ Στο Κεφάλαιο 4 γίνεται μια σύντομη αναφορά στα εργαλεία που χρειάστηκαν και χρησιμοποιήθηκαν για την περάτωση της εργασίας. Πρώτα αναφέρεται το λογισμικό εφαρμογής αλγόριθμων Μηχανικής Μάθησης WEKA. Αναλύεται σύντομα η δομή των συνόλων δεδομένων που χρησιμοποιεί, κάποιες βασικές έννοιες για το API της εφαρμογής. Στο τέλος αναφέρεται η βιβλιοθήκη λογισμικού WEKA, αναλύοντας κυρίως την τροποποίηση της δομής που χρειάζεται να έχουν τα δεδομένα, έτσι ώστε να μπορεί η εφαρμογή να τα επεξεργαστεί. Στο Κεφάλαιο 5 γίνεται μια πειραματική μελέτη του αλγόριθμου Clus-HMC που υλοποιήθηκε στα πλαίσια της εργασίας για το σύνολο δεδομένο PhenoFun. Παρουσιάζονται πίνακες με τα αποτελέσματα των τιμών που δείχνουν οι μετρικές του MULAN, έτσι όπως προκύπτουν για διάφορες τιμές των παραμέτρων του αλγόριθμου. Στο Κεφάλαιο 6 αναλύονται εκτενώς σημαντικά κομμάτια του κώδικα υλοποίησης που κρίνεται ότι χρειάζονται ιδιαίτερη επεξήγηση. Σε πρώτο επίπεδο παρουσιάζεται ο κώδικας των μεθόδων μετασχηματισμού και σε δεύτερο επίπεδο ο κώδικας της υλοποίησης του αλγόριθμοι ClusHMC. Στο Κεφάλαιο 7 γίνεται αρχικά μια κριτική αναφορά στα πεπραχθέντα της εργασίας, συνοψίζονται τα συμπεράσματα της, αναλύονται τα προβλήματα που προέκυψαν και προτείνονται ζητήματα που μπορούν να αναπτυχθούν μελλοντικά. Στο Παράρτημα I παρουσιάζονται αλφαβητικά η βιβλιογραφία και οι δικτυακοί τόποι που αναφέρονται στην εργασία. Στο Παράρτημα IΙ παρουσιάζονται τα ακρωνύμια τα οποία χρησιμοποιούνται σε αυτή την εργασία για την διευκόλυνση του αναγνώστη. Στο Παράρτημα IIΙ παρουσιάζεται το γλωσσάριο ξενικών όρων οι οποίοι χρησιμοποιούνται σε αυτή την εργασία για την διευκόλυνση του αναγνώστη. Στο Παράρτημα IV παρουσιάζεται το ευρετήριο των όρων οι οποίοι χρησιμοποιούνται σε αυτή την εργασία για την διευκόλυνση του αναγνώστη. Στο Παράρτημα V παρουσιάζεται συνολικά ο κώδικα που γράφτηκε στα πλαίσια της εργασίας. 16 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

17 Κ Ε Φ Α Λ Α Ι Ο 2 : Μ ά θ η σ η Α π ό Δ ε δ ο μ έ ν α Π ο λ λ α π λ ώ ν Ε τ ι κ ε τ ώ ν

18 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ ΜΑΘΗΣΗ ΑΠΟ ΔΕΔΟΜΕΝΑ ΠΟΛΛΑΠΛΩΝ ΕΤΙΚΕΤΩΝ 2.1 Κατηγοριοποίηση Δεδομέ νων Η εργασία της κατηγοριοποίησης βασίζεται στην εξέταση των χαρακτηριστικών ενός αντικειμένου, το όποιο με βάση τις τιμές και των συνδυασμό τους για τα χαρακτηριστικά αυτά, αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κατηγοριών (κλάσεων) και από το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου, το οποίο αποτελείται από παραδείγματα που έχουν ήδη συνδεθεί με κάποια κατηγορία. Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο το οποίο μπορεί να εφαρμοστεί για να αντιστοιχιστούν δεδομένα που δεν έχουν ακόμα κατηγοριοποιηθεί. Υπάρχουν διάφορες μέθοδοι και διαφορετικοί τύποι δεδομένων, όπου για να γίνει η ταξινόμηση ακολουθείται το ίδιο πλάνο. Στα κλασικά προβλήματα αναγνώρισης προτύπων, οι κλάσεις είναι εξ ορισμού αμοιβαία αποκλειστικές για κάθε αντικείμενο. Πρακτικά αυτό σημαίνει ότι κάθε αντικείμενο μπορεί να ανήκει σε μία μόνο από τις πολλές κλάσεις. Τα προβλήματα αυτά ονομάζονται πολλαπλής τάξης (multi-class). Υπάρχουν όμως περιπτώσεις εφαρμογών όπου ένα αντικείμενο μπορεί να ανήκει ταυτόχρονα σε διαφορετικές κλάσεις. Ειδικότερα, το πεδίο ορισμού κάθε κλάσης μπορεί να επικαλύπτει το πεδίο ορισμού κάποιας άλλης, σχετίζοντας ένα αντικείμενο με πολλές κλάσης. Τέτοιους είδους προβλήματα ονομάζονται πολλαπλών ετικετών (multi-label). Συγκεκριμένα ένα πρόβλημα κατηγοριοποίησης αποτελείται από ένα σύνολο παραδειγμάτων για εκπαίδευση, της μορφής x i, f x i, όπου χρησιμοποιούνται με στόχο την απόκτηση γνώσης για την δημιουργία μιας προσεγγιστικής συνάρτησης f x. Στην κατηγοριοποίηση πολλαπλών ετικετών, η προσεγγιστική συνάρτηση f x μπορεί να πάρει αρκετές τιμές από το σύνολο των ετικετών της κλάσης. Η βασική κλάση δεν είναι αμοιβαία αποκλειστική για κάθε αντικείμενο και μπορεί να επικαλύπτει εξ ορισμού άλλες κλάσης. Το πρόβλημα τυποποιείται, χαρακτηρίζοντας ως X το σύνολο των παραδειγμάτων εκπαίδευσης, ως ={1,..., k} το σύνολο των ετικετών της κλάσης, δεδομένου ενός συνόλου παραδειγμάτων εκπαίδευσης της μορφής x i,y i, x i X, Y i 2, έχοντας σαν στόχο την εκπαίδευση μιας προσεγγιστικής συνάρτησης f x, η οποία παίρνει μοναδικές τιμές από το 2 18 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

19 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ παρουσιάζοντας μικρό σφάλμα. Ο ορισμός τους σφάλματος στην περίπτωση προβλημάτων πολλαπλής ετικέτας, είναι δύσκολος εξ αιτίας των διαφορετικών λογικών ερμηνειών. Στις περισσότερες περιπτώσεις η προσέγγιση πολλαπλής ετικέτας επιφέρει μια ταξινόμηση των πιθανών ετικετών για ένα στιγμιότυπο (instance) του αντικειμένου και γι αυτό το λόγο ο αλγόριθμος εκπαίδευσης μπορεί να θεωρηθεί ως f : X R. Με αυτό τον τρόπο οι ετικέτες μπορούν να καταταχθούν με την συνάρτηση f x,.. Τυπικά μπορεί να οριστεί μια συνάρτηση κατάταξης μιας ετικέτας l ενός στιγμιότυπου x υπό μια συνάρτηση f ως rank f x,l. Η συνάρτηση rank είναι ένα προς ένα απεικόνιση στο {1,...,k }, όπου ισχύει αν f x,l 1 f x, l 2 τότε rank f x,l 1 rank f x,l 2.[3] 2.2 Κατηγοριοποίηση Ετικετών Ένα μεγάλο κομμάτι επιστημονικής έρευνας γύρω από την μάθηση με επίβλεψη (supervised learning) ασχολείται με δεδομένα μοναδικής ετικέτας. Η κατηγοριοποίηση με μοναδική ετικέτα, παραδοσιακά προσδιορίζει ένα αντικείμενο ακριβώς σε μία κλάση από τις δύο (2) ή περισσότερες πιθανές. Συγκεκριμένα singlelabel classification θεωρείται η διαδικασία μάθησης, όπου ένα σύνολο παραδειγμάτων συσχετίζει αντίστοιχα κάθε παράδειγμα του με μία μοναδική ετικέτα l, που ανήκει σε ένα σύνολο διάσπαρτων ετικετών L, όπου L 1. Αν το L =2 τότε το πρόβλημα μάθησης ονομάζεται δυαδικό (binary) πρόβλημα κατηγοριοποίησης ή φιλτράρισμα (filtering) σε περιπτώσεις δεδομένων κειμένου ή διαδικτύου, ενώ αν το L 2 τότε έχουμε να κάνουμε με πρόβλημα κατηγοριοποίησης πολλαπλών ετικετών. Κατά την κατηγοριοποίηση πολλαπλών ετικετών (multi-label classification), τα παραδείγματα συσχετίζονται αντίστοιχα με ένα σύνολο από ετικέτες Υ που είναι υποσύνολο των ετικετών L ώστε να ισχύει Υ L. Η κατηγοριοποίηση πολλαπλών ετικετών, ξεκίνησε να έχει εφαρμογή σε προβλήματα ταξινόμησης δεδομένων κειμένων αλλά και ιατρικών διαγνώσεων. Για παράδειγμα, ένα άρθρο μιας εφημερίδας μπορεί να αφορά ταυτόχρονα διαφορετικές κατηγορίες ειδήσεων, ενώ αντίστοιχα, η διάγνωση ενός ασθενή μπορεί να δείχνει ότι πάσχει από περισσότερες από μια παθήσεις. Σήμερα η εφαρμογή των μεθόδων κατηγοριοποίησης πολλαπλών ετικετών βρίσκει εφαρμογή στην βιολογία, στην γενετική, στην μουσική, στην ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 19

20 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ σημασιολογική ταυτοποίηση εικόνων και βίντεο καθώς και σε κατευθυνόμενο μάρκετινγκ [1][2]. Υπάρχουν πιο εξειδικευμένα προβλήματα ταξινόμησης, όπου κάθε κλάσηκατηγορία που αντιπροσωπεύεται από μια ετικέτα, μπορεί να χωρίζεται σε μία ή περισσότερες πιο συγκεκριμένες υποκατηγορίες και αυτές με την σειρά τους το ίδιο. Οι κλάσεις με αυτό τον τρόπο συσχετίζονται μεταξύ τους σε μια ιεραρχική δομή που έχει συγκεκριμένο αριθμό επιπέδων. Όταν οι ετικέτες ανήκουν σε δεδομένα που κατηγοριοποιούνται με ιεραρχική δομή τότε το πρόβλημα ονομάζεται ιεραρχική ταξινόμηση (Hierarchical Classification). Αν κάθε παράδειγμα καθορίζεται από περισσότερες ετικέτες που ανήκουν σε διαφορετικούς κόμβους της ιεραρχικής δομής, τότε το πρόβλημα ονομάζεται ιεραρχική ταξινόμηση πολλαπλών ετικετών (hierarchical multi-label classification) [1]. 2.3 Μέθοδοι Εκπαίδευσης Υπάρχουν δύο κύριες κατηγορίες εργασιών στην μάθηση με επίβλεψη από δεδομένα πολλαπλών ετικετών, η κατηγοριοποίηση (multi-label classification-mlc) και ή κατάταξη (label ranking-lr). Η κατηγοριοποίηση εμπλέκεται με την εκπαίδευση ενός μοντέλου που παράγει την διχοτόμηση ενός συνόλου ετικετών, σε σχετικές και άσχετες, ανάλογα με το αν είναι θετικές η αρνητικές σε ένα αντικείμενο που τίθεται ως ερώτημα πρόβλεψης. Η κατάταξη εμπλέκεται με ένα μοντέλο εκπαίδευσης που παράγει μια ταξινόμηση των ετικετών κάθε κλάσης., σύμφωνα με το συσχετισμός τους με το αντικείμενο ερώτησης. Τα μοντέλα κατάταξης, μπορούν να εκπαιδευτούν από δεδομένα που περιέχουν σύνολα μονής ετικέτας, σύνολα κατάταξης, καθώς και ζεύγη προτιμήσεων πάνω στο σύνολο των ετικετών. Οι παραπάνω κατηγορίες είναι ιδιαίτερα χρήσιμες στην εξόρυξη δεδομένων πολλαπλής ετικέτας. Η εξέλιξη τους έχει δώσει μεθόδους όπου λειτουργούν συνδυαστικά, αξιοποιώντας ταυτόχρονα την ταξινόμηση και την διχοτόμηση ενός συνόλου ετικετών από δεδομένα πολλαπλών ετικετών. Αυτή η κατηγορία εργασιών, ονομάζεται κατάταξη πολλαπλών ετικετών (multi-label ranking-mlr)[5]. Οι μέθοδοι που χρησιμοποιούνται από τις παραπάνω εργασίες για την επίλυση προβλημάτων πολλαπλής ετικέτας, χωρίζονται σε δύο κύριες κατηγορίες: α) Στις μεθόδους προβλημάτων μετασχηματισμού (problem transformation methods) 20 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

21 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ β) Στις μεθόδους προσαρμογής αλγορίθμων (algorithm adaptation methods). Στην πρώτη κατηγορία περιλαμβάνονται οι μέθοδοι που είναι ανεξάρτητες από τον αλγόριθμο που θα χρησιμοποιηθεί. Μετασχηματίζουν το πρόβλημα εκπαίδευσης, από κατηγοριοποίησης πολλαπλής ετικέτας σε ένα ή περισσότερα προβλήματα κατηγοριοποίησης μονής ετικέτας ή παλινδρόμησης (regression), όπου για τέτοιου τύπου προβλήματα υπάρχει μεγάλος αριθμός αλγόριθμων μάθησης. Η δεύτερη κατηγορία περιλαμβάνει μεθόδους που χρησιμοποιούν συγκεκριμένους αλγόριθμους μάθησης, προσαρμόζοντας και επεκτείνοντας τους, ώστε να μπορούν να χειριστούν άμεσα δεδομένα πολλαπλής ετικέτας. Για την συμβατική περιγραφή των μεθόδων, θα χρησιμοποιηθεί το L={λ j : j=1 M } για να δηλώσει ένα πεπερασμένο σύνολο ετικετών σε ένα πρόβλημα εκπαίδευσης πολλαπλών ετικετών και D={ x i,y i,i=1 N } για να δηλώσει το σύνολο των παραδειγμάτων εκπαίδευση, όπου x i είναι το διάνυσμα του χαρακτηριστικού και Y i L το σύνολο των ετικετών του i-οστού παραδείγματος Μέ θοδοι Μετασχηματισμού Οι μέθοδοι αυτοί ασχολούνται κυρίως με τον μετασχηματισμό του συνόλου των δεδομένων με στόχο να απλοποιήσουν τα αντικείμενα που ανήκουν σε πολλές ετικέτες, έτσι ώστε να ανήκουν σε μία. Η κάθε μέθοδος αντιμετωπίζει διαφορετικά το πρόβλημα και παράγει ένα νέο σύνολο, μορφής συμβατής για χρήση από αλγόριθμους κατηγοριοποίησης μοναδικής ετικέτας. Υπάρχουν μέθοδοι που μετατρέπουν άμεσα το πρόβλημα μάθησης σε κλασική κατηγοριοποίηση μοναδικής ετικέτας. Ένας τέτοιος κατηγοριοποιητής, μπορεί να παράξει μια κατανομή πιθανοτήτων για όλες τις κλάσεις και να χρησιμοποιηθεί για την εκπαίδευση προβλημάτων κατάταξης. Για την περιγραφή των μεθόδων θα χρησιμοποιηθεί το σύνολο δεδομένων πολλαπλών ετικετών του πίνακα 1, που αποτελείται από 4 στιγμιότυπα παραδείγματα Παράδειγμα Σύνολο Ετικετών 1 {λ 1, λ 4 } 2 {λ 3,λ 4 } 3 {λ 1 } 4 {λ 2, λ 3, λ 4 } Πίνακας 1: Παράδειγμα δεδομένων πολλαπλής ετικέτας ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 21

22 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ που περιγράφονται από μια η περισσότερες ετικέτες λ 1, λ 2, λ 3, λ 4. Η πρώτη μέθοδος είναι ο μετασχηματισμός Αντιγραφής (Copy) ή PT5, που αντικαθιστά κάθε παράδειγμα πολλαπλής ετικέτας με μορφή x i,y i, με πλήθος Y i παραδειγμάτων τύπου x i, λ j, για κάθε λ j Y i. Στην συνέχεια εκπαιδεύει με το τροποποιημένο σύνολο δεδομένων ένα κατηγοριοποιητή μονής ετικέτας που βασίζεται στην κάλυψη (coverage-based). Ένας τέτοιος κατηγοριοποιητής κατανομής (Distribution) παράγει ως αποτέλεσμα μια κατανομή από βαθμούς βεβαιότητας ή πιθανότητες, για όλες τις ετικέτες στο σύνολο L. Ολοκληρώνοντας επεξεργάζεται το αποτέλεσμα της κατανομής, παράγοντας ένας σύνολο από ετικέτες. Ένας απλώς τρόπος για επιτευχθεί αυτό, είναι να παραχθούν οι ετικέτες για τις οποίες ο βαθμός βεβαιότητας είναι μεγαλύτερος από ένα καθορισμένο κατώφλι ή πιο σύνθετα, να επιλεχθούν οι ετικέτες για τις οποίες η τιμή του βαθμού βεβαιότητας είναι κάποιο ποσοστό της μέγιστης τιμής. Μια παραλλαγή αυτού του μετασχηματισμού ονομάζεται Αντιγραφής-Βάρους (Copy- Weight), όπου η διαφορά σε σχέση με την αρχική μέθοδο, είναι η συσχέτιση κάθε παραγόμενου παραδείγματος, με ένα βάρος της μορφής 1 {Y i }. Μια οικογένεια παρόμοιων μεθόδων, είναι οι μετασχηματισμοί επιλογής (Select). Η βασική ιδέα λειτουργίας τους, είναι η αντικατάσταση των αντικειμένων του σύνολου των ετικετών Y i, με κάποια από τις ετικέτες του αντικειμένου, σύμφωνα με κάποια συνθήκη επιλογής. Έτσι κρατείται μια ετικέτα και απορρίπτονται οι υπόλοιπες. Η επιλογή αυτή μπορεί να είναι η ετικέτα με την μέγιστη (Select-Max), την ελάχιστη συχνότητα (Select-Min) ή κάποια τυχαία (Select-Random), ανάλογα με τον τύπο μετασχηματισμού που εφαρμόζεται. Η τελευταία μέθοδος αναφέρεται και ως PT1. Η επόμενη μέθοδος ονομάζεται μετασχηματισμός Παράβλεψης (Ignore) ή PT2, και λειτουργεί πιο απλά. Εξετάζει όλα τα παραδείγματα στο σύνολο δεδομένων πολλαπλών ετικετών και απορρίπτει όλα όσα έχουν περισσότερα από μία ετικέτα. Σε αυτές τις απλές μεθόδους το αποτέλεσμα που προκύπτει είναι ένα σύνολο δεδομένων, όπου κάθε παράδειγμα χαρακτηρίζεται από μια μόνο ετικέτα. Το βασικό μειονέκτημα των μεθόδων, είναι ότι απορρίπτεται μεγάλο μέρος της πληροφορίας που περιέχει το αρχικό σύνολο δεδομένων, αλλοιώνοντας την ικανότητα σωστής κατηγοριοποίησης κάθε παραδείγματος. Αυτή η αδυναμία είναι 22 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

23 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ και ο λόγος για τον οποίο δεν χρησιμοποιούνται συχνά. Στο πίνακα 2 παρουσιάζονται οι μετασχηματισμοί. Ο επόμενος μετασχηματισμός αναφέρεται ως Δυναμοσύνολο ετικετών (Label Παρ. Ετικέτα Παρ. Ετικέτα Βάρος Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα 1α λ 1 1α λ λ 4 1 λ 1 1 λ 1 1β λ 4 1β λ λ 4 2 λ 3 2 λ 4 2α λ 3 2α λ λ 1 3 λ 1 3 λ 1 2β λ 4 2β λ λ 4 4 λ 2 4 λ 3 3 λ 1 3 λ (γ) (δ) (ε) 4α λ 2 4α λ β λ 3 4β λ Παρ. Ετικέτα 4γ λ 4 (α) 4γ λ (β) 3 λ 1 (στ) Πίνακας 2: Μετασχηματισμοί των δεδομένων του πίνακα 1 χρησιμοποιώντας (α)αντιγραφή, (β)αντιγραφή-βάρος, (γ)επιλογή μέγιστου, (δ) επιλογή ελάχιστου, (ε) επιλογή τυχαίου, (στ) παράβλεψη Powerset-LP) ή PT3 και είναι μια απλή αλλά αποτελεσματική μέθοδος. Η ιδιαιτερότητα της μεθόδου είναι ότι θεωρεί το κάθε μοναδικό υποσύνολο του συνδυασμού ετικετών που χαρακτηρίζει κάθε παράδειγμα του συνόλου εκπαίδευσης πολλαπλών ετικετών, ως μία μονή ετικέτα-κλάση όπως δείχνει ο πίνακας 3α. Ουσιαστικά διακριτοποιεί κάθε τέτοιο συνδυασμό. Το μετασχηματισμένο σύνολο μπορεί άμεσα να χρησιμοποιηθεί από ένα κατηγοριοποιητής μονή ετικέτας H : X P L όπου P L είναι δυναμικό σύνολο του L. Δεδομένου ενός νέου στιγμιότυπου, ο κατηγοριοποιητής μπορεί εξάγει να την πιθανότερη διακριτή κλάση, η οποία είναι ένα σύνολο από ετικέτες. Αν ο κατηγοριοποιητής παράξει μια κατανομή πιθανοτήτων για κάθε κλάση, τότε η μέθοδος μπορεί να κατατάξει τις ετικέτες σύμφωνα με αυτή την προσέγγιση[6]. Στον πίνακα 3β παρουσιάζεται μια τέτοια κατάταξη, υπολογίζοντας για κάθε ετικέτα το σύνολο των πιθανοτήτων των κλάσεων που την περιέχουν. Με αυτό τον τρόπο μπορούν να λυθούν προβλήματα MLR. Το μειονέκτημα της μεθόδου, είναι ότι μπορεί να συμπεριλάβει πολλές ετικέτες σε κάθε παραγόμενη διακριτή κλάση. Αυτό μπορεί να οδηγήσει στην δημιουργία σύνολων δεδομένων με μεγάλο αριθμό κλάσεων αλλά με μικρή αντιστοιχία παραδειγμάτων για κάθε κλάση. Η πολυπλοκότητα υπολογισμού της LP σε σχέση με τον αριθμό M των ετικετών, εξαρτάται από τον βασικό κατηγοριοποιητή ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 23

24 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ λαμβάνοντας υπόψη τον αριθμό των κλάσεων, ο οποίος είναι ίσος με αριθμό των διαφορετικών ετικετών του συνόλου εκπαίδευσης. Το ανώτερο όριο του αριθμού υπολογίζεται από την συνάρτηση min N,2 M και παρότι τυπικά είναι αρκετά μικρό, διατηρεί ένα σημαντικό πολύπλοκο πρόβλημα, ιδιαίτερα για μεγάλες τιμές των N και M. Παρ. Ετικέτα c p(c x) λ 1 λ 2 λ 3 λ 4 1 λ 1,4 λ 1, λ 3,4 λ 3, λ 1 λ λ 2,3,4 λ 2,3, Σ c p(c x)λ j (α) (β) Πίνακας 3: Μετασχηματισμός των δεδομένων του πίνακα 1 χρησιμοποιώντας την μέθοδο του δυναμοσύνολου (α) και παράδειγμα εξαγωγή κατάταξης με LP. Η παραπάνω μέθοδος μπορεί να επεκταθεί στο μετασχηματισμό κλαδέματος προβλήματος (Pruned Problem Transformation-PTT)[6]. Η μέθοδος κλαδεύει τα σύνολα ετικετών που παρουσιάζονται λιγότερες φορές από ένα μικρό κατώφλι που ορίζεται από τον χρήστη. Προαιρετικά μπορεί να αντικαταστήσει την πληροφορία, εισάγοντας ασυνάρτητα δεδομένα από τα σύνολα ετικετών που υπάρχουν και παρουσιάζονται περισσότερες φορές από την τιμή κατωφλίου. Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα 1 λ 1 1 λ 2 1 λ 3 1 λ 4 2 λ 1 2 λ 2 2 λ 3 2 λ 4 3 λ 1 3 λ 2 3 λ 3 3 λ 4 4 λ 1 4 λ 2 4 λ 3 4 λ 4 (α) (β) (γ) (δ) Πίνακας 4: Τα σύνολα δεδομένων που σχηματίζονται με την μέθοδο BR Από τις πιο συνηθισμένες και πιο δημοφιλής μεθόδους μετασχηματισμού, είναι η μέθοδος δυαδικής σχέσης (Binary Revelance-BR) ή PT4. Η μέθοδος εκπαιδεύει δυαδικούς κατηγοριοποιητές (binary classifier) τόσους όσους και ο αριθμός των ετικετών L. Για κάθε ετικέτα λ που υπάρχει στο σύνολο L ορίζεται ένας κατηγοριοποιητής H l : X {λ, λ}. Η διαδικασία αυτή μετατρέπει το αρχικό σύνολο σε M σύνολα, μορφής D λj, j=1 M που περιέχουν όλα τα παραδείγματα 24 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

25 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ πρωτότυπου συνόλου. Κάθε παράδειγμα καθορίζεται θετικά, σαν αντικείμενο που ανήκει στην ετικέτα λ j, αν αρχικά χαρακτηριζόταν από αυτή την ετικέτα λ j. Διαφορετικά χαρακτηρίζεται αρνητικά ως λ j, όπως φαίνεται στον πίνακα 4. Αυτή η λύση εφαρμόζεται και για την διαχείριση προβλημάτων μοναδικής ετικέτας πολλαπλών κλάσεων με δυαδικό κατηγοριοποιητή. Για την ταξινόμηση ενός νέου παραδείγματος x, η μέθοδος παράγει σαν σύνολο ετικετών, την ένωση των θετικών ετικετών που παράγονται από τους Μ κατηγοριοποιητές όπου αναπαριστώνται ως H PT4 x = λ L {λ }: H λ x =λ. Η μέθοδος των τυχαίων κ-συνόλων δεδομένων (random k-labelsets-rakel) [1], δημιουργεί ένα σύνολο από LP κατηγοριοποιητές. Καθένας τους εκπαιδεύεται χρησιμοποιώντας ένα μικρό, τυχαίο υποσύνολο από το σύνολο των ετικετών. Με αυτό τον τρόπο ο RAKEL καταφέρνει να λάβει υπόψη τους συσχετισμούς της ετικέτας, αποφεύγοντας ταυτόχρονα τα προβλήματα του LP. Μια κατάταξη των ετικετών παράγεται, εξάγοντας τον μέσο όρο, από τις προβλέψεις μηδέν και ένα, από κάθε μοντέλο για κάθε ετικέτα. Η κατάταξη σύγκρισης ζευγών (Ranking Pairwise Comparison-RPC)[7], μετατρέπει το σύνολο πολλαπλών ετικετών, σε Μ Μ 1 2 δυαδικά σύνολα ετικέτας, ένα για κάθε ζεύγος από ετικέτες της μορφής λ i, λ j,1 i j M. Κάθε σύνολο περιέχει τα παραδείγματα από το αρχικό σύνολο D, τα οποία σημαίνονται τουλάχιστον από μία από τις δύο σχετιζόμενες ετικέτες, αλλά όχι και από τις δύο ταυτόχρονα. Ένας δυαδικός κατηγοριοποιητής εκπαιδεύεται από αυτά τα σύνολα δεδομένων και μαθαίνει να διαχωρίζει μεταξύ τους τις δύο ετικέτες,. Δεδομένου ενός νέου στιγμιότυπου, όλοι οι δυαδικοί κατηγοριοποιητές επικαλούνται και σχηματίζεται μια κατάταξη μετρώντας τις εμφανίσεις κάθε ετικέτας. Ένα παράδειγμα εφαρμογής παρουσιάζεται στο πίνακα 5. Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα Παρ. Ετικέτα 1 λ 1, 2 1 λ 1, 3 2 λ 1,4 2 λ 2,3 1 λ 2,4 3 λ 1, 2 2 λ 1,3 3 λ 1, 4 (δ) 2 λ 2,4 4 λ 1,2 3 λ 1, 3 4 λ 1,4 Παρ. Ετικέτα (ε) (α) 4 λ 1,3 (γ) 1 λ 3,4 (β) (στ) Πίνακας 5: Τα σύνολα δεδομένων που σχηματίζονται με την μέθοδο RPC Ο αλγόριθμος πολλαπλών ετικετών με ζεύγη percetron (MLPP), είναι μια ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 25

26 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ παραλλαγή του RPC, που χρησιμοποιεί για τις εργασίες δυαδικής ταξινόμησης, νευρώνες τύπου perceptron. Μια εκδοχή του αλγόριθμο RPC, αφορά ζεύγη πολλαπλών ετικετών από νευρώνες percetron και ονομάζεται αλγόριθμος MLPP[10]. Χρησιμοποιεί τους νευρώνες για να εφαρμόσει δυαδική ταξινόμηση Άλλη μια μέθοδος που επεκτείνει τον RPC είναι ο βαθμονομημένη κατάταξη ετικέτας (Calibrated Label Ranking-CLR)[8]. Εισάγει μια εικονική, επιπρόσθετη ετικέτα, που ενεργεί σαν σημείο διάσπασης της κατάταξης σε σχετικές και άσχετες ετικέτες. Με αυτό τον τρόπο επιλύονται προβλήματα τύπου MLR. Ο αλγόριθμος INSDIF[9], υπολογίζει ένα πρότυπο διάνυσμα για κάθε ετικέτα, εξάγοντας το μέσο όρο όλων των στιγμιοτύπων του συνόλου εκπαίδευσης που ανήκουν σε αυτή την ετικέτα. Έπειτα κάθε στιγμιότυπο μετατρέπεται σε ένα σύνολο από M στιγμιότυπα, το καθένα ίσο με την διαφορά μεταξύ του αρχικού στιγμιότυπου και ενός από τα πρότυπα διανύσματα. Εφαρμόζεται μια στρατηγική κατηγοριοποίησης 2 επιπέδων για να γίνει η εκπαίδευση από το μετασχηματισμένο σύνολο δεδομένων. Η τελευταία μέθοδος που θα εξεταστεί είναι η PT6. Αυτή η μέθοδος μπορεί να χρησιμοποιηθεί στον πυρήνα προσαρμοσμένων αλγόριθμων συγκεκριμένης μαθησιακής προσέγγισης. Κατά την εφαρμογή του, κάθε παράδειγμα μορφής x,y, αναλύεται σε συνθετικά μέρη από πλήθος L παραδειγμάτων μορφής x, λ, Y [ λ ], για κάθε ετικέτα που ανήκει στο σύνολο λ L, όπου Y [λ ]= λ αν λ Υ και Υ [λ ]= λ διαφορετικά Μέ θοδοι Προσαρμογής Αλ γ ορίθμων Το πρόβλημα της κατηγοριοποίησης πολλαπλών ετικετών είναι πιο σύνθετο, από την κλασσική κατηγοριοποίηση τάξεων, οπού συνήθως σχετίζεται με την ύπαρξη δύο διασπασμένων κλάσεων από τις οποίες εκπαιδεύεται ο κατηγοριοποιητής, γιατί θεωρεί πως κάθε αντικείμενο δεν μπορεί να ταξινομηθεί σε έναν αριθμό από καθορισμένες αποκλειστικές κλάσεις. Στον τομέα της μηχανικής μάθησης δεν είναι πολλές οι μέθοδοι προσέγγισης τέτοιου τύπου προβλημάτων. Οι μέθοδοι αυτοί, χρησιμοποιούν τροποποιημένους αλγορίθμους, σχεδιασμένους έτσι ώστε να μπορούν να χειριστούν δεδομένα της κατηγορίας πολλαπλών ετικετών. Η τροποποίηση μπορεί να περιλαμβάνει χρήση κάποιου μέρους των μεθόδων που χρησιμοποιούνται στα 26 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

27 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ προβλήματα μετασχηματισμού δεδομένων Δέντρα Απόφασης και Boosting Ο αλγόριθμος C4.5 αποτελεί ένα γνωστό κατηγοριοποιητή δέντρου απόφασης. Μια παραλλαγή του παρουσίασαν οι Clare και King [11], προσαρμόζοντας τον αλγόριθμο για χρήση δεδομένων πολλαπλών ετικετών. Ο τύπος υπολογισμού της εντροπίας τροποποιείτε ως : N entropy S = p c i q c i log q c i i=1 όπου p λ j η σχετική συχνότητα της κλάσης και q λ j =1 p λ j το συμπλήρωμα ώς προς 1. Με αυτό πετυχαίνεται η αποθήκευση πολλαπλών ετικετών στα φύλλα του δέντρου απόφασης. Μια άλλη συνηθισμένη προσέγγιση είναι η χρήση δυαδικών αλγορίθμων. Ένας γνωστός αλγόριθμος είναι ο AdaBoost [11]. Στην βιβλιογραφία υπάρχουν δύο τροποποιήσεις του, στοχευμένοι για κατηγοριοποίηση πολλαπλών ετικετών, οι AdaBoost.MH και AdaBoost.MR [12]. Και οι δύο εφαρμόζουν έναν ασθενή κατηγοριοποιητή AdaBoost της μορφής Η : Χ Ζ R. Η διαφοροποίηση του πρώτου βρίσκεται στο ότι ελέγχει το πρόσημο από το παραγόμενο αποτέλεσμα των ασθενών κατηγοριοποιητών. Αν αυτό είναι θετικό για κάθε νέο παράδειγμα x και μια ετικέτα l, τότε θεωρεί ότι στο παράδειγμα μπορεί να τοποθετηθεί η ετικέτα, ενώ αν είναι αρνητικό τότε δεν μπορεί να κατηγοριοποιηθεί από την ετικέτα l. Είναι σχεδιασμένος για να ελαχιστοποιεί την απώλεια Hamming. Ο δεύτερος χρησιμοποιεί το αποτέλεσμα των ασθενών κατηγοριοποιητών για να βαθμολογήσει κάθε ετικέτα που υπάρχει στο σύνολο L. Σχεδιάστηκε για να βρίσκει μια υπόθεση για την οποία οι σωστές ετικέτες βρίσκονται στην κορυφή της κατάταξης. Οι δύο αλγόριθμοι είναι μετατροπές μιας συγκεκριμένη μαθησιακής προσέγγισης, αλλά στον πυρήνα τους χρησιμοποιούν την μέθοδο μετασχηματισμού PT6. Ένας συνδυασμός του AdaBoost.MH και ενός αλγόριθμου που παράγει εναλλακτικά δέντρα απόφασής, παρουσιάστηκε στο [13]. Το βασικό κίνητρο είναι η παραγωγή μοντέλων πολλαπλών ετικετών, που να είναι κατανοητά στον άνθρωπο Πιθανολογικές Μέθοδοι Η επόμενη μέθοδος βασίζεται σε ένα μοντέλο που έχει προτείνει ο McCallum [14]. Αυτό ορίζει ένα πιθανολογικό παραγωγικό μοντέλο, σύμφωνα με το οποίο κάθε ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 27

28 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ ετικέτα παράγει διαφορετικές λέξεις. Σύμφωνα με αυτό, ένα έγγραφο πολλαπλών ετικετών παράγεται από τον συνδυασμό των κατανομών των αντίστοιχων ετικετών της λέξης. Οι παράμετροι του μοντέλου εκπαιδεύονται μεγιστοποιώντας μια μεταγενέστερη εκτίμηση από τα εκπαιδευόμενα έγγραφα που έχουν ετικέτα, χρησιμοποιώντας τον αλγόριθμο Μεγιστοποίησης Πρόβλεψης (Expectation Maximization) για να υπολογιστούν ποιες ετικέτες είναι ταυτόχρονα ο συνδυασμός των βαρών αλλά και και οι κατανομές της λέξης κάθε ετικέτας. Δίνοντας ένα νέο έγγραφο η ετικέτα που καθορίζεται,, επιλέγεται με κανόνα Bayes. Αυτή η προσέγγιση κατηγοριοποίησης ενός νέου εγγράφου ακολουθεί την μέθοδο PT3, όπου κάθε διαφορετικό σύνολο ετικετών, θεωρείται ανεξάρτητο σαν μια νέα τάξη Νευρωνικά Δίκτυα και Μηχανές Υποστήριξης Διανυσμάτων (SVM) Ο BP-MLL που προτάθηκε το 2006[15], είναι προσαρμογή του αλγόριθμου αντίστροφης μετάδοσης για εκπαίδευση πολλαπλών ετικετών. Εισάγει μια συνάρτηση λάθους που λαμβάνει υπόψη τις πολλαπλές ετικέτες. Ένας αλγόριθμος που χρησιμοποιεί νευρώνες percetron είναι ο MMP[16] και χρησιμοποιείται για κατάταξη ετικετών. Για κάθε ετικέτα διατηρείται ένας νευρώνας, όπου η αλλαγή στα βάρη εκτελείται έτσι ώστε να επιτευχθεί ακριβής κατάταξη όλων των ετικετών. Μια άλλη προσέγγιση είναι αλγόριθμοι φιλοσοφίας SVM. Ένας τέτοιος αλγόριθμος κατάταξης, παρουσιάστηκε από τους Elisseeff και Weston [17]. Είναι ένα γραμμικό μοντέλο που προσπαθεί να ελαχιστοποιήσει μια συνάρτηση κόστους, διατηρώντας ένα μεγάλο περιθώριο. Η συνάρτηση κόστους χρησιμοποιεί την απώλεια κατάταξης (ranking loss), που ορίζεται ως ο μέσος όρος τους κλάσματος, από ζεύγη ετικετών που είναι ταξινομημένα λανθασμένα. Δυο βελτιώσεις αλγορίθμων μηχανών υποστήριξης διανυσμάτων (SVM) για δεδομένα πολλαπλών ετικετών παρουσιάστηκαν από τους Godbole & Sarawagi[18]. Η πρώτη βελτίωση, επεκτείνει το αρχικό σύνολο δεδομένων με M επιπλέον χαρακτηριστικά που περιέχουν τι προβλέψεις κάθε δυαδικού κατηγοριοποιητή. Στον πρώτο βρόγχο, Μ καινούργιοι δυαδικοί κατηγοριοποιητές εκπαιδεύονται χρησιμοποιώντας τα νέα σύνολα. Για την κατηγοριοποίηση ενός νέου παραδείγματος, χρησιμοποιούνται οι αρχικοί δυαδικοί κατηγοριοποιητές, προσθέτοντας στην έξοδο τους, τα χαρακτηριστικά του παραδείγματος, σχηματίζοντας ένα meta-παράδειγμα. 28 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

29 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ Αυτό με την σειρά του, κατηγοριοποιείται στον δεύτερο βρόγχο. Με αυτή την επέκταση εξετάζονται οι πιθανές εξαρτήσεις ανάμεσα στις ετικέτες. Η δεύτερη βελτίωση έγκειται στην αφαίρεση των αρνητικών στιγμιοτύπων εκπαίδευσης μιας ετικέτας, αν είναι αρκετά όμοια με την θετική ετικέτα. Αυτό βασίζεται σε ένα πίνακα που υπολογίζεται χρησιμοποιώντας ένα γρήγορο και σχετικά ακριβή κατηγοριοποιητή, σε ένα κρατημένο σύνολο επαλήθευσης Αναβλητικές Μέθοδοι και Μέθοδοι που βασίζονται σε Κανόνες Συσχέτισης Ο ML-kNN [19] είναι μια παραλλαγή του αδρανή αλγόριθμου εκπαίδευσης knn για δεδομένα πολλαπλών ετικετών. Στην πραγματικότητα η μέθοδος ακολουθεί τον τρόπο λειτουργίας του PT4. Ουσιαστικά ο αλγόριθμος χρησιμοποιεί τον knn ανεξάρτητα για κάθε ετικέτα l, βρίσκοντας τα k πλησιέστερα παραδείγματα ως προς το εξεταζόμενο παράδειγμα, θεωρώντας ως τα θετικά τα παραδείγματα που περιέχουν την ετικέτα l και ως αρνητικά τα υπόλοιπα. Ο ML-kNN έχει την ικανότητα να βαθμολογήσει της ετικέτες κατά τη παραγωγή των αποτελεσμάτων ενώ η κυριότερη διαφορά μεταξύ της μεθόδου και της εφαρμογής του αρχικού αλγόριθμου knn σε ένα σύνολο δεδομένων μετασχηματισμένο με το PT4, είναι η χρήση πρωταρχικών πιθανοτήτων. Μια άλλη παραλλαγή του κατηγοριοποιητή κνν παρουσιάστηκε για ταξινόμηση δεδομένων εγγράφων πολλαπλής ετικέτας, από τους Luo και Zincir- Heywood [20]. Η βασική συνεισφορά τους βρίσκεται στο τομέα της προεπεξεργασίας για την αποτελεσματική παρουσίαση εγγράφων. Για την κατηγοριοποίηση ενός νέου αντικειμένου, αρχικά υπολογίζονται τα k πλησιέστερα παραδείγματα. Στην συνέχεια για κάθε εμφάνιση κάθε μιας ετικέτας από τα παραδείγματα, αυξάνεται ένας αντίστοιχος μετρητής. Τελικά υπολογίζονται στην έξοδο οι N ετικέτες με τις υψηλότερες τιμές στον μετρητή του. Ο αριθμός του πλήθους N επιλέγεται με βάση τον αριθμό των ετικετών του αντικειμένου. Αυτό όμως δεν έχει μεγάλη εφαρμογή σε πραγματικά δεδομένα, γιατί συνήθως ο αριθμός των ετικετών ενός αντικειμένου είναι άγνωστος. Ο αλγόριθμος MMAC [21] ακολουθεί το παράδειγμα της κατηγοριοποίησης συνάφειας (associative classification). Κατασκευάζει σύνολα κανόνων κατηγοριοποίησης, σύμφωνα με τους οποίους εκπαιδεύει το αρχικό σύνολο, αφαιρώντας τα παραδείγματα που σχετίζονται με τον κανόνα. Στην συνέχεια ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 29

30 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ εκπαιδεύει ένα νέο κανόνα αναδρομικά για τα εναπομείναντα παραδείγματα, μέχρι να μην μείνουν άλλα σχετικά αντικείμενα. Τα πολλαπλά σύνολα κανόνων, μπορεί να έχουν όμοιες αρχικές συνθήκες, αλλά διαφορετική επιλογή ετικέτας. Όλα τα σύνολα κανόνων συνενώνονται σε έναν απλό κανόνα πολλαπλών ετικετών. Οι ετικέτες κατατάσσονται σύμφωνα με την υποστήριξη των σχετικών μοναδικών κανόνων. 2.4 Στατιστική Συνόλων Δεδομέ νων ΠΕ Όλα τα σύνολα δεδομένων πολλαπλών ετικετών δεν είναι ισοδύναμα. Σε κάποιες εφαρμογές το πλήθος των ετικετών κάθε παραδείγματος, είναι μικρό σε σχέση με το πλήθος του συνόλου ετικετών M, ενώ σε άλλες συμβαίνει το αντίθετο. Αυτή η παράμετρος μπορεί να επηρεάζει την απόδοση των διαφόρων μεθόδων πολλαπλών ετικετών. Για να υπάρχει ένα μέτρο ελέγχου εισάγονται οι έννοιες του πληθάριθμου ετικέτας (label cardinality) και πυκνότητας ετικέτας (label density). Ορίζονται στο πλαίσιο ενός συνόλου δεδομένων πολλαπλών ετικετών D, που αποτελείται από πλήθος Ν παραδειγμάτων πολλαπλής ετικέτας, της μορφής x i, Y i,i=1 Ν. Ο πληθάριθμος ετικέτας του D είναι ο μέσος αριθμός του πλήθους των ετικετών που υπάρχουν στα παραδείγματα στο D: Label Cardinality= 1 N N i=1 Y i Η πυκνότητα ετικέτας του D είναι ο μέσος αριθμός των ετικετών των παραδειγμάτων, διαιρούμενος από το πλήθος του Μ: Label Density= 1 N Y i N i=1 M To πλήθος του συνόλου ετικέτας, είναι ανεξάρτητο από των αριθμό των ετικετών M που υπάρχουν στο πρόβλημα ταξινόμησης και χρησιμοποιείται για να προσδιορίσει τον αριθμό των εναλλακτικών ετικετών που χαρακτηρίζουν τα παραδείγματα ενός εκπαιδευόμενου συνόλου δεδομένων πολλαπλών ετικετών. Η πυκνότητα ετικέτας φέρνει σε μελέτη τον αριθμό των ετικετών στο πρόβλημα ταξινόμησης. Δύο σύνολα δεδομένων με το ίδιο πλήθος ξεχωριστών ετικετών αλλά με μεγάλη διαφορά στον αριθμό των ετικετών (διαφορετική πυκνότητα ετικετών) μπορεί να παρουσιάζουν διαφορετικές ιδιότητες και να προκαλέσουν διαφορετική συμπεριφορά στις μεθόδους κατηγοριοποίησης πολλαπλών ετικετών. Οι δύο μετρικές μπορούν να σχετίζονται μεταξύ τους ως LC=M LD. 30 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

31 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ 2.5 Μετρικές Αξιολόγησης Υπάρχουν διάφορες μέθοδοι που έχουν προταθεί για να αξιολογηθούν τα αποτελέσματα της μάθηση; από δεδομένα πολλαπλών ετικετών. Οι μετρικές που απαιτούνται είναι διαφορετικές από αυτές που χρησιμοποιούνται στην παραδοσιακή κατηγοριοποίηση μοναδικής ετικέτας. Μπορούν να χωριστούν σε 2 τύπους, στις μετρικές διχοτόμησης (Bipartition), που χρησιμοποιούν τα κριτήρια από την κλασική ανάκτηση δεδομένων και σε μετρικές κατάταξης (Ranking), που το κριτήριο τους βασίζεται στην αξιολόγηση του βαθμού κατάταξης κάθε ετικέτας. Για τον καθορισμό των μετρικών, ορίζεται ένα σύνολο αξιολόγησης από δεδομένα πολλαπλής ετικέτας, που αποτελείται από πλήθος Ν παραδειγμάτων μορφής x i, Y i,i=1 Ν.όπου Y i L είναι το σύνολο των σωστών ετικετών, και L={λ j : j=1 M } είναι το σύνολο όλων των ετικετών. Δεδομένου ενός στιγμιότυπου x i το σύνολο των ετικετών που προβλέπεται από μία μέθοδο MLC και ορίζεται ως Z i, ενώ η κατάταξη προβλέπεται από μια LR μέθοδο για την ετικέτα λ και ορίζεται ως r i λ. Η ετικέτα με την μεγαλύτερη συνάφεια, παίρνει την υψηλότερη κατάταξη με τιμή 1, ενώ η ετικέτα με την μικρότερη συνάφεια κατατάσσεται με την τιμή M Μετρικέ ς Διχοτόμησης Οι μετρικές που αξιολογούν με διχοτόμηση, χωρίζονται σε δύο κατηγορίες. Σε αυτές που βασίζονται σε παράδειγμα (example-based) και σε αυτές που βασίζονται στην ετικέτα (label-based) Με Βάση Παράδειγμα Βασίζονται στον υπολογισμό των διαφορών των ετικετών, του πραγματικού και του προβλεπόμενου συνόλου ετικετών, πάνω σε όλα τα παραδείγματα του συνόλου δεδομένων αξιολόγησης. Μια τέτοια μετρική είναι η απώλεια Hamming (Hamming Loss) [12] ορίζεται ως : Hamming Loss= 1 Ν Y i xor Z i Ν i=1 Μ όπου αντιπροσωπεύει την συμμετρική διαφορά των δύο συνόλων, που είναι ισοδύναμο με την αποκλειστικό διαχωρισμό XOR της Boolean λογικής. ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 31

32 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ Η ευστοχία κατηγοριοποίησης (Classification Accuracy) [22] ή ευστοχία υποσυνόλου (Subset Accuracy), ορίζεται ακολούθως ως : ClassificationAccuracy= 1 Ν Ν i=1 I Z i =Y i όπου I true =1 και I false =0. Πρόκειται για ένα αυστηρό μέτρο αξιολόγησης καθώς απαιτεί το προβλεπόμενο σύνολο ετικετών, να ταιριάζει απόλυτα με το σύνολο των αληθινών ετικετών. Κάποιες άλλες μετρικές που χρησιμοποιούνται είναι η Ευστοχία (Accuracy), η Ακρίβεια (Precision), η Επανάκληση (Recall) και το F1 κριτήριο [23]. Ορίζονται παρακάτω ως: Ν Accuracy= 1 Ν i=1 Ν Recall= 1 Ν i=1 Y i Z i Y i Z i Y i Z i Y i Ν Precision= 1 Ν i=1 Y i Z i Z i F 1 = 1 Ν Y i Z i Ν i=1 Z i Y i Μια γενικότερη έκδοση της ευστοχίας δόθηκε από τον Boutell (2004), χρησιμοποιώντας μια παράμετρο α 0 που ονομάζεται ρυθμός συγχώρεσης (forgiveness rate). Ο τύπος τροποποιείται ως: Accuracy= 1 N N Y α i Z i i=1 Y i Z i Με Βάση Ετικέτα Βασίζεται στην ανάλυση της διαδικασίας αξιολόγησης σε ξεχωριστές αξιολογήσεις για κάθε ετικέτα, που μεταγενέστερα παράγουν τον μέσο όρο για όλες τις ετικέτες. Μπορεί να χρησιμοποιηθεί κάθε γνωστή μετρική για δυαδική αξιολόγηση, όπως η ακρίβεια, η επανάκληση, η ευστοχία και η περιοχή κάτω από την καμπύλη ROC. Ο υπολογισμός τους για όλες τις ετικέτες, πετυχαίνεται χρησιμοποιώντας δύο διαδικασίες μέσου όρου, που ονομάζονται macro-averaging και micro-averaging. Αν θεωρηθεί ένα δυαδικό μέτρο αξιολόγησης μορφής B tp,tn, fp, fn που έχει υπολογιστεί βασιζόμενο σε ένα αριθμό αποτελεσμάτων από αληθή θετικά (tp), αληθή αρνητικά (tn), λανθασμένα θετικά (fp) και λανθασμένα αρνητικά (fn). Αν οι παραπάνω τιμές υπολογιστούν για μια ετικέτα λ, τότε ο μεγάλος και ο μικρός μέσος όρος του B μπορεί να υπολογιστεί ακολούθως: M B macro = 1 B t M p λ, f pλ,t n λ, f nλ λ=1 32 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

33 ΚΕΦΑΛΑΙΟ 2: ΜΆΘΗΣΗ ΑΠΌ ΔΕΔΟΜΈΝΑ ΠΟΛΛΑΠΛΏΝ ΕΤΙΚΕΤΏΝ M B micro = B λ=1 M t p λ, λ=1 M f p λ, λ=1 M t nλ, λ=1 Σημειώνεται ότι ο μεγάλος και ο μικρός μέσος όρος μπορεί να έχουν την ίδια τιμή για μερικές μετρικές, όπως η ευστοχία και διαφορετική για την ακρίβεια και την επανάκληση. Επιπλέον η μέση ακρίβεια (macro/micro) έχει άθροισμα με την απώλεια Hamming αποτελούν το ένα για το άλλο συμπλήρωμα προς το 1, γιατί η απώλεια f nλ Hamming είναι το μέσο σφάλμα της δυαδικής κατηγοριοποίησης Μετρικέ ς Κατάταξης Μια τέτοια μετρική είναι αυτή του ενός λάθους (One-Error). Αξιολογεί πόσες φορές η ετικέτα με την υψηλότερη κατάταξη, δεν βρίσκεται στο σύνολο των σχετικών ετικετών του στιγμιότυπου. Υπολογίζετε ως: Ν 1 Error= 1 Ν i=1 δ arg λ L minr i λ όπου δ λ = { 1αν λ L 0αλλιώς } Η μετρική της κάλυψης (Coverage) αξιολογεί το βάθος στο οποίο χρειάζεται να φτάσουμε σε μια λίστα κατάταξης ετικετών, για να καλυφθούν όλες οι σχετικές ετικέτες του παραδείγματος. Ν Cov= 1 max Ν λ Y i r i λ i=1 Η απώλεια κατάταξης (Ranking Loss) εκφράζει τον πλήθος των φορών που μια άσχετη ετικέτα κατατάσσεται υψηλότερα από τις σχετικές ετικέτες. Ορίζεται ως: Ν R Loss= 1 Ν i=1 1 Y i Y i { λ a, λ b : r i λ a r i λ 2, y a, y b Y i Y i } όπου το Y i είναι το συμπληρωματικό σύνολο του Y i σε σχέση με το L. Η μετρική της μέσης ακρίβειας (Average Precision) υπολογίζει το μέσο λόγο των ετικετών που κατατάχθηκαν, πάνω από μία ξεχωριστή ετικέτα λ Y i που βρίσκεται στο Y i. Ορίζεται ως Ν AvgPrec= 1 Ν i =1 1 Y i { λ Υ i : r i λ r i λ } λ Y i r i λ 2.6 Μείωση της Διάστασης των Χαρακτηριστικών Σε πολλές περιπτώσεις δεδομένων, η μάθηση με πολλαπλές ετικέτες μπορεί να περιέχει μεγάλο αριθμό από χαρακτηριστικά, αυξάνοντας τον βαθμό ΑΝΑΠΤΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ 33

34 ΜΠΑΚΙΡΤΖΟΓΛΟΥ ΣΤΑΥΡΟΣ πολυπλοκότητας. Αυτό αντιμετωπίζεται με την μείωση των διαστάσεων. Κάποιες μέθοδοι, που μπορούν να εφαρμοστούν άμεσα σε δεδομένα πολλαπλών ετικετών, ενώ άλλες είναι επέκταση μεθόδων που εφαρμόζονται σε δεδομένα μοναδικής ετικέτας. Χωρίζονται σε επιλογής χαρακτηριστικού (Feature Selection) και σε εξαγωγής χαρακτηριστικού (Feature Extraction) Επιλογή Χαρακτηριστικών Μια προσέγγιση επιλογής χαρακτηριστικού, δεδομένου ενός αλγόριθμου μάθησης πολλαπλών ετικετών, είναι η εύρεση ενός υποσυνόλου από χαρακτηριστικά που να μπορεί να βελτιστοποιεί την συνάρτηση απώλειας πολλαπλών ετικετών, σε ένα σύνολο δεδομένων αξιολόγησης [24]. Διαφορετική επιλογή επίλυσης του προβλήματος είναι η μετατροπή του συνόλου δεδομένων πολλαπλής ετικέτας σε ένα ή περισσότερα σύνολα δεδομένων μοναδικής ετικέτας, όπου μπορούν να εφαρμοστούν κλασσικές μέθοδοι επιλογής χαρακτηριστικού. Αρκετά δημοφιλής στην κατηγοριοποίηση κειμένων, είναι ο μετασχηματισμός BR, που αναφέρθηκε παραπάνω, που εφαρμόζεται για να αξιολογήσει την διακεκριμένη δύναμη κάθε χαρακτηριστικού, λαμβάνοντας υπ' όψη ξεχωριστά κάθε ετικέτα, ανεξάρτητα από τις υπόλοιπες Εξαγ ωγή Χαρακτηριστικών Οι μέθοδοι αυτής της κατηγορίας, δημιουργούν νέα χαρακτηριστικά που εξάγονται είτε σύμφωνα με τα αρχικά χαρακτηριστικά, είτε χρησιμοποιώντας πληροφορίες της κλάσης. Ένας τρόπος εξαγωγής, είναι με μεθόδους χωρίς επίβλεψη όπως η κύρια ανάλυση στοιχείων και η αφανή σημασιολογική βαθμοθέτηση (Latent Semantic Indexing-LSI) [21], που είναι άμεσα εφαρμόσιμες σε δεδομένα πολλαπλών ετικετών. Αντίθετα οι μέθοδοι με επίβλεψη, απαιτούν προσαρμογή πριν την εφαρμογή τους. Ενδεικτικά αναφέρονται η γραμμική διακρίνουσα ανάλυση (Linear Discriminant Analysis-LDA) [25] και η MLSI [26] που βασίζεται στην LSI αλλά χρησιμοποιεί τις πληροφορίες της ετικέτας. 2.7 Αξιοποίηση Δομής Ετικετών Σε συγκεκριμένες κατηγορίες πολλαπλών ετικετών, όπως η εξόρυξη εγγράφων και η βιοπληροφορική, οι ετικέτες μπορούν να οργανώνονται σε μια ιεραρχική δομή με 34 ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΠΟΛΛΑΠΛΩΝ ΔΕΔΟΜΕΝΩΝ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

Τεχνικές Δειγματοληψίας σε Δεδομένα Πολλαπλών Ετικετών

Τεχνικές Δειγματοληψίας σε Δεδομένα Πολλαπλών Ετικετών Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής Διπλωματική Εργασία Τεχνικές Δειγματοληψίας σε Δεδομένα Πολλαπλών Ετικετών Ειρήνη Παπαγιαννοπούλου Επιβλέπων: Γρηγόριος

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Τεχνικές Μηχανικής Μάθησης για Ροές Δεδομένων με Πολλαπλές Ετικέτες

Τεχνικές Μηχανικής Μάθησης για Ροές Δεδομένων με Πολλαπλές Ετικέτες ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ, ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Τεχνικές Μηχανικής Μάθησης για Ροές Δεδομένων με Πολλαπλές Ετικέτες Καρπόνη Κωνσταντίνα Επιβλέπων Καθηγητής: Τσουμάκας Γρηγόριος 24/2/2016 Πίνακας

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 )

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 ) Μέρος IV Πολυδιάστατες τυχαίες μεταβλητές Πιθανότητες & Στατιστική 07 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Παν. Ιωαννίνων Δ5 ( ) Πολυδιάστατες μεταβλητές Πολλά ποσοτικά χαρακτηριστικά που σχετίζονται με

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Μείωση Διάστασης Δεδομένων Πολλαπλών Ετικετών με Χρήση Υποκλάσεων. Οικονόμου Μαρία

Μείωση Διάστασης Δεδομένων Πολλαπλών Ετικετών με Χρήση Υποκλάσεων. Οικονόμου Μαρία Μείωση Διάστασης Δεδομένων Πολλαπλών Ετικετών με Χρήση Υποκλάσεων Οικονόμου Μαρία ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗ ΨΗΦΙΑΚΩΝ ΜΕΣΩΝ Επιβλέπων: Αναστάσιος Τέφας Λέκτορας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Επιλογή Χαρακτηριστικών σε Δεδομένα Πολλαπλών Ετικετών

Επιλογή Χαρακτηριστικών σε Δεδομένα Πολλαπλών Ετικετών ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Επιλογή Χαρακτηριστικών σε Δεδομένα Πολλαπλών Ετικετών Διπλωματική Εργασία του Τραϊανού Γεώργιου (ΑΕΜ: 866) Επιβλέπων

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Πεπερασμένες και Διαιρεμένες Διαφορές Εισαγωγή Θα εισάγουμε την έννοια των διαφορών με ένα

Διαβάστε περισσότερα

Δύο είναι οι κύριες αιτίες που μπορούμε να πάρουμε από τον υπολογιστή λανθασμένα αποτελέσματα εξαιτίας των σφαλμάτων στρογγυλοποίησης:

Δύο είναι οι κύριες αιτίες που μπορούμε να πάρουμε από τον υπολογιστή λανθασμένα αποτελέσματα εξαιτίας των σφαλμάτων στρογγυλοποίησης: Ορολογία bit (binary digit): δυαδικό ψηφίο. Τα δυαδικά ψηφία είναι το 0 και το 1 1 byte = 8 bits word: η θεμελιώδης μονάδα σύμφωνα με την οποία εκπροσωπούνται οι πληροφορίες στον υπολογιστή. Αποτελείται

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 19 ης διάλεξης

Ασκήσεις μελέτης της 19 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 2016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 19 ης διάλεξης 19.1. Δείξτε ότι το Perceptron με (α) συνάρτηση ενεργοποίησης

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 5 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Εργασία 1η Classification

Αναγνώριση Προτύπων Εργασία 1η Classification ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Αναγνώριση Προτύπων Εργασία 1η Classification Κιντσάκης Αθανάσιος 6667 Μόσχογλου Στυλιανός 6978 30 Νοεμβρίου,

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Σημειακή επεξεργασία και μετασχηματισμοί Κατηγορίες μετασχηματισμού εικόνων Σημειακοί μετασχηματισμοί

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων Θεωρία Αποφάσεων ο Φροντιστήριο Λύσεις των Ασκήσεων Άσκηση Έστω ένα πρόβλημα ταξινόμησης μιας διάστασης με δύο κατηγορίες, όπου για κάθε κατηγορία έχουν συλλεχθεί τα παρακάτω δεδομένα: D = {, 2,,,,7 }

Διαβάστε περισσότερα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Αντικείμενο Μελέτη και ανάπτυξη μεθόδων από τον χώρο της μηχανικής μάθησης για

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Ένα από τα γνωστότερα παραδείγματα των ΕΑ είναι ο Γενετικός

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων

Διαβάστε περισσότερα

! Εάν ο αριθμός διαθέτει περισσότερα bits, χρησιμοποιούμε μεγαλύτερες δυνάμεις του 2. ! Προσοχή στη θέση του περισσότερο σημαντικού bit!

! Εάν ο αριθμός διαθέτει περισσότερα bits, χρησιμοποιούμε μεγαλύτερες δυνάμεις του 2. ! Προσοχή στη θέση του περισσότερο σημαντικού bit! Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 25-6 Πράξεις με δυαδικούς αριθμούς (αριθμητικές ) http://di.ionio.gr/~mistral/tp/csintro/ Αριθμοί Πράξεις με δυαδικούς αριθμούς

Διαβάστε περισσότερα

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά.

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά. Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά Xerox Research Centre Europe LIP6 - Université Pierre et Marie Curie

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

Πράξεις με δυαδικούς αριθμούς

Πράξεις με δυαδικούς αριθμούς Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 25-6 Πράξεις με δυαδικούς αριθμούς (αριθμητικές πράξεις) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Πράξεις με δυαδικούς

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

6. Στατιστικές μέθοδοι εκπαίδευσης

6. Στατιστικές μέθοδοι εκπαίδευσης 6. Στατιστικές μέθοδοι εκπαίδευσης Μία διαφορετική μέθοδος εκπαίδευσης των νευρωνικών δικτύων χρησιμοποιεί ιδέες από την Στατιστική Φυσική για να φέρει τελικά το ίδιο αποτέλεσμα όπως οι άλλες μέθοδοι,

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Διαχωριστικές συναρτήσεις Ταξινόμηση κανονικών

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL 8.1. Εισαγωγή ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PACAL Πως προέκυψε η γλώσσα προγραμματισμού Pascal και ποια είναι τα γενικά της χαρακτηριστικά; Σχεδιάστηκε από τον Ελβετό επιστήμονα της Πληροφορικής Nicklaus Wirth to

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Τμήμα Πληροφορικής και Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ Εργαστήριο 8 ο Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα Βασική Θεωρία Σε ένα σύστημα μετάδοσης

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

12. ΑΝΙΣΩΣΕΙΣ Α ΒΑΘΜΟΥ. είναι δύο παραστάσεις μιας μεταβλητής x πού παίρνει τιμές στο

12. ΑΝΙΣΩΣΕΙΣ Α ΒΑΘΜΟΥ. είναι δύο παραστάσεις μιας μεταβλητής x πού παίρνει τιμές στο ΓΕΝΙΚΑ ΠΕΡΙ ΑΝΙΣΩΣΕΩΝ Έστω f σύνολο Α, g Α ΒΑΘΜΟΥ είναι δύο παραστάσεις μιας μεταβλητής πού παίρνει τιμές στο Ανίσωση με έναν άγνωστο λέγεται κάθε σχέση της μορφής f f g g ή, η οποία αληθεύει για ορισμένες

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Ολοκλήρωση Εισαγωγή Έστω ότι η f είναι μία φραγμένη συνάρτηση στο πεπερασμένο

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α ΜΑΘΗΣΗ ΜΕΓΑΛΗΣ ΚΛΙΜΑΚΑΣ ΑΠΟ ΔΕΔΟΜΕΝΑ

Διαβάστε περισσότερα

1. ΣΤΑΤΙΚΗ ΑΡΙΣΤΟΠΟΙΗΣΗ

1. ΣΤΑΤΙΚΗ ΑΡΙΣΤΟΠΟΙΗΣΗ . ΣΤΑΤΙΚΗ ΑΡΙΣΤΟΠΟΙΗΣΗ. Μέγιστα και Ελάχιστα Συναρτήσεων Χωρίς Περιορισμούς Συναρτήσεις μιας Μεταβλητής Εστω f ( x) είναι συνάρτηση μιας μόνο μεταβλητής. Εστω επίσης ότι x είναι ένα σημείο στο πεδίο ορισμού

Διαβάστε περισσότερα

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Διαχείριση Πολιτισμικών Δεδομένων

Διαχείριση Πολιτισμικών Δεδομένων Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Διαχείριση Πολιτισμικών Δεδομένων Ενότητα 6: Εισαγωγή στις Βάσεις Δεδομένων Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 17η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Artificia Inteigence A Modern Approach των S. Russe και

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί

Διαβάστε περισσότερα

Θεωρία Λήψης Αποφάσεων

Θεωρία Λήψης Αποφάσεων Θεωρία Λήψης Αποφάσεων Ενότητα 2: Θεωρία Απόφασης του Bayes Μπεληγιάννης Γρηγόριος Σχολή Οργάνωσης και Διοίκησης Επιχειρήσεων Τμήμα Διοίκησης Επιχειρήσεων Αγροτικών Προϊόντων & Τροφίμων (Δ.Ε.Α.Π.Τ.) Θεωρία

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 Συμπληρωματικές σημειώσεις για τον μηχανισμό VCG 1 Εισαγωγή στις Συνδυαστικές

Διαβάστε περισσότερα

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (# 252) Ε ΕΞΑΜΗΝΟ 9 η ΕΙΣΗΓΗΣΗ ΣΗΜΕΙΩΣΕΙΣ ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΛΙΓΗ ΘΕΩΡΙΑ Στην προηγούμενη διάλεξη μάθαμε ότι υπάρχουν διάφορες μορφές έρευνας

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 M = 1 N = N prob k N k { k n ω wrongly classfed} = (1 ) N k 2 Η συνάρτηση πιθανοφάνειας L(p) μεγιστοποιείται όταν =k/n. 3 Αφού τα s είναι άγνωστα,

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή Το λογισμικό της εννοιολογικής χαρτογράυησης Inspiration Η τεχνική της εννοιολογικής χαρτογράφησης αναπτύχθηκε από τον καθηγητή Joseph D. Novak, στο πανεπιστήμιο του Cornell. Βασίστηκε στις θεωρίες του

Διαβάστε περισσότερα

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016 ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Ψηφιακή Ανάλυση Εικόνας Η ψηφιακή ανάλυση εικόνας ασχολείται κυρίως με τέσσερις βασικές λειτουργίες: διόρθωση, βελτίωση, ταξινόμηση Με τον όρο ταξινόμηση εννοείται

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Διακριτές Πηγές Πληροφορίας χωρίς μνήμη Ποσότητα πληροφορίας της πηγής Κωδικοποίηση

Διαβάστε περισσότερα

Αναζητήσεις στο Διαδίκτυο

Αναζητήσεις στο Διαδίκτυο Αναζητήσεις στο Διαδίκτυο Πλεονεκτήματα από τη χρήση του Διαδικτύου για την αναζήτηση πληροφοριών Υπάρχει πληθώρα πληροφοριών (που περιλαμβάνουν μεγάλο εύρος από media). Οι μαθητές καθίστανται «ερευνητές

Διαβάστε περισσότερα

Ψηφιακές Τηλεπικοινωνίες. Θεωρία Ρυθμού Παραμόρφωσης

Ψηφιακές Τηλεπικοινωνίες. Θεωρία Ρυθμού Παραμόρφωσης Ψηφιακές Τηλεπικοινωνίες Θεωρία Ρυθμού Παραμόρφωσης Θεωρία Ρυθμού-Παραμόρφωσης Θεώρημα Κωδικοποίησης Πηγής: αν έχω αρκετά μεγάλο μπλοκ δεδομένων, μπορώ να φτάσω κοντά στην εντροπία Πιθανά Προβλήματα: >

Διαβάστε περισσότερα

Εισαγωγή στους Αλγόριθμους. Παύλος Εφραιμίδης, Λέκτορας

Εισαγωγή στους Αλγόριθμους. Παύλος Εφραιμίδης, Λέκτορας Εισαγωγή στους Αλγόριθμους Παύλος Εφραιμίδης, Λέκτορας http://pericles.ee.duth.gr 1 Περιεχόμενα Μαθήματος Εισαγωγή στου Αλγόριθμους Πολυπλοκότητα Αλγορίθμων Ασυμπτωτική Ανάλυση Θεωρία Γράφων Κλάσεις Πολυπλοκότητας

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Παρασκευή 9 Ιανουαρίου 2007 5:00-8:00 εδοµένου ότι η

Διαβάστε περισσότερα

Οικονομετρία. Απλή Παλινδρόμηση Βασικές έννοιες και τυχαίο σφάλμα. Τμήμα: Αγροτικής Οικονομίας & Ανάπτυξης. Διδάσκων: Λαζαρίδης Παναγιώτης

Οικονομετρία. Απλή Παλινδρόμηση Βασικές έννοιες και τυχαίο σφάλμα. Τμήμα: Αγροτικής Οικονομίας & Ανάπτυξης. Διδάσκων: Λαζαρίδης Παναγιώτης Οικονομετρία Απλή Παλινδρόμηση Βασικές έννοιες και τυχαίο σφάλμα Τμήμα: Αγροτικής Οικονομίας & Ανάπτυξης Διδάσκων: Λαζαρίδης Παναγιώτης Μαθησιακοί Στόχοι Γνώση και κατανόηση των εισαγωγικών εννοιών που

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η Ε ΡΓΑ Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η Ε ΡΓΑ Σ Ι Α Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η Ε ΡΓΑ Σ Ι Α ΔΙΑΔΙΚΤΥΑΚΗ ΕΦΑΡΜΟΓΗ ΑΝΑΖΗΤΗΣΗΣ ΕΙΚΟΝΩΝ An Image Retrieval

Διαβάστε περισσότερα

Δυαδικό Σύστημα Αρίθμησης

Δυαδικό Σύστημα Αρίθμησης Δυαδικό Σύστημα Αρίθμησης Το δυαδικό σύστημα αρίθμησης χρησιμοποιεί δύο ψηφία. Το 0 και το 1. Τα ψηφία ενός αριθμού στο δυαδικό σύστημα αρίθμησης αντιστοιχίζονται σε δυνάμεις του 2. Μονάδες, δυάδες, τετράδες,

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ

ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΑΝΑΠΤΥΞΗ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΗ ΔΙΕΝΕΡΓΕΙΑ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΛΕΤΩΝ ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Α.Μ. 123/04 ΕΠΙΒΛΕΠΩΝ: ΣΑΜΑΡΑΣ ΝΙΚΟΛΑΟΣ ΘΕΣΣΑΛΟΝΙΚΗ, ΙΟΥΝΙΟΣ 2007 Περιεχόμενα

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16 HMY 795: Αναγνώριση Προτύπων Διαλέξεις 15-16 Νευρωνικά Δίκτυα(Neural Networks) Fisher s linear discriminant: Μείωση διαστάσεων (dimensionality reduction) y Τ =w x s + s =w S w 2 2 Τ 1 2 W ( ) 2 2 ( ) m2

Διαβάστε περισσότερα

Δύο είναι οι κύριες αιτίες που μπορούμε να πάρουμε από τον υπολογιστή λανθασμένα αποτελέσματα εξαιτίας των σφαλμάτων στρογγυλοποίησης:

Δύο είναι οι κύριες αιτίες που μπορούμε να πάρουμε από τον υπολογιστή λανθασμένα αποτελέσματα εξαιτίας των σφαλμάτων στρογγυλοποίησης: Ορολογία bit (binary digit): δυαδικό ψηφίο. Τα δυαδικά ψηφία είναι το 0 και το 1 1 byte = 8 bits word: η θεμελιώδης μονάδα σύμφωνα με την οποία εκπροσωπούνται οι πληροφορίες στον υπολογιστή. Αποτελείται

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: μέθοδοι μονοδιάστατης ελαχιστοποίησης Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 6 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων Τοπογραφικά Δίκτυα και Υπολογισμοί 5 ο εξάμηνο, Ακαδημαϊκό Έτος 2016-2017 Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων Χριστόφορος Κωτσάκης Τμήμα Αγρονόμων Τοπογράφων Μηχανικών

Διαβάστε περισσότερα

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας Σε ένα σύστημα φιλτραρίσματος πληροφορίας, ή αλλιώς σύστημα έκδοσης/συνδρομής, οι χρήστες εγγράφονται

Διαβάστε περισσότερα