Τεχνικές Δειγματοληψίας σε Δεδομένα Πολλαπλών Ετικετών

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Τεχνικές Δειγματοληψίας σε Δεδομένα Πολλαπλών Ετικετών"

Transcript

1 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής Διπλωματική Εργασία Τεχνικές Δειγματοληψίας σε Δεδομένα Πολλαπλών Ετικετών Ειρήνη Παπαγιαννοπούλου Επιβλέπων: Γρηγόριος Τσουμάκας Φεβρουάριος 2013

2 Abstract This thesis has as objective the study of existing techniques for stratified sampling of multilabel data. Then, we propose a new method for stratified sampling of multi-label data which is based on a combination of the previous stratification methods. More specifically, we studied two techniques (algorithms) for stratified sampling. In the first technique, the groups of the examples are formed based on the different combinations of labels (labelsets) that exist in the training set. In the second technique, each label is treated independently of the other while maintaining the distribution of positive and negative examples for each label. These two methods have been modified to create groups of examples with unequal rates of examples. Finally, we propose a new "hybrid" stratification method which combines the two methods that are mentioned above. The basic idea is to maintain the proportions of examples per label in the groups that arise. This is accomplished applying, initially, the first stratification method and if certain conditions are satisfied, we apply the second stratification method. 1

3 Περίληψη Η παρούσα διπλωματική εργασία έχει ως στόχο τη μελέτη των ήδη υπαρχόντων τεχνικών διαστρωματωμένης δειγματοληψίας για δεδομένα πολλαπλών ετικετών. Επίσης, προτείνεται μία νέα μέθοδο διαστρωματωμένης δειγματοληψίας για δεδομένα πολλαπλών ετικετών που βασίζεται στο συνδυασμό προηγούμενων μεθόδων διαστρωματωμένης δειγματοληψίας. Πιο συγκεκριμένα, μελετήθηκαν δύο τεχνικές (αλγόριθμοι) διαστρωματωμένης δειγματοληψίας. Στην πρώτη, οι ομάδες παραδειγμάτων διαμορφώνονται με βάση τους διαφορετικούς συνδυασμούς των ετικετών (labelsets) που υπάρχουν στα παραδείγματα εκπαίδευσης. Στη δεύτερη, κάθε ετικέτα αντιμετωπίζεται ανεξάρτητα από τις άλλες διατηρώντας την κατανομή θετικών και αρνητικών παραδειγμάτων για κάθε ετικέτα. Οι δύο παραπάνω μέθοδοι τροποποιήθηκαν ώστε να δουλεύουν και για δημιουργία ομάδων με άνισα ποσοστά παραδειγμάτων. Τέλος, προτείνουμε μία νέα υβριδική μέθοδο διαστρωματωμένης δειγματοληψίας η οποία συνδυάζει τις δύο μεθόδους που αναφέρθηκαν παραπάνω. Το βασικό σκεπτικό είναι να διατηρηθούν οι αναλογίες των παραδειγμάτων ανά ετικέτα στις ομάδες που προκύπτουν. Αυτό επιτυγχάνεται εφαρμόζοντας αρχικά την πρώτη μέθοδο δειγματοληψίας και εφόσον ικανοποιούνται κάποιες συνθήκες εφαρμόζεται η δεύτερη μέθοδος. 2

4 Ευχαριστίες Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή Δρ. Γρηγόριο Δ. Τσουμάκα που μου έδωσε την ευκαιρία να εργαστώ πάνω σε ένα θέμα που με ενδιαφέρει και για την καθοδήγηση του καθ 'όλη τη διάρκεια της διπλωματικής μου εργασίας. Επίσης, θα ήθελα να ευχαριστήσω την οικογένειά μου για τη συμπαράσταση και υποστήριξη που μου προσέφερε στη διάρκεια των σπουδών μου. 3

5 Περιεχόμενα Κατάλογος Πινάκων...6 Κατάλογος Σχημάτων...7 Κεφάλαιο 1 Εισαγωγή Σκοπός της Εργασίας Δομή της Διπλωματικής Εργασίας...10 Κεφάλαιο 2 Θεωρητικό Υπόβαθρο Μηχανική Μάθηση Μάθηση από Δεδομένα Πολλαπλών Ετικετών Μέθοδοι Ταξινόμησης και Κατάταξης Μετασχηματισμός Προβλήματος Προσαρμογή Αλγορίθμου Στατιστικά Μέτρα και Σύνολα Δεδομένων Μέτρα Αξιολόγησης Διαμερίσεις Κατάταξη Ιεραρχία Λογισμικό για Εξόρυξη Δεδομένων Πολλαπλών Ετικετών...28 Κεφάλαιο 3 Η Συνεισφορά μας Διαστρωματωμένη Δειγματοληψία σε Δεδομένα Πολλαπλών Ετικετών Προηγούμενες Μέθοδοι Δειγματοληψίας Μέθοδος Label-Powerset Μέθοδος Iterative Υβριδική Μέθοδος Διαστρωματωμένης Δειγματοληψίας

6 Κεφάλαιο 4 Πειραματικά Αποτελέσματα Περιγραφή Συνόλων Δεδομένων Αλγόριθμοι Μάθησης Μέτρα Αξιολόγησης Μέτρα Αξιολόγησης για τις Στατιστικές Ιδιότητες των Υποσυνόλων Μέτρα Αξιολόγησης για την Εκτίμηση της Ακρίβειας των Μεθόδων Στόχος Πειραμάτων Επιλογή Κατάλληλου Μεγέθους Δείγματος Περιγραφή Πειραματικών Αποτελεσμάτων...57 Κεφάλαιο 5 Συμπεράσματα και Μελλοντικές Επεκτάσεις Συμπεράσματα Μελλοντικές Επεκτάσεις...66 Βιβλιογραφία

7 Κατάλογος Πινάκων Πίνακας 2.1: Παράδειγμα μίας κατάταξης από την LP...18 Πίνακας 2.2: Στατιστικά στοιχεία συνόλων δεδομένων πολλαπλών ετικετών...24 Πίνακας 3.1: Ένα πλήθος από διαφορετικά σύνολα δεδομένων πολλαπλών ετικετών και τα στατιστικά τους: αριθμός ετικετών, παραδειγμάτων, διαφορετικών συνδυασμών ετικετών (labelsets) και συνδυασμών ετικετών ανά παράδειγμα, μαζί με τον ελάχιστο, το μέσο όρο και το μέγιστο αριθμό παραδειγμάτων ανά συνδυασμό ετικετών και ανά ετικέτα Πίνακας 4.1: Εφτά μετρικές αξιολόγησης για δεδομένα πολλαπλών ετικετών, κατηγοριοποιημένες σύμφωνα με το είδος της εξόδου που απαιτείται από το μοντέλο...49 Πίνακας 4.2: Τα σύνολα δεδομένων και τα αντίστοιχα μεγέθη των δειγμάτων που χρησιμοποιήθηκαν στα πειράματα...51 Πίνακας 4.3: Τα σύνολα δεδομένων και οι συνδυασμοί ετικετών ανά παράδειγμα (labelsets/examples) που ισχύει στο δείγμα του κάθε συνόλου...58 Πίνακας 4.4: Στατιστικές ιδιότητες των υποσυνόλων μετά την εφαρμογή των μεθόδων δειγματοληψίας a) (H)ybrid, b) (L)abelPowerset, c) (I)terative και d) (R)andom: Κατανομή των Ετικετών (LD), Κατανομή των Παραδειγμάτων (ED), η μετρική (FZ) που υπολογίζει τον αριθμό των υποσυνόλων που περιέχουν τουλάχιστον μία ετικέτα με μηδενικό αριθμό θετικών παραδειγμάτων και η μετρική (FLZ) που υπολογίζει τον αριθμό των ζευγών υποσυνόλου-ετικέτας με μηδενικό αριθμό θετικών παραδειγμάτων...59 Πίνακας 4.5: Ο μέσος όρος για τις 7 μετρικές αξιολόγησης για δεδομένα πολλαπλών ετικετών (στήλες 3-9). Ο υπολογισμός έγινε με 10-fold-cross validation, τον αλγόριθμο Binary Relevance με liblinear και τις 4 μεθόδους δειγματοληψίας: a) (H)ybrid, b) (L)abelPowerset, c) (I)terative και d) (R)andom. Οι 6 πρώτες γραμμές αντιστοιχούν σε σύνολα δεδομένων με σχετικά μικρή αναλογία συνδυασμών ετικετών-παραδειγμάτων (< 0.36). Οι υπόλοιπες γραμμές αντιστοιχούν σε σύνολα δεδομένων με μεγάλη αναλογία συνδυασμών ετικετών-παραδειγμάτων (> 0.36). Η τελευταία γραμμή παρουσιάζει τη μέση κατάταξη των μεθόδων στα 12 σύνολα δεδομένων

8 Κατάλογος Σχημάτων Σχήμα 2.1: Παράδειγμα ενός συνόλου δεδομένων πολλαπλών ετικετών...16 Σχήμα 2.2: Μετασχηματισμός συνόλου δεδομένων του Σχήματος 1 με χρήση: (α) copy, (b) copy-weight, (c) select-max, (d) select-min, (e) select-random (ένα από τα πιθανά) και (f) ignore...17 Σχήμα 2.3: Μετασχηματισμένο σύνολο δεδομένων με χρήση της μεθόδου Label powerset...17 Σχήμα 2.4: Σύνολα δεδομένων που παράγονται από τη μέθοδο BR...19 Σχήμα 2.5: Σύνολα δεδομένων που παράγονται από τη μέθοδο RPC...20 Σχήμα 3.1: Πίνακας συνάφειας που αφορά στις προβλέψεις μίας ετικέτας...32 Σχήμα 4.1: Καμπύλη μάθησης για το σύνολο δεδομένων emotions. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (78). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...51 Σχήμα 4.2: Καμπύλη μάθησης για το σύνολο δεδομένων enron. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (342). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...52 Σχήμα 4.3: Καμπύλη μάθησης για το σύνολο δεδομένων genbase. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (88). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...52 Σχήμα 4.4: Καμπύλη μάθησης για το σύνολο δεδομένων medical. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (130). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...53 Σχήμα 4.5: Καμπύλη μάθησης για το σύνολο δεδομένων scene. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (322). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...53 Σχήμα 4.6: Καμπύλη μάθησης για το σύνολο δεδομένων yeast. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (322). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP

9 Σχήμα 4.7: Καμπύλη μάθησης για το σύνολο δεδομένων ImageCLEF2012. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (1004). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...54 Σχήμα 4.8: Καμπύλη μάθησης για το σύνολο δεδομένων bibtex. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (1320). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...55 Σχήμα 4.9: Καμπύλη μάθησης για το σύνολο δεδομένων corel5k. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (892). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...55 Σχήμα 4.10: Καμπύλη μάθησης για το σύνολο δεδομένων ImageCLEF2011. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (1071). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...56 Σχήμα 4.11: Καμπύλη μάθησης για το σύνολο δεδομένων mediamill. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (2940). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP...56 Σχήμα 4.12: Καμπύλη μάθησης για το σύνολο δεδομένων tmc2007. Το μέγεθος δείγματος που επιλέγεται αντιστοιχεί στην x-συντεταγμένη του σημείο που είναι στο πλαίσιο (1914). Στον άξονα y βρίσκονται οι τιμές της μετρικής αξιολόγησης MAP

10 Κεφάλαιο 1 Εισαγωγή Στο Κεφάλαιο 1, αρχικά, γίνεται μία εισαγωγή στο θέμα της διπλωματικής εργασίας και στη συνέχεια παρουσιάζεται ο σκοπός και η δομή της. 1.1 Σκοπός της Εργασίας Η διαστρωματωμένη δειγματοληψία είναι μία μέθοδος δειγματοληψίας που λαμβάνει υπόψη την ύπαρξη ομάδων, ξένων μεταξύ τους, ενός πληθυσμού και παράγει δείγματα όπου η αναλογία αυτών των ομάδων διατηρείται. Στην ταξινόμηση δεδομένων που χαρακτηρίζονται από μία ετικέτα, οι ομάδες διαφοροποιούνται με βάση την τιμή της μεταβλητής στόχου. Όμως, στη μάθηση από δεδομένα πολλαπλών ετικετών, όπου υπάρχουν πολλαπλές μεταβλητές στόχου, δεν είναι ξεκάθαρο πώς μπορεί να γίνει η διαστρωματωμένη δειγματοληψία. Σε αυτήν την εργασία εστιάζουμε στη δειγματοληψία δεδομένων πολλαπλών ετικετών. Μελετούμε δύο τεχνικές δειγματοληψίας για δεδομένα πολλαπλών ετικετών και στη συνέχεια προτείνουμε μία νέα σύνθετη τεχνική δειγματοληψίας που συνδυάζει τα οφέλη των δύο παραπάνω μεθόδων. Τέλος, συγκρίνουμε όλες αυτές τις τεχνικές δειγματοληψίας 9

11 εκτελώντας πειράματα σε έναν αριθμό από σύνολα δεδομένων πολλαπλών ετικετών και παραθέτουμε τα αποτελέσματά τους, τα οποία αποκαλύπτουν ενδιαφέροντα συμπεράσματα για τη χρησιμότητα της κάθε μεθόδου ανάλογα με τα χαρακτηριστικά του κάθε συνόλου. Η διπλωματική εργασία έχει βασική κατεύθυνση τη μελέτη τεχνικών διαστρωματωμένης δειγματοληψίας για δεδομένα πολλαπλών ετικετών. Σε αυτό το πλαίσιο αναπτύσσεται μία νέα μέθοδος διαστρωματωμένης δειγματοληψίας για δεδομένα πολλαπλών ετικετών που βασίζεται στο συνδυασμό δύο προηγούμενων μεθόδων διαστρωματωμένης δειγματοληψίας. Ο κύριος σκοπός της εργασίας είναι να καταλήξουμε σε συμπεράσματα για τη χρησιμότητα της κάθε μεθόδου ανάλογα με τα χαρακτηριστικά του εκάστοτε συνόλου δεδομένων πολλαπλών ετικετών στο οποίο θα εφαρμόζεται η ανάλογη μέθοδος. Αρχικά, μελετάμε δύο βασικές τεχνικές διαστρωματωμένης δειγματοληψίας: Στην πρώτη, οι ομάδες παραδειγμάτων διαμορφώνονται με βάση τους διαφορετικούς συνδυασμούς των ετικετών (labelsets) που υπάρχουν στα παραδείγματα εκπαίδευσης (μέθοδος Label Powerset). Στη δεύτερη, κάθε ετικέτα αντιμετωπίζεται ανεξάρτητα από τις άλλες διατηρώντας την κατανομή θετικών και αρνητικών παραδειγμάτων για κάθε ετικέτα (μέθοδος Iterative). Και οι δύο παραπάνω μέθοδοι τροποποιήθηκαν ώστε να δουλεύουν και για δημιουργία ομάδων με άνισα ποσοστά παραδειγμάτων. Στη συνέχεια προτείνουμε τη νέα μέθοδο διαστρωματωμένης δειγματοληψίας η οποία συνδυάζει τις δύο μεθόδους που αναφέρθηκαν και έχει ως βασικό στόχο να διατηρεί τις αναλογίες των παραδειγμάτων ανά ετικέτα στις ομάδες που προκύπτουν. 1.2 Δομή της Διπλωματικής Εργασίας Η δομή της διπλωματικής εργασίας είναι η εξής: 10

12 Κεφάλαιο 2: Σε αυτό το κεφάλαιο παρουσιάζεται το θεωρητικό υπόβαθρο της παρούσας εργασίας. Αρχικά, γίνεται μία μικρή εισαγωγή στη Μηχανική Μάθηση και στο πρόβλημα της μάθησης από δεδομένα πολλαπλών ετικετών. Στη συνέχεια, αναλύονται μέθοδοι ταξινόμησης και κατάταξης για δεδομένα πολλαπλών ετικετών. Τέλος, παρουσιάζονται στατιστικά μέτρα για τέτοιου είδους σύνολα καθώς και μέτρα αξιολόγησης των μεθόδων. Κεφάλαιο 3: Η συνεισφορά μας με αυτήν την διπλωματική εργασία παρουσιάζεται σε αυτό το κεφάλαιο. Αρχικά, γίνεται μία εισαγωγή στη διαστρωματωμένη δειγματοληψία σε δεδομένα πολλαπλών ετικετών. Στη συνέχεια, παρουσιάζονται δύο βασικές τεχνικές διαστρωματωμένης δειγματοληψίας και η τροποποίησή τους ώστε να έχουν τη δυνατότητα να δημιουργούν ομάδες παραδειγμάτων άνισων ποσοστών. Τέλος, αναλύεται η νέα μέθοδος που προτείνουμε στην παρούσα εργασία. Κεφάλαιο 4: Σε αυτό το κεφάλαιο, αρχικά, γίνεται μία συνοπτική αναφορά στα σύνολα δεδομένων που χρησιμοποιήθηκαν στα πειράματα. Στη συνέχεια, αναφέρονται οι αλγόριθμοι μάθησης και τα μέτρα αξιολόγησης που χρησιμοποιήθηκαν. Επιπλέον, παρουσιάζονται και αναλύονται εκτενώς τα πειραματικά αποτελέσματα. Κεφάλαιο 5: Στο τελευταίο κεφάλαιο συνοψίζουμε τη συνεισφορά μας και διατυπώνουμε τα συμπεράσματα της διπλωματικής εργασίας καθώς και τις μελλοντικές επεκτάσεις. 11

13 Κεφάλαιο 2 Θεωρητικό Υπόβαθρο Σε αυτό το κεφάλαιο παρουσιάζεται το θεωρητικό υπόβαθρο της παρούσας εργασίας. Αρχικά, γίνεται μία μικρή εισαγωγή στη Μηχανική Μάθηση και στο πρόβλημα της μάθησης από δεδομένα πολλαπλών ετικετών. Στη συνέχεια, αναλύονται μέθοδοι ταξινόμησης και κατάταξης για δεδομένα πολλαπλών ετικετών (μέθοδοι μετασχηματισμού προβλήματος και προσαρμογής αλγορίθμων). Τέλος, παρουσιάζονται στατιστικά μέτρα για τέτοιου είδους σύνολα καθώς και μέτρα αξιολόγησης των μεθόδων. 2.1 Μηχανική Μάθηση Η μηχανική μάθηση (ΜΜ) αποτελεί έναν από τους σημαντικότερους τομείς έρευνας της τεχνητής νοημοσύνης. Στόχος της είναι η δημιουργία συστημάτων που να είναι σε θέση να εκπαιδεύονται από εμπειρικά δεδομένα που έχουν παρατηρήσει στο παρελθόν, ώστε να εκτελούν την εργασία για την οποία προορίζονται αποτελεσματικότερα. Ο όρος μάθηση έγκειται στο γεγονός ότι τα συστήματα αυτά δεν είναι στατικά, αλλά αλληλεπιδρώντας με το περιβάλλον δράσης τους, αυτοτροφοδοτούνται με νέα γνώση για τον τρόπο που πρέπει να ενεργούν. Έτσι μαθαίνουν και βελτιώνονται. Σύμφωνα με τον Mitchell (Mitchell, 1997) ένα πρόγραμμα υπολογιστή θεωρείται ότι μαθαίνει από εμπειρία E, σε σχέση με κάποια 12

14 κατηγορία εργασιών T και μετρική αποτίμησης P, εάν η απόδοση στις εργασίες του T, όπως μετριέται από το P, βελτιώνεται με την εμπειρία E. Έχουν αναπτυχθεί πολλές τεχνικές ΜΜ οι οποίες χρησιμοποιούνται ανάλογα με τη φύση του προβλήματος και εμπίπτουν σε ένα από τα παρακάτω τρία είδη: μάθηση με επίβλεψη (supervised learning) ή μάθηση με παραδείγματα (learning from examples), μάθηση χωρίς επίβλεψη (unsupervised learning) ή μάθηση από παρατήρηση (learning from observation) και ενισχυτική μάθηση (Reinforcement learning). Αναλυτικά: Στη μάθηση με επίβλεψη το σύστημα καλείται να "μάθει" μια έννοια ή συνάρτηση από ένα σύνολο δεδομένων, η οποία αποτελεί περιγραφή ενός μοντέλου. Ονομάζεται έτσι επειδή θεωρείται ότι υπάρχει κάποιος "επιβλέπων", ο οποίος παρέχει τη σωστή τιμή εξόδου της συνάρτησης για τα δεδομένα που εξετάζονται. Στη μάθηση χωρίς επίβλεψη το σύστημα πρέπει μόνο του να ανακαλύψει συσχετίσεις ή ομάδες σε ένα σύνολο δεδομένων, δημιουργώντας πρότυπα, χωρίς να είναι γνωστό αν υπάρχουν, πόσα και ποια είναι. Ώς αποτέλεσμα προκύπτουν πρότυπα (περιγραφές), κάθε ένα από τα οποία περιγράφει ένα μέρος από τα δεδομένα. Στην ενισχυτική μάθηση η μάθηση γίνεται μέσω επιβράβευσης ή/και τιμωρίας. Χρησιμοποιείται κυρίως σε νοήμονες πράκτορες οι οποίοι είναι οντότητες που αντιλαμβάνονται το περιβάλλον μέσα στο οποίο βρίσκονται με τη βοήθεια αισθητήρων, είναι μέρος του περιβάλλοντος αυτού, κάνουν συλλογισμούς για το περιβάλλον και δρουν πάνω σ αυτό με τη βοήθεια μηχανισμών δράσης για την επίτευξη κάποιων στόχων. Ο στόχος των αλγορίθμων ενισχυτικής μάθησης είναι παρατηρώντας τα αποτελέσματα μιας αλληλουχίας ενεργειών, να βρουν μία πολιτική που να χαρτογραφεί τις καταστάσεις του περιβάλλοντος, σε ενέργειες που οφείλουν να πράττουν οι πράκτορες όταν βρεθούν στις καταστάσεις αυτές. Η μάθηση του συστήματος έγκειται στο ότι υπάρχει επιβράβευση του πράκτορα ανάλογα με το πόσο σωστός είναι ο τρόπος με τον οποίο επιλέγει να μεταβεί από μία κατάσταση σε μία άλλη. Η διαφορά της ενισχυτικής μάθησης από την επιβλεπόμενη μάθηση είναι ότι στην πρώτη δεν χρησιμοποιείται προηγούμενη γνώση. 13

15 2.2 Μάθηση από Δεδομένα Πολλαπλών Ετικετών Ένας μεγάλος όγκος έρευνας στην επιβλεπόμενη μάθηση, ασχολείται με την ανάλυση δεδομένων που χαρακτηρίζονται μόνο από μία ετικέτα, όπου τα παραδείγματα του συνόλου εκπαίδευσης σχετίζονται με μία μόνο ετικέτα λ, ενός συνόλου ετικετών L οι οποίες είναι ξένες μεταξύ τους. Όμως, τα παραδείγματα του συνόλου εκπαίδευσης σε μερικούς τομείς εφαρμογών συχνά χαρακτηρίζονται από ένα σύνολο ετικετών Υ L. Τέτοια δεδομένα ονομάζονται δεδομένα πολλαπλών ετικετών (Tsoumakas et al., 2010). Τα δεδομένα κειμένου, όπως έγγραφα και ιστοσελίδες, συχνά χαρακτηρίζονται από περισσότερες από μία ετικέτες. Για παράδειγμα, ένα άρθρο που αφορά στις αντιδράσεις της Χριστιανικής εκκλησίας για την ταινία Ο κώδικας Da Vinci μπορεί να χαρακτηριστεί και ως θρησκευτικό και ως ταινία. Η κατηγοριοποίηση δεδομένων κειμένου είναι ίσως η πιο δημοφιλής εφαρμογή πολλαπλών ετικετών. Πρόσφατα, το θέμα της μάθησης από δεδομένα πολλαπλών ετικετών έχει προσελκύσει σημαντικά την προσοχή πολλών ερευνητών οι οποίοι παρακινούνται από τον αυξημένο αριθμό νέων εφαρμογών, όπως ο σημασιολογικός χαρακτηρισμός εικόνων (Boutell et al. 2004; Zhang και Ζhou, 2007; Yang et al., 2007) και βίντεο (Qi et al., 2007; Snoek et al., 2006), η λειτουργική γενομική (Clare και King, 2001; Elisseeff και Weston, 2002; Blockeel et al., 2006; Cesa-Bianchi et al., 2006; Barutcuoglu et al., 2006), η κατηγοριοποίηση της μουσικής σε συναισθήματα (Li και Ogihara, 2003; Li και Ogihara, 2006; Weiczorkowska et al., 2006; Trohidis et al., 2008) και το κατευθυνόμενο marketing (Zhang et al., 2006). 2.3 Μέθοδοι Ταξινόμησης και Κατάταξης Υπάρχουν δύο κύριες εργασίες στην επιβλεπόμενη μάθηση από δεδομένα πολλαπλών ετικετών: η ταξινόμηση πολλαπλών ετικετών (MultiLabel Classification, MLC) και η κατάταξη των ετικετών (Label Ranking, LR). Η ταξινόμηση πολλαπλών ετικετών ασχολείται με την εκμάθηση ενός μοντέλου το οποίο δίνει ως αποτέλεσμα μία διαμέριση του συνόλου ετικετών σε σχετικές και άσχετες με ένα παράδειγμα. Η κατάταξη των ετικετών ασχολείται με την εκμάθηση ενός μοντέλου το οποίο δίνει ως αποτέλεσμα μία κατάταξη των ετικετών 14

16 σύμφωνα με τη σχετικότητά τους με ένα παράδειγμα. Σημειώνουμε ότι τα μοντέλα κατάταξης των ετικετών μπορούν επίσης να μάθουν από δεδομένα εκπαίδευσης τα οποία χαρακτηρίζονται από μία ετικέτα, συνολικές κατατάξεις των ετικετών καθώς και ζεύγη προτιμήσεων πάνω σε ένα σύνολο ετικέτων (Vembu και Gartner, 2009). Και η ταξινόμηση πολλαπλών ετικετών και η κατάταξη των ετικετών είναι σημαντικές στην εξόρυξη δεδομένων πολλαπλών ετικετών. Σε μία εφαρμογή που ο χρήστης φιλτράρει τις ειδήσεις, θα πρέπει να εμφανίζονται στο χρήστη μόνο άρθρα του ενδιαφέροντός του αλλά και τα πιο ενδιαφέροντα να είναι στην κορυφή της λίστας. Ιδανικά, θα θέλαμε οι μέθοδοι να κάνουν τόσο κατάταξη όσο και διαμέριση των ετικετών. Μία τέτοια εργασία λέγεται κατάταξη πολλαπλών ετικετών (MultiLabel Ranking, MLR) (Brinker et al., 2006) και αποτελεί μία ενδιαφέρουσα και χρήσιμη γενικευση των MLC και LR. Παρακάτω παρουσιάζουμε τις μεθόδους MLR, MLC και LR ομαδοποιημένες σε δύο κατηγορίες όπως παρουσιάζεται και στην εργασία (Tsoumakas και Katakis, 2007): (i) μετασχηματισμός προβλήματος και (ii) προσαρμογή αλγορίθμου. Η πρώτη ομάδα μεθόδων είναι ανεξάρτητες των αλγορίθμων. Μετασχηματίζουν ένα πρόβλημα μάθησης σε ένα ή περισσότερα προβλήματα ταξινόμησης δεδομένων που χαρακτηρίζονται από μία μόνο ετικέτα (υπάρχει μεγάλη βιβλιογραφία για αλγορίθμους μάθησης). Η δεύτερη ομάδα μεθόδων επεκτείνει συγκεκριμένους αλγορίθμους μάθησης για να χειριστεί άμεσα δεδομένα πολλαπλών ετικετών. Για μία τυπική περιγραφή των μεθόδων θα συμβολίζουμε με L = {λj: j = 1...q}, το πεπερασμένο σύνολο των ετικετών μίας εργασίας μάθησης δεδομένων πολλαπλών ετικετών και με D = {(xi, Yi), i = 1...m}, τα παραδείγματα ενός συνόλου εκπαίδευσης πολλαπλών ετικετών, όπου xi είναι το διάνυσμα των χαρακτηριστικών και Yi L, το σύνολο των ετικετών που χαρακτηρίζουν το i-οστό παράδειγμα Μετασχηματισμός Προβλήματος Οι μέθοδοι μετασχηματισμού προβλήματος θα επεξηγηθούν μέσα από τα δεδομένα πολλαπλών ετικετών του Σχήματος 2.1. Αποτελείται από τέσσερα παραδείγματα που χαρακτηρίζονται από μία ή περισσότερες από τις τέσσερις ετικέτες: λ1, λ2, λ3, λ4. Καθώς οι 15

17 μετασχηματισμοί επηρεάζουν μόνο το χώρο των ετικετών, στα υπόλοιπα σχήματα της παραγράφου, θα παραλείπεται ο χώρος των χαρακτηριστικών για λόγους απλότητας. Σχήμα 2.1: Παράδειγμα ενός συνόλου δεδομένων πολλαπλών ετικετών Υπάρχουν μερικοί απλοί μετασχηματισμοί που μπορούν να χρησιμοποιηθούν για να μετατραπεί ένα σύνολο δεδομένων πολλαπλών ετικετών σε σύνολο δεδομένων που χαρακτηρίζονται από μία μόνο ετικέτα με το ίδιο σύνολο ετικετών (Boutell et al., 2004; Chen et al., 2007). Ένας ταξινομητής δεδομένων που χαρακτηρίζονται από μία ετικέτα ο οποίος εξάγει κατανομές πιθανότητας για όλες τις κλάσεις, μπορεί να χρησιμοποιηθεί για να μάθει μία κατάταξη. Η κλάση με την υψηλότερη πιθανότητα θα καταταχθεί πρώτη, η κλάση με τη δεύτερη καλύτερη πιθανότητα θα καταταχθεί δεύτερη κοκ. Ο μετασχηματισμός αντιγραφής (copy) αντικαθιστά κάθε παράδειγμα πολλαπλών ετικετών (xi, Yi) με Yi παραδείγματα (xi, λj) για κάθε λj Yi. Μία παραλλαγή αυτού του μετασχηματισμού, που λέγεται αντιγραφή με βάρη (copy-weight), συσχετίζει ένα βάρος 1/ Yi με καθένα από τα παραγόμενα παραδείγματα. Η οικογένεια μετασχηματισμών επιλογής (select) αντικαθιστά το Yi με ένα από τα μέλη του. Αυτή η ετικέτα μπορεί να είναι είτε η πιο συχνή (select-max) είτε η πιο σπάνια (select-min) ανάμεσα στα παραδείγματα. Θα μπορούσε, επίσης, να επιλεχθεί τυχαία (select-random). Τέλος, αναφέρουμε το μετασχηματισμό που αγνοεί (ignore) κάθε παράδειγμα που χαρακτηρίζεται από πολλές ετικέτες. Το Σχήμα 2.2 δείχνει το μετασχηματισμένο σύνολο δεδομένων με τη χρήση των παραπάνω απλών μεθόδων μετασχηματισμού. Η Label powerset (LP) είναι μία απλή αλλά αποτελεσματική μέθοδος μετασχηματισμού προβλήματος η οποία δουλεύει ως εξής: θεωρεί κάθε μοναδικό συνδυασμό από ετικέτες (labelset) που εμφανίζεται στο σύνολο εκπαίδευσης (πολλαπλών ετικετών), σαν μία από τις κλάσεις μίας νέας εργασίας ταξινόμησης δεδομένων τα οποία χαρακτηρίζονται από μία μόνο ετικέτα. Το Σχήμα 2.3 δείχνει το αποτέλεσμα του μετασχηματισμού του συνόλου δεδομένων του Σχήματος 2.1 με τη χρήση της Label powerset. 16

18 Σχήμα 2.2: Μετασχηματισμός συνόλου δεδομένων του Σχήματος 1 με χρήση: (α) copy, (b) copy-weight, (c) select-max, (d) select-min, (e) select-random (ένα από τα πιθανά) και (f) ignore Σχήμα 2.3: Μετασχηματισμένο σύνολο δεδομένων με χρήση της μεθόδου Label powerset Δοθέντος ενός νέου παραδείγματος, ένας ταξινομητης της LP για δεδομένα που χαρακτηρίζονται από μία μόνο ετικέτα, δίνει ως αποτέλεσμα την πιο πιθανή κλάση, που είναι στην πραγματικότητα ένα σύνολο από ετικέτες. Εάν αυτός ο ταξινομητής μπορεί να δώσει ως έξοδο μία κατανομή πιθανότητας πάνω σε όλες τις κλάσεις, τότε η LP μπορεί να κατατάξει, επίσης, τις ετικέτες ακολουθώντας την προσέγγιση της εργασίας (Read, 2008). Ο Πίνακας 2.1 δείχνει ένα παράδειγμα μίας κατανομής πιθανότητας που μπορεί να παραχθεί από την LP, με εκπαίδευση στα δεδομένα του Σχήματος 2.3, δοθέντος ενός νέου παραδείγματος x με άγνωστο σύνολο ετικετών. Για να πάρουμε μία κατάταξη ετικετών υπολογίζουμε για κάθε ετικέτα το άθροισμα των πιθανοτήτων των κλάσεων που την περιέχουν. Έτσι, με αυτόν τον τρόπο η LP μπορεί να επιλύσει την πλήρη MLR εργασία. 17

19 Πίνακας 2.1: Παράδειγμα μίας κατάταξης από την LP Η υπολογιστική πολυπλοκότητα της LP, σε σχέση με το q, εξαρτάται από την πολυπλοκότητα του βασικού ταξινομητή σε σχέση με τον αριθμό των κλάσεων, ο οποίος είναι ίσος με τον αριθμό των διαφορετικών συνδυασμών ετικετών του συνόλου εκπαίδευσης. Αυτός ο αριθμός είναι άνω φραγμένος από το min(m, 2 q ), και παρά το ότι συνήθως είναι αρκετά μικρότερος, θέτει ένα σημαντικό πρόβλημα πολυπλοκότητας, ειδικά για μεγάλες τιμές των m και q. Επίσης, ο μεγάλος αριθμός των κλάσεων, με πολλές από αυτές να σχετίζονται με πολύ λίγα παραδείγματα, δυσκολεύει τη διαδικασία της μάθησης. Η μέθοδος μετασχηματισμού προβλήματος pruned (PPT) (Read, 2008) επεκτείνει την LP σε μία προσπάθεια να αντιμετωπίσει τα προαναφερθέντα προβλήματα. Απομακρύνει όλους τους συνδυασμούς ετικετών που εμφανίζονται λιγότερες φορές από ένα μικρό κατώφλι, το οποίο ορίζεται από το χρήστη (π.χ. 2 ή 3) και επιλεκτικά αντικαθιστά την πληροφορία τους, εισάγοντας ξένα υποσύνολα αυτών των συνδυασμών ετικετών που εμφανίζονται περισσότερες φορές από το κατώ φράγμα. Η μέθοδος random-k-labelsets (RAkEL) (Tsoumakas και Vlahavas, 2007) κατασκευάζει ένα σύνολο ταξινομητών LP. Κάθε ταξινομητής LP εκπαιδεύεται με τη χρήση ενός τυχαίου, μικρού, διαφορετικού υποσυνόλου του συνόλου ετικετών. Με αυτόν τον τρόπο η RAkEL καταφέρνει να λάβει υπόψη της τις συσχετίσεις των ετικετών, αποφεύγοντας τα προβλήματα της LP. Παράγεται μία κατάταξη των ετικετών παίρνοντας το μέσο όρο των προβλέψεων 0-1 του κάθε μοντέλου ανά θεωρούμενη ετικέτα. Στη συνέχεια, χρησιμοποιείται κατώφλι για να παραχθεί μία διαμέριση. Η Binary Relevance (BR) είναι μία δημοφιλής μέθοδος μετασχηματισμού προβλήματος η οποία μαθαίνει q δυαδικούς ταξινομητές, έναν για κάθε ετικέτα του L. Μετασχηματίζει το αρχικό σύνολο δεδομένων σε q σύνολα δεδομένων D λj, j = 1...q, τα οποία περιέχουν όλα 18

20 τα παραδείγματα του αρχικού συνόλου δεδομένων, χαρακτηρισμένα θετικά εάν o συνδυασμός ετικετών του αρχικού παραδείγματος περιέχει την ετικέτα λj και αρνητικά εάν δεν την περιέχει. Για την ταξινόμηση ενός νέου παραδείγματος, η BR δίνει ως αποτέλεσμα την ένωση των ετικετών λj οι οποίες έχουν προβλεφθεί ως θετικές από τους q ταξινομητές. Το Σχήμα 2.4 δείχνει τα σύνολα δεδομένων που κατασκευάζονται από την BR, όταν εφαρμοστεί στο σύνολο δεδομένων του Σχήματος 2.1. Σχήμα 2.4: Σύνολα δεδομένων που παράγονται από τη μέθοδο BR Η μέθοδος κατάταξης με σύγκριση ανά ζεύγη (Ranking by Pairwise Comparison, RPC) μετασχηματίζει το σύνολο δεδομένων πολλαπλών ετικετών σε q(q-1)/2 σύνολα δεδομένων που χαρακτηρίζονται από δύο ετικέτες, ένα για κάθε ζεύγος ετικετών (λ i, λ j ), 1 i < j q. Κάθε σύνολο δεδομένων περιέχει εκείνα τα παραδείγματα του D τα οποία χαρακτηρίζονται από μία τουλάχιστον από τις δύο αντίστοιχες ετικέτες, αλλά όχι και από τις δύο. Ένας δυαδικός ταξινομητής που μαθαίνει να διαχωρίζει δύο ετικέτες, εκπαιδεύεται από αυτά τα σύνολα δεδομένων. Δοθέντος ενός νέου παραδείγματος, καλούνται όλοι οι δυαδικοί ταξινομητές και δίνουν μία κατάταξη μετρώντας όλες τις ψήφους που λαμβάνει η κάθε ετικέτα. Το Σχήμα 2.5 δείχνει τα σύνολα δεδομένων που παράγονται από τη μέθοδο RPC, μετά από εφαρμογή της στο σύνολο δεδομένων του Σχήματος 2.1. Ο αλγόριθμος Multi- Label Pairwise Perceptron (MLPP) (Loza Mencia και Furnkranz, 2008) είναι μια μέθοδος RPC που χρησιμοποιεί νευρώνες perceptron για τις εργασίες δυαδικής ταξινόμησης. Η μέθοδος Calibrated Label Ranking (CLR) (Furnkranz et al., 2008) επεκτείνει την RPC εισάγοντας μία επιπλέον εικονική ετικέτα η οποία παίζει το ρόλο του σημείου τομής για την κατάταξη σε σχετικό και άσχετο σύνολο ετικετών. Με αυτόν τον τρόπο η CLR καταφέρνει να επιλύσει την πλήρη ΜLR εργασία. Τα δυαδικά μοντέλα που μαθαίνουν να ξεχωρίζουν την εικονική ετικέτα από κάθε μία από τις υπόλοιπες ετικέτες, αντιστοιχούν στα μοντέλα της BR. Αυτό συμβαίνει γιατί κάθε παράδειγμα το οποίο χαρακτηρίζεται από μία δοθείσα 19

21 ετικέτα θεωρείται θετικό για αυτήν την ετικέτα και αρνητικό για την εικονική ετικέτα, ενώ κάθε παράδειγμα το οποίο δε χαρακτηρίζεται από μία ετικέτα θεωρείται αρνητικό για αυτήν την ετικέτα και θετικό για την εικονική ετικέτα. Όταν η μέθοδος CLR εφαρμόζεται στα δεδομένα του Σχήματος 2.1, κατασκευάζονται τα σύνολα δεδομένων του Σχήματος 2.5 και του Σχήματος 2.4. Σχήμα 2.5: Σύνολα δεδομένων που παράγονται από τη μέθοδο RPC Προσαρμογή Αλγορίθμου Ο αλγόριθμος C4.5 προσαρμόστηκε στην εργασία (Clare και King, 2001) για το χειρισμό δεδομένων πολλαπλών ετικετών. Συγκεκριμένα, επιτράπηκαν πολλαπλές ετικέτες στα φύλλα του δένδρου και ο τύπος του υπολογισμού της εντροπίας τροποποιήθηκε ως εξής: όπου p(λj) = σχετική συχνότητα της κλάσης λj και q(λj) = 1 p(λj). AdaBoost.MH και AdaBoost.MR (Schapire και Singer, 2000) είναι δύο επεκτάσεις του AdaBoost για δεδομένα πολλαπλών ετικετών. Ενώ ο AdaBoost.MH είναι σχεδιασμένος ώστε να ελαχιστοποιεί τη μετρική Hamming Loss, ο AdaBoost.MR σχεδιάστηκε ώστε να βρίσκει μία υπόθεση η οποία να τοποθετεί τις σωστές ετικέτες στην κορυφή της κατάταξης. Ένας συνδυασμός του AdaBoost.MH με έναν αλγόριθμο για παραγωγή εναλλακτικών δέντρων απόφασης παρουσιάζεται στην εργασία (Comite et al, 2003). Το βασικό κίνητρο 20

22 ήταν η παραγωγή μοντέλων πολλαπλών ετικετών που μπορούν να κατανοηθούν από ανθρώπους. Ένα πιθανοκρατικό παραγωγικό μοντέλο προτείνεται στην εργασία (McCallum, 1999), σύμφωνα με το οποίο κάθε ετικέτα παράγει διαφορετικές λέξεις. Με βάση αυτό το μοντέλο ένα έγγραφο πολλαπλών ετικετών παράγεται από ένα μίγμα κατανομών λέξεων των ετικετών του. Ένα παρόμοιο μοντέλο μίγματος βασισμένο στις λέξεις για ταξινόμηση κειμένου πολλαπλών ετικετών υπάρχει στην εργασία (Ueda και Saito, 2003). Άλλη μία προσέγγιση προτείνεται στην εργασία (Streich και Buhmann, 2008), προκειμένου να εκτιμηθεί η μεμονωμένη συνεισφορά της κάθε ετικέτας σε ένα συγκεκριμένο στοιχείο. Η χρήση υπό συνθήκη τυχαίων πεδίων εξερευνάται στην εργασία (Ghamrawi και McCallum, 2005), όπου προτείνονται δύο γραφικά μοντέλα που παραμετροποιούν συνυπάρξεις ετικετών. Το πρώτο, που ονομάζεται collective multi-label, συλλέγει πρότυπα συνύπαρξης μεταξύ των ετικετών, ενώ το δεύτερο, που ονομάζεται collective multi-label with features, προσπαθεί να συλλάβει τις επιδράσεις ενός μεμονωμένου χαρακτηριστικού πάνω στην πιθανότητα συνύπαρξης ενός ζεύγους ετικετών. Ο BP-MLL (Zhang και Zhou, 2006) είναι μία προσαρμογή του δημοφιλούς αλγορίθμου backpropagation για μάθηση δεδομένων πολλαπλών ετικετών. Η κύρια τροποποίηση στον αλγόριθμο είναι η εισαγωγή μίας νέας συνάρτησης λάθους που παίρνει υπόψη πολλαπλές ετικέτες. Η Multi-class Multi-label Perceptron (MMP) είναι μία οικογένεια αλγορίθμων για κατάταξη ετικετών για δεδομένα πολλαπλών ετικετών που βασίζονται σε νευρώνες perceptron. H οικογένεια αλγορίθμων MMP διατηρεί ένα νευρώνα perceptron για κάθε ετικέτα, αλλά η ενημέρωση των βαρών γίνεται έτσι ώστε να επιτευχθεί μία τέλεια κατάταξη όλων των ετικετών. Ένας SVM αλγόριθμος που ελαχιστοποιεί τη μετρική ranking loss προτείνεται στην εργασία (Elisseeff και Weston, 2002). Τρεις υλοποιήσεις της μεθόδου BR με ταξινομητή SVM δίνονται στην εργασία (Godbole και Sarawagi, 2004). Οι δύο πρώτες θα μπορούσαν εύκολα να χρησιμοποιηθούν με κάθε αλγόριθμο ταξινόμησης και για αυτό θα μπορούσαν να θεωρηθούν μία επέκταση της BR, ενώ η τρίτη είναι ειδικά για SVMs. 21

23 Η βασική ιδέα στην πρώτη βελτίωση είναι να επεκταθεί το αρχικό σύνολο δεδομένων με q επιπλέον χαρακτηριστικά, περιλαμβάνοντας τις προβλέψεις του κάθε δυαδικού ταξινομητή. Στη συνέχεια, διεξάγεται ένας δεύτερος γύρος εκπαίδευσης q νέων, δυαδικών ταξινομητών, αυτή τη φορά χρησιμοποιώντας τα επεκτεταμένα σύνολα δεδομένων. Για την ταξινόμηση ενός νέου παραδείγματος, χρησιμοποιούνται αρχικά οι δυαδικοί ταξινομητές του πρώτου γύρου και το αποτέλεσμά τους προστίθεται στα χαρακτηριστικά του παραδείγματος ώστε να σχηματιστεί ένα μέτα-παράδειγμα. Μετά, αυτό το μετα-παράδειγμα ταξινομείται από τους δυαδικούς ταξινομητές του δεύτερου γύρου. Μέσω αυτής της επέκτασης, αυτή η προσέγγιση λαμβάνει υπόψη τις πιθανές εξαρτήσεις μεταξύ των διαφορετικών ετικετών. Σημειώστε ότι αυτή η βελτίωση είναι στην πραγματικότητα μία ειδική περίπτωση εφαρμογής της μεθόδου Stacking για το συνδυασμό πολλαπλών ταξινομητών (Wolpert, 1992), πάνω από την BR. Ένας αριθμός μεθόδων (Luo και Zincir-Heywood, 2005; Wieczorkowska et al., 2006; Brinker και Hullermeier, 2007; Zhang και Zhou, 2007; Spyromitros et al., 2008) βασίζεται στο δημοφιλή αλγόριθμο μάθησης των k πλησιέστερων γειτόνων (k-nearest-neighbors, knn). Το πρώτο βήμα σε αυτές τις προσεγγίσεις είναι το ίδιο όπως συμβαίνει στον knn, δηλαδή ανάκτηση των k πλησιέστερων παραδειγμάτων. Αυτό που τις διαφοροποιεί είναι ο συγκερασμός (aggregation) των συνόλων ετικετών αυτών των παραδειγμάτων. Για παράδειγμα, ο ML-kNN (Zhang και Zhou, 2007) χρησιμοποιεί την αρχή της μέγιστης εκ των υστέρων πιθανότητας, προκειμένου να αποφασίσει το σύνολο ετικετών του παραδείγματος (ελέγχου) με βάση τις εκ των προτέρων και εκ των υστέρων πιθανότητες για τη συχνότητα της κάθε ετικέτας στους k πλησιέστερους γείτονες. Ο MMAC (Thabtah et al., 2004) είναι ένας αλγόριθμος που ακολουθεί το παράδειγμα της ταξινόμησης με συσχέτιση (associative classification), η οποία ασχολείται με την κατασκευή συνόλων κανόνων ταξινόμησης, χρησιμοποιώντας εξόρυξη κανόνων συσχέτισης. Ο MMAC μαθαίνει ένα αρχικό σύνολο από κανόνες ταξινόμησης μέσω εξόρυξης κανόνων συσχέτισης, διαγράφει τα παραδείγματα που σχετίζονται με αυτό το σύνολο κανόνων και αναδρομικά μαθαίνει ένα νέο σύνολο κανόνων από τα υπόλοιπα παραδείγματα μέχρις ότου να μην υπάρχουν συχνά αντικείμενα. Αυτά τα σύνολα πολλαπλών κανόνων μπορεί να περιέχουν κανόνες με παρόμοιες προϋποθέσεις αλλά 22

24 διαφορετικές ετικέτες στο δεξί μέλος του κανόνα. Τέτοιοι κανόνες συνενώνονται σε έναν κανόνα πολλαπλών ετικετών. Οι ετικέτες κατατάσσονται σύμφωνα με την υποστήριξη (support) των μεμονωμένων κανόνων. Τέλος, μία προσέγγιση που συνδυάζει μάθηση κατά περίπτωση και μάθηση με κανόνες συσχέτισης προτείνεται στην εργασία (Veloso et al, 2007), όπου η επαγωγική διαδικασία καθυστερείται μέχρι να δοθεί για ταξινόμηση ένα παράδειγμα. 2.4 Στατιστικά Μέτρα και Σύνολα Δεδομένων Σε μερικές εφαρμογές, ο αριθμός των ετικετών του κάθε παραδείγματος είναι μικρός σε σύγκριση με το q, ενώ σε άλλες είναι μεγάλος. Αυτό μπορεί να είναι μία παράμετρος που επηρεάζει την απόδοση των διαφορετικών μεθόδων δεδομένων πολλαπλών ετικετών. Σε αυτήν την παράγραφο εξηγούμε τις έννοιες της πληθυκότητας ετικέτας (Label-Cardinality) και της πυκνότητας ετικέτας (Label-Density) ενός συνόλου δεδομένων. Η πληθυκότητα ετικέτας ενός συνόλου δεδομένων D είναι ο μέσος όρος του αριθμού των ετικετών των παραδειγμάτων στο D: Η πυκνότητα ετικέτας του D είναι ο μέσος όρος του αριθμού των ετικετών των παραδειγμάτων στο D, διαιρεμένος με q: Η πληθυκότητα ετικέτας είναι ανεξάρτητη του αριθμού των ετικετών q στο πρόβλημα της ταξινόμησης, και χρησιμοποιείται για να ποσοτικοποιήσει τον αριθμό των εναλλακτικών ετικετών που χαρακτηρίζουν τα παραδείγματα του συνόλου εκπαίδευσης. Η πυκνότητα ετικέτας λαμβάνει υπόψη των αριθμό των ετικετών του αντικειμένου. Δύο σύνολα δεδομένων με την ίδια πληθυκότητα ετικέτας αλλά με μεγάλη διαφορά στον αριθμό των ετικετών (διαφορετική πυκνότητα ετικέτας) δεν μπορούν να παρουσιάσουν τις ίδιες ιδιότητες και μπορεί να προκαλέσουν διαφορετική συμπεριφορά στις μεθόδους μάθησης πολλαπλών ετικετών. Ο αριθμός των διαφορετικών συνόλων ετικετών είναι επίσης σημαντικός για πολλές αλγοριθμικές μεθόδους μετασχηματισμού που λειτουργούν σε 23

25 υποσύνολα ετικετών. Στον Πίνακα 2.2 παρουσιάζονται ενδεικτικά σύνολα δεδομένων από διάφορους τομείς μαζί με τα αντίστοιχα στατιστικά τους στοιχεία. Πίνακας 2.2: Στατιστικά στοιχεία συνόλων δεδομένων πολλαπλών ετικετών 2.5 Μέτρα Αξιολόγησης Οι μέθοδοι που μαθαίνουν από δεδομένα πολλαπλών ετικετών απαιτούν διαφορετικές μετρικές από αυτές που μαθαίνουν από δεδομένα που χαρακτηρίζονται από μία ετικέτα. Αυτή η ενότητα παρουσιάζει τα διαφορετικά μέτρα που έχουν προταθεί στο παρελθόν για αξιολόγηση i) διαμερίσεων και ii) κατατάξεων σύμφωνα με τις πραγματικές τιμές (ground truth) των δεδομένων πολλαπλών ετικετών. Η ενότητα καταλήγει σε μία υποενότητα που περιλαμβάνει μέτρα τα οποία λαμβάνουν υπόψη τους μία υπάρχουσα ιεραρχία ετικετών. Για τους ορισμούς αυτών των μέτρων θα θεωρήσουμε ένα σύνολο δεδομένων αξιολόγησης από παραδείγματα πολλαπλών ετικετών (xi, Yi), i = 1...m και Yi L, όπου Yi το σύνολο των ετικετών που χαρακτηρίζουν το παράδειγμα xi και L = {λj: j = 1...q}, το πεπερασμένο σύνολο των ετικετών. Δοθέντος ενός παραδείγματος xi το σύνολο των ετικετών που προβλέπεται από μία MLC μέθοδο συμβολίζεται με Zi, ενώ η κατάταξη που προβλέπεται από μία LR μέθοδο για μία ετικέτα λ συμβολίζεται με ri(λ). Η πιο σχετική ετικέτα λαμβάνει την υψηλότερη κατάταξη (1), ενώ η λιγότερο σχετική λαμβάνει τη χαμηλότερη κατάταξη (q). 24

26 2.5.1 Διαμερίσεις Κάποια από τα μέτρα που αξιολογούν διαμερίσεις υπολογίζονται με βάση το μέσο όρο των διαφορών μεταξύ των πραγματικών και προβλεπόμενων συνόλων ετικετών πάνω στα παραδείγματα του συνόλου δεδομένων αξιολόγησης. Άλλα διαχωρίζουν τη διαδικασία αξιολόγησης σε ξεχωριστές αξιολογήσεις για την κάθε ετικέτα και στη συνέχεια υπολογίζουν το μέσο όρο όλων των ετικετών. Καλούμε τα πρώτα ως μέτρα αξιολόγησης που βασίζονται στα παραδείγματα (example-based) και τα τελευταία ως μέτρα αξιολόγησης που βασίζονται στις ετικέτες (label-based). Mέτρα Αξιολόγησης που Βασίζονται στα Παραδείγματα Η μετρική Hamming-Loss (Schapire και Singer, 2000) ορίζεται ως εξής: όπου το αντιπροσωπεύει τη συμμετρική διαφορά των δύο συνόλων, η οποία είναι ισοδύναμη της αποκλειστικής διάζευξης (λειτουργία XOR) σε Boolean λογική. Η Ακρίβεια ταξινόμησης (classification accuracy) (Zhu et al., 2005) ή ακρίβεια υποσυνόλου (subset accuracy) (Ghamrawi και McCallum, 2005) ορίζεται ως εξής: όπου I(true) = 1 και I(false) = 0. Αυτό είναι ένα πολύ αυστηρό μέτρο αξιολόγησης καθώς απαιτεί το προβλεπόμενο σύνολο ετικετών να συμπίπτει με το πραγματικό σύνολο των ετικετών. Τα παρακάτω μέτρα χρησιμοποιούνται στην εργασία (Godbole και Sarawagi, 2004): 25

27 Mέτρα Αξιολόγησης που Βασίζονται στις Ετικέτες Κάθε γνωστό μέτρο για δυαδική αξιολόγηση μπορεί να χρησιμοποιηθεί εδώ, όπως η ακρίβεια (accuracy), η περιοχή κάτω από την καμπύλη ROC, η μετρική precision και η ανάκληση (recall). Ο υπολογισμός αυτών των μέτρων για όλες τις ετικέτες μπορεί να επιτευχθεί χρησιμοποιώντας δύο είδη υπολογισμών του μέσου όρου, οι οποίοι λέγονται macro-averaging και micro-averaging (Yang, 1999). Αυτά τα είδη υπολογισμού, συνήθως, χρησιμοποιούνται για το μέσο όρο του precision, της ανάκλησης και του αρμονικού μέσου (F-measure) στις εργασίες της Ανάκτησης Πληροφορίας. Ας θεωρήσουμε ένα δυαδικό μέτρο αξιολόγησης Β(tp, tn, fp, fn) το οποίο υπολογίζεται με βάση τον αριθμό των αληθώς θετικών παραδειγμάτων (tp), των αληθώς αρνητικών (tn), των ψευδώς θετικών (fp) και των ψευδώς αρνητικών (fn). Συμβολίζουμε με tpλ, tnλ, fpλ, fnλ τον αριθμό των αληθώς θετικών παραδειγμάτων, των αληθώς αρνητικών, των ψευδώς θετικών και των ψευδώς αρνητικών μετά τη δυαδική αξιολόγηση μιας ετικέτας λ. Οι macroaveraged και micro-averaged τύποι του Β υπολογίζονται ως εξής: Σημειώνουμε ότι ο macro-averaging υπολογισμός έχει το ίδιο αποτέλεσμα με τον microaveraging για κάποια μέτρα αξιολόγησης, όπως η ακρίβεια (accuracy), ενώ διαφέρει σε κάποια άλλα όπως το precision, η ανάκληση και η περιοχή κάτω από την καμπύλη ROC. Επίσης, σημειώνουμε ότι ο μέσος όρος (micro/macro) της ακρίβειας και του μέτρου Hamming loss αθροίζουν στη μονάδα, καθώς το Hamming loss είναι στην πραγματικότητα το μέσο λάθος της δυαδικής ταξινόμησης. 26

28 2.5.2 Κατάταξη Το μέτρο αξιολόγησης One-Error αξιολογεί πόσες φορές η ετικέτα που βρίσκεται στην κορυφή της κατάταξης δεν ανήκει στο σύνολο των σχετικών ετικετών του παραδείγματος: όπου Το μέτρο αξιολόγησης Κάλυψη (Coverage) αξιολογεί πόσο, κατά μέσο όρο, χρειάζεται να κατέβουμε προς τα κάτω στην κατάταξη των ετικετών ώστε να καλύψουμε όλες τις σχετικές ετικέτες του παραδείγματος: Η μετρική Απώλεια Κατάταξης (Ranking loss) εκφράζει το πόσες φορές άσχετες ετικέτες κατατάσσονται υψηλότερα από τις σχετικές ετικέτες: όπου Ῡi είναι το συμπλήρωμα του συνόλου Υi με βάση το L. Τέλος, η μετρική Μέση Ακρίβεια (Αverage Precision) αξιολογεί το μέσο ποσοστό των ετικετών που κατατάσσονται πάνω από μία συγκεκριμένη ετικέτα λ Υi η οποία πραγματικά ανήκει στο Υi. 27

29 2.5.3 Ιεραρχία Η Ιεραρχική Απώλεια (Hierarchical loss) (Cesa-Bianchi et al., 2006) είναι ένας τροποποιημένος τύπος του Hamming loss που παίρνει υπόψη της μία υπάρχουσα ιεραρχική δομή των ετικετών. Εξετάζει τις προβλεπόμενες ετικέτες με έναν από πάνω προς τα κάτω τρόπο σύμφωνα με την ιεραρχία και όποτε η πρόβλεψη για μία ετικέτα είναι λάθος, το υποδέντρο που έχει ως ρίζα αυτό τον κόμβο δε λαμβάνεται υπόψη στον περαιτέρω υπολογισμό της απώλειας. Συμβολίζουμε με anc(λ) το σύνολο όλων των προγενέστερων κόμβων της λ. Η Ιεραρχική Απώλεια ορίζεται ως εξής: Άλλα μέτρα για ιεραρχική ταξινόμηση δεδομένων πολλαπλών ετικετών εξετάζονται στις εργασίες (Streich και Buhmann, 2008; Sun και Lim, 2001). 2.6 Λογισμικό για Εξόρυξη Δεδομένων Πολλαπλών Ετικετών Υπάρχει ένας αριθμός υλοποιήσεων συγκεκριμένων αλγορίθμων για εξόρυξη δεδομένων πολλαπλών ετικετών, οι περισσότεροι από τους αποίους έχουν συζητηθεί στην παράγραφο 2.3. Το BoosTexter σύστημα υλοποιεί προσεγγίσεις βασισμένες στην τεχνική του boosting (Schapire και Singer, 2000). Επίσης, υπάρχουν υλοποιήσεις σε Matlab για MLkNN και BPMLL. Υπάρχουν, επίσης, γενικότερου σκοπού λογισμικά που διαχειρίζονται δεδομένα πολλαπλών ετικετών ως μέρος της λειτουργικότητάς τους. Η LibSVM (Chang και Lin, 2001) είναι μία βιβλιοθήκη μηχανών διανυσμάτων υποστήριξης (SVMs) που χρησιμοποιούνται για μάθηση από δεδομένα πολλαπλών ετικετών με χρήση της μεθόδου μετασχηματισμού BR. Τέλος, η Mulan είναι ένα λογισμικό ανοιχτού κώδικα αφιερωμένο στην εξόρυξη δεδομένων πολλαπλών ετικετών. Περιλαμβάνει υλοποιήσεις ενός μεγάλου αριθμού αλγορίθμων μάθησης, βασικών δυνατοτήτων για μείωση διαστάσεων και ιεραρχικής ταξινόμησης δεδομένων πολλαπλών ετικετών και ένα εκτεταμένο πλαίσιο αξιολόγησης. 28

30 Κεφάλαιο 3 Η Συνεισφορά μας Σε αυτό το κεφάλαιο παρουσιάζεται η συνεισφορά της διπλωματικής εργασίας. Γίνεται μία εισαγωγή στη διαστρωματωμένη δειγματοληψία σε δεδομένα πολλαπλών ετικετών. Επίσης, παρουσιάζονται δύο βασικές τεχνικές διαστρωματωμένης δειγματοληψίας και η τροποποίησή τους ώστε να έχουν τη δυνατότητα να δημιουργούν υποσύνολα παραδειγμάτων άνισων ποσοστών. Στο τέλος του κεφαλαίου, αναλύεται η νέα μέθοδος που προτείνουμε. 3.1 Διαστρωματωμένη Δειγματοληψία σε Δεδομενα Πολλαπλών Ετικετών Σε δεδομένα πολλαπλών ετικετών, μπορούν να σχηματιστούν ομάδες με βάση τους διαφορετικούς συνδυασμούς των ετικετών (labelsets) που χαρακτηρίζουν τα παραδείγματα εκπαίδευσης. Το πλήθος των διαφορετικών συνδυασμών ετικετών ενός συνόλου δεδομένων πολλαπλών ετικετών με m παραδείγματα και q ετικέτες είναι άνω φραγμένο από το min(m, 2 q ). Συνήθως αυτό το φράγμα είναι ίσο με m, επειδή στις περισσότερες 29

31 εφαρμογές το q δεν είναι πολύ μικρό και αυτό έχει ως αποτέλεσμα το 2 q να είναι ένας πάρα πολύ μεγάλος αριθμός. Στον Πίνακα 3.1 φαίνεται ότι, σε μία ποικιλία συνόλων δεδομένων πολλαπλών ετικετών, ο αριθμός των διαφορετικών συνδυασμών ετικετών είναι συχνά αρκετά μεγάλος και μερικές φορές κοντά στον αριθμό των παραδειγμάτων του εκάστοτε συνόλου. Σε τέτοιες περιπτώσεις, αυτή η αυστηρή ερμηνεία της διαστρωματωμένης δειγματοληψίας σε δεδομένα πολλαπλών ετικετών είναι ασύμφορη για την εκτέλεση k-fold cross-validation (διασταυρωμένη επικύρωση σε k μέρη) ή holdout (με διαχωρισμό σε σύνολο εκπαίδευσης και ελέγχου) πειραμάτων, καθώς οι περισσότερες ομάδες (labelsets) θα αποτελούνταν από ένα μόνο παράδειγμα. Ο Πίνακας 3.1 είναι ταξινομημένος κατά αύξουσα σειρά της αναλογίας μεταξύ των διαφορετικών συνδυασμών ετικετών και του αριθμού των παραδειγμάτων και συνεπώς κατά φθίνουσα σειρά του μεσου όρου των παραδειγμάτων ανά διακριτό συνδυασμό ετικετών. Παρατηρούμε ότι στα τελευταία τρία σύνολα δεδομένων, ο μέσος όρος των παραδειγμάτων ανά διακριτό συνδυασμό ετικετών είναι 1 (με στρογγυλοποίηση). Θεωρούμε, επιπλέον, μία πιο χαλαρή έννοια της διαστρωματωμένης δειγματοληψίας από δεδομένα πολλαπλών ετικετών, με την οποία θέτουμε ως στόχο τη διατήρηση της κατανομής των θετικών και αρνητικών παραδειγμάτων για κάθε ετικέτα (Sechidis et al. 2011). Αυτή η ερμηνεία βλέπει κάθε ετικέτα ανεξάρτητα. Όμως, σημειώνουμε ότι δεν μπορούμε να εφαρμόσουμε διαστρωμάτωση (stratification) ανεξάρτητα σε κάθε ετικέτα, καθώς αυτό θα οδηγούσε σε διαφορετικά διακριτά υποσύνολα των δεδομένων για την κάθε ετικέτα. Τέτοια σύνολα δεδομένων είναι ακατάλληλα για την αξιολόγηση αλγορίθμων μάθησης για δεδομένα πολλαπλών ετικετών, με εξαίρεση την απλή προσέγγιση του binary relevance. Ακόμη και αυτή η προσέγγιση, ωστόσο, θα μπορούσε να αξιολογηθεί μόνο με τη χρήση μετρικών οι οποίες στηρίζονται σε ανεξάρτητους υπολογισμούς για την κάθε ετικέτα, όπως για παράδειγμα οι μετρικές: Hamming loss και macro-averaged precision, ανάκληση (recall) και F1. Η επίτευξη αυτού του είδους διαστρωμάτωσης κατά την εκτέλεση k-fold cross-validation και holdout πειραμάτων σε δεδομένα πολλαπλών ετικετών είναι εξαιρετικά σημαντική, επειδή οι περισσότερες ετικέτες σε τέτοιου είδους δεδομένα παρουσιάζουν δυσαναλογία κλάσεων (class imbalance) (He και Garcia, 2009; Chawla et al., 2004). Οι τελευταίες τρεις 30

32 στήλες του Πίνακα 3.1 δείχνουν τον ελάχιστο, το μέσο όρο και το μέγιστο αριθμό παραδειγμάτων ανά ετικέτα για κάθε σύνολο δεδομένων. Μας δίνουν, ουσιαστικά, μία εικόνα της ανισσοροπίας των αναλογιών αυτών που εντοπίστηκαν σε σύνολα δεδομένων πολλαπλών ετικέτων. dataset labels examples labelsets labelsets/ examples Examples per labelset Examples per label min avg max min avg max scene emotions tmc genbase yeast medical mediamill bibtex enron ImageClef corel5k ImageClef Πίνακας 3.1: Ένα πλήθος από διαφορετικά σύνολα δεδομένων πολλαπλών ετικετών και τα στατιστικά τους: αριθμός ετικετών, παραδειγμάτων, διαφορετικών συνδυασμών ετικετών (labelsets) και συνδυασμών ετικετών ανά παράδειγμα, μαζί με τον ελάχιστο, το μέσο όρο και το μέγιστο αριθμό παραδειγμάτων ανά συνδυασμό ετικετών και ανά ετικέτα. Επιπλέον, η επίτευξη αυτού του είδους διαστρωμάτωσης αναμένεται να είναι επωφελής σε δύο κατευθύνσεις. Πρώτον, με βάση προηγούμενες μελέτες σε δεδομένα που χαρακτηρίζονται από μία μόνο ετικέτα, αναμένεται να έχει καλύτερα αποτελέσματα από την τυχαία κατανομή σε ό,τι αφορά στην εκτίμηση της μεροληψίας (bias) και της διακύμανσης (variance). Δεύτερον, θα μείωνε την πιθανότητα παραγωγής υποσυνόλων με μηδενικά θετικά παραδείγματα για μία ή περισσότερες ετικέτες. Σε τέτοιου είδους υποσύνολα, προκύπτουν θέματα σχετικά με τον υπολογισμό ορισμένων μετρικών αξιολόγησης για δεδομένα πολλαπλών ετικετών που χρησιμοποιούνται ευρέως, όπως είναι οι macro- 31

33 averaged εκδόσεις της ανάκλησης (recall), της F1, της AUC (Area Under the receiver operating characteristic Curve) και του μέσου όρου ακρίβειας (average precision), μία δημοφιλής μετρική για πολυμεσική ανάκτηση πληροφορίας (Nowak et al., 2010). Θεωρείστε το παράδειγμα του πίνακα συνάφειας που απεικονίζεται στο Σχήμα 3.1, ο οποίος αφορά στις προβλέψεις για μία ετικέτα. Στην περίπτωση όπου το σύνολο ελέγχου δεν έχει κανένα θετικό παράδειγμα από αυτήν την ετικέτα, τότε το fn = tp = 0. Σχήμα 3.1: Πίνακας συνάφειας που αφορά στις προβλέψεις μίας ετικέτας Δοθέντος ότι η ανάκληση ορίζεται ως tp/(tp+fn), η τιμή της ανάκλησης για αυτήν την ετικέτα δεν ορίζεται (0/0). Αν το μοντέλο είναι σωστό και δεν προβλέπει αυτήν ετικέτα για κανένα από τα παραδείγματα του συνόλου ελέγχου, τότε το fp = 0, καθιστώντας την τιμή της ακρίβειας για αυτήν την ετικέτα τέτοια ώστε και πάλι να μην ορίζεται (0/0), αφού η ακρίβεια ορίζεται ως tp/(tp+fp). Το μέτρο F1 είναι ο αρμονικός μέσος της ακρίβειας και της ανάκλησης, το οποίο εξ ορισμού δεν ορίζεται όταν είτε η ακρίβεια είτε η ανάκληση δεν ορίζεται. Το AUC επίσης δεν ορίζεται επειδή εξαρτάται από την αναλογία των αληθώς θετικών παραδειγμάτων η οποία είναι ισοδύναμη με την ανάκληση. Η μέση ακρίβεια θεωρεί μία κατάταξη των θετικά προβλεπόμενων παραδειγμάτων μίας ετικέτας βασισμένη σε τιμές πιθανοτήτων. Είναι ο μέσος όρος των tp ακριβειών, που συμβολίζονται ως Precisioni, i = 1...tp, όπου Precisioni είναι η ακρίβεια που υπολογίζεται για τα προβλεπόμενα ως θετικά παραδείγματα καταταγμένα σε υψηλότερη ή ίση θέση με το i-στο αληθώς θετικό παράδειγμα σε αυτή την κατάταξη. Εφόσον tp = 0, η μέση ακρίβεια, επίσης, δεν ορίζεται. Οι macro-averaging μέσοι όροι παίρνουν το μέσο όρο των μετρικών για όλες τις ετικέτες. Αν μία μετρική δεν ορίζεται για μία ετικέτα, ο μέσος όρος της για όλες της ετικέτες, επίσης, δε θα ορίζεται. 32

34 3.2 Προηγούμενες Μέθοδοι Δειγματοληψίας Σε αυτήν την παράγραφο αναλύονται δύο μέθοδοι διαστρωματωμένης δειγματοληψίας, Label Powerset Stratification και Iterative Stratification, καθώς και οι αλλαγές που έγιναν σε αυτές ώστε να μπορούν να χειρίζονται τη δημιουργία υποσυνόλων που περιέχουν διαφορετικό ποσοστό παραδειγμάτων μεταξύ τους από ένα σύνολο δεδομένων Μέθοδος Label Powerset Σε αυτήν την παράγραφο παρουσιάζεται η αρχική μέθοδος Label Powerset η οποία παράγει υποσύνολα ενός συνόλου δεδομένων με το ίδιο ποσοστό παραδειγμάτων καθώς και η τροποποίησή της ώστε να παράγει υποσύνολα ενός συνόλου δεδομένων με διαφορετικό ποσοστό παραδειγμάτων το καθένα. Αρχική μέθοδος Label Powerset Stratification Η είσοδος του αλγορίθμου είναι ένα σύνολο δεδομένων πολλαπλών ετικετών, D, το οποίο χαρακτηρίζεται από ένα σύνολο ετικετών L = {λ1,..., λq} και ένα επιθυμητό πλήθος από υποσύνολα k, οπότε αυτόματα και το ποσοστό των παραδειγμάτων σε κάθε υποσύνολο θεωρείται ότι είναι ίσο με 1/k. Για παράδειγμα, εάν θα θέλαμε να χρησιμοποιήσουμε τον αλγόριθμο για να εκτελέσουμε 10-fold CV, τότε το k θα πρέπει να είναι 10 και το ποσοστό παραδειγμάτων ανά υποσύνολο είναι το 1/10. Αρχικά, το σύνολο δεδομένων πολλαπλών ετικετών μετατρέπεται σε σύνολο δεδομένων που χαρακτηρίζονται από μία μοναδική ετικέτα. Αυτό γίνεται ουσιαστικά θεωρώντας τον κάθε διαφορετικό συνδυασμό ετικετών που χαρακτηρίζουν τα παραδείγματα ως μία διαφορετική κλάση ενός πρόσθετου χαρακτηριστικού το οποίο παίζει το ρόλο της μοναδικής ετικέτας του συνόλου. Στη συνέχεια, γίνεται η κατανομή των παραδειγμάτων στα k υποσύνολα με τέτοιο τρόπο ώστε κάθε υποσύνολο να περιέχει ίδιο αριθμό παραδειγμάτων από τον κάθε συνδυασμό ετικετών. Επομένως, και ο συνολικός αριθμός των παραδειγμάτων σε κάθε υποσύνολο είναι ο ίδιος. Η ανάθεση των παραδειγμάτων στα 33

Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Ή Ε Ρ ΓΑ Σ Ί Α

Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Ή Ε Ρ ΓΑ Σ Ί Α Α Ρ Ι Σ Τ Ο Τ Έ Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Ή Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ί Κ Η Σ ΣΧΟΛΉ ΘΕΤΙΚΏΝ ΕΠΙΣΤΗΜΏΝ ΤΜΉΜΑ ΠΛΗΡΟΦΟΡΙΚΉΣ Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Ή Ε Ρ ΓΑ Σ Ί Α «ΑΝΑΠΤΥΞΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΔΕΔΟΜΕΝΩΝ ΠΟΛΛΑΠΛΩΝ

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 M = 1 N = N prob k N k { k n ω wrongly classfed} = (1 ) N k 2 Η συνάρτηση πιθανοφάνειας L(p) μεγιστοποιείται όταν =k/n. 3 Αφού τα s είναι άγνωστα,

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Επιλογή Χαρακτηριστικών σε Δεδομένα Πολλαπλών Ετικετών

Επιλογή Χαρακτηριστικών σε Δεδομένα Πολλαπλών Ετικετών ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Επιλογή Χαρακτηριστικών σε Δεδομένα Πολλαπλών Ετικετών Διπλωματική Εργασία του Τραϊανού Γεώργιου (ΑΕΜ: 866) Επιβλέπων

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 19 ης διάλεξης

Ασκήσεις μελέτης της 19 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 2016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 19 ης διάλεξης 19.1. Δείξτε ότι το Perceptron με (α) συνάρτηση ενεργοποίησης

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες

Διαβάστε περισσότερα

Τεχνικές Μηχανικής Μάθησης για Ροές Δεδομένων με Πολλαπλές Ετικέτες

Τεχνικές Μηχανικής Μάθησης για Ροές Δεδομένων με Πολλαπλές Ετικέτες ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ, ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Τεχνικές Μηχανικής Μάθησης για Ροές Δεδομένων με Πολλαπλές Ετικέτες Καρπόνη Κωνσταντίνα Επιβλέπων Καθηγητής: Τσουμάκας Γρηγόριος 24/2/2016 Πίνακας

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : , Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016 ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Ψηφιακή Ανάλυση Εικόνας Η ψηφιακή ανάλυση εικόνας ασχολείται κυρίως με τέσσερις βασικές λειτουργίες: διόρθωση, βελτίωση, ταξινόμηση Με τον όρο ταξινόμηση εννοείται

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η Ε ΡΓΑ Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η Ε ΡΓΑ Σ Ι Α Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η Ε ΡΓΑ Σ Ι Α ΔΙΑΔΙΚΤΥΑΚΗ ΕΦΑΡΜΟΓΗ ΑΝΑΖΗΤΗΣΗΣ ΕΙΚΟΝΩΝ An Image Retrieval

Διαβάστε περισσότερα

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες Ορισμός Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες αβεβαιότητας. Βασικές έννοιες Η μελέτη ενός πληθυσμού

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας. 7 ο ΜΑΘΗΜΑ ΚΕΦΑΛΑΙΟ 2 ΣΤΑΤΙΣΤΙΚΗ Σκοπός Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας. Προσδοκώμενα αποτελέσματα Όταν θα έχετε ολοκληρώσει τη μελέτη αυτού του κεφαλαίου

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (# 252) Ε ΕΞΑΜΗΝΟ 9 η ΕΙΣΗΓΗΣΗ ΣΗΜΕΙΩΣΕΙΣ ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ ΛΙΓΗ ΘΕΩΡΙΑ Στην προηγούμενη διάλεξη μάθαμε ότι υπάρχουν διάφορες μορφές έρευνας

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2 (ΨΥΧ-122) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: lzabetak@dpem.tuc.gr Διαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ 28210 37323 Διάλεξη 2 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

E[ (x- ) ]= trace[(x-x)(x- ) ]

E[ (x- ) ]= trace[(x-x)(x- ) ] 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Παραγώγιση Εισαγωγή Ορισμός 7. Αν y f x είναι μια συνάρτηση ορισμένη σε ένα διάστημα

Διαβάστε περισσότερα

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Πολυτεχνείο Κρήτης Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Ηλεκτρονικών Υπολογιστών Τομέας Τηλεπικοινωνιών Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2017-2018 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ. Στατιστική????? Κάθε μέρα ερχόμαστε σε επαφή 24/02/2018

ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ. Στατιστική????? Κάθε μέρα ερχόμαστε σε επαφή 24/02/2018 ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ Αντώνης Κ. Τραυλός (B.A., M.A., Ph.D.) Καθηγητής ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ Σχολή Επιστημών Ανθρώπινης Κίνησης και Ποιότητας Ζωής Τμήμα Οργάνωσης και Διαχείρισης Αθλητισμού Στατιστική?????

Διαβάστε περισσότερα

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 )

Μέρος IV. Πολυδιάστατες τυχαίες μεταβλητές. Πιθανότητες & Στατιστική 2017 Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Παν. Ιωαννίνων Δ15 ( 1 ) Μέρος IV Πολυδιάστατες τυχαίες μεταβλητές Πιθανότητες & Στατιστική 07 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Παν. Ιωαννίνων Δ5 ( ) Πολυδιάστατες μεταβλητές Πολλά ποσοτικά χαρακτηριστικά που σχετίζονται με

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ ΜΕΡΟΣ ΙΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ Πολλές από τις αποφάσεις

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2015-2016 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό

Διαβάστε περισσότερα

Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ

Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ Α ΡΙΣΤΟΤΕΛΕΙΟ Π ΑΝΕΠΙΣΤΗΜΙΟ Θ ΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ «ΤΕΧΝΙΚΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΓΙΑ ΧΑΡΑΚΤΗΡΙΣΜΟ ΜΟΥΣΙΚΗΣ ΒΑΣΙΣΜΕΝΟ ΣΕ ΣΤΙΧΟΥΣ» Machine Learning Approaches

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ) «ΣΠ0ΥΔΑI», Τόμος 47, Τεύχος 3o-4o, Πανεπιστήμιο Πειραιώς / «SPOUDAI», Vol. 47, No 3-4, University of Piraeus ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ) Υπό Γιάννης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη 6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη Σάββας Νικολαΐδης 1 ο

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ Ιωάννα Τζουλάκη Κώστας Τσιλίδης Ιωαννίδης: κεφάλαιο 2 Guyatt: κεφάλαιο 18 ΕΠΙςΤΗΜΟΝΙΚΗ ΙΑΤΡΙΚΗ Επιστήμη (θεωρία) Πράξη (φροντίδα υγείας) Γνωστικό μέρος Αιτιό-γνωση Διά-γνωση Πρό-γνωση

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π Τ Υ Χ Ι Α Κ Η /ΔΙ Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α ΜΑΘΗΣΗ ΜΕΓΑΛΗΣ ΚΛΙΜΑΚΑΣ ΑΠΟ ΔΕΔΟΜΕΝΑ

Διαβάστε περισσότερα

Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής

Διαβάστε περισσότερα

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας.

Περιεχόμενα της Ενότητας. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς Κατανομές Πιθανότητας. Συνεχείς Κατανομές Πιθανότητας. Περιεχόμενα της Ενότητας Στατιστική Ι Ενότητα 5: Συνεχείς Κατανομές Πιθανότητας Δρ. Χρήστος Εμμανουηλίδης Επίκουρος Καθηγητής Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης. Συνεχείς Τυχαίες Μεταβλητές. Συνεχείς

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Κατανεμημένα Συστήματα Ι Εκλογή αρχηγού και κατασκευή BFS δένδρου σε σύγχρονο γενικό δίκτυο Παναγιώτα Παναγοπούλου Περίληψη Εκλογή αρχηγού σε γενικά δίκτυα Ορισμός του προβλήματος Ο αλγόριθμος FloodMax

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 5 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Γ. Πειραματισμός Βιομετρία

Γ. Πειραματισμός Βιομετρία Γενικά Πειραματικό σχέδιο και ANOVA Η βασική διαφορά μεταξύ των πειραματικών σχεδίων είναι ο τρόπος με τον οποίο ταξινομούνται ή κατατάσσονται οι πειραματικές μονάδες (πειραματικά τεμάχια) Σε όλα τα σχέδια

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ. Καθ. Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 2015 Πληθυσμός: Εισαγωγή Ονομάζεται το σύνολο των χαρακτηριστικών που

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2013-2014 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητή: ένα χαρακτηριστικό ή ιδιότητα που μπορεί να πάρει διαφορετικές τιμές

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Σκοπός του μαθήματος

Σκοπός του μαθήματος Σκοπός του μαθήματος Στο μάθημα αυτό γίνεται εφαρμογή, με τη βοήθεια του υπολογιστή και τη χρήση του στατιστικού προγράμματος S.P.S.S., της στατιστικής θεωρίας που αναπτύχθηκε στα μαθήματα «Εισαγωγή στη

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΕΙ Δυτικής Μακεδονίας ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ 2015-2016 Τεχνητή Νοημοσύνη Μάθηση από Παρατηρήσεις Διδάσκων: Τσίπουρας Μάρκος Εκπαιδευτικό Υλικό: Τσίπουρας Μάρκος http://ai.uom.gr/aima/ 2 Μορφές μάθησης

Διαβάστε περισσότερα

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Περιγραφική Ανάλυση ποσοτικών μεταβλητών Περιγραφική Ανάλυση ποσοτικών μεταβλητών Στο data file Worldsales.sav (αρχείο υποθετικών πωλήσεων ανά ήπειρο και προϊόν) Analyze Descriptive Statistics Frequencies Επιλογή μεταβλητής Revenue Πατάμε στο

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 Άλλοι τύποι νευρωνικών δικτύων Αυτοοργανούμενοι χάρτες (Self-organizing maps - SOMs) Αναδρομικά νευρωνικά δίκτυα (Recurrent Neural Networks): γενικής

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 17η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Artificia Inteigence A Modern Approach των S. Russe και

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 16 ης διάλεξης

Ασκήσεις μελέτης της 16 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 16 ης διάλεξης 16.1. (α) Έστω ένα αντικείμενο προς κατάταξη το οποίο

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για

Διαβάστε περισσότερα

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων Θεωρία Αποφάσεων ο Φροντιστήριο Λύσεις των Ασκήσεων Άσκηση Έστω ένα πρόβλημα ταξινόμησης μιας διάστασης με δύο κατηγορίες, όπου για κάθε κατηγορία έχουν συλλεχθεί τα παρακάτω δεδομένα: D = {, 2,,,,7 }

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 B MH ΠΑΡΑΜΕΤΡΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΒΑΣΙΣΜΕΝΟΙ ΣΕ ΣΥΝΑΡΤΗΣΕΙΣ ΔΙΑΚΡΙΣΗΣ Η Bayesan περίπτωση - Διαθέσιμα δεδομένα: XX X 2 X M. Κάθε X αντιστοιχεί στην κλάση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Αντικείμενο Μελέτη και ανάπτυξη μεθόδων από τον χώρο της μηχανικής μάθησης για

Διαβάστε περισσότερα