Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Σχετικά έγγραφα
Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγή στους Αλγορίθμους

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Διοικητική Λογιστική

Ψηφιακή Επεξεργασία Εικόνων

Λογισμός 3. Ενότητα 19: Θεώρημα Πεπλεγμένων (γενική μορφή) Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Διοίκηση Επιχειρήσεων

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Στατιστική Ι. Ενότητα 3: Στατιστική Ι (3/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 1: Εκτιμητές και Ιδιότητες. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 3: Πολλαπλή Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Μηχανολογικό Σχέδιο Ι

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Στατιστική. 5 ο Μάθημα: Βασικές Έννοιες Εκτιμητικής. Γεώργιος Μενεξές Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Ιστορία της μετάφρασης

Βέλτιστος Έλεγχος Συστημάτων

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Στατιστική Ι. Ενότητα 2: Στατιστική Ι (2/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Εφαρμογές πληροφορικής σε θέματα πολιτικού μηχανικού

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Β. Διαφορικός Λογισμός

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

Βάσεις Περιβαλλοντικών Δεδομένων

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Κβαντική Επεξεργασία Πληροφορίας

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

Οικονομετρία Ι. Ενότητα 5: Ανάλυση της Διακύμανσης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Εκκλησιαστικό Δίκαιο

ΑΛΓΟΡΙΘΜΟΙ. Ενότητα 12: Αντιμετώπιση Περιορισμών Αλγοριθμικής Ισχύος

Διοικητική Λογιστική

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Γενικά Μαθηματικά Ι. Ενότητα 15: Ολοκληρώματα Με Ρητές Και Τριγωνομετρικές Συναρτήσεις Λουκάς Βλάχος Τμήμα Φυσικής

Στατιστική. 6 ο Μάθημα: Διαστήματα Εμπιστοσύνης και Έλεγχοι Υποθέσεων. Γεώργιος Μενεξές Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εξελικτική Ψυχολογία: Κοινωνικο-γνωστική ανάπτυξη

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Εκκλησιαστικό Δίκαιο

Δομές Δεδομένων Ενότητα 1

Έρευνα Μάρκετινγκ Ενότητα 4

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Διοικητική Λογιστική

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 6

Μάρκετινγκ Αγροτικών Προϊόντων

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

Λογισμός 3. Ενότητα 18: Θεώρημα Πεπλεγμένων (Ειδική περίπτωση) Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Οικονομετρία Ι. Ενότητα 3: Θεώρημα των Gauss Markov. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Θέματα Εφαρμοσμένης. Ενότητα 14.2: Η ψήφος στα πρόσωπα. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Λογιστική Κόστους. Ενότητα 4: ΣΥΜΠΕΡΙΦΟΡΑ - ΦΥΣΗ ΚΟΣΤΟΥΣ. Μαυρίδης Δημήτριος Τμήμα Λογιστικής και Χρηματοοικονομικής

Δυναμική και Έλεγχος E-L Ηλεκτρομηχανικών Συστημάτων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στους Αλγορίθμους Ενότητα 11η Άσκηση - Σταθμισμένος Χρονοπρογραμματισμός Διαστημάτων

Κβαντική Επεξεργασία Πληροφορίας

Διδακτική της Πληροφορικής

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Πρακτική Άσκηση σε σχολεία της δευτεροβάθμιας εκπαίδευσης

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στους Υπολογιστές

Τεχνικό Σχέδιο - CAD

Ορισμός κανονικής τ.μ.

Παράκτια Τεχνικά Έργα

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Βέλτιστος Έλεγχος Συστημάτων

Προγραμματισμός Η/Υ. Βασικές Προγραμματιστικές Δομές. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Διδακτική των εικαστικών τεχνών Ενότητα 2

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Κατηγοριοποίηση Μέρος Β Κατηγοριοποιητές, μέθοδοι αποτίμησης ακρίβειας κατηγοριοποιητών

Περιεχόμενα ενότητας 1. Bayesian κατηγοριοποιητές. 2. Κατηγοριοποιητές πλησιέστερων γειτόνων. 3. Αποτίμηση ακρίβειας κατηγοριοποιητών. 5

Σκοποί ενότητας Παρουσίαση των κατηγοριοποιητών, όπως Bayesian και πλησιέστερων γειτόνων. Ανάλυση διαφορετικών μεθόδων αποτίμησης ακρίβειας κατηγοριοποιητών. 6

Χαρακτηριστικά Δένδρων Απόφασης (1/2) Η κατασκευή του βέλτιστου δένδρου απόφασης απαιτεί αποτρεπτικό χρόνο (είναι NP-complete πρόβλημα). o Για το λόγο αυτό χρησιμοποιούνται ευρετικοί αλγόριθμοι, οι οποίοι είναι άπληστοι και δεν χρησιμοποιούν οπισθοδρόμηση. o Τα ευρετικά μειώνουν κατά πολύ το χρόνο κατασκευής. o Το αποτέλεσμα είναι ότι τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένων. Γρήγορη εφαρμογή. 7

Χαρακτηριστικά Δένδρων Απόφασης (2/2) Η ακρίβεια πρόβλεψης των δένδρων απόφασης είναι αποδεκτή για τις περισσότερες περιπτώσεις, συγκρίσιμη με την ακρίβεια άλλων κατηγοριοποιητών. Το μοντέλο που προκύπτει είναι πολύ εύκολο στην κατανόηση. Τα δένδρα απόφασης έχουν καλή ανοχή στο θόρυβο: o ειδικά όταν εφαρμόζεται ψαλιδισμός. 8

Επιπλέον Τα ΔΑ μπορούν να διαχειριστούν πολυδιάστατα δεδομένα. o 1 διάσταση τη φορά χρησιμοποιείται κατά την ανάπτυξη του μοντέλου. και κάθε τύπο μεταβλητών. o Συμβολικές, αριθμητικές, κλπ. 9

Μειονεκτήματα Αγνοούν εξαρτήσεις μεταξύ των ιδιοτήτων. Προβλήματα όταν λείπουν πολλά δεδομένα. Διάσπαση ως προς μία ιδιότητα: o αντιστοίχιση με περιοχές, τα όρια των οποίων είναι παράλληλα με τους άξονες. 10

Άλλοι κατηγοριοποιητές; Bayesian κατηγοριοποιητές. Κατηγοριοποιητές πλησιέστερων γειτόνων. 11

Bayesian κατηγοριοποιητής για 1 ιδιότητα Ιδιότητα Χ (συμβολική). o m διακριτές τιμές. Ιδιότητα κλάσης C o n διακριτές τιμές. Θέλουμε να υπολογίσουμε για κάθε j: 0<j<n+1: P( C c X x j i ) Άγνωστη ποσότητα 12

Παράδειγμα Οικογενειακή Κατάσταση Διαζευγμένος Διαζευγμένος Έγγαμος Άγαμος Άγαμος Έγγαμος Διαζευγμένος Διαζευγμένος Διαζευγμένος Άγαμος Αγοραστής ΝΑΙ ΝΑΙ ΟΧΙ ΝΑΙ ΝΑΙ ΟΧΙ ΝΑΙ ΝΑΙ ΝΑΙ ΟΧΙ Αν o Οικογενειακή κατάσταση: Άγαμος o Αγοραστής: ναι ή όχι; P(Ναι Άγαμος) = ; P(Όχι Άγαμος) = ; 13

Θεώρημα Bayes 14 ) ( i j x X c C P Άγνωστη ποσότητα ) ( ) ( ) ( ) ( j i j i i j c C P x X P c C x X P x X c C P ) ( ), ( j j i c C P c C x X P Είναι υπολογίσιμα ) ( i x X P Είναι ανεξάρτητο της κλάσης ) ( ) ( j j i c C P c C x X P Άρα αρκεί να βρούμε την κλάση για την οποία μεγιστοποιείται το

Στο παράδειγμα Ηλικία Οικογενειακή Κατάσταση Αγοραστής 20 Διαζευγμένος ΝΑΙ 30 Διαζευγμένος ΝΑΙ 25 Έγγαμος ΟΧΙ 30 Άγαμος ΝΑΙ 40 Άγαμος ΝΑΙ 20 Έγγαμος ΟΧΙ 30 Διαζευγμένος ΝΑΙ 25 Διαζευγμένος ΝΑΙ 40 Διαζευγμένος ΝΑΙ 20 Άγαμος ΟΧΙ P(Ναι Άγαμος) P(Άγαμος Ναι) P(Ναι) = 2/7*7/10 = 0.2 P(Όχι Άγαμος) P(Άγαμος Όχι) P(Όχι) = 1/3 * 3/10 = 0.1 15

Τι γίνεται για περισσότερες ιδιότητες; Έστω ότι μας δίνεται η τιμή d χαρακτηριστικών. Πρέπει να υπολογίσουμε την πιθανότητα: P X x, x,.., x C c ) ( 1 2 d j Απλούστευση: ανεξαρτησία των d ιδιοτήτων. P( X x, x,.., x C P( X Αφελείς Bayesian κατηγοριοποιητές: arg c ) C 1 2 d j i j i 1 max 1 j m d i 1 P( X x i d C c j x ) P( C c j ) c ) 16

Παράδειγμα (1/4) Ηλικία Οικογενειακή Κατάσταση Αγοραστής 20 Διαζευγμένος ΝΑΙ 30 Διαζευγμένος ΝΑΙ 25 Έγγαμος ΟΧΙ 30 Άγαμος ΝΑΙ 40 Άγαμος ΝΑΙ 20 Έγγαμος ΟΧΙ 30 Διαζευγμένος ΝΑΙ 25 Διαζευγμένος ΝΑΙ 40 Διαζευγμένος ΝΑΙ 20 Άγαμος ΟΧΙ Οικογενειακή κατάσταση = Άγαμος, Ηλικία = 35 Αγοραστής: ναι ή όχι; Πρέπει να υπολογιστούν τα P(Ναι Άγαμος, 35), P(Όχι Άγαμος, 35) 17

Παράδειγμα (2/4) P(Ναι Άγαμος, 35) P(Άγαμος,35 Ναι) * P(Ναι)=; P(Όχι Άγαμος, 35) P(Άγαμος,35 Όχι) * P(Όχι)=; Υπόθεση: Ανεξαρτησία οικογενειακής κατάστασης και ηλικίας. P(Ναι Άγαμος, 35) P(Άγαμος Ναι) * P(35 Ναι) * P(Ναι)=; P(Όχι Άγαμος, 35) P(Άγαμος Όχι) * P(35 Όχι) * P(Όχι)=; Από το παράδειγμα μιας ιδιότητας, έχω ήδη υπολογίσει: o P(Άγαμος Ναι) * P(Ναι) = 0.2 o P(Άγαμος Όχι) * P(Όχι) = 0.1 18

Παράδειγμα (3/4) P(35 Ναι)=; P(35 Όχι)=; Ηλικία: συνεχής μεταβλητή. 1. Κβάντωση 2. Υπόθεση συνεχούς κανονικής κατανομής: 19

Παράδειγμα (4/4) P(Ναι Άγαμος, 35) P(Άγαμος Ναι) P(35 Ναι) * P(Ναι)= 0.2 * 0.11ε = 0.022 ε P(Όχι Άγαμος, 35) P(Άγαμος Όχι) P(35 Όχι) * P(Όχι)= 0.1 * 10-14 ε= 10-15 ε Άρα, αγοραστής: NAI 20

Χαρακτηριστικά Αφελών Bayesian Η ακρίβεια πρόβλεψης των αφελών Bayesian κατηγοριοποιητών επηρεάζεται αρνητικά από το γεγονός ότι σε πραγματικά δεδομένα σχεδόν πάντοτε υπάρχουν εξαρτήσεις μεταξύ των μεταβλητών. Το μοντέλο που προκύπτει είναι απλά και σχετικά εύκολο στην κατανόηση. Η κατασκευή των ιστογραμμάτων για τους υπολογισμούς των πιθανοτήτων, απαιτεί μόνο μία ανάγνωση του συνόλου δεδομένων. Επομένως, οι Bayesian κατηγοριοποιητές κλιμακώνονται σε μεγάλους όγκους δεδομένων. Οι Bayesian κατηγοριοποιητές έχουν καλή ανοχή στο θόρυβο, επειδή οι θορυβώδεις τιμές εξομαλύνονται από τις υπόλοιπες κατά τους υπολογισμούς των εν μέρει πιθανοτήτων. Οι Bayesian κατηγοριοποιητές δεν επηρεάζονται από τις ελλιπείς τιμές, επειδή μπορούν να αγνοηθούν. 21

Bayesian Belief Networks Κόμβοι: χαρακτηριστικά. Συνδέσεις: εξαρτήσεις. Τα X και Y είναι οι γονείς του Z και το Y είναι γονέας του P. Τα Z και P είναι ανεξάρτητα. Δεν υπάρχουν κύκλοι. Μοντελοποίηση εξαρτήσεων μεταξύ των χαρακτηριστικών. Γραφικό μοντέλο. Ορίζει την κοινή κατανομή πιθανότητας. 22

Παράδειγμα Family History Smoker Πίνακας με υπο-συνθήκη πιθανότητες για Lung Cancer: (FH, S) (FH, ~S) (~FH, S) (~FH, ~S) LC 0.8 0.5 0.7 0.1 Lung Cancer Emphysema ~LC 0.2 0.5 0.3 0.9 Positive XRay Dyspnea Δείχνει την υπο-συνθήκη πιθανότητα για κάθε συνδυασμό γονέων. P( x 1,..., x n ) i n P( x 1 i A( x i )) Bayesian Belief Networks A(x): κόμβοι γονείς του x 23

Κατηγοριοποιητής k πλησιέστερων γειτόνων Κατηγοριοποιεί ένα αντικείμενο στην κλάση στην οποία ανήκει η πλειοψηφία των k πλησιέστερων σε αυτό αντικειμένων. Απαιτείται ορισμός μέτρου ομοιότητας o (ή απόστασης). 24

Παράδειγμα (1/2) {Άγαμος, Έγγαμος, Διαζευγμένος} {0, 0.5, 1} Ηλικία x (x-20)/(40-20) Ευκλείδειος χώρος [0,1] x [0,1] Ευκλείδεια απόσταση. 25

Παράδειγμα (2/2) k = 3, προς κατηγοριοποίηση Άγαμος, 35 26

Επιλογή k Η τιμή του k μπορεί επηρεάζει το αποτέλεσμα. Μικρές τιμές του k εξετάζουν μόνο την άμεση γειτονιά, επομένως είναι επιρρεπείς στο θόρυβο. Μεγάλες τιμές του k αγνοούν την αρχή της τοπικότητας, και είναι επιρρεπείς στην πλειοψηφούσα κλάση σε όλο το σύνολο δεδομένων. Συχνά χρησιμοποιούμενη τιμή είναι k = sqrt(n), όπου n είναι ο αριθμός των αντικειμένων στο σύνολο εκμάθησης. Σε εμπορικά συστήματα η default τιμή είναι k = 10. 27

Χαρακτηριστικά κατηγοριοποιητών k πλησιέστερων γειτόνων Η ακρίβεια πρόβλεψης των κατηγοριοποιητών k πλησιέστερων γειτόνων είναι ευαίσθητη στην τιμή του k. Παρά ταύτα, οι κατηγοριοποιητές k πλησιέστερων γειτόνων αξιοποιούν την τοπικότητα και εξετάζουν μη γραμμικές περιοχές (αντίθετα από τα δένδρα απόφασης), κάτι που σε αρκετές περιπτώσεις αποτελεί πλεονέκτημα. Το αποτέλεσμα της κατηγοριοποίησης δεν γίνεται πολύ εύκολα κατανοητό. Η αρχή της τοπικότητας είναι η μόνη αιτιολόγηση του αποτελέσματος, αλλά είναι πολύ γενική. Ο χρόνος εύρεσης απόστασης είναι γραμμικός ως προς τα σημεία, κάτι που περιορίζει την κλιμάκωσή (γιατί;) των κατηγοριοποιητών k πλησιέστερων γειτόνων. Μπορούν, όμως, να χρησιμοποιηθούν δομές καταλόγου (π.χ., kd-tree) για την επιτάχυνση της εύρεσης πλησιέστερων γειτόνων. Οι κατηγοριοποιητές k πλησιέστερων γειτόνων δεν έχουν καλή ανοχή στο θόρυβο, ιδιαίτερα για μικρές τιμές του k. 28

Χαρακτηριστικά Δένδρων Απόφασης Η κατασκευή του βέλτιστου δένδρου απόφασης απαιτεί αποτρεπτικό χρόνο (είναι NP-complete πρόβλημα). o Για το λόγο αυτό χρησιμοποιούνται ευρετικοί αλγόριθμοι, οι οποίοι είναι άπληστοι και δεν χρησιμοποιούν οπισθοδρόμηση. o Τα ευρετικά μειώνουν κατά πολύ το χρόνο κατασκευής. o Το αποτέλεσμα είναι ότι τα δένδρα απόφασης κλιμακώνονται σε μεγάλους όγκους δεδομένων. Γρήγορη εφαρμογή. Η ακρίβεια πρόβλεψης των δένδρων απόφασης είναι αποδεκτή για τις περισσότερες περιπτώσεις, συγκρίσιμη με την ακρίβεια άλλων κατηγοριοποιητών. Το μοντέλο που προκύπτει είναι πολύ εύκολο στην κατανόηση. Τα δένδρα απόφασης έχουν καλή ανοχή στο θόρυβο. o Ειδικά όταν εφαρμόζεται ψαλιδισμός. 29

Επιπλέον Τα ΔΑ μπορούν να διαχειριστούν πολυδιάστατα δεδομένα. o 1 διάσταση τη φορά χρησιμοποιείται κατά την ανάπτυξη του μοντέλου. και κάθε τύπο μεταβλητών. o Συμβολικές, αριθμητικές, κλπ. 30

Μειονεκτήματα Αγνοούν εξαρτήσεις μεταξύ των ιδιοτήτων. Προβλήματα όταν λείπουν πολλά δεδομένα Διάσπαση ως προς μία ιδιότητα: o αντιστοίχιση με περιοχές, τα όρια των οποίων είναι παράλληλα με τους άξονες. 31

Αποτίμηση ακρίβειας Γνωρίζουμε 3 κατηγοριοποιητές. Πως συγκρίνουμε την επίδοσή τους ως προς την ακρίβεια; Πως μπορούμε να είμαστε σίγουροι για την ακρίβεια που θα έχει το μοντέλο μας; o Μέτρηση με αντικειμενικό τρόπο, που να αποκλείει προκατάληψη: 4 μέθοδοι. o Υπολογισμός στατιστικής σημαντικότητας. 32

Μέθοδοι μέτρησης ακρίβειας: Hold-out Χωρίζουμε το σύνολο δεδομένων σε δύο τμήματα: o το σύνολο εκμάθησης (π.χ., τα 2/3 πρώτα αντικείμενα) o και το σύνολο ελέγχου (π.χ. τα επόμενα 1/3). Δημιουργούμε μοντέλο σύμφωνα με το σύνολο εκμάθησης. Κατατάσσεται κάθε αντικείμενο του συνόλου ελέγχου. X είναι ο αριθμός που κατατάσσονται σωστά. Ν είναι ο συνολικός αριθμός των αντικειμένων στο σύνολο ελέγχου. Ακρίβεια: A X N Εξάρτηση από τη διάταξη των αντικειμένων. 33

Μέθοδοι μέτρησης ακρίβειας: Τυχαία Υποδειγματοληψία-Random subsampling Αποφυγή εξάρτησης από διάταξη. Εφαρμόζουμε τυχαία δειγματοληψία χωρίς επανατοποθέτηση. Επιλέγουμε N αντικείμενα, τα οποία θέτουμε στο σύνολο ελέγχου. Τα εναπομείναντα αντικείμενα τα θέτουμε στο σύνολο εκμάθησης. Επανάληψη της διαδικασίας αυτής k φορές. Αν X i είναι ο αριθμός των σωστά καταταγμένων αντικειμένων στην i-οστή επανάληψη: A 1 k k i 1 X N i 34

Μέθοδοι μέτρησης ακρίβειας: Δια-εγκυροποίηση - Cross validation Για να μην λαμβάνουμε τυχαία τα δείγματα: M ο αριθμός των αντικειμένων στο σύνολο δεδομένων. Θέλουμε k επαναλήψεις. Χωρίζουμε το σύνολο σε k τμήματα με M/k (διαδοχικά) αντικείμενα το κάθε ένα. Στην i-οστή επανάληψη, το i-οστό τμήμα λειτουργεί ως σύνολο ελέγχου, ενώ τα υπόλοιπα k-1 τμήματα απαρτίζουν το σύνολο εκμάθησης. Μία συχνά χρησιμοποιούμενη τιμή του k είναι το 10 Η μέθοδος 10-fold cross-validation θεωρείται ως μία από τις πιο αξιόπιστες για την αποτίμηση της ακρίβειας κατηγοριοποιητών. Στην ειδική περίπτωση που k=μ, τότε η μέθοδος ονομάζεται leaveone-out o χρησιμοποιείται μόνο για μικρά σύνολα δεδομένων. 35

Μέθοδοι μέτρησης ακρίβειας: bootstrap (1/2) Δειγματοληψία με επανατοποθέτηση. Μ αντικείμενα 0.632Μ στο δείγμα. Δειγματοληπτούμε Μ φορές. Σε κάθε προσπάθεια: P(επιλογή x) = 1/Μ. Σε M προσπάθειες: 36

Μέθοδοι μέτρησης ακρίβειας: bootstrap (2/2) Τα 0.632Μ αντικείμενα αποτελούν το σύνολο εκμάθησης. Επανάληψη k φορές της διαδικασίας. Αν αi είναι η ακρίβεια στην i-οστή επανάληψη και α η ακρίβεια όταν σύνολο ελέγχου = σύνολο εκμάθησης = σύνολο: 37

Διαστήματα εμπιστοσύνης για την ακρίβεια πρόβλεψης (1/2) Χ από N αντικείμενα κατατάχθηκαν σωστά. Χ τυχαία μεταβλητή με διωνυμική κατανομή. p η πραγματική ακρίβεια πρόβλεψης. Α = Χ/Ν τυχαία μεταβλητή (διωνυμική). 38

Διαστήματα εμπιστοσύνης για την ακρίβεια πρόβλεψης (2/2) Για Ν Α = Χ/Ν ακολουθεί κανονική κατανομή (νόμος μεγάλων αριθμών). Σε επίπεδο εμπιστοσύνης α: 39

Ενδεικτικές τιμές Έστω ένα μοντέλο με ακρίβεια 80% όταν χρησιμοποιούνται 100 δείγματα για έλεγχο: Z o N=100, Α = 0.8 o = 0.95 (διάστημα εμπιστοσύνης 95%) o Από τον διπλανό πίνακα, Z =1.96 N 50 100 500 1000 5000 p(lower) 0.670 0.711 0.763 0.774 0.789 p(upper) 0.888 0.866 0.833 0.824 0.811 0.99 2.58 0.98 2.33 0.95 1.96 0.90 1.65 40

Παράδειγμα Έστω ένα σύνολο ελέγχου με N=50 αντικείμενα. Αν η εκτιμώμενη ακρίβεια αποτιμήθηκε ίση με A=85%, να βρεθεί το διάστημα εμπιστοσύνης σε επίπεδο a=0.95 και a=0.90. Για a=0.95 ισχύει za=1.96. Από την Εξίσωση: o προκύπτει ότι p=0.825 ± 0.099. Άρα, αναμένουμε η πραγματική ακρίβεια p να κυμαίνεται μεταξύ 0.726 και 0.924. Για a=0.90 ισχύει za=1.65. Από την ίδια εξίσωση προκύπτει ότι p=0.832 ± 0.083. Άρα, αναμένουμε η πραγματική ακρίβεια p να κυμαίνεται μεταξύ 0.749 και 0.915. 41

Βελτίωση της ακρίβειας Ξέρουμε πώς να εκτιμούμε σωστά την ακρίβεια. Μπορούμε να βελτιώσουμε την ακρίβεια χρησιμοποιώντας διαφορετικά τους γνωστούς μας κατηγοριοποιητές; o Κλάδεμα. o Σύνολα κατηγοριοποιητών. 42

Σύνολα κατηγοριοποιητών n δυαδικοί (2 κλάσεις) ανεξάρτητοι κατηγοριοποιητές. Κάθε ένας έχει πιθανότητα λάθους e. Αποφασίζουμε την κλάση που λέει η πλειοψηφία των κατηγοριοποιητών. Για να γίνει λάθος, περισσότεροι από n/2 να κάνουν λάθος. Εκτιμώμενο λάθος για το σύνολο: 43

Σύνολα κατηγοριοποιητών n = 10 e = 0.2 E = 0.0064 44

Bagging (Bootstrap AGGragatING) k δείγματα με επανατοποθέτηση (διαδικασία bootstrap). σύνολα δεδομένων για k κατηγοριοποιητές (ίδιος αλγόριθμος κατασκευής). αναμενόμενος αριθμός διακριτών αντικειμένων στο κάθε δείγμα: 63.2% του αρχικού. Ένα νέο αντικείμενο κατατάσσεται με καθέναν από k κατηγοριοποιητές. Το αναθέτουμε κλάση που πλειοψηφεί. Η μέθοδος bagging βελτιώνει την ακρίβεια, όταν υπάρχει διακύμανση στην ακρίβεια των k κατηγοριοποιητών. 45

Σημείωμα Αναφοράς Copyright, Αναστάσιος Γούναρης. «. Ενότητα 6. Κατηγοριοποίηση Μέρος Β». Έκδοση: 1.0. Θεσσαλονίκη 2014. Διαθέσιμο από τη δικτυακή διεύθυνση:http://eclass.auth.gr/courses/ocrs182/

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο [1] http://creativecommons.org/licenses/by-nc-sa/4.0/

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Τέλος ενότητας Επεξεργασία: Ανδρέας Κοσματόπουλος Θεσσαλονίκη, Χειμερινό Εξάμηνο 2013-2014

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Σημειώματα

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.