(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1



Σχετικά έγγραφα
(training data) (test data)

Data Mining. Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης. Κατηγοριοποίηση (κεφ. 4)

14Ιαν Νοε

Δέντρα Απόφασης (Decision(

Ευφυής Προγραμματισμός

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Ταξινόμηση. Lecture Notes for Chapter 4. Introduction to Data Mining. by Tan, Steinbach, Kumar

Κατηγοριοποίηση (Εποπτευόμενη μάθηση)

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Υπερπροσαρμογή (Overfitting) (1)

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Διδάσκουσα: Χάλκου Χαρά,

Ευφυής Προγραμματισμός

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Διακριτικές Συναρτήσεις

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ταξινόμηση I. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Αλγόριθµοι και Πολυπλοκότητα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ταξινόμηση II Σύντομη Ανακεφαλαίωση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες

Σχεδίαση και Ανάλυση Αλγορίθμων

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

4.3. Γραµµικοί ταξινοµητές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Αλγόριθμοι και πολυπλοκότητα Ταχυταξινόμηση (Quick-Sort)

Μοντελοποίηση προβληµάτων

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μάθηση με παραδείγματα Δέντρα Απόφασης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Τομέας Ηλεκτρονικής και Υπολογιστών. ΤΗΜΜΥ Α.Π.Θ Πέμπτη 11 / 12 / 2014 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Δυαδικά Δένδρα Αναζήτησης, Δένδρα AVL

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Σχεδίαση & Ανάλυση Αλγορίθμων

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

3.1 εκαδικό και υαδικό

Predicting the Choice of Contraceptive Method using Classification

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Ενότητα 7 Ουρές Προτεραιότητας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Ενότητα 3 Επιτηρούµενος διαχωρισµός

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Μεταπτυχιακή Εργασία. Εξόρυξη γνώσης από ειδησεογραφικά δεδοµένα και συσχετισµός µε πραγµατικά γεγονότα

Εξόρυξη Δεδομένων Κατηγοριοποίηση

Διδάσκων: Παναγιώτης Ανδρέου

Μπιτσάκη Αντωνία-Χρυσάνθη Ταουσάκος Θανάσης

AVL-trees C++ implementation

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

Συστήματα Υποστήριξης Αποφάσεων Διάλεξη Νο2 και 3. Ενισχυτικές διαφάνειες

Αλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Σύνοψη Προηγούµενου. Γλώσσες χωρίς Συµφραζόµενα (2) Ισοδυναµία CFG και PDA. Σε αυτό το µάθηµα. Αυτόµατα Στοίβας Pushdown Automata

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Δημιουργία Δυαδικών Δέντρων Αναζήτησης

Σύνθεση Data Path. ιασύνδεσης. Μονάδες. Αριθµό Μονάδων. Τύπο Μονάδων. Unit Selection Unit Binding. λειτουργιών σε. Μονάδες. Αντιστοίχιση µεταβλητών &

Διδάσκων: Κωνσταντίνος Κώστα

Αλγόριθµοι και Πολυπλοκότητα

Κατηγοριοποίηση (classification) Το γενικό πρόβλημα της ανάθεσης ενός αντικειμένου σε μία ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις)

Στατιστική λήψη αποφάσεων

Εργαστήριο 8: Αναδρομική διεργασία εισαγωγής καινούριου κόμβου σε ΔΔΑ

ένδρα u o Κόµβοι (nodes) o Ακµές (edges) o Ουρά και κεφαλή ακµής (tail, head) o Γονέας Παιδί Αδελφικός κόµβος (parent, child, sibling) o Μονοπάτι (pat

o AND o IF o SUMPRODUCT

Insert(K,I,S) Delete(K,S)

Heapsort Using Multiple Heaps

«ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ ΤΟΝ ΠΙΣΤΩΤΙΚΟ ΚΙΝΔΥΝΟ ΜΕ ΤΟ ΛΟΓΙΣΜΙΚΟ ΕΞΟΡΥΞΗΣ STATISTICA DATA MINER»

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Ανάκτηση Πληροφορίας

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Άσκηση 1. Α. Υπολογίστε χωρίς να εκτελέσετε κώδικα FORTRAN τα παρακάτω: Ποιά είναι η τελική τιμή του Z στα παρακάτω κομμάτια κώδικα FORTRAN:

Transcript:

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Κατηγοριοποίηση (classification) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db Περιεχόµενα Το πρόβληµα της κατηγοριοποίησης Τεχνικές κατηγοριοποίησης Στατιστικές τεχνικές Τεχνικές βασισµένες στην απόσταση ένδρα αποφάσεων Νευρωνικά δίκτυα Κανόνες κατηγοριοποίησης 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1

Κατηγοριοποίηση (Classification) Εκµάθηση µιας τεχνικής να προβλέπει την κλάση ενός στοιχείου επιλέγοντας από προκαθορισµένες τιµές 3 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Εποπτευόµενη vs. Μη εποπτευόµενη µάθηση Εποπτευόµενη µάθηση (κατηγοριοποίηση) Επόπτευση: Τα δεδοµένα εκπαίδευσης συνοδεύονται από ετικέτες για την κλάση µε την οποία ανήκει το καθένα Τα νέα δεδοµένα κατηγοριοποιούνται µε βάση τη γνώση που µας παρέχουν τα δεδοµένα εκπαίδευσης Μη εποπτευόµενη µάθηση (συσταδοποίηση) ε γνωρίζουµε την κλάση στην οποία ανήκουν τα δεδοµένα εκπαίδευσης Μας δίνεται ένα σύνολο µετρήσεων, παρατηρήσεων κλπ. µε στόχο να ανακαλύψουµε κλάσεις ή οµάδες µέσα στα δεδοµένα 4 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.2

Το πρόβληµα της κατηγοριοποίησης Αν µας δοθεί µια βάση δεδοµένων D={t 1,t 2,,t n } και ένα σύνολο κατηγοριών - "κλάσεων" C={C 1,,C m }, το Πρόβληµα Κατηγοριοποίησης έγκειται στον ορισµό µιας απεικόνισης f: D C όπου κάθε εγγραφή t i ανατίθεται σε µία κλάση C j. Ουσιαστικά, η κατηγοριοποίηση διαµερίζει τη D σε κλάσεις ισοδυναµίας. Η Πρόβλεψη είναι παρόµοιο πρόβληµα, αλλά µπορεί να θεωρηθεί ότι έχει άπειρο αριθµό κλάσεων. 5 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Παραδείγµατα κατηγοριοποίησης Οι δάσκαλοι αναθέτουν βαθµούς µέσα από τις κατηγορίες A, B, C, D, F. Τα µανιτάρια ταξινοµούνται σε δηλητηριώδη και φαγώσιµα. Μπορεί να γίνει πρόβλεψη εάν θα πληµµυρίσει ένας ποταµός. Οι πελάτες της τράπεζας µπορούν να κατηγοριοποιηθούν ως προς την πιστωτική τους ικανότητα. 6 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.3

Παράδειγµα κατηγοριοποίησης Βαθµολογία πτυχίου If x 8.5 then grade = «άριστα». If 6.5 x < 8.5 then grade = «λίαν καλώς». If x < 6.5 then grade = «καλώς». x < 8.5 8.5 x άριστα < 6.5 6.5 καλώς λίαν καλώς 7 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Τεχνικές κατηγοριοποίησης Τυπική προσέγγιση: 1. ηµιουργία ενός µοντέλου µέσω της αξιολόγησης ενός συνόλου δεδοµένων εκπαίδευσης (training data) (ή µέσω της γνώσης ειδικών του πεδίου). 2. Εφαρµογή του µοντέλου σε νέα δεδοµένα. Οι κλάσεις πρέπει να είναι προκαθορισµένες Οι πιο κοινές τεχνικές είναι τα δένδρα αποφάσεων, τα νευρωνικά δίκτυα και τεχνικές βασισµένες σε απόσταση ή σε στατιστικές µεθόδους. 8 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.4

1 ο βήµα: ηµιουργία µοντέλου εδοµένα εκπαίδευσης (training data) Αλγόριθµος Κατηγοριοποίησης όνοµα βαθµίδα έτη µόνιµος Μιχάλης Επικ.Καθηγητής 3 ΟΧΙ Νίκος Επικ.Καθηγητής 7 ΝΑΙ Βασίλης Καθηγητής 2 ΝΑΙ ηµήτρης Αναπλ.Καθηγητής 7 ΝΑΙ Γιώργος Επικ.Καθηγητής 6 ΟΧΙ Κώστας Αναπλ.Καθηγητής 3 ΟΧΙ Μοντέλο IF βαθµίδα = Καθηγητής OR έτη > 6 THEN µόνιµος = ΝΑΙ 9 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 2 ο βήµα: Εφαρµογή µοντέλου Μοντέλο οκιµαστικά εδοµένα (test data) Νέα δεδοµένα (Γιάννης, Καθηγητής, 4) όνοµα βαθµίδα έτη µόνιµος Θωµάς Επικ.Καθηγητής 2 ΟΧΙ Νίκος Αναπλ.Καθηγητής 7 ΟΧΙ Γεράσιµος Καθηγητής 5 ΝΑΙ Ιωσήφ Επικ.Καθηγητής 7 ΝΑΙ Μόνιµος; 10 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.5

Προσδιορισµός κλάσεων µεβάσητην απόσταση µεβάσητη διαµέριση 11 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Ζητήµατα που προκύπτουν Ελλιπή δεδοµένα (missing data) τα αγνοούµε τα αντικαθιστούµε µε ειδικές τιµές Μέτρηση απόδοσης Μέτρηση ακρίβειας µε χρήση συνόλου δοκιµαστικών δεδοµένων (test data) Μήτρα σύγχυσης (confusion matrix) Καµπύλη OC (operating characteristic) 12 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.6

Παράδειγµα µε δοκιµαστικά δεδοµένα Name Gender Height Output1 Output2 Kristina F 1.6m Short Medium Jim M 2m Tall Medium Maggie F 1.9m Medium Tall Martha F 1.88m Medium Tall Stephanie F 1.7m Short Medium Bob M 1.85m Medium Medium Kathy F 1.6m Short Medium Dave M 1.7m Short Medium Worth M 2.2m Tall Tall Steven M 2.1m Tall Tall Debbie F 1.8m Medium Medium Todd M 1.95m Medium Medium Kim F 1.9m Medium Tall Amy F 1.8m Medium Medium Wynette F 1.75m Medium Medium 13 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Ακρίβεια κατηγοριοποίησης Για 2 κλάσεις (π.χ. Tall/Medium) υπάρχουν 4 πιθανοί συνδυασµοί (m κλάσεις m 2 συνδυασµοί) Αληθώς θετικό Ψευδώς αρνητικό Οπτικοποίηση ποιότητας κατηγοριοποίησης: Μήτρα σύγχυσης Καµπύλη OC Ψευδώς θετικό Αληθώς αρνητικό 14 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.7

Μήτρα σύγχυσης Έστω Output1 η ορθή κατηγοριοποίηση και Output2 η ανάθεση σε κλάσεις που προέκυψε από την (όποια) τεχνική κατηγοριοποίησης Μήτρα σύγχυσης (confusion matrix): Name Gender Height Output1 Output2 Kristina F 1.6m Short Medium Jim M 2m Tall Medium Maggie F 1.9m Medium Tall Martha F 1.88m Medium Tall Stephanie F 1.7m Short Medium Bob M 1.85m Medium Medium Kathy F 1.6m Short Medium Dave M 1.7m Short Medium Worth M 2.2m Tall Tall Steven M 2.1m Tall Tall Debbie F 1.8m Medium Medium Todd M 1.95m Medium Medium Kim F 1.9m Medium Tall Amy F 1.8m Medium Medium Wynette F 1.75m Medium Medium Πραγµατική Ανάθεση κλάση Short Medium Tall Short 0 4 0 Medium 0 5 3 Tall 0 1 2 15 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Καµπύλη OC (Operating Characteristic) Αληθώς θετικά Ψευδώς θετικά 16 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.8

Παλινδρόµηση Κάνουµε την παραδοχή ότι τα δεδοµένα ταιριάζουν σε µία συνάρτηση: y = c 0 + c 1 x 1 + + c n x n Το πρόβληµα είναι ο προσδιορισµός των συντελεστών παλινδρόµησης c 0, c 1,, c n. Παραδοχή σφάλµατος: y = c 0 + c 1 x 1 + + c n x n + ε Εκτίµηση σφάλµατος µε χρήση σφάλµατος τετραγωνικού µέσου πάνω στο σύνολο δοκιµαστικών δεδοµένων: 17 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Γραµµική παλινδρόµηση Φτωχή απόδοση (µέτριο ταίριασµα) 18 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.9

Κατηγοριοποίηση µε χρήση παλινδρόµησης ιαίρεση: χρησιµοποιούµε τη συνάρτηση παλινδρόµησης για να διαιρέσουµε το χώρο σε περιοχές. Πρόβλεψη: χρησιµοποιούµε τη συνάρτηση παλινδρόµησης για να προβλέψουµε τη συνάρτηση µέλους για µια κλάση. Η επιθυµητή κλάση δίνεται ως είσοδος στο πρόβληµα. 19 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης ιαίρεση y = c 0 + ε Θέλουµε να ελαχιστοποιήσουµε το L ως προς c 0 c 0 = = 1.786 y = 1.786 20 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.10

Πρόβλεψη 21 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Bayesian κατηγοριοποίηση ύο παραδοχές για τα γνωρίσµατα Εξίσου σηµαντικά Στατιστικώς ανεξάρτητα (δοθείσης της τιµής µιας κλάσης) ηλαδή, αν γνωρίζουµε την τιµή ενός γνωρίσµατος δεν µπορούµε να πούµε τίποτα για την τιµή ενός άλλου γνωρίσµατος (µε δεδοµένο ότι γνωρίζουµε την κλάση) Η παραδοχή για την ανεξαρτησία των γνωρισµάτων σχεδόν ποτέ δεν ισχύει! αλλά αυτό το σχήµα δείχνει να δουλεύει καλά στην πράξη 22 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.11

Πρόγνωση καιρού Sunny Overcast Rainy Sunny Overcast Rainy Outlook 2 4 3 2/9 4/9 3/9 No 3 0 2 3/5 0/5 2/5 Temperature Humidity Windy No Hot 2 2 High Mild 4 2 Normal Cool 3 1 Hot 2/9 2/5 High Mild 4/9 2/5 Normal Cool 3/9 1/5 No 3 4 False 6 1 True 3/9 4/5 False 6/9 1/5 Outlook True Temp 6 3 6/9 3/9 Humidity Play No No 2 9 5 3 2/5 9/14 5/14 Sunny Hot High True No Overcast Hot High False Rainy Mild High False Rainy Cool Normal False Rainy Cool Normal True No Overcast Cool Normal True Sunny Mild High False No Sunny Cool Normal False Rainy Mild Normal False Sunny Mild Normal True Overcast Mild High True Overcast Hot Normal False 23 Rainy Mild High True No ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 3/5 Windy Play Sunny Hot High False No Πρόγνωση καιρού (συν.) Outlook No Temperature No Humidity No Windy No Play No Sunny 2 3 Hot 2 2 High 3 4 False 6 2 9 5 Overcast Rainy 4 3 0 2 Mild Cool 4 3 2 1 Normal 6 1 True 3 3 Sunny 2/9 3/5 Hot 2/9 2/5 High 3/9 4/5 False 6/9 2/5 9/14 5/14 Overcast Rainy 4/9 3/9 0/5 2/5 Mild Cool 4/9 3/9 2/5 1/5 Normal 6/9 1/5 True 3/9 3/5 Μια νέα ηµέρα: Outlook Sunny Temp. Cool Humidity High Windy True Play? Πιθανοφάνειες για τις δύο κλάσεις yes : 2/9 3/9 3/9 3/9 9/14 = 0.0053 no : 3/5 1/5 4/5 3/5 5/14 = 0.0206 Πιθανότητες (µετά την κανονικοποίηση): P( yes ) = 0.0053 / (0.0053 + 0.0206) = 0.205 P( no ) = 0.0206 / (0.0053 + 0.0206) = 0.795 24 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.12

Ο κανόνας του Bayes Η πιθανότητα να συµβεί ένα γεγονός H δοθείσης µιας µαρτυρίας E : Pr[ E H ]Pr[ H ] Pr[ H E] = Pr[ E] A priori πιθανότητα του H : Η πιθανότητα του γεγονότος χωρίς την επίκληση της µαρτυρίας A posteriori πιθανότητα του H : Pr[H ] Pr[ H E] Η πιθανότητα του γεγονότος µε την επίκληση της µαρτυρίας 25 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Κατηγοριοποίηση Naïve Bayes Εκµάθηση κατηγοριοποίησης: ποια η πιθανότητα µιας κλάσης δοθείσης µιας µαρτυρίας; Η µαρτυρία E είναι η εγγραφή στη Β Το γεγονός H είναι η κλάση της εγγραφής Απλοϊκή (naïve) παραδοχή: η µαρτυρία διαιρείται σε µέρη (όσο και τα γνωρίσµατα) που είναι ανεξάρτητα µεταξύ τους Pr[ E Pr[ H E] = 1 H]Pr[ E 2 H] KPr[ E Pr[ E] n H]Pr[ H] 26 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.13

Παράδειγµα πρόγνωσης καιρού Outlook Sunny Temp. Cool Humidity High Windy True Play? µαρτυρία E Πιθανότητα κλάσης yes Pr[ yes E] = Pr[ Outlook = Sunny yes] = Pr[ Temperatur e= Cool yes] Pr[ Humidity=High yes] Pr[ Windy= True yes] Pr[ yes] Pr[ E] 2 9 3 9 3 3 9 9 Pr[ E] 9 14 27 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Το πρόβληµα της "µηδενικής συχνότητας" Τι θα συµβεί εάν δεν εµφανίζεται µια τιµή γνωρίσµατος σε κάθε κλάση; (π.χ. Humidity = high για την κλάση yes ) Η πιθανότητα θα είναι µηδέν! Pr[ Humidity= High yes] = 0 Η a posteriori πιθανότητα θα είναι επίσης µηδέν! (άσχετα µε το ποιες είναι οι υπόλοιπες τιµές!) Pr[ yes E] = 0 Τέχνασµα: προσθέτουµε 1 στο µετρητή κάθε ζευγαριού τιµής γνωρίσµατος κλάσης (εκτιµήτρια Laplace) Αποτέλεσµα: οι πιθανότητες δεν είναι ποτέ µηδέν! 28 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.14

Σχολιασµός Naïve Bayes Η κατηγοριοποίηση Naïve Bayes περιέργως δουλεύει καλά! ακόµη και αν καταστρατηγείται φανερά η παραδοχή περί ανεξαρτησίας γνωρισµάτων Γιατί; Επειδή η κατηγοριοποίηση δεν απαιτεί ακριβείς εκτιµήσεις πιθανοτήτων αρκεί η µέγιστη πιθανότητα να αντιστοιχεί στη σωστή κλάση Όµως: η προσθήκη επιπλέον γνωρισµάτων µπορεί να δηµιουργήσει προβλήµατα π.χ. ταυτόσηµα γνωρίσµατα 29 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Κατηγοριοποίηση µε χρήση απόστασης Τοποθετούµε τα δεδοµένα στην «πλησιέστερη" (µε όρους απόστασης) κλάση. Πρέπει να προσδιορίσουµε την απόσταση µεταξύ ενός στοιχείου και µιας κλάσης. Κάθε κλάση µπορεί να αναπαρασταθεί µε Κέντρο βάρους (Centroid): η κεντρική τιµή της κλάσης Κεντρικό στοιχείο (Medoid): ένα αντιπροσωπευτικό σηµείο µέλος της. Σύνολο από ενδεικτικά σηµεία Αλγόριθµος: k- nearest neighbors (KNN) 30 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.15

Η προσέγγιση KNN Το σύνολο δεδοµένων εκπαίδευσης περιλαµβάνει τις κλάσεις. Για να αναθέσουµε ένα νέο στοιχείο σε µια κλάση εξετάζουµε τα K πλησιέστερα σ αυτό σηµεία. Τοποθετούµε το νέο στοιχείο στην κλάση που έχει την πλειοψηφία µέσα στα κοντινά στοιχεία. Πολυπλοκότητα O(q) για κάθε νέο στοιχείο (q είναι το µέγεθος του συνόλου δεδοµένων εκπαίδευσης). 31 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Αλγόριθµος KNN Input: T //training data K //Number of neighbors t //Input tuple to classify Output: c //Class to which t is assigned KNN algorithm: //Algorithm to classify tuple using KNN begin N = ; //Find set of neighbors, N, for t for each d T do Υποθέτει ότι Ν είναι µια ειδική δοµή, if N K, then οργανωµένη µε βάση την οµοιότητα N = N {d}; sim(t,u) π.χ. σωρός ελαχίστων else if u N such that sim(t,u) sim(t,d), then begin N = N {u}; N = N {d}; end //Find class for classification c = class to which the most u N are classified end 32 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.16

Παράδειγµα KNN Name Gender Height Output1 Kristina F 1.6m Short Jim M 2m Tall Maggie F 1.9m Medium Martha F 1.88m Medium Stephanie F 1.7m Short Bob M 1.85m Medium Kathy F 1.6m Short Dave M 1.7m Short Worth M 2.2m Tall Steven M 2.1m Tall Debbie F 1.8m Medium Todd M 1.95m Medium Kim F 1.9m Medium Amy F 1.8m Medium Wynette F 1.75m Medium Pat F 1.6m? 1 3 2 4 5 Short 33 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Κατηγοριοποίηση µε δένδρα αποφάσεων (decision trees) Κατηγοριοποίηση βασισµένη στη διαµέριση: διαίρεση του χώρου σε ορθογώνιες περιοχές Οι εγγραφές ανατίθενται σε κλάσεις µε βάση την περιοχή µέσα στην οποία πέφτουν. Οι τεχνικές Α διαφέρουν µεταξύ τους στον τρόπο κατασκευής του δένδρου (επαγωγή Α) Οι εσωτερικοί κόµβοι ενός Α αντιστοιχούν σε γνωρίσµατα και τα τόξα ενός Α σε τιµές αυτών των γνωρισµάτων. Αλγόριθµοι: ID3, C4.5, CART = Καθηγητής ΝΑΙ Βαθµίδα Καθηγητής 6 ΟΧΙ έτη >6 ΝΑΙ 34 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.17

Παράδειγµα: πρόγνωση καιρού Outlook Temperature Humidity Windy Play? sunny hot high false No sunny hot high true No overcast hot high false rain mild high false rain cool normal false rain cool normal true No overcast cool normal true sunny mild high false No sunny cool normal false rain mild normal false sunny mild normal true overcast mild high true overcast hot normal false rain mild high true No 35 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Παράδειγµα Α για το γνώρισµα Play? Outlook sunny overcast rain Humidity Windy high normal true false No No 36 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.18

ένδρο Απόφασης οθέντων: µιας βάσης δεδοµένων D = {t 1,, t n } όπου t i =<t i1,, t ih > του σχήµατος της Β {A 1, A 2,, A h } ενός συνόλου κλάσεων C={C 1,., C m } ένδρο απόφασης (ή κατηγοριοποίησης) είναι ένα δένδρο συσχετισµένο µε τη D έτσι ώστε = Καθηγητής Κάθε εσωτερικός κόµβος έχει ως ετικέτα ένα γνώρισµα, A i ΝΑΙ Κάθε τόξο έχει ως ετικέτα ένα κατηγόρηµα που µπορεί να εφαρµοστεί στο γνώρισµα του κόµβου-γονέα Κάθε φύλλο (τερµατικός κόµβος) έχει ως ετικέτα µια κλάση, C j Βαθµίδα 6 ΟΧΙ Καθηγητής έτη >6 ΝΑΙ 37 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Επαγωγή Α Input: D //Training data Output: T //Decision tree DTBuild algorithm: //Simplistic algorithm to illustrate naïve approach to building DT begin T = ; Determine splitting criterion; T = Create root node and label with splitting attribute; T = Add arc to root node for each split predicate and label; for each arc do begin D = Database created by applying splitting predicate to D; if stopping point reached for this path, then T = Create leaf node and label with appropriate class; else T = DTBuild(D); end T = Add T to arc; end 38 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.19

Ζητήµατα στα Α Αρχική επιλογή των γνωρισµάτων διάσπασης Κάποια από τα γνωρίσµατα της Β πρέπει να παραλειφθούν (δεν εξυπηρετούν την κατηγοριοποίηση) Κριτήριο διάσπασης Επιλογή του γνωρίσµατος διάσπασης Επιλογή των κατηγορηµάτων διάσπασης (πάνω στο γνώρισµα διάσπασης) ενδρική δοµή επιθυµητό: ισοζυγισµένο δένδρο µε λίγα επίπεδα κάποιες τεχνικές παράγουν µόνο δυαδικά δένδρα Κριτήρια τερµατισµού ακρίβεια κατηγοριοποίησης vs. απόδοση vs. υπερπροσαρµογή Κλάδεµα (pruning) εκ των υστέρων «τακτοποίηση» του Α για καλύτερη απόδοση 39 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Ένα κριτήριο για την επιλογή του κατάλληλου γνωρίσµατος διάσπασης Ποιο είναι το καλύτερο; Αυτό που θα οδηγήσει στο µικρότερο δένδρο Ένας ευριστικός κανόνας (heuristic): επιλέγουµε το γνώρισµα που παράγει τους πιο "αγνούς" κόµβους. Για το σκοπό αυτό, χρησιµοποιείται µια συνάρτηση καταλληλότητας (fitness function). Στρατηγική: επιλέγουµε το γνώρισµα που µεγιστοποιεί τη συνάρτηση καταλληλότητας Χαρακτηριστικές συναρτήσεις καταλληλότητας: Κέρδος πληροφορίας Gain (ID3) Λόγος κέρδους πληροφορίας GainRatio (C4.5) gini index (SPRINT) 40 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.20

Θεωρία Πληροφορίας Η επαγωγή Α βασίζεται συχνά στη Θεωρία Πληροφορίας 41 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Πληροφορία / Εντροπία Έστω πιθανότητες p 1, p 2,.., p s των οποίων το άθροισµα είναι 1. Η Εντροπία ορίζεται ως εξής: s H η βάση του λογάριθµου δεν προσδιορίζεται (συνήθως, 10 ή 2) Η εντροπία είναι ποσοτικοποίηση της τυχαιότητας (έκπληξης, αβεβαιότητας) Ο στόχος της κατηγοριοποίησης καθόλου έκπληξη εντροπία = 0 ( p1, p2,..., ps) = i= 1 p i log 1 p i H(p,1-p) 42 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.21

Αλγόριθµος ID3 ηµιουργεί Α µε χρήση στοιχείων από τη θεωρία πληροφορίας (εντροπία) Επιλέγει για διάσπαση το γνώρισµα µε το µεγαλύτερο κέρδος πληροφορίας (information gain): Gain ( D, S) = H( D) P( D ) H( ) s i= 1 i D i H(D) η εντροπία του D (πριν το διαχωρισµό) H(D i ) η εντροπία των επιµέρους D i (µετά το διαχωρισµό) Όσο µεγαλύτερη είναι η µείωση (το «άλµα» προς το 0), τόσο µεγαλύτερο είναι το κέρδος Gain(D,S) 43 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Παράδειγµα ID3 Αρχική κατάσταση εντροπίας: H(D) = 4/15 log(15/4) + 8/15 log(15/8) + 3/15 log(15/3) = 0.4384 Κέρδος αν γίνει διάσπαση στο gender: Gender= F : 3/9 log(9/3) + 6/9 log(9/6)=0.2764 Gender= M : 1/6 log(6/1) + 2/6 log(6/2) + 3/6 log(6/3) = 0.4392 Weighted sum: (9/15)(0.2764) + (6/15)(0.4392) = 0.3415 Gain: 0.4384 0.3415 = 0.0969 Κέρδος αν γίνει διάσπαση στο height: Weighted sum: 0+0+... + (2/15)(0.301) = 0.0401 Gain: 0.4384 0.0401 = 0.3983 Κατηγορήµατα διάσπ.: (0, 1.6], (1.6, 1.7], (1.7, 1.8], (1.8, 1.9], (1.9, 2.0], (2.0, ) Επιλέγουµε height Name Gender Height Output1 Kristina F 1.6m Short Jim M 2m Tall Maggie F 1.9m Medium Martha F 1.88m Medium Stephanie F 1.7m Short Bob M 1.85m Medium Kathy F 1.6m Short Dave M 1.7m Short Worth M 2.2m Tall Steven M 2.1m Tall Debbie F 1.8m Medium Todd M 1.95m Medium Kim F 1.9m Medium Amy F 1.8m Medium Wynette F 1.75m Medium 44 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.22

Αλγόριθµος C4.5 Ο αλγόριθµος ID3 µεροληπτεί υπέρ των γνωρισµάτων µε µεγάλο αριθµό διαιρέσεων Ο αλγόριθµος C4.5 αποτελεί βελτιωµένη εκδοχή του ID3: Καλύτερη διαχείριση ελλιπών / συνεχών δεδοµένων Κλάδεµα 2 τεχνικές: αντικατάσταση υποδένδρου / ανύψωση υποδένδρου Κανόνες αποφάσεων (που παράγονται από τα Α) Βελτιωµένη συνάρτηση καταλληλότητας (για αποφυγή υπερπροσαρµογής): GainRatio ( D, S) ( D, S) Gain = D 1 H,..., D D D s 45 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Αλγόριθµος CART ηµιουργεί δυαδικό δένδρο Χρησιµοποιεί εντροπία Μαθηµατικός τύπος για την επιλογή του σηµείου διάσπασης, s, για τον κόµβο t: Οι πιθανότητες P L,P R αντιστοιχούν στην πιθανότητα µια εγγραφή να βρεθεί στην αριστερή ή τη δεξιά πλευρά, αντίστοιχα, του δένδρου. 46 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.23

Παράδειγµα CART Στο ξεκίνηµα, υπάρχουν έξι επιλογές για σηµείο διάσπασης: Gender= M, height=1.6, height=1.7, height=1.8, height=1.9, height=2.0 (παραδοχή: η ισότητα οδηγεί στο δεξί κλαδί): Φ(Gender= M ) = 2 (6/15) (9/15) (2/15 + 4/15 + 3/15)=0.224 Φ(height=1.6) = 0 Φ(height=1.7) = 2 (2/15) (13/15) (0 + 8/15 + 3/15) = 0.169 Φ(height=1.8) = 2 (5/15) (10/15) (4/15 + 6/15 + 3/15) = 0.385 Φ(height=1.9) = 2 (9/15) (6/15) (4/15 + 2/15 + 3/15) = 0.256 Φ(height=2.0) = 2 (12/15) (3/15) (4/15 + 8/15 + 3/15) = 0.32 Αποφασίζεται διάσπαση στο height=1.8 κοκ. Name Gender Height Output1 Kristina F 1.6m Short Jim M 2m Tall Maggie F 1.9m Medium Martha F 1.88m Medium Stephanie F 1.7m Short Bob M 1.85m Medium Kathy F 1.6m Short Dave M 1.7m Short Worth M 2.2m Tall Steven M 2.1m Tall Debbie F 1.8m Medium Todd M 1.95m Medium Kim F 1.9m Medium Amy F 1.8m Medium Wynette F 1.75m Medium 47 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης Σύνοψη Κατηγοριοποίηση (ή ταξινόµηση): η ανάθεση ετικετών στις εγγραφές της βάσης δεδοµένων σχετικά µε την κλάση στην οποία ανήκει η καθεµία Αλλιώς, διαµέριση της βάσης δεδοµένων σε (προκαθορισµένες) κατηγορίες Τεχνικές: στατιστικές (παλινδρόµηση, Bayesian, ) βασισµένες σε απόσταση (k-nn, ) δένδρα αποφάσεων (ID3, C4.5, CART, ) 48 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.24