Μηχανική Μάθηση. Η µηχανική µάθηση ως πρόβληµα αναζήτησης

Σχετικά έγγραφα
Μηχανική Μάθηση. Η έννοια της µάθησης σε ένα γνωστικό σύστηµα µπορεί να συνδεθεί µε δύο βασικές ιδιότητες:

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ. Καραγιώργου Σοφία

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Αναγνώριση Προτύπων Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αναγνώριση Προτύπων Ι

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Διακριτικές Συναρτήσεις

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Επίλυση Προβλημάτων 1

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

4.3. Γραµµικοί ταξινοµητές

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης.

Τεχνικές Εξόρυξης Δεδομένων

HMY 795: Αναγνώριση Προτύπων

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ

Ακέραιος Γραμμικός Προγραμματισμός

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

Ασκήσεις μελέτης της 16 ης διάλεξης

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

6. Στατιστικές μέθοδοι εκπαίδευσης

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 2: Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΑΕΠΠ Ερωτήσεις θεωρίας

Είδη Μεταβλητών. κλίµακα µέτρησης

Ακέραιος Γραμμικός Προγραμματισμός

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

Εξόρυξη Γνώσης στον Τομέα του Αθλητισμού

1.4 Λύσεις αντιστρόφων προβλημάτων.

Δομές Ακολουθίας- Επιλογής - Επανάληψης. Δομημένος Προγραμματισμός

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Θέματα Συστημάτων Πολυμέσων

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Υπολογιστικό Πρόβληµα

Ανάλυση και Σχεδιασμός Μεταφορών Ι Ανάλυση Διακριτών Επιλογών

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μηχανική Μάθηση: γιατί;

Στατιστική Εισαγωγικές Έννοιες

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Εξόρυξη Γνώσης από εδοµένα (data mining)

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Κεφάλαιο 6. Εισαγωγή στη µέθοδο πεπερασµένων όγκων επίλυση ελλειπτικών και παραβολικών διαφορικών εξισώσεων

Στατιστική Περιγραφή Φυσικού Μεγέθους - Πιθανότητες

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ακέραιος Γραμμικός Προγραμματισμός

Αριθμητική Ανάλυση και Εφαρμογές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

Απλή Γραμμική Παλινδρόμηση II

Εφαρμοσμένη Βελτιστοποίηση

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

HMY 795: Αναγνώριση Προτύπων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ 035: οµές εδοµένων και Αλγόριθµοι για Ηλεκτρολόγους Μηχανικούς και Μηχανικούς Υπολογιστών

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

1 η ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Καταµερισµός. µεταφορικό µέσο. Καταµερισµός στα µέσα. το υπό διερεύνηση θέµα :

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΣΠΟΥΔΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Δειγματοληψία στην Ερευνα. Ετος

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ενδεικτικές Ερωτήσεις Θεωρίας

Ανακάλυψη Γνώσης στον Τομέα του Αθλητισμού

Transcript:

Μηχανική Μάθηση! Η έννοια της µάθησης σε ένα γνωστικό σύστηµα µπορεί να συνδεθεί µε δύοβασικές ιδιότητες: # Την ικανότητά του στην πρόσκτηση επιπλέον γνώσης κατά την αλληλεπίδρασή του µε το περιβάλλον στο οποίο δραστηριοποιείται. # Την ικανότητά του να βελτιώνει µε την επανάληψη τον τρόπο µε τον οποίο εκτελεί µία ενέργεια.! Συστήµατα µε ικανότητα µηχανικής µάθησης είναι σε θέση: # να µεταβάλλονται διαρκώς προς το καλύτερο, αναφορικά µε τις λειτουργίες που είναι σε θέση να εκτελέσουν. # να µεταβάλλουν τη βάση γνώσης τους είτε µετασχηµατίζοντας την εσωτερική τους δοµή (π.χ. νευρωνικά δίκτυα) ή αποκτώντας επιπλέον γνώση (π.χ. έµπειρα συστήµατα). # να εκτελούν γενικεύσεις, δηλαδή να αγνοούν χαρακτηριστικά και ιδιότητες που δεν είναι αντιπροσωπευτικά της έννοιας/ενέργειας που πρέπει να µάθουν. Η µηχανική µάθηση ως πρόβληµα αναζήτησης Η µηχανική µάθηση µπορεί να θεωρηθεί ως "η αναζήτηση σε ένα χώρο πιθανών υποθέσεων, εκείνης της υπόθεσης που ταιριάζει κατά τον καλύτερο τρόπο στα υπό εξέταση δεδοµένα και στην πιθανώς προϋπάρχουσα γνώση".

Επαγωγική Μάθηση! Η µάθηση µιας έννοιας από ένα σύνολο παραδειγµάτων. # Μάθηση µε επίβλεψη(supervised learning) ή µάθηση µε παραδείγµατα (learning from examples) # Μάθηση χωρίς επίβλεψη (unsupervised learning) ή µάθηση από παρατήρηση (learning from observation and discovery).! Παράδειγµα: Μάθηση εννοιών (concept learning). Το σύστηµα τροφοδοτείταιµε παραδείγµατα που ανήκουν (θετικά παραδείγµατα) ήδενανήκουν(αρνητικά παραδείγµατα) σε κάποια έννοια/κατηγορία και καλείται να παράγει κάποια γενικευµένη περιγραφή της, ώστε να είναι σε θέση στη συνέχεια να αποφασίσει για άγνωστες περιπτώσεις.! Βασική Αρχή Επαγωγικής Μάθησης: Η γνώση που προκύπτει υποστηρίζεται από τα παραδείγµατα χωρίς αυτό όµως να σηµαίνει ότι ισχύει οπωσδήποτε και στον πραγµατικό κόσµο.! ύο διαδεδοµένοι αλγόριθµοι επαγωγικής µάθησης µε επίβλεψη: # Αλγόριθµος Απαλοιφής Υποψηφίων # Αλγόριθµος ID3

Αλγόριθµος Απαλοιφής Υποψηφίων (ΑΑΥ)! Ο αλγόριθµος απαλοιφής υποψηφίων (candidate elimination algorithm) περιορίζει το χώρο αναζήτησης επιτελώντας γενικεύσεις και εξειδικεύσεις σε κάποιες αρχικές περιγραφές (έννοιες) µε βάσηταδεδοµένα εκπαίδευσης.! ιατηρεί δύο σύνολα, Gκαι S, που από κοινού περιγράφουν όλο το χώρο αναζήτησης: # G: Το σύνολο των πιο γενικών (maximally general) υποψήφιων περιγραφών # S: Το σύνολο των πιο εξειδικευµένων (maximally specific) υποψήφιων περιγραφών! Με βάση θετικά και αρνητικά παραδείγµατα ο αλγόριθµος περιορίζει το σύνολο G κάνοντας εξειδικεύσεις και επεκτείνει το σύνολο S κάνοντας γενικεύσεις µέχρις ότου ταδύοσύνολαναταυτιστούν. # Αν υπάρχει ταύτιση τότε οι περιγραφές που έχουν αποµείνει περιγράφουν απόλυτα τα δεδοµένα εκπαίδευσης. # Αν δεν υπάρχει ταύτιση τότε δεν υπάρχει µοναδική περιγραφή που να καλύπτει όλα τα θετικά παραδείγµατα και κανένα από τα αρνητικά.

Σχηµατική Επεξήγηση Λειτουργίας ΑΑΥ! Τα σύνολα G και S ορίζουν κάποια σύνορα στο χώρο των εννοιών/περιγραφών, τα οποία τον χωρίζουν σε περιοχές µε θετικά, αρνητικά και απροσδιόριστης φύσης παραδείγµατα.! Κατά την εκπαίδευση το σύνορο G συρρικνώνεται ενώ το S επεκτείνεται µέχρις ότου ταυτιστούν (συνθήκη τερµατισµού εκπαίδευσης).! Πλεονέκτηµα: Παρέχει µία αποδεκτή (αλλά όχι την καλύτερη) περιγραφή ανά πάσα στιγµή του σταδίου της εκπαίδευσης καθώς χρησιµοποιεί τα δεδοµένα εκπαίδευσης σταδιακά.

Παράδειγµα ΧρήσηςτουΑΑΥ! Χρησιµοποιώντας δύο θετικές (p) και τρεις αρνητικές (n) περιπτώσεις πελατών µιας τράπεζας που δανειοδοτήθηκαν, ζητείται µία περιγραφή της έννοιας "καλός υποψήφιος για δανειοδότηση". Πελάτης Τρέχουσες Οφειλές Εισόδηµα Παντρεµένος(η) Χαρακτηρισµός 1 Υψηλές Υψηλό Ναι Καλός (p) 2 Χαµηλές Υψηλό Ναι Καλός (p) 3 Χαµηλές Υψηλό Όχι Κακός (n) 4 Υψηλές Χαµηλό Ναι Κακός (n) 5 Χαµηλές Χαµηλό Ναι Κακός (n) Τελικές καταστάσεις σε κάθε κύκλο εκπαίδευσης. # Συµπέρασµα: µε βάσητηνεµπειρία του παρελθόντος, ο "καλός υποψήφιος για δανειοδότηση" πρέπει να έχει σχετικά υψηλό εισόδηµακαι να είναι παντρεµένος. # Οι τρέχουσες οφειλές του υποψήφιου δεν "φαίνεται" να αποτελούν αποτρεπτικό παράγοντα για δανειοδότηση (πάντα µε βάσητα δεδοµένα εκπαίδευσης).

Αλγόριθµος ID3! Γνωστός και σαν αλγόριθµος κατασκευής δένδρων απόφασης µε επαγωγή (decision tree induction algorithm) από δεδοµένα εκπαίδευσης.! Το αποτέλεσµά είναιµία δενδροειδής δοµή πουµε γραφικό τρόπο αναπαριστά τις συσχετίσεις στα δεδοµένα εκπαίδευσης ή διαφορετικά, περιγράφει τα δεδοµένα.! Αρχικά, µία από τις παραµέτρους του συνόλου εκπαίδευσης ορίζεται ως παράµετροςστόχος (εξαρτηµένη µεταβλητή ή µεταβλητή που µοντελοποιείται). # Οι υπόλοιπες παράµετροι θεωρούνται παράµετροι εισόδου (ανεξάρτητες µεταβλητές). Περιγραφή Αλγορίθµου 1) Βρες την ανεξάρτητη µεταβλητή η οποία αν χρησιµοποιηθεί ως κριτήριο διαχωρισµού των δεδοµένων εκπαίδευσης θα οδηγήσει σε κόµβους κατά το δυνατό διαφορετικούς σε σχέση µε τηνεξαρτηµένη µεταβλητή. 2) Κάνε το διαχωρισµό. 3) Επανέλαβε τη διαδικασία για κάθε έναν από τους κόµβους που προέκυψαν µέχρι να µην είναι δυνατός περαιτέρω διαχωρισµός.! Βασικότερο στάδιο: η επιλογή της ανεξάρτητης µεταβλητής πάνω στην οποία θα συνεχιστεί η ανάπτυξη του δένδρου (βήµα 1).

Ευριστικός Μηχανισµός στον ID3! Ο ID3 απαιτεί τον ορισµό κάποιου ευριστικού µηχανισµού ο οποίος θα καθοδηγήσει την αναζήτηση προς το καλύτερο δένδρο (περιγραφή) µέσα στο σύνολο των δυνατών δένδρων.! Συµπέρασµα: Ο ID3 είναι ένας αλγόριθµος αναρρίχησης λόφων καθώς σε κάθε κύκλο λειτουργίας επεκτείνει το τρέχον δένδρο µε τον τοπικά καλύτερο τρόπο και συνεχίζει χωρίς δυνατότητα οπισθοδρόµησης.! O πιο διαδεδοµένος ευριστικός µηχανισµούς διαχωρισµού είναι αυτός της εντροπίας της πληροφορίας (information entropy) ο οποίος επιλέγει εκείνη την ανεξάρτητη µεταβλητή που οδηγεί σε περισσότερο συµπαγές δένδρο. E(S)= -p + log 2 p + -p - log 2 p - # S είναι το σύνολο των δεδοµένων εκπαίδευσης στο στάδιο (κόµβο) του διαχωρισµού. # p + είναι το κλάσµα των θετικών παραδειγµάτων του S. # p - είναι το κλάσµα των αρνητικών παραδειγµάτων του S.! Η εντροπία της πληροφορίας µετρά ουσιαστικά την ανοµοιογένεια που υπάρχει στο S αναφορικά µε την υπό εξέταση εξαρτηµένη µεταβλητή και έχει τις ρίζες της στη θεωρία πληροφοριών (information theory).

OID3στην Πράξη! Στον ID3 χρησιµοποιείται η ποσότητα Gain(S,A) (ή G(S,A)) που αναπαριστά τη µείωση της εντροπίας του συνόλου εκπαίδευσης S αν επιλεγεί ως παράµετρος διαχωρισµού η µεταβλητή Α (όταν µειώνεται η πληροφοριακή εντροπία αυξάνεται (gain) η πυκνότητα πληροφορίας οπότε η περιγραφή γίνεται περισσότερο συµπαγής). G ( S, A) = E( S) u Values( A) S S u E( S u ) # E(S) είναι η εντροπία πληροφορίας του υπό εξέταση κόµβου. # Α είναι η ανεξάρτητη µεταβλητή βάσει της οποίας επιχειρείται ο επόµενος διαχωρισµός. # u είναι µία από τις δυνατές τιµές του Α # S u είναι το πλήθος των εγγραφών µε Α=u # E(S u ) είναι η εντροπία πληροφορίας του υπό εξέταση κόµβουωςπροςτηντιµή Α=u.

Παράδειγµα Εφαρµογής του ID3! Πρώτος κύκλος λειτουργίας (1ος διαχωρισµός) του ID3 µε κριτήριο διαχωρισµού την εντροπία, γιατοσύνολοδεδοµένων εκπαίδευσης του προβλήµατος δανειοδότησης.! Η µεγαλύτερη τιµή τουg(s,a) επιτυγχάνεται αν ο διαχωρισµός πραγµατοποιηθεί µε βάση τη µεταβλητή "Εισόδηµα". Τρέχουσες Οφειλές Εισόδηµα Παντρεµένος Υψηλές Χαµηλές Υψηλό Χαµηλό Ναι Όχι S 5 2 3 3 2 4 1 + 2 1 1 2 0 2 0-3 1 2 1 2 2 1 p + 2/5 1/2 1/3 2/3 0/2 2/4 0/1 p - 3/5 1/2 2/3 1/3 2/2 2/4 1/1 E 0.97 1 0.92 0.92 0 1 0 G 0.02 0.42 0.17! Πλεονεκτήµατα # Ένα δένδρο απόφασης µπορείεύκολανααναπαρασταθείκαισανένασύνολοκανόνων. # Είναι εξαιρετικά αποδοτικός (πλεονέκτηµααλγόριθµου αναρρίχησης λόφων).! Μειονεκτήµατα # Απαιτεί από την αρχή το σύνολο των δεδοµένων εκπαίδευσης, καθώς η λειτουργία του βασίζεται σε συγκεντρωτικά µεγέθη αυτού του συνόλου. # Είναι ισχυρά εξαρτώµενος από τον ευριστικό µηχανισµό διαχωρισµού που θα επιλεγεί.

Παράδειγµα Εφαρµογής ID3 - ένδρο Απόφασης # Σε κάθε κύκλο τα µεγέθη S και G επανυπολογίζονται για τον πληθυσµό των παραδειγµάτων εκπαίδευσης που ανήκουνστονυπόεξέτασηκόµβο. # Σε δύο διαφορετικούς κόµβους του ίδιου επιπέδου µπορεί να επιλεγεί διαφορετική µεταβλητή διαχωρισµού. # Τερµατικοί κόµβοι που έχουν για όλο τον πληθυσµό παραδειγµάτων τους την ίδια τιµή στηνεξαρτηµένη µεταβλητή (φυσική συνθήκη τερµατισµού της ανάπτυξης) ονοµάζονται αµιγείς κόµβοι (pure nodes) # Ένα δένδρο µε όλους τους τερµατικούς του κόµβους αµιγείς, ονοµάζεται αµιγές δένδρο (pure tree). # Τα αµιγή δένδρα δεν είναι ούτε συνηθισµένα αλλά ούτε και επιθυµητά καθώς υπερµοντελοποιούν (overfit) τα δεδοµένα εκπαίδευσης και χάνουν έτσι τη γενικότητά τους. # Τεχνικές κλαδέµατος αποτρέπουν τη δηµιουργία αµιγών δένδρων.

Χρήση των ένδρων Απόφασης! Χρησιµοποιούνται για να προβλέψουν, µε κάποιο βαθµό ακρίβειας, την τιµή της µεταβλητής που µοντελοποιούν µε βάσητιςτιµές των θεωρούµενων ανεξάρτητων µεταβλητών.! Αυτό γίνεται ακολουθώντας απλά τα κλαδιά του δένδρου από τον κόµβο-ρίζα προς τους τερµατικούς κόµβους, µε βάσητιςτιµές των ανεξάρτητων µεταβλητών. Σηµαντικό Τεχνικό Ζήτηµα! Ο ID3 απαιτεί οι τιµές των µεταβλητών να είναι διακριτές.! Απαιτείται ο ορισµός κατηγοριών και η µετατροπή των συνεχών αριθµητικών τιµών σε διακριτές. # Οορισµός κατηγοριών εισάγει υποκειµενικότητα που επηρεάζει την τελική µορφή του δένδρου (υπάρχουν πολλοί τρόποι µε τουςοποίουςµπορούν να οριστούν οι κατηγορίες).! Παραλλαγές του ID3 περιλαµβάνουν τεχνικές κλαδέµατος πριν την ολοκλήρωση της κατασκευής του δένδρου, διαχείριση πεδίων χωρίς τιµή, χρήση διαφόρων κριτηρίων διαχωρισµού, αυτόµατη διαχείριση συνεχόµενων αριθµητικών τιµών, κλπ.! Ο αλγόριθµος C4.5 αποτελεί την περισσότερο διαδεδοµένη βελτίωση του ID3.

Τεχνητά Νευρωνικά ίκτυα! Παρέχουν ένα πρακτικό τρόπο για την εκµάθηση αριθµητικών και διανυσµατικών συναρτήσεων ορισµένων σε συνεχή ή διακριτά µεγέθη.! Κύριο Πλεονέκτηµα: παρουσιάζουν ανοχή σε δεδοµένα εκπαίδευσης µε θόρυβο, δηλαδή δεδοµένα που περιστασιακά έχουν λανθασµένες τιµές (π.χ. λάθη καταχώρησης).! Κύριο Μειονέκτηµα: Αδυνατούν να εξηγήσουν ποιοτικά τη γνώση που µοντελοποιούν. Γενετικοί Αλγόριθµοι! Η µάθηση συνίσταται στην εύρεση της βέλτιστης υπόθεσης µε βάσηµια προκαθορισµένη συνάρτηση καταλληλότητας και µεθοδολογία εµπνευσµένη από τη βιολογική εξέλιξη.! Η µάθηση αντιµετωπίζεται σαν µία ειδική περίπτωση βελτιστοποίησης.

Μάθηση µε Βάση τη Θεωρία του Bayes! Κάθε παράδειγµα εκπαίδευσης µπορεί σταδιακά να µειώσει ή να αυξήσει την πιθανότητα να είναι σωστή µια υπόθεση.! Μια υπόθεση που δεν είναι σε απόλυτη συµφωνία µε τα παραδείγµατα εκπαίδευσης, δεν απορρίπτεται αµέσως αλλά ισχύει σε κάποιο βαθµό.! Προϋπάρχουσα γνώση µπορεί να συνδυαστεί µε ταδεδοµένα εκπαίδευσης µε τη µορφή αρχικών τιµών πιθανότητας για τις υπό εξέταση υποθέσεις.! Απλός Κατηγοριοποιητής Bayes (naive Bayes classifier) # Απλουστευµένηεκδοχήτηςµάθησης κατά Bayes. # Γίνεται η παραδοχή ότι τα χαρακτηριστικά που χρησιµοποιούνται ως τιµές εισόδου είναι ανεξάρτητα µεταξύ τους. # Αντιµετωπίζει την απαίτηση της θεωρίας του Bayes για τη γνώση πολλών τιµών συζευγµένων και µηπιθανοτήτων.

Μάθηση µε Βάση τα Παραδείγµατα! Σε αντίθεση µε τις άλλες µεθόδους, τα δεδοµένα εκπαίδευσης δεν κωδικοποιούνται αλλά διατηρούνται αυτούσια.! Όταν ένα τέτοιο σύστηµα κληθεί να αποφασίσει για µία νέα περίπτωση, εξετάζει τη σχέση της µε τιςήδηαποθηκευµένες περιπτώσεις.! Ο αλγόριθµος των k-κοντινότερων γειτόνων (k-nearest Neighbor) # Τα διάφορα συµβάντα/παραδείγµατα µπορούν να αναπαρασταθούν ως σηµεία µε θετικόή αρνητικό χαρακτηρισµό σεκάποιοευκλείδειοχώροµε διαστάσειςπουσχετίζονταιµε τις παραµέτρους εισόδου του προβλήµατος. # Κάθε νέα περίπτωση τοποθετείται στο χώρο αυτό ως νέο σηµείο και χαρακτηρίζεται ως θετικό ή αρνητικό παράδειγµα, µε βάσητoν χαρακτηρισµό τωνk γειτονικών σηµείων! Παράδειγµα: χαρακτηρισµόςτηςνέαςπερίπτωσηςχ # Θετική, αν ληφθεί υπ' όψη ο πλησιέστερος µόνο γείτονας (1-Nearest Neighbor). # Αρνητική, αν ληφθούν υπ' όψη οι πέντε πλησιέστεροι γείτονες (5-Nearest Neighbor) καθώς η πλειοψηφία αυτών έχει αρνητικό χαρακτηρισµό.

Ενισχυτική Μάθηση (Reinforcement Learning)! Η µάθηση της επιλογής των ενεργειών γίνεται µε βάσηµια τιµή ανταµοιβής (reward) η οποία έχει την έννοια της επιβράβευσης ή της επίκρισης, ανάλογα µε τοαντο αποτέλεσµα τηςενέργειαςκριθείότισυνεισφέρειήόχιστηνεπίτευξητωνστόχων του συστήµατος, αντίστοιχα.! Συσσωρευµένη τιµή ανταµοιβή (cumulative reward): αφορά το σύνολο των ενεργειών και εισάγεται όταν κρίνεται η ποιότητα του συνόλου των ενεργειών και όχι κάθε ξεχωριστής υπο-ενέργειας.! Προβλήµατα # Όταν το σύστηµα δεν είναι άµεσα σε θέση να αποφασίσει για το ποια από τις επί µέρους ενέργειες που εκτέλεσε ήταν η καθοριστική για την ανταµοιβή που έλαβε # Αξιοποίηση (exploitation) υπάρχουσας γνώσης ή εξερεύνηση (exploration) για νέα γνώση; Πρέπει να υπάρχει κάποια πολιτική για το αν θα προτιµηθεί κάποια σειρά ενεργειών που στο παρελθόν είχε αποφέρει δεδοµένη ανταµοιβή ή θα ακολουθηθεί κάποια νέα σειρά ενεργειών µε την προοπτική καλύτερης ανταµοιβής. Απαιτείται η αξιοποίηση της αντίληψης που είχε το σύστηµα για το περιβάλλον σε προηγούµενες καταστάσεις ή ενδεχοµένως η εκτέλεση, προς στιγµή, ενεργειών που αποβλέπουν στη βελτίωση της τρέχουσας αντίληψής του για το περιβάλλον.! Τοµείς Εφαρµογής: κυρίως σε προγράµµατα πράκτορες και ροµποτικούς µηχανισµούς που απαιτούν τη µάθηση κάποιας πολιτικής ελέγχου σε σειριακές διαδικασίες.

Εύρεση Γνώσης σε Βάσεις εδοµένων! Σύνθετη διαδικασία για τον προσδιορισµό έγκυρων, νέων, χρήσιµων και κατανοητών σχέσεων-προτύπων σε δεδοµένα (Knowledge Discovery in Databases - KDD).! Συνδυάζει ερευνητικά αποτελέσµατα της Στατιστικής, τωνβάσεων εδοµένων και της Μηχανικής Μάθησης.! Αντιστοιχία µεταξύ Μηχανικής Μάθησης και KDD:! Η διαδικασία εύρεσης γνώσης είναι µια ειδική περίπτωση µηχανικής µάθησης στην οποία το "περιβάλλον" (ο χώρος αναζήτησης) µοντελοποιείται µε µία βάση δεδοµένων.

Τα Στάδια της Εύρεσης Γνώσης! Απαιτείται συνήθως η συνδροµή ενός ειδικού του τοµέα εφαρµογής.! Τιςπερισσότερεςφορέςκάποιααπόταεπίµέρους βήµατα είναι αναγκαίο να επαναληφθούν, καθώς ενδέχεται να προκύψουν προβλήµατα που σχετίζονται µε τις αρχικές επιλογές και τα οποία δεν ήταν δυνατό να εντοπιστούν αρχικά.! Τυπικά µεγέθη του όγκου δεδοµένων στα οποία εφαρµόζονται διαδικασίες εύρεσης γνώσης είναι εκατοµµύρια εγγραφές και δεκάδες GBytes.

Είδη Γνώσης που Προκύπτουν! Πρότυπα πληροφόρησης (informative patterns): περιγράφουν συσχετίσεις µεταξύ των δεδοµένων, τιςοποίεςοειδικόςτουτοµέα δε γνώριζε. # Κανόνες συσχέτισης (association rules). # Σειριακά πρότυπα (sequential patterns) (παραλλαγή των κανόνων συσχέτισης). # Οµάδες (clusters).! Πρότυπα πρόβλεψης (predictive patterns): προβλέπουν την τιµή ενόςπεδίουµιας εγγραφής µε βάσητιςτιµές των υπολοίπων πεδίων. # Κατηγοριοποιητές (classifiers). έντρα κατηγοριοποίησης (classification/decision trees). Απλοί κατηγοριοποιητές Bayes (simple/naive Bayesian classifiers). # Εµπειρικές σχέσεις σε µεταβλητές (regression).

Κανόνες Συσχέτισης (Association Rules)! Πρότυπα πληροφόρησης της µορφής "εάν Χ τότε Υ", όπου Χ και Υ είναι εκφράσεις που συνδέουν τιµές των πεδίων των εγγραφών της βάσης δεδοµένων # π.χ. "οι πελάτες που αγοράζουν αναψυκτικά αγοράζουν και ξηρούς καρπούς"! Μεγέθη που µετρούν την ποιότητα των ευρεθέντων κανόνων συσχέτισης # Εµπιστοσύνη (confidence) είναι ο λόγος των εγγραφών που ικανοποιούν το Χ και το Υ προς τις εγγραφές που ικανοποιούν µόνοτοχ. Καθορίζειτοπόσοισχυρόείναιτοπρότυποπουεντοπίστηκε. # Υποστήριξη (support) είναι ο λόγος των εγγραφών που ικανοποιούν το Χ και το Υ προς το σύνολο των εγγραφών. Καθορίζει το πόσο σηµαντικό είναι (συνήθως για τον τελικό χρήστη) πρότυπο που εντοπίστηκε. Σειριακά Πρότυπα (Sequential Patterns)! Παραλλαγή των κανόνων συσχέτισης.! Συσχετίζουν τιµές πεδίων κάποιων εγγραφών µε τιµές πεδίων άλλων εγγραφών που ακολουθούν χρονικά και αφορούν την ίδια οντότητα (π.χ. συγκεκριµένο πελάτη). # π.χ. "Όταν η µετοχή της Α και της Β εταιρίας πέφτουν ταυτόχρονα για δύο συνεχόµενες µέρες τότε η µετοχή της Γ εταιρίας πέφτει την τρίτη µέρα"

Οµάδες (Clusters)! Πρότυπα πληροφόρησης που προκύπτουν µε οµαδοποίηση (clustering) των εγγραφών της βάσης δεδοµένων, έτσι ώστε εγγραφές που ανήκουν στην ίδια οµάδα να έχουν κοινά χαρακτηριστικά. # Γραφική απεικόνιση µίαςυποθετικήςοµαδοποίησης σε δεδοµένα αγοραστών σπορ αυτοκινήτων, µε βάση την ηλικία, το ετήσιο εισόδηµα και το φύλλο. Aγοραστές νεαρής ηλικίας ανεξαρτήτως φύλλου. Άνδρες αγοραστές µε υψηλόεισόδηµα, όλων των ηλικιών µέχρι τα 53 χρόνια. Άνδρες αγοραστές ηλικίας περίπου 44 ανεξαρτήτως εισοδήµατος.

Εµπειρική Σχέση Μεταβλητών (Regression)! Αφορά την αναζήτηση προτύπων πρόβλεψης, όπου το χαρακτηριστικό που προβλέπεται απαιτείται να έχει αριθµητική τιµή. Οι κυριότερες µέθοδοι είναι: # Γραµµική παρεµβολή (linear regression): το χαρακτηριστικό του οποίου η τιµή πρέπεινα προβλεφθεί µοντελοποιείται µε µία απλή γραµµική εξίσωση των παραµέτρων εισόδου. # Νευρωνικά δίκτυα (neural networks): µετά την εκπαίδευσή τους µεταυπάρχοντα δεδοµένα εισόδου/εξόδου είναι σε θέση να αποδώσουν µία τιµή εξόδου σε νέα δεδοµένα εισόδου. Προτιµούνται σε σχέση µε τηγραµµική παρεµβολή, κυρίως λόγω της δυνατότητάς τους να µοντελοποιούν µηγραµµικά δεδοµένα. Παράδειγµα: µοντελοποίηση κέρδους εταιρίας κινητής τηλεφωνίας µε βάση το χρόνο χρήσης, για πελάτες µεσυµβόλαιο 500 δωρεάν µονάδων. Προκύπτει ότι η υποτιθέµενη εταιρία έχει µεγάλο κέρδος όταν οι πελάτες κάνουν χρήση του τηλεφώνου για λιγότερο ή περισσότερο από τις δωρεάν µονάδες του συµβολαίου τους (500) και καθόλου ή πολύ µικρό κέρδος όταν αυτοί κάνουν χρήση περίπου 500 µονάδων. Μοντελοποίηση µεγραµµική παρεµβολή δίνει µεγάλο σφάλµα (διακεκοµµένη γραµµή) ενώ η χρήση νευρωνικού δικτύου µοντελοποιεί καλύτερα τα δεδοµένα (συνεχής γραµµή).

Κατηγοριοποίηση (Classification)! Μέθοδος αναζήτησης προτύπων πρόβλεψης παρόµοια µε τηνεµπειρική σχέση µεταβλητών, µε τηδιαφοράότιητιµή του πεδίου που πρέπει να προβλεφθεί δεν εκφράζεται µε αριθµό αλλά µε κατηγορία.! ίνουν µεγαλύτερη πιθανότητα στο να έχει κάποιο χαρακτηριστικό Y την τιµή y, δεδοµένου ότι άλλα χαρακτηριστικά Χ=(Χ 1, Χ 2,...,Χ n ) έχουν τιµές x=(x 1,x 2,...,x n ), παρά να έχει κάποια άλλη τιµή y'. ηλαδή: P(Y=y Χ=x)>P(Y=y' Χ=x)! Οι πιο κοινές µέθοδοι κατηγοριοποίησης είναι: # ένδρα Κατηγοριοποίησης # Απλοί Κατηγοριοποιητές Bayes (simple/naive Bayes classifiers) ένδρα κατηγοριοποίησης (Classification Trees)! Ορίζουν µία σειρά από διαδοχικές ερωτήσεις, όπου κάθε µία γίνεται µε βάσητην απάντηση στην προηγούµενη ερώτηση και καταλήγουν στην πρόβλεψη της κατηγορίας στην οποία ανήκει η υπό εξέταση εγγραφή.! Κύρια πλεονεκτήµατα: # Ευκολία µε την οποία ερµηνεύονται # Πληθώρα αλγορίθµων κατασκευής τους (ID3, C4.5, κλπ).

Παράδειγµα ένδρου Κατηγοριοποίησης # ιάγραµµα εγγραφών εταιρείας κινητής τηλεφωνίας (και σχετικό δένδρο) που αφορά το κατά πόσο ένας συνδροµητής παραµένει ή φεύγει, µε δεδοµένα τη διάρκεια και το είδος του συµβολαίου του # Ο ειδικός του τοµέα µπορεί, εξετάζοντας τα χαρακτηριστικά των κλάδων που καταλήγουν σε τερµατικούς κόµβους "Φεύγει", να αποφασίσει για το ποια θα είναι η τακτική της εταιρίας αν θέλει να διατηρήσει τη συγκεκριµένη κατηγορία συνδροµητών.

Απλοί Κατηγοριοποιητές Bayes (1/2)! Πρότυπα που δηµιουργούνται µε βάση στατιστικά στοιχεία (κατανοµές πιθανότητας) που αφορούν τις εγγραφές της βάσης δεδοµένων.! Η ποσότητα P που περιγράφει έναν απλό κατηγοριοποιητή Bayes για ένα σύνολο εγγραφών εκφράζει την πιθανότητα να είναι c ητιµή ενόςπεδίουc µε βάσητιςτιµές x=(x 1,x 2,..., x n ) των υπολοίπων πεδίων X=(X 1,X 2,... X n ) και δίνεται από τη σχέση: P( C) P ( C X) = P( X i C) P( X) όπου τα χαρακτηριστικά Χ i (πεδία) θεωρούνται ανεξάρτητα µεταξύ τους.! Για ένα σύνολο Ν εγγραφών: # P(C=c) = N(C=c) / N # P(X=x C=c) = N(X=x,C=c) / N(C=c) για πεδία µε µηαριθµητικές τιµές # P(X=x C=c) = g(x; µ c,σ c 2 ) για πεδία µε αριθµητικές τιµές # N(C=c): οαριθµός των εγγραφών που έχουν για το χαρακτηριστικό C τιµή c (C=c) # N(X=x,C=c): οαριθµός των εγγραφών µε Χ=x και C=c # g(x; µ c,σ c 2 ): η συνάρτηση πυκνότητας Gauss µε µέσο όρο µ c και διασπορά σ c. i

Απλοί κατηγοριοποιητές Bayes (2/2)! Επειδή πρέπει Σ c P(C=c X)=1, η ποσότητα P(X) στην παραπάνω σχέση δεν υπολογίζεται άµεσα αλλά αντίθετα, γίνεται εκτίµηση των P(C=c X) για κάθε c και κανονικοποίηση αυτών των τιµών ώστε να δίνουν άθροισµα 1.! Πλεονέκτηµα: Όλες οι ποσότητες µπορούν να υπολογιστούν µε χρήσηερωτηµάτων (queries) προς τη βάση δεδοµένων.! Μειονέκτηµα: εν µπορεί να εντοπίσει πρότυπα που βασίζονται σε αλληλεπίδραση δύο ή περισσοτέρων χαρακτηριστικών, διότι βασίζεται στην ακριβώς αντίθετη παραδοχή.

Προβλήµατα στην Αναζήτηση Γνώσης (1/2)! Περιορισµένη πληροφορία Οι βάσεις δεδοµένων δεν είναι πάντοτε σχεδιασµένες για αναζήτηση γνώσης και συχνά οι ιδιότητες και τα πεδία που θα απλοποιούσαν τη διαδικασία αναζήτησης όχι µόνο λείπουν αλλά και δεν είναι δυνατόν να συλλεχθούν από το χρήστη.! είγµατα Ηχρήσηδείγµατος είναι σχεδόν πάντα επιβεβληµένη καθώς οι πραγµατικές βάσεις δεδοµένων έχουν τεράστιο αριθµό εγγραφών ενώ πολλοί αλγόριθµοι KDD απαιτούν τα δεδοµένα εκπαίδευσης να είναι όλα στη µνήµη. Ηλήψηενόςδείγµατος απαιτεί µεγάλη προσοχή και εφαρµογή στατιστικών τεχνικών, ώστε να αντιπροσωπεύει ικανοποιητικά την αρχική βάση.! Θόρυβος και πεδία χωρίς τιµή Οι βάσεις δεδοµένων συχνά περιέχουν λάθη. Πεδία των οποίων η τιµή προέρχεται από υποκειµενικές κρίσεις ή µετρήσεις µπορεί να προκαλέσουν λάθη, όπως εσφαλµένη κατηγοριοποίηση ορισµένων (παρα)δειγµάτων.! Μέγεθος βάσης δεδοµένων Κάνει χρονοβόρα τη συγκέντρωση στατιστικών στοιχείων για τον έλεγχο της ποιότητας της γνώσης που προκύπτει. Ηύπαρξηµεγάλου αριθµού πεδίων ανά εγγραφή, αν και θεωρείται πλεονέκτηµα γιατην ακρίβεια του παραγόµενου µοντέλου, δηµιουργεί τεράστιο αριθµό εναλλακτικών κανόνων κατηγοριοποίησης.

Προβλήµατα στην Αναζήτηση Γνώσης (2/2)! Αραιά δεδοµένα Ένα σύστηµα KDD δεν είναι σε θέση να προσδιορίσει επακριβώς τα όρια µιας κατηγορίας, αν στη βάση δεδοµένων υπάρχουν µόνο εγγραφές που σίγουρα ανήκουν ή σίγουρα δεν ανήκουν στην κατηγορία (αραιά (sparse) δεδοµένα. Ηύπαρξηµόνο θετικών παραδειγµάτων (αριστερά) κάνει αποδεκτά και τα δύο όρια Β 1 και Β 2. Αν ληφθούν υπόψη και αρνητικά παραδείγµατα (δεξιά) το όριο της κατηγορίας προσδιορίζεται µε µεγαλύτερη ακρίβεια (Β 3 ).! Πρόσφατα δεδοµένα Κατά πόσο µπορεί να θεωρηθεί ότι οι κανόνες που κάποτε παρήχθησαν ανταποκρίνονται στην πλέον ενηµερωµένη και πρόσφατη έκδοση της βάσης δεδοµένων; (ανάγκη για incremental µεθόδους).