Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Σχετικά έγγραφα
ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΜΑΤΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ. Καραγιώργου Σοφία

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Μηχανική Μάθηση. Η µηχανική µάθηση ως πρόβληµα αναζήτησης

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Μηχανική Μάθηση. Η έννοια της µάθησης σε ένα γνωστικό σύστηµα µπορεί να συνδεθεί µε δύο βασικές ιδιότητες:

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Ευφυής Προγραμματισμός

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Υπερπροσαρμογή (Overfitting) (1)

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Αναγνώριση Προτύπων Ι

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μηχανική Μάθηση: γιατί;

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Ζητήματα ηήμ με τα δεδομένα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Αναγνώριση Προτύπων Ι

HMY 795: Αναγνώριση Προτύπων

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Διδάσκουσα: Χάλκου Χαρά,

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Δειγματοληψία στην Ερευνα. Ετος

Διακριτικές Συναρτήσεις

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Αριθμητική Ανάλυση & Εφαρμογές

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Επίλυση Προβλημάτων 1

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Το μοντέλο Perceptron

Αριθμητική Ανάλυση και Εφαρμογές

Αποθήκες εδομένων και Εξόρυξη εδομένων:

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Δομές Δεδομένων και Αλγόριθμοι

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ομαδοποίηση ΙΙ (Clustering)

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισόδημα Κατανάλωση

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ ΔΕΔΟΜΕΝΑ

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

5.1 Ο ΕΛΕΓΧΟΣ SMIRNOV

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Αριθμητική Ανάλυση και Εφαρμογές

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Ενδεικτικές Ερωτήσεις Θεωρίας

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ανακάλυψη Γνώσης στον Τομέα του Αθλητισμού

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Πληροφορική 2. Τεχνητή νοημοσύνη

Εξόρυξη Γνώσης στον Τομέα του Αθλητισμού

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Κεφάλαιο 6. Ικανοποίηση Περιορισµών. Τεχνητή Νοηµοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

Πρόβλεψη Επισφαλών Δανείων

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

ιαµέριση - Partitioning

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Δέντρα Απόφασης (Decision(

Τεχνητή Νοημοσύνη ( )

Transcript:

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή raniah@hua.gr 1

Εισαγωγή Στην πλειοψηφία των ορισμών για την ΤΝ, η δυνατότητα μάθησης / προσαρμογής αποτελεί κεντρικό συστατικό. Γνωστικά συστήματα (cognitive systems): συστήματα επεξεργασίας πληροφοριών με δυνατότητες αντίληψης, μάθησης, συλλογισμού, λήψης απόφασης κτλ. Η έννοια της μάθησης σε ένα γνωστικό σύστημα έχει να κάνει με: Την ικανότητα να αποκτά γνώση κατά την αλληλεπίδρασή του με το περιβάλλον Την ικανότητα να βελτιώνει τον τρόπο που εκτελεί μια ενέργεια σε κάθε επανάληψη 2

Ορισμός Μοντέλο (model): απλοποιημένη αφαιρετική εκδοχή του περιβάλλοντος που παράγεται από επαγωγή (induction) Πρότυπα (patterns): δομές που οργανώνουν και συσχετίζουν τις εμπειρίες και τις παραστάσεις ενός ατόμου Μηχανική μάθηση (machine learning): Δημιουργία μοντέλων ή προτύπων από ένα σύνολο δεδομένων. 3

Είδη Μηχανικής Μάθησης Μάθηση με επίβλεψη (supervised) / μάθηση με παραδείγματα (learning from examples) Το σύστημα καλείται να μάθει την περιγραφή του μοντέλου από ένα σύνολο δεδομένων (παραδείγματα με εισόδους και εξόδους) Θεωρείται ότι υπάρχει κάποιος επιβλέπων που δίνει τη σωστή τιμή εξόδου του συστήματος για το κάθε σύνολο δεδομένων Μάθηση χωρίς επίβλεψη (unsupervised) / μάθηση με παρατήρηση (learning from observation) Το σύστημα πρέπει να δημιουργήσει πρότυπα ανακαλύπτοντας συσχετίσεις σε ένα σύνολο δεδομένων 4

Μάθηση με Επίβλεψη Συνάρτηση στόχος (target function): αποτελεί έκφραση του μοντέλου που περιγράφει τα δεδομένα. Χρησιμοποιείται για την πρόβλεψη της τιμής μιας μεταβλητής εξόδου (εξαρτημένης) βάσει των μεταβλητών εισόδου (χαρακτηριστικά, ανεξάρτητες μεταβλητές). Πεδίο ορισμού: σύνολο περιπτώσεων ή στιγμιοτύπων Κάθε στιγμιότυπο περιγράφεται από ένα σύνολο χαρακτηριστικών Υποσύνολο δεδομένων για το οποίο γνωρίζουμε την τιμή εξόδου: σύνολο δεδομένων εκπαίδευσης (παραδείγματα) Υπόθεση επαγωγικής μάθησης: Κάθε υπόθεση h που έχει βρεθεί να προσεγγίζει καλά τη συνάρτηση στόχο για ένα αρκετά μεγάλο σύνολο παραδειγμάτων, θα προσεγγίζει το ίδιο καλά τη συνάρτηση στόχο και για περιπτώσεις που δεν έχουν εξεταστεί. 5

Είδη & Τεχνικές στη μάθηση με επίβλεψη Προβλήματα ταξινόμησης (κατηγοριοποίηση, classification) Δημιουργία μοντέλων πρόβλεψης διακριτών τάξεων (κλάσεων / κατηγοριών) π.χ. ομάδες αίματος Προβλήματα παρεμβολής Δημιουργία μοντέλων πρόβλεψης αριθμητικών τιμών π.χ. τιμές μετοχής, ισοτιμίες Μάθηση εννοιών (concept learning) Δέντρα ταξινόμησης ή απόφασης (classification / decision trees) Μάθηση κανόνων (rule learning) Μάθηση κατά περίπτωση (Instance Based learning) Μάθηση κατά Bayes Γραμμική Παρεμβολή (Linear Regression) Νευρωνικά Δίκτυα (Neural Networks) Γενετικοί Αλγόριθμοι (Genetic Algorithms) Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines, SVMs) 6

7 Έννοιες & Μάθηση Εννοιών Η έννοια (concept) είναι ένα υποσύνολο αντικειμένων που ορίζονται σε σχέση με ένα γενικότερο σύνολο π.χ. η έννοια «πουλί» είναι υποσύνολο των «ζώων με φτερά» Εναλλακτικά ή έννοια μπορεί να θεωρηθεί ως μια συνάρτηση που επιστρέφει λογική τιμή Αληθής για τα αντικείμενα ενός συνόλου που ανήκουν σε αυτή π.χ. η έννοια «πουλί» εκφράζεται από μια συνάρτηση με πεδίο ορισμού όλα τα ζώα η οποία επιστρέφει αληθή τιμή για όλα τα πουλιά Στη μάθηση εννοιών το σύστημα τροφοδοτείται με θετικά και αρνητικά παραδείγματα που αφορούν μια έννοια και περιγράφονται με μια σειρά από χαρακτηριστικά, και καλείται να παράγει κάποια γενικευμένη περιγραφή της (μοντέλο) Το μοντέλο στη συνέχεια μπορεί να χρησιμοποιηθεί για να αποφανθεί αν μια άγνωστη περίπτωση ανήκει σε αυτή την έννοια

Μάθηση Εννοιών Προσέγγιση της λογικής συνάρτησης που περιγράφει την έννοια μέσω παρατήρησης της εισόδου και της εξόδου της. Παράδειγμα: Η έννοια «καλός πελάτης» για μια εταιρία κινητής τηλεφωνίας Το σύστημα τροφοδοτείται με παραδείγματα «καλών» και «κακών» πελατών Ζητείται περιγραφή της έννοιας που θα επιτρέψει την έγκαιρη πρόβλεψη σχετικά με ένα νέο πελάτη 8

Candidate Elimination Algorithm Ο αλγόριθμος απαλοιφής υποψηφίων περιορίζει τον χώρο αναζήτησης επιτελώντας γενικεύσεις και εξειδικεύσεις σε κάποιες αρχικές υποθέσεις (έννοιες) με βάση τα δεδομένα εκπαίδευσης. Διατηρούνται δύο σύνολα, G και S, που από κοινού περιγράφουν όλο τον χώρο αναζήτησης: G: το σύνολο των πιο γενικών (maximally general) υποψηφίων υποθέσεων (εννοιών) περιορίζεται μέσω εξειδικεύσεων S: το σύνολο των πιο εξειδικευμένων (maximally specific) υποψηφίων υποθέσεων (εννοιών) επεκτείνεται μέσω γενικεύσεων 9

Αρχικοποίησε: Candidate Elimination Algorithm Το G στο σύνολο όλων των υποθέσεων. Το S στο κενό σύνολο. Για κάθε δεδομένο εκπαίδευσης x: Αν το x είναι θετικό: i) Διέγραψε τα μέλη του G που δεν ικανοποιούν το x. ii) Για κάθε υπόθεση s S που δεν ικανοποιεί το x: α) Διέγραψε την s από το S. Αν το x είναι αρνητικό: β) Πρόσθεσε στο S όλες τις ελάχιστες γενικεύσεις h της s έτσι ώστε κάθε υπόθεση h να ικανοποιεί το x και να υπάρχει κάποια υπόθεση του G που να είναι πιο γενική. γ) Διέγραψε από το S όποια υπόθεση είναι πιο γενική από κάποια άλλη υπόθεση του S. i) Διέγραψε τα μέλη του S που δεν ικανοποιούν το Χ. ii) Για κάθε υπόθεση g G που δεν ικανοποιεί το x: α) Διέγραψε την g από το G. β) Πρόσθεσε στο G όλες τις ελάχιστες ειδικεύσεις h της g, έτσι ώστε κάθε υπόθεση h να ικανοποιεί το x και να υπάρχει κάποια υπόθεση του S που να είναι πιο ειδική. γ) Διέγραψε από το G όποια υπόθεση είναι πιο ειδική από κάποια άλλη υπόθεση του G. 10

Σχηματική περιγραφή αλγορίθμου Το σύνορο G συρρικνώνεται και το σύνορο S επεκτείνεται μέχρι να ταυτιστούν, όταν έχουν εξαντληθεί όλα τα παραδείγματα. 11

Παράδειγμα: Δανειοδότηση (1/2) Ζητείται μια περιγραφή της έννοιας «καλός υποψήφιος για δανειοδότηση», χρησιμοποιώντας δυο θετικά και τρία αρνητικά παραδείγματα, για τα οποία έχουν καταγραφεί τα χαρακτηριστικά: Τρέχουσες οφειλές (υψηλές, χαμηλές) Εισόδημα (υψηλό, χαμηλό) Παντρεμένος (ναι, όχι) Χαρακτηρισμός (καλός, κακός) 12

Παράδειγμα: Δανειοδότηση (2/2) 1 2 3 4 5 «Καλός υποψήφιος για δανειοδότηση»: υψηλό εισόδημα, παντρεμένος - δεν έχουν σημασία οι τρέχουσες οφειλές (σύμφωνα με τα δεδομένα εκπαίδευσης) 13

Παράδειγμα: Japanese Economy Car (1/6) Εκμάθηση της έννοιας Japanese Economy Car S = {<,,,, >} G = {<?,?,?,?,?>} 14

Παράδειγμα: Japanese Economy Car(2/6) 1: Θετικό παράδειγμα: (Japan,Honda,Blue,1980,Economy) G: (?,?,?,?,?) S: (Japan,Honda,Blue,1980,Economy) 15

Παράδειγμα: Japanese Economy Car(3/6) 2: Αρνητικό παράδειγμα: (Japan,Toyota,Green,1970,Sports) (?,?,?,?,?) (?,Honda,?,?,?) (?,?,Blue,?,?) (?,?,?,1980,?) (?,?,?,?,Economy) (Japan,Honda,Blue,1980,Economy) 16

Παράδειγμα: Japanese Economy Car(4/6) 3: Θετικό παράδειγμα: (Japan,Toyota,Blue,1990,Economy) (?,?,?,?,?) (?,Honda,?,?,?) (?,?,Blue,?,?) (?,?,?,1980,?) (?,?,?,?,Economy) (Japan,?,Blue,?,Economy) (Japan,Honda,Blue,1980,Economy) 17

Παράδειγμα: Japanese Economy Car(5/6) 4: Αρνητικό παράδειγμα: (USA,Chrysler,Red,1980,Economy) (?,?,?,?,?) (?,?,?,?,Economy) (?,?,Blue,?,?) (Japan,?,?,?,Economy) (Japan,?,Blue,?,Economy) (Japan,Honda,Blue,1980,Economy) 18

Παράδειγμα: Japanese Economy Car(6/6) 5: Θετικό παράδειγμα: (Japan,Honda,White,1980,Economy) (?,?,?,?,?) (?,?,?,?,Economy) (?,?,Blue,?,?) (Japan,?,?,?,Economy) (Japan,?,?,?,Economy) (Japan,?,Blue,?,Economy) (Japan,Honda,Blue,1980,Economy) 19

Δέντρα Ταξινόμησης / Απόφασης Τα δέντρα ταξινόμησης χρησιμοποιούνται για να προβλέψουν την τιμή μιας εξαρτημένης μεταβλητής με βάση τις τιμές των ανεξάρτητων μεταβλητών Κάθε κόμβος ορίζει συνθήκη ελέγχου της τιμής κάποιου χαρακτηριστικού Κάθε κλαδί αντιπροσωπεύει κάποια τιμή του χαρακτηριστικού Στα φύλλα υπάρχει το αποτέλεσμα Παράδειγμα: δεδομένα εταιρίας κινητής τηλεφωνίας που περιγράφουν περιπτώσεις συνδρομητών που παρέμειναν μετά το τέλος του συμβολαίου τους. 20

Κανόνες Ταξινόμησης Εναλλακτική περιγραφή των δέντρων ταξινόμησης Με χρήση μόνο AND προκύπτουν τόσοι κανόνες όσοι και τα φύλλα του δέντρου Με χρήση OR προκύπτουν τόσοι κανόνες όσες και οι διαθέσιμες κατηγορίες 21

ID3 Algorithm (1/2) Iterative Dichotomiser 3 Αλγόριθμος μάθησης δέντρων ταξινόμησης Ο ID3 κατασκευάζει άπληστα (greedy) το δέντρο ταξινόμησης από πάνω προς τα κάτω επιλέγοντας σε κάθε βήμα το πιο κατάλληλο χαρακτηριστικό για να κάνει τον διαχωρισμό. Η επιλογή βασίζεται σε στατιστικά μέτρα 1. Βρες την ανεξάρτητη μεταβλητή η οποία αν χρησιμοποιηθεί ως κριτήριο διαχωρισμού των δεδομένων εκπαίδευσης θα οδηγήσει σε κόμβους όσο το δυνατόν πιο διαφορετικούς σε σχέση με την εξαρτημένη μεταβλητή. 2. Κάνε το διαχωρισμό των δεδομένων εκπαίδευσης. 3. Επανέλαβε τη διαδικασία για κάθε έναν από τους κόμβους που προέκυψαν μέχρι να μην είναι δυνατός περαιτέρω διαχωρισμός. 22

ID3 Algorithm (2/2) Ο αλγόριθμος τερματίζει όταν οι κόμβοι γίνουν τερματικοί (φύλλα), δηλαδή: Όλα τα δεδομένα που ανήκουν στον κόμβο, ανήκουν στην ίδια κατηγορία (αμιγής κόμβος) Η κατηγορία γίνεται τιμή του κόμβου Σε κάποιο βάθος τελειώσουν τα χαρακτηριστικά προς έλεγχο Τιμή του κόμβου είναι η κατηγορία στην οποία ανήκει η πλειοψηφία των δεδομένων του κόμβου Το σημαντικότερο στοιχείο είναι η επιλογή της ανεξάρτητης μεταβλητής πάνω στην οποία βασίζεται η ανάπτυξη του δέντρου Η συνάρτηση αξιολόγησης για την επιλογή είναι το Κέρδος Πληροφορίας που βασίζεται στο μέγεθος της Εντροπίας Πληροφορίας. 23

Εντροπία Πληροφορίας Η εντροπία πληροφορίας (information entropy) είναι το μέγεθος στο οποίο βασίζεται το πιο διαδεδομένο κριτήριο διαχωρισμού. Επιλέγεται για διαχωρισμό η μεταβλητή η οποία οδηγεί σε πιο συμπαγές δέντρο. S το σύνολο των δεδομένων εκπαίδευσης στο στάδιο του διαχωρισμού p + το κλάσμα των θετικών παραδειγμάτων και p - το κλάσμα των αρνητικών παραδειγμάτων του S Η εντροπία μετράει την ανομοιογένεια που υπάρχει στο S αναφορικά με την υπό εξέταση εξαρτημένη μεταβλητή Για c διαφορετικές κατηγορίες η εντροπία ορίζεται ως: 24

Κέρδος Πληροφορίας Ως κριτήριο διαχωρισμού χρησιμοποιείται το κέρδος πληροφορίας (information gain) - Gain(S,A) Αναπαριστά τη μείωση της εντροπίας του συνόλου εκπαίδευσης S αν επιλεγεί ως παράμετρος διαχωρισμού η μεταβλητή Α Όταν μειώνεται η εντροπία, αυξάνεται η ομοιογένεια της πληροφορίας Ε(S) είναι η εντροπία της πληροφορίας του υπό εξέταση κόμβου Α ανεξάρτητη μεταβλητή με τιμές Values(A) με βάση την οποία επιχειρείται ο διαχωρισμός u μία από τις δυνατές τιμές της A S u το πλήθος των εγγραφών με A=u Ε(S u ) η εντροπία της πληροφορίας του υπό εξέταση κόμβου ως προς την τιμή Α=u 25

Παράδειγμα: Δανειοδότηση (1/2) Υπολογισμός του G(S=5, Εισόδημα) E(S) = 2/5 * log 2 (2/5) 3/5 * log 2 (3/5) = 0.97 A = Εισόδημα u {Υψηλό, Χαμηλό} Ε(Εισόδημα=Υψηλό) = 2/3 * log 2 (2/3) 1/3 * log 2 (1/3) = 0.92 Ε(Εισόδημα=Χαμηλό) = 0/2 * 0 2/2 * log 2 (2/2) = 0.00 G(S,Εισόδημα) = 0.97 (3/5*0.92 + 2/5*0) = 0.42 26

Παράδειγμα: Δανειοδότηση (2/2) Όμοια υπολογίζονται τα G(S, Χρέος), G(S, Παντρεμένος) Επιλέγεται για διαχωρισμό η μεταβλητή Εισόδημα, καθώς αυτή δίνει το μεγαλύτερο κέρδος πληροφορίας. Σε κάθε κύκλο του αλγορίθμου τα μεγέθη επαναϋπολογίζονται για τον πληθυσμό των S των δεδομένων εκπαίδευσης που ανήκουν στον υπό εξέταση κόμβο. Επιλέγεται κάθε φορά η μεταβλητή διαχωρισμού που δίνει για κάθε κόμβο το μεγαλύτερο κέρδος 27

ID3 - Σχόλια Αλγόριθμος αναρρίχησης λόφων: σε κάθε βήμα επεκτείνει το δέντρο με τον τοπικά καλύτερο τρόπο. Συνήθως τα δέντρα που παράγονται δεν είναι αμιγή, ειδικά αν υπάρχουν συγκρουόμενα δεδομένα εκπαίδευσης (θόρυβος) τεχνικές κλαδέματος Τα αμιγή δέντρα πολλές φορές δεν είναι επιθυμητά overfitting Ο ID3 μπορεί να διαχειριστεί μεταβλητές με πολλές τιμές αλλά απαιτεί διακριτές τιμές για συνεχείς τιμές πρέπει οριστούν κατηγορίες, κάτι που εισάγει υποκειμενικότητα Απαιτεί όλα τα δεδομένα εκπαίδευσης να είναι διαθέσιμα από την αρχή. 28

Μάθηση Κατά Περίπτωση Στη μάθηση κατά περίπτωση (instance-based learning) τα δεδομένα εκπαίδευσης διατηρούνται αυτούσια, αντί να κατασκευαστεί κάποιο είδος μοντέλου. Όταν το σύστημα καλείται να αποφασίσει την κατηγορία στην οποία ανήκει μια νέα περίπτωση, εξετάζει τη σχέση της με τα ήδη αποθηκευμένα παραδείγματα. Αλγόριθμος k-κοντινότερων γειτόνων (k-nearest Neighbours) Τα παραδείγματα αναπαρίστανται ως σημεία σε n-διάστατο Ευκλείδιο χώρο, όπου n ο αριθμός των χαρακτηριστικών Κάθε νέα περίπτωση τοποθετείται σε αυτόν τον χώρο ως σημείο Η τιμή της εξαρτημένης μεταβλητής προσδιορίζεται με βάση την τιμή των k κοντινότερων γειτόνων Οι κοντινότεροι γείτονες υπολογίζονται με βάση την ευκλείδια απόσταση 29

Μάθηση κατά περίπτωση Παράδειγμα Η νέα περίπτωση χαρακτηρίζεται ως θετική, αν ληφθεί υπόψη μόνο ο πλησιέστερος γείτονας (1-Nearest Neighbour) και ως αρνητική αν ληφθούν υπόψη οι 5 (5-Nearest Neighbours) 30

Μάθηση χωρίς Επίβλεψη Το σύστημα καλείται να ανακαλύψει συσχετίσεις και ομάδες από τα δεδομένα εκπαίδευσης, βασισμένο στις ιδιότητές τους. Δεν παράγεται γενικό μοντέλο, αλλά πρότυπα που περιγράφουν ένα μέρος από τα δεδομένα Διαδεδομένες τεχνικές: Κανόνες συσχέτισης (Association Rules) Ομαδοποίηση (Clustering) 31

Κανόνες συσχέτισης Εφαρμογή στην περιοχή των βάσεων δεδομένων Προτάθηκε ως τεχνική ανάλυσης «καλαθιού αγορών» (market basket analysis) Υπάρχει ένας μεγάλος αριθμός αντικειμένων (items), π.χ. γάλα, ψωμί κτλ. Οι πελάτες γεμίζουν τα καλάθια τους με κάποιο υποσύνολο των αντικειμένων και το ζητούμενο είναι να βρεθεί ποια από αυτά τα αντικείμενα αγοράζονται μαζί, χωρίς να ενδιαφέρει ποιος είναι ο αγοραστής. Οι κανόνες συσχέτισης που παράγονται είναι της μορφής {Χ 1, Χ 2,..., Χ n } Y που ερμηνεύεται ως «αν κάποιος έχει αγοράσει τα X 1 έως Χ n, υπάρχει μεγάλη πιθανότητα να αγοράσει και το Υ. Ο κανόνας συνοδεύεται από ποσοτικά μεγέθη ποιότητας (υποστήριξη, εμπιστοσύνη) 32

Υποστήριξη και Εμπιστοσύνη Υποστήριξη (support) ή κάλυψη (coverage) Εκφράζει την πιθανότητα να βρεθεί το καλάθι {Χ 1, Χ 2,..., Χ n, Y} στη βάση δεδομένων και υπολογίζεται ως ο λόγος των εγγραφών που περιλαμβάνουν το συγκεκριμένο καλάθι προς το σύνολο όλων των εγγραφών Καθορίζει πόσο σημαντικό (συχνό) είναι το πρότυπο που εντοπίστηκε Εμπιστοσύνη (confidence) ή ακρίβεια (accuracy): Εκφράζει την πιθανότητα να βρεθεί το Y σε ένα καλάθι που περιέχει τα {Χ 1, Χ 2,..., Χ n } και ισούται με τον λόγο των εγγραφών που περιλαμβάνουν το {Χ 1, Χ 2,..., Χ n, Y} προς το σύνολο των εγγραφών που περιέχουν τα {Χ 1, Χ 2,..., Χ n }. Καθορίζει πόσο ισχυρό είναι το πρότυπο που εντοπίστηκε Για να εξασφαλιστεί η ποιότητα των κανόνων συσχέτισης, ορίζονται ελάχιστα κατώφλια (thresholds) τόσο για την υποστήριξη όσο και για την εμπιστοσύνη. 33

Αλγόριθμος Apriori Βασικά βήματα: Δημιουργία συχνών συνόλων αντικειμένων Αρχικά δημιουργείται ένα σύνολο υποψήφιων συχνών αντικειμένων Ci και στη συνέχεια, χρησιμοποιώντας το όριο υποστήριξης, βρίσκονται ανάμεσά τους τα συχνά σύνολα αντικειμένων (σύνολο Li) Η διαδικασία επαναλαμβάνεται με διαδοχικά περάσματα μέχρι να βρεθούν συχνά σύνολα ενός προκαθορισμένου επιπέδου ή τα μέγιστα συχνά σύνολα. Δημιουργία κανόνων συσχέτισης Ελέγχεται η εμπιστοσύνη όλων των πιθανών κανόνων που προκύπτουν από τα μέγιστα συχνά σύνολα και απορρίπτονται όσοι δεν υπερβαίνουν το όριο εμπιστοσύνης 34

Δημιουργία συχνών συνόλων αντικειμένων Έστω ότι το όριο υποστήριξης είναι sup. Πέρασμα 1: Βρίσκονται τα αντικείμενα που εμφανίζονται στη βάση σε ποσοστό μεγαλύτερο ή ίσο του sup (frequent 1-itemset L1) Πέρασμα 2: Δημιουργούνται όλα τα δυνατά ζεύγη αντικειμένων του L1 και βρίσκονται ανάμεσα σε αυτά όσα εμφανίζονται στη βάση σε ποσοστό μεγαλύτερο ή ίσο του sup (frequent 2-itemset L2) Πέρασμα 3: Από το L2 δημιουργούνται όλες οι υποψήφιες τριάδες αντικειμένων. Οι υποψήφιες τριάδες είναι σύνολα αντικειμένων {A,B,C} τέτοια ώστε όλα τα υποσύνολά τους {A,B}, {B,C}, {A,C} να περιέχονται στο L2. Βρίσκονται οι τριάδες που εμφανίζονται στη βάση σε ποσοστό μεγαλύτερο ή ίσο του sup (frequent 3-itemset L3) Η διαδικασία εφαρμόζεται διαδοχικά για προκαθορισμένο αριθμό επιπέδων ή μέχρι να δημιουργηθούν τα μέγιστα συχνά σύνολα αντικειμένων 35

Apriori Παράδειγμα (1/3) Σύνολο δεδομένων καλαθιών supermarket. 1: ο συγκεκριμένος πελάτης έχει αγοράσει το προϊόν, 0: δεν το έχει αγοράσει Support threshold: sup = 40% Confidence threshold: conf = 80% 36

Apriori Παράδειγμα (2/3) Υπολογίζεται η υποστήριξη όλων των αντικειμένων: S({Ψωμί}) = 7/10 = 70% sup S({Καφές}) = 5/10 = 50% sup S({Γάλα}) = 6/10 = 60% sup S({Ζάχαρη}) = 7/10 = 70% sup L1 = {Ψωμί, Καφές, Γάλα, Ζάχαρη} Παράγονται όλοι οι δυνατοί συνδυασμοί: {{Ψωμί,Καφές}, {Ψωμί,Γάλα}, {Ψωμί,Ζάχαρη}, {Καφές,Γάλα}, {Καφές,Ζάχαρη}, {Γάλα,Ζάχαρη}} Υπολογίζεται το support κάθε στοιχείου του παραπάνω συνόλου S({Ψωμί,Καφές}) = 3/10 = 30% sup S({Ψωμί,Γάλα}) = 5/10 = 50% sup... L2 = {{Ψωμί,Γάλα}, {Ψωμί,Ζάχαρη}, {Γάλα,Ζάχαρη}} 37

Apriori Παράδειγμα (3/3) Από το L2 δημιουργούνται οι υποψήφιες τριάδες, τέτοιες ώστε τα υποσύνολά τους να ανήκουν στο L2: {{Ψωμί,Γάλα,Ζάχαρη}} Υπολογίζεται το support: S({Ψωμί,Γάλα,Ζάχαρη}) = 3/10 = 30% sup L3 = {} Ο αλγόριθμος τερματίζει και το μέγιστο συχνό σύνολο αντικειμένων είναι το L2 Ελέγχεται η εμπιστοσύνη όλων των πιθανών κανόνων που μπορεί να προκύψουν από το L2: {Ψωμί,Γάλα} Ψωμί Γάλα: 5/7 = 71% conf Γάλα Ψωμί: 5/6 = 83% conf {Ψωμί,Ζάχαρη} Ψωμί Ζάχαρη: 5/7 = 71% conf Ζάχαρη Ψωμί: 5/7 = 71% conf {Γάλα,Ζάχαρη} Γάλα Ζάχαρη: 4/6 = 66% conf Ζάχαρη Γάλα: 4/7 = 57% conf Τελικά παράγεται μόνο ο κανόνας Γάλα Ψωμί 38

Ομαδοποίηση Ένα σύνολο πολυδιάστατων δεδομένων διαχωρίζεται σε ομάδες έτσι ώστε: Σημεία που ανήκουν στην ίδια ομάδα να μοιάζουν όσο το δυνατόν περισσότερο Σημεία που ανήκουν σε διαφορετικές ομάδες να διαφέρουν όσο το δυνατόν περισσότερο Παράδειγμα: αγοραστές σπορ αυτοκινήτων: νεαρής ηλικίας ανεξαρτήτως φύλλου άντρες με υψηλό εισόδημα μέχρι 53 ετών άντρες περίπου 44 ετών ανεξαρτήτως εισοδήματος 39

Αλγόριθμοι Ομαδοποίησης Βασισμένοι σε διαχωρισμούς (Partition-based) Ιεραρχικοί (Hierarchical) Πιθανοτικοί (Probabilistic) Απαιτείται κάποιο μέτρο ομοιότητας / διαφοράς μεταξύ των δεδομένων Συνήθως υπολογίζεται η «απόσταση» Τυπικά μέτρα απόστασης για ένα σύνολο δεδομένων D και δύο δεδομένα του x = (x 1,x 2,,x m ) και y=(y 1,y 2,,y m ) Τα διακριτά χαρακτηριστικά έχουν απόσταση 0 αν ταυτίζονται και 1 αν διαφέρουν Τα αριθμητικά χαρακτηριστικά κανονικοποιούνται στο [0,1] 40

Κ-means Algorithm Ο αλγόριθμος των Κ-μέσων Ο αριθμός των ομάδων K καθορίζεται εκ των προτέρων Ο αλγόριθμος αρχικά διαλέγει Κ τυχαία σημεία ως κέντρα των ομάδων Στη συνέχεια αναθέτει κάθε νέο σημείο στην ομάδα από της οποίας το κέντρο απέχει λιγότερο Υπολογίζει για κάθε ομάδα το μέσο διάνυσμα όλων των σημείων της και αυτό είναι το νέο κέντρο Επανάληψη για προκαθορισμένο αριθμό βημάτων ή μέχρι να μην υπάρχει αλλαγή στα κέντρα των ομάδων 41

Κ-means Algorithm Είσοδος: Σύνολο δεδομένων D = {x 1, x 2,, x n } Αριθμός ομάδων k Έξοδος: Ομάδες C i Για i=1,2,,k: Θεώρησε m i ως ένα τυχαίο σημείο από το D Όσο υπάρχουν αλλαγές στις ομάδες C i κάνε: Για i=1,2,,k: C i = {x D d(m i,x) d(m j,x) για όλα τα j=1,2,,k j k} Για i=1,2,,k: m i = το μέσο διάνυσμα των σημείων που ανήκουν στην ομάδα C i 42

Κ-means Algorithm - Παράδειγμα k=2 για τα 7 σημεία 1. Επιλέγονται τυχαία τα σημεία 3 και 4 ως κέντρα 2. Τα υπόλοιπα σημεία ανατίθενται στις ομάδες 3. Υπολογίζονται τα νέα κέντρα 4. Επαναλαμβάνεται ο κύκλος υπολογισμών με τα νέα κέντρα 5. Το σημείο 2 αλλάζει ομάδα 6. Υπολογίζονται τα νέα κέντρα 7. Δεν συντελείται καμία μεταβολή και ο αλγόριθμος τερματίζει 43

Αλγόριθμοι Ιεραρχικής Ομαδοποίησης Συνδυάζουν ομάδες σε μεγαλύτερες ομάδες (συγχώνευσης, agglomerative) ή αντίστοιχα διασπούν μεγαλύτερες ομάδες σε μικρότερες (διαίρεσης, divisive) Δίνουν ως αποτέλεσμα μια ιεραρχία από διαφορετικές ομαδοποιήσεις στην οποία στο ένα άκρο βρίσκονται τόσες ομάδες όσες και το πλήθος των δεδομένων, και στο άλλο άκρο μόνο μία ομάδα Πιο διαδεδομένη η συγχώνευση Βασίζεται σε μετρικές αποστάσεις μεταξύ ομάδων Βρίσκουν τις δυο κοντινότερες ομάδες και τις συγχωνεύουν Επανάληψη μέχρι να προκύψει μόνο μία ομάδα 44

Γενικός Αλγόριθμος Ομαδοποίσης (Συγχώνευσης) Είσοδος: Σύνολο δεδομένων D = {x 1, x 2,, x n } Συνάρτηση d(c i,c j ) απόστασης ομάδων C i, C j Έξοδος: Ομάδες C i Για i=1,2,,k: Θεώρησε C i = {x i } Όσο ο αριθμός των ομάδων είναι μεγαλύτερος από 1 κάνε: Υπολόγισε την απόσταση μεταξύ όλων των ομάδων ανά δύο C i = C i C j, όπου C i και C j οι δυο πιο κοντινές ομάδες Αφαίρεσε την ομάδα C j από το σύνολο των ομάδων 45

Αλγόριθμοι Ιεραρχικής Ομαδοποίησης - Δενδρόγραμμα 46

Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων Knowledge Discovery in Databases KDD Σύνθετη διαδικασία με στόχο τον προσδιορισμό έγκυρων, νέων, χρήσιμων και κατανοητών σχέσεων / προτύπων σε δεδομένα Μηχανική Μάθηση & Στατιστική Περιλαμβάνει Επεξεργασία των δεδομένων Εφαρμογή αλγορίθμων ανακάλυψης γνώσης Ερμηνεία αποτελεσμάτων 47

Διαφορές με κλασικές τεχνικές μηχανικής μάθησης Στη μηχανική μάθηση τα δεδομένα είναι κατά κανόνα λιγότερα Στη μηχανική μάθηση τα δεδομένα είναι επιλεγμένα για τον συγκεκριμένο σκοπό Οι βάσεις δεδομένων έχουν σχεδιαστεί για διαφορετικό σκοπό Στις βάσεις δεδομένων οργανώνουν πολύ μεγάλο όγκο δεδομένων Ελλιπή δεδομένα Θόρυβος Η δημιουργία όλων των δυνατών μοντέλων / προτύπων είναι υπολογιστικά αδύνατη Αντιμετωπίζεται ως πρόβλημα αναζήτησης (εύρεση της καλύτερης περιγραφής από το σύνολο όλων των δυνατών περιγραφών) 48

Στάδια Ανακάλυψης Γνώσης 49

Επιλογή Δημιουργείται το σύνολο δεδομένων πάνω στο οποίο θα εφαρμοστούν οι αλγόριθμοι ανακάλυψης γνώσης Τα δεδομένα είναι οργανωμένα για άλλη χρήση σε πίνακες, οι αλγόριθμοι δεν μπορούν να εφαρμοστούν απευθείας Εξάγονται τα επιλεγμένα δεδομένα και οργανώνονται σε απλούστερες δομές Data warehouses, views 50

Προεπεξεργασία Data Cleaning Αντιμετωπίζονται περιπτώσεις ελλιπών δεδομένων άδεια πεδία σε εγγραφές τιμές που τα καθιστούν κενά π.χ. «Άγνωστο» θόρυβος 51

Μετασχηματισμός Τα δεδομένα μετασχηματίζονται ώστε να διευκολύνουν την ανακάλυψη γνώσης Ομοιόμορφη κωδικοποίηση της ποιοτικά ίδιας πληροφορίας π.χ. ενοποίηση πεδίου salary και πεδίου payment Μείωση του αριθμού των υπό εξέταση χαρακτηριστικών (dimensionality reduction, feature selection) (στοχεύει στη βελτίωση της απόδοσης των αλγορίθμων) π.χ. ονόματα Διακριτοποίηση (discretization): μετασχηματισμός ενός χαρακτηριστικού που παίρνει συνεχείς αριθμητικές τιμές σε πεπερασμένο σύνολο διακριτών διαστημάτων 52

Επιλογή αλγόριθμου και εφαρμογή του Καθορίζεται το είδος της γνώσης που θα αναζητηθεί Στη συνέχεια με βάση αυτό καθορίζεται και η κατηγορία αλγορίθμου που θα χρησιμοποιηθεί Εφαρμογή αλγορίθμου: εξόρυξη σε δεδομένα (data mining) Είδη γνώσης: Μοντέλα πρόβλεψης (predictive models) Πρότυπα πληροφόρησης (informative patterns) 53

Ερμηνεία και αξιολόγηση Ερμηνεία (interpretation) και αξιολόγηση (evaluation) της παραγόμενης γνώσης, συχνά οπτικοποίηση (visualization) Η γνώση που παράγεται μπορεί να χρησιμοποιηθεί σε ένα σύστημα γνώσης (επίλυση συγκρούσεων)\ Πιθανή επανάληψη της διαδικασίας 54

Προβλήματα στην Ανακάλυψη Γνώσης Ακατάλληλα δεδομένα: οι βάσεις δεδομένων δεν είναι σχεδιασμένες για ανακάλυψη γνώσης, μπορεί να λείπουν σημαντικά πεδία Ελλιπή δεδομένα: η τιμές κάποιων πεδίων απουσιάζουν, απαιτούν ειδικό χειρισμό (απόρριψη πεδίων / εγγραφών, προσεγγιστικός υπολογισμός τιμής κτλ) Θόρυβος: λάθη στην βάση, υποκειμενικές κρίσεις ή μετρήσεις κτλ Αραιά δεδομένα: τα διαθέσιμα δεδομένα καλύπτουν μικρό ποσοστό του χώρου αναζήτησης Μέγεθος βάσης δεδομένων: χρονοβόρα εκτέλεση αλγορίθμων, δημιουργία πολύπλοκων περιγραφών Δείγματα: το δείγμα που θα ληφθεί πρέπει να είναι αντιπροσωπευτικό, εφαρμογή στατιστικών τεχνικών Πρόσφατα δεδομένα: σε δυναμικές βάσεις δεδομένων, πότε η γνώση είναι outdated; - έλεγχος εγκυρότητας, ανάγκη αλγορίθμων σταδιακής εξόρυξης 55

Ενδεικτική Βιβλιογραφία Κεφάλαια 18 και 20 του βιβλίου «Τεχνητή Νοημοσύνη», Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας και Η. Σακελλαρίου. 56