Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση



Σχετικά έγγραφα
ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη01Εισαγωγή

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Εξόρυξη Γνώσης - το εργαλείο WEKA

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ι. Preprocessing (Επεξεργασία train.arff):

Τεχνικές Εξόρυξης Δεδομένων

Ευφυής Προγραμματισμός

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

Έρευνα Μάρκετινγκ Ενότητα 5

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Μεθοδολογίες Αξιοποίησης Δεδομένων

Τι είναι πληροφοριακό σύστημα

Αναγνώριση Προτύπων Ι

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Αποθήκες και Εξόρυξη Δεδομένων

Πληροφοριακά Συστήματα Διοίκησης. Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού

Συστήματα Πληροφοριών Διοίκησης

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Διακριτικές Συναρτήσεις

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Περιεχόμενα. Πρόλογος... 15

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Δέντρα Απόφασης (Decision(

Εξόρυξη Γνώσης από Δεδομένα

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

Εισαγωγή στα Πληροφοριακά Συστήματα

Βιοστατιστική ΒΙΟ-309

Εισόδημα Κατανάλωση

Διδάσκουσα: Χάλκου Χαρά,

Σχεδίαση της Διεπαφής Ανθρώπου-Υπολογιστή

Συνοπτικά περιεχόμενα

Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων -

Στοιχεία εισηγητή Ημερομηνία: 10/10/2017

ΑΚΑΔΗΜΙΑ ΤΩΝ ΠΟΛΙΤΩΝ

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Αποθήκες και Εξόρυξη Δεδομένων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΠΡΟΛΟΓΟΣ ΕΛΛΗΝΙΚΗΣ ΕΚΔΟΣΗΣ ΕΙΣΑΓΩΓΗ... 17

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αρχιτεκτονική Λογισμικού

Ελεγχος, Αξιοπιστία και Διασφάλιση Ποιότητας Λογισµικού Πολυπλοκότητα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Θεμελιώδεις αρχές επιστήμης και μέθοδοι έρευνας

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

Αλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα

ΕΠΛ 003.3: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Για οικονομολόγους

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ζητήματα ηήμ με τα δεδομένα

Υπερπροσαρμογή (Overfitting) (1)

Αποθήκες και Εξόρυξη Δεδομένων

Βιοστατιστική ΒΙΟ-309

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

HMY 795: Αναγνώριση Προτύπων

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης

Ευφυής Προγραμματισμός

ΕΠΑΛΗΘΕΥΣΗ (VERIFICATION) ΚΑΙ ΕΓΚΥΡΟΠΟΙΗΣΗ (VALIDATION) ΒΚ

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΑΝΑΛΥΣΗ ΠΡΟΤΙΜΗΣΕΩΝ ΓΙΑ ΤΗ ΧΡΗΣΗ ΣΥΣΤΗΜΑΤΟΣ ΕΝΟΙΚΙΑΖΟΜΕΝΩΝ ΠΟΔΗΛΑΤΩΝ ΣΤΟΝ ΔΗΜΟ ΑΘΗΝΑΙΩΝ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΕΠΛ 003.1: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Για διοικητικά στελέχη

ΕΠΙΔΡΩΝΤΕΣ ΠΑΡΑΓΟΝΤΕΣ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ ΜΑΡΚΕΤΙΝΓΚ

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Transcript:

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Η πληροφορία στη σύγχρονη επιχείρηση Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Πέραν του ανθρώπινου δυναμικού, η πληροφορία αποτελεί τον πλέον πολύτιμο πόρο της σύγχρονης επιχείρησης Συνιστά επομένως καθοριστικό παράγοντα για την επίτευξη των επιχειρησιακών στόχων Διαχείριση γνώσης (knowledge management): η εκμετάλλευση και ανάπτυξη των γνωστικών κεφαλαίων μίας επιχείρησης με αντικείμενο την προαγωγή των αντικειμενικών της επιδιώξεων Τα πληροφοριακά συστήματα ERP ανταποκρίνονται στην απαίτηση συλλογής και επεξεργασίας των επιχειρησιακών δεδομένων Data warehouses 2

Τα επιχειρησιακά δεδομένα αφθονούν Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Cost Data Storage Communication of Data 1990 Time 2010 Data per day generated and collected (implicit) The data gap understood (explicit) 1990 Time 2010 Malthus Law of Information: Το νέο πληροφοριακό περιεχόμενο διπλασιάζεται κάθε χρόνο Ο χρόνος που δαπανάται για την κατανάλωση πληροφοριών παραμένει σταθερός 3

Τα δεδομένα αφθονούν Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Μόνο ένα μικρό ποσοστό (5 10%) των συλλεγόμενων δεδομένων τυγχάνει ανάλυσης Μία τυπική επιχειρησιακή βάση δεδομένων σήμερα περιέχει συχνά μεγάλο αριθμό εγγραφών (10 8 10 12 ) δεδομένων πολλών διαστάσεων (10 10 4 μεταβλητές) Τελικά: We are drowning in data, but starving for knowledge! Πώς μπορούν να εξερευνηθούν εκατομμύρια εγγραφών εκατοντάδων μεταβλητών, ώστε να ανακαλυφθούν πρότυπα (patterns)? 4

Από τα δεδομένα στην πληροφορία και τη γνώση Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα 5

Ορισμός Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Data mining: όρος που χρησιμοποιείται λανθασμένα για να περιγράψει το σύνολο της διαδικασίας εξόρυξης γνώσης από βάσεις δεδομένων (Knowledge Discovery in Databases) Ορισμός: The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. Εναλλακτικά: Statistics at scale, speed and simplicity. Στο εξής, ορίζουμε: Εξόρυξη Πληροφορίας / Γνώσης από Δεδομένα Data Mining 6

Αφετηρία Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Data Artificial Intelligence Statistics & Machine Mining Learning Databases & Data Warehouses Το ερευνητικό πεδίο αποτελεί τομή μεθόδων και εργαλείων που πηγάζουν από Στατιστική Μηχανική Μάθηση Βάσεις & αποθήκες δεδομένων Αποτελεί σύγχρονη εξέλιξη, το πρώτο σχετικό συνέδριο πραγματοποιήθηκε το 1995. Πειραματική επιστήμη! 7

Πρότυπα Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Επομένως αναζητούνται αλγόριθμοι εντοπισμού προτύπων (patterns) και κανονικοτήτων σε δεδομένα Περιγραφή προτύπων Μαύρο κουτί: μη κατανοητοί μηχανισμοί Διαφανές κουτί: αποκαλύπτει τη δομή του προτύπου δομική περιγραφή Οι δομικές (structural) περιγραφές αναπαριστούν τα πρότυπα με σαφώς ορισμένο (ρητό, explicit) τρόπο, με σκοπό την Πρόβλεψη Κατανόηση και επεξήγηση μοντέλου πρόβλεψης 8

Case study: VISA VISA American Express Softmap Walmart Victoria Secret Απάτη κατά τη χρήση πιστωτικών καρτών 0,93% σε off line συναλλαγές 1,97% σε on line Κλασσικές στατιστικές μέθοδοι: 97 λανθασμένοι συναγερμοί για κάθε αληθή Ανάλυση δεδομένων συμπεριφοράς με τεχνικές μηχανικής μάθησης μείωση της αναλογίας λανθασμένων συναγερμών στους 10 ανά αληθή ελάττωση περιστατικών απάτης από 1576 σε 478, σε δείγμα 7 ευρωπαϊκών τραπεζών 9

Case study: American Express VISA American Express Softmap Walmart Victoria Secret Πρόβλημα: Παροχή δανείου Ερωτηματολόγιο για σχετικές οικονομικές και προσωπικές πληροφορίες Αποδοχή / απόρριψη αίτησης δανειοδότησης Συνήθεις στατιστικές τεχνικές καλύπτουν αποτελεσματικά το 90% των περιπτώσεων Οι υπόλοιπες ασαφείς περιπτώσεις αξιολογούνται από ειδικούς Ωστόσο το 50% των αποδεκτών ασαφών περιπτώσεων δεν αποπληρώνουν 1000 παραδείγματα εκπαίδευσης ασαφών περιπτώσεων 20 χαρακτηριστικά (ηλικία, οικογενειακή κατάσταση, διάρκεια εργασίας υπό τον ίδιο εργοδότη, άλλα δάνεια ) Οι κανόνες που προέκυψαν αποδείχθηκαν σωστοί στο 70% των περιπτώσεων 10

Case study: Softmap VISA American Express Softmap Walmart Victoria Secret Κορυφαία εταιρεία πωλήσεων PC & software στην Ιαπωνία Οι on line πωλήσεις εμφάνισαν συνεχή μείωση Αδυναμία προσαρμογής στις ειδικές ανάγκες του πελάτη; Ανάλυση χαρακτηριστικών 2 εκ. παλαιών πελατών & ανάπτυξη διαδικτυακού συστήματος υποβολής πρότασης μετά από ερωτηματολόγιο αύξηση επισκεψιμότητας ιστοσελίδας 67% τριπλασιασμός εσόδων ιστοσελίδας το έτος εισαγωγής του συστήματος 11

Case study: Walmart VISA American Express Softmap Walmart Victoria Secret Τεράστια βάση δεδομένων αγοραστικής συμπεριφοράς Η ανάλυση με μεθόδους μηχανικής μάθησης ανέδειξε συμπεράσματα της μορφής Οι πελάτες που αγοράζουν μπύρα συχνά προμηθεύονται και πίτσα Κάθε Πέμπτη, οι πελάτες που αγοράζουν μπύρα αγοράζουν επίσης πάνες Τέτοιες πληροφορίες έχουν δυνητικά μεγάλη προστιθέμενη αξία Αναδιάταξη προϊόντων, Διαχείριση αποθεμάτων Συνήθης εφαρμογή: Τα δεδομένα που αποκτώνται μέσω προσωπικών εκπτωτικών καρτών είναι συχνά μεγαλύτερης αξίας από την παρεχόμενη έκπτωση 12

Case study: Victoria Secret VISA American Express Softmap Walmart Victoria Secret Direct Marketing: Oι προσφορές προώθησης προϊόντος είναι συχνά κοστοβόρες και έχουν ένα πολύ χαμηλό αλλά ιδιαίτερα προσοδοφόρο ποσοστό απόκρισης Victoria Secret: φθίνουσα πορεία εσόδων από ταχυδρομική αποστολή καταλόγου Μετά από την ανάλυση δημογραφικών δεδομένων των πελατών της, η στόχευση εστιάστηκε σε διαφοροποιημένο υποσύνολο πελατών και προϊόντων Η πορεία των εσόδων αντιστράφηκε, ενώ παράλληλα το κόστος αποστολής μειώθηκε κατά 15% 13

Η μορφή των δεδομένων και η σημασία της Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Δεδομένα input Αλγόριθμοι Εξόρυξης Πληροφορίας Εξαγόμενα output Η κατανόηση της μορφής των δεδομένων και εξαγόμενων είναι ίσως περισσότερο σημαντική από τα ενδιάμεσα βήματα σε έναν αλγόριθμο εξόρυξης πληροφορίας 14

Συνιστώσες, Ορολογία Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Αντίληψη (concept): το αντικείμενο της μάθησης Στόχος: εύρεση κατανοητής και λειτουργικής περιγραφής ενός concept Υπόδειγμα (instance): το ξεχωριστό και ανεξάρτητο παράδειγμα (example) ενός concept Σημείωση: Περισσότερο σύνθετα σχήματα εισόδου είναι πιθανά Χαρακτηριστικό (attribute): η μετρήσιμη συνιστώσα ενός υποδείγματος Θα εστιάσουμε σε ονομαστικές και αριθμητικές συνιστώσες 15

Συνιστώσες, Παράδειγμα attributes Outlook Sunny Temperature 85 Humidity 85 Windy False Play No Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό instances Sunny Overcast Rainy 80 83 75 90 86 80 True False False No Yes Yes Προπαρασκευή concept description: If outlook = sunny and humidity = high then play = no 16

Concept (Αντίληψη) Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Είδη μάθησης: Ταξινόμηση (classification): πρόβλεψη διακριτής κατηγορίας Συσχέτιση (association): εντοπισμός συσχετίσεων μεταξύ χαρακτηριστικών Ομαδοποίηση (clustering): ανάδειξη ομάδων όμοιων υποδειγμάτων Αριθμητική πρόβλεψη (numeric prediction): πρόβλεψη αριθμητικής ποσότητας Concept (αντίληψη): το αντικείμενο της μάθησης Περιγραφή αντίληψης (concept description): το προϊόν / σχήμα της μαθησιακής διαδικασίας 17

Ταξινόμηση (Classification) Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Ταξινόμηση υποδείγματος σε προκαθορισμένη τάξη (class) Για παράδειγμα: play/no play Μάθηση με επίβλεψη (supervised) Οι ομάδες ταξινόμησης είναι εκ των προτέρων γνωστές Το πραγματικό αποτέλεσμα κάθε υποδείγματος είναι επίσης γνωστό Ο βαθμός αξιοπιστίας μετριέται σε μη χρησιμοποιημένα για τη διαμόρφωση του concept description δεδομένα (test data) είτε υποκειμενικά, ανάλογα με το βαθμό αποδοχής της περιγραφής 18

Συσχέτιση (Association) Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Ανακάλυψη συσχετίσεων μεταξύ των διάφορων χαρακτηριστικών Διαφορές με τη μάθηση ταξινόμησης: Μπορεί να αναδείξουν τη συσχέτιση είτε να προβλέψουν την τιμή οποιουδήποτε χαρακτηριστικού και όχι μόνο της τάξης Συνδέουν πιθανόν περισσότερα από ένα χαρακτηριστικά κάθε φορά Επομένως, προκύπτουν πολλοί περισσότεροι κανόνες συσχέτισης από ότι κανόνες ταξινόμησης Άρα περιορισμοί κατά την αναζήτηση είναι αναγκαίοι, όπως ελάχιστη κάλυψη & ελάχιστη ακρίβεια 19

Ομαδοποίηση (Clustering) Εύρεση ομάδων αντικειμένων με υψηλό βαθμό ομοιότητας και εκχώρηση υποδειγμάτων στις ομάδες αυτές Χωρίς επίβλεψη (unsupervised) η τάξη του υποδείγματος δεν ανήκει σε γνωστό σύνολο Iris virginica 1.9 5.1 2.7 5.8 102 101 52 51 2 1 Iris virginica 2.5 6.0 3.3 6.3 Iris versicolor 1.5 4.5 3.2 6.4 Iris versicolor 1.4 4.7 3.2 7.0 Iris setosa 0.2 1.4 3.0 4.9 Iris setosa 0.2 1.4 3.5 5.1 Type Petal width Petal length Sepal width Sepal length 20 Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή

Αριθμητική πρόβλεψη (Numeric prediction) Όμοια με ταξινόμηση, αλλά τώρα η τάξη είναι αριθμητική Μάθηση με επίβλεψη (supervised) Η τιμή στόχος κάθε υποδείγματος είναι εκ των προτέρων γνωστή 40 False Normal Mild Rainy 55 False High Hot Overcast 0 True High Hot Sunny 5 False High Hot Sunny Play time Windy Humidity Temperature Outlook 21 Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή

Παράδειγμα (example) Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Υπόδειγμα (instance): ειδικός τύπος παραδείγματος Προς ταξινόμηση, συσχέτιση ή ομαδοποίηση Ιδιαίτερο & ανεξάρτητο παράδειγμα της αντίληψης προς εκμάθηση Χαρακτηρίζεται από προκαθορισμένο σύνολο χαρακτηριστικών Συνήθης μορφή δεδομένων προς εξόρυξη γνώσης: σύνολο υποδειγμάτων (dataset) Πίνακας υποδειγμάτων (instances) χαρακτηριστικών (attributes) (επίπεδο αρχείο, flat file) Μάλλον περιοριστική μορφή δεδομένων (καμία συσχέτιση μεταξύ των αντικειμένων) 22

Χαρακτηριστικό (attribute) Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Κάθε παράδειγμα αποτελείται από προκαθορισμένο σύνολο στοιχείων, τα οποία καλούνται χαρακτηριστικά (attributes) Στην πράξη, ο αριθμός των χαρακτηριστικών μπορεί να ποικίλει Επίσης, η ύπαρξη ενός χαρακτηριστικού μπορεί να εξαρτάται από την τιμή ενός άλλου Πιθανοί τύποι χαρακτηριστικών ( levels of measurement ): Ονομαστικά (nominal), τακτικά (ordinal), περιοδικά (interval) και αναλογικά (ratio) 23

Προπαρασκευή δεδομένων εισόδου Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Πρόβλημα01: διαφορετικές πηγές δεδομένων (για παράδειγμα, σε μία επιχείρηση, εγγραφές τμήματος πωλήσεων, λογιστηρίου, ) Διαφορές: τρόπος αποθήκευσης εγγραφών, παραδοχές, χρονικές περίοδοι, άθροιση δεδομένων, σφάλματα Τα δεδομένα πρέπει να συγκεντρωθούν σε ενιαίο σύνολο, με ενιαία λιτή δομή data warehouse: συνεπές σημείο πρόσβασης Κρίσιμος παράγοντας: τύπος και επίπεδο άθροισης δεδομένων Για παράδειγμα δεδομένα ανά συναλλαγή, ανά πελάτη, ανά ημέρα κτλ. Πρόβλημα02: ανακριβείς τιμές Πρόβλημα03: άγνωστες τιμές 24

Εξερεύνηση των δεδομένων Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Ορισμένα απλά εργαλεία οπτικοποίησης είναι πολύ χρήσιμα Ονομαστικά χαρακτηριστικά: ιστογράμματα (είναι η κατανομή συμβατή με τη γνώση πεδίου;) Αριθμητικά χαρακτηριστικά: γραφήματα (υπάρχουν εμφανείς τιμές προς εξαίρεση (outliers);) Διαγράμματα 2 & 3 διαστάσεων υποδεικνύουν εξαρτήσεις & αλληλοσυσχετίσεις Αναγκαία η γνώση των ειδικών Αχανής όγκος δεδομένων; Δειγματοληψία! 25

Προεπεξεργασία δεδομένων Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Ο μετασχηματισμός των δεδομένων σε μορφή κατάλληλη και αποδοτική για την επιλεγμένη μέθοδο μάθησης Σύνολο τεχνασμάτων που εφαρμόζονται με κύριο στόχο την αύξηση του βαθμού αξιοπιστίας Κάποιες φορές λειτουργούν, κάποιες όχι, και, μέχρι σήμερα, είναι δύσκολο να γνωρίζει κανείς εκ των προτέρων την αποτελεσματικότητά τους Καθώς ο πλέον αξιόπιστος οδηγός είναι η μέθοδος δοκιμής & σφάλματος ( trial & error ), η γνώση και κατανόηση των τεχνασμάτων αυτών είναι εξαιρετικά σημαντική 26

Τεχνοτροπίες προεπεξεργασίας δεδομένων Ορολογία Αντίληψη & είδη της Παράδειγμα Χαρακτηριστικό Προπαρασκευή Προεπιλογή χαρακτηριστικών (attributes) Κατά κανόνα, τα περισσότερα χαρακτηριστικά συχνά η συντριπτική πλειοψηφία τους είναι ευκρινώς μη συσχετιζόμενα ή περιττά αποκοπή Διακριτοποίηση χαρακτηριστικών Αναγκαία όταν κάποια χαρακτηριστικά είναι αριθμητικά αλλά ο επιλεγμένος αλγόριθμος μπορεί να χειριστεί μόνο ρητά (categorical) χαρακτηριστικά Μετασχηματισμός δεδομένων Μαθηματικοί μετασχηματισμοί, βασισμένοι στη γνώση πεδίου, λογικοί μετασχηματισμοί, αλλαγή δομής / μορφής δεδομένων Καθαρισμός δεδομένων Οπτικοποίηση και αυτοματοποιημένες μέθοδοι 27

Η μορφή των εξαγόμενων και η σημασία της Δεδομένα input Αλγόριθμοι Εξόρυξης Πληροφορίας Εξαγόμενα output Εξαγόμενων Πίνακες Δένδρα Κανόνες Παλινδρόμηση Ομάδες Οι τεχνικές Μηχανικής Μάθησης παρέχουν διάφορες δομικές περιγραφές των εξαγόμενων Καθεμία από αυτές υπαγορεύει το είδος του αλγορίθμου που πρέπει να χρησιμοποιηθεί για το σχηματισμό της από τα δεδομένα 28

Εξαγόμενα: Απεικόνιση γνώσης Εξαγόμενων Πίνακες Δένδρα Κανόνες Παλινδρόμηση Ομάδες Πίνακες απόφασης (decision tables) Δένδρα απόφασης (decision trees) Κανόνες απόφασης (decision rules) Κανόνες συσχέτισης (association rules) Κανόνες με εξαιρέσεις (rules with exceptions) Κανόνες με συσχετίσεις (rules involving relations) Γραμμική παλινδρόμηση (linear regression) Δένδρα για αριθμητική πρόβλεψη (trees for numeric prediction) Απεικόνιση με βάση υποδείγματα (instance based representation) Ομάδες (clusters) 29

Decision tables Outlook Humidity Play Sunny Sunny High Normal No Yes Εξαγόμενων Πίνακες Overcast Overcast High Normal Yes Yes Δένδρα Κανόνες Παλινδρόμηση Ομάδες Rainy Rainy High Normal No No 30

Decision trees Εξαγόμενων Πίνακες Δένδρα Κανόνες Παλινδρόμηση Ομάδες 31

Classification rules Εξαγόμενων Πίνακες Δένδρα Κανόνες Παλινδρόμηση Ομάδες If outlook = sunny and humidity > 83 then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity < 85 then play = yes If none of the above then play = yes 32

Association rules Εξαγόμενων Πίνακες Δένδρα Κανόνες If temperature = cool then humidity = normal If windy = false and play = no then outlook = sunny and humidity = high Συσχετίζουν τις τιμές των διάφορων attributes μεταξύ τους Παλινδρόμηση Ομάδες 33

Regression tree Εξαγόμενων Πίνακες Δένδρα Κανόνες Παλινδρόμηση Ομάδες 34

Instance based representation Εξαγόμενων Πίνακες Δένδρα Κανόνες Παλινδρόμηση Ομάδες 35

Clustering Εξαγόμενων Πίνακες Δένδρα Κανόνες Παλινδρόμηση Ομάδες 36

Αποτίμηση: το κλειδί της επιτυχίας Αποτίμηση Εκπαίδευση Επιλογή Πρώτα τα βασικά Μετααλγόριθμοι Πλήθος μεθόδων εξαγωγής δομικών περιγραφών από δεδομένα Ποιες είναι οι βέλτιστες για συγκεκριμένο πρόβλημα; Απαιτείται συστηματική προσέγγιση για την αποτίμηση και τη σύγκριση αποδοτικότητας των περιγραφών αυτών Αναφέρεται ρητά ότι το σφάλμα στα δεδομένα εκπαίδευσης δεν αποτελεί αξιόπιστο δείκτη απόδοσης σε μελλοντικά δεδομένα Λύση: διάσπαση των δεδομένων σε σύνολο εκπαίδευσης (training set) και σύνολο ελέγχου (test set) Απαιτείται μεγάλος όγκος (ταξινομημένων) δεδομένων Ωστόσο, ο όγκος των δεδομένων είναι συνήθως περιορισμένος Αναγκαία η χρήση περισσότερο εκλεπτυσμένων τεχνικών 37

Εκπαίδευση & έλεγχος Αποτίμηση Εκπαίδευση Επιλογή Πρώτα τα βασικά Μετααλγόριθμοι Μέτρο απόδοσης σε προβλήματα ταξινόμησης: τιμή σφάλματος (error rate) Επιτυχία (success): σωστή πρόβλεψη της τάξης του υποδείγματος Σφάλμα (error): λανθασμένη πρόβλεψη της τάξης του υποδείγματος Τιμή σφάλματος (error rate): αναλογία σφαλμάτων στο σύνολο των υποδειγμάτων Ωστόσο, ενδιαφέρει η πιθανή μελλοντική απόδοση σε νέα παραδείγματα και όχι η απόδοση στα ήδη δεδομένα υποδείγματα εκπαίδευσης Αποτελεί η τιμή σφάλματος σε ήδη γνωστά δεδομένα αξιόπιστη ένδειξη της τιμής σφάλματος σε νέα δεδομένα; 38

Εκπαίδευση & έλεγχος Αποτίμηση Εκπαίδευση Επιλογή Πρώτα τα βασικά Μετααλγόριθμοι Η απάντηση συνιστά ένα ηχηρό ΟΧΙ στην περίπτωση που τα παλαιά αυτά δεδομένα έχουν χρησιμοποιηθεί στη διαμόρφωση του μοντέλου κατά τη διαδικασία εκπαίδευσης Καθώς η δομική περιγραφή έχει σχεδιαστεί με τρόπο ώστε να ελαχιστοποιεί το συγκεκριμένο σφάλμα, οποιαδήποτε εκτίμηση της αποδοτικότητάς της βασισμένη στα υποδείγματα αυτά αποτελεί αισιόδοξη, αν όχι ανέλπιστα αισιόδοξη εκτίμηση 39

Κριτήρια επιλογής μοντέλου Αποτίμηση Εκπαίδευση Επιλογή Πρώτα τα βασικά Μετααλγόριθμοι Αποπειρώνται να επιτύχουν θετικό συμβιβασμό μεταξύ: Της πολυπλοκότητας του μοντέλου Της ακρίβειας των προβλέψεών του στα δεδομένα εκπαίδευσης Συλλογιστική: άρτιο θεωρείται το μοντέλο που αφενός είναι απλό και αφετέρου επιτυγχάνει υψηλή ακρίβεια στα διαθέσιμα δεδομένα Επίσης γνωστή και ως Ξυράφι του Όκκαμ (Occam s Razor): βέλτιστη είναι η μικρότερη θεωρία που περιγράφει όλες τις πληροφορίες Κατά τον Αλβέρτο Αϊνστάιν: Everything should be made as simple as possible, but no simpler. 40

Κομψότητα vs. σφάλμα Αποτίμηση Εκπαίδευση Επιλογή Πρώτα τα βασικά Μετααλγόριθμοι Θεωρία Α: πολύ απλή, κομψή θεωρία που περιγράφει τα δεδομένα με σχεδόν απόλυτο τρόπο Θεωρία Β: σημαντικά περισσότερο πολύπλοκη θεωρία που περιγράφει τα δεδομένα χωρίς λάθη Η Θεωρία Α είναι προφανώς προτιμώμενη Κλασσικό παράδειγμα: οι τρεις νόμοι του Κέπλερ για την κίνηση των πλανητών Λιγότερο ακριβείς από την τελευταία βελτίωση του Κοπέρνικου στη θεωρία των επικύκλων του Πτολεμαίου 41

Πρώτα τα βασικά Αποτίμηση Εκπαίδευση Επιλογή Πρώτα τα βασικά Μετααλγόριθμοι Πολύ συχνά, απλοί κανόνες επιτυγχάνουν μη αναμενόμενα υψηλή ακρίβεια Αίτιο η απλοϊκή δομή που συχνά υποβόσκει πίσω από πραγματικά σύνολα δεδομένων Σε κάθε περίπτωση, συνίσταται αρχικά ο πειραματισμός με τις πλέον απλές των μεθόδων The KISS principle: Keep It Simple, Stupid! 42

Μετα μαθησιακά σχήματα Αποτίμηση Εκπαίδευση Επιλογή Πρώτα τα βασικά Μετααλγόριθμοι Θεμελιώδης ιδέα: κατασκευή πολλών εμπειρογνωμόνων ( experts ), ανάδειξη πλειοψηφούσας γνώμης εμπειρογνώμονας : ένα μοντέλο που δημιουργήθηκε με τεχνικές μηχανική μάθησης Πλεονέκτημα: Συχνά βελτιώνει σημαντικά την προβλεπτική ικανότητα Μειονέκτημα: Τα εξαγόμενα είναι πολύ δύσκολο να αναλυθούν Σχήματα: Εμφωλίαση (bagging) Ενδυνάμωση (boosting) Συσσώρευση (stacking) Κώδικες διόρθωσης σφαλμάτων εξόδου (error correcting output codes) 43

Βιβλίο Βιβλίο WEKA.arff.xls σε.arff Data Mining, Practical Machine Learning Tools and Techniques, Witten & Frank, Morgan Kaufmann, Ιούνιος 2005. 44

Λογισμικό Βιβλίο WEKA.arff.xls σε.arff WEKA: Waikato Environment for Knowledge Analysis http://www.cs.waikato.ac.nz/ml/weka/ 45

Η τυποποίηση.arff Βιβλίο WEKA.arff.xls σε.arff % % ARFF file for weather data with some numeric features % @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute humidity numeric @attribute windy {true, false} @attribute play? {yes, no} @data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes... 46

Μετατροπή.xls σε.arff Βιβλίο WEKA.arff.xls σε.arff Έστω πίνακας σε αρχείο.xls Save as save as type name.csv Open name.csv με.txt editor, για παράδειγμα notepad Πρόσθεσε το όνομα του dataset (@relation), τις πληροφορίες των χαρακτηριστικών (@attribute, μία σειρά για κάθε χαρακτηριστικό) και τη σειρά @data Save as type: all files & filename: dataset.arff 47

Επίδειξη Τρίτη 17 Ιουλίου, 35 C, 49 διαφάνειες μετά: Στην πράξη; Πώς τα εφαρμόζω όλα αυτά; 48

Τέλος 49