ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

Σχετικά έγγραφα

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη01Εισαγωγή

Αποθήκες και Εξόρυξη Δεδομένων

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Ι. Preprocessing (Επεξεργασία train.arff):

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Ευφυής Προγραμματισμός

Εξόρυξη Γνώσης - το εργαλείο WEKA

Διδάσκουσα: Χάλκου Χαρά,

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Εξόρυξη Γνώσης από Δεδομένα

Τεκμηρίωση ποσοτικών ερευνών με τη χρήση του Nesstar. Δρ. Απόστολος Λιναρδής Ερευνητής ΕΚΚΕ

Αποθήκες και Εξόρυξη Δεδομένων

Λογισμικά για Στατιστική Ανάλυση. Minitab, R (ελεύθερο λογισμικό), Sas, S-Plus, Stata, StatGraphics, Mathematica (εξειδικευμένο λογισμικό για

Περιεχόμενα. 2 Αριθμητικά συστήματα

Σχεδίαση μαθησιακών δραστηριοτήτων λογιστικά φύλλα υπερμεσικά περιβάλλοντα προσομοιώσεις

Περιεχόμενα. Πρόλογος... 15

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Αποθήκες και Εξόρυξη Δεδομένων

SPSS. Βασικά στοιχεία

Δέντρα Απόφασης (Decision(

2o μέρος εργασίας (Αρχείο cpu)

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 05: Αλγόριθμοι εκμάθησης Μέρος Α Δένδρα&Κανόνες

Μεθοδολογίες Αξιοποίησης Δεδομένων

ΔΕΔΟΜΕΝΑ ΚΑΙ ΠΛΗΡΟΦΟΡΙΕΣ

Σχεδιασμός Βάσεων Δεδομένων

Μοντελοποίηση Πεδίου

Πληρουορική Γ Γσμμασίοσ

Διακριτικές Συναρτήσεις

Πληροφορική 2. Αλγόριθμοι

Δείχτες Επιτυχίας και Δείχτες Επάρκειας

Ζητήματα ηήμ με τα δεδομένα

Αναγνώριση Προτύπων Εργασία 1η Classification

Προγραμματισμός και Χρήση Ηλεκτρονικών Υπολογιστών - Βασικά Εργαλεία Λογισμικού

ΒΙΟΣΤΑΤΙΣΤΙΚΗ Πρακτική με SPSS (1)

Εφαρμοσμένη Βελτιστοποίηση

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Εισαγωγή στην επιστήμη των υπολογιστών. Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι

Συστήµατα Γεωγραφικών Πληροφοριών: Εισαγωγή

Αποθήκες και Εξόρυξη Δεδομένων

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Συγγραφή κώδικα, δοκιμασία, επαλήθευση. Γιάννης Σμαραγδάκης

FORTRAN και Αντικειμενοστραφής Προγραμματισμός

Λογισμικά για Στατιστική Ανάλυση. Minitab, R (ελεύθερο λογισμικό), Sas, S-Plus, Stata, StatGraphics, Mathematica (εξειδικευμένο λογισμικό για

Αριθμητική Ανάλυση & Εφαρμογές

SPSS Statistical Package for the Social Sciences

Ο ArcCatalog χρησιμοποιείται για την πλοήγηση / διαχείριση χωρικών δεδοµένων.

Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

Εφαρμοσμένη Πληροφορική ΙΙ (Θ) Είσοδος/Έξοδος Μεταβλητές Τύποι Μεταβλητών Τελεστές και Προτεραιότητα Μετατροπές Μεταξύ Τύπων

Υπερπροσαρμογή (Overfitting) (1)

Μέρος 2. Εισαγωγή στο Lab VIEW και τα Εικονικά Όργανα

Συνοπτικά περιεχόμενα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Σύντοµο Εγχειρίδιο Χρήσης. του Λογισµικού Στατιστικής Επεξεργασίας. SPSS for Windows v. 8.0

Αλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

Α. ΔΙΑΓΡΑΜΜΑ ΔΙΑΣΠΟΡΑΣ Απεικόνιση της σχέσης(θετική, αρνητική, απροσδιόριστη) δύο μεταβλητών. Παραδείγματα σχέσεων. Παράδειγμα

Εισαγωγή στους Υπολογιστές

ΘΕΩΡΊΕς ΜΆΘΗΣΗς ΚΑΙ ΜΑΘΗΜΑΤΙΚΆ

Τεχνικές Εξόρυξης Δεδομένων

ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Κεφάλαιο 8 : H γλώσσα προγραµµατισµού Pascal 1 ο Μέρος σηµειώσεων (Ενότητες 8.1 & 8.2 σχολικού βιβλίου)

O μετασχηματισμός μιας «διαθεματικής» δραστηριότητας σε μαθηματική. Δέσποινα Πόταρη Πανεπιστήμιο Πατρών

ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΞΕΝΟΔΟΧΕΙΑΚΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ (Hotel Questionnaire) Εγχειρίδιο χρήσης (Demo Manual)

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Α.Σ.Ε.Ι ΚΡΗΣΗ ΣΜΗΜΑ ΕΦΑΡΜΟΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ & ΠΟΛΤΜΕΩΝ ΕΡΓΑΣΗΡΙΟ ΝΕΤΡΩΝΙΚΩΝ ΔΙΚΣΤΩΝ 2

Εισαγωγή στα Πληροφοριακά Συστήματα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Πληροφοριακά Συστήµατα

ΒΕΛΤΙΣΤΟΣ ΣΧΕΔΙΑΣΜΟΣ ΤΩΝ ΚΑΤΑΣΚΕΥΩΝ. Δρ. Πολ. Μηχ. Κόκκινος Οδυσσέας

Ο πρώτος ηλικιακός κύκλος αφορά μαθητές του νηπιαγωγείου (5-6 χρονών), της Α Δημοτικού (6-7 χρονών) και της Β Δημοτικού (7-8 χρονών).

ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ

ΕΙΣΑΓΩΓΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ EXCEL ΣΤΟ GRETL

Επεξεργασία Ερωτήσεων

Ευφυής Προγραμματισμός

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία. Εργαστήριο 4 ο : MATLAB

Transcript:

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

Η μορφή των δεδομένων και η σημασία της Δεδομένα input Αλγόριθμοι Εξόρυξης Πληροφορίας Εξαγόμενα output Η κατανόηση της μορφής των δεδομένων και εξαγόμενων είναι ίσως περισσότερο σημαντική από τα ενδιάμεσα βήματα σε έναν αλγόριθμο εξόρυξης πληροφορίας Αντικείμενο εστίασης των πρώτων διαλέξεων 2

Συνιστώσες Δεδομένων Ορολογία Αντίληψη (concept): το αντικείμενο της μάθησης Στόχος: εύρεση κατανοητής και λειτουργικής περιγραφής ενός concept Υπόδειγμα (instance): το ξεχωριστό και ανεξάρτητο παράδειγμα (example) ενός concept Σημείωση: Περισσότερο σύνθετα σχήματα εισόδου είναι πιθανά Χαρακτηριστικό (attribute): η μετρήσιμη συνιστώσα ενός υποδείγματος Θα εστιάσουμε σε ονομαστικές και αριθμητικές συνιστώσες 3

Συνιστώσες Δεδομένων Παράδειγμα attributes instances Outlook Temperature Humidity Windy Play Sunny 85 85 False No Sunny 80 90 True No Overcast 83 86 False Yes Rainy 75 80 False Yes concept description: If outlook = sunny and humidity = high then play = no 4

Concept (Αντίληψη) Είδη μάθησης: Ταξινόμηση: πρόβλεψη διακριτής κατηγορίας Συσχέτιση: εντοπισμός συσχετίσεων μεταξύ χαρακτηριστικών Ομαδοποίηση: ανάδειξη ομάδων όμοιων υποδειγμάτων Αριθμητική πρόβλεψη: πρόβλεψη αριθμητικής ποσότητας Concept (αντίληψη): το αντικείμενο της μάθησης Περιγραφή αντίληψης (concept description): το προϊόν / σχήμα της μαθησιακής διαδικασίας 5

Ταξινόμηση (Classification) Ταξινόμηση υποδείγματος σε προκαθορισμένη τάξη (class) Παραδείγματα προβλημάτων: δεδομένα καιρού, φακοί επαφής, ίρις, εργασιακές διαπραγματεύσεις Μάθηση με επίβλεψη (supervised) Οι ομάδες ταξινόμησης είναι εκ των προτέρων γνωστές Το πραγματικό αποτέλεσμα κάθε υποδείγματος είναι επίσης γνωστό Ο βαθμός αξιοπιστίας μετριέται σε μη χρησιμοποιημένα για τη διαμόρφωση του concept description δεδομένα (test data) είτε Υποκειμενικά, ανάλογα με το βαθμό αποδοχής της περιγραφής 6

Συσχέτιση (Association) Ανακάλυψη συσχετίσεων μεταξύ των διάφορων χαρακτηριστικών Διαφορές με τη μάθηση ταξινόμησης: Μπορεί να αναδείξουν τη συσχέτιση είτε να προβλέψουν την τιμή οποιουδήποτε χαρακτηριστικού και όχι μόνο της τάξης Συνδέουν πιθανόν περισσότερα από ένα χαρακτηριστικά κάθε φορά Επομένως, προκύπτουν πολλοί περισσότεροι κανόνες συσχέτισης από ότι κανόνες ταξινόμησης Άρα περιορισμοί κατά την αναζήτηση είναι αναγκαίοι, όπως ελάχιστη κάλυψη & ελάχιστη ακρίβεια 7

Ομαδοποίηση (Clustering) Εύρεση ομάδων αντικειμένων με υψηλό βαθμό ομοιότητας και εκχώρηση υποδειγμάτων στις ομάδες αυτές Χωρίς επίβλεψη (unsupervised) η τάξη του υποδείγματος δεν ανήκει σε γνωστό σύνολο Sepal length Sepal width Petal length Petal width Type 1 5.1 3.5 1.4 0.2 Iris setosa 2 4.9 3.0 1.4 0.2 Iris setosa 51 7.0 3.2 4.7 1.4 Iris versicolor 52 6.4 3.2 4.5 1.5 Iris versicolor 101 6.3 3.3 6.0 2.5 Iris virginica 102 5.8 2.7 5.1 1.9 Iris virginica 8

Αριθμητική πρόβλεψη (Numeric prediction) Όμοια με ταξινόμηση, αλλά τώρα η τάξη είναι αριθμητική Μάθηση με επίβλεψη (supervised) Ητιμή στόχος κάθε υποδείγματος είναι εκ των προτέρων γνωστή Outlook Temperature Humidity Windy Play-time Sunny Hot High False 5 Sunny Hot High True 0 Overcast Hot High False 55 Rainy Mild Normal False 40 9

Παράδειγμα (example) Υπόδειγμα (instance): ειδικός τύπος παραδείγματος Προς ταξινόμηση, συσχέτιση ή ομαδοποίηση Ιδιαίτερο & ανεξάρτητο παράδειγμα της αντίληψης προς εκμάθηση Χαρακτηρίζεται από προκαθορισμένο σύνολο χαρακτηριστικών Συνήθης μορφή δεδομένων προς εξόρυξη γνώσης: σύνολο υποδειγμάτων (dataset) Πίνακας υποδειγμάτων (instances) χαρακτηριστικών (attributes) (επίπεδο αρχείο, flat file) Μάλλον περιοριστική μορφή δεδομένων (καμία συσχέτιση μεταξύ των αντικειμένων) 10

Οικογενειακό δένδρο Peter M = Peggy F Grace F = Ray M Steven M Graham M Pam F = Ian M Pippa F Brian M Anna F Nikki F 11

Οικογενειακό δένδρο σε μορφή πίνακα Name Gender Parent1 Parent2 Peter Male?? Peggy Female?? Steven Male Peter Peggy Graham Male Peter Peggy Pam Female Peter Peggy Ian Male Grace Ray Pippa Female Grace Ray Brian Male Grace Ray Anna Female Pam Ian Nikki Female Pam Ian 12

Μορφές απεικόνισης συσχέτισης First person Second person Sister of? Peter Peggy No Peter Steven No Steven Peter No Steven Graham No Steven Pam Yes Ian Pippa Yes Anna Nikki Yes Nikki Anna yes First person Second person Sister of? Steven Pam Yes Graham Pam Yes Ian Pippa Yes Brian Pippa Yes Anna Nikki Yes Nikki Anna Yes All the rest Υπόθεση κλειστού κόσμου (Closed-world assumption) No 13

Μορφή πλήρους απεικόνισης σε πίνακα First person Second person Sister of? Name Gender Parent1 Parent2 Name Gender Parent1 Parent2 Steven Male Peter Peggy Pam Female Peter Peggy Yes Graha m Male Peter Peggy Pam Female Peter Peggy Yes Ian Male Grace Ray Pippa Female Grace Ray Yes Brian Male Grace Ray Pippa Female Grace Ray Yes Anna Female Pam Ian Nikki Female Pam Ian Yes Nikki Female Pam Ian Anna Female Pam Ian Yes All the rest If second person s gender = female and first person s parent = second person s parent then sister-of = yes No 14

Δημιουργώντας ένα επίπεδο αρχείο Η διαδικασία καλείται αποκανονικοποίηση (denormalization) Για παράδειγμα, μετατροπή δένδρου σε πίνακα μέσω συγχώνευσης συσχετίσεων Εφικτή με κάθε πεπερασμένο σύνολο πεπερασμένων συσχετίσεων Πρόβλημα: Συσχετίσεις χωρίς προκαθορισμένο αριθμό αντικειμένων Μία σειρά για κάθε συνδυασμό ατόμων Υψηλό υπολογιστικό κόστος και κόστος αποθήκευσης Η αποκανονικοποίηση μπορεί να παράγει πλαστές ή προφανείς κανονικότητες που απεικονίζουν τη δομή της βάσης δεδομένων 15

Ησυσχέτιση πρόγονος First person Second person Ancestor of? Name Gender Parent1 Parent2 Name Gender Parent1 Parent2 Peter Male?? Steven Male Peggy Peter Male?? Pam Female Peter Peggy Yes Peter Male?? Anna Female Pam Ian Yes Peter Male?? Nikki Female Pam Ian Yes Pam Female Peter Peggy Nikki Female Pam Ian Yes Grace Female?? Ian Male Grace Ray Yes Grace Female?? Nikki Female Pam Ian Yes Other positive examples here All the rest Peter Yes Yes No 16

Αναδρομή (recursion) Οι συσχετίσεις απείρου μήκους απαιτούν αναδρομή If person1 is a parent of person2 then person1 is an ancestor of person2 If person1 is a parent of person2 and person2 is an ancestor of person3 then person1 is an ancestor of person3 Κατάλληλες τεχνικές όπως επαγωγικός λογικός προγραμματισμός (inductive logic programming) Προβλήματα: θόρυβος και υπολογιστική πολυπλοκότητα 17

Χαρακτηριστικό (attribute) Κάθε παράδειγμα αποτελείται από προκαθορισμένο σύνολο στοιχείων, τα οποία καλούνται χαρακτηριστικά (attributes) Στην πράξη, ο αριθμός των χαρακτηριστικών μπορεί να ποικίλει Επίσης, η ύπαρξη ενός χαρακτηριστικού μπορεί να εξαρτάται από την τιμή ενός άλλου Πιθανοί τύποι χαρακτηριστικών ( levels of measurement ): Ονομαστικά (nominal), τακτικά (ordinal), περιοδικά (interval) και αναλογικά (ratio) 18

Ονομαστικά (nominal) χαρακτηριστικά Οι τιμές είναι διακριτά σύμβολα Αποτελούν περιγραφή ή όνομα Παράδειγμα: χαρακτηριστικό outlook από το πρόβλημα καιρού Τιμές: sunny, overcast & rainy Δεν υπάρχει ή συνεπάγεται καμία συσχέτιση (κατάταξη ή μέτρο απόστασης) μεταξύ των ονομαστικών τιμών Μόνο η σύγκριση ως προς την ισότητα της τιμής του χαρακτηριστικού στα διάφορα υποδείγματα έχει νόημα 19

Τακτικά (ordinal) χαρακτηριστικά Ορίζεται διάταξη στις τιμές Αλλά δεν ορίζεται απόσταση μεταξύ τους Για παράδειγμα, χαρακτηριστικό temperature στο πρόβλημα καιρού Τιμές: hot > mild > cool Σημείωση: η πρόσθεση και η αφαίρεση δεν έχουν νόημα Παράδειγμα κανόνα: temperature < hot play = yes Η διάκριση μεταξύ ονομαστικών και τακτικών χαρακτηριστικών δεν είναι πάντα ευκρινής (για παράδειγμα outlook ) 20

Περιοδικά (interval) χαρακτηριστικά Οι τιμές των περιοδικών χαρακτηριστικών δεν είναι μόνο διατεταγμένες, αλλά μετρώνται σε σταθερές και ισαπέχουσες μονάδες Παράδειγμα: χαρακτηριστικό temperature σε βαθμούς Fahrenheit Παράδειγμα: χαρακτηριστικό έτος Η διαφορά ανάμεσα σε δύο τιμές έχει έννοια Ωστόσο το άθροισμα ή το γινόμενο δεν έχει έννοια, καθώς δεν έχει οριστεί το σημείο μηδέν. 21

Αναλογικά (ratio) χαρακτηριστικά Η μέθοδος μέτρησης ορίζει σημείο μηδέν Παράδειγμα: χαρακτηριστικό απόσταση Η απόσταση ανάμεσα σε ένα αντικείμενο και τον εαυτό του ορίζεται ως μηδενική Τα αναλογικά χαρακτηριστικά μεταχειρίζονται ως πραγματικοί αριθμοί Όλες οι μαθηματικές πράξεις είναι επιτρεπτές Ωστόσο ο ορισμός του σημείου μηδέν είναι μάλλον σχετικός παρά απόλυτος Για παράδειγμα, βαθμοί Fahrenheit 22

Στην πράξη Στις περισσότερες των περιπτώσεων, χρησιμοποιούνται δύο μόνο τύποι χαρακτηριστικών: ονομαστικά και τακτικά (nominal and ordinal) Τα ονομαστικά χαρακτηριστικά συχνά καλούνται επίσης ρητά (categorical), απαριθμημένα (enumerated) ή διακριτά (discrete) Ωστόσο ο ακριβής ορισμός των ρητών και απαριθμημένων προϋποθέτει διάταξη Εξαίρεση: διχοτόμηση (δυαδικό (boolean) χαρακτηριστικό) Τα τακτικά χαρακτηριστικά καλούνται επίσης αριθμητικά (numeric) ή συνεχή (continuous) Ωστόσο η συνέχεια παραπέμπει στον μαθηματικό ορισμό της 23

Μετασχηματισμός τακτικών σε δυαδικά χαρακτηριστικά Απλοί μετασχηματισμοί επιτρέπουν την κωδικοποίηση ενός τακτικού (ordinal) χαρακτηριστικού με n τιμές σε n 1 δυαδικά (boolean) χαρακτηριστικά Παράδειγμα: χαρακτηριστικό temperature Δεδομένα (αρχικά) Temperature Cold Medium Hot Temperature > cold False True True Δεδομένα μετά τον μετασχηματισμό Temperature > medium False False True Προτεινόμενη κωδικοποίηση έναντι ονομαστικού χαρακτηριστικού 24

Μεταδεδομένα (metadata) Πληροφορίες σχετικές με τα δεδομένα που κωδικοποιούν τη γνώση πεδίου (background knowledge) Μπορούν να χρησιμοποιηθούν για τον περιορισμό του χώρου αναζήτησης Παραδείγματα: Θεώρηση διαστάσεων (οι διαστάσεις των περιγραφών πρέπει να είναι συμβατές με εκείνες των δεδομένων) Κυκλική διάταξη (circular ordering) (για παράδειγμα, αριθμός μοιρών γωνίας) Μερική διάταξη (partial ordering) (για παράδειγμα, σχέσεις γενίκευσης ή εξειδίκευσης) 25

Προπαρασκευή δεδομένων εισόδου Πρόβλημα: διαφορετικές πηγές δεδομένων (για παράδειγμα, σε μία επιχείρηση, εγγραφές τμήματος πωλήσεων, λογιστηρίου, ) Διαφορές: τρόπος αποθήκευσης εγγραφών, παραδοχές, χρονικές περίοδοι, άθροιση δεδομένων, σφάλματα Τα δεδομένα πρέπει να συγκεντρωθούν σε ενιαίο σύνολο, με ενιαία λιτή δομή Αποθήκη δεδομένων (data warehouse): συνεπές σημείο πρόσβασης Εξωτερικά -προς την επιχείρηση- δεδομένα είναι συχνά αναγκαία (δεδομένα επικάλυψης / overlay data) Κρίσιμος παράγοντας: τύπος και επίπεδο άθροισης δεδομένων Για παράδειγμα δεδομένα ανά συναλλαγή, ανά πελάτη, ανά ημέρα κτλ. 26

Άγνωστες τιμές Οι άγνωστες τιμές (missing values) συχνά υποδηλώνονται με καταχωρήσεις εκτός πεδίου τιμών (out-of-range) Είδη: άγνωστες, μη καταγεγραμμένες, μη συσχετιζόμενες Αίτια: Βλάβη εξοπλισμού καταγραφής Αλλαγές στο σχεδιασμό του πειράματος Αντιπαραβολή διαφορετικών συνόλων δεδομένων Μη εφικτή μέτρηση Συχνά χρειάζεται να κωδικοποιηθούν ως ξεχωριστή τιμή Κάποιες φορές έχουν ιδιαίτερη αξία από μόνες τους 27

Ανακριβείς τιμές Αίτιο: τα δεδομένα έχουν συλλεχθεί για σκοπό διάφορο της εξόρυξης γνώσης από αυτά Συνέπεια: λάθη & παραλείψεις που δεν επηρεάζουν τον αρχικό σκοπό των δεδομένων (γιαπαράδειγμαηλικίαπελάτη) Τυπογραφικά λάθη σε ονομαστικά χαρακτηριστικά απαιτείται έλεγχος αξιοπιστίας Τυπογραφικά λάθη & σφάλματα μέτρησης σε αριθμητικά χαρακτηριστικά απαιτείται εντοπισμός των τιμών προς εξαίρεση (outliers) Τα λάθη μπορεί να είναι σκόπιμα (για παράδειγμα ψευδής Ταχυδρομικός Κώδικας) Άλλα προβλήματα: διπλότυπα, πεπαλαιωμένα δεδομένα 28

Εξερεύνηση των δεδομένων Ορισμένα απλά εργαλεία οπτικοποίησης είναι πολύ χρήσιμα Ονομαστικά χαρακτηριστικά: ιστογράμματα (είναι η κατανομή συμβατή με τη γνώση πεδίου;) Αριθμητικά χαρακτηριστικά: γραφήματα (υπάρχουν εμφανείς τιμές προς εξαίρεση (outliers);) Διαγράμματα 2 & 3 διαστάσεων υποδεικνύουν εξαρτήσεις & αλληλοσυσχετίσεις Αναγκαία η γνώση των ειδικών Αχανής όγκος δεδομένων; Δειγματοληψία! 29

Εισαγωγή στο weka 30

Λογισμικό - Γενικά Ο αλγόριθμος εξόρυξης καθολικής εφαρμογής αποτελεί ιδεαλιστική ουτοπία Τα σύνολα δεδομένων ποικίλουν ευρέως στην πράξη Για να καταλήξει κανείς σε αξιόπιστη μοντελοποίηση, απαιτείται συναρμογή των χαρακτηριστικών του αλγορίθμου εκμάθησης (όπως bias) με τη δομή του πεδίου εφαρμογής Η ανακάλυψη γνώσης από δεδομένα προϋποθέτει εκτενή εφαρμογή της μεθόδου trial & error και αποτελεί εξ ορισμού πειραματική επιστήμη 31

Weka το πτηνό 32

Weka Το περιβάλλον εργασίας Waikato Environment for Knowledge Analysis open-source, γραμμένο σε Java Εκτενής συλλογή των πλέον σύγχρονων αλγορίθμων εξόρυξης πληροφορίας και εργαλείων προεπεξεργασίας δεδομένων Ενιαία και εύχρηστη διεπιφάνεια (workbench) για την υλοποίηση αυτών 33

GUI chooser & Explorer 34

Η τυποποίηση.arff % % ARFF file for weather data with some numeric features % @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature numeric @attribute humidity numeric @attribute windy {true, false} @attribute play? {yes, no} @data sunny, 85, 85, false, no sunny, 80, 90, true, no overcast, 83, 86, false, yes... 35

Τύποι χαρακτηριστικών Η τυποποίηση.arff αποτελεί τη φυσική μέθοδο αποθήκευσης δεδομένων του weka Υποστηρίζει αριθμητικά και ονομαστικά χαρακτηριστικά Η ερμηνεία εξαρτάται από το είδος μάθησης Τα αριθμητικά χαρακτηριστικά ερμηνεύονται συχνά ως Τακτικά (ordinal) με συσχετίσεις μικρότερου / μεγαλύτερου Αναλογικά (ratio) με συσχετίσεις απόστασης (ίσως απαιτεί κανονικοποίηση) Τα ονομαστικά χαρακτηριστικά μπορούν να ερμηνευθούν με όρους απόστασης (0 εάν οι τιμές είναι ίσες, 1 διαφορετικά) Ακέραιοι αριθμοί: ονομαστική (nominal), τακτική (ordinal) ή αναλογική (ratio) κλίμακα? 36

Επιλογή τύπου χαρακτηριστικού Χαρακτηριστικό age ονομαστικού (nominal) τύπου If age = young and astigmatic = no and tear production rate = normal then recommendation = soft If age = pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft Χαρακτηριστικό age τακτικού (ordinal) τύπου (για παράδειγμα young < pre-presbyopic < presbyopic ) If age pre-presbyopic and astigmatic = no and tear production rate = normal then recommendation = soft 37

Μετατροπή.xls σε.arff Έστω πίνακας σε αρχείο.xls Save as save as type name.csv Open name.csv με.txt editor, για παράδειγμα notepad Πρόσθεσε το όνομα του dataset (@relation), τις πληροφορίες των χαρακτηριστικών (@attribute, μία σειρά για κάθε χαρακτηριστικό) και τη σειρά @data Save as type: all files & filename: dataset.arff 38

Εισαγωγή δεδομένων Το λογισμικό παρέχει τους εξής τρόπους εισαγωγής δεδομένων: Αρχεία (.arff /.csv /.c45 / binary) URL Database (μέσω sql query) Στο φάκελο C:\Program Files\Weka-3-4\data είναι διαθέσιμα τα datasets όλων των παραδειγμάτων που έχουν αναφερθεί Ανοίξτε το dataset λουλουδιών ίρις (iris.arff) 39

Σύνολο δεδομένων λουλουδιών Ίρις Sepal length Sepal width Petal length Petal width Type 1 5.1 3.5 1.4 0.2 Iris setosa 2 4.9 3.0 1.4 0.2 Iris setosa 51 7.0 3.2 4.7 1.4 Iris versicolor 52 6.4 3.2 4.5 1.5 Iris versicolor 101 6.3 3.3 6.0 2.5 Iris virginica 102 5.8 2.7 5.1 1.9 Iris virginica 40

Εξερεύνηση δεδομένων Edit / Save Current relation Attributes Select / remove All / none / invert Selected attribute Name / type / missing / distinct / unique Statistics Visualize class / all 41

Οπτικοποίηση Σκεδαστικά διαγράμματα για κάθε συνδυασμό χαρακτηριστικών προς ανίχνευση συσχετίσεων Plot & point size Select attributes & colour Subsample Κλικ σε διάγραμμα εστίαση με περαιτέρω επιλογές 42

Εργασία 43

Διαχείριση Λογαριασμών Πελατών (Customer Account Management) Μία επιχείρηση διατηρεί στοιχεία για κάθε πελάτη της Με βάση τα στοιχεία αυτά αποτιμά κάθε πελάτη ως καλό ή κακό ( good / bad ) Για παράδειγμα, μία τράπεζα ενδιαφέρεται να εντοπίσει τους κατόχους πιστωτικών καρτών που ενδέχεται να χρεοκοπήσουν Σημαντικό κόστος για κάθε λάθος υπόδειξη Αν κακός προβλέπεται ως καλός : απώλεια αποπληρωμής λόγω χρεοκοπίας Αν καλός προβλέπεται ως κακός : κοστοβόρα περαιτέρω εξακρίβωση χαρακτηριστικών πελάτη ή και διακοπή συνεργασίας με αξιόπιστο πελάτη 44

Σύνολο δεδομένων Δεδομένα εκπαίδευσης (training set) 2528 υποδείγματα 39 χαρακτηριστικά (δυαδικά, ακέραια, πραγματικά) & ζητούμενο (record label, good / bad) Δεδομένα επαλήθευσης (quiz set) 1265 υποδείγματα 39 χαρακτηριστικά Δεδομένα εξέτασης (test set) 1265 υποδείγματα 39 χαρακτηριστικά Καμία περαιτέρω πληροφορία περί του συνόλου των δεδομένων δεν είναι γνωστή (το σενάριο περί πιστωτικών καρτών επιλέχθηκε για λόγους επεξήγησης) 45

Στόχος Ποιοι είναι οι κακοί πελάτες (bad record labels) του test set; Εξόρυξη γνώσης από τα δεδομένα εκπαίδευσης Ανάδραση της μαθησιακής διαδικασίας μέσω των δεδομένων του quiz set Μπορεί να υποβληθεί προς αξιολόγηση μεγάλος αριθμός διαφορετικών συνόλων record labels του quiz set καθ όλη τη διάρκεια διεξαγωγής της εργασίας Τελική εφαρμογή των εξαγόμενων δομικών περιγραφών στα δεδομένα του test set 46

Προς υποβολή Πρόβλεψη good / bad accounts του test set Έκθεση αναλυτικής περιγραφής και αιτιολόγησης της διαδικασίας που επιλέχθηκε Παρουσίαση της μεθοδολογίας στους συναδέλφους / ανταγωνιστές Η βαθμολόγηση αποτελεί συνάρτηση του βαθμού αξιοπιστίας της πρόβλεψης, της λογικής τεκμηρίωσης της επιλεγμένης διαδικασίας και της πληρότητας της έκθεσης και παρουσίασης. 47

Τέλος Επόμενη διάλεξη: Προεπεξεργασία & Επιλογή Δεδομένων 48