Ευφυή Συστήματα και Εξόρυξη Δεδομένων. Προεπεξεργασία Δεδομένων

Σχετικά έγγραφα
Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Ζητήματα ηήμ με τα δεδομένα

Περιεχόμενα. Πρόλογος... 15

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

Ευφυής Προγραμματισμός

Εισόδημα Κατανάλωση

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Αναλυτική Στατιστική

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Προεπεξεργασία εδοµένων

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Kruskal-Wallis H

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Είδη Μεταβλητών. κλίµακα µέτρησης

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΘΕΩΡΙΑ Β ΓΥΜΝΑΣΙΟΥ. Μια παράσταση που περιέχει πράξεις με μεταβλητές (γράμματα) και αριθμούς καλείται αλγεβρική, όπως για παράδειγμα η : 2x+3y-8

Συνοπτικά περιεχόμενα

Συμπίεση Δεδομένων

Γ. Πειραματισμός - Βιομετρία

Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Μάθημα 4 ο :Τυχαίες μεταβλητές Διδάσκουσα: Κοντογιάννη Αριστούλα

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

Τμήμα Οργάνωσης και Διαχείρισης Αθλητισμού

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Βιοστατιστική ΒΙΟ-309

Διαχείριση Υδατικών Πόρων

Στατιστική Επιχειρήσεων ΙΙ

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

ΕΞΕΤΑΣΕΙΣ στο τέλος του εξαμήνου με ΑΝΟΙΧΤΑ βιβλία ΕΞΕΤΑΣΕΙΣ ο καθένας θα πρέπει να έχει το ΔΙΚΟ του βιβλίο ΔΕΝ θα μπορείτε να ανταλλάσετε βιβλία ή να

Απλή Παλινδρόμηση και Συσχέτιση

Στατιστική ανάλυση αποτελεσμάτων

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

9. Παλινδρόμηση και Συσχέτιση

HMY 795: Αναγνώριση Προτύπων

Βιοστατιστική ΒΙΟ-309

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ

Βιοστατιστική ΒΙΟ-309

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Αναγνώριση Προτύπων Ι

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Υπερπροσαρμογή (Overfitting) (1)

Διάστημα εμπιστοσύνης της μέσης τιμής

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 6. Δειγματοληψία 6-1

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Συμπίεση Δεδομένων

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. Ι. Δημόπουλος, Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών-ΤΕΙ Πελοποννήσου

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Περιεχόμενα. 1. Ειδικές συναρτήσεις. 2. Μιγαδικές Συναρτήσεις. 3. Η Έννοια του Τελεστή. Κεφάλαιο - Ενότητα

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

E [ -x ^2 z] = E[x z]

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

1.4 Λύσεις αντιστρόφων προβλημάτων.

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Στατιστική Επιχειρήσεων Ι

Ιδιότητες της ευθείας παλινδρόµησης

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Στατιστική Επιχειρήσεων 1 Μάθημα του A Εξαμήνου

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Transcript:

Ευφυή Συστήματα και Εξόρυξη Δεδομένων Προεπεξεργασία Δεδομένων 1

Ενότητα 3: Προ-επεξεργασία Δεδομένων Προ-επεξεργασία Δεδομένων: Επισκόπηση Καθαρισμός Δεδομένων Ενσωμάτωση Δεδομένων Περιορισμός και Μετασχηματισμός Δεδομένων Περιορισμός Διαστάσεων 2 Σύνοψη

3 Τι είναι η Προ-επεξεργασία Δεδομένων; Σημαντικότερες Ενέργειες Καθαρισμός Δεδομένων Χειρισμός δεδομένων που λείπουν, εξομάλυνση θορύβου, εντοπισμός ή απομάκρυνση ακραίων τιμών και επίλυση ασυνεπειών Ενσωμάτωση Δεδομένων Ενσωμάτωση από πολλές ΒΔ, κύβους δεδομένων ή αρχεία Περιορισμός Δεδομένων Περιορισμός Διαστάσεων Μείωση αριθμητικότητας Συμπίεση δεδομένων Μετασχηματισμός και Διακριτοποίηση Δεδομένων Κανονικοποίηση Δημιουργία ιεραρχίας εννοιών

4 Γιατί Προ-επεξεργασία Δεδομένων; Προβλήματα Ποιότητας Δεδομένων Μέτρα για την ποιότητα των δεδομένων: Μια πολυδιάστατη άποψη Ακρίβεια (accuracy): σωστό ή λάθος, ακριβές ή μη Πληρότητα (completeness): μη καταγεγραμμένο, μη διαθέσιμο,... Συνέπεια (consistency): κάποια τροποποιημένα και κάποια όχι, Επικαιρότητα (timeliness): έγκαιρη ενημέρωση; Πιστότητα (believability): Πόσο αξιόπιστα είναι τα δεδομένα; Ερμηνεία (interpretability): πόσο εύκολα μπορούν να κατανοηθούν τα δεδομένα;

Ενότητα 3: Προ-επεξεργασία Δεδομένων Προ-επεξεργασία Δεδομένων: Επισκόπηση Καθαρισμός Δεδομένων Ενσωμάτωση Δεδομένων Περιορισμός και Μετασχηματισμός Δεδομένων Περιορισμός Διαστάσεων 5 Σύνοψη

6 Καθαρισμός Δεδομένων Τα δεδομένα στον πραγματικό κόσμο είναι «βρώμικα»: Πολλά δυνητικά εσφαλμένα δεδομένα, π.χ. σφάλματα οργάνων, ανθρώπινα σφάλματα ή υπολογιστικά και σφάλματα μετάδοσης Ατελή: λείπουν τιμές χαρακτηριστικών, λείπουν ορισμένες ιδιότητες που ενδιαφέρουν ή περιλαμβάνουν μόνο συγκεντρωτικά δεδομένα Π.χ., Επάγγελμα = (ελλιπή δεδομένα) Θορυβώδη: περιέχουν θόρυβο, λάθη, και ακραίες τιμές Π.χ., Μισθός = 10 (λάθος) Ασύμβατα: περιέχουν αποκλίσεις σε κωδικούς ή ονόματα, π.χ., Ηλικία = 42, Γέννηση = 03/07/2010 Αρχική κλίμακα βαθμολογίας 1, 2, 3, τρέχουσα κλίμακα A, B, C διαφορά μεταξύ διπλών εγγραφών Προσωρινά (π.χ., συγκεκαλυμμένα ελλιπή δεδομένα) 1 Ιανουαρίου ως ημερομηνία γέννησης όλων;

7 Ατελή (Ελλιπή) Δεδομένα Τα δεδομένα δεν είναι πάντοτε διαθέσιμα Π.χ., πολλές εγγραφές δεν έχουν καταγεγραμμένη τιμή για διάφορα χαρακτηριστικά, όπως το εισόδημα των πελατών στα δεδομένα πωλήσεων Ελλιπή δεδομένα μπορεί να οφείλονται σε Εσφαλμένη λειτουργία εξοπλισμού Ασύμβατα με άλλα καταγεγραμμένα δεδομένα και έτσι διαγεγραμμένα Τα δεδομένα δεν καταχωρήθηκαν λόγω παρεξήγησης Ορισμένα δεδομένα ενδέχεται να μην θεωρούνται σημαντικά κατά τη στιγμή της καταχώρησης Δεν καταχωρείται το ιστορικό ή οι αλλαγές των δεδομένων Τα δεδομένα που λείπουν μπορεί να χρειάζεται να υπολογιστούν

Χειρισμός Δεδομένων που Λείπουν 8 Παράβλεψη εγγραφής: συνήθως γίνεται όταν λείπει η ετικέτα της κλάσης (κατά την κατηγοριοποίηση) δεν είναι αποτελεσματική όταν το % των τιμών που λείπουν ανά χαρακτηριστικό ποικίλλει σημαντικά Συμπλήρωση των τιμών που λείπουν χειροκίνητα: κουραστική + μη εφικτή Συμπλήρωση των τιμών αυτόματα με Μια γενική σταθερά : π.χ., unknown, μια νέα τάξη;! το μέσο όρο των χαρακτηριστικών το μέσο όρο των χαρακτηριστικών για όλα τα δείγματα που ανήκουν στην ίδια κατηγορία: πιο έξυπνο τη πιο πιθανή τιμή: συμπέρασμα που προκύπτει από κάποιο Bayesian τύπο ή δέντρο απόφασης

9 Δεδομένα με Θόρυβο Θόρυβος: τυχαίο σφάλμα ή διακύμανση σε μια μετρούμενη μεταβλητή Οι εσφαλμένες τιμές ιδιοτήτων μπορεί να οφείλονται σε Ελαττωματικά μέσα συλλογής δεδομένων Προβλήματα εισαγωγής δεδομένων Προβλήματα μετάδοσης δεδομένων Περιορισμούς της τεχνολογίας Ανακολουθία στην ονομασία των δεδομένων Άλλα προβλήματα δεδομένων Διπλότυπες εγγραφές Ελλιπή δεδομένα Μη συμβατά δεδομένα

10 Χειρισμός Δεδομένων με Θόρυβο Μέθοδος καλαθιού (Binning) Ταξινόμηση δεδομένων και χωρισμός σε τμήματα (ίσων συχνοτήτων) Στη συνέχεια, εξομάλυνση με το μέσο του τμήματος, εξομάλυνση με το διάμεσο του τμήματος, εξομάλυνση με τα όρια του τμήματος, κλπ. Παλινδρόμηση Εξομάλυνση με την τοποθέτηση των δεδομένων σε συναρτήσεις παλινδρόμησης Ομαδοποίηση Εντοπισμός και αφαίρεση των ακραίων τιμών Ημι-εποπτεύομενη: Συνδυασμένος υπολογιστικός και ανθρώπινος έλεγχος Ανίχνευση ύποπτων τιμών και ανθρώπινος έλεγχος (π.χ. αντιμετώπιση πιθανών ακραίων τιμών)

11 Διαδικασία Καθαρισμού Δεδομένων Ανίχνευση αποκλίσεων Χρήση μεταδεδομένων (π.χ. πεδίο ορισμού, εύρος, εξάρτηση, κατανομή) Έλεγχος υπερφόρτωσης πεδίου Έλεγχος του κανόνα μοναδικότητας, του κανόνα διαδοχικότητας και του κανόνα μη ύπαρξης τιμής (null) Χρήση εμπορικών εργαλείων Καθαρισμός δεδομένων: Απλή χρήση της γνώσης του πεδίου τιμών (π.χ. ταχυδρομικός κώδικας, ορθογραφικός έλεγχος) για ανίχνευση σφαλμάτων και διορθώσεων Έλεγχος δεδομένων: ανάλυση δεδομένων για την ανίχνευση κανόνων και σχέσεων για την ανίχνευση παραβάσεων (π.χ. συσχέτιση και ομαδοποίηση για την εξεύρεση ακραίων τιμών) Μεταφορά και ενσωμάτωση δεδομένων Εργαλεία μεταφοράς δεδομένων: επιτρέπουν τον ορισμό μετασχηματισμών Εργαλεία ETL (Extraction / Transformation / Loading): επιτρέπουν στους χρήστες να καθορίζουν μετασχηματισμούς μέσω ενός γραφικού περιβάλλοντος

Ενότητα 3: Προ-επεξεργασία Δεδομένων Προ-επεξεργασία Δεδομένων: Επισκόπηση Καθαρισμός Δεδομένων Ενσωμάτωση Δεδομένων Περιορισμός και Μετασχηματισμός Δεδομένων Περιορισμός Διαστάσεων 12 Σύνοψη

Ενσωμάτωση Δεδομένων Ενσωμάτωση Δεδομένων Συνδυασμός δεδομένων από πολλές πηγές σε ένα συνεκτικό χώρο αποθήκευσης Ενσωμάτωση σχήματος: π.χ., A.cust-id B.cust-# Ενσωμάτωση μεταδεδομένων από διαφορετικές πηγές Ταυτοποίηση οντότητας Ταυτοποίηση οντοτήτων πραγματικού κόσμου από πολλαπλές πηγές δεδομένων, π.χ. Bill Clinton = William Clinton Ανίχνευση και επίλυση συγκρούσεων στις τιμές δεδομένων Για την ίδια οντότητα του πραγματικού κόσμου, οι τιμές χαρακτηριστικών από διαφορετικές πηγές είναι διαφορετικές Πιθανοί λόγοι: διαφορετικές αναπαραστάσεις, διαφορετικές κλίμακες, π.χ. διαφορετικές μονάδες μέτρησης μήκους 13

Χειρισμός Πλεονασμού στην Ενσωμάτωση Δεδομένων Τα πλεονασματικά δεδομένα εμφανίζονται συχνά όταν γίνεται ενσωμάτωση πολλαπλών βάσεων δεδομένων Ταυτοποίηση αντικειμένου: Το ίδιο χαρακτηριστικό ή αντικείμενο μπορεί να έχει διαφορετικά ονόματα σε διαφορετικές βάσεις δεδομένων Παράγωγα δεδομένα: Ένα χαρακτηριστικό μπορεί να υπολογίζεται σε έναν άλλο πίνακα, π.χ. ετήσια έσοδα Τα πλεονάζοντα χαρακτηριστικά μπορούν να ανιχνευθούν με ανάλυση συσχέτισης (correlation) και ανάλυση συνδιακύμανσης (covariance) Η προσεκτική ενσωμάτωση των δεδομένων από πολλαπλές πηγές μπορεί να συμβάλει στη μείωση / αποφυγή πλεονασμών και ασυνεπειών και στη βελτίωση της ταχύτητας και της ποιότητας της εξόρυξης 14

15 Ανάλυση Συσχέτισης (για Κατηγορικά Δεδομένα) Χ 2 (chi-square) test: Μηδενική υπόθεση: Οι δύο κατανομές είναι ανεξάρτητες Οι τιμές που συμβάλλουν περισσότερο στην τιμή Χ 2 είναι εκείνες των οποίων η πραγματική τιμή είναι πολύ διαφορετική από την αναμενόμενη Όσο μεγαλύτερη είναι η τιμή Χ 2, τόσο πιο πιθανό είναι να σχετίζονται οι μεταβλητές Σημείωση: Η συσχέτιση δεν συνεπάγεται αιτιώδη συνάφεια # νοσοκομείων και # κλοπών-αυτοκινήτων σε μια πόλη συσχετίζονται Και οι δύο συνδέονται αιτιωδώς με την τρίτη μεταβλητή: πληθυσμός

16 Υπολογισμός Chi-Square: Παράδειγμα Play chess Not play chess Sum (row) Like science fiction 250 (90) 200 (360) 450 Not like science fiction 50 (210) 1000 (840) 1050 Υπολογισμός 90? 450/1500 * 300 = 90 Υπολογισμός Χ 2 (chi-square) (οι αριθμοί σε παρένθεση είναι οι αναμενόμενες τιμές που υπολογίζονται βάσει της κατανομής των δεδομένων στις δύο κατηγορίες) 2 Sum(col.) 300 1200 1500 (250 90) = 90 2 (50 210) + 210 = 507.93 Δείχνει ότι like_science_fiction και play_chess είναι συσχετισμένες 2 (200 360) + 360 2 (1000 840) + 840 2 Μπορούμε να απορρίψουμε τη μηδενική υπόθεση της ανεξαρτησίας στο επίπεδο εμπιστοσύνης 0.001

Διακύμανση Μιας Μεταβλητής 17 Η διακύμανση μιας τυχαίας μεταβλητής X παρέχει ένα μέτρο για το πόσο η τιμή του Χ αποκλίνει από τη μέση ή την αναμενόμενη τιμή του X: x = var( X) = E[(X ) ] = 2 2 όπου σ 2 η διακύμανση του X, το σ καλείται τυπική απόκλιση (standard deviation) µ η μέση τιμή, και µ = E[X] η αναμενόμενη τιμή του X Έτσι, διακύμανση είναι η αναμενόμενη τιμή της τετραγωνικής απόκλισης από τη μέση τιμή Μπορεί, επίσης να γραφτεί ως: 2 ( x ) f ( x) if X is discrete 2 ( x ) f ( x) dx if X is continuous = var( X ) = E[(X ) ] = E[X ] = E[X ] [ E( x)] 2 2 2 2 2 2 Η διακύμανση δείγματος είναι η μέση τετραγωνική απόκλιση των τιμών x i από το μέσο του δείγματος n ˆ 2 1 2 ˆ ˆ = ( xi ) n i= 1

18 Συνδιακύμανση Δύο Μεταβλητών Συνδιακύμανση μεταξύ δύο μεταβλητών X 1 και X 2 = E[( X )( X )] = E[ X X ] = E[ X X ] E[ X ] E[ X ] όπου µ 1 = E[X 1 ] η αντίστοιχη μέση ή αναμενόμενη τιμή του X 1 ; παρόμοια το µ 2 n 1 Συνδιακύμανση δείγματος μεταξύ X 1 και X 2 : ˆ 12 = ( x ˆ ˆ i1 1)( xi2 2) n i= 1 Η συνδιακύμανση δείγματος είναι μια γενίκευση της διακύμανσης δείγματος: Θετική συνδιακύμανση: Αν σ 12 > 0 Αρνητική συνδιακύμανση : Αν σ 12 < 0 Ανεξαρτησία: Αν X 1 και X 2 είναι ανεξάρτητες, σ 12 = 0, το αντίστροφο δεν ισχύει 12 1 1 2 2 1 2 1 2 1 2 1 2 1 1 ˆ ˆ ˆ ˆ ˆ n n 2 2 11 = ( xi 1 1)( xi 1 1) = ( xi 1 1) = 1 n i= 1 n i= 1 Μερικά ζεύγη τυχαίων μεταβλητών μπορεί να έχουν συνδιακύμανση 0 αλλά δεν είναι ανεξάρτητα Μόνο κάτω από κάποιες πρόσθετες υποθέσεις (π.χ., τα δεδομένα ακολουθούν πολυμεταβλητές κανονικές κατανομές) η συνδιακύμανση 0 συνεπάγεται την ανεξαρτησία

19 Παράδειγμα: Υπολογισμός Συνδιακύμανσης Ας υποθέσουμε δύο αποθέματα X 1 και X 2 έχουν τις ακόλουθες τιμές σε μια βδομάδα: (2, 5), (3, 8), (5, 10), (4, 11), (6, 14) Τύπος Συνδιακύμανσης = E[( X )( X )] = E[ X X ] = E[ X X ] E[ X ] E[ X ] 12 1 1 2 2 1 2 1 2 1 2 1 2 Ο υπολογισμός μπορεί να απλοποιηθεί ως: E(X 1 ) = (2 + 3 + 5 + 4 + 6)/ 5 = 20/5 = 4 E(X 2 ) = (5 + 8 + 10 + 11 + 14) /5 = 48/5 = 9.6 σ 12 = (2 5 + 3 8 + 5 10 + 4 11 + 6 14)/5 4 9.6 = 4 Έτσι, X 1 και X 2 αυξάνοντα μαζί αφού σ 12 > 0 = E[ X X ] E[ X ] E[ X ] 12 1 2 1 2

Συσχέτιση Δύο Μεταβλητών Συσχέτιση μεταξύ δύο μεταβλητών X 1 και X 2 είναι η τυπική συνδιακύμανση που προκύπτει από την κανονικοποίηση της συνδιακύμανσης με την τυπική απόκλιση κάθε μεταβλητής 12 12 Συσχέτιση Δείγματος για δύο μεταβλητές X 1 και X 2 : 12 = = 2 2 1 2 1 2 ˆ 12 ˆ n ( x ˆ )( x ˆ ) i1 1 i2 2 12 i= 1 = = ˆ ˆ n n 1 2 2 2 ( x ˆ ˆ i1 1) ( xi2 2) i= 1 i= 1 20 όπου n το πλήθος των τιμών, µ 1 και µ 2 οι αντίστοιχες μέσες τιμές των X 1 και X 2, σ 1 και σ 2 οι αντίστοιχες τυπικές αποκλίσεις των X 1 και X 2 Αν ρ 12 > 0: A και B θετικά συσχετισμένα (οι τιμές X 1 αυξάνουν όπως οι X 2 ) Όσο πιο μεγάλη η τιμή, τόσο πιο ισχυρή η συσχέτιση Αν ρ 12 = 0: ανεξάρτητα (κάτω από τις ίδιες προϋποθέσεις με τη συνδιακύμανση) Αν ρ 12 < 0: αρνητικά συσχετισμένα

21 Οπτικοποίηση Μεταβολών Συντελεστή Συσχέτισης Εύρος τιμής συντελεστή συσχέτισης: [ 1, 1] Ένα σύνολο γραφημάτων διασποράς δείχνει τα σύνολα σημείων όταν οι συντελεστές συσχέτισης τους αλλάζουν από 1 μέχρι 1

Ενότητα 3: Προ-επεξεργασία Δεδομένων Προ-επεξεργασία Δεδομένων: Επισκόπηση Καθαρισμός Δεδομένων Ενσωμάτωση Δεδομένων Περιορισμός και Μετασχηματισμός Δεδομένων Περιορισμός Διαστάσεων 22 Σύνοψη

Μείωση Δεδομένων Μείωση δεδομένων: Μειωμένη αναπαράσταση του συνόλου δεδομένων πολύ μικρότερος όγκος αλλά σχεδόν τα ίδια αναλυτικά αποτελέσματα 23 Γιατί μείωση των δεδομένων; - Μια βάση δεδομένων / αποθήκη δεδομένων μπορεί να αποθηκεύει terabyte δεδομένων Μια πολύπλοκη ανάλυση ενδέχεται να διαρκέσει πολύ μεγάλο χρονικό διάστημα για να εκτελεστεί στο πλήρες σύνολο δεδομένων Μέθοδοι για τη μείωση των δεδομένων (μείωση μεγέθους δεδομένων ή μείωση αριθμητικότητας) Παλινδρόμηση Ιστογράμματα, ομαδοποίηση, δειγματοληψία Συσσώρευση κύβου δεδομένων Συμπίεση δεδομένων

24 Μείωση Δεδομένων: Παραμετρικές και Μη-Παραμετρικές Μέθοδοι Περιορισμός του όγκου δεδομένων με την επιλογή εναλλακτικών μικρότερων μορφών αναπαράστασης των δεδομένων Παραμετρικές μέθοδοι (π.χ., παλινδρόμηση) Με την υπόθεση ότι τα δεδομένα ακολουθούν κάποιο μοντέλο, γίνεται εκτίμηση των παραμέτρων, αποθηκεύονται οι παράμετροι και απορρίπτονται τα δεδομένα (εκτός ίσως από τις ακραίες τιμές) Μη-Παραμετρικές μέθοδοι Δεν προϋποθέτουν μοντέλα Κύριες κατηγορίες: ιστογράμματα, ομαδοποίηση, δειγματοληψία, Ιστόγραμμα Φιλοδώρημα και Λογαριασμός Ομαδοποίηση στα αρχικά δεδομένα Στρωματοποιημένη δειγματοληψία

25 Παραμετρική Μείωση Δεδομένων: Ανάλυση Παλινδρόμησης Ανάλυση Παλινδρόμησης: Μια Συλλογική ονομασία για τεχνικές μοντελοποίησης και ανάλυσης αριθμητικών δεδομένων με μια εξαρτημένη μεταβλητή και μια ή περισσότερες ανεξάρτητες μεταβλητές (γνωστές και ως επεξηγηματικές μεταβλητές ή προγνωστικοί δείκτες) Οι παράμετροι εκτιμώνται έτσι ώστε να δίνουν την "καλύτερη προσαρμογή" των δεδομένων Πιο συχνά η καλύτερη προσαρμογή αξιολογείται με τη χρήση της μεθόδου των ελαχίστων τετραγώνων, αλλά χρησιμοποιούνται και άλλα κριτήρια y Y 1 Y 1 X 1 y = x + 1 Χρησιμοποιείται για πρόβλεψη (συμπεριλαμβανομένης της πρόβλεψης δεδομένων χρονολογικών σειρών), εξαγωγή συμπερασμάτων, έλεγχο υποθέσεων και μοντελοποίηση αιτιακών σχέσεων x

Γραμμική και Πολλαπλή Παλινδρόμηση Γραμμική Παλινδρόμηση: Y = w X + b Τα δεδομένα προσαρμόζονται σε μια ευθεία γραμμή Συχνά χρησιμοποιεί τη μέθοδο ελαχίστων τετραγώνων για τη προσαρμογή της γραμμής Δύο συντελεστές παλινδρόμησης, w και b, προσδιορίζουν τη γραμμή και πρέπει να εκτιμηθούν με τη χρήση των δεδομένων Χρησιμοποιώντας το κριτήριο των ελάχιστων τετραγώνων στις γνωστές τιμές του Y 1, Y 2,, X 1, X 2,. Μη-Γραμμική Παλινδρόμηση: Τα δεδομένα μοντελοποιούνται από μια συνάρτηση η οποία είναι ένας μη γραμμικός συνδυασμός των παραμέτρων του μοντέλου και εξαρτάται από μία ή περισσότερες ανεξάρτητες μεταβλητές Τα δεδομένα προσαρμόζονται με μια μέθοδο διαδοχικών προσεγγίσεων 26

27 Πολλαπλή Παλινδρόμηση και Μοντέλα Log-Linear Πολλαπλή Παλινδρόμηση: Y = b 0 + b 1 X 1 + b 2 X 2 Επιτρέπει μια μεταβλητή Υ να διαμορφώνεται ως γραμμική συνάρτηση ενός πολυδιάστατου διανύσματος χαρακτηριστικών Log-linear μοντέλο: Ένα μαθηματικό μοντέλο που παίρνει τη μορφή μίας συνάρτησης της οποίας ο λογάριθμος είναι ένας γραμμικός συνδυασμός των παραμέτρων του μοντέλου, που καθιστά δυνατή την εφαρμογή (πιθανώς πολυπαραμετρική) γραμμικής παλινδρόμησης Εκτίμηση της πιθανότητας κάθε σημείου σε ένα πολυδιάστατο χώρο για ένα σύνολο διακριτοποιημένων χαρακτηριστικών, με βάση ένα μικρότερο υποσύνολο διαστάσεων Χρήσιμο για τη μείωση των διαστάσεων και την εξομάλυνση των δεδομένων

Ανάλυση Ιστογράμματος Διαχωρισμός των δεδομένων σε καλάθια και αποθήκευση του μέσου όρου (άθροισμα) για κάθε καλάθι Κανόνες διαχωρισμού: Ίσο πλάτος: ίσο εύρος καλαθιού Ίση συχνότητα (ή ίσο βάθος) 40 35 30 25 20 15 10 5 0 10000 30000 50000 70000 90000 28

Ομαδοποίηση (Clustering) Διαχωρισμός δεδομένων σε συστάδες βασισμένες στην ομοιότητα, και αποθήκευση των στοιχείων που αντιπροσωπεύουν τη συστάδα (π.χ., κεντρική τάση και διάμετρος) Μπορεί να είναι πολύ αποτελεσματική εάν τα δεδομένα είναι ομαδοποιημένα αλλά όχι εάν τα δεδομένα είναι μπλεγμένα Μπορεί να έχει ιεραρχική ομαδοποίηση και μπορεί να αποθηκευτεί σε πολυδιάστατες δεντρικές δομές Υπάρχουν πολλές επιλογές ορισμών και αλγόριθμων ομαδοποίησης 29

Δειγματοληψία Δειγματοληψία: λήψη ενός μικρού δείγματος s αντιπροσωπευτικού ολόκληρου του συνόλου δεδομένων N Επιτρέπει σε έναν αλγόριθμο εξόρυξης να λειτουργεί σε πολυπλοκότητα που είναι δυνητικά υπο-γραμμική ως προς το μέγεθος των δεδομένων Βασική αρχή: Επιλέξτε ένα αντιπροσωπευτικό υποσύνολο των δεδομένων Η απλή τυχαία δειγματοληψία μπορεί να έχει πολύ χαμηλή επίδοση όταν υπάρχει κυρτότητα Ανάπτυξη προσαρμοστικών μεθόδων δειγματοληψίας, π.χ., στρωματοποιημένη δειγματοληψία: Σημείωση: Η δειγματοληψία ενδέχεται να μην μειώνει τα I/O της βάσης δεδομένων (μια σελίδα κάθε φορά) 30

Είδη Δειγματοληψίας Απλή τυχαία δειγματοληψία: Ίση πιθανότητα επιλογής συγκεκριμένου στοιχείου Δειγματοληψία χωρίς αντικατάσταση Μόλις επιλεγεί ένα αντικείμενο, αφαιρείται από τον πληθυσμό Δειγματοληψία με αντικατάσταση Ένα επιλεγμένο αντικείμενο δεν αφαιρείται από τον πληθυσμό Στρωματοποιημένη δειγματοληψία Διαχωρισμός (ή ομαδοποίηση) του συνόλου δεδομένων, και λήψη δείγματος από κάθε τμήμα (αναλογικά) Αρχικά Δεδομένα Στρωματοποιημένη δειγματοληψία 31

Συνάθροιση Κύβου Δεδομένων Το χαμηλότερο επίπεδο ενός κύβου δεδομένων (βασικός κύβος) Τα συγκεντρωτικά στοιχεία για μια μεμονωμένη οντότητα Πολλαπλά επίπεδα συσσωμάτωσης σε κύβους δεδομένων Περαιτέρω μείωση του μεγέθους των δεδομένων Αναφορά στο κατάλληλο επίπεδο Χρήση της μικρότερης παράστασης που αρκεί για τη λύση του προβλήματος Ερωτήματα που αφορούν συγκεντρωτικές πληροφορίες απαντώνται χρησιμοποιώντας κύβους δεδομένων, όταν είναι δυνατόν 32

Συμπίεση συμβολοσειράς Συμπίεση Δεδομένων 33 Υπάρχουν εκτεταμένες θεωρίες και καλά συντονισμένοι αλγόριθμοι Συνήθως χωρίς απώλειες Συμπίεση ήχου / βίντεο Συμπίεση με απώλειες, με προοδευτική βελτίωση Μερικές φορές μικρά κομμάτια σήματος μπορούν να ανακατασκευαστούν χωρίς να ανακατασκευάζεται το σύνολο Η χρονική ακολουθία δεν είναι ηχητική Συνήθως είναι σύντομες και διαφοροποιούνται αργά με το χρόνο Η μείωση των δεδομένων και η μείωση των διαστάσεων μπορούν επίσης να θεωρηθούν ως μορφές συμπίεσης δεδομένων Αρχικά Δεδομένα Αρχικά Δεδομένα κατά προσέγγιση Συμπιεσμένα Δεδομένα Χωρίς απώλειες Με απώλειες και χωρίς απώλειες συμπίεση

Μετασχηματισμός Δεδομένων 34 Μια συνάρτηση που απεικονίζει το σύνολο των τιμών μιας δεδομένης ιδιότητας σε ένα νέο σύνολο τιμών (κάθε παλιά τιμή μπορεί να αντιστοιχηθεί με μία από τις νέες τιμές) Μέθοδοι Ομαλοποίηση: Αφαίρεση θορύβου από τα δεδομένα Δημιουργία χαρακτηριστικών Νέες ιδιότητες κατασκευάζονται από τις αρχικές Συνάθροιση: Σύνοψη, κατασκευή κύβου δεδομένων Κανονικοποίηση: Κλιμάκωση ώστε να εμπίπτει σε μικρότερο, καθορισμένο εύρος Κανονικοποίηση min-max Κανονικοποίηση z-score Κανονικοποίηση σε δεκαδική κλίμακα Διακριτοποίηση: Αναρρίχηση στην ιεραρχίας εννοιών

Κανονικοποίηση (Normalization) Min-max κανονικοποίηση : σε [new_min A, new_max A ] v min maxa min Π.χ. Έστω εισόδημα με εύρος $12,000 έως $98,000 κανονικοποιείται στο [0.0, 1.0] Τότε $73,000 απεικονίζεται στο v A ' = ( new _ maxa new _ mina) + 73,600 12,000 (1.0 0) + 0 = 0.716 98,000 12,000 Z-score κανονικοποίηση (μ: μέσος, σ: τυπική απόκλιση): A new _ min A 35 v' = A A Π.χ. Έστω μ = 54,000, σ = 16,000. Τότε v Z-score: Η απόσταση μεταξύ της αρχικής τιμής και του μέσου του πληθυσμού στη μονάδα της τυπικής απόκλισης 73,600 54,000 = 1.225 16,000 Κανονικοποίηση με δεκαδική κλίμακα v v'= Όπου j ο μικρότερος ακέραιος ώστε Max( ν ) < 1 j 10

Διακριτοποίηση (Discretization ) Τρεις τύποι χαρακτηριστικών Ονομαστικά τιμές από ένα μη ταξινομημένο σύνολο, π.χ. χρώμα, επάγγελμα Τακτικά τιμές από ένα ταξινομημένο σύνολο, π.χ. στρατιωτική ή ακαδημαϊκή κατάταξη Αριθμητικά πραγματικοί αριθμοί, π.χ., ακέραιοι ή πραγματικοί αριθμοί Διακριτοποίηση: Διαχωρίζει το εύρος ενός συνεχούς χαρακτηριστικού σε διαστήματα Οι ετικέτες διαστήματος μπορούν στη συνέχεια να χρησιμοποιηθούν για να αντικαταστήσουν τις πραγματικές τιμές δεδομένων Μείωση του μεγέθους των δεδομένων Με ή χωρίς επιτήρηση Διαίρεση (από πάνω προς τα κάτω) έναντι συγχώνευσης (από κάτω προς τα πάνω) Η διακριτοποίηση μπορεί να εφαρμοστεί αναδρομικά σε ένα χαρακτηριστικό Προετοιμασία για περαιτέρω ανάλυση, π.χ. κατηγοριοποίηση 36

Μέθοδοι Διακριτοποίησης Δεδομένων Μέθοδος καλαθιού (Binning) Διαχωρισμός από πάνω προς τα κάτω, χωρίς επίβλεψη Ανάλυση ιστογράμματος Διαχωρισμός από πάνω προς τα κάτω, χωρίς επίβλεψη Ανάλυση συστάδων Μη επιτηρούμενη, διαχωρισμός από πάνω προς τα κάτω ή από κάτω προς τα πάνω συγχώνευση Ανάλυση δέντρων απόφασης Επιτηρούμενη, διαχωρισμός από πάνω προς τα κάτω Ανάλυση συσχέτισης (π.χ., 2 ) Μη επιτηρούμενη, συγχώνευση από κάτω προς τα πάνω Σημείωση: Όλες οι μέθοδοι μπορούν να εφαρμοστούν αναδρομικά 37

38 Απλή Διακριτοποίηση: Μέθοδος Καλαθιού (Binning) Διαχωρισμός ίσου πλάτους (απόστασης) Διαιρεί το εύρος σε N διαστήματα ίσου μεγέθους: ομοιόμορφο πλέγμα Αν A και B είναι η ελάχιστη και η μέγιστη του χαρακτηριστικού, το πλάτος των διαστημάτων θα είναι: W = (B A)/N. Οι πιο απλές, αλλά οι ακραίες τιμές μπορεί να κυριαρχούν στην παρουσίαση Τα κυρτά δεδομένα δεν αντιμετωπίζονται καλά Διαχωρισμός ίσου βάθους (συχνότητας) Διαχωρίζει το εύρος σε N διαστήματα, το καθένα από τα οποία περιέχει περίπου τον ίδιο αριθμό δειγμάτων Καλή κλιμάκωση δεδομένων Η διαχείριση κατηγορικών χαρακτηριστικών μπορεί να είναι δύσκολη

Παράδειγμα: Μέθοδοι Καλαθιού για Εξομάλυνση Δεδομένων 39 Ταξινόμηση ως προς τη τιμή: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Διαχωρισμός σε καλάθια με ίση συχνότητα (equi-depth): - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Εξομάλυνση με το μέσο του καλαθιού: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Εξομάλυνση με τα όρια του καλαθιού: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

Διακριτοποίηση Χωρίς Επίβλεψη: Binning vs. Clustering Δεδομένα Ίσο πλάτος (απόσταση) καλαθιού 40 Ίσο βάθος (συχνότητα) καλαθιού Η ομαδοποίηση K-μέσων οδηγεί σε καλύτερα αποτελέσματα

41 Διακριτοποίηση με Κατηγοριοποίηση & Ανάλυση Συσχέτισης Κατηγοριοποίηση (π.χ., decision tree analysis) Εποπτευόμενη: Δεδομένων των ετικετών κατηγορίας, π.χ., καρκινικές ή καλοήθεις Χρησιμοποιώντας την εντροπία (entropy) για τον προσδιορισμό του σημείου διαχωρισμού (σημείο διακριτοποίησης) Από την κορυφή προς τα κάτω, αναδρομικός διαχωρισμός Ανάλυση Συσχέτισης (π.χ., Chi-merge: Διακριτοποίηση βασισμένη στη χ 2 ) Εποπτευόμενη: χρήση πληροφοριών κλάσης Συγχώνευση από κάτω προς τα πάνω: Εύρεση των καλύτερων γειτονικών διαστημάτων (αυτά που έχουν παρόμοιες κατανομές των κλάσεων, π.χ., χαμηλές χ 2 τιμές) για συγχώνευση Η συγχώνευση εφαρμόζεται αναδρομικά, μέχρι να ικανοποιηθεί μια προκαθορισμένη συνθήκη τερματισμού

Δημιουργία Ιεραρχίας Εννοιών Η Ιεραρχία εννοιών (concept hierarchy) οργανώνει τις έννοιες (δηλ., τις τιμές γνωρισμάτων) ιεραρχικά και συνήθως συσχετίζεται με τις διαστάσεις στην αποθήκη δεδομένων Η ιεραρχία εννοιών διευκολύνει την εμβάθυνση (drilling) και την συσσώρευση (rolling) στην αποθήκη δεδομένων ώστε να ιδωθούν τα δεδομένα υπό διάφορες πληθικότητες Δημιουργία ιεραρχίας εννοιών: Αναδρομικός περιορισμός των δεδομένων με συλλογή και αντικατάσταση έννοιών χαμηλού επιπέδου (όπως αριθμητικές τιμές για την ηλικία) με έννοιες υψηλότερου επιπέδου (όπως οι νέοι, οι ενήλικοι ή οι ηλικιωμένοι) Οι ιεραρχίες των εννοιών μπορούν να καθοριστούν ρητά από τους ειδικούς του τομέα εφαρμογής και/ή τους σχεδιαστές της αποθήκης δεδομένων Η ιεραρχία εννοιών μπορεί να διαμορφωθεί αυτόματα τόσο για αριθμητικά όσο και για ονομαστικά δεδομένα - Για αριθμητικά δεδομένα, χρησιμοποιούνται οι μεθόδοι διακριτοποίησης 42

43 Δημιουργία Ιεραρχίας Εννοιών για Ονομαστικά Δεδομένα Καθορισμός μερικής / ολικής διάταξης χαρακτηριστικών ρητά στο επίπεδο του σχήματος από τους χρήστες ή εμπειρογνώμονες street < city < state < country Καθορισμός ιεραρχίας για ένα σύνολο τιμών μέσω ρητής ομαδοποίησης δεδομένων {Αθήνα, Σπάτα, Λούτσα} < Αττική Καθορισμός μόνο ενός μερικού συνόλου χαρακτηριστικών Π.χ., μόνο street < city, όχι τα άλλα Αυτόματη δημιουργία ιεραρχιών (ή επιπέδων χαρακτηριστικών) με την ανάλυση του αριθμού διακριτών τιμών Π.χ., για ένα σύνολο χαρακτηριστικών: {street, city, state, country}

44 Αυτόματη Δημιουργία Ιεραρχίας Εννοιών Κάποιες ιεραρχίες μπορούν να δημιουργηθούν αυτόματα με την ανάλυση του αριθμού των διαφορετικών τιμών ανά χαρακτηριστικό στο σύνολο δεδομένων Το χαρακτηριστικό με τις περισσότερο διακριτές τιμές τοποθετείται στο χαμηλότερο επίπεδο της ιεραρχίας Εξαιρέσεις, π.χ., ημέρα της εβδομάδας, μήνας, τρίμηνο, έτος country province_or_ state city street 15 διαφορετικές τιμές 365 διαφορετικές τιμές 3567 διαφορετικές τιμές 674,339 διαφορετικές τιμές

Ενότητα 3: Προ-επεξεργασία Δεδομένων Προ-επεξεργασία Δεδομένων: Επισκόπηση Καθαρισμός Δεδομένων Ενσωμάτωση Δεδομένων Περιορισμός και Μετασχηματισμός Δεδομένων Περιορισμός Διαστάσεων 45 Σύνοψη

Μείωση Διαστάσεων 46 Η κατάρα των πολλών συνιστωσών Όταν αυξάνονται οι διαστάσεις, τα δεδομένα γίνονται ολοένα και πιο αραιά Η πυκνότητα και η απόσταση μεταξύ των σημείων, η οποία είναι κρίσιμη για την ομαδοποίηση, την ανάλυση ακραίων τιμών, γίνεται λιγότερο σημαντική Οι πιθανοί συνδυασμοί υποπεριοχών αυξάνονται εκθετικά Μείωση Διαστάσεων Μείωση του αριθμού των τυχαίων μεταβλητών υπό εξέταση, μέσω της λήψης ενός συνόλου κύριων μεταβλητών Πλεονεκτήματα της μείωσης των διαστάσεων Αποφυγή της κατάρας των διαστάσεων Βοηθά στην εξάλειψη άσχετων χαρακτηριστικών και στη μείωση του θορύβου Μείωση του απαιτούμενου χρόνου και χώρου για την εξόρυξη δεδομένων Επιτρέπει την ευκολότερη οπτικοποίηση

47 Τεχνικές Μείωσης Διαστάσεων Μεθοδολογίες μείωσης διαστάσεων Επιλογή χαρακτηριστικών: Εύρεση ενός υποσυνόλου των αρχικών μεταβλητών Εξαγωγή χαρακτηριστικών: Μετασχηματισμός των δεδομένων από ένα χώρο πολλών διαστάσεων σε ένα χώρο με λιγότερες διαστάσεις Μερικές τυπικές μέθοδοι μείωσης διαστάσεων Ανάλυση κυρίων συνιστωσών (Principal Component Analysis) Εποπτευόμενες και μη γραμμικές τεχνικές Επιλογή υποσυνόλου χαρακτηριστικών Δημιουργία χαρακτηριστικών

Ανάλυση Κυρίων Συνιστωσών (PCA) PCA: Μια στατιστική διαδικασία που χρησιμοποιεί έναν μετασχηματισμό για τη μετατροπή ενός συνόλου παρατηρήσεων πιθανώς συσχετισμένων μεταβλητών σε ένα σύνολο τιμών γραμμικά μη συσχετισμένων μεταβλητών που ονομάζονται κύριες συνιστώσες (principal components) Τα αρχικά δεδομένα προβάλλονται σε ένα πολύ μικρότερο χώρο, με αποτέλεσμα τη μείωση των διαστάσεων 48 Έχει εφαρμογή μόνο για αριθμητικά δεδομένα Η μπάλα ταξιδεύει σε ευθεία γραμμή. Τα δεδομένα από τις τρεις κάμερες περιέχουν μεγάλο πλεονασμό

49 Επιλογή Υποσυνόλου Χαρακτηριστικών Ένας άλλος τρόπος να μειωθούν οι πολλές διαστάσεις των δεδομένων Πλεονάζοντα χαρακτηριστικά Διπλασιάζουν πολλές ή όλες τις πληροφορίες που περιέχονται σε ένα ή περισσότερα από τα άλλα χαρακτηριστικά Π.χ., η τιμή αγοράς ενός προϊόντος και το ποσό του φόρου επί των πωλήσεων που καταβλήθηκε Άσχετα χαρακτηριστικά Δεν περιέχουν πληροφορίες που είναι χρήσιμες για την εξόρυξη δεδομένων που επιχειρείται Π.χ. Το αναγνωριστικό ενός φοιτητή είναι άσχετο με την πρόβλεψη της τελικής του βαθμολογίας

50 Δημιουργία Χαρακτηριστικών Δημιουργία νέων χαρακτηριστικών που μπορούν να καταγράψουν τις σημαντικές πληροφορίες σε ένα σύνολο δεδομένων πιο αποτελεσματικά από τα αρχικά Τρεις γενικές μεθοδολογίες Εξαγωγή χαρακτηριστικών Εξειδικευμένο για κάθε τομέα Απεικόνιση δεδομένων σε νέο χώρο Π.χ. μετασχηματισμός Fourier, κυματοειδής μετασχηματισμός, Κατασκευή χαρακτηριστικών Συνδυασμός χαρακτηριστικών Διακριτοποίηση δεδομένων

Ενότητα 3: Προ-επεξεργασία Δεδομένων Προ-επεξεργασία Δεδομένων: Επισκόπηση Καθαρισμός Δεδομένων Ενσωμάτωση Δεδομένων Περιορισμός και Μετασχηματισμός Δεδομένων Περιορισμός Διαστάσεων 51 Σύνοψη

52 Σύνοψη Ποιότητα δεδομένων: ακρίβεια, πληρότητα, συνέπεια, επικαιρότητα, πιστότητα, ερμηνεία Καθαρισμός δεδομένων: π.χ. Ελλιπείς / θορυβώδεις τιμές, ακραίες τιμές Ενσωμάτωση δεδομένων από πολλαπλές πηγές: Πρόβλημα ταυτοποίησης οντότητας. Αφαίρεση πλεονασμού. Εντοπισμός ασυνεπειών Μείωση δεδομένων, μετασχηματισμός δεδομένων και διακριτοποίηση δεδομένων Μείωση αριθμητικότητας. Συμπίεση δεδομένων Κανονικοποίηση. Δημιουργία ιεραρχίας εννοιών Μείωση διαστάσεων