Εξόρυξη Δεδομένων: Εξερευνώντας τα δεδομένα Data Mining: Exploring Data Lecture Notes for Chapter 3 Introduction to Data Mining by Tan, Steinbach, Kumar 1
Τι είναι εξερεύνηση/διερεύνηση των δεδομένων; Μια αρχική διερεύνηση των δεδομένων για να καταλάβουμε καλύτερα τα χαρακτηριστικά τους Κύρια κίνητρα για την διερεύνηση των δεδομένων: Βοηθάει στην επιλογή του κατάλληλου εργαλείου για προεπεξεργασία ή ανάλυση Κάνει χρήση της ικανότητας του ανθρώπου να αναγνωρίζει μοτίβα/πρότυπα (patterns) Οι άνθρωποι μπορούν να αναγνωρίζουν μοτίβα που δεν συλλαμβάνονται από εργαλεία ανάλυσης δεδομένων Σχετίζεται με την περιοχή της διερευνητικής ανάλυσης Δεδομένων (Exploratory Data Analysis (EDA)) Δημιουργήθηκε από το στατιστικολόγο John Tukey Σημαντικό βιβλίο είναι το Exploratory Data Analysis του Tukey Μια καλή εισαγωγή μπορεί να βρεθεί στο πρώτο κεφάλαιο του NIST Engineering Statistics Handbook 2 http://www.itl.nist.gov/div898/handbook/index.htm
Τεχνικές που χρησιμοποιούνται στην διερεύνηση δεδομένων Στην EDA, όπως αρχικά ορίστηκε από τον Tukey: Η έμφαση ήταν στην απεικόνιση (visualization) Η ομαδοποίηση και η ανίχνευση ανωμαλιών θεωρούνταν διερευνητικές τεχνικές Στην εξόρυξη δεδομένων η ομαδοποίηση (clustering) και η ανίχνευση ανωμαλιών (anomaly detection) αποτελούν ξεχωριστές περιοχές και δεν θεωρούνται EDA. Στην παρουσίαση μας στην διερευνητική ανάλυση θα δώσουμε έμφαση σε: Συγκεντρωτικά στατιστικά (Summary statistics) Απεικόνιση (Visualization) 3
Το Iris Data Set Πολλές από τις διερευνητικές τεχνικές παρουσιάζονται χρησιμοποιώντας το Iris Plant data set. Είναι διαθέσιμο από το UCI Machine Learning Repository (υπάρχει και στο WEKA) http://www.ics.uci.edu/~mlearn/mlrepository.html «Δημιουργήθηκε» από τον στατιστικολόγο Douglas Fisher Τρεις τύποι λουλουδιών (τάξεις-classes): Setosa Virginica Versicolour Τέσσερα (πέρα από την τάξη/ ) χαρακτηριστικά (attributes) Μήκος και πλάτος σεπάλων Μήκος και πλάτος πετάλων Virginica. Robert H. Mohlenbrock. USDA NRCS. 1995. Northeast wetland flora: Field office guide to plant species. Northeast National Technical Center, Chester, PA. Courtesy of 4 USDA NRCS Wetland Science Institute.
Συγκεντρωτικά στατιστικά (Summary Statistics) Τα συγκεντρωτικά στατιστικά (Summary statistics) είναι αριθμοί που παρέχουν μια περίληψη των ιδιοτήτων των δεδομένων Οι συγκεντρωτικές ιδιότητες περιλαμβάνουν, συχνότητες, «τοποθεσία» (location) και «διάστημα» (spread) Παράδειγμα: τοποθεσία μέση τιμή (mean) εύρος/διάστημα τυπική απόκλιση (standard deviation) Τα περισσότερα από αυτά τα στατιστικά μπορούν να υπολογιστούν με ένα μόνο πέρασμα των δεδομένων 5
Συχνότητα και επικρατούσα τιμή (Frequency, Mode) Η συχνότητα μίας τιμής ενός χαρακτηριστικού είναι το ποσοστό των φορών που η τιμή αυτή εμφανίζεται στο σύνολο των δεδομένων Για παράδειγμα, για το χαρακτηριστικό «φύλο» και ένα αντιπροσωπευτικό δείγμα του πληθυσμού, το φύλο «γυναίκα» εμφανίζεται περίπου 50% των φορών. Η επικρατούσα τιμή ενός χαρακτηριστικού (mode) είναι η πιο συχνά εμφανιζόμενη τιμή Οι έννοιες της συχνότητας και της επικρατούσας τιμής εμφανίζονται κυρίως για 6 κατηγορικά δεδομένα (categorical data)
Ποσοστιαία σημεία ή Εκατοστημόρια (Percentiles) Για συνεχή δεδομένα, η χρήση των ποσοστιαίων (σημείων) percentiles είναι πιο χρήσιμη. Δεδομένης μίας διατεταγμένης ή συνεχούς μεταβλητής x και ενός αριθμού p μεταξύ 0 και 100, το p οστό percentile είναι μία τιμή του x ( x p )έτσι ώστε το p% των τιμών του x να είναι μικρότερο από αυτή την τιμή. Για παράδειγμα, το 50th percentile, είναι η τιμή x 50% έτσι ώστε το 50% όλων των τιμών του x να είναι μικρότερες του x 50%. x p 7
Παράδειγμα Έστω σε διάταξη τους αριθμούς: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Τα αντίστοιχα εκατοστημόρια τους x 0% x10% x20% x30% x40% x50% x60% x70% x80% x90% x100% θα είναι: 1.0, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 10.0 Ακόμα min(x)= x 0% και max(x)= x 100% 8
Μέτρηση θέσης: Μέση τιμή ή μέσος (mean) και ενδιάμεση (διάμεσος) τιμή (Median) Η μέση τιμή (μέσος- mean) είναι το πιο συχνό μέτρο για τη «θέση» (location) ενός συνόλου από σημείο. Παρόλα αυτά η μέση τιμή είναι πολύ ευαίσθητη σε ακραίες τιμές (outliers). Συνεπώς, η ενδιάμεση ή μια «ψαλιδισμένη» μέση τιμή χρησιμοποιούνται συχνά 9
Μέτρηση θέσης: Μέση τιμή ή μέσος (mean) και ενδιάμεση (διάμεσος) τιμή (Median) Ο μέσος είναι η μεσαία τιμή ενός συνόλου τιμών ΜΟΝΟ όταν αυτές κατανέμονται με συμμετρικό τρόπο. Για ασύμμετρες τιμές χρησιμοποιείται η διάμεσος Η «ψαλιδισμένη» ή περικομμένου μέσου (trimmed mean). Χρησιμοποιείται ένα ποσοστό p, οπότε αποκόβεται το (p/2)% των δεδομένων από το ανώτερο και κατώτερο πλήθος τους και μετά υπολογίζεται ο μέσος. Παράδειγμα Έστω το σύνολο δεδομένων {1, 2, 3, 4, 5, 90}. Ο μέσος όρος (mean) είναι: 17,5 Η διάμεσος (median) είναι: 3,5 O περικομμένος μέσους (trimmed mean) με p=40% είναι 3,5. 10
Μέτρα διαστήματος: διάστημα τιμών και διακύμανση (Measures of Spread: Range and Variance) Το εύρος τιμών (Range) είναι η διαφορά μεταξύ της μέγιστης και της ελάχιστης τιμής range(x)=max(x)-min(x)=xm-x1 Το εύρος προσδιορίζει τη μέγιστη διασπορά, αλλά είναι παραπλανητικό όταν οι τιμές συγκεντρώνονται σε μια μικρή περιόχή τιμών και υπάρχει και μικρό πλήθος ακραίων τιμών. Οπότε τότε προτιμάται η διακύμανση (variance) ενός χαρακτηριστικού: 11
Μέτρα διαστήματος: διάστημα τιμών και διακύμανση (Measures of Spread: Range and Variance) Η διακύμανση ή η τυπική απόκλιση είναι τα πιο συχνά χρησιμοποιούμενα μέτρα για τον υπολογισμό του φάσματος που καλύπτουν ένα σύνολο από σημεία. Η διακύμανση είναι ιδιαίτερα ευαίσθητη στις ακραίες τιμές. Οπότε χρησιμοποιούνται: Η απόλυτη μέση απόκλιση : Διάμεσος απόλυτη απόκλιση: Ενδοτεταρτημοριακό εύρος: 12
Οπτικοποίηση (Visualization) Οπτικοποίηση είναι η μετατροπή των δεδομένων σε μία μορφή που μπορεί να απεικονισθεί ή να παρουσιαστεί γραφική μορφή ή μορφή πίνακα έτσι ώστε οι ιδιότητες των δεδομένων και οι σχέσεις μεταξύ των δεδομένων και τα γνωρίσματά τους να μπορούν να αναλυθούν ή να παρουσιαστούν. Στόχος είναι να ερμηνευτεί από ένα άτομο η οπτικοποιημένη πληροφορία Η απεικόνιση των δεδομένων είναι από τις πιο ισχυρές και ελκυστικές μεθόδους της διερευνητικής ανάλυσης δεδομένων. Οι άνθρωποι έχουν πολύ αναπτυγμένη ικανότητα για την ανάλυση μεγάλων ποσοτήτων πληροφορίας που παρουσιάζεται με οπτικά μέσα Μπορούν να ανιχνεύσουν μοτίβα και τάσεις (patterns, trends) Μπορούν να ανιχνεύσουν ακραίες τιμές (outliers) και ασυνήθιστα μοτίβα (patterns) 13
Παράδειγμα: Θερμοκρασία στην επιφάνεια της θάλασσας Η παρακάτω εικόνα παρουσιάζει την θερμοκρασία στην επιφάνεια της θάλασσας (Sea Surface Temperature (SST)) για τον Ιούλιο του 1982 Δεκάδες χιλιάδες σημείων (250.000) συνοψίζονται σε μία μόνο εικόνα 14
Αναπαράσταση Είναι η απεικόνιση πληροφορίας με «οπτικά» μέσα Αντικείμενα (Data objects), τα χαρακτηριστικά τους (attributes), και η αναπαράσταση μεταξύ των αντικειμένων μετασχηματίζονται σε γραφικά στοιχεία όπως, σημεία, γραμμές, σχήματα και χρώματα. Παράδειγμα: Αντικείμενα συχνά αναπαρίστανται ως σημεία Τα χαρακτηριστικά τους μπορούν να αναπαρασταθούν με τη θέση των σημείων ή από τις ιδιότητες των σημείων δηλαδή, χρώμα, μέγεθος και το σχήμα Εάν η θέση χρησιμοποιηθεί τότε οι σχέσεις των σημείων πχ εάν δημιουργούν ομάδες ή εάν ένα σημείο αποτελεί ένα ακραίο αντικείμενο (outlier), γίνονται εύκολα αντιληπτές. 15
Τακτοποίηση (Arrangement) Είναι η τοποθέτηση οπτικών αντικειμένων σε ένα κατάλληλο μέσο Μπορεί να κάνει τη διαφορά στο πόσο εύκολο είναι να καταλάβει κανείς τα δεδομένα Παράδειγμα (9 αντικείμενα με 6 δυαδικά χαρακτηριστικά): 16
Επιλογή (Selection) Είναι η εξάλειψη ή η εξαφάνιση συγκεκριμένων αντικειμένων και χαρακτηριστικών. Αντικείμενα δεδομένων με λίγες διαστάσεις απεικονίζονται σε διδιάστατη ή τρισδιάσταση γραφική παράσταση. Όταν υπάρχουν πολλά χαρακτηριστικά και πολλά αντικείμενα τότε απαιτείται επιλογή. Η επιλογή μπορεί να περιλαμβάνει την επιλογή ορισμένων υποσυνόλων χαρακτηριστικών για απεικόνιση Η μείωση της διάστασης (Dimensionality reduction ) χρησιμοποιείται συχνά για την μείωση των διαστάσεων σε 2 ή 3. Εναλλακτικά, ζεύγη από χαρακτηριστικά μπορούν να θεωρηθούν Η επιλογή μπορεί να περιλαμβάνει την επιλογή ενός υποσυνόλου από αντικείμενα Μία περιοχή της οθόνης μπορεί να δείξει έναν ορισμένο αριθμό από σημεία Μπορούμε να δειγματοληπτούμε αλλά θέλουμε να διατηρούμε σημεία σε περιοχές που είναι αραιή η συγκέντρωσή τους 17
Τεχνικές απεικόνισης: Ιστογράμματα (Histograms) Ιστόγραμμα (Histogram) Συνήθως απεικονίζουν την κατανομή των τιμών μίας μεταβλητής Χωρίζουμε τις τιμές σε κελιά (bins)και δείχνουμε με ραβδογράμματα (bar plot) τον αριθμό των αντικειμένων σε κάθε. Το ύψος της ράβδου σε κάθε κελί δείχνει και τον αριθμό των αντικειμένων Το σχήμα των ιστογραμμάτων εξαρτάται από τον αριθμό των κελιών Παράδειγμα: Πλάτος πετάλου (10 και 20 τμημάτων) 18
Ιστογράμματα σε δύο διαστάσεις (Two- Dimensional Histograms) Δείχνουμε την από κοινού κατανομή από τις τιμές δύο χαρακτηριστικών Παράδειγμα: Μήκος και πλάτος πετάλων Τι μας λέει το παρακάτω γράφημα; 19
Box Plots Τεχνικές απεικόνισης: Θηκογράμματα (ή διαγράμματα πλαισίου) (Box Plots) Εφευρέθηκε από τον J. Tukey Ένας άλλος τρόπος για την απεικόνιση των κατανομών των δεδομένων. Η παρακάτω εικόνα δείχνει τα βασικά μέρη ενός box plot. outlier Οι άνω και κάτω γραμμές του κουτιού το 25 ο και 75 ο εκατοστημόριο Οι άνω και κάτω γραμμές των ουρών το 10 ο και 90 ο εκατοστημόριο Οι ακραίες τιμές με σταυρούς 90 th percentile 75 th percentile 50 th percentile 25 th percentile 10 th percentile 20
Παράδειγμα Box Plots Box plots μπορούν να χρησιμοποιηθούν για να συγκριθούν χαρακτηριστικά 21
Παράδειγμα Box plot 22
Τεχνικές απεικόνισης: Διαγράμματα διασποράς (Scatter Plots) Οι τιμές των χαρακτηριστικών καθορίζουν την θέση τους Συνήθως δύο διαστάσεων αλλά μπορεί να έχουμε και τρισδιάστατα Συνήθως επιπλέον χαρακτηριστικά μπορούν να απεικονιστούν χρησιμοποιώντας το μέγεθος, το σχήμα και το χρώμα των σημείων που αντιπροσωπεύουν τα αντικείμενα Είναι χρήσιμο να έχουμε πίνακες από διαγράμματα διασποράς για την σύνοψη των σχέσεων διάφορων ζευγών από χαρακτηριστικά Κάθε αντικείμενο δεδομένων απεικονίζεται ως σημείο στο επίπεδο, χρησιμοποιώντας τις τιμές δύο χαρακτηριστικών ως συντεταγμένες x,y 23
Πίνακας διαγραμμάτων διασποράς για τις μεταβλητές του συνόλου Iris 24
Τεχνικές απεικόνισης: «Ισοϋψείς» καμπύλες (Contour Plots) Ισοϋψείς καμπύλες Χρήσιμες όταν ένα συνεχές χαρακτηριστικό μετριέται σε ένα χωρικό πλέγμα (spatial grid) Χωρίζουν το επίπεδο σε περιοχές με παρόμοιες τιμές Οι ισοϋψείς γραμμές που ορίζουν τα όρια αυτών των περιοχών ενώνουν σημεία που έχουν την ίδια τιμή Το πιο συχνό παράδειγμα είναι η γεωγραφικές ισοϋψείς Μπορούν επίσης να απεικονίζουν θερμοκρασία, βροχόπτωση, πίεση αέρα, κτλ. Ένα παράδειγμα για την θερμοκρασία στην επιφάνεια της θάλασσας φαίνεται στην επόμενη διαφάνεια (Sea Surface Temperature (SST)) 25
Παράδειγμα «ισοϋψών»: SST Dec, 1998 Celsius 26
Τεχνικές απεικόνισης: Διαγράμματα πινάκων (Matrix Plots) Matrix plots Μπορούν να απεικονίσουν των πίνακα δεδομένων Αυτό μπορεί να είναι χρήσιμο όταν τα αντικείμενα είναι διατεταγμένα σύμφωνα με την κατηγορία τους Συνήθως τα χαρακτηριστικά κανονικοποιούνται (normalized) για να αποφευχθεί το φαινόμενο ένα χαρακτηριστικό να «επισκιάζει» όλο το γράφημα Γραφήματα ομοιότητας ή απόστασης μπορεί επίσης να είναι χρήσιμα για την απεικόνιση σχέσεων μεταξύ αντικειμένων 27
Απεικόνιση του Πίνακα Δεδομένων για το σύνολο δεδομένων Iris standard deviation Τα setosa έχουν μήκος και πλάτος κάτω από το μέσο Τα versicolour έχουν μήκος και πλάτος κοντά στο μέσο Τα virginica πάνω από το μέσο 28
Απεικόνιση του πίνακα συσχετίσεων για το σύνολο δεδομένων Iris (Correlation Matrix) 29
Τεχνικές Απεικόνισης: Παράλληλες συντεταγμένες (Parallel Coordinates) Χρησιμοποιούνται για την απεικόνιση πολυδιάστατων δεδομένων Αντί να χρησιμοποιούν κάθετους άξονες, χρησιμοποιούν ένα σύνολο από παράλληλους άξονες Η τιμές των χαρακτηριστικών για κάθε αντικείμενο σχεδιάζονται σαν ένα σημείο στον αντίστοιχο άξονα και τα σημεία ενώνονται με μια γραμμή Με αυτό τον τρόπο κάθε αντικείμενο αναπαριστάται με μια γραμμή Συχνά οι γραμμές που αντιστοιχούν σε μια συγκεκριμένη κατηγορία αντικειμένων δημιουργούν ομάδες τουλάχιστον για ορισμένα από τα χαρακτηριστικά Η σειρά με την οποία απεικονίζονται τα χαρακτηριστικά είναι σημαντική για τον εντοπισμό τέτοιων ομαδοποιήσεων 30
Διαγράμματα παράλληλων συντεταγμένων για το σύνολο δεδομένων Iris 31
Άλλες τεχνικές απεικόνισης (Διαγράμματα αστεριών)star Plots Παρόμοια προσέγγιση με τις παράλληλες συντεταγμένες, μόνο που οι άξονες εκτείνονται ακτινικά από ένα κεντρικό σημείο. Η γραμμή που ενώνει τις τιμές ενός αντικειμένου είναι ένα πολύγωνο Πρόσωπα Chernoff (Chernoff Faces) Προτάθηκαν από τον Herman Chernoff Αυτή η προσέγγιση συσχετίζει κάθε χαρακτηριστικό με ένα χαρακτηριστικό του προσώπου Η τιμή κάθε χαρακτηριστικού καθορίζει την εμφάνιση του αντίστοιχου χαρακτηριστικού του προσώπου Κάθε αντικείμενο αποτελεί ένα διαφορετικό πρόσωπο Βασίζεται στην ικανότητα των ανθρώπων να ξεχωρίζουν πρόσωπα 32
Star Plots για τα δεδομένα για τα πρώτα 5 λουλούδια κάθε συνόλου δεδομένων μας Setosa Versicolour Virginica 33
Chernoff Faces για τα δεδομένα Iris Setosa Versicolou Virginica Μήκος Σεπάλου- Μέγεθος προσώπου Πλάτος Σεπάλου- Μήκος γραμμής από μέτωπο προς σαγώνι Μήκος πετάλου- Σχήμα μετώπου Πλάτος πετάλου Σχήμα σαγονιού 34