Εξόρυξη Δεδομένων: Εξερευνώντας τα δεδομένα Data Mining: Exploring Data

Σχετικά έγγραφα
Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

Στατιστική Επιχειρήσεων Ι

Εισαγωγή στη Στατιστική

Εφαρμοσμένη Στατιστική

Περιγραφική Στατιστική. Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΟΥ ΔΙΔΑΚΤΙΚΟΥ ΕΡΓΟΥ ΤΩΝ ΥΠΟΧΡΕΩΤΙΚΩΝ ΜΑΘΗΜΑΤΩΝ ΧΕΙΜΕΡΙΝΟΥ ΕΞΑΜΗΝΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

Statistics. hrs1 Number of hours worked last week. educ Highest year of school completed. sibs NUMBER OF BROTHERS AND SISTERS. N Valid

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Γνωριμία με τον προγραμματισμό μέσω της γλώσσας R Στοιχεία Περιγραφικής Στατιστικής

ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΗΝ ΑΠΟΤΙΜΗΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

ΔΙΕΡΕΥΝΗΣΗ ΚΛΙΜΑΤΙΚΩΝ ΑΛΛΑΓΩΝ ΓΙΑ ΤΟ ΝΗΣΙ ΤΗΣ ΝΑΞΟΥ

Τάση συγκέντρωσης. Μέτρα Κεντρικής Τάσης και Θέσης. Μέτρα Διασποράς. Τάση διασποράς. Σχήμα της κατανομής

Εφαρμοσμένη Στατιστική

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Ενότητα 2 η : Περιγραφική Στατιστική Ι. Πίνακες και Γραφικές παραστάσεις. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Περιγραφική Στατιστική

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Περιγραφική Στατιστική

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ & ΕΚΠΑΙΔΕΥΣΗ

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Οι δείκτες διασποράς. Ένα παράδειγµα εργασίας

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Μοντέλα στην Επιστήμη Τροφίμων 532Ε

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Σ ΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΜΗΝΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

Τίτλος Μαθήματος. Ενότητα 2: Μεθοδολογία Έρευνας Περιβαλλοντικής Γεωχημείας

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Μάθηµα 3 ο. Περιγραφική Στατιστική

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Βιοστατιστική ΒΙΟ-309

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

Ζητήματα ηήμ με τα δεδομένα

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική

Χρήσεις του Η/Υ και Βάσεις Βιολογικών Δεδομένων

Κατανομή συχνοτήτων. Μέτρα κεντρικής τάσης. Μέτρα διασποράς. Σφάλματα μέτρησης. Εγκυρότητα. Ακρίβεια

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

Σ ΤΑΤ Ι Σ Τ Ι Κ Η MBA I

ΟΜΑΔΟΠΟΙΗΣΗ ΑΡΙΘΜΗΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Έρευνα και Συγγραφή

Εισαγωγή στη Βιοστατιστική Βασικές έννοιες Στατιστικής. Μαρία Γκριζιώτη Μsc Ιατρικής Ερευνητικής Μεθοδολογίας

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Περιγραφική Στατιστική

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Περιεχόμενα. Πρόλογος 17 ΚΕΦΑΛΑΙΟ 1 23

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Γνωρίζοντας τα δεδομένα σας

Εξερευνώντας τα δεδομένα μας-περιγραφική Στατιστική

Έτος : Διάλεξη 2 η Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

Περιγραφική στατιστική

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Κατανομές κυτταρικού φθορισμού Cell Fluorescence Distributions

Κεφάλαιο Δύο Γραφήματα και Πίνακες Περιγραφικές Τεχνικές

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Transcript:

Εξόρυξη Δεδομένων: Εξερευνώντας τα δεδομένα Data Mining: Exploring Data Lecture Notes for Chapter 3 Introduction to Data Mining by Tan, Steinbach, Kumar 1

Τι είναι εξερεύνηση/διερεύνηση των δεδομένων; Μια αρχική διερεύνηση των δεδομένων για να καταλάβουμε καλύτερα τα χαρακτηριστικά τους Κύρια κίνητρα για την διερεύνηση των δεδομένων: Βοηθάει στην επιλογή του κατάλληλου εργαλείου για προεπεξεργασία ή ανάλυση Κάνει χρήση της ικανότητας του ανθρώπου να αναγνωρίζει μοτίβα/πρότυπα (patterns) Οι άνθρωποι μπορούν να αναγνωρίζουν μοτίβα που δεν συλλαμβάνονται από εργαλεία ανάλυσης δεδομένων Σχετίζεται με την περιοχή της διερευνητικής ανάλυσης Δεδομένων (Exploratory Data Analysis (EDA)) Δημιουργήθηκε από το στατιστικολόγο John Tukey Σημαντικό βιβλίο είναι το Exploratory Data Analysis του Tukey Μια καλή εισαγωγή μπορεί να βρεθεί στο πρώτο κεφάλαιο του NIST Engineering Statistics Handbook 2 http://www.itl.nist.gov/div898/handbook/index.htm

Τεχνικές που χρησιμοποιούνται στην διερεύνηση δεδομένων Στην EDA, όπως αρχικά ορίστηκε από τον Tukey: Η έμφαση ήταν στην απεικόνιση (visualization) Η ομαδοποίηση και η ανίχνευση ανωμαλιών θεωρούνταν διερευνητικές τεχνικές Στην εξόρυξη δεδομένων η ομαδοποίηση (clustering) και η ανίχνευση ανωμαλιών (anomaly detection) αποτελούν ξεχωριστές περιοχές και δεν θεωρούνται EDA. Στην παρουσίαση μας στην διερευνητική ανάλυση θα δώσουμε έμφαση σε: Συγκεντρωτικά στατιστικά (Summary statistics) Απεικόνιση (Visualization) 3

Το Iris Data Set Πολλές από τις διερευνητικές τεχνικές παρουσιάζονται χρησιμοποιώντας το Iris Plant data set. Είναι διαθέσιμο από το UCI Machine Learning Repository (υπάρχει και στο WEKA) http://www.ics.uci.edu/~mlearn/mlrepository.html «Δημιουργήθηκε» από τον στατιστικολόγο Douglas Fisher Τρεις τύποι λουλουδιών (τάξεις-classes): Setosa Virginica Versicolour Τέσσερα (πέρα από την τάξη/ ) χαρακτηριστικά (attributes) Μήκος και πλάτος σεπάλων Μήκος και πλάτος πετάλων Virginica. Robert H. Mohlenbrock. USDA NRCS. 1995. Northeast wetland flora: Field office guide to plant species. Northeast National Technical Center, Chester, PA. Courtesy of 4 USDA NRCS Wetland Science Institute.

Συγκεντρωτικά στατιστικά (Summary Statistics) Τα συγκεντρωτικά στατιστικά (Summary statistics) είναι αριθμοί που παρέχουν μια περίληψη των ιδιοτήτων των δεδομένων Οι συγκεντρωτικές ιδιότητες περιλαμβάνουν, συχνότητες, «τοποθεσία» (location) και «διάστημα» (spread) Παράδειγμα: τοποθεσία μέση τιμή (mean) εύρος/διάστημα τυπική απόκλιση (standard deviation) Τα περισσότερα από αυτά τα στατιστικά μπορούν να υπολογιστούν με ένα μόνο πέρασμα των δεδομένων 5

Συχνότητα και επικρατούσα τιμή (Frequency, Mode) Η συχνότητα μίας τιμής ενός χαρακτηριστικού είναι το ποσοστό των φορών που η τιμή αυτή εμφανίζεται στο σύνολο των δεδομένων Για παράδειγμα, για το χαρακτηριστικό «φύλο» και ένα αντιπροσωπευτικό δείγμα του πληθυσμού, το φύλο «γυναίκα» εμφανίζεται περίπου 50% των φορών. Η επικρατούσα τιμή ενός χαρακτηριστικού (mode) είναι η πιο συχνά εμφανιζόμενη τιμή Οι έννοιες της συχνότητας και της επικρατούσας τιμής εμφανίζονται κυρίως για 6 κατηγορικά δεδομένα (categorical data)

Ποσοστιαία σημεία ή Εκατοστημόρια (Percentiles) Για συνεχή δεδομένα, η χρήση των ποσοστιαίων (σημείων) percentiles είναι πιο χρήσιμη. Δεδομένης μίας διατεταγμένης ή συνεχούς μεταβλητής x και ενός αριθμού p μεταξύ 0 και 100, το p οστό percentile είναι μία τιμή του x ( x p )έτσι ώστε το p% των τιμών του x να είναι μικρότερο από αυτή την τιμή. Για παράδειγμα, το 50th percentile, είναι η τιμή x 50% έτσι ώστε το 50% όλων των τιμών του x να είναι μικρότερες του x 50%. x p 7

Παράδειγμα Έστω σε διάταξη τους αριθμούς: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Τα αντίστοιχα εκατοστημόρια τους x 0% x10% x20% x30% x40% x50% x60% x70% x80% x90% x100% θα είναι: 1.0, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 10.0 Ακόμα min(x)= x 0% και max(x)= x 100% 8

Μέτρηση θέσης: Μέση τιμή ή μέσος (mean) και ενδιάμεση (διάμεσος) τιμή (Median) Η μέση τιμή (μέσος- mean) είναι το πιο συχνό μέτρο για τη «θέση» (location) ενός συνόλου από σημείο. Παρόλα αυτά η μέση τιμή είναι πολύ ευαίσθητη σε ακραίες τιμές (outliers). Συνεπώς, η ενδιάμεση ή μια «ψαλιδισμένη» μέση τιμή χρησιμοποιούνται συχνά 9

Μέτρηση θέσης: Μέση τιμή ή μέσος (mean) και ενδιάμεση (διάμεσος) τιμή (Median) Ο μέσος είναι η μεσαία τιμή ενός συνόλου τιμών ΜΟΝΟ όταν αυτές κατανέμονται με συμμετρικό τρόπο. Για ασύμμετρες τιμές χρησιμοποιείται η διάμεσος Η «ψαλιδισμένη» ή περικομμένου μέσου (trimmed mean). Χρησιμοποιείται ένα ποσοστό p, οπότε αποκόβεται το (p/2)% των δεδομένων από το ανώτερο και κατώτερο πλήθος τους και μετά υπολογίζεται ο μέσος. Παράδειγμα Έστω το σύνολο δεδομένων {1, 2, 3, 4, 5, 90}. Ο μέσος όρος (mean) είναι: 17,5 Η διάμεσος (median) είναι: 3,5 O περικομμένος μέσους (trimmed mean) με p=40% είναι 3,5. 10

Μέτρα διαστήματος: διάστημα τιμών και διακύμανση (Measures of Spread: Range and Variance) Το εύρος τιμών (Range) είναι η διαφορά μεταξύ της μέγιστης και της ελάχιστης τιμής range(x)=max(x)-min(x)=xm-x1 Το εύρος προσδιορίζει τη μέγιστη διασπορά, αλλά είναι παραπλανητικό όταν οι τιμές συγκεντρώνονται σε μια μικρή περιόχή τιμών και υπάρχει και μικρό πλήθος ακραίων τιμών. Οπότε τότε προτιμάται η διακύμανση (variance) ενός χαρακτηριστικού: 11

Μέτρα διαστήματος: διάστημα τιμών και διακύμανση (Measures of Spread: Range and Variance) Η διακύμανση ή η τυπική απόκλιση είναι τα πιο συχνά χρησιμοποιούμενα μέτρα για τον υπολογισμό του φάσματος που καλύπτουν ένα σύνολο από σημεία. Η διακύμανση είναι ιδιαίτερα ευαίσθητη στις ακραίες τιμές. Οπότε χρησιμοποιούνται: Η απόλυτη μέση απόκλιση : Διάμεσος απόλυτη απόκλιση: Ενδοτεταρτημοριακό εύρος: 12

Οπτικοποίηση (Visualization) Οπτικοποίηση είναι η μετατροπή των δεδομένων σε μία μορφή που μπορεί να απεικονισθεί ή να παρουσιαστεί γραφική μορφή ή μορφή πίνακα έτσι ώστε οι ιδιότητες των δεδομένων και οι σχέσεις μεταξύ των δεδομένων και τα γνωρίσματά τους να μπορούν να αναλυθούν ή να παρουσιαστούν. Στόχος είναι να ερμηνευτεί από ένα άτομο η οπτικοποιημένη πληροφορία Η απεικόνιση των δεδομένων είναι από τις πιο ισχυρές και ελκυστικές μεθόδους της διερευνητικής ανάλυσης δεδομένων. Οι άνθρωποι έχουν πολύ αναπτυγμένη ικανότητα για την ανάλυση μεγάλων ποσοτήτων πληροφορίας που παρουσιάζεται με οπτικά μέσα Μπορούν να ανιχνεύσουν μοτίβα και τάσεις (patterns, trends) Μπορούν να ανιχνεύσουν ακραίες τιμές (outliers) και ασυνήθιστα μοτίβα (patterns) 13

Παράδειγμα: Θερμοκρασία στην επιφάνεια της θάλασσας Η παρακάτω εικόνα παρουσιάζει την θερμοκρασία στην επιφάνεια της θάλασσας (Sea Surface Temperature (SST)) για τον Ιούλιο του 1982 Δεκάδες χιλιάδες σημείων (250.000) συνοψίζονται σε μία μόνο εικόνα 14

Αναπαράσταση Είναι η απεικόνιση πληροφορίας με «οπτικά» μέσα Αντικείμενα (Data objects), τα χαρακτηριστικά τους (attributes), και η αναπαράσταση μεταξύ των αντικειμένων μετασχηματίζονται σε γραφικά στοιχεία όπως, σημεία, γραμμές, σχήματα και χρώματα. Παράδειγμα: Αντικείμενα συχνά αναπαρίστανται ως σημεία Τα χαρακτηριστικά τους μπορούν να αναπαρασταθούν με τη θέση των σημείων ή από τις ιδιότητες των σημείων δηλαδή, χρώμα, μέγεθος και το σχήμα Εάν η θέση χρησιμοποιηθεί τότε οι σχέσεις των σημείων πχ εάν δημιουργούν ομάδες ή εάν ένα σημείο αποτελεί ένα ακραίο αντικείμενο (outlier), γίνονται εύκολα αντιληπτές. 15

Τακτοποίηση (Arrangement) Είναι η τοποθέτηση οπτικών αντικειμένων σε ένα κατάλληλο μέσο Μπορεί να κάνει τη διαφορά στο πόσο εύκολο είναι να καταλάβει κανείς τα δεδομένα Παράδειγμα (9 αντικείμενα με 6 δυαδικά χαρακτηριστικά): 16

Επιλογή (Selection) Είναι η εξάλειψη ή η εξαφάνιση συγκεκριμένων αντικειμένων και χαρακτηριστικών. Αντικείμενα δεδομένων με λίγες διαστάσεις απεικονίζονται σε διδιάστατη ή τρισδιάσταση γραφική παράσταση. Όταν υπάρχουν πολλά χαρακτηριστικά και πολλά αντικείμενα τότε απαιτείται επιλογή. Η επιλογή μπορεί να περιλαμβάνει την επιλογή ορισμένων υποσυνόλων χαρακτηριστικών για απεικόνιση Η μείωση της διάστασης (Dimensionality reduction ) χρησιμοποιείται συχνά για την μείωση των διαστάσεων σε 2 ή 3. Εναλλακτικά, ζεύγη από χαρακτηριστικά μπορούν να θεωρηθούν Η επιλογή μπορεί να περιλαμβάνει την επιλογή ενός υποσυνόλου από αντικείμενα Μία περιοχή της οθόνης μπορεί να δείξει έναν ορισμένο αριθμό από σημεία Μπορούμε να δειγματοληπτούμε αλλά θέλουμε να διατηρούμε σημεία σε περιοχές που είναι αραιή η συγκέντρωσή τους 17

Τεχνικές απεικόνισης: Ιστογράμματα (Histograms) Ιστόγραμμα (Histogram) Συνήθως απεικονίζουν την κατανομή των τιμών μίας μεταβλητής Χωρίζουμε τις τιμές σε κελιά (bins)και δείχνουμε με ραβδογράμματα (bar plot) τον αριθμό των αντικειμένων σε κάθε. Το ύψος της ράβδου σε κάθε κελί δείχνει και τον αριθμό των αντικειμένων Το σχήμα των ιστογραμμάτων εξαρτάται από τον αριθμό των κελιών Παράδειγμα: Πλάτος πετάλου (10 και 20 τμημάτων) 18

Ιστογράμματα σε δύο διαστάσεις (Two- Dimensional Histograms) Δείχνουμε την από κοινού κατανομή από τις τιμές δύο χαρακτηριστικών Παράδειγμα: Μήκος και πλάτος πετάλων Τι μας λέει το παρακάτω γράφημα; 19

Box Plots Τεχνικές απεικόνισης: Θηκογράμματα (ή διαγράμματα πλαισίου) (Box Plots) Εφευρέθηκε από τον J. Tukey Ένας άλλος τρόπος για την απεικόνιση των κατανομών των δεδομένων. Η παρακάτω εικόνα δείχνει τα βασικά μέρη ενός box plot. outlier Οι άνω και κάτω γραμμές του κουτιού το 25 ο και 75 ο εκατοστημόριο Οι άνω και κάτω γραμμές των ουρών το 10 ο και 90 ο εκατοστημόριο Οι ακραίες τιμές με σταυρούς 90 th percentile 75 th percentile 50 th percentile 25 th percentile 10 th percentile 20

Παράδειγμα Box Plots Box plots μπορούν να χρησιμοποιηθούν για να συγκριθούν χαρακτηριστικά 21

Παράδειγμα Box plot 22

Τεχνικές απεικόνισης: Διαγράμματα διασποράς (Scatter Plots) Οι τιμές των χαρακτηριστικών καθορίζουν την θέση τους Συνήθως δύο διαστάσεων αλλά μπορεί να έχουμε και τρισδιάστατα Συνήθως επιπλέον χαρακτηριστικά μπορούν να απεικονιστούν χρησιμοποιώντας το μέγεθος, το σχήμα και το χρώμα των σημείων που αντιπροσωπεύουν τα αντικείμενα Είναι χρήσιμο να έχουμε πίνακες από διαγράμματα διασποράς για την σύνοψη των σχέσεων διάφορων ζευγών από χαρακτηριστικά Κάθε αντικείμενο δεδομένων απεικονίζεται ως σημείο στο επίπεδο, χρησιμοποιώντας τις τιμές δύο χαρακτηριστικών ως συντεταγμένες x,y 23

Πίνακας διαγραμμάτων διασποράς για τις μεταβλητές του συνόλου Iris 24

Τεχνικές απεικόνισης: «Ισοϋψείς» καμπύλες (Contour Plots) Ισοϋψείς καμπύλες Χρήσιμες όταν ένα συνεχές χαρακτηριστικό μετριέται σε ένα χωρικό πλέγμα (spatial grid) Χωρίζουν το επίπεδο σε περιοχές με παρόμοιες τιμές Οι ισοϋψείς γραμμές που ορίζουν τα όρια αυτών των περιοχών ενώνουν σημεία που έχουν την ίδια τιμή Το πιο συχνό παράδειγμα είναι η γεωγραφικές ισοϋψείς Μπορούν επίσης να απεικονίζουν θερμοκρασία, βροχόπτωση, πίεση αέρα, κτλ. Ένα παράδειγμα για την θερμοκρασία στην επιφάνεια της θάλασσας φαίνεται στην επόμενη διαφάνεια (Sea Surface Temperature (SST)) 25

Παράδειγμα «ισοϋψών»: SST Dec, 1998 Celsius 26

Τεχνικές απεικόνισης: Διαγράμματα πινάκων (Matrix Plots) Matrix plots Μπορούν να απεικονίσουν των πίνακα δεδομένων Αυτό μπορεί να είναι χρήσιμο όταν τα αντικείμενα είναι διατεταγμένα σύμφωνα με την κατηγορία τους Συνήθως τα χαρακτηριστικά κανονικοποιούνται (normalized) για να αποφευχθεί το φαινόμενο ένα χαρακτηριστικό να «επισκιάζει» όλο το γράφημα Γραφήματα ομοιότητας ή απόστασης μπορεί επίσης να είναι χρήσιμα για την απεικόνιση σχέσεων μεταξύ αντικειμένων 27

Απεικόνιση του Πίνακα Δεδομένων για το σύνολο δεδομένων Iris standard deviation Τα setosa έχουν μήκος και πλάτος κάτω από το μέσο Τα versicolour έχουν μήκος και πλάτος κοντά στο μέσο Τα virginica πάνω από το μέσο 28

Απεικόνιση του πίνακα συσχετίσεων για το σύνολο δεδομένων Iris (Correlation Matrix) 29

Τεχνικές Απεικόνισης: Παράλληλες συντεταγμένες (Parallel Coordinates) Χρησιμοποιούνται για την απεικόνιση πολυδιάστατων δεδομένων Αντί να χρησιμοποιούν κάθετους άξονες, χρησιμοποιούν ένα σύνολο από παράλληλους άξονες Η τιμές των χαρακτηριστικών για κάθε αντικείμενο σχεδιάζονται σαν ένα σημείο στον αντίστοιχο άξονα και τα σημεία ενώνονται με μια γραμμή Με αυτό τον τρόπο κάθε αντικείμενο αναπαριστάται με μια γραμμή Συχνά οι γραμμές που αντιστοιχούν σε μια συγκεκριμένη κατηγορία αντικειμένων δημιουργούν ομάδες τουλάχιστον για ορισμένα από τα χαρακτηριστικά Η σειρά με την οποία απεικονίζονται τα χαρακτηριστικά είναι σημαντική για τον εντοπισμό τέτοιων ομαδοποιήσεων 30

Διαγράμματα παράλληλων συντεταγμένων για το σύνολο δεδομένων Iris 31

Άλλες τεχνικές απεικόνισης (Διαγράμματα αστεριών)star Plots Παρόμοια προσέγγιση με τις παράλληλες συντεταγμένες, μόνο που οι άξονες εκτείνονται ακτινικά από ένα κεντρικό σημείο. Η γραμμή που ενώνει τις τιμές ενός αντικειμένου είναι ένα πολύγωνο Πρόσωπα Chernoff (Chernoff Faces) Προτάθηκαν από τον Herman Chernoff Αυτή η προσέγγιση συσχετίζει κάθε χαρακτηριστικό με ένα χαρακτηριστικό του προσώπου Η τιμή κάθε χαρακτηριστικού καθορίζει την εμφάνιση του αντίστοιχου χαρακτηριστικού του προσώπου Κάθε αντικείμενο αποτελεί ένα διαφορετικό πρόσωπο Βασίζεται στην ικανότητα των ανθρώπων να ξεχωρίζουν πρόσωπα 32

Star Plots για τα δεδομένα για τα πρώτα 5 λουλούδια κάθε συνόλου δεδομένων μας Setosa Versicolour Virginica 33

Chernoff Faces για τα δεδομένα Iris Setosa Versicolou Virginica Μήκος Σεπάλου- Μέγεθος προσώπου Πλάτος Σεπάλου- Μήκος γραμμής από μέτωπο προς σαγώνι Μήκος πετάλου- Σχήμα μετώπου Πλάτος πετάλου Σχήμα σαγονιού 34