Γνωρίζοντας τα δεδομένα σας

Σχετικά έγγραφα
ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Εισαγωγή στη Στατιστική

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

Βιοστατιστική ΒΙΟ-309

Ποσοτική & Ποιοτική Ανάλυση εδομένων Βασικές Έννοιες. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Τάση συγκέντρωσης. Μέτρα Κεντρικής Τάσης και Θέσης. Μέτρα Διασποράς. Τάση διασποράς. Σχήμα της κατανομής

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Εφαρμοσμένη Στατιστική

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Κεφάλαιο 1 o Εξισώσεις - Ανισώσεις

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

Α. Έστω δύο σύνολα Α και Β. Ποιά διαδικασία ονομάζεται συνάρτηση με πεδίο ορισμού το Α και πεδίο τιμών το Β;

Περιγραφική Στατιστική

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Εφαρμοσμένη Στατιστική

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Μάθηµα 3 ο. Περιγραφική Στατιστική

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Στατιστική Επιχειρήσεων 1 Μάθημα του A Εξαμήνου

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

ΘΕΩΡΙΑ Β ΓΥΜΝΑΣΙΟΥ. Μια παράσταση που περιέχει πράξεις με μεταβλητές (γράμματα) και αριθμούς καλείται αλγεβρική, όπως για παράδειγμα η : 2x+3y-8

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΞΕΤΑΣΕΙΣ στο τέλος του εξαμήνου με ΑΝΟΙΧΤΑ βιβλία ΕΞΕΤΑΣΕΙΣ ο καθένας θα πρέπει να έχει το ΔΙΚΟ του βιβλίο ΔΕΝ θα μπορείτε να ανταλλάσετε βιβλία ή να

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Χρήσεις του Η/Υ και Βάσεις Βιολογικών Δεδομένων

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

ν ν = 6. όταν είναι πραγµατικός αριθµός.

Mέτρα (παράμετροι) θέσεως

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

ΣΤΑΤΙΣΤΙΚΗ ΙΙ. Ενότητα 2: ΣΤΑΤΙΣΤΙΚΗ ΙΙ (2/4). Επίκ. Καθηγητής Κοντέος Γεώργιος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

ΣΤΑΤΙΣΤΙΚΗ. Ερωτήσεις του τύπου «Σωστό - Λάθος» 1. Το χρώμα κάθε αυτοκινήτου είναι ποιοτική μεταβλητή. Σ Λ

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

I2. Αριθμητικά περιγραφικά μέτρα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

Κεφάλαιο Δύο Γραφήματα και Πίνακες Περιγραφικές Τεχνικές

Περιγραφική Στατιστική. Ακαδ. Έτος ο εξάμηνο. Κ. Πολίτης

Στατιστική Επιχειρήσεων Ι

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΟΥ ΔΙΔΑΚΤΙΚΟΥ ΕΡΓΟΥ ΤΩΝ ΥΠΟΧΡΕΩΤΙΚΩΝ ΜΑΘΗΜΑΤΩΝ ΧΕΙΜΕΡΙΝΟΥ ΕΞΑΜΗΝΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Εξόρυξη Δεδομένων: Εξερευνώντας τα δεδομένα Data Mining: Exploring Data

SPSS. Βασικά στοιχεία

i μιας μεταβλητής Χ είναι αρνητικός αριθμός

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟ ΛΑΘΟΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ Γ ΛΥΚΕΙΟΥ

ν ν = 6. όταν είναι πραγµατικός αριθµός.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Ζητήματα ηήμ με τα δεδομένα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Εισαγωγή στη Στατιστική- Κοινωνικές Στατιστικές. Διάλεξη

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Για το Θέμα 1 στα Μαθηματικά Γενικής Παιδείας Γ Λυκείου

Περιεχόμενα. Πρόλογος... 15

Ιωάννης Σ. Μιχέλης Μαθηματικός

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116) Υπολογισμοί Παραμέτρων Πληθυσμού και Στατιστικών Δείγματος

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

Transcript:

1 Γνωρίζοντας τα δεδομένα σας

2 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας και ανομοιότητας των δεδομένων Σύνοψη

3 Μορφές Συνόλων Δεδομένων: (1) Εγγραφές Σχεσιακές εγγραφές Πίνακες με ισχυρή δόμηση Πίνακας Δεδομένων, (για αριθμητικά δεδομένα) Δεδομένα Συναλλαγών: π.χ. καλάθι αγοράς TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Document 1 Document 2 Document 3 Δεδομένα Εγγράφων: Σποραδικά, π.χ. διάνυσμα (πίνακας) με συχνότητες όρων team coach pla y ball score game wi n lost timeout 3 0 5 0 2 6 0 2 0 2 0 0 7 0 2 1 0 0 3 0 0 1 0 0 1 2 2 0 3 0 season

Μορφές Συνόλων Δεδομένων: (2) Γράφοι και Δίκτυα Δίκτυα Μεταφορών Παγκόσμιος Ιστός Μοριακές δομές 4 Κοινωνικά δίκτυα ή δίκτυα πληροφοριών

Μορφές Συνόλων Δεδομένων: (3) Διατεταγμένα Δεδομένα Δεδομένα βίντεο: ακολουθία εικόνων Χρονικά δεδομένα: χρονολογική σειρά Διαδοχικά δεδομένα: ακολουθίες συναλλαγών 5 Δεδομένα γενετικής ακολουθίας (Genetic sequence data)

6 Μορφές Συνόλων Δεδομένων: (4) Χωρικά δεδομένα, εικόνες και πολυμεσικά δεδομένα Χωρικά δεδομένα : χάρτες Δεδομένα εικόνων Δεδομένα βίντεο

7 Χαρακτηριστικά Δομημένων Δεδομένων Διαστάσεις: πλήθος χαρακτηριστικών Η κατάρα των διαστάσεων Σπανιότητα (Sparsity): λίγες μη μηδενικές τιμές Μετράει μόνο η παρουσία Ανάλυση (Resolution): π.χ. γη (απόσταση), καιρός (χρόνος) Τα μοτίβα εξαρτώνται από την κλίμακα Κατανομή Μέτρα θέσης (κεντρικής τάσης) και διασπορά

8 Αντικείμενα Δεδομένων Τα Σύνολα Δεδομένων αποτελούνται από αντικείμενα δεδομένων Ένα αντικείμενο δεδομένων (data object) αναπαριστά μια οντότητα Παραδείγματα: Βάση δεδομένων πωλήσεων: πελάτες, προϊόντα, πωλήσεις Ιατρική βάση δεδομένων: ασθενείς, θεραπείες Πανεπιστημιακή βάση δεδομένων: φοιτητές, καθηγητές, μαθήματα Τα αντικείμενα δεδομένων περιγράφονται από γνωρίσματα Βάση δεδομένων: γραμμές αντικείμενα δεδομένων; στήλες γνωρίσματα

Γνωρίσματα Γνώρισμα (ή διάσταση, χαρακτηριστικό, μεταβλητή, πεδίο) Χαρακτηριστικό ή ιδιότητα ενός αντικειμένου δεδομένων που διαφέρει μόνιμα ή χρονικά. Π.χ., customer _ID, name, address Τύποι (πεδία τιμών): Ονομαστικός: κατηγορικά ή ποιοτικά (π.χ. κόκκινο, μπλε) Δυαδικός (π.χ., {true, false}) Διάταξης (Ordinal) (π.χ. {freshman, sophomore, junior, senior}) Αριθμητικός: ποσοτικά Κλίμακα Διαστήματος (Interval-scaled): 100 C είναι διαστήματος Κλίμακα Αναλογίας (Ratio-scaled): 100 K είναι αναλογίας αφού είναι διπλάσιο των 50 K Ερωτήσεις Q1: Ο κωδικός φοιτητή είναι ονομαστικός, διάταξης ή τύπος διαστήματος; Q2: Το χρώμα των ματιών; Ή το χρώμα στο φάσμα των χρωμάτων της φυσικής; 9

10 Τύποι Γνωρισμάτων Ονομαστικός (Nominal): κατηγορίες, καταστάσεις ή "ονόματα πραγμάτων" Χρώμα Μαλλιών = {μαύρο, μαύρο, ξανθό, καφέ, γκρι, κόκκινο, άσπρο} οικογενειακή κατάσταση, επάγγελμα, αριθμός ταυτότητας, ταχυδρομικός κώδικας Δυαδικός (Binary) Ονομαστικό χαρακτηριστικό με μόνο 2 καταστάσεις (0 και 1) Συμμετρικός δυαδικός: και οι δύο καταστάσεις εξίσου σημαντικές π.χ., το φύλο Ασύμμετρος δυαδικός: οι δύο καταστάσεις δεν είναι εξίσου σημαντικές. π.χ., ιατρική εξέταση (θετική έναντι αρνητικής) Σύμβαση : εκχωρείται η τιμή 1 στο πιο σημαντικό αποτέλεσμα (π.χ. HIV θετικό) Διάταξης (Ordinal) Η σειρά (κατάταξη) των τιμών έχει σημασία αλλά το μέγεθος των διαδοχικών τιμών δεν είναι προσδιορισμένο Μέγεθος = {μικρό, μεσαίο, μεγάλο}, βαθμοί, κατάταξη στρατού

11 Αριθμητικοί Τύποι Γνωρισμάτων Ποσοτικοί (ακέραιοι ή πραγματικοί) Διαστήματος Μετρούνται σε κλίμακα μονάδων ίσου μεγέθους Οι τιμές έχουν κατάταξη Αναλογίας Π.χ., θερμοκρασία σε C ή F, ημερομηνίες Δεν υπάρχει πραγματική τιμή μηδέν Ενυπάρχει μηδενικό σημείο Οι τιμές είναι ανάλογες της μονάδας μέτρησης (10 K είναι διπλάσια από 5 K ) π.χ., θερμοκρασία σε Kelvin, μήκος, μετρήσεις, νομισματικές ποσότητες

12 Διακριτά και Συνεχή Γνωρίσματα Διακριτά Γνωρίσματα Έχουν μόνο ένα πεπερασμένο ή αριθμήσιμα άπειρο σύνολο τιμών Π.χ., ταχυδρομικός κώδικας, επάγγελμα ή το σύνολο των λέξεων σε μια συλλογή εγγράφων Μερικές φορές, αντιπροσωπεύονται από ακέραιες μεταβλητές Σημείωση: Τα δυαδικά γνωρίσματα είναι μια ειδική περίπτωση διακριτών γνωρίσματων Συνεχή Γνωρίσματα Έχουν πραγματικούς αριθμούς ως τιμές των γνωρισμάτων Π.χ. θερμοκρασία, ύψος ή βάρος Πρακτικά, οι πραγματικές τιμές μπορούν να μετρηθούν και να αναπαρασταθούν μόνο με έναν πεπερασμένο αριθμό ψηφίων Αναπαριστάνονται ως μεταβλητές κινητής υποδιαστολής

13 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας και ανομοιότητας των δεδομένων Σύνοψη

14 Βασικές Στατιστικές Περιγραφές Κίνητρο Για καλύτερη κατανόηση των δεδομένων: κεντρική τάση, διακύμανση και διασπορά Χαρακτηριστικά κεντρικής τάσης δεδομένων Μέσος, διάμεσος, επικρατούσα τιμή, τεταρτημόρια, Χαρακτηριστικά διασποράς δεδομένων Εύρος (max, min), ακραίες τιμές, διακύμανση, τυπική απόκλιση...

15 Μέτρηση Κεντρικής Τάσης: (1) Μέσος Μέσος (Mean) (αλγεβρική μέτρηση) (δείγμα και πληθυσμός): Σημείωση: n είναι το μέγεθος του δείγματος και N το μέγεθος του πληθυσμού. Σταθμισμένος αριθμητικός μέσος: Περικομμένος (Trimmed) μέσος: x = 1 n n i= 1 x i x n i= 1 = n i= 1 = w x Αφαίρεση ακραίων τιμών (π.χ. υπολογισμός βαθμολογιών γυμναστικής Ολυμπιακών Αγώνων) i w i i x N

Μέτρηση Κεντρικής Τάσης: (2) Διάμεσος Διάμεσος (Median): Μεσαία τιμή αν το πλήθος είναι μονός αριθμός ή ο μέσος όρος των δύο μεσαίων τιμών διαφορετικά: Εκτιμάται με παρεμβολή (για ομαδοποιημένα δεδομένα): 16 Διάμεσος κατά προσέγγιση median = L 1 n / + ( Κάτω όριο διαστήματος διάμεσου Άθροισμα πριν από το διάστημα του διάμεσου 2 ( freq median freq) l ) width Πλάτος διαστήματος (L 2 L 1 ) διάμεσου

17 Μέτρηση Κεντρικής Τάσης: (3) Επικρατούσα Τιμή Επικρατούσα Τιμή (Mode): Η τιμή που εμφανίζεται πιο συχνά Μονοκόρυφη (Unimodal) Εμπειρικός τύπος: mean mode = 3( mean median) Πολλαπλών κορυφών (Multi-modal) Δικόρυφη (Bimodal) Τρικόρυφη (Trimodal)

Συμμετρικά και Κυρτά Δεδομένα Διάμεσος, μέσος και επικρατούσα τιμή για συμμετρικά, θετικά και αρνητικά κυρτά δεδομένα Συμμετρικά Θετικά κυρτά Αρνητικά κυρτά 18

Ιδιότητες Καμπύλης Κανονικής Κατανομής Αντιπροσωπεύει τη διασπορά των δεδομένων 19 Αντιπροσωπεύει την κεντρική τάση

20 Μέτρα Κατανομής Δεδομένων: Διασπορά και Τυπική Απόκλιση Διασπορά και Τυπική Απόκλιση (δείγμα: s, πληθυσμός: σ) Διασπορά (Variance): Τυπική απόκλιση (standard deviation) s (ή σ) η τετραγωνική ρίζα της διασποράς s 2 (ή σ 2 ) = = = = = n i n i i i n i i x n x n x x n s 1 1 2 2 1 2 2 ] ) ( 1 [ 1 1 ) ( 1 1 = = = = n i i n i i x N x N 1 2 2 1 2 2 1 ) ( 1

21 Γραφική Απεικόνιση Βασικών Στατιστικών Μεγεθών Θηκόγραμμα (boxplot): συνοπτική γραφική απεικόνιση πέντε αριθμών Ιστόγραμμα: άξονας x τιμές, άξονας y συχνότητες Διάγραμμα Τεταρτημόριων (quantile plot): κάθε τιμή x i συνδυάζεται με f i δείχνοντας ότι περίπου 100 f i % των δεδομένων είναι x i Quantile-quantile (q-q) διάγραμμα: παρουσιάζει τα ποσοστά μίας μονομεταβλητής κατανομής έναντι των αντίστοιχων ποσοστών μιας άλλης Διάγραμμα διασποράς: κάθε ζεύγος τιμών είναι ένα ζεύγος συντεταγμένων και παρουσιάζεται γραφικά ως σημείο στο επίπεδο

Μέτρηση Διασποράς Δεδομένων: Τεταρτημόρια και Boxplots Τεταρτημόρια (Quartiles): Q 1 (25 th εκατοστημόριο), Q 3 (75 th εκατοστημόριο) Διατεταρτημοριακό (Inter-quartile) εύρος: IQR = Q 3 Q 1 Σύνοψη πέντε αριθμών: min, Q 1, median, Q 3, max Θηκόγραμμα (boxplot): Τα δεδομένα αναπαρίστανται με ένα πλαίσιο Q 1, Q 3, IQR: Τα άκρα του πλαισίου είναι στο πρώτο και στο τρίτο τεταρτημόριο, δηλαδή το ύψος του κουτιού είναι IQR Διάμεσος (Q 2 ): σημειώνεται με μια γραμμή μέσα στο πλαίσιο Μπάρες (whiskers): δύο γραμμές έξω από το πλαίσιο επεκτείνονται μέχρι το Ελάχιστο και το Μέγιστο Ακραίες τιμές (Outliers): σημεία πέρα από ένα καθορισμένο όριο, αναπαρίστανται χωριστά Ακραία τιμή: συνήθως μια τιμή μεγαλύτερη/μικρότερη από 1.5 x IQR 22

23 Οπτικοποίηση Διασποράς Δεδομένων : 3-D Boxplots

Ανάλυση Ιστογράμματος Ιστόγραμμα: Παρουσιάζει τις συχνότητες ως γραμμές Διαφορές ιστογραμμάτων και ραβδογραμμάτων Τα ιστογράμματα δείχνουν κατανομές των μεταβλητών ενώ τα ραβδογράμματα συγκρίνουν μεταβλητές Τα ιστογράμματα παρουσιάζουν ομαδοποιημένα ποσοτικά δεδομένα, ενώ τα ραβδογράμματα παρουσιάζουν κατηγορικά δεδομένα Οι μπάρες μπορούν να αναδιαμορφωθούν σε ένα ραβδόγραμμα, αλλά όχι σε ένα ιστογράμματα Ένα ιστόγραμμα διαφέρει από ένα ραβδόγραμμα στο ότι είναι το πλάτος της ράβδου που υποδηλώνει την τιμή, όχι το ύψος όπως στα ραβδογράμματα, μια κρίσιμη διάκριση όταν οι κατηγορίες δεν έχουν ομοιόμορφο πλάτος 40 35 30 25 20 15 10 5 0 10000 30000 50000 70000 90000 Ιστόγραμμα 24 Ραβδόγραμμα

25 Τα Ιστογράμματα Συχνά Λένε Περισσότερα από τα Boxplots Τα δύο ιστογράμματα που εμφανίζονται στα αριστερά μπορεί να έχουν την ίδια παράσταση boxplot Οι ίδιες τιμές για: min, Q1, median, Q3, max Αλλά έχουν μάλλον διαφορετικές κατανομές δεδομένων

Διάγραμμα Τεταρτημόριων Εμφανίζει όλα τα δεδομένα (επιτρέποντας στον χρήστη να αξιολογήσει τόσο τη γενική συμπεριφορά όσο και τα ασυνήθιστα περιστατικά) Παρουσιάζει πληροφορίες συχνοτήτων Για δεδομένα x i ταξινομημένα σε αύξουσα σειρά, το f i υποδεικνύει ότι περίπου f i % των δεδομένων είναι κάτω ή ίδια με την τιμή x i 26 Data Mining: Concepts and Techniques

27 Διάγραμμα Quantile-Quantile (Q-Q) Παρουσιάζει τα ποσοστά μίας μονομεταβλητής κατανομής έναντι των αντίστοιχων ποσοστών μιας άλλης Προβολή: Υπάρχει μετατόπιση στην μετάβαση από τη μια κατανομή στην άλλη; Το παράδειγμα δείχνει την τιμή μονάδας των ειδών που πωλούνται στον Υποκατάστημα 1 έναντι αυτών στο Υποκατάστημα 2 για κάθε ποσό. Οι τιμές μονάδας των ειδών που πωλούνται στο Υποκατάστημα 1 τείνουν να είναι χαμηλότερες από αυτές στο Υποκατάστημα 2

28 Διάγραμμα Διασποράς Παρέχει μια πρώτη ματιά στα διμεταβλητά (bivariate) δεδομένα για να φανούν συστάδες σημείων, ακραίες τιμές κ.λ.π. Κάθε ζεύγος τιμών αντιμετωπίζεται ως ζεύγος συντεταγμένων και σχεδιάζεται ως σημείο στο επίπεδο

29 Θετικά και Αρνητικά Συσχετισμένα Δεδομένα Το αριστερό μισό κομμάτι συσχετίζεται θετικά Το δεξιό μισό είναι αρνητικά συσχετισμένο

30 Μη-συσχετιζόμενα Δεδομένα

31 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας και ανομοιότητας των δεδομένων Σύνοψη

32 Οπτικοποίηση Δεδομένων Γιατί Οπτικοποίηση Δεδομένων (Data Visualization); Γνώση ενός χώρου πληροφοριών με την απεικόνιση δεδομένων σε γραφικές μορφές Παροχή ποιοτικής επισκόπησης μεγάλων συνόλων δεδομένων Αναζήτηση μοντέλων, τάσεων, δομών, ανωμαλιών, σχέσεων μεταξύ δεδομένων Εντοπισμός περιοχών με ενδιαφέρον και κατάλληλων παραμέτρων για περαιτέρω ποσοτική ανάλυση Παροχή οπτικής απόδειξης για παραστάσεις παραγόμενες από υπολογιστή Κατηγοριοποίηση μεθόδων οπτικοποίησης: Εικονοστοιχείων (pixel-oriented) Γεωμετρικής προβολής (geometric projection) Βασισμένες σε εικόνες (icon-based) Ιεραρχικές (hierarchical) τεχνικές οπτικοποίησης Οπτικοποίηση πολύπλοκων δεδομένων και σχέσεων

Τεχνικές Οπτικοποίησης Eικονοστοιχείων Για ένα σύνολο δεδομένων m διαστάσεων, δημιουργήστε m παράθυρα, ένα για κάθε διάσταση Οι τιμές της m διάστασης m μίας εγγραφής αντιστοιχίζονται σε m εικονοστοιχεία στις αντίστοιχες θέσεις των παραθύρων H τιμή κάθε παρατήρησης αντιστοιχεί σε ένα εικονοστοιχείο, του οποίου η διάταξη σε ένα συγκεκριμένο πλαίσιο αλλά και ο χρωματισμός, δίνει τις απαραίτητες πληροφορίες. 33 (a) Εισόδημα (b) Πιστωτικό Όριο (c) Όγκος συναλλαγών (d) Ηλικία

34 Τεχνικές Γεωμετρικής Προβολής Οπτικοποίηση γεωμετρικών μετασχηματισμών και προβολών των δεδομένων. Oι παρατηρήσεις τοποθετούνται σε γεωμετρικούς σχηματισμούς με τέτοιο τρόπο ώστε να αναδεικνύονται σχέσεις και αλληλεπιδράσεις μεταξύ των μεταβλητών Μέθοδοι Άμεση απεικόνιση Διαγράμματα και πίνακες διασποράς Τοπία Παράλληλες συντεταγμένες

Άμεση Οπτικοποίηση Δεδομένων Κορδέλες με στροφές με βάση τους στροβιλισμούς 35 Data Mining: Concepts and Techniques

36 Used by ermission of M. Ward, Worcester Polytechnic Institute Πίνακες Διαγραμμάτων Διασποράς Πίνακας διαγραμμάτων (xy-diagrams) των δεδομένων με k-διαστάσεις Συνολικά k(k-1)/2 διαφορετικά διαγράμματα

Used by permission of B. Wright, Visible Decisions Inc. Τοπία (Landscapes) Οπτικοποίηση των δεδομένων ως τοπίο με προοπτική Τα δεδομένα πρέπει να μετασχηματιστούν σε μια (πιθανώς τεχνητή) 2D χωρική αναπαράσταση η οποία διατηρεί τα χαρακτηριστικά των δεδομένων 37 άρθρα ειδήσεων που παρουσιάζονται ως τοπίο

38 Παράλληλες Συντεταγμένες n ισαπέχοντες άξονες οι οποίοι είναι παράλληλοι με έναν από τους άξονες της οθόνης και αντιστοιχούν στα χαρακτηριστικά Οι άξονες κλιμακώνονται στην περιοχή [ελάχιστο, μέγιστο]: του αντίστοιχου χαρακτηριστικού Κάθε στοιχείο δεδομένων αντιστοιχεί σε μια πολυγωνική γραμμή που τέμνει κάθε έναν από τους άξονες στο σημείο που αντιστοιχεί στην τιμή του χαρακτηριστικού

39 Παράλληλες Συντεταγμένες ενός Συνόλου Δεδομένων

40 Τεχνικές Οπτικοποίησης Βασισμένες σε Εικονίδια Οπτικοποίηση των τιμών δεδομένων ως χαρακτηριστικών των εικονιδίων Τυπικές μέθοδοι απεικόνισης Πρόσωπα Chernoff Στοιχεία ραβδιών (stick figures) Γενικές τεχνικές Κωδικοποίηση σχήματος: Χρησιμοποιήστε ένα σχήμα για να αναπαριστάτε κάποια κωδικοποίηση Εικονίδια χρώματος: Χρησιμοποιήστε έγχρωμα εικονίδια για να κωδικοποιήσετε περισσότερες πληροφορίες Γραμμές πλακιδίων : Χρησιμοποιήστε μικρά εικονίδια για να αναπαριστήσετε τα σχετικά διανύσματα χαρακτηριστικών στην ανάκτηση εγγράφων

Πρόσωπα Chernoff Ένας τρόπος να εμφανιστούν μεταβλητές σε μια δισδιάστατη επιφάνεια, π.χ., x να είναι η κλίση του φρυδιού, y το μέγεθος του ματιού, z το μήκος της μύτης, κλπ. Το σχήμα δείχνει πρόσωπα που παράγονται χρησιμοποιώντας 10 χαρακτηριστικά - εκκεντρότητα κεφαλής, μέγεθος οφθαλμού, απόσταση των ματιών, εκκεντρότητα οφθαλμού, μέγεθος κόρης, κλίση φρυδιού, μέγεθος μύτης, σχήμα στόματος, μέγεθος στόματος και άνοιγμα στόματος): Σε κάθε ένα αντιστοιχήθηκε μία από τις 10 πιθανές τιμές, και δημιουργήθηκε με τη χρήση του Mathematica (S. Dickson) REFERENCE: Gonick, L. and Smith, W. The Cartoon Guide to Statistics. New York: Harper Perennial, p. 212, 1993 Weisstein, Eric W. "Chernoff Face." From MathWorld--A Wolfram Web Resource. mathworld.wolfram.com/chernoffface.html 41

42 Stick Figure Ένα σχήμα με δεδομένα απογραφής που δείχνουν την ηλικία, το εισόδημα, το φύλο, την εκπαίδευση κ.λπ. Μια φιγούρα 5 κομματιών (1 σώμα και 4 άκρα με διαφορετική γωνία / μήκος)

43 Οπτικοποίηση Σύνθετων Δεδομένων και Σχέσεων: Ετικέτες Cloud Tag cloud: Οπτικοποίηση ετικετών που δημιουργούνται από χρήστες Η σημασία της ετικέτας αντιπροσωπεύεται από το μέγεθος ή το χρώμα της γραμματοσειράς Χρησιμοποιείται ευρέως για την απεικόνιση κατανομών λέξεων / φράσεων KDD 2013 Research Paper Title Tag Cloud Newsmap: Google News Stories in 2005

44 Οπτικοποίηση Σύνθετων Δεδομένων και Σχέσεων: Κοινωνικά Δίκτυα Οπτικοποίηση μη-αριθμητικών δεδομένων: κοινωνικά και δίκτυα πληροφοριών Οργάνωση δικτύων πληροφοριών Τυπική δικτυακή δομή Κοινωνικό δίκτυο

45 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας και ανομοιότητας των δεδομένων Σύνοψη

46 Ομοιότητα, Ανομοιότητα και Εγγύτητα Μέτρο Ομοιότητας (Similarity) ή συνάρτηση ομοιότητας Μια πραγματική συνάρτηση που ποσοτικοποιεί την ομοιότητα μεταξύ δύο αντικειμένων Μετρά πώς δύο αντικείμενα δεδομένων είναι ίδια: Όσο υψηλότερη η τιμή, τόσο πιο όμοια Συχνά πέφτει στην περιοχή [0,1]: 0: δεν υπάρχει ομοιότητα. 1: εντελώς όμοια Μέτρο Ανομοιότητας (Dissimilarity) (ή απόστασης) Αριθμητική μέτρηση του πόσο διαφορετικά είναι δύο αντικείμενα δεδομένων Από μία άποψη, το αντίστροφο της ομοιότητας: Όσο χαμηλότερη η τιμή, τόσο πιο όμοια Η ελάχιστη ανομοιότητα είναι συχνά 0 (δηλ., εντελώς όμοια) Εύρος [0, 1] ή [0, ), ανάλογα με τον ορισμό Η Εγγύτητα (proximity) συνήθως αναφέρεται στην ομοιότητα ή την ανομοιότητα

47 Πίνακας Δεδομένων και Πίνακας Ανομοιότητας Πίνακας Δεδομένων (Data matrix) Ένας πίνακας δεδομένων από n σημεία με l διαστάσεις Πίνακας Ανομοιότητας (Dissimilarity matrix) n σημεία, αλλά καταγράφει μόνο την απόσταση d(i, j) (συνήθως μετρική) Συνήθως συμμετρικός, επομένως τριγωνικός πίνακας Οι συναρτήσεις απόστασης (Distance functions) συνήθως διαφέρουν για τις πραγματικές, λογικές, κατηγορικές, διάταξης, αναλογίας, και διανυσματικές μεταβλητές Τα βάρη μπορούν να συσχετιστούν με διαφορετικές μεταβλητές με βάση τις εφαρμογές και τη σημασία των δεδομένων D x x... x x x... x 11 12 1l 21 22 2l = x x... x n1 n2 nl 0 d(2,1) 0 d( n,1) d( n,2)... 0

48 Κανονικοποίηση Αριθμητικών Δεδομένων Z-score: X: τιμή που θα κανονικοποιηθεί, μ: μέσος του πληθυσμού, σ: τυπική απόκλιση η απόσταση μεταξύ της τιμής και του μέσου όρου του πληθυσμού σε μονάδες τυπικής απόκλισης Αρνητικό όταν η τιμή είναι κάτω από το μέσο, + όταν είναι πάνω Εναλλακτικός τρόπος: Υπολογισμός της μέσης απόλυτης απόκλισης s = 1(... ) f n x m + x m + + x m 1f f 2 f f nf f όπου m = 1(x x +... + x ). f n + 1f 2 f nf z = x Κανονικοποιημένο μέτρο (z-score): z if = Η χρήση της μέσης απόλυτης απόκλισης είναι πιο ισχυρή από τη χρήση της τυπικής απόκλισης x if m s f f

49 Παράδειγμα: Πίνακας Δεδομένων και Πίνακας Ανομοιότητας Πίνακας Δεδομένων point attribute1 attribute2 x1 1 2 x2 3 5 x3 2 0 x4 4 5 Πίνακας Ανομοιότητας (με Ευκλείδεια Απόσταση) x1 x2 x3 x4 x1 0 x2 3.61 0 x3 2.24 5.1 0 x4 4.24 1 5.39 0

50 Απόσταση Αριθμητικών Δεδομένων: Απόσταση Minkowski Απόσταση Minkowski : Ένα δημοφιλές μέτρο απόστασης όπου i = (x i1, x i2,, x il ) and j = (x j1, x j2,, x jl ) είναι δύο αντικείμενα δεδομένων με διάσταση l, και p είναι η τάξη (order) (η απόσταση ονομάζεται και L-p νόρμα) Ιδιότητες p d( i, j) = x x + x x + + x x p p p i1 j1 i2 j2 il jl d(i, j) > 0 if i j, και d(i, i) = 0 (Θετικότητα) d(i, j) = d(j, i) (Συμμετρία) d(i, j) d(i, k) + d(k, j) (Τριγωνική ανισότητα) Μια απόσταση που ικανοποιεί αυτές τις ιδιότητες είναι μια μετρική Σημείωση: Υπάρχουν μη μετρικές ανομοιότητες, π.χ., διαφορές συνόλων

51 Ειδικές Περιπτώσεις της Απόστασης Minkowski p = 1: (L 1 norm) Απόσταση Manhattan Π.χ., η απόσταση Hamming: ο αριθμός των δυαδικών ψηφίων που διαφέρουν μεταξύ δύο δυαδικών διανυσμάτων p = 2: (L 2 norm) Ευκλείδεια (Euclidean) Απόσταση p : (L max norm, L norm) supremum distance d( i, j) = x x + x x + + x x i1 j1 i2 j2 il jl d( i, j) = x x + x x + + x x 2 2 2 i1 j1 i2 j2 il jl Η μέγιστη διαφορά μεταξύ κάθε στοιχείου (χαρακτηριστικού) των διανυσμάτων

Παράδειγμα: Απόσταση Minkowski σε Ειδικές Περιπτώσεις 52 point attribute 1 attribute 2 x1 1 2 x2 3 5 x3 2 0 x4 4 5 Manhattan (L 1 ) L x1 x2 x3 x4 x1 0 x2 5 0 x3 3 6 0 x4 6 1 7 0 Euclidean (L 2 ) L2 x1 x2 x3 x4 x1 0 x2 3.61 0 x3 2.24 5.1 0 x4 4.24 1 5.39 0 Supremum (L ) L x1 x2 x3 x4 x1 0 x2 3 0 x3 2 5 0 x4 3 1 5 0

53 Μέτρο Εγγύτητας για Δυαδικά Χαρακτηριστικά Ένας contingency πίνακας για δυαδικά δεδομένα Object j Object i Μέτρο απόστασης για συμμετρικές δυαδικές μεταβλητές: Μέτρο απόστασης για ασύμμετρες δυαδικές μεταβλητές: Συντελεστής Jaccard (Μέτρο ομοιότητας (similarity) για μη συμμετρικές δυαδικές μεταβλητές):

Παράδειγμα: Ανομοιότητα μεταξύ Ασύμμετρων Δυαδικών Μεταβλητών 54 Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N Το φύλο είναι ένα συμμετρικό χαρακτηριστικό (δεν προσμετράτε) Τα υπόλοιπα χαρακτηριστικά είναι ασύμμετρα δυαδικά Έστω ότι οι τιμές Y και P είναι 1 και η τιμή N είναι 0 Απόσταση: 0 + 1 d( jack, mary) = = 0.33 2 + 0 + 1 1 + 1 d( jack, jim) = = 0.67 1 + 1 + 1 1 + 2 d( jim, mary) = = 0.75 1 + 1 + 2 Jim Jack Mary Jack 1 0 row 1 1 1 2 0 2 2 4 col 3 3 6 Mary 1 0 row 1 2 0 2 0 1 3 4 col 3 3 6 Jim 1 0 row 1 1 1 2 0 1 3 4 col 2 4 6

55 Μέτρο Εγγύτητας για Κατηγορικά Χαρακτηριστικά Κατηγορικά δεδομένα ή ονομαστικά χαρακτηριστικά Παράδειγμα: Χρώμα (κόκκινο, κίτρινο, μπλε, πράσινο), επάγγελμα, κλπ. Μέθοδος 1: Απλή αντιστοίχιση m: # αντιστοιχίσεων, p: συνολικός # μεταβλητών d( i, j) = p p m Μέθοδος 2: Χρήση ενός μεγάλου αριθμού δυαδικών χαρακτηριστικών Δημιουργία ενός νέου δυαδικού χαρακτηριστικού για κάθε μία από τις Μ ονομαστικές καταστάσεις

56 Ανομοιότητα για Μεταβλητές Διάταξης Μια μεταβλητή διάταξης μπορεί να είναι διακριτή ή συνεχής Η σειρά είναι σημαντική, π.χ., κατάταξη (π.χ., freshman, sophomore, junior, senior) Μπορεί να αντιμετωπιστεί όπως οι μεταβλητές διαστήματος Αντικατάσταση της τιμή μιας μεταβλητής διάταξης με την κατάταξή της : Αντιστοίχιση του εύρους κάθε μεταβλητής σε [0, 1] αντικαθιστώντας το i στοιχείο στη f μεταβλητή με z if = r 1 1 Παράδειγμα: freshman: 0; sophomore: 1/3; junior: 2/3; senior 1 Στη συνέχεια: d(freshman, senior) = 1, d(junior, senior) = 1/3 if M f r if {1,..., M } f Υπολογισμός της ανομοιότητας με χρήση μεθόδων για μεταβλητές διαστήματος

57 Χαρακτηριστικά Μικτού Τύπου Ένα σύνολο δεδομένων μπορεί να περιέχει όλους τους τύπους χαρακτηριστικών Ονομαστικά, συμμετρικά δυαδικά, ασύμμετρα δυαδικά, αριθμητικά και διάταξης Κάποιος μπορεί να χρησιμοποιήσει έναν σταθμισμένο τύπο για να συνδυάσει την p επίδρασή τους: ( f ) ( f ) w d Αν το f είναι αριθμητικό: Χρήση της κανονικοποιημένης απόστασης Αν το f είναι δυαδικό ή ονομαστικό: d ij (f) = 0 if x if = x jf ; or d ij (f) = 1 διαφορετικά Αν το f είναι διάταξης Υπολογισμός των τάξεων z if (όπου ) d( i, j) = Χειρισμός των z if ως δεδομένων διαστήματος z f = 1 p if f = 1 = ij w r if M ( f ) ij f ij 1 1

58 Ομοιότητα Συνημιτόνου δύο Διανυσμάτων Ένα έγγραφο μπορεί να αντιπροσωπεύεται από ένα σύνολο όρων ή ένα μακρύ διάνυσμα, με κάθε χαρακτηριστικό να καταγράφει τη συχνότητα ενός συγκεκριμένου όρου (π.χ. λέξεις), στο έγγραφο Άλλα διανυσματικά αντικείμενα: Χαρακτηριστικά γονιδίων σε μικρο-συστοιχίες (micro-arrays ) Εφαρμογές: Ανάκτηση πληροφοριών, βιολογική ταξινόμηση, χαρτογράφηση χαρακτηριστικών γονιδίων, κλπ. Μέτρο Συνημιτόνου: Αν d 1 και d 2 είναι δύο διανύσματα (π.χ., διανύσματα συχνότητας όρων), τότε cos( d, d ) = 1 2 d1 d2 d d 1 2 όπου το εσωτερικό γινόμενο των διανυσμάτων, d : το μήκος του διανύσματος d

59 Παράδειγμα: Υπολογισμός Ομοιότητας Συνημιτόνου Υπολογισμός Ομοιότητας Συνημιτόνου: d1 d2 cos( d1, d2) = d d όπου το εσωτερικό γινόμενο των διανυσμάτων, d : το μήκος του διανύσματος d Π.χ.: Βρέστε την ομοιότητα μεταξύ των εγγράφων 1 και 2. d 1 = (5, 0, 3, 0, 2, 0, 0, 2, 0, 0) d 2 = (3, 0, 2, 0, 1, 1, 0, 1, 0, 1) Πρώτα, το εσωτερικό γινόμενο των διανυσμάτων d 1 d 2 = 5 X 3 + 0 X 0 + 3 X 2 + 0 X 0 + 2 X 1 + 0 X 1 + 0 X 1 + 2 X 1 + 0 X 0 + 0 X 1 = 25 Μετά, υπολογίστε d 1 and d 2 1 2 d 1 = 5 5 + 0 0 + 33+ 0 0 + 2 2 + 00 + 00 + 2 2 + 00 + 00 = 6.481 d 2 = 3 3+ 0 0 + 2 2 + 00 + 11+ 11+ 0 0 + 11+ 0 0 + 1 1 = 4.12 Υπολογίστε την ομοιότητα συνημιτόνου : cos(d 1, d 2 ) = 25/ (6.481 X 4.12) = 0.94

60 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας και ανομοιότητας των δεδομένων Σύνοψη

61 Σύνοψη Τύποι γνωρισμάτων: ονομαστικός, δυαδικός, διάταξης, διαστήματος, αναλογίας Πολλά γνωρίσματα σε ένα σύνολο δεδομένων, π.χ. αριθμητικά, κείμενο, γράφοι, ιστός, εικόνες. Αποκτήστε γνώση των δεδομένων με: Βασική περιγραφή στατιστικών δεδομένων: κεντρική τάση, διασπορά, γραφικές απεικονίσεις Οπτικοποίηση δεδομένων: αντιστοίχιση δεδομένων σε γραφικές μορφές Μετρήστε την ομοιότητα των δεδομένων Τα παραπάνω βήματα είναι η αρχή της προεπεξεργασίας δεδομένων