1 Γνωρίζοντας τα δεδομένα σας
2 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας και ανομοιότητας των δεδομένων Σύνοψη
3 Μορφές Συνόλων Δεδομένων: (1) Εγγραφές Σχεσιακές εγγραφές Πίνακες με ισχυρή δόμηση Πίνακας Δεδομένων, (για αριθμητικά δεδομένα) Δεδομένα Συναλλαγών: π.χ. καλάθι αγοράς TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Document 1 Document 2 Document 3 Δεδομένα Εγγράφων: Σποραδικά, π.χ. διάνυσμα (πίνακας) με συχνότητες όρων team coach pla y ball score game wi n lost timeout 3 0 5 0 2 6 0 2 0 2 0 0 7 0 2 1 0 0 3 0 0 1 0 0 1 2 2 0 3 0 season
Μορφές Συνόλων Δεδομένων: (2) Γράφοι και Δίκτυα Δίκτυα Μεταφορών Παγκόσμιος Ιστός Μοριακές δομές 4 Κοινωνικά δίκτυα ή δίκτυα πληροφοριών
Μορφές Συνόλων Δεδομένων: (3) Διατεταγμένα Δεδομένα Δεδομένα βίντεο: ακολουθία εικόνων Χρονικά δεδομένα: χρονολογική σειρά Διαδοχικά δεδομένα: ακολουθίες συναλλαγών 5 Δεδομένα γενετικής ακολουθίας (Genetic sequence data)
6 Μορφές Συνόλων Δεδομένων: (4) Χωρικά δεδομένα, εικόνες και πολυμεσικά δεδομένα Χωρικά δεδομένα : χάρτες Δεδομένα εικόνων Δεδομένα βίντεο
7 Χαρακτηριστικά Δομημένων Δεδομένων Διαστάσεις: πλήθος χαρακτηριστικών Η κατάρα των διαστάσεων Σπανιότητα (Sparsity): λίγες μη μηδενικές τιμές Μετράει μόνο η παρουσία Ανάλυση (Resolution): π.χ. γη (απόσταση), καιρός (χρόνος) Τα μοτίβα εξαρτώνται από την κλίμακα Κατανομή Μέτρα θέσης (κεντρικής τάσης) και διασπορά
8 Αντικείμενα Δεδομένων Τα Σύνολα Δεδομένων αποτελούνται από αντικείμενα δεδομένων Ένα αντικείμενο δεδομένων (data object) αναπαριστά μια οντότητα Παραδείγματα: Βάση δεδομένων πωλήσεων: πελάτες, προϊόντα, πωλήσεις Ιατρική βάση δεδομένων: ασθενείς, θεραπείες Πανεπιστημιακή βάση δεδομένων: φοιτητές, καθηγητές, μαθήματα Τα αντικείμενα δεδομένων περιγράφονται από γνωρίσματα Βάση δεδομένων: γραμμές αντικείμενα δεδομένων; στήλες γνωρίσματα
Γνωρίσματα Γνώρισμα (ή διάσταση, χαρακτηριστικό, μεταβλητή, πεδίο) Χαρακτηριστικό ή ιδιότητα ενός αντικειμένου δεδομένων που διαφέρει μόνιμα ή χρονικά. Π.χ., customer _ID, name, address Τύποι (πεδία τιμών): Ονομαστικός: κατηγορικά ή ποιοτικά (π.χ. κόκκινο, μπλε) Δυαδικός (π.χ., {true, false}) Διάταξης (Ordinal) (π.χ. {freshman, sophomore, junior, senior}) Αριθμητικός: ποσοτικά Κλίμακα Διαστήματος (Interval-scaled): 100 C είναι διαστήματος Κλίμακα Αναλογίας (Ratio-scaled): 100 K είναι αναλογίας αφού είναι διπλάσιο των 50 K Ερωτήσεις Q1: Ο κωδικός φοιτητή είναι ονομαστικός, διάταξης ή τύπος διαστήματος; Q2: Το χρώμα των ματιών; Ή το χρώμα στο φάσμα των χρωμάτων της φυσικής; 9
10 Τύποι Γνωρισμάτων Ονομαστικός (Nominal): κατηγορίες, καταστάσεις ή "ονόματα πραγμάτων" Χρώμα Μαλλιών = {μαύρο, μαύρο, ξανθό, καφέ, γκρι, κόκκινο, άσπρο} οικογενειακή κατάσταση, επάγγελμα, αριθμός ταυτότητας, ταχυδρομικός κώδικας Δυαδικός (Binary) Ονομαστικό χαρακτηριστικό με μόνο 2 καταστάσεις (0 και 1) Συμμετρικός δυαδικός: και οι δύο καταστάσεις εξίσου σημαντικές π.χ., το φύλο Ασύμμετρος δυαδικός: οι δύο καταστάσεις δεν είναι εξίσου σημαντικές. π.χ., ιατρική εξέταση (θετική έναντι αρνητικής) Σύμβαση : εκχωρείται η τιμή 1 στο πιο σημαντικό αποτέλεσμα (π.χ. HIV θετικό) Διάταξης (Ordinal) Η σειρά (κατάταξη) των τιμών έχει σημασία αλλά το μέγεθος των διαδοχικών τιμών δεν είναι προσδιορισμένο Μέγεθος = {μικρό, μεσαίο, μεγάλο}, βαθμοί, κατάταξη στρατού
11 Αριθμητικοί Τύποι Γνωρισμάτων Ποσοτικοί (ακέραιοι ή πραγματικοί) Διαστήματος Μετρούνται σε κλίμακα μονάδων ίσου μεγέθους Οι τιμές έχουν κατάταξη Αναλογίας Π.χ., θερμοκρασία σε C ή F, ημερομηνίες Δεν υπάρχει πραγματική τιμή μηδέν Ενυπάρχει μηδενικό σημείο Οι τιμές είναι ανάλογες της μονάδας μέτρησης (10 K είναι διπλάσια από 5 K ) π.χ., θερμοκρασία σε Kelvin, μήκος, μετρήσεις, νομισματικές ποσότητες
12 Διακριτά και Συνεχή Γνωρίσματα Διακριτά Γνωρίσματα Έχουν μόνο ένα πεπερασμένο ή αριθμήσιμα άπειρο σύνολο τιμών Π.χ., ταχυδρομικός κώδικας, επάγγελμα ή το σύνολο των λέξεων σε μια συλλογή εγγράφων Μερικές φορές, αντιπροσωπεύονται από ακέραιες μεταβλητές Σημείωση: Τα δυαδικά γνωρίσματα είναι μια ειδική περίπτωση διακριτών γνωρίσματων Συνεχή Γνωρίσματα Έχουν πραγματικούς αριθμούς ως τιμές των γνωρισμάτων Π.χ. θερμοκρασία, ύψος ή βάρος Πρακτικά, οι πραγματικές τιμές μπορούν να μετρηθούν και να αναπαρασταθούν μόνο με έναν πεπερασμένο αριθμό ψηφίων Αναπαριστάνονται ως μεταβλητές κινητής υποδιαστολής
13 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας και ανομοιότητας των δεδομένων Σύνοψη
14 Βασικές Στατιστικές Περιγραφές Κίνητρο Για καλύτερη κατανόηση των δεδομένων: κεντρική τάση, διακύμανση και διασπορά Χαρακτηριστικά κεντρικής τάσης δεδομένων Μέσος, διάμεσος, επικρατούσα τιμή, τεταρτημόρια, Χαρακτηριστικά διασποράς δεδομένων Εύρος (max, min), ακραίες τιμές, διακύμανση, τυπική απόκλιση...
15 Μέτρηση Κεντρικής Τάσης: (1) Μέσος Μέσος (Mean) (αλγεβρική μέτρηση) (δείγμα και πληθυσμός): Σημείωση: n είναι το μέγεθος του δείγματος και N το μέγεθος του πληθυσμού. Σταθμισμένος αριθμητικός μέσος: Περικομμένος (Trimmed) μέσος: x = 1 n n i= 1 x i x n i= 1 = n i= 1 = w x Αφαίρεση ακραίων τιμών (π.χ. υπολογισμός βαθμολογιών γυμναστικής Ολυμπιακών Αγώνων) i w i i x N
Μέτρηση Κεντρικής Τάσης: (2) Διάμεσος Διάμεσος (Median): Μεσαία τιμή αν το πλήθος είναι μονός αριθμός ή ο μέσος όρος των δύο μεσαίων τιμών διαφορετικά: Εκτιμάται με παρεμβολή (για ομαδοποιημένα δεδομένα): 16 Διάμεσος κατά προσέγγιση median = L 1 n / + ( Κάτω όριο διαστήματος διάμεσου Άθροισμα πριν από το διάστημα του διάμεσου 2 ( freq median freq) l ) width Πλάτος διαστήματος (L 2 L 1 ) διάμεσου
17 Μέτρηση Κεντρικής Τάσης: (3) Επικρατούσα Τιμή Επικρατούσα Τιμή (Mode): Η τιμή που εμφανίζεται πιο συχνά Μονοκόρυφη (Unimodal) Εμπειρικός τύπος: mean mode = 3( mean median) Πολλαπλών κορυφών (Multi-modal) Δικόρυφη (Bimodal) Τρικόρυφη (Trimodal)
Συμμετρικά και Κυρτά Δεδομένα Διάμεσος, μέσος και επικρατούσα τιμή για συμμετρικά, θετικά και αρνητικά κυρτά δεδομένα Συμμετρικά Θετικά κυρτά Αρνητικά κυρτά 18
Ιδιότητες Καμπύλης Κανονικής Κατανομής Αντιπροσωπεύει τη διασπορά των δεδομένων 19 Αντιπροσωπεύει την κεντρική τάση
20 Μέτρα Κατανομής Δεδομένων: Διασπορά και Τυπική Απόκλιση Διασπορά και Τυπική Απόκλιση (δείγμα: s, πληθυσμός: σ) Διασπορά (Variance): Τυπική απόκλιση (standard deviation) s (ή σ) η τετραγωνική ρίζα της διασποράς s 2 (ή σ 2 ) = = = = = n i n i i i n i i x n x n x x n s 1 1 2 2 1 2 2 ] ) ( 1 [ 1 1 ) ( 1 1 = = = = n i i n i i x N x N 1 2 2 1 2 2 1 ) ( 1
21 Γραφική Απεικόνιση Βασικών Στατιστικών Μεγεθών Θηκόγραμμα (boxplot): συνοπτική γραφική απεικόνιση πέντε αριθμών Ιστόγραμμα: άξονας x τιμές, άξονας y συχνότητες Διάγραμμα Τεταρτημόριων (quantile plot): κάθε τιμή x i συνδυάζεται με f i δείχνοντας ότι περίπου 100 f i % των δεδομένων είναι x i Quantile-quantile (q-q) διάγραμμα: παρουσιάζει τα ποσοστά μίας μονομεταβλητής κατανομής έναντι των αντίστοιχων ποσοστών μιας άλλης Διάγραμμα διασποράς: κάθε ζεύγος τιμών είναι ένα ζεύγος συντεταγμένων και παρουσιάζεται γραφικά ως σημείο στο επίπεδο
Μέτρηση Διασποράς Δεδομένων: Τεταρτημόρια και Boxplots Τεταρτημόρια (Quartiles): Q 1 (25 th εκατοστημόριο), Q 3 (75 th εκατοστημόριο) Διατεταρτημοριακό (Inter-quartile) εύρος: IQR = Q 3 Q 1 Σύνοψη πέντε αριθμών: min, Q 1, median, Q 3, max Θηκόγραμμα (boxplot): Τα δεδομένα αναπαρίστανται με ένα πλαίσιο Q 1, Q 3, IQR: Τα άκρα του πλαισίου είναι στο πρώτο και στο τρίτο τεταρτημόριο, δηλαδή το ύψος του κουτιού είναι IQR Διάμεσος (Q 2 ): σημειώνεται με μια γραμμή μέσα στο πλαίσιο Μπάρες (whiskers): δύο γραμμές έξω από το πλαίσιο επεκτείνονται μέχρι το Ελάχιστο και το Μέγιστο Ακραίες τιμές (Outliers): σημεία πέρα από ένα καθορισμένο όριο, αναπαρίστανται χωριστά Ακραία τιμή: συνήθως μια τιμή μεγαλύτερη/μικρότερη από 1.5 x IQR 22
23 Οπτικοποίηση Διασποράς Δεδομένων : 3-D Boxplots
Ανάλυση Ιστογράμματος Ιστόγραμμα: Παρουσιάζει τις συχνότητες ως γραμμές Διαφορές ιστογραμμάτων και ραβδογραμμάτων Τα ιστογράμματα δείχνουν κατανομές των μεταβλητών ενώ τα ραβδογράμματα συγκρίνουν μεταβλητές Τα ιστογράμματα παρουσιάζουν ομαδοποιημένα ποσοτικά δεδομένα, ενώ τα ραβδογράμματα παρουσιάζουν κατηγορικά δεδομένα Οι μπάρες μπορούν να αναδιαμορφωθούν σε ένα ραβδόγραμμα, αλλά όχι σε ένα ιστογράμματα Ένα ιστόγραμμα διαφέρει από ένα ραβδόγραμμα στο ότι είναι το πλάτος της ράβδου που υποδηλώνει την τιμή, όχι το ύψος όπως στα ραβδογράμματα, μια κρίσιμη διάκριση όταν οι κατηγορίες δεν έχουν ομοιόμορφο πλάτος 40 35 30 25 20 15 10 5 0 10000 30000 50000 70000 90000 Ιστόγραμμα 24 Ραβδόγραμμα
25 Τα Ιστογράμματα Συχνά Λένε Περισσότερα από τα Boxplots Τα δύο ιστογράμματα που εμφανίζονται στα αριστερά μπορεί να έχουν την ίδια παράσταση boxplot Οι ίδιες τιμές για: min, Q1, median, Q3, max Αλλά έχουν μάλλον διαφορετικές κατανομές δεδομένων
Διάγραμμα Τεταρτημόριων Εμφανίζει όλα τα δεδομένα (επιτρέποντας στον χρήστη να αξιολογήσει τόσο τη γενική συμπεριφορά όσο και τα ασυνήθιστα περιστατικά) Παρουσιάζει πληροφορίες συχνοτήτων Για δεδομένα x i ταξινομημένα σε αύξουσα σειρά, το f i υποδεικνύει ότι περίπου f i % των δεδομένων είναι κάτω ή ίδια με την τιμή x i 26 Data Mining: Concepts and Techniques
27 Διάγραμμα Quantile-Quantile (Q-Q) Παρουσιάζει τα ποσοστά μίας μονομεταβλητής κατανομής έναντι των αντίστοιχων ποσοστών μιας άλλης Προβολή: Υπάρχει μετατόπιση στην μετάβαση από τη μια κατανομή στην άλλη; Το παράδειγμα δείχνει την τιμή μονάδας των ειδών που πωλούνται στον Υποκατάστημα 1 έναντι αυτών στο Υποκατάστημα 2 για κάθε ποσό. Οι τιμές μονάδας των ειδών που πωλούνται στο Υποκατάστημα 1 τείνουν να είναι χαμηλότερες από αυτές στο Υποκατάστημα 2
28 Διάγραμμα Διασποράς Παρέχει μια πρώτη ματιά στα διμεταβλητά (bivariate) δεδομένα για να φανούν συστάδες σημείων, ακραίες τιμές κ.λ.π. Κάθε ζεύγος τιμών αντιμετωπίζεται ως ζεύγος συντεταγμένων και σχεδιάζεται ως σημείο στο επίπεδο
29 Θετικά και Αρνητικά Συσχετισμένα Δεδομένα Το αριστερό μισό κομμάτι συσχετίζεται θετικά Το δεξιό μισό είναι αρνητικά συσχετισμένο
30 Μη-συσχετιζόμενα Δεδομένα
31 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας και ανομοιότητας των δεδομένων Σύνοψη
32 Οπτικοποίηση Δεδομένων Γιατί Οπτικοποίηση Δεδομένων (Data Visualization); Γνώση ενός χώρου πληροφοριών με την απεικόνιση δεδομένων σε γραφικές μορφές Παροχή ποιοτικής επισκόπησης μεγάλων συνόλων δεδομένων Αναζήτηση μοντέλων, τάσεων, δομών, ανωμαλιών, σχέσεων μεταξύ δεδομένων Εντοπισμός περιοχών με ενδιαφέρον και κατάλληλων παραμέτρων για περαιτέρω ποσοτική ανάλυση Παροχή οπτικής απόδειξης για παραστάσεις παραγόμενες από υπολογιστή Κατηγοριοποίηση μεθόδων οπτικοποίησης: Εικονοστοιχείων (pixel-oriented) Γεωμετρικής προβολής (geometric projection) Βασισμένες σε εικόνες (icon-based) Ιεραρχικές (hierarchical) τεχνικές οπτικοποίησης Οπτικοποίηση πολύπλοκων δεδομένων και σχέσεων
Τεχνικές Οπτικοποίησης Eικονοστοιχείων Για ένα σύνολο δεδομένων m διαστάσεων, δημιουργήστε m παράθυρα, ένα για κάθε διάσταση Οι τιμές της m διάστασης m μίας εγγραφής αντιστοιχίζονται σε m εικονοστοιχεία στις αντίστοιχες θέσεις των παραθύρων H τιμή κάθε παρατήρησης αντιστοιχεί σε ένα εικονοστοιχείο, του οποίου η διάταξη σε ένα συγκεκριμένο πλαίσιο αλλά και ο χρωματισμός, δίνει τις απαραίτητες πληροφορίες. 33 (a) Εισόδημα (b) Πιστωτικό Όριο (c) Όγκος συναλλαγών (d) Ηλικία
34 Τεχνικές Γεωμετρικής Προβολής Οπτικοποίηση γεωμετρικών μετασχηματισμών και προβολών των δεδομένων. Oι παρατηρήσεις τοποθετούνται σε γεωμετρικούς σχηματισμούς με τέτοιο τρόπο ώστε να αναδεικνύονται σχέσεις και αλληλεπιδράσεις μεταξύ των μεταβλητών Μέθοδοι Άμεση απεικόνιση Διαγράμματα και πίνακες διασποράς Τοπία Παράλληλες συντεταγμένες
Άμεση Οπτικοποίηση Δεδομένων Κορδέλες με στροφές με βάση τους στροβιλισμούς 35 Data Mining: Concepts and Techniques
36 Used by ermission of M. Ward, Worcester Polytechnic Institute Πίνακες Διαγραμμάτων Διασποράς Πίνακας διαγραμμάτων (xy-diagrams) των δεδομένων με k-διαστάσεις Συνολικά k(k-1)/2 διαφορετικά διαγράμματα
Used by permission of B. Wright, Visible Decisions Inc. Τοπία (Landscapes) Οπτικοποίηση των δεδομένων ως τοπίο με προοπτική Τα δεδομένα πρέπει να μετασχηματιστούν σε μια (πιθανώς τεχνητή) 2D χωρική αναπαράσταση η οποία διατηρεί τα χαρακτηριστικά των δεδομένων 37 άρθρα ειδήσεων που παρουσιάζονται ως τοπίο
38 Παράλληλες Συντεταγμένες n ισαπέχοντες άξονες οι οποίοι είναι παράλληλοι με έναν από τους άξονες της οθόνης και αντιστοιχούν στα χαρακτηριστικά Οι άξονες κλιμακώνονται στην περιοχή [ελάχιστο, μέγιστο]: του αντίστοιχου χαρακτηριστικού Κάθε στοιχείο δεδομένων αντιστοιχεί σε μια πολυγωνική γραμμή που τέμνει κάθε έναν από τους άξονες στο σημείο που αντιστοιχεί στην τιμή του χαρακτηριστικού
39 Παράλληλες Συντεταγμένες ενός Συνόλου Δεδομένων
40 Τεχνικές Οπτικοποίησης Βασισμένες σε Εικονίδια Οπτικοποίηση των τιμών δεδομένων ως χαρακτηριστικών των εικονιδίων Τυπικές μέθοδοι απεικόνισης Πρόσωπα Chernoff Στοιχεία ραβδιών (stick figures) Γενικές τεχνικές Κωδικοποίηση σχήματος: Χρησιμοποιήστε ένα σχήμα για να αναπαριστάτε κάποια κωδικοποίηση Εικονίδια χρώματος: Χρησιμοποιήστε έγχρωμα εικονίδια για να κωδικοποιήσετε περισσότερες πληροφορίες Γραμμές πλακιδίων : Χρησιμοποιήστε μικρά εικονίδια για να αναπαριστήσετε τα σχετικά διανύσματα χαρακτηριστικών στην ανάκτηση εγγράφων
Πρόσωπα Chernoff Ένας τρόπος να εμφανιστούν μεταβλητές σε μια δισδιάστατη επιφάνεια, π.χ., x να είναι η κλίση του φρυδιού, y το μέγεθος του ματιού, z το μήκος της μύτης, κλπ. Το σχήμα δείχνει πρόσωπα που παράγονται χρησιμοποιώντας 10 χαρακτηριστικά - εκκεντρότητα κεφαλής, μέγεθος οφθαλμού, απόσταση των ματιών, εκκεντρότητα οφθαλμού, μέγεθος κόρης, κλίση φρυδιού, μέγεθος μύτης, σχήμα στόματος, μέγεθος στόματος και άνοιγμα στόματος): Σε κάθε ένα αντιστοιχήθηκε μία από τις 10 πιθανές τιμές, και δημιουργήθηκε με τη χρήση του Mathematica (S. Dickson) REFERENCE: Gonick, L. and Smith, W. The Cartoon Guide to Statistics. New York: Harper Perennial, p. 212, 1993 Weisstein, Eric W. "Chernoff Face." From MathWorld--A Wolfram Web Resource. mathworld.wolfram.com/chernoffface.html 41
42 Stick Figure Ένα σχήμα με δεδομένα απογραφής που δείχνουν την ηλικία, το εισόδημα, το φύλο, την εκπαίδευση κ.λπ. Μια φιγούρα 5 κομματιών (1 σώμα και 4 άκρα με διαφορετική γωνία / μήκος)
43 Οπτικοποίηση Σύνθετων Δεδομένων και Σχέσεων: Ετικέτες Cloud Tag cloud: Οπτικοποίηση ετικετών που δημιουργούνται από χρήστες Η σημασία της ετικέτας αντιπροσωπεύεται από το μέγεθος ή το χρώμα της γραμματοσειράς Χρησιμοποιείται ευρέως για την απεικόνιση κατανομών λέξεων / φράσεων KDD 2013 Research Paper Title Tag Cloud Newsmap: Google News Stories in 2005
44 Οπτικοποίηση Σύνθετων Δεδομένων και Σχέσεων: Κοινωνικά Δίκτυα Οπτικοποίηση μη-αριθμητικών δεδομένων: κοινωνικά και δίκτυα πληροφοριών Οργάνωση δικτύων πληροφοριών Τυπική δικτυακή δομή Κοινωνικό δίκτυο
45 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας και ανομοιότητας των δεδομένων Σύνοψη
46 Ομοιότητα, Ανομοιότητα και Εγγύτητα Μέτρο Ομοιότητας (Similarity) ή συνάρτηση ομοιότητας Μια πραγματική συνάρτηση που ποσοτικοποιεί την ομοιότητα μεταξύ δύο αντικειμένων Μετρά πώς δύο αντικείμενα δεδομένων είναι ίδια: Όσο υψηλότερη η τιμή, τόσο πιο όμοια Συχνά πέφτει στην περιοχή [0,1]: 0: δεν υπάρχει ομοιότητα. 1: εντελώς όμοια Μέτρο Ανομοιότητας (Dissimilarity) (ή απόστασης) Αριθμητική μέτρηση του πόσο διαφορετικά είναι δύο αντικείμενα δεδομένων Από μία άποψη, το αντίστροφο της ομοιότητας: Όσο χαμηλότερη η τιμή, τόσο πιο όμοια Η ελάχιστη ανομοιότητα είναι συχνά 0 (δηλ., εντελώς όμοια) Εύρος [0, 1] ή [0, ), ανάλογα με τον ορισμό Η Εγγύτητα (proximity) συνήθως αναφέρεται στην ομοιότητα ή την ανομοιότητα
47 Πίνακας Δεδομένων και Πίνακας Ανομοιότητας Πίνακας Δεδομένων (Data matrix) Ένας πίνακας δεδομένων από n σημεία με l διαστάσεις Πίνακας Ανομοιότητας (Dissimilarity matrix) n σημεία, αλλά καταγράφει μόνο την απόσταση d(i, j) (συνήθως μετρική) Συνήθως συμμετρικός, επομένως τριγωνικός πίνακας Οι συναρτήσεις απόστασης (Distance functions) συνήθως διαφέρουν για τις πραγματικές, λογικές, κατηγορικές, διάταξης, αναλογίας, και διανυσματικές μεταβλητές Τα βάρη μπορούν να συσχετιστούν με διαφορετικές μεταβλητές με βάση τις εφαρμογές και τη σημασία των δεδομένων D x x... x x x... x 11 12 1l 21 22 2l = x x... x n1 n2 nl 0 d(2,1) 0 d( n,1) d( n,2)... 0
48 Κανονικοποίηση Αριθμητικών Δεδομένων Z-score: X: τιμή που θα κανονικοποιηθεί, μ: μέσος του πληθυσμού, σ: τυπική απόκλιση η απόσταση μεταξύ της τιμής και του μέσου όρου του πληθυσμού σε μονάδες τυπικής απόκλισης Αρνητικό όταν η τιμή είναι κάτω από το μέσο, + όταν είναι πάνω Εναλλακτικός τρόπος: Υπολογισμός της μέσης απόλυτης απόκλισης s = 1(... ) f n x m + x m + + x m 1f f 2 f f nf f όπου m = 1(x x +... + x ). f n + 1f 2 f nf z = x Κανονικοποιημένο μέτρο (z-score): z if = Η χρήση της μέσης απόλυτης απόκλισης είναι πιο ισχυρή από τη χρήση της τυπικής απόκλισης x if m s f f
49 Παράδειγμα: Πίνακας Δεδομένων και Πίνακας Ανομοιότητας Πίνακας Δεδομένων point attribute1 attribute2 x1 1 2 x2 3 5 x3 2 0 x4 4 5 Πίνακας Ανομοιότητας (με Ευκλείδεια Απόσταση) x1 x2 x3 x4 x1 0 x2 3.61 0 x3 2.24 5.1 0 x4 4.24 1 5.39 0
50 Απόσταση Αριθμητικών Δεδομένων: Απόσταση Minkowski Απόσταση Minkowski : Ένα δημοφιλές μέτρο απόστασης όπου i = (x i1, x i2,, x il ) and j = (x j1, x j2,, x jl ) είναι δύο αντικείμενα δεδομένων με διάσταση l, και p είναι η τάξη (order) (η απόσταση ονομάζεται και L-p νόρμα) Ιδιότητες p d( i, j) = x x + x x + + x x p p p i1 j1 i2 j2 il jl d(i, j) > 0 if i j, και d(i, i) = 0 (Θετικότητα) d(i, j) = d(j, i) (Συμμετρία) d(i, j) d(i, k) + d(k, j) (Τριγωνική ανισότητα) Μια απόσταση που ικανοποιεί αυτές τις ιδιότητες είναι μια μετρική Σημείωση: Υπάρχουν μη μετρικές ανομοιότητες, π.χ., διαφορές συνόλων
51 Ειδικές Περιπτώσεις της Απόστασης Minkowski p = 1: (L 1 norm) Απόσταση Manhattan Π.χ., η απόσταση Hamming: ο αριθμός των δυαδικών ψηφίων που διαφέρουν μεταξύ δύο δυαδικών διανυσμάτων p = 2: (L 2 norm) Ευκλείδεια (Euclidean) Απόσταση p : (L max norm, L norm) supremum distance d( i, j) = x x + x x + + x x i1 j1 i2 j2 il jl d( i, j) = x x + x x + + x x 2 2 2 i1 j1 i2 j2 il jl Η μέγιστη διαφορά μεταξύ κάθε στοιχείου (χαρακτηριστικού) των διανυσμάτων
Παράδειγμα: Απόσταση Minkowski σε Ειδικές Περιπτώσεις 52 point attribute 1 attribute 2 x1 1 2 x2 3 5 x3 2 0 x4 4 5 Manhattan (L 1 ) L x1 x2 x3 x4 x1 0 x2 5 0 x3 3 6 0 x4 6 1 7 0 Euclidean (L 2 ) L2 x1 x2 x3 x4 x1 0 x2 3.61 0 x3 2.24 5.1 0 x4 4.24 1 5.39 0 Supremum (L ) L x1 x2 x3 x4 x1 0 x2 3 0 x3 2 5 0 x4 3 1 5 0
53 Μέτρο Εγγύτητας για Δυαδικά Χαρακτηριστικά Ένας contingency πίνακας για δυαδικά δεδομένα Object j Object i Μέτρο απόστασης για συμμετρικές δυαδικές μεταβλητές: Μέτρο απόστασης για ασύμμετρες δυαδικές μεταβλητές: Συντελεστής Jaccard (Μέτρο ομοιότητας (similarity) για μη συμμετρικές δυαδικές μεταβλητές):
Παράδειγμα: Ανομοιότητα μεταξύ Ασύμμετρων Δυαδικών Μεταβλητών 54 Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N Το φύλο είναι ένα συμμετρικό χαρακτηριστικό (δεν προσμετράτε) Τα υπόλοιπα χαρακτηριστικά είναι ασύμμετρα δυαδικά Έστω ότι οι τιμές Y και P είναι 1 και η τιμή N είναι 0 Απόσταση: 0 + 1 d( jack, mary) = = 0.33 2 + 0 + 1 1 + 1 d( jack, jim) = = 0.67 1 + 1 + 1 1 + 2 d( jim, mary) = = 0.75 1 + 1 + 2 Jim Jack Mary Jack 1 0 row 1 1 1 2 0 2 2 4 col 3 3 6 Mary 1 0 row 1 2 0 2 0 1 3 4 col 3 3 6 Jim 1 0 row 1 1 1 2 0 1 3 4 col 2 4 6
55 Μέτρο Εγγύτητας για Κατηγορικά Χαρακτηριστικά Κατηγορικά δεδομένα ή ονομαστικά χαρακτηριστικά Παράδειγμα: Χρώμα (κόκκινο, κίτρινο, μπλε, πράσινο), επάγγελμα, κλπ. Μέθοδος 1: Απλή αντιστοίχιση m: # αντιστοιχίσεων, p: συνολικός # μεταβλητών d( i, j) = p p m Μέθοδος 2: Χρήση ενός μεγάλου αριθμού δυαδικών χαρακτηριστικών Δημιουργία ενός νέου δυαδικού χαρακτηριστικού για κάθε μία από τις Μ ονομαστικές καταστάσεις
56 Ανομοιότητα για Μεταβλητές Διάταξης Μια μεταβλητή διάταξης μπορεί να είναι διακριτή ή συνεχής Η σειρά είναι σημαντική, π.χ., κατάταξη (π.χ., freshman, sophomore, junior, senior) Μπορεί να αντιμετωπιστεί όπως οι μεταβλητές διαστήματος Αντικατάσταση της τιμή μιας μεταβλητής διάταξης με την κατάταξή της : Αντιστοίχιση του εύρους κάθε μεταβλητής σε [0, 1] αντικαθιστώντας το i στοιχείο στη f μεταβλητή με z if = r 1 1 Παράδειγμα: freshman: 0; sophomore: 1/3; junior: 2/3; senior 1 Στη συνέχεια: d(freshman, senior) = 1, d(junior, senior) = 1/3 if M f r if {1,..., M } f Υπολογισμός της ανομοιότητας με χρήση μεθόδων για μεταβλητές διαστήματος
57 Χαρακτηριστικά Μικτού Τύπου Ένα σύνολο δεδομένων μπορεί να περιέχει όλους τους τύπους χαρακτηριστικών Ονομαστικά, συμμετρικά δυαδικά, ασύμμετρα δυαδικά, αριθμητικά και διάταξης Κάποιος μπορεί να χρησιμοποιήσει έναν σταθμισμένο τύπο για να συνδυάσει την p επίδρασή τους: ( f ) ( f ) w d Αν το f είναι αριθμητικό: Χρήση της κανονικοποιημένης απόστασης Αν το f είναι δυαδικό ή ονομαστικό: d ij (f) = 0 if x if = x jf ; or d ij (f) = 1 διαφορετικά Αν το f είναι διάταξης Υπολογισμός των τάξεων z if (όπου ) d( i, j) = Χειρισμός των z if ως δεδομένων διαστήματος z f = 1 p if f = 1 = ij w r if M ( f ) ij f ij 1 1
58 Ομοιότητα Συνημιτόνου δύο Διανυσμάτων Ένα έγγραφο μπορεί να αντιπροσωπεύεται από ένα σύνολο όρων ή ένα μακρύ διάνυσμα, με κάθε χαρακτηριστικό να καταγράφει τη συχνότητα ενός συγκεκριμένου όρου (π.χ. λέξεις), στο έγγραφο Άλλα διανυσματικά αντικείμενα: Χαρακτηριστικά γονιδίων σε μικρο-συστοιχίες (micro-arrays ) Εφαρμογές: Ανάκτηση πληροφοριών, βιολογική ταξινόμηση, χαρτογράφηση χαρακτηριστικών γονιδίων, κλπ. Μέτρο Συνημιτόνου: Αν d 1 και d 2 είναι δύο διανύσματα (π.χ., διανύσματα συχνότητας όρων), τότε cos( d, d ) = 1 2 d1 d2 d d 1 2 όπου το εσωτερικό γινόμενο των διανυσμάτων, d : το μήκος του διανύσματος d
59 Παράδειγμα: Υπολογισμός Ομοιότητας Συνημιτόνου Υπολογισμός Ομοιότητας Συνημιτόνου: d1 d2 cos( d1, d2) = d d όπου το εσωτερικό γινόμενο των διανυσμάτων, d : το μήκος του διανύσματος d Π.χ.: Βρέστε την ομοιότητα μεταξύ των εγγράφων 1 και 2. d 1 = (5, 0, 3, 0, 2, 0, 0, 2, 0, 0) d 2 = (3, 0, 2, 0, 1, 1, 0, 1, 0, 1) Πρώτα, το εσωτερικό γινόμενο των διανυσμάτων d 1 d 2 = 5 X 3 + 0 X 0 + 3 X 2 + 0 X 0 + 2 X 1 + 0 X 1 + 0 X 1 + 2 X 1 + 0 X 0 + 0 X 1 = 25 Μετά, υπολογίστε d 1 and d 2 1 2 d 1 = 5 5 + 0 0 + 33+ 0 0 + 2 2 + 00 + 00 + 2 2 + 00 + 00 = 6.481 d 2 = 3 3+ 0 0 + 2 2 + 00 + 11+ 11+ 0 0 + 11+ 0 0 + 1 1 = 4.12 Υπολογίστε την ομοιότητα συνημιτόνου : cos(d 1, d 2 ) = 25/ (6.481 X 4.12) = 0.94
60 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας και ανομοιότητας των δεδομένων Σύνοψη
61 Σύνοψη Τύποι γνωρισμάτων: ονομαστικός, δυαδικός, διάταξης, διαστήματος, αναλογίας Πολλά γνωρίσματα σε ένα σύνολο δεδομένων, π.χ. αριθμητικά, κείμενο, γράφοι, ιστός, εικόνες. Αποκτήστε γνώση των δεδομένων με: Βασική περιγραφή στατιστικών δεδομένων: κεντρική τάση, διασπορά, γραφικές απεικονίσεις Οπτικοποίηση δεδομένων: αντιστοίχιση δεδομένων σε γραφικές μορφές Μετρήστε την ομοιότητα των δεδομένων Τα παραπάνω βήματα είναι η αρχή της προεπεξεργασίας δεδομένων