ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ Η ανάλυςθ ςυςτάδων κατανζμει ζνα ςφνολο μεταβλθτϊν ι παρατθριςεων ςε ςυγκεκριμζνεσ ομάδεσ οι οποίεσ διακζτουν κοινά χαρακτθριςτικά, ευκρινϊσ διαφοροποιθμζνα από εκείνα των άλλων ομάδων. Η απόςταςθ των ςτοιχείων ςτο χϊρο μετρείται με τουσ ειδικοφσ ςυντελεςτζσ ομοιότθτασ και θ ςφνδεςι τουσ προσ δθμιουργία ςυςτάδων πραγματοποιείται με ειδικζσ μεκόδουσ διαςφνδεςθσ, ιεραρχικοφ ι μθ χαρακτιρα.
Το πρϊτο και ςθμαντικότερο βιμα κατά τθ διαδικαςία τθσ ανάλυςθσ ςυςτάδων είναι θ περιγραφι των δεδομζνων και θ επιλογι των κατάλλθλων χαρακτθριςτικϊν. Στθ ςυνζχεια, πρζπει να οριςτεί το μζτρο ομοιότθτασ με το οποίο κα γίνονται οι ςυγκρίςεισ μεταξφ των παρατθριςεων. Τζλοσ, πρζπει να επιλεγεί θ μζκοδοσ ομαδοποίθςθσ που ακολουκείται για τθν τελικι παραγωγι των ομάδων. Οι ιεραρχικοί και k- means αλγόρικμοι είναι οι ςυνθκζςτερεσ επιλογζσ. Ανάλογα με τθν επιλογι του μζτρου ομοιότθτασ και τθσ μεκόδου ομαδοποίθςθσ, οι ομάδεσ που προκφπτουν είναι διαφορετικζσ.
Ο ερευνθτισ πρζπει να κάνει τισ επιλογζσ αυτζσ ανάλογα με τθ φφςθ των δεδομζνων και το πρόβλθμα που εξετάηει. Συχνά απαιτοφνται πολλζσ δοκιμζσ τθσ ανάλυςθσ ςυςτάδων, περιλαμβάνοντασ διαφορετικζσ μεταβλθτζσ ι αφαιρϊντασ κάποιεσ παρατθριςεισ και χρθςιμοποιϊντασ διαφορετικά μζτρα ςφγκριςθσ, ϊςτε να εξακριβωκεί θ ςτακερότθτα τθσ ομαδοποίθςθσ. Το τελικό αποτζλεςμα πρζπει να μπορεί να ερμθνευτεί. Για τον ςκοπό αυτό μελετϊνται οι τιμζσ των μεταβλθτϊν ςε κάκε ομάδα και με βάςθ τθν εμπειρία του ερευνθτι εξετάηεται αν οι ομάδεσ υπάρχουν ςτθν πραγματικότθτα ι αποτελοφν απλά το αποτζλεςμα ενόσ αλγορίκμου.
1. Ευκλείδεια απόςταςθ Συντελεςτζσ ποςοτικών ςτοιχείων Η Ευκλείδεια απόςταςθ ζχει το πλεονζκτθμα ότι θ απόςταςθ μεταξφ δφο οποιωνδιποτε ςτοιχείων δεν επθρεάηεται από τθν φπαρξθ ςτοιχείων με μεγάλεσ αποςτάςεισ (ακραίεσ τιμζσ).. Τετραγωνικι Ευκλείδεια απόςταςθ ( X X ) Η τετραγωνικι Ευκλείδεια απόςταςθ χρθςιμοποιείται όταν επικυμοφμε να προςδϊςουμε μεγαλφτερο βάροσ ςε ςτοιχεία που ςχετικά είναι απομακρυςμζνα μεταξφ τουσ. ( X X )
3. Aπόςταςθ Μanhattan Η τεχνικι αυτι δεν ανιχνεφει αν υπάρχουν μεγάλεσ διαφορζσ μεταξφ των αποςτάςεων των ςτοιχείων. 4. Aπόςταςθ Chebychev Η απόςταςθ Chebychev θ οποία μεγιςτοποιεί το αποτζλεςμα τθσ απόςταςθσ των ςτοιχείων. 5. Ποςοςτό ομοιότθτασ p X Το ποςοςτό ομοιότθτασ ι ανομοιότθτασ ι δυςαρμονίασ το οποίο εφαρμόηεται μόνο ςε ςτοιχεία αναλογιϊν (ποςοςτϊν). X max i min( X p X, p )
6. Μέζη Εσκλείδεια απόζηαζη ( X X i ) 7. Απόζηαζη ηων Bray-Curtis 8. Σσνηελεζηής Canberra 9. Απόζηαζη ηοσ Minkowski X X ( X X ) 1 X i ( X X X ) ( X X ) p 1 p
10. Απόζηαζη Mahalanobis ( X X ) ( X X ) 1 T 11. Απόζηαζη ηοσ Pearson ( X X i ) 1. Τεηραγωνική απόζηαζη ηοσ Pearson ( X X i )
Συντελεςτζσ δυαδικών ςτοιχείων Παρουςία Απουςία Παρουςία a b Απουςία c 1. Συντελεςτισ του Jaccar. Συντελεςτισ του Dice - Sorenson a abc 3. Συντελεςτισ Simple Matching (Sokal & Michener) S J S D S M a abc a abc
4. Συντελεςτισ Watson, Williams & Lance 5. Συντελεςτισ Levanowsky 6. Συντελεςτισ Q του Yules 7. Συντελεςτισ Russel & Rao S M S L S RR S Q bc abc bc abc abc a bc a abc
Ιεραρχικι Mζκοδοσ Διαςφνδεςθσ 1. Ομαδοποίθςθ με απλι διαςφνδεςθ ι πλθςιζςτερθσ γειτνίαςθσ διαςφνδεςθ (single linkage). Η απόςταςθ μεταξφ δφο ομάδων προςδιορίηεται από τθν απόςταςθ των δφο κοντινότερων ςτοιχείων που το κακζνα ανικει ςε διαφορετικι ομάδα. Η μζκοδοσ αυτι τείνει να δθμιουργεί μεγάλο αρικμό διακλαδιηόμενων ομάδων.. Ομαδοποίθςθ με πλιρθ διαςφνδεςθ ι απομακρυςμζνθσ γειτνίαςθσ διαςφνδεςθ (complete linkage). Η απόςταςθ μεταξφ δφο ομάδων προςδιορίηεται από τθν απόςταςθ των δφο πλζον απομακρυςμζνων ςτοιχείων που το κακζνα ανικει ςε διαφορετικι ομάδα. Η μζκοδοσ αυτι είναι κατάλλθλθ ςε ςτοιχεία που εμφανίηουν φυςικϊσ ευδιάκριτεσ δζςμεσ διαφοροποίθςθσ.
3. Ομαδοποίθςθ με μθ ςτακμιςμζνθ κατά ηεφγθ μζςθ διαςφνδεςθ ι μζςθ πλιρθ διαςφνδεςθ (unweighte pairgroup average linkage or average complete linkage). Η απόςταςθ μεταξφ δφο ομάδων υπολογίηεται ωσ θ μζςθ απόςταςθ μεταξφ όλων των ηευγϊν των ςτοιχείων ςτισ δφο διαφορετικζσ ομάδεσ. Η μζςθ ι ενδιάμεςθ διαςφνδεςθ αποτελεί πλεονεκτικό ςυνδυαςμό των δφο προθγουμζνων ταξινόμθςθσ των ομάδων. Θεωρείται ωσ θ πλζον αποτελεςματικι μζκοδοσ, ζχει όμωσ το μειονζκτθμα να ςχθματίηει ομάδεσ πολφ μικροφ μεγζκουσ. 4. Ομαδοποίθςθ με ςτακμιςμζνθ κατά ηεφγθ μζςθ διαςφνδεςθ (weighte pair-group average linkage or weighte average linkage), γνωςτι και ωσ ομαδοποίθςθ του McQuitty. Η απόςταςθ μεταξφ δφο ομάδων υπολογίηεται, όπωσ και προθγουμζνωσ, με τθν προςκικθ του μεγζκουσ κάκε ομάδασ (αρικμόσ ςτοιχείων ανά ομάδα) ωσ ςυντελεςτι ςτάκμιςθσ. Η μζκοδοσ αυτι αντικακιςτά τθν προθγοφμενθ όταν τα μεγζκθ των ομάδων εμφανίηονται ιδιαίτερα άνιςα.
5. Oμαδοπoίθςθ με μθ ςτακμιςμζνθ κεντροειδι διαςφνδεςθ (average centroi linkage or unweighte pair-goup centroi). Η απόςταςθ μεταξφ δφο ομάδων υπολογίηεται από τθ διαφορά τθσ απόςταςθσ μεταξφ των δφο κεντρικϊν ςθμείων. Το κεντρικό ςθμείο μιασ ομάδασ είναι το ενδιάμεςο ςθμείο που ορίηεται από το ςφνολο των διαςτάςεων (μεταβλθτϊν) που ςυμμετζχουν ςτθν ομαδοποίθςθ και αντιςτοιχεί ςτο κζντρο βάρουσ τθσ ομάδασ. 6. Ομαδοποίθςθ με ςτακμιςμζνθ κεντροειδι διαςφνδεςθ (weighte average centroi linkage or weighte pair-goup centroi). Αν οι ςχθματιηόμενεσ ομάδεσ ςυντίκενται από άνιςο αρικμό ςτοιχείων, τότε ειςάγεται ςτθν προθγοφμενθ μζκοδο και ζνασ ςυντελεςτισ ςτάκμιςθσ που λαμβάνει υπόψθ το διαφορετικό μζγεκοσ των ομάδων. 7. Ομαδοποίθςθ κατά War. Βαςίηεται ςτθν εφαρμογι τθσ ανάλυςθσ τθσ διακφμανςθσ ςτισ παρατθριςεισ των ομάδων με ςκοπό τθν εκτίμθςθ των αποςτάςεων μεταξφ των ομάδων. Ουςιαςτικά, θ μζκοδοσ αυτι αποςκοπεί ςτθν ελαχιςτοποίθςθ τθσ μεταβλθτότθτασ μεταξφ δφο εξεταηόμενων ομάδων που ςχθματίηονται ςε κάκε διαδοχικό ςτάδιο τθσ ιεραρχικισ
Μθ Ιεραρχικι Μζκοδοσ Διαςφνδεςθσ k-means Η μθ ιεραρχικι μζκοδοσ προχποκζτει ότι κζλουμε να δθμιουργιςουμε ζναν ςυγκεκριμζνο αρικμό k ομάδων. Η μζκοδοσ ξεκινά με ζναν αρικμό ςθμείων k ι με ζναν αρικμό ομάδων παρατθριςεων k. Αν θ μζκοδοσ ξεκινιςει με k ςθμεία κάκε παρατιρθςθ τοποκετείται ςε μία ομάδα με το πλθςιζςτερο προσ αυτι ςθμείο. Αν ξεκινιςουμε με k αρικμό ομάδων τότε αρχικά υπολογίηονται τα κεντροειδι των ομάδων. Στθ ςυνζχεια ακολουκεί μια διαδικαςία διαδοχικϊν προςεγγίςεων με κάποια κριτιρια βζλτιςτου διαχωριςμοφ των ομάδων, υπολογίηοντασ είτε νζα ςθμεία είτε νζεσ ομάδεσ, μζχρισ ότου δεν υπάρχει κζμα μετακίνθςθσ των παρατθριςεων από μία ομάδα ςε άλλθ.
Αρικμθτικό Παράδειγμα: 1 γονότυποι και 5 ποςοτικζσ μεταβλθτζσ Γονότυποι V1 V V3 V4 V5 Γονότυποι V1 V V3 V4 V5 1 5700 1,8 500 70 5000 1-0,16 0,8 0,14 1,36 1,31 1000 10,9 600 10 10000-1,59-0,9-1,46-1,01-1,15 3 3400 8,8 1000 10 9000 3-0,86-1,53-1,1-1,01-1,31 4 3800 13,6 1700 140 5000 4-0,74 1,9-0,53 0,17 1,31 5 4000 1,8 1600 140 5000 5-0,68 0,8-0,6 0,17 1,31 6 800 8,3 600 60 1000 6 0,59-1,8 0, -0,55-0,8 7 100 11,4 400 10 16000 7-1,53 0,00-1,63-1,01-0,16 8 9100 11,5 3300 60 14000 8 0,87 0,06 0,81-0,55-0,49 9 9900 1,5 3400 180 18000 9 1,11 0,65 0,90 0,54 0,16 10 9600 13,7 3600 390 5000 10 1,0 1,35 1,07,45 1,31 11 9600 9,6 3300 80 1000 11 1,0-1,06 0,81-0,37-0,8 1 9400 11,4 4000 100 13000 1 0,96 0,00 1,40-0,19-0,66 Mean 641,7 11,4 333,3 10,8 17000,0 SD 393,5 1,7 1188,4 110,0 6096,4 Τφποσ τυποποίθςθσ τιμών: Z X
Υπολογιςμόσ Ευκλείδειασ απόςταςθσ Γονότυποι V1 V V3 V4 V5 1 3 4 5 6 7 8 9 10 11 1 1-0,16 0,8 0,14 1,36 1,31 1-1,59-0,9-1,46-1,01-1,15 4,00 3-0,86-1,53-1,1-1,01-1,31 3 4,8 1,41 4-0,74 1,9-0,53 0,17 1,31 4 1,48 3,4 3,89 5-0,68 0,8-0,6 0,17 1,31 5 1,43 3,06 3,58 0,46 6 0,59-1,8 0, -0,55-0,8 6 3,79 3,06,0 3,95 3,6 7-1,53 0,00-1,63-1,01-0,16 7 3,51 0,99 1,99,54,34 3,9 8 0,87 0,06 0,81-0,55-0,49 8,87 3,31 3,04,98,84 1,9 3,3 9 1,11 0,65 0,90 0,54 0,16 9 1,96 4,04 3,97,59,53,85 3,86 1,36 10 1,0 1,35 1,07,45 1,31 10 1,84 5,57 5,69 3,14 3,19 4,7 5,1 3,58,4 11 1,0-1,06 0,81-0,37-0,8 11 3,43 3,46,73 3,73 3,48 1,0 3,63 1,13,07 4,09 1 0,96 0,00 1,40-0,19-0,66 1,99 3,79 3,46 3,36 3,3,13 3,86 0,68 1,31 3,4 1,17 Εσκλείδεια απόζηαζη ( X X ) ( 0,16( 1,59)) (0,8( 0,9)) (0,14( 1,46)) (1,36( 1,01)) (1,31( 1,15)) 4,0 1,
Μζκοδοσ τθσ απλισ διαςφνδεςθσ ι πλθςιζςτερθσ γειτνίαςθσ 1 3 4 5 6 7 8 9 10 11 4,00 3 4,8 1,41 4 1,48 3,4 3,89 5 1,43 3,06 3,58 0,46 6 3,79 3,06,0 3,95 3,6 7 3,51 0,99 1,99,54,34 3,9 8,87 3,31 3,04,98,84 1,9 3,3 9 1,96 4,04 3,97,59,53,85 3,86 1,36 10 1,84 5,57 5,69 3,14 3,19 4,7 5,1 3,58,4 11 3,43 3,46,73 3,73 3,48 1,0 3,63 1,13,07 4,09 1,99 3,79 3,46 3,36 3,3,13 3,86 0,68 1,31 3,4 1,17 Απόςταςθ 0,46 4 5 0,68 8 1 0,99 7 1,0 6 11 1,13 8 1 6 11 1,31 8 1 6 11 9 1,41 7 3 1,43 4 5 1 1,84 4 5 1 10 1,96 8 1 6 11 9 4 5 1 10,0 8 1 6 11 9 4 5 1 10 7 3 1 4 5 10 6 11 10MW 8 1 9 7 3 0.46 0.85 1.4 1.63.0 Coefficient
Μζκοδοσ τθσ πλιρθσ διαςφνδεςθσ ι απομακρυςμζνθσ γειτνίαςθσ 1 3 4 5 6 7 8 9 10 11 4,00 3 4,8 1,41 4 1,48 3,4 3,89 5 1,43 3,06 3,58 0,46 6 3,79 3,06,0 3,95 3,6 7 3,51 0,99 1,99,54,34 3,9 8,87 3,31 3,04,98,84 1,9 3,3 9 1,96 4,04 3,97,59,53,85 3,86 1,36 10 1,84 5,57 5,69 3,14 3,19 4,7 5,1 3,58,4 11 3,43 3,46,73 3,73 3,48 1,0 3,63 1,13,07 4,09 1,99 3,79 3,46 3,36 3,3,13 3,86 0,68 1,31 3,4 1,17 Απόςταςθ 0,46 4 5 0,68 8 1 0,99 7 1,0 6 11 1,36 8 1 9 1,48 4 5 1 1,99 7 3,85 8 1 9 6 11 3,19 4 5 1 10 4,09 8 1 6 11 9 4 5 1 10 5,69 8 1 6 11 9 4 5 1 10 7 3 1 4 5 10 7 10MW 3 6 11 8 1 9 0.46 1.77 3.08 4.38 5.69 Coefficient
Μζκοδοσ τθσ μθ ςτακμιςμζνθσ κατά ηεφγθ μζςθσ διαςφνδεςθσ (UPGMA) 1 3 4 5 6 7 8 9 10 11 4,00 3 4,8 1,41 4 1,48 3,4 3,89 5 1,43 3,06 3,58 0,46 6 3,79 3,06,0 3,95 3,6 7 3,51 0,99 1,99,54,34 3,9 8,87 3,31 3,04,98,84 1,9 3,3 9 1,96 4,04 3,97,59,53,85 3,86 1,36 10 1,84 5,57 5,69 3,14 3,19 4,7 5,1 3,58,4 11 3,43 3,46,73 3,73 3,48 1,0 3,63 1,13,07 4,09 1,99 3,79 3,46 3,36 3,3,13 3,86 0,68 1,31 3,4 1,17 Απόςταςθ 0,46 4 5 0,68 8 1 0,99 7 1,0 6 11 1,34 8 1 9 1,46 4 5 1 1,71 7 3 1,88 8 1 9 6 11,73 4 5 1 10 3,7 8 1 6 11 9 4 5 1 10 3,6 8 1 6 11 9 4 5 1 10 7 3 1 4 5 10 6 11 10MW 8 1 9 7 3 0.46 1.5.04.83 3.6 Coefficient
Αρικμθτικό Παράδειγμα: 5 γονότυποι και 5 δυαδικζσ μεταβλθτζσ Γονότυποι V1 V V3 V4 V5 1 1 1 0 1 0 1 0 0 0 1 3 1 1 1 1 0 4 0 1 1 0 1 5 0 1 1 1 0 Παρουςία Απουςία Παρουςία a b Απουςία c G1/G Παρουςία Απουςία Παρουςία 1 1 Απουςία 1 Συντελεςτισ Jaccar Συντελεςτισ Dice a abc 1 11 S J ( 1,) a *1 abc *1 1 0,5 S D ( 1,) 0,4
R1 R3 R1MW R5 Συντελεςτισ Jaccar 1 3 4 5 1 1 0,5 1 3 0,75 0, 1 4 0, 0,5 0,4 1 5 0,5 0 0,75 0,5 1 S J a abc R1MW 0.5 0.38 0.50 0.63 0.75 Coefficient Μζκοδοσ απλισ διαςφνδεςθσ R4 R R1 R3 R4 R5 R 0.00 0.19 0.38 0.56 0.75 Coefficient Μζκοδοσ Πλιρθσ διαςφνδεςθσ
R1 R3 R1MW R5 Συντελεςτισ Dice 1 3 4 5 1 1 0,4 1 3 0,86 0,33 1 4 0,33 0,4 0,57 1 5 0,66 0 0,85 0,66 1 S D a abc R1MW 0.40 0.51 0.63 0.74 0.86 Coefficient Μζκοδοσ απλισ διαςφνδεςθσ R4 R R1 R3 R4 R5 0.00 0.1 0.43 0.64 0.86 Coefficient Μζκοδοσ Πλιρθσ διαςφνδεςθσ R