Ανάλυση κατά Συστάδες. Cluster analysis

Σχετικά έγγραφα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ιαµέριση - Partitioning

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση ΙΙ (Clustering)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Σύγκριση μέσου όρου πληθυσμού με τιμή ελέγχου. One-Sample t-test

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Παρίσης Νικόλαος (Αριθµός Μητρώου: 2029)

ΜΕΘΟΔΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΟΥ ΠΛΗΘΟΥΣ ΟΜΑΔΩΝ ΓΙΑ ΠΟΛΥΔΙΑΣΤΑΤΑ ΔΕΔΟΜΕΝΑ

ΗΜΙΟΥΡΓΙΑ ΠΑΙΧΝΙ ΙΟΥ ΣΤΟ SCRATCH ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ

Επιλογή και επανάληψη. Λογική έκφραση ή συνθήκη

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

Προσεγγιστικοί αλγόριθµοι για οµαδοποίηση στοιχείων από συγκρίσεις

Η εφαρµογή xsortlab. Οπτικός τρόπος ταξινόµησης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Στατιστικό κριτήριο χ 2

Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Ο είκτης Συσχέτισης. Υπάρχουν πολλές οι έρευνες στις οποίες µας ενδιαφέρει να µελετήσουµε αν υπάρχει ΑΛΛΗΛΕΞΑΡΤΗΣΗ µεταξύ δύο µεταβλητών

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

Επαναληπτικές μέθοδοι

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

ΟΜΟΙΟΤΗΤΑ ΒΙΟΚΟΙΝΟΤΗΤΩΝ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Εφαρμοσμένη Ανάλυση Συστάδων

Επαναληπτικές δοµές. µτ α.τ. Όχι. ! απαγορεύεται µέσα σε µία ΓΙΑ να µεταβάλλουµε τον µετρητή! διότι δεν θα ξέρουµε µετά πόσες επαναλήψεις θα γίνουν

Δειγματοληψία στην Ερευνα. Ετος

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ Επιστήμη των Αποφάσεων, Διοικητική Επιστήμη

Κεφάλαιο 5. Οι δείκτες διασποράς

ΚΕΦΑΛΑΙΟ 2 ΑΛΓΟΡΙΘΜΟΙ ΤΥΠΟΥ SIMPLEX. 2.1 Βασικές έννοιες - Ορισμοί

α n z n = 1 + 2z 2 + 5z 3 n=0

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Ζητήματα ηήμ με τα δεδομένα

Αναγνώριση Προτύπων Εργασία 2η Clustering

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

Διαδικασία Ελέγχου Μηδενικών Υποθέσεων

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

11, 12, 13, 14, 21, 22, 23, 24, 31, 32, 33, 34, 41, 42, 43, 44.

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson

Επίλυση προβληµάτων. Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης

(1) 98! 25! = 4 100! 23! = 4

ΕΝΤΟΛΕΣ. 7.1 Εισαγωγικό μέρος με επεξήγηση των Εντολών : Επεξήγηση των εντολών που θα

Στατιστικές Έννοιες (Υπολογισμός Χρηματοοικονομικού κινδύνου και απόδοσης, διαχρονική αξία του Χρήματος)

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

Κεφάλαιο 4 Δείκτες Κεντρικής Τάσης

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Αλγόριθμος Ομαδοποίησης

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

3 ΙΣΟΡΡΟΠΙΕΣ 3 ΙΣΟΡΡΟΠΙΕΣ

Κεφάλαιο 15. Παραγοντική ανάλυση διακύµανσης. Παραγοντική

(1) 98! 25! = 4 100! 23! = 4

Προγραµµατισµός στην Basic

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Εύρεση ν-στού πρώτου αριθμού

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

Α. ΠΡΟΣΘΕΣΗ - ΑΦΑΙΡΕΣΗ ΡΗΤΩΝ ΠΑΡΑΣΤΑΣΕΩΝ ΜΕ ΚΟΙΝΟ ΠΑΡΟΝΟΜΑΣΤΗ

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Δοµές Δεδοµένων. 9η Διάλεξη Ταξινόµηση - Στοιχειώδεις µέθοδοι. Ε. Μαρκάκης

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

Οι στατιστικοί έλεγχοι x τετράγωνο, t- test, ANOVA & Correlation. Σταμάτης Πουλακιδάκος

Συνδυαστική. Που το πάµε. Πείραµα Συνδυαστική. Το υλικό των. ΗΥ118 ιακριτά Μαθηµατικά, Άνοιξη Πέµπτη, 21/4/2016

2ο ΓΕΛ ΑΓ.ΔΗΜΗΤΡΙΟΥ ΑΕΠΠ ΘΕΟΔΟΣΙΟΥ ΔΙΟΝ ΠΡΟΣΟΧΗ ΣΤΑ ΠΑΡΑΚΑΤΩ

ΕΝΤΟΛΕΣ. 7.1 Εισαγωγικό μέρος με επεξήγηση των Εντολών : Επεξήγηση των εντολών που θα

Ελεγκτικής. ΤΕΙ Ηπείρου (Παράρτηµα Πρέβεζας)

Κεφάλαιο 4. Λογική Σχεδίαση

max & min Μεθοδολογία - 1 Τα βήματα που συνήθως ακολουθούμε στις τεχνικές εύρεσης max & min είναι τα εξής:

max & min Μεθοδολογία Τα βήματα που ακολουθούμε σε όλες τις τεχνικές εύρεσης max & min είναι τα εξής 2:

Έρευνα Μάρκετινγκ Ενότητα 5

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΘΕΑΝΩ ΕΡΙΦΥΛΗ ΜΟΣΧΟΝΑ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών

Condorcet winner. (1) Αν U j (x) > U j (y) τότε U i (x) > U i (y) και (2) Αν U i (y) > U i (x) τότε U j (y) > U j (x).

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

Στατιστικές Έννοιες (Υπολογισμός Χρηματοοικονομικού κινδύνου και απόδοσης, διαχρονική αξία του Χρήματος)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Εκπαιδευτική Έρευνα: Μέθοδοι Συλλογής και Ανάλυσης εδομένων Συσχέτιση

Transcript:

Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες µεταβλητές. Μπορεί να πει κανείς πως εξετάζοντας πόσο όµοιες είναι κάποιες παρατηρήσεις ως προς κάποιον αριθµό µεταβλητών η µέθοδος τείνει να δηµιουργεί οµάδες από παρατηρήσεις που µοιάζουν µεταξύ τους. Μια επιτυχηµένη ανάλυση θα πρέπει να καταλήξει σε οµάδες για τις οποίες οι παρατηρήσεις µέσα σε κάθε οµάδα να είναι όσο γίνεται πιο οµοιογενείς αλλά παρατηρήσεις διαφορετικών οµάδων να διαφέρουν όσο γίνεται περισσότερο. 2

Η ανάλυση κατά συστάδες χρησιµοποιείται σε πολλές επιστήµες για να οµαδοποιήσει δεδοµένα. Για παράδειγµα διαφορετικά είδη ζώων µπορούν να οµαδοποιηθούν µε βάση κάποια χαρακτηριστικά τους, όπως και οι πελάτες σε µια έρευνα αγοράς. Aν αγνοήσουµε την πληροφορία που έχουµε σχετικά µε την κατάταξη της κατάστασης των αντικειµένων, το ενδιαφέρον θα ήταν να δούµε πως αυτά οµαδοποιούνται χρησιµοποιώντας τις πληροφορίες που έχουµε, δηλαδή τις µεταβλητές για τα µορφολογικά χαρακτηριστικά που µετρήθηκαν. 3 Μια πολύ βασική έννοια για την ανάλυση κατά συστάδες αλλά όχι µόνο είναι οι έννοιες της απόστασης και της οµοιότητας. Μπορείτε εύκολα να διαπιστώσετε πως αυτές οι δύο έννοιες είναι αντίθετες, παρατηρήσεις που είναι όµοιες θα έχουν µεγάλη οµοιότητα και µικρή απόσταση. Οι έννοιες αυτές είναι πολύ χρήσιµες καθώς µας επιτρέπουν να µετρήσουµε πόσοµοιάζουν οι παρατηρήσεις µεταξύτουςκαιεποµένως να τις τοποθετήσουµε στην ίδια οµάδα. 4

Στην ανάλυση κατά συστάδες υπάρχουν 3 διαφορετικές προσεγγίσεις. Μόνο τις 2 από αυτές προσφέρει το SPSS. Οι 3 αυτέςπροσεγγίσειςείναι: Ιεραρχικές µέθοδοι: Ξεκινάµε µε κάθε παρατήρηση να είναι από µόνη της µια οµάδα. Σε κάθε βήµα ενώνουµε τις2 παρατηρήσεις που έχουν πιο µικρή απόσταση. Αν 2 παρατηρήσεις έχουν ενωθεί σε προηγούµενο βήµα ενώνουµε µια προϋπάρχουσα οµάδα µε µια παρατήρηση µέχρι να φτιάξουµε µια οµάδα. Κοιτώντας τα αποτελέσµατα διαλέγουµε στις πόσες οµάδες θα σταµατήσουµε. K-Means. Ο αριθµός των οµάδων είναι γνωστός από πριν. Με έναν επαναληπτικό αλγόριθµο µοιράζουµε τις παρατηρήσεις στις οµάδες ανάλογα µε το ποία οµάδα είναι πιο κοντά στην παρατήρηση. 5 Στατιστικές µέθοδοι: Καιοιδύοµέθοδοι που είπαµε στηρίζονται καθαρά σε αλγοριθµικές λύσεις και δεν προϋποθέτουν κάποιο µοντέλο. Υπάρχουν αρκετές µέθοδοι στατιστικές όπου ξεκινώντας από κάποιες υποθέσεις κατατάσσουµε τις παρατηρήσεις. υστυχώς αυτές οι µέθοδοι έχουν αρκετά υπολογιστικά προβλήµατα και για αυτό δεν προσφέρονται από πολλά στατιστικά πακέτα που χρησιµοποιούνται στην πράξη. 6

Σε οποιαδήποτε µέθοδο θα πρέπει να τονιστεί ότι δυστυχώς υπάρχουν πολλά σηµεία στα οποία ο ερευνητής µπορεί να λειτουργήσει υποκειµενικά, µε αποτέλεσµα από τα ίδια δεδοµέναναεξαχθούν ακόµα και αντικρουόµενα αποτελέσµατα. Από την άλλη µια γενική αλήθεια είναι πως όταν στα δεδοµένα υπάρχουν πραγµατικά οµοιογενείς οµάδες τότε οποιαδήποτε µέθοδος θα καταφέρει να τις αναγνωρίσει. Εποµένως οι αντιφατικές λύσεις είναι µάλλον µια ένδειξη ότι δεν υπάρχει η κατάλληλη δοµή σταδεδοµένα µου, δηλαδή δεν υπάρχουν οµοιογενείς οµάδες. 7 Ποιες µεταβλητές να χρησιµοποιήσω (από τις πιθανόν πολλές που διαθέτω...) Στην πραγµατικότητα δεν υπάρχει κάποιος τρόπος για να µε οδηγήσει στην επιλογή µεταβλητών πριν κάνω την ανάλυση. Εποµένως διαλέγω τις µεταβλητές που πιστεύω για κάποιους λόγους ότι έχουν τη δυνατότητα να δηµιουργήσουν οµοιογενείς οµάδες. Αφού κάνω την ανάλυση µπορώ εκ των υστέρων να δω αν κάποιες µεταβλητές τελικά ήταν αδιάφορες µε την έννοια ότι η τιµή τους είναι η ίδια για όλες τις οµάδες που δηµιούργησα κι εποµένως δεν µου προσφέρουν κάποια πληροφορία. Αν µάλιστα θεωρώ ότι δεν µου προσφέρει αυτή η µεταβλητή κάτι σχετικά µε την ερµηνεία που αναζητώ µπορώ να την αφαιρέσω και να χρησιµοποιήσω τις υπόλοιπες κάνοντας ξανά τη διαδικασία από την αρχή. 8

Ποια απόσταση / οµοιότητα να χρησιµοποιήσω; Η επιλογή της απόστασης έχει να κάνει µε τηµέθοδο που θα χρησιµοποιήσω αλλά και τον τύπο των δεδοµένων µου καθώς και τα δεδοµένα. Για συνεχή δεδοµένα η ευκλείδεια απόσταση είναι συνήθως η προτιµότερη λύση. Αν κάποια από τις µεταβλητές έχει όµως τεράστια διακύµανση σε σχέση µε τις υπόλοιπες, αυτή θα παίζει σπουδαιότερο ρόλο και άρα θα κατευθύνει και τα αποτελέσµατα µου. Σε αυτή την περίπτωση καλό είναι να τυποποιήσω τα δεδοµένα µου ώστε να έχουν ίδια µέση τιµή και διακύµανση (άρα και ειδικό βάρος). Επίσης αν έχω επιλέξει τη µέθοδο Κ- Means, το SPSS δεν µου προσφέρει τη δυνατότητα επιλογής. Μια εναλλακτική επιλογή είναι η απόσταση Block η οποία επειδή δεν εξαρτάται πολύ από ακραίες τιµές δηµιουργεί πιο οµοιογενείς οµάδες στην περίπτωση που υπάρχουν κάποιες παρατηρήσεις πολύ αποµακρυσµένες. 9 Αν τα δεδοµένα µου είναι κατηγορικά σε ονοµαστική κλίµακα δυστυχώς το SPSS δεν µου προσφέρει κάποια έγκυρη απόσταση. Κάθε απόσταση µπορεί και πρέπει να χρησιµοποιείται µε συγκεκριµένο τύπο δεδοµένων. Αν τα δεδοµένα µας είναι δυαδικά (0-1, παρουσία χαρακτηριστικού, απουσία χαρακτηριστικού) τότε : Αν η κοινή απουσία ενός χαρακτηριστικού από 2 άτοµα δείχνει οµοιότητα τότε ο Simple Matching συντελεστής είναι καλή επιλογή. Επειδή όµως σε πολλές εφαρµογές η κοινή απουσία δεν σηµαίνει τίποτα (π.χ. στην ιατρική η απουσία κάποιου συµπτώµατος δεν λέει κάτι για την αρρώστια) τότε ο συντελεστής του Jaccard είναι µια καλή επιλογή. 10

Τέλος αν τα δεδοµένα περιέχουν και συνεχή και δυαδικά δεδοµένα τότε µια καλή πρόταση είναι να χρησιµοποιήσετε την απόσταση Block αφού πρώτα µετασχηµατίσετε τα δεδοµέναναπαίρνουν τιµές στο διάστηµα από0 έως 1. Το SPSS προσφέρει αυτή την επιλογή. 11 Πόσες οµάδες θα φτιάξω; Ανάλογα µε τη µέθοδο που θα χρησιµοποιήσω ο αριθµός των οµάδων µπορεί να είναι γνωστός από πριν (Κ- Means) ή αλλιώς θα τον επιλέξω αφού δω τα αποτελέσµατα µου (Hierarchical clustering). Στην πραγµατικότητα τα κριτήρια επιλογής του αριθµού των οµάδων είναι πολλά, αλλά µερικές φορές η ερµηνεία που µπορώ να δώσω είναι ο καλύτερος οδηγός για να επιλέξω αυτόν τον αριθµό. Επίσης για πρακτικούς σκοπούς είναι σηµαντικό πως το SPSS δεν προσφέρει εύκολα κάποιο τέτοιο κριτήριο µε αποτέλεσµα να χρειάζεται πολύς κόπος για να υπολογίσει κάποιος ένα αριθµητικό κριτήριο. Μια καλή ιδέα είναι να τρέξω πρώτα µια ιεραρχική ανάλυση και αφού δω όλες τις λύσεις κι επιλέξω τον αριθµό των οµάδων να τρέξω µια µέθοδο Kmeans για να δηµιουργήσω τις οµάδες. 12

Ποια µέθοδο να χρησιµοποιήσω; Το τελευταίο ερώτηµα έχει να κάνει µε την επιλογή ανάµεσα στις 2 µεθόδους που έχω διαθέσιµες. Γενικά οι ιεραρχικές µέθοδοι δεν είναι καλή καλή ιδέα να χρησιµοποιούνται για µεγάλο πλήθος δεδοµένων καθώς απαιτούν πολύ χρόνο και υπολογιστική ισχύ. Επίσης υπάρχει η τάση να δηµιουργούνται οµάδες µε ανοµοιογενές µέγεθος. Από την άλλη η µέθοδος K-means ενώ αποφεύγει αυτά τα προβλήµατα και δουλεύει ικανοποιητικά µε µεγάλα δείγµατα και δηµιουργεί οµάδες παραπλήσιου µεγέθους, εξαρτάται πολύ από τις αρχικές τιµές που θα χρησιµοποιήσουµε. 13 Η µέθοδος K-Means Πρέπει να έχω επιλέξει εκ των προτέρων τον αριθµό των οµάδων που θα προκύψουν. Η µέθοδος δουλεύει επαναληπτικά. Χρησιµοποιεί την έννοια του κέντρου της οµάδας (centroid) και στη συνέχεια κατατάσσει τις παρατηρήσεις ανάλογα µε την απόσταση τους από τα κέντρα όλων των οµάδων. Το κέντρο της οµάδας δεν είναι τίποτα άλλο από τη µέση τιµή για κάθε µεταβλητή όλων των παρατηρήσεων της οµάδας. Το SPSS, χρησιµοποιεί την ευκλείδεια απόσταση υποχρεωτικά. Αν θέλουµε να χρησιµοποιήσουµε άλλη απόσταση θα πρέπει να κάνουµε ειδικούς µετασχηµατισµούς στα δεδοµένα πριν τη χρησιµοποιήσουµε. O αλγόριθµος αυτός δουλεύει ικανοποιητικά για µεγάλα σετ δεδοµένων επειδή σε αυτή την περίπτωση δουλεύει πολύ πιο γρήγορα από την ιεραρχική οµαδοποίηση. Αυτός είναι και ο λόγος που η µέθοδος µερικές φορές καλείται και γρήγορη οµαδοποίηση (Quick Clustering). 14

Ο αλγόριθµος είναι ο εξής: Βήµα 1ο Βρες τα αρχικά κέντρα Βήµα 2ο Κατάταξε κάθε παρατήρηση στην οµάδα της οποίας το κέντρο έχει τη µικρότερη απόσταση από την παρατήρηση Βήµα 3ο Από τις παρατηρήσεις που είναι µέσα στην οµάδα υπολόγισε τα νέα κέντρα. Βήµα 4ο Αν τα νέα κέντρα δεν διαφέρουν από τα παλιά σταµάτα αλλιώς πήγαινε στο βήµα 2. 15 Περιγραφή της µεθόδου K-means 16

Τα αρχικά κέντρα µπορούν είτε να οριστούν απότοχρήστηείτευπολογίζονταιµε κάποιο συγκεκριµένο αλγόριθµο από το πακέτο. Τα κριτήρια τερµατισµού (βήµα 4) µπορούν ναοριστούναπότοχρήστηκαθώςγια µεγάλα σετ δεδοµένων µε πολύπλοκηδοµή ο αλγόριθµος µπορεί να καθυστερήσει πολύ αν το κριτήριο τερµατισµού είναι τόσο αυστηρό. 17 Ευαισθησία του αλγορίθµου K-means στην επιλογή αρχικών κέντρων Α, Β, C {A}, {B,C}, {E,D,G,F} A, D, F {A,B,C}, {E,D}, {G,F} 18

Ιεραρχική οµαδοποίηση Στην ιεραρχική οµαδοποίηση, ο αριθµός των οµάδων δεν είναι γνωστός από πριν. Οι µέθοδοι λειτουργούν ιεραρχικά µε την έννοια ότι ξεκινούν χρησιµοποιώντας κάθε παρατήρηση σας µια οµάδα και σε κάθε βήµα ενώνουν οµάδες οι παρατηρήσεις που βρίσκονται πιο κοντά. Επειδή χρησιµοποιούν έναν πίνακα αποστάσεων (δηλαδή τις αποστάσεις όλων των παρατηρήσεων από τις υπόλοιπες χρειάζονται πολύ χρόνο και χώρο στον υπολογιστή και για αυτό είναι ασύµφορες για µεγάλα σετ δεδοµένων. 19 Ο αλγόριθµος που δουλεύουν είναι ο εξής Βήµα 1. ηµιούργησε τον πίνακα αποστάσεων για όλες τις παρατηρήσεις Βήµα 2. Βρες τη µικρότερη απόσταση και ένωσε τις παρατηρήσεις που την έχουν. ηλαδή δηµιουργώ µια οµάδα µε τις παρατηρήσεις που είναι πιο κοντά. Αν η µικρότερη απόσταση αφορά µια ήδη δηµιουργηθείσα οµάδα και µια παρατήρηση απλά βάζω αυτή την παρατήρηση σε αυτή την οµάδα ή αν αφορά 2 οµάδες που ήδη υπάρχουν τις ενώνω. Βήµα 3. Αν δεν έχουν όλες οι παρατηρήσεις µπει σε µια οµάδα πήγαινε στο βήµα 1 αλλιώς σταµάτα. 20

Για την περίπτωση µου ο αλγόριθµος ξεκινά µε 15 οµάδες. Ενώνει τις 2 παρατηρήσεις και έχω πια 14 οµάδες και σε κάθε βήµα ο αριθµός των οµάδων που έχω µειώνεται κατά ένα µέχρι την τελευταία επανάληψη όπου όλες οι παρατηρήσεις είναι σε µια οµάδα. Το κρίσιµο σηµείο για τον αλγόριθµο είναι πως θα υπολογίσω την απόσταση της οµάδας που έφτιαξα (είτε από συγχώνευση άλλων οµάδων είτε από συγχώνευση παρατηρήσεων). 21 Υπάρχουν πολλές µέθοδοι, όπως: Η µέθοδος του κοντινότερου γείτονα (nearest neighbour or single linkage) Η µέθοδος του µακρινότερου γείτονα (furthest neighbour or complete linkage) H µέθοδος του µέσου ανάµεσα στις οµάδες (Average between groups) H µέθοδος του µέσου µέσα στις οµάδες (Average within groups) H µέθοδος του Ward και άλλες 22

Τα µειονεκτήµατα της ιεραρχικής οµαδοποίησης είναι ότι δεν συµφέρει από άποψη χρόνου για µεγάλα σετ δεδοµένων, πως οµάδες που φτιάχνονται σε αρχικά βήµατα δεν µπορούν να χωρίσουν και εποµένως οι παρατηρήσεις που ενώνονται σε αρχικά βήµατα µένουν µαζί για πάντα και πως γενικά δηµιουργεί µερικές οµάδες µε πολλές παρατηρήσεις και αφήνει κάποιες παρατηρήσεις να είναι µόνες τους µια οµάδα. Προσέξτε πως στην ουσία παίρνω λύση για κάθε διαφορετικό αριθµό οµάδων, δηλαδήοαριθµός των οµάδων δεν είναι γνωστός από πριν. Εποµένως ο ερευνητής πρέπει να διαλέξει ποια οµαδοποίηση να κρατήσει. 23 Nearest Neighbour ή single linkage υπολογίζει την απόσταση ανάµεσα σε δύο οµάδεςωςτηµικρότερη απόσταση από µια παρατήρηση µέσα στην µια οµάδα µε κάποια παρατήρηση στην άλλη οµάδα. Η µέθοδος έχει κάποιες χρήσιµες µαθηµατικές ιδιότητες αλλά παράγει οµάδες που δεν είναι συµπαγείς και συνήθως δηµιουργεί µερικές πολύ µεγάλες οµάδες και κάποιες πάλι πολύ µικρές. 24

Furthest neighbour ή complete linkage υπολογίζει την απόσταση ανάµεσα σε δύο οµάδες ως τη µεγαλύτερη απόσταση από µια παρατήρηση µέσα στην µια οµάδα µε κάποια παρατήρηση στην άλλη οµάδα. Οι οµάδες που δηµιουργούνται είναι συνήθως συµπαγείς αλλά αποτυγχάνει να δηµιουργήσει κάποιες µικρέςαλλάπολύσυµπαγείς οµάδες 25 Average between groups ηαπόστασηείναιοµέσος της απόσταση ανάµεσα σε όλες τις αποστάσεις της µιας οµάδας µε ταστοιχείατηςάλλης. Αν για παράδειγµα ηµια οµάδα περιλαµβάνει της παρατηρήσεις {1,2} και η άλλη τις παρατηρήσεις {3,4,5} τότε η απόσταση είναι ο µέσος των αποστάσεων d(1,3), d(1,4), d(1,5), d(2,3), d(2,4), d(2,5). 26

Average within groups ηαπόστασηείναιοµέσος όλων των αποστάσεων που προκύπτουν όταν ενώσουµε τιςδύοοµάδες. ηλαδή στην περίπτωση των οµάδων που είχαµε πρινη νέααπόστασηθαείναιοµέσος των αποστάσεων d(1,2), d(1,3), d(1,4), d(1,5), d(2,3), d(2,4), d(2,5), d(3,4), d(3,5), d(4,5). 27 Από αυτές η πιο απλή είναι η µέθοδος του κοντινότερου γείτονα η οποία όµως είχε το µειονέκτηµα πως δίνει οµάδες µε µεγάλες διαφορές ως προς το µέγεθος τους. Η µέθοδος του Ward έχει το πλεονέκτηµα ότι µας δίνει περίπου ισοπληθείς οµάδες και για αυτό καλό είναι να την προτιµάµε. 28

ιαγραµµατική απεικόνιση µεθόδων υπολογισµού αποστάσεων µεταξύ οµάδων 29 Παράδειγµα και σύγκριση των µεθόδων 30

Ο πίνακας αποστάσεων για τις παρατηρήσεις 31 Ο πίνακας αποστάσεων για τις παρατηρήσεις µε τη χρήση της µεθόδου του κοντινότερου γείτονα 32

Ο πίνακας αποστάσεων για τις παρατηρήσεις µε τη χρήση της µεθόδου του µακρύτερου γείτονα 33 Ο πίνακας αποστάσεων για τις παρατηρήσεις µε τη χρήση των µεθόδων Average between groups και Average within groups 34

Ο πίνακας αποστάσεων για τις παρατηρήσεις µε τη χρήση της µεθόδου centroid 35 ενδρόγραµµα για τα δεδοµένα µας µε τη χρήση της µεθόδου του κοντινότερου γείτονα 36

ενδρόγραµµα για τα δεδοµένα µας µε τη χρήση της µεθόδου του Ward 37 38

39 40

41 42

Κανόνες Συσχέτισης Οαλγόριθµος a priori Fuzzy Association Rules 43