Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων



Σχετικά έγγραφα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ανάλυση κατά Συστάδες. Cluster analysis

Ομαδοποίηση ΙΙ (Clustering)

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

ΟΜΟΙΟΤΗΤΑ ΒΙΟΚΟΙΝΟΤΗΤΩΝ

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

ΜΕΘΟΔΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΟΥ ΠΛΗΘΟΥΣ ΟΜΑΔΩΝ ΓΙΑ ΠΟΛΥΔΙΑΣΤΑΤΑ ΔΕΔΟΜΕΝΑ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΒΙΟΣΤΑΤΙΣΤΙΚΗ Πρακτική με SPSS (1)

Εισαγωγή στη Στατιστική

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

κωδικοποίηση κτλ) Εισαγωγή δεδομένων με μορφή SPSS Εισαγωγή δεδομένων σε μορφή EXCEL Εισαγωγή δεδομένων σε άλλες μορφές

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

SPSS Statistical Package for the Social Sciences

1. Τι είναι η Κινηματική; Ποια κίνηση ονομάζεται ευθύγραμμη;

Κίνηση ΚΕΦΑΛΑΙΟ 2 Β ΓΥΜΝΑΣΙΟΥ

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

Εισαγωγή στην Αριθμητική Ανάλυση

Καθορισμός μεταβλητών και εισαγωγή δεδομένων

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

1. Τι είναι η Κινηματική; Ποια κίνηση ονομάζεται ευθύγραμμη;

5.1.1 Περιγραφή των συστατικών τμημάτων ενός γραφήματος

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Ομαδοποίηση Ι (Clustering)

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πεδί α

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

1. Ποια μεγέθη ονομάζονται μονόμετρα και ποια διανυσματικά;

Κεφάλαιο 4: Επιλογή σημείου παραγωγής

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία

Ταξινόμηση Δεδομένων. 9 η Εργαστηριακή Άσκηση (Excel)

ΤΕΙ ΠΕΙΡΑΙΑ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΜΕ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ ΠΡΟΓΡΑΜΜΑΤΟΣ Dcad 1.0

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Λογισμικά για Στατιστική Ανάλυση. Minitab, R (ελεύθερο λογισμικό), Sas, S-Plus, Stata, StatGraphics, Mathematica (εξειδικευμένο λογισμικό για

Κεφάλαιο 4: Επιλογή σημείου παραγωγής


Αναγνώριση Προτύπων Ι

Γ. Β Α Λ Α Τ Σ Ο Σ. 4ο ΓΥΜΝΑΣΙΟ ΛΑΜΙΑΣ 1. Γιώργος Βαλατσός Φυσικός Msc

Μαθηματικά Γ Γυμνασίου

Αναγνώριση Προτύπων Ι

Παράλληλοι Αλγόριθμοι: Ανάλυση Εικόνας και Υπολογιστική Γεωμετρία. Πέτρος Ποτίκας CoReLab 4/5/2006

Κεφάλαιο 6 Πολυμεταβλητές Μέθοδοι Ανάλυσης

Λογισμικά για Στατιστική Ανάλυση. Minitab, R (ελεύθερο λογισμικό), Sas, S-Plus, Stata, StatGraphics, Mathematica (εξειδικευμένο λογισμικό για

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Το πρόγραμμα συγχρηματοδοτείται 75% από το Ευρωπαϊκό κοινωνικό ταμείο και 25% από εθνικούς πόρους.

Τα συγκεντρωτικά ερωτήματα αφορούν στην ομαδοποίηση των δεδομένων και στη. χρήση συναρτήσεων ομαδοποίησης κατά την εκτέλεση ενός ερωτήματος προβολής

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Περιγραφική Στατιστική

Σκοπός του μαθήματος

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ

8. Σύνθεση και ανάλυση δυνάμεων

Εφαρμοσμένη Ανάλυση Συστάδων

Εισαγωγή στην Επιστήμη της Πληροφορικής Εργαστήριο. Microsoft Excel Μέρος 1

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

ΕΝΑΣ ΔΙΚΡΙΤΗΡΙΟΣ ΑΛΓΟΡΙΘΜΟΣ SIMPLEX

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

Εισαγωγή στην Επιστήμη της Πληροφορικής Εργαστήριο. Microsoft Excel Μέρος 1

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων Kεφάλαιο 13 Ανάλυση δεδομένων...

ΓΡΑΦΙΚΕΣ ΠΑΡΑΣΤΑΣΕΙΣ ΜΕ ΕXCEL

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Αυτόματο Κλείσιμο Ισολογισμού

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

ΚΕΦΑΛΑΙΟ 5. Matlab GUI για FWSVM και Global SVM

Πίνακας περιεχομένων. Κεφάλαιο 1 Λειτουργίες βάσης δεδομένων Κεφάλαιο 2 Συγκεντρωτικοί πίνακες Πρόλογος... 11

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΠΑΝΕΛΛΑΔΙΚΩΝ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Ψευδοκώδικας. November 7, 2011

Σενάριο 18: Ραβδογράμματα Πληθυσμού

Αναγνώριση Προτύπων Εργασία 2η Clustering

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ ΜΑΘΗΜΑΤΙΚΑ Β ΓΥΜΝΑΣΙΟΥ. ΜΕΡΟΣ 1ο ΑΛΓΕΒΡΑ

ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Α.Κ.Σ.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Στατιστικό κριτήριο χ 2

Αθήνα, Απρίλιος 2018 ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΥΠΟΥΡΓΕΙΟ ΟΙΚΟΝΟΜΙΚΩΝ

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

E [ -x ^2 z] = E[x z]

Transcript:

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Εφαρμοσμένη Πολυμεταβλητή Ανάλυση : Ανάλυση κατά συστάδες 1. Εισαγωγή Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων Η ομαδοποίηση δεδομένων που έχουν συγκεντρωθεί από πραγματικές εφαρμογές δεν θα μπορούσε να διεκπεραιωθεί χωρίς τη βοήθεια των ηλεκτρονικών υπολογιστών τόσο λόγω της πολυπλοκότητας των διαθέσιμων αλγορίθμων όσο και το όγκου των πράξεων που πρέπει να γίνουν ιδιαίτερα στην περίπτωση ύπαρξης μεγάλου πλήθους δεδομένων. Σήμερα, πέρα από τα διάφορα μεμονωμένα προγράμματα που τρέχουν αλγόριθμους ομαδοποίησης, όλα σχεδόν τα στατιστικά πακέτα περιέχουν εντολές cluster analysis ενώ παράλληλα υπάρχουν και στατιστικά πακέτα ειδικά μόνο για cluster analysis όπως το CLUSTAN. Σε αυτή την ενότητα θα παρουσιάσουμε τον τρόπο με τον οποίο μπορούν να χρησιμοποιηθούν τα στατιστικά πακέτα SPSS και S-Plus για την ομαδοποίηση δεδομένων. 2. Η ανάλυση κατά συστάδες με χρήση του SPSS To SPSS έχει τη δυνατότητα να εκτελέσει δυο βασικές λειτουργίες ομαδοποίησης: μηιεραρχικές μεθόδους(k-means cluster) και ιεραρχικές μεθόδους (Hierarchical cluster). Για να οδηγηθούμε σε αυτές επιλέγουμε αρχικά το menu Analyze και στη συνέχεια την εντολή Classify.

2 Πρώτα θα εξετάσουμε την επιλογή K-Means Cluster Analysis. Ο αλγόριθμος που χρησιμοποιείται εδώ έχει τη δυνατότητα να επεξεργαστεί μεγάλο αριθμό δεδομένων σε σχέση με τις Ιεραρχικές μεθόδους. Οι αποστάσεις υπολογίζονται μόνο με την Ευκλείδεια απόσταση, οπότε αν ε- πιθυμούμε να χρησιμοποιήσουμε κάποιο άλλο μέτρο ομοιότητας ή αποστάσεως θα πρέπει να οδηγηθούμε σε Ιεραρχική μέθοδο ή να κάνουμε κατάλληλους μετασχηματισμούς ώστε ο υπολογισμός της Ευκλείδειας απόστασης στα μετασχηματισμένα δεδομένα να δίνει την απόσταση που μας ενδιαφέρει. Στο παρακάτω εικονίδιο θα πρέπει καταρχήν να εισάγουμε τις μεταβλητές που μας ενδιαφέρουν για την ομαδοποίηση. Όλες οι μεταβλητές θα πρέπει να είναι ποσοτικές ενώ ακριβώς από κάτω υπάρχει η επιλογή Label Cases by όπου μπορούμε να εισάγουμε (προαιρετικά) μια αλφαριθμητική μεταβλητή με σκοπό την ταυτοποίηση των στοιχείων (labeling cases). Τα σύμβολα που θα δοθούν ως στοιχεία στη μεταβλητή αυτή θα χρησιμοποιηθούν από το πρόγραμμα ως ετικέτες (labels) άτομα που χρησιμοποιούμε. Σε αυτό το σημείο θα πρέπει να επισημάνουμε ότι η τυποποίηση των μεταβλητών μας θα βοηθούσε αρκετά την στατιστική μας ανάλυση. Για παράδειγμα αν μια μεταβλητή έχει σαν μονάδα μέτρησης νομισματική μονάδα και κάποια άλλη έχει χρόνο τότε τα αποτελέσματα που θα εξαχθούν από το πρόγραμμα δεν θα είναι κατατοπιστικά. Για αυτό συνιστάται η τυποποίηση των μεταβλητών πριν ξεκινήσουμε να εκτελέσουμε την k-means μέθοδο. Αυτό είναι εφικτό με την παρακάτω σειρά εντολών Analyze Descriptive Statistics Descriptives. Ένα πολύ σημαντικό συστατικό του αλγόριθμου είναι ο προσδιορισμός από το χρηστή του αριθμού των ομάδων που θα γίνει η ομαδοποίηση και συμπληρώνεται στο Number of Clusters. Ο αριθμός των ομάδων θα πρέπει να είναι τουλάχιστον δυο και να μην υπεβαίνει το πλήθος των ατόμων που περιέχουν τα δεδομένα μας. Εάν επιλέξουμε την ένδειξη Centers>> θα εμφανιστεί το διπλανό εικονίδιο με το οποίο μας δίνεται η δυνατότητα να εισαγάγουμε στον αλγόριθμο τα αρχικά κέντρα των ομάδων απ όπου θα ξεκινήσει η διαδικασία της ομαδοποίησης., Επιλέγοντας την ένδειξη Read initial from και στη συνέχεια την ένδειξη File,μπορούμε να δώσουμε το όνομα του αρχείου από το ο-

3 ποίο θα πάρει το πρόγραμμα τα αρχικά κέντρα των ομάδων (μητρικά σημεία). Αυτό γίνεται εφικτό αν προηγουμένως έχουμε δημιουργήσει ένα καινούργιο αρχείο δεδομένων (σε μορφή πίνακα) που θα έχει στήλες όλες τις μεταβλητές των στοιχείων και μια ακόμη στήλη με το όνομα cluster_ ό- που εκεί θα είναι αριθμημένα τα κέντρα βάρους των ομάδων. Η επιλογή από τον χρήστη των αρχικών κέντρων των ομάδων προϋποθέτει κάποια ιδιαίτερη γνώση της υφής δεδομένων ώστε να έχει νόημα να προβεί ο ίδιος στον ορισμό των αρχικών κέντρων. Σε διαφορετική περίπτωση καλό θα είναι να αποφευχθεί η επιλογή αυτής της δυνατότητας, οπότε το πρόγραμμα θα προχωρήσει σε αυτόματο των αρχικών κέντρων. Ακόμη υπάρχει η δυνατότητα αν επιλέξουμε την ένδειξη Write final as να καταχωρήσουμε σε κάποιο αρχείο τα τελικά κέντρα των ομάδων έπειτα από την διαδικασία ομαδοποίησης. Ένα άλλο στοιχείο που καλούμαστε να συμπληρώσουμε στο αρχικό εικονίδιο K-Means Cluster Analysis είναι μια μεταξύ των επιλογών Iterate and Classify και Classify only. Αν επιλέξουμε την ένδειξη Iterate and Classify ο αλγόριθμος θα εκτελέσει επαναλαμβανόμενες ανανεώσεις των κέντρων των ομάδων μέχρις ότου σταθεροποιηθεί η σύσταση των ομάδων (τελική ομαδοποίηση). Αν χρησιμοποιήσουμε την επιλογή Classify only θα γίνει μόνο ένα βήμα, δηλαδή θα ταξινομηθούν απλώς τα στοιχεία με βάση την απόσταση από τα διαθέσιμα κέντρα Με την πρώτη επιλογή Iterate and Classify, δίνεται το διπλανό ειδικό πλαίσιο «K-means Cluster Analysis: Iterate» όπου καλούμαστε να επιλέξουμε το μέγιστο πλήθος των επαναλήψεων του αλγόριθμου και το κριτήριο σύγκλισης. Το πλήθος των επαναλήψεων μπορεί να είναι από 1 έως 999. Αυτό σημαίνει ότι ο αλγόριθμος θα σταματήσει τις επαναλήψεις όταν φτάσει το νούμερο που του έχουμε ορίσει ακόμη και αν δεν ικανοποιείται το κριτήριο σύγκλισης (ισορροπίας) που έχει οριστεί. Το κριτήριο ισορροπίας (Convergence Criterion) καθορίζει το πότε θα σταματήσει η επαναληπτική διαδικασία. Εκφράζεται ως λόγος της ελάχιστης απόστασης μεταξύ δυο αρχικών κέντρων των ομάδων σε σχέση με την απόστασή τους μετά μια επανάληψη. Επομένως οι τιμές που θα δώσουμε πρέπει να είναι μεταξύ 0 και 1. Έτσι για παράδειγμα αν θέσουμε στο κριτήριο την τιμή 0.02 τότε η επαναληπτική διαδικασία θα τερματιστεί όταν μια πλήρης επανάληψη του αλγόριθμου δεν μετακινεί κανένα κέντρο από τις ο- μάδες που έχουν διαμορφωθεί σε μια απόσταση μεγαλύτερη από 2% από τη μικρότερη απόσταση μεταξύ δυο οποιοδήποτε αρχικών κέντρών. Η επιλογή της ένδειξης Use running means έχει ως επακόλουθο τα κέντρα των ομάδων να ανανεώνονται έπειτα από την κατάταξη ενός στοιχείου σε μία ομάδα. Διαφορετικά τα νέα κέντρα βάρους υπολογίζονται όταν όλα τα στοιχεία έχουν τοποθετηθεί στις ομάδας.

4 Μια άλλη επιλογή που υπάρχει στο αρχικό εικονίδιο K-Means Cluster Analysis είναι αυτή με την ένδειξη Save. Αυτή η επιλογή μας προσφέρει τη δυνατότητα να αποθηκεύσουμε πληροφορίες από μια λύση σαν νέες μεταβλητές για να τις χρησιμοποιήσουμε σε κάποια άλλη ανάλυση. Στο διπλανό εικονίδιο η ένδειξη Cluster membership δημιουργεί μια νέα μεταβλητή που υποδεικνύει την ομάδα που ανήκει κάθε στοιχείο μετά την στατιστική επεξεργασία. Η νέα αυτή μεταβλητή παίρνει τιμές από 1 έως το πλήθος των ομάδων. Μια άλλη ένδειξη που υπάρχει στο ίδιο εικονίδιο είναι Distance from cluster center η οποία δημιουργεί μια νέα μεταβλητή η οποία αντιπροσωπεύει την Ευκλείδεια απόσταση μεταξύ κάθε στοιχείου και το κέντρου της ομάδας στην οποία ανήκει. Η τελευταία επιλογή που έχουμε να εξετάσουμε είναι αυτή με την ένδειξη options. Εκεί βρίσκονται ορισμένες πρόσθετες πληροφορίες που θα μπορούσαμε να έχουμε στην διάθεσή μας μετά την ολοκλήρωση της διαδικασίας ομαδοποίησης. Για παράδειγμα, θα μπορούσαμε να ζητήσουμε την εμφάνιση των αρχικών κέντρων βάρους, τη δημιουργία ενός πίνακα ANOVA, πληροφορίες σχετικά με το σε ποια ομάδα είναι μέλος το κάθε στοιχείο ξεχωριστά. Τέλος μπορούμε να καθορίσουμε με ποιο τρόπο θα χειριστεί το πρόγραμμα τις ελλιπείς τιμές (με ποιο κριτήριο θα αποφασίζεται αν θα εξαιρεθούν από την ανάλυση). Στη συνεχεία θα περιγράψουμε τον τρόπο με τον οποίο μπορεί να υλοποιηθούν στο SPSS Ιεραρχικοί μέθοδοι ομαδοποίησης (Hierarchical Clustering Methods) και πιο συγκεκριμένα οι συσσωρευτικές μέθοδοι. Αυτή η διαδικασία εντοπίζει σχετικά ομοιογενείς ομάδες από στοιχεία ή μεταβλητές βάσει των επιλεγμένων χαρακτηριστικών και χρησιμοποιώντας ένα αλγόριθμο ο οποίος ξεκινάει με ένα άτομο σε κάθε ομάδα, και με διαδοχικές συνενώσεις καταλήγει σε μια και μόνο ομάδα που περιέχει όλα τα άτομα. Επιλέγουμε αρχικά Analyze Classify Hierarchical Cluster, για να φτάσουμε στο διπλανό εικονίδιο και στην

5 συνέχεια καλούμαστε να εισαγάγουμε τις μεταβλητές οι οποίες μπορεί να είναι ποσοτικές, δίτιμες ή κατηγορικές. Όλες οι μεταβλητές που θα εισαχθούν θα πρέπει να είναι του ιδίου τύπου. Ακόμη, όλες οι μεταβλητές θα πρέπει να είναι σε αριθμητική μορφή, για παράδειγμα οι δίτιμες θα πρέπει να περιγράφονται με την μορφή 0 και 1 και όχι με Yes και No. Αν οι μεταβλητές έχουν μεγάλες διαφορές καλό θα ήταν να τις τυποποιήσουμε. Η ομαδοποίηση μπορεί να γίνει είτε θεωρώντας ως άτομα τις γραμμές (cases) των δεδομένων (πρωτεύουσα θεώρηση), είτε θεωρώντας ως άτομα τις στήλες δηλαδή με τις μεταβλητές (variables) που χρησιμοποιήσαμε για τη συλλογή των δεδομένων (δυϊκή θεώρηση). Αν επιλέξουμε ομαδοποίηση για τις γραμμές τότε θα πρέπει να συμπεριλάβουμε τουλάχιστον μια αριθμητική μεταβλητή. Αν κάνουμε ομαδοποίηση για τις στήλες, θα πρέπει να συμπεριλάβουμε τουλάχιστον τρεις αριθμητικές μεταβλητές στην ανάλυση μας. Ακόμη μπορούμε να επιλέξουμε και μια μεταβλητή-ετικέτα που να χαρακτηρίζει τα στοιχεία ( Label Cases by: ). Ξεκινώντας την παρουσίαση όλων των επιλογών του αρχικού εικονιδίου από αριστερά, η πρώτη ένδειξη που συναντάμε είναι η Statistics. Όπως βλέπουμε στο εικονίδιο παρακάτω υπάρχει μια επιλογή Agglomeration schedule όπου αν την διαλέξουμε τότε στα αποτελέσματα θα έ- χουμε μια αναλυτική πληροφόρηση για τα στοιχεία που συνδυάζονται μεταξύ τους σε κάθε στάδιο της διαδικασίας. Η ένδειξη Proximity matrix εάν επιλεχθεί θα μας δώσει όλες τις αποστάσεις ή τα μέτρα ομοιότητας μεταξύ των στοιχείων ή των μεταβλητών. Η επιλογή Cluster Membership μας δίνει την δυνατότητα απεικόνισης της ομάδας στην οποία κάθε στοιχείο τοποθετείται σε ένα ή περισσότερα σταδία στην διαδικασία της ομαδοποίησης. Η άλλη επιλογή είναι Plots και αναφέρεται στα γραφήματα που μπορεί να παράγει το πρόγραμμα ώστε να απεικονίσει τα στάδια της Ιεραρχικής μεθόδου. Όπως παρατηρούμε και στο εικονίδιο παρακάτω έχουμε τη δυνατότητα να ζητήσουμε τη δημιουργία δενδροδιαγράμματος η οποία αποτελεί και τη συνηθέστερη μορφή γραφικής απεικόνισης της διαδικασίας ομαδοποίησης, δίνοντάς μας παράλληλα και τη δυνατότητα να εξάγουμε πληροφορίες σχετικά και με το βέλτιστο αριθμό ομάδων που υπάρχει στα δεδομένα μας. Μια άλλη

6 μορφή γραφήματος είναι το icicle plot. Για το τελευταίο, υπάρχει η δυνατότητα παρουσίασης του για όλες τις ομάδες ή για καθορισμένο εύρος αυτών. Το icicle plot δίνει επίσης πληροφορίες για το πως τα στοιχεία ενώνονται σε ομάδες σε κάθε επανάληψη του αλγόριθμου. Δίνεται η δυνατότητα απεικόνισης αυτού του γραφήματος σε κάθετη ή σε οριζόντια μορφή. Στο κάτω μέρος του icicle plot (ή ισοδύναμα, δεξιά όταν έχουμε επιλέξει την οριζόντια απεικόνιση του γραφήματος) κανένα στοιχείο δεν έχει ακόμη ενωθεί με κάποιο άλλο, ενώ όσο προχωράμε προς τα πάνω (από δεξιά προς τα αριστερά για την οριζόντια μορφή), τα στοιχεία που ενώνονται σημειώνονται με ένα Χ ή με μια παύλα στην στήλη που βρίσκεται ανάμεσα τους. Οι διαφορετικές ομάδες διακρίνονται από την κενή στήλη που αφήνεται μεταξύ τους. Στην επιλογή Method βρίσκεται η καρδιά μιας Ιεραρχικής διαδικασίας αφού εδώ μπορούμε να διαλέξουμε με ποια μέθοδο επιθυμούμε να γίνει η ομαδοποίηση. Διαθέσιμες μέθοδοι τις ο- ποίες έχουμε εξετάσει αναλυτικά στην θεωρητική ενότητα είναι οι ακόλουθες : Between-groups linkage Within-groups linkage Nearest neighbor Furthest neighbor Centroid clustering Median Clustering Ward s method Ένα άλλο στοιχείο που μας ζητείται να συμπληρωθεί είναι το είδος του μέτρου ομοιότητας ή αποστάσεως που θα χρησιμοποιήσει η μέθοδος. Τα διαθέσιμα μέτρα και αποστάσεις χωρίζονται ανάλογα με το τύπο των μεταβλητών που έχουν εισαχθεί στην ανάλυση. Έτσι για Ποσοτικά δεδομένα (interval data) έχουμε στην διάθεση μας τα ακόλουθα: Euclidean distance, squared Euclidean distance, cosine, Pearson correlation, Chebychev, block, Minkowski και

7 customized. Για απαριθμητά δεδομένα (Count data) έχουμε chi-square measure και phi-square measure. Τέλος για Δίτιμα δεδομένα υπάρχει μια πληθώρα μέτρων όπως : Euclidean distance, squared Euclidean distance, size difference, pattern difference, variance, dispersion, shape, simple matching, phi 4-point correlation, lambda, Anderberg s D, dice, Hamann, Jaccard, Kulczynski 1, Kulczynski 2, Lance and Williams, Ochiai, Rogers and Tanimoto, Russel and Rao, Sokal and Sneath 1, Sokal and Sneath 2, Sokal and Sneath 3, Sokal and Sneath 4, Sokal and Sneath 5, Yule s Y, and Yule s Q. Στις δίτιμες μεταβλητές υπάρχει η επιλογή του συμβολισμού με 1 ή 0 για την παρουσία ή όχι ενός χαρακτηριστικού. Η επιλογή Transform Values μας επιτρέπει να τυποποιήσουμε τις τιμές των μεταβλητών μας ( δεν πρέπει να είναι δίτιμες) με διάφορες μεθόδους που διαθέτει. Ενώ η επιλογή Transform Measures μας επιτρέπει να μετασχηματίσουμε τις τιμές που προκύπτουν από τις μετρήσεις των αποστάσεων. Ακόμη μια επιλογή που υπάρχει στο αρχικό εικονίδιο της Ιεραρχικής μεθόδου είναι αυτό με την ένδειξη Save όπου μας δίνεται η δυνατότητα όπως φαίνεται παρακάτω- να αποθηκεύσουμε τη σύσταση των ομάδων σε ένα συγκεκριμένο επίπεδο (αριθμό ομάδων) της ιεραρχικής δοκιμασίας ή σε ένα συγκεκριμένο εύρος μεταξύ δυο επιπέδων της ιεραρχικής δοκιμασίας (το τελευταίο οριοθετείται με τον αριθμό των ομάδων ανάμεσα στις οποίες θέλουμε να κινηθούμε). Οι αποθηκευμένες μεταβλητές μπορούν να χρησιμοποιηθούν σε οποιαδήποτε άλλη στατιστική ανάλυση των δεδομένων. 2. Η ανάλυση κατά συστάδες με χρήση του S-Plus Το επόμενο στατιστικό πακέτο που θα εξετάσουμε είναι το S-Plus. Αυτό το πακέτο έχει τη δυνατότητα να εκτελεί τις διάφορες εντολές ομαδοποίησης δεδομένων με δυο τρόπους. Ο πρώτος είναι απευθείας από το γραφικό περιβάλλον του προγράμματος όπου υπάρχει ειδική ενότητα για ομαδοποίηση δεδομένων και ο δεύτερος είναι με χρήση ενός πλήθους εντολών που αφορούν αυτήν την διαδικασία σε ένα ειδικό παράθυρο εντολών (Commands Window). Ουσιαστικά ο πρώτος τρόπος εκμεταλλεύεται κάποιο τμήμα των εντολών του πακέτου (που είναι παράλληλα και οι πιο βασικές) οι οποίες τοποθετούνται σε γραφικό περιβάλλον που είναι φιλικό στον χρήστη. Από την άλλη πλευρά η χρήση του παραθύρου εντολών εκμεταλλεύεται πλήρως τις διαθέσιμες εντολές και

8 ο χρήστης έχει τη δυνατότητα να δουλέψε, σε διάφορες παραλλαγές και ρυθμίσεις που του παρέχουν οι εντολές, προσαρμόζοντάς τες ανάγκες του. Στην παρουσίαση που θα ακολουθήσει θα εξετάσουμε τις λειτουργίες και δυνατότητες του πρώτου τρόπου χειρισμού του πακέτου και παράλληλα θα γίνεται μια αναφορά στις διάφορες ε- ντολές που αφορούν την Ομαδοποίηση Δεδομένων. Εφόσον έχουμε εισάγει στο πακέτο τα δεδομένα μας είτε με την εντολή File Import File από κάποιο αρχείο είτε απευθείας σε ένα φύλλο εργασίας (Data Set), είμαστε έτοιμοι να προχωρήσουμε στην επεξεργασία τους με την επιλογή από το μενού Statistics Cluster Analysis όπου εκεί έχουμε μια σειρά μεθόδων ο- μαδοποίησης. Διακρίνουμε δυο κατηγορίες μεθόδων, τις μη Ιεραρχικές μεθόδους όπως είναι οι k-means, Partinioning Around Medoids και Fuzzy Partitioning και από την άλλη πλευρά τις Ιεραρχικές μεθόδους όπου σε αυτό το σημείο το πακέτο έχει την δυνατότητα εκτέλεσης και των δυο τύπων αλγόριθμων που είναι ο συσσωρευτικός (Agglomerative) και ο Διαιρετικός (Divisive). Τέλος με την επιλογή Compute Dissimilarities το πακέτο υπολογίζει τις αποστάσεις μεταξύ των στοιχείων ενός συνόλου δεδομένων τις οποίες κάνουν χρήση κάποιοι αλγόριθμοι όπως οι Ιεραρχικοί, Partinioning Around Medoids και Fuzzy Partitioning. Η επιλογή της μεθόδου k-means μας οδηγεί στο παράθυρο που φαίνεται παρακάτω όπου εκεί καλούμαστε να δηλώσουμε το όνομα του συνόλου των δεδομένων, τις μεταβλητές που θα ληφθούν υπόψη στην διαδικασία, τον αριθμό των ομάδων( Num of Clusters ) ή ένα πίνακα αρχικών τιμών για τα κέντρα βάρους, το μέγιστο αριθμό των επαναλήψεων του αλγόριθμου ( Max Iterations ), την παράλειψη γραμμών όπου υπάρχουν ελλιπείς τιμές (Missing Values), την επιλογή ενός υποσυνόλου γραμμών ( Subset Rows with ) που να πληρούν κάποια συνθήκη για κάποια μεταβλητή ή τη συμμετοχή όλων των γραμμών

9 στην ανάλυση αν αφήσουμε κενό αυτό το πεδίο και τέλος μπορούμε να αποθηκεύσουμε αυτό το μοντέλο ανάλυσης με κάποιο όνομα ώστε να μπορούμε να το καλέσουμε οποιαδήποτε στιγμή το χρειαστούμε. Ο αλγόριθμος ανακατανέμει τα στοιχεία των ομάδων με βάση τις αποστάσεις τους από τα κέντρα βάρη των εκάστοτε διαμορφωμένων ομάδων. Το κέντρο βάρους μιας ομάδας u είναι ένα σημείο στο p-διάστατο χώρο (p- μεταβλητές) βρίσκοντας τους μέσους όρους των μετρήσεων σε κάθε μεταβλητή. Για παράδειγμα η r- συντεταγμένη του είναι x r 1 n ( u) = όπου με C u συμβολίζουμε το σύνολο των δεικτών της ομάδας u ( η οποία περιέχει n u στοιχεία). Έτσι το κέντρο βάρους μιας ομάδας u δίνεται από την παρακάτω σχέση x( u) = ( x1( u), x2( u),..., x p( u)) Όσον αφορά τον τρόπο παρουσίασης των αποτελεσμάτων υπάρχει η επιλογή Results όπου εκεί μπορούμε να δηλώσουμε αν θέλουμε και σε τι βαθμό ή όχι την λίστα των αποτελεσμάτων, ακόμη μπορούμε να αποθηκεύσουμε με κάποιο όνομα την διανομή των στοιχείων των δεδομένων μας στις διάφορες ομάδες. Στο παράθυρο των αποτελεσμάτων (Report Window) εμφανίζονται τα κέντρα των δυο ο- μάδων με την μορφή διανυσμάτων με τις τιμές των μεταβλητών όπως φαίνονται παρακάτω, στην συνέχεια περιγράφεται η ταξινόμηση των στοιχείων με την σειρά που έχουν στα δεδομένα, επίσης αναφέρεται και το άθροισμα των τετραγώνων της κάθε ομάδας και τέλος δίνεται το πλήθος των στοιχείων που αποτελούν την κάθε ομάδα. Στην συνέχεια θα δούμε μια άλλη μη Ιεραρχική μέθοδο την Partitioning Around Medoids η οποία έχει κοινά στοιχεία με την k-means αλλά αντί για κέντρα βάρους (centroids) χρησιμοποιεί medoids. Ο αλγόριθμος επεξεργάζεται τον πίνακα των αποστάσεων των δεδομένων και σε πρωτη φάση υπολογίζει k αντιπροσωπευτικά αντικείμενα τα οποία ονομάζονται medoids όπου ο αριθμός k ορίζεται από τον χρήστη. Ο αλ- u i C u x ir

10 γόριθμος με τον οποίο γίνεται η επιλογή των k αντιπροσωπευτικών αντικειμένων (Medoids) αποτελείται από τα παρακάτω βήματα. 1. Θεωρούμε ένα στοιχείο i το οποίο δεν έχει ακόμη επιλεχθεί. 2. Θεωρούμε ένα μη επιλεγμένο στοιχείο j και υπολογίζουμε την διαφορά μεταξύ της απόστασης του D j με τα πιο όμοια προς αυτό επιλεγμένα στοιχεία και της απόστασής του με το αντικείμενο i. 3. Εάν αυτή η διαφορά είναι θετική, το αντικείμενο j θα συνεισφέρει στην απόφαση της επιλογής του στοιχείου i. Έτσι υπολογίζουμε την ποσότητα 4. Υπολογίζουμε το άθροισμα j C ji ji = max( D j d ij,0) C για την επιλογή του στοιχείου i. 5. Επιλέγουμε το μη επιλεγμένο ακόμη στοιχείο i το οποίο μεγιστοποιεί το άθροισμα j Η παραπάνω διαδικασία συνεχίζεται έως ότου βρεθούν τα k αντιπροσωπευτικά αντικείμενα. Στη συνέχεια κάθε στοιχείο αντιστοιχίζεται στο πλησιέστερο medoid και στόχος είναι η ελαχιστοποίηση του αθροίσματος των αποστάσεων όλων των στοιχείων στο πλησιέστερο medoid. C. ji d ij Ο αλγόριθμος αυτός σε σύγκριση με την k-means υπερέχει στα εξής σημεία: (α) Έχει την δυνατότητα να δεχτεί ένα πίνακα αποστάσεων (Dissimilarity Matrix). (β) Είναι πιο αποτελεσματικός διότι προσπαθεί να ελαχιστοποιήσει ένα άθροισμα από αποστάσεις (sum of dissimilarities) έναντι ενός αθροίσματος από τετράγωνα Ευκλείδειων αποστάσεων. (γ) Ακόμη έχει την δυνατότητα παραγωγής διαφόρων γραφημάτων. Στο παράθυρο που αντιστοιχεί σε αυτήν τη μέθοδο όπως φαίνεται παρακάτω καλούμαστε να δηλώσουμε το όνομα του συνόλου των δεδομένων, τις μεταβλητές που θα λάβουν μέρος στην διαδικασία, την όποια εξαίρεση γραμμών, την παράλειψη γραμμών με ελλιπείς τιμές, τη χρήση πίνακα αποστάσεων στην περίπτωση όπου δεν έχουμε αριθμητικά δεδομένα αλλά μπορούμε να εξάγουμε ένα τέτοιο πίνακα από την επιλογή Statistics Cluster Analysis Compute Dissimilarities. Ακόμη υπάρχει η δυνατότητα επιλογής της μετρικής που θα χρησιμοποιηθεί για να υπολογιστεί ο πίνακας

11 των αποστάσεων, η μια είναι η Ευκλείδεια που ορίζεται ως η τετραγωνική ρίζα του αθροίσματος των διαφορών και η άλλη είναι η manhattan που είναι το άθροισμα των απόλυτων διαφορών. Μια πολύ χρήσιμη επιλογή είναι αυτή της τυποποίησης των μεταβλητών και συνιστάται η χρήση της σε περίπτωση που οι μεταβλητές μας περιγράφουν διαφορετικά μεγέθη και υπάρχει μεγάλη διαφορά στις μονάδες μέτρησης. Οι δυο τελευταίες επιλογές που αναφέραμε έχουν νόημα μόνο όταν έχουμε ένα σύνολο δεδομένων και όχι ένα πίνακα αποστάσεων. Κάποια άλλα στοιχεία που πρέπει να εισάγουμε στον αλγόριθμο είναι το πλήθος των ομάδων και ακόμη μπορούμε να επιλέξουμε την ένδειξη Use Large Data Algorithm στην περίπτωση που έχουμε μεγάλο αριθμό δεδομένων με τη διαφορά ότι θα πρέπει να εισάγουμε το σύνολο δεδομένων και όχι τον πίνακα αποστάσεων. Τέλος υπάρχουν οι επιλογές της αποθήκευσης του μοντέλου που δημιουργήσαμε καθώς και των δεδομένων και των αποστάσεων, όπου η αποθήκευση αυτών των πληροφοριών είναι αναγκαία προϋπόθεση για την δημιουργία γραφήματος Clusplot που θα εξετάσουμε στην συνέχεια. Υπάρχει η δυνατότητα διαχείρισης της παρουσίασης των αποτελεσμάτων με τις κατάλληλες ρυθμίσεις στο παράθυρο Results όπου έχουμε περιγράψει προηγούμενα. Στο παράθυρο των αποτελεσμάτων (Report Window) φαίνεται το συντακτικό της εντολής που χρησιμοποιήθηκε και εμφανίζονται κατά σειρά τα medoids που επιλέχθηκαν από τον αλγόριθμο, το διάνυσμα (Clustering Vector) που μας δίνει την ταξινόμηση των παρατηρήσεων στις ομάδες και στο τέλος δίνεται η Objective function κατά τα δυο στάδια του αλγόριθμου που είναι το Build-step και το Swap-step όπου ορίζεται ως εξης: n Obj.Function= d ( i, mν ), i είναι το στοιχείο εκείνο ι i= 1 που τοποθετείται στην ομάδα ν i και το medoid mν ι είναι το πλησιέστερο από οποιοδήποτε άλλο. Ένα πολύ σημαντικό εργαλείο αυτής της μεθόδου είναι η δημιουργία γραφημάτων. Δυο είναι τα διαθέσιμα γραφήματα, το Clusplot και το Silhouette Plot που μπορούμε να επιλέξουμε στο

12 παράθυρο Plot. Το clusplot απεικονίζει όλα τα στοιχεία των δεδομένων σε ένα διδιάστατο σύστημα αξόνων και με το σχήμα της έλλειψης περιγράφει την κάθε ομάδα που έχει προκύψει από την ανάλυση. Το δεύτερο γράφημα είναι το Silhouette Plot, το οποίο μας δείχνει την ισχύ της σχέσης κάθε στοιχείου με την ομάδα που ανήκει σύμφωνα με την ανάλυση που έχει γίνει. Για κάθε παρατήρηση i, μια οριζόντια γραμμή σχεδιάζεται της οποίας το μήκος είναι το Silhouette width s(i) της παρατήρησης. Έστω ότι το στοιχείο i ανήκει στην ομάδα Α τότε συμβολίζουμε με α(i) το μέσο όρο των αποστάσεων του στοιχείου i από όλα τα υπόλοιπα στοιχεία της ομάδας Α. Στην συνέχεια θεωρούμε μια άλλη ομάδα C και συμβολίζουμε με d(i,c) το μέσο όρο των αποστάσεων του στοιχείου i από όλα τα στοιχεία της ομάδας C. Αφου υπολογίσουμε τα d(i,c) για όλα τα C A, επιλέγουμε το μικρότερο από αυτά και το συμβολίζουμε με b(i) b( i) = min d ( i, C) C A Έτσι είμαστε σε θέση να ορίσουμε την ποσότητα s(i) a( i) 1 b( i) s( i) = 0 b( i) 1 a( i) αν α(i)<b(i) αν α(i)=b(i) αν α(i)>b(i) Οι παρατηρήσεις που εμφανίζονται στο Silhouette Plot είναι κατανεμημένες ανά ομάδα και ξεκινάνε από την 1 η ομάδα να βρίσκεται στην κορυφή. Όσες παρατηρήσεις έχουν μεγάλο s(i) (δηλ. κοντά στο 1) είναι μια ένδειξη για το ότι πολύ σωστά έχουν κατανεμηθεί στην ομάδα που ανήκουν. Αν πάλι κάποιες παρατηρήσεις έχουν μικρό s(i) (δηλ. γύρω από το μηδέν) αυτό σημαίνει ότι αυτές οι παρατηρήσεις θα μπορούσαν να βρίσκονται κάλλιστα και στις δυο ομάδες. Τέλος υ- πάρχει η περίπτωση όπου κάποιες παρατηρήσεις έχουν αρνητική τιμή s(i) αυτό μας υποδεικνύει ότι αυτές οι παρατηρήσεις έχουν τοποθετηθεί λανθασμένα σε αυτήν την ομάδα.

13 Εφόσον έχουμε περιγράψει τις καλούμενες μη-ιεραρχικές μεθόδους θα προχωρήσουμε στην εξέταση των δυνατοτήτων του πακέτου στις Ιεραρχικές μεθόδους οι οποίες, όπως γνωρίζουμε, διακρίνονται σε Συσσωρευτικές (Agglomerative) και Διαιρετικές (Divisive). Πρώτα θα εξετάσουμε την Συσσωρευτική μέθοδο. Όπως παρατηρούμε στο διπλανό παράθυρο που αντιστοιχεί στη συγκεκριμένη μέθοδο, ζητείται από τον χρήστη να δηλώσει το σύνολο δεδομένων που θα χρησιμοποιηθεί στην ανάλυση καθώς και ποιες μεταβλητές θα λάβουν μέρος σε αυτήν. Επίσης μπορούμε να επιλέξουμε ποιες ακριβώς γραμμές θέλουμε να συμπεριληφθούν στην ανάλυση τις οποίες δηλώνουμε στο πεδίο Subset Rows with, όπως μπορούμε να δηλώσουμε να παραλειφθούν από την διαδικασία οι γραμμές στις οποίες υπάρχουν ελλιπείς τιμές missing values. Εάν οι τιμές που έχουμε δεν είναι αριθμητικές (numeric) αλλά κατηγορικές (factor) υπάρχει η δυνατότητα να κάνουμε χρήση του Dissimilarity Object αφού πρώτα το υπολογίσουμε από την επιλογή Statistics Cluster Analysis Compute Dissimilarities. Ακόμη υπάρχει η δυνατότητα της επιλογής της μετρικής που θα χρησιμοποιηθεί για τον υπολογισμό του πίνακα των αποστάσεων του συνόλου των δεδομένων. Στη διάθεση μας υπάρχουν δυο μετρικές, Euclidean και Manhattan. Μια πολύ σημαντική επιλογή είναι αυτής της τυποποίησης (standardize) των μεταβλητών μας κατά την οποία αφαιρείται από κάθε τιμή η μέση τιμή της μεταβλητής όπου ανήκει και εν συνεχεία διαιρείται αυτή η διαφορά με την απόλυτη μέση απόκλιση. Η διαδικασία της ομαδοποίησης μπορεί να γίνει με μια από της παρακάτω γνωστές μεθόδους Ιεραρχικής ομαδοποίησης την οποία και συμπληρώνουμε στην επιλογή Linkage Type : Average Complete Single Ward Weighted Στην ενότητα Save Model Object, δίνεται η δυνατότητα στον χρηστή να αποθηκεύσει τα στοιχεία αυτής της ανάλυσης το οποίο είναι και προϋπόθεση για την δημιουργία γραφημάτων. Οι τελευταίες ρυθμίσεις σχετικά με την παρουσίαση των αποτελεσμάτων της ανάλυ-

14 σης μπορούν να γίνουν από το παράθυρο Results όπου εκεί δηλώνουμε αν επιθυμούμε την εμφάνιση των αποτελεσμάτων και το όνομα που ενδεχομένως θέλουμε να αποθηκεύσουμε τα αποτελέσματα. Ακόμη υπάρχει η δυνατότητα επιλέγοντας το Cluster Membership να μας παρουσιάσει ένα διάνυσμα-στήλη όπου οι συντεταγμένες του μας δείχνουν την ταξινόμηση κάθε στοιχείου σε κάποια ομάδα (όπως τις δημιούργησε η ανάλυση) και σε συνδυασμό με το παρακάτω από αυτό πεδίο Num of Clusters όπου εκεί μπορούμε να δηλώσουμε το πλήθος των ομάδων που επιθυμούμε να γίνει αυτή η ταξινόμηση. Όπως παρατηρούμε στο παράθυρο εμφάνισης (Report Window) των αποτελεσμάτων, η ε- ντολή που είναι υπεύθυνη για όλη τη διαδικασία είναι η agnes η οποία με όλες τις παραμέτρους που έχουμε δηλώσει κατά την διάρκεια των ρυθμίσεων παίρνει την μορφή που έχουμε παρακάτω. Υπάρχουν ακόμη οι εντολές hclust και mclust οι οποίες έχουν διαφορετικές δυνατότητες σε σχέση με την agnes, όπως για παράδειγμα η mclust έχει κάποιες ιδιαίτερες υπολογιστικές μεθόδους αλλά η χρήση της agnes κρίνεται η καλύτερη δυνατή για τις περισσότερες των περιπτώσεων. Tα αποτελέσματα που παίρνουμε μετά την εκτέλεση της εντολής agnes συνοψίζονται στα ακόλουθα: {merge} εμφανίζει ένα (n-1) x 2 πίνακα, όπου n ο αριθμός των α- ντικειμένων των δεδομένων. Η γραμμή i του πίνακα περιγράφει την συγχώνευση των ομάδων στο βήμα i της ομαδοποίησης. Έστω j ένα στοιχείο σε μια γραμμή του πίνακα merge το οποίο έχει αρνητική τιμή τότε το αντικείμενο j συγχωνεύτηκε σε αυτό το στάδιο. Αν το j έχει θετική τιμή τότε πραγματοποιείται συγχώνευση με αυτήν που συνέβη στο προηγούμενο στάδιο. {order} είναι ένα διάνυσμα με τιμές τη σειρά των αντικειμένων όπως αυτά έχουν σχεδιαστεί στο δενδρόγραμμα. {height} είναι ένα διάνυσμα με τιμές τις αποστάσεις μεταξύ των ομάδων στα διαδοχικά στάδια του αλγόριθμου.

15 {Agglomerative coefficient} είναι ένας συντελεστής όπου μετράει την ισχύ της ομαδοποίησης. Για κάθε στοιχείο i, ορίζουμε το μέγεθος l(i) το οποίο ισούται με την αντίστοιχη τιμή στην ποσότητα Height. Ακόμη όπως θα δούμε παρακάτω στο διάγραμμα banner το μήκος κάθε ευθυγράμμου τμήματος που αντιπροσωπεύει κάθε μια παρατήρηση είναι ίσο με l(i). Ο συσσωρευτικός συντελεστής (AC) ορίζεται ως AC = 1 n n i= 1 Ο συντελεστής (AC) παίρνει τιμές από το 0 έως το 1 και εκφράζει την ισχύ της ομαδοποίησης. Όταν ο συντελεστής παίρνει τιμές κοντά στο μηδέν είναι μια ένδειξη για ασθενή συνοχή των δεδομένων μας στην συγκεκριμένη ομαδοποίηση ενώ όταν προσεγγίζει τη μονάδα τότε είναι μια ένδειξη ισχυρής ομαδοποίησης. Επειδή ο συντελεστής (AC) μεγαλώνει όσο αυξάνει το πλήθος των δεδομένων δεν μπορεί να χρησιμοποιηθεί για τη σύγκριση l( i) μεταξύ ομάδων δεδομένων με διαφορετικό μέγεθος. Μια πολύ σημαντική λειτουργία της συσσωρευτικής ιεραρχικής μεθόδου είναι αυτή της δημιουργίας γραφημάτων και συγκεκριμένα δενδρογράμματος (Clustering Tree) και Banner Plot. Το δενδρόγραμμα είναι μια γραφική αναπαράσταση της διαδικασίας της ο- μαδοποίησης όπου δείχνει τις παρατηρήσεις που ε- νώνονται για να σχηματίσουν τις ομάδες και τις τιμές των αποστάσεων σε κάθε βήμα του αλγόριθμου. Τα φύλλα (leaves) του δενδρογράμματος που βρίσκονται στο κάτω μέρος του γραφήματος παριστάνουν τις παρατηρήσεις και σε κάθε βήμα έχουμε τις συγχωνεύσεις των στοιχείων έως ότου όλα τα στοιχεία - παρατηρήσεις ενοποιηθούν σε μια ομάδα. Η κάθετη συντεταγμένη του σημείου όπου δυο κλαδιά ενώνονται ισούται με την απόσταση μεταξύ των ομάδων που αντιστοιχούν σε αυτά. Το banner plot απεικονίζει τις διαδοχικές συγχωνεύσεις από τα αριστερά προς τα δεξιά. Τα στοιχεία είναι διαταγμένα από την κορυφή προς το τέλος. Οι συγχωνεύσεις απεικονίζονται από οριζοντιες γραμμές του κατάλληλου μεγέθους το οποίο ταυτίζεται με το ύψος (height).

16 Οι πληροφορίες που μας δίνει το banner plot είναι ακριβώς οι ίδιες με αυτές που μας παρέχει το δενδρόγραμμα. Ενώ ο συσσωρευτικός αλγόριθμος ξεκινάει με πολλές ομάδες, οι οποίες συγχωνεύονται και καταλήγουν σε μια, αντίθετα μια διαιρετική διαδικασία ξεκινάει με μια ομάδα που περιέχει όλα τα στοιχεία και σταδιακά διαιρεί τις υπάρχουσες ο- μάδες, διαμορφώνοντας άλλες ομάδες. Το παράθυρο ρυθμίσεων είναι σχεδόν όμοιο με αυτό που έχουμε περιγράψει στο συσσωρευτικό αλγόριθμο ομαδοποίησης με τη μόνη διαφορά ότι εδώ δεν έχουμε τη δυνατότητα επιλογής μεθόδου όπως προηγούμενα. Η μέθοδος (εντολή) diana είναι και η μοναδική που υπολογίζει διαιρετικούς αλγόριθμους, διότι σχεδόν όλο το λογισμικό που υπάρχει σε ιεραρχικές μεθόδους αναλίσκεται σε συσσωρευτικούς αλγόριθμους. Η αρχική ομαδοποίηση (στο βήμα 0) περιέχει μια μεγάλη ομάδα αποτελούμενη από n στοιχεία, σε κάθε βήμα η μεγαλύτερη διαθέσιμη ομάδα διασπάται σε δυο μικρότερες ομάδες έως ότου όλες οι ομάδες να περιέχουν ένα μόνο στοιχείο. Η μέθοδος diana προσφέρει τη δυνατότητα να μας παρέχει το διαιρετικό συντελεστή (divisive coefficient), ο ο- ποίος μετράει τη δομή της ομαδοποίησης του συνόλου των δεδομένων. Για κάθε στοιχείο i, συμβολίζουμε με d(i) την διάμετρο της τελευταίας ομάδας όπου ανήκει (πριν διαμεριστεί στην μονομελή ομάδα), διαιρούμενη με την διάμετρο ολόκληρου του συνόλου των δεδομένων. Έτσι ο διαιρετικός συντελεστής (DC) ορίζεται ως ο μέσος όρος όλων των d(i). Όπως με τον AC στην προηγούμενη ενότητα με την μέθοδο agnes έτσι και ο DC αυξάνει όσο μεγαλώνει και το πλήθος των στοιχείων. Έτσι ο DC δεν μπορεί

17 να χρησιμοποιηθεί για την σύγκριση συνόλων δεδομένων με διαφορετικά μεγέθη. Τέλος υπάρχει η δυνατότητα παραγωγής γραφημάτων όμοια με αυτά της συσσωρευτικής διαδικασίας. Στην περίπτωση όπου όλες οι μεταβλητές σε ένα σύνολο δεδομένων είναι δίτιμες, ένας φυσικός τρόπος να ομαδοποιήσουμε τα στοιχεία, είναι να διαμερίσουμε τα δεδομένα σε δυο ομάδες βάσει των δυο τιμών μιας συγκεκριμένης δίτιμης μεταβλητής. Η μέθοδος Monothetic Analysis παράγει μια ιεράρχηση των ομάδων όπου σε κάθε βήμα μια ομάδα διαμερίζεται σε δυο υποομάδες βάσει των τιμών μιας από τις δίτιμες μεταβλητές. Στο παράθυρο των ρυθμίσεων μπορούμε να δηλώσουμε το όνομα του συνόλου των δεδομένων, στο οποίο σύνολο θα πρέπει να περιέχονται μόνο δίτιμες μεταβλητές. Επίσης ο αλγόριθμος μπορεί να δεχτεί ένα περιορισμένο αριθμό ελλιπών τιμών (NA-missing values), όπου κάθε γραμμή θα πρέπει να έχει το λιγότερο μια τιμή διαφορετική από NA. Ενας άλλος περιορισμός είναι ότι καμία μεταβλητή δεν μπορεί να έχει περισσότερες από τις μισές τιμές ΝΑ. Επίσης θα πρέπει να υπάρχει τουλάχιστον μια μεταβλητή η οποία δεν πρέπει να έχει ΝΑ τιμές. Τέλος η ανάλυση δεν επιτρέπει μια μεταβλητή να έχει όλες τις μη-ελλιπείς τιμές ίσες μεταξύ τους. Στην συνέχεια θα εξετάσουμε την παρουσίαση των αποτελεσμάτων μιας Monothetic Analysis, όπου υπεύθυνη είναι η εντολή mona. Σε αντίθεση με τις προηγούμενες μεθόδους οι οποίες μπορούν να δεχτούν εκτός από το πίνακα των στοιχείων και τον πίνακα των αποστάσεων τους, η μέθοδος mona επεξεργάζεται πίνακες δεδομένων με δίτιμες μεταβλητές. Για κάθε διαμέριση, η μέθοδος χρησιμοποιεί μια μόνο μεταβλητή σε κάθε βήμα και από εκεί προέρχεται και το όνομα της (Monothetic). Ο αλγόριθμος mona ξεκινάει από μια μεγάλη ομάδα και σε κάθε βήμα, μια διαθέσιμη ομάδα διαιρείται σύμφωνα με μια μόνο μεταβλητή.

18 Η ομάδα αυτή διασπάται σε δυο υποομάδες, μια όπου όλα τα στοιχεία της έχουν την τιμή 1 για την συγκεκριμένη μεταβλητή και μια άλλη όπου τα στοιχεία της έχουν την τιμή 0. Στα αποτελέσματα πρώτα εμφανίζεται ένας διορθωμένος πίνακας Revised data με τα δεδομένα μας όπου όλα είναι κωδικοποιημένα στις τιμές 0, 1 και έχουν αντικατασταθεί όλες οι ελλιπείς τιμές. Στη συνέχεια υπάρχει ένα διάνυσμα order, όπου είναι μια παραλλαγή της σειράς των αρχικών στοιχείων, με σκοπό να επιτρέπεται η σωστή σχεδίαση της ομαδοποίησης. Ένα άλλο διάνυσμα που υπάρχει στα αποτελέσματα είναι το variable όπου έχει n-1 στοιχεία, με n συμβολίζεται ο αριθμός των παρατηρήσεων του συνόλου δεδομένων και καθορίζει τις μεταβλητές που χρησιμοποιούνται στον διαχωρισμό των παρατηρήσεων. Τέλος μας δίνεται η πληροφορία από το διάνυσμα separation step (το οποιο έχει μήκος n-1) των βημάτων όπου συμβαίνει ο διαχωρισμός των παρατηρήσεων. Μια ακόμη σημαντική λειτουργία της Monothetic Analysis είναι η δημιουργία γραφήματος banner plot. Κλείνοντας αξίζει να αναφέρουμε ότι μέσω του S-plus υπάρχει η δυνατότητα πίνακα αποστάσεων(dissimilarity matrix) για ένα σύνολο δεδομένων. Επίσης υπάρχει η δυνατότητα, να υλοποιήσουμε κα ποιους αλγόριθμους ιεραρχικής ομαδοποίησης ακόμα και αν δεν διαθέτουμε τα αρχικά δεδομένα αλλά κάποιος μας έχει εφοδιάσει απλώς μα τον πίνακα αποστάσεων των ατόμων που θέλουμε να ομαδοποιήσουμε.