ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Σχετικά έγγραφα
Ανάλυση κατά Συστάδες. Cluster analysis

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

ΤΕΙ ΠΕΙΡΑΙΑ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΜΕ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

Περιγραφή των εργαλείων ρουτινών του στατιστικού

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

Στατιστικό κριτήριο χ 2

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Μάθηµα 1. Κεφάλαιο 1o: Συστήµατα. γ R παριστάνει ευθεία και καλείται γραµµική εξίσωση µε δύο αγνώστους.

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

ειγµατοληπτική κατανοµή

οµή δικτύου ΣΧΗΜΑ 8.1

Η βιτρίνα των καταστημάτων ως εργαλείο δημοσίων σχέσεων. Ονοματεπώνυμο: Ειρήνη Πορτάλιου Σειρά: 8 η Επιβλέπουσα: Αν. Καθηγήτρια : Βεντούρα Ζωή

1991 US Social Survey.sav

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Απλή Ευθύγραµµη Συµµεταβολή

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

Κεφάλαιο 15. Παραγοντική ανάλυση διακύµανσης. Παραγοντική

ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

Μη Παραµετρικά Κριτήρια. Παραµετρικά Κριτήρια

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

ΣΤΟΧΟΙ ΤΗΣ ΕΝΟΤΗΤΑΣ ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΜΗ ΠΑΡΑΜΕΤΡΙΚΩΝ ΕΛΕΓΧΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Κεφάλαιο 16. Σύγκριση συχνοτήτων κατηγοριών: το στατιστικό κριτήριο χ 2. Προϋποθέσεις για τη χρήση του τεστ. ιαφορές ή συσχέτιση.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

Έρευνα Μάρκετινγκ Ενότητα 5

Μάθηµα εύτερο-τρίτο- Βασικά Ζητήµατα στο Απλό Γραµµικό Υπόδειγµα Ακαδηµαϊκό Έτος

ΚΕΦΑΛΑΙΟ 7 ΑΝΑΛΥΣΗ ΣΕ ΟΜΑ ΕΣ (CLUSTER ANALYSIS) ΤΩΝ ΠΡΟΤΙΜΗΣΕΩΝ ΤΩΝ ΥΠΟΨΗΦΙΩΝ

11 Το ολοκλήρωµα Riemann

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

ΠΑΝΕΠΙΣΤΗΜΙΟ+ΠΑΤΡΩΝ+ Τμήμα+Διοίκησης+Επιχειρήσεων+

Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

/5

Κεφάλαιο 5. Οι δείκτες διασποράς

Περιγραφική Στατιστική

Προσεγγιστικοί αλγόριθµοι για οµαδοποίηση στοιχείων από συγκρίσεις

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Σύνθετα μέτρα στην ποσοτική έρευνα: Δείκτες, κλίμακες και διαστάσεις

ΕΛΕΓΧΟΙ ΠΡΟΣΑΡΜΟΓΗΣ & ΥΠΟΘΕΣΕΩΝ

Μέρος στατιστικής ανάλυσης (πολλά κεφάλαια λείπουν) Ανάλυση αξιοπιστίας της κλίµακας PCRS

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

2.3. Ασκήσεις σχ. βιβλίου σελίδας Α ΟΜΑ ΑΣ

Ανάπτυξη Εφαρµογών σε Προγραµµατιστικό Περιβάλλον

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Γενικές Παρατηρήσεις για τις Εργαστηριακές Ασκήσεις Φυσικοχηµείας

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΣΥΓΚΡΙΤΙΚΗ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΣΤΑΣΗΣ ΜΑΘΗΤΩΝ ΕΝΑΝΤΙ ΤΗΣ Ι ΑΣΚΑΛΙΑΣ ΜΑΘΗΜΑΤΟΣ ΙΣΤΟΡΙΑΣ ΜΕ Η ΧΩΡΙΣ ΕΚΠΑΙ ΕΥΤΙΚΟ ΛΟΓΙΣΜΙΚΟ

Περιβαλλοντική Στατιστική

ΤΕΣΤ ΣΤΑΤΙΣΤΙΚΗΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΩΡΓΙΚΟΥ ΠΕΙΡΑΜΑΤΙΣΜΟΥ. Τεστ 1 ο Κατανοµή Συχνοτήτων (50 βαθµοί)

Δείγμα πριν τις διορθώσεις

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Ιωάννης Τσαούσης, Πανεπιστήμιο Κρήτης Τμήμα Ψυχολογίας

τατιστική στην Εκπαίδευση II

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕ ΙΑΣΜΟΥ & xcvbnmσγqwφertyuioσδφpγρaηsόρ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ωυdfghjργklαzxcvbnβφδγωmζqwert ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ

Επαναληπτικές δοµές. µτ α.τ. Όχι. ! απαγορεύεται µέσα σε µία ΓΙΑ να µεταβάλλουµε τον µετρητή! διότι δεν θα ξέρουµε µετά πόσες επαναλήψεις θα γίνουν

ιαµέριση - Partitioning

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Εισαγωγή στην Ανάλυση Δεδομένων

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

4.3. Γραµµικοί ταξινοµητές

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

Μάθηµα 14. Κεφάλαιο: Στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

Transcript:

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΤΑΞΙΝΟΜΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΣΕ ΟΜΑ ΕΣ ΜΕ CLUSTER ANALYSIS ΜΕ ΒΑΣΗ ΤΟ ΨΥΧΟΛΟΓΙΚΟ ΤΟΥΣ ΠΡΟΦΙΛ ΜΑΡΙΑ ΙΩΑΝ. ΚΟΥΚΟΥΣΗ ΕΡΓΑΣΙΑ Που υποβλήθηκε στο Τµήµα Στατιστικής του Οικονοµικού Πανεπιστηµίου ΑΘηνών ως µέρος των απαιτήσεων για την απόκτηση Μεταπτυχιακού ιπλώµατος Συµπληρωµατικής Ειδίκευσης στη Στατιστική Μερικής Παρακολούθησης (Part-time) Αθήνα εκέµβριος 2011

ΕΥΧΑΡΙΣΤΙΕΣ Η παρούσα εργασία αποτελεί τη ιπλωµατική µου Εργασία στα πλαίσια των σπουδών µου στο τµήµα Στατιστικής του Οικονοµικού Πανεπιστηµίου Αθηνών υπό την επίβλεψη του καθηγητή Ψαράκη Στέλιου, στον οποίο οφείλω ιδιαίτερες ευχαριστίες τόσο για την επίβλεψη της εργασίας όσο και για τη γενικότερη συµβολή του στη µελλοντική µου επαγγελµατική σταδιοδροµία. Ι

ΙI

ΒΙΟΓΡΑΦΙΚΟ ΣΗΜΕΙΩΜΑ Αποφοίτησα από το Οικονοµικό Πανεπιστήµιο Αθηνών το 2008 όπου και ολοκλήρωσα τις προπτυχιακές σπουδές µου στο τµήµα Στατιστικής και στη συνέχεια απορροφήθηκα άµεσα από την αγορά εργασίας ως Στατιστικός. Για περαιτέρω εξειδίκευση, και αφότου είχα ολοκληρώσει στο µεσοδιάστηµα και σπουδές στην Αγγλική γλώσσα αποκτώντας δίπλωµα Proficiency, προχώρησα σε µεταπτυχιακές σπουδές στο πρόγραµµα «Ποσοτικές Μέθοδοι στη Λήψη Αποφάσεων» του τµήµατος Στατιστικής του Οικονοµικού Πανεπιστηµίου Αθηνών από το 2009 ως το 2011. ΙII

ΙV

ABSTRACT Maria Koukousi SORT BY CONSUMER GROUPS WITH THE USE OF CLUSTER ANALYSIS, BASED ON THEIR SYCHOLOGICAL PROFILE December 2011 In this paper we use the analysis in groups (cluster analysis), to investigate the existence of clusters of consumers in relation to their preferences based on questions that reflect their psychological profile. Cluster analysis is being used extensively in market research, where there is a need for grading and classification of study subjects in groups to explore their characteristics and based on them to make the appropriate promotions V

ΠΕΡΙΛΗΨΗ ΜΑΡΙΑ ΚΟΥΚΟΥΣΗ ΤΑΞΙΝΟΜΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΣΕ ΟΜΑ ΕΣ ΜΕ CLUSTER ANALYSIS ΜΕ ΒΑΣΗ ΤΟ ΨΥΧΟΛΟΓΙΚΟ ΤΟΥΣ ΠΡΟΦΙΛ εκέµβριος 2011 Στην εργασία αυτή χρησιµοποιούµε την ανάλυση σε οµάδες (cluster analysis), για τη διερεύνηση της ύπαρξης οµαδοποιήσεων καταναλωτών σε σχέση µε τις προτιµήσεις τους βάση ερωτήσεων που αποτυπώνουν το ψυχολογικό τους προφίλ. Η ανάλυση σε οµάδες χρησιµοποιείται εκτεταµένα στην έρευνα αγοράς, όπου υπάρχει ανάγκη ταξινόµησης και κατάταξης των υποκειµένων µελέτης σε οµάδες έτσι ώστε να εξερευνηθούν τα χαρακτηριστικά τους και µε βάση αυτά να γίνουν οι κατάλληλες προωθητικές ενέργειες VII

VIII

ΚΑΤΑΛΟΓΟΣ ΠΕΡΙΕΧΟΜΕΝΩΝ Σελίδα ΚΕΦΑΛΑΙΟ 1 1 Εισαγωγή 1 Τι είναι ανάλυση κατά συστάδες 1 Cluster analysis στην έρευνα αγοράς 1 ΚΕΦΑΛΑΙΟ 2 5 Μεταβλητές και διαδικασία επιλογής µέτρησής τους 5 Προσδιορισµός του τρόπου µέτρησης και φύσης παρατηρήσεων 5 Μέτρηση απόστασης ή οµοιότητας των τιµών 6 Τυποποίηση των τιµών 6 Μέθοδοι ανάλυσης σε συστάδες 6 Ιεραρχικές µέθοδοι 6 K-Means 6 Στατιστικές µέθοδοι 6 Βήµατα διεξαγωγής Cluster Analysis 7 Επιλογή µεταβλητών 7 ΚΕΦΑΛΑΙΟ 3 11 Αναλυτική αναφορά µεθόδων ανάλυσης σε συστάδες 11 Ιεραρχική ανάλυση 11 Κριτήρια µεθόδων διεξαγωγής ιεραρχικής ανάλυσης 11 Κριτήριο εγγύτερου γείτονα (nearest neighbor) 11 Κριτήριο απώτερου γείτονα (farthest neighbor) 12 Κριτήριο µέσου δεσµού 12 Weird s method 12 k-means clustering 12 ΚΕΦΑΛΑΙΟ 4 13 Η Cluster Analysis σε SPSS 13 Ιεραρχική µέθοδος 13 Ανάλυση συσχετίσεων 13 ενδρόγραµµα 17 Agglomeration Schedule 18 k-means cluster analysis 19 IX

X

(Συνέχεια) ΚΕΦΑΛΑΙΟ 5 25 Σύνοψη Συµπεράσµατα 25 Ερµηνεία των clusters 25 Σύνοψη ανάλυσης Εναλλακτικές µέθοδοι 26 Εναλλακτικές µέθοδοι επίλυσης του προβλήµατος και συγκριτική 26 παρουσίαση µεθόδων κατηγοριοποίησης Σύγκριση Cluster - Factor analysis 28 ΚΑΤΑΛΟΓΟΣ ΓΡΑΦΗΜΑΤΩΝ-ΠΙΝΑΚΩΝ 31 REFERENCES 69 XI

XII

ΚΕΦΑΛΑΙΟ 1 Εισαγωγή Τι είναι ανάλυση κατά συστάδες Η Μέθοδος της Ανάλυσης Συστάδων αποτελεί µια στατιστική διαδικασία πολλών µεταβλητών, η οποία ξεκινώντας από ένα σύνολο δεδοµένων, επιχειρεί να το οργανώσει σε οµάδες οµοειδών στοιχείων που ονοµάζουµε συστάδες (clusters). Οι οµάδες αυτές δεν είναι εκ των προτέρων γνωστές αλλά προκύπτουν δυναµικά. Αντίθετα σε µια διαδικασία ταξινόµησης ή επιβλεπόµενης µάθησης (supervised learning), οι κλάσεις/ κατηγορίες στις οποίες αντιστοιχίζονται τα δεδοµένα, είναι εκ των προτέρων γνωστές και αποτελούν είσοδο στην αντίστοιχη µέθοδο. Οι περισσότερες εφαρµογές οµαδοποίησης δεδοµένων αφορούν: 1. την ανάπτυξη µιας τυπολογίας ταξινόµησης, 2. τη διερεύνηση σχηµάτων για την οµαδοποίηση οντοτήτων, 3. την παραγωγή υποθέσεων από ανάλυση των δεδοµένων και αναπαράσταση των δεδοµένων, 4. την επαλήθευση υποθέσεων σε ένα σύνολο δεδοµένων. Σε αρκετές περιπτώσεις µια διαδικασία οµαδοποίησης δεδοµένων µπορεί να χρησιµοποιείται τόσο για την παραγωγή υποθέσεων όσο και την επαλήθευσή τους. Ανεξάρτητα όµως από το στόχο της διαδικασίας οµαδοποίησης δεδοµένων, υπάρχουν πέντε βασικά βήµατα τα οποία και ακολουθούνται: 1. επιλογή του δείγµατος από το σύνολο δεδοµένων για οµαδοποίηση (sample selection), 2. καθορισµός των µετρούµενων µεταβλητών βάσει των οποίων θα συγκριθούν τα προς ανάλυση δεδοµένα (feature extraction and/or selection), 3. καθορισµός µιας µετρικής οµοιότητας (similarity measure) και µέτρηση των οµοιοτήτων (ή διαφορών) των δεδοµένων, 1

4. χρήση µεθόδων κατηγοριοποίησης για τη δηµιουργία συστάδων (data clustering or grouping), 5. αξιολόγηση και επαλήθευση των αποτελεσµάτων (assessment of cluster validity). Μια σχηµατική αναπαράσταση των παραπάνω βηµάτων φαίνεται στο ακόλουθο σχήµα. Όπως παρατηρούµε τα αποτελέσµατα µιας διαδικασίας οµαδοποίησης µπορούν να ανατροφοδοτούνται ως είσοδος προκειµένου να βελτιώσουµε τη διαδικασία. Η ακολουθία αυτών των βηµάτων θα αποτελέσει και τον τρόπο µε τον οποίο θα αναφερθούµε στις µεθόδους οµαδοποίησης. Η ανάλυση κατά συστάδες σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις, χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες µεταβλητές. Ο καθορισµός και η επιλογή του συνόλου των µεταβλητών που περιγράφουν τα δεδοµένα αποτελεί κρίσιµο βήµα στη διαδικασία κατηγοριοποίησης αφού σε µεγάλο βαθµό επηρεάζει την αναπαράσταση των δεδοµένων και τα παραγόµενα αποτελέσµατα, δηλαδή τις συστάδες δεδοµένων που διαµορφώνονται, αλλά και το υπολογιστικό κόστος για την κατηγοριοποίηση. Με άλλα λόγια αυτή η µέθοδος εξετάζει πόσο όµοιες είναι κάποιες παρατηρήσεις ως προς κάποιον αριθµό µεταβλητών µε σκοπό να δηµιουργήσει οµάδες από παρατηρήσεις που µοιάζουν µεταξύ τους. 2

Μια επιτυχηµένη ανάλυση θα πρέπει να καταλήξει σε οµάδες (clusters) για τις οποίες οι παρατηρήσεις µέσα σε κάθε οµάδα να είναι όσο γίνεται πιο οµοιογενείς, αλλά παρατηρήσεις διαφορετικών οµάδων να διαφέρουν όσο γίνεται περισσότερο. Cluster analysis στην έρευνα αγοράς Market segmentation. π.χ. οµαδοποιήσεις καταναλωτών σύµφωνα µε τις προτιµήσεις τους Κατανόηση της συµπεριφοράς των καταναλωτών. Καταναλωτές µε παρόµοια συµπεριφορά και χαρακτηριστικά οµαδοποιούνται Προσδιορισµός ευκαιριών νέων προϊόντων. Η οµαδοποίηση παρόµοιων προϊόντων µπορεί να βοηθήσει στον προσδιορισµό των ανταγωνιστών και των ευκαιριών αγοράς Μείωση του χρόνου π.χ. στη χαρτογράφηση προτίµησης Η οµαδοποίηση όµοιων πελατών και προϊόντων, είναι µια βασική δραστηριότητα του Μάρκετινγκ που χρησιµοποιείται, ευκρινώς, σε κατακερµατισµό της αγοράς. Καθώς οι εταιρείες δεν µπορούν να συνδεθούν µε όλους τους πελάτες τους, πρέπει να χωρίσουν τις αγορές σε οµάδες καταναλωτών(που ονοµάζονται τµήµατα), µε παρόµοιες ανάγκες και επιθυµίες. Οι επιχειρήσεις µπορούν στη συνέχεια να στοχεύσουν σε κάθε ένα από αυτά τα τµήµατα σύµφωνα µε τη θέση τους σε µια µοναδική κατηγορία (όπως Ferrari στη high-end αγορά σπορ αυτοκινήτων). Η τµηµατοποίηση των πελατών είναι µια πάγια εφαρµογή της cluster analysis Πιο συγκεκριµένα, δύο βασικές έννοιες για την ανάλυση κατά οµάδες, αλλά όχι µόνο, είναι οι έννοιες της απόστασης και της οµοιότητας. Μπορούµε εύκολα να διαπιστώσουµε ότι αυτές οι δύο έννοιες είναι αντίθετες µεταξύ τους, αφού παρατηρήσεις που είναι όµοιες θα έχουν µεγάλη οµοιότητα και µικρή απόσταση. Το συµπέρασµα είναι ότι στην ανάλυση κατά συστάδες σκοπός µας είναι να δηµιουργήσουµε οµάδες µέσα στις οποίες οι παρατηρήσεις απέχουν λίγο, ενώ παρατηρήσεις διαφορετικών οµάδων απέχουν µεταξύ τους αρκετά. 3

4

ΚΕΦΑΛΑΙΟ 2 Μεταβλητές και διαδικασία επιλογής µέτρησής τους Προσδιορισµός του τρόπου µέτρησης και φύσης παρατηρήσεων Μέτρηση απόστασης ή οµοιότητας των τιµών Ο προσδιορισµός του τρόπου µέτρησης της απόστασης µεταξύ των τιµών των παρατηρήσεων, καθώς και τα κατάλληλα κριτήρια οµοιότητας µε βάση τα οποία θα γίνει ο συνδυασµός των παρατηρήσεων σε συστάδες είναι αναγκαίος, κι αυτό γιατί στην σε συστάδες οι έννοιες του µέτρου της απόστασης και της οµοιότητας γίνεται µε βάση την προσεγγισιµότητα τους. Η επιλογή µεταξύ των µέτρων πρέπει να βασίζεται στο κριτήριο εκείνο που οι διαφορές ή οι οµοιότητες στα δεδοµένα είναι ουσιαστικής σηµασίας για τη δεδοµένη εφαρµογή της µεθόδου της ανάλυσης σε συστάδες. Τα µέτρα απόστασης διαφοροποιούνται ανάλογα µε το είδος των µεταβλητών που χρησιµοποιούνται. Για συνεχείς µεταβλητές: η «Ευκλείδεια απόσταση» Μέτρο απόστασης είναι και ο συντελεστής συσχέτισης του Pearson µεταξύ των τιµών των παρατηρήσεων, που ανάλυση δίνεται από τη σχέση: Στο παράδειγµά µας παρακάτω θα χρησιµοποίησουµε το συντελεστή συσχέτισης Pearson, εφόσον οι µεταβλητές που θα χρησιµοποιήσουµε είναι µεταβλητές κλίµακας. 5

Τυποποίηση των τιµών Ακόµη κι αν υπολογιστούν τα παραπάνω µέτρα, πρέπει να αποφασιστεί αν οι µεταβλητές χρειάζεται να επανακλιµακωθούν. Γιατι, εάν οι µεταβλητές έχουν διάφορες κλίµακες µέτρησης και δεν τυποποιηθούν εξ αρχής ή δεν επανακλιµακωθούν, οποιοδήποτε µέτρο απόστασης θα αντανακλά πρωταρχικά τη συµβολή εκείνων των µεταβλητών που θα έχουν µετρηθεί µε µεγάλες µονάδες µέτρησης. Εξαιτίας του λόγου αυτού, είναι δυνατόν να υπολογιστούν µε βάση τα µετασχηµατισµένα δεδοµένα, διαφορετικά µέτρα απόστασης και οµοιότητας, τα οποία και σταθµίζουν κατά τρόπο διαφορετικό τα χαρακτηριστικά. Στο δικό µας παράδειγµα, οι µεταβλητές έχουν την ίδια κλίµακα µέτρησης οπότε και δε θα χρειαστεί µετασχηµατισµός των δεδοµένων. Μέθοδοι ανάλυσης σε συστάδες Στην ανάλυση κατά συστάδες υπάρχουν 2 διαφορετικές προσεγγίσεις µε τις οποίες και θα ασχοληθούµε στο παράδειγµά µας. Οι 2 αυτές προσεγγίσεις είναι Ιεραρχικές µέθοδοι: Ξεκινάµε µε κάθε παρατήρηση να είναι από µόνη της µια οµάδα. Σε κάθε βήµα ενώνουµε τις 2 παρατηρήσεις που έχουν πιο µικρή απόσταση. Αν 2 παρατηρήσεις έχουν ενωθεί σε προηγούµενο βήµα ενώνουµε µια προϋπάρχουσα οµάδα µε µια παρατήρηση µέχρι να φτιάξουµε µια οµάδα. Κοιτώντας τα αποτελέσµατα διαλέγουµε στις πόσες οµάδες θα σταµατήσουµε. K-Means. Ο αριθµός των οµάδων είναι γνωστός από πριν. Με έναν επαναληπτικό αλγόριθµο µοιράζουµε τις παρατηρήσεις στις οµάδες ανάλογα µε το ποία οµάδα είναι πιο κοντά στην παρατήρηση. k-means clustering Στατιστικές µέθοδοι: Και οι δύο µέθοδοι που είπαµε στηρίζονται καθαρά σε αλγοριθµικές λύσεις και δεν προϋποθέτουν κάποιο µοντέλο. Υπάρχουν αρκετές µέθοδοι στατιστικές 6

όπου ξεκινώντας από κάποιες υποθέσεις κατατάσσουµε τις παρατηρήσεις. υστυχώς αυτές οι µέθοδοι έχουν αρκετά υπολογιστικά προβλήµατα και για αυτό δεν προσφέρονται από πολλά στατιστικά πακέτα που χρησιµοποιούνται στην πράξη. Σε οποιαδήποτε µέθοδο θα πρέπει να τονιστεί ότι δυστυχώς υπάρχουν πολλά σηµεία στα οποία ο ερευνητής µπορεί να λειτουργήσει υποκειµενικά, µε αποτέλεσµα από τα ίδια δεδοµένα να εξαχθούν ακόµα και αντικρουόµενα αποτελέσµατα. Από την άλλη µια γενική αλήθεια είναι πως όταν στα δεδοµένα υπάρχουν πραγµατικά οµοιογενείς οµάδες τότε οποιαδήποτε µέθοδος θα καταφέρει να τις αναγνωρίσει. Εποµένως οι αντιφατικές λύσεις είναι µάλλον µια ένδειξη ότι δεν υπάρχει η κατάλληλη δοµή στα δεδοµένα µου, δηλαδή δεν υπάρχουν οµοιογενείς οµάδες. Βήµατα διεξαγωγής Cluster Analysis 1. Επιλέγω µέθοδο µέτρησης της απόστασης 2. Επιλέγω τον αλγόριθµο οµαδοποίησης που θα χρησιµοποιήσω 3. Αποφασίζω τον αριθµό των οµάδων (clusters) 4. ιεξάγω την ανάλυση Επιλογή µεταβλητών Το είδος του κριτηρίου ταξινόµησης, συνεπώς και η οµαδοποίηση των παρατηρήσεων, εξαρτώνται ουσιαστικά από τις µεταβλητές που θα χρησιµοποιηθούν. Αυτό υποχρεώνει τον ερευνητή να επιλέξει επιτυχώς τις µεταβλητές οι οποίες και θα καθορίσουν την αξία της οµαδοποίησης των παρατηρήσεων ως προς το συγκεκριµένο πρόβληµα, πολύ περισσότερο µάλιστα που η αρχική επιλογή των µεταβλητών είναι αυτή που καθορίζει τα χαρακτηριστικά για την αναγνώριση υποοµάδων. 7

Εάν αντιθέτως αποκλεισθούν σηµαντικές µεταβλητές είναι προφανές ότι τα αποτελέσµατα θα είναι φτωχά, αν όχι παραπλανητικά. Η µελέτη που θα ακολουθήσει έχει στηριχτεί σε στοιχεία από έρευνα σε κατάστηµα ετοιµασίας και πώλησης γρήγορου φαγητού. 1000 ερωτώµενοι απάντησαν σε ερωτηµατολόγιο που αφορά τις προτιµήσεις τους σε γρήγορο φαγητό, τους τόπους συνεστίασης και τη γενικότερη συµπεριφορά τους ως καταναλωτές του συγκεκριµένου είδους φαγητού. Ξεχωρίσαµε τις απαντήσεις σε 3 ερωτήσεις µέσα από τις οποίες θα κατατάξουµε τους καταναλωτές σε οµάδες, µέσα από µια ψυχολογική διερεύνηση, µε βάση τις βαρύτητα που δίνουν σε κάποιες αξίες της ζωής τους. Οι ερωτήσεις των οποίων και τα ευρήµατα θα χρησιµοποιήσουµε στην έρευνα, είναι οι εξής: 1. Κάποια πράγµατα στη ζωή µας εµπνέουν περισσότερο και κάποια λιγότερο. ώστε µου παρακαλώ ένα βαθµό 1..10, για να µου πείτε κατά πόσο η κάθε αξία που θα σας διαβάσω σας περιγράφει στη ζωή σας. Το 1=δεν την περιγράφει καθόλου και 10=την περιγράφει απόλυτα VALUES 1..10 ACH Κατορθώνω µε όποιο κόστος, µε θαυµάζουν 410 SDR Τολµάω πρώτος και διαφωνώ όσο χρειαστεί 412 UNIV Θυσία για το όλο, γνωστούς και αγνώστους 414 SEC Ασφαλείς επιλογές, περιορισµένη ελευθερία 416 TRAD Οι συνήθειες που έχω κληρονοµήσει από οικογένεια, 418 θρησκεία κλπ HED Απόλαυση των αισθήσεων µου, πάνω απ όλα 420 PWR Επιβάλλω τις αποφάσεις µου, οι άλλοι τις ακολουθούν 422 CONF Οι κανόνες του συνόλου πάνω από µένα 424 STIM Συναρπαστική ζωή, µε ρίσκο 426 BNV Θυσία για τους δικούς µου ανθρώπους 428 8

2. Τώρα θα ήθελα να σκεφθείτε το φαγητό και τις επιλογές που κάνετε σε φαγητό που ετοιµάζεται εκτός σπιτιού. Πόσο εµπνέει η κάθε φράση τις προτεραιότητες σας, όταν επιλέγετε φαγητό εκτός σπιτιού; ώστε µου παρακαλώ ένα βαθµό 1..10, όπου 1=δεν εµπνέει καθόλου τις προτεραιότητες µου και 10=τις εµπνέει απόλυτα 1..10 ACH Να βρίσκω το απόλυτα κατάλληλο, οι άλλοι να µε θαυµάζουν 430 SDR Κάτι ψαγµένο, που θα δυσκολευτώ να πείσω την παρέα 432 UNIV Σηµείο συνάντησης για κάθε ηλικία, εθνικότητα 434 SEC Εγγύηση ποιότητας, αποδεδειγµένα καλό, γνωστό 436 TRAD Σταθερή συνήθεια από χρόνια 438 HED Απόλαυση των αισθήσεων 440 PWR Απαιτητική επιλογή σε χρήµατα, για λίγους, όχι για τον 442 καθένα CONF Να είναι όπως πρέπει, να µη µε εκθέτει στα µάτια των άλλων 444 STIM Τόλµη και γευστικό ρίσκο 446 BNV Κάτι που αποδέχονται όλοι στην παρέα, όχι απαραίτητα το αγαπηµένο µου 448 9

3. Τώρα θα ήθελα να φανταστείτε έναν άνθρωπο στην ίδια ηλικία µε εσάς, που συνηθίζει να τρώει από Fast Food. Θα σας διαβάσω διάφορες προτάσεις, και θα ήθελα να µου πείτε κατά πόσο πιστεύετε ότι τον περιγράφουν. ώστε µου ένα βαθµό από το 1 έως το 10, όπου 1=δεν τον περιγράφει καθόλου και 10=τον περιγράφουν απόλυτα ΙΑΒΑΣΕ ΕΡΕΥΝΗΤΗ ΤΟΝΙΣΕ: ΣΤΗΝ Ι ΙΑ ΗΛΙΚΙΑ ΜΕ ΕΣΑΣ VALUES 1..10 ACH Κατορθώνει αυτό του θέλει µε όποιο κόστος, τον/την 620 θαυµάζουν SDR Τολµάει πρώτος και διαφωνεί όσο χρειαστεί 622 UNIV Κάνει θυσίες για το όλο, γνωστούς και αγνώστους 624 SEC Κάνει ασφαλείς επιλογές, µε περιορισµένη ελευθερία 626 TRAD Έχει συνήθειες που έχει κληρονοµήσει από οικογένεια, 628 θρησκεία κλπ HED Νοιάζεται για την απόλαυση των αισθήσεων 630 PWR Επιβάλλει τις αποφάσεις του/της, οι άλλοι τις 632 ακολουθούν CONF Οι κανόνες πάνω απ όλα στη ζωή του 634 STIM Ζει µια συναρπαστική ζωή, µε ρίσκο 636 BNV Κάνει θυσίες για τους δικούς του ανθρώπους 638 Με βάση τις απαντήσεις τους στις κλίµακες αυτές, θα καταφέρουµε να ταξινοµήσουµε τους καταναλωτές σε οµάδες µε βάση το ψυχολογικό τους προφίλ. Όταν µια επιχείρηση γνωρίζει τις οµάδες των καταναλωτών και τα κριτήρια µε τα οποία επιλέγουν και πώς αυτές συµπεριφέρονται προς την επιχείρηση, τότε µπορεί και να προωθηθεί καλύτερα στις επιµέρους οµάδες, προσπαθώντας να ικανοποιήσει τις ανάγκες τους σύµφωνα µε τον τρόπο µε τον οποίον βλέπουν την επιχείρηση. 10

ΚΕΦΑΛΑΙΟ 3 Αναλυτική αναφορά µεθόδων ανάλυσης σε συστάδες Ιεραρχική ανάλυση Η πιο συνηθισµένη µέθοδος σχηµατισµού των οµάδων είναι η ιεραρχική ανάλυση, η οποία χρησιµοποιεί δύο τεχνικές, τη συσσωρευτική ανάλυση σε οµάδες ή την επιµεριστική ανάλυση σε οµάδες. Στη συσσωρευτική ανάλυση, οι οµάδες σχηµατίζονται µε την οµαδοποίηση των παρατηρήσεων σε όλο και µεγαλύτερες οµάδες, έως ότου όλες οι παρατηρήσεις να γίνουν µέλος µιας και µόνο οµάδας. Η επιµεριστική ανάλυση αρχίζει µε όλες τις παρατηρήσεις οµαδοποιηµένες σε µια οµάδα και τις επιµερίζει µέχρι ότου γίνουν τόσες οµάδες όσες και οι παρατηρήσεις. Η πιο συνηθισµένη µέθοδος και η πρώτη που χρησιµοποιείται και στη ανάλυσή µας Στην ιεραρχική οµαδοποίηση ο αριθµός των οµάδων δεν είναι γνωστός από πριν. Οι µέθοδοι λειτουργούν ιεραρχικά µε την έννοια ότι ξεκινούν χρησιµοποιώντας κάθε παρατήρηση σαν µια οµάδα και σε κάθε βήµα ενώνουν σε οµάδες τις παρατηρήσεις που βρίσκονται κοντά. Υπάρχουν πολλά κριτήρια που καθορίζουν ποιες παρατηρήσεις ή οµάδες πρέπει να συνδυαστούν σε κάθε στάδιο και διαφέρουν στον τρόπο µε τον οποί εκτιµούν τις αποστάσεις µεταξύ των οµάδων στα διαδοχικά στάδια. Κριτήρια µεθόδων διεξαγωγής ιεραρχικής ανάλυσης Κριτήριο εγγύτερου γείτονα (nearest neighbor) Με αυτό συνδυάζονται οι δύο πρώτες παρατηρήσεις που έχουν τη µικρότερη απόσταση µεταξύ τους. Υπολογίζεται στη συνέχεια η µικρότερη απόσταση µεταξύ µιας παρατήρησης στη νέα οµάδα και µιας άλλης εξατοµικευµένης παρατήρησης. Σε κάθε στάδιο η απόσταση µεταξύ δύο οµάδων θεωρείται η απόσταση µεταξύ των εγγύτερων σηµείων τους. 11

Κριτήριο απώτερου γείτονα (farthest neighbor) Ίδια λογική µε την προηγούµενη µε τη διαφορά ότι η απόσταση µεταξύ των οµάδων υπολογίζεται ως αυτή των µακρύτερων σηµείων τους. Κριτήριο µέσου δεσµού Ορίζει την απόσταση µεταξύ δύο οµάδων ως τη µέση τιµή των αποστάσεων µεταξύ όλων των ζευγών των παρατηρήσεων, όπου ένα µέλος ζεύγους προέρχεται από κάθε µια από τις οµάδες. Είναι γνωστό ότι στην ανάλυση σε οµάδες δεν υπάρχει δυνατότητα στατιστικών ελέγχων. Επίσης η οµαδοποίηση εξαρτάται πολλές φορές από το κριτήριο οµαδοποίησης. Τα αποτελέσµατα της ανάλυσης φαίνονται από το συσσωρευτικό σχέδιο και το δεντρόγραµµα. Weird s method Αυτή η µέθοδος είναι διαφορετική από τις άλλες µεθόδους γιατί χρησιµοποιεί µια προσέγγιση ανάλυσης διακυµάνσεων για να εκτιµήσει τις αποστάσεις µεταξύ των clusters. Γενικά η µέθοδος αυτή είναι πολύ αποτελεσµατική. Η εκτίµηση των cluster γίνεται από τον υπολογισµό του συνολικού αθροίσµατος των τετραγωνικών αποστάσεων από τον µέσο ενός cluster. Το κριτήριο για τη σύντηξη είναι ότι θα µπορούσε να παράγει τη µικρότερη αύξηση στο σφάλµα αθροίσµατος τετραγώνων. k-means clustering Η µέθοδος αυτή είναι πολύ διαφορετική από την µέθοδο, όπου εφαρµόζεται όταν δεν υπάρχει προηγούµενη γνώση του αριθµού των clusters. Η µέθοδος αυτή χρησιµοποιείται όταν υπάρχει υπόθεση για τον αριθµό των cluster όπου θα χωριστούν οι µεταβλητές και παράγει ακριβώς k διαφορετικά clusters σύµφωνα µε το µεγαλύτερο πιθανό διαχωρισµό. 12

ΚΕΦΑΛΑΙΟ 4 Η Cluster Analysis σε SPSS Ιεραρχική µέθοδος Την µέθοδο αυτή αλγοριθµικά θα µπορούσαµε να την αποτυπώσουµε: Βήµα 1: ηµιούργησε τον πίνακα αποστάσεων για όλες τις οµάδες Βήµα 2:Βρες τη µικρότερη απόσταση και ένωσε τις δύο παρατηρήσεις µε την µικρότερη απόσταση. ηλαδή δηµιουργούµε µια οµάδα µε τις παρατηρήσεις που είναι πι ο κοντά. Αν η µικρότερη απόσταση αφορά µια ήδη δηµιουργηθείσα οµάδα και µια παρατήρηση, απλώς βάζουµε αυτή τη παρατήρηση σε αυτή την οµάδα ή αν αφορά δύο οµάδες που ήδη υπάρχουν τις ενώνουµε. Βήµα 3: Αν δεν έχουν όλες οι παρατηρήσεις µπει σε µια οµάδα, πήγαινε στο βήµα 1, αλλιώς σταµάτα. Ανάλυση συσχετίσεων Πρώτα διεξάγουµε µια ανάλυση συσχετίσεων για να ελέγξουµε αν πιθανές cluster µεταβλητές είναι υψηλά συσχετισµένες. Χρησιµοποιούµαι two-tailed Pearson correlation για να µετρήσουµε τις συσχετίσεις στις πιθανές cluster µεταβλητές. 13

Μετακινούµε όλες τις πιθανές cluster µεταβλητές στο variable box Προκύπτει ο πίνακας Α. Παρατηρούµε ότι οι µεταβλητές µεταξύ τους δεν έχουν υψηλό βαθµό συσχέτισης άρα και δεν απορρίπτουµε καµία από την ανάλυσή µας. ιαφορετικά, αν είχαν πολύ υψηλό βαθµό συσχέτισης, της τάξης του 0,8 και πάνω θα σήµαινε ότι ανάµεσα στις µεταβλητές µε τη µεγάλη συσχέτιση, θα έπρεπε να βγάλουµε από το µοντέλο µας τη µία διότι δε θα µας προσέφερε περισσότερη πληροφορία στην οµαδοποίησή µας. Στη συνέχεια επιλέγουµε clusify Hierarchical Cluster και µετακινούµε όλες πλέον τις µεταβλητές µας στο Variable box όπως παρακάτω 14

Αυτό µε το οποίο πρέπει να ασχοληθούµε είναι να διαλέξουµε ποια απόσταση θα χρησιµοποιήσουµε, τι γραφήµατα θα φτιάξουµε, µε ποιο τρόπο θα υπολογίσουµε τις αποστάσεις ανάµεσα στις οµάδες. 15

Επιλέγουµε plots Το δενδρόγραµµα και το γράφηµα Icicle είναι δύο γραφήµατα που µπορούν να µας δώσουν γραφικά τη σειρά µε την οποία οι παρατηρήσεις ενώνονται για να δηµιουργήσουν οµάδες. 16

ενδρόγραµµα Οι πληροφορίες που υπάρχουν στο συσσωρευτικό σχέδιο αποτυπώνονται στο δενδρόγραµµα µε τις αποστάσεις-συντελεστές να επανακλιµακώνονται σε κλίµακα εύρους 0-25. σε αυτό οι κάθετες γραµµές δηλώνουν συνδυασµούς οµάδων παρατηρήσεων, ενώ το µήκος της κάθε γραµµής δηλώνει την απόσταση κατά την οποία οι οµάδες συνδυάζονται. ιαφορετική οµάδα σχηµατίζεται όταν εµφανίζεται κενό στο δενδρόγραµµα και η απόσταση είναι µικρότερη ή ίση µιας τιµής «κατωφλίου» όπως ονοµάζεται. Επιλέγουµε το κριτήριο weird s και ευκλείδεια απόσταση µέτρησης. 17

Agglomeration Schedule Με την επιλογή Proximity Matrix εµφανίζουµε τον πίνακα των αποστάσεων όλων των παρατηρήσεων, ενώ µε την επιλογή Agglomeration Schedule εµφανίζονται κάποιες ποσότητες που έιναι χρήσιµες για να βρούµε τον αριθµό των οµάδων που θα κρατήσουµε. βλ. Πίνακα Β σε appendix Τα αποτελέσµατα ξεκινούν µε ένα agglomeration schedule όπου παρέχει µία λύση για κάθε πιθανό αριθµό cluster των cases που έχουµε. Η στήλη που πρέπει να επικεντρώσουµε είναι αυτή των coefficients. ιαβάζοντας το σχήµα από κάτω προς τα πάνω, δείχνει ότι για ένα cluster έχουµε agglomeration coefficient 128997,489, για δύο clusters 112411,355, για τρία clusters 105365,757 κλπ. Η τελευταία στήλη «Change» µας δίνει τη δυνατότητα να αποφασίσουµε τον αριθµό των cluster. Στο παράδειγµά µας µπορούµε µετριοπαθώς να διακρίνουµε 4 Clusters. Μετά αρχίσουν και µειώνονται περισσότερο οι διαφορές των coefficient. Tο δενδρόγραµµα υποστηρίζει τα αποτελέσµατα του agglomeration schedule βλ. Πίνακα C, appendix 18

k-means cluster analysis Στη συνέχεια διεξάγουµε k-means cluster analysis για να δούµε σε ποιο cluster κατηγοριοποιούνται αναλυτικά τα δεδοµένα όπου θα µας βοηθήσει να ερµηνεύσουµε τα αποτελέσµατά µας σχετικά µε τα χαρακτηριστικά των οµάδων που δηµιουργήθηκαν. Η µέθοδος δουλεύει επαναληπτικά. Χρησιµοποιεί την έννοια του κέντρου (centroid) της οµάδας και στη συνέχεια κατατάσσει τις παρατηρήσεις ανάλογα µε την απόστασή τους από τα κέντρα όλων των οµάδων. Το κέντρο κάθε οµάδας δεν είναι τίποτε άλλο από τη µέση τιµή για κάθε µεταβλητή όλων των παρατηρήσεων της οµάδας, δηλαδή αντιστοιχεί στο διάνυσµα των µέσων. Στη συνέχεια για κάθε παρατήρηση υπολογίζουµε την ευκλείδεια απόστασή της από τα κέντρα των οµάδων που έχουµε και κατατάσσουµε κάθε παρατήρηση στην οµάδα που είναι πιο κοντά. Αφού κατατάξουµε όλες τις παρατηρήσει, τότε υπολογίζουµε από την αρχή τα κέντρα, απλώς ως διάνυσµα των µέσων για τις παρατηρήσεις που ανήκουν στην κάθε οµάδα. Η διαδικασία επαναλαµβάνεται µέχρις ότου δεν υπάρχουν διαφορές σε δύο διαδοχικές επαναλήψεις. Η παραπάνω διαδικασία αλγοριθµικά αποτυπώνεται ως: Βήµα 1 ο : Βρες τα αρχικά κέντρα Βήµα 2 ο : Κατάταξε κάθε παρατήρηση στην οµάδα της οποίας το κέντρο κέντρο έχει τη µικρότερη απόσταση από την παρατήρηση. Βήµα 3 ο : Αν νέα κέντρα δε διαφέρουν από τα παλιά σταµάτα αλλιώς πήγαινε στο βήµα 2. Ο αλγόριθµος ελαχιστοποιεί το άθροισµα των τετραγωνικών αποστάσεων των παρατηρήσεων από τα κέντρα των οµάδων που ανήκουν. Συνήθως η λύση περιέχει οµάδες µε περίπου όµοιο αριθµό παρατηρήσεων. Το µεγάλο µειονέκτηµα του αλγόριθµου είναι ότι εξαρτάται από τις τον αριθµό των οµάδων που θα επιλέξουµε, κάτι το οποίο είναι σχεδόν υποκειµενικό, εφόσον κάθε ερευνητής µπορεί να διαλέξει όποια µέθοδο νοµίζει ότι τον εξυπηρετεί καλύτερα και καταλήγει σε αριθµό οµάδων, µε βάση την τελική ερµηνεία που εκείνος θέλει να δώσει στα αποτελέσµατα. Άρα η επιλογή των οµάδων εξαρτάται από τον ερευνητή και το σκοπό της οµαδοποίησης. 19

Η µέθοδος k-means βασίζεται στην ευκλείδεια απόσταση, αλλά µπορεί να χρησιµοποιηθεί κάθε είδους απόσταση (city-block, Minkowski απόσταση κ.α.). Για µη συνεχή δεδοµένα υπάρχει το πρόβληµα ότι δε µπορούµε να υπολογίσουµε τους µέσους των οµάδων. Το βασικό πριν κάνουµε οποιαδήποτε ανάλυση είναι να βγάλουµε περιγραφικά µέτρα για κάθε µία από τις µεταβλητές. Αν δούµε αποκλίσεις στα περιγραφικά χαρακτηριστικά των δεδοµένων µας, π.χ. οι µέσοι να έχουν µεγάλες αποκλίσεις, τότε µια καλή τεχνική για να απαλείψουµε αυτό το πρόβληµα, είναι να τυποποιήσουµε τα δεδοµένα µας. βλ. Πίνακα D, σε appendix Παρατηρούµε ότι τα δεδοµένα µας δεν παρουσιάζουν σηµαντικές διαφορές στους µέσους όρους άρα δε χρειάζεται και να τυποποιήσουµε. Και αφού τοποθετήσουµε τις µεταβλητές όπως παρακάτω: θα πάµε να κάνουµε τις απαραίτητες ρυθµίσεις. 20

Στους πίνακες E, F, G, περιγράφονται τα output που προκύπτουν. 21

Στην ανάλυση διακύµανσης του πίνακα Η, appendix, βλέπουµε ότι οι µεταβλητές είναι στατιστικά σηµαντικές για την ανάλυσή µας εποµένως οι µεταβλητές έχουν καλή ικανότητα να ξεχωρίζουν παρατηρήσεις. Ο πίνακας Ι, appendix, µας δείχνει πόσες παρατηρήσεις περιέχει κάθε οµάδα τελικά. Η πρώτη οµάδα φαίνεται να έχει 116, η δεύτερη 370, η τρίτη 262 και η τέταρτη 178. Επειδή όµως µία εικόνα χίλιες λέξεις καλό θα ήταν να παρουσιάσουµε σε ένα Error Bar που κάνει ένα γράφηµα διαστηµάτων εµπιστοσύνης ανάλογα µε κάθε cluster: 22

Βλέπουµε τις οµάδες που έχουν δηµιουργηθεί 23

24

ΚΕΦΑΛΑΙΟ 5 Σύνοψη Συµπεράσµατα Ερµηνεία των clusters Βγάζοντας descriptive statistics των ερωτήσεων που αναλύσαµε µπορούµε να ερµηνεύσουµε τη συµπεριφορά των ερωτωµένων που απάντησαν, ως καταναλωτές. (βλ. Πίνακα J, appendix) Στην πρώτη κατηγορία, µε βάση και τους µέσους που παρατηρούµε στις διάφορες µεταβλητές, βρίσκουµε τους συντηρητικούς καταναλωτές, αυτούς που αναζητούν τη ρουτίνα και την ασφάλεια, την ποιότητα µε αποδεδειγµένη ασφάλεια και είναι πιο παραδοσιακοί γιατί δίνουν γενικά βάση σε αξίες που έχουν κληρονοµήσει από την οικογένειά τους. εν τολµούν και δεν αναζητούν εύκολα το διαφορετικό. Είναι η οµάδα που δύσκολα θα ανταποκριθεί σε νέες προωθητικές κινήσεις µιας επιχείρησης. Στη δεύτερη κατηγορία συναντάµε τους τολµηρούς καταναλωτές, αυτούς που τολµάνε πρώτοι και διαφωνούν όσο χρειαστεί, βγαίνουν µπροστά, θυσιάζονται για τους άλλους και δίνουν βαρύτητα στην απόλαυση των αισθήσεων. Θα δοκίµαζαν νέα πράγµατα και γενικά είναι πιο εύκολος στόχος για νέες προωθητικές κινήσεις µιας επιχείρησης. Στην τρίτη κατηγορία συναντάµε τους απαιτητικούς καταναλωτές. Αυτούς που δίνουν µεγάλη σηµασία και στην ποσότητα και στην ποιότητα, δοκιµάζουν νέα πράγµατα και ανταποκρίνονται σε αυτά που ικανοποιούν και τις αισθήσεις τους και αξίζουν τα λεφτά τους. Στην τέταρτη κατηγορία συναντάµε τους µη απαιτητικούς καταναλωτές, που συµβιβάζονται, αρκούνται µε τα λίγα, είναι παραδοσιακοί και δεν τολµούν και θέλουν να ακολουθούν τις επιλογές των άλλων. Η επιχείρηση λοιπόν, γνωρίζει τώρα τις οµάδες των καταναλωτών και τα επιµέρους χαρακτηριστικά τους και µπορεί να στοχεύσει µε καλύτερο τρόπο στην κάθε οµάδα, να διερευνήσεις ποιο κοινό είναι µεγαλύτερο για να εισχωρήσει και τι 25

κινήσεις πρέπει να κάνει για να τους προσεγγίσει µε βάση και το ψυχολογικό τους προφίλ. Σύνοψη ανάλυσης Εναλλακτικές µέθοδοι Σκοπός της µελέτης µας ήταν να κατατάξουµε ένα δείγµα καταναλωτών σε οµάδες (συστάδες) µε βάση τις τοποθετήσεις τους σε µια σειρά ερωτήσεων. Για την οµαδοποίηση χρησιµοποιήσαµε cluster analysis και συγκεκριµένα ιεραρχική οµαδοποίηση, όπου ο αριθµός των οµάδων δεν είναι γνωστός από πριν. Η µέθοδος λειτουργεί ιεραρχικά µε την έννοια ότι ξεκινάει χρησιµοποιώντας κάθε παρατήρηση σαν µια οµάδα και σε κάθε βήµα ενώνει σε οµάδες τις παρατηρήσεις που βρίσκονται κοντά. Συγκεκριµένα επιλέχθηκε Weird s method όπου χρησιµοποιεί µια προσέγγιση ανάλυσης διακυµάνσεων για να εκτιµήσει τις αποστάσεις µεταξύ των clusters. Πριν ξεκινήσουµε την ανάλυση cluster κάναµε two-tailed Pearson correlation για να µετρήσουµε τις συσχετίσεις στις πιθανές cluster µεταβλητές όπου και παρατηρήσαµε ότι οι µεταβλητές µεταξύ τους δεν έχουν υψηλό βαθµό συσχέτισης άρα και δεν απορρίπτουµε καµία από την ανάλυσή µας. Το δενδρόγραµµα που προέκυψε δηλώνει συνδυασµούς οµάδων παρατηρήσεων. Η ανάλυση µας εµφάνισε τον αριθµό των cluster στα οποία κατηγοριοποιούνται οι µεταβλητές και διεξάγοντας στη συνέχεια k-means cluster analysis είδαµε σε ποιο cluster κατηγοριοποιούνται αναλυτικά τα δεδοµένα βάσει των οποίων ερµηνεύσαµε τα αποτελέσµατά µας. Εναλλακτικές µέθοδοι επίλυσης του προβλήµατος και συγκριτική παρουσίαση µεθόδων κατηγοριοποίησης Εναλλακτικά θα µπορούσαν να χρησιµοποιηθούν στην ιεραρχική µας ανάλυση, τα κριτήρια εγγύτερου γείτονα, απώτερου γείτονα ή µέσου δεσµού όπως εξηγήθηκαν παραπάνω, αντί της Weird s method. Η µέθοδος που επιλέχθηκε είναι λίγο υποκειµενική και επαφίεται στην κρίση, την προτίµηση και την εµπειρία του αναλυτή. Μπορεί να γίνει και ανάλυση µε όλα τα κριτήρια διαδοχικά και να συγκριθούν τα µεταξύ τους αποτελέσµατα ώστε να βγει ένα γενικό συµπέρασµα σε σχέση µε τον αριθµό των cluster που θα προκύψουν. 26

Τα διαφορετικά αποτελέσµατα που προκύπτουν ακολουθώντας διαφορετικές µεθόδους ανάλυσης συστάδων, οφείλονται σε µεγάλο ποσοστό στις διαφοροποιήσεις κάθε µεθόδου (όπως περιγράφτηκαν σε προηγούµενες παραγράφους) και σε µικρότερο στο είδος των δεδοµένων. Οι µεγαλύτερες διαφορές των µεθόδων κατηγοριοποίησης εντοπίζονται: α) στη δοµή των συστάδων, β) στην ύπαρξη επικαλύψεων και το αντίστοιχο ποσοστό και γ) στη µετρική οµοιότητας που χρησιµοποιείται. Η δοµή των συστάδων αναφέρεται τόσο στο πλήθος των συστάδων, και στο σχήµα τους, όσο και στη δυναµικότητά τους, δηλαδή το πλήθος των στοιχείων που περιλαµβάνουν σε απόλυτο ή σχετικό µέγεθος. Επίσης η ύπαρξη επικάλυψης ανάµεσα σε συστάδες και το ποσοστό επικάλυψης που επιτρέπουµε επηρεάζουν τις παραµέτρους των µεθόδων κατηγοριοποίησης. Ανάλογα µε το είδος των δεδοµένων που επεξεργαζόµαστε επιλέγουµε τόσο τη µέθοδο οµαδοποίησης, όσο και τι αντίστοιχες παραµέτρους. Εποµένως η γνώση των χαρακτηριστικών και του είδους των δεδοµένων λειτουργεί ως είσοδος στο πρόβληµα κατηγοριοποίησης (knowledge-based clustering). Η παρουσίαση των κύριων µεθόδων κατηγοριοποίησης δεδοµένων, µας οδηγεί στο συµπέρασµα ότι οι επαναληπτικές διαιρετικές µέθοδοι κατηγοριοποίησης βασίζονται στην ανακατανοµή των δεδοµένων σε συστάδες και την ενηµέρωση ενός µοντέλου σχηµατικής αναπαράστασης της γνώσης. Εποµένως η διαδικασία αυτή προσοµοιάζει την εκπαίδευση ενός ταξινοµητή στα πλαίσια εποπτευόµενης µάθησης (supervised learning). Μια άλλη µέθοδος που µπορούµε εναλλακτικά ή ενισχυτικά των συµπερασµάτων µας, να χρησιµοποιήσουµε, είναι η παραγοντική (factor) ανάλυση. Όταν διεξάγεται ενισχυτικά η παραγοντική ανάλυση, προηγείται συνήθως µιας ταξινοµικής ανάλυσης (Cluster Analysis) η οποία εφαρµόζεται στις συνθετικές µεταβλητές ή αλλιώς στους παραγοντικούς άξονες που έχουν προκύψει από την προηγούµενη εργασία. 27

Οι παραγοντικές αναλύσεις επιτρέπουν την µείωση του αριθµού (Ν) των αρχικών µεταβλητών του υπό εξέταση προβλήµατος, που περιέχουν και το 100% της πληροφορίας, σε (Τ) νέες συνθετικές µεταβλητές (Τ<Ν) που θα εµπεριέχουν ταυτόχρονα το µέγιστο δυνατό ποσοστό της αρχικής πληροφορίας. Κάθε µια από τις νέες µεταβλητές που προκύπτουν αποτελεί εποµένως και µια σύνθεση των αρχικών µεταβλητών. Άρα, για δεδοµένα µετρικώς κλιµακούµενα σε ένα µεγάλο αριθµό µεταβλητών, η ανάλυση παραγόντων δηµιουργεί ένα µικρότερο αριθµό µεταβλητών που καλούνται παράγοντες και λαµβάνουν τις περισσότερες δυνατές πληροφορίες από το αρχικό σετ δεδοµένων. Τυπικά, ξεκινάµε µε τον έλεγχο του πίνακα συσχετίσεων ανά ζευγάρι µεταξύ των αρχικών µεταβλητών και ανακαλύπτουµε τρόπους για να τις συνδυάσουµε µε παράγοντες, έτσι ώστε κάθε παράγοντας αρχικά να αναπαριστά µια οµάδα αποτελούµενη από µεταβλητές όσο το δυνατόν περισσότερο συσχετισµένες. Σύγκριση Cluster Factor analysis ΠΟΣΕΣ ΟΜΑ ΕΣ ΧΡΕΙΑΖΟΝΤΑΙ: Στην παραγοντική ανάλυση, το ζήτηµα είναι πόσοι παράγοντες χρειάζονται για να εξηγήσουν τη µεταβλητότητα σε ένα σύνολο στοιχείων. Στην ανάλυση cluster, εξετάσαµε το πόσο κάποιες µεταβλητές µπορούν να συνυπάρξουν σαν µια οµάδα. ΣΧΕΣΗ ΜΕΤΑΞΥ ΤΩΝ ΟΜΑ ΩΝ: Στην παραγοντική ανάλυση παίρνουµε το συσχετισµό των συστατικών που δείχνει την αντιστοιχία µεταξύ των παραγόντων που εξάγονται. Στην ιεραρχική ανάλυση διασποράς µπορούµε να δούµε πόσο σύντοµα δύο µεγάλες συστάδες συγχωνεύονται. ΑΚΡΑΙΕΣ ΤΙΜΕΣ: Η παραγοντική ανάλυση έχει µεταβλητές µε χαµηλά communalities, χαµηλές φορτώσεις παραγόντων και χαµηλές συσχετίσεις µε άλλα στοιχεία. Η ιεραρχική ανάλυση συστάδων έχει αντικείµενα που να µην οµαδοποιούνται µε άλλες µεταβλητές µέχρι το τελικό στάδιο. 28

Άλλες µορφές της δοµές: Η παραγοντική ανάλυση είναι σχεδιασµένη για να «πετάει» έξω λανθάνοντες παράγοντες που υποτίθεται ότι προκαλούν υψηλές συσχετίσεις. Η ιεραρχική ανάλυση συστάδων µπορεί να αποκαλύψει ιεραρχική δοµή. Η cluster analysis λοιπόν, δεν προσδιορίζει µια συγκεκριµένη στατιστική µέθοδο ή ένα µοντέλο, όπως κάνει γ διακριτική ανάλυση, ανάλυση των παραγόντων και η παλινδρόµηση. Συχνά δεν έχουµε να κάνουµε παραδοχές σχετικά µε την υποκείµενη παραδοχή των δεδοµένων. Χρησιµοποιώντας ανάλυση διασποράς, µπορούµε ακόµα να οµαδοποιήσουµε σχετικές µεταβλητές, όπως γίνεται και στην παραγοντική ανάλυση. Υπάρχουν πολλοί τρόπου λοιπόν που µπορούµε να ταξινοµήσουµε τις περιπτώσεις σε οµάδες. Η επιλογή της µεθόδου Cluster εξαρτάται, µεταξύ άλλων, από το µέγεθος του αρχείου δεδοµένων. Οι µέθοδοι που χρησιµοποιούνται συνήθως για µικρά σύνολα δεδοµένων, δεν είναι πρακτικά για αρχεία δεδοµένων µε χιλιάδες cases (responses) 29

30

ΚΑΤΑΛΟΓΟΣ ΓΡΑΦΗΜΑΤΩΝ ΠΙΝΑΚΩΝ Πίνακας Α 31

Πίνακας Β 32

Πίνακας C * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 514 792 16 619 751 6 151 353 108 426 137 446 435 735 560 653 175 720 964 438 638 343 981 848 199 801 563 798 775 812 532 17 194 420 531 158 160 307 727 369 521 691 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * 33

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 728 260 737 808 664 805 469 122 306 895 758 888 539 747 32 62 229 756 535 649 766 497 298 624 362 550 12 889 477 589 917 996 166 498 899 902 378 915 347 741 334 587 358 94 689 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 34

Label Num +---------+---------+---------+---------+---------+ 380 111 74 91 73 598 868 822 13 328 833 110 263 303 281 665 553 342 793 54 178 42 219 789 591 5 920 508 414 399 777 975 989 593 978 481 701 761 923 116 860 505 577 594 65 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 239 454 35

262 212 719 564 640 132 746 830 118 240 612 134 320 548 128 914 785 838 144 379 173 98 413 506 936 771 288 586 623 779 67 82 733 522 441 466 458 397 350 690 373 762 99 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 315 908 982 572 896 36

745 45 900 163 644 51 925 986 433 918 177 995 677 456 50 635 581 897 820 176 707 607 625 528 192 605 618 40 919 138 284 83 882 76 489 927 211 713 844 248 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 998 799 171 739 556 616 520 643 159 37

368 945 674 180 301 59 485 760 388 321 326 361 234 809 886 716 780 558 25 97 185 181 387 304 395 237 30 168 430 980 365 887 398 261 448 282 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 49 443 275 696 702 190 734 861 33 526 197 392 174 38

941 335 599 682 247 683 405 874 554 571 687 744 201 657 938 75 416 228 417 699 317 654 815 146 3 513 880 530 11 21 639 85 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 434 754 583 898 697 924 444 669 827 419 408 738 28 79 646 233 291 39

950 218 604 292 540 457 642 602 819 637 755 331 627 781 119 620 486 857 202 445 299 721 412 31 492 790 585 841 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 409 922 578 715 496 562 44 534 487 541 145 14 559 250 527 881 208 743 213 875 40

22 946 286 329 336 470 866 693 826 708 471 333 510 77 323 818 359 383 39 351 816 428 753 352 977 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 979 961 411 465 609 855 893 400 459 575 773 854 447 536 954 436 965 370 787 449 823 661 491 879 41

967 322 406 843 130 356 905 565 364 215 494 222 929 308 113 774 216 951 319 512 824 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 545 348 990 930 1000 207 706 960 476 349 934 251 490 354 872 588 666 149 80 300 723 800 836 297 832 546 869 42

55 944 903 943 552 376 851 634 161 659 432 901 162 472 633 955 156 52 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 37 243 273 504 803 992 205 464 423 991 461 985 576 276 53 407 214 567 318 853 957 679 942 480 769 27 68 652 542 614 18 43

232 316 463 878 86 502 109 821 828 519 883 101 150 997 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 651 726 244 676 636 867 763 4 606 78 258 287 357 730 596 312 817 235 631 341 140 394 993 309 963 206 401 590 698 58 525 686 152 984 694 44

940 330 601 913 933 302 994 242 403 911 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 750 418 437 921 500 338 608 345 776 142 765 757 973 613 1 926 468 837 972 246 393 147 714 115 890 748 884 389 84 928 655 139 825 912 367 450 621 272 695 45

705 999 81 566 56 183 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 662 264 295 969 220 864 189 783 474 704 125 681 712 592 885 427 778 511 863 164 845 104 377 34 829 188 810 131 709 410 797 451 856 69 767 865 8 632 850 63 314 688 483 46

515 603 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 268 656 482 254 523 557 114 722 9 736 61 846 375 278 475 217 293 296 983 770 907 629 956 15 503 167 675 802 129 834 289 680 155 909 38 806 966 224 274 916 617 794 71 953 958 47

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 310 648 952 305 390 391 501 169 717 440 36 670 538 782 839 245 849 141 840 873 311 700 453 732 344 569 516 573 484 584 231 507 580 791 968 279 89 814 876 974 499 847 267 236 355 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * 48

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 226 711 595 170 265 363 255 668 740 396 948 24 570 439 283 579 431 904 932 611 324 937 126 165 658 788 862 976 360 724 26 93 271 57 196 544 597 425 971 105 877 133 685 7 112 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 49

382 641 70 422 191 223 906 892 200 495 256 95 959 102 204 60 386 402 768 795 269 135 153 225 671 561 630 718 35 103 626 157 962 455 647 136 478 859 460 692 241 786 582 462 764 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 120 970 742 50

210 891 184 374 337 543 610 529 949 123 645 931 404 479 429 43 385 467 473 198 551 672 23 372 124 340 678 10 772 517 143 253 107 673 121 90 509 871 72 987 48 533 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 600 421 238 313 663 650 852 51

87 524 988 574 249 371 488 749 186 259 41 46 807 381 547 622 2 266 19 811 831 835 52

Πίνακας D Descriptive Statistics N Minimum Maximum Mean Std. Deviation Q.15_1.Human Values - Achievement 996 1 10 4,95 2,493 Q.15_2.Human Values - Self direction 997 1 10 6,62 2,254 Q.15_3.Human Values - Universalism 997 1 10 6,37 2,206 Q.15_4.Human Values - Security 996 1 10 6,21 2,145 Q.15_5.Human Values - Tradition 997 1 10 7,08 2,182 Q.15_6.Human Values - Hedonism 995 1 10 6,66 2,102 Q.15_7.Human Values - Power 997 1 10 5,23 2,289 Q.15_8.Human Values - Conformity 997 1 10 6,41 2,141 Q.15_9.Human Values - Stimulation 997 1 10 5,52 2,311 Q.15_10.Human Values -Benevolence 996 1 10 7,93 1,787 Q.16_1.Category Values-Achievement 996 1 10 6,17 2,278 Q.16_2.Category Values-Self direction 997 1 10 5,60 2,240 Q.16_3.Category Values-Universalism 995 1 10 6,05 2,117 Q.16_4.Category Values-Security 996 1 10 7,86 1,711 Q.16_5.Category Values-Tradition 996 1 10 7,27 1,874 Q.16_6.Category Values-Hedonism 997 1 10 7,38 1,792 Q.16_7.Category Values-Power 998 1 10 5,49 2,292 Q.16_8.Category Values-Conformity 996 1 10 6,87 1,946 Q.16_9.Category Values-Stimulation 998 1 10 6,26 2,162 Q.16_10.Category Values-Benevolence 995 1 10 6,57 1,898 Q.22_1.Fast food shop s Values - Achievement Q.22_2.Fast food shop s Values -Self direction Q.22_3.Fast food shop s Values - Universalism 951 1 10 5,38 2,188 954 1 10 5,60 2,249 954 1 10 5,38 2,289 53

Q.22_4.Fast food shop s Values -Security 959 1 10 5,44 2,263 Q.22_5.Fast food shop s Values -Tradition 956 1 10 5,68 2,403 Q.22_6.Fast food shop s Values - 959 1 10 5,94 2,239 Hedonism Q.22_7.Fast food shop s Values -Power 955 1 10 5,25 2,164 Q.22_8.Fast food shop s Values - 959 1 10 5,37 2,339 Conformity Q.22_9.Fast food shop s Values - 958 1 10 5,24 2,243 Stimulation Q.22_10.Fast food shop s Values - 951 1 10 6,06 2,348 Benevolence Valid N (listwise) 926 Πίνακας Ε Περιέχει τα αρχικά κέντρα των οµάδων, αυτά δηλαδή από όπου ξεκινάει ο αλγόριθµος. Initial cluster centers Cluster 1 2 3 4 Q.15_1.Human Values - Achievement 10 1 10 1 Q.15_2.Human Values - Self direction 10 10 10 1 Q.15_3.Human Values - Universalism 10 1 10 1 Q.15_4.Human Values - Security 10 10 1 5 Q.15_5.Human Values - Tradition 10 1 10 10 Q.15_6.Human Values - Hedonism 1 1 10 1 Q.15_7.Human Values - Power 1 1 5 1 Q.15_8.Human Values - Conformity 1 1 10 5 Q.15_9.Human Values - Stimulation 1 10 10 1 Q.15_10.Human Values -Benevolence 10 10 10 1 Q.16_1.Category Values-Achievement 1 10 10 1 54

Q.16_2.Category Values-Self direction 9 10 1 1 Q.16_3.Category Values-Universalism 9 10 9 6 Q.16_4.Category Values-Security 9 1 9 1 Q.16_5.Category Values-Tradition 9 1 9 1 Q.16_6.Category Values-Hedonism 1 10 9 1 Q.16_7.Category Values-Power 1 10 9 10 Q.16_8.Category Values-Conformity 9 1 9 6 Q.16_9.Category Values-Stimulation 1 10 9 1 Q.16_10.Category Values-Benevolence 9 1 8 10 Q.22_1.Fast food shop s Values - 10 1 9 1 Achievement Q.22_2.Fast food shop s Values -Self 10 10 9 1 direction Q.22_3.Fast food shop s Values - 1 10 9 1 Universalism Q.22_4.Fast food shop s Values -Security 10 1 9 6 Q.22_5.Fast food shop s Values -Tradition 1 1 9 10 Q.22_6.Fast food shop s Values - 10 1 9 10 Hedonism Q.22_7.Fast food shop s Values -Power 1 1 9 1 Q.22_8.Fast food shop s Values - Conformity Q.22_9.Fast food shop s Values - Stimulation Q.22_10.Fast food shop s Values - Benevolence 1 1 9 10 1 10 9 1 1 10 9 5 55

Πίνακας F Iteration History Iteration History(a) Change in Cluster Centers Iteration 1 2 3 4 1 21,084 20,152 16,170 20,018 2 2,762 3,138,978 2,290 3,680 2,272,539,970 4,582 1,878,472,499 5,493 1,541,629,250 6,513 1,123,628,257 7,366,574,369,360 8,242,559,511,231 9,207,402,431,233 10,224,231,233,173 a Iterations stopped because the maximum number of iterations was performed. Iterations failed to converge. The maximum absolute coordinate change for any center is,092. The current iteration is 10. The minimum distance between initial centers is 31,828. Περιέχει πληροφορίες για το πώς µετακινείται ο αλγόριθµος σε κάθε επανάληψη. Η τιµή που εµφανίζεται είναι η απόσταση ανάµεσα στο κέντρο της οµάδας στην τρέχουσα επανάληψη µε το κέντρο της οµάδας κατά την προηγούµενη. Όταν η απόσταση αυτή µηδενιστεί, σταµατά ο αλγόριθµος. Πίνακας G Final Cluster Centers Final Cluster Centers Cluster 1 2 3 4 Q.15_1.Human Values - Achievement 4 5 6 3 Q.15_2.Human Values - Self direction 6 7 8 5 Q.15_3.Human Values - Universalism 6 6 7 5 Q.15_4.Human Values - Security 8 6 7 5 Q.15_5.Human Values - Tradition 7 7 8 7 Q.15_6.Human Values - Hedonism 7 7 8 5 Q.15_7.Human Values - Power 5 5 6 3 Q.15_8.Human Values - Conformity 6 6 8 5 56

Q.15_9.Human Values - Stimulation 5 6 7 4 Q.15_10.Human Values -Benevolence 8 8 9 8 Q.16_1.Category Values-Achievement 7 6 7 4 Q.16_2.Category Values-Self direction 6 6 7 4 Q.16_3.Category Values-Universalism 6 6 7 5 Q.16_4.Category Values-Security 8 8 8 7 Q.16_5.Category Values-Tradition 8 7 8 6 Q.16_6.Category Values-Hedonism 8 7 8 6 Q.16_7.Category Values-Power 6 6 6 4 Q.16_8.Category Values-Conformity 7 7 8 5 Q.16_9.Category Values-Stimulation 6 6 7 5 Q.16_10.Category Values-Benevolence 7 6 7 6 Q.22_1.Fast food shop s Values - 3 5 7 4 Achievement Q.22_2.Fast food shop s Values -Self 2 6 8 5 direction Q.22_3.Fast food shop s Values - 2 6 7 4 Universalism Q.22_4.Fast food shop s Values -Security 2 5 7 5 Q.22_5.Fast food shop s Values -Tradition 3 6 7 6 Q.22_6.Fast food shop s Values - 4 6 8 5 Hedonism Q.22_7.Fast food shop s Values -Power 3 5 7 4 Q.22_8.Fast food shop s Values - Conformity Q.22_9.Fast food shop s Values - Stimulation Q.22_10.Fast food shop s Values - Benevolence 2 5 7 5 3 5 7 4 3 6 8 6 Περιέχει τα κέντρα των οµάδων που βρέθηκαν, αφού σταµάτησε ο αλγόριθµος. 57

Πίνακας H Q.15_1.Human Values - Achievement Q.15_2.Human Values -Self direction Q.15_3.Human Values - Universalism Q.15_4.Human Values -Security Q.15_5.Human Values -Tradition Q.15_6.Human Values - Hedonism Q.15_7.Human Values -Power Q.15_8.Human Values - Conformity Q.15_9.Human Values - Stimulation Between Groups Sum of Squares df 1279,56 9 3 Anova Mean Square F Sig. 426,52 3 Within 4429,58 922 4,804 Groups 5 Total 5709,15 925 3 Between 223,52 Groups 670,584 3 8 Within 3876,13 922 4,204 Groups 3 Total 4546,71 925 7 Between 217,35 Groups 652,058 3 3 88,779,000 53,170,000 52,440,000 Within 3821,46 922 Groups 7 4,145 Total 4473,52 925 5 Between 222,41 667,240 3 Groups 3 56,749,000 Within 3613,53 922 Groups 4 3,919 Total 4280,77 925 4 Between Groups 213,382 3 71,127 15,878,000 Within 4130,17 922 Groups 8 4,480 Total 4343,56 925 0 Between 207,14 Groups 621,441 3 7 55,340,000 Within 3451,21 922 3,743 Groups 5 Total 4072,65 925 7 Between 1036,66 345,55 3 Groups 7 6 Within 3710,06 922 4,024 Groups 8 Total 4746,73 925 4 Between 187,99 Groups 563,970 3 0 Within 3602,19 922 3,907 Groups 0 Total 4166,16 925 0 Between 292,63 Groups 877,909 3 6 Within 3900,25 Groups 1 Total 4778,16 0 922 4,230 925 85,875,000 48,117,000 69,178,000 58

Q.15_10.Human Values - Benevolence Q.16_1.Category Values- Achievement Q.16_2.Category Values-Self direction Q.16_3.Category Values- Universalism Q.16_4.Category Values-Security Q.16_5.Category Values-Tradition Q.16_6.Category Values-Hedonism Q.16_7.Category Values-Power Q.16_8.Category Values- Conformity Q.16_9.Category Values- Stimulation Q.16_10.Categor y Values- Between Groups 143,948 3 47,983 16,449,000 Within 2689,56 922 2,917 Groups 3 Total 2833,51 925 2 Between 312,91 Groups 938,745 3 5 Within 3650,12 922 3,959 Groups 8 Total 4588,87 925 3 Between 262,93 Groups 788,813 3 8 Within 3726,12 922 4,041 Groups 2 Total 4514,93 925 4 Between 152,00 Groups 455,999 3 0 79,040,000 65,062,000 38,268,000 Within 3662,19 922 Groups 2 3,972 Total 4118,19 925 1 Between Groups 213,334 3 71,111 27,108,000 Within 2418,63 922 Groups 1 2,623 Total 2631,96 925 5 Between 136,33 409,009 3 Groups 6 46,497,000 Within 2703,41 922 Groups 9 2,932 Total 3112,42 925 8 Between 161,18 483,539 3 Groups 0 61,188,000 Within 2428,72 922 Groups 6 2,634 Total 2912,26 925 5 Between 296,10 888,304 3 Groups 1 69,625,000 Within 3921,10 922 Groups 8 4,253 Total 4809,41 925 3 Between 273,93 Groups 821,789 3 0 93,988,000 Within 2687,17 922 2,915 Groups 4 Total 3508,96 925 3 Between 224,06 Groups 672,187 3 2 Within 3597,14 922 3,901 Groups 7 Total 4269,33 925 5 Between 142,08 426,266 3 Groups 9 57,430,000 45,011,000 59

Benevolence Q.22_1.Fast food shop s Values - Achievement Q.22_2.Fast food shop s Values - Self direction Q.22_3.Fast food shop s Values - Universalism Q.22_4.Fast food shop s Values - Security Q.22_5.Fast food shop s Values - Tradition Q.22_6.Fast food shop s Values - Hedonism Q.22_7.Fast food shop s Values - Power Q.22_8.Fast food shop s Values - Conformity Q.22_9.Fast food shop s Values - Stimulation Within 2910,49 Groups 5 Total 3336,76 0 Between 1944,41 Groups 9 Within 2454,25 Groups 1 Total 4398,67 0 Between 2295,27 Groups 4 Within 2403,62 Groups 9 Total 4698,90 4 Between 2124,71 Groups 4 Within 2667,34 Groups 2 Total 4792,05 6 Between 1969,31 Groups 5 Within 2653,27 Groups 7 Total 4622,59 2 Between 1849,20 Groups 5 Within 3446,13 Groups 0 Total 5295,33 5 Between 1506,74 Groups 0 Within 3079,87 Groups 4 Total 4586,61 4 Between 1762,79 Groups 6 Within 2535,07 Groups 9 Total 4297,87 5 Between 2191,13 Groups 1 Within 2821,02 Groups 9 Total 5012,16 0 Between 1764,58 Groups 8 Within 2789,52 Groups 9 Total 4554,11 7 922 3,157 925 3 648,14 0 922 2,662 925 3 765,09 1 922 2,607 925 3 708,23 8 922 2,893 925 3 656,43 8 922 2,878 925 3 616,40 2 922 3,738 925 3 502,24 7 922 3,340 925 3 587,59 9 922 2,750 925 3 730,37 7 922 3,060 925 3 588,19 6 922 3,026 925 243,49 0 293,47 9 244,81 1 228,10 9 164,91 6 150,35 4 213,70 8 238,71 0 194,41 2,000,000,000,000,000,000,000,000,000 60