UNIVERSITY OF THE AEGEAN

Σχετικά έγγραφα
Τουρκία: Εξαγωγές Μαρμάρου (*2515) Αξία Εξαγωγών σε χιλίαδες ευρώ

World Happiness Report 2013

"AdBlue" trademarks of VDA Verband der Automobilindustrie e.v.

ΔΕΙΚΤΗΣ ΑΝΤΙΛΗΨΗΣ ΔΙΑΦΘΟΡΑΣ 2013 CPI 2013

Οι Ευρωπαϊκές πολιτικές για την επαγγελματική εκπαίδευση και κατάρτιση. Θεσσαλονίκη 10 Δεκεμβρίου 2016 Λουκάς Ζαχείλας, Επικεφαλής Τομέα DSI, Cedefop

ΔΕΙΚΤΗΣ ΑΝΤΙΛΗΨΗΣ ΔΙΑΦΘΟΡΑΣ 2014

Summary of ScinoPharm Taiwan, Ltd. Submissions

BIOTAYTOTHTA Βιομετρικά χαρακτηριστικά για ταυτοποίηση ατόμων σε ελεγχόμενους χώρους πρόσβασης. G4S Telematix S.A. 31/01/2014

ΕΘΕΛΟΝΤΙΣΜΟΣ: Η Κρυμμένη Δύναμη

ΣΥΓΚΡΙΤΙΚΑ ΣΤΟΙΧΕΙΑ:

DEMOGRAPHIC INDICATORS

Η στάση των φοιτητών απέναντι στην επιχειρηµατικότητα. Παρουσίαση ερευνητικών αποτελεσµάτων

Τί είναι Γεωθερμική Ενέργεια; (What is Geothermal Energy?)

AYBU INTERNATIONAL AGREEMENTS ACADEMIC YEAR

Ανάλυση και μελέτη του δείκτη ανθρώπινης ανάπτυξης (HDI) μεταξύ ανεπτυγμένων, αναπτυσσομένων και υποανάπτυκτων κρατών.

Τα Οικονομικά της Υγείας

Οι Ευρωπαϊκές πολιτικές δια βίου μάθησης. Το Ευρωπαϊκό και το Εθνικό Πλαίσιο Προσόντων

Ελληνικό Σύστηµα Υγείας Αξιολόγηση Υπό την Διεθνή Εµπειρία

Students Sense of School Belonging Scale, Fourth Grade

Εκπαιδευτικά Συστήματα. Χαρίκλεια Τσαλαπάτα, 21/5/2012

Το Εθνικό Πλαίσιο Προσόντων και η αντιστοίχισή του με το Ευρωπαϊκό Πλαίσιο Προσόντων

Challenges Facing Teachers Scale, Fourth Grade

ΤΥΡΙ - ΑΥΣΤΡΑΛΙΑ. Η προστατευόμενη ονομασία προέλευσης «φέτα», ως γνωστόν δεν αναγνωρίζεται σε χώρες εκτός Ευρωπαϊκής Ένωσης όπως είναι η Αυστραλία.

Students Views on Engaging Teaching in Mathematics Lessons Scale, Fourth Grade

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

Η εξέλιξη των επεμβατικών θεραπειών των αρρυθμιών στην Ελλάδα. Βασίλειος Π. Βασιλικός Καθηγητής Καρδιολογίας ΑΠΘ

Ελληνική Ένωση Πρακτόρων Επιχειρηματικών Απαιτήσεων. Απολογισμός Έτους 2015

PISA: Program for International Student Assessment

Students Views on Engaging Teaching in Science Lessons Scale, Fourth Grade

Δημόσια Οικονομική. Διάλεξη 1. Τι είναι η δημόσια οικονομική. Τι είναι η δημόσια οικονομική. Πανεπιστήμιο Αθηνών Τμήμα Οικονομικών Επιστημών

ΔΡΑΣΗ 2 «ΕΥΡΩΠΑΙΚΗ ΕΘΕΛΟΝΤΙΚΗ ΥΠΗΡΕΣΙΑ»

Επενδύσεις σε διεθνείς κεφαλαιαγορές. Οφέλη διεθνών επενδύσεων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΔΕΝ ΕΧΕΙ ΥΠΟΧΡΕΩΣΗ ΝΑ ΠΛΗΡΩΣΕΙ ΕΑΝ ΔΕΝ ΛΑΒΕΙ ΤΟ ΝΟΜΙΜΟ ΠΑΡΑΣΤΑΤΙΚΟ ΣΤΟΙΧΕΙΟ (ΑΠΟΔΕΙΞΗ - ΤΙΜΟΛΟΓΙΟ).

Students Like Learning Mathematics Scale, Fourth Grade

Students Like Learning Science Scale, Fourth Grade

Εκπαίδευση για Δημιουργικότητα και Ανάπτυξη στη Σύγχρονη Ελληνική Κοινωνία (ΤΕΑΠΗ)

Σχετικά με τις βασικές δεξιότητες 18/10/2017. Και παράγοντες που τις επηρεάζουν

Challenges Facing Teachers Scale, Eighth Grade

Contact Information about Embassies in Greece. ALBANIA Karachristou St. 1 Athens ALGERIA Eratosthenous St. 1 Athens

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΔΕΝ ΕΧΕΙ ΥΠΟΧΡΕΩΣΗ ΝΑ ΠΛΗΡΩΣΕΙ ΕΑΝ ΔΕΝ ΛΑΒΕΙ ΤΟ ΝΟΜΙΜΟ ΠΑΡΑΣΤΑΤΙΚΟ ΣΤΟΙΧΕΙΟ (ΑΠΟΔΕΙΞΗ - ΤΙΜΟΛΟΓΙΟ).

Τα Οικονομικά της Υγείας

Ανάλυση κατά Συστάδες. Cluster analysis

Ελληνική Ένωση Πρακτόρων Επιχειρηματικών Απαιτήσεων. Απολογισμός Έτους 2013

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

ΗΜΟΣΙΟΣ ΥΠΑΛΛΗΛΟΣ ΝΟΣΗΛΕΥΤΗΣ

Κατσούρας Σταύρος Δρ. Κοινωνιολόγος, ΚΕΣΥΠ Βόλου

Τρέχουσα κατάσταση ελληνικού εξωτερικού εμπορίου σε σχέση με τα υπόλοιπα Κράτη Μέλη της Ε.Ε..

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΔΕΝ ΕΧΕΙ ΥΠΟΧΡΕΩΣΗ ΝΑ ΠΛΗΡΩΣΕΙ ΕΑΝ ΔΕΝ ΛΑΒΕΙ ΤΟ ΝΟΜΙΜΟ ΠΑΡΑΣΤΑΤΙΚΟ ΣΤΟΙΧΕΙΟ (ΑΠΟΔΕΙΞΗ - ΤΙΜΟΛΟΓΙΟ). ALLO

ΕCVET & ελληνική πραγματικότητα: όρια, δυνατότητες και προοπτικές στην εποχή της κρίσης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Η φορολογία ακινήτων

Η διαχείριση της νοσοκομειακής φαρμακευτικής δαπάνης: Τρέχουσα πρακτική και ορθολογική διαχείριση

Students Like Learning Mathematics Scale, Eighth Grade

Ζ ΕΞΑΜΗΝΟ ΔΙΑΛΕΞΗ 2 ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΤΗΤΑ ΣΤΗΝ ΕΛΛΑΔΑ

ΔΙΑΡΚΕΙΑ ΚΙΝΗΤΙΚΟΤΗΤΑΣ ΔΙΑΡΚΕΙΑ ΓΙΑ ΔΙΔΑΣΚΑΛΙΑ ΚΑΙ ΑΡΙΘΜΟΣ ΣΥΜΜΕΤΕΧΟΝΤΩΝ ΕΠΙΧΟΡΗΓΗΣΗ ΓΙΑ ΔΑΠΑΝΕΣ ΤΑΞΙΔΙΟΥ ΗΜΕΡΗΣΙΑ ΑΤΟΜΙΚΗ ΕΠΙΧΟΡΗΓΗΣΗ

RECRUITMENT CONFERENCE 2019

ISSN O O (Ν External and ntra European. Union trade JJ Ξ 5. Monthly statistics. EME 6 External trade

ΤΙΜΟΚΑΤΑΛΟΓΟΣ ΔΙΕΘΝΩΝ ΚΛΗΣΕΩΝ BUSINESS ΟΙΚΟΝΟΜΙΚΩΝ ΠΡΟΓΡΑΜΜΑΤΩΝ (EURO / min)

Global Talent Competitiveness Index (GTCI) 2018 Παγκόσμιος Δείκτης Ανταγωνιστικότητας Ταλέντων (GTCI) 2017 Ελλάδα Σύνοψη Χώρας

ΤΙΜΟΚΑΤΑΛΟΓΟΣ ΔΙΕΘΝΩΝ ΚΛΗΣΕΩΝ BUSINESS ΟΙΚΟΝΟΜΙΚΩΝ ΠΡΟΓΡΑΜΜΑΤΩΝ (EURO / min)

Students Views on Engaging Teaching in Science Lessons Scale, Eighth Grade

Early Literacy and Numeracy Activities Before Beginning Primary School Scale, Fourth Grade

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΕΝ ΕΧΕΙ ΥΠΟΧΡΕΩΣΗ ΝΑ ΠΛΗΡΩΣΕΙ ΕΑΝ ΕΝ ΛΑΒΕΙ ΤΟ ΝΟΜΙΜΟ ΠΑΡΑΣΤΑΤΙΚΟ ΣΤΟΙΧΕΙΟ (ΑΠΟ ΕΙΞΗ - ΤΙΜΟΛΟΓΙΟ).

Destination CALLSAVER rate Incl. VAT 19%

Παγκόσμια Κατανάλωση Ενέργειας

Το P σηµαίνει Passenger Vehicle δηλαδή Επιβατικό όχηµα. Ο πρώτος αριθµός 165 είναι το πλάτος ελαστικού σε χιλιοστά. Ο δεύτερος αριθµός 70 είναι η αναλ

ΟΔΗΓΙΕΣ ΣΥΜΠΛΗΡΩΣΗΣ ΤΗΣ ΦΟΡΜΑΣ 1 : GRGENER.PL1. Ονοματεπώνυμο παρατηρητών: Υπηρεσία παρατηρητών: Επεξηγηματικά

Erasmus+ Διεθνής Διάσταση Δράση ΚΑ107 / Διεθνής Κινητικότητα

MIDWEEK REGULAR COUPON

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΔΙΑΦΑΝΕΙΑ ΣΤΙΣ ΕΝΟΠΛΕΣ ΔΥΝΑΜΕΙΣ

MOBILE PAYM rate Incl. VAT 19%

External and ntra-european Union trade

Τερζόπουλος Βασίλειος 1, Σαράφης Παύλος 2

Στοιχεία & Αριθμοί για την Κλινική Έρευνα Επιτροπή Κλινικών Μελετών

ΔΕΛΤΙΟ ΤΥΠΟΥ. Ιστορικό του φακέλου. Επόμενα βήματα ΕΥΡΩΠΑΪΚΗ ΕΠΙΤΡΟΠΗ. Βρυξέλλες, 11 Απριλίου 2013

country type pays Prix ht afghanistan fixe AF afghanistan mobile AF albania fixe AL albania mobile AL-2 0.

International Freight Forwarding Mastering the Cost

Destination. MOBILE PAYG rate Incl. VAT 19% MOBILE PAYM rate Incl. VAT 19%

Σύγχρονες Εφαρμογές Τεχνολογιών της Πληροφορίας και των Επικοινωνιών

ΕΛΛΗΝΙΚΗ ΕΞΟΡΥΚΤΙΚΗ ΒΙΟΜΗΧΑΝΙΑ & ΙΕΘΝΕΣ ΠΕΡΙΒΑΛΛΟΝ

2019 BROADCAST PARTNERS

Το τρίγωνο της Μακρο-οικονομίας

ΟΥΣΙΑΣΤΙΚΗ ΚΑΛΥΨΗ ΤΗΣ ΥΓΕΙΑΣ;; ΣΤΟΥΣ ΧΩΡΟΥΣ ΕΡΓΑΣΙΑΣ ΣΤΗΝ ΕΛΛΑΔΑ TO 2015 ΑΠΕΙΚΟΝΙΣΗ ΤΗΣ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑΣ ΕΥΓΕΝΙΑ Π. ΠΑΝΤΑΖΗ

Δημόσια υγεία του παιδιού και κοινωνική παιδιατρική: πεδίο - έννοιες - ορισμοί

Βασικές Ενεργειακές Προκλήσεις στην Ελλάδα

Waverly Hall International Rates

Κοινωνία & Υγεία Οργάνωση Υπηρεσιών: Υπηρεσίες Υγείας στην Ελλάδα

ΟΙΚΟΝΟΜΙΚΗΑΝΑΠΤΥΞΗΣΤΗ ΙΕΘΝΗΟΙΚΟΝΟΜΙΑ: ΜΑΚΡΟΧΡΟΝΙΕΣΤΑΣΕΙΣ. Α. Μπαρτζώκας 23 Μαρτίου 2009

Ηλεκτρονικές Υπηρεσίες Διαχείρισης Στόλου Νικόλαος Ροδόπουλος

Καλές πρακτικές καινοτόμων παιδαγωγικών μεθόδων, TALETE. Χαρίκλεια Τσαλαπάτα, 19/11/2012

Η ΚΑΡΔΙΟΛΟΓΙΑ ΣΤΗΝ ΕΛΛΑΔΑ ΜΕΤΑ ΤΗΝ ΚΡΙΣΗ

On the heterogeneous effect of trade on unemployment

1) Νέα ανεξάρτητη αρχή δημοσίων εσόδων (ισχύς από )

Students Confident in Mathematics Scale, Eighth Grade

QRC RICE INSPECTION CELL KARACHI,LAHORE,QUETTA & TCP COUNTRY WISE POSITION OF EXPORT OF BASMATI RICE JULY, 2013 TO MARCH, 2014

Αποτελέσματα της έρευνας του Παγκόσμιου Οργανισμού Ιατρικής Φυσικής

Το φαρμακευτικό κόστος στην Άνοια. Άμεσο έμμεσο κόστος. Στρατηγικές επιλογές στη διαμόρφωση πολιτικών δημόσιας Υγείας

Transcript:

UNIVERSITY OF THE AEGEAN Department of Mathematics Division of Statistics & Actuarial-Financial Mathematics Laboratory of Statistics and Data Analysis TECHNICAL REPORT SERIES TRS 02/2018 Title Clustering multivariate time-series health data A. Anastasiou, P. Hatzopoulos, A. Karagrigoriou & G. Mavridoglou University of the Aegean

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ: ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ Clustering multivariate time-series health data. ΑΝΑΣΤΑΣΙΟΥ ΑΧΙΛΛΕΑΣ Επιβλέποντες καθηγητές: Καραγρηγορίου Αλέξανδρος Μαυριδογλου Γιώργος Χατζόπουλος Πέτρος

2 Περιεχόμενα Κεφάλαιο 1 ο : Εισαγωγή... 4 Κεφάλαιο 2 ο : Μεθοδολογία... 5 Ανάλυση Συστάδων... 5 Περιγραφή της μεθόδου... 6 Αποστάσεις... 8 Ιεραρχικοί Αλγόριθμοι Συσταδοποίησης... 10 Μέθοδοι σύνδεσης (Linkage Methods)... 11 Άλλες Ιεραρχικοί μέθοδοι... 13 Μειονεκτήματα... 14 Mη-Ιεραρχικοί Αλγόριθμοι Συσταδοποίησης... 14 K-Means Method... 14 Επιλογή Βέλτιστου Αριθμού Ομάδων Συσταδοποίησης... 15 Δεδομένα... 16 Μεταβλητές εισροών (input)... 17 Μεταβλητές εκροών (output)... 18 Κεφάλαιο 3 ο : Αποτελέσματα... 19 Παρουσίαση αποτελεσμάτων... 19 Input... 19 Output... 25 Σύγκριση Input Output... 31 Σύγκριση Ευρωπαϊκών Κρατών... 38 Κεφάλαιο 4 ο : Βιβλιογραφία... 40

3

4 Κεφάλαιο 1 ο : Εισαγωγή Σε πολλές χώρες του ΟΟΣΑ, το σύστημα υγείας αποτελεί τη μεγαλύτερη υπηρεσία με μέσο κόστος υγείας που ξεπερνά το 9% του ΑΕΠ της χώρας. Βέβαια η ανισότητα μεταξύ των κρατών και σε αυτό το κομμάτι είναι σημαντική. Οι χώρες του ΟΟΣΑ καταβάλλουν επί του παρόντος ποσά ρεκόρ για την υγεία φροντίδα σε σύγκριση με άλλα μέρη του κόσμου. Κάτω από τον τίτλο δαπάνες υγείας, υπάρχουν δαπάνες για την πρόληψη και αντιμετώπιση ασθενειών καθώς και την αποκατάσταση του ασθενούς μετά την αντιμετώπιση της ασθένειας. Οι δαπάνες αυτές καλύπτουν νοσοκομειακές και μη δαπάνες και περιλαμβάνουν ιατρικές υπηρεσίες εντός και εκτός νοσοκομείων, νοσηλευτικές δαπάνες εντός νοσοκομείων, δαπάνες για την αποκατάσταση ασθενών καθώς και φαρμακευτικές δαπάνες. Η χρηματοδότηση του συστήματος υγείας στηρίζεται σε πόρους της κυβέρνησης, που προκύπτουν μέσα από τη φορολόγηση των πολιτών, από την κοινωνική ασφάλιση και τα χρήματα ασφαλισμένων και εργοδοτών καθώς και τα χρήματα που πληρώνουν οι ιδιώτες (out of pocket), άμεσα στους παρόχους υγείας όσο και μέσω ασφαλιστηρίων συμβολαίων. Δημογραφικοί παράγοντες καθώς και η παγκόσμια οικονομική κρίση ανάγκασαν πολλές χώρες στο να ξανακοιτάξουν τις δαπάνες αυτές και κυρίως να αναζητήσουν τρόπους ώστε οι πόροι αυτοί να παράγουν καλύτερα αποτελέσματα. Αυτό οδήγησε σε ένα αυξανόμενο ενδιαφέρον για τις συγκρίσεις των επιδόσεων στα εθνικά συστήματα υγειονομικής περίθαλψης. Οι δαπάνες για την υγεία είναι ένα σημαντικός δείκτης για την καλύτερη κατανόηση και μέτρηση των επιδόσεων της υγειονομικής περίθαλψης. Στην παρούσα εργασία προσπαθούμε να εξετάσουμε την επίδοση των συστημάτων υγείας στηριζόμενοι στην ανάλυση συστάδων. Στηριζόμενοι σε στατιστικά δεδομένα της Παγκόσμιας Οργάνωσης Υγείας (ΠΟΥ) που αφορούν τους πόρους που παρέχονται στο σύστημα υγείας και τα αποτελέσματα που αυτό παράγει γίνεται ταξινόμηση των κρατών για να αναδειχθούν ομοιότητες και διαφορές μεταξύ τους.

5 Κεφάλαιο 2 ο : Μεθοδολογία Ανάλυση Συστάδων Η ανάλυση κατά συστάδες (Cluster Analysis ή Clustering), είναι μια μέθοδος που έχει σκοπό να κατατάξει σε ομάδες υπάρχουσες παρατηρήσεις, χρησιμοποιώντας την πληροφορία που υπάρχει σε κάποιες μεταβλητές. Με άλλα λόγια η ανάλυση κατά συστάδες εξετάζει πόσο όμοιες είναι κάποιες παρατηρήσεις ως προς κάποιον αριθμό μεταβλητών με σκοπό να δημιουργήσει ομάδες από παρατηρήσεις που μοιάζουν μεταξύ τους. Ιδανικό θα είναι να καταλήξουμε σε ομάδες για τις οποίες οι παρατηρήσεις μέσα σε κάθε ομάδα να είναι όσο γίνεται πιο ομοιογενείς αλλά παρατηρήσεις διαφορετικών ομάδων να διαφέρουν όσο γίνεται περισσότερο. Η ανάλυση συστάδων, εμφανίζεται σε εργασίες που αφορούν την ανθρωπολογία και την ψυχολογία στα μέσα του 20ου αιώνα, με τις εργασίες των Tryon R., Driver H.E., Kroeber A.L., Clements F.E. (μια αρκετά αναλυτική βιβλιογραφική ανασκόπηση των αρχικών αυτών εργασιών παρουσιάζονται από τον Clement F.E. στο American Anthropologist, No 56, 1954). Η σημαντική της ανάπτυξη ξεκινά στα μέσα των δεκαετιών 70 και 80 με την αύξηση της υπολογιστικής ισχύς και με την έκδοση των συγγραμμάτων των Anderberg (1973), Everitt (1980), και Aldenderfer and Blashfield (1984). Στις μέρες μας, η ανάλυση συστάδων έχει βρει έδαφος για την εφαρμογή της σε κλάδους όπως η περιβαλλοντολογία, η βιολογία, η ιατρική, η αρχαιολογία, το μάρκετινγκ κα. Παρακάτω παρουσιάζονται μερικές εφαρμογές στις παραπάνω επιστημονικές περιοχές : Οι περιβαλλοντολόγοι ενδιαφέρονται να κατατάξουν διαφορετικά είδη φυτών σε ομάδες με βάση κάποια χαρακτηριστικά τους. Ασθενείς που έχουν προσβληθεί από την ίδια ασθένεια μπορούν να δώσουν συστάδες με βάση την αντίδραση τους σε συγκεκριμένη θεραπεία. Στη συνέχεια, για κάθε νέο ασθενή αναγνωρίζοντας σε ποια συστάδα ανήκει μπορεί να προταθεί η καταλληλότερη θεραπεία. Στο μάρκετινγκ το ενδιαφέρον είναι πως μπορούν να ομαδοποιηθούν οι πελάτες σύμφωνα με τα στοιχεία που υπάρχουν σχετικά με τις αγοραστικές τους συνήθειες και τα δημογραφικά χαρακτηριστικά τους (market segmentation). Η ανάλυση συστάδων είναι από τα συνηθέστερα εργαλεία στον διαχωρισμό ομάδων στην αγορά.

6 Στην αρχαιολογία ενδιαφέρεται κανείς να κατατάξει τα ευρήματα μιας ανασκαφής σε ομάδες που για παράδειγμα αντανακλούν διαφορετικές χρονικές περιόδους. Για να το επιτύχει αυτό προσπαθεί να χρησιμοποιήσει μια σειρά από μετρήσεις σχετικές με τα ευρήματα ώστε με βάση αυτές τις μετρήσεις να ομαδοποιήσει τα ευρήματα. Περιγραφή της μεθόδου Η λογική πίσω από την ανάλυση συστάδων είναι η οργάνωση μιας συλλογής από δείγματα-στοιχεία (patterns) σε συστάδες (clusters) με βάση κάποιο μέτρο ομοιότητας. Με άλλα λόγια, δοθέντος ενός συνόλου διανυσμάτων δεδομένων Χ = {x 1, x 2,, x n } να τα ομαδοποιήσουμε έτσι ώστε τα «περισσότερο όμοια» να ανήκουν στην ίδια ομάδα, ενώ τα «λιγότερα όμοια» να ανήκουν σε διαφορετικές ομάδες (Theodoridis, Pikrakis, Kountroumbas, Cavouras). Πως καθορίζεται όμως ότι δυο στοιχεία είναι «περισσότερο» ή «λιγότερο» όμοια; Η γειτνίαση ποσοτικοποιείται με ένα μέτρο εγγύτητας. Αυτό μπορεί να είναι ένα μέτρο ομοιότητας ή διαφοράς. Τα στοιχεία συνήθως περιγράφονται σαν διανύσματα τιμών κάποιων μέτρων ή αναπαρίστανται ως σημεία σε έναν πολυδιάστατο χώρο. Τα βασικά βήματα στην ανάλυση συστάδων περιλαμβάνουν την επιλογή των μεταβλητών, της μεθόδου ταξινόμησης, της μετρικής απόστασης και του αλγορίθμου σύνδεσης, καθώς επίσης μετά την διεξαγωγή της ταξινόμησης, την επιλογή του αριθμού των συστάδων και τέλος την αξιολόγηση και ερμηνεία των αποτελεσμάτων (Διάγραμμα 1). Γενικά όταν αναφερόμαστε στη δημιουργία συστάδων εννοούμε τη δημιουργία κ- ομάδων με βάση τα X1,X2,...,Xn τυχαία διανύσματα - παρατηρήσεις, με την i-οστη ομάδα να περιλαμβάνει n i από τα n διανύσματα, έτσι ώστε: n 1 + n 2 + n 3 +... + n k = n Όπως αναφέρθηκε παραπάνω, σκοπός της μεθόδου είναι η κατασκευή ομάδων όπου τα στοιχεία μέλη κάθε ομάδας να είναι όμοια και οι ομάδες μεταξύ τους να είναι ανόμοιες. Το παραπάνω μπορεί να μεταφραστεί ως μικρή μεταβλητότητα εντός των ομάδων και η μεγάλη μεταβλητότητα μεταξύ των ομάδων. Τα ερωτήματα που προκύπτουν για την υλοποίηση του παραπάνω στόχου είναι ο τρόπος μέτρησης της ομοιότητας και της απόστασης μεταξύ των ομάδων, ποια είναι ελάχιστη απόσταση για τον διαχωρισμό δυο ομάδων, ποιο είναι το κριτήριο συσταδοποίησης, αφού διαφορετικά κριτήρια δίνουν διαφορετικές συστάδες με τα ίδια χαρακτηριστικά.

7 Εικόνα 1. Ροή εργασίας στην ανάλυση συστάδων Τα παραπάνω θα γίνουν περισσότερο κατανοητά στο παρακάτω παράδειγμα. Έστω ότι εξετάζουμε 11 γλώσσες οι οποίες χρησιμοποιούν το λατινικό αλφάβητο. Θέλουμε να ομαδοποιήσουμε τις γλώσσες αυτές με κριτήριο το αν οι λέξεις που αντιστοιχούν στους αριθμούς 1,2,..,10 ξεκινούν με το ίδιο γράμμα. Για κάθε γλώσσα δημιουργείται ένα διάνυσμα με το 1ο γράμμα των αριθμών 1,2,,10. Ως μέτρο ομοιότητας έχει χρησιμοποιηθεί η συμφωνία με βάση το παραπάνω κριτήριο. Τα αποτελέσματα δημιουργούν τις παρακάτω ομάδες : Ομάδα 1: Αγγλικά, Νορβηγικά,Δανέζικα,Ολλανδικά,Γερμανικά. Ομάδα 2: Γαλλικά,Ιταλικά,Ισπανικά, Πολωνικά. Ομάδα 3: Ουγγρικά Ομάδα 4: Φιλανδέζικα. Ανάλογα όμως κριτήρια μπορούν να χρησιμοποιηθούν και για άλλες λέξεις στα διαφορετικά αλφάβητα, οδηγώντας σε διαφορετική Συσταδοποίηση. Άρα καταλήγουμε στο συμπέρασμα, ότι η επιλογή του κριτηρίου Συσταδοποίησης είναι πολύ σημαντική για την μετέπειτα μελέτη μας. Γενικά εφόσον εμείς έχουμε ως στόχο την διαμέριση των δεδομένων μας. Οι δυνατοί τρόποι για να γίνει αυτό αντιστοιχούν στο πλήθος των ακέραιων λύσεων της

8 εξίσωσης και ισούται με S(n,k)= 1 k! n i=0 ( 1)k i ( n k )in. Συνεπώς προκύπτουν πολλοί τρόποι διαχωρισμού αφού για παράδειγμα για να διαμερίσουμε 16 χαρτιά σε 2 ομάδες έχουμε S(16,2)=32767 τρόπους. Για αυτό έχουν αναπτυχθεί αλγόριθμοι ώστε να χωρίζουμε τις συστάδες. Οι βασικότερες και πιο διαδεδομένες μέθοδοι-αλγόριθμοι συστάδων είναι: για την ανάλυση Ιεραρχικές μέθοδοι: Οι ομάδες σχηματίζονται σταδιακά είτε με συνένωση μικρότερων ομάδων σχηματίζοντας συνεχώς μεγαλύτερες ομάδες μέχρι να φτάσουμε να έχουμε όλα τα δεδομένα σε μια ομάδα (συσσωρευτικές μέθοδοι), είτε με διαίρεση ομάδων σε μικρότερες μέχρι να φτάσουμε σε μια κατάσταση όπου κάθε παρατήρηση να είναι από μόνη της μια ομάδα (διαιρετικές μέθοδοι). Μη ιεραρχικές μέθοδοι: Τα δεδομένα διαιρούνται σε k τμήματα. Κάθε ένα από τα τμήματα αυτά αντιστοιχεί σε μία ομάδα. Σε αντίθεση, λοιπόν, με τις ιεραρχικές μεθόδους ο αριθμός των ομάδων που θα δημιουργηθούν θα πρέπει να είναι γνωστός εκ των προτέρων. Αποστάσεις Στην Ανάλυση Συστάδων η παραγωγή ομάδων από ένα πολύπλοκο σύνολο δεδομένων απαιτεί ένα μέτρο «εγγύτητας». Υπάρχει συχνά μεγάλη υποκειμενικότητα στην επιλογή ενός μέτρου απόστασης. Καλό είναι σε αυτήν την επιλογή να λαμβάνονται υπόψιν η φύση των μεταβλητών (διακριτή, συνεχής, δυαδική), κλίμακες μέτρησης (ονομαστική, κανονική, διάστημα, αναλογία) και γνώση του αντικειμένου. Γενικά η απόσταση d μεταξύ x =( ) Και y = ( ) ικανοποιεί τις παρακάτω ιδιότητες: Μη-αρνητική d(x,y) 0 με d(x,y) = 0 αν-ν x = y Συμμετρική d(x,y)= d(y,x) Τριγωνική Ανισότητα d(x,y) d(y,z) + d(x,z) Η περίπτωση των συνεχών δεδομένων είναι ίσως η απλούστερη αλλά και η περισσότερο διαδεδομένη. Υπάρχουν πολλές αποστάσεις που έχουν χρησιμοποιηθεί για να μετρήσουν την απόσταση ανάμεσα σε συνεχή δεδομένα. Πιο κάτω περιγράφονται μερικές από αυτές. Θα πρέπει να παρατηρήσουμε πως δεν ικανοποιούν απαραίτητα τις ιδιότητες που είδαμε πριν από λίγο. Ευκλείδεια: d(x,y) = x-y = (x y) (x y) Η ευκλείδεια απόσταση εξαρτάται πολύ από την κλίμακα μέτρησης κι επομένως αλλάζοντας την κλίμακα μπορούμε να πάρουμε ολότελα διαφορετικές αποστάσεις. Επίσης μεταβλητές με μεγάλες απόλυτες τιμές έχουν πολύ μεγαλύτερο βάρος και

9 σχεδόν καθορίζουν την απόσταση ανάμεσα σε παρατηρήσεις. Στην πραγματικότητα η απόσταση αγνοεί τις στατιστικές ιδιότητες των παρατηρήσεων όπως για παράδειγμα τη μεταβλητότητα κάθε μεταβλητές. Δεδομένου ότι παίρνουμε τετραγωνικές αποκλίσεις outliers έχουν μεγάλη επίδραση στον υπολογισμό της απόστασης. Συμπεραίνουμε δηλαδή ότι η ευκλείδεια απόσταση είναι ανεπαρκής.ένας τρόπος για να αποφύγουμε αυτή την ανεπάρκεια είναι να διαιρέσουμε όλες τις μεταβλητές με τις τυπικές τους αποκλίσεις. p City-Block ή Manhattan: d c = i=1 x i Y i Η απόσταση Manhattan μοιάζει πολύ με την ευκλείδεια απόσταση με τη διαφορά ότι αντί για τετραγωνικές αποκλίσεις χρησιμοποιούμε απόλυτες αποκλίσεις. Συνήθως λόγω της ομοιότητας της με την ευκλείδεια απόσταση δίνει περίπου ίδια αποτελέσματα εκτός από την περίπτωση που υπάρχουν outliers όπου επειδή τους δίνει μικρότερο βάρος (εξαιτίας της απόλυτης τιμής) μπορεί να οδηγήσει σε πιο ανθεκτικά αποτελέσματα. p Minkowski τάξης s: d M =( i=1 x i Y i s ) 1/s Η απόσταση Minkowski κατά κάποιον τρόπο γενικεύει την Ευκλείδεια απόσταση και την απόσταση Manhattan. Η τιμή της παραμέτρου q μπορεί να χρησιμοποιηθεί για να δώσει ιδιαίτερο βάρος σε κάποιες αποκλίσεις. Προφανώς αν q=1 προκύπτει η απόσταση Manhattan ενώ αν q=2 η ευκλείδεια απόσταση. Chebyshev: d T = max { x i Y i, i = 1,2,, p} Η απόσταση αυτή είναι χρήσιμη όταν κανείς θέλει να εξετάσει εάν δύο παρατηρήσεις έχουν διαφορές τουλάχιστον σε μια μεταβλητή. Επειδή η απόσταση χρησιμοποιεί μόνο τη μεγαλύτερη απόκλιση εξαρτάται πολύ από τις διαφορές στην κλίμακα των μεταβλητών και επομένως αν οι κλίμακες είναι διαφορετικές ουσιαστικά θα αντικατοπτρίζει τη διαφορά στη μεταβλητή με την μεγαλύτερη κλίμακα. Quadratic: Αν Q είναι ένας θετικά ορισμένος πίνακάς, ορίζεται η απόσταση d Q = (x y) Q(x y) Mahalanobis ή Στατιστική απόσταση: Αν x,y είναι τυχαία διανύσματα με τον ίδιο πίνακα διακυμάνσεων - συνδιακυμάνσεων Σ τότε d= (x y) Σ 1 (x y). Είναι δηλαδή είναι ένα μέτρο απόστασης που εκ κατασκευής βασίζεται σε στατιστικές έννοιες και λαμβάνει υπόψη διακυμάνσεις και συνδιακυμάνσεις.

10 Ιεραρχικοί Αλγόριθμοι Συσταδοποίησης Οι ιεραρχικοί αλγόριθμοι Συσταδοποίησης ακολουθούν μια σειρά είτε από διαδοχικές συνενώσεις ομάδων ( agglomerative algorithms) εiτε διαδοχικών διαμελίσεων (Divisive algorithms). Οι διαδοχικών διαμελίσεων μέθοδοι (Divisive hierarchical methods ) εργάζονται στην αντίθετη κατεύθυνση. Αρχικά το σύνολο των παρατηρήσεων ανήκουν σε μια ομάδα. Έπειτα οι παρατηρήσεις χωρίζονται σε δυο υποομάδες με κριτήριο το ποσό μακριά είναι κάποιες παρατηρήσεις από τις υπόλοιπες. Αυτές οι υποομάδες διαιρούνται περαιτέρω σε άλλες υποομάδες. η διαδικασία συνεχίζεται μέχρι όλες οι παρατηρήσεις να ανήκουν σε μια ομάδα η κάθε μια. Οι μέθοδοι συνένωσης (Agglomerative hierarchical methods) είναι πιο διαδεδομένοι και αρχίζουν με το σύνολο των διαφορετικών παρατηρήσεων σαν μια ομάδα η καθεμιά. Οι πιο όμοιες παρατηρήσεις τοποθετούνται σε μια ομάδα. Στο τελευταίο βήμα όλες οι παρατηρήσεις θα ανήκουν σε μια ενιαία ομάδα. Τα βήματα που ακολουθούνται στην μέθοδο αυτή περιγράφονται παρακάτω : Βήμα 1. Δημιουργούμε τον πίνακα αποστάσεων για όλες τις ομάδες. Βήμα 2. Βρίσκουμε την μικρότερη απόσταση και ενώνουμε τις δύο παρατηρήσεις με τη μικρότερη απόσταση. Δηλαδή δημιουργούμε μια ομάδα με τις παρατηρήσεις που είναι πιο κοντά. Αν η μικρότερη απόσταση αφορά μια ομάδα που έχει ήδη δημιουργηθεί και μια παρατήρηση απλά βάζουμε αυτή την παρατήρηση σε αυτή την ομάδα ή αν αφορά 2 ομάδες που ήδη υπάρχουν τις ενώνουμε. Βήμα 3. Αν δεν έχουν όλες οι παρατηρήσεις μπει σε μια ομάδα πήγαινε στο βήμα 1 αλλιώς σταμάτα. Όλα τα βήματα του αλγορίθμου αναπαρίστανται σε ένα δενδρόγραμμά Εικόνα 2. Μορφή δενδροδιαγράμματος

11 Μέθοδοι σύνδεσης (Linkage Methods) Ένα άλλο σημαντικό σημείο για τον αλγόριθμό είναι πως θα υπολογίσουμε την απόσταση της ομάδας που φτιάξαμε. Παρακάτω θα αναφέρουμε μερικές από τις μεθόδους υπολογισμού αυτής της απόστασης. Nearest Neighbor: Σύμφωνα με τη μέθοδο του εγγύτερου γείτονα ( nearest neighbor or single linkage) υπολογίζουμε την απόσταση ανάμεσα σε δύο ομάδες ως τη μικρότερη απόσταση από μια παρατήρηση μέσα στην μια ομάδα με κάποια παρατήρηση στην άλλη ομάδα. Η μέθοδος έχει κάποιες χρήσιμες μαθηματικές ιδιότητες αλλά παράγει ομάδες που δεν είναι συμπαγείς και συνήθως δημιουργεί μερικές πολύ μεγάλες ομάδες και κάποιες πάλι πολύ μικρές. Δηλαδή η παραπάνω μέθοδος κατά κάποιο τρόπο δένει τα αντικείμενα μαζί, καταλήγοντας πολλές φορές σε κλάσεις που περιέχουν μακριές αλυσίδες παρατηρήσεων (chaining effect). Furthest neighbοr: Με τη μέθοδο του απώτερου γείτονα (furthest neighbor or complete linkage), η απόσταση μεταξύ των συστάδων ισοδυναμεί με την μεγαλύτερη απόσταση μεταξύ δύο οποιονδήποτε στοιχείων των δύο συστάδων, δηλαδή με την απόσταση μεταξύ των δύο μακρύτερων σημείων των δύο συστάδων. Η μέθοδος του απώτερου γείτονα είναι συνήθως κατάλληλη σε περιπτώσεις που τα αντικείμενα διακρίνονται φυσικά σε διακριτές μάζες ενώ αντενδείκνυται όταν οι κλάσεις είναι επιμηκυμένες σχηματίζοντας κατά κάποιον τρόπο αλυσίδες παρατηρήσεων. Διότι οι ομάδες που δημιουργούνται είναι συνήθως συμπαγείς αλλά αποτυγχάνει να δημιουργήσει κάποιες μικρές μα πολύ συμπαγείς ομάδες. Average between groups: Με τη μέθοδο της μέσης απόστασης (Sneath & Sokal, 1973), η απόσταση είναι ο μέσος της απόσταση ανάμεσα σε όλες τις αποστάσεις της μιας ομάδας με τα στοιχεία της άλλης. Αν για παράδειγμα η μια ομάδα περιλαμβάνει της παρατηρήσεις {1,2} και η άλλη τις παρατηρήσεις {3,4,5} τότε η απόσταση είναι ο μέσος των αποστάσεων d(1,3), d(1,4), d(1,5), d(2,3), d(2,4), d(2,5). Average within groups: Στην περίπτωση αυτή η απόσταση είναι ο μέσος όλων των αποστάσεων που προκύπτουν όταν ενώσουμε τις δύο ομάδες. Δηλαδή στην περίπτωση των ομάδων που είχαμε πριν η νέα απόσταση θα είναι ο μέσος των αποστάσεων d(1,2), d(1,3), d(1,4), d(1,5), d(2,3), d(2,4), d(2,5), d(3,4), d(3,5), d(4,5).

12 Weighted Average: Ακολουθεί την ίδια μεθοδολογία με την μέθοδο της μέσης απόστασης με την μόνη διαφορά ότι η μέθοδος της σταθμισμένης μέσης απόστασης σταθμίζει τις αποστάσεις με το μέγεθος των συστάδων, δηλαδή με τον αριθμό των αντικειμένων που περιέχονται σε αυτές (Sneath & Sokal, 1973). Είναι κατάλληλη στις περιπτώσεις όπου οι κλάσεις έχουν πολύ διαφορετικό μέγεθος. Centroid: Η απόσταση υπολογίζεται ως η απόσταση των κέντρων των ομάδων. Η μέθοδος αυτή έχει μερικές καλές ιδιότητες και παράγει συνήθως ομάδες συμπαγείς και ελλειπτικές. Ward method: Η μέθοδος του Ward διαφέρει πολύ από τις όλες τις υπόλοιπες μεθόδους που αναλύσαμε παραπάνω, καθώς χρησιμοποιεί τεχνικές ανάλυσης διακύμανσης για να υπολογίσει τις αποστάσεις ανάμεσα στις κλάσεις. Ουσιαστικά ο Ward (1963) θέλοντας να ελαχιστοποιήσει την απώλεια πληροφορίας που συνοδεύει κάθε ομαδοποίηση, πρότεινε μια διαδικασία συσταδοποίησης σε κάθε στάδιο της οποίας συνενώνονται οι κλάσεις με το μικρότερο άθροισμα τετραγώνων των σφαλμάτων (ESS), όπου το άθροισμα των τετραγώνων λειτουργεί ως κριτήριο της απώλειας. Η μέθοδος έχει μερικές πολύ καλές ιδιότητες και συνήθως δημιουργεί ομάδες με παρόμοιο αριθμό παρατηρήσεων. Για αυτό και πολύ συχνά χρησιμοποιείται στην πράξη. Ας δούμε με ένα παράδειγμα την μέθοδο αυτή: Έστω 10 παρατηρήσεις (1, 1, 1, 1, 2, 2, 2, 5, 5, 10) για κάποια μεταβλητή π.χ. η βαθμολογία ενός φοιτητή στην εξεταστική του 1ου εξαμήνου. Αν μεταχειριζόμασταν και τις δέκα βαθμολογίες ως μία συστάδα με μέσο όρο 3, προκύπτει απώλεια πληροφοριών ίση με το άθροισμα των τετραγώνων των σφαλμάτων: ESS1 = 4*(1-3) 2 + 3*(2-3) 2 + 2*(5-3) 2 + (10-3) 2 =68 Αν όμως χωρίσουμε τις παραπάνω παρατηρήσεις σε 4 κλάσεις : {1,1,1,1},{2,2,2}, {5,5}, {10} τότε ESS2 = ESScluster1 + ESScluster2 + ESScluster3 + ESScluster4 = 0 που σημαίνει ότι αν χωρίσω τις παρατηρήσεις σε 4 κλάσεις έχω μηδενική απώλεια πληροφορίας.

13 Εικόνα 3. Δημιουργία Συστάδων με Iεραρχικές Μεθόδους. (a) Single Linkage (b) Complete Linkage (c) Average Linkage, ( Johnson and Wichern). Άλλες Ιεραρχικοί μέθοδοι Η μέθοδος CURE χρησιμοποιεί ένα σύνολο από σημεία, αντί να χρησιμοποιεί μόνο ένα σημείο για να εκπροσωπεί μία συστάδα σύμφωνα με τις μεθόδους που είναι βασισμένες σε κέντρα βάρους. Αυτός ο σταθερός αριθμός των αντιπροσωπευτικών σημείων της συστάδας επιλέγεται έτσι ώστε να είναι καλά διεσπαρμένα και μετά να μειώνονται ως προς το κέντρο βάρους της κάθε συστάδας σύμφωνα με τον παράγοντα μείωσης. Μετά οι συστάδες συγχωνεύονται επανειλημμένα βάση της ομοιότητάς τους. Η ομοιότητα μεταξύ δύο συστάδων μετριέται με την ομοιότητά του πιο κοντινού ζεύγους από τα αντιπροσωπευτικά σημεία που ανήκουν σε διαφορετικές συστάδες. Η μέθοδος ROCK ενεργεί πάνω σε έναν παραγόμενο γράφημα ομοιοτήτων. Αντί να χρησιμοποιεί την έννοια της απόστασης για να μετρήσει την ομοιότητα μεταξύ των σημείων, χρησιμοποιείται η έννοια των δεσμών η οποία περιέχει περισσότερες γενικές πληροφορίες του διαστήματος συστάδων έναντι του μέτρου ομοιότητας απόστασης που εξετάζει μόνο την τοπική απόσταση μεταξύ δύο σημείων. Το πρόβλημα του αλγορίθμου είναι ότι δεν είναι επιτυχής στο να κανονικοποιεί δεσμούς συστάδων. Το αποτέλεσμα του ROCK δεν είναι καλό για πολύπλοκες συστάδες με ποικίλες πυκνότητες δεδομένων. Ακόμα είναι πολύ ευπαθής στην επιλογή των παραμέτρων και ευαίσθητος στον θόρυβο.

14 Μειονεκτήματα Τα βασικά μειονεκτήματα των αλγορίθμων ιεραρχικής Συσταδοποίησης είναι τα εξής: Απαιτούν μεγάλο φόρτο εργασίας και μεγάλους αποθηκευτικούς χορούς για μεγάλα dataset. Αυτό οφείλεται στο γεγονός ότι πρέπει κανείς να σχηματίσει και να αποθήκευση στη μνήμη του υπολογιστή ολόκληρο τον πίνακα αποστάσεων των παρατηρήσεων. Αν μια παρατήρηση μπει σε μια ομάδα δεν μπορεί να ξανά βγει,άρα οι παρατηρήσεις μέσα στις ομάδες είναι για <<πάντα μαζί>>. Πολύ συχνά καταλήγουμε στη δημιουργία ενός μικρού πλήθους ομάδων με πολλές παρατηρήσεις και αφήνει αρκετές παρατηρήσεις να είναι από μόνες τους ανεξάρτητες ομάδες. Mη-Ιεραρχικοί Αλγόριθμοι Συσταδοποίησης Ο στόχος των μη ιεραρχικών μεθόδων είναι να ομαδοποιήσουν τις n μονάδες των δεδομένων σε k ομάδες, όπου το k είναι καθορισμένο από την αρχή. Αυτό αποτελεί έναν περιορισμό της μεθόδου, καθώς είτε πρέπει να τρέξουμε τον αλγόριθμο με διαφορετικές επιλογές ως προς το πλήθος των ομάδων, είτε πρέπει με κάποιον άλλο τρόπο να έχουμε καταλήξει στον αριθμό των ομάδων. Ο μηχανισμός λειτουργίας των περισσότερων μη ιεραρχικών μεθόδων είναι: να θεωρούν k συγκεκριμένα άτομα (μητρικά σημεία- seed points) και γύρω από αυτά να ταξινομηθούν τα υπόλοιπα στοιχεία έως ότου διαμορφωθούν οι επιθυμητές ομάδες ή να ξεκινούν με ένα αρχικό διαμερισμό (initial partition) των ατόμων σε k ομάδες και στη συνέχεια να μετακινούν τις παρατηρήσεις μεταξύ των ομάδων έως ότου πετύχουν τον καλύτερο διαμερισμό. K-Means Method Ο πιο διαδεδομένος αλγόριθμος είναι ο αλγόριθμος k-means που ανήκει σε μια μεγάλη οικογένεια αλγορίθμων ομαδοποίησης που είναι γνωστοί ως αλγόριθμοι διαμέρισης (partitioning algorithms). Ουσιαστικά οι αλγόριθμοι είναι έτσι φτιαγμένοι ώστε να διαμερίζουν το πολυεπίπεδο που δημιουργούν τα δεδομένα σε περιοχές και να αντιστοιχούν μια περιοχή σε κάθε ομάδα. Η μέθοδος θεωρεί ότι ο αριθμός των ομάδων που θα προκύψουν είναι γνωστός εκ των προτέρων. Αυτό αποτελεί έναν περιορισμό της μεθόδου καθώς είτε πρέπει να τρέξουμε τον αλγόριθμο με διαφορετικές επιλογές ως προς το πλήθος των ομάδων είτε πρέπει με κάποιον άλλο τρόπο να έχουμε καταλήξει στον αριθμό των ομάδων.

15 Η μέθοδος δουλεύει επαναληπτικά. Χρησιμοποιεί την έννοια του κέντρου της ομάδας και στη συνέχεια κατατάσσει τις παρατηρήσεις ανάλογα με την απόσταση τους από τα κέντρα όλων των ομάδων. Το κέντρο της ομάδας είναι η μέση τιμή για κάθε μεταβλητή όλων των παρατηρήσεων των ομάδων, δηλαδή αντιστοιχεί στο διάνυσμα των μέσων. Ο αλγόριθμος k-means για την ταξινόμηση n παρατηρήσεων σε ομάδες ακολουθεί τα παρακάτω βήματα. Βήμα 1: Επιλεγώ τα k αρχικά κέντρα (seed points) για τις k (μη προσδιορισμένες ) ομάδες. Βήμα 2: Τοποθετούμε καθένα από τα i=1,.,n αντικείμενα στην πιο κοντινή ομάδα (μικρότερη απόσταση με το κέντρο της ομάδας). Βήμα 3: Υπολογίζουμε εκ νέου τα κέντρα των νέων ομάδων (μετά την τοποθέτηση των αντικειμένων στο Βήμα 2). Βήμα 4: Επαναλαμβάνουμε το Βήμα 2 και Βήμα 3 μέχρι να προκύψει μια βέλτιστη τιμή για ολικό σφάλμα Συσταδοποίησης. Ο αλγόριθμος k-means είναι υπολογιστικά αποδοτικός και δίνει πολύ καλά αποτελέσματα, δηλαδή συμπαγείς, σφαιρικές και καλώς διαχωρισμένες ομάδες. Επιπλέον έχει καλή απόδοση στην ανίχνευση/δημιουργία ομάδων ελλειψοειδούς σχήματος,αν χρησιμοποιηθεί η απόσταση Mahalanobis αντί της ευκλείδειας απόστασης. (Johnson & Wichern,1998; Κούτρας, 2008; Ρακιτζής,2017) Εικόνα 4. Αναπαράσταση αποτελεσμάτων μη ιεραρχικών αλγορίθμων Αντίθετα με τις Ιεραρχικές μεθόδους,ο αλγόριθμος k-means δεν απαιτεί τον πίνακα αποστάσεων ενώ τα δεδομένα δεν είναι ανάγκη να αποθηκεύονται κατά την εκτέλεση του. Συνεπώς είναι προτιμότερη η χρήση του για μεγάλα dataset. Επιλογή Βέλτιστου Αριθμού Ομάδων Συσταδοποίησης Η μέθοδος silhouette μετρά πόσο καλά μια παρατήρηση συσσωρεύεται και εκτιμά

16 τη μέση απόσταση μεταξύ των cluster. Η γραφική παράσταση εμφανίζει ένα μέτρο του πόσο κοντά κάθε σημείο σε ένα cluster είναι στα σημεία στα γειτονικά clusters. Για κάθε παρατήρηση i, το πλάτος της silhouette μεθόδου υπολογίζεται ως εξής: 1. Για κάθε παρατήρηση i, υπολογίστε τη μέση ανομοιογένεια a i μεταξύ i και όλων των άλλων σημείων του cluster στo οποίo το i ανήκει. 2. Για όλες τις άλλες ομάδες C, στις οποίες δεν ανήκω, υπολόγισε τον μέσο όρο η ανομοιογένεια d (i, C) του i σε όλες τις παρατηρήσεις του C. Το μικρότερο από αυτά τα d (i, C) ορίζεται ως b i = min c d (i, C). Η τιμή του b i μπορεί να θεωρηθεί ως η ανομοιογένεια μεταξύ του i και του "γειτονικού" Cluster του, δηλ. του πλησιέστερου στο οποίο δε ανήκει. 3. Τέλος, το πλάτος της silhouette μεθόδου για την παρατήρηση i ορίζεται από τον τύπο: S i = (b i - a i ) / max (a i, b i ). Το πλάτος της silhouette μεθόδου μπορεί να ερμηνευτεί ως εξής: Παρατηρήσεις με μεγάλο S i (σχεδόν 1) είναι πολύ καλά συγκεντρωμένες. Ένα μικρό S i (περίπου 0) σημαίνει ότι η παρατήρηση βρίσκεται ανάμεσα σε δύο συστάδες. Παρατηρήσεις με αρνητικό S i πιθανώς τοποθετούνται σε λανθασμένο σύμπλεγμα. (Alboukadel Kassambara, 2017) Δεδομένα Για την υλοποίηση της παρούσας μελέτης στηριχτήκαμε σε δεδομένα κρατών που διατηρεί η Παγκόσμια Οργάνωση Υγείας (World Health Organization, WHO) και που είναι διαθέσιμα στην ιστοσελίδα του Global Health Observatory (GHO), http://www.who.int/gho/en/. Η ανάκτηση των δεδομένων έγινε στις 11/3/2018. Τα δεδομένα μεταβλητές μπορούν να χωριστούν σε δυο διακριτές ομάδες: η πρώτη ομάδα αφορά μεταβλητές που μετρούν τους πόρους, οικονομικούς, υλικούς και ανθρώπινους, που εισρέουν στο σύστημα υγείας (input) και επηρεάζουν την υγεία του πληθυσμού τους και η δεύτερη μεταβλητές αποτελέσματος (output) των εισροών αυτών. Τα στοιχεία έχουν μορφή χρονοσειράς που ξεκινά από το 2000 έως το 2015 και αφορούν τα περισσότερα από τα κράτη που παρακολουθεί η Παγκόσμια Οργάνωση Υγείας.

17 Μεταβλητές εισροών (input) Οι μεταβλητές εισροών είναι 28 και μπορούν να χωριστούν σε τρεις υποομάδες δεικτών, οικονομικές εισροές, ανθρώπινο δυναμικό, υποδομές. Μια συνοπτική περιγραφή τους δίνεται παρακάτω. Οικονομικοί δείκτες Οι οικονομικοί δείκτες περιλαμβάνουν την συνολική δαπάνη για υπηρεσίες υγείας και την κατανομή των δαπανών αυτών σε Κρατικές, Ιδιωτικές κλπ. 1. Ποσοστό Δαπανών Υγείας ως ποσοστό του ΑΕΠ (CHE, Current health expenditure as percentage of gross domestic product ). Ο δείκτης αυτός παρουσιάζει τις δαπάνες υγείας (δημόσιες και ιδιωτικές) ως ποσοστό του ΑΕΠ. 2. Ποσοστό Κρατικών δαπανών ως ποσοστό των Δαπανών Υγείας (GGHE-D, Domestic general government health expenditure as percentage of current health expenditure). Ο δείκτης αυτός παρουσιάζει τις δημόσιες κρατικές δαπάνες ως ποσοστό των συνολικών δαπανών υγείας. 3. Ποσοστό Ιδιωτικών δαπανών ως ποσοστό των Δαπανών Υγείας (PVT, Domestic private health expenditure as percentage of current health expenditure), 4. Ποσοστό Εξωτερικών δαπανών ως ποσοστό των δαπανών Υγείας (EXT, External health expenditure as percentage of current health expenditure), 5. Ποσοστό άμεσων δαπανών υγείας από νοικοκυριά ως ποσοστό των δαπανών υγείας (OOP, Out-of-pocket expenditure as percentage of current health expenditure). Δείκτες υποδομών και ανθρώπινου δυναμικού Οι δείκτες υποδομών περιλαμβάνουν το πλήθος εργαζομένων στην Υγεία ανά 1000 κατοίκους και ειδικότητα εργαζόμενου καθώς και το πλήθος κρεβατιών ανά 10000 κατοίκους. 6. Αριθμός φαρμακοποιών ανά 1000 άτομα (PhP, Pharmaceutical personnel density (per 1000 population). 7. Αριθμός ιατρών ανά 1000 άτομα, (Phd, Physicians density per 1000 population). 8. Αριθμός εργαστηριακού προσωπικού ανά 1000 άτομα, (LW, Laboratory health workers density per 1000 population). 9. Αριθμός οδοντιάτρων ανά 1000 άτομα, (DeP, Dentistry personnel density per 1000 population) 10. Αριθμός Κοινωνικών Λειτουργών ανά 1000 άτομα, (CTRADI,Community and traditional health workers density per 1000 population). 11. Λοιποί εργαζόμενοι ανά 1000 άτομα, (OWP, Other health workers density per 1000 population). 12. Εργαζόμενοι Δημόσιας Υγείας ανά 1000 άτομα, (EP, Environmental and public health workers density per 1000 population). 13. Διοικητικό προσωπικό στην Υγεία ανά 1000 άτομα, (HMP, Health management & support workers density per 1000 population). 14. Νοσηλευτικό και μαιευτικό προσωπικό ανά 1000 άτομα, (NMID, Nursing and midwifery personnel density per 1000 population). 15. Αριθμός κρεβατιών νοσοκομείου ανά 10000 άτομα, (HBEDS, Hospital beds per 10 000 population) Κανονισμοί Λειτουργία Οι παρακάτω μεταβλητές αφορούν την λειτουργία του ΣΥ και μετρούνται με χρήση ερωτηματολογίου σε ποσοστό %.

18 16. Νομοθεσία, (Legislation), 17. Συνεργασία και Επικοινωνία Εθνικών στόχων 18. Επιτήρηση (Surveillance) 19. Απάντηση (Response) 20. Ετοιμότητα (Preparedness) 21. Αντίληψη κινδύνου (Risk communication) 22. Ανθρώπινο δυναμικό, εκπαίδευση (Human resources) 23. Εργαστήρια (Laboratory) 24. Αντιμετώπιση κινδύνου εισόδου ασθενειών (Points of entry) 25. Αντιμετώπιση κινδύνων στην υγεία του πληθυσμού από ασθένειες ζώων (Zoonosis) 26. Αντιμετώπιση κινδύνων στην υγεία του πληθυσμού από φαγητό (Food safety) 27. Αντιμετώπιση κινδύνων στην υγεία του πληθυσμού από χημικά (Chemical) 28. Αντιμετώπιση κινδύνων στην υγεία του πληθυσμού από ραδιενέργεια (Radionuclear) Όλες οι μεταβλητές είναι ποσοτικές συνεχείς. Μεταβλητές εκροών (output) Οι μεταβλητές αποτελέσματος εκροών είναι 20 και είναι κυρίως δημογραφικοί δείκτες. Οι μεταβλητές είναι οι παρακάτω : 1. Θνησιγένεια ανά 1000 γεννήσεις, (Stillbirths, by 1000 births). 2. Ποσοστό βρεφικής θνησιμότητας (Infant mortality rate). 3. Ποσοστό νεογνικής θνησιμότητας (Neonatal mortality rate). 4. Θνησιμότητα ατόμων κάτω από 5 ετών (Under-five mortality rate). 5. Θνησιμότητα ατόμων 5-14 ετών (Mortality rate for 5-14 year-olds). 6. Θνησιμότητα Ανηλίκων (Adult mortality rate). 7. Θνησιμότητα Ανηλίκων Ανδρών (Adult mortality rate Male). 8. Θνησιμότητα Ανηλίκων Γυναικών (Adult mortality rate Female). 9. Αναμενόμενη ζωή στην Γέννηση (Life expectancy at birth) 10. Αναμενόμενη ζωή στην Γέννηση Άνδρες (Life expectancy at birth). 11. Αναμενόμενη ζωή στην Γέννηση Γυναίκες (Life expectancy at birth). 12. Αναμενόμενη ζωή στην ηλικία των 60 (Life expectancy at age 60). 13. Αναμενόμενη ζωή στην ηλικία των 60 Άνδρες (Life expectancy at age 60). 14. Αναμενόμενη ζωή στην ηλικία των 60 Γυναίκες (Life expectancy at age 60). 15. Αναμενόμενη υγιής ζωής στην γέννηση (Healthy life expectancy (HALE) at birth). 16. Αναμενόμενη υγιής ζωής στην γέννηση Άνδρες (Healthy life expectancy (HALE) at birth). 17. Αναμενόμενη υγιής ζωής στην γέννηση Γυναίκες (Healthy life expectancy (HALE) at birth) 18. Αναμενόμενη υγιής ζωής στην ηλικία των 60 (Healthy life expectancy (HALE) at age 60). 19. Αναμενόμενη υγιής ζωής στην ηλικία των 60 Άνδρες (Healthy life expectancy (HALE) at age 60). 20. Αναμενόμενη υγιής ζωής στην ηλικία των 60 Γυναίκες (Healthy life expectancy (HALE) at age 60). Όλες οι μεταβλητές είναι ποσοτικές συνεχείς.

19 Κεφάλαιο 3 ο : Αποτελέσματα Στο Κεφάλαιο αυτό παρουσιάζονται τα βασικά αποτελέσματα της ανάλυσης συστάδων. Η παρουσίαση των αποτελεσμάτων γίνεται σε δυο στάδια, αρχικά τα αποτελέσματα κάθε μεθόδου και κατόπιν σύγκριση των αποτελεσμάτων. Παρουσίαση αποτελεσμάτων Input Οι μέθοδοι που χρησιμοποιούνται στην παρούσα εργασία προϋποθέτουν τον καθορισμό του αριθμού των συστάδων εκ των προτέρων. Η μέθοδος silhouette μετρά πόσο καλά μια παρατήρηση συσσωρεύεται και εκτιμά τη μέση απόσταση μεταξύ των cluster. Σύμφωνα με το διάγραμμα παρακάτω ο βέλτιστος αριθμός συστάδων είναι 2. Παρουσίαση αποτελεσμάτων ανά μέθοδο Τα παρακάτω διαγράμματα μας δίνουν τα αποτελέσματα κάθε μεθόδου. Κ-Means

20 Method : Euclidean Method : Ward

21 Method : Manhattan Ο παρακάτω πίνακας δίνει την κατανομή των χωρών στις 2 ομάδες συστάδες. Παρατηρούμε ότι η μεγαλύτερη συγκέντρωση κρατών σε μια ομάδα γίνεται με την μέθοδο HCA-EU. Η μεγαλύτερη συγκέντρωση στην ομάδα 2 πραγματοποιούνται με την μέθοδο HCA- MAN. Cluster KM HCA-EU HCA-WARD HCA-MAN N % N % N % N % 1 54 55,1% 84 85,7% 58 59,2% 35 35,7% 2 44 44,9% 14 14,3% 40 40,8% 63 64,3% Total 98 100,0% 98 100,0% 98 100,0% 98 100,0% Συγκρίνοντας την ταξινόμηση των κρατών με τις 4 μεθόδους παρατηρούμε ότι, μόλις το 21% των κρατών έχουν την ίδια ταξινόμηση και στις 3 ιεραρχικές μεθόδους, ενώ συγκρίνοντας την ταξινόμηση τους και με την μέθοδο δεν βρίσκουμε καμία χώρα με κοινή ταξινόμηση και στις 4 μεθόδους. Μέθοδοι Όμοια Ταξινόμηση HCA vs All 21 21,4% HCA Eu vs Ward 44 44,9% HCA Ward vs Man 75 76,5% HCA Eu vs Man 21 21,4% KM vs HCA.All 0 0,0% HCA Eu vs KM 68 69,4% HCA Ward vs KM 16 16,3% HCA Man vs KM 9 9,2% %

22 Ο πίνακας αποτελεσμάτων της ταξινόμησης είναι ο παρακάτω : Χώρα KM HCA-EU HCA- Ward HCA-Man kmeans 2 Euc.com.2 Ward.2 Man.com.2 BFA 2 1 1 1 BWA 2 1 1 1 ETH 2 1 1 1 GMB 2 2 1 1 KEN 2 1 1 2 MDG 2 2 1 1 MOZ 2 2 1 1 MUS 2 1 1 1 SYC 2 2 1 1 ZMB 1 1 1 2 ZWE 2 1 1 1 BRA 2 1 1 1 CAN 1 1 2 2 CHL 1 1 2 2 COL 1 1 2 2 CUB 1 1 2 2 ECU 2 2 1 1 GRD 2 1 1 1 JAM 2 2 1 1 LCA 2 2 1 1 MEX 2 1 1 1 NIC 1 1 1 2 PAN 2 1 1 1 TTO 2 1 1 1 USA 1 1 2 2 AFG 2 2 1 1 ARE 2 1 1 1 BHR 1 1 2 2 DJI 2 2 1 1 JOR 1 1 2 2 KWT 1 1 1 2 LBN 2 1 1 1 OMN 1 1 2 2 PAK 2 2 1 1 QAT 1 1 2 2 SAU 1 1 2 2 SYR 2 1 1 1 TUN 2 1 1 1 AUT 1 1 2 2

23 BEL 1 1 2 2 HCA- HCA-EU HCA-Man KM Ward Χώρα kmeans 2 Euc.com.2 Ward.2 Man.com.2 BGR 1 1 1 2 CHE 1 1 2 2 CYP 2 1 1 1 CZE 1 1 2 2 DEU 1 1 2 2 DNK 1 1 1 2 ESP 2 1 1 2 EST 1 1 1 2 FIN 1 1 2 2 FRA 1 1 2 2 GBR 2 2 1 1 GEO 1 1 2 2 HRV 1 1 2 2 HUN 1 1 2 2 IRL 2 1 1 2 ISL 1 1 1 2 ISR 2 1 1 2 KAZ 1 1 2 2 LTU 1 1 1 2 LUX 2 1 1 2 LVA 1 1 1 2 MDA 1 1 1 2 MKD 2 1 1 1 MLT 2 1 1 2 MNE 2 1 1 2 NLD 1 1 1 2 NOR 1 1 2 2 POL 1 1 1 2 PRT 1 1 2 2 RUS 1 1 2 2 SRB 2 2 1 1 SVK 1 1 1 2 SVN 1 1 1 2 SWE 1 1 2 2 TJK 1 1 2 2 TKM 1 1 2 2 TUR 1 1 2 2 BGD 2 1 2 2 BTN 2 2 1 1 IND 1 1 2 2 LKA 2 1 1 1 MDV 2 1 1 1

24 MMR 1 1 2 2 HCA- HCA-EU HCA-Man KM Ward Χώρα kmeans 2 Euc.com.2 Ward.2 Man.com.2 THA 1 1 1 2 TLS 2 2 1 1 AUS 1 1 2 2 BRN 2 1 1 2 CHN 1 1 2 2 JPN 1 1 2 2 KHM 2 1 1 1 KOR 1 1 2 2 LAO 2 1 1 1 MNG 1 1 2 2 MYS 1 1 2 2 NZL 1 1 2 2 SGP 1 1 2 2 TON 2 1 1 1

25 Output Οι μέθοδοι που χρησιμοποιούνται στην παρούσα εργασία προϋποθέτουν τον καθορισμό του αριθμού των συστάδων εκ των προτέρων. Η μέθοδος silhouette μετρά πόσο καλά μια παρατήρηση συσσωρεύεται και εκτιμά τη μέση απόσταση μεταξύ των cluster. Σύμφωνα με το διάγραμμα παρακάτω ο βέλτιστος αριθμός συστάδων είναι 2. Παρουσίαση αποτελεσμάτων ανά μέθοδο Τα παρακάτω διαγράμματα μας δίνουν τα αποτελέσματα κάθε μεθόδου. Κ-Means

26 Method : Euclidean Method : Ward

27 Method : Manhattan Ο παρακάτω πίνακας δίνει την κατανομή των χωρών στις 2 ομάδες συστάδες, σύμφωνα με τις μεταβλητές αποτελέσματος (output). Παρατηρούμε ότι η μεγαλύτερη συγκέντρωση κρατών σε μια ομάδα γίνεται με την μέθοδο HCA-Man. Η μεγαλύτερη συγκέντρωση στην ομάδα 2 πραγματοποιούνται με την μέθοδο HCA-Ward. Cluster KM HCA-EU HCA-Ward HCA-Man N % N % N % N % 1 82 68,9% 94 79,0% 78 65,5% 109 91,6% 2 37 31,1% 25 21,0% 41 34,5% 10 8,4% Total 119 100,0% 119 100,0% 119 100,0% 119 100,0% Συγκρίνοντας την ταξινόμηση των κρατών με τις 4 μεθόδους παρατηρούμε ότι το ποσοστό των χωρών που ταξινομούνται στην ίδια ομάδα ανεξάρτητα της μεθόδου είναι αρκετά μεγάλο (73,9%). Μέθοδοι Όμοια Ταξινόμηση % HCA - All 88 73,9% HCA EU vs Ward 103 86,6% HCA Ward vs Man 88 73,9% HCA EU vs Man 104 87,4% KM vs HCA.All 88 73,9% HCAEU vs KM 107 89,9% HCA Ward vs KM 115 96,6% HCAMan vs KM 92 77,3%

28 Ο πίνακας αποτελεσμάτων της ταξινόμησης είναι ο παρακάτω : Χώρα KM kmeans 2 HCA- HCA-EU Ward Euc.com.2 Ward.2 HCA- Man Man.co m.2 Albania 1 1 1 1 Algeria 1 1 1 1 Angola 2 2 2 2 Antigua and Barbuda 1 1 1 1 Argentina 1 1 1 1 Armenia 1 1 1 1 Australia 1 1 1 1 Austria 1 1 1 1 Azerbaijan 1 1 1 1 Belarus 2 2 2 1 Belgium 1 1 1 1 Bosnia and Herzegovina 1 1 1 1 Botswana 2 2 2 1 Brazil 1 1 1 1 Bulgaria 1 1 1 1 Cameroon 2 2 2 2 Canada 1 1 1 1 Central African Republic 2 2 2 2 Chad 2 2 2 2 Chile 1 1 1 1 China 1 1 1 1 Colombia 1 1 1 1 Congo 2 2 2 1 Costa Rica 1 1 1 1 CΓ te d'ivoire 2 2 2 2 Democratic People's Republic of Korea 1 1 1 1 Denmark 1 1 1 1 Dominican Republic 1 1 1 1 Ecuador 1 1 1 1 Egypt 1 1 1 1 El Salvador 2 1 2 1 Equatorial Guinea 2 2 2 2 Eritrea 2 2 2 1 Estonia 1 1 1 1 Ethiopia 2 1 2 1 Fiji 2 1 2 1 Finland 1 1 1 1 France 1 1 1 1

29 Χώρα KM kmeans 2 HCA- HCA-EU Ward Euc.com.2 Ward.2 HCA- Man Man.co m.2 Gabon 2 1 2 1 Gambia 2 2 2 1 Georgia 1 1 1 1 Germany 1 1 1 1 Ghana 2 2 2 1 Greece 1 1 1 1 Hungary 1 1 1 1 Iceland 1 1 1 1 India 2 1 2 1 Indonesia 1 1 2 1 Iran (Islamic Republic of) 1 1 1 1 Iraq 2 1 2 1 Ireland 1 1 1 1 Israel 1 1 1 1 Italy 1 1 1 1 Jamaica 1 1 1 1 Japan 1 1 1 1 Jordan 1 1 1 1 Kazakhstan 2 2 2 1 Lao People's Democratic Republic 2 1 2 1 Latvia 1 1 2 1 Liberia 2 2 2 1 Libya 1 1 1 1 Lithuania 2 1 2 1 Luxembourg 1 1 1 1 Malawi 2 2 2 2 Malaysia 1 1 1 1 Maldives 1 1 1 1 Mali 2 2 2 1 Malta 1 1 1 1 Mauritania 2 1 2 1 Mauritius 1 1 1 1 Mexico 1 1 1 1 Micronesia (Federated States of) 1 1 1 1 Mongolia 2 2 2 1 Montenegro 1 1 1 1 Morocco 1 1 1 1 Myanmar 2 1 2 1 Nepal 1 1 1 1 Netherlands 1 1 1 1 New Zealand 1 1 1 1 Nicaragua 1 1 1 1

30 Χώρα KM kmeans 2 HCA- HCA-EU Ward Euc.com.2 Ward.2 HCA- Man Man.co m.2 Niger 2 1 2 1 Nigeria 2 2 2 2 Norway 1 1 1 1 Oman 1 1 1 1 Pakistan 1 1 2 1 Panama 1 1 1 1 Papua New Guinea 2 2 2 1 Paraguay 1 1 1 1 Peru 1 1 1 1 Philippines 2 2 2 1 Poland 1 1 1 1 Portugal 1 1 1 1 Qatar 1 1 1 1 Republic of Korea 1 1 1 1 Republic of Moldova 1 1 2 1 Romania 1 1 1 1 Russian Federation 2 2 2 1 Saint Vincent and the Grenadines 1 1 1 1 Saudi Arabia 1 1 1 1 Senegal 2 1 2 1 Serbia 1 1 1 1 Singapore 1 1 1 1 Slovakia 1 1 1 1 Slovenia 1 1 1 1 South Africa 2 2 2 2 Spain 1 1 1 1 Sweden 1 1 1 1 Switzerland 1 1 1 1 Syrian Arab Republic 2 2 2 2 Thailand 1 1 1 1 Tunisia 1 1 1 1 Turkey 1 1 1 1 Ukraine 2 2 2 1 United Arab Emirates 1 1 1 1 United Kingdom of Great Britain and Northern Ireland 1 1 1 1 United Republic of Tanzania 2 2 2 1 United States of America 1 1 1 1 Uruguay 1 1 1 1 Venezuela (Bolivarian Republic of) 1 1 1 1

31 Σύγκριση Input Output Μέθοδος ΚΜ Από τα 68 κράτη που εξετάστηκαν τόσο προς τις Input αλλά και ως προς τις output μεταβλητές μόλις οι 44 (64,7%) ταξινομήθηκαν στην ίδια ομάδα ως προς τις δυο ομάδες μεταβλητών. Cluster Input vs Output N % Όμοια ταξινόμηση 44 64,7% Διαφορετική ταξινόμηση 24 35,3% Total 68 100,0% Ο παρακάτω πίνακας δείχνει την αντιστοίχιση των χωρών με χρήση των δυο ομάδων μεταβλητών (input output). Country Input Output Australia 1 1 Austria 1 1 Belgium 1 1 Botswana 2 2 Brazil 2 1 Bulgaria 1 1 Canada 1 1 Chile 1 1 China 1 1 Colombia 1 1 Denmark 1 1 Ecuador 2 1 Estonia 1 1 Ethiopia 2 2 Finland 1 1 France 1 1 Gambia 2 2 Georgia 1 1 Germany 1 1 Hungary 1 1 Iceland 1 1 India 1 2 Ireland 2 1 Israel 2 1 Jamaica 2 1 Japan 1 1 Jordan 1 1 Kazakhstan 1 2

32 Country Input Output Lao People's Democratic Republic 2 2 Latvia 1 1 Lithuania 1 2 Luxembourg 2 1 Malaysia 1 1 Maldives 2 1 Malta 2 1 Mauritius 2 1 Mexico 2 1 Mongolia 1 2 Montenegro 2 1 Myanmar 1 2 Netherlands 1 1 New Zealand 1 1 Nicaragua 1 1 Norway 1 1 Oman 1 1 Pakistan 2 1 Panama 2 1 Poland 1 1 Portugal 1 1 Qatar 1 1 Republic of Korea 1 1 Republic of Moldova 1 1 Russian Federation 1 2 Saudi Arabia 1 1 Serbia 2 1 Singapore 1 1 Slovakia 1 1 Slovenia 1 1 Spain 2 1 Sweden 1 1 Switzerland 1 1 Syrian Arab Republic 2 2 Thailand 1 1 Tunisia 2 1 Turkey 1 1 United Arab Emirates 2 1 United Kingdom of Great Britain and Northern Ireland 2 1 United States of America 1 1

33 Μέθοδος HCA - EU Από τα 68 κράτη που εξετάστηκαν τόσο προς τις Input αλλά και ως προς τις output μεταβλητές τα 58 (85,3%) ταξινομήθηκαν στην ίδια ομάδα ως προς τις δυο ομάδες μεταβλητών. Cluster Input vs Output N % Όμοια ταξινόμηση 58 85,3% Διαφορετική ταξινόμηση 10 14,7% Total 68 100,0% Ο παρακάτω πίνακας δείχνει την αντιστοίχιση των χωρών με χρήση των δυο ομάδων μεταβλητών (input output). Country Input Output Australia 1 1 Austria 1 1 Belgium 1 1 Botswana 1 2 Brazil 1 1 Bulgaria 1 1 Canada 1 1 Chile 1 1 China 1 1 Colombia 1 1 Denmark 1 1 Ecuador 2 1 Estonia 1 1 Ethiopia 1 1 Finland 1 1 France 1 1 Gambia 2 2 Georgia 1 1 Germany 1 1 Hungary 1 1 Iceland 1 1 India 1 1 Ireland 1 1 Israel 1 1 Jamaica 2 1 Japan 1 1 Jordan 1 1 Kazakhstan 1 2

34 Country Input Output Lao People's Democratic 1 1 Republic Latvia 1 1 Lithuania 1 1 Luxembourg 1 1 Malaysia 1 1 Maldives 1 1 Malta 1 1 Mauritius 1 1 Mexico 1 1 Mongolia 1 2 Montenegro 1 1 Myanmar 1 1 Netherlands 1 1 New Zealand 1 1 Nicaragua 1 1 Norway 1 1 Oman 1 1 Pakistan 2 1 Panama 1 1 Poland 1 1 Portugal 1 1 Qatar 1 1 Republic of Korea 1 1 Republic of Moldova 1 1 Russian Federation 1 2 Saudi Arabia 1 1 Serbia 2 1 Singapore 1 1 Slovakia 1 1 Slovenia 1 1 Spain 1 1 Sweden 1 1 Switzerland 1 1 Syrian Arab Republic 1 2 Thailand 1 1 Tunisia 1 1 Turkey 1 1 United Arab Emirates 1 1

35 Country Input Output United Kingdom of Great Britain and Northern Ireland United States of America 2 1 1 1 Μέθοδος HCA Ward Από τα 43 κράτη που εξετάστηκαν τόσο προς τις Input αλλά και ως προς τις output μεταβλητές τα 21 (48,8%) ταξινομήθηκαν στην ίδια ομάδα ως προς τις δυο ομάδες μεταβλητών. Cluster Input vs Output N % Όμοια ταξινόμηση 21 48,8% Διαφορετική ταξινόμηση 22 51,2% Total 43 100,0% Ο παρακάτω πίνακας δείχνει την αντιστοίχιση των χωρών με χρήση των δυο ομάδων μεταβλητών (input output). Country Input Output Botswana 1 2 Brazil 1 1 Canada 2 1 Chile 2 1 Colombia 2 1 Ecuador 1 1 Ethiopia 1 2 Gambia 1 2 Jamaica 1 1 Jordan 2 1 Lithuania 1 2 Luxembourg 1 1 Malta 1 1 Mauritius 1 1 Mexico 1 1 Montenegro 1 1 Netherlands 1 1 Nicaragua 1 1 Norway 2 1 Oman 2 1

36 Country Input Output Pakistan 1 2 Panama 1 1 Poland 1 1 Portugal 2 1 Qatar 2 1 Republic of Korea 2 1 Republic of Moldova 1 2 Russian Federation 2 2 Saudi Arabia 2 1 Serbia 1 1 Singapore 2 1 Slovakia 1 1 Slovenia 1 1 Spain 1 1 Sweden 2 1 Switzerland 2 1 Syrian Arab Republic 1 2 Thailand 1 1 Tunisia 1 1 Turkey 2 1 United Arab Emirates 1 1 United Kingdom of Great Britain and Northern Ireland United States of America 1 1 2 1 Μέθοδος HCA Man Από τα 68 κράτη που εξετάστηκαν τόσο προς τις Input αλλά και ως προς τις output μεταβλητές τα 16 (23,5%) ταξινομήθηκαν στην ίδια ομάδα ως προς τις δυο ομάδες μεταβλητών. Cluster Input vs Output N % Όμοια ταξινόμηση 16 23,5% Διαφορετική ταξινόμηση 52 76,5% Total 68 100,0% Ο παρακάτω πίνακας δείχνει την αντιστοίχιση των χωρών με χρήση των δυο ομάδων μεταβλητών (input output).

37 Country Input Output Australia 2 1 Austria 2 1 Belgium 2 1 Botswana 1 1 Brazil 1 1 Bulgaria 2 1 Canada 2 1 Chile 2 1 China 2 1 Colombia 2 1 Denmark 2 1 Ecuador 1 1 Estonia 2 1 Ethiopia 1 1 Finland 2 1 France 2 1 Gambia 1 1 Georgia 2 1 Germany 2 1 Hungary 2 1 Iceland 2 1 India 2 1 Ireland 2 1 Israel 2 1 Jamaica 1 1 Japan 2 1 Jordan 2 1 Kazakhstan 2 1 Lao People's Democratic 1 1 Republic Latvia 2 1 Lithuania 2 1 Luxembourg 2 1 Malaysia 2 1 Maldives 1 1 Malta 2 1 Mauritius 1 1 Mexico 1 1 Mongolia 2 1 Montenegro 2 1 Myanmar 2 1 Netherlands 2 1 New Zealand 2 1 Nicaragua 2 1

38 Country Input Output Norway 2 1 Oman 2 1 Pakistan 1 1 Panama 1 1 Poland 2 1 Portugal 2 1 Qatar 2 1 Republic of Korea 2 1 Republic of Moldova 2 1 Russian Federation 2 1 Saudi Arabia 2 1 Serbia 1 1 Singapore 2 1 Slovakia 2 1 Slovenia 2 1 Spain 2 1 Sweden 2 1 Switzerland 2 1 Syrian Arab Republic 1 2 Thailand 2 1 Tunisia 1 1 Turkey 2 1 United Arab Emirates United Kingdom of Great Britain and Northern Ireland United States of America 1 1 1 1 2 1 Σύγκριση Ευρωπαϊκών Κρατών Λαμβάνοντας υπόψη τα στοιχεία των κρατών της Ευρώπης οι διαδικασίες ταξινόμησης έδωσαν τα παρακάτω αποτελέσματα. Θέλοντας να εκτιμήσουμε τον αριθμό των συστάδων προέκυψε ότι καλύτερη διαίρεση έχουμε σε δυο συστάδες. Η πρώτη ομάδα αποτελείται από ένα μόλις κράτος την Μεγάλη Βρετανία. Όλα τα υπόλοιπα κράτη ανήκουν στην 2 η ομάδα. Σημαντική διαφοροποίηση υπάρχει και για την Κύπρο.

39 Από την πλευρά των αποτελεσμάτων, πάλι το βέλτιστο είναι οι 2 συστάδες. Η 1 η συστάδα περιλαμβάνει κράτη της πρώην Ανατολικής Ευρώπης, ενώ στην 2 η συστάδα υπάρχουν κράτη της ΕΕ. Η Μεγάλη Βρετανία που στην πλευρά των εισροών ήταν μόνη της, στην πλευρά των αποτελεσμάτων ανήκει στην ίδια ομάδα με Γερμανία, Βέλγιο κλπ. Τα κράτη αυτά έχουν τα καλύτερα αποτελέσματα εκροών. Τρεις ομάδες Cluster KM HCA-1 HCA-2 HCA-3 N % N % N % N % 1 39 39,8% 34 34,7% 18 18,4% 33 33,7% 2 22 22,4% 14 14,3% 40 40,8% 63 64,3% 3 37 37,8% 50 51,0% 40 40,8% 2 2,0% Total 98 100,0% 98 49,0% 98 59,2% 98 98,0%

40 Βιβλιογραφία 1. Anderberg, M.R. (1973). Cluster Analysis for Applications. Academic Press, New York. 2. Everitt, B. (1980). Cluster Analysis (2nd Edition), Wiley, New York. 3. Aldenderfer, M. S., Blashfield, R. and Blashfield, R. K. (1984). Cluster Analysis, SAGE Publications. 4. Tryon, R. C. (1939). Cluster Analysis. Ann Arbor, Michigan, Edwards Brothers. 5. Driver, H. E. and Kroeber, A. L. (1932). Quantitative expression of cultural relationships. University of California Publications in American Archaeology and Ethnology 31: 211-56. 6. Clements, F. E. (1954). Use of Cluster Analysis with Anthropological Data, American Anthropologist, 56: 180-199. 7. Θεοδωρίδης Σ., Πικράκης Α., Κουτρουμπάς Κ. & Κάβουρας, Δ. (2011). Εισαγωγή στην αναγνώριση προτύπων με Matlab, Ιατρικές Εκδόσεις Π.Χ. Πασχαλίδης.