Ανάλυζη Συζηάδων (Cluster Analysis)

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ανάλυζη Συζηάδων (Cluster Analysis)"

Transcript

1 ΠΑΝΕΠΙΣΗΜΙΟ ΠΑΣΡΩΝ ΣΜΗΜΑ ΜΑΘΗΜΑΣΙΚΩΝ ΜΗΦΑΝΙΚΩΝ Η/Τ & ΠΛΗΡΟΥΟΡΙΚΗ ΜΕΣΑΠΣΤΦΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΠΟΤΔΩΝ «ΜΑΘΗΜΑΣΙΚΑ ΣΩΝ ΤΠΟΛΟΓΙΣΩΝ ΚΑΙ ΣΩΝ ΑΠΟΥΑΕΩΝ» Ανάλυζη Συζηάδων (Cluster Analysis) ΔΙΠΛΩΜΑΣΙΚΗ ΕΡΓΑΙΑ Καράγεωργα Ιζμήνη Α.Μ 277 Επιβλέπων Καθηγητής: Φίλιπποσ Αλεβίζοσ Επιτροπή: Φίλιπποσ Αλεβίζοσ, Ευφροςύνη Μακρή, Νικόλαοσ Τςάντασ Πάτρα, Σεπτέμβριοσ 2012

2 ΕΤΦΑΡΙΣΙΕ Θα ήζεια λα επραξηζηήζσ ηνλ θαζεγεηή κνπ Φίιιηπν Αιεβίδν γηα ηηο ζπκβνπιέο ηνπ θαη ηηο επηζεκάλζεηο ηνπ θαηά ηε δηάξθεηα ζπγγξαθήο ηεο δηπισκαηηθήο κνπ εξγαζίαο. Έλα κεγάιν επραξηζηψ ζηνπο γνλείο κνπ Γηψξγν θαη Γέζπνηλα θαη ζηνλ αδεξθφ κνπ Παλαγηψηε, γηα ηελ ππνκνλή πνπ έδεημαλ θαη ηελ ζηήξημε ηνπο ζηελ δηάξθεηα ησλ ζπνπδψλ κνπ.

3 ΠΕΡΙΛΗΧΗ ηε ζπγθεθξηκέλε δηπισκαηηθή εξγαζία αλαιχεηαη ην πξφβιεκα ηεο αλάιπζεο ζπζηάδσλ ή clustering (νκαδνπνίεζε). θνπφο ηεο αλάιπζεο ζπζηάδσλ, είλαη λα νκαδνπνηεί ηα ζηνηρεία ζε cluster (ζπζηάδεο), έηζη ψζηε ηα ζηνηρεία πνπ αλήθνπλ ζην ίδην cluster λα έρνπλ κεγαιχηεξε νκνηφηεηα απφ ηα ζηνηρεία πνπ αλήθνπλ ζε δηαθνξεηηθά cluster. ην πξψην κέξνο ηεο εξγαζίαο, παξνπζηάδεηαη ην πξψην βήκα ηεο αλάιπζεο ζπζηάδσλ, ε επηινγή ελφο κέηξνπ νκνηφηεηαο, κε ην νπνίν κεηξάκε ηελ ζπζρέηηζε (αλνκνηφηεηα) κεηαμχ ησλ αληηθεηκέλσλ. Δλ ζπλερεία, παξνπζηάδνληαη νη κέζνδνη νκαδνπνίεζεο, πνπ δηαηξνχληαη ζε ηεξαξρηθέο κεζφδνπο, κε ηεξαξρηθέο ή κεζφδνπο βειηηζηνπνίεζεο θαη κνληέια κηθηψλ θαηαλνκψλ. Λφγσ ησλ πνιιψλ δηαθνξεηηθψλ ηξφπσλ πξνζδηνξηζκνχ ησλ cluster, ππάξρνπλ πνιιέο δηαθνξεηηθέο ηερληθέο αλάιπζεο ζπζηάδσλ πνπ αληηζηνηρνχλ ζε θάζε κέζνδν θαη δηαθέξνπλ θπξίσο ζε ζρέζε κε ην πψο ππνινγίδνληαη νη απνζηάζεηο κεηαμχ ησλ cluster. Παξνπζηάδνληαη αλαιπηηθά νη ηερληθέο ηεξαξρηθήο νκαδνπνίεζεο, φπσο απιή ζχλδεζε, πιήξεο ζχλδεζε, ζχλδεζε κέζνπ φξνπ, ζχλδεζε centroid θαη κέζνδνο ηνπ Ward ηνλίδνληαο ηηο ηδηφηεηεο ηνπο θαη ζηε ζπλέρεηα αλαιχνληαο ηηο κε ηεξαξρηθέο κεζφδνπο, απαξηζκνχκε ηνπο δηάθνξνπο αιγνξίζκνπο βειηηζηνπνίεζεο, κε ζεκαληηθφηεξν ηνλ K-means. Οη κε ηεξαξρηθέο κέζνδνη νκαδνπνίεζεο, ρξεζηκνπνηνχληαη θπξίσο γηα λα βειηηψζνπλ ηελ ιχζε ησλ cluster, πνπ έρεη πξνθχςεη απφ κηα ηεξαξρηθή κέζνδν. ην ζεκείν απηφ ηεο εξγαζίαο, γίλεηαη κηα ζχλνςε ησλ δηαθφξσλ αιγνξίζκσλ νκαδνπνίεζεο θαη ζχγθξηζε ηνπο απφ εκπεηξηθέο κειέηεο. Δπηπξφζζεηα παξνπζηάδεηαη κηα ηερληθή γηα ηελ αλαπαξάζηαζε ησλ πνιπκεηαβιεηψλ δεδνκέλσλ ζε ιηγφηεξεο δηαζηάζεηο θαη ηέινο ρξεζηκνπνηψληαο θάπνηα ζηαηηζηηθά πνπ είλαη δηαζέζηκα, γίλεηαη κηα αλαθνξά ζηελ εθηίκεζε ηεο ιχζεο ησλ cluster θαη ζηνλ πξνζδηνξηζκφ ηνπ αξηζκνχ ησλ cluster. Ζ δηπισκαηηθή εξγαζία θιείλεη κε ην πεηξακαηηθφ κέξνο ηεο νκαδνπνίεζεο, ρξεζηκνπνηψληαο ην ινγηζκηθφ SAS/STAT 9.2 θαη εξκελεχνληαο ηα απνηειέζκαηα πνπ πξνθχπηνπλ.

4 A B S T R A C T In the current diplomatic project is analyzed the problem of cluster analysis or clustering. The purpose of cluster analysis is to group items in clusters, so that items belonging to the same cluster have a greater similarity than the items belonging to different clusters. In the first part of the project, the first step of cluster analysis is presented, which is the choice of a similarity measure, by which we measure the correlation (dissimilarity) between objects. Then, clustering methods are presented, which are divided into hierarchical methods, non-hierarchical methods or optimization methods and mixture models. Because of the different ways determining the clusters, there are many different techniques of cluster analysis, associated with each method and they differ mainly, compared with the calculation of distances between clusters. The hierarchical clustering techniques are presented analytically, such as single linkage, complete linkage, average linkage, centroid method and Ward s method, emphasizing their properties and after analyzing the non-hierarchical methods, we enumerate various optimization algorithms with more important k-means. Nonhierarchical clustering methods are used mainly to improve the cluster solution, which has resulted from a hierarchical method. In this part of thesis, a summary of the various clustering algorithms is presented with their comparison from empirical studies. In addition, a technique for the representation of multivariate data in fewer dimensions is presented and then using some statistics that are available becomes a report for the estimation of cluster solution and determining the number of cluster. The work concludes with the experimental part of clustering using the software SAS/STAT 9.2 and interpreting the results which are obtained.

5 ΠΕΡΙΕΦΟΜΕΝΑ Δπραξηζηίεο Πεξίιεςε Abstract Κεθάιαην 1: Δηζαγσγή 1.1 Αλάιπζε ζπζηάδσλ- Οξηζκνί Αξηζκφο ηνπ Stirling Γεσκεηξηθή Δξκελεία ηεο Αλάιπζεο πζηάδσλ θνπφο ηεο Αλάιπζεο πζηάδσλ Γηαδηθαζία clustering Απηφκαηε Σαμηλφκεζε- Σερληθέο νκαδνπνίεζεο κε ηελ ρξήζε ηεο κεζφδνπ ησλ Κχξησλ Αμφλσλ Μείσζε ησλ δηαζηάζεσλ- γξακκηθέο θαη κε γξακκηθέο κέζνδνηθξηηήξηα γηα ηνλ βέιηηζην αξηζκφ cluster....8 Κεθάιαην 2: Μέηξα Οκνηόηεηαο 2.1 Απνζηάζεηο θαη πληειεζηέο Οκνηφηεηαο γηα δεχγε αληηθεηκέλσλ-ζηνηρείσλ Οκνηφηεηεο βαζηζκέλεο ζε ραξαθηεξηζηηθά Τπνινγηζκφο ησλ ζπληειεζηψλ νκνηφηεηαο Οκνηφηεηεο κε ηε ρξήζε βαξψλ w i Οκνηφηεηεο θαη κέηξα ζπζρέηηζεο γηα δεχγε κεηαβιεηψλ Πίλαθαο Δγγχηεηαο Μέηξεζε ησλ νκνηνηήησλ ησλ 11 γισζζψλ Κεθάιαην 3: Ιεξαξρηθέο Μέζνδνη Οκαδνπνίεζεο 3.1 Γελδξνγξάκκαηα πζζσξεπηηθέο Ηεξαξρηθέο Μέζνδνη πζζσξεπηηθφο Ηεξαξρηθφο Αιγφξηζκνο Μέζνδνο Απιήο χλδεζεο (single linkage) Οκαδνπνίεζε κε ηε ρξήζε απιήο ζχλδεζεο Οκαδνπνίεζε απιήο ζχλδεζεο ησλ 11 γισζζψλ Μέζνδνο Πιήξνπο χλδεζεο (complete linkage) Οκαδνπνίεζε κε ηε ρξήζε πιήξνπο ζχλδεζεο Οκαδνπνίεζε πιήξνπο ζχλδεζεο γηα ηηο 11 γιψζζεο χλδεζε Μέζνπ Όξνπ (average linkage) Οκαδνπνίεζε κε ηε ζχλδεζε κέζνπ φξνπ γηα ηηο 11 γιψζζεο Μέζνδνο Centroid Μέζνδνο ζχλδεζεο δηακέζνπ (median)...39

6 3.8 Μέζνδνο ηνπ Ward Μείσζε ηεο δηαζπνξάο κε ηελ ζπζζψξεπζε 2 ζηνηρείσλ Οκαδνπνίεζε απιήο ζχλδεζεο θαη Διάρηζην Δπηθαιχπησλ Γέληξν Ηζνδπλακία κεηαμχ απιήο ζχλδεζεο θαη ππνθπξίαξρεο Τπεξκεηξηθήο Ηδηφηεηεο ησλ ηερληθψλ πζζσξεπηηθήο Ηεξαξρηθήο Οκαδνπνίεζεο Οιηθή Πξνζαξκνγή κηαο ιχζεο Ηεξαξρηθήο Οκαδνπνίεζεο Γηακεξίζεηο απφ κηα ηεξαξρία: ην πξφβιεκα ηνπ αξηζκνχ ησλ νκάδσλ Ακνηβαίνη Γείηνλεο Αιγφξηζκνο Αλαδήηεζεο Αιπζίδαο Γηαηξεηηθέο Ηεξαξρηθέο Μέζνδνη 53 Κεθάιαην 4: Με Ιεξαξρηθέο Μέζνδνη Οκαδνπνίεζεο 4.1 ηαηηζηηθά Κξηηήξηα Βειηηζηνπνίεζεο Αιγφξηζκνη Βειηηζηνπνίεζεο Αιγφξηζκνο Ι Αιγφξηζκνο ΙΙ Αιγφξηζκνο ΙΙΙ Αιγφξηζκνο Steepest Descent Μέζνδνο k- means Ηδηφηεηεο ηνπ k- means Βαζηθέο αξρέο ηνπ αιγνξίζκνπ Δπζηαζή cluster Δθαξκνγή ηνπ αιγνξίζκνπ k- means Μέζνδνη πνπ βαζίδνληαη ζηελ πιήξε απνηειεζκαηηθή αλαδήηεζε Άιιεο κέζνδνη Μαζεκαηηθνχ Πξνγξακκαηηζκνχ πκπεξάζκαηα Αμηνπηζηία θαη Δμσηεξηθή Δγθπξφηεηα κηαο ιχζεο cluster Αμηνπηζηία Δμσηεξηθή Δγθπξφηεηα Πνιπδηάζηαηε Κιηκάθσζε (Multidimensional Scaling- MDS) Ο Βαζηθφο Αιγφξηζκνο Πνιπδηάζηαηε Κιηκάθσζε ησλ πφιεσλ ησλ ΖΠΑ Έθζεζε ησλ Γεδνκέλσλ θαη Δηθνλνγξαθήκαηα χλδεζε πνιιαπιψλ δηδηάζηαησλ δηαγξακκάησλ δηαζπνξάο (Scatterplots) Star plot (Γηάγξακκα Αζηέξσλ) Γηαγξάκκαηα Andrews Πξφζσπα Chernoff.. 93

7 Κεθάιαην 5: Μνληέια Μίμεο Καηαλνκώλ 5.1 Πεπεξαζκέλα κνληέια κίμεο θαηαλνκψλ γηα αλάιπζε ζπζηάδσλ Δθηίκεζε Μέγηζηεο Πηζαλνθάλεηαο (Maximum Likelihood) ησλ παξακέηξσλ ζε Πνιπκεηαβιεηέο Καλνληθέο Καηαλνκέο Μίμεο Αιγφξηζκνο ΔΜ Μίμεηο Γθανπζηαλψλ Καηαλνκψλ ζαλ απιή νκαδνπνίεζε k-means Αξηζκεηηθφ παξάδεηγκα εθαξκνγήο ησλ θαηαλνκψλ κίμεο Άιιεο κέζνδνη Ζ κέζνδνο ηνπ Wishart Σερληθέο clumping 104 Κεθάιαην 6: Πεηξακαηηθό Μέξνο Βηβιηνγξαθία 128

8 ΚΑΣΑΛΟΓΟ ΦΗΜΑΣΨΝ 1.1 Οκαδνπνίεζε ησλ φςεσλ ησλ θαξηψλ ηεο ηξάπνπιαο Γηάγξακκα ησλ ππνζεηηθψλ δεδνκέλσλ Αλαπαξάζηαζε πζζσξεπηηθήο θαη Γηαηξεηηθήο Οκαδνπνίεζεο Απφζηαζε κεηαμχ cluster(αλνκνηφηεηα) γηα (a) απιή ζχλδεζε, (b) πιήξε ζχλδεζε θαη (c) ζχλδεζε κέζνπ φξνπ Γελδξφγξακκα απιήο ζχλδεζεο γηα ηηο απνζηάζεηο κεηαμχ ησλ 5 αληηθεηκέλσλ Γελδξφγξακκα απιήο ζχλδεζεο γηα ηηο απνζηάζεηο κεηαμχ ησλ αξηζκψλ ζηηο 11 γιψζζεο Γελδξφγξακκα πιήξνπο ζχλδεζεο γηα ηηο απνζηάζεηο κεηαμχ ησλ 5 αληηθεηκέλσλ Γελδξφγξακκα πιήξνπο ζχλδεζεο γηα ηηο απνζηάζεηο κεηαμχ ησλ αξηζκψλ ζηηο 11 γιψζζεο Γελδξφγξακκα κέζνπ φξνπ ζχλδεζεο γηα ηηο απνζηάζεηο κεηαμχ ησλ αξηζκψλ ζηηο 11 γιψζζεο Γελδξφγξακκα ησλ ππνζεηηθψλ δεδνκέλσλ γηα ηελ κέζνδν Centroid Γχν θαιά δηαρσξηδφκελεο ζπζηάδεο κε ελδηάκεζα ζεκεία «ζνξχβνπ» Γηαγξάκκαηα ησλ (a) SPR θαη RS θαη (b) RMSSTD θαη CD Δπζηαζείο νκάδεο ζηελ παξαγφκελε δηακέξηζε (π.ρ. κεηαμχ ησλ 38 αηφκσλ ηεο νκάδαο 1 ηεο 1εο δηακέξηζεο, 30 βξίζθνληαη ζηελ νκάδα 2 ηεο 2 εο δηακέξηζεο) Γξαθηθή Αλαπαξάζηαζε ηνπ k- means Έλα δέληξν branch and bound αλάιπζεο ζπζηάδσλ. Σν 1211 αλαπαξηζηάλεη ηελ νκαδνπνίεζε ησλ A, C θαη D ζε έλα cluster θαη ηνπ Β ζε θάπνην άιιν Μηα γεσκεηξηθή αλαπαξάζηαζε ησλ πφιεσλ πνπ πξνθχπηεη απφ Πνιπδηάζηαηε θιηκάθσζε Ζ ζπλάξηεζε ηνπ stress γηα ηηο απνζηάζεηο αεξνγξακκψλ κεηαμχ ησλ πφιεσλ Scatterplots γηα ηα δεδνκέλα πνηφηεηαο ραξηηνχ Σξνπνπνηεκέλα scatterplots κε ηελ αθξαία ηηκή (25) (α) επηιεγκέλε θαη (β) δηεγξακκέλε Σξνπνπνηεκέλα scatterplots κε (α) νκάδα ζεκείσλ πνπ επηιέρηεθαλ θαη (β) ηα ζεκεία δηαγξάθεθαλ θαη ηα scatterplots μαλαθαηαζθεπάζηεθαλ Γηάγξακκα αζηέξσλ ησλ 22 εηαηξεηψλ Οη αζηέξεο γηα ηηο 5 εηαηξείεο θνηλήο σθέιεηαο Σα πξφζσπα ηνπ Chernoff γηα ηηο 22 εηαηξείεο Παξαδείγκαηα πεπεξαζκέλσλ κίμεσλ κνλνκεηαβιεηψλ θαλνληθψλ ππθλνηήησλ

9 (α) g=2, p 1 =0.5, p 2 =0.5, κ 1 =-1, ζ 1 =1, κ 2 =3, ζ 2 =2 (β) g=2, p 1 =0.5, p 2 =0.5, κ 1 =6, ζ 1 =0.5, κ 2 =-3, ζ 2 = Πνζνζηά θφλσλ θαη βηαζκψλ γηα ηηο 16 πφιεηο ησλ ΖΠΑ Οη δχν νκάδεο ησλ πφιεσλ πνπ δίλνληαη απ ηηο εθηηκψκελεο εθ ησλ πζηέξσλ πηζαλφηεηεο Γελδξφγξακκα απιήο ζχλδεζεο γηα ηα ζξεπηηθά ζπζηαηηθά ηξνθίκσλ, κηαο ιχζεο (a) 4-cluster θαη (b) 7- cluster Γελδξφγξακκα πιήξνπο ζχλδεζεο γηα ηα ζξεπηηθά ζπζηαηηθά ηξνθίκσλ Γελδξφγξακκα κεζφδνπ centroid γηα ηα ζξεπηηθά ζπζηαηηθά ηξνθίκσλ Γελδξφγξακκα κεζφδνπ Ward γηα ηα ζξεπηηθά ζπζηαηηθά ηξνθίκσλ Γηαγξάκκαηα (α) RMSSTD θαη (β) R-Square Παξάζεκα Α: Δκπεηξηθέο ζπγθξίζεηο γηα ηελ εθηέιεζε ησλ αιγνξίζκσλ νκαδνπνίεζεο Παξάζεκα Β: Απνηειέζκαηα απφ ηηο κεζφδνπο απιήο ζχλδεζεο, πιήξνπο ζχλδεζεο, centroid θαη κέζνδν ηνπ Ward Παξάζεκα Γ: Με ηεξαξρηθή αλάιπζε γηα ηα ζξεπηηθά ζπζηαηηθά ησλ ηξνθίκσλ

10 ΚΑΣΑΛΟΓΟ ΠΙΝΑΚΨΝ 1.1 Πίλαθαο ππνζεηηθψλ δεδνκέλσλ Πίλαθαο ζπλάθεηαο γηα ηηο ζπρλφηεηεο ησλ αληηζηνηρηψλ θαη ησλ θαθψλ ζπλδπαζκψλ ησλ αληηθεηκέλσλ i θαη k πληειεζηέο νκνηφηεηαο γηα νκαδνπνηεκέλα αληηθείκελα Πίλαθαο ζπλάθεηαο ησλ κεηαβιεηψλ i θαη k Οη αξηζκνί ζηηο 11 γιψζζεο πκθσλίεο ησλ «πξψησλ γξακκάησλ» γηα ηνπο αξηζκνχο ησλ 11 γισζζψλ Πίλαθαο νκνηφηεηαο ησλ ππνζεηηθψλ δεδνκέλσλ κε ηε ρξήζε ηεο επθιείδεηαο απφζηαζεο Μέζνδνο centroid: 5 cluster Μέζνδνο centroid: 4 cluster Μέζνδνο centroid: 3 cluster Μέζνδνο ηνπ Ward χλνςε ησλ ζηαηηζηηθψλ γηα ηελ εθηίκεζε ηεο ιχζεο ησλ cluster Αξρηθά centroid ησλ cluster, απφζηαζε απ ηα centroid ησλ cluster θαη αξρηθή αλάζεζε ησλ παξαηεξήζεσλ Centroid ησλ 3 cluster θαη κεηαβνιή ζηα Centroid ησλ cluster Απφζηαζε απ ηα centroid θαη πξψηε εθ λένπ αλάζεζε ησλ παξαηεξήζεσλ ζηα cluster Αξρηθή αλάζεζε, centroid ησλ cluster θαη αλαθαηαλνκή Αξρηθή αλάζεζε ησλ ππνζεηηθψλ δεδνκέλσλ Μεηαβνιή ηνπ ESS θαη εθ λένπ αλάζεζε Απνηειεζκαηηθφηεηα ηνπ βαζηθνχ αιγνξίζκνπ νκαδνπνίεζεο branch and bound Γεδνκέλα ησλ απνζηάζεσλ κεηαμχ αεξνγξακκψλ Μεηξήζεηο ζηελ πνηφηεηα ραξηηνχ Γεδνκέλα ησλ 22 εηαηξεηψλ θνηλήο σθέιεηαο Πνζνζηά Δγθιεκαηηθφηεηαο ζε 16 πφιεηο ησλ ΖΠΑ (αλά θαηνίθνπο) Απνηειέζκαηα απ ηελ πξνζαξκνγή κηαο 2-ζπληζησζψλ δηκεηαβιεηήο Καλνληθήο θαηαλνκήο κίμεο ζηα δεδνκέλα ηνπ πίλαθα Δθηηκψκελεο εθ ησλ πζηέξσλ πηζαλφηεηεο γηα ηα πνζνζηά εγθιεκαηηθφηεηαο Θξεπηηθά ζπζηαηηθά ηξνθίκσλ Σα ζηνηρεία ησλ cluster γηα ηελ 4- cluster ιχζε Σα θέληξα ησλ cluster γηα θάζε κέζνδν νκαδνπνίεζεο Πίλαθαο ζπζρέηηζεο 127

11

12 ΚΕΥΑΛΑΙΟ 1 Ειζαγωγή 1.1 Αλάιπζε ζπζηάδσλ - Οξηζκνί Οη δηαδηθαζίεο αλάιπζεο δεδνκέλσλ, ρσξίδνληαη ζε 2 θαηεγνξίεο: ηηο δηαδηθαζίεο αλεύξεζεο, κε ζηφρν ηελ αλαθάιπςε θαη ηελ θαηαζθεπή ππνζέζεσλ απφ ηα δεδνκέλα θαη ηηο δηαδηθαζίεο επηβεβαίσζεο, κε ζηφρν ηελ ιήςε απνθάζεσλ δεδνκέλεο ηεο δνκήο ηεο πιεξνθνξίαο. Ο δηαρσξηζκφο βαζίδεηαη ζηελ χπαξμε ή κε θαηάιιεισλ κνληέισλ, ηα νπνία εθθξάδνπλ ηελ πεγή ησλ δεδνκέλσλ. Καη ζηηο 2 πεξηπηψζεηο, ζεκείν- θιεηδί, είλαη ε νκαδνπνίεζε ησλ ζηνηρείσλ, κε βάζε (α) ην πηνζεηεκέλν κνληέιν ή (β) ηηο θπζηθέο νκάδεο δεδνκέλσλ (θαηεγνξηνπνίεζε), πνπ πξνθχπηνπλ απφ ηελ αλάιπζε δεδνκέλσλ. Ζ αλάιπζε ζπζηάδσλ ή clustering, είλαη ε νξγάλσζε κηαο ζπιινγήο απφ δείγκαηαζηνηρεία, ζε ζπζηάδεο (clusters), κε βάζε θάπνην κέηξν νκνηφηεηαο. ηνηρεία πνπ αλήθνπλ ζηελ ίδηα νκάδα, παξνπζηάδνπλ κεγαιχηεξε νκνηφηεηα, απφ ζηνηρεία πνπ αλήθνπλ ζε δηαθνξεηηθέο νκάδεο. ε δηάθνξεο επηζηεκνληθέο έξεπλεο, ν εξεπλεηήο ελδηαθέξεηαη λα βξεη κηα ηαμηλφκεζε, ζηελ νπνία ηα αληηθείκελα πνπ ηνλ ελδηαθέξνπλ, ηαμηλνκνχληαη ζε έλα κηθξφ αξηζκφ νκνηνγελψλ νκάδσλ ή cluster. πλεζέζηεξν είλαη εθείλν ην είδνο ηεο ηαμηλφκεζεο, ζην νπνίν νη νκάδεο αιιειναλαηξνχληαη παξά αιιειεπηθαιχπηνληαη, αλ θαη απηφ δελ είλαη πάληα θαηάιιειν. Αλ κε ηη άιιν, ην παξαγφκελν ζχζηεκα ηαμηλφκεζεο, κπνξεί λα αληηπξνζσπεχεη, κηα βνιηθή κέζνδν γηα ηελ νξγάλσζε ελφο κεγάινπ ζπλφινπ πνιπκεηαβιεηψλ δεδνκέλσλ. ηελ έξεπλα αγνξάο γηα παξάδεηγκα, είλαη ρξήζηκν λα νκαδνπνηήζνπκε έλα κεγάιν αξηζκφ πηζαλψλ πειαηψλ, ζχκθσλα κε ηηο αλάγθεο ηνπο, ζε κηα ηδηαίηεξε πεξηνρή πξντφλησλ. Αιιά ζπρλά ε ηαμηλφκεζε κπνξεί λα εμππεξεηήζεη πην ζεκειηψδεηο ζθνπνχο. ηελ ςπρηαηξηθή, ε ηαμηλφκεζε ησλ ςπρηθψλ δηαηαξαρψλ, ζα βνεζνχζε ζηελ δηεξεχλεζε ησλ αηηηψλ ηνπο θαη ζα νδεγνχζε ζε πην βειηησκέλεο κεζφδνπο ζεξαπείαο. Απηέο νη δχν πεξηνρέο πξόβιεςεο (πνπ ρσξίδνπλ αζζέλεηεο πνπ απαηηνχλ δηαθνξεηηθή ζεξαπεία) θαη αηηηνινγίαο (αλαδήηεζε γηα ηα αίηηα κηαο αζζέλεηαο) ζα είλαη νη ίδηεο θαη ζε άιινπο θιάδνπο ηεο ηαηξηθήο. Ζ νκαδνπνίεζε ή clustering,δηαθξίλεηαη απφ ηηο κεζφδνπο ηαμηλφκεζεο. Ζ ηαμηλφκεζε αλαθέξεηαη ζε έλα γλσζηφ αξηζκφ νκάδσλ θαη ν ιεηηνπξγηθφο ηεο ζηφρνο είλαη λα αλαζέηεη λέεο παξαηεξήζεηο ζε κηα απφ ηηο ππάξρνπζεο νκάδεο, γη απηφ θαη αλήθεη ζηελ supervised learning (κάζεζε κε επίβιεςε). Ζ αλάιπζε ζπζηάδσλ είλαη κηα πην πξσηφγνλε ηερληθή, δεδνκέλνπ φηη δελ γίλεηαη θακηά ππφζεζε ζρεηηθά κε ηνλ αξηζκφ ησλ νκάδσλ ή ηε δνκή ηεο νκάδαο θαη αλήθεη ζηελ unsupervised learning (κάζεζε ρσξίο επίβιεςε). Δξεπλά ηε «θπζηθή» νκαδνπνίεζε ησλ αληηθεηκέλσλ κε βάζε κε ηαμηλνκεκέλα δεδνκέλα. Ζ νκαδνπνίεζε γίλεηαη βάζεη ησλ νκνηνηήησλ ή ησλ απνζηάζεσλ (αλνκνηφηεηεο). Οη είζνδνη πνπ απαηνχληαη, είλαη κέηξα νκνηφηεηαο ή δεδνκέλα, απφ ηηο νκνηφηεηεο ησλ νπνίσλ κπνξνχλ λα ππνινγηζηνχλ. 1

13 Σν γεγνλφο φηη δελ ππάξρεη κηα εθ ησλ πξνηέξσλ ηαμηλφκεζε ηνπ δείγκαηνο ππνδειψλεη φηη ε αλάιπζε ζπζηάδσλ είλαη ζεκειησδψο έλα εξγαιείν γηα ηελ εμεξεχλεζε ησλ δεδνκέλσλ. Γειαδή θάπνηνο επηζπκεί λα κειεηήζεη ηα δεδνκέλα, γηα λα δεη αλ ππάξρνπλ ζηελ πξαγκαηηθφηεηα θπζηθέο θαη ρξήζηκεο νκαδνπνηήζεηο. Αλ θαη απηφ είλαη καθξάλ ε πην ζεκαληηθή ζπλζήθε, θάησ απφ ηελ νπνία ρξεζηκνπνηνχληαη νη ηερληθέο αλάιπζεο ζπζηάδσλ, ππάξρνπλ θη άιιεο ζπλζήθεο. Γηα παξάδεηγκα ην θφζηνο ηεο απφθηεζεο ελφο αξρηθά ηαμηλνκεκέλνπ δείγκαηνο, κπνξεί λα είλαη πάξα πνιχ κεγάιν, ή ίζσο ε δνκή ησλ θαηεγνξηψλ είλαη γλσζηφ φηη κεηαβάιιεηαη κε ην ρξφλν. ε θάζε πεξίπησζε, ην πξψην πξάγκα πνπ πξέπεη λα ζεκεησζεί είλαη φηη δελ νδεγνχκαζηε πάληα ζηελ ίδηα ηαμηλφκεζε θαη πάληα ζα ππάξρεη κηα πνηθηιία απφ ελαιιαθηηθέο ηαμηλνκήζεηο γηα ην ίδην ζχλνιν αληηθεηκέλσλ ή αηφκσλ. Σα αλζξψπηλα φληα, γηα παξάδεηγκα, κπνξνχλ λα ηαμηλνκεζνχλ ζε αξζεληθά θαη ζειπθά, είηε κε βάζε ην ρξψκα δέξκαηνο, ην κνξθσηηθφ επίπεδν, ηελ θνηλσληθή ηάμε, ηελ ειηθία ή λα ηαμηλνκεζνχλ σο πξνο ηελ νηθνλνκηθή ηνπο θαηάζηαζε ζε νκάδεο φπσο ε θαηψηεξε ηάμε, ε κεζαία θαη ε αλψηεξε ηάμε. Ο θαηάινγνο είλαη αηειείσηνο θαη είλαη πξνθαλέο φηη ην είδνο ηεο νκαδνπνίεζεο πνπ πξνθχπηεη απφ κηα αλάιπζε ζα εμαξηεζεί ζε κεγάιν βαζκφ, απ ηηο κεηαβιεηέο πνπ ρξεζηκνπνηνχληαη γηα λα αλαπαξαζηήζνπλ ην αληηθείκελν. Απηφ είλαη έλα θξίζηκν ζεκείν, δεδνκέλνπ φηη, θαθή επηινγή κεηαβιεηψλ, κπνξεί λα νδεγήζεη ζε κηα νκαδνπνίεζε, άρξεζηε γηα έλα ζπγθεθξηκέλν ζθνπφ. αθψο δηαθνξεηηθέο ηαμηλνκήζεηο, δελ κπνξνχλ λα ζπιιέμνπλ ην ίδην ζχλνιν αηφκσλ ζε νκάδεο. Κάπνηεο ηαμηλνκήζεηο, σζηφζν ζα είλαη πην ρξήζηκεο απφ άιιεο, έλα ζέκα πνπ ζίγεηαη απφ ηνλ Needham (1965) ζηε ζπδήηεζε ηνπ γηα ηελ ηαμηλφκεζε ησλ αλζξψπσλ, ζε άλδξεο θαη γπλαίθεο: Δίλαη κηα πνιχ ρξήζηκε ηαμηλφκεζε, επεηδή ν ραξαθηεξηζκφο ελφο αηφκνπ σο άλδξαο ή γπλαίθα, κεηαθέξεη πνιχ πεξηζζφηεξεο πιεξνθνξίεο, φζνλ αθνξά ηηο πηζαλέο ζρεηηθέο δηαζηάζεηο, ηελ δχλακε, νξηζκέλα είδε επηδεμηφηεηαο θαη νχησ θαζεμήο. Όηαλ ιέκε φηη ηα άηνκα ζηελ θαηεγνξία «άλδξαο» είλαη πην θαηάιιεια γηα νξηζκέλα θαζήθνληα, απ φηη ηα άηνκα ζηελ θαηεγνξία «γπλαίθα», θαη αληηζηξφθσο, ραξαθηεξίδνπκε ηπραία κηα παξαηήξεζε, ζρεηηθά κε ην θχιν, θχξην κέιεκα καο γίλεηαη ε δχλακε, ε αληνρή θ.ά. Σν ζέκα είλαη φηη είκαζηε ζε ζέζε λα ρξεζηκνπνηήζνπκε κηα ηαμηλφκεζε αηφκσλ, πνπ κεηαθέξεη πιεξνθνξίεο, ζρεηηθά κε πνιιέο ηδηφηεηεο. Αληηζέησο κηα ηαμηλφκεζε αηφκσλ, ζε εθείλνπο, πνπ νη ηξίρεο ζηνπο βξαρίνλεο ηνπο είλαη κεηαμχ θαη ίληζεο καθξηέο θη εθείλνπο πνπ δελ έρνπλ, αλ θαη κπνξεί λα εμππεξεηήζεη θάπνηα ζπγθεθξηκέλε ρξήζε, δελ έρεη ζίγνπξα θακηά γεληθή ρξήζε, γηα ηελ εηζαγσγή ελφο αηφκνπ ζηελ πξψηε θαηεγνξία, πνπ κεηαθέξεη πιεξνθνξίεο γη απηήλ θαη κφλν ηελ ηδηφηεηα. Με άιια ιφγηα δελ ππάξρνπλ γλσζηέο ηδηφηεηεο πνπ δηαρσξίδνπλ έλα ζχλνιν αηφκσλ κε παξφκνην ηξφπν. Με παξφκνηα δηάζεζε, κηα ηαμηλφκεζε βηβιίσλ, πνπ βαζίδεηαη ζηα πεξηερφκελα, ζε θαηεγνξίεο φπσο ιεμηθά, κπζηζηνξήκαηα, βηνγξαθίεο θαη νχησ θαζεμήο, πηζαλφλ λα είλαη πην ρξήζηκε, απφ θάπνηα πνπ βαζίδεηαη ζην ρξψκα ηνπ βηβιίνπ. Ζ πξψηε, ζα δείμεη πεξηζζφηεξα απ ηα ραξαθηεξηζηηθά ηνπ βηβιίνπ, απ φηη ε δεχηεξε. Απηά ηα παξαδείγκαηα ππνδεηθλχνπλ, φηη θάζε ηαμηλφκεζε είλαη απιά κηα δηακέξηζε ησλ αληηθεηκέλσλ ή ησλ αηφκσλ ελδηαθέξνληνο ζε νκάδεο, πνπ βαζίδεηαη ζε έλα ζχλνιν θαλφλσλ. Ίζσο ε απινχζηεξε πξνζέγγηζε γηα ηελ αλαγλψξηζε νκάδσλ ή cluster ζηα 2

14 πνιπκεηαβιεηά δεδνκέλα, είλαη ε εμέηαζε ησλ δηαγξακκάησλ δηαζπνξάο. Απηά ζα κπνξνχζαλ λα βαζηζηνχλ ζηα πξσηνγελή δεδνκέλα, αιιά ζα κπνξνχζακε λα ρξεζηκνπνηήζνπκε επίζεο ηα απνηειέζκαηα ηεο αλάιπζεο θχξησλ ζπληζησζψλ ή αθφκα θαη κηα πνιπδηάζηαηε θιηκάθσζε. Γηα λα επεμεγήζνπκε ηε θχζε ηεο δπζθνιίαο, ζηνλ πξνζδηνξηζκφ κηαο «θπζηθήο» νκαδνπνίεζεο, ζα ζεσξήζνπκε ηελ ηαμηλφκεζε ησλ 16 φςεσλ ησλ θαξηψλ κηαο ζπλεζηζκέλεο ηξάπνπιαο, ζε ζπζηάδεο παξφκνησλ αληηθεηκέλσλ. Μεξηθέο ηέηνηεο νκαδνπνηήζεηο θαίλνληαη ζην παξαθάησ ζρήκα θαη είλαη ζαθέο φηη νη ζεκαληηθέο δηακεξίζεηο βαζίδνληαη ζηνλ θαζνξηζκφ ηνπ «παξφκνηνπ». Σρήκα Οκαδνπνίεζε ησλ όςεσλ ησλ θαξηώλ ηεο ηξάπνπιαο ηηο πξαθηηθφηεξεο εθαξκνγέο ηεο αλάιπζεο ζπζηάδσλ, ν εξεπλεηήο γλσξίδεη αξθεηά ζρεηηθά κε ην πξφβιεκα, ψζηε λα δηαθξίλεη ηηο «θαιέο» απφ ηηο «θαθέο» νκαδνπνηήζεηο. Γηαηί λα κελ απαξηζκήζεη φιεο ηηο πηζαλέο νκαδνπνηήζεηο θαη λα επηιέμεη ηελ «θαιχηεξε» γηα πεξαηηέξσ κειέηε; ην παξάδεηγκα ησλ θαξηψλ ηεο ηξάπνπιαο, ππάξρεη έλαο ηξφπνο λα δηακνξθψζνπκε κηα απιή νκάδα ησλ 16 φςεσλ ησλ θαξηψλ. Τπάξρνπλ ηξφπνη 3

15 λα δηακεξίζνπκε ηηο θάξηεο ζε 2 νκάδεο. Τπάξρνπλ ηξφπνη λα ηαμηλνκήζνπκε ηηο θάξηεο ζε 3 νκάδεο θαη νχησ θαζεμήο. 1.2 Αξηζκόο ηνπ Stirling Ο αξηζκφο ησλ ηξφπσλ ηαμηλφκεζεο ησλ n αληηθεηκέλσλ ζε k κε θελέο νκάδεο, είλαη, έλαο αξηζκφο ηνπ Stirling ηνπ 2 νπ είδνπο, πνπ δίλεηαη απφ ηνλ ηχπν: 1 k! k j0 k ( 1) j n k j n Πξνζζέηνληαο απηνχο ηνπο αξηζκνχο γηα k= 1,2,, n νκάδεο βξίζθνπκε ηνλ ζπλνιηθφ αξηζκφ ησλ πηζαλψλ ηξφπσλ ηαμηλφκεζεο ησλ n αληηθεηκέλσλ ζηηο νκάδεο. ην παξάδεηγκα ινηπφλ ησλ θαξηψλ, γηα ηελ δηακέξηζε ησλ n= 16 θαξηψλ ζε k=2 νκάδεο έρνπκε: 1 k k j k n ( 1) j k! j0 n = [(-1) 2 ( ) (-1) 1 ( ) (-1) 0 ( ) 2 16 ] = [ ] = ηξφπνη ηαμηλφκεζεο. Γεληθά : Αξηζκόο Stirling 2 νπ είδνπο, - = ( ) (k-j) n O αξηζκφο Stirling ηνπ 2 νπ είδνπο ππαθνχεη ζηελ αλαδξνκηθή ζρέζε:, - =k, - +, - γηα k>0 κε αξρηθέο ζπλζήθεο, - =1 θαη, - =, - = 0 γηα n >0. Πξνθαλψο νη ρξνληθνί πεξηνξηζκνί θαζηζηνχλ αδχλαην λα πξνζδηνξίζνπλ ηηο θαιχηεξεο νκαδνπνηήζεηο παξφκνησλ αληηθεηκέλσλ, απφ κηα ιίζηα φισλ ησλ πηζαλψλ δνκψλ. Αθφκα θαη νη κεγάινη ππνινγηζηέο ζπληξίβνληαη εχθνια, απφ ηνλ ραξαθηεξηζηηθά κεγάιν αξηζκφ πεξηπηψζεσλ θαη πξέπεη έηζη λα εγθαηαζηήζνπλ αιγνξίζκνπο πνπ ςάρλνπλ γηα ηηο θαιέο θαη φρη απαξαίηεηα ηηο θαιχηεξεο νκαδνπνηήζεηο. 4

16 1.3 Γεσκεηξηθή εξκελεία ηεο αλάιπζεο ζπζηάδσλ Ζ έλλνηα ηεο αλάιπζεο ζπζηάδσλ γεσκεηξηθά είλαη πνιχ απιή. Θεσξνχκε ηα ππνζεηηθά δεδνκέλα ηνπ παξαθάησ πίλαθα, πνπ πεξηέρεη ην εηζφδεκα θαη ηελ εθπαίδεπζε θαηά έηε, γηα ηα 6 ππνζεηηθά δεδνκέλα. Πίνακαρ 1.1: Πίλαθαο ππνζεηηθώλ δεδνκέλσλ Υπνζεηηθά δεδνκέλα Αληηθείκελν Δηζόδεκα ($ ρηιηάδεο) Δθπαίδεπζε (έηε) S1 5 5 S2 6 6 S S S S Όπσο θαίλεηαη θαη ζην ζρήκα 1.2, θάζε παξαηήξεζε κπνξεί λα αλαπαξαζηαζεί ζαλ έλα ζεκείν ζ έλα δηδηάζηαην ρψξν. Γεληθά θάζε παξαηήξεζε κπνξεί λα αλαπαξαζηαζεί ζαλ έλα ζεκείν ζ έλα p- δηάζηαην ρψξν, φπνπ p είλαη ν αξηζκφο ησλ κεηαβιεηψλ ή ησλ ραξαθηεξηζηηθψλ πνπ ρξεζηκνπνηνχληαη γηα λα πεξηγξάςνπκε ηα αληηθείκελα. Τπνζέηνπκε ηψξα φηη ζέινπκε λα ζρεκαηίζνπκε 3 νκνηνγελείο νκάδεο. Μηα εμέηαζε ηνπ ζρήκαηνο ππνδειψλεη, φηη ηα αληηθείκελα S1 θαη S2 ζα ζρεκαηίζνπλ κηα νκάδα, ηα αληηθείκελα S3 θαη S4 ζα ζρεκαηίζνπλ κηα δεχηεξε νκάδα θαη ηα αληηθείκελα S5 θαη S6 ζα ζρεκαηίζνπλ ηελ 3 ε νκάδα. Σρήκα 1.2 Γηάγξακκα ησλ ππνζεηηθώλ δεδνκέλσλ Όπσο κπνξνχκε λα δνχκε, ε αλάιπζε ζπζηάδσλ, νκαδνπνηεί παξαηεξήζεηο, έηζη ψζηε νη παξαηεξήζεηο ζε θάζε νκάδα, λα είλαη φκνηεο ζε ζρέζε κε ηηο κεηαβιεηέο 5

17 νκαδνπνίεζεο. Δίλαη δπλαηφλ επίζεο, λα νκαδνπνηνχκε κεηαβιεηέο, έηζη ψζηε νη κεηαβιεηέο ζε θάζε νκάδα, λα είλαη φκνηεο ζε ζρέζε κε ηηο παξαηεξήζεηο νκαδνπνίεζεο. Γεσκεηξηθά απηφ είλαη ηζνδχλακν, κε ην λα αλαπαξαζηήζνπκε δεδνκέλα ζε έλα n- δηάζηαην ρψξν παξαηεξήζεσλ, θαη λα πξνζδηνξίζνπκε ηα cluster ησλ κεηαβιεηψλ. Ο ζθνπφο ηεο αλάιπζεο ζπζηάδσλ θαίλεηαη λα είλαη παξφκνηνο κε εθείλνλ ηεο παξαγνληηθήο αλάιπζεο. ηελ παξαγνληηθή αλάιπζε, πξνζπαζνχκε λα πξνζδηνξίζνπκε ηα cluster ησλ κεηαβιεηψλ, έηζη ψζηε νη κεηαβιεηέο ζε θάζε cluster λα έρνπλ θάηη θνηλφ. Δίλαη δπλαηφλ, θαηά ζπλέπεηα, λα ρξεζηκνπνηήζνπκε παξαγνληηθή αλάιπζε γηα λα νκαδνπνηήζνπκε παξαηεξήζεηο θαη λα ρξεζηκνπνηήζνπκε αλάιπζε ζπζηάδσλ γηα λα νκαδνπνηήζνπκε κεηαβιεηέο. Ζ ηερληθή παξαγνληηθήο αλάιπζεο πνπ ρξεζηκνπνηείηαη γηα ηελ νκαδνπνίεζε παξαηεξήζεσλ, είλαη γλσζηή σο Q- factor αλάιπζε. Όκσο δελ ζπζηήλνπκε ηε ρξήζε ηεο, γηα νκαδνπνίεζε παξαηεξήζεσλ, θαζψο εηζάγεη επηπιένλ πξνβιήκαηα. Οη γξαθηθέο δηαδηθαζίεο γηα ησλ πξνζδηνξηζκφ ησλ cluster, κπνξεί λα κελ είλαη εθηθηέο φηαλ έρνπκε πνιιέο παξαηεξήζεηο, ή φηαλ έρνπκε πεξηζζφηεξεο απφ 3 κεηαβιεηέο ή ραξαθηεξηζηηθά. Απηφ πνπ ρξεηάδεηαη ζε κηα ηέηνηα πεξίπησζε, είλαη κηα αλαιπηηθή ηερληθή γηα ηνλ πξνζδηνξηζκφ νκάδσλ ή cluster ζεκείσλ ζ έλα ρψξν κε δεδνκέλεο δηαζηάζεηο. 1.4 Σθνπόο ηεο αλάιπζεο ζπζηάδσλ θνπφο ηεο αλάιπζεο ζπζηάδσλ, είλαη λα νκαδνπνηεί παξαηεξήζεηο ζε cluster, έηζη ψζηε θάζε cluster, λα είλαη φζν ην δπλαηφλ νκνηνγελέο, ζε ζρέζε κε ηηο κεηαβιεηέο νκαδνπνίεζεο. Σν πξώην βήκα ζηελ αλάιπζε ζπζηάδσλ, είλαη λα επηιέμνπκε έλα κέηξν νκνηφηεηαο, κε ην νπνίν κεηξάκε ηε ζπζρέηηζε (νκνηφηεηα) κεηαμχ ησλ αληηθεηκέλσλ. Σηε ζπλέρεηα, εμεηάδνπκε ην είδνο ηεο ηερληθήο νκαδνπνίεζεο πνπ ζα ρξεζηκνπνηήζνπκε ( ηεξαξρηθή ή κε ηεξαξρηθή). Τξίηνλ, επηιέγεηαη, ην είδνο ηεο κεζφδνπ νκαδνπνίεζεο, γηα ηελ επηιεγκέλε ηερληθή ( π.ρ. κέζνδνο centroid γηα ηελ ηερληθή ηεξαξρηθήο νκαδνπνίεζεο). Τέηαξηνλ, γίλεηαη κηα ζπδήηεζε, φζνλ αθνξά ηνλ αξηζκφ ησλ cluster. Δλ ηέιεη, εξκελεχεηαη ε ιχζε ησλ cluster. 1.5 Γηαδηθαζία clustering. Παξά ηνπο δηαθνξεηηθνχο αιγνξίζκνπο νκαδνπνίεζεο πνπ ππάξρνπλ, φινη ραξαθηεξίδνληαη απφ κηα ζπγθεθξηκέλε δηαδηθαζία, πνπ πεξηγξάθεηαη παξαθάησ: (a) Αλαπαξάζηαζε ησλ δεδνκέλσλ, φπνπ επηιέγνληαη ηα ραξαθηεξηζηηθά πνπ ρξεζηκνπνηνχληαη γηα λα εθθξάζνπλ θάζε παξαηήξεζε, ή επηιέγεηαη κέξνο ησλ ραξαθηεξηζηηθψλ απηψλ. Πνιιέο θνξέο παξαηεξείηαη θαη ν κεηαζρεκαηηζκφο ησλ ήδε ππαξρφλησλ ραξαθηεξηζηηθψλ ζε άιια κηθξφηεξνπ πιήζνπο. (b) Οξηζκόο ηνπ κέηξνπ νκνηόηεηαο. (c) Γηαδηθαζία νκαδνπνίεζεο, φπνπ εκθαλίδεηαη ν αξηζκφο ησλ νκάδσλ πνπ ππάξρνπλ. 6

18 (d) Αθαίξεζε Γεδνκέλσλ, φπνπ ρξεηάδεηαη θαη απεηθφληζε ησλ νκάδσλ. (e) Πξνζδηνξηζκόο θαη αμηνιόγεζε ησλ απνηειεζκάησλ. 1.6 Απηόκαηε Ταμηλόκεζε - Τερληθέο Οκαδνπνίεζεο κε ηε ρξήζε ηεο κεζόδνπ Κπξίσλ Αμόλσλ. Οη ηερληθέο ηεο απηφκαηεο ηαμηλφκεζεο, ρξεζηκνπνηνχληαη γηα λα νκαδνπνηήζνπκε αληηθείκελα ή άηνκα πνπ πεξηγξάθνληαη απφ έλαλ αξηζκφ κεηαβιεηψλ ή ραξαθηεξηζηηθψλ. Απηφο ν ηχπνο ηεο αλάιπζεο δεδνκέλσλ είλαη εμαηξεηηθά δεκνθηιήο κε πνιπάξηζκεο δεκνζηεχζεηο ζ απηφλ ηνλ ηνκέα. Αλ θαη απηφ ην πεδίν είλαη πνιχ θαηλνχξην γηα λα είλαη ζε ζέζε λα δψζεη, κηα πιήξε πεξίιεςε ησλ κεζφδσλ πνπ έρνπλ αλαπηπρζεί, κεγάιν εχξνο ησλ εξγαζηψλ έρνπλ θαιπθζεί ζηηο παξαθάησ αλαθνξέο: Friedman θαη Rubin(1967), Cormack (1971), Anderberg (1973), Benzecri (1973), Sneath θαη Sokal (1973), Hartigan (1975), θαη Gordon (1981). Ο αλαγλψζηεο πνπ ελδηαθέξεηαη λα απνθηήζεη κηα ζεκειηψδε αληίιεςε ηεο έλλνηαο ηεο ηαμηλφκεζεο, ζα πξέπεη λα εμεηάζεη ηελ παξαπάλσ βηβιηνγξαθία. Δκείο ζα πξνζπαζήζνπκε, πξψηα απ φια λα απαληήζνπκε ζε 2 εξσηήκαηα πνπ πξέπεη λα ηίζεληαη γηα θάζε ηερληθή πνιπκεηαβιεηήο πεξηγξαθηθήο ζηαηηζηηθήο αλάιπζεο (MDSA). Δξψηεζε 1: Κάησ απφ πνηεο ζπλζήθεο ρξεζηκνπνηνχληαη απηέο νη κέζνδνη; Δξψηεζε 2: Ση είδνπο απνηειέζκαηα παξάγνπλ; Απηέο νη κέζνδνη ρξεζηκνπνηνχληαη, ζηελ ίδηα θαηάζηαζε φπσο θαη ε πεξηγξαθηθή αλάιπζε θχξησλ αμφλσλ: ν ρξήζηεο βξίζθεηαη αληηκέησπνο κε έλαλ νξζνγψλην πίλαθα αξηζκψλ. Απηφο ν πίλαθαο κπνξεί λα είλαη έλαο πίλαθαο ζπλάθεηαο (δηαζηαπξσκέλε θαηαγξαθή ζε πίλαθα 2 ηκεκάησλ ελφο πιεζπζκνχ), έλαο δπαδηθφο πίλαθαο (κε ηηκέο 0 ή 1, ζχκθσλα κε ην αλ έλα άηνκν ή αληηθείκελν έρεη έλα ζπγθεθξηκέλν ραξαθηεξηζηηθφ ή ηδηφηεηα) ή έλαο πίλαθαο αξηζκεηηθψλ ηηκψλ (ηηκή ηεο κεηαβιεηήο j γηα ην άηνκν i, ζηε δηαζηαχξσζε ηεο ζεηξάο i θαη ηεο ζηήιεο j ηνπ πίλαθα). ε θάζε πεξίπησζε απηφο ν πίλαθαο πξέπεη λα πιεξνί νξηζκέλεο απαηηήζεηο ηεο αλάιπζεο δεδνκέλσλ. Πξέπεη λα είλαη νκνηνγελήο σο πξνο ηε κνξθή θαη ην πεξηερφκελν ηνπ. Ο ππνινγηζκφο θαη ε ζχγθξηζε ησλ απνζηάζεσλ κεηαμχ ησλ ζεηξψλ (νη ζεηξέο γεληθά αληηπξνζσπεχνπλ άηνκα ή αληηθείκελα) θαη ησλ ζηειψλ πξέπεη λα έρνπλ λφεκα. Ο πίλαθαο πξέπεη λα είλαη ηφζν κεγάινο, ψζηε ε δνκή ηνπ λα κελ είλαη εκθαλήο κε γπκλφ κάηη ή λα απνθαιχπηεηαη εχθνια κέζα απφ ζηνηρεηψδεηο ζηαηηζηηθνχο ρεηξηζκνχο. Σειηθά πξέπεη λα είλαη άκνξθνο φζν ην δπλαηφλ πεξηζζφηεξν: δελ πξέπεη λα ππάξρεη κηα εθ ησλ πξνηέξσλ δνκή, ζην εζσηεξηθφ ησλ γξακκψλ θαη ησλ ζηειψλ ηνπ, φπσο νη ζπλαξηεζηαθέο εμαξηήζεηο. Ζ ρξήζε ησλ ηερληθψλ απηφκαηεο ηαμηλφκεζεο, ζπλεπάγεηαη κεξηθέο βαζηθέο έλλνηεο, ζε ζρέζε κε ην ζθνπφ ηεο αλάιπζεο. Δίηε γίλεηαη δεθηφ φηη νξηζκέλεο νκάδεο πξέπεη λα ππάξρνπλ κεηαμχ ησλ παξαηεξήζεσλ ή αληηζέησο, ε αλάιπζε απαηηεί ηελ νκαδνπνίεζε ησλ παξαηεξήζεσλ. Με άιια ιφγηα κηα δηδηάζηαηε ζπλερήο απεηθφληζε ησλ ζηαηηζηηθψλ ζρέζεσλ δελ είλαη αξθεηή. Τπάξρεη επίζεο έλα άκεζν ή έκκεζν ελδηαθέξνλ ζηελ απνθάιπςε ησλ νκάδσλ αηφκσλ ή ραξαθηεξηζηηθψλ. 7

19 Απηφ καο θέξλεη ζηε 2 ε εξψηεζε πνπ εμαξηάηαη απφ ηελ πξψηε θαη αθνξά ζηε θχζε ησλ αλακελφκελσλ απνηειεζκάησλ. Απηά ζα απνηεινχληαη είηε απφ δηακεξίζεηο ηνπ ζπλφινπ δεδνκέλσλ (π.ρ. γξακκέο ή ζηήιεο ηνπ πίλαθα) ή ηεξαξρίεο δηακεξίζεσλ, ηηο νπνίεο πξέπεη λα πξνζδηνξίζνπκε κε κεγαιχηεξε αθξίβεηα. Κάπνηεο θνξέο ζα απνηεινχληαη απφ δέληξα κε ηελ έλλνηα ηεο ζεσξίαο γξαθεκάησλ, δειαδή ηα δέληξα ησλ νπνίσλ νη θφκβνη είλαη ηα αληηθείκελα γηα ηαμηλφκεζε. Σειηθά ηα απνηειέζκαηα κπνξεί λα είλαη επηθαιππηφκελεο ζπζηάδεο ή ππθλέο πεξηνρέο, φπνπ πνιιά άηνκα ή ραξαθηεξηζηηθά παξακέλνπλ αηαμηλφκεηα. Έλα δεδνκέλν ζχλνιν απνηειεζκάησλ, ζα κπνξνχζε λα επηηεπρζεί κέζσ δηαθνξεηηθψλ βεκάησλ θαη λα νδεγήζεη ζε δηαθνξεηηθέο εξκελείεο. Γηα παξάδεηγκα ην πξφβιεκα κπνξεί λα είλαη λα αλαθαιχςνπκε κηα δηακέξηζε πνπ ππάξρεη πξαγκαηηθά θαη είρε ππνηεζεί πξηλ απφ ηελ εθηέιεζε ηεο ζηαηηζηηθήο αλάιπζεο ή κηα πνπ ε ίδηα απνθαιχπηεηαη κεηά ηελ αλάιπζε. Αληηζηξφθσο κπνξεί λα είλαη ρξήζηκν λα απαζρνινχκε ηηο δηακεξίζεηο ζαλ εξγαιεία ή ζαλ ππνθαηάζηαηα ζηνπο ππνινγηζκνχο, πνπ ην θαζηζηνχλ επθνιφηεξν ζηελ εμεξεχλεζε ησλ δεδνκέλσλ. Ζ ηειεπηαία πεξίπησζε είλαη γελίθεπζε ησλ ηζηνγξακκάησλ κηαο κνλνδηάζηαηεο ζηαηηζηηθήο: γηα λα θάλνπκε επθνιφηεξε ηελ αλάιπζε νη παξαηεξήζεηο νκαδνπνηνχληαη ζε νκνηνγελείο νκάδεο, αθφκα θη αλ απηέο νη νκάδεο ζπλεπάγνληαη κηα απζαίξεηε δηακέξηζε ελφο ζπλερνχο ρψξνπ. ε θάζε πεξίπησζε ρξεζηκνπνηψληαο ηε κέζνδν θχξησλ αμφλσλ ζε ζπλδπαζκφ κε ηελ ηαμηλφκεζε, κπνξεί λα είλαη δπλαηφλ λα αλαγλσξίζνπκε νκάδεο θαη λα θαζνξίζνπκε ηηο ζρεηηθέο ηνπο ζέζεηο. πρλά ρξεζηκνπνηνχληαη δηακεξίζεηο ή δνκέο δέληξσλ γηα λα εληζρχζνπλ ηα απνηειέζκαηα ηεο πξνθαηαξθηηθήο αλάιπζεο θχξησλ αμφλσλ θαηά ηε δηάξθεηα ησλ εξεπλεηηθψλ θάζεσλ ηεο αλάιπζεο δεδνκέλσλ. 1.7 Μείσζε ησλ δηαζηάζεσλ- γξακκηθέο θαη κε γξακκηθέο κέζνδνη- θξηηήξηα γηα ηνλ βέιηηζην αξηζκό cluster. Έρνληαο απνθαζίζεη πνηεο κεηαβιεηέο λα κεηξήζνπκε, ίζσο είλαη απαξαίηεην φπσο είδακε, λα κεησζεί ν αξηζκφο, γηα λα θαηαζηήζεη εθηθηφ ηνλ ππνινγηζκφ ή λα εμαιεηθζνχλ νη κε απνηειεζκαηηθέο κεηαβιεηέο. θνπφο, ινηπφλ είλαη ε κείσζε ησλ δηαζηάζεσλ, δηαηεξψληαο παξάιιεια ηε δνκή ησλ παξαηεξήζεσλ, φζν είλαη δπλαηφλ. Δπηδηψθνπκε δειαδή, έλα ρψξν ρακειφηεξεο δηάζηαζεο, απ ηελ αξρηθή πνπ πξνζεγγίδεη ηελ αξρηθή θαηαλνκή ρψξνπ ησλ ζεκείσλ παξαηήξεζεο, φζν ην δπλαηφλ κε κεγαιχηεξε αθξίβεηα. Γηα λα ην πεηχρνπκε ρξεηαδφκαζηε 2 πξάγκαηα: (α) έλα κέηξν πνπ δείρλεη πφζν πνιχ ηαηξηάδεη, ε αλαπαξάζηαζε ηνπ ππνρψξνπ κε ηελ αξρηθή αλαπαξάζηαζε. (β) έλαλ αιγφξηζκν γηα ηελ εχξεζε, εθείλνπ ηνπ ππνρψξνπ πνπ βειηηζηνπνηεί ην κέηξν. Γηα ην (β), πξφζθαηε εξγαζία, επηθεληξψζεθε ζε γξακκηθνχο κεηαζρεκαηηζκνχο, χζηεξα απ ηελ δηαγξαθή ησλ ιηγφηεξσλ ζεκαληηθψλ λέσλ κεηαβιεηψλ. ε απηή ηελ νκάδα έρνπκε απηφ πνπ είλαη αλακθηζβήηεηα, ε πην επξέσο ρξεζηκνπνηνχκελε πξνζέγγηζε: ε κέζνδνο θχξησλ ζπληζησζψλ. Πξνζδηνξίδεη θαη απνξξίπηεη ηηο θάζεηεο κεηαμχ ηνπο θαηεπζχλζεηο, ζηνλ αξρηθφ ρψξν, πνπ απνηεινχλ πνιχ κηθξή δηαζπνξά ηνπ δείγκαηνο. 8

20 Όηαλ ην πξφβιεκα πξνζδηνξηζκνχ ηνπ ππνρψξνπ, εθθξάδεηαη κε ηε κνξθή ηεο εχξεζεο δηαζηάζεσλ πνπ ειαρηζηνπνηνχλ (ή ζπκπιεξσκαηηθά κεγηζηνπνηνχλ) ηηο δηαδφζεηο, γίλεηαη πξνθαλέο φηη ζα κπνξνχζαλ λα ρξεζηκνπνηεζνχλ θη άιια θξηηήξηα. Θα κπνξνχζακε λα επηιέμνπκε ηνλ d δηάζηαην ππεξεπίπεδν πνπ κεγηζηνπνηεί ην άζξνηζκα ησλ ηεηξαγσληθψλ απνζηάζεσλ ηνπ δείγκαηνο ( x i x j )'( xi x j ) ή ηελ ζπλάξηεζε εληξνπίαο πνπ κεηξά, ηελ νκνηνκνξθία ησλ i j πξνβνιψλ πάλσ ζηνπο άμνλεο ηνπ ππεξεπηπέδνπ d ' pilog pi (φπνπ p i είλαη ν i1 δεηγκαηηθφο κέζνο ησλ ηεηξαγσληθψλ πξνβνιψλ ηνπ x i πάλσ ζηελ i- λέα ζπληεηαγκέλε). ηελ πξαγκαηηθφηεηα, πνιιά απ απηά ηα θξηηήξηα, νδεγνχλ ζηελ επηινγή ηδηνδηαλπζκάησλ πνπ ζρεηίδνληαη κε ηηο d κεγαιχηεξεο ηδηνηηκέο ηνπ πίλαθα δεηγκαηηθψλ δηαζπνξψλ, δειαδή ηε ιχζε θχξησλ ζπληζησζψλ. Έλα άιιν ζεκείν πξνο ζεκείσζε, είλαη φηη ζηελ βηβιηνγξαθία αλαγλψξηζεο πξνηχπσλ, ε κέζνδνο θχξησλ ζπληζησζψλ,αλαθέξεηαη ζπλήζσο σο κεηαζρεκαηηζκφο Karhumen- Loeve. Πην πξφζθαηα αλαπηχρζεθαλ κε γξακκηθέο κέζνδνη. Οη κε γξακκηθνί κεηαζρεκαηηζκνί ηνπ δείγκαηνο απφ ηνλ d-δηάζηαην ρψξν ζηνλ ρακειφηεξν d -δηάζηαην ρψξν, βαζίδνληαη ζε πνιιά δνκηθά θξηηήξηα. Απφ ηα πην δεκνθηιή είλαη ε «πίεζε» ηνπ Kruskal πνπ νξίδεηαη απφ: 2 2 ( Dij Dij ') / Dij ij ij (φπνπ D ij είλαη ε απφζηαζε ή αλνκνηφηεηα, κεηαμχ ησλ αληηθεηκέλσλ x i θαη x j, ζηνλ d- δηάζηαην ρψξν θαη D ij είλαη ε αληίζηνηρε απφζηαζε ζηνλ d - δηάζηαην ρψξν). 2 Καη ην θξηηήξην ηνπ Sammon 1 ( Dij D ij ) / Dij D i j ij i j Μηα πξφζθαηε έξεπλα, ηέηνησλ ηερληθψλ «πνιπδηάζηαηεο θιηκάθσζεο» παξνπζηάδεηαη απφ ηνλ Shepard et al. (1972) θαη κηα πεξηγξαθηθή έξεπλα ησλ πξνβιεκάησλ θαη πσο κπνξνχλ λα μεπεξαζηνχλ απφ ηνλ Shepard(1974). Δίηε πηνζεηήζνπκε κηα γξακκηθή είηε κηα κε γξακκηθή κέζνδν, κπνξεί θαλείο ή λα πξνβάιεη ζ έλα d (<d) δηάζηαην ρψξν πνπ δηαηεξεί αξθεηά θαιά ηε δνκή θαη ζηε ζπλέρεηα λα πξαγκαηνπνηήζεη κηα αλάιπζε ζπζηάδσλ ζε απηφλ ηνλ θαηλνχξην ρψξν ή κπνξεί θάπνηνο λα πάεη ζην άθξν ηνπ d =2. ε κηα ηέηνηα πεξίπησζε, είλαη δπλαηφλ ν έιεγρνο κε ην κάηη πνπ κπνξεί λα είλαη πνιχ απνθαιππηηθφο. Δμαηηίαο ηεο ζεκαληηθφηεηαο ηεο, ζαλ ε πην δεκνθηιήο ηερληθή, γξακκηθήο κείσζεο ησλ δεδνκέλσλ, γηα κε-ηαμηλνκεκέλα δεδνκέλα, ζα πξέπεη λα επηζεκαλζεί φηη ε κέζνδνο θχξησλ ζπληζησζψλ έρεη κεηνλεθηήκαηα. Γελ είλαη γηα παξάδεηγκα, ακεηάβιεηε ζε αιιαγέο θιίκαθαο ησλ αξρηθψλ κεηαβιεηψλ. Απηφ έξρεηαη ζε αληίζεζε κε ηελ ηαμηλνκεκέλε πεξίπησζε, φπνπ ε δηαρσξηζηκφηεηα ηάμεο είλαη ακεηάβιεηε θάησ απφ νπνηνδήπνηε κε- κνλαδηθφ κεηαζρεκαηηζκφ. Μέρξη ηψξα, θακηά πξνζπάζεηα δελ έγηλε γηα λα πξνζδηνξίζεη ηε ιέμε «cluster». ε θάπνηεο πεξηπηψζεηο, ζπλδεδεκέλεο πεξηνρέο κε ζρεηηθά πςειέο ππθλφηεηεο πηζαλφηεηαο κπνξεί λα απνηεινχλ cluster, ζεσξψληαο φηη ζε άιιεο, κφλν νη ζπκπαγείο θαηά πξνζέγγηζε ππεξζθαηξηθέο νκάδεο αληηθεηκέλσλ, κπνξνχλ λα είλαη επηιέμηκεο. Δίλαη 9

21 αιήζεηα γεληθά, πσο ν εξεπλεηήο πξέπεη λα απνθαζίζεη ηειηθά, ηη ελλνεί κε ην cluster θαη πξέπεη λα ιεθζεί ε πξνζνρή πσο κηα ηερλεηή δνκή, δελ επηβάιιεηαη ζηα δεδνκέλα. Απηφ ην γεγνλφο ησλ πνιππιεζψλ νξηζκψλ είλαη έλαο απ ηνπο ιφγνπο, πίζσ απφ ηνλ κεγάιν αξηζκφ ησλ ηερληθψλ αλάιπζεο ζπζηάδσλ πνπ έρνπλ αλαπηπρζεί. (έλαο άιινο είλαη φηη νη ηερληθέο έρνπλ αλαπηπρζεί απφ εξγαδφκελνπο κέζα απφ έλα επξχ θάζκα ηνκέσλ). Γηαθνξεηηθέο κέζνδνη κπνξεί λα νδεγήζνπλ ζε δηαθνξεηηθά ζρήκαηα cluster, αλ θαη είλαη ζαθέο, πσο αλ ηα δεδνκέλα έρνπλ ηζρπξή δνκή, ζα ήιπηδε θαλείο πσο θάηη ηέηνην ζα αληρλεπφηαλ απφ ηηο πεξηζζφηεξεο ηερληθέο. Πξάγκαηη έρεη πξνηαζεί πσο έλαο ηξφπνο λα ειέγμνπκε ηελ εγθπξφηεηα ηεο δνκήο, είλαη λα εθαξκφζνπκε αξθεηέο ηερληθέο ζηα δεδνκέλα. Οινθιεξσκέλα ζρφιηα ηεο αλάιπζεο ζπζηάδσλ παξέρνληαη ζηνλ Cormack (1971), ζηνλ Gordon(1987, 1996, 1999) θαη ζηνλ Everitt (1993). ηελ πνξεία ηεο δηπισκαηηθήο, ζα αζρνιεζνχκε κε ηηο παξαθάησ θαηεγνξίεο ηερληθψλ πνπ απνηεινχλ ηελ πιεηνλφηεηα ησλ εθαξκνγψλ αλάιπζεο ζπζηάδσλ. Ηεξαξρηθέο κέζνδνη νκαδνπνίεζεο Με ηεξαξρηθέο κέζνδνη νκαδνπνίεζεο ή κέζνδνη βειηηζηνπνίεζεο Μνληέια κίμεο θαηαλνκψλ πλήζσο ππνζέηνπκε φηη c, ν αξηζκφο ησλ cluster πξνζδηνξίδεηαη εθ ησλ πξνηέξσλ. Κάπνηεο θνξέο κηα ηέηνηα ππφζεζε είλαη αξθεηά ινγηθή: αλ γηα παξάδεηγκα, μεθηλνχζακε κε έλα κηθξφ ηαμηλνκεκέλν δείγκα θαη επηζπκνχζακε λα θάλνπκε ηα ζηαηηζηηθά καο ζηνηρεία πην αληηπξνζσπεπηηθά ηνπ πιεζπζκνχ ησλ γνλέσλ, ρξεζηκνπνηψληαο έλα κεγάιν αηαμηλφκεην δείγκα. Κάπνηεο θνξέο κηα ζπγθεθξηκέλε δηαίξεζε ζ έλαλ αξηζκφ cluster, δελ είλαη θαζφινπ επηζπκεηή, αιιά κάιινλ επηζπκείηαη κηα ηεξαξρία ησλ ππφcluster κέζα ζηα cluster. πρλά καο δίλεηαη απιψο έλα δείγκα δεδνκέλσλ θαη δελ έρνπκε θακηά αηηηνινγία γηα ηελ επηινγή κηαο ζπγθεθξηκέλεο ηηκήο ηνπ c. Ζ εχξεζε ηνπ c, γίλεηαη κέξνο ηνπ πξνβιήκαηνο νκαδνπνίεζεο. Μηα γεληθή πξνζέγγηζε, είλαη λα ζπγθξίλνπκε θάπνην θξηηήξην, πνπ εθηηκάηαη γηα δηάθνξεο ηηκέο ηνπ c. Έλα πηζαλφ θαη ειθπζηηθφ θξηηήξην, είλαη ε κέζε απφζηαζε ζην εζσηεξηθφ ηνπ cluster (Thornidike, 1953). Διπίδνπκε πσο ε γξαθηθή παξάζηαζε απηνχ ηνπ θξηηεξίνπ ζπλαξηήζεη ηνπ c, ζα κεησζεί θαζψο ην c απμάλεηαη, κέρξη λα επηηεπρζεί ε βέιηηζηε ηηκή ζ εθείλν ην ζεκείν, φπνπ ε θακπχιε ζα γίλεη μαθληθά επίπεδε. Γπζηπρψο, θαίλεηαη φηη ην ηδαληθφ απηφ δελ επηηπγράλεηαη, εθηφο θη αλ ηα cluster είλαη ζπκπαγή θαη θαιά δηαρσξηζκέλα. Αθνινπζψληαο παξφκνηα επηρεηξήκαηα, ην θξηηήξην (φπνπ ν πίλαθαο δηαζπνξάο κέζα ζην cluster) έρεη πξνηαζεί. Ο Marriott (1971) ηξνπνπνίεζε απηφ ζε c 2, πξνηείλνληαο, φηη ε ηηκή ηνπ c, ζηελ νπνία απηφ ειαρηζηνπνηείηαη, ζα δψζεη ην βέιηηζην αξηζκφ cluster. Δπηζεκαίλεη επίζεο,φηη ην c 2, ζα πξέπεη λα παξακείλεη ζηαζεξφ, γηα κηα νκνηφκνξθε θαηαλνκή. Αλ δηθαηνινγείηαη λα θάλνπκε ππνζέζεηο, ζρεηηθά κε ην είδνο ηεο θαηαλνκήο ησλ cluster, ίζσο είλαη πηζαλφ λα πξνρσξήζνπκε ζηνλ θιαζζηθφ ζηαηηζηηθφ ηξφπν ζχγθξηζεο κηαο ηηκήο θξηηεξίνπ, ππφ ηελ κεδεληθή ππφζεζε, θαζνξηζκνχ ελφο νξηζκέλνπ αξηζκνχ cluster. Ο Everitt (1981), δνπιεχνληαο πάλσ ζ απηφ, έρεη παξνπζηάζεη έλαλ έιεγρν κηαο κνλαδηθήο πνιπκεηαβιεηήο θαλνληθήο θαηαλνκήο, ελάληηα ζε πνιιαπιά cluster. 10

22 ΚΕΥΑΛΑΙΟ 2 Μέηπα Ομοιόηηηαρ Οη πεξηζζφηεξεο πξνζπάζεηεο, γηα λα παξαρζεί κηα απιή δνκή νκάδαο, απφ έλα ζχλζεην ζχλνιν δεδνκέλσλ, απαηηνχλ απαξαηηήησο έλα κέηξν «εγγχηεηαο» ή «νκνηφηεηαο». Ζ νκνηφηεηα, είλαη κηα αξηζκεηηθή κέηξεζε, γηα ην πφζν φκνηα είλαη δχν αληηθείκελα κεηαμχ ηνπο. Οξηζκόο: Μηα ζπλάξηεζε S : X X, θαιείηαη ζπλάξηεζε νκνηόηεηαο, αλ: S(x, y) = S(y, x) γηα θάζε x θαη y (ζπκκεηξία) 0 S(x, y) 1 x, y X Αλ επηπιένλ: S(x, y) S(y, z ) [S(x, y) +S(y, z )]S(x, z) S(x, y) =1, αλ θαη κφλν αλ x = y (κέγηζηε νκνηφηεηα) Σφηε ε S θαιείηαη κεηξηθή νκνηόηεηαο. Όζν πην φκνηα είλαη ηα αληηθείκελα, ηφζν κεγαιχηεξε, είλαη ε νκνηφηεηα κεηαμχ ηνπο. Αληίζεηα, ε κε νκνηφηεηα (dissimilarity), είλαη ε αξηζκεηηθή κέηξεζε γηα ην πφζν δηαθνξεηηθά είλαη δχν αληηθείκελα κεηαμχ ηνπο. Όζν πην φκνηα είλαη ηα αληηθείκελα, ηφζν κηθξφηεξε είλαη ε κε- νκνηφηεηα. Ζ νκνηφηεηα- κε νκνηφηεηα κεηαμχ δχν αληηθεηκέλσλ, κεηξηέηαη ζπλήζσο βάζε κηαο ζςνάπηηζηρ απόζηαζηρ αλάκεζα ζηα δχν αληηθείκελα. Ζ νκνηφηεηα κε ηελ απφζηαζε, είλαη αληίζεηεο έλλνηεο, δειαδή παξαηεξήζεηο πνπ είλαη φκνηεο, ζα έρνπλ κεγάιε νκνηφηεηα θαη κηθξή απφζηαζε. Όζν πην φκνηεο είλαη νη παξαηεξήζεηο, ηφζν κηθξφηεξε είλαη ε απφζηαζε αλάκεζα ηνπο θαη αληίζηξνθα. Δπίζεο είλαη ρξήζηκα κέηξα, αθνχ καο επηηξέπνπλ λα κεηξήζνπκε πφζν κνηάδνπλ νη παξαηεξήζεηο κεηαμχ ηνπο θαη ζηε ζπλέρεηα λα ηηο ηνπνζεηήζνπκε ζηελ ίδηα νκάδα. Όηαλ νκαδνπνηνχληαη ηα αληηθείκελα, ε εγγχηεηα (νκνηφηεηα) ζπλήζσο ππνδεηθλχεηαη απφ θάπνηα ηαμηλφκεζε ηεο απφζηαζεο. Απφ ηελ άιιε, νη κεηαβιεηέο νκαδνπνηνχληαη, ζπλήζσο βάζεη ησλ ζπληειεζηψλ ζπζρέηηζεο ή κέηξσλ ζπζρέηηζεο. Όπνηε είλαη δπλαηφλ, είλαη ελδεδεηγκέλν λα ρξεζηκνπνηνχληαη νη «αιεζηλέο» απνζηάζεηο, δειαδή απνζηάζεηο πνπ ηθαλνπνηνχλ ηηο παξαθάησ ηδηφηεηεο ηεο απφζηαζεο γηα νκαδνπνηεκέλα αληηθείκελα: d(x, y) 0 (κε αξλεηηθή) d(x, y) =0, αλ x = y (αλαθιαζηηθή) d(x, y) = d(y, x) (ζπκκεηξία) d(x, y) d(x, z) + d(z, y) (ηξηγσληθή αληζφηεηα) Ζ ζπλάξηεζε d : X X,γηα ηελ νπνία ηζρχνπλ νη 4 πξνεγνχκελεο ηδηφηεηεο, θαιείηαη μεηπική (metric). ε έλα ρψξν πνπ εθνδηάδεηαη κε κηα κεηξηθή, απηή ε κεηξηθή νξίδεη θαη ηελ έλλνηα ηεο απφζηαζεο δχν ζεκείσλ. 11

23 2.1 Απνζηάζεηο θαη Σπληειεζηέο Οκνηόηεηαο γηα δεύγε αληηθεηκέλσλ-ζηνηρείσλ. θαη y: Σν πην γλσζηφ κέηξν νκνηφηεηαο είλαη ε Δπθιείδεηα Απόζηαζε γηα 2 αληηθείκελα x d( x, y) ( x y ) k i1 i i 2 H επθιείδεηα ρξεζηκνπνηείηαη επξέσο, ζε πεξηπηψζεηο ιίγσλ δηαζηάζεσλ θαη έρεη θαιά απνηειέζκαηα, αλ ηα δεδνκέλα νκαδνπνηνχληαη, ζε ζπκπαγή θαη αξθεηά απνκνλσκέλα cluster. Έλα πξφβιεκα πνπ παξνπζηάδεηαη, είλαη φηη ζηηο πνιιέο δηαζηάζεηο, ην ραξαθηεξηζηηθφ πνπ παξνπζηάδεη ηε κεγαιχηεξε δηαθνξνπνίεζε απφ ηα άιια, θπξηαξρεί θαη απνπξνζαλαηνιίδεη ην ηειηθφ απνηέιεζκα. Δδψ πξφθεηηαη, γη απηφ πνπ αλαθέξεηαη σο «θαηάξα ησλ πνιιώλ δηαζηάζεσλ». Γηα 2 p- δηάζηαηεο παξαηεξήζεηο (αληηθείκελα): x = [x 1, x 2 x p ] θαη y = [y 1, y 2 y p ] ε επθιείδεηα απφζηαζε δίλεηαη απφ ηνλ ηχπν: d(x,y)= (x1-y 1) +(x 2-y 2) +...+(x p-y p) = (x-y) (x-y) Ζ ζηαηηζηηθή απφζηαζε, αλάκεζα ζηηο δχν ίδηεο παξαηεξήζεηο x θαη y γεληθά είλαη: d(x,y)= (x-y) Α(x-y). πλήζσο Α= S -1, φπνπ ν πίλαθαο S πεξηέρεη ηηο δεηγκαηηθέο δηαζπνξέο θαη ζπλδηαζπνξέο. Όηαλ Α= I,εκθαλίδεηαη ε επθιείδεηα. Χζηφζν, ρσξίο εθ ησλ πξνηέξσλ γλψζε ησλ δηαθεθξηκέλσλ νκάδσλ, απηέο νη δεηγκαηηθέο πνζφηεηεο δελ κπνξνχλ λα ππνινγηζηνχλ. Γη απηφ θαη ε επθιείδεηα, πξνηηκάηαη ζπρλά γηα clustering. Έλα άιιν κέηξν απφζηαζεο είλαη ε κεηξηθή Minkowski,έλαο ηξφπνο κε ηνλ νπνίν ε επθιείδεηα, ζα κπνξνχζε λα γεληθεπηεί: p d(x,y)=[ x -y ] i=1 i m 1/m i Γηα m=1, ε d(x, y) κεηξάεη ηελ απφζηαζε Manhattan ή city- block κεηαμχ 2 ζεκείσλ ζηηο p- δηαζηάζεηο: City - block distance = p i=1 x -y Γηα m=2, ε d(x, y) γίλεηαη ε επθιείδεηα απφζηαζε. Γηα m, ε d(x, y) γίλεηαη απόζηαζε Chebyshev: d(x,y)= max x -y k i=1 i i i i Γεληθά γηα δηάθνξεο ηηκέο ηνπ m, πξνθχπηνπλ δηάθνξεο ελδηαθέξνπζεο απνζηάζεηο. Δπηπιένλ δεκνθηιή κέηξα απφζηαζεο ή κε- νκνηφηεηαο, δίλνληαη απφ ηελ κεηξηθή Canberra, απόζηαζε Mahalanobis θαη ηνλ ζπληειεζηή Czekanowski. Έηζη έρνπκε: p xi-y i Μεηξηθή Canberra: d(x,y)= (x +y ) i=1 i i 12

24 πληειεζηήο Czekanowski: Απφζηαζε Mahalanobis: p 2 min(x i,y i) i=1 d(x,y)=1- p (x +y ) i=1 T 1 d(x,y)=(x-y) S (x-y) i i, φπνπ S ν πίλαθαο δηαζπνξάο ησλ παξαηεξήζεσλ. Όηαλ ηα ραξαθηεξηζηηθά δελ είλαη εμαξηεκέλα, ηαπηίδεηαη κε ηελ Δπθιείδεηα. 2.2 Οκνηόηεηεο βαζηζκέλεο ζε ραξαθηεξηζηηθά Όηαλ ηα αληηθείκελα, δελ κπνξνχλ λα αλαπαξαζηαζνχλ, απφ ηηο p- δηάζηαηεο κεηξήζεηο, ηα δεχγε ησλ αληηθεηκέλσλ, ζπρλά ζπγθξίλνληαη, βάζε ηεο παξνπζίαο ή απνπζίαο νξηζκέλσλ ραξαθηεξηζηηθψλ. Όκνηα αληηθείκελα έρνπλ πεξηζζφηεξα θνηλά ραξαθηεξηζηηθά απ φηη αλφκνηα αληηθείκελα. Ζ παξνπζία ή απνπζία ελφο ραξαθηεξηζηηθνχ κπνξεί καζεκαηηθά λα πεξηγξαθεί, εηζάγνληαο κηα δπαδηθή κεηαβιεηή, πνπ δίλεη ηελ ηηκή 1, αλ ην ραξαθηεξηζηηθφ ππάξρεη θαη ηελ ηηκή 0, αλ ην ραξαθηεξηζηηθφ απνπζηάδεη. Γηα p=5 δπαδηθέο κεηαβιεηέο π.ρ. ηα απνηειέζκαηα ησλ κεηαβιεηψλ γηα 2 αληηθείκελα i θαη k, κπνξνχλ λα παξνπζηαζηνχλ σο εμήο: Μεηαβιεηή Αληηθείκελν i Αληηθείκελν k ε απηήλ ηελ πεξίπησζε ππάξρνπλ, 2 αληηζηνηρίεο 1-1, 1 αληηζηνηρία 0-0 θαη 2 θαθνί ζπλδπαζκνί. Αο είλαη x ij ην απνηέιεζκα (1 ή 0) ηεο j- δπαδηθήο κεηαβιεηήο ηνπ i- αληηθεηκέλνπ θαη x kj ην απνηέιεζκα (1 ή 0) ηεο j κεηαβιεηήο ηνπ k αληηθεηκέλνπ, j=1, 2,,p. πλεπψο: 0, αλ x ij = x kj =1 ή x ij =x kj = 0 (x ij - x kj ) 2 = (2.1) 1, αλ x ij x kj Καη ε ηεηξαγσληθή επθιείδεηα απφζηαζε p j=1 (x -x ) ij kj 2 απαξηζκεί ηνλ αξηζκφ ησλ θαθψλ ζπλδπαζκψλ. Μηα κεγάιε απφζηαζε, αληηζηνηρεί ζε πνιινχο θαθνχο ζπλδπαζκνχο, δειαδή αλφκνηα αληηθείκελα. Απφ ηα παξαπάλσ, ε ηεηξαγσληθή επθιείδεηα απφζηαζε, αλάκεζα ζηα αληηθείκελα i θαη k ζα ήηαλ: 5 2 (xij-x kj) = (1-1) 2 + (0-1) 2 +(0-0) 2 +(1-1) 2 + (1-0) 2 =2 j=1 Αλ θαη κηα απφζηαζε, βαζηζκέλε ζηελ (2.1), κπνξεί λα ρξεζηκνπνηεζεί γηα λα κεηξήζεη ηελ νκνηφηεηα, πάζρεη απφ ηελ ζηάζκηζε ησλ αληηζηνηρηψλ 1-1 θαη 0-0 εμίζνπ. 13

25 ε θάπνηεο πεξηπηψζεηο, κηα 1-1 αληηζηνηρία, είλαη κηα πην δπλαηή έλδεημε νκνηφηεηαο, απ φηη κηα 0-0 αληηζηνηρία. Γηα λα επηηξαπεί, ε δηαθνξεηηθή κειέηε ησλ 1-1 θαη 0-0 αληηζηνηρηψλ, πξνηάζεθαλ δηάθνξα ζρήκαηα γηα ηνλ πξνζδηνξηζκφ ησλ ζπληειεζηψλ νκνηφηεηαο. Γηα λα εηζάγνπκε απηά ηα ζρήκαηα, αο δηαηάμνπκε ηηο ζπρλφηεηεο ησλ αληηζηνηρηψλ θαη ησλ θαθψλ ζπλδπαζκψλ, γηα ηα αληηθείκελα i θαη k, κε ηελ κνξθή ελφο πίλαθα ζπλάθεηαο: Πίνακαρ 2.1: Πίλαθαο ζπλάθεηαο γηα ηηο ζπρλόηεηεο ησλ αληηζηνηρηώλ θαη ησλ θαθώλ ζπλδπαζκώλ ησλ αληηθεηκέλσλ i θαη k Αληηθείκελν k 1 0 Totals 1 a b a + b Αληηθείκελν i 0 c d c + d Totals a + c b + d p = a + b + c + d (2.1) ε απηνχο ηνπο πίλαθεο, ην a αληηπξνζσπεχεη ηε ζπρλφηεηα ησλ 1-1 αληηζηνηρηψλ, ην b ηε ζπρλφηεηα ησλ 1-0 αληηζηνηρηψλ, ην c ηε ζπρλφηεηα ησλ 0-1 αληηζηνηρηψλ θαη ην d ηε ζπρλφηεηα ησλ 0-0 αληηζηνηρηψλ. Γεδνκέλνπ ησλ 5 δεπγαξηψλ ησλ δπαδηθψλ απνηειεζκάησλ απφ παξαπάλσ, a=2 θαη b = c = d =1. Ο παξαθάησ πίλαθαο (2.2), πεξηέρεη θάπνηνπο ζπληειεζηέο νκνηφηεηαο πνπ νξίδνληαη απφ ηελ άπνςε ησλ ζπρλνηήησλ ηνπ (2.1). Μηα ζχληνκε αηηηνινγία, αθνινπζεί θάζε νξηζκφ. Πίνακαρ 2.2 Σπληειεζηέο Οκνηόηεηαο γηα Οκαδνπνηεκέλα Αληηθείκελα. πληειεζηήο a+d 1. p 2. 2(a+d) 2(a+d)+b+c Αηηηνινγία Ίζα βάξε γηα 1-1 θαη 0-0 αληηζηνηρίεο Αλαινγία ησλ ζηνηρείσλ, ζηελ νπνία ζπκθσλνχλ ηα 2 αληηθείκελα. Γηπιφ βάξνο γηα 1-1 θαη 0-0 αληηζηνηρίεο a+d a+d+2(b+c) a p a a+b+c Γηπιφ βάξνο γηα 1-0 θαη 0-1 αληηζηνηρίεο Καζφινπ 0-0 αληηζηνηρίεο ζηνλ αξηζκεηή. Σπληειεζηήο Jaccard Καζφινπ 0-0 αληηζηνηρίεο ζηνλ αξηζκεηή ή ηνλ παξνλνκαζηή. (νη 0-0 αληηζηνηρίεο ραξαθηεξίδνληαη ζαλ αζπζρέηηζηεο). 14

26 a 2a+b+c a a+2(b+c) a b+c Σπληειεζηήο Dice Καζφινπ 0-0 αληηζηνηρίεο ζηνλ αξηζκεηή ή ηνλ παξνλνκαζηή. Γηπιφ βάξνο γηα 1-1 αληηζηνηρίεο. Καζφινπ 0-0 αληηζηνηρίεο ζηνλ αξηζκεηή ή ηνλ παξνλνκαζηή. Γηπιφ βάξνο γηα κε- ηαηξηαζηά δεχγε (δειαδή 1-0 θαη 0-1 αληηζηνηρίεο). Ο ιφγνο ησλ αληηζηνηρηψλ (1-1) πξνο ηνπο θαθνχο ζπλδπαζκνχο (1-0 θαη 0-1) κε ηηο 0-0 αληηζηνηρίεο λα εμαηξνχληαη. Οη ζπληειεζηέο 1, 2, θαη 3 ηνπ πίλαθα 2.2, εθθξάδνπλ κηα κνλφηνλε ζρέζε. Τπνζέηνπκε φηη ν ζπληειεζηήο 1, ππνινγίδεηαη γηα 2 πίλαθεο ζπλάθεηαο, ηνλ πίλαθα I θαη ηνλ πίλαθα II. Σφηε αλ: (a I +d I) (a II +d II) 2(a I+d I) 2(a II+d II ), ζα έρνπκε επίζεο 2(a +d )+b +c 2(a +d )+b +c p p I I I I II II II II Καη ν ζπληειεζηήο 3, ζα είλαη ηνπιάρηζηνλ ηφζν κεγάινο γηα ηνλ πίλαθα I, φζν είλαη γηα ηνλ πίλαθα II. Οη ζπληειεζηέο 5, 6 θαη 7, δηαηεξνχλ επίζεο ηηο ζρεηηθέο δηαηάμεηο ηνπο. Ζ κνλνηνλία είλαη ζεκαληηθή, επεηδή κεξηθέο δηαδηθαζίεο νκαδνπνίεζεο, δελ επεξεάδνληαη, αλ ν νξηζκφο ηεο νκνηφηεηαο αιιάδεη κε ηξφπν πνπ αθήλεη ακεηάβιεηεο ηηο ζρεηηθέο δηαηάμεηο ησλ νκνηνηήησλ. Οη ηεξαξρηθέο δηαδηθαζίεο single linkage θαη complete linkage πνπ ζα εμεηάζνπκε ζηε ζπλέρεηα, δελ επεξεάδνληαη. Γηα ηηο κεζφδνπο απηέο, νπνηαδήπνηε επηινγή ησλ ζπληειεζηψλ 1, 2 θαη 3 ζα παξήγαγε ηηο ίδηεο νκαδνπνηήζεηο. Παξνκνίσο νπνηαδήπνηε επηινγή ησλ ζπληειεζηψλ 5, 6 θαη 7, ζα παξήγαγε ηαπηφζεκεο νκαδνπνηήζεηο. Έλα άιιν είδνπο κέηξνπ, κπνξεί λα πξνθχςεη απφ ηνλ πίλαθα (2.1). Σν a / (a + c), είλαη ε ππφ ζπλζήθε πηζαλφηεηα, πνπ ην αληηθείκελν 2 ζα θέξεη απνηέιεζκα 1 ζε κηα ηπραία επηιεγκέλε κεηαβιεηή, δεδνκέλνπ φηη ην αληηθείκελν 1, ζα θέξεη 1 ζε απηήλ ηε κεηαβιεηή. Παξφκνηα εξκελεία εθαξκφδεηαη ζηελ πηζαλφηεηα a / (a + b). Έλα ζπκκεηξηθφ κέηξν ηεο δχλακεο ηεο ζρέζεο, κεηαμχ 2 αληηθείκελσλ, δίλεηαη επίζεο απφ ην: d(x, y) = * Υπνινγηζκόο ησλ Σπληειεζηώλ Οκνηόηεηαο. Τπνζέηνπκε φηη 5 άηνκα, έρνπλ ηα αθφινπζα ραξαθηεξηζηηθά: Άτομο 1 Άτομο 2 Άτομο 3 Άτομο 4 Ύψος Βάρος Χρώμα Ματιών Χρώμα Μαλλιών Χρήση Χεριού Φύλο 68 in 73 in 67 in 64 in 140 lb 185 lb 165 lb 120 lb Πράςινο Καφέ Μπλε Καφέ Ξανθά Καςτανά Ξανθά Καςτανά Δεξιό Δεξιό Δεξιό Δεξιό Θηλυκό Αρςενικό Αρςενικό Θηλυκό 15

27 Οξίδνπκε 6 δπαδηθέο κεηαβιεηέο Υ 1, Υ 2, Υ 3, Υ 4, Υ 5, Υ 6 σο εμήο: 1, αλ χςνο 72 in 1, μαλζά καιιηά Υ 1 = Υ 4 = 0, αλ χςνο < 72 in 0, φρη μαλζά 1, αλ βάξνο 150 lb 1, δεμηφρεηξαο Υ 2 = Υ 5 = 0, αλ βάξνο < 150 lb 0, αξηζηεξφρεηξαο 1, θαθέ κάηηα 1, ζειπθφ Υ 3 = Υ 6 = 0, άιιν ρξψκα 0, αξζεληθφ Σα απνηειέζκαηα γηα ηα άηνκα 1θαη 2, ησλ p= 6 δπαδηθψλ κεηαβιεηψλ είλαη: Υ 1 Υ 2 Υ 3 Υ 4 Υ 5 Υ 6 Άηνκν Άηνκν Καη ν αξηζκφο ησλ αληηζηνηρίζεσλ θαη ησλ θαθψλ ζπλδπαζκψλ, ππνδεηθλχεηαη ζηνλ ακθίδξνκν πίλαθα: Άηνκν 1 Άηνκν Totals Totals Τηνζεηψληαο ηνλ ζπληειεζηή νκνηφηεηαο 1,πνπ δίλεη ίζα βάξε, ζηηο αληηζηνηρίεο, ππνινγίδνπκε: a+d p = = 1 6 πλερίδνληαο, κε ηνλ ζπληειεζηή νκνηφηεηαο 1, ππνινγίδνπκε θαη ηνπο ππφινηπνπο αξηζκνχο νκνηφηεηαο γηα ηα δεχγε αηφκσλ. Απηά θαίλνληαη ζηνλ 5 x 5 ζπκκεηξηθφ πίλαθα: 16

28 Άηνκν Άηνκν Βαζηζκέλνη ζηα κεγέζε ησλ ζπληειεζηψλ νκνηφηεηαο, ζα βιέπακε φηη ηα άηνκα 2 θαη 5 είλαη ηα πην φκνηα, αθνχ ν είλαη ν κεγαιχηεξνο ζπληειεζηήο θνληά ζην 1, ελψ ηα άηνκα 1 θαη 5 είλαη ηα ιηγφηεξν φκνηα (0). Άιια δεπγάξηα θπκαίλνληαη κεηαμχ απηψλ ησλ άθξσλ. Αλ επξφθεηην λα ρσξίζνπκε ηα άηνκα ζε 2 ζρεηηθά νκνηνγελείο ππννκάδεο, βάζε ησλ αξηζκψλ νκνηφηεηαο, ζα δηακνξθψλακε ηηο ππννκάδεο (134) θαη (25). Έρνπκε πεξηγξάςεη ηελ θαηαζθεπή ησλ απνζηάζεσλ θαη ησλ νκνηνηήησλ. Δίλαη πάληα πηζαλφ λα θαηαζθεπάζνπκε νκνηφηεηεο απφ ηηο απνζηάζεηο. Γηα παξάδεηγκα, κπνξνχκε λα ζέζνπκε: ik = ^, φπνπ 0 < ik <1 είλαη ε νκνηφηεηα κεηαμχ ησλ ζηνηρείσλ i θαη k, θαη d ik είλαη ε αληίζηνηρε απφζηαζε. Χζηφζν απνζηάζεηο, πνπ πξέπεη λα ηθαλνπνηνχλ ηηο ηδηφηεηεο, δελ θαηαζθεπάδνληαη πάληα απφ νκνηφηεηεο. Όπσο έδεημε ν Gower, απηφ κπνξεί λα γίλεη, κφλν αλ ν πίλαθαο νκνηνηήησλ είλαη κε αξλεηηθά νξηζκέλνο. Με ηε ζπλζήθε ηνπ κε αξλεηηθά νξηζκέλνπ, θαη ηελ κέγηζηε νκνηφηεηα λα θιηκαθψλεηαη, έηζη ψζηε ii =1, ηφηε ε d ik = έρεη ηηο ηδηφηεηεο ηεο απφζηαζεο. 2.3 Οκνηόηεηεο κε ηε ρξήζε βαξώλ w i Μέρξη ηψξα, ε πην ζπλεζηζκέλε επηινγή, είλαη ε επθιείδεηα απφζηαζε, d(x,y)= (x1-y 1) +(x 2-y 2) +...+(x p-y p).όκσο είλαη πηζαλέο θη άιιεο επηινγέο θαη κπνξνχλ λα νδεγήζνπλ ζε δηαθνξεηηθά απνηειέζκαηα. Γηα κε πνζνηηθά ραξαθηεξηζηηθά (δειαδή θαηεγνξηθά δεδνκέλα), ε επθιείδεηα απφζηαζε, κπνξεί λα κελ είλαη θαηάιιειε. Δίλαη επηζπκεηφ, επίζεο λα ζηαζκίδνπκε ηα ραξαθηεξηζηηθά δηαθνξεηηθά, αληί λα ηνπο δίλνπκε ίζα βάξε. Όπσο: d(x,y)= w 1(x1-y 1) +w 2(x 2-y 2) +...+w p(xp-y p) Αλαθέξνπκε πξψηα ηα είδε ησλ ραξαθηεξηζηηθψλ πνπ ππάξρνπλ: 17

29 Πνζνηηθά ραξαθηεξηζηηθά: πλερείο ηηκέο (βάξνο, χςνο) Γηαθξηηέο ηηκέο (αξηζκφο αηφκσλ) Σηκέο δηαζηεκάησλ (δηάξθεηα θάπνηνπ γεγνλφηνο) Πνηνηηθά ραξαθηεξηζηηθά: Ολνκαζηηθά ή κε ηαμηλνκεκέλα (ρξψκα) Σαμηλνκήζηκα (δεζηφ- θξχν, δπλαηά- ζηγά). Έλα απφ ηα πιενλεθηήκαηα ησλ δπαδηθψλ κεηαβιεηψλ, είλαη φηη δελ ππάξρνπλ πξνβιήκαηα ζηηο κνλάδεο κέηξεζεο. Γεδνκέλνπ φηη φια θαηαγξάθνληαη ζε 0 ή 1, δελ έρεη ζεκαζία πνηεο είλαη νη πξαγκαηηθέο κνλάδεο. Δίλαη ζαλ λα ιέκε, φηη κπνξεί θαλείο λα εμαθνινπζήζεη λα ρξεζηκνπνηεί, βάξε w i, γηα λα θάλεη ρξήζε νπνηαζδήπνηε πιεξνθνξίαο ζρεηηθά κε ηελ αλάινγε ζεκαζία ησλ κεηαβιεηψλ. Σν πξαθηηθφ απνηέιεζκα είλαη, φηη αληί κηαο αληηζηνηρίαο ή θαθνχ ζπλδπαζκνχ, ηεο κεηαβιεηήο i, πνπ πξνζζέηεη ην 1 ζην θαηάιιειν θειί ηνπ πίλαθα, ηψξα ζα πξνζζέηεη ην w i. Οη αξρέο πίζσ απφ ηελ αληηζηνηρία ζπληειεζηψλ γηα δπαδηθέο κεηαβιεηέο, κπνξνχλ λα εθαξκνζηνχλ επίζεο γηα νλνκαζηηθέο κεηαβιεηέο. Καηά ζπλέπεηα, απφ ηνλ ζπληειεζηή 1 έρνπκε: d(x, y) = Κάπνηεο θνξέο, επηρεηξήκαηα ζε νξηζκέλεο θαηεγνξίεο, είλαη πην ζεκαληηθά απ φηη ζε άιιεο. Γηα παξάδεηγκα αλ κηα κεηαβιεηή, ήηαλ ε νκάδα αίκαηνο, ηφηε ην γεγνλφο φηη δχν άλζξσπνη, έρνπλ θαη νη δχν κηα ζπάληα νκάδα αίκαηνο, ζα ήηαλ κεγαιχηεξεο ζεκαζίαο, απφ ην αλ απηνί κνηξάδνληαλ κηα θνηλή νκάδα αίκαηνο. Ο Anderberg (1973) πεξηγξάθεη κηα απιή θαη ειθπζηηθή δηαδηθαζία γηα ηελ ζπνπδαηφηεηα ησλ επηρεηξεκάησλ: γηα κηα ζπγθεθξηκέλε κεηαβιεηή, ππνζέηεη φηη n i απφ ηα αληηθείκελα αλήθνπλ ζηελ θαηεγνξία i. Σφηε γηα δχν ηπραία επηιεγκέλα αληηθείκελα: P (αλήθνπλ θαη ηα 2 ζηελ θαηεγνξία i) = (n i / n) 2 P ii P (ην έλα αλήθεη ζηελ θαηεγνξία i θαη ην άιιν ζηελ θαηεγνξία j) = 2 n i n j / n 2 P ij Καη ηα βάξε δίλνληαη απφ ην wij = φπνπ g είλαη ν αξηζκφο ησλ θαηεγνξηψλ γη απηήλ ηε κεηαβιεηή. Όπσο θαη γηα ηηο δπαδηθέο κεηαβιεηέο, ηα βάξε ρξεζηκνπνηνχληαη ζηε ζέζε ησλ απιψλ αξηζκψλ, ζηελ αληηζηνηρία ησλ ζπληειεζηψλ. 2.4 Οκνηόηεηεο θαη Μέηξα Σπζρέηηζεο γηα δεύγε κεηαβιεηώλ πδεηήζακε παξαπάλσ γηα κέηξα νκνηφηεηαο ζηνηρείσλ- αληηθεηκέλσλ. ε θάπνηεο εθαξκνγέο, είλαη νη κεηαβιεηέο πνπ πξέπεη λα νκαδνπνηεζνχλ, παξά ηα ζηνηρεία. Σα κέηξα νκνηφηεηαο γηα κεηαβιεηέο, παίξλνπλ ζπρλά ηελ κνξθή ησλ δεηγκαηηθώλ ζπληειεζηώλ ζπζρέηηζεο θαη ζπγθεθξηκέλα κηα πςειή ηηκή ηνπ ζπληειεζηή ζπζρέηηζεο, 18

30 αλαπαξηζηάλεη νκνηφηεηα θαη ην αληίζηξνθν. Δπεηδή ζηελ νπζία, νη ζπληειεζηέο ζπζρέηηζεο, είλαη κέηξα αλνκνηφηεηαο, κπνξνχλ εχθνια λα κεηαηξαπνχλ ζε κέηξα νκνηφηεηαο, αθαηξψληαο ηνπο απφ ην 1, σζηφζν δελ ηθαλνπνηνχλ, θάπνηα απφ ηηο ηδηφηεηεο κηαο αιεζηλήο κεηξηθήο. Δπηπιένλ ζε κεξηθέο εθαξκνγέο νκαδνπνίεζεο, νη αξλεηηθέο ζπζρεηίζεηο, αληηθαζίζηαληαη απφ ηηο απφιπηεο ηηκέο ηνπο. Όηαλ νη κεηαβιεηέο είλαη δπαδηθέο, ηα δεδνκέλα κπνξνχλ λα δηαηαρηνχλ μαλά ππφ ηελ κνξθή ελφο πίλαθα ζπλάθεηαο. Απηή ηε θνξά, νη κεηαβιεηέο παξά ηα ζηνηρεία, ζθηαγξαθνχλ ηηο θαηεγνξίεο. Γηα θάζε δεπγάξη κεηαβιεηψλ, ππάξρνπλ n ζηνηρεία νκαδνπνηεκέλα ζηνλ πίλαθα. Με ηνπο ζπλεζηζκέλνπο θψδηθεο 0 θαη 1, ν πίλαθαο γίλεηαη φπσο παξαθάησ: Πίνακαρ 2.3: Πίλαθαο ζπλάθεηαο ησλ κεηαβιεηώλ i θαη k Μεηαβιεηή i 1 1 a 0 c Μεηαβιεηή k 0 Totals b a + b d c + d (2.3) Totals a + c b + d p = a + b + c + d Γηα παξάδεηγκα, ε κεηαβιεηή i ηζνχηαη κε 1 θαη ε κεηαβιεηή k ηζνχηαη κε 0, γηα b απφ ηα n ζηνηρεία. Αλ θαη ηα κέηξα κε ηδηφηεηεο κεηξηθήο, είλαη εθείλα πνπ έρνπλ επξχηεξα ρξεζηκνπνηεζεί, ππάξρνπλ θαη άιια. Απφ απηά ησλ κε- κεηξηθψλ, ην πην επξέσο εθαξκνζκέλν, είλαη εθείλν ηνπ ζπληειεζηή ζπζρέηηζεο ξ. Έρνπκε εμνηθεησζεί κε ην ξ λα ρξεζηκνπνηείηαη γηα λα ζπζρεηίζεη κεηαβιεηέο, δειαδή ζαλ κέηξν νκνηφηεηαο, κεηαμχ κεηαβιεηψλ. Με αθξηβψο αλάινγν ηξφπν, κπνξνχκε λα ην ρξεζηκνπνηήζνπκε, γηα λα ππνινγίζνπκε νκνηφηεηεο κεηαμχ ζεκείσλ. Γηα παξάδεηγκα, έζησ x ij, i= 1, 2,, n θαη j= 1, 2 d είλαη ν πίλαθαο δεδνκέλσλ ησλ n ζεκείσλ ζηηο d δηαζηάζεηο. Ο ζπληειεζηήο ζπζρέηηζεο κεηαμχ κεηαβιεηψλ, εθηηκάηαη απφ ην: r= kj n i=1 (x -x )(x -x ) ik k ij j n n 2 2 (xik -x k ) (xij-x j) i=1 i=1 φπνπ Σψξα γηα ζπζρεηίζεηο κεηαμχ αληηθεηκέλσλ έρνπκε: d(x,x ) = k j r= kj d i=1 (x -x )(x -x ) ki k ji j d d 2 2 (x ki-x k ) (x ji-x j) i=1 i=1 κε n 1 x k = x n i=1 i=1 ik d 1 x k = x d Απιά αληηζηξέθεηαη, ν ξφινο ησλ κεηαβιεηψλ θαη ησλ αληηθεηκέλσλ. Ίζσο εδψ, πην πξνθαλψο απφ ηηο θιίκαθεο κεηξηθψλ είλαη πην εκθαλέο ην πξφβιεκα, πνπ ζπλδέεηαη κε ηε ρξήζε δηαθνξεηηθψλ κνλάδσλ: πνην είλαη ηνλ λφεκα ηνπ κέζνπ k ησλ κεηξήζεσλ ζε δηαθνξεηηθά πξάγκαηα; ki 19

31 Ο ζπλεζηζκέλνο ηχπνο ζπζρέηηζεο ηνπ Pearson, πνπ εθαξκφδεηαη ζηηο δπαδηθέο κεηαβιεηέο ηνπ πίλαθα ζπλάθεηαο (2.3) δίλεη: [^ \] r = (2.2) [ \ ] ^ [ ] \ ^ Απηφο ν αξηζκφο, κπνξεί λα ιεθζεί ζαλ κέηξν νκνηφηεηαο κεηαμχ 2 κεηαβιεηψλ. Ο ζπληειεζηήο ζπζρέηηζεο (2.2), ζρεηίδεηαη κε ην ζηαηηζηηθφ Υ 2 ( r 2 = ρ 2 /n ), γηα ηνλ έιεγρν ηεο αλεμαξηεζίαο 2 θαηεγνξηθψλ κεηαβιεηψλ. Γηα n ζηαζεξφ, κηα κεγάιε νκνηφηεηα (ή ζπζρέηηζε), ζπκθσλεί κε ηελ έιιεηςε αλεμαξηεζίαο. Λακβάλνληαο ππφςε, ηνλ πίλαθα (2.3), ηα κέηξα ζπζρέηηζεο (ή νκνηφηεηαο) αλαπηχζζνληαη αθξηβψο αλάινγα κε απηά πνπ απαξηζκνχληαη ζηνλ πίλαθα 2.2. Ζ κφλε αιιαγή πνπ απαηηείηαη, είλαη ε αληηθαηάζηαζε ηνπ n (αξηζκνχ ζηνηρείσλ) κε p (αξηζκφ κεηαβιεηψλ). 2.5 Πίλαθαο Δγγύηεηαο Σα δεδνκέλα, εθπξνζσπνχληαη θάπνηεο θνξέο άκεζα, απφ ηελ άπνςε ηεο εγγχηεηαο (νκνηφηεηαο) κεηαμχ δεπγψλ αληηθεηκέλσλ. Απηά κπνξεί λα είλαη είηε νκνηφηεηεο ή αλνκνηφηεηεο. Γηα παξάδεηγκα, ζε πεηξάκαηα ηεο θνηλσληθήο επηζηήκεο, νη ζπκκεηέρνληεο θαινχληαη λα θξίλνπλ, πφζν πνιχ νξηζκέλα αληηθείκελα, δηαθέξνπλ κεηαμχ ηνπο. Οη αλνκνηφηεηεο, κπνξνχλ ηφηε λα ππνινγηζηνχλ, απφ ηνλ κέζν φξν ηεο ζπιινγήο απηψλ ησλ θξίζεσλ. Απηφ ην είδνο ησλ δεδνκέλσλ, κπνξεί λα αλαπαξαζηαζεί, απφ έλαλ Ν Ν πίλαθα D, φπνπ Ν είλαη ν αξηζκφο ησλ αληηθεηκέλσλ θαη θάζε ζηνηρείν d ii παξηζηάλεη ηελ εγγχηεηα, αλάκεζα ζηα αληηθείκελα i θαη i. Ο πίλαθαο απηφο, ζηε ζπλέρεηα, παξέρεηαη ζαλ είζνδνο ζηνλ αιγφξηζκν νκαδνπνίεζεο. Οη πεξηζζφηεξνη αιγφξηζκνη, παίξλνπλ σο δεδνκέλν, έλα πίλαθα αλνκνηνηήησλ κε κε αξλεηηθέο εηζφδνπο θαη κεδεληθά δηαγψληα ζηνηρεία d ii =0, i= 1, 2,,N. Αλ ηα αξρηθά δεδνκέλα, έρνπλ ζπιιερζεί ζαλ νκνηφηεηεο, κηα θαηάιιειε κνλφηνλα θζίλνπζα ζπλάξηεζε, κπνξεί λα ρξεζηκνπνηεζεί γηα λα κεηαηξέςεη απηά ζε αλνκνηφηεηεο. Οη πεξηζζφηεξνη αιγφξηζκνη επίζεο, ππνζέηνπλ ζπκκεηξηθνχο πίλαθεο αλνκνηφηεηαο, έηζη ψζηε αλ ν αξρηθφο πίλαθαο D δελ είλαη ζπκκεηξηθφο, πξέπεη λα αληηθαηαζηαζεί απφ ηνλ (D + D T )/2. Τπνθεηκεληθά, νη αλνκνηφηεηεο πνπ ρξεζηκνπνηνχκε, ζπάληα είλαη απνζηάζεηο, ππφ ηελ αθξηβή έλλνηα, αθνχ ε ηξηγσληθή αληζφηεηα d ii d ik + d ik γηα φια ηα k {1, 2,, N} δελ ηζρχεη. Έηζη θάπνηνη αιγφξηζκνη πνπ ππνζέηνπλ απνζηάζεηο, δελ κπνξνχλ λα ρξεζηκνπνηεζνχλ κε ηέηνηα δεδνκέλα Μέηξεζε ησλ νκνηνηήησλ ησλ 11 γισζζώλ. Σν λφεκα ησλ ιέμεσλ, αιιάδεη κε ην πέξαζκα ησλ αηψλσλ. Χζηφζν, ην λφεκα ησλ αξηζκψλ 1, 2, 3 αληηπξνζσπεχεη κηα επδηάθξηηε εμαίξεζε. Μηα πξψηε ζχγθξηζε ησλ γισζζψλ, κπνξεί λα βαζηζηεί κφλν ζηνπο αξηζκνχο. Ο πίλαθαο 2.4, δίλεη ηνπο πξψηνπο 10 αξηζκνχο, ζηα Αγγιηθά, Πνισληθά, Οπγγξηθά θαη ζε 8 άιιεο κνληέξλεο Δπξσπατθέο γιψζζεο. Οξηζκέλα ζεκάδηα πξνθνξάο, φπσο ε ππνγεγξακκέλε, παξαιείπνληαη. Μηα 20

32 γξήγνξε εμέηαζε, ηεο νξζνγξαθίαο, ησλ αξηζκψλ ζηνλ πίλαθα 2.4, ππνδειψλεη, φηη νη 5 πξψηεο γιψζζεο, (Αγγιηθά, Ννξβεγηθά, Γαλεηθά, Οιιαλδηθά θαη Γεξκαληθά), είλαη πάξα πνιχ φκνηεο. Σα Γαιιηθά, Ηζπαληθά θαη Ηηαιηθά ζπκθσλνχλ αθφκα πην πνιχ. Σα Οπγγξηθά θαη Φηιαλδηθά, θαίλνληαη λα κέλνπλ κφλα ηνπο θαη ηα Πνισληθά, έρνπλ θάπνηα απφ ηα ραξαθηεξηζηηθά ησλ γισζζψλ, ζε θάζε κηα απφ ηηο κεγαιχηεξεο ππννκάδεο. Αγγιηθά Ν λλ one two three four five six seven eight nine ten Πίνακαρ 2.4 Οη αξηζκνί ζηηο 11 γιώζζεο. Ννξβεγηθά Γαλεηθά Οιιαλδηθά ΓΓ en to tre fire fem seks sju atte ni ti en to tre fire fem seks syv otte ni ti een twee drie vier vijf zes zeven acht negen tien Γεξκαληθά Γαιιηθά Ηζπαληθά Ηηαιηθά Πνισληθά Οπγγξηθά Φηιαλδηθά ein un uno uno jeden egy yksi zwei deux dos due dwa ketto kaksi drei trois tres tre trzy harom kolme vier quatre cuatro quattro cztery negy neua funf cinq cinco cinque piec ot viisi sechs six seix sei szesc hat kuusi sieben sept siete sette siedem het seitseman acht huit ocho otto osiem nyolc kahdeksan neun neuf nueve nove dziewiec kilenc yhdeksan zehn dix diez dieci dziesiec tiz kymmenen Οη ιέμεηο γηα ην 1, ζηα Γαιιηθά, Ηηαιηθά θαη Ηζπαληθά μεθηλνχλ φιεο κε u. Γηα επεμεγεκαηηθνχο ιφγνπο, κπνξνχκε λα ζπγθξίλνπκε ηηο γιψζζεο, εμεηάδνληαο ηα πξψηα γξάκκαηα ησλ αξηζκψλ. Καινχκε ηηο ιέμεηο, γηα ηνλ ίδην αξηζκφ ζε 2 δηαθνξεηηθέο γιψζζεο «ζύκθσλεο», αλ έρνπλ ην ίδην πξψην γξάκκα θαη «κε- ζύκθσλεο», αλ δελ έρνπλ. Υξεζηκνπνηψληαο ηνλ πίλαθα 2.4, ν πίλαθαο ησλ ζπκθσληψλ ( δειαδή ζπρλνηήησλ, ηαηξηάζκαηνο ησλ πξψησλ αξρηθψλ γξακκάησλ) γηα ηνπο αξηζκνχο 1-10, δίλεηαη ζηνλ πίλαθα 2.5. Βιέπνπκε φηη ηα Αγγιηθά θαη Ννξβεγηθά, έρνπλ ην ίδην πξψην γξάκκα γηα 8 απφ ηα 10 δεχγε ιέμεσλ. Οη ππφινηπεο ζπρλφηεηεο ππνινγίδνληαη κε ηνλ ίδην ηξφπν. Πίνακαρ 2.5 Σπκθσλίεο πξώησλ γξακκάησλ, γηα ηνπο αξηζκνύο ησλ 11 γισζζώλ. E N Da Du G Fr Sp I P H Fi E N Da Du G Fr Sp I P H Fi

33 Σα απνηειέζκαηα ηνπ πίλαθα 2.5, επηβεβαηψλνπλ ηηο αξρηθέο καο, νπηηθέο εληππψζεηο ηνπ πίλαθα 2.4. Γειαδή φηη ηα Αγγιηθά, Ννξβεγηθά, Γαλεηθά, Οιιαλδηθά θαη Γεξκαληθά θαίλεηαη λα δηακνξθψλνπλ κηα νκάδα. Σα Γαιιηθά, Ηζπαληθά, Ηηαιηθά θαη Πνισληθά, κπνξνχλ λα νκαδνπνηεζνχλ καδί, θαζψο θαη ηα Οπγγξηθά θαη Φηιαλδηθά θαίλνληαη λα κέλνπλ κφλα ηνπο. ε απηφ ην παξάδεηγκα, ρξεζηκνπνηήζακε ηελ νπηηθή καο εληχπσζε, γηα ηελ νκνηφηεηα, πξνθεηκέλνπ λα ζρεκαηίζνπκε νκάδεο. ηε ζπλέρεηα, ζπδεηνχκε ιηγφηεξν ππνθεηκεληθά ζπζηήκαηα, γηα ηε δεκηνπξγία ζπζηάδσλ (clusters). 22

34 ΚΕΥΑΛΑΙΟ 3 Ιεπαπχικέρ Μέθοδοι Ομαδοποίηζηρ πάληα, κπνξνχκε λα εμεηάζνπκε, φιεο ηηο πηζαλφηεηεο νκαδνπνίεζεο, αθφκα θαη κε ηνπο κεγαιχηεξνπο θαη γξεγνξφηεξνπο ππνινγηζηέο. Δμαηηίαο απηνχ ηνπ πξνβιήκαηνο, έρεη πξνθχςεη, κηα επξεία πνηθηιία αιγνξίζκσλ νκαδνπνίεζεο, φπνπ βξίζθεη «ινγηθέο» ζπζηάδεο, ρσξίο λα πξέπεη λα εμεηάζεη φιεο ηηο θαηαζηάζεηο. Οη ηεξαξρηθέο ηερληθέο νκαδνπνίεζεο, πξνρσξνχλ είηε κε κηα ζεηξά δηαδνρηθψλ ζπγρσλεχζεσλ,είηε κε κηα ζεηξά δηαδνρηθψλ δηαηξέζεσλ, γη απηφ θαη δηαηξνχληαη ζε 2 βαζηθέο θαηεγνξίεο: ζπζζσξεπηηθέο θαη δηαηξεηηθέο. Οη ζςζζωπεςηικέρ(agglomerative) ηεξαξρηθέο κέζνδνη, μεθηλνχλ κε κεκνλσκέλα αληηθείκελα. Καηά ζπλέπεηα, ππάξρνπλ αξρηθά, ηφζεο πνιιέο ζπζηάδεο, φζεο είλαη θαη ηα αληηθείκελα, ζεσξψληαο θάζε αληηθείκελν ζαλ κηα μερσξηζηή ζπζηάδα (cluster). Σα πην φκνηα αληηθείκελα, νκαδνπνηνχληαη πξψηα θαη νη αξρηθέο απηέο νκάδεο, ζπγρσλεχνληαη, ζχκθσλα κε ηηο νκνηφηεηεο ηνπο, ζην επφκελν πςειφηεξν επίπεδν κ έλα cluster ιηγφηεξν. Σν δεπγάξη πνπ επηιέρηεθε γηα ηε ζπγρψλεπζε, απνηειείηαη απφ 2 νκάδεο κε ηελ κηθξφηεξε αλνκνηφηεηα κέζα ζηελ νκάδα. Σειηθά θαζψο κεηψλεηαη ε νκνηφηεηα, φιεο νη ππννκάδεο, ζπγρσλεχνληαη ζε κηα εληαία ζπζηάδα. Οη διαιπεηικέρ ή διασωπιζηικέρ (divisive) ηεξαξρηθέο κέζνδνη, δνπιεχνπλ ζηελ αληίζεηε θαηεχζπλζε. Μηα αξρηθή εληαία νκάδα αληηθεηκέλσλ, δηαηξείηαη ζε 2 ππννκάδεο. Ζ δηάζπαζε επηιέγεηαη, γηα λα παξάγεη 2 λέεο νκάδεο, κε ηελ κεγαιχηεξε αλνκνηφηεηα κεηαμχ ησλ νκάδσλ. Απηέο νη ππννκάδεο, δηαηξνχληαη πεξαηηέξσ ζε αλφκνηεο ππννκάδεο. Ζ δηαδηθαζία ζπλερίδεηαη, έσο φηνπ ππάξμνπλ, ηφζεο πνιιέο ππννκάδεο φζεο θαη ηα αληηθείκελα, δειαδή κέρξη θάζε αληηθείκελν, λα ζρεκαηίζεη κηα νκάδα. Γη απηφ θαη agglomerative, είλαη ε πξνζέγγηζε απφ θάησ πξνο ηα πάλσ, αθνχ αξρηθά θάζε αληηθείκελν είλαη έλα cluster, θη φζν αλεβαίλνπκε πξνο ηα πάλσ ζηελ ηεξαξρία, δεπγαξψλεη κε άιια cluster. Δλψ divisive, είλαη ε πξνζέγγηζε απφ πάλσ πξνο ηα θάησ. Καη ζηηο 2 θαηεγνξίεο ππάξρνπλ Ν-1 επίπεδα ζηελ ηεξαξρία. Απηφ θαίλεηαη ζην ζρήκα 3.1, ζηελ νκαδνπνίεζε ησλ 6 cluster: a, b, c, d, e, f. abcdef bcdef def πζζσξεπηηθή bc de Γηαηξεηηθή a b c d e f Σρήκα 3.1 Αλαπαξάζηαζε Σπζζσξεπηηθήο θαη Γηαηξεηηθήο Οκαδνπνίεζεο 23

35 Ζ νηθνγέλεηα ησλ cluster, πνπ θαηαζθεπάζηεθαλ απνηειεί ηελ ιεγφκελε ηεξαξρία. Απηή ε νηθνγέλεηα, έρεη ηελ ηδηφηεηα, λα πεξηέρεη νιφθιεξν ην ζχλνιν θαζψο θαη θάζε έλα απφ ηα αληηθείκελα πνπ ιακβάλνληαη μερσξηζηά. Σα άιια κέξε απηήο ηεο νηθνγέλεηαο είηε είλαη μέλα, είηε πεξηιακβάλνληαη ζε έλα άιιν. Κάζε θνξά, έλα θαηλνχξην cluster, ζρεκαηίδεηαη απφ μέλα ζεκεία, ην θαηλνχξην cluster, γίλεηαη ην ίδην έλα λέν ζεκείν θαη σο εθ ηνχηνπ ζπκπεξηιακβάλεηαη απαξαηηήησο ζ έλα κεηαγελέζηεξν cluster Ζ ηεξαξρία είλαη κηα ηεξαξρία δείθηεο, αλ ε αξηζκεηηθή ηηκή v(h) 0, ζπλδέεηαη κε θάζε κέξνο h ηεο ηεξαξρίαο, έηζη ψζηε ε ηηκή λα είλαη ζπκβαηή κε ηελ ζρέζε εγθιεηζκνχ, ζχκθσλα κε ηνλ αθφινπζν ηξφπν: αλ h h, ηφηε v(h) v(h ). Κάζε επίπεδν ηεο ηεξαξρίαο, αληηπξνζσπεχεη, κηα ζπγθεθξηκέλε νκαδνπνίεζε ησλ δεδνκέλσλ, ζε μέλα cluster παξαηεξήζεσλ. Οιφθιεξε ε ηεξαξρία, αληηπξνζσπεχεη κηα δηαηεηαγκέλε αθνινπζία ηέηνησλ νκαδνπνηήζεσλ. Δίλαη ζην ρέξη ηνπ ρξήζηε, λα απνθαζίζεη πνην επίπεδν αληηπξνζσπεχεη πξάγκαηη, κηα «θπζηθή» νκαδνπνίεζε, κε ηελ έλλνηα φηη νη παξαηεξήζεηο, κέζα ζε θάζε κηα απ ηηο νκάδεο ηνπ, είλαη επαξθψο πην φκνηεο κεηαμχ ηνπο, απφ ηηο παξαηεξήζεηο πνπ έρνπλ αλαηεζεί ζε δηαθνξεηηθέο νκάδεο, ζ εθείλν ην επίπεδν. 3.1 Γελδξνγξάκκαηα Ζ αλαδξνκηθή δπαδηθή δηάζπαζε/ ζπζζψξεπζε, κπνξεί λα αλαπαξαζηαζεί απφ έλα δπαδηθφ δέληξν κε ξίδα. Οη θφκβνη ηνπ δέληξνπ αλαπαξηζηάλνπλ νκάδεο. Ο θφκβνο ηεο ξίδαο, αλαπαξηζηάλεη ην ζπλνιηθφ ζχλνιν δεδνκέλσλ. Οη Ν ηειηθνί θφκβνη, αλαπαξηζηάλνπλ ν θαζέλαο, κηα απφ ηηο κεκνλσκέλεο παξαηεξήζεηο. Κάζε κε ηεξκαηηθφο θφκβνο «γνλέαο», έρεη 2 θφκβνπο απνγφλνπο. Γηα ηελ δηαηξεηηθή νκαδνπνίεζε, νη 2 απφγνλνη, αλαπαξηζηάλνπλ ηηο νκάδεο, πνπ πξνθχπηνπλ απφ ηελ δηάζπαζε ηνπ γνλέα. Γηα ηε ζπζζσξεπηηθή νκαδνπνίεζε, νη απφγνλνη αλαπαξηζηάλνπλ, ηηο 2 νκάδεο πνπ ζπγρσλεχνληαη γηα λα ζρεκαηίζνπλ ηνλ γνλέα. Όιεο νη ζπζζσξεπηηθέο θαη θάπνηεο δηαηξεηηθέο κέζνδνη, δηαζέηνπλ κηα ηδηφηεηα κνλνηνλίαο. Γειαδή, ε αλνκνηφηεηα, κεηαμχ ζπγρσλεπκέλσλ cluster, απμάλεηαη κνλφηνλα κε ην επίπεδν ηεο ζπγρψλεπζεο. Έηζη ην δπαδηθφ δέληξν κπνξεί λα ζρεδηαζηεί, έηζη ψζηε ην χςνο ηνπ θάζε θφκβνπ, λα είλαη αλάινγν κε ηελ ηηκή ηεο αλνκνηφηεηαο, κέζα ζηελ νκάδα, κεηαμχ ησλ 2 απνγφλσλ. Οη ηεξκαηηθνί θφκβνη, πνπ αλαπαξηζηάλνπλ 24

36 κεκνλσκέλεο παξαηεξήζεηο, ζρεδηάδνληαη φινη, ζε κεδεληθφ χςνο. Απηνχ ηνπ είδνπο ε γξαθηθή απεηθφληζε, κε ηε κνξθή ελφο δηδηάζηαηνπ δηαγξάκκαηνο, νλνκάδεηαη δενδπόγπαμμα. Έλα δελδξφγξακκα, παξέρεη κηα άθξσο εξκελεχζηκε, πιήξε πεξηγξαθή ηεο ηεξαξρηθήο νκαδνπνίεζεο, επεμεγψληαο ηηο ζπγρσλεχζεηο ή δηαηξέζεηο, πνπ έρνπλ γίλεη ζε δηαδνρηθά επίπεδα. Έλα δελδξφγξακκα, ζεσξείηαη ζπρλά, ζαλ κηα γξαθηθή ζχλνςε ησλ δεδνκέλσλ ηνπ, παξά κηα πεξηγξαθή ησλ απνηειεζκάησλ ηνπ αιγνξίζκνπ. Σέηνηεο εξκελείεο ζα πξέπεη λα αληηκεησπίδνληαη κε πξνζνρή, αθνχ δηαθνξεηηθέο ηεξαξρηθέο κέζνδνη, θαζψο θαη κηθξέο κεηαβνιέο ζηα δεδνκέλα, κπνξνχλ λα νδεγήζνπλ ζε αξθεηά δηαθνξεηηθά δελδξνγξάκκαηα. Δπίζεο κηα ηέηνηα ζχλνςε, ζα είλαη έγθπξε, κφλν ζην βαζκφ πνπ νη θαηά δεχγε αλνκνηφηεηεο ηεο παξαηήξεζεο, δηαζέηνπλ ηελ ηεξαξρηθή δνκή πνπ παξάγεηαη απφ ηνλ αιγφξηζκν. Οη ηεξαξρηθέο κέζνδνη επηβάιινπλ ηεξαξρηθή δνκή, αλ ππάξρεη ή φρη, πξάγκαηη ηέηνηα δνκή ζηα δεδνκέλα. Ο βαζκφο ζηνλ νπνίo, ε ηεξαξρηθή δνκή πνπ παξάγεηαη απφ έλα δελδξφγξακκα, αληηπξνζσπεχεη πξαγκαηηθά ηα δεδνκέλα ηνπ, κπνξεί λα νξηζηεί απφ ηνλ cophenetic ζπληειεζηή ζπζρέηηζεο, ηνλ νπνίν αλαιχνπκε ζην Σπζζσξεπηηθέο Ιεξαξρηθέο Μέζνδνη ε κηα ηεξαξρηθή ηαμηλφκεζε, ηα δεδνκέλα, δελ δηακεξίδνληαη ζε έλα ζπγθεθξηκέλν αξηζκφ θαηεγνξηψλ ή ζπζηάδσλ ζ έλα κφλν βήκα. Αληί γη απηφ, ε ηαμηλφκεζε, απνηειείηαη απφ κηα ζεηξά δηακεξίζεσλ, πνπ εθηεινχληαη απφ κηα κνλαδηθή «ζπζηάδα», πνπ πεξηέρεη φια ηα άηνκα, ζε n ζπζηάδεο, πνπ ε θάζε κηα πεξηέρεη έλα κφλν άηνκν. Οη ζπζζσξεπηηθέο ηεξαξρηθέο ηερληθέο νκαδνπνίεζεο, παξάγνπλ δηακεξίζεηο απφ κηα ζεηξά δηαδνρηθψλ ζπγρσλεχζεσλ ησλ n αηφκσλ ζε νκάδεο. Με ηέηνηεο κεζφδνπο, νη ζπγρσλεχζεηο, εθφζνλ γίλνπλ, είλαη κε αλαζηξέςηκεο, έηζη ψζηε, φηαλ έλαο ζπζζσξεπηηθφο αιγφξηζκνο, έρεη ζέζεη 2 άηνκα ζηελ ίδηα νκάδα, δελ κπνξνχλ απηά λα εκθαληζηνχλ ζηελ ζπλέρεηα, ζε δηαθνξεηηθέο νκάδεο. Τπνζέηνπκε φηη κηα ζπζζσξεπηηθή κέζνδνο, έρεη θηάζεη ζην ζηάδην πνπ έρεη c cluster. Σν επφκελν βήκα είλαη λα ζπγρσλεχζνπκε 2 απφ απηά ζε 1, γηα λα παξάγνπκε c-1 clusters. Απηφ επαλαιακβάλεηαη ζηε ζπλέρεηα, γηα λα δψζεη c-2 clusters, θαη νχησ θαζεμήο. Φπζηθά, αξρηθά c=n, ν αξηζκφο ησλ ζεκείσλ παξαηήξεζεο. ε θάζε βήκα, ηα 2 cluster, πνπ ζπγρσλεχνληαη, επηιέγνληαη κειεηψληαο ηνλ πίλαθα απφζηαζεο (ή νκνηφηεηαο) ησλ απνζηάζεσλ (νκνηνηήησλ) κεηαμχ ησλ cluster. Οη ππνςήθηνη γα ηελ ζπγρψλεπζε ζε θάζε ζηάδην, είλαη ηα 2 πιεζηέζηεξα cluster, κε ηνπο ηξφπνπο κέηξεζεο ησλ απνζηάζεσλ λα πνηθίιινπλ. Όηαλ φιεο νη ζπζζσξεπηηθέο ηεξαξρηθέο ηερληθέο, πεξηνξίζνπλ ηειηθά ηα δεδνκέλα, ζε κηα κφλν ζπζηάδα, πνπ πεξηέρεη φια ηα άηνκα, ν εξεπλεηήο πνπ επηδηψθεη ηε ιχζε κε ηελ θαιχηεξε «πξνζαξκνγή» ηνπ αξηζκνχ ησλ ζπζηάδσλ, ζα πξέπεη λα απνθαζίζεη πνηα δηακέξηζε λα επηιέμεη. Έλαο ινηπφλ, απφ ηνπο ιφγνπο γηα ηελ χπαξμε πνιιψλ δηαθνξεηηθψλ ηερληθψλ αλάιπζεο ζπζηάδσλ, είλαη φηη ππάξρνπλ πνιινί δηαθνξεηηθνί ηξφπνη πξνζδηνξηζκνχ ησλ cluster. ηελ πξαγκαηηθφηεηα, νη δηάθνξνη αιγφξηζκνη ηεξαξρηθήο νκαδνπνίεζεο ή νη κέζνδνη πνπ ππάξρνπλ, δηαθέξνπλ θπξίσο, ζε ζρέζε κε ην πψο ππνινγίδνληαη νη 25

37 απνζηάζεηο, αλάκεζα ζε 2 cluster. Κάπνηεο απφ ηηο πην δεκνθηιείο κεζφδνπο πνπ ζα αλαιχζνπκε ζηε ζπλέρεηα είλαη: Κνληηλφηεξνο γείηνλαο ή Απιή ζχλδεζε (single linkage) Μαθξηλφηεξνο γείηνλαο ή Πιήξεο ζχλδεζε (complete linkage) χλδεζε Μέζνπ φξνπ (Average linkage) χλδεζε θεληξνεηδνχο (centroid) Μέζνδνο ηνπ Ward χλδεζε Γηακέζνπ (Median) Σπζζσξεπηηθόο Ιεξαξρηθόο Αιγόξηζκνο Ο ζπζζσξεπηηθφο ηεξαξρηθφο αιγφξηζκνο γηα ηελ νκαδνπνίεζε Ν αληηθεηκέλσλ (ζηνηρείσλ ή κεηαβιεηψλ), πεξηιακβάλεη ηα αθφινπζα βήκαηα: Βήμα 1: Ξεθηλάκε κε Ν ζπζηάδεο, πνπ θάζε κηα πεξηέρεη κφλν κηα νληφηεηα, θη έλαλ Ν Ν ζπκκεηξηθφ πίλαθα απνζηάζεσλ (ή νκνηνηήησλ) D= {d ik }. (Ζ απφζηαζε κεηαμχ ησλ cluster, είλαη ε ίδηα κε ηελ απφζηαζε ησλ αληηθεηκέλσλ πνπ πεξηέρνπλ.) Βήμα 2: Αλαδεηνχκε ζηνλ πίλαθα απνζηάζεσλ, ην θνληηλφηεξν (πην φκνην) δεπγάξη ζπζηάδσλ. Έζησ φηη ε απφζηαζε αλάκεζα ζηα πην φκνηα cluster U θαη V είλαη d UV. Βήμα 3: πγρσλεχνπκε ηα cluster U θαη V. Ολνκάδνπκε ηελ πξφζθαηα ζρεκαηηζκέλε ζπζηάδα (UV). Δπαλαυπνινγίδνπκε ηηο εηζφδνπο ζηνλ πίλαθα απνζηάζεσλ (a) δηαγξάθνληαο ηηο ζηήιεο θαη ηηο γξακκέο πνπ αληηζηνηρνχλ ζηα cluster U θαη V θαη (b) πξνζζέηνληαο κηα γξακκή θαη ζηήιε πνπ δίλεη ηηο απνζηάζεηο αλάκεζα ζηελ ζπζηάδα (UV) θαη ηηο ππφινηπεο. Βήμα 4: Δπαλαιακβάλνπκε ηα βήκαηα 2 θαη 3, ζπλνιηθά Ν-1 θνξέο. (φια ηα αληηθείκελα ζα είλαη ζε κηα εληαία ζπζηάδα, ζηνλ ηεξκαηηζκφ ηνπ αιγνξίζκνπ). Καηαγξάθνπκε ηηο ζπζηάδεο πνπ ζπγρσλεχηεθαλ θαη ηα επίπεδα (απνζηάζεηο ή νκνηφηεηεο) ζηα νπνία πξαγκαηνπνηνχληαη νη ζπγρσλεχζεηο. 3.3 Μέζνδνο Απιήο Σύλδεζεο (single linkage) Δίπακε, φηη νη ζπζζσξεπηηθέο ηεξαξρηθέο ηερληθέο νκαδνπνίεζεο, δηαθέξνπλ κεηαμχ ηνπο, θπξίσο ζην πσο κεηξνχλ ηηο απνζηάζεηο ή ηελ νκνηφηεηα αλάκεζα ζε 2 cluster. (φπνπ 1 cluster, θάπνηεο θνξέο κπνξεί λα απνηειείηαη απφ έλα κφλν άηνκν). Γχν απιά κέηξα κεηαμχ νκάδσλ είλαη: d AB = (3.1) d AB = (3.2) 26

38 φπνπ d AB είλαη ε απφζηαζε αλάκεζα ζηα 2 cluster Α θαη Β θαη d ij είλαη ε απφζηαζε αλάκεζα ζηα άηνκα i θαη j. Απηή ζα κπνξνχζε λα είλαη ε επθιείδεηα απφζηαζε, ή θάπνηα απφ ηελ πνηθηιία ησλ άιισλ κέηξσλ απφζηαζεο. Σν κέηξν αλνκνηφηεηαο κεηαμχ νκάδσλ ηνπ (3.1), είλαη ε βάζε ηεο νκαδνπνίεζεο απιήο ζύλδεζεο, ελψ ηνπ (3.2) ηεο νκαδνπνίεζεο πιήξνπο ζύλδεζεο. Καη νη δχν ηερληθέο έρνπλ ηελ ηδηφηεηα, λα είλαη ακεηάβιεηεο θάησ απφ κνλφηνλνπο κεηαζρεκαηηζκνχο ησλ αξρηθψλ αλνκνηνηήησλ ή απνζηάζεσλ, κεηαμχ αηφκσλ. Μηα πεξαηηέξσ δπλαηφηεηα γηα ηε κέηξεζε ηεο απφζηαζεο ή αλνκνηφηεηαο κεηαμχ ησλ cluster είλαη: d AB =, φπνπ n A θαη n B είλαη νη αξηζκνί ησλ αηφκσλ ζηα 2 cluster Α θαη Β. Σν κέηξν απηφ, είλαη ε βάζε κηαο επξέσο ρξεζηκνπνηνχκελεο δηαδηθαζίαο, γλσζηή σο νκαδνπνίεζε κέζνπ νκάδαο. Πην αλαιπηηθά, θαη ηα 3 απηά κέηξα, κεηαμχ νκάδσλ επεμεγνχληαη παξαθάησ, θαη απεηθνλίδνληαη ζην ζρήκα 3.2. Σρήκα 3.2 Απόζηαζε κεηαμύ cluster(αλνκνηόηεηα) γηα (a)απιή ζύλδεζε, (b)πιήξε ζύλδεζε θαη (c) ζύλδεζε κέζνπ όξνπ. Ζ single linkage-απιή ζύλδεζε απνθαιείηαη θαη σο κέζνδνο ηνπ ειαρίζηνπ ή ηνπ θνληηλφηεξνπ γείηνλα. Οη είζνδνη, ζε έλαλ αιγφξηζκν απιήο ζχλδεζεο, κπνξεί λα είλαη απνζηάζεηο ή νκνηφηεηεο κεηαμχ δεπγψλ αληηθεηκέλσλ. Οη νκάδεο ζρεκαηίδνληαη απφ κεκνλσκέλεο νληφηεηεο, ζπγρσλεχνληαο ηνπο θνληηλόηεξνπο γείηνλεο, φπνπ ν φξνο θνληηλφηεξνο γείηνλαο, ζεκαίλεη ηελ κηθξφηεξε απφζηαζε ή ηελ κεγαιχηεξε νκνηφηεηα. Ζ απφζηαζε κεηαμχ ελφο cluster θη ελφο άιινπ cluster, είλαη ίζε κε ηελ θνληηλφηεξε απφζηαζε, απφ νπνηνδήπνηε κέινο ηνπ ελφο cluster πξνο νπνηνδήπνηε κέινο ηνπ άιινπ cluster. Αλ θάλνπκε clustering, βάζεη νκνηνηήησλ θη φρη απνζηάζεσλ, ζεσξνχκε ηελ νκνηφηεηα ελφο cluster κε έλα άιιν cluster,λα είλαη ίζε κε ηελ κεγαιχηεξε νκνηφηεηα ελφο νπνηνπδήπνηε κέινπο ηνπ ελφο cluster, κε νπνηνδήπνηε κέινο ηνπ άιινπ cluster. 27

39 Γεδνκέλνπ φηη ε απιή ζχλδεζε, ελψλεη ηηο ζπζηάδεο κε ηελ ζπληνκφηεξε ζχλδεζε κεηαμχ ηνπο, ε ηερληθή δελ κπνξεί λα δηαθξίλεη ηηο θαθψο ρσξηδφκελεο ζπζηάδεο. Απ ηελ άιιε, είλαη κηα απφ ηηο ιίγεο κεζφδνπο νκαδνπνίεζεο, πνπ κπνξεί λα ζθηαγξαθήζεη κε ειιεηςνεηδείο ζπζηάδεο. Ζ ηάζε ηεο απιήο ζχλδεζεο, λα επηιέγεη ζθφξπηεο θαη επηκήθεηο ζπζηάδεο είλαη γλσζηή σο chaining, δειαδή ην θαηλφκελν ηεο αιπζίδαο, θαζψο κπνξεί λα επηβάιιεηαη ε ζπγρψλεπζε δχν ζπζηάδσλ, ιφγσ ηεο χπαξμεο νληνηήησλ πνπ είλαη αξθεηά θνληά ε κηα ζηελ άιιε, ρσξίο λα αζρνιείηαη κε ηηο ζέζεηο, ησλ άιισλ νληνηήησλ κέζα ζηε ζπζηάδα. Χζηφζν κπνξεί λα είλαη παξαπιαλεηηθή, αλ ηα ζηνηρεία ζηα απέλαληη άθξα ηεο αιπζίδαο είλαη πξαγκαηηθά αξθεηά αλφκνηα. Δθαξκφδνληαο ηε single linkage, έρνληαο ηνλ πίλαθα απνζηάζεσλ D= {d ik }, πξέπεη λα βξνχκε ηελ κηθξφηεξε απφζηαζε πνπ ππάξρεη ζε απηφλ. ηε ζπλέρεηα, ζπγρσλεχνπκε ηα αληίζηνηρα αληηθείκελα, κε ηε κηθξφηεξε απφζηαζε, ηα ιεγφκελα U θαη V, γηα λα πάξνπκε ηε ζπζηάδα (UV). Γηα ην Βήκα 3, ηνπ γεληθνχ αιγνξίζκνπ, νη απνζηάζεηο κεηαμχ ηεο (UV) θαη νπνηαζδήπνηε άιιε ζπζηάδαο W, ππνινγίδνληαη απφ ηνλ ηχπν: d (UV)W = min {d UW, d VW }. Δδψ νη απνζηάζεηο d UW θαη d VW είλαη νη απνζηάζεηο κεηαμχ ησλ θνληηλφηεξσλ γεηηφλσλ, ησλ cluster U θαη W, θαη ησλ cluster V θαη W αληίζηνηρα. Σα απνηειέζκαηα ηεο νκαδνπνίεζεο απιήο ζχλδεζεο, κπνξνχλ λα εθθξαζηνχλ, κε ηε κνξθή ελφο δελδξνγξάκκαηνο. Σα θιαδηά ηνπ δέληξνπ αληηπξνζσπεχνπλ ηηο ζπζηάδεο, θαη ελψλνληαη (ζπγρσλεχνληαη) ζηνπο θφκβνπο, ησλ νπνίσλ νη ζέζεηο θαηά κήθνο ελφο άμνλα απφζηαζεο δείρλνπλ ην επίπεδν, ζην νπνίν εκθαλίδνληαη νη ζπγρσλεχζεηο Οκαδνπνίεζε κε ηε ρξήζε απιήο ζύλδεζεο Γηα λα επεμεγήζνπκε ηνλ αιγφξηζκν απιήο ζχλδεζεο, ζεσξνχκε ηηο ππνζεηηθέο απνζηάζεηο, κεηαμχ ησλ δεπγαξηψλ ησλ 5 αληηθεηκέλσλ: D = {d ik } = Θεσξψληαο θάζε αληηθείκελν ζαλ κηα ζπζηάδα, ε νκαδνπνίεζε αξρίδεη κε ηελ ζπγρψλεπζε, ησλ 2 θνληηλφηεξσλ ζηνηρείσλ. Αθνχ = d 53 =2, ηα αληηθείκελα 5 θαη 3, ζπγρσλεχνληαη γηα λα ζρεκαηίζνπλ ηε ζπζηάδα (35). Γηα λα εθαξκφζνπκε ην επφκελν επίπεδν νκαδνπνίεζεο, ρξεηαδφκαζηε ηηο απνζηάζεηο, κεηαμχ ηεο ζπζηάδαο (35) θαη ησλ ππφινηπσλ αληηθεηκέλσλ 1, 2, 4. Οη απνζηάζεηο ησλ θνληηλφηεξσλ γεηηφλσλ είλαη: d (35)1 = min{d 31, d 51 } = min {3,11} =3 d (35)2 = min{d 32, d 52 } = min {7,10} =7 d (35)4 = min{d 34, d 54 } = min {9, 8} = 8 28

40 Γηαγξάθνληαο ηηο ζηήιεο θαη ηηο γξακκέο ηνπ D, πνπ αληηζηνηρνχλ ζηα αληηθείκελα 3 θαη 5 θαη πξνζζέηνληαο κηα γξακκή θαη ζηήιε γηα ηελ ζπζηάδα (35), παίξλνπκε ηνλ θαηλνχξην πίλαθα απνζηάζεσλ: (35) (35) Ζ κηθξφηεξε απφζηαζε κεηαμχ ησλ δεπγαξηψλ ησλ cluster, είλαη ηψξα d (35)1 = 3 θαη ζπγρσλεχνπκε ηηο ζπζηάδεο 1 θαη (35), γηα λα πάξνπκε ηελ επφκελε ζπζηάδα (135). Τπνινγίδνληαο: d (135)2 = min{ d (35)2, d 12 } = min{7,9} = 7 d (135)4 = min{ d (35)4,d 41 } = min{8,6} = 6 Ο πίλαθαο απνζηάζεσλ γηα ην επφκελν επίπεδν νκαδνπνίεζεο γίλεηαη: (135) 2 4 (135) Ζ ειάρηζηε απφζηαζε, θνληηλφηεξσλ γεηηφλσλ, κεηαμχ ησλ δεπγαξηψλ ησλ cluster, είλαη d 42 = 5 θαη ζπγρσλεχνπκε ηα αληηθείκελα 4 θαη 2, γηα λα πάξνπκε ηε ζπζηάδα (24). ε απηφ ην ζεκείν, έρνπκε 2 επδηάθξηηεο ζπζηάδεο ηηο (135) θαη (24). Ζ απφζηαζε ηνπ θνληηλφηεξνπ γείηνλα ηνπο, είλαη : d (135)(24) = min{d (135)2, d (135)4 } = min{7,6}=6 Ο ηειηθφο πίλαθαο απφζηαζεο γίλεηαη: (135) (24) (135) 0 (24) 0 6 πλεπψο ηα cluster (135) θαη (24), ζπγρσλεχνληαη γηα λα ζρεκαηίζνπλ κηα εληαία ζπζηάδα, φισλ ησλ 5 αληηθεηκέλσλ ηελ (12345), φηαλ ε απφζηαζε ηνπ θνληηλφηεξνπ γείηνλα θηάζεη ζην 6. Οη δηακεξίζεηο πνπ παξάγνληαη ζε θάζε ζηάδην είλαη: ηάδην Οκάδεο Ρ 5 [1], [2], [3], [4], [5] Ρ 4 [35], [1], [2], [4] Ρ 3 [135], [2], [4] Ρ 2 [135], [24] Ρ 1 [12345] Σν δελδξφγξακκα, απεηθνλίδεη ηελ ηεξαξρηθή νκαδνπνίεζε, φπσο θαίλεηαη ζην ζρήκα 3.3. Οη νκαδνπνηήζεηο θαη ηα επίπεδα απνζηάζεσλ, επεμεγνχληαη θαζαξά απφ ην δελδξφγξακκα. 29

41 Σρήκα 3.3 Γελδξόγξακκα απιήο ζύλδεζεο γηα ηηο απνζηάζεηο κεηαμύ ησλ 5 αληηθεηκέλσλ Οκαδνπνίεζε απιήο ζύλδεζεο ησλ 11 γισζζώλ Θεσξνχκε ηνλ πίλαθα «ζπκθσληψλ γξακκάησλ» 2.5, πνπ αληηπξνζσπεχεη ηελ νκνηφηεηα, κεηαμχ ησλ αξηζκψλ 1-10, ζηηο 11 γιψζζεο. Γηα λα θαηαζθεπάζνπκε έλαλ πίλαθα απνζηάζεσλ, αθαηξνχκε ην πιήζνο ησλ γξακκάησλ πνπ ζπκθσλνχλ απφ ηνλ απφιπην αξηζκφ 10, ηνλ νπνίν έρεη θάζε γιψζζα κε ηνλ εαπηφ ηεο. Σφηε ν πίλαθαο γίλεηαη: E N Da Du G Fr Sp I P H Fi E 1 0 N Da Du G Fr Sp I P H Fi Φάρλνπκε πξψηα, γηα ηελ ειάρηζηε απφζηαζε κεηαμχ ησλ δεπγαξηψλ ησλ γισζζψλ (ζπζηάδσλ). Ζ ειάρηζηε απφζηαζε είλαη ην 1, πνπ εκθαλίδεηαη κεηαμχ ησλ Γαλεηθψλ θαη Ννξβεγηθψλ, Ηηαιηθψλ θαη Γαιιηθψλ, Ηηαιηθψλ θαη Ηζπαληθψλ. Αξηζκψληαο ηηο γιψζζεο κε ηελ ζεηξά πνπ εκθαλίδνληαη, ζηελ θνξπθή ηνπ πίλαθα, έρνπκε d 32 =1, d 86 =1 30

42 θαη d 87 =1. Αθνχ d 76 =2, κπνξνχκε λα ζπγρσλεχζνπκε κφλν ηηο ζπζηάδεο 8 θαη 6 ή ηηο ζπζηάδεο 8 θαη 7. Γελ κπνξνχκε λα ζπγρσλεχζνπκε ηηο ζπζηάδεο 6, 7 θαη 8 ζην επίπεδν 1. Γηαιέγνπκε λα ζπγρσλεχζνπκε πξψηα ηηο 8 θαη 6 θαη ζηε ζπλέρεηα, γηα λα ελεκεξψζνπκε ηνλ πίλαθα απφζηαζεο ζπγρσλεχνπκε ηηο 2 θαη 3, γηα λα πάξνπκε ηηο ζπζηάδεο (68) θαη (23). Οη ππνινγηζκνί πνπ αθνινπζνχλ παξάγνπλ ην παξαθάησ δελδξφγξακκα: Σρήκα 3.4 Γελδξόγξακκα απιήο ζύλδεζεο γηα ηηο απνζηάζεηο κεηαμύ αξηζκώλ ζηηο 11 γιώζζεο. Απφ ην δελδξφγξακκα, θαηαιαβαίλνπκε φηη ηα Ννξβεγηθά θαη Γαλεηθά, θαζψο θαη ηα Γαιιηθά θαη Ηηαιηθά, νκαδνπνηνχληαη ζην επίπεδν ηεο κηθξφηεξεο απφζηαζεο (ή κέγηζηεο νκνηφηεηαο). Όηαλ απμεζεί ε επηηξεπηή απφζηαζε, ηα Αγγιηθά πξνζηίζεληαη ζηελ νκάδα Ννξβεγηθά- Γαλεηθά θαη ηα Ηζπαληθά ζπγρσλεχνληαη κε ηελ νκάδα Ηηαιηθά- Γαιιηθά. Παξαηεξνχκε φηη ηα Οπγγξηθά θαη Φηιαλδηθά, είλαη πεξηζζφηεξν φκνηα ην έλα κε ην άιιν, απ φηη κε ηηο άιιεο νκάδεο ησλ γισζζψλ. Παξ φια απηά, νη 2 απηέο γιψζζεο (ζπζηάδεο) δελ ζπγρσλεχνληαη, έσο φηνπ ε απφζηαζε κεηαμχ ησλ θνληηλφηεξσλ γεηηφλσλ, απμεζεί νπζηαζηηθά. ην ηέινο φιεο νη ζπζηάδεο ησλ γισζζψλ, ζπγρσλεχνληαη ζε κηα εληαία ζπζηάδα, κε ηελ κεγαιχηεξε απφζηαζε θνληηλφηεξνπ γείηνλα λα είλαη Μέζνδνο Πιήξνπο ζύλδεζεο (complete linkage) Ζ νκαδνπνίεζε ηεο πιήξνπο ζχλδεζεο, πξνρσξά κε ηνλ ίδην ηξφπν φπσο θαη ε απιή ζχλδεζε, κε κηα ζεκαληηθή εμαίξεζε. ε θάζε ζηάδην, ε απφζηαζε (νκνηφηεηα) αλάκεζα ζηηο ζπζηάδεο, θαζνξίδεηαη απφ ηελ απφζηαζε (νκνηφηεηα), αλάκεζα ζε 2 ζηνηρεία, έλα απφ θάζε ζπζηάδα, πνπ είλαη ηα πην απφκαθξα, γη απηφ θαη θαιείηαη θαη κέζνδνο ηνπ καθξηλφηεξνπ γείηνλα ή κέζνδνο ηνπ κεγίζηνπ. Καηά ζπλέπεηα, ε πιήξεο 31

43 ζχλδεζε, εμαζθαιίδεη πσο φια ηα ζηνηρεία ζε κηα ζπζηάδα, βξίζθνληαη ζε θάπνηα κέγηζηε απφζηαζε κεηαμχ ηνπο. Ο γεληθφο ζπζζσξεπηηθφο αιγφξηζκνο, αξρίδεη μαλά, βξίζθνληαο, ηελ ειάρηζηε είζνδν ζηνλ D= {d ik } θαη ζπγρσλεχνληαο ηα αληίζηνηρα αληηθείκελα U θαη V, γηα λα πάξνπκε ηε ζπζηάδα (UV). ην βήκα 3 ηνπ γεληθνχ αιγνξίζκνπ, νη απνζηάζεηο κεηαμχ ηεο ζπζηάδαο (UV) θαη νπνηαζδήπνηε άιιεο ζπζηάδαο W, ππνινγίδνληαη απφ: d (UV)W = max {d UW, d VW }. Δδψ d UW θαη d VW είλαη νη απνζηάζεηο, αλάκεζα ζηα πην απνκαθξπζκέλα κέιε ησλ ζπζηάδσλ U θαη W θαη ησλ ζπζηάδσλ V θαη W αληίζηνηρα. Ζ κέζνδνο δελ ζπλίζηαηαη γηα δεδνκέλα, ζηα νπνία κπνξεί λα πθίζηαηαη αξθεηφο ζφξπβνο. Σν πιενλέθηεκα ηεο είλαη φηη δεκηνπξγεί ζπκπαγείο ζπζηάδεο, ζε αληίζεζε κε ηελ απιή ζχλδεζε πνπ δεκηνπξγεί ζθφξπηεο θαη επηκήθεηο ζπζηάδεο θαη ζεσξείηαη ρξήζηκε, αλ είλαη αλακελφκελν φηη νληφηεηεο ηεο ίδηαο ζπζηάδαο, βξίζθνληαη ζε κεγάιε κεηαμχ ηνπο απφζηαζε ζηνλ πνιπδηάζηαην ρψξν. Αλαινγηθά κε ηελ απιή ζχλδεζε, αλ θάλνπκε clustering βάζεη νκνηνηήησλ θη φρη απνζηάζεσλ, ζεσξνχκε ηελ νκνηφηεηα ελφο cluster κε έλα άιιν cluster, λα είλαη ίζε κε ηελ κηθξφηεξε νκνηφηεηα ελφο νπνηνπδήπνηε κέινπο ηνπ ελφο cluster, κε νπνηνδήπνηε κέινο ηνπ άιινπ cluster Οκαδνπνίεζε κε ηελ ρξήζε πιήξνπο ζύλδεζεο Θεσξνχκε μαλά, ηνλ πίλαθα απνζηάζεσλ: D = {d ik } = ε πξψην ζηάδην, ηα αληηθείκελα 3 θαη 5 ζπγρσλεχνληαη, αθνχ είλαη ηα πην φκνηα. Απηφ δίλεη ηε ζπζηάδα (35). ην ζηάδην 2 ππνινγίδνπκε: d (35)1 = max{d 31, d 51 } = max {3, 11} = 11 d (35)2 = max{d 32, d 52 } = max {7, 10} =10 d (35)4 = max{d 34, d 54 } = max {9, 8} = 9 θαη ν ηξνπνπνηεκέλνο πίλαθαο απνζηάζεσλ γίλεηαη: (35) (35) Ζ επφκελε ζπγρψλεπζε, ζπκβαίλεη κεηαμχ ησλ πην φκνησλ νκάδσλ 2 θαη 4, γηα λα πάξνπκε ηε ζπζηάδα (24). ην βήκα 3 έρνπκε: d (24)(35) = max {d 2(35), d 4(35) } = max {10, 9} = 10 32

44 d (24)1 = max {d 21, d 41 } = 9 θαη ν πίλαθαο απνζηάζεσλ γίλεηαη: (35) (24) 1 (35) 0 (24) Ζ επφκελε ζπγρψλεπζε, παξάγεη ηε ζπζηάδα (124). ην ηειηθφ ζηάδην, ζπγρσλεχνληαη νη νκάδεο (35) θαη (124), ζε κηα εληαία ζπζηάδα (12345) ζην επίπεδν d (124)(35) = max {d 1(35), d (24)(35) } = max{11, 10}=11 δειαδή (124) (35) (124) 0 (35) 11 0 Οη δηακεξίζεηο πνπ παξάγνληαη ζε θάζε ζηάδην είλαη: ηάδην Ρ 5 Ρ 4 Ρ 3 Ρ 2 Ρ 1 Οκάδεο [1], [2], [3], [4], [5] [35], [1], [2], [4] [35], [1], [24] [35], [124] [12345] Σν δελδξφγξακκα πιήξνπο ζχλδεζεο, δίλεηαη ζην ζρήκα 3.5 θαη ζπγθξίλνληαο ην κε εθείλν ηνπ ζρήκαηνο 3.3 ηεο απιήο ζχλδεζεο, παξαηεξνχκε φηη δηαθέξνπλ ζηελ θαηαλνκή ηνπ αληηθεηκέλνπ 1, ζηηο νκάδεο. Σρήκα 3.5 Γελδξόγξακκα πιήξνπο ζύλδεζεο γηα ηηο απνζηάζεηο κεηαμύ ησλ 5 αληηθεηκέλσλ. 33

45 3.4.2 Οκαδνπνίεζε πιήξνπο ζύλδεζεο γηα ηηο 11 γιώζζεο. ην πξνεγνχκελν θεθάιαην, παξνπζηάζακε έλαλ πίλαθα απνζηάζεσλ γηα ηνπο αξηζκνχο ησλ 11 γισζζψλ. Ο αιγφξηζκνο νκαδνπνίεζεο πιήξνπο ζχλδεζεο, πνπ εθαξκφζηεθε ζε απηφλ ηνλ πίλαθα απνζηάζεσλ, παξήγαγε ην δελδξφγξακκα ηνπ ζρήκαηνο 3.6. Σρήκα 3.6 Γελδξόγξακκα πιήξνπο ζύλδεζεο γηα ηηο απνζηάζεηο κεηαμύ αξηζκώλ ζηηο 11 γιώζζεο. πγθξίλνληαο ηα ζρήκαηα 3.4 θαη 3.6, βιέπνπκε φηη θαη νη δχν ηεξαξρηθέο κέζνδνη, παξάγνπλ ηηο νκάδεο γισζζψλ Αγγιηθά- Ννξβεγηθά-Γαλεηθά θαη Γαιιηθά- Ηηαιηθά- Ηζπαληθά. Σα Πνισληθά ζπγρσλεχνληαη κε Γαιιηθά- Ηηαιηθά- Ηζπαληθά ζε έλα ελδηάκεζν επίπεδν. Δπηπιένλ θαη νη δχν κέζνδνη, ζπγρσλεχνπλ Οπγγξηθά θαη Φηιαλδηθά, κφλν ζην πξνηειεπηαίν ζηάδην. Χζηφζν, νη δχν κέζνδνη ρεηξίδνληαη δηαθνξεηηθά ηα Γεξκαληθά θαη Οιιαλδηθά. Ζ απιή ζχλδεζε ζπγρσλεχεη Γεξκαληθά θαη Οιιαλδηθά ζε κηα ελδηάκεζε απφζηαζε θαη νη δχν απηέο γιψζζεο, παξακέλνπλ ζε κηα ζπζηάδα, κέρξη ηελ ηειηθή ζπγρψλεπζε. Ζ πιήξεο ζχλδεζε, ζπγρσλεχεη ηα Γεξκαληθά κε ηελ νκάδα Αγγιηθά- Ννξβεγηθά-Γαλεηθά ζε έλα ελδηάκεζν επίπεδν. Σα Οιιαλδηθά, παξακέλνπλ ζε κηα ζπζηάδα απφ κφλα ηνπο, κέρξη λα ζπγρσλεπηνχλ κε Αγγιηθά- Ννξβεγηθά-Γαλεηθά- Γεξκαληθά θαη κε ηα Γαιιηθά- Ηηαιηθά- Ηζπαληθά- Πνισληθά, ζ έλα πςειφηεξν επίπεδν απνζηάζεσλ. Ζ ηειηθή ζπγρψλεπζε ηεο πιήξεο ζχλδεζεο πεξηιακβάλεη 2 ζπζηάδεο, ελψ ηεο απιήο ζχλδεζεο πεξηιακβάλεη 3 ζπζηάδεο. 3.5 Σύλδεζε Μέζνπ όξνπ (average linkage) Ζ ζχλδεζε κέζνπ φξνπ, ζεσξεί ηελ απφζηαζε κεηαμχ 2 cluster, ζαλ ηελ κέζε απφζηαζε αλάκεζα ζ φια ηα δεπγάξηα ζηνηρείσλ, φπνπ έλα κέινο θάζε δεπγαξηνχ αλήθεη ζε θάζε cluster( δειαδή ην κέζν ηεο απφζηαζεο, ησλ κειψλ ηνπ ελφο cluster θαη ηνπ άιινπ). 34

46 Ξαλά νη είζνδνη ζηνλ αιγφξηζκν κέζνπ φξνπ ζχλδεζεο, κπνξεί λα είλαη απνζηάζεηο ή νκνηφηεηεο θαη ε κέζνδνο ρξεζηκεχεη γηα λα νκαδνπνηεί αληηθείκελα ή κεηαβιεηέο. Ο αιγφξηζκνο κέζνπ φξνπ ζχλδεζεο, πξνρσξά κε ηνλ ηξφπν ηνπ γεληθνχ αιγνξίζκνπ. Ξεθηλάκε ςάρλνληαο ηνλ πίλαθα απφζηαζεο D = {d ik }, γηα λα βξνχκε ηα πιεζηέζηεξα (πην φκνηα) αληηθείκελα, γηα παξάδεηγκα U θαη V. Απηά ηα αληηθείκελα ζπγρσλεχνληαη, γηα λα ζρεκαηίζνπλ ηελ ζπζηάδα (UV). Γηα ην βήκα 3 ηνπ γεληθνχ ζπζζσξεπηηθνχ αιγνξίζκνπ, νη απνζηάζεηο αλάκεζα ζηε ζπζηάδα (UV) θαη νπνηαδήπνηε άιιε ζπζηάδα W, θαζνξίδνληαη απφ ηνλ ηχπν: d (UV)W = ^ φπνπ d ik είλαη ε απφζηαζε αλάκεζα ζην αληηθείκελν i ηεο ζπζηάδαο (UV) θαη ζην αληηθείκελν k ηεο ζπζηάδαο W θαη N (UV) θαη N W είλαη νη αξηζκνί ησλ ζηνηρείσλ ζηηο ζπζηάδεο (UV) θαη W αληίζηνηρα. Απηή ε κέζνδνο, απαηηεί ην κεγαιχηεξν θφζηνο ζε ππνινγηζκνχο, θαζψο ππνινγίδεη ηε κέζε απφζηαζε, φισλ ησλ πηζαλψλ δεπγψλ ζηνηρείσλ απφ ηηο 2 ζπζηάδεο πνπ δηεξεπλνχληαη. Ζ ρξήζε απηήο ηεο κεζφδνπ, δελ δεκηνπξγεί ην θαηλφκελν ηεο αιπζίδαο, ελψ ηα απνκαθξπζκέλα ζηνηρεία (outliers) δελ ρξήδνπλ ηδηαίηεξεο ζεκαζίαο, θαηά ηελ απφθαζε δεκηνπξγίαο ζπζηάδσλ. Άκεζε ζπλέπεηα απηνχ, είλαη φηη ε ζπγθεθξηκέλε κέζνδνο είλαη πην δεκνθηιήο απφ ηηο άιιεο. Δπίζεο ε θάζε ζπζζψξεπζε, ζπκβαίλεη ζε απφζηαζε ζπζηάδσλ, κεγαιχηεξε απφ απηήλ ηνπ πξνεγνχκελνπ ζηαδίνπ ζπζζψξεπζεο, δίλνληαο ηελ δπλαηφηεηα ηεξκαηηζκνχ ηεο νκαδνπνίεζεο, είηε φηαλ νη ζπζηάδεο βξίζθνληαη πνιχ καθξηά γηα λα ζπγρσλεπηνχλ (θξηηήξην απφζηαζεο), είηε φηαλ ππάξρεη ηθαλνπνηεηηθά κηθξφο αξηζκφο ππνινγηζκέλσλ ζπζηάδσλ (θξηηήξην αξηζκνχ ζπζηάδσλ) Οκαδνπνίεζε κε ηε ζύλδεζε κέζνπ όξνπ γηα ηηο 11 γιώζζεο. Ο αιγφξηζκνο κέζνπ φξνπ ζχλδεζεο, εθαξκφζηεθε ζηηο απνζηάζεηο κεηαμχ ησλ 11 γισζζψλ πνπ δφζεθαλ ζηνλ πίλαθα 2.5. Σν δελδξφγξακκα, πνπ πξνέθπςε απεηθνλίδεηαη ζην ζρήκα 3.7. Σρήκα 3.7 Γελδξόγξακκα κέζνπ όξνπ ζύλδεζεο γηα ηηο απνζηάζεηο κεηαμύ αξηζκώλ ζηηο 11 γιώζζεο. 35

47 Μηα ζχγθξηζε ηνπ δελδξνγξάκκαηνο 3.7, κε ην αληίζηνηρν δελδξφγξακκα ηεο απιήο ζχλδεζεο 3.4 θαη ην δελδξφγξακκα πιήξνπο ζχλδεζεο 3.6, δείρλεη φηη ν κέζνο φξνο ζχλδεζεο παξάγεη κηα θαηάζηαζε, πνιχ παξφκνηα κε απηήλ ηεο πιήξνπο ζχλδεζεο. Χζηφζν επεηδή ε απφζηαζε, θαζνξίδεηαη δηαθνξεηηθά γηα θάζε πεξίπησζε, δελ εθπιήζζεη ην γεγνλφο φηη νη ζπγρσλεχζεηο, πξαγκαηνπνηνχληαη ζε δηαθνξεηηθά επίπεδα. 3.6 Μέζνδνο centroid ηε κέζνδν centroid, θάζε νκάδα αληηθαζίζηαληαη απφ έλα κέζν αληηθείκελν, πνπ είλαη ην θέληξν βάξνπο(centroid) απηήο ηεο νκάδαο. Έρνληαο ηα ππνζεηηθά δεδνκέλα ηεο παξαγξάθνπ 1.3, παίξλνπκε θαη ηνλ αξρηθφ πίλαθα νκνηνηήησλ, βαζηζκέλν ζηελ ηεηξαγσληθή επθιείδεηα απφζηαζε D ij 2 =, γηα p κεηαβιεηέο: Υπνζεηηθά δεδνκέλα Αληηθείκελν Δηζόδεκα ($ ρηιηάδεο) Δθπαίδεπζε (έηε) S1 5 5 S2 6 6 S S S S Πίνακαρ 3.1 Πίλαθαο νκνηόηεηαο ησλ ππνζεηηθώλ δεδνκέλσλ κε ηε ρξήζε ηεο Δπθιείδεηαο Απόζηαζεο S1 S2 S3 S4 S5 S6 S S S S S S Απφ ηνλ πίλαθα 3.1, ηα αληηθείκελα S1 θαη S2, είλαη φκνηα κεηαμχ ηνπο φπσο θαη ηα αληηθείκελα S3 θαη S4, αθνχ θάζε δεπγάξη έρεη ηελ ίδηα ειάρηζηε απφζηαζε 2. Οπνηνδήπνηε απφ απηά ηα 2 δεχγε ζα κπνξνχζε λα επηιεγεί. Ζ επηινγή γίλεηαη ηπραία. Αο επηιέμνπκε ηα αληηθείκελα S1 θαη S2 λα ηα ζπγρσλεχζνπκε ζε έλα cluster. Σψξα έρνπκε 5 cluster. Σν cluster 1 πνπ απνηειείηαη απ ηα αληηθείκελα S1 θαη S2 θαη ηα ππφινηπα αληηθείκελα S3, S4, S5 θαη S6, πνπ ζρεκαηίδεη ην θαζέλα ηα ππφινηπα 4 cluster. Σν πξψην cluster, πνπ ζρεκαηίδεηαη ζπλδπάδνληαο ηα αληηθείκελα S1 θαη S2, αληηπξνζσπεχεηαη απφ ην θέληξν βάξνπο ησλ αληηθεηκέλσλ S1 θαη S2. Γειαδή ην cluster 1, έρεη κηα κέζε εθπαίδεπζε 5.5 ρξφλσλ (5+6 /2) θαη έλα κέζν εηζφδεκα ησλ 5.5 ρηιηάδσλ δνιαξίσλ (5+6 /2). Ο πίλαθαο 3.2 δίλεη ηα δεδνκέλα γηα ηα λέα 5 cluster πνπ έρνπλ ζρεκαηηζηεί. Ζ νκνηφηεηα αλάκεζα ζηα cluster, ιακβάλεηαη, ρξεζηκνπνηψληαο ηελ 36

48 ηεηξαγσληθή επθιείδεηα απφζηαζε. Ο πίλαθαο δίλεη επίζεο ηνλ πίλαθα νκνηφηεηαο κεηαμχ ησλ 5 cluster. Πίνακαρ 3.2 Μέζνδνο centroid: 5 Cluster Γεδνκέλα γηα ηα 5 cluster Cluster Μέιε ησλ cluster Δηζφδεκα (ρηιηάδεο $) 1 S1&S S S S S6 30 Δθπαίδεπζε (έηε) Πίλαθαο Οκνηόηεηαο S1&S2 0 S S S S S1&S2 S3 S4 S5 S Όπσο κπνξεί λα δηαπηζησζεί ηα αληηθείκελα S3 θαη S4, έρνπλ ηε κηθξφηεξε απφζηαζε θαη θαηά ζπλέπεηα είλαη ηα πην φκνηα. πλεπψο κπνξνχκε λα νκαδνπνηήζνπκε απηά ηα 2 αληηθείκελα, ζε κηα λέα νκάδα ή cluster. Γηα αθφκα κηα θνξά, απηφ ην cluster, ζα αληηπξνζσπεπζεί, απφ ην centroid ησλ αληηθεηκέλσλ ζε απηή ηελ νκάδα. Ο πίλαθαο 3.3, δίλεη ηα δεδνκέλα θαη ηνλ πίλαθα νκνηνηήησλ γηα ηα 4 cluster. Πίνακαρ 3.3 Μέζνδνο centroid: 4 Cluster Γεδνκέλα γηα ηα 4 cluster Cluster Μέιε ησλ cluster Δηζφδεκα (ρηιηάδεο $) 1 S1&S S3&S S S6 30 Δθπαίδεπζε (έηε) Πίλαθαο Οκνηόηεηαο S1&S2 0 S3 &S4 181 S S S1&S2 S3&S4 S5 S

49 Σα αληηθείκελα S5 θαη S6, έρνπλ ηε κηθξφηεξε απφζηαζε, θαη ζπλδένληαη γηα λα ζρεκαηίζνπλ ην 3 ν cluster ή νκάδα πνπ μαλά ζα εθπξνζσπεζεί απφ ην centroid ησλ αληηθεηκέλσλ ζε απηήλ ηελ νκάδα. Ο πίλαθαο 3.4, δίλεη ηα δεδνκέλα γηα ηα 3 cluster θαη ηνλ αληίζηνηρν πίλαθα νκνηφηεηαο. Πίνακαρ 3.4 Μέζνδνο centroid: 3 Cluster Γεδνκέλα γηα ηα 3 cluster Cluster Μέιε ησλ cluster Δηζφδεκα (ρηιηάδεο $) 1 S1&S S3&S S5&S Δθπαίδεπζε (έηε) Πίλαθαο Οκνηόηεηαο S1&S2 S3&S4 S5&S6 S1&S S3&S S5&S Όπσο δηαπηζηψλεηαη απφ ηνλ πίλαθα 3.4, ηα cluster πνπ πεξηιακβάλνπλ ηα αληηθείκελα S3 θαη S4, θαη S5 θαη S6, έρνπλ ηε κηθξφηεξε απφζηαζε. Έηζη απηά ηα δχν cluster, ζπλδπάδνληαη γηα λα ζρεκαηίζνπλ έλα λέν cluster, πνπ πεξηιακβάλεη ηα αληηθείκελα S3, S4, S5 θαη S6. Σν άιιν cluster απνηειείηαη απφ ηα αληηθείκελα S1 θαη S2. Πξνθαλψο ην επφκελν βήκα, είλαη λα νκαδνπνηήζνπκε φια ηα αληηθείκελα ζε έλα cluster. Παξαηεξνχκε φηη ζε θάζε ζηάδην, ν αξηζκφο ησλ cluster, είλαη έλαο ιηγφηεξν απφ ην πξνεγνχκελν ζηάδην. Αλ δειαδή ππάξρνπλ n παξαηεξήζεηο, ηφηε ζηα βήκαηα 1, 2,, n-1 ηεο ηεξαξρηθήο δηαδηθαζίαο, ν αξηζκφο ησλ cluster, ζα είλαη αληίζηνηρα n-1, n-2,,1. Σν ζρήκα 3.8, δίλεη ην δελδξφγξακκα ησλ ππνζεηηθψλ δεδνκέλσλ. Οη θπθισκέλνη αξηζκνί αλαπαξηζηνχλ ηα δηάθνξα ζηάδηα ηεο δηαδηθαζίαο. Οη παξαηεξήζεηο (αληηθείκελα) θαηαγξάθνληαη ζηνλ νξηδφληην άμνλα θαη ν θάζεηνο άμνλαο εθπξνζσπεί ηηο επθιείδεηεο απνζηάζεηο κεηαμχ ησλ centroid ησλ cluster. Γηα παξάδεηγκα ζην βήκα 4, ηα cluster πνπ ζρεκαηίζηεθαλ ζηα βήκαηα 2 θαη 3, ζπγρσλεχνληαη γηα λα ζρεκαηίζνπλ έλα λέν cluster. Ζ ηεηξαγσληθή επθιείδεηα απφζηαζε, κεηαμχ ησλ 2 ζπγρσλεπκέλσλ cluster είλαη 169, ή ε επθιείδεηα απφζηαζε είλαη 13. Πξνθεηκέλνπ, λα θαζνξίζνπκε ηε ζχζηαζε ησλ cluster, γηα έλα δεδνκέλν αξηζκφ cluster, ην δελδξφγξακκα κπνξεί λα θνπεί ζην θαηάιιειν κέξνο. Μπνξεί λα ρξεζηκνπνηεζεί έλαο αξηζκφο δηαθνξεηηθψλ θξηηεξίσλ, γηα ηνλ θαζνξηζκφ ηνπ θαιχηεξνπ αξηζκνχ cluster. Γηα παξάδεηγκα, ε θνπή πνπ θαίλεηαη απφ ηελ δηαθεθνκκέλε γξακκή ζην ζρήκα, δίλεη ηε ζχζηαζε κηαο ιχζεο ησλ 3- cluster. Ζ ιχζε ησλ 3- cluster απνηειείηαη, απφ ην cluster 1 πνπ πεξηέρεη ηα αληηθείκελα S1 θαη S2, ην cluster 2 πνπ πεξηέρεη ηα αληηθείκελα S3 θαη S4 θαη ην cluster 3 πνπ πεξηέρεη ηα αληηθείκελα S5 θαη S6. 38

50 Σρήκα 3.8 Γελδξόγξακκα ησλ ππνζεηηθώλ δεδνκέλσλ γηα ηελ κέζνδν centroid 3.7 Μέζνδνο ζύλδεζεο δηακέζνπ (Median). ε απηήλ ηελ κέζνδν ηεξαξρηθήο νκαδνπνίεζεο, ε απφζηαζε αλάκεζα ζε 2 cluster, είλαη ε απφζηαζε αλάκεζα ζηηο δηακέζνπο ησλ 2 cluster. Όηαλ κηθξά cluster, ζπγρσλεχνληαη κε κεγάια, ρξεζηκνπνηψληαο ηε κέζνδν centroid, ην θέληξν βάξνπο ηνπ απνηειέζκαηνο, ζα βξίζθεηαη πνιχ πην θνληά ζην κεγαιχηεξν cluster. Απηφ κπνξεί λα είλαη κεηνλέθηεκα, γηαηί ηα ραξαθηεξηζηηθά ηνπ κηθξφηεξνπ cluster, ζα ραζνχλ ζε κεγάιν βαζκφ. Ζ κέζνδνο ηεο δηακέζνπ πξνζπαζεί λα μεπεξάζεη απηφ ην πξφβιεκα. Οη δχν απηέο κέζνδνη centroid θαη δηακέζνπ, είλαη θαηά κηα έλλνηα ζπκπιεξσκαηηθέο. Απηφ είλαη έλα γεληθφ ζέκα ηεο αλάιπζεο ζπζηάδσλ, δειαδή, θαζψο δηαθνξεηηθέο κέζνδνη έρνπλ δηαθνξεηηθέο ηδηφηεηεο, θάπνηα πνπ κπνξεί λα είλαη κεηνλέθηεκα γηα έλα πξφβιεκα, ζα κπνξνχζε λα είλαη πιενλέθηεκα γηα θάπνην άιιν. 3.8 Μέζνδνο ηνπ Ward Ζ κέζνδνο ηνπ Ward, δελ ππνινγίδεη απνζηάζεηο κεηαμχ ησλ cluster. ρεκαηίδεη cluster, κεγηζηνπνηψληαο ηελ νκνηνγέλεηα, ζην εζσηεξηθφ ησλ cluster. Σν άζξνηζκα ηεηξαγψλσλ κέζα ζηελ νκάδα, ρξεζηκνπνηείηαη ζαλ κέηξν νκνηνγέλεηαο. Γειαδή ε κέζνδνο ηνπ Ward, πξνζπαζεί λα ειαρηζηνπνηήζεη ην νιηθφ άζξνηζκα ηεηξαγψλσλ κέζα ζηελ νκάδα ή κέζα ζην cluster. Tα cluster ζρεκαηίδνληαη ζε θάζε βήκα, έηζη ψζηε ε ιχζε πνπ πξνθχπηεη, λα έρεη ηα κηθξφηεξα αζξνίζκαηα ηεηξαγψλσλ, κέζα ζην cluster. Σα αζξνίζκαηα ηεηξαγψλσλ, κέζα ζηα cluster, πνπ ειαρηζηνπνηνχληαη, είλαη επίζεο γλσζηά, σο αζξνίζκαηα ηεηξαγσληθψλ ζθαικάησλ (ESS). 39

51 Με άιια ιφγηα, ην ESS είλαη ε δηαθνξά κεηαμχ ηνπ νιηθνχ ιάζνπο ησλ 2 ζπζηάδσλ θαη ηνπ νιηθνχ ιάζνπο, αλ ελψζνπκε ηηο 2 ζπζηάδεο ζε κία, δειαδή: D r (C i, C j ) = + - Όπνπ r i είλαη ην centroid ηνπ C i, r j είλαη ην centroid ηνπ C j θαη r ij είλαη ην centroid ηνπ C ij cluster. Σν κέηξν απηφ είλαη πνιχ δεκνθηιήο θξηηήξην ζηελ αλάιπζε ζπζηάδσλ, θαη ρξεζηκνπνηείηαη επίζεο θαη ζαλ θξηηήξην ζηηο κεζφδνπο βειηηζηνπνίεζεο. Θεσξνχκε μαλά ηα ππνζεηηθά δεδνκέλα, φπνπ αξρηθά θάζε παξαηήξεζε είλαη έλα cluster, γη απηφ θαη ην ESS είλαη 0. Σν επφκελν βήκα είλαη λα ζρεκαηίζνπκε 5 cluster, έλα cluster κεγέζνπο 2 θαη ηα ππφινηπα cluster κεγέζνπο 1( δειαδή θάζε αληηθείκελν λα είλαη 1 cluster). Γηα παξάδεηγκα, κπνξνχκε λα έρνπκε έλα cluster πνπ απνηειείηαη απφ ηα αληηθείκελα S1 θαη S2, θαη ηα άιια 4 cluster πνπ απνηεινχληαη απφ ηα αληηθείκελα S3, S4, S5 θαη S6 αληίζηνηρα. Σν ESS γηα ην cluster κε ηηο 2 παξαηεξήζεηο, δειαδή S1 θαη S2 είλαη (5-5.5) 2 + (6 5.5) 2 + (5-5.5) 2 + (6 5.5) 2 = 1 θαη γηα ηα ππφινηπα 4 cluster, ην ESS είλαη 0, αθνχ θάζε cluster απνηειείηαη απφ κία κφλν παξαηήξεζε. Έηζη ην νιηθφ ESS γηα ηελ ιχζε ησλ cluster είλαη 1. Ο πίλαθαο 3.5, δίλεη φιεο ηηο 15 πηζαλέο ιχζεηο ησλ 5- cluster, κε ηα ESS ηνπο. Βαζηδφκελνη ζην θξηηήξην ειαρηζηνπνίεζεο ηνπ ESS, κπνξεί λα επηιεγεί ε ιχζε ησλ cluster 1 ή 10. Αο επηιέμνπκε ηελ 1 ε ιχζε ησλ cluster,δειαδή ζπγρσλεχνπκε ηα αληηθείκελα S1 θαη S2. Σν επφκελν βήκα είλαη λα ζρεκαηίζνπκε 4 cluster. Τπάξρνπλ 10 πηζαλέο ιχζεηο ησλ 4-cluster. [(5 4)/2] [Γεληθά n(n-1) /2]. Ο πίλαθαο 3.5 δίλεη επίζεο ηηο πηζαλέο ιχζεηο 4-cluster κε ηα ESS ηνπο. Πίνακαρ 3.5 Μέζνδνο ηνπ Ward Μέιε ζηα cluster Λύζε cluster ESS (a)όιεο νη πηζαλέο ιχζεηο ησλ 5- cluster S1,S2 S1,S3 S1,S4 S1,S5 S1,S6 S2,S3 S2,S4 S2,S5 S2,S6 S3,S4 S3,S5 S3,S6 S4,S5 S4,S6 S5,S6 S3 S2 S2 S2 S2 S1 S1 S1 S1 S1 S1 S1 S1 S1 S1 S4 S4 S3 S3 S3 S4 S3 S3 S3 S2 S2 S2 S2 S2 S2 S5 S5 S5 S4 S4 S5 S5 S4 S4 S5 S4 S4 S3 S S3 S3 S6 S6 S6 S6 S5 S6 S6 S6 S5 S6 S6 S5 S6 S5 S (b) φιεο νη πηζαλέο ιχζεηο ησλ 4-cluster S1,S2,S3 S1,S2,S4 S1,S2,S5 S4 S3 S3 S5 S5 S4 S6 S6 S

52 S1,S2,S6 S3 S1,S2 S3,S4 S1,S2 S3,S5 S1,S2 S3,S6 S1,S2 S4,S5 S1,S2 S4,S6 S1,S2 S5,S6 S4 S5 S4 S4 S3 S3 S3 S5 S6 S6 S5 S6 S5 S Σν ESS γηα ηελ ιχζε πνπ απνηειείηαη απφ ηα αληηθείκελα S1, S2 θαη S3 είλαη: (5-8.67) 2 + (6-8.67) 2 + ( ) 2 + (5-8.33) 2 +(6-8.33) 2 + ( ) 2 = Έηζη ην ESS, γηα ηελ 1 ε ιχζε ησλ 4- cluster ζα είλαη θαη γηα ηα ππφινηπα 3 cluster ζα είλαη 0. Ζ ιχζε cluster 5, είλαη απηή πνπ ειαρηζηνπνηεί ην ESS. Ζ δηαδηθαζία επαλαιακβάλεηαη γηα φια ηα ππφινηπα βήκαηα Μείσζε ηεο Γηαζπνξάο κε ηε ζπζζώξεπζε 2 ζηνηρείσλ (κέζνδνο ηνπ Ward). Θεσξνχκε n αληηθείκελα γηα ηαμηλφκεζε, ζαλ ζεκεία ζηνλ Δπθιείδεην ρψξν κε p δηαζηάζεηο. Κάζε ζεκείν x i (δηάλπζκα κε p ζπληζηψζεο), έρεη κηα κάδα m i. Οιφθιεξε ε κάδα ηνπ ζπλφινπ ησλ ζεκείσλ, ζεκεηψλεηαη σο Μ = Σν ηεηξάγσλν ηεο απφζηαζεο, κεηαμχ ησλ ζεκείσλ x i θαη y i νξίδεηαη σο: x i - y i 2 = d 2 (x i, y i ). Ζ ζπλνιηθή δηαζπνξά ηνπ ζπλφινπ ησλ ζεκείσλ είλαη ε πνζφηεηα: I =, φπνπ G είλαη ην θέληξν βάξνπο ησλ ζεκείσλ G = Αλ ππάξρεη κηα δηακέξηζε ηνπ ζπλφινπ ησλ αληηθεηκέλσλ ζε Q cluster, ην q-νζηφ cluster, έρεη έλα θέληξν βάξνπο G q θαη κηα κάδα m q. Ζ εμίζσζε ηνπ Huyghen εμαζθαιίδεη κηα αλάιπζε ηεο πνζφηεηαο I, ζε δηαζπνξά κεηαμχ ησλ cluster θαη δηαζπνξά ζην εζσηεξηθφ ησλ cluster, ζχκθσλα κε ηνλ ηχπν: I= Έζησ x i θαη x j, δχν ζηνηρεία κε κάδεο m i θαη m j, πνπ ζπζζσξεχνληαη ζ έλα ζηνηρείν x, κάδαο m = m i + m j κε x = Μπνξνχκε λα αλαιχζνπκε ηε δηαζπνξά Iij ησλ x i θαη x j ζε ζρέζε κε ην G, ζχκθσλα κε ηελ εμίζσζε ηνπ Huyghen: Iij = mi 2 + mj 2 + m 2 Μφλν ν ηειεπηαίνο φξνο παξακέλεη, αλ ηα x i θαη x j, αληηθαζίζηαληαη απφ ην θέληξν βάξνπο ηνπο x. Χο εθ ηνχηνπ, ε κείσζε ηεο δηαζπνξάο, είλαη: ΔIij = mi 2 + mj 2. Αληηθαζηζηψληαο ην x κε ηελ ηηκή ηνπ, ζαλ κηα ζπλάξηεζε ησλ x i θαη x j παίξλνπκε: ΔIij = = d 2 (x i, x j ) Καηά ζπλέπεηα, ε ζηξαηεγηθή νκαδνπνίεζεο πνπ βαζίδεηαη ζην θξηηήξην ειάρηζηεο δηαζπνξάο, είλαη ε αθφινπζε: αληί λα βξνχκε ηα 2 πιεζηέζηεξα ζηνηρεία, βξίζθνπκε ηα 41

53 ζηνηρεία x i θαη x j πνπ αληηζηνηρνχλ ζηελ ειάρηζηε ΔIij- ε νπνία είλαη ε ίδηα ζεσξψληαο ηα ΔIij ζαλ λένπο δείθηεο αλνκνηφηεηαο. Αλ δνπιέςνπκε κε ηηο ζπληεηαγκέλεο ησλ ζεκείσλ, ππνινγίδνπκε ηα θέληξα βάξνπο (x, γηα x i θαη x j ). Απ ηελ άιιε, αλ δνπιέςνπκε κε απνζηάζεηο, είκαζηε ζε ζέζε λα ππνινγίζνπκε ηηο λέεο απνζηάζεηο, απφ ηηο παιηέο. Σν ηεηξάγσλν ησλ απνζηάζεσλ, κεηαμχ ελφο ζεκείνπ z θη ελφο θέληξνπ cluster x, γξάθεηαη ζαλ κηα ζπλάξηεζε ησλ απνζηάζεσλ ζηα x i θαη x j : d 2 (x, z) = { ( ) } Απηφο ν ηχπνο απνδεηθλχεηαη, αλαιχνληαο ηε δηαζπνξά ηνπ (x i, x j ) ζε ζρέζε κε ην z, ζε δηαζπνξά ζε ζρέζε κε ην x θαη ζε δηαζπνξά ηνπ x ζε ζρέζε κε ην z. mi xi z 2 + mj xj z 2 = (mi + mj) x - z 2 + x j z Ζ έθθξαζε ηνπ d 2 (x, z) ζπκπεξαίλεηαη ακέζσο απ (m j ) απηφ. Ζ δηαδηθαζία επαλαιακβάλεηαη ζηα ππφινηπα ζηνηρεία θαη ην λέν ζηνηρείν θαηαζθεπάδεηαη κε (m) x ζπζζψξεπζε. Τπάξρνπλ παξαιιαγέο ηεο κεζφδνπ πνπ ρξεζηκνπνηνχλ θάπσο δηαθνξεηηθνχο (m i ) x i ππνινγηζηηθνχο ηχπνπο. Γηα παξάδεηγκα, κπνξνχκε λα βξνχκε cluster, πνπ έρνπλ κηα ειάρηζηε εζσηεξηθή δηαζπνξά. 3.9 Οκαδνπνίεζε απιήο ζύλδεζεο θαη Διάρηζην Δπηθαιύπησλ Γέληξν. (a) Οπιζμόρ μιαρ Υπεπμεηπικήρ απόζηαζηρ: Ζ κέζνδνο νκαδνπνίεζεο πνπ παξνπζηάζηεθε παξαπάλσ, είλαη πνιχ απιή γηα λα εθαξκνζηεί, θαη έρεη ελδηαθέξνπζεο ηδηφηεηεο πνπ δηαηππψλνπκε θαη ζπδεηνχκε. Γείρλνπκε φηη, ε έλλνηα ηεο ηεξαξρίαο, ζπλδέεηαη ζηελά κε κηα θαηεγνξία απνζηάζεσλ κεηαμχ αληηθεηκέλσλ, πνπ νλνκάδνληαη ππεξκεηξηθέο απνζηάζεηο. Γηα ηελ ηεξαξρία πνπ παξάγεηαη απφ ηνλ αιγφξηζκν απιήο ζχλδεζεο, δείρλνπκε φηη ε αληίζηνηρε ππεξκεηξηθή απφζηαζε, είλαη θαηά κηα έλλνηα ε πιεζηέζηεξε ζηελ αξρηθή απφζηαζε. Απηή νλνκάδεηαη κέγηζηε ρακειόηεξε ππεξκεηξηθή απόζηαζε ή ππνθπξίαξρε ππεξκεηξηθή απόζηαζε. ηε ζπλέρεηα, πξνθχπηεη φηη ε εθαξκνγή απηήο ηεο κεζφδνπ είλαη πξαθηηθά ηζνδχλακε κε ηελ επίιπζε ελφο θιαζζηθνχ πξνβιήκαηνο ζηελ Δπηρεηξεζηαθή Έξεπλα: ε εχξεζε ηνπ ειάρηζηνπ επηθαιχπηνληνο δέληξνπ ή ελφο γξάθνπ. Τπελζπκίδνπκε φηη έλα ζχλνιν Δ, νξίδεηαη κε απφζηαζε d, αλ d είλαη κηα ζεηηθή απεηθφληζε πνπ ηθαλνπνηεί ηηο αθφινπζεο ζπλζήθεο: 1. d(x, y) = 0 αλ θαη κφλν αλ x = y 2. d(x, y) = d(y, x) (ζπκκεηξία) 3. d(x, y) d(x, z) + d(y, z) (ηξηγσληθή αληζφηεηα). Απηή ε απφζηαζε θαιείηαη ςπεπμεηπική απόζηαζη, αλ ηθαλνπνηεί ηελ αθφινπζε ζπλζήθε πνπ είλαη πην δπλαηή απ ηελ ηξηγσληθή αληζφηεηα: 4. d(x, y) max {d(x, z), d(y, z)} 42

54 (b) Ιζνδπλακία κεηαμύ κηαο Υπεξκεηξηθήο απόζηαζεο θαη κηαο ηεξαξρίαο Δίλαη ηζνδχλακν λα νξίζνπκε έλα πεπεξαζκέλν ζχλνιν Δ, κε κηα ππεξκεηξηθή απφζηαζε ή λα νξίζνπκε κηα ηεξαξρία ησλ ηκεκάησλ απηνχ ηνπ ζπλφινπ. Αο δείμνπκε πξψηα, φηη θάζε ηεξαξρία επηηξέπεη λα νξίζνπκε κηα απφζηαζε κεηαμχ ησλ ζηνηρείσλ, πνπ έρνπλ ηηο απαηηνχκελεο ηδηφηεηεο. Γηα ηελ απφζηαζε d(x, y), παίξλνπκε ηελ ηηκή ηνπ δείθηε πνπ αληηζηνηρεί ζην κηθξφηεξν κέξνο πνπ πεξηέρεη ηα x θαη y. Αο δείμνπκε κε έλα γεληθφ ηξφπν φηη πάληα έρνπκε: d(x, y) max {d(x, z), d(y, z)}. Τπελζπκίδνπκε φηη ηα 2 κέξε ηεο ηεξαξρίαο Ζ, είηε είλαη μέλα,είηε ζπλδένληαη κε κηα ζρέζε εγθιεηζκνχ. Αο νλνκάζνπκε h(x, z) ην κηθξφηεξν κέξνο ηνπ Ζ πνπ πεξηέρεη ηα x θαη z(ησλ νπνίσλ δείθηεο είλαη ε d(x, z)). Αθνχ h(x, z) θαη h(y, z) δελ είλαη μέλα, έρνπκε γηα παξάδεηγκα h(x, z) h(y, z). Καη αθνχ x, y θαη z πεξηέρνληαη φια ζην h(y, z), έρνπκε απαξαίηεηα h(x, y) h(y, z). πλεπψο d(x, y) d(y, z) πνπ απνδεηθλχεη ηελ αληζφηεηα. Αληίζεηα ζε θάζε ππεξκεηξηθή απφζηαζε d, κπνξεί λα αληηζηνηρεί κηα ηεξαξρία, ηεο νπνίαο ν αληίζηνηρνο δείθηεο είλαη d. Πξέπεη λα εθαξκφζνπκε ηνλ αιγφξηζκν απιήο ζχλδεζεο, ζηνλ αληίζηνηρν πίλαθα απνζηάζεσλ. Δίλαη θαλεξφ ηφηε, φηη ν εθ λένπ ππνινγηζκφο ησλ απνζηάζεσλ ζε θάζε βήκα είλαη πεξηηηφο: αληί απηνχ, έλα κφλν απφ ηα δχν ζπζζσξεπκέλα ζεκεία ρξεηάδεηαη λα δηαγξαθεί. Γηα παξάδεηγκα, αλ x θαη y ζπζζσξεχνληαη ζην t, νη απνζηάζεηο ζην θαηλνχξην ζεκείν t, ζα πξέπεη λα ππνινγηζηνχλ. z Αιιά έρνπκε απαξαηηήησο φηη d(z, x) d(x, y) θαη d(z, y) d(x, y) Αιιηψο (z, x) ή (z, y) ζα είραλ ζπζζσξεπηεί αληί ηνπ (x, y). Γηα κηα ππεξκεηξηθή απφζηαζε, απηφ ζπλεπάγεηαη φηη d(z, x)= d(z, y), x y ην νπνίν εθθξάδεηαη ιέγνληαο φηη, γηα κηα ππεξκεηξηθή απφζηαζε y t φια ηα ηξίγσλα είλαη ηζνζθειή θαη ε βάζε είλαη ε κηθξφηεξε πιεπξά. Αο απνδείμνπκε ην ηειεπηαίν απνηέιεζκα: Έρνπκε d(z, x) max{d(z, y), d(x, y)}. Χο εθ ηνχηνπ: d(z, x) d(z, y). Παξνκνίσο : d(z, y) max{d(z, x), d(x, y)}. Χο εθ ηνχηνπ: d(z, y) d(z, x). Απηφ ζπλεπάγεηαη φηη d(z, x) = d(z, y). Ο ππνινγηζκφο ησλ απνζηάζεσλ απφ ην z ζην t είλαη πεξηηηφο, αθνχ νη δχν εμεηαδφκελεο απνζηάζεηο είλαη ίζεο. (c) Υπνθπξίαξρε Υπεξκεηξηθή Απόζηαζε Έρνπκε κεηαθεξζεί απφ κηα κεηξηθή απφζηαζε, ζε κηα ππεξκεηξηθή απφζηαζε (δειαδή ηζνδχλακα ζε κηα ηεξαξρία), κεηψλνληαο ηηο ηηκέο νξηζκέλσλ απνζηάζεσλ. Μπνξνχκε λα ζέζνπκε ην παξαθάησ εξψηεκα: ππάξρεη κηα ππεξκεηξηθή απφζηαζε, πνπ είλαη πιεζηέζηεξε ζε κηα κεηξηθή απφζηαζε; Γίλνπκε ηελ αθφινπζε κεξηθή απάληεζε: Λέκε φηη ε κεηξηθή απφζηαζε d 1, είλαη κηθξφηεξε απφ κηα κεηξηθή απφζηαζε d 2, αλ γηα θάζε x θαη y, d 1 (x, y) d 2 (x, y). Οξηζκόο: Ζ κεγαιχηεξε ππεξκεηξηθή απφζηαζε, πνπ είλαη κηθξφηεξε απφ κηα κεηξηθή απφζηαζε d, νλνκάδεηαη θαηά ηελ πξνεγνχκελε έλλνηα, ε κέγηζηε ρακειόηεξε ππεξκεηξηθή απόζηαζε ή ππνθπξίαξρε ππεξκεηξηθή απόζηαζε. Απηφ αθξηβψο δίλεηαη απφ ηνλ αιγφξηζκν απιήο ζχλδεζεο. 43

55 (d) Διάρηζην Δπηθαιύπησλ Γέληξν- Δηζαγσγή Οξηζκόο Σν ζχλνιν ησλ n ζεκείσλ πνπ ηαμηλνκνχληαη, κπνξεί λα ζεσξεζεί ζαλ έλα ζχλνιν ζεκείσλ ζην ρψξν. Απηή είλαη κηα θιαζζηθή αλαπαξάζηαζε, αλ ηα αληηθείκελα πεξηγξάθνληαη απφ κηα ζεηξά p- παξακέηξσλ: έρνπκε n ζεκεία, ζην ρψξν R p. ηε ζπλέρεηα, κπνξνχκε λα ππνινγίζνπκε κηα απφζηαζε γηα θάζε δεχγνο ζεκείσλ. Γεληθφηεξα, αλ θαη κφλν αλ, είλαη δηαζέζηκεο νη ηηκέο ελφο δείθηε αλνκνηφηεηαο( δελ έρνπλ απαξαίηεηα ηεο ηδηφηεηεο ηεο απφζηαζεο), ηφηε κπνξνχκε λα αλαπαξαζηήζνπκε ηα αληηθείκελα κε ζεκεία, φπνπ θάζε δεχγνο αληηθεηκέλσλ ελψλεηαη κε κηα ζπλερή γξακκή, ζηελ νπνία απνδίδεηαη ε ηηκή ελφο δείθηε αλνκνηφηεηαο. Έηζη ην ζχλνιν ησλ αληηθεηκέλσλ θαη νη ηηκέο ηνπ δείθηε, απεηθνλίδνληαη απφ έλα πιήξεο γξάθεκα. Αιιά αλ ππάξρνπλ πεξηζζφηεξα απφ ιίγα αληηθείκελα, απηφ ην είδνο αλαπαξάζηαζεο γίλεηαη αθαηάζηαην. ηε ζπλέρεηα πξνζπαζνχκε λα εμάγνπκε έλα ππνγξάθεκα απ απηφ ην γξάθεκα (κε ηνπο ίδηνπο θφκβνπο θαη ιηγφηεξεο αθκέο). Απηφ ην ππνγξάθεκα, είλαη επθνιφηεξν λα αλαπαξαζηαζεί θαη καο επηηξέπεη λα ζπλνςίζνπκε ηηο ηηκέο ηνπ δείθηε. Μεηαμχ ησλ ππνγξαθεκάησλ, εθείλα πνπ έρνπλ κηα δνκή δέληξνπ είλαη ηδηαίηεξα ελδηαθέξνληα, δηφηη κπνξνχλ λα απεηθνληζηνχλ ζε 2 δηαζηάζεηο. Έλα δέληξν είλαη ζπλδεδεκέλν (ππάξρεη έλα κνλνπάηη, πνπ ελψλεη θάζε δεπγάξη θφκβσλ), ρσξίο έλα θχθιν (έλαο θχθινο, είλαη έλα κνλνπάηη, πνπ μεθηλά θαη θαηαιήγεη ζην ίδην ζεκείν, ρσξίο λα πεξάζεη απφ ηελ ίδηα αθκή δχν θνξέο). Μπνξνχκε λα νξίζνπκε κε ηζνδχλακν ηξφπν, έλα δέληξν κε n θφκβνπο, είηε ζαλ έλα γξάθεκα ρσξίο θχθιν πνπ έρεη n-1 αθκέο, ή ζαλ έλα ζπλδεδεκέλν γξάθεκα κε n-1 αθκέο. Σν κήθνο ηνπ δέληξνπ, είλαη ην άζξνηζκα ησλ «κεθψλ» ησλ αθκψλ ηνπ. Μεηαμχ φισλ ησλ ππνγξαθεκάησλ πνπ είλαη δέληξα, ην ειάρηζην επηθαιχπησλ δέληξν, έρεη απφ θαηξφ ηξαβήμεη ηελ πξνζνρή ησλ ζηαηηζηηθνιφγσλ, εμαηηίαο ησλ άξηζησλ πεξηγξαθηθψλ ηδηνηήησλ ηνπ, πνπ απνξξένπλ απφ ηε ζρέζε ηνπ κε ηελ ηεξαξρηθή ηαμηλφκεζε. Παξνπζηάδνπκε παξαθάησ, ηνπο αιγνξίζκνπο γηα ηελ εχξεζε ελφο ειάρηζηνπ επηθαιχπηνληνο δέληξνπ θαη ζηε ζπλέρεηα δείρλνπκε ηελ ηζνδπλακία ηνπ, κε κηα νκαδνπνίεζε απιήο ζχλδεζεο. Τπνζέηνπκε φηη φιεο νη αθκέο ησλ γξαθεκάησλ έρνπλ δηαθνξεηηθά κήθε, επεηδή θάησ απφ απηέο ηηο ζπλζήθεο, ην δέληξν είλαη κνλαδηθφ θαη απινπνηεί ηελ παξνπζίαζε ησλ αιγνξίζκσλ. Δλάσιζηο Δπικαλύπηων Γένηπο Αλγόπιθμορ Kruskal (1956) Οη n(n-1)/2 αθκέο δηαηάζζνληαη, θαηά αχμνπζα ζεηξά ησλ ηηκψλ ηνπ δείθηε. Αξρίδνληαο κε ηηο 2 πξψηεο αθκέο, επηιέγνληαη φιεο νη αθκέο πνπ δελ ζρεκαηίδνπλ θχθιν κε ηηο αθκέο πνπ ήδε έρνπλ επηιερζεί. Ζ δηαδηθαζία ζηακαηά, φηαλ ππάξρνπλ n-1 αθκέο. Με απηφλ ηνλ ηξφπν, είκαζηε ζίγνπξνη, φηη έρνπκε απνθηήζεη έλα δέληξν (γξάθνο ρσξίο θχθιν, κε n-1 αθκέο). Αλγόπιθμορ Prim (1957) Ξεθηλνχκε κε νπνηνλδήπνηε θφκβν ηνπ γξαθήκαηνο. Σν βήκα 1, απνηειείηαη απφ ηελ εχξεζε ηνπ θνληηλφηεξνπ αληηθεηκέλνπ π 1, δειαδή ηελ κηθξφηεξε αθκή. Σν βήκα k, απνηειείηαη απ ηελ έληαμε ζηελ ππάξρνπζα ζεηξά αθκψλ V k-1, ηεο ζπληνκφηεξεο (κηθξφηεξεο) αθκήο π k, πνπ αγγίδεη κηα απφ ηηο θνξπθέο ηνπ V k-1 θαη δελ ζρεκαηίδεη θχθιν 44

56 κε ηηο αθκέο ηνπ. Σν δέληξν πνπ ιακβάλεηαη, είλαη ειαρίζηνπ κήθνπο, επεηδή ην V k είλαη πάληα ειαρίζηνπ κήθνπο δέληξν, γηα ηνπο k θφκβνπο. Αλγόπιθμορ Florek (1951) ην πξψην βήκα, θάζε θφκβνο ζπλδέεηαη κε ηνλ θνληηλφηεξν γείηνλα ηνπ. Δίλαη ηζνδχλακν, κε ην λα πάξνπκε ηε κηθξφηεξε απφζηαζε, ζε θάζε γξακκή ηνπ πίλαθα απνζηάζεσλ. Απηφο ν ρεηξηζκφο, παξάγεη πεξηζζφηεξεο απφ n/2 αθκέο (ή n(n-1)/2, αλ n πεξηηηφο). Απηφ δίλεη έλα δάζνο F 1 (κηα νηθνγέλεηα δέληξσλ, ή απιά έλα γξάθεκα ρσξίο θχθιν). ην βήκα k, θάζε δέληξν ηνπ δάζνπο F k-1 (δειαδή θάζε ζπλδεδεκέλε ζπληζηψζα ηνπ γξαθήκαηνο, ρσξίο θχθιν), ζπλδέεηαη κε ηνλ θνληηλφηεξν γείηνλα ηνπ, παίξλνληαο ζαλ απφζηαζε κεηαμχ ησλ δέληξσλ, ηε κηθξφηεξε αθκή, αλάκεζα ζε νπνηνλδήπνηε θφκβν ηνπ ελφο θαη νπνηνλδήπνηε θφκβν ηνπ άιινπ. Ζ δηαδηθαζία ζηακαηά, κφιηο ην γξάθεκα F k ζπλδέεηαη. Απηφο ν αιγφξηζκνο, είλαη ν γξεγνξφηεξνο, πνπ ππνινγίδεη ζην ρέξη, αξθεηά κεγάινπο πίλαθεο απνζηάζεσλ. Γεληθά ππάξρνπλ κφλν 2 ή 3 βήκαηα. (e) Σρέζε κεηαμύ ειάρηζηνπ επηθαιύπηνληνο δέληξνπ θαη απιήο ζύλδεζεο (Gower and Ross, 1969) Έζησ V, είλαη έλα ειάρηζην επηθαιχπησλ δέληξν πνπ θαηαζθεπάζηεθε απφ έλαλ πίλαθα απνζηάζεσλ, κεηαμχ n αληηθεηκέλσλ. Αθνχ ην V, δελ έρεη θχθιν θαη είλαη ζπλδεδεκέλν, ππάξρεη έλα θαη κφλν κνλνπάηη, πνπ ελψλεη δχν θνξπθέο x θαη y. Αο νλνκάζνπκε d v (x, y), ην κήθνο ηεο κεγαιχηεξεο αθκήο πνπ ζπλαληάηαη ζ απηφ ην κνλνπάηη. Γείρλνπκε φηη ε d v (x, y), είλαη d*(x, y) ε ππεξκεηξηθή απφζηαζε ηεο κηθξφηεξεο κέγηζηεο κεηαπήδεζεο κεηαμχ ησλ x θαη y. Έζησ φηη ε v είλαη ε κεγαιχηεξε αθκή κεηαμχ ησλ x θαη y. Ζ εμαθάληζε ηνπ v, νδεγεί ζηε δηαίξεζε ηνπ V, ζε δχν μερσξηζηά ζπλδεδεκέλεο ζπληζηψζεο. Αλ ππάξρεη εθεί, έλα κνλνπάηη απφ ην x ζην y (δελ δηέξρεηαη απαξαίηεηα απ ηηο αθκέο ηνπ V), ηνπ νπνίνπ ε κεγαιχηεξε αθκή είλαη κηθξφηεξε ηνπ λ, ηφηε ππάξρεη εθεί κηα αθκή u,πνπ δηαθξίλεηαη απφ ηελ λ θαη είλαη κηθξφηεξε απ απηή, πνπ ελψλεη ηηο δχν ζπλδεδεκέλεο ζπληζηψζεο. Αληηθαζηζηψληαο ην u κε λ, ζα δίλακε έλα δέληξν κηθξφηεξνπ κήθνπο απ φηη ην V, ην νπνίν έξρεηαη ζε αληίζεζε κε ηνλ νξηζκφ ηνπ V. Καηά ζπλέπεηα, d v (x, y), ην κήθνο ηνπ λ, είλαη φλησο ην κηθξφηεξν κέγηζην άικα. Απηφ ην επηρείξεκα, εμαζθαιίδεη έλα ηξφπν θαηαζθεπήο ηεο ηεξαξρίαο, πνπ ζπλδέεηαη κε ηελ απιή ζχλδεζε, μεθηλψληαο κε ην ειάρηζην επηθαιχπησλ δέληξν, V. Απηή ε θζίλνπζα θαηαζθεπή, δνπιεχεη κε ηνλ αθφινπζν ηξφπν: ζπάδνπκε ηελ κεγαιχηεξε αθκή ηνπ V, παίξλνπκε ηηο 2 πην απνκαθξπζκέλεο νκάδεο θαη ν δείθηεο πνπ αληηζηνηρεί ζηε ζπγρψλεπζε ηνπο, είλαη ην κήθνο απηήο ηεο αθκήο. ηε ζπλέρεηα, ζπάδνπκε ηηο αθκέο δηαδνρηθά, θαηά θζίλνπζα ζεηξά κεγέζνπο, θαηεβαίλνληαο θαηά κήθνο ηεο ηεξαξρίαο, έσο φηνπ επηηεπρζνχλ ηα ηειηθά ζηνηρεία. Ζ ηειεπηαία ζπαζκέλε αθκή, αληηζηνηρεί ζε 2 αληηθείκελα πνπ ζπγρσλεχηεθαλ πξψηα, ζηνλ αλνδηθφ αιγφξηζκν. 45

57 3.10 Ιζνδπλακία κεηαμύ απιήο ζύλδεζεο θαη ππνθπξίαξρεο Υπεξκεηξηθήο Γηα λα απνδείμνπκε απηή ηελ ηζνδπλακία: 1. Οξίδνπκε, μεθηλψληαο κε κηα απφζηαζε d, κηα λέα απφζηαζε πνπ νλνκάδεηαη απφζηαζε ηνπ κηθξφηεξνπ κέγηζηνπ άικαηνο. 2. Γείρλνπκε ζηε ζπλέρεηα, φηη απηή είλαη κηα ππεξκεηξηθή απφζηαζε. 3. Γείρλνπκε φηη απηή ε ππεξκεηξηθή απφζηαζε, είλαη κηα ππνθπξίαξρε. 4. Σειηθά, δείρλνπκε φηη απηή ε απφζηαζε αληηζηνηρεί ζηελ ππεξκεηξηθή απφζηαζε, πνπ δίλεηαη απφ ηνλ αιγφξηζκν απιήο ζχλδεζεο. (a) Οξηζκόο ηεο απόζηαζεο ηνπ Μηθξόηεξνπ Μέγηζηνπ Άικαηνο. Έζησ φηη ππάξρεη έλα ζχλνιν Δ, πνπ έρεη κηα απφζηαζε d. Έζησ x θαη y, δχν ζεκεία πνπ πεξηέρνληαη ζην Δ. Σν δεχγνο (x, y) θαιείηαη αθκή, κήθνπο d(x, y) ηνπ πιήξνπο γξαθήκαηνο, ηνπ νπνίνπ νη θφκβνη είλαη ηα ζηνηρεία ηνπ Δ. Οξηζκνί: Έλα γξάθεκα νλνκάδεηαη πιήξεο, αλ θάζε θνξπθή ηνπ ζπλδέεηαη κε φιεο ηηο άιιεο. Ολνκάδνπκε κνλνπάηη απ ην x ζην y, κηα ζεηξά αθκψλ ηνπ ηχπνπ (x, t 1 ) (t 1, t 2 ) (t 2, t 3 ) (t k-1, t k ) (t k, y) φπνπ t 1 t k είλαη ζηνηρεία ηνπ Δ. Με δεδνκέλν, έλα κνλνπάηη απ ην x ζην y, ην κέγηζην άικα είλαη ην κήθνο ηεο καθξχηεξεο αθκήο ηνπ κνλνπαηηνχ απ ην x ζην y. ε θάζε κνλνπάηη, πνπ ελψλεη ηα x θαη y, αληηζηνηρεί έλα κέγηζην άικα. Αθνχ ην ζχλνιν ησλ θφκβσλ είλαη πεπεξαζκέλν, ππάξρεη εθεί έλα κηθξφηεξν κέγηζην άικα, πάλσ απ ην ζχλνιν ησλ κνλνπαηηψλ απ ην x ζην y. Σν ζπκβνιίδνπκε κε d*(x, y). (b) Απόδεημε όηη ε d* είλαη κηα Υπεξκεηξηθή Απόζηαζε. Σν κηθξφηεξν κέγηζην άικα, κεηαμχ ησλ x θαη y είλαη κηα ππεξκεηξηθή απφζηαζε. Δίλαη ζαθέο, φηη ηα 2 πξψηα αμηψκαηα ηεο απφζηαζεο επαιεζεχνληαη απφ ηελ d*. Γηα λα επηβεβαηψζνπκε φηη ε απφζηαζε είλαη ππεξκεηξηθή, αο ζεσξήζνπκε 3 ζεκεία x, y θαη z ηνπ Δ. y z x Σν κηθξφηεξν κέγηζην άικα απ ην x ζην y, πνπ πεξλά κέζσ ηνπ z, είλαη max {d*(x, z), d*(z, y)}. Σν κηθξφηεξν κέγηζην άικα απ ην x ζην y, ρσξίο ηνλ πεξηνξηζκφ λα πεξλά κέζσ ηνπ z, κπνξεί λα είλαη κηθξφηεξν ή ίζν απ απηήλ ηελ πνζφηεηα. Έηζη: d*(x, y) max {d*(x, z), d*(z, y)} θαη d* θαίλεηαη λα είλαη κηα ππεξκεηξηθή απφζηαζε. (c) Απόδεημε όηη ε d* είλαη ππνθπξίαξρε. Γηα λα δείμνπκε φηη ε d* είλαη ππνθπξίαξρε, δείρλνπκε φηη ε d* είλαη κηθξφηεξε απ ηελ d θαη κεγαιχηεξε απφ θάζε ππεξκεηξηθή απφζηαζε, πνπ είλαη κηθξφηεξε απ ηελ d. Πξψηα απ φια, είλαη ζαθέο φηη ε αθκή (x, y) είλαη έλα ζπγθεθξηκέλν κνλνπάηη, πνπ πεγαίλεη απ ην x ζην y. Χο εθ ηνχηνπ, d*(x, y) d(x, y) θαη ε d* είλαη κηθξφηεξε απ ηελ d. Έζησ d 1, είλαη κηα ππεξκεηξηθή απφζηαζε, κηθξφηεξε ηεο d. Γηα θάζε ηξηάδα (x 1, x 2, x 3 ) πξνθαλψο έρνπκε: d 1 (x 1, x 3 ) max { d 1 (x 1, x 2 ), d 1 (x 2, x 3 )}. Δθαξκφδνληαο απηή ηελ αληζφηεηα δηαδνρηθά ζ έλα κνλνπάηη (x 1, x 2 ) (x 2, x 3 ) (x p-1, x p ) παίξλνπκε: 46

58 d 1 (x 1, x p ) }. Αθνχ d 1 d, έρνπκε: d 1 (x 1, x p ) }. Απηή ε αληζφηεηα ηζρχεη γηα θάζε κνλνπάηη, πνπ ελψλεη ην x 1 κε ην x p. Γηα ηνπιάρηζηνλ έλα απ απηά, έρνπκε απφ ηνλ νξηζκφ ηεο d*, } = d*(x 1, x p ) Ζ ηειεπηαία εμίζσζε, απνδεηθλχεη ηελ απαηηνχκελε αληζφηεηα, δειαδή έρνπκε: d 1 (x 1, x p ) d*(x 1, x p ). (d) Ιζνδπλακία ησλ d* θαη d u Μέλεη λα δείμνπκε, φηη ε ππεξκεηξηθή απφζηαζε d u πνπ δίλεηαη απφ ηνλ αιγφξηζκν απιήο ζχλδεζεο, είλαη ε απφζηαζε d* ηνπ κηθξφηεξνπ κέγηζηνπ άικαηνο. Έζησ d u (x, y) είλαη ε ηηκή ηεο απφζηαζεο, ζην βήκα φπνπ ηα ζεκεία x θαη y, ελψλνληαη γηα πξψηε θνξά. Πξνεγνπκέλσο απηά ηα 2 ζεκεία, βξίζθνληαλ ζε δηαθνξεηηθά cluster (ή απνηεινχζαλ cluster απφ κφλα ηνπο). Ζ κέζνδνο ππνινγηζκνχ απνζηάζεσλ, ζε θάζε ζπζζψξεπζε, εμαζθαιίδεη φηη ε d u (x, y) είλαη ε κηθξφηεξε απφζηαζε, κεηαμχ 2 ζεκείσλ πνπ αλήθνπλ ζε δηαθνξεηηθά cluster. Οη απνζηάζεηο κέζα ζ έλα cluster, είλαη κηθξφηεξεο απφ d u (x, y) κεηά ηε ζπζζψξεπζε. Καη νη απνζηάζεηο πνπ ζπκπεξηιακβάλνπλ ζεκεία, πνπ δελ αλήθνπλ ζηα 2 cluster, είλαη κεγαιχηεξεο γηαηί απηά ζα ζπζζσξεπηνχλ ζε έλα κειινληηθφ βήκα. Σα κνλνπάηηα πνπ ελψλνπλ ηα x θαη y, ζα έρνπλ ζπλεπψο αθκέο κέζα ζηα 2 cluster, ησλ νπνίσλ ην κήθνο, ζα είλαη κηθξφηεξν απφ d u (x, y) θαη αθκέο, έμσ απ ηα cluster ησλ νπνίσλ ην κήθνο είλαη απαξαηηήησο κεγαιχηεξν ή ίζν κε d u (x, y). Έηζη ε d u (x, y) είλαη ην κηθξφηεξν κέγηζην άικα d*(x, y) Ιδηόηεηεο ησλ ηερληθώλ ζπζζσξεπηηθήο ηεξαξρηθήο νκαδνπνίεζεο Ζ απιή ζχλδεζε, κπνξεί λα δψζεη ζπρλά κε ηθαλνπνηεηηθά απνηειέζκαηα, αλ ππάξρνπλ «ελδηάκεζα» ζεκεία κεηαμχ ησλ ζρεηηθά επδηάθξηησλ cluster, εμαηηίαο ηνπ θαηλνκέλνπ ηεο αιπζίδαο (chaining), πνπ αλαθέξεηαη ζηελ ηάζε, λα ελζσκαησζνχλ απηά ηα ελδηάκεζα ζεκεία ζε έλα ππάξρνλ cluster, παξά λα δεκηνπξγήζνπκε έλα θαηλνχξην. Απνηέιεζκα ηνπ πξνβιήκαηνο, είλαη φηη ε απιή ζχλδεζε, ηείλεη λα νδεγήζεη ζην ζρεκαηηζκφ επηκεθψλ «αθαλφληζησλ» cluster. y x Σρήκα 3.9 Γύν θαιά δηαρσξηδόκελεο ζπζηάδεο, κε ελδηάκεζα ζεκεία «ζνξύβνπ» 47

59 Αξθεηέο ηεξαξρηθέο ηερληθέο, κεηαμχ ησλ νπνίσλ, ε ζχλδεζε κέζνπ φξνπ νκάδαο θαη ε πιήξεο ζχλδεζε, ηείλνπλ λα παξάγνπλ ιχζεηο, ζηηο νπνίεο ηα cluster είλαη «ζθαηξηθά» αθφκα θη αλ ηα δεδνκέλα θαίλνληαη λα πεξηέρνπλ, ζρεηηθψο θαιά δηαρσξηδφκελεο ζπζηάδεο άιισλ ζρεκάησλ. Καηά ζπλέπεηα, κπνξνχλ λα επηβάιινπλ κηα δνκή ζηα δεδνκέλα, παξά λα απνθαιχςνπλ ηελ πξαγκαηηθή παξνχζα δνκή. Γηα έλα ζπγθεθξηκέλν πξφβιεκα, είλαη θαιή ηδέα λα δνθηκαζηνχλ αξθεηέο κέζνδνη νκαδνπνίεζεο θαη ζε κηα δεδνκέλε κέζνδν, δχν δηαθνξεηηθέο απνζηάζεηο (νκνηφηεηεο) πνπ ζα ρξεζηκνπνηεί ν αιγφξηζκνο. Αλ ηα απνηειέζκαηα ησλ δηάθνξσλ κεζφδσλ, ηαπηίδνληαη θαηά πξνζέγγηζε, ίζσο κπνξνχκε πην εχθνια λα θαηαιήμνπκε ζην ζπκπέξαζκα φηη ε νκαδνπνίεζε είλαη νξζή. Ζ επζηάζεηα κηαο ιχζεο, πξνεξρφκελεο απφ ηεξαξρηθή κέζνδν, κπνξεί λα ειεγρζεί εθαξκφδνληαο κηθξέο δηαηαξαρέο ζηα δεδνκέλα θαη παξαηεξψληαο πσο αληηδξά ζε απηέο. Αλ νη νκάδεο είλαη ζσζηά δηαρσξηζκέλεο, ηφηε ηα απνηειέζκαηα ησλ νκαδνπνηήζεσλ πξηλ θαη κεηά ηε δηαηαξαρή, ζα ζπκθσλνχλ. Έλαο αξηζκφο εκπεηξηθψλ εξεπλψλ, ησλ ηερληθψλ ηεξαξρηθήο νκαδνπνίεζεο έρεη πξαγκαηνπνηεζεί, ηνπ νπνίνπ ηα απνηειέζκαηα αλ θαη δελ είλαη απνιχησο ζπλεπή, κπνξεί λα είλαη ρξήζηκα, ππνδεηθλχνληαο πνηεο απφ ηηο πνιιέο κεζφδνπο, είλαη πηζαλφλ λα είλαη πην ρξήζηκε ζηελ πξάμε. Οη Baker (1974) θαη Hubert(1974), γηα παξάδεηγκα απνδεηθλχνπλ θαη νη δχν, φηη ε νκαδνπνίεζε πιήξνπο ζχλδεζεο, είλαη ιηγφηεξν επαίζζεηε ζε ζπγθεθξηκέλνπο ηχπνπο ιάζνπο απφ ηεο απιήο ζχλδεζεο. Οη Cunnigham θαη Ogilvie (1972), ζπγθξίλνπλ 7 ηεξαξρηθέο ηερληθέο θαη βξίζθνπλ φηη ε νκαδνπνίεζε κέζνπ φξνπ νκάδαο, απνδίδεη πην ηθαλνπνηεηηθά γηα ηα ζχλνια ησλ εμεηαδφκελσλ δεδνκέλσλ. Δπηπιένλ βξήθαλ κηα δπλαηή αιιειεπίδξαζε ησλ απνηειεζκάησλ, αλάκεζα ζην είδνο ησλ δεδνκέλσλ εηζφδνπ θαη ηε ζπγθεθξηκέλε κέζνδν νκαδνπνίεζεο πνπ ρξεζηκνπνηείηαη. Οη Kuiper θαη Fisher (1975), δηεξεπλνχλ 6 ηεξαξρηθέο ηερληθέο θαη βξίζθνπλ φηη γηα ίζνπο αξηζκνχο ζεκείσλ απφ δηαθνξεηηθέο πνιπκεηαβιεηέο θαλνληθέο θαηαλνκέο, ε κέζνδνο ηνπ Ward (1963), ηαμηλνκεί εμίζνπ θαιά κε ηελ γξακκηθή δηαθξίλνπζα ζπλάξηεζε ηνπ Fisher, γλσξίδνληαο φιεο ηηο παξακέηξνπο. Με άληζα κεγέζε δεηγκάησλ, ν κέζνο νκάδαο θαη ε πιήξε ζχλδεζε,απνδείρηεθαλ σζηφζν πην επηηπρεκέλα. Ο Blashfield (1976), θαηαιήγεη ζε παξφκνηα ζπκπεξάζκαηα. Δθαξκφδνληαο 4 ηερληθέο ηεξαξρηθήο νκαδνπνίεζεο ζε δεδνκέλα πνπ δεκηνπξγήζεθαλ απφ αλακείμεηο πνιπκεηαβιεηψλ θαλνληθψλ, βξήθε ηα αθφινπζα επίπεδα ζπκθσλίαο, αλάκεζα ζηηο ιχζεηο ησλ cluster θαη ηελ πξαγκαηηθή δνκή, κηα ζπκθσλία πνπ πηζηνπνηείηαη κε ην ζηαηηζηηθφ kappa. αθψο γηα ηα δεδνκέλα πνπ εμεηάδνληαη, ε απιή ζχλδεζε απνδίδεη αλεπαξθψο θαη ε κέζνδνο ηνπ Ward αξθεηά θαιά. Μέζνδνο Median kappa Interquartile range of kappa Απιή ζχλδεζε Πιήξεο ζχλδεζε Μέζνο φξνο νκάδαο Μέζνδνο ηνπ Ward Μηα νινθιεξσκέλε κειέηε πνπ αλαθέξζεθε απφ ηνλ Milligan (1980) απέδεημε ζαθψο, φηη νχηε ε κέζνδνο απιήο ζχλδεζεο κπνξεί λα απνδεηρζεί αλψηεξε γηα φινπο ηνπο ηχπνπο δεδνκέλσλ. Ζ παξνπζία, γηα παξάδεηγκα αθξαίσλ ηηκψλ, άθεζε ηα 48

60 απνηειέζκαηα ηεο νκαδνπνίεζεο απιήο ζχλδεζεο νπζηαζηηθά αλεπεξέαζηα, αιιά νδεγήζεθαλ ζε πνιχ θαθή απφδνζε απφ ηνλ κέζν νκάδαο θαη ηελ κέζνδν ηνπ Ward. ε αληίζεζε, φηαλ ηα δεδνκέλα, ήηαλ ηέηνηα πνπ πεξηείραλ κηα αιεζηλή δνκή ζπζηάδαο, πνπ θαιχθηεθε απφ ηελ πξνζζήθε «ζνξχβνπ», ε απιή ζχλδεζε έδσζε θαθά απνηειέζκαηα, κε ηελ κέζνδν ηνπ Ward θαη ηνπ κέζνπ νκάδαο λα είλαη πνιχ αλψηεξεο Οιηθή Πξνζαξκνγή κηαο ιύζεο ηεξαξρηθήο νκαδνπνίεζεο Οη ηερληθέο ηεξαξρηθήο νκαδνπνίεζεο, επηβάιινπλ κηα ηεξαξρηθή δνκή ζηα δεδνκέλα θαη ζπλήζσο είλαη θαιφ λα εμεηάδεηαη, αλ απηή εηζάγεη απαξάδεθηεο παξακνξθψζεηο ησλ αξρηθψλ ζρέζεσλ κεηαμχ ησλ αηφκσλ. Ζ κέζνδνο πνπ ρξεζηκνπνηείηαη ζπλεζέζηεξα, γηα ηελ εθηίκεζε ηεο αληηζηνηρίαο αλάκεζα ζην παξαγφκελν δελδξφγξακκα θαη ηηο αξρηθέο αλνκνηφηεηεο ή απνζηάζεηο είλαη ν cophenetic ζςνηελεζηήρ ζςζσέηιζηρ. Δίλαη απιά ην γηλφκελν ζπζρέηηζεο ησλ n(n-1)/2 εηζφδσλ, ζην ρακειφηεξν κηζφ ηνπ πίλαθα εγγχηεηαο θαη νη αληίζηνηρεο είζνδνη ζηνλ ιεγφκελν πίλαθα cophenetic C, ηα ζηνηρεία c ij πνπ έρνπλ θαζνξηζηεί λα είλαη ην πξψην επίπεδν ζην δελδξφγξακκα, ζην νπνίν ηα άηνκα i θαη j, εκθαλίδνληαη καδί ζην ίδην cluster. Οξηζκόο: Cophenetic ζπληειεζηήο ζπζρέηηζεο, είλαη ην κέηξν ζπζρέηηζεο, αλάκεζα ζηηο απνζηάζεηο κεηαμχ ησλ αληηθεηκέλσλ θαη ζηηο απνζηάζεηο ζχλδεζεο ηνπο κέζα ζην δέληξν. Αλ Y= πίλαθαο αλνκνηφηεηαο κεηαμχ αληηθεηκέλσλ θαη Z= πίλαθαο πνπ πεξηέρεη ηηο απνζηάζεηο ζχλδεζεο κεηαμχ ησλ νκάδσλ, ηφηε ην κέηξν ζπζρέηηζεο αλάκεζα ζηα Y θαη Z είλαη: c = Y Ŷ Z Ẑ Y Ŷ Z Ẑ ή Y= Όπνπ Y ij ε απφζηαζε ηνπ αληηθεηκέλνπ i απφ ην j. Οη Rohlf θαη Fisher (1968), κειέηεζαλ ηελ θαηαλνκή απηνχ ηνπ είδνπο ζπζρέηηζεο, ππφ ηελ ππφζεζε φηη ηα άηνκα επηιέγνληαη ηπραία απφ κηα κφλν πνιπκεηαβιεηή θαλνληθή θαηαλνκή. Βξήθαλ φηη ε κέζε ηηκή ηνπ ζπληειεζηή, ηείλεη λα κεησζεί κε ην n θαη λα είλαη ζρεδφλ αλεμάξηεηε απφ ηνλ αξηζκφ ησλ κεηαβιεηψλ. Πξφηεηλαλ επίζεο φηη νη ηηκέο ηεο cophenetic ζπζρέηηζεο, πάλσ απφ 0.8 επαξθνχζαλ ζπλήζσο γηα λα απνξξίςνπλ ηελ κεδεληθή ππφζεζε. ε κηα κεηαγελέζηεξε αλαθνξά απφ ηνλ Rohlf (1970), δίλεηαη ε πξνεηδνπνίεζε: «αθφκα θαη κηα cophenetic ζπζρέηηζε θνληά ζην 0.9, δελ εγγπάηαη φηη ην δελδξφγξακκα, ρξεζηκεχεη ζαλ κηα αξθεηά θαιή πεξίιεςε ησλ phenetic ζρέζεσλ» Γηακεξίζεηο από κηα Ιεξαξρία: ην πξόβιεκα ηνπ αξηζκνύ ησλ νκάδσλ Δίλαη ζπρλή ε πεξίπησζε, φηαλ νη ηερληθέο ηεξαξρηθήο νκαδνπνίεζεο ρξεζηκνπνηνχληαη ζηελ πξάμε, ν εξεπλεηήο λα κελ ελδηαθέξεηαη γηα ηελ πιήξε ηεξαξρία, αιιά γηα 2 κφλν δηακεξίζεηο, πνπ ιακβάλνληαη απφ απηήλ. ηελ ηεξαξρηθή νκαδνπνίεζε, νη δηακεξίζεηο ιακβάλνληαη «θφβνληαο», έλα δελδξφγξακκα ή επηιέγνληαο κηα απφ ηηο 49

61 ιχζεηο ζηελ έλζεηε αθνινπζία νκαδνπνηήζεσλ πνπ απνηεινχλ ηελ πιήξε ηεξαξρηθή ηαμηλφκεζε. Ζ πξνζπάζεηα λα πξνζδηνξίζνπκε ηνλ θαηάιιειν αξηζκφ νκάδσλ, δειαδή ηελ θαηάιιειε δηακέξηζε δελ είλαη απιή. Μηα άηππε πξνζέγγηζε, πνπ ρξεζηκνπνηείηαη ζπρλά είλαη λα εμεηάζνπκε ην κέγεζνο ηεο δηαθνξάο, αλάκεζα ζηα επίπεδα ζπγρσλεχζεσλ ζην δελδξφγξακκα πνπ πξνθχπηεη. Έλαο αξηζκφο ζηαηηζηηθψλ ζηνηρείσλ είλαη δηαζέζηκνο γηα ηελ εθηίκεζε ηεο ιχζεο ησλ cluster θαη γηα ηνλ πξνζδηνξηζκφ ηνπ αξηζκνχ ησλ cluster. Σα πην επξέσο ρξεζηκνπνηνχκελα ζηαηηζηηθά είλαη: Μέζη ηεηπαγωνική ηςπική απόκλιζη ηος νέος cluster (RMSSTD). Σν RMSSTD, είλαη ε ζπγθεληξσηηθή (pooled) ηππηθή απφθιηζε φισλ ησλ κεηαβιεηψλ πνπ ζρεκαηίδνπλ ην cluster θαη ηζνχηαη: Pooled variance = _^ _^ Σν RMSSTD είλαη Αθνχ ζθνπφο ηεο αλάιπζεο ζπζηάδσλ, είλαη λα ζρεκαηίζεη νκνηνγελείο νκάδεο, ην RMSSTD ελφο cluster, ζα πξέπεη λα είλαη φζν ην δπλαηφλ πην κηθξφ. Μεγαιχηεξεο ηηκέο ηνπ RMSSTD, ππνδειψλνπλ φηη ην λέν cluster, κπνξεί λα κελ είλαη νκνηνγελέο θαη αληίζηξνθα. Όκσο δελ ππάξρνπλ νδεγίεο, γηα λα νξίζνπκε ηη είλαη «κηθξφ» θαη ηη «κεγάιν». Ημιμεπική R-ηεηπάγωνο (SPR). Όπσο αλαθέξακε πξνεγνπκέλσο, ην λέν cluster πνπ ζρεκαηίδεηαη ζε θάζε βήκα, ιακβάλεηαη ζπγρσλεχνληαο 2 cluster πνπ ζρεκαηίζηεθαλ ζε πξνεγνχκελα βήκαηα. Ζ δηαθνξά, αλάκεζα ζην ζπγθεληξσηηθφ SS w ηνπ λένπ cluster θαη ην άζξνηζκα ησλ ζπγθεληξσηηθψλ SS w ησλ cluster, πνπ ελψλνληαη γηα λα πάξνπκε ην λέν cluster, θαιείηαη απώιεηα ηεο νκνηνγέλεηαο. Αλ ε απψιεηα νκνηνγέλεηαο είλαη 0, ηφηε ην λέν cluster, ιακβάλεηαη ζπγρσλεχνληαο 2 ηέιεηα νκνηνγελή cluster. Απφ ηελ άιιε, αλ ε απψιεηα νκνηνγέλεηαο είλαη κεγάιε, ηφηε ην λέν cluster, ιακβάλεηαη ζπγρσλεχνληαο 2 εηεξνγελή cluster. Έηζη ην SPR, είλαη ε απψιεηα νκνηνγέλεηαο πνπ νθείιεηαη ζην ζπλδπαζκφ 2 νκάδσλ ή cluster, γηα λα ζρεκαηίζνπλ κηα λέα νκάδα ή cluster. Χο εθ ηνχηνπ, γηα κηα θαιή ιχζε ησλ cluster, ην SPR ζα πξέπεη λα είλαη ρακειφ. R-ηεηπάγωνο (RS) Ο RS, είλαη ν ιφγνο ηνπ SS b πξνο SS t. SS b, είλαη έλα κέηξν ηνπ βαζκνχ ζηνλ νπνίν, νη νκάδεο δηαθέξνπλ ε κηα απφ ηελ άιιε. Αθνχ SS t = SS b + SS w, φζν κεγαιχηεξν είλαη ην SS b ηφζν κηθξφηεξν είλαη ην SS w θαη αληίζηξνθα. πλεπψο γηα δνζκέλν ζχλνιν δεδνκέλσλ, φζν κεγαιχηεξεο είλαη νη δηαθνξέο κεηαμχ ησλ νκάδσλ, ηφζν νκνηνγελήο είλαη ε θάζε νκάδα θαη αληίζηξνθα. Έηζη ην RS κεηξά ην βαζκφ, ζηνλ νπνίν νη νκάδεο ή ηα cluster, δηαθέξνπλ ην έλα απφ ην άιιν. Δλαιιαθηηθά κπνξεί λα πεη θαλείο φηη κεηξά ην βαζκφ ζηνλ νπνίν, νη νκάδεο είλαη νκνηνγελείο. Ζ ηηκή ηνπ RS θπκαίλεηαη απφ 0 ζε 1, κε 0 λα κε δείρλεη θαζφινπ δηαθνξέο κεηαμχ νκάδσλ θαη 1 λα δείρλεη ηηο κέγηζηεο δηαθνξέο. 50

62 Απόζηαζη μεηαξύ 2 cluster. ηε κέζνδν centroid, απηφ είλαη απιά ε επθιείδεηα απφζηαζε κεηαμχ ησλ centroid ησλ 2 cluster, πνπ πξφθεηηαη λα ελσζνχλ θαη νλνκάδεηαη απφζηαζε centroid (CD). ηελ απιή ζχλδεζε είλαη ε ειάρηζηε επθιείδεηα απφζηαζε(mind) κεηαμχ φισλ ησλ πηζαλψλ δεπγψλ αληηθείκελσλ, γηα ηελ πιήξε ζχλδεζε είλαη ε κέγηζηε επθιείδεηα απφζηαζε (MAXD) κεηαμχ φισλ ησλ πηζαλψλ δεπγψλ αληηθείκελσλ θαη γηα ηε κέζνδν Ward, ην άζξνηζκα ησλ ηεηξαγψλσλ κεηαμχ- νκάδσλ γηα ηα 2 cluster. Πξνθαλψο ε CD πξέπεη λα είλαη κηθξή, γηα λα ζπγρσλεχζνπκε ηα 2 cluster. Μηα κεγάιε ηηκή γηα ηελ CD, ζα έδεηρλε φηη νη 2 αλφκνηεο νκάδεο ζα ζπγρσλεπζνχλ. Ο πίλαθαο 3.6 δίλεη κηα ζχλνςε ησλ παξαπάλσ ζηαηηζηηθψλ γηα ηελ εθηίκεζε ηεο ιχζεο ησλ cluster. Απηά ηα ζηαηηζηηθά κπνξνχλ, επίζεο λα ρξεζηκνπνηεζνχλ γηα ηνλ θαζνξηζκφ ηνπ αξηζκνχ ησλ cluster, ζην ζχλνιν δεδνκέλσλ. Οπζηαζηηθά θαλείο εμεηάδεη έλα κεγάιν άικα, ζηελ ηηκή ελφο ζπγθεθξηκέλνπ ζηαηηζηηθνχ ζηνηρείνπ. Θα κπνξνχζακε λα θάλνπκε δηάγξακκα ησλ ζηαηηζηηθψλ θαη λα ςάμνπκε γηα κηα «γσλία». Πίνακαρ 3.6 Σύλνςε ησλ ζηαηηζηηθώλ γηα ηελ εθηίκεζε ηεο ιύζεο ησλ cluster. ηαηηζηηθφ Έλλνηα πνπ κεηξάηαη ρφιηα RMSSTD SPR RS CD Οκνηνγέλεηα ηνπ λένπ cluster Οκνηνγέλεηα ησλ ζπγρσλεπκέλσλ cluster Δηεξνγέλεηα ησλ cluster. Δηεξνγέλεηα ησλ ζπγρσλεπκέλσλ cluster Ζ ηηκή ζα πξέπεη λα είλαη κηθξή Ζ ηηκή ζα πξέπεη λα είλαη κηθξή Ζ ηηκή ζα πξέπεη λα είλαη πςειή Ζ ηηκή ζα πξέπεη λα είλαη κηθξή Σν ζρήκα 3.10 δίλεη θάπνηα δηαγξάκκαηα ησλ RS, SPR, RMSSTD θαη CD. Δίλαη ζαθέο φηη ππάξρεη κηα κεγάιε κεηαβνιή ζηηο ηηκέο, θαηά ηελ κεηάβαζε απφ κηα ιχζε ησλ 3- cluster, ζε κηα ιχζε ησλ 2-cluster. πλεπψο θαίλεηαη λα ππάξρνπλ 3 cluster, ζην ζχλνιν δεδνκέλσλ. Δπηπιένλ ηα 3 cluster, είλαη θαιά δηαρσξηζκέλα φπσο ππνδειψλεη ην RS θαη ηα cluster, είλαη νκνηνγελή φπσο απνδεηθλχεηαη απφ ηε ρακειή ηηκή ησλ SPR, RMSSTD θαη CD. 51

63 (a) (b) Σρήκα 3.10 Γηαγξάκκαηα ησλ (a)spr θαη RS θαη (b)rmsstd θαη CD 3.14 Ακνηβαίνη Γείηνλεο Αιγόξηζκνο Αλαδήηεζεο Αιπζίδαο Ζ θχξηα δπζθνιία ζηελ θαηαζθεπή ελφο ηεξαξρηθνχ δέληξνπ, είλαη ν φγθνο ησλ ππνινγηζκψλ. Ο βαζηθφο αιγφξηζκνο, φπνπ νη θφκβνη ηνπ, θαηαζθεπάζηεθαλ έλαο- έλαο ζε θάζε βήκα ηνπ αιγνξίζκνπ, απαηηεί έλαλ αξηζκφ ππνινγηζκψλ θαη ζπγθξίζεσλ ησλ απνζηάζεσλ, ηεο ηάμεο ηνπ n 3, αλ ππάξρνπλ n ζεκεία γηα ηαμηλφκεζε. Νένη αιγφξηζκνη, κεηψλνπλ ζεκαληηθά ηνλ αξηζκφ ησλ πξάμεσλ. Ο φγθνο ησλ ππνινγηζκψλ, κπνξεί λα κεησζεί απφ n 3 ζε n 2, επηηξέπνληαο ηελ ηαμηλφκεζε αξθεηψλ ρηιηάδσλ ζεκείσλ, ζ έλα εχινγν ρξνληθφ δηάζηεκα. Απηνί ρξεζηκνπνηνχλ ηελ έλλνηα ησλ «ακνηβαίσλ γεηηφλσλ» πνπ εηζήρζεθαλ απφ ηνλ McQuality (1966). Οπιζμόρ : Γχν ζεκεία ή νκάδεο a θαη b, θαινχληαη ακνηβαίνη γείηνλεο, αλ ην a είλαη ν θνληηλφηεξνο γείηνλαο ηνπ b θαη ην b είλαη ν θνληηλφηεξνο γείηνλαο ηνπ a. ε θάζε βήκα ηνπ βαζηθνχ αιγνξίζκνπ, αληί λα ζπζζσξεχζνπκε κφλν ηνπο δχν θνληηλφηεξνπο γείηνλεο, δεκηνπξγνχληαη ηφζνη λένη θφκβνη, φζνη είλαη θαη νη ακνηβαίνη γείηνλεο. ην ηειηθφ βήκα, φια ηα ζεκεία ζπζζσξεχνληαη ζε κηα νκάδα θαη ην δέληξν νινθιεξψλεηαη. Σν πξφβιεκα πεξηνξίδεηαη ζηε ζπλέρεηα, ζε κηα απνδνηηθή αλαδήηεζε γηα ακνηβαίνπο γείηνλεο. Πεξηγξάθνπκε ηνλ αιγφξηζκν αλαδήηεζεο «αιπζίδαο» (Benzecri, 1982). Αιγόξηζκνο Βήκα 1: Ξεθηλάκε κε έλα ζηνηρείν πνπ νλνκάδεηαη x 1. Γεκηνπξγνχκε κηα αιπζίδα, ησλ δηαδνρηθψλ ζηνηρείσλ x 1, x 2,., x i-1, xi έηζη ψζηε γηα φια ηα i, x i είλαη έλαο θνληηλφηεξνο γείηνλαο ηνπ x i-1. Μηα ηέηνηα αιπζίδα, ζηακαηά απαξαηηήησο ζε έλα ζηνηρείν x k, φηαλ ν x k-1 52

64 είλαη ν θνληηλφηεξνο γείηνλαο ηνπ x k. Σφηε νη x k-1 θαη x k, είλαη ακνηβαίνη γείηνλεο. Απηνί ζπζζσξεχνληαη γηα λα ζρεκαηίζνπλ έλαλ θφκβν. Βήκα 2: Αλ k=2, δειαδή ε αιπζίδα, άξρηζε κε έλα ζηνηρείν πνπ έρεη έλαλ ακνηβαίν γείηνλα, επηιέγνπκε έλα θαηλνχξην ζηνηρείν, απ ην νπνίν θαηαζθεπάδεηαη κηα λέα αιπζίδα, πνπ ζηακαηά ζε λένπο ακνηβαίνπο γείηνλεο, ε ζπζζψξεπζε ησλ νπνίσλ θαηαιήγεη ζε λέν θφκβν. Βήκα 3: Αλ k>2, ε αλαδήηεζε γηα ακνηβαίνπο γείηνλεο ζπλερίδεηαη, επεθηείλνληαο ηελ αιπζίδα πνπ αξρίδεη κε x k-2. Ο αιγφξηζκνο ζηακαηά, κφιηο δεκηνπξγεζνχλ n-1 θφκβνη. Παξαηεξήζεηο: (α) Έρεη απνδεηρζεί, φηη ην κέγηζην θφζηνο ηνπ αιγνξίζκνπ αλαδήηεζεο αιπζίδαο είλαη an 2 (φπνπ a έλαο ζπληειεζηήο, αλεμάξηεηνο ηνπ n), αλεμάξηεηα απφ ηελ θαηάζηαζε ησλ n ζεκείσλ. (β) Πξνθεηκέλνπ, λα είκαζηε ζε ζέζε λα ρξεζηκνπνηήζνπκε ηνλ αιγφξηζκν αλαδήηεζεο αιπζίδαο, ε αιπζίδα πξέπεη λα είλαη επεθηάζηκε, πέξαλ ηνπ x k-2, φηαλ νη ακνηβαίνη γείηνλεο x k-1 θαη x k έρνπλ ζπζζσξεπηεί. Δίλαη επνκέλσο απαξαίηεην, απηή ε ζπζζψξεπζε λα κελ θαηαζηξέςεη ηελ ζρέζε θνληηλφηεξνπ γείηνλα, κεηαμχ ηνπ x i-1 θαη x i, πνπ ππήξρε απφ πξνεγνπκέλσο γηα i= 1, 2, k-2. Απηή ε δηαδηθαζία εμαζθαιίδεηαη, αλ ν λφκνο ζπζζψξεπζεο πνπ ρξεζηκνπνηείηαη γηα ηελ θαηαζθεπή ηνπ δέληξνπ δελ δεκηνπξγεί κηα αληηζηξνθή. Γελ ππάξρεη αληηζηξνθή, αλ ν θφκβνο g(a; b) πνπ δεκηνπξγείηαη απφ ηελ ζπζζψξεπζε ηνπ a θαη ηνπ b, δελ κπνξεί λα βξίζθεηαη πιεζηέζηεξα ζε θάπνην ζεκείν c, απ φηη ηα ζηνηρεία a θαη b. Απηή ε ζπλζήθε γξάθεηαη: Αλ d(a, b) < inf {d(a, c), d(b, c)} ηφηε inf { d(a, c), d(b, c)} < d(g[a; b], c) Γηαηξεηηθέο Ιεξαξρηθέο Μέζνδνη Οη δηαηξεηηθέο κέζνδνη, μεθηλνχλ κε νιφθιεξν ην ζχλνιν ησλ παξαηεξήζεσλ, πνπ ζεσξείηαη ζαλ έλα εληαίν cluster, θαη ην δηαζπνχλ ζε δχν ππφ- cluster. Σν έλα απφ απηά, ζηελ ζπλέρεηα δηαζπάηαη ζε πεξαηηέξσ ππφ cluster θαη νχησ θαζεμήο. Ζ απφθαζε ζρεηηθά κε ην πνην cluster, λα δηαζπάζνπκε θαη πψο λα ην δηαζπάζνπκε, βαζίδεηαη είηε ζηηο κεηαβιεηέο πνπ εμεηάδνληαη κία θάζε θνξά θαη πξαγκαηνπνηείηαη νκαδνπνίεζε κε βάζε απηήλ ηε κεηαβιεηή, είηε ζε φιεο ηηο κεηαβιεηέο πνπ εμεηάδνληαη ζπγρξφλσο. Οη πξψηεο νλνκάδνληαη κνλνζεηηθέο θαη νη ηειεπηαίεο πνιπζεηηθέο ηερληθέο. Παξαδείγκαηα κνλνζεηηθψλ ηερληθψλ, είλαη ε αλάιπζε ζπζρέηηζεο (Lambert θαη Williams, 1966 θαη MacNaughton- Smith,1965) θαη ν απηόκαηνο αληρλεπηήο αιιειεπίδξαζεο (Sonquist θαη Morgan, 1963,1964). Ζ αλάιπζε ζπζρέηηζεο, παίξλεη αληηθείκελα ηα νπνία έρνπλ κεηξεζεί ζε d δπαδηθέο κεηαβιεηέο, έηζη ψζηε θάζε κεηαβιεηή λα επηβάιιεη κηα δηρνηφκεζε ησλ αληηθεηκέλσλ (δειαδή θάζε κεηαβιεηή, δηαηξεί ην ζχλνιν ησλ αληηθεηκέλσλ ζε 2 θαηεγνξίεο: εθείλεο κε απνηέιεζκα 0 θη εθείλεο κε απνηέιεζκα 1 ζηηο κεηαβιεηέο). ηε ζπλέρεηα, αλαδεηνχληαη νη κεηαβιεηέο, γηα λα βξνπλ 53

65 εθείλε ηε δηρνηφκεζε πνπ κεγηζηνπνηεί θάπνην θξηηήξην αλνκνηφηεηαο. Έλα ζπλεζηζκέλν ^ θξηηήξην είλαη:, k = 1.., d. (φπνπ x jk 2, είλαη ν ζπληειεζηήο ζπζρέηηζεο ρ 2, αλάκεζα ζηηο κεηαβιεηέο x j θαη x k, πνπ ππνινγίδεηαη απφ ηνλ 2 2 πίλαθα ηεο πεξηζψξηαο ζπλάξηεζεο θαηαλνκήο.) Ζ δηάζπαζε γίλεηαη ζ εθείλν ην k, πνπ κεγηζηνπνηείηαη ην θξηηήξην. Ζ πξνζέγγηζε ηνπ απηφκαηνπ αληρλεπηή αιιειεπίδξαζεο, είλαη παξφκνηα, εθηφο απφ ην φηη απηή επηβάιιεη κηα δπαδηθή δηάζπαζε, ζηηο πνιπρνηνκηθέο κεηαβιεηέο (βξίζθνληαο εθείλν ην ζεκείν δηάζπαζεο πνπ κεγηζηνπνηεί ην θξηηήξην) θαη ην θξηηήξην είλαη ζπλήζσο ην άζξνηζκα ησλ ηεηξαγψλσλ κηαο εμαξηεκέλεο κεηαβιεηήο. (δειαδή ην άζξνηζκα ησλ ηεηξαγψλσλ, ησλ αληηθεηκέλσλ απφ ηνπο αληίζηνηρνπο κέζνπο νκάδσλ). Μηα άξηζηε θαη ζχληνκε πεξηγξαθή, απηνχ ηνπ είδνπο πξνζέγγηζεο, δίλεηαη ζηνλ Fielding(1977). Έλα παξάδεηγκα κηαο πνιπζεηηθήο ηερληθήο, πξνέξρεηαη απφ ηνλ MacNaughton- Smith et al.(1964). Σα αληηθείκελα κεηαθέξνληαη ζηαδηαθά, απφ ην θχξην cluster, ζε έλα ππφ-cluster, επηιέγνληαο γηα κεηαθνξά ζε θάζε βήκα εθείλν ην αληηθείκελν, ηνπ νπνίνπ ε αλνκνηφηεηα απφ ην θχξην cluster, κείνλ ηελ αλνκνηφηεηα ηνπ απφ ην ππφ- cluster, είλαη κέγηζηε. Ζ κεηαθνξά απηή ζηακαηά, φηαλ φια ηα ππφινηπα αληηθείκελα ηνπ θχξηνπ cluster, είλαη πεξηζζφηεξν φκνηα κε ηελ θχξηα νκάδα, απ φηη κε ηελ ππννκάδα. Όηαλ ζπκβεί απηφ, νη 2 ππννκάδεο, δηαζπψληαη κε ηνλ ίδην ηξφπν. Ο ζπληειεζηήο αλνκνηφηεηαο, πνπ πξνηάζεθε απφ ηνλ MacNaughton- Smith et al. ήηαλ σο εμήο (γηα δπαδηθέο κεηαβιεηέο): έζησ x Aj είλαη ην πνζνζηφ ησλ αληηθεηκέλσλ ζηελ νκάδα Α πνπ θέξεη απνηέιεζκα 1 ζηε κεηαβιεηή j θαη έζησ x Bj είλαη ην αληίζηνηρν πνζνζηφ ζηελ νκάδα Β. Σφηε ε αλνκνηφηεηα αλάκεζα ζηηο νκάδεο Α θαη Β είλαη: }, φπνπ ην x jk ππνινγίδεηαη γηα ηε ζπλδπαζκέλε νκάδα Α + Β. Πξνηείλεηαη δνθηκαζηηθά φηη γηα πνζνηηθά δεδνκέλα, ζα κπνξνχζε λα επεθηείλεη θαλείο απηφλ ηνλ ζπληειεζηή ζε }. Δπίζεο νη Kauffman θαη Rousseeuw (1990), πξφηεηλαλ γηα ηελ δηάζπαζε ζε θάζε επίπεδν, ηελ επηινγή ηνπ cluster κε ηε κεγαιχηεξε δηάκεηξν. Μηα ελαιιαθηηθή ζα ήηαλ λα επηιέμνπκε εθείλν κε ηελ κεγαιχηεξε κέζε αλνκνηφηεηα κεηαμχ ησλ κειψλ ηνπ. Ζ αλαδξνκηθή δηάζπαζε, ζπλερίδεηαη, έσο φηνπ ηα cluster, είηε γίλνπλ κνλήξε, είηε φια ηα ζηνηρεία ηνπ θαζελφο, έρνπλ κεδεληθή αλνκνηφηεηα κεηαμχ ηνπο. 54

66 ΚΕΥΑΛΑΙΟ 4 Μη Ιεπαπχικέρ Μέθοδοι Ομαδοποίηζηρ ηελ κε ηεξαξρηθή νκαδνπνίεζε, ηα δεδνκέλα δηαηξνχληαη ζε k δηακεξίζεηο ή νκάδεο, κε θάζε δηακέξηζε λα αληηπξνζσπεχεη έλα cluster. ε αληίζεζε κε ηελ ηεξαξρηθή νκαδνπνίεζε, ν αξηζκφο ησλ cluster k, κπνξεί είηε λα δηεπθξηληζηεί εθ ησλ πξνηέξσλ, είηε λα θαζνξηζηεί ζαλ κέξνο ηεο δηαδηθαζίαο νκαδνπνίεζεο. Δπεηδή, δελ είλαη απαξαίηεην λα θαζνξηζηεί έλαο πίλαθαο απνζηάζεσλ (νκνηνηήησλ) κεηαμχ ησλ αληηθεηκέλσλ πνπ ζέινπκε λα νξγαλψζνπκε ζε ζπζηάδεο θαη ηα βαζηθά δεδνκέλα, δελ ρξεηάδεηαη λα απνζεθεπηνχλ ζηνλ ππνινγηζηή θαηά ην ηξέμηκν ηνπ αιγνξίζκνπ, νη κε ηεξαξρηθέο κέζνδνη κπνξνχλ λα εθαξκνζηνχλ ζε πνιχ κεγαιχηεξν φγθν δεδνκέλσλ, απ φηη νη ηεξαξρηθέο κέζνδνη. Οη ηερληθέο κε ηεξαξρηθήο νκαδνπνίεζεο, βαζηθά αθνινπζνχλ ηα αθφινπζα βήκαηα: 1. Δπηιέγνπκε k αξρηθά θεληξνεηδή ησλ cluster ή θνκβηθά ζεκεία (seed points), φπνπ k είλαη ν επηζπκεηφο αξηζκφο cluster. 2. Αλαζέηνπκε θάζε παξαηήξεζε ζην cluster, ζην νπνίν απηή είλαη ε πιεζηέζηεξε. 3. Αλαζέηνπκε εθ λένπ ή αλαθαηαλέκνπκε θάζε παξαηήξεζε, ζ έλα απφ ηα k cluster, ζχκθσλα κε έλαλ πξνθαζνξηζκέλν θαλφλα ηεξκαηηζκνχ. 4. ηακαηάκε αλ δελ ππάξρεη θακία αλαθαηαλνκή ησλ ζεκείσλ ή αλ ε αλαθαηαλνκή ηθαλνπνηεί ην ζχλνιν ησλ θξηηεξίσλ, απ ηνλ θαλφλα ηεξκαηηζκνχ. Αιιηψο πεγαίλνπκε ζην βήκα 2. Οη κε ηεξαξρηθέο κέζνδνη αξρίδνπλ, είηε (1) απφ κηα αξρηθή δηακέξηζε ησλ αληηθεηκέλσλ ζε νκάδεο είηε (2) απφ έλα αξρηθφ ζχλνιν θνκβηθψλ ζεκείσλ (seed points) πνπ ζα δηακνξθψζνπλ ηνλ ππξήλα ησλ ζπζηάδσλ. Καιέο επηινγέο γηα ηηο αξρηθέο ζπλζήθεο ζα πξέπεη λα είλαη ακεξφιεπηεο, έηζη κηα θαιή επηινγή κπνξεί λα είλαη κηα ηπραία επηινγή αξρηθψλ θνκβηθψλ ζεκείσλ ή έλαο ηπραίνο δηαρσξηζκφο ησλ αληηθεηκέλσλ ζε αξρηθέο νκάδεο. Οη πεξηζζφηεξνη απφ ηνπο κε ηεξαξρηθνχο αιγνξίζκνπο, δηαθέξνπλ ζε ζρέζε κε: 1. Σε κέζνδν πνπ ρξεζηκνπνηήζεθε γηα ηελ απφθηεζε ησλ αξρηθψλ centroids ησλ cluster ή ησλ θνκβηθψλ ζεκείσλ θαη 2. Σνλ θαλφλα πνπ ρξεζηκνπνηήζεθε γηα ηελ αλαθαηαλνκή ησλ παξαηεξήζεσλ. Κάπνηεο απφ ηηο κεζφδνπο πνπ ρξεζηκνπνηήζεθαλ, γηα λα πάξνπκε αξρηθά θνκβηθά ζεκεία είλαη: 1. Δπηιέγνπκε ηηο k πξψηεο παξαηεξήζεηο κε κε ειιηπή δεδνκέλα, ζαλ centroids ή θνκβηθά ζεκεία γηα ηα αξρηθά cluster. 2. Δπηιέγνπκε ηελ πξψηε κε ειιηπή παξαηήξεζε, ζαλ θνκβηθφ ζεκείν γηα ην 1 ν cluster. Σν θνκβηθφ ζεκείν γηα ην 2 ν cluster επηιέγεηαη, έηζη ψζηε ε απφζηαζε ηνπ απφ ην πξνεγνχκελν θνκβηθφ ζεκείν, λα είλαη κεγαιχηεξε απφ κηα θαζνξηζκέλε απφζηαζε πνπ έρεη νξηζηεί. Σν 3 ν θνκβηθφ ζεκείν επηιέγεηαη, έηζη ψζηε ε απφζηαζε ηνπ απφ ηα πξνεγνχκελα θνκβηθά ζεκεία πνπ επηιέρζεθαλ, λα είλαη κεγαιχηεξε απφ ηελ θαζνξηζκέλε απφζηαζε θαη νχησ θαζεμήο. 3. Δπηιέγνπκε ηπραία, k κε ειιηπείο παξαηεξήζεηο ζαλ θέληξα clusters ή θνκβηθά ζεκεία. 55

67 4. Βειηηψλνπκε ηα θνκβηθά ζεκεία πνπ επηιέρζεθαλ, ρξεζηκνπνηψληαο νξηζκέλνπο θαλφλεο, έηζη ψζηε απηά λα είλαη φζν ην δπλαηφλ πην απνκαθξπζκέλα. 5. Υξεζηκνπνηνχκε κηα επξεηηθή πνπ πξνζδηνξίδεη ηα θέληξα ησλ cluster, έηζη ψζηε λα είλαη φζν ην δπλαηφλ πην απνκαθξπζκέλα. 6. Υξεζηκνπνηνχκε θνκβηθά ζεκεία, πξνκεζεπκέλα απφ ηνλ εξεπλεηή. Μφιηο πξνζδηνξηζηνχλ ηα θνκβηθά ζεκεία, ζρεκαηίδνληαη ηα αξρηθά cluster, αλαζέηνληαο θάζε κηα απφ ηηο ππφινηπεο n-k παξαηεξήζεηο, ζην θνκβηθφ εθείλν ζεκείν, ζην νπνίν ε παξαηήξεζε είλαη πιεζηέζηεξε. Οη κε ηεξαξρηθνί αιγφξηζκνη δηαθέξνπλ επίζεο, φζνλ αθνξά ηε δηαδηθαζία πνπ ρξεζηκνπνηνχλ γηα ηελ αλαθαηαλνκή ησλ αληηθεηκέλσλ ζε k cluster. Κάπνηνη απφ ηνπο θαλφλεο αλαθαηαλνκήο είλαη: 1. Τπνινγίδνπκε ην centroid ηνπ θάζε cluster θαη αλαζέηνπκε εθ λένπ ηα αληηθείκελα, ζ εθείλν ην cluster κε ην πιεζηέζηεξν centroid. Σα centroid δελ ελεκεξψλνληαη, θαζψο αλαζέηνπκε θάζε παξαηήξεζε ζηα k cluster. Απηά ππνινγίδνληαη εθ λένπ, αθνχ έρεη γίλεη ε αλάζεζε φισλ ησλ παξαηεξήζεσλ. Αλ ε κεηαβνιή ζηα centroid ησλ cluster, είλαη κεγαιχηεξε απφ έλα θξηηήξην ζχγθιηζεο πνπ νξίζηεθε, ηα centroid επαλαπξνζδηνξίδνληαη. Ζ δηαδηθαζία αλαθαηαλνκήο ζπλερίδεηαη, κέρξη ε κεηαβνιή ησλ centroid λα είλαη κηθξφηεξε, απφ ην θαζνξηζκέλν θξηηήξην ζχγθιηζεο. 2. Τπνινγίδνπκε ην centroid ηνπ θάζε cluster θαη αλαζέηνπκε εθ λένπ ηα αληηθείκελα, ζην cluster κε ην πιεζηέζηεξν centroid. Γηα ηελ αλάζεζε θάζε παξαηήξεζεο, ππνινγίδνπκε εθ λένπ ην centroid ηνπ cluster, ζην νπνίν θαηαρσξείηαη ε παξαηήξεζε θαη ηνπ cluster, απ ην νπνίν απνδίδεηαη ε παξαηήξεζε. Ζ εθ λένπ αλάζεζε ζπλερίδεηαη μαλά, κέρξη ε κεηαβνιή ζηα centroid ησλ cluster, λα γίλεη κηθξφηεξε απφ ην θαζνξηζκέλν θξηηήξην ζχγθιηζεο. 3. Σνπνζεηνχκε εθ λένπ ηηο παξαηεξήζεηο, έηζη ψζηε λα ειαρηζηνπνηείηαη θάπνην ζηαηηζηηθφ θξηηήξην. Απηέο νη κέζνδνη, αλαθέξνληαη ζπρλά, ζαλ κέζνδνη hill- climbing. Κάπνηεο απφ ηηο αληηθεηκεληθέο ζπλαξηήζεηο ή ζηαηηζηηθά θξηηήξηα, πνπ κπνξεί λα ειαρηζηνπνηεζνχλ πεξηγξάθνληαη ζηε ζπλέρεηα. 4.1 Σηαηηζηηθά Κξηηήξηα Βειηηζηνπνίεζεο ηελ απφθαζε, πνην θξηηήξην λα ρξεζηκνπνηήζνπκε ζε κηα κέζνδν βειηηζηνπνίεζεο, πξέπεη λα δνζεί ηδηαίηεξε πξνζνρή ζηηο δνκέο ησλ cluster, πνπ επηζπκείηαη λα αληρλεπζνχλ. Ο ιφγνο γη απηφ, είλαη απιά φηη δηαθνξεηηθά θξηηήξηα, βειηηζηνπνηνχληαη απφ δηαθνξεηηθά ζρήκαηα ησλ cluster. Πξέπεη λα πξνζέρνπκε ινηπφλ, ψζηε λα κελ επηβιεζεί κηα αλχπαξθηε δνκή ζηα δεδνκέλα. Μηα πξαθηηθή πξφηαζε είλαη, φηη θαζψο εμεξεπλνχκε ηα δεδνκέλα γηα πηζαλά cluster, ζα πξέπεη λα δνθηκαζηνχλ πνιιέο δηαθνξεηηθέο ηερληθέο. ηελ πνιπκεηαβιεηή πεξίπησζε, έρνπλ πξνηαζεί πνιιά θξηηήξηα νκαδνπνίεζεο, αιιά ην πην ζπρλά ρξεζηκνπνηνχκελν πξνθχπηεη, εμεηάδνληαο ηνπο 3 παξαθάησ πίλαθεο, πνπ κπνξνχλ λα ππνινγηζηνχλ, γηα θάζε ζπγθεθξηκέλε δηακέξηζε ησλ δεδνκέλσλ ζε g νκάδεο: 56

68 g n 1 T ( x x)( x x) n i 1 j 1 ij g n 1 i W ( xij x j )( xij x j ) n g i 1 j 1 g i1 ij (1) n ( xi x)( xi x) i Όπνπ x ij είλαη ην δηάλπζκα ησλ ηηκψλ ηεο κεηαβιεηήο γηα ηελ j- νζηή παξαηήξεζε ζηελ i- νκάδα, είλαη ηνπ δηάλπζκα ηνπ κέζνπ φισλ ησλ n παξαηεξήζεσλ, i είλαη ην δηάλπζκα ηνπ κέζνπ ησλ παξαηεξήζεσλ ζηελ i- νκάδα θαη n i ν αξηζκφο ησλ παξαηεξήζεσλ ζηελ i- νκάδα. Οη 3 απηνί p p πίλαθεο ηθαλνπνηνχλ ηελ εμίζσζε: T = W + B (2) θαη αληηπξνζσπεχνπλ αληίζηνηρα πίλαθεο δηαζπνξψλ. Πην ζπγθεθξηκέλα, ν Σ κπνξεί λα ζεσξεζεί πσο είλαη ν πίλαθαο νιηθήο δηαζπνξάο, πνπ πεξηγξάθεη ηελ νιηθή απφθιηζε φισλ ησλ ζεκείσλ παξαηήξεζεο, απ ηνλ νιηθφ κέζν, ν W είλαη ν πίλαθαο δηαζπνξάο ζην εζσηεξηθφ ηεο νκάδαο, πνπ δίλεη ηελ απφθιηζε ησλ ζεκείσλ παξαηήξεζεο απ ηα κέζα ησλ cluster ηνπο θαη Β είλαη έλα ζηαζκηζκέλν άζξνηζκα, πνπ πεξηγξάθεη ηελ δηαζπνξά κεηαμχ ησλ νκάδσλ ππνινγίδνληαο ηελ απφθιηζε ησλ κέζσλ ησλ cluster, απφ ηνλ νιηθφ κέζν. Γηα p=1 φηαλ T,B θαη W είλαη κνλνδηάζηαηα κεγέζε, είλαη απιφο ν δηαρσξηζκφο ηνπ ζπλνιηθνχ αζξνίζκαηνο ηεηξαγψλσλ κηαο κεηαβιεηήο, ζε αζξνίζκαηα ηεηξαγψλσλ ζην εζσηεξηθφ ηεο νκάδαο θαη αζξνίζκαηα ηεηξαγψλσλ κεηαμχ νκάδσλ, πξάγκα νηθείν κε κηα αλάιπζε δηαζπνξάο θαηά έλα παξάγνληα. απηήλ ηελ πεξίπησζε, έλα θπζηθφ θξηηήξην νκαδνπνίεζεο είλαη, λα επηιέμνπκε ηε δηακέξηζε πνπ αληηζηνηρεί ζηελ ειάρηζηε ηηκή ηνπ αζξνίζκαηνο ηεηξαγψλσλ ζην εζσηεξηθφ ηεο νκάδαο ή ηζνδχλακα ζηε κέγηζηε ηηκή ηνπ αζξνίζκαηνο ηεηξαγψλσλ κεηαμχ ησλ νκάδσλ. Καηά κηα έλλνηα ινηπφλ, ζθνπφο ησλ κεζφδσλ βειηηζηνπνίεζεο πνπ βαζίδνληαη ζηελ παξαπάλσ ηαπηφηεηα (2) είλαη λα κεγηζηνπνηήζνπκε ην Β ή λα ειαρηζηνπνηήζνπκε ην W. Γηα p>1 έρεη πξνηαζεί έλαο αξηζκφο θξηηεξίσλ, πνπ βαζίδνληαη ζηελ ηαπηφηεηα (2) θαη παξαηεξνχκε πσο έλαο ηξφπνο λα εμάγνπκε έλα ρξήζηκν κνλνκεηαβιεηφ δείθηε απ ηελ εμίζσζε (1), είλαη λα ρξεζηκνπνηήζνπκε ην ίρλνο ηνπ W (ζπκβνιίδεηαη κε trw, θαη είλαη ην άζξνηζκα ησλ δηαγψλησλ ζηνηρείσλ ηνπ W). Έρνπκε ινηπφλ: Κπιηήπιο C1: Διαρηζηνπνίεζε ηνπ trw g n 1 i trw tr[ ( xij x j )( xij x j ) ] n g i 1 j 1 = 1 g n i ( xij xj ) ( xij x j ) n g i 1 j 1 g n 1 i tr( xij x j )( xij x j ) n g = i 1 j 1 Έηζη ην trw ηαπηίδεηαη, κε ην άζξνηζκα ησλ ηεηξαγσληθψλ απνθιίζεσλ ησλ κέζσλ ησλ cluster, απ ηα ζεκεία παξαηήξεζεο. 57

69 Μηα πξνθαλήο επέθηαζε ηεο ειαρηζηνπνίεζεο ηνπ θξηηεξίνπ αζξνίζκαηνο ηεηξαγψλσλ ζην εζσηεξηθφ ηεο νκάδαο, πνπ εθαξκφδεηαη γηα p=1, είλαη ε ειαρηζηνπνίεζε ηνπ αζξνίζκαηνο ησλ αζξνηζκάησλ ηεηξαγψλσλ ζην εζσηεξηθφ ηεο νκάδαο γηα θάζε κεηαβιεηή, δειαδή ε ειαρηζηνπνίεζε ηνπ trw. Σν θξηηήξην απηφ ρξεζηκνπνηείηαη ζπλήζσο, αλ θαη πάζρεη απφ θάπνην κεηνλέθηεκα: δελ είλαη ακεηάβιεην, σο πξνο ηελ θιίκαθα ησλ αμφλσλ, έηζη ψζηε λα ιακβάλνληαη δηαθνξεηηθά απνηειέζκαηα γηα ηππνπνηεκέλα θαη κε- ηππνπνηεκέλα δεδνκέλα θαζψο επίζεο θαη επηβάιιεη κηα «ζθαηξηθή» δνκή ζηα δεδνκέλα. Κπιηήπιο C2: Διαρηζηνπνίεζε ηεο νξίδνπζαο ηνπ W, W ηελ πνιπκεηαβιεηή αλάιπζε δηαζπνξάο, έλαο απφ ηνπο ζηαηηζηηθνχο ειέγρνπο γηα ηελ εθηίκεζε ησλ δηαθνξψλ, ζηα δηαλχζκαηα ηνπ κέζνπ νκάδσλ, είλαη ν ιφγνο ησλ νξηδνπζψλ ησλ πηλάθσλ δηαζπνξάο ζην εζσηεξηθφ ηεο νκάδαο θαη ηεο νιηθήο δηαζπνξάο. Μεγάιεο ηηκέο ηνπ ^_ δείρλνπλ φηη ηα δηαλχζκαηα ησλ κέζσλ νκάδαο πξάγκαηη ^_ δηαθέξνπλ. Σέηνηεο εθηηκήζεηο, νδήγεζαλ ηνπο Friedman θαη Rubin (1967), λα πξνηείλνπλ ζαλ θξηηήξην νκαδνπνίεζεο ηελ κεγηζηνπνίεζε απηνχ ηνπ ιφγνπ. Αθνχ γηα φιεο ηηο δηακεξίζεηο ησλ n αηφκσλ ζε g νκάδεο, ν Σ παξακέλεη ν ίδηνο, ε κεγηζηνπνίεζε ηνπ ηζνδπλακεί κε ηελ ειαρηζηνπνίεζε ηεο det(w). Σν ηδηαίηεξν απηφ θξηηήξην, έρεη κειεηεζεί ιεπηνκεξψο απφ ηνλ Marriott. Ζ ειαρηζηνπνίεζε ηεο det(w) έρεη ην πιενλέθηεκα λα είλαη ακεηάβιεηεο θιίκαθαο, αιιά αθφκα θη αλ δελ επηβάιιεη κηα ζθαηξηθή δνκή ζηα δεδνκέλα, ππνζέηεη πσο φια ηα cluster, έρνπλ ην ίδην ζρήκα. Άιια ακεηάβιεηα θξηηήξηα, έρνπλ ρξεζηκνπνηήζεη ηηο ηδηνηηκέο ηνπ πίλαθα W -1 B. Αθνχ ε i- ηδηνηηκή ι i, είλαη ίζε κε ην ιφγν (δηαζπνξά κεηαμύ ησλ cluster) / (δηαζπνξά κέζα ζην cluster) ζηελ θαηεχζπλζε ηνπ i-ηδηνδηαλχζκαηνο, είλαη πξνθαλή ε ινγηθή πίζσ απφ ηέηνηεο κεζφδνπο. Πξνθαλέο είλαη επίζεο ην γεγνλφο, φηη ην πνιχ g-1 απ ηηο ηδηνηηκέο ζα είλαη κε- κεδεληθέο, έηζη ψζηε θξηηήξηα φπσο ην λα κελ είλαη πνιχ ρξήζηκα. Άιια θξηηήξηα πνπ πξνηάζεθαλ είλαη: Κπιηήπιο C3: 1 trw B i p i1 trt W 1 Κπιηήπιο C4: p i1 1 1 i 58

70 4.2 Αιγόξηζκνη Βειηηζηνπνίεζεο Έρνληαο επηιέμεη θάπνην θαηάιιειν θξηηήξην νκαδνπνίεζεο, ε δηαδηθαζία βειηηζηνπνίεζεο, ζα θαηλφηαλ ζρεηηθά απιή: εμεηάδνπκε θάζε δηακέξηζε ησλ n αηφκσλ ζε g νκάδεο, θαη επηιέγνπκε ηε κία κε ηελ βέιηηζηε ηηκή. Γπζηπρψο, ν αξηζκφο ησλ δηακεξίζεσλ Ν, ησλ n αηφκσλ ζε g νκάδεο, γίλεηαη γξήγνξα πάξα πνιχ κεγάινο γηα λα εμεηαζηεί θαη ε απιή απηή κέζνδνο είλαη εληειψο αδχλαηε. Γηα παξάδεηγκα: n g N Ο Anderberg (1973), δίλεη ηνλ αξηζκφ, ησλ πηζαλψλ δηακεξίζεσλ ησλ n αληηθεηκέλσλ ζε c θαηεγνξίεο σο εμήο: c 1 ic n ( 1) ( c i ). Έηζη γηα παξάδεηγκα ππάξρνπλ 10 c! i 0 i 30 δπλαηέο δηακεξίζεηο ησλ 100 αληηθεηκέλσλ ζε 2 θαηεγνξίεο. Σν αθαηφξζσην ηεο εμέηαζεο, θάζε δπλαηήο δηακέξηζεο, έρεη νδεγήζεη ζηελ αλάπηπμε αιγνξίζκσλ, πνπ ζρεδηάζηεθαλ γηα ηελ αλαδήηεζε ηεο βέιηηζηεο ηηκήο, ελφο θξηηεξίνπ νκαδνπνίεζεο, αλαδηαηάζζνληαο ηηο ππάξρνπζεο δηακεξίζεηο θαη θξαηψληαο ηε λέα, αλ απηή εμαζθαιίδεη κηα βειηίσζε. Απηφ επνκέλσο, είλαη απαξαίηεην, είηε γηα λα βξνχκε κηα πην απνηειεζκαηηθή κέζνδν απ ηελ εμαληιεηηθή αλαδήηεζε, ή γηα λα πεξηνξίζνπκε ηελ αλαδήηεζε, ζ έλα κφλν κέξνο ηνπ ρψξνπ ησλ δηακεξίζεσλ. Πνιιέο απφ ηηο κεζφδνπο πνπ πξνηάζεθαλ, βαζίδνληαη ζηελ αλαδηαηχπσζε ηνπ πξνβιήκαηνο, έηζη ψζηε λα γίλεη θαηάιιειν γηα πξνζεγγίζεηο καζεκαηηθνχ πξνγξακκαηηζκνχ. Σα νπζηψδε βήκαηα ελφο ηέηνηνπ αιγνξίζκνπ hill- climbing είλαη: Βξίζθνπκε θάπνηα αξρηθή δηακέξηζε ησλ αληηθεηκέλσλ ζηνλ απαηηνχκελν αξηζκφ νκάδσλ. Τπνινγίδνπκε ηελ κεηαβνιή πνπ πξνθχπηεη ζην θξηηήξην νκαδνπνίεζεο, κεηαθηλψληαο θάζε αληηθείκελν απ ην δηθφ ηνπ cluster ζ έλα άιιν. Κάλνπκε ηελ αιιαγή πνπ νδεγεί ζηελ κεγαιχηεξε βειηίσζε ηεο ηηκήο ηνπ θξηηεξίνπ. Δπαλαιακβάλνπκε ηα 2 πξνεγνχκελα βήκαηα, έσο φηνπ, θακία θίλεζε ελφο θαη κφλνπ αηφκνπ, δελ αλαγθάζεη ην θξηηήξην λα βειηησζεί. Όπσο παξνπζηάδεηαη ζηε ζπλέρεηα, κπνξεί λα αλαπηπρζεί κηα πνηθηιία αιγνξίζκσλ νκαδνπνίεζεο, βαζηζκέλε ζην ζπλδπαζκφ ησλ αξρηθψλ δηακεξίζεσλ θαη ηνπ θαλφλα αλαθαηαλνκήο. Σξία δεκνθηιή είδε κε ηεξαξρηθψλ αιγνξίζκσλ, ζπδεηνχληαη θαη επεμεγνχληαη, ρξεζηκνπνηψληαο ηα ππνζεηηθά δεδνκέλα ηεο παξαγξάθνπ 1.3. Γηα επεμεγεκαηηθνχο ιφγνπο, ππνζέηνπκε φηη επηζπκνχκε 3 cluster θη φηη έρεη νξηζηεί έλα θξηηήξην ζχγθιηζεο ηνπ

71 4.3 Αιγόξηζκνο Ι Ο αιγφξηζκνο απηφο, επηιέγεη ηηο k πξψηεο παξαηεξήζεηο, ζαλ θέληξα ησλ cluster. Γηα ην παξφλ παξάδεηγκα, νη πξψηεο 3 παξαηεξήζεηο επηιέγνληαη ζαλ θνκβηθά ζεκεία ή centroids ησλ cluster. Ο πίλαθαο 4.1 δίλεη, ηα αξρηθά centroid ησλ cluster, ηελ ηεηξαγσληθή επθιείδεηα απφζηαζε θάζε παξαηήξεζεο απ ην centroid ηνπ θάζε cluster, θαη ηελ αλάζεζε θάζε παξαηήξεζεο. Πίνακαρ 4.1 Αξρηθά centroid ησλ cluster, Απόζηαζε απ ηα centroid ησλ cluster θαη αξρηθή αλάζεζε ησλ παξαηεξήζεσλ. Απσικά centroid ηων cluster Cluster Μεηαβιεηή Δηζφδεκα Δθπαίδεπζε Απόζηαζη απ ηα centroid ηων cluster και απσική ανάθεζη ηων παπαηηπήζεων. Απόζηαζε απ ηα centroid ησλ cluster Παξαηήξεζε Αλάζεζε ζηα cluster S S S S S S To επφκελν βήκα, είλαη λα ππνινγίζνπκε ην centroid ηνπ θάζε cluster, πνπ δίλεηαη ζηνλ πίλαθα 4.2 θαη ε κεηαβνιή ζηα centroid ησλ cluster, αλαθέξεηαη επίζεο ζηνλ πίλαθα. Πίνακαρ 4.2 Centroid ησλ 3 cluster θαη κεηαβνιή ζηα centroid ησλ cluster. Clusters Μεηαβιεηή Centroid ησλ cluster Δηζφδεκα Δθπαίδεπζε Μεηαβιεηή Μεηαβνιή ζηα centroid ησλ cluster Δηζφδεκα Δθπαίδεπζε Clusters Γηα παξάδεηγκα, ε κεηαβνιή ζην centroid ηνπ cluster 3, ζχκθσλα κε ην εηζφδεκα είλαη 6.5 ( ). Δπεηδή ε κεηαβνιή ζηα θνκβηθά ζεκεία ησλ cluster, είλαη κεγαιχηεξε απφ ην θξηηήξην ζχγθιηζεο 0.02, γίλεηαη κηα αλαθαηαλνκή ησλ παξαηεξήζεσλ ζηελ επφκελε επαλάιεςε. 60

72 Οη παξαηεξήζεηο, ηνπνζεηνχληαη εθ λένπ ππνινγίδνληαο ηελ απφζηαζε θάζε παξαηήξεζεο απφ ην centroid. Ο πίλαθαο 4.3 δίλεη ηελ εθ λένπ ππνινγηζκέλε απφζηαζε, ηελ πξνεγνχκελε αλάζεζε θαη εθ λένπ αλάζεζε θάζε παξαηήξεζεο θαη ηα centroid ησλ cluster. Πίνακαρ 4.3 Απόζηαζε από ηα Centroid θαη Πξώηε εθ λένπ Αλάζεζε ησλ παξαηεξήζεσλ ζηα cluster. Απ ΠαξΠΠαξαηήξεζε S1 S2 S3 S4 S5 S6 Απόζηαζε απ ηα cluster Αλάζε Αλάζεζε ζηα cluster πξνεγνύκελε Μ Αλαθαηαλνκή Όπσο κπνξεί λα δηαπηζησζεί, θακηά απφ ηηο παξαηεξήζεηο δελ αλαθαηαλέκεηαη ζηε ζπλέρεηα, θαη ε κεηαβνιή ζηα centroid ησλ cluster είλαη 0. πλεπψο δελ γίλνληαη πεξηζζφηεξεο αλαθαηαλνκέο θαη ε ηειηθή ιχζε ησλ 3- cluster, απνηειείηαη απφ 1 cluster πνπ πεξηέρεη 4 παξαηεξήζεηο θαη ηα ππφινηπα 2 cluster, πνπ έρνπλ κία παξαηήξεζε ην θαζέλα. 4.4 Αιγόξηζκνο ΙΙ Απηφο ν αιγφξηζκνο δηαθέξεη απφ ηνλ αιγφξηζκν Ι, ζε ζρέζε κε ην πψο ηξνπνπνηνχληαη ηα αξρηθά θνκβηθά ζεκεία. Οη 3 πξψηεο παξαηεξήζεηο, επηιέρηεθαλ ζαλ ηα θνκβηθά ζεκεία ησλ cluster. ηε ζπλέρεηα, θάζε κηα απ ηηο ππφινηπεο παξαηεξήζεηο, εθηηκάηαη γηα λα θαζνξηζηεί, αλ κπνξεί λα αληηθαηαζηήζεη θάπνηα απφ ηα πξνεγνχκελα θνκβηθά ζεκεία, πνπ επηιέρηεθαλ, ζχκθσλα κε ηνλ αθφινπζν θαλφλα: ην θνκβηθφ ζεκείν πνπ είλαη ππνςήθην γηα αληηθαηάζηαζε, είλαη έλα απ ηα 2 θνκβηθά ζεκεία (δεχγνο) πνπ είλαη πιεζηέζηεξα κεηαμχ ηνπο. Μηα παξαηήξεζε πιεξνί ηηο πξνυπνζέζεηο λα αληηθαηαζηήζεη έλα απ ηα πξνζδηνξηζκέλα θνκβηθά ζεκεία, αλ ε απφζηαζε κεηαμχ ησλ ζεκείσλ, είλαη κηθξφηεξε απφ ηελ απφζηαζε αλάκεζα ζηελ παξαηήξεζε θαη ην πιεζηέζηεξν θνκβηθφ ζεκείν. Αλ ε παξαηήξεζε πιεξνί ηηο πξνυπνζέζεηο, ηφηε ην θνκβηθφ ζεκείν πνπ αληηθαζίζηαληαη είλαη ην πιεζηέζηεξν ζηελ παξαηήξεζε. ηνλ πξνεγνχκελν αιγφξηζκν, γηα παξάδεηγκα νη παξαηεξήζεηο S1, S2 θαη S3 επηιέρηεθαλ ζαλ θνκβηθά ζεκεία γηα ηα 3 cluster. Ο πίλαθαο 3.1, καο έδηλε ηηο ηεηξαγσληθέο επθιείδεηεο απνζηάζεηο κεηαμχ ησλ παξαηεξήζεσλ. Ζ κηθξφηεξε απφζηαζε αλάκεζα ζηα θνκβηθά ζεκεία, είλαη γηα ηα ζεκεία S1 θαη S2 θαη ηζνχηαη κε 2. Ζ παξαηήξεζε S4, δελ ηθαλνπνηεί σο αληηθαηάζηαζε ηνπ θνκβηθνχ ζεκείνπ, επεηδή ε απφζηαζε, αλάκεζα ζηα S1 θαη S2 δελ είλαη κηθξφηεξε, απ ηελ απφζηαζε, αλάκεζα ζην S4 θαη ην πιεζηέζηεξν θνκβηθφ ζεκείν (δειαδή απφζηαζε κεηαμχ S4 θαη ζεκείνπ S3). Όκσο ε παξαηήξεζε S5, ηθαλνπνηεί ζαλ αληηθαηάζηαζε, επεηδή ε απφζηαζε S1 θαη S2, είλαη κηθξφηεξε απ ηελ απφζηαζε κεηαμχ ηνπ S5 θαη ηνπ πιεζηέζηεξνπ θνκβηθνχ ζεκείνπ (δειαδή S5 θαη S3). Σν θνκβηθφ ζεκείν S2, αληηθαζίζηαληαη απ ην S5, επεηδή ε απφζηαζε κεηαμχ S5 θαη S2, είλαη κηθξφηεξε απφ ηελ απφζηαζε κεηαμχ S5 θαη S1. Σα 3 θνκβηθά ζεκεία ηψξα είλαη S1, S3 θαη S5 θαη ηα 2 πιεζηέζηεξα είλαη ηα S3 θαη S5, κε κηα 61

73 απφζηαζε 136. Ζ παξαηήξεζε S6, δελ ηθαλνπνηεί γηα αληηθαηάζηαζε, θαζψο ε απφζηαζε κεηαμχ S3 θαη S5, δελ είλαη κηθξφηεξε απ ηελ απφζηαζε κεηαμχ S6 θαη ηνπ πιεζηέζηεξνπ θνκβηθνχ ζεκείνπ (δειαδή S6 θαη S5). Έηζη ηα θνκβηθά ζεκεία πνπ πξνθχπηνπλ είλαη ηψξα S1, S3 θαη S5. Ο πίλαθαο 4.4, δίλεη ηελ αλάζεζε θάζε παξαηήξεζεο ζηα 3 cluster θη επίζεο ηελ αλαθαηαλνκή. Πίνακαρ 4.4 Αξρηθή αλάζεζε, Centroid ησλcluster θαη Αλαθαηαλνκή Απσική ανάθεζη Παξαηήξεζε S1 S2 S3 S4 S5 S6 Centroid ηων cluster Cluster Μεηαβιεηή Δηζφδεκα Δθπαίδεπζε Απόζηαζε απ ηα centroid ησλ cluster Αλάζεζε ζηα cluster Ανακαηανομή Απ ΠαξΠΠαξαηήξεζε S1 S2 S3 S4 S5 S6 Cluster Αλάζε Αλάζεζε ζηα cluster πξνεγνύκελε Μ Αλαθαηαλνκή Όπσο δηαπηζηψλεηαη, θακηά απφ ηηο παξαηεξήζεηο, δελ αλαθαηαλέκεηαη, κε απνηέιεζκα θακηά κεηαβνιή ζηα centroid ησλ cluster. πλεπψο δελ γίλνληαη πεξηζζφηεξεο αλαθαηαλνκέο, θαη ε ιχζε ησλ 3-cluster πνπ πξνθχπηεη δίλεηαη ζηνλ πίλαθα 4.4. Όκσο ε ιχζε ησλ cluster ζ απηφ ην βήκα, είλαη δηαθνξεηηθή απ ηε ιχζε ησλ cluster ηνπ αιγνξίζκνπ Ι. Όπσο έρεη δεηρζεί ζε κειέηεο πξνζνκνίσζεο, νη κε ηεξαξρηθέο ηερληθέο νκαδνπνίεζεο, είλαη αξθεηά επαίζζεηεο ζηελ επηινγή ησλ αξρηθψλ θνκβηθψλ ζεκείσλ. Οη αιγφξηζκνη Ι θαη ΙΙ, αλαθέξνληαη ζπλήζσο ζαλ K-means νκαδνπνίεζε πνπ ζα κειεηήζνπκε ζηε ζπλέρεηα. 62

74 4.5 Αιγόξηζκνο ΙΙΙ Όπσο αλαθέξζεθε, ηα πξνγξάκκαηα κε ηεξαξρηθήο νκαδνπνίεζεο, δηαθέξνπλ ζρεηηθά κε ηελ αξρηθή δηακέξηζε θαη ηνλ θαλφλα αλαθαηαλνκήο. Δδψ πεξηγξάθνπκε κηα ελαιιαθηηθή επξεηηθή, γηα ηελ επηινγή ησλ αξρηθψλ θνκβηθψλ ζεκείσλ θη έλαλ θαλφλα αλαθαηαλνκήο πνπ ειαρηζηνπνηεί ην ESS (δειαδή ην ίρλνο ηνπ πίλαθα SSCP ζην εζσηεξηθφ ηεο νκάδαο). Έζησ Sum(i), είλαη ην άζξνηζκα ησλ ηηκψλ ησλ κεηαβιεηψλ γηα θάζε παξαηήξεζε θαη k ν επηζπκεηφο αξηζκφο cluster. Ζ αξρηθή αλάζεζε ηεο παξαηήξεζεο i, ζην cluster C i, δίλεηαη απ ην αθέξαην κέξνο ηεο αθφινπζεο εμίζσζεο: (Sum(i)-Min)(k ) C i = +1 φπνπ C i είλαη ην cluster ζην νπνίν ζα πξέπεη λα Max-Min θαηαρσξεζεί ε παξαηήξεζε i, Max θαη Min είλαη αληίζηνηρα ην κέγηζην θαη ην ειάρηζην ηνπ Sum(i), θαη k είλαη ν αξηζκφο ησλ cluster πνπ επηζπκνχκε. Ο πίλαθαο 4.5, δίλεη ηα Sum(i), C i, ηελ αξρηθή θαηαλνκή ησλ ζεκείσλ θαη ηα centroid ησλ 3 cluster. Πίνακαρ 4.5 Αξρηθή Αλάζεζε ησλ ππνζεηηθώλ δεδνκέλσλ Αληηθείκελν Δηζόδεκα (ρηιηάδεο $) Δθπαίδεπζε (έηε) Sum(i) C i Αλάζεζε ζηα cluster S S S S S S Centroid ηων 3 cluster Clusters Μεηαβιεηή Δηζφδεκα Δθπαίδεπζε ηε ζπλέρεηα νη παξαηεξήζεηο ηνπνζεηνχληαη εθ λένπ, έηζη ψζηε ην ζηαηηζηηθφ θξηηήξην ESS λα ειαρηζηνπνηεζεί. Γηα παξάδεηγκα ε κεηαβνιή ηνπ ESS, αλ ην S1 πνπ αλήθεη ζην cluster 1, θαηαρσξείηαη εθ λένπ ζην cluster 3, ζα είλαη: Μεηαβνιή ηνπ ESS= [(5 27.5) 2 + (5 19.5) 2 ] - [(5 5.5) 2 + (5 5.5) 2 ] = = ε απηήλ ηελ εμίζσζε ε πνζφηεηα (5 27.5) 2 + (5 19.5) 2 δίλεη ηελ αχμεζε ηνπ αζξνίζκαηνο ηεηξαγψλσλ ηνπ cluster, ζην νπνίν θαηαρσξείηαη ε παξαηήξεζε (δειαδή ηνπ cluster 3) θαη ε πνζφηεηα (5 5.5) 2 + (5 5.5) 2 δίλεη ηελ κείσζε ηνπ αζξνίζκαηνο ηεηξαγψλσλ ηνπ cluster, απ ην νπνίν απνρσξεί ε παξαηήξεζε (δει. ηνπ cluster 1). Σν βάξνο γηα θάζε φξν, είλαη ν ιφγνο ηνπ αξηζκνχ ησλ παξαηεξήζεσλ κεηά θαη πξηλ ηελ αλαθαηαλνκή. Έλα αξλεηηθφ ESS, γηα ηελ πνζφηεηα ηεο πξνεγνχκελεο εμίζσζεο, δείρλεη φηη ην νιηθφ ESS ζα κεησζεί, αλ ε παξαηήξεζε θαηαρσξείηαη εθ λένπ ζην αληίζηνηρν cluster. Απηή ε κεηαβνιή ζην ESS, ππνινγίδεηαη γηα ηελ αλαθαηαλνκή ηεο παξαηήξεζεο ζην θαζέλα απ ηα άιια cluster θαη ε παξαηήξεζε ηνπνζεηείηαη εθ λένπ ζην cluster πνπ 63

75 θαηαιήγεη ζηελ κεγαιχηεξε κείσζε ηνπ ESS. Ζ δηαδηθαζία απηή επαλαιακβάλεηαη γηα φιεο ηηο παξαηεξήζεηο θαη ν πίλαθαο 4.6 δίλεη ηελ κεηαβνιή ηνπ ESS, γηα θάζε παξαηήξεζε θαη ηελ αλαθαηαλνκή. Όπσο δηαπηζηψλεηαη ε αλαθαηαλνκή δελ θαηαιήγεη ζε κείσζε ηνπ ESS θη έηζη ε αξρηθή ιχζε ησλ cluster, ηειηθά είλαη κία. Πίνακαρ 4.6 Μεηαβνιή ζην ESS θαη εθ λένπ αλάζεζε Παξαηήξεζε Cluster S1 1 S2 1 S3 2 S4 2 S5 3 S6 3 Μεηαβνιή ζην ESS αλ θαηαρσξείηαη ζην cluster Αλαθαηαλνκή Αιγόξηζκνο Steepest Descent Οη Gordon θαη Henderson (1977), ρξεζηκνπνηνχλ κηα πξνζέγγηζε hill-climbing, ή πην ζσζηά hill-descending. Ξεθηλνχλ, νξίδνληαο έλαλ πίλαθα ζηνηρείσλ Y, ηνπ νπνίνπ ην ikνζηφ ζηνηρείν y ik είλαη 1, αλ ην ζηνηρείν i αλήθεη ζην cluster k θαη 0, δηαθνξεηηθά θαη επηδηψθνπλ λα βξνπλ ηνλ Y εθείλνλ πίλαθα πνπ ειαρηζηνπνηεί ην: n c d 2 ik ( ij ij ) φπνπ x ij είλαη ε j- ζπληεηαγκέλε ηνπ i- ζεκείνπ, θαη ε i1 k1 j1 S y x x j- ζπληεηαγκέλε ηνπ κέζνπ ηνπ cluster, ζην νπνίν αλήθεη ην x i. Απηφο είλαη απιά έλαο ελαιιαθηηθφο ηξφπνο λα γξάςνπκε ην trw, ην θξηηήξην αζξνίζκαηνο ηεηξαγψλσλ. Με ηε βνήζεηα ελφο ιήκκαηνο, πνπ δείρλεη, φηη ν πίλαθαο Y πνπ ειαρηζηνπνηεί ην αληηθείκελν S γηα c k=1 y =1 ik, y ik >0 (i=1,, n; k=1,,c) έρεη ζηνηρεία πνπ είλαη φια είηε 0 ή 1, νη Gordon θαη Henderson κεηαζρεκαηίδνπλ ηελ βειηηζηνπνίεζε ζε κηα πην δεθηηθή πνπ ιεηηνπξγεί ζ έλαλ ζπλερή Y ρψξν. Πεξαηηέξσ κεηαζρεκαηηζκνί: y w / w w ij ij ik k1 ij c exp( v ) ij αιιάδνπλ ην πξφβιεκα απφ κηα πεξηνξηζκέλε ζε κηα κε-πεξηνξηζκέλε βειηηζηνπνίεζε. Μπνξνχλ ηψξα λα εθαξκνζηνχλ ηππνπνηεκέλεο επαλαιεπηηθέο κέζνδνη απφηνκεο θαζφδνπ, πνπ θαηαιήγνπλ ζηα βήκαηα: Sm ( ) vij ( m 1) vij ( m) φπνπ ι είλαη έλαο ζεηηθφο ζπληειεζηήο θιίκαθαο, πνπ v ij επηιέγεηαη γηα λα δψζεη S(m+1) < S(m). Ζ επηινγή ηνπ ι είλαη θξίζηκε, κε θαθέο επηινγέο λα νδεγνχλ ζε θαθά ηνπηθά βέιηηζηα. Οη ζπγγξαθείο πξφηεηλαλ λα επηβάιινπλ έλα άλσ 64

76 φξην γηα ην ι, ή ρξεζηκνπνηψληαο έλα ρξπζφ ηκήκα αλαδήηεζεο γηα ην ι, λα βξίζθνπλ ηελ θαιχηεξε ηηκή. 4.7 K-means method Ο MacQeen πξφηεηλε ην φξν K-means, γηα λα πεξηγξάςεη ηνλ αιγφξηζκν ηνπ, ν νπνίνο αλαζέηεη θάζε ζηνηρείν ζην cluster, πνπ έρεη ην πιεζηέζηεξν centroid (θέληξν βάξνπο) θαη είλαη έλαο απφ ηνπο παιηφηεξνπο θαη επξέσο ρξεζηκνπνηνχκελνπο αιγνξίζκνπο. Αλήθεη ζηελ θαηεγνξία ησλ δηακεξηζηηθώλ αιγνξίζκσλ, νη νπνίνη πξνθαινχλ κηα δηακέξηζε ηνπ ρψξνπ ησλ δεδνκέλσλ, ρσξίο λα δεκηνπξγνχλ πην πνιχπινθεο δνκέο πνπ πεξηγξάθνληαη κε δελδξνγξάκκαηα θαη θαηαζθεπάδνπλ κηα κνλαδηθή νκαδνπνίεζε θη φρη κηα δνκή νκάδσλ, φπσο έλαο Ηεξαξρηθφο αιγφξηζκνο. Οη αιγφξηζκνη απηνί ππεξηεξνχλ ζε πεξηπηψζεηο, φπνπ ηα δεδνκέλα είλαη πάξα πνιιά θαη ε θαηαζθεπή δελδξνγξακκάησλ είλαη αδχλαηε. Σν θχξην πξφβιεκα ηνπο είλαη, ε απφθαζε γηα ηνλ αξηζκφ ησλ ηειηθψλ cluster θαη ην θξηηήξην πνπ ρξεζηκνπνηείηαη γηα ηελ ηειηθή απφθαζε, είλαη ην θξηηήξην ηεηξαγσληθνχ ιάζνπο ή ε ζπλάξηεζε ηεηξαγσληθνχ ιάζνπο. Ζ θχξηα ηδέα ηνπ αιγνξίζκνπ, είλαη λα θαζνξίζνπκε εκείο έλα ζπγθεθξηκέλν αξηζκφ απφ k θέληξα ησλ clusters (centroids) φηαλ ζα μεθηλά ν αιγφξηζκνο, πνπ θπζηθά ζα ζπκβνιίδνπλ θαη ηνλ αξηζκφ ησλ ηειηθψλ cluster πνπ ζα έρνπκε θαη σο έμνδν ηνπ αιγνξίζκνπ. Σν επφκελν βήκα, είλαη λα αλαζέζεη θάζε δεδνκέλν ζην θνληηλφηεξν ηνπ centroid. Όηαλ αλαηεζνχλ φια ηα δεδνκέλα, έρεη γίλεη έλα πξψηκν clustering. ηε ζπλέρεηα, επαλαυπνινγίδνπκε ηα centroid κε βάζε ηα θαηλνχξηα cluster πνπ έρνπλ δεκηνπξγεζεί θαη ηα ηνπνζεηνχκε έηζη ψζηε λα θαηνπηξίδνπλ ην θέληξν ησλ δεδνκέλσλ, πνπ αλήθνπλ ζην cluster ηνπο. Έηζη φηαλ έρνπκε K θαηλνχξηα centroids, επαλαυπνινγίδνπκε ηηο ζέζεηο ησλ δεδνκέλσλ θαη ηα ελαπνζέηνπκε ζην θνληηλφηεξν ζε απηά θέληξν. Με απηφλ ηνλ ηξφπν, έρεη δεκηνπξγεζεί έλαο βξφρνο, πνπ ηεξκαηίδεηαη φηαλ πιένλ ηα θέληξα δελ κεηαθηλνχληαη απφ ηελ ζέζε ηνπο. Έλαο απφ ηνπο βαζηθνχο ζηφρνπο ηνπ αιγνξίζκνπ, είλαη λα θαηαθέξεη λα ειαρηζηνπνηήζεη ηε ζπλάξηεζε ηεηξαγσληθνχ ιάζνπο: V = φπνπ k είλαη ν αξηζκφο ησλ cluster, κ i είλαη ην centroid φισλ ησλ ζηνηρείσλ x j S i. ηελ απινχζηεξε εθδνρή ηεο, απηή ε δηαδηθαζία απνηειείηαη απφ ηα παξαθάησ βήκαηα: 1. Γηακεξίδνπκε ηα ζηνηρεία ζε k αξρηθά cluster θαη ππνινγίδνπκε ην θέληξν ηνπ θάζε cluster (centroid). 2. Αλαηξέρνπκε εληφο ηεο ιίζηαο ησλ δεδνκέλσλ, αλαζέηνληαο θάζε δεδνκέλν ζην cluster πνπ έρεη ην θνληηλφηεξν centroid. (Ζ απφζηαζε ππνινγίδεηαη, ζπλήζσο ρξεζηκνπνηψληαο ηελ επθιείδεηα, κε ηππνπνηεκέλεο ή κε ηππνπνηεκέλεο παξαηεξήζεηο). Αθνχ αλαζέζνπκε φια ηα δεδνκέλα, επαλαυπνινγίδνπκε ηηο ζέζεηο ησλ centroid, γηα ην cluster πνπ ιακβάλεη ην λέν ζηνηρείν θαη ην cluster πνπ ράλεη ην ζηνηρείν. 3. Δπαλαιακβάλνπκε ην βήκα 2, έσο φηνπ δελ πξαγκαηνπνηεζνχλ φιεο νη αλαθαηαηάμεηο θαη ηα centroid δελ θηλνχληαη. 65

77 Παξά ηελ έλαξμε κε κηα δηακέξηζε φισλ ησλ ζηνηρείσλ ζε k αξρηθέο νκάδεο ηνπ βήκαηνο 1, ζα κπνξνχζακε λα δηεπθξηλίζνπκε ηα αξρηθά θέληξα ησλ cluster (centroid) θαη κεηά λα πξνρσξήζνπκε ζην βήκα 2. (Γειαδή, βήκα 1: Σνπνζεηνχκε k ζεκεία ζην ρψξν ησλ δεδνκέλσλ πνπ ζα νκαδνπνηεζνχλ, ηα νπνία αληηπξνζσπεχνπλ ηα αξρηθά centroids). Ζ ηειηθή αλάζεζε ησλ ζηνηρείσλ ζε ζπζηάδεο ζα είλαη σο έλα νξηζκέλν βαζκφ, εμαξηψκελε απφ ηελ αξρηθή δηακέξηζε ή ηελ αξρηθή επηινγή ησλ ζεκείσλ. Ζ εκπεηξία έρεη δείμεη, φηη νη πην ζεκαληηθέο αιιαγέο ζηελ αλάζεζε, εκθαλίδνληαη κε ην πξψην βήκα αλαθαηαλνκήο. Αλ θαη κπνξεί λα απνδεηρηεί, φηη ε δηαδηθαζία πάληα ζα ηεξκαηίδεη, ν αιγφξηζκνο k means δελ βξίζθεη πάληα ηελ βέιηηζηε ιχζε ζην πξφβιεκα ηεο νκαδνπνίεζεο, δειαδή, ηα cluster πνπ επηζηξέθνληαη δελ είλαη πάληα ηα επηζπκεηά. ε απηφ ην γεγνλφο ζπληειεί θαη ε αξρηθνπνίεζε ηνπ αιγνξίζκνπ, φπνπ ν ρξήζηεο πξέπεη λα επηιέμεη ηνλ αξρηθφ αξηζκφ θέληξσλ κε ηνλ νπνίν ζα μεθηλήζεη ν αιγφξηζκνο. Απηφ είλαη ην πην ζεκαληηθφ πξφβιεκα, δηφηη κηα αξρηθή επηινγή θέληξσλ πνπ δελ είλαη θαη ηφζν επηηπρεκέλε, κπνξεί λα νδεγήζεη ζε κηα ιαλζαζκέλε νκαδνπνίεζε Ιδηόηεηεο ηνπ K-means Πξηλ επηιέμνπκε ηνλ αιγφξηζκν k- means γηα θάπνηα εθαξκνγή, ζα πξέπεη λα ιάβνπκε ππφςε θάπνηεο ηδηφηεηεο πνπ ραξαθηεξίδνπλ απηφλ ηνλ αιγφξηζκν. Οη ηδηφηεηεο απηέο είλαη νη παξαθάησ: Δπηηπγράλεη ζύγθιηζε ζε ηνπηθό βέιηηζην. O αιγφξηζκνο δελ εγγπάηαη ηελ εχξεζε ελφο θαζνιηθνχ κεγίζηνπ θαη ην ηειηθφ απνηέιεζκα επεξεάδεηαη ζεκαληηθά απφ ηελ επηινγή ησλ αξρηθψλ centroid. Υπάξρεη δπλαηόηεηα ηπραίαο επηινγήο ησλ αξρηθώλ centroid. Ζ νκαδνπνίεζε επαλαιακβάλεηαη αξθεηέο θνξέο, κε δηαθνξεηηθά centroid θάζε θνξά, έηζη ψζηε λα ππνινγηζηεί θάπνηα ζηηγκή κηα έλζεζε ησλ δεδνκέλσλ ζε cluster, πνπ ζα είλαη ε πιεζηέζηεξε ζηελ βέιηηζηε ιχζε. Έρεη κεγάιε ηαρύηεηα. Δπηηπγράλεη ζχγθιηζε κέζα ζε ζχληνκν ρξνληθφ δηάζηεκα. Έρεη ηελ ηάζε λα δεκηνπξγεί ζθαηξηθέο θαη ίζνπ κεγέζνπο ζπζηάδεο. Φξεζηκνπνηεί δηαθνξεηηθά θξηηήξηα ηεξκαηηζκνύ. Μεξηθά απφ ηα πην γλσζηά θξηηήξηα ηεξκαηηζκνχ εθηέιεζεο ηνπ k- means είλαη: Όηαλ δελ ζπκβαίλνπλ θάπνηεο αιιαγέο ζηελ αλάζεζε ηνπ ζπλόινπ ηνπ δείγκαηνο. Όηαλ ν αξηζκόο ησλ επαλαιήςεσλ μεπεξάζεη ην κέγηζην αξηζκό επαλαιήςεσλ πνπ έρεη νξηζηεί. Όηαλ ε κεηαβνιή ζηε ζπλνιηθή παξακόξθσζε D 3, πέθηεη θάησ από ην θαηώθιη Τ, δειαδή 1- <T. Δπηηπγράλεη κείσζε ηεο παξακόξθσζεο D, θαζώο γίλεηαη κεηάβαζε από ην n-νζηό βήκα ζην n+1 βήκα ηνπ αιγνξίζκνπ, δειαδή: D(n+1)<D(n). Οη παξαπάλσ ηδηφηεηεο ηνπ αιγνξίζκνπ k- means εκθαλίδνπλ θαη θάπνηεο αδπλακίεο ηνπ, πνπ ηνλ θάλνπλ λα κελ ζεσξείηαη ε ηδαληθή επηινγή θάπνησλ εθαξκνγψλ. Απηέο νη αδπλακίεο είλαη νη παξαθάησ: 66

78 Γπζθνιία πξνζδηνξηζκνύ ησλ πξαγκαηηθώλ cluster. Αλ ηα ζηνηρεία ελφο ζπλφινπ δεδνκέλσλ εηζαρζνχλ κε δηαθνξεηηθή ζεηξά ζηνλ αιγφξηζκν k-means, ην απνηέιεζκα ηεο νκαδνπνίεζεο, κπνξεί λα είλαη εληειψο δηαθνξεηηθφ, απφ απηφ πνπ ζα ππνινγηζηεί απφ ηελ εηζαγσγή ησλ ζηνηρείσλ κε άιιε ζεηξά. Μεγάιε επαηζζεζία ζηελ αξρηθή αλάζεζε ησλ centroid. Ο αιγφξηζκνο εμαξηάηαη ζε κεγάιν βαζκφ απφ ηελ αξρηθή επηινγή ησλ centroid, θαζψο δηαθνξεηηθέο αλαζέζεηο ελδέρεηαη λα δεκηνπξγήζνπλ, δηαθνξεηηθά απνηειέζκαηα νκαδνπνίεζεο, ή θαη λα εγθισβίζνπλ ηνλ αιγφξηζκν ζε θάπνην ηνπηθφ βέιηηζην. Τν κέηξν ηεο κέζεο ηηκήο επεξεάδεηαη ζεκαληηθά από ηα outliers. Αλ ζην ζχλνιν δεδνκέλσλ ππάξρνπλ ζηνηρεία απνκαθξπζκέλα απ ηα centroid,ίζσο λα νδεγήζνπλ ζηελ απνκάθξπλζε ηνπ centroid απφ ηελ πξαγκαηηθή ηνπ ζέζε. Μηα ιχζε ηνπ πξνβιήκαηνο είλαη ε ρξήζε ηνπ κέζνπ, ζαλ κέηξν ππνινγηζκνχ ησλ centroid Βαζηθέο αξρέο ηνπ αιγνξίζκνπ Γείρλνπκε φηη ε δηαζπνξά ζην εζσηεξηθφ ηεο νκάδαο, κπνξεί λα γίλεη κφλν κηθξφηεξε (ή λα παξακείλεη ζηαζεξή), κεηαμχ ηνπ βήκαηνο m θαη ηνπ βήκαηνο m+1 ηεο δηαδηθαζίαο. Οη θαλφλεο αλάζεζεο είλαη δπλαηφλ λα θαηαζηήζνπλ απζηεξή απηή ηελ κείσζε θαη σο εθ ηνχηνπ λα ζπκπεξάλνπκε, φηη ν αιγφξηζκνο ζπγθιίλεη, αθνχ ην αξρηθφ ζχλνιν δεδνκέλσλ Η είλαη πεπεξαζκέλν. Αο ππνζέζνπκε φηη ηα n άηνκα ηνπ ζπλφινπ Η πνπ νκαδνπνηνχληαη, έρνπλ ζρεηηθά βάξε p i, έηζη ψζηε =1 θαη έζησ d 2 (i, ) είλαη ην ηεηξάγσλν ηεο απφζηαζεο κεηαμχ ηνπ αηφκνπ i θαη ηνπ centroid ηνπ cluster k, ζην βήκα m. Μαο ελδηαθέξεη ην θξηηήξην: π(m) = Θεσξνχκε φηη ζην βήκα m, ην cluster ζρεκαηίδεηαη απφ ηα άηνκα πνπ είλαη πην θνληά ζην απ φηη ζηα άιια θέληξα.( απηά ηα θέληξα είλαη ηα centroid ησλ νκάδσλ ηνπ πξνεγνχκελνπ βήκαηνο). Καηά ζπλέπεηα, ε δηαζπνξά ζην εζσηεξηθφ ηεο νκάδαο ζην βήκα m, είλαη: V(m) =, φπνπ είλαη ην centroid ηνπ cluster. ην βήκα m+1, ην θξηηήξην γίλεηαη: π(m+1)=. Γείρλνπκε φηη π(m) V(m) π(m+1), ε νπνία θαζνξίδεη ηελ ηαπηφρξνλε κείσζε θξηηεξίνπ θαη δηαζπνξάο ζην εζσηεξηθφ ηεο νκάδαο. εκεηψλνπκε φηη p(k) = Πξψηα απ φια αο ζεκεηψζνπκε φηη π(m)= V(m) +, ζχκθσλα κε ην ζεψξεκα ηνπ Huyghens, πνπ απνδεηθλχεη ην 1 ν κέξνο ηεο αληζφηεηαο. Σν 2 ν κέξνο πξνθχπηεη απφ ην γεγνλφο φηη κεηαμχ ησλ παξελζέζεσλ, πνπ εκθαλίδνληαη ζηνπο νξηζκνχο ησλ V(m) θαη π(m+1), αιιάδνπλ κφλν νη αλαζέζεηο ησλ ζεκείσλ ζηα θέληξα. Αθνχ είλαη ην ζχλνιν ησλ ζεκείσλ πνπ βξίζθνληαη πιεζηέζηεξα ζην απ φηη ζηα άιια θέληξα, νη απνζηάζεηο κπνξνχλ λα κεησζνχλ (ή λα κείλνπλ νη ίδηεο) θαηά ηελ δηάξθεηα απηήο ηεο αλαθαηαλνκήο. 67

79 4.7.3 Δπζηαζή cluster Σν πξφβιεκα ηεο εχξεζεο κηαο βέιηηζηεο δηακέξηζεο ζε k c cluster, δελ έρεη δψζεη έλαλ ηθαλνπνηεηηθφ αιγφξηζκν κέρξη ζήκεξα. Οη δηακεξίζεηο πνπ ιακβάλνπκε, γεληθά εμαξηψληαη απφ ηα αξρηθά θέληξα πνπ επηιέρηεθαλ. Ζ δηαδηθαζία γηα λα βξνχκε επζηαζή cluster, πνπ πξνηάζεθε απφ ηνλ Diday(1972), είλαη ηνπιάρηζηνλ κηα κεξηθή ιχζε απηήο ηεο θαηάζηαζεο. Σν θχξην ηεο πιενλέθηεκα, είλαη φηη επεμεξγάδεηαη ηα απνηειέζκαηα πνπ πξνέθπςαλ ζην άθακπην πιαίζην κηαο κφλν δηακέξηζεο, ηνλίδνληαο ηηο πεξηνρέο πςειήο ππθλφηεηαο ηεο ζπζηάδαο, ησλ αηφκσλ. Ζ ηερληθή ζπλίζηαηαη ζηελ εθηέιεζε δηάθνξσλ δηακεξίζεσλ, μεθηλψληαο κε αξθεηά δηαθνξεηηθά ζχλνια θέληξσλ θαη θξαηψληαο σο επζηαζή cluster, ηα ζχλνια ησλ αηφκσλ πνπ θαηαρσξνχληαη ζην ίδην cluster, ζε θάζε κηα απφ ηηο δηακεξίζεηο. (ζρήκα 4.1) Αο νξίζνπκε κε P 1, P 2,, P s ηηο s δηακεξίζεηο ζε k c cluster (φπνπ θάζε cluster, κπνξεί λα απαηηεί έλα δηαθνξεηηθφ αξηζκφ επαλαιήςεσλ). Ζ ζπζηάδα πνπ ζπληάζζεηαη κε (k 1, k 2,, k s ) πεξηέρεη πξψηα ηα άηνκα πνπ αλήθνπλ ζηελ ζπζηάδα k 1 ηνπ P 1, ζηε ζπλέρεηα ζηε ζπζηάδα k 2 ηνπ P 2 θαη ηειηθά ζηε ζπζηάδα k s ηνπ P s. Ζ παξαγφκελε απηή δηακέξηζε, πεξηέρεη θαηά ζπλέπεηα (k c ) s cluster. Οη κε θελέο θαηεγνξίεο απηήο ηεο δηακέξηζεο απνηεινχλ ηα επζηαζή cluster. ηελ πξάμε, ν αξηζκφο ησλ επζηαζψλ cluster, είλαη πνιχ κηθξφηεξνο απφ (k c ) s. Γηα παξάδεηγκα δελ είλαη αζπλήζηζην, κεηά απφ 4 δηακεξίζεηο ζε 5 cluster, πνπ έρνπλ πξαγκαηνπνηεζεί ζε 1000 άηνκα, λα έρνπκε κφλν 20 επζηαζή cluster, κε βάζεηο κεγαιχηεξεο απφ 10(αθφκα θη αλ ε παξαγφκελε δηακέξηζε, πεξηέρεη 5 4 = 625 cluster). 1 ε δηακέξηζε ε δηακέξηζε Σρήκα 4.1 Δπζηαζείο νκάδεο ζηελ παξαγόκελε δηακέξηζε (π.ρ. κεηαμύ ησλ 38 αηόκσλ ηεο νκάδαο 1 ηεο 1εο δηακέξηζεο, 30 βξίζθνληαη ζηελ νκάδα 2 ηεο 2 εο δηακέξηζεο) Δθαξκνγή ηνπ αιγνξίζκνπ k- means Τπνζέηνπκε φηη κεηξάκε 2 κεηαβιεηέο x 1 θαη x 2, γηα θάζε έλα απφ ηα 4 ζηνηρεία A, B, C θαη D. Σα δεδνκέλα δίλνληαη ζηνλ αθφινπζν πίλαθα: Παξαηήξεζε Σηνηρεία x 1 x 2 A B C D O ζηφρνο είλαη λα δηαηξέζνπκε απηά ηα ζηνηρεία ζε k=2 cluster, έηζη ψζηε ηα ζηνηρεία ελφο cluster λα είλαη πην φκνηα κεηαμχ ηνπο, απ φηη ηα ζηνηρεία ζε δηαθνξεηηθά cluster. 68

80 Γηα λα εθαξκφζνπκε ηελ κέζνδν k=2- means, δηαηξνχκε απζαίξεηα ηα ζηνηρεία ζε 2 cluster, φπσο ηα (AB) θαη (CD) θαη ππνινγίδνπκε ηηο ζπληεηαγκέλεο ( 1, 2) ηνπ centroid ηνπ θάζε cluster. Καηά ζπλέπεηα, ζην βήκα 1 έρνπκε: Cluster (AB) (CD) Σπληεηαγκέλεο centroid 1 2 = 2 =2 = -1 = -2 ην βήκα 2 ππνινγίδνπκε ηελ επθιείδεηα απφζηαζε θάζε ζηνηρείνπ απφ ηελ νκάδα ησλ centroid θαη αλαζέηνπκε μαλά θάζε ζηνηρείν ζηελ πιεζηέζηεξε ζε απηφ νκάδα. Αλ έλα ζηνηρείν κεηαθηλείηαη απφ ηελ αξρηθή θαηάζηαζε, ηα θέληξα ησλ cluster, πξέπεη λα ελεκεξσζνχλ πξηλ πξνρσξήζνπκε. Ζ i- ζπληεηαγκέλε ηνπ centroid, i= 1, 2, p, ελεκεξψλεηαη εχθνια ρξεζηκνπνηψληαο ηνπο αθφινπζνπο ηχπνπο: i, new = αλ ην j-ζηνηρείν, πξνζηίζεηαη ζε κηα νκάδα i, new = αλ ην j-ζηνηρείν, αθαηξείηαη απφ κηα νκάδα Δδψ n είλαη ν αξηζκφο ησλ ζηνηρείσλ ζηελ «παιηά» νκάδα κε centroid = ( 1, 2,, p) Θεσξνχκε ηα αξρηθά cluster (AB) θαη (CD). Οη ζπληεηαγκέλεο ησλ centroid είλαη (2, 2) θαη (-1, -2) αληίζηνηρα. Τπνζέηνπκε φηη ην ζηνηρείν Α κε ζπληεηαγκέλεο (5, 3) κεηαθηλείηαη ζηελ νκάδα (CD). Οη λέεο νκάδεο είλαη (Β) θαη (ΑCD) κε ηα ελεκεξσκέλα centroid: Οκάδα (Β): 1, new = = -1 θαη 2, new = = 1 είλαη νη ζπληεηαγκέλεο ηνπ (Β). Οκάδα (ΑCD): 1, new = = 1 θαη 2, new = =0.33 Δπηζηξέθνπκε ζηηο αξρηθέο νκάδεο ηνπ βήκαηνο 1θαη ππνινγίδνπκε ηηο ηεηξαγσληθέο απνζηάζεηο: d 2 (A, (AB)) = (5-2) 2 + (3-2) 2 = 10 d 2 (A, (CD)) = (5 + 1) 2 + (3 + 2) 2 = 61 αλ ην Α δελ κεηαθηλείηαη d 2 (A, (B)) = (5 + 1) 2 + (3 1) 2 = 40 d 2 (A, (ΑCD)) = (5 1) 2 + (3-0.33) 2 = αλ ην Α κεηαθηλείηαη ζηελ νκάδα (CD). Αθνχ ην Α βξίζθεηαη πιεζηέζηεξα ζην θέληξν ηνπ (ΑΒ) απ φηη ζην θέληξν ηνπ (ΑCD)) δελ ηνπνζεηείηαη εθ λένπ. πλερίδνπκε, κε ην Β. Παίξλνπκε: d 2 (Β, (AB)) = (-1-2) 2 + (1 2) 2 = 10 d 2 (Β, (CD)) = (-1 + 1) 2 + (1 + 2) 2 = 9 αλ ην Β δελ κεηαθηλείηαη 69

81 d 2 (Β, (A)) = (-1 5) 2 + (1 3) 2 = 40 d 2 (Β, (ΒCD)) = (-1 + 1) 2 + (1 + 1) 2 = 4 αλ ην Β κεηαθηλείηαη ζηελ νκάδα (CD). Αθνχ ην Β βξίζθεηαη πιεζηέζηεξα ζην θέληξν ην (ΒCD) απ φηη ζην θέληξν ηνπ (ΑΒ), ην Β κεηαθέξεηαη ζηελ νκάδα (CD). Σψξα έρνπκε ηα cluster (A) θαη (BCD) κε ζπληεηαγκέλεο centroid (5, 3) θαη (-1, -1) αληίζηνηρα. ηε ζπλέρεηα, ειέγρνπκε ην C: d 2 (C, (A)) = (1 5) 2 + (-2 3) 2 = 41 d 2 (C, (ΒCD)) = (1 + 1) 2 + (-2 + 1) 2 = 5 αλ ην C δελ κεηαθηλείηαη d 2 (C, (AC)) = (1 3) 2 + (-2 0.5) 2 = d 2 (C, (ΒD)) = (1 + 2) 2 + ( ) = αλ ην C κεηαθηλείηαη ζηελ νκάδα (Α) Αθνχ ην C βξίζθεηαη πιεζηέζηεξα ζην θέληξν ηεο νκάδαο (BCD) απ φηη ζην θέληξν ηεο νκάδαο (AC), ην C δελ κεηαθηλείηαη. πλερίδνληαο κε ηνλ ίδην ηξφπν, βξίζθνπκε φηη δελ γίλνληαη πεξηζζφηεξεο αλαθαηαηάμεηο θαη ηα ηειηθά k=2 cluster είλαη ηα (A) θαη (BCD). Γηα ηα ηειηθά cluster, έρνπκε: Τεηξαγσληθή απόζηαζε ησλ centroid ησλ νκάδσλ Σηνηρεία Cluster Α B C D A (BCD) Σν άζξνηζκα ησλ ηεηξαγψλσλ ζην εζσηεξηθφ ησλ cluster (άζξνηζκα ηεηξαγσληθψλ απνζηάζεσλ ησλ centroid) είλαη: Cluster A: 0 Cluster (BCD): = 14 Ιζνδύλακα, κπνξνχκε λα πξνζδηνξίζνπκε ηα k=2 cluster, ρξεζηκνπνηψληαο ην θξηηήξην min E = ] φπνπ ] είλαη ε ηεηξαγσληθή απφζηαζε ηεο πεξίπησζεο i απ ην centroid ηνπ cluster ζην νπνίν έρεη απνδνζεί. ε απηφ ην παξάδεηγκα ππάξρνπλ 7 πηζαλφηεηεο γηα ηα k=2 cluster: Α, (BCD) B, (ACD) C, (ABD) D, (ABC) (AB), (CD) (AC), (BD) (AD), (BC) Γηα ην δεπγάξη Α, (BCD): Α d 2 A,c(A) = 0 (BCD) d 2 B, c(b) + d 2 C, c(c) + d 2 D,c(D) = =14 πλεπψο ] = = 14 Γηα ηα ππφινηπα δεπγάξηα επαιεζεχνπκε φηη: B, (ACD) ] = 48.7 C, (ABD) ] =

82 D, (ABC) ] = 31.3 (AB), (CD) ] = 28 (AC), (BD) ] = 27 (AD), (BC) ] = 51.3 Αθνχ ην κηθξφηεξν ] ηειηθή δηακέξηζε. εκθαλίδεηαη γηα ην δεπγάξη ησλ cluster Α θαη (BCD), απηή είλαη ε ρεκαηηθά ε δηαδηθαζία πνπ αθνινπζεί ν αιγφξηζκνο k-means απεηθνλίδεηαη ζην ζρήκα 4.2 Σρήκα 4.2 Γξαθηθή αλαπαξάζηαζε ηνπ k-means 4.8 Μέζνδνη πνπ βαζίδνληαη ζηελ πιήξε απνηειεζκαηηθή Αλαδήηεζε Ζ κέζνδνο branch and bound επηηξέπεη ζε θάζε δπλαηή δηακέξηζε λα εμεηαζηεί, ρσξίο λα απαηηείηαη ν ζαθήο ππνινγηζκφο ηεο ζπλάξηεζεο θξηηεξίνπ γηα θάζε δηακέξηζε. Βαζίδεηαη ζηελ ηδέα δηάηαμεο ησλ πνιπκεηαβιεηψλ δεδνκέλσλ, πξηλ απ ηελ κέζνδν εθηίκεζεο Κ-ΝΝ θαη ζηελ επηινγή ησλ ππνζπλφισλ ησλ κεηαβιεηψλ. Ζ κέζνδνο δνπιεχεη κε νπνηαδήπνηε ζπλάξηεζε θξηηεξίνπ, πνπ ηθαλνπνηεί κηα νξηζκέλε ηδηφηεηα. Γηα λα ην εμεγήζνπκε, αο ππνζέζνπκε φηη ζέινπκε λα ειαρηζηνπνηήζνπκε ηε ζπλάξηεζε θξηηεξίνπ. (αλ πξφθεηηαη λα κεγηζηνπνηεζεί, ε παξαθάησ αληζφηεηα, πξέπεη λα αληηζηξαθεί). Τπνζέηνπκε ινηπφλ, φηη A(S 2 ) είλαη ε αλαθαηαλνκή ησλ ζεκείσλ πνπ πεξηιακβάλεη ην ζχλνιν S 2 ζε ζπζηάδεο, φηη Β(S 1 ) ε αλαθαηαλνκή ησλ ζεκείσλ ηνπ S 1 ζε ζπζηάδεο, φηη S 1 S 2 θαη φηη ν πεξηνξηζκφο ηεο Α ζην S 1 είλαη ίζνο κε Β(S 1 ). Σν ηειεπηαίν ζεκαίλεη, πσο φηαλ ην Α εθαξκνζηεί κφλν ζην S 1, δίλεη ην ίδην ζχλνιν cluster κε ην Β. Σφηε ε ηδηφηεηα πνπ απαηηνχκε γηα λα ηθαλνπνηήζεη ην θξηηήξην J είλαη: J(A(S 2 )) J(Β(S 1 )) Γηα λα δνχκε, πσο ζα εθαξκφζνπκε απηφ, ππνζέηνπκε φηη έρνπκε κηα αλαθαηαλνκή C, ελφο ππνζπλφινπ S 3 ησλ ζεκείσλ παξαηήξεζεο, πνπ δίλεη κηα κεγαιχηεξε ηηκή 71

83 θξηηεξίνπ, απφ κηα γλσζηή αλαθαηαλνκή D ηνπ πιήξνπο ζπλφινπ S. Σφηε δελ ρξεηάδεηαη, λα δηεπθξηλίζνπκε ηηο αλαθαηαλνκέο ηνπ πιήξνπο ζπλφινπ, πνπ πεξηιακβάλεη ην C(S 3 ). Σν θξηηήξην, κπνξεί κφλν λα απμάλεη θαζψο πξνζζέηνπκε ηα επηπιένλ ζεκεία παξαηήξεζεο, θαη είλαη ήδε κεγαιχηεξν απφ D(S), κηα γλσζηή αλαθαηαλνκή ηνπ πιήξνπο ζπλφινπ. Γηα λα πάξνπκε έλα ζπγθεθξηκέλν παξάδεηγκα, γηα ην πψο απηή ε ελλνηνινγηθή αξρή εθαξκφδεηαη ζηελ πξάμε, ππνζέηνπκε φηη ζέινπκε λα βξνχκε ηελ βέιηηζηε δηακέξηζε 4 αληηθεηκέλσλ (A, B, C, D) ζε 2 cluster (1 θαη 2). Μπνξνχκε λα απαξηζκήζνπκε φιεο ηηο πηζαλέο δηακεξίζεηο θαη λα πάξνπκε ηελ δνκή ηνπ δέληξνπ πνπ θαίλεηαη ζην ζρήκα 4.3. απηφ ην ζρήκα, ην Υ ππνδειψλεη πσο έλα ζεκείν δελ έρεη θαηαρσξεζεί αθφκα ζ έλα cluster, θη έλαο αξηζκφο i ππνδειψλεη φηη γ απηή ηε δηακέξηζε, ην ζεκείν έρεη θαηαρσξεζεί ζην cluster i. εκεηψλνπκε φηη κφλν ην κηζφ απφ νιφθιεξν ην δέληξν θαίλεηαη, αθνχ απηφ πνπ ιείπεη ηαπηίδεηαη κε ην κηζφ πνπ απεηθνλίδεηαη, κε ηελ αληηθαηάζηαζε ηνπ 1 απ ην 2 θαη αληίζηξνθα, δειαδή απηφ αληηπξνζσπεχεη ηηο ίδηεο νκαδνπνηήζεηο, αιιά ηα cluster έρνπλ δηαθνξεηηθά νλφκαηα. Βξίζθνπκε ηψξα φηη: J(121X) J(1121) ABCD X XX X XXX X XX X 1222 Σρήκα 4.3: Έλα δέληξν «branch and bound» αλάιπζεο ζπζηάδσλ. Τν 1211 αλαπαξηζηάλεη ηελ νκαδνπνίεζε ησλ A, C θαη D ζε έλα cluster θαη ηνπ Β ζε θάπνην άιιν. Γελ ππάξρεη θαλέλα ζεκείν ζηελ αλάπηπμε ησλ δηακεξίζεσλ 1211 θαη 1212, αθνχ ιφγσ ηεο ηδηφηεηαο ηνπ J πνπ νξίζηεθε παξαπάλσ πξνθχπηεη: J(1211) J(121X) J(1121) θαη J(1212) J(121X) J(1121) Παξνκνίσο βξίζθνπκε φηη: J(12XX) J(1121) Γελ ρξεηάδεηαη λα εμεηάζνπκε ηηο δηακεξίζεηο 1211, 1212, 1221 ή Καηά ζπλέπεηα, ε κέζνδνο μεθίλεζε ππνινγίδνληαο ην θξηηήξην J, γηα ηηο δηακεξίζεηο 1111 θαη 1112 θαη επηιέγνληαο ηελ κηθξφηεξε απ απηέο. ηελ ζπλέρεηα, ππνινγίδεηαη ε J(112X), θαη αλ J(112X) min (J(1111), J(1112)) ε αλαδήηεζε κεηαθηλείηαη ζηε δηακέξηζε 12XX. Αιιηψο νη δηακεξίζεηο 1121 θαη 1122 ππνινγίδνληαη. Όπνηε βξίζθεηαη κηα πιήξεο δηακέξηζε κε κηα κηθξφηεξε ηηκή ηνπ J,απφ νπνηεζδήπνηε άιιεο δηακεξίζεηο πνπ αθφκα 72

84 αλαθαιχπηνληαη, απηή ε J-ηηκή ιεηηνπξγεί ζαλ έλα άλσ φξην, γηα φιεο ηηο κειινληηθέο δηακεξίζεηο- θακία απ ηηο δηακεξίζεηο πνπ ζα έρνπλ J κεγαιχηεξν απ απηήλ ηελ ηηκή, δελ ρξεηάδεηαη λα ππνινγηζζεί. Ο πίλαθαο 4.7 δείρλεη θάπνηα απνηειέζκαηα πνπ πξνέθπςαλ εθαξκφδνληαο ηελ βαζηθή κέζνδν branch and bound ζε ζχλνια δεηγκάησλ, απφ έλαλ δηκεηαβιεηφ θαλνληθφ πιεζπζκφ κε ηαπηνηηθφ πίλαθα δηαζπνξάο. Αθνχ ζε ηέηνηα δεδνκέλα, ζηελ πξαγκαηηθφηεηα ππάξρεη κφλν έλα cluster, ε κέζνδνο ζα εθηειεζηεί θαιχηεξα (πην γξήγνξα), ζε κηα αιεζηλή εθαξκνγή πνπ ππάξρεη πεξηζζφηεξε δνκή. ξ είλαη ν ιφγνο ηνπ πξαγκαηηθνχ αξηζκνχ (Ν) ησλ αλαθαηαλνκψλ πνπ ππνινγίδνληαη πξνο ηνλ ζπλνιηθφ αξηζκφ ησλ δπλαηψλ αλαθαηαλνκψλ P(n, c). εκεηψλνπκε φηη είλαη πηζαλφ, ην ξ λα ππεξβεί ην 1, αθνχ νη κεξηθέο δηακεξίζεηο ππνινγίδνληαη εμίζνπ θαιά κε ηηο πιήξεηο δηακεξίζεηο. Ζ ηηκή λ είλαη ν αξηζκφο ησλ ζπλφισλ δεδνκέλσλ πνπ ειέγρνληαη γηα θάζε δεχγνο (n, c). είλαη ν κέζνο αξηζκφο ησλ νκαδνπνηήζεσλ, πνπ ππνινγίδεηαη γηα λα βξνχκε ηελ θαιχηεξε αλαθαηαλνκή. απηέο ηηο πξνζνκνηψζεηο ρξεζηκνπνηήζεθε ην θξηηήξην trw. Πίνακαρ 4.7 Απνηειεζκαηηθόηεηα ηνπ βαζηθνύ αιγνξίζκνπ νκαδνπνίεζεο branch and bound n c= P(n, c) ξ max(n) λ c= P(n, c) ξ max(n) λ n Δλψ ε βαζηθή κέζνδνο branch and bound πνπ πεξηγξάθεηαη παξαπάλσ, επεθηείλεη ην θάζκα ησλ πξνβιεκάησλ, ζηα νπνία κπνξεί λα εμαζθαιηζηεί κηα βέιηηζηε ιχζε, ν Koontz et al. (1975), έρεη επεθηείλεη ην θάζκα αθφκα παξαπέξα. Απηά βαζίδνπλ ηηο βειηηψζεηο ηνπο, ζε έλα απζηεξφ άλσ φξην ηνπ J (αληηθαζηζηψληαο ηα κηθξφηεξν ησλ J(1111) θαη J(1112) απφ θάπνην κηθξφηεξν θαη ησλ δχν- έηζη ψζηε νη πεξηζζφηεξεο δηακεξίζεηο ζα απνξξηθζνχλ ρσξίο ζαθή ππνινγηζκφ) θαη ζηα απζηεξφηεξα ρακειφηεξα φξηα γηα θάζε δηακέξηζε. Δπεμεγψληαο ην ηειεπηαίν, ζην παξαπάλσ παξάδεηγκα, ε J(121X) ζα απνξξηπηφηαλ αλ ήηαλ κεγαιχηεξε απφ θάπνηα ηηκή, κηθξφηεξε ηεο J(1121). Απηφ ζεκαίλεη φηη ηα J(1211) θαη J(1212), έρνπλ ρακειφηεξε πηζαλφηεηα λα ρξεηαζηνχλ ζαθή ππνινγηζκφ. Σν απζηεξφηεξν αξρηθφ άλσ φξην ζηηο πιήξεηο δηακεξίζεηο, βξίζθεηαη, δηαηξψληαο ην πιήξεο ζχλνιν S ζε ππνζχλνια, νκαδνπνηψληαο θαζέλα απ απηά ρσξηζηά απ ηελ κέζνδν branch and bound θαη ζπλδπάδνληαο ζηε ζπλέρεηα, ηηο ηαμηλνκήζεηο πνπ 73

85 πξνθχπηνπλ. Σα ρακειφηεξα ηνπο απζηεξά φξηα, ζηηο δηακεξίζεηο ησλ ππνθιάζεσλ, ρξεζηκνπνηνχλ ηελ ηδηφηεηα, φηη ε βαζηθή κέζνδνο branch and bound, πξνζδηνξίδεη φρη κφλν ηε βέιηηζηε νκαδνπνίεζε ηνπ S, αιιά επίζεο ηε βέιηηζηε νκαδνπνίεζε ησλ k- πξψησλ ζεκείσλ ηνπ S (k= 2,, n). Ζ ηειηθή ηνπο βειηίσζε, είλαη κηα ηεξαξρηθή κέζνδνο ηνπ ζπλδπαζκνχ ησλ ππνζπλφισλ, πνπ νδεγεί ζε αθφκα πεξαηηέξσ βειηηψζεηο, ελψ εμαζθαιίδεη αθφκα κηα νιηθή βέιηηζηε ιχζε. 4.9 Άιιεο κέζνδνη Μαζεκαηηθνύ Πξνγξακκαηηζκνύ Άιινη ζπγγξαθείο, έρνπλ εμεηάζεη εηδηθέο πεξηπηψζεηο ή πξνζαξκφδνπλ γεληθέο πεξηπηψζεηο, έηζη ψζηε λα κπνξνχλ λα εθαξκνζηνχλ, άιιεο ηερληθέο καζεκαηηθνχ πξνγξακκαηηζκνχ. Ο Lefkovitch (1978) γηα παξάδεηγκα, νξίδεη κέηξα αλάκεζα ζε ζχλνια αληηθεηκέλσλ, πνπ ηνπ επηηξέπνπλ λα επηιέμεη έλα ζχλνιν ππνζπλφισλ, έηζη ψζηε «κε πςειή πηζαλφηεηα, ην επηιεγκέλν ζχλνιν ππνζπλφισλ, ζπκπεξηιακβάλεη κεηαμχ απηψλ, ηε βέιηηζηε δηάηαμε ησλ αληηθεηκέλσλ». Απηφο ηφηε, δηαηππψλεη ηελ αλαδήηεζε κεηαμχ ηνπ επηιεγκέλνπ ζπλφινπ ησλ ππνζπλφισλ, ζαλ έλα πξφβιεκα γξακκηθνχ πξνγξακκαηηζκνχ. Ο Jensen (1968) πξνηείλεη κηα κέζνδν δπλακηθνχ πξνγξακκαηηζκνχ, γηα ηελ ειαρηζηνπνίεζε ηνπ: c H T ( g k ) φπνπ 1 2 ( g k ) dij n k1 k i j g k d ij είλαη ε απφζηαζε αλάκεζα ζηα αληηθείκελα i θαη j θαη g k είλαη ην ζχλνιν ησλ αληηθεηκέλσλ ζην k cluster. Ζ πξνζέγγηζε ηνπ, φπσο ε κέζνδνο branch and bound εμαζθαιίδεη ζχγθιηζε ζηε βέιηηζηε ιχζε, ρσξίο ηελ αλάγθε λα ππνινγίζνπκε ην Ζ, γηα φιεο ηηο δπλαηέο ελαιιαθηηθέο νκαδνπνίεζεο. Απηφ βαζίδεηαη ζηνλ αλαδξνκηθφ ηχπν: = = { (φπνπ είλαη ην ειάρηζην ηνπ θξηηεξίνπ, γηα ηελ δηακέξηζε ησλ z αληηθεηκέλσλ ζε m θαηεγνξίεο, Σ είλαη ην άζξνηζκα ησλ ηεηξαγψλσλ ησλ απνζηάζεσλ κέζα ζην ζχλνιν ησλ (z-y) αληηθεηκέλσλ θαη y είλαη έλα ππνζχλνιν ηνπ z). Γηα νπνηνδήπνηε z, ην ζχλνιν y πνπ ειαρηζηνπνηεί ην κπνξεί λα βξεζεί θαη θαηά ζπλέπεηα, κπνξεί λα βξεζεί ην γηα έλα εχξνο ησλ z πηζαλψλ ζπλφισλ. Απηφ καο επηηξέπεη, λα βξνχκε ηελ ηηκή φπνπ x είλαη έλα ζχλνιν πνπ ζπκπεξηιακβάλεη ην z. Καη ζπλερίδνπκε κέρξη λα έρνπκε ην πιήξεο ζχλνιν. Αλ θαη απηή ε κέζνδνο εμαζθαιίδεη φηη ζα βξεζεί ε βέιηηζηε ιχζε, ν Jensen επηζήκαλε φηη απηή ε κέζνδνο, απαηηεί πεξηζζφηεξε ππνινγηζηηθή κλήκε απ ηελ εμαληιεηηθή αλαδήηεζε. Ο Vinod (1969), ρξεζηκνπνηεί γξακκηθφ αθέξαην πξνγξακκαηηζκφ, γηα ηελ εηδηθή πεξίπησζε νκαδνπνίεζεο πνπ ειαρηζηνπνηεί ην άζξνηζκα ηεηξαγψλσλ, ζην εζσηεξηθφ ησλ νκάδσλ, γηα κνλνκεηαβιεηά δεδνκέλα. Ο Rao (1971),δίλεη ηηο αλαδξνκηθέο ζρέζεηο κηαο απνηειεζκαηηθήο πξνζέγγηζεο δπλακηθνχ πξνγξακκαηηζκνχ γηα ην ίδην πξφβιεκα. Γηα ηελ πεξίπησζε πνιπκεηαβιεηψλ δεδνκέλσλ, ν Rao δίλεη κηα δηαηχπσζε γξακκηθνχ 74

86 αθέξαηνπ πξνγξακκαηηζκνχ, φηαλ ηθαλνπνηείηαη ε αθφινπζε ζπλζήθε: «ζε κηα βέιηηζηε ιχζε, θάζε νκάδα ζα πξέπεη λα απνηειείηαη απφ ηνπιάρηζηνλ κηα νληφηεηα, ε νπνία ζα ζπκβνιηδφηαλ γηα επθνιία, ζαλ ν θαζνδεγεηήο ηεο νκάδαο, έηζη ψζηε ε απφζηαζε αλάκεζα ζηνλ θαζνδεγεηή θαη νπνηαδήπνηε νληφηεηα πνπ δελ αλήθεη ζηελ ίδηα νκάδα, δελ είλαη κηθξφηεξε απ ηελ απφζηαζε, αλάκεζα ζηνλ θαζνδεγεηή θαη νπνηαδήπνηε νληφηεηα κέζα ζηελ ίδηα νκάδα». Αλ θαη ην πξφβιεκα πνπ πξνθχπηεη είλαη ππνινγηζηηθά εθηθηφ, θαίλεηαη λα είλαη έλαο ζθιεξφο πεξηνξηζκφο θαη αλ απηφ αιεζεχεη, ζα ρξεζηκνπνηνχζε θαλείο κεζφδνπο φπσο ε k-means. Ο Rao, εμεηάδεη επίζεο ηελ ειαρηζηνπνίεζε ηνπ αζξνίζκαηνο ησλ κέζσλ ηεηξαγσληθψλ απνζηάζεσλ κέζα ζηελ νκάδα, δίλνληαο έλα πξφβιεκα κε γξακκηθνχ αθέξαηνπ πξνγξακκαηηζκνχ. Αλ ν αξηζκφο ησλ νληνηήησλ ζε θάζε νκάδα είλαη γλσζηφο, ηφηε ν Rao πξνηείλεη 2 απινχζηεξεο πξνζεγγίζεηο: ηνλ πεξηνξηζκέλν κε γξακκηθφ πξνγξακκαηηζκφ Boolen ή γξακκηθφ αθέξαην πξνγξακκαηηζκφ. Γηα ηελ ειαρηζηνπνίεζε ηεο κέγηζηεο απφζηαζεο κέζα ζηελ νκάδα, ν Rao εθθξάδεη ην πξφβιεκα νκαδνπνίεζεο ζαλ κηα άζθεζε αθέξαηνπ γξακκηθνχ πξνγξακκαηηζκνχ, αιιά κε έλαλ πηζαλά απαγνξεπηηθφ αξηζκφ πεξηνξηζκψλ, εθηφο απφ κηθξά n θαη c Σπκπεξάζκαηα Όπσο πεξηγξάςακε πξνεγνπκέλσο, νη κε ηεξαξρηθέο ηερληθέο νκαδνπνίεζεο, απαηηνχλ γλψζε γηα ηνλ αξηζκφ ησλ cluster, ζε αληίζεζε κε ηηο ηεξαξρηθέο κεζφδνπο, φπνπ δελ απαηηείηαη κηα εθ ησλ πξνηέξσλ γλψζε ηνπ αξηζκνχ ησλ cluster, ή ηεο αξρηθήο δηακέξηζεο. Απηφ είλαη ην πιενλέθηεκα ησλ ηεξαξρηθψλ κεζφδσλ, έλαληη ησλ κε ηεξαξρηθψλ, θαζψο επίζεο θη φηη είλαη ππνινγηζηηθά γξεγνξφηεξεο. Όκσο νη ηεξαξρηθέο έρνπλ ην κεηνλέθηεκα, φηη άπαμ θαη κηα παξαηήξεζε αλαηεζεί ζ έλα cluster, δελ κπνξεί λα αλαηεζεί εθ λένπ ζ έλα θαηλνχξην cluster. Οη αιγφξηζκνη κε ηεξαξρηθήο νκαδνπνίεζεο, γεληθά είλαη πνιχ επαίζζεηνη ζηελ αξρηθή δηακέξηζε θαη ζα πξέπεη λα ζεκεησζεί φηη, αθνχ κπνξεί λα ρξεζηκνπνηεζεί έλαο αξηζκφο αξρηθψλ δηακεξίζεσλ, ε ηειηθή ιχζε ζα κπνξνχζε λα νδεγήζεη ζε ηνπηθή βειηηζηνπνίεζε ηεο αληηθεηκεληθήο ζπλάξηεζεο. ε πεξηπηψζεηο φπνπ έλα απιφ ηξέμηκν ηνπ αιγνξίζκνπ απαηηεί απφ ηνλ ρξήζηε λα δηεπθξηλίζεη ην Κ, θαιή ηδέα είλαη λα μαλαηξέρνπκε ηνλ αιγφξηζκν γηα δηάθνξεο επηινγέο ηνπ Κ, ψζηε λα θαηαιήμνπκε ζε αζθαιέο ζπκπέξαζκα, φζνλ αθνξά ηελ ηειηθή ζχλζεζε ησλ ζπζηάδσλ. Απνηειέζκαηα κειεηψλ πξνζνκνίσζεο έρνπλ δείμεη φηη ν αιγφξηζκνο k-means θαη άιινη κε ηεξαξρηθνί αιγφξηζκνη νκαδνπνίεζεο, έρνπλ ρακειή απφδνζε, φηαλ ρξεζηκνπνηνχληαη ηπραίεο αξρηθέο δηακεξίζεηο. Όκσο ε απφδνζε ηνπο είλαη πνιχ αλψηεξε, φηαλ ρξεζηκνπνηνχληαη απνηειέζκαηα απφ ηεξαξρηθέο κεζφδνπο, γηα λα ζρεκαηίζνπλ ηελ αξρηθή δηακέξηζε. Δπνκέλσο, ζπλίζηαηαη φηη γηα κε ηεξαξρηθέο κεζφδνπο νκαδνπνίεζεο, ζα ρξεζηκνπνηνχζε θαλείο κηα εθ ησλ πξνηέξσλ αξρηθή δηακέξηζε ή ιχζε ησλ cluster. Με άιια ιφγηα νη ηεξαξρηθέο θαη νη κε ηεξαξρηθέο ηερληθέο νκαδνπνίεζεο, ζα κπνξνχζαλ λα ζεσξεζνχλ ζαλ ζπκπιεξσκαηηθέο ηερληθέο θη φρη ζαλ αληαγσληζηηθέο. Καηά ζπλέπεηα, νη ηεξαξρηθέο κέζνδνη ρξεζηκνπνηνχληαη θάπνηεο θνξέο κε κηα δηεξεπλεηηθή έλλνηα θαη ε ιχζε πνπ πξνθχπηεη, ππνβάιιεηαη ζε κηα κε ηεξαξρηθή κέζνδν, γηα λα βειηηψζεη πεξαηηέξσ ηελ ιχζε ησλ cluster. 75

87 Όκσο πνηα απφ ηα δχν είδε ηερληθψλ νκαδνπνίεζεο είλαη ε θαιχηεξε; Έπεηηα δεδνκέλνπ φηη ν εξεπλεηήο επηιέγεη κηα απφ ηηο 2 ηερληθέο (δειαδή ηεξαξρηθέο ή κε ηεξαξρηθέο), πνηα ζπγθεθξηκέλε κέζνδν ή αιγφξηζκν γηα κηα δεδνκέλε ηερληθή (δειαδή centroid ή θνληηλφηεξνο γείηνλαο γηα ηελ ηεξαξρηθή κέζνδν), ζα πξέπεη λα επηιέμεη; Πξνθαλψο ε ζπδήηεζε εμαξηάηαη απφ ην αληηθείκελν ηεο κειέηεο θαη ηηο ηδηφηεηεο ησλ δηαθφξσλ αιγνξίζκσλ. Οη Punj θαη Stewart (1983), παξέρνπλ ζπλνπηηθέο πεξηιήςεηο ησλ δηαθφξσλ αιγνξίζκσλ νκαδνπνίεζεο θαη εκπεηξηθέο κειέηεο πνπ ζπγθξίλνπλ απηνχο ηνπο αιγνξίζκνπο. Απηέο νη πεξηιήςεηο παξνπζηάδνληαη ζην παξαθάησ παξάζεκα: Παπάθεμα Α Δμπειπικέρ ζςγκπίζειρ για ηην εκηέλεζη ηων αλγοπίθμων ομαδοποίηζηρ Ααααα Αλαθνξά Δμεηαδόκελεο Μέζνδνη Cunningham θαη Απιή, πιήξεο, Ogilvie (1972) κέζνπ φξνπ ζχλδεζε κε επθιείδεηεο απνζηάζεηο θαη ηερληθή ειάρηζηεο δηαζπνξάο ηνπ Ward. Σύλνια δεδνκέλσλ πνπ ρξεζηκνπνηνύληαη Σύγθιηζε Καλνληθέο κίμεηο πιήξεο θαηαλνκψλ Σύλνςε Κξηηήξηα απνηειεζκάησλ Μέηξα ηεο Ζ ζχλδεζε κέζνπ πίεζεο(stress) φξνπ, μεπέξαζε γηα λα ζπγθξίλνπκε άιιεο κεζφδνπο. ηηο εηζφδνπο ζηνλ πίλαθα νκνηφηεηαο/ αλνκνηφηεηαο κε ηε ζρέζε νκνηφηεηαο φισλ ησλ νληνηήησλ πνπ απεηθνλίδνληαη απ ηελ κέζνδν νκαδνπνίεζεο. Kuiper θαη Fisher (1975) Απιή,πιήξεο,κέζνπ φξνπ, centroid, δηάκεζε ζχλδεζε φιεο ρξεζηκνπνηψληαο επθιείδεηεο θαη ηελ ηερληθή ειάρηζηεο δηαζπνξάο ηνπ Ward. Γηκεηαβιεηέο Καλνληθέο κίμεηο θαηαλνκψλ. πιήξεο ηαηηζηηθφ ηνπ Rand (1971) Ζ ηερληθή ηνπ Ward, μεπέξαζε άιιεο κεζφδνπο. Blashfield (1976) Απιή, πιήξεο, κέζνπ φξνπ ζχλδεζε, φιεο κε επθιείδεηεο απνζηάζεηο θαη ηερληθή ειάρηζηεο δηαζπνξάο ηνπ Ward. Πνιπθαλνληθέο Μίμεηο θαηαλνκψλ πιήξεο Kappa(1960) Ζ ηερληθή ηνπ Ward, απέδεημε ηελ πςειφηεξε κέζε αθξίβεηα. Mojena (1977) Απιφο κέζνο φξνο, ηαζκηζκέλνο κέζνο, δηάκεζνο, centroid, πιήξεο ζχλδεζε, φιεο ρξεζηκνπνηψληαο επθιείδεηεο θαη ηελ ηερληθή ειάρηζηεο δηαζπνξάο ηνπ Ward. Πνιπκεηαβιεηέο Γάκκα κίμεηο Καηαλνκψλ. πιήξεο ηαηηζηηθφ ηνπ Rand Ζ κέζνδνο ηνπ Ward, ππεξείρε ησλ άιισλ κεζφδσλ. Blashfield (1977) 8 επαλαιεπηηθέο κέζνδνη δηακέξηζεο: Οη K-means κέζνδνη ηνπ Anderberg θαη ε CLUSTAN, πνπ ε Πνιπθαλνληθέο Μίμεηο θαηαλνκψλ πιήξεο Kappa Γηα 15 απφ ηα 20 ζχλνια δεδνκέλσλ πνπ εμεηάζηεθαλ, κηα ηερληθή hill- climbing πνπ βειηηζηνπνηεί ην 76

88 θάζε κία κε ηα ζηαηηζηηθά ησλ Cluster,ελεκεξψλεηαη κεηά απφ θάζε εθ λένπ αλάζεζε. Ζ CLUS θαη MIKCA (θαη νη 2 αιγφξηζκνη hill-climbing),θάζε κηα κε βειηηζηνπνίεζε ηνπ ηνπ trw θαη W. W, εθηειείηαη θαιχηεξα, δει ε MIKCA ή ε CLUS. ε 2 άιιεο πεξηπηψζεηο, κηα κέζνδνο hill- climbing πνπ βειηηζηνπνηεί ην trw εθηειείηαη θαιχηεξα, ε CLUS. Milligan θαη Isaac(1978) Απιή, πιήξεο, κέζνπ φξνπ ζχλδεζε κε επθιείδεηεο απνζηάζεηο θαη ηερληθή ειάρηζηεο δηαζπνξάο ηνπ Ward. Σα ζχλνια δεδνκέλσλ δηαθέξνπλ ζηνλ βαζκφ ηεο δηαηαξαρήο ηνπ ιάζνπο. πιήξεο Kappa θαη ζηαηηζηηθφ ηνπ Rand Ζ κέζε ζχλδεζε θαη ε ηερληθή ηνπ Ward αλψηεξεο απφ ηελ απιή θαη πιήξε ζχλδεζε. Mezzich (1978) Απιή, πιήξεο ζχλδεζε θαη k-means,θάζε κηα κε απνζηάζεηο city-block,επθιείδεηεο θαη ζπλη. ζπζρέηηζεο, ISODATA,κέζνδνη Friedman θαη Rubin, Q-factor αλάιπζε, πνιπδηάζηαηε θιηκάθσζε κε cityblock, επθιείδεηεο κεηξηθέο θαη ζπληειεζηέο ζπζρέηηζεο, NORMAP/ NORMIX, κέζε ζχλδεζε κε ζπλη. ζπζρέηηζεο. Φπρηαηξηθέο αμηνινγήζεηο πιήξεο Καιή πνηφηεηα Πξνζαξκνγήο αλάκεζα ζηηο εηζφδνπο ησλ ζεηξψλ ηνπ πίλαθα αλνκνηφηεηαο θαη ηνπ πίλαθα ησλ 0 θαη 1, πνπ δείρλεη ηηο νληφηεηεο πνπ νκαδνπνηνχληαη καδί. Ζ δηαδηθαζία k- mean κε επθιείδεηεο απνζηάζεηο εθηειείηαη θαιχηεξα, αθνινπζνχκελε απ ηελ δηαδηθαζία k-means κε ηελ κεηξηθή city- block. Δπίζεο, ε κέζε ζχλδεζε,εθηειείηαη θαιά φπσο θαη ε πιήξεο ζχλδεζε, κε έλα ζπλη. ζπζρέηηζεο θαη ηελ cityblock κεηξηθή θαη ISO-DATA. Σν είδνο ηεο κεηξηθήο πνπ ρξεζηκνπνηήζεθε (r, city-block ή επθιείδεηα) είρε κηθξφ αληίθηππν ζηα απνηειέζκαηα. Edelbrock (1979) Απιή, πιήξεο, κέζνπ φξνπ ζχλδεζε θαη centroid θάζε κηα κε ζπληειεζηέο ζπζρέηηζεο θαη επθιείδεηεο απνζηάζεηο θαη ε ηερληθή ειάρηζηεο δηαζπνξάο ηνπ Ward. Πνιπκεηαβιεηέο 70, 80, 90 Καλνληθέο 95, 100% κίμεηο θαηαλνκψλ ηππνπνηεκέλεο θαη κε ηππνπνηεκέλεο. Kappa Ζ κέζνδνο ηνπ Ward θαη απινχ κέζνπ ήηαλ νη πην αθξηβείο. Ζ εθηέιεζε φισλ ησλ αιγνξίζκσλ ρεηξνηέξεςε, θαζψο απμήζεθε ε ζχγθιηζε αιιά απηφ ήηαλ ιηγφηεξν έληνλν, φηαλ ηππνπνηήζεθαλ ηα δεδνκέλα ή ρξεζηκνπνηήζεθαλ ζπληειεζηέο ζπζρέηηζεο. Ζ ηειεπηαία δηαπίζησζε, πξνθχπηεη απφ ηελ κεησκέλε αθξφηεηα ησλ outlier πνπ ζπλδέεηαη κε ηελ ηππνπνίεζε ή ηελ ρξήζε ησλ ζπληειεζηψλ ζπζρέηηζεο. Edelbrock θαη McLaughlin (1980) Απιή, πιήξεο, κέζνπ φξνπ ζχλδεζε θάζε κηα κε ζπληειεζηέο ζπζρέηηζεο, Πνιπκεηαβιεηέο 40, 50, 60 Καλνληθέο κίμεηο 70, 80, 90 θαη πνιπκεηαβιεηέο 95, 100% Γάκκα κίμεηο. Kappa θαη ζηαηηζηηθφ ηνπ Rand. Ζ κέζνδνο ηνπ Ward θαη κέζνπ φξνπ πνπ ρξεζηκνπνηνχλ ελδνζπζρεηίζεηο ελφο παξάγνληα ήηαλ νη πην αθξηβείο. Ζ εθηέιεζε 77

89 επθιείδεηεο απνζηάζεηο, ελδνζπζρεηίζεηο ελφο ή δχν παξαγφλησλ θαη ηερληθή ειάρηζηεο δηαζπνξάο ηνπ Ward. φισλ ησλ αιγνξίζκσλ ρεηξνηέξεςε, θαζψο απμήζεθε ε ζχγθιηζε. Blashfield θαη Morey (1980) Σερληθή ειάρηζηεο δηαζπνξάο ηνπ Ward, ζχλδεζε κέζνπ νκάδαο, Q-factor αλάιπζε, κε Ηεξαξρηθή δηαδηθαζία ηνπ Lorr, φιεο ρξεζηκνπνηψληαο ηνπο ζπλη. ζπζρέηηζεο ηνπ Pearson ζαλ κέηξν νκνηφηεηαο. Πνιπκεηαβιεηέο Καλνληθέο κίμεηο. Πνηθίια Δπίπεδα kappa Ζ κέζνδνο κέζνπ νκάδαο θαιχηεξε, ζηα πςειφηεξα επίπεδα ζχγθιηζεο. ηα ρακειφηεξα επίπεδα ε κέζνδνο ηνπ Ward θαη κέζεο νκάδαο, εθηεινχληαη παξνκνίσο. Milligan (1980) Απιή, πιήξεο, κέζνο νκάδαο, ζηαζκηζκέλνο κέζνο, centroid θαη δηάκεζε ζχλδεζε, ειάρηζηε δηαζπνξά ηνπ Ward, ειάρηζην κέζν άζξνηζκα ηεηξαγψλσλ, ειάρηζην ζπλνιηθφ άζξνηζκα ηεηξαγψλσλ, βήηαεχθακπηε (Lance& Williams, 1970a,b), κέζε ζχλδεζε ζην λέν cluster,κέζνδνο ηνπ MacQueen,ηνπ Jancey,k- means κε ηπραία αξρηθά ζεκεία, k-means κε παξαγφκελα αξρηθά ζεκεία, φια ρξεζηκνπνηψληαο επθιείδεηεο απνζηάζεηο, r p ηνπ Cattell θαη ην r ηνπ Pearson. Πνιπκεηαβιεηέο πιήξεο θαλνληθέο κίμεηο πνπ ηππνπνηνχληαη θαη πνηθίιινπλ ζηνλ αξηζκφ ησλ cluster θαη ζην ζρήκα ηεο θαηαλνκήο ησλ ζεκείσλ ησλ cluster. Σα ζχλνια δεδνκέλσλ θπκαίλνληαη απφ ρσξίο ζθάικαηα, ζε 2 επίπεδα δηαηαξαρψλ ζθάικαηνο ησλ κέηξσλ απφζηαζεο, απ ην λα κελ πεξηέρνπλ θαζφινπ outliers, ζε 2 επίπεδα πεξηπηψζεσλ outliers, θαη απ ην θαζφινπ κεηαβιεηέο άζρεηεο κε ηα cluster,ζε 1 ή 2 ηπραία νξηζκέλεο δηαζηάζεηο, αλεμάξηεηεο απ ηα ππνθείκελα cluster. ηαηηζηηθφ ηνπ Ζ δηαδηθαζία k-means Rand, ην ζεκείν κ έλα παξαγφκελν Γηζεηξηαθήο ζεκείν, γεληθά εθηειείηαη ζπζρέηηζεο θαιχηεξα απ ηηο άιιεο αλάκεζα ζηελ κεζφδνπο γηα φιεο ηηο είζνδν ησλ ζεηξψλ πξνυπνζέζεηο: ηνπ πίλαθα 1. Ζ επηινγή ηνπ κέηξνπ αλνκνηφηεηαο απφζηαζεο,δελ θαίλεηαη θη ελφο πίλαθα θξίζηκε. Οη κέζνδνη ησλ 0 θαη 1, πνπ γεληθά ηζρχνπλ γηα φια δείρλεη ηηο ηα κέηξα απφζηαζεο. νληφηεηεο πνπ 2. Ζ παξνπζία ηπραίσλ νκαδνπνηνχληαη δηαζηάζεσλ, παξήγαγε καδί. κεηψζεηο ζηελ αλάθηεζε ησλ cluster Ζ κέζνδνο απιήο 5. ζχλδεζεο, επεξεάδεηαη 6. ηζρπξά απφ δηαηαξαρέο 7. ιάζνπο. Άιιεο ηεξαξρηθέο 8. κέζνδνη κέηξηα θαη νη κε 9. ηεξαξρηθέο επεξεάδνληαη 10. ειάρηζηα απφ δηαηαξαρέο Ζ πιήξεο ζχλδεζε 12. θαη ε κέζνδνο ηνπ 13. Ward, παξνπζίαζαλ 14. αηζζεηέο κεηψζεηο, ζηελ 15. εθηέιεζε ησλ 16. πεξηπηψζεσλ ησλ 17. αθξαίσλ ηηκψλ: απιή 18. κέζνδνο, κέζνο νκάδαο 19. θαη Centroid, κφλν ιίγν 20. επεξεάζηεθαλ απ ηελ 21. παξνπζία αθξαίσλ ηηκψλ. 22. Οη κε ηεξαξρηθέο κέζνδνη, 23. δελ επεξεάδνληαη 24. γεληθά απ ηελ παξνπζία 25. αθξαίσλ ηηκψλ Ζ κέζνδνο κέζνπ 27. νκάδαο θαιχηεξε απ 28. ηηο ηεξαξρηθέο κεζφδνπο 29. πνπ ρξεζηκνπνηήζεθαλ 30. γηα ηνλ πξνζδηνξηζκφ 31. αξρηθψλ ζεκείσλ γηα ηελ 32. δηαδηθαζία k-means Οη κε ηεξαξρηθέο 34. κέζνδνη πνπ 35. ρξεζηκνπνηνχλ ηπραία 78

90 36. αξρηθά ζεκεία 37. εθηειέζηεθαλ 38. θαθψο γηα φιεο ηηο πξνυπνζέζεηο. Bayne, Beauchamp, Begovich θαη Kane (1980) Απιή, πιήξεο, απιφο κέζνο, ζηαζκηζκέλνο κέζνο, centroid δηάκεζε ζχλδεζε θαη ειάρηζηε δηαζπνξά ηνπ Ward, θαη 2 λέεο ηεξαξρηθέο κέζνδνη, νη κέζνδνη δηαζπνξάο θαη θαηάηαμεο απνηειέζκαηνο.4 ηεξαξρηθέο κέζνδνη: ηνπ Wolfe, NORMIX, k-means,2 παξαιιαγέο ηεο δηαδηθαζίαο ησλ Friedman- Rubin (trw θαη W ). Οη Δπθιείδεηεο απνζηάζεηο εμππεξεηνχλ ζαλ κέηξα νκνηφηεηαο. 6 παξακεηξηθνπνηήζεηο πιήξεο 2- δηκεηαβιεηψλ Καλνληθψλ Πιεζπζκψλ. ζηαηηζηηθφ ηνπ Rand k-means, trw θαη W, παξείραλ ηελ θαιχηεξε αλάθηεζε ηεο δνκήο ησλ cluster. H NORMIX εθηειέζηεθε πην άζρεκα. Μεηαμχ ησλ ηεξαξρηθψλ κεζφδσλ, ε ηερληθή Ward, ε πιήξεο ζχλδεζε θαη νη κέζνδνη δηαζπνξάο θαη θαηάηαμεο απνηειέζκαηνο, εθηειέζηεθαλ θαιχηεξα. Παξαιιαγέο ηεο κεζφδνπ κέζεο ζχλδεζεο εθηειέζηεθαλ επίζεο θαιά, αιιά φρη ηφζν θαιά φζν νη άιιεο κέζνδνη. Ζ απιή ζχλδεζε εθηειέζηεθε άζρεκα Αμηνπηζηία θαη εμσηεξηθή εγθπξόηεηα κηαο ιύζεο cluster. Δπεηδή ε αλάιπζε ζπζηάδσλ είλαη κηα επξεηηθή ηερληθή, κηα ιχζε νκαδνπνίεζεο ζα έρεη απνηέιεζκα, αθφκα θη φηαλ κπνξεί λα κελ ππάξρνπλ, θαζφινπ θπζηθέο νκάδεο ή cluster, ζηα δεδνκέλα. Έηζη απνδεηθλχνληαο ηελ αμηνπηζηία θαη ηελ εμσηεξηθή εγθπξφηεηα, κηαο ιχζεο cluster, απηή γίλεηαη αθφκα πην ζεκαληηθή Αμηνπηζηία Ζ αμηνπηζηία, κπνξεί λα απνδεηρζεί απφ κηα δηαδηθαζία δηαζηαπξσκέλεο επηθχξσζεο, πνπ πξνηάζεθε απφ ηνπο McIntyre θαη Blashfield (1980). Σν ζχλνιν δεδνκέλσλ, ρσξίδεηαη αξρηθά ζε 2 ίζα κέξε. Γίλεηαη αλάιπζε ζπζηάδσλ, ζην 1 ν κηζφ ηνπ δείγκαηνο, θαη πξνζδηνξίδνληαη ηα centroid ησλ cluster. Οη παξαηεξήζεηο ηνπ 2 νπ κηζνχ ηνπ δείγκαηνο, θαηαρσξνχληαη ζην centroid ηνπ cluster, πνπ έρεη ηε κηθξφηεξε επθιείδεηα απφζηαζε. Ο βαζκφο ζπκθσλίαο, αλάκεζα ζηελ αλάζεζε ησλ παξαηεξήζεσλ θαη κηα μερσξηζηή αλάιπζε ζπζηάδσλ ηνπ 2 νπ δείγκαηνο, είλαη έλαο δείθηεο ηεο αμηνπηζηίαο. Ζ δηαδηθαζία κπνξεί λα επαλαιεθζεί, πξαγκαηνπνηψληαο αλάιπζε ζπζηάδσλ, ζην 2 ν δείγκα, αλαζέηνληαο παξαηεξήζεηο ζην 1 ν δείγκα, θαη ππνινγίδνληαο ην βαζκφ ζπκθσλίαο, αλάκεζα ζηελ αλάζεζε θαη ηελ αλάιπζε ζπζηάδσλ, ζην 1 ν κηζφ. 79

91 Δμσηεξηθή Δγθπξόηεηα Ζ εμσηεξηθή εγθπξφηεηα, ιακβάλεηαη ζπγθξίλνληαο ηα απνηειέζκαηα ηεο αλάιπζεο ζπζηάδσλ, κε έλα εμσηεξηθφ θξηηήξην. Τπνζέηνπκε, γηα παξάδεηγκα, φηη νκαδνπνηνχκε, εηαηξείεο, πνπ βαζίδνληαη ζε νξηζκέλεο νηθνλνκηθέο αλαινγίεο, θη έηζη ιακβάλνπκε 2 cluster: ηηο εηαηξείεο πνπ είλαη νηθνλνκηθά πγηείο θη εθείλεο πνπ δελ είλαη νηθνλνκηθά πγηείο. Ζ εμσηεξηθή εγθπξφηεηα, κπνξεί ηφηε λα απνδεηρζεί, ζπζρεηίδνληαο ηα απνηειέζκαηα ηεο αλάιπζεο ζπζηάδσλ, κε ηελ ηαμηλφκεζε πνπ ιακβάλεηαη απφ αλεμάξηεηνπο εθηηκεηέο (δειαδή ειεγθηέο, νηθνλνκηθνχο αλαιπηέο, ρξεκαηηζηέο, βηνκεραληθνχο αλαιπηέο) Πνιπδηάζηαηε Κιηκάθσζε (Multidimensional Scaling- MDS) Ζ πνιπδηάζηαηε θιηκάθσζε, είλαη κηα ηερληθή πνπ αλαπηχρζεθε, γηα ηελ θαηαζθεπή ελφο ράξηε, πνπ απεηθνλίδεη ηηο ζπζρεηίζεηο, αλάκεζα ζε έλαλ αξηζκφ αληηθεηκέλσλ, δεδνκέλνπ κφλν ελφο πίλαθα απνζηάζεσλ αλάκεζα ηνπο. Απηφο ν ράξηεο, κπνξεί λα είλαη νπνηαζδήπνηε δηάζηαζεο. πλεπψο νη ηερληθέο ηεο πνιπδηάζηαηεο θιηκάθσζεο, αληηκεησπίδνπλ ην αθφινπζν πξφβιεκα: Γηα έλα ζχλνιν παξαηεξεζέλησλ νκνηνηήησλ (ή απνζηάζεσλ) κεηαμχ θάζε δεχγνπο ησλ Ν ζηνηρείσλ, βξίζθνπκε κηα αλαπαξάζηαζε ησλ ζηνηρείσλ ζηηο ιίγεο δηαζηάζεηο, έηζη ψζηε νη εγγχηεηεο κεηαμχ ησλ ζηνηρείσλ, «ζρεδφλ λα πξνζεγγίδνπλ» ηηο αξρηθέο νκνηφηεηεο (ή απνζηάζεηο). Με άιια ιφγηα, δνζέλησλ Ν ζηνηρείσλ, ζ έλα ρψξν p- δηαζηάζεσλ, θη ελφο Ν Ν πίλαθα, πνπ απνηειείηαη απφ ηα κέηξα εγγχηεηαο κεηαμχ απηψλ ησλ ζηνηρείσλ, ν αιγφξηζκνο MDS, παξάγεη κηα αλαπαξάζηαζε ησλ ζηνηρείσλ q-δηαζηάζεσλ κε q p, έηζη ψζηε νη απνζηάζεηο κεηαμχ απηψλ ησλ ζηνηρείσλ ζηνλ θαηλνχξην ρψξν, λα αληηπξνζσπεχνπλ ηηο γεηηληάζεηο ησλ αξρηθψλ δεδνκέλσλ (δειαδή ηηο (αλ)νκνηφηεηεο). Μπνξεί λα κελ είλαη δπλαηφλ, λα ηαηξηάμεη αθξηβψο, ε δηάηαμε ησλ αξρηθψλ νκνηνηήησλ. πλεπψο, νη ηερληθέο θιηκάθσζεο, πξνζπαζνχλ λα βξνπλ θαηαζηάζεηο, ζε q N-1 δηαζηάζεηο, έηζη ψζηε ε αληηζηνηρία, λα είλαη φζν ην δπλαηφλ, πιεζηέζηεξε. Σν αξηζκεηηθφ κέηξν ηεο εγγχηεηαο, πνπ εθθξάδεη ηελ αμηνπηζηία ηεο πξνβνιηθήο απεηθφληζεο, αλαθνξηθά κε ηελ ηθαλφηεηα ηνπ αιγνξίζκνπ λα εθθξάζεη ηελ αξρηθή δνκή ησλ δεδνκέλσλ θαιείηαη πίεζη (stress). Δίλαη δπλαηφλ, λα δηαηάμνπκε ηα Ν ζηνηρεία ζ έλα ρακειψλ δηαζηάζεσλ ζχζηεκα ζπληεηαγκέλσλ, ρξεζηκνπνηψληαο κφλν ηηο δηαηάμεηο βαζκψλ, ησλ αξρηθψλ απνζηάζεσλ (νκνηνηήησλ) θη φρη ηα κεγέζε ηνπο. Μφλν φηαλ απηή ε δηαηαθηηθή πιεξνθνξία, ρξεζηκνπνηείηαη, γηα λα πάξνπκε κηα γεσκεηξηθή αλαπαξάζηαζε, ε δηαδηθαζία θαιείηαη κε κεηξηθή πνιπδηάζηαηε θιηκάθσζε. Αλ ρξεζηκνπνηνχληαη ηα πξαγκαηηθά κεγέζε ησλ αξρηθψλ απνζηάζεσλ, γηα λα πάξνπκε κηα γεσκεηξηθή αλαπαξάζηαζε, ζηηο q-δηαζηάζεηο, ε δηαδηθαζία θαιείηαη κεηξηθή πνιπδηάζηαηε θιηκάθσζε. Σερληθέο θιηκάθσζεο, αλαπηχζζνληαη απφ ηνλ Shepard, ηνλ Kruskal θαη άιινπο. Ζ πνιπδηάζηαηε θιηκάθσζε, απαηηεί ηελ ρξήζε ελφο ππνινγηζηή θαη δηάθνξα θαιά πξνγξάκκαηα ππνινγηζηψλ, είλαη δηαζέζηκα γη απηφλ ηνλ ζθνπφ. 80

92 Ο Βαζηθόο Αιγόξηζκνο Γηα Ν ζηνηρεία, ππάξρνπλ Μ= Ν(Ν-1)/2 νκνηφηεηεο (απνζηάζεηο), κεηαμχ ησλ δεπγαξηψλ ησλ δηαθνξεηηθψλ ζηνηρείσλ. Απηέο νη νκνηφηεηεο απνηεινχλ ηα βαζηθά δεδνκέλα. (ζε πεξηπηψζεηο, φπνπ νη νκνηφηεηεο δελ κπνξνχλ λα πνζνινγεζνχλ εχθνια, φπσο π.ρ. νκνηφηεηα κεηαμχ 2 ρξσκάησλ, ηα βαζηθά δεδνκέλα είλαη, νη δηαηάμεηο ησλ βαζκψλ ησλ νκνηνηήησλ). Τπνζέηνπκε φηη, νη νκνηφηεηεο, κπνξνχλ λα δηαηαρηνχλ ζε κηα απζηεξά αλνδηθή δηάηαμε φπσο: < < < ( 4.1) Δδψ είλαη ε κηθξφηεξε απ ηηο Μ νκνηφηεηεο. Ο δείθηεο i 1 k 1, δείρλεη ην δεχγνο ησλ ζηνηρείσλ, πνπ είλαη ηα ιηγφηεξν φκνηα: δειαδή ηα ζηνηρεία ηάμεο 1, ζηελ δηάηαμε ησλ νκνηνηήησλ. Οη άιινη δείθηεο εξκελεχνληαη κε ηνλ ίδην ηξφπν. Θέινπκε λα βξνχκε κηα q- δηάζηαηε δηακφξθσζε ησλ Ν ζηνηρείσλ, έηζη ψζηε νη απνζηάζεηο, κεηαμχ ησλ δεπγψλ ησλ ζηνηρείσλ, λα αληηζηνηρνχλ ζηελ δηάηαμε (4.1). Αλ νη απνζηάζεηο ζρεδηάδνληαη κε ηξφπν, αληίζηνηρν ηεο (4.1), εκθαλίδεηαη κηα ηέιεηα αληηζηνηρία, φηαλ: > > > (4.2). Γειαδή ε θαζνδηθή δηάηαμε ησλ απνζηάζεσλ ζηηο q δηαζηάζεηο, είλαη αθξηβψο αλάινγε, ηεο αλνδηθήο δηάηαμεο, ησλ αξρηθψλ νκνηνηήησλ. Δθφζνλ ε δηάηαμε (4.2) δηαηεξείηαη, ηα κεγέζε ησλ απνζηάζεσλ είλαη αζήκαληα. Γηα δεδνκέλε ηηκή ηνπ q, κπνξεί λα κελ είλαη δπλαηφλ λα βξεζεί κηα δηακφξθσζε ησλ ζεκείσλ, ησλ νπνίσλ νη θαηά δεχγε απνζηάζεηο, ζρεηίδνληαη κνλφηνλα κε ηηο αξρηθέο νκνηφηεηεο. Ο Kruskal, πξφηεηλε έλα κέηξν ηνπ βαζκνχ, ζηνλ νπνίν κηα γεσκεηξηθή αλαπαξάζηαζε ππνιείπεηαη κηαο ηέιεηαο αληηζηνηρίαο. Απηφ ην κέηξν, γλσζηφ σο stress, νξίδεηαη σο εμήο: S Σα (q) (d - (q) ) 2 ik d ik tress(q) = i<k (q) 2 [d ik ] i<k 1/2 (4.3) ζηνλ ηχπν ηνπ stress, είλαη γλσζηνί αξηζκνί, πνπ ηθαλνπνηνχλ ηελ (4.2), δειαδή ζρεηίδνληαη κνλφηνλα κε ηηο νκνηφηεηεο. Σα, δελ είλαη απνζηάζεηο, ππφ ηελ έλλνηα φηη ηθαλνπνηνχλ ηηο ηδηφηεηεο ηεο απφζηαζεο. Δίλαη απιψο κφλν αξηζκνί, πνπ ρξεζηκνπνηνχληαη γηα λα ππνινγίζνπλ, ηελ κε- κνλνηνλία ησλ παξαηεξεζέλησλ. Ζ ηδέα είλαη λα βξνχκε κηα αλαπαξάζηαζε ησλ ζηνηρείσλ, ζαλ ζεκεία ζηηο q- δηαζηάζεηο, έηζη ψζηε ε stress λα είλαη φζν ην δπλαηφλ κηθξφηεξε. Ο Kruskal, ππνδεηθλχεη φηη ε stress, εξκελεχεηαη άηππα, ζχκθσλα κε ηνλ αθφινπζν θαλφλα: Stress Πνηόηεηα Πξνζαξκνγήο 20% Poor 10% Fair 5% Good % Excellent 0% Perfect 81

93 Η πνηόηεηα πξνζαξκνγήο, αλαθέξεηαη ζηελ κνλφηνλε ζρέζε, κεηαμχ νκνηνηήησλ θαη ηειηθψλ απνζηάζεσλ. Αθνχ ηα ζηνηρεία ηνπνζεηεζνχλ ζηηο q- δηαζηάζεηο, ηα (q 1) δηαλχζκαηα ζπληεηαγκέλσλ ηνπο, κπνξνχλ λα ρξεζηκνπνηεζνχλ, ζαλ πνιπκεηαβιεηέο παξαηεξήζεηο. Γηα ιφγνπο αλαπαξάζηαζεο, είλαη θαηάιιειν λα απεηθνλίζνπκε απηφ ην q-δηάζηαην δηάγξακκα δηαζπνξάο, απφ ηελ άπνςε ησλ αμφλσλ ησλ θχξησλ ζπληζησζψλ ηνπ. Έρνπκε γξάςεη ην stress ζαλ ζπλάξηεζε ηνπ q, ηνπ αξηζκνχ ησλ δηαζηάζεσλ, γηα ηελ γεσκεηξηθή αλαπαξάζηαζε. Γηα θάζε q, κπνξεί λα ιεθζεί ε θαηάζηαζε, πνπ νδεγεί ζηελ ειάρηζηε ηηκή ηνπ stress. Γεδνκέλνπ φηη ην q απμάλεηαη, ε ειάρηζηε ηηκή ηνπ stress κε ζηξνγγπινπνηεκέλν ιάζνο, ζα κεησζεί θαη ζα γίλεη 0, γηα q = N-1. Ξεθηλψληαο κε q=1, κπνξεί λα θαηαζθεπαζηεί κηα γξαθηθή παξάζηαζε ησλ ηηκψλ ηνπ stress κε ην q. Ζ ηηκή ηνπ q, γηα ηελ νπνία απηή ε γξαθηθή παξάζηαζε, αξρίδεη λα ζηαζεξνπνηείηαη, κπνξεί λα επηιεγεί, ζαλ ε «θαιχηεξε» επηινγή ηεο δηαζηαηηθφηεηαο. Φάρλνπκε, δειαδή γηα κηα γσλία, elbow ζηε γξαθηθή παξάζηαζε ηνπ stress - δηαζηαηηθφηεηαο. Ο αιγόξηζκνο ηεο πνιπδηάζηαηεο θιηκάθσζεο, ζπλνςίδεηαη ζηα αθφινπζα βήκαηα: 1. Γηα Ν ζηνηρεία, παίξλνπκε Μ=Ν(Ν-1)/2 νκνηφηεηεο (απνζηάζεηο) κεηαμχ ησλ επδηάθξηησλ δεπγψλ ησλ ζηνηρείσλ. Γηαηάζζνπκε ηηο νκνηφηεηεο φπσο ζηελ (4.1)(νη απνζηάζεηο δηαηάζζνληαη απ ηελ κεγαιχηεξε ζηε κηθξφηεξε. Αλ νη νκνηφηεηεο δελ κπνξνχλ λα ππνινγηζηνχλ, πξέπεη λα δηεπθξηληζηνχλ νη δηαηάμεηο ησλ βαζκψλ). 2. Υξεζηκνπνηψληαο κηα δνθηκαζηηθή θαηάζηαζε ζηηο q- δηαζηάζεηο, θαζνξίδνπκε ηηο απνζηάζεηο κεηαμχ ζηνηρείσλ θαη ηνπο αξηζκνχο, φπνπ νη ηειεπηαίνη ηθαλνπνηνχλ ηελ (4.2) θαη ειαρηζηνπνηνχλ ην stress (4.3). (νη ζπρλά θαζνξίδνληαη, ζηα πιαίζηα ππνινγηζηηθψλ πξνγξακκάησλ αιιαγήο θιίκαθνο, ρξεζηκνπνηψληαο κεζφδνπο παιηλδξφκεζεο, κε ζθνπφ λα παξάγνπλ κνλφηνλα «πξνζαξκνζκέλεο» απνζηάζεηο.) 3. Υξεζηκνπνηψληαο ηα, ηα ζεκεία κεηαθηλνχληαη ηξηγχξσ γηα λα πάξνπκε κηα βειηησκέλε θαηάζηαζε. (Γηα q ζηαζεξφ, κηα βειηησκέλε θαηάζηαζε, θαζνξίδεηαη απφ κηα γεληθή ζπλάξηεζε ειαρηζηνπνίεζεο πνπ εθαξκφδεηαη ζηνλ ηχπν ηνπ stress. απηφ ην πιαίζην, ε stress ζεσξείηαη ζαλ κηα ζπλάξηεζε ησλ Ν q ζπληεηαγκέλσλ ησλ Ν ζηνηρείσλ). Μηα λέα θαηάζηαζε, ζα έρεη θαηλνχξηα θαη θαη κηθξφηεξε stress. Ζ δηαδηθαζία επαλαιακβάλεηαη, έσο φηνπ ιάβνπκε ηελ θαιχηεξε αλαπαξάζηαζε (ειάρηζηε stress). 4. ρεδηάδνπκε ηελ ειάρηζηε stress(q) ζε ζπλάξηεζε ηνπ q, θαη δηαιέγνπκε ηνλ θαιχηεξν αξηζκφ δηαζηάζεσλ q* απφ έιεγρν απηνχ ηνπ δηαγξάκκαηνο. Έρνπκε ππνζέζεη φηη νη αξρηθέο ηηκέο νκνηφηεηαο είλαη ζπκκεηξηθέο (s ik = s ki ), δελ ππάξρνπλ δεζκεχζεηο, νχηε ειιηπείο παξαηεξήζεηο. Ο Kruskal έρεη πξνηείλεη κεζφδνπο, γηα ην ρεηξηζκφ αζπκκεηξηψλ, ησλ δεζκεχζεσλ θαη ησλ ειιηπψλ παξαηεξήζεσλ. Δπηπιένλ, ππάξρνπλ πξνγξάκκαηα ππνινγηζηψλ πνιπδηάζηαηεο θιηκάθσζεο, πνπ ζα ρεηξηζηνχλ φρη κφλν ηελ επθιείδεηα απφζηαζε, αιιά θαη νπνηαδήπνηε απφζηαζε ηνπ ηχπνπ Minkowski. 82

94 Πνιπδηάζηαηε Κιηκάθσζε ησλ πόιεσλ ησλ ΗΠΑ Ο πίλαθαο 4.8, αλαπαξηζηάλεη ηηο απνζηάζεηο ησλ αεξνγξακκψλ, αλάκεζα ζηα δεχγε ζπγθεθξηκέλσλ πφιεσλ ησλ ΖΠΑ. Γεδνκέλνπ, φηη νη πφιεηο, βξίζθνληαη θπζηθά ζ έλα δηδηάζηαην ρψξν, δελ εθπιήζζεη ην γεγνλφο, φηη ε πνιπδηάζηαηε αιιαγή θιίκαθνο κε q=2, ζα εληνπίζεη απηά ηα ζηνηρεία, ζρεηηθά κε ην πνπ εκθαλίδνληαη ζ έλα ράξηε. εκεηψλνπκε, φηη αλ νη απνζηάζεηο ηνπ πίλαθα 4.8, δηαηαρηνχλ απφ ηε κεγαιχηεξε ζηε κηθξφηεξε, δειαδή απφ ηα ιηγφηεξν φκνηα πξνο ηα πεξηζζφηεξα φκνηα, ε πξψηε ζέζε θαιχπηεηαη απφ ηελ d Boston, L.A.= Πίνακαρ 4.8 Γεδνκέλα ησλ απνζηάζεσλ κεηαμύ ησλ αεξνγξακκώλ Έλα ζρεδηάγξακκα ηεο πνιπδηάζηαηεο θιηκάθσζεο γηα q=2 δηαζηάζεηο, απεηθνλίδεηαη ζην ζρήκα 4.4. Οη άμνλεο βξίζθνληαη θαηά κήθνο ησλ δεηγκαηηθψλ θχξησλ ζπληζησζψλ ηνπ δηαγξάκκαηνο δηαζπνξάο. Σρήκα 4.4 Μηα γεσκεηξηθή αλαπαξάζηαζε ησλ πόιεσλ πνπ πξνθύπηεη από πνιπδηάζηαηε θιηκάθσζε. 83

95 Έλα δηάγξακκα ηνπ stress(q) ζε ζπλάξηεζε κε ην q, απεηθνλίδεηαη ζην ζρήκα 4.5. Αθνχ stress(1) 100% = 12%, δελ είλαη παξάινγε κηα αλαπαξάζηαζε ησλ πφιεσλ ζηε κία δηάζηαζε (θαηά κήθνο ηνπ ελφο κφλν άμνλα). Ζ γσλία «elbow» ηεο ζπλάξηεζεο stress, εκθαλίδεηαη γηα q=2. Δδψ stress(2) 100% = 0.8% θαη ε «πξνζαξκνγή» είλαη ζρεδφλ ηέιεηα. Σν δηάγξακκα ηνπ ζρήκαηνο 4.5, δείρλεη φηη ε q=2 είλαη ε θαιχηεξε επηινγή, γηα ηελ δηάζηαζε ηεο ηειηθήο θαηάζηαζεο. εκεηψλνπκε φηη ε stress απμάλεη γηα q=3. Απηή ε αλσκαιία, κπνξεί λα εκθαληζηεί γηα εμαηξεηηθά κηθξέο ηηκέο ηνπ stress, εμαηηίαο ησλ δπζθνιηψλ κε ηελ αξηζκεηηθή δηαδηθαζία αλαδήηεζεο πνπ ρξεζηκνπνηείηαη γηα λα εληνπίζεη ηελ ειάρηζηε ηηκή ηνπ stress. Σρήκα 4.5 Η ζπλάξηεζε ηνπ stress, γηα ηηο απνζηάζεηο αεξνγξακκώλ, κεηαμύ ησλ πόιεσλ. πλνςίδνληαο, βαζηθφο ζηφρνο ησλ δηαδηθαζηψλ πνιπδηάζηαηεο θιηκάθσζεο, είλαη κηα ρακειψλ δηαζηάζεσλ εηθφλα. Όπνηε ηα πνιπκεηαβιεηά δεδνκέλα, κπνξνχλ λα παξνπζηαζηνχλ γξαθηθά ζε 2 ή 3 δηαζηάζεηο, ν νπηηθφο έιεγρνο κπνξεί λα βνεζήζεη πνιχ ηηο εξκελείεο. Όηαλ νη πνιπκεηαβιεηέο παξαηεξήζεηο, είλαη αξηζκεηηθέο θαη νη επθιείδεηεο απνζηάζεηο ζηηο p- δηαζηάζεηο, κπνξνχλ λα ππνινγηζηνχλ, κπνξνχκε λα αλαδεηήζνπκε κηα q < p- δηάζηαηε αλαπαξάζηαζε, ειαρηζηνπνηψληαο ην Δ = ] [ απηήλ ηελ ελαιιαθηηθή πξνζέγγηζε, νη επθιείδεηεο απνζηάζεηο ζηηο p θαη q δηαζηάζεηο, ζπγθξίλνληαη άκεζα. Οη ηερληθέο πνπ ρξεζηκνπνηνχκε γηα λα πάξνπκε ρακειψλ δηαζηάζεσλ αλαπαξαζηάζεηο, ειαρηζηνπνηψληαο ην Δ, νλνκάδνληαη κε γξακκηθέο απεηθνλίζεηο. Ζ ηειηθή πνηφηεηα πξνζαξκνγήο, νπνηαζδήπνηε αλαπαξάζηαζεο ρακειψλ δηαζηάζεσλ, απεηθνλίδεηαη γξαθηθά κε ειάρηζηα επηθαιύπηνληα δέληξα. 84

96 4.13 Έθζεζε ησλ Γεδνκέλσλ θαη Δηθνλνγξαθήκαηα Ζ ξαγδαία αλάπηπμε ησλ ππνινγηζηψλ, έρεη νδεγήζεη ζηνλ πνιιαπιαζηαζκφ ηνπ πνιχπινθνπ ζηαηηζηηθνχ ινγηζκηθνχ, γηα ηελ αλάιπζε δεδνκέλσλ θαη γξαθηθψλ. Δίλαη ζπρλά πηζαλφλ, γηα παξάδεηγκα, λα εμεηάδνπκε ηε θχζε ησλ πνιπδηάζηαησλ δεδνκέλσλ κε έμππλεο, παξαγφκελεο απφ ηνλ ππνινγηζηή εηθφλεο. Απηέο νη εηθφλεο είλαη πνιχηηκα βνεζήκαηα, ζηελ θαηαλφεζε, ησλ δεδνκέλσλ θαη απνηξέπνπλ ζπρλά ιαλζαζκέλεο εθθηλήζεηο θαη επαθφινπζα ζπκπεξαζκαηηθά πξνβιήκαηα. Απηέο νη εηθφλεο ή εηθνλνγξαθήκαηα ινηπφλ, ζηνρεχνπλ ζηελ αλαπαξάζηαζε ηεο κεηαβιεηφηεηαο κε ηε ρξήζε ζπκβφισλ. πγθεθξηκέλα, ζε θάζε πξνθίι παξαηήξεζεο, απνδίδεηαη έλα ζχκβνιν, ελψ ηα ραξαθηεξηζηηθά ηνπ ζπκβφινπ ρξεζηκνπνηνχληαη γηα ηελ αλαπαξάζηαζε ησλ κεηαβιεηψλ, κε φια ηα ζχκβνια λα βξίζθνληαη ζε θνηλφ γξάθεκα. Όπσο είδακε ε πνιπδηάζηαηε θιηκάθσζε, επηδηψθεη λα αλαπαξαζηήζεη ηηο p- δηάζηαηεο παξαηεξήζεηο, ζε ιίγεο δηαζηάζεηο, έηζη ψζηε λα δηαηεξνχληαη νη αξρηθέο απνζηάζεηο (ή νκνηφηεηεο), κεηαμχ ησλ δεπγψλ ησλ παξαηεξήζεσλ. Δπίζεο, ηα δηαγξάκκαηα ησλ δεπγψλ ησλ πξψησλ θχξησλ ζπληζησζψλ, εμαζθαιίδνπλ δηδηάζηαηεο αλαπαξαζηάζεηο ησλ δεδνκέλσλ. Γεληθά αλ νη πνιπδηάζηαηεο παξαηεξήζεηο, κπνξνχλ λα αλαπαξαζηαζνχλ ζηηο 2 δηαζηάζεηο, ηφηε νη αθξαίεο ηηκέο, νη ζπζρεηίζεηο θαη νη επδηάθξηηεο νκάδεο, δηαθξίλνληαη ζπρλά κε ην κάηη. Παξαθάησ αλαθέξνπκε αξθεηέο κεζφδνπο απεηθφληζεο ησλ πνιπκεηαβιεηψλ δεδνκέλσλ ζηηο 2 δηαζηάζεηο Σύλδεζε πνιιαπιώλ δηδηάζηαησλ δηαγξακκάησλ δηαζπνξάο (scatterplots). Μηα απφ ηηο πην ελδηαθέξνπζεο λέεο γξαθηθέο δηαδηθαζίεο, ζπκπεξηιακβάλεη ηε ζχλδεζε πνιιψλ δηδηάζηαησλ scatterplots. Γηα λα επεμεγήζνπκε ηα ζπλδεδεκέλα δηδηάζηαηα scatterplots, αλαθέξνπκε ηα δεδνκέλα πνηφηεηαο ραξηηνχ ηνπ παξαθάησ πίλαθα. Δμαηηίαο ηνπ πξνζαλαηνιηζκνχ ησλ ηλψλ κέζα ζην ραξηί, ππάξρεη δηαθνξεηηθή ηζρχο, φηαλ απηή κεηξάηαη ζηελ θαηεχζπλζε ηεο κεραλήο,απ φηη φηαλ κεηξάηαη ζε αληίζεηε θαηεχζπλζε. Σα δεδνκέλα απηά, αλαπαξηζηάλνπλ κεηξήζεηο, ζηηο κεηαβιεηέο Υ 1 =ππθλφηεηα (gr/ cm 3 ), Υ 2 = ηζρχο ζηελ θαηεχζπλζε ηεο κεραλήο θαη Υ 3 = ηζρχο ζηελ εγθάξζηα θαηεχζπλζε (θάζεηε ζηελ θαηεχζπλζε ηεο κεραλήο). 85

97 Πίνακαρ 4.9 Μεηξήζεηο ζηελ πνηόηεηα ραξηηνύ Σν ζρήκα 4.6, απεηθνλίδεη δηδηάζηαηα scatterplots, γηα ηα δεχγε απηψλ ησλ κεηαβιεηψλ, ηαμηλνκεκέλα ζ έλαλ 3 3 πίλαθα. Γηα παξάδεηγκα, ε εηθφλα ζηελ πάλσ αξηζηεξά γσλία ηνπ ζρήκαηνο, είλαη έλα scatterplot ηνπ δεχγνπο παξαηεξήζεσλ (x 1, x 3 ). Γειαδή νη ηηκέο ηεο x 1 ζρεδηάδνληαη ζηνλ νξηδφληην άμνλα θαη νη ηηκέο ηεο x 3 θαηά κήθνο ηνπ θάζεηνπ άμνλα. Ζ θάησ δεμηά γσλία ηνπ ζρήκαηνο, πεξηέρεη ην scatterplot ηνπ δεχγνπο (x 3, x 1 ). Οη άμνλεο δειαδή δηαηεξνχληαη. 86

98 Σρήκα 4.6 Scatterplots γηα ηα δεδνκέλα πνηόηεηαο ραξηηνύ Αληίζηνηρεο εξκελείεο ηζρχνπλ θαη γηα ηα άιια scatterplots ηνπ ζρήκαηνο. Παξαηεξνχκε φηη νη κεηαβιεηέο θαη ην 3-ςήθην εχξνο ηνπο, εκθαλίδνληαη ζηα θνπηηά, θαηά κήθνο ηεο ΝΓ-ΒΑ δηαγσλίνπ. Ζ ιεηηνπξγία ηεο ζήκαλζεο (επηινγήο) ησλ πξνθαλψλ αθξαίσλ ηηκψλ ζην scatterplot ηνπ (x 1, x 3 ) ηνπ ζρήκαηνο 4.6, δεκηνπξγεί ην ζρήκα 4.7(α), φπνπ ε απνκαθξπζκέλε ηηκή, αλαθέξεηαη σο δείγκα 25 θαη ην ίδην ζεκείν, επηζεκαίλεηαη ζ φια ηα άιια scatterplots. Σν δείγκα 25, εκθαλίδεηαη επίζεο ζαλ αθξαία ηηκή, ζην scatterplot (x 1, x 2 ) αιιά φρη ζην (x 2, x 3 ). Ζ ιεηηνπξγία ηεο δηαγξαθήο απηνχ ηνπ δείγκαηνο, νδεγεί ζηα ηξνπνπνηεκέλα scatterplots ηνπ ζρήκαηνο 4.7(β). (α) 87

99 (β) Σρήκα 4.7 Τξνπνπνηεκέλα scatterplot κε ηελ αθξαία ηηκή (25)(α) επηιεγκέλε θαη (β) δηαγξακκέλε. Απ ην ζρήκα 4.6 παξαηεξνχκε φηη θάπνηα ζεκεία, γηα παξάδεηγκα ηνπ scatterplot (x 2, x 3 ), θαίλνληαη λα απνζπλδένληαη απφ άιια. Δπηιέγνληαο απηά ηα ζεκεία, ρξεζηκνπνηψληαο ην δηαθεθνκκέλν νξζνγψλην, ηνλίδνληαη ηα επηιεγκέλα ζεκεία ζ φια ηα άιια scatterplots θαη νδεγνχκαζηε ζηελ εκθάληζε ηεο εηθφλαο 4.8(α). Γηαγξάθνληαο ηελ αθξαία ηηκή, νη πεξηπηψζεηο πνπ πξνζαξκφδνληαη ζηα εχξε ησλ ππνινίπσλ παξαηεξήζεσλ, νδεγνχλ ζηα scatterplots ηνπ ζρήκαηνο 4.8(β). (α) 88

100 (β) Σρήκα 4.8 Τξνπνπνηεκέλα scatterplots κε (α) νκάδα ζεκείσλ πνπ επηιέρηεθαλ θαη (β) ηα ζεκεία δηαγξάθεθαλ θαη ηα scatterplots μαλαθαηαζθεπάζηεθαλ. Ζ ιεηηνπξγία εθείλε, πνπ ηνλίδεη ηα ζεκεία εθείλα πνπ αληηζηνηρνχλ ζε κηα επηιεγκέλε πεξηνρή κηαο εθ ησλ κεηαβιεηψλ, νλνκάδεηαη brushing (βνχξηζηζκα). Σν βνχξηζηζκα ζα κπνξνχζε λα μεθηλήζεη, κ έλα νξζνγψλην παξαιιειφγξακκν, αιιά ηφηε ε βνχξηζα ζα κπνξνχζε λα κεηαθηλεζεί, γηα λα εμαζθαιίζεη κηα αθνινπζία ηνληζκέλσλ ζεκείσλ. Ζ δηαδηθαζία, κπνξεί αλά πάζα ζηηγκή, λα ζηακαηήζεη λα παξέρεη ζηηγκηφηππν ηεο ηξέρνπζαο θαηάζηαζεο Star Plot (Γηάγξακκα Αζηέξσλ) Τπνζέηνπκε πσο θάζε κνλάδα δεδνκέλσλ, απνηειείηαη απφ κε αξλεηηθέο παξαηεξήζεηο γηα p 2 κεηαβιεηέο. έλα δηάγξακκα αζηέξσλ, θάζε παξαηήξεζε απεηθνλίδεηαη ζαλ αζηέξαο, πνπ απνηειείηαη απφ ηφζεο αθηίλεο, φζεο θαη νη κεηαβιεηέο πνπ ρξεζηκνπνηνχκε. Σν κήθνο ησλ αθηίλσλ είλαη αλάινγν ησλ ηηκψλ ησλ κεηαβιεηψλ. Δηδηθφηεξα, ην κήθνο ηεο αθηίλαο i, αληηζηνηρεί ζηελ ηηκή (κεηαβιεηή) y i ηεο παξαηήξεζεο, πνπ αλαπαξηζηά ν αζηέξαο. ηηο 2 δηαζηάζεηο, κπνξνχκε λα θαηαζθεπάζνπκε θχθινπο ζηαζεξήο αθηίλαο κε p ηζνδηάζηαηεο αθηίλεο, πξνεξρφκελεο απφ ην θέληξν ηνπ θχθινπ. Σα άθξα ησλ αθηίλσλ, ζπλδένληαη κε επζείεο γξακκέο γηα λα ζρεκαηίζνπλ ηνλ αζηέξα. Κάζε αζηέξαο ινηπφλ, είλαη κηα πνιπκεηαβιεηή παξαηήξεζε θαη νη αζηέξεο κεηαμχ ηνπο, κπνξνχλ λα νκαδνπνηεζνχλ, ζχκθσλα κε ηηο νκνηφηεηεο ηνπο. Έηζη ινηπφλ, κηα γεληθή εηθφλα ηεο νκνηφηεηαο κεηαμχ 2 παξαηεξήζεσλ, γίλεηαη εχθνια αληηιεπηή κέζσ ηεο ζχγθξηζεο ησλ αληίζηνηρσλ αζηέξσλ. Όκσο θαζψο απμάλεηαη ν αξηζκφο ησλ κεηαβιεηψλ, κεηψλεηαη ε επθξίλεηα ηνπ δηαγξάκκαηνο αζηέξσλ. Δίλαη ζπρλά ρξήζηκν, φηαλ θαηαζθεπάδνπκε αζηέξεο λα ηππνπνηνχκε ηηο παξαηεξήζεηο. απηήλ ηελ πεξίπησζε, θάπνηεο απ ηηο παξαηεξήζεηο ζα είλαη αξλεηηθέο. Οη παξαηεξήζεηο, κπνξνχλ ζηε ζπλέρεηα λα εθθξαζηνχλ μαλά, έηζη ψζηε ην θέληξν ηνπ 89

101 θχθινπ λα αληηπξνζσπεχεη ηε κηθξφηεξε ηππνπνηεκέλε παξαηήξεζε, κέζα ζην ζχλνιν ησλ ζηνηρείσλ. Γηα λα επεμεγήζνπκε ηνλ ηξφπν εξκελείαο ελφο δηαγξάκκαηνο αζηέξσλ, ρξεζηκνπνηνχκε ηα δεδνκέλα ηνπ πίλαθα 4.10, γηα ηηο 5 πξψηεο απφ ηηο 22 εηαηξείεο θνηλήο σθέιεηαο ησλ ΖΠΑ. Πίνακαρ 4.10 Γεδνκέλα ησλ 22 εηαηξεηώλ θνηλήο σθέιεηαο Μεηαβιεηέο Δηαηξείεο Υ 1 Υ 2 Υ 3 Υ 4 Υ 5 Υ 6 Υ 7 Υ 8 1. Arizona Public Service Boston Edison Co Central Louisiana Electric Co Commonwealth Edison Co Cent5. Consolidated Edison Co. (N.Y.) Florida Power & Light Co Hawaiian Electric Co Idaho Power Co Kentucky Utilities Co Madison Gas & Electric Co Nevada Power Co New England Electric Co Northern States Power Co Oklahoma Gas & Electric Co Pacific Gas & Electric Co Puget Sound Power & Light Co San Diego Gas & Electric Co The Southern Co Texas Utilities Co Wisconsin Electric Power Co United Illuminating Co Virginia Electric & Power Co X 1 = ηαζεξή αλαινγία θάιπςεο δαπαλψλ (εηζφδεκα/ ρξέε) X 2 = Πνζνζηφ επηζηξνθήο θεθαιαίνπ X 3 = Κφζηνο αλά ρσξεηηθφηεηα KW. X 4 = Δηήζηνο παξάγνληαο θνξηίνπ X 5 = Μέγηζηε δήηεζε KWH απφ X 6 = Πσιήζεηο (ρξήζε KWH αλά έηνο) X 7 = Πνζνζηφ ππξεληθψλ X 8 = πλνιηθφ θφζηνο θαπζίκσλ (cents αλά KWH). Με ηελ βνήζεηα ηνπ ινγηζκηθνχ STATISTICA 8, θαηαζθεπάζηεθε ην δηάγξακκα αζηέξσλ ησλ 22 εηαηξεηψλ πνπ απεηθνλίδεηαη ζην ζρήκα

102 Σρήκα 4.9 Γηάγξακκα αζηέξσλ ησλ 22 εηαηξεηώλ Πην αλαιπηηθά νη αζηέξεο πνπ αληηπξνζσπεχνπλ ηηο 5 πξψηεο εηαηξείεο, απεηθνλίδνληαη ζην ζρήκα Δπεηδή ππάξρνπλ 8 κεηαβιεηέο, νη αζηέξεο είλαη δηαζηξεβισκέλα νθηάγσλα. Οη παξαηεξήζεηο ζ φιεο ηηο κεηαβιεηέο ήηαλ ηππνπνηεκέλεο. Μεηαμχ ησλ 5 εηαηξεηψλ, ε κηθξφηεξε ηππνπνηεκέλε παξαηήξεζε νπνηαζδήπνηε κεηαβιεηήο ήηαλ -1.6 Θεσξψληαο απηήλ ηελ ηηκή ζαλ 0, νη κεηαβιεηέο ζρεδηάδνληαη ζηηο ίδηεο θιίκαθεο θαηά κήθνο 8 ηζνγψλησλ αθηίλσλ, πνπ πξνέξρνληαη απ ην θέληξν ηνπ θχθινπ. Οη κεηαβιεηέο δηαηάζζνληαη κε δεμηφζηξνθε θαηεχζπλζε, μεθηλψληαο απ ηε ζέζε ηνπ ξνινγηνχ

103 Σρήκα 4.10 Οη αζηέξεο γηα ηηο 5 εηαηξείεο θνηλήο σθέιεηαο Δθ πξψηεο φςεσο, θακηά απ ηηο εηαηξείεο δελ θαίλεηαη λα κνηάδεη κε θάπνηα άιιε. Δμαηηίαο ηνπ ηξφπνπ, κε ηνλ νπνίν θαηαζθεπάδνληαη νη αζηέξεο, θάζε κεηαβιεηή νπηηθά παίξλεη ηελ ίδηα βαξχηεηα. Αλ επηθεληξσζνχκε ζηηο κεηαβιεηέο Υ 6 θαη Υ 8 ηφηε νη Boston Edison Co. θαη Consolidated Edison Co. είλαη παξφκνηεο (κηθξή κεηαβιεηή 6, κεγάιε κεηαβιεηή 8) θαη νη Arizona Public Service, Central Louisiana Electric Co. θαη Commonwealth Edison Co. είλαη παξφκνηεο (κέηξηα κεηαβιεηή 6, κέηξηα κεηαβιεηή 8) Γηαγξάκκαηα Andrews O Andrews, πξφηεηλε κηα απιή κέζνδν γξαθηθήο αλαπαξάζηαζεο ησλ πνιπδηάζηαησλ δεδνκέλσλ, γλσζηή σο Γηαγξάκκαηα ή Κακπύιεο Andrews, ηα νπνία κπνξνχλ λα αλαπαξαζηήζνπλ ηα πνιπδηάζηαηα δεδνκέλα κε δηδηάζηαηεο θακπχιεο. Τπέδεημε ινηπφλ, πσο έλα p-δηάζηαην δηάλπζκα [x 1, x 2, x p ], κπνξεί λα αλαπαξαζηαζεί, ζε ρψξν δχν δηαζηάζεσλ, απφ ηηο πεπεξαζκέλεο ζεηξέο Fourier: 92

104 f(t) = + x 2 sin t + x 3 cos t +x 4 sin 2t + x 5 cos 2t +.., -π t π Γειαδή, νη ζπληεηαγκέλεο ηνπ δηαλχζκαηνο κεηαζρεκαηίδνπλ ηνπο ζπληειεζηέο ζε κηα έθθξαζε, ηεο νπνίαο ην γξάθεκα είλαη κηα πεξηνδηθή ζπλάξηεζε. Μπνξεί γηα παξάδεηγκα, κηα 4- δηάζηαηε παξαηήξεζε [6, 3, -1, 2] λα κεηαηξαπεί ζηε ζπλάξηεζε f(t) = + 3sin t - cos t + 2sin 2t, π t π θαη λα ζρεδηαζηεί ζαλ ζπλάξηεζε ηνπ t. Σα δηαγξάκκαηα αλαπαξάζηαζεο ησλ ζεηξψλ Fourier, ησλ πνιπκεηαβιεηψλ παξαηεξήζεσλ, ζα είλαη θακπχιεο, πνπ κπνξνχλ νπηηθά λα νκαδνπνηεζνχλ. Οη θακπχιεο απηέο δηαηεξνχλ ηηο απνζηάζεηο, ηηο γξακκηθέο ζρέζεηο, ην κέζν θαη ηηο δηαθπκάλζεηο, ελψ ην πψο ζα ηνπνζεηήζνπκε ηηο κεηαβιεηέο ζην γξάθεκα, επεξεάδεη ηε κνξθή ηνπο. Σα δηαγξάκκαηα Andrews, επεξεάδνληαη απ ηελ ελαιιαγή ησλ ζπληεηαγκέλσλ (ζπληειεζηψλ). Γη απηφ νη κεηαβιεηέο κε πςειή ζεκαληηθφηεηα, πξέπεη λα ηνπνζεηνχληαη ζηελ αξρή ηνπ δηαγξάκκαηνο, θαζψο ζπκβάιινπλ ζηνλ θαζνξηζκφ ησλ νκνηνγελψλ νκάδσλ. Δίλαη επηζπκεηφ, λα δνθηκάδνπκε πνηθίιεο απεηθνλίζεηο, πξηλ απνθαζίζνπκε γηα ηελ θαιχηεξε, απφ έλα δνζκέλν ζχλνιν ζηνηρείσλ. Ζ εκπεηξία έρεη δείμεη φηη ηα δεδνκέλα πξέπεη λα ηππνπνηεζνχλ, πξσηνχ δηακνξθψζνπλ ηηο ζεηξέο Fourier. Αλ ν αξηζκφο ησλ ζηνηρείσλ, είλαη κέηξηνο πξνο κεγάινο, ηα δηαγξάκκαηα Andrews ηείλνπλ λα είλαη κπεξδεκέλα, κε δπζθνιία ζηελ εξκελεία ηνπο. Γη απηφ θαη ηα δηαγξάκκαηα απηά, είλαη πην απνηειεζκαηηθά, αλ ν αξηζκφο ησλ παξαηεξήζεσλ είλαη κηθξφο (<20). Ο αξηζκφο ησλ θακππιψλ, πνπ πξνεμέρνπλ πάλσ απφ έλα γξάθεκα, ζα πξέπεη πηζαλφηαηα λα πεξηνξίδεηαη ζε 5 ή 6. Δπίζεο, ε εθηίκεζε ηνπ βαζκνχ νκνηφηεηαο, κεηαμχ ησλ θακππιψλ θαη ν δηαρσξηζκφο ηνπο ζε νκάδεο, είλαη κηα ππνθεηκεληθή δηαδηθαζία Πξόζσπα Chernoff Οη άλζξσπνη αληηδξνχλ κε ηα πξφζσπα. Έηζη ν Chernoff, πξφηεηλε θάπνηα γξαθήκαηα, αλάινγα ησλ αζηέξσλ, φπνπ ε θάζε p-δηάζηαηε παξαηήξεζε, απεηθνλίδεηαη ζαλ έλα δηδηάζηαην αλζξψπηλν πξφζσπν θαη αληί γηα αθηίλα, θάζε ζπγθεθξηκέλν ραξαθηεξηζηηθφ ηνπ πξνζψπνπ (ζρήκα πξνζψπνπ, θακππιφηεηα ζηφκαηνο, κήθνο κχηεο, κέγεζνο καηηψλ, ζέζε θφξεο νθζαικνχ θ.ά.) αληηζηνηρεί ζε κηα κεηαβιεηή. Απηή ε απεηθφληζε, είλαη ηδηαίηεξα δηαδεδνκέλε ζηελ ςπρνινγία θαη ηηο θνηλσληθέο επηζηήκεο. Σα πξφζσπα Chernoff, κπνξνχλ λα ρεηξηζηνχλ, κέρξη 18 κεηαβιεηέο ιφγσ ηεο έιιεηςεο πνηθηιίαο ζηα ραξαθηεξηζηηθά ηνπ πξνζψπνπ. Ζ αλάζεζε ησλ κεηαβιεηψλ, ζηα ραξαθηεξηζηηθά ηνπ πξνζψπνπ, γίλεηαη απφ ηνλ πεηξακαηηζηή θαη δηαθνξεηηθέο επηινγέο, παξάγνπλ δηαθνξεηηθά απνηειέζκαηα. πλήζσο είλαη απαξαίηεηε θάπνηα επαλάιεςε, πξηλ επηηεπρζνχλ ηθαλνπνηεηηθέο αλαπαξαζηάζεηο. Αλ ν εξεπλεηήο είλαη αξθεηά βέβαηνο, φηη 2 ή 3 κεηαβιεηέο είλαη θπξίσο ππεχζπλεο γηα ηελ δηάθξηζε ησλ νκάδσλ, απηέο νη κεηαβιεηέο κπνξνχλ λα ζπζρεηηζηνχλ κε ηα εκθαλή ραξαθηεξηζηηθά ηνπ πξνζψπνπ. πζρεηίδνληαο κηα «ζεκαληηθή» κεηαβιεηή, κ έλα ραξαθηεξηζηηθφ, φπσο ην κήθνο ηεο κχηεο, παξά κ έλα ιηγφηεξν εκθαλή ραξαθηεξηζηηθφ φπσο ε ζέζε ηεο θφξεο ηνπ νθζαικνχ, επηηξέπνπκε ζε θάπνηνλ, λα δηαιέμεη νκάδεο πην εχθνια. 93

105 Όπσο ηα Γηαγξάκκαηα Andrews, ηα πξφζσπα Chernoff, θαίλνληαη λα είλαη ρξήζηκα γηα επαιήζεπζε (1) κηαο αξρηθήο νκαδνπνίεζεο πνπ πξνηείλεηαη ή (2) ησλ ηειηθψλ νκαδνπνηήζεσλ πνπ παξάγνληαη απφ αιγνξίζκνπο νκαδνπνίεζεο. Υξεζηκνπνηψληαο ηα δεδνκέλα ηνπ πίλαθα 4.10, νη 22 εηαηξείεο ησλ ΖΠΑ αλαπαξαζηάζεθαλ ζαλ πξφζσπα Chernoff πνπ θαηαζθεπάζηεθαλ κε ην ινγηζκηθφ STATISTICA 8,έρνληαο ηηο αθφινπζεο αληηζηνηρίεο θαη απεηθνλίδνληαη ζην ζρήκα Μεηαβιεηή X 1 Υ 1 : ηαζεξή αλαινγία θάιπςεο δαπαλψλ X 2 Υ 2 : Πνζνζηφ επηζηξνθήο θεθαιαίνπ X 3 Υ 3 : Κφζηνο αλά ρσξεηηθφηεηα KW. X 4 Υ 4 : Δηήζηνο παξάγνληαο θνξηίνπ X 5 Υ 5 : Μέγηζηε δήηεζε KWH απφ X 6 Υ 6 : Πσιήζεηο (ρξήζε KWH αλά έηνο) X 7 Υ 7 : Πνζνζηφ ππξεληθψλ X 8 Υ 8 : πλνιηθφ θφζηνο θαπζίκσλ (cents αλά KWH). Υαξαθηεξηζηηθά Πξνζψπνπ Face width Ear level Half-face height Eccentricity of upper face Eccentricity of lower face Length of nose Position of center of mouth Curvature of mouth Σρήκα 4.11 Τα Πξόζσπα ηνπ Chernoff γηα ηηο 22 εηαηξείεο. Γηα παξάδεηγκα, νη εηαηξείεο 8,11 θαη 16 θαλεξψλνπλ πςειφ πνζνζηφ πσιήζεσλ ζε ζρέζε κε ηηο άιιεο εηαηξείεο (καθξηά κχηε). Δπίζεο ε εηαηξεία 16 παξνπζηάδεη θαη πςειφ θφζηνο ρσξεηηθφηεηαο (καθξχ πξφζσπν). Οη εηαηξείεο 5 θαη 21 παξνπζηάδνπλ πςειφ ην πνζνζηφ ηνπ ζπλνιηθνχ θφζηνπο θαπζίκσλ (κεγάιε θακππιφηεηα ζηφκαηνο). Με ηνλ ίδην ηξφπν εξκελεχνληαη θαη ηα άιια πξφζσπα. 94

106 ΚΕΥΑΛΑΙΟ 5 Μονηέλα Μίξηρ Καηανομών ην πξνεγνχκελν θεθάιαην, νξίζακε ηα δχν ζεκαληηθφηεξα θξηηήξηα βειηηζηνπνίεζεο ην trw θαη ηελ W. Οη Scott θαη Symons (1971), απέδεημαλ πσο ηα δχν απηά θξηηήξηα νκαδνπνίεζεο θαη άιια πνπ πξνηάζεθαλ, πξνθχπηνπλ απ ηελ εθηίκεζε ελφο ηππηθνχ κνληέινπ πηζαλφηεηαο γηα νκαδνπνίεζε. Σν κνληέιν ππνζέηεη, πσο ν πιεζπζκφο πνπ καο ελδηαθέξεη, απνηειείηαη απφ g δηαθνξεηηθνχο ππνπιεζπζκνχο, θαη φηη ε ππθλφηεηα κηαο p- δηάζηαηεο παξαηήξεζεο x, ηνπ k- ππνπιεζπζκνχ είλαη f k (x; ζ k ), γηα θάπνην άγλσζην δηάλπζκα παξακέηξσλ ζ k. Με δεδνκέλεο ηηο παξαηεξήζεηο x 1, x 2,, x n θαη ην γ = [γ 1, γ 2 γ n ] λα ζπκβνιίδεη εηηθέηεο πξνζδηνξηζκνχ, φπνπ γ i =k αλ ην x i πξνέξρεηαη απ ηνλ k- ππνπιεζπζκφ, ηφηε ηα ζ 1, ζ 2 ζ θ θαη γ επηιέγνληαη, έηζη ψζηε λα κεγηζηνπνηνχλ ηελ πηζαλνθάλεηα: L(,,..., ) f ( x ; ) (5.1) 1 2 n i1 i i i Οη Scott θαη Symons έδεημαλ φηη, φηαλ ε f k (x; ζ k ) είλαη πνιπκεηαβιεηή θαλνληθή, κε ζ k ηψξα λα είλαη δηάλπζκα κέζνπ κ k θαη πίλαθα δηαζπνξάο k, ηφηε ην trace(w) θαη ε det(w), είλαη ηζνδχλακα κ απηήλ ηελ πξνζέγγηζε πηζαλνθάλεηαο, θάησ απ ηηο αθφινπζεο ζπλζήθεο: Ίρλνο (W) : ηζνδχλακν κε ηελ κεγηζηνπνίεζε ηεο L, ζηελ (5.1) ππφ ηελ ππφζεζε φηη Οξίδνπζα (W) : ηζνδχλακν κε ηελ κεγηζηνπνίεζε ηεο L, ζηελ (5.1) ππφ ηελ ππφζεζε Σk =ς 2 Ι φηη Σk = Σ, k=1, g. Οη Banfield θαη Raftery (1993), επέθηεηλαλ ηελ πξνζέγγηζε ησλ Scott θαη Symons, δείρλνληαο φηη, φηαλ νη πίλαθεο δηαζπνξάο k δελ είλαη πεξηνξηζκέλνη, ε κεγηζηνπνίεζε ηεο L, ηζνδπλακεί κε ηελ ειαρηζηνπνίεζε ηνπ ηελ ζπλέρεηα, απηνί αλέπηπμαλ έλαλ αξηζκφ λέσλ θξηηεξίσλ νκαδνπνίεζεο, ηα νπνία είλαη πην γεληθά απφ εθείλα ησλ Friedman θαη Rubin. Σν θιεηδί ηεο πξνζέγγηζεο ηνπο, είλαη κηα λέα παξακεηξηθνπνίεζε ηνπ πίλαθα δηαζπνξάο k, ππφ ηελ έλλνηα ηεο αλάιπζεο ησλ ηδηνηηκψλ ηνπ: Σ k = D k Λ k D k φπνπ D k είλαη έλαο πίλαθαο ηδηνδηαλπζκάησλ θαη Λ k έλαο δηαγψληνο πίλαθαο κε ηηο ηδηνηηκέο ηνπ k ζηελ δηαγψλην. 5.1 Πεπεξαζκέλα Μνληέια Μίμεο Καηαλνκώλ γηα Αλάιπζε Σπζηάδσλ Μηα πεξαηηέξσ πξνζέγγηζε κνληέινπ πηζαλφηεηαο γηα νκαδνπνίεζε, είλαη απηή πνπ βαζίδεηαη ζε πεπεξαζκέλα κνληέια κίμεο. Γηα λα εηζάγνπκε απηήλ ηελ πξνζέγγηζε, ππνζέηνπκε φηη παίξλνπκε έλα ηπραίν δείγκα αλζξψπσλ πνπ δνπλ ζην Λνλδίλν θαη θαηαγξάθνπκε γηα θάζε κέινο ηνπ δείγκαηνο ην χςνο ηνπ. Πνην ζα κπνξνχζε λα ήηαλ έλα 95

107 ινγηθφ κνληέιν, γηα ηελ θαηαλνκή απηήο ηεο κεηαβιεηήο ζηνλ πιεζπζκφ; Πξψηα ζα πξέπεη λα ιάβνπκε ππφςε, φηη ην δείγκα καο πεξηέρεη θαη αξζεληθά θαη ζειπθά άηνκα, αθνχ είλαη γλσζηφ, φηη ηα αξζεληθά είλαη θαηά κέζν φξν ςειφηεξα απφ ηα ζειπθά. ε θάζε θχιν, ζα ήηαλ ινγηθφ λα ππνζέζνπκε φηη ην χςνο θαηαλέκεηαη θαλνληθά, κ έλα ζπγθεθξηκέλν κέζν θαη δηαζπνξά. Σέηνηεο εθηηκήζεηο, νδεγνχλ ζηελ αθφινπζε ζπλάξηεζε ππθλφηεηαο πηζαλφηεηαο γηα ην χςνο: f (χςνο) = p N(κ f, ζ f ) + (1-p) N(κ m, ζ m ) (5.2) φπνπ p είλαη ην πνζνζηφ ησλ ζειπθψλ ζηνλ πιεζπζκφ. Μηα ζπλάξηεζε ππθλφηεηαο ηεο κνξθήο (5.2), είλαη έλα παξάδεηγκα πεπεξαζκέλεο κίμεο. ην ζπγθεθξηκέλν καο παξάδεηγκα, θχξην κέιεκα καο είλαη λα ρξεζηκνπνηήζνπκε ην δείγκα ησλ θαηαγξαθφκελσλ πςψλ γηα λα εθηηκήζνπκε ηηο 5 παξακέηξνπο ηεο ζπλάξηεζεο ππθλφηεηαο. Φπζηθά, αλ ήηαλ ινγηθφ λα θαηαγξάςνπκε ην θχιν θάζε κέινπο ηνπ δείγκαηνο, ε εθηίκεζε απηψλ ησλ πνζνηήησλ ζα ήηαλ απιή. Δδψ απηφ ζα κπνξνχζε λα είρε γίλεη πνιχ εχθνια. ε άιινπο ηνκείο σζηφζν, ε εμαθξίβσζε ηνπ θχινπ είλαη πην δχζθνιε θαη ε εθηίκεζε ησλ παξακέηξσλ απ ην ρσξίο εηηθέηα δείγκα, κεηαηξέπεηαη ζε πξαθηηθή αλαγθαηφηεηα. Ζ κηθηή ππθλφηεηα ηνπ (5.2) πεξηιακβάλεη 2 κνλνκεηαβιεηέο θαλνληθέο ζπληζηψζεο. Δίλαη ρξήζηκε ζαλ κνληέιν γηα 2 νκάδεο, ζε κνλνκεηαβιεηά δεδνκέλα, φπνπ ε κνλαδηθή κεηαβιεηή είλαη ζπλερήο. Ζ επέθηαζε ζε πεξηζζφηεξεο απφ 2 νκάδεο, είλαη ζρεηηθά απιή ζπκπεξηιακβάλνληαο ηε κίμε πνπ δίλεηαη απ ην: g f ( x) p N(, ) (5.3) φπνπ g είλαη ν αξηζκφο ησλ ππνηηζέκελσλ νκάδσλ. i1 i i i πλνιηθά 3g-1 παξάκεηξνη, πξέπεη ηψξα λα εθηηκεζνχλ. Κάπνηα παξαδείγκαηα ηεο f(x) ζηε κνξθή ηνπ (5.3) θαίλνληαη ζην ζρήκα 5.1. (α) (β) Σρήκα 5.1: Παξαδείγκαηα πεπεξαζκέλσλ κίμεσλ κνλνκεηαβιεηώλ θαλνληθώλ ππθλνηήησλ (α) g=2, p 1 =0.5, p 2 =0.5, κ 1 =-1, ζ 1 =1, κ 2 =3, ζ 2 =2 (β) g=2, p 1 =0.5, p 2 =0.5, κ 1 =6, ζ 1 =0.5, κ 2 =-3, ζ 2 =3 96

108 Ζ επέθηαζε ηνπ κνληέινπ, ψζηε λα αληηκεησπίζεη πνιπκεηαβιεηά δεδνκέλα, είλαη απιή θαη ζην (5.3) νη θαλνληθέο κνλνκεηαβιεηέο ζπληζηψζεο ηεο κίμεο, αληηθαζίζηαληαη απ ηηο αληίζηνηρεο πνιπκεηαβιεηέο ππθλφηεηεο κε δηαλχζκαηα κέζνπ κ i θαη πίλαθεο δηαζπνξάο i : g i i i (5.4) Σψξα ππάξρνπλ g-1 παξάκεηξνη κίμεηο, gd κέζνη θαη i1 f ( x) p MVN (, ) gd(d+1)/2 δηαζπνξέο θαη ζπλδηαζπνξέο γηα λα εθηηκεζνχλ. αθψο ε εθηίκεζε ηνπ κεγάινπ αξηζκνχ ησλ παξακέηξσλ ζηηο πνιπκεηαβιεηέο θαλνληθέο κίμεηο, πξφθεηηαη λα είλαη έλα ηξνκεξφ ππνινγηζηηθφ πξφβιεκα, αιιά κπνξεί λα αληηκεησπηζηεί ζηηο πεξηζζφηεξεο πεξηπηψζεηο, απφ κεζφδνπο κέγηζηεο πηζαλνθάλεηαο, ηα βαζηθά ζηνηρεία ηεο νπνίαο επεμεγνχληαη παξαθάησ. Αλ νη κεηαβιεηέο πνπ θαηαγξάθνληαη είλαη δπαδηθέο θαη φρη ζπλερείο, ηφηε δελ είλαη ξεαιηζηηθή κηα ππθλφηεηα κνληέινπ κίμεο, πνπ βαζίδεηαη ζηηο θαλνληθέο ζπληζηψζεο. Ζ ίδηα γεληθή πξνζέγγηζε, κπνξεί αθφκα λα ρξεζηκνπνηεζεί αιιά κε κηα δηαθνξεηηθή επηινγή ηεο ππθλφηεηαο ηεο ζπληζηψζαο. Μηα πηζαλφηεηα είλαη λα ππνζέζνπκε φηη κέζα ζε θάζε cluster, νη απαληήζεηο ζηα επηκέξνπο δπαδηθά ζηνηρεία, είλαη αλεμάξηεηεο κε ζηαζεξέο πηζαλφηεηεο κέζα ζηα cluster θαη δηαθνξεηηθέο αλάκεζα ζηα cluster. Αλ θάλνπκε κηα ηέηνηα ππφζεζε, πνηα είλαη ε ζπλάξηεζε ππθλφηεηαο πηζαλφηεηαο ησλ κεηαβιεηψλ, ζε κηα ζπγθεθξηκέλε νκάδα; Γηα λα απαληήζνπκε ζηελ εξψηεζε, αο πάξνπκε έλα παξάδεηγκα, ζην νπνίν ππάξρνπλ 3 δπαδηθέο κεηαβιεηέο x 1, x 2, x 3 : κέζα ζε κηα ζπγθεθξηκέλε νκάδα j, νη πηζαλφηεηεο κηαο ζεηηθήο απάληεζεο, γηα θάζε κηα απ ηηο κεηαβιεηέο είλαη ζ j1, ζ j2, ζ j3. Τπνζέηνληαο φηη νη 3 κεηαβιεηέο είλαη αλεμάξηεηεο κεηαμχ ηνπο κέζα ζ απηήλ ηελ νκάδα, κπνξνχκε λα βξνχκε ηελ πηζαλφηεηα νπνηαζδήπνηε ηηκήο ηνπ δηαλχζκαηνο x =[x 1, x 2, x 3 ] Γηα παξάδεηγκα: P [x = (0, 1, 1)] = (1- ζ j1 ) ζ j2 ζ j3 (5.5) P [x = (1, 0, 0)] = ζ j1 (1-ζ j2 ) (1-ζ j3 ) (5.6) Καη νη δχν (5.5) θαη (5.6), κπνξνχλ λα μαλαγξαθνχλ ζηε κνξθή: = = ( (5.7) Ζ παξαπάλσ είλαη γλσζηή σο πνιπκεηαβιεηή ππθλόηεηα Bernoulli θαη κπνξεί λα επεθηαζεί ζε κηα θαηάζηαζε κε p- δπαδηθέο κεηαβιεηέο, κε πξνθαλή ηξφπν: = [ ] = ( (5.8) Σέηνηεο ζπλαξηήζεηο ππθλφηεηαο, αληηθαζηζηνχλ ηηο θαλνληθέο ζπληζηψζεο ηνπ (5.7) θαη ε εθηίκεζε παξακέηξσλ μαλαγίλεηαη απ ηε κέγηζηε πηζαλνθάλεηα. Τπνςήθηνο γηα ηελ εθηίκεζε ηνπ αξηζκνχ ησλ νκάδσλ, είλαη έλαο έιεγρνο ιόγνπ πηζαλνθάλεηαο, αο πνχκε g 1 θαηά ησλ g 2 ζπληζησζψλ ηεο κηθηήο θαηαλνκήο. Τπφ ηελ κεδεληθή ππφζεζε ησλ g 1 νκάδσλ, ην ζηαηηζηηθφ απηφ ππνηίζεηαη γεληθά φηη θαηαλέκεηαη αζπκπησηηθά ζαλ ρ 2, κε βαζκνχο ειεπζεξίαο ίζνπο κε ηελ δηαθνξά ηνπ αξηζκνχ ησλ παξακέηξσλ, ζηηο 2 κίμεηο πνπ ζπγθξίλνληαη. Γπζηπρψο έλαο ηέηνηνο έιεγρνο, πάζρεη απφ έλαλ αξηζκφ πξνβιεκάησλ, πνπ ζπδεηνχληαη ζηνπο McLachlan θαη Basford (1988). Πξνζπάζεηεο γηα βειηίσζε ηνπ ειέγρνπ, ρξεζηκνπνηνχλ κηα Μπευδηαλή πξνζέγγηζε, πνπ πεξηγξάθεηαη ζηνπο Richardson θαη Green(1997). 97

109 5.2 Δθηίκεζε Μέγηζηεο Πηζαλνθάλεηαο (Maximum Likelihood) ησλ παξακέηξσλ ζε Πνιπκεηαβιεηέο Καλνληθέο Καηαλνκέο Μίμεο. Τπνζέηνπκε φηη έρνπκε n παξαηεξήζεηο x 1, x 2,, x n. Ζ ζπλάξηεζε log- likelihood γηα κηα πνιπκεηαβιεηή θαλνληθή κίμε, ηεο κνξθήο (5.4) είλαη: L n g log{ p MVN ( x ;, )} i1 k1 k i k k Οη εμηζψζεηο κέγηζηεο πηζαλνθάλεηαο, ιακβάλνληαη εμηζψλνληαο ηηο 1 εο κεξηθέο παξαγψγνπο ηεο L σο πξνο p k, σο πξνο ηα ζηνηρεία ηνπ θάζε πίλαθα k θαη σο πξνο ηα δηαλχζκαηα κ k, κε κεδέλ. Οη Everitt θαη Hand (1981), έδεημαλ φηη νη εμηζψζεηο πνπ πξνέθπςαλ, κπνξνχλ λα γξαθηνχλ ζηελ αθφινπζε κνξθή: k = (k/x i ) k=1 g-1 k = (k/x i ) x i k=1 g k = (k/x i ) (x i - k) (x i - k) k=1 g απηέο ηηο εμηζψζεηο, ην ππνδειψλεη ηελ εθηηκψκελε εθ ησλ πζηέξσλ πηζαλφηεηα κηαο παξαηήξεζεο x i, πνπ αλήθεη ζηελ k- ζπληζηψζα, δειαδή (k/x i ) = Γξάθνληαο απηφλ ηνλ ηχπν, κπνξνχκε λα δνχκε φηη νη εμηζψζεηο κέγηζηεο πηζαλνθάλεηαο γηα ηηο παξακέηξνπο ζε κηα κίμε πνιπκεηαβιεηψλ θαλνληθψλ, είλαη ζρεδφλ αλάινγεο κ εθείλεο γηα κία κφλν θαλνληθή θαηαλνκή, εθηφο απ ην φηη θάζε ζεκείν ηνπ δείγκαηνο, ηψξα ζηαζκίδεηαη απ ηελ εθηηκψκελε εθ ησλ πζηέξσλ πηζαλφηεηα, λα αλήθεη ζε κηα ζπγθεθξηκέλε ζπληζηψζα. Οη εμηζψζεηο ιχλνληαη κ έλα επαλαιακβαλφκελν ζχζηεκα, ζην νπνίν νη αξρηθέο εθηηκήζεηο ησλ εθ ησλ πζηέξσλ πηζαλνηήησλ ρξεζηκνπνηνχληαη γηα λα βξνχκε αξρηθέο εθηηκήζεηο ησλ παξακέηξσλ θαη απηέο ζηε ζπλέρεηα, ρξεζηκνπνηνχληαη γηα λα ππνινγίζνπκε βειηησκέλεο εθηηκήζεηο ησλ εθ ησλ πζηέξσλ πηζαλνηήησλ, κηα ελαιιαζζφκελε δηαδηθαζία αλάκεζα ζ απηά ηα 2 βήκαηα κέρξη ηε ζχγθιηζε. Απηφ είλαη έλα παξάδεηγκα εθαξκνγήο ηνπ αιγνξίζκνπ ΔΜ. 98

110 5.3 Αιγόξηζκνο ΔΜ Ο αιγφξηζκνο ΔΜ (Expectation Maximization) είλαη έλα δεκνθηιέο εξγαιείν, γηα ηελ απινπνίεζε δχζθνισλ πξνβιεκάησλ κέγηζηεο πηζαλνθάλεηαο. Υξεζηκνπνηείηαη γηα ηελ εχξεζε εθηηκεηψλ κέγηζηεο πηζαλνθάλεηαο ησλ παξακέηξσλ κηαο θαηαλνκήο, ζε πεξηπηψζεηο φπνπ νξηζκέλεο κεηαβιεηέο δελ έρνπλ παξαηεξεζεί. Ο αιγφξηζκνο ΔΜ ηππνπνηεί κηα ζρεηηθά παιηά ηδέα γηα ηνλ ρεηξηζκφ ησλ ειιεηπφλησλ ηηκψλ σο εμήο: 1. Αληηθαζηζηά ηηο ειιεηπνχζεο ηηκέο κε ηηο θαη εθηίκεζε ηηκέο. 2. Δθηηκά ηηο παξακέηξνπο. 3. Δπαλεθηηκά ηηο ειιεηπνχζεο ηηκέο, ππνζέηνληαο φηη νη λέεο εθηηκήζεηο ησλ παξακέηξσλ είλαη ζσζηέο. 4. Δπαλεθηηκά ηηο παξακέηξνπο θαη νχησ θαζεμήο, επαλαιακβάλνληαο ηελ πξναλαθεξζείζα δηαδηθαζία, κέρξη λα έρνπκε ζχγθιηζε. Ξεθηλάκε κε κηα αξρηθή εθηίκεζε ησλ παξακέηξσλ ηνπ κηθηνχ κνληέινπ, πνπ ζέινπκε λα εθηηκήζνπκε. Κάζε επαλάιεςε ηνπ αιγνξίζκνπ απνηειείηαη απφ 2 βήκαηα: έλα βήκα Δ (Expectation-Πξνζδνθία), πνπ αθνινπζείηαη απφ έλα βήκα Μ (Maximization- Μεγηζηνπνίεζε). ην βήκα Δ, ππνινγίδνπκε έλα ηνπηθφ θάησ θξάγκα ηνπ ινγαξίζκνπ πηζαλνθάλεηαο θαη ην κεγηζηνπνηνχκε σο πξνο ηελ θαηαλνκή ησλ κε- παξαηεξήζηκσλ κεηαβιεηψλ. Γειαδή είλαη ηζνδχλακν κε ηνλ ππνινγηζκφ ηεο εθ ησλ πζηέξσλ θαηαλνκήο ησλ κε-παξαηεξήζηκσλ κεηαβιεηψλ, ιακβάλνληαο ππφςε ηηο παξαηεξήζηκεο κεηαβιεηέο θαη ηηο θαη εθηίκεζε παξακέηξνπο απφ κηα πξνεγνχκελε επαλάιεςε. ην βήκα Μ, κεγηζηνπνηείηαη ην θάησ θξάγκα ηεο κηθηήο θαηαλνκήο, ππνζέηνληαο φηη ε θαηαλνκή ησλ κε-παξαηεξήζηκσλ κεηαβιεηψλ ηνπ βήκαηνο-δ είλαη ζσζηή. Ζ ηηκή απηή απμάλεηαη, έσο φηνπ επηηπγράλεηαη έλα ζηάζηκν ζεκείν-ηνπηθφ κέγηζην. Με άιια ιφγηα, ν αιγφξηζκνο ζπλερίδεηαη, έσο φηνπ ε πηζαλνθάλεηα, πνπ παξάγεηαη ζε δχν δηαδνρηθέο επαλαιήςεηο είλαη ε ίδηα Μίμεηο Γθανπζηαλώλ Καηαλνκώλ ζαλ απιή νκαδνπνίεζε k-means Ζ δηαδηθαζία νκαδνπνίεζεο k-means, ζπλδέεηαη ζηελά κε ηνλ ΔΜ αιγφξηζκν γηα ηελ εθηίκεζε ελφο νξηζκέλνπ κηθηνχ Γθανπζηαλνχ κνληέινπ. Σν βήκα Δ ηνπ αιγνξίζκνπ ΔΜ, ππνινγίδεη ηηο αλακελφκελεο ηηκέο θάζε ζεκείνπ, ζχκθσλα κε ηελ ζρεηηθή ηνπ ππθλφηεηα, ελψ ην βήκα Μ ππνινγίδεη μαλά ηηο παξακέηξνπο, ηεο ππθλφηεηαο ηεο θάζε ζπληζηψζαο, πνπ βαζίδνληαη ζηηο ηξέρνπζεο αλακελφκελεο ηηκέο, έηζη ψζηε λα κεγηζηνπνηείηαη ε πηζαλνθάλεηα. Τπνζέηνπκε φηη θαζνξίδνπκε Κ ζπληζηψζεο ηεο κίμεο, πνπ ε θάζε κία κε Γθανπζηαλή θαηαλνκή, έρεη κνλνδηάζηαην πίλαθα δηαζπνξάο ς 2 Ι. Σφηε ε ζρεηηθή ππθλφηεηα θάζε ζπληζηψζαο κίμεο, είλαη κηα κνλφηνλε ζπλάξηεζε ηεο επθιείδεηαο απφζηαζεο κεηαμχ ησλ ζεκείσλ θαη ηνπ θέληξνπ ηεο κηθηήο θαηαλνκήο. Έηζη ν ΔΜ είλαη κηα «απιή» εθδνρή ηεο νκαδνπνίεζεο k-means θάλνληαο πηζαλνηηθέο αλαζέζεηο (αληί ληεηεξκηληζηηθέο) ησλ ζεκείσλ ζηα θέληξα ησλ cluster. Καζψο ε δηαζπνξά ζ 2 0, απηέο νη πηζαλφηεηεο γίλνληαη 0 θαη 1 θαη νη δχν κέζνδνη ζπκπίπηνπλ. 99

111 Τπνζέηνπκε φηη έλα κνληέιν Y,είλαη κηα κίμε δχν θαλνληθψλ θαηαλνκψλ Y 1 ~ Ν (κ 1, ζ 1 2 ) θαη Y 2 ~ Ν (κ 2, ζ 2 2 ). Σφηε Y = (1 - Γ)Y 1 + ΓY 2 φπνπ Γ {0, 1} κε Ρ(Γ = 1) = π. Απηή ε αλαπαξάζηαζε είλαη ζαθήο: Γεκηνπξγνχκε έλα Γ {0, 1} κε πηζαλφηεηα π, θαη ηφηε αλάινγα κε ην απνηέιεζκα δίλνπκε είηε Y 1 είηε Y 2. Γειαδή αλ π=1,ε παξαηήξεζε πξνέξρεηαη απ ηελ πξψηε θαηαλνκή Y 1 θη αλ π=0, πξνέξρεηαη απ ηελ 2 ε θαηαλνκή Y 2. Έζησ φηη ην θ ζ (x) ζπκβνιίδεη ηελ θαλνληθή ππθλφηεηα κε παξακέηξνπο ζ=(κ, ζ 2 ). Σφηε ε ππθλφηεηα ηνπ Y είλαη: g Y (y) = (1 - π) θ ζ1 (y) + π θ ζ2 (y). Οη παξάκεηξνη είλαη: ζ = (π, ζ 1, ζ 2 ) = (π, κ 1, ζ 1 2, κ 2, ζ 2 2 ). Ζ log- πηζαλνθάλεηα γηα N πεξηπηψζεηο, φπσο είδακε είλαη: N l( ; ) log[(1 ) ( y ) ( y )] i1 i 1 2 i Ζ απεπζείαο κεγηζηνπνίεζε ηνπ l(ζ; Ε), είλαη αξθεηά δχζθνιε αξηζκεηηθά, εμαηηίαο ηνπ αζξνίζκαηνο ησλ φξσλ κέζα ζην ινγάξηζκν. Τπάξρεη φκσο κηα απινχζηεξε πξνζέγγηζε. Θεσξνχκε κε παξαηεξεζείζεο κεηαβιεηέο Γ i πνπ παίξλνπλ ηηκέο 0 ή 1, π.ρ. αλ Γ i =1 ηφηε ε Y i πξνέξρεηαη απ ην κνληέιν 2, αιιηψο απ ην κνληέιν 1. Τπνζέηνπκε φηη γλσξίδνπκε ηηο ηηκέο ησλ Γ i. Σφηε ε log- likelihood ζα ήηαλ: l ( ;, ) [(1 )log ( y ) log ( y )] [(1 )log(1 ) log ] 0 N (5.9) i 1 i i 2 i i i i1 i1 Καη νη εθηηκεηέο κέγηζηεο πηζαλνθάλεηαο ηνπ κ 1 θαη ζ 1 2, ζα ήηαλ ν δεηγκαηηθφο κέζνο θαη δηαζπνξά ησλ δεδνκέλσλ κε Γ i =0, ελψ παξνκνίσο εθείλνη ησλ κ 2 θαη ζ 2 2,ζα ήηαλ ν δεηγκαηηθφο κέζνο θαη δηαζπνξά ησλ δεδνκέλσλ κε Γ i =1. Αθνχ νη ηηκέο ησλ Γ i είλαη πξάγκαηη άγλσζηεο, πξνρσξνχκε κ έλαλ επαλαιεπηηθφ ηξφπν αληηθαζηζηψληαο ζε θάζε Γ i ηεο (5.9) ηελ δεζκεπκέλε αλακελφκελε ηηκή ηνπ γ i (ζ) = Δ(Γ i \ζ, Ε)= P(Γ i =1\ζ, Ε) πνπ θαιείηαη θαη ππεπζπλφηεηα (responsibility) θαη ππνινγίδεη ηελ ππφ ζπλζήθε πηζαλφηεηα ε παξαηήξεζε Y i λα πξνέξρεηαη απ ην κνληέιν 2. Υξεζηκνπνηνχκε ηελ δηαδηθαζία ηνπ ΔΜ αιγνξίζκνπ πνπ πεξηγξάθνπκε, γηα ηελ εηδηθή πεξίπησζε ηεο Γθανπζηαλήο κίμεο. Έλαο θαιφο ηξφπνο λα θαηαζθεπάζνπκε αξρηθέο ππνζέζεηο γηα ηα 1 θαη 2 είλαη απιά λα επηιέμνπκε 2 απ ηα y i ηπραία. Καη ηα δχν 12 θαη 22 κπνξνχλ λα ηεζνχλ ίζα κε ηελ ζπλνιηθή δεηγκαηηθή δηαζπνξά. Ζ παξάκεηξνο κίμεο κπνξεί λα αξρίζεη απ ηελ ηηκή 0.5. εκεηψλνπκε φηη ν πξαγκαηηθφο κεγηζηνπνηεηήο ηεο πηζαλνθάλεηαο, εκθαλίδεηαη φηαλ βάιινπκε κηα αθίδα (spike) απείξνπ χςνπο ζε νπνηνδήπνηε ζεκείν, δειαδή 1 = y i γηα θάπνην i θαη 12 =0. Απηφ δίλεη άπεηξε πηζαλνθάλεηα, αιιά δελ είλαη ρξήζηκε ιχζε. Καηά ζπλέπεηα ςάρλνπκε γηα έλα θαιφ ηνπηθφ κέγηζην ηεο πηζαλνθάλεηαο, εθείλν γηα ην νπνίν 12, 22 >0. Χζηφζν κπνξεί λα ππάξμνπλ πεξηζζφηεξα απφ έλα ηνπηθά κέγηζηα πνπ έρνπλ 12, 22 >0. N 100

112 ΔΜ αλγόπιθμορ για μίξη Γκαοςζιανών καηανομών 2-ζςνιζηωζών Βήμα 1: Παίξλνπκε αξρηθέο ππνζέζεηο γηα ηηο παξακέηξνπο 1, 12, 2, 22 θαη Βήμα 2: Βήμα Πποζδοκίαρ (Δ) Τπνινγίδνπκε ηηο αλακελφκελεο ηηκέο i = i= 1, 2 N ή αιιηψο ηελ θαηαλνκή ησλ κε παξαηεξήζηκσλ κεηαβιεηψλ, δνζέλησλ ησλ παξαηεξήζηκσλ θαη ησλ ηξέρνπζσλ εθηηκήζεσλ. Βήμα 3: Βήμα Μεγιζηοποίηζηρ(Μ) Τπνινγίδνπκε ηνπο ζηαζκηζκέλνπο κέζνπο θαη δηαζπνξέο: 1 = 12 = 2 = 22 = θαη ηελ παξάκεηξν κίμεο = /Ν Βήμα 4: Δπαλαιακβάλνπκε ηα βήκαηα 2 θαη 3 κέρξη ηε ζχγθιηζε. 5.4 Αξηζκεηηθό Παξάδεηγκα Δθαξκνγήο ησλ Καηαλνκώλ Μίμεο Σν παξάδεηγκα καο, αθνξά ζηελ εθαξκνγή ηνπ κνληέινπ ηεο πνιπκεηαβιεηήο θαλνληθήο κίμεο ηεο κνξθήο (5.4) ζηα δεδνκέλα ηνπ πίλαθα 5.1, πνπ δίλεη ηα πνζνζηά δνινθνλίαο/ αλζξσπνθηνλίαο θαη βηαζκψλ γηα 16 πφιεηο ησλ ΖΠΑ. Πίνακαρ 5.1 Πνζνζηά Δγθιεκαηηθόηεηαο ζε 16 πόιεηο ησλ ΗΠΑ (αλά θαηνίθνπο) Πφιε Φφλνο Βηαζκφο 1. Atlanta 2. Boston 3. Chicago 4. Dallas 5. Denver 6. Detroit 7. Hartford 8. Honolulu 9. Houston 10. Kansas City 11. Los Angeles 12. New Orleans 13. New York 14. Portland 15. Tucson 16. Washington

113 Αθνχ ηα δεδνκέλα πεξηιακβάλνπλ κφλν 2 κεηαβιεηέο, κπνξνχλ λα ζρεδηαζηνχλ, φπσο θαίλεηαη ζην ζρήκα 5.2. Έλα ηέηνην δηάγξακκα ζα επηηξέςεη ζηα απνηειέζκαηα απ ηελ αλάιπζε κίμεο, λα ζπγθξηζνχλ κ εθείλα πνπ ιακβάλνληαη απφ κηα «νπηηθή» αλάιπζε. Σρήκα 5.2 Πνζνζηά Φόλσλ θαη Βηαζκώλ γηα ηηο 16 πόιεηο ησλ ΗΠΑ Θα μεθηλήζνπκε, πξνζαξκφδνληαο κηα 2-ζπληζησζψλ δηκεηαβιεηή θαλνληθή θαηαλνκή κίμεο, ρξεζηκνπνηψληαο κεζφδνπο κέγηζηεο πηζαλνθάλεηαο, φπσο ζηελ παξάγξαθν 5.2. Οη αξρηθέο ηηκέο ησλ παξακέηξσλ ιήθζεθαλ, απ ηελ ειαρηζηνπνίεζε ηνπ ίρλνπο (W) θαη νη ηειηθέο ηηκέο ησλ παξακέηξσλ ιήθζεθαλ κεηά απφ 12 επαλαιήςεηο ηνπ αιγνξίζκνπ εθηίκεζεο. ( απηφ ην παξάδεηγκα, έρνπκε ππνζέζεη,φηη ε ζπζρέηηζε κεηαμχ ησλ δχν κεηαβιεηψλ, πνζνζηφ θφλσλ θαη βηαζκψλ, είλαη ε ίδηα ζε θάζε νκάδα.) Σα απνηειέζκαηα απεηθνλίδνληαη ζηνλ πίλαθα 5.2 θαη νη εθηηκήζεηο ησλ ηειηθψλ παξακέηξσλ πνπ θαίλνληαη ζ απηφλ ηνλ πίλαθα κπνξνχλ ηψξα λα ρξεζηκνπνηεζνχλ, γηα λα βξνχκε εθηηκήζεηο ησλ εθ ησλ πζηέξσλ πηζαλνηήησλ θάζε πφιεο, πνπ αλήθεη ζε θάζε κηα απ ηηο ππθλφηεηεο ησλ ζπληζησζψλ ζηε κηθηή θαηαλνκή. Απηέο δίλνληαη ζηνλ πίλαθα 5.3. Πίνακαρ 5.2: Απνηειέζκαηα απ ηελ πξνζαξκνγή κηαο 2-ζπληζησζώλ δηκεηαβιεηήο θαλνληθήο θαηαλνκήο κίμεο ζηα δεδνκέλα ηνπ πίλαθα 5.1 Αξρηθέο ηηκέο = = [13.99, 27.57] = ( ) Σειηθέο ηηκέο = = [14.40, 27.97] = ( ) 102

114 Πίνακαρ 5.3: Δθηηκώκελεο εθ ησλ πζηέξσλ πηζαλόηεηεο γηα ηα πνζνζηά εγθιεκαηηθόηεηαο Πφιε P(1\ x i ) P(2\ x i ) 1. Atlanta 2. Boston 3. Chicago 4. Dallas 5. Denver 6. Detroit 7. Hartford 8. Honolulu 9. Houston 10. Kansas City 11. Los Angeles 12. New Orleans 13. New York 14. Portland 15. Tucson 16. Washington Με βάζε απηέο ηηο πηζαλόηεηεο ε νκάδα 1 απνηειείηαη απ ηηο πόιεηο 1,3,4,6,9,13,16 θαη ε νκάδα 2 απνηειείηαη απ ηηο πόιεηο 2,5,7,8,10,11,12,14,15. Οη κέγηζηεο εθ ησλ πζηέξσλ πηζαλφηεηεο, κπνξνχλ λα ρξεζηκνπνηεζνχλ, γηα λα δηακεξίζνπκε ηηο πφιεηο ζε 2 νκάδεο. Ζ δηακέξηζε απεηθνλίδεηαη ζην ζρήκα 5.3 θαη νη δχν νκάδεο δηαθέξνπλ θαηά θχξην ιφγν ζην πνζνζηφ θφλσλ, κ εθείλεο ζηελ πξψηε νκάδα λα έρνπλ πςειέο ηηκέο. Σρήκα 5.3 Οη δύν νκάδεο ησλ πόιεσλ, πνπ δίλνληαη απ ηηο εθηηκώκελεο εθ ησλ πζηέξσλ πηζαλόηεηεο. 103

115 5.5 Άιιεο κέζνδνη Η Μέζνδνο ηνπ Wishart H κέζνδνο απηή, βξίζθεη κηα εθηίκεζε ηεο ηνπηθήο ππθλφηεηαο πηζαλφηεηαο ηεο θαηαλνκήο, ζηελ πεξηνρή θαζελφο απ ηα ζεκεία ησλ αληηθεηκέλσλ. Κάζε ζεκείν πςειήο ππθλφηεηαο, ρξεζηκεχεη ζαλ θέληξν ηνπ cluster, θαη ζεκεία πςειήο ππθλφηεηαο πνπ βξίζθνληαη θνληά κεηαμχ ηνπο, ζπγρσλεχνληαη ζ έλα cluster. Αξρηθά ρξεζηκνπνηήζεθε ε κέζνδνο εθηίκεζεο ππθλφηεηαο Κ-ΝΝ, αιιά ν Wishart δηαπίζησζε φηη ηα απνηειέζκαηα δηαθέξνπλ αξθεηά γηα δηάθνξεο ηηκέο ηνπ k. Αληηθαηέζηεζε ινηπφλ ηελ απφζηαζε ηνπ k- θνληηλφηεξνπ γείηνλα, κε ηε κέζε απφζηαζε ησλ 2k-θνληηλφηεξσλ γεηηφλσλ ζηελ εθηίκεζε ηεο ππθλφηεηαο. Πξάγκαηη αθνχ δελ ρξεηάδνληαη ηα απφιπηα κεγέζε ηεο ζ.π.π είλαη απνηειεζκαηηθφ λα ρξεζηκνπνηήζνπκε απηή ηε κέζε απφζηαζε, ζηε ζέζε ηεο εθηίκεζεο ηεο ζ. π. π Τερληθέο Clumping Τπάξρνπλ πεξηπηψζεηο (φπσο βηβιηνζήθεο ή αλάθηεζεο πιεξνθνξηψλ) φπνπ δελ είλαη απαξαίηεην ηα αληηθείκελα λα θαηαρσξνχληαη ζε κηα κφλν θαηεγνξία, αιιά φπνπ ιακβάλνληαη πην ρξήζηκα απνηειέζκαηα, αλ επηηξέπνληαη πνιιαπιέο ηαμηλνκήζεηο. Μέζνδνη αλάιπζεο ζπζηάδσλ, πνπ επηηξέπνπλ απηή ηε ιηγφηεξν πεξηνξηζκέλε κνξθή, είλαη ζπλήζσο γλσζηέο σο ηερληθέο clumping. 104

116 ΚΕΥΑΛΑΙΟ 6 Πειπαμαηικό Μέπορ απηφ ην θεθάιαην, επεμεγνχκε ηελ ρξήζε ηεο αλάιπζεο ζπζηάδσλ, ρξεζηκνπνηψληαο ηα δεδνκέλα ηνπ πίλαθα 6.1, πνπ δίλεη ηα ζξεπηηθά ζπζηαηηθά ησλ ηξνθίκσλ. Πξψηα νκαδνπνηνχκε ηηο παξαηεξήζεηο, ρξεζηκνπνηψληαο ηηο κεζφδνπο απιήο ζχλδεζεο, πιήξνπο ζχλδεζεο, ηε κέζνδν centroid θαη ηνπ Ward. Πνιιαπιέο κέζνδνη ρξεζηκνπνηνχληαη γηα λα θαζνξίζνπκε, αλ νη δηαθνξεηηθέο απηέο κέζνδνη παξάγνπλ παξφκνηεο ιχζεηο ησλ cluster. Αθνινπζείηαη ζηε ζπλέρεηα, κία ηερληθή κε ηεξαξρηθήο νκαδνπνίεζεο. Οη «θαιχηεξεο» ιχζεηο πνπ ιακβάλνληαη απ ηελ ηεξαξρηθή δηαδηθαζία, ζα ρξεζηκνπνηεζνχλ ζαλ ιχζεηο αθεηεξίαο ή αξρηθέο ιχζεηο. Πίνακαρ 6.1: Θξεπηηθά ζπζηαηηθά ηξνθίκσλ Σξφθηκα Θεξκίδεο Πξσηεΐλεο Ληπαξά Αζβέζηην ίδεξνο 1.Braised beef Hamburger Roast beef Beef steak Canned beef Broiled chicken Canned chicken Beef heart Roast lamb leg Roast lamb shoulder Smoked ham Roast pork Simmered pork Beef tongue Veal cutlet Baked bluefish Raw clams Canned clams Canned crabmeat Fried haddock Broiled mackerel Canned mackerel Fried perch Canned salmon Canned sardines Canned tuna Ca 27.Canned shrimp Θα ζπδεηήζνπκε ην απνηέιεζκα πνπ πξνθχπηεη απ ηελ δηαδηθαζία ηεξαξρηθήο νκαδνπνίεζεο proc cluster ζηελ SAS. Παξαθάησ θαίλνληαη νη εληνιέο ηεο SAS πνπ ρξεζηκνπνηήζεθαλ γηα ηελ νκαδνπνίεζε ησλ ηξνθίκσλ ηνπ πίλαθα

117 Ζ επηινγή simple αλαθέξεηαη ζηα απιά ή πεξηγξαθηθά ζηαηηζηηθά ησλ δεδνκέλσλ. Ζ noeigen δίλεη ηελ εληνιή φηη δελ πξέπεη λα αλαθεξζνχλ νη ηδηνηηκέο θαη ηα ηδηνδηαλχζκαηα ηνπ πίλαθα δηαζπνξάο κεηαμχ ησλ κεηαβιεηψλ. Ζ πιεξνθνξία απηή δελ ρξεηάδεηαη γηα ηελ εξκελεία ηεο ιχζεο ησλ cluster. Ζ επηινγή method, δηεπθξηλίδεη ηελ κέζνδν πνπ ρξεζηκνπνηείηαη γηα ηελ νκαδνπνίεζε ησλ παξαηεξήζεσλ. Απηή κπνξεί λα είλαη single, complete, centroid ή Ward. Οη RMSSTD θαη RSQUARE αλαθέξνληαη ζε νξηζκέλα ζηαηηζηηθά ζηνηρεία πνπ ρξεζηκνπνηνχληαη γηα ηελ ππνινγηζκφ ηεο ιχζεο ησλ cluster. Ζ 106

118 nonorm δείρλεη φηη νη επθιείδεηεο απνζηάζεηο δελ ζα πξέπεη λα θαλνληθνπνηεζνχλ. Ζ θαλνληθνπνίεζε, δηαηξεί νπζηαζηηθά ηελ επθιείδεηα απφζηαζε κεηαμχ 2 παξαηεξήζεσλ ή cluster, απ ηνλ κέζν φξν ησλ επθιείδεησλ απνζηάζεσλ, κεηαμχ φισλ ησλ δεπγαξηψλ παξαηεξήζεσλ. πλεπψο ε θαλνληθνπνίεζε ησλ επθιείδεησλ απνζηάζεσλ, δελ επεξεάδεη ηε ιχζε ησλ cluster θαη σο εθ ηνχηνπ δελ απαηηείηαη πξαγκαηηθά. Ζ δηαδηθαζία proc tree ρξεζηκνπνηεί ηηο εμφδνπο απ ην proc cluster γηα λα αλαπηχμεη κηα ιίζηα ησλ ζηνηρείσλ ησλ cluster, γηα κηα δεδνκέλε ιχζε. Σν παξαθάησ παξάζεκα, πεξηέρεη απνηειέζκαηα γηα ηηο κεζφδνπο απιήο ζχλδεζεο, πιήξνπο ζχλδεζεο, ηελ κέζνδν centroid θαη ηε κέζνδν ηνπ Ward. Σν ζρήκα 6.5, δίλεη ηα δηαγξάκκαηα γηα ηα θξηηήξηα (α) RMSSTD θαη (β) RS, πνπ κπνξνχλ λα ρξεζηκνπνηεζνχλ γηα ηελ εθηίκεζε ηεο ιχζεο ησλ cluster θαη ηνλ πξνζδηνξηζκφ ηνπ αξηζκνχ ησλ cluster. Τπελζπκίδνπκε φηη αλαδεηνχκε, κηα «κεγάιε» κεηαβνιή ή κηα γσλία elbow ζην δηάγξακκα ελφο δνζκέλνπ θξηηεξίνπ, ελάληηα ζηνλ αξηζκφ ησλ cluster. Οη θαλεξέο γσλίεο έρνπλ νλνκαζηεί ζηα δηαγξάκκαηα. Όκσο ε νπηηθή αλαγλψξηζε ησλ elbow είλαη κηα ππνθεηκεληθή δηαδηθαζία θαη ζα κπνξνχζε λα δηαθέξεη κεηαμχ ησλ εξεπλεηψλ. Παπάθεμα Β: Αποηελέζμαηα από ηιρ μεθόδοςρ απλήρ ζύνδεζηρ, πλήποςρ ζύνδεζηρ, centroid και μέθοδο ηος Ward. 107

119 108

120 (a) 109

121 Σρήκα 6.1: Γελδξόγξακκα απιήο ζύλδεζεο γηα ηα ζξεπηηθά ζπζηαηηθά ηξνθίκσλ, κηαο ιύζεο (a) 4-cluster θαη (b) 7- cluster (b) 110

122 111

123 Σρήκα 6.2: Γελδξόγξακκα πιήξνπο ζύλδεζεο γηα ηα ζξεπηηθά ζπζηαηηθά Τξνθίκσλ. 112

124 113

125 Σρήκα 6.3: Γελδξόγξακκα κεζόδνπ centroid γηα ηα ζξεπηηθά ζπζηαηηθά Τξνθίκσλ 114

126 115

127 Σρήκα 6.4: Γελδξόγξακκα κεζόδνπ Ward, γηα ηα ζξεπηηθά ζπζηαηηθά ηξνθίκσλ ηα παξαπάλσ απνηειέζκαηα πνπ πξνέθπςαλ απφ ην πξφγξακκα SAS, αλαθέξνληαη ηα βαζηθά ζηαηηζηηθά ζηνηρεία φπσο ν κέζνο, ε ηππηθή απφθιηζε, ε αζπκκεηξία, ε θχξησζε θαη ν ζπληειεζηήο δηθνξχθσζεο. Απηά ηα ζηαηηζηηθά 116

128 ρξεζηκνπνηνχληαη θαλνληθά γηα λα δψζνπλ θάπνηα έλδεημε ζρεηηθά κε ηελ θαηαλνκή ησλ κεηαβιεηψλ. Ζ κέζε ηεηξαγσληθή ζπλνιηθή δεηγκαηηθή ηππηθή απφθιηζε (RMSSTD) είλαη απιά έλα κέηξν ηεο ηππηθήο απφθιηζεο φισλ ησλ κεηαβιεηψλ. Όζν κηθξφηεξε είλαη ε ηηκή, ηφζν νκνηνγελείο είλαη νη παξαηεξήζεηο ζε ζρέζε κε ηηο κεηαβιεηέο θαη αληίζηξνθα. Παξαηεξνχκε φηη ζε θάζε βήκα ζρεκαηίδεηαη έλα cluster ή νκάδα, είηε ελψλνληαο 2 παξαηεξήζεηο, είηε ελψλνληαο 2 ζρεκαηηδφκελα απφ πξνεγνπκέλσο cluster είηε ελψλνληαο κηα παξαηήξεζε θη έλα ζρεκαηηζκέλν εθ ησλ πξνηέξσλ cluster. Ζ ζηήιε number of clusters, δίλεη ηνλ ζπλνιηθφ αξηζκφ cluster, ζπκπεξηιακβαλνκέλνπ απηνχ πνπ ζρεκαηίδεηαη ζην ηξέρσλ βήκα. Σν cluster πνπ ζρεκαηίδεηαη ζε νπνηνδήπνηε δεδνκέλν βήκα, ραξαθηεξίδεηαη σο CL j φπνπ j είλαη ν ζπλνιηθφο αξηζκφο cluster ζην δεδνκέλν βήκα. Θα ππάξρνπλ n-1 cluster ζην πξψην βήκα, n-2 cluster ζην δεχηεξν βήκα, n-3 cluster ζην 3 ν βήκα θαη νχησ θαζεμήο. Έηζη ην cluster πνπ ζρεκαηίδεηαη ζην βήκα 1 αλαπαξηζηάλεηαη σο CL(n-1), ην cluster πνπ ζρεκαηίδεηαη ζην βήκα 2 σο CL(n-2) θαη νχησ θαζεμήο. Γηα θάζε δεδνκέλν βήκα, ε ζηήιε Clusters Joined, δίλεη ηα cluster ή παξαηεξήζεηο πνπ ζπλδένληαη γηα λα ζρεκαηίζνπλ ην cluster ζην δεδνκέλν βήκα. Έλα cluster, πνπ απνηειείηαη απφ κία κφλν παξαηήξεζε ή αληηθείκελν ζπκβνιίδεηαη απ ηνλ αξηζκφ πξνζδηνξηζκνχ ηεο παξαηήξεζεο, ελψ έλα cluster πνπ απνηειείηαη απφ 2 ή πεξηζζφηεξεο παξαηεξήζεηο, αλαπαξηζηάλεηαη απφ ηνλ αξηζκφ πξνζδηνξηζκνχ ηνπ cluster. Ζ ζηήιε Frequency of new cluster, δίλεη ην κέγεζνο ηνπ cluster πνπ ζρεκαηίδεηαη ζε θάζε δεδνκέλν βήκα. Οη πιεξνθνξίεο πνπ παξέρνληαη ζηηο παξαπάλσ ζηήιεο, κπνξνχλ λα ρξεζηκνπνηεζνχλ γηα λα θαζνξίζνπλ ηνλ αξηζκφ ησλ cluster ζε θάζε βήκα, ην κέγεζνο ησλ cluster πνπ ζρεκαηίδνληαη θαη ηε ζχζηαζε ηνπο. Γηα παξάδεηγκα απ ηα απνηειέζκαηα ηνπ SAS θαηά ηελ εθαξκνγή ηεο κεζφδνπ απιήο ζχλδεζεο παξαηεξνχκε φηη ζην 1 ν βήκα, ππάξρνπλ ζπλνιηθά 26 cluster. Σν κέγεζνο ηνπ cluster CL26 πνπ ζρεκαηίδεηαη ζ απηφ ην βήκα είλαη 2 θαη απνηειείηαη απφ ηα ζηνηρεία 1 θαη 11. Σν CL25 είλαη ην cluster πνπ ζρεκαηίδεηαη ζην 2 ν βήκα, θαη απνηειείηαη απφ 3 ζηνηρεία, ηα ζηνηρεία 1 θαη 11 πνπ πεξηέρνληαη ζην CL26 απφ ην πξνεγνχκελν βήκα θαη ην ζηνηρείν 12. Σν CL24 είλαη ην cluster πνπ ζρεκαηίδεηαη ζην 3 ν βήκα θαη απνηειείηαη απφ ηα ζηνηρεία 7 θαη 26. Με ηνλ ίδην ηξφπν, θαζψο θηάλνπκε ζην ηειεπηαίν βήκα, έρνπκε ην cluster CL1, ην νπνίν απνηειείηαη απφ ην cluster CL2, πνπ απ ην πξνεγνχκελν βήκα πεξηέρεη 26 ζηνηρεία θαη ην ζηνηρείν 25, δειαδή είλαη ην cluster πνπ πεξηέρεη ηειηθά φιεο ηηο παξαηεξήζεηο. 117

129 (α) (β) Σρήκα 6.5: Γηαγξάκκαηα (α)rmsstd θαη (β)r-square Απνδεηθλχεηαη απ ηα δηαγξάκκαηα, φηη ηα πεξηζζφηεξα απ ηα θξηηήξηα γηα ηελ κέζνδν πιήξνπο ζχλδεζεο, ηελ κέζνδν centroid θαη ηε κέζνδν ηνπ Ward, ππνδειψλνπλ φηη ππάξρνπλ 4 cluster, αλ θαη ππάξρεη θάπνηα απφδεημε φηη κπνξεί λα ππάξρνπλ 3 κφλν cluster. Δπηπιένλ φια ηα θξηηήξηα δείρλνπλ κηα ινγηθή ιχζε ησλ cluster. Tα δηαγξάκκαηα γηα ηελ κέζνδν απιήο ζχλδεζεο, είλαη ελδηαθέξνληα θαη ππνδειψλνπλ κηα ιχζε ησλ 7 ή 4 cluster. Μηα ηειηθή ζπδήηεζε γηα ηνλ αξηζκφ ησλ 118

130 cluster, πνπ ζα πξέπεη λα δηαηεξεζνχλ κπνξεί λα γίλεη κε ηελ πεξαηηέξσ εμέηαζε ησλ ζηνηρείσλ ησλ cluster πνπ ζρεκαηίδνληαη απφ ηηο 4 κεζφδνπο. Ο πίλαθαο 6.2 δίλεη ηα ζηνηρεία ησλ cluster, θάζε ηξνθίκνπ γηα θάζε κηα απφ ηηο 4 κεζφδνπο. Δθηφο απφ ηελ κέζνδν απιή ζχλδεζεο, νη άιιεο κέζνδνη παξάγνπλ κηα ζρεδφλ παξφκνηα ιχζε ησλ cluster. Πίνακαρ 6.2: Τα ζηνηρεία ησλ cluster, γηα ηελ 4-cluster ιύζε. Ca Τξόθηκα Braised beef Hamburger Roast beef Beef steak Canned beef Broiled chicken Canned chicken Beef heart Roast lamb leg Roast lamb shoulder Smoked ham Roast pork Simmered pork Beef tongue Veal cutlet Baked bluefish Raw clams Canned clams Canned crabmeat Fried haddock Broiled mackerel Canned mackerel Fried perch Canned salmon Canned sardines Canned tuna Canned shrimp Πιήξεο χλδεζε Ιεξαξρηθέο κέζνδνη νκαδνπνίεζεο Ward Centroid Απιή χλδεζε 1 1 1(1) 2 1 1(1) 1 1 1(6) 1 1 1(1) 2 2 1(2) 3 2 1(2) 2 2 1(2) 2 2 1(2) 2 1 1(1) 2 1 1(1) 1 1 1(1) 1 1 1(1) 1 1 1(1) 2 2 1(2) 2 2 1(2) 3 2 1(2) 3 3 2(3) 3 3 2(3) 3 2 1(2) 3 2 1(2) 2 2 1(2) 3 3 3(4) 2 2 1(2) 3 3 3(4) 4 4 4(7) 2 2 1(2) 3 3 2(5) Οη αξηζκνί ζηηο παξελζέζεηο γηα ηελ κέζνδν απιήο ζύλδεζεο είλαη ηα ζηνηρεία ησλ cluster, γηα κηα ιύζε ησλ 7-cluster. Οη ιχζεηο ησλ 4-cluster, γηα ηελ κέζνδν ηνπ Ward θαη ηεο πιήξνπο ζχλδεζεο είλαη νη ίδηεο θαη δηαθέξνπλ ιίγν κφλν απφ εθείλεο ηεο κεζφδνπ centroid. Σν cluster 4 γηα ηηο κεζφδνπο πιήξνπο ζχλδεζεο, Ward θαη centroid θαη ην cluster 7 γηα ηελ κέζνδν απιή ζχλδεζεο, πεξηέρεη κηα κφλν παξαηήξεζε (δειαδή θνλζεξβνπνηεκέλεο ζαξδέιεο canned sardines). Tα cluster 5, 6 θαη 7 ηεο ιχζεο ησλ 7- cluster, πνπ πξνθχπηνπλ απ ηε κέζνδν απιήο ζχλδεζεο, απνηεινχληαη επίζεο απφ 1 κέινο ε θάζε κηα, ελψ ην cluster 4 απνηειείηαη απφ 2 κφλν κέιε. Σα ζηνηρεία ησλ ππνινίπσλ cluster (cluster 1, 2 θαη 3), κνηάδνπλ πνιχ κ εθείλα ησλ άιισλ 3 κεζφδσλ. Φαίλεηαη φηη ππάξρνπλ 4 cluster, φκσο ε 119

131 ιχζε ησλ 4- cluster πνπ ιακβάλεηαη απ ηε κέζνδν απιήο ζχλδεζεο, είλαη αξθεηά δηαθνξεηηθή απ ηηο άιιεο 3 κεζφδνπο. Ο πίλαθαο 6.3, δίλεη ηα centroid ή ηα θέληξα ησλ cluster γηα θάζε κέζνδν νκαδνπνίεζεο. Πίνακαρ 6.3: Τα θέληξα ησλ cluster γηα θάζε κέζνδν νκαδνπνίεζεο. (α) Μέζνδνο απιήο ζύλδεζεο (β) Μέζνδνο πιήξνπο ζύλδεζεο θαη κέζνδνο ηνπ Ward (γ) Μέζνδνο centroid Όπσο αλαθέξζεθε πξνεγνπκέλσο, ζπλίζηαηαη ε ηεξαξρηθή αλάιπζε ζπζηάδσλ λα αθνινπζείηαη απ ηελ κε ηεξαξρηθή νκαδνπνίεζε. Γειαδή ε κε ηεξαξρηθή νκαδνπνίεζε ρξεζηκνπνηείηαη γηα λα βειηηψζεη ηε ιχζε νκαδνπνίεζεο πνπ ιακβάλεηαη απφ ηελ ηεξαξρηθή κέζνδν. Δπεηδή νη δηάθνξεο ηεξαξρηθέο κέζνδνη θαηαιήγνπλ ζε δηαθνξεηηθέο ιχζεηο, θάζε κηα απ απηέο ηηο ιχζεηο, ζα βειηησζεί απ ηελ κε ηεξαξρηθή νκαδνπνίεζε. Σα κέζα ησλ cluster πνπ δίλνληαη ζηνλ πίλαθα 6.3, ρξεζηκνπνηνχληαη ζαλ αξρηθά θνκβηθά ζεκεία ή ζεκεία αθεηεξίαο. εκεηψλνπκε φηη ην 4 ν cluster απφ θάζε ιχζε απνηειείηαη απφ κφλν κία παξαηήξεζε, ηηο θνλζεξβνπνηεκέλεο ζαξδέιεο πνπ ζαθψο είλαη κηα αθξαία ηηκή, εμαηηίαο ηεο πςειήο πεξηεθηηθφηεηαο ζε αζβέζηην. πλεπψο απηφ ην ηξφθηκν 120

132 δηαγξάθεηαη απφ ηελ πεξαηηέξσ αλάιπζε, θη έηζη έρνπκε νπζηαζηηθά 3 cluster. Οη ηειηθέο κε ηεξαξρηθέο ιχζεηο δηαθέξνπλ ιίγν κφλν, φηαλ ηα centroid ησλ cluster απφ δηάθνξεο ηεξαξρηθέο κεζφδνπο ρξεζηκνπνηεζνχλ ζαλ αξρηθά θνκβηθά ζεκεία. Υξεζηκνπνηνχκε ηελ κε ηεξαξρηθή δηαδηθαζία νκαδνπνίεζεο ηεο SAS, ηελ FASTCLUS. Παξαθάησ παξνπζηάδνληαη νη εληνιέο πνπ ρξεζηκνπνηήζακε, φηαλ ηα κέζα ησλ cluster απ ηε κέζνδν centroid ηνπ ηεξαξρηθνχ αιγνξίζκνπ νκαδνπνίεζεο ρξεζηκνπνηεζνχλ ζαλ αξρηθά θνκβηθά ζεκεία. 121

133 Οη επηινγέο RADIUS θαη REPLACE, ειέγρνπλ ηελ επηινγή ησλ αξρηθψλ θνκβηθψλ ζεκείσλ ησλ cluster θαη ησλ θαλφλσλ πνπ ρξεζηκνπνηνχληαη γηα ηελ αληηθαηάζηαζε ηνπο. Ζ επηινγή RADIUS πξνζδηνξίδεη ηελ ειάρηζηε επθιείδεηα απφζηαζε κεηαμχ κηαο παξαηήξεζεο πνπ εμεηάδεηαη γηα πηζαλφ θνκβηθφ ζεκείν θαη ησλ ππάξρνλησλ ζεκείσλ. Αλ ε παξαηήξεζε δελ ηθαλνπνηεί ην θξηηήξην, ηφηε δελ επηιέγεηαη ζαλ θνκβηθφ ζεκείν. Πξέπεη λα ιεθζεί ηδηαίηεξε πξνζνρή ζηνλ πξνζδηνξηζκφ ηεο ειάρηζηεο απφζηαζεο, επεηδή πνιχ κεγάιε απφζηαζε, κπνξεί λα νδεγήζεη ζε αξηζκφ θνκβηθψλ ζεκείσλ πνπ είλαη κηθξφηεξνο απφ ηνλ αξηζκφ ησλ επηζπκεηψλ cluster ή κπνξεί λα νδεγήζεη ζε αθξαίεο ηηκέο πνπ επηιέγνληαη ζαλ θνκβηθά ζεκεία. Ζ επηινγή REPLACE ειέγρεη ηελ αληηθαηάζηαζε ησλ θνκβηθψλ ζεκείσλ κεηά ηελ αξρηθή επηινγή. Μπνξεί λα πξνζδηνξίζεη θαλείο κεξηθή, πιήξεο ή θαζφινπ αληηθαηάζηαζε. Αλ REPLACE=NONE, ηφηε ηα θνκβηθά ζεκεία δελ αληηθαζίζηαληαη. Ζ δηαδηθαζία αληηθαηάζηαζεο πνπ πεξηγξάθηεθε ζηνλ αιγφξηζκν ΙΙ, ηνπ θεθαιαίνπ 4, κπνξεί λα ιεθζεί θαζνξίδνληαο REPLACE=PART. Ζ επηινγή REPLACE=FULL, ρξεζηκνπνηεί 2 θξηηήξηα ή θαλφλεο γηα ηελ αληηθαηάζηαζε ησλ θνκβηθψλ ζεκείσλ. Σν πξψην θξηηήξην είλαη ην ίδην κε απηφ ηνπ αιγνξίζκνπ ΙΙ, αιιά αλ απηφ δελ ηθαλνπνηείηαη, ρξεζηκνπνηείηαη έλα 2 ν θξηηήξην πνπ θαζνξίδεη αλ ε παξαηήξεζε ηθαλνπνηεί ηελ αληηθαηάζηαζε ηνπ ηξέρνληνο θνκβηθνχ ζεκείνπ. Δδψ δελ ζπδεηάκε απηφ ην θξηηήξην. Γεληθά πξνηείλεηαη λα ρξεζηκνπνηήζνπκε έλα radius ηνπ κεδελφο κε ηελ επηινγή full replacement, θαζψο απηή δίλεη θνκβηθά ζεκεία πνπ είλαη επιφγσο πνιχ απνκαθξπζκέλα θαη πξνζηαηεχεη επίζεο απφ ηελ επηινγή ησλ αθξαίσλ ηηκψλ ζαλ θνκβηθά ζεκεία. Ζ επηινγή MAXCLUSTERS, πξνζδηνξίδεη ηνλ αξηζκφ ησλ cluster πνπ επηζπκνχληαη. Ο κέγηζηνο αξηζκφο επαλαιήςεσλ ή αλαθαηαλνκψλ πξνζδηνξίδεηαη απφ ηελ επηινγή MAXITER. Οη επαλαιήςεηο ζπλερίδνληαη κέρξη ε κεηαβνιή ζηα centroid ησλ cluster δχν δηαδνρηθψλ επαλαιήςεσλ λα είλαη κηθξφηεξε απ ηελ ηηκή ζχγθιηζεο πνπ θαζνξίδεηαη απ ηνλ εξεπλεηή. Πξνεπηιεγκέλεο ηηκέο γηα MAXITER θαη CONVERGE είλαη αληίζηνηρα 20 θαη Σν παξαθάησ παξάζεκα, παξνπζηάδεη ηα απνηειέζκαηα πνπ πξνέθπςαλ απ ηελ δηαδηθαζία FASTCLUS θαη ηα νλνκάδνπκε γηα λα δηεπθνιπλζεί ε αλάιπζε. 122

134 Παπάθεμα Γ: Μη ιεπαπσική ανάλςζη για ηα θπεπηικά ζςζηαηικά ηων ηποθίμων 123

135 124

136 ηα απνηειέζκαηα, παξαηεξνχκε φηη ηππψλνληαη ηα αξρηθά θέληξα ησλ cluster ή θνκβηθά ζεκεία [1], ηα νπνία είλαη ηα ίδηα κε απηά πνπ αλαθέξζεθαλ ζηνλ πίλαθα 6.3. Σν ηζηνξηθφ ηεο επαλάιεςεο γηα αλαθαηαλνκή επίζεο παξνπζηάδεηαη [2] θαη βιέπνπκε φηη απαηηείηαη έλα ζχλνιν 3 επαλαιήςεσλ ή αλαθαηαλνκψλ γηα λα ζπγθιίλεη ε ιχζε ησλ cluster. ηελ ηειηθή ιχζε ππάξρνπλ 3 cluster, ηα cluster 1, 2 θαη 3 πνπ απνηεινχληαη αληίζηνηρα απφ 8, 12 θαη 6 ζηνηρεία [3a]. ην ηέινο ησλ απνηειεζκάησλ παξνπζηάδεηαη θαη κηα ιίζηα ησλ ζηνηρείσλ πνπ πεξηέρνληαη ζε θάζε cluster [6]. Δκηίμηζη ηηρ λύζηρ ηων cluster Γηα κηα θαιή ιχζε ησλ cluster, θάζε cluster ζα πξέπεη λα είλαη φζν ην δπλαηφλ νκνηνγελέο θαη ηα δηαθνξεηηθά cluster, φζν ην δπλαηφλ εηεξνγελή. Σα 3 cluster, θαίλνληαη λα είλαη θαιά δηαρσξηζκέλα, θαζψο ε απφζηαζε αλάκεζα ζηα centroid ησλ cluster είλαη αξθεηά κεγάιε. Γηα παξάδεηγκα, ην πιεζηέζηεξν cluster ζην cluster 1, είλαη ην cluster 2 [3d] θαη ε απφζηαζε αλάκεζα ζηα centroid απηψλ ησλ 2 cluster είλαη 168,5 [3e]. Μηα πςειή ηηκή ηνπ 0,845 γηα ην RS επηβεβαηψλεη απηφ ην ζπκπέξαζκα [4c]. Όπσο πεξηγξάςακε ζε πξνεγνχκελν θεθάιαην, κηα πςειή ηηκή ηνπ RS, δείρλεη φηη ηα cluster είλαη θαιά δηαρσξηζκέλα θαη ζπλεπψο αξθεηά νκνηνγελή. Σν RMSSTD ησλ cluster ππνδειψλεη φηη ζρεηηθψο ην cluster 2 είλαη πην νκνηνγελέο απ ηα άιια 2 cluster [3b]. πλνιηθά θαίλεηαη ινγηθή ε ιχζε ησλ cluster. 125

Ενδεικτικά Θέματα Στατιστικής ΙΙ

Ενδεικτικά Θέματα Στατιστικής ΙΙ Ενδεικτικά Θέματα Στατιστικής ΙΙ Θέματα. Έζησ όηη ζε δείγκα 35 θαηνηθηώλ πνπ ελνηθηάδνληαη ζε θνηηεηέο ζηελ Κνδάλε βξέζεθε ην κέζν κεληαίν κίζζσκα ζηα 5 επξώ, ελώ ζην Ζξάθιεην ην κέζν κεληαίν κίζζσκα ζε

Διαβάστε περισσότερα

Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση

Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση Πώς πρέπει να τιμολογεί ένα μονοπώλιο; Μέρξη ζηηγκήο ην κνλνπώιην έρεη ζεσξεζεί ζαλ κηα επηρείξεζε ε νπνία πσιεί ην πξντόλ ηεο ζε θάζε πειάηε ζηελ

Διαβάστε περισσότερα

ΑΛΛΑΓΗ ΟΝΟΜΑΣΟ ΚΑΙ ΟΜΑΔΑ ΕΡΓΑΙΑ, ΚΟΙΝΟΥΡΗΣΟΙ ΦΑΚΕΛΟΙ ΚΑΙ ΕΚΣΤΠΩΣΕ ΣΑ WINDOWS XP

ΑΛΛΑΓΗ ΟΝΟΜΑΣΟ ΚΑΙ ΟΜΑΔΑ ΕΡΓΑΙΑ, ΚΟΙΝΟΥΡΗΣΟΙ ΦΑΚΕΛΟΙ ΚΑΙ ΕΚΣΤΠΩΣΕ ΣΑ WINDOWS XP ΑΛΛΑΓΗ ΟΝΟΜΑΣΟ ΚΑΙ ΟΜΑΔΑ ΕΡΓΑΙΑ, ΚΟΙΝΟΥΡΗΣΟΙ ΦΑΚΕΛΟΙ ΚΑΙ ΕΚΣΤΠΩΣΕ ΣΑ WINDOWS XP ηότοι εργαζηηρίοσ ην πιαίζην ηνπ ζπγθεθξηκέλνπ εξγαζηεξίνπ ζα παξνπζηαζηνύλ βαζηθέο ιεηηνπξγίεο ησλ Windows XP πνπ ζρεηίδνληαη

Διαβάστε περισσότερα

Α. Εηζαγσγή ηεο έλλνηαο ηεο ηξηγσλνκεηξηθήο εμίζσζεο κε αξρηθό παξάδεηγκα ηελ εκx = 2

Α. Εηζαγσγή ηεο έλλνηαο ηεο ηξηγσλνκεηξηθήο εμίζσζεο κε αξρηθό παξάδεηγκα ηελ εκx = 2 ΣΡΙΓΩΝΟΜΔΣΡΙΚΔ EΞΙΩΔΙ Πνηα παξαδείγκαηα εμηζώζεσλ ή θαη πξνβιεκάησλ πηζηεύεηαη όηη είλαη θαηάιιεια γηα ηελ επίιπζε ηνπο θαηά ηελ δηάξθεηα ηεο δηδαθηηθήο δηαδηθαζίαο κέζα ζηελ ηάμε; 1 ε ΓΙΓΑΚΣΙΚΗ ΩΡΑ Α.

Διαβάστε περισσότερα

H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ

H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ Φξεζηκόηεηα καζεκαηηθώλ Αξρή θαηακέηξεζεο Όζα έδσζαλ νη Έιιελεο... Τξίγσλνη αξηζκνί Τεηξάγσλνη αξηζκνί Δπηκήθεηο αξηζκνί Πξώηνη αξηζκνί Αξηζκνί κε μερσξηζηέο ηδηόηεηεο Γίδπκνη πξώηνη

Διαβάστε περισσότερα

ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ. Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη Εήηημα 1 ο :

ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ. Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη Εήηημα 1 ο : ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ Ον/μο:.. Γ Λσκείοσ Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη. 11-1-11 Εήηημα 1 ο : Α. Γηα ηελ ζπλάξηεζε f, λα βξείηε ην δηάζηεκα ζην νπνίν είλαη παξαγσγίζηκε θαζώο θαη

Διαβάστε περισσότερα

ΑΠΛΟΠΟΙΗΗ ΛΟΓΙΚΩΝ ΤΝΑΡΣΗΕΩΝ ΜΕ ΠΙΝΑΚΕ KARNAUGH

ΑΠΛΟΠΟΙΗΗ ΛΟΓΙΚΩΝ ΤΝΑΡΣΗΕΩΝ ΜΕ ΠΙΝΑΚΕ KARNAUGH ΑΠΛΟΠΟΙΗΗ ΛΟΓΙΚΩΝ ΤΝΑΡΣΗΕΩΝ ΜΕ ΠΙΝΑΚΕ KRNUGH Γηα λα θάλνπκε απινπνίεζε κηαο ινγηθήο ζπλάξηεζεο κε πίλαθα (ή ράξηε) Karnaugh αθνινπζνύκε ηα παξαθάησ βήκαηα:. Η ινγηθή ζπλάξηεζε ζα πξέπεη λα είλαη ζε πιήξε

Διαβάστε περισσότερα

Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν 2011-12

Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν 2011-12 Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν 11-12 Project 6: Ταμίδη κε ηε Μεραλή ηνπ Φξόλνπ Υπεύζπλνη Καζεγεηέο: Ε. Μπηιαλάθε Φ. Αλησλάηνο Δρώηηζη 3: Πνηα από ηα παξαθάησ ΜΜΕ ηεξαξρείηε από πιεπξάο ζεκαζίαο;

Διαβάστε περισσότερα

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΤΙΚΗ ΣΚΥΤΑΛΟΓΡΟΜΙΑ 2015 ΓΙΑ ΤΟ ΓΥΜΝΑΣΙΟ Τεηάπηη 28 Ιανουαπίου 2015 ΛΔΥΚΩΣΙΑ Τάξη: Α Γυμναζίου

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΤΙΚΗ ΣΚΥΤΑΛΟΓΡΟΜΙΑ 2015 ΓΙΑ ΤΟ ΓΥΜΝΑΣΙΟ Τεηάπηη 28 Ιανουαπίου 2015 ΛΔΥΚΩΣΙΑ Τάξη: Α Γυμναζίου ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΤΙΚΗ ΣΚΥΤΑΛΟΓΡΟΜΙΑ 2015 ΓΙΑ ΤΟ ΓΥΜΝΑΣΙΟ Τεηάπηη 28 Ιανουαπίου 2015 ΛΔΥΚΩΣΙΑ Τάξη: Α Γυμναζίου ΠΡΟΒΛΗΜΑ Σε έλα ηνπξλνπά βόιετ δήισζαλ ζπκκεηνρή νκάδεο Γπκλαζίσλ ηεο Κύπξνπ.

Διαβάστε περισσότερα

Αιγόξηζκνη Γνκή επηινγήο. Πνιιαπιή Δπηινγή Δκθωιεπκέλεο Δπηινγέο. Δηζαγωγή ζηηο Αξρέο ηεο Δπηζηήκεο ηωλ Η/Υ. introcsprinciples.wordpress.

Αιγόξηζκνη Γνκή επηινγήο. Πνιιαπιή Δπηινγή Δκθωιεπκέλεο Δπηινγέο. Δηζαγωγή ζηηο Αξρέο ηεο Δπηζηήκεο ηωλ Η/Υ. introcsprinciples.wordpress. Αιγόξηζκνη 2.2.7.3 Γνκή επηινγήο Πνιιαπιή Δπηινγή Δκθωιεπκέλεο Δπηινγέο Δηζαγωγή ζηηο Αξρέο ηεο Δπηζηήκεο ηωλ Η/Υ 1 Πνιιαπιή Δληνιή Δπηινγήο Αν ζπλζήθε_1 ηόηε εληνιέο_1 αλλιώς_αν ζπλζήθε_2 ηόηε εληνιέο_2...

Διαβάστε περισσότερα

ΦΥΣΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ. G. Mitsou

ΦΥΣΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ. G. Mitsou ΦΥΣΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ ηαηηθή ηωλ ξεπζηώλ (Τδξνζηαηηθή) Ση είλαη ηα ξεπζηά - Γεληθά Ππθλόηεηα Πίεζε Μεηαβνιή ηεο πίεζεο ζπλαξηήζεη ηνπ βάζνπο Αξρή ηνπ Pascal Τδξνζηαηηθή πίεζε Αηκνζθαηξηθή πίεζε Απόιπηε &

Διαβάστε περισσότερα

Απαντήσεις θέματος 2. Παξαθάησ αθνινπζεί αλαιπηηθή επίιπζε ησλ εξσηεκάησλ.

Απαντήσεις θέματος 2. Παξαθάησ αθνινπζεί αλαιπηηθή επίιπζε ησλ εξσηεκάησλ. Απαντήσεις θέματος 2 Απηά πνπ έπξεπε λα γξάςεηε (δελ ρξεηαδόηαλ δηθαηνιόγεζε εθηόο από ην Γ) Α return a*b; Β 0:acegf2, 1: acegf23, 2: acegf234, 3:acegf2345, 4:acegf23456, 5:acegf234567, 6:acegf2345678,

Διαβάστε περισσότερα

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ. Οξηδόληηα θαη θαηαθόξπθε κεηαηόπηζε παξαβνιήο

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ. Οξηδόληηα θαη θαηαθόξπθε κεηαηόπηζε παξαβνιήο ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Οξηδόληηα θαη θαηαθόξπθε κεηαηόπηζε παξαβνιήο 1 ε Δξαζηεξηόηεηα Αλνίμηε ην αξρείν «Μεηαηόπηζε παξαβνιήο.ggb». Με ηε καύξε γξακκή παξηζηάλεηαη ε γξαθηθή παξάζηαζε ηεο f(x)=αx 2 πνπ ζα ηελ

Διαβάστε περισσότερα

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ 2015-2016

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ 2015-2016 Βάσεις Δεδομέμωμ Εξγαζηήξην V Τκήκα Πιεξνθνξηθήο ΑΠΘ 2015-2016 2 Σκοπός του 5 ου εργαστηρίου Σθνπόο απηνύ ηνπ εξγαζηεξίνπ είλαη: ε κειέηε ζύλζεησλ εξσηεκάησλ ζύλδεζεο ζε δύν ή πεξηζζόηεξεο ζρέζεηο ε κειέηε

Διαβάστε περισσότερα

ΚΕΦ. 2.3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ

ΚΕΦ. 2.3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ ΚΕΦ..3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ Οπιζμόρ απόλςηηρ ηιμήρ: Σηνλ άμνλα ησλ πξαγκαηηθώλ αξηζκώλ ζεσξνύκε έλαλ αξηζκό α πνπ ζπκβνιίδεηαη κε ην ζεκείν Α. Η απόζηαζε ηνπ ζεκείνπ Α από ηελ αξρή Ο, δειαδή

Διαβάστε περισσότερα

Αζθήζεηο 5 νπ θεθαιαίνπ Crash course Step by step training. Dipl.Biol.cand.med. Stylianos Kalaitzis

Αζθήζεηο 5 νπ θεθαιαίνπ Crash course Step by step training. Dipl.Biol.cand.med. Stylianos Kalaitzis Αζθήζεηο 5 νπ θεθαιαίνπ Crash course Step by step training Dipl.Biol.cand.med. Stylianos Kalaitzis Stylianos Kalaitzis Μνλνϋβξηδηζκνο 1 Γπν γνλείο, εηεξόδπγνη γηα ηνλ αιθηζκό θάλνπλ παηδηά. Πνία ε πηζαλόηεηα

Διαβάστε περισσότερα

ΘΔΚΑ ΡΖΠ ΑΛΑΓΛΩΟΗΠΖΠ

ΘΔΚΑ ΡΖΠ ΑΛΑΓΛΩΟΗΠΖΠ ΘΔΚΑ ΡΖΠ ΑΛΑΓΛΩΟΗΠΖΠ 1.Απηόο πνπ ζα αλαγλσξηζηεί απνπζηάδεη γηα πνιύ θαηξό. 2.Δπηζηξέθεη κε πιαζηή ηαπηόηεηα ή κεηακνξθσκέλνο. 3.Απνκνλώλνληαη ηα δύν πξόζσπα 4.Άξζε κεηακόξθσζεο 5.Απνθάιπςε 6.Ακθηβνιίεο-απνδεηθηηθά

Διαβάστε περισσότερα

x-1 x (x-1) x 5x 2. Να απινπνηεζνύλ ηα θιάζκαηα, έηζη ώζηε λα κελ ππάξρνπλ ξηδηθά ζηνπο 22, 55, 15, 42, 93, 10 5, 12

x-1 x (x-1) x 5x 2. Να απινπνηεζνύλ ηα θιάζκαηα, έηζη ώζηε λα κελ ππάξρνπλ ξηδηθά ζηνπο 22, 55, 15, 42, 93, 10 5, 12 ΑΚΖΔΗ ΤΜΝΑΗΟΤ - ΚΤΚΛΟ ΠΡΩΣΟ - - ηα πνηεο ηηκέο ηνπ ηα παξαθάησ θιάζκαηα δελ νξίδνληαη ; (Τπόδεημε : έλα θιάζκα νξίδεηαη αλ ν παξνλνκαζηήο είλαη δηάθνξνο ηνπ κεδελόο) - (-) - (-) - Να απινπνηεζνύλ ηα θιάζκαηα

Διαβάστε περισσότερα

ΚΔΦ. 2.4 ΡΗΕΔ ΠΡΑΓΜΑΣΗΚΩΝ ΑΡΗΘΜΩΝ

ΚΔΦ. 2.4 ΡΗΕΔ ΠΡΑΓΜΑΣΗΚΩΝ ΑΡΗΘΜΩΝ ΚΔΦ.. ΡΗΕΔ ΠΡΑΓΜΑΣΗΚΩΝ ΑΡΗΘΜΩΝ Οξηζκόο ηεηξαγσληθήο ξίδαο: Αλ 0 ηόηε νλνκάδνπκε ηεηξαγσληθή ξίδα ηνπ ηελ κε αξλεηηθή ιύζε ηεο εμίζσζεο:. Γειαδή ηεηξαγσληθή ξίδα ηνπ 0 ιέγεηαη ν αξηζκόο 0 πνπ όηαλ πςσζεί

Διαβάστε περισσότερα

TOOLBOOK (μάθημα 2) Δεκηνπξγία βηβιίνπ θαη ζειίδσλ ΠΡΟΑΡΜΟΓΗ: ΒΑΛΚΑΝΙΩΣΗ ΔΗΜ. ΕΚΠΑΙΔΕΤΣΙΚΟ ΠΕ19 1 TOOLBOOK ΜΑΘΗΜΑ 2

TOOLBOOK (μάθημα 2) Δεκηνπξγία βηβιίνπ θαη ζειίδσλ ΠΡΟΑΡΜΟΓΗ: ΒΑΛΚΑΝΙΩΣΗ ΔΗΜ. ΕΚΠΑΙΔΕΤΣΙΚΟ ΠΕ19 1 TOOLBOOK ΜΑΘΗΜΑ 2 TOOLBOOK (μάθημα 2) Δεκηνπξγία βηβιίνπ θαη ζειίδσλ ΕΚΠΑΙΔΕΤΣΙΚΟ ΠΕ19 1 Δημιουργία σελίδων και βιβλίων Έλα θαηλνύξην βηβιίν πεξηέρεη κία άδεηα ζειίδα κε έλα άδεην background. Δελ κπνξνύκε λα μερσξίζνπκε

Διαβάστε περισσότερα

(γ) Να βξεζεί ε ρξνλνεμαξηώκελε πηζαλόηεηα κέηξεζεο ηεο ζεηηθήο ηδηνηηκήο ηνπ ηειεζηή W.

(γ) Να βξεζεί ε ρξνλνεμαξηώκελε πηζαλόηεηα κέηξεζεο ηεο ζεηηθήο ηδηνηηκήο ηνπ ηειεζηή W. ΚΒΑΝΤΙΚΗ ΦΥΣΙΚΗ Ι Τειηθή Εμέηαζε: 5 Σεπηέκβξε 6 (Δηδάζθσλ: ΑΦ Τεξδήο) ΘΕΜΑ Θεσξνύκε θβαληηθό ζύζηεκα πνπ πεξηγξάθεηαη από Φακηιηνληαλή Η, ε νπνία ζε κνξθή πίλαθα ρξεζηκνπνηώληαο ηηο ηδηνζπλαξηήζεηο, θαη

Διαβάστε περισσότερα

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙ ΜΟ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙ ΜΟ ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙ ΜΟ Α ΛΤΚΔΙΟΤ Ζμεπομηνία: 18/12/10 Ώπα εξέτασηρ: 09:30-12:30 ΠΡΟΣΕΙΝΟΜΕΝΕ ΛΤ ΕΙ 1. Δίλεηαη ην πνιπώλπκν Αλ θαη., λα βξείηε ην ηειεπηαίν ςεθίν ηνπ αξηζκνύ έρνπκε:

Διαβάστε περισσότερα

Κεθάιαην 20. Ελαχιστοποίηση του κόστους

Κεθάιαην 20. Ελαχιστοποίηση του κόστους Κεθάιαην 0 Ελαχιστοποίηση του κόστους Ειαρηζηνπνίεζε ηνπ θόζηνπο Μηα επηρείξεζε ειαρηζηνπνηεί ην θόζηνο ηεο αλ παξάγεη νπνηνδήπνηε δεδνκέλν επίπεδν πξντόληνο y 0 ζην κηθξόηεξν δπλαηό ζπλνιηθό θόζηνο. Τν

Διαβάστε περισσότερα

ΔΕΟ 13. Ποσοτικές Μέθοδοι. θαη λα ππνινγίζεηε ην θόζηνο γηα 10000 παξαγόκελα πξντόληα. Να ζρεδηαζηεί γηα εύξνο πξντόλησλ έσο 30000.

ΔΕΟ 13. Ποσοτικές Μέθοδοι. θαη λα ππνινγίζεηε ην θόζηνο γηα 10000 παξαγόκελα πξντόληα. Να ζρεδηαζηεί γηα εύξνο πξντόλησλ έσο 30000. ΔΕΟ 13 Ποσοτικές Μέθοδοι Σσνάρηηζη Κόζηοσς C(), μέζο κόζηος C()/. Παράδειγμα 1 Μηα εηαηξεία δαπαλά γηα θάζε πξντόλ Α πνπ παξάγεη 0.0 λ.κ. Τα πάγηα έμνδα ηεο εηαηξείαο είλαη 800 λ.κ. Ζεηείηαη 1) Να πεξηγξάςεηε

Διαβάστε περισσότερα

Η/Υ A ΤΑΞΕΩΣ ΑΕ 2010-2011. Συστήματα Αρίθμησης. Υποπλοίαρχος Ν. Πετράκος ΠΝ

Η/Υ A ΤΑΞΕΩΣ ΑΕ 2010-2011. Συστήματα Αρίθμησης. Υποπλοίαρχος Ν. Πετράκος ΠΝ Συστήματα Αρίθμησης Υποπλοίαρχος Ν. Πετράκος ΠΝ 1 Ειζαγωγή Τν bit είλαη ε πην βαζηθή κνλάδα κέηξεζεο. Είλαη κία θαηάζηαζε on ή off ζε έλα ςεθηαθό θύθισκα. Άιιεο θνξέο είλαη κία θαηάζηαζε high ή low voltage

Διαβάστε περισσότερα

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙΜΟ Α ΛΤΚΔΙΟΤ. Ημεπομηνία: 10/12/11 Ώπα εξέτασηρ: 09:30-12:30 ΠΡΟΣΔΙΝΟΜΔΝΔ ΛΤΔΙ

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙΜΟ Α ΛΤΚΔΙΟΤ. Ημεπομηνία: 10/12/11 Ώπα εξέτασηρ: 09:30-12:30 ΠΡΟΣΔΙΝΟΜΔΝΔ ΛΤΔΙ ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ ΠΑΓΚΤΠΡΙΟ ΓΙΑΓΩΝΙΜΟ Α ΛΤΚΔΙΟΤ Ημεπομηνία: 10/12/11 Ώπα εξέτασηρ: 09:30-12:30 ΠΡΟΣΔΙΝΟΜΔΝΔ ΛΤΔΙ Πρόβλημα 1: α) Να δείμεηε όηη αλ ζεηηθνί πξαγκαηηθνί αξηζκνί ηζρύεη: β) Αλ είλαη

Διαβάστε περισσότερα

Γοκή επαλάιευες Δληοιές Όζο & Μέτρης_όηοσ

Γοκή επαλάιευες Δληοιές Όζο & Μέτρης_όηοσ Αιγόξηζκνη 2.2.7.4 Γοκή επαλάιευες Δληοιές Όζο & Μέτρης_όηοσ Εηζαγσγή ζηηο Αξρέο ηεο Επηζηήκεο ησλ Η/Υ 1 Άζθεζε 34 ζει 53 Έλα ςεθηαθό θσηνγξαθηθό άικπνπκ έρεη απνζεθεπηηθό ρώξν N Mbytes. Να αλαπηύμεηε

Διαβάστε περισσότερα

ΔΠΙΣΡΟΠΗ ΓΙΑΓΩΝΙΜΩΝ 74 ος ΠΑΝΔΛΛΗΝΙΟ ΜΑΘΗΣΙΚΟ ΓΙΑΓΩΝΙΜΟ ΣΑ ΜΑΘΗΜΑΣΙΚΑ Ο ΘΑΛΗ 19 Οκηωβρίοσ Δνδεικηικές λύζεις

ΔΠΙΣΡΟΠΗ ΓΙΑΓΩΝΙΜΩΝ 74 ος ΠΑΝΔΛΛΗΝΙΟ ΜΑΘΗΣΙΚΟ ΓΙΑΓΩΝΙΜΟ ΣΑ ΜΑΘΗΜΑΣΙΚΑ Ο ΘΑΛΗ 19 Οκηωβρίοσ Δνδεικηικές λύζεις ΔΛΛΗΝΙΚΗ ΜΑΘΗΜΑΣΙΚΗ ΔΣΑΙΡΔΙΑ Παλεπηζηεκίνπ (Διεπζεξίνπ Βεληδέινπ) 34 06 79 ΑΘΖΝΑ Τει. 36653-367784 - Fax: 36405 e-mail : info@hms.gr www.hms.gr GREEK MATHEMATICAL SOCIETY 34, Panepistimiou (Δleftheriou

Διαβάστε περισσότερα

Φςζική Πποζαναηολιζμού Γ Λςκείος. Αζκήζειρ Ταλανηώζειρ 1 ο Φςλλάδιο

Φςζική Πποζαναηολιζμού Γ Λςκείος. Αζκήζειρ Ταλανηώζειρ 1 ο Φςλλάδιο Φςζική Πποζαναηολιζμού Γ Λςκείος Αζκήζειρ Ταλανηώζειρ 1 ο Φςλλάδιο Επιμέλεια: Αγκανάκηρ Α. Παναγιώηηρ Επωηήζειρ Σωζηό- Λάθορ Να χαπακηηπίζεηε ηιρ παπακάηω πποηάζειρ ωρ ζωζηέρ ή λάθορ: 1. Η ηαιάλησζε είλαη

Διαβάστε περισσότερα

x x x x tan(2 x) x 2 2x x 1

x x x x tan(2 x) x 2 2x x 1 ΘΕΡΙΝΟ ΣΜΗΜΑ ΜΑΘΗΜΑΣΙΚΑ Ι ΕΠΑΝΑΛΗΠΣΙΚΕ ΑΚΗΕΙ ΜΕΡΟ Ι 1. Να γίλνπλ νη γξαθηθέο παξαζηάζεηο ησλ παξαθάησ ζπλαξηήζεσλ. t ( i) e ( ii) ln( ) ( iii). Να βξεζεί ην Π.Ο., ν ηύπνο ηεο αλίζηξνθεο θαη ην Π.Τ. ησλ

Διαβάστε περισσότερα

Δξγαζηεξηαθή άζθεζε 03. Σηεξενγξαθηθή πξνβνιή ζην δίθηπν Wulf

Δξγαζηεξηαθή άζθεζε 03. Σηεξενγξαθηθή πξνβνιή ζην δίθηπν Wulf Δξγαζηεξηαθή άζθεζε 03 Σηεξενγξαθηθή πξνβνιή ζην δίθηπν Wulf Ζιίαο Χαηδεζενδσξίδεο Οθηώβξηνο / Ννέκβξηνο 2004 Τη είλαη ην δίθηπν Wulf Δπίπεδν ζην νπνίν κπνξνύκε λα αλαπαξαζηήζνπκε ηξηζδηάζηαηα ζρήκαηα,

Διαβάστε περισσότερα

Αζκήζεις ζτ.βιβλίοσ ζελίδας 13 14

Αζκήζεις ζτ.βιβλίοσ ζελίδας 13 14 .1.10 ζκήζεις ζτ.βιβλίοσ ζελίδας 13 14 Ερωηήζεις Καηανόηζης 1. ύν δηαθνξεηηθέο επζείεο κπνξεί λα έρνπλ θαλέλα θνηλό ζεκείν Έλα θνηλό ζεκείν i ύν θνηλά ζεκεία iλ) Άπεηξα θνηλά ζεκεία ηηηνινγήζηε ηελ απάληεζε

Διαβάστε περισσότερα

Q Η ζσνάρηηζη μέζοσ κόζηοσς μας δίνει ηο κόζηος ανά μονάδα παραγωγής. Q Η ζσνάρηηζη μέζοσ κόζηοσς μας δίνει ηο ζηαθερό κόζηος ανά μονάδα παραγωγής

Q Η ζσνάρηηζη μέζοσ κόζηοσς μας δίνει ηο κόζηος ανά μονάδα παραγωγής. Q Η ζσνάρηηζη μέζοσ κόζηοσς μας δίνει ηο ζηαθερό κόζηος ανά μονάδα παραγωγής ΜΙΚΡΟΟΙΚΟΝΟΜΙΚΗ ΘΕΩΡΙΑ ΣΟΜΟ Α Mάθημα 5: To παραγωγής σναρηήζεις κόζηοσς Η ζπλάξηεζε ζπλνιηθνύ θόζηνπο C FC VC Όπνπ FC= ην ζηαζεξό θόζηνο (ην θόζηνο γηα ηνλ ζηαζεξό παξαγσγηθό ζπληειεζηή) θαη VC= ην κεηαβιεηό

Διαβάστε περισσότερα

B-Δέλδξα. Τα B-δέλδξα ρξεζηκνπνηνύληαη γηα ηε αλαπαξάζηαζε πνιύ κεγάισλ ιεμηθώλ πνπ είλαη απνζεθεπκέλα ζην δίζθν.

B-Δέλδξα. Τα B-δέλδξα ρξεζηκνπνηνύληαη γηα ηε αλαπαξάζηαζε πνιύ κεγάισλ ιεμηθώλ πνπ είλαη απνζεθεπκέλα ζην δίζθν. B-Δέλδξα Τα B-δέλδξα ρξεζηκνπνηνύληαη γηα ηε αλαπαξάζηαζε πνιύ κεγάισλ ιεμηθώλ πνπ είλαη απνζεθεπκέλα ζην δίζθν. Δέλδξα AVL n = 2 30 = 10 9 (πεξίπνπ). 30

Διαβάστε περισσότερα

ΠΑΡΑΡΣΗΜΑ Δ. ΔΤΡΔΗ ΣΟΤ ΜΔΣΑΥΗΜΑΣΙΜΟΤ FOURIER ΓΙΑΦΟΡΩΝ ΗΜΑΣΩΝ

ΠΑΡΑΡΣΗΜΑ Δ. ΔΤΡΔΗ ΣΟΤ ΜΔΣΑΥΗΜΑΣΙΜΟΤ FOURIER ΓΙΑΦΟΡΩΝ ΗΜΑΣΩΝ ΠΑΡΑΡΣΗΜΑ Δ. ΔΤΡΔΗ ΣΟΤ ΜΔΣΑΥΗΜΑΣΙΜΟΤ FOURIER ΓΙΑΦΟΡΩΝ ΗΜΑΣΩΝ Εδώ ζα ππνινγίζνπκε ην κεηαζρεκαηηζκό Fourier κεξηθώλ αθόκα ζεκάησλ, πξνζπαζώληαο λα μεθηλήζνπκε από ην κεηαζρεκαηηζκό Fourier γλσζηώλ ζεκάησλ

Διαβάστε περισσότερα

Μονοψϊνιο. Αγνξά κε ιίγνπο αγνξαζηέο. Δύναμη μονοψωνίος Η ηθαλόηεηα πνπ έρεη ν αγνξαζηήο λα επεξεάζεη ηελ ηηκή ηνπ αγαζνύ.

Μονοψϊνιο. Αγνξά κε ιίγνπο αγνξαζηέο. Δύναμη μονοψωνίος Η ηθαλόηεηα πνπ έρεη ν αγνξαζηήο λα επεξεάζεη ηελ ηηκή ηνπ αγαζνύ. Μονοψϊνιο Ολιγοψώνιο Αγνξά κε ιίγνπο αγνξαζηέο. Δύναμη μονοψωνίος Η ηθαλόηεηα πνπ έρεη ν αγνξαζηήο λα επεξεάζεη ηελ ηηκή ηνπ αγαζνύ. Οπιακή αξία Δπηπξόζζεηα νθέιε από ηελ ρξήζε/θαηαλάισζε κηαο επηπξόζζεηε

Διαβάστε περισσότερα

(Ενδεικηικές Απανηήζεις) ΘΔΜΑ Α. Α1. Βιέπε απόδεημε Σει. 262, ζρνιηθνύ βηβιίνπ. Α2. Βιέπε νξηζκό Σει. 141, ζρνιηθνύ βηβιίνπ

(Ενδεικηικές Απανηήζεις) ΘΔΜΑ Α. Α1. Βιέπε απόδεημε Σει. 262, ζρνιηθνύ βηβιίνπ. Α2. Βιέπε νξηζκό Σει. 141, ζρνιηθνύ βηβιίνπ ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ ΚΑΗ ΔΠΑΛ (ΟΜΑΓΑ Β ) ΣΔΣΑΡΣΖ 18 ΜΑΪΟΤ 16 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ (ΝΔΟ ΤΣΖΜΑ) ΚΑΣΔΤΘΤΝΖ (ΠΑΛΑΗΟ ΤΣΖΜΑ) (Ενδεικηικές Απανηήζεις) ΘΔΜΑ

Διαβάστε περισσότερα

Σήκαηα Β Α Γ Γ Δ Λ Η Σ Ο Ι Κ Ο Ν Ο Μ Ο Υ Γ Ι Α Λ Δ Ξ Η - ( 2 ) ΕΙΣΑΓΨΓΗ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΨΝΙΕΣ

Σήκαηα Β Α Γ Γ Δ Λ Η Σ Ο Ι Κ Ο Ν Ο Μ Ο Υ Γ Ι Α Λ Δ Ξ Η - ( 2 ) ΕΙΣΑΓΨΓΗ ΣΤΙΣ ΤΗΛΕΠΙΚΟΙΝΨΝΙΕΣ Σήκαηα 1 Β Α Γ Γ Δ Λ Η Σ Ο Ι Κ Ο Ν Ο Μ Ο Υ Γ Ι Α Λ Δ Ξ Η - ( 2 ) Σήκαηα Οξηζκόο ζήκαηνο Ταμηλόκεζε ζεκάησλ Σεηξέο Fourier Μεηαζρεκαηηζκόο Fourier Σπλέιημε Σπζρέηηζε θαη Φαζκαηηθή Ππθλόηεηα 2 Οξηζκόο Σήκαηνο

Διαβάστε περισσότερα

ΛΙΜΝΗ ΤΣΑΝΤ. Σρήκα 1. Σρήκα 2

ΛΙΜΝΗ ΤΣΑΝΤ. Σρήκα 1. Σρήκα 2 ΛΙΜΝΗ ΤΣΑΝΤ Τν Σρήκα 1 δείρλεη ηελ αιιαγή ηεο ζηάζκεο ηεο Λίκλεο Τζαλη, ζηε Σαράξα ηεο Βόξεηαο Αθξηθήο. Η Λίκλε Τζαλη εμαθαλίζηεθε ηειείσο γύξσ ζην 20.000 π.χ., θαηά ηε δηάξθεηα ηεο ηειεπηαίαο επνρήο ησλ

Διαβάστε περισσότερα

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ.. ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου έλαξμεο 09.30 ιήμεο 09.45 Σην παξαθάησ ζρήκα θαίλεηαη ηκήκα ελόο πνιενδνκηθνύ ζρεδίνπ κηαο πόιεο. Οη ζθηαζκέλεο

Διαβάστε περισσότερα

ΜΑΘΗΜΑΣΑ ΦΩΣΟΓΡΑΦΙΑ. Ειζαγωγή ζηη Φωηογραθία. Χριζηάκης Σαζεΐδης EFIAP

ΜΑΘΗΜΑΣΑ ΦΩΣΟΓΡΑΦΙΑ. Ειζαγωγή ζηη Φωηογραθία. Χριζηάκης Σαζεΐδης EFIAP ΜΑΘΗΜΑΣΑ ΦΩΣΟΓΡΑΦΙΑ Ειζαγωγή ζηη Φωηογραθία Χριζηάκης Σαζεΐδης EFIAP 1 ΜΑΘΗΜΑ 6 ο Προγράμμαηα θωηογραθικών μηχανών Επιλογέας προγραμμάηων Μαο δίλεη ηε δπλαηόηεηα λα ειέγμνπκε ην άλνηγκα δηαθξάγκαηνο θαη

Διαβάστε περισσότερα

ΟΠΤΙΚΗ Α. ΑΝΑΚΛΑΣΖ - ΓΗΑΘΛΑΣΖ

ΟΠΤΙΚΗ Α. ΑΝΑΚΛΑΣΖ - ΓΗΑΘΛΑΣΖ ΟΠΤΙΚΗ Α. ΑΝΑΚΛΑΣΖ - ΓΗΑΘΛΑΣΖ. Μία αθηίλα θωηόο πξνζπίπηεη κε κία γωλία ζ ζηε επάλω επηθάλεηα ελόο θύβνπ από πνιπεζηέξα ν νπνίνο έρεη δείθηε δηάζιαζεο ε =,49 (ζρήκα ). Βξείηε πνηα ζα είλαη ε κέγηζηε γωλία

Διαβάστε περισσότερα

ΜΗΧΑΝΟΛΟΓΙΚΟ ΣΧΔΓΙΟ ΙΙ

ΜΗΧΑΝΟΛΟΓΙΚΟ ΣΧΔΓΙΟ ΙΙ 1 Σ. Δ. Ι. ΓΤ Σ Ι Κ Η Μ Α Κ Δ Γ Ο Ν Ι Α ΥΟΛΗ ΣΔΥΝΟΛΟΓΙΚΩΝ ΔΦΑΡΜΟΓΩΝ Σ Μ Η Μ Α Μ Η Υ Α Ν ΟΛΟ Γ Ι Α Δξγαζηήξην Μεραλνπξγηθώλ Καηεξγαζηώλ & CAD ΜΗΧΑΝΟΛΟΓΙΚΟ ΣΧΔΓΙΟ ΙΙ ΜΑΘΗΜΑ 2: Πνηόηεηα Δπηθάλεηαο Γξ. Βαξύηεο

Διαβάστε περισσότερα

ΔΦΑΡΜΟΜΔΝΑ ΜΑΘΗΜΑΣΙΚΑ ΣΗ ΧΗΜΔΙΑ Ι ΘΔΜΑΣΑ Α επηέκβξηνο 2009. 1. Να ππνινγηζηνύλ νη κεξηθέο παξάγσγνη πξώηεο ηάμεο ηεο ζπλάξηεζεο f(x,y) =

ΔΦΑΡΜΟΜΔΝΑ ΜΑΘΗΜΑΣΙΚΑ ΣΗ ΧΗΜΔΙΑ Ι ΘΔΜΑΣΑ Α επηέκβξηνο 2009. 1. Να ππνινγηζηνύλ νη κεξηθέο παξάγσγνη πξώηεο ηάμεο ηεο ζπλάξηεζεο f(x,y) = ΘΔΜΑΣΑ Α επηέκβξηνο 9. Να ππνινγηζηνύλ νη κεξηθέο παξάγσγνη πξώηεο ηάμεο ηεο ζπλάξηεζεο f(,y) = y.. Να ππνινγηζηνύλ ηα νινθιεξώκαηα: a) ln b) a) 3cos b) e sin 4. Να ππνινγηζηεί ην νινθιήξσκα: S ( y) 3

Διαβάστε περισσότερα

Σύνθετα Δίκτυα. com+plex: with+ -fold (having parts) Διδάζκων Δημήηριος Καηζαρός

Σύνθετα Δίκτυα. com+plex: with+ -fold (having parts) Διδάζκων Δημήηριος Καηζαρός Σύνθετα Δίκτυα com+plex: with+ -fold (having parts) Διδάζκων Δημήηριος Καηζαρός Διάλεξη 14η: 03/05/2017 1 Influence maximization Μεγιζηοποίηζη επιρροής 2 Κνηλσληθά δίθηπα θαη δηάδνζε επηξξνήο Σα θνηλσληθά

Διαβάστε περισσότερα

Case Study. Παξαθάηω παξνπζηάδνπκε βήκα - βήκα κε screenshots έλα παξάδεηγκα ππνβνιήο κηαο εξγαζίαο θαη ηελ παξαγωγή ηνπ Originality Report.

Case Study. Παξαθάηω παξνπζηάδνπκε βήκα - βήκα κε screenshots έλα παξάδεηγκα ππνβνιήο κηαο εξγαζίαο θαη ηελ παξαγωγή ηνπ Originality Report. Case Study Παξαθάηω παξνπζηάδνπκε βήκα - βήκα κε screenshots έλα παξάδεηγκα ππνβνιήο κηαο εξγαζίαο θαη ηελ παξαγωγή ηνπ Originality Report. Βήκα 1 ο : Login ζηο Turnitin. Κάλεηε είζνδν ζην Turnitin κε

Διαβάστε περισσότερα

f '(x)g(x)h(x) g'(x)f (x)h(x) h'(x) f (x)g(x)

f '(x)g(x)h(x) g'(x)f (x)h(x) h'(x) f (x)g(x) ΓΙΑΓΩΝΙΣΜΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ 54 Υλη: Παράγωγοι Γ Λσκείοσ Ον/μο:.. 6--4 Θεη-Τετν. ΘΔΜΑ Α.. Αλ f, g, h ηξεηο παξαγωγίζηκεο ζπλαξηήζεηο ζην λα απνδείμεηε όηη : f () g() h() ' f '()g()h() g'()f ()h() h'() f ()g()

Διαβάστε περισσότερα

Constructors and Destructors in C++

Constructors and Destructors in C++ Constructors and Destructors in C++ Σύνθεζη Πνιύ ζπρλά ζηε C++ κία θιάζε κπνξεί λα πεξηέρεη ζαλ κέιεδεδνκέλα αληηθείκελα άιισλ θιάζεσλ. Πνηα είλαη ε ζεηξά κε ηελ νπνία δεκηνπξγνύληαη θαη θαηαζηξέθνληαη

Διαβάστε περισσότερα

Κεθάλαιο 1. Ενόηηηα 2 Πλάνο Μάρκεηινγκ. Εξγαιεία Μάξθεηηλγθ. Dr. Andrea Grimm Dr. Astin Malschinger

Κεθάλαιο 1. Ενόηηηα 2 Πλάνο Μάρκεηινγκ. Εξγαιεία Μάξθεηηλγθ. Dr. Andrea Grimm Dr. Astin Malschinger Κεθάλαιο 1 Ενόηηηα 2 Πλάνο Μάρκεηινγκ Εξγαιεία Μάξθεηηλγθ Dr. Andrea Grimm Dr. Astin Malschinger ΠΕΡΙΕΧΟΜΕΝΑ ΕΝΟΤΗΤΑ 2 ΠΛΑΝΟ ΜΑΡΚΕΤΙΝΓΚ Κεθάιαην 1: Εξγαιεία Μάξθεηηλγθ Σπγγξαθείο: Δξ. Andrea Grimm, Δξ.

Διαβάστε περισσότερα

Σρήκα Α. Γξάθνπκε ηα ζηνηρεία ηνπ Πξνκεζεπηή θαη παηάκε Δηζαγσγή. Σρήκα Β1

Σρήκα Α. Γξάθνπκε ηα ζηνηρεία ηνπ Πξνκεζεπηή θαη παηάκε Δηζαγσγή. Σρήκα Β1 MENU ΜΗΤΡΩΑ Προμηθεστές Σε απηό ην ζεκείν ηεο εθαξκνγήο επεμεξγαδόκαζηε ηo κεηξών Πξνκεζεπηώλ. Κάλνληαο θιηθ κε ην πνληίθη πάλσ ζην Πξνζζήθε (βειάθη 1) ζα βγεη ε θόξκα γηα ηελ εηζαγσγή λέαο εγγξαθήο (Σρήκα

Διαβάστε περισσότερα

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ.. ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου έλαξμεο 09.30 ιήμεο 09.45 Σην παξαθάησ ζρήκα θαίλεηαη ηκήκα ελόο πνιενδνκηθνύ ζρεδίνπ κηαο πόιεο. Οη ζθηαζκέλεο

Διαβάστε περισσότερα

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ ΚΑΗ ΔΠΑΛ ΣΔΣΑΡΣΖ 25 ΜΑΨΟΤ 2016 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΑΡΥΔ ΟΗΚΟΝΟΜΗΚΖ ΘΔΧΡΗΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ - ΔΠΗΛΟΓΖ

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ ΚΑΗ ΔΠΑΛ ΣΔΣΑΡΣΖ 25 ΜΑΨΟΤ 2016 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΑΡΥΔ ΟΗΚΟΝΟΜΗΚΖ ΘΔΧΡΗΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ - ΔΠΗΛΟΓΖ ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ ΚΑΗ ΔΠΑΛ ΣΔΣΑΡΣΖ 25 ΜΑΨΟΤ 2016 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΑΡΥΔ ΟΗΚΟΝΟΜΗΚΖ ΘΔΧΡΗΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ - ΔΠΗΛΟΓΖ (Δλδεηθηηθέο Απαληήζεηο) ΘΔΜΑ Α Α1. α. Σωζηό β. Λάζνο

Διαβάστε περισσότερα

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη ΔΠΑΝΑΛΗΠΣΙΚΑ ΘΔΜΑΣΑ ΣΟ ΓΙΑΦΟΡΙΚΟ ΛΟΓΙΜΟ Μάρτιος 0 ΘΔΜΑ Να ππνινγίζεηε ηα όξηα: i ii lim 0 0 lim iii iv lim e 0 lim e 0 ΘΔΜΑ Γίλεηαη ε άξηηα ζπλάξηεζε '( ) ( ) γηα θάζε 0 * : R R γηα ηελ νπνία ηζρύνπλ:

Διαβάστε περισσότερα

Σημεία Ασύπματηρ Ππόσβασηρ (Hot-Spots)

Σημεία Ασύπματηρ Ππόσβασηρ (Hot-Spots) Σημεία Ασύπματηρ Ππόσβασηρ (Hot-Spots) 1.1 Σςνοπτική Πεπιγπαυή Hot Spots Σα ζεκεία αζύξκαηεο πξόζβαζεο πνπ επηιέρζεθαλ αλαθέξνληαη ζηνλ επόκελν πίλαθα θαη παξνπζηάδνληαη αλαιπηηθά ζηηο επόκελεο παξαγξάθνπο.

Διαβάστε περισσότερα

Σύνθεζη ηαλανηώζεων. Έζησ έλα ζώκα πνπ εθηειεί ηαπηόρξνλα δύν αξκνληθέο ηαιαληώζεηο ηεο ίδηαο ζπρλόηεηαο πνπ πεξηγξάθνληαη από ηηο παξαθάησ εμηζώζεηο:

Σύνθεζη ηαλανηώζεων. Έζησ έλα ζώκα πνπ εθηειεί ηαπηόρξνλα δύν αξκνληθέο ηαιαληώζεηο ηεο ίδηαο ζπρλόηεηαο πνπ πεξηγξάθνληαη από ηηο παξαθάησ εμηζώζεηο: Σύνθεζη ηαλανηώζεων Α. Σύλζεζε δύν α.α.η ηεο ίδιας ζστνόηηηας Έζησ έλα ζώκα πνπ εθηειεί ηαπηόρξνλα δύν αξκνληθέο ηαιαληώζεηο ηεο ίδηαο ζπρλόηεηαο πνπ πεξηγξάθνληαη από ηηο παξαθάησ εμηζώζεηο: Η απνκάθξπλζε

Διαβάστε περισσότερα

Δπηιέγνληαο ην «Πξνεπηινγή» θάζε θνξά πνπ ζα ζπλδέεζηε ζηελ εθαξκνγή ζα βξίζθεζηε ζηε λέα ρξήζε.

Δπηιέγνληαο ην «Πξνεπηινγή» θάζε θνξά πνπ ζα ζπλδέεζηε ζηελ εθαξκνγή ζα βξίζθεζηε ζηε λέα ρξήζε. ΑΝΟΙΓΜΑ ΝΔΑ ΥΡΗΗ 1. Γεκηνπξγείηε ηε λέα ρξήζε από ηελ επηινγή «Παξάκεηξνη/Παξάκεηξνη Δηαηξίαο/Γηαρείξηζε Δηαηξηώλ». Πιεθηξνινγείηε ηνλ θσδηθό ηεο εηαηξίαο ζαο θαη παηάηε Enter. Σηελ έλδεημε «Υξήζεηο» παηάηε

Διαβάστε περισσότερα

Α Ο Κ Η Α Μ Α Ζ Η Η Ρ Η ( S E A R C H )

Α Ο Κ Η Α Μ Α Ζ Η Η Ρ Η ( S E A R C H ) Ξ G O O G L E S C H O L A R Α Ο Ξ Ε Κ Ε Θ Λ Θ Α Λ Η Τ Α Μ Η Α Μ Α Ζ Η Η Ρ Η Ρ Οξαγκαηνπνηώληαο αλαδήηεζε ζην GoogleScholar (http://scholar.google.com/) ν ρξήζηεο κπνξεί λα εληνπίζεη πιηθό αθαδεκαϊθνύ θαη

Διαβάστε περισσότερα

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γεσηέρα 10 Ηοσνίοσ 2019 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γεσηέρα 10 Ηοσνίοσ 2019 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις) ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γεσηέρα Ηοσνίοσ 9 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ (Ενδεικηικές Απανηήζεις) ΘΔΜΑ Α Α.α) Οξηζκόο ζρνιηθνύ βηβιίνπ ζει 5. Έζησ Α έλα ππνζύλνιν ηνπ.

Διαβάστε περισσότερα

ΔΙΑΓΩΝΙΣΜΑ ΣΤΗ ΦΥΣΙΚΗ. Ύλη: Εσθύγραμμη Κίνηζη

ΔΙΑΓΩΝΙΣΜΑ ΣΤΗ ΦΥΣΙΚΗ. Ύλη: Εσθύγραμμη Κίνηζη ΔΙΑΓΩΝΙΣΜΑ ΣΤΗ ΦΥΣΙΚΗ Είμαζηε ηυχεροί που είμαζηε δάζκαλοι Ον/μο:.. A Λσκείοσ Ύλη: Εσθύγραμμη Κίνηζη 8-11-2015 Θέμα 1 ο : 1. Η εμίζωζε θίλεζεο ελόο θηλεηνύ πνπ θηλείηαη επζύγξακκα είλαη ε x = 5t. Πνηα

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΣΠΟΥΔΕΣ ΣΤΙΣ ΦΥΣΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΓΕΝΙΚΑ ΜΑΘΗΜΑΤΙΚΑ ΙΙ - ΦΥΕ 0 7 Ινπλίνπ 009 Απαντήσειρ στιρ ασκήσειρ τηρ τελικήρ εξέτασηρ στιρ Σςνήθειρ Διαυοπικέρ Εξισώσειρ Αγαπηηέ θοιηηηή/ηπια,

Διαβάστε περισσότερα

ΑΠΑΝΤΗΣΔΙΣ ΓΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ II ΔΠΑΛ

ΑΠΑΝΤΗΣΔΙΣ ΓΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ II ΔΠΑΛ ΑΠΑΝΤΗΣΔΙΣ ΓΙΚΤΥΑ ΥΠΟΛΟΓΙΣΤΩΝ II ΔΠΑΛ ΘΔΜΑ Α Α1. α. Σ β. Σ γ. Λ δ. Λ ε. Λ ζη. Σ Α2. Γ Α3. 1. γ 2. ε 3. δ 4. α Β1. ΘΔΜΑ Β Οη ηειηθνί ππνινγηζηέο παίξλνπλ απνθάζεηο δξνκνιόγεζεο κόλν γηα ηα δηθά ηνπο απηνδύλακα

Διαβάστε περισσότερα

Έλαο πίνακας σσμβόλων ππνζηεξίδεη δύν βαζηθέο ιεηηνπξγίεο:

Έλαο πίνακας σσμβόλων ππνζηεξίδεη δύν βαζηθέο ιεηηνπξγίεο: Πίνακες Σσμβόλων Έλαο πίνακας σσμβόλων ππνζηεξίδεη δύν βαζηθέο ιεηηνπξγίεο: Εηζαγσγή ελόο ζηνηρείνπ Αλαδήηεζε ζηνηρείνπ κε δεδνκέλν θιεηδί Άιιεο ρξήζηκεο ιεηηνπξγίεο είλαη: Δηαγξαθή ελόο θαζνξηζκέλνπ ζηνηρείνπ

Διαβάστε περισσότερα

ΜΑΘΗΜΑ / ΤΑΞΗ : ΗΛΕΚΤΡΟΛΟΓΙΑ/Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 08/09/2014

ΜΑΘΗΜΑ / ΤΑΞΗ : ΗΛΕΚΤΡΟΛΟΓΙΑ/Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 08/09/2014 ΔΙΑΓΩΝΙΣΜΑ ΕΚΠ. ΕΤΟΥΣ 204-205 ΜΑΘΗΜΑ / ΤΑΞΗ : ΗΛΕΚΤΡΟΛΟΓΙΑ/Γ ΛΥΚΕΙΟΥ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ: 08/09/204 A ΟΜΑΓΑ Οδηγία: Να γράυεηε ζηο ηεηράδιο ζας ηον αριθμό κάθε μιας από ηις παρακάηφ ερφηήζεις Α.-Α.8 και

Διαβάστε περισσότερα

Διαςτήματα εμπιςτοςφνησ για την ευθεία παλινδρόμηςησ

Διαςτήματα εμπιςτοςφνησ για την ευθεία παλινδρόμηςησ Διαςτήματα εμπιςτοςφνησ για την ευθεία παλινδρόμηςησ Έλαο από ηνπο βαζηθνύο ζηόρνπο ηεο παιηλδξόκεζεο είλαη ε πξόβιεςε ηεο αλακελόκελεο ηηκήο ηεο εμαξηεκέλεο κεηαβιεηήο Υ γηα δεδνκέλε ηηκή ηεο αλεμάξηεηεο

Διαβάστε περισσότερα

Γ ΣΑΞΖ ΔΝΗΑΗΟΤ ΛΤΚΔΗΟΤ ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΘΔΣΗΚΩΝ ΚΑΗ ΟΗΚΟΝΟΜΗΚΩΝ ΠΟΤΓΩΝ ΤΝΑΡΣΖΔΗ ΟΡΗΑ ΤΝΔΥΔΗΑ (έως Θ.Bolzano) ΘΔΜΑ Α

Γ ΣΑΞΖ ΔΝΗΑΗΟΤ ΛΤΚΔΗΟΤ ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΘΔΣΗΚΩΝ ΚΑΗ ΟΗΚΟΝΟΜΗΚΩΝ ΠΟΤΓΩΝ ΤΝΑΡΣΖΔΗ ΟΡΗΑ ΤΝΔΥΔΗΑ (έως Θ.Bolzano) ΘΔΜΑ Α Γ ΣΑΞΖ ΔΝΗΑΗΟΤ ΛΤΚΔΗΟΤ ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΘΔΣΗΚΩΝ ΚΑΗ ΟΗΚΟΝΟΜΗΚΩΝ ΠΟΤΓΩΝ ΤΝΑΡΣΖΔΗ ΟΡΗΑ ΤΝΔΥΔΗΑ (έως Θ.Bolzano). Να δηαηππώζεηε ην Θ.Bolzano. 5 ΘΔΜΑ Α μονάδες A. Να απνδείμεηε όηη γηα θάζε πνιπωλπκηθή

Διαβάστε περισσότερα

ΡΤΘΜΙΕΙ ΔΙΚΣΤΟΤ ΣΑ WINDOWS

ΡΤΘΜΙΕΙ ΔΙΚΣΤΟΤ ΣΑ WINDOWS ηότοι εργαζηηρίοσ ΡΤΘΜΙΕΙ ΔΙΚΣΤΟΤ ΣΑ WINDOWS ην πιαίζην ηνπ ζπγθεθξηκέλνπ εξγαζηεξίνπ ζα παξνπζηαζηεί ε δηαδηθαζία ηωλ ξπζκίζεωλ δηθηύνπ ζε ιεηηνπξγηθό ζύζηεκα Windows XP. Η δηαδηθαζία ζε γεληθέο γξακκέο

Διαβάστε περισσότερα

Άμεσοι Αλγόριθμοι: Προσπέλαση Λίστας (list access)

Άμεσοι Αλγόριθμοι: Προσπέλαση Λίστας (list access) Έρνπκε απνζεθεύζεη κηα ζπιινγή αξρείσλ ζε κηα ζπλδεδεκέλε ιίζηα, όπνπ θάζε αξρείν έρεη κηα εηηθέηα ηαπηνπνίεζεο. Μηα εθαξκνγή παξάγεη κηα αθνινπζία από αηηήκαηα πξόζβαζεο ζηα αξρεία ηεο ιίζηαο. Γηα λα

Διαβάστε περισσότερα

Α Σ Κ Ζ Σ Δ Η Σ. Τν βάξνο ησλ 28 καζεηώλ κηαο ηάμεο δίλεηαη ζηνλ παξαθάησ πίλαθα 1.(2).

Α Σ Κ Ζ Σ Δ Η Σ. Τν βάξνο ησλ 28 καζεηώλ κηαο ηάμεο δίλεηαη ζηνλ παξαθάησ πίλαθα 1.(2). 1 Α Σ Κ Ζ Σ Δ Η Σ ΑΣΚΗΣΗ 1.() Τν βάξνο ησλ 8 καζεηώλ κηαο ηάμεο δίλεηαη ζηνλ παξαθάησ πίλαθα 1.(). ΠΗΝΑΚΑΣ 1.().Βάξε καζεηώλ κηαο ηάμεο 77.4 75.8 75.8 74.5 71.5 68.8 66.6 73.9 70.1 73.0 71.9 66.6 73.4

Διαβάστε περισσότερα

ΣΔΙ ΔΡΡΩΝ ΣΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΠΙΚΟΙΝΩΝΙΩΝ ΔΞΔΣΑΗ ΣΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΗ ΠΡΟΣΤΠΩΝ ΝΔΤΡΩΝΙΚΑ ΓΙΚΣΤΑ» ΠΑ. 7 ΔΠΣΔΜΒΡΙΟΤ 2012

ΣΔΙ ΔΡΡΩΝ ΣΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΠΙΚΟΙΝΩΝΙΩΝ ΔΞΔΣΑΗ ΣΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΗ ΠΡΟΣΤΠΩΝ ΝΔΤΡΩΝΙΚΑ ΓΙΚΣΤΑ» ΠΑ. 7 ΔΠΣΔΜΒΡΙΟΤ 2012 Γίλνληαη ηα εμήο πξόηππα: [ ] [ ] [ ] [ ] Άζκηζη 1 η (3 μονάδες) Υξεζηκνπνηώληαο ην θξηηήξην ηεο νκνηόηεηαο λα απνξξηθζεί έλα ραξαθηεξηζηηθό κε βάζε ην ζπληειεζηή ζπζρέηηζεο. (γξάςηε πνην ραξαθηεξηζηηθό

Διαβάστε περισσότερα

ΘΔΜΑ 1 ο Μονάδες 5,10,10

ΘΔΜΑ 1 ο Μονάδες 5,10,10 ΟΝΟΜΑΣΔΠΩΝΤΜΟ ΗΜΔΡΟΜΗΝΙΑ ΘΔΜΑ 1 ο Μονάδες 5,1,1 ΓΙΑΓΩΝΙΜΑ 1 ου ΜΔΡΟΤ ΣΗ ΑΝΑΛΤΗ Α Γώζηε ηνλ νξηζκό ηεο αληίζηξνθεο ζπλάξηεζεο Β Γείμηε όηη αλ κηα ζπλάξηεζε είλαη αληηζηξέςηκε ηόηε νη γξαθηθέο παξαζηάζεηο

Διαβάστε περισσότερα

7. ΚΑΤΑΧΩΡΗΤΕΣ ΕΡΩΤΗΣΕΙΣ ΑΣΚΗΣΕΙΣ. 3. Έλαο θαηαρσξεηήο SISO ησλ 4 bits έρεη: α) Μία είζνδν, β) Δύν εηζόδνπο, γ) Σέζζεξεηο εηζόδνπο.

7. ΚΑΤΑΧΩΡΗΤΕΣ ΕΡΩΤΗΣΕΙΣ ΑΣΚΗΣΕΙΣ. 3. Έλαο θαηαρσξεηήο SISO ησλ 4 bits έρεη: α) Μία είζνδν, β) Δύν εηζόδνπο, γ) Σέζζεξεηο εηζόδνπο. 7. ΚΑΤΑΧΩΡΗΤΕΣ ΕΡΩΤΗΣΕΙΣ ΑΣΚΗΣΕΙΣ 1. Ση είλαη έλαο θαηαρσξεηήο; O θαηαρσξεηήο είλαη κηα νκάδα από flip-flop πνπ κπνξεί λα απνζεθεύζεη πξνζσξηλά ςεθηαθή πιεξνθνξία. Μπνξεί λα δηαηεξήζεη ηα δεδνκέλα ηνπ

Διαβάστε περισσότερα

Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική ΑΔ

Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική ΑΔ Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική Δίζηε μησανικόρ διοίκηζηρ μεγάληρ καηαζκεςαζηικήρ εηαιπείαρ και καλείζηε να ςλοποιήζεηε ηο έπγο πος πεπιγπάθεηαι από ηον Πίνακα 1. Κωδ.

Διαβάστε περισσότερα

Αντισταθμιστική ανάλυση

Αντισταθμιστική ανάλυση Θεσξήζηε έλαλ αιγόξηζκν Α πνπ ρξεζηκνπνηεί κηα δνκή δεδνκέλσλ Γ : Καηά ηε δηάξθεηα εθηέιεζεο ηνπ Α ε Γ πξαγκαηνπνηεί κία αθνινπζία από πξάμεηο. Παξάδεηγκα: Θπκεζείηε ην πξόβιεκα ηεο εύξεζεο-έλσζεο Δίρακε

Διαβάστε περισσότερα

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γευηέρα 11 Ηουνίου 2018 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις)

ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γευηέρα 11 Ηουνίου 2018 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ. (Ενδεικηικές Απανηήζεις) ΠΑΝΔΛΛΑΓΗΚΔ ΔΞΔΣΑΔΗ Γ ΣΑΞΖ ΖΜΔΡΖΗΟΤ ΓΔΝΗΚΟΤ ΛΤΚΔΗΟΤ Γευηέρα Ηουνίου 08 ΔΞΔΣΑΕΟΜΔΝΟ ΜΑΘΖΜΑ: ΜΑΘΖΜΑΣΗΚΑ ΠΡΟΑΝΑΣΟΛΗΜΟΤ (Ενδεικηικές Απανηήζεις) ΘΔΜΑ Α Α. Απόδεημε ζεωξήκαηνο ζει. 99 ζρνιηθνύ βηβιίνπ. Α. α.

Διαβάστε περισσότερα

α) ηε κεηαηόπηζε x όηαλ ην ζώκα έρεη κέγηζην ξπζκό κεηαβνιήο ζέζεο δ) ην κέγηζην ξπζκό κεηαβνιήο ηεο ηαρύηεηαο

α) ηε κεηαηόπηζε x όηαλ ην ζώκα έρεη κέγηζην ξπζκό κεηαβνιήο ζέζεο δ) ην κέγηζην ξπζκό κεηαβνιήο ηεο ηαρύηεηαο Έξγν ελέξγεηα 3 (Λύζε) Σώκα κάδαο m = 4Kg εξεκεί ζηε βάζε θεθιηκέλνπ επηπέδνπ γσλίαο θιίζεο ζ κε εκζ = 0,6 θαη ζπλζ = 0,8. Τν ζώκα αξρίδεη λα δέρεηαη νξηδόληηα δύλακε θαη μεθηλά λα αλεβαίλεη ζην θεθιηκέλν

Διαβάστε περισσότερα

ΠΡΩΣΟΚΟΛΛΑ ΓΙΑΥΔΙΡΗΗ ΣΩΝ ΣΔΡΗΓΟΝΙΚΩΝ ΒΛΑΒΩΝ Δ ΔΝΗΛΙΚΔ

ΠΡΩΣΟΚΟΛΛΑ ΓΙΑΥΔΙΡΗΗ ΣΩΝ ΣΔΡΗΓΟΝΙΚΩΝ ΒΛΑΒΩΝ Δ ΔΝΗΛΙΚΔ ΠΡΩΣΟΚΟΛΛΑ ΓΙΑΥΔΙΡΗΗ ΣΩΝ ΣΔΡΗΓΟΝΙΚΩΝ ΒΛΑΒΩΝ Δ ΔΝΗΛΙΚΔ Σν ζύγρξνλν πξόηππν αληηκεηώπηζεο ηεο ηεξεδόλαο ελειίθσλ δελ εζηηάδεηαη κόλν ζηελ απνθαηάζηαζε ησλ ηεξεδνληθώλ βιαβώλ πνπ έρνπλ εθδεισζεί, αιιά έρεη

Διαβάστε περισσότερα

Κόληξα πιαθέ ζαιάζζεο κε δηαζηάζεηο 40Υ40 εθ. Καξθηά 3 θηιά πεξίπνπ κε κήθνο ηξηπιάζην από ην πάρνο ηνπ μύινπ θπξί κεγάιν θαη ππνκνλή

Κόληξα πιαθέ ζαιάζζεο κε δηαζηάζεηο 40Υ40 εθ. Καξθηά 3 θηιά πεξίπνπ κε κήθνο ηξηπιάζην από ην πάρνο ηνπ μύινπ θπξί κεγάιν θαη ππνκνλή Δξγαιεία Καηαζθεπέο 1 Δ.Κ.Φ.Δ. ΥΑΝΙΩΝ ΠΡΩΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ ΔΝΟΣΗΣΑ 10 ε : ΜΗΥΑΝΙΚΗ ΜΔΡΟ Β ΠΙΔΗ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ Καηαζθεπή 1: Καξέθια θαθίξε Όξγαλα Τιηθά Κόληξα πιαθέ ζαιάζζεο κε δηαζηάζεηο 40Υ40 εθ.

Διαβάστε περισσότερα

ΙΣΤΟΡΙΑ ΤΟΥ ΑΡΧΑΙΟΥ ΚΟΣΜΟΥ

ΙΣΤΟΡΙΑ ΤΟΥ ΑΡΧΑΙΟΥ ΚΟΣΜΟΥ ΙΣΤΟΡΙΑ ΤΟΥ ΑΡΧΑΙΟΥ ΚΟΣΜΟΥ Α ΛΤΚΕΙΟΤ ΓΕΝΙΚΗ ΠΑΙΔΕΙΑ Σχολικό έτος: 2011-2012 Καθηγήτριες: Κεφαλληνού Λουκία- Καλλία Αθηνά ΙΙ. ΟΙ ΑΧΑΙΟΙ ΕΛΛΗΝΕΣ ΑΠΟ ΣΟΤ ΠΡΟΙΣΟΡΙΚΟΤ ΥΡΟΝΟΤ ΕΩ ΚΑΙ ΣΟ Μ. ΑΛΕΞΑΝΔΡΟ 1. ΕΛΛΗΝΙΚΗ

Διαβάστε περισσότερα

ΔΝΓΔΙΚΣΙΚΔ ΛΤΔΙ ΣΑ ΜΑΘΗΜΑΣΙΚΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ 2017

ΔΝΓΔΙΚΣΙΚΔ ΛΤΔΙ ΣΑ ΜΑΘΗΜΑΣΙΚΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ 2017 α: κολάδα β: κολάδες Σειίδα από 8 ΔΝΓΔΙΚΣΙΚΔ ΛΤΔΙ ΣΑ ΜΑΘΗΜΑΣΙΚΑ ΠΡΟΑΝΑΣΟΛΙΜΟΤ 7 ΘΔΜΑ Α Α Έζηω, κε Θα δείμνπκε όηη f ( ) f ( ) Πξάγκαηη, ζην δηάζηεκα [, ] ε f ηθαλνπνηεί ηηο πξνϋπνζέζεηο ηνπ ΘΜΤ Επνκέλωο,

Διαβάστε περισσότερα

Image J Plugin particle tracker για παρακολούθηση της κίνησης σωματιδίων

Image J Plugin particle tracker για παρακολούθηση της κίνησης σωματιδίων Image J Plugin particle tracker για παρακολούθηση της κίνησης σωματιδίων (https://weeman.inf.ethz.ch/particletracker/) Τν Plugin particle tracker κπνξεί λα αληρλεύζεη απηόκαηα ηα ζσκαηίδηα πνπ θηλνύληαη,

Διαβάστε περισσότερα

5 η Δργαζηηριακή Άζκηζη Κσκλώμαηα Γσαδικού Αθροιζηή/Αθαιρέηη

5 η Δργαζηηριακή Άζκηζη Κσκλώμαηα Γσαδικού Αθροιζηή/Αθαιρέηη 5 η Δργαζηηριακή Άζκηζη Κσκλώμαηα Γσαδικού Αθροιζηή/Αθαιρέηη Σηα πιαίζηα ηεο πέκπηεο εξγαζηεξηαθήο άζθεζεο ζα ρξεζηκνπνηεζεί απνθιεηζηηθά ην πεξηβάιινλ αλάπηπμεο νινθιεξσκέλσλ θπθισκάησλ IDL-800 Digital

Διαβάστε περισσότερα

Κβαντικοί Υπολογισμοί. Πέκπηε Γηάιεμε

Κβαντικοί Υπολογισμοί. Πέκπηε Γηάιεμε Κβαντικοί Υπολογισμοί Πέκπηε Γηάιεμε Kπθισκαηηθό Mνληέιν Έλαο θιαζηθόο ππνινγηζηήο απνηειείηαη από αγσγνύο θαη ινγηθέο πύιεο πνπ απνηεινύλ ηνπο επεμεξγαζηέο. Σηνπο θβαληηθνύο ε πιεξνθνξία βξίζθεηαη κέζα

Διαβάστε περισσότερα

1. Να ζεκεηώζεηε πνηα από ηηο επόκελεο ηαρύηεηεο είλαη κεγαιύηεξε. Α. π 1 = 30m/s Β. π 2 = 0.02km/s Γ. π 3 = 36000m/h Γ. π 4 = 144km/h.

1. Να ζεκεηώζεηε πνηα από ηηο επόκελεο ηαρύηεηεο είλαη κεγαιύηεξε. Α. π 1 = 30m/s Β. π 2 = 0.02km/s Γ. π 3 = 36000m/h Γ. π 4 = 144km/h. ΦΤΙΚΗ A ΛΤΚΔΙΟΤ ΓΙΑΡΚΔΙΑ: 10min ΣΜΗΜΑ:. ONOMA:. ΔΠΩΝΤΜΟ: ΗΜΔΡΟΜΗΝΙΑ: ΜΟΝΑΓΔ ΘΔΜΑ 1 ο ΘΔΜΑ ο ΘΔΜΑ 3 ο ΘΔΜΑ 4 ο ΤΝΟΛΟ ΘΔΜΑ A: 1. Να ζεκεηώζεηε πνηα από ηηο επόκελεο ηαρύηεηεο είλαη κεγαιύηεξε. Α. π 1 = 30m/s

Διαβάστε περισσότερα

ΜΑΘΗΜΑΤΙΚΑ ΘΔΤΙΚΗΣ ΚΑΙ ΤΔΦΝΟΛΟΓΙΚΗΣ ΚΑΤΔΥΘΥΝΣΗΣ Β ΛΥΚΔΙΟΥ ΤΔΣΤ(1) ΣΤΑ ΓΙΑΝΥΣΜΑΤΑ

ΜΑΘΗΜΑΤΙΚΑ ΘΔΤΙΚΗΣ ΚΑΙ ΤΔΦΝΟΛΟΓΙΚΗΣ ΚΑΤΔΥΘΥΝΣΗΣ Β ΛΥΚΔΙΟΥ ΤΔΣΤ(1) ΣΤΑ ΓΙΑΝΥΣΜΑΤΑ ΜΑΘΗΜΑΤΙΚΑ ΘΔΤΙΚΗΣ ΚΑΙ ΤΔΦΝΟΛΟΓΙΚΗΣ ΚΑΤΔΥΘΥΝΣΗΣ Β ΛΥΚΔΙΟΥ ΤΔΣΤ() ΣΤΑ ΓΙΑΝΥΣΜΑΤΑ ΘΔΜΑ : Αλ ηζρύεη 3 3, λα δείμεηε όηη ηα ζεκεία Μ, Ν ηαπηίδνληαη. ΘΔΜΑ : Α Β Μ Γ Σην παξαπάλσ ζρήκα είλαη 3. α) Γείμηε όηη

Διαβάστε περισσότερα

Επωηήζειρ Σωζηού Λάθοςρ ηων πανελλαδικών εξεηάζεων Σςναπηήζειρ

Επωηήζειρ Σωζηού Λάθοςρ ηων πανελλαδικών εξεηάζεων Σςναπηήζειρ Επωηήζειρ Σωζηού Λάθοςρ ηων πνελλδικών εξεηάζεων 2-27 Σςνπηήζειρ Η γξθηθή πξάζηζε ηεο ζπλάξηεζεο f είλη ζπκκεηξηθή, σο πξνο ηνλ άμνλ, ηεο γξθηθήο πξάζηζεο ηεο f 2 Αλ f, g είλη δύν ζπλξηήζεηο κε πεδί νξηζκνύ

Διαβάστε περισσότερα

ΓΙΑΓΩΝΙΣΜΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ 133. Ύλη: Σσναρηήζεις-Σηαηιζηική Θέμα 1

ΓΙΑΓΩΝΙΣΜΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ 133. Ύλη: Σσναρηήζεις-Σηαηιζηική Θέμα 1 ΓΙΑΓΩΝΙΣΜΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ 1 Ον/μο:.. Γ Λσκείοσ Ύλη: Σσναρηήζεις-Σηαηιζηική Γεν. Παιδείας 9-1-1 Θέμα 1 Α. Αο ππνζέζνπκε όηη x 1,x,...,x k είλαη νη ηηκέο κηαο κεηαβιεηήο x πνπ αθνξά ηα άηνκα ελόο δείγκαηνο

Διαβάστε περισσότερα

Μηα ζπλάξηεζε κε πεδίν νξηζκνύ ην Α, ζα ιέκε όηη παξνπζηάδεη ηοπικό μέγιζηο ζην, αλ ππάξρεη δ>0, ηέηνην ώζηε:

Μηα ζπλάξηεζε κε πεδίν νξηζκνύ ην Α, ζα ιέκε όηη παξνπζηάδεη ηοπικό μέγιζηο ζην, αλ ππάξρεη δ>0, ηέηνην ώζηε: 1 ΟΡΙΜΟΙ MONOTONIA AKΡOTATA Μηα ζπλάξηεζε κε πεδίν νξηζκνύ ην Α, ζα ιέκε όηη παξνπζηάδεη ηοπικό μέγιζηο ζην, αλ ππάξρεη δ>0, ηέηνην ώζηε: Σν ιέγεηαη ζέζε ή ζεκείν ηνπ ηνπηθνύ κεγίζηνπ θαη ην ( ηνπηθό κέγηζην.

Διαβάστε περισσότερα

Άσκηση 1 - Μοπυοποίηση Κειμένου

Άσκηση 1 - Μοπυοποίηση Κειμένου Άσκηση 1 - Μοπυοποίηση Κειμένου Σηηο παξαθάησ γξακκέο εθαξκόζηε ηε κνξθνπνίεζε πνπ πεξηγξάθνπλ Γξακκή κε έληνλε γξαθή Γξακκή κε πιάγηα γξαθή Γξακκή κε ππνγξακκηζκέλε γξαθή Γξακκή κε Arial Font κεγέζνπο

Διαβάστε περισσότερα

ΑΡΥΔ ΟΙΚΟΝΟΜΙΚΗ ΘΔΩΡΙΑ ΛΤΔΙ ΓΙΑΓΩΝΙΜΑΣΟ ΚΔΦΑΛΑΙΟΤ 2

ΑΡΥΔ ΟΙΚΟΝΟΜΙΚΗ ΘΔΩΡΙΑ ΛΤΔΙ ΓΙΑΓΩΝΙΜΑΣΟ ΚΔΦΑΛΑΙΟΤ 2 ΑΥΔ ΟΙΚΟΝΟΜΙΚΗ ΘΔΩΙΑ ΛΤΔΙ ΙΑΩΝΙΜΑΣΟ ΚΔΦΑΛΑΙΟΤ 2 1: Λάζος (είλαη ηζνζθειήο ππεξβνιή) Α2: Λάζος (ην ζεηηθό πξόζεκν ζεκαίλεη όηη ε Πνζνζηηαία Μεηαβνιή Δηζνδήκαηνο θαη ε Πνζνζηηαία Μεηαβνιή Πνζόηεηαο ήηαλ

Διαβάστε περισσότερα

EL Eνωμένη στην πολυμορυία EL A8-0046/92. Τροπολογία. Sylvie Goddyn εμ νλόκαηνο ηεο νκάδαο ENF

EL Eνωμένη στην πολυμορυία EL A8-0046/92. Τροπολογία. Sylvie Goddyn εμ νλόκαηνο ηεο νκάδαο ENF 21.10.2015 A8-0046/92 92 Σημείο 8 (8) Οη βηηακίλεο, ηα αλόξγαλα ζπζηαηηθά θαη άιιεο νπζίεο πνπ πξννξίδνληαη γηα ρξήζε ζε ζπκπιεξώκαηα δηαηξνθήο ή γηα πξνζζήθε ζε ηξόθηκα φπσο ηα παξαζθεπάζκαηα γηα βξέθε

Διαβάστε περισσότερα

ΓΔΧΜΔΣΡΙΑ ΓΙΑ ΟΛΤΜΠΙΑΓΔ

ΓΔΧΜΔΣΡΙΑ ΓΙΑ ΟΛΤΜΠΙΑΓΔ ΒΑΓΓΔΛΗ ΦΤΥΑ 2009 ελίδα 2 από 9 ΔΤΘΔΙΔ SIMSON 1 ΒΑΙΚΔ ΠΡΟΣΑΔΙ 1.1 ΔΤΘΔΙΑ SIMSON Γίλεηαη ηξίγσλν AB θαη ηπρόλ ζεκείν ηνπ πεξηγεγξακκέλνπ θύθινπ ηνπ. Αλ 1, 1 θαη 1 είλαη νη πξνβνιέο ηνπ ζηηο επζείεο πνπ

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΣΥΝΔΥΑΣΤΙΚΑ ΚΥΚΛΩΜΑΤΑ

ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΣΥΝΔΥΑΣΤΙΚΑ ΚΥΚΛΩΜΑΤΑ ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 4 ΣΥΝΔΥΑΣΤΙΚΑ ΚΥΚΛΩΜΑΤΑ 1. ρεδίαζε πλδπαζηηθνύ Κπθιώκαηνο Έλα ζπλδπαζηηθό θύθισκα (Κ) έρεη ηξεηο εηζόδνπο A, B θαη C θαη κία έμνδν Y Y=A B+AC Να θαηαζθεπάζεηε ην ράξηε Karnaugh. B 0

Διαβάστε περισσότερα

ΙNCOFRUIT - (HELLAS).

ΙNCOFRUIT - (HELLAS). Πξνο ΟΛΑ ΤΑ ΜΔΛΗ Κε Σπλάδειθε Θέκα: Ιζπαλία & Γεξκαλία 5 ε ΔΒΓΟΜΑΓΑ 2011 (31 Ιαλ έσο 30 Φεβξ.2011) Παξαζέηνπκε θαησηέξσ: Αλαζθόπεζε ηεο 4 εο εβδνκάδνο 2011 κε ηηο ηηκέο ησλ εζπεξηδνεηδώλ πνπ δηακνξθώζεθαλ

Διαβάστε περισσότερα

Διαηιμήζεις για Αιολικά Πάρκα. Κώδικες 28, 78 και 84

Διαηιμήζεις για Αιολικά Πάρκα. Κώδικες 28, 78 και 84 Διαηιμήζεις για Αιολικά Πάρκα Κώδικες 28, 78 και 84 Διαηιμήζεις για Αιολικά Πάρκα Οη Διαηιμήζεις για Αιολικά Πάρκα εθαξκόδνληαη γηα ηελ απνξξνθνύκελε ελέξγεηα από Αηνιηθά Πάξθα πνπ είλαη ζπλδεδεκέλα ζην

Διαβάστε περισσότερα

ΗΥ-150 Πξνγξακκατησκόο Ταμηλόκεσε θαη Αλαδήτεσε

ΗΥ-150 Πξνγξακκατησκόο Ταμηλόκεσε θαη Αλαδήτεσε ΗΥ-150 Πξνγξακκατησκόο Ταμηλόκεσε θαη Αλαδήτεσε To πξόβιεκα ηεο Αλαδήηεζεο Γνζέληνο δεδνκέλσλ, ι.ρ. ζε Πίλαθα (P) Χάρλσ λα βξσ θάπνην ζπγθεθξηκέλν ζηνηρείν (key) Αλ ν πίλαθαο δελ είλαη ηαμηλνκεκέλνο Γξακκηθή

Διαβάστε περισσότερα

Τπολογιςτικέσ Εφαρμογέσ ςτην τατιςτική Επεξεργαςία Δεδομένων. Παραδείγματα Επίλυςησ παλαιοτέρων Θεμάτων

Τπολογιςτικέσ Εφαρμογέσ ςτην τατιςτική Επεξεργαςία Δεδομένων. Παραδείγματα Επίλυςησ παλαιοτέρων Θεμάτων Τπολογιςτικέσ Εφαρμογέσ ςτην τατιςτική Επεξεργαςία Δεδομένων τα πλαίςια του μαθήματοσ ΠΙΘΑΝΟΣΗΣΕ, ΣΑΣΙΣΙΚΗ & ΣΟΙΦΕΙΑ ΑΡΙΘΜΗΣΙΚΗ ΑΝΑΛΤΗ Δ. Υαςουλιώτησ ΠΑΝΕΠΙΣΗΜΙΟ ΑΘΗΝΩΝ, 0-06 Παραδείγματα Επίλυςησ παλαιοτέρων

Διαβάστε περισσότερα

Δξγαιεία Καηαζθεπέο 1 Σάμε Σ Δ.Κ.Φ.Δ. ΥΑΝΙΧΝ ΠΡΧΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ. ΔΝΟΣΗΣΑ 11 ε : ΦΧ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Φαθόο κε ζσιήλα.

Δξγαιεία Καηαζθεπέο 1 Σάμε Σ Δ.Κ.Φ.Δ. ΥΑΝΙΧΝ ΠΡΧΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ. ΔΝΟΣΗΣΑ 11 ε : ΦΧ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Φαθόο κε ζσιήλα. Δξγαιεία Καηαζθεπέο 1 Δ.Κ.Φ.Δ. ΥΑΝΙΧΝ ΠΡΧΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ ΔΝΟΣΗΣΑ 11 ε : ΦΧ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ Καηαζθεπή 1: Φαθόο κε ζσιήλα Γηαθξάγκαηα Δξγαιεία Καηαζθεπέο 2 Η θαηαζθεπή πεξηγξάθεηαη ζηελ αληίζηνηρε ελόηεηα

Διαβάστε περισσότερα

A. Αιιάδνληαο ηε θνξά ηνπ ξεύκαηνο πνπ δηαξξέεη ηνλ αγωγό.

A. Αιιάδνληαο ηε θνξά ηνπ ξεύκαηνο πνπ δηαξξέεη ηνλ αγωγό. ΤΠΟΤΡΓΔΙΟ ΠΑΙΓΔΙΑ ΚΑΙ ΠΟΛΙΣΙΜΟΤ ΛΔΤΚΩΙΑ ΦΤΛΛΟ ΔΡΓΑΙΑ Μειέηε ηωλ παξαγόληωλ από ηνπο νπνίνπο εμαξηάηαη ε ειεθηξνκαγλεηηθή δύλακε. Τιηθά - πζθεπέο: Ηιεθηξνληθή δπγαξηά, ηξνθνδνηηθό ηάζεο, ξννζηάηεο, ακπεξόκεηξν,

Διαβάστε περισσότερα

Οργάνωση και Δομή Παρουσιάσεων

Οργάνωση και Δομή Παρουσιάσεων Οργάνωση και Δομή Παρουσιάσεων Οη παξνπζηάζεηο κε βνήζεηα ηνπ ππνινγηζηή γίλνληαη κε πξνγξάκκαηα παξνπζηάζεσλ, όπσο ην OpenOffice.org Impress [1] θαη ην Microsoft Office PowerPoint [2]. Απηά ηα πξνγξάκκαηα

Διαβάστε περισσότερα

Δπεξεπγαζία δεδομένυν εμπειπικήρ κοινυνικήρ έπεςναρ

Δπεξεπγαζία δεδομένυν εμπειπικήρ κοινυνικήρ έπεςναρ ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΧΝ ΓΗΑΣΜΖΜΑΣΗΚΟ ΜΔΣΑΠΣΤΥΗΑΚΟ ΣΜΖΜΑ ΜΑΘΖΜΑΣΗΚΧΝ ΜΖΥΑΝΗΚΧΝ Ζ/Τ&ΠΛΖΡΟΦΟΡΗΚΖ «Μαζεκαηηθά ησλ Τπνινγηζηψλ θαη ησλ Απνθάζεσλ» Δπεξεπγαζία δεδομένυν εμπειπικήρ κοινυνικήρ έπεςναρ ΜΔΣΑΠΣΤΥΗΑΚΖ

Διαβάστε περισσότερα