Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Διοικητική Λογιστική

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Βάσεις Περιβαλλοντικών Δεδομένων

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Μηχανολογικό Σχέδιο Ι

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Βέλτιστος Έλεγχος Συστημάτων

Ψηφιακή Επεξεργασία Εικόνων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Θέματα Εφαρμοσμένης. Ενότητα 14.2: Η ψήφος στα πρόσωπα. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Εισαγωγή στην Διοίκηση Επιχειρήσεων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Διοίκηση Επιχειρήσεων

Διοικητική Λογιστική

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Ιστορία της μετάφρασης

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Λογισμός 3. Ενότητα 19: Θεώρημα Πεπλεγμένων (γενική μορφή) Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Δομές Δεδομένων Ενότητα 1

Εκκλησιαστικό Δίκαιο

Κβαντική Επεξεργασία Πληροφορίας

Εισαγωγή στους Υπολογιστές

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

ΑΛΓΟΡΙΘΜΟΙ. Ενότητα 12: Αντιμετώπιση Περιορισμών Αλγοριθμικής Ισχύος

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Ψηφιακή Επεξεργασία Εικόνων

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 6

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση

Εκκλησιαστικό Δίκαιο

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εισαγωγή στην Διοίκηση Επιχειρήσεων

ΑΡΙΣΤΟΤΕΛΕΙΟ ΑΝΟΙΚΤΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΚΑΔΗΜΑΪΚΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΑΘΗΜΑΤΑ Γενικά Μαθηματικά Ι Ενότητα 11 : Ακολουθίες και Σειρές Λουκάς Βλάχος Τμήμα Φυσικής

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 1: Εκτιμητές και Ιδιότητες. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 4

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Μάρκετινγκ Αγροτικών Προϊόντων

Τεχνολογία Λογισμικού

Μηχανολογικό Σχέδιο Ι

Γενικά Μαθηματικά Ι. Ενότητα 15: Ολοκληρώματα Με Ρητές Και Τριγωνομετρικές Συναρτήσεις Λουκάς Βλάχος Τμήμα Φυσικής

Κβαντική Επεξεργασία Πληροφορίας

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Βέλτιστος Έλεγχος Συστημάτων

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

Βέλτιστος Έλεγχος Συστημάτων

Εισαγωγή στους Αλγορίθμους Ενότητα 11η Άσκηση - Σταθμισμένος Χρονοπρογραμματισμός Διαστημάτων

Τεχνικό Σχέδιο - CAD

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Εφαρμογές πληροφορικής σε θέματα πολιτικού μηχανικού

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Οικονομία των ΜΜΕ. Ενότητα 9: Εταιρική διασπορά και στρατηγικές τιμολόγησης

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 3

Παράκτια Τεχνικά Έργα

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Β. Διαφορικός Λογισμός

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Τεχνικό Σχέδιο - CAD

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Διδακτική της Πληροφορικής

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 5

Κβαντική Επεξεργασία Πληροφορίας

Δυναμική και Έλεγχος E-L Ηλεκτρομηχανικών Συστημάτων

Η ΓΝΩΣΗ ΚΑΙ ΤΟ ΠΡΑΓΜΑΤΙΚΟ ΣΤΟΝ ΠΛΑΤΩΝΑ ΚΑΙ ΤΟΝ ΑΡΙΣΤΟΤΕΛΗ

Εξελικτική Ψυχολογία: Κοινωνικο-γνωστική ανάπτυξη

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Βάσεις Δεδομένων. Ενότητα 1: Εισαγωγή στις Βάσεις δεδομένων. Πασχαλίδης Δημοσθένης Τμήμα Ιερατικών σπουδών

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ομαδοποίηση Μέρος B Αλγόριθμοι τμηματοποίησης, ιεραρχικοί αλγόριθμοι

Περιεχόμενα ενότητας 1. Αλγόριθμοι ομαδοποίησης: i. Αλγόριθμοι τμηματοποίησης. ii. Ιεραρχικοί αλγόριθμοι. 5

Σκοποί ενότητας Ανάλυση αλγορίθμων τμηματοποίησης. Ανάλυση ιεραρχικών αλγορίθμων. Παρουσίαση ομαδοποίησης πλησιέστερων γειτόνων. Παρουσίαση συναθροιστικής ιεραρχικής ομαδοποίησης. 6

Αλγόριθμοι Τμηματοποίησης (Partitioning Algorithms) Μεθοδολογία: Δημιουργία τμηματοποίησης μίας ΒΔ D με n αντικείμενα σε ένα σύνολο k συστάδων. Δεδομένου του k, πρέπει να βρεθεί η τμηματοποίηση που βελτιστοποιεί το κριτήριο τμηματοποίησης. Βέλτιστη λύση: πρέπει να εξεταστούν όλες οι περιπτώσεις. Ευρετικές μέθοδοι: k-means, k-medoids, k-nn. k-means (MacQueen 67): Κάθε συστάδα αντιπροσωπεύεται από το κέντρο της. k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw 87): Κάθε συστάδα αντιπροσωπεύεται από ένα αντικείμενό της. 7

K-means 1. Διάλεξε k τυχαία κέντρα. (Τα κέντρα μπορεί να μην αντιστοιχούν σε ένα από τα δεδομένα αντικείμενα). 2. Ανάθεσε κάθε αντικείμενο στο πλησιέστερο προς αυτό κέντρο. 3. Για κάθε μία από τις k ομάδες, υπολόγισε το νέο κέντρο. 4. Αν όλα τα νέα κέντρα συμπίπτουν με τα προηγούμενα (δηλαδή, δεν υπήρξε μεταβολή), τότε τερμάτισε γιατί ο αλγόριθμος έχει συγκλίνει. Αλλιώς, επανάλαβε το βήμα 2. 8

Χαρακτηριστικά K-means Πλεονεκτήματα Απλός. Γρήγορος (O(nd)). Μειονεκτήματα Επιλογή k. Τοπικά ελάχιστα. Ευαισθησία σε θόρυβο, outliers. Χαμηλή αποτελεσματικότητα όταν οι πραγματικές συστάδες είναι διαφορετικού μεγέθους, πυκνότητας, ή δεν έχουν σφαιρικό σχήμα. o Χρειάζονται αυξημένο k. 9

Ομαδοποίηση πλησιέστερων γειτόνων (1/3) 2 σημεία στην ίδια ομάδα αν μοιράζονται αρκετούς πλησιέστερους γείτονες. i j i j 4 10

Ομαδοποίηση πλησιέστερων γειτόνων (2/3) Για κάθε αντικείμενο x i υπολόγιζε τη λίστα L(x i ) με τα k πλησιέστερα αντικείμενα. Για κάθε ζεύγος σημείων x i και x j, αν L(x i ) L(x j ) k t : o τότε τοποθέτησε τα x i και x j στην ίδια ομάδα. 11

Ομαδοποίηση πλησιέστερων γειτόνων (3/3) Οι τιμές των παραμέτρων k και k t προσδιορίζονται εμπειρικά. o Ο αλγόριθμος είναι ευαίσθητος στο k. o Όταν το k παίρνει μεγάλες τιμές, ο αλγόριθμος τείνει να συνενώνει ομάδες, o ενώ αντιθέτως, για μικρές τιμές του k τείνει να προκαλεί διασπάσεις. o Σχετικά με το k t όταν k t =1, τότε ο αλγόριθμος παράγει παρόμοιες ομάδες με αυτές του ιεραρχικού αλγορίθμου μονής σύνδεσης (δες επόμενες διαφάνειες), καθώς είναι ευκολότερο να γίνουν συνδέσεις αντικειμένων. Πολυπλοκλότητα O(n 2 ). 12

Ομαδοποίηση αμοιβαίας γειτνίασης 1. Για κάθε αντικείμενο x i υπολόγιζε τη λίστα L(x i ) με τα k πλησιέστερα αντικείμενα. 2. Για κάθε ζεύγος αντικειμένων x i και x j, υπολόγισε την τιμή ΑΓ(x i, x j ). 3. Εντόπισε όλα τα ζεύγη αντικειμένων με ΑΓ ίσο με 2. Ανάθεσε όλα αυτά τα ζεύγη αντικειμένων στην ίδια ομάδα. 4. Επανάλαβε το βήμα 3 για την επόμενη τιμή ΑΓ μέχρι την τιμή 2k. x j είναι το είναι το p-οστό αντικείμενο προς το x i. x i είναι το είναι το q-οστό αντικείμενο προς το x j. Aν p,q < k, ΑΓ(x i, x j ) = p + q, αλλιώς άπειρο. 13

Βασικές Δομές Πίνακας Δεδομένων x 11 x i1 x n1 x 1f x if x nf x 1p x ip x np Πίνακας απόστασης 0 d(2,1) d(3,1) : d( n,1) 0 d(3,2) : d( n,2) 0 : 0 14

Ιεραρχική Συσταδοποίηση Δυο βασικοί τύποι ιεραρχικής συσταδοποίησης: o Συσσωρευτικός (Agglomerative): Αρχίζει με τα σημεία ως ξεχωριστές συστάδες. Σε κάθε βήμα, συγχωνεύει το πιο κοντινό ζευγάρι συστάδων μέχρι να μείνει μόνο μία (ή k) συστάδες. o Διαιρετικός (Divisive): Αρχίζει με μία συστάδα που περιέχει όλα τα σημεία. Σε κάθε βήμα, διαχωρίζει μία συστάδα, έως κάθε συστάδα να περιέχει μόνο ένα σημείο (ή να δημιουργηθούν k συστάδες. 15

Ιεραρχική Συσταδοποίηση: Εισαγωγικά Παράγει ένα σύνολο από εμφωλευμένες συστάδες οργανωμένες σε ένα ιεραρχικό δέντρο. Μπορεί να παρασταθεί με ένα δενδρόγραμμα. Δηλ. ένα διάγραμμα που μοιάζει με δένδρο και καταγράφει τις ακολουθίες από συγχωνεύσεις (merges) και διαχωρισμούς (splits). 0.2 0.15 0.1 0.05 0 1 3 2 5 4 6 16

Συναθροιστική Ιεραρχική Ομαδοποίηση 1. Ξεκίνα από την αρχική διαμέριση C 1 = {{x 1 },,{x n }}. Επίσης i=1. 2. Bρες το ζεύγος ομάδων c r και c s με τη μικρότερη απόσταση d(c r, c s ). 3. Συνένωσε τις ομάδες c r και c s και δημιούργησε την ακολουθία C i+1. Θέσε i=i+1. 4. Ενημέρωσε τον πίνακα D, διαγράφοντας τις γραμμές και τις στήλες που αντιστοιχούν στις ομάδες c r και c s. Θεώρησε μία γραμμή και στήλη, που να αντιστοιχούν στη συνενωμένη ομάδα c r c s. Υπολόγισε την απόσταση της συνενωμένης ομάδα c r c s από όλες τις υπόλοιπες ομάδες, και συμπλήρωσε τις τιμές στη νέα στήλη και τη νέα γραμμή του D. 5. Αν στο βήμα 3 έχει παραχθεί διαμέριση με k ομάδες, τότε σταμάτησε. Διαφορετικά, επανάλαβε το βήμα 2. 17

Αρχική κατάσταση p1 p1 p2 p3 p4 p5... p2 p3 p4 p5... Πίνακας Αποστάσεων Κάθε σημείο είναι ένα cluster: p1 p2 p3 p4 p9 p10 p11 p12 18

Ενδιάμεση κατάσταση C1 C1 C2 C3 C4 C5... C3 C4 C2 C3 C4 C1 C2 C5 C5... Πίνακας Αποστάσεων p1 p2 p3 p4 p9 p10 p11 p12 19

Συνένωση ομάδων C1 C2 C3 C4 C5 C3 C4 C1 C2 C3 C1 C4 C5 C2 C5 p1 p2 p3 p4 p9 p10 p11 p12 20

Μετά τη συνένωση C1 C2 U C5 C3 C4 C3 C1? C4 C2 U C5???? C1 C3 C4?? C2 U C5 p1 p2 p3 p4 p9 p10 p11 p12 21

Απόσταση ομάδων (1/5) Απόσταση;; p1 p2 p3 p1 p2 p3 p4 p5... MIN MAX Μέσος όρος Απόσταση μεταξύ κέντρων Μέθοδος Ward (τετραγωνικό σφάλμα) p4 p5... Πίνακας Αποστάσεων 22

Απόσταση ομάδων (2/5) p1 p1 p2 p3 p4 p5... p2 p3 MIN MAX Μέσος όρος Απόσταση μεταξύ κέντρων Μέθοδος Ward (τετραγωνικό σφάλμα) p4 p5... Πίνακας Αποστάσεων Ανάλογα, χειριζόμαστε και ομοιότητες αντί για αποστάσεις. 23

Απόσταση ομάδων (3/5) p1 p1 p2 p3 p4 p5... p2 p3 MIN MAX Μέσος όρος Απόσταση μεταξύ κέντρων Μέθοδος Ward (τετραγωνικό σφάλμα) p4 p5... Πίνακας Αποστάσεων 24

Απόσταση ομάδων (4/5) p1 p1 p2 p3 p4 p5... p2 p3 MIN MAX Μέσος όρος Απόσταση μεταξύ κέντρων Μέθοδος Ward (τετραγωνικό σφάλμα) p4 p5... Πίνακας Αποστάσεων 25

Απόσταση ομάδων (5/5) p1 p1 p2 p3 p4 p5... p2 p3 MIN MAX Μέσος όρος Απόσταση μεταξύ κέντρων Μέθοδος Ward (τετραγωνικό σφάλμα) p4 p5... Πίνακας Αποστάσεων 26

Σύγκριση MIN vs. MAX (1/2) d max d min MIN: αλγόριθμος μονής σύνδεσης (single-link). MAX: αλγόριθμος πλήρους σύνδεσης (complete-link). 27

Σύγκριση MIN vs. MAX (2/2) E 2.6 2.4 2.2 C 2.0 1.8 1.6 A D 1.4 1.2 0 A B C D E B 5.0 0 1.1180 2.6926 3.5 3.3541 1.1180 0 2.8282 3.1623 4.1231 2.6926 2.8284 0 1.4142 2.2361 3.5 3.1623 1.4142 0 3.6056 1 3.3541 4.1231 2.2361 3.6056 0 A B C D E 4.5 4.0 3.5 3.0 2.5 2.0 1.5 28

Ερμηνεία με θεωρία γράφων Ζυγισμένος γράφος G: o κορυφές = αντικείμενα o βάρη = αποστάσεις. E d(i): η απόσταση των ομάδων που συνενώνονται στο i βήμα. A C D H(d(i)): o υπογράφος του G με ακμές με βάρη < d(i). B E Στο τελικό αποτέλεσμα: o Μονής σύνδεσης: κάθε ομάδα αντιστοιχεί σε μία συνιστώσα που είναι spanning tree (ζευγνύον δένδρο). o Πλήρους σύνδεσης: κάθε ομάδα, μία κλίκα (πλήρης υπογράφος). A B C D 29

Γενική εξίσωση απόστασης Μετά τη συνένωση r και s, βρίσκουμε την απόστασή τους από κάθε άλλη ομάδα k: Αλγόριθμος αr αs β γ Μονής σύνδεσης 1/2 1/2 0-1/2 Πλήρους σύνδεσης 1/2 1/2 0 1/2 0 0 Μέσου όρου Κέντρων 0 Ward s 0 30

Αλγόριθμος Ward Το κέντρο της k ομάδας: Τετραγωνικό λάθος: Συνολικό λάθος (Κ ομάδες): Κατά τη συνένωση r, s t: Σε κάθε βήμα: συνένωση που προκαλεί μικρότερο ΔΕ2 31

Σύγκριση 5 2 3 2 4 4 5 1 1 3 6 MIN MAX 5 4 1 2 5 2 3 6 3 1 4 4 5 2 2 3 4 3 1 1 5 6 Group Average Ward s Method 5 5 2 2 4 4 1 3 1 3 6 32

Ποιος είναι καταλληλότερος; (1/2) Εξαρτάται από τα δεδομένα. ΜΑΧ: +λιγότερη εξάρτηση σε θόρυβο και outliers. - Τείνει να διασπά μεγάλες συστάδες. Οδηγεί συνήθως σε κυκλικά σχήματα. ΜΙΝ : + Contiguity-based (συνεχόμενες συστάδες). + Μπορεί να χειριστεί μη ελλειπτικά (non-elliptical) σχήματα. - Ευαίσθητο σε θόρυβο και outliers. 33

Ποιος είναι καταλληλότερος; (2/2) Μέσος όρος: o Ανάμεσα σε MIN-MAX + Πλεονεκτήματα: μικρότερη ευαισθησία σε θόρυβο και outliers. - Μειονεκτήματα: Ευνοεί κυκλικές συστάδες. 34

Πολυπλοκότητα Ιεραρχικών αλγορίθμων O(N 2 ) χώρο, για τον πίνακα αποστάσεων. O(N 3 ) χρόνο. o N βήματα, σε κάθε βήμα N 2, για τη συνένωση. o O(N 2 log(n) ) για μονής σύνδεσης σε χαμηλές διαστάσεις. 35

Σύγκριση με k-means Δεν απαιτεί τον ορισμό του αριθμού των clusters. Oι αποφάσεις σε κάθε βήμα δεν αναιρούνται. Όχι τοπικά βέλτιστα. Όμως Υπάρχουν μελέτες που υποστηρίζουν ότι παράγουν καλύτερες συστάδες. Συνδυάζεται με k-means. 36

Σημείωμα Αναφοράς Copyright, Αναστάσιος Γούναρης. «. Ενότητα 8. Ομαδοποίηση Μέρος B». Έκδοση: 1.0. Θεσσαλονίκη 2014. Διαθέσιμο από τη δικτυακή διεύθυνση:http://eclass.auth.gr/courses/ocrs182/

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο [1] http://creativecommons.org/licenses/by-nc-sa/4.0/

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Τέλος ενότητας Επεξεργασία: Ανδρέας Κοσματόπουλος Θεσσαλονίκη, Χειμερινό Εξάμηνο 2013-2014

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Σημειώματα

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.