Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Σχετικά έγγραφα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγή στους Αλγορίθμους

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Εισαγωγή στους Αλγορίθμους

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Διοικητική Λογιστική

Ψηφιακή Επεξεργασία Εικόνων

Εισαγωγή στους Αλγορίθμους

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Μηχανολογικό Σχέδιο Ι

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Ιστορία της μετάφρασης

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Δομές Δεδομένων Ενότητα 1

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Διοίκηση Επιχειρήσεων

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Βάσεις Περιβαλλοντικών Δεδομένων

Διδακτική της Πληροφορικής

Θέματα Εφαρμοσμένης. Ενότητα 14.2: Η ψήφος στα πρόσωπα. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

Διοικητική Λογιστική

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Βέλτιστος Έλεγχος Συστημάτων

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

Γενικά Μαθηματικά Ι. Ενότητα 15: Ολοκληρώματα Με Ρητές Και Τριγωνομετρικές Συναρτήσεις Λουκάς Βλάχος Τμήμα Φυσικής

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εκκλησιαστικό Δίκαιο

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Κβαντική Επεξεργασία Πληροφορίας

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 6

Μάρκετινγκ Αγροτικών Προϊόντων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εκκλησιαστικό Δίκαιο

Εξελικτική Ψυχολογία: Κοινωνικο-γνωστική ανάπτυξη

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Κβαντική Επεξεργασία Πληροφορίας

Οργάνωση και Διοίκηση Πωλήσεων

ΑΡΙΣΤΟΤΕΛΕΙΟ ΑΝΟΙΚΤΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΚΑΔΗΜΑΪΚΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΑΘΗΜΑΤΑ Γενικά Μαθηματικά Ι Ενότητα 11 : Ακολουθίες και Σειρές Λουκάς Βλάχος Τμήμα Φυσικής

Βάσεις Δεδομένων. Ενότητα 1: Εισαγωγή στις Βάσεις δεδομένων. Πασχαλίδης Δημοσθένης Τμήμα Ιερατικών σπουδών

Εργαστήριο Χημείας Ενώσεων Συναρμογής

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 3

Μηχανολογικό Σχέδιο Ι

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Οργάνωση και Διοίκηση Πωλήσεων

Λογισμός 3. Ενότητα 19: Θεώρημα Πεπλεγμένων (γενική μορφή) Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Προγραμματισμός Η/Υ. Βασικές Προγραμματιστικές Δομές. ΤΕΙ Ιονίων Νήσων Τμήμα Τεχνολόγων Περιβάλλοντος Κατεύθυνση Τεχνολογιών Φυσικού Περιβάλλοντος

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Μηχανολογικό Σχέδιο Ι

Οργάνωση και Διοίκηση Πωλήσεων Ενότητα 1: Ο ΡΟΛΟΣ ΤΩΝ ΠΩΛΗΣΕΩΝ ΣΤΟ ΠΛΑΙΣΙΟ ΤΗΣ ΣΤΡΑΤΗΓΙΚΗΣ ΜΑΡΚΕΤΙΝΓΚ

Διοίκηση Επιχειρήσεων

ΓΕΝΙΚΗ ΚΑΙ ΑΝΟΡΓΑΝΗ ΧΗΜΕΙΑ

Εφαρμογές πληροφορικής σε θέματα πολιτικού μηχανικού

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Λειτουργία και εφαρμογές της πολιτιστικής διαχείρισης

Παράκτια Τεχνικά Έργα

Βάσεις Περιβαλλοντικών Δεδομένων

ΑΛΓΟΡΙΘΜΟΙ. Ενότητα 12: Αντιμετώπιση Περιορισμών Αλγοριθμικής Ισχύος

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Οικονομία των ΜΜΕ. Ενότητα 9: Εταιρική διασπορά και στρατηγικές τιμολόγησης

Γενικά Μαθηματικά Ι. Ενότητα 14: Ολοκλήρωση Κατά Παράγοντες, Ολοκλήρωση Ρητών Συναρτήσεων Λουκάς Βλάχος Τμήμα Φυσικής

Λογιστική Κόστους Ενότητα 5: Προορισμός Κόστους

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Β. Διαφορικός Λογισμός

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ομαδοποίηση Μέρος Α Λειτουργία της ομαδοποίησης, τύποι συστάδων, αλγόριθμος k-means

Περιεχόμενα ενότητας 1. Αλγόριθμοι ομαδοποίησης: i. Αλγόριθμοι τμηματοποίησης. 5

Σκοποί ενότητας Παρουσίαση της λειτουργίας της ομαδοποίησης. Παρουσίαση των τύπων συστάδων. Περιγραφή του k-means αλγόριθμου, καθώς και παραλλαγές του. 6

Τί είναι ομαδοποίηση ανάλυση συστάδων Συστάδα: συλλογή από αντικείμενα o που είναι όμοια ή σχετίζονται με κάποιο τρόπο με τα υπόλοιπα αντικείμενα της ομάδας, o και που δεν είναι (τόσο) όμοια ή δεν σχετίζονται με τα αντικείμενα άλλων ομάδων. Ανάλυση συστάδων: o Ομαδοποίηση αντικειμένων σε συστάδες. Η ομαδοποίηση μπορεί να θεωρηθεί ως μη επιβλεπόμενη κατηγοριοποίηση: δεν υπάρχουν προκαθορισμένες κατηγορίες. Τυπικές εφαρμογές: o Ως αυτόνομο εργαλείο ανάλυσης και κατανόησης δεδομένων. o Ως προεπεξεργασία δεδομένων. 7

Παραδείγματα εφαρμογών (1/2) Χρήση γης: Εντοπισμός περιοχών με παρόμοια χρήση γης σε μία βάση δεδομένων με φωτογραφίες από δορυφόρους. Χωροταξικά σχέδια: Εντοπισμός ομάδων κτιρίων σύμφωνα με τον τύπο κατοικίας, αξία, γεωγραφική περιοχή, κλπ. Σεισμογραφικές μελέτες: Ομαδοποίηση βάσει επικέντρων και άλλων χαρακτηριστικών των σεισμών. 8

Παραδείγματα εφαρμογών (2/2) Ανάλυση προτύπων επεξεργασία εικόνας. Δεδομένα παγκοσμίου ιστού: ομαδοποίηση ιστοσελίδων, ομαδοποίηση συμπεριφορών χρήσης. Marketing: Βοήθεια στην ανακάλυψη ομάδων πελατών για στοχευμένη διαφήμιση/marketing. 9

Πότε η ομαδοποίηση είναι καλή; Μία καλή μέθοδος ομαδοποίησης παράγει συστάδες: o Με μεγάλη ομοιότητα μεταξύ των αντικειμένων στην ίδια συστάδα. o Και μικρή ομοιότητα μεταξύ των αντικειμένων σε διαφορετικές συστάδες. Η ποιότητα εξαρτάται από: o Τη μέθοδο υλοποίησης της τεχνικής ομαδοποίησης. o Το μέτρο ομοιότητας που χρησιμοποιείται. Επίσης εξαρτάται από το πόσο μπορεί να ανακαλύψει κρυφά πρότυπα στα δεδομένα. 10

Έννοια συστάδας Αλλά η έννοια της συστάδας δεν είναι πάντοτε αντικειμενική. Πόσα clusters? 6 Clusters 2 Clusters 4 Clusters 11

Διαχωρισμοί μεταξύ ομαδοποιήσεων Ιεραρχική vs Διαχωριστική (Partitional) ομαδοποίηση: o Η ιεραρχική ομαδοποίηση παράγει εμφωλευμένες συστάδες που ανήκουν σε μια ιεραρχία. o Η διαχωριστική παράγει μη επικαλυπτόμενες συστάδες. Αποκλειστική vs μη-αποκλειστική vs ασαφής. Πλήρης vs μερική. 12

Τύποι Συστάδων: Καλά διαχωρισμένες Καλά διαχωρισμένες (Well-Separated) συστάδες: o Οι συστάδες είναι σύνολα σημείων όπου κάθε σημείο είναι πιο κοντά σε κάθε άλλο σημείο της ίδιας συστάδας παρά σε κάποιο σημείο άλλης συστάδας. 3 καλά διαχωρισμένες συστάδες 13

Τύποι Συστάδων: Βασισμένες στο κέντρο Η συστάδα περιέχει τα αντικείμενα που είναι κοντύτερα στο δικό της «κέντρο». o Centroid vs medoid 14

Άλλοι Τύποι Συστάδων Βάσει γειτνίασης o Κάθε σημείο της συστάδας είναι πιο κοντά σε τουλάχιστον ένα άλλο σημείο της συστάδας παρά σε κάθε σημείο εκτός συστάδας. o Οι αντίστοιχες τεχνικές βασίζονται κυρίως σε θεωρίες γράφων. o Παράδειγμα με 8 συστάδες: o Βάσει πυκνότητας. o Πιο γενικά, βάσει κοινών ιδιοτήτων: 15

Γενικές Απαιτήσεις στην ΕΔ Κλιμάκωση. Δυνατότητα χειρισμού διαφορετικών τύπων δεδομένων. Ανακάλυψη συστάδων με οποιοδήποτε σχήμα. Ελάχιστη ή μηδαμινή απαίτηση γνώσης πεδίου (domain knowledge). Ικανότητα χειρισμού θορύβου και ανωμαλιών. Όχι εξάρτηση από την σειρά των δεδομένων. Χειρισμός πολλών διαστάσεων. Εισαγωγή περιορισμών. Ευχρηστία και εύκολη κατανόηση/επεξήγηση. 16

Μέτρα ομοιότητας/απόστασης: επανάληψη Ιδιότητες μέτρων ομοιότητας: o Ανακλαστική. o Συμμετρική. ΑΠΟΣΤΑΣΗ=ΜΟΝΟΤΟΝΑ_ΦΘΗΝΟΥΣΑ(ΟΜΟΙΟΤΗΤΑ). Ιδιότητες μετρικού απόστασης: o Θετικότητα: d( x, y) 0 o Ανακλαστική: d( x, y) 0 x y o Συμμετρική: d( x, y) d( y, x) o Τριγωνική ανισότητα: d( x, y) d( x, z) d( z, y) 17

Αλγόριθμοι Τμηματοποίησης (Partitioning Algorithms) Μεθοδολογία: Δημιουργία τμηματοποίησης μίας ΒΔ D με n αντικείμενα σε ένα σύνολο k συστάδων. Δεδομένου του k, πρέπει να βρεθεί η τμηματοποίηση που βελτιστοποιεί το κριτήριο τμηματοποίησης. Βέλτιστη λύση: πρέπει να εξεταστούν όλες οι περιπτώσεις. Ευρετικές μέθοδοι: k-means, k-medoids, k-nn. k-means (MacQueen 67): Κάθε συστάδα αντιπροσωπεύεται από το κέντρο της. k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw 87): Κάθε συστάδα αντιπροσωπεύεται από ένα αντικείμενό της. 18

Συνολικός αριθμός ομαδοποιήσεων (1/3) S(n,k): αριθμός ομαδοποιήσεων n σημείων σε k ομάδες: o S(n-1,k-1) περιπτώσεις για k-1 ομάδες με n-1 σημεία. Το n- οστό σημείο δημιουργεί νέα ομάδα που συνδυάζεται με κάθε μία από τις S(n-1,k-1) ώστε να προκύψουν k ομάδες με n σημεία. Προκύπτουν συνολικά S(n-1,k-1) περιπτώσεις. o S(n-1,k) περιπτώσεις για k ομάδες με n-1 σημεία. Το n- οστό σημείο εντάσσεται σε κάθε μία από τις ομάδες ώστε να προκύψουν k ομάδες με n σημεία. Προκύπτουν συνολικά k*s(n-1,k) περιπτώσεις. 19

Συνολικός αριθμός ομαδοποιήσεων (2/3) Παράδειγμα: A,B,C,D σημεία. S(4,3) =? (A,B) (C) (A,B) (C) (D) (A,C) (B) (A,C) (B) (D) (A)(B,C) (A) (B,C) (D) S(3,2) = 3 S(3,2) περιπτώσεις (A) (B) (C) (A,D) (B) (C) (A) (B, D) (C) S(3,2) = 3 (A) (B) (C, D) 3*S(3,3) περιπτώσεις 20

Συνολικός αριθμός ομαδοποιήσεων (3/3) S( n, k) S( n 1, k 1) ks( n 1, k) k=4 S( n,1) 1, S( n, n) 1, S( n, k) 0, k n S( n, k) 1 k! i k 1 ( 1) k 1 k i i n 21

K-means 1. Διάλεξε k τυχαία κέντρα. (Τα κέντρα μπορεί να μην αντιστοιχούν σε ένα από τα δεδομένα αντικείμενα). 2. Ανάθεσε κάθε αντικείμενο στο πλησιέστερο προς αυτό κέντρο. 3. Για κάθε μία από τις k ομάδες, υπολόγισε το νέο κέντρο. 4. Αν όλα τα νέα κέντρα συμπίπτουν με τα προηγούμενα (δηλαδή, δεν υπήρξε μεταβολή), τότε τερμάτισε γιατί ο αλγόριθμος έχει συγκλίνει. Αλλιώς, επανάλαβε το βήμα 2. 22

Παράδειγμα K-means: Βήμα 1 y Διάλεξε τα αρχικά 3 κέντρα των συστάδων (τυχαία). k 1 k 2 k 3 x 23

Παράδειγμα K-means: Βήμα 2 y Ανάθεσε κάθε σημείο στο κοντινότερο κέντρο. k 1 k 2 k 3 x 24

Παράδειγμα K-means: Βήμα 3 y Μετακίνησε κάθε κέντρο στο μέσο της συστάδας. k 1 k 1 k 2 k 3 k 2 k 3 x 25

Παράδειγμα K-means: Βήμα 4 y Αναθεώρησε την ανάθεση των σημείων για τα οποία υπάρχει κοντινότερο κέντρο. k 1 Ε: Ποια είναι αυτά τα σημεία; k 2 k 3 x 26

Παράδειγμα K-means: Βήμα 4α y 3 σημεία ανατίθενται διαφορετικά k 1 k 2 k 3 x 27

Παράδειγμα K-means: Βήμα 4β y Επανα-υπολογισμός μέσων k 1 k 2 k 3 x 28

Παράδειγμα K-means: Βήμα 5 y k 1 Επανα-υπολογισμός μέσων k 2 k 3 x 29

Σύγκλιση σε τοπικά ελάχιστα SSE = 4 SSE = 16 Επανάληψη με άλλα αρχικά κέντρα 30

Ευαισθησία σε θόρυβο/outliers 31

Εναλλακτικές συνθήκες τερματισμού Μετά από συγκεκριμένο αριθμό επαναλήψεων. Το άθροισμα των μεταβολών των κέντρων είναι κάτω από ένα κατώφλι. 32

Πρόβλημα αρχικής επιλογής κέντρων Αν υπάρχουν K συστάδες πραγματικά με n σημεία η κάθε μία, η πιθανότητα επιλογής ενός κέντρου σε κάθε μία συστάδα είναι μικρή: o Για K = 10, τότε Ρ = 10!/1010 = 0.00036. o Κάποιες φορές τα κέντρα θα αυτορυθμιστούν σωστά, και κάποιες φορές όχι. 33

Λύσεις Πολλαπλές επαναλήψεις. Δειγματοληψία και εφαρμογή ιεραρχικής ομαδοποίησης. Επιλογή περισσότερων αρχικών σημείων και κατόπιν επιλογής των πιο απομακρυσμένων. Εκ των υστέρων επεξεργασία. Διχοτομικός (Bisecting) K-means. 34

Χαρακτηριστικά K-means Πλεονεκτήματα Απλός. Γρήγορος (O(nd)). Μειονεκτήματα Επιλογή k. Τοπικά ελάχιστα. Ευαισθησία σε θόρυβο, outliers. Χαμηλή αποτελεσματικότητα όταν οι πραγματικές συστάδες είναι διαφορετικού μεγέθους, πυκνότητας, ή δεν έχουν σφαιρικό σχήμα. o Χρειάζονται αυξημένο k. 35

Παραλλαγές K-means K-medians αντί για μέσες τιμές, χρησιμοποιούνται οι ενδιάμεσες. Mean των 1, 3, 5, 7, 9: 5 Mean των 1, 3, 5, 7, 1009: Median των 1, 3, 5, 7, 1009: 205 Προτέρημα των Median τιμών: δεν επηρεάζονται από ακραίες τιμές. Δειγματοληψία (για μεγάλες ΒΔ). 5 36

Σημείωμα Αναφοράς Copyright, Αναστάσιος Γούναρης. «. Ενότητα 7. Ομαδοποίηση Μέρος Α». Έκδοση: 1.0. Θεσσαλονίκη 2014. Διαθέσιμο από τη δικτυακή διεύθυνση:http://eclass.auth.gr/courses/ocrs182/

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά - Μη Εμπορική Χρήση - Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο [1] http://creativecommons.org/licenses/by-nc-sa/4.0/

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Τέλος ενότητας Επεξεργασία: Ανδρέας Κοσματόπουλος Θεσσαλονίκη, Χειμερινό Εξάμηνο 2013-2014

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Σημειώματα

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.