Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση
|
|
- Κυριακή Μαρής
- 8 χρόνια πριν
- Προβολές:
Transcript
1 Συσταδοποίηση I Εισαγωγή Ο αλγόριθμος k-means Αποστάσεις Ιεραρχική Συσταδοποίηση Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Τι είναι συσταδοποίηση Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή νασχετίζονται) και διαφορετικά (ή μησχετιζόμενα) από τα αντικείμενα των άλλων συστάδων Οι αποστάσεις μέσα στη συστάδα ελαχιστοποιούνται Οι αποστάσεις ανάμεσα στις συστάδες μεγιστοποιούνται -διάστατα σημεία, ευκλείδεια απόσταση Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
2 Εφαρμογές ομαδοποίηση γονιδίων και πρωτεϊνών που έχουν την ίδια λειτουργία, εικόνες, χαρακτηριστικά ασθενειών μετοχών με παρόμοια διακύμανση τιμών, ομαδοποίηση weblog για εύρεση παρόμοιων προτύπων προσπέλασης, ομαδοποίηση σχετιζόμενων αρχείων για browsing, ομαδοποίηση κειμένων πελάτες με παρόμοια συμπεριφορά 4 Discovered Clusters Applied-Matl-DOWN,Bay-Network-Down,-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Συσταδοποίηση επιπέδου βροχής (precipitation) στην Αυστραλία! Industry Group Technology-DOWN Technology-DOWN Financial-DOWN Oil-UP Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι Εφαρμογές Κατανόηση Stand alone εφαρμογή/εργαλείο οπτικοποίηση, συμπεράσματα για την κατανομή Βήμα Προεπεξεργασίας Περίληψη: Ελάττωση του μεγέθους μεγάλων συνόλων χρήση αντιπροσωπευτικών σημείων από κάθε συστάδα πρωτότυπα (prototypes), Συμπίεση ή Αποδοτική κατασκευή ευρετηρίων εύρεση κοντινότερου γείτονα κλπ Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4
3 Ασάφεια Πόσες Ομάδες? 6 ομάδες ομάδες 4 ομάδες Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 Εισαγωγή Πότε μια συσταδοποίηση είναι καλή; Μια μέθοδος συσταδοποίησης είναι καλή αν παράγει συστάδες καλής ποιότητας Μεγάλη ομοιότητα εντός της συστάδας και Μικρή ομοιότητα ανάμεσα στις συστάδες Η ποιότητα εξαρτάται από τη Μέτρηση ομοιότητας και Μέθοδο υλοποίησης της συσταδοποίησης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6
4 Είδη συσταδοποίησης Μια συσταδοποίηση είναι ένα σύνολο από συστάδες Βασική διάκριση ανάμεσα στο ιεραρχικό (hierarchical) και διαχωριστικό (partitional) σύνολο από ομάδες ιαχωριστική Συσταδοποίηση (Partitional Clustering) Ένας διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα - non-overlapping - υποσύνολα (συστάδες) τέτοιος ώστε κάθε αντικείμενο ανήκει σε ακριβώς ένα υποσύνολο Ιεραρχική Συσταδοποίηση (Hierarchical clustering Ένα σύνολο από εμφωλευμένες (nested) ομάδες Επιτρέπουμε σε μια συστάδα να έχει υπο-συστάδες οργανωμένες σε ένα ιεραρχικό δέντρο Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 Διαχωριστική και Ιεραρχική Συσταδοποίηση Αρχικά Σημεία Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8
5 Διαχωριστική και Ιεραρχική Συσταδοποίηση p p p4 Διαχωριστική Συσταδοποίηση p p p p4 p Ιεραρχική Συσταδοποίηση p p p p4 Παραδοσιακό Δένδρο-γράμμα (Dendrogram) Φύλλα: απλάσημείαήαπλέςσυστάδες Ως ακολουθία διαχωριστικών Να «κόψουμε» το δέντρο Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 Τύποι συστάδων: Καλώς Διαχωρισμένες Συστάδες Μια συστάδα είναι ένα σύνολο από σημεία τέτοια ώστε κάθε σημείο μιας συστάδας είναι κοντινότερο σε (ή πιοόμοιομε) όλα τα άλλα σημεία της συστάδας από ότι σε οποιοδήποτε άλλο σημείο που δεν ανήκει στη συστάδα. καλώς-διαχωρισμένες συστάδες Συχνά υπάρχει η έννοια του κατωφλιού (threshold) Όχι απαραίτητα κυκλικοί (οποιοδήποτε σχήμα) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0
6 Τύποι συστάδων: Συστάδεςβασισμένεςσεκέντροήπρότυπο Μια συστάδα είναι ένα σύνολο από αντικείμενα τέτοιο ώστε ένα αντικείμενο στην συστάδα είναι κοντινότερο σε (ή πιο όμοιο με) το «κέντρο» ή πρότυπο της συστάδας από ότι από το κέντρο οποιασδήποτε άλλης συστάδας. Το κέντρο της ομάδας είναι συχνά centroid, ο μέσος όρος των σημείων της συστάδας, ή a medoid, το πιο «αντιπροσωπευτικό» σημείο της συστάδας (πχ όταν κατηγορικά γνωρίσματα) 4 συστάδες βασισμένες σε κέντρο Τείνουν στο να είναι κυκλικοί Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι Τύποι συστάδων: Συνεχής Συστάδες Συνεχής Συστάδες (Contiguous Cluster) (Κοντινότερος γείτονα ή μεταβατικά) Βάσει γειτνίασης Μια συστάδα είναι ένα σύνολο σημείων τέτοιο ώστε κάθε σημείο είναι πιο κοντά σε ένα ή περισσότερα σημεία της συστάδας από ό,τι σε οποιοδήποτε άλλο σημείο εκτός συστάδας Συχνά σε περιπτώσεις συστάδων με μη κανονικό σχήμα ή με αλληλοπλεκόμενα σχήματα ή όταν έχουμε γραφήματα και θέλουμε να βρούμε συνεκτικά υπογραφήματα Πρόβλημα με θόρυβο 8 συνεχείς συστάδες Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
7 Τύποι συστάδων: Συστάδες βασισμένες στην πυκνότητα Μια συστάδα είναι μια πυκνή περιοχή από σημεία την οποία χωρίζουν από άλλες περιοχές μεγάλης πυκνότητας περιοχές χαμηλής πυκνότητας Συχνά σε περιπτώσεις συστάδων με μη κανονικό σχήμα ή με αλληλοπλεκόμενα σχήματα ή όταν θόρυβος ή outliers 6 συστάδες βασισμένες στην πυκνότητα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι Τύποι συστάδων: Εννοιολογική συσταδοποίηση Συστάδες με κοινή ιδιότητα ή εννοιολογικές συστάδες. αλληλοκαλυπτόμενοι κύκλοι Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4
8 Τύποι συστάδων: Συστάδες βασισμένες σε μια Αντικειμενική Συνάρτηση Εύρεση συστάδων που ελαχιστοποιούν ή μεγιστοποιούν μια αντικειμενική συνάρτηση Απαρίθμηση όλων των δυνατών τρόπων χωρισμού των σημείων σε συστάδες και υπολογισμού του «πόσο καλό» ( goodness ) είναι κάθε πιθανό σύνολο από συστάδες χρησιμοποιώντας τη δοθείσα αντικειμενική συνάρτηση (NP hard) Οι στόχοι (objectives) μπορεί να είναι ολικοί (global) ή τοπικοί (local) Οι ιεραρχικοί συνήθως τοπικού Οι διαχωριστικοί ολικές Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 Γενικές Απαιτήσεις Αντιμετώπιση θορύβου και outliers συστάδα outliers Outlier (ακραίο σημείο) τιμές που είναι εξαιρέσεις ως προς τα συνηθισμένες ή αναμενόμενες τιμές Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6
9 Άλλες διακρίσεις μεταξύ συνόλων συστάδων Επικαλυπτόμενο ήόχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες (πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 Αλγόριθμοι Συσταδοποίησης Θα δούμε ανάμεσα σε άλλους τους: K means και παραλλαγές Ιεραρχική Συσταδοποίηση Συσταδοποίηση με βάση την Πυκνότητα (DBSCAN) BIRCH (δεδομένα στο δίσκο!) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8
10 K-means Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 K-means: Γενικά Διαχωριστικός αλγόριθμος (βασισμένος σε πρότυπο) Κάθε συστάδα συσχετίζεται με ένα κεντρικό σημείο (centroid) Κάθε σημείο ανατίθεται στη συστάδα με το κοντινότερο κεντρικό σημείο Οαριθμόςτωνομάδων, Κ, είναι είσοδος στον αλγόριθμο Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0
11 K means: Βασικός Αλγόριθμος Βασικός αλγόριθμος : Επιλογή Κ σημείων ως τα αρχικά κεντρικά σημεία : Repeat : Ανάθεση όλων των αρχικών σημείων στο κοντινότερο τους από τα K κεντρικά σημεία 4: Επανα-υπολογισμός του κεντρικού σημείου κάθε συστάδας 5: Until τα κεντρικά σημεία να μην αλλάζουν Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι K means: Βασικός Αλγόριθμος Παράδειγμα Έστω k =, και αρχικά επιλέγουμε το και το 4 Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
12 K means: Βασικός Αλγόριθμος Παρατηρήσεις. Τα αρχικά κεντρικά σημεία συνήθως επιλέγονται τυχαία Οι συστάδες που παράγονται διαφέρουν από το ένα τρέξιμο του αλγορίθμου στο άλλο Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι K means: Βασικός Αλγόριθμος Παρατηρήσεις (συνέχεια). Η εγγύτητα των σημείων υπολογίζεται με βάση κάποια απόσταση που εξαρτάται από το είδος των σημείων, στα παραδείγματα θα θεωρήσουμε την Ευκλείδεια απόσταση Επειδή η απόσταση υπολογίζεται συχνά o υπολογισμός της πρέπει να είναι σχετικά απλός. Το κεντρικό σημείο είναι (συνήθως) το μέσο (mean) των σημείων της συστάδας (το οποίο μπορεί να μην είναι ένα από τα δεδομένα εισόδου) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4
13 Αρχική κατάσταση, Κ = συστάδες Αρχικά σημεία k, k, k K-means: Βασικός Αλγόριθμος Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 K-means: Βασικός Αλγόριθμος Τα σημεία ανατίθενται στο πιο γειτονικό από τα αρχικά σημεία Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6
14 K-means: Βασικός Αλγόριθμος Επανα-υπολογισμός του κέντρου (κέντρου βάρους) κάθε σημείου Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 Νέα ανάθεση των σημείων Νέακέντραβάρους K-means: Βασικός Αλγόριθμος Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8
15 K-means: Βασικός Αλγόριθμος εν αλλάζει τίποτα -> ΤΕΛΟΣ Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 K means: Βασικός Αλγόριθμος Παρατηρήσεις (συνέχεια) Χώρος: αποθηκεύουμε μόνα τα κέντρα Η πολυπλοκότητα είναι O(I * n * K * d) n = αριθμός σημείων, K = αριθμός συστάδων, I = αριθμός επαναλήψεων, d = αριθμός γνωρισμάτων (διάσταση) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0
16 K means: Βασικός Αλγόριθμος Παρατηρήσεις (συνέχεια) Για συνηθισμένα μέτρα ομοιότητας, οαλγόριθμοςσυγκλίνει Η σύγκλιση συμβαίνει συνήθως τις αρχικές πρώτες επαναλήψεις Συχνά η τελική συνθήκη αλλάζει σε Until σχετικά λίγα σημεία να αλλάζουν συστάδα ή η απόσταση μεταξύ των νέων κεντρικών σημείων από τα παλιά να είναι μικρή Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι K means: Εκτίμηση ποιότητας Ουσιαστικά, ο αλγόριθμος προσπαθεί επαναληπτικά να «μειώσει» την απόσταση όλων των σημείων από ένα σημείο της συστάδας Η πιο συνηθισμένη μέτρηση είναι το άθροισμα των τετράγωνων του λάθους (Sum of Squared Error (SSE)) Για κάθε σημείο, το λάθος είναι η απόστασή του από την κοντινότερη συστάδα Για να πάρουμε το SSE, παίρνουμε το τετράγωνο αυτών των λαθών και τα προσθέτουμε SSE = K i= x Ci dist ( m, x ) Όπου dist Ευκλείδεια απόσταση, x είναι ένα σημείο στη συστάδα C i και m i είναι ο αντιπρόσωπος (κεντρικό σημείο) της συστάδας C i Μπορούμε να δείξουμε ότι το σημείο που ελαχιστοποιεί το SSE για τη συστάδα είναι ο μέσος όρος c i = /m i Σ x Ci x Δοθέντων δύο συστάδων, μπορούμε να επιλέξουμε αυτήν με το μικρότερο λάθος i Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
17 K means: Εκτίμηση ποιότητας Ένας τρόπος να βελτιώσουμε τη συσταδοποίηση (ελάττωση του SSE) είναι να μεγαλώσουμε το K Αλλά γενικά μια καλή συσταδoποίηση με μικρό Κ μπορεί να έχει μικρότερο SSE από μια κακή συσταδοποίηση με μεγάλο K Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι K means: Βασικός Αλγόριθμος Το αποτέλεσμα εξαρτάται από την επιλογή των αρχικών σημείων Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4
18 K-means: Παράδειγμα.5.5 Αρχικά σημεία y x y y x Βέλτιστη συσταδοποίηση x Υπό-βέλτιστη συσταδοποίση Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 K-means: Επιλογή αρχικών σημείων Iteration y x Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6
19 K-means: Επιλογή αρχικών σημείων Iteration Iteration Iteration y y y x x x Iteration 4 Iteration 5 Iteration y y y x x x Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 K-means: Επιλογή αρχικών σημείων Iteration y x Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8
20 K-means: Επιλογή αρχικών σημείων Iteration Iteration y y x x Iteration Iteration 4 Iteration y y y x x x Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 Παράδειγμα 0 συστάδων 8 Iteration y Ξεκινώντας με δύο αρχικά σημεία σε κάθε συστάδα κάθε ζεύγους συστάδων x Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 40
21 Παράδειγμα 0 συστάδων 8 Iteration 8 Iteration y 0 y x Iteration x Iteration y 0 y x x Ξεκινώντας με δύο αρχικά σημεία σε κάθε συστάδα κάθε ζεύγους συστάδων Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4 Παράδειγμα 0 συστάδων 8 Iteration y Ξεκινώντας με κάποια ζευγάρια συστάδων να έχουν τρία κεντρικά σημεία και άλλα μόνο ένα x Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4
22 Παράδειγμα 0 συστάδων 8 Iteration 8 Iteration y 0 y Iteration x Iteration x y 0 y x x Ξεκινώντας με κάποια ζευγάρια συστάδων να έχουν τρία κεντρικά σημεία και άλλα μόνο ένα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4 K-means: Επιλογή αρχικών σημείων Αν υπάρχουν K «πραγματικές συστάδες» ηπιθανότηταναεπιλέξουμεένακέντρο από κάθε συστάδα είναι μικρή, συγκεκριμένα αν όλες οι συστάδες έχουν το ίδιο μέγεθος n, τότε: Για παράδειγμα, αν Κ = 0, η πιθανότητα είναι = 0!/00 = Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 44
23 K means: Λύσεις για την επιλογή αρχικών σημείων Πολλαπλά τρεξίματα Βοηθά, αλλά πολλές περιπτώσεις Δειγματοληψία και χρήση κάποιας ιεραρχικής τεχνικής Επιλογή παραπάνω από k αρχικών σημείων και μετά επιλογή k από αυτά τα αρχικά κεντρικά σημεία (πχ τα πιο απομακρυσμένα μεταξύ τους) Σταδιακή επιλογή Επιλογή του πρώτου σημείου τυχαία ή ως το μέσο όλων των σημείων Για καθένα από τα υπόλοιπα αρχικά σημεία επέλεξε αυτό που είναι πιο μακριά από τα μέχρι τώρα επιλεγμένα αρχικά σημεία Μπορεί να οδηγήσει στην επιλογή outliers Ο υπολογισμός του πιο απομακρυσμένου σημείου είναι δαπανηρός Συχνά εφαρμόζεται σε δείγματα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 45 K-means: Άδειες συστάδες Ο βασικός αλγόριθμος μπορεί να οδηγήσει σε άδειες αρχικές συστάδες Πολλές στρατηγικές Επιλογή του σημείου που είναι πιο μακριά από όλα τα τωρινά κέντρα = επιλογή του σημείου που συμβάλει περισσότερο στο SSE ΈνασημείοαπότησυστάδαμετουψηλότεροSSE θα οδηγήσει σε «σπάσιμο» της άρα σε μείωση του λάθους Αν πολλές άδειες συστάδες, τα παραπάνω βήματα μπορεί να επαναληφτούν πολλές φορές Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 46
24 K-means: Σταδιακή ενημέρωση κεντρικών σημείων ΣτοβασικόΚ means, το κέντρα ενημερώνεται αφού όλο τα σημεία έχουν ανατεθεί στο κέντρο Μια παραλλαγή είναι να ενημερώνονται τα κέντρα μετά από κάθε ανάθεση (incremental approach) Κάθε ανάθεση ενημερώνει 0 ή κέντρα Πιο δαπανηρό Έχει σημασία η σειρά εισαγωγής/εξέτασης των σημείων Δεν υπάρχουν άδειες συστάδες Μπορεί να χρησιμοποιηθούν βάρη ανυπάρχει κάποια τυχαία αντικειμενική συνάρτηση έλεγχοςτισυμφέρεικάθεφορά Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 47 Προ και Μετα Επεξεργασία Ολικό SSE και SSE Συστάδας Προ επεξεργασία Κανονικοποίηση των δεδομένων Απομάκρυνση outliers Post processing Split Merge (διατηρώντας το ίδιο K) Διαχωρισμός (split) συστάδων με το σχετικά μεγαλύτερο SSE Δημιουργία μια νέας συστάδας: πχ επιλέγοντας το σημείο που είναι πιο μακριά από όλα τα κέντρα ή τυχαία επιλογή σημείου ή επιλογή του σημείου με το μεγαλύτερο SSE Συνένωση (merge) συστάδων που είναι σχετικά κοντινές (τα κέντρα τους έχουν την μικρότερη απόσταση) ή τις δυο συστάδες που οδηγούν στην μικρότερη αύξηση του SSE Διαγραφή συστάδας και ανακατανομή των σημείων της σε άλλες συστάδες (αυτό που οδηγεί στην μικρότερη αύξηση του SSE) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 48
25 K means με διχοτόμηση (bisecting k means) Παραλλαγή που μπορεί να παράγει μια διαχωριστική ή ιεραρχική συσταδοποίηση : Αρχικοποίηση της λίστας των συστάδων ώστε να περιέχει μια συστάδα που περιέχει όλα τα σημεία : Repeat : Επιλογή μιας συστάδας από τη λίστα των συστάδων 4: for i = to number_of_trials do 5: διχοτόμησε την επιλεγμένη συστάδα χρησιμοποιώντας το βασικό k-means 6: Πρόσθεσε στη λίστα από τις δυο συστάδες που προέκυψαν από τη διχοτόμηση αυτήν με το μικρότερο SSE 5: Until η λίστα των συστάδων να έχει K συστάδες Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 49 K means με διχοτόμηση (bisecting k means) Ποια συστάδα να διασπάσουμε; Τη μεγαλύτερη Αυτή με το μεγαλύτερο SSE Συνδυασμό των παραπάνω Μπορεί να χρησιμοποιηθεί και ως ιεραρχικός Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 50
26 K-means με διχοτόμηση Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 K means: Περιορισμοί O K means έχειπροβλήματαότανοισυστάδεςέχουν Διαφορετικά Μεγέθη Διαφορετικές Πυκνότητες Non globular shapes Έχει προβλήματα όταν τα δεδομένα έχουν outliers Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5
27 K means: Περιορισμοί διαφορετικά μεγέθη Αρχικά σημεία K-means ( συστάδες) Δεν μπορεί να βρει το μεγάλο κόκκινο, γιατί είναι πολύ μεγαλύτερος από τους άλλους Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 K means: Περιορισμοί διαφορετικές πυκνότητες Αρχικά σημεία K-means ( συστάδες) Δεν μπορεί να διαχωρίσει τους δυο μικρούς γιατί είναι πολύ πυκνοί σε σχέση με τον ένα μεγάλο Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 54
28 K means: Περιορισμοί μη κυκλικά σχήματα Αρχικά σημεία K-means ( συστάδες) Δεν μπορεί να βρει τις δύο συστάδες γιατί έχουν μη κυκλικά σχήματα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 55 K-means: Περιορισμοί Αρχικά Σημεία K-means Συστάδες Μια λύση είναι να χρησιμοποιηθούν πολλές συστάδες Βρίσκει τμήματα των συστάδων, αλλά πρέπει να τα συγκεντρώσουμε Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 56
29 K-means: Περιορισμοί Αρχικά σημεία K-means Συστάδες Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 57 K-means: Περιορισμοί διαφορετικά μεγέθη Αρχικά Σημεία K-means Συστάδες Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 58
30 Συνήθως συνεχή d διάστατο χώρο K medoid Διαλέγει ένα αντιπροσωπευτικό σημείο από τα δεδομένα και ελαχιστοποιεί την απόσταση από αυτό Medoid: το πιο κεντρικό σημείο της συστάδας (αντί να χρησιμοποιεί το mean) Mειώνει την ευαισθησία σε outliers Μπορεί να εφαρμοστεί σε δεδομένα οποιουδήποτε τύπου (πχ και για κατηγορικά δεδομένα) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 59 Παρένθεση Ορισμοί Μια παρένθεση Μέση τιμή Απόσταση Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 60
31 Αριθμητικό Μέσο/Μέση Τιμή- Mean(αλγεβρική μέτρηση) (sample vs. population): Αριθμητικό μέσο με βάρος (Weighted arithmetic mean) Trimmed mean: κόβουμε τις ακραίες τιμές (πχ τα μεγαλύτερα και μικρότερα (p/)%) Μέσο μεσαία τιμή (median) - διάμεσο: Μεσαία τιμή αν μονός αριθμός, ο μέσος όρος των δυο μεσαίων τιμών, αλλιώς Γενική Τάση x = n x n x i i = n i = = n i = w x Το μέσο συμπεριφέρεται καλύτερα όταν δεδομένα με μη ομοιόμορφη κατανομή (skewed) Παράδειγμα Μέσο Μέση τιμή Trimmed 40% i w i i Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6 Mode Η τιμή που εμφανίζεται πιο συχνά στα δεδομένα Unimodal, bimodal, trimodal (πιο συχνά εμφανίζεται μία, δύο ή τρεις διαφορετικές τιμές) Γενική Τάση Midrange (μέσο διαστήματος) (min()+max())/ Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6
32 Γενική Τάση Median, mean and mode of symmetric, positively and negatively skewed data Mean Median Mode Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6 Γενική Τάση Distributed measure (κατανεμημένη μέτρηση): μπορούν να υπολογιστούν αν χωρίσουμε τα αρχικά δεδομένα σε μικρότερα υποσύνολα, υπολογίσουμε την τιμή σε κάθε υποσύνολο και τις συγχωνεύουμε πχ sum(), count(), max(), min() Algebraic measure (αλγεβρική μέτρηση): μπορεί να υπολογιστεί αν εφαρμόσουμε μια αλγεβρική (πολυωνυμική) συνάρτηση σε μία ή περισσότερες κατανεμημένες μετρήσεις (πχ avg()= sum()/count()) Holistic measure (ολιστική μέτρηση) πρέπει να υπολογιστεί στο σύνολο των δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 64
33 Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 65 ιασπορά = = = = = n i n i i i n i i x n x n x x n ] ) ( [ ) ( σ Variance (σ ) Standard deviation (σ) Mean (μέση τιμή) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 66 Απόσταση και Ομοιότητα
34 Κριτήρια Ομοιότητας Απόσταση Ομοιότητα Μια αριθμητική μέτρηση για το πόσο όμοια είναι δυο αντικείμενα Μεγαλύτερη όσο πιο όμοια είναι τα αντικείμενα μεταξύ τους Συχνά τιμές στο [0, ] Μη Ομοιότητα (dissimilarity) Μια αριθμητική μέτρηση για το πόσο διαφορετικά είναι δυο αντικείμενα Μικρότερη όσο ποιο όμοια είναι τα αντικείμενα μεταξύ τους Η ελάχιστη τιμή είναι συνήθως 0 (όταν τα ίδια), αλλά το πάνω όρο διαφέρει Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 67 Κριτήρια Ομοιότητας Γνωστές ιδιότητες για την ομοιότητα: s(p, q) = (ή μέγιστη ομοιότητα) μόνο αν p = q. s(p, q) = s(q, p) για κάθε p και q(συμμετρία) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 68
35 Κριτήρια Ομοιότητας Απόσταση Η ομοιότητα μη ομοιότητα μεταξύ δύο αντικειμένων μετριέται συνήθως βάση μιας συνάρτησης απόστασης ανάμεσα στα αντικείμενα Εξαρτάται από το είδος των δεδομένων, δηλαδή από το είδος των γνωρισμάτων τους Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 69 Κριτήρια Ομοιότητας Συναρτήσεις απόστασης (distance functions) Συχνές ιδιότητες:. d(i, j) 0. d(i, i) = 0 (ανακλαστική). d(i, j) = d(j, i) (συμμετρική) 4. d(i, j) d(i, h) + d(h, j) (τριγωνική ανισότητα) Όταν ισχύουν και οι 4, η συνάρτηση απόστασης ονομάζεται και μετρική απόστασης (distance metric) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 70
36 Αποστάσεις Δύο μεγάλες κατηγορίες: Ευκλείδειες (βασισμένες στη θέση των σημείων, αποστάσεις των σημείων στο χώρο, έννοια της μέσης τιμής) Μη Ευκλείδειες (βασισμένες σε άλλες ιδιότητες των σημείων πλην της θέσης τους) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 Ορισμός Απόστασης Έστω δυο μεταβλητές i και j με n γγνωρίσματα x ik και x jk i = (x i, x i,, x in ) and j = (x j, x j,, x jn ) Ο πιο συνηθισμένος τρόπος Ευκλείδεια απόσταση: d( i, j) = ( x x + x x i j i j x x in j n ) Είναι μετρική απόστασης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7
37 Ορισμός Απόστασης Έστω δυο μεταβλητές i και j με n γνωρίσματα x ik και x jk i = (x i, x i,, x in ) and j = (x j, x j,, x jn ) Manhattan ή city block L ( i, j) = x x + x i j i x x j i x j n n Είναι μετρική απόστασης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 Ορισμός Απόστασης Παράδειγμα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 74
38 Ορισμός Απόστασης L -norm: dist(x,y) = (4 + ) = 5 a = (5,5) Παράδειγμα 5 4 b = (9,8) L -norm: dist(x,y) = 4+ = 7 Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 75 Ορισμός Απόστασης Παράδειγμα p p p4 p Πίνακας Δεδομένων point x y p 0 p 0 p p4 5 p p p p4 p p p p Πίνακας Απόστασης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 76
39 Ορισμός Απόστασης Έστω δυο μεταβλητές i και j με n γγνωρίσματα x ik και x jk i = (x i, x i,, x in ) and j = (x j, x j,, x jn ) Minkowski (p-norm): p p p / p L p ( i, j) = x x x x... x x i j i j in jn Είναι μετρική απόστασης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 77 Ορισμός Απόστασης p =. City block (Manhattan, taxicab, L norm). Hamming distance, όταν δυαδικά διανύσματα = αριθμός bits που διαφέρουν p =. Ευκλείδεια απόσταση p. supremum (L max norm, L norm) απόσταση. Η μέγιστη απόσταση μεταξύ οποιουδήποτε γνωρίσματος (διάστασης) των δυο διανυσμάτων το maximum το όριο όταν το p τείνει στο στην L p norm: παίρνοντας την p th των διαφορών, αθροίζοντας και παίρνοντας την n th ρίζα. Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 78
40 Ορισμός Απόστασης Παράδειγμα p p p4 p point x y p 0 p 0 p p4 5 L p p p p4 p p p 4 0 p L p p p p4 p p p p L p p p p4 p 0 5 p 0 p 0 p4 5 0 Πίνακες Απόστασης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 79 Ορισμός Απόστασης Συχνά, Βάρη πχ για Ευκλείδεια απόσταση: d( i, j) = ( w x x + w x x i j i j w n x x in j n ) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 80
41 Μη Ευκλείδειες αποστάσεις Jaccard distance Cosine distance Edit distance Hamming Distance Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8 Ορισμός Απόστασης Δυαδικές Μεταβλητές Συχνάδεδομέναμεμόνοδυαδικάγνωρίσματα(δυαδικά διανύσματα) Συμμετρικές (τιμές 0 και έχουν την ίδια σημασία) Invariant ομοιότητα Μη συμμετρικές (ησυμφωνίαστο πιο σημαντική πχ όταν το σηματοδοτεί την ύπαρξη κάποιας ασθένειας) Non invariant (Jaccard) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8
42 Ορισμός Απόστασης Μεταξύ δύο αντικειμένων i και j με δυαδικά γνωρίσματα M 0 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 0 και το j έχει M 0 = ο αριθμός των γνωρισμάτων που το i έχει τιμή και το j έχει 0 M 00 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 0 και το j έχει 0 M = ο αριθμός των γνωρισμάτων που το i έχει τιμή και το j έχει ΟΜΟΙΟΤΗΤΑ Απλό ταίριασμα συμμετρικές μεταβλητές SMC = αριθμός ταιριασμάτων / αριθμός γνωρισμάτων = (M + M 00 ) / (M 0 + M 0 + M + M 00 ) J = αριθμός ταιριασμάτων / αριθμό μη μηδενικών γνωρισμάτων = (M ) / (M 0 + M 0 + M ) J - Συντελεστής Jaccard Jaccard Coefficient μη συμμετρικές μεταβλητές (διαφορετική σημασία στην τιμή και στην τιμή 0) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8 p = q = Ορισμός Απόστασης Παράδειγμα M 0 = M 0 = M 00 = 7 M = 0 SMC = (M + M 00 )/(M 0 + M 0 + M + M 00 ) = (0+7) / (++0+7) = 0.7 J = (M ) / (M 0 + M 0 + M ) = 0 / ( + + 0) = 0 J = #(p BAND q) / #(p BOR Q) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 84
43 Contigency πίνακας για δυαδικά δεδομένα Ορισμός Απόστασης Αντικείμενο i 0 Αντικείμενο j 0 Μ Μ 0 Μ 0 Μ 00 Μέτρηση απόστασης για συμμετρικές δυαδικές μεταβλητές συμμετρική-ομοιότητα d ( i, j) = Μ 0 + Μ 0 Μ + Μ 0 + Μ 0 + Μ 00 Μέτρηση απόστασης για μη συμμετρικές δυαδικές μεταβλητές d ( i, j ) = Μ 0 + Μ 0 Μ + Μ 0 + Μ 0 Jaccard coefficient Μ sim Jaccard ( i, j ) = Μ + Μ 0 + Μ 0 Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 85 Ορισμός Απόστασης Παράδειγμα τα γνωρίσματα μη συμμετρικά Έστω Y-P να αντιστοιχούν στο και το Ν στο 0 Name Gender Fever Cough Test- Test- Test- Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N d ( d ( d ( 0 + jack, mary ) = = jack, jim ) = = jim, mary ) = = Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 86
44 Ορισμός Απόστασης Κατηγορικές Μεταβλητές χωρίς Διάταξη (nominal) Γενίκευση των δυαδικών μεταβλητών (γνωρισμάτων) όπου μπορούν να πάρουν παραπάνω από τιμές, πχ κόκκινο, πράσινο, κίτρινο η Μέθοδος: Απλό ταίριασμα m: # ταιριάσματα, p: συνολικός # μεταβλητών d ( i, j) = p p m η Μέθοδος: Χρήση πολλών δυαδικών μεταβλητών Μία για κάθε μία από τις μ τιμές Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 87 Jaccard ομοιότητα για Σύνολα Η Jaccard ομοιότητα για δύο σύνολα είναι το μέγεθος της τομής προς το μέγεθος της ένωσης τους Sim (C, C ) = C C / C C. Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 88
45 Παράδειγμα τομή. 8 ένωση. Jaccard ομοιότητα = /8 Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 89 Jaccard ομοιότητα για Σύνολα Δυαδική αναπαράσταση συνόλου ( το στοιχείο υπάρχει, 0 Αλλιώς) p = 0; p = 00. Μέγεθος τομής = ; Μέγεθος ένωσης = 4, ομοιότητα Jaccard (όχι απόσταση) = /4. d(x,y) = (ομοιότητα Jaccard) = /4. Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 90
46 Jaccard ομοιότητα για Σύνολα d(x,x) = 0 γιατί x x = x x. d(x,y) = d(y,x) γιατί η ένωση και η τομή είναι συμμετρικές d(x,y) > 0 γιατί x y < x y. d(x,y) < d(x,z) + d(z,y)?. Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 Ορισμός Απόστασης Ομοιότητα συνημίτονου (cosine similarity) Αν d and d είναι διανύσματα κειμένου cos( d, d ) = (d d ) / d d, όπου εσωτερικό γινόμενο d το μήκος του d. Παράδειγμα: d = d = Θέλουμε μια απόσταση που να αγνοεί τα 0 (όπως η Jaccard) αλλά να δουλεύει και για μη δυαδικά δεδομένα Επίσης, αγνοεί το μήκος των διανυσμάτων d d = * + *0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + * + 0*0 + 0* = 5 d = (*+*+0*0+5*5+0*0+0*0+0*0+*+0*0+0*0) 0.5 = (4) 0.5 = 6.48 d = (*+0*0+0*0+0*0+0*0+0*0+0*0+*+0*0+*) 0.5 = (6) 0.5 =.45 cos( d, d ) =.50 Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9
47 Ορισμός Απόστασης Ομοιότητα συνημίτονου (cosine similarity) Γεωμετρική ερμηνεία Ομοιότητα, όταν η γωνία 0 που σημαίνει ότι τα x και y ίδια (αν εξαιρέσουμε το μήκος τους) Ομοιότητα 0, όταν η γωνία 90 (κανένας κοινός όρος) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 Απόσταση Edit Για δύο συμβολοσειρές (strings) ο ελάχιστος αριθμός εισαγωγών/διαγραφών χαρακτήρων που χρειάζονται για να πάμε από τη μία στην άλλη x = abcde ; y = bcduve. Turn x into y by deleting a, then inserting u and v after d. Edit distance =.. Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 94
48 Παρένθεση Ορισμοί Κλείνει η παρένθεση Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 95 Γενικές Απαιτήσεις Scalability στον αριθμό σημείων και διαστάσεων Να υποστηρίζει διαφορετικούς τύπους δεδομένων Να υποστηρίζει συστάδες με διαφορετικά σχήματα (συνήθως, «σφαίρες») Να είναι εύκολο να δώσουμε τιμές στις παραμέτρους εισόδου (αριθμό συστάδων, μέγεθος κλπ) Να μην εξαρτάται από τη σειρά επεξεργασίας των σημείων εισόδου Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 96
49 Γενικές Απαιτήσεις Δυναμικά μεταβαλλόμενα δεδομένα Αλλαγή συστάδων με το πέρασμα του χρόνου Απόδοση (scaling) Disk resident vs Main memory Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 97 Είδη Συστάδων Καλώς διαχωρισμένες συστάδες Συστάδες βασισμένες σε κέντρο Συνεχής (contiguous) συστάδες Συστάδες Βασισμένες σε πυκνότητα Βασισμένα σε ιδιότητες ή έννοιες Περιγράφονται από μια αντικειμενική συνάρτηση (Objective Function) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 98
50 Αλγόριθμοι Συσταδοποίησης Θα δούμε ανάμεσα σε άλλους τους: K-means και παραλλαγές Ιεραρχική Συσταδοποίηση Συσταδοποίηση με βάση την Πυκνότητα (DBSCAN) BIRCH (δεδομένα στο δίσκο!) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 99 Ιεραρχική Συσταδοποίηση Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 00
51 Ιεραρχική Συσταδοποίηση: Βασικά Παράγει ένα σύνολο από εμφωλευμένες συστάδες οργανωμένες σε ένα ιεραρχικό δέντρο Μπορεί να παρασταθεί με ένα δένδρο γραμμα Ένα διάγραμμα που μοιάζει με δένδρο και καταγράφει τις ακολουθίες από συγχωνεύσεις (merges) και διαχωρισμούς (splits) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0 Ιεραρχική Συσταδοποίηση: Πλεονεκτήματα Δε χρειάζεται να υποθέσουμε ένα συγκεκριμένο αριθμό από συστάδες Οποιοσδήποτε επιθυμητός αριθμός από συστάδες μπορεί να επιτευχθεί κόβοντας το δενδρόγραμμα στο κατάλληλο επίπεδο Μπορεί να αντιστοιχούν σε λογικές ταξινομήσεις Για παράδειγμα στις βιολογικές επιστήμες (ζωικό βασίλειο, phylogeny reconstruction, ) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0
52 Ιεραρχική Συσταδοποίηση Δυο βασικοί τύποι ιεραρχικής συσταδοποίησης Συσσωρευτικός (Agglomerative): Αρχίζει με τα σημεία ως ξεχωριστές συστάδες Σε κάθε βήμα, συγχωνεύει το πιο κοντινό ζευγάρι συστάδων μέχρι να μείνει μόνο μία (ή k) συστάδες Διαιρετικός (Divisive): Αρχίζει με μία συστάδα που περιέχει όλα τα σημεία Σε κάθε βήμα, διαχωρίζει μία συστάδα, έως κάθε συστάδα να περιέχει μόνο ένα σημείο (ή να δημιουργηθούν k συστάδες) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0 Ιεραρχική Συσταδοποίηση Οι παραδοσιακοί αλγόριθμοι χρησιμοποιούν έναν πίνακα ομοιότητα ή απόστασης διαχωρισμός ή συγχώνευση μιας ομάδας τη φορά Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 04
53 Συσσωρευτική Ιεραρχική Συσταδοποίηση (ΣΙΣ) Η πιο δημοφιλής τεχνική συσταδοποίησης Βασικός Αλγόριθμος : Υπολογισμός του Πίνακα Γειτνίασης : Έστω κάθε σημείο αποτελεί και μια συστάδα : Repeat 4: Συγχώνευση των δύο κοντινότερων συστάδων 5: Ενημέρωση του Πίνακα Γειτνίασης 6: Until να μείνει μία μόνο συστάδα Βασική λειτουργία είναι ο υπολογισμός της γειτνίασης δυο συστάδων Διαφορετικοί αλγόριθμοι με βάση το πως ορίζεται η απόσταση ανάμεσα σε δύο συστάδες Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 05 Συσσωρευτική Ιεραρχική Συσταδοποίηση Αρχικά: Κάθε σημείο και συστάδα και ένας Πίνακας Γειτνίασης (proximity matrix) p p p p p p p4 p5... p4 p5... Πίνακας Γειτνίασης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 06
54 Συσσωρευτική Ιεραρχική Συσταδοποίηση Μετά από κάποιες συγχωνεύσεις, έχουμε κάποιες συστάδες C C C C C4 C5 C C C4 C C4 C5 C Πίνακας Γειτνίασης C C5 Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 07 Συσσωρευτική Ιεραρχική Συσταδοποίηση Θέλουμε να συγχωνεύσουμε τις δύο κοντινότερες συστάδες (C και C5) και να ενημερώσουμε τον πίνακα γειτνίασης. C C C C C C4 C5 C C4 C C4 C5 C Πίνακας Γειτνίασης C C5 Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 08
55 Συσσωρευτική Ιεραρχική Συσταδοποίηση Μετά τη συγχώνευση η ερώτηση είναι: Πως ενημερώνουμε τον πίνακα γειτνίασης C C C U C5? C C4 C C C4 C U C5???? C? C4? Πίνακας Γειτνίασης C U C5 Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 09 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων p p p p4 p5... Ομοιότητα? p p MIN MAX Μέσοςόροςτηςσυστάδας Ηαπόστασημεταξύτωνκεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη p p4 p5... Πίνακας Γειτνίασης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0
56 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων p p p p4 p5... p p p MIN MAX Μέσος όρος της ομάδας Ηαπόστασημεταξύτωνκεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη p4 p5... Πίνακας Γειτνίασης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ MIN ή μοναδικής ακμής ή απλού συνδέσμου (single link) Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο πιο όμοια (πιο γειτονικά) σημεία στις διαφορετικές συστάδες (με όρους γραφημάτων shortest edge) Καθορίζεται από ένα ζεύγος τιμών, δηλαδή μια ακμή (link) του γραφήματος γειτνίασης. Ονομάζεται και μέθοδος συσταδοποίησης κοντινότερου γείτονα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
57 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ MIN ή μοναδικής ακμής ή απλού συνδέσμου (single link) Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο πιο όμοια (πιο γειτονικά) σημεία στις διαφορετικές συστάδες (με όρους γραφημάτων shortest edge) Καθορίζεται από ένα ζεύγος τιμών, δηλαδή μια ακμή (link) του γραφήματος γειτνίασης. I I I I4 I5 I,00 0,90 0,0 0,65 0,0 I 0,90,00 0,70 0,60 0,50 I 0,0 0,70,00 0,40 0,0 I4 0,65 0,60 0,40,00 0,80 I5 0,0 0,50 0,0 0,80,00 Προσοχή: ομοιότητα > τα ποιο όμοια 4 5 Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 6 (0.4, 0.5) (0., 0.8) (0.5, 0.) 4 (0.6, 0.9) 5 (0.08, 0.4) 6 (0.45, 0.0) 4 Πίνακας απόστασης (Ευκλείδεια) p p p p4 p5 p6 p p p p p p Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4
58 (0.4, 0.5) (0., 0.8) (0.5, 0.) 4 (0.6, 0.9) 5 (0.08, 0.4) 5 6 (0.45, 0.0) 4 6 Καθορίζεται μόνο από μια ακμή την μικρότερη p p p p4 p5 p6 p p p p p p Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 (0.4, 0.5) (0., 0.8) (0.5, 0.) 4 (0.6, 0.9) 5 (0.08, 0.4) 5 6 (0.45, 0.0) 6 4 p p p p4 p5 p6 p p p p p p Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6
59 (0.4, 0.5) (0., 0.8) (0.5, 0.) 4 (0.6, 0.9) 5 (0.08, 0.4) (0.45, 0.0) Αρκεί να «δω» μια ακμή 4 p p p p4 p5 p6 p p p p p p Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ Δεντρόγραμμα Φωλιασμένες Συστάδες Το δεντρόγραμμα (y-άξονας) δίνει και τις αποστάσεις Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8
60 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ Προτερήματα Αρχικά σημεία Δύο συστάδες Contiguity based (συνεχόμενες συστάδες) Μπορεί να χειριστεί μη ελλειπτικά (non elliptical) σχήματα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ Μειονεκτήματα Αρχικά σημεία Δύο συστάδες Ευαίσθητοσεθόρυβοκαιoutliers Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0
61 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων p p p p4 p5... p p p p4 MIN MAX Μέσος όρος της ομάδας Ηαπόστασημεταξύτωνκεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη p5... Πίνακας Γειτνίασης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
62 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: MAX MΑΧ ή πλήρους συνδεσιμότητας (complete linkage) Αναζητάκλίκες Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο λιγότερο όμοια (πιο μακρινά) σημεία στις διαφορετικές συστάδες (longest edge) δηλαδή, οι συστάδες με την μικρότερη τέτοια απόσταση Καθορίζεται από όλα τα ζεύγη τιμών στις δύο συστάδες. I I I I4 I5 I I I I I ομοιότητα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 6 (0.4, 0.5) (0., 0.8) (0.5, 0.) 4 (0.6, 0.9) 5 (0.08, 0.4) 6 (0.45, 0.0) 4 p p p p4 p5 p6 p p p p p p Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4
63 5 6 (0.4, 0.5) (0., 0.8) (0.5, 0.) 4 (0.6, 0.9) 5 (0.08, 0.4) 6 (0.45, 0.0) 4 p p p p4 p5 p6 p p p p p p Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι (0.4, 0.5) (0., 0.8) (0.5, 0.) 4 (0.6, 0.9) 5 (0.08, 0.4) 6 (0.45, 0.0) 4 p p p p4 p5 p6 p p p p p p Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6
64 (0.4, 0.5) (0., 0.8) (0.5, 0.) 4 (0.6, 0.9) 5 (0.08, 0.4) 5 6 (0.45, 0.0) 6 4 p p p p4 p5 p6 p p p p p p Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: MAX Φωλιασμένες Συστάδες Δεντρόγραμμα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8
65 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: MAX Πλεονεκτήματα Αρχικά Σημεία Δύο Συστάδες λιγότερη εξάρτηση σε θόρυβο και outliers Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: MAX Μειονεκτήματα Αρχικά σημεία Δύο συστάδες Τείνει να διασπά μεγάλες συστάδες Οδηγεί συνήθως σε κυκλικά σχήματα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 0
66 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: MAX MIN MAX Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: MAX MIN MAX Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
67 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων p p p p4 p5... p p p p4 MIN MAX Μέσοςόροςτηςομάδας(group average) Ηαπόστασημεταξύτωνκεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη p5... Πίνακας Γειτνίασης Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: Μέσο Ομάδας Κοντινότητα δύο συστάδων είναι η μέση τιμή της ανα δύο κοντινότητας (average of pairwise proximity) μεταξύ των σημείων των δύο συστάδων. pi Clusteri p Cluster j j proximity(clusteri,clusterj) = Cluster Cluster Χρήση μέσης γιατί η ολική θα έδινε προτίμηση στις μεγάλες συστάδες ομοιότητα proximity(p,p ) I I I I4 I5 I I I I I i i j j Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4
68 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: Μέσο Ομάδας Φωλιασμένες Συστάδες Dendrogram Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 5 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: Μέσο Ομάδας Ανάμεσα σε MIN MAX Πλεονεκτήματα: μικρότερη ευαισθησία σε θόρυβο και outliers Μειονεκτήματα: Ευνοεί κυκλικές συστάδες Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 6
69 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων p p p p p4 p5... p p p4 MIN MAX Μέσος όρος της ομάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη p5.. Πίνακας Γειτνίασης. Πρόβλημα: μη μονότονη αύξηση της απόστασης Δηλαδή, δυο συστάδες που συγχωνεύονται μπορεί να έχουν μικρότερη απόσταση από συστάδες που έχουν συγχωνευτεί σε προηγούμενα βήματα Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 7 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: Μέθοδος του Ward Βασισμένο στην αύξηση του SSE όταν συγχωνεύονται οι δύο συστάδες Ιεραρχικό ανάλογο του k means Μπορεί να χρησιμοποιηθεί για την αρχικοποίηση του k means D w ( Ci, Cj ) = ( x ri ) + ( x rj ) ( x rij ) x C i x C j x C ij Ward s distance μεταξύ συστάδων C i and C j είναι η διαφορά μεταξύ της ολικού λάθους των δύο συστάδων και του ολκού λάθους αν ενώσουμε τις συστάδες σε μία συστάδα έστω C ij r i : centroid of C i r j : centroid of C j r ij : centroid of C ij Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 8
70 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: Σύγκριση MIN MAX Μέθοδος του Ward 5 5 Μέσο Ομάδας Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 9 ΣΙΣ: Πολυπλοκότητα Χρόνου και Χώρου O(m ) χώρος για την αποθήκευση του πίνακα γειτνίασης m αριθμός σημείων. O(m ) Ξεκινάμε με m συστάδες και μειώνουμε τη φορά Αν γραμμική αναζήτηση του πίνακα Ο(m ) Καλύτερος χρόνος αν διατηρούμε κάποια ταξινόμηση των αποστάσεων πχ heap Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 40
71 ΣΙΣ: Περιορισμοί και Προβλήματα Οι αποφάσεις είναι τελικές αφού δυο συστάδες συγχωνευτούν αυτό δεν μπορεί να αλλάξει Δεν ελαχιστοποιούν άμεσα κάποια αντικειμενική συνάρτηση Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4 ΣΙΣ Μια διαιρετική παραλλαγή του MIN βασίζεται σε spanning tree (σκελετικά δέντρα). Χρησιμοποίησε τον πίνακα απόστασης και κατασκεύασε ένα ελάχιστο σκελετικό δέντρο. Δημιούργησε μια νέα συστάδα «σπάζοντας» το δέντρο στην ακμή με τη μεγαλύτερη απόσταση (μικρότερη ομοιότητα) Εξόρυξη Δεδομένων: Ακ. Έτος 00-0 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι 4
ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση
Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση
Συσταδοποίηση I Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 6 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα
P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,
Συσταδοποίηση Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;
Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση
Ομαδοποίηση ΙΙ (Clustering)
Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση
Ομαδοποίηση Ι (Clustering)
Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων
Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία
Συσταδοποίηση/ Ομαδοποίηση
Συσταδοποίηση/ Ομαδοποίηση Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar 1 Τι είναι η ανάλυση ομάδων/ομαδοποίηση (Συσταδοποίηση)? Εύρεση συνόλων από αντικείμενα έτσι
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
ΟΜΑΔΕΣ. Δημιουργία Ομάδων
Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο
Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι
Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση
Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση
Συσταδοποίηση II Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Εξόρυξη Δεδομένων: Ακ. Έτος 008-009 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH
Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία
ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση
ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ
ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων
Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας
Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.
Ανάλυση κατά Συστάδες. Cluster analysis
Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης
Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ιπλωµατική Εργασία «Μετάδοση πληροφορίας σε ασύρµατο δίκτυο αισθητήρων µε οµαδοποιηµένους κόµβους και µε χρήση διευθύνσεων
Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity
Συσταδοποίηση IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 ιαχείριση Ποιότητας Cluster validity Εξόρυξη Δεδομένων: Ακ. Έτος 006-007
Γνωρίζοντας τα δεδομένα σας
1 Γνωρίζοντας τα δεδομένα σας 2 Ενότητα 2. Γνωρίζοντας τα δεδομένα σας Αντικείμενα δεδομένων και τύποι χαρακτηριστικών Βασικές στατιστικές περιγραφές δεδομένων Οπτικοποίηση δεδομένων Μέτρηση ομοιότητας
Ζητήματα ηήμ με τα δεδομένα
Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών
Συμπίεση Δεδομένων
Συμπίεση Δεδομένων 2014-2015 Κβάντιση Δρ. Ν. Π. Σγούρος 2 Άσκηση 5.1 Για ένα σήμα που έχει τη σ.π.π. του σχήματος να υπολογίσετε: μήκος του δυαδικού κώδικα για Ν επίπεδα κβάντισης για σταθερό μήκος λέξης;
Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων
Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος
ΟΜΟΙΟΤΗΤΑ ΒΙΟΚΟΙΝΟΤΗΤΩΝ
ΟΜΟΙΟΤΗΤΑ ΒΙΟΚΟΙΝΟΤΗΤΩΝ Είναι δυνατόν δύο βιοκοινότητες να έχουν τον ίδιο (ή σχεδόν τον ίδιο) δείκτη ποικιλότητας ειδών αν και τα είδη που συνθέτουν τη μία βιοκοινότητα να είναι -σε μεγάλο βαθμό ή και
Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD
Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων
ιαµέριση - Partitioning
ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ << ΧΡΗΣΗ ΥΒΡΙΔΙΚΩΝ ΕΞΕΛΙΚΤΙΚΩΝ ΑΛΓΟΡΙΘΜΩΝ ΣΕ ON LINE ΠΡΟΒΛΗΜΑΤΑ ΟΜΑΔΟΠΟΙΗΣΗΣ >>
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ > ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ > ΔΑΝΕΛΑΤΟΣ
MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3
(ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,
«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»
Τ.Ε.Ι. ΚΑΒΑΛΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ» Της σπουδάστριας ΚΑΤΣΑΡΟΥ ΧΑΡΙΚΛΕΙΑΣ Επιβλέπων Δρ. ΓΕΡΟΝΤΙΔΗΣ
ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΜΕ ΣΚΟΠΟ ΤΗΝ ΤΙΜΟΛΟΓΗΣΗ
Σ ε λ ί δ α 0 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΜΕ ΣΚΟΠΟ ΤΗΝ ΤΙΜΟΛΟΓΗΣΗ Διπλωματική
ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ
ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται
ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ
ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436 A εξάμηνο 2009-2010 Περιγραφική Στατιστική Ι users.att.sch.gr/abouras abouras@sch.gr sch.gr abouras@uth.gr Μέτρα θέσης Η θέση αντιπροσωπεύει τη θέση της κατανομής κατά
Κεφάλαιο 6: Συσταδοποίηση
Κεφάλαιο 6: Συσταδοποίηση Σύνοψη Ο βασικός στόχος αυτού του κεφαλαίου είναι η εξοικείωση με θέματα που αφορούν την τρίτη σημαντική εργασία της εξόρυξης δεδομένων, δηλαδή την ανάλυση των συστάδων. Πιο συγκεκριμένα,
Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή
Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο
Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων
Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη
Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης
Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη
Δείκτες Κεντρικής Τάσης και Διασποράς Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη Εμπειρικές Στατιστικές Κατανομές Τα προβλήματα που γεννιούνται κατά την σύγκριση
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Χωρικά φίλτρα Χωρικά φίλτρα Γενικά Σε αντίθεση με τις σημειακές πράξεις και μετασχηματισμούς, στα
ΜΕΘΟΔΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΟΥ ΠΛΗΘΟΥΣ ΟΜΑΔΩΝ ΓΙΑ ΠΟΛΥΔΙΑΣΤΑΤΑ ΔΕΔΟΜΕΝΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΜΕΘΟΔΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΟΥ ΠΛΗΘΟΥΣ ΟΜΑΔΩΝ ΓΙΑ ΠΟΛΥΔΙΑΣΤΑΤΑ ΔΕΔΟΜΕΝΑ Φανή Ζαφειροπούλου
10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ
ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ 1 2 3 1 ΚΑΤΗΓΟΡΊΕΣ ΤΑΞΙΝΌΜΗΣΗΣ Κατευθυνόμενη ταξινόμηση (supervised classification) Μη-κατευθυνόμενη ταξινόμηση (unsupervised classification) Γραμμική: Μη-Γραμμική: Ιεραρχική: Επιμεριστική:
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη
Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις
ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams
ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς
Αναγνώριση Προτύπων Ι
Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες
Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2016-17 Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) http://mixstef.github.io/courses/csintro/ Μ.Στεφανιδάκης Αφηρημένες
Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η
Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη, 2013-2014 Εμπειρικές Στατιστικές Κατανομές Τα προβλήματα που
Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το
Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων
ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Εφαρμοσμένη Πολυμεταβλητή Ανάλυση : Ανάλυση κατά συστάδες 1. Εισαγωγή Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων Η ομαδοποίηση δεδομένων
ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική
ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana
Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων
Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας Παππάς Χρήστος Ιωάννινα, Ιανουάριος 2010 Διάρθρωση Εισαγωγή Πρόβλημα Σημαντικότητα Ενδιαφέροντα θέματα Τεχνικό
Αποθήκες εδομένων και Εξόρυξη εδομένων:
Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA Μαρκαντωνάτου Μαρία Α.Μ.: 379 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Δρ. Τσιμπίρης
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης
Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές
ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ
Απλοί Ταξινομητές Δύο προσεγγίσεις για το σχεδιασμό ενός ταξινομητή. 1. Θεωρητική: Αρχικά, δημιουργείται μαθηματικό μοντέλο του προβλήματος, μετά, βάση του μοντέλου, σχεδιάζεται βέλτιστος ταξινομητής.
Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά
Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων
Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική
Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR
Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα
Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη Εσωτερική Μνήμη Κρυφή Μνήμη (Cache) μεγαλύτερη χωρητικότητα Καταχωρητές (Registers) Κεντρική Μονάδα (CPU) μεγαλύτερη ταχύτητα Πολλές σημαντικές εφαρμογές διαχειρίζονται
ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων
ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς
Περιεχόμενα. Περιεχόμενα
Περιεχόμενα xv Περιεχόμενα 1 Αρχές της Java... 1 1.1 Προκαταρκτικά: Κλάσεις, Τύποι και Αντικείμενα... 2 1.1.1 Βασικοί Τύποι... 5 1.1.2 Αντικείμενα... 7 1.1.3 Τύποι Enum... 14 1.2 Μέθοδοι... 15 1.3 Εκφράσεις...
Ανάλυση αλγορίθμων. Χρόνος εκτέλεσης: Αναμενόμενη περίπτωση. - απαιτεί γνώση της κατανομής εισόδου
Ανάλυση αλγορίθμων Παράμετροι απόδοσης ενός αλγόριθμου: Χρόνος εκτέλεσης Απαιτούμενοι πόροι, π.χ. μνήμη, επικοινωνία (π.χ. σε κατανεμημένα συστήματα) Προσπάθεια υλοποίησης Ανάλυση της απόδοσης Θεωρητική
για NP-Δύσκολα Προβλήματα
Προσεγγιστικοί Αλγόριθμοι για NP-Δύσκολα Προβλήματα Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο
Σχεδίαση και Ανάλυση Αλγορίθμων
Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4.0 Επιλογή Αλγόριθμοι Επιλογής Select και Quick-Select Σταύρος Δ. Νικολόπουλος 2016-17 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros
BIRCH: : An Efficient Data Clustering Method for Very Large Databases
BIRCH: : An Efficient Data Clustering Method for Very Large Databases Tian Zhang Raghu Ramakrishnan Miron Livny Παρουσίαση: Μαρία Καθηγητής: Μιχάλης Μάθημα: Θέματα Μαρία Δήμα Μιχάλης Χατζόπουλος Θέματα
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436 Χειμερινό εξάμηνο 2009-2010 Περιγραφική Στατιστική Ι users.att.sch.gr/abouras abouras@sch.gr sch.gr abouras@uth.gr ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Χειμερινό Εξάμηνο 2009-2010 Μέτρα
Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.
Τεχνητή Νοημοσύνη 5η διάλεξη (2017-18) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας
Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή
Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για
ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΘΕΜΑ
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΘΕΜΑ «Ανάπτυξη γραφικού περιβάλλοντος σε Matlab για συσταδοποίηση δεδομένων μέσω των ιεραρχικών αλγορίθμων
Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»
Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης
Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής
Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής Διπλωματική Εργασία: Ομαδοποίηση γράφων με τους αλγόριθμους k-means και DBSCAN. Σπουδαστής: Νικηφοράκης
Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων
Κ Σ Ι Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων Παναγιώτα Παναγοπούλου Άσκηση 1. Υποθέστε ότι οι διεργασίες ενός σύγχρονου κατανεμημένου συστήματος έχουν μοναδικές ταυτότητες (UIDs), γνωρίζουν ότι είναι συνδεδεμένες
Αλγόριθμος Ομαδοποίησης
Αλγόριθμος Ομαδοποίησης Εμπειρίες από τη μελέτη αναλλοίωτων χαρακτηριστικών και ταξινομητών για συστήματα OCR Μορφονιός Κωνσταντίνος Αθήνα, Ιανουάριος 2002 Γενικά Ένα σύστημα OCR χρησιμοποιείται για την
Κεφ.11: Ευρετήρια και Κατακερματισμός
Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση
Αναγνώριση Προτύπων Ι
Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται
Επεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική
Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο
Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών
Τμήμα Μηχανικών Η/Υ και Πληροφορικής
Τμήμα Μηχανικών Η/Υ και Πληροφορικής Εργαστήριο Επεξεργασίας Σημάτων και Τηλεπικοινωνιών Ασύρματες και Κινητές Επικοινωνίες Κωδικοποίηση καναλιού Τι θα δούμε στο μάθημα Σύντομη εισαγωγή Γραμμικοί κώδικες
Κατανεμημένα Συστήματα Ι
Συναίνεση χωρίς την παρουσία σφαλμάτων Κατανεμημένα Συστήματα Ι 4η Διάλεξη 27 Οκτωβρίου 2016 Παναγιώτα Παναγοπούλου Κατανεμημένα Συστήματα Ι 4η Διάλεξη 1 Συναίνεση χωρίς την παρουσία σφαλμάτων Προηγούμενη
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2 Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017 Αντικειμενικοί στόχοι Η μελέτη των βασικών στοιχείων που συνθέτουν ένα πρόβλημα βελτιστοποίησης
Διάλεξη 1 - Σημειώσεις 1
Διάλεξη 1 - Σημειώσεις 1 Σύνολα Πως διαβάζουμε κάποιους συμβολισμούς: ανήκει και η άρνηση, δηλαδή δεν ανήκει υπάρχει για κάθε : τέτοιο ώστε. Επίσης το σύμβολο έχει την ερμηνεία «τέτοιο ώστε» και ή υπονοεί