Συσταδοποίηση/ Ομαδοποίηση

Save this PDF as:
 WORD  PNG  TXT  JPG

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Συσταδοποίηση/ Ομαδοποίηση"

Transcript

1 Συσταδοποίηση/ Ομαδοποίηση Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar 1

2 Τι είναι η ανάλυση ομάδων/ομαδοποίηση (Συσταδοποίηση)? Εύρεση συνόλων από αντικείμενα έτσι ώστε τα αντικείμενα ενός συνόλου να είναι περισσότερο όμοια (ή να σχετίζονται) μεταξύ τους και διαφορετικά (να μην σχετίζονται) με τα αντικείμενα των άλλων συνόλων. Οι αποστάσεις εντός της ομάδας ελαχιστοποιούνται Intra-cluster Οι αποστάσεις μεταξύ των ομάδων μεγιστοποιούνται Inter-cluster

3 Εφαρμογές της ομαδοποίησης / συσταδοποίησης Κατανόηση Ομαδοποίηση/ Συσταδοποίηση σχετικών σελίδων για «φυλλομέτρηση», γονιδίων και πρωτεϊνών που έχουν παρόμοια λειτουργικότητα, ή μετοχών με παρόμοιες διακυμάνσεις Σύνοψη (Summarization) Μείωση του όγκου μεγάλων συνόλων δεδομένων Ομαδοποίηση/ συσταδοποίηση βροχοπτώσεων Discovered Clusters Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Συσταδοποίηση επιπέδου βροχής (precipitation) στην Αυστραλία! Industry Group Technology1-DOWN Technology-DOWN Financial-DOWN Oil-UP 3

4 Εφαρμογές της ομαδοποίησης / συσταδοποίησης Ομαδοποίηση/ συσταδοποίηση γονιδίων και πρωτεϊνών που έχουν την ίδια λειτουργία, χαρακτηριστικά ασθενειών μετοχών με παρόμοια διακύμανση τιμών, Ομαδοποίηση/ συσταδοποίηση weblog για εύρεση παρόμοιων προτύπων προσπέλασης, Ομαδοποίηση/ συσταδοποίηση σχετιζόμενων αρχείων για browsing, ομαδοποίηση/ συσταδοποίηση κειμένων κλπ πελάτες με παρόμοια συμπεριφορά

5 Τι ΔΕΝ είναι Συσταδοποίηση / ομαδοποίηση Ταξινόμηση με επίβλεψη (Supervised classification) Διαθέτουμε πληροφορία για την τάξη Απλός διαμερισμός (Simple segmentation) Διαχωρισμός των φοιτητών σε ομάδες αλφαβητικά Αποτελέσματα μίας ερώτησης σε βάση δεδομένων Η συσταδοποίηση/ ομαδοποίηση είναι το αποτέλεσμα ενός «εξωτερικού» προσδιορισμού Διαμέριση Γράφου (Graph partitioning) Υπάρχουν κάποια κοινά σημεία αλλά οι περιοχές δεν ταυτίζονται 5

6 Πότε μια συσταδοποίηση είναι καλή; Μια μέθοδος συσταδοποίησης είναι καλή αν παράγει συστάδες καλής ποιότητας Μεγάλη ομοιότητα εντός της συστάδας και Μικρή ομοιότητα ανάμεσα στις συστάδες Η ποιότητα εξαρτάται από τη Μέτρηση ομοιότητας και Μέθοδο υλοποίησης της συσταδοποίησης

7 Η έννοια της ομάδας/ συστάδας μπορεί να είναι «διφορούμενη» Πόσες συστάδες / ομάδες; Έξι; Δύο; Τέσσερις; 7

8 Γενικές Απαιτήσεις Αντιμετώπιση θορύβου και outliers συστάδα outliers Outlier (ακραίο σημείο) τιμές που είναι εξαιρέσεις ως προς τα συνηθισμένες ή αναμενόμενες τιμές

9 Τύποι ομαδοποίησης / συσταδοποίησης Η συσταδοποίηση/ομαδοποίηση είναι η δημιουργία ενός συνόλου από συστάδες / ομάδες Ιεραρχική vs διαμεριστική συσταδοποίηση/ ομαδοποίηση Διαμεριστική Συσταδοποίηση / Ομαδοποίηση (Partitional Clustering) Διαχωρισμός των αντικειμένων σε μη επικαλυπτόμενα (non overlaping) υποσύνολα (ομάδες) έτσι ώστε ένα αντικείμενο ανήκει αποκλειστικά σε ένα μόνο υποσύνολα Ιεραρχική Συσταδοποίηση /Ομαδοποίηση (Hierarchical clustering) Ένα εάν σύνολα από εμφωλισμένες (nested) συστάδες/ομάδες οργανώνονται σαν ένα ιεραρχικό δέντρο. Μια συστάδα / ομάδα επιτρέπεται να έχει υποσυστάδες/ υποομάδες οργανωμένες σε ιεραρχικό δέντρο. 9

10 Διαμεριστική Συσταδοποίηση/Ομαδοποίηση (Partitional Clustering) Αρχικά σημεία Μία διαμεριστική ομαδοποίηση 10

11 Ιεραρχική συσταδοποίηση/ ομαδοποίηση (Hierarchical Clustering) p1 p3 p4 p p1 p p3 p4 Δενδρογράμματα (Dendrogram) Φύλλα: απλά σημεία ή απλές συστάδες p1 p p3 p4 p1 p p3 p4 Ως ακολουθία διαχωριστικών Να «κόψουμε» δέντρο 11 το

12 Διαχωριστική vs Ιεραρχική Συσταδοποίηση p1 p3 p4 Διαχωριστική Συσταδοποίηση p p1 p3 p4 p Ιεραρχική Συσταδοποίηση p1 p p3 p4 Δένδρο-γράμμα (Dendrogram) 1

13 Άλλες διαφορές μεταξύ συσταδοποιήσεων/ομαδοποιήσεων Αποκλειστικές μη αποκλειστικές Σε μη αποκλειστικές συσταδοποιήσεις/ ομαδοποιήσεις τα αντικείμενα μπορούν να ανήκουν σε περισσότερες από μία ομάδες Μπορεί να αντιπροσωπεύουν πολλαπλές κατηγορίες ή «οριακά» (border) σημεία Ασαφή μη ασαφής ομαδοποίηση (Fuzzy versus non-fuzzy) Στην ασαφή συσταδοποίηση/ομαδοποίηση, ένα σημείο ανήκει σε κάθε συστάδα/ομάδα με κάποιο βαθμό συμμετοχής μεταξύ 0 και 1 Οι βαθμοί συμμετοχής (συνήθως) πρέπει να αθροίζονται στη μονάδα Η πιθανοτική (Probabilistic) συσταδοποίηση/ομαδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - ολική Σε μερικές περιπτώσεις θέλουμε να ομαδοποιήσουμε/ συσταδοποιήσουμε μόνο κάποια από τα δεδομένα Ετερογενή Ομογενή (Heterogeneous versus homogeneous) Ομαδοποίηση από διαφορετικά μεγέθη, σχήματα και πυκνότητα 13

14 Τύποι συστάδων/ ομάδων Συστάδες/Ομάδες που είναι καλά διαχωρίσιμες (Well-separated clusters) Συστάδες/Ομάδες που βασίζονται σε κεντρικά πρότυπα (Center-based clusters) Γειτνιάζουσες/συνεχείς Συστάδες/ομάδες (Contiguous clusters) Συστάδες/Ομάδες βασιζόμενες στην πυκνότητα (Density-based clusters) Με βάση την ύπαρξη μια αντικειμενικής συνάρτησης (συνάρτηση κόστους/καταλληλότητας) (Described by an Objective Function) 14

15 Αλγόριθμοι Συσταδοποίησης Θα δούμε ανάμεσα σε άλλους τους: K-means και παραλλαγές Ιεραρχική Συσταδοποίηση Συσταδοποίηση με βάση την Πυκνότητα (DBSCAN)

16 Γενικές Απαιτήσεις Scalability στον αριθμό σημείων και διαστάσεων Να υποστηρίζει διαφορετικούς τύπους δεδομένων Να υποστηρίζει συστάδες με διαφορετικά σχήματα (συνήθως, «σφαίρες») Να είναι εύκολο να δώσουμε τιμές στις παραμέτρους εισόδου (αριθμό συστάδων, μέγεθος κλπ) Να μην εξαρτάται από τη σειρά επεξεργασίας των σημείων εισόδου Δυναμικά μεταβαλλόμενα δεδομένα Αλλαγή συστάδων με το πέρασμα του χρόνου

17 Καλά διαχωρίσιμες (Well-Separated) Καλά διαχωρίσιμες συστάδες/ομάδες: Μία συστάδα/ομάδα είναι ένα σύνολο από σημεία τέτοια ώστε ένα σημείο της να είναι πιο «κοντά» σε κάθε σημείο της από ότι σε ένα σημείο που δεν ανήκει στην συστάδαομάδα 3 καλά διαχωρίσιμες ομάδες Συχνά υπάρχει η έννοια του κατωφλιού (threshold) Όχι απαραίτητα κυκλικοί (οποιοδήποτε σχήμα) 17

18 Βασιζόμενα στην έννοια ενός κεντρικού σημείου Center-Based Βασισμένα στην έννοια του κέντρου Μία συστάδα/ομάδα είναι ένα σύνολο από αντικείμενα τέτοια ώστε ένα αντικείμενο της συστάδας/ομάδας είναι πιο «κοντά» στο «κέντρο» της συστάδας/ομάδας από ότι είναι από το κέντρο μίας άλλης Το κέντρο μιας συστάδας/ομάδας είναι συνήθως το κέντρο βάρους (centroid), η μέση τιμή όλων των σημείων που ανήκουν στην ομάδα, ή το medoid, το πιο «αντιπροσωπευτικό» σημείο μίας ομάδας (πχ όταν κατηγορικά γνωρίσματα) 4 center-based clusters 18

19 Γειτνιάζουσες/Εφαπτόμενες / συνεχείς Contiguity-Based Ομάδες / Συστάδες Γειτνιάζουσες/Εφαπτόμενες συστάδες/ομάδες (Κοντινότερος γείτονας ή μεταβατικά σημεία) (Nearest neighbor or Transitive) Μία ομάδα είναι ένα σύνολο σημείων έτσι ώστε ένα σημείο της ομάδας να είναι πιο «κοντά» σε ένα ή περισσότερα σημεία της ομάδας από οποιοδήποτε σημείο που δεν ανήκει στην ομάδα 8 γειτνιάζουσες/συνεχείς ομάδες /συστάδεις (contiguous clusters) Παρατηρούνται σε περιπτώσεις ομάδων /συστάδων με μη κανονικό σχήμα ή με αλληλοπλεκόμενα σχήματα ή όταν έχουμε γραφήματα και θέλουμε να βρούμε συνεκτικά υπογραφήματα Πρόβλημα με θόρυβο 19

20 Ομάδες / Συστάδες με βάση την Πυκνότητα (Density-Based) Με βάση την πυκνότητα (Density-based) Μία ομάδα είναι μία «πυκνή» περιοχή σημείων που διαχωρίζεται από περιοχές χαμηλής πυκνότητας από άλλες περιοχές υψηλής πυκνότητας. Χρησιμοποιείται όταν οι ομάδες είναι ακανόνιστες και «συμπλέκονται», και όταν υπάρχουν ακραίες τιμές και θόρυβος 6 ομάδες/ συστάδεις βασισμένες στην πυκνότητα (density-based clusters) 0

21 Εννοιολογικές συστάδες/ομάδες: Conceptual Clusters Κοινή ιδιότητα ή εννοιολογικές ομάδες Βρίσκει ομάδες οι οποίες μοιράζονται μία κοινή ιδιότητα ή αντιπροσωπεύουν μια συγκεκριμένη έννοια.. Αλληλοκαλυπτόμενοι κύκλοι (Overlapping Circles) 1

22 Ομάδες / Συστάδες βασισμένες σε αντικειμενική συνάρτηση: Objective Function Ομάδες ορισμένες με βάση αντικειμενική συνάρτηση Βρίσκει ομάδες οι οποίες ελαχιστοποιούν ή μεγιστοποιούν μία αντικειμενική συνάρτηση. Απαρίθμηση όλων των δυνατών τρόπων που μπορούν να χωριστούν τα σημεία σε ομάδες και εκτίμηση του πόσο καλή (`goodness ) είναι κάθε προτεινόμενη λύση χρησιμοποιώντας μία αντικειμενική συνάρτηση. (NP Hard) Μπορεί να έχει τοπικούς ή ολικούς αντικειμενικούς στόχους. Ιεραρχικές ομαδοποιήσεις έχουν κυρίως τοπικούς στόχους Διαμεριστικοί αλγόριθμοι έχουν συνήθως ολικούς Μία παραλλαγή της προσέγγισης της ολικής αντικειμενικής συνάρτησης είναι η προσαρμογή των δεδομένων σε ένα παραμετροποιημένο μοντέλο (parameterized model). Οι παράμετροι του μοντέλου καθορίζονται από τα δεδομένα. Μοντέλα μίξης υποθέτουν ότι τα δεδομένα προέρχονται από τι μίξη ( mixture ) στατιστικών κατανομών (statistical distributions).

23 Ο τύπος των δεδομένων είναι σημαντικός Το είδος μέτρησης της εγγύτητας ή της πυκνότητας Αυτή είναι μια παραγομένη μέτρηση αλλά είναι σημαντική για την ομαδοποίηση «αραιή» κατανομή δεδομένων (Sparseness) Τύπος χαρακτηριστικών Καθορίζει τον τύπο της ομοιότητας Διάσταση (Dimensionality) Θόρυβος και ακραίες τιμές (Noise and Outliers) Τύπος κατανομών (Type of Distribution) 3

24 Αλγόριθμοι Ομαδοποίησης (Clustering Algorithms) Κ-μέσων και οι παραλλαγές του (Kmeans) Ιεραρχική συσταδοποίηση/ ομαδοποίηση (Hierarchical clustering) Αλγόριθμοι με βάση την πυκνότητα (Density-based clustering) 4

25 K-means Διαμεριστική προσέγγιση Κάθε ομάδα συσχετίζεται με ένα βαρύκεντρο (centroid) (κεντρικό σημείο -center point) Κάθε σημείο καταχωρείται στην συστάδα/ομάδα με το πιο κοντινό centroid Ο αριθμός των ομάδων, K, πρέπει να καθοριστεί/ αποτελεί είσοδο στον αλγόριθμο Ο βασικός αλγόριθμος είναι απλός: 1: Επιλογή Κ σημείων ως τα αρχικά κεντρικά σημεία : Repeat 3: Ανάθεση όλων των αρχικών σημείων στο κοντινότερο τους από τα K κεντρικά σημεία 4: Επανα-υπολογισμός του κεντρικού σημείου κάθε συστάδας 5: Until τα κεντρικά σημεία να μην αλλάζουν 5

26 K-means: Βασικός Αλγόριθμος Παράδειγμα Έστω k =, και αρχικά επιλέγουμε το 3 και το 4

27 K-means: Βασικός Αλγόριθμος Παρατηρήσεις 1. Τα αρχικά κεντρικά σημεία συνήθως επιλέγονται τυχαία Οι συστάδες που παράγονται διαφέρουν από το ένα τρέξιμο του αλγορίθμου στο άλλο. Η εγγύτητα των σημείων υπολογίζεται με βάση κάποια απόσταση που εξαρτάται από το είδος των σημείων, στα παραδείγματα θα θεωρήσουμε την Ευκλείδεια απόσταση Επειδή η απόσταση υπολογίζεται συχνά o υπολογισμός της πρέπει να είναι σχετικά απλός 3. Το κεντρικό σημείο είναι (συνήθως) το μέσο (mean) των σημείων της συστάδας (το οποίο μπορεί να μην είναι ένα από τα δεδομένα εισόδου)

28 K-means Λεπτομέρειες Τα αρχικά κέντρα συχνά επιλέγονται τυχαία. Οι ομάδες που παράγονται μπορεί να διαφέρουν. Το κέντρο είναι συνήθως το μέσο των σημείων της ομάδας. Η εγγύτητα ( closeness ) συνήθως μετράται με την ευκλείδεια απόσταση, την ομοιότητα συνημίτονου (cosine similarity), τη συσχέτιση κτλ. Ο K-means θα συγκλίνει για τα πιο πάνω μέτρα ομοιότητας. Η μεγαλύτερη σύγκλιση επιτυγχάνεται στις πρώτες (λίγες) επαναλήψεις. Συνήθως η συνθήκη τερματισμού αντί για «μέχρι κανένα σημείο να μην αλλάζει ομάδα» σε «μέχρι πολύ λίγα σημεία να αλλάζουν ομάδες» Η πολυπλοκότητα (Complexity) είναι O( n * K * I * d ) n = αριθμός των σημείων, K = αριθμός των συστάδων/ομάδων, I = αριθμός επαναλήψεων, d = αριθμός χαρακτηριστικών 8

29 Αρχική κατάσταση, Κ = 3 συστάδες Αρχικά σημεία k 1, k, k 3 K-means: Βασικός Αλγόριθμος 9

30 K-means: Βασικός Αλγόριθμος Τα σημεία ανατίθενται στο πιο γειτονικό από τα 3 αρχικά σημεία 30

31 K-means: Βασικός Αλγόριθμος Επανα-υπολογισμός του κέντρου (κέντρου βάρους) κάθε σημείου 31

32 Νέα ανάθεση των σημείων Νέα κέντρα βάρους K-means: Βασικός Αλγόριθμος 3

33 K-means: Βασικός Αλγόριθμος Δεν αλλάζει τίποτα -> ΤΕΛΟΣ 33

34 K-means: Βασικός Αλγόριθμος Παρατηρήσεις Χώρος: αποθηκεύουμε μόνα τα κέντρα Η πολυπλοκότητα είναι O(I * n * K * d) n = αριθμός σημείων, K = αριθμός συστάδων, I = αριθμός επαναλήψεων, d = αριθμός γνωρισμάτων (διάσταση) 34

35 K-means: Βασικός Αλγόριθμος Παρατηρήσεις Για συνηθισμένα μέτρα ομοιότητας, ο αλγόριθμος συγκλίνει Η σύγκλιση συμβαίνει συνήθως τις αρχικές πρώτες επαναλήψεις Συχνά η τελική συνθήκη αλλάζει σε Until σχετικά λίγα σημεία να αλλάζουν συστάδα ή η απόσταση μεταξύ των νέων κεντρικών σημείων από τα παλιά να είναι μικρή 35

36 Δύο διαφορετικές ομαδοποιήσεις με τη χρήση του K-means Αρχικά σημεία y x y y Βέλτιστη ομαδοποίηση x Υπο-βέλτιστη ομαδοποίηση x 36

37 Εκτίμηση των ομάδων που παράγονται από τον K-means Το πιο κοινό μέσο είναι το άθροισμα των τετραγώνων των σφαλμάτων (Sum of Squared Error (SSE)) Για κάθε σημείο το «σφάλμα» είναι η απόσταση από το κοντινότερο «κέντρο» Για να υπολογίσουμε το SSE, τα υψώνουμε στο τετράγωνο και τα αθροίζουμε. SSE K i 1 x C i dist ( m, x) x είναι εάν σημείο στην ομάδα C i και m i είναι το αντίστοιχο αντιπροσωπευτικό σημείο για την ομάδα C i μπορεί να αποδειχθεί ότι το m i αντιστοιχεί στο κέντρο (μέσο) της ομάδας Εάν έχουμε ομάδες μπορούμε να επιλέξουμε αυτή με το μικρότερο SSE Ένας εύκολος τρόπος να μειώσουμε το SSE είναι να αυξήσουμε το K, των αριθμό των ομάδων μία «καλή» ομαδοποίηση με μικρότερο K μπορεί να έχει μικρότερο 37 SSE από μία «κακή» ομαδοποίηση με μεγαλύτερο K i

38 Σημαντική η επιλογή των αρχικών κέντρων 3 Iteration y x 38

39 Σημαντική η επιλογή των αρχικών κέντρων 3 Iteration 1 3 Iteration y y x x 3 Iteration 3 3 Iteration 4 3 Iteration y y y x x x 39

40 ΠΑΡΑΔΕΙΓΜΑ Σημαντική η επιλογή των αρχικών κέντρων Αρχικά σημεία y x y y x Βέλτιστη συσταδοποίηση Υπό-βέλτιστη συσταδοποίση x 40

41 ΠΑΡΑΔΕΙΓΜΑ Σημαντική η επιλογή των αρχικών κέντρων 3 Iteration y x 41

42 ΠΑΡΑΔΕΙΓΜΑ Σημαντική η επιλογή των αρχικών κέντρων 3 Iteration 1 3 Iteration 3 Iteration y y y x x x 3 Iteration 4 3 Iteration 5 3 Iteration y y y x x x 4

43 Προβλήματα με την επιλογή των αρχικών σημείων Εάν έχουμε K πραγματικές συστάδες/ομάδες τότε η πιθανότητα να επιλέξουμε ένα κέντρο για κάθε ένα από αυτά είναι πολύ μικρή. Μερικές φορές τα αρχικά κέντρα θα προσαρμοστούν με «σωστό» τρόπο και μερικές φορές όχι Δείτε το επόμενο παράδειγμα με πέντε ζεύγη από ομάδες 43

44 Παράδειγμα με 10 ομάδες 8 Iteration y x Ξεκινώντας με δύο κέντρα σε μία ομάδα για κάθε ζεύγος από ομάδες 44

45 Παράδειγμα με 10 ομάδες 8 Iteration 1 8 Iteration y 0 y x Iteration x Iteration y 0 y x Ξεκινώντας με δύο κέντρα σε μία ομάδα για κάθε ζεύγος από ομάδες x 45

46 Παράδειγμα με 10 ομάδες 8 Iteration y Ξεκινώντας με ορισμένα ζεύγη από ομάδες να έχουν τρία κέντρα και άλλα με μόνο ένα x 46

47 Παράδειγμα με 10 ομάδες 8 Iteration 1 8 Iteration y 0 y Iteration x Iteration x y 0 y x x Ξεκινώντας με ορισμένα ζεύγη από ομάδες να έχουν τρία κέντρα και άλλα με μόνο ένα 47

48 Λύσεις για το πρόβλημα της επιλογής των αρχικών κέντρων Πολλαπλές δοκιμές (Multiple runs) Βοηθάει, αλλά οι πιθανότητες δεν είναι με το μέρος μας Δειγματοληπτούμε και χρησιμοποιούμε ιεραρχική ομαδοποίηση για τον καθορισμό των αρχικών κέντρων Επιλογή περισσότερων από k αρχικά κέντρα και στη συνέχεια επιλέγουμε ανάμεσα σε αυτά τα αρχικά κέντρα Επιλέγουμε κέντρα «απομακρυσμένα» μεταξύ τους. Μετά-επεξεργασία (Postprocessing) Διχοτομικός (Bisecting) K-means Δεν είναι τόσο επιρρεπής σε προβλήματα αρχικοποίησης 48

49 Σταδιακή επιλογή Επιλογή του πρώτου σημείου τυχαία ή ως το μέσο όλων των σημείων Για καθένα από τα υπόλοιπα αρχικά σημεία επέλεξε αυτό που είναι πιο μακριά από τα μέχρι τώρα επιλεγμένα αρχικά σημεία Μπορεί να οδηγήσει στην επιλογή outliers Ο υπολογισμός του πιο απομακρυσμένου σημείου είναι δαπανηρός Συχνά εφαρμόζεται σε δείγματα 49

50 Χειρισμός «κενών» ομάδων (Empty Clusters) Ο βασικός αλγόριθμος K-means μπορεί να δημιουργήσει κενές ομάδες / συστάδεις Διάφορες στρατηγικές αντιμετώπισης Επέλεξε το σημείο που είναι πιο μακριά από όλα τα τωρινά κέντρα και άρα επιλογή του σημείου το οποίο συμβάλει το περισσότερο στο SSE Επέλεξε ένα σημείο από την ομάδα με το υψηλότερο SSE θα οδηγήσει σε «σπάσιμο» της άρα σε μείωση του λάθους Εάν υπάρχουν περισσότερες κενές ομάδες, τα πιο πάνω μπορούν να επαναληφθούν αρκετές φορές. 50

51 «Σταδιακή Ενημέρωση» των κέντρων αυξητικά (Incrementally) Στον βασικό αλγόριθμο K-means τα κέντρα ενημερώνονται αφού όλα τα σημεία αντιστοιχιστούν σε ένα κέντρο Μια εναλλακτική προσέγγιση είναι να ενημερώνονται τα κέντρα μετά από κάθε αντιστοίχιση (incremental approach) Κάθε αντιστοίχιση ενημερώνει κανένα ή δύο κέντρα Υπολογιστικά πιο απαιτητική Εισαγάγει μια εξάρτηση της σειράς με την οποία επεξεργάζονται τα δεδομένα Δεν εμφανίζει το πρόβλημα των κενών ομάδων Μπορεί να χρησιμοποιηθούν «βάρη» ( weights ) για την αλλαγή της επίδρασης (αν υπάρχει κάποια τυχαία αντικειμενική συνάρτηση) 51

52 Προ-επεξεργασία και μετα-επεξεργασία (Preprocessing - Post-processing) Προ-επεξεργασία (Pre-processing) Κανονικοποίηση των δεδομένων (Normalization) Εξάλειψη των ακραίων σημείων (Eliminate outliers) Μετα-επεξεργασία (Post-processing)- Split-Merge (διατηρώντας το ίδιο K) Εξάλειψη μικρών ομάδων τα οποία μπορεί να αποτελούν ακραία παραδείγματα (outliers) και ανακατανομή των σημείων της σε άλλες συστάδες (αυτό που οδηγεί στην μικρότερη αύξηση του SSE) Χωρισμός «χαλαρών» ( loose ) ομάδων, δηλαδή ομάδων με σχετικά υψηλό SSE Συνένωση (merge) ομάδων που είναι «κοντά» (τα κέντρα τους έχουν την μικρότερη απόσταση) και έχουν σχετικά χαμηλό SSE Μπορούν να χρησιμοποιηθούν αυτά τα βήματα κατά την διαδικασία της ομαδοποίησης ISODATA 5

53 Διχοτομικός (Bisecting) K-means Διχοτομικός (Bisecting) K-means Παραλλαγή του K-means που μπορεί να δημιουργήσει μια διαμοιραστική ή ιεραρχική ομαδοποίηση 1: Αρχικοποίηση της λίστας των συστάδων ώστε να περιέχει μια συστάδα που περιέχει όλα τα σημεία : Repeat 3: Επιλογή μιας συστάδας από τη λίστα των συστάδων 4: for i = 1 to number_of_trials do 5: διχοτόμησε την επιλεγμένη συστάδα χρησιμοποιώντας το βασικό k-means 6: Πρόσθεσε στη λίστα από τις δυο συστάδες που προέκυψαν από τη διχοτόμηση αυτήν με το μικρότερο SSE 5: Until η λίστα των συστάδων να έχει K συστάδες 53

54 Παράδειγμα για K-means με διχοτόμηση 54

55 Περιορισμοί του K-means Ο K-means έχει προβλήματα όταν οι ομάδες είναι διαφορετικού Μεγέθους Πυκνότητας Μη-σφαιρικού σχήματος K-means έχει προβλήματα όταν τα δεδομένα περιέχουν ακραίες τιμές (outliers). 55

56 Περιορισμοί του K-means: Διαφορετικά μεγέθη Αρχικά σημεία K-means (3 Ομάδες/ Clusters) Δεν μπορεί να βρει το μεγάλο κόκκινο, γιατί είναι πολύ μεγαλύτερος από τους άλλους 56

57 Περιορισμοί του K-means: Διαφορετικές πυκνότητες Αρχικά Σημεία K-means (3 Ομάδες /Clusters) Δεν μπορεί να διαχωρίσει τους δυο μικρούς γιατί είναι πολύ πυκνοί σε σχέση με τον ένα μεγάλο 57

58 Περιορισμοί του K-means: Μη σφαιρικά σχήματα Αρχικά Σημεία K-means ( συστάδεις /Clusters) Δεν μπορεί να βρει τις δύο συστάδες γιατί έχουν μη κυκλικά σχήματα 58

59 Αντιμετώπιση των περιορισμών του K-means Αρχικά Σημεία K-means Ομάδες / Clusters Μία λύση είναι η χρησιμοποίηση πολλών ομάδων. Βρίσκουμε μέρη των ομάδων, αλλά απαιτείται να τα ενώσουμε στη συνέχεια. 59

60 Αντιμετώπιση των περιορισμών του K- means Αρχικά σημεία K-means Ομάδες 60

61 Αντιμετώπιση των περιορισμών του K- means- Διαφορετικά μεγέθη Αρχικά σημεία K-means Ομάδες/ Clusters 61

62 K-means: Επιλογή αρχικών σημείων Αν υπάρχουν K «πραγματικές συστάδες» η πιθανότητα να επιλέξουμε ένα κέντρο από κάθε συστάδα είναι μικρή, συγκεκριμένα αν όλες οι συστάδες έχουν το ίδιο μέγεθος n, τότε: Για παράδειγμα, αν Κ = 10, η πιθανότητα είναι = 10!/1010 =

63 K-medoid Συνήθως συνεχή d-διάστατο χώρο Διαλέγει ένα αντιπροσωπευτικό σημείο από τα δεδομένα και ελαχιστοποιεί την απόσταση από αυτό Medoid: το πιο κεντρικό σημείο της συστάδας (αντί να χρησιμοποιεί το mean) Mειώνει την ευαισθησία σε outliers Μπορεί να εφαρμοστεί σε δεδομένα οποιουδήποτε τύπου (πχ και για κατηγορικά δεδομένα)

64 Ιεραρχική Συσταδοποίηση 64

65 Ιεραρχική ομαδοποίηση (Hierarchical Clustering) Δημιουργεί μία σειρά από εμφωλιασμένες (nested) ομάδες οργανωμένες σαν ένα ιεραρχικό δέντρο Μπορεί να απεικονισθεί ως ένα δεντρόγραμμα (dendrogram) Ένα διάγραμμα που μοιάζει με δέντρο που καταγράφει την ακολουθία των συγχωνεύσεων (merges) ή των διασπάσεων (splits)

66 Πλεονεκτήματα της Ιεραρχικής ομαδοποίησης Δεν χρειάζεται να υποθέσουμε την ύπαρξη συγκεκριμένου αριθμού από ομάδες Οποιοσδήποτε αριθμός από ομάδες μπορεί να επιτευχθεί «κόβοντας» το δεντρόγραμμα στο κατάλληλο επίπεδο (level) Μπορεί να αντιστοιχούν σε ταξινομίες (taxonomies) που έχουν φυσικό νόημα Για παράδειγμα στη βιολογική επιστήμη (ζωικό βασίλειο, φυτικό βασίλειο) 66

67 Ιεραρχική ομαδοποίηση Δύο είναι οι κύριοι τύποι της ιεραρχικής συσταδοποίησης / ομαδοποίησης Συσσωρευτικοί (Agglomerative): Ξεκινάνε με τα σημεία ας ξεχωριστές ομάδες / συστάδεις Σε κάθε βήμα, ενώνουν το πιο κοντινό ζεύγος από τις ομάδες μέχρι να μείνει μόνο μία ομάδα (ή k ομάδες) Διαιρετικοί (Divisive): Ξεκινάνε με μια συστάδα/ομάδα που περιέχει όλα τα σημεία Σε κάθε βήμα, διαχωρίζουν μία συστάδα/ομάδα μέχρι κάθε ομάδα να περιλαμβάνει ένα μόνο σημείο (ή να έχουν δημιουργηθεί k ομάδες) Οι κλασσικοί ιεραρχικοί αλγόριθμοι χρησιμοποιούν ένα πίνακα ομοιότητας ή απόστασης Συνενώνουν ή διαχωρίζουν μία συστάδα/ομάδα κάθε φορά 67

68 Συσσωρευτικοί Ιεραρχικοί αλγόριθμοι Η πιο δημοφιλής ιεραρχική τεχνική ομαδοποίησης Ο βασικός αλγόριθμος 1. Υπολόγισε τον πίνακα γειτνίασης/εγγύτητας (proximity matrix). Έστω ότι κάθε σημείο αποτελεί μια ομάδα 3. Επανέλαβε 4. Ένωσε (Merge) τις δύο πιο κοντινές ομάδες 5. Ενημέρωσε τον πίνακα εγγύτητας / γειτνίασης 6. Μέχρι να παραμείνει μόνο μία ομάδα Το κλειδί στην όλη διαδικασία είναι ο υπολογισμός της εγγύτητας/γειτνίασης δύο ομάδων Διαφορετικές προσεγγίσεις για τον ορισμό της απόστασης μεταξύ των ομάδων δημιουργούν διαφορετικούς αλγορίθμους 68

69 Συσσωρευτική Ιεραρχική Ομαδοποίηση Αρχική κατάσταση Ξεκινάμε με ομάδες από μεμονωμένα σημεία (κάθε σημείο είναι μια ομάδα) και έναν πίνακα γειτνίασης (proximity matrix) p1 p p3 p4 p5.. p1 p p3 p4 p5.... Πίνακας γειτνίασης Proximity Matrix... p1 p p3 p4 p9 p10 p11 p1 69

70 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ενδιάμεση κατάσταση Μετά από κάποια βήματα συνένωσης έχουμε ορισμένες ομάδες C1 C C1 C C3 C4 C5 C1 C3 C4 C3 C4 C5 Proximity Matrix C C5... p1 p p3 p4 p9 p10 p11 p1 70

71 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ενδιάμεση κατάσταση Θέλουμε να συνενώσουμε τις δύο πιο κοντινές ομάδες (C και C5) και να ανανεώσουμε τον πίνακα γειτνίασης. C1 C C1 C3 C4 C5 C3 C C3 C4 C4 C1 C5 Proximity Matrix C C p1 p p3 p4 p9 p10 p11 p1

72 Συσσωρευτική Ιεραρχική Ομαδοποίηση Μετά τη συνένωση (Merging) Η ερώτηση είναι μετά την συνένωση «Πώς ανανεώνουμε τον πίνακα γειτνίασης;» C1 C U C5 C3 C4 C1? C3 C4 C U C5 C3 C4?????? C1 Proximity Matrix C U C p1 p p3 p4 p9 p10 p11 p1

73 Συσσωρευτική Ιεραρχική Ομαδοποίηση Πώς ορίζουμε την ομοιότητα μεταξύ ομάδων (Inter- Cluster Similarity) p1 p p3 p4 p5... Ομοιότητα (Similarity)? p1 p p3 MIN MAX Μέση τιμή ομάδας (Group Average) Απόσταση μεταξύ κέντρων (Distance Between Centroids) Μέθοδοι οδηγούμενοι από μία αντικειμενική συνάρτηση (objective function) Η μέθοδος του Ward χρησιμοποιεί το τετραγωνικό σφάλμα (squared error) p4 p5... Proximity Matrix 73

74 Συσσωρευτική Ιεραρχική Ομαδοποίηση Πώς ορίζουμε την ομοιότητα μεταξύ ομάδων (Inter- Cluster Similarity) p1 p p3 p1 p p3 p4 p5... MIN MAX Μέση τιμή ομάδων (Group Average) Απόσταση μεταξύ κέντρων (Distance Between Centroids) Μέθοδοι οδηγούμενοι από μία αντικειμενική συνάρτηση (objective function) Η μέθοδος του Ward χρησιμοποιεί το τετραγωνικό σφάλμα (squared error) p4 p5... Proximity Matrix 74

75 Συσσωρευτική Ιεραρχική Συσταδοποίηση (ΣΙΣ)Ομαδοποίηση Ορισμός απόστασης μεταξύ ομάδων: ΜΙΝ MIN ή μοναδικής ακμής ή απλού συνδέσμου (single link) Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο πιο όμοια (πιο γειτονικά) σημεία στις διαφορετικές συστάδες (με όρους γραφημάτων shortest edge) Καθορίζεται από ένα ζεύγος τιμών, δηλαδή μια ακμή (link) του γραφήματος γειτνίασης. Ονομάζεται και μέθοδος συσταδοποίησης κοντινότερου γείτονα 75

76 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ ομάδων: ΜΙΝ ή απλού συνδέσμου (Single Link) MIN ή μοναδικής ακμής ή απλού συνδέσμου (single link) Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο πιο όμοια (πιο γειτονικά) σημεία στις διαφορετικές ομάδες (με όρους γραφημάτων shortest edge) Καθορίζεται από ένα ζεύγος τιμών, δηλαδή μια ακμή (link) του γραφήματος γειτνίασης. I1 I I3 I4 I5 I1 1,00 0,90 0,10 0,65 0,0 I 0,90 1,00 0,70 0,60 0,50 I3 0,10 0,70 1,00 0,40 0,30 I4 0,65 0,60 0,40 1,00 0,80 I5 0,0 0,50 0,30 0,80 1,00 Υπάρχει : ομοιότητα!!

77 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ Δεντρόγραμμα Φωλιασμένες Συστάδες Το δεντρόγραμμα (yάξονας) δίνει και τις αποστάσεις 77

78 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 Πίνακας απόστασης (Ευκλείδεια) p1 p p3 p4 p5 p6 p p p p p p

79 1 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 1 4 (0.6, 0.19) 5 (0.08, 0.41) 5 6 (0.45, 0.30) Καθορίζεται μόνο από μια ακμή την μικρότερη p1 p p3 p4 p5 p6 p p p p p p

80 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 p1 p p3 p4 p5 p6 p p p p p p

81 1 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 1 4 (0.6, 0.19) 5 (0.08, 0.41) (0.45, 0.30) Αρκεί να «βρω» μια ακμή 4 p1 p p3 p4 p5 p6 p p p p p p

82 Τα «δυνατά» σημεία του MIN Αρχικά σημεία Original Points Δύο σημεία Two Clusters Μπορεί να διαχειριστεί μη ελλειπτικά σχήματα (non-elliptical) 8

83 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ Τα Προτερήματα του MIN Αρχικά σημεία Δύο συστάδες Contiguity-based (συνεχόμενες συστάδες) Μπορεί να χειριστεί μη ελλειπτικά (non-elliptical) σχήματα 83

84 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: ΜΙΝ Μειονεκτήματα Αρχικά σημεία Δύο συστάδες Ευαίσθητο σε θόρυβο και outliers 84

85 Συσσωρευτική Ιεραρχική Ομαδοποίηση Πώς ορίζουμε την ομοιότητα μεταξύ ομάδων (Inter- Cluster Similarity) p1 p p3 p1 p p3 p4 p5... MIN p4 MAX p5 Μέση τιμή ομάδων (Group Average) Απόσταση μεταξύ κέντρων (Distance Between Centroids) Μέθοδοι οδηγούμενοι από μία αντικειμενική συνάρτηση (objective function) Η μέθοδος του Ward χρησιμοποιεί το τετραγωνικό σφάλμα (squared error)... Proximity Matrix 85

86 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: MAX MΑΧ ή πλήρους συνδεσιμότητας (complete linkage) - Αναζητά κλίκες Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο λιγότερο όμοια (πιο μακρινά) σημεία στις διαφορετικές ομάδες (longest edge) Καθορίζεται από όλα τα ζεύγη τιμών στις δύο συστάδες. I1 I I3 I4 I5 I I I I I ομοιότητα 86

87 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 p1 p p3 p4 p5 p6 p p p p p p

88 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 p1 p p3 p4 p5 p6 p p p p p p

89 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 p1 p p3 p4 p5 p6 p p p p p p

90 (0.4, 0.53) (0., 0.38) 3 (0.35, 0.3) 4 (0.6, 0.19) 5 (0.08, 0.41) 6 (0.45, 0.30) 4 p1 p p3 p4 p5 p6 p p p p p p

91 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: MAX Εμφωλισμένες ομάδες Nested Clusters Δεντρόγραμμα 91

92 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: MAX Πλεονεκτήματα Αρχικά Σημεία Δύο Ομάδες /Συστάδες λιγότερο ευαίσθητο στο θόρυβο και σε ακραίες τιμές (outliers) 9

93 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: MAX Μειονεκτήματα Αρχικά σημεία Δύο συστάδες Τείνει να διασπά μεγάλες συστάδες Οδηγεί συνήθως σε κυκλικά σχήματα «προτιμά» σφαιρικές ομάδες (globular clusters) 93

94 Συσσωρευτική Ιεραρχική Ομαδοποίηση Πώς ορίζουμε την ομοιότητα μεταξύ ομάδων (Inter- Cluster Similarity) p1 p p3 p1 p p3 p4 p5... MIN MAX Μέση τιμή ομάδων (Group Average) Απόσταση μεταξύ κέντρων (Distance Between Centroids) Μέθοδοι οδηγούμενοι από μία αντικειμενική συνάρτηση (objective function) Η μέθοδος του Ward χρησιμοποιεί το τετραγωνικό σφάλμα (squared error) p4 p5... Πίνακας Γειτνίασης Proximity Matrix 94

95 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ομοιότητα ομάδων: Μέση τιμή ομάδων (Group Average) Η εγγύτητα δύο ομάδων είναι η μέση τιμή της απόστασης μεταξύ όλων των ζεύγων ανα-δύο κοντινότητας (average of pairwise proximity) ανάμεσα στις δύο ομάδες. pi Cluster i p Cluster proximity(p,p j j proximity(cluster i,cluster j) Cluster Cluster Πρέπει να χρησιμοποιηθεί η μέση συνδετικότητα (connectivity) για κλιμάκωση μια και η ολική ομοιότητα ευνοεί τις μεγάλες ομάδες. ομοιότητα I1 I I3 I4 I5 I I I I I i i j j ) 95

96 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: Μέση τιμή Ομάδας Μια «ενδιάμεση» λύση μεταξύ απλού και πλήρους συνδέσμου (Μεταξύ MIN-MAX) Πλεονεκτήματα: μικρότερη ευαισθησία σε θόρυβο και σε ακραίες τιμές (outliers) Μειονεκτήματα: Ευνοεί κυκλικές ομάδες 96

97 Συσσωρευτική Ιεραρχική Ομαδοποίηση Ορισμός απόστασης μεταξύ συστάδων: Μέση τιμή Ομάδας Φωλιασμένες Συστάδες Δενδρόγραμμα Dendrogram 97

98 Συσσωρευτική Ιεραρχική Ομαδοποίηση Πώς ορίζουμε την ομοιότητα μεταξύ ομάδων (Inter- Cluster Similarity) p1 p1 p p3 p4 p5... p p3 MIN MAX Μέση τιμή ομάδων (Group Average) Απόσταση μεταξύ κέντρων (Distance Between Centroids) Μέθοδοι οδηγούμενοι από μία αντικειμενική συνάρτηση (objective function) Η μέθοδος του Ward χρησιμοποιεί το τετραγωνικό σφάλμα (squared error) p4 p5.. Πίνακας Γειτνίασης Πρόβλημα:. μη μονότονη αύξηση της απόστασης Δηλαδή, δυο συστάδες που συγχωνεύονται μπορεί να έχουν μικρότερη απόσταση από συστάδες που έχουν συγχωνευτεί σε προηγούμενα βήματα 98

99 Ομοιότητα ομάδων: Μέθοδο του Ward s Η ομοιότητα δύο ομάδων βασίζεται στην αύξηση του τετραγωνικού σφάλματος όταν ενώνονται οι δύο ομάδες Παρόμοια με την μέθοδο της μέσης τιμής εάν η απόσταση μεταξύ των σημείων ορισθεί ως το τετράγωνο της απόστασης Λιγότερο ευαίσθητη στον θόρυβο και στην παρουσία ακραίων τιμών Δείχνει προτίμηση σε σφαιρικές ομάδες Το ιεραρχικό ανάλογό του K-means Μπορεί να χρησιμοποιηθεί για την αρχικοποίηση 99 του K-means

100 100 Σύγκριση ιεραρχικών μεθόδων Group Average Ward s Method MIN MAX

101 Ιεραρχική Ομαδοποίηση: Απαιτήσεις σε χρόνο και χώρο O(N ) σε χώρο μια και χρησιμοποιεί τον πίνακα γειτνίασης (proximity matrix). N είναι το πλήθος των σημείων. O(N 3 ) σε χρόνο σε πολλές περιπτώσεις Ξεκινάμε με N ομάδες και μειώνουμε 1 κάθε φορά Έχουμε Ν βήματα και σε κάθε βήμα ο πίνακας γειτνίασης θα πρέπει να ανανεωθεί και να διερευνηθούν τα στοιχεία του (updated and searched), οπότε για γραμμική αναζήτηση O(N ) Η πολυπλοκότητα μπορεί να μειωθεί σε O(N log(n) ) για μερικές προσεγγίσεις (heap) 101

102 Ιεραρχική ομαδοποίηση: προβλήματα και περιορισμοί Από τι στιγμή που θα ενωθούν δύο ομάδες αυτό είναι οριστικό Καμία αντικειμενική συνάρτηση δεν ελαχιστοποιείται απευθείας Οι διάφορες προσεγγίσεις μπορεί να έχουν προβλήματα με ένα η περισσότερα από τα παρακάτω: Ευαισθησία σε θόρυβο και ακραίες τιμές Δυσκολία στον χειρισμό ομάδων με διαφορετικό μέγεθος και κοίλα σχήματα «Σπάνε» μεγάλες ομάδες 10

103 Δέντρο Ελάχιστης Ζεύξης-Διαμεριστικοί αλγόριθμοι Δημιουργία MST (Ελάχιστα σκελετικά δέντρα- Minimum Spanning Tree) Ξεκίνησε με ένα δέντρο που αποτελείται από ένα (οποιοδήποτε) σημείο και κατασκεύασε ένα ελάχιστο σκελετικό δέντρο Σε διαδοχικά βήματα αναζήτησε το πιο κοντινό ζεύγος σημείων (p, q) έτσι ώστε το ένα σημείο (p) να ανήκει στο τρέχον δέντρο και το άλλο (q) όχι Πρόσθεσε το q στο δέντρο και πρόσθεσε μία ακμή (edge) μεταξύ των p και q 103

104 MST Χρησιμοποίησε το MST για την δημιουργία ιεραρχικών ομάδων 104

105 DBSCAN (Density Based Spatial Clustering of Applications with Noise) 105

106 DBSCAN (Density Based Spatial Clustering of Applications with Noise) DBSCAN είναι ένας αλγόριθμος που βασίζεται στην πυκνότητα (density-based algorithm). Πυκνότητα (Density) = ο αριθμός των σημείων (MinPts) εντός μιας προκαθορισμένης ακτίνας (Eps) από αυτό (συμπεριλαμβανομένου του σημείου) Τα σημεία διαχωρίζονται: Ένα σημείο είναι ένα σημείο πυρήνα (core point) εάν η γειτονιά του (Eps) περιέχει περισσότερα από ένα προκαθορισμένο αριθμό από σημεία (MinPts) Αυτά είναι τα σημεία στο εσωτερικό της ομάδας (ομάδας πυκνών σημείων) Ένα οριακό σημείο (border point) έχει λιγότερα από ένα προκαθορισμένο αριθμό σημείων MinPts εντός της γειτονιάς του (Eps), αλλά είναι στη γειτονία ενός (τουλάχιστον) σημείου πυρήνα Ένα σημείο που είναι θόρυβος (noise point) είναι κάθε σημείο που δεν είναι σημείο πυρήνα ούτε είναι οριακό σημείο 106

107 DBSCAN: Core, Border, και Noise Points 107

108 Ο αλγόριθμος DBSCAN Απομάκρυνε τα σημεία που είναι θόρυβος Πραγματοποίηση συσταδοποίηση/ ομαδοποίηση στα σημεία που απομένουν 108

109 Ο αλγόριθμος DBSCAN 1: Χαρακτήρισε κάθε σημείο ως βασικό, οριακό ή θόρυβο : Διέγραψε τα σημεία θορύβου 3: Τοποθέτησε μια ακμή μεταξύ όλων των βασικών σημείων που είναι σε απόσταση έως Eps μεταξύ τους 4: Κάνε κάθε ομάδα συνδεδεμένων βασικών σημείων μια διαφορετική συστάδα 5: Ανάθεσε κάθε οριακό σημεία σε μία από τις συστάδες των συσχετιζόμενων του βασικών σημείων 109

110 DBSCAN: Core, Border και Noise Points Αρχικά σημεία Point types: core, border and noise Eps = 10, MinPts = 4 110

111 Περίπτωση «καλής» ομαδοποίησης με τον DBSCAN Βήμα 3 & 4 Αρχικά σημεία Ομάδες Ανθεκτικός στην ύπαρξη θορύβου Μπορεί να χειριστεί ομάδες με διαφορετικά μεγέθη και σχήματα 111

112 Περίπτωση «κακής» ομαδοποίησης από τον DBSCAN Αρχικά σημεία (MinPts=4, Eps=9.75). Διαφορετικές πυκνότητες Πολυδιάστατα δεδομέναδύσκολος ορισμός πυκνότητας και δαπανηρός υπολογισμός γειτόνων (MinPts=4, Eps=9.9) 11

113 DBSCAN: Πολυπλοκότητα Για m σημεία εισόδου: O (n x χρόνος εντοπισμού σημείων σε eps-γειτονιά) Ο(n ) Για μικρό αριθμό διαστάσεων, υπάρχουν δομές που υποστηρίζουν την πράξη σε Ο(n logn) O(n) χώρος (για κάθε σημείο κρατάμε μόνο ένα label σε μια συστάδα ανήκει και το είδος του (βασικό, οριακό, θόρυβος) 113

114 DBSCAN: Καθορισμός των ποσοτήτων EPS και MinPts Η ιδέα είναι ότι για τα σημεία μια ομάδας, ο k th κοντινότερος γείτονάς τους θα βρίσκεται περίπου στην ίδια απόσταση k-dist Γενικά (κατά μέσο όρο), για τα σημεία που ανήκουν στην ίδια ομάδα, η τιμή του k-dist θα είναι μικρή (αν το k δεν είναι μεγαλύτερο από το μέγεθος της συστάδας) Τα σημεία που είναι θόρυβος θα έχουν τον k th κοντινότερο γείτονά τους πιο μακριά Απεικονίζουμε γραφικά με αύξουσα σειρά τις αποστάσεις κάθε σημείου από τον k th κοντινότερο γείτονά του Υπολογίζουμε την k-dist για όλα τα σημεία, για κάποιο k Ταξινομούμε τις αποστάσεις με φθίνουσα διάταξη Περιμένουμε ξαφνική αλλαγή στο k-dist που αντιστοιχεί στο Eps Οπότε k = MinPts και Eps = k-dist Eps ~ 7 MinPts = 4 114

115 Εγκυρότητα Ομαδοποίησης Cluster validity 115

116 Εγκυρότητα της ομαδοποίησης (Cluster Validity) Για την ταξινόμηση έχουμε μια σειρά από μέτρα για να αξιολογήσουμε πόσο καλό είναι το μοντέλο μας Accuracy, precision, recall Για την ομαδοποίηση η ανάλογη ερώτηση είναι, πώς να αξιολογήσουμε πόσο «καλό» είναι το σύνολο των ομάδων που δημιουργήθηκαν; Αλλά οι ομάδες εξαρτώνται από την οπτική γωνία του χρήστη! Τότε γιατί θέλουμε να τα εκτιμήσουμε; Για να αποφύγουμε την εύρεση μοτίβων εκεί που υπάρχει μόνο θόρυβος Για να συγκρίνουμε αλγορίθμους ομαδοποίησης Για να συγκρίνουμε δύο σύνολα ομάδων Για να συγκρίνουμε δύο ομάδες 116

117 Συστάδες σε Τυχαία Δεδομένα Τυχαία Σημεία Random Points y y DBSCAN 3 ομάδες κοιτώντας την απόσταση του 4 ου γείτονα x x K-means Με ΜΑΧ Complete Link y 0.5 y x x 117

118 Μετρήσεις Εγκυρότητας Ομαδοποίησης Οι μετρήσεις για την εγκυρότητα ομαδοποίησης (το πόσο καλή) είναι ανήκουν σε μία από τις παρακάτω τρεις κατηγορίες: Με επίβλεψη (supervised) - Εξωτερικό Ευρετήριο (External Index): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδομένων), πχ ετικέτες για τις ομάδες Μετράμε πόσο οι περιγραφές των ομάδων ταιριάζουν με τις ετικέτες των κλάσεων. πχ Εντροπία Χωρίς επίβλεψη (unsupervised) Εσωτερικό Ευρετήριο (Internal Index): Εκτιμάμε το πόσο καλή είναι μια ομαδοποίηση χωρίς παροχή εξωτερικής πληροφορίας Συνεκτικότητα (cohesion) Διακριτότητα ή διαχωρισμός (separation) Συγκριτικοί -Σχετικό Ευρετήριο (Relative Index): Χρησιμοποιείται για τη σύγκριση δυο διαφορετικών ομαδοποιήσεων ή ομάδων - Συχνά για αυτό το σκοπό χρησιμοποιείται ένα εσωτερικό ή εξωτερικό ευρετήριο Εσωτερικό, πχ δυο k-means συσταδοποιήσεις με βάση το SSE Κριτήρια vs Eυρετήρια κριτήριο: η γενική στρατηγική και ευρετήριο η 118 αριθμητική μέτρηση που υλοποιεί το κριτήριο

119 Διαφορετικές όψεις της εγκυρότητας της ομαδοποίησης 1. Καθορισμός της τάσης για δημιουργία ομάδων (clustering tendency) ενός συνόλου από δεδομένα, δηλαδή, η δυνατότητα να ξεχωρίσουμε αν μη-τυχαίες δομές υπάρχουν πραγματικά στα δεδομένα.. Σύγκριση των αποτελεσμάτων της ομαδοποίησης με «εξωτερικά» αποτελέσματα, για παράδειγμα η ύπαρξη της πληροφορίας για την κατηγορία στην οποία ανήκουν τα δεδομένα, π.χ. Κάποια ετικέτας έχει δοθεί σε μια ομάδα. 3. Εκτίμηση των αποτελεσμάτων της ομαδοποίησης χωρίς την χρήση εξωτερικής πληροφορίας. - Χρήση μόνο των δεδομένων 4. Σύγκριση των αποτελεσμάτων που παράχθηκαν από δύο διαφορετικούς αλγορίθμους για να καθοριστεί ποιος είναι καλύτερος. 5. Καθορισμός του «σωστού» αριθμού των ομάδων. Σε σχέση με τα, 3, και 4, μπορούμε να κάνουμε την περεταίρω διάκριση εάν θέλουμε να εκτιμήσουμε ολόκληρη την ομαδοποίηση ή μόνο μεμονωμένες ομάδες. 119

120 Μέτρα για την εκτίμηση της εγκυρότητας της ομαδοποίησης Αριθμητικές μετρήσεις που χρησιμοποιούνται για την κρίση την εγκυρότητα της ομαδοποίησης, ταξινομούνται στους ακόλουθους τρεις τύπους. Εξωτερικοί δείκτες (External Index): Χρησιμοποιείται για να μετρήσει το κατά πόσο οι ετικέτες των ομάδων ταυτίζονται με τις ετικέτες για τις κατηγορίες που παρέχονται εξωτερικά. Εντροπία (Entropy) Εσωτερικοί δείκτες (Internal Index): Μετράνε το πόσο καλή είναι η ομαδοποίηση χωρίς τη χρήση εξωτερική πληροφορίας. Άθροισμα των τετραγώνων των σφαλμάτων (Sum of Squared Error (SSE)) Σχετικοί δείκτες (Relative Index): Χρησιμοποιείται για τη σύγκριση δύο διαφορετικών ομαδοποιήσεων ή ομάδων. Συνήθως ένα εξωτερικός ή εσωτερικός δείκτης χρησιμοποιείται για αυτή τη λειτουργία π.χ. SSE ή εντροπία Καμιά φορά αυτά αναφέρονται ως κριτήρια αντί για δείκτες Παρόλα αυτά, καμιά φορά κριτήριο είναι η γενική στρατηγική και δείκτης είναι η αριθμητική μέτρηση που προκύπτει. 10

121 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και Διαχωρισμός Δύο μέτρα: Ένα για να χαρακτηρίσουμε κάθε συστάδα ξεχωριστά (cohesion συσχέτιση: πόσο κοντά (όμοια) είναι τα σημεία κάθε ομάδας) Ένα για τις ομάδες μεταξύ τους (separation διαχωρισμός: πόσο μακριά (ανόμοιες) είναι δύο ομάδες Ορίζονται είτε Prototype-based: με βάση το «κεντρικό σημείο» κάθε ομάδας είτε Graph-based: με βάση τις ανά-δύο αποστάσεις των σημείων 11

122 Χαρακτηρισμός Ποιότητας Συσταδοποίησης χωρίς Επίβλεψη: Συνεκτικότητα και Διαχωρισμός Ομαδοποίηση βασισμένη σε κεντρικά σημεία - Centroid-based clustering (πχ k-means) Συνοχή (cohesion) Διαχωρισμός (separation) n cohesion ( Ci) proximity( x, ci) x C Αν proximity = τετράγωνο της Ευκλείδειας, τότε ESS i separation( Ci, Cj) proximity( ci, cj) separation( Ci) proximity( ci, c) Όπου c το κέντρο όλων των σημείων 1

123 Χαρακτηρισμός Ποιότητας Ομαδοποίησης χωρίς Επίβλεψη: Συσχέτιση και Διαχωρισμός Ομαδοποίηση βασισμένη σε γραφήματα (ΣΙΣ) Η συνοχή μιας ομάδας (cluster cohesion) είναι το άθροισμα των βαρών (συνήθως απόσταση) μεταξύ όλων των συνδέσεων σε μια ομάδα. Ο διαχωρισμός (cluster separation) είναι το άθροισμα των βαρών (συνήθως απόσταση) μεταξύ κόμβων της ομάδας και των κόμβων εκτός ομάδας Συνοχή (cohesion) Διαχωρισμός (separation) n cohesion ( Ci) proximity( x, y) separation ( Ci, Cj) proximity( x, y) x C i y C i n x C i y C j 13

124 Χαρακτηρισμός Ποιότητας Ομαδοποίησης χωρίς Επίβλεψη: Συσχέτιση και Διαχωρισμός overall _ validity k i 1 w i validity( C i ) Όπου το βάρος (w i ) μπορεί να είναι πχ ανάλογο του μεγέθους της ομάδας / συστάδας ή η τετραγωνική ρίζα της συνεκτικότητας ή 1 14

125 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Συνολική Συνοχή overall cohesion k i 1 w i cohesion( C i ) Άθροισμα συνεκτικότητας κάθε συστάδας Συνολικός Διαχωρισμός overall separation k i 1 w i separation( Ci) Άθροισμα διαχωρισμού των συστάδων Συνολικός Χαρακτηρισμός εγκυρότητας για τη Ομαδοποίηση/ συσταδοποίηση overall validity k i 1 seperation(ci) cohesion(ci) 15

126 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Σχέση prototype και graph-based συνοχής και διαχωρισμού (για Ευκλείδειες αποστάσεις) Έστω Ευκλείδεια απόσταση, σχέση SSE με συνοχή (πόσο στενά σχετιζόμενα είναι τα αντικείμενα μιας συστάδας); cluster SSE dist ( c i, x) Total SSE K i 1 x C i x C i dist ( c, x) i Αποδεικνύεται ότι cluster SSE x C i dist ( x, ci) 1 m i x Ci y Ci dist( x, y ) Δηλαδή, είτε πάρουμε την απόσταση από το κέντρο είτε το μέσο όρο των ανά δύο αποστάσεων των σημείων είναι το ίδιο Σχέση διαμέτρου και ακτίνας 16

127 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Σχέση δυο προσεγγίσεων διαχωρισμού (για Ευκλείδειες αποστάσεις) Έστω Ευκλείδεια απόσταση, σχέση SSB (group sum of squares) με διαχωρισμό (πόσο μακριά είναι οι συστάδες); cluster SSB ( ό ) SSB K i 1 m dist( c, c) i i i dist( c, c ) Το ολικό κέντρο (σημείο c στους τύπους) είναι το σημείο που προκύπτει αν πάρουμε το μέσο (mean) των κέντρων όλων των συστάδων Αποδεικνύεται ότι ό SSB x C i m i dist 1 K K K ( ci, c) dist( ci, cj) i 1 j 1 m K Ισομεγέθεις συστάδες m i m / K Δηλαδή, είτε πάρουμε την απόσταση των κέντρων κάθε συστάδας από το ολικό κέντρο είτε το μέσο όρο των ανά δύο αποστάσεων των κέντρων κάθε συστάδας είναι το ίδιο 17

128 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Total-SSE + Total-SSB = σταθερά c 1 c c 5 K = 1 cluster: total SSE (1 3) ( 3) (4 3) (5 3) 10 total SSB 4 (3 3) 0 Total K = clusters: total SSE (1 1.5) total SSB (3 1.5) Total ( 1.5) (4 4.5) (4.5 3) 9 (5 4.5) 1 18

129 Αποδεικνύεται ότι Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Total SSB + Total SSE = σταθερά TSS K i 1 x C i ( x c) Ίσο με το τετράγωνο των αποστάσεων όλων των σημείων από το ολικό μέσο Ελαχιστοποίηση της SSE (συνεκτικότητας) => Μεγιστοποίηση του SSB (διαχωρισμού) 19

130 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συνοχή και Διαχωρισμός Μπορούν να χρησιμοποιηθούν για τη βελτίωση της συσταδοποίησης Πχ μια συστάδα με κακή συνεκτικότητα μπορεί να χρειαστεί να διασπαστεί Δυο συστάδες όχι καλά διαχωρισμένες μπορεί να συγχωνευτούν Το πόσο καλή είναι μια συσταδοποίηση Το ποσό καλή είναι μια συστάδα Το ποσό καλό είναι ένα σημείο σε μια συστάδα 130

131 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Silhouette Coefficient (συντελεστής περιγράμματος) Για κάθε σημείο, i Υπολογισμός a = μέση απόσταση του i από τα σημεία της συστάδας Υπολογισμός b = μέση απόσταση του i aπό όλα τα σημεία κάθε άλλης συστάδας επιλογή του μικρότερου, δηλαδή μέση απόσταση από την κοντινότερη συστάδα s = 1 a/b if a < b, (or s = b/a - 1 if a b, not the usual case) Συνήθως μεταξύ του 0 και του 1 Όσο πιο κοντά στο 1, τόσο το καλύτερο a b Μπορεί να χρησιμοποιηθεί και για μια συστάδα ή συσταδοποίηση θεωρώντας μέσες τιμές για όλα τα σημεία τους ή συστάδες 131

132 Χαρακτηρισμός Ποιότητας Ομαδοποίησης/ Συσταδοποίησης χωρίς Επίβλεψη: Συντελεστής Περιγράμματος Silhouette Coefficient O συντελεστής περιγράμματος για σημεία στις 10 συστάδες Πόσο «κεντρικό» είναι ένα σημείο για μία συστάδα 13

133 Μέτρηση της εγκυρότητας της συσταδοποίησης με βάση την συσχέτιση (Correlation) Δύο πίνακες Πίνακας γειτνίασης (proximity matrix) ο πίνακας με την ομοιότητα των σημείων Πίνακας Σύμπτωσης Incidence Matrix Μία γραμμή και μία στήλη για κάθε σημείο Μία εγγραφή /θέση είναι 1 εάν το σχετικό ζεύγος σημείων ανήκουν στην ίδια συστάδα Μία εγγραφή / θέση είναι 0 εάν το σχετικό ζεύγος ανήκει σε διαφορετικές συστάδες Υπολογισμός της συσχέτισης μεταξύ των δύο πινάκων Μια και οι πίνακες είναι συμμετρικοί, μόνο η συσχέτιση μεταξύ n(n-1) / θέσεων χρειάζεται να υπολογιστούν. Υψηλή συσχέτιση δείχνει ότι τα σημεία τα οποία ανήκουν στην ίδια συστάδα είναι κοντά το ένα με το άλλο. Δεν είναι καλό μέτρο για ορισμένους αλγορίθμους που βασίζονται στην πυκνότητα και στην συνέχεια (contiguity) (εφαπτομενικά). 133

134 Χαρακτηρισμός εγγυρότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης Μέτρηση εγκυρότητας με βάση τη συσχέτιση Υπολογισμός correlation των δύο πινάκων όταν χρησιμοποιείται ο K-means στα παρακάτω σύνολα y x y x Corr = Corr =

135 Χαρακτηρισμός Εγγυρότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης - Οπτικοποίηση Αναδιατάσσουμε τα σημεία στον πίνακα έτσι ώστε τα σημεία που ανήκουν στην ίδια συστάδα να είναι γειτονικά Συγκεκριμένα, τα διατάσουμε με βάση τη συστάδα: Σημεία Συστάδας 1, Σημεία Συστάδας, Σημεία Συστάδας 3 135

136 Χαρακτηρισμός Εγκυρότητασ Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης - Οπτικοποίηση Ταξινόμηση του πίνακα συσχέτισης με βάση τις συστάδες και οπτική εκτίμησή του. Αναδιατάσσουμε τα σημεία στον πίνακα έτσι ώστε τα σημεία που ανήκουν στην ίδια συστάδα να είναι γειτονικά Συγκεκριμένα, τα διατάσουμε με βάση τη συστάδα: Σημεία Συστάδας 1, Σημεία Συστάδας, Σημεία Συστάδας 3 y Points x Points 0 Similarity Καλά διαχωρισμένες συστάδες Μήτρα οιμοιότητας ταξινομημενη με ετικέτες συστάδων Κ-μέσων. 136 Σημείωση s = 1 (d min_d)/(max_d min_d)

137 Μέτρηση εγκυρότητας με βάση τη συσχέτιση Πίνακας Γειτνίασης-Οπτικοποίηση Οι συστάδες από τυχαία δεδομένα δεν δημιουργούν συμπαγή μοτίβα Points y Points 0 Similarity x Κάποιες συστάδες ακόμα και σε τυχαία δεδομένα DBSCAN 137

138 Μέτρηση εγκυρότητας με βάση τη συσχέτιση Πίνακας Γειτνίασης-Οπτικοποίηση Οι συστάδες από τυχαία δεδομένα δεν δημιουργούν συμπαγή μοτίβα Points y Points Similarity x K-means 138

139 Μέτρηση εγκυρότητας με βάση τη συσχέτιση Πίνακας Γειτνίασης-Οπτικοποίηση Οι συστάδες από τυχαία δεδομένα δεν δημιουργούν συμπαγή μοτίβα Points Points Similarity y x Complete Link (Max) 139

140 Μέτρηση εγκυρότητας με βάση τη συσχέτιση Πίνακας Γειτνίασης-Οπτικοποίηση DBSCAN 140

141 Χαρακτηρισμός Εγκυρότητας Συσταδοποίησης χωρίς Επίβλεψη: Πίνακας Γειτνίασης Ειδικά για ιεραρχικούς αλγόριθμους Cophenetic distance: είναι η απόσταση (proximity) όταν ο αλγόριθμος τοποθετεί τα δυο σημεία στην ίδια συστάδα για πρώτη φορά Πχ συγχωνεύω τα σημεία του C1 με τα σημεία του C σε απόσταση 0.1, όλα τα σημεία του C1 απέχουν από το C 0.1 CoPhenetic Correlation Coefficient (CPCC) Χρησιμοποείται για επιλογή του είδους της ιεραρχικής συσταδοποίησης Κατασκευάζω τον πίνακα των cophenetic αποστάσεων Θεωρώ τη συνέλιξη του με τον αρχικό πίνακα αποστάσεων 141

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining», Συσταδοποίηση Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση Συσταδοποίηση II Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Εξόρυξη Δεδομένων: Ακ. Έτος 008-009 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity Συσταδοποίηση IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 ιαχείριση Ποιότητας Cluster validity Εξόρυξη Δεδομένων: Ακ. Έτος 006-007

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση Συσταδοποίηση I Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 6 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση Συσταδοποίηση I Εισαγωγή Ο αλγόριθμος k-means Αποστάσεις Ιεραρχική Συσταδοποίηση Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Τι

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Ανάλυση κατά Συστάδες. Cluster analysis

Ανάλυση κατά Συστάδες. Cluster analysis Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Κεφάλαιο 6: Συσταδοποίηση

Κεφάλαιο 6: Συσταδοποίηση Κεφάλαιο 6: Συσταδοποίηση Σύνοψη Ο βασικός στόχος αυτού του κεφαλαίου είναι η εξοικείωση με θέματα που αφορούν την τρίτη σημαντική εργασία της εξόρυξης δεδομένων, δηλαδή την ανάλυση των συστάδων. Πιο συγκεκριμένα,

Διαβάστε περισσότερα

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ»

«ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ» Τ.Ε.Ι. ΚΑΒΑΛΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΑΝΑΛΥΣΗ ΣΥΣΤΑΔΩΝ ΤΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΩΝ ΤΟΥ ΤΜΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ ΤΟΥΣ ΦΟΙΤΗΤΕΣ» Της σπουδάστριας ΚΑΤΣΑΡΟΥ ΧΑΡΙΚΛΕΙΑΣ Επιβλέπων Δρ. ΓΕΡΟΝΤΙΔΗΣ

Διαβάστε περισσότερα

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς Φωτεινή Καλαφάτη Πολυτεχνείο Κρήτης Σχολή Μηχανικών Παραγωγής και Διοίκησης Πολυτεχνειούπολη, 73100 Χανιά email: fot.kalafati@yahoo.com

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα

Διαβάστε περισσότερα

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ

10. Μη-κατευθυνόμενη ταξινόμηση ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ ΚΥΡΊΩΣ ΜΈΡΗ ΔΕΥ 1 2 3 1 ΚΑΤΗΓΟΡΊΕΣ ΤΑΞΙΝΌΜΗΣΗΣ Κατευθυνόμενη ταξινόμηση (supervised classification) Μη-κατευθυνόμενη ταξινόμηση (unsupervised classification) Γραμμική: Μη-Γραμμική: Ιεραρχική: Επιμεριστική:

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA Μαρκαντωνάτου Μαρία Α.Μ.: 379 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Δρ. Τσιμπίρης

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

ιαµέριση - Partitioning

ιαµέριση - Partitioning ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΜΕ ΣΚΟΠΟ ΤΗΝ ΤΙΜΟΛΟΓΗΣΗ

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΜΕ ΣΚΟΠΟ ΤΗΝ ΤΙΜΟΛΟΓΗΣΗ Σ ε λ ί δ α 0 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΚΑΤΑΝΑΛΩΤΩΝ ΜΕ ΣΚΟΠΟ ΤΗΝ ΤΙΜΟΛΟΓΗΣΗ Διπλωματική

Διαβάστε περισσότερα

ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ Λ03Β ΑΛΓΟΡΙΘΜΟΙ ΔΙΚΤΥΩΝ & ΠΟΛΥΠΛΟΚΟΤΗΤΑ ΦΛΕΒΑΡΗΣ 2004

ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ Λ03Β ΑΛΓΟΡΙΘΜΟΙ ΔΙΚΤΥΩΝ & ΠΟΛΥΠΛΟΚΟΤΗΤΑ ΦΛΕΒΑΡΗΣ 2004 ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ Λ03Β ΑΛΓΟΡΙΘΜΟΙ ΔΙΚΤΥΩΝ & ΠΟΛΥΠΛΟΚΟΤΗΤΑ ΦΛΕΒΑΡΗΣ 2004 Παρουσίαση του paper: Increasing the Weight of Minimum Spanning Trees Greg N. Frederickson and Roberto Solis- Oba Journal of Algorithms

Διαβάστε περισσότερα

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. ιπλωµατική Εργασία ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ιπλωµατική Εργασία «Μετάδοση πληροφορίας σε ασύρµατο δίκτυο αισθητήρων µε οµαδοποιηµένους κόµβους και µε χρήση διευθύνσεων

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΑΔ. ΕΤΟΣ 2007-2008 14.02.2008 EΠΙΣΤΡΕΦΕΤΑΙ ΔΙΔΑΣΚΩΝ Ιωάννης Βασιλείου, Καθηγητής,

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής Τεχνολογικό Εκπαιδευτικό Ίδρυμα Καβάλας Σχολή Τεχνολογικών Εφαρμογών Τμήμα Βιομηχανικής Πληροφορικής Διπλωματική Εργασία: Ομαδοποίηση γράφων με τους αλγόριθμους k-means και DBSCAN. Σπουδαστής: Νικηφοράκης

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Εργασία 2η Clustering

Αναγνώριση Προτύπων Εργασία 2η Clustering ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Αναγνώριση Προτύπων Εργασία 2η Clustering Κιντσάκης Αθανάσιος 6667 Μόσχογλου Στυλιανός 6978 18 Ιανουαρίου, 2013

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης DIP_05 Τμηματοποίηση εικόνας ΤΕΙ Κρήτης ΤΜΗΜΑΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Τμηματοποίηση εικόνας είναι η διαδικασία με την οποία διαχωρίζεται μία εικόνα σε κατάλληλες περιοχές ή αντικείμενα. Για την τμηματοποίηση

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα Αλγόριθμοι και Πολυπλοκότητα Ανάλυση Αλγορίθμων Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ανάλυση Αλγορίθμων Η ανάλυση αλγορίθμων περιλαμβάνει τη διερεύνηση του τρόπου

Διαβάστε περισσότερα

Network Algorithms and Complexity Παραλληλοποίηση του αλγορίθμου του Prim. Αικατερίνη Κούκιου

Network Algorithms and Complexity Παραλληλοποίηση του αλγορίθμου του Prim. Αικατερίνη Κούκιου Network Algorithms and Complexity Παραλληλοποίηση του αλγορίθμου του Prim Αικατερίνη Κούκιου Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό,

Διαβάστε περισσότερα

Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων

Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Εφαρμοσμένη Πολυμεταβλητή Ανάλυση : Ανάλυση κατά συστάδες 1. Εισαγωγή Ανάλυση κατά συστάδες με χρήση στατιστικών πακέτων Η ομαδοποίηση δεδομένων

Διαβάστε περισσότερα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα Ανάλυση Διασποράς Έστω ότι μας δίνονται δείγματα που προέρχονται από άγνωστους πληθυσμούς. Πόσο διαφέρουν οι μέσες τιμές τους; Με άλλα λόγια: πόσο πιθανό είναι να προέρχονται από πληθυσμούς με την ίδια

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Μέθοδοι πολυδιάστατης ελαχιστοποίησης Μέθοδοι πολυδιάστατης ελαχιστοποίησης με παραγώγους Μέθοδοι πολυδιάστατης ελαχιστοποίησης Δ. Γ. Παπαγεωργίου Τμήμα Μηχανικών Επιστήμης Υλικών Πανεπιστήμιο Ιωαννίνων dpapageo@cc.uoi.gr http://pc64.materials.uoi.gr/dpapageo

Διαβάστε περισσότερα

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ) «ΣΠ0ΥΔΑI», Τόμος 47, Τεύχος 3o-4o, Πανεπιστήμιο Πειραιώς / «SPOUDAI», Vol. 47, No 3-4, University of Piraeus ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ) Υπό Γιάννης

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

BIRCH: : An Efficient Data Clustering Method for Very Large Databases

BIRCH: : An Efficient Data Clustering Method for Very Large Databases BIRCH: : An Efficient Data Clustering Method for Very Large Databases Tian Zhang Raghu Ramakrishnan Miron Livny Παρουσίαση: Μαρία Καθηγητής: Μιχάλης Μάθημα: Θέματα Μαρία Δήμα Μιχάλης Χατζόπουλος Θέματα

Διαβάστε περισσότερα

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Η παραπάνω ανάλυση ήταν χρήσιμη προκειμένου να κατανοήσουμε τη λογική των δικτύων perceptrons πολλών επιπέδων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Αλγόριθμος Ομαδοποίησης

Αλγόριθμος Ομαδοποίησης Αλγόριθμος Ομαδοποίησης Εμπειρίες από τη μελέτη αναλλοίωτων χαρακτηριστικών και ταξινομητών για συστήματα OCR Μορφονιός Κωνσταντίνος Αθήνα, Ιανουάριος 2002 Γενικά Ένα σύστημα OCR χρησιμοποιείται για την

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή; Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση

Διαβάστε περισσότερα

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Πρόβλημα 1 Το πρώτο πρόβλημα λύνεται με τη μέθοδο του Δυναμικού Προγραμματισμού. Για να το λύσουμε με Δυναμικό Προγραμματισμό

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Συσταδοποίηση IIΙ DBSCAN. DBSCAN: Γενικά. DBSCAN: Γενικά. DBSCAN: Αλγόριθμος. DBSCAN: Αλγόριθμος

Συσταδοποίηση IIΙ DBSCAN. DBSCAN: Γενικά. DBSCAN: Γενικά. DBSCAN: Αλγόριθμος. DBSCAN: Αλγόριθμος Εξόρυξη Δεδομένων: Ακ. Έτος 7-8 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ Συσταδοποίηση IIΙ DBSCAN Μέρος των διαφανειών είναι από το P.-N. Tan, M.Stenbach, V. Kumar, «Introducton to Data Mnng», Addson Wesle, 6 Εξόρυξη Δεδομένων:

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βασιλική

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βασιλική Graph Algorithms Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βασιλική Περιεχόμενα minimum weight spanning tree connected components transitive closure shortest paths

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017 2 Γιατί ανάλυση διακύμανσης; (1) Ας θεωρήσουμε k πληθυσμούς με μέσες τιμές μ 1, μ 2,, μ k, αντίστοιχα Πως μπορούμε να συγκρίνουμε τις μέσες τιμές k πληθυσμών

Διαβάστε περισσότερα

Περιεχόμενα. Δομές δεδομένων. Τεχνικές σχεδίασης αλγορίθμων. Εισαγωγή στον προγραμματισμό. Υποπρογράμματα. Επαναληπτικά κριτήρια αξιολόγησης

Περιεχόμενα. Δομές δεδομένων. Τεχνικές σχεδίασης αλγορίθμων. Εισαγωγή στον προγραμματισμό. Υποπρογράμματα. Επαναληπτικά κριτήρια αξιολόγησης Περιεχόμενα Δομές δεδομένων 37. Δομές δεδομένων (θεωρητικά στοιχεία)...11 38. Εισαγωγή στους μονοδιάστατους πίνακες...16 39. Βασικές επεξεργασίες στους μονοδιάστατους πίνακες...25 40. Ασκήσεις στους μονοδιάστατους

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2016-17 Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) http://mixstef.github.io/courses/csintro/ Μ.Στεφανιδάκης Αφηρημένες

Διαβάστε περισσότερα

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια

Graph Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια Graph Algorithms Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Καούρη Γεωργία Μήτσου Βάλια Περιεχόμενα Μεταβατικό Κλείσιμο Συνεκτικές συνιστώσες Συντομότερα μονοπάτια Breadth First Spanning

Διαβάστε περισσότερα

ΜΕΘΟΔΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΟΥ ΠΛΗΘΟΥΣ ΟΜΑΔΩΝ ΓΙΑ ΠΟΛΥΔΙΑΣΤΑΤΑ ΔΕΔΟΜΕΝΑ

ΜΕΘΟΔΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΟΥ ΠΛΗΘΟΥΣ ΟΜΑΔΩΝ ΓΙΑ ΠΟΛΥΔΙΑΣΤΑΤΑ ΔΕΔΟΜΕΝΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΜΕΘΟΔΟΙ ΕΥΡΕΣΗΣ ΒΕΛΤΙΣΤΟΥ ΠΛΗΘΟΥΣ ΟΜΑΔΩΝ ΓΙΑ ΠΟΛΥΔΙΑΣΤΑΤΑ ΔΕΔΟΜΕΝΑ Φανή Ζαφειροπούλου

Διαβάστε περισσότερα

Σχεδίαση και Ανάλυση Αλγορίθμων

Σχεδίαση και Ανάλυση Αλγορίθμων Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 4.0 Επιλογή Αλγόριθμοι Επιλογής Select και Quick-Select Σταύρος Δ. Νικολόπουλος 2016-17 Τμήμα Μηχανικών Η/Υ & Πληροφορικής Πανεπιστήμιο Ιωαννίνων Webpage: www.cs.uoi.gr/~stavros

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Κατανεμημένα Συστήματα Ι Παναγιώτα Παναγοπούλου Χριστίνα Σπυροπούλου 8η Διάλεξη 8 Δεκεμβρίου 2016 1 Ασύγχρονη κατασκευή BFS δέντρου Στα σύγχρονα συστήματα ο αλγόριθμος της πλημμύρας είναι ένας απλός αλλά

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ποσοτικές Μέθοδοι Ανάλυσης στις Ενότητα 5: Ανάλυση στοιχείων. Θεόδωρος Χατζηπαντελής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ Παπαδάκης Χαράλαμπος 1, Παναγιωτάκης Κώστας 2, Παρασκευή Φραγκοπούλου 1 1 Τμήμα Μηχ/κών Πληροφορικής, ΤΕΙ Κρήτης 2 Τμήμα

Διαβάστε περισσότερα

Minimum Spanning Tree: Prim's Algorithm

Minimum Spanning Tree: Prim's Algorithm Minimum Spanning Tree: Prim's Algorithm 1. Initialize a tree with a single vertex, chosen arbitrarily from the graph. 2. Grow the tree by one edge: of the edges that connect the tree to vertices not yet

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΘΕΜΑ

ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΘΕΜΑ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΘΕΜΑ «Ανάπτυξη γραφικού περιβάλλοντος σε Matlab για συσταδοποίηση δεδομένων μέσω των ιεραρχικών αλγορίθμων

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα 7ο εξάμηνο Σ.Η.Μ.Μ.Υ. & Σ.Ε.Μ.Φ.Ε. http://www.corelab.ece.ntua.gr/courses/ 4η εβδομάδα: Εύρεση k-οστού Μικρότερου Στοιχείου, Master Theorem, Τεχνική Greedy: Knapsack, Minimum Spanning Tree, Shortest Paths

Διαβάστε περισσότερα

Διαίρει και Βασίλευε. πρόβλημα μεγέθους Ν. διάσπαση. πρόβλημα μεγέθους k. πρόβλημα μεγέθους Ν-k

Διαίρει και Βασίλευε. πρόβλημα μεγέθους Ν. διάσπαση. πρόβλημα μεγέθους k. πρόβλημα μεγέθους Ν-k Διαίρει και Βασίλευε πρόβλημα μεγέθους Ν διάσπαση πρόβλημα μεγέθους k πρόβλημα μεγέθους Ν-k Διαίρει και Βασίλευε πρόβλημα μεγέθους Ν διάσπαση επιλύουμε αναδρομικά τα υποπροβλήματα πρόβλημα μεγέθους k πρόβλημα

Διαβάστε περισσότερα

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

auth Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο Σχεδίαση Αλγορίθμων Διαίρει και Βασίλευε http://delab.csd.auth.gr/courses/algorithms/ auth 1 Διαίρει και Βασίλευε Η γνωστότερη ρημέθοδος σχεδιασμού αλγορίθμων: 1. Διαιρούμε το στιγμιότυπο του προβλήματος

Διαβάστε περισσότερα

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων 1 Μονοπαραγοντική Ανάλυση Διακύμανσης Παραμετρικό στατιστικό κριτήριο για τη μελέτη της επίδρασης μιας ανεξάρτητης μεταβλητής στην εξαρτημένη Λογική

Διαβάστε περισσότερα

Ταξινόμηση με συγχώνευση Merge Sort

Ταξινόμηση με συγχώνευση Merge Sort Ταξινόμηση με συγχώνευση Merge Sort 7 2 9 4 2 4 7 9 7 2 2 7 9 4 4 9 7 7 2 2 9 9 4 4 Πληροφορικής 1 Διαίρει και Βασίλευε Η μέθοδος του «Διαίρει και Βασίλευε» είναι μια γενική αρχή σχεδιασμού αλγορίθμων

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 3 Ο Εργαστήριο WEKA (CLUSTERING) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Συσταδοποίηση (Clustering) Συσταδοποίηση / Ομαδοποίηση

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα