Αποθήκες και Εξόρυξη Δεδομένων

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Αποθήκες και Εξόρυξη Δεδομένων"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 3 Ο Εργαστήριο WEKA (CLUSTERING) Στουγιάννου Ελευθερία estoug@unipi.gr

2 -2- Συσταδοποίηση (Clustering) Συσταδοποίηση / Ομαδοποίηση Ιεραρχικοί (πχ. COBWEB), διαμεριστικοί (πχ. K-MEANS), με βάση τη πυκνότητα (πχ. DBSCAN). Διαχωρισμός των δεδομένων σε ομάδες/συστάδες, έτσι ώστε για κάθε εγγραφή που περιλαμβάνει μία συστάδα, η ομοιότητα της με οποιασδήποτε εγγραφή από την ίδια συστάδα να είναι μεγαλύτερη από την ομοιότητα της με οποιασδήποτε εγγραφή από άλλες συστάδες. Μη εποπτευόμενη μάθηση. Δε γνωρίζουμε την κλάση στην οποία ανήκουν τα δεδομένα εκπαίδευσης. Μας δίνεται ένα σύνολο μετρήσεων, παρατηρήσεων κλπ., με στόχο, να ανακαλύψουμε κλάσεις ή ομάδες μέσα στα δεδομένα.

3 -3- Τακτικές Συσταδοποίησης Μια συσταδοποίηση είναι ένα σύνολο από συστάδες. Διαχωριστική Συσταδοποίηση (Partitional Clustering) Ένας διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα non-overlapping υποσύνολα (συστάδες) τέτοιος ώστε, κάθε αντικείμενο να ανήκει σε ένα ακριβώς υποσύνολο. Ιεραρχική Συσταδοποίηση (Hierarchical Clustering) - Ένα σύνολο από εμφωλευμένες (nested) ομάδες. - Επιτρέπουμε σε μια συστάδα να έχει υποσυστάδες οργανωμένες σε ένα ιεραρχικό δέντρο.

4 -4- WEKA CLUSTERING DATA Το WEKA περιέχει αλγόριθμους συσταδοποίησης για εύρεση ομάδων όμοιων εγγραφών στο σύνολο των δεδομένων. Κάποια παραδείγματα είναι: k-means, EM, Cobweb, X-means, FarthestFirst. Οι συστάδες μπορούν να οπτικοποιηθούν και να συγκριθούν με τις πραγματικές συστάδες (εάν δίνονται). Γίνεται εκτίμηση βασιζόμενη στη log-likelihood, εάν το clustering scheme παράγει κατανομή πιθανότητας.

5 -5- WEKA Explorer: Clustering (1/3) Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων όμοιων δεδομένων). Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου.

6 -6- WEKA Explorer: Clustering (2/3) Οι αλγόριθμοι συσταδοποίησης που έχουν υλοποιηθεί είναι οι: Cobweb (ιεραρχική συσταδοποίηση) DBScan (Συσταδοποίηση με βάση την Πυκνότητα) EM Farthest First OPTICS SimpleKmeans (K-means) Xmeans

7 -7- WEKA Explorer: Clustering (3/3) ΔΙΑΦ.5: Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων όμοιων δεδομένων). ΔΙΑΦ.5: Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου. Οι τιμές των παραμέτρων κάθε αλγορίθμου συσταδοποίησης (όπως, ο αριθμός των clusters στον kmeans, το eps και το MinPts στον DBScan) μπορούν να τροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του αλγορίθμου όταν αυτός έχει επιλεγεί (βλ.διαφ.14). Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα δεδομένα (από το result list) εμφανίζεται ένα μενού με την βοήθεια του οποίου μπορεί να εμφανιστεί η γραφική αναπαράσταση των δεδομένων, με βάση τις ομάδες που έχουν προκύψει από το clustering (βλ. Διαφ.15).

8 -8- WEKA Explorer: Cluster Mode (1/5) Επιλογές: Use training set (default): Μετά τη δημιουργία των clusters, το Weka ταξινομεί τα δεδομένα εκπαίδευσης σε clusters σύμφωνα με την αναπαράσταση του cluster και υπολογίζει το ποσοστό των δεδομένων που ανήκει σε κάθε cluster. Με την επιλογή αυτή, το μοντέλο δημιουργείται με κριτήριο τη βέλτιστη εκτίμηση της μεταβλητής εξόδου σε σχέση με το σύνολο των εγγραφών των δεδομένων εισόδου. Supplied test set: Ο classifier αποτιμάται στο πόσο καλά προβλέπει την class (δημιουργία συστάδας) από το set των instances που φορτώθηκαν από το αρχείο. Το Weka μπορεί να αξιολογήσει τα clusters σε διαφορετικά δεδομένα ελέγχου, όταν η αναπαράσταση του cluster είναι πιθανοκεντρική (prοpabilistic, πχ. ΕΜ) Percentage split: Με την επιλογή αυτή ο χρήστης καθορίζει το ποσοστό (επί τοις εκατό) των δεδομένων εισόδου που θα χρησιμοποιηθούν για τη δημιουργία του μοντέλου (training set), ενώ από τις υπόλοιπες εγγραφές θα υπολογιστεί το σφάλμα εκτίμησης του μοντέλου (test set). Classes to clusters evaluation: Αρχικά, αγνοείται το class attribute και έπειτα, δημιουργούνται τα clusters. Έπειτα, κατά τη διάρκεια του testing, εκχωρούνται κλάσεις στα clusters βασιζόμενες στις πιο συχνές τιμές που παίρνουν τα class attributes μέσα στο κάθε cluster. Κατόπιν, υπολογίζεται το λάθος ταξινόμησης, βασιζόμενο σε αυτήν την εκχώρηση Με την επιλογή αυτή γίνεται αξιολόγηση στο κατά πόσο τα επιλεγμένα clusters ταιριάζουν με την προσδιορισμένη κλάση των δεδομένων. Το drop-down box που υπάρχει κάτω από αυτή την επιλογή, επιλέγει την κλάση.

9 -9- WEKA Explorer: Cluster Mode (2/5) ΠΧ. Cobweb: Δημιουργεί ιεραρχικό clustering, όπου τα clusters περιγράφονται ως πιθανοκεντρικά (propabilistic), δηλ. χρησιμοποιεί αποστάσεις για να υπολογίζει την πιθανότητα μια εγγραφή να βρίσκεται σε μία συγκεκριμένη συστάδα. Π.χ. weather data (weather.arff) Scheme: weka.clusterers.cobweb - A 1.0 -C Relation: weather Instances: 14 Attributes: 5 outlook temperature humidity windy Ignored: play Test mode: evaluate on training data === Clustering model (full training set) === Number of merges: 2 Number of splits: 1 Number of clusters: 6 node 0 [14] node 1 [8] leaf 2 [2] node 1 [8] leaf 3 [3] node 1 [8] leaf 4 [3] node 0 [14] leaf 5 [6] Το class attribute (play) αγνοείται (χρησιμοποιώντας το ignore attributes panel) για να μας επιτραπεί αργότερα να επιλέξουμε το «classes to clusters evaluation». Κάνοντας το αυτό αυτόματα (μέσω του "Classes to clusters") δεν έχει μεγάλη σημασία για το ιεραρχικό clustering, εξαιτίας του μεγάλου αριθμού των clusters. Μερικές φορές, χρειάζεται να αξιολογούμε ξεχωριστά τα clusters στο ιεραρχικό clustering. === Evaluation on training set === Number of merges: 2 Number of splits: 1 Number of clusters: 6 node 0 [14] node 1 [8] leaf 2 [2] node 1 [8] leaf 3 [3] node 1 [8] leaf 4 [3] node 0 [14] leaf 5 [6] Clustered Instances 2 2 ( 14%) 3 3 ( 21%) 4 3 ( 21%) 5 6 ( 43%)

10 -10- WEKA Explorer: Cluster Mode (3/5) -A 1.0 -C στο command line ορίζει τις παραμέτρους του Cobweb, Acuity (ελάχιστη διακύμανση ενός cluster attribute, παράμετρος οξύτητας. Η default τιμή είναι 0.1) και Cutoff (ελάχιστο μέγεθος ωφέλειας τάξης, αποκοπή, συνολική ποιότητα διαχωρισμού των υποδειγμάτων σε ομάδες category utility. Η default τιμή είναι 0.002). Οι τιμές τους δίνονται από το παράθυρο που εμφανίζεται με κλικ πάνω στο όνομα του αλγορίθμου, δίπλα στο κουμπί Choose. node N ή leaf N αναπαριστά ένα subcluster, του οποίου ο γονέας (parent cluster) είναι το N. Η δομή που παρουσιάζει το clustering tree φαίνεται σαν ένα «οριζόντιο δέντρο», όπου subclusters ευθυγραμμίζονται στην ίδια στήλη. Για παράδειγμα, το cluster 1 (αναφέρεται στο node 1) έχει τρία subclusters: 2 (leaf 2), 3 (leaf 3) και 4 (leaf 4). Το root cluster είναι το 0. Κάθε γραμμή με node 0 ορίζει ένα subcluster της ρίζας (root). Ο αριθμός μέσα στα άγκιστρα μετά το node N αναπαριστά τον αριθμό των instances στο γονέα cluster (parent cluster) N. Τα Clusters με [1] στο τέλος της γραμμής είναι instances. Στο παράδειγμα, το cluster 1 έχει 8 instances και τα subclusters 2, 3 και 4 έχουν 2, 3 και 3 instances αντίστοιχα. Για να δείτε το clustering tree κάντε δεξί κλικ στην τελευταία γραμμή στο παράθυρο result list και έπειτα επιλέξτε Visualize tree.

11 -11- WEKA Explorer: Cluster Mode (4/5) Για την αξιολόγηση του Cobweb clustering χρησιμοποιείται η προσέγγιση classes to clusters. Χρειάζεται να γνωρίζουμε τις τιμές της κλάσης του κάθε instance, που ανήκουν στα clusters. Αυτή η πληροφορία παρέχεται από το Weka με τον ακόλουθο τρόπο: Αφού τελειώσει το Weka (και έχει επιλεχθεί το class attribute ignored), κάνουμε δεξί κλικ στην τελευταία γραμμή του παραθύρου «result list». Έπειτα, επιλέγουμε Visualize cluster assignments το οποίο ανοίγει το «Weka Clusterer Visualize» παράθυρο. Εδώ, μπορείτε να δείτε τα clusters, για παράδειγμα, βάζοντας Instance_number στο X και Cluster στο Y. Κάνοντας κλικ στο Save και επιλέγοντας ένα όνομα αρχείου (*.arff) το Weka σώζει τα cluster assignments σε ένα ARFF αρχείο. Έτσι, το αποτέλεσμα του Cobweb clustering είναι το Instance_number outlook temperature humidity windy play Cluster 0,sunny,85,85,FALSE,no,cluster3 1,sunny,80,90,TRUE,no,cluster5 2,overcast,83,86,FALSE,yes,cluster2 3,rainy,70,96,FALSE,yes,cluster4 4,rainy,68,80,FALSE,yes,cluster4 5,rainy,65,70,TRUE,no,cluster5 6,overcast,64,65,TRUE,yes,cluster5 7,sunny,72,95,FALSE,no,cluster3 8,sunny,69,70,FALSE,yes,cluster3 9,rainy,75,80,FALSE,yes,cluster4 10,sunny,75,70,TRUE,yes,cluster5 11,overcast,72,90,TRUE,yes,cluster5 12,overcast,81,75,FALSE,yes,cluster2 13,rainy,71,91,TRUE,no,cluster5

12 -12- WEKA Explorer: Cluster Mode (5/5) Για την αναπαράσταση και εκχώρηση των clusters, το Weka προσθέτει ένα νέο attribute, το Cluster και στο τέλος κάθε γραμμής δεδομένων συμπληρώνεται η αντίστοιχη τιμή. Στο αρχείο, φαίνονται Όλα τα attributes συμπεριλαμβανομένων και των αγνοούμενων (στο παράδειγμά μας, το play). Επίσης, ΜΟΝΟ τα leaf clusters φαίνονται. Υπολογισμός clusters error σύμφωνα με τις classes : Π.Χ. cluster 3 => Η κατανομή της κλάσης είναι {no, no, yes}=> Η τιμή της κλάσης που είναι σε πλειοψηφία => no, και άρα το λάθος είναι => 1/3. Υπολογισμός σφάλματος όχι μόνο για τα leaf clusters: Βλέπουμε τη δομή του clustering (π.χ. μέσω του Visualize tree) και καθορίζουμε πως τα leaf clusters συνδυάζονται σε άλλα clusters υψηλότερου επιπέδου στην ιεραρχία. Για παράδειγμα, στο υψηλότερο επίπεδο έχουμε δύο clusters - το 1 και το 5. Μπορούμε να πάρουμε την κατανομή της κλάσης του cluster 5 απευθείας από τα δεδομένα (επειδή το 5 είναι φύλλο) - 3 yes και 3 no. Ενώ, για το cluster 1 χρειαζόμαστε την κατανομή του κάθε subcluster του 2, 3 και 4. Αθροίζοντας τις τιμές της κλάσης, έχουμε 6 yes και 2 no. Τελικά, η πλειοψηφία στο cluster 1 είναι yes και στο cluster 5 είναι no (θα μπορούσε να είναι και yes) και άρα το σφάλμα (και στα δύο clusters) είναι 5/14. Weka => instances σε κάθε cluster. Οπτικοποίηση του clustering tree => κλικ σε κάθε κόμβο => instances που αντιστοιχούν σε κάθε cluster (π.χ. μέσα στα φύλλα κάθε υποδέντρου). Παρόλα αυτά, αν αγνοήσουμε ένα attribute (όπως κάναμε στο παράδειγμά μας, με το "play") αυτό το attribute δεν θα φαίνεται στο visualization.

13 -13- Συσταδοποίηση (1/3): Επιλογή Clusterer Πληροφορίες σχετικά με τα αποτελέσματα του clustering στα δεδομένα.

14 -14- Συσταδοποίηση (2/3): Καθορισμός Παραμέτρων Αλγορίθμου Οι τιμές των παραμέτρων κάθε αλγορίθμου συσταδοποίησης (όπως, ο αριθμός των clusters στον kmeans, το eps (μέγιστη ακτίνα γειτονιάς) και το MinPts (ελάχιστος αριθμός σημείων σε μια eps-γειτονιά ενός σημείου στον DBScan) μπορούν να τροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του αλγορίθμου όταν αυτός έχει επιλεγεί.

15 -15- Συσταδοποίηση (3/3): Οπτικοποίηση αποτελέσματος Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα δεδομένα (από το result list) εμφανίζεται ένα μενού με την βοήθεια του οποίου μπορεί να εμφανιστεί η γραφική αναπαράσταση των δεδομένων, με βάση τις ομάδες που έχουν προκύψει από το clustering.

16 -16- Αλγόριθμος βασισμένος σε διαχωρισμούς: K-Means (1/2) Ένας από τους πιο γνωστούς αλγόριθμους ομαδοποίησης αυτής της κατηγορίας είναι ο αλγόριθμος των Κ-μέσων (K-means). Ο αριθμός Κ, των ομάδων (clusters), καθορίζεται πριν την εκτέλεση του αλγορίθμου. Ο αλγόριθμος ξεκινά διαλέγοντας K τυχαία σημεία από τα δεδομένα ως τα κέντρα των ομάδων. Έπειτα, αναθέτει κάθε σημείο στην ομάδα της οποίας το κέντρο είναι πιο κοντά (μικρότερη απόσταση) σε αυτό το σημείο. Στη συνέχεια, υπολογίζει για κάθε ομάδα το μέσο όρο όλων των σημείων της (μέσο διάνυσμα) και ορίζει αυτό ως νέο κέντρο της. Τα δύο τελευταία βήματα επαναλαμβάνονται για ένα προκαθορισμένο αριθμό βημάτων ή μέχρι να μην υπάρχει αλλαγή στο διαχωρισμό των σημείων σε ομάδες.

17 -17- Αλγόριθμος βασισμένος σε διαχωρισμούς: K-Means (2/2) Ο αλγόριθμος K-Means σε ψευδογλώσσα:

18 -18- WEKA Clustering: Παράδειγμα 1 K-Means Επιλέξτε και φορτώστε το αρχείο weather.nominal.arff. Επιλέξτε και τρεξτε τον SimpleKMeans αλγόριθμο. Πειραματιστείτε με τις παραμέτρους του αλγορίθμου. Οπτικοποιείστε και δείτε τα αποτελέσματα του αλγορίθμου. Ερμηνεύστε τα αποτελέσματα του αλγορίθμου. Δοκιμάστε άλλους αλγόριθμους συσταδοποίησης. Επαναλάβετε την ίδια διαδικασία με το αρχείο weather.arff (numeric attributes).

19 -19- WEKA Clustering: Παράδειγμα 1 - K-Means Μερικές εφαρμογές του K-means επιτρέπουν ΜΟΝΟ αριθμητικές τιμές στα attributes. Σε αυτή την περίπτωση, είναι απαραίτητο να μετατραπεί το data set σε ένα standard spreadsheet format και να μετατραπούν τα κατηγορικά attributes σε δυαδικά. Ίσως είναι επίσης, απαραίτητο να κανονικοποιήσει τις τιμές των attributes, τα οποία υπολογίζονται σε διαφορετικές κλίμακες (πχ, "age" και "income"). Ενώ, το WEKA παρέχει Φίλτρα για όλες αυτές τις εργασίες προ-επεξεργασίας, δεν είναι απαραίτητες στο clustering στο WEKA. Αυτό, γιατί ο αλγόριθμος SimpleKMeans στο WEKA αυτόματα χειρίζεται ένα συνδυασμό από κατηγορικά και αριθμητικά δεδομένα (attributes). Επιπλέον, ο αλγόριθμος αυτόματα κανονικοποιεί τα αριθμητικά attributes όταν κάνει υπολογισμούς αποστάσεων. Ο αλγόριθμος SimpleKMeans στο WEKA χρησιμοποιεί την Ευκλείδεια απόσταση ως μέτρο υπολογισμού των αποστάσεων μεταξύ των instances και των clusters. Η τιμή seed χρησιμοποιείται για τη δημιουργία ενός τυχαίου αριθμού, ο οποίος χρησιμοποιείται, διαδοχικά, για να κάνει την αρχική ανάθεση των instances στα clusters (αρχικά σημεία στο γράφο που χτίζονται γύρω από αυτά τα clusters). Γενικά, ο K-means είναι αρκετά ευαίσθητος στον αριθμό των clusters που αρχικά ανατίθενται. Έτσι, είναι συχνά απαραίτητο να δοκιμάζουνε διαφορετικές τιμές και να αξιολογούμε τα αποτελέσματα.

20 -20- WEKA Clustering:Οπτικοποίηση Αποτελεσμάτων Παραδείγματος (1/2) Result List=> View in separate window Στο «cluster output» παρουσιάζεται το κέντρο (centroid) του κάθε cluster, καθώς επίσης και στατιστικά πάνω στον αριθμό και το ποσοστό των εγγραφών (instances) που εκχωρούνται σε διαφορετικά clusters. Τα κέντρα των Clusters είναι τα μεσοδιανύσματατα (mean vectors) για κάθε cluster (έτσι ώστε, κάθε διάσταση (dimension value) στο κέντρο να αναπαριστά την μέση τιμή για αυτή τη διάσταση στο cluster). Τα κέντρα (centroids) χρησιμοποιούνται έτσι, για να χαρακτηρίζουν μονοσήμαντα τα clusters. Result List=> Visualize cluster assignments (Π.Χ. Bank.arff) Ένας άλλος τρόπος για την κατανόηση των χαρακτηριστικών (characteristics) του κάθε cluster είναι μέσω της οπτικοποίησης (visualization). Μπορείτε να επιλέξετε τον αριθμό του cluster (cluster number) και οποιοδήποτε από τα attributes για να «εκχωρήσετε» σε κάθε μία από τις τρεις διαφορετικές, διαθέσιμες διαστάσεις (x-axis, y-axis, και color). Διαφορετικοί συνδυασμοί επιλογών έχουν ως αποτέλεσμα διαφορετικές σχέσεις μέσα σε ένα cluster.

21 -21- WEKA Clustering:Οπτικοποίηση Αποτελεσμάτων Παραδείγματος (2/2) Σε αυτό το παράδειγμα, έχουμε επιλέξει cluster number στον άξονα-χ, το instance number (που εκχωρείται από το WEKA) στον άξονα-y, και το γνώρισμα "sex" στον άξονα διάστασης του χρώματος (color dimension). Αυτό έχει ως αποτέλεσμα, την οπτικοποίηση της κατανομής των αρσενικών (males) και θηλυκών (females) σε κάθε cluster. Τελικά, μπορούμε να σώσουμε τα αποτελέσματα (resulting data set), που περιλαμβάνουν την κάθε εγγραφή (instance) μαζί με το cluster στο οποίο έχουν εκχωρηθεί. Έτσι, στην αρχή σε κάθε data set προστίθενται το "instance number" attribute (α/α), και στο τέλος κάθε data set προστίθενται το γνώρισμα "Cluster". Έτσι, στα δεδομένα του κάθε instance, έχει προστεθεί στο τέλος η τιμή του cluster που του έχει ανατεθεί. Δείτε το παράδειγμα στην επόμενη διαφάνεια.

22 -22- WEKA Clustering: Αποθήκευση Αποτελεσμάτων Παραδείγματος

23 -23- Συσταδοποίηση K-Means Το αρχικό σύνολο συστάδων επιλέγεται τυχαία. Επαναληπτικά, τα στοιχεία μετακινούνται μεταξύ συνόλων συστάδων μέχρι να φτάσουν στο επιθυμητό σύνολο. Επιτυγχάνεται υψηλός βαθμός ομοιότητας μεταξύ των στοιχείων μίας συστάδας. Δεδομένης μίας συστάδας Ki={ti1,ti2,,tim}, ο μέσος της συστάδας είναι: mi = (1/m)(ti1 + + tim). Ο μέσος της συστάδας ταυτίζεται με το κέντρο βάρους.

24 -24- WEKA Clustering: K-Means Παράδειγμα 2 (1/2) Εφαρμόζοντας τον K-Means στο WEKA. Ρύθμιση Παραμέτρων, όπως φαίνεται παρακάτω.

25 -25- WEKA Clustering: K-Means Παράδειγμα 2 (2/2) Αποτελέσματα Αλγορίθμου K-Means. === Run information === Scheme: weka.clusterers.simplekmeans -N 2 -S 10 Relation: iris-weka.filters.unsupervised.attribute.remove-r1-2,5 Instances: 150 Attributes: 2 petallength petalwidth Test mode: evaluate on training data === Model and evaluation on training set === kmeans ====== Number of iterations: 6 Within cluster sum of squared errors: Cluster centroids: Cluster 0 Mean/Mode: Std Devs: Cluster 1 Mean/Mode: Std Devs: Clustered Instances ( 67%) 1 50 ( 33%)

26 -26- Αλγόριθμος Ιεραρχικής Ομαδοποίησης: Cobweb (1/2) Οι αλγόριθμοι ιεραρχικής ομαδοποίησης συνδυάζουν ομάδες σε μεγαλύτερες ομάδες ή διαιρούν μεγάλες ομάδες σε μικρότερες. Το αποτέλεσμα των αλγορίθμων αυτών είναι μια ιεραρχία από διαφορετικές ομαδοποιήσεις των δεδομένων στο ένα άκρο της οποίας βρίσκεται μια μόνο ομάδα με όλα τα δεδομένα, και στο άλλο τόσες ομάδες όσες και ο αριθμός των δεδομένων. Με βάση την κατεύθυνση ανάπτυξης της ιεραρχίας που ακολουθούν, οι ιεραρχικοί αλγόριθμοι ομαδοποίησης χωρίζονται στους αλγορίθμους συγχώνευσης (agglomerative) και στους αλγορίθμους διαίρεσης (divisive). Οι αλγόριθμοι συγχώνευσης είναι οι πιο σημαντικοί και διαδεδομένοι από τους δύο. Βασίζονται σε μετρικές απόστασης ανάμεσα σε ομάδες. Δεδομένης μιας αρχικής ομαδοποίησης (για παράδειγμα, κάθε σημείο αποτελεί μια ομάδα), οι αλγόριθμοι αυτοί βρίσκουν τις δύο πιο κοντινές ομάδες και τις συγχωνεύουν με μία. Η διαδικασία συνεχίζεται μέχρις ότου προκύψει μία μόνο ομάδα.

27 -27- Αλγόριθμος Ιεραρχικής Ομαδοποίησης: Cobweb (2/2) Ο αλγόριθμος ιεραρχικής ομαδοποίησης σε ψευδογλώσσα: Οι ιεραρχίες που προκύπτουν από τους αλγορίθμους ιεραρχικής ομαδοποίησης μπορεί να απεικονιστούν με έναν πρακτικό και εύκολο τρόπο μέσω ενός γραφήματος δενδρικής μορφής, το οποίο ονομάζεται δενδρόγραμμα.

28 -28- WEKA Clustering: Cobweb Παράδειγμα (1/7) Επιλέγουμε την καρτέλα Preprocess και επιλέγουμε να ανοίξουμε και να φορτώσουμε το αρχείο iris.arff, που βρίσκεται στο: C:\Program Files\ Weka-3.6\data. Έπειτα, επιλέγουμε Clusterer, τον Cobweb, από την Καρτέλα Cluster.

29 -29- WEKA Clustering: Cobweb Παράδειγμα (2/7)

30 -30- WEKA Clustering: Cobweb Παράδειγμα (3/7) Κλικ εδώ

31 -31- WEKA Clustering: Cobweb Παράδειγμα (4/7)

32 -32- WEKA Clustering: Cobweb Παράδειγμα (5/7)

33 -33- WEKA Clustering: Cobweb Παράδειγμα (6/7)

34 -34- WEKA Clustering: Cobweb Παράδειγμα (7/7)

35 -35- Αλγόριθμος DBSAN (1/4) DBSCAN Density Based Spatial Clustering για Εφαρμογές με Θόρυβο. Outliers δεν θα επηρεάσουν τη δημιουργία του cluster. Είσοδος: MinPts ελάχιστος αριθμός σημείων στο cluster. Eps για κάθε σημείο στο cluster θα πρέπει να υπάρχει ένα άλλο σημείο με λιγότερη από αυτή την απόσταση - ακτίνα.

36 -36- Αλγόριθμος DBSAN (2/4) Κατάλληλος για ομάδες που έχουν υψηλή πυκνότητα σημείων, οι οποίες μπορεί να είναι διαχωρισμένες από άλλα σημεία (θόρυβος) χαμηλότερης πυκνότητας. Προϋποθέτει ότι η πυκνότητα των ομάδων είναι παρόμοια, χωρίς μεγάλες διακυμάνσεις. Πυκνότητα = #σημείων σε ακτίνα Eps. Κεντρικό σημείο: έχει πυκνότητα μεγαλύτερη ή ίση από μία τιμή MinPts (ανήκουν στο εσωτερικό των ομάδων). Συνοριακό σημείο: έχει πυκνότητα μικρότερη από MinPts, αλλά απέχει από ένα κεντρικό σημείο απόσταση μικρότερη ή ίση από Eps (βρίσκονται στα όρια των ομάδων). Θορυβώδες σημείο: κάθε άλλο σημείο (ανήκουν στις περιοχές χαμηλής πυκνότητας).

37 -37- Αλγόριθμος DBSAN (3/4) Χαρακτήρισε κάθε σημείο ως κεντρικό, συνοριακό ή θόρυβο. Αγνόησε όλα τα σημεία θορύβου. Δημιούργησε ένα γράφο με μια κορυφή για κάθε σημείο. Τοποθέτησε μια ακμή μεταξύ όλων των κεντρικών σημείων που είναι σε απόσταση έως Eps μεταξύ τους. Θέσε κάθε ομάδα συνδεδεμένων βασικών σημείων ως μια διαφορετική συστάδα. Ανάθεσε κάθε συνοριακό σημείο σε μία από τις συστάδες των συσχετιζόμενων των βασικών σημείων. Για κάθε σημείο, βρίσκουμε το k πλησιέστερο προς αυτό, καθώς και τη μεταξύ τους απόσταση. Ταξινομούμε τα σημεία ως προς την απόστασή τους από το k-οστό πλησιέστερο τους. Καθορίζουμε τις τιμές των Eps και MinPts, έτσι ώστε να διαχωρίζονται τα σημεία που ανήκουν σε ομάδες από τα θορυβώδη σημεία.

38 -38- Αλγόριθμος DBSAN (4/4)

39 -39- Σύγκριση DBSCAN με K-MEANS (1/2) Και οι 2 τοποθετούν ένα σημείο σε μία μοναδική ομάδα. Αλλά, ο dbscan μπορεί να μην ομαδοποιήσει όλα τα σημεία. Ο k-means χρησιμοποιεί την έννοια του κέντρου της ομάδας, ενώ ο dbscan της πυκνότητας. Ο dbscan χειρίζεται σωστά ομάδες με διαφορετικό σχήμα και μέγεθος, σε αντίθεση με τον k-means. Και οι 2 αλγόριθμοι δεν μπορούν να χειριστούν ομάδες με διαφορετική πυκνότητα. Ο k-means απαιτεί να μπορεί να οριστεί το κέντρο της ομάδας, ενώ ο dbscan απαιτεί να έχει νόημα η έννοια της πυκνότητας. Ο k-means έχει καλή απόδοση σε αραιά, πολυδιάστατα δεδομένα (πχ., κείμενα). Ο dbscan δεν έχει καλή απόδοση σε αυτήν την περίπτωση. Και οι 2 μπορούν (με επεκτάσεις) να χειριστούν δεδομένα άλλων τύπων εκτός από αριθμητικά.

40 -40- Σύγκριση DBSCAN με K-MEANS (2/2) Και οι 2 λαμβάνουν υπ όψιν όλα τα χαρακτηριστικά, δηλ. δεν δημιουργούν ομάδες βάσει μόνο κάποιων χαρακτηριστικών. Ο dbscan συνενώνει ομάδες που εφάπτονται ή επικαλύπτονται, σε αντίθεση με τον k-means. Η πολυπλοκότητα του k-means είναι μικρότερη από αυτή του dbscan. Ο k-means παράγει διαφορετικές συστάδες για τα ίδια δεδομένα, σε αντίθεση με τον dbscan. Ο dbscan δεν απαιτεί τον εκ των προτέρων ορισμό του αριθμού των ομάδων, όπως κάνει ο k-means. Απαιτεί όμως, τον ορισμό παραμέτρων όπως MinPts/Eps.

41 -41- WEKA Clustering: DBSCAN Παράδειγμα (1/8) Από την καρτέλα Preprocess που ανοίξαμε το αρχείο iris.arff, αφαιρούμε το attribute class. Non-class attributes Dataset s statistics

42 -42- WEKA Clustering: DBSCAN Παράδειγμα (2/8) Επιλέξτε τον αλγόριθμο Clustering, DBSAN.

43 -43- WEKA Clustering: DBSCAN Παράδειγμα (3/8) Ρύθμιση Παραμέτρων:

44 -44- WEKA Clustering: DBSCAN Παράδειγμα (4/8) Τρέξτε τον Αλγόριθμο.

45 -45- WEKA Clustering: DBSCAN Παράδειγμα (5/8) Αποτελέσματα DBSCAN === Run information === Scheme: weka.clusterers.dbscan -E 0.9 -M 6 -I weka.clusterers.foropticsanddbscan.databases.sequentialdatabase -D weka.clusterers.foropticsanddbscan.dataobjects.euclidiandataobject Relation: iris-weka.filters.unsupervised.attribute.remove-r5 Instances: 150 Attributes: 4 sepallength sepalwidth petallength petalwidth Test mode: evaluate on training data === Model and evaluation on training set === DBScan clustering results ======================================================================================== Clustered DataObjects: 150 Number of attributes: 4 Epsilon: 0.9; minpoints: 6 Index: weka.clusterers.foropticsanddbscan.databases.sequentialdatabase Distance-type: weka.clusterers.foropticsanddbscan.dataobjects.euclidiandataobject Number of generated clusters: 1 Elapsed time:.06 ( 0.) 5.1,3.5,1.4,0.2 --> 0 ( 1.) 4.9,3,1.4,0.2 --> 0 ( 2.) 4.7,3.2,1.3,0.2 --> 0 ( 3.) 4.6,3.1,1.5,0.2 --> 0 ( 4.) 5,3.6,1.4,0.2 --> 0 (146.) 6.3,2.5,5,1.9 --> 0 (147.) 6.5,3,5.2,2 --> 0 (148.) 6.2,3.4,5.4,2.3 --> 0 (149.) 5.9,3,5.1,1.8 --> 0 Clustered Instances (100%)

46 -46- WEKA Clustering: DBSCAN Παράδειγμα (6/8) Απλοποιώντας τα δεδομένα ελέγχου.

47 -47- WEKA Clustering: DBSCAN Παράδειγμα (7/8) Απλοποιώντας τα δεδομένα ελέγχου => Αφαιρέστε επιπλέον, τα attributes: sepallength, sepalwidth. Έπειτα, επιλέξτε Clusterer, τον DBSAN και δώστε τις κατάλληλες παραμέτρους, όπως φαίνεται παρακάτω.

48 -48- WEKA Clustering: DBSCAN Παράδειγμα (8/8) Αποτελέσματα DBSCAN === Run information === Scheme: weka.clusterers.dbscan -E 0.3 -M 50 -I weka.clusterers.foropticsanddbscan.databases.sequentialdatabase -D weka.clusterers.foropticsanddbscan.dataobjects.euclidiandataobject Relation: iris-weka.filters.unsupervised.attribute.remove-r1-2,5 Instances: 150 Attributes: 2 petallength petalwidth Test mode: evaluate on training data === Model and evaluation on training set === DBScan clustering results ======================================================================================== Clustered DataObjects: 150 Number of attributes: 2 Epsilon: 0.3; minpoints: 50 Index: weka.clusterers.foropticsanddbscan.databases.sequentialdatabase Distance-type: weka.clusterers.foropticsanddbscan.dataobjects.euclidiandataobject Number of generated clusters: 2 Elapsed time:.03 ( 0.) 1.4,0.2 --> 0 ( 1.) 1.4,0.2 --> 0 ( 2.) 1.3,0.2 --> 0 ( 3.) 1.5,0.2 --> 0 (146.) 5,1.9 --> 1 (147.) 5.2,2 --> 1 (148.) 5.4,2.3 --> 1 (149.) 5.1,1.8 --> 1 Clustered Instances 0 50 ( 33%) ( 67%)

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά Μάιος 2008 Τα δεδομένα που έχουμε προς επεξεργασία χωρίζονται σε τρία μέρη: 1. Τα δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ & ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ:

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Δεδομένα

Εξόρυξη Γνώσης από Δεδομένα Εξόρυξη Γνώσης από Δεδομένα Το εργαλείο WEKA Ομάδα ιαχείρισης εδομένων,, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς http://infolab.cs.unipi.gr έσποινα Κοπανάκη (dkopanak@unipi.gr) Νοέμβριος 2009 Τα δεδομένα

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση

Διαβάστε περισσότερα

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M. 09470015 AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διδάσκων: Γιώργος Τζιραλής ΔΠΜΣ ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ Στάδιο 1 ο. Προεπισκόπηση-προεπεξεργασία δεδομένων: Δίδονται τα παρακάτω

Διαβάστε περισσότερα

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ : ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ ΠΙΘΑΝΟΝΤΗΤΕΣ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΓΑΣΙΑ 08: ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ 1 Ο ΣΤΑΔΙΟ: Πριν εφαρμόσουμε οποιοδήποτε αλγόριθμο

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση

Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση (clustering) Γιάννης Θεοδωρίδης, Νίκος Πελέκης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

Επικοινωνιακή Διάταξη Σημείου-προς-Σημείο

Επικοινωνιακή Διάταξη Σημείου-προς-Σημείο Εργαστήριο 1 ΑΤΕΙ ΘΕΣΣΑΛΟΝΙΚΗΣ - ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΕΣ ΚΑΙ ΔΙΚΤΥΑ Η/Υ Επικοινωνιακή Διάταξη Σημείου-προς-Σημείο Στόχος Σε αυτό το εισαγωγικό εργαστήριο μελετάται ο τρόπος

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Δ.Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΧΟΥΧΟΥΜΗΣ ΙΩΑΝΝΗΣ Το σύνολο των

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική» Μεταπτυχιακή Διατριβή Τίτλος Διατριβής Σύγκριση αλγορίθμων εξόρυξης γνώσης από πολύ μεγάλες βάσεις δεδομένων Ονοματεπώνυμο

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε ομάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων ομάδων Συσταδοποίηση

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 2 Ο Εργαστήριο WEKA (CLASSIFICATION) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κατηγοριοποίηση Αποτελεί μια από τις βασικές

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ 6 ο : Ταξινομήσεις εικόνων μη επιβλεπόμενη ταξινόμηση

ΕΡΓΑΣΤΗΡΙΟ 6 ο : Ταξινομήσεις εικόνων μη επιβλεπόμενη ταξινόμηση ΕΡΓΑΣΤΗΡΙΟ 6 ο : Ταξινομήσεις εικόνων μη επιβλεπόμενη ταξινόμηση Μια από τις σημαντικότερες τεχνικές αυτοματοποιημένης ερμηνείας εικόνων, είναι η ταξινόμηση. Με τον όρο ταξινόμηση εννοείται η διαδικασία

Διαβάστε περισσότερα

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining»,

P.-N. Tan, M.Steinbach, V. Kumar, Introduction to Data Mining», Συσταδοποίηση Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα

Διαβάστε περισσότερα

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν, ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣ ΣΤΙΣ ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΈΤΟΣ 2009 ΌΝΟΜΑ : ΚΑΤΣΑΒΡΙΑΣ ΕΥΑΓΓΕΛΟΣ Α.Μ. : 09480014 ΕΞΑΜΗΝΟ

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 4 Ο Εργαστήριο WEKA (Association Rules) Στουγιάννου Ελευθερία estoug@unipi.gr -2- Κανόνες Συσχέτισης (Association Rules) Εύρεση

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ Θ.Ε. ΠΛΗ31 (2004-5) ΓΡΑΠΤΗ ΕΡΓΑΣΙΑ #3 Στόχος Στόχος αυτής της εργασίας είναι η απόκτηση δεξιοτήτων σε θέματα που αφορούν τα Τεχνητά Νευρωνικά Δίκτυα και ποιο συγκεκριμένα θέματα εκπαίδευσης και υλοποίησης.

Διαβάστε περισσότερα

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH

Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH Συσταδοποίηση II DBScan Εγκυρότητα Συσταδοποίησης BIRCH Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006 Εξόρυξη Δεδομένων: Ακ. Έτος

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA Ειρήνη Ντούτση Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http://isl.cs.unipi.gr/db) 02/04/2008 Ανακάλυψη και

Διαβάστε περισσότερα

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση Η μορφή των δεδομένων και η σημασία της Δεδομένα input Αλγόριθμοι Εξόρυξης

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ 6ο: Ταξινομήσεις εικόνων μη επιβλεπόμενη ταξινόμηση

ΕΡΓΑΣΤΗΡΙΟ 6ο: Ταξινομήσεις εικόνων μη επιβλεπόμενη ταξινόμηση ΕΡΓΑΣΤΗΡΙΟ 6ο: Ταξινομήσεις εικόνων μη επιβλεπόμενη ταξινόμηση Μια από τις σημαντικότερες τεχνικές αυτοματοποιημένης ερμηνείας εικόνων, είναι η ταξινόμηση. Με τον όρο ταξινόμηση εννοείται η διαδικασία

Διαβάστε περισσότερα

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση Συσταδοποίηση II Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 Εξόρυξη Δεδομένων: Ακ. Έτος 008-009 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ Τι είναι συσταδοποίηση

Διαβάστε περισσότερα

SPSS Statistical Package for the Social Sciences

SPSS Statistical Package for the Social Sciences SPSS Statistical Package for the Social Sciences Ξεκινώντας την εφαρμογή Εισαγωγή εδομένων Ορισμός Μεταβλητών Εισαγωγή περίπτωσης και μεταβλητής ιαγραφή περιπτώσεων ή και μεταβλητών ΣΤΑΤΙΣΤΙΚΗ Αθανάσιος

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα

Διαβάστε περισσότερα

Ι. Preprocessing (Επεξεργασία train.arff):

Ι. Preprocessing (Επεξεργασία train.arff): Ονοματεπώνυμο: Κατερίνα Αργύρη Δ.Π.Μ.Σ: Εφαρμοσμένες Μαθηματικές Επιστήμες Ακαδ. Έτος: 2008-2009 1 Για την παρούσα εργασία διατίθενται τρία σύνολα δεδομένων: Δεδομένα Εκπαίδευσης (train set αρχείο train.arff):

Διαβάστε περισσότερα

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ 8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ Στόχος του εργαστηρίου αυτού είναι να δείξει πώς τα εργαστήρια με τα δεδομένα της ICAP μπορούν να υλοποιηθούν χωρίς τη χρήση SQL Server, χρησιμοποιώντας μόνον Excel και Rapid

Διαβάστε περισσότερα

Συσταδοποίηση/ Ομαδοποίηση

Συσταδοποίηση/ Ομαδοποίηση Συσταδοποίηση/ Ομαδοποίηση Lecture Notes for Chapter 8 Introduction to Data Mining by Tan, Steinbach, Kumar 1 Τι είναι η ανάλυση ομάδων/ομαδοποίηση (Συσταδοποίηση)? Εύρεση συνόλων από αντικείμενα έτσι

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ EXCEL ΣΤΟ GRETL

ΕΙΣΑΓΩΓΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ EXCEL ΣΤΟ GRETL ΕΙΣΑΓΩΓΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ EXCEL ΣΤΟ GRETL Με το οικονομετρικό λογισμικό GRETL μπορούμε να κάνουμε Ανάλυση Χρονοσειρών σε δεδομένα (χρονοσειρές) με διάφορες μεθόδους και μοντέλα. Επειδή είναι εύκολο να βρούμε

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

ΗΥ360 Αρχεία και Βάσεις εδοµένων

ΗΥ360 Αρχεία και Βάσεις εδοµένων ΗΥ360 Αρχεία και Βάσεις εδοµένων ιδάσκων:. Πλεξουσάκης Tutorial B-Trees, B+Trees Μπαριτάκης Παύλος 2018-2019 Ιδιότητες B-trees Χρήση για μείωση των προσπελάσεων στον δίσκο Επέκταση των Binary Search Trees

Διαβάστε περισσότερα

Συνδυασμός Μαθηματικών με γραφικές παραστάσεις

Συνδυασμός Μαθηματικών με γραφικές παραστάσεις Το πρόγραμμα Origin Συνδυασμός Μαθηματικών με γραφικές παραστάσεις Δημιουργία γραφικής παράστασης συνάρτησης Για να δημιουργήσετε τη γραφική παράσταση από μια συνάρτηση επιλέξτε File-New-Graph To Origin

Διαβάστε περισσότερα

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική Κατηγοριοποίηση Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά

Διαβάστε περισσότερα

Word 3: Δημιουργία πίνακα

Word 3: Δημιουργία πίνακα Word 3: Δημιουργία πίνακα Θα ολοκληρώσουμε την πρακτική μας άσκηση πάνω στο περιβάλλον του Microsoft Word 2013 πειραματιζόμενοι με την καταχώρηση ενός πίνακα στο εσωτερικό ενός εγγράφου. Πολλές φορές απαιτείται

Διαβάστε περισσότερα

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Αποθήκες και Εξόρυξη Δεδομένων 1 Ο Εργαστήριο Εισαγωγή στο WEKA (Preprocessing Select Attributes) Στουγιάννου Ελευθερία estoug@unipi.gr -2- ΠΕΡΙΕΧΟΜΕΝΑ Εισαγωγή

Διαβάστε περισσότερα

6. ΕΠΙΣΚΟΠΗΣΗ ΤΟΥ ΧΑΡΤΗ

6. ΕΠΙΣΚΟΠΗΣΗ ΤΟΥ ΧΑΡΤΗ 6. ΕΠΙΣΚΟΠΗΣΗ ΤΟΥ ΧΑΡΤΗ Θα προχωρήσουμε στη δημιουργία ενός χάρτη με τίτλο, υπόμνημα, κλίμακα και βορρά προσανατολισμού, τον οποίο και θα εκτυπώσουμε. Αρχικά ενεργοποιούμε την επιλογή Layout View. Από

Διαβάστε περισσότερα

ΝΕΑ ΟΡΓΑΝΩΤΙΚΗ ΔΟΜΗ BUSINESS ΜΙΣΘΟΔΟΣΙΑ / PYLON PAYROLL & HRM EMPLOYEE SELF SERVICE

ΝΕΑ ΟΡΓΑΝΩΤΙΚΗ ΔΟΜΗ BUSINESS ΜΙΣΘΟΔΟΣΙΑ / PYLON PAYROLL & HRM EMPLOYEE SELF SERVICE ΝΕΑ ΟΡΓΑΝΩΤΙΚΗ ΔΟΜΗ BUSINESS ΜΙΣΘΟΔΟΣΙΑ / PYLON PAYROLL & HRM EMPLOYEE SELF SERVICE ΠΕΡΙΕΧΟΜΕΝΑ 1. Περίληψη... 3 2. Θεωρία... 3 2.1. Βασική Δομή... 3 2.2. Θέσεις Απασχόλησης... 4 2.2.1 Ορισμός... 4 2.2.2.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

Προσομείωση ασύρματων δικτύων με τη χρήση του OPNET Modeler

Προσομείωση ασύρματων δικτύων με τη χρήση του OPNET Modeler Προσομείωση ασύρματων δικτύων με τη χρήση του OPNET Modeler ΣΚΟΠΟΙ Σε αυτήν την άσκηση: Θα φτιάξουμε μικρά ασύρματα δίκτυα Θα επιλέξουμε ποια δεδομένα θα συλλέξουμε Θα τρέξουμε την προσομείωση Θα αναλύσουμε

Διαβάστε περισσότερα

8o ΕΡΓΑΣΤΗΡΙΟ ΣΦΑΛΜΑΤΑ, ΜΟΡΦΟΠΟΙΗΣΗ ΥΠΟ ΟΡΟΥΣ ΚΑΙ ΓΡΑΦΗΜΑΤΑ

8o ΕΡΓΑΣΤΗΡΙΟ ΣΦΑΛΜΑΤΑ, ΜΟΡΦΟΠΟΙΗΣΗ ΥΠΟ ΟΡΟΥΣ ΚΑΙ ΓΡΑΦΗΜΑΤΑ 8o ΕΡΓΑΣΤΗΡΙΟ ΣΦΑΛΜΑΤΑ, ΜΟΡΦΟΠΟΙΗΣΗ ΥΠΟ ΟΡΟΥΣ ΚΑΙ ΓΡΑΦΗΜΑΤΑ ΠΕΡΙΕΧΟΜΕΝΟ ΜΑΘΗΜΑΤΟΣ 1. Κωδικοί σφαλμάτων 2. Μορφοποίηση υπό όρους 3. Γραφήματα 1. Κωδικοί σφαλμάτων ΘΕΩΡΗΤΙΚΟ ΜΕΡΟΣ #### Το πλάτος της στήλης

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΡΟΣΟΜΟΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΤΟ ΛΟΓΙΣΜΙΚΟ EXTEND. 1 ο εργαστήριο Διοίκησης και Παραγωγής Έργων

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΡΟΣΟΜΟΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΤΟ ΛΟΓΙΣΜΙΚΟ EXTEND. 1 ο εργαστήριο Διοίκησης και Παραγωγής Έργων ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΡΟΣΟΜΟΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΤΟ ΛΟΓΙΣΜΙΚΟ EXTEND 1 ο εργαστήριο Διοίκησης και Παραγωγής Έργων ΙΣΤΟΤΟΠΟΣ ΕΡΓΑΣΤΗΡΙΟΥ http://www.mech.upatras.gr/~adamides/dpe ΠΡΟΣΟΜΟΙΩΣΗ Η τεχνική

Διαβάστε περισσότερα

ΤΕΙ Ιονίων Νήσων Εργαστηριακές Ασκήσεις στα Γεωγραφικά Συστήματα Πληροφοριών

ΤΕΙ Ιονίων Νήσων Εργαστηριακές Ασκήσεις στα Γεωγραφικά Συστήματα Πληροφοριών ΕΡΓΑΣΤΗΡΙΟ 2 ο : Εισαγωγή στα Γεωγραφικά Συστήματα Πληροφοριών ArcMap (2/2) Μέρος 1: (συνέχεια από τα προηγούμενα) Κάνουμε κλικ το εικονίδιο Add Data στην γραμμή εργαλείων standard και επιλέγουμε το αρχείο/τα

Διαβάστε περισσότερα

Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων Kεφάλαιο 13 Ανάλυση δεδομένων...

Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων Kεφάλαιο 13 Ανάλυση δεδομένων... Μέρος 2 Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων... 211 Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων... 241 Kεφάλαιο 13 Ανάλυση δεδομένων... 257 Kεφάλαιο 14 Συναρτήσεις Μέρος Β... 285 Kεφάλαιο 15 Ευρετήριο

Διαβάστε περισσότερα

Διαχείριση Έργων Πληροφορικής Εργαστήριο

Διαχείριση Έργων Πληροφορικής Εργαστήριο Διαχείριση Έργων Πληροφορικής Εργαστήριο «Εισαγωγή στο MS Project- Διάγραμμα Gantt» Μ.Τσικνάκης, Ρ.Χατζάκη Ε. Μανιαδή, Ά. Μαριδάκη 1. Εισαγωγή στο Microsoft Project To λογισμικό διαχείρισης έργων MS Project

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών

Εισαγωγή στην επιστήμη των υπολογιστών Εισαγωγή στην επιστήμη των υπολογιστών Υπολογιστές και Δεδομένα Κεφάλαιο 3ο Αναπαράσταση Αριθμών www.di.uoa.gr/~organosi 1 Δεκαδικό και Δυαδικό Δεκαδικό σύστημα 2 3 Δεκαδικό και Δυαδικό Δυαδικό Σύστημα

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Χωρικά φίλτρα Χωρικά φίλτρα Γενικά Σε αντίθεση με τις σημειακές πράξεις και μετασχηματισμούς, στα

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Σχήµα 4.1: Εισαγωγή βρόγχου while-loop.

Σχήµα 4.1: Εισαγωγή βρόγχου while-loop. Ο βρόγχος While-loop 1. Ο βρόγχος while-loop εκτελείται έως ότου ικανοποιηθεί µία προκαθορισµένη συνθήκη. 2. Ο αριθµός των επαναλήψεων ενός βρόγχου while-loop δεν είναι εκ των προτέρων προκαθορισµένος,

Διαβάστε περισσότερα

Διαδικασία Διαχείρισης Παγίου Ενεργητικού

Διαδικασία Διαχείρισης Παγίου Ενεργητικού Διαδικασία Διαχείρισης Παγίου Ενεργητικού 1 Περίληψη Το συγκεκριμένο εγχειρίδιο δημιουργήθηκε για να βοηθήσει την κατανόηση της διαδικασίας διαχείρισης Παγίου Ενεργητικού. Η διαδικασία περιλαμβάνει αναλυτική

Διαβάστε περισσότερα

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ Το dataset weather περιέχει 4 μεταβλητές (outlook, temperature, humidity, windy) και 14 καταχωρήσεις για το καθένα από αυτά. Με βάση αυτές εξετάζεται το γεγονός

Διαβάστε περισσότερα

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436 A εξάμηνο 2009-2010 Περιγραφική Στατιστική Ι users.att.sch.gr/abouras abouras@sch.gr sch.gr abouras@uth.gr Μέτρα θέσης Η θέση αντιπροσωπεύει τη θέση της κατανομής κατά

Διαβάστε περισσότερα

Ανάλυση εικόνων DSLR με το πρόγραμμα IRIS

Ανάλυση εικόνων DSLR με το πρόγραμμα IRIS Δεκέμβριος 2014: Θεματικός Μήνας Μεταβλητών Άστρων Μαραβέλιας Γρηγόρης Ανάλυση εικόνων DSLR με το πρόγραμμα IRIS v1.0 Πηγές Το υλικό προέρχεται από τις ακόλουθες πηγές (τις οποίες μπορείτε να συμβουλευτείτε

Διαβάστε περισσότερα

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς

Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς Υλοποίηση του αλγορίθμου DBSCAN και η εφαρμογή του σε δεδομένα της αγοράς Φωτεινή Καλαφάτη Πολυτεχνείο Κρήτης Σχολή Μηχανικών Παραγωγής και Διοίκησης Πολυτεχνειούπολη, 73100 Χανιά email: fot.kalafati@yahoo.com

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques) Αναγνώριση Προτύπων Μη παραμετρικές τεχνικές Αριθμητικά Παραδείγματα (Non Parametric Techniques) Καθηγητής Χριστόδουλος Χαμζάς Τα περιεχόμενο της παρουσίασης βασίζεται στο βιβλίο: Introduction to Pattern

Διαβάστε περισσότερα

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity

Συσταδοποίηση IΙ. ιαχείριση Ποιότητας Cluster validity Συσταδοποίηση IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 006 ιαχείριση Ποιότητας Cluster validity Εξόρυξη Δεδομένων: Ακ. Έτος 006-007

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Επίδραση της βαρύτητας στο απλό εκκρεμές. Δύο λάθη ένα σωστό!

Επίδραση της βαρύτητας στο απλό εκκρεμές. Δύο λάθη ένα σωστό! Υποστηρικτικό υλικό για την εργασία Επίδραση της βαρύτητας στο απλό εκκρεμές. Δύο λάθη ένα σωστό! του Νίκου Σκουλίδη Η εργασία δημοσιεύτηκε στο 10ο τεύχος του περιοδικού Φυσικές Επιστήμες στην Εκπαίδευση,

Διαβάστε περισσότερα

1 ο Εργαστήριο Συντεταγμένες, Χρώματα, Σχήματα

1 ο Εργαστήριο Συντεταγμένες, Χρώματα, Σχήματα 1 ο Εργαστήριο Συντεταγμένες, Χρώματα, Σχήματα 1. Σύστημα Συντεταγμένων Το σύστημα συντεταγμένων που έχουμε συνηθίσει από το σχολείο τοποθετούσε το σημείο (0,0) στο σημείο τομής των δυο αξόνων Χ και Υ.

Διαβάστε περισσότερα

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j Πειραματικές Προσομοιώσεις ΚΕΦΑΛΑΙΟ 4 Όλες οι προσομοιώσεις έγιναν σε περιβάλλον Matlab. Για την υλοποίηση της μεθόδου ε-svm χρησιμοποιήθηκε το λογισμικό SVM-KM που αναπτύχθηκε στο Ecole d Ingenieur(e)s

Διαβάστε περισσότερα

Εξόρυξη Γνώσης - το εργαλείο WEKA

Εξόρυξη Γνώσης - το εργαλείο WEKA Εξόρυξη Γνώσης - το εργαλείο WEKA Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http:// http://isl.cs.unipi.gr/) Κοτσιφάκος Ευάγγελος ek@unipi.gr Νοέµβριος 2008 Ανακάλυψη και Εξόρυξη

Διαβάστε περισσότερα

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ DATA MINING ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ 1 ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Αφού δεν γνωρίζουμε κάποιο τρόπο για να επιλέξουμε εκ των προτέρων την πιο κατάλληλη και αποδοτική μέθοδο μάθησης

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση Η πληροφορία στη σύγχρονη επιχείρηση Η Ανάγκη Διαδικασία Ορισμός Αφετηρία Πρότυπα Πέραν του ανθρώπινου δυναμικού, η πληροφορία αποτελεί τον πλέον πολύτιμο

Διαβάστε περισσότερα

Nearest Neighbor Analysis

Nearest Neighbor Analysis Nearest Neighbor Analysis QGIS Tutorials and Tips Author Ujaval Gandhi http://google.com/+ujavalgandhi Translations by Christina Dimitriadou Paliogiannis Konstantinos Tom Karagkounis Despoina Karfi This

Διαβάστε περισσότερα

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση

Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, Τι είναι συσταδοποίηση Συσταδοποίηση I Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 6 Τι είναι συσταδοποίηση Εύρεση συστάδων αντικειμένων έτσι ώστε τα αντικείμενα

Διαβάστε περισσότερα

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση

Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Αλγόριθμοι και πολυπλοκότητα Συγχωνευτική Ταξινόμηση Ιωάννης Τόλλης Τμήμα Επιστήμης Υπολογιστών Συγχωνευτική Ταξινόμηση (Merge Sort) 7 2 9 4 2 4 7 9 7 2 2 7 9 4

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

ιαµέριση - Partitioning

ιαµέριση - Partitioning ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών

Διαβάστε περισσότερα

Αρχιτεκτονικές Δικτύων & Πρωτόκολλα Ι

Αρχιτεκτονικές Δικτύων & Πρωτόκολλα Ι Αρχιτεκτονικές Δικτύων & Πρωτόκολλα Ι Ενότητα : Εισαγωγή στο εργαλείο προσομοίωσης δικτύων Riverbed Modeler - Προσομοίωση δικτύου Ethernet. Όνομα Καθηγητή : Δημήτριος Λυμπερόπουλος, Σπύρος Δενάζης Τμήμα

Διαβάστε περισσότερα