ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις δεδοµένων Oracle

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις δεδοµένων Oracle"

Transcript

1 ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τµήµα Πληροφορικής και Επικοινωνιών ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις δεδοµένων Oracle Βρυώνης Ευάγγελος, ΑΕΜ 432 Τσούτσας ηµήτριος, ΑΕΜ 370 Επιβλέπων: Κόκκινος Ιωάννης Σέρρες, Ιούνιος 2011

2

3 ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) ΟΡΙΣΜΟΙ ΤΟΥ DATA MINING Μέθοδοι και λειτουργίες Data Mining ΟΙ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ORACLE ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΣΥΣΤΑ ΩΝ ΣΤΟΧΟΙ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΒΗΜΑΤΑ ΣΤΗ ΙΑ ΙΚΑΣΙΑ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΙΑ ΙΚΑΣΙΑ CLUSTERING ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ- ΜΕΤΡΑ ΑΝΟΜΟΙΟΤΗΤΑΣ: ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΩΝ CLUSTERS ΕΓΚΥΡΟΤΗΤΑ- ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΈΛΕΓΧΟΣ ΕΓΚΥΡΟΤΗΤΑΣ ΟΜΑ ΩΝ ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ The Data Matrix The Proximity Matrix The Proximity Graph ΑΛΓΟΡΙΘΜΟΙ ΙΕΡΑΡΧΙΚΟΥ CLUSTERING ΙΑΜΕΡΙΣΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ CLUSTERING CLUSTERING ΚΟΝΤΙΝΟΤΕΡΟΥ ΓΕΙΤΟΝΑ FUZZY CLUSTERING ΕΝΝΟΙΟΛΟΓΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ ΓΡΑΦΟ-ΘΕΩΡΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Αραιοποίηση Sparsification GRAPH-JARVIS-PATRIC ΕΠΕΚΤΑΣΕΙΣ ΣΤΟΝ ΑΛΓΟΡΙΘΜΟ JARVIS- PATRICK ΑΠΟΤΕΛΕΣΜΑΤΑ JARVIS-PATRIC ver ΑΠΟΤΕΛΕΣΜΑΤΑ JARVIS-PATRIC ver ΚΩ ΙΚΑΣ ΕΦΑΡΜΟΓΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑ... 84

4

5 ΠΕΡΙΛΗΨΗ Συσταδοποίηση ή οµαδοποίηση σε βάσεις δεδοµένων είναι η τεχνική εξόρυξης γνώσης από δεδοµένα (data mining) που οργανώνονται σε συστάδες (οµάδες ή κλάσεις ή συγκροτήµατα) για περαιτέρω κατάταξη. Ενώ πολλοί αλγόριθµοι που βασίζονται σε αποστάσεις όπως οι DBSCAN και CURE χρησιµοποιήθηκαν για την επίλυση προβληµάτων σε δεδοµένα λίγων διαστάσεων, η ύπαρξη πολλών διαστάσεων φέρνει πρόσθετες προκλήσεις που περιέχουν το κύριο πρόβληµα της διαστασιµότητας, καθώς οι συναρτήσεις απόστασης µεταξύ των σηµείων που καθορίζουν την οµοιότητά τους, γίνονται σχεδόν οµοιόµορφες δυσκολεύοντας το διαχωρισµό τους σε οµάδες. Οι ιδέες και έννοιες της θεωρίας γράφων διευκολύνουν την περιγραφή των προβληµάτων ανίχνευσης οµάδων δεδοµένων µέσω γράφων. Οι κορυφές (κόµβοι) V ενός ζυγισµένου γράφου G αντιστοιχούν σε σηµεία δεδοµένων στο χώρο των προτύπων και οι ακµές Ε απεικονίζουν τη γειτνίαση µεταξύ ζευγών σηµείων. Μία προσέγγιση οµοιότητας βασισµένη σε γράφο κοινών κοντινών γειτόνων όπως προτάθηκε από τους Jarvis-Patrick και µετέπειτα στον αλγόριθµο ROCK, είναι µία προτεινόµενη µέθοδος λύσης και για το παραπάνω πρόβληµα, καθώς επίσης και για την συσταδοποίηση µη-αριθµητικών δεδοµένων κατηγοριών. Η οµοιότητα δύο σηµείων καθορίζεται όχι σύµφωνα µε κάποια απόσταση αλλά µε τον αριθµό των κοντινών γειτόνων που µοιράζονται. Έτσι ο αλγόριθµος Jarvis-Patrick εισήγαγε τον γράφο γειτνίασης k-πλησιέστερων κορυφών και τον γράφο κοινών κοντινών γειτόνων (shared nearest neighbour graph). Ο αλγόριθµος Jarvis- Patrick µοιάζει έπειτα ως προς τα αποτελέσµατα µε την τεχνική της ιεραρχικής συσωρευτικής συσταδοποίησης απλού συνδέσµου και ο ROCK µε αυτή του µέσου συνδέσµου. i j i 4 j Ο αλγόριθµος Jarvis-Patrick είναι ο πρώτος µη ιεραρχικός αλγόριθµος που εισήγαγε τον γράφο κοινών κοντινών γειτόνων. Οµοίως ο αλγόριθµος ROCK µετασχηµατίζει τις αρχικές οµοιότητες µεταξύ δύο αντικειµένων, που υπολογίζονται µε συντελεστές Jaccard, σε οµοιότητες που αντανακλούν τον αριθµό των κοινών γειτόνων τους. Οι αλγόριθµοι που ακολούθησαν όπως οι Chameleon, Min-cut, HCS (highly connected subgraphs), CLICK (clustering identification via connectivity kernels), CAST (cluster affinity search technique), AMOEBA, SNN, C2P αποδεικνύουν την δηµοφιλία της χρήσης των γράφων γειτνίασης k-πλησιέστερων κορυφών και των γράφων κοινών κοντινών γειτόνων σε παρόµοιες εφαρµογές. Οι δύο τελευταίοι αλγόριθµοι SNN και C2P που είναι και πρόσφατοι εµπεριέχουν στα βήµατά τους τον αρχικό αλγόριθµο Jarvis- Patrick, και έπειτα συνεχίζουν ο πρώτος µε τον DBSCAN και ο δεύτερος µε τον MST.

6 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) 1 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Εξόρυξη δεδοµένων (data mining) είναι η ανάλυση συνήθως τεράστιων παρατηρούµενων συνόλων δεδοµένων, έτσι ώστε να βρεθούν µη παρατηρηθείσες σχέσεις και να συνοψιστούν τα δεδοµένα µε καινοφανείς τρόπους οι οποίοι να είναι κατανοητοί και χρήσιµοι στον κάτοχο των δεδοµένων. Η ανάλυση των δεδοµένων αποτελεί τη βάση σε πολλές εφαρµογές στον τοµέα της πληροφορικής, είτε κατά την διάρκεια της σχεδίασης κάποιας εφαρµογής ή κατά την λειτουργία της. εκαετία 1960 εκαετία 1970 εκαετία 1980 εκαετία 1990 εκαετία 2000-σήµερα Εξέλιξη της τεχνολογίας των βάσεων δεδοµένων συλλογή δεδοµένων, δηµιουργία βάσεων, ιεραρχικά (IMS) και δικτυωτά συστήµατα Σχεσιακό µοντέλο, υλοποίηση σχεσιακών διαχείρισης βάσεων δεδοµένων (RDBMS) συστηµάτων Εµπορικά RDBMS, γλώσσα SQL-1, πρώτα αντικειµενοσχεσιακά και αντικειµενοστραφή µοντέλα, επαγωγικές βάσεις δεδοµένων γλώσσα SQL-2, εξόρυξη γνώσης, αποθήκες δεδοµένων, βάσεις πολυµέσων εξόρυξη γνώσης µε πληθώρα επιστηµονικών εφαρµογών, γλώσσα SQL-3, διαχείριση δεδοµένων συνεχούς ροής, τεχνολογίες διαδικτύου και παγκόσµια συστήµατα ανάκλησης πληροφοριών Οι διαδικασίες ανάλυσης δεδοµένων µπορούν να χωριστούν σε δύο κατηγορίες, Α) τις διαδικασίες ανεύρεσης, µε στόχο την ανακάλυψη και την κατασκευή υποθέσεων από τα δεδοµένα, και Β) τις διαδικασίες επιβεβαίωσης µε στόχο την λήψη αποφάσεων δεδοµένης της δοµής της πληροφορίας. Ο διαχωρισµός βασίζεται στην ύπαρξη ή µη κατάλληλων µοντέλων τα οποία εκφράζουν την πηγή των δεδοµένων. Και στις δύο περιπτώσεις διαδικασιών όµως, σηµείο κλειδί είναι η οµαδοποίηση (ή κατηγοριοποιήση) των στοιχείων µε βάση (α) το υιοθετηµένο µοντέλο, ή (β) τις φυσικές οµάδες δεδοµένων (κατηγοριοποίηση) που προκύπτουν από την ανάλυση των δεδοµένων. Η ανάλυση συστάδων ή πιο απλά το clustering είναι η οργάνωση µιας συλλογής από δείγµατα-στοιχεία σε συστάδες µε βάση κάποιο µέτρο οµοιότητας. Τα στοιχεία συνήθως περιγράφονται σαν διανύσµατα τιµών κάποιων µέτρων ή αναπαριστόνται ως σηµεία σε έναν πολυδιάστατο χώρο. Στοιχεία που ανήκουν στην ίδια οµάδα παρουσιάζουν µεγαλύτερη οµοιότητα από ότι στοιχεία που ανήκουν σε διαφορετικές οµάδες. 1

7 ύο είναι οι βασικοί στόχοι της εξόρυξης δεδοµένων: Η πρόβλεψη (prediction) και Η περιγραφή (description). ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Η πρόβλεψη εµπλέκει κάποιες µεταβλητές ή κάποια πεδία της βάσης δεδοµένων έτσι ώστε να προβλεφθούν άγνωστες ή µελλοντικές τιµές ή και άλλες µεταβλητές ενδιαφέροντος. Η περιγραφή από την άλλη πλευρά εστιάζει κυρίωςνστην ανακάλυψη προτύπων στα δεδοµένα τα οποία εύκολα µπορούν να ερµηνευτούν και να τα περιγράψουν. Οι κυριότερες λειτουργίες στην εξόρυξη δεδοµένων είναι η ταξινόµηση (classification) και η οµαδοποίηση (clustering). Σκοπός της ταξινόµησης είναι η παραγωγή κανόνων από µεγάλες σχεσιακές βάσεις δεδοµένων που να µπορούν να ταξινοµήσουν καινούργια άγνωστα δεδοµένα σε προκαθορισµένες κλάσεις οι οποίες να περιγράφονται από ένα σύνολο χαρακτηριστικών. Η εξαγωγή των κανόνων γίνεται µε την χρήση µεθόδων µάθησης µε επίβλεψη (supervised learning methods). Η δεύτερη βασική λειτουργία στην εξόρυξη δεδοµένων είναι η οµαδοποίηση των εγγραφών µια βάσης δεδοµένων σε υποοµάδες (clustering). Η οµαδοποίηση είναι µια περιγραφική λειτουργία που σκοπό έχει την ανίχνευση ενός πεπερασµένου πλήθους οµάδων ή κατηγοριών (clusters) που περιέχονται στα δεδοµένα. Όπως έχει τονιστεί και παραπάνω πολλές διαδικασίες εξόρυξης προϋποθέτουν ένα προκαταταγµένο σύνολο δεδοµένων εκπαίδευσης και επιχειρούν την ανάπτυξη ενός αξιόπιστου µοντέλου ικανού να προβλέπει την κατάταξη ενός καινούργιου µη καταταγµένου αντικειµένου. Στην οµαδοποίηση δεν υπάρχουν ούτε εκ των προτέρων ταξινοµηµένα δεδοµένα αλλά ούτε και διαχωρισµοί µεταξύ εξαρτηµένων και ανεξάρτητων µεταβλητών. Εδώ αναζητούνται όµοιες οµάδες εγγραφών (clusters) µε την ελπίδα αυτές να έχουν όµοιες ιδιότητες και να περιγράφουν τα δεδοµένα µας. Θα πρέπει να αναφέρουµε εδώ ότι οι αλγόριθµοι οµαδοποίησης διαχειρίζονται µεγάλο πλήθος δεδοµένων και απαιτούν έναν αρκετά µεγάλο αριθµό υπολογισµών. Συνεπώς οι η πολυπλοκότητά τους εξαρτάται από το πλήθος των δεδοµένων που επεξεργάζεται ο κάθε αλγόριθµος. Από την άλλη, το τεράστιο µέγεθος των δεδοµένων που αποθηκεύονται στις βάσεις δεδοµένων ωθεί σήµερα το ερευνητικό ενδιαφέρον κυρίως σε αλγορίθµους οµαδοποίησης, που µπορούν αν χειριστούν δεδοµένα πολύ µεγαλύτερα από την κύρια µνήµη ενός επεξεργαστή. Για την αντιµετώπιση αυτού του προβλήµατος έχει προταθεί µια επαναληπτική διαδικασία, που βασίζεται στην τµηµατοποίηση του συνόλου των δεδοµένων σε υποσύνολα. Στην πρώτη φάση, κάθε υποσύνολο δίνεται ως είσοδός σε κάθε έναν αλγόριθµο οµαδοποίησης. Κατά την δεύτερη φάση, τα µερικά αποτελέσµατα σχηµατίζουν ένα σύνολο δεδοµένων το οποίο τµηµατοποιείται σε οµάδες τις καλούµενες και µετα οµάδες (meta clusters). Κάτω από ορισµένες συνθήκες οι οµάδες αυτές αποτελούν τις επιθυµητές οµάδες. 2

8 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Η διαδικασία εύρεσης χρήσιµων µοντέλων και πληροφοριών έχει πάρει διάφορα ονόµατα όπως, data mining, knowledge extraction, information discovery, information harvesting, data archaeology, and data pattern processing. O όρος data mining χρησιµοποιούταν κυρίως από στατιστικολόγους, αναλυτές δεδοµένων, και management information systems (MIS). Επίσης είναι αρκετά δηµοφιλής στο πεδίο των Βάσεων εδοµένων. Η φράση Knowledge Discovery in KDD τέθηκε το 1991 από τους Piatesky Saphiro για να δώσει έµφαση στο ότι η γνώση είναι το αποτέλεσµα αυτής της διαδικασίας. Για να έχουν τα αποτελέσµατα της διαδικασίας πρακτική αξία και τα πρότυπα που θα δηµιουργηθούν από την διαδικασία απαιτείται και η ανθρώπινη παρέµβαση. Οι περισσότερες Data Mining µέθοδοι βασίζονται σε χρησιµοποιηµένες και δοκιµασµένες τεχνικές όπως machine learning, αναγνώριση προτύπων (pattern recognition) και στατιστική: classification, regression, κ.α. Συχνά τα διαθέσιµα στοιχεία περιλαµβάνουν µόνο ένα δείγµα από τον πλήρη πληθυσµό. Ο στόχος µπορεί να είναι να γενικεύσουµε από το δείγµα στον πληθυσµό. Παραδείγµατος χάριν, µπορεί να επιθυµήσουµε να προβλέψουµε πώς οι µελλοντικοί πελάτες είναι πιθανό να συµπεριφερθούν ή να καθορίσουµε τις ιδιότητες των πρωτεϊνικών δοµών που δεν έχουµε δει ακόµα. Μερικές φορές µπορούµε να θελήσουµε να συνοψίσουµε ή να συµπιέσουµε ένα πολύ µεγάλο σύνολο στοιχείων κατά τέτοιο τρόπο ώστε το αποτέλεσµα είναι πιο κατανοητό, χωρίς οποιαδήποτε έννοια της γενίκευσης. Αυτό το ζήτηµα θα προέκυπτε, παραδείγµατος χάριν, εάν είχαµε τα πλήρη στοιχεία απογραφής για τα εκατοµµύρια συγκεκριµένων χωρών ή µιας καταγραφής βάσεων δεδοµένων των µεµονωµένων λιανικών συναλλαγών. Με την εξέλιξη της εξόρυξης γνώσης, πολλοί διαφορετικοί επιστηµονικοί κλάδοι συγκλίνανε προς αυτήν την κατεύθυνση, όπως: Στατιστική, Μηχανική µάθηση, Αλγόριθµοι συσταδοποίησης, Τεχνικές Οπτικοποίησης των αποτελεσµάτων, Ανάκτηση πληροφοριών, Βάσεις εδοµένων, όπου τα δεδοµένα πολλά και τα ερωτήµατα περίπλοκα Database Technology Statistics Machine Learning Data Mining Visualization Information Science Other Disciplines 3

9 1.1 ΟΡΙΣΜΟΙ ΤΟΥ DATA MINING ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Ο όρος "data mining" έκανε τις πρώτες εµφανίσεις του στη στατιστική επεξεργασία δεδοµένων όπου αφορούσε την αποτροπή εξαγωγής µη έγκυρων συµπερασµάτων ως αποτέλεσµα της υπερ-χρήσης δεδοµένων. Το θεώρηµα του Bonferron λέει ότι σε προβλήµατα όπου είναι δυνατό να εξαχθούν πάρα πολλά πιθανά συµπεράσµατα, τότε µερικά από αυτά τα συµπεράσµατα θα βγουν αληθή για καθαρά στατιστικούς λόγους, δίχως να έχουν καµία εγκυρότητα. Ένα πολύ γνωστό παράδειγµα αποτελεί αυτό του David Rhine, ενός παραψυχολόγου στη δεκαετία του 1950 που εξέτασε εκατοντάδες µαθητές για να ανακαλύψει αν διαθέτει κάποιος από αυτούς υπεραισθητική αντίληψη ζητώντας τους να µαντέψουν στη σειρά 10 χαρτιά, κόκκινα ή µαύρα. Βρήκε ότι περίπου 1/1000 µάντεψε το σωστό χρώµα και στα δέκα χαρτιά, και αντί να συνειδητοποιήσει ότι αυτό ακριβώς είναι που περιµένεις όταν χιλιάδες άτοµα µαντεύουν τυχαία, τους κατέταξε στην κατηγορία των ατόµων µε υπεραισθητική αντίληψη. Όταν επανεξέτασε αυτούς που τα είχαν µαντέψει σωστά είδε ότι τη δεύτερη φόρα δεν τα πήγαν καλύτερα από το µέσο όρο. Το συµπέρασµα που έβγαλε από τη δεύτερη εξέταση ήταν αν πεις σε κάποιον ότι έχει υπεραισθητική αντίληψη τότε τη χάνει!. Ένας γενικός ορισµός σύµφωνα µε τον Jeffrey D. Ullman (από τους πρωτοπόρους στην έρευνα των βάσεων δεδοµένων) για την εξόρυξη γνώσης είναι η ανακάλυψη χρήσιµων συνόψεων από δεδοµένα. ηλαδή η εύρεση πληροφοριών που είναι κρυµµένες σε µία βάση δεδοµένων. Εναλλακτικά η εξόρυξη γνώσης ονοµάζεται και εξερευνητική ανάλυση δεδοµένων, ανακάλυψη γνώσης και συµπερασµατική µάθηση. Οι όροι ανακάλυψη γνώσης σε βάσεις δεδοµένων (Knowledge Discovery in Databases εν συντοµία KDD) και εξόρυξη γνώσης από δεδοµένα (data mining) συχνά χρησιµοποιούνται εναλλακτικά για την ίδια έννοια. Η εξόρυξη γνώσης χρησιµοποιεί αλγόριθµους για την ανάλυση των αρκετά µεγάλων συνόλων από δεδοµένα και την εύρεση ανυποψίαστων σχέσεων και την σύνοψη αυτών µε νέους τρόπους κατανοητούς και χρήσιµους στον ιδιοκτήτη. Οι σχέσεις και οι συνόψεις που παράγονται µέσω της εξόρυξης δεδοµένων συχνά παρουσιάζονται ως µοντέλα ή πρότυπα. Η λειτουργία του «Data Mining» έχει να κάνει ουσιαστικά µε δεδοµένα που έχουν συλλεχθεί ήδη για κάποιο άλλο σκοπό. Αυτό σηµαίνει πως οι στόχοι της εξόρυξης γνώσης δεν επηρεάζουν τον τρόπο µε τον οποίο συλλέγονται τα δεδοµένα. Αυτή θα µπορούσε να είναι µία διαφορά της εξόρυξης δεδοµένων µε τις στατιστικές, όπου τα δεδοµένα συλλέγονται µε συγκεκριµένους τρόπους για την απάντηση συγκεκριµένων ερωτηµάτων. Για αυτόν τον λόγο η µέθοδος του Data Mining συχνά αναφέρεται ως δευτερεύουσα ανάλυση δεδοµένων. 4

10 1.2 Μέθοδοι και λειτουργίες Data Mining ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Χάρη στην εξέλιξη των υπολογιστών και την τεχνολογία συλλογής των δεδοµένων, µπορούν πλέον να συλλεχθούν τεράστιοι όγκοι δεδοµένων. Αυτοί οι όγκοι περιέχουν συχνά πολύτιµη πληροφορία. Το «δύσκολο» είναι να εξάγουµε την πολύτιµη αυτή πληροφορία από τον µεγάλο αυτό όγκο έτσι ώστε οι ιδιοκτήτες των δεδοµένων να µπορούν να επενδύσουν σε αυτή. Το Data Mining είναι µια νέα αρχή, η οποία αναζητά να κάνει ακριβώς αυτό. Με το «κοσκίνισµα» των δεδοµένων µε στόχο την σύνοψη αυτών και την εύρεση προτύπων. Οι περισσότερες Data Mining µέθοδοι βασίζονται σε χρησιµοποιηµένες και δοκιµασµένες τεχνικές από κλάδους όπως της µηχανικής µάθησης (machine learning), αναγνώρισης προτύπων (pattern recognition), στατιστικής και άλλων και αφορούν: Συσταδοποίηση δεδοµένων, κατηγοριοποίηση δεδοµένων, εξαγωγή κανόνων συσχέτισης, πρότυπα ακολουθιών, ανάλυση χρονοσειρών, παλινδρόµηση, εκτίµηση και πρόβλεψη µελλοντικών τάσεων συνοπτική παρουσίαση πληροφορίας. Εικόνα. Βασικές Λειτουργίες Data mining 5

11 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Clustering (συσταδοποίηση) To clustering είναι η εργασία του µερισµού ενός συνόλου δεδοµένων σε οµάδες οµοίων στοιχείων, clusters. Τα δεδοµένα οµαδοποιούνται σε σύνολα µε βάση κάποιο κριτήριο οµοιότητας. Το clustering δεν βασίζεται σε προκαθορισµένες κλάσεις. Classification (κατηγοριοποίηση) Η διαδικασία κατηγοριοποίησης των δεδοµένων σε κάποια από τις προκαθορισµένες κλάσεις. Συχνά η διαδικασία του classification περιγράφεται σαν µία συνάρτηση µάθησης (learning function), η οποία ταξινοµεί (classifies) κάθε αντικείµενο του συνόλου δεδοµένων σε µία από τις προκαθορισµένες κατηγορίες. Η διαδικασία του classification χαρακτηρίζεται από: Ένα σύνολο καλά ορισµένων κατηγοριών, ένα training set. Στόχος: Ο ορισµός ενός µοντέλου το οποίο µπορεί να κατηγοριοποιεί νέα δεδοµένα Εξαγωγή κανόνων συσχέτισης (association rules extraction) Προσδιορισµός και εξαγωγή των συσχετίσεων ή προτύπων τα οποία υπάρχουν σε µία συλλογή αντικειµένων. Τα πρότυπα µπορούν να εκφραστούν µε κανόνες, των οποίων η γενική µορφή είναι If X then Y. Κριτήρια εγκυρότητας και σηµαντικότητας κανόνων: support factor, confidence factor Estimation & prediction (εκτίµηση και πρόβλεψη). Περιλαµβάνει τεχνικές εκτίµησης και πρόβλεψης µελλοντικών τάσεων ή τιµών. Ο στόχος εδώ είναι να κατασκευάσουµε ένα µοντέλο που θα επιτρέπει την τιµή µιας µεταβλητής να προβλεφθεί από τις γνωστές τιµές άλλων µεταβλητών. Regression (παλινδρόµηση). Αντιστοιχεί τα αντικείµενα από ένα σύνολο δεδοµένων στην τιµή µίας µεταβλητής πρόβλεψης Summarization Περιλαµβάνει µεθόδους για την περιγραφή ενός υποσυνόλου δεδοµένων. Π.χ. η εκτίµηση της µέσης και της τυπικής απόκλισης για όλα τα πεδία, reports, τεχνικές παρουσίασης, την παραγωγή συνοπτικών κανόνων. 6

12 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) 1.3 ΟΙ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ORACLE Το σύστηµα διαχείρισης σχεσιακών βάσεων δεδοµένων Oracle σχεδιάστηκε για να επιτρέψει την ταυτόχρονη πρόσβαση σε µεγάλες κατανεµηµένες βάσεις δεδοµένων. Η βάση δεδοµένων διαιρείται σε ένα ή περισσότερα λογικά κοµµάτια που είναι γνωστά ως tablespaces.ένα tablespace χρησιµοποιείται για να συγκεντρώσει τα δεδοµένα. Το µέγιστο µέγεθος ενός datafile είναι 32GB (gigabytes). Ο µέγιστος αριθµός datafiles ανά tablespace είναι 1,022. Το µέγιστο µέγεθος ενός tablespace είναι 32TB (terabyte). Η ονοµατολογία των πινάκων και των πεδίων αυτών ακολουθεί τους κανόνες του σχεσιακού µοντέλου. Ο Oracle Enterprise Manager είναι το πρωτεύον εργαλείο διαχείρισης των βάσεών της. Το περιβάλλον SQL * Plus Worksheet χρησιµοποιείται για την άµεση εκτέλεση δηλώσεων SQL και εµφάνιση αποτελεσµάτων. 7

13 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Οι τύποι δεδοµένων που υποστηρίζονται από την Oracle για την δηµιουργία των πινάκων είναι: Τύπος Περιγραφή Μέγεθος Char Καθορισµένου µήκους χαρακτήρας Oποιοδήποτε µήκος µεταξύ 1 και 255 bytes Date Αποθηκεύει έτη, µήνες, ηµέρες, ώρες, λεπτά και δευτερόλεπτα Long ή CLob Σειρά χαρακτήρων µεταβλητού- µήκους µέχρι 2GB στο µέγεθος. LongRaw υαδικά στοιχεία µεταβλητού- µήκους µε µέγιστο µήκος 2^31 - ( ) bytes Number Varchar Varchar2 Raw Αποθηκεύει τους σταθερούς και floating-point αριθµούς. Έχει ακρίβεια p και κλίµακα s. Σύνολο χαρακτήρων µεταβλητού- µήκους Σύνολο χαρακτήρων µεταβλητού- µήκους που αποθηκεύει χαρακτήρες. υαδικά στοιχεία σταθερού-µήκους 2^31-1 bytes το µέγιστο 8

14 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.1 ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΣΥΣΤΑ ΩΝ Η ανάλυση συστάδων (cluster analysis) ή πιο απλά clustering είναι η οργάνωση µιας συλλογής από δείγµατα-στοιχεία (patterns) σε συστάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Τα στοιχεία συνήθως περιγράφονται σαν διανύσµατα τιµών κάποιων µέτρων ή αναπαρίστανται ως σηµεία σε έναν πολυδιάστατο χώρο. Ο σκοπός είναι πως τα αντικείµενα σε µία οµάδα θα πρέπει να είναι όµοια ( ή σχετικά/συγγενικά) µεταξύ τους και διαφορετικά/ξεχωριστά από (ή ετερογενείς προς) τα άλλα αντικείµενα στις άλλες οµάδες. Όσο µεγαλύτερη η οµοιότητα (ή οµοιογένεια) µέσα σε µία οµάδα όσο µεγαλύτερη και η διαφορά µεταξύ των οµάδων, τόσο καλύτερη είναι η οµοιογένεια. Στοιχεία που ανήκουν στην ίδια οµάδα παρουσιάζουν µεγαλύτερη οµοιότητα από ότι στοιχεία που ανήκουν σε διαφορετικές οµάδες. Η συσταδοποίηση (clustering) είναι µια διαδικασία που εντάσσεται γενικότερα στην µη επιβλέπουσα µάθηση (unsupervised learning). Υπάρχει διαφορά µεταξύ supervised και unsupervised. Στην επιβλεπόµενη µάθηση ή κατηγοριοποίηση (supervised classification) ένα σύνολο από πρό-οµαδοποιηµένα στοιχεία είναι διαθέσιµο, και αυτό που µας ζητείται είναι να εντάξουµε ένα νέο στοιχείο σε κάποια από τις υπάρχουσες κλάσεις. Συνήθως τα προ-οµαδοποιηµένα στοιχεία χρησιµοποιούνται για να περιγράψουν τις διαφορετικές οµάδες κλάσσεις στις οποίες θα εντάξουµε νέα στοιχεία. Αντίθετα στην µη επιβλεπόµενη µάθηση και συσταδοποίηση το πρόβληµα είναι να οµαδοποιήσουµε σε λογικές κλάσσεις τα στοιχεία, χωρίς καµιά γνώση για προ-υπάρχουσες οµάδες. Έτσι η συσταδοποίηση είναι απόλυτα οδηγηµένη από τα δεδοµένα (data driven) και παράγεται από αυτά. συσταδοποίηση Εικόνα. τα αρχικά σηµεία δίνουν δύο συστάδες, η κάθε µία όµως µπορεί να έχει και περισσότερες εµφωλευµένες οµάδες. Για να δούµε τη δυσκολία της επιλογής του τί απαρτίζει/συνιστά µία συσταδοποίηση, στην παραπάνω Εικόνα φαίνονται είκοσι (20) σηµεία και δύο συστάδες. Όµως έχουµε πολλούς διαφορετικούς τρόπους µε τους οποίους τα σηµεία αυτά θα µπορούσαν να διαιρεθούν σε οµάδες. Εάν επιτρέψουµε στις οµάδες να είναι εµφωλευµένες, τότε η πιο εύλογη ερµηνεία της διάρθρωσης αυτών των σηµείων είναι πως υπάρχουν δύο συστάδες, η κάθε µία όµως έχει µικρότερες υποοµάδες. Εν τούτοις, η εµφανής διαίρεση των δύο µεγαλύτερων συστάδων σε τρεις υποοµάδες µπορεί απλώς να είναι ένα δηµιούργηµα του ανθρωπίνου µατιού. Τελικά, µπορεί να µην είναι παράλογο να ειπωθεί πώς τα σηµεία συγκροτούν και τέσσερις συστάδες. Συνεπώς, τονίζουµε ξανά πως η γενική αντίληψη µιας οµαδοποίησης είναι λίγο ανακριβής, και ο καλύτερος ορισµός εξαρτάται από το είδος των δεδοµένων και τα επιθυµητά αποτελέσµατα. 9

15 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.2 ΣΤΟΧΟΙ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ O στόχος είναι να καθοριστεί η εγγενής συσταδοποίηση (clustering) σε ένα σύνολο unlabeled δεδοµένων. Αλλά πώς να αποφασιστεί τι αποτελεί µια καλή οµαδοποίηση; Μπορεί να αποδειχθεί ότι δεν υπάρχει κάποιο απόλυτα βέλτιστο κριτήριο που θα ήταν ανεξάρτητο από τον τελικό στόχο της οµαδοποίησης. Συνεπώς, είναι ο χρήστης που πρέπει να παρέχει αυτό το κριτήριο, κατά τέτοιο τρόπο ώστε το αποτέλεσµα της οµαδοποίησης να ανταποκρίνεται στις ανάγκες του. Παραδείγµατος χάριν, θα µπορούσαµε να ενδιαφερθούµε για την εύρεση αντιπροσώπων για οµοιογενείς οµάδες (µείωση δεδοµένων), για την εύρεση φυσικών clusters και την περιγραφή των άγνωστων ιδιοτήτων τους ( φυσικοί τύποι δεδοµένων), για την εύρεση χρήσιµων και κατάλληλων σχηµατισµών οµάδας ( χρήσιµες κλάσεις δεδοµένων) ή για την εύρεση ασυνήθιστων αντικειµένων δεδοµένων (ανίχνευση outliers). Οι τεχνικές συσταδοποίησης εφαρµόζονται όταν δεν υπάρχουν καθορισµένες οµάδες που να έχουν προβλεφθεί και περισσότερο όταν υπάρχει ανάγκη τα δεδοµένα µας να χωριστούν σε φυσικές οµάδες. Αυτές οι οµάδες πιθανώς αντικατοπτρίζουν έναν µηχανισµό ο οποίος προκαλεί σε ορισµένα από τα δεδοµένα οµαδοποιήσεις βάσει κάποιων χαρακτηριστικών οµοιότητας. Η συσταδοποίηση απαιτεί διαφορετικές τεχνικές από τις µεθόδους κατηγοριοποίησης και αυτοσχέτισης. Γενικά υπάρχουν διαφορετικοί τρόποι µε τους οποίους µπορούν να εκφραστούν τα αποτελέσµατα. Οι οµάδες είναι µπορεί να είναι: Aποκλειστικές που σηµαίνει πως κάθε στοιχείο ανήκει µόνο σε µια και µοναδική οµάδα Eπικαλυπτόµενες δηλαδή ένα στοιχείο να ανήκει σε διάφορες οµάδες Πιθανοτικές και κάθε στοιχείο να ανήκει σε κάποιες οµάδες µε κάποια πιθανότητα Ιεραρχικές όπου υπάρχει ένας διαχωρισµός των στοιχείων σε οµάδες αλλά µε ιεραρχία επιπέδων Οι επιλογή του είδους των συστάδων έχει να κάνει µε τη φύση των µηχανισµών που θα υποστηρίξουν το συγκεκριµένο φαινόµενο συσταδοποίησης. Ωστόσο επειδή αυτοί οι µηχανισµοί δεν είναι τόσο γνωστοί η επικράτηση της ορθής µεθόδου συσταδοποίησης είναι κάτι που η επιστηµονική κοινότητα αναζητά και συνήθως η επιλογή βασίζεται στα εργαλεία συσταδοποίησης που είναι διαθέσιµα. Η συσταδοποίηση είναι βασική εργασία σε πολλούς τοµείς όπως η ανάλυση προτύπων (pattern-analysis), η λήψη αποφάσεων (decision-making), η µηχανική εκµάθηση (machine-learning), η εξόρυξη δεδοµένων (data mining), η ανάκτηση κειµένων (document retrieval) κ.α. Στις περισσότερες των περιπτώσεων που εφαρµόζεται συσταδοποίηση υπάρχει µικρή γνώση για την δοµή και το είδος των στοιχείων π.χ. στατιστικά µοντέλα, που να περιγράφουν τα δεδοµένα. 10

16 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Υπάρχουν πολλές εφαρµογές πάνω σε πρακτικά προβλήµατα. Παρακάτω δίνονται κάποια συγκεκριµένα παραδείγµατα ανάλογα µε το αν σκοπός της συσταδοποίησης είναι η κατανόηση ή η χρησιµότητα. Εφαρµογές Συσταδοποίηση για κατανόηση κλάσεων Κλάσεις, ή σηµαντικές οµάδες από αντικείµενα που µοιράζουν κοινά χαρακτηριστικά, παίζουν σηµαντικό ρόλο στο πως ο άνθρωπος αναλύει και το περιγράφει τον κόσµο γενικά. Από τη φύση του ο άνθρωπος διαχωρίζει αντικείµενα σε οµάδες (συσταδοποίηση), και ταιριάζει συγκεκριµένα αντικείµενα σε τέτοιες οµάδες (κατηγοριοποίηση). Εφαρµογές Στη Βιολογία Οι βιολόγοι έχουν ξοδέψει πολλά χρόνια έρευνας στη δηµιουργία ταξινοµιών από ζωντανούς οργανισµούς (hierarchical classification). Έτσι δεν µας κάνει έκπληξη που αρκετή από την δουλειά που έχει γίνει ως τώρα στην ανάλυση συστάδων (cluster analysis) έδειξε πως αναζητούσε να δηµιουργήσει µια καλά ορισµένη µαθηµατική ταξινοµία που θα µπορούσε αυτόµατα να βρίσκει της δοµές κατηγοριοποίησης. Πιο πρόσφατα, οι βιολόγοι έχουν εφαρµόσει τεχνικές συσταδοποίησης για να αναλύσουν τον µεγάλο αριθµό γενετικής πληροφορίας που είναι διαθέσιµη. Η συσταδοποίηση έχει χρησιµοποιηθεί για να εύρεση συστάδων γονιδίων που έχουν παρόµοια λειτουργία. Εφαρµογές Στην Εξόρυξη γνώσης Ο παγκόσµιος ιστός αποτελείται από δισεκατοµµύρια σελίδες και τα αποτελέσµατα από ένα ερώτηµα σε µια µηχανή αναζήτησης µπορεί να επιστρέψει χιλιάδες σελίδες σαν αποτέλεσµα. Η συσταδοποίηση µπορεί να χρησιµοποιηθεί για την οµαδοποίηση αυτά τα αποτελέσµατα σε ένα µικρό αριθµό από οµάδες, καθεµιά από τις οποίες σκιαγραφεί µια διάσταση του ερωτήµατος. Για παράδειγµα ένα ερώτηµα για µια ταινία µπορεί να επιστρέψει σελίδες οµαδοποιηµένες σε κατηγορίες όπως ανασκοπήσεις, τράιλερς, ηθοποιούς και θέατρα. Κάθε κατηγορία (cluster) µπορεί να διασπαστεί σε υποκατηγορίες (subclusters), παράγοντας ιεραρχικές δοµές που στη συνέχεια βοηθούν περισσότερο το χρήστη κατά την αναζήτηση που κάνει. Εφαρµογές Στο Κλίµα Για να κατανοήσουµε το κλίµα στη γή απαιτείται να βρεθούν πρότυπα κλίµατος στην ατµόσφαιρα και τους ωκεανούς. Εδώ η ανάλυση των συστάδων έχει εφαρµοστεί για να βρεθούν τέτοια πρότυπα της ατµοσφαιρικής πίεσης των πολικών περιοχών και περιοχών στους ωκεανούς που επηρεάζουν σηµαντικά το κλίµα της γης. Εφαρµογές Στην Ψυχολογία και ιατρική Μια ασθένεια ή κατάσταση συχνά έχει ένα αριθµό µεταβολών, και η ανάλυση συστάδων µπορεί να χρησιµοποιηθεί για να βρεθούν αυτές οι διαφορετικές υποκατηγορίες. Η ανάλυση των συστάδων µπορεί επίσης να χρησιµοποιηθεί για να αναγνωριστούν πρότυπα σε χωρική ή προσωρινή κατανοµή µιας ασθένειας. 11

17 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.3 ΒΗΜΑΤΑ ΣΤΗ ΙΑ ΙΚΑΣΙΑ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Η διαδικασία της συσταδοποίησης µπορεί να οδηγήσει σε διαφορετικές τµηµατοποιήσεις ενός συνόλου δεδοµένων, ανάλογα µε το κριτήριο που χρησιµοποιείται. Κατά συνέπεια, υπάρχει ανάγκη προεπεξεργασίας των δεδοµένων προτού εφαρµοστεί η συσταδοποίηση σε ένα σύνολο δεδοµένων. Τα βασικά βήµατα για την ανάπτυξη της διαδικασίας της συσταδοποίησης είναι τα παρακάτω : Επιλογή χαρακτηριστικών γνωρισµάτων. Σε αυτό το βήµα βασικός στόχος είναι να επιλεχτούν κατάλληλα τα γνωρίσµατα (attributes) στα οποία πρόκειται να εφαρµοστεί η συσταδοποίηση ώστε να κωδικοποιηθεί όσο το δυνατόν περισσότερη πληροφορία σχετικά µε την εργασία που µας ενδιαφέρει. Κατά συνέπεια, η προεπεξεργασία των δεδοµένων µπορεί να είναι απαραίτητη πριν από την χρησιµοποίηση τους στη διαδικασία της συσταδοποίησης. Επιλογή αλγορίθµου συσταδοποίησης. Αυτό το βήµα αναφέρεται στην επιλογή ενός αλγορίθµου που οδηγεί στον καθορισµό ενός καλού σχήµατος συσταδοποίησης (clustering scheme). Το µέτρο γειτνίασης και το κριτήριο συσταδοποίησης που θα χρησιµοποιηθούν χαρακτηρίζουν ουσιαστικά τον αλγόριθµο συσταδοποίησης καθώς και τη δυνατότητα του να καθορίσει ένα σχήµα συσταδοποίησης που να ταιριάζει στο σύνολο δεδοµένων. Συνεπώς το βήµα αυτό βασίζεται στα εξής: Στο µέτρο γειτνίασης (proxitity measure) το οποίο προσδιορίζει πόσο «όµοια» είναι δύο αντικείµενα (δηλαδή διανύσµατα γνωρισµάτων). Στις περισσότερες από τις περιπτώσεις πρέπει να εξασφαλίσουµε ότι όλα τα επιλεγµένα γνωρίσµατα συµβάλλουν εξίσου στον υπολογισµό του µέτρου εγγύτητας και δεν υπάρχει κανένα γνώρισµα που να υπερισχύει των άλλων. Κριτήριο συσταδοποίησης. Σε αυτό το βήµα, πρέπει να καθορίσουµε το κριτήριο συσταδοποίησης το οποίο µπορεί να εκφραστεί µέσω µιας συνάρτησης κόστους ή κάποιου άλλου τύπου κανόνων. Πρέπει να τονίσουµε ότι πρέπει να λάβουµε υπόψη τον τύπο των συστάδων που αναµένονται να εµφανιστούν στο σύνολο δεδοµένων. Κατά συνέπεια, πρέπει να καθορίσουµε «ένα καλό» κριτήριο συσταδοποίησης που να οδηγεί σε µια τµηµατοποίηση που να ταιριάζει καλά στο σύνολο δεδοµένων. Εγκυρότητα αποτελεσµάτων συσταδοποίησης. Η ακρίβεια των αποτελεσµάτων του αλγορίθµου συσταδοποίησης εξακριβώνεται χρησιµοποιώντας τα κατάλληλα κριτήρια και τεχνικές. Εφόσον οι αλγόριθµοι συσταδοποίησης καθορίζουν τις συστάδες που δεν είναι γνωστές εκ των προτέρων, ανεξάρτητα από τις µεθόδους συσταδοποίησης, η τελική τµηµατοποίηση των δεδοµένων απαιτεί κάποιου είδους αξιολόγηση στις περισσότερες εφαρµογές. Ερµηνεία αποτελεσµάτων. Σε πολλές περιπτώσεις, οι εµπειρογνώµονες στην περιοχή της εφαρµογής που αναφέρεται η συσταδοποίηση πρέπει να ενσωµατώσουν τα αποτελέσµατα τη; συσταδοποίησης µε αλλά πειραµατικά στοιχεία. 12

18 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.4 ΙΑ ΙΚΑΣΙΑ CLUSTERING Συνήθως τα βήµατα που ακολουθούνται κατά την διαδικασία του Clustering είναι: (a) Αναπαράσταση των στοιχείων η οποία µπορεί να περιλαµβάνει παραγωγή νέων χαρακτηριστικών η επιλογή µέρους των χαρακτηριστικών των στοιχείων. (Pattern representation) (b) Ορισµός του µέτρου οµοιότητας µεταξύ των στοιχείων. (Similarity measure definition) (c) Η καθαυτή διαδικασία της οµαδοποίησης. (Clustering) (d) Αφαίρεση δεδοµένων όταν χρειάζεται. (Data abstraction) (e) Προσδιορισµός και εκτίµηση του αποτελέσµατος. (Assessment of output) Στο σχήµα παρουσιάζεται µια τυπική αλληλουχία των τριών πρώτων σταδίων κατά την διαδικασία του Clustering περιλαµβανοµένης µιας ανατροφοδότησης όπου το µέχρι στιγµής αποτέλεσµα µπορεί να προβάλει αξιόλογα χαρακτηριστικά των δεδοµένων ή να επηρεάσει τον υπολογισµό της απόστασης µεταξύ των στοιχείων. Patterns FEATURES SELECTION EXCTRACTION Pattern Representation PATTERN SIMILARITY CLUSTERING Clusters Feedback Σχήµα: ιαδικασία clustering Η αναπαράσταση των στοιχείων αφορά στον αριθµό των κλάσεων, τον αριθµό των διαθέσιµων στοιχείων, στον αριθµό και τύπο των χαρακτηριστικών τα οποία ενδιαφέρουν τον αλγόριθµο του Clustering. Μερικά από τα προηγούµενα δεν είναι άµεσα διαθέσιµα. Ενδιαφέρον παρουσιάζει η διαδικασία της επιλογής χαρακτηριστικών κατα την οποία βρίσκονται και επιλέγονται τα καταλληλότερα χαρακτηριστικά των στοιχείων τα οποία θα χρησιµοποιηθούν για το Clustering. Εξάλλου, η διαδικασία της εξαγωγής χαρακτηριστικών χρησιµοποιεί µετασχηµατισµούς υπαρχόντων χαρακτηριστικών για την παραγωγή άλλων τα οποία πιθανόν να είναι πιο ενδιαφέροντα. Οποιαδήποτε από τις τεχνικές αυτές µπορεί να χρησιµοποιηθεί για την επιλογή των κατάλληλων χαρακτηριστικών γνωρισµάτων για την αναπαράσταση των στοιχείων προς οµαδοποίηση. Το µέτρο οµοιότητας µεταξύ των στοιχείων καθορίζεται από µια συνάρτηση απόστασης. Ένα απλό µέτρο απόστασης όπως η Ευκλείδεια απόσταση µπορεί να χρησιµοποιηθεί για να αντικατοπτρίσει την διαφορά-ανοµοιότητα µεταξύ δύο στοιχείων, ενώ άλλα µέτρα απόστασης ποσοτικοποιούν την οµοιότητα των στοιχείων. Αναφορά στα µέτρα απόστασης γίνεται παρακάτω. 13

19 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Η διαδικασία του Clustering µπορεί να πραγµατοποιηθεί µε πολλούς τρόπους. Το αποτέλεσµα µπορεί να είναι απόλυτα καθορισµένο (οµαδοποίηση των δεδοµένων σε ξένες µεταξύ τους κλάσεις), ή fuzzy (όπου κάθε στοιχείο δεν ανήκει µόνο σε µία κλάση αλλά είναι µέλος όλων των κλάσεων µε κάποιο βαθµό σε κάθε µια). Οι αλγόριθµοι ιεραρχικού Clustering παράγουν µια σειρά από εµφωλευµένες κλάσεις µετά από διαδικασίες διαχωρισµού ή συγχώνευσης µε βάση το µέτρο οµοιότητας µεταξύ των στοιχείων διαφορετικών οµάδων. Οι αλγόριθµοι διαµέρισης από την µεριά τους στοχεύουν στο να διαχωρίσουν τα δεδοµένα µε τέτοιο τρόπο ώστε να βελτιστοποιείται το κριτήριο µε το οποίο γίνεται το Clustering, πιθανόν κάποιο µέτρο οµοιότητας η διαφοροποίησης. Άλλες τεχνικές Clustering βασίζονται στην θεωρία των πιθανοτήτων και άλλες σε θεωρία γράφων. Η αφαίρεση δεδοµένων είναι διαδικασία κατά την οποία το σύνολο των δεδοµένων αποκτά µια απλή και συµπαγή αναπαράσταση. Ο όρος απλή αναπαράσταση µπορεί να εξηγηθεί είτε από την µεριά της αυτοποιηµένης ανάλυσης είτε από την µεριά του ανθρώπου. Στην πρώτη περίπτωση θα θέλαµε τα δεδοµένα µας να αναπαρίστανται µε τέτοιο σαφή και απλό τρόπο ώστε µια περαιτέρω υπολογιστική επεξεργασία να είναι εξίσου εφικτή. Στην δεύτερη περίπτωση η απλή αναπαράσταση των δεδοµένων τα κάνει πιο κατανοητά σε αυτούς που πρόκειται να τα επεξεργαστούν και να βγάλουν συµπεράσµατα. Συνήθως η αφαίρεση δεδοµένων στο Clustering είναι µια συνοπτική αναπαράσταση κάθε κλάσης µε την βοήθεια κάπου αντιπροσώπου στοιχείου το οποίο καλείται κεντροειδές (centroid). Τέλος η εκτίµηση (validation) της διαδικασίας του Clustering προσπαθεί να εκτιµήσει το αποτέλεσµα ενός αλγορίθµου, να βρει τι χαρακτηρίζει µια καλή διαδικασία από µια όχι και τόσο επιτυχή. Κυρίως αυτό που εκτιµάται είναι το τελικό αποτέλεσµα, δηλαδή κατά πόσο οι κλάσσεις που δηµιουργήθηκαν έχουν νόηµα και κατά ποσό αυτές δεν δηµιουργήθηκαν κατά τυχαίο τρόπο εξαιτίας του συγκεκριµένου αλγορίθµου που χρησιµοποιήθηκε. 14

20 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.5 ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ- ΜΕΤΡΑ ΑΝΟΜΟΙΟΤΗΤΑΣ: Γενικοί ορισµοί Τα µέτρα εγγύτητας χωρίζονται σε µέτρα οµοιότητας (similarity measures) και µέτρα ανοµοιότητας (dissimilarity measures). Τα µέτρα οµοιότητας µπορούν να λάβουν θετικές αλλά και αρνητικές τιµές H µέγιστη τιµή της οµοιότητας µεταξύ δυο διανυσµάτων του Χ επιτυγχάνεται όταν αυτά ταυτίζονται. H ελάχιστη τιµή ανοµοιότητας µεταξύ δυο διανυσµάτων του Χ επιτυγχάνεται όταν αυτά ταυτίζονται. Γενικά θα µπορούσαµε να πούµε ότι τα µέτρα οµοιότητας είναι αντίθετα από τα µέτρα ανοµοιότητας. Εύκολα µπορούµε να αποδείξουµε ότι αν το µέτρο ανοµοιότητας d είναι µια µετρική, µε d(x, y)>0, τότε το µέτρο οµοιότητας ds=a µε a > 0 είναι και αυτό µετρική. Επίσης εύκολα µπορούµε να αποδείξουµε ότι το µέτρο οµοιότητας dmax d είναι µια µετρική, όπου dmax συµβολίζει την µέγιστη τιµή του d ανάµεσα σε όλα τα ζεύγη σηµείων του Χ. Θα µπορούσαµε να οµαδοποιήσουµε τα µέτρα εγγύτητας σε τέσσερις µεγάλες κατηγορίες: 1. Μέτρα απόστασης (Distance Measures). 2. Συντελεστές Σχέσης (Association Coefficients). 3. Συντελεστές Συσχέτισης (Correlation Coefficients). 4. Πιθανοτικοί Συντελεστές Οµοιότητας (Probabilistic Similarity Measures). Σε κάθε συστάδα τα σηµεία που περιέχονται σε αυτή παρουσιάζουν οµοιότητα µεταξύ. Έτσι για όλες τις τεχνικές Clustering είναι σηµαντικό να ορίζεται ένα µέτρο οµοιότητας µεταξύ δύο αντικειµένων από το χώρο δεδοµένων. Με τη µεγάλη ποικιλίας στα χαρακτηριστικά γνωρίσµατα η επιλογή του µέτρου οµοιότητας θα πρέπει να είναι προσεγµένη. Σε πολλές περιπτώσεις αυτό το µέτρο οµοιότητας που συνήθως µετράτε δεν είναι η οµοιότητα αλλά η διαφορετικότητα δυο σηµείων. Στην συνέχεια θα αναφερθούµε σε µέτρα οµοιότητας τα οποία είναι ευρέως διαδεδοµένα, και χρησιµοποιούντα για την σύγκριση στοιχείων των οποίων τα χαρακτηριστικά περιγράφονται από συνεχείς τιµές. Το µέτρο οµοιότητας καλείται και απόσταση και ικανοποιεί την τριγωνική ανισότητα για δύο στοιχεία x,y: D(x,y) = 0 D(x,y) = D(y,x) 15

21 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) D(x,y) D(x,z) + D(z,y) Το πιο γνωστό µέτρο οµοιότητας που χρησιµοποιείται είναι η Ευκλείδεια απόσταση η οποία ορίζεται ως εξής: D(x,y) = k i= 1 ( x i y i ) 2 Άλλοι τύποι που δίνουν την απόσταση µεταξύ δύο στοιχείων µπορεί να είναι η απόσταση Manhattan: D(x,y) = x i y i k i= 1 ή το µέγιστο της διαφοράς σε κάθε διάσταση: k D(x,y) = maxi= 1 x i y i Η ευκλείδεια απόσταση χρησιµοποιείται ευρέως σε περιπτώσεις λίγων διαστάσεων και έχει καλά αποτελέσµατα όταν δεδοµένα κατηγοριοποιούνται σε συµπαγή και αρκετά αποµωνοµένα clusters. Ένα πρόβληµα που παρουσιάζει είναι ότι στις πολλές διαστάσεις το χαρακτηριστικό το οποίο παρουσιάζει την µεγαλύτερη διαφοροποίηση από τα άλλα κυριαρχεί και αποπροσανατολίζει το τελικό αποτέλεσµα. Εδώ πρόκειται για αυτό που συνήθως αναφέρεται ως καταρα των πολλών διαστάσεων (curse of dimensionality). Μερικοί αλγόριθµοι αντί να υπολογίζουν κάθε φορά την απόσταση µεταξύ δύο στοιχείων, χρησιµοποιούν ένα πίνακα στον οποίο τοποθετούν τις οµοιότητες των στοιχείων. Αυτό που γίνεται είναι ένας προ-υπολογισµός των n(n-1)/2 τιµών οµοιότητας για ένα σύνολο n στοιχείων. Όσον αφορά τώρα τον υπολογισµό της απόστασης για στοιχεία των οποίων τα χαρακτηριστικά δεν είναι συνεχείς τιµές, αυτός είναι αρκετά προβληµατικός. Στις περισσότερες των περιπτώσεων τα χαρακτηριστικά δεν είναι συγκρίσιµα και το αποτέλεσµα της σύγκρισης έχει δύο δυνατές τιµές, όµοιο ή ανόµοιο. Παρόλα αυτά οι ειδικοί που ασχολούνται µε στοιχεία των οποίων τα χαρακτηριστικά είναι και των δύο τύπων έχουν βρει µεθόδους και µετρά για τον ορισµό της απόστασης των στοιχείων. 16

22 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΩΝ CLUSTERS Το αποτέλεσµα της συσταδοποίησης είναι µια διαµέριση των δεδοµένων σε συστάδες (clusters). Η διαµέριση αυτή δίνει µια ιδέα για το πως µπορούµε να οµαδοποιήσουµε τα δεδοµένα µας σε έναν συγκεκριµένο αριθµό από κλάσσεις. Σε πολλές εφαρµογές και κυρίως σε εκείνες λήψεως αποφάσεων είναι ανάγκη να υπάρξει µια συµπαγής και κατανοητή αναπαράσταση των clusters. Το ζήτηµα της αναπαράστασης των clusters που είναι άµεσα συνδεδεµένο µε την αφαίρεση δεδοµένων είναι πολύ σηµαντικό για την λήψη αποφάσεων. Η αναπαράσταση ενός cluster µπορεί να γίνει µε διάφορους τρόπους. Μερικοί από τους προτεινόµενους είναι και οι παρακάτω: 1. Ένα cluster µπορεί να αναπαρασταθεί από το κεντροειδές σηµείου του ή από έναν αριθµό σηµείων που είναι τα πιο αποµακρυσµένα στο cluster. 2. Οι κόµβοι ενός δένδρου κατηγοριοποίησης µπορούν να αναπαραστήσουν ένα cluster. 3. Επίσης ένα cluster µπορεί να αναπαρασταθεί χρησιµοποιώντας συζευκτικούς λογικούς τελεστες. Y-Axis X X X X X X X X Y-Axis X X X X X X X X X-Axis X-Axis Σχήµα:Αναπαράσταση clusters από σηµεία X (a) X1 X1<3 X1>3 X2<2 X2> (b) 1: [X1<3]; 2:[X1>3][X2<2]; 3:[X1>3][X2>2] (c) Σχήµα: (a)clusters σε χωρο 2 διαστάσεων, (b) οµαδοποίηση µε δενδρο, (c) οµαδοποιηση µε λογικούς συζευκτικούς τελεστές. 17

23 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Ο πρώτος τρόπος αναπαράστασης µε την χρήση ενός κεντροειδούς είναι ο πιο συνήθης και έχει καλά αποτελέσµατα όταν τα clusters είναι συµπαγή και τα στοιχεία κατανέµονται οµοιόµορφα γύρω από το κεντροειδές. Σε αντίθετη περίπτωση ο τρόπος αυτός αναπαράστασης δεν είναι ο πιο κατάλληλος. Στην περίπτωση αυτή η αναπαράσταση ενός cluster απο συνοριακά σηµεία είναι µια πολύ καλή λύση υπάρχουν αρκετοί αλγόριθµοι που ακολουθούν αυτή την τεχνική όπως ο αλγόριθµος CURE. Οσο το σχήµα του cluster αλλάζει και παίρνει διάφορα σχήµατα στο χώρο, η επιλογή των σηµείων πρέπει να είναι τέτοια ώστε να περιγράφεται το cluster όσο το δυνατόν καλύτερα. Η αναπαράσταση µε ένα δένδρο κατηγοριοποίησης είναι ισοδύναµη µε την αναπαράστση ενός cluster µε λογικούς συζευκτικούς τελεστές. Η αναπαράσταση των clusters και η αφαίρεση δεδοµένων που αυτή συνεπάγεται είναι πολύ σηµαντική γιατί (α) δίνει µια απλή και ανθρωπίνως κατανοητή αναπαράσταση των δεδοµένων, (β) Επιτυγχάνεται συµπίεση των δεδοµένων η οποία µπορεί να αξιοποίηθεί από άλλες υπολογιστικές εφαρµογές και (γ) βοηθάει και επιταχύνει την διαδικασία λήψεων αποφάσεων. 18

24 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.7 ΕΓΚΥΡΟΤΗΤΑ- ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Η εφαρµογή ενός αλγορίθµου συσταδοποίησης σε ένα σετ δεδοµένων στοχεύει, υποθέτοντας ότι το σετ δεδοµένων προσφέρει µια τέτοια τάση οµαδοποίησης, στην ανακάλυψη των έµφυτων διαµερισµών του. Ωστόσο, η διαδικασία οµαδοποίησης γίνεται αντιληπτή ως µία ανεπίβλεπτη διαδικασία, καθώς δεν υπάρχουν προκαθορισµένες κλάσεις και παραδείγµατα που θα έδειχναν τι είδος επιθυµητής σχέσης ανάµεσα στα δεδοµένα πρέπει να θεωρείται έγκυρη. Έπειτα, οι διάφοροι αλγόριθµοι οµαδοποίησης βασίζονται σε κάποιες υποθέσεις για να ορίσουν ένα διαµερισµό του σετ δεδοµένων. Κατά συνέπεια µπορεί να συµπεριφερθούν µε διαφορετικό τρόπο ανάλογα µε: Τα χαρακτηριστικά του σετ δεδοµένων (γεωµετρία και κατανοµή πυκνότητας των clusters) και Τις τιµές των παραµέτρων εισόδου. Συνεπώς, αν τεθούν στις παραµέτρους του αλγορίθµου οµαδοποίησης ακατάλληλες τιµές, η µέθοδος οµαδοποίησης θα καταλήξει σε ένα σχήµα διαµερισµού που δε θα είναι βέλτιστο για το συγκεκριµένο σετ δεδοµένων οδηγώντας σε λάθος αποφάσεις. Είναι εµφανές ότι ένα πρόβληµα που αντιµετωπίζουµε στην οµαδοποίηση είναι το να αποφασίσουµε τον βέλτιστο αριθµό clusters που ταιριάζει σε ένα σετ δεδοµένων. Ορίζουµε τον όρο βέλτιστο σχήµα οµαδοποίησης ως το αποτέλεσµα της εκτέλεσης ενός αλγορίθµου οµαδοποίησης, που ταιριάζει καλύτερα στον έµφυτο διαµερισµό του σετ δεδοµένων. Είναι δύσκολο να ορίσουµε πότε ένα αποτέλεσµα οµαδοποίησης είναι αποδεκτό, κατά συνέπεια έχουν αναπτυχθεί διάφορες τεχνικές και δείκτες ελέγχου της εγκυρότητας της οµαδοποίησης. Οι µετρήσεις για την ποιότητα (το πόσο καλή) είναι µια συσταδοποίηση ανήκουν σε µία από τις παρακάτω τρεις κατηγορίες : Με επίβλεψη (supervised) - Εξωτερικό Ευρετήριο (External Index): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδοµένων), πχ ετικέτες για τις συστάδες. Μετράµε πόσο οι περιγραφές των συστάδων ταιριάζουν µε τις ετικέτες των κλάσεων. πχ Εντροπία Χωρίς επίβλεψη (unsupervised) Εσωτερικό Ευρετήριο (Internal Index): Εκτιµάµε το πόσο καλή είναι µια συσταδοποίηση χωρίς παροχή εξωτερικής πληροφορίας. Συνεκτικότητα (cohesion) ιακριτότητα ή διαχωρισµός (separation) Συγκριτικοί -Σχετικό Ευρετήριο (Relative Index) : Χρησιµοποιείται για τη σύγκριση δυο διαφορετικών συσταδοποιήσεων ή συστάδων - Συχνά για αυτό το σκοπό χρησιµοποιείται ένα εσωτερικό ή εξωτερικό ευρετήριο. Εσωτερικό, πχ δυο k-means συσταδοποιήσεις µε βάση το SSE 19

25 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Η συνεκτικότητα µιας συστάδας (cluster cohesion) είναι το άθροισµα των βαρών (πχ απόσταση) µεταξύ όλων των συνδέσεων σε µια συστάδα. Ο διαχωρισµός (cluster separation) είναι το άθροισµα των βαρών µεταξύ κόµβων της συστάδας και κόµβων εκτός συστάδας Η διαδικασία αξιολόγησης των αποτελεσµάτων ενός αλγορίθµου συσταδοποίησης ονοµάζεται αξιολόγηση της εγκυρότητας των clusters (cluster validity assessment). ύο κριτήρια µέτρησης έχουν προταθεί για την αξιολόγηση και την επιλογή ενός βέλτιστου σχήµατος οµαδοποίησης: Συνοχή (compactness): Η απόσταση µεταξύ των µελών κάθε cluster πρέπει να είναι όσο το δυνατόν πιο µικρή. Ένα κοινό µέτρο της συνοχής είναι η διακύµανση(variance) που πρέπει να είναι ελάχιστη. ιαχωρισµός (separation): Τα clusters πρέπει να είναι µεταξύ τους πολύ διαχωρίσιµα. Υπάρχουν τρεις κοινές προσεγγίσεις για την µέτρηση της απόστασης µεταξύ δύο διαφορετικών clusters: 20

26 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.8 ΈΛΕΓΧΟΣ ΕΓΚΥΡΟΤΗΤΑΣ ΟΜΑ ΩΝ Ως έλεγχο εγκυρότητας οµάδων (cluster validity) ορίζουµε µία διαδικασία αποτίµησης µε αντικειµενικά και ποσοτικά κριτήρια του αποτελέσµατος της οµαδοποίηση;. Ο έλεγχος εγκυρότητας (εφεξής καλείται απλώς εγκυρότητα) µπορεί να γίνει µε εσωτερικά ή εξωτερικά κριτήρια. Έλεγχος µε εσωτερικά κριτήρια γίνεται όταν δεν λαµβάνεται υπόψη κάποια εκ των προτέρων γνώση για το διαχωρισµό των αντικειµένων σε κλάσεις. Αντιθέτως, κατά τον έλεγχο µε εξωτερικά κριτήρια λαµβάνεται υπόψη ο διαχωρισµός των αντικειµένων σε κλάσεις, εφόσον αυτός είναι γνωστός. Λόγω της διαφορετικής φύσης των διαφόρων οικογενειών αλγορίθµων, η εγκυρότητα ελέγχεται διαφορετικά µεταξύ τους. Εγκυρότητα µε εσωτερικά κριτήρια Υπάρχουν διαφορετικές µέθοδοι ελέγχου εγκυρότητας των οµάδων που παράγονται µε αλγορίθµους τµηµατοποίησης σε σχέση µε αυτές που παράγονται από ιεραρχικούς αλγορίθµους. Στη συνέχεια. παρουσιάζουµε ξεχωριστά τις δύο αυτές περιπτώσεις. ενώ δίνουµε και µια γενική µέθοδο για τις υπόλοιπες κατηγορίες αλγορίθµων οµαδοποίησης. Εγκυρότητα για αλγορίθµους τµηµατοποίησης ύο βασικές ιδιότητες µίας οµάδας είναι η συνοχή και η αποµόνωση (isolation). Η συνοχή εκφράζει τη συνεκτικότητα µεταξύ των αντικειµένων της οµάδας, ενώ η αποµόνωση το διαχωρισµό τους από τα αντικείµενα των υπολοίπων οµάδων. Η εγκυρότητα µίας οµάδας εξετάζεται ελέγχοντας κατά πόσο τόσο η συνοχή όσο και η αποµόνωσή της είναι µη αναµενόµενες. Ο έλεγχος γίνεται συγκριτικά ως προς πληθυσµό, του οποίου τα αντικείµενα ακολουθούν κατανοµή που τα κάνει να θεωρούνται αναµενόµενα. Ορισµός συνοχής και αποµόνωσης Έστω µία οµάδα c i µε κέντρο m i, ενώ m είναι το κέντρο όλων των οµάδων. εδοµένου ενός µέτρου απόστασης d µεταξύ δύο αντικειµένων, η συνοχή C(c i ) της οµάδας c i και η αποµόνωση της οµάδας I(c i ) ορίζονται από τις Εξίσωσεις: Το αποτέλεσµα της οµαδοποίησης είναι ένα σύνολο Κ οµάδων c i όπου 1 i Κ. Η συνολική συνοχή (sum square error - SSE). και η συνολική αποµόνωση (sum square between - SSB), ορίζονται αντιστοίχως από τις Εξισώσεις: 21

27 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Τα δύο αυτά µεγέθη (SSE και SSΒ) είναι αλληλοεξαρτώµενα. Στη συνέχεια το γεγονός αυτό αποδεικνύεται µε βάση την παραδοχή ότι όλες οι οµάδες έχουν τον ίδιο αριθµό αντικειµένων, δηλαδή c i = c j για i j. Χάριν αναγνωσιµότητας, θεωρούµε µονοδιάστατα αντικείµενα, για τα οποία η απόσταση d(x,y) = (x - y) 2. Ωστόσο, η απόδειξη γενικεύεται και για περισσότερες διαστάσεις. Αφού το άθροισµα των SSΕ και SSB είναι σταθερή και ανεξάρτητη ποσότητα από την οµαδοποίηση που θα προκύψει, γίνεται αντιληπτό ότι η ελαχιστοποίηση του BBΕ και η µεγιστοποίηση του SSB δεν είναι αντικρουόµενες µεταξύ τους. 22

28 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Έλεγχος σηµαντικότητας οµαδοποίησης Η τιµή τις συνολικής συνοχής SSE και της συνολικής αποµόνωσης SSB των k οµάδων του αποτελέσµατος ερµηνεύεται µόνο συγκριτικά. Έτσι, δοθέντος ενός συνόλου µε συγκεκριµένο πληθυσµό αντικειµένων µε τιµές εντός συγκεκριµένου διαστήµατος, παράγουµε ισοµεγέθη σύνολα µε αντικείµενα που ακολουθούν οµοιόµορφη κατανοµή σε ίδιο διάστηµα. Κάθε τέτοιο σύνολο το οµαδοποιούµε σε οµάδες και υπολογίζουµε τις αντίστοιχες τιµές SSE και SSB, οι οποίες σχηµατίζουν δύο αντίστοιχες κατανοµές τιµών SSE και SSB. Έτσι ελέγχουµε κατά πόσο οι τιµές SSE και SSB που προέκυψαν από την υπό εξέταση οµαδοποίηση είναι αναµενόµενες ή όχι σε σχέση µε τις δύο προαναφερθείσες κατανοµές. Παράδειγµα (Έλεγχος σηµαντικότητας SSE) Στο Σχήµα απεικονίζονται 3 οµάδες του παράγονται εφαρµόζοντας τον k-means (και Ευκλείδεια απόσταση) στα 150 σηµεία του συνόλου Iris (η απεικόνιση γίνεται στις δύο διαστάσεις που αντιστοιχούν στα 2 πρώτα ιδιοδιανύσµατα). Στη συνέχεια παράγουµε 100 τυχαία σύνολα µε 150 σηµεία το καθένα, τα οποία ακολουθούν οµοιόµορφη κατανοµή στο περιγεγραµµένο κυρτό πολύγωνο που περικλείει τα 150 σηµεία του Iris. Οµαδοποιούµε κάθε τέτοιο σύνολο µε τον k-means σε 3 οµάδες. Στο Σχήµα απεικονίζεται η κατανοµή των τιµών SSE. Η µέση τιµή της κατανοµής αυτής είναι , ενώ η απόκλιση είναι Σχήµα: (α) Σύνολο 150 σηµείων του Iris χωρισµένα σε 3 οµάδες, (β) Ιστόγραµµα τιµών SSE. Για το σύνολο Iris η τιµή SSE προκύπτει ίση µε Σε επίπεδο σηµαντικότητας 95% (α = 0.05), ισχύει ότι Ζ(α) = Επειδή ισχύει ότι: = 7.73< Αποφασίζουµε ότι η τιµή SSE για τo Iris δεν ανήκει στην κατανοµή των τιµών SSE για τα τυχαία σύνολα. Εποµένως, η οµαδοποίηση θα απεικονίζεται στο Σχήµα έχει πιθανότητα µικρότερη από 5% να προέκυψε τυχαία. 23

29 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Συντελεστής σιλουέτας Ο συντελεστής σιλουέτας (silhouette coefficient) ενός αντικειµένου µετρά την απόστασή του από τα αντικείµενα της οµάδας του, συγκριτικά όµως µε την απόστασή του από τα αντικείµενα όλων των άλλων οµάδων. Εποµένως αποτελεί ένα συνδυαστικό µέτρο για τη συνοχή και την αποµόνωση. Έστω ένα αντικείµενο i που ανήκει στην οµάδα C i. Ο συντελεστής σιλουέτας S i ορίζεται ως εξής. Η µέση απόσταση του αντικειµένου αυτού από τα αντικείµενα της οµάδας του είναι α i. Επίσης. b i, j είναι η µέση απόστασή του από τα αντικείµενα της οµάδας C j, όπου (j i). Αν b i = min j{b i, j, τότε συντελεστής σιλουέτας S i δίνεται από την εξίσωση: Si = bi max{ ai ai, bi Ο S i λαµβάνει τιµές στο διάστηµα [-1, 1]. Αρνητική τιµή προκύπτει αν α i > b i, δηλαδή όταν κάποιο αντικείµενο απέχει από τα αντικείµενα της δικής του οµάδας κατά µέσο όρο περισσότερο σε σχέση µε τα αντικείµενα της πλησιέστερης οµάδας. Εποµένως, είναι επιθυµητές θετικές τιµές του S i. Η µέγιστη τιµή του S i είναι ίση µε 1 και προκύπτει όταν α i = 0.. Μπορούµε να αξιολογήσουµε το αποτέλεσµα της οµαδοποίησης παίρνοντας το µέσο όρο των συντελεστών σιλουέτας για κάθε αντικείµενο του συνόλου δεδοµένων. Παράδειγµα (Συντελεστές σιλουέτας ως προς το Κ) Για το σύνολο Iris (Σχήµα) εφαρµόζουµε τον αλγόριθµο K-Means για διάφορες τιµές του Κ. Για κάθε τιµή του Κ υπολογίζουµε την µέση τιµή των συντελεστών σιλουέτας. Το αποτέλεσµα απεικονίζεται στο Σχήµα. Η µέγιστες τιµές προκύπτουν για Κ = 2 και Κ = 3, ενώ για µεγαλύτερες τιµές του Κ προκύπτουν µικρότερες τιµές. Αυτός είναι ένας έµµεσος τρόπος για την εκτίµηση του αριθµού των οµάδων ενός συνόλου δεδοµένων. Σχήµα: Μέση τιµή συντελεστών σιλουέτας ως προς τον αριθµό των οµάδων 24

30 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ 3 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ 3.1 The Data Matrix Τα αντικείµενα αντιπροσωπεύονται ως σηµεία (διανύσµατα) σε ένα πολυδιάστατο χώρο, όπου κάθε διάσταση αντιπροσωπεύει µια ευδιάκριτη ιδιότητα (µεταβλητή, µέτρηση) περιγράφοντας το αντικείµενο. Κατά συνέπεια, ένα σύνολο αντικειµένων αντιπροσωπεύεται (τουλάχιστον εννοιολογικά) από έναν πίνακα m επι n στο χώρο, όπου υπάρχουν m γραµµές, µια για κάθε αντικείµενο, και n στήλες, µια για κάθε ιδιότητα. Εικόνα. data points and data matrix. Τα δεδοµένα µετασχηµατίζονται µερικές φορές πρίν χρησιµοποιηθούν. Ένας λόγος που συµβαίνει αυτό είναι επειδή οι διαφορετικές ιδιότητες µετρούνται σε διαφορετικές κλίµακες. Σε περιπτώσεις όπου το εύρος των τιµών διαφέρει πολύ από ιδιότητα σε ιδιότητα, αυτές οι διαφορετικές κλίµακες µπορούν να επικρατήσουν στα αποτελέσµατα της ανάλυσης συστάδων, και είναι συνηθισµένο να ικανοποιούνται τα δεδοµένα έτσι ώστε όλες οι ιδιότητες είναι στην ίδια κλίµακα. Μια απλή προσέγγιση σε µια τέτοια διαδικασία είναι, για κάθε ιδιότητα, να αφαιρέσει του µέσου όρου των τιµών ιδιοτήτων και να διαιρέσει µε τη τυπική απόκλιση των τιµών. 3.2 The Proximity Matrix Ο Πίνακας Εγγύτητας (Οµοιότητας ή ανοµοιότητας) Ενώ η ανάλυση συστάδων χρησιµοποιεί µερικές φορές τον αρχικό χώρο δεδοµένων, πολλοί αλγόριθµοι συσταδοποίησης χρησιµοποιούν έναν πίνακα οµοιότητας το S, ή έναν πίνακα ανοµοιότητας, το D. Για ευκολία, και οι δύο πίνακες αναφέρονται συνήθως ως πίνακες εγγύτητας, ένας πίνακας εγγύτητας, Π, m επί n περιέχει όλες τις δυαδικές ανοµοιότητες ή οµοιότητες µεταξύ των αντικειµένων που εξετάζονται. Εάν ΧΙ και xj είναι το ith και jth τα αντικείµενα, αντίστοιχα, η είσοδος στη σειρά ith και jth τη στήλη του πίνακα εγγύτητας είναι η οµοιότητα, sij, ή η ανοµοιότητα, dij, µεταξύ ΧΙ και xj. Εικόνα. The Proximity Matrix 25

31 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Πιο απλά, θα χρησιµοποιήσουµε pij για να αντιπροσωπεύσουµε είτε sij είτε dij. Οι αριθµοί 2a, 2b, και 2c παρουσιάζουν, αντίστοιχα, τέσσερα σηµεία και αντίστοιχους πίνακες στοιχείων και εγγύτητας (απόσταση). Τελειώνοντας, αναφέρουµε ότι τα αντικείµενα αντιπροσωπεύονται µερικές φορές πιο πολύ από περίπλοκες δοµές δεδοµένων παρά από τα διανύσµατα των ιδιοτήτων, π.χ., σειρές χαρακτήρα ή γράφοι. Ο καθορισµός της οµοιότητας (ή των διαφορών) δύο αντικειµένων σε µια τέτοια κατάσταση είναι πιο περίπλοκος, αλλά εάν ένα λογικό µέτρο οµοιότητας (ανοµοιότητα) υπάρχει, κατόπιν µια ανάλυση συγκέντρωσης µπορεί ακόµα να εκτελεστεί. Συγκεκριµένα,οι τεχνικές συσταδοποίησης που χρησιµοποιούν έναν πίνακα εγγύτητας είναι απρόσβλητες από την έλλειψη ενός πίνακα δεδοµένων. 3.3 The Proximity Graph Ένας πίνακας εγγύτητας καθορίζει έναν «ζυγισµένο» γράφο, όπου οι κόµβοι είναι τα σηµεία που συγκεντρώνονται, και οι σταθµισµένες άκρες αντιπροσωπεύουν τις σχέσεις - ιδιότητες µεταξύ των σηµείων, δηλ., οι καταχωρήσεις του πίνακα εγγύτητας. Ενώ αυτός ο γράφος εγγύτητας µπορεί να κατευθυνθεί, το οποίο οδηγεί σε έναν ασύµετρο πίνακα εγγύτητας, οι περισσότεροι µέθοδοι συσταδοποίησης υποθέτουν έναν µη κατευθυνόµενο γράφο. Η λιγοστή απαίτηση συµµετρίας µπορεί να είναι χρήσιµη σε µερικές περιπτώσεις, αλλά θα υποθέσουµε τους µη κατευθυνόµενους γράφους εγγύτητας (συµµετρικούς πίνακες εγγύτητας) στις συζητήσεις µας. Εικόνα. The Proximity graph Από την πλευρά των γράφων, η συσταδοποίηση είναι ισοδύναµη µε το σπάσιµο του γράφου στα συνδεδεµένα συστατικά (χωρίστε συνδεδεµένους υπογράφους), ένα για κάθε συστάδα. Επιπλέον, πολλά ζητήµατα που αφορούν τους γράφους µπορούν να χρησιµοποιηθούν στους γραφο-θεωρητικούς όρους, π.χ., τα ζητήµατα της συνοχής συστάδων και ο βαθµός ένωσης µε άλλες συστάδες µπορεί να µετρηθεί από τον αριθµό και τη «ισχύ» των συνδέσεων µεταξύ και µέσα των συστάδων. Επίσης, πολλές τεχνικές συσταδοποίησης π.χ., µονή σύνδεση και πλήρης σύνδεση περιγράφονται χρησιµοποιώντας τις αντιπροσωπεύσεις ων γράφων. 26

32 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Οι τεχνικές Clustering µπορούν να διαχωριστούν µε πολλούς τρόπους, όπως Ιεραρχικό Clustering σε αντίθεση µε το ιαµεριστικό (partitional), και καθένα από αυτά να χωριστεί σε άλλες υποκατηγορίες. Θα αναφερθούµε σε διαφορετικές προσεγγισεις Clustering παρακάτω αφού προηγούµενως δούµε καποιούς όρους και διαφοροποιήσεις που παρουσιάζουν οι διάφοροι αλγόριθµοι. Οι αλγόριθµοι για Clustering µπορεί να είναι: Συγκεντρωτικοί και ιαχωριστικοί (Agglomerative and Divisive). Η διαφοροποίηση των ειδών αυτών αυτών σχετίζεται µε την λειτουργία και τις δοµές του αλγορίθµου. Στην πρωτη περίπτωση ο αλγόριθµος ξεκινά θεωρώντας καθε στοιχείο σαν ένα ξεχωριστό cluster, και προχωρά συγχωνεύοντας στοιχεία και clusters µεχρις ότου να ικανοποιηθεί µια συνθήκη. Στην περίπτωση ενός διαχωριστικού αλγορίθµου, όλα τα στοιχεία θεωρούνται οτι ανήκουν σε ένα cluster και ακολουθείται µια συνεχής διάσπαση του ψλθσταερ αυτού σε υπο cluster µεχρις ότου να ικανοποιηθεί η συνθήκη τερµατισµού. Μονοθετικοί και Πολυθετικοί (Monothetic and Polythetic). Η διαφορά αυτών χαρακτηρίζει την σειριακή ή ταυτόχρονη χρήση των χαρακτηριστικών των στοιχείων κατά την διαδικασία του Clustering. Οι περισσότεροι αλγόριθµοι είναι πολυθετικοί, κάτι που σηµαίνει ότι όλα τα χαρακτηριστικά των στοιχείων συµµετέχουν κάθε φορά στον καθορισµό της απόστασης του στοιχείου από κάποιο άλλο. Ένας µονοθετικός αλγόριθµος λαµβάνει υπόψη του µονό ένα χαρακτηριστικό τη φορά και πρεγµατοποιεί οµαδοποιήσεις µε βάση αυτό το χαρακτηριστικό. Σε επόµενη επανάληψη χρησιµοποιεί άλλο χαρακτηριστικό και διαχωρίζει τις ήδη υπάρχουσες οµάδες. Ένα παράδειγµα φαίνεται στο σχήµα 3. Εδώ τα στοιχεία του χώρου µας έχουν χωριστεί σε δύο clusters αρχικά µε βάση το χαρακτηριστικό Χ1. Ο διαχωρισµός δηλώνεται µε την κάθετη γραµµή V. Στην συνέχεια κάθε cluster χωρίζεται µε βάση το χαρακτηριστικό Χ2 και τα νέα clusters διαχωρίζονται από τις οριζόντιες γραµµές Η1 και Η2. Το πρόβληµα αυτών των αλγορίθµων είναι ότι τα στοιχεία χωρίζονται τελικά σε 2 d clusters όπου d έιναι ο αριθµός των χαρακτηριστικών των στοιχείων. Αυτό συνήθως οδηγεί σε πολλά clusters εκ των οποίων τα περισσότερα είναι µικρά και ασήµαντα. V H1 4 4 H2 X X1 Σχήµα: Οµαδοποίηση µονοθετικού αλγορίθµου. 27

33 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Σκληροί και fuzzy (hard and fuzzy). Ένας σκληρός αλγόριθµος τοποθετεί κάθε στοιχείο σε ένα και µόνο cluster, σε αντίθεση µε τους fuzzy αλγορίθµους οι οποίοι δίνουν σε κάθε στοιχείο για κάθε cluster έναν βαθµό που εκφράζει κατά πόσο το στοιχείο αυτό ανήκει στο cluster αυτό. Ντετερµινιστικοί και Στοχαστικοί (Deterministic and Stochastic). Αυτοί οι αλγόριθµοι είναι κυρίως διαιρετικοί και σχετίζονται µε την βελτιστοποίηση της οµαδοποίησης. Αυξητικοί και µη αυξητικοί (Incremental and non-incremental). Η διαφορά αυτών των αλγορίθµων εµφανίζεται όταν το σύνολο των δεδοµένων προς οµαδοποίηση είναι πολύ µεγάλο και περιορισµοί που υπάρχουν στον χρόνο εκτέλεσης και τον διαθέσιµο χώρο µνήµης επηρεάζουν την αρχιτεκτονική του αλγορίθµου. Στα πρώτα βήµατα της θεωρίας περί clustering τα δεδοµένα δεν ήταν ιδιαιτέρα πολλά και προβλήµατα µε το µέγεθος της πληροφορίας δεν υπήρχαν. Με την αύξηση όµως της πληροφορίας υπήρχε η ανάγκη για εύρεση αλγορίθµων οι οποίοι ελαχιστοποιούν τον αριθµό σαρώσεων των δεδοµένων, µειώνουν τον αριθµό των στοιχείων που εξετάζονται η µειώνουν το µέγεθος των δοµών που χρησιµοποιούνται κατά την εκτέλεση του αλγορίθµου. 3.4 ΑΛΓΟΡΙΘΜΟΙ ΙΕΡΑΡΧΙΚΟΥ CLUSTERING Το πως λειτουργεί ένας ιεραρχικός αλγόριθµος clustering φαινεται στα παρακάτω σχήµατα χρησηµοποιώντας τα δεδοµένα ενός διδιάστατου χώρου τα οποία µπορούν να οµαδοποιηθούν όπως παρουσιάζεται στο σχήµα 4. Εδώ υπαρχουν επτά στοιχεία τα οποία σχηµατίζουν τρία clusters. Ενας ιεραρχικός αλγόριθµος µπορεί να αποδωθεί µε ένα δενδροδιάγραµµα το οποίο παρουσιάζει τις συγχωνεύσεις στοιχείων για την δηµιουργία clusters και τα επίπεδα οµοιότητας µε βαση τα οποία αλλαζουν οι οµάδες και διαµορφώνονται τα clusters. Το δενδροδιάγραµµα που αντιστοιχεί στα δεδοµένα του σχήµατος 4 παρουσιάζεται στο σχήµα 5. Χαρακτηριστικό του διαγράµµατος είναι τα διαφορα επίπεδα στα οποία αποδίδονται διαφορετικές οµαδοποιήσεις. Cluster 3 X2 Cluster 1 A B C F G D E Cluster 2 S I M I L A R I T Y X1 A B C D E F G Σχήµα: Σηµεία σε τρία clusters Σχήµα 5: ενδοδιάγραµµα ιεραρχικού αλγορίθµου 28

34 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Οι περισσοτεροι ιεραρχικοί αλγόριθµοι είναι παραλλαγές των αλγορίθµων απλούσυνδεσµου (single-link), του πλήρους-συνδέσµου (complete-link). Οι διαφορά µεταξύ των αλγορίθµων αυτών έχει να κάνει µε τον τρόπο µε τον οποίο ορίζουν την οµοιότητα µεταξύ στοιχείων και κατά συνέπεια clusters πριν την συγχώνευσή τους. Στην περίπτωση του απλού-συνδεσµου η απόσταση µεταξύ δύο clusters είναι η ελάχιστη από τις αποστάσεις µεταξύ όλων των ζευγών στοιχείων από τα δύο clusters (καθε ζεύγος περιέχει ένα στοιχείο από το ένα cluster και ένα από το άλλο). Στον αλγόριθµο πλήρους-συνδεσµου η απόσταση µεταξύ δύο clusters είναι η µεγιστη από τις αποστασεις µεταξύ όλων των ζευγών στοιχείων από τα δύο clusters. Και στις δύο περιπτώσεις δυο clusters συγχωνεύονται για να δηµιουργήσουν ένα cluster όταν η απόσταση αυτή, οπως και αν ορίζεται είναι ελαχιστη. Εχει αποδειχτει οτι ο αλγόριθµος του πλήρους συνδέσµου δηµιουργεί καλλιτερα, πιο συµπαγή clusters. Αντίθετα ο αλγόριθµος του απλού-συνδεσµου έχει την τάση να δηµιουργεί σκόρπια και επιµηκη clusters. Στο σχήµα φαίνονται µια σειρά από στοιχεία τα οποία οριζουν δύο clusters αλλα χωρίζονται από σηµεία τα αποτελούν θόρυβο και δεν µας ενδιαφέρουν. Ο αλγόριθµος απλού-συνδέσµου και ο αλγόριθµος πλήρους συνδέσµου δηµιουργεί τα clusters του σχήµατος. Είναι προφανές ότι στην δεύτερη περίπτωση τα clusters είναι πιο συµπαγή από την πρώτη στην οποία τα στοιχεία θορύβου έχουν δηµιουργήσει ανεπιθύµητα φαινόµενα. Παρόλα αυτά ο αλγόριθµος απλού συνδέσµου είναι αρκετά ευέλικτος σε δύσκολες περιπτώσεις. Για παράδειγµα ο αλγόριθµος απλού-συνδέσµου µπορεί να εξάγει τα οµόκεντρα clusters που φαίνονται στο σχήµα 8 ενώ ο αλγόριθµος πλήρους-συνδέσµου δεν µπορεί. Τελικά κανείς από του δύο αλγορίθµους δεν είναι πανάκεια. ιαφαίνεται όµως ότι ο δεύτερος παράγει καλύτερα και πιο χρήσιµες ιεραρχίες από τον πρώτο σε πολλές εφαρµογές. X X X X X X X X X X X X X X X X X1 X1 Σχήµα: Clustering απλού-συνδέσµου. : Clustering πλήρους-συνδέσµου 29

35 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ 3.5 ΙΑΜΕΡΙΣΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ CLUSTERING Ένας διαµεριστικός αλγόριθµος έχει ως αποτέλεσµα µια διαµέριση του χώρου των δεδοµένων σε αντίθεση µε τους ιεραρχικούς αλγορίθµους που δηµιουργούν πιο πολύπλοκες δοµές που περιγράφονται από τα δενδρογράµµατα. Οι αλγόριθµοι αυτοί υπερτερούν σε περιπτώσεις όπου τα δεδοµένα είναι παρά πολλά και η δηµιουργία δενδροδιαγραµµατων είναι αδύνατη. Το κυρίως πρόβληµα των αλγορίθµων αυτών είναι η απόφαση για τον αριθµό των τελικών clusters. Ο αριθµός αυτός καθορίζεται κυρίως από την προσπάθεια βελτιστοποιησης µιας συνάρτησης. Στην πραγµατικότητα αυτό που γίνεται είναι να τρέχει ο αλγόριθµος για διαφόρους αριθµούς από clusters και να επιλέγεται εκείνη η τελική κατάσταση η οποία βελτιστοποιεί την παραπάνω συνάρτηση. Η κριτήριο που χρησιµοποιείται κυρίως σε διαµεριστικούς αλγορίθµους για την τελική απόφαση του αριθµού των clusters είναι το κριτήριο του τετραγωνικού λάθους ή η συνάρτηση τετραγωνικού λάθους (squared error function). Αυτή η συνάρτηση ορίζεται για ένα αποτέλεσµα clustering L µε σύνολο στοιχείων S και Κ clusters ως εξής: 2 e ( K, L) = K j= 1 n i= 1 x ( j) i c j 2 όπου ( j) x i το i στοιχείο του j cluster, και c jείναι το κεντροειδές του j cluster. Ο αλγόριθµος k-means είναι ένας πολύ απλός και πολύ διαδεδοµένος διαµεριστικός αλγόριθµος που χρησιµοποιεί το κριτήριο του τετραγωνικού λάθους. Ο αλγόριθµος ξεκινά µε µια τυχαία διαµέριση σε clusters και συνεχώς τοποθετεί στοιχεία στα clusters µε βάση την απόσταση των στοιχείων από το κεντροειδές του cluster. Αυτό σταµατάει µέχρι να ικανοποιηθεί κάποιο κριτήριο το οποίο µπορεί να είναι η ελαχιστοποίηση της συνάρτησης τετραγωνικού λάθους ή η µη διαφοροποίηση των clusters από κάποια επανάληψη και µετά. Ο αλγόριθµος αυτός είναι δηµοφιλής εξαιτίας της απλότητας υλοποίησης του και της πολυπλοκότητας του η οποία είναι της τάξης n (Ο(n)), όπου ν είναι ο αριθµός των στοιχείων. Το µόνο πρόβληµα που έχει ο αλγόριθµος είναι στην αρχική επιλογή των clusters. Αν η επιλογή αυτή δεν είναι αρκετά προσεκτική τότε το κριτήριο τετραγωνικού λάθους συγκλίνει σε τοπικά ελάχιστο κάνοντας την τελική επιλογή cluster ανεπιτυχή. Ας θεωρήσουµε το χώρο του σχήµατος µε επτά στοιχεία. Αν η αρχική µας επιλογή είναι τρία clusters µε αρχικά στοιχεία το Α,B,C στο καθένα, το αποτέλεσµα του clustering θα είναι αυτό που φαίνεται στο σχήµα µε τις ελλείψεις. Αντίθετα αν η αρχική επιλογή είναι τα clusters µε σηµεία το Α,D,F τα τελικά clusters φαίνονται µε τα παραλληλόγραµµα. G F X2 A C B E D X1 30

36 3.6 CLUSTERING ΚΟΝΤΙΝΟΤΕΡΟΥ ΓΕΙΤΟΝΑ ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Σε ένα cluster έχουµε παρατηρήσει ότι τα στοιχεία είναι συνήθως κοντά µεταξύ τους. Έτσι οι αποστάσεις στοιχείων από γειτονικά στοιχεία θα µπορούσαν να χρησιµοποιηθούν για να πραγµατοποιήσουµε οµαδοποιήσεις. Μια επαναληπτική µέθοδος τοποθετεί κάθε στοιχείο στο cluster το οποίο ανήκει και ο κοντινότερος γείτονας του, δεδοµένου ότι η απόσταση αυτή είναι κάτω από κάποιο κατώφλι. Η διαδικασία αυτή συνεχίζεται µέχρι να µην υπάρχουν άλλα στοιχεία η να µην δηµιουργούνται άλλα clusters. 3.7 FUZZY CLUSTERING Μέχρι τώρα έχουµε δει ότι όλες οι τεχνικές και οι αλγόριθµοι clustering τοποθετούν ένα στοιχείο σε ένα και µονό cluster, σε αυτό που τελικά ανήκει. Πρόκειται λοιπόν για σκληρούς αλγορίθµους και αυτό συνεπάγεται ότι τα clusters σε αυτές τις περιπτώσεις είναι ξένα µεταξύ τους σύνολα. Το fuzzy clustering επεκτείνει την έννοια του «ένα στοιχειό ανήκει σε ένα cluster» και συνδέει κάθε στοιχείο µε όλα τα clusters χρησιµοποιώντας µια συνάρτηση µέλους. Το αποτέλεσµα είναι κάποια σύνολα από στοιχεία αλλά όχι µια απόλυτη διάµεση του χώρου δεδοµένων. Ένας αλγόριθµος fuzzy clustering κάνει τα εξής σε γενικές γραµµές: 1. Επιλογή µιας fuzzy διαµέρισης των Ν στοιχείων σε Κ clusters. Καθορισµός του πίνακα U=ΝxΚ του οποίου κάθε στοιχείο u ij δηλώνει τον βαθµό συµµετοχής του στοιχείου i στο cluster j. Η τιµές των u είναι µεταξύ 0 και Χρησιµοποιώντας τον πίνακα U βρίσκεται η τιµή κάποιας συνάρτησης που αποτελεί και το κριτήριο τερµατισµού, και η οποία πρέπει να βελτιστοποιηθεί. Συνεχώς επανατοποθετούµε στοιχεία στα clusters µε νέες τιµές συµµετοχής και επαναπροσδιορίζουµε τον πίνακα U και την τιµή της συνάρτησης. 3. Επαναλαµβάνουµε το βήµα 2 µέχρι να µην επέρχονται σηµαντικές αλλαγές στον πίνακα U και την τιµή της συνάρτησης. 3.8 ΕΝΝΟΙΟΛΟΓΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Ένα κύριο χαρακτηριστικό µερικών υψηλής διαστατικότητας δεδοµένων είναι ότι δύο αντικείµενα µπορούν να είναι ιδιαίτερα παρόµοια ακόµα κι αν τα εφαρµοσµένα µέτρα απόστασης ή οµοιότητας δείχνουν ότι είναι ανόµοια ή ίσως µόνο µερικώς παρόµοια. Αντιθέτως, είναι δυνατό οι κοντινότεροι ή πιο όµοιοι γείτονες ενός αντικειµένου να µην είναι τόσο συσχετισµένοι µε το αντικείµενο όσο άλλα αντικείµενα που είναι λιγότερο όµοια. Για την εξέταση αυτού του ζητήµατος έχουµε επεκτείνει τις προηγούµενες προσεγγίσεις που καθορίζουν την απόσταση ή την οµοιότητα των αντικειµένων µέσω του αριθµού κοντινότερων γειτόνων που µοιράζονται. Η προσέγγιση αυτή καθορίζει την οµοιότητα όχι από την άποψη των κοινών ιδιοτήτων, αλλά από την άποψη των εννοιών που µοιράζονται (concept based). 31

37 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΧΩΡΟΙ ΕΝΝΟΙΩΝ (Concept Spaces) Μία έννοια θα είναι ένα σύνολο ιδιοτήτων. Για παράδειγµα, σε ένα έγγραφο µια έννοια θα ήταν ένα σύνολο λέξεων που χαρακτηρίζουν ένα θέµα ή ένα τίτλο όπως «η τέχνη» ή «τα οικονοµικά.»( Η σηµασία των εννοιών είναι ότι, για πολλά σύνολα δεδοµένων, τα αντικείµενα στο σύνολο δεδοµένων µπορούν να εµφανισθούν όπως δηµιουργούνται από ένα ή περισσότερα σύνολα εννοιών µε έναν πιθανολογικό τρόπο.) Κατά συνέπεια, µια προσέγγιση µε βάση τις έννοιες στα έβλεπε κάθε έγγραφο σαν να αποτελείται από λέξεις που προέρχονται από µια ή περισσότερες έννοιες, δηλ., σύνολα λέξεων ή λεξιλογίων, µε την πιθανότητα κάθε λέξης να καθορίζεται από ένα στατιστικό µοντέλο. Αναφερόµαστε στα σύνολα δεδοµένων µε αυτό το είδος δοµής ως χώροι εννοιών, ακόµα κι αν τα δεδοµένα µπορούν να αντιπροσωπευθούν ως σηµεία σε ένα διανυσµατικό χώρο ή µε κάποια άλλη µορφή. Η πρακτική σχετικότητα των χώρων έννοιας είναι ότι τα δεδοµένα που ανήκουν σε αυτά πρέπει να αντιµετωπιστούν διαφορετικά ως προς το πώς η οµοιότητα µεταξύ των σηµείων πρέπει να υπολογιστεί και το πώς τα αντικείµενα πρέπει να συσταδοποιηθούν. Τα µέτρα οµοιότητας µπορούν να «συµπεριφερθούν» απροσδόκητα στους χώρους έννοιας. Οι µεταβλητές είναι µερικές φορές αυτό που ονοµάζεται "µοναδικές" µεταβλητές, δηλαδή είναι λογικό να ειπωθεί πως ένα αντικείµενο έχει αυτό το χαρακτηριστικό γνώρισµα ή δεν έχει αυτό το χαρακτηριστικό γνώρισµα. Για παράδειγµα, ένα έγγραφο µπορεί ή δεν µπορεί να περιλαµβάνει µία σίγουρη λέξη, ή ένας πελάτης µπορεί ή δεν µπορεί να αγοράσει ένα συγκεκριµένο αντικείµενο. Εκτιµήσεις, απόλυτα χαρακτηριστικά, ή δυαδικά χαρακτηριστικά µπορούν εύκολα να µεταφραστούν µέσω των απόλυτων χαρακτηριστικών γνωρισµάτων, αλλά η κατάσταση γίνεται περισσότερο πολύπλοκη µε τα περισσότερα συνεχή χαρακτηριστικά γνωρίσµατα. Θεωρήστε έναν χώρο εννοιών όπου όλα τα αντικείµενα διαιρούνται σε δύο οµάδες, Α και Β. Αντικείµενα από την οµάδα Α είναι δηµιουργηµένα από την συλλογή τριών χαρακτηριστικών γνωρισµάτων (µε ίση πιθανότητα) από ένα σύνολο εννοιών{1,2,3,4,5 και τα αντικείµενα από την οµάδα Β είναι δηµιουργηµένα από την συλλογή τριών χαρακτηριστικών γνωρισµάτων από το σύνολο εννοιών {4,5,6,7,8. Υποθέστε πως έχουµε δηµιουργήσει τα ακόλουθα τρία αντικείµενα x={1,2,3,4, y={3,4,5 και z={4,5,6. (Μπορούµε επίσης να αναπαραστήσουµε αυτά τα στοιχεία ως δυαδικά διανύσµατα,π.χ, x=( ). Προφανώς, τα στοιχεία x και y ανήκουν στην οµάδα Α, ενώ το στοιχείο z ανήκει στην οµάδα Β. Ωστόσο, σχεδόν ξεκάθαρα, τα περισσότερα κριτήρια οµοιότητας, λ.χ, το κριτήριο Jaccard, θα εκτιµούσε πως τα στοιχεία y και z είναι περισσότερο όµοια, καθώς µοιράζονται δύο από τα τρία χαρακτηριστικά τους γνωρίσµατα, ενώ το x και το y µοιράζονται µόνο ένα χαρακτηριστικό γνώρισµα. 32

38 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ 4 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ 4.1 ΓΡΑΦΟ-ΘΕΩΡΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Οι έννοιες και οι ιδιότητες της θεωρίας των γράφων καθιστούν πολύ κατάλληλη την περιγραφή των προβληµάτων συσταδοποίησης µε τη βοήθεια των γράφων (graph based clustering). Οι κόµβοι V ενός ζυγισµένου γράφου G αντιστοιχούν στα σηµεία δεδοµένων στο χώρο προτύπων και οι ακµές Ε απεικονίζουν τις εγγύτητες µεταξύ κάθε ζευγαριού των σηµείων δεδοµένων. Εάν ο χώρος ανοµοιότητας ορίζεται ως όπου το d είναι ένα κατώφλι, πάνω από το οποίο συνδέονται δύο κόµβοι τότε ο γράφος απλοποιείται σε έναν µη ζυγισµένο γράφο. Και οι δύο τεχνικές ιεραρχικής συσταδοποίησης (Hierarchical clustering) του απλού συνδέσµου (single links) και του πλήρους συνδέσµου (complete links) µπορούν να περιγραφούν µε βάση το γράφο αυτό. Η συσταδοποίηση απλού συνδέσµου είναι ισοδύναµη µε την αναζήτηση των µέγιστα συνδεδεµένων υπογράφων (connected components) ενώ η συσταδοποίηση πλήρους συνδέσµου είναι ισοδύναµη µε την εύρεση των µέγιστων πλήρως συνδεδεµένων υπογράφων (cliques). Οι Jain και Dubes επεξήγησαν και συζήτησαν περισσότερες εφαρµογές της θεωρίας των γράφων (π.χ., αλγόριθµος του Hubert και αλγόριθµος Johnson) για την ιεραρχική συσταδοποίηση. Ο Chameleon είναι ένας πρόσφατος συσσωρευτικός αλγόριθµος ιεραρχικής συσταδοποίησης βασισµένος στο γράφο Κ-κοντινότερων-γειτόνων, στην οποία µια ακµή-σύνδεσµος µεταξύ δύο κορυφών-σηµειων διαγράφεται εάν η κάθε µία κορυφή δεν είναι µέσα στα K-κοντινότερα σηµεία της άλλης. Στο πρώτο βήµα, ο Chameleon διαιρεί το γράφο συνδετικότητας σε σύνολο υποοµάδων µε την ελάχιστη περικοπή ακρών. Κάθε υπογράφος πρέπει να περιέχει αρκετούς κόµβους για τον αποτελεσµατικό υπολογισµό οµοιότητας. Ο συνδυασµός της σχετικής αλληλοσυνδετικότητας και της σχετικής κοντινότητας µεταξύ δύο σηµείων, που καθιστά τον Chameleon αρκετά κατάλληλο να ερευνήσει τα χαρακτηριστικά των πιθανών συστάδων. Ο Chameleon συγχωνεύει αυτά τα µικρά υποσύνολα υπογράφων και, βρίσκει τις συγκεντρώσεις συστάδων. Εδώ, η σχετική αλληλοσυνδετικότητα (ή κοντινότητα) λαµβάνεται µε την κανονικοποίηση του αθροίσµατος των βαρών (ή του µέσου βάρους) των ακµών που συνδέουν τις δύο συστάδες πέρα από την εσωτερική συνδετικότητα (ή τη κοντινότητα) των συστάδων. Ο Delaunay τριγωνικός γράφος - DTG- είναι µια άλλη σηµαντική αντιπροσώπευση γράφων για την ανάλυση ιεραρχικής συσταδοποίησης HC. Ο Cherng και ο Lo κατασκεύασαν έναν υπεργράφο (κάθε ακµή επιτρέπεται να συνδέει/να έχει, περισσότερες 33

39 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ από δύο άκρες) από το DTG και χρησιµοποίησαν έναν αλγόριθµο δυο φάσεων που είναι παρόµοιος µε τον Chameleon για να βρεί τις συστάδες. Μια άλλη dtg-βασισµένη εφαρµογή, γνωστός ως AMOEBA αλγόριθµος. Η θεωρία γράφων µπορεί επίσης να χρησιµοποιηθεί για µη ιεραρχικές συστάδες. Ο αλγόριθµος συγκέντρωσης του Zahn αναζητάει τα συνδεδεµένα συστατικά ως συστάδες µε την ανίχνευση και την απόρριψη των ασυµβίβαστων ακρών ενός ένδρου ελαχίστων συζεύξεων (minimum spanning tree) στο ελάχιστο spanning tree. Ο Hartuv και ο Shamir µεταχειρίστηκαν τις συστάδες ως ιδιαίτερα υψηλά συνδεδεµένα υπογράφους (HCS), όπου «ιδιαίτερα υψηλά συνδεµένος» σηµαίνει η συνδετικότητα (ο ελάχιστος αριθµός ακρών που απαιτούνται για να αποσυνδέσουν έναν γράφο) ενός υπογράφου είναι τουλάχιστον µισή όσο του αριθµού των ακρών. Αλγόριθµος CLICK Ένας άλλος αλγόριθµος, αποκαλούµενος CLICK, είναι βασισµένος στον υπολογισµό του ελάχιστου βάρους που λαµβάνεται υπόψιν για να διαµορφώσει τις συστάδες. Εδώ, ο γράφος είναι ζυγισµένος και στα βάρη ακµών ορίζεται µια νέα ερµηνεία, µε το συνδυασµό της πιθανότητας και της θεωρίας των γράφων. Το βάρος ακµής µεταξύ του κόµβου ι και j καθορίζεται όπως φαίνεται παρακάτω Όπου αντιπροσωπεύει την οµοιότητα µεταξύ των δύο κόµβων. Ο CLICK περαιτέρω υποθέτει ότι οι τιµές οµοιότητας µέσα στις συστάδες και µεταξύ των συστάδων ακολουθούν γκαουσσιανές κατανοµές µε τα διαφορετικούς µέσους (mean) και διακυµάνσεις αντίστοιχα. Εποµένως, η προηγούµενη εξίσωση µπορεί να ξαναγραφεί µε τη χρήση του θεωρήµατος Bayes όπως Όπου είναι η προγενέστερη πιθανότητα ότι δύο αντικείµενα ανήκουν στην ίδια συστάδα και είναι τα µέσα και οι διακυµάνσεις για τις οµοιότητες µεταξύ συστάδων και τις οµοιότητες ανάµεσα στις συστάδες αντίστοιχα. Αυτές οι παράµετροι µπορούν να υπολογιστούν είτε από την προγενέστερη γνώση, είτε µε τη χρήση των µεθόδων παραµετρικής εκτίµησης. Ο CLICK κατ' επανάληψη ελέγχει τον τρέχον υπογράφο, και παράγει έναν κατάλογο πυρήνων, ο οποίος αποτελείται από τα συστατικά που ικανοποιούν κάποια κρητήρια. Οι υπογράφοι που περιλαµβάνουν µόνο έναν κόµβο θεωρούνται ως µονήρεις, και διαχωρίζονται για περεετέρω παρακολούθηση 34

40 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Χρησιµοποιώντας τους πυρήνες ως βασικές συστάδες, ο CLICK πραγµατοποιεί µια σειρά υιοθετήσεων µονήρων συστάδων και συγχώνευσης συστάδων για να παραγάγει τις τελικές συστάδες. Πρόσθετα ευρετικά (heuristics) παρέχονται για να επιταχύνουν την απόδοση αλγορίθµου. Οµοίως, ο CAST εξετάζει ένα πιθανολογικό µοντέλο στο σχεδιασµό ενός βασισµένου στη θεωρία-γράφου αλγόριθµου συγκέντρωσης. Οι συστάδες διαµορφώνονται ως κλίκες γράφων, οι οποίοι, στις ιδανικές συνθήκες, θεωρούνται σαν ένα σύνολο από χωρισµένες κλίκες. Η επίδραση του θορύβου ενσωµατώνεται από την προσθήκη ή την αφαίρεση ακµών από το ιδανικό µοντέλο, µε πιθανότητα α. Αλγόριθµος CAST Υπάρχουν αποδείξεις για την ανάκτηση του αδιάφθορου γράφου µε µια υψηλή πιθανότητα. Ο CAST είναι η ευρετική εφαρµογή της αρχικής θεωρητικής έκδοσης. Ο CAST δηµιουργεί συστάδες διαδοχικά, και κάθε συστάδα αρχίζει µε έναν τυχαία επιλεγµένο σηµείο δεδοµένων. Η σχέση µεταξύ ενός σηµείου δεδοµένων i και µιας συστάδας Co συστάδων που δηµιουργείται καθορίζεται από τν οµοιότητα, που ορίζεται ως και το κατώφλι παράµετρου συγγένειας t. Όταν σηµαίνει ότι το σηµείο δεδοµένων συσχετίζεται ιδιαίτερα µε τη συστάδα και αντίστροφα. Ο CAST διαδοχικά προσθέτει τα υψηλά σχετιζόµενα ή διαγράφει τα χαµηλά σχετιζόµενα σηµεία δεδοµένων οµοιότητας από τη συστάδα έωςότου δεν εµφανίζονται άλλες αλλαγές. Αλγόριθµος ROCK (χρησιµοποιώντας συνδέσεις) Ο ROCK είναι ένας αλγόριθµος συσταδοποίησης για δεδοµένα µε κατηγορικά γνωρίσµατα. Ένα ζέυγος σηµείων ορίζεται να είναι γείτονες εάν η οµοιότητά τους είναι µεγαλύτερη από κάποιο κατώτατο όριο. Χρησιµοποιεί ένα ιεραρχικό σχήµα συσταδοποίησης για να οµαδοποιηθούν τα δεδοµένα. Λαµβάνει ένα δείγµα των σηµείων από το σύνολο δεδοµένων Υπολογίζει την τιµή συνδέσεων για κάθε σύνολο σηµείων, δηλ., µετασχηµατίζει τις αρχικές οµοιότητες (που υπολογίζονται από το συντελεστή Jaccard) σε οµοιότητες που απεικονίζουν τον αριθµό των κοινών γειτόνων µεταξύ των σηµείων Εκτελεί µία συσσωρευτική ιεραρχική συσταδοποίηση στα δεδοµένα χρησιµοποιώντας τον «αριθµό κοινών γειτόνων» ως µέτρο οµοιότητας και µεγιστοποιώντας την αντικειµενική συνάρτηση «των κοινών γειτόνων» Αναθέτει τα υπόλοιπα σηµεία στις συστάδες που έχουν βρεθεί 35

41 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Βήµατα Συσταδοποίησης µε γράφο εγκύτητας: Βρείτε το πίνακα εγγύτητας (proximity matrix). Θεωρήστε κάθε σηµείο ως κόµβο σε έναν γράφο. Κάθε ακµή µεταξύ δύο κόµβων έχει ένα βάρος που είναι η εγγύτητα µεταξύ των δύο σηµείων. Αρχικά ο γράφος εγγύτητας συνδέεται πλήρως. Οι αλγόριθµοι απλού συνδέσµου (single link, MIN ) και πλήρους συνδέσµου (Complete link, MAX ) ξεκινάνε επίσης µε ένα τέτοιο γράφο. Στην απλούστερη περίπτωση, οι συστάδες είναι συνδεδεµένα συστατικά (connected components) στο γράφο. Αλγόριθµος CHAMELEON Ο CHAMELEON είναι ένας συσσωρευτικός ιεραρχικός αλγόριθµος που µετρά την οµοιότητα δύο συστάδων που βασίζονται σε ένα δυναµικό µοντέλο, ο CHAMELEON βρίσκει τις συστάδες του συνόλου δεδοµένων χρησιµοποιώντας έναν αλγόριθµο δύο φάσεων. Κατά τη διάρκεια της πρώτης φάσης ο CHAMELEON χρησιµοποιεί έναν αλγόριθµο συσταδοποίησης βασισµένο σε γράφους για να τµηµατοποιήσει τα δεδοµένα σε έναν µεγάλο αριθµό σχετικά µικρών υποσυστάδων. Κατά τη διάρκεια της δεύτερης φάσης χρησιµοποιεί έναν συσσωρευτικό ιεραρχικό αλγόριθµο για να βρει τις συστάδες από επαναληπτικούς συνδυασµούς των υποσυστάδων που προέκυψαν από την πρώτη φάση. Η οµοιότητα µεταξύ των συστάδων καθορίζεται µε τον έλεγχο της σχετικής ενδοσυνδετικότητας και της σχετικής εγγύτητας αυτών. Η αναπαράσταση των δεδοµένων βασίζεται στη συνήθως χρησιµοποιηµένη προσέγγιση του κ-πλησιέστερου γράφου γειτνίασης. Οι κορυφές του κ- πλησιέστερου γράφου γειτνίασης αντιπροσωπεύουν τα αντικείµενα του συνόλου δεδοµένων και υπάρχει µια ακµή µεταξύ δύο κόµβων ν1 ν2 εάν το αντικείµενο που αντιστοιχεί στον ν είναι µεταξύ των κοντινότερων γειτόνων του ν1. Κατόπιν ο αλγόριθµος βρίσκει τις αρχικές υποσυστάδες χρησιµοποιώντας έναν αλγόριθµο τµηµατοποίησης γράφου ώστε να κατατµηθεί ο κ-πλησιέστερος γράφος γειτνίασης του συνόλου δεδοµένων σε έναν µεγάλο αριθµό τµηµάτων. Κατά τη διάρκεια της επόµενης φάσης ο CHAMELEON χρησιµοποιεί έναν συσσωρευτικό αλγόριθµο συσταδοποίησης ο οποίος συνδυάζει µαζί αυτές τις υποσυστάδες του γράφου. Για τη συγχώνευση των υποσυστάδων λαµβάνει υπόψη τη σχετική ενδο-συνδετικότητά και την εγγύτητα των υποσυστάδων. Κατά συνέπεια εκείνα τα ζευγάρια των συστάδων των οποίων η σχετική ενδο-συνδετικότητα και εγγύτητα είναι πάνω από το όριο που ορίζεται από τους χρήστες συγχωνεύονται. Αλγόριθµος C^2P Ένας πρόσφατος αλγόριθµος συσταδοποίησης που συνδυάζει τα χαρακτηριστικά των ιεραρχικών αλγορίθµων και της θεωρίας γράφων είναι ο C^2P. Ο C^2P εκµεταλλεύεται τις δοµές ευρετηρίων και την επεξεργασία των ερωτήσεων του πιο κοντινού ζευγαριού (CPQ) στις χωρικές βάσεις δεδοµένων. Ο C^2P οργανώνει το αποτέλεσµα του CPQ σε µια χωρική µέθοδο προσπέλασης σε µια δοµή γράφου. Κατόπιν η συσταδοποίηση εκτελείται µε τον προσδιορισµό των συστάδων ως συστατικό του γράφου. Ο C^2P αποτελείται από δύο βασικές φάσεις: 36

42 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Φάση 1: Παράγει διάφορες υποσυστάδες που είναι µια αποτελεσµατική αντιτροσώπευση των τελικών συστάδων. Είναι µια επαναληπτική διαδικασία κατά την οποία διάφορες συστάδες συγχωνεύονται. Η διαδικασία self Semi - CPQ βρίσκει τα ζευγάρια των σηµείων (ρ. ρ ) που ανήκουν σε ένα σύνολο δεδοµένων 8 έτσι ώστε dist(ρ. ρ ) = min{ dist(ρ. x). Ο αλγόριθµος χρησιµοποιεί µια γραφική αναπαράσταση που οργανώνει τις πληροφορίες εγγύτητας που υπολογίζονται από τον CPQ και ορίζει τις συστάδες ως συστατικά του γράφου. Χρησιµοποιεί τα κέντρα των συστάδων για την αναπαράστασή τους. Ο αλγόριθµος χρησιµοποιεί τον Depth - First - Search αλγόριθµο στο γράφο για να βρει τα συνδεµένα στοιχεία του γράφου ο οποίος περιλαµβάνει επίσης τις υποσυστάδες του συνόλου δεδοµένων. Κατά συνέπεια σηµεία που ανήκουν στο ίδιο συνδεµένο στοιχείο µπορεί να θεωρηθούν ως µια υποσυστάδα. Σε περίπτωση που ο αριθµός των καθορισµένων υποσυστάδων, έστω c, είναι ίσος µε τον απαιτούµενο αριθµό υποσυστάδων η φάση 1 ολοκληρώνεται. ιαφορετικά βρίσκει το κέντρο κάθε υποσυστάδας για να το αντιπροσωπεύσει. Κατόπιν η ίδια διαδικασία όπως περιγράφηκε πιο πάνω εφαρµόζεται επαναληπτικά στο σύνολο των c κέντρων µέχρι που να οριστεί ο απαιτούµενο s αριθµός υποσυστάδων, Φάση 2: Είναι µια εξειδικευµένη περίπτωση της πρώτης φάσης που χρησιµοποιεί µια διαφορετική αναπαράσταση συστάδας ώστε να παραχθεί το λεπτοµερές τελικό σχήµα συσταδοποίησης. Επιπλέον συγχωνεύει δύο συστάδες σε κάθε βήµα ώστε να ελεγχθεί η διαδικασία συσταδοποίησης. Σε κάθε βήµα όταν συγχωνεύονται δύο συστάδες. Τα σηµεία τ µεταξύ όλων των σηµείων των συγχωνευµένων συστάδων που είναι πιο κοντά στο κέντρο επιλέγονται ως αντιπρόσωποι της νέας συστάδας. Χρησιµοποιώντας περισσότερα σηµεία ως αντιπροσώπους αντί του κέντρου ο C^2P µπορεί αποτελεσµατικά να συλλάβει τη µορφή και το µέγεθος των συστάδων. Κατόπιν η εύρεση του πιο κοντινού ζευγαριού συστάδων γίνεται µε τον self - CPQ. Πιο συγκεκριµένα η φάση 2 έχει ως είσοδο τα κέντρα των υποσυστάδων που καθορίζονται στη Φάση 1. Σε κάθε επανάληψη της φάσης 2, ο self - CPQ βρίσκει το πια κοντινό ζευγάρι των συστάδων βρίσκοντας το πιο κοντινό ζευγάρι µεταξύ των αντιπροσωπευτικών τους σηµείων. Κατόπιν αυτές οι δύο συστάδες συγχωνεύονται και τα σηµεία r για την αντιπροσώπευση των νέων συστάδων επιλέγονται. Η διαδικασία ολοκληρώνεται όταν επιτυγχάνεται ο απαιτούµενος αριθµός συστάδων. Σύγκριση CHAMELEON µε C^2P Ο CHAMELEON βρίσκει τις συστάδες του συνόλου δεδοµένων χρησιµοποιώντας ένα αλγόριθµο δύο φάσεων. Κατά τη διάρκεια της πρώτης φάσης, ο CHAMELEON χρησιµοποιεί έναν αλγόριθµο συσταδοποίησης βασισµένο σε γράφους για να τµηµατοποιήσει τα δεδοµένα σε έναν µεγάλο αριθµό σχετικά µικρών υποσυστάδων. Ο αλγόριθµος της πρώτης φάσης προσπαθεί να ελαχιστοποιήσει το βάρος κάθε οµάδας. Κατά τη διάρκεια της δεύτερης φάσης, χρησιµοποιεί έναν συσσωρευτικό ιεραρχικό αλγόριθµο για να βρει τις συστάδες από επαναληπτικούς συνδυασµούς των υποσυστάδων που προέκυψαν από την πρώτη φάση. Η οµοιότητα µεταξύ των συστάδων καθορίζεται µε τον έλεγχο της σχετικής ενδοσυνδετικότητας (inter-connectivity) και της σχετικής εγγύτητας (closeness) αυτών. Η αναπαράσταση των δεδοµένων βασίζεται στη προσέγγιση του k-πλησιέστερου γράφου γειτνίασης (k-nearest neighbor graph). 37

43 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Ο C2Ρ εκµεταλλεύεται τις δοµές ευρετηρίων και την επεξεργασία των ερωτήσεων του πιο κοντινού ζευγαριού (Closest Pair Queries CPQ) στις χωρικές βάσεις δεδοµένων. Ο C2Ρ οργανώνει το αποτέλεσµα του CPQ πάνω µια χωρική µέθοδο προσπέλασης (R- Tree) σε µια δοµή γράφου. Η δοµή γράφου αναπαριστά τα Closest Pairs. Κατόπιν η συσταδοποίηση εκτελείται µε τον προσδιορισµό των συστάδων ως συστατικά του γράφου. Ο CHAMELEON δουλεύει αποτελεσµατικά για την εύρεση συστάδων µε περίεργα σχήµατα έχει όµως σηµαντικές απαιτήσεις από άποψη πολυπλοκότητας, καθώς η πολυπλοκότητα του είναι Ο(n2). ο C2P συνδυάζει αποδοτικά τα πλεονεκτήµατα των ιεραρχικών και βασισµένων στην θεωρία των γράφων αλγορίθµων επιτυγχάνοντας τόσο καλή ποιότητα συσταδοποίησης όσο και καλή προσαρµογή στην διαχείριση µεγάλου όγκου δεδοµένων. 4.2 Αραιοποίηση Sparsification Μέτρο sparsification. Η ποσότητα δεδοµένων που πρέπει να υποβληθεί σε επεξεργασία είναι δραστικά µειωµένη. Το Sparsification µπορεί να απαλήψει περισσότερο από 99% των καταχωρήσεων σε ένα γράφο εγγύτητας Το χρονικό διάστηµα που απαιτείται για να οµαδοποιηθούν τα δεδοµένα µειώνεται δραστικά αυξάνοντας έτσι το µέγεθος των προβληµάτων που µπορούν να αντιµετωπιστούν µε αυτό τον τρόπο. Οι τεχνικές Sparsification τηρούν τις συνδέσεις µε τους πιο όµοιους (κοντινότερους) γείτονες ενός σηµείου σπάζοντας τις συνδέσεις στα λιγότερα όµοια σηµεία. Οι κοντινότεροι γείτονες ενός σηµείου τείνουν να ανήκουν στην ίδια κλάση µε αυτή που ανήκει το ίδιο το σηµείο. Αυτό µειώνει τον αντίκτυπο του θορύβου και των ακραίων σηµείων και βελτιώνει τη διάκριση µεταξύ δύο συστάδων. Το Sparsification διευκολύνει τη χρήση γραφοθεωρητίκων- αλγορίθµων. 38

44 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ 4.3 GRAPH-JARVIS-PATRIC Μία προσέγγιση οµοιότητας βασισµένη σε γράφο κοινών κοντινών γειτόνων όπως προτάθηκε από τους Jarvis-Patrick και µετέπειτα στον αλγόριθµο ROCK, είναι µία προτεινόµενη µέθοδος λύσης και για το παραπάνω πρόβληµα, καθώς επίσης και για την συσταδοποίηση µη-αριθµητικών δεδοµένων κατηγοριών. Η οµοιότητα δύο σηµείων καθορίζεται όχι σύµφωνα µε κάποια απόσταση αλλά µε τον αριθµό των κοντινών γειτόνων που µοιράζονται. Ο αλγόριθµος Jarvis- Patrick µοιάζει έπειτα ως προς τα αποτελέσµατα µε την τεχνική της ιεραρχικής συσωρευτικής συσταδοποίησης απλού συνδέσµου και ο ROCK µε αυτή του µέσου συνδέσµου. i j i 4 j Ο αλγόριθµος Jarvis-Patrick είναι ο πρώτος µη ιεραρχικός αλγόριθµος που εισήγαγε τον γράφο κοινών κοντινών γειτόνων. Οµοίως ο αλγόριθµος ROCK µετασχηµατίζει τις αρχικές οµοιότητες µεταξύ δύο αντικειµένων, που υπολογίζονται (π.χ. µε συντελεστές Jaccard), σε οµοιότητες που αντανακλούν τον αριθµό των κοινών γειτόνων τους. Οι αλγόριθµοι που ακολούθησαν όπως οι Chameleon, DTG (Delaunay triangulation graph), Min-cut, HCS (highly connected subgraphs), CLICK (clustering identification via connectivity kernels), CAST (cluster affinity search technique), AMOEBA, SNN, C2P αποδεικνύουν την δηµοφιλία της χρήσης των γράφων γειτνίασης k-πλησιέστερων κορυφών και των γράφων κοινών κοντινών γειτόνων σε παρόµοιες εφαρµογές. Οι δύο τελευταίοι αλγόριθµοι SNN και C2P που είναι και πρόσφατοι εµπεριέχουν στα βήµατά τους τον αρχικό αλγόριθµο Jarvis-Patrick, και έπειτα συνεχίζουν ο πρώτος µε τον DBSCAN και ο δεύτερος µε τον MST. ΑΛΓΟΡΙΘΜΟΣ JARVIS & PATRICK Απαραίτητες παράµετροι εισόδου: J = το µέγεθος της λίστας γειτόνων, Κ = αριθµός κοινών γειτόνων που χρειάζονται για την οπαδοποίηση. 1. Υπολογίζονται οι Κ κοντινότεροι γείτονες κάθε δείγµατος στο σύνολο δεδοµένων 2. Στο στάδιο της συσταδοποίησης, δύο δείγµατα ι και j οµαδοποιούνται στην ίδια συστάδα εάν : Το i είναι ένας από τους Κ πλησίον-γείτονες του j, το j είναι ένας από τους Κ πλησίον-γείτονες του i, το i και το j έχουν τουλάχιστον Μ κοινούς γείτονες από τους Κ κοντινότερους γείτονες τους, όπου το Κ και Μ είναι παράµετροι καθορισµένοι από το χρήστη. 39

45 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Ολοκληρώνεται σε ένα βήµα, από τη στιγµή που η συσταδοποίηση είναι µεταβατική. (δηλ. εάν το Α - Β ικανοποιεί τα κριτήρια και το Β - C ικανοποιεί τα κριτήρια, τότε το A-B-C τίθεται σε µια συστάδα, ακόµα κι αν το A-C ΕΝ ικανοποιεί τα κριτήρια) Jarvis-Patrick Example Parameters: J = 3, K = 2 Πρόσθετη παράµετρος Κ (ο αριθµός κοινών κοντινότερων γειτόνων για να διαµορφώνει «σφιχτές συστάδες») Πλεονεκτήµατα: µπορεί να χειριστεί µεγάλα σύνολα δεδοµένων Μειονεκτήµατα: Πρέπει να επιλεγούν οι κατάλληλες τιµές παραµέτρων. 40

46 4.3.1 Όταν ο jarvis- Patrick δουλεύει εύλογα καλά ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Jarvis Πάτρικ Συσταδοποίηση. Αρχικά σηµεία 6 κοινοί γείτονες από τα Όταν ο jarvis- Patrick δεν δουλεύει καλά Μικρότερο κατώτατο όριο, Τ, το οποίο δεν συγχωνεύει τις συστάδες. Κατώτατο όριο του Τ 1 41

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 10: Ομαδοποίηση Μέρος Δ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining) Εξόρυξη Γνώσης από Χωρικά εδοµένα (spatial data mining) Γιάννης Θεοδωρίδης, Νίκος Πελέκης

Διαβάστε περισσότερα

Ανάλυση κατά Συστάδες. Cluster analysis

Ανάλυση κατά Συστάδες. Cluster analysis Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων.

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων. ειγµατοληψία Καθώς δεν είναι εφικτό να παίρνουµε δεδοµένα από ολόκληρο τον πληθυσµό που µας ενδιαφέρει, διαλέγουµε µια µικρότερη οµάδα που θεωρούµε ότι είναι αντιπροσωπευτική ολόκληρου του πληθυσµού. Τέσσερις

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Αλγόριθµοι και Πολυπλοκότητα

Αλγόριθµοι και Πολυπλοκότητα Αλγόριθµοι και Πολυπλοκότητα Ν. Μ. Μισυρλής Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών Καθηγητής: Ν. Μ. Μισυρλής () Αλγόριθµοι και Πολυπλοκότητα 15 Ιουνίου 2009 1 / 26 Εισαγωγή Η ϑεωρία

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση µεθόδων Συµπερασµού Γραµµατικών Κορφιάτης Γιώργος ιπλωµατική Εργασία Αντικείµενο Κατασκευή µοντέλου ικανού να περιγράψει την πλοήγηση

Διαβάστε περισσότερα

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ Βασικός τελικός στόχος κάθε επιστηµονικής τεχνολογικής εφαρµογής είναι: H γενική βελτίωση της ποιότητας του περιβάλλοντος Η βελτίωση της ποιότητας ζωής Τα µέσα µε τα

Διαβάστε περισσότερα

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ Τα τελευταία 25 χρόνια, τα προβλήµατα που σχετίζονται µε την διαχείριση της Γεωγραφικής Πληροφορίας αντιµετωπίζονται σε παγκόσµιο αλλά και εθνικό επίπεδο µε την βοήθεια των Γεωγραφικών

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα,

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εξόρυξη Δεδομένων. Ανάλυση Δεδομένων. Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Ηλίας Κ. Σάββας Εξόρυξη Δεδομένων Η διαδικασία εύρεσης κρυφών (ήκαλύτεραμηεμφανών) ιδιοτήτων από αποθηκευμένα δεδομένα, Μετατροπή δεδομένων σε ΠΛΗΡΟΦΟΡΙΑ, Πολλά δεδομένα αποθηκευμένα

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

Οπτική αντίληψη. Μετά?..

Οπτική αντίληψη. Μετά?.. Οπτική αντίληψη Πρωτογενής ερεθισµός (φυσικό φαινόµενο) Μεταφορά µηνύµατος στον εγκέφαλο (ψυχολογική αντίδραση) Μετατροπή ερεθίσµατος σε έννοια Μετά?.. ΓΙΑ ΝΑ ΚΑΤΑΝΟΗΣΟΥΜΕ ΤΗΝ ΟΡΑΣΗ ΠΡΕΠΕΙ ΝΑ ΑΝΑΛΟΓΙΣΤΟΥΜΕ

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

ιαµέριση - Partitioning

ιαµέριση - Partitioning ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

Εξαγωγή κανόνων από αριθµητικά δεδοµένα Εξαγωγή κανόνων από αριθµητικά δεδοµένα Συχνά το σύστηµα που θέλουµε να µοντελοποιήσουµε η να ελέγξουµε αντιµετωπίζεται ως µαύρο κουτί και η πληροφορία για τη λειτουργία του διατίθεται υπό µορφή ζευγών

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

Είδη Μεταβλητών. κλίµακα µέτρησης

Είδη Μεταβλητών. κλίµακα µέτρησης ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρµοσµένες Επιστήµες Στατιστικός Πληθυσµός και Δείγµα Το στατιστικό

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Γραµµική Αλγεβρα Ι. Ενότητα: Εισαγωγικές Εννοιες. Ευάγγελος Ράπτης. Τµήµα Μαθηµατικών

Γραµµική Αλγεβρα Ι. Ενότητα: Εισαγωγικές Εννοιες. Ευάγγελος Ράπτης. Τµήµα Μαθηµατικών Ενότητα: Εισαγωγικές Εννοιες Ευάγγελος Ράπτης Τµήµα Μαθηµατικών Αδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται

Διαβάστε περισσότερα

min f(x) x R n b j - g j (x) = s j - b j = 0 g j (x) + s j = 0 - b j ) min L(x, s, λ) x R n λ, s R m L x i = 1, 2,, n (1) m L(x, s, λ) = f(x) +

min f(x) x R n b j - g j (x) = s j - b j = 0 g j (x) + s j = 0 - b j ) min L(x, s, λ) x R n λ, s R m L x i = 1, 2,, n (1) m L(x, s, λ) = f(x) + KΕΦΑΛΑΙΟ 4 Κλασσικές Μέθοδοι Βελτιστοποίησης Με Περιορισµούς Ανισότητες 4. ΠΡΟΒΛΗΜΑΤΑ ΜΕ ΠΕΡΙΟΡΙΣΜΟΥΣ ΑΝΙΣΟΤΗΤΕΣ Ζητούνται οι τιµές των µεταβλητών απόφασης που ελαχιστοποιούν την αντικειµενική συνάρτηση

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

Κεφάλαιο 6. Εισαγωγή στη µέθοδο πεπερασµένων όγκων επίλυση ελλειπτικών και παραβολικών διαφορικών εξισώσεων

Κεφάλαιο 6. Εισαγωγή στη µέθοδο πεπερασµένων όγκων επίλυση ελλειπτικών και παραβολικών διαφορικών εξισώσεων Κεφάλαιο 6 Εισαγωγή στη µέθοδο πεπερασµένων όγκων επίλυση ελλειπτικών παραβολικών διαφορικών εξισώσεων 6.1 Εισαγωγή Η µέθοδος των πεπερασµένων όγκων είναι µία ευρέως διαδεδοµένη υπολογιστική µέθοδος επίλυσης

Διαβάστε περισσότερα

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο 5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο Ένα εναλλακτικό μοντέλο της απλής γραμμικής παλινδρόμησης (που χρησιμοποιήθηκε

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ)

ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ) «ΣΠ0ΥΔΑI», Τόμος 47, Τεύχος 3o-4o, Πανεπιστήμιο Πειραιώς / «SPOUDAI», Vol. 47, No 3-4, University of Piraeus ΑΠΟΣΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΈΣ (ΤΑΞΙΝΟΜΗΣΗ ΣΕ ΛΟΓΙΚΑ ΔΕΔΟΜΕΝΑ) Υπό Γιάννης

Διαβάστε περισσότερα

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης

DIP_05 Τμηματοποίηση εικόνας. ΤΕΙ Κρήτης DIP_05 Τμηματοποίηση εικόνας ΤΕΙ Κρήτης ΤΜΗΜΑΤΟΠΟΙΗΣΗ ΕΙΚΟΝΑΣ Τμηματοποίηση εικόνας είναι η διαδικασία με την οποία διαχωρίζεται μία εικόνα σε κατάλληλες περιοχές ή αντικείμενα. Για την τμηματοποίηση

Διαβάστε περισσότερα

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται:

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται: 4.4 Ερωτήσεις διάταξης Στις ερωτήσεις διάταξης δίνονται:! µία σειρά από διάφορα στοιχεία και! µία πρόταση / κανόνας ή οδηγία και ζητείται να διαταχθούν τα στοιχεία µε βάση την πρόταση αυτή. Οι ερωτήσεις

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ ΜΕΡΟΣ ΙΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ 36 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ Πολλές από τις αποφάσεις

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Σεπτεµβρίου 2005 5:00-8:00 Σχεδιάστε έναν αισθητήρα ercetro

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

Κεφάλαιο 6: Προσομοίωση ενός συστήματος αναμονής

Κεφάλαιο 6: Προσομοίωση ενός συστήματος αναμονής Κεφάλαιο 6: Προσομοίωση ενός συστήματος αναμονής Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Γιάννης Γαροφαλάκης Αν. Καθηγητής ιατύπωση του προβλήματος (1) Τα συστήματα αναμονής (queueing systems), βρίσκονται

Διαβάστε περισσότερα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα 6ο Πανελλήνιο Συνέδριο των Εκπαιδευτικών για τις ΤΠΕ «Αξιοποίηση των Τεχνολογιών της Πληροφορίας και της Επικοινωνίας στη Διδακτική Πράξη» Σύρος 6-8 Μαϊου 2011 Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά

Διαβάστε περισσότερα

Υπολογιστικό Πρόβληµα

Υπολογιστικό Πρόβληµα Υπολογιστικό Πρόβληµα Μετασχηµατισµός δεδοµένων εισόδου σε δεδοµένα εξόδου. Δοµή δεδοµένων εισόδου (έγκυρο στιγµιότυπο). Δοµή και ιδιότητες δεδοµένων εξόδου (απάντηση ή λύση). Τυπικά: διµελής σχέση στις

Διαβάστε περισσότερα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100 Ποσοτικές Μέθοδοι Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR 50100 Απλή Παλινδρόμηση Η διερεύνηση του τρόπου συμπεριφοράς

Διαβάστε περισσότερα

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β Κουγιουμτζής Δημήτρης Τμήμα Πολιτικών Μηχανικών Α.Π.Θ. Θεσσαλονίκη, Μάρτιος 4 Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Διαχείριση Υδατικών Πόρων Πολυκριτηριακή ανάλυση

Διαχείριση Υδατικών Πόρων Πολυκριτηριακή ανάλυση Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος Διαχείριση Υδατικών Πόρων Πολυκριτηριακή ανάλυση Ανδρέας Ευστρατιάδης & Δημήτρης Κουτσογιάννης Σχολή Πολιτικών Μηχανικών, Αθήνα Άδεια

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Ανάπτυξη μιας προσαρμοστικής πολιτικής αντικατάστασης αρχείων, με χρήση

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Γραµµικός Προγραµµατισµός - Μέθοδος Simplex

Γραµµικός Προγραµµατισµός - Μέθοδος Simplex Γραµµικός Προγραµµατισµός - Μέθοδος Simplex Η πλέον γνωστή και περισσότερο χρησιµοποιηµένη µέθοδος για την επίλυση ενός γενικού προβλήµατος γραµµικού προγραµµατισµού, είναι η µέθοδος Simplex η οποία αναπτύχθηκε

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ.

Περιεχόµενα. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής. Π.Σ. ιαχείρισης Πράξεων. Π.Σ. ιοίκησης. Κατηγορίες Π.Σ. Ο κύκλος ζωής Π.Σ. Πληροφοριακά Συστήµατα: Κατηγορίες και Κύκλος Ζωής Περιεχόµενα Κατηγορίες Π.Σ. ιαχείρισης Πράξεων ιοίκησης Υποστήριξης Αποφάσεων Έµπειρα Συστήµατα Ατόµων και Οµάδων Ο κύκλος ζωής Π.Σ. Ορισµός Φάσεις Χρήστες

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΑΝΑΠΤΥΞΗ ΓΡΑΦΙΚΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΣΕ MATLAB ΓΙΑ ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΜΕΣΩ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ISODATA Μαρκαντωνάτου Μαρία Α.Μ.: 379 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Δρ. Τσιμπίρης

Διαβάστε περισσότερα

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ

ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ ΕΝΟΤΗΤΑ 1.1 ÈÛ ÁˆÁ ÛÙÈ μ ÛÂÈ Â ÔÌ ÓˆÓ ΔΙΔΑΚΤΙΚΟI ΣΤOΧΟΙ Στο τέλος της ενότητας αυτής πρέπει να μπορείτε: να επεξηγείτε τις έννοιες «βάση δεδομένων» και «σύστημα διαχείρισης βάσεων δεδομένων» να αναλύετε

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ

Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Ορισµός του Προβλήµατος Ευθυγράµµιση : Εύρεση ενός γεωµετρικού µετασχηµατισµού που ϕέρνει κοντά δύο τρισδιάσ Εισαγωγή Αλγόριθµοι Αποτελέσµατα Επίλογος Αλγόριθµοι Ευθυγράµµισης Τρισδιάστατων Αντικειµένων Τµήµα Πληροφορικής και Τηλεπικοινωνιών Εθνικό & Καποδιστριακό Πανεπιστήµιο Αθηνών 20 Οκτωβρίου 2005 Εισαγωγή

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 07 & ΔΙΑΛΕΞΗ 08 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 016-017 ΕΙΣΑΓΩΓΗ ΣΤΗΝ

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΘΕΜΑ ο (.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Πέµπτη 7 Ιανουαρίου 8 5:-8: Σχεδιάστε έναν αισθητήρα (perceptron)

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS Ακαδημαϊκό Έτος 2016-2017, Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS A. Εισαγωγή στις βάσεις δεδομένων - Γνωριμία με την ACCESS B. Δημιουργία Πινάκων 1. Εξήγηση των

Διαβάστε περισσότερα

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ . ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ (RANK REGRESSION).1 Μονότονη Παλινδρόμηση (Monotonic Regression) Από τη γραφική παράσταση των δεδομένων του προηγουμένου προβλήματος παρατηρούμε ότι τα ζευγάρια (Χ i, i )

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες

Ποσοτικές Μέθοδοι Ανάλυσης στις Κοινωνικές Επιστήμες ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ποσοτικές Μέθοδοι Ανάλυσης στις Ενότητα 5: Ανάλυση στοιχείων. Θεόδωρος Χατζηπαντελής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας

Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας Μακεδόνας Ανδρέας Μεταδιδακτορικός Ερευνητής Τμ. Φυσικής, Εργαστήριο Ηλεκτρονικής Ένα απλό ερώτημα Στον κόσμο την πληροφορίας υπάρχει

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς ) Πληθυσμός (populaton) ονομάζεται ένα σύνολο, τα στοιχεία του οποίου εξετάζουμε ως προς τα χαρακτηριστικά τους. Μεταβλητές (varables ) ονομάζονται τα χαρακτηριστικά ως προς τα οποία εξετάζουμε έναν πληθυσμό.

Διαβάστε περισσότερα

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών Σύνοψη Στο κεφάλαιο αυτό παρουσιάζονται δύο κριτήρια απόρριψης απομακρυσμένων από τη μέση τιμή πειραματικών μετρήσεων ενός φυσικού μεγέθους και συγκεκριμένα

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Εντοπισμός ενός σήματος STOP σε μια εικόνα. Περιγράψτε τη διαδικασία με την οποία μπορώ να εντοπίσω απλά σε μια εικόνα την ύπαρξη του παρακάτω

Διαβάστε περισσότερα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Βάσεις Δεδομένων. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Βάσεις Δεδομένων Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Στέργιος Παλαμάς, Υλικό Μαθήματος «Βάσεις Δεδομένων», 2015-2016 Κεφάλαιο 2: Περιβάλλον Βάσεων Δεδομένων Μοντέλα Δεδομένων 2.1

Διαβάστε περισσότερα