ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις δεδοµένων Oracle

Transcript

1 ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τµήµα Πληροφορικής και Επικοινωνιών ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Γραφο-θεωρητικές µέθοδοι συσταδοποίησης και ο αλγόριθµος Jarvis-Patrick σε βάσεις δεδοµένων Oracle Βρυώνης Ευάγγελος, ΑΕΜ 432 Τσούτσας ηµήτριος, ΑΕΜ 370 Επιβλέπων: Κόκκινος Ιωάννης Σέρρες, Ιούνιος 2011

2

3 ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) ΟΡΙΣΜΟΙ ΤΟΥ DATA MINING Μέθοδοι και λειτουργίες Data Mining ΟΙ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ORACLE ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΣΥΣΤΑ ΩΝ ΣΤΟΧΟΙ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΒΗΜΑΤΑ ΣΤΗ ΙΑ ΙΚΑΣΙΑ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΙΑ ΙΚΑΣΙΑ CLUSTERING ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ- ΜΕΤΡΑ ΑΝΟΜΟΙΟΤΗΤΑΣ: ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΩΝ CLUSTERS ΕΓΚΥΡΟΤΗΤΑ- ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΈΛΕΓΧΟΣ ΕΓΚΥΡΟΤΗΤΑΣ ΟΜΑ ΩΝ ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ The Data Matrix The Proximity Matrix The Proximity Graph ΑΛΓΟΡΙΘΜΟΙ ΙΕΡΑΡΧΙΚΟΥ CLUSTERING ΙΑΜΕΡΙΣΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ CLUSTERING CLUSTERING ΚΟΝΤΙΝΟΤΕΡΟΥ ΓΕΙΤΟΝΑ FUZZY CLUSTERING ΕΝΝΟΙΟΛΟΓΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ ΓΡΑΦΟ-ΘΕΩΡΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Αραιοποίηση Sparsification GRAPH-JARVIS-PATRIC ΕΠΕΚΤΑΣΕΙΣ ΣΤΟΝ ΑΛΓΟΡΙΘΜΟ JARVIS- PATRICK ΑΠΟΤΕΛΕΣΜΑΤΑ JARVIS-PATRIC ver ΑΠΟΤΕΛΕΣΜΑΤΑ JARVIS-PATRIC ver ΚΩ ΙΚΑΣ ΕΦΑΡΜΟΓΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑ... 84

4

5 ΠΕΡΙΛΗΨΗ Συσταδοποίηση ή οµαδοποίηση σε βάσεις δεδοµένων είναι η τεχνική εξόρυξης γνώσης από δεδοµένα (data mining) που οργανώνονται σε συστάδες (οµάδες ή κλάσεις ή συγκροτήµατα) για περαιτέρω κατάταξη. Ενώ πολλοί αλγόριθµοι που βασίζονται σε αποστάσεις όπως οι DBSCAN και CURE χρησιµοποιήθηκαν για την επίλυση προβληµάτων σε δεδοµένα λίγων διαστάσεων, η ύπαρξη πολλών διαστάσεων φέρνει πρόσθετες προκλήσεις που περιέχουν το κύριο πρόβληµα της διαστασιµότητας, καθώς οι συναρτήσεις απόστασης µεταξύ των σηµείων που καθορίζουν την οµοιότητά τους, γίνονται σχεδόν οµοιόµορφες δυσκολεύοντας το διαχωρισµό τους σε οµάδες. Οι ιδέες και έννοιες της θεωρίας γράφων διευκολύνουν την περιγραφή των προβληµάτων ανίχνευσης οµάδων δεδοµένων µέσω γράφων. Οι κορυφές (κόµβοι) V ενός ζυγισµένου γράφου G αντιστοιχούν σε σηµεία δεδοµένων στο χώρο των προτύπων και οι ακµές Ε απεικονίζουν τη γειτνίαση µεταξύ ζευγών σηµείων. Μία προσέγγιση οµοιότητας βασισµένη σε γράφο κοινών κοντινών γειτόνων όπως προτάθηκε από τους Jarvis-Patrick και µετέπειτα στον αλγόριθµο ROCK, είναι µία προτεινόµενη µέθοδος λύσης και για το παραπάνω πρόβληµα, καθώς επίσης και για την συσταδοποίηση µη-αριθµητικών δεδοµένων κατηγοριών. Η οµοιότητα δύο σηµείων καθορίζεται όχι σύµφωνα µε κάποια απόσταση αλλά µε τον αριθµό των κοντινών γειτόνων που µοιράζονται. Έτσι ο αλγόριθµος Jarvis-Patrick εισήγαγε τον γράφο γειτνίασης k-πλησιέστερων κορυφών και τον γράφο κοινών κοντινών γειτόνων (shared nearest neighbour graph). Ο αλγόριθµος Jarvis- Patrick µοιάζει έπειτα ως προς τα αποτελέσµατα µε την τεχνική της ιεραρχικής συσωρευτικής συσταδοποίησης απλού συνδέσµου και ο ROCK µε αυτή του µέσου συνδέσµου. i j i 4 j Ο αλγόριθµος Jarvis-Patrick είναι ο πρώτος µη ιεραρχικός αλγόριθµος που εισήγαγε τον γράφο κοινών κοντινών γειτόνων. Οµοίως ο αλγόριθµος ROCK µετασχηµατίζει τις αρχικές οµοιότητες µεταξύ δύο αντικειµένων, που υπολογίζονται µε συντελεστές Jaccard, σε οµοιότητες που αντανακλούν τον αριθµό των κοινών γειτόνων τους. Οι αλγόριθµοι που ακολούθησαν όπως οι Chameleon, Min-cut, HCS (highly connected subgraphs), CLICK (clustering identification via connectivity kernels), CAST (cluster affinity search technique), AMOEBA, SNN, C2P αποδεικνύουν την δηµοφιλία της χρήσης των γράφων γειτνίασης k-πλησιέστερων κορυφών και των γράφων κοινών κοντινών γειτόνων σε παρόµοιες εφαρµογές. Οι δύο τελευταίοι αλγόριθµοι SNN και C2P που είναι και πρόσφατοι εµπεριέχουν στα βήµατά τους τον αρχικό αλγόριθµο Jarvis- Patrick, και έπειτα συνεχίζουν ο πρώτος µε τον DBSCAN και ο δεύτερος µε τον MST.

6 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) 1 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Εξόρυξη δεδοµένων (data mining) είναι η ανάλυση συνήθως τεράστιων παρατηρούµενων συνόλων δεδοµένων, έτσι ώστε να βρεθούν µη παρατηρηθείσες σχέσεις και να συνοψιστούν τα δεδοµένα µε καινοφανείς τρόπους οι οποίοι να είναι κατανοητοί και χρήσιµοι στον κάτοχο των δεδοµένων. Η ανάλυση των δεδοµένων αποτελεί τη βάση σε πολλές εφαρµογές στον τοµέα της πληροφορικής, είτε κατά την διάρκεια της σχεδίασης κάποιας εφαρµογής ή κατά την λειτουργία της. εκαετία 1960 εκαετία 1970 εκαετία 1980 εκαετία 1990 εκαετία 2000-σήµερα Εξέλιξη της τεχνολογίας των βάσεων δεδοµένων συλλογή δεδοµένων, δηµιουργία βάσεων, ιεραρχικά (IMS) και δικτυωτά συστήµατα Σχεσιακό µοντέλο, υλοποίηση σχεσιακών διαχείρισης βάσεων δεδοµένων (RDBMS) συστηµάτων Εµπορικά RDBMS, γλώσσα SQL-1, πρώτα αντικειµενοσχεσιακά και αντικειµενοστραφή µοντέλα, επαγωγικές βάσεις δεδοµένων γλώσσα SQL-2, εξόρυξη γνώσης, αποθήκες δεδοµένων, βάσεις πολυµέσων εξόρυξη γνώσης µε πληθώρα επιστηµονικών εφαρµογών, γλώσσα SQL-3, διαχείριση δεδοµένων συνεχούς ροής, τεχνολογίες διαδικτύου και παγκόσµια συστήµατα ανάκλησης πληροφοριών Οι διαδικασίες ανάλυσης δεδοµένων µπορούν να χωριστούν σε δύο κατηγορίες, Α) τις διαδικασίες ανεύρεσης, µε στόχο την ανακάλυψη και την κατασκευή υποθέσεων από τα δεδοµένα, και Β) τις διαδικασίες επιβεβαίωσης µε στόχο την λήψη αποφάσεων δεδοµένης της δοµής της πληροφορίας. Ο διαχωρισµός βασίζεται στην ύπαρξη ή µη κατάλληλων µοντέλων τα οποία εκφράζουν την πηγή των δεδοµένων. Και στις δύο περιπτώσεις διαδικασιών όµως, σηµείο κλειδί είναι η οµαδοποίηση (ή κατηγοριοποιήση) των στοιχείων µε βάση (α) το υιοθετηµένο µοντέλο, ή (β) τις φυσικές οµάδες δεδοµένων (κατηγοριοποίηση) που προκύπτουν από την ανάλυση των δεδοµένων. Η ανάλυση συστάδων ή πιο απλά το clustering είναι η οργάνωση µιας συλλογής από δείγµατα-στοιχεία σε συστάδες µε βάση κάποιο µέτρο οµοιότητας. Τα στοιχεία συνήθως περιγράφονται σαν διανύσµατα τιµών κάποιων µέτρων ή αναπαριστόνται ως σηµεία σε έναν πολυδιάστατο χώρο. Στοιχεία που ανήκουν στην ίδια οµάδα παρουσιάζουν µεγαλύτερη οµοιότητα από ότι στοιχεία που ανήκουν σε διαφορετικές οµάδες. 1

7 ύο είναι οι βασικοί στόχοι της εξόρυξης δεδοµένων: Η πρόβλεψη (prediction) και Η περιγραφή (description). ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Η πρόβλεψη εµπλέκει κάποιες µεταβλητές ή κάποια πεδία της βάσης δεδοµένων έτσι ώστε να προβλεφθούν άγνωστες ή µελλοντικές τιµές ή και άλλες µεταβλητές ενδιαφέροντος. Η περιγραφή από την άλλη πλευρά εστιάζει κυρίωςνστην ανακάλυψη προτύπων στα δεδοµένα τα οποία εύκολα µπορούν να ερµηνευτούν και να τα περιγράψουν. Οι κυριότερες λειτουργίες στην εξόρυξη δεδοµένων είναι η ταξινόµηση (classification) και η οµαδοποίηση (clustering). Σκοπός της ταξινόµησης είναι η παραγωγή κανόνων από µεγάλες σχεσιακές βάσεις δεδοµένων που να µπορούν να ταξινοµήσουν καινούργια άγνωστα δεδοµένα σε προκαθορισµένες κλάσεις οι οποίες να περιγράφονται από ένα σύνολο χαρακτηριστικών. Η εξαγωγή των κανόνων γίνεται µε την χρήση µεθόδων µάθησης µε επίβλεψη (supervised learning methods). Η δεύτερη βασική λειτουργία στην εξόρυξη δεδοµένων είναι η οµαδοποίηση των εγγραφών µια βάσης δεδοµένων σε υποοµάδες (clustering). Η οµαδοποίηση είναι µια περιγραφική λειτουργία που σκοπό έχει την ανίχνευση ενός πεπερασµένου πλήθους οµάδων ή κατηγοριών (clusters) που περιέχονται στα δεδοµένα. Όπως έχει τονιστεί και παραπάνω πολλές διαδικασίες εξόρυξης προϋποθέτουν ένα προκαταταγµένο σύνολο δεδοµένων εκπαίδευσης και επιχειρούν την ανάπτυξη ενός αξιόπιστου µοντέλου ικανού να προβλέπει την κατάταξη ενός καινούργιου µη καταταγµένου αντικειµένου. Στην οµαδοποίηση δεν υπάρχουν ούτε εκ των προτέρων ταξινοµηµένα δεδοµένα αλλά ούτε και διαχωρισµοί µεταξύ εξαρτηµένων και ανεξάρτητων µεταβλητών. Εδώ αναζητούνται όµοιες οµάδες εγγραφών (clusters) µε την ελπίδα αυτές να έχουν όµοιες ιδιότητες και να περιγράφουν τα δεδοµένα µας. Θα πρέπει να αναφέρουµε εδώ ότι οι αλγόριθµοι οµαδοποίησης διαχειρίζονται µεγάλο πλήθος δεδοµένων και απαιτούν έναν αρκετά µεγάλο αριθµό υπολογισµών. Συνεπώς οι η πολυπλοκότητά τους εξαρτάται από το πλήθος των δεδοµένων που επεξεργάζεται ο κάθε αλγόριθµος. Από την άλλη, το τεράστιο µέγεθος των δεδοµένων που αποθηκεύονται στις βάσεις δεδοµένων ωθεί σήµερα το ερευνητικό ενδιαφέρον κυρίως σε αλγορίθµους οµαδοποίησης, που µπορούν αν χειριστούν δεδοµένα πολύ µεγαλύτερα από την κύρια µνήµη ενός επεξεργαστή. Για την αντιµετώπιση αυτού του προβλήµατος έχει προταθεί µια επαναληπτική διαδικασία, που βασίζεται στην τµηµατοποίηση του συνόλου των δεδοµένων σε υποσύνολα. Στην πρώτη φάση, κάθε υποσύνολο δίνεται ως είσοδός σε κάθε έναν αλγόριθµο οµαδοποίησης. Κατά την δεύτερη φάση, τα µερικά αποτελέσµατα σχηµατίζουν ένα σύνολο δεδοµένων το οποίο τµηµατοποιείται σε οµάδες τις καλούµενες και µετα οµάδες (meta clusters). Κάτω από ορισµένες συνθήκες οι οµάδες αυτές αποτελούν τις επιθυµητές οµάδες. 2

8 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Η διαδικασία εύρεσης χρήσιµων µοντέλων και πληροφοριών έχει πάρει διάφορα ονόµατα όπως, data mining, knowledge extraction, information discovery, information harvesting, data archaeology, and data pattern processing. O όρος data mining χρησιµοποιούταν κυρίως από στατιστικολόγους, αναλυτές δεδοµένων, και management information systems (MIS). Επίσης είναι αρκετά δηµοφιλής στο πεδίο των Βάσεων εδοµένων. Η φράση Knowledge Discovery in KDD τέθηκε το 1991 από τους Piatesky Saphiro για να δώσει έµφαση στο ότι η γνώση είναι το αποτέλεσµα αυτής της διαδικασίας. Για να έχουν τα αποτελέσµατα της διαδικασίας πρακτική αξία και τα πρότυπα που θα δηµιουργηθούν από την διαδικασία απαιτείται και η ανθρώπινη παρέµβαση. Οι περισσότερες Data Mining µέθοδοι βασίζονται σε χρησιµοποιηµένες και δοκιµασµένες τεχνικές όπως machine learning, αναγνώριση προτύπων (pattern recognition) και στατιστική: classification, regression, κ.α. Συχνά τα διαθέσιµα στοιχεία περιλαµβάνουν µόνο ένα δείγµα από τον πλήρη πληθυσµό. Ο στόχος µπορεί να είναι να γενικεύσουµε από το δείγµα στον πληθυσµό. Παραδείγµατος χάριν, µπορεί να επιθυµήσουµε να προβλέψουµε πώς οι µελλοντικοί πελάτες είναι πιθανό να συµπεριφερθούν ή να καθορίσουµε τις ιδιότητες των πρωτεϊνικών δοµών που δεν έχουµε δει ακόµα. Μερικές φορές µπορούµε να θελήσουµε να συνοψίσουµε ή να συµπιέσουµε ένα πολύ µεγάλο σύνολο στοιχείων κατά τέτοιο τρόπο ώστε το αποτέλεσµα είναι πιο κατανοητό, χωρίς οποιαδήποτε έννοια της γενίκευσης. Αυτό το ζήτηµα θα προέκυπτε, παραδείγµατος χάριν, εάν είχαµε τα πλήρη στοιχεία απογραφής για τα εκατοµµύρια συγκεκριµένων χωρών ή µιας καταγραφής βάσεων δεδοµένων των µεµονωµένων λιανικών συναλλαγών. Με την εξέλιξη της εξόρυξης γνώσης, πολλοί διαφορετικοί επιστηµονικοί κλάδοι συγκλίνανε προς αυτήν την κατεύθυνση, όπως: Στατιστική, Μηχανική µάθηση, Αλγόριθµοι συσταδοποίησης, Τεχνικές Οπτικοποίησης των αποτελεσµάτων, Ανάκτηση πληροφοριών, Βάσεις εδοµένων, όπου τα δεδοµένα πολλά και τα ερωτήµατα περίπλοκα Database Technology Statistics Machine Learning Data Mining Visualization Information Science Other Disciplines 3

9 1.1 ΟΡΙΣΜΟΙ ΤΟΥ DATA MINING ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Ο όρος "data mining" έκανε τις πρώτες εµφανίσεις του στη στατιστική επεξεργασία δεδοµένων όπου αφορούσε την αποτροπή εξαγωγής µη έγκυρων συµπερασµάτων ως αποτέλεσµα της υπερ-χρήσης δεδοµένων. Το θεώρηµα του Bonferron λέει ότι σε προβλήµατα όπου είναι δυνατό να εξαχθούν πάρα πολλά πιθανά συµπεράσµατα, τότε µερικά από αυτά τα συµπεράσµατα θα βγουν αληθή για καθαρά στατιστικούς λόγους, δίχως να έχουν καµία εγκυρότητα. Ένα πολύ γνωστό παράδειγµα αποτελεί αυτό του David Rhine, ενός παραψυχολόγου στη δεκαετία του 1950 που εξέτασε εκατοντάδες µαθητές για να ανακαλύψει αν διαθέτει κάποιος από αυτούς υπεραισθητική αντίληψη ζητώντας τους να µαντέψουν στη σειρά 10 χαρτιά, κόκκινα ή µαύρα. Βρήκε ότι περίπου 1/1000 µάντεψε το σωστό χρώµα και στα δέκα χαρτιά, και αντί να συνειδητοποιήσει ότι αυτό ακριβώς είναι που περιµένεις όταν χιλιάδες άτοµα µαντεύουν τυχαία, τους κατέταξε στην κατηγορία των ατόµων µε υπεραισθητική αντίληψη. Όταν επανεξέτασε αυτούς που τα είχαν µαντέψει σωστά είδε ότι τη δεύτερη φόρα δεν τα πήγαν καλύτερα από το µέσο όρο. Το συµπέρασµα που έβγαλε από τη δεύτερη εξέταση ήταν αν πεις σε κάποιον ότι έχει υπεραισθητική αντίληψη τότε τη χάνει!. Ένας γενικός ορισµός σύµφωνα µε τον Jeffrey D. Ullman (από τους πρωτοπόρους στην έρευνα των βάσεων δεδοµένων) για την εξόρυξη γνώσης είναι η ανακάλυψη χρήσιµων συνόψεων από δεδοµένα. ηλαδή η εύρεση πληροφοριών που είναι κρυµµένες σε µία βάση δεδοµένων. Εναλλακτικά η εξόρυξη γνώσης ονοµάζεται και εξερευνητική ανάλυση δεδοµένων, ανακάλυψη γνώσης και συµπερασµατική µάθηση. Οι όροι ανακάλυψη γνώσης σε βάσεις δεδοµένων (Knowledge Discovery in Databases εν συντοµία KDD) και εξόρυξη γνώσης από δεδοµένα (data mining) συχνά χρησιµοποιούνται εναλλακτικά για την ίδια έννοια. Η εξόρυξη γνώσης χρησιµοποιεί αλγόριθµους για την ανάλυση των αρκετά µεγάλων συνόλων από δεδοµένα και την εύρεση ανυποψίαστων σχέσεων και την σύνοψη αυτών µε νέους τρόπους κατανοητούς και χρήσιµους στον ιδιοκτήτη. Οι σχέσεις και οι συνόψεις που παράγονται µέσω της εξόρυξης δεδοµένων συχνά παρουσιάζονται ως µοντέλα ή πρότυπα. Η λειτουργία του «Data Mining» έχει να κάνει ουσιαστικά µε δεδοµένα που έχουν συλλεχθεί ήδη για κάποιο άλλο σκοπό. Αυτό σηµαίνει πως οι στόχοι της εξόρυξης γνώσης δεν επηρεάζουν τον τρόπο µε τον οποίο συλλέγονται τα δεδοµένα. Αυτή θα µπορούσε να είναι µία διαφορά της εξόρυξης δεδοµένων µε τις στατιστικές, όπου τα δεδοµένα συλλέγονται µε συγκεκριµένους τρόπους για την απάντηση συγκεκριµένων ερωτηµάτων. Για αυτόν τον λόγο η µέθοδος του Data Mining συχνά αναφέρεται ως δευτερεύουσα ανάλυση δεδοµένων. 4

10 1.2 Μέθοδοι και λειτουργίες Data Mining ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Χάρη στην εξέλιξη των υπολογιστών και την τεχνολογία συλλογής των δεδοµένων, µπορούν πλέον να συλλεχθούν τεράστιοι όγκοι δεδοµένων. Αυτοί οι όγκοι περιέχουν συχνά πολύτιµη πληροφορία. Το «δύσκολο» είναι να εξάγουµε την πολύτιµη αυτή πληροφορία από τον µεγάλο αυτό όγκο έτσι ώστε οι ιδιοκτήτες των δεδοµένων να µπορούν να επενδύσουν σε αυτή. Το Data Mining είναι µια νέα αρχή, η οποία αναζητά να κάνει ακριβώς αυτό. Με το «κοσκίνισµα» των δεδοµένων µε στόχο την σύνοψη αυτών και την εύρεση προτύπων. Οι περισσότερες Data Mining µέθοδοι βασίζονται σε χρησιµοποιηµένες και δοκιµασµένες τεχνικές από κλάδους όπως της µηχανικής µάθησης (machine learning), αναγνώρισης προτύπων (pattern recognition), στατιστικής και άλλων και αφορούν: Συσταδοποίηση δεδοµένων, κατηγοριοποίηση δεδοµένων, εξαγωγή κανόνων συσχέτισης, πρότυπα ακολουθιών, ανάλυση χρονοσειρών, παλινδρόµηση, εκτίµηση και πρόβλεψη µελλοντικών τάσεων συνοπτική παρουσίαση πληροφορίας. Εικόνα. Βασικές Λειτουργίες Data mining 5

11 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Clustering (συσταδοποίηση) To clustering είναι η εργασία του µερισµού ενός συνόλου δεδοµένων σε οµάδες οµοίων στοιχείων, clusters. Τα δεδοµένα οµαδοποιούνται σε σύνολα µε βάση κάποιο κριτήριο οµοιότητας. Το clustering δεν βασίζεται σε προκαθορισµένες κλάσεις. Classification (κατηγοριοποίηση) Η διαδικασία κατηγοριοποίησης των δεδοµένων σε κάποια από τις προκαθορισµένες κλάσεις. Συχνά η διαδικασία του classification περιγράφεται σαν µία συνάρτηση µάθησης (learning function), η οποία ταξινοµεί (classifies) κάθε αντικείµενο του συνόλου δεδοµένων σε µία από τις προκαθορισµένες κατηγορίες. Η διαδικασία του classification χαρακτηρίζεται από: Ένα σύνολο καλά ορισµένων κατηγοριών, ένα training set. Στόχος: Ο ορισµός ενός µοντέλου το οποίο µπορεί να κατηγοριοποιεί νέα δεδοµένα Εξαγωγή κανόνων συσχέτισης (association rules extraction) Προσδιορισµός και εξαγωγή των συσχετίσεων ή προτύπων τα οποία υπάρχουν σε µία συλλογή αντικειµένων. Τα πρότυπα µπορούν να εκφραστούν µε κανόνες, των οποίων η γενική µορφή είναι If X then Y. Κριτήρια εγκυρότητας και σηµαντικότητας κανόνων: support factor, confidence factor Estimation & prediction (εκτίµηση και πρόβλεψη). Περιλαµβάνει τεχνικές εκτίµησης και πρόβλεψης µελλοντικών τάσεων ή τιµών. Ο στόχος εδώ είναι να κατασκευάσουµε ένα µοντέλο που θα επιτρέπει την τιµή µιας µεταβλητής να προβλεφθεί από τις γνωστές τιµές άλλων µεταβλητών. Regression (παλινδρόµηση). Αντιστοιχεί τα αντικείµενα από ένα σύνολο δεδοµένων στην τιµή µίας µεταβλητής πρόβλεψης Summarization Περιλαµβάνει µεθόδους για την περιγραφή ενός υποσυνόλου δεδοµένων. Π.χ. η εκτίµηση της µέσης και της τυπικής απόκλισης για όλα τα πεδία, reports, τεχνικές παρουσίασης, την παραγωγή συνοπτικών κανόνων. 6

12 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) 1.3 ΟΙ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ORACLE Το σύστηµα διαχείρισης σχεσιακών βάσεων δεδοµένων Oracle σχεδιάστηκε για να επιτρέψει την ταυτόχρονη πρόσβαση σε µεγάλες κατανεµηµένες βάσεις δεδοµένων. Η βάση δεδοµένων διαιρείται σε ένα ή περισσότερα λογικά κοµµάτια που είναι γνωστά ως tablespaces.ένα tablespace χρησιµοποιείται για να συγκεντρώσει τα δεδοµένα. Το µέγιστο µέγεθος ενός datafile είναι 32GB (gigabytes). Ο µέγιστος αριθµός datafiles ανά tablespace είναι 1,022. Το µέγιστο µέγεθος ενός tablespace είναι 32TB (terabyte). Η ονοµατολογία των πινάκων και των πεδίων αυτών ακολουθεί τους κανόνες του σχεσιακού µοντέλου. Ο Oracle Enterprise Manager είναι το πρωτεύον εργαλείο διαχείρισης των βάσεών της. Το περιβάλλον SQL * Plus Worksheet χρησιµοποιείται για την άµεση εκτέλεση δηλώσεων SQL και εµφάνιση αποτελεσµάτων. 7

13 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ (DATA MINING) Οι τύποι δεδοµένων που υποστηρίζονται από την Oracle για την δηµιουργία των πινάκων είναι: Τύπος Περιγραφή Μέγεθος Char Καθορισµένου µήκους χαρακτήρας Oποιοδήποτε µήκος µεταξύ 1 και 255 bytes Date Αποθηκεύει έτη, µήνες, ηµέρες, ώρες, λεπτά και δευτερόλεπτα Long ή CLob Σειρά χαρακτήρων µεταβλητού- µήκους µέχρι 2GB στο µέγεθος. LongRaw υαδικά στοιχεία µεταβλητού- µήκους µε µέγιστο µήκος 2^31 - ( ) bytes Number Varchar Varchar2 Raw Αποθηκεύει τους σταθερούς και floating-point αριθµούς. Έχει ακρίβεια p και κλίµακα s. Σύνολο χαρακτήρων µεταβλητού- µήκους Σύνολο χαρακτήρων µεταβλητού- µήκους που αποθηκεύει χαρακτήρες. υαδικά στοιχεία σταθερού-µήκους 2^31-1 bytes το µέγιστο 8

14 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.1 ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΣΥΣΤΑ ΩΝ Η ανάλυση συστάδων (cluster analysis) ή πιο απλά clustering είναι η οργάνωση µιας συλλογής από δείγµατα-στοιχεία (patterns) σε συστάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Τα στοιχεία συνήθως περιγράφονται σαν διανύσµατα τιµών κάποιων µέτρων ή αναπαρίστανται ως σηµεία σε έναν πολυδιάστατο χώρο. Ο σκοπός είναι πως τα αντικείµενα σε µία οµάδα θα πρέπει να είναι όµοια ( ή σχετικά/συγγενικά) µεταξύ τους και διαφορετικά/ξεχωριστά από (ή ετερογενείς προς) τα άλλα αντικείµενα στις άλλες οµάδες. Όσο µεγαλύτερη η οµοιότητα (ή οµοιογένεια) µέσα σε µία οµάδα όσο µεγαλύτερη και η διαφορά µεταξύ των οµάδων, τόσο καλύτερη είναι η οµοιογένεια. Στοιχεία που ανήκουν στην ίδια οµάδα παρουσιάζουν µεγαλύτερη οµοιότητα από ότι στοιχεία που ανήκουν σε διαφορετικές οµάδες. Η συσταδοποίηση (clustering) είναι µια διαδικασία που εντάσσεται γενικότερα στην µη επιβλέπουσα µάθηση (unsupervised learning). Υπάρχει διαφορά µεταξύ supervised και unsupervised. Στην επιβλεπόµενη µάθηση ή κατηγοριοποίηση (supervised classification) ένα σύνολο από πρό-οµαδοποιηµένα στοιχεία είναι διαθέσιµο, και αυτό που µας ζητείται είναι να εντάξουµε ένα νέο στοιχείο σε κάποια από τις υπάρχουσες κλάσεις. Συνήθως τα προ-οµαδοποιηµένα στοιχεία χρησιµοποιούνται για να περιγράψουν τις διαφορετικές οµάδες κλάσσεις στις οποίες θα εντάξουµε νέα στοιχεία. Αντίθετα στην µη επιβλεπόµενη µάθηση και συσταδοποίηση το πρόβληµα είναι να οµαδοποιήσουµε σε λογικές κλάσσεις τα στοιχεία, χωρίς καµιά γνώση για προ-υπάρχουσες οµάδες. Έτσι η συσταδοποίηση είναι απόλυτα οδηγηµένη από τα δεδοµένα (data driven) και παράγεται από αυτά. συσταδοποίηση Εικόνα. τα αρχικά σηµεία δίνουν δύο συστάδες, η κάθε µία όµως µπορεί να έχει και περισσότερες εµφωλευµένες οµάδες. Για να δούµε τη δυσκολία της επιλογής του τί απαρτίζει/συνιστά µία συσταδοποίηση, στην παραπάνω Εικόνα φαίνονται είκοσι (20) σηµεία και δύο συστάδες. Όµως έχουµε πολλούς διαφορετικούς τρόπους µε τους οποίους τα σηµεία αυτά θα µπορούσαν να διαιρεθούν σε οµάδες. Εάν επιτρέψουµε στις οµάδες να είναι εµφωλευµένες, τότε η πιο εύλογη ερµηνεία της διάρθρωσης αυτών των σηµείων είναι πως υπάρχουν δύο συστάδες, η κάθε µία όµως έχει µικρότερες υποοµάδες. Εν τούτοις, η εµφανής διαίρεση των δύο µεγαλύτερων συστάδων σε τρεις υποοµάδες µπορεί απλώς να είναι ένα δηµιούργηµα του ανθρωπίνου µατιού. Τελικά, µπορεί να µην είναι παράλογο να ειπωθεί πώς τα σηµεία συγκροτούν και τέσσερις συστάδες. Συνεπώς, τονίζουµε ξανά πως η γενική αντίληψη µιας οµαδοποίησης είναι λίγο ανακριβής, και ο καλύτερος ορισµός εξαρτάται από το είδος των δεδοµένων και τα επιθυµητά αποτελέσµατα. 9

15 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.2 ΣΤΟΧΟΙ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ O στόχος είναι να καθοριστεί η εγγενής συσταδοποίηση (clustering) σε ένα σύνολο unlabeled δεδοµένων. Αλλά πώς να αποφασιστεί τι αποτελεί µια καλή οµαδοποίηση; Μπορεί να αποδειχθεί ότι δεν υπάρχει κάποιο απόλυτα βέλτιστο κριτήριο που θα ήταν ανεξάρτητο από τον τελικό στόχο της οµαδοποίησης. Συνεπώς, είναι ο χρήστης που πρέπει να παρέχει αυτό το κριτήριο, κατά τέτοιο τρόπο ώστε το αποτέλεσµα της οµαδοποίησης να ανταποκρίνεται στις ανάγκες του. Παραδείγµατος χάριν, θα µπορούσαµε να ενδιαφερθούµε για την εύρεση αντιπροσώπων για οµοιογενείς οµάδες (µείωση δεδοµένων), για την εύρεση φυσικών clusters και την περιγραφή των άγνωστων ιδιοτήτων τους ( φυσικοί τύποι δεδοµένων), για την εύρεση χρήσιµων και κατάλληλων σχηµατισµών οµάδας ( χρήσιµες κλάσεις δεδοµένων) ή για την εύρεση ασυνήθιστων αντικειµένων δεδοµένων (ανίχνευση outliers). Οι τεχνικές συσταδοποίησης εφαρµόζονται όταν δεν υπάρχουν καθορισµένες οµάδες που να έχουν προβλεφθεί και περισσότερο όταν υπάρχει ανάγκη τα δεδοµένα µας να χωριστούν σε φυσικές οµάδες. Αυτές οι οµάδες πιθανώς αντικατοπτρίζουν έναν µηχανισµό ο οποίος προκαλεί σε ορισµένα από τα δεδοµένα οµαδοποιήσεις βάσει κάποιων χαρακτηριστικών οµοιότητας. Η συσταδοποίηση απαιτεί διαφορετικές τεχνικές από τις µεθόδους κατηγοριοποίησης και αυτοσχέτισης. Γενικά υπάρχουν διαφορετικοί τρόποι µε τους οποίους µπορούν να εκφραστούν τα αποτελέσµατα. Οι οµάδες είναι µπορεί να είναι: Aποκλειστικές που σηµαίνει πως κάθε στοιχείο ανήκει µόνο σε µια και µοναδική οµάδα Eπικαλυπτόµενες δηλαδή ένα στοιχείο να ανήκει σε διάφορες οµάδες Πιθανοτικές και κάθε στοιχείο να ανήκει σε κάποιες οµάδες µε κάποια πιθανότητα Ιεραρχικές όπου υπάρχει ένας διαχωρισµός των στοιχείων σε οµάδες αλλά µε ιεραρχία επιπέδων Οι επιλογή του είδους των συστάδων έχει να κάνει µε τη φύση των µηχανισµών που θα υποστηρίξουν το συγκεκριµένο φαινόµενο συσταδοποίησης. Ωστόσο επειδή αυτοί οι µηχανισµοί δεν είναι τόσο γνωστοί η επικράτηση της ορθής µεθόδου συσταδοποίησης είναι κάτι που η επιστηµονική κοινότητα αναζητά και συνήθως η επιλογή βασίζεται στα εργαλεία συσταδοποίησης που είναι διαθέσιµα. Η συσταδοποίηση είναι βασική εργασία σε πολλούς τοµείς όπως η ανάλυση προτύπων (pattern-analysis), η λήψη αποφάσεων (decision-making), η µηχανική εκµάθηση (machine-learning), η εξόρυξη δεδοµένων (data mining), η ανάκτηση κειµένων (document retrieval) κ.α. Στις περισσότερες των περιπτώσεων που εφαρµόζεται συσταδοποίηση υπάρχει µικρή γνώση για την δοµή και το είδος των στοιχείων π.χ. στατιστικά µοντέλα, που να περιγράφουν τα δεδοµένα. 10

16 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Υπάρχουν πολλές εφαρµογές πάνω σε πρακτικά προβλήµατα. Παρακάτω δίνονται κάποια συγκεκριµένα παραδείγµατα ανάλογα µε το αν σκοπός της συσταδοποίησης είναι η κατανόηση ή η χρησιµότητα. Εφαρµογές Συσταδοποίηση για κατανόηση κλάσεων Κλάσεις, ή σηµαντικές οµάδες από αντικείµενα που µοιράζουν κοινά χαρακτηριστικά, παίζουν σηµαντικό ρόλο στο πως ο άνθρωπος αναλύει και το περιγράφει τον κόσµο γενικά. Από τη φύση του ο άνθρωπος διαχωρίζει αντικείµενα σε οµάδες (συσταδοποίηση), και ταιριάζει συγκεκριµένα αντικείµενα σε τέτοιες οµάδες (κατηγοριοποίηση). Εφαρµογές Στη Βιολογία Οι βιολόγοι έχουν ξοδέψει πολλά χρόνια έρευνας στη δηµιουργία ταξινοµιών από ζωντανούς οργανισµούς (hierarchical classification). Έτσι δεν µας κάνει έκπληξη που αρκετή από την δουλειά που έχει γίνει ως τώρα στην ανάλυση συστάδων (cluster analysis) έδειξε πως αναζητούσε να δηµιουργήσει µια καλά ορισµένη µαθηµατική ταξινοµία που θα µπορούσε αυτόµατα να βρίσκει της δοµές κατηγοριοποίησης. Πιο πρόσφατα, οι βιολόγοι έχουν εφαρµόσει τεχνικές συσταδοποίησης για να αναλύσουν τον µεγάλο αριθµό γενετικής πληροφορίας που είναι διαθέσιµη. Η συσταδοποίηση έχει χρησιµοποιηθεί για να εύρεση συστάδων γονιδίων που έχουν παρόµοια λειτουργία. Εφαρµογές Στην Εξόρυξη γνώσης Ο παγκόσµιος ιστός αποτελείται από δισεκατοµµύρια σελίδες και τα αποτελέσµατα από ένα ερώτηµα σε µια µηχανή αναζήτησης µπορεί να επιστρέψει χιλιάδες σελίδες σαν αποτέλεσµα. Η συσταδοποίηση µπορεί να χρησιµοποιηθεί για την οµαδοποίηση αυτά τα αποτελέσµατα σε ένα µικρό αριθµό από οµάδες, καθεµιά από τις οποίες σκιαγραφεί µια διάσταση του ερωτήµατος. Για παράδειγµα ένα ερώτηµα για µια ταινία µπορεί να επιστρέψει σελίδες οµαδοποιηµένες σε κατηγορίες όπως ανασκοπήσεις, τράιλερς, ηθοποιούς και θέατρα. Κάθε κατηγορία (cluster) µπορεί να διασπαστεί σε υποκατηγορίες (subclusters), παράγοντας ιεραρχικές δοµές που στη συνέχεια βοηθούν περισσότερο το χρήστη κατά την αναζήτηση που κάνει. Εφαρµογές Στο Κλίµα Για να κατανοήσουµε το κλίµα στη γή απαιτείται να βρεθούν πρότυπα κλίµατος στην ατµόσφαιρα και τους ωκεανούς. Εδώ η ανάλυση των συστάδων έχει εφαρµοστεί για να βρεθούν τέτοια πρότυπα της ατµοσφαιρικής πίεσης των πολικών περιοχών και περιοχών στους ωκεανούς που επηρεάζουν σηµαντικά το κλίµα της γης. Εφαρµογές Στην Ψυχολογία και ιατρική Μια ασθένεια ή κατάσταση συχνά έχει ένα αριθµό µεταβολών, και η ανάλυση συστάδων µπορεί να χρησιµοποιηθεί για να βρεθούν αυτές οι διαφορετικές υποκατηγορίες. Η ανάλυση των συστάδων µπορεί επίσης να χρησιµοποιηθεί για να αναγνωριστούν πρότυπα σε χωρική ή προσωρινή κατανοµή µιας ασθένειας. 11

17 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.3 ΒΗΜΑΤΑ ΣΤΗ ΙΑ ΙΚΑΣΙΑ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Η διαδικασία της συσταδοποίησης µπορεί να οδηγήσει σε διαφορετικές τµηµατοποιήσεις ενός συνόλου δεδοµένων, ανάλογα µε το κριτήριο που χρησιµοποιείται. Κατά συνέπεια, υπάρχει ανάγκη προεπεξεργασίας των δεδοµένων προτού εφαρµοστεί η συσταδοποίηση σε ένα σύνολο δεδοµένων. Τα βασικά βήµατα για την ανάπτυξη της διαδικασίας της συσταδοποίησης είναι τα παρακάτω : Επιλογή χαρακτηριστικών γνωρισµάτων. Σε αυτό το βήµα βασικός στόχος είναι να επιλεχτούν κατάλληλα τα γνωρίσµατα (attributes) στα οποία πρόκειται να εφαρµοστεί η συσταδοποίηση ώστε να κωδικοποιηθεί όσο το δυνατόν περισσότερη πληροφορία σχετικά µε την εργασία που µας ενδιαφέρει. Κατά συνέπεια, η προεπεξεργασία των δεδοµένων µπορεί να είναι απαραίτητη πριν από την χρησιµοποίηση τους στη διαδικασία της συσταδοποίησης. Επιλογή αλγορίθµου συσταδοποίησης. Αυτό το βήµα αναφέρεται στην επιλογή ενός αλγορίθµου που οδηγεί στον καθορισµό ενός καλού σχήµατος συσταδοποίησης (clustering scheme). Το µέτρο γειτνίασης και το κριτήριο συσταδοποίησης που θα χρησιµοποιηθούν χαρακτηρίζουν ουσιαστικά τον αλγόριθµο συσταδοποίησης καθώς και τη δυνατότητα του να καθορίσει ένα σχήµα συσταδοποίησης που να ταιριάζει στο σύνολο δεδοµένων. Συνεπώς το βήµα αυτό βασίζεται στα εξής: Στο µέτρο γειτνίασης (proxitity measure) το οποίο προσδιορίζει πόσο «όµοια» είναι δύο αντικείµενα (δηλαδή διανύσµατα γνωρισµάτων). Στις περισσότερες από τις περιπτώσεις πρέπει να εξασφαλίσουµε ότι όλα τα επιλεγµένα γνωρίσµατα συµβάλλουν εξίσου στον υπολογισµό του µέτρου εγγύτητας και δεν υπάρχει κανένα γνώρισµα που να υπερισχύει των άλλων. Κριτήριο συσταδοποίησης. Σε αυτό το βήµα, πρέπει να καθορίσουµε το κριτήριο συσταδοποίησης το οποίο µπορεί να εκφραστεί µέσω µιας συνάρτησης κόστους ή κάποιου άλλου τύπου κανόνων. Πρέπει να τονίσουµε ότι πρέπει να λάβουµε υπόψη τον τύπο των συστάδων που αναµένονται να εµφανιστούν στο σύνολο δεδοµένων. Κατά συνέπεια, πρέπει να καθορίσουµε «ένα καλό» κριτήριο συσταδοποίησης που να οδηγεί σε µια τµηµατοποίηση που να ταιριάζει καλά στο σύνολο δεδοµένων. Εγκυρότητα αποτελεσµάτων συσταδοποίησης. Η ακρίβεια των αποτελεσµάτων του αλγορίθµου συσταδοποίησης εξακριβώνεται χρησιµοποιώντας τα κατάλληλα κριτήρια και τεχνικές. Εφόσον οι αλγόριθµοι συσταδοποίησης καθορίζουν τις συστάδες που δεν είναι γνωστές εκ των προτέρων, ανεξάρτητα από τις µεθόδους συσταδοποίησης, η τελική τµηµατοποίηση των δεδοµένων απαιτεί κάποιου είδους αξιολόγηση στις περισσότερες εφαρµογές. Ερµηνεία αποτελεσµάτων. Σε πολλές περιπτώσεις, οι εµπειρογνώµονες στην περιοχή της εφαρµογής που αναφέρεται η συσταδοποίηση πρέπει να ενσωµατώσουν τα αποτελέσµατα τη; συσταδοποίησης µε αλλά πειραµατικά στοιχεία. 12

18 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.4 ΙΑ ΙΚΑΣΙΑ CLUSTERING Συνήθως τα βήµατα που ακολουθούνται κατά την διαδικασία του Clustering είναι: (a) Αναπαράσταση των στοιχείων η οποία µπορεί να περιλαµβάνει παραγωγή νέων χαρακτηριστικών η επιλογή µέρους των χαρακτηριστικών των στοιχείων. (Pattern representation) (b) Ορισµός του µέτρου οµοιότητας µεταξύ των στοιχείων. (Similarity measure definition) (c) Η καθαυτή διαδικασία της οµαδοποίησης. (Clustering) (d) Αφαίρεση δεδοµένων όταν χρειάζεται. (Data abstraction) (e) Προσδιορισµός και εκτίµηση του αποτελέσµατος. (Assessment of output) Στο σχήµα παρουσιάζεται µια τυπική αλληλουχία των τριών πρώτων σταδίων κατά την διαδικασία του Clustering περιλαµβανοµένης µιας ανατροφοδότησης όπου το µέχρι στιγµής αποτέλεσµα µπορεί να προβάλει αξιόλογα χαρακτηριστικά των δεδοµένων ή να επηρεάσει τον υπολογισµό της απόστασης µεταξύ των στοιχείων. Patterns FEATURES SELECTION EXCTRACTION Pattern Representation PATTERN SIMILARITY CLUSTERING Clusters Feedback Σχήµα: ιαδικασία clustering Η αναπαράσταση των στοιχείων αφορά στον αριθµό των κλάσεων, τον αριθµό των διαθέσιµων στοιχείων, στον αριθµό και τύπο των χαρακτηριστικών τα οποία ενδιαφέρουν τον αλγόριθµο του Clustering. Μερικά από τα προηγούµενα δεν είναι άµεσα διαθέσιµα. Ενδιαφέρον παρουσιάζει η διαδικασία της επιλογής χαρακτηριστικών κατα την οποία βρίσκονται και επιλέγονται τα καταλληλότερα χαρακτηριστικά των στοιχείων τα οποία θα χρησιµοποιηθούν για το Clustering. Εξάλλου, η διαδικασία της εξαγωγής χαρακτηριστικών χρησιµοποιεί µετασχηµατισµούς υπαρχόντων χαρακτηριστικών για την παραγωγή άλλων τα οποία πιθανόν να είναι πιο ενδιαφέροντα. Οποιαδήποτε από τις τεχνικές αυτές µπορεί να χρησιµοποιηθεί για την επιλογή των κατάλληλων χαρακτηριστικών γνωρισµάτων για την αναπαράσταση των στοιχείων προς οµαδοποίηση. Το µέτρο οµοιότητας µεταξύ των στοιχείων καθορίζεται από µια συνάρτηση απόστασης. Ένα απλό µέτρο απόστασης όπως η Ευκλείδεια απόσταση µπορεί να χρησιµοποιηθεί για να αντικατοπτρίσει την διαφορά-ανοµοιότητα µεταξύ δύο στοιχείων, ενώ άλλα µέτρα απόστασης ποσοτικοποιούν την οµοιότητα των στοιχείων. Αναφορά στα µέτρα απόστασης γίνεται παρακάτω. 13

19 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Η διαδικασία του Clustering µπορεί να πραγµατοποιηθεί µε πολλούς τρόπους. Το αποτέλεσµα µπορεί να είναι απόλυτα καθορισµένο (οµαδοποίηση των δεδοµένων σε ξένες µεταξύ τους κλάσεις), ή fuzzy (όπου κάθε στοιχείο δεν ανήκει µόνο σε µία κλάση αλλά είναι µέλος όλων των κλάσεων µε κάποιο βαθµό σε κάθε µια). Οι αλγόριθµοι ιεραρχικού Clustering παράγουν µια σειρά από εµφωλευµένες κλάσεις µετά από διαδικασίες διαχωρισµού ή συγχώνευσης µε βάση το µέτρο οµοιότητας µεταξύ των στοιχείων διαφορετικών οµάδων. Οι αλγόριθµοι διαµέρισης από την µεριά τους στοχεύουν στο να διαχωρίσουν τα δεδοµένα µε τέτοιο τρόπο ώστε να βελτιστοποιείται το κριτήριο µε το οποίο γίνεται το Clustering, πιθανόν κάποιο µέτρο οµοιότητας η διαφοροποίησης. Άλλες τεχνικές Clustering βασίζονται στην θεωρία των πιθανοτήτων και άλλες σε θεωρία γράφων. Η αφαίρεση δεδοµένων είναι διαδικασία κατά την οποία το σύνολο των δεδοµένων αποκτά µια απλή και συµπαγή αναπαράσταση. Ο όρος απλή αναπαράσταση µπορεί να εξηγηθεί είτε από την µεριά της αυτοποιηµένης ανάλυσης είτε από την µεριά του ανθρώπου. Στην πρώτη περίπτωση θα θέλαµε τα δεδοµένα µας να αναπαρίστανται µε τέτοιο σαφή και απλό τρόπο ώστε µια περαιτέρω υπολογιστική επεξεργασία να είναι εξίσου εφικτή. Στην δεύτερη περίπτωση η απλή αναπαράσταση των δεδοµένων τα κάνει πιο κατανοητά σε αυτούς που πρόκειται να τα επεξεργαστούν και να βγάλουν συµπεράσµατα. Συνήθως η αφαίρεση δεδοµένων στο Clustering είναι µια συνοπτική αναπαράσταση κάθε κλάσης µε την βοήθεια κάπου αντιπροσώπου στοιχείου το οποίο καλείται κεντροειδές (centroid). Τέλος η εκτίµηση (validation) της διαδικασίας του Clustering προσπαθεί να εκτιµήσει το αποτέλεσµα ενός αλγορίθµου, να βρει τι χαρακτηρίζει µια καλή διαδικασία από µια όχι και τόσο επιτυχή. Κυρίως αυτό που εκτιµάται είναι το τελικό αποτέλεσµα, δηλαδή κατά πόσο οι κλάσσεις που δηµιουργήθηκαν έχουν νόηµα και κατά ποσό αυτές δεν δηµιουργήθηκαν κατά τυχαίο τρόπο εξαιτίας του συγκεκριµένου αλγορίθµου που χρησιµοποιήθηκε. 14

20 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.5 ΜΕΤΡΑ ΟΜΟΙΟΤΗΤΑΣ- ΜΕΤΡΑ ΑΝΟΜΟΙΟΤΗΤΑΣ: Γενικοί ορισµοί Τα µέτρα εγγύτητας χωρίζονται σε µέτρα οµοιότητας (similarity measures) και µέτρα ανοµοιότητας (dissimilarity measures). Τα µέτρα οµοιότητας µπορούν να λάβουν θετικές αλλά και αρνητικές τιµές H µέγιστη τιµή της οµοιότητας µεταξύ δυο διανυσµάτων του Χ επιτυγχάνεται όταν αυτά ταυτίζονται. H ελάχιστη τιµή ανοµοιότητας µεταξύ δυο διανυσµάτων του Χ επιτυγχάνεται όταν αυτά ταυτίζονται. Γενικά θα µπορούσαµε να πούµε ότι τα µέτρα οµοιότητας είναι αντίθετα από τα µέτρα ανοµοιότητας. Εύκολα µπορούµε να αποδείξουµε ότι αν το µέτρο ανοµοιότητας d είναι µια µετρική, µε d(x, y)>0, τότε το µέτρο οµοιότητας ds=a µε a > 0 είναι και αυτό µετρική. Επίσης εύκολα µπορούµε να αποδείξουµε ότι το µέτρο οµοιότητας dmax d είναι µια µετρική, όπου dmax συµβολίζει την µέγιστη τιµή του d ανάµεσα σε όλα τα ζεύγη σηµείων του Χ. Θα µπορούσαµε να οµαδοποιήσουµε τα µέτρα εγγύτητας σε τέσσερις µεγάλες κατηγορίες: 1. Μέτρα απόστασης (Distance Measures). 2. Συντελεστές Σχέσης (Association Coefficients). 3. Συντελεστές Συσχέτισης (Correlation Coefficients). 4. Πιθανοτικοί Συντελεστές Οµοιότητας (Probabilistic Similarity Measures). Σε κάθε συστάδα τα σηµεία που περιέχονται σε αυτή παρουσιάζουν οµοιότητα µεταξύ. Έτσι για όλες τις τεχνικές Clustering είναι σηµαντικό να ορίζεται ένα µέτρο οµοιότητας µεταξύ δύο αντικειµένων από το χώρο δεδοµένων. Με τη µεγάλη ποικιλίας στα χαρακτηριστικά γνωρίσµατα η επιλογή του µέτρου οµοιότητας θα πρέπει να είναι προσεγµένη. Σε πολλές περιπτώσεις αυτό το µέτρο οµοιότητας που συνήθως µετράτε δεν είναι η οµοιότητα αλλά η διαφορετικότητα δυο σηµείων. Στην συνέχεια θα αναφερθούµε σε µέτρα οµοιότητας τα οποία είναι ευρέως διαδεδοµένα, και χρησιµοποιούντα για την σύγκριση στοιχείων των οποίων τα χαρακτηριστικά περιγράφονται από συνεχείς τιµές. Το µέτρο οµοιότητας καλείται και απόσταση και ικανοποιεί την τριγωνική ανισότητα για δύο στοιχεία x,y: D(x,y) = 0 D(x,y) = D(y,x) 15

21 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) D(x,y) D(x,z) + D(z,y) Το πιο γνωστό µέτρο οµοιότητας που χρησιµοποιείται είναι η Ευκλείδεια απόσταση η οποία ορίζεται ως εξής: D(x,y) = k i= 1 ( x i y i ) 2 Άλλοι τύποι που δίνουν την απόσταση µεταξύ δύο στοιχείων µπορεί να είναι η απόσταση Manhattan: D(x,y) = x i y i k i= 1 ή το µέγιστο της διαφοράς σε κάθε διάσταση: k D(x,y) = maxi= 1 x i y i Η ευκλείδεια απόσταση χρησιµοποιείται ευρέως σε περιπτώσεις λίγων διαστάσεων και έχει καλά αποτελέσµατα όταν δεδοµένα κατηγοριοποιούνται σε συµπαγή και αρκετά αποµωνοµένα clusters. Ένα πρόβληµα που παρουσιάζει είναι ότι στις πολλές διαστάσεις το χαρακτηριστικό το οποίο παρουσιάζει την µεγαλύτερη διαφοροποίηση από τα άλλα κυριαρχεί και αποπροσανατολίζει το τελικό αποτέλεσµα. Εδώ πρόκειται για αυτό που συνήθως αναφέρεται ως καταρα των πολλών διαστάσεων (curse of dimensionality). Μερικοί αλγόριθµοι αντί να υπολογίζουν κάθε φορά την απόσταση µεταξύ δύο στοιχείων, χρησιµοποιούν ένα πίνακα στον οποίο τοποθετούν τις οµοιότητες των στοιχείων. Αυτό που γίνεται είναι ένας προ-υπολογισµός των n(n-1)/2 τιµών οµοιότητας για ένα σύνολο n στοιχείων. Όσον αφορά τώρα τον υπολογισµό της απόστασης για στοιχεία των οποίων τα χαρακτηριστικά δεν είναι συνεχείς τιµές, αυτός είναι αρκετά προβληµατικός. Στις περισσότερες των περιπτώσεων τα χαρακτηριστικά δεν είναι συγκρίσιµα και το αποτέλεσµα της σύγκρισης έχει δύο δυνατές τιµές, όµοιο ή ανόµοιο. Παρόλα αυτά οι ειδικοί που ασχολούνται µε στοιχεία των οποίων τα χαρακτηριστικά είναι και των δύο τύπων έχουν βρει µεθόδους και µετρά για τον ορισµό της απόστασης των στοιχείων. 16

22 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.6 ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΩΝ CLUSTERS Το αποτέλεσµα της συσταδοποίησης είναι µια διαµέριση των δεδοµένων σε συστάδες (clusters). Η διαµέριση αυτή δίνει µια ιδέα για το πως µπορούµε να οµαδοποιήσουµε τα δεδοµένα µας σε έναν συγκεκριµένο αριθµό από κλάσσεις. Σε πολλές εφαρµογές και κυρίως σε εκείνες λήψεως αποφάσεων είναι ανάγκη να υπάρξει µια συµπαγής και κατανοητή αναπαράσταση των clusters. Το ζήτηµα της αναπαράστασης των clusters που είναι άµεσα συνδεδεµένο µε την αφαίρεση δεδοµένων είναι πολύ σηµαντικό για την λήψη αποφάσεων. Η αναπαράσταση ενός cluster µπορεί να γίνει µε διάφορους τρόπους. Μερικοί από τους προτεινόµενους είναι και οι παρακάτω: 1. Ένα cluster µπορεί να αναπαρασταθεί από το κεντροειδές σηµείου του ή από έναν αριθµό σηµείων που είναι τα πιο αποµακρυσµένα στο cluster. 2. Οι κόµβοι ενός δένδρου κατηγοριοποίησης µπορούν να αναπαραστήσουν ένα cluster. 3. Επίσης ένα cluster µπορεί να αναπαρασταθεί χρησιµοποιώντας συζευκτικούς λογικούς τελεστες. Y-Axis X X X X X X X X Y-Axis X X X X X X X X X-Axis X-Axis Σχήµα:Αναπαράσταση clusters από σηµεία X (a) X1 X1<3 X1>3 X2<2 X2> (b) 1: [X1<3]; 2:[X1>3][X2<2]; 3:[X1>3][X2>2] (c) Σχήµα: (a)clusters σε χωρο 2 διαστάσεων, (b) οµαδοποίηση µε δενδρο, (c) οµαδοποιηση µε λογικούς συζευκτικούς τελεστές. 17

23 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Ο πρώτος τρόπος αναπαράστασης µε την χρήση ενός κεντροειδούς είναι ο πιο συνήθης και έχει καλά αποτελέσµατα όταν τα clusters είναι συµπαγή και τα στοιχεία κατανέµονται οµοιόµορφα γύρω από το κεντροειδές. Σε αντίθετη περίπτωση ο τρόπος αυτός αναπαράστασης δεν είναι ο πιο κατάλληλος. Στην περίπτωση αυτή η αναπαράσταση ενός cluster απο συνοριακά σηµεία είναι µια πολύ καλή λύση υπάρχουν αρκετοί αλγόριθµοι που ακολουθούν αυτή την τεχνική όπως ο αλγόριθµος CURE. Οσο το σχήµα του cluster αλλάζει και παίρνει διάφορα σχήµατα στο χώρο, η επιλογή των σηµείων πρέπει να είναι τέτοια ώστε να περιγράφεται το cluster όσο το δυνατόν καλύτερα. Η αναπαράσταση µε ένα δένδρο κατηγοριοποίησης είναι ισοδύναµη µε την αναπαράστση ενός cluster µε λογικούς συζευκτικούς τελεστές. Η αναπαράσταση των clusters και η αφαίρεση δεδοµένων που αυτή συνεπάγεται είναι πολύ σηµαντική γιατί (α) δίνει µια απλή και ανθρωπίνως κατανοητή αναπαράσταση των δεδοµένων, (β) Επιτυγχάνεται συµπίεση των δεδοµένων η οποία µπορεί να αξιοποίηθεί από άλλες υπολογιστικές εφαρµογές και (γ) βοηθάει και επιταχύνει την διαδικασία λήψεων αποφάσεων. 18

24 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.7 ΕΓΚΥΡΟΤΗΤΑ- ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Η εφαρµογή ενός αλγορίθµου συσταδοποίησης σε ένα σετ δεδοµένων στοχεύει, υποθέτοντας ότι το σετ δεδοµένων προσφέρει µια τέτοια τάση οµαδοποίησης, στην ανακάλυψη των έµφυτων διαµερισµών του. Ωστόσο, η διαδικασία οµαδοποίησης γίνεται αντιληπτή ως µία ανεπίβλεπτη διαδικασία, καθώς δεν υπάρχουν προκαθορισµένες κλάσεις και παραδείγµατα που θα έδειχναν τι είδος επιθυµητής σχέσης ανάµεσα στα δεδοµένα πρέπει να θεωρείται έγκυρη. Έπειτα, οι διάφοροι αλγόριθµοι οµαδοποίησης βασίζονται σε κάποιες υποθέσεις για να ορίσουν ένα διαµερισµό του σετ δεδοµένων. Κατά συνέπεια µπορεί να συµπεριφερθούν µε διαφορετικό τρόπο ανάλογα µε: Τα χαρακτηριστικά του σετ δεδοµένων (γεωµετρία και κατανοµή πυκνότητας των clusters) και Τις τιµές των παραµέτρων εισόδου. Συνεπώς, αν τεθούν στις παραµέτρους του αλγορίθµου οµαδοποίησης ακατάλληλες τιµές, η µέθοδος οµαδοποίησης θα καταλήξει σε ένα σχήµα διαµερισµού που δε θα είναι βέλτιστο για το συγκεκριµένο σετ δεδοµένων οδηγώντας σε λάθος αποφάσεις. Είναι εµφανές ότι ένα πρόβληµα που αντιµετωπίζουµε στην οµαδοποίηση είναι το να αποφασίσουµε τον βέλτιστο αριθµό clusters που ταιριάζει σε ένα σετ δεδοµένων. Ορίζουµε τον όρο βέλτιστο σχήµα οµαδοποίησης ως το αποτέλεσµα της εκτέλεσης ενός αλγορίθµου οµαδοποίησης, που ταιριάζει καλύτερα στον έµφυτο διαµερισµό του σετ δεδοµένων. Είναι δύσκολο να ορίσουµε πότε ένα αποτέλεσµα οµαδοποίησης είναι αποδεκτό, κατά συνέπεια έχουν αναπτυχθεί διάφορες τεχνικές και δείκτες ελέγχου της εγκυρότητας της οµαδοποίησης. Οι µετρήσεις για την ποιότητα (το πόσο καλή) είναι µια συσταδοποίηση ανήκουν σε µία από τις παρακάτω τρεις κατηγορίες : Με επίβλεψη (supervised) - Εξωτερικό Ευρετήριο (External Index): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδοµένων), πχ ετικέτες για τις συστάδες. Μετράµε πόσο οι περιγραφές των συστάδων ταιριάζουν µε τις ετικέτες των κλάσεων. πχ Εντροπία Χωρίς επίβλεψη (unsupervised) Εσωτερικό Ευρετήριο (Internal Index): Εκτιµάµε το πόσο καλή είναι µια συσταδοποίηση χωρίς παροχή εξωτερικής πληροφορίας. Συνεκτικότητα (cohesion) ιακριτότητα ή διαχωρισµός (separation) Συγκριτικοί -Σχετικό Ευρετήριο (Relative Index) : Χρησιµοποιείται για τη σύγκριση δυο διαφορετικών συσταδοποιήσεων ή συστάδων - Συχνά για αυτό το σκοπό χρησιµοποιείται ένα εσωτερικό ή εξωτερικό ευρετήριο. Εσωτερικό, πχ δυο k-means συσταδοποιήσεις µε βάση το SSE 19

25 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Η συνεκτικότητα µιας συστάδας (cluster cohesion) είναι το άθροισµα των βαρών (πχ απόσταση) µεταξύ όλων των συνδέσεων σε µια συστάδα. Ο διαχωρισµός (cluster separation) είναι το άθροισµα των βαρών µεταξύ κόµβων της συστάδας και κόµβων εκτός συστάδας Η διαδικασία αξιολόγησης των αποτελεσµάτων ενός αλγορίθµου συσταδοποίησης ονοµάζεται αξιολόγηση της εγκυρότητας των clusters (cluster validity assessment). ύο κριτήρια µέτρησης έχουν προταθεί για την αξιολόγηση και την επιλογή ενός βέλτιστου σχήµατος οµαδοποίησης: Συνοχή (compactness): Η απόσταση µεταξύ των µελών κάθε cluster πρέπει να είναι όσο το δυνατόν πιο µικρή. Ένα κοινό µέτρο της συνοχής είναι η διακύµανση(variance) που πρέπει να είναι ελάχιστη. ιαχωρισµός (separation): Τα clusters πρέπει να είναι µεταξύ τους πολύ διαχωρίσιµα. Υπάρχουν τρεις κοινές προσεγγίσεις για την µέτρηση της απόστασης µεταξύ δύο διαφορετικών clusters: 20

26 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) 2.8 ΈΛΕΓΧΟΣ ΕΓΚΥΡΟΤΗΤΑΣ ΟΜΑ ΩΝ Ως έλεγχο εγκυρότητας οµάδων (cluster validity) ορίζουµε µία διαδικασία αποτίµησης µε αντικειµενικά και ποσοτικά κριτήρια του αποτελέσµατος της οµαδοποίηση;. Ο έλεγχος εγκυρότητας (εφεξής καλείται απλώς εγκυρότητα) µπορεί να γίνει µε εσωτερικά ή εξωτερικά κριτήρια. Έλεγχος µε εσωτερικά κριτήρια γίνεται όταν δεν λαµβάνεται υπόψη κάποια εκ των προτέρων γνώση για το διαχωρισµό των αντικειµένων σε κλάσεις. Αντιθέτως, κατά τον έλεγχο µε εξωτερικά κριτήρια λαµβάνεται υπόψη ο διαχωρισµός των αντικειµένων σε κλάσεις, εφόσον αυτός είναι γνωστός. Λόγω της διαφορετικής φύσης των διαφόρων οικογενειών αλγορίθµων, η εγκυρότητα ελέγχεται διαφορετικά µεταξύ τους. Εγκυρότητα µε εσωτερικά κριτήρια Υπάρχουν διαφορετικές µέθοδοι ελέγχου εγκυρότητας των οµάδων που παράγονται µε αλγορίθµους τµηµατοποίησης σε σχέση µε αυτές που παράγονται από ιεραρχικούς αλγορίθµους. Στη συνέχεια. παρουσιάζουµε ξεχωριστά τις δύο αυτές περιπτώσεις. ενώ δίνουµε και µια γενική µέθοδο για τις υπόλοιπες κατηγορίες αλγορίθµων οµαδοποίησης. Εγκυρότητα για αλγορίθµους τµηµατοποίησης ύο βασικές ιδιότητες µίας οµάδας είναι η συνοχή και η αποµόνωση (isolation). Η συνοχή εκφράζει τη συνεκτικότητα µεταξύ των αντικειµένων της οµάδας, ενώ η αποµόνωση το διαχωρισµό τους από τα αντικείµενα των υπολοίπων οµάδων. Η εγκυρότητα µίας οµάδας εξετάζεται ελέγχοντας κατά πόσο τόσο η συνοχή όσο και η αποµόνωσή της είναι µη αναµενόµενες. Ο έλεγχος γίνεται συγκριτικά ως προς πληθυσµό, του οποίου τα αντικείµενα ακολουθούν κατανοµή που τα κάνει να θεωρούνται αναµενόµενα. Ορισµός συνοχής και αποµόνωσης Έστω µία οµάδα c i µε κέντρο m i, ενώ m είναι το κέντρο όλων των οµάδων. εδοµένου ενός µέτρου απόστασης d µεταξύ δύο αντικειµένων, η συνοχή C(c i ) της οµάδας c i και η αποµόνωση της οµάδας I(c i ) ορίζονται από τις Εξίσωσεις: Το αποτέλεσµα της οµαδοποίησης είναι ένα σύνολο Κ οµάδων c i όπου 1 i Κ. Η συνολική συνοχή (sum square error - SSE). και η συνολική αποµόνωση (sum square between - SSB), ορίζονται αντιστοίχως από τις Εξισώσεις: 21

27 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Τα δύο αυτά µεγέθη (SSE και SSΒ) είναι αλληλοεξαρτώµενα. Στη συνέχεια το γεγονός αυτό αποδεικνύεται µε βάση την παραδοχή ότι όλες οι οµάδες έχουν τον ίδιο αριθµό αντικειµένων, δηλαδή c i = c j για i j. Χάριν αναγνωσιµότητας, θεωρούµε µονοδιάστατα αντικείµενα, για τα οποία η απόσταση d(x,y) = (x - y) 2. Ωστόσο, η απόδειξη γενικεύεται και για περισσότερες διαστάσεις. Αφού το άθροισµα των SSΕ και SSB είναι σταθερή και ανεξάρτητη ποσότητα από την οµαδοποίηση που θα προκύψει, γίνεται αντιληπτό ότι η ελαχιστοποίηση του BBΕ και η µεγιστοποίηση του SSB δεν είναι αντικρουόµενες µεταξύ τους. 22

28 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Έλεγχος σηµαντικότητας οµαδοποίησης Η τιµή τις συνολικής συνοχής SSE και της συνολικής αποµόνωσης SSB των k οµάδων του αποτελέσµατος ερµηνεύεται µόνο συγκριτικά. Έτσι, δοθέντος ενός συνόλου µε συγκεκριµένο πληθυσµό αντικειµένων µε τιµές εντός συγκεκριµένου διαστήµατος, παράγουµε ισοµεγέθη σύνολα µε αντικείµενα που ακολουθούν οµοιόµορφη κατανοµή σε ίδιο διάστηµα. Κάθε τέτοιο σύνολο το οµαδοποιούµε σε οµάδες και υπολογίζουµε τις αντίστοιχες τιµές SSE και SSB, οι οποίες σχηµατίζουν δύο αντίστοιχες κατανοµές τιµών SSE και SSB. Έτσι ελέγχουµε κατά πόσο οι τιµές SSE και SSB που προέκυψαν από την υπό εξέταση οµαδοποίηση είναι αναµενόµενες ή όχι σε σχέση µε τις δύο προαναφερθείσες κατανοµές. Παράδειγµα (Έλεγχος σηµαντικότητας SSE) Στο Σχήµα απεικονίζονται 3 οµάδες του παράγονται εφαρµόζοντας τον k-means (και Ευκλείδεια απόσταση) στα 150 σηµεία του συνόλου Iris (η απεικόνιση γίνεται στις δύο διαστάσεις που αντιστοιχούν στα 2 πρώτα ιδιοδιανύσµατα). Στη συνέχεια παράγουµε 100 τυχαία σύνολα µε 150 σηµεία το καθένα, τα οποία ακολουθούν οµοιόµορφη κατανοµή στο περιγεγραµµένο κυρτό πολύγωνο που περικλείει τα 150 σηµεία του Iris. Οµαδοποιούµε κάθε τέτοιο σύνολο µε τον k-means σε 3 οµάδες. Στο Σχήµα απεικονίζεται η κατανοµή των τιµών SSE. Η µέση τιµή της κατανοµής αυτής είναι , ενώ η απόκλιση είναι Σχήµα: (α) Σύνολο 150 σηµείων του Iris χωρισµένα σε 3 οµάδες, (β) Ιστόγραµµα τιµών SSE. Για το σύνολο Iris η τιµή SSE προκύπτει ίση µε Σε επίπεδο σηµαντικότητας 95% (α = 0.05), ισχύει ότι Ζ(α) = Επειδή ισχύει ότι: = 7.73< Αποφασίζουµε ότι η τιµή SSE για τo Iris δεν ανήκει στην κατανοµή των τιµών SSE για τα τυχαία σύνολα. Εποµένως, η οµαδοποίηση θα απεικονίζεται στο Σχήµα έχει πιθανότητα µικρότερη από 5% να προέκυψε τυχαία. 23

29 ΣΥΣΤΑ ΟΠΟΙΗΣΗ (CLUSTERING) Συντελεστής σιλουέτας Ο συντελεστής σιλουέτας (silhouette coefficient) ενός αντικειµένου µετρά την απόστασή του από τα αντικείµενα της οµάδας του, συγκριτικά όµως µε την απόστασή του από τα αντικείµενα όλων των άλλων οµάδων. Εποµένως αποτελεί ένα συνδυαστικό µέτρο για τη συνοχή και την αποµόνωση. Έστω ένα αντικείµενο i που ανήκει στην οµάδα C i. Ο συντελεστής σιλουέτας S i ορίζεται ως εξής. Η µέση απόσταση του αντικειµένου αυτού από τα αντικείµενα της οµάδας του είναι α i. Επίσης. b i, j είναι η µέση απόστασή του από τα αντικείµενα της οµάδας C j, όπου (j i). Αν b i = min j{b i, j, τότε συντελεστής σιλουέτας S i δίνεται από την εξίσωση: Si = bi max{ ai ai, bi Ο S i λαµβάνει τιµές στο διάστηµα [-1, 1]. Αρνητική τιµή προκύπτει αν α i > b i, δηλαδή όταν κάποιο αντικείµενο απέχει από τα αντικείµενα της δικής του οµάδας κατά µέσο όρο περισσότερο σε σχέση µε τα αντικείµενα της πλησιέστερης οµάδας. Εποµένως, είναι επιθυµητές θετικές τιµές του S i. Η µέγιστη τιµή του S i είναι ίση µε 1 και προκύπτει όταν α i = 0.. Μπορούµε να αξιολογήσουµε το αποτέλεσµα της οµαδοποίησης παίρνοντας το µέσο όρο των συντελεστών σιλουέτας για κάθε αντικείµενο του συνόλου δεδοµένων. Παράδειγµα (Συντελεστές σιλουέτας ως προς το Κ) Για το σύνολο Iris (Σχήµα) εφαρµόζουµε τον αλγόριθµο K-Means για διάφορες τιµές του Κ. Για κάθε τιµή του Κ υπολογίζουµε την µέση τιµή των συντελεστών σιλουέτας. Το αποτέλεσµα απεικονίζεται στο Σχήµα. Η µέγιστες τιµές προκύπτουν για Κ = 2 και Κ = 3, ενώ για µεγαλύτερες τιµές του Κ προκύπτουν µικρότερες τιµές. Αυτός είναι ένας έµµεσος τρόπος για την εκτίµηση του αριθµού των οµάδων ενός συνόλου δεδοµένων. Σχήµα: Μέση τιµή συντελεστών σιλουέτας ως προς τον αριθµό των οµάδων 24

30 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ 3 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ 3.1 The Data Matrix Τα αντικείµενα αντιπροσωπεύονται ως σηµεία (διανύσµατα) σε ένα πολυδιάστατο χώρο, όπου κάθε διάσταση αντιπροσωπεύει µια ευδιάκριτη ιδιότητα (µεταβλητή, µέτρηση) περιγράφοντας το αντικείµενο. Κατά συνέπεια, ένα σύνολο αντικειµένων αντιπροσωπεύεται (τουλάχιστον εννοιολογικά) από έναν πίνακα m επι n στο χώρο, όπου υπάρχουν m γραµµές, µια για κάθε αντικείµενο, και n στήλες, µια για κάθε ιδιότητα. Εικόνα. data points and data matrix. Τα δεδοµένα µετασχηµατίζονται µερικές φορές πρίν χρησιµοποιηθούν. Ένας λόγος που συµβαίνει αυτό είναι επειδή οι διαφορετικές ιδιότητες µετρούνται σε διαφορετικές κλίµακες. Σε περιπτώσεις όπου το εύρος των τιµών διαφέρει πολύ από ιδιότητα σε ιδιότητα, αυτές οι διαφορετικές κλίµακες µπορούν να επικρατήσουν στα αποτελέσµατα της ανάλυσης συστάδων, και είναι συνηθισµένο να ικανοποιούνται τα δεδοµένα έτσι ώστε όλες οι ιδιότητες είναι στην ίδια κλίµακα. Μια απλή προσέγγιση σε µια τέτοια διαδικασία είναι, για κάθε ιδιότητα, να αφαιρέσει του µέσου όρου των τιµών ιδιοτήτων και να διαιρέσει µε τη τυπική απόκλιση των τιµών. 3.2 The Proximity Matrix Ο Πίνακας Εγγύτητας (Οµοιότητας ή ανοµοιότητας) Ενώ η ανάλυση συστάδων χρησιµοποιεί µερικές φορές τον αρχικό χώρο δεδοµένων, πολλοί αλγόριθµοι συσταδοποίησης χρησιµοποιούν έναν πίνακα οµοιότητας το S, ή έναν πίνακα ανοµοιότητας, το D. Για ευκολία, και οι δύο πίνακες αναφέρονται συνήθως ως πίνακες εγγύτητας, ένας πίνακας εγγύτητας, Π, m επί n περιέχει όλες τις δυαδικές ανοµοιότητες ή οµοιότητες µεταξύ των αντικειµένων που εξετάζονται. Εάν ΧΙ και xj είναι το ith και jth τα αντικείµενα, αντίστοιχα, η είσοδος στη σειρά ith και jth τη στήλη του πίνακα εγγύτητας είναι η οµοιότητα, sij, ή η ανοµοιότητα, dij, µεταξύ ΧΙ και xj. Εικόνα. The Proximity Matrix 25

31 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Πιο απλά, θα χρησιµοποιήσουµε pij για να αντιπροσωπεύσουµε είτε sij είτε dij. Οι αριθµοί 2a, 2b, και 2c παρουσιάζουν, αντίστοιχα, τέσσερα σηµεία και αντίστοιχους πίνακες στοιχείων και εγγύτητας (απόσταση). Τελειώνοντας, αναφέρουµε ότι τα αντικείµενα αντιπροσωπεύονται µερικές φορές πιο πολύ από περίπλοκες δοµές δεδοµένων παρά από τα διανύσµατα των ιδιοτήτων, π.χ., σειρές χαρακτήρα ή γράφοι. Ο καθορισµός της οµοιότητας (ή των διαφορών) δύο αντικειµένων σε µια τέτοια κατάσταση είναι πιο περίπλοκος, αλλά εάν ένα λογικό µέτρο οµοιότητας (ανοµοιότητα) υπάρχει, κατόπιν µια ανάλυση συγκέντρωσης µπορεί ακόµα να εκτελεστεί. Συγκεκριµένα,οι τεχνικές συσταδοποίησης που χρησιµοποιούν έναν πίνακα εγγύτητας είναι απρόσβλητες από την έλλειψη ενός πίνακα δεδοµένων. 3.3 The Proximity Graph Ένας πίνακας εγγύτητας καθορίζει έναν «ζυγισµένο» γράφο, όπου οι κόµβοι είναι τα σηµεία που συγκεντρώνονται, και οι σταθµισµένες άκρες αντιπροσωπεύουν τις σχέσεις - ιδιότητες µεταξύ των σηµείων, δηλ., οι καταχωρήσεις του πίνακα εγγύτητας. Ενώ αυτός ο γράφος εγγύτητας µπορεί να κατευθυνθεί, το οποίο οδηγεί σε έναν ασύµετρο πίνακα εγγύτητας, οι περισσότεροι µέθοδοι συσταδοποίησης υποθέτουν έναν µη κατευθυνόµενο γράφο. Η λιγοστή απαίτηση συµµετρίας µπορεί να είναι χρήσιµη σε µερικές περιπτώσεις, αλλά θα υποθέσουµε τους µη κατευθυνόµενους γράφους εγγύτητας (συµµετρικούς πίνακες εγγύτητας) στις συζητήσεις µας. Εικόνα. The Proximity graph Από την πλευρά των γράφων, η συσταδοποίηση είναι ισοδύναµη µε το σπάσιµο του γράφου στα συνδεδεµένα συστατικά (χωρίστε συνδεδεµένους υπογράφους), ένα για κάθε συστάδα. Επιπλέον, πολλά ζητήµατα που αφορούν τους γράφους µπορούν να χρησιµοποιηθούν στους γραφο-θεωρητικούς όρους, π.χ., τα ζητήµατα της συνοχής συστάδων και ο βαθµός ένωσης µε άλλες συστάδες µπορεί να µετρηθεί από τον αριθµό και τη «ισχύ» των συνδέσεων µεταξύ και µέσα των συστάδων. Επίσης, πολλές τεχνικές συσταδοποίησης π.χ., µονή σύνδεση και πλήρης σύνδεση περιγράφονται χρησιµοποιώντας τις αντιπροσωπεύσεις ων γράφων. 26

32 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Οι τεχνικές Clustering µπορούν να διαχωριστούν µε πολλούς τρόπους, όπως Ιεραρχικό Clustering σε αντίθεση µε το ιαµεριστικό (partitional), και καθένα από αυτά να χωριστεί σε άλλες υποκατηγορίες. Θα αναφερθούµε σε διαφορετικές προσεγγισεις Clustering παρακάτω αφού προηγούµενως δούµε καποιούς όρους και διαφοροποιήσεις που παρουσιάζουν οι διάφοροι αλγόριθµοι. Οι αλγόριθµοι για Clustering µπορεί να είναι: Συγκεντρωτικοί και ιαχωριστικοί (Agglomerative and Divisive). Η διαφοροποίηση των ειδών αυτών αυτών σχετίζεται µε την λειτουργία και τις δοµές του αλγορίθµου. Στην πρωτη περίπτωση ο αλγόριθµος ξεκινά θεωρώντας καθε στοιχείο σαν ένα ξεχωριστό cluster, και προχωρά συγχωνεύοντας στοιχεία και clusters µεχρις ότου να ικανοποιηθεί µια συνθήκη. Στην περίπτωση ενός διαχωριστικού αλγορίθµου, όλα τα στοιχεία θεωρούνται οτι ανήκουν σε ένα cluster και ακολουθείται µια συνεχής διάσπαση του ψλθσταερ αυτού σε υπο cluster µεχρις ότου να ικανοποιηθεί η συνθήκη τερµατισµού. Μονοθετικοί και Πολυθετικοί (Monothetic and Polythetic). Η διαφορά αυτών χαρακτηρίζει την σειριακή ή ταυτόχρονη χρήση των χαρακτηριστικών των στοιχείων κατά την διαδικασία του Clustering. Οι περισσότεροι αλγόριθµοι είναι πολυθετικοί, κάτι που σηµαίνει ότι όλα τα χαρακτηριστικά των στοιχείων συµµετέχουν κάθε φορά στον καθορισµό της απόστασης του στοιχείου από κάποιο άλλο. Ένας µονοθετικός αλγόριθµος λαµβάνει υπόψη του µονό ένα χαρακτηριστικό τη φορά και πρεγµατοποιεί οµαδοποιήσεις µε βάση αυτό το χαρακτηριστικό. Σε επόµενη επανάληψη χρησιµοποιεί άλλο χαρακτηριστικό και διαχωρίζει τις ήδη υπάρχουσες οµάδες. Ένα παράδειγµα φαίνεται στο σχήµα 3. Εδώ τα στοιχεία του χώρου µας έχουν χωριστεί σε δύο clusters αρχικά µε βάση το χαρακτηριστικό Χ1. Ο διαχωρισµός δηλώνεται µε την κάθετη γραµµή V. Στην συνέχεια κάθε cluster χωρίζεται µε βάση το χαρακτηριστικό Χ2 και τα νέα clusters διαχωρίζονται από τις οριζόντιες γραµµές Η1 και Η2. Το πρόβληµα αυτών των αλγορίθµων είναι ότι τα στοιχεία χωρίζονται τελικά σε 2 d clusters όπου d έιναι ο αριθµός των χαρακτηριστικών των στοιχείων. Αυτό συνήθως οδηγεί σε πολλά clusters εκ των οποίων τα περισσότερα είναι µικρά και ασήµαντα. V H1 4 4 H2 X X1 Σχήµα: Οµαδοποίηση µονοθετικού αλγορίθµου. 27

33 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Σκληροί και fuzzy (hard and fuzzy). Ένας σκληρός αλγόριθµος τοποθετεί κάθε στοιχείο σε ένα και µόνο cluster, σε αντίθεση µε τους fuzzy αλγορίθµους οι οποίοι δίνουν σε κάθε στοιχείο για κάθε cluster έναν βαθµό που εκφράζει κατά πόσο το στοιχείο αυτό ανήκει στο cluster αυτό. Ντετερµινιστικοί και Στοχαστικοί (Deterministic and Stochastic). Αυτοί οι αλγόριθµοι είναι κυρίως διαιρετικοί και σχετίζονται µε την βελτιστοποίηση της οµαδοποίησης. Αυξητικοί και µη αυξητικοί (Incremental and non-incremental). Η διαφορά αυτών των αλγορίθµων εµφανίζεται όταν το σύνολο των δεδοµένων προς οµαδοποίηση είναι πολύ µεγάλο και περιορισµοί που υπάρχουν στον χρόνο εκτέλεσης και τον διαθέσιµο χώρο µνήµης επηρεάζουν την αρχιτεκτονική του αλγορίθµου. Στα πρώτα βήµατα της θεωρίας περί clustering τα δεδοµένα δεν ήταν ιδιαιτέρα πολλά και προβλήµατα µε το µέγεθος της πληροφορίας δεν υπήρχαν. Με την αύξηση όµως της πληροφορίας υπήρχε η ανάγκη για εύρεση αλγορίθµων οι οποίοι ελαχιστοποιούν τον αριθµό σαρώσεων των δεδοµένων, µειώνουν τον αριθµό των στοιχείων που εξετάζονται η µειώνουν το µέγεθος των δοµών που χρησιµοποιούνται κατά την εκτέλεση του αλγορίθµου. 3.4 ΑΛΓΟΡΙΘΜΟΙ ΙΕΡΑΡΧΙΚΟΥ CLUSTERING Το πως λειτουργεί ένας ιεραρχικός αλγόριθµος clustering φαινεται στα παρακάτω σχήµατα χρησηµοποιώντας τα δεδοµένα ενός διδιάστατου χώρου τα οποία µπορούν να οµαδοποιηθούν όπως παρουσιάζεται στο σχήµα 4. Εδώ υπαρχουν επτά στοιχεία τα οποία σχηµατίζουν τρία clusters. Ενας ιεραρχικός αλγόριθµος µπορεί να αποδωθεί µε ένα δενδροδιάγραµµα το οποίο παρουσιάζει τις συγχωνεύσεις στοιχείων για την δηµιουργία clusters και τα επίπεδα οµοιότητας µε βαση τα οποία αλλαζουν οι οµάδες και διαµορφώνονται τα clusters. Το δενδροδιάγραµµα που αντιστοιχεί στα δεδοµένα του σχήµατος 4 παρουσιάζεται στο σχήµα 5. Χαρακτηριστικό του διαγράµµατος είναι τα διαφορα επίπεδα στα οποία αποδίδονται διαφορετικές οµαδοποιήσεις. Cluster 3 X2 Cluster 1 A B C F G D E Cluster 2 S I M I L A R I T Y X1 A B C D E F G Σχήµα: Σηµεία σε τρία clusters Σχήµα 5: ενδοδιάγραµµα ιεραρχικού αλγορίθµου 28

34 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Οι περισσοτεροι ιεραρχικοί αλγόριθµοι είναι παραλλαγές των αλγορίθµων απλούσυνδεσµου (single-link), του πλήρους-συνδέσµου (complete-link). Οι διαφορά µεταξύ των αλγορίθµων αυτών έχει να κάνει µε τον τρόπο µε τον οποίο ορίζουν την οµοιότητα µεταξύ στοιχείων και κατά συνέπεια clusters πριν την συγχώνευσή τους. Στην περίπτωση του απλού-συνδεσµου η απόσταση µεταξύ δύο clusters είναι η ελάχιστη από τις αποστάσεις µεταξύ όλων των ζευγών στοιχείων από τα δύο clusters (καθε ζεύγος περιέχει ένα στοιχείο από το ένα cluster και ένα από το άλλο). Στον αλγόριθµο πλήρους-συνδεσµου η απόσταση µεταξύ δύο clusters είναι η µεγιστη από τις αποστασεις µεταξύ όλων των ζευγών στοιχείων από τα δύο clusters. Και στις δύο περιπτώσεις δυο clusters συγχωνεύονται για να δηµιουργήσουν ένα cluster όταν η απόσταση αυτή, οπως και αν ορίζεται είναι ελαχιστη. Εχει αποδειχτει οτι ο αλγόριθµος του πλήρους συνδέσµου δηµιουργεί καλλιτερα, πιο συµπαγή clusters. Αντίθετα ο αλγόριθµος του απλού-συνδεσµου έχει την τάση να δηµιουργεί σκόρπια και επιµηκη clusters. Στο σχήµα φαίνονται µια σειρά από στοιχεία τα οποία οριζουν δύο clusters αλλα χωρίζονται από σηµεία τα αποτελούν θόρυβο και δεν µας ενδιαφέρουν. Ο αλγόριθµος απλού-συνδέσµου και ο αλγόριθµος πλήρους συνδέσµου δηµιουργεί τα clusters του σχήµατος. Είναι προφανές ότι στην δεύτερη περίπτωση τα clusters είναι πιο συµπαγή από την πρώτη στην οποία τα στοιχεία θορύβου έχουν δηµιουργήσει ανεπιθύµητα φαινόµενα. Παρόλα αυτά ο αλγόριθµος απλού συνδέσµου είναι αρκετά ευέλικτος σε δύσκολες περιπτώσεις. Για παράδειγµα ο αλγόριθµος απλού-συνδέσµου µπορεί να εξάγει τα οµόκεντρα clusters που φαίνονται στο σχήµα 8 ενώ ο αλγόριθµος πλήρους-συνδέσµου δεν µπορεί. Τελικά κανείς από του δύο αλγορίθµους δεν είναι πανάκεια. ιαφαίνεται όµως ότι ο δεύτερος παράγει καλύτερα και πιο χρήσιµες ιεραρχίες από τον πρώτο σε πολλές εφαρµογές. X X X X X X X X X X X X X X X X X1 X1 Σχήµα: Clustering απλού-συνδέσµου. : Clustering πλήρους-συνδέσµου 29

35 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ 3.5 ΙΑΜΕΡΙΣΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ CLUSTERING Ένας διαµεριστικός αλγόριθµος έχει ως αποτέλεσµα µια διαµέριση του χώρου των δεδοµένων σε αντίθεση µε τους ιεραρχικούς αλγορίθµους που δηµιουργούν πιο πολύπλοκες δοµές που περιγράφονται από τα δενδρογράµµατα. Οι αλγόριθµοι αυτοί υπερτερούν σε περιπτώσεις όπου τα δεδοµένα είναι παρά πολλά και η δηµιουργία δενδροδιαγραµµατων είναι αδύνατη. Το κυρίως πρόβληµα των αλγορίθµων αυτών είναι η απόφαση για τον αριθµό των τελικών clusters. Ο αριθµός αυτός καθορίζεται κυρίως από την προσπάθεια βελτιστοποιησης µιας συνάρτησης. Στην πραγµατικότητα αυτό που γίνεται είναι να τρέχει ο αλγόριθµος για διαφόρους αριθµούς από clusters και να επιλέγεται εκείνη η τελική κατάσταση η οποία βελτιστοποιεί την παραπάνω συνάρτηση. Η κριτήριο που χρησιµοποιείται κυρίως σε διαµεριστικούς αλγορίθµους για την τελική απόφαση του αριθµού των clusters είναι το κριτήριο του τετραγωνικού λάθους ή η συνάρτηση τετραγωνικού λάθους (squared error function). Αυτή η συνάρτηση ορίζεται για ένα αποτέλεσµα clustering L µε σύνολο στοιχείων S και Κ clusters ως εξής: 2 e ( K, L) = K j= 1 n i= 1 x ( j) i c j 2 όπου ( j) x i το i στοιχείο του j cluster, και c jείναι το κεντροειδές του j cluster. Ο αλγόριθµος k-means είναι ένας πολύ απλός και πολύ διαδεδοµένος διαµεριστικός αλγόριθµος που χρησιµοποιεί το κριτήριο του τετραγωνικού λάθους. Ο αλγόριθµος ξεκινά µε µια τυχαία διαµέριση σε clusters και συνεχώς τοποθετεί στοιχεία στα clusters µε βάση την απόσταση των στοιχείων από το κεντροειδές του cluster. Αυτό σταµατάει µέχρι να ικανοποιηθεί κάποιο κριτήριο το οποίο µπορεί να είναι η ελαχιστοποίηση της συνάρτησης τετραγωνικού λάθους ή η µη διαφοροποίηση των clusters από κάποια επανάληψη και µετά. Ο αλγόριθµος αυτός είναι δηµοφιλής εξαιτίας της απλότητας υλοποίησης του και της πολυπλοκότητας του η οποία είναι της τάξης n (Ο(n)), όπου ν είναι ο αριθµός των στοιχείων. Το µόνο πρόβληµα που έχει ο αλγόριθµος είναι στην αρχική επιλογή των clusters. Αν η επιλογή αυτή δεν είναι αρκετά προσεκτική τότε το κριτήριο τετραγωνικού λάθους συγκλίνει σε τοπικά ελάχιστο κάνοντας την τελική επιλογή cluster ανεπιτυχή. Ας θεωρήσουµε το χώρο του σχήµατος µε επτά στοιχεία. Αν η αρχική µας επιλογή είναι τρία clusters µε αρχικά στοιχεία το Α,B,C στο καθένα, το αποτέλεσµα του clustering θα είναι αυτό που φαίνεται στο σχήµα µε τις ελλείψεις. Αντίθετα αν η αρχική επιλογή είναι τα clusters µε σηµεία το Α,D,F τα τελικά clusters φαίνονται µε τα παραλληλόγραµµα. G F X2 A C B E D X1 30

36 3.6 CLUSTERING ΚΟΝΤΙΝΟΤΕΡΟΥ ΓΕΙΤΟΝΑ ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Σε ένα cluster έχουµε παρατηρήσει ότι τα στοιχεία είναι συνήθως κοντά µεταξύ τους. Έτσι οι αποστάσεις στοιχείων από γειτονικά στοιχεία θα µπορούσαν να χρησιµοποιηθούν για να πραγµατοποιήσουµε οµαδοποιήσεις. Μια επαναληπτική µέθοδος τοποθετεί κάθε στοιχείο στο cluster το οποίο ανήκει και ο κοντινότερος γείτονας του, δεδοµένου ότι η απόσταση αυτή είναι κάτω από κάποιο κατώφλι. Η διαδικασία αυτή συνεχίζεται µέχρι να µην υπάρχουν άλλα στοιχεία η να µην δηµιουργούνται άλλα clusters. 3.7 FUZZY CLUSTERING Μέχρι τώρα έχουµε δει ότι όλες οι τεχνικές και οι αλγόριθµοι clustering τοποθετούν ένα στοιχείο σε ένα και µονό cluster, σε αυτό που τελικά ανήκει. Πρόκειται λοιπόν για σκληρούς αλγορίθµους και αυτό συνεπάγεται ότι τα clusters σε αυτές τις περιπτώσεις είναι ξένα µεταξύ τους σύνολα. Το fuzzy clustering επεκτείνει την έννοια του «ένα στοιχειό ανήκει σε ένα cluster» και συνδέει κάθε στοιχείο µε όλα τα clusters χρησιµοποιώντας µια συνάρτηση µέλους. Το αποτέλεσµα είναι κάποια σύνολα από στοιχεία αλλά όχι µια απόλυτη διάµεση του χώρου δεδοµένων. Ένας αλγόριθµος fuzzy clustering κάνει τα εξής σε γενικές γραµµές: 1. Επιλογή µιας fuzzy διαµέρισης των Ν στοιχείων σε Κ clusters. Καθορισµός του πίνακα U=ΝxΚ του οποίου κάθε στοιχείο u ij δηλώνει τον βαθµό συµµετοχής του στοιχείου i στο cluster j. Η τιµές των u είναι µεταξύ 0 και Χρησιµοποιώντας τον πίνακα U βρίσκεται η τιµή κάποιας συνάρτησης που αποτελεί και το κριτήριο τερµατισµού, και η οποία πρέπει να βελτιστοποιηθεί. Συνεχώς επανατοποθετούµε στοιχεία στα clusters µε νέες τιµές συµµετοχής και επαναπροσδιορίζουµε τον πίνακα U και την τιµή της συνάρτησης. 3. Επαναλαµβάνουµε το βήµα 2 µέχρι να µην επέρχονται σηµαντικές αλλαγές στον πίνακα U και την τιµή της συνάρτησης. 3.8 ΕΝΝΟΙΟΛΟΓΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Ένα κύριο χαρακτηριστικό µερικών υψηλής διαστατικότητας δεδοµένων είναι ότι δύο αντικείµενα µπορούν να είναι ιδιαίτερα παρόµοια ακόµα κι αν τα εφαρµοσµένα µέτρα απόστασης ή οµοιότητας δείχνουν ότι είναι ανόµοια ή ίσως µόνο µερικώς παρόµοια. Αντιθέτως, είναι δυνατό οι κοντινότεροι ή πιο όµοιοι γείτονες ενός αντικειµένου να µην είναι τόσο συσχετισµένοι µε το αντικείµενο όσο άλλα αντικείµενα που είναι λιγότερο όµοια. Για την εξέταση αυτού του ζητήµατος έχουµε επεκτείνει τις προηγούµενες προσεγγίσεις που καθορίζουν την απόσταση ή την οµοιότητα των αντικειµένων µέσω του αριθµού κοντινότερων γειτόνων που µοιράζονται. Η προσέγγιση αυτή καθορίζει την οµοιότητα όχι από την άποψη των κοινών ιδιοτήτων, αλλά από την άποψη των εννοιών που µοιράζονται (concept based). 31

37 ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ ΧΩΡΟΙ ΕΝΝΟΙΩΝ (Concept Spaces) Μία έννοια θα είναι ένα σύνολο ιδιοτήτων. Για παράδειγµα, σε ένα έγγραφο µια έννοια θα ήταν ένα σύνολο λέξεων που χαρακτηρίζουν ένα θέµα ή ένα τίτλο όπως «η τέχνη» ή «τα οικονοµικά.»( Η σηµασία των εννοιών είναι ότι, για πολλά σύνολα δεδοµένων, τα αντικείµενα στο σύνολο δεδοµένων µπορούν να εµφανισθούν όπως δηµιουργούνται από ένα ή περισσότερα σύνολα εννοιών µε έναν πιθανολογικό τρόπο.) Κατά συνέπεια, µια προσέγγιση µε βάση τις έννοιες στα έβλεπε κάθε έγγραφο σαν να αποτελείται από λέξεις που προέρχονται από µια ή περισσότερες έννοιες, δηλ., σύνολα λέξεων ή λεξιλογίων, µε την πιθανότητα κάθε λέξης να καθορίζεται από ένα στατιστικό µοντέλο. Αναφερόµαστε στα σύνολα δεδοµένων µε αυτό το είδος δοµής ως χώροι εννοιών, ακόµα κι αν τα δεδοµένα µπορούν να αντιπροσωπευθούν ως σηµεία σε ένα διανυσµατικό χώρο ή µε κάποια άλλη µορφή. Η πρακτική σχετικότητα των χώρων έννοιας είναι ότι τα δεδοµένα που ανήκουν σε αυτά πρέπει να αντιµετωπιστούν διαφορετικά ως προς το πώς η οµοιότητα µεταξύ των σηµείων πρέπει να υπολογιστεί και το πώς τα αντικείµενα πρέπει να συσταδοποιηθούν. Τα µέτρα οµοιότητας µπορούν να «συµπεριφερθούν» απροσδόκητα στους χώρους έννοιας. Οι µεταβλητές είναι µερικές φορές αυτό που ονοµάζεται "µοναδικές" µεταβλητές, δηλαδή είναι λογικό να ειπωθεί πως ένα αντικείµενο έχει αυτό το χαρακτηριστικό γνώρισµα ή δεν έχει αυτό το χαρακτηριστικό γνώρισµα. Για παράδειγµα, ένα έγγραφο µπορεί ή δεν µπορεί να περιλαµβάνει µία σίγουρη λέξη, ή ένας πελάτης µπορεί ή δεν µπορεί να αγοράσει ένα συγκεκριµένο αντικείµενο. Εκτιµήσεις, απόλυτα χαρακτηριστικά, ή δυαδικά χαρακτηριστικά µπορούν εύκολα να µεταφραστούν µέσω των απόλυτων χαρακτηριστικών γνωρισµάτων, αλλά η κατάσταση γίνεται περισσότερο πολύπλοκη µε τα περισσότερα συνεχή χαρακτηριστικά γνωρίσµατα. Θεωρήστε έναν χώρο εννοιών όπου όλα τα αντικείµενα διαιρούνται σε δύο οµάδες, Α και Β. Αντικείµενα από την οµάδα Α είναι δηµιουργηµένα από την συλλογή τριών χαρακτηριστικών γνωρισµάτων (µε ίση πιθανότητα) από ένα σύνολο εννοιών{1,2,3,4,5 και τα αντικείµενα από την οµάδα Β είναι δηµιουργηµένα από την συλλογή τριών χαρακτηριστικών γνωρισµάτων από το σύνολο εννοιών {4,5,6,7,8. Υποθέστε πως έχουµε δηµιουργήσει τα ακόλουθα τρία αντικείµενα x={1,2,3,4, y={3,4,5 και z={4,5,6. (Μπορούµε επίσης να αναπαραστήσουµε αυτά τα στοιχεία ως δυαδικά διανύσµατα,π.χ, x=( ). Προφανώς, τα στοιχεία x και y ανήκουν στην οµάδα Α, ενώ το στοιχείο z ανήκει στην οµάδα Β. Ωστόσο, σχεδόν ξεκάθαρα, τα περισσότερα κριτήρια οµοιότητας, λ.χ, το κριτήριο Jaccard, θα εκτιµούσε πως τα στοιχεία y και z είναι περισσότερο όµοια, καθώς µοιράζονται δύο από τα τρία χαρακτηριστικά τους γνωρίσµατα, ενώ το x και το y µοιράζονται µόνο ένα χαρακτηριστικό γνώρισµα. 32

38 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ 4 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ 4.1 ΓΡΑΦΟ-ΘΕΩΡΗΤΙΚΕΣ ΜΕΘΟ ΟΙ ΣΥΣΤΑ ΟΠΟΙΗΣΗΣ Οι έννοιες και οι ιδιότητες της θεωρίας των γράφων καθιστούν πολύ κατάλληλη την περιγραφή των προβληµάτων συσταδοποίησης µε τη βοήθεια των γράφων (graph based clustering). Οι κόµβοι V ενός ζυγισµένου γράφου G αντιστοιχούν στα σηµεία δεδοµένων στο χώρο προτύπων και οι ακµές Ε απεικονίζουν τις εγγύτητες µεταξύ κάθε ζευγαριού των σηµείων δεδοµένων. Εάν ο χώρος ανοµοιότητας ορίζεται ως όπου το d είναι ένα κατώφλι, πάνω από το οποίο συνδέονται δύο κόµβοι τότε ο γράφος απλοποιείται σε έναν µη ζυγισµένο γράφο. Και οι δύο τεχνικές ιεραρχικής συσταδοποίησης (Hierarchical clustering) του απλού συνδέσµου (single links) και του πλήρους συνδέσµου (complete links) µπορούν να περιγραφούν µε βάση το γράφο αυτό. Η συσταδοποίηση απλού συνδέσµου είναι ισοδύναµη µε την αναζήτηση των µέγιστα συνδεδεµένων υπογράφων (connected components) ενώ η συσταδοποίηση πλήρους συνδέσµου είναι ισοδύναµη µε την εύρεση των µέγιστων πλήρως συνδεδεµένων υπογράφων (cliques). Οι Jain και Dubes επεξήγησαν και συζήτησαν περισσότερες εφαρµογές της θεωρίας των γράφων (π.χ., αλγόριθµος του Hubert και αλγόριθµος Johnson) για την ιεραρχική συσταδοποίηση. Ο Chameleon είναι ένας πρόσφατος συσσωρευτικός αλγόριθµος ιεραρχικής συσταδοποίησης βασισµένος στο γράφο Κ-κοντινότερων-γειτόνων, στην οποία µια ακµή-σύνδεσµος µεταξύ δύο κορυφών-σηµειων διαγράφεται εάν η κάθε µία κορυφή δεν είναι µέσα στα K-κοντινότερα σηµεία της άλλης. Στο πρώτο βήµα, ο Chameleon διαιρεί το γράφο συνδετικότητας σε σύνολο υποοµάδων µε την ελάχιστη περικοπή ακρών. Κάθε υπογράφος πρέπει να περιέχει αρκετούς κόµβους για τον αποτελεσµατικό υπολογισµό οµοιότητας. Ο συνδυασµός της σχετικής αλληλοσυνδετικότητας και της σχετικής κοντινότητας µεταξύ δύο σηµείων, που καθιστά τον Chameleon αρκετά κατάλληλο να ερευνήσει τα χαρακτηριστικά των πιθανών συστάδων. Ο Chameleon συγχωνεύει αυτά τα µικρά υποσύνολα υπογράφων και, βρίσκει τις συγκεντρώσεις συστάδων. Εδώ, η σχετική αλληλοσυνδετικότητα (ή κοντινότητα) λαµβάνεται µε την κανονικοποίηση του αθροίσµατος των βαρών (ή του µέσου βάρους) των ακµών που συνδέουν τις δύο συστάδες πέρα από την εσωτερική συνδετικότητα (ή τη κοντινότητα) των συστάδων. Ο Delaunay τριγωνικός γράφος - DTG- είναι µια άλλη σηµαντική αντιπροσώπευση γράφων για την ανάλυση ιεραρχικής συσταδοποίησης HC. Ο Cherng και ο Lo κατασκεύασαν έναν υπεργράφο (κάθε ακµή επιτρέπεται να συνδέει/να έχει, περισσότερες 33

39 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ από δύο άκρες) από το DTG και χρησιµοποίησαν έναν αλγόριθµο δυο φάσεων που είναι παρόµοιος µε τον Chameleon για να βρεί τις συστάδες. Μια άλλη dtg-βασισµένη εφαρµογή, γνωστός ως AMOEBA αλγόριθµος. Η θεωρία γράφων µπορεί επίσης να χρησιµοποιηθεί για µη ιεραρχικές συστάδες. Ο αλγόριθµος συγκέντρωσης του Zahn αναζητάει τα συνδεδεµένα συστατικά ως συστάδες µε την ανίχνευση και την απόρριψη των ασυµβίβαστων ακρών ενός ένδρου ελαχίστων συζεύξεων (minimum spanning tree) στο ελάχιστο spanning tree. Ο Hartuv και ο Shamir µεταχειρίστηκαν τις συστάδες ως ιδιαίτερα υψηλά συνδεδεµένα υπογράφους (HCS), όπου «ιδιαίτερα υψηλά συνδεµένος» σηµαίνει η συνδετικότητα (ο ελάχιστος αριθµός ακρών που απαιτούνται για να αποσυνδέσουν έναν γράφο) ενός υπογράφου είναι τουλάχιστον µισή όσο του αριθµού των ακρών. Αλγόριθµος CLICK Ένας άλλος αλγόριθµος, αποκαλούµενος CLICK, είναι βασισµένος στον υπολογισµό του ελάχιστου βάρους που λαµβάνεται υπόψιν για να διαµορφώσει τις συστάδες. Εδώ, ο γράφος είναι ζυγισµένος και στα βάρη ακµών ορίζεται µια νέα ερµηνεία, µε το συνδυασµό της πιθανότητας και της θεωρίας των γράφων. Το βάρος ακµής µεταξύ του κόµβου ι και j καθορίζεται όπως φαίνεται παρακάτω Όπου αντιπροσωπεύει την οµοιότητα µεταξύ των δύο κόµβων. Ο CLICK περαιτέρω υποθέτει ότι οι τιµές οµοιότητας µέσα στις συστάδες και µεταξύ των συστάδων ακολουθούν γκαουσσιανές κατανοµές µε τα διαφορετικούς µέσους (mean) και διακυµάνσεις αντίστοιχα. Εποµένως, η προηγούµενη εξίσωση µπορεί να ξαναγραφεί µε τη χρήση του θεωρήµατος Bayes όπως Όπου είναι η προγενέστερη πιθανότητα ότι δύο αντικείµενα ανήκουν στην ίδια συστάδα και είναι τα µέσα και οι διακυµάνσεις για τις οµοιότητες µεταξύ συστάδων και τις οµοιότητες ανάµεσα στις συστάδες αντίστοιχα. Αυτές οι παράµετροι µπορούν να υπολογιστούν είτε από την προγενέστερη γνώση, είτε µε τη χρήση των µεθόδων παραµετρικής εκτίµησης. Ο CLICK κατ' επανάληψη ελέγχει τον τρέχον υπογράφο, και παράγει έναν κατάλογο πυρήνων, ο οποίος αποτελείται από τα συστατικά που ικανοποιούν κάποια κρητήρια. Οι υπογράφοι που περιλαµβάνουν µόνο έναν κόµβο θεωρούνται ως µονήρεις, και διαχωρίζονται για περεετέρω παρακολούθηση 34

40 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Χρησιµοποιώντας τους πυρήνες ως βασικές συστάδες, ο CLICK πραγµατοποιεί µια σειρά υιοθετήσεων µονήρων συστάδων και συγχώνευσης συστάδων για να παραγάγει τις τελικές συστάδες. Πρόσθετα ευρετικά (heuristics) παρέχονται για να επιταχύνουν την απόδοση αλγορίθµου. Οµοίως, ο CAST εξετάζει ένα πιθανολογικό µοντέλο στο σχεδιασµό ενός βασισµένου στη θεωρία-γράφου αλγόριθµου συγκέντρωσης. Οι συστάδες διαµορφώνονται ως κλίκες γράφων, οι οποίοι, στις ιδανικές συνθήκες, θεωρούνται σαν ένα σύνολο από χωρισµένες κλίκες. Η επίδραση του θορύβου ενσωµατώνεται από την προσθήκη ή την αφαίρεση ακµών από το ιδανικό µοντέλο, µε πιθανότητα α. Αλγόριθµος CAST Υπάρχουν αποδείξεις για την ανάκτηση του αδιάφθορου γράφου µε µια υψηλή πιθανότητα. Ο CAST είναι η ευρετική εφαρµογή της αρχικής θεωρητικής έκδοσης. Ο CAST δηµιουργεί συστάδες διαδοχικά, και κάθε συστάδα αρχίζει µε έναν τυχαία επιλεγµένο σηµείο δεδοµένων. Η σχέση µεταξύ ενός σηµείου δεδοµένων i και µιας συστάδας Co συστάδων που δηµιουργείται καθορίζεται από τν οµοιότητα, που ορίζεται ως και το κατώφλι παράµετρου συγγένειας t. Όταν σηµαίνει ότι το σηµείο δεδοµένων συσχετίζεται ιδιαίτερα µε τη συστάδα και αντίστροφα. Ο CAST διαδοχικά προσθέτει τα υψηλά σχετιζόµενα ή διαγράφει τα χαµηλά σχετιζόµενα σηµεία δεδοµένων οµοιότητας από τη συστάδα έωςότου δεν εµφανίζονται άλλες αλλαγές. Αλγόριθµος ROCK (χρησιµοποιώντας συνδέσεις) Ο ROCK είναι ένας αλγόριθµος συσταδοποίησης για δεδοµένα µε κατηγορικά γνωρίσµατα. Ένα ζέυγος σηµείων ορίζεται να είναι γείτονες εάν η οµοιότητά τους είναι µεγαλύτερη από κάποιο κατώτατο όριο. Χρησιµοποιεί ένα ιεραρχικό σχήµα συσταδοποίησης για να οµαδοποιηθούν τα δεδοµένα. Λαµβάνει ένα δείγµα των σηµείων από το σύνολο δεδοµένων Υπολογίζει την τιµή συνδέσεων για κάθε σύνολο σηµείων, δηλ., µετασχηµατίζει τις αρχικές οµοιότητες (που υπολογίζονται από το συντελεστή Jaccard) σε οµοιότητες που απεικονίζουν τον αριθµό των κοινών γειτόνων µεταξύ των σηµείων Εκτελεί µία συσσωρευτική ιεραρχική συσταδοποίηση στα δεδοµένα χρησιµοποιώντας τον «αριθµό κοινών γειτόνων» ως µέτρο οµοιότητας και µεγιστοποιώντας την αντικειµενική συνάρτηση «των κοινών γειτόνων» Αναθέτει τα υπόλοιπα σηµεία στις συστάδες που έχουν βρεθεί 35

41 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Βήµατα Συσταδοποίησης µε γράφο εγκύτητας: Βρείτε το πίνακα εγγύτητας (proximity matrix). Θεωρήστε κάθε σηµείο ως κόµβο σε έναν γράφο. Κάθε ακµή µεταξύ δύο κόµβων έχει ένα βάρος που είναι η εγγύτητα µεταξύ των δύο σηµείων. Αρχικά ο γράφος εγγύτητας συνδέεται πλήρως. Οι αλγόριθµοι απλού συνδέσµου (single link, MIN ) και πλήρους συνδέσµου (Complete link, MAX ) ξεκινάνε επίσης µε ένα τέτοιο γράφο. Στην απλούστερη περίπτωση, οι συστάδες είναι συνδεδεµένα συστατικά (connected components) στο γράφο. Αλγόριθµος CHAMELEON Ο CHAMELEON είναι ένας συσσωρευτικός ιεραρχικός αλγόριθµος που µετρά την οµοιότητα δύο συστάδων που βασίζονται σε ένα δυναµικό µοντέλο, ο CHAMELEON βρίσκει τις συστάδες του συνόλου δεδοµένων χρησιµοποιώντας έναν αλγόριθµο δύο φάσεων. Κατά τη διάρκεια της πρώτης φάσης ο CHAMELEON χρησιµοποιεί έναν αλγόριθµο συσταδοποίησης βασισµένο σε γράφους για να τµηµατοποιήσει τα δεδοµένα σε έναν µεγάλο αριθµό σχετικά µικρών υποσυστάδων. Κατά τη διάρκεια της δεύτερης φάσης χρησιµοποιεί έναν συσσωρευτικό ιεραρχικό αλγόριθµο για να βρει τις συστάδες από επαναληπτικούς συνδυασµούς των υποσυστάδων που προέκυψαν από την πρώτη φάση. Η οµοιότητα µεταξύ των συστάδων καθορίζεται µε τον έλεγχο της σχετικής ενδοσυνδετικότητας και της σχετικής εγγύτητας αυτών. Η αναπαράσταση των δεδοµένων βασίζεται στη συνήθως χρησιµοποιηµένη προσέγγιση του κ-πλησιέστερου γράφου γειτνίασης. Οι κορυφές του κ- πλησιέστερου γράφου γειτνίασης αντιπροσωπεύουν τα αντικείµενα του συνόλου δεδοµένων και υπάρχει µια ακµή µεταξύ δύο κόµβων ν1 ν2 εάν το αντικείµενο που αντιστοιχεί στον ν είναι µεταξύ των κοντινότερων γειτόνων του ν1. Κατόπιν ο αλγόριθµος βρίσκει τις αρχικές υποσυστάδες χρησιµοποιώντας έναν αλγόριθµο τµηµατοποίησης γράφου ώστε να κατατµηθεί ο κ-πλησιέστερος γράφος γειτνίασης του συνόλου δεδοµένων σε έναν µεγάλο αριθµό τµηµάτων. Κατά τη διάρκεια της επόµενης φάσης ο CHAMELEON χρησιµοποιεί έναν συσσωρευτικό αλγόριθµο συσταδοποίησης ο οποίος συνδυάζει µαζί αυτές τις υποσυστάδες του γράφου. Για τη συγχώνευση των υποσυστάδων λαµβάνει υπόψη τη σχετική ενδο-συνδετικότητά και την εγγύτητα των υποσυστάδων. Κατά συνέπεια εκείνα τα ζευγάρια των συστάδων των οποίων η σχετική ενδο-συνδετικότητα και εγγύτητα είναι πάνω από το όριο που ορίζεται από τους χρήστες συγχωνεύονται. Αλγόριθµος C^2P Ένας πρόσφατος αλγόριθµος συσταδοποίησης που συνδυάζει τα χαρακτηριστικά των ιεραρχικών αλγορίθµων και της θεωρίας γράφων είναι ο C^2P. Ο C^2P εκµεταλλεύεται τις δοµές ευρετηρίων και την επεξεργασία των ερωτήσεων του πιο κοντινού ζευγαριού (CPQ) στις χωρικές βάσεις δεδοµένων. Ο C^2P οργανώνει το αποτέλεσµα του CPQ σε µια χωρική µέθοδο προσπέλασης σε µια δοµή γράφου. Κατόπιν η συσταδοποίηση εκτελείται µε τον προσδιορισµό των συστάδων ως συστατικό του γράφου. Ο C^2P αποτελείται από δύο βασικές φάσεις: 36

42 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Φάση 1: Παράγει διάφορες υποσυστάδες που είναι µια αποτελεσµατική αντιτροσώπευση των τελικών συστάδων. Είναι µια επαναληπτική διαδικασία κατά την οποία διάφορες συστάδες συγχωνεύονται. Η διαδικασία self Semi - CPQ βρίσκει τα ζευγάρια των σηµείων (ρ. ρ ) που ανήκουν σε ένα σύνολο δεδοµένων 8 έτσι ώστε dist(ρ. ρ ) = min{ dist(ρ. x). Ο αλγόριθµος χρησιµοποιεί µια γραφική αναπαράσταση που οργανώνει τις πληροφορίες εγγύτητας που υπολογίζονται από τον CPQ και ορίζει τις συστάδες ως συστατικά του γράφου. Χρησιµοποιεί τα κέντρα των συστάδων για την αναπαράστασή τους. Ο αλγόριθµος χρησιµοποιεί τον Depth - First - Search αλγόριθµο στο γράφο για να βρει τα συνδεµένα στοιχεία του γράφου ο οποίος περιλαµβάνει επίσης τις υποσυστάδες του συνόλου δεδοµένων. Κατά συνέπεια σηµεία που ανήκουν στο ίδιο συνδεµένο στοιχείο µπορεί να θεωρηθούν ως µια υποσυστάδα. Σε περίπτωση που ο αριθµός των καθορισµένων υποσυστάδων, έστω c, είναι ίσος µε τον απαιτούµενο αριθµό υποσυστάδων η φάση 1 ολοκληρώνεται. ιαφορετικά βρίσκει το κέντρο κάθε υποσυστάδας για να το αντιπροσωπεύσει. Κατόπιν η ίδια διαδικασία όπως περιγράφηκε πιο πάνω εφαρµόζεται επαναληπτικά στο σύνολο των c κέντρων µέχρι που να οριστεί ο απαιτούµενο s αριθµός υποσυστάδων, Φάση 2: Είναι µια εξειδικευµένη περίπτωση της πρώτης φάσης που χρησιµοποιεί µια διαφορετική αναπαράσταση συστάδας ώστε να παραχθεί το λεπτοµερές τελικό σχήµα συσταδοποίησης. Επιπλέον συγχωνεύει δύο συστάδες σε κάθε βήµα ώστε να ελεγχθεί η διαδικασία συσταδοποίησης. Σε κάθε βήµα όταν συγχωνεύονται δύο συστάδες. Τα σηµεία τ µεταξύ όλων των σηµείων των συγχωνευµένων συστάδων που είναι πιο κοντά στο κέντρο επιλέγονται ως αντιπρόσωποι της νέας συστάδας. Χρησιµοποιώντας περισσότερα σηµεία ως αντιπροσώπους αντί του κέντρου ο C^2P µπορεί αποτελεσµατικά να συλλάβει τη µορφή και το µέγεθος των συστάδων. Κατόπιν η εύρεση του πιο κοντινού ζευγαριού συστάδων γίνεται µε τον self - CPQ. Πιο συγκεκριµένα η φάση 2 έχει ως είσοδο τα κέντρα των υποσυστάδων που καθορίζονται στη Φάση 1. Σε κάθε επανάληψη της φάσης 2, ο self - CPQ βρίσκει το πια κοντινό ζευγάρι των συστάδων βρίσκοντας το πιο κοντινό ζευγάρι µεταξύ των αντιπροσωπευτικών τους σηµείων. Κατόπιν αυτές οι δύο συστάδες συγχωνεύονται και τα σηµεία r για την αντιπροσώπευση των νέων συστάδων επιλέγονται. Η διαδικασία ολοκληρώνεται όταν επιτυγχάνεται ο απαιτούµενος αριθµός συστάδων. Σύγκριση CHAMELEON µε C^2P Ο CHAMELEON βρίσκει τις συστάδες του συνόλου δεδοµένων χρησιµοποιώντας ένα αλγόριθµο δύο φάσεων. Κατά τη διάρκεια της πρώτης φάσης, ο CHAMELEON χρησιµοποιεί έναν αλγόριθµο συσταδοποίησης βασισµένο σε γράφους για να τµηµατοποιήσει τα δεδοµένα σε έναν µεγάλο αριθµό σχετικά µικρών υποσυστάδων. Ο αλγόριθµος της πρώτης φάσης προσπαθεί να ελαχιστοποιήσει το βάρος κάθε οµάδας. Κατά τη διάρκεια της δεύτερης φάσης, χρησιµοποιεί έναν συσσωρευτικό ιεραρχικό αλγόριθµο για να βρει τις συστάδες από επαναληπτικούς συνδυασµούς των υποσυστάδων που προέκυψαν από την πρώτη φάση. Η οµοιότητα µεταξύ των συστάδων καθορίζεται µε τον έλεγχο της σχετικής ενδοσυνδετικότητας (inter-connectivity) και της σχετικής εγγύτητας (closeness) αυτών. Η αναπαράσταση των δεδοµένων βασίζεται στη προσέγγιση του k-πλησιέστερου γράφου γειτνίασης (k-nearest neighbor graph). 37

43 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Ο C2Ρ εκµεταλλεύεται τις δοµές ευρετηρίων και την επεξεργασία των ερωτήσεων του πιο κοντινού ζευγαριού (Closest Pair Queries CPQ) στις χωρικές βάσεις δεδοµένων. Ο C2Ρ οργανώνει το αποτέλεσµα του CPQ πάνω µια χωρική µέθοδο προσπέλασης (R- Tree) σε µια δοµή γράφου. Η δοµή γράφου αναπαριστά τα Closest Pairs. Κατόπιν η συσταδοποίηση εκτελείται µε τον προσδιορισµό των συστάδων ως συστατικά του γράφου. Ο CHAMELEON δουλεύει αποτελεσµατικά για την εύρεση συστάδων µε περίεργα σχήµατα έχει όµως σηµαντικές απαιτήσεις από άποψη πολυπλοκότητας, καθώς η πολυπλοκότητα του είναι Ο(n2). ο C2P συνδυάζει αποδοτικά τα πλεονεκτήµατα των ιεραρχικών και βασισµένων στην θεωρία των γράφων αλγορίθµων επιτυγχάνοντας τόσο καλή ποιότητα συσταδοποίησης όσο και καλή προσαρµογή στην διαχείριση µεγάλου όγκου δεδοµένων. 4.2 Αραιοποίηση Sparsification Μέτρο sparsification. Η ποσότητα δεδοµένων που πρέπει να υποβληθεί σε επεξεργασία είναι δραστικά µειωµένη. Το Sparsification µπορεί να απαλήψει περισσότερο από 99% των καταχωρήσεων σε ένα γράφο εγγύτητας Το χρονικό διάστηµα που απαιτείται για να οµαδοποιηθούν τα δεδοµένα µειώνεται δραστικά αυξάνοντας έτσι το µέγεθος των προβληµάτων που µπορούν να αντιµετωπιστούν µε αυτό τον τρόπο. Οι τεχνικές Sparsification τηρούν τις συνδέσεις µε τους πιο όµοιους (κοντινότερους) γείτονες ενός σηµείου σπάζοντας τις συνδέσεις στα λιγότερα όµοια σηµεία. Οι κοντινότεροι γείτονες ενός σηµείου τείνουν να ανήκουν στην ίδια κλάση µε αυτή που ανήκει το ίδιο το σηµείο. Αυτό µειώνει τον αντίκτυπο του θορύβου και των ακραίων σηµείων και βελτιώνει τη διάκριση µεταξύ δύο συστάδων. Το Sparsification διευκολύνει τη χρήση γραφοθεωρητίκων- αλγορίθµων. 38

44 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ 4.3 GRAPH-JARVIS-PATRIC Μία προσέγγιση οµοιότητας βασισµένη σε γράφο κοινών κοντινών γειτόνων όπως προτάθηκε από τους Jarvis-Patrick και µετέπειτα στον αλγόριθµο ROCK, είναι µία προτεινόµενη µέθοδος λύσης και για το παραπάνω πρόβληµα, καθώς επίσης και για την συσταδοποίηση µη-αριθµητικών δεδοµένων κατηγοριών. Η οµοιότητα δύο σηµείων καθορίζεται όχι σύµφωνα µε κάποια απόσταση αλλά µε τον αριθµό των κοντινών γειτόνων που µοιράζονται. Ο αλγόριθµος Jarvis- Patrick µοιάζει έπειτα ως προς τα αποτελέσµατα µε την τεχνική της ιεραρχικής συσωρευτικής συσταδοποίησης απλού συνδέσµου και ο ROCK µε αυτή του µέσου συνδέσµου. i j i 4 j Ο αλγόριθµος Jarvis-Patrick είναι ο πρώτος µη ιεραρχικός αλγόριθµος που εισήγαγε τον γράφο κοινών κοντινών γειτόνων. Οµοίως ο αλγόριθµος ROCK µετασχηµατίζει τις αρχικές οµοιότητες µεταξύ δύο αντικειµένων, που υπολογίζονται (π.χ. µε συντελεστές Jaccard), σε οµοιότητες που αντανακλούν τον αριθµό των κοινών γειτόνων τους. Οι αλγόριθµοι που ακολούθησαν όπως οι Chameleon, DTG (Delaunay triangulation graph), Min-cut, HCS (highly connected subgraphs), CLICK (clustering identification via connectivity kernels), CAST (cluster affinity search technique), AMOEBA, SNN, C2P αποδεικνύουν την δηµοφιλία της χρήσης των γράφων γειτνίασης k-πλησιέστερων κορυφών και των γράφων κοινών κοντινών γειτόνων σε παρόµοιες εφαρµογές. Οι δύο τελευταίοι αλγόριθµοι SNN και C2P που είναι και πρόσφατοι εµπεριέχουν στα βήµατά τους τον αρχικό αλγόριθµο Jarvis-Patrick, και έπειτα συνεχίζουν ο πρώτος µε τον DBSCAN και ο δεύτερος µε τον MST. ΑΛΓΟΡΙΘΜΟΣ JARVIS & PATRICK Απαραίτητες παράµετροι εισόδου: J = το µέγεθος της λίστας γειτόνων, Κ = αριθµός κοινών γειτόνων που χρειάζονται για την οπαδοποίηση. 1. Υπολογίζονται οι Κ κοντινότεροι γείτονες κάθε δείγµατος στο σύνολο δεδοµένων 2. Στο στάδιο της συσταδοποίησης, δύο δείγµατα ι και j οµαδοποιούνται στην ίδια συστάδα εάν : Το i είναι ένας από τους Κ πλησίον-γείτονες του j, το j είναι ένας από τους Κ πλησίον-γείτονες του i, το i και το j έχουν τουλάχιστον Μ κοινούς γείτονες από τους Κ κοντινότερους γείτονες τους, όπου το Κ και Μ είναι παράµετροι καθορισµένοι από το χρήστη. 39

45 ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Ολοκληρώνεται σε ένα βήµα, από τη στιγµή που η συσταδοποίηση είναι µεταβατική. (δηλ. εάν το Α - Β ικανοποιεί τα κριτήρια και το Β - C ικανοποιεί τα κριτήρια, τότε το A-B-C τίθεται σε µια συστάδα, ακόµα κι αν το A-C ΕΝ ικανοποιεί τα κριτήρια) Jarvis-Patrick Example Parameters: J = 3, K = 2 Πρόσθετη παράµετρος Κ (ο αριθµός κοινών κοντινότερων γειτόνων για να διαµορφώνει «σφιχτές συστάδες») Πλεονεκτήµατα: µπορεί να χειριστεί µεγάλα σύνολα δεδοµένων Μειονεκτήµατα: Πρέπει να επιλεγούν οι κατάλληλες τιµές παραµέτρων. 40

46 4.3.1 Όταν ο jarvis- Patrick δουλεύει εύλογα καλά ΒΑΣΙΣΜΕΝΗ ΣΕ ΓΡΑΦΟΥΣ ΣΥΣΤΑ ΟΠΟΙΗΣΗ Jarvis Πάτρικ Συσταδοποίηση. Αρχικά σηµεία 6 κοινοί γείτονες από τα Όταν ο jarvis- Patrick δεν δουλεύει καλά Μικρότερο κατώτατο όριο, Τ, το οποίο δεν συγχωνεύει τις συστάδες. Κατώτατο όριο του Τ 1 41

Δείτε περισσότερα