Μελέτη και υλοποίηση αλγορίθμου συν-ομαδοποίησης λέξεων-αρχείων κειμένου

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Μελέτη και υλοποίηση αλγορίθμου συν-ομαδοποίησης λέξεων-αρχείων κειμένου Διπλωματική Εργασία του Παπαδόπουλου Σάββα (ΑΕΜ: 783) Επιβλέπουσα Καθηγήτρια: ΒΑΚΑΛΗ ΑΘΗΝΑ ΘΕΣΣΑΛΟΝΙΚΗ ΙΑΝΟΥΑΡΙΟΣ 2007

2 ΠΡΟΛΟΓΟΣ ΠΡΟΛΟΓΟΣ Οι υπολογιστές αποτελούν αναπόσπαστο κομμάτι της σύγχρονης ζωής. Το ποσό πληροφορίας (οποιουδήποτε τύπου και να είναι αυτή) που υπάρχει σε ηλεκτρονική μορφή, και διακινείται είτε μέσω διαδικτύου είτε απευθείας μεταξύ προσωπικών ηλεκτρονικών υπολογιστών είναι τεράστιο. Τα τελευταία χρόνια έχουν αναπτυχθεί μέθοδοι για την οργάνωση και ανάλυση αυτής της πληροφορίας καθώς και για την εξαγωγή νέας, άγνωστης πληροφορίας από την ήδη γνωστή. Μία από αυτές τις μεθόδους είναι το Text Mining. Ένα από τα σημαντικότερα βήματα του Text Mining είναι η ομαδοποίηση. Οργανώνει την εξηγμένη πληροφορία σε ομάδες, βοηθώντας καθοριστικά στην ανάλυση της και στην εξαγωγή συμπερασμάτων από αυτή. Αντικείμενο της πτυχιακής εργασίας είναι η μελέτη και υλοποίηση ενός αλγορίθμου συν-ομαδοποίησης λέξεων-αρχείων κειμένου. Πρόκειται για ένα αλγόριθμο που πραγματοποιεί ταυτόχρονη ομαδοποίηση αρχείων κειμένων και των λέξεων που περιέχονται σε αυτά. Συγκεκριμένα, ο αλγόριθμος υλοποιείται προγραμματιστικά και έπειτα δοκιμάζεται μέσω πραγματοποίησης πειραμάτων πάνω σε ένα σύνολο δεδομένων. Τα δεδομένα αυτά, που αποτελούνται από αρχεία κειμένου, υφίστανται κατάλληλη επεξεργασία ώστε να πληρούν τα κριτήρια που θέτει ο αλγόριθμος και έπειτα οργανώνονται στη μορφή ενός πίνακα λέξεων-εγγράφων. Ο πίνακας αυτός έπειτα, μέσω του αλγορίθμου συνομαδοποίησης παράγει τους επιθυμητούς clusters. Επιπλέον πραγματοποιείται και αξιολόγηση του αλγορίθμου μέσω της υλοποίησης μετρικών που ερευνούν την εγκυρότητα των αποτελεσμάτων του. Θα ήθελα να ευχαριστήσω την επιβλέπουσα καθηγήτρια κα. Αθηνά Βακάλη για την πολύτιμη συμβολή της στην διεκπεραίωση αυτής της διπλωματικής καθώς και την υποψήφια διδάκτωρ κα. Βασιλική Κουτσονικόλα για την πολύτιμη βοήθεια και συνεργασία της καθ όλη τη διάρκεια υλοποίησης της διπλωματικής εργασίας. 2

3 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Εισαγωγή στο Text mining Μέθοδοι του Text Mining Βήματα του Text Mining Εφαρμογές Text Mining Ιατρική Γενικές εφαρμογές Εφαρμογές στις επιχειρήσεις...17 Κεφάλαιο 2 Ομαδοποίηση δεδομένων Εισαγωγή στην ομαδοποίηση Οι στόχοι Προβλήματα Πιθανές εφαρμογές Κατηγοριοποίηση μεθόδων Ομαδοποίησης Αλγόριθμοι Ομαδοποίησης Partitional algorithms Ιεραρχικοί αλγόριθμοι (Hierarchical Algorithms) Αλγόριθμοι βασισμένοι-στην-πυκνότητα (Density-based algorithms) Αλγόριθμοι βασισμένοι-στo-πλέγμα (Grid-based Algorithms) Ασαφής ομαδοποίηση (Fuzzy Clustering) Σύγκριση των αλγορίθμων ομαδοποίησης Εγκυρότητα Ομαδοποίησης Αξιολόγηση της ομαδοποίησης Τεχνικές αξιολόγησης της ομαδοποίησης Μετρικές ομαδοποίησης Εσωτερικές Μετρικές Εξωτερικές Μετρικές...43 Κεφάλαιο 3 Συν-ομαδοποίηση λέξεων- εγγράφων Ορισμός προβλήματος Εισαγωγή Θεωρητικό υπόβαθρο του αλγορίθμου Συν-ομαδοποίηση Φασματικός Διαμερισμός του δίγραφου με ανάλυση ιδιαζουσών τιμών (SVD) Ο αλγόριθμος διαμερισμού σε 2 μέρη Ο αλγόριθμος διαμερισμού σε πολλά μέρη...52 Κεφάλαιο 4 Υλοποίηση co-clustering Δεδομένα Υλοποίηση Parser Εγγράφων Συν-ομαδοποιητής εγγράφων-λέξεων...58 Κεφάλαιο 5 Πειραματικά αποτελέσματα...61 Κεφάλαιο 6 Συμπεράσματα Μελλοντικές εξελίξεις...82 Κεφάλαιο 7 Βιβλιογραφία...83 ΠΑΡΑΡΤΗΜΑ...86 Α.Τεκμηρίωση εφαρμογής C Α.1 Βασικές δομές του προγράμματος...86 Α.2 Εκτέλεση του προγράμματος

4 ΠΕΡΙΕΧΟΜΕΝΑ Β. Κώδικας εφαρμογής C Γ. Τεκμηρίωση εφαρμογής Matlab Γ.1 Purity Γ.2 Entropy Γ.3 F-Measure Γ.4 Dunn s Index Δ. Κώδικας εφαρμογής Matlab

5 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) 1.1 Εισαγωγή στο Text mining Η εποχή της πληροφόρησης έχει καταστήσει εύκολη την αποθήκευση μεγάλων ποσών δεδομένων. Ο πολλαπλασιασμός των διαθέσιμων εγγράφων στο Web, στα εταιρικά intranets, στα δίκτυα ειδήσεων, και αλλού είναι συντριπτικός. Εντούτοις, ενώ το ποσό δεδομένων διαθέσιμο σε μας αυξάνεται συνεχώς, η δυνατότητά μας να απορροφήσουμε και να επεξεργαστούμε αυτές τις πληροφορίες παραμένει σταθερή. Οι μηχανές αναζήτησης επιδεινώνουν μόνο το πρόβλημα, με το να καθιστούν όλο και περισσότερα έγγραφα εύκολα και γρήγορα διαθέσιμα. Το Text Mining (μερικές φορές εναλλακτικά αποκαλούμενο και ως Text Data Mining) είναι ένας νέος και συναρπαστικός ερευνητικός τομέας, που προσπαθεί να λύσει το πρόβλημα υπερφόρτωσης πληροφοριών με τη χρησιμοποίηση τεχνικών από την ανάκτηση δεδομένων, την εκμάθηση μηχανών, την εξαγωγή πληροφοριών, την κατηγοριοποίηση κειμένων, την απεικόνιση και τη διαχείριση γνώσης. Κάποιοι ενδεικτικοί ορισμοί του Text Mining είναι οι παρακάτω: Text Mining είναι η διαδικασία δημιουργίας δικτύων διασυνδεμένων αντικειμένων μέσω διάφορων σχέσεων προκειμένου να ανακαλυφθούν πατέντες και τάσεις. Text Mining είναι η εξερεύνηση και ανάλυση των δεδομένων κειμένου (φυσικής γλώσσας) με αυτόματα και ημιαυτόματα μέσα προς ανακάλυψη νέας γνώσης. "Text Mining είναι η μη τετριμμένη εξαγωγή των υπονοούμενων, προηγουμένως άγνωστων, και ενδεχομένως χρήσιμων πληροφοριών από (μεγάλο ποσό) δεδομένων κειμένου". Τί ορίζεται ως προηγουμένως άγνωστη πληροφορία; Ένας αυστηρός ορισμός της θα ήταν πληροφορίες που ακόμη και ο συγγραφέας δε γνωρίζει, π.χ. η ανακάλυψη μιας νέας μεθόδου για αύξηση της τριχοφυΐας που περιγράφεται ως παρενέργεια για μια διαφορετική διαδικασία. Αν θελήσουμε να ορίσουμε την προηγουμένως άγνωστη πληροφορία με ένα πιο χαλαρό τρόπο, θα μπορούσαμε να την περιγράψουμε ως την ανακάλυψη ξανά της πληροφορίας που ο συντάκτης κωδικοποίησε στο κείμενο, π.χ. η αυτόματη εξαγωγή του ονόματος ενός προϊόντος από μια ιστοσελίδα. Το Text Mining, σύμφωνα και με τους παραπάνω ορισμούς ασχολείται με την ανακάλυψη προηγουμένως άγνωστης πληροφορίας σε αδόμητα ή ημί-δομημένα δεδομένα. Αυτό το διαχωρίζει από κάποια άλλα πεδία όπως το Data Mining, όπως φαίνεται και στο παρακάτω σχήμα: 5

6 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Σχήμα 1.1 Κατάταξη Text Mining Λαμβάνοντας υπ όψιν ότι περίπου 90% των παγκοσμίων δεδομένων διατηρείται σε αδόμητους τύπους (πηγή: Oracle Corporation), γίνεται αντιληπτό πως η σημασία του Text Mining είναι μεγάλη, καθότι ο συνήθης βασισμένος στη λογική (logicbased) προγραμματισμός αντιμετωπίζει μεγάλες δυσκολίες στη σύλληψη των ασαφών και πολλές φορές αμφίσημων σχέσεων που περιέχονται σε έγγραφα κειμένου. Σχήμα 1.2 Κατάταξη παγκόσμιων δεδομένων Οι κύριοι στόχοι του Text Mining είναι οι παρακάτω : Να εξάγει, να ανακαλύψει, και να συνδέσει αραιά δεδομένα προερχόμενα από απέραντες ποσότητες πηγών δεδομένων. Να αναπαραστήσει και να αξιολογήσει τη σημασία των σχετιζόμενων στοιχείων. Να εντοπίσει πατέντες που θα οδηγήσουν στην εξαγωγή, την ανακάλυψη, και τη σύνδεση οντοτήτων. Η Εξόρυξη δεδομένων (KDD) από αδόμητα η ημί-δομημένα δεδομένα. Η (Εταιρική) Διαχείριση Γνώσης. 1.2 Μέθοδοι του Text Mining Κάποιες από τις μεθόδους που χρησιμοποιεί το Text Mining προς την ανακάλυψη γνώσης είναι οι παρακάτω: 6

7 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Ανάκτηση Πληροφορίας (Information Retrieval, IR): Κατάταξη και ανάκτηση εγγράφων κειμένου Η Ανάκτηση Πληροφοριών είναι η εύρεση των εγγράφων που περιέχουν τις απαντήσεις στις ερωτήσεις και όχι η εύρεση των ίδιων των απαντήσεων[45]. Προκειμένου να επιτευχθεί αυτός ο στόχος, χρησιμοποιούνται στατιστικά μέτρα και μέθοδοι για την αυτόματη επεξεργασία των δεδομένων κειμένου και τη σύγκριση τους με τη δοθείσα ερώτηση. Η ανάκτηση πληροφοριών υπό την ευρύτερη έννοια εξετάζει ολόκληρο το εύρος της επεξεργασίας πληροφοριών, από την ανάκτηση πληροφορίας ως την ανάκτηση γνώσης (βλ. [46] για μια επισκόπηση). Αν και η ανάκτηση πληροφοριών είναι ένας σχετικά παλαιός ερευνητικός τομέας όπου οι πρώτες προσπάθειες για αυτόματη ευρετηρίαση έγιναν το 1975 [44], κέρδισε αυξανόμενη προσοχή με την άνοδο του World Wide Web και την ανάγκη για περίπλοκες μηχανές αναζήτησης. Παρόλο που ο ορισμός της ανάκτησης πληροφοριών είναι βασισμένος στην ιδέα των ερωτήσεων και των απαντήσεων, τα συστήματα που ανακτούν έγγραφα βασισμένα σε λέξεις κλειδιά, δηλ. συστήματα που εκτελούν ανάκτηση εγγράφων όπως οι περισσότερες μηχανές αναζήτησης, συχνά αποκαλούνται και αυτά συστήματα ανάκτησης πληροφοριών. Ως μέθοδος του Text Mining, η Ανάκτηση Πληροφορίας χρησιμοποιείται ως εξής: Σε ένα σύστημα Ανάκτησης Πληροφορίας δίδονται ως είσοδοι ένα σύνολο εγγράφων κειμένου και ένα ερώτημα (κείμενο). Το σύστημα ως έξοδο δίνει ένα σύνολο (καταταγμένων) εγγράφων σχετικά με το ερώτημα. Σχηματικά η διαδικασία παρουσιάζεται στο παρακάτω σχήμα: Σχήμα 1.3 Μέθοδος Ανάκτησης Πληροφορίας 7

8 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Ένα ευφυές σύστημα Ανάκτηση Πληροφορίας θα πρέπει να λαμβάνει υπ όψιν του τα παρακάτω θέματα: o Σημασία των λέξεων Συνώνυμα: buy / purchase Διφορούμενες έννοιες: bat (baseball, το θηλαστικό) o Σειρά των λέξεων στο ερώτημα hot dog stand in the amusement park hot amusement stand in the dog park o Αξιοπιστία της πηγής Η Microsoft είναι πιο πιθανό να είναι αξιόπιστη, από ότι ένας προσωπικός γνωστός. Εξαγωγή πληροφορίας (Information Extraction, IE) : Εξαγωγή μερικής γνώσης που περιέχεται στα έγγραφα κειμένου Το κείμενο φυσικής γλώσσας περιέχει πολλές πληροφορίες που δεν είναι άμεσα κατάλληλες για αυτόματη ανάλυση από έναν υπολογιστή. Εντούτοις, οι υπολογιστές μπορούν να χρησιμοποιηθούν για να κοσκινίσουν μεγάλες ποσότητες κειμένου και να εξάγουν χρήσιμες πληροφορίες από μεμονωμένες λέξεις, φράσεις ή εδάφια. Επομένως η εξαγωγή πληροφοριών μπορεί να θεωρηθεί ως μια περιορισμένη μορφή πλήρους κατανόησης της φυσικής γλώσσας, όπου ξέρουμε εκ των προτέρων ποιο είδος σημασιολογικής πληροφορίας ψάχνουμε. Ο κύριος στόχος είναι να εξαχθούν μέρη του κειμένου και να ανατεθούν συγκεκριμένες ιδιότητες σε αυτά. Η διαδικασία της εξαγωγής πληροφοριών αποσυντίθεται φυσικά σε μια σειρά βημάτων επεξεργασίας, τυπικά συμπεριλαμβανομένων των: tokenization (χωρισμός μιας συμβολοσειράς σε tokens, συνήθως λέξεις), κατάτμηση πρότασης, ανάθεση μέρος του λόγου και αναγνώριση των ονομασμένων οντοτήτων, δηλ. ονόματα προσώπων, ονόματα τοποθεσιών και ονόματα οργανώσεων. Σε πιο υψηλό επίπεδο, οι φράσεις και οι προτάσεις πρέπει να αναλυθούν (parsing), να ερμηνευτούν σημασιολογικά και να ενσωματωθούν. Τέλος, τα απαραίτητα κομμάτια πληροφορίας όπως "η θέση" και το "εισερχόμενο όνομα προσώπων" εισάγονται στη βάση δεδομένων. Αν και τα ακριβέστερα συστήματα εξαγωγής πληροφοριών περιλαμβάνουν συχνά χειροποίητα modules επεξεργασίας γλώσσας, έχει σημειωθεί ουσιαστική πρόοδος στην εφαρμογή μεθόδων εξόρυξης δεδομένων σε διάφορα από αυτά τα βήματα. Ως μέθοδος του Text Mining, η Εξαγωγή Πληροφορίας χρησιμοποιείται ως εξής: Σε ένα σύστημα Εξαγωγής Πληροφορίας δίδονται ως είσοδοι ένα σύνολο εγγράφων κειμένου και ένα καλά διατυπωμένο, περιορισμένο ερώτημα (κείμενο). Τα ζητούμενα από το σύστημα αυτό είναι: η εύρεση προτάσεων με σχετική πληροφορία, η εξαγωγή της σχετικής πληροφορίας και η απόρριψη της άσχετης, η σύνδεση της σχετικής πληροφορίας και η έξοδος της σε ένα 8

9 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) προκαθορισμένο format. Σχηματικά η διαδικασία παρουσιάζεται στο παρακάτω σχήμα: Σχήμα 1.4 Μέθοδος Εξαγωγής Πληροφορίας Web Mining: Κατάταξη και ανάκτηση εγγράφων κειμένου καθώς και εξαγωγή μερικής γνώσης με χρήση του διαδικτύου. Web Mining είναι η εφαρμογή τεχνικών της εξόρυξης δεδομένων προς ανακάλυψη πατεντών από το web. Σύμφωνα με τους στόχους της ανάλυσης, το Web Mining μπορεί να διαιρεθεί σε τρεις διαφορετικές κατηγορίες: Web Usage Mining, Web Content Mining και Web Structure Mining. Το Web Usage Mining είναι η εφαρμογή που χρησιμοποιεί την Εξόρυξη Δεδομένων (Data Mining) για να αναλύσει και να ανακαλύψει ενδιαφέροντα μοτίβα από τα στοιχεία χρήσης του χρήστη όσον αφορά στο Web. Το Web Content Mining είναι η διαδικασία ανακάλυψης χρήσιμων πληροφοριών από το περιεχόμενο μιας ιστοσελίδας. Το Web Structure Mining είναι η διαδικασία χρήσης της θεωρίας γράφων για την ανάλυση της δομής των κόμβων και των συνδέσεων ενός web site. Το Web Mining είναι από τις πιο σημαντικές μεθόδους του Text Mining. Αυτό οφείλεται κυρίως στο ότι: o Υπάρχει τεράστιος πλούτος πληροφορίας σε μορφή κειμένου στο web: Καταστήματα Βιβλίων/ CD/ Video (π.χ. Amazon) Πληροφορίες για ρεστοράν (π.χ. Zagats) Τιμές Αυτοκινήτων (π.χ. Carpoint) o Υπάρχουν πολλά δεδομένα στις πατέντες πρόσβασης των χρηστών (user access patterns) : Τα web logs περιέχουν ακολουθίες των URL s που επισκέφτηκαν οι χρήστες. 9

10 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) o Υπάρχει πιθανότητα ανάκτησης προηγουμένως άγνωστης πληροφορίας. Άνθρωποι που κάνουν σκι, επίσης σπάνε συχνά το πόδι τους. Σχηματικά η μέθοδος του Web Mining μπορεί να αποδοθεί ως εξής: Σχήμα 1.5 Μέθοδος Web Mining 1.3 Βήματα του Text Mining Τα βήματα που ακολουθεί το Text Mining προς την παραγωγή αποτελεσμάτων παρουσιάζονται στο παρακάτω σχήμα: Σχήμα 1.6 Βήματα Text Mining 10

11 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Τα βήματα αναλυτικά: 1. Text preprocessing: Συντακτική/Σημασιολογική ανάλυση κειμένου Αναγνώριση της κάθε λέξης ως προς το τί μέρος του λόγου είναι Αναγνώριση μέρος του λόγου (pos tagging ή POST), αποκαλούμενη επίσης και γραμματική αναγνώριση, είναι η διαδικασία της αντιστοίχισης καθεμίας από τις λέξεις σε ένα κείμενο με ένα συγκεκριμένο μέρος του λόγου. Η διαδικασία αυτή βασίζεται τόσο στον ορισμό της λέξης, όσο και στα συμφραζόμενα της δηλ. τη σχέση με τις παρακείμενες και σχετικές λέξεις σε μια φράση, μια πρόταση, ή μια παράγραφο. Μια απλουστευμένη μορφή αυτής διδάσκεται συνήθως στα σχολικής ηλικίας παιδιά, στον προσδιορισμό των λέξεων, όπως ουσιαστικά, ρήματα, επίθετα, επιρρήματα, κ.λπ. Το pos tagging διεξάγεται στα πλαίσια της υπολογιστικής γλωσσολογίας(computational linguistics), με χρήση αλγορίθμων που συνδέουν σύμφωνα με ένα σύνολο περιγραφικών ετικετών (tags) διακριτούς όρους, καθώς επίσης και κρυμμένα μέρη του λόγου. Η αναγνώριση μέρος του λόγου είναι δυσκολότερη από το να υπάρχει απλώς μια λίστα των λέξεων και μερών του λόγου τους, επειδή μερικές λέξεις μπορούν να αντιπροσωπεύσουν περισσότερα από ένα μέρη του λόγου σε διαφορετικές περιπτώσεις. Αυτό δεν είναι σπάνιο -- στις φυσικές γλώσσες (σε αντιδιαστολή με πολλές τεχνητές γλώσσες), ένα τεράστιο ποσοστό των λέξεωνμορφών είναι διφορούμενες. Ένα παράδειγμα της αναγνώρισης είναι το: John (ουσιαστικό) gave (ρήμα) the (άρθρο) ball (ουσιαστικό). Ανάλυση (Parsing) Μόλις αναγνωριστούν οι λέξεις και ετικετοποιηθούν, πολλές εφαρμογές αποκλίνουν. Πολλοί υπολογιστικοί γλωσσολόγοι(computational linguists) θεωρούν πως για την πλήρη κατανόηση της γλώσσας η ανάλυση πρότασης (sentence parsing) είναι απαραίτητη. Μια πρόταση μπορεί να αποσυντεθεί σε φράσεις προκειμένου να προσδιοριστούν η έννοια και η λειτουργία των λέξεων. Ένα δέντρο ανάλυσης (parse tree) μπορεί να παραχθεί από μια χειροποίητη γραμματική ή από μια παραχθείσα μέσω στατιστικής μάθησης. Για στατιστικές εφαρμογές απαιτούνται συλλογές ηχητικών στοιχείων γλώσσας (corpora). Οι PTB (Parameterizable Test Bed, επίσημο πλαίσιο αξιολόγησης προϊόντων φυσικής γλώσσας ανεπτυγμένο από το πρόγραμμα TEMAA το 1997, που υλοποιείται ως λογισμικό, [60]) και BNC (British National Corpus, μια συλλογή 100 εκατομμυρίων λέξεων που περιέχει δείγματα γραπτής και προφορικής γλώσσας από ένα ευρύ φάσμα πηγών, με σκοπό να αντιπροσωπεύει μια ευρεία διατομή των τρεχόντων βρετανικών αγγλικών, τόσο των προφορικών όσο και των γραπτών,[61]) χρησιμοποιούνται συχνά για εκμάθηση στις στατιστικές NLP (Natural Language Processing, Επεξεργασία Φυσικής Γλώσσας) 11

12 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) εφαρμογές. Οι χειροποίητες γραμματικές είναι συνήθως ελλιπείς, ενώ οι στατιστικά κατασκευασμένες γραμματικές παράγουν συχνά πολλά δέντρα ανάλυσης. Καμία μέθοδος δεν είναι σε θέση να αντιμετωπίσει και να διαχειριστεί τέλεια με τους λεπτούς δεσμούς και έννοιες που εμπεριέχονται στις ανθρώπινες κατασκευές. Η ομαδική κατάτμηση (chunking) χρησιμοποιείται συχνά αντί της πλήρους ανάλυσης. Η ομαδική κατάτμηση ή ρηχή ανάλυση διαιρεί κατά προσέγγιση μια πρόταση σε συστατικές φράσεις χωρίς παραγωγή πλήρους δέντρου ανάλυσης. Είναι γρηγορότερη από την ανάλυση παράλληλα εξακολουθώντας να παρέχει κάποιες πληροφορίες για το υποκείμενο, το ρήμα, και το αντικείμενο μιας πρότασης. 2. Feature Generation: Bag of words Στην προσέγγιση bag-of-words, αγνοείται η σειρά με την οποία εμφανίζονται οι λέξεις. Αντ' αυτού δίνεται έμφαση στις λέξεις και τις στατιστικές διανομές τους. Προκειμένου να χρησιμοποιηθούν οι άτακτες λέξεις είναι απαραίτητο να οργανωθεί ένας κατάλογος (index) του κειμένου σε ένα διάνυσμα δεδομένων. Παραδείγματος χάριν η πρόταση Lord of the rings διαμορφώνεται ως εξής: the, Lord, rings, of. Ο κατάλογος τείνει να είναι πολύ μεγάλος, έτσι όροι που είναι γραμματικά ο ένας κοντά στον άλλο (όπως "κύτταρο" και "κύτταρα") χαρτογραφούνται σε έναν όρο μέσω stemming των λέξεων και όροι που εμφανίζονται πολύ συχνά αφαιρούνται με τη σύνταξη καταλόγων κοινών λέξεων (stop words), έτσι ώστε να μην παρεμποδίζουν την ανάλυση των δεδομένων. Μέχρι τώρα έχει υλοποιηθεί ο αλγόριθμος stemming του Porter[47], οι κατάλογοι κοινών λέξεων μπορούν να συνταχθούν δυναμικά, και έχουν υλοποιηθεί βασικές αναπαραστάσεις του διανυσματικού χώρου (συχνότητα λέξης και TF IDF από [48]) και μέτρα ομοιότητας. Η προσέγγιση αυτή είναι πολύ αποδοτική και κάνει τη μάθηση πολύ πιο απλή και εύκολη. 3. Feature selection Η επιλογή χαρακτηριστικού γνωρίσματος (feature), είναι η διαδικασία κατά την οποία, βάσει κάποιων κριτηρίων, επιλέγεται ένα υποσύνολο γνωρισμάτων από το αρχικό σύνολο. Τα επιλεγμένα χαρακτηριστικά γνωρίσματα διατηρούν την αρχική φυσική τους έννοια και παρέχουν μια καλύτερη κατανόηση για τα δεδομένα και τη διαδικασία μάθησης. Ανάλογα με εάν απαιτούνται οι πληροφορίες ετικετών (label information) κλάσης, η επιλογή χαρακτηριστικών γνωρισμάτων μπορεί να είναι είτε ανεπίβλεπτη είτε επιβλεπόμενη. Για τις επιβλεπόμενες μεθόδους, ο συσχετισμός κάθε χαρακτηριστικού γνωρίσματος με την ετικέτα κλάσης υπολογίζεται με βάση την απόσταση(distance), την εξάρτηση πληροφοριών(information dependence), ή τις μετρικές συνέπειας(consistency measures) [49]. 12

13 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Όσον αφορά στην επιλογή χαρακτηριστικών γνωρισμάτων για την ομαδοποίηση, οποιαδήποτε παραδοσιακή μέθοδος επιλογής χαρακτηριστικών γνωρισμάτων που δεν χρειάζεται τις πληροφορίες κλάσης, όπως η συχνότητα εγγράφων(df) και η δύναμη όρου(ts) [51], μπορεί να εφαρμοστεί εύκολα στην ομαδοποίηση. Αφετέρου, υπάρχουν μερικές πρόσφατα προτεινόμενες μέθοδοι, παραδείγματος χάριν, η βασισμένη-στην-εντροπία μέθοδος κατάταξης χαρακτηριστικών γνωρισμάτων (En) που προτάθηκε από τους Dash και Liu ([50]) στην οποία η σημασία χαρακτηριστικών γνωρισμάτων μετριέται από τη συμβολή σε έναν δείκτη εντροπίας βασισμένο στην ομοιότητα δεδομένων. 4. Data Mining/ Pattern Discovery Κατάταξη (Classification): Η κατάταξη κειμένων στοχεύει στην ανάθεση των προκαθορισμένων κατηγοριών σε έγγραφα κειμένων [40]. Ένα παράδειγμα θα ήταν η αυτόματη ετικετοποίηση κάθε εισερχόμενης ιστορίας ειδήσεων με ένα θέμα όπως "αθλητισμός", "πολιτική", ή "τέχνη". Ανεξαρτήτως της μεθόδου που εφαρμόζεται, μια διαδικασία κατάταξης ξεκινά με ένα σύνολο κατάρτισης D = d,..., 1 dn των εγγράφων που έχουν ετικετοποιηθεί ήδη με μια κατηγορία L L (π.χ. αθλητισμός, πολιτική). Ο στόχος είναι έπειτα να καθοριστεί ένα πρότυπο ταξινόμησης f:d L f(d)=l το οποίο είναι σε θέση να ορίσει τη σωστή κατηγορία σε κάθε ένα νέο έγγραφο d του πεδίου. Για να μετρηθεί η απόδοση ενός προτύπου κατάταξης ένα τυχαίο κλάσμα των ετικετοποιημένων εγγράφων τίθεται κατά μέρος και δεν χρησιμοποιείται για την κατάρτιση. Μπορούμε να κατατάξουμε τα έγγραφα αυτού του συνόλου δοκιμής με το πρότυπο κατάταξης και να συγκρίνουμε τις εκτιμηθείσες ετικέτες με τις πραγματικές. Το κλάσμα των σωστά καταταχθέντων εγγράφων σε σχέση με το συνολικό αριθμό εγγράφων ονομάζεται ακρίβεια (accuracy) και είναι ένα πρώτο μέτρο απόδοσης. Συχνά, εντούτοις, η κλάση στόχος καλύπτει μόνο ένα μικρό ποσοστό των εγγράφων. Τότε λαμβάνουμε υψηλή ακρίβεια εάν κατατάσσουμε κάθε έγγραφο στην εναλλακτική κατηγορία. Για να αποφευχθεί αυτό το αποτέλεσμα, συχνά χρησιμοποιούνται διαφορετικές μετρικές της επιτυχίας της κατάταξης. Η ακρίβεια (precision) ποσοτικοποιεί το μέρος των ανακτημένων εγγράφων που είναι στην πραγματικότητα σχετικά, δηλ. ανήκουν στην κατηγορία στόχο. Η ανάκληση (recall) υποδεικνύει ποιο μέρος των σχετικών εγγράφων ανακτάται. 13

14 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) I I # σχετικά ανεκτημένα # σχετικά ανεκτημένα precision= recall= #ανεκτημένα #σχετικά Προφανώς υπάρχει μια ανταλλαγή μεταξύ της ακρίβειας και της ανάκλησης. Οι περισσότεροι ταξινομητές εσωτερικά καθορίζουν κάποιο "βαθμό συμμετοχής μέλους" στην κατηγορία στόχο. Εάν μόνο έγγραφα υψηλού βαθμού κατατάσσονται στην κατηγορία στόχο, η ακρίβεια είναι υψηλή. Εντούτοις, πολλά σχετικά έγγραφα έχουν αγνοηθεί, το οποίο αντιστοιχεί σε μια χαμηλή ανάκληση. Όταν από την άλλη μεριά η αναζήτηση είναι πιο εξαντλητική, η ανάκληση αυξάνεται και η ακρίβεια μειώνεται. Το F-score είναι ένας συμβιβασμός μεταξύ των δύο για τη μέτρηση της γενικής απόδοσης των ταξινομητών 2 F= 1 precision + 1 recall Ομαδοποίηση(Clustering) Η μέθοδος ομαδοποίησης μπορεί να χρησιμοποιηθεί προκειμένου να βρεθούν ομάδες εγγράφων με παρόμοιο περιεχόμενο. Το αποτέλεσμα της ομαδοποίησης είναι χαρακτηριστικά ένας διαμερισμός, επίσης αποκαλούμενος ομαδοποίηση P, ένα σύνολο από clusters, P. Κάθε cluster αποτελείται από έναν αριθμό εγγράφων d. Τα αντικείμενα στην περίπτωση μας έγγραφα ενός cluster πρέπει να είναι όμοια μεταξύ τους και ανόμοια με τα έγγραφα άλλων clusters. Συνήθως η ποιότητα των ομαδοποιήσεων θεωρείται καλύτερη εάν το περιεχόμενο των εγγράφων μέσα σε έναν cluster είναι περισσότερο όμοιο και μεταξύ των clusters περισσότερο ανόμοιο. Οι μέθοδοι ομαδοποίησης ομαδοποιούν τα έγγραφα μόνο με την εξέταση της διανομής τους στο χώρο των εγγράφων (παραδείγματος χάριν, ένα ν-διάστατο χώρο εάν χρησιμοποιούμε το πρότυπο διανυσματικού χώρου(vector space model) για τα έγγραφα κειμένων). Οι αλγόριθμοι ομαδοποίησης υπολογίζουν τους clusters βασισμένοι στις ιδιότητες των δεδομένων και στις μετρικές (αν)ομοιότητας. Εντούτοις, η ιδέα του πώς πρέπει να είναι μια ιδανική ομαδοποίηση ποικίλλει μεταξύ των εφαρμογών και μπορεί να είναι ακόμα και διαφορετική μεταξύ των χρηστών. Κάποιος μπορεί να ασκήσει επιρροή στα αποτελέσματα ενός αλγορίθμου ομαδοποίησης με τη χρησιμοποίηση μόνο υποσυνόλων των ιδιοτήτων ή με την προσαρμογή των χρησιμοποιημένων μετρικών ομοιότητας και να ελέγξει έτσι τη διαδικασία ομαδοποίησης. Μέχρι ποιο σημείο το αποτέλεσμα του αλγορίθμου ομαδοποίησης συμπίπτει με τις ιδέες του χρήστη μπορεί να αξιολογηθεί από τις μετρικές εγκυρότητας. 14

15 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) 5. Αξιολόγηση Κατάταξης Μια κατάταξη μπορεί να θεωρηθεί σωστή αν το γνωστό label του δείγματος τεστ είναι πανομοιότυπο με την προκύπτουσα από το μοντέλο κατάταξης κλάση. Επιπλέον μπορεί να υπολογιστεί ένα ποσοστό ακρίβειας για την αξιολόγηση της κατάταξης, που θα αντιστοιχεί στο ποσοστό δειγμάτων του συνόλου τεστ που κατατάχτηκαν σωστά. Τέλος μπορεί να χρησιμοποιηθεί ένα μέτρο απόστασης μεταξύ clusters: η κατάταξη ενός εγγράφου μπάσκετ ως ποδοσφαίρου δεν είναι τόσο κακή όσο η κατάταξη του ως εγκλήματος. Ομαδοποίησης Μια καλή μέθοδος ομαδοποίησης παράγει clusters με: μεγάλη ομοιότητα μέσα στους clusters, μικρή ομοιότητα μεταξύ των clusters. Η ποιότητα της ομαδοποίησης μπορεί επίσης να μετρηθεί από την ικανότητα της να ανακαλύπτει κάποιες ή όλες τις κρυμμένες πατέντες. 1.4 Εφαρμογές Text Mining Το Text Mining έχει πολλές εφαρμογές σε διάφορους τομείς, όπως η ιατρική, η βιολογία, ο χώρος των επιχειρήσεων κ.ά. Γενικά μπορεί να χρησιμοποιηθεί οπουδήποτε είναι επιθυμητή η ανακάλυψη προηγουμένως άγνωστης πληροφορίας. Ακολουθούν κάποια παραδείγματα εφαρμογών του Text Mining σε διάφορους τομείς Ιατρική Διεξάγεται μια ιατρική έρευνα, στόχος της οποίας είναι η μελέτη αλυσίδων αιτιωδών επιπτώσεων προς ανακάλυψη σχέσης μεταξύ των ημικρανιών και των επιπέδων των βιοχημικών. Δεδομένα της έρευνας είναι ιατρικά Papers και ιατρικά νέα, δηλαδή αδόμητη πληροφορία σε μορφή κειμένου. Κάποιοι από τους κύριους τύπους εννοιών που περιέχονται στα δεδομένα μας είναι συμπτώματα, φάρμακα, ασθένειες, χημικά, κ.ά. Με βάση αυτά τα δεδομένα θα μπορούσαμε να καταλήξουμε σε ένα τέτοιου είδους σχήμα: Το στρες συνδέεται με τις ημικρανίες Το στρες μπορεί να οδηγήσει σε απώλεια Μαγνησίου Τα ΚΜΑ (Κανάλια Μπλοκαρίσματος Ασβεστίου) αποτρέπουν κάποιες ημικρανίες Το Μαγνήσιο είναι ένα φυσικό ΚΜΑ Το SCD (spreading cortical depression) εμπλέκεται σε κάποιες ημικρανίες Υψηλά επίπεδα Μαγνησίου εμποδίζουν το SCD. 15

16 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Οι ασθενείς με ημικρανία έχουν υψηλή PA(platelet aggregability) To Μαγνήσιο μπορεί να καταστείλει την PA. Σχηματικά, η διαδικασία συγκέντρωσης αποδείξεων μέσω του Text Mining μπορεί να αποδοθεί ως εξής: Σχήμα 1.7 Απεικόνιση εξαγόμενων από το Text Mining σχέσεων Ή ολοκληρωμένα, Σχήμα 1.8 Τακτοποιημένη απεικόνιση των σχέσεων Γενικές εφαρμογές Κάποιες από τις γενικές εφαρμογές του Text Mining είναι η ανάλυση σχέσεων, π.χ. Αν το Α σχετίζεται με το Β και το Β με το Γ, τότε υπάρχει μια πιθανότητα να σχετίζεται και το Α με το Γ, η ανάλυση τάσεων, π.χ. oι εμφανίσεις του Α κορυφώνονται τον Οκτώβριο καθώς και ο συνδυασμός εφαρμογών, π.χ. οι κοινές εμφανίσεις των Α και Β κορυφώνονται τον Οκτώβριο. 16

17 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Εφαρμογές στις επιχειρήσεις Υποστήριξη αποφάσεων στο CRM Ο όρος Customer Relationship Management ή Marketing (CRM) δηλώνει την μεθοδολογία που βοηθά στην επισήμανση και την προσέλκυση των καταναλωτών, μέσα από τη διαδικασία ανάπτυξης διαπροσωπικών σχέσεων (επιχείρηση πελάτης). Το Text Mining μπορεί να βοηθήσει στη λήψη αποφάσεων για χάραξη μιας νέας βελτιωμένης στρατηγικής, τόσο για την προσέλκυση νέων πελατών όσο και για τη καλύτερη ικανοποίηση των ήδη υπαρχόντων. Για παράδειγμα σε μια τράπεζα, με βάση το αρχείο τηλεφωνικών κλήσεων της, θα μπορούσαν να απαντηθούν σημαντικά ερωτήματα όπως: Ποια είναι τα τυπικά παράπονα των πελατών; Ποια είναι η τάση στον αριθμό των ικανοποιημένων πελατών στην Πάτρα; Ποιο γραφείο λαμβάνει τα περισσότερα τηλεφωνήματα από θυμωμένους πελάτες; Ποια προϊόντα έχουν τους λιγότερο ικανοποιημένους πελάτες; ( ικανοποιημένος και θυμωμένος είναι αναγνωριζόμενα συναισθήματα). Η πηγή πληροφοριών είναι όπως είπαμε το αρχείο τηλεφωνικών κλήσεων της τράπεζας. Για παράδειγμα: Σχήμα 1.9 Παράδειγμα τηλεφωνικού αρχείου Μέσα από πολλές τέτοιες εγγραφές του αρχείου, μπορούν μέσω του Text Mining να εξαχθούν συγκεντρωτικά αποτελέσματα, δίνοντας βάση στα συναισθήματα των πελατών που εκφράζονται μέσω των τηλεφωνημάτων, κάνοντας χρήση μιας μεθόδου του Text Mining, της ανάλυσης συναισθήματος (sentiment analysis). Για παράδειγμα θα μπορούσε να προκύψει το παρακάτω γράφημα: 17

18 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Αρνητικά τηλεφωνήματα σχετικά με τις καταθέσεις στην τράπεζα Θεσσαλονίκη Πάτρα Αθήνα Προσωποποιημένος ταιριαστής ταινιών Στόχος είναι το ταίριασμα του κάθε ατόμου προσωπικά με ταινίες, βασιζόμενοι στο προφίλ με τις προτιμήσεις. Πηγή πληροφοριών θα είναι οι κριτικές των ταινιών καθώς και οι λίστες των χρηστών με τις αγαπημένες τους ταινίες. Η διαδικασία που μπορεί να ακολουθηθεί είναι η εξής: Σχήμα 1.10 Διαδικασία τυποποίησης ταινιών και θα μπορούσε να οδηγήσει σε ένα γράφημα σαν το παρακάτω: Σχήμα 1.11 Σχηματική απεικόνιση των εξαγόμενων από τις κριτικές συναισθημάτων 18

19 Κεφάλαιο 1 Εξόρυξη πληροφορίας από κείμενο (text mining) Παρατηρούμε λοιπόν, πως το Text Mining έχει πολλές (ως ατελείωτες) εφαρμογές, και αποτελεί ένα σημαντικό εργαλείο, προς την ανακάλυψη γνώσης, την εξαγωγή συμπερασμάτων με βάση την πληροφορία που ήδη κατέχουμε αλλά είναι ακατέργαστη και τη λήψη αποφάσεων με βάση τα συμπεράσματα που έχουν εξαχθεί. 19

20 Κεφάλαιο 2 Ομαδοποίηση δεδομένων Κεφάλαιο 2 Ομαδοποίηση δεδομένων Η ομαδοποίηση κειμένου είναι ένα από τα κεντρικά προβλήματα στο Text Mining και το πεδίο της ανάκτησης πληροφορίας. Ο στόχος της ομαδοποίησης κειμένου είναι να τοποθετηθούν σε ομάδες τα παρόμοια έγγραφα. Έχει εφαρμοστεί σε διάφορες εφαρμογές, συμπεριλαμβανομένης της βελτίωσης της αποδοτικότητας ανάκτησης των συστημάτων ανάκτησης πληροφοριών [52], της οργάνωσης των αποτελεσμάτων που επιστράφηκαν από μια μηχανή αναζήτησης ως απάντηση σε ερώτημα (query) του χρήστη [53], της περιήγησης σε μεγάλες συλλογές εγγράφων [54], της παραγωγής της ταξινόμησης των web εγγράφων [55], κ.ά. 2.1 Εισαγωγή στην ομαδοποίηση Η ομαδοποίηση μπορεί να θεωρηθεί το σημαντικότερο ανεπίβλεπτο μαθησιακό πρόβλημα. Έτσι, όπως κάθε άλλο πρόβλημα αυτού του είδους, εξετάζει την εύρεση μιας δομής σε μια συλλογή unlabeled (μη ετικετοποιημένων, μη καταταγμένων) δεδομένων. Ένας χαλαρός ορισμός της ομαδοποίησης θα μπορούσε να είναι η διαδικασία οργάνωσης αντικειμένων σε ομάδες, των οποίων μέλη είναι παρόμοια κατά κάποιο τρόπο. Ένας cluster είναι επομένως μια συλλογή αντικειμένων που είναι όμοια μεταξύ τους και είναι ανόμοια με τα αντικείμενα που ανήκουν σε άλλους clusters. Το παραπάνω μπορεί να παρουσιαστεί με ένα απλό γραφικό παράδειγμα: Σχήμα 2.1 Παράδειγμα ομαδοποίησης Οι στόχοι Έτσι, ο στόχος είναι να καθοριστεί η εγγενής ομαδοποίηση σε ένα σύνολο unlabeled δεδομένων. Αλλά πώς να αποφασιστεί τι αποτελεί μια καλή ομαδοποίηση; Μπορεί να αποδειχθεί ότι δεν υπάρχει κάποιο απόλυτα βέλτιστο κριτήριο που θα 20

21 Κεφάλαιο 2 Ομαδοποίηση δεδομένων ήταν ανεξάρτητο από τον τελικό στόχο της ομαδοποίησης. Συνεπώς, είναι ο χρήστης που πρέπει να παρέχει αυτό το κριτήριο, κατά τέτοιο τρόπο ώστε το αποτέλεσμα της ομαδοποίησης να ανταποκρίνεται στις ανάγκες του. Παραδείγματος χάριν, θα μπορούσαμε να ενδιαφερθούμε για την εύρεση αντιπροσώπων για ομοιογενείς ομάδες (μείωση δεδομένων), για την εύρεση φυσικών clusters και την περιγραφή των άγνωστων ιδιοτήτων τους ( φυσικοί τύποι δεδομένων), για την εύρεση χρήσιμων και κατάλληλων σχηματισμών ομάδας ( χρήσιμες κλάσεις δεδομένων) ή για την εύρεση ασυνήθιστων αντικειμένων δεδομένων (ανίχνευση outliers) Προβλήματα Υπάρχουν διάφορα προβλήματα με τη ομαδοποίηση. Μεταξύ αυτών: οι τρέχουσες τεχνικές ομαδοποίησης δεν αντιμετωπίζουν όλες τις απαιτήσεις επαρκώς (και ταυτόχρονα). η εξέταση μεγάλου αριθμού διαστάσεων και μεγάλου αριθμού δεδομένων μπορεί να είναι προβληματική λόγω της χρονικής πολυπλοκότητας. η αποτελεσματικότητα της μεθόδου εξαρτάται από τον καθορισμό της απόστασης (για την ομαδοποίηση βασισμένη-στην-απόσταση) εάν δεν υπάρχει ένα προφανές μέτρο απόστασης, πρέπει να το ορίσουμε, που δεν είναι πάντα εύκολο, ειδικά στους πολυδιάστατους χώρους. το αποτέλεσμα του αλγορίθμου ομαδοποίησης (ότι σε πολλές περιπτώσεις μπορεί να είναι αυθαίρετο το ίδιο) μπορεί να ερμηνευθεί με διαφορετικούς τρόπους Πιθανές εφαρμογές Οι αλγόριθμοι ομαδοποίησης μπορούν να εφαρμοστούν σε πολλούς τομείς, παραδείγματος χάριν: Μάρκετινγκ: εύρεση ομάδων πελατών με παρόμοια συμπεριφορά, δοθείσης μιας μεγάλης βάσης δεδομένων με δεδομένα πελατών που περιέχουν τις ιδιότητες τους και παρελθόντα αρχεία αγοράς. Βιολογία: ταξινόμηση των φυτών και τα ζώων με βάση τα χαρακτηριστικά γνωρίσματα τους. Βιβλιοθήκες: Ταξινόμηση βιβλίων. Ασφάλεια: προσδιορισμός των ομάδων κατόχων πολιτικών ασφάλειας μηχανοκίνητων οχημάτων με υψηλό μέσο κόστος αξίωσης, προσδιορισμός απατών. Προγραμματισμός πόλης: προσδιορισμός των ομάδων σπιτιών σύμφωνα με τον τύπο σπιτιών, την αξία και τη γεωγραφική θέση τους Μελέτες σεισμού: ομαδοποίηση των παρατηρηθέντων επίκεντρων σεισμού προς προσδιορισμό των επικίνδυνων ζωνών. 21

22 Κεφάλαιο 2 Ομαδοποίηση δεδομένων WWW: ταξινόμηση εγγράφων, ομαδοποίηση των δεδομένων των weblogs προς ανακάλυψη των ομάδων παρόμοιων σχεδίων πρόσβασης Κατηγοριοποίηση μεθόδων Ομαδοποίησης Ένα πλήθος μεθόδων ομαδοποίησης προτείνεται στη βιβλιογραφία. Οι αλγόριθμοι ομαδοποίησης μπορούν να ταξινομηθούν με βάση: Τον τύπο δεδομένων εισόδου του αλγορίθμου. Το κριτήριο ομαδοποίησης που ορίζει την ομοιότητα μεταξύ data points. Π.χ.: o Απόσταση: δύο ή περισσότερα αντικείμενα ανήκουν στον ίδιο cluster εάν είναι κοντά σύμφωνα με μια δεδομένη απόσταση (σε αυτήν την περίπτωση γεωμετρική απόσταση). Αυτό καλείται ομαδοποίηση βασισμένη-στην-απόσταση(distance-based clustering). o Έννοια: δύο ή περισσότερα αντικείμενα ανήκουν στον ίδιο cluster εάν αυτός καθορίζει μια έννοια κοινή για όλα αυτά τα αντικείμενα. Με άλλα λόγια, τα αντικείμενα ομαδοποιούνται σύμφωνα με τη συμφωνία τους με περιγραφικές έννοιες, όχι σύμφωνα με απλά μέτρα ομοιότητας. Αυτό καλείται εννοιολογική ομαδοποίηση(conceptual clustering). Τη θεωρία και τις θεμελιώδεις έννοιες πάνω στις οποίες οι τεχνικές ανάλυσης της ομαδοποίησης είναι βασισμένες (π.χ. ασαφής θεωρία(fuzzy theory), στατιστικές). Κατά συνέπεια σύμφωνα με τη μέθοδο που υιοθετείται για τον ορισμό των clusters, οι αλγόριθμοι μπορούν ευρέως να ταξινομηθούν στους ακόλουθους τύπους [23]: Το Partitional clustering, που προσπαθεί να αποσυνθέσει ευθέως το σύνολο δεδομένων σε ένα σύνολο από ασύνδετους clusters.. Πιο συγκεκριμένα προσπαθεί να καθορίσει έναν ακέραιο αριθμό partitions που βελτιστοποιούν μια ορισμένη συνάρτηση κριτηρίου. Η συνάρτηση κριτηρίου μπορεί να υπογραμμίσει την τοπική ή σφαιρική δομή των δεδομένων και η βελτιστοποίησή της είναι μια επαναληπτική διαδικασία. Την Ιεραρχική ομαδοποίηση (Hierarchical Clustering), που προχωρά διαδοχικά είτε συγχωνεύοντας μικρότερους clusters σε μεγαλύτερους, είτε με το διαχωρισμό των μεγαλύτερων clusters(σχήμα 2.2). Το αποτέλεσμα του αλγορίθμου είναι ένα δέντρο από clusters, που ονομάζεται δενδρόγραμμα (dendrogram), το οποίο επιδεικνύει πώς συσχετίζονται οι clusters. Με την κοπή του δενδρογράμματος σε επιθυμητό επίπεδο, λαμβάνεται μια ομαδοποίηση των δεδομένων σε ασύνδετες ομάδες. Η ιεραρχική ομαδοποίηση σύμφωνα με τη μέθοδο που παράγει τους clusters μπορεί περαιτέρω να διαιρεθεί σε [35]: o Συσσωρευτική ομαδοποίηση (Agglomerative Clustering). Παράγει μια ακολουθία σχημάτων ομαδοποίησης φθίνοντος αριθμού clusters σε κάθε βήμα. Το σχήμα ομαδοποίησης που παράγεται σε κάθε βήμα προκύπτει 22

23 Κεφάλαιο 2 Ομαδοποίηση δεδομένων από το προηγούμενο με τη συγχώνευση των δύο πιο κοντινών clusters σε έναν. o Διαχωριστική ομαδοποίηση(divisive Clustering). Αυτή η ομαδοποίηση παράγει μια ακολουθία σχημάτων ομαδοποίησης αύξοντος αριθμού clusters σε κάθε βήμα. Σε αντίθεση με τους συσσωρευτική ομαδοποίηση, η ομαδοποίηση που παράγεται σε κάθε βήμα προκύπτει από το προηγούμενο με το διαχωρισμό ενός cluster σε δύο. Σχήμα 2.2 Παράδειγμα Συσσωρευτικής και Διαχωριστικής ομαδοποίησης Την Ομαδοποίηση βασισμένη-στην-πυκνότητα (Density-based clustering). Η βασική ιδέα αυτού του τύπου ομαδοποίησης είναι να ομαδοποιηθούν τα γειτονικά αντικείμενα ενός συνόλου δεδομένων σε clusters με βάση συνθήκες πυκνότητας. Την Ομαδοποίηση βασισμένη-στo-πλέγμα (Grid-based clustering). Αυτός ο τύπος αλγορίθμων προτείνεται κυρίως για τη χωρική ανάσυρση δεδομένων. Το κύριο χαρακτηριστικό τους είναι ότι κβαντοποιούν το χώρο σε ένα πεπερασμένο αριθμό κελιών (cells) και έπειτα κάνουν όλες τις διαδικασίες πάνω στο κβαντοποιημένο χώρο. Για κάθε μια από τις ανωτέρω κατηγορίες υπάρχει ένας πλούτος υποκατηγοριών και διαφορετικών αλγορίθμων για την εύρεση των clusters. Κατά συνέπεια, σύμφωνα με τον τύπο μεταβλητών που επιτρέπονται στο σύνολο δεδομένων μπορεί να ταξινομηθούν σε[25,26,27]: Στατιστικούς (Statistical), οι οποίοι είναι βασισμένοι στις έννοιες στατιστικής ανάλυσης. Χρησιμοποιούν τα μέτρα ομοιότητας (similarity measures) για να χωρίσουν τα αντικείμενα και περιορίζονται στα αριθμητικά δεδομένα. Εννοιολογικούς(Conceptual), οι οποίοι χρησιμοποιούνται για να ομαδοποιήσουν τα κατηγορικά δεδομένα. Ομαδοποιούν τα αντικείμενα σύμφωνα με τις έννοιες που φέρουν. 23

24 Κεφάλαιο 2 Ομαδοποίηση δεδομένων Ένα άλλο κριτήριο ταξινόμησης είναι ο τρόπος που χειρίζεται η ομαδοποίηση την αβεβαιότητα, από την άποψη της επικάλυψης των clusters. Ασαφούς ομαδοποίησης (Fuzzy Clustering), που χρησιμοποιεί τεχνικές ασάφειας για να ομαδοποιήσει τα δεδομένα και θεωρεί ότι ένα αντικείμενο μπορεί να είναι ανήκει σε περισσότερους του ενός clusters. Αυτός ο τύπος αλγορίθμων οδηγεί σε σχήματα ομαδοποίησης που είναι συμβατά με την καθημερινή εμπειρία ζωής δεδομένου ότι χειρίζονται την αβεβαιότητα των πραγματικών δεδομένων. Στιβαρής ομαδοποίησης (Crisp Clustering), που ασχολείται με μη επικαλυπτόμενες διαχωρίσεις, που σημαίνει ότι ένα data point είτε ανήκει σε μια κλάση είτε όχι. Οι περισσότεροι από τους αλγορίθμους ομαδοποίησης οδηγούν σε στιβαρούς clusters, και μπορούν έτσι να ταξινομηθούν στη στιβαρή ομαδοποίηση. Ομαδοποίησης δικτύου Kohonen, η οποία είναι βασισμένη στις έννοιες των νευρωνικών δικτύων. Το δίκτυο Kohonen έχει τους κόμβους εισόδου και εξόδου. Το στρώμα εισόδου (κόμβοι εισόδου) έχει έναν κόμβο για κάθε ιδιότητα της εγγραφής, καθένα συνδεόμενο με κάθε κόμβο εξόδου (στρώμα εξόδου). Κάθε σύνδεση συνδέεται με ένα βάρος, το οποίο καθορίζει τη θέση του αντίστοιχου κόμβου εξόδου. Κατά συνέπεια, σύμφωνα με έναν αλγόριθμο, που αλλάζει τα βάρη κατάλληλα, οι κόμβοι εξόδου κινούνται προς το σχηματισμό clusters. Γενικά, οι αλγόριθμοι ομαδοποίησης είναι βασισμένοι σε ένα κριτήριο για την αξιολόγηση της ποιότητας ενός δεδομένου διαχωρισμού. Συγκεκριμένα, παίρνουν ως είσοδο μερικές παραμέτρους (π.χ. αριθμός clusters, πυκνότητα των clusters) και προσπαθούν να ορίσουν τον καλύτερο διαχωρισμό ενός συνόλου δεδομένων για τις δεδομένες παραμέτρους. Κατά συνέπεια, ορίζουν ένα διαχωρισμό ενός συνόλου δεδομένων βασισμένοι σε ορισμένες υποθέσεις και όχι απαραιτήτως τον "καλύτερο" που ταιριάζει στο σύνολο δεδομένων. 2.3 Αλγόριθμοι Ομαδοποίησης Τα τελευταία χρόνια, διάφοροι αλγόριθμοι ομαδοποίησης έχουν προταθεί και είναι διαθέσιμοι στη βιβλιογραφία. Μερικοί αντιπροσωπευτικοί αλγόριθμοι των ανωτέρω κατηγοριών ακολουθούν Partitional algorithms Σε αυτήν την κατηγορία, o K-Means είναι ένας συνήθως χρησιμοποιημένος αλγόριθμος [31]. Ο στόχος της ομαδοποίησης K-Means είναι η βελτιστοποίηση μιας συνάρτησης-κριτηρίου που περιγράφεται από την εξίσωση 24

25 Κεφάλαιο 2 Ομαδοποίηση δεδομένων E = c i= 1 x Ci d( x, m ) i Στην ανωτέρω εξίσωση, το m είναι το κέντρο (centroid) του cluster C, ενώ i d x, m ) είναι η ευκλείδεια απόσταση μεταξύ ενός σημείου x και του. Το ( i κέντρο ενός cluster είναι το μέσο σημείο στον πολυδιάστατο χώρο που ορίζεται από τις διαστάσεις. Υπό μία έννοια είναι το κέντρο βαρύτητας του cluster. Δεν αποτελεί απαραίτητα υπαρκτό σημείο του cluster, μπορεί δηλαδή να είναι νοητό. Κατά συνέπεια, η συνάρτηση-κριτήριο E προσπαθεί να ελαχιστοποιήσει την απόσταση κάθε σημείου από το κέντρο του cluster στην οποία το σημείο ανήκει. Συγκεκριμένα, ο αλγόριθμος αρχίζει με την αρχικοποίηση ενός συνόλου κέντρων clusters c. Κατόπιν, αναθέτει κάθε αντικείμενο του συνόλου δεδομένων στον cluster του οποίου το κέντρο είναι το κοντινότερο, και επαναϋπολογίζει τα κέντρα. Η διαδικασία συνεχίζεται μέχρι τα κέντρα των clusters να σταματήσουν να μεταβάλλονται ή η συνάρτηση κριτηρίου να μεταβληθεί ελάχιστα. Ένας άλλος αλγόριθμος αυτής της κατηγορίας είναι ο PAM[32] (Partitioning Around Medoids). Ο στόχος του PAM είναι να καθοριστεί ένα αντιπροσωπευτικό αντικείμενο (medoid) για κάθε cluster, δηλαδή να βρεθούν τα πιο κεντρικά τοποθετημένα αντικείμενα μέσα στους clusters. Ο αλγόριθμος αρχίζει με την επιλογή ενός αντικειμένου ως medoid για κάθε ένα από τους c clusters. Κατόπιν, κάθε ένα από τα μη-επιλεγμένα αντικείμενα ομαδοποιείται με το medoid με το οποίο είναι πιο παρόμοιο. Ο PAM αντιμεταθέτει τα medoids με άλλα μη-επιλεγμένα αντικείμενα μέχρι όλα τα αντικείμενα να είναι κατάλληλα για medoids. Είναι σαφές ότι PAM είναι ένας ακριβός αλγόριθμος όσον αφορά στην εύρεση των medoids, δεδομένου ότι συγκρίνει ένα αντικείμενο με ολόκληρο το σύνολο δεδομένων. Ο CLARA[32] (Clustering Large Applications), είναι μια υλοποίηση του PAM σε ένα υποσύνολο του συνόλου δεδομένων. Εξάγει πολλαπλά δείγματα από το σύνολο δεδομένων, εφαρμόζει τον PAM στα δείγματα, και έπειτα εξάγει ως αποτελέσματα την καλύτερη ομαδοποίηση αυτών των δειγμάτων. Ο CLARANS[33] (Clustering Large Applications based on Randomizes Search), συνδυάζει τις τεχνικές δειγματοληψίας με τον PAM. Η διαδικασία ομαδοποίησης μπορεί να παρουσιαστεί ως η αναζήτηση ενός γράφου, όπου κάθε κόμβος είναι μια πιθανή λύση, δηλαδή ένα σύνολο από K medoids. Η ομαδοποίηση που λαμβάνεται μετά από την αντικατάσταση ενός medoid ονομάζεται γείτονας της τρέχουσας ομαδοποίησης. Ο CLARANS επιλέγει έναν κόμβο και τον συγκρίνει με έναν ορισμένο από το χρήστη αριθμό γειτόνων του ψάχνοντας για ένα τοπικό ελάχιστο. Εάν βρεθεί ένας καλύτερος γείτονας (δηλ., έχει πιο χαμηλό-τετραγωνικό λάθος), ο CLARANS κινείται προς τον κόμβο του γείτονα και η διαδικασία ξεκινά πάλι, διαφορετικά η τρέχουσα ομαδοποίηση είναι ένα τοπικό βέλτιστο. Εάν βρεθεί το τοπικό βέλτιστο, ο CLARANS αρχίζει με έναν νέο τυχαία επιλεγμένο κόμβο την αναζήτηση ενός νέου τοπικού βέλτιστου. i m i 25

26 Κεφάλαιο 2 Ομαδοποίηση δεδομένων Τέλος, οι Κ - protoypes, Κ-mode[26] είναι βασισμένοι στον αλγόριθμο Κ -Means, αλλά στοχεύουν στη ομαδοποίηση των κατηγορικών δεδομένων Ιεραρχικοί αλγόριθμοι (Hierarchical Algorithms) Μερικοί αντιπροσωπευτικοί ιεραρχικοί αλγόριθμοι ομαδοποίησης είναι οι παρακάτω: Ο BIRCH [28] χρησιμοποιεί μια ιεραρχική δομή δεδομένων που ονομάζεται CFtree για το διαχωρισμό των εισερχόμενων data points με έναν επαυξητικό και δυναμικό τρόπο. Το CF-tree είναι ένα height-balanced δέντρο, το οποίο αποθηκεύει τα χαρακτηριστικά ομαδοποίησης και είναι βασισμένο σε δύο παραμέτρους: στον παράγοντα διακλάδωσης Β και το κατώτατο όριο(threshold) Τ, που είναι σχετιζόμενες με τη διάμετρο ενός cluster (Η διάμετρος (ή ακτίνα) κάθε cluster πρέπει να είναι μικρότερη από το Τ). Ο BIRCH μπορεί τυπικά να βρει μια καλή ομαδοποίηση με ένα μοναδικό πέρασμα των δεδομένων και να βελτιώσει την ποιότητα περαιτέρω με μερικά πρόσθετα περάσματα. Είναι επίσης ο πρώτος αλγόριθμος ομαδοποίησης που μπορεί να χειριστεί το θόρυβο αποτελεσματικά [28]. Εντούτοις, δεν αντιστοιχεί πάντα σε ένα φυσικό cluster, δεδομένου ότι κάθε κόμβος στο CF-tree μπορεί να κρατήσει έναν περιορισμένο αριθμό καταχωρήσεων λόγω του μεγέθους του. Επιπλέον, είναι ευαίσθητος-στη-διάταξη δεδομένου ότι μπορεί να παράγει διαφορετικούς clusters για τις διαφορετικές διατάξεις των ίδιων δεδομένων εισόδου. Ο CURE [24] απεικονίζει κάθε cluster με ένα συγκεκριμένο αριθμό σημείων που παράγονται με την επιλογή καλά-διεσπαρμένων σημείων και έπειτα το στένεμα τους προς το centroid του cluster κατά ένα προσδιορισμένο κλάσμα. Χρησιμοποιεί έναν συνδυασμό τυχαίας δειγματοληψίας και ομαδοποίησης διαχωρισμάτων για να χειριστεί μεγάλες βάσεις δεδομένων. Ο ROCK [25], είναι ένας στιβαρός αλγόριθμος ομαδοποίησης για Boolean και κατηγορικά δεδομένα. Εισάγει δύο νέες έννοιες, οι οποίες είναι γείτονες και συνδέσεις ενός σημείου, και είναι βασισμένο σε αυτές προκειμένου να μετρηθούν η ομοιότητα/εγγύτητα μεταξύ ενός ζευγαριού data points Αλγόριθμοι βασισμένοι-στην-πυκνότητα (Density-based algorithms) Οι βασισμένοι στην πυκνότητα αλγόριθμοι τυπικά θεωρούν τους clusters ως πυκνές περιοχές αντικειμένων στο χώρο δεδομένων που χωρίζονται από περιοχές χαμηλής πυκνότητας. Ένας ευρέως γνωστός αλγόριθμος αυτής της κατηγορίας είναι ο DBSCAN [29]. Η βασική ιδέα στον DBSCAN είναι ότι για κάθε σημείο σε ένα cluster, η γειτονιά μιας δεδομένης ακτίνας πρέπει να περιέχει τουλάχιστον έναν ελάχιστο αριθμό σημείων. Ο DBSCAN μπορεί να χειριστεί το θόρυβο (outliers) και να ανακαλύψει clusters αυθαίρετης μορφής. Επιπλέον, ο DBSCAN χρησιμοποιείται ως βάση για έναν επαυξητικό αλγόριθμο ομαδοποίησης που προτείνεται στο [29]. Λόγω της βασισμένης-στη-πυκνότητα φύσης του, η εισαγωγή ή η διαγραφή ενός αντικειμένου 26

27 Κεφάλαιο 2 Ομαδοποίηση δεδομένων έχει επιπτώσεις στην τρέχουσα ομαδοποίηση μόνο στη γειτονιά του αντικειμένου και έτσι μπορούν να δοθούν αποδοτικοί αλγόριθμοι βασισμένοι στον DBSCAN για επαυξητικές εισαγωγές και διαγραφές σε μια υπάρχουσα ομαδοποίηση [30]. Στο [35] προτείνεται ένας άλλος αλγόριθμος ομαδοποίησης βασισμένος-στηνπυκνότητα, ο DENCLUE. Αυτός ο αλγόριθμος εισάγει μια νέα προσέγγιση στην ομαδοποίηση μεγάλων βάσεων δεδομένων πολυμέσων. Η βασική ιδέα αυτής της προσέγγισης είναι να μοντελοποιηθεί η ολική πυκνότητα σημείου αναλυτικά ως το άθροισμα των συναρτήσεων επιρροής των data points. Η συνάρτηση επιρροής μπορεί να θεωρηθεί ως μια συνάρτηση, η οποία περιγράφει τον αντίκτυπο ενός data point μέσα στη γειτονιά του. Κατόπιν οι clusters μπορούν να αναγνωριστούν με τον καθορισμό attractors πυκνότητας. Οι attractors πυκνότητας είναι τοπικό μέγιστο της ολικής συνάρτησης πυκνότητας. Επιπλέον, οι clusters αυθαίρετης μορφής μπορούν να περιγραφούν εύκολα από μια απλή εξίσωση βασισμένη στη ολική συνάρτηση πυκνότητας. Τα κύρια πλεονεκτήματα του DENCLUE είναι το ότι έχει καλές ιδιότητες ομαδοποίησης σε σύνολα δεδομένων με μεγάλα ποσά θορύβου και επιτρέπει μια συμπαγή από μαθηματική άποψη περιγραφή των αυθαίρετης μορφής clusters μέσα σε πολυδιάστατα σύνολα δεδομένων. Εντούτοις, η ομαδοποίηση του DENCLUE είναι βασισμένη σε δύο παραμέτρους και όπως στις περισσότερες άλλες προσεγγίσεις η ποιότητα της τελικής ομαδοποίησης εξαρτάται από την επιλογή τους. Αυτές οι παράμετροι είναι : i. Η παράμετρος σ που καθορίζει την επιρροή ενός data point στη γειτονιά του καθώς συμμετέχει στη συνάρτηση επιρροής και ii. το ξ που περιγράφει εάν ένας attractor πυκνότητας είναι σημαντικός, επιτρέποντας μια μείωση του αριθμού των attractors-πυκνότητας και βοηθώντας να βελτιωθεί η απόδοση, καθώς attractors πυκνότητας με τιμή μικρότερη του ξ αγνοούνται από τον αλγόριθμο Αλγόριθμοι βασισμένοι-στo-πλέγμα (Grid-based Algorithms) Πρόσφατα διάφοροι αλγόριθμοι ομαδοποίησης έχουν παρουσιαστεί για τα χωρικά δεδομένα (spatial data), γνωστοί ως αλγόριθμοι βασισμένοι-στo-πλέγμα (Grid-based algorithms). Αυτοί οι αλγόριθμοι κβαντοποιούν το χώρο σε ένα πεπερασμένο αριθμό κελιών (cells) και έπειτα κάνουν όλες τις διαδικασίες πάνω στο κβαντοποιημένο χώρο. O STING[36] (Statistical Information Grid-based method) είναι αντιπροσωπευτικός αλγόριθμος αυτής της κατηγορίας. Διαιρεί τη χωρική περιοχή σε ορθογώνια κελιά χρησιμοποιώντας μια ιεραρχική δομή. O STING σαρώνει το σύνολο δεδομένων και υπολογίζει τις στατιστικές παραμέτρους (όπως ο μέσος όρος, η απόκλιση, ελάχιστο, μέγιστο και τύπος διασποράς) του κάθε αριθμητικού χαρακτηριστικού των αντικειμένων μέσα στα κελιά. Κατόπιν παράγει μια ιεραρχική δομή των κελιών πλέγματος ώστε να απεικονίσει τις πληροφορίες ομαδοποίησης σε διαφορετικά επίπεδα. Με βάση αυτήν την δομή ο STING επιτρέπει τη χρήση των 27

28 Κεφάλαιο 2 Ομαδοποίηση δεδομένων πληροφοριών της ομαδοποίησης για αναζήτηση μέσω queries ή την αποδοτική ανάθεση ενός νέου αντικειμένου στους clusters. Ο WaveCluster [37] είναι ο πιο πρόσφατος βασισμένος-στo-πλέγμα αλγόριθμος που προτείνεται στη βιβλιογραφία. Χρησιμοποιεί τεχνικές επεξεργασίας σήματος (μετασχηματισμός wavelets) για τη μεταφορά των χωρικών δεδομένων στο πεδίο των συχνοτήτων. Πιο συγκεκριμένα, πρώτα συμπτύσσει τα δεδομένα με την επιβολή μιας πολυδιάστατης δομής πλέγματος επάνω στο χώρο δεδομένων [38]. Κάθε κελί πλέγματος συμπτύσσει τις πληροφορίες της ομάδας σημείων που βρίσκονται σε αυτό. Κατόπιν χρησιμοποιεί έναν μετασχηματισμό wavelet για να μετασχηματίσει τον αρχικό χώρο χαρακτηριστικών. Στο μετασχηματισμό wavelet, η συνέλιξη με μια κατάλληλη συνάρτηση οδηγεί σε ένα μετασχηματισμένο χώρο όπου γίνονται διακριτοί οι φυσικοί clusters των δεδομένων. Κατά συνέπεια, μπορούμε να προσδιορίσουμε τους clusters μέσω της εύρεσης των πυκνών περιοχών στο μετασχηματισμένο πεδίο. Δεν απαιτείται η a-priori γνώση του ακριβή αριθμού των clusters στον WaveCluster Ασαφής ομαδοποίηση (Fuzzy Clustering) Οι αλγόριθμοι που περιγράφονται παραπάνω έχουν ως αποτέλεσμα στιβαρούς (crisp) clusters, που σημαίνει ότι ένα data point είτε ανήκει σε ένα cluster είτε όχι. Οι clusters είναι μη-επικαλυπτόμενοι και αυτό το είδος διαχωρισμού καλείται περαιτέρω στιβαρή ομαδοποίηση. Το ζήτημα της υποστήριξης της αβεβαιότητας στη ομαδοποίηση, οδηγεί στην εισαγωγή αλγορίθμων που χρησιμοποιούν έννοιες ασαφούς λογικής στη διαδικασία τους. Ένας κοινός ασαφής αλγόριθμος ομαδοποίησης είναι ο Fuzzy C-Means[39] (FCM), μια επέκταση του κλασσικού αλγορίθμου C-Means για τις ασαφείς εφαρμογές. Ο FCM προσπαθεί να βρει το χαρακτηριστικότερο σημείο σε κάθε cluster, που μπορεί να θεωρηθεί ως "κέντρο" του cluster και, έπειτα, το βαθμό συμμετοχής του κάθε αντικειμένου στους clusters. Μια άλλη προσέγγιση που προτείνεται στη βιβλιογραφία για να λύσει τα προβλήματα της στιβαρής ομαδοποίησης είναι βασισμένη στα πιθανολογικά μοντέλα (probalistic models). Η βάση αυτού του τύπου αλγορίθμων ομαδοποίησης είναι ο αλγόριθμος EM [40] (Expectation Maximization), ο οποίος παρέχει μια αρκετά γενική προσέγγιση στην εκμάθηση με παρουσία μη-παρατηρήσιμων (unobservable) μεταβλητών. Ένας κοινός αλγόριθμος είναι η πιθανολογική παραλλαγή του K-Means(fuzzy c- means), o οποίος είναι βασισμένος σε μίγμα γκαουσσιανών κατανομών. Αυτή η προσέγγιση του K-Means χρησιμοποιεί την πυκνότητα πιθανότητας παρά την απόσταση για να συσχετίσει τις εγγραφές με τους clusters [41]. Πιο συγκεκριμένα, θεωρεί τα κέντρα των clusters ως μέσα των γκαουσσιανών κατανομών. Κατόπιν, υπολογίζει την πιθανότητα ένα data point να παράγεται από τη j-οστή γκαουσσιανή (δηλ., ανήκει στον j-οστό cluster). Αυτή η προσέγγιση βασίζεται στο γκαουσσιανό πρότυπο για να εξάγει τους clusters και αναθέτει τα data points στους clusters υποθέτοντας ότι παράγονται από την κανονική κατανομή. Επίσης, αυτή η προσέγγιση 28

Δείτε περισσότερα