«Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης»

Transcript

1 «Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης» Η ιπλωµατική Εργασία παρουσιάστηκε ενώπιον του ιδακτικού Προσωπικού του Πανεπιστηµίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το ίπλωµα του Μηχανικού Πληροφοριακών και Επικοινωνιακών Συστηµάτων του ΝΙΚΟΛΑΟΥ ΚΩΝΣΤΑΝΤΟΥ ΑΚΗ

2 ΠΕΡΙΛΗΨΗ Η Αυτόµατη Κατηγοριοποίηση των Ιστοσελίδων είναι ένας επιστηµονικός τοµέας που συνεχώς κερδίζει έδαφος στις προτεραιότητες του κλάδου της Αυτόµατης Κατηγοριοποίησης Κειµένου εξαιτίας της ραγδαίας ανάπτυξης του ιαδικτύου και της, αναλόγου µεγέθους, ανάγκης των χρηστών για ευκολότερη πρόσβαση στην προσφερόµενη πληροφορία. Η παρούσα εργασία έχει ως σκοπό την σχεδίαση και ανάπτυξη ενός συστήµατος αυτόµατης ταξινόµησης ιστοσελίδων σε προκαθορισµένες κατηγορίες, που θα βασίζεται σε γνωστούς αλγορίθµους µηχανικής µάθησης. Για την επίτευξη του σκοπού αυτού µελετήθηκε το πρόβληµα της αυτόµατης κατηγοριοποίησης κειµένου και η εφαρµογή του στην ιδιαίτερη φύση των ιστοσελίδων. Χρησιµοποιήθηκε ένα σώµα ιστοσελίδων από το οποίο καθορίστηκαν οι θεµατικές κατηγορίες που άνηκαν τα στοιχεία του, καθώς και από το οποίο ορίστηκε το υποσύνολο του πάνω στο οποίο εκπαιδεύτηκε το σύστηµα. Τα πειράµατα που έγιναν για την παρούσα εργασία χαρακτηρίζονται από το είδος των αλγορίθµων µηχανικής µάθησης που χρησιµοποιήθηκαν, των τεχνικών εξαγωγής των χαρακτηριστικών, του τρόπου ανάθεσης βαρών στους όρους και των τεχνικών µείωσης του χώρου των χαρακτηριστικών. Τέλος, επιλεγούµε την τεχνική αυτή ταξινόµησης που επιφέρει την µεγαλύτερη αποτελεσµατικότητα στο σύστηµα που αναπτύξαµε. ii

3 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ... ii ΕΥΡΕΤΗΡΙΟ ΣΧΗΜΑΤΩΝ και ΠΙΝΑΚΩΝ... v 1.1 Αντικείµενο της διπλωµατικής εργασίας Στόχοι της διπλωµατικής εργασίας Αυτόµατη Κατηγοριοποίηση Κειµένου Ορισµός Είδη Κατηγοριοποίησης Κειµένου Εφαρµογές της Κατηγοριοποίησης Κειµένου Μηχανική Μάθηση Μηχανική Μάθηση και Κατηγοριοποίηση Κειµένου Κατασκευή Συστήµατος Αυτόµατης Κατηγοριοποίησης Κειµένου Μελέτη και αναπαράσταση του σώµατος κειµένων Επαγωγική κατασκευή του ταξινοµητή κειµένου Αποτίµηση της απόδοσης του ταξινοµητή Αλγόριθµοι Μάθηση κατά Bayes έντρα Απόφασης Μάθηση Βασισµένη σε Παραδείγµατα Μέθοδοι on-line Τεχνητά Νευρωνικά ίκτυα Μηχανές Υποστήριξης ιανυσµάτων Η µέθοδος της Ενδυνάµωσης Algorithm AdaBoost.M Do for t=1,2,,t Αυτόµατη Κατηγοριοποίηση Ιστοσελίδων Η γλώσσα προγραµµατισµού HTML Ιστοσελίδες και Αυτόµατη Κατηγοριοποίηση Επεξεργασία Ιστοσελίδων Πειράµατα και η Αξιολόγηση της Απόδοσης των Ταξινοµητών Οργάνωση των πειραµάτων Αξιολόγηση της Απόδοσης των Αλγορίθµων Ταξινόµησης Πειράµατα µε ανάθεση βάρους σύµφωνα µε την Συχνότητα εµφάνισης των Όρων των ιστοσελίδων Naïve Bayes Multinomial iii

4 Sequential Minimal Optimization k-nearest Neighbor AdaBoost.M Συµπεράσµατα πειραµάτων κεφαλαίου Πειράµατα µε ανάθεση βάρους σύµφωνα µε την συνάρτηση tfidf Naïve Bayes Multinomial Sequential Minimal Optimization k-nearest Neighbor AdaBoost.M Συµπεράσµατα πειραµάτων κεφαλαίου ΚΕΦΑΛΑΙΟ 4 Συµπεράσµατα 105 ΒΙΒΛΙΟΓΡΑΦΙΑ.108 iv

5 ΕΥΡΕΤΗΡΙΟ ΣΧΗΜΑΤΩΝ και ΠΙΝΑΚΩΝ Σχήµα 1: διαγραµµατική απεικόνιση του προβλήµατος κατηγοριοποίησης δυο γραµµικά διαχωρίσιµων κλάσεων... σελ. 30 Πίνακας : πίνακας κατάταξης των ιστοσελίδων του πειράµατος στις θεµατικές τους κατηγορίες και πλήθος τους ανά κατηγορία. σελ. 41 Πίνακας : είκοσι πρώτες σε συχνότητα λέξεις του συνόλου εκπαίδευσης για την οµάδα πειραµάτων µε λεξικό που δεν βασίζεται σε έτοιµη stoplist..... σελ. 45 Πίνακας : είκοσι πρώτες σε συχνότητα λέξεις του συνόλου εκπαίδευσης για την οµάδα πειραµάτων µε καταρχήν επεξεργασία τους µε τον αλγόριθµο Porter Stemmer.. σελ. 47 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 48 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης σελ. 50 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης..... σελ. 51 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης σελ. 53 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης σελ. 55 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης σελ. 55 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial,, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης σελ. 56 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial,, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης σελ. 56 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης σελ. 57 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης σελ. 58 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης. σελ. 60 v

6 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 61 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 63 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης.... σελ. 63 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 64 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization,, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 64 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον k-nn, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 65 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον k-nn, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης... σελ. 66 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 68 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 69 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον k-nn, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 70 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον k-nn, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 70 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 71 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον για τον k-nn, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης.... σελ. 71 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 72 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης.... σελ. 74 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης... σελ. 75 vi

7 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µικροεκτίµησης... σελ. 76 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 78 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης.... σελ. 78 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης... σελ. 79 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον AdaBoost.M1, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tf, µε προσέγγιση µακροεκτίµησης.... σελ. 79 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης.... σελ. 81 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 82 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 84 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 85 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 86 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 86 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial,, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 87 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον Naïve Bayes Multinomial, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 87 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης.... σελ. 88 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 89 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 91 vii

8 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 92 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 94 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 94 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 95 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον Sequential Minimal Optimization, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 95 Πίνακας (α1) : αποτελέσµατα πειραµάτων, για τον k-nn, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης.... σελ. 96 Πίνακας (α2) : αποτελέσµατα πειραµάτων, για τον k-nn, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 97 Πίνακας (α3) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και µη έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης... σελ. 99 Πίνακας (α4) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µικροεκτίµησης.... σελ. 100 Πίνακας (β1) : αποτελέσµατα πειραµάτων, για τον k-nn, µε µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 102 Πίνακας (β2) : αποτελέσµατα πειραµάτων, για τον k-nn, µε έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης... σελ. 102 Πίνακας (β3) : αποτελέσµατα πειραµάτων, για τον k-nn, µε εφαρµογή του Porter Stemmer και µη έτοιµη stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 103 Πίνακας (β4) : αποτελέσµατα πειραµάτων, για τον για τον k-nn, µε εφαρµογή του Porter Stemmer και έτοιµης stoplist και για βάρη βασισµένα στην tfidf, µε προσέγγιση µακροεκτίµησης.... σελ. 104 viii

9 ΚΕΦΑΛΑΙΟ 1 - Εισαγωγή 1.1 Αντικείµενο της διπλωµατικής εργασίας Η Κατηγοριοποίηση Κειµένων, ξεκινώντας πίσω στην δεκαετία του 1960 και κυρίως την δεκαετία του 1980 µε την ανάπτυξη της τεχνολογίας, προσφέρεται για µελέτη και έρευνα, προκειµένου να αντιµετωπιστούν οι ανάγκες για την ταξινόµηση εγγράφων µε όσο το δυνατότερο λιγότερο χρόνο και κόπο. Η ανάγκη αυτή έγινε ακόµα µεγαλύτερη, επιτακτική θα µπορούσαµε να πούµε, µε την πρόοδο της τεχνολογίας των τελευταίων χρόνων και την ευρεία πλέον χρήση των ηλεκτρονικών υπολογιστών. Τα κείµενα ψηφιακής µορφής έχουν µπει στη ζωή µας και το φαινόµενο αυτό αυξάνεται, όσο διογκώνεται µε ταχείς ρυθµούς, το ιαδίκτυο και αυξάνεται η δηµοφιλία του (ο αριθµός των σελίδων που ήταν διαθέσιµες στο ιαδίκτυο το 2000 ήταν 1 δισεκατοµµύριο µε πρόσθεση 1,5 εκατοµµυρίων καθηµερινά[john M.Pierce]). Το ιαδίκτυο προσφέρει µια ευρεία και εύκολη πρόσβαση σε µια τεράστια βιβλιοθήκη, σε µια τεράστια δεξαµενή πληροφοριών, µέσω της µορφής των ψηφιακών κειµένων. Όµως το παραπάνω γεγονός, αυτόµατα αυξάνει την ανάγκη των χρηστών να έχουν πρόσβαση στις πληροφορίες που του προσφέρονται, όσο το δυνατό ευκολότερα και ταχύτερα. Η ανάγκη αυτή των χρηστών του ιαδικτύου αντιµετωπίζεται µε την Κατηγοριοποίηση των Ιστοσελίδων σε συγκεκριµένες κατηγορίες ανάλογα µε το θεµατικό τους περιεχόµενο. Με αυτόν τον τρόπο επιτυγχάνεται η οµαδοποίηση των πληροφοριών µε βάση το είδος του θέµατος που ασχολούνται ώστε αυτές µετέπειτα να χρησιµοποιηθούν από µια µηχανή αναζήτησης του ιαδικτύου ή για την κατασκευή ιεραρχικών καταλόγων που έχουν στόχο να οργανώσουν ιστοσελίδες σε θεµατικές συλλογές όπως π.χ. οι ιεραρχικοί κατάλογοι του Yahoo. Κάτι τέτοιο προσφέρει στον χρήστη µια ευκολότερη και ταχύτερη πρόσβαση στις πληροφορίες που αναζητά, καθώς οι µηχανές αναζήτησης και οι ιεραρχικοί κατάλογοι, όπως έχουν δείξει έρευνες [Chen και Dumais], είναι οι δηµοφιλέστεροι τρόποι µέχρι σήµερα µέσω των οποίων ένας χρήστης του ιαδικτύου περιηγείται στις ιστοσελίδες. Το αποτέλεσµα των παραπάνω είναι ότι η Κατηγοριοποίηση των Ιστοσελίδων παίζει σηµαντικό ρόλο στην λειτουργικότητα του ιαδικτύου, και αναµένεται να παίξει ακόµα σηµαντικότερο ρόλο στο µέλλον, καθώς ο συγκεκριµένος επιστηµονικός κλάδος έχει ραγδαία ανάπτυξη. Προφανώς, η Κατηγοριοποίηση των Ιστοσελίδων, εξαιτίας του τεράστιου όγκου δεδοµένων, δεν µπορεί να γίνει παρά αυτόµατα. Βασίζεται σε στατιστικές και αλγόριθµους Μηχανικής Μάθησης όπως η µάθηση κατά Bayes, ο αλγόριθµος κ- πλησιέστερων γειτόνων, οι µηχανές υποστήριξης διανυσµάτων, τα νευρωνικά δίκτυα, τα δέντρα απόφασης κ.ά. Σε σχέση µε την Κατηγοριοποίηση Κειµένου, είναι δυσκολότερη εξαιτίας της ιδιαίτερης φύσης των ιστοσελίδων, οι οποίες µπορεί να παραπέµπουν σε άλλες ιστοσελίδες, να περιέχουν πληροφορίες µέσα σε εντολές της γλώσσας προγραµµατισµού της HTML, µεταδεδοµένα, πληροφορίες για την δοµή τους, εικόνες, βίντεο και άλλα multimedia χαρακτηριστικά. 1

10 Όλες οι πληροφορίες από τα παραπάνω χαρακτηριστικά που µπορεί να έχει µια ιστοσελίδα, µπορούν να κάνουν αποδοτικότερη την κατηγοριοποίηση από ότι θα ήταν αν βασιζόµαστε στο κυρίως κείµενο της, αλλά υπάρχει και το ενδεχόµενο αν δεν χρησιµοποιηθούν σωστά να οδηγήσουν στο αντίθετο αποτέλεσµα. 1.2 Στόχοι της διπλωµατικής εργασίας Η παρούσα εργασία ασχολείται µε την ανάπτυξη ενός συστήµατος αυτόµατης ταξινόµησης ιστοσελίδων, οι οποίες υπόκεινται κάτω από προκαθορισµένες θεµατικές κατηγορίες. Το σύστηµα αυτό βασίζεται στους γνωστούς αλγορίθµους µηχανικής µάθησης: Naïve Bayes Multinomial, SMO, k-nn και Ada.Boost.M1. Χρησιµοποιήθηκε ένα έτοιµο σώµα ιστοσελίδων από την µελέτη του οποίου προήρθαν οι θεµατικές κατηγορίες στις οποίες ανήκουν αυτές και από το σώµα αυτό πρόεκυψε το υποσύνολο εκείνο που χρησιµοποιήθηκε για την εκπαίδευση του συστήµατος. Ως απώτερο σκοπό της η εργασία αυτή έχει την µελέτη του προβλήµατος της Αυτόµατης Κατηγοριοποίησης των Ιστοσελίδων και για αυτό, µέσω του συστήµατος ταξινόµησης που αναπτύσσεται, διερευνούµε τεχνικές ταξινόµησης και µελετάτε η αποτελεσµατικότητά τους. Ιδιαίτερα προσανατολιζόµαστε στο πρόβληµα της εξαγωγής των χαρακτηριστικών των ιστοσελίδων, στην ποσοτική αναπαράσταση των χαρακτηριστικών αυτών και στο πρόβληµα της µείωσης της διαστατικότητας. Τα χαρακτηριστικά των ιστοσελίδων προέρχονται από το κυρίως σώµα τους και από τα HTML tags των: τίτλων, παραποµπών, ΜΕΤΑ και εικόνων. Χρησιµοποιούνται επίσης, οι συναρτήσεις ανάθεσης βαρών στους όρους tf και tfidf, stoplists και ένας αλγόριθµος ληµµατοποίησης. Τέλος, θα επιλεγεί ο αλγόριθµος και η τεχνική ταξινόµησης που θα επιφέρουν στο σύστηµα την µεγαλύτερη αποδοτικότητα. 2

11 ΚΕΦΑΛΑΙΟ 2 Θεωρητικό Υπόβαθρο 2.1 Αυτόµατη Κατηγοριοποίηση Κειµένου Ο επιστηµονικός κλάδος της Αυτόµατης Κατηγοριοποίησης Κειµένου (Automated Text Categorization) έχει την αρχή της στην δεκαετία του 1960, αλλά η µεγάλη ανάπτυξη του έγινε την δεκαετία του 1990 εξαιτίας της ανάγκης για την διαχείριση του µεγάλου όγκου πληροφοριών που επιτάσσει η εποχή µας και την ραγδαία εξέλιξη στον τοµέα του hardware. Τα τελευταία δέκα χρόνια, η ανάπτυξη των τοµέων που σχετίζονται µε την διακίνηση της πληροφορίας δηµιούργησε την ανάγκη διαχείρισης εγγράφων που βρίσκονται σε ψηφιακή µορφή και των οποίων ο όγκος συνεχώς αυξανόταν. Αυτό είχε ως αποτέλεσµα να υπάρξει µεγάλο ενδιαφέρον για την ανάπτυξη του τοµέα της Κατηγοριοποίησης Κειµένου. Μέχρι την δεκαετία του 1990, η Κατηγοριοποίηση Κειµένων ήταν συνυφασµένη µε εύρεση ειδικών κανόνων από τους επιστήµονες, κάτω από τους οποίους γινόταν ανάθεση κειµένων στις διάφορες κατηγορίες. Από εκεί και έπειτα, η επιστηµονική κοινότητα, µε την βοήθεια των τοµέων της Μηχανικής Μάθησης και της Ανάκτησης της Πληροφορίας, συνήθως προσεγγίζει την Αυτόµατη Κατηγοριοποίηση Κειµένων µέσω της ανάπτυξης µιας γενικής επαγωγικής διαδικασίας που αυτόµατα κατασκευάζει έναν αυτόµατο ταξινοµητή κειµένου, ο οποίος µε την βοήθεια ενός συνόλου ήδη ταξινοµηµένων εγγράφων, επεξεργάζεται και «µαθαίνει» τα χαρακτηριστικά των κατηγοριών που τον ενδιαφέρουν, ώστε να τα χρησιµοποιήσει για να ταξινοµήσει ένα άγνωστο έγγραφο. Τα πλεονεκτήµατα από αυτήν την τελευταία προσέγγιση είναι η ακρίβεια στην ταξινόµηση που φτάνει αυτήν της πρώτης προσέγγισης που αναφέρθηκε παραπάνω, δηλαδή χρησιµοποιώντας ειδικούς κανόνες, χωρίς να απαιτείται η µεσολάβηση ανθρώπινης παρουσίας Ορισµός Όπως αναφέρθηκε και παραπάνω, η Αυτόµατη Κατηγοριοποίηση Κειµένου είναι η διαδικασία της αυτόµατης ταξινόµησης ενός συνόλου εγγράφων κάτω κατηγορίες, µε την βοήθεια ενός προκαθορισµένου συνόλου κατηγοριών. Αναλυτικότερα, έστω ένα σύνολο εγγράφων D { d, } =,... 1 d n το οποίο πρέπει να C = c...,. ταξινοµηθεί κάτω από ένα σύνολο προκαθορισµένων κατηγοριών { } 1, c m 3

12 Με τον όρο Κατηγοριοποίηση Κειµένων περιγράφουµε την διαδικασία ανάθεσης µιας Boolean τιµής σε κάθε ζευγάρι d j, ci D C, δηλαδή την διαδικασία προσέγγισης της άγνωστης συνάρτησης-στόχου Φ ( : D C { T, F}, που εκφράζει πως τα έγγραφα οφείλουν να κατηγοριοποιηθούν, µε την βοήθεια µιας συνάρτησης Φ : D C { T, F} που ονοµάζεται ταξινοµητής (classifier) (ή κανόνας, ή υπόθεση, ή µοντέλο). H τιµή Τ δίνεται αν γίνεται ανάθεση του εγγράφου d j κάτω από την κατηγορία c i, ενώ η τιµή F δίνεται αν δεν γίνεται ανάθεση του εγγράφου d j κάτω από την κατηγορία c i. Αυτό µπορεί να περιγραφεί και από τον παρακάτω πίνακα, όπου οι τιµές T, F α 11,...,α mn παίρνουν τις τιµές { } d 1... d 2 d n c 1 α 11 α 1j α 1n c 2 α i1 α ij α in c n α m1 α mj α mn Σε σχέση µε τα παραπάνω θα πρέπει να σηµειωθεί ότι: Τα ονόµατα των κατηγοριών είναι απλώς συµβολικές ετικέτες και τα οποία δεν µπορούν να παρέχουν καµιά άλλη γνώση που θα βοηθήσει στην διαδικασία της κατηγοριοποίησης. εν παρέχεται κανενός είδους εξωγενής γνώσης (ηµεροµηνία έκδοσης, τύπος εγγράφου, πηγή έκδοσης κτλ), οπότε η ταξινόµηση θα πρέπει να βασιστεί µόνο στην ενδογενή γνώση που προέρχεται από τις πληροφορίες που µπορούµε να εκµαιεύσουµε από το κάθε έγγραφο. Αυτό έχει σαν αποτέλεσµα ο χαρακτηρισµός µιας απόφασης του ταξινοµητή για το αν είναι σωστή ή λάθος, να είναι υποκειµενική. Να παρουσιάζεται δηλαδή το ίδιο φαινόµενο µε αυτό του να διαφωνούν πολύ συχνά δυο άτοµα που καλούνται να αποφασίσουν για το σε ποια κατηγορία πρέπει να καταταχτεί ένα έγγραφο (phenomenon of interindexer inconsistency) Είδη Κατηγοριοποίησης Κειµένου Ανάλογα µε την εφαρµογή που πρέπει να εκτελέσουµε, η Κατηγοριοποίηση Κειµένου µπορεί να υποδιαιρεθεί σε διάφορα είδη. Αυτά µπορεί να είναι ανάλογα είτε του πλήθους των κατηγοριών που πρέπει να ταξινοµηθούν τα έγγραφα, είτε του προσανατολισµού της κατηγοριοποίησης (ταξινόµηση κάτω από κατηγορίες ή στο 4

13 κείµενο), είτε της απόφασης της ταξινόµησης. c C Πιο συγκεκριµένα, αν η εφαρµογή απαιτεί ακριβώς µια κατηγορία i να d D ανατεθεί σε κάθε έγγραφο j τότε έχουµε να κάνουµε µε κατηγοριοποίηση µονής 0 n C ετικέτας (single-label), ενώ αν ένας αριθµός κατηγοριών n j, µε j, µπορεί να d D αντιστοιχηθεί σε ένα έγγραφο j τότε έχουµε να κάνουµε µε κατηγοριοποίηση πολλαπλής ετικέτας (multi-label). Μια περίπτωση κατηγοριοποίησης µονής ετικέτας είναι η δυαδική (binary) κατηγοριοποίηση. Σε αυτήν την περίπτωση, σε κάθε έγγραφο d j Dπρέπει να ανατεθεί είτε η κατηγορία c είτε η συµπληρωµατική της c. Υπό αυτό i i το πρίσµα, ένα πρόβληµα κατηγοριοποίησης πολλαπλής ετικέτας (αν οι κατηγορίες c είναι ανεξάρτητες µεταξύ τους) µπορεί να αντιµετωπιστεί ως ανεξάρτητα προβλήµατα δυαδικής κατηγοριοποίησης, όπου σε κάθε έγγραφο ανατίθεται είτε µια i κατηγορία c c i, είτε µια κατηγορία και που αυτή η κατηγορία µπορεί να είναι οποιαδήποτε από τις κατηγορίες που µας ενδιαφέρουν. Το αποτέλεσµα είναι ότι ένας c ταξινοµητής πολλαπλής ετικέτας µπορεί να δηµιουργηθεί από ανεξάρτητους ταξινοµητές. Να σηµειωθεί κάπου εδώ ότι η φιλολογία περί Κατηγοριοποίησης Κειµένων εξαπλώνεται κυρίως γύρω από την δυαδική κατηγοριοποίηση. Επίσης, υπάρχουν δύο τρόποι να χρησιµοποιήσουµε έναν ταξινοµητή κειµένου ανάλογα µε το είδος της εφαρµογής και της φύσης του ταξινοµητή. Ο ένας τρόπος χρησιµοποιείται όταν θέλουµε να βρούµε κάτω από ποια c C κατηγορία i µπορεί να ταξινοµηθεί ένα έγγραφο και ο οποίος ονοµάζεται κατηγοριοποίηση βασισµένη στην κατηγορία (document-pivoted categorization-dpc). Αυτός ο τρόπος εφαρµόζεται όταν δεν έχει καθοριστεί το σύνολο των κατηγοριών από την αρχή της εκτέλεσης της εφαρµογής και κατά την διάρκεια της µπορεί να προστεθεί µια νέα κατηγορία. O δεύτερος τρόπος χρησιµοποιείται όταν θέλουµε να βρούµε όλα τα έγγραφα d j D που µπορούν να ταξινοµηθούν κάτω από µια κατηγορία c i C. Αυτή η κατηγοριοποίηση ονοµάζεται κατηγοριοποίηση βασισµένη στο κείµενο (categorypivoted categorization-cpc). Τέλος, υπάρχει η περίπτωση ένα σύστηµα ταξινόµησης να κατατάσσει σε µια C = λίστα τις κατηγορίες { c, 1..., c m } d D ανάλογα µε την καταλληλότητα ενός εγγράφου j, χωρίς να παίρνει µια τελική απόφαση για αυτές (category-ranking Text Classification). Στην συνέχεια αυτήν την λίστα µπορεί να την χρησιµοποιήσει ένας ειδικός για ταξινοµήσει το έγγραφο. Υπάρχει και η άλλη περίπτωση όπου ένα d D σύστηµα ταξινόµησης να κατατάσσει ένα έγγραφο j c C κάτω από µια κατηγορία i (document-ranking Text Classification), οπότε ένας ειδικός µπορεί να εξετάσει την ταξινοµηµένη λίστα των εγγράφων. Σε αυτή την περίπτωση, αντίθετα µε την προηγούµενη µπορεί ένας ταξινοµητής να κατατάσσει αυτοµάτως ένα έγγραφο, χωρίς την συµµετοχή κανενός εξωγενή παράγοντα Εφαρµογές της Κατηγοριοποίησης Κειµένου Σε αυτήν την ενότητα θα γίνει µια προσπάθεια να παρουσιαστούν οι κυριότερες 5

14 εφαρµογές του τοµέα της Αυτόµατης Κατηγοριοποίησης Κειµένου, από την αρχή της ανάπτυξής της στην δεκαετία του 1960, έως σήµερα: 1. Αυτόµατη Ευρετηριοποίηση υαδικών Συστηµάτων Ανάκτησης Πληροφορίας (Automatic Indexing for Boolean Information Retrieval Systems). Αυτή η εφαρµογή σκοπό της έχει την αυτόµατη ευρετηριοποίηση εγγράφων για συστήµατα Ανάκτησης Πληροφορίας, µε βάση ένα ελεγχόµενο λεξικό. ηλαδή, σε κάθε κείµενο ανατίθεται ένα σύνολο από λέξεις-κλειδιά ή φράσεις και το οποίο είναι ένα σύνολο πεπερασµένο που ονοµάζεται ελεγχόµενο λεξικό. Με αυτό το είδος των εφαρµογών σχετίζεται και η Αυτόµατη Παραγωγή Μεταδεδοµένων (Automated Metadata Generation). Η παραπάνω εφαρµογή χρησιµοποιείται κυρίως στις ψηφιακές βιβλιοθήκες όπου ένα κείµενο µπορεί να περιγραφεί από ένα σύνολο µεταδεδοµένων, όπως π.χ. η ηµεροµηνία της δηµιουργίας του, το είδος του εγγράφου, η διαθεσιµότητα του κτλ. 2. Οργάνωση Εγγράφων (Document Organization). Το είδος των εφαρµογών αυτών έχουν ως στόχο τους την οργάνωση εγγράφων κάτω από κατηγορίες, είτε για προσωπικούς σκοπούς, είτε ως βάσεις εγγράφων. Π.χ. τα γραφεία µιας εφηµερίδας µπορούν να χρησιµοποιήσουν ένα τέτοιο σύστηµα για να ταξινοµούν τις ειδήσεις που λαµβάνουν, κάτω από κατηγορίες όπως πολιτικά νέα, αστυνοµικά, κτλ 3. Φιλτράρισµα Εγγράφων (Text Filtering). Ο όρος Φιλτράρισµα Εγγράφων αναφέρεται σε εκείνες τις εφαρµογές που ως στόχο τους έχουν την ταξινόµηση ενός συνόλου εισερχόµενων εγγράφων που αποστέλλονται µε ασύγχρονο τρόπο από µια πηγή πληροφορίας σε έναν καταναλωτή πληροφορίας. Ένα τέτοιο σύστηµα µπορεί να εγκατασταθεί στο άκρο της πηγής της πληροφορίας, όπου θα έχει ως σκοπό να φιλτράρει τα έγγραφα της πηγής και να αφήνει µόνο τα κατάλληλα έγγραφα να δροµολογηθούν προς τον καταναλωτή πληροφορίας. Ή, παρόµοια, το σύστηµα µπορεί να εγκατασταθεί στο άκρο του καταναλωτή πληροφορίας και να µπλοκάρει τα έγγραφα αυτά που δεν τον ενδιαφέρουν. 4. Αποσαφήνιση Νοήµατος Λέξης (Word Sense Disambiguation). Οι εφαρµογές αυτές έχουν ως στόχο την εύρεση του νοήµατος µιας λέξης µε διφορούµενη έννοια, που υπάρχει σε ένα έγγραφο. Παρόµοιου τύπου εφαρµογές είναι και του ορθογράφου µε βάση το περιεχόµενο του κειµένου (context-sensitive spelling correction), της κατάλληλης επιλογής λέξης (word choice selection) κ.α. 5. Αυτόµατη Απόδοση Συγγραφικής Ιδιότητας (Automated Authorship Attribution), Ταξινόµηση Ανάλογη της Προέλευσης (Genre Classification). Οι εφαρµογές που σχετίζονται µε την Αυτόµατη Απόδοση Συγγραφικής Ιδιότητας έχουν ως στόχο τον προσδιορισµό του ιδιοκτήτη ενός κειµένου αµφισβητούµενης ή άγνωστης προέλευσης, µε την βοήθεια ενός προκαθορισµένου συνόλου υποψηφίων ιδιοκτητών. Η Ταξινόµηση Ανάλογη της Προέλευσης, όπως λέει και το όνοµα της, έχει ως στόχο την ταξινόµηση των εγγράφων κάτω από κατηγορίες, ανάλογα µε τα ιδιαίτερα χαρακτηριστικά του τρόπου γραφής τους, και όχι µε το θέµα τους. 6. Φιλτράρισµα Ανεπιθύµητης Ηλεκτρονικής Αλληλογραφίας (Spam Filtering). Το Φιλτράρισµα Ανεπιθύµητης Ηλεκτρονικής Αλληλογραφίας είναι µια κατηγορία εφαρµογών της Αυτόµατης Κατηγοριοποίησης Κειµένου, που είναι 6

15 ιδιαίτερα δηµοφιλής την σηµερινή εποχή λόγω της ραγδαίας εξέλιξης του διαδικτύου. Οι εφαρµογές της κατηγορίας αυτής αποτελούνται από ένα συνδυασµό τεχνικών filtering και genre classification και είναι µια προσπάθεια να µην παραδίνεται στον κάτοχο µιας ηλεκτρονικής διεύθυνσης, αλληλογραφία που δεν επιθυµεί. 7. Ιεραρχική Κατηγοριοποίηση Ιστοσελίδων (Hierarchical Categorization of Web Pages). Επίσης µια κατηγορία εφαρµογών µε µεγάλη ανάπτυξη τα τελευταία χρόνια εξαιτίας της ραγδαίας εξέλιξης του διαδικτύου, είναι η Κατηγοριοποίηση Ιστοσελίδων και διαδικτυακών τόπων, κάτω από ιεραρχικούς καταλόγους που βρίσκονται σε διάφορες µηχανές αναζήτησης, µε σκοπό να διευκολύνουν τους χρήστες να επισκέπτονται ιστοσελίδες και να αναζητούν πληροφορίες µε το ίδιο θεµατικό περιεχόµενο, καταναλώνοντας λιγότερο κόπο και χρόνο. Γενικότερα, µπορούµε να πούµε ότι τα κυριότερα κοινά γνωρίσµατα των εφαρµογών της Κατηγοριοποίησης Κειµένου είναι τα παρακάτω: 1. Η ανάγκη για ταξινόµηση εγγράφων που το κύριο συστατικό τους είναι η ύπαρξη κειµένου. 2. Αυτά τα έγγραφα είναι σε τόσο µεγάλες ποσότητες που η ταξινόµηση τους από ανθρώπους έχει µεγάλο χρηµατικό και χρονικό κόστος. 3. Το γεγονός ότι το σύνολο των κατηγοριών είναι γνωστό εκ των προτέρων και η διαφοροποίηση του µέσα στο χρόνο είναι µικρή. 2.1 Μηχανική Μάθηση Ο τοµέας της Μηχανικής Μάθησης είναι µια περιοχή της Τεχνητής Νοηµοσύνης που ως σκοπό του έχει να κατασκευάσει προγράµµατα υπολογιστών που αυτόµατα θα βελτιώνεται η απόδοση τους, µε την εµπειρία που θα αποκτούν κατά την διάρκεια του χρόνου της λειτουργίας τους. Αυτή η ιδέα στην οποία στηρίζεται η Μηχανική Μάθηση είναι κάτι που απασχόλησε τον επιστηµονικό κλάδο από την πρώτη στιγµή που ανακαλύφθηκαν οι ηλεκτρονικοί υπολογιστές. εν µπορούµε να πούµε ότι ακόµα οι υπολογιστές µαθαίνουν ικανοποιητικά σε σχέση µε τους ανθρώπους, αλλά µια σειρά προσπαθειών έχουν γίνει από τα τέλη της δεκαετίας του 1960 µέχρι σήµερα. Μερικές επιτυχηµένες προσπάθειες στον κλάδο της Μηχανικής Μάθησης είναι στην Αναγνώριση Οµιλίας, στην Αυτόµατη Κατηγοριοποίηση Κειµένου, στην Ταξινόµηση Νέων Αστρονοµικών οµών, στο παίξιµο παιχνιδιών όπως τάβλι και σκάκι σε επίπεδο ανταγωνισµού παγκόσµιων πρωταθλητών. Ορισµός Μηχανικής Μάθησης: Ένα πρόγραµµα υπολογιστή λέγεται ότι µαθαίνει από την εµπειρία Ε κατά την εφαρµογή διεργασιών και µε µέτρο απόδοσης Α, αν η απόδοση του στις διεργασίες, όπως υπολογίζεται από το µέτρο Α, βελτιώνεται µε την εµπειρία Ε. 7

16 Για να προσεγγίσουµε από την σωστή οπτική γωνία ένα πρόβληµα Μηχανικής Μάθησης, αρχικά πρέπει να το ορίσουµε χρησιµοποιώντας τα παρακάτω τρία χαρακτηριστικά: 1. ιεργασία που εκτελεί το πρόγραµµα 2. Μέτρο Απόδοσης Α σύµφωνα µε το οποίο αξιολογείται το πρόγραµµα 3. Εµπειρία Ε που αποκτά το πρόγραµµα και την χρησιµοποιεί για την µετέπειτα αύξηση της απόδοσης του σε επόµενες διεργασίες Στην συνέχεια, για να σχεδιάσουµε ένα σύστηµα Μηχανικής Μάθησης, θα πρέπει να ακολουθήσουµε τα εξής βήµατα: 1. Προσδιορισµός του τύπου των δεδοµένων εισόδου 2. Προσδιορισµός της συνάρτησης-στόχου 3. Προσδιορισµός της αναπαράστασης της συνάρτησης µάθησης 4. Προσδιορισµός του αλγορίθµου µάθησης 5. Τελικός σχεδιασµός συστήµατος Προσδιορισµός του τύπου των δεδοµένων εισόδου Προσδιορισµός της συνάρτησηςστόχου Προσδιορισµός της αναπαράστασης της συνάρτησης µάθησης Προσδιορισµός του αλγορίθµου µάθησης Τελικός σχεδιασµός συστήµατος 8

17 1. Προσδιορισµός του τύπου των δεδοµένων εκπαίδευσης Στην προσπάθεια µας να σχεδιάσουµε ένα σύστηµα µάθησης, αρχικά θα πρέπει να προσδιορίσουµε τον τύπο της εµπειρίας που θα χρησιµοποιηθεί από το σύστηµα για την µάθηση του. Αυτό είναι καθοριστικό στην µετέπειτα απόδοση του ταξινοµητή. Τρία είναι τα χαρακτηριστικά αυτού του σταδίου: 1. Το πρώτο χαρακτηριστικό συνίσταται στην επιλογή του αν η εµπειρία που θα ευθύνεται για την εκπαίδευση, θα παρέχει στο σύστηµα άµεση ή έµµεση γνώση. ηλαδή αν το σύστηµα θα έχει την δυνατότητα να µάθει από άµεσα παραδείγµατα εκπαίδευσης που θα έχουν χαρακτηριστεί ως προς την γνώση που παρέχουν, ή εναλλακτικά, το σύστηµα θα µπορεί να µάθει από έµµεσα παραδείγµατα, οπότε και θα πρέπει το ίδιο το σύστηµα να εκµαιεύσει την γνώση από αυτά κατά το στάδιο της εκπαίδευσης του. Προφανώς, η άµεση εκπαίδευση προσφέρει ευκολότερη µάθηση στο σύστηµα από ότι η έµµεση. Αυτές οι δυο κατηγορίες χαρακτηρίζονται επίσης ως µάθηση µε επίβλεψη (supervised learning) στην περίπτωση που τα στιγµιότυπα εκπαίδευσης καθορίζουν την διαδικασία της µάθησης (όπως π.χ. τα πρόβληµα κατηγοριοποίησης κειµένου όπου το σωστό αποτέλεσµα της ταξινόµησης είναι µέρος της πληροφορίας των παραδειγµάτων), και ως µάθηση χωρίς επίβλεψη (unsupervised learning) όταν το σύστηµα ταξινόµησης είναι υπεύθυνο για την ανακάλυψη της γνώσης (π.χ. στις περιπτώσεις οµαδοποίησης (clustering) όπου ο ταξινοµητής οµαδοποιεί τα όµοια στιγµιότυπα ώστε έπειτα να βρει τις κατηγορίες του προβλήµατος. 2. Το δεύτερο χαρακτηριστικό συνίσταται στο κατά πόσο το σύστηµα έχει τον πλήρη έλεγχο των παραδειγµάτων κατά την διάρκεια της εκπαίδευσης ή ζητά επιπλέον γνώση από τον χρήστη. 3. Το τρίτο χαρακτηριστικό συνίσταται στο κατά πόσο καλά αναπαριστούν την γνώση τα παραδείγµατα εκπαίδευσης και κατά πόσο αυτή η αναπαράσταση έχει οµοιότητες µε τα παραδείγµατα ελέγχου πάνω στα οποία θα βασιστεί η αξιολόγηση του συστήµατος. Να σηµειωθεί ότι η µάθηση είναι πιο αξιόπιστη όταν η οµοιότητα αυτή είναι µεγάλη. 2. Προσδιορισµός της συνάρτησης-στόχου Το δεύτερο στάδιο της σχεδίασης ενός συστήµατος µάθησης είναι συνυφασµένο µε τον προσδιορισµό του τύπου της γνώσης που θα χρησιµοποιηθεί και πως από αυτή θα «µάθει» το σύστηµα. ηλαδή, θα πρέπει να ορίσουµε στο σύστηµα πως από ένα παράδειγµα θα βρει την γνώση που θέλει και πως θα την χαρακτηρίσει. Αυτό θα γίνει διαµέσου της εύρεσης της κατάλληλης συνάρτησης, της οποίας η τιµή θα χρησιµοποιείτε για να αποφασίζει το σύστηµα για το παράδειγµα που καλείται να επεξεργαστεί. 3. Προσδιορισµός της αναπαράστασης της συνάρτησης-στόχου Έπειτα, θα πρέπει να µελετηθούν τα παραδείγµατα που θα χρησιµοποιήσει το σύστηµα ώστε να προσδιοριστεί η φύση τους και των ιδιαίτερων χαρακτηριστικών τους. Στην συνέχεια θα πρέπει να αποφασιστεί µε ποιον τρόπο θα αναπαρασταθούν τα χαρακτηριστικά τους που µας ενδιαφέρουν για να τα χρησιµοποιήσει η συνάρτηση-στόχος, π.χ. µέσω ενός διανύσµατος. Τα χαρακτηριστικά µπορούν να είναι: 1. διακριτά σύµβολα, οπότε και ονοµάζονται ονοµαστικά (nominal) 9

18 2. διακριτά σύµβολα σε διάταξη οπότε και ονοµάζονται τακτικά (ordinal) 3. περιοδικά (interval) χαρακτηριστικά των οποίων οι τιµές είναι διατεταγµένες και παρουσιάζουν περιοδικότητα όπως π.χ. το χαρακτηριστικό «έτος» 4. αναλογικά (ratio) χαρακτηριστικά που έχουν τις ιδιότητες των πραγµατικών αριθµών Τα περισσότερο χρησιµοποιούµενα χαρακτηριστικά είναι τα ονοµαστικά και τα τακτικά. Τα ονοµαστικά µπορούν να είναι ρητά (categorical), απαριθµηµένα (enumerated) ή διακριτά (discrete), ενώ τα τακτικά µπορεί να είναι αριθµητικά (numeric) ή συνεχή (continuous). Το πλήθος των χαρακτηριστικών, έστω d, προσδιορίζει τον d-διάστατο χώρο του προβλήµατος και ορίζει το µέγεθος της αναπαράστασης κάθε στιγµιότυπου εκπαίδευσης που στην συγκεκριµένη περίπτωση θα έχει d διαστάσεις. Επίσης, θα πρέπει να δοθεί έµφαση στο γεγονός ότι υπάρχει η περίπτωση να υπάρξουν λάθη στα χαρακτηριστικά ορισµένων παραδειγµάτων. Αυτό ονοµάζεται θόρυβος (noise) και η ύπαρξη του, στην περίπτωση που δεν παρουσιάζεται µε την ίδια µορφή στις φάσεις εκπαίδευσης και ελέγχου, οδηγεί στην χαµηλή απόδοση του συστήµατος µάθησης. Ή, υπάρχει η περίπτωση κάποιες τιµές των χαρακτηριστικών να λείπουν οπότε οδηγούµαστε και πάλι σε χαµηλή απόδοση. 4. Προσδιορισµός του αλγορίθµου Στην συνέχεια θα πρέπει να προσδιοριστεί ο αλγόριθµος που θα επεξεργαστεί τα παραδείγµατα κατά το στάδιο της εκπαίδευσης ώστε να υπολογιστούν οι πληροφορίες που προσφέρουν και η συνάρτηση-στόχος ώστε να µεγιστοποιείται η απόδοση του συστήµατος. 5. Τελικός σχεδιασµός συστήµατος Για τον τελικό σχεδιασµό του συστήµατος θα πρέπει να αναφερθεί ένα χαρακτηριστικό που θα πρέπει να διαθέτει ένα σύστηµα Μηχανικής Μάθησης καθώς είναι καθοριστικό για την απόδοση του. Αυτό είναι η ικανότητα γενίκευσης του (generalization ability) η οποία κάνει το σύστηµα να γενικεύει από τα συγκεκριµένα παραδείγµατα εκπαίδευσης στα άγνωστα παραδείγµατα, δηλαδή, να χρησιµοποιεί αποτελεσµατικότερα την γνώση που απέκτησε κατά το στάδιο της εκπαίδευσης, στο στάδιο του ελέγχου. Πιο συγκεκριµένα ισχύει ότι αν το σύστηµα κατά την εκπαίδευση του κατέληξε σε µια υπόθεση που είναι συνεπής µε τα περισσότερα στιγµιότυπα εκπαίδευσης, τότε θα είναι συνεπής και µε τα περισσότερα στιγµιότυπα ελέγχου. Υπάρχει όµως η περίπτωση όταν η υπόθεση είναι σε πολύ µεγάλο βαθµό συνεπής µε τα παραδείγµατα εκπαίδευσης, να µάθει και τα χαρακτηριστικά µικρής βαρύτητας οπότε και θα µειωθεί η απόδοση του συστήµατος κατά το στάδιο του ελέγχου. Αυτό το τελευταίο είναι γνωστό ως φαινόµενο του υπερταιριάσµατος (overfitting). 10

19 2.3 Μηχανική Μάθηση και Κατηγοριοποίηση Κειµένου Την περίοδο της δεκαετίας του 80, ένα σύστηµα κατηγοριοποίησης κειµένων βασίζονταν στην κατασκευή κανόνων για κάθε κατηγορία, από τους ειδικούς, ώστε αν ικανοποιούταν ένας κανόνας για µια κατηγορία, το έγγραφο κατατασσόταν κάτω από αυτή. Κάτι τέτοιο, αν και ήταν αποδοτικό, κόστιζε πάρα πολύ σε χρόνο και κόπο. Την δεκαετία του 90 η παραπάνω προσέγγιση εγκαταλείφθηκε και έγινε προσπάθεια να εξεταστεί το πρόβληµα µε την βοήθεια της Μηχανικής Μάθησης. Υπό το πρίσµα της Μηχανικής Μάθησης, µια γενική επαγωγική διαδικασία c C κατασκευάζει αυτόµατα έναν ταξινοµητή για κάθε µια κατηγορία i, όπου C είναι το σύνολο των κατηγοριών. Αυτό το καταφέρνει µε την βοήθεια των παραδειγµάτων εκπαίδευσης τα οποία έχουν ήδη ταξινοµηθεί κάτω από κάθε κατηγορία c. ηλαδή i πρόκειται για ένα πρόβληµα µάθησης µε επίβλεψη. Για κάθε παράδειγµα εκπαίδευσης, το σύστηµα ταξινόµησης συγκεντρώνει τα χαρακτηριστικά του και κατασκευάζει έναν ταξινοµητή για την κατηγορία στην οποία ανήκει. Οπότε έπειτα, όταν εξετάσει ένα άγνωστο στιγµιότυπο ελέγχου, µπορεί ανάλογα µε τα χαρακτηριστικά του να αποφασίσει αν υπόκειται στον κανόνα του ταξινοµητή της κατηγορίας c για να ταξινοµηθεί κάτω αυτήν. i Αυτή η προσέγγιση προσφέρει το πλεονέκτηµα να µην επικεντρωνόµαστε στην κατασκευή ενός ταξινοµητή αλλά σε µια αυτόµατη διαδικασία κατασκευής των ταξινοµητών και για αυτό δεν χρειάζεται παραπάνω εργασία και σπάταλης χρόνου από τους ειδικούς αν χρειαστεί να προσεγγιστεί ένα νέο πρόβληµα (ή να διαφοροποιηθεί το ήδη υπάρχον), καθώς αυτό µπορεί γίνει µε το ίδιο σύστηµα Κατασκευή Συστήµατος Αυτόµατης Κατηγοριοποίησης Κειµένου Η κατασκευή ενός συστήµατος Αυτόµατης Κατηγοριοποίησης Κειµένου αποτελείται από τρία κύρια στάδια: 1. Μελέτη και αναπαράσταση του σώµατος κειµένων 2. Επαγωγική κατασκευή του ταξινοµητή κειµένου 3. Αποτίµηση της απόδοσης του ταξινοµητή Τα οποία θα αναλυθούν περισσότερο στις ακόλουθες ενότητες: Μελέτη και αναπαράσταση του σώµατος κειµένων Η προσέγγιση του προβλήµατος της Κατηγοριοποίησης Κειµένου µε την βοήθεια της Μηχανικής Μάθησης, προϋποθέτει την ύπαρξη ενός αρχικού σώµατος c = d,...,, τα οποία κείµενα είναι εκ των προτέρων κειµένων (initial corpus), 0 { 1 d n } ταξινοµηµένα σε c { c,..., } = κατηγορίες. 1 c n 11

20 Το αρχικό σώµα χωρίζεται σε δυο ή τρία σύνολα, ανάλογα µε την φύση του προβλήµατος και το είδος του αλγόριθµου ταξινόµησης που θα επιλεγεί να τα ταξινοµήσει: Το πρώτο σύνολο αποτελείται από τα έγγραφα που θα χρησιµοποιηθούν από το σύστηµα για την εκπαίδευση του και ονοµάζεται σύνολο εκπαίδευσης (training set), T r = { d1,..., d r }. Συνήθως το σύνολο εκπαίδευσης αποτελεί τα 2/3 του συνολικού αρχικού σώµατος των εγγράφων. Το δεύτερο σύνολο περιέχει τα έγγραφα πάνω στα οποία θα γίνει η τελική αξιολόγηση του συστήµατος και ονοµάζεται σύνολο ελέγχου (test set), T e = { d1,..., d e }. Συνήθως αποτελεί το1/3 του συνολικού σώµατος εκπαίδευσης. Η ύπαρξη του τρίτου συνόλου εξαρτάται από τις συνθήκες του προβλήµατος. Είναι απαραίτητο στην περίπτωση που για την βελτίωση της αποτελεσµατικότητας του ταξινοµητή του συστήµατος, απαιτείται η ρύθµιση ορισµένων παραµέτρων του. Αυτό το σύνολο ονοµάζεται σύνολο επικύρωσης (validation test) V α = { d1,..., d v }. Συνήθως το σύνολο επικύρωσης αποτελεί το 1/6 του αρχικού σώµατος των κειµένων, οµοίως, για αυτήν την περίπτωση, µε το σύνολο ελέγχου. Θα πρέπει να τονιστεί ότι προκειµένου να γίνει αντικειµενικά η αξιολόγηση του συστήµατος, τα έγγραφα που ανήκουν στο σύνολο εκπαίδευσης δεν θα πρέπει να χρησιµοποιηθούν ως έγγραφα επικύρωσης ή ελέγχου. Σε αντίθετη περίπτωση η απόδοση του συστήµατος θα φαίνεται υψηλότερη από ότι είναι στην πραγµατικότητα, καθώς τα χαρακτηριστικά των φαινοµενικά αγνώστων παραδειγµάτων θα τα έχει ήδη επεξεργαστεί και χρησιµοποιήσει το σύστηµα για την εκπαίδευση του και θα έχει «µάθει» από αυτά. Εκτός από την παραπάνω προσέγγιση διαχωρισµού του αρχικού σώµατος των κειµένων, υπάρχει και µια άλλη µέθοδος που ονοµάζεται διασταυρωµένη επικύρωση κ πτυχών (k-fold validation). Με αυτόν τον τρόπο το αρχικό σώµα χωρίζεται σε κ σύνολα όπου οι κ ταξινοµητές του προβλήµατος, χρησιµοποιώντας αυτά τα σύνολα, διαδοχικά εκπαιδεύονται και ελέγχονται. Σε αυτήν την περίπτωση, η αποδοτικότητα του συστήµατος βρίσκεται µέσω του υπολογισµού του µέσου όρου της αποδοτικότητας των κ ταξινοµητών. Ένα πολύ σηµαντικό ζήτηµα είναι η αναπαράσταση του σώµατος των κειµένων σε µορφή που είναι σε θέση να επεξεργαστεί το σύστηµα, καθώς από αυτή εξαρτάται η ποιότητα της µάθησής του. Υπάρχουν διάφοροι τρόποι για την αναπαράσταση των χαρακτηριστικών ενός εγγράφου αλλά ο συνηθέστερος είναι η αναπαράσταση µέσω ενός διανύσµατος µε τις λέξεις του κειµένου να φέρουν µια τιµή ως βάρος, η οποία τιµή εκτείνεται συνήθως µεταξύ 0 και 1. Αυτός ο τρόπος ονοµάζεται σακίδιο λέξεων (bag of words). Θα πρέπει να πούµε ότι έχει αποδειχτεί ότι περισσότερο συνθέτες αναπαραστάσεις, όπως π.χ. η χρησιµοποίηση φράσεων έχουν χειρότερη αποδοτικότητα. Έπειτα θα πρέπει να βρεθεί ένας τρόπος να προσδιορίσουµε το βάρος των χαρακτηριστικών µε την βοήθεια τεχνικών Ανάκτησης του τοµέα Πληροφορίας. Τις περισσότερες φορές χρησιµοποιείται η συνάρτηση tfidf (term frequency inverse document frequency)και οι παραλλαγές της. Η tfidf ορίζεται ως εξής: 12

21 όπου ( t, ) k d j tfidf ( t, d ) = #( t, d ) k j k j T log # r ( t ) # είναι ο αριθµός των φορών που το χαρακτηριστικό t k που # t k είναι ο αριθµός των εγγράφων στο σύνολο εκπαίδευσης στο οποίο το χαρακτηριστικό t k βρίσκεται τουλάχιστον µια φορά και T είναι το πλήθος των κειµένων του συνόλου εκπαίδευσης. βρίσκεται στο έγγραφο d j, ( ) r Η παραπάνω συνάρτηση εκφράζει τα εξής δυο γεγονότα: 1. Ένα χαρακτηριστικό, όσο πιο συχνά εµφανίζεται σε ένα έγγραφο, τόσο αντιπροσωπευτικότερο είναι του περιεχοµένου του εγγράφου 2. Ένα χαρακτηριστικό, όσο σε περισσότερα έγγραφα βρίσκεται, τόσο λιγότερο σηµαντικό ρόλο θα παίξει στην ταξινόµηση Θα µπορούσαµε να επεξεργαστούµε το σώµα των εγγράφων, ώστε να αποµακρύνουµε τις λειτουργικές λέξεις (function words) που η µεγάλη συχνότητα εµφάνισης τους δεν τις αφήνει να παίξουν σηµαντικό ρόλο στην διαδικασία της ταξινόµησης. Οι λειτουργικές λέξεις µπορεί να είναι άρθρα, προθέσεις, σύνδεσµοι κ.α. Επίσης, για τον ίδιο λόγο, χρησιµοποιείται η µέθοδος της ληµµατοποίησης (stemming) που ως στόχο έχει την αντικατάσταση των λέξεων που έχουν κοινή ρίζα, από µια λέξη, που συνήθως είναι η ρίζα. Οι παραπάνω µέθοδοι είναι µέρος της αντιµετώπισης του προβλήµατος της διαστατικότητας(dimensionality reduction). Στην Κατηγοριοποίηση Κειµένων, συνήθως αποτελεί πρόβληµα όταν είναι πολύ µεγάλος ο αριθµός των χαρακτηριστικών που περιέχονται στο σώµα των κειµένων (υψηλή διαστατικότητα του χώρου των χαρακτηριστικών). Η Μείωση της ιαστατικότητας (Dimensionality Reduction) λοιπόν έχει ως στόχο την µείωση του διαστατικού χώρου από T (όπου Τ είναι το αρχικό σύνολο χαρακτηριστικών), σε T << T. Το σύνολο Τ ονοµάζεται µειωµένο σύνολο όρων(reduced term set). Ένα µεγάλο πλεονέκτηµα που προσφέρει η µείωση της διαστατικότητας είναι ότι µειώνει το φαινόµενο του υπερταιριάσµατος, αυξάνοντας έτσι την απόδοση του συστήµατος. Σε αυτό όµως που θα πρέπει να δοθεί προσοχή, είναι η χρησιµοποίηση της προσέγγισης της µείωσης της διαστατικότητας, να µην έχει ως αποτέλεσµα την αφαίρεση χαρακτηριστικών, σηµαντικών για την καλή λειτουργία του ταξινοµητή. Υπάρχουν διάφορες µέθοδοι για να επιτευχθεί η µείωση της διαστατικότητας. Οι µέθοδοι αυτές διαιρούνται σε δυο µεγάλες κύριες κατηγορίες: 1. Τοπική Μείωση ιαστατικότητας (Local Dimensionality Reduction): Για κάθε κατηγορία c i, επιλέγονται T << T χαρακτηριστικά πάνω στα οποία θα εφαρµοστεί ο ταξινοµητής. ηλαδή, κάθε έγγραφο κατά την ταξινόµηση του αναπαρίσταται διαφορετικά για κάθε κατηγορία. 2. Σφαιρική Μείωση ιαστατικότητας (Global Dimensionality Reduction): Επιλέγονται από την αρχή T χαρακτηριστικά µε T << T για την ταξινόµηση κάτω από όλες τις κατηγορίες c { c,..., } k =. Επιπλέον, οι µέθοδοι µείωσης της διαστατικότητα µπορούν να διαιρεθούν σε δυο κατηγορίες ανάλογες των χαρακτηριστικών που επιλέγονται: 1 c C 13

22 1. Μείωση ιαστατικότητας µε Επιλογή Χαρακτηριστικών (Term Selection): Έστω ένα αρχικό σύνολο χαρακτηριστικών Τ. Επιλέγεται ένα υποσύνολο χαρακτηριστικών Τ µε T << T, ώστε η µετέπειτα ταξινόµηση να επιτυγχάνεται µε την µέγιστη αποτελεσµατικότητα. Πειράµατα [Yang and Petersen, 1997] έχουν δείξει ότι µε την µέθοδο αυτή, η µείωση της διαστατικότητα αυξάνει την αποτελεσµατικότητα του ταξινοµητή κατά 5% (η αύξηση αυτή εξαρτάται από το είδος του T ταξινοµητή, του βαθµού της µείωσης, και της µεθόδου που T χρησιµοποιήθηκε για την µείωση της διαστατικότητα). Η κύρια µέθοδος που χρησιµοποιείται για την Επιλογή Χαρακτηριστικών είναι η Συχνότητα Εγγράφου (Document Frequency), #( t k ) του όρου t k. Η µέθοδος αυτή είναι µια απλή και αποτελεσµατική συνάρτηση µείωσης της διαστατικότητα που βασίζεται στην ιδέα ότι θα επιλέγονται µόνο τα χαρακτηριστικά που βρίσκονται στα περισσότερα έγγραφα. Αυτό φαίνεται ότι έρχεται σε αντίθεση µε τον νόµο της Ανάκτησης της Πληροφορίας που λέει ότι τα πιο σηµαντικά χαρακτηριστικά για την ταξινόµηση είναι αυτά µε χαµηλό document frequency. Στην πραγµατικότητα όµως δεν έρχεται σε σύγκρουση καθώς, η µεγάλη πλειοψηφία των λέξεων σε ένα σώµα κειµένων έχουν χαµηλό document frequency. Παραλλαγές αυτής της µεθόδου, µε πιο εµπειρικές προσεγγίσεις, είναι η αποµάκρυνση όλων των όρων που βρίσκονται στα περισσότερα x κείµενα εκπαίδευσης ή η αποµάκρυνση όλων των όρων που βρίσκονται στο σύνολο εκπαίδευσης περισσότερες από x φορές. Ο τελευταίος αυτός τρόπος χαρακτηρίζει σηµαντικότερα όσα χαρακτηριστικά εµφανίζονται συχνότερα στο σώµα κειµένων, σε σχέση µε αυτά που εµφανίζονται σπάνια. Άλλες µέθοδοι που ανήκουν στην κατηγορία της Επιλογής Χαρακτηριστικών χρησιµοποιούν συναρτήσεις των οποίων η τιµή τους, που είναι ανάλογη των χαρακτηριστικών, καθορίζει την επιλογή ή όχι του χαρακτηριστικού. Τέτοιες είναι οι συναρτήσεις Πληροφοριακού Κέρδους (Information Gain), Αµοιβαίας Πληροφορίας (Mutual Information), Chi-Square, Μέτρου Σχετικότητας (Relevance Score), κ.α. 2. Μείωση ιαστατικότητα µε Εξαγωγή Χαρακτηριστικών (Term Extraction): Έστω ένα αρχικό σύνολο χαρακτηριστικών Τ. Η Εξαγωγή Χαρακτηριστικών επιδιώκει να παράγει από το Τ, ένα σύνολο Τ που προκύπτει από την σύνθεση χαρακτηριστικών, και που µεγιστοποιεί την αποδοτικότητα του συστήµατος. Η ιδέα στην οποία στηρίζεται η µεθόδος αυτή είναι ότι οι αρχικοί οροί, εξαιτίας της πολυσηµίας (λέξη που έχει πολλές σηµασίες), της οµωνυµίας (ίδιες λέξεις αλλά µε διαφορετική σηµασία) και της συνωνυµίας (δυο ή περισσότερες λέξεις που έχουν την ίδια σηµασία), µπορεί να µην είναι οι καταλληλότεροι για την αναπαράσταση των κειµένων. Οπότε µε την Εξαγωγή Χαρακτηριστικών γίνεται προσπάθεια να λυθεί αυτό το πρόβληµα, δηµιουργώντας τεχνητούς όρους που δεν έχουν τα παραπάνω χαρακτηριστικά. υο προσεγγίσεις που βασίζονται σε αυτή την µέθοδο είναι η Οµαδοποίηση Όρων (Τerm Clustering) και η Υποβόσκων Σηµασιολογική Ευρετηριοποίηση (Latent Semantic Indexing). Με την 14

23 Οµαδοποίηση Όρων προσπαθείται να οµαδοποιηθούν λέξεις µε µεγάλο βαθµό συσχέτισης µεταξύ τους, ώστε να χρησιµοποιηθούν οι οµάδες αυτές για την αναπαράσταση των κειµένων, αντί των αρχικών χαρακτηριστικών Επαγωγική κατασκευή του ταξινοµητή κειµένου Όπως έχει ήδη αναφερθεί υπάρχουν δύο κατηγορίες ταξινόµησης, η πλήρως αυτόµατη που δεν χρειάζεται την συµµετοχή του χρήστη, και η ηµιαυτόµατη. Η επαγωγική κατασκευή ενός ηµιαυτόµατου ταξινοµητή συνίσταται στον ορισµό µιας συνάρτησης CSV i : D [0,1 ], όπου η συνάρτηση παίρνει την τιµή 1 αν το έγγραφο ανήκει στην κατηγορία c i ή την τιµή 0 αν το έγγραφο δεν ανήκει σε αυτήν. Παροµοίως, για την επαγωγική κατασκευή ενός πλήρως αυτόµατου ταξινοµητή ορίζεται µια συνάρτηση CSV i : D [ T, F] και ένα κατώφλι (threshold) τ i τέτοιο ώστε αν CSV κλάση c i. Ή αν στην κλάση c i. ( ) τ i CSVi ( d j ) τ i i d j τότε το έγγραφο παίρνει την τιµή Τ, δηλαδή ανήκει στην <, το έγγραφο παίρνει την τιµή F, δηλαδή δεν ανήκει Αποτίµηση της απόδοσης του ταξινοµητή Υπάρχουν πολλοί τρόποι να αξιολογηθεί ένα σύστηµα κατηγοριοποίησης κειµένων. Αυτοί οι τρόποι µπορεί να αφορούν τον µέσο χρόνο που απαιτείται για να χτιστεί ένας ταξινοµητής µε προϋπόθεση µια δοσµένη συλλογή κειµένων (training efficiency), ή να αφορούν τον µέσο χρόνο που απαιτείται για να ταξινοµηθεί, από τον ταξινοµητή, ένα έγγραφο (classification efficiency), ή ένας εναλλακτικός τρόπος είναι η ωφέλεια (utility) όπου γίνεται χρήση οικονοµικών κριτηρίων όπως το κέρδος και η απώλεια σε σχέση µε τις σωστές ή λάθος αποφάσεις που παίρνει ο ταξινοµητής. Τα πιο σηµαντικά µέτρα όµως που κυρίως χρησιµοποιούνται για την πειραµατική αξιολόγηση ενός ταξινοµητή, είναι αυτά που ασχολούνται µε την µέση ακρίβεια, η οποία αποδίδει τα µεγέθη που εξετάζει στις διάφορες κατηγορίες (effectiveness), και η οποία εκτός των άλλων είναι άµεσα συνυφασµένη µε το software/hardware που χρησιµοποιείται για το σύστηµα ταξινόµησης. Τα σηµαντικότερα µέτρα αυτής της τελευταίας κατηγορίας αξιολόγησης ενός ταξινοµητή είναι η ακρίβεια (precision) και η ανάκληση (recall), προερχόµενα και τα δυο από την τοµέα της Ανάκτησης Πληροφορίας. 15

24 Πιο συγκεκριµένα, η ακρίβεια (π) σχετική µε µια κλάση c i, ορίζεται ως η υπό συνθήκη πιθανότητα P(Φ ( (d x,c i ) = T Φ(d x,c i ) = T, η οποία θέλει την απόφαση του ταξινοµητή να είναι σωστή, αν ανατεθεί ένα έγγραφο d x στην κλάση c i. Η ακρίβεια εκφράζει το βαθµό ορθότητας (degree of soundness) του ταξινοµητή. η ανάκληση (ρ) σχετική µε µια κλάση c i, ορίζεται ως η πιθανότητα Φ(d x,c i ) = T P(Φ ( (d x,c i ) = T, η οποία θέλει αν ένα τυχαίο έγγραφο d x πρέπει να ταξινοµηθεί κάτω από την κλάση c i, τότε ο ταξινοµητής θα πρέπει να το κατατάξει σ αυτήν την κλάση. Η ανάκληση εκφράζει τον βαθµό πληρότητας (degree of completeness) του ταξινοµητή Αν ορίσουµε ως TP i το πλήθος των εγγράφων που ανήκουν στο σύνολο ελέγχου και που σωστά κατατάχθηκαν στην κατηγορία c i, ως ΤΝ i το πλήθος των εγγράφων του συνόλου ελέγχου που σωστά αποφάσισε ο ταξινοµητής ότι δεν ανήκουν στην κατηγορία c i, ως FP i το πλήθος των εγγράφων του συνόλου ελέγχου που λανθασµένα κατατάχθηκαν στην κατηγορία c i και FN i αυτά που λανθασµένα δεν κατατάχθηκαν στην κατηγορία c i, τότε τα δυο παραπάνω µέτρα αξιολόγησης, η ακρίβεια και η ανάκληση µπορούν να αποδοθούν ως εξής: π i = ρ ι = TPi TP + FP i i TPi TP + FN i i. Υπάρχουν δυο τρόποι αντιµετώπισης που µας επιτρέπουν να υπολογίσουµε την ακρίβεια και την ανάκληση: 1. Η µεθόδος της µικροεκτίµησης (microaveraging) όπου η ακρίβεια και η ανάκληση υπολογίζονται αθροίζοντας όλες τις επιµέρους αποφάσεις του ταξινοµητή, οπότε και έχουµε: π µ = TP TP + FP = C ( TPi + FPi ) i= 1 C i= 1 TP i, ρ µ = TP TP + FN = C ( TPi + FN i) i= 1 C i= 1 TP i, όπου το σύµβολο µ αναφέρεται στην µικροεκτίµηση. 16

25 2. Η µεθόδος της µακροεκτίµησης (macroaveraging) όπου η ακρίβεια και η ανάκληση αρχικά υπολογίζονται για κάθε κλάση ξεχωριστά και έπειτα η τιµή τους παίρνεται από τον µέσο όρο των διαφορετικών κατηγοριών: π M = C i=1 C πˆ i, ρ M = C i=1 C ˆρ i, όπου το σύµβολο Μ αναφέρεται στην µακροεκτίµηση. Υπάρχει περίπτωση οι δυο αυτές παραπάνω προσεγγίσεις υπολογισµού να δώσουν τελικά διαφορετικά αποτελέσµατα, ειδικά στην περίπτωση που ο αριθµός των εγγράφων που κατανέµεται στις κατηγορίες είναι πολύ διαφορετικός. Τα µεγέθη της ακρίβειας και της ανάκλησης είναι αυτά που χρησιµοποιούνται συχνότερα από οποιαδήποτε άλλα, στην προσπάθεια αποτίµησης της αποτελεσµατικότητας ενός ταξινοµητή. Όµως ούτε η ακρίβεια, ούτε η ανάκληση δεν µπορούν να δώσουν ασφαλείς εκτιµήσεις αν χρησιµοποιηθούν η µια ανεξάρτητα από την άλλη. Αυτό µπορεί να φανεί αν θέσουµε το κατώφλι µιας κλάσης κοντά στο 0. Τότε η ανάκληση παρατηρούµε ότι µεγιστοποιείται ενώ η ακρίβεια παίρνει πολύ χαµηλή τιµή. Για τον παραπάνω λόγο αναπτύχθηκε ένας αριθµός µεθόδων αποτίµησης της αποτελεσµατικότητας ενός ταξινοµητή που χρησιµοποιεί ταυτόχρονα τα µέτρα της ακρίβειας και της ανάκλησης. Σε αυτές τις µεθόδους ανήκει αυτή του σηµείου ισορροπίας (breakeven point), που πρώτα προτάθηκε από τον Lewis και έχει δεχτεί πολλές κριτικές ότι δεν είναι αξιόπιστο µέτρο αποτίµησης της αποτελεσµατικότητας. Σύµφωνα µε αυτή την προσέγγιση, το κατώφλι µιας κλάσης παίρνει την τιµή αυτή κατά την οποία η ακρίβεια γίνεται ίση µε την ανάκληση. Αυτό µπορεί να επιτευχθεί αφού καθώς αυξάνεται το κατώφλι της κλάσης, η τιµή της ακρίβειας µεγαλώνει ενώ αντίθετα η τιµή της ανάκλησης µειώνεται. Στις περιπτώσεις που οι τιµές π και ρ δεν είναι µπορούν να ταυτιστούν απόλυτα, το σηµείο ισορροπίας παίρνει την τιµή εκείνη που η ακρίβεια και η ανάκληση λαµβάνουν τις κοντινότερες σε οµοιότητα τιµές τους και υπολογίζεται από τον µέσο όρο των δυο τιµών. Μια άλλη µέθοδος αυτής της κατηγορίας, η οποία χρησιµοποιείται συχνά, είναι η συνάρτηση F β. Η συνάρτηση αυτή ορίζεται ως εξής: 17

26 F β = 2 ( β + 1) πρ, 0 β + 2 β π+ ρ όπου β µπορεί να θεωρηθεί ως ο βαθµός βαρύτητας της ακρίβειας και της ανάκλησης, αφού αν β=0 τότε η συνάρτηση ισούται µε την ακρίβεια ενώ αν β= + η συνάρτηση ισούται µε την ανάκληση. Η συνηθέστερη τιµή που παίρνει το β είναι η µονάδα, που προσδίδει ίση βαρύτητα στην ακρίβεια και στην ανάκληση. Τέλος, εναλλακτικά µέτρα αποτίµησης της αποτελεσµατικότητας που χρησιµοποιούνται στον χώρο της µηχανικής µάθησης είναι η ορθότητα (accuracy) και το σφάλµα, που αντίστοιχα ορίζονται ως : Â = TP+ TN TP+ TN+ FP+ FN Ê = FP+ FN TP+ TN+ FP+ FN = 1 Â Τα δυο αυτά µέτρα δεν χρησιµοποιούν τα µέτρα της ακρίβειας και της ανάκλησης. Επίσης, ενώ η ορθότητα συχνά χρησιµοποιείται στον χώρο της µηχανικής µάθησης, εν τούτης δεν χρησιµοποιείται συχνά στον τοµέα της κατηγοριοποίησης κειµένου και αυτό γιατί στην κατηγοριοποίηση κειµένου συνήθως ο παρονοµαστής της σχέσης είναι αρκετά µεγάλος και αυτό αποτρέπει να είναι ευαίσθητη στις µικρές µεταβολές που µπορεί να υπάρξουν στις σωστές αποφάσεις του ταξινοµητή. Καθώς επιλεγεί το µέτρο µε το οποίο µετέπειτα θα αξιολογήσουµε την αποτελεσµατικότητα του ταξινοµητή, θα πρέπει να ρυθµίσουµε τις παραµέτρους του σύµφωνα µε αυτό το µέτρο. ηλαδή, µε συνεχή πειράµατα στο σύνολο επικύρωσης, και αποτίµηση των αποτελεσµάτων των πειραµάτων θα ρυθµιστούν οι παράµετροι του ταξινοµητή ώστε να µας επιφέρει την καλύτερη επίδοση Αλγόριθµοι Στην ενότητα αυτή θα γίνει προσπάθεια να παρουσιαστούν οι σηµαντικότεροι αλγόριθµοι Μηχανικής Μάθησης που συσχετίζονται µε την Κατηγοριοποίηση Κειµένου. Θα δοθεί ιδιαίτερη προσοχή σε αυτούς που ασχοληθήκαµε κατά την διάρκεια των πειραµάτων στην παρών εργασία. 18

27 Μάθηση κατά Bayes Οι µέθοδοι βασισµένοι στην Bayesian συλλογιστική παρέχουν µια πιθανολογική προσέγγιση στο πρόβληµα της εξαγωγής συµπεράσµατος µε το οποίο ασχολείται η Μηχανική Μάθηση. Στηρίζονται στην υπόθεση ότι οι υπό µελέτη ποσότητες ακολουθούν πιθανολογικές κατανοµές και πως οι βέλτιστες αποφάσεις µπορούν να παρθούν βασιζόµενες σε αυτές τις κατανοµές, καθώς και στα παρατηρούµενα δεδοµένα. Τα χαρακτηριστικά των µεθόδων αυτών είναι τα εξής: 1. Κάθε παρατηρούµενο παράδειγµα εκπαίδευσης µπορεί να αυξάνει ή να µειώνει την εκτιµώµενη πιθανότητα που δείχνει την ορθότητα της υπόθεσης. 2. Η προγενέστερη γνώση µπορεί να συνδυαστεί µε τα παρατηρούµενα δεδοµένα για να υπολογιστεί η τελική πιθανότητα της υπόθεσης. 3. Οι Bayesian µέθοδοι µπορούν να διευκολύνουν αυτές τις υποθέσεις που κάνουν πιθανοτικές προβλέψεις. 4. Τα νέα στιγµιότυπα µπορούν να κατηγοριοποιηθούν συνδυάζοντας τις προβλέψεις πολλαπλών υποθέσεων. Μια πρακτική δυσκολία στην εφαρµογή των Bayesian µεθόδων είναι ότι απαιτούν την αρχική γνώση πολλών πιθανοτήτων. Όταν αυτές δεν είναι γνωστές, συχνά υπολογίζονται από την γνώση που προήλθε από την επεξεργασία προηγουµένων δεδοµένων. Επίσης, µια δεύτερη πρακτική δυσκολία είναι το συνήθως µεγάλο υπολογιστικό κόστος που έχει η εύρεση της βέλτιστης υπόθεσης. Στην Μηχανική Μάθηση, συχνά µας ενδιαφέρει να βρούµε την καλύτερη υπόθεση σε ένα χώρο Η (δηλαδή, απαιτούµε την πιθανότερη υπόθεση και την τυχόν προηγούµενη γνώση για τις πιθανότητες στον χώρο Η), δοσµένων των παρατηρούµενων δεδοµένων D. Το θεώρηµα του Bayes παρέχει έναν άµεσο τρόπο υπολογισµού της πιθανότητας µιας υπόθεσης σε ένα χώρο Η, βασισµένο σε προηγούµενη γνώση και είναι ο ακρογωνιαίος λίθος των Bayesian µεθόδων µάθησης: P( D h) P( h) P(h D) =, P( D) όπου, η P(h D) ονοµάζεται εκ των υστέρων πιθανότητα (posterior probability) της h, ορίζεται ως η πιθανότητα να ισχύει η υπόθεση h, δοσµένου των παρατηρούµενων δεδοµένων εκπαίδευσης και εκφράζει την εµπιστοσύνη στην υπόθεση h αφού έχουν εξεταστεί τα δεδοµένα εκπαίδευσης, η P(h) ονοµάζεται εκ των προτέρων πιθανότητα (posterior probability) της h, ορίζεται ως η αρχική πιθανότητα να ισχύει η υπόθεση h πριν την παρατήρηση των δεδοµένων εκπαίδευσης, δηλαδή µας δείχνει την προγενέστερη γνώση ότι η h είναι σωστή υπόθεση η P(D) ονοµάζεται εκ των προτέρων πιθανότητα των παρατηρούµενων δεδοµένων D και εκφράζει την πιθανότητα να παρατηρηθούν τα δεδοµένα ανεξαρτήτως της υπόθεσης που ισχύει 19

28 η P(D h) ονοµάζεται πιθανοφάνεια (likelihood) των δεδοµένων D δοσµένης της h και εκφράζει την πιθανότητα των παρατηρούµενων δεδοµένων D όταν ισχύει η υπόθεση h Από την παραπάνω σχέση παρατηρούµε ότι η πιθανότητα P(h D) είναι ανάλογη των πιθανοτήτων P(D h) και P(h), ενώ είναι αντιστρόφως ανάλογη της πιθανότητας P(D). Αυτό εξηγείται, καθώς όσο πιο πιθανό είναι να παρατηρήσουµε ανεξάρτητα το D, τόσο λιγότερο µπορεί να συµµετάσχει το D στην διαµόρφωση της απόφασης h. Σε πολλές περιπτώσεις ο αλγόριθµος µάθησης θεωρεί κάποιο σύνολο υποψήφιων υποθέσεων H και προσπαθεί να βρει την πιο πιθανή υπόθεση (ή µια των πιθανότερων αν είναι πολλές) h H, δοσµένων των δεδοµένων D. Κάθε τέτοιου είδους υπόθεση ονοµάζεται µέγιστη εκ των προτέρων υπόθεση (maximum a posteriori ή εν συντοµία MAP). Η υπόθεση MAP µπορεί να υπολογιστεί χρησιµοποιώντας το θεώρηµα του Bayes ώστε να υπολογίσουµε την εκ των υστέρων πιθανότητα της υποψήφιας υπόθεσης: h MAP arg max P(h D) = h H P ( D h) P( h) arg max = h H P( D) = arg P ( D h) P( h) max h H Στο τελευταίο βήµα παραλείπεται ο όρος P(D) καθώς είναι µια σταθερά ανεξάρτητη της υπόθεσης h. Επίσης σε µερικές περιπτώσεις µπορούµε να υποθέσουµε ότι κάθε υπόθεση στο Η είναι ισοπίθανη (ή αλλιώς P(h i ) = P(h j ), h H ). Σε αυτή την περίπτωση η παραπάνω σχέση µπορεί να απλοποιηθεί ακόµα περισσότερο παραλείποντας τον όρο P(h). Η υπόθεση που προκύπτει µε αυτόν τον τρόπο ονοµάζεται υπόθεση µέγιστης πιθανοφάνειας h ML (maximum likelihood ή εν συντοµία ML) και µεγιστοποιεί την πιθανότητα P(D h): h ML arg P ( D h) ) max h H Ο ταξινοµητής Naïve Bayes Ο ταξινοµητής Naïve Bayes είναι ο απλούστερος αλγόριθµος βασισµένος στην Bayesian λογική ταξινόµησης και ο πλέον συχνά χρησιµοποιούµενος ταξινοµητής αυτής της κατηγορίας. Επίσης στο πρόβληµα της ταξινόµησης εγγράφων ο αλγόριθµος αυτός είναι ανάµεσα στους περισσότερο αποδοτικούς αλγόριθµους [3][5]. Το κύριο χαρακτηριστικό του είναι ότι υποθέτει ότι όλα τα χαρακτηριστικά των προς εξέταση δεδοµένων είναι µεταξύ τους ανεξάρτητα, µε δεδοµένες τις κλάσεις στις οποίες θα καταταχθούν. Αυτή η υπόθεση λέγεται «υπόθεση Naïve Bayes (Naïve Bayes assumption)». Εξαιτίας αυτής της υπόθεσης, οι παράµετροι κάθε χαρακτηριστικού µπορούν να εξεταστούν χωριστά, απλοποιώντας µε αυτόν τον τρόπο 20

29 σε έναν µεγάλο βαθµό την διαδικασία της µάθησης, ειδικά όταν είναι µεγάλος ο αριθµός των χαρακτηριστικών των προς εξέταση δεδοµένων. Για τον λόγο αυτόν ο ταξινοµητής Naïve Bayes είναι αρκετά δηµοφιλής στον τοµέα της κατηγοριοποίησης κείµενων. Αναλυτικότερα, ο Naïve Bayes έχει την δυνατότητα να κατατάσσει τα νέα, προς εξέταση στιγµιότυπα, σε κατηγορίες, δεδοµένου ότι κάθε στιγµιότυπο x αναπαρίσταται µε βάση το µοντέλο διανυσµατικού χώρου και τα χαρακτηριστικά που το προσδιορίζουν παίρνουν διακριτές τιµές α 1, α 2,..., α n. Επίσης, η συνάρτησηστόχος f (x) παίρνει τιµές (labels) από ένα πεπερασµένο σύνολο V. Με βάση το σύνολο των στιγµιότυπων εκπαίδευσης ο αλγόριθµος ταξινόµησης ταξινοµεί ένα νέο στιγµιότυπο προβλέποντας την τιµή της συνάρτησης-στόχου. Με βάση την Bayesian προσέγγιση κατηγοριοποίησης, σε ένα νέο στιγµιότυπο που περιγράφεται από το διάνυσµα α 1, α 2,..., α n, ανατίθεται η πιο πιθανή τιµή υ MAP. υ MAP = arg max P(α, α,..., α υ ) υ j V 1 2 n j Με βάση το θεώρηµα του Bayes η παραπάνω σχέση γίνεται: P(α υ MAP = argυ 1, α 2,..., α n υ j) max = j V P(α1, α 2,..., α n ) = arg max P(α, α,..., α υ ) υ j V 1 2 n j P(υ j ) Η εύρεση της τιµής της παραπάνω σχέσης θα γίνει µε την βοήθεια του συνόλου των δεδοµένων εκπαίδευσης. Ο όρος της σχέσης P(υ j ) βρίσκεται εύκολα υπολογίζοντας την συχνότητα εµφάνισης της ετικέτας υ j στα δεδοµένα εκπαίδευσης. Αντίθετα, για τον δεύτερο όρο της σχέσης, ο P(α1, α2,..., αn υ j), είναι πολύ δύσκολο να υπάρξουν οι προϋποθέσεις υπολογισµού του, καθώς, αφού ο συγκεκριµένος όρος εκφράζει την πιθανότητα εµφάνισης του στιγµιοτύπου δεδοµένης µιας ετικέτας, θα πρέπει να διαθέτουµε ένα πάρα πολύ µεγάλο σύνολο δεδοµένων εκπαίδευσης. Αυτό συµβαίνει, γιατί ο όρος αυτός είναι ίσος µε τον αριθµό των πιθανών στιγµιοτύπων, επί τον αριθµό των πιθανών ετικετών, οπότε χρειάζεται να εξεταστεί κάθε παράδειγµα πολλές φορές για να επιτευχθούν αξιόπιστες εκτιµήσεις. Ο Ν.Β. βασίζεται στην απλουστευτική υπόθεση ότι, δεδοµένης της ετικέτας, τα χαρακτηριστικά είναι ανεξάρτητα µεταξύ τους. Με µαθηµατικούς όρους, αυτό σηµαίνει ότι η πιθανότητα P(α1, α 2,..., α n υ j ) µπορεί να εκφραστεί ως το γινόµενο των πιθανοτήτων κάθε ενός αυτών των χαρακτηριστικών. ηλαδή: P(α1, α 2,..., α n υ j ) = P ( α ι υ ι ) Οπότε µε την βοήθεια της σχέσης αυτής, η υ MAP γίνεται: ι υ ΝΒ = arg max P(υ j ) P ( α υ j V ι υ ι ) ι 21

30 όπου ο όρος υ ΝΒ είναι η πιο τιµή που ανατίθεται σε ένα νέο στιγµιότυπο. Από την παραπάνω σχέση, φαίνεται ότι στον ταξινοµητή ΝΒ, το πλήθος των όρων P(α i υ i ) που πρέπει να υπολογιστούν από τα δεδοµένα εκπαίδευσης είναι ο αριθµός των τιµών των διαφορετικών χαρακτηριστικών, επί τον αριθµό των διαφορετικών ετικετών, που είναι αρκετά µικρότερο από το πλήθος των P(α, α,..., α υ ) 1 2 n j. Ένα ενδιαφέρον χαρακτηριστικό του ΝΒ είναι ότι δεν ερευνά των χώρο µεταξύ των πιθανών υποθέσεων αλλά η υπόθεση σχηµατίζεται χωρίς ψάξιµο, απλώς µετρώντας τη συχνότητα των διαφόρων συνδυασµών των χαρακτηριστικών στο σύνολο εκπαίδευσης. Θα πρέπει να σηµειωθεί ότι υπάρχει µια σύγχυση όσο αφορά τον ταξινοµητή Naïve Bayes στον τοµέα της κατηγοριοποίησης εγγράφων καθώς υπάρχουν δυο µοντέλα που χρησιµοποιούν την «υπόθεση Naïve Bayes» και που έχουν την ίδια πρακτική ονοµασία Naïve Bayes: το µοντέλο Bernoulli πολλαπλών µεταβλητών (multi-variate Bernoulli model) και το πολυωνυµικό (multinomial) µοντέλο. Το multi-variate Bernoulli µοντέλο καθορίζει ότι ένα έγγραφο αναπαρίσταται από ένα διάνυσµα δυαδικών µεταβλητών που η τιµή τους είναι ανάλογη του αν οι λέξεις υπάρχουν ή όχι στο προς εξέταση έγγραφο. Καθώς υπολογίζεται η πιθανότητα του εγγράφου, πολλαπλασιάζεται η πιθανότητα όλων των τιµών των χαρακτηριστικών, είτε υπάρχουν είτε όχι στο έγγραφο. Στην παρών εργασία, χρησιµοποιήθηκε ως καταλληλότερο και αποτελεσµατικότερο ο αλγόριθµος Multinomial Naïve Bayes και ο οποίος θα αναπτυχθεί στην επόµενη παράγραφο: Το µοντέλο Multinomial Naïve Bayes Το Multinomial Naïve Bayes µοντέλο ορίζει ότι ένα έγγραφο αναπαρίσταται από ένα σύνολο λέξεων που υπάρχουν σε αυτό. Σε αντίθεση µε το multi-variate Bernoulli µοντέλο, εδώ µας ενδιαφέρει, και γι αυτό και εξετάζεται, το πλήθος των εµφανίσεων κάθε λέξης στο έγγραφο. Καθώς υπολογίζουµε την πιθανότητα ενός εγγράφου, πολλαπλασιάζεται η πιθανότητα των ευρισκόµενων στο έγγραφο λέξεων [5]. Αναλυτικότερα, το µοντέλο αυτό συλλέγει την συχνότητα των λέξεων που υπάρχουν στα υπό εξέταση έγγραφα. Στην περίπτωση αυτή, το κάθε έγγραφο d j θεωρείται ως µια διατεταγµένη ακολουθία λέξεων, οι οποίες προέρχονται από το λεξικό V, ενώ το µήκος του εγγράφου είναι ανεξάρτητο των κλάσεων. Η υπόθεση, παρόµοια µε την «Naïve Bayes υπόθεση», που γίνεται σε αυτή την µέθοδο είναι ότι η πιθανότητα κάθε λέξης στο έγγραφο είναι ανεξάρτητη των άλλων λέξεων και της θέσης της µέσα σε αυτό. Έτσι, κάθε έγγραφο ορίζεται από µια πολυωνυµική κατανοµή των λέξεων µε µέγεθος ανάλογο του µεγέθους του εγγράφου. Η πιθανότητα ενός εγγράφου δοσµένης της κλάσης του είναι η έξης: 22

31 V P P(d j c j ;θ) = P( dj ) dj! Νιτ ( wt c j ; θ ) t= 1 N it! όπου, Ν it είναι το πλήθος των φορών που µια λέξη w t υπάρχει σε ένα έγγραφο d j θ είναι το διάνυσµα παραµέτρων της κλάσης c j για ένα πολυωνυµικό µοντέλο Η πιθανότητα της λέξης w t στην κλάση c j δίνεται από την σχέση: P(w t c j ; θˆ ) = j V 1+ + i D N = 1 it D V s= 1 i= 1 P( c N is j P( c d ) j j d ) oπου θˆ είναι η µέγιστη πιθανοφάνεια που εκφράζει τις προγενέστερες παραµέτρους της κλάσης θc j : D θˆ c = P(c j j P c d i j j θˆ ) = =1 ( ) D Αφού υπολογίσουµε όλες τις παραµέτρους από τα δεδοµένα εκπαίδευσης, µπορούµε να εξετάσουµε τα προς εξέταση έγγραφα υπολογίζοντας τις εκ των προτέρων πιθανότητες κάθε κλάσης και επιλέγουµε, για κάθε ένα από αυτά, την κλάση µε την µεγαλύτερη πιθανότητα. i έντρα Απόφασης Ένας ταξινοµητής κειµένου που χρησιµοποιεί έντρα Απόφασης (Decision Trees) είναι ένα δέντρο του οποίου κάθε εσωτερικός κόµβος περιέχει έναν όρο, τα κλαδιά του περιέχουν το βάρος των όρων και τα φύλλα του περιέχουν τις κατηγορίες. Κάθε νέο παράδειγµα ταξινοµείται αρχίζοντας από την ρίζα του δέντρου, συγκρίνοντας το χαρακτηριστικό που υπάρχει σε αυτόν τον κόµβο και ακολουθώντας το αντίστοιχο κλαδί. Συνήθως στα δέντρα απόφασης χρησιµοποιείται η στρατηγική «διαίρει και βασίλευε» για την διάσχιση του δέντρου ελέγχοντας αν όλα τα παραδείγµατα εκπαίδευσης ανήκουν στις κατηγορίες c i ή c i, ή αν όχι διαλέγοντας έναν όρο, διαχωρίζοντας το σύνολο εκπαίδευσης σε κατηγορίες εγγράφων που έχουν την ίδια τιµή για τον όρο αυτό και τοποθετώντας κάθε τέτοια κατηγορία σε ένα ξεχωριστό υποδέντρο. Η µέθοδος των δέντρων απόφασης είναι κατάλληλος για προβλήµατα µε τα εξής χαρακτηριστικά: 23

32 κάθε παράδειγµα αναπαρίσταται από ζευγάρια της µορφής (χαρακτηριστικό,τιµή) η συνάρτηση-στόχος παίρνει διακριτές τιµές τα δεδοµένα εκπαίδευσης µπορεί να περιέχουν λάθη µπορεί να λείπουν ορισµένες τιµές χαρακτηριστικών από τα δεδοµένα εκπαίδευσης Μάθηση Βασισµένη σε Παραδείγµατα Η µάθηση βασισµένη σε παραδείγµατα (instance-based learning) είναι µια supervised τεχνική µάθησης, όπου τα δεδοµένα εκπαίδευσης απλώς αποθηκεύονται και διατηρούνται αυτούσια, σε αντίθεση µε τις άλλες µεθόδους µάθησης που κατασκευάζουν ένα γενικό διατυπωµένο µοντέλο που τα κωδικοποιούν µε µια συνάρτηση-στόχο. Οπότε, όταν εξετάζεται ένα νέο παράδειγµα, οι µέθοδοι αυτές είναι υπεύθυνες να αποφασίσουν γι αυτό, συγκρίνοντας το µε τα ήδη αποθηκευµένα παραδείγµατα, ώστε να αναθέσουν µια τιµή στην συνάρτηση-στόχο για αυτό το νέο παράδειγµα. Για τον λόγο αυτό, δηλαδή επειδή αυτό που κάνουν στην διαδικασία της µάθησης είναι να αποθηκεύουν τα δεδοµένα εκπαίδευσης, ονοµάζονται και µέθοδοι βασισµένες στην µνήµη (memory-based). Επίσης οι µέθοδοι αυτές συχνά αναφέρονται σαν «χαλαροί (lazy)» αλγόριθµοι εξαιτίας της καθυστέρησης που απαιτούν κατά την επεξεργασία ενός νέου παραδείγµατος προκειµένου να το ταξινοµήσουν. Αυτό το τελευταίο χαρακτηριστικό τους είναι και ένα µειονέκτηµά τους καθώς το κόστος κατηγοριοποίησης ενός νέου στιγµιοτύπου µπορεί να είναι υψηλό. Αυτό οφείλεται στο ότι όλοι οι υπολογισµοί λαµβάνουν µέρος και την ώρα της κατηγοριοποίησης και λιγότερο κατά την επεξεργασία των παραδειγµάτων εκπαίδευσης. Ένα δεύτερο µειονέκτηµα αρκετών αλγορίθµων αυτού του είδους (ειδικότερα της προσέγγισης του «πλησιέστερου γείτονα» που έκφραση του θα αναπτυχθεί παρακάτω), είναι ότι ασχολούνται µε όλα τα χαρακτηριστικά των στιγµιοτύπων όταν προσπαθούν να ανακαλέσουν από την µνήµη παρόµοια παραδείγµατα εκπαίδευσης. Ο αλγόριθµος των k-κοντινότερων Γειτόνων Ο χαρακτηριστικότερος αλγόριθµος της κατηγορίας αυτής είναι ο αλγόριθµος των k-κοντινότερων Γειτόνων (k-nearest Neighbor). Η µέθοδος που ακολουθείται σε αυτόν τον αλγόριθµο είναι ότι τα παραδείγµατα αναπαρίστανται ως σηµεία σε κάποιο Ευκλείδειο χώρο και ότι η συνάρτηση-στόχος για κάθε νέο στιγµιότυπο, το οποίο τοποθετείται και αυτό στο χώρο ως νέο σηµείο, εξαρτάται από τις τιµές που έχουν τα k κοντινότερα σε αυτό στιγµιότυπα εκπαίδευσης, τα οποία χαρακτηρίζονται ως γείτονες του. 24

33 Πιο συγκεκριµένα, έστω ότι ένα στιγµιότυπο περιγράφεται από ένα διάνυσµα χαρακτηριστικών: α x), α ( x),..., α ( ), όπου κάθε α κ, κ=1,2,...,n, είναι ένα χαρακτηριστικό 1( 2 n x του στιγµιοτύπου x. Τότε η απόσταση µεταξύ των δυο στιγµιοτύπων x i και x j είναι η εξής: d( xi, x j ) ( aκ ( xi ) aκ ( x j )) Στην µέθοδο µάθησης µε κοντινότερους γειτόνους η συνάρτηση-στόχος µπορεί να πάρει είτε διακριτές τιµές, είτε φυσικές τιµές. Ας θεωρήσουµε ότι η συνάρτηση-στόχος παίρνει διακριτές τιµές της µορφής f : R n V, όπου V είναι το πεπερασµένο σύνολο {ν 1,..., ν j }. Ο k-nn αλγόριθµος περιγράφεται παρακάτω: Αλγόριθµος εκπαίδευσης : Για κάθε παράδειγµα εκπαίδευσης f( x) 2 x,, πρόσθεσε το παράδειγµα στην λίστα training_examples Αλγόριθµος ταξινόµησης: οσµένου ενός νέου στιγµιοτύπου x q προς ταξινόµηση, Καθόρισε τα k στιγµιότυπα από τα training_examples, µέσω των x 1,,x k, που βρίσκονται πιο κοντά στο x q Επέστρεψε όπου (, b) = 1 fˆ δ α αν = b k ( xq) arg max δ υ, f( xi) υ V i= 1 ( ) α και όπου (, b) = 0 δ α,, σε διαφορετική περίπτωση Η τιµή fˆ ( x q ) που επιστρέφεται από αυτόν τον αλγόριθµο σαν την εκτίµηση του f ( x q ) είναι απλώς η περισσότερη κοινή τιµή της fµεταξύ των k. 25

34 Στο παραπάνω σχήµα µπορούµε να δούµε την αποτύπωση ενός συνόλου θετικών και αρνητικών παραδειγµάτων µαζί µε το προς κατηγοριοποίηση στιγµιότυπο x, σε έναν δισδιάστατο χώρο. Η συνάρτηση στόχος µπορεί να πάρει τις τιµές 0 ή 1. Ο 1-ΝΝ αλγόριθµος κατατάσσει το στιγµιότυπο σαν θετικό αφού ο κοντινότερός του γείτονας έχει καταταχτεί σαν θετικό παράδειγµα, ενώ ο 5-ΝΝ αλγόριθµος το κατατάσσει σαν αρνητικό. Υπάρχει όµως η περίπτωση τα χαρακτηριστικά να έχουν συµβολικές τιµές. Τότε, δεν θα ήταν σωστό να χρησιµοποιηθεί η Ευκλείδεια απόσταση. Σε αυτή την περίπτωση χρησιµοποιείται η απόσταση Hamming: d ( xi x j) δ ( α r( xi), α r( x j ),, όπου δ ( x, y) = 0 δ ( x, y) = 1, αν x=y και, αν x y Όταν η συνάρτηση-στόχος είναι συνεχής (continuous valued) υπολογίζουµε τον µέσο όρο των τιµών των γειτόνων. Οπότε, αντικαθιστούµε στον αλγόριθµο την συνεχή συνάρτηση-στόχο: fˆ k i = q 1 ( x ) k f ( x ) i Μια βελτίωση που µπορεί να επιτευχθεί στον k-nn αλγόριθµο είναι να ζυγίσουµε την συνεισφορά καθενός από τους k γείτονες σύµφωνα µε την απόσταση τους προς το στιγµιότυπο x q, δίνοντας µεγαλύτερο βάρος στους κοντινότερους γείτονες. Αυτή είναι η εκδοχή του αλγορίθµου µε βάση την απόσταση (distanceweighted). Επιτυγχάνεται αντικαθιστώντας την τελευταία γραµµή του αλγορίθµου από την παρακάτω σχέση: fˆ k ( x ) arg max w δ υ, f( x ) q υ V i = 1 i ( ) i όπου wi d 1 ( x, x ) 2 q i Ο αλγόριθµος k-nn µε βάση την απόσταση είναι µια επαγωγική µέθοδος (γίνεται η υπόθεση ότι η τιµή της συνάρτησης στόχου είναι παρόµοια µε αυτή των γειτόνων του) µε µεγάλη αποδοτικότητα. Είναι επίσης ανθεκτικός σε παραδείγµατα εκπαίδευσης µε θόρυβο και είναι αρκετά αποτελεσµατικός όταν προσφέρεται ένας µεγάλος αριθµός δεδοµένων εκπαίδευσης. Στην περίπτωση που το προς ταξινόµηση στιγµιότυπο x q ταιριάζει ακριβώς µε ένα από τα στιγµιότυπα εκπαίδευσης x i και άρα η τιµή της απόστασης µεταξύ των fˆ, την τιµή της δυο παραδειγµάτων είναι µηδέν, αναθέτουµε στην τιµή της ( x q ) f ( x q ). 26

35 Με αυτόν τον τρόπο µπορούµε να επιτρέψουµε σε όλα τα παραδείγµατα να πάρουν µέρος στην ταξινόµηση του x q, επειδή µόνο τα κοντινά χαρακτηριστικά θα fˆ, αλλά αυτό προφανώς θα έχει µεγαλύτερο x q µπορούν να επηρεάσουν το ( ) υπολογιστικό κόστος. Αυτή η µέθοδος ονοµάζεται καθολική (global) ενώ η µέθοδος που µόνο τα κοντινότερα παραδείγµατα χρησιµοποιούνται ονοµάζεται τοπική (local). Στην καθολική µέθοδο, όταν η συνάρτηση-κόστος είναι συνεχής, αντικαθιστούµε στην τελευταία γραµµή του αλγορίθµου την παρακάτω σχέση: fˆ ( x ) q k i= 1 w k i i= 1 f w ( x ) i i Μέθοδοι on-line Οι µέθοδοι αυτοί κατασκευάζουν έναν ταξινοµητή αµέσως µετά την εξέταση του πρώτου παραδείγµατος εκπαίδευσης και τον βελτιώνουν µε την εξέταση των επόµενων παραδειγµάτων. Αυτή η µέθοδος ενδείκνυται για τα προβλήµατα εκείνα που τα δεδοµένα εκπαίδευσής τους δεν µας είναι γνωστά από την έναρξη της εφαρµογής. Ένας γνωστός αλγόριθµος της κατηγορίας αυτής είναι ο Perceptron που πρωτοεµφανίστηκε στην Κατηγοριοποίηση Κειµένου από τους Schutze και Wiener Τεχνητά Νευρωνικά ίκτυα Ο τοµέας των Τεχνητών Νευρωνικών ικτύων έχει βασιστεί στις παρατηρήσεις των µελετών των νευρώνων του κλάδου της Βιολογίας, προσπαθώντας να τους προσεγγίσει και να αντιγράψει την λειτουργία µάθησης τους. Τα Τεχνητά Νευρωνικά ίκτυα αποτελούνται από ένα δίκτυο µονάδων όπου οι εισερχόµενες µονάδες αναπαριστούν τα χαρακτηριστικά και οι εξερχόµενες αναπαριστούν τις κατηγορίες. Η µέθοδος αυτή είναι κατάλληλη για προβλήµατα µε τα ακόλουθα χαρακτηριστικά: Τα παραδείγµατα αναπαρίστανται από µεγάλο πλήθος ζευγαριών της µορφής (χαρακτηριστικό,τιµή) Η έξοδος της συνάρτησης-στόχου µπορεί να έχει τιµή διακριτή, πραγµατική ή ένα διάνυσµα µε συνδυασµούς τους Τα παραδείγµατα εκπαίδευσης µπορεί να περιέχουν λάθη Απαιτείται αρκετός χρόνος για την εκπαίδευση του συστήµατος εν είναι σηµαντικό να κατανοήσουν οι ειδικοί την συνάρτηση-στόχο 27

36 Μηχανές Υποστήριξης ιανυσµάτων Ο αλγόριθµος µάθησης Μηχανές Υποστήριξης ιανυσµάτων (Support Vector Machines) πρωτοεµφανίστηκε στην περιοχή της Κατηγοριοποίησης Κειµένων από τον Joachims το έτος 1998, είναι µια από τις δηµοφιλείς µεθόδους στον τοµέα αυτό και στηρίζεται στην Ελαχιστοποίηση οµικού Ρίσκου (Structural Risk Minimization) του τοµέα της θεωρίας της υπολογιστικής µάθησης. Η µέθοδος που εξετάζουµε στο κεφάλαιο αυτό, βασίζεται στην ιδέα της εύρεσης µιας υπόθεσης h, ώστε να ελαχιστοποιήσει την πιθανότητα αυτής να κάνει λάθος σε ένα άγνωστο και τυχαίως επιλεγµένο παράδειγµα του συνόλου ελέγχου, από το σύνολο εγγράφων που εξετάζεται. Ο SVM έχει ως σκοπό του να βρει την υπόθεση h που ελαχιστοποιεί το ανώτερο όριο που χρησιµοποιείται για να συνδέσει την παραπάνω πιθανότητα µε το λάθος της h, στο σύνολο εκπαίδευσης και την πολυπλοκότητα του χώρου που περιέχει την υπόθεση h. Mε γεωµετρικούς όρους, ο στόχος του αλγορίθµου είναι να προσπαθήσει να βρει, µεταξύ όλων των επιφανειών του χώρου που διαχωρίζει τα θετικά από τα αρνητικά παραδείγµατα (επιφάνειες απόφασης decision surfaces), την επιφάνεια αυτή που διαχωρίζει τα αρνητικά από τα θετικά παραδείγµατα µε το µεγαλύτερο πιθανό περιθώριο (margin). Αρχικά, από κάθε κλάση επιλέγονται τα διανύσµατα υποστήριξης (support vectors), δηλαδή ένας µικρός αριθµός παραδειγµάτων εκπαίδευσης που έχουν ίδια σύνορα µε παραδείγµατα άλλων κλάσεων. Στην συνέχεια, από αυτά τα παραδείγµατα κατασκευάζεται µια συνάρτηση διάκρισης που είναι σε θέση να τα διαχωρίσει ακόµα περισσότερο. H SVM συνήθως δεν είναι κατάλληλη για binary προβλήµατα και µόλις πρόσφατα προσαρµόστηκε στην multiclass κατηγοριοποίηση. Κατά τον Joachims τα πλεονεκτήµατα που έχει η µέθοδος SVM όσο αφορά τον τοµέα της Κατηγοριοποίησης Κειµένων είναι τα εξής: 1. δεν είναι απαραίτητη η µείωση της διαστατικότητας καθώς µπορεί να έχει αρκετά καλή συµπεριφορά απέναντι στο φαινόµενο του υπερταιριάσµατος. Μάλιστα πρόσφατα πειράµατα έχουν δείξει ότι η επιλογή χαρακτηριστικών µπορεί να µειώσει σε πολύ µεγάλο βαθµό την απόδοση του ταξινοµητή. 2. δεν χρειάζεται καµιά ενέργεια για να ρυθµιστούν οι παράµετροι µέσω του συνόλου επικύρωσης, καθώς µπορούµε να επιλέξουµε τις παραµέτρους εκείνες που έχουν καθοριστεί θεωρητικά να µας δίνουν την καλύτερη αποτελεσµατικότητα του ταξινοµητή. 3. ελάχιστα χαρακτηριστικά δεν σχετίζονται µεταξύ τους, κάνοντας την µέθοδο αυτή να χρησιµοποιεί αποτελεσµατικά ακόµα και αυτά τα χαρακτηριστικά που µπορούν να προσφέρουν «λίγη» πληροφορία. 4. τα περισσότερα προβλήµατα κατηγοριοποίησης είναι γραµµικά διαχωρίσιµα. Η ιδέα του SVM είναι να βρει τέτοιους γραµµικούς τρόπους διαχωρισµού. Επίσης, πολύ σηµαντικά πλεονεκτήµατα του αλγόριθµου σε σχέση µε άλλους του ίδιου τοµέα είναι η αποτελεσµατικότητά του, η ταχύτητά του και η δυνατότητα που έχει να χειρίζεται χώρους µεγάλης διάστασης. 28

37 Αναλυτικότερα, ας εξετάσουµε τώρα την απλούστερη περίπτωση του προβλήµατος της ταξινόµησης δυο γραµµικά διαχωρίσιµων κλάσεων. r d Έστω τα δεδοµένα εκπαίδευσης {x i, y i } µε i = 1,2,,l που το x R αντιστοιχεί στο διάνυσµα που αντιπροσωπεύει το κάθε στιγµιότυπο και το y i { 1,1} στην κλάση που ανήκει αυτό το στιγµιότυπο. Αφού οι κλάσεις είναι γραµµικά διαχωρίσιµες, υποθέτουµε ότι υπάρχει ένα υπερεπίπεδο που διαχωρίζει τα θετικά από τα αρνητικά παραδείγµατα και το οποίο έχει εξίσωση w r x r + b = 0 και το διάνυσµα x r ανήκει σε αυτό. Στην εξίσωση, το w r είναι το κανονικό διάνυσµα του υπερεπιπέδου, b r η κατακόρυφη απόσταση της αρχής του συστήµατος w συντεταγµένων από το υπερεπίπεδο, και το σύµβολο του εσωτερικού διανύσµατος δυο διανυσµάτων. Επίσης το περιθώριο, που αναφέρθηκε παραπάνω, ορίζεται µαθηµατικά ως το d + + d, όπου d + (ή d ) η κοντινότερη απόσταση του κοντινότερου υπερεπιπέδου από το κοντινότερο θετικό (ή αντίστοιχα αρνητικό) παράδειγµα. Για τις περιπτώσεις των γραµµικά διαχωρίσιµων κλάσεων, όπως αναφέρθηκε και παραπάνω, ο στόχος του SVM είναι να βρει, µεταξύ των επιφανειών του χώρου που χωρίζει τα θετικά από τα αρνητικά παραδείγµατα, την επιφάνεια αυτή που τα χωρίζει µε το µεγαλύτερο δυνατό περιθώριο. Αυτό µεταφράζεται µαθηµατικά ως εξής: w r x r i + b +1, αν y i = +1 (1) w r x r i + b 1, αν y i = 1 (2) και αν θελήσουµε να συνδυάσουµε τις δυο σχέσεις έχουµε: y i ( w r x r i + b) 1 0, i (3) Τώρα, έστω τα διανύσµατα εκπαίδευσης που ικανοποιούν την εξίσωση (1). Αν τα θεωρήσουµε ως σηµεία τότε θα πρέπει να βρίσκονται στο υπερεπίπεδο w r x r i + b = +1, µε w r το κανονικό διάνυσµα του υπερεπιπέδου και µε 1 b r την κατακόρυφη w απόσταση της αρχής του συστήµατος συντεταγµένων από το υπερεπίπεδο. Οµοίως τα διανύσµατα που ικανοποιούν την εξίσωση (2) θα πρέπει να βρίσκονται στο υπερεπίπεδο w r x r i + b = 1, µε w r το κανονικό διάνυσµα του υπερεπιπέδου και µε 1 b r την κατακόρυφη απόσταση της αρχής του συστήµατος συντεταγµένων από w το υπερεπιπεδο. i 29

38 Σχήµα 1: διαγραµµατική απεικόνιση του προβλήµατος κατηγοριοποίησης δυο γραµµικά διαχωρίσιµων κλάσεων Παρατηρούµε ότι ισχύει d + = d = 1 2 w r και άρα το περιθώριο είναι 2 2 w r. Οπότε το περιθώριο µεγιστοποιείται όταν το 2 w r ελαχιστοποιείται. Επίσης τα δυο υπερεπίπεδα που εξετάζουµε είναι παράλληλα, καθώς έχουν το ίδιο κανονικό διάνυσµα w r και δεν υπάρχουν παραδείγµατα εκπαίδευσης στην περιοχή που ορίζουν. Τα αποτελέσµατα της παραπάνω διαδικασίας αποτυπώνονται στο Σχήµα 1. Όπως έχει αποδειχτεί [Burges 1998], η ελαχιστοποίηση της τιµής w r µπορεί να γίνει µέσω της µεγιστοποίησης της Lagrangian συνάρτησης και τελικά έχουµε : L D = i 1 r v ai aia j yi y j ( xi x j ) 2 όπου α i, i=1,...,l ονοµάζονται θετικοί πολλαπλασιαστές Lagrange και a i y i =0. Τα στιγµιότυπα εκπαίδευσης που ικανοποιούν τις παραπάνω εξισώσεις (1), (2) και (3), και εποµένως βρίσκονται σε κάποιο από τα δυο υπερεπίπεδα, εξαρτάται από αυτά η λύση του αλγορίθµου και η παράµετρος α i είναι µεγαλύτερη του µηδενός, α i >0, ονοµάζονται διανύσµατα εκπαίδευσης (support vectors). Έχοντας υπολογίσει τα διανύσµατα υποστήριξης κατά την εκπαίδευση του αλγορίθµου, ένα άγνωστο στιγµιότυπο x r ταξινοµείται από την συνάρτηση : r r r f + ( x) = sign{ w x b}, 30

Δείτε περισσότερα