ΑΝΑΠΤΥΞΗ ΚΑΙ ΕΚΠΑΙ ΕΥΣΗ ΙΕΡΑΡ- ΧΙΚΟΥ ΤΑΞΙΝΟΜΗΤΗ ΚΕΙΜΕΝΩΝ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΠΤΥΞΗ ΚΑΙ ΕΚΠΑΙ ΕΥΣΗ ΙΕΡΑΡ- ΧΙΚΟΥ ΤΑΞΙΝΟΜΗΤΗ ΚΕΙΜΕΝΩΝ ιπλωµατική Εργασία της Αβραµίδη Γεωργίας (ΑΕΜ: 719) Επιβλέπων Καθηγητής: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ ΘΕΣΣΑΛΟΝΙΚΗ ΜΑΙΟΣ 2007 -i-

Πρόλογος Το θέµα της εργασίας αυτής είναι η ανάπτυξη και εκπαίδευση ιεραρχικού ταξινοµητή κειµένων. Σε αυτή, αναλύεται ο τρόπος δηµιουργίας και επεξεργασίας των δεδοµένων εκπαίδευσης και αξιολόγησης και γίνεται µια προσπάθεια σύγκρισης των δύο ταξινοµητών, του ιεραρχικού και του επίπεδου, οι οποίοι επιλέχθηκαν να χρησιµοποιηθούν. Προκύπτουν έτσι, κάποια αποτελέσµατα και συµπεράσµατα για την ικανότητα και τη χρησιµότητα του κάθε ταξινοµητή. Αρχικά, θα ήθελα να ευχαριστήσω τον κ. Βλαχάβα Ιωάννη για την εµπιστοσύνη που µου έδειξε και µου ανέθεσε αυτή την εργασία και για την υποστήριξη που µου παρείχε, ώστε να καταφέρω να την ολοκληρώσω. Θα ήθελα επίσης, να ευχαριστήσω ιδιαίτερα τον υποψήφιο διδάκτορα του τµήµατός µας κ. Κατάκη Ιωάννη, για την µεγάλη βοήθεια που µου προσέφερε και για την συµπαράστασή του σε όλη τη διάρκεια της εργασίας αυτής, όπως και για την προσφορά ενός δύσκολου κοµµατιού κώδικα σε ένα κρίσιµο για την εργασία σηµείο. Ήταν πάντοτε πολύ πρόθυµος να λύσει κάθε µου απορία και µάλιστα σε σύντοµο χρονικό διάστηµα. Ακόµα, τον ευχαριστώ που προσφέρθηκε να µε βοηθήσει όλο το καλοκαίρι έτσι ώστε να καταφέρω να ολοκληρώσω έγκαιρα την εργασία. Οι οδηγίες που µου έδωσε και η όλη συµµετοχή του στη διαµόρφωση της εργασίας, ήταν πολύ σηµαντική για µένα, γιατί αυτή ήταν η πρώτη εργασία τέτοιου µεγέθους που υλοποιώ. Τέλος, ένα µεγάλο ευχαριστώ στα µέλη του εργαστηρίου Γλωσσών Προγραµµατισµού και Τεχνολογίας Λογισµικού (PLaSE) και ειδικότερα στα µέλη της οµάδας Λογικού Προγραµµατισµού και Ευφυών Συστηµάτων (LPIS) του τµήµατος Πληροφορικής του ΑΠΘ (http://lpis.csd.auth.gr) για την συνεργασία τους. Αβραµίδη Γεωργία 20/04/2007 -i-

Περιεχόµενα ΠΡΟΛΟΓΟΣ...I ΠΕΡΙΕΧΟΜΕΝΑ...III 1 ΕΙΣΑΓΩΓΗ... 1 2 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ... 3 2.1 ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ... 3 2.1.1 Ορισµός Μηχανικής Μάθησης... 4 2.1.2 Εφαρµογές Μηχανικής Μάθησης... 5 2.1.3 Είδη Μηχανικής Μάθησης... 5 2.2 ΜΑΘΗΣΗ ΜΕ ΕΠΙΒΛΕΨΗ... 6 2.2.1 Τεχνικές Μηχανικής Μάθησης µε επίβλεψη... 7 3 ΤΑΞΙΝΟΜΗΣΗ ΚΕΙΜΕΝΩΝ... 12 3.1 ΟΡΙΣΜΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΚΕΙΜΕΝΩΝ... 13 3.2 ΜΕΘΟ ΟΙ ΤΑΞΙΝΟΜΗΣΗΣ ΚΕΙΜΕΝΩΝ... 14 3.2.1 Απλή και Πολλαπλών-ετικετών Ταξινόµηση Κειµένων... 14 3.2.2 Ταξινόµηση εξαρτώµενη από τη κατηγορία ή από το κείµενο... 14 3.2.3 Απόλυτη Ταξινόµηση και Ταξινόµηση µε κατάταξη... 14 3.3 ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΤΑΞΙΝΟΜΗΣΗΣ ΚΕΙΜΕΝΩΝ... 15 3.3.1 Αυτόµατη καταχώρηση κειµένων για συστήµατα Ανάκτησης Πληροφορίας... 15 3.3.2 Οργάνωση Κειµένων... 15 3.3.3 Φιλτράρισµα Κειµένων... 15 3.3.4 Αποσαφήνιση λέξης... 16 3.3.5 Ιεραρχική Ταξινόµηση Ιστοσελίδων... 16 3.4 ΤΑΞΙΝΟΜΗΣΗ ΚΕΙΜΕΝΩΝ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ... 17 3.4.1 Σύνολα εκπαίδευσης, ελέγχου και επαλήθευσης... 18 3.5 ΕΙΚΤΟ ΟΤΗΣΗ ΚΕΙΜΕΝΟΥ ΚΑΙ ΜΕΙΩΣΗ ΤΗΣ ΙΑΣΤΑΣΗΣ ΤΟΥ... 20 3.5.1 εικτοδότηση κειµένου... 20 -iii-

3.5.2 Μείωση της διάστασης του κειµένου µε επιλογή όρων...22 3.6 ΤΑΞΙΝΟΜΗΤΕΣ ΚΕΙΜΕΝΩΝ...23 3.6.1 Πιθανοτικοί Ταξινοµητές...24 3.6.2 Ταξινοµητές ένδρων Απόφασης...26 3.6.3 Ταξινοµητές Κανόνων Απόφασης...27 3.6.4 On-line µέθοδοι...28 3.6.5 Νευρωνικά ίκτυα...31 3.6.6 Ταξινοµητές βασισµένοι σε παραδείγµατα...31 3.6.7 Μηχανές ιανυσµάτων Υποστήριξης...33 3.6.8 Οµάδα Ταξινοµητών...34 3.6.9 Συµπεράσµατα...35 4 ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ...37 4.1 Ο ΑΝΟΙΧΤΟΣ ΙΑ ΙΚΤΥΑΚΟΣ ΚΑΤΑΛΟΓΟΣ DMOZ...39 4.2 ΜΕΤΑΤΡΟΠΗ ΑΡΧΕΙΩΝ ΑΠΟ RDF ΣΕ ΒΑΣΗ Ε ΟΜΕΝΩΝ...40 4.3 HTML PARSER...41 4.4 Η ΠΛΑΤΦΟΡΜΑ WEKA ΚΑΙ ΤΑ ΑΡΧΕΙΑ ARFF....42 4.5 ΗΜΙΟΥΡΓΙΑ ΤΩΝ ARFF ΑΡΧΕΙΩΝ...44 5 ΕΚΠΑΙ ΕΥΣΗ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗ...47 5.1 ΟΙ ΚΑΤΗΓΟΡΙΕΣ ΠΟΥ ΕΠΙΛΕΧΘΗΚΑΝ...47 5.2 ΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΚΑΙ Η ΙΕΡΑΡΧΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΕ...48 6 ΣΥΜΠΕΡΑΣΜΑΤΑ...52 6.1 ΥΣΚΟΛΙΕΣ ΚΑΙ ΠΡΟΒΛΗΜΑΤΑ...52 6.2 ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ...53 7 ΚΩ ΙΚΑΣ JAVA...54 ΒΙΒΛΙΟΓΡΑΦΙΑ...83 -iv-

1 Εισαγωγή Η εργασία αυτή αναφέρεται στην ανάπτυξη και εκπαίδευση ιεραρχικού ταξινοµητή κειµένων. Σκοπός της είναι, να γίνει αξιολόγηση και σύγκριση του ιεραρχικού ταξινο- µητή (hierarchical classifier) µε τον επίπεδο ταξινοµητή (flat classifier) σε ιεραρχικά δεδοµένα σελίδων του διαδικτύου. Επίσης, γίνεται παρουσίαση της οργάνωσης των δεδοµένων εκπαίδευσης και της εκπαίδευσης των ταξινοµητών µε τα δεδοµένα αυτά. Α- ναλύεται ακόµα, η υλοποίηση µιας συγκριτικής µελέτης µεταξύ των δύο ταξινοµητών που χρησιµοποιήσαµε, ώστε να βγάλουµε τα τελικά µας συµπεράσµατα. Πιο συγκεκριµένα, στο δεύτερο κεφάλαιο αναπτύσσονται κάποιες από τις βασικές έννοιες του ευρύτερου επιστηµονικού πεδίου που ανήκει η εργασία αυτή. Το πεδίο αυτό είναι η Μηχανική Μάθηση (Machine Learning), η οποία αποτελεί βασικό τοµέα του πεδίου της Τεχνητής Νοηµοσύνης. Στην συνέχεια του κεφαλαίου, αναφερόµαστε σε θέµατα πιο κοντά σε αυτό της διπλωµατικής, όπως είναι αυτό της Μάθησης µε επίβλεψη. Αντικείµενο του τρίτου κεφαλαίου είναι η Ταξινόµηση Κειµένων. Η διαδικασία δηλαδή κατά την οποία τοποθετούνται κείµενα, που βρίσκονται σε φυσική γλώσσα, σε µια συγκεκριµένη κατηγορία µέσα από ένα σύνολο κατηγοριών. Παραθέτουµε κάποιες µεθόδους Ταξινόµησης Κειµένων, όπως επίσης και κάποιες εφαρµογές της. Στη συνέχεια, εξετάζουµε την Ταξινόµηση Κειµένων µέσα από την προσέγγιση της Μηχανικής Μάθησης και τέλος αναλύουµε τους διάφορους ταξινοµητές κειµένων που έχουν προταθεί στη βιβλιογραφία. Θέµα του τέταρτου κεφαλαίου είναι η προεπεξεργασία των δεδοµένων που χρησι- µοποιήσαµε. Στο κεφάλαιο αυτό εξηγούνται ακριβώς, τα βήµατα που ακολουθήθηκαν, έτσι ώστε να δηµιουργηθεί η κατάλληλη µορφή δεδοµένων και οι λόγοι για τους οποίους χρειάστηκε να γίνει η προεπεξεργασία αυτή. Στο πέµπτο κεφάλαιο θα προσπαθήσουµε να εξηγήσουµε τον τρόπο µε τον οποίο έγινε η εκπαίδευση του επιλεγµένου ταξινοµητή και στη συνέχεια να εξηγήσουµε τα αποτελέσµατα της αξιολόγησης του. Ξεκινάµε µε την παρουσίαση των κατηγοριών και των υποκατηγοριών που επιλέξαµε να χρησιµοποιήσουµε, των κατηγοριών βάσει των -1-

οποίων θα γίνει η ταξινόµηση των κειµένων. Στο σηµείο αυτό, αναλύουµε και τον α- ριθµό των λέξεων από τις οποίες αποτελείται το λεξιλόγιο που χρειαζόµαστε για να υ- λοποιήσουµε την ταξινόµηση. Στη συνέχεια του κεφαλαίου, περιγράφουµε τους δύο ταξινοµητές βάση των οποίων έγιναν οι ταξινοµήσεις, όπως επίσης και την ιεραρχία κατηγοριών που χρησιµοποιήσαµε για αυτές. Στο έκτο και τελευταίο κεφάλαιο καταγράφονται κάποια συµπεράσµατα, τα οποία προέκυψαν µετά την ολοκλήρωση της διπλωµατικής, όπως και προοπτικές για µελλοντική εργασία στον συγκεκριµένο ερευνητικό χώρο. -2-

2 Μηχανική Μάθηση και Ταξινόµηση The goal of Machine Learning is to build computer systems that can adapt and learn from their experience. Tom Dietterich [5] 2.1 Μηχανική Μάθηση Τεχνητή Νοηµοσύνη (ΤΝ) είναι ο τοµέας της επιστήµης των υπολογιστών, που ασχολείται µε τη σχεδίαση ευφυών (νοηµόνων) υπολογιστικών συστηµάτων, δηλαδή συστηµάτων που επιδεικνύουν χαρακτηριστικά που σχετίζουµε µε τη νοηµοσύνη στην ανθρώπινη συµπεριφορά, όπως για παράδειγµα η επίλυση προβληµάτων, η αντίληψη µέσω της όρασης, η µάθηση, η εξαγωγή συµπερασµάτων, κτλ.. Ο ορισµός αυτός, που διατυπώθηκε από τους Barr και Feigenbaum, είναι ένας από τους πολλούς που έχουν δοθεί για την ΤΝ και δείχνει τα ασαφή όρια της περιοχής αλλά και την έκτασή της, καθώς ακόµα δεν είναι επακριβώς ορισµένο τι εννοούµε µε τον όρο νοηµοσύνη. Ακόµη, η ΤΝ οριοθετεί τα προβλήµατα που αντιµετωπίζει, περιγράφοντας τρόπους αναπαράστασης της γνώσης για αυτά και παρουσιάζοντας αλγορίθµους αναζήτησης των λύσεων τους. Θα µπορούσαµε, συνεπώς, να περιγράψουµε τη ΤΝ, µε τη παρακάτω εξίσωση.: ΤΝ = Αναπαράσταση Γνώσης + Αναζήτηση. Η µάθηση, όπως και η νοηµοσύνη, καλύπτουν ένα πολύ µεγάλο εύρος διεργασιών, το οποίο είναι δύσκολο να καθοριστεί επακριβώς. Οι ζωολόγοι και οι ψυχολόγοι εξετάζουν τον τρόπο που µαθαίνουν τα ζώα και οι άνθρωποι αντίστοιχα. Η Μηχανική Μάθηση επικεντρώνεται στη µάθηση των µηχανών (συστηµάτων) και αποτελεί έναν από τους τοµείς της ΤΝ. Μάλιστα, πολλές τεχνικές Μηχανικής Μάθησης προέρχονται από τις προσπάθειες των ψυχολόγων να κάνουν πιο ακριβείς τις θεωρίες για την ανθρώπινη µάθηση µέσα από υπολογιστικά µοντέλα. Όσον αφορά τα συστήµατα, µπορούµε να πούµε ότι ένα σύστηµα µε δυνατότητα µάθησης µεταβάλλει συνεχώς τη συµπεριφορά του προς το καλύτερο, ότι και αν αυτό σηµαίνει, συναρτήσει κάθε φορά των λειτουργιών που είναι σε θέση να εκτελέσει. Στην προκείµενη περίπτωση η δυσκολία έγκειται στο να προσδιοριστούν επακριβώς οι αλλα- -3-

γές, καθώς και ο τρόπος µε τον οποίο µπορούν αυτές να αναπαρασταθούν. Ένα µη βιολογικό σύστηµα µε δυνατότητα µάθησης δοµεί ή µετασχηµατίζει, σε µια αυστηρά καθορισµένη γλώσσα αναπαράστασης, προτάσεις τις οποίες και αποθηκεύει για µελλοντική χρήση. Αυτό δηλαδή που συµβαίνει πραγµατικά είναι ότι η λειτουργία του συστή- µατος προκαλεί µεταβολές στη βάση γνώσης του. Η µάθηση µε βάση τον τρόπο που αναφέρθηκε παραπάνω, αφορά τα συστήµατα που ανήκουν στην συµβολική προσέγγιση της ΤΝ. Υπάρχουν, όµως, συστήµατα που χρησιµοποιούν διαφορετικούς τρόπους µάθησης. Για παράδειγµα, τα τεχνητά νευρωνικά δίκτυα που ανήκουν στη δεύτερη προσέγγιση της ΤΝ, τη µη συµβολική (ή συνδετική), µαθαίνουν µετασχηµατίζοντας την εσωτερική τους δοµή, παρά καταχωρώντας κατάλληλα αναπαριστάµενη γνώση. Η Μηχανική Μάθηση συνήθως αναφέρεται σε αλλαγές στο σύστηµα, το οποίο ε- κτελεί εργασίες που σχετίζονται µε την ΤΝ. Αυτές οι εργασίες αφορούν τον Σχεδιασµό Ενεργειών (Planning), το Χειρισµό Ροµπότ, την Πρόβλεψη, τη ιάγνωση κ.ο.κ. [1, 2] 2.1.1 Ορισµός Μηχανικής Μάθησης Ο άνθρωπος προσπαθεί να κατανοήσει το περιβάλλον του παρατηρώντας το και δηµιουργώντας µια απλοποιηµένη (αφαιρετική) εκδοχή του, που ονοµάζεται µοντέλο (model). Η δηµιουργία ενός τέτοιου µοντέλου, ονοµάζεται επαγωγική µάθηση (inductive learning) ενώ η διαδικασία γενικότερα ονοµάζεται επαγωγή (induction). Επιπλέον, ο άνθρωπος έχει τη δυνατότητα να οργανώνει και να συσχετίζει τις εµπειρίες και τις παραστάσεις του δηµιουργώντας νέες δοµές που ονοµάζονται πρότυπα (patterns). Η δηµιουργία µοντέλων ή προτύπων από ένα υπολογιστικό σύστηµα ονοµάζεται Μηχανική Μάθηση (Machine Learning). [1] Κάποιοι εναλλακτικοί ορισµοί για τη Μηχανική Μάθηση είναι οι παρακάτω : Carbonell (1987), η µελέτη υπολογιστικών µεθόδων για την απόκτηση νέας γνώσης, νέων δεξιοτήτων και νέων τρόπων οργάνωσης της υπάρχουσας γνώσης. Mitchell (1997), Ένα πρόγραµµα υπολογιστή θεωρείται ότι µαθαίνει από την εµπειρία Ε σε σχέση µε µια κατηγορία εργασιών Τ και µια µετρική απόδοση Ρ, αν η απόδοσή του σε εργασίες της Τ, όπως µετριούνται από την Ρ, βελτιώνονται µε την εµπειρία Ε. [3] -4-

Witten & Frank (2000), Κάτι µαθαίνει όταν αλλάζει τη συµπεριφορά του κατά τέτοιο τρόπο ώστε να αποδίδει καλύτερα στο µέλλον. [4] Η Μηχανική Μάθηση διαθέτει κάποιους αλγόριθµους οι οποίοι είναι ικανοί να ανακαλύπτουν τη σχέση µεταξύ των µεταβλητών ενός συστήµατος (µεταβλητές εισόδου-εξόδου (input-output) και κρυµµένες (hidden)) από απευθείας δείγµα του συστή- µατος. Αυτοί οι αλγόριθµοι προέρχονται από πολλούς τοµείς, όπως η στατιστική, τα µαθηµατικά, η θεωρητική πληροφορική, η φυσική κ.ο.κ. [5] 2.1.2 Εφαρµογές Μηχανικής Μάθησης Η Μηχανική Μάθηση έχει βρει εφαρµογή σε πολλούς τοµείς, κάποιοι από τους οποίους είναι οι εξής: Βιοπληροφορική: στοίχιση ακολουθιών, ανάλυση δεδοµένων από µικροσυστοιχίες. Μηχανική όραση: αναγνώριση αντικειµένων, τµηµατοποίηση εικόνας. Ροµποτική: υπολογισµός κατάστασης, δηµιουργία χάρτη, λήψη απόφασης. Γραφικά: δηµιουργία ρεαλιστικών προσοµοιώσεων. Οµιλία: αναγνώριση, εξακρίβωση οµιλητή. Οικονοµική ανάλυση: πρόβλεψη τιµών µετοχών. Ηλεκτρονικό εµπόριο: πράκτορες για αυτόµατο εµπόριο, διατήρηση πελατών. Φαρµακευτική: διάγνωση, θεραπεία, σχεδίαση φαρµάκων. Ηλεκτρονικά παιχνίδια: σχεδιασµός ικανών αντιπάλων. Πολυµέσα: ανάκτηση µε βάση το περιεχόµενο. Άλλες εφαρµογές στις οποίες έχουν χρησιµοποιηθεί µέθοδοι Μηχανικής Μάθησης είναι: Ο έλεγχος ασθενών που χρίζουν εντατικής παρακολούθησης, η πρόβλεψη αξιοπιστίας πελατών τραπεζικών οργανισµών, η πρόβλεψη της προτίµησης των τηλεθεατών για τα προγράµµατα της τηλεόρασης, η ανακάλυψη των ιδιοτήτων κάποιων χηµικών ουσιών, η αναγνώριση άχρηστων spam µηνυµάτων ηλεκτρονικού ταχυδροµείου (email) και ο σχεδιασµός ταξινόµησης εγγράφων. [6] 2.1.3 Είδη Μηχανικής Μάθησης Η Μηχανική Μάθηση αποτελείται από δύο είδη Μάθησης: 1) Τη Μάθηση µε Επίβλεψη (Supervised Learning) ή Μάθηση µε Παραδείγµατα (Learning from Examples) και 2) -5-

Τη Μάθηση χωρίς Επίβλεψη (Unsupervised Learning) ή Μάθηση από Παρατήρηση (Learning from Observation). Στη Μάθηση µε επίβλεψη το σύστηµα καλείται να µάθει µια έννοια ή συνάρτηση από ένα σύνολο δεδοµένων, η οποία αποτελεί περιγραφή ενός µοντέλου. Ονοµάζεται έτσι επειδή θεωρείται ότι υπάρχει κάποιος επιβλέπων ο οποίος παρέχει τη σωστή τιµή εξόδου της συνάρτησης για τα δεδοµένα που εξετάζονται. Οι κυριότερες τεχνικές είναι οι εξής: Μάθηση Εννοιών, ένδρα Απόφασης, Μάθηση Κανόνων, Μάθηση από παραδείγµατα, Μάθηση κατά Bayes, Γενετικοί Αλγόριθµοι, Νευρωνικά και Μηχανές Υποστήριξης ιανυσµάτων SVMs (Support Vector Machines). Από την άλλη, στη Μάθηση χωρίς επίβλεψη το σύστηµα πρέπει µόνο του να ανακαλύψει συσχετίσεις ή οµάδες σε ένα σύνολο δεδοµένων, δηµιουργώντας πρότυπα, χωρίς να είναι γνωστό αν υπάρχουν, ποια και πόσα είναι. Εδώ, οι κυριότερες τεχνικές είναι οι Κανόνες Συσχέτισης και η Οµαδοποίηση. [1, 7] 2.2 Μάθηση µε Επίβλεψη Στη Μάθηση µε επίβλεψη το σύστηµα πρέπει να µάθει επαγωγικά µια συνάρτηση, η οποία ονοµάζεται συνάρτηση στόχος (target function) και αποτελεί έκφραση του µοντέλου που περιγράφει τα δεδοµένα. Η συνάρτηση στόχος χρησιµοποιείται για την πρόβλεψη της τιµής µιας µεταβλητής, που ονοµάζεται εξαρτηµένη µεταβλητή ή µεταβλητή εξόδου, βάσει των τιµών ενός συνόλου µεταβλητών, που ονοµάζονται ανεξάρτητες µεταβλητές ή µεταβλητές εισόδου ή χαρακτηριστικά. Το σύνολο των διαφορετικών δυνατών τιµών εισόδου της συνάρτησης, δηλαδή το πεδίο ορισµού της, ονοµάζεται σύνολο των περιπτώσεων ή στιγµιότυπων (instances) και συµβολίζεται µε Χ. Κάθε περίπτωση (ή στιγµιότυπο) περιγράφεται από ένα σύνολο χαρακτηριστικών (attributes ή features). Ένα υποσύνολο του συνόλου των περιπτώσεων για τα οποία γνωρίζουµε την τιµή της µεταβλητής εξόδου, ονοµάζεται σύνολο δεδοµένων εκπαίδευσης ή παραδείγµατα και συµβολίζεται µε D. Για να προσεγγίσει το σύστηµα όσο το δυνατόν καλύτερα τη συνάρτηση στόχο εξετάζει διάφορες εναλλακτικές συναρτήσεις, οι οποίες ονοµάζονται υποθέσεις και συµβολίζονται µε h. Το σύνολο όλων των δυνατών υποθέσεων που το πρόγραµµα µάθησης πρέπει να εξετάσει προκειµένου να βρει τη συνάρτηση στόχο, ονοµάζεται σύνολο υποθέσεων και συµβολίζεται µε H. Κάθε υπόθεση h є H, αναπαριστά είτε µια λογική συνάρτηση h:x >0,1 ή µια πραγµατική συνάρτηση h:x >R. -6-

Η επαγωγική µάθηση στηρίζεται στην υπόθεση επαγωγικής µάθησης (inductive learning hypothesis), σύµφωνα µε την οποία κάθε υπόθεση h που έχει βρεθεί να προσεγγίζει καλά τη συνάρτηση στόχο για ένα αρκετά µεγάλο σύνολο παραδειγµάτων, θα προσεγγίζει το ίδιο καλά τη συνάρτηση στόχο και για τις περιπτώσεις που δεν έχει εξετάσει.[1] 2.2.1 Τεχνικές Μηχανικής Μάθησης µε επίβλεψη Στην Μάθηση µε επίβλεψη διακρίνονται δύο είδη προβληµάτων (learning tasks), τα προβλήµατα ταξινόµησης / κατηγοριοποίησης και τα προβλήµατα παρεµβολής. Η ταξινόµηση (classification) αφορά στη δηµιουργία µοντέλων πρόβλεψης διακριτών τάξεων (κλάσεων / κατηγοριών) όπως για παράδειγµα η οµάδα αίµατος, ενώ η παρεµβολή (regression) αφορά στη δηµιουργία µοντέλων πρόβλεψης αριθµητικών τιµών. Όπως ήδη αναφέραµε και παραπάνω οι κυριότερες τεχνικές Μηχανικής Μάθησης µε επίβλεψη είναι: Μάθηση Εννοιών (Concept Learning) ένδρα Ταξινόµησης ή απόφασης (Classification or Decision Trees) Μάθηση Κανόνων (Rule Learning) Μάθηση κατά Περίπτωση (Instance Based Learning) Μάθηση κατά Bayes Γραµµική Παρεµβολή (Linear Regression) Νευρωνικά ίκτυα (Neural Networks) Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines, SVMs) Μάθηση Εννοιών Η µάθηση εννοιών είναι τυπικό παράδειγµα επαγωγικής µάθησης κατά την οποία το σύστηµα τροφοδοτείται µε παραδείγµατα που ανήκουν (θετικά παραδείγµατα) ή δεν ανήκουν (αρνητικά παραδείγµατα) σε κάποια έννοια. Καλείται επίσης, να παράγει κάποια γενικευµένη περιγραφή της, δηλαδή να δηµιουργήσει ένα µοντέλο, ώστε να είναι σε θέση στη συνέχεια να αποφασίσει αν µια άγνωστη περίπτωση ανήκει σε αυτή την έννοια. Με άλλα λόγια, η µάθηση εννοιών προσπαθεί να προσεγγίσει µια συνάρτηση που επιστρέφει λογική τιµή, µέσω παρατηρήσεων της εισόδου και της εξόδου της. Ένα παράδειγµα χρήσης αυτής της τεχνικής είναι ο προσδιορισµός της έννοιας καλός πε- -7-

λάτης για µια επιχείρηση (εταιρία κινητής τηλεφωνίας). Ο πιο γνωστός αλγόριθµος µάθησης εννοιών είναι ο αλγόριθµος απαλοιφής υποψηφίων. ένδρα Ταξινόµησης (Απόφασης) Ο αλγόριθµος µάθησης ή επαγωγής δένδρων ταξινόµησης / απόφασης είναι από τους πιο δηµοφιλείς αλγόριθµους µάθησης και έχουν εφαρµοστεί µε επιτυχία σε διάφορους τοµείς, όπως διάγνωση ιατρικών περιστατικών, πρόβλεψη συµπεριφοράς καταναλωτή, κτλ. Είναι µια µέθοδος για την προσέγγιση συναρτήσεων στόχου, που έχουν ως έξοδο διακριτές τιµές. Το αποτέλεσµά τους είναι µία δενδροειδής δοµή που µε γραφικό τρόπο περιγράφει τα δεδοµένα και εναλλακτικά, για να βελτιώσει την αναγνωσιµότητά του, µπορεί να αναπαρασταθεί και ως σύνολο κανόνων if-then, που ονοµάζονται κανόνες ταξινόµησης (classification rules). Οι περισσότεροι αλγόριθµοι που έχουν αναπτυχθεί για µάθηση δένδρων ταξινόµησης είναι παραλλαγές ενός βασικού αλγορίθµου. Παραδείγµατα αυτού του αλγορίθµου αποτελούν ο αλγόριθµος ID3 και ο απόγονός του C4.5. Μάθηση Κανόνων Μια από της πιο εκφραστικές και κατανοητές για τον άνθρωπο αναπαραστάσεις για µάθηση υποθέσεων είναι τα σύνολα if-then κανόνων. Η µάθηση κανόνων χωρίζεται σε δύο µεγάλες κατηγορίες: 1) Στους προτασιακούς (propositional rules) και 2) Στους κατηγορηµατικούς κανόνες πρώτης τάξης (first order predicate rules). Οι προτασιακοί κανόνες: δεν περιέχουν µεταβλητές, µπορεί να προκύψουν από άλλες µορφές αναπαράστασης, όπως δένδρα, γενετικοί αλγόριθµοι, αλλά και από απ ευθείας µάθηση µε αλγόριθµους σειριακής κάλυψης. Στους προτασιακούς κανόνες κάθε γεγονός χαρακτηρίζεται είτε ως αληθές (true) είτε ως ψευδές (false). εν περιλαµβάνονται µεταβλητές και έτσι δεν µπορούν να αναπαρασταθούν γενικές σχέσεις ανάµεσα στις τιµές των χαρακτηριστικών. Για παράδειγµα µπορεί να γραφεί ο παρακάτω κανόνας που ισχύει για µία συγκεκριµένη οικογένεια: if Father1=Bob and Name2=Bob and Female1=true then Daughter1_2=true Οι κατηγορηµατικοί κανόνες πρώτης τάξης: περιέχουν µεταβλητές, έχουν µεγάλη εκφραστική ικανότητα, -8-

προκύπτουν µε απ ευθείας µάθηση µέσω αλγορίθµων µάθησης κανόνων 1 ης τάξης. Για παράδειγµα, ο επόµενος κανόνας ισχύει για όλες τις οικογένειες: if father(y, X) and female(y) then daughter(x, Y) Μάθηση κατά Περίπτωση Σε αντίθεση µε τις µεθόδους Μηχανικής Μάθησης που αναφέρθηκαν µέχρι στιγµής και οι οποίες κωδικοποιούν τα παραδείγµατα εκπαίδευσης σε µια συµπαγή περιγραφή, στη µάθηση κατά περίπτωση τα δεδοµένα εκπαίδευσης διατηρούνται αυτούσια. Όταν ένα τέτοιο σύστηµα κληθεί να αποφασίσει για την κατηγορία µιας νέας περίπτωσης, εξετάζει εκείνη τη στιγµή τη σχέση της µε τα ήδη αποθηκευµένα παραδείγµατα. ηλαδή η µέθοδος αυτή αναβάλλει τη µάθηση έως ότου εµφανιστεί µια νέα περίπτωση (στιγµιότυπο) και για το λόγο αυτό ονοµάζεται αναβλητική µάθηση (lazy learning) σε αντίθεση µε τις άλλες οι οποίες µπορεί να χαρακτηριστούν ως έγκαιρες µέθοδοι µάθησης (eager learners), αφού µαθαίνουν το µοντέλο από τα αποθηκευµένα παραδείγµατα του συνόλου εκπαίδευσης, χωρίς να περιµένουν την άφιξη της νέας περίπτωσης. Χαρακτηριστικός αλγόριθµος αυτής της κατηγορίας είναι ο αλγόριθµος των k-κοντινότερων γειτόνων (k-nearest Neighbors). Μάθηση κατά Bayes Η συλλογιστική κατά Bayes µπορεί να συνεισφέρει στο πρόβληµα της Μηχανικής Μάθησης γιατί παρέχει µία ποσοτική µεθοδολογία για την αξιολόγηση των διαφόρων ενδείξεων που υποστηρίζουν τις εναλλακτικές υποθέσεις, οι οποίες διερευνώνται κατά τη µάθηση. Αποτελεί τη θεωρητική βάση για αλγορίθµους µάθησης που διαχειρίζονται πιθανότητες αλλά ακόµη και σε περιπτώσεις που η υπολογιστική πολυπλοκότητα της µεθόδου καθιστά απαγορευτική τη χρήση της, µπορεί να χρησιµοποιηθεί ως κριτήριο για τον έλεγχο της απόδοσης άλλων αλγορίθµων που δε διαχειρίζονται πιθανότητες. Στη µάθηση κατά Bayes (Bayesian learning) κάθε παράδειγµα εκπαίδευσης µπορεί σταδιακά να µειώσει ή να αυξήσει την πιθανότητα να είναι σωστή µια υπόθεση. Αυτό δίνει µεγάλη ευελιξία στους σχετικούς αλγόριθµους καθώς δεν απορρίπτουν αµέσως µία υπόθεση όταν προκύπτει ότι δεν είναι σε απόλυτη συµφωνία µε τα παραδείγµατα εκπαίδευσης. Επιπλέον, προϋπάρχουσα γνώση µπορεί να συνδυαστεί µε τα δεδοµένα εκπαίδευσης µε τη µορφή αρχικών τιµών πιθανότητας για τις υπό εξέταση υποθέσεις. Εκτός από το στάδιο της εκπαίδευσης, η µάθηση κατά Bayes δίνει ευελιξία και στο στάδιο της εφαρµογής της γνώσης που προκύπτει. Για παράδειγµα, στα προβλήµατα -9-

ταξινόµησης, νέα στοιχεία µπορεί να ταξινοµηθούν µε χρήση της πρόβλεψης πολλαπλών υποθέσεων, κάθε µία από τις οποίες συνεισφέρει ανάλογα µε την πιθανότητά της. Μια πρακτική δυσκολία στην εφαρµογή της µάθησης κατά Bayes είναι η απαίτηση για τη γνώση πολλών τιµών πιθανοτήτων. Όταν αυτές οι τιµές δεν είναι δυνατόν να υ- πολογιστούν επακριβώς, υπολογίζονται κατ εκτίµηση από παλαιότερες υποθέσεις, ε- µπειρική γνώση, κτλ. Η παραπάνω δυσκολία εφαρµογής έχει δώσει µεγάλη πρακτική αξία σε µια απλουστευµένη εκδοχή της µάθησης κατά Bayes, τον απλό / αφελή ταξινο- µητή Bayes (simple / naive Bayes classifier), στον οποίο γίνεται η παραδοχή ότι τα χαρακτηριστικά είναι ανεξάρτητα µεταξύ τους. Παρεµβολή Παρεµβολή ή παλινδρόµηση (regression) είναι η διαδικασία προσδιορισµού της σχέσης µιας µεταβλητής y (εξαρτηµένη µεταβλητή ή έξοδος) µε µία ή περισσότερες άλλες µεταβλητές x 1, x 2,, x n (ανεξάρτητες µεταβλητές ή είσοδοι). Σκοπός της παρεµβολής είναι η πρόβλεψη της τιµής της εξόδου όταν είναι γνωστές οι είσοδοι. Το πιο διαδεδοµένο µοντέλο παρεµβολής είναι το γραµµικό (linear regression). Νευρωνικά ίκτυα Τα τεχνητά νευρωνικά δίκτυα ή απλά νευρωνικά δίκτυα (neural networks) παρέχουν ένα πρακτικό (εύκολο) τρόπο για την εκµάθηση αριθµητικών και διανυσµατικών συναρτήσεων ορισµένων σε συνεχή ή διακριτά µεγέθη. Χρησιµοποιούνται τόσο για παρεµβολή (γραµµική και µη γραµµική) όσο και για ταξινόµηση και έχουν το µεγάλο πλεονέκτηµα της ανοχής που παρουσιάζουν σε δεδοµένα εκπαίδευσης µε θόρυβο, δηλαδή δεδοµένα που περιστασιακά έχουν λανθασµένες τιµές, όπως λάθη καταχώρησης. Από την άλλη όµως αδυνατούν να εξηγήσουν ποιοτικά τη γνώση που µοντελοποιούν. Υπάρχει µια ειδική κατηγορία νευρωνικών δικτύων, τα δίκτυα µε ανατροφοδότηση τα οποία λόγω της ειδικής τοπολογίας τους έχουν τη δυνατότητα αυτό-οργάνωσης χωρίς εξωτερική καθοδήγηση και ανήκουν στην κατηγορία µάθησης χωρίς επίβλεψη. Μηχανές ιανυσµάτων Υποστήριξης Οι µηχανές διανυσµάτων υποστήριξης ή Μ Υ προτάθηκαν από τον Vladimir Vapnik και τους συνεργάτες του το 1992 ως µια νέα µέθοδος µάθησης, παρόλο που η γενικότερη ιδέα στην οποία στηρίζονται είχε προταθεί αρκετά νωρίτερα, από τη δεκαετία του 60. Στηρίζονται στη Θεωρία Στατιστικής Μάθησης (Statistical Learning Theory) και στα νευρωνικά δίκτυα τύπου Perceptron. -10-

Τα τελευταία χρόνια, οι Μ Υ έχουν εδραιωθεί ως µία από τις πιο διαδεδοµένες µεθόδους (γραµµικής και µη) παρεµβολής και ταξινόµησης, αποτελώντας συνήθως τη βέλτιστη επιλογή για εφαρµογές όπως η αναγνώριση γραφής (handwriting recognition), η ταξινόµηση κειµένων (text categorization) και η ταξινόµηση δεδοµένων έκφρασης γονιδίων (gene expression data).[1] -11-

3 Ταξινόµηση Κειµένων Τα τελευταία 10 χρόνια οι διαδικασίες οργάνωσης κειµένων µε βάση το περιεχόµενο (γνωστές και ως ανάκτηση πληροφορίας) έχουν κερδίσει µια αξιόλογη θέση στο πεδίο των πληροφοριακών συστηµάτων εξαιτίας της αυξηµένης διάθεσης κειµένων σε ψηφιακή µορφή και της ανάγκης που προκύπτει για πρόσβαση σε αυτά µε διάφορους τρόπους. Η Ταξινόµηση Κειµένων (Text Classification) είναι µια διαδικασία η οποία τοποθετεί κείµενα, που βρίσκονται σε φυσική γλώσσα, σε µια συγκεκριµένη κατηγορία µέσα από ένα σύνολο κατηγοριών. Η Ταξινόµηση Κειµένων χρονολογείται ότι ήταν γνωστή ήδη στη δεκαετία του 60, αλλά µόνο κατά τη δεκαετία του 90 αποτέλεσε υποτοµέα των πληροφοριακών συστηµάτων, χάρις την εύκολη εφαρµογή και την ύπαρξη πιο ι- σχυρού υλικού (hardware). Η Ταξινόµηση Κειµένου εφαρµόζεται σήµερα σε πολλά είδη κειµένων, στα οποία η λειτουργία της κυµαίνεται από έλεγχο του περιεχοµένου τους, βασισµένο σε συγκεκριµένο λεξιλόγιο, µέχρι και έλεγχο της σηµασίας της κάθε λέξης. Μέχρι τα τέλη του 80, η δηµοφιλέστερη προσέγγιση της Ταξινόµησης Κειµένων ήταν µια προσέγγιση τεχνολογίας γνώσης (knowledge engineering), η οποία αποτελείται από ένα σύνολο κανόνων που κωδικοποιούν ειδική γνώση για το πως να τοποθετούνται τα κείµενα στις υπάρχουσες κατηγορίες. Κατά τη δεκαετία του 90, προέκυψε ραγδαία µείωση της χρήσης της προσέγγισης αυτής (ειδικά στην ερευνητική κοινότητα), εξαιτίας του µοντέλου της Μηχανικής Μάθησης, σύµφωνα µε το οποίο µια γενική επαγωγική διεργασία δηµιουργεί αυτόµατα έναν ταξινοµητή κειµένου, µαθαίνοντας από ένα σύνολο αρχείων ταξινοµηµένων από πριν, τα χαρακτηριστικά των κατηγοριών που µας ενδιαφέρουν. Η προσέγγιση αυτή παρέχει ακρίβεια συγκρίσιµη µε αυτή ενός ειδικού, ενώ για την παραγωγή του ίδιου έργου χρειάζεται να σπαταληθούν λιγότερες εργατικές ώρες, αφού δε χρειάζεται καµία απολύτως παρέµβαση από ειδικούς γνώσης ή ειδικούς του τοµέα για την κατασκευή του ταξινοµητή ή ακόµα και για τη µετατροπή αυτού έτσι ώστε να ταιριάζει σε διαφορετικό σύνολο κατηγοριών. Σήµερα η Ταξινόµηση Κειµένων βρίσκεται σε ένα σταυροδρόµι ανάµεσα στην Μηχανική Μάθηση και την Ανάκτηση Πληροφορίας και µοιράζεται ένα αριθµό από χαρακτηριστικά µε άλλα επιστηµονικά πεδία, όπως η εξαγωγή πληροφορίας / γνώσης από κείµενα και η εξόρυξη κειµένου [9, 10]. Οι διεργασίες, οι οποίες αναλύουν µεγάλες πο- -12-

σότητες κειµένων και ανιχνεύουν καινούριες µεθόδους χρήσης, έτσι ώστε να εξαχθεί πιθανώς χρήσιµη πληροφορία, αποτελούν τµήµα της εξόρυξης κειµένου. Σύµφωνα µε την άποψη αυτή, η Ταξινόµηση Κειµένων είναι µια περίπτωση εξόρυξης κειµένου (Text Mining). [8] 3.1 Ορισµός Ταξινόµησης Κειµένων Η Ταξινόµηση Κειµένων είναι η διαδικασία κατά την οποία αναθέτεται µια Boolean τιµή σε κάθε ζεύγος (d j, c i ) D C, όπου D είναι ένα σύνολο από αρχεία κειµένου και C = c 1,..., c C είναι ένα σύνολο από κατηγορίες, οι οποίες είναι καθορισµένες από πριν. Η τιµή T (True), όταν ανατεθεί στο (d j, c i ), υποδηλώνει ότι το αρχείο d j ανήκει στην κατηγορία c i,, ενώ η τιµή F (False), υποδηλώνει ότι το αρχείο d j δεν ανήκει στην κατηγορία c i. Πιο συγκεκριµένα, αυτό που προσπαθούµε να κάνουµε είναι να προσεγγίσουµε τη συνάρτηση Φ ( : D C T, F (η οποία περιγράφει επακριβώς πως πρέπει να ταξινοµηθούν τα αρχεία), µε τη βοήθεια της συνάρτησης Φ : D C T, F, η ο- ποία ονοµάζεται ταξινοµητής. Τελικός στόχος µας είναι η όσο το δυνατόν καλύτερη προσέγγιση της Φ (. Υποθέτουµε ότι όλες οι κατηγορίες αποτελούν συµβολικές ετικέτες και ότι δεν είναι διαθέσιµη επιπλέον γνώση για αυτές. Ακόµα, ότι δεν είναι διαθέσιµη εξωγενής γνώση, όπως η παροχή πληροφοριών για σκοπούς ταξινόµησης από κάποια εξωτερική πηγή η ταξινόµηση πρέπει να επιτυγχάνεται µε βάση ενδογενή γνώση µόνο, δηλαδή γνώση που έχει προέλθει µόνο από τα κείµενα. Πιο συγκεκριµένα, αυτό σηµαίνει ότι η ύπαρξη µεταγνώσης, όπως ο τύπος του εγγράφου, η ηµεροµηνία έκδοσης και η πηγή έκδοσης, δε θα θεωρείται διαθέσιµη. Η χρήση µόνο ενδογενούς γνώσης, σηµαίνει ότι η ταξινόµηση κειµένων πρέπει να γίνεται αποκλειστικά και µόνο µε βάση τη σηµασιολογία τους. Αν ληφθεί όµως υπόψιν ότι η σηµασιολογία ενός κειµένου είναι καθαρά υποκειµενική αντίληψη, η συµµετοχή ενός κειµένου σε µια κατηγορία δεν µπορεί ποτέ να καθοριστεί επακριβώς. Το γεγονός ότι δύο ειδικοί µπορεί να έχουν διαφορετική άποψη για το αν ένα κείµενο ανήκει ή όχι σε µια συγκεκριµένη κατηγορία, είναι ένα φαινόµενο που συµβαίνει πάρα πολύ συχνά. -13-

3.2 Μέθοδοι Ταξινόµησης Κειµένων Υπάρχουν έξη διαφορετικές µέθοδοι Ταξινόµησης Κειµένων. Ο διαχωρισµός των µεθόδων αυτών γίνεται σύµφωνα µε κάποιους περιορισµούς που ισχύουν κάθε φορά. Παρακάτω εξηγούνται αναλυτικά οι έξη µέθοδοι. 3.2.1 Απλή και Πολλαπλών-ετικετών Ταξινόµηση Κειµένων Η περίπτωση στην οποία ακριβώς µια κατηγορία πρέπει να ανατεθεί σε κάθε d j D συχνά ονοµάζεται απλή (single-label) περίπτωση, ενώ η περίπτωση στην οποία µπορεί C να ανατεθεί στο ίδιο d j D οποιοσδήποτε αριθµός κατηγοριών από το 0 έως το ονοµάζεται πολλαπλών-ετικετών (multilabel) περίπτωση. Μια ειδική περίπτωση singlelabel Ταξινόµησης Κειµένων είναι η δυαδική, στην οποία κάθε d j D πρέπει να ανατεθεί είτε στην κατηγορία c i είτε στο συµπλήρωµα αυτής c i. 3.2.2 Ταξινόµηση εξαρτώµενη από τη κατηγορία ή από το κείµενο Υπάρχουν δύο διαφορετικοί τρόποι χρήσης ενός ταξινοµητή κειµένου. Ο ένας τρόπος είναι να δίνονται τα d j D και να ζητείται να βρεθούν όλες οι c i C στις οποίες ταιριάζουν τα κείµενα αυτά (ταξινόµηση εξαρτώµενη από το κείµενο - Document-Pivoted Text Classification). Ο δεύτερος τρόπος είναι να δίνονται οι c i C και να ζητείται να βρεθούν όλα τα d j D τα οποία ταιριάζουν στις κατηγορίες αυτές (ταξινόµηση εξαρτώµενη από τη κατηγορία - Category-Pivoted Text Classification). Η ταξινόµηση εξαρτώµενη από το κείµενο είναι πιο συχνή από τη ταξινόµηση εξαρτώµενη από τη κατηγορία, γιατί πιο πιθανό είναι να χρειαστεί να προσθέσουµε κείµενα παρά κατηγορίες σε ένα ήδη υπάρχον σύνολο. 3.2.3 Απόλυτη Ταξινόµηση και Ταξινόµηση µε κατάταξη Μια πλήρης αυτοµατοποίηση της διαδικασίας της Κατηγοριοποίησης Κειµένων απαιτεί µια T ή F απόφαση για κάθε ζεύγος (d j, c i ), ενώ µια µερικώς αυτοµατοποίηση αυτής της διαδικασίας µπορεί να έχει διαφορετικές απαιτήσεις. Για παράδειγµα, αν δοθούν τα C d j D, ένα σύστηµα µπορεί απλά να ταξινοµήσει τις κατηγορίες του C = c 1,, c σύµφωνα µε την εκτιµώµενη καταλληλότητα των d j, για κάθε κατηγορία, χωρίς να παρθεί κάποια απόλυτη ( Hard ) απόφαση για κάποιο από αυτά. Μια τέτοια ταξινοµηµένη λίστα µπορεί να προσφέρει µεγάλη βοήθεια σε έναν ειδικό, ώστε να πάρει τη τελική απόφαση για την κατηγοριοποίηση, αφού µπορεί να περιορίσει την επιλογή των κατη- -14-

γοριών µόνο σε αυτές που βρίσκονται στη κορυφή της λίστας, χωρίς να χρειάζεται να εξετάσει ολόκληρο το σύνολο τους. [11]. 3.3 Εφαρµογές της Ταξινόµησης Κειµένων Η Ταξινόµηση Κειµένων έχει χρησιµοποιηθεί για πολλές διαφορετικές εφαρµογές, µερικές από τις σηµαντικότερες αναλύονται παρακάτω. Πρέπει όµως να επισηµάνουµε ότι τα όρια µεταξύ των διαφόρων κατηγοριών είναι ασαφή και εικονικά, για αυτό το λόγο κάποιες κατηγορίες µπορούν να θεωρηθούν ειδικές περιπτώσεις κάποιων άλλων. 3.3.1 Αυτόµατη καταχώρηση κειµένων για συστήµατα Ανάκτησης Πληροφορίας Η εφαρµογή, η οποία είχε αναπτυχθεί περισσότερο στην αρχή, στον τοµέα αυτό [12, 13, 14, 15, 16] ήταν αυτή της αυτόµατης καταχώρησης κειµένων για συστήµατα Ανάκτησης Πληροφορίας, τα οποία βασίζονται σε ένα ελεγχόµενο λεξικό. Ένα πολύ γνωστό παράδειγµα αυτού είναι τα δυαδικά (Boolean) συστήµατα, στα οποία σε κάθε κείµενο ανατίθεται µια ή περισσότερες λέξεις κλειδιά ή φράσεις κλειδιά, οι οποίες περιγράφουν το περιεχόµενό του. Αυτές οι λέξεις και φράσεις ανήκουν σε ένα πεπερασµένο σύνολο, το οποίο ονοµάζεται ελεγχόµενο λεξικό (controlled dictionary). Συνήθως, οι αναθέσεις αυτές γίνονται από εκπαιδευµένους ειδικούς στις καταχωρήσεις, για αυτό το λόγο είναι µια πολύ ακριβή δραστηριότητα. Αν οι καταχωρήσεις στο ελεγχόµενο λεξιλόγιο θεωρηθούν ως κατηγορίες, τότε η καταχώρηση κειµένου είναι µια περίπτωση Ταξινόµησης Κειµένων και µπορεί για αυτό το λόγο να προσδιοριστεί από τις αυτόµατες τεχνικές που περιγράφονται εδώ. 3.3.2 Οργάνωση Κειµένων Η καταχώρηση σύµφωνα µε ένα ελεγχόµενο λεξιλόγιο, είναι µια περίπτωση του γενικότερου προβλήµατος της οργάνωσης µε βάση το κείµενο. Μερικές πιθανές εφαρµογές είναι η οργάνωση των ασθενών σε κατηγορίες, ώστε να µπορεί να γίνεται η έρευνα ευκολότερα, [17] και η αυτόµατη τοποθέτηση των άρθρων µιας εφηµερίδας στο κατάλληλο τµήµα. 3.3.3 Φιλτράρισµα Κειµένων Το φιλτράρισµα κειµένου είναι µια δραστηριότητα κατά την οποία γίνεται ταξινόµηση εισερχόµενων κειµένων, τα οποία στέλνονται µε ασύγχρονο τρόπο από έναν παραγωγό -15-

πληροφορίας σε έναν χρήστη πληροφορίας [18]. Το σύστηµα φιλτραρίσµατος είναι υ- πεύθυνο να µπλοκάρει την παράδοση κειµένων, για τα οποία ο χρήστης είναι πιθανόν να µην ενδιαφέρεται. Επιπρόσθετα, ένα σύστηµα φιλτραρίσµατος µπορεί επίσης να ταξινοµήσει παραπέρα τα κείµενα που θεωρεί ότι ενδιαφέρουν τον χρήστη, σε θεµατικές κατηγορίες. Ένα προφίλ µπορεί αρχικά να προσδιοριστεί από το χρήστη, έτσι ώστε να µοιάζει µε ένα σταθερό και µόνιµο ερώτηµα Ανάκτησης Πληροφορίας και να ανανεώνεται από το σύστηµα χρησιµοποιώντας πληροφορία, η οποία δόθηκε ως απάντηση (είτε αόριστα είτε συγκεκριµένα), από τον χρήστη σχετικά µε τη συνάφεια ή όχι του παραδιδόµενου µηνύµατος. Η διαδικασία αυτή ονοµάζεται προσαρµοστικό φιλτράρισµα (adaptive filtering), ενώ η περίπτωση στην οποία δεν είναι διαθέσιµο ένα προφίλ, προσανατολισµένο στο χρήστη, ονοµάζεται είτε δροµολόγηση (routing) είτε οµαδικό φιλτράρισµα (batch filtering), το όνοµα εξαρτάται από το αν τα κείµενα πρέπει να ταξινοµούνται κατά φθίνουσα σειρά ή απλώς να δηλώνονται ως δεκτά ή απορριπτέα. Ως εκ τούτου, το batch filtering συµπίπτει µε τη Single-label Ταξινόµηση Κειµένων όταν έχουµε δύο κατηγορίες. 3.3.4 Αποσαφήνιση λέξης Η αποσαφήνιση µιας λέξης είναι η διαδικασία εύρεσης της πραγµατικής σηµασίας της λέξης στο κείµενο που αυτή βρίσκεται, συµπεριλαµβανοµένης της επεξεργασίας φυσικής γλώσσας και της δεικτοδότησης κειµένων σύµφωνα µε την σηµασία των λέξεων και όχι σύµφωνα µε τις λέξεις για σκοπούς Ανάκτησης Πληροφορίας. Η αποσαφήνιση λέξεων µπορεί να θεωρηθεί ως περίπτωση Ταξινόµησης Κειµένων, εάν υποτεθεί ότι τα συµφραζόµενα των λέξεων αποτελούν τα κείµενα και η σηµασία των λέξεων τις κατηγορίες. Είναι προφανές, ότι είναι µια περίπτωση Single-label Ταξινόµησης Κειµένων και ότι πρέπει να χρησιµοποιηθεί ταξινόµηση βασισµένη στο κείµενο (Document- Pivoted Text Classification). 3.3.5 Ιεραρχική Ταξινόµηση Ιστοσελίδων Η Ταξινόµηση Κειµένων έχει πρόσφατα προκαλέσει µεγάλο ενδιαφέρον για την πιθανή εφαρµογή της στην αυτόµατη Ταξινόµηση Ιστοσελίδων σύµφωνα µε τους ιεραρχικούς καταλόγους, οι οποίοι φιλοξενούνται από δηµοφιλείς διαδικτυακές πύλες. Όταν κείµενα που βρίσκονται στο διαδίκτυο καταχωρούνται σε κατάλογο µε αυτόν τον τρόπο, τότε ένας ερευνητής µπορεί να βρει πιο εύκολο το να πλοηγηθεί στην ιεραρχία των -16-

κατηγοριών και µετά να περιορίσει την έρευνα του στην ενδιαφερόµενη κατηγορία, παρά να κάνει µια ερώτηση σε µια µηχανή αναζήτησης γενικού περιεχοµένου. Η αυτόµατη Ταξινόµηση Ιστοσελίδων έχει προφανή πλεονεκτήµατα, αφού η χειροκίνητη ταξινόµηση ενός αρκετά µεγάλου υποσυνόλου του διαδικτύου είναι αδύνατη. Αντίθετα µε τις προηγούµενες εφαρµογές, αυτή είναι η κλασσική περίπτωση, όπου κάθε κατηγορία πρέπει να αποτελείται από ένα σύνολο από k 1 x k 2 κείµενα. Η ταξινό- µηση µε βάση την κατηγορία πρέπει να επιλεγεί, έτσι ώστε να επιτρέπει σε νέες κατηγορίες να προστίθενται και να αχρηστεύει αυτές που διαγράφονται. Η αυτόµατη Ταξινόµηση Ιστοσελίδων έχει δύο ουσιαστικές ιδιοµορφίες: 1. Την υπερκειµενική φύση των κειµένων: Οι σύνδεσµοι των ιστοσελίδων είναι µια πλούσια πηγή πληροφορίας, καθώς µπορεί κανείς να πει ότι διασαφηνίζουν τη σχέση της σελίδας στην οποία ανήκει ο σύνδεσµος µε τη σελίδα στην οποία βρίσκεται ο σύνδεσµος. 2. Την ιεραρχική δοµή των κατηγοριών: Αυτή µπορεί να χρησιµοποιηθεί, για παράδειγµα, για να διασπαστεί το πρόβληµα της ταξινόµησης σε έναν αριθµό από µικρότερα προβλήµατα ταξινόµησης, καθένα από τα οποία θα ανταποκρίνεται σε ένα κλαδί απόφασης ενός εσωτερικού κόµβου. 3.4 Ταξινόµηση Κειµένων µε χρήση τεχνικών Μηχανικής Μάθησης Τη δεκαετία του 80, η πιο δηµοφιλής προσέγγιση (τουλάχιστον στο επιχειρησιακό περιβάλλον) για τη δηµιουργία ενός αυτόµατου ταξινοµητή κειµένου έγκειται στο χειροκίνητο κτίσιµο, µέσω των τεχνικών της Μηχανικής Γνώσης, ενός έµπειρου συστήµατος ικανού να παίρνει αποφάσεις Ταξινόµησης Κειµένων. Ένα τέτοιο έµπειρο σύστηµα, τυπικά, αποτελείται από λογικούς κανόνες, οι οποίοι έχουν ορισθεί χειροκίνητα, ένας για κάθε κατηγορία, έχοντας ως τύπο: if (DNF formula) then (category), δηλαδή αν (DNF τύπος) τότε (κατηγορία). Ένας DNF (φυσικής διαζευκτικής µορφής) τύπος, είναι µια διάζευξη συνδετικών προτάσεων το κείµενο ταξινοµείται υπό κάποια κατηγορία (category) εάν ικανοποιεί τον τύπο, δηλαδή εάν ικανοποιεί τουλάχιστον µια από τις προτάσεις. Ένα µειονέκτηµα αυτής της προσέγγισης είναι η δυσκολία απόκτησης γνώσης, κάτι που έγινε γνωστό µέσα από επιστηµονικά κείµενα που αφορούσαν τα έµπειρα συστή- µατα. Η δυσκολία αυτή έγκειται στο γεγονός ότι οι κανόνες πρέπει να καθορίζονται -17-

χειροκίνητα από έναν µηχανικό γνώσης µε τη βοήθεια ενός έµπειρου ατόµου στο χώρο αυτό. Από την άλλη πλευρά, είχε αρχικά υπονοηθεί ότι η προσέγγιση αυτή θα έδινε πολύ καλά και ουσιαστικά αποτελέσµατα, κάτι όµως το οποίο δε συνέβει στην πράξη. Στις αρχές του 90, η Ταξινόµηση Κειµένων µέσα από την προσέγγιση της Μηχανικής Μάθησης είχε γίνει γνωστή και τελικά κυρίαρχη, τουλάχιστον στην ερευνητική κοινότητα. Σε αυτή την προσέγγιση, µια γενική επαγωγική διαδικασία δηµιουργεί αυτόµατα έναν ταξινοµητή για µια κατηγορία c i, παρατηρώντας τα χαρακτηριστικά ενός συνόλου κειµένων, τα οποία έχουν ταξινοµηθεί χειροκίνητα από έναν ειδικό στο χώρο αυτό. Από αυτά τα χαρακτηριστικά, η επαγωγική διαδικασία επιλέγει εκείνα, τα οποία πρέπει να έχει ένα καινούριο κείµενο έτσι ώστε να µπορέσει να ταξινοµηθεί στην κατηγορία c i. Στην ορολογία της Μηχανικής Μάθησης, το πρόβληµα της ταξινόµησης ανήκει στον κλάδο της Μάθησης µε Επίβλεψη, αφού η διαδικασία µάθησης επιβλέπεται από τη γνώση για τις κατηγορίες και από τις εκπαιδευόµενες περιπτώσεις που ανήκουν σε αυτές τις κατηγορίες. Το πλεονέκτηµα που έχει η προσέγγιση της Μηχανικής Μάθησης έναντι στην προσέγγιση της Μηχανικής Γνώσης είναι απολύτως εµφανές. Το µηχανικό έργο δεν κατευθύνεται προς την κατασκευή ενός ταξινοµητή, αλλά προς έναν αυτόµατο δηµιουργό ταξινοµητών. Οι ταξινοµητές, οι οποίοι έχουν δηµιουργηθεί µέσω τεχνικών Μηχανικής Μάθησης, φτάνουν σήµερα σε εντυπωσιακά επίπεδα αποδοτικότητας, κάνοντας την αυτόµατη ταξινόµηση µια ποιοτικά (και όχι µόνο οικονοµικά) εφαρµόσιµη εναλλακτική λύση της χειροκίνητης ταξινόµησης. 3.4.1 Σύνολα εκπαίδευσης, ελέγχου και επαλήθευσης Η Μηχανική Μάθηση µε επίβλεψη στηρίζεται στην διαθεσιµότητα ενός αρχικού συνόλου Ω = d 1,, d Ω D από κείµενα, τα οποία είναι ταξινοµηµένα από πριν σύµφωνα µε C = c 1,, c C. Σε ερευνητικό επίπεδο, µόλις ένας ταξινοµητής Φ δηµιουργηθεί, είναι επιθυµητό να γίνει αξιολόγηση της αποδοτικότητάς του. Σε αυτήν την περίπτωση, πριν την κατασκευή του ταξινοµητή ο αρχικός κανόνας χωρίζεται σε δυο σύνολα, τα οποία δε χρειάζεται υποχρεωτικά να έχουν ίδιο µέγεθος: Σε ένα σύνολο εκπαίδευσης και επαλήθευσης (a training-and-validation set). TV TV = d 1,, d Σε ένα σύνολο ελέγχου (a test set) Te = d + TV 1,, d Ω, το οποίο χρησιµοποιείται για να ελέγχει την αποδοτικότητα των κατηγοριοποιητών. Κάθε d j Te τροφοδοτείται στον κατηγοριοποιητή και έπειτα οι αποφάσεις -18-

d j Te τροφοδοτείται στον κατηγοριοποιητή και έπειτα οι αποφάσεις του κατηγοριοποιητή Φ(d j, c i ) συγκρίνονται µε αυτές του ειδικού Φ ( (d j, c i ). Ένας τρόπος µέτρησης της αποδοτικότητας της κατηγοριοποίησης βασίζεται στο πόσο συχνά οι τιµές της Φ(d j, c i ) συµπίπτουν µε τις τιµές της Φ ( (d j, c i ). Τα κείµενα του συνόλου Te δεν µπορούν µε κανέναν τρόπο να συµµετάσχουν στην επαγωγική κατασκευή των ταξινοµητών. Αν αυτή η προϋπόθεση δεν ικανοποιηθεί, τα πειραµατικά αποτελέσµατα που θα παρθούν είναι πολύ πιθανόν να είναι παραπλανητικά καλά και η αξιολόγηση, για αυτό το λόγο, δεν θα έχει αντικειµενικό χαρακτήρα [19]. Θα µπορούσαµε να χρησιµοποιήσουµε όλα τα δεδοµένα που έχου- µε διαθέσιµα, ώστε να αυξηθεί η αποδοτικότητα. Σε αυτή την περίπτωση τα αποτελέσµατα της προηγούµενης αξιολόγησης θα αποτελούν µόνο µια απαισιόδοξη εκτί- µηση της πραγµατικότητας, αφού ο τελευταίος ταξινοµητής θα έχει εκπαιδευτεί σε περισσότερα δεδοµένα από αυτά που θα αξιολογηθεί. Η παραπάνω προσέγγιση ονοµάζεται εκπαίδευση και έλεγχος. Μια εναλλακτική προσέγγιση είναι η διασταύρωση k-συνόλων, στην οποία k διαφορετικοί ταξινοµητές Φ 1,, Φ k δηµιουργούνται ύστερα από τον τεµαχισµό του αρχικού συνόλου δεδοµένων σε k διαχωρισµένα σύνολα Te 1,, Te k και στη συνέχεια εφαρ- µόζουν επαναληπτικά την παραπάνω προσέγγιση σε ζεύγη (TV i = Ω Te i, Te i ). Το σχήµα της τελικής αποδοτικότητας προκύπτει από τον ξεχωριστό υπολογισµό της αποδοτικότητας των Φ 1,, Φ k και τον υπολογισµό στη συνέχεια µε κάποιον τρόπο του µέσου όρου των αποτελεσµάτων. Για να έχουµε τη βέλτιστη περίπτωση και στις δύο προσεγγίσεις πρέπει να χωρίσουµε το σύνολο d 1,, d TV, σε δύο άλλα σύνολα: (i) στο σύνολο εκπαίδευσης (training set) Tr = d 1,, d Tr, από το οποίο έχει δηµιουργηθεί ο, 1, + Tr ταξινοµητής και (ii) στο σύνολο επαλήθευσης (validation set) Va = d d TV (το οποίο µερικές φορές λέγεται και προσφερόµενο σύνολο), πάνω στο οποίο έχουν πραγµατοποιηθεί οι επαναλαµβανόµενοι έλεγχοι του ταξινοµητή, οι οποίοι έχουν σαν στόχο την βελτιστοποίηση των παραµέτρων. Το σύνολο ελέγχου και το σύνολο επαλήθευσης πρέπει οπωσδήποτε να χρησιµοποιούνται χωριστά. -19-

3.5 εικτοδότηση κειµένου και µείωση της διάστασής του 3.5.1 εικτοδότηση κειµένου Τα κείµενα δεν µπορούν να επεξεργαστούν απευθείας από ένα ταξινοµητή ή από έναν αλγόριθµο δηµιουργίας ταξινοµητή. Εξαιτίας αυτού, µια διαδικασία αναπαράστασης, η οποία αντιστοιχίζει ένα κείµενο d j µε µια συµπαγή απεικόνιση των περιεχοµένων του, χρειάζεται να εφαρµοστεί σε αυτά, τα οποία ανήκουν είτε στο σύνολο ελέγχου είτε στο σύνολο εκπαίδευσης είτε στο σύνολο επαλήθευσης. Το πώς θα απεικονιστεί ένα κείµενο εξαρτάται από το πως κάποιος αντιλαµβάνεται τη σηµασία των βασικών στοιχείων του και από το πως τους σηµαντικούς κανόνες της φυσικής γλώσσας για τον συνδυασµό αυτών των στοιχείων (το πρόβληµα της συνθετικής σηµασιολογίας). Ένα κείµενο d j συνήθως εµφανίζεται ως ένα διάνυσµα όρων µε βάρη d r j = (w 1j,, w j T ), όπου T είναι το σύνολο των όρων (µερικές φορές λέγονται χαρακτηριστικά) που εµφανίζονται τουλάχιστον µια φορά σε τουλάχιστον ένα κείµενο του συνόλου εκπαίδευσης και 0 w kj 1 απεικονίζει το κατά πόσο ο όρος t k συνεισφέρει στη σηµασιολογία του κειµένου d j. Η ύπαρξη διαφορετικών προσεγγίσεων, οφείλεται στους παρακάτω παράγοντες: 1. υπάρχουν διάφοροι τρόποι µε τους οποίους µπορεί κανείς να ορίσει τι είναι όρος, 2. υπάρχουν διάφοροι τρόποι να υπολογίσεις τα βάρη των όρων. Ένας συνήθης τρόπος για το (1) είναι να ταυτίσεις τους όρους µε τις λέξεις. Αυτή η προσέγγιση συνήθως ονοµάζεται σύνολο των λέξεων (set of words αν τα βάρη είναι δυαδικά ή bag of words αν δεν είναι). Πολλές φορές χρησιµοποιούνται ολόκληρες φράσεις αντί για µεµονωµένες λέξεις σαν όροι [20, 21, 22]. Αυτό όµως δηµιουργεί κάποια προβλήµατα. εν γνωρίζουµε αν οι φράσεις έχουν δηµιουργηθεί σύµφωνα µε τη γραµµατική της γλώσσας ή αν η σύνθεση τους αποτελείται από ένα σύνολο / ακολουθία λέξεων, της οποίας το µοντέλο της συνεχούς εµφάνισης στη συλλογή είναι στατιστικά σηµαντικό. Ένας συνδυασµός των δύο αυτών προσεγγίσεων είναι πιθανότατα ο καλύτερος τρόπος [22], πετυχαίνοντας σηµαντικές βελτιώσεις. Αυτό µπορεί να συµβεί χρησιµοποιώντας φράσεις ουσιαστικών, οι οποίες δηµιουργήθηκαν µέσα από τον συνδυασµό συντακτικών και στατιστικών κριτηρίων. -20-

Όσον αφορά τώρα το (2), τα βάρη συνήθως κυµαίνονται µεταξύ του 0 και του 1. Σαν ειδική περίπτωση µπορεί να χρησιµοποιηθούν δυαδικά βάρη, όπου το 1 υποδηλώνει την παρουσία του όρου στο κείµενο, ενώ το 0 την απουσία. Εάν θα χρησιµοποιηθούν δυαδικά ή όχι βάρη, εξαρτάται από τον αλγόριθµο εκπαίδευσης ταξινοµητή που θα χρησιµοποιηθεί. Σε περίπτωση µη δυαδικού περιεχοµένου, για να ορισθεί το βάρος w kj του όρου t k στο κείµενο d j, µπορεί να χρησιµοποιηθεί οποιαδήποτε τεχνική δεικτοδότησης, η οποία ανήκει στον τοµέα της Ανάκτησης Πληροφορίας και η οποία απεικονίζει ένα κείµενο ως το διάνυσµα των βαρών. Τις περισσότερες φορές, η µετρική tfidf είναι αυτή που χρησιµοποιείται και η οποία ορίζεται ως εξής: tfidf (t k, d j ) = #(t k, d j ) log Tr # ( ) Tr t k (1) Όπου #(t k, d j ) υποδηλώνει το πόσες φορές ο όρος t k εµφανίζεται στο κείµενο d j και # Tr (t k ) τον αριθµό των κειµένων στο σύνολο Tr, στα οποία εµφανίζεται ο όρος t k. Αυτή η συνάρτηση εκφράζει ότι (i) όσο πιο συχνά εµφανίζεται ένας όρος σε ένα κείµενο, τόσο πιο αντιπροσωπευτικός είναι αυτός για το περιεχόµενο του κειµένου και (ii) σε όσο περισσότερα κείµενα εµφανίζεται ένας όρος τόσο λιγότερο βοηθάει αυτός ο όρος στην ταξινόµησή τους. Πρέπει να τονίσουµε ότι αυτή η συνάρτηση, δίνει βάρος στο πόσο σηµαντικός είναι ένας όρος σε ένα κείµενο, από πλευράς εµφάνισης και µόνο. Για αυτόν ακριβώς το λόγο είναι µηδενικής σηµασίας η σειρά µε την οποία εµφανίζονται οι όροι, όπως επίσης και ο συντακτικός ρόλος που παίζουν. Τα αποτελέσµατα από τη συνάρτηση tfidf, πολύ συχνά, κανονικοποιούνται µε βάση το συνηµίτονο σύµφωνα µε τη παρακάτω εξίσωση, έτσι ώστε τα βάρη να κυµαίνονται στο διάστηµα [0,1] και τα κείµενα να αναπαριστάνονται από διανύσµατα ίσου µήκους. w kj = T s = 1 tfidf ( t k, d ( tfidf ( t s j ), d j )) 2 (2) Παρόλο που η κανονικοποιηµένη συνάρτηση tfidf είναι η πιο διαδεδοµένη, έχουν χρησιµοποιηθεί και άλλες µέθοδοι συµπεριλαµβανοµένων του πιθανοτικού µοντέλου [23] ή µεθόδων για ταξινόµηση δοµηµένων κειµένων [24]. Οι διαφορετικές µέθοδοι χρειάζονται κυρίως όταν το σύνολο Tr δεν είναι όλο διαθέσιµο από την αρχή και έτσι δεν µπορεί να υπολογιστεί το # Tr (t k ). Πριν γίνει η διαδικασία αυτή, εκτελείται πάντα η αφαίρεση των λειτουργικών λέξεων, δηλαδή των ουδέτερων λέξεων όπως άρθρα, προθέσεις κ.α. Όσον αφορά τη διαδι- -21-

κασία του stemming (ληµµατοποίηση), διαδικασία κατά την οποία γίνεται οµαδοποίηση των λέξεων σύµφωνα µε τη µορφολογική ρίζα τους, η καταλληλότητα της για την Ταξινόµηση Κειµένων είναι αµφισβητήσιµη. 3.5.2 Μείωση της διάστασης του κειµένου µε επιλογή όρων Κάποιες µέθοδοι επιλογής όρων (γνωστές και ως µέθοδοι µείωσης του αριθµού των όρων) προσπαθούν να επιλέξουν από ολόκληρο το σύνολο T σύµφωνα µε ένα προκαθορισµένο ακέραιο r, το σύνολο T των όρων (µε T << T ), οι οποίοι όταν χρησιµοποιούνται για δεικτοδότηση κειµένου, αποφέρουν υψηλότερη αποδοτικότητα. Κάποιοι ειδικοί έδειξαν ότι η µείωση του αριθµού των όρων µπορεί να έχει ως αποτέλεσµα µια µέτρια αύξηση της αποδοτικότητας, κάτι το οποίο εξαρτάται από τον ταξινοµητή, καθώς επίσης από το βαθµό µείωσης T / T και των µεθόδων µείωσης του αριθµού των όρων που χρησιµοποιούνται. Ξεκινώντας από ένα αρχικό σύνολο όρων, ένα νέο σύνολο δηµιουργείται προσθέτοντας ή αφαιρώντας έναν όρο. Αφού δηµιουργηθεί ένα νέο σύνολο όρων, κατασκευάζεται ένας ταξινοµητής µε βάση αυτό και στη συνέχεια δοκιµάζεται πάνω σε ένα σύνολο επαλήθευσης. Το σύνολο όρων, το οποίο έχει ως αποτέλεσµα τη µεγαλύτερη αποδοτικότητα, είναι αυτό που επιλέγεται. Αυτή η προσέγγιση έχει το πλεονέκτηµα ότι µπορεί να ρυθµιστεί, σύµφωνα µε τον αλγόριθµο µάθησης που χρησιµοποιείται κάθε φορά. Επιπλέον, µπορεί να επιλεγεί διαφορετικός αριθµός όρων για διαφορετικές κατηγορίες, ανάλογα µε το αν µια κατηγορία µπορεί ή δεν µπορεί εύκολα να διαχωριστεί από τις υπόλοιπες. Μια υπολογιστικά ευκολότερη εναλλακτική µέθοδος είναι η προσέγγιση φιλτραρίσµατος. Η µέθοδος αυτή κρατάει τους T << T όρους, οι οποίοι πήραν τη µεγαλύτερη βαθµολογία σύµφωνα µε µια συνάρτηση που µετράει το πόσο σηµαντικός είναι ο όρος για το έργο της Ταξινόµησης Κειµένων. Συχνότητα Κειµένων Μια απλή και αποδοτική µέθοδος µείωσης του αριθµού των όρων είναι η συχνότητα κειµένων # Tr (t k ) ενός όρου t k, αυτό σηµαίνει ότι κρατούνται, µόνο οι όροι που βρίσκονται στο µεγαλύτερο αριθµό κειµένων. Οι όροι, οι οποίοι βρίσκονται πιο συχνά στη συλλογή, είναι οι πιο σηµαντικοί για την Ταξινόµηση Κειµένων. Αυτό όµως φαίνεται να έρχεται σε αντίθεση µε έναν πολύ γνωστό νόµο της Ανάκτησης Πληροφορίας, σύµφωνα µε τον οποίο οι όροι µε χαµηλή προς µέτρια συχνότητα κειµένων είναι οι πιο α- ντιπροσωπευτικοί [25]. Στην πραγµατικότητα όµως αυτοί οι δύο νόµοι δεν έρχονται σε -22-

αντίθεση µεταξύ τους, γιατί είναι κοινώς γνωστό ότι η πλειοψηφία των λέξεων που συµµετέχουν σε έναν κανόνα, είναι αυτές που έχουν πολύ µικρή συχνότητα κειµένων. Άλλες µέθοδοι επιλογής όρων µε βάση τη θεωρία της πληροφορίας Έχουν χρησιµοποιηθεί και άλλες πιο εξειδικευµένες µέθοδοι επιλογής όρων µε βάση τη θεωρία της πληροφορίας, ανάµεσα σε αυτές είναι οι: ο DIA (Darmstadt Indexing Approach) παράγοντας σύνδεσης (z(t k, c i )), η chi-square (χ 2 (t k, c i )), ο NGF συντελεστής (NGL(t k, c i )), το κέρδος πληροφορίας (information gain, IG(t k, c i )), η αµοιβαία πληροφορία (mutual information, MI(t k, c i )), ο λόγος της διαφοράς (odds ratio, OR(t k, c i )), η τιµή της σχετικότητας (relevancy score, RS(t k, c i )) και GSS συντελεστής (GSS(t k, c i )). Όλες οι µέθοδοι είναι τοπικά προσανατολισµένες σε µια συγκεκριµένη κατηγορία c i. Στην Ανάκτηση εδοµένων, µετράµε πόσο ανεξάρτητα είναι τα t k και c i. Ο όρος t k µε την χαµηλότερη τιµή για χ 2 (t k, c i ), είναι περισσότερο ανεξάρτητος από το c i. Εφόσον, ενδιαφερόµαστε για εκείνους τους όρους που δεν είναι ανεξάρτητοι, επιλέγουµε εκείνους για τους οποίους χ 2 (t k, c i ) έχει την υψηλότερη τιµή. Αφού κάθε µέθοδος µείωσης του αριθµού των όρων έχει τη δική της λογική, η τελευταία λέξη για την αξία της είναι η αποδοτικότητα που αυτή φέρνει. ιάφορες πειρα- µατικές συγκρίσεις ανάµεσα στις µεθόδους µείωσης του αριθµού των όρων έχουν ε- φαρµοστεί [26, 27, 28, 29]. Σε αυτά τα πειράµατα, οι περισσότερες µέθοδοι που αναφέρθηκαν παραπάνω (µε πιθανή εξαίρεση την MI αµοιβαία πληροφορία) έχουν βελτιωθεί ως προς τα αποτελέσµατα της συχνότητας κειµένων. Τα πειράµατα αυτά, υποδεικνύουν επίσης ότι OR, NGL, GSS > χ 2, IG > χ 2 >> MI, MI, όπου > ση- µαίνει έχει καλύτερη απόδοση από. Παρόλα αυτά, πρέπει να επισηµανθεί ότι αυτά τα αποτελέσµατα είναι, απλά ενδεικτικά και ότι πιο γενικά συµπεράσµατα για το σχετικό περιεχόµενο των µεθόδων αυτών θα µπορούσαν να βγουν µόνο ως αποτέλεσµα συγκριτικών πειραµάτων, εκτελεσµένων σε απολύτως ελεγχόµενες συνθήκες και σε πολλές διαφορετικές καταστάσεις, όπως για παράδειγµα διαφορετικοί ταξινοµητές. 3.6 Ταξινοµητές Κειµένων Παρακάτω αναλύονται οι πιο γνωστές µέθοδοι της Ταξινόµησης Κειµένων. Αυτοί είναι οι πιθανοτικοί ταξινοµητές, οι ταξινοµητές δένδρων απόφασης, οι ταξινοµητές κανόνων απόφασης, οι on-line µέθοδοι, τα νευρωνικά δίκτυα, οι ταξινοµητές βασισµένοι στα παραδείγµατα, οι µηχανές διανυσµάτων υποστήριξης και τέλος η οµάδα ταξινοµητών. -23-