- PDF Free Download

Transcript

1 Αναγνώριση Υφολογικού Είδους Κειµένου µε τεχνικές Μηχανικής Μάθησης Η ιπλωµατική Εργασία παρουσιάστηκε ενώπιον του ιδακτικού Προσωπικού του Πανεπιστηµίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το ίπλωµα του Μηχανικού Πληροφοριακών και Επικοινωνιακών Συστηµάτων του ηµητρίου Τσούτσια ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2005

2 Η ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ Ι ΑΣΚΟΝΤΩΝ ΕΠΙΚΥΡΩΝΕΙ ΤΗ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΤΟΥ ΗΜΗΤΡΙΟΥ ΤΣΟΥΤΣΙΑ ΕΥΣΤΑΘΙΟΣ ΣΤΑΜΑΤΑΤΟΣ, Επιβλέπων Ιούνιος 2005 Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων ΓΕΩΡΓΙΟΣ ΒΟΥΡΟΣ, Μέλος Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων ΕΡΓΙΝΑ ΚΑΒΑΛΛΙΕΡΑΤΟΥ, Μέλος Τµήµα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστηµάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2005 ii

3 ΠΕΡΙΛΗΨΗ Η εργασία αυτή πραγµατεύτηκε το πρόβληµα της αυτόµατης κατάταξης των κειµένων ως προς το ύφος τους. Μελετήθηκαν οι βασικές µέθοδοι κατηγοριοποίησης και οι υπάρχουσες προσεγγίσεις που έχουν προταθεί στην ακαδηµαϊκή κοινότητα συγκεκριµένα για την υφολογική κατάταξη. Στη συνέχεια, αναπτύχθηκαν και δοκιµάστηκαν δύο είδη ταξινοµητών, που βασίζονται στη µέθοδο των κοινών ngrams και στις Μηχανές Βοηθητικών ιανυσµάτων αντίστοιχα. Η απόδοση των ταξινοµητών αυτών κινήθηκε στο 94%-95% αντίστοιχα και δίνει µία βάση για περαιτέρω εξέταση τους. [2005] του ηµητρίου Τσούτσια iii

4 ΑΦΙΕΡΩΣΕΙΣ Στη Λίζα iv

5 ΕΥΧΑΡΙΣΤΙΕΣ Ευχαριστώ θερµά τον επιβλέποντα καθηγητή, κ. Σταµατάτο για την υποµονή, τον χρόνο και την ακαδηµαϊκή του καθοδήγηση. v

6 Περιεχόµενα Περιεχόµενα... 6 Κεφάλαιο 1 - Εισαγωγή Τι είναι Τεχνητή Νοηµοσύνη Τι είναι Μηχανική Μάθηση Τι είναι Κατηγοριοποίηση...9 Κεφάλαιο 2 - Κατηγοριοποίηση κειµένου Εισαγωγή Ταξινόµηση βάσει κειµένου και βάσει κατηγορίας Ταξινοµητές βαθµολόγησης Εφαρµογές κατηγοριοποίησης κειµένων Αυτόµατη δεικτοδότηση σε συστήµατα Ανάκτησης Πληροφορίας Οργάνωση εγγράφων Φιλτράρισµα εγγράφων Αποσαφήνιση της έννοιας των λέξεων Ιεραρχική ταξινόµηση ιστοσελίδων Μηχανική Μάθηση στην ταξινόµηση κειµένων Εκπαίδευση και δοκιµή ιασταύρωση n συνόλων Ρύθµιση παραµέτρων Ταξινόµηση κειµένου και Ανάκτηση Πληροφορίας Αναπαράσταση κειµένου Επαγωγική κατασκευή ταξινοµητή κειµένων Μέτρηση απόδοσης των ταξινοµητών Παραδείγµατα ταξινοµητών Ταξινοµητές Bayes ένδρα απόφασης Τεχνητά Νευρωνικά ίκτυα Μηχανές βοηθητικών διανυσµάτων...25 Κεφάλαιο 3 - Κατηγοριοποίηση κειµένων βάσει ύφους Εισαγωγή Κίνητρα για υφολογική κατηγοριοποίηση υσκολίες στην υφολογική κατηγοριοποίηση Στατιστική υφολογία Προσεγγίσεις στην εξαγωγή υφολογικών δεικτών Προσέγγιση Biber Προσέγγιση Karlgreen Cutting Προσέγγιση Kessler Προσέγγιση Μίχου Προσέγγιση Lee Mayeng Προσέγγιση Σταµατάτου Προσέγγιση Keselj Μέθοδοι κατηγοριοποίησης Τεχνική κατηγοριοποίησης κοινών ngrams

7 Κεφάλαιο 4 H προσέγγιση της εργασίας Εισαγωγή Το σύνολο κειµένων Αξιολόγηση του συστήµατος Περιβάλλον πειραµάτων Ταξινόµηση µε τα κοινά ngrams Ταξινόµηση µε SVMs...47 Συµπεράσµατα Βιβλιογραφία Παράρτηµα Ι Το εργαλείο λογισµικού Yfos

8 Κεφάλαιο 1 - Εισαγωγή Η εργασία αυτή πραγµατεύτηκε το πρόβληµα της αυτόµατης κατάταξης των κειµένων ως προς το ύφος τους, µε χρήση τεχνικών Μηχανικής Μάθησης. Μελετήθηκαν οι βασικές µέθοδοι κατηγοριοποίησης και οι υπάρχουσες προσεγγίσεις που έχουν προταθεί στην ακαδηµαϊκή κοινότητα συγκεκριµένα για την υφολογική κατάταξη. Στη συνέχεια, αναπτύχθηκαν και δοκιµάστηκαν δύο είδη ταξινοµητών, που βασίζονται στη µέθοδο κοινών ngrams και στις Μηχανές Βοηθητικών ιανυσµάτων αντίστοιχα. Η απόδοση των ταξινοµητών αυτών κινήθηκε στο 94%-95% αντίστοιχα και δίνει µία βάση για περαιτέρω εξέταση τους. Η ταξινόµηση, ή αλλιώς κατηγοριοποίηση είναι ένα πρόβληµα το οποίο µπορεί να προσεγγιστεί µε µεθόδους Μηχανικής Μάθησης (Machine Learning) που είναι µια περιοχή της Τεχνητής Νοηµοσύνης - ΤΝ (Artificial Intelligence). 1.1 Τι είναι Τεχνητή Νοηµοσύνη Η ΤΝ είναι ο τοµέας της επιστήµης των υπολογιστών που ασχολείται µε τη σχεδίαση ευφυών υπολογιστικών συστηµάτων, δηλαδή συστηµάτων που επιδεικνύουν χαρακτηριστικά που σχετίζονται µε τη νοηµοσύνη στην ανθρώπινη συµπεριφορά. Ένας περισσότερος αναλυτικός ορισµός της ΤΝ είναι ο ακόλουθος: ΤΝ είναι ο τοµέας της Επιστήµης των Υπολογιστών που ασχολείται µε τη σχεδίαση και υλοποίηση προγραµµάτων τα οποία είναι ικανά να µιµηθούν τις ανθρώπινες γνωστικές δυνατότητες, εµφανίζοντας έτσι χαρακτηριστικά που αποδίδουµε συνήθως σε ανθρώπινη συµπεριφορά, όπως για παράδειγµα η επίλυση προβληµάτων, η αντίληψη µέσω της όρασης, η µάθηση, η εξαγωγή συµπερασµάτων, η κατανόηση φυσικής γλώσσας κλπ [Βλαχάβας et al., 2002]. 1.2 Τι είναι Μηχανική Μάθηση Η µηχανική µάθηση αποτελεί έναν από τους παλαιότερους τοµείς της Τεχνητής Νοηµοσύνης. Εφόσον η δυνατότητα της µάθησης αποτελεί το κύριο χαρακτηριστικό µιας νοήµονος οντότητας, ο όρος µηχανική µάθηση συχνά ταυτίζεται µε αυτόν της Τεχνητής Νοηµοσύνης. Η έννοια της µάθησης σε ένα σύστηµα γνώσης (cognitive system) συνδέεται µε δύο βασικά γνωρίσµατα: Την ικανότητα του συστήµατος να αποκτά επιπλέον γνώση κατά την αλληλεπίδρασή του µε το περιβάλλον του, και Την ικανότητα του συστήµατος, να βελτιώνει τον τρόπο µε τον οποίο εκτελεί µια ενέργεια, µέσω των επαναλήψεων Συνεπώς ένα γνωστικό σύστηµα µεταβάλλεται συνεχώς και µάλιστα προς το καλύτερο κατά τη διάρκεια της ζωής του. Αυτό που είναι δύσκολο να αναπαρασταθεί είναι η ακριβής φύση των µεταβολών αυτών και ο τρόπος µε τον οποίο µπορούν να αναπαρασταθούν. 8

9 Στη γενική περίπτωση η µάθηση προσδιορίζεται ως η πρόσκτηση γνώσης που έχει αναπαρασταθεί κατάλληλα. Ένα µη βιολογικό γνωστικό σύστηµα δοµεί ή µετασχηµατίζει σε µία αυστηρώς καθορισµένη γλώσσα αναπαράστασης, προτάσεις τις οποίες αποθηκεύει για µετέπειτα χρήση. ηλαδή, η βασική παραδοχή είναι πως η βάση γνώσης του συστήµατος µεταβάλλεται κατά τη λειτουργία του. Βέβαια υπάρχουν και εναλλακτικά πλαίσια µάθησης όπως π.χ. τα τεχνητά νευρωνικά δίκτυα που µαθαίνουν µετασχηµατίζοντας την εσωτερική τους δοµή, και όχι καταχωρώντας αναπαριστάµενη γνώση [Βλαχάβας et al., 2002], [Mietchel, 1997] Ένα σύστηµα µε δυνατότητα µάθησης πρέπει να είναι σε θέση να εκτελεί γενικεύσεις, δηλαδή να µπορεί να αγνοεί χαρακτηριστικά και ιδιότητες που δεν αντιπροσωπεύουν την έννοια που πρέπει να µάθει. Για παράδειγµα, στην κατηγοριοποίηση κειµένων, δεν λαµβάνεται υπ όψιν η γραµµατοσειρά του κειµένου. 1.3 Τι είναι Κατηγοριοποίηση Κατηγοριοποίηση (classification) ή ταξινόµηση είναι ο προσδιορισµός της κατηγορίας στην οποία ανήκει ένα αντικείµενο, φαινόµενο, πρότυπο, µέτρηση ή οτιδήποτε άλλο. Τα προβλήµατα κατηγοριοποίησης, έχουν σαν είσοδο ένα σύνολο από δεδοµένα που περιγράφουν το αντικείµενο και χρησιµοποιώντας κάποια µορφή γνώσης παράγουν σαν έξοδο την κατηγορία στην οποία ανήκει αυτό. Το κυριότερο χαρακτηριστικό της κατηγοριοποίησης είναι πως η επιλογή της κατηγορίας που κατατάσσεται ένα αντικείµενο, γίνεται από ένα προκαθορισµένο σύνολο κατηγοριών. Αυτό δεν σηµαίνει πως το αντικείµενο ανήκει σίγουρα σε µία µόνο κατηγορία, ή πως το αντικείµενο ανήκει σίγουρα σε κάποια κατηγορία [Βλαχάβας et al., 2002]. 9

10 Κεφάλαιο 2 - Κατηγοριοποίηση κειµένου 2.1 Εισαγωγή Στόχος της κατηγοριοποίησης κειµένου είναι η ταξινόµηση των εγγράφων σε ένα δεδοµένο σύνολο από κατηγορίες. Οι εφαρµογές της αυτόµατης κατηγοριοποίησης κειµένων (text categorization) έχουν γνωρίσει άνθηση τα τελευταία δέκα περίπου χρόνια, αν και εφαρµόζονται από το 60. Αυτό οφείλεται στον εκρηκτικό ρυθµό αύξησης του αριθµού των κειµένων που είναι διαθέσιµα σε ηλεκτρονική µορφή και διατίθενται µέσω του διαδικτύου και στην επακόλουθη ανάγκη ταξινόµησής τους. Στην ερευνητική κοινότητα, η κυριαρχούσα προσέγγιση για τη δηµιουργία των ταξινοµητών βασίζεται στις τεχνικές µηχανικής µάθησης. Μέσω µιας επαγωγικής διαδικασίας, κατασκευάζεται αυτόµατα ο ταξινοµητής που µαθαίνει τα χαρακτηριστικά της κάθε κατηγορίας µέσω ενός συνόλου παραδειγµάτων που χρησιµοποιούνται για την εκπαίδευσή του. Η κατηγοριοποίηση κειµένου είναι η διαδικασία ανάθεσης µιας τιµής Boolean σε κάθε ζεύγος <d j, c i > D x C, όπου το D = {d 1, d 2,, d n } είναι το σύνολο κειµένων και το C = {c 1, c 2,, c m } είναι ένα σύνολο προκαθορισµένων κατηγοριών (Πίνακας 1). Η τιµή α ij είναι true αν η απόφαση του ταξινοµητή είναι πως το κείµενο d j ανήκει στην κατηγορία c i και η τιµή false δίνεται αν το κείµενο d j δεν καταταχθεί στην κατηγορία c i. Για να δώσουµε έναν πιο τυπικό ορισµό, ο σκοπός είναι να προσδιοριστεί η άγνωστη συνάρτηση στόχος (target function) Φ : D x C {true, false}, που περιγράφει πώς πρέπει να ταξινοµηθούν τα κείµενα, µε τη βοήθεια µιας συνάρτησης Φ: D x C {true, false}, που καλείται ταξινοµητής (classifier), έτσι ώστε η Φ και η Φ να συµφωνούν. Το πώς ακριβώς καθορίζεται και µετράται ο βαθµός συµφωνίας θα αναλυθεί σε επόµενη ενότητα. d 1 d j d n c 1 α α 1j... α 1n c i α ι1 α ij... α in c m α m1 α mj α mn Πίνακας 1. Κατηγοριοποίηση κειµένου Οι παραδοχές που γίνονται είναι οι ακόλουθες Οι κατηγορίες είναι συµβολικές ετικέτες. εν είναι διαθέσιµη κάποια πληροφορία σχετική µε το νόηµά τους, για να υποστηριχθεί η διαδικασία κατασκευής του ταξινοµητή. Αυτό σηµαίνει πως το κείµενο που αποτελεί την ετικέτα δεν µπορεί να χρησιµοποιηθεί. Η απόδοση των κειµένων σε κατηγορίες πρέπει γενικά να γίνεται µε βάση το περιεχόµενο των κειµένων και όχι βάσει µέτα-δεδοµένων (π.χ. ηµεροµηνία συγγραφής, είδος αρχείου) που µπορεί να συνοδεύουν το κείµενο. Αυτό σηµαίνει πως το µέτρο σχετικότητας ενός κειµένου µε µια κατηγορία είναι υποκειµενικό. 10

11 Ανάλογα µε την εφαρµογή το σύστηµα κατηγοριοποίησης µπορεί να απαιτείται να ικανοποιεί διάφορους περιορισµούς όπως: Κάθε κείµενο του D πρέπει να καταταχθεί σε k, ή περισσότερες από k ή λιγότερες από k κατηγορίες του C. Η περίπτωση που το κάθε κείµενο ταξινοµείται σε µόνο µια κατηγορία συχνά αναφέρεται ως περίπτωση µη επικαλυπτόµενων κατηγοριών (non-overlapping categories) ή µονής ετικέτας (single label) ενώ η περίπτωση όπου κάθε κείµενο µπορεί να καταταχθεί σε περισσότερες από µία κατηγορίες ονοµάζεται ως επικαλυπτόµενων κατηγοριών ή πολλαπλών ετικετών. Μια ειδική περίπτωση ταξινοµητή µονής ετικέτας είναι ο δυαδικός ταξινοµητής, ο οποίος κατατάσσει το κάθε κείµενο είτε στην κατηγορία c i είτε στη συµπληρωµατική της c i. Η περίπτωση αυτή µπορεί να θεωρηθεί πιο γενική από την κατηγοριοποίηση πολλαπλών ετικετών, αφού ο αλγόριθµος για τη δυαδική ταξινόµηση µπορεί να χρησιµοποιηθεί και για πολλαπλές ετικέτες. Απλά το πρόβληµα ταξινόµησης σε κατηγορίες του συνόλου C σπάει σε m ανεξάρτητα προβλήµατα δυαδικής ταξινόµησης στο {c i, c i }, για i = 1,..., m. Βέβαια, οι κατηγορίες πρέπει να είναι στατιστικά ανεξάρτητες µεταξύ τους, δηλαδή για κάθε c, c, η τιµή της Φ (d j, c) δεν πρέπει να εξαρτάται από την τιµή της Φ ( d j, c ), κάτι που ισχύει στις περισσότερες περιπτώσεις. Κάθε κατηγορία του C πρέπει να ανατεθεί σε k, ή περισσότερα από k ή λιγότερα από k κείµενα του D, δηλαδή τίθεται ένα ανώτατο ή/και κατώτατο όριο στα κείµενα που µπορούν να ταξινοµηθούν σε κάθε κατηγορία 2.2 Ταξινόµηση βάσει κειµένου και βάσει κατηγορίας Υπάρχουν δύο διαφορετικοί τρόποι χρήσης ενός ταξινοµητή κειµένου. εδοµένου ενός κειµένου d j D µπορεί να θέλουµε να βρούµε όλες τις κατηγορίες c i C που ανήκει. Έτσι, το σύστηµα συµπληρώνει τον Πίνακα 1 ανά στήλες. Εναλλακτικά, δεδοµένης µιας κατηγορίας c i C µπορεί να θέλουµε να βρούµε όλα τα κείµενα d j D που ανήκουν σε αυτή δηλαδή το σύστηµα συµπληρώνει τον πίνακα ανά γραµµές. Η πρώτη προσέγγιση ονοµάζεται ταξινόµηση βάσει κειµένου (document pivoted categorization) και η δεύτερη ταξινόµηση βάσει κατηγορίας (category pivoted categorization). Η ταξινόµηση βάσει κειµένου είναι καταλληλότερη όταν τα κείµενα γίνονται διαθέσιµα για ταξινόµηση σε διαφορετικές χρονικές στιγµές, δηλαδή το σύνολο D δεν είναι ολοκληρωτικά διαθέσιµο στην έναρξη της διαδικασίας ταξινόµησης. Ένα παράδειγµα µιας τέτοιας εφαρµογής είναι όταν εισάγεται στο σύστηµα µονάχα ένα κείµενο, και ζητείται απλά η κατηγορία στην οποία ανήκει. Η ταξινόµηση βάσει κατηγορίας, από την άλλη, είναι πιο κατάλληλη σε περιπτώσεις που Μια νέα κατηγορία c m+1 προστίθεται στο υπάρχων σύνολο C, ύστερα από την ταξινόµηση ενός πλήθους κειµένων και Αυτά τα ταξινοµηµένα κείµενα πρέπει να αναταξινοµηθούν, λαµβάνοντας υπ όψιν τη νέα κατηγορία c m+1. Η κατηγοριοποίηση βάσει κειµένου συναντάται πιο συχνά καθώς η περίπτωση τα κείµενα να γίνονται σταδιακά διαθέσιµα είναι πιο συνηθισµένη από την πρόσθεση νέων κατηγοριών στο σύστηµα. 11

12 2.3 Ταξινοµητές βαθµολόγησης Μια πλήρως αυτοµατοποιηµένη εφαρµογή ταξινόµησης απαιτεί µια σαφή απόφαση για την κατηγορία στην οποία ανήκει το κείµενο, δηλαδή µια απόφαση true ή false για κάθε ζεύγος <d j, c i >. Υπάρχουν όµως και εφαρµογές που έχουν διαφορετικές απαιτήσεις. Για παράδειγµα, δεδοµένου ενός κειµένου d j D ένας ταξινοµητής µπορεί απλά να βαθµολογήσει και να κατατάξει τις κατηγορίες στο C = {c 1, c 2,, c m }, σύµφωνα µε την εκτιµούµενη καταλληλότητά τους ως προς το d j, χωρίς όµως να πάρει κάποια σαφή απόφαση για κάποια από αυτές. Μια τέτοια ταξινοµηµένη λίστα θα µπορούσε να παίζει επικουρικό ρόλο στην απόφαση ενός ειδικού που παίρνει την τελική απόφαση ως προς την κατηγοριοποίηση. Ανατρέχοντας στη λίστα µπορεί να εξετάσει µόνο την κατηγορία που βρίσκονται στην κορυφή της και άρα το σύστηµα έχει εκτιµήσει πως το έγγραφο ταιριάζει περισσότερο µε αυτή και δεν χρειάζεται να εξετάσει όλο το σύνολο C. Εναλλακτικά, δεδοµένης µιας κατηγορίας c i C ένα σύστηµα µπορεί απλά να βαθµολογήσει και να κατατάξει τα έγγραφα του D µε βάση την καταλληλότητά τους ως προς τη c i. Αντίστοιχα ένας ειδικός, µπορεί να εξετάσει µονάχα τα κείµενα µε υψηλή κατάταξη αντί να ανατρέξει σε όλο το σύνολο D. Τα δύο αυτά είδη ταξινοµητών ονοµάζονται ταξινοµητές βαθµολόγησης κατηγορίας (category ranking) και βαθµολόγησης κειµένων (document ranking) αντίστοιχα. Αυτοί οι ηµιαυτόµατοι ταξινοµητές είναι χρήσιµοι ιδιαίτερα σε κρίσιµες εφαρµογές όπου η αποτελεσµατικότητα ενός πλήρως αυτοµατοποιηµένου ταξινοµητή είναι χαµηλότερη από αυτή ενός ανθρώπου ειδικού. Αυτό γίνεται συνήθως όταν τα δεδοµένα εκπαίδευσης του συστήµατος είναι είτε κακής ποιότητας ή δεν είναι αντιπροσωπευτικό δείγµα των δεδοµένων που δεν έχουν γίνει ακόµα γνωστά. 2.4 Εφαρµογές κατηγοριοποίησης κειµένων Η κατηγοριοποίηση κειµένων έχει ιστορία 40 χρόνων και χρησιµοποιείται σε ένα πλήθος εφαρµογών. Η διαφοροποίηση ανάµεσα στα χαρακτηριστικά των εφαρµογών αυτών είναι συχνά δυσδιάκριτη και µερικές µπορούν να θεωρηθούν ως ειδικεύσεις άλλων. Οι κυριότερες εφαρµογές κατηγοριοποίησης κειµένων είναι οι κάτωθι Αυτόµατη δεικτοδότηση σε συστήµατα Ανάκτησης Πληροφορίας Η αυτόµατη δεικτοδότηση (indexing) αφορά τα συστήµατα Ανάκτησης Πληροφορίας που βασίζονται στο Boolean µοντέλο. Συνοπτικά, στα συστήµατα Ανάκτησης Πληροφορίας, κάθε κείµενο περιγράφεται από ένα σύνολο λέξεις κλειδιά που ονοµάζονται όροι δεικτοδότησης. Ένας όρος δεικτοδότησης είναι µια λέξη, το σηµασιολογικό περιεχόµενο της οποίας περικλείει ένα µέρος του θέµατος µε το οποίο ασχολείται το κείµενο. Έτσι, ένα κείµενο αναπαρίσταται σαν ένα σύνολο όρων που συνοψίζει το περιεχόµενό του. Το βάρος ενός ζεύγους <κείµενο, όρους δεικτοδότησης> αντιπροσωπεύει το πόσο αντιπροσωπευτικός είναι ο συγκεκριµένος όρος για το κείµενο. Στο Boolean µοντέλο, κάθε όρος δεικτοδότησης θεωρείται ότι είτε ανήκει ολοκληρωτικά στο κείµενοι είτε όχι και άρα τα βάρη θεωρούνται δυαδικά {0, 1}. Οι όροι δεικτοδότησης ανήκουν σε ένα πεπερασµένο σύνολο, το λεξικό. Αν οι εγγραφές στο λεξικό θεωρούνται κατηγορίες, τότε η δεικτοδότηση του κειµένου είναι 12

13 µια περίπτωση κατηγοριοποίησης κειµένου και µπορεί να γίνει από τις τεχνικές των ταξινοµητών. Η εφαρµογή αυτή, µπορεί να απαιτεί k 1 x k 2 όροι δεικτοδότησης να αναπαραστήσουν το κείµενο, µε συγκεκριµένα k 1, k 2. Η ταξινόµηση βάσει κειµένου είναι πιθανώς η καλύτερη επιλογή έτσι ώστε τα νέα κείµενα να δεικτοδοτούνται µόλις γίνονται διαθέσιµα Οργάνωση εγγράφων Η δεικτοδότηση µε βάση το λεξικό είναι µια υποπερίπτωση του γενικού προβλήµατος της οργάνωσης των εγγράφων. Οι τεχνικές κατηγοριοποίησης των κειµένων µπορούν να χρησιµοποιηθούν για να δώσουν λύσεις σε ζητήµατα που αφορούν την οργάνωση και αρχειοθέτησης των εγγράφων είτε για προσωπικούς είτε για εταιρικούς λόγους. Για παράδειγµα, οι µικρές αγγελίες µιας εφηµερίδας, πριν τη δηµοσίευσή τους πρέπει να καταταχθούν σε θεµατικές ενότητες. Μια εφηµερίδα µε µεγάλο όγκο αγγελιών µπορεί να ωφεληθεί από τη χρήση ενός αυτόµατου ταξινοµητή Φιλτράρισµα εγγράφων Το φιλτράρισµα των εγγράφων είναι η διαδικασία της κατηγοριοποίησης ενός δυναµικού συνόλου εγγράφων, στη µορφή µιας συνεχούς ροής εισαγόµενων εγγράφων που αποστέλλονται από τον παραγωγό στον καταναλωτή πληροφορίας µε ασύγχρονο τρόπο, π.χ. οι ειδήσεις που προέρχονται από ένα πρακτορείο ειδήσεων και τις λαµβάνει µια εφηµερίδα. Σε αυτή την περίπτωση, το σύστηµα απορρίπτει τις ειδήσεις που δεν ενδιαφέρουν τον αποδέκτη. Το φιλτράρισµα µπορεί να θεωρηθεί σαν µια ειδική περίπτωση της κατηγοριοποίησης κειµένων µη επικαλυπτόµενων κατηγοριών, και µάλιστα σαν ένας δυαδικός ταξινοµητής που κατατάσσει τα κείµενα σε σχετικά και µη σχετικά. Επιπρόσθετα, το σύστηµα ταξινόµησης, θα µπορούσε να κατατάσσει τα σχετικά έγγραφα σε θεµατικές κατηγορίες Αποσαφήνιση της έννοιας των λέξεων Η αποσαφήνιση της έννοιας των λέξεων είναι η διαδικασία κατά την οποία δεδοµένης µιας πολύσηµης λέξης και της εµφάνισής της σε ένα κείµενο, αποδίδεται στη λέξη αυτή το νόηµα που έχει στη συγκεκριµένη χρήση. Η διαδικασία αυτή έχει µεγάλη σηµασία σε εφαρµογές όπως η επεξεργασία φυσικής γλώσσας. Η διαδικασία αυτή, µπορεί να τελεστεί από ταξινοµητές κειµένων αν θεωρήσουµε τις συγκεκριµένες εµφανίσεις των λέξεων σαν κείµενα και τα διαφορετικά νοήµατα της λέξης αυτής σαν τις κατηγορίες. Προφανώς, µόνο µια κατηγορία (νόηµα) πρέπει να αποδοθεί σε ένα κείµενο (λέξη) άρα πρόκειται για ταξινοµητή µη επικαλυπτόµενων κατηγοριών Ιεραρχική ταξινόµηση ιστοσελίδων Η µελέτη πάνω στη χρήση ταξινοµητών κειµένου για την αυτόµατη κατάταξη ιστοσελίδων σε ιεραρχικούς θεµατικούς καταλόγους που υποστηρίζονται από διάφορες µηχανές αναζήτησης είναι σίγουρα από τις πιο ενδιαφέρουσες και πρακτικά 13

14 χρήσιµες εφαρµογές της κατηγοριοποίησης των κειµένων. Η αυτόµατη κατάταξη των ιστοσελίδων έχει το προφανές πλεονέκτηµα της ευκολότερης διαχείρισης του συνεχώς διογκούµενου πλήθους των ιστοσελίδων. Αντίθετα µε τις προηγούµενες εφαρµογές, εδώ είναι επιθυµητό µια κατηγορία να αποδοθεί σε k 1 x k 2 κείµενα. Είναι προτιµότερο να επιλεχθεί ταξινοµητής βάσει κατηγορίας, ώστε να είναι πιο εύκολη η εισαγωγή νέων κατηγοριών και η διαγραφή παλαιότερων. Η ταξινόµηση των ιστοσελίδων έχει δύο ιδιάζοντα χαρακτηριστικά Η υπερκειµενική φύση των εγγράφων. Οι σύνδεσµοι µε άλλες σελίδες (links) είναι µια πλούσια πηγή πληροφοριών σχετικές µε την ιστοσελίδα, καθώς υποδεικνύουν τη σχέση ανάµεσα στη συνδεόµενη σελίδα και το έγγραφο. Η ιεραρχική δοµή του συνόλου των κατηγοριών. Το χαρακτηριστικό αυτό µπορεί να χρησιµοποιηθεί, για παράδειγµα, στην αποσύνθεση του προβλήµατος ταξινόµησης σε ένα σύνολο υπο-προβληµάτων, κάθε ένα από τα οποία αφορά την απόφαση για κάποιο συγκεκριµένο κλάδο. 2.5 Μηχανική Μάθηση στην ταξινόµηση κειµένων Τη δεκαετία του 80 η πιο συχνή προσέγγιση για τη δηµιουργία αυτόµατων ταξινοµητών ήταν η Μηχανική Γνώσης (knowledge engineering). Ένας ειδικός του συγκεκριµένου πεδίου, καθόριζε και συνέτασσε κανόνες της µορφής if <DNF> then <category>, όπου το DNF είναι µια πρόταση που αποτελείται από διαζεύξεις συζεύξεων (Disjunctive Normal Form). Το κείµενο κατατάσσεται στην κατηγορία <category> αν ικανοποιεί την DNF πρόταση, αν δηλαδή ικανοποιεί τουλάχιστον µια σύζευξη. Το πρόβληµα σε αυτήν την προσέγγιση είναι πως οι κανόνες πρέπει να συνταχθούν από µηχανικούς γνώσης (knowledge engineers) µε τη βοήθεια ειδικών στο εκάστοτε πεδίο εφαρµογής (στην περίπτωση µας χρειάζεται ένας ειδικός στην ταξινόµηση των κειµένων) και αν στο σύνολο των κατηγοριών προστεθεί µία ακόµη κατηγορία, τότε ο µηχανικός γνώσης και ο ειδικός του πεδίου πρέπει να επαναλάβουν την εργασία τους λαµβάνοντας υπ όψιν το νέο σύνολο κατηγοριών. Επιπλέον, στην περίπτωση που ο ταξινοµητής πρέπει να χρησιµοποιηθεί για διαφορετικό πεδίο, χρειάζεται η βοήθεια ενός ειδικού στο νέο πεδίο για τη σύνταξη των κανόνων από την αρχή. Κατά τη δεκαετία του 90 η προσέγγιση που άρχισε να κερδίζει έδαφος ήταν η µηχανική µάθηση. Μια γενική επαγωγική διαδικασία που καλείται µαθητευόµενη, δηµιουργεί αυτόµατα έναν ταξινοµητή για την κατηγορία c i βασισµένη στα χαρακτηριστικά ενός συνόλου εγγράφων που έχουν ήδη καταταχθεί στην κατηγορία c i ή στη συµπληρωµατική της c i, από ειδικούς του πεδίου. Από τα χαρακτηριστικά αυτά, η επαγωγική διαδικασία καθορίζει τα χαρακτηριστικά που πρέπει να έχει ένα νέο κείµενο για να καταταχθεί στη c i. Στην ορολογία της Μηχανικής Μάθησης, το πρόβληµα της ταξινόµησης καλείται µάθηση µε επίβλεψη (supervised learning) υπό την έννοια ότι τα κείµενα που εισάγονται για την µάθηση του συστήµατος είναι ήδη ταξινοµηµένα. Τα πλεονεκτήµατα της µηχανικής µάθησης έναντι της µηχανικής γνώσης για την κατασκευή των ταξινοµητών είναι προφανή. Στη µηχανική µάθηση, το βάρος δεν δίνεται στον ίδιο τον ταξινοµητή αλλά στο αυτόµατο σύστηµα που θα κατασκευάζει τους ταξινοµητές (τον µαθητευόµενο). Αυτό σηµαίνει πως αν ο µαθητευόµενος είναι 14

15 διαθέσιµος, απλά χρειάζεται η τροφοδότησή του µε παραδείγµατα και ο ταξινοµητής θα παραχθεί αυτόµατα. Παρόµοια, αν ο µαθητευόµενος έχει εκπαιδευτεί, έχει προκύψει ο ταξινοµητής και αλλάξει το σύνολο των κατηγοριών ή ο ταξινοµητής µεταφερθεί σε νέο πεδίο, το µόνο που απαιτείται είναι η τροφοδότηση του µαθητευόµενου µε νέα παραδείγµατα. Συνεπώς, τα ήδη ταξινοµηµένα κείµενα που χρησιµοποιούνται για τη µάθηση του µαθητευόµενου, είναι ο κρίσιµος πόρος της προσέγγισης της µηχανικής µάθησης. Στην καλύτερη περίπτωση, τα ταξινοµηµένα κείµενα είναι ήδη διαθέσιµα, όπως π.χ. σε περιπτώσεις οργανισµών που έχουν κατατάξει κείµενα δια χειρός, και αποφασίζουν να αυτοµατοποιήσουν τη διαδικασία. Η χειρότερη περίπτωση είναι όταν δεν υπάρχουν διαθέσιµα ήδη ταξινοµηµένα κείµενα. Η µηχανική µάθηση είναι πιο βολική σχετικά µε τη µηχανική γνώσης ακόµη και τότε, καθώς είναι πιο εύκολο να καταταχθούν µερικά κείµενα από ανθρώπους παρά να συνταχθούν όλοι εκείνοι οι κανόνες που καθορίζουν την κατηγοριοποίηση Εκπαίδευση και δοκιµή Η προσέγγιση της µηχανικής µάθησης βασίζεται στη διαθεσιµότητα ενός αρχικού συνόλου (corpus) Ω = {d 1, d 2,, d Ω } D από κείµενα που έχουν ήδη ταξινοµηθεί στο σύνολο των κατηγοριών C = {c 1, c 2,, c m }. Αυτό σηµαίνει πως οι τιµές της συνάρτησης στόχου Φ : D x C {true, false} είναι γνωστές για κάθε ζεύγος <d j, c i > Ω x C. Ένα κείµενο d j ονοµάζεται θετικό παράδειγµα της κατηγορίας c i όταν Φ (d j, c i ) = true και αρνητικό παράδειγµα της κατηγορίας c i όταν Φ (d j, c i ) = false. Για τους σκοπούς της έρευνας αλλά και σε συνθήκες πραγµατικής λειτουργίας, µόλις ο ταξινοµητής κατασκευαστεί από τον µαθητευόµενο είναι επιθυµητό να προσδιοριστεί η αποδοτικότητά του. Γι αυτό, πριν την κατασκευή του ταξινοµητή, το αρχικό σύνολο κειµένων χωρίζεται σε δύο υποσύνολα (όχι απαραιτήτως του ίδιου µεγέθους): Το σύνολο εκπαίδευσης (training set) Tr = {d 1, d 2,, d Tr }. Ο µαθητευόµενος χρησιµοποιεί το σύνολο κειµένων Tr για να κατασκευάσει τον ταξινοµητή Φ για τις κατηγορίες C = {c 1, c 2,, c m }, βασιζόµενος στα χαρακτηριστικά των κειµένων του συνόλου αυτού Το σύνολο δοκιµής (test set) Τe = {d TV+1, d TV+2,, d Ω }, που χρησιµοποιείται για την εξέταση της αποδοτικότητας του ταξινοµητή. Κάθε κείµενο d j Τe εισάγεται στον ταξινοµητή και η απόφαση του ταξινοµητή Φ(d j, c i ) συγκρίνεται µε την απόφαση Φ (d j, c i ) που έχει παρθεί από τους ειδικούς (υπενθυµίζεται πως τα κείµενα αυτά έχουν ήδη ταξινοµηθεί από ειδικούς). Το µέτρο της αποδοτικότητας του ταξινοµητή, εξαρτάται από το πόσο συχνά η απόφαση Φ(d j, c i ) είναι ίδια µε την Φ (d j, c i ), δηλαδή, πόσο συχνά το κείµενο κατατάσσεται στη σωστή κατηγορία. Πρέπει να τονιστεί ότι τα σύνολα Tr και Te δεν πρέπει να έχουν κοινά στοιχεία, δηλαδή τα κείµενα του Te δεν πρέπει σε καµία περίπτωση να χρησιµοποιούνται για την εκπαίδευση του µαθητευόµενου. Αν ο µαθητευόµενος µαθαίνει και από το σύνολο δοκιµής, και στη συνέχεια εξετάζεται µε αυτό, τα αποτελέσµατα είναι µη ρεαλιστικά και πολύ πιο θετικά από την πραγµατικότητα. Σε συνθήκες πραγµατικής λειτουργίας, µετά την εξέταση της αποδοτικότητας του ταξινοµητή, ο µαθητευόµενος 15

16 µπορεί να επανεκπαιδευτεί σε ολόκληρο το σύνολο Ω (σύνολα εκπαίδευσης και δοκιµής) για να αυξηθεί η αποδοτικότητα του ταξινοµητή. Σε αυτή την περίπτωση, τα αποτελέσµατα της εξέτασης αποδοτικότητας είναι µια απαισιόδοξη εκτίµηση της πραγµατικής επίδοσης, αφού ο µαθητευόµενος εκπαιδεύεται σε µεγαλύτερο σύνολο δεδοµένων από αυτό που αξιολογήθηκε ιασταύρωση n συνόλων Όταν δεν είναι διαθέσιµος ένας ικανοποιητικός όγκος δεδοµένων, για να χρησιµοποιηθούν στην εκπαίδευση και δοκιµή του συστήµατος, εφαρµόζεται η µέθοδος διασταύρωσης n συνόλων (n-fold cross validation). Η µέθοδος αυτή, χωρίζει το σύνολο των διαθέσιµων κειµένων d σε n υποσύνολα µεγέθους d/n. Κάθε σύνολο χρησιµοποιείται µία φορά για τη δοκιµή του συστήµατος και n-1 φορές για την εκπαίδευση του. Η εκπαίδευση του συστήµατος γίνεται µε τα υπόλοιπα n-1 σύνολα. Η φάση της δοκιµής, επαναλαµβάνεται n φορές, όπου κάθε φορά χρησιµοποιείται διαφορετικό σύνολο για τη δοκιµή και τα υπόλοιπα σύνολα σχηµατίζουν το σύνολο εκπαίδευσης. Η συνολική απόδοση του συστήµατος, προκύπτει από τον µέσο όρο των αποτελεσµάτων των k δοκιµών Ρύθµιση παραµέτρων Είναι πιθανό, και στις δύο τεχνικές εκπαίδευσης να χρειαστεί να ρυθµιστούν διάφοροι εσωτερικές παράµετροι του ταξινοµητή έτσι ώστε να αυξηθεί η αποδοτικότητά του. Η ρύθµιση αυτή γίνεται µέσω της δοκιµής. Αν επιλεγεί η εκπαίδευση και δοκιµή το σύνολο εκπαίδευσης, χωρίζεται σε δύο υποσύνολα, το σύνολο µάθησης L = {d 1, d 2,, d L } και το σύνολο ρύθµισης (validation set) V = {d L +1, d L +2,, d Tr } το οποίο χρησιµοποιείται για τον καθορισµό των βέλτιστων τιµών των παραµέτρων του ταξινοµητή. Παρόµοια στην τεχνική cross validation µπορεί να χρησιµοποιηθεί ένα υποσύνολο κειµένων για τη ρύθµιση των παραµέτρων. Κείµενα που ανήκουν στο σύνολο ρύθµισης, δεν µπορούν να ανήκουν και στο σύνολο δοκιµής, καθώς όπως έχει αναφερθεί, το σύνολο εκπαίδευσης (από το οποίο προκύπτει το σύνολο ρύθµισης) και το σύνολο δοκιµής είναι ανεξάρτητα µεταξύ τους. εδοµένου ενός αρχικού συνόλου Ω, η γενικότητα g Ω (c i ) της κατηγορίας c i, ορίζεται ως το ποσοστό των κειµένων που ανήκουν στη c i δηλαδή: g Ω (c i ) = { d j Ω Φ (dj, ci) = true} Ω Αντίστοιχα ορίζονται και η γενικότητα στο σύνολο εκπαίδευσης g Tr (c i ), η γενικότητα στο σύνολο ρύθµισης g V (c i )και η γενικότητα στο σύνολο δοκιµής g Te (c i ). 2.6 Ταξινόµηση κειµένου και Ανάκτηση Πληροφορίας 16

17 Η ταξινόµηση κειµένων είναι µια διαδικασία διαχείρισης των κειµένων που βασίζεται στο περιεχόµενό τους. Η επιστήµη της Ανάκτησης Πληροφορίας, ασχολείται µε την αναπαράσταση, την αποθήκευση, την οργάνωση και την πρόσβαση σε πληροφοριακές µονάδες [Αναγνωστόπουλος, 2004]. Συνεπώς, οι τοµείς της ταξινόµησης των κειµένων και της ανάκτησης πληροφορίας έχουν κοινά χαρακτηριστικά και πιο συγκεκριµένα, η ταξινόµηση υποστηρίζεται από τους βασικούς µηχανισµούς της ανάκτησης πληροφορίας σε τρεις φάσεις: Στην αναπαράσταση κειµένων, όπου τα κείµενα του αρχικού συνόλου αλλά και στα κείµενα που εισάγονται στον ταξινοµητή κατά την φάση λειτουργίας του αναπαριστώνται µέσω ενός συνόλου από όρους δεικτοδότησης Στην επαγωγική διαδικασία της κατασκευής του ταξινοµητή όπου χρησιµοποιούνται τεχνικές από την ανάκτηση πληροφορίας όπως το ταίριασµα κειµένου ερώτησης και αναδιαµόρφωσης ερωτήµατος Στην εκτίµηση της επίδοσης του ταξινοµητή, όπου χρησιµοποιούνται οι µετρικές της ανάκτησης πληροφορίας Αναπαράσταση κειµένου Για να µπορέσει ένας ταξινοµητής ή ένας αλγόριθµος κατασκευής ταξινοµητών να ερµηνεύσει ένα κείµενο, πρέπει το κείµενο αυτό να αναπαρασταθεί µε τον κατάλληλο τρόπο. Πρέπει δηλαδή, µια διαδικασία να µετασχηµατίσει τα κείµενα εκπαίδευσης και δοκιµής σε µια κατάλληλη αναπαράσταση. Συνήθως ένα κείµενο d j αναπαριστάται ως ένα διάνυσµα βαρών των όρων δεικτοδότησης d j = <w 1j, w 2j,, w T j > όπου Τ είναι το σύνολο των όρων δεικτοδότησης. Υπάρχουν διάφορες προσεγγίσεις στον καθορισµό του τι είναι ένας όρος και στον καθορισµό του υπολογισµού των βαρών. Σε πολλά συστήµατα, σαν όροι ορίζονται οι λέξεις του κειµένου, σε άλλες προσεγγίσεις, όροι είναι ολόκληρες φράσεις και όπως θα δούµε στις προσεγγίσεις που επιλέχθηκαν στο πλαίσιο της εργασίας αυτής, σαν όροι νοούνται συµβολοσειρές µε συγκεκριµένο µήκος, τα ngrams. Όσον αφορά τα βάρη, συνήθως αυτά παίρνουν τιµές στο [0,1] και υπολογίζονται βάσει της συχνότητας που εµφανίζεται ο όρος στο κείµενο. Όπως έχουµε ήδη αναφέρει, η πιο απλή περίπτωση είναι το Boolean µοντέλο όπου το βάρος ενός όρου είναι 0 αν ο όρος δεν εµφανίζεται στο κείµενο και 1 αν εµφανίζεται. Υπάρχουν βεβαίως πιο πολύπλοκα µοντέλα που τα βάρη των όρων δεν είναι δυαδικά αλλά φυσικοί αριθµοί και ο υπολογισµός τους γίνεται µε το σχήµα υπολογισµού tf-idf, που χρησιµοποιεί τις έννοιες της συχνότητας εµφάνισης του όρου (term frequency - tf) και της αντίστροφης συχνότητας εµφάνισης (inverse term frequency) Tr tfidf( t k, d j ) = #( t k, d j ) log, # ( ) Tr t k όπου #( t k, d j ) δηλώνει πόσες φορές εµφανίστηκε ο όρος t k στο κείµενο d j και # ( k ) είναι η συχνότητα κειµένου του όρου t k, δηλαδή ο αριθµός των κειµένων στους οποίους εµφανίζεται ο όρος t k. Στη συνέχεια, εφαρµόζεται στα βάρη η κανονικοποίηση συνηµίτονου: Tr t 17

18 W kj = tfidf ( t k, d T ( tfidf ( t, )) 2 s s d j j ), έτσι ώστε οι τιµές των βαρών να βρίσκονται στο [0.1]. Συνεπώς το σχήµα υπολογισµού tf-idf κάνει υποστηρίζει πως: Όσο πιο συχνά εµφανίζεται ένας όρος στο κείµενο τόσο περισσότερο χαρακτηρίζει το περιεχόµενό του και Όσο περισσότερα έγγραφα περιέχουν έναν όρο, τόσο λιγότερο χρήσιµος είναι στον χαρακτηρισµό του κειµένου και άρα στη διαδικασία διαχωρισµού τους σε κατηγορίες. Οι παραδοχές αυτές αφορούν κυρίως τη θεµατική κατηγοριοποίηση των κειµένων. Όπως θα δούµε στην κατάταξη κειµένων µε βάση το ύφος τους χρησιµοποιούνται διαφορετικές τεχνικές υπολογισµού των βαρών των όρων δεικτοδότησης Επαγωγική κατασκευή ταξινοµητή κειµένων Υπάρχουν διάφορες προσεγγίσεις όσον αφορά την κατασκευή του ταξινοµητή των κειµένων από την επαγωγική διαδικασία- µαθητευόµενο. Όπως έχει αναφερθεί, υπάρχουν δύο ειδών ταξινοµήσεις, η απόλυτη και η ταξινόµηση µε βαθµολόγηση. Η επαγωγική κατασκευή ενός ταξινοµητή βαθµολόγησης για την κατηγορία c i C αποτελείται συνήθως από: τον ορισµό µιας συνάρτησης CSV i : D [0,1], η οποία δεδοµένου ενός κειµένου d επιστρέφει το µέτρο κατάταξης της κατηγορίας (categorisation status value) που είναι ένδειξη αν το κείµενο d πρέπει να καταταχθεί στην κατηγορία c i. Τον καθορισµό ενός κατωφλίου τ i τέτοιο ώστε τα κείµενα που έχουν µέτρο κατάταξης της κατηγορίας µεγαλύτερο ή ίσο από το κατώφλι να κατατάσσονται στην κατηγορία c i και διαφορετικά να µην κατατάσσονται στη c i : αν CSV i τ i, Φ(d i, c i ) = true, αν CSV i < τ i, Φ(d i, c i ) = false Ο ορισµός της συνάρτησης Οι επαγωγικές συναρτήσεις που κατασκευάζουν τον ταξινοµητή µπορούν να χωριστούν σε δύο κύριες κατηγορίες: στις παραµετρικές και στις µη παραµετρικές που µε τη σειρά τους χωρίζονται σε βασισµένες σε προφίλ και στις βασισµένες σε παραδείγµατα. Παραµετρικές συναρτήσεις Στις παραµετρικές συναρτήσεις τα δεδοµένα εκπαίδευσης χρησιµοποιούνται για να καθοριστούν οι παράµετροι µιας κατανοµής πιθανοτήτων. Κλασικό παράδειγµα είναι 18

19 ο Απλός ταξινοµητής Bayes (Naïve Bayes classifier). Η CSV συνάρτηση ορίζεται ως εξής: CSV i (d j ) = P(c i d j ) = [ P( c r y= 1 i t y ) P( t y d ) P( c j i t y ) P( t y d )] Κατά τη φάση εκπαίδευσης, υπολογίζονται οι τέσσερις πιθανότητες που χρησιµοποιούνται στην εξίσωση του γινοµένου. Συναρτήσεις βασισµένες σε προφίλ Σε αυτή την προσέγγιση, δηµιουργείται για κάθε κατηγορία το προφίλ της, υπό τη µορφή ενός διανύσµατος όρων µε βάρη, το οποίο υπολογίζεται από τα δεδοµένα εκπαίδευσης. Το προφίλ αυτό χρησιµοποιείται σαν ερώτηµα σε όλα τα κείµενα που πρέπει να ταξινοµηθούν και τα κείµενα που έχουν το µεγαλύτερο βαθµό οµοιότητας µε την κατηγορία c i ταξινοµούνται στην κατηγορία αυτή. Χωρίζονται στους επαυξητικούς (incremental) οι οποίοι δηµιουργούν τα προφίλ των κατηγοριών πριν αναλύσουν όλο το σύνολο εκπαίδευσης και αλλάζουν σταδιακά τα προφίλ διαβάζοντας νέα δεδοµένα, και στους ταξινοµητές συνόλου (batch) οι οποίοι δηµιουργούν τα προφίλ αναλύοντας συνολικά τα κείµενα εκπαίδευσης. Συναρτήσεις βασισµένες σε παραδείγµατα Οι συναρτήσεις βασισµένες σε παραδείγµατα δεν δηµιουργούν µια συγκεκριµένη, δηλωτική αναπαράσταση για κάθε κατηγορία, αλλά παρασιτούν στις αποφάσεις ταξινόµησης που έχουν πάρει οι ειδικοί για τα δεδοµένα εκπαίδευσης, όταν πρέπει να ταξινοµήσουν παρόµοια κείµενα. Τα συστήµατα αυτά χαρακτηρίζονται και ως οκνηρά (lazy) καθώς ουσιαστικά δεν περιλαµβάνουν τη φάση της εκπαίδευσης. Για παράδειγµα, ο αλγόριθµος k κοντινότερων γειτόνων (k nearest neighbours k-νν) όταν πρέπει να αποφασίσει αν ένα κείµενο d j ανήκει στην κατηγορία c i, εξετάζει που έχουν ταξινοµηθεί τα k πιο όµοια στο d j κείµενα από το σύνολο εκπαίδευσης. Αν µια ικανοποιητική αναλογία κειµένων εκπαίδευσης έχουν καταταχθεί στην c i, τότε η απόφαση για το d j είναι πως ανήκει στη c i, διαφορετικά η απόφαση είναι αρνητική. Καθορισµός των κατωφλίων Έχουν προταθεί αρκετές πολιτικές για τον καθορισµό του κατωφλίου. Μια πιθανή πολιτική είναι η κατωφλίωση της συνάρτησης CSV. Στην περίπτωση αυτή, το κατώφλι τ i, είναι µια τιµή της συνάρτησης CSV i. Έχει προταθεί ένα σταθερό τ ίδιο για όλες τις κατηγορίες αλλά παρατηρείται πως αυτό ίσως να οδηγεί στην κατάταξη όλων των εγγράφων στην κατηγορία c i και κανένα στην c j. Ύστερα χρησιµοποιήθηκαν διαφορετικά κατώφλια τ i για κάθε κατηγορία c i βάσει κανονικοποίησης. Τα αποτελέσµατά όµως δεν έδειξαν σηµαντικές διαφοροποιήσεις της αποδοτικότητας, ανάµεσα στις δύο αυτές εναλλακτικές. Επίσης, έχουν προταθεί διαφορετικές τιµές κατωφλίου για κάθε κατηγορία, οι οποίες βελτιστοποιήθηκαν ρυθµίζοντάς αυτές, έτσι ώστε να δίνουν τα καλύτερα αποτελέσµατα στο σύνολο ρύθµισης. Μια άλλη πολιτική κατωφλίωσης είναι η αναλογική κατωφλίωση (proportional thresholding). Στόχος της πολιτικής αυτής είναι ο καθορισµός του κατωφλίου τ ι, έτσι ώστε η γενικότητα του συνόλου δοκιµής g Te (c i ) της κατηγορίας c i να είναι όσο πιο j 19

20 κοντά στη γενικότητα του συνόλου εκπαίδευσης g Tr (c i ) της κατηγορίας αυτής. Η ιδέα αυτή βασίζεται στην λογική πως στα σύνολα εκπαίδευσης και δοκιµής, η αναλογία των κειµένων που ανήκουν στην κάθε κατηγορία είναι η ίδια. Ένα µειονέκτηµα της µεθόδου αυτής είναι πως δεν υποστηρίζει την ταξινόµηση βάσει κειµένου, καθώς αν το σύνολο των κειµένων δεν είναι διαθέσιµο από την αρχή, δεν µπορεί να υπολογιστεί η αναλογία των κειµένων της κάθε κατηγορίας. Μια άλλη πολιτική που έχει προταθεί είναι το ορισµένο κατώφλι (fixed threshold). Εφαρµόζεται σε περιπτώσεις που έχει οριστεί πως ένας συγκεκριµένος αριθµός k κατηγοριών, ίδιος για κάθε έγγραφο d j πρέπει να ανατεθεί σε κάθε d j. Σύµφωνα όµως µε τον αυστηρό ορισµό του κατωφλίου, η πολιτική του ορισµένου κατωφλίου δεν είναι κατωφλίωση, καθώς µπορεί να έχουµε την περίπτωση ένα κείµενο d j να καταταχθεί στην κατηγορία c i και ένα κείµενο d j να µην καταταχθεί στην c i και να ισχύει CSV i (d ) < CSV i (d) Μέτρηση απόδοσης των ταξινοµητών Όπως έχει αναφερθεί, ο επιστήµη της Ανάκτησης Πληροφορίας έχει δανείσει µεταξύ άλλων και τις µετρικές για την αξιολόγηση της αποδοτικότητας των ταξινοµητών. Παρακάτω αναλύονται οι έννοιες ακρίβειας (precision) π και της ανάκλησης (recall) ρ, προσαρµοσµένες στη θεωρία της κατηγοριοποίησης κειµένων. Ανάκληση και ακρίβεια Ένα σύστηµα ταξινόµησης κατά τη φάση της δοκιµής του παίρνει αποφάσεις κατάταξης κειµένων, τα οποία έχουν ήδη ταξινοµήσει ειδικοί του πεδίου. Η σχέση ανάµεσα στις αποφάσεις του συστήµατος και τις αποφάσεις των ειδικών για την κατηγορία c i, φαίνεται στον Πίνακα 2. Κατηγορία c i Απόφαση ειδικού: ΝΑΙ Απόφαση ειδικού: ΟΧΙ Απόφαση ταξινοµητή: ΝΑΙ TP i FP i Απόφαση ταξινοµητή: ΟΧΙ FN i TN i Πίνακας 2. Πίνακας αποτελεσµάτων Η ακρίβεια wrt c i (π i ) ορίζεται ως η κατά συνθήκη πιθανότητα P(Φ (d x, c i ) = T Φ(d x, c i ) = T), δηλαδή αναπαριστά την πιθανότητα δεδοµένης της απόφασης κατάταξης του ταξινοµητή, ενός τυχαίου κείµενου d x, η απόφαση αυτή να είναι σωστή. Παρόµοια, ανάκληση wrt c i (ρ i ) ορίζεται ως η κατά συνθήκη πιθανότητα P(Φ(d x, c i ) = T Φ (d x, c i ) = T), δηλαδή αναπαριστά την πιθανότητα, δεδοµένης της απόφασης του ειδικού για την κατάταξη του κειµένου d x στην κατηγορία c i, η απόφαση του ταξινοµητή να είναι η σωστή (το κείµενο να καταταχθεί στην κατηγορία c i ). Οι πιθανότητες αυτές µπορούν να υπολογιστούν µε τη βοήθεια του πίνακα αποτελεσµάτων (contingency matrix). Στον πίνακα αυτό, η τιµή TP i αναπαριστά τον αριθµό των θετικών παραδειγµάτων (True Positive) της κατηγορίας c i που ταξινοµήθηκαν σωστά δηλαδή το σύστηµα τα κατέταξε στην c i, η τιµή FP i αναπαριστά τον αριθµό των αρνητικών παραδειγµάτων της κατηγορίας c i που ταξινοµήθηκαν λάθος (False Positive) δηλαδή 20

21 το σύστηµα τα κατέταξε στην c i, η τιµή FN i αναπαριστά τον αριθµό των θετικών παραδειγµάτων της κατηγορίας c i που ταξινοµήθηκαν λάθος (False Negative) δηλαδή το σύστηµα δεν τα κατέταξε στην c i και τέλος η τιµή ΤΝ i αναπαριστά τον αριθµό των αρνητικών παραδειγµάτων (True Negative) της κατηγορίας c i που ταξινοµήθηκαν σωστά, δηλαδή το σύστηµα δεν τα κατέταξε στην c i. Οι εκτιµήσεις της ανάκλησης και της ακρίβειας δίνονται από: π i = ρ i = TP + FP i i TP TP + FN i TP i i i, Οι τιµές που αφορούν τις συγκεκριµένες κατηγορίες, µπορούν να ενοποιηθούν, για να προκύψει η συνολική ακρίβεια π και ανάκληση ρ του συστήµατος. Με την ορολογία της επιστήµης της λογικής, η ακρίβεια του συστήµατος µπορεί να θεωρηθεί σαν το µέτρο της ορθότητας (soundness) και η ανάκληση σαν το µέτρο της πληρότητας (completeness) του συστήµατος. Μπορούν να χρησιµοποιηθούν δύο τεχνικές για την εξαγωγή της συνολικής ακρίβειας και ανάκλησης του συστήµατος: ο µικροσυγκερασµός (microaveraging), όπου η ακρίβεια π µ και η ανάκληση ρ µ υπολογίζονται από το συνολικό άθροισµα των αποφάσεων του συστήµατος, δηλαδή TP π µ = = TP+ FP m i= 1 m i= 1 ( TP i TP i + FP ) i και ρ µ = TP TP+ FN i = m i= 1 m = 1 ( TP + FN ) i TP i i ο µακροσυγκερασµός (macroaveraging) όπου η ακρίβεια π και η ανάκληση ρ υπολογίζονται πρώτα για κάθε κατηγορία c i και η ακρίβεια π µ και η ανάκληση ρ µ του συστήµατος υπολογίζονται από το µέσο όρο των π i και ρ i δηλαδή: π Μ = m i =1 π i m και ρ Μ = m i =1 ρi m Σύνολο κατηγοριών C = {c 1, c 2,, c m } Απόφαση ταξινοµητή: ΝΑΙ Απόφαση ταξινοµητή: ΟΧΙ Απόφαση ειδικού: ΝΑΙ TP = = m i 1 FN = = m i 1 TP i FN i Απόφαση ειδικού: ΟΧΙ FP = = m i 1 FP m TN = = TN i 1 i i 21

22 Πρέπει να τονίσουµε ότι οι δύο αυτοί µέθοδοι µπορεί να δώσουν αρκετά διαφορετικά αποτελέσµατα της συνολικής ακρίβειας και ανάκλησης του συστήµατος. Αυτό συµβαίνει ειδικά σε περιπτώσεις όπου οι κατηγορίες έχουν διαφορετική γενικότητα. Για παράδειγµα, αν ο ταξινοµητής έχει υψηλό επίπεδο ακρίβειας σε µια κατηγορία µε µικρή γενικότητα, κατηγορία δηλαδή που αποτελείται από λίγα έγγραφα, η συνολική ακρίβεια του συστήµατος που θα προκύψει µε µακροσυγκερασµό θα είναι πιθανότατα υψηλότερη από την ακρίβεια που θα προκύψει µε µικροσυγκερασµό. Στην ακαδηµαϊκή κοινότητα, δεν υπάρχει συµφωνία ποια µέθοδος είναι η καταλληλότερη, καθώς οι θιασώτες του µακροσυγκερασµού υποστηρίζουν πως ο µικροσυγκερασµός είναι παραπλανητικός, καθώς δίνει µεγαλύτερη βαρύτητα στις κατηγορίες µε µεγάλη γενικότητα, ενώ άλλοι πιστεύουν ότι όντως, οι κατηγορίες πρέπει να συµβάλουν στον υπολογισµό της συνολικής επίδοσης του συστήµατος ανάλογα µε τη συχνότητά τους. Για τον υπολογισµό της απόδοσης του ταξινοµητή, οι δείκτες της ανάκλησης και της ακρίβειας δεν µπορούν να χρησιµοποιηθούν αποµονωµένα. Είναι εύκολο για παράδειγµα να κατασκευαστεί ένας ταξινοµητής που θα έχει 100% ανάκληση για κάθε κατηγορία c. Απλά θέτοντας το κατώφλι τ i στο 0, όλα τα κείµενα θα κατατάσσονταν στην c i αυτή και άρα θα είχε ανάκληση ρ ι = 100%. Η ακρίβεια του συστήµατος όµως θα ήταν πολύ χαµηλή και πιο συγκεκριµένα θα ήταν ο µέσος όρος των γενικοτήτων των κατηγοριών. Συνεπώς υπάρχει ανάγκη για εξέταση των δύο αυτών δεικτών σε συνδυασµό, ώστε να εξασφαλιστεί µια µη τετριµµένη και ουσιαστική αξιολόγηση της αποτελεσµατικότητας ενός ταξινοµητή. Ένα κοινό µέτρο που χρησιµοποιείται συχνά για τη σύγκριση τέτοιων συστηµάτων είναι το σηµείο εξισορρόπησης ή το σηµείο ισορροπίας (break-even point), µεταξύ της ανάκλησης και της ακρίβειας, Η ιδέα είναι να ρυθµιστούν οι παράµετροι του συστήµατος (π.χ. το κατώφλι) κατά τέτοιο τρόπο ώστε η τιµή της ανάκλησης του συστήµατος να είναι ταυτόσηµη µε την ακρίβειά του. Όσο µεγιστοποιείται η τιµή αυτή, τόσο µεγαλύτερη είναι η αποτελεσµατικότητα του συστήµατος. Ένα βασικό µειονέκτηµα της µεθόδου αυτής είναι πως οι τιµές της ανάκλησης και της ακρίβειας δεν γίνεται πάντα να είναι οι ίδιες. Στην περίπτωση αυτή υπολογίζεται το κατώφλι εκείνο που η ακρίβεια και η ανάκληση έχουν τη µικρότερη διαφορά. Ένα ακόµη µέτρο που χρησιµοποιείται για την αποτελεσµατικότητα του συστήµατος και συνδυάζει την ακρίβεια µε την ανάκληση προτάθηκε από τον Van Rijsbergen και είναι ένα σύνολο δεικτών µέτρησης που παραµετροποιούνται βάσει µιας τιµής β, 0 β +, όπου απεικονίζει τη σχετική σηµασία που δίνεται στην ανάκληση και στην ακρίβεια 2 ( β + 1) ρ π F β = 2 β π + ρ Αν β = 0 τότε η τιµή της F β ταυτίζεται µε την ακρίβεια του συστήµατος ενώ αν β τείνει στο + η F β ταυτίζεται µε την ανάκληση. Όταν θεωρείται ότι ανάκληση και ακρίβεια έχουν την ίδια σηµασία, το β παίρνει την τιµή 1 και η F παίρνει τη µορφή F 1 = 2 ρ π, π + ρ Μόλις επιλεγεί το µέτρο αξιολόγησης της αποτελεσµατικότητας του συστήµατος, οι παράµετροι του ταξινοµητή ρυθµίζονται κατάλληλα, έτσι ώστε η απόδοση να είναι η 22

23 καλύτερη δυνατή. Η ρύθµιση µιας παραµέτρου p γίνεται πειραµατικά, µε τη βοήθεια του συνόλου ρύθµισης. Ουσιαστικά, γίνονται διαδοχικά πειράµατα µε το σύνολο ρύθµισης, όπου η παράµετρος p παίρνει τις διάφορες τιµές και οι άλλες παράµετροι παραµένουν σταθερές (στην προκαθορισµένη τιµή, αν δεν έχουν ακόµη ρυθµιστεί, ή στην βέλτιστη τιµή τους, αν έχει γίνει η διαδικασία της ρύθµισης). Συνεπώς, οι παράµετροι ρυθµίζονται ξεχωριστά και στο τέλος της διαδικασίας προκύπτει ο ταξινοµητής µε την καλύτερη δυνατή απόδοση. 2.7 Παραδείγµατα ταξινοµητών Ταξινοµητές Bayes Η λογική του Bayes είναι ιδιαίτερα χρήσιµη σε ταξινοµητές που χειρίζονται πιθανότητες, αλλά αποτελεί και ένα συγκριτικό πλαίσιο για την ανάλυση των µηχανισµών αλγορίθµων που δεν χειρίζονται άµεσα πιθανότητες, καθώς είναι µια προσέγγιση βασισµένη στη θεωρία των πιθανοτήτων. Είναι σηµαντική για τη Μηχανική Μάθηση καθώς παρέχει µια ποσοτική µέθοδο στην αξιολόγηση των βαρών των διάφορων υποθέσεων. Βασίζεται στο θεώρηµα του Bayes: P(h D) = P( D h) P( h) P( D) Τα χαρακτηριστικά των µεθόδων που χρησιµοποιούν µάθηση κατά Bayes είναι: Κάθε παράδειγµα εκπαίδευσης µπορεί σταδιακά να µεταβάλει την πιθανότητα µια υπόθεση να είναι σωστή, αυξάνοντας ή µειώνοντάς τη. Αυτή είναι µια πιο ευέλικτη τακτική, σε σχέση µε τους αλγόριθµους που απορρίπτουν ολοκληρωτικά µια υπόθεση αν βρεθεί πως είναι ασυνεπής µε κάποιο παράδειγµα. Η προηγούµενη γνώση µπορεί να συνδυαστεί µε τα δεδοµένα εκπαίδευσης για να καθορίσει την οριστική πιθανότητα µιας υπόθεσης. Η προηγούµενη γνώση παρέχεται από τον ορισµό µιας αρχικής πιθανότητας σε κάθε υποψήφια υπόθεση και από τον ορισµό µιας κατανοµής πιθανοτήτων στα δεδοµένα εκπαίδευσης, για κάθε πιθανή υπόθεση. Οι µέθοδοι κατά Bayes µπορούν να χειριστούν υποθέσεις που κάνουν πιθανοτικές προβλέψεις (π.χ. αυτός ο ασθενής που πάσχει από πνευµονία έχει 93% πιθανότητες ανάρρωσης) Νέα δεδοµένα µπορούν να ταξινοµηθούν συνδυάζοντας τις προβλέψεις των υποθέσεων σταθµισµένες µε τις πιθανότητές τους Ακόµη και στις περιπτώσεις που η µάθηση κατά Bayes αποδειχθεί υπολογιστικά δύσκολη, µπορεί να παρέχει ένα µέτρο βέλτιστης λήψης απόφασης, βάσει του οποίου άλλες µέθοδοι µπορούν να αξιολογηθούν. Μια πρακτική δυσκολία στην εφαρµογή της µάθησης κατά Bayes είναι πως απαιτεί αρχική γνώση πολλών πιθανοτήτων, δεσµευµένων και όχι. Όταν αυτές οι τιµές δεν είναι γνωστές εκ των προτέρων, συνήθως δίδεται µια εκτίµησή τους από παλαιότερη γνώση. Μια ακόµη πρακτική δυσκολία εφαρµογής αφορά το σηµαντικό κόστος σε υπολογιστικές µονάδες, που απαιτείται για τον καθορισµό της βέλτιστης υπόθεσης. 23

24 Μια απλουστευµένη εκδοχή της µάθησης κατά Bayes, ο απλός Bayes (naive Bayes) προσπερνά τις δυσκολίες αυτές θεωρώντας ότι τα χαρακτηριστικά που χρησιµοποιούνται ως τιµές εισόδου είναι ανεξάρτητα µεταξύ τους ένδρα απόφασης Τα δέντρα απόφασης είναι µια µέθοδος για τον προσδιορισµό συναρτήσεων στόχων (target functions) διακριτών τιµών στην οποία η συνάρτηση µάθησης αναπαριστάται από ένα δένδρο απόφασης. Τα δέντρα απόφασης χρησιµοποιούνται για να προβλέψουν την τιµή της µεταβλητής που µοντελοποιούν, µε κάποια ακρίβεια, βάσει των τιµών των θεωρούµενων ανεξάρτητων µεταβλητών. Κάθε κόµβος του δέντρου αντιπροσωπεύει έναν έλεγχο πάνω σε ένα χαρακτηριστικό του δεδοµένου, και κάθε κλαδί που προέρχεται από τον κόµβο αυτό αντιπροσωπεύει µια πιθανή τιµή του χαρακτηριστικού. Ένα δεδοµένο, ταξινοµείται ακολουθώντας τα κλαδιά του δέντρου από τη ρίζα προς τα φύλλα µε γνώµονα τις τιµές των ανεξάρτητων µεταβλητών. Ξεκινώντας δηλαδή από τη ρίζα, ελέγχεται η τιµή του χαρακτηριστικού που αντιπροσωπεύει ο κόµβος και ακολουθείται το κλαδί που έχει την τιµή εκείνη που αντιστοιχεί στην τιµή του δεδοµένου. Η διαδικασία ολοκληρώνεται µόλις φτάσουµε σε ένα φύλλο του δέντρου. Γνωστοί αλγόριθµοι που χρησιµοποιούν δέντρα απόφασης είναι ο ID3 και ο απόγονός του C4.5 [Mietchel, 1997] Τεχνητά Νευρωνικά ίκτυα Τα Τεχνητά Νευρωνικά ίκτυα ΤΝ είναι συστήµατα επεξεργασίας δεδοµένων που αποτελούνται από ένα πλήθος τεχνητών νευρώνων οργανωµένων σε δοµές παρόµοιες µε αυτές του ανθρώπινου εγκεφάλου. Είναι εφαρµογή της µη-συµβολικής Τεχνητής Νοηµοσύνης, καθώς στόχος της είναι να προσοµοιώσει βιολογικές διεργασίες και πιο συγκεκριµένα τη λειτουργία του εγκεφάλου. Η µη-συµβολική Τεχνητή Νοηµοσύνη αντιτάσσεται στη συµβολική Τεχνητή Νοηµοσύνη, που προσοµοιώνει τον τρόπο σκέψης χρησιµοποιώντας σαν δοµικές µονάδες τα σύµβολα. Συνήθως οι τεχνητοί νευρώνες οργανώνονται σε µια σειρά από επίπεδα. Οι νευρώνες των διαφόρων στρωµάτων µπορεί να είναι πλήρως ή µερικώς συνδεδεµένοι. Πλήρως συνδεδεµένοι ονοµάζονται εκείνοι που συνδέονται µε όλους τους νευρώνες του επόµενου επιπέδου, ενώ όλοι οι άλλοι ονοµάζονται µερικώς συνδεδεµένοι. Όταν δεν υπάρχουν συνδέσεις µεταξύ νευρώνων ενός επιπέδου και νευρώνων του προηγούµενου επιπέδου, δηλαδή όταν η ροή πληροφορίας είναι µιας κατεύθυνσης τα ΤΝ ονοµάζονται δίκτυα µε απλή ανατροφοδότηση. Στην αντίθετη περίπτωση καθώς και στην περίπτωση που υπάρχουν συνδέσεις µεταξύ νευρώνων του ίδιου επιπέδου τα ΤΝ χαρακτηρίζονται ως δίκτυα µε ανατροφοδότηση [Βλαχάβας et al., 2002]. Τα ΤΝ έχουν τα χαρακτηριστικά: Της ικανότητας να µαθαίνουν µέσω παραδειγµάτων. Αν και δεν είναι τα µόνα συστήµατα που µαθαίνουν µέσω παραδειγµάτων, διακρίνονται για την ικανότητά τους να οργανώνουν την πληροφορία εισόδου σε χρήσιµες µορφές Της δυνατότητας θεώρησής τους σαν κατανεµηµένη µνήµη και σαν µνήµη συσχέτισης. Η πληροφορία που κωδικοποιούν είναι κατανεµηµένη σε όλο το δίκτυο και τα δεδοµένα που αποθηκεύονται συσχετίζονται µεταξύ τους. Η 24

25 φάση ανάκλησης της πληροφορίας, γίνεται βάσει του περιεχοµένου και όχι τη διεύθυνση. Της µεγάλης τους ανοχής σε σφάλµατα. Η κακή λειτουργία ή η καταστροφή ενός νευρώνα δεν διαταράσσει σηµαντικά την απόδοση του συστήµατος, καθώς η πληροφορία είναι κατανεµηµένη σε όλο του δίκτυο, και Της ικανότητάς τους για αναγνώριση προτύπων, καθώς δεν επηρεάζονται από δεδοµένα µε θόρυβο Μηχανές βοηθητικών διανυσµάτων Οι Μηχανές Βοηθητικών ιανυσµάτων (Support Vector Machines SVMs) είναι µια σχετικά νέα µέθοδος µηχανικής µάθησης. Προτάθηκε από τον Vapnik το 1995 [Vapnik, 1995] και αναλύθηκε ως προς την κατηγοριοποίηση κειµένων από τον Joachims [Joachims, 1998, Joachims, 1999]. Στηρίζεται στην αρχή της οµικής Ελαχιστοποίησης Κινδύνου (Structural Risk Minimization) της θεωρίας της υπολογιστικής µάθησης. Έστω δύο κατηγορίες κειµένων που είναι γραµµικά διαχωρίσιµες. Στο σύνολο εκπαίδευσης, κάθε κείµενο είτε θα ανήκει στην πρώτη είτε στη δεύτερη κατηγορία. Θέλουµε να βρούµε, ανάµεσα στους άπειρους γραµµικούς ταξινοµητές που διαχωρίζουν τα δεδοµένα, τον ταξινοµητή εκείνο που ελαχιστοποιεί το σφάλµα γενίκευσης, ή τουλάχιστον ένα άνω όριό του. Με γεωµετρικούς όρους, τα SVMs προσπαθούν να βρουν, ανάµεσα σε όλες τις περιοχές του Τ- διάστατου χώρου που διαχωρίζουν τα θετικά από τα αρνητικά παραδείγµατα εκπαίδευσης, την περιοχή εκείνη που διαχωρίζει τα αρνητικά από τα θετικά παραδείγµατα µε το ευρύτερο περιθώριο (margin). Το υπερπλάνο µε αυτή την ιδιότητα, είναι αυτό που αφήνει το µέγιστο περιθώριο ανάµεσα στις δύο κλάσεις, όπου σαν περιθώριο ορίζεται σαν το άθροισµα των αποστάσεων του υπερπλάνου από το κοντινότερο σηµείο της καθεµίας κλάσης. Αν οι δύο κλάσεις δεν διαχωρίζονται γραµµικά, η SVM ψάχνει το υπερπλάνο εκείνο που αφ ενός µεγιστοποιεί το περιθώριο και αφ ετέρου ελαχιστοποιεί µια ποσότητα ανάλογη του αριθµού των σφαλµάτων ταξινόµησης. ίνοντας πιο τυπική περιγραφή, η ιδέα της δοµικής ελαχιστοποίησης κινδύνου είναι η εύρεση µιας υπόθεσης h για την οποία µπορεί να εγγυηθεί το ελάχιστο σφάλµα αλήθειας (true error). Το σφάλµα αλήθειας της h είναι η πιθανότητα η h να κάνει λάθος σε ένα νέο και τυχαία επιλεγµένο κείµενο δοκιµής. Το άνω όριο που ακολουθεί, συνδέει το σφάλµα αλήθειας της υπόθεσης h µε το σφάλµα της h στο σύνολο εκπαίδευσης και την πολυπλοκότητα της h P(error(h)) train_error(h) + 2 2n n d(ln + 1) ln δ 4 n Το όριο ισχύει για πιθανότητες τουλάχιστον 1-n, όπου το ν δηλώνει τον αριθµό των δεδοµένων εκπαίδευσης και το δ είναι η VC- ιάσταση (VCdim) που είναι µια ιδιότητα του χώρου της υπόθεσης και δηλώνει την εκφραστικότητά της. Η συνάρτηση αντανακλά τη διελκυστίνδα ανάµεσα στην πολυπλοκότητα του χώρου της υπόθεσης και στο σφάλµα εκπαίδευσης. Ένας απλός χώρος υπόθεσης (χαµηλό VCdim) πιθανώς δεν θα περιέχει καλές συναρτήσεις προσέγγισης και θα οδηγήσει σε ένα υψηλό σφάλµα εκπαίδευσης και αλήθειας. Από την άλλη πλευρά, ένας πολύ πλούσιος 25

Δείτε περισσότερα