ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΜΣ ΤΕΧΝΟΛΟΓΙΕΣ ΚΑΙ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΙΑΧΕΙΡΙΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΜΣ ΤΕΧΝΟΛΟΓΙΕΣ ΚΑΙ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΙΑΧΕΙΡΙΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΠΛΑΚΙΑ ΣΠΥΡΙ ΩΝΑ ΑΝΑΓΝΩΡΙΣΗ ΣΥΓΓΡΑΦΕΑ ΜΕ ΑΝΑΠΑΡΑΣΤΑΣΗ ΚΕΙΜΕΝΩΝ ΣΤΟ ΤΑΝΥΣΤΙΚΟ ΧΩΡΟ ΗΣ ΤΑΞΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ : Ε. ΣΤΑΜΑΤΑΤΟΣ ΣΑΜΟΣ-ΦΕΒΡΟΥΑΡΙΟΣ 008

Στην Ευγενία Ευχαριστώ τον κύριο Σταµατάτο για την υ οστήριξη ου µου ροσέφερε για την ολοκλήρωση αυτής της εργασίας. 3

ΠΕΡΙΕΧΟΜΕΝΑ Περίληψη 7. Αναγνώριση συγγραφέα.. 9. Το ρόβληµα της αναγνώρισης συγγραφέα 0. Τεχνικές ανα αράστασης κειµένου.. Support Vector Machnes.4. Optmal Separatng Hyperplane.....6. Soft Margn Classfcaton... 9.3 The Kernel Trck.....4 Βελτιστο οίηση αραµέτρων SVM...4.5 Το ρόβληµα της υ έρ-εκ αίδευσης, υ ό-εκ αίδευσης 5.6 Ε ιλογή χαρακτηριστικών (Feature Sellecton). 6.7 Mult-class SVM....7.8 Χρησιµο οιώντας SVM στο ρόβληµα αναγνώρισης συγγραφέα. 9 3. Support Tensor Machnes...30 3. Το µοντέλο ανα αράστασης κειµένων του αλγόριθµου STM.....3 3. Περιγραφή αλγορίθµου STM 34 3.. Ορισµός του ροβλήµατος.34 3.. Προσ αθώντας να µεγιστο οιήσουµε το εριθώριο......34 3..3 Αλγόριθµος Support Tensor Machne..36 3..4 Α όδειξη σύγκλισης του αλγορίθµου....37 3.3 Ε έκταση του αλγορίθµου STM όταν χρησιµο οιούνται Tensor µεγαλύτερης τάξεως....38 3.3. Τανυστική άλγεβρα (Algebra of tensors).... 39 3.3. Αλγόριθµος STM όταν χρησιµο οιούµε τανυστές µεγαλύτερης τάξεως. 4 5

4. Τακτο οίηση στοιχείων ίνακα.. 43 4. Ταξινόµηση στοιχείων ίνακα 45 4. Το ρόβληµα της µη ισορρο ηµένης συλλογής κειµένων σε ένα ρόβληµα ταξινόµησης ολλών συγγραφέων... 45 4.3 οµές ίνακα ού εξετάστηκαν 49 5. Πειράµατα 57 5. Συλλογή κειµένων ου χρησιµο οιήθηκε...57 5. Το ρόβληµα της µη ισορρο ηµένης συλλογής κειµένων σε ένα ρόβληµα ταξινόµησης ολλών συγγραφέων 59 5.3 Υλο οίηση αλγορίθµου.. 6 5.4 ιαβάθµιση τιµών (scalng) του ροβλήµατος 63 5.5 Πειράµατα 64 6. Συµ εράσµατα.73 7. Βιβλιογραφία 76 6

Περίληψη Το ρόβληµα της κατηγοριο οίησης κειµένων είναι ένα ρόβληµα ου α ασχολεί την ε ιστηµονική κοινότητα αρκετά τον τελευταίο καιρό. Η αύξηση των εγκληµατικών κειµένων στο διαδίκτυο, τα αυξανόµενα φαινόµενα λογοκλο ίας, τα ενοχλητικά µηνύµατα ηλεκτρονικού ταχυδροµείου αλλά και άλλα φαινόµενα σχετικά µε την αναγνώριση του συγγραφέα ενός κειµένου είναι αρκετά σηµαντικά και α αιτούνε δραστική αντιµετώ ιση. Για το ρόβληµα της αναγνώρισης συγγραφέα διάφοροι αλγόριθµοι της µηχανικής µάθησης έχουνε ροταθεί ό ως ο Support Vector Machnes(SVM), Nave Bayes, k-nearest neghtbors,pca,sli αλλά και διάφορες άλλες ροσεγγίσεις ό ως.χ. η χρήση νευρωνικών δικτύων. Α ό αυτές τις ροσεγγίσεις, έχει ξεχωρίσει ο SVM αφού αρουσιάζει τα καλύτερα α οτελέσµατα για διαφορετικές συλλογές ροβληµάτων. Ο SVM είναι ένας αλγόριθµος ου ροτάθηκε α ό τον Vapnk[.9] και βασίζεται στις αρχές της ελαχιστο οίησης του µέγιστου ραγµατικού λάθους του ταξινοµητή µεταβάλλοντας την δοµή του(structural Rsk Mnmzaton). Ο αλγόριθµος SVM αίρνει σαν είσοδο διανύσµατα, τα ο οία στην ερί τωση της αναγνώρισης συγγραφέα ανα αριστούνε τα κείµενα. Μία άλλη ροσέγγιση για το συγκεκριµένο ρόβληµα της αναγνώρισης συγγραφέα α οτελεί ο αλγόριθµος STM(Support Tensor Machne) ο ο οίος ροτάθηκε α ό τους Deng Ca, Xaofe He, J-Rong Wen, Jawe Han και We-Yng Ma[3.] κατά τον ο οίο, κάθε κείµενο ανα αριστάτε α ό ένα τανυστή δεύτερης τάξης( ίνακας). Αυτό µας οδηγεί στον καθορισµό λιγότερων αραµέτρων για την αναγνώριση συγγραφέα µε α οτέλεσµα ο αλγόριθµος να είναι κατάλληλος για ερι τώσεις ου ο αριθµός των κειµένων εκ αίδευσης είναι µικρός. Ε ίσης η α όδοση του αλγορίθµου STM, εξαρτάτε α ό την δοµή του ίνακα-εισόδου του. ηλαδή αλλάζοντας την δοµή του ίνακα, ο ο οίος στο 7

ρόβληµα της αναγνώρισης συγγραφέα ανα αριστά το κείµενο, µεταβάλουµε και την ακρίβεια στην κατηγοριο οίηση κάθε συγγραφέα. Στόχος της εργασίας α οτελεί η αξιολόγηση του αλγορίθµου STM στο ρόβληµα της αναγνώρισης συγγραφέα και συγκεκριµένα η σύγκριση του µε τον αλγόριθµο SVM. Ε ίσης γίνεται µελέτη του αλγορίθµου STM και ροτείνονται διάφορες δοµές του ίνακα των εισόδων του έτσι ώστε να έχουµε καλύτερα α οτελέσµατα κατηγοριο οίησης. Α ό τα α οτελέσµατα κατηγοριο οίησης, συµ εραίνουµε ως χρησιµο οιώντας κά οιες α ό τις δοµές ου ροτείνονται, ο αλγόριθµος STM είναι ανταγωνιστικός του SVM. Ιδιαίτερα για µικρές συλλογές κειµένων ο αλγόριθµος STM έχει καλύτερα α οτελέσµατα α ό τον SVM. Αντίθετα όταν ερευνούµε ροβλήµατα µε µεγαλύτερο αριθµό κειµένων εκ αίδευσης, αρατηρούµε ως ο STM µειονεκτεί του SVM. Η δοµή της εργασίας έχει ως ακολούθως : στο ο κεφάλαιο γίνεται µια εισαγωγή στο ρόβληµα της αναγνώρισης συγγραφέα, στο ο κεφάλαιο εριγράφεται ο SVM και ανα τύσσεται ο τρό ος µε τον ο οίο χρησιµο οιείτε για το ρόβληµα της αναγνώρισης συγγραφέα. Στη συνέχεια στο 3 ο κεφάλαιο εριγράφεται ο αλγόριθµος STM ενώ στο 4 ο εριγράφονται οι δοµές του ίνακα ου ροτάθηκαν και ελέχθησαν όσον αφορά την α οτελεσµατικότητα τους. Τέλος στα δύο τελευταία κεφάλαια αρουσιάζονται τα α οτελέσµατα των ειραµάτων ου έγιναν αλλά και τα συµ εράσµατα. 8

. Αναγνώριση συγγραφέα Αναγνώριση συγγραφέα(authorshp analyss) είναι η διαδικασία κατά την ο οία ροσ αθούµε να βρούµε τον άγνωστο συγγραφέα ενός κειµένου α ό ένα λήθος ιθανών συγγραφέων. Η αναγνώριση συγγραφέα έχει ιστορία εκατοντάδων χρόνων κυρίως σε λογοτεχνικά κείµενα, ό ου συχνά εµφανίζονται κείµενα µε άγνωστο συγγραφέα αλλά και κείµενα διεκδικούµενα α ό ολλούς συγγραφείς. ιάσηµη είναι η υ όθεση µε τα άρθρα Federalst[.](α οτελεί την ρώτη η ο οία λύθηκε µε βοήθεια Η/Υ)τα ο οία εκδόθηκαν ανώνυµα αρχικά, ο συγγραφέας των εβδοµήντα-τριών α ό αυτά ροσδιορίστηκε ότι είναι ο John Jay ενώ τα υ όλοι α δώδεκα ήταν ιθανόν να είναι των Alexander Hamlton και James Madson. Μετά α ό µια διαδικασία αναγνώρισης συγγραφέα βρέθηκαν α τές α οδείξεις ως ο συγγραφέας και των δώδεκα διεκδικούµενων άρθρων ήταν ο Madson. Hamlton Madson Σχήµα. Στις µέρες µας όµως η αναγνώριση συγγραφέα α οκτά ολοένα και αυξανόµενο ερευνητικό ενδιαφέρον. Αυτό γίνεται κυρίως λόγω της εύκολης και ανώνυµης ρόσβασης στο διαδίκτυο µε α οτέλεσµα το τελευταίο να α οτελεί ό λο τροµοκρατικών αλλά και εγκληµατικών οργανώσεων[.3]. Ε οµένως σε µερικές ερι τώσεις α οτελεί αναγκαιότητα η εξακρίβωση της ταυτότητας (αυθεντικο οίησης) του συγγραφέα ενός κειµένου[.]. Ε ίσης το 9

ρόβληµα της αναγνώρισης συγγραφέα έχει και ρακτικό ενδιαφέρον ό ως η εξακρίβωση της ταυτότητας του α οστολέα ηλεκτρονικών µηνυµάτων(emals)[.4,.5] αλλά και φαινόµενα τυ οκλο ίας[.6]. Μ ορεί συνε ώς να αναγνωριστούν µηνύµατα spam, τα ο οία και α ορρί τονται ενώ ακόµα µ ορεί να γίνει η αναγνώριση ε ικίνδυνων αρχείων(vrus,trojans) θεωρώντας τα αρχεία κώδικα σαν αρχεία κείµενου και εκτελώντας την διαδικασία της αυτόµατης αναγνώρισης κειµένων[.7].. Το ρόβληµα της αναγνώρισης συγγραφέα Αναγνώριση συγγραφέα ενός κειµένου α οτελεί η διαδικασία ρόβλεψης του ιο ιθανού συγγραφέα α ό ένα σύνολο υ οψήφιων συγγραφέων, όταν έχουµε κά οιο διαθέσιµο αριθµό κειµένων του κάθε υ οψήφιου συγγραφέα. Α ό λευράς µηχανικής µάθησης έχουµε να κάνουµε δηλαδή µε ένα ρόβληµα ό ου ρέ ει να κατηγοριο οιήσουµε ένα αντικείµενο(κείµενο) στην κατάλληλη κλάση(συγγραφέας) µέσα α ό ένα σύνολο υ οψήφιων συγγραφέων[.8]. Το ρόβληµα ου µας α ασχολεί δηλαδή είναι ένα ρόβληµα ταξινόµησης σε ολλές υ οψήφιες κατηγορίες(multclass classfcaton), όταν για κάθε µία α ό τις υ οψήφιες κατηγορίες έχουµε ένα αριθµό γνωστών στιγµιότυ ων ου χρησιµο οιούνται για την εκ αίδευση του συστήµατος. ηλαδή ο ρόλος των κλάσεων (κατηγοριών) στο συγκεκριµένο ρόβληµα διαδραµατίζεται α ό τους υ οψήφιους συγγραφείς ενώ τα γνωστά κείµενα για τον κάθε συγγραφέα καθορίζουν το σύνολο των δεδοµένων εκ αίδευσης(tranng data). Ε ίσης ένα σύνολο α ό γνωστά κείµενα θεωρούνται δεδοµένα αξιολόγησης(testng data) και δίνονται στο σύστηµα, το ο οίο έχουµε εκ αιδεύσει για να διερευνηθεί η α όδοση του(ακρίβεια ταξινόµησης). Για το συγκεκριµένο ρόβληµα της αναγνώρισης συγγραφέα έχουν ροταθεί και χρησιµο οιηθεί αρκετοί αλγόριθµοι της µηχανικής 0

µάθησης(support Vector Machnes(SVM)[.9], Nave Bayes[.0], k-nearest neghtbors[.] ). Ο αλγόριθµος ο ο οίος αρουσιάζει τα καλύτερα α οτελέσµατα(µεγαλύτερη ακρίβεια) αλλά και αξιοσηµείωτη σταθερότητα στην ακρίβεια της ταξινόµησης των κειµένων, ανεξάρτητα µε τη συλλογή κειµένων ου χρησιµο οιείτε, είναι ο SVM. Ο αλγόριθµος SVM[.5](Support Vector Mchnes), ο ο οίος και αρουσιάζεται αναλυτικά στο ο κεφάλαιο, α οκτά ολοένα και µεγαλύτερο ενδιαφέρον στην κοινότητα της µηχανικής µάθησης αφού α οτελεί state of the art ροσέγγιση για ολλές κατηγορίες ροβληµάτων. Ένας άλλος λόγος ου µας οδηγεί στην εκτεταµένη µελέτη του αλγόριθµου SVM είναι το γεγονός ότι α οτελεί την βάση του αλγόριθµου STM, αλγόριθµου ου α οτελεί τη κύρια µελέτη αυτής της εργασίας.. Τεχνικές ανα αράστασης κειµένου Ένας βασικός αράµετρος, ου αφορά το ρόβληµα της αναγνώρισης κειµένου, είναι ο τρό ος µε τον ο οίο γίνεται η ανα αράσταση του κειµένου. Κάθε κείµενο ρέ ει να ανα αρασταθεί µε τέτοιο τρό ο, ώστε να αλλοιώνεται η ταυτότητα του όσον το δυνατόν λιγότερο. Α αιτείτε λοι όν, µια κατάλληλη ανα αράσταση κειµένου έτσι ώστε να εξάγονται α ό το κάθε κείµενο τα ιδιαίτερα χαρακτηριστικά (stylometry) του κάθε συγγραφέα (γλωσσολογική υφολογία). ιάφορες ροτάσεις υ άρχουν στην σύγχρονη βιβλιογραφία[.] οι ο οίες και χρησιµο οιούν διαφορετικές ροσεγγίσεις του ροβλήµατος. Η ιο διαδεδοµένη ροσέγγιση ανα αράστασης ενός κειµένου είναι η χρήση της κανονικο οιηµένης συχνότητας των εµφανίσεων των λέξεων του κειµένου. Η διαδικασία ου ακολουθείτε είναι η συλλογή των λέξεων( ου εµφανίζονται συχνότερα) στα κείµενα των υ οψήφιων συγγραφέων(bag of words). Αυτό γίνεται γιατί έχει αρατηρηθεί ως οι ιο συχνά εµφανιζόµενες λέξεις αίζουν τον σηµαντικότερο ρόλο στη διαδικασία αναγνώρισης συγγραφέα[.3]. Το κάθε κείµενο τελικά ανα αριστάτε µε ένα διάνυσµα, ό ου κάθε στοιχείο στην αντίστοιχη γραµµή του διανύσµατος δείχνει τον

αριθµό εµφανίσεων της συγκεκριµένης λέξης στο κείµενο ρος ένα αριθµό ο ο οίος αντιστοιχεί στο µέγεθος του κειµένου(σύνολο χαρακτήρων του κειµένου). Παρατηρούµε δηλαδή ως οι είσοδοι των ταξινοµητών(classfer) των κειµένων είναι διανύσµατα-στήλες και ότι κάθε στοιχείο του ίνακα σε µια συγκεκριµένη θέση εκφράζει τη κανονικο οιηµένη συχνότητα των εµφανίσεων της αντίστοιχης λέξης στο κείµενο. Μια αρκετά ανερχόµενη αλλά και υ οσχόµενη διαδικασία ανα αράστασης των κειµένων, η ο οία ροτάθηκε ρόσφατα, είναι η χρήση ενός συνόλου α ό αλφαριθµητικά(n-grams)τα ο οία εξάγονται α ό το κείµενο και χρησιµο οιούνται για την είσοδο σε διαδικασίες αναγνώρισης συγγραφέα[.4]. Τα n-grams α οτελούνται α ό συνεχόµενους χαρακτήρες µήκους n, δηλαδή η ρόταση we wn µας ε ιστρέφει τα 3-grams we, e w, w και wn. Χρησιµο οιώντας ένα σύνολο α ό n-grams αξιο οιούµε τη δοµή του κειµένου σε µεγάλο βαθµό αφού εξάγουµε ληροφορία σχετική µε τη συντακτική αλλά και τη λεξιλογική του µορφή. Για αράδειγµα, σε ένα αγγλικό κείµενο τα ιο συχνά 3-grams µας αρέχουν λεξιλογική ληροφορία όσον αφορά τους συνδέσµους( the, tha ), το είδος των ιο συχνά εµφανιζόµενων λέξεων( ng, ed ) αλλά και τα σηµεία στίξης(. Τ, Τ. )[.8]. Ε ίσης ένα εξίσου σηµαντικό λεονέκτηµα της χρήσης n-grams είναι το γεγονός ως η διαδικασία ανα αράστασης των κειµένων είναι ανεξάρτητη της γλώσσας του κειµένου αφού δεν α αιτείτε κά οιος µηχανισµός α όρριψης γνωστών ε ιθεµάτων ( ροθέµατα, καταλήξεις), µε µία ε αναλη τική διαδικασία(stemmng) είτε χρησιµο οιώντας κά οιο λεξικό είτε χρησιµο οιώντας κά οιους γραµµατικούς κανόνες. Σε αντίθεση µε τη χρήση n-gram, όταν έχουµε εξαγάγει λέξεις α ό το κείµενο α αιτείτε κά οια ροεργασία η ο οία έχει άµεση σχέση µε τη γλώσσα του κειµένου, µε α οτέλεσµα η διαδικασία να είναι language specfc(σε κάθε γλώσσα υ άρχουν διαφορετικοί κανόνες ως ρος την υλο οίηση του stemmng). Η χρήση n-grams α οδείχτηκε ως είναι αρκετή α οδοτική στο ρόβληµα της αναγνώρισης συγγραφέα ενός κειµένου α ό ένα λήθος υ οψήφιων συγγραφέων[.5]. Πειράµατα ου έγιναν σε διάφορα συλλογές

α ό κείµενα(dataset), µε διαφορετικές κατανοµές ανά συγγραφέα, έδειξαν ως µε τη χρήση n-grams ετυχαίνουµε βελτίωση της ακρίβειας του ροβλήµατος αναγνώρισης συγγραφέα, ιδιαίτερα σε ροβλήµατα ό ου το λήθος των υ οψήφιων συγγραφέων είναι µεγάλο(>5). Αξιοσηµείωτο είναι ε ίσης το γεγονός ως έγιναν ειράµατα σε dataset διαφορετικών γλωσσών, αρατηρώντας άντα σηµαντική αύξηση της ακρίβειας της ταξινόµησης µε τη χρήση n-grams. Για τους αρα άνω λόγους στην εργασία αυτή ε ιλέχθηκε να χρησιµο οιηθούν n-grams και ιο συγκεκριµένα 3-grams. Στις ερισσότερες των ερι τώσεων τα κείµενα ανα αριστούνται σαν διανύσµατα στήλες, στα ο οία διανύσµατα κάθε διάσταση αντιστοιχεί στο κανονικο οιηµένο λήθος των εµφανίσεων της αντίστοιχης λέξης ή του αντίστοιχου n-gram. O κύριος λόγος για αυτό το γεγονός είναι ότι οι ερισσότεροι αλγόριθµοι ου χρησιµο οιούνται για την αναγνώριση συγγραφέα αίρνουν σαν είσοδο διανύσµατα-στήλες(ο αλγόριθµος SVM ου αναλύεται αναλυτικά στο ε όµενο κεφάλαιο χρησιµο οιείτε κατά κόρον στο ρόβληµα της αναγνώρισης συγγραφέα και αίρνει σαν είσοδο διανύσµαταστήλες). 3

. Support Vector Machnes Τα διανύσµατα υ οστήριξης µάθησης(support vector machnes) α οτελούν µια state of the art µέθοδο για την ταξινόµηση αντικειµένων στις αντίστοιχες κατηγορίες. Προτάθηκαν α ό τον Vapnk(99)[.5] και α ό τότε έχουν χρησιµο οιηθεί σε διάφορες εφαρµογές της κατηγοριο οίησης αντικειµένων µε µεγάλη ε ιτυχία. Βασίζονται στην αρχή ελαχιστο οίησης του µέγιστου ιθανού λάθους(rsk Mnmzaton Error), η ο οία στηρίζεται στη εύρεση µίας υ όθεσης, η ο οία µ ορεί να εγγυηθεί ένα ελάχιστο δυνατό λάθος(true error) στην ταξινόµηση κά οιων, άγνωστων για τον classfer, δεδοµένων. Ένα µέτρο της χωρητικότητας ο οιοδή οτε αλγορίθµου ταξινόµησης θεωρείτε η VC διάσταση(vapnk-chervonenks dmenson), η ο οία καθορίζεται σαν το µέγιστο λήθος σηµείων ου ο αλγόριθµος µ ορεί να διαχωρίσει. Ένα άνω όριο µ ορεί να βρεθεί για το ραγµατικό λάθος R( a ) του αλγορίθµου κατά την διαδικασία της ταξινόµησης. Το όριο αυτό ισούται µε το άθροισµα του λάθους κατά την διαδικασία της εκ αίδευσης των γνωστών δεδοµένων Remp ( a ) αλλά και ενός όρου ου εξαρτάτε α ό την VC διάσταση( ολυ λοκότητα του χώρου H στον ο οίο βασίζεται η υ όθεση του αλγορίθµου). Για ιθανότητα n η αρακάτω σχέση ισχύει αν h είναι η VC διάσταση του χώρου H και l το λήθος των στιγµιότυ ων εκ αίδευσης : h(log( l h) + ) log( n / 4) R( a) R e mp( a) +. l Συµ εραίνουµε λοι όν ως γνωρίζοντας την VC διάσταση του χώρου H ενός αλγόριθµου και ε ιλέγοντας µια µικρή τιµή της ιθανότητας n µ ορούµε να βρούµε το άνω όριο του ραγµατικού λάθους του ταξινοµητή όταν το λήθος των δεδοµένων εκ αίδευσης είναι l. Τα διανύσµατα 4

υ οστήριξης µάθησης βρίσκουν την υ όθεση αυτή για την ο οία το ραγµατικό λάθος του ταξινοµητή ελαχιστο οιείτε, ελέγχοντας α οτελεσµατικά την VC διάσταση του χώρου H. Το ρόβληµα της ταξινόµησης κά οιων αντικειµένων(και ροφανώς και το ρόβληµα της αναγνώρισης συγγραφέα) µ ορεί να θεωρηθεί, χωρίς α ώλεια της γενικότητας, σαν ένα ρόβληµα κατηγοριο οίησης όταν ο αριθµός των κλάσεων είναι δύο. Σε αυτό το ρόβληµα ο στόχος είναι να διαχωριστούνε οι δύο κλάσεις α ό µια συνάρτηση, η ο οία συνάρτηση αράγεται α ό τα διαθέσιµα γνωστά στοιχεία(αντικείµενα) τα ο οία είναι ήδη ταξινοµηµένα. Σκο ός µας είναι η δηµιουργία ενός classfer ου να ταξινοµεί σωστά τα µη ταξινοµηµένα αραδείγµατα. Σχήµα. Στο αρα άνω σχήµα υ άρχουν αρκετές ευθείες ου διαχωρίζουν τα αντικείµενα κάθε κλάσης αλλά ένα κρίσιµο ερώτηµα είναι οια α ό αυτές είναι η καλύτερη. Η α άντηση σε αυτό το ερώτηµα είναι η ευθεία ου µεγιστο οιεί το άθροισµα των α οστάσεων των δύο κοντινότερων σηµείων(ένα α ό κάθε κλάση) α ό την ευθεία, δηλαδή µεγιστο οιεί το εριθώριο(margn). Αν ο αρα άνω χώρος, µέσα στον ο οίο είναι τα αντικείµενα, τον θεωρήσουµε ολυδιάστατο τότε ο classfer µ ορεί να θεωρηθεί ότι καθορίζεται α ό το βέλτιστο υ ερ-ε ί εδο του σχήµατος(optmal separatng hyperplane). 5

. Optmal Separatng Hyperplane Ας υ οθέσουµε ότι τα <<γνωστά>>αντικείµενα τα ο οία και θέλουµε να διαχωρίσουµε είναι της µορφής D= x y x y x R y N {(, ),..,(, )},, {,} και το υ ερ-ε ί εδο τα ο οία τα διαχωρίζει κατά βέλτιστο τρό ο είναι της µορφής H : < w, x>+ b= 0. Θεωρούµε ως το βέλτιστο υ ερ-ε ί εδο διαχωρίζει τα αντικείµενα χωρίς κανένα λάθος, καθώς και ότι το βέλτιστο υ ερ-ε ί εδο είναι αυτό ου έχει τη µέγιστη α όσταση α ό τα δύο κοντινότερα αντικείµενα(το κάθε αντικείµενο ανήκει σε διαφορετική κλάση ροφανώς)[.]. ηλαδή αρχικά θεωρούµε την ιο α λή ερί τωση κατά την ο οία τα αντικείµενα διαχωρίζονται α ό το βέλτιστο υ ερ-ε ί εδο χωρίς κά οιο λάθος. Προφανώς για τα θετικά αντικείµενα ισχύει ενώ για τα αρνητικά x w+ b + για y =+ x w+ b για y =. Αν συνδυάσουµε τις δύο σχέσεις αίρνουµε ( x w+ b) y + x, y. Σχήµα. 6

Παρατηρούµε ως τα σηµεία τα ο οία αίζουν και το σηµαντικότερο ρόλο στην εύρεση του βέλτιστου υ ερ-ε ί εδου είναι τα σηµεία άνω στα ε ί εδα : H x w+ b=+ : H. x w+ b= Τα σηµεία αυτά λέγονται Support Vectors(SVs). Ε ίσης θεωρούµε ως d είναι η α όσταση του υ ερ-ε ί εδου H α ό το κοντινότερο <<θετικό>> αντικείµενο ενώ d είναι η α όσταση α ό το κοντινότερο <<αρνητικό>> αντικείµενο. Τότε η οσότητα ου ρέ ει να µεγιστο οιήσουµε είναι η d = d+ d, η ο οία καθορίζει το κενό(margn) µεταξύ των θετικών και των αρνητικών αντικειµένων. Η α όσταση d µεταξύ των σηµείων ου ανήκουν στο ε ί εδο H και του ε ι έδου H βρίσκεται ολύ α λά ότι είναι w. Παροµοίως υ ολογίζουµε ότι d = w και συνε ώς το κενό µεταξύ του αρνητικού και θετικού ε ι έδου καθορίζεται ως : d = d+ d = w. Ε οµένως το ρόβληµα µετασχηµατίζεται σε ένα ρόβληµα βελτιστο οίησης εριορισµών της αρακάτω µορφής max w st. ( x w+ b) y + x, y ό ου τα ζητούµενα είναι το διάνυσµα στήλη w και ο αράµετρος b. Ε ίσης το ρόβληµα µ ορεί να γραφεί ως : mn w st. ( x w+ b) y + x, y Για τη λύση του αρα άνω ροβλήµατος ροχωράµε σε µια ανακατασκευή του ροβλήµατος κατά Langrange. ηλαδή εισάγουµε στο ρόβληµα τους συντελεστές Langrange a [.], ό ου κάθε συντελεστής αντιστοιχεί σε µία ανισότητα του αρχικού ρωτεύοντος ροβλήµατος. Ο a 7

µετασχηµατισµός Langrange γίνεται για δύο λόγους : α) στο µετασχηµατισµένο ρόβληµα ου θα οδηγηθούµε οι εριορισµοί θα είναι ολύ ιο εύκολοι ώστε να τους χειριστούµε β) στο τελικό ρόβληµα τα δεδοµένα εκ αίδευσης θα εµφανίζονται µόνο στη µορφή του εσωτερικού γινοµένου(αυτό θα είναι αρκετά χρήσιµο κατά την µη γραµµικά ταξινόµηση αντικειµένων). Το ρόβληµα λοι όν µετά α ό το µετασχηµατισµό Langrange εµφανίζεται στην αρακάτω µορφή (convex quadratc optmzaton problem) max L p st. a L p = 0 ό ου 0 L p = l l ( ) = = w a y x w+ b + a Α ό τις αρα άνω σχέσεις εκτελώντας τις ράξεις µε τις διαφορικά ε ίσης αίρνουµε w l = a y x = l = a y = 0 ο ότε το δυαδικό ρόβληµα βελτιστο οίησης εριορισµών του αρα άνω µετασχηµατισµένου γίνεται : mn l j = = l a a a y y x x j j st. a 0, l = a y = 0 Το αρα άνω ρόβληµα είναι υ ολογιστικά ιο εύκολο στην ε ίλυση του γιατί οι εριορισµοί είναι σε α λούστερη µορφή. Ε ίσης είναι σηµαντικό, ό ως θα δούµε αρακάτω ως αρουσιάζεται µόνο το εσωτερικό γινόµενο 8

µεταξύ των διανυσµάτων x και x j. Ε ίσης το βέλτιστο υ ερε ι έδου H βρίσκεται α ό τη λύση του αρα άνω δυαδικού ροβλήµατος βελτιστο οίησης a * αφού ισχύει w* = * a y x ενώ η αράµετρος b * βρίσκεται ολύ α λά α ό την αράσταση * k k b = y w* x για κά οιο k x ό ου k 0 a. ηλαδή για ένα άγνωστο αντικείµενο-σηµείο x η συνάρτηση α όφασης είναι l * * * * ( ) = s gn( + ) = ( + ) = f x w x b sgn a y x x b. Α οδεικνύεται ε ίσης ως σε κάθε µη µηδενικό συντελεστή αντιστοιχεί Support Vector, σηµείο δηλαδή ου καθορίζει το εριθώριο(margn) µεταξύ των δύο κλάσεων. Ε ίσης αρατηρείτε ε ίσης ως στη συνάρτηση α όφασης εµφανίζεται άλι το εσωτερικό γινόµενο µεταξύ του σηµείου ου θέλουµε να ταξινοµήσουµε και των support vectors. a. Soft Margn Classfcaton Μέχρι στιγµής θεωρήσαµε ως στο ρόβληµα τα αντικείµενα-σηµεία στον ολυδιάστατο χώρο διαχωρίζονται γραµµικά. Φυσικά αυτό είναι µια ιδεατή ερί τωση και η ραγµατικότητα είναι τελείως διαφορετική. Σε αυτή την ερί τωση κατά την ο οία τα σηµεία εκ αίδευσης δεν διαχωρίζονται γραµµικά, χαλαρές µεταβλητές(slack varables) ξ 0 ορίζονται ου ε ιτρέ ουν την ύ αρξη λαθών α ό τον classfer και οι ο οίες δίνουν ένα µέτρο του λάθους του ταξινοµητή [.3] για τα δύσκολα σηµεία ου δεν διαχωρίζονται γραµµικά. Ε οµένως οι σχέσεις για τον διαχωρισµό των σηµείων σε θετικά και αρνητικά τώρα γίνονται 9

x w+ b + ξ, για y =+ x w+ b + ξ, για y =. Συνε ώς η συνάρτηση κόστους σ F ( ) = ξ σ > 0, ρέ ει να ελαχιστο οιηθεί. σ ξ Ε ίσης ό ως αρατηρούµε α ό τις αρα άνω ανισότητες η µεταβλητή ξ εκφράζει την α όσταση µεταξύ του σηµείου-αντικειµένου, ου ταξινοµήθηκε λάθος, και του σωστού ε ι έδου. Παρατηρούµε δηλαδή ως η slack varable ξ δίνει ένα µέτρο για το όσο λάθος κάνει ο γραµµικός διαχωρισµός των σηµείων για το συγκεκριµένο δύσκολο σηµείο. Ε ι ρόσθετα είδαµε ως ένα µέγεθος ου ρέ ει να µεγιστο οιήσουµε είναι το εριθώριο(margn) µεταξύ των θετικών και αρνητικών σηµείων-αντικειµένων δηλαδή max w ή mn w. ξ ξ Σχήµα.3 0

Συνδυάζοντας τα αρα άνω έχουµε το αρακάτω ρόβληµα βελτιστο οίησης : mn w + c ξ st. ( x w+ b) y + x, y ξ ι Η αράµετρος C καθορίζει ένα µέτρο ανταλλαγής µεταξύ της σηµασίας του εριθωρίου ανάµεσα στο θετικό και αρνητικό υ ερ-ε ί εδο αλλά και της µη ύ αρξης αρκετών σηµείων ου ταξινοµούνται ως λανθασµένα. Μεγάλη τιµή για την αράµετρο C σηµαίνει την ρόθεση µας να τιµωρούµε την ύ αρξη λανθασµένων ταξινοµηµένων σηµείων σε βάρος όµως του εριθωρίου ου είναι αρκετά στενό. Αντίθετα µικρή τιµή της αραµέτρου C οδηγεί σε µεγάλο εριθώριο µεταξύ του θετικού και του αρνητικού ε ι έδου αλλά αρκετά σηµεία τα ο οία ο ταξινοµητής τα έχει το οθετήσει λανθασµένα. Ο έλεγχος της αραµέτρου C είναι αρκετά σηµαντικός αφού µας δίνει ένα τρό ο ελέγχου του overfttng. Το ρόβληµα του overfttng το αντιµετω ίζουµε συνήθως όταν ο classfer έχει ολύ υψηλό οσοστό ακρίβειας για τα tranng data(γνωστά σηµεία-αντικείµενα) ενώ έχει µικρή ακρίβεια για τα testng data(άγνωστα σηµεία). Αυτό γίνεται λόγω του γεγονότος ότι ο classfer δεν έχει α οκτήσει γενικευµένη γνώση για τα αντικείµενα-σηµεία(.χ. εριθώριο ολύ λε τό µεταξύ των δύο κλάσεων για να µην υ άρχει κανένα λάθος στα γνωστά σηµεία). Το δυαδικό του ρωτεύοντος µετά α ό τον µετασχηµατισµό Langrange φαίνεται αρακάτω max l j = = l a a a y y x x j j st. C a 0, l = a y = 0

Παρατηρούµε ως το δυαδικό είναι όµοιο µε εκείνο της ροηγούµενης ερί τωσης, κατά την ο οία τα αντικείµενα διαχωρίζονται γραµµικά, εκτός α ό την εµφάνιση της αραµέτρου C στους εριορισµούς των συντελεστών a. Η ε ιλογή της τιµής αυτής της αραµέτρου έχει σηµαντική ε ίδραση στην ακρίβεια της ταξινόµησης..3 The Kernel Trck Παρα άνω αρουσιάστηκε µια ροσέγγιση του ροβλήµατος κατά το ο οίο τα σηµεία-αντικείµενα δεν διαχωρίζονται γραµµικά, ε ιτρέ οντας ουσιαστικά την ύ αρξη κά οιων λαθών στην ταξινόµηση τα ο οία και τιµωρούνται στη συνάρτηση βελτιστο οίησης µε κά οιο κόστος. Τι γίνεται όµως στην ερί τωση κατά την ο οία το ρόβληµα είναι αρκετά δύσκολο; Μια διαφορετική αντιµετώ ιση είναι η α εικόνιση των στοιχείωναντικειµένων σε ένα άλλο χώρο, µεγαλύτερης διάστασης, στον ο οίο και διαχωρίζονται γραµµικά (σχήµα.4)[.4]. Φ: x φ(x) Σχήµα.4 Παρα άνω είδαµε ως στη διαδικασία εκ αίδευσης, τα σηµείααντικείµενα εµφανίζονται µόνο σε εσωτερικά γινόµενα της µορφής j x x. Αυτήν την ιδιότητα εκµεταλλεύεται η ροσέγγιση ου ροτάθηκε α ό τους

Bοser, Guyon και Vapnk[.5] και η ο οία λύνει τα υ ολογιστικά ροβλήµατα της α εικόνισης σηµείων-αντικειµένων σε χώρο µεγαλύτερης διάστασης. Ας υ οθέσουµε ως α εικονίζουµε τα στοιχεία-αντικείµενα σε ένα άλλο Ευκλείδειο χώρο H, χρησιµο οιώντας την α εικόνιση Φ, δηλαδή d Φ : R H. Τότε κατά τη διαδικασία της εκ αίδευσης αλλά και στην συνάρτηση α όφασης α αιτείτε να γνωρίζουµε τα εσωτερικά γινόµενα των α εικονίσεων j των σηµείων-αντικειµένων δηλαδή την αράσταση της µορφής Φ( x ) Φ ( x ). Αν γνωρίζαµε την ύ αρξη µιας συνάρτησης, για την ο οία ισχύει j j K( x, x ) =Φ( x ) Φ ( x ), τότε κατά την διαδικασία της εκ αίδευσης του classfer αλλά και κατά τη χρήση της συνάρτησης α όφασης, θα χρησιµο οιούµε µόνο τη συνάρτηση j α όφασης K( x, x ) και για την α εικόνιση δεν θα µας ειράζει να µην ξέρουµε και τί οτα. Ακριβώς αυτήν την ιδέα εκµεταλλευόµαστε και α εικονίζουµε τα σηµεία σε ένα άλλο χώρο µεγαλύτερης διάστασης µε µεγάλη ευκολία. Μερικά αραδείγµατα α ό Kernel Functons αρουσιάζονται αρακάτω: Γραµµική α εικόνιση : K( x, x ) = x x ό ου η α εικόνιση είναι j j Φ : x x. Α εικόνιση ολυωνύµου µε δύναµη p : K( x, x j ) = ( + x x j ) p ό ου η α εικόνιση έχει d + p p διαστάσεις ό ου d η διάσταση του αρχικού χώρου. Γκαουσιανή α εικόνιση(rbf) : j σ K( x, x ) e x x j = ό ου ο χώρος στον ο οίο α εικονίζουµε τα σηµεία του αρχικού χώρου έχει ά ειρες διαστάσεις, ο ότε είναι αρκετά ιο εύκολο να δουλέψουµε µε την συνάρτηση j K( x, x ). Σιγµοειδής α εικόνιση( sgmont kernel) : K( x, x j ) = tanh( kx x j + θ ) 3

Το ρόβληµα βελτιστο οίησης µε εριορισµούς χρησιµο οιώντας kernels γίνεται τώρα max a j j j j a a y y K( x, x ) st. a 0, l = a y = 0.4 Βελτιστο οίηση αραµέτρων SVM Ιδιαίτερη σηµασία έχει η ε ιλογή των αραµέτρων αλλά και της Kernel functon ου χρησιµο οιείτε κατά την εκ αίδευση του classfer χρησιµο οιώντας SVM. Μια α λή ρακτική είναι ο διαχωρισµός του συνόλου των διαθέσιµων σηµείων-αντικειµένων(avalble data) σε σηµεία τα ο οία χρησιµο οιούνται για την εκ αίδευση του ταξινοµητή(tranng data), µε συγκεκριµένες τιµές αραµέτρων, και σε σηµεία-αντικείµενα τα ο οία χρησιµο οιούνται για τον έλεγχο της ακρίβειας του συστήµατος( valdaton data). Αυτή η διαδικασία γίνεται ε αναλη τικά για διάφορες τιµές των αραµέτρων, ελέγχοντας άντα την ακρίβεια στα valdaton data(συνήθως γίνεται ένας εξονυχιστικός έλεγχος µέσα σε ένα διάστηµα τιµών των αραµέτρων). Τέλος εκ αιδεύουµε τον ταξινοµητή χρησιµο οιώντας τους αραµέτρους, κατά τους ο οίους στην ροηγούµενη διαδικασία είχαµε τα καλύτερα α οτελέσµατα. Η αρα άνω διαδικασία µ ορεί να γίνει και για την ε ιλογή του υρήνα(kernel). Η διαδικασία του διαχωρισµού των διαθέσιµων δεδοµένων σε tranng data και valdaton data µ ορεί να γίνει µε διάφορους τρό ους. Ένας αρκετά 4

συνηθισµένος τρό ος για να ε ιτευχθεί η αρα άνω διαδικασία είναι ο διαχωρισµός του συνόλου των διαθέσιµων δεδοµένων τυχαία σε k υ οσύνολα. Κάθε φορά λοι όν, τα k- α ό αυτά τα υ οσύνολα τα αίρνουµε σαν tranng data ενώ τα υ όλοι α σαν valdaton data. Η ε ιλογή της αραµέτρου k εξαρτάτε α ό το λήθος των tranng data..5 Το ρόβληµα της υ ερ-εκ αίδευσης, υ ο-εκ αίδευσης Άµεσα συνδεδεµένο µε την ε ιλογή αραµέτρων είναι το ρόβληµα της υ ερ-εκ αίδευσης(overftng). Αυτό συµβαίνει όταν έχουµε σχεδόν µηδενικό λάθος κατά την εκ αίδευση του συστήµατος σε αντίθεση µε το ραγµατικό λάθος των άγνωστων σηµείων-αντικειµένων το ο οίο είναι αρκετά µεγαλύτερο. Αυτό συµβαίνει γιατί α ό τον ταξινοµητή δεν εξάγεται ραγµατική γνώση για το ρόβληµα, αλλά εξειδικεύεται το σύστηµα µαθαίνοντας α λά τα γνωστά σηµεία. Έτσι λοι όν χωρίς την δυνατότητα γενικευµένης γνώσης για το ρόβληµα η ραγµατική ακρίβεια του classfer είναι αρκετά µικρή. Το φαινόµενο(overfttng) αυτό συµβαίνει όταν ο αριθµός των χαρακτηριστικών(features) είναι αρκετά µεγαλύτερος α ό τον αριθµό των γνωστών σηµείων-αντικειµένων ου χρησιµο οιούνται κατά την εκ αίδευση. Αυτό το φαινόµενο είναι αρκετά συχνό στο ρόβληµα της αναγνώρισης συγγραφέα ό ου ο αριθµός των χαρακτηριστικών είναι ολύ µεγάλος ό ως θα δούµε και αρακάτω. 5

Σχήµα.5 Αντιθέτως υ ο-εκ αίδευση(underftng) έχουµε όταν το λάθος κατά την διαδικασία της εκ αίδευσης( tranng error) είναι µεγάλο. Αυτό συµβαίνει είτε γιατί δεν υ άρχουν αρκετά σηµεία-αντικείµενα για να εκ αιδευτεί σωστά ο classfer είτε γιατί χρησιµο οιήθηκαν λάθος αράµετροι κατά την διαδικασία της εκ αίδευσης. Α οτέλεσµα του φαινοµένου του underfttng είναι η υιοθέτηση α ό τον ταξινοµητή µιας αρχικής και α λής υ όθεσης για τα δεδοµένα µε α οτέλεσµα µικρή ακρίβεια..6 Ε ιλογή χαρακτηριστικών (Feature Sellecton) Τελευταία αρουσιάζονται συχνότερα ροβλήµατα τα ο οία ορίζονται α ό ολύ µεγάλο λήθος χαρακτηριστικών(εκατοντάδες χιλιάδες χαρακτηριστικά), τα ο οία ολλές φορές αρέχουν και αρκετά µικρό αριθµό στιγµιότυ ων( ρόβληµα αναγνώρισης συγγραφέα).βασικό ρόλο τότε στην ακρίβεια του classfer έχει η µείωση των χαρακτηριστικών του ροβλήµατος, έτσι ώστε ε ιλέγοντας το καλύτερο υ οσύνολο των χαρακτηριστικών να 6

έχουµε καλύτερα α οτελέσµατα. Η µείωση χαρακτηριστικών είναι µια διαδικασία η ο οία οδηγεί σε ανακατασκευή των δεδοµένων ώστε και η α όδοση των αλγόριθµων µηχανικής µάθησης να βελτιωθεί, και η υ ολογιστική ολυ λοκότητα να µειωθεί αλλά και τα δεδοµένα εκ αίδευσης να γίνουν διαισθητικά ιο κατανοητά σύµφωνα µε την ανθρώ ινη λογική. Ειδικά για το ρόβληµα της αναγνώρισης συγγραφέα ό ου και εµφανίζονται χιλιάδες χαρακτηριστικά, η ε ιλογή χαρακτηριστικών µ ορεί να αυξήσει την ακρίβεια. Η ιο α λή µέθοδος ε ιλογής χαρακτηριστικών για το ρόβληµα αναγνώρισης συγγραφέα έχει την λογική της εµφάνισης των ιο συχνών λέξεων η ngram(ανάλογα µε τι χρησιµο οιείτε). ηλαδή ε ιλέγονται εκείνες µόνο οι λέξεις, οι ο οίες έχουν λήθος εµφανίσεων άνω α ό ένα όριο. Στη συνέχεια κάθε λέξη ου ε ιλέγεται ροφανώς αντιστοιχεί σε ένα χαρακτηριστικό(feature). Η µέθοδος αυτή χρησιµο οιήθηκε στην αρούσα εργασία. Μια άλλη διάσηµη κατηγορία τεχνικών για ε ιλογή αραµέτρων σε ροβλήµατα αναγνώρισης συγγραφέα είναι τα φίλτρα. Σε αυτή τη κατηγορία τεχνικών αρχικά ταξινοµούνται τα χαρακτηριστικά(varable rankng) µε βάση τους συντελεστές συσχέτισης τους και έ ειτα ε ιλέγονται τα χαρακτηριστικά µε το µεγαλύτερο βαθµό. Τα ιο συχνά χρησιµο οιούµενα φίλτρα είναι τα Ch-Squared, F αλλά και το IGN(nformaton Gan)..7 Mult-class SVM Ό ως είδαµε τα διανύσµατα υ οστήριξης µάθησης(svm) εκτελούν ταξινόµηση όταν οι ιθανές κατηγορίες είναι µόνο δύο. Τι γίνεται όµως όταν το λήθος των ιθανών κατηγοριών είναι µεγαλύτερο α ό δύο; Πολύ α λά µετασχηµατίζουµε το ρόβληµα µε τέτοιο τρό ο ώστε να λύνουµε δυαδικούς ταξινοµητές σε υ ο ροβλήµατα[.7]. 7

Μια ροσέγγιση όταν το λήθος των ιθανών κατηγοριών είναι k, είναι να εκ αιδεύσουµε k( k ) δυαδικούς classfer, ο καθένας α ό τους ο οίους θα αντιστοιχεί σε ένα ζευγάρι κατηγοριών. Τότε κάθε άγνωστο στιγµιότυ ο του ροβλήµατος ελέγχεται α ό όλους τους δυαδικούς ταξινοµητές α οφασίζοντας σε οια κλάση α ό τις δύο υ οψήφιες(ανάλογα µε το δυαδικό ταξινοµητή) ανήκει. Για το τελικό α οτέλεσµα ακολουθείτε µια διαδικασία ψηφίσµατος, αφού κάθε δυαδικός ταξινοµητής ψηφίζει µια κατηγορία(µια α ό τις δύο για τις ο οίες και εκ αιδεύτηκε). Το στιγµιότυ ο ανήκει στην κατηγορία µε τις ερισσότερους ψήφους(σε ερί τωση ισοβαθµίας, α ό τις νικήτριες ε ιλέγεται η κατηγορία η ο οία και διαθέτει τα λιγότερα στιγµιότυ α εκ αίδευσης). Η αρα άνω διαδικασία λέγεται one Vs one ροσέγγιση και έχει αρκετά µεγάλη ακρίβεια ιδιαίτερα όταν ο αριθµός των κλάσεων k είναι µεγάλος. Μια άλλη ροσέγγιση είναι η εκ αίδευση k δυαδικών ταξινοµητών, ένα για κάθε κλάση. Κάθε δυαδικός ταξινοµητής εκ αιδεύεται ώστε να διαχωρίζει τα στιγµιότυ α της κάθε κλάσης(αυτής για την ο οία εκ αιδεύεται) σε σχέση µε τα υ όλοι α στιγµιότυ α ου ανήκουν στις υ όλοι ες κατηγορίες(one Vs all). Πάλι κάθε άγνωστο στιγµιότυ ο ερνάει α ό όλους τους δυαδικούς ταξινοµητές ακολουθώντας µια διαδικασία ψηφοφορίας. ηλαδή αν για ένα συγκεκριµένο στιγµιότυ ο ο ταξινοµητής α όφασης (κλάση A VS all) α οφασίσει ως ανήκει στη κλάση A, τότε για το συγκεκριµένο στιγµιότυ ο η κλάση Α αίρνει µια ψήφο. Έχουν ροταθεί και κά οιες άλλες µέθοδοι σχετικά µε την ε έκταση του SVM σε ροβλήµατα ολλών κατηγοριών αφού το συγκεκριµένο θέµα α ασχολεί ολοένα και ερισσότερο την ε ιστηµονική κοινότητα. Στην εργασία αυτή χρησιµο οιήθηκε η ρώτη ροσέγγιση(one Vs one) για να λυθεί το ρόβληµα της ταξινόµησης ολλών κατηγοριών(multclass problem) µε τη βοήθεια SVM. 8

.8 Χρησιµο οιώντας SVM στο ρόβληµα αναγνώρισης συγγραφέα Στο ρόβληµα αναγνώρισης συγγραφέα χρησιµο οιούµε στην ουσία ένα «bag of words» µοντέλο. Κάθε χαρακτηριστικό του ροβλήµατος αντιστοιχεί σε µια λέξη ή n-gram του κειµένου ενώ η τιµή του χαρακτηριστικού είναι ο αριθµός των εµφανίσεων του στο κείµενο. Ε οµένως α ό κάθε κείµενο εξάγουµε ένα διάνυσµα ου χρησιµο οιείτε σαν είσοδος σε SVM αλγόριθµο. Η T. Joachms χρησιµο οίησε SVM για κατηγοριο οίηση κειµένου[.6] µε α οτέλεσµα την αύξηση της ακρίβειας. Σήµερα τα διανύσµατα υ οστήριξης µάθησης θεωρούνται state of the art λύσεις για το ρόβληµα της αναγνώρισης συγγραφέα. 9

3 Support Tensor Machnes Ό ως έχουµε αναφέρει στα ροηγούµενο κεφάλαια διάφορες ροσεγγίσεις έχουνε ροταθεί για το ρόβληµα της ταξινόµησης κειµένου και γενικότερα στην αναγνώριση συγγραφέα. Οι ερισσότεροι αλγόριθµοι, αλλά και η µέθοδος ου έχει τα καλύτερα α οτελέσµατα(svm), αίρνουν σαν εισόδους διανύσµατα. Α οτέλεσµα του αρα άνω γεγονότος είναι η ανα αράσταση του κειµένου µε διανύσµατα(vectors). Ειδικά όταν το ρόβληµα της ταξινόµησης έχει ολλά χαρακτηριστικά, ό ως συµβαίνει στο ρόβληµα της αναγνώρισης συγγραφέα, αλλά και όταν το λήθος των στιγµιότυ ων είναι αρκετά µικρό τότε το ρόβληµα της υ ερεκ αίδευσης συµβαίνει µε α οτέλεσµα την µείωση της ακρίβειας της ταξινόµησης των άγνωστων στοιχείων. Α οδεικνύεται ως η VC διάσταση ενός αλγόριθµου ταξινόµησης αυξάνεται γραµµικά µε το λήθος των αραµέτρων, το ο οίο λήθος των αραµέτρων αυξάνεται γραµµικά τουλάχιστον µε το λήθος των χαρακτηριστικών(features) [3.]. Ε ίσης γνωρίζουµε ως η διάσταση VC εκφράζει την ικανότητα του αλγορίθµου ταξινόµησης να µαθαίνει. Α ό τα αρα άνω φαίνεται µια αναγκαιότητα να µειώσουµε τον αριθµό των αραµέτρων του συστήµατος. Σε αυτό το κεφάλαιο θα εριγραφεί ο αλγόριθµος Support Tensor Machnes(STM) ο ο οίος ροτάθηκε α ό τους Deng Ca, Xaofe He, J-Rong Wen, Jawe Han και We-Yng Ma[3.]. Σε αντίθεση µε τους ερισσότερους αλγόριθµους ταξινόµησης κειµένου ου δέχονται σαν είσοδο διανύσµατα, ο αλγόριθµος STM δέχεται σαν είσοδο ένα τανυστή(tensor) ης τάξης. Αν ο n SVM δέχεται σαν είσοδο ένα διάνυσµα µε n γραµµές ( x R ) τότε ο STM n n X R R, δέχεται σαν είσοδο ένα ίνακα(τανυστή ης τάξης) της µορφής n n n ό ου ισχύει. Σύµφωνα µε την ροσέγγιση ό ου οι είσοδοι είναι διανύσµατα(svm) η συνάρτηση α όφασης είναι της µορφής T n u x+ b( u R, b R). ηλαδή υ άρχουν n+ n n+ αράµετροι για 30

να ρυθµιστούν. Αντίθετα στον αλγόριθµο STM, η συνάρτηση α όφασης είναι T n n u Xv+ b( u R, v R, b R), δηλαδή η διαδικασία της µορφής ολοκληρώνεται µε την εύρεση n n + + αραµέτρων. Παρατηρούµε ως στη ερί τωση ου χρησιµο οιούµε ίνακες σαν είσοδο έχουµε αρκετά λιγότερους αραµέτρους να ρυθµίσουµε, γεγονός ου µ ορεί να είναι αρκετά χρήσιµο ειδικά όταν το λήθος των γνωστών στιγµιότυ ων(tranng data) είναι µικρό. Ε ίσης σε ορισµένες ερι τώσεις υ άρχει κά οια λογική µε βάση την ο οία κά οιος θα ροτιµήσει STM αντί για SVM. Στο ρόβληµα της ταξινόµησης εικόνων και λόγω της δοµής της εικόνας(pxel) υ άρχει ροφανής λόγος να χρησιµο οιηθεί STM(µια εικόνα είναι ένας ης τάξης τανυστής). Ε ίσης ροφανής αντιστοιχία υ άρχει και στην κατηγοριο οίηση βίντεο αφού κάθε βίντεο θεωρείτε 3 ης τάξης τανυστής. Ο αλγόριθµος ου θα µελετηθεί αρακάτω, µ ορεί να άρει σαν είσοδο τανυστές ο οιαδή οτε τάξης. Αν η είσοδος του αλγόριθµου είναι ο n n τανυστής X ο ο οίος είναι k τάξης (.. n X R k ) τότε η συνάρτηση α όφασης γίνεται: X u l... v+ b ό ου n n n u R l R v R k b R,,...,,. Η ε έκταση του αλγορίθµου STM όταν χρησιµο οιούνται τανυστές µεγαλύτερης τάξης αρουσιάζεται στη τελευταία ενότητα αυτού του κεφαλαίου. Για τον αλγόριθµο σκό ιµο κρίνεται να τονιστούν κά οια σηµεία: Ενώ οι αραδοσιακές µέθοδοι γραµµικής ταξινόµησης ό ως ο SVM βρίσκει ένα ταξινοµητή στο χώρο n R, ο αλγόριθµος STM ταξινοµεί τα n n αντικείµενα-σηµεία στο χώρο R R. Αυτό το γεγονός µας οδηγεί στην ιδιότητα του αλγορίθµου να εξαρτάτε α ό την δοµή του τανυστή ου βαθµού, ιδιότητα ου θα εκµεταλλευτούµε στη συνέχεια της εργασίας. Ο υ ολογισµός του STM είναι αρκετά α λός. Α αιτείτε µόνο η ε ίλυση δυο ροβληµάτων βελτιστο οίησης. Για κάθε ρόβληµα βελτιστο οίησης η 3

υ ολογιστική ολυ λοκότητα ροσεγγίζει την αράσταση n, ό ου n είναι η διαστασιµότητα του χώρου κάθε ροβλήµατος. Ε ίσης υ άρχουν λίγοι αράµετροι ου ρέ ει να ρυθµιστούν µε α οτέλεσµα ο αλγόριθµος να έχει λεονέκτηµα όταν το λήθος των γνωστών στιγµιότυ ων είναι αρκετά µικρό. Η εργασία αυτή έχει ε ικεντρωθεί σε τανυστές ης τάξης. Ο αλγόριθµος καθώς και η ανάλυση του ου αρουσιάστηκαν σε αυτήν την εργασία, µ ορούν να εφαρµοστούν και σε τανυστές µεγαλύτερου βαθµού. 3. Το µοντέλο ανα αράστασης κειµένων του αλγόριθµου STM(Support Tensors Machnes) Παρα άνω είδαµε ως η µείωση των αραµέτρων ενός συστήµατος ταξινόµησης µ ορεί να αυξήσει την ακρίβεια ειδικά όταν το σύνολο των διαθέσιµων στιγµιότυ ων(tranng data) είναι µικρό. Στο αλγόριθµο ου n n X R ροτάθηκε[3.] οι είσοδοι είναι τανυστές ης τάξης( ίνακες),, ενώ η T n n u Xv+ b( u R, v R, b R). συνάρτηση α όφασης είναι της µορφής Αντίθετα σε ένα µοντέλο ανα αράστασης του κειµένου µε διανύσµατα, n ( x R ), η συνάρτηση α όφασης είναι T n u x+ b( u R, b R). Στην ερί τωση του ροβλήµατος αναγνώρισης συγγραφέα όταν χρησιµο οιούµε διανύσµατα, κάθε γραµµή του διανύσµατος εισόδου αντιστοιχεί σε µια λέξη ή σε κά οιο ngram και εριέχει τις εµφανίσεις(της λέξης ή του ngram) στο συγκεκριµένο κείµενο. Αντίθετα όταν χρησιµο οιούµε STM και συγκεκριµένα ης τάξης τανυστές, κάθε στοιχείο του ίνακα αντιστοιχεί σε µία λέξη ή σε ένα ngram. Εφόσον το λήθος των λέξεων είναι ίδιο και κατά τις δύο ερι τώσεις, τo λήθος των στοιχείων και στο διάνυσµα-στήλη του SVM( n στοιχεία) αλλά και στο ίνακα ου δέχεται σαν είσοδο ο STM( n n στοιχεία) είναι ερί ου ίδια(η διαφορά έγκειται στο γεγονός ότι µ ορεί να µην υ άρχουν φυσικοί αριθµοί n και n τέτοιοι ώστε να ισχύει n= n n ). Ε οµένως ισχύει n n n. 3

Κύριο θέµα αυτής της εργασίας α οτελεί η αραγωγή του ίνακα, ου δέχεται σαν όρισµα ο STM, α ό το διάνυσµα το ο οίο εριέχει τις εµφανίσεις των λέξεων στο κείµενο. Η αραγωγή του ίνακα µ ορεί να γίνει ολύ α λά, ό ως φαίνεται στο αρακάτω σχήµα. Ό ως θα δούµε όµως, η διάταξη των στοιχείων στο ίνακα ε ηρεάζει τον ταξινοµητή σε αντίθεση µε την διάταξη των στοιχείων στο διάνυσµα(είσοδος SVM) ου δεν ε ηρεάζει το τελικό α οτέλεσµα. Κύριος στόχος της αρούσας εργασίας είναι η εύρεση της διάταξης των στοιχείων του ίνακα ώστε να έχουµε καλύτερα α οτελέσµατα. Η ανάλυση µας σχετικά µε την διάταξη του ίνακα θα αρουσιαστεί στα ε όµενα κεφάλαια. 3 4 5 6 7 8 9 3 4 5 6 7 8 9 Σχήµα 3. 3 4 3 4 5 5 6 6 7 8 7 9 X 8 9 Το ρώτο ράγµα ου ρέ ει να καθοριστεί είναι το µέγεθος του ίνακα, δηλαδή ώς να ε ιλεγούνε οι διαστάσεις n και n του ίνακα. n n n Έχουµε ήδη αναφέρει ως ρέ ει να ισχύει η σχέση, γνωρίζουµε ως οι αράµετροι του συστήµατος έχουν λήθος n n + + και ως ρέ ει να ελαχιστο οιηθεί ο αριθµός τους. Αν υ οθέσουµε ως n n και θέλουµε να το οθετήσουµε n στοιχεία στον ίνακα ου δέχεται σαν είσοδος ο αλγόριθµος STM. Τότε α ό τα αρα άνω συµ εραίνουµε ως ρέ ει να ισχύει η αρακάτω σχέση : 33

( n ) n < n n n. Παρόλα αυτά αν το n είναι αρκετά µεγάλο, υ άρχουν αρκετά ( n, n ) ζευγάρια τιµών ου ικανο οιούν τις αρα άνω σχέσεις και τα ο οία µ ορούν να χρησιµο οιηθούν. Αυτό ου ρέ ει να ισχύει είναι τα n και n να έχουν όσο γίνεται ιο γειτονικές τιµές ώστε η αράσταση n + n να ελαχιστο οιείτε. 3. Περιγραφή αλγορίθµου STM 3.. Ορισµός του ροβλήµατος Μας δίνεται ένα σύνολο στιγµιότυ ων(tranng data) { X, y },,,..., m = ό ου X είναι το σηµείο-αντικείµενο(στην ερί τωση µας το κείµενο). Τα σηµεία αντικείµενα ανα αριστούνται στο τανυστικό n n X R R χώρο ης τάξεως( ) δηλαδή είναι ίνακες ενώ y {,} είναι η κατηγορία-κλάση ου ανήκει το αντικείµενο. Το ζητούµενο είναι η εύρεση ενός τανυστικού ταξινοµητή έτσι ώστε τα αντικείµενα-σηµεία να διαχωρίζονται βέλτιστα. Σύµφωνα µε το ροηγούµενο κεφάλαιο βέλτιστος θεωρείτε ο ταξινοµητής ου διαχωρίζει τις δύο κλάσεις θεωρώντας το µέγιστο εριθώριο(margn) ανάµεσα στα θετικά και στα αρνητικά στιγµιότυ α. 3.. Προσ αθώντας να µεγιστο οιήσουµε το εριθώριο n n ( X,..., X R R ) Ας υ οθέσουµε ως έχουµε ένα σύνολο γνωστών σηµείωναντικειµένων στο τανυστικό χώρο m και ροσ αθούµε να βρούµε ένα γραµµικό ταξινοµητή, ο ο οίος θα ταξινοµεί τα άγνωστααντικείµενα στις δύο κλάσεις. Ο γραµµικός ταξινοµητής έχει την αρακάτω µορφή 34

f X sgn u Xv b u R v R T n n ( ) = ( + ),,. Η αρα άνω σχέση µ ορεί να ξαναγραφεί χρησιµο οιώντας εσωτερικά γινόµενα ως: f X sgn X uv b u R v R T n n ( ) = ( <, >+ ),,. Ε οµένως το ρόβληµα βελτιστο οίησης στον τανυστικό χώρο µ ορεί να γίνει mn u, v, b m T uv + C ξ = s. t. y ( u T X v+ b) ξ, ξ 0, =,..., m. Στη συνέχεια µια ανακατασκευή του ροβλήµατος(κατά Lagrange)γίνεται αφού εισάγεται ένας θετικός συντελεστής Lagrange α, µ =,..., m για καθένα α ό τους εριορισµούς(ανισότητες) του ροβλήµατος. Έτσι αίρνουµε την Lagrangan αράσταση ου φαίνεται αρακάτω: T T Lp = uv + C ξ C a y ( u X v+ b) + a aξ aµ Ε ίσης ισχύει T T T T T T T uv = trace( uv vu ) = v vtrace( uu ) = v vu u µε α οτέλεσµα η Lagrangan αράσταση να γίνει T T T Lp = v vu u+ C ξ C a y ( u X v+ b) + a aξ aµ. Πρέ ει να ισχύει L p = 0 ο ότε αίρνοντας τις µερικές διαφορικές έχουµε τις συνθήκες a y X v u=, T v v 35

v= a y u X T T u u a y = 0, C a = 0, =,..., m. µ ι Α ό τις δύο ρώτες εξισώσεις αρα άνω, αρατηρούµε ως τα διανύσµατα u και v εξαρτώνται το ένα α ό το άλλο µε α οτέλεσµα να µην µ ορούν να λυθούν ανεξάρτητα. Παρακάτω εριγράφεται ένα α λός τρό ος ου ροτάθηκε α ό το [3.] για να λύσει το αρα άνω ρόβληµα βελτιστο οίησης µε εριορισµούς., 3..3 Αλγόριθµος Support Tensor Machne Το ρόβληµα βελτιστο οίησης µε αραµέτρους ου ρέ ει να ε ιλυθεί είναι το αρακάτω : mn u, v, b m T uv + C ξ = s. t. y ( u T X v+ b) ξ, ξ 0, =,..., m. () Για να ε ιλυθεί το ρόβληµα ακολουθούµε τα εξής βήµατα. Βήµα ο : Πρώτα θέτουµε µια αρχική τιµή για το διάνυσµα u. Βήµα ο : Ας υ οθέσουµε ως βελτιστο οίησης γίνεται u T β = και ως x X u. = Τότε το ρόβληµα mn u, v, b β v m + C ξ = s. t. y ( v T x + b) ξ, ξ 0, =,..., m. () 36

Ξεκάθαρα το νέο ρόβληµα βελτιστο οίησης είναι αρόµοιο µε το κανονικό SVM ρόβληµα, ου µελετήθηκε στο ροηγούµενο κεφάλαιο. Ε οµένως µ ορούµε να χρησιµο οιήσουµε τις υ ολογιστικές τεχνικές ου χρησιµο οιούµε στο ρόβληµα ε ίλυσης SVM διανύσµατος v. Βήµα 3 ο : Καθώς η τιµή του διανύσµατος v έχει βρεθεί, θέτουµε v για να βρούµε την τιµή του β = και x = X v. Ε οµένως η τιµή του διανύσµατος u µ ορεί να βρεθεί λύνοντας το αρακάτω ρόβληµα βελτιστο οίησης ου και αυτό είναι ίδιο µε το ρόβληµα ου λύνουµε στα διανύσµατα µηχανικής υ οστήριξης(svm). mn u, v, b s. t. β u m + C ξ = T y ( u x + b) ξ, ξ 0, =,..., m. (3) Βήµα 4 ο : Ε ανέλαβε τα βήµατα ο και 3 ο µέχρι τα διανύσµατα u και v να συγκλίνουν. 3..4 Α όδειξη σύγκλισης του αλγορίθµου Παρέχεται αρακάτω η α όδειξη του γεγονότος ότι τα διανύσµατα u και v συγκλίνουν κατά την ε αναλη τική διαδικασία ου γίνεται για την ε ίλυση του ροβλήµατος βελτιστο οίησης µε εριορισµούς. Για την α όδειξη χρησιµο οιείτε το αρακάτω θεώρηµα(το ο οίο αρουσιάζεται µε την α όδειξη του). Θεώρηµα : Η ε αναλη τική διαδικασία ε ίλυσης των ροβληµάτων βελτιστο οίησης () και (3) οδηγεί τη αντικειµενική αράσταση του ροβλήµατος () σε συνεχή µείωση. Α όδειξη : Η αντικειµενική αράσταση του ροβλήµατος () είναι 37

m T f ( u, v) = uv + C ξ. Ας υ οθέσουµε ως u= u0 είναι η αρχική τιµή. Χρησιµο οιώντας την τιµή του u= u0 λύνουµε το ρόβληµα βελτιστο οίησης () και έστω ότι αίρνουµε την τιµή v = v. 0 Οµοίως λύνουµε το (3) χρησιµο οιώντας τη τιµή v0 και αίρνουµε την τιµή u. = Πρέ ει να αναφερθεί ως λύνοντας το ρόβληµα βελτιστο οίησης του SVM βρίσκουµε το ολικό ελάχιστο [3.4] της αντικειµενικής συνάρτησης άντα ικανο οιώντας τους εριορισµούς. ηλαδή κάθε φορά ου λύνουµε καθένα α ό τα ροβλήµατα βελτιστο οίησης () και (3) αίρνουµε ολικό ακρότατο και συνε ώς έχουµε f ( u, v ) f ( u, v ) f ( u, v ) f ( u, v )... 0 0 0 Ε οµένως εφόσον η τιµή της αντικειµενικής συνάρτησης f ( u, v ) µετά α ό κάθε ε ίλυση των ροβληµάτων βελτιστο οίησης µειώνεται και εφόσον υ άρχει ένα κάτω όριο για την f ( u, v ),συµ εραίνουµε ως τα διανύσµατα u και v συγκλίνουν δίνοντας το κάτω όριο της. 3.3 Ε έκταση του αλγορίθµου κατάταξης STM όταν χρησιµο οιούνται Tensor µεγαλύτερης τάξεως. Ό ως έχει αναφερθεί ο αλγόριθµος STM µ ορεί να δεχτεί σαν είσοδο τανυστές µεγαλύτερων τάξεων. Σε αυτό το τµήµα του κεφαλαίου εριγράφεται η ε έκταση του αλγορίθµου STM ρος αυτήν την κατεύθυνση. Αρχικά όµως εριγράφεται η βασική θεωρία της άλγεβρας τανυστών. Μια ιο εριεκτική και λε τοµερής µελέτη των τανυστών υ άρχει στο [3.3]. 38

3.3. Τανυστική άλγεβρα (Algebra of tensors) Ένας τανυστής τάξεως k είναι µια ολυγραµµική α εικόνιση k τάξης nk του χώρου R n... R στον χώρο R δηλαδή T R R R n :... n k. Το σύνολο των τελεστών τάξεως k, το ο οίο α ό εδώ και έρα θα το k ονοµάζουµε ως T, α οτελούνε κλειστό διανυσµατικό χώρο για τις ράξεις της ρόσθεσης και του βαθµωτού ολλα λασιασµού δηλαδή ισχύουν n ό ου a R. ( at )( a,..., a ) = a( T ( a,..., a )), k ( T + T ')( a,..., a ) = T ( a,..., a ) + T '( a,..., a ), k k k k k Όταν έχουµε δύο τανυστές S T και ορίσουµε την αρακάτω α εικόνιση : T l T, τότε µ ορούµε να ως n nk+ l S T : R... R R S T ( a,..., a ) = S( a,..., a ) T ( a,..., a ). k+ l k k+ k+ l Η αράσταση S T ονοµάζεται τανυστικό γινόµενο(tensor product) ενώ άµεση συνέ εια της ολυγραµµικότητας των S και T είναι το γεγονός ότι εξαρτάτε γραµµικά α ό κάθε συντελεστή a χωριστά. Οι τανυστές ρώτης τάξης α οτελούν τα διανύσµατα- n γραµµές(covectors) στο χώρο R. Ε ίσης ισχύει T = R n n ό ου R α οτελεί n το δυαδικό χώρο του R. Αντίθετα οι τανυστές δεύτερης τάξης είναι το n n τανυστικό γινόµενο δύο τανυστών ρώτης τάξεως δηλαδή T = R R. n Ε ίσης ισχύει το θεώρηµα : Αν u,..., u α οτελούνε µια βάση στο R, n T και v,..., v α οτελεί µια βάση στο R τότε { uv j }( =,..., n, j=,..., n) n n σχηµατίζει µια βάση στο χώρο R R. Το αρα άνω θεώρηµα δείχνει ως 39

n n αρκεί να βρεις µια βάση στο R και µια βάση στο R όταν θέλεις µια βάση n n T = R R στο χώρο Υ οθέτουµε ως.,..., n e en α οτελεί µια βάση στο χώρο,..., n e en α οτελεί την δυαδική βάση του ισχύει u ( e ) = δ και v ( e ) j j j j = δ ό ου j εάν = j R και ως n R (βάση του χώρου R ). Τότε δ α οτελεί την συνάρτηση Cronecker-delta. Είναι δ j = 0 εάν j. Ε οµένως για κάθε τανυστή ης τάξεως ισχύει T = T u v n j n j j. Α ό τα αρα άνω συµ εραίνουµε ως κάθε τανυστής T ης ( n n T R R ) αντιστοιχεί σε ένα ίνακα διαστάσεων n n. τάξης n n n Για δύο διανύσµατα a= akek R, b= bl el R k= l= T ( a, b) = Tε ε ( a e, b e ) n j j k k l l j k= l= n n n = j k k j l l j k= l= Tε ( a e ) ε ( b e ) = j T a b j j T = a Tb. n ισχύει Ε ίσης αρακάτω ορίζουµε το l-γινόµενο(l-mode product) µεταξύ ενός n nk nl τανυστή T R... R και ενός διανύσµατος a R όταν ισχύει l k. 40

n l = l l+ k l l+ k l B T a,,...,,,...,,...,,,..., = Παρατηρούµε ως το l-γινόµενο µεταξύ ενός τανυστή n nk T R... R και ενός διανύσµατος a nl R είναι ένας νέος τανυστής της n n + αρακάτω µορφής B R R R R R nl nl nk........ 3.3. Αλγόριθµος STM όταν χρησιµο οιούµε τανυστές µεγαλύτερης τάξεως Προηγουµένως εριγράφηκε ο STM αλγόριθµος όταν χρησιµο οιούµε τανυστές ης τάξεως δηλαδή ίνακες. Στο κεφάλαιο αυτό εριγράφεται η ε έκταση του αλγορίθµου σε χώρους µεγαλύτερους διαστάσεων. Σε αυτή την ερί τωση το σύνολο των δεδοµένων εκ αίδευσης n n εκφράζεται ως ( T, y ), =,..., m ό ου T R... R k. ηλαδή τώρα τα σηµεία ανα αριστούνται α ό τανυστές k τάξεως. Η συνάρτηση α όφασης του αλγόριθµου STM είναι : k f ( T ) = T ( a, a,..., a ) + b a R a R a n n k nk,,..., R ό ου T ( a, a,..., a ) = T a a... a. k k,..., k k n.. n k k Ακολουθούµε την ροηγούµενη διαδικασία( κατά την εκτέλεση του αλγόριθµου STM µε τανυστές ης τάξεως) και βρίσκουµε τα k a, a,..., a ε αναλη τικά. Χρησιµο οιώντας την ανα αράσταση του l-γινοµένου η συνάρτηση α όφασης γίνεται k f ( T ) = T a a... a + b. k 4

Ε οµένως το ρόβληµα βελτιστο οίησης µε αραµέτρους γίνεται στην ερί τωση µας mn a,..., a k, bξ, m k a... a + C ξ = s. t. k ( (,,..., ) + ) ξ, y T a a a b ξ 0, =,..., m. Η αράσταση a k... a καθορίζει το τανυστικό µήκος του a k... a. k a,..., a. Για να υ ολογίσουµε το a θέτουµε κά οιες αρχικές τιµές για τα Έστω ότι είναι k β = a,..., β κ = και a t = T a a k... k. αρακάτω : Τότε το ρόβληµα βελτιστο οίησης µετασχηµατίζεται ό ως mn a, bξ, β... β κ a m + C ξ = s. t. y α t b ( + ), ξ 0, =,..., m. Τ ξ Το αρα άνω ρόβληµα αντιστοιχεί σε ένα ρόβληµα SVM ο ότε µ ορεί να λυθεί µε τους υ ολογιστικούς µεθόδους ου λύνεται το τελευταίο. 4

Όταν υ ολογιστεί το a, ακολουθούµε την ίδια διαδικασία(χρησιµο οιώντας βέβαια την τιµή του a ου βρήκαµε ροηγουµένως) για να βρούµε το Ε οµένως µε µία ε αναλη τική διαδικασία µ ορούνε να βρεθούνε όλες οι τιµές των a. a. 43

4. Τακτο οίηση στοιχείων ίνακα Με βάση τον αλγόριθµο STM ρέ ει να λυθεί το αρακάτω ρόβληµα βελτιστο οίησης µε εριορισµούς mn u, v, b m T uv + C ξ = T s. t. y ( u X v+ b) ξ, ξ 0, =,..., m. Στη εργασία αυτή ερευνήθηκε η ε ίλυση του ροβλήµατος αναγνώρισης συγγραφέα χρησιµο οιώντας την ροσέγγιση STM. Στο ρόβληµα ου µελετήθηκε, αναγνώριση συγγραφέα κειµένου α ό ένα λήθος ιθανών συγγραφέων, η ανα αράσταση του κάθε κειµένου στηρίχτηκε σε ένα σύνολο α ό 3-grams(bag of 3grams) ου εξάχθηκαν α ό κάθε κείµενο και τα ο οία α οτελούσαν την ληροφορία για κάθε κείµενο. Στο ρώτο κεφάλαιο αναφέραµε τη χρήση των 3grams σε ροβλήµατα αναγνώρισης συγγραφέα µε ενθαρρυντικά α οτελέσµατα. Α ό το σύνολο των γνωστών κειµένων εξάχθηκε το σύνολο των 3grams ενώ κρατήθηκαν αυτά ου είχαν αριθµό εµφανίσεων άνω α ό ένα όριο. Αυτό έγινε για να µειωθούν τα χαρακτηριστικά(features) του ροβλήµατος και να αντιµετω ίσουµε το ρόβληµα της υ ερ-τροφοδότησης (overfttng). Το τελευταίο ρόβληµα είναι ένας σηµαντικός αράγοντας του ροβλήµατος, ο ο οίος χρειάζεται µελέτη, αφού ο αριθµός των χαρακτηριστικών(features) είναι µεγάλος σε σύγκριση µε τον αριθµό των γνωστών στιγµιότυ ων(κειµένων). Ε οµένως ο τανυστής ης τάξης( ίνακας) ου χρησιµο οιείτε στον αλγόριθµο STM αντιστοιχεί, και δίνει την ανα αράσταση, κάθε κειµένου. Στον ίνακα X ο ο οίος αντιστοιχεί σε ένα συγκεκριµένο κείµενο, κάθε στοιχείο του ίνακα αντιστοιχεί σε ένα 3gram α ό το σύνολο των χρησιµο οιούµενων 3grams ου χρησιµο οιούνται για την ανα αράσταση 44

της ληροφορίας. ηλαδή ο ίνακας αυτός εριέχει στοιχεία ου το καθένα α ό αυτά αντιστοιχεί στο λήθος των εµφανίσεων του συγκεκριµένου 3 gram στο κείµενο ρος ένα αριθµό ου αντιστοιχεί στο µέγεθος του κειµένου..χ. Αν το στοιχείο x j του ίνακα αντι ροσω εύει το 3gram th και το λήθος των εµφανίσεων του συγκεκριµένου 3gram είναι 45 σε ένα κείµενο, τότε το στοιχείο x j του ίνακα ου αντιστοιχεί στο συγκεκριµένο κείµενο έχει τιµή 45( x j = 45). x x.......... x n x x.......... x n................................................................................ xn xn.......... xnn Σχήµα 4. Κανονικο οιήµένη συχνότητα εµφανίσεων 3gram ου αντιστοιχεί στη θέση (,) του ίνακα ανα αράστασης του κειµένου. Η συνάρτηση α όφασης του αλγόριθµου STM είναι T n n f ( u, v, b) = u Xv+ b, u R, v R, b R n n ό ου κάθε κείµενο ανα αριστάτε µε ένα ίνακα X R. Σε αναλυτική µορφή είναι: ή x.... x n v.......... f ( u, v, b) = u.... u n + b.......... xn.... x v n n n f ( u, v, b) = u v x +... + u v x +... + u v x + b. j j n n n n Παρατηρούµε ως αλλάζοντας την δοµή του ίνακα, δηλαδή ανακατανέµοντας τα στοιχεία στον ίνακα X αλλάζουµε και την δοµή της 45

συνάρτησης α όφασης και συνε ώς και την ακρίβεια του αλγορίθµου. Αυτό συµβαίνει γιατί στοιχεία ου είναι γειτονικά στον ίνακα(δηλαδή 3grams στο ρόβληµα της αναγνώρισης συγγραφέα), ε ηρεάζουν την συνάρτηση α όφασης του αλγόριθµου µε κοινά βάρη(συντελεστές) και συνε ώς αλλάζοντας την δοµή του ίνακα αλλάζουµε και την α οτελεσµατικότητα του(3grams στις ίδιες στήλες και γραµµές ε ηρεάζονται α ό τους ίδιους συντελεστές). Σε αντίθεση τα διανύσµατα υ οστήριξης µάθησης (SVM) δεν ε ηρεάζονται α ό την δοµή του διανύσµατος αφού αν αλλάξουµε την θέση των στοιχείων του διανύσµατος δεν ε ηρεάζεται η ακρίβεια του αλγορίθµου. w.. T f ( w, b) = w x+ b= [ x.... xn] + b= w x +... + wn xn + b.. wn Ό ως φαίνεται α ό την αρα άνω σχέση(συνάρτηση α όφασης SVM) αλλάζοντας την θέση των στοιχείων του διανύσµατος w δεν ε ηρεάζεται η ακρίβεια του αλγόριθµου αφού κάθε στοιχείο ( x n) 3gram, έχει ατοµικό βάρος( w n) στην συνάρτηση α όφασης., ου αντιστοιχεί σε ένα 4. Ταξινόµηση στοιχείων ίνακα Ε οµένως για να βελτιώσουµε την ακρίβεια του STM έγινε ανακατανοµή των στοιχείων του ίνακα ώστε να έχουµε καλύτερα α οτελέσµατα. Η αρακάτω µελέτη αντιστοιχεί σε ταξινόµηση µεταξύ δύο κατηγοριών για ένα ρόβληµα κατηγοριο οίησης(στο κεφ. είδαµε ως κάθε ρόβληµα ταξινόµησης ολλών κατηγοριών ανάγεται σε ρόβληµα κατηγοριο οίησης µεταξύ δύο κλάσεων) και συγκεκριµένα αναφέρεται στο ρόβληµα αναγνώρισης συγγραφέα. Κάθε συγγραφέας χρησιµο οιεί κά οια 3grams συχνότερα α ό κά οια άλλα µε α οτέλεσµα αυτά να α οτελούν ουσιαστικά την σφραγίδα του στα 46

κείµενα του. Το ρόβληµα όµως είναι να βρούµε οια 3grams µας υ οδεικνύουν την ροέλευση του κειµένου(αναγνώριση συγγραφέα) µεταξύ δυο υ οψηφίων. ηλαδή το ζητούµενο είναι η εύρεση των 3grams ου αντιστοιχούν σε ένα συγγραφέα ερισσότερο α ό ότι στον άλλο υ οψήφιο και αν είναι δυνατόν η ταξινόµηση τους ανάλογα µε την σ ουδαιότητα τους στην αναγνώριση του συγκεκριµένου συγγραφέα. Βασικός λόγος της ταξινόµησης είναι η α οµάκρυνση των 3grams, ου χαρακτηρίζουν ένα συγγραφέα α ό τον άλλο σε µεγαλύτερο βαθµό, α ό τα άλλα 3grams γεωγραφικά στη δοµή του ίνακα. Για την ταξινόµηση των 3grams ώστε να γίνει ένας διαχωρισµός τους, ανάλογα µε οιον συγγραφέα εκφράζουν ερισσότερο, χρησιµο οιήθηκε µία αράσταση βαθµονόµησης τους, έτσι ώστε τα θετικά να ανήκουν στον ένα συγγραφέα ενώ τα αρνητικά να ανήκουν στον άλλο. Η αράσταση ου χρησιµο οιήθηκε για την ταξινόµηση των 3grams φαίνεται αρακάτω. rate (3 gram ) =. f+ f+ b Η τιµή fd, d {,} εκφράζει την σχετική συχνότητα του 3gram στα κείµενα του συγγραφέα d και δίνεται α ό τον τύ ο f d = f frequency( ), sze( d) ό ου η τιµή frequency( ) αντιστοιχεί στο λήθος των εµφανίσεων 3gram στα γνωστά κείµενα(στιγµιότυ α) του συγγραφέα d ενώ η τιµή sze( d ) αντιστοιχεί στο µέγεθος των γνωστών κειµένων του συγγραφέα d. Παρέχει δηλαδή η τιµή f d ένα δείκτη του ρυθµού εµφανίσεων 3gram στα γνωστά κείµενα του συγγραφέα d. Αν η αράσταση f του rate είναι θετική τότε το 3gram <<ανήκει>> στο συγγραφέα ενώ εάν είναι αρνητική ανήκει στο συγγραφέα. Ε ίσης η α όλυτη τιµή της τιµής rate είναι ένα δείγµα κατά όσο ένα 3gram χαρακτηρίζει το αντίστοιχο συγγραφέα. Αν rate(3 gram ) > 0τότε 3gram 47

χαρακτηρίζει τον ο συγγραφέα µε βαθµό rate(3 gram ) ενώ αν rate(3 gram ) < 0 τότε 3gram χαρακτηρίζει τον ο συγγραφέα µε βαθµό rate(3 gram ). Φυσικά εκείνο ου µας ενδιαφέρει είναι ο διαχωρισµός των 3grams ου διαφέρουν κατά ολύ ως ρος τον ρυθµό εµφανίσεων τους στους δύο συγγραφείς. Παρακάτω βλέ ουµε κά οιες γραφικές αραστάσεις σχετικά µε την ε ιλογή της αραµέτρου b στη αράστασης βαθµονόµησης. Παρατηρούµε ως όταν αυξάνουµε την τιµή του b η γραφική αράσταση της συνάρτησης βαθµονόµησης γίνεται ιο οµαλή µε α οτελέσµατα την καλύτερη ταξινόµηση των 3grams. Ε ίσης όταν η τιµή του b είναι µικρή και ιδιαίτερα όταν είναι µηδέν αρουσιάζεται µια ανωµαλία στην ταξινόµηση γιατί 3grams ου εµφανίζονται λίγες φορές στον ένα συγγραφέα και καµία φορά στον άλλο α οκτούν µεγάλο βαθµό rate(3 gram ) µε α οτέλεσµα την λανθασµένη ταξινόµηση τους σαν ισχυρά 3grams ως ρος τον ένα συγγραφέα για την ταξινόµηση. Κατά τα ειράµατα ου ακολουθούν ε ιλέξαµε σαν αράµετρο την τιµή b=. Σχήµα 4. 48

Σχήµα 4.3 Σχήµα 4.4 49

Σχήµα 4.5 4. οµές ίνακα ού εξετάστηκαν Παρακάτω αρουσιάζονται οι δοµές του ίνακα, ου εριέχει τα 3grams και ο ο οίος ανα αριστάνει το κείµενο κάθε συγγραφέα, ου δοκιµάστηκαν κατά την εργασία αυτή. η οµή(vertcal) Τώρα αυτό ου α οµένει να ρυθµιστεί είναι ο τρό ος µε τον ο οίο θα δηµιουργηθεί ο ίνακας των 3grams( ου αίρνει σαν είσοδο ο STM). Ας υ οθέσουµε ως α λά συµ ληρώνουµε τον ίνακα, αρχικά γεµίζοντας την ρώτη στήλη, µετά την δεύτερη και συνεχίζοντας έτσι µε τα ταξινοµηµένα 3grams( ου έχουµε εξαγάγει α ό τα κείµενα και τα ο οία τα έχουµε ταξινοµήσει µε τον τρό ο ου εριγράφηκε στην ροηγούµενη αράγραφο). Τότε η δοµή ου δηµιουργείτε φαίνεται στα αρακάτω σχήµα, αν 50

υ οθέσουµε ως έχουµε εικοσι έντε 3grams τα ο οία τα έχουµε ταξινοµήσει µε βάση τον αριθµό τους. ηλαδή το ρώτο 3gram(αριθµός ) συναντάτε ιο συχνά στον ρώτο συγγραφέα, το δεύτερο(αριθµός ) άλι στο ρώτο συγγραφέα αλλά µε µικρότερο βαθµό και συνεχίζοντας έτσι µ ορούµε να ούµε ως το ιο χαρακτηριστικό 3gram για το δεύτερο συγγραφέα είναι το 3gram µε αριθµό 5. 6 6 7 7 3 8 3 8 3 4 9 4 9 4 5 0 5 0 5 Συγγραφέας Συγγραφέας Σχήµα 4.6 Παρατηρούµε ως ενισχύουµε την ρώτη στήλη σχετικά µε τον ρώτο συγγραφέα(αφού τα 3grams ου αναφέρονται σε αυτόν το οθετούνται ερισσότερο εκεί) ενώ αροµοίως ενισχύουµε την τελευταία στήλη του ίνακα για την ταξινόµηση του δεύτερου συγγραφέα. ηλαδή εριµένουµε ένα κείµενο ου ανήκει στον ρώτο συγγραφέα να έχει στον ίνακα στον ο οίο και εκφράζεται µεγάλες τιµές στις ρώτες στήλες. Το αντίθετο εριµένουµε α ό ένα κείµενο του δεύτερου συγγραφέα, ό ου και εριµένουµε µεγάλες τιµές στις τελευταίες στήλες του ίνακα. Όσον αφορά τη συνάρτηση α όφασης αρατηρούµε ως αν θεωρήσουµε τα στιγµιότυ α του ρώτου συγγραφέα σαν θετικά και τα στιγµιότυ α του δεύτερου συγγραφέα σαν αρνητικά τότε ροφανώς η τιµή του v ( ρώτη γραµµή του διανύσµατος v ) είναι µεγάλη και θετική ενώ η τιµή του α όλυτη τιµή. v n είναι αρνητική και µε µεγάλη f ( u, v, b) = u v x +... + u v x +... + u v x + b j j n n n n Παρατηρώντας ροσεκτικά τη συνάρτηση α όφασης του STM ου αρουσιάζεται αρα άνω συµ εραίνουµε συνολικά ως οι ρώτες γραµµές 5

του διανύσµατος στήλης v είναι θετικές και ενισχύουν τις ρώτες στήλες κάθε ίνακα-ανα αράσταση του κειµένου(οι ρώτες στήλες του ίνακα εριέχουν τα 3grams ου αναφέρονται- αρουσιάζονται στο θετικό συγγραφέα). Σε αντίθεση οι τελευταίες γραµµές του διανύσµατος στήλης v είναι αρνητικές και συµβαδίζουν µε τις τελευταίες στήλες του ίνακα ου <<ανήκουν>> στο δεύτερο συγγραφέα. Πληροφορία σχετικά µε τις γραµµές του ίνακα δεν εξάγεται αφού δεν υ άρχει κά οια λογική στη δοµή τους και συνε ώς δεν εξάγεται κά οια ληροφορία σε σχέση µε τις τιµές του διανύσµατος u. Στα ειράµατα ου θα ακολουθήσουν η δοµή θα αναφέρεται µε το κωδικό όνοµα vertcal. η οµή(dagonal) Για να αξιο οιηθούν και οι γραµµές και όχι µόνο οι στήλες εξετάστηκε και η αρακάτω δοµή η ο οία εκµεταλλεύεται το γεγονός της ταξινόµησης των 3grams ανάλογα µε το όσο σηµαντικό είναι για κάθε συγγραφέα. Εφόσον τα 3grams έχουν ταξινοµηθεί και τα σηµαντικότερα για τον ένα συγγραφέα το οθετούνται αρχικά ενώ τα 3grams ου εκφράζουν τον άλλο συγγραφέα το οθετούνται τελευταία, λογικό είναι να θέλουµε να διαχωρίσουµε τα 3grams στον ίνακα γεωµετρικά. ηλαδή τα 3grams του ενός συγγραφέα το οθετούνται άνω αριστερά ενώ τα 3grams ου εκφράζουν τον άλλο συγγραφέα το οθετούνται κάτω δεξιά. Η δοµή ου εξετάστηκε φαίνεται στο αρακάτω σχήµα. 3 6 0 5 5 9 4 9 4 8 3 8 7 7 4 6 0 3 5 Συγγραφέας Συγγραφέας Σχήµα 4.7 5

Παρατηρούµε ως τα 3grams γύρω α ό τη διαγώνια είναι σχετικά ουδέτερα. Στα ειράµατα ου θα ακολουθήσουν η δοµή θα αναφέρεται µε το κωδικό όνοµα dagonal. 3 η οµή(hlbert) Μια άλλη δοµή ου εξετάστηκε είναι η συµ λήρωση των στοιχείων του ίνακα µε την καµ ύλη Hlbert(Hbert Curve)[4.]. Η καµ ύλη Hlbert είναι µια καµ ύλη λήρως γεµίσεως του χώρου(στο αράδειγµα µας του ίνακα εισόδου του STM) η ο οία όµως το οθετεί τα στοιχεία(ταξινοµηµένα 3grams) όσο ιο γειτονικά γίνεται. Έτσι δεν χάνουµε την ληροφορία σχετικά µε την ταξινόµηση των 3grams αφού τα το οθετούµε στον ίνακα σύµφωνα µε την καµ ύλη γεµίσεως χώρου Hlbert. Σχήµα 4.8 53