«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 7: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. Δημόκριτος Τηλ.: 21-653197, Fax: 21-6532175, {vangelis, petasis}@iit.demokritos.gr Ακαδημαϊκό Έτος: 213 214 Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 213 214
Οι διαφάνειες αυτού του μαθήματος βασίζονται σε διαφάνειες του Δρ. Γεώργιου Παλιούρα, για τον κύκλο σεμιναρίων «Τεχνογλωσσία» V http://users.iit.demokritos.gr/~paliourg/index.shtml «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας < 1 >
Εξαγωγή Πληροφορίας Γεγονός: Εξαγορές Επιχειρήσεων Αγοραστής Αγοραζόμενος Ποσοστό Έκδοση Albio Βιοκαρπέτ Πέρσικα ΑΕ 1% 4/1/1 Groupe Danone StonyField Farm 4% 4/1/1... «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 2
ΑΠΟΚΤΗΣΗ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ Για εξαγωγή πληροφορίας «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας
Γιατί μηχανική μάθηση; Η εξαγωγή πληροφορίας κάνει ευρεία χρήση γλωσσικών πόρων (λεξικών, κανόνων και γραμματικών) Στην καλύτερη περίπτωση αυτοί οι πόροι καλύπτουν μια θεματική περιοχή Συνήθως καλύπτουν ένα συγκεκριμένο σύνολο δεδομένων Πώς μπορούμε να φτιάξουμε «οικονομικά» συστήματα ΕΠ όσο το δυνατόν γενικότερης χρήσης; «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 4
Γιατί μηχανική μάθηση; «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 5
Γιατί μηχανική μάθηση; Η γλωσσικοί πόροι για ΕΠ τέτοιας κλίμακας (αλλά και μικρότερης) δεν μπορούν να φτιαχτούν με το χέρι Η απόκτηση γνώσης από δεδομένα με μηχανική μάθηση και στατιστική είναι μία πιθανή λύση «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 6
Τι (δεν) είναι απόκτηση γνώσης Δεδομένα (κείμενα) Ανάκτηση & Εξαγωγή Πληροφορίας Απόκτηση Γνώσης Πληροφορία (π.χ. στοιχεία εξαγορών επιχειρήσεων) Γνώση (π.χ. γραμματικές και λεξικά) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 7
Διαδικασία απόκτησης γνώσης Κατανόηση προβλήματος Συλλογή και διαμόρφωση δεδομένων τεχνικός κύκλος κύκλος εφαρμογής Μάθηση Παρουσίαση και αξιολόγηση αποτελεσμάτων Εφαρμογή «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 8
Ανάπτυξη Εφαρμογών ΕΠ Κείμενα Μορφολογική Ανάλυση Συντακτική Ανάλυση Σημασιολογική Ανάλυση Ανάλυση Πραγματείας Πληροφορία Μηχανική μάθηση Αναγνώριση μερών του λόγου Αναγνώριση ονομάτων οντοτήτων Αποσαφήνιση εννοιών λέξεων Επίλυση αναφορών Δημιουργία προτύπων «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 9
Παράδειγμα: Αναγνώριση ΜτΛ Κατανόηση προβλήματος 1/6/98 έως 5/6/98 Ο Δημήτρης Βουρνάς, με πολυετή προϋπηρεσία στο χώρο των Μέσων και ειδικότερα στην αγορά Μέσων, ξεκίνησε συνεργασία με την Adel/S&S έχοντας την ευθύνη για το Buying Ραδιοφώνου και Εντύπων. 1/6/98/CD έως/in 5/6/98/CD Ο/DDT Δημήτρης/NNPM Βουρνάς/NNPM,/, με/in πολυετή/jjf προϋπηρεσία/nnf στο/ddt χώρο/nnm των/ddt Μέσων/NNSN και/cc ειδικότερα/rb στην/idt αγορά/nnf Μέσων/NNSN,/, ξεκίνησε/vbd συνεργασία/nnf με/in την/ddt Adel/S&S/FW έχοντας/vbg την/ddt ευθύνη/nnf για/in το/ddt Buying/FW Ραδιοφώνου/NNPM και/cc Εντύπων/NNSM./. «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 1
Συλλογή και διαμόρφωση δεδομένων Πηγές δεδομένων: εταιρικά, δημόσια, Διαδίκτυο, κτλ. Μορφή δεδομένων: emails, ιστοσελίδες, encoding (ASCII, UNICODE, Binary), εικόνα (PDF, PS), χαρτί, κτλ. Προεπεξεργασία δεδομένων: διαχωρισμός προτάσεων, κατηγοριοποίηση λεκτικών μονάδων, διαχωρισμός προθεμάτων & καταλήξεων, κτλ. Επισημείωση δεδομένων: χειρωνακτική επισημείωση μερών του λόγου σε κάθε λεκτική μονάδα Εξαγωγή παραδειγμάτων: μετατροπή των δεδομένων σε μορφή πίνακα (διανύσματα χαρακτηριστικών) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 11
Επισημείωση δεδομένων 1/6/98/CD έως/in 5/6/98/CD Ο/DDT Δημήτρης/NNPM Βουρνάς/NNPM,/, με/in πολυετή/jjf προϋπηρεσία/nnf στο/ddt χώρο/nnm των/ddt Μέσων/NNSN και/cc ειδικότερα/rb στην/idt αγορά/nnf Μέσων/NNSN,/, ξεκίνησε/vbd συνεργασία/nnf με/in την/ddt Adel/S&S/FW έχοντας/vbg την/ddt ευθύνη/nnf για/in το/ddt Buying/FW Ραδιοφώνου/NNPM και/cc Εντύπων/NNSM./. DDT: Οριστικό άρθρο, ΙDT: Αόριστο άρθρο, NNM: Ουσιαστικό, ενικός, αρσενικό, NNF: Ουσιαστικό, ενικός, θηλυκό,, NNSM: Ουσιαστικό, πληθυντικός, αρσενικό,..., JJM: Επίθετο, ενικός, αρσενικό,, CD: Απόλυτα αριθμητικά,, VB: Ρήμα παροντικού χρόνου,, VBG: Μετοχή ενεργητικής φωνής,, ΙΝ: Πρόθεση,, FW: Ξένη λέξη «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 12
Εξαγωγή παραδειγμάτων Επιλογή χαρακτηριστικών: Μορφολογία: κατάληξη, πρόθεμα Συμφραζόμενα: 3 λεκτικές μονάδες πριν/μετά, τύπος λεκτικών μονάδων πριν/μετά Κατηγορία: Μέρος του λόγου & γένος, πρόσωπο, πτώση Παράδειγμα:... και ειδικότερα στην αγορά Μέσων, ξεκίνησε... (ά? και GLW ειδικότερα GLW στην GLW Μέσων GFW, PUNC ξεκίνησε GLW NNF) GLW: Ελληνικοί πεζοί χαρακτήρες, GFW: Ελληνικοί χαρακτήρες, ο πρώτος κεφαλαίος και οι υπόλοιποι πεζοί,, PUNC: Σημείο στίξης,... «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 13
Παράδειγμα: Αναγνώριση Οντοτήτων Κατανόηση προβλήματος H Γιούλη Πιερράκου ανέλαβε καθήκοντα Media Manager στην Tempo Optimum προερχόμενη από την The Media Corp. Ο Βαγγέλης Κατσαΐτης, Brand Manager στην Β.Σ. Καρούλιας για το ουίσκι Cutty Sark, αποχώρησε από την εταιρεία. H <PER Γιούλη Πιερράκου> ανέλαβε καθήκοντα Media Manager στην <ORG Tempo Optimum> προερχόμενη από την <ORG The Media Corp>. Ο <PER Βαγγέλης Κατσαΐτης>, Brand Manager στην <ORG Β.Σ. Καρούλιας> για το ουίσκι Cutty Sark, αποχώρησε από την εταιρεία. «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 14
Εξαγωγή παραδειγμάτων Επιλογή χαρακτηριστικών: Μέρος του λόγου, ετικέτα από κατάλογο ονομάτων Σημαντικές λεκτικές μονάδες: 2 πρώτες και 2 τελευταίες της οντότητας, προηγούμενη και επόμενη Κατηγορία: Οργανισμός, Πρόσωπο, Μη-ονοματική οντότητα Παράδειγμα:... στην <ORG Tempo Optimum> προερχόμενη... (DDT NOGAZ FW ORG FW NOGAZ FW ORG FW NOGAZ VBP NOGAZ ORG) DDT: Οριστικό άρθρο,, VBP: Μετοχή παθητικής φωνής,, FW: Ξένη λέξη ORG: στον κατάλογο οργανισμών, NOGAZ: σε κανένα κατάλογο «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 15
Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση) Μέρη του λόγου CC JJR POS VB CD MD PPS VBD COM MA NN PRP VBG DATE NNP RB VBN DT NNPS RBR VBP EX NNS RP VBZ IN PDT SYM WDT JJ PERI OD TO WP Κατάλογοι cdg current_unit date govern_key location org_base org_key org person title 1 1 Διάνυσμα μήκους Npos Διάνυσμα μήκους Ngz «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 16
Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση) Λ.Μ. Φράση ΜτΛ Κατάλογος Λ.Μ. 1 Λ.Μ. 2 Λ.Μ. m 1 1 1 1 1 6 3 1 1 Διάνυσμα μήκους Npos +Ngz 1 1 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 17
Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση) Φράση με συμφραζόμενα Προηγούμενα Φράση Επόμενα 2 1 6 3 1 1 2 2 1 6 3 1 1 2 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 18
Παράδειγμα: Αποσαφήνιση εννοιών Κατανόηση προβλήματος Τα πτωτικά, που συνοδεύονται από προθέσεις, μπαίνουν κανονικά σε πτώση αιτιατική. Η πρόθεση σε παθαίνει ανακοπή μπροστά από το τ των άρθρων Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια. Παρακαλώ εκφράστε γραπτά την πρόθεσή σας να συμμετάσχετε. Τα πτωτικά, που συνοδεύονται από προθέσεις/1, μπαίνουν κανονικά σε πτώση αιτιατική. Η πρόθεση/1 σε παθαίνει ανακοπή μπροστά από το τ των άρθρων Η κυβέρνηση εξέφρασε την πρόθεση/2 να μειώσει τα επιτόκια. Παρακαλώ εκφράστε γραπτά την πρόθεσή/2 σας να συμμετάσχετε. «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 19
Εξαγωγή παραδειγμάτων Επιλογή χαρακτηριστικών: Πρώτο ρήμα πριν και μετά την λέξη Πρώτο ουσιαστικό πριν και μετά τη λέξη Δύο προηγούμενες και δύο επόμενες λεκτικές μονάδες Κατηγορία: η έννοια της λέξης, σύμφωνα με κάποιο λεξικό Παράδειγμα: Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια. (εκφράζω μειώνω κυβέρνηση επιτόκιο εξέφρασε την να μειώσει έννοια2) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 2
Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση) Επιλογή χαρακτηριστικών: Κάθε λέξη που εμφανίζεται στο κείμενο αντιστοιχεί σε ένα δυαδικό χαρακτηριστικό, δηλ. υπάρχει ή δεν υπάρχει η λέξη στα συμφραζόμενα (bag-of-words) Κατηγορία: η έννοια της λέξης, σύμφωνα με κάποιο λεξικό Παράδειγμα: Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια. κυβέρν πτωτικ εξέφρ μειώσ ανακοπ παθαίν επιτόκ έννοια 1 1 1 1 2 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 21
Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση) Επιλογή χαρακτηριστικών: Κάθε λέξη που εμφανίζεται στο κείμενο σε ένα χαρακτηριστικό Η τιμή του χαρακτηριστικού είναι συνάρτηση της απόστασης του από την αμφίσημη λέξη Κατηγορία: η έννοια της λέξης, σύμφωνα με κάποιο λεξικό Παράδειγμα: Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια. κυβέρν πτωτικ εξέφρ μειώσ ανακοπ παθαίν επιτόκ έννοια 3? 2 2?? 4 2 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 22
ΕΙΔΗ ΚΑΙ ΤΕΧΝΙΚΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ Η μηχανική μάθηση ως διαδικασία αναζήτησης Κατηγορίες τεχνικών μηχανικής μάθησης Τρεις τεχνικές μηχανικής μάθησης: κατασκευή δέντρων απόφασης, naive Bayesian ταξινομητής, ταξινομητής βασισμένος στην απομνημόνευση Αξιολόγηση μεθόδων μηχανικής μάθησης «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας
Μηχανική μάθηση ως αναζήτηση Στόχος: απόκτηση λειτουργικής και κατανοητής στον άνθρωπο γνώσης από περιορισμένο σύνολο δεδομένων Προσέγγιση: αναζήτηση στον χώρο των γενικευμένων μοντέλων για τα δεδομένα Πρόβλημα: εκθετικός χώρος αναζήτησης Λύση: ευριστικές μέθοδοι αναζήτησης «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 24
Μηχανική μάθηση ως αναζήτηση Αρχική κατάσταση: το κενό μοντέλο (πιο γενικό) ή τα δεδομένα (πιο ειδικό) Τελεστές: εξειδίκευσης ή γενίκευσης Ευριστικά: κάλυψη των δεδομένων και απλότητα/γενικότητα του μοντέλου Στόχος: εύρεση ενός καλού μοντέλου σε πολυωνυμικό χρόνο «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 25
Μηχανική μάθηση ως αναζήτηση πιο γενικό μοντέλο εξειδίκευση ένα καλό μοντέλο πιο ειδικό μοντέλο γενίκευση «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 26
Είδη και τεχνικές μάθησης Υπό επίβλεψη Κατηγοριοποίηση (classification) decision trees & rules, multi-layer perceptrons, logistic regression Πρόβλεψη (prediction) regression trees, multi-layer perceptrons, time-series analysis Χωρίς επίβλεψη Ομαδοποίηση (clustering) conceptual clustering, self-organising maps, statistical clustering Συσχέτιση (associations) association rules, association networks «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 27
Προσεγγίσεις μοντελοποίησης Συμβολικές Δέντρα Αποφάσεων Κανόνες Αποφάσεων NNM ORG POS1 DDT GAZ1 NE PER NOGAZ POS-1 NNF 2 NNM NNF DDT ΝE NON-NE NON-NE NE NON-NE 1 2 1 1 1 (GAZ1:ORG) & (POS1:NNM) -> (NE) (GAZ1:NOGAZ) & (POS-1:DDT) -> (NE)... Αριθμητικές/Στατιστικές Νευρωνικά δίκτυα Στατιστικοί ταξινομητές NE NN GAZ1:ORG NE NON-NE G1P G1O G1N P1M P1D P1F P-1M P-1D P-1F GAZ1:PER «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 28
Δέντρα Αποφάσεων POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE 3 2 3 3 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 29
Δέντρα Αποφάσεων POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE 1 1 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 3
Δέντρα Αποφάσεων POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE 1 1 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 31
Δέντρα Αποφάσεων NNM POS1 ORG GAZ1 NE PER NOGAZ POS-1 DDT NNF 2 NNM NNF DDT ΝE NON-NE NON-NE NE NON-NE 1 2 1 1 1 POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF NOGAZ DDT NOGAZ? «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 32
Δέντρα Αποφάσεων Χώρος αναζήτησης: Δέντρα απόφασης Αρχική κατάσταση: Πιο γενικό μοντέλο (κενό δέντρο) Τελεστής αναζήτησης: Εξειδίκευση μέσω επιλογής χαρακτηριστικών (information gain ή gain ratio) Αποφυγή απομνημόνευσης μέσω κλαδέματος του δέντρου: Κατά την μάθηση (minnumobjects) Μετά την μάθηση (confidence) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 33
Naive Bayesian ταξινομητής POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 34
Naive Bayesian ταξινομητής POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 35
Naive Bayesian ταξινομητής POS1:NNF NE = 1/4 =.25 POS1:NNF NON-NE = 2/4 =.5 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 36
Naive Bayesian ταξινομητής POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 37
Naive Bayesian ταξινομητής POS1:NNF NE = 1/4 =.25 POS1:NNF NON-NE = 2/4 =.5 POS1:NNM NE = 2/4 =.5 POS1:NNM NON-NE = 1/4 =.25 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 38
Naive Bayesian ταξινομητής POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 39
Naive Bayesian ταξινομητής POS1:NNF NE = 1/4 =.25 POS1:NNF NON-NE = 2/4 =.5 POS1:NNM NE = 2/4 =.5 POS1:NNM NON-NE = 1/4 =.25 POS1:DDT NE = 1/4 =.25 POS1:DDT NON-NE = 1/4 =.25 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 4
Naive Bayesian ταξινομητής NE POS1:NNF.25 POS1:NNM.5 POS1:DDT.25 GAZ1:PER.5 GAZ1:ORG.25 GAZ1:NOGAZ.25 POS-1:NNF.25 POS-1:NNM.25 POS-1:DDT.5 GAZ-1:PER.25 GAZ-1:ORG GAZ-1:NOGAZ.75 NON-NE POS1:NNF.5 POS1:NNM.25 POS1:DDT.25 GAZ1:PER GAZ1:ORG.5 GAZ1:NOGAZ.5 POS-1:NNF.5 POS-1:NNM.25 POS-1:DDT.25 GAZ-1:PER.25 GAZ-1:ORG.25 GAZ-1:NOGAZ.5 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 41
Naive Bayesian ταξινομητής NE: NON-NE: POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF NOGAZ DDT NOGAZ? NE.25.25.5.75.23.5.5.25.5.16 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 42
Naive Bayesian ταξινομητής Προσέγγιση: υπολογισμός συσχέτισης κάθε τιμής χαρακτηριστικού με κάθε κατηγορία Ταξινόμηση: Απλοϊκός (naive) συνδυασμός τιμών συσχέτισης των επιμέρους τιμών χαρακτηριστικών Επιλογή της κατηγορίας με τη μέγιστη πιθανότητα «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 43
Ταξινόμηση μέσω απομνημόνευσης 1 3 4 1 1 3 2 3 POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE NNF NOGAZ DDT NOGAZ? NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 44
Ταξινόμηση μέσω απομνημόνευσης NE NE NE NON-NE? NON-NE NE NE NON-NE NON-NE NON-NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 45
Ταξινόμηση μέσω απομνημόνευσης Lazy learning: Μην κάνεις τίποτα μέχρι να χρειαστεί να πάρεις απόφαση Προβλήματα: Καθυστέρηση κατά τη λήψη αποφάσεων Μεγάλες απαιτήσεις σε μνήμη Βελτιώσεις: Ζύγιση χαρακτηριστικών με βάση την απόσταση Ζύγιση γειτόνων με βάση κάποιο μέτρο αξιολόγησης (π.χ. information gain) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 46
Αξιολόγηση μεθόδων μάθησης Μέθοδος 1: Αξιολόγηση στα κείμενα εκπαίδευσης Πρόβλημα: Επιβραβεύει την απομνημόνευση Μέθοδος 2: Χωρισμός του σύνολο δεδομένων, που έχουν επισημειώσει οι ειδικοί σε δεδομένα εκπαίδευσης και δεδομένα αξιολόγησης Προβλήματα: Επάρκεια των δεδομένων χωρίς επιπλέον βάρος στους ειδικούς Σχετικό μέγεθος των δύο συνόλων Διαχωρισμός των δύο συνόλων (τυχαιότητα των αποτελεσμάτων) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 47
Αξιολόγηση μεθόδων μάθησης Μέθοδος 3: n-fold cross validation. Train Test «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 48
Αξιολόγηση μεθόδων μάθησης Μέθοδος 3: n-fold cross validation. Train Test «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 49
Αξιολόγηση μεθόδων μάθησης Μέθοδος 3: n-fold cross validation. Train Test «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 5
Αξιολόγηση μεθόδων μάθησης Μέθοδος 3: n-fold cross validation. Test Train «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 51
Αξιολόγηση μεθόδων μάθησης Μέθοδος 3: n-fold cross validation. «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 52
Αξιολόγηση μεθόδων μάθησης Μέτρα αξιολόγησης: Ανάκληση (Recall) = Ακρίβεια (Precision) = Σωστές απαντήσεις συστήματος Συνολικές σωστές απαντήσεις Σωστές απαντήσεις συστήματος Συνολικές απαντήσεις συστήματος «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 53