«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. Δημόκριτος Τηλ.: 210-6503197, Fax: 210-6532175, {vangelis, petasis}@iit.demokritos.gr Ακαδημαϊκό Έτος: 2013 2014 Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 2013 2014
«Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας < 1 > Οι διαφάνειες αυτού του μαθήματος βασίζονται σε διαφάνειες του Δρ. Γεώργιου Παλιούρα, για τον κύκλο σεμιναρίων «Τεχνογλωσσία» V http://users.iit.demokritos.gr/~paliourg/index.shtml
WEKA Πλατφόρμα Μηχανικής Μάθησης «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας
Τι είναι το WEKA Waikato Environment for Knowledge Analysis (WEKA) Λογισμικό ανοιχτού κώδικα (GNU Public License ) με εργαλεία μηχανικής μάθησης υλοποιημένο σε JAVA Πλήρες σύνολο εργαλείων προεπεξεργασίας δεδομένων αλγορίθμων μηχανικής μάθησης, μεθόδων αξιολόγησης και γραφικό περιβάλλον Χρησιμοποιείται σε εκπαίδευση έρευνα Ίσως και σε εφαρμογές «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 3
Είσοδος στο WEKA: αρχεία ARFF @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} Αριθμητικό χαρακτηριστικό Κατηγορικό χαρακτηριστικό @data sunny,85,85,false,no sunny,80,90,true,no overcast,83,86,false,yes rainy,70,96,false,yes rainy,68,80,false,yes Παράδειγμα Τιμές χαρακτηριστικών «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 4
Κατασκευή διανυσμάτων στο Ellogon «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 5
Κατασκευή διανυσμάτων στο Ellogon «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 6
Κατασκευή διανυσμάτων στο Ellogon «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 7
Κατασκευή διανυσμάτων στο Ellogon Ορισμός του διανύσματος ΝΕΟ ΥΠΟΚΑΤΑΣΤΗΜΑ: Από την Εθνική τράπεζα της Ελλάδος ανακοινώνεται ότι από την Τετάρτη... n_p annotation «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 8
Κατασκευή διανυσμάτων στο Ellogon «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 9
Αρχική οθόνη του WEKA «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 10
WEKA Knowledge Explorer «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 11
Προεπεξεργασία δεδομένων Τα δεδομένα μπορούν να φορτωθούν από αρχεία ARFF, βάσεις SQL, ή από ένα URL Τα εργαλεία προεπεξεργασίας ονομάζονται «φίλτρα» Το WEKA έχει φίλτρα για: Επιλογή χαρακτηριστικών Διακριτοποίηση Κανονικοποίηση Δειγματοληψία δεδομένων κτλ. «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 12
Explorer: Φόρτωση ενός αρχείου ARFF «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 13
Explorer: Επιλογή φίλτρου Φίλτρο επιλογής χαρακτηριστικών Μέτρο αξιολόγησης Μέθοδος αναζήτησης «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 14
Explorer: Επιλογή φίλτρου Μέτρο αξιολόγησης Ελέγχει ένα χαρακτηριστικό κάθε φορά Μέθοδος αναζήτησης Αριθμός χαρακτηριστικών που θα επιλεγούν «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 15
Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 16
Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 17
Explorer: Κατασκευή ταξινομητή Παράμετροι κλαδέματος δέντρου Μέθοδος αξιολόγησης «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 18
Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 19
Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 20
Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 21
Explorer: Κατασκευή ταξινομητή Κ κοντινότεροι γείτονες Έχει νόημα μόνο αν K>1 «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 22
Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 23
Explorer: Κατασκευή ταξινομητή Ταξινομητής Naive Bayes Επιλογή kernel density estimators «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 24
Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 25
Δοκιμάστε το! WEKA: Αναφορές Μπορείτε να το κατεβάσετε από: http://www.cs.waikato.ac.nz/ml/weka/ Βιβλίο WEKA: I. Witten & E. Frank, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, Morgan Kaufmann, 2011 «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 26
ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ Προχωρημένες προσεγγίσεις μάθησης για εξαγωγή πληροφορίας «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας
Συνδυασμός ταξινομητών Κάθε μία από τις μεθόδους μάθησης έχει διαφορετικές ιδιότητες Ο συνδυασμός τους δίνει καλύτερα αποτελέσματα Ψηφοφορία: Εκπαιδεύουμε πολλούς ταξινομητές και διαλέγουμε την πλειοψηφική απόφαση για κάθε νέο παράδειγμα Μετά-μάθηση: Εκπαιδεύουμε έναν νέο αλγόριθμό που μαθαίνει να συνδυάζει τους άλλους (χρειάζεται επιπλέον δεδομένα εκπαίδευσης) Ειδική περίπτωση μετα-μάθησης στο Weka: Boosting «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 28
Εκμάθηση γραμματικών Οι ταξινομητές αγνοούν τη σειρά εμφάνισης των λέξεων (και των χαρακτηριστικών τους) Μπορούμε να μάθουμε κανόνες γραμματικής απευθείας, αντιμετωπίζοντας το κείμενο ως ακολουθία Οι περισσότερες μέθοδοι μαθαίνουν κανονικές γραμματικές (αυτόματα πεπερασμένων καταστάσεων) Κάποιες μέθοδοι μαθαίνουν περιορισμένες μορφές γραμματικών ανεξάρτητων από τα συμφραζόμενα «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 29
Πιθανοτικές ακολουθιακές μέθοδοι Για να χειριστούμε αβεβαιότητα, είναι χρήσιμο να συμπεριλάβουμε πιθανότητες στο μοντέλο Υπάρχουν λίγες μέθοδοι για μάθηση πιθανοτικών γραμματικών Περισσότερη δουλειά με Hidden Markov Models (ιδιαίτερα επιτυχή στην αναγνώριση φωνής) Πολύ καλά αποτελέσματα σε εξαγωγή πληροφορίας με Conditional Random Fields «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 30
Χρήση μη επισημειωμένων δεδομένων Οι μέθοδοι που είδαμε απαιτούν επίβλεψη δηλ. χειρωνακτική επισημείωση δεδομένων Αυτή είναι δύσκολη σε πολλές περιπτώσεις ιδιαίτερα για «αρνητικά» δεδομένα (π.χ. Non-NE) Υπάρχουν αρκετές νέες μέθοδοι που μαθαίνουν από ένα μικρό σύνολο επισημειωμένων δεδομένων (συνήθως θετικά) και πολλά μη επισημειωμένα (unlabelled) Σε κάποιες περιπτώσεις αλληλεπιδρούν με τον χρήστη για να του ζητήσουν να επισημειώσει κάποια σημαντικά παραδείγματα (ενεργή μάθηση) «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 31
Προχωρημένες προσεγγίσεις Η μηχανική μάθηση είναι μία πολύ δραστήρια περιοχή έρευνας, όπου παράγεται μεγάλη ποικιλία μεθόδων Αυτά τα δύο σεμινάρια ήταν μία πολύ σύντομη και εστιασμένη εισαγωγή Υπάρχουν πολλά ενδιαφέροντα μονοπάτια για όποιον θέλει να εξερευνήσει «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 32