«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Σχετικά έγγραφα
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Τεχνητή Νοημοσύνη ΙΙ. Εργαστηριακή Άσκηση 6. Μουστάκας Κωνσταντίνος. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστων

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

Αποθήκες και Εξόρυξη Δεδομένων

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

Τεχνητή Νοημοσύνη ΙΙ. Εργαστηριακή Άσκηση 5. Μουστάκας Κωνσταντίνος. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστων

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 6: Δομές ευρετηρίων για αρχεία

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης - το εργαλείο WEKA

Τεχνητή Νοημοσύνη ( )

Ευφυής Προγραμματισμός

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Τμήμα Πληροφορικής & Τηλεπικοινωνιών Μεταπτυχιακό Πρόγραμμα Σπουδών Ακαδημαϊκό Έτος ΠΜΣ ΚΑΤΕΥΘΥΝΣΗ 6 η

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά.

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

µεθόδων αυτών, είναι απαραίτητη η δηµιουργία αντιπροσωπευτικού δείγµατος του Ιστού. Στόχος της εργασίας είναι η υλοποίηση και αξιολόγηση µεθόδων δειγµ

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Αλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Αποθήκες και Εξόρυξη Δεδομένων

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη01Εισαγωγή

Στοιχεία εισηγητή Ημερομηνία: 10/10/2017

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Ασκήσεις μελέτης της ενότητας «Συντακτική Ανάλυση»

Διδάσκουσα: Χάλκου Χαρά,

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Ασκήσεις μελέτης της ενότητας «Συντακτική Ανάλυση»

Κατηγοριοποίηση (Εποπτευόμενη μάθηση)

ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ME TH ΧΡΗΣΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΣΕ ΕΠΙΧΕΙΡΗΣΕΙΣ ΛΙΑΝΙΚΗΣ ΠΩΛΗΣΗΣ

Εξόρυξη Γνώσης από Δεδομένα

Αποθήκες και Εξόρυξη Δεδομένων

Επιστημογνωσία Μέρος 1ο: Αναζήτηση και αξιοποίηση βιβλιογραφίας

Ellogon: Μία Πλατφόρμα Επεξεργασίας Φυσικής Γλώσσας. Γεώργιος Πετάσης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία


Πλατφόρμα Ασύγχρονης Τηλεκπαίδευσης Moodle

Θέματα Υπολογισμού στον Πολιτισμό

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

Σχεδιασμός Βάσεων Δεδομένων

Ασκήσεις μελέτης της 19 ης διάλεξης

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Μηχανική Μάθηση: γιατί;

Τεχνητή Νοημοσύνη ΙΙ. Ενότητα : Μηχανική Μάθηση. Σγάρμπας Κυριάκος Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών

SciFY: Συνεργασία για την αξιοποίηση έρευνητικών αποτελεσμάτων με στόχο την κοινή ωφέλεια

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 5: Παραδείγματα. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΑΥΤΟΜΑΤΗ ΔΙΑΓΝΩΣΗ ΕΠΙΛΗΨΙΑΣ ΜΕ ΧΡΗΣΗ-ΑΝΑΛΥΣΗ ΗΛΕΚΡΟΕΓΚΕΦΑΛΟΓΡΑΦΗΜΑΤΟΣ

Εφαρμογές Συστημάτων Γεωγραφικών Πληροφοριών

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Προπτυχιακές και μεταπτυχιακές εργασίες Σεπτέμβριος 2008

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Το γεγονός ότι αποτελεί λογισµικό ανοικτού κώδικα το καθιστά αρκετά ευέλικτο σε συνεχείς αλλαγές και βελτιώσεις. Υπάρχει µια πληθώρα χρηστών που το χρ

Θέματα Υπολογισμού στον Πολιτισμό

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση

ΕΠΑΓΓΕΛΜΑΤΙΚΟ ΣΕΜΙΝΑΡΙΟ MARKETING & SMS MARKETING

HMY 795: Αναγνώριση Προτύπων

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Θέματα Υπολογισμού στον Πολιτισμό

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

"ΣΥΣΤΗΜΑ ΠΡΟΒΛΕΨΗΣ ΕΠΙΔΟΣΗΣ ΦΟΙΤΗΤΩΝ ΕΣΔ ΒΑΣΕΙ ΤΗΣ ΕΠΙΔΟΣΗΣ ΤΟΥΣ ΣΤΙΣ ΠΡΟΕΙΣΑΓΩΓΙΚΕΣ ΕΞΕΤΑΣΕΙΣ"

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 4: Σχεσιακός Λογισμός

Ομαδοποίηση ΙΙ (Clustering)

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

ΠΡΟΚΗΡΥΞΗ ΠΡΟΓΡΑΜΜΑΤΟΣ

ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ. ΑΝΑΦΟΡΑ ΕΡΓΑΣΙΑΣ Othello-TD Learning. Βόλτσης Βαγγέλης Α.Μ

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

«Πετυχαίνω τον στόχο μου! Βρίσκω Υποτροφία.. Πραγματοποιώ τις Σπουδές μου»

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Transcript:

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. Δημόκριτος Τηλ.: 210-6503197, Fax: 210-6532175, {vangelis, petasis}@iit.demokritos.gr Ακαδημαϊκό Έτος: 2013 2014 Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 2013 2014

«Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας < 1 > Οι διαφάνειες αυτού του μαθήματος βασίζονται σε διαφάνειες του Δρ. Γεώργιου Παλιούρα, για τον κύκλο σεμιναρίων «Τεχνογλωσσία» V http://users.iit.demokritos.gr/~paliourg/index.shtml

WEKA Πλατφόρμα Μηχανικής Μάθησης «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας

Τι είναι το WEKA Waikato Environment for Knowledge Analysis (WEKA) Λογισμικό ανοιχτού κώδικα (GNU Public License ) με εργαλεία μηχανικής μάθησης υλοποιημένο σε JAVA Πλήρες σύνολο εργαλείων προεπεξεργασίας δεδομένων αλγορίθμων μηχανικής μάθησης, μεθόδων αξιολόγησης και γραφικό περιβάλλον Χρησιμοποιείται σε εκπαίδευση έρευνα Ίσως και σε εφαρμογές «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 3

Είσοδος στο WEKA: αρχεία ARFF @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} Αριθμητικό χαρακτηριστικό Κατηγορικό χαρακτηριστικό @data sunny,85,85,false,no sunny,80,90,true,no overcast,83,86,false,yes rainy,70,96,false,yes rainy,68,80,false,yes Παράδειγμα Τιμές χαρακτηριστικών «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 4

Κατασκευή διανυσμάτων στο Ellogon «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 5

Κατασκευή διανυσμάτων στο Ellogon «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 6

Κατασκευή διανυσμάτων στο Ellogon «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 7

Κατασκευή διανυσμάτων στο Ellogon Ορισμός του διανύσματος ΝΕΟ ΥΠΟΚΑΤΑΣΤΗΜΑ: Από την Εθνική τράπεζα της Ελλάδος ανακοινώνεται ότι από την Τετάρτη... n_p annotation «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 8

Κατασκευή διανυσμάτων στο Ellogon «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 9

Αρχική οθόνη του WEKA «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 10

WEKA Knowledge Explorer «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 11

Προεπεξεργασία δεδομένων Τα δεδομένα μπορούν να φορτωθούν από αρχεία ARFF, βάσεις SQL, ή από ένα URL Τα εργαλεία προεπεξεργασίας ονομάζονται «φίλτρα» Το WEKA έχει φίλτρα για: Επιλογή χαρακτηριστικών Διακριτοποίηση Κανονικοποίηση Δειγματοληψία δεδομένων κτλ. «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 12

Explorer: Φόρτωση ενός αρχείου ARFF «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 13

Explorer: Επιλογή φίλτρου Φίλτρο επιλογής χαρακτηριστικών Μέτρο αξιολόγησης Μέθοδος αναζήτησης «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 14

Explorer: Επιλογή φίλτρου Μέτρο αξιολόγησης Ελέγχει ένα χαρακτηριστικό κάθε φορά Μέθοδος αναζήτησης Αριθμός χαρακτηριστικών που θα επιλεγούν «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 15

Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 16

Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 17

Explorer: Κατασκευή ταξινομητή Παράμετροι κλαδέματος δέντρου Μέθοδος αξιολόγησης «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 18

Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 19

Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 20

Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 21

Explorer: Κατασκευή ταξινομητή Κ κοντινότεροι γείτονες Έχει νόημα μόνο αν K>1 «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 22

Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 23

Explorer: Κατασκευή ταξινομητή Ταξινομητής Naive Bayes Επιλογή kernel density estimators «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 24

Explorer: Κατασκευή ταξινομητή «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 25

Δοκιμάστε το! WEKA: Αναφορές Μπορείτε να το κατεβάσετε από: http://www.cs.waikato.ac.nz/ml/weka/ Βιβλίο WEKA: I. Witten & E. Frank, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, Morgan Kaufmann, 2011 «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 26

ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ Προχωρημένες προσεγγίσεις μάθησης για εξαγωγή πληροφορίας «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας

Συνδυασμός ταξινομητών Κάθε μία από τις μεθόδους μάθησης έχει διαφορετικές ιδιότητες Ο συνδυασμός τους δίνει καλύτερα αποτελέσματα Ψηφοφορία: Εκπαιδεύουμε πολλούς ταξινομητές και διαλέγουμε την πλειοψηφική απόφαση για κάθε νέο παράδειγμα Μετά-μάθηση: Εκπαιδεύουμε έναν νέο αλγόριθμό που μαθαίνει να συνδυάζει τους άλλους (χρειάζεται επιπλέον δεδομένα εκπαίδευσης) Ειδική περίπτωση μετα-μάθησης στο Weka: Boosting «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 28

Εκμάθηση γραμματικών Οι ταξινομητές αγνοούν τη σειρά εμφάνισης των λέξεων (και των χαρακτηριστικών τους) Μπορούμε να μάθουμε κανόνες γραμματικής απευθείας, αντιμετωπίζοντας το κείμενο ως ακολουθία Οι περισσότερες μέθοδοι μαθαίνουν κανονικές γραμματικές (αυτόματα πεπερασμένων καταστάσεων) Κάποιες μέθοδοι μαθαίνουν περιορισμένες μορφές γραμματικών ανεξάρτητων από τα συμφραζόμενα «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 29

Πιθανοτικές ακολουθιακές μέθοδοι Για να χειριστούμε αβεβαιότητα, είναι χρήσιμο να συμπεριλάβουμε πιθανότητες στο μοντέλο Υπάρχουν λίγες μέθοδοι για μάθηση πιθανοτικών γραμματικών Περισσότερη δουλειά με Hidden Markov Models (ιδιαίτερα επιτυχή στην αναγνώριση φωνής) Πολύ καλά αποτελέσματα σε εξαγωγή πληροφορίας με Conditional Random Fields «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 30

Χρήση μη επισημειωμένων δεδομένων Οι μέθοδοι που είδαμε απαιτούν επίβλεψη δηλ. χειρωνακτική επισημείωση δεδομένων Αυτή είναι δύσκολη σε πολλές περιπτώσεις ιδιαίτερα για «αρνητικά» δεδομένα (π.χ. Non-NE) Υπάρχουν αρκετές νέες μέθοδοι που μαθαίνουν από ένα μικρό σύνολο επισημειωμένων δεδομένων (συνήθως θετικά) και πολλά μη επισημειωμένα (unlabelled) Σε κάποιες περιπτώσεις αλληλεπιδρούν με τον χρήστη για να του ζητήσουν να επισημειώσει κάποια σημαντικά παραδείγματα (ενεργή μάθηση) «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 31

Προχωρημένες προσεγγίσεις Η μηχανική μάθηση είναι μία πολύ δραστήρια περιοχή έρευνας, όπου παράγεται μεγάλη ποικιλία μεθόδων Αυτά τα δύο σεμινάρια ήταν μία πολύ σύντομη και εστιασμένη εισαγωγή Υπάρχουν πολλά ενδιαφέροντα μονοπάτια για όποιον θέλει να εξερευνήσει «Τεχνογλωσσία» VIII, Σεμινάριο 8, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 32