«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Σχετικά έγγραφα
«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Εξόρυξη Γνώσης από εδοµένα (data mining)

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (Δ.Π.Μ.Σ.)

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εξόρυξη Γνώσης από Βιολογικά εδομένα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΓΡΑΜΜΑΤΙΚΗ ΣΥΝΤΑΞΗ ΕΙΣΑΓΩΓΗ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

Απλές ασκήσεις για αρχάριους μαθητές 3

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 8 ο : Εξαγωγή πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Αναγνώριση Προτύπων Ι

Τεχνητή Νοημοσύνη ( )

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Περιβαλλοντική πληροφορική - Ευφυείς εφαρµογές

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 6: Δομές ευρετηρίων για αρχεία

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΦΡΑΣΗΣ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ ΜΟΝΑ Α ΑΥΤΟΜΑΤΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΦΥΣΙΚΩΝ ΓΛΩΣΣΩΝ

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «ΑΝΑΓΝΩΡΙΣΗ ΚΑΙ ΚΑΤΑΤΑΞΗ ΟΝΟΜΑΤΩΝ ΟΝΤΟΤΗΤΩΝ ΣΕ ΕΛΛΗΝΙΚΑ ΚΕΙΜΕΝΑ ΜΕ ΧΡΗΣΗ ΤΥΧΑΙΩΝ ΔΑΣΩΝ»

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα

Ευφυής Προγραμματισμός

Προπτυχιακές και µεταπτυχιακές εργασίες Μάρτιος 2005

ΠΡΟΚΗΡΥΞΗ ΔΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗ «ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ» ΠΡΟΣΚΛΗΣΗ ΥΠΟΒΟΛΗΣ ΥΠΟΨΗΦΙΟΤΗΤΩΝ

ヤ Διδασκαλία της Γλώσσας στις τάξεις Γ & Δ

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Πρόσεξε τα παρακάτω παραδείγματα:

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Η εξέλιξη στα συστήματα Μηχανικής Μετάφρασης

ΤΕΧΝΙΚΕΣ ΚΑΤΑΓΡΑΦΗΣ ΣΥΝΑΙΣΘΗΜΑΤΩΝ (EMOTIONS) ΑΠΟ ΤΗ ΧΡΗΣΗ ΠΟΛΥΜΕΣΙΚΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ. Ελένη Καλκοπούλου. στα πλαίσια του μαθήματος Πολυμέσα (ΓΤΠ61)

HMY 795: Αναγνώριση Προτύπων

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Υπολογιστικές μέθοδοι για την ανάλυση της πληροφορίας των εικόνων και την κατανόηση του περιεχομένου

Μεταγλωττιστές. Ενότητα 6: Λεκτική ανάλυση (Μέρος 2 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Ευφυείς Τεχνικές για Εφαρμογές Αποθετηρίων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΤΕΧΝΟΓΛΩΣΣΙΑ VIII ΛΟΓΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΔΑΣΚΟΝΤΕΣ: ΜΑΪΣΤΡΟΣ ΓΙΑΝΗΣ, ΠΑΠΑΚΙΤΣΟΣ ΕΥΑΓΓΕΛΟΣ ΑΣΚΗΣΗ: ΔΙΟΡΘΩΣΗ ΕΚΦΡΑΣΕΩΝ (Β )

HMY 795: Αναγνώριση Προτύπων

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Τα ουσιαστικά. Ενικός αριθµός Πληθυντικός αριθµός

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

HMY 795: Αναγνώριση Προτύπων

ΕΙΔΙΚΗ ΓΛΩΣΣΙΚΗ ΔΙΑΤΑΡΑΧΗ. Πολυδύναµο Καλλιθέας Φεβρουάριος 2008 Αναστασία Λαµπρινού


Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Ψηφιακή Σχεδίαση. Ενότητα: ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ No:05. Δρ. Μηνάς Δασυγένης. Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων

HMY 795: Αναγνώριση Προτύπων

ΠΡΟΚΗΡΥΞΗ ΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗ «ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ» ΠΡΟΣΚΛΗΣΗ ΥΠΟΒΟΛΗΣ ΥΠΟΨΗΦΙΟΤΗΤΩΝ

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Αλγόριθμος Ομαδοποίησης

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 3 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Τμήμα Πληροφορικής & Τηλεπικοινωνιών Μεταπτυχιακό Πρόγραμμα Σπουδών Ακαδημαϊκό Έτος ΠΜΣ ΚΑΤΕΥΘΥΝΣΗ 6 η

ΠΡΟΚΗΡΥΞΗ ΙΑΠΑΝΕΠΙΣΤΗΜΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΣΤΗ «ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ» ΠΡΟΣΚΛΗΣΗ ΥΠΟΒΟΛΗΣ ΥΠΟΨΗΦΙΟΤΗΤΩΝ

Προπτυχιακές και μεταπτυχιακές εργασίες Σεπτέμβριος 2008

Λήψη αποφάσεων κατά Bayes

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Διδάσκων : Αργύρης Καραπέτσας Καθηγητής Νευροψυχολογίας Νευρογλωσσολογίας Πανεπιστήμιο Θεσσαλίας

«ΣΥΓΧΡΟΝΑ ΕΡΓΑΛΕΙΑ, ΤΕΧΝΙΚΕΣ ΚΑΙ ΜΕΘΟΔΟΛΟΓΙΕΣ ΓΙΑ ΤΟ ΧΑΡΑΚΤΗΡΙΣΜΟ ΚΥΒΕΡΝΟΕΠΙΘΕΣΕΩΝ ΚΑΙ ΚΑΚΟΒΟΥΛΟΥ Λ ΟΓΙΣΜΙΚΟΥ»

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

Συστήματα Πληροφοριών Διοίκησης

ΠΡΑΚΤΙΚΕΣ ΜΕΤΡΗΣΗΣ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝΔΥΝΟΥ ΣΤΟ ΠΛΑΙΣΙΟ ΕΦΑΡΜΟΓΗΣ ΤΗΣ ΠΡΟΣΕΓΓΙΣΗΣ ΤΩΝ ΕΣΩΤΕΡΙΚΩΝ ΔΙΑΒΑΘΜΙΣΕΩΝ

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος

Προηγµένη ιασύνδεση µε τοπεριβάλλον

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΑΡΧΕΣ ΟΡΘΟΓΡΑΦΙΑΣ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ. E-learning. Οδηγός Σπουδών

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

γλώσσας και την πιστοποίηση ελληνομάθειας

Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. 5 ο Μάθημα. Λεωνίδας Αλεξόπουλος Λέκτορας ΕΜΠ. url:

Κεφάλαιο 2: Τυπικές γλώσσες. Νίκος Παπασπύρου, Κωστής Σαγώνας Μεταγλωττιστές Μάρτιος / 216

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Πληροφοριακά Συστήματα Διοίκησης

Περιεχόμενα ΕΝΟΤΗΤΑ I. ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Πρόλογος 15

Μοντελοποίηση Πεδίου

Γραμματική και Συντακτικό Γ Δημοτικού ανά ενότητα - Παρασκευή Αντωνίου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Transcript:

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 7: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών, Ε.Κ.Ε.Φ.Ε. Δημόκριτος Τηλ.: 21-653197, Fax: 21-6532175, {vangelis, petasis}@iit.demokritos.gr Ακαδημαϊκό Έτος: 213 214 Διεπιστημονικό-Διαπανεπιστημιακό ΠΜΣ «Τεχνογλωσσία», VIII κύκλος, 213 214

Οι διαφάνειες αυτού του μαθήματος βασίζονται σε διαφάνειες του Δρ. Γεώργιου Παλιούρα, για τον κύκλο σεμιναρίων «Τεχνογλωσσία» V http://users.iit.demokritos.gr/~paliourg/index.shtml «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας < 1 >

Εξαγωγή Πληροφορίας Γεγονός: Εξαγορές Επιχειρήσεων Αγοραστής Αγοραζόμενος Ποσοστό Έκδοση Albio Βιοκαρπέτ Πέρσικα ΑΕ 1% 4/1/1 Groupe Danone StonyField Farm 4% 4/1/1... «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 2

ΑΠΟΚΤΗΣΗ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ Για εξαγωγή πληροφορίας «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας

Γιατί μηχανική μάθηση; Η εξαγωγή πληροφορίας κάνει ευρεία χρήση γλωσσικών πόρων (λεξικών, κανόνων και γραμματικών) Στην καλύτερη περίπτωση αυτοί οι πόροι καλύπτουν μια θεματική περιοχή Συνήθως καλύπτουν ένα συγκεκριμένο σύνολο δεδομένων Πώς μπορούμε να φτιάξουμε «οικονομικά» συστήματα ΕΠ όσο το δυνατόν γενικότερης χρήσης; «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 4

Γιατί μηχανική μάθηση; «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 5

Γιατί μηχανική μάθηση; Η γλωσσικοί πόροι για ΕΠ τέτοιας κλίμακας (αλλά και μικρότερης) δεν μπορούν να φτιαχτούν με το χέρι Η απόκτηση γνώσης από δεδομένα με μηχανική μάθηση και στατιστική είναι μία πιθανή λύση «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 6

Τι (δεν) είναι απόκτηση γνώσης Δεδομένα (κείμενα) Ανάκτηση & Εξαγωγή Πληροφορίας Απόκτηση Γνώσης Πληροφορία (π.χ. στοιχεία εξαγορών επιχειρήσεων) Γνώση (π.χ. γραμματικές και λεξικά) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 7

Διαδικασία απόκτησης γνώσης Κατανόηση προβλήματος Συλλογή και διαμόρφωση δεδομένων τεχνικός κύκλος κύκλος εφαρμογής Μάθηση Παρουσίαση και αξιολόγηση αποτελεσμάτων Εφαρμογή «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 8

Ανάπτυξη Εφαρμογών ΕΠ Κείμενα Μορφολογική Ανάλυση Συντακτική Ανάλυση Σημασιολογική Ανάλυση Ανάλυση Πραγματείας Πληροφορία Μηχανική μάθηση Αναγνώριση μερών του λόγου Αναγνώριση ονομάτων οντοτήτων Αποσαφήνιση εννοιών λέξεων Επίλυση αναφορών Δημιουργία προτύπων «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 9

Παράδειγμα: Αναγνώριση ΜτΛ Κατανόηση προβλήματος 1/6/98 έως 5/6/98 Ο Δημήτρης Βουρνάς, με πολυετή προϋπηρεσία στο χώρο των Μέσων και ειδικότερα στην αγορά Μέσων, ξεκίνησε συνεργασία με την Adel/S&S έχοντας την ευθύνη για το Buying Ραδιοφώνου και Εντύπων. 1/6/98/CD έως/in 5/6/98/CD Ο/DDT Δημήτρης/NNPM Βουρνάς/NNPM,/, με/in πολυετή/jjf προϋπηρεσία/nnf στο/ddt χώρο/nnm των/ddt Μέσων/NNSN και/cc ειδικότερα/rb στην/idt αγορά/nnf Μέσων/NNSN,/, ξεκίνησε/vbd συνεργασία/nnf με/in την/ddt Adel/S&S/FW έχοντας/vbg την/ddt ευθύνη/nnf για/in το/ddt Buying/FW Ραδιοφώνου/NNPM και/cc Εντύπων/NNSM./. «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 1

Συλλογή και διαμόρφωση δεδομένων Πηγές δεδομένων: εταιρικά, δημόσια, Διαδίκτυο, κτλ. Μορφή δεδομένων: emails, ιστοσελίδες, encoding (ASCII, UNICODE, Binary), εικόνα (PDF, PS), χαρτί, κτλ. Προεπεξεργασία δεδομένων: διαχωρισμός προτάσεων, κατηγοριοποίηση λεκτικών μονάδων, διαχωρισμός προθεμάτων & καταλήξεων, κτλ. Επισημείωση δεδομένων: χειρωνακτική επισημείωση μερών του λόγου σε κάθε λεκτική μονάδα Εξαγωγή παραδειγμάτων: μετατροπή των δεδομένων σε μορφή πίνακα (διανύσματα χαρακτηριστικών) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 11

Επισημείωση δεδομένων 1/6/98/CD έως/in 5/6/98/CD Ο/DDT Δημήτρης/NNPM Βουρνάς/NNPM,/, με/in πολυετή/jjf προϋπηρεσία/nnf στο/ddt χώρο/nnm των/ddt Μέσων/NNSN και/cc ειδικότερα/rb στην/idt αγορά/nnf Μέσων/NNSN,/, ξεκίνησε/vbd συνεργασία/nnf με/in την/ddt Adel/S&S/FW έχοντας/vbg την/ddt ευθύνη/nnf για/in το/ddt Buying/FW Ραδιοφώνου/NNPM και/cc Εντύπων/NNSM./. DDT: Οριστικό άρθρο, ΙDT: Αόριστο άρθρο, NNM: Ουσιαστικό, ενικός, αρσενικό, NNF: Ουσιαστικό, ενικός, θηλυκό,, NNSM: Ουσιαστικό, πληθυντικός, αρσενικό,..., JJM: Επίθετο, ενικός, αρσενικό,, CD: Απόλυτα αριθμητικά,, VB: Ρήμα παροντικού χρόνου,, VBG: Μετοχή ενεργητικής φωνής,, ΙΝ: Πρόθεση,, FW: Ξένη λέξη «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 12

Εξαγωγή παραδειγμάτων Επιλογή χαρακτηριστικών: Μορφολογία: κατάληξη, πρόθεμα Συμφραζόμενα: 3 λεκτικές μονάδες πριν/μετά, τύπος λεκτικών μονάδων πριν/μετά Κατηγορία: Μέρος του λόγου & γένος, πρόσωπο, πτώση Παράδειγμα:... και ειδικότερα στην αγορά Μέσων, ξεκίνησε... (ά? και GLW ειδικότερα GLW στην GLW Μέσων GFW, PUNC ξεκίνησε GLW NNF) GLW: Ελληνικοί πεζοί χαρακτήρες, GFW: Ελληνικοί χαρακτήρες, ο πρώτος κεφαλαίος και οι υπόλοιποι πεζοί,, PUNC: Σημείο στίξης,... «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 13

Παράδειγμα: Αναγνώριση Οντοτήτων Κατανόηση προβλήματος H Γιούλη Πιερράκου ανέλαβε καθήκοντα Media Manager στην Tempo Optimum προερχόμενη από την The Media Corp. Ο Βαγγέλης Κατσαΐτης, Brand Manager στην Β.Σ. Καρούλιας για το ουίσκι Cutty Sark, αποχώρησε από την εταιρεία. H <PER Γιούλη Πιερράκου> ανέλαβε καθήκοντα Media Manager στην <ORG Tempo Optimum> προερχόμενη από την <ORG The Media Corp>. Ο <PER Βαγγέλης Κατσαΐτης>, Brand Manager στην <ORG Β.Σ. Καρούλιας> για το ουίσκι Cutty Sark, αποχώρησε από την εταιρεία. «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 14

Εξαγωγή παραδειγμάτων Επιλογή χαρακτηριστικών: Μέρος του λόγου, ετικέτα από κατάλογο ονομάτων Σημαντικές λεκτικές μονάδες: 2 πρώτες και 2 τελευταίες της οντότητας, προηγούμενη και επόμενη Κατηγορία: Οργανισμός, Πρόσωπο, Μη-ονοματική οντότητα Παράδειγμα:... στην <ORG Tempo Optimum> προερχόμενη... (DDT NOGAZ FW ORG FW NOGAZ FW ORG FW NOGAZ VBP NOGAZ ORG) DDT: Οριστικό άρθρο,, VBP: Μετοχή παθητικής φωνής,, FW: Ξένη λέξη ORG: στον κατάλογο οργανισμών, NOGAZ: σε κανένα κατάλογο «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 15

Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση) Μέρη του λόγου CC JJR POS VB CD MD PPS VBD COM MA NN PRP VBG DATE NNP RB VBN DT NNPS RBR VBP EX NNS RP VBZ IN PDT SYM WDT JJ PERI OD TO WP Κατάλογοι cdg current_unit date govern_key location org_base org_key org person title 1 1 Διάνυσμα μήκους Npos Διάνυσμα μήκους Ngz «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 16

Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση) Λ.Μ. Φράση ΜτΛ Κατάλογος Λ.Μ. 1 Λ.Μ. 2 Λ.Μ. m 1 1 1 1 1 6 3 1 1 Διάνυσμα μήκους Npos +Ngz 1 1 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 17

Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση) Φράση με συμφραζόμενα Προηγούμενα Φράση Επόμενα 2 1 6 3 1 1 2 2 1 6 3 1 1 2 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 18

Παράδειγμα: Αποσαφήνιση εννοιών Κατανόηση προβλήματος Τα πτωτικά, που συνοδεύονται από προθέσεις, μπαίνουν κανονικά σε πτώση αιτιατική. Η πρόθεση σε παθαίνει ανακοπή μπροστά από το τ των άρθρων Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια. Παρακαλώ εκφράστε γραπτά την πρόθεσή σας να συμμετάσχετε. Τα πτωτικά, που συνοδεύονται από προθέσεις/1, μπαίνουν κανονικά σε πτώση αιτιατική. Η πρόθεση/1 σε παθαίνει ανακοπή μπροστά από το τ των άρθρων Η κυβέρνηση εξέφρασε την πρόθεση/2 να μειώσει τα επιτόκια. Παρακαλώ εκφράστε γραπτά την πρόθεσή/2 σας να συμμετάσχετε. «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 19

Εξαγωγή παραδειγμάτων Επιλογή χαρακτηριστικών: Πρώτο ρήμα πριν και μετά την λέξη Πρώτο ουσιαστικό πριν και μετά τη λέξη Δύο προηγούμενες και δύο επόμενες λεκτικές μονάδες Κατηγορία: η έννοια της λέξης, σύμφωνα με κάποιο λεξικό Παράδειγμα: Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια. (εκφράζω μειώνω κυβέρνηση επιτόκιο εξέφρασε την να μειώσει έννοια2) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 2

Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση) Επιλογή χαρακτηριστικών: Κάθε λέξη που εμφανίζεται στο κείμενο αντιστοιχεί σε ένα δυαδικό χαρακτηριστικό, δηλ. υπάρχει ή δεν υπάρχει η λέξη στα συμφραζόμενα (bag-of-words) Κατηγορία: η έννοια της λέξης, σύμφωνα με κάποιο λεξικό Παράδειγμα: Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια. κυβέρν πτωτικ εξέφρ μειώσ ανακοπ παθαίν επιτόκ έννοια 1 1 1 1 2 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 21

Εξαγωγή παραδειγμάτων (εναλλ. αναπαράσταση) Επιλογή χαρακτηριστικών: Κάθε λέξη που εμφανίζεται στο κείμενο σε ένα χαρακτηριστικό Η τιμή του χαρακτηριστικού είναι συνάρτηση της απόστασης του από την αμφίσημη λέξη Κατηγορία: η έννοια της λέξης, σύμφωνα με κάποιο λεξικό Παράδειγμα: Η κυβέρνηση εξέφρασε την πρόθεση να μειώσει τα επιτόκια. κυβέρν πτωτικ εξέφρ μειώσ ανακοπ παθαίν επιτόκ έννοια 3? 2 2?? 4 2 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 22

ΕΙΔΗ ΚΑΙ ΤΕΧΝΙΚΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ Η μηχανική μάθηση ως διαδικασία αναζήτησης Κατηγορίες τεχνικών μηχανικής μάθησης Τρεις τεχνικές μηχανικής μάθησης: κατασκευή δέντρων απόφασης, naive Bayesian ταξινομητής, ταξινομητής βασισμένος στην απομνημόνευση Αξιολόγηση μεθόδων μηχανικής μάθησης «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας

Μηχανική μάθηση ως αναζήτηση Στόχος: απόκτηση λειτουργικής και κατανοητής στον άνθρωπο γνώσης από περιορισμένο σύνολο δεδομένων Προσέγγιση: αναζήτηση στον χώρο των γενικευμένων μοντέλων για τα δεδομένα Πρόβλημα: εκθετικός χώρος αναζήτησης Λύση: ευριστικές μέθοδοι αναζήτησης «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 24

Μηχανική μάθηση ως αναζήτηση Αρχική κατάσταση: το κενό μοντέλο (πιο γενικό) ή τα δεδομένα (πιο ειδικό) Τελεστές: εξειδίκευσης ή γενίκευσης Ευριστικά: κάλυψη των δεδομένων και απλότητα/γενικότητα του μοντέλου Στόχος: εύρεση ενός καλού μοντέλου σε πολυωνυμικό χρόνο «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 25

Μηχανική μάθηση ως αναζήτηση πιο γενικό μοντέλο εξειδίκευση ένα καλό μοντέλο πιο ειδικό μοντέλο γενίκευση «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 26

Είδη και τεχνικές μάθησης Υπό επίβλεψη Κατηγοριοποίηση (classification) decision trees & rules, multi-layer perceptrons, logistic regression Πρόβλεψη (prediction) regression trees, multi-layer perceptrons, time-series analysis Χωρίς επίβλεψη Ομαδοποίηση (clustering) conceptual clustering, self-organising maps, statistical clustering Συσχέτιση (associations) association rules, association networks «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 27

Προσεγγίσεις μοντελοποίησης Συμβολικές Δέντρα Αποφάσεων Κανόνες Αποφάσεων NNM ORG POS1 DDT GAZ1 NE PER NOGAZ POS-1 NNF 2 NNM NNF DDT ΝE NON-NE NON-NE NE NON-NE 1 2 1 1 1 (GAZ1:ORG) & (POS1:NNM) -> (NE) (GAZ1:NOGAZ) & (POS-1:DDT) -> (NE)... Αριθμητικές/Στατιστικές Νευρωνικά δίκτυα Στατιστικοί ταξινομητές NE NN GAZ1:ORG NE NON-NE G1P G1O G1N P1M P1D P1F P-1M P-1D P-1F GAZ1:PER «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 28

Δέντρα Αποφάσεων POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE 3 2 3 3 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 29

Δέντρα Αποφάσεων POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE 1 1 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 3

Δέντρα Αποφάσεων POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE 1 1 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 31

Δέντρα Αποφάσεων NNM POS1 ORG GAZ1 NE PER NOGAZ POS-1 DDT NNF 2 NNM NNF DDT ΝE NON-NE NON-NE NE NON-NE 1 2 1 1 1 POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF NOGAZ DDT NOGAZ? «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 32

Δέντρα Αποφάσεων Χώρος αναζήτησης: Δέντρα απόφασης Αρχική κατάσταση: Πιο γενικό μοντέλο (κενό δέντρο) Τελεστής αναζήτησης: Εξειδίκευση μέσω επιλογής χαρακτηριστικών (information gain ή gain ratio) Αποφυγή απομνημόνευσης μέσω κλαδέματος του δέντρου: Κατά την μάθηση (minnumobjects) Μετά την μάθηση (confidence) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 33

Naive Bayesian ταξινομητής POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 34

Naive Bayesian ταξινομητής POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 35

Naive Bayesian ταξινομητής POS1:NNF NE = 1/4 =.25 POS1:NNF NON-NE = 2/4 =.5 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 36

Naive Bayesian ταξινομητής POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 37

Naive Bayesian ταξινομητής POS1:NNF NE = 1/4 =.25 POS1:NNF NON-NE = 2/4 =.5 POS1:NNM NE = 2/4 =.5 POS1:NNM NON-NE = 1/4 =.25 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 38

Naive Bayesian ταξινομητής POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 39

Naive Bayesian ταξινομητής POS1:NNF NE = 1/4 =.25 POS1:NNF NON-NE = 2/4 =.5 POS1:NNM NE = 2/4 =.5 POS1:NNM NON-NE = 1/4 =.25 POS1:DDT NE = 1/4 =.25 POS1:DDT NON-NE = 1/4 =.25 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 4

Naive Bayesian ταξινομητής NE POS1:NNF.25 POS1:NNM.5 POS1:DDT.25 GAZ1:PER.5 GAZ1:ORG.25 GAZ1:NOGAZ.25 POS-1:NNF.25 POS-1:NNM.25 POS-1:DDT.5 GAZ-1:PER.25 GAZ-1:ORG GAZ-1:NOGAZ.75 NON-NE POS1:NNF.5 POS1:NNM.25 POS1:DDT.25 GAZ1:PER GAZ1:ORG.5 GAZ1:NOGAZ.5 POS-1:NNF.5 POS-1:NNM.25 POS-1:DDT.25 GAZ-1:PER.25 GAZ-1:ORG.25 GAZ-1:NOGAZ.5 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 41

Naive Bayesian ταξινομητής NE: NON-NE: POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF NOGAZ DDT NOGAZ? NE.25.25.5.75.23.5.5.25.5.16 «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 42

Naive Bayesian ταξινομητής Προσέγγιση: υπολογισμός συσχέτισης κάθε τιμής χαρακτηριστικού με κάθε κατηγορία Ταξινόμηση: Απλοϊκός (naive) συνδυασμός τιμών συσχέτισης των επιμέρους τιμών χαρακτηριστικών Επιλογή της κατηγορίας με τη μέγιστη πιθανότητα «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 43

Ταξινόμηση μέσω απομνημόνευσης 1 3 4 1 1 3 2 3 POS1 GAZ1 POS-1 GAZ-1 Απόφαση NNF PER DDT NOGAZ NE NNM PER NNM NOGAZ NE NNM ORG NNF PER NE DDT NOGAZ DDT NOGAZ NE NNF ORG DDT NOGAZ NON-NE NNF ORG NNF PER NON-NE DDT NOGAZ NNF NOGAZ NON-NE NNM NOGAZ NNM ORG NON-NE NNF NOGAZ DDT NOGAZ? NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 44

Ταξινόμηση μέσω απομνημόνευσης NE NE NE NON-NE? NON-NE NE NE NON-NE NON-NE NON-NE «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 45

Ταξινόμηση μέσω απομνημόνευσης Lazy learning: Μην κάνεις τίποτα μέχρι να χρειαστεί να πάρεις απόφαση Προβλήματα: Καθυστέρηση κατά τη λήψη αποφάσεων Μεγάλες απαιτήσεις σε μνήμη Βελτιώσεις: Ζύγιση χαρακτηριστικών με βάση την απόσταση Ζύγιση γειτόνων με βάση κάποιο μέτρο αξιολόγησης (π.χ. information gain) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 46

Αξιολόγηση μεθόδων μάθησης Μέθοδος 1: Αξιολόγηση στα κείμενα εκπαίδευσης Πρόβλημα: Επιβραβεύει την απομνημόνευση Μέθοδος 2: Χωρισμός του σύνολο δεδομένων, που έχουν επισημειώσει οι ειδικοί σε δεδομένα εκπαίδευσης και δεδομένα αξιολόγησης Προβλήματα: Επάρκεια των δεδομένων χωρίς επιπλέον βάρος στους ειδικούς Σχετικό μέγεθος των δύο συνόλων Διαχωρισμός των δύο συνόλων (τυχαιότητα των αποτελεσμάτων) «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 47

Αξιολόγηση μεθόδων μάθησης Μέθοδος 3: n-fold cross validation. Train Test «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 48

Αξιολόγηση μεθόδων μάθησης Μέθοδος 3: n-fold cross validation. Train Test «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 49

Αξιολόγηση μεθόδων μάθησης Μέθοδος 3: n-fold cross validation. Train Test «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 5

Αξιολόγηση μεθόδων μάθησης Μέθοδος 3: n-fold cross validation. Test Train «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 51

Αξιολόγηση μεθόδων μάθησης Μέθοδος 3: n-fold cross validation. «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 52

Αξιολόγηση μεθόδων μάθησης Μέτρα αξιολόγησης: Ανάκληση (Recall) = Ακρίβεια (Precision) = Σωστές απαντήσεις συστήματος Συνολικές σωστές απαντήσεις Σωστές απαντήσεις συστήματος Συνολικές απαντήσεις συστήματος «Τεχνογλωσσία» VIII, Σεμινάριο 7, Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας 53