Ενεργητική Μάθηση Με Χρήση Μηχανών ιανυσµάτων Υποστήριξης. Ανδρέας Βλάχος Πανεπιστήµιο του Εδιµβούργου



Σχετικά έγγραφα
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

: Active Learning 2017/11/12

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

HMY 795: Αναγνώριση Προτύπων

Πληροφοριακά Συστήματα Διοίκησης

Διακριτικές Συναρτήσεις

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μεθοδολογίες παρεµβολής σε DTM.

4.3. Γραµµικοί ταξινοµητές

1530 ( ) 2014,54(12),, E (, 1, X ) [4],,, α, T α, β,, T β, c, P(T β 1 T α,α, β,c) 1 1,,X X F, X E F X E X F X F E X E 1 [1-2] , 2 : X X 1 X 2 ;

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Ανάκτηση Πληροφορίας

Ζωντανό Εργαστήριο Thessaloniki Active and Healthy Ageing Living Lab Παρακολούθηση ατόμων στο σπίτι σε πραγματικό χρόνο

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

HMY 795: Αναγνώριση Προτύπων

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Γραµµικοί Ταξινοµητές

HMY 795: Αναγνώριση Προτύπων

ΈΡΕΥΝΑ ΜΕΤΑΒΛΗΤΗΣ ΓΕΙΤΟΝΙΑΣ (Variable Neighborhood Search - VNS) VNS) (Variable Neighborhood Search -

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Δειγματοληψία στην Ερευνα. Ετος

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΚΘΕΣΗ ΠΡΟΟ ΟΥ Υποψήφιος ιδάκτορας: Ιωάννης Κυριαζής

{takasu, Conditional Random Field

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

ΕΚΘΕΣΗ ΠΡΟΟ ΟΥ Υποψήφιος ιδάκτορας: Ιωάννης Κυριαζής

«Αναγνώριση και Κατάταξη Ονομάτων Οντοτήτων σε Ελληνικά Κείμενα με Χρήση Μηχανών ιανυσμάτων Υποστήριξης»

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

HMY 795: Αναγνώριση Προτύπων

Ανάκτηση Πληροφορίας

HTML Utilizing Similarities of HTML Structures in Splog Detection by Machine Learning

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Αναγνώριση Προτύπων Ι

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Επαγωγικές Μηχανές Διανυσμάτων Στήριξης και εφαρμογή σε προβλήματα ταξινόμησης

στατιστική θεωρεία της δειγµατοληψίας

HMY 795: Αναγνώριση Προτύπων

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

HMY 795: Αναγνώριση Προτύπων

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Αναγνώριση Προτύπων Ι

ΑΛΓΟΡΙΘΜΟΙ ΑΝΟΠΤΗΣΗΣ: Ο ΑΛΓΟΡΙΘΜΟΣ ΤΗΣ ΑΠΟ ΟΧΗΣ ΚΑΤΩΦΛΙΟΥ (THRESHOLD ACCEPTING)

Twitter 6. DEIM Forum 2014 A Twitter,,, Wikipedia, Explicit Semantic Analysis,

Ειδικές Επιστηµονικές Εργασίες

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Gaussian Processes Classification Combined with Semi-supervised Kernels

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

Ευφυές Σύστημα Ανάλυσης Εικόνων Μικροσκοπίου για την Ανίχνευση Παθολογικών Κυττάρων σε Εικόνες Τεστ ΠΑΠ

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά.

Ε..Ε. ΙI ΑΠΑΓΟΡΕΥΜΕΝΗΕΡΕΥΝΑ TABU SEARCH ΧΡΗΣΤΟΣ. ΤΑΡΑΝΤΙΛΗΣ MANAGEMENT SCIENCE IN PRACTICE II

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Αβεβαιότητα που εισάγεται στη μέτρηση ραδιενέργειας εδάφους από τα σφάλματα ορισμού δειγματοληψίας

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

Anomaly Detection with Neighborhood Preservation Principle

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Αυτόµατη Κατάταξη Ερωτήσεων Φυσικής Γλώσσας σε Κατηγορίες. ηµήτριος Μαυροειδής Α.Μ

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Ανάκτηση Πληροφορίας

Είδη Μεταβλητών. κλίµακα µέτρησης

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

3: A convolution-pooling layer in PS-CNN 1: Partially Shared Deep Neural Network 2.2 Partially Shared Convolutional Neural Network 2: A hidden layer o

ΜΕΘΟΔΟΣ NAIADE ΑΞΙΟΛΟΓΗΣΗ ΣΤΟ ΣΧΕΔΙΑΣΜΟ ΤΟΥ ΧΩΡΟΥ ΠΟΛΥΚΡΙΤΗΡΙΑΚΗ ΑΞΙΟΛΟΓΗΣΗ. Υπεύθυνη Μαθήματος Αναστασία Στρατηγέα Αναπλ. Καθηγ. Ε.Μ.Π.

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

2016 IEEE/ACM International Conference on Mobile Software Engineering and Systems

Πιθανοκρατικό μοντέλο

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΗΝ ΕΝΟΡΓΑΝΗ ΑΝΑΛΥΣΗ

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

«Αναγνώριση και κατάταξη ονοµάτων οντοτήτων σε ελληνικά κείµενα»

Μελέτη κατηγοριοποίησης δεδομένων με Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) και υλοποίηση εφαρμογής.

Θεματολογία. Δεδομένα και αβεβαιότητα. Αντικείμενο της Στατιστικής. Βασικές έννοιες. Δεδομένα και αβεβαιότητα. Στατιστική Ι

Transcript:

Ενεργητική Μάθηση Με Χρήση Μηχανών ιανυσµάτων Υποστήριξης Ανδρέας Βλάχος Πανεπιστήµιο του Εδιµβούργου

Εισαγωγή Τις τελευταίες δεκαετίες έχουν παρουσιασθεί διάφοροι αλγόριθµοι επιβλεπόµενης µηχανικής µάθησης (supervised machine learning), π.χ. µέγιστη εντροπία (maximum entropy), πλησιέστερου γείτονα (nearest neighbor) κ.ά. Κοινή απαίτηση τους: σύνολο εκπαίδευσης (training set). Η κατασκευή του συνόλου εκπαίδευσης είναι χρονοβόρα και ακριβή. Κοινή διαπίστωση: µεγαλύτερο σύνολο εκπαίδευσης συνεπάγεται καλύτερη απόδοση.

Εισαγωγή (συνέχεια) Η επεξεργασίας φυσικής γλώσσας (natural language processing) είναι ένα συνηθισµένο πεδίο εφαρµογής αλγορίθµων µηχανικής µάθησης. Ενδεικτικές εφαρµογές: ανίχνευση τέλους περιόδου (end-of-sentence detection), αναγνώριση ονοµαστικών οντοτήτων (named entity recognition), επιφανειακή συντακτική ανάλυση (shallow parsing) κ.ά. Υπάρχει τεράστιος όγκος γλωσσικών δεδοµένων διαθέσιµος, στην πλειοψηφία του όµως ακατέργαστος (raw data).

Εισαγωγή (συνέχεια) Η τυπική προσέγγιση στη χρήση µηχανικής µάθησης: 1. Κατασκευή ενός επισηµειωµένου σώµατος εκπαίδευσης επιλέγοντας τυχαία παραδείγµατα (random sampling). 2. Εκπαίδευση του αλγορίθµου µηχανικής µάθησης. 3. Βελτίωση της απόδοσης του µοντέλου µε διερεύνηση των διαφόρων παραµέτρων του.

Εισαγωγή (συνέχεια) Η γλώσσα είναι άπειρη. Ακόµα και µε σώµατα εκπαίδευσης µεγέθους δισεκατοµµυρίων λέξεων η προσθήκη επιπλέον παραδειγµάτων βελτιώνει την απόδοση (Banko and Brill, 2001). Η γλώσσα και τα σχετικά µε αυτή φαινόµενα ακολουθούν κατανοµή Zipf µε συνέπεια: Μεγάλος αριθµός περιπτώσεων να λείπουν από το σώµα εκπαίδευσης. Οι συνηθισµένες περιπτώσεις να επαναλλαµβάνονται χωρίς να βελτιώνουν την απόδοση.

Ενεργητική Μάθηση (Active Learning) Η κεντρική ιδέα στην ενεργητική µάθηση είναι ότι ο αλγόριθµος µηχανικής µάθησης επιλέγει τα παραδείγµατα στα οποία θα εκπαιδευθεί. Η επιλογή γίνεται µε κριτήριο την χρησιµότητα των παραδειγµάτων στον αλγόριθµο µηχανικής µάθησης. Τα οφέλη από την ενεργητκή µάθηση σε σχέση µε την τυπική προσέγγιση (τυχαία δειγµατοληψία) µετρώνται µε δύο τρόπους: Η µείωση του απαιτούµενου σώµατος εκπαίδευσης διατηρώντας την απόδοση του αλγορίθµου σταθερή. Η βελτίωση της απόδοσης του αλγοριθµού διατηρώντας σταθερό το µέγεθος του σώµατος εκπαίδευσης.

Ενεργητική Μάθηση (συνέχεια) Active_learning(annotated_corpus, raw_data, n): 1. Επιλογή ενός τυχαίου, κατά κανόνα µικρού και επισηµειωµένου σώµατος εκπαίδευσης (annotated corpus). 2. Εκπαίδευση του αλγορίθµου µηχανικής µάθησης στο επισηµειωµένο σώµα εκπαίδευσης. 3. Ο αλγόριθµος αποφαίνεται για την χρησιµότητα των ακατέργαστων δεδοµένων (raw data). 4. Τα n πιο χρήσιµα παραδείγµατα αφαιρούνται από τα ακατέργαστα δεδοµένα, επισηµειώνονται και προστίθενται στο επισηµειωµένο σώµα εκπαίδευσης. 5. Αν δεν έχουν εξαντληθεί οι διαθέσιµοι πόροι ή δεν έχει επιτευχθεί η επιθυµητή απόδοση, επιστροφή στο βήµα 2.

Μέθοδοι Ενεργητικής Μάθησης ειγµατοληψία βάσιζόµενη στην αβεβαιότητα (uncertainty based sampling, Lewis and Gale (1994), Cohn et al. (1995)): Απαιτείται ένας πιθανολογικός αλγόριθµος µηχανικής µάθησης. Επιλέγονται τα παραδείγµατα στα οποία ο αλγόριθµος παρουσιάζει τη µέγιστη αβεβαιότητα.

Μέθοδοι Ενεργητικής Μάθησης (συνέχεια) Ερώτηση από επιτροπή (query by committee, Seung et al. (1992)): Απαιτείται ένα σύνολο αλγορίθµων µηχανικής µάθησης οι οποίοι χρησιµοποιούνται παράλληλα. Επιλέγονται τα παραδείγµατα στα οποία παρουσιάζεται η µέγιστη ασυµφωνία µεταξύ τους.

Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines) Οι Μηχανές ιανυσµάτων Υποστήριξης (Μ Υ, Vapnik (1998)) είναι µια µέθοδος µηχανικής µάθησης για δυαδικά προβλήµατα ταξινόµησης. Προβάλλουν τα σηµεία του συνόλου εκπαίδευσης σε έναν χώρο περισσοτέρων διαστάσεων και βρίσκουν το υπερεπίπεδο το οποίο διαχωρίζει βέλτιστα τα σηµεία των δύο τάξεων. Τα άγνωστα σηµεία ταξινοµούνται σύµφωνα µε την πλευρά του υπερεπίπεδου στην οποία βρίσκονται. Τα διανύσµατα τα οποία ορίζουν το υπερεπίπεδο το οποίο χωρίζει τις δύο τάξεις ονοµάζονται διανύσµατα υποστήριξης (support vectors).

Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines)

Μηχανές ιανυσµάτων Υποστήριξης (συνέχεια) Η φάση της εκπαίδευσης είναι χρονοβόρα (Ω(n 2 )). Η συνάρτηση προβολής των σηµείων στο χώρο περισσοτέρων διαστάσεων ονοµάζεται συνάρτηση πυρήνας (kernel function) ή πυρήνας. Συνηθισµένοι πυρήνες: γραµµικός, πολυωνυµικός, συναρτήσεις ακτινωτής βάσης (radial basis functions). Ο πυρήνας καθορίζει τη µορφή του διαχωρίζοντος υπερεπίπεδου και συνεπώς επηρεάζει την απόδοση.

Μηχανές ιανυσµάτων Υποστήριξης (συνέχεια) Για κάθε σηµείο επιστρέφουν µια τιµή απόφασης (decision value) η οποία ανήκει στους πραγµατικούς αριθµούς. Το πρόσηµο της καθορίζει την τάξη στην οποία ανήκει και η απόλυτη τιµή την απόστασή του από το διαχωρίζον υπερεπίπεδο. Οι τιµές απόφασης που προκύπτουν εκαπιδεύοντας Μ Υ µε διαφορετικές παραµέτρους ή/και σώµα εκπαίδευσης δεν είναι συγκρίσιµες. Η τιµή απόφασης δεν εκφράζει πιθανότητα, αν και µε χρήση σιγµοειδών συναρτήσεων µπορεί να µετατραπεί (Platt (2000)).

Μηχανές ιανυσµάτων Υποστήριξης (συνέχεια) Προκειµένου να χρησιµοποιηθούν οι Μ Υ σε προβλήµατα ταξινόµησης µε περισσότερες από δύο τάξεις έχουν προταθεί δυο κατηγορίες προσεγγίσεων: Άµεσες: Εύρεση των διαχωριζόντων υπερεπιπέδων σε ένα βήµα (Vapnik (1998), Crammer and Singer (2000)). Έµµεσες: Συνδυασµός των αποτελεσµάτων ενός συνόλου δυαδικών Μ Υ: ένας-εναντίον-ενός, ένας-εναντίον-όλων (Kreßel (1999), Vapnik (1998)). Οι έµµεσες προσεγγίσεις είναι απλούστερες και υλοποιούνται ευκολότερα. Καµία από τις προσεγγίσεις δεν επιστρέφει πιθανότητες.

Ενεργητική µάθηση µε χρήση Μηχανών ιανυσµάτων Υποστήριξης Οι Μ Υ έχουν επιδείξει εντυπωσιακή απόδοση: Κατηγοριοποίηση κειµένων της Reuters (Joachims, (1998)). Αναγνώριση χειρόγραφων ψηφίων (Liu et al. (2002)). Τα οφέλη από την εφαρµογή ενεργητικής µάθησης εξαρτώνται από την αποδοση του αλγορίθµου µηχανικής µάθησης (Tong and Koller, (2000)). Οι Μ Υ σε συνδυασµό µε τη µέθοδο δειγµατοληψίας βάσιζόµενης στην αβεβαιότητα είναι ελκυστικός συνδυασµός. Εµπόδια: εν επιστρέφουν πιθανότητες και έχουν χρονοβόρα εκπαίδευση.

Ενεργητική µάθηση µε χρήση Μηχανών ιανυσµάτων Υποστήριξης Η µέθοδος δειγµατοληψίας βασιζόµενης στην αβεβαιότητα επιλέγει τα παραδείγµατα για τα οποία ο αλγόριθµος παρουσιάζει τη µέγιστη αβεβαιότητα. Οι Μ Υ δεν επιστρέφουν πιθανότητες. Οι τιµές απόφασης µπορούν να µετατραπούν σε πιθανότητες αλλά µε κόστος σε χρόνο. Μπορούν να χρησιµοποιηθούν ως µέτρο βεβαιότητας. ιαισθητικά, όσο πιο κοντά βρίσκεται το υπο εξέταση σηµείο στο διαχωρίζον υπερεπίπεδο, τόσο πιο αβέβαιη είναι η ταξινόµηση.

Αποτελέσµατα στη δυαδική ταξινόµηση Η προσέγγιση δοκιµάστηκε στο πρόβληµα της Αναγνώρισης Ονοµαστικών Οντοτήτων (Named Entity Recognition). Ταξινόµηση των λέξεων σε 4 κατηγορίες ονοµάτων και σε µη ονοµαστικές οντότητες. Επειδή οι Μ Υ είναι κατάλληλες για δυαδική ταξινόµηση, απλοποιήσαµε το πρόβληµα σε διάκριση µεταξύ ονοµαστικών οντοτήτων και µη. Τα δεδοµένα που χρησιµοποιήθηκαν είναι το αγγλικό σώµα κειµένων από το CoNLL-2003. Τα χαρακτηριστικά που χρησιµοποιήθηκαν για κάθε λέξη εξάγονται από ένα παράθυρο 5 λέξεων. Η απόδοση αξιολογείται µε το µέτρο F που υπολογίζεται µε το πρόγραµµα αξιολόγησης που παρέχεται από το CoNLL-2003.

Αποτελέσµατα στη δυαδική ταξινόµηση Χρησιµοποιήθηκαν διαφορετικοί πυρήνες και κοκκοποιήσεις (granularity). Απαιτούνται ως και 95% λιγότερα δεδοµένα σε σχέση µε την τυχαία δειγµατοληψία προκειµένου να επιτευχθεί ίδια απόδοση.

Αποτελέσµατα στη δυαδική ταξινόµηση Έγιναν πειράµατα προκειµένου να διερευνηθεί κατά πόσον οι επιλογές από Μ Υ µε διαφορετικούς πυρήνες είναι επαναχρησιµοποιήσιµες (reusability, Baldridge and Osborne (2004)).

Επέκταση στην ταξινόµηση σε περισσότερες από δύο τάξεις Η ενεργητική µάθηση µε συνδυασµό των Μ Υ και της δειγµατοληψίας βασιζόµενης στην αβεβαιότητα απέδωσε σηµαντικά οφέλη σε προβλήµατα δυαδικής ταξινόµησης. Εφαρµογή στην ταξινόµηση µε περισσότερες από δύο τάξεις. Όπως και στην περίπτωση της δυαδικής ταξινόµησης, η µετατροπή της εξόδου των Μ Υ σε πιθανότητες είναι εφικτή (Hastie and Tibshirani (1998) and Wu et al. (2004)), αλλά χρονοβόρα. Βασιστήκαµε στην προσέγγιση ένας-εναντίων-όλων. Για κάθε τάξη εκπαιδεύεται ένας ταξινοµητής Μ Υ ο οποίος διακρίνει την τάξη αυτή έναντι των υπολοίπων. Τα άγνωστα παραδείγµατα ταξινοµούνται στην τάξη µε τη µεγαλύτερη (θετική) τιµή απόφασης.

Επέκταση στην ταξινόµηση σε περισσότερες από δύο τάξεις Εξετάστηκαν διάφοροι συνδυασµοί των τιµών αποφάσεων προκειµένου να εκτιµηθεί η βεβαιότητα του ταξινοµητή για τις αποφάσεις του. Η προσέγγιση δοκιµάστηκε σε δύο προβλήµατα: Αναγνώριση Ονοµαστικών Οντοτήτων (5 τάξεις). Ρηχή συντακτική ανάλυση (shallow parsing) (22 τάξεις), δηλ. Ο χωρισµός του κειµένου σε συντακτικά σχετιζόµενες µη επικαλυπτόµενες οµάδες λέξεων. Τα δεδοµένα είναι από τα CoNLL-2000 και 2003. Και στα δύο προβλήµατα κάθε παράδειγµα ανήκει ακριβώς σε µία τάξη.

Αποτελέσµατα σε προβλήµατα µε περισσότερες από δύο τάξεις

Αποτελέσµατα σε προβλήµατα µε περισσότερες από δύο τάξεις Στην αναγνώριση ονοµαστικών οντοτήτων επιτυγχάνεται ως 85% εξοικονόµηση δεδοµένων και στη ρηχή συντακτική ανάλυση 80%. Ο µεγάλος αριθµός τάξεων είναι η αιτία που η απόδοση αρκετών τρόπων υπολογισµού της αβεβαιότητας ήταν αρκετά χειρότερη στη ρηχή συντακτική ανάλυση. Οι πιο σταθεροί και αποδοτικοί τρόποι υπολογισµού της βεβαιότητας του ταξινοµητή ήταν: Ίση µε την απόλυτη τιµή απόφασης του λιγότερο βέβαιου δυαδικού ταξινοµητή. Ίση µε τη διαφορά των τιµών αποφάσης των δυο πιο βέβαιων ταξινοµητών.

Κριτήριο τερµατισµού της ενεργητικής µάθησης Η απόδοση της ενεργητικής µάθησης υπολογίζεται µέσω προσοµοιώσεων. Τα δεδοµένα είναι όλα επισηµειωµένα και η µέγιστη απόδοση γνωστή εκ των προτέρων. Σε ρεαλιστικές συνθήκες τα παραπάνω είναι άγνωστα. Η καµπύλη της απόδοσης είναι κατά κανόνα ανοδική και κατά συνέπεια δεν αποτελεί κριτήριο τερµατισµού. Επίσης, συνήθως είναι ασύµφορο να επιδιώκεται η µέγιστη απόδοση διότι κοστίζει δυσανάλογα περισσότερο σε σχέση µε τα oφέλη.

1ο κριτήριο: Κατανοµή τάξεων Στην ενεργητικής µάθησης παρατηρήθηκε ότι η κατανοµή των κατηγοριών στις οποίες ανήκαν τα επιλεγόµενα παραδείγµατα άλλαζε αφού είχε προσεγγιστεί η µέγιστη απόδοση. ιατύπωση: Όταν ο ταξινοµητής αρχίζει να επιλέγει συστηµατικά περισσότερα παραδείγµατα από την πλειοψηφούσα τάξη η διαδικασία πρέπει να τερµατιστεί.

2ο κριτήριο: Καµπύλη βεβαιότητας Το κριτήριο τερµατισµού µε την κατανοµή των τάξεων δεν µπορεί να εφαρµοστεί σε προβλήµατα όπου δεν υπάρχει πλειοψηφούσα τάξη, όπως ρηχή συντακτική ανάλυση. Σε κάθε κύκλο ενεργητικής µάθησης παρακολουθήθηκε η βεβαιότητα µε την οποία ο ταξινοµητής Μ Υ ταξινοµούσε τα παραδείγµατα του επισηµειωµένου σώµατος και των ακατέργαστων δεδοµένων. Ως µέτρα της βεβαιότητας χρησιµοποιήθηκαν οι τιµές απόφασης, όπως και για την ενεργητική µάθηση.

2ο κριτήριο: Καµπύλη βεβαιότητας (συνέχεια) Κατά την ενεργητική µάθηση η βεβαιότητα του ταξινοµητή κορυφώνεται όταν η η καµπύλη της απόδοσης παύει να είναι απότοµη και στη συνέχεια µειώνται. Κατά την τυχαία δειγµατοληψία η καµπύλη της βεβαιότητας ακολουθεί είναι σταθερά ανοδική, όπως και η απόδοση.

2ο κριτήριο : Καµπύλη βεβαιότητας (συνέχεια) Η µείωση της βεβαιότητας του ταξινοµητή Μ Υ φαίνεται παράδοξη. Κατά την ενεργητική µάθηση αρχικά επιλέγονται τα πλέον χαρακτηριστικά παραδείγµατα. Όταν η µέγιστη απόδοση προσεγγίζεται, τα παραδείγµατα που προστίθενται δεν αλλάζουν τις αποφάσεις του ταξινοµητή, αλλά επηρεάζουν τις τιµές απόφασης. Οι τιµές απόφασεις µειώνονται επειδή τα νέα παραδείγµατα δεν είναι τόσο χαρακτηριστικά και λειτουργούν ως «θόρυβος». Στην τυχαία δειγµατοληψία αυτό δε συµβαίνει επειδή τα χαρακτηριστικά παραδείγµατα επιλέγονται µε σταθερή συχνότητα.

2ο κριτήριο : Καµπύλη βεβαιότητας (συνέχεια) Οι παρατηρήσεις για τις καµπύλες βεβαιότητες ισχύουν και στην ταξινόµηση σε περισσότερες από δύο τάξεις. Η αύξηση και η µείωση της βεβαιότητας δεν είναι πάντα µονότονη, υπάρχουν διακυµάνσεις οι οποίες δεν επηρέαζουν το µορφή της καµπύλης. Εµποδίζουν όµως τον ποσοτικό ορισµό του κριτηρίου τερµατισµού της ενεργητικής µάθησης. Ποιοτική διατύπωση: Η ενεργητική µάθηση δεν πρέπει να συνεχιστεί αφού παρατηρηθεί µια χαρακτηριστική πτώση της βεβαιότητας του ταξινοµητή.

2ο κριτήριο : Καµπύλη βεβαιότητας (συνέχεια) Πρακτικά, όταν το κριτήριο τερµατισµού ικανοποιείται προτείνεται η ανανέωση των ακατέργαστων δεδοµένων διότι η περαιτέρω επισηµείωσή των τρέχοντων είναι ασύµφορη. Σε ρεαλιστικές συνθήκες, παρακολουθώντας τις καµπύλες κατά τη διάρκεια της ενεργητικής µάθησης µπορεί να εφαρµόσει το κριτήριο τερµατισµού.

Σχετική έρευνα Ενεργητική µάθηση µε χρήση Μ Υ σε δυαδικά προβλήµατα ταξινόµσης έχει εξετασθεί από τους Tong and Koller (2000), Schohn and Cohn (2000) και Campbell et al. (2000). Η γεωµετρική δικαιολόγηση των δύο πρώτων δεν είναι εφαρµόσιµη σε µη γραµµικούς πυρήνες. Η απλότητα της δικαιολόγησης στην παρούσα εργασία επιτρέπει την επέκταση σε µη γραµµικούς πυρήνες και προβλήµατα ταξινόµησης περισσοτέρων τάξεων.

Σχετική έρευνα (συνέχεια) Οι Schohn and Cohn (2000) και Campbell et al. (2000) προτείνουν και ένα διαφορετικό κριτήριο τερµατισµού της ενεργητικής µάθησης. Το κριτήριο είναι προσανατολισµένο στην επίτευξη της µέγιστης απόδοσης παρά την εξοικονόµηση επισηµειώσεων.

Μελλοντική έρευνα ιερεύνηση διαφορετικών προσεγγίσεων στην επέκταση των Μ Υ σε προβλήµατα ταξινόµησης µε περισσότερων τάξεων. Χρησιµοποίηση εξειδικευµένων πυρήνων για προβλήµατα φυσικής γλώσσας, όπως οι συνεστραµµένοι πυρήνες (convolution kernels, Collins and Duffy (2001)). Χρήση των αυξητικών µηχανών διανυσµάτων υποστήριξης (incremental SVMs, Cauwenberghs and Poggio (2000), Ruping (2002)) για να επιταχυνθεί η διαδικασία ενεργητικής µάθησης.

Μελλοντική έρευνα (συνέχεια) Μαθηµατική εξήγηση των καµπύλων βεβαιότητας. Εφαρµοσιµότητα του κριτηρίου τερµατισµού: Πειράµατα µε δεδοµένα από προβληµατα των οποίων τα χαρακτηριστικά έχουν πραγµατικές τιµές, π.χ. κατηγοριοποίηση κειµένων µε βάρη TF-IDF. Πειράµατα µε διαφορετικές µεθόδους µηχανικής µάθησης. Πειράµατα σε πραγµατικές συνθήκες προκειµένου να επαληθευθούν οι υποθέσεις και τα αποτελέσµατα των προσοµοιώσεων.

Ερωτήσεις

Σχετικές Ιστιοσελίδες Πειραµατικά δεδοµένα: NER: http://cnts.uia.ac.be/conll2003/ner/ Chunking: http://cnts.uia.ac.be/conll2000/chunking/ Λογισµικό: SVMlight: http://svmlight.joachims.org/ LIBSVM: http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Γενικού περιεχοµένου: http://www.kernel-machines.org/

Βιβλιογραφία Baldridge, J. and Osborne, M. (2004). Active learning and the total cost of annotation. In Proceedings of EMNLP04. Banko, M. and Brill, E. (2001). Scaling to very very large corpora for natural language disambiguation. In Meeting of the Association for Computational Linguistics, pages 26 33. Campbell, C., Cristianini, N., and Smola, A. (2000). Query learning with large margin classifiers. Proceedings of ICML2000 (Stanford, CA, 2000), page 8. Cauwenberghs, G. and Poggio, T. (2000). Incremental and decremental support vector machine learning. In NIPS, pages 409 415. Cohn, D. A., Ghahramani, Z., and Jordan, M. I. (1995). Active learning with statistical methods. In Tesauro, G., d. Touretzky, and Leen, T., editors, Advances in Neural Information Processing, volume 7, pages 705 712. The MIT Press.

Βιβλιογραφία Collins, M. and Duffy, N. (2001). Convolution kernels for natural language. Advances in Neural Information Processing Systems. Crammer, K. and Singer, Y. (2001). On the algorithmic implementation of multiclass kernel based methods. Journal of Machine Learning Research, 2:265 292. Hastie, T. and Tibshirani, R. (1998). Classification by pairwise coupling. In Jordan, M. I., Kearns, M. J., and Solla, S. A., editors, Advances in Neural Information Processing Systems, volume 10. The MIT Press. Joachims, T. (1998b). Text categorization with support vector machines: learning with many relevant features. In N edellec, C. and Rouveirol, C., editors, Proceedings of ECML-98, 10th European Conference on Machine Learning, number 1398, pages 137 142, Chemnitz, DE. Springer Verlag, Heidelberg, DE.

Βιβλιογραφία Kreßel, U. (1999). Pairwise classification and support vector machines. In Sch olkopf, B., Burges, C. J. C., and Smola, A. J., editors, Advances in Kernel Methods Support Vector Learning, pages 255 268, Cambridge, MA. MIT Press. Liu, C., Nakashima, K., Sako, H., and Fujisawa, H. (2002). Handwritten digit recognition using state-of-the-art techniques. In FHR02, pages 320 325. Lewis, D. D. and Gale, W. A. (1994). A sequential algorithm for training text classifiers. In Croft, W. B. and van Rijsbergen, C. J., editors, Proceedings of SIGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval, pages 3 12, Dublin, IE. Springer Verlag, Heidelberg, DE. Platt, J. (2000). Probabilistic outputs for support vector machines and comparison to regularized likelihood methods. Ruping, S. (2002). Incremental learning with support vector machines.

Βιβλιογραφία Schohn, G. and Cohn, D. (2000). Less is more: Active learning with support vector machines. In Proc. 17th International Conf. on Machine Learning, pages 839 846. Morgan Kaufmann, San Francisco, CA. Seung, H. S., Opper, M., and Sompolinsky, H. (1992). Query by committee. In Computational learning theory, pages 287 294. Tong, S. and Koller, D. (2000). Support vector machine active learning with applications to text classification. In Langley, P., editor, Proceedings of ICML-00, 17th International Conference on Machine Learning, pages 996 1006, Stanford, US. Morgan Kaufmann Publishers, San Francisco, US. Vapnik, V. N. (1998). Statistical Learning Theory. Wiley. Wu, T.-F., Lin, C.-J., and Weng, R. C. (2004). Probability estimates for multi-class classification by pairwise coupling. In Thrun, S., Saul, L., and Scholkopf, B., editors, Advances in Neural Information Processing Systems 16. MIT Press, Cambridge, MA.