Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Σχετικά έγγραφα
Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Opinion Mining and Sentiment analysis

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Αρµεναντζόγλου Νίκος ΜΕΤ εµενεοπούλου Κατερίνα ΑΜ:1596 Μαρκετάκης Γιάννης MET

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Μαθηματική Λογική και Λογικός Προγραμματισμός

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

µια λειτουργική προσέγγιση στην απεικόνιση του χάρτη σηµασιολογία και και σύνταξη των των χαρτογραφικών σηµάτων

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Ζητήματα ηήμ με τα δεδομένα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Τεχνητή Νοημοσύνη ( )

Ασυμπτωτικός Συμβολισμός

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εννοιολογική Ομοιογένεια

Κωνσταντίνος Π. Χρήστου

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

ΠΕΡΙ ΦΥΣΗΣ ΚΑΙ ΜΑΘΗΣΗΣ ΤΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΕΝΝΟΙΩΝ. Μαρία Καλδρυμίδου

Διάλεξη 04: Παραδείγματα Ανάλυσης

Ανάκτηση Πληροφορίας

Κατασκευή βάσης δεδομένων ελληνικών ακρωνυμίων σε ελληνικά νομικά κείμενα

Εξόρυξη γνώσης από Blogs: Εφαρμογές στο πεδίο της εξόρυξης ψυχικής διάθεσης

Γεωργία Ε. Αντωνέλου Επιστημονικό Προσωπικό ΕΕΥΕΜ Μαθηματικός, Msc.

Αλγόριθμος Ομαδοποίησης

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Συστήματα Γνώσης. Θεωρητικό Κομμάτι Μαθήματος Ενότητα 2: Βασικές Αρχές Αναπαράστασης Γνώσης και Συλλογιστικής

ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων

Ανάλυση αλγορίθμων. Χρόνος εκτέλεσης: Αναμενόμενη περίπτωση. - απαιτεί γνώση της κατανομής εισόδου

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΠΙΣΤΗΜΕΣ ΛΟΓΟΥ ΚΑΙ ΑΚΟΗΣ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

Δομές Δεδομένων. Ενότητα 1 - Εισαγωγή. Χρήστος Γκουμόπουλος. Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων

Μάθημα: Δ3. Δίκτυα Γνώσης και Σημασιολογικός Ιστός. Διάλεξη 01 & 02. Δρ. Γεώργιος Χρ. Μακρής

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 3 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

Περιεχόμενα. Εισαγωγή του επιμελητή, Γιάννης Σταματίου 15 Πρόλογος 17 Εισαγωγή 23. Μέρος I. ΕΠΑΝΑΛΗΠΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΚΑΙ ΑΝΑΛΛΟΙΩΤΕΣ ΣΥΝΘΗΚΕΣ

Μάθημα: Δ3. Δίκτυα Γνώσης και Σημασιολογικός Ιστός. Διάλεξη 02 & 03. Δρ. Γεώργιος Χρ. Μακρής

A systematic study of the universal properties and of the structure of cartographical language is still at an elementary stage. The fundamental basis

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πεδί α

Υπολογιστική Πολυπλοκότητα

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα.

Για την εξέταση των Αρχαίων Ελληνικών ως μαθήματος Προσανατολισμού, ισχύουν τα εξής:

ΣΤΡΑΤΗΓΙΚΕΣ ΑΝΑΓΝΩΣΗΣ & ΠΑΡΑΓΩΓΗΣ ΛΟΓΟΥ Το Διαδικαστικό Μοντέλο

z = c 1 x 1 + c 2 x c n x n

Ασυμπτωτικός Συμβολισμός

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Τεχνικές Προβλέψεων. Προβλέψεις

ΝΕΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΕΝΔΕΙΚΤΙΚΟΣ ΕΤΗΣΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Α ΤΑΞΗ ΓΥΜΝΑΣΙΟΥ

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

Σχεδιασµός Ανάπτυξη Οντολογίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ασυμπτωτικός Συμβολισμός

Το µαθηµατικό µοντέλο του Υδρονοµέα

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης

Διαχείριση, Δημοσίευση και Διάθεση Ανοικτών Εκπαιδευτικών Πόρων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

ΓΛΩΣΣΙΚΟΙ ΠΟΡΟΙ & ΤΕΧΝΟΛΟΓΙΕΣ:

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Ι

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

Επαγωγικός Λογικός Προγραμματισμός και Aσαφείς Λογικές Περιγραφής

Αναγνώριση Προτύπων Ι

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ ΕΡΕΥΝΑ ΚΑΙ ΜΕΘΟΔΟΛΟΓΙΑ

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Πληροφοριακά Συστήματα Διοίκησης

Περιεχόμενα. Περιεχόμενα

Παραδείγματα Γραμμικοί Μετασχηματισμοί

Transcript:

Τίμος Κουλουμπής Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Αντικείμενο Εργασίας Εισαγωγή στην Αυτόματη Κατηγοριοποίηση Κειμένου Μεθοδολογίες Συγκριτική Αποτίμηση Συμπεράσματα - Προτάσεις

Εκτίμηση της άποψης που εκφράζει ένα κείμενο για συγκεκριμένες οντότητες με χρήση τεχνικών Μηχανικής Μάθησης και εξαγωγής πληροφορίας για τον εντοπισμό οντοτήτων. Στόχοι Βελτίωση της αποτελεσματικότητας του ταξινομητή άποψης. Εκτίμηση άποψης για πιο συγκεκριμένα θέματα.

Μεγάλος όγκος διαθέσιμης πληροφορίας Προσβάσιμη σε μεγάλο αριθμό χρηστών παγκοσμίως Έλλειψη καλά δομημένων κειμένων Δυσκολία εντοπισμού της κατάλληλης πληροφορίας Ανάγκη οργάνωσης των πληροφοριών σε κατηγορίες

Κύριες Μονάδες ΑΚΚ: Συλλογή/Αναπαράσταση Δεδομένων Δημιουργία Ταξινομητή Κειμένου

Στόχοι της ΚΒΑ είναι ο προσδιορισμός: της υποκειμενικότητας (αντικειμενικό/υποκειμενικό) του προσανατολισμού άποψης (θετικό/αρνητικό) της έντασης του προσανατολισμού (πολύ, λίγο θετικό/αρνητικό)

Αυτόματη αναγνώριση της άποψης που εκφράζεται στο διαδίκτυο για κάποιο προϊόν, πρόσωπο, πολιτικό γεγονός κ.ά. Κατηγοριοποίηση κειμένων σε θετικά, αρνητικά και ουδέτερα. (π.χ. κριτικές ταινιών)

Άντληση πληροφορίας από ηλεκτρονικά κείμεναμέσω ερωτημάτων σε μηχανές αναζήτησης Ιστολόγια(blogs), ιστοσελίδες, ηλ. συνεδριάσεις(forums) Αυτόματη εξαγωγή των χρήσιμων χαρακτηριστικών του κειμένου και δημιουργία μοντέλων ταξινομητών Θεωρούμε τρείς κατηγορίες για τον ταξινομητή άποψης θετική, αρνητική, ουδέτερη Αυτόματη εξαγωγή πληροφορίας για την δημιουργία θεματικής οντολογίας με στόχο την εύρεση οντοτήτων Αντιστοίχηση άποψης σε οντότητες

Σύνολο χαρακτηριστικών { w } W =,..., 1 w m Διανυσματική αναπαράσταση κειμένου: ( ) n t = 1 r t = n t 1,..., n m ( ( ) ( t) ) όπου i αν το εμφανίζεται στο κείμενο, αλλιώς n ( t ) = 0 t W i i Είδη χαρακτηριστικών Λεκτικές μονάδες (unigrams, bigrams) Θέματα λέξεων (stems)

Αλγόριθμος ταξινόμησης(classifier) Διανυσματική αναπαράσταση του χώρου του προβλήματος Επιλογή των διανυσμάτων υποστήριξης, που συνορεύουν με στιγμιότυπα άλλων κλάσεων Υπολογισμός συνάρτησης διάκρισης ώστε να επιτυγχάνεται βέλτιστος διαχωρισμός Μέθοδοι Πυρήνων(kernel methods): Γραμμικός, Πολυωνυμικός, RBF(radial basis function)

Υλοποιήσαμε τέσσερις ταξινομητές: Επίπεδο Κειμένου Ιστοσελίδων Ταινιών Δύο κλάσεις (yes,no) αναφορά σε ταινία ή όχι Ιστοσελίδων Κριτικής Δύο κλάσεις (yes,no) κριτική ταινίας ή όχι Επίπεδο Πρότασης Υποκειμενικότητας Δύο κλασεις (s,o) υποκειμενική ή αντικειμενική Άποψης Δύο κλάσεις (p,n) θετική ή αρνητική

Ιστοσελίδων Ταινιών Ιστοσελίδων Κριτικών Υποκειμενικότητας Άποψης Βάση με έγγραφα(πηγαίος κώδικας σελίδων) που συλλέχτηκαν από forum και blog και αναφέρονται σε κινηματογραφικές ταινίες Ερωτήματα σε μηχανή αναζήτησης: π.χ movie + film, movie torrent Αφαίρεση των ετικετών Html, JavaScript κτλ. Εξαγωγή λεκτικών μονάδων (unigrams, bigrams) 632 ιδιότητες Δυαδική αναπαράσταση εγγράφων Εκπαίδευση γραμμικού SVM ταξινομητή με 1000 παραδείγματα (urls) συνολικά, 500 για κάθε κλάση 10πλή σταυρωτή επικύρωση Ορθότητα : 84.4%

Ιστοσελίδων Ταινιών Ιστοσελίδων Κριτικών Υποκειμενικότητας Άποψης Βάση με έγγραφα(πηγαίος κώδικας σελίδων) που συλλέχτηκαν από forum και blog και αναφέρονται σε κριτικές ταινιών Ερωτήματα σε μηχανή αναζήτησης: π.χ movie review, tv series review Αφαίρεση των ετικετών Html, JavaScript κτλ. Εξαγωγή λεκτικών μονάδων (unigrams, bigrams) 866 ιδιότητες και δυαδική αναπαράσταση εγγράφων Εκπαίδευση γραμμικού SVM ταξινομητή με 1000 παραδείγματα (urls) συνολικά, 500 για κάθε κλάση Ορθότητα 10πλή σταυρωτή επικύρωση 83.7% Ανεξάρτητα πειράματα ελέγχου(100 παραδείγματα) 72% Απαλοιφή του ταξινομητή ταινιών ειδικά ερωτήματα σε μηχανή αναζήτησης, ομοιότητα στην κλάση no

Ιστοσελίδων Ταινιών Ιστοσελίδων Κριτικών Υποκειμενικότητας Άποψης Βάση υποκειμενικών και αντικειμενικών προτάσεων Pang και Lee [PL04] Διαχωριστής Προτάσεων(σημεία στίξης) Εκπαίδευση SVM ταξινομητή με 10.000 παραδείγματα (προτάσεις) συνολικά, 5.000 για κάθε κλάση Εξαγωγή λεκτικών μονάδων (unigrams, bigrams) 540 ιδιότητες και δυαδική αναπαράσταση εγγράφων 10πλή σταυρωτή επικύρωση Ορθότητα Γραμμικός πυρήνας : 69% RBF πυρήνας : 73,9% Μεγάλη ανάκληση στην κλάση ο(81,4%), μικρή στην κλάση s(69%)! Μικρός αριθμός ιδιοτήτων και μη αντιπροσωπευτικός για την s κλάση

Ιστοσελίδων Ταινιών Ιστοσελίδων Κριτικών Υποκειμενικότητας Άποψης Βάση θετικών και αρνητικών προτάσεων των Pang και Lee[PL04] Εκπαίδευση SVM ταξινομητή με 2.000 παραδείγματασυνολικά, 1.000 για κάθε κλάση Εξαγωγή λεκτικών μονάδων (unigrams, bigrams) 1064 ιδιότητες και δυαδική αναπαράσταση εγγράφων 10πλή σταυρωτή επικύρωση Ορθότητα Γραμμικός πυρήνας : 61% RBF πυρήνας : 69% Συνένωση των δύο ταξινομητών υποκειμενικότητας & άποψης σε ταξινομητή άποψης (επίπεδο πρότασης) με τρείς κλάσεις : θετική(p),αρνητική(n),ουδέτερη(n) Χαμηλή ορθότητα ταξ.άποψης, υψηλή ανάκληση κλάσης o

Ιστοσελίδων Κριτικών Άποψης Βάση Pang και Lee [PL04] και βάση θετικών και αρνητικών προτάσεων από σχόλια χρηστών του ιστότοπου IMDB. Τρείς κλάσεις κατηγοριοποίησης(p,n,n) Εκπαίδευση SVM ταξινομητή με 15.000 παραδείγματα συνολικά, 5.000 για κάθε κλάση 1279 ιδιότητες Ταξινομη τής 10πλή σταυρωτή επικύρωση Υποκ/τας Ορθότητα Άποψης σε επίπεδο πρότασης 10πλή σταυρωτή επικύρωση 75% Ανεξάρτητα πειράματα ελέγχου (50 έγγραφα/163 προτάσεις) 83,4% Άποψης σε επίπεδο κειμένου

Υλοποιήσαμε ένα συνδυαστικό μοντέλο για την εκτίμηση της άποψης γύρω από οντότητες του κειμένου. Στατιστικές μετρήσεις σε σχόλια χρηστών του ιστότοπου IMDB συχνές(κοινές) εκφράσεις εξειδικευμένων λέξεων Οντολογία κοινών αναγνωριστικών(tags) κινηματογραφικών ταινιών (βιβλ. Folksonomy) πχ movie~flick, αctor~star, plot~story, visual~special effects κτλ. Οντολογία εξαγώμενη από τον ιστότοπο IMDB [...]<MovieInfo> <Title>Rambo</Title> <Genre>Action</Genre> <SoundTrack>Tiny</SoundTrack> <Writer>Art Monterastelli</Writer> <Actor> <Name>Sylvester Stallone</Name> <NickName>John Rambo</NickName>[...]

Παρατηρήσαμε πως σε επίπεδο πρότασης δύσκολα εμφανίζονται δύο διαφορετικές οντότητες. Αντιστοίχιση άποψης πρότασης στις οντότητα(ες) που αυτή περιέχει. π.χ [P] I tip my hat to Stallonefor making yet another highly entertaining film. **Η παραπάνω πρόταση έχει χαρακτηριστεί [P] θετική από τον ταξινομητή άποψης και συνεπώς θετική για τις οντότητες Stallone, film.

Αποτελέσματα πειραμάτων (163 προτάσεων) για οντότητες: Οντότητες Σύνολο εμφανίσεων Πραγματική Άποψη(Κλάση) Προβλεφθείσα Άποψη(Κλάση) P N n P N n Movie 1002 226 211 565 196 193 613 Director 56 9 8 36 7 8 38 Writer 9 3 0 6 4 0 5 Cast 45 12 14 19 10 12 23 Filming Company 2 1 1 0 0 1 1 Plot 130 33 25 72 29 24 77 Special Effects 20 7 3 10 5 3 12

Ταξινομητές Αριθμός Ιδιοτήτων Στιγμιότυπα Εκπαίδευσης 10πλή σταυρωτή επικύρωση Ανεξάρτητα παραδείγματα ελέγχου Ταινίας 633 914 84,4% - Κριτικής 937 892 83,7% 72% Υποκειμενικότητας 540 4896 73,1% - Άποψης(Αρχικός) 1064 2000 69% - Άποψης(Τελικός) 1279 15662 75% 83,4%

Διχασμός άποψης: Okay, I'm really ashamed of it, but I enjoyed it. I mean, I admit it's a really awfulmovie...the ninth floor of hell...the plot is such a mess that it's terrible. But I lovedit. Εναλλακτικοί εκφραστικοί τρόποι (ειρωνεία, ιδιωματισμοί, μεταφορές) If you think this laptop is a great deal, I ve got a nice bridge you might be interested in. Διαφορετική σημασιολογική απόχρωση μιας λέξης ανάλογα με τα συμφραζόμενα unpredictable plot vs. unpredictable behavior

Κριτικές ταινιών Ικανοποιητικά αποτελέσματα Δυσκολία στην εύρεση κατάλληλων ιδιοτήτων Φίλτρο Υποκειμενικών Προτάσεων Βελτίωση αποτελεσματικότητας του ταξινομητή άποψης Χαμηλές τιμές ορθότητας στην κλάση s (subjective) Άποψη για Οντότητες Αποτελεσματικό συνδυαστικό μοντέλο Αποτυχία σε προτάσεις με αντιφατικό νόημα Χρήσιμη η γλωσσολογική ανάλυση των κειμένων