Τίμος Κουλουμπής Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου
Αντικείμενο Εργασίας Εισαγωγή στην Αυτόματη Κατηγοριοποίηση Κειμένου Μεθοδολογίες Συγκριτική Αποτίμηση Συμπεράσματα - Προτάσεις
Εκτίμηση της άποψης που εκφράζει ένα κείμενο για συγκεκριμένες οντότητες με χρήση τεχνικών Μηχανικής Μάθησης και εξαγωγής πληροφορίας για τον εντοπισμό οντοτήτων. Στόχοι Βελτίωση της αποτελεσματικότητας του ταξινομητή άποψης. Εκτίμηση άποψης για πιο συγκεκριμένα θέματα.
Μεγάλος όγκος διαθέσιμης πληροφορίας Προσβάσιμη σε μεγάλο αριθμό χρηστών παγκοσμίως Έλλειψη καλά δομημένων κειμένων Δυσκολία εντοπισμού της κατάλληλης πληροφορίας Ανάγκη οργάνωσης των πληροφοριών σε κατηγορίες
Κύριες Μονάδες ΑΚΚ: Συλλογή/Αναπαράσταση Δεδομένων Δημιουργία Ταξινομητή Κειμένου
Στόχοι της ΚΒΑ είναι ο προσδιορισμός: της υποκειμενικότητας (αντικειμενικό/υποκειμενικό) του προσανατολισμού άποψης (θετικό/αρνητικό) της έντασης του προσανατολισμού (πολύ, λίγο θετικό/αρνητικό)
Αυτόματη αναγνώριση της άποψης που εκφράζεται στο διαδίκτυο για κάποιο προϊόν, πρόσωπο, πολιτικό γεγονός κ.ά. Κατηγοριοποίηση κειμένων σε θετικά, αρνητικά και ουδέτερα. (π.χ. κριτικές ταινιών)
Άντληση πληροφορίας από ηλεκτρονικά κείμεναμέσω ερωτημάτων σε μηχανές αναζήτησης Ιστολόγια(blogs), ιστοσελίδες, ηλ. συνεδριάσεις(forums) Αυτόματη εξαγωγή των χρήσιμων χαρακτηριστικών του κειμένου και δημιουργία μοντέλων ταξινομητών Θεωρούμε τρείς κατηγορίες για τον ταξινομητή άποψης θετική, αρνητική, ουδέτερη Αυτόματη εξαγωγή πληροφορίας για την δημιουργία θεματικής οντολογίας με στόχο την εύρεση οντοτήτων Αντιστοίχηση άποψης σε οντότητες
Σύνολο χαρακτηριστικών { w } W =,..., 1 w m Διανυσματική αναπαράσταση κειμένου: ( ) n t = 1 r t = n t 1,..., n m ( ( ) ( t) ) όπου i αν το εμφανίζεται στο κείμενο, αλλιώς n ( t ) = 0 t W i i Είδη χαρακτηριστικών Λεκτικές μονάδες (unigrams, bigrams) Θέματα λέξεων (stems)
Αλγόριθμος ταξινόμησης(classifier) Διανυσματική αναπαράσταση του χώρου του προβλήματος Επιλογή των διανυσμάτων υποστήριξης, που συνορεύουν με στιγμιότυπα άλλων κλάσεων Υπολογισμός συνάρτησης διάκρισης ώστε να επιτυγχάνεται βέλτιστος διαχωρισμός Μέθοδοι Πυρήνων(kernel methods): Γραμμικός, Πολυωνυμικός, RBF(radial basis function)
Υλοποιήσαμε τέσσερις ταξινομητές: Επίπεδο Κειμένου Ιστοσελίδων Ταινιών Δύο κλάσεις (yes,no) αναφορά σε ταινία ή όχι Ιστοσελίδων Κριτικής Δύο κλάσεις (yes,no) κριτική ταινίας ή όχι Επίπεδο Πρότασης Υποκειμενικότητας Δύο κλασεις (s,o) υποκειμενική ή αντικειμενική Άποψης Δύο κλάσεις (p,n) θετική ή αρνητική
Ιστοσελίδων Ταινιών Ιστοσελίδων Κριτικών Υποκειμενικότητας Άποψης Βάση με έγγραφα(πηγαίος κώδικας σελίδων) που συλλέχτηκαν από forum και blog και αναφέρονται σε κινηματογραφικές ταινίες Ερωτήματα σε μηχανή αναζήτησης: π.χ movie + film, movie torrent Αφαίρεση των ετικετών Html, JavaScript κτλ. Εξαγωγή λεκτικών μονάδων (unigrams, bigrams) 632 ιδιότητες Δυαδική αναπαράσταση εγγράφων Εκπαίδευση γραμμικού SVM ταξινομητή με 1000 παραδείγματα (urls) συνολικά, 500 για κάθε κλάση 10πλή σταυρωτή επικύρωση Ορθότητα : 84.4%
Ιστοσελίδων Ταινιών Ιστοσελίδων Κριτικών Υποκειμενικότητας Άποψης Βάση με έγγραφα(πηγαίος κώδικας σελίδων) που συλλέχτηκαν από forum και blog και αναφέρονται σε κριτικές ταινιών Ερωτήματα σε μηχανή αναζήτησης: π.χ movie review, tv series review Αφαίρεση των ετικετών Html, JavaScript κτλ. Εξαγωγή λεκτικών μονάδων (unigrams, bigrams) 866 ιδιότητες και δυαδική αναπαράσταση εγγράφων Εκπαίδευση γραμμικού SVM ταξινομητή με 1000 παραδείγματα (urls) συνολικά, 500 για κάθε κλάση Ορθότητα 10πλή σταυρωτή επικύρωση 83.7% Ανεξάρτητα πειράματα ελέγχου(100 παραδείγματα) 72% Απαλοιφή του ταξινομητή ταινιών ειδικά ερωτήματα σε μηχανή αναζήτησης, ομοιότητα στην κλάση no
Ιστοσελίδων Ταινιών Ιστοσελίδων Κριτικών Υποκειμενικότητας Άποψης Βάση υποκειμενικών και αντικειμενικών προτάσεων Pang και Lee [PL04] Διαχωριστής Προτάσεων(σημεία στίξης) Εκπαίδευση SVM ταξινομητή με 10.000 παραδείγματα (προτάσεις) συνολικά, 5.000 για κάθε κλάση Εξαγωγή λεκτικών μονάδων (unigrams, bigrams) 540 ιδιότητες και δυαδική αναπαράσταση εγγράφων 10πλή σταυρωτή επικύρωση Ορθότητα Γραμμικός πυρήνας : 69% RBF πυρήνας : 73,9% Μεγάλη ανάκληση στην κλάση ο(81,4%), μικρή στην κλάση s(69%)! Μικρός αριθμός ιδιοτήτων και μη αντιπροσωπευτικός για την s κλάση
Ιστοσελίδων Ταινιών Ιστοσελίδων Κριτικών Υποκειμενικότητας Άποψης Βάση θετικών και αρνητικών προτάσεων των Pang και Lee[PL04] Εκπαίδευση SVM ταξινομητή με 2.000 παραδείγματασυνολικά, 1.000 για κάθε κλάση Εξαγωγή λεκτικών μονάδων (unigrams, bigrams) 1064 ιδιότητες και δυαδική αναπαράσταση εγγράφων 10πλή σταυρωτή επικύρωση Ορθότητα Γραμμικός πυρήνας : 61% RBF πυρήνας : 69% Συνένωση των δύο ταξινομητών υποκειμενικότητας & άποψης σε ταξινομητή άποψης (επίπεδο πρότασης) με τρείς κλάσεις : θετική(p),αρνητική(n),ουδέτερη(n) Χαμηλή ορθότητα ταξ.άποψης, υψηλή ανάκληση κλάσης o
Ιστοσελίδων Κριτικών Άποψης Βάση Pang και Lee [PL04] και βάση θετικών και αρνητικών προτάσεων από σχόλια χρηστών του ιστότοπου IMDB. Τρείς κλάσεις κατηγοριοποίησης(p,n,n) Εκπαίδευση SVM ταξινομητή με 15.000 παραδείγματα συνολικά, 5.000 για κάθε κλάση 1279 ιδιότητες Ταξινομη τής 10πλή σταυρωτή επικύρωση Υποκ/τας Ορθότητα Άποψης σε επίπεδο πρότασης 10πλή σταυρωτή επικύρωση 75% Ανεξάρτητα πειράματα ελέγχου (50 έγγραφα/163 προτάσεις) 83,4% Άποψης σε επίπεδο κειμένου
Υλοποιήσαμε ένα συνδυαστικό μοντέλο για την εκτίμηση της άποψης γύρω από οντότητες του κειμένου. Στατιστικές μετρήσεις σε σχόλια χρηστών του ιστότοπου IMDB συχνές(κοινές) εκφράσεις εξειδικευμένων λέξεων Οντολογία κοινών αναγνωριστικών(tags) κινηματογραφικών ταινιών (βιβλ. Folksonomy) πχ movie~flick, αctor~star, plot~story, visual~special effects κτλ. Οντολογία εξαγώμενη από τον ιστότοπο IMDB [...]<MovieInfo> <Title>Rambo</Title> <Genre>Action</Genre> <SoundTrack>Tiny</SoundTrack> <Writer>Art Monterastelli</Writer> <Actor> <Name>Sylvester Stallone</Name> <NickName>John Rambo</NickName>[...]
Παρατηρήσαμε πως σε επίπεδο πρότασης δύσκολα εμφανίζονται δύο διαφορετικές οντότητες. Αντιστοίχιση άποψης πρότασης στις οντότητα(ες) που αυτή περιέχει. π.χ [P] I tip my hat to Stallonefor making yet another highly entertaining film. **Η παραπάνω πρόταση έχει χαρακτηριστεί [P] θετική από τον ταξινομητή άποψης και συνεπώς θετική για τις οντότητες Stallone, film.
Αποτελέσματα πειραμάτων (163 προτάσεων) για οντότητες: Οντότητες Σύνολο εμφανίσεων Πραγματική Άποψη(Κλάση) Προβλεφθείσα Άποψη(Κλάση) P N n P N n Movie 1002 226 211 565 196 193 613 Director 56 9 8 36 7 8 38 Writer 9 3 0 6 4 0 5 Cast 45 12 14 19 10 12 23 Filming Company 2 1 1 0 0 1 1 Plot 130 33 25 72 29 24 77 Special Effects 20 7 3 10 5 3 12
Ταξινομητές Αριθμός Ιδιοτήτων Στιγμιότυπα Εκπαίδευσης 10πλή σταυρωτή επικύρωση Ανεξάρτητα παραδείγματα ελέγχου Ταινίας 633 914 84,4% - Κριτικής 937 892 83,7% 72% Υποκειμενικότητας 540 4896 73,1% - Άποψης(Αρχικός) 1064 2000 69% - Άποψης(Τελικός) 1279 15662 75% 83,4%
Διχασμός άποψης: Okay, I'm really ashamed of it, but I enjoyed it. I mean, I admit it's a really awfulmovie...the ninth floor of hell...the plot is such a mess that it's terrible. But I lovedit. Εναλλακτικοί εκφραστικοί τρόποι (ειρωνεία, ιδιωματισμοί, μεταφορές) If you think this laptop is a great deal, I ve got a nice bridge you might be interested in. Διαφορετική σημασιολογική απόχρωση μιας λέξης ανάλογα με τα συμφραζόμενα unpredictable plot vs. unpredictable behavior
Κριτικές ταινιών Ικανοποιητικά αποτελέσματα Δυσκολία στην εύρεση κατάλληλων ιδιοτήτων Φίλτρο Υποκειμενικών Προτάσεων Βελτίωση αποτελεσματικότητας του ταξινομητή άποψης Χαμηλές τιμές ορθότητας στην κλάση s (subjective) Άποψη για Οντότητες Αποτελεσματικό συνδυαστικό μοντέλο Αποτυχία σε προτάσεις με αντιφατικό νόημα Χρήσιμη η γλωσσολογική ανάλυση των κειμένων