Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Σχετικά έγγραφα
Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Opinion Mining and Sentiment analysis

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

«Κατηγοριοποίηση Ιστοσελίδων με Χρήση Τεχνικών Μηχανικής Μάθησης»

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή

Περίληψη ιπλωµατικής Εργασίας

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Στερεότυπα και προκαταλήψεις. Το σύνολο των χαρακτηριστικών που πιστεύεται ότι καθορίζουν µια οµάδα ανθρώπων ονοµάζονται στερεότυπα.

Διδακτική Προγραμματισμού. Χαρίκλεια Τσαλαπάτα 20/2/2012

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Ανάκτηση Πληροφορίας

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙ ΕΥΤΙΚΟ Ι ΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Εξαγωγή κανόνων από αριθµητικά δεδοµένα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Επιµέλεια Θοδωρής Πιερράτος

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

ΣΧΕΔΙΑΣΜΟΣ ΚΑΤΑΣΚΕΥΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

ΟΡΓΑΝΩΣΗ ΚΑΙ ΥΛΟΠΟΙΗΣΗ ΜΙΑΣ ΕΡΕΥΝΑΣ. ΜΑΝΟΥΣΟΣ ΕΜΜ. ΚΑΜΠΟΥΡΗΣ, ΒΙΟΛΟΓΟΣ, PhD ΙΑΤΡΙΚHΣ

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

2.2 Οργάνωση και ιοίκηση (Μάνατζµεντ -Management) Βασικές έννοιες Ιστορική εξέλιξη τον µάνατζµεντ.

Ασκήσεις μελέτης της 19 ης διάλεξης

Ανάπτυξη και αποτελέσµατα πολυκριτηριακής ανάλυσης Κατάταξη εναλλακτικών σεναρίων διαχείρισης ΟΤΚΖ Επιλογή βέλτιστου σεναρίου διαχείρισης

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Μαθηµατική. Μοντελοποίηση

Ανάκτηση Πληροφορίας

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Κωνσταντίνος Π. Χρήστου

Αλγόριθµοι και Πολυπλοκότητα

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή

Φύλο και διδασκαλία των Φυσικών Επιστημών

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

ΠΛΗΡΟΦΟΡΗΣΗ ΚΑΙ ΔΗΜΙΟΥΡΓΙΚΟΤΗΤΑ 21

ΜΟΝΑ Α ΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΑΚΑ ΗΜΑΪΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ. για το Ηλεκτρονικό Ερωτηµατολόγιο Ικανοποίησης Χρηστών των Ακαδηµαϊκών Βιβλιοθηκών

Σχεδίαση μαθησιακών δραστηριοτήτων λογιστικά φύλλα υπερμεσικά περιβάλλοντα προσομοιώσεις

Opinion Mining and Sentiment Analysis

Η Καινοτοµία στη Διδασκαλία των Μαθηµατικών. Ε. Κολέζα

Παγκύπριο Μαθητικό Συνέδριο για τα Μαθηματικά Φεβρουαρίου 2018 Κεντρικά Κτήρια Τράπεζας Κύπρου, Αγία Παρασκευή, Λευκωσία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΟΜΙΛΙΑ. κ. ΘΑΝΑΣΗ ΛΑΒΙ Α

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Β.δ Επιλογή των κατάλληλων εμπειρικών ερευνητικών μεθόδων

6. ΔΙΑΝΥΣΜΑΤΙΚΟΙ ΧΩΡΟΙ ΚΑΙ ΑΝΤΙΣΤΡΟΦΑ ΠΡΟΒΛΗΜΑΤΑ

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Ανάλυση της επίδοσης μαθητών βιολογίας με θέμα ερώτηση πειραματικής μελέτης για την ολυμπιάδα φυσικών επιστημών Ευρωπαϊκής Ένωσης (EUSO)

Σκοπός του έργου. και η πιλοτική λειτουργία ενός ολοκληρωμένου δικτύου σχολείων

Πολυκριτήρια Ανάλυση και Λήψη Αποφάσεων

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016

Εξ αποστάσεως υποστήριξη του έργου των Εκπαιδευτικών μέσω των δικτύων και εργαλείων της Πληροφορικής

1.4 Λύσεις αντιστρόφων προβλημάτων.

ιαφορική εντροπία Σεραφείµ Καραµπογιάς

Εξόρυξη Γνώσης από Βιολογικά εδομένα

/5

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Media Monitoring. Ενότητα 2: Η ανάλυση περιεχομένου. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΠΑΣ/ΠβΑΣ Λίστα Δεξιοτήτων (5 η Έκδοση)

Λύσεις Ασκήσεων ΣΕΙΡΑ 1 η. Πρόσημο και μέγεθος

Ερωτήµατα σχεδίασης και παρατήρησης (για εστίαση σε συγκεκριµένες πτυχές των αλλαγών στο σχήµα).

Διακριτικές Συναρτήσεις

Ερευνητικές Εργασίες

Στόχος της ψυχολογικής έρευνας:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΔΙΔΑΚΤΙΚΕΣ ΣΤΡΑΤΗΓΙΚΕΣ

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται:

ΠΕΡΙΛΗΨΗ ΠΡΟΕΡΓΑΣΙΑ ΓΙΑ ΝΑ ΓΡΑΨΟΥΜΕ ΜΙΑ ΚΑΛΗ ΠΕΡΙΛΗΨΗ

ΘΕΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΚΑΤΑΣΚΕΥΗ ΕΡΩΤΗΣΕΩΝ. Άννα Κουκά

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

Αναλυτικό Πρόγραμμα Μαθηματικών

Heapsort Using Multiple Heaps

Transcript:

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης Ειρήνη Καλδέλη ιπλωµατική Εργασία Περίληψη Εισαγωγή Τα τελευταία χρόνια η αλµατώδης ανάπτυξη της πληροφορικής έχει διευρύνει σε σηµαντικό βαθµό τον όγκο και τη διακίνηση πληροφορίας, η οποία καθίσταται προσβάσιµη σε ολοένα και µεγαλύτερο αριθµό χρηστών. Μέσα σε αυτόν τον κυκεώνα διακινούµενων δεδοµένων σε ηλεκτρονική µορφή, ο χρήστης συχνά δυσκολεύεται να εντοπίσει και να αντλήσει την πληροφορία που τον ενδιαφέρει. Αναδεικνύεται εποµένως το αίτηµα ανάπτυξης κατάλληλων τεχνικών που θα διευκολύνουν την προσπέλαση και τη διαχείριση της διαθέσιµης πληροφορίας ανάλογα µε τις ανάγκες των χρηστών. Το αίτηµα αυτό επιχειρεί να ικανοποιήσει και ο κλάδος της Αυτόµατης Κατηγοριοποίησης Κειµένου (Automated Text Categorization), δηλαδή της αυτόµατης κατάταξης κειµένων γραµµένων σε φυσική γλώσσα σε ένα σύνολο προκαθορισµένων κατηγοριών. H Κατηγοριοποίηση Βασισµένη στην Άποψη ΚΒΑ (Sentiment Classification) ή η εξόρυξη γνώµης (opinion mining) όπως συναντάται συχνά στη βιβλιογραφία είναι µια υποκατηγορία της Αυτόµατης Κατηγοριοποίησης Κειµένου που συγκέντρωσε το ενδιαφέρον πολλών ερευνητών τα τελευταία χρόνια. Η αγγλική λέξη sentiment δηλώνει στην προκειµένη περίπτωση τις αντιλήψεις του συγγραφέα, την προσωπική του θέση πάνω σε ένα ζήτηµα. Κύριος στόχος της ΚΒΑ είναι ο προσδιορισµός του προσανατολισµού της άποψης (sentiment orientation) που εκφράζει ένα κείµενο πάνω σε ένα θέµα, µια διαδικασία που περικλείει ως επιµέρους στόχο και τη διάκριση µεταξύ υποκειµενικής και αντικειµενικής πληροφορίας. Η παρούσα εργασία πραγµατεύεται το πρόβληµα της κατηγοριοποίησης κειµένων µε βάση τη συνολική άποψη που αυτά απηχούν, εφαρµόζοντας τεχνικές Μηχανικής Μάθησης. Θεωρούµε το πρόβληµα δύο κατηγοριών, όπου τα κείµενα χαρακτηρίζονται είτε ως θετικά είτε ως αρνητικά. Ο αλγόριθµος στον οποίο στηρίζονται οι µέθοδοι που αναπτύξαµε είναι ο SVM (Support Vector Machines-Μηχανές ιανυσµάτων Υποστήριξης), ο οποίος σύµφωνα µε τα συµπεράσµατα προηγούµενων εργασιών έχει καλές επιδόσεις στο συγκεκριµένο πρόβληµα. Η προσπάθειά µας επικεντρώνεται σε διάφορους τρόπους εκµάθησης του ταξινοµητή µε τον προσδιορισµό χρήσιµων πληροφοριών που µπορούµε να αντλήσουµε από το σώµα των κειµένων ή και από άλλες πηγές. Μέσω του συνδυασµού των πληροφοριών αυτών στην είσοδο του ταξινοµητή αλλά και τον κατάλληλο συγκερασµό των αποτελεσµάτων διαφορετικών ταξινοµητών SVM, αποσκοπούµε στη βελτίωση της ακρίβειας

της ταξινόµησης αλλά και τη διερεύνηση της συµβολής των επιµέρους παραµέτρων του προβλήµατος. Μέθοδοι ταξινόµησης µε βάση την άποψη 1. Ταξινοµητές που βασίζονται σε όρους των κειµένων Προκειµένου να αναπαραστήσουµε τα κείµενα που έχουµε στη διάθεσή µας, χρησιµοποιήσαµε το µοντέλο της διανυσµατικής αναπαράστασης. Βάσει αυτής, τα κείµενα αναπαρίστανται ως διανύσµατα n ζυγισµένων χαρακτηριστικών, καθένα από τα οποία αντιστοιχεί σε κάποιον όρο του κειµένου. Επιλέγοντας ως χαρακτηριστικά τις λεκτικές µονάδες (unigrams), κάθε κείµενο αναπαρίσταται ως ένα διάνυσµα t = ( n 1 () t,..., n m() t ), όπου n i () t = 1 αν η λεκτική µονάδα w i εµφανίζεται στο κείµενο t και n i () t = 0 διαφορετικά. Η αναπαράσταση αυτή είναι γνωστή µε την ονοµασία σακίδιο λέξεων (bag of words). Εκτός της δυαδικής αναπαράστασης, δοκιµάσαµε ως τιµή των χαρακτηριστικών τη συχνότητα εµφάνισης των λεκτικών µονάδων στο κείµενο και την τιµή TFIDF (Τerm Frequency / Inverse Document Frequency). Εφαρµόσαµε επίσης µείωση διαστασιµότητας και επιχειρήσαµε να χρησιµοποιήσουµε ως χαρακτηριστικά τα θέµατα (stems) των λέξεων. Πέραν των λεκτικών µονάδων δοκιµάσαµε να συµπεριλάβουµε στο διάνυσµα αναπαράστασης και δυάδες λέξεων συγκεκριµένης µορφής (λεκτικές δυάδες του Turney), οι οποίες εµπεριέχουν κάποιο επίθετο ή επίρρηµα και θεωρείται ότι δηλώνουν πληρέστερα µια αρνητική ή θετική πολικότητα από ότι οι µεµονωµένες λέξεις. Επιπλέον, διερευνήσαµε την επίδραση των όρων άρνησης, δηλαδή λέξεων όπως not, didn t κ.τ.λ. οι οποίες αντιστρέφουν τoν προσανατολισµό άποψης άλλων λέξεων ή φράσεων που βρίσκονται στην εµβέλειά τους. 2. ιάκριση υποκειµενικών και αντικειµενικών προτάσεων Ένα κείµενο περιλαµβάνει εκτός από την έκφραση προσωπικών θέσεων και εκτιµήσεων και περιγραφική πληροφορία, η οποία δεν συµµετέχει στη διαµόρφωση της εκφραζόµενης άποψης. Επειδή η ένταξη στο διάνυσµα αναπαράστασης και λέξεων που περιλαµβάνονται σε προτάσεις που εκφράζουν κάποιο αντικειµενικό γεγονός µπορεί να αποπροσανατολίσει τον ταξινοµητή, είναι σηµαντικό να διακρίνουµε τις υποκειµενικές από τις αντικειµενικές προτάσεις. Στο πλαίσιο αυτό αναπτύσσεται ένας ταξινοµητής υποκειµενικότητας σε επίπεδο προτάσεων, που κατατάσσει τις προτάσεις των κειµένων σε υποκειµενικές και αντικειµενικές. Στη συνέχεια αποµακρύνονται από τα κείµενα όσες προτάσεις χαρακτηρίστηκαν αντικειµενικές και εφαρµόζεται ένας δεύτερος ταξινοµητής για την κατάταξη των υποκειµενικών αποσπασµάτων, που αναµένεται ότι αντιπροσωπεύουν καλύτερα τον προσανατολισµό του κειµένου.

3. Αξιοποίηση εξωγενών πηγών πληροφορίας - Μεταταξινοµητές Πέραν των όρων που εξάγονται από τα κείµενα, επιχειρήθηκε να ενταχθούν στον ταξινοµητή και πληροφορίες που παρέχονται από εξωγενείς πηγές, από τις οποίες µπορεί να αντληθεί εκ των προτέρων γνώση για τον προσανατολισµό ορισµένων λέξεων ή φράσεων. Στο πλαίσιο αυτό έγινε χρήση λεξικών υποκειµενικότητας, τα οποία περιλαµβάνουν λέξεις µε έντονη θετική ή αρνητική σηµασιολογική χροιά. Ένας τρόπος για να αξιοποιήσουµε τη γνώση που µας παρέχουν τα λεξικά υποκειµενικότητας είναι να αποδώσουµε µεγαλύτερο βάρος στις λέξεις εκείνες που περιλαµβάνονται στα λεξικά αυτά, είτε ως αρνητικές είτε ως θετικές καταχωρήσεις. Πληροφορία για τον προσανατολισµό των όρων των κειµένων µπορεί να αντληθεί επίσης από το διαδίκτυο, µέσω του υπολογισµού ενός κατάλληλου µέτρου προσανατολισµού. Με βάση το µέτρο αυτό, ο προσανατολισµός µιας λέξης ή φράσης συµπεραίνεται από τη συσχέτισή της µε ένα σύνολο θετικών και αρνητικών λέξεων αναφοράς. Ως µέτρο της συσχέτισης χρησιµοποιείται η τιµή PMI (Pointwise Mutual Information Αµοιβαία Πληροφορία), ο υπολογισµός της οποίας στηρίζεται στην παραδοχή ότι δύο λέξεις που συσχετίζονται µεταξύ τους, δηλαδή στην προκειµένη περίπτωση έχουν παρόµοιο προσανατολισµό άποψης, τείνουν να εµφανίζονται κοντά η µία στην άλλη. Η εκτίµηση των τιµών PMI γίνεται υποβάλλοντας ερωτήσεις σε µια µηχανή αναζήτησης µε τη χρήση κατάλληλων τελεστών (όπως AND ή ΝEAR) και καταγράφοντας τον αριθµό των αποτελεσµάτων, δηλαδή τον αριθµό των κειµένων στα οποία απαντώνται και οι δύο λέξεις υπό τους περιορισµούς που θέτει η ερώτηση. Με βάση τις τιµές PMI σε σχέση µε τα σύνολα αναφοράς θετικών και αρνητικών λέξεων µπορεί να υπολογιστεί ο προσανατολισµός λέξεων ή φράσεων. Ο συνολικός προσανατολισµός ενός κειµένου µπορεί να θεωρηθεί ως ο µέσος όρος των επιµέρους προσανατολισµών των δυάδων του Turney που περιλαµβάνονται σε ένα κείµενο. Οι πληροφορίες που προέρχονται από το λεξικό θετικών και αρνητικών λέξεων ή από το µέτρο προσανατολισµού που βασίζεται στις τιµές PMI µπορούν να συνδυαστούν µε τις µεθόδους που βασίζονται αποκλειστικά στους όρους των κειµένων µέσω ενός µεταταξινοµητή SVM. Σύµφωνα µε το µοντέλο αυτό, τα αποτελέσµατα δύο ή και περισσότερων ταξινοµητών που χρησιµοποιούνται σε πρώτο επίπεδο συντίθενται σε έναν τελικό ταξινοµητή SVM, που µε τον τρόπο αυτό µπορεί να συνδυάσει ταξινοµητές που βασίζονται σε διαφορετικές πηγές πληροφορίας. Οι τιµές των χαρακτηριστικών µε βάση τις οποίες εκπαιδεύεται ο µεταταξινοµητής αντιπροσωπεύουν τις τιµές πρόβλεψης, δηλαδή τις τιµές της συνάρτησης απόφασης, που δίνουν ως έξοδο οι ταξινοµητές του πρώτου επιπέδου. Πειραµατική αξιολόγηση Το κύριο σώµα στο οποίο δοκιµάστηκαν οι µέθοδοι που αναπτύξαµε είναι η βάση µε κριτικές ταινιών, η οποία έχει καθιερωθεί ως το κατ εξοχήν αντικείµενο πειραµάτων στον τοµέα της

ΚΒΑ. Επίσης, έγιναν πειράµατα και σε µια βάση εγγράφων που αναφέρονται σε αλυσίδα καταστηµάτων, τα οποία προέρχονται από φόρα και µπλογκς. Από τα έγγραφα αυτά έγινε προσπάθεια να αποµονωθούν µόνο τα αποσπάσµατα που αναφέρονται στη συγκεκριµένη εταιρεία, τα οποία είναι συνήθως περιορισµένης έκτασης. Τέλος πραγµατοποιήθηκαν κάποια πειράµατα και σε επίπεδο προτάσεων. Η αξιολόγηση των αποτελεσµάτων έγινε µε σταυρωτή επικύρωση 3 πτυχών (3 fold cross-validation) και ως µέτρο αξιολόγησης θεωρήθηκε η ακρίβεια (accuracy). Όσον αφορά στη βάση µε τις κριτικές ταινιών, συγκρίνοντας τα αποτελέσµατα που έδωσαν οι διάφορες παραλλαγές της αναπαράστασης του σακιδίου λεκτικών µονάδων, προκύπτει ότι τα καλύτερα αποτελέσµατα δίνει η δυαδική αναπαράσταση (ακρίβεια 84.05%), ενώ η µείωση διαστασιµότητας ή η χρήση των θεµάτων των λέξεων δεν επιφέρει κάποια βελτίωση. Συνυπολογίζοντας τις αρνήσεις επιτεύχθηκε µικρή αύξηση της τιµής ακρίβειας στο 85.3%. Η ένταξη στο διάνυσµα αναπαράστασης εκτός των λεκτικών µονάδων και των λεκτικών δυάδων του Turney επιδρά αρνητικά στην απόδοση, όπως και η χρήση του λεξικού υποκειµενικότητας µέσω της απόδοσης αυξηµένων βαρών σε όσες λέξεις περιλαµβάνονται στο λεξικό. Στην τελευταία περίπτωση η πτώση της ακρίβειας οφείλεται στο γεγονός ότι από το λεξικό απουσιάζουν πολλές λέξεις που συµβάλλουν καθοριστικά στη διαµόρφωση της πολικότητας των κειµένων. Κατατάσσοντας τις λεκτικές µονάδες ανάλογα µε το βάρος που τους αποδίδει ο SVM, διαπιστώσαµε ότι στις πιο σηµαντικές λέξεις για τον προσδιορισµό άποψης εµπεριέχονται πολλές λέξεις που δεν έχουν από µόνες τους προφανή προσανατολισµό, όπως else, then, 4 κ.ά. Σχετικά µε το φίλτρο αντικειµενικών προτάσεων η σηµασία του αποτελέσµατος δεν έγκειται τόσο στη µικρή βελτίωση της ακρίβειας (85.45%) όσο στο ότι καταφέραµε να περιορίσουµε τον όγκο των κειµένων περίπου στα 2/3, χωρίς να χάσουµε πολύτιµη πληροφορία. Η εφαρµογή του µοντέλου του µεταταξινοµητή επιφέρει σαφή βελτίωση των αποτελεσµάτων. Η υψηλότερη ακρίβεια (86.25%) επιτυγχάνεται µε τη χρήση του µεταταξινοµητή που συνδυάζει τον απλό ταξινοµητή µε σακίδιο λέξεων και τον ταξινοµητή που στηρίζεται στις τιµές PMI. Η διαφορά όµως από την ακρίβεια που επιτύχαµε µε τον απλό ταξινοµητή µε σακίδιο λέξεων (84.04%) παραµένει µικρή. Στη βάση των εγγράφων που αναφέρονται στην αλυσίδα καταστηµάτων σηµειώνεται σηµαντική πτώση της απόδοσης των παραπάνω µεθόδων, η οποία οφείλεται στη µεγάλη διασπορά των λεκτικών µονάδων λόγω της µικρής έκτασης των εγγράφων και του περιορισµένου αριθµού διαθέσιµων εγγράφων, αλλά και στην άναρχη δοµή των κειµένων. Η υψηλότερη τιµή ακρίβειας που επιτεύχθηκε είναι 64%. Στην περίπτωση της βάσης των θετικών και αρνητικών προτάσεων, όπου είναι διαθέσιµο µεγάλο σώµα εκπαίδευσης, η ακρίβεια που επιτυγχάνεται µε την χρήση του απλού ταξινοµητή σακιδίου λέξεων είναι 74.4%, ενώ η µείωση διαστασιµότητας δεν επιφέρει καµία βελτίωση.

Συµπεράσµατα-Μελλοντικές κατευθύνσεις Από τα πειράµατα προκύπτει ότι η απλή δυαδική αναπαράσταση µε το σακίδιο λέξεων έχει αρκετά καλά αποτελέσµατα, αν και κατώτερα της απόδοσης που παρουσιάζουν ανάλογες µέθοδοι στον τοµέα της θεµατικής κατηγοριοποίησης κειµένων. Επίσης, φαίνεται ότι το µοντέλο του µεταταξινοµητή προσφέρει µεγάλη ευελιξία για το συνδυασµό διαφορετικών προσεγγίσεων και πληροφοριών που αντλούνται από διάφορες πηγές, βελτιώνοντας την ακρίβεια της κατηγοριοποίησης. Παρατηρούµε ότι ενώ η εισαγωγή της επιπλέον πληροφορίας, είτε προέρχεται από τις τιµές PMI είτε από το λεξικό απ ευθείας στο σακίδιο λέξεων επιφέρει µείωση της απόδοσης, η αξιοποίησή της σε ξεχωριστό ταξινοµητή και ο παραπέρα συνδυασµός της µε το σακίδιο λέξεων µέσω του µεταταξινοµητή δίνει καλύτερα αποτελέσµατα, ακόµα και αν η ακρίβεια του ξεχωριστού ταξινοµητή είναι πολύ µικρή. Οι µέθοδοι που αναπτύξαµε αποδίδουν ικανοποιητικά στην περίπτωση εκτεταµένων, καλά δοµηµένων κειµένων, αλλά δίνουν πολύ κατώτερα αποτελέσµατα αν θέλουµε να προσδιορίσουµε την άποψη που εκφράζεται σε µικρά αποσπάσµατα άναρχα δοµηµένων κειµένων. Στην δεύτερη περίπτωση, τα δεδοµένα που αντλούνται από τα κείµενα, κυρίως όταν δεν είναι διαθέσιµος µεγάλος αριθµός ταξινοµηµένων εγγράφων για εκπαίδευση, δεν επαρκούν για να «µάθει» ο αλγόριθµος τα σηµαντικά χαρακτηριστικά που καθορίζουν τη διαµόρφωση της άποψης. Από τα αποτελέσµατα της µελέτης αυτής πάνω στο πρόβληµα της ΚΒΑ προκύπτει ότι για να επιτευχθεί αξιόλογη βελτίωση της απόδοσης των ταξινοµητών θα πρέπει να ενσωµατωθεί στους αλγορίθµους Μηχανικής Μάθησης η γνώση που µπορεί να προκύψει από τη γλωσσολογική ανάλυση των κειµένων. Λόγω της πολυπλοκότητας και τις ποικιλίας των εκφραστικών µέσων µε τα οποία µπορεί να διατυπωθεί µια άποψη, ο προσδιορισµός της δεν µπορεί να στηριχτεί µόνο σε µεµονωµένους όρους. Η µελλοντική έρευνα θα πρέπει να επικεντρωθεί στην αναζήτηση µεθόδων που θα καταφέρνουν να συνδυάσουν τα πλεονεκτήµατα της γλωσσολογικής και της βασισµένης σε τεχνικές Μηχανικής Μάθησης προσέγγισης. Το µοντέλο του µεταταξινοµητή µπορεί να αποτελέσει ένα χρήσιµο εργαλείο για τη σύνθεση των δύο αυτών προσεγγίσεων, συνταιριάζοντας ταξινοµητές εξαγωγής πληροφοριών (information extraction) µε ταξινοµητές Μηχανικής Μάθησης. Θα είχε επίσης ενδιαφέρον να ερευνηθούν τρόποι για την ανίχνευση της γνώµης που εκφράζεται για πιο εντοπισµένα θέµατα, η οποία µπορεί να είναι διαφορετική από τη συνολική άποψη που απηχεί ένα κείµενο.