Εξαγωγή ζευγών ερώτησης απάντησης από forum και αυτόματη απάντηση νέων ερωτήσεων

Σχετικά έγγραφα
Εξαγωγή ζευγών ερώτησης απάντησης από forum και αυτόματη απάντηση νέων ερωτήσεων

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Γκέγκα Ευρώπη Κωστοπούλου Ειρήνη

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Τυπικές χρήσεις της Matlab

ΟΔΗΓΟΣ ΧΡΗΣΗΣ(ΜΑΝUΑL) ΔΙΑΧΕΙΡΙΣΤΗ-ΧΡΗΣΤΗ.

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Ανάκτηση Πληροφορίας

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Αναγνώριση Προτύπων Ι

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Ανάκτηση Πληροφορίας

GreekLUG Ελεύθερο Λογισμικό & Λογισμικό Ανοικτού Κώδικα

Συνοπτικός οδηγός χρήσης της πλατφόρμας ασύγχρονης τηλεεκπαίδευσης. Καθηγητή

Μελέτη και Υλοποίηση Αλγορίθμων για Βιολογικές Εφαρμογές σε MapReduce Περιβάλλον

ΣυνοπτικόςΟδηγόςΧρήσηςτουMoodle για το Φοιτητή

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Εισαγωγή στην Επιστήμη της Πληροφορικής Εργαστήριο. Microsoft Word Μέρος 2

openlaws Αυτοματοποιημένη κωδικοποίηση της ελληνικής νομοθεσίας με NLP Θοδωρής Παπαδόπουλος

Management Classes Create Class Create Class Management Classes List of Classes

POWERPOINT Είναι το δημοφιλέστερο πρόγραμμα παρουσιάσεων.

Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών. Κέντρο Επαγγελματικής Κατάρτισης. Σταδίου 5, Σύνταγμα

Εγκατάσταση αρχείων βιβλιοθήκης VHOPE και VHOPE

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Εκπαιδευτικό Εργαλείο Κανονικοποίησης

Ανάκτηση Δεδομένων (Information Retrieval)

Manual. Εκλογές 15μελούς Σχολείου v4.0 Module καταχώρησης ψηφοδελτίων από την Εφορευτική Επιτροπή

Ανάκτηση Πληροφορίας

ΔΗ Μ Ι Ο ΥΡ Γ Ι Α W I K I με τ η χρήση τ η ς υπ ηρεσίας h t t p : / id ot.com /

4 ο ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ ΓΕΝΙΚΟΣ ΣΚΟΠΟΣ :

Ο ΑΤΔ Λεξικό. Σύνολο στοιχείων με βασικές πράξεις: Δημιουργία Εισαγωγή Διαγραφή Μέλος. Υλοποιήσεις

Εισαγωγή στους Υπολογιστές

Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Ανάπτυξη Λογισμικού για Δίκτυα και Τηλεπικοινωνίες. Χειμερινό εξάμηνο

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Γλώσσες & Τεχνικές 4 ο Εξάμηνο. - Ενότητα 1 - Δημοσθένης Σταμάτης

wikispaces Επεξεργασία και συγγραφή Πατρώνας Γεώργιος

ΕΠΙΜΟΡΦΩΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΓΙΑ ΤΑ ΝΕΑ ΑΝΑΛΥΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΝΕΟ ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ Γ ΓΥΜΝΑΣΙΟΥ

Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

53 Χρόνια ΦΡΟΝΤΙΣΤΗΡΙΑ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Σ Α Β Β Α Ϊ Δ Η Μ Α Ν Ω Λ Α Ρ Α Κ Η

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Διάλεξη 14: Δέντρα IV - B-Δένδρα

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΝΕΠΙΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Εργαστήριο Σημασιολογικού Ιστού

Αθήνα, Απρίλιος 2018 ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΥΠΟΥΡΓΕΙΟ ΟΙΚΟΝΟΜΙΚΩΝ

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Σχεδίαση Βάσεων Δεδομένων

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

Junior A (Κωδ.Τμήματος AJ1)

Εισαγωγή στην επιστήμη των υπολογιστών

Management School School Profile Save

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΟΛΟΚΛΗΡΩΜΕΝΟΥ ΠΛΗΡΟΦΟΡΙΑΚΟΥ ΣΥΣΤΗΜΑΤΟΣ (ΟΠΣ) ΓΙΑ ΤΗΝ ΠΡΟΓΡΑΜΜΑΤΙΚΗ ΠΕΡΙΟΔΟ ΣΕΣ

ΠΥΡΗΝΑΣ ΕΦΑΡΜΟΓΗΣ Γενικά Συμμόρφωση με πρότυπα (PACS Core)

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΟΛΟΚΛΗΡΩΜΕΝΟΥ ΠΛΗΡΟΦΟΡΙΑΚΟΥ ΣΥΣΤΗΜΑΤΟΣ (ΟΠΣ) ΓΙΑ ΤΗΝ ΠΡΟΓΡΑΜΜΑΤΙΚΗ ΠΕΡΙΟΔΟ ΣΕΣ

Ενότητα. Σχεδίαση Βάσεων Δεδομένων

ΠΛΑΤΦΟΡΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΒΙΝΤΕΟΔΙΑΛΕΞΕΩΝ ΔΗΛΟΣ delos.uoa.gr. Εγχειρίδιο Χρήσης Μελών ΔΕΠ

Δυναμικές Ιστοσελίδες Εισαγωγή στην Javascript για προγραμματισμό στην πλευρά του client

Επερωτήσεις σύζευξης με κατάταξη

Η χρήση διαδικτυακών εφαρμογών: εργαλείο για τον σχεδιασμό και την αξιολόγηση των προγραμμάτων Περιβαλλοντικής Εκπαίδευσης

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Ζευς Οδηγίες Διαχείρισης Ψηφοφορίας

Τίτλος Εργασίας Εργαστηριακής Παρουσίασης

Επεξεργασία Ερωτήσεων

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Microsoft Excel Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26

Πληροφοριακά Συστήματα Διοίκησης

Ανάκτηση Πληροφορίας

HMY 795: Αναγνώριση Προτύπων

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Επεξεργασία Ερωτήσεων

ΕΠΙΜΟΡΦΩΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΓΙΑ ΤΑ ΝΕΑ ΑΝΑΛΥΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο

Περιγραφή των Δεδομένων

ΚΟΗΑ ΧΡΗΣΤΕΣ ΑΝΑΖΗΤΗΣΗ/ ΚΑΤΑΧΩΡΙΣΗ/ ΕΠΕΞΕΡΓΑΣΙΑ/ ΑΝΑΝΕΩΣΗ ΚΑΡΤΑΣ/ΙΣΤΟΡΙΚΟ ΔΑΝΕΙΣΜΩΝ ΤΡΟΠΟΠΟΙΗΣΕΩΝ / ΣΤΑΤΙΣΤΙΚΑ

Ημερομηνία Παράδοσης: 4/4/2013

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

2 ΟΥ και 7 ΟΥ ΚΕΦΑΛΑΙΟΥ

ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΙΣΤΟΣΕΛΙΔΩΝ ΜΕΛΩΝ ΔΕΠ, ΤΜΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΧΡΗΣΗΣ

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ ΠΑΡΑΡΤΗΜΑ ΧΙ

Τεχνικές Εξόρυξης Δεδομένων

Τίτλος Πακέτου Certified Computer Expert-ACTA

Ζευς Οδηγίες Διαχείρισης Ψηφοφορίας

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

ΕΡΓΑΣΤΗΡΙΟ 1: 1 Εισαγωγή, Χρήσιμες Εφαρμογές

Κεφ.11: Ευρετήρια και Κατακερματισμός

Εισαγωγή στην επιστήμη των υπολογιστών. Υπολογιστές και Δεδομένα Κεφάλαιο 2ο Αναπαράσταση Δεδομένων

Transcript:

Εξαγωγή ζευγών ερώτησης απάντησης από forum και αυτόματη απάντηση νέων ερωτήσεων Μιχαήλ Ν. Ζερβός std04079@di.uoa.gr Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής και Τηλεπικοινωνιών Περίληψη. Η εργασία αυτή ασχολείται με τα ζεύγη δημοσιεύσεων ερώτησης - απάντησης που εμφανίζονται σε online fora. Παρουσιάζεται ένα σύστημα με δύο λειτουργίες: α) την εξαγωγή γνώσης, με την μορφή ερωταποκρίσεων, από ένα forum και β) την παρακολούθηση του forum για εμφάνιση νέων ερωτήσεων και αυτόματη απάντηση αυτών Λέξεις κλειδιά: αναγνώριση ερώτησης, ζεύγη ερωτήσεων απαντήσεων, εξόρυξη γνώσης, αυτόματη απάντηση ερωτήσεων, παρόμοιες ερωτήσεις 1 Εισαγωγή Οι online περιοχές συζήτησης (forum) αποτελούν σημαντικό κομμάτι του παγκόσμιου ιστού. Ο αριθμός των μηνυμάτων που δημοσιεύονται σε διάφορα fora είναι τεράστιος. Σκοπός της εργασίας αυτής είναι να εκμεταλλευτεί την υπάρχουσα γνώση ενός forum και να παρέχει άμεσα και αυτοματοποιημένα απαντήσεις σε νέες ερωτήσεις που δημοσιεύονται. Το πρόβλημα μπορεί να χωριστεί σε δύο φάσεις. Αρχικά πρέπει να αναγνωριστούν και να εξαχθούν τα ζεύγη ερωτήσεων απαντήσεων που υπάρχουν ήδη δημοσιευμένα. Στην συνέχεια, πρέπει να παρακολουθείται Επιβλέποντες: Σταματόπουλος Παναγιώτης, Καράλη Ιζαμπώ

το forum και μόλις εμφανιστεί μια καινούρια ερώτηση που έχει ήδη απαντηθεί, να γίνεται αυτόματα η κατάλληλη δημοσίευση. Οι συγγραφείς της εργασίας [1] παρουσιάζουν μια μέθοδο για την αναγνώριση ερωτήσεων και των απαντήσεων τους σε online fora. Για την αναγνώριση των ερωτήσεων βασίζονται στα Labeled Sequential Patterns (LSP) [2]. Για την σύνδεση ερωτήσεων και απαντήσεων προτείνουν έναν αλγόριθμο διάδοσης σκορ πάνω σε ένα γράφο των δημοσιεύσεων. Τα αρχικά σκορ υπολογίζονται με βάση το μοντέλο Query Likelihood ή το KL-Divergence. Οι εργασίες [3], [4] αντιμετωπίζουν αντίστοιχα προβλήματα, ό- πως αναγνώριση ερωτήσεων απαντήσεων σε μηνύματα ηλεκτρονικού ταχυδρομείου. Και στις τρεις αυτές εργασίες, γίνεται χρήση ενός SVM ταξινομητή για την αντιστοίχηση ερωτήσεων απαντήσεων. Το σύστημα που παρουσιάζεται στην παρούσα εργασία δημιουργήθηκε με σκοπό την εφαρμογή του στο forum του μαθήματος «Εισαγωγή στον Προγραμματισμό» του τμήματος. Πρόκειται για το πρώτο (στον βαθμό που είναι δυνατό να γνωρίζω) ολοκληρωμένο σύστημα αυτόματης απάντησης ερωτήσεων σε forum, καθώς και το πρώτο σύστημα αναγνώρισης ζευγών ερώτησης απάντησης στα Ελληνικά. Τα αποτελέσματα που προκύπτουν είναι ικανοποιητικά και αποδεικνύουν ότι μπορεί να υ- πάρξει πρακτική εφαρμογή του συστήματος. Στο κεφάλαιο 2 υπάρχει μια γενική περιγραφή του συστήματος. Στα κεφάλαια 3, 4, 5 και 6 αναλύονται τα βασικότερα τμήματα του συστήματος. Τέλος στο κεφάλαιο 7 παρουσιάζονται τα αποτελέσματα των πειραμάτων. 2 Δομή συστήματος Η εργασία αυτή χωρίζεται σε δύο βασικά μέρη. 1. Στην εξαγωγή ερωταποκρίσεων από τις υπάρχουσες δημοσιεύσεις και δημιουργία της βάσης γνώσης (δεξί μισό στο Διάγραμμα 1). 2. Στην αντιμετώπιση νέων ερωτήσεων που εμφανίζονται στο forum (αριστερό μισό της Διάγραμμα 1)

Last posts Importer Load / Save Monitoring Retrieve Posts Extracted from DB (SQL) Insert posts Question Detector New Post Question Detector Yes Text Analyzing / Processing Forum Client HTTP FORUM Posts Database Annotation Application Possible Answers Yes (Questions) Text Analyzing / Processing Question Matching Training Q / A Pairing SVM Get Questions KB Access Layer Insert Q/A Pairs Knowledge Base (Q/A Pairs) Διάγραμμα 1. Διάγραμμα λειτουργίας Ο μόνος τρόπος επικοινωνίας αυτών των δύο μερών είναι η βάση γνώσης. Κατά την εξαγωγή γνώσης, η βάση γεμίζει με τα ζεύγη ερωτήσεων απαντήσεων. Όταν εμφανιστούν νέες δημοσιεύσεις / ερωτήσεις τότε το πρόγραμμα αντιμετώπισης τους χρησιμοποιεί την βάση για να εντοπίσει μια παρόμοια ερώτηση και να δημοσιεύσει την αντίστοιχη απάντηση. Κάθε ένα από τα υποσυστήματα που φαίνονται στο Διάγραμμα 1 παρουσιάζεται στα επόμενα κεφάλαια.

3 Ανάλυση και επεξεργασία κειμένου Το υποσύστημα ανάλυσης και επεξεργασίας κειμένου παρέχει μια σειρά από λειτουργίες όπως: αφαίρεση τονισμού, διαγραφή stopwords, αφαίρεση ή/και αντικατάσταση του κώδικα μορφοποίησης BBCode που χρησιμοποιείται στο forum καθώς και ειδικών χαρακτήρων HTML (πχ ) και emoticons. Έκτος από αυτά, αναλαμβάνει και ορισμένες ακόμα λειτουργίες που αναλύονται παρακάτω. 3.1 Stemmer Το Stemming είναι η διαδικασία μετατροπής μια λέξης στην ρίζα της, ανεξαρτήτως πτώσης ή χρόνου. Για παράδειγμα οι λέξεις «τηλέφωνα», «τηλεφωνώ», «τηλέφωνο», «τηλεφώνησαν» θα αντιστοιχούν στην ίδια ρίζα «τηλεφων». Έτσι μπορεί να μειωθεί δραστικά ο αριθμός των λέξεων στο λεξικό και η διαστασιμότητα (dimensionality) της αναπαράστασης του κειμένου. Για τις ανάγκες της εργασίας χρησιμοποιήθηκε μια τροποποιημένη έκδοση του stemmer που περιγράφεται στο [5]. 3.2 Ομοιότητα συνημιτόνου σε συλλογή εγγράφων Για την αναπαράσταση των δημοσιεύσεων επιλέχτηκε το μοντέλο διανυσματικού χώρου (Vector Space Model). Κάθε stemmed όρος που εμφανίζεται στις δημοσιεύσεις εισάγεται στο λεξικό. Έτσι μια δημοσίευση αναπαριστάται από ένα διάνυσμα διαστάσεων όπου κάθε διάσταση αντιστοιχεί σε έναν όρο του λεξικού:. Το βάρος είναι το TF-IDF (Term Frequency Inverse Document Frequency) σκορ: Όπου είναι το πλήθος των εμφανίσεων του όρου κανονικοποιημένο ως προς το μέγεθος του κειμένου και είναι η αντίστροφη συχνότητα εγγράφου για τον όρο. To IDF είναι ένα μέτρο της σημαντικότητας του όρου στην συλλογή εγγράφων. { }

Το μέτρο της ομοιότητας που χρησιμοποιείται είναι η ομοιότητα συνημιτόνου. Κάθε δημοσίευση αποτελεί ένα έγγραφο και μια καινούρια δημοσίευση αποτελεί την επερώτηση (query). Η ο- μοιότητα συνημιτόνου υπολογίζει την γωνία μεταξύ των διανυσμάτων και. Όπου τα αντίστοιχα κανονικοποιημένα διανύσματα: Tο να υπολογίζει κανείς κάθε φορά το μεταξύ του query και κάθε εγγράφου με αυτό τον τρόπο είναι πάρα πολύ ακριβόγια τον ταχύτερο υπολογισμό της ομοιότητας, τα διανύσματα κάθε εγγράφου μια συλλογής κειμένων εισάγονται ως στήλες σε ένα πίνακα. Έστω ότι υπάρχουν όροι και έγγραφα. Τότε ο πίνακας έχει μέγεθος. Το στοιχείο του πίνακα αποτελεί το TF-IDF score του όρου στο έγγραφο. Ο πίνακας αυτός υπολογίζεται μια φορά κατά την εκκίνηση του συστήματος. [ ] Πολλαπλασιάζοντας το διάνυσμα με τον παίρνουμε ένα διάνυσμα, το οποίο αποτελείται από την ομοιότητα του query με κάθε έγγραφο της συλλογής. 4 Αναγνώριση ερωτήσεων Η διαδικασία της ταξινόμησης μιας δημοσίευσης ως ερώτηση προς αποθήκευση γίνεται σε δύο στάδια. Αρχικά, η δημοσίευση ταξινομείται ως ερωτηματική αν περιέχει τουλάχιστον μια πρόταση που είναι ερώτηση. Στην συνέχεια, εκτιμάται η «σημαντικότητα» της δημοσίευσης / ερώτησης, για να αποφασιστεί αν εισαχθεί στην βάση γνώσης. Για παράδειγμα και οι δύο ακόλουθες δημο-

σιεύσεις ταξινομήθηκαν αρχικά ως ερωτηματικές. Όμως μόνο η πρώτη έχει αξία να αποθηκευτεί στη βάση γνώσης. Δημοσίευση 1: «Τι είναι το segmentation fault;». Δημοσίευση 2: «Δηλαδή μπορώ να έρθω αργότερα?» Το πρώτο στάδιο του αλγορίθμου βασίζεται σε έναν συνδυασμό ευριστικών συναρτήσεων και σε μια σειρά από patterns ερωτηματικών προτάσεων που προσπαθεί να ταιριάξει. Η δημοσίευση χωρίζεται σε προτάσεις και κάθε πρόταση χωρίζεται σε φράσεις. Για την αναγνώριση χρησιμοποιούνται η πρώτη και η τελευταία φράση. Οι ενδιάμεσες φράσεις συνήθως περιέχουν επεξηγήσεις και μπορούμε να τις παραλείψουμε. Οι ευριστικές συναρτήσεις που χρησιμοποιούνται είναι οι εξής: Ύπαρξη ερωτηματικού στο τέλος της πρότασης Αρχή της φράσης με ερωτηματική λέξη κλειδί (π.χ. πότε) Αρχή της φράσης με μια λιγότερο πιθανή ερωτηματική λέξη Επίσης ελέγχεται αν η φράση ταιριάζει σε ένα από τα 20 patterns που δημιουργήθηκαν για το σκοπό αυτό. Ένα παράδειγμα αποτελεί το: "^ΜΠΟΡΕΙ\s+(ΚΑΠΟΙΟΣ ΚΑΝΕΙΣ)\s+(ΝΑ)\s". Συνδυάζοντας τα αποτελέσματα των ευριστικών και το κατά πόσο βρέθηκε ένα pattern, υπολογίζεται μια τιμή (confidence) που εκφράζει κατά πόσο η πρόταση αποτελεί ερώτηση. Στο δεύτερο στάδιο, ο αλγόριθμος αποκλείει ερωτήσεις που δεν έχουν ιδιαίτερη αξία για να αποθηκευτούν. Στο στάδιο αυτό ελέγχονται οι εξής παράμετροι: Χρήστης που έκανε την δημοσίευση Μέγεθος δημοσίευσης Αριθμός παραθέσεων (quote) στην δημοσίευση Ερώτηση μέσα σε εισαγωγικά ή παρενθέσεις Συνήθως οι ερωτήσεις γίνονται από τους φοιτητές και όχι από καθηγητές ή συνεργάτες μαθήματος. Επίσης, έχει παρατηρηθεί ότι οι «καλές» ερωτήσεις δεν είναι πολύ μεγάλες σε μέγεθος, ούτε πολύ μικρές (π.χ. «Σωστά?»). Ακόμα, οι ερωτηματικές δημοσιεύσεις σπάνια κάνουν quote κάποια άλλη δημοσίευση. Τέλος,

οι ερωτήσεις μέσα σε εισαγωγικά, συνήθως έχουν αντίστοιχη σημασία με τα quotes, ενώ αυτές που βρίσκονται μέσα σε παρενθέσεις δεν αποτελούν το βασικό μήνυμα της δημοσίευσης, οπότε αγνοούνται. Με βάση αυτά προσαρμόζεται ανάλογα το confidence της ερώτησης. Όσες ερωτήσεις δεν αποκλείστηκαν, αποθηκεύονται στην βάση δεδομένων. Πριν αναζητηθούν οι α- παντήσεις τους, μπορεί να υπάρξει ένας ενδιάμεσος χειροκίνητος έλεγχος, μέσω της διεπαφής που δημιουργήθηκε. 5 Εύρεση ζευγών ερωτήσεων απαντήσεων Για την αναγνώριση της απάντησης σε μια δεδομένη ερώτηση υλοποιήθηκε μια μέθοδος που βασίζεται στις μηχανές διανυσμάτων υποστήριξης (SVM). Ως υποψήφιες απαντήσεις σε μια ερωτηματική δημοσίευση, θεωρούνται οι 10 επόμενες δημοσιεύσεις μετά την ερώτηση. Για μια δεδομένη ερωτηματική δημοσίευση Q και μια υποψήφια απάντηση A, τα χαρακτηριστικά που χρησιμοποιούνται είναι τα εξής: 1. Αν η Q γίνεται quote στην A 2. Είδος χρήστη (φοιτητής ή όχι) που δημοσίευσε την Α 3. Πλήθος posts που μεσολαβούν μεταξύ Α και Q 4. Ομοιότητα συνημιτόνου μεταξύ Q και Α 5. Αν η Α περιέχει code tag Η επιλογή του 2 ου χαρακτηριστικού έγινε με βάση το ότι οι καθηγητές και οι συνεργάτες του μαθήματος συνηθίζουν να απαντούν, παρά να κάνουν ερωτήσεις. Επίσης, το γεγονός ότι μια δημοσίευση περιέχει κομμάτι κώδικα μπορεί είναι μια ένδειξη για το αν είναι απάντηση (5 ο χαρακτηριστικό). Ο πυρήνας που επιλέχτηκε για τον SVM, είναι ο Radial Basis Function:. Η αποτελεσματικότητα του SVM βασίζεται κατά πολύ στην επιλογή των σωστών παραμέτρων [6]. Για τον προσδιορισμό του βέλτιστου συνδυασμού, δοκιμάζονται διάφορες τιμές τους από ένα πλέγμα. Κάθε συνδυασμός ελέγχεται με N-fold cross validation στο σύνολο εκπαίδευσης. Ο συνδυασμός παραμέτρων που δίνει το καλύτερο αποτέλεσμα χρησιμοποιείται για την εκπαίδευση του μοντέλου.

6 Αντιμετώπιση νέων ερωτήσεων Τα υποσυστήματα του προγράμματος απάντησης νέων ερωτήσεων φαίνονται στο αριστερό μισό του διαγράμματος (Διάγραμμα 1). Ο Forum Client αναλαμβάνει την επικοινωνία με το forum μέσω του πρωτοκόλλου HTTP, μιμούμενος την λειτουργία ενός web browser. Το υποσύστημα παρακολούθησης (Forum Monitoring) ελέγχει το forum για νέες δημοσιεύσεις ανά τακτά χρονικά διαστήματα. Ο Question Classifier είναι υπεύθυνος για την ταξινόμηση ενός κειμένου ως ερώτηση ή όχι και είναι ο ίδιος με αυτόν αναλύθηκε στο κεφάλαιο 4. Το βασικότερο υποσύστημα είναι το Question Matching. Αυτό έχει ως σκοπό να ταιριάξει μια καινούρια ερώτηση με κάποια από τις υπάρχουσες στη βάση γνώσης, υπολογίζοντας την ομοιότητα συνημιτόνου όπως παρουσιάστηκε στο κεφάλαιο 3.2. 7 Αποτελέσματα Από το forum του μαθήματος «Εισαγωγή στον προγραμματισμό», έγιναν annotate 1215 δημοσιεύσεις από 36 διαφορετικά νήματα με εφαρμογή που δημιουργήθηκε για αυτό το σκοπό. Για τα πειράματα χρησιμοποιήθηκε υπολογιστής με επεξεργαστή Intel Core i7 Q720 @ 1.6 GHz με 6GB RAM. 7.1 Αναγνώριση ερωτήσεων Κάθε δημοσίευση που περιείχε τουλάχιστον μια ερώτηση (ευθεία ή πλάγια) είχε χαρακτηριστεί ως ερώτηση. Από τις 1215 δημοσιεύσεις, οι 455 περιείχαν τουλάχιστον μια ερώτηση. Οι δημοσιεύσεις περιείχαν κατά μέσο όρο 3.06 προτάσεις. Ο αλγόριθμος που δοκιμάζεται είναι αυτός που αποφασίζει αν μια δημοσίευση περιέχει τουλάχιστον μια ερώτηση. Στον πίνακα που ακολουθεί εμφανίζονται τα αποτελέσματα για διάφορες τιμές κατωφλιού. Η μέθοδος αναγνώρισης ερωτήσεων που προτείνεται δίνει πολύ καλά αποτελέσματα, ελαφρώς χειρότερα από της μεθόδου [1]. Μια ευθεία σύγκριση των μεθόδων δεν θα ήταν σωστή αφού τα αποτελέσματα είναι σε διαφορετικά σύνολα δεδομένων και σε διαφορετικές γλώσσες. Ο μέσος χρόνος απόφασης ανά πρόταση είναι 0.37ms. Χωρίς τη προεπεξεργασία, ο μέσος χρόνος από-

φασης ανά πρόταση 0.13ms. Για τιμή κατωφλιού 0.7 ο αλγόριθμος αναγνώρισης ερωτηματικών δημοσιεύσεων επέστρεψε τις 416 από τις 455. Ο αλγόριθμος επιλογής «καλών» ερωτήσεων κράτησε τις 140 από αυτές. Έτσι τελικά, αν κάποιος θέλει να ε- λέγξει τις ερωτήσεις πριν αυτές μπουν στην βάση γνώσης, χρειάζεται να διαβάσει μόνο το 11.6% των αρχικών δημοσιεύσεων. Σε σύγκριση με το [4], ο αλγόριθμος της παρούσας εργασίας κάνει παραπλήσιο χρόνο ανά πρόταση. Κατώφλι Precision Recall F 1 0 0.8516 0.9208 0.8848 0.5 0.891 0.9164 0.9035 0.7 0.8965 0.9142 0.9053 0.9 0.968 0.2747 0.428 Πίνακας 1. Αποτελέσματα αναγνώρισης ερωτήσεων 7.2 Αναγνώριση ζευγών ερώτησης απάντησης Για την αξιολόγηση του SVM αναγνώρισης ζευγών ερώτησης απάντησης, χρησιμοποιήθηκε το annotated σύνολο δεδομένων που περιγράφηκε προηγουμένως. Από το σύνολο των 1215 ε- ρωτήσεων, σημειώθηκαν απαντήσεις για τις 225 από αυτές. Ο- ρισμένες ερωτήσεις έχουν πολλαπλές απαντήσεις, έτσι δημιουργήθηκαν 289 ζεύγη ερωτήσεων - απαντήσεων, τα οποία αποθηκεύτηκαν ως θετικά δείγματα. Για αρνητικά δείγματα χρησιμοποιήθηκαν οι 10 επόμενες δημοσιεύσεις (υποψήφιες απαντήσεις που δεν είναι σωστές) από κάθε ερώτηση. Έτσι, δημιουργήθηκε ένα σύνολο με 289 θετικά δείγματα και 1845 αρνητικά. Τα πειράματα έγιναν σε ερωτήσεις για τις οποίες υπήρχε τουλάχιστον μια σωστή απάντηση. Τα αποτελέσματα κάθε αλγορίθμου φαίνονται στο Διάγραμμα 2. Για λόγους σύγκρισης δημιουργήθηκαν δύο απλοί αλγόριθμοι: Random: Επιλογή τυχαίας απάντησης από τις 10 υποψήφιες First Quote: Επιλογή της πρώτης υποψήφιας απάντησης που παραθέτει την ερώτηση

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Random First Quote SVM Precision Recall F1 Διάγραμμα 2. Αποτελέσματα αναγνώρισης ζευγών ερώτησης - απάντησης Αναφορές [1] G. Cong, L. Wang, C.Y. Lin, Y.I. Song, and Y. Sun, "Finding question-answer pairs from online forums," in Proceedings of the 31st International Conference on Research and Development in Information Retrieval (SIGIR 08), 2008, pp. 467-474. [2] J. Pei et al., "PrefixSpan: Mining sequential patterns efficiently by prefix-projected pattern growth," in Proceedings of the 10th International Conference on Computer Communication Networks (ICCCN 01), 2001, p. 0215. [3] L. Shrestha and K. McKeown, "Detection of question-answer pairs in email conversations," in Proceedings of the 20th International Conference on Computational Linguistics (COLING 04), 2004, p. 889. [4] H. Kwong and N. Yorke-Smith, "Detection of imperative and declarative question-answer pairs in email conversations," in Proceedings of the 21st International Jont Conference on Artifical intelligence (IJCAI 09), Pasadena, California, USA, 2009. [5] G. Ntais, "Development of a Stemmer for the Greek Language," Stockholm University - Royal Institute of Technology, Stockholm, 2006. [6] C. Hsu, C. Chang, and C. Lin, A practical guide to support vector classification, 2003.