Διπλωματική Εργασία. Αναζήτηση μηνυμάτων κοινωνικών μέσων σχετικών με γεγονότα με χρήση τεχνικών ανάκτησης πληροφορίας

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Διπλωματική Εργασία Αναζήτηση μηνυμάτων κοινωνικών μέσων σχετικών με γεγονότα με χρήση τεχνικών ανάκτησης πληροφορίας Εκπόνηση : Επιβλέπων Καθηγητής : Ζησόπουλος Γεώργιος Περικλής Α. Μήτκας ΑΕΜ : 6647 ΘΕΣΣΑΛΟΝΙΚΗ ΟΚΤΩΒΡΙΟΣ 2016

2 Στον άγγελο που μας προσέχει πια από κει ψηλά, για σένα Μαμά 2

3 Ευχαριστίες Φτάνοντας στο τέλος της διαδρομής μου στο Τμήμα θα ήθελα να ευχαριστήσω μια σειρά ανθρώπων που στάθηκαν δίπλα μου και βοήθησαν, ο καθένας με τον τρόπο του, να φτάσω ως εδώ. Όλους τους καθηγητές μου για τις γνώσεις που μου μετέδωσαν μέσω των διαλέξεων, των εργαστηρίων και των εργασιών που μας ανέθεσαν. Πολλά και διαφορετικά αντικείμενα τα οποία άνοιξαν τους ορίζοντές μου και με βοήθησαν να αντιληφθώ την έννοια του Μηχανικού. Ιδιαιτέρως τον καθηγητή κ. Περικλή Α. Μήτκα που μου εμπιστεύθηκε και μου ανέθεσε την παρούσα διπλωματική εργασία. Έτσι είχα την ευκαιρία να μελετήσω και να ασχοληθώ με πολύ ενδιαφέροντα αντικείμενα και να αξιοποιήσω γνώσεις που απέκτησα μέσω των μαθημάτων του. Tον υποψήφιο διδάκτορα Μάνο Σχοινά για την καθοριστική και πολύτιμη συμβολή του στην υλοποίηση αυτής της εργασίας. Συνεργαστήκαμε στενά σε όλη την διάρκεια της εκπόνησης της εργασίας, με καθοδήγησε, μου έλυσε απορίες και με βοήθησε πολύ σε ό,τι χρειάστηκα. Τέλος, την οικογένειά μου. Μητέρα, πατέρας, αδερφή και πολλοί άλλοι, ήταν πάντα στο πλευρό μου, με υποστήριξαν και με παρακίνησαν σε όλες τις καλές και τις άσχημες στιγμές. Το ίδιο και οι φίλοι μου τους οποίους επίσης θεωρώ οικογένειά μου. 3

4 Περίληψη Η παρούσα διπλωματική εργασία ασχολείται με την αναζήτηση και την ανάδειξη των πιο σχετικών δημοσιεύσεων στο Twitter για μια σειρά ειδήσεων που είναι εκ των προτέρων γνωστές. Αρχικά γίνεται η συλλογή των περιγραφών των ειδήσεων από το Portal:Current Events της Wikipedia με την βοήθεια της τεχνικής Web Scraping. Στην συνέχεια, αξιοποιώντας ένα σύνολο τεχνικών επεξεργασίας φυσικής γλώσσας (NLP), εξάγεται ένα πλήθος διαφορετικών τύπων οντοτήτων και φράσεων που στην συνέχεια αξιοποιούνται για τον σχηματισμό ερωτημάτων (queries). Με την χρήση αυτών των ερωτημάτων αναζητείται και συλλέγεται ένα μεγάλο πλήθος από tweets από την βάση δεδομένων του Twitter και αποθηκεύεται τοπικά σε μια μη σχεσιακή βάση δεδομένων. Στην συνέχεια, το σύνολο των tweets που έχει συλλεχθεί δεικτοδοτείται με την βοήθεια της βιβλιοθήκης Apache Lucene. Η δεικτοδότηση εξυπηρετεί τόσο στην γρήγορη αναζήτηση των αποθηκευμένων tweets στην τοπική βάση δεδομένων, όσο και στην βαθμολόγηση των tweets (scoring). Έπειτα, κάνοντας χρήση τεχνικών ανάκτησης πληροφορίας επιλέγονται τα πιο σχετικά από τα tweets που συλλέχθηκαν για κάθε είδηση με βάση την βαθμολογία (score) που έχουν αποσπάσει από την Lucene κατά την διαδικασία της αναζήτησης και αναλόγως την τεχνική που έχει επιλεγεί. Αξιοποιήθηκαν σε μεγαλύτερο βαθμό τεχνικές που βασίζονται στο Vector Space Model. Έγιναν επίσης κάποια πειράματα και δοκιμές με τεχνικές που εκμεταλλεύονται τα γλωσσικά μοντέλα και την τεχνική ανάδρασης ψευδοσχετικότητας (Pseudo-Relevance Feedback). Τέλος, υπολογίζεται μια σειρά μετρικών πρόβλεψης της ποιότητας των ερωτημάτων και εκτιμάται η συσχέτιση αυτών με την ακρίβεια των αποτελεσμάτων που επιτυγχάνουν τα ερωτήματα. Στόχος αυτής της διαδικασίας είναι η εύρεση ενός υποσυνόλου ερωτημάτων που φέρνουν σαν αποτελέσματα τα πιο σχετικά με την εκάστοτε είδηση tweets. 4

5 Diploma Thesis Identification of event-related messages in social media by leveraging Information Retrieval techniques Abstract The present Diploma Thesis has a goal of collecting and the selecting the most relevant tweets extracted from a given set of news and events. Firstly, we collect daily news descriptions as published on Wikipedia s Portal: Current Events website. This is achieved by using web scraping techniques. Afterwards, we extract a set of important terms, entities and phrases for each event, exploiting a number of various natural language processing methods. All these terms are combined and form a set of queries for every event. We make use of the queries formed previously to search the Twitter Database for relevant content. The collected tweets constitute a large corpus which is then stored to a local non-relational Database. All the tweets in the corpus are then indexed by Apache Lucene Library. Indexing is useful not only facilitating fast search and retrieval from the local database, but also helping with scoring of the collected tweets. We use the score given by Lucene combined with a number of information retrieval techniques so as to pick the most relevant tweets for every event. We concentrate mostly on Vector Space Model techniques. However, we also tried to leverage and incorporate to our methods, language models along with pseudorelevance feedback techniques. Finally, we estimate a set of query quality metrics in order to attempt to derive any correlation between them and the precision of the results that each query obtains. The ultimate goal is picking a subset of them that can obtain the most relevant results, in the case of an enormous set of queries for an information need. 5

6 Πίνακας περιεχομένων Ευχαριστίες... 3 Περίληψη... 4 Abstract... 5 Λίστα Σχημάτων... 7 Λίστα Πινάκων... 9 Γλωσσάρι ΕΙΣΑΓΩΓΗ Στόχοι της διπλωματικής Μεθοδολογία Διάρθρωση ΥΠΟΒΑΘΡΟ Web Scraping Document Object Model (DOM) MongoDB Επεξεργασία Φυσικής Γλώσσας (NLP) Named Entity Recognition Part of speech (POS) Tagging NLP Parser Information Retrieval Vector space model Γλωσσικά Μοντέλα Pseudo-Relevance Feedback Μοντέλα Σχετικότητας Apache Lucene ΣΧΕΤΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ ΜΕΘΟΔΟΛΟΓΙΑ Αρχιτεκτονική Συστήματος Συλλογή Ειδήσεων και Γεγονότων Εξαγωγή σημαντικών όρων και σχηματισμός ερωτημάτων Συλλογή Tweets

7 4.5 Δεικτοδότηση (Indexing) Επιλογή των πιο σχετικών tweets Vector Space model-based Retrieval Language model-based Retrieval Μετρικές ποιότητας ερωτημάτων ΠΕΙΡΑΜΑΤΑ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ Δεδομένα Ειδήσεις Εξαγωγή όρων - Σχηματισμός ερωτημάτων Συλλογή tweets Επιλογή των πιο σχετικών tweets Dataset 06/05/ Dataset 08/05/ Ανάκτηση των πιο σχετικών tweets με την χρήση γλωσσικών μοντέλων Μετρικές ποιότητας ερωτημάτων ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΑΙ ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ Βιβλιογραφία Λίστα Σχημάτων Σχήμα 1.1 : Παράδειγμα Timeline και φωτογραφίας διαμοιρασμένης μέσω του Twitter Σχήμα 2.1 : Παράδειγμα DOM δέντρου για ένα αρχείο HTML Σχήμα 2.2 : Εξαγωγή Named Entities από το Stanford NER Σχήμα 2.3 : Ανάλυση tweet από τον Stanford POS Tagger Σχήμα 2.4 : Ανάλυση tweet από τον Ark TweetNLP POS Tagger Σχήμα 2.5 : Αποτέλεσμα ανάλυσης ενός tweet από τον Apache opennlp Parser Σχήμα 2.6 : Αναπαράσταση του Vector Space Model Σχήμα 2.7 : Τρεις τρόποι προσέγγισης του γλωσσικού μοντέλου: (a)πιθανότητα ερωτήματος, (b)πιθανότητα εγγράφου, και (c) σύγκριση μοντέλων Σχήμα 2.8 : Στιγμιότυπο του Lucene Index

8 Σχήμα 2.9 : Δομή αποθηκευμένων εγγράφων στο Lucene Index Σχήμα 4.1 : Η Αρχιτεκτονική του Συστήματος Σχήμα 4.2 : Οι ημερήσιες ειδήσεις όπως αναρτώνται στο Portal: Current Events της Wikipedia Σχήμα 4.3 : Το πρώτο μέρος του δέντρου DOM της αρχικής σελίδας του Portal:Current_Events της Wikipedia Σχήμα 4.4 : Το πρώτο μέρος του δέντρου DOM του πίνακα των ειδήσεων της ημέρας Σχήμα 4.5 : Το δεύτερο τμήμα του δέντρου DOM του πίνακα των ειδήσεων της ημέρας Σχήμα 4.6 : BSON Document μιας είδησης της ημερομηνίας στην βάση δεδομένων Σχήμα 4.7 : Παράδειγμα είδησης και εξαχθέντων όρων Σχήμα 4.8 : Twitter Paging Σχήμα 4.9 : Το BSON Document ενός Tweet στην βάση δεδομένων Σχήμα 4.10 : Διάγραμμα ροής αλγορίθμου αναζήτησης tweets Σχήμα 5.1 : Βάρη των top 100 tweets Είδησης 2 08/05/2016 (TFIDF, Maxscore) Σχήμα 5.2 : Βάρη των top 100 tweets Είδησης 2 08/05/2016 (αρχικό index, TFIDF, Maxscore, MMR) Σχήμα 5.3 : Βάρη των top 100 tweets Είδησης 2 08/05/2016 (νέο index, TFIDF, Maxscore) Σχήμα 5.4 : Βάρη των top 100 tweets Είδησης 2 08/05/2016 (new index, TFIDF, Maxscore, MMR) Σχήμα 5.5 : Scatter Plot Precision SCQmax Σχήμα 5.6 : Scatter Plot Precision Size Σχήμα 5.7 : Scatter Plot Precision IDFSum Σχήμα 5.8 : Scatter Plot Precision IDFmax Σχήμα 5.9 : Scatter Plot Precision SCQsum Σχήμα 5.10 : Scatter Plot Precision ICTFsum Σχήμα 5.11 : Scatter Plot Precision ICTFmax

9 Λίστα Πινάκων Πίνακας 4.1 : Εξαχθέντες Όροι Πίνακας 5.1 : Ειδήσεις 06/05/ Πίνακας 5.2 : Ειδήσεις 08/05/ Πίνακας 5.3 : Ερωτήματα είδησης από 08/05/ Πίνακας 5.4 : Ερωτήματα είδησης από 06/05/ Πίνακας 5.5 : Πληροφορίες των Datasets Πίνακας 5.6 : Top 20 Tweets είδησης 1 06/05/2016 (ΒΜ25,Maxscore) Πίνακας 5.7 : Ακρίβεια αποτελεσμάτων για τις 06/05/ Πίνακας 5.8 : Ακρίβεια αποτελεσμάτων για 08/05/2016 (αρχικό index) Πίνακας 5.9 : Top 20 Tweets Είδησης 2 08/05/2016 (TFIDF, Maxscore) Πίνακας 5.10 : Ακρίβεια αποτελεσμάτων για 08/05/2016 (αρχικό index, MMR) Πίνακας 5.11 : Top 20 Tweets Είδησης 2 08/05/2016 (TFIDF, Maxscore, MMR) Πίνακας 5.12 : Top 20 Tweets Είδησης 2 08/05/2016 (νέο index, TFIDF, Maxscore) Πίνακας 5.13 : Ακρίβεια αποτελεσμάτων για 08/05/2016 (νέο index) Πίνακας 5.14 : Ακρίβεια αποτελεσμάτων για 08/05/2016 (νέο index, MMR) Πίνακας 5.15 : Top 20 Tweets Είδησης 2 08/05/2016 (νέο index, TFIDF, Maxscore, MMR) Πίνακας 5.16 : Ακρίβεια αποτελεσμάτων για γλωσσικά μοντέλα Πίνακας 5.17: Top 20 Tweets Είδησης 2 08/05/2016 (LMD index, LMD + PRF, MMR) Πίνακας 5.18: Concatenated και Expanded Queries της Είδησης 2 (08/05/2016) Πίνακας 5.19 : Concatenated και Expanded Queries της Είδησης 2 (08/05/ Πίνακας 5.20 : Top 20 Tweets Είδησης 12 06/05/2016 (LMD index, LMD + PRF, MMR) Πίνακας 5.21 : Ακρίβεια των 28 τυχαίων ερωτημάτων Πίνακας 5.22 : Συσχετίσεις μετρικών ποιότητας ερωτημάτων - ακρίβειας

10 Γλωσσάρι API Cosine Similarity Database Dataset Element HTML Indexing Information Retrieval (IR) Information Extraction Inverse document frequency (Idf) Microblogging service NLP Query Relevance Request Status Tag Term frequency Tweet Web Automation Web bot Web Scraping Διεπαφή προγραμματισμού εφαρμογών Συνημιτονοειδής ομοιότητα μεταξύ των διανυσμάτων δύο εγγράφων Βάση Δεδομένων Σύνολο δεδομένων προς επεξεργασία Στοιχείο Γλώσσα σήμανσης υπερκειμένου Δεικτοδότηση Επιστήμη ανάκτησης πληροφορίας Εξαγωγή πληροφορίας Ποσότητα ανάστροφη της συχνότητας εμφάνισης ενός όρου στα έγγραφα μιας συλλογής Υπηρεσία διαμοιρασμού σύντομων κειμένων Επεξεργασία φυσικής γλώσσας Ερώτημα προς βάση δεδομένων Σχετικότητα Αίτημα Κοινοποίηση κατάστασης Ετικέτα Συχνότητα εμφάνισης ενός όρου Κείμενο έως 140 χαρακτήρων που δημοσιεύεται στο Twitter από τους χρήστες Διαδικτυακός αυτοματισμός Αυτόνομο διαδικτυακό πρόγραμμα Τεχνική εξαγωγής περιεχομένου από το διαδίκτυο 10

11 1. ΕΙΣΑΓΩΓΗ Ζούμε σε μια εποχή στην οποία τα μέσα κοινωνικής δικτύωσης αποτελούν αναπόσπαστο μέρος της καθημερινότητάς μας. Η ανάπτυξή τους τα τελευταία χρόνια είναι ραγδαία και συνεχίζεται με αμείωτο ρυθμό. Όλο και περισσότεροι άνθρωποι, όλων των ηλικιών, εθνικοτήτων και κοινωνικών στρωμάτων γίνονται ενεργοί χρήστες, με αποτέλεσμα η παρακολούθηση των κοινωνικών δικτύων να μπορεί να αντικατοπτρίσει σε μεγάλο βαθμό την πραγματική κοινωνία και την κοινή γνώμη. Ένας πολύ βασικός παράγοντας για αυτή την εξάπλωση αποτελεί και η μαζική διείσδυση των έξυπνων κινητών τηλεφώνων (smartphones) στην αγορά. Το κόστος αγοράς τους έχει μειωθεί αισθητά, με αποτέλεσμα να μπορεί πλέον σχεδόν ο καθένας να τα αποκτήσει. Επίσης, η εξέλιξη των δικτύων και ειδικά η αύξηση των ταχυτήτων τόσο των ευρυζωνικών ενσύρματων συνδέσεων, όσο δε πολύ περισσότερο των ασύρματων δικτύων κινητής τηλεφωνίας 3G και 4G, έχει καταστήσει εφικτή την απροβλημάτιστη πρόσβαση των χρηστών αλλά και τον διαμοιρασμό πολυμεσικού περιεχομένου σε πραγματικό χρόνο, από οποιοδήποτε σημείο του κόσμου. Ένα από τα πλέον δημοφιλή μέσα κοινωνικής δικτύωσης αποτελεί αναμφισβήτητα το Twitter. Με 310 εκατομμύρια ενεργούς χρήστες κάθε μήνα 1 και πάνω από 500 εκατομμύρια tweets κάθε μέρα 2 είναι σταθερά μέσα στις 10 δημοφιλέστερες ιστοσελίδες παγκοσμίως 3. Το Twitter ανήκει στην κατηγορία των microblogging services. Δίνει την δυνατότητα στους χρήστες του να δημοσιεύουν σύντομες ενημερώσεις κατάστασης (status), τα λεγόμενα tweets, με περιορισμό τους 140 χαρακτήρες. Ήταν ένας περιορισμός που μπήκε όταν δημιουργήθηκε το Twitter με σκοπό να μπορούν οι χρήστες να δημοσιεύουν tweets και μέσω SMS, και διατηρείται

12 Κεφάλαιο 1 Εισαγωγή μέχρι και σήμερα. Ένα ακόμα στοιχείο που δείχνει την μεγάλη επιρροή του είναι ότι πλήθος όρων που κυριαρχούν πλέον σε πολλά μέσα κοινωνικής δικτύωσης εμφανίστηκαν πρώτα στο Twitter. Hashtag, Follow, Retweet, Mention είναι κάποια από αυτά. Σχήμα 1.1 : Παράδειγμα Timeline και φωτογραφίας διαμοιρασμένης μέσω του Twitter Οι χρήστες του Twitter αποτελούνται από μαθητές κι έφηβους μέχρι εταιρίες κολοσσούς και αρχηγούς κρατών. Μέσα σε αυτούς τους 140 χαρακτήρες ένας χρήστης μπορεί να γράφει για κάτι που συνέβη σήμερα στο σχολείο του, τα συναισθήματά του για ένα προσωπικό γεγονός, να δημοσιεύει ένα αστείο βίντεο ή να σχολιάζει τον τελευταίο αγώνα της αγαπημένης του ομάδας. Από την άλλη μπορεί να δημοσιεύει μια σημαντική είδηση, να ενημερώνει για νεκρούς και τραυματίες σε μια φυσική καταστροφή ή να ανακοινώνει μια κρίσιμη πολιτική απόφαση. Συνεπώς η πληροφορία που αναρτάται στο Twitter χαρακτηρίζεται από μεγάλη ποικιλομορφία και ανάλογα την περίσταση, η χρησιμότητά της μπορεί να θεωρηθεί από εντελώς ασήμαντη έως ζωτικής σημασίας. Ο κάθε χρήστης φυσικά μπορεί να επιλέξει ποιους χρήστες θα ακολουθεί ώστε να βλέπει περιεχόμενο σχετικό με τους φίλους του, τα ενδιαφέροντα και τις ανάγκες του. Μία από τις πλέον σημαντικές προεκτάσεις και χρήσεις του Twitter αποτελεί η ενημέρωση σχετικά με τις ειδήσεις και την επικαιρότητα σε όλο τον κόσμο. Πλέον, σχεδόν το σύνολο των μεγάλων ειδησεογραφικών πρακτορείων παγκοσμίως διατηρούν λογαριασμούς στο Twitter, και μάλιστα πολύ δραστήριους. Αποτελεί μάλιστα πλέον πολύ συχνό φαινόμενο να εμφανίζονται πολλές ειδήσεις πρώτα στο Twitter και μετά να αναδημοσιεύονται σε τηλεοπτικά κανάλια, ραδιοφωνικούς σταθμούς, ειδησεογραφικές ιστοσελίδες και εφημερίδες. Πέρα από τα 12

13 Κεφάλαιο 1 Εισαγωγή ειδησεογραφικά πρακτορεία και τους δημοσιογράφους τους οι οποίοι στην συντριπτική πλειοψηφία των περιπτώσεων αναπαράγουν επιβεβαιωμένες και έγκυρες ειδήσεις, υπάρχουν και οι απλοί χρήστες οι οποίοι δημοσιεύουν πληροφορίες σχετικές με ειδήσεις, οι οποίες σε πολλές περιπτώσεις, δίνουν μια διαφορετική οπτική των γεγονότων, και πολλές φορές δείχνουν την πραγματική εικόνα μιας κατάστασης μιας και ο χρήστης μπορεί εκείνη την στιγμή να βρίσκεται στο επίκεντρό της. Οι πληροφορίες αυτές μπορεί να αφορούν μια εξέλιξη σε ένα γεγονός που βρίσκεται σε εξέλιξη, τα συναισθήματα ή την στήριξη του χρήστη στους παθόντες κάποιου δυστυχήματος ή ακόμα κάποιο χιουμοριστικό μήνυμα που διακωμωδεί ένα γεγονός. Σε κάθε περίπτωση όλη αυτή η πληροφορία μπορεί να θεωρηθεί χρήσιμη μιας και προσδίδει μια επαυξημένη και πιο πλήρη εικόνα για ένα γεγονός, σε σύγκριση με ένα σοβαρό άρθρο μιας εφημερίδας ή ένα ρεπορτάζ δημοσιογραφικού πρακτορείου, που έχει πιο αποστειρωμένο χαρακτήρα. 1.1 Στόχοι της διπλωματικής Η πληροφορία που συγκεντρώνεται στο Twitter για γεγονότα και ειδήσεις, αν και έχει μεγάλο όγκο, παρόλα αυτά είναι απόλυτα κατακερματισμένη. Επομένως είναι αρκετά δύσκολο έως αδύνατο για έναν χρήστη να συγκεντρώσει και να ξεχωρίσει τα tweets αυτά τα οποία θα του δώσουν μια συνολική εικόνα για ένα γεγονός. Στόχος της εργασίας είναι να βρεθεί μια μέθοδος με την οποία θα μπορούν να συγκεντρωθούν τα πιο σχετικά tweets για μια σειρά γεγονότων και ειδήσεων, δίνοντας μεγάλη βαρύτητα στην ακρίβεια των αποτελεσμάτων με αξιοποίηση τεχνικών ανάκτησης πληροφορίας (Information Retrieval). Ειδικότερα, από την περιγραφή των γεγονότων θα επιχειρηθεί να γίνει η εξαγωγή χρήσιμων όρων και ο σχηματισμός ερωτημάτων προς την βάση δεδομένων του Twitter. Ακολούθως θα γίνει μια προσπάθεια να επιλεγούν τα ερωτήματα αυτά τα οποία επιστρέφουν τα πιο ακριβή αποτελέσματα με την βοήθεια μετρικών αξιολόγησης της ποιότητας των ερωτημάτων. 1.2 Μεθοδολογία Το πρώτο βήμα στην εργασία είναι η συγκέντρωση ενός πλήθους ειδήσεων και γεγονότων, τα οποία να προέρχονται από κάποια αξιόπιστη πηγή. Επιλέχθηκε το Portal:Current events 4 της Wikipedia το οποίο δημοσιεύει τις σημαντικότερες ειδήσεις της ημέρας από όλο τον κόσμο. Η συλλογή των ειδήσεων γίνεται μέσω της

14 Κεφάλαιο 1 Εισαγωγή τεχνικής web scraping και έπειτα (MongoDB). αποθηκεύονται σε μια βάση δεδομένων Στην συνέχεια, για κάθε είδηση, γίνεται εξαγωγή χρήσιμων όρων και φράσεων με την βοήθεια τεχνικών επεξεργασίας φυσικής γλώσσας (Natural Language Processing, NLP) και αυτοί οι όροι προστίθενται επίσης στην βάση δεδομένων. Ακολούθως σχηματίζονται τα ερωτήματα που θα χρησιμοποιηθούν στην πορεία και τα οποία προκύπτουν από συνδυασμούς των όρων που εξάχθηκαν στο προηγούμενο βήμα. Τα ερωτήματα αυτά επίσης αποθηκεύονται στην βάση, σε μια ξεχωριστή συλλογή (Collection). Στο επόμενο βήμα γίνεται χρήση του REST API του Twitter και πιο συγκεκριμένα του Search API, με την βοήθεια του οποίου γίνεται η συλλογή tweets από την βάση δεδομένων του Twitter, αξιοποιώντας τα ερωτήματα που σχηματίσθηκαν στο προηγούμενο βήμα. Το Twitter Search API δίνει την δυνατότητα για αναζήτηση μόνο σε ένα δείγμα από tweets που έχουν δημοσιευτεί τις τελευταίες 7 ημέρες 5. Εξαιτίας αυτού του περιορισμού επιλέχθηκε μια προσέγγιση πραγματικού χρόνου, λαμβάνοντας δηλαδή υπόψιν μόνο πολύ πρόσφατες ειδήσεις. Τα tweets που συνελέγησαν αποθηκεύονται σε μια ξεχωριστή συλλογή της βάσης δεδομένων. Στην συνέχεια αξιοποιείται η βιβλιοθήκη Apache Lucene 6 για την δεικτοδότηση (indexing) των tweets. Η δεικτοδότηση θα φανεί χρήσιμη στην πορεία τόσο για την γρήγορη αναζήτηση των αποθηκευμένων tweets, όσο και για τις δυνατότητες βαθμολόγησης και κατάταξης των αποτελεσμάτων της αναζήτησης. Έπειτα, γίνεται η επιλογή των πιο σχετικών tweets για κάθε είδηση με μια σειρά διαφορετικών μεθόδων, και η αξιολόγηση των αποτελεσμάτων. Για την επιλογή των πιο σχετικών tweets γίνεται αναζήτηση στο ευρετήριο που έχει δημιουργηθεί από την Lucene, με την χρήση των ερωτημάτων που είχαν χρησιμοποιηθεί και για την ανάκτηση των tweets από την βάση δεδομένων του Twitter. Το κάθε tweet που επιστρέφει από την αναζήτηση στο ευρετήριο, συνοδεύεται από ένα βάρος που σχετίζεται με την ομοιότητά του με το ερώτημα που χρησιμοποιήθηκε και από άλλους παράγοντες που θα αναλυθούν σε επόμενο κεφάλαιο. Το ίδιο tweet μπορεί να επιστραφεί σαν αποτέλεσμα αναζήτησης ενός πλήθους Ν ερωτημάτων και κατά συνέπεια να έχει Ν διαφορετικά βάρη. Αφού συγκεντρωθούν όλα τα tweets για μία είδηση, έπειτα επιλέγονται τα 20 πιο σχετικά με βάση τις εξής 3 τεχνικές: Μέσος όρος βάρους, Μέγιστο βάρος και Άθροισμα βαρών. Έπειτα αξιολογείται η σχετικότητα ή μη (relevance) των επιλεγμένων tweets με την εκάστοτε είδηση και υπολογίζεται η ακρίβεια (precision) τόσο για κάθε είδηση ξεχωριστά όσο και ο μέσος όρος για το σύνολο των ειδήσεων μιας ημέρας

15 Κεφάλαιο 1 Εισαγωγή Στο τελευταίο στάδιο της εργασίας υπολογίζεται μια σειρά μετρικών αξιολόγησης της ποιότητας των ερωτημάτων που έχουν χρησιμοποιηθεί. Μελετάται η συσχέτιση των μετρικών αυτών με την ποιότητα των αποτελεσμάτων που επιστρέφουν τα αντίστοιχα ερωτήματα, έτσι ώστε να εξαχθεί κάποιο συμπέρασμα σχετικά με το αν μπορούν να αξιοποιηθούν για την επιλογή των πιο αποτελεσματικών ερωτημάτων. 1.3 Διάρθρωση Στο επόμενο κεφάλαιο παρουσιάζονται οι κύριες έννοιες που αποτελούν το υπόβαθρο της υλοποίησης της παρούσας εργασίας και αποτελούν προϋπόθεση για την καλύτερη κατανόησή της από τον αναγνώστη. Ακολούθως, στο 3 ο κεφάλαιο γίνεται αναφορά σε βιβλιογραφία σχετική με το αντικείμενο που πραγματεύεται η εργασία και αποτέλεσαν το έναυσμα και η αφετηρία για την δουλειά που ακολούθησε. Στο 4 ο Κεφάλαιο δίνεται αναλυτικά η μεθοδολογία που ακολουθήθηκε σε όλα τα βήματα περάτωσης της εργασίας, μέχρι το στάδιο των πειραμάτων και αποτελεσμάτων, τα οποία παρουσιάζονται στο 5 ο Κεφάλαιο. Τέλος, στο 6 ο Κεφάλαιο εκθέτονται τα συμπεράσματα και η αποτίμηση της εργασίας, καθώς και προτάσεις για περαιτέρω έρευνα, σαν επέκταση της παρούσας δουλειάς. 15

16 2.ΥΠΟΒΑΘΡΟ 2.1 Web Scraping Το Web Scraping είναι μια προγραμματιστική τεχνική που στόχο έχει την εξαγωγή πληροφορίας από σελίδες στο Διαδίκτυο [1]. Συγγενεύει στενά με το Web Indexing το οποίο είναι μία τεχνική ανάκτησης πληροφορίας που υιοθετείται από πολλές μηχανές αναζήτησης, για να δεικτοδοτήσουν δεδομένα από το Διαδίκτυο με την βοήθεια ενός web bot. Το Web Scraping ωστόσο επικεντρώνεται στην μετατροπή μη δομημένων δεδομένων στο Διαδίκτυο, που είναι συνήθως σε μορφή HTML, σε δομημένα δεδομένα που μπορούν να αποθηκευτούν και αναλυθούν σε μια κεντρική τοπική βάση δεδομένων. Το Web Scraping επίσης σχετίζεται με το Web automation [2], το οποίο είναι μια τεχνική που προσομοιώνει την περιήγηση ενός ανθρώπου στο Διαδίκτυο μέσω λογισμικού. Το Web Scraping απαιτεί την εμπέδωση εννοιών του προγραμματισμού, όπως επίσης γνώση τεχνολογιών web, όπως HTML, και κατανόηση του τρόπου οργάνωσης των δεδομένων στο Διαδίκτυο (π.χ. το Document Object Model, (DOM)). Υπάρχουν πολλές περιπτώσεις στις οποίες αυτή η τεχνική μπορεί να φανεί χρήσιμη είτε σε μεμονωμένους χρήστες είτε και σε εταιρίες. Πολλές εταιρίες χρησιμοποιούν το web scraping για να συγκεντρώνουν πληροφορίες από προφίλ χρηστών σε μέσα κοινωνικής δικτύωσης και να διαμορφώνουν μια εικόνα σχετικά με την γνώμη που έχει ο κόσμος για αυτήν. Άλλες εταιρίες αναλύουν το περιεχόμενο ιστοσελίδων μεμονωμένων κατασκευαστών/παραγωγών προϊόντων ή μεταπωλητών με σκοπό να προβάλουν συγκεντρωμένα ένα μεγάλο πλήθος προϊόντων στην δικιά τους ιστοσελίδα παρέχοντας τα τεχνικά τους χαρακτηριστικά ή κάνοντας σύγκριση τιμών. 2.2 Document Object Model (DOM) Το DOM είναι ένα API ανεξάρτητο από γλώσσες προγραμματισμού και πλατφόρμες. Αναπαριστά ένα αρχείο (Document) HTML, XHTML ή XML σαν δεντρική δομή, όπου κάθε κόμβος του δέντρου αντιπροσωπεύει ένα αντικείμενο, το οποίο αποτελεί ένα 16

17 Κεφάλαιο 2 Υπόβαθρο τμήμα του αρχείου. Δίνει μέσω μεθόδων την δυνατότητα σε προγράμματα να έχουν πρόσβαση στο δέντρο που έχει σχηματίσει, και να μπορούν να ανανεώνουν δυναμικά το περιεχόμενο, την δομή και το στυλ ενός αρχείου μέσω της επεξεργασίας των αντικειμένων [3]. Ένα παρεμφερές εργαλείο αποκλειστικά για αρχεία τύπου XML, είναι η γλώσσα ερωτημάτων (query language) XPath 7. Με την XPath μπορεί κάποιος να πλοηγηθεί στην δενδρική δομή ενός αρχείου XML και να ορίσει, να επιλέξει ή να επεξεργαστεί συγκεκριμένα τμήματά του με την χρήση εκφράσεων μονοπατιού(path expressions). Η βιβλιοθήκη Jsoup 8 που χρησιμοποιείται στην εργασία δέχεται ως είσοδο ένα αρχείο HTML και το αναλύει εξάγοντας ένα Document δενδρικής δομής, σαν αυτό που φαίνεται στο σχήμα 2.1. Στην συνέχεια, με τις μεθόδους που παρέχει, ο χρήστης μπορεί να επιλέξει τους κόμβους του δένδρου που επιθυμεί και να εξάγει την χρήσιμη πληροφορία που περιέχουν αυτοί οι κόμβοι. Σχήμα 2.1 : Παράδειγμα DOM δέντρου για ένα αρχείο HTML

18 Κεφάλαιο 2 Υπόβαθρο 2.3 MongoDB Η MongoDB είναι μια ευέλικτη και επεκτάσιμη μη σχεσιακή (NoSQL) βάση δεδομένων. Μη σχεσιακές ονομάζονται οι βάσεις δεδομένων που χρησιμοποιούν το μοντέλο αποθήκευσης εγγράφων (document store model), με το οποίο τα δεδομένα αποθηκεύονται ως ξεχωριστά έγγραφα (Documents) μέσα σε μια συλλογή (Collection). Αντίθετα δηλαδή με τις παραδοσιακές σχεσιακές βάσεις όπου τα δεδομένα αποθηκεύονται σε στήλες και γραμμές. Στην MongoDB τα δεδομένα αποθηκεύονται ως BSON αντικείμενα, δηλαδή JSON δυαδικής μορφής. Στόχος της MongoDB είναι να υλοποιήσει μια δομή αποθήκευσης δεδομένων με υψηλές επιδόσεις, υψηλή διαθεσιμότητα και αυτόματη επέκταση. Κάποια από τα βασικά της χαρακτηριστικά που την έχουν καταστήσει ως την δημοφιλέστερη μη σχεσιακή βάση δεδομένων είναι τα εξής. Αποθήκευση σε Έγγραφα : Ο τρόπος αποθήκευσης των δεδομένων είναι πολύ κοντά στην μορφή που απαιτείται από εφαρμογές τόσο σε επίπεδο server όσο και σε επίπεδο client. Κατά συνέπεια περιορίζεται η ανάγκη για μεταφορά δεδομένων από γραμμές σε αντικείμενα και αντίστροφα. Υψηλή Απόδοση : Η MongoDB είναι μία από τις αποδοτικότερες βάσεις δεδομένων που είναι διαθέσιμες αυτή την στιγμή. Ειδικά με τις υψηλές απαιτήσεις που δημιουργούνται σε διαδικτυακές υπηρεσίες με την κατακόρυφη αύξηση της κίνησης δεδομένων, είναι ακόμα πιο επιβεβλημένη η χρήση βάσεων δεδομένων που μπορούν να την διαχειριστούν. Υψηλή Διαθεσιμότητα : Το μοντέλο αντιγραφής δεδομένων που ακολουθεί η MongoDB καθιστά εύκολη την διατήρηση της διαθεσιμότητας διατηρώντας παράλληλα τις υψηλές επιδόσεις και την επεκτασιμότητα. Υψηλή επεκτασιμότητα : Χρησιμοποιώντας μια τεχνική που ονομάζεται sharding, η MongoDB «μοιράζει» τα δεδομένα μιας βάσης σε πολλαπλούς server καθιστώντας εύκολη την οριζόντια επέκταση. Αποτροπή SQL injection : Η MongoDB δεν είναι ευαίσθητη στο SQL injection ( χρήση SQL εκφράσεων σε διαδικτυακές φόρμες με κακόβουλο τρόπο ) εξαιτίας του τρόπου αποθήκευσης των αντικειμένων ως αντικείμενα και όχι σαν SQL strings. [4] 18

19 Κεφάλαιο 2 Υπόβαθρο 2.4 Επεξεργασία Φυσικής Γλώσσας (NLP) Η επεξεργασία φυσικής γλώσσας είναι ένα πεδίο της επιστήμης υπολογιστών, της τεχνητής νοημοσύνης και της υπολογιστικής γλωσσολογίας που ασχολείται με την αλληλεπίδραση μεταξύ των υπολογιστών και των φυσικών γλωσσών. Ο τομέας της επεξεργασίας φυσικής γλώσσας έχει να αντιμετωπίσει πολλές προκλήσεις. Κάποιες από αυτές περιλαμβάνουν την κατανόηση φυσικής γλώσσας, δηλαδή την δυνατότητα του υπολογιστή να παράγει έργο δεχόμενος σαν είσοδο φυσική γλώσσα, ενώ άλλες σχετίζονται με την παραγωγή φυσικής γλώσσας από τον υπολογιστή Named Entity Recognition Η αναγνώριση ονοματικών οντοτήτων (NER) αποτελεί ένα τμήμα του γενικότερου πεδίου της εξαγωγής πληροφορίας (Information extraction). Έχει στόχο την αναζήτηση, τον εντοπισμό και την κατηγοριοποίηση των ονοματικών οντοτήτων σε ένα κείμενο. Συνήθως ορίζονται εκ των προτέρων κάποιες κατηγορίες οντοτήτων όπως είναι τα ονόματα προσώπων, οργανισμοί, τοποθεσίες, εκφράσεις ημερολογιακού τύπου(μέρες, μήνες κλπ.) και μεγέθη οικονομικής φύσης. Σχήμα 2.2 : Εξαγωγή Named Entities από το Stanford NER Ο Stanford NER είναι μία υλοποίηση σε JAVA της αναγνώρισης ονοματικών οντοτήτων [5]. Δίνει την δυνατότητα επιλογής του πλήθους των διαφορετικών τύπων οντοτήτων που εξάγει. Ο Stanford NER βασίζεται σε ένα υφιστάμενο CRF μοντέλο. Το CRF είναι ένα υπό συνθήκη ακολουθιακό μοντέλο, δηλαδή υπολογίζει την πιθανότητα μιας ακολουθίας κρυφών καταστάσεων, δεδομένης μιας ακολουθίας παρατηρήσεων. Για τον υπολογισμό αυτής της πιθανότητας δημιουργεί αλυσίδες 19

20 Κεφάλαιο 2 Υπόβαθρο από «κλίκες», δηλαδή ζευγάρια καταστάσεων. Για όλα τα πιθανά ζεύγη καταστάσεων έχει αρχικοποιηθεί ένας πίνακας δυναμικών, δηλαδή της πιθανότητας δύο καταστάσεων να αποτελούν παρακείμενο ζεύγος. Οπότε η πιθανότητα μιας ακολουθίας καταστάσεων δεδομένης μιας ακολουθίας παρατηρήσεων ορίζεται ως εξής N P M (s o) φ i (s i 1 s i ) i=1 (2.1) όπου s η ακολουθία καταστάσεων, ο η ακολουθία των παρατηρήσεων και φ i (s i 1 s i ) το δυναμικό «κλίκας» για την θέση i της ακολουθίας και αφορά τις καταστάσεις στην θέση i-1 και i. Από το σύνολο όλων των πιθανών ακολουθιών καταστάσεων είναι επιθυμητό να βρεθεί η ακολουθία με την μέγιστη πιθανότητα. Ωστόσο για να υπολογιστεί η πιθανότητα για κάθε πιθανή ακολουθία το υπολογιστικό κόστος είναι πολύ μεγάλο. Επομένως χρησιμοποιείται μια τεχνική που ονομάζεται δειγματοληψία Gibbs. Σύμφωνα με αυτή την τεχνική ορίζεται ότι η μόνη επιτρεπτή μετάβαση από μία ακολουθία καταστάσεων στην αλυσίδα Markov, είναι αυτή που προκύπτει από την αλλαγή της κατάστασης σε μια μόνο θέση της ακολουθίας κάθε φορά. Η κατανομή που προκύπτει ορίζεται ως εξής P G (s (t) s (t 1) ) = P M (s i (t) s i (t 1), o) (2.2) όπου s i είναι όλες οι καταστάσεις εκτός της s i. Το μοντέλο CRF είναι πολύ αποδοτικό, ωστόσο περιορίζεται μόνο στις συσχετίσεις μεταξύ γειτονικών παρατηρήσεων. Επομένως είναι επιθυμητό να συνδυαστεί με ένα μοντέλο το οποίο λαμβάνει υπόψιν και την μη τοπική δομή. Δηλαδή αν μία οντότητα έχει χαρακτηριστεί στην αρχή ενός εγγράφου ως πρόσωπο, είναι επιθυμητό να διατηρήσει τον χαρακτηρισμό αυτό σε όλες της εμφανίσεις της στο έγγραφο. Ορίζεται οπότε ένα μοντέλο το οποίο δίνει αρνητικό βάρος στις περιπτώσεις όπου παραβιάζονται μια σειρά από τέτοιου είδους μη τοπικούς περιορισμούς και έχει την παρακάτω μορφή. P M (s o) θ λ #(λ,s,ο) λ Λ (2.3) όπου λ είναι το σύνολο των διαφορετικών τύπων παραβιάσεων, για την κάθε μία από τις οποίες ορίζεται ένα αρνητικό βάρος θ λ. Ο εκθέτης αντιπροσωπεύει το πλήθος των παραβιάσεων αυτού του τύπου στην ακολουθία καταστάσεων s δεδομένης μιας ακολουθίας παρατηρήσεων ο. Συνδυάζοντας το CRF μοντέλο με το μοντέλο μη τοπικών συσχετίσεων προκύπτει το τελικό παραγοντοποιημένο μοντέλο που χρησιμοποιείται και χρησιμοποιώντας την δειγματοληψία Gibbs έχει την παρακάτω μορφή. P F (s i s i, o) P M (s i s i, o)p L (s i s i, o) (2.4) 20

21 Κεφάλαιο 2 Υπόβαθρο όπου Μ είναι το CRF μοντέλο, L είναι το μη τοπικό μοντέλο και F είναι το τελικό παραγοντοποιημένο (factored) μοντέλο. Η βελτίωση στην F1 ακρίβεια του συγκεκριμένου μοντέλου είναι της τάξης του 1.3% σύμφωνα με τις δοκιμές που έγιναν. Μπορεί αυτό το μέγεθος να μην φαίνεται τόσο μεγάλο ωστόσο πρέπει να ληφθεί υπόψιν ότι η βελτίωση έγινε επί ενός ήδη εξαιρετικού μοντέλου που είχε για τα ίδια πειράματα F1 score Part of speech (POS) Tagging POS Tagging ονομάζεται η αυτοματοποιημένη γραμματική ανάλυση ενός κειμένου. Πιο συγκεκριμένα είναι η διαδικασία κατά την οποία δίνεται σε κάθε λέξη ενός κειμένου μια ετικέτα η οποία αντιπροσωπεύει το μέρος του λόγου της. Η επιλογή της ετικέτας γίνεται με βάση τόσο την σημασία της ίδιας της λέξης, όσο και με την σχέση της με τις παρακείμενες λέξεις στην ίδια φράση, πρόταση ή παράγραφο. Γενικά, πρόκειται για μια περίπλοκη διαδικασία, γι αυτό και συνήθως χρησιμοποιούνται μοντέλα που έχουν εκπαιδευτεί με τεχνικές μηχανικής μάθησης σε δεδομένα εκπαίδευσης, που δημιούργησαν άνθρωποι χειρωνακτικά. Στα πλαίσια της εργασίας χρησιμοποιήθηκαν δύο διαφορετικές υλοποιήσεις αναλυτών γραμματικής ανάλυσης, ο Stanford Log-linear Part-Of-Speech Tagger [6] [7] και ο TweetNLP POS Tagger [8]. Οι περισσότερες υλοποιήσεις POS Tagger έχουν στηριχθεί σε μοντέλα ακολουθιών στα οποία η πρόβλεψη για κάθε θέση της ακολουθίας γίνεται με βάση την γνώση που προέρχεται από την μια κατεύθυνση που είτε προηγείται είτε έπεται της συγκεκριμένης θέσης. Η υλοποίηση του Stanford POS Tagger ακολουθεί διαφορετική τακτική. Με την χρήση δικτύων εξάρτησης (dependency networks) και μιας σειράς μοντέλων μέγιστης εντροπίας και λογιστικής πολυταξικής παλινδρόμησης (multiclass logistic regression) εκμεταλλεύεται την πληροφορία που προέρχεται και από τις δύο κατευθύνσεις μέσα στην ακολουθία. Επιπλέον, προστίθεται στο μοντέλο ένα μεγάλο πλήθος λεξικολογικών κανόνων και προτύπων που βοηθάνε περαιτέρω στην αναγνώριση των μερών του λόγου. Λόγω του μεγάλου πλήθους των χαρακτηριστικών που εισάγονται στο μοντέλο, εκτελείται ένα είδος εξομάλυνσης (smoothing) τέτοιο ώστε να μην δίνεται μεγάλο βάρος σε χαρακτηριστικά που δεν παράγουν σημαντική βελτίωση στην ακρίβεια του Tagger. Οι ετικέτες που χρησιμοποιεί ο Stanford Tagger προέρχονται από το Penn Treebank Project 9. Στο σχήμα 2.3 που ακολουθεί δίνεται ένα παράδειγμα ανάλυσης ενός tweet

22 Κεφάλαιο 2 Υπόβαθρο Σχήμα 2.3 : Ανάλυση tweet από τον Stanford POS Tagger Ακολουθεί η επεξήγηση των ετικετών για το Σχήμα NNPS: κύριο ουσιαστικό, πληθυντικός - VBP: ρήμα, όχι 3 ο πρόσωπο, ενεστώτας χρόνος - IN: πρόθεση ή τοπικός σύνδεσμος IN - NN: ουσιαστικό, ενικός - NNP: κύριο ουσιαστικό, ενικός Ο TweetNLP POS Tagger υλοποιεί ένα πρώτης τάξης μοντέλο Markov μέγιστης εντροπίας (MEMM). Ο Tagger αυτός προσανατολίζεται κατά βάση στην αναγνώριση κειμένων που προέρχονται από χρήστες του διαδικτύου και ειδικά σε δημοσιεύσεις από κοινωνικά δίκτυα και μηνύματα από διαδικτυακές συνομιλίες (chatrooms). Το σημαντικότερο χαρακτηριστικό που εισάγει αυτός ο Tagger και βελτιώνει αισθητά την ακρίβειά του σε σύγκριση με παρόμοιες υλοποιήσεις είναι η αξιοποίηση ομάδων λέξεων (word clusters) που προέρχονται από tweets που δεν έχουν αναλυθεί, και δεν έχουν εκ των προτέρων κάποια ετικέτα. Για παράδειγμα, όλες οι λέξεις του τύπου lol, lmfao, haha κλπ. ομαδοποιούνται και στην συνέχεια είναι πολύ πιο εύκολο να αναγνωριστούν. Η ομαδοποίηση(clustering) των λέξεων γίνεται μέσω της μεθόδου Brown clustering και οδηγεί στην δημιουργία χαρακτηριστικών που βελτιώνουν σημαντικά την απόδοση. Ειδική μέριμνα λαμβάνει επίσης στην αναγνώριση των κύριων ουσιαστικών (proper nouns). Το γεγονός ότι στα κείμενα των χρηστών του διαδικτύου πολλές φορές καταστρατηγείται ο κανόνας να γράφονται τα κύρια ουσιαστικά με το πρώτο γράμμα κεφαλαίο, οδήγησε στην προσθήκη έτοιμων λιστών γνωστών ονομάτων από το διαδίκτυο. Αυτή η τακτική βοήθησε στην μεγαλύτερη συγκέντρωση κύριων ουσιαστικών και για αυτόν τον λόγο προτιμήθηκε και στην παρούσα διπλωματική εργασία. Για τις ανάγκες του Tagger, επειδή προσανατολίζεται σε διαδικτυακό κείμενο, οι ετικέτες του Penn Treebank Project δεν θεωρήθηκαν κατάλληλες. Οπότε χρησιμοποιήθηκε ένα πιο εξειδικευμένο σύνολο ετικετών. Παρακάτω στο σχήμα 2.4 δίνεται ένα παράδειγμα ανάλυσης ενός tweet. Σχήμα 2.4 : Ανάλυση tweet από τον Ark TweetNLP POS Tagger 22

23 Κεφάλαιο 2 Υπόβαθρο Ακολουθεί η επεξήγηση των ετικετών: - ^: κύριο ουσιαστικό - Ν: κοινό ουσιαστικό - P: πρόθεση ή σύνδεσμος Γίνεται φανερό επομένως ότι υπάρχουν σημαντικές διαφορές ανάμεσα στον κάθε POS Tagger και για αυτόν τον λόγο θα πρέπει να χρησιμοποιείται κάθε φορά ο κατάλληλος ανάλογα με την περίσταση NLP Parser Ο αναλυτής προτάσεων φυσικής γλώσσας είναι ένα πρόγραμμα το οποίο εξάγει την συντακτική δομή μιας πρότασης σε δενδρική μορφή. Δηλαδή προβλέπει ποιες ομάδες λέξεων σχηματίζουν αυτόνομες φράσεις και ενσωματώνει χαρακτηριστικά POS Tagger δίνοντας σε κάθε λέξη μια ετικέτα που προσδιορίζει το μέρος του λόγου(ρήμα, ουσιαστικό κλπ.). Οι πιθανοτικοί αναλυτές χρησιμοποιούν μεγάλες συλλογές προτάσεων που έχουν ήδη αναλυθεί από ανθρώπους για να παράγουν την πιο πιθανή ανάλυση νέων προτάσεων που τους ανατίθενται. Η απόδοσή τους, αν και δεν μπορούν να αποφύγουν κάποια λάθη, θεωρείται πολύ καλή. Η ανάπτυξή τους Σχήμα 2.5 : Αποτέλεσμα ανάλυσης ενός tweet από τον Apache opennlp Parser 23

24 Κεφάλαιο 2 Υπόβαθρο την δεκαετία του 1990 αποτέλεσε μια μεγάλη πρόοδο στον τομέα της επεξεργασίας φυσικής γλώσσας. Στα πλαίσια της εργασίας, για την ανάλυση προτάσεων και ειδικά για την εξαγωγή φράσεων που έχουν βάση ένα ουσιαστικό (noun phrases, NP) χρησιμοποιείται το toolkit Apache OpenNLP 10. Στο Σχήμα 2.5 δίνεται η ανάλυση ενός tweet από τον opennlp Parser. Ακολουθεί η επεξήγηση των ετικετών: - NP: φράση με βάση ένα ουσιαστικό - PP: φράση με βάση μία πρόθεση - NNS: κοινό ουσιαστικό, πληθυντικός - NN: κοινό ουσιαστικό, ενικός - IN: πρόθεση ή σύνδεσμος - NNP: κύριο ουσιαστικό, ενικός 2.5 Information Retrieval Η ανάκτηση πληροφορίας (Information retrieval, IR) είναι η διαδικασία συλλογής πληροφοριακών πόρων σχετικών με μια ανάγκη για πληροφορία, από μία μεγάλη συλλογή πληροφοριακών πόρων. Τα αυτοματοποιημένα συστήματα ανάκτησης πληροφορίας χρησιμοποιούνται για να αντιμετωπίσουν την κατάσταση της υπερπληροφόρησης, δηλαδή της διαθεσιμότητας υπερβολικά μεγάλου πλήθους πληροφορίας που περισσότερο προκαλεί σύγχυση παρά διαφωτίζει κάποιον. Πολλά πανεπιστήμια και βιβλιοθήκες χρησιμοποιούν τέτοια συστήματα για να παρέχουν πρόσβαση σε βιβλία, περιοδικά και άλλα έγγραφα. Το πιο απτό παράδειγμα συστήματος ανάκτησης πληροφορίας είναι οι μηχανές αναζήτησης Vector space model Το Vector space model είναι ένα αλγεβρικό μοντέλο που αναπαριστά έγγραφα κειμένου ως διανύσματα. Χρησιμοποιείται στο φιλτράρισμα πληροφοριών, στην ανάκτηση πληροφοριών, στην δεικτοδότηση και στην ταξινόμηση με βάση την σχετικότητα. Αρχικά γίνεται η υπόθεση ότι t1, t2,, tn είναι το σύνολο των όρων που μπορούν να υπάρξουν σε ένα έγγραφο D. Για κάθε όρο ti θεωρείται ότι υπάρχει ένα διάνυσμα ti στον χώρο, το οποίο, χωρίς να βλάπτεται η γενικότητα, θεωρείται μοναδιαίο. Στη συνέχεια, θεωρείται ότι το έγγραφο D μπορεί να αναπαρασταθεί ως η συνισταμένη

25 Κεφάλαιο 2 Υπόβαθρο των διανυσμάτων aiti, όπου ai είναι ένας συντελεστής που δείχνει την βαρύτητα του όρου t i ή το πλήθος των εμφανίσεων του όρου αυτού σε αυτό το έγγραφο. [9] Tf idf D = n i=1 a i t i (2.5) Στα πλαίσια της εργασίας, ο συντελεστής ai αντιπροσωπεύει την tf idf τιμή του κάθε όρου του κειμένου. Το tf (term frequency) σχετίζεται με την συχνότητα εμφάνισης του όρου στο εξεταζόμενο έγγραφο και ορίζεται ως η τετραγωνική της ρίζα. tf (t in D) = frequency 1 2 (2.6) Το Idf (Inverse document frequency) από την άλλη πλευρά συσχετίζεται με το αντίστροφο της συχνότητας με την οποία εμφανίζεται ένας όρος σε μια συλλογή εγγράφων. Από τις διάφορες παραλλαγές που υπάρχουν στην βιβλιογραφία για το συγκεκριμένο μέγεθος, στην εργασία χρησιμοποιείται η εξής έκφραση. idf(t) = 1 + log( numdocs docfreq+1 ) (2.7) όπου numdocs το πλήθος όλων των εγγράφων στην συλλογή, και docfreq το πλήθος των εγγράφων στα οποία εμφανίζεται ο υπό εξέταση όρος. Η ποσότητα tf idf είναι το γινόμενο των δύο παραπάνω μεγεθών και αποτελεί ένα αριθμητικό μέτρο που έχει στόχο να αξιολογήσει την σημαντικότητα που έχει για ένα κείμενο μια λέξη του. Αυξάνεται ανάλογα με την συχνότητα εμφάνισης της λέξης στο έγγραφο και αντισταθμίζεται με την συχνότητα εμφάνισης αυτής της λέξης γενικά στην συλλογή. Το τελευταίο βοηθάει στις περιπτώσεις όπου μια λέξη εμφανίζεται πολλές φορές σε ένα έγγραφο αλλά δεν προσθέτει χρήσιμη πληροφορία επειδή αποτελεί μια πολύ συνηθισμένη λέξη. [10] BM25 Η BM25 αποτελεί μια συνάρτηση ταξινόμησης που επίσης χρησιμοποιείται ευρέως σε μηχανές αναζήτησης. Βασίζεται στο πιθανοτικό πλαίσιο ανάκτησης (probabilistic retrieval framework) και στην ουσία είναι μια εξέλιξη του απλού TF-IDF. Κατατάσσει τα έγγραφα με βάση τον αριθμό των όρων του ερωτήματος που συναντώνται μέσα στο έγγραφο και δεν λαμβάνονται υπόψιν οι πιθανές εσωτερικές σχέσεις μεταξύ αυτών τον όρων (relative proximity). Στην πραγματικότητα αποτελείται από μια σειρά συναρτήσεων βαθμολόγησης. Ακολουθεί η πιο συνηθισμένη από αυτές: Έστω ένα ερώτημα Q που αποτελείται από τους όρους q1, q2,,qn. Το BM25 βάρος ενός εγγράφου D δίνεται από την σχέση: 25

26 Κεφάλαιο 2 Υπόβαθρο f(q i,d) (k 1 +1) score(d, Q) = n i=1 IDF(q i ) D (2.8) f(q i,d)+ k 1 (1 b+b avgdl ) όπου f(qι, D) είναι το tf του όρου qi στο έγγραφο D, D είναι ο αριθμός των λέξεων από τις οποίες αποτελείται το έγγραφο D και avgdl είναι ο μέσος αριθμός λέξεων όλων των εγγράφων της συλλογής. Τα k1 και b είναι ελεύθερες παράμετροι που,σε περίπτωση που δεν προκύπτουν από κάποια μέθοδο βελτιστοποίησης, επιλέγονται σαν k1 [1.2, 2.0] και b=0.75 [11]. Το IDF(qi) είναι το idf του όρου qi και συνήθως υπολογίζεται ως εξής: IDF(q i ) = log N n(q i )+0.5 n(q i )+0.5 (2.9) όπου N είναι το πλήθος των εγγράφων στην συλλογή και n(qi) ο αριθμός των εγγράφων που περιέχουν τον όρο qi. Cosine Similarity Έστω ένα έγγραφο d και ένα ερώτημα q. Με βάση το Vector space model ορίζονται τα διανύσματα V(d) και V(q). Με τα διανύσματα αυτά μπορεί να υπολογισθεί η παρακάτω ποσότητα. cosine similarity = V(d) V(q) V(d) V(q) (2.10) Η συνημιτονοειδής ομοιότητα (cosine similarity) χρησιμοποιείται ευρύτατα στους τομείς της εξόρυξης κειμένου και ανάκτησης πληροφορίας και είναι ένα χρήσιμο μέτρο της ομοιότητας μεταξύ δύο κειμένων όσον αφορά στο θέμα το οποίο διαπραγματεύονται. Για τα διανύσματα που προκύπτουν από το vector space model και αφορούν στον τομέα της ανάκτησης πληροφορίας, αυτό το μέτρο μπορεί να πάρει τιμές μεταξύ 0 όταν τα δύο κείμενα είναι μεταξύ τους εντελώς ανόμοια ως 1 όταν η συχνότητα εμφάνισης όλων των όρων και στα δύο κείμενα ταυτίζεται. [12] Σχήμα 2.6 : Αναπαράσταση του Vector Space Model 26

27 Κεφάλαιο 2 Υπόβαθρο Γλωσσικά Μοντέλα Τα γλωσσικά μοντέλα αρχικά αναπτύχθηκαν έχοντας ως στόχο να βοηθήσουν στην ανάπτυξη των συστημάτων αναγνώρισης ομιλίας και ακόμη και σήμερα παίζουν σημαντικό ρόλο στον τομέα αυτό. Επίσης χρησιμοποιούνται ευρέως και σε άλλες εφαρμογές της επεξεργασίας φυσικής γλώσσας, και ειδικά κάποιες τεχνικές εκτίμησης παραμέτρων που αρχικά αναπτύχθηκαν στα πλαίσια των γλωσσικών μοντέλων, στην συνέχεια αξιοποιήθηκαν στην γραμματική ανάλυση κειμένου (POS Tagging) και την ανάλυση προτάσεων (Parsing). Γλωσσικό μοντέλο Μ αποκαλείται η συνάρτηση που αποδίδει μια πιθανότητα σε κάθε λέξη ή φράση s που προέρχεται από ένα αλφάβητο Σ. Για το μοντέλο αυτό ισχύει η εξίσωση: P(s) = 1 (2.11) s Σ Το πρόβλημα που ανακύπτει είναι ο τρόπος με τον οποίο θα υπολογιστούν οι πιθανότητες για την κάθε μία ακολουθία λέξεων. Έστω ότι θέλουμε να υπολογίσουμε την πιθανότητα εμφάνισης της ακολουθίας των όρων t 1,t 2,t 3,t 4. Μία κλασική λύση είναι η χρήση του κανόνα της αλυσίδας: P(t 1 t 2 t 3 t 4 ) = P(t 1 )P(t 2 t 1 )P(t 3 t 1 t 2 )P(t 4 t 1 t 2 t 3 ) (2.12) Η πιο απλή μορφή γλωσσικού μοντέλου απορρίπτει όλη την εκ των προτέρων πιθανότητα και θεωρεί τον κάθε όρο ανεξάρτητο. Ένα τέτοιο μοντέλο ονομάζεται γλωσσικό μοντέλο unigram: P uni (t 1 t 2 t 3 t 4 ) = P(t 1 )P(t 2 )P(t 3 )P(t 4 ) (2.13) Υπάρχουν και άλλοι πιο περίπλοκοι τύποι γλωσσικών μοντέλων, όπως είναι το γλωσσικό μοντέλο bigram το οποίο λαμβάνει υπόψιν τον προηγούμενο όρο: P bi (t 1 t 2 t 3 t 4 ) = P(t 1 )P(t 2 t 1 )P(t 3 t 2 )P(t 4 t 3 ) (2.14) και άλλα ακόμη πιο περίπλοκα γλωσσικά μοντέλα βασισμένα σε γραμματικές, όπως είναι οι πιθανοτικές μη εξαρτώμενες από τα συμφραζόμενα γραμματικές. Αυτά τα μοντέλα χρησιμεύουν κυρίως στα πεδία της αναγνώρισης ομιλίας, της αυτόματης διόρθωσης και της μηχανικής μετάφρασης επειδή εκεί απαιτείται η γνώση της πιθανότητας εμφάνισης ενός όρου, δεδομένης της παρουσίας ορισμένων προηγούμενων ή επόμενων όρων. Από την άλλη πλευρά, στο πεδίο της ανάκτησης πληροφορίας αρκούν τις περισσότερες φορές απλά γλωσσικά μοντέλα εξαιτίας του γεγονότος ότι δεν απαιτείται η γνώση της δομής των προτάσεων. Έτσι, ακόμα και τα γλωσσικά μοντέλα unigram είναι σε πολλές περιπτώσεις αρκετά ώστε να αναγνωρίσουν το θέμα ενός κειμένου. Ωστόσο, η απαίτηση για ακριβέστερες αναζητήσεις πληροφορίας και για χρήση πιο περίπλοκων ερωτημάτων, οδηγούν στην 27

28 Κεφάλαιο 2 Υπόβαθρο ανάγκη για μελέτη της χρήσης και πιο προχωρημένων μοντέλων και στο πεδίο της ανάκτησης πληροφορίας. Τα στατιστικά γλωσσικά μοντέλα πρωτοεμφανίστηκαν στην δουλειά των Ponte και Croft [13]. Οι δυο τους πρότειναν μία νέα στρατηγική βαθμολόγησης εγγράφων που ονομάζεται μοντέλο πιθανότητας ερωτήματος (query likelihood model). Αρχικά για κάθε έγγραφο υπολογίζεται ένα πιθανοτικό μοντέλο που βασίζεται στο κείμενο και τους όρους που περιέχει. Έπειτα το κάθε έγγραφο βαθμολογείται με βάση την πιθανότητα εμφάνισης του ερωτήματος σύμφωνα με το μοντέλο που υπολογίστηκε προηγουμένως. Η μέθοδος βαθμολόγησης ορίζεται ως εξής. Έστω q ένα ερώτημα, d ένα έγγραφο και Θd το γλωσσικό μοντέλο που υπολογίστηκε με βάση τις λέξεις του εγγράφου d. Έπειτα η βαθμολογία του εγγράφου d ορίζεται ως εξής: score(q, d) = P(q Θ d ) (2.15) Ένα πρόβλημα που ανακύπτει είναι ο ορισμός του γλωσσικού μοντέλου. Έχουν προταθεί διαφορετικές μέθοδοι. Με βάση το μοντέλο πολυωνυμικής κατανομής, σε μια ακολουθία λέξεων, η κάθε λέξη παράγεται ανεξάρτητα από την άλλη. Η κατανομή έχει τον ίδιο αριθμό παραμέτρων με το πλήθος των όρων του λεξικού της συλλογής. V Θ d = {P(w j Θ d )} j=1 V s. t. P(w j Θ d ) = 1 (2.16) j=1 όπου P(w j Θ d ) είναι η πιθανότητα εμφάνισης του όρου wj σύμφωνα με την κατανομή που έχει υπολογιστεί και V είναι το λεξικό της συλλογής των εγγράφων. Θεωρώντας ένα ερώτημα q=q1 qn, η πιθανότητα ερωτήματος για ένα έγγραφο d υπολογίζεται ως εξής: n P(q Θ d ) = P(q i Θ d ) = P(w Θ d ) c(w,q) i=1 w V (2.17) όπου c(w,q) είναι το πλήθος των εμφανίσεων του όρου w στο ερώτημα q, και n είναι το πλήθος των όρων του ερωτήματος. Υπάρχουν και άλλοι τύποι γλωσσικών μοντέλων πέρα από τα μοντέλα πιθανότητας ερωτήματος. Τα μοντέλα πιθανότητας εγγράφου (document likelihood models) στοχεύουν στον υπολογισμό της πιθανότητας να μπορεί κάποιο έγγραφο να «παραχθεί» από ένα γλωσσικό μοντέλο ερωτήματος (query language model). Η προσέγγιση αυτή έχει το μειονέκτημα ότι το κείμενο που παρέχει συνήθως ένα ερώτημα είναι αρκετά μικρό για να υπολογιστεί ένα ολόκληρο γλωσσικό μοντέλο, οπότε απαιτείται η εξομάλυνσή του (smoothing) με την βοήθεια ενός δεύτερου γλωσσικού μοντέλου. Ωστόσο σε αυτά τα μοντέλα είναι εύκολο να ενσωματωθούν 28

29 Κεφάλαιο 2 Υπόβαθρο μέθοδοι ανάδρασης σχετικότητας (relevance feedback). Ένας τρόπος είναι η επέκταση ερωτήματος με όρους που προκύπτουν από σχετικά έγγραφα που έχουν προκύψει από ένα προηγούμενο στάδιο ανάκτησης πληροφορίας και στην συνέχεια το μοντέλο να ανανεωθεί και να επεκταθεί με αυτούς τους όρους. Στην συνέχεια της εργασίας θα αξιοποιηθεί ένα μοντέλο πιθανότητας εγγράφου που ενσωματώνει την τεχνική της ανάδρασης ψευδο-σχετικότητας (pseudo-relevance feedback). Πέρα από την δημιουργία ενός γλωσσικού μοντέλου που προβλέπει είτε την παραγωγή ενός ερωτήματος από ένα μοντέλο εγγράφου είτε το αντίστροφο, μπορούμε να ορίσουμε το γλωσσικό μοντέλο που προέρχεται τόσο από το ερώτημα όσο και από το έγγραφο και στην συνέχεια να τα συγκρίνουμε (model comparison). Μια υλοποίηση αυτής της διαδικασίας είναι το Kullback-Leibler(KL) divergence: R(d; q) = KL(M d M q ) = P(t M q ) log P(t M q) P(t M d ) t V (2.18) Το KL divergence είναι ένα μέτρο ασύμμετρης απόκλισης που προέρχεται από την θεωρία πληροφοριών και εκτιμάει το μέγεθος της αναποτελεσματικότητας της πιθανοτικής κατανομής Mq να μοντελοποιήσει την πιθανοτική κατανομή Md. Ένα μειονέκτημα αυτής της μεθόδου είναι ότι οι βαθμολογίες που αποδίδει στα έγγραφα δεν είναι συγκρίσιμες για διαφορετικά ερωτήματα. Στο Σχήμα 2.7 αναπαρίστανται οι τρόποι με τους οποίους μπορεί να αναπτυχθεί ένα γλωσσικό μοντέλο. Σχήμα 2.7 : Τρεις τρόποι προσέγγισης του γλωσσικού μοντέλου: (a)πιθανότητα ερωτήματος, (b)πιθανότητα εγγράφου, και (c) σύγκριση μοντέλων Ένα σημαντικό θέμα σε όλα τα γλωσσικά μοντέλα είναι η πιθανότητα που ανατίθεται στις λέξεις των ερωτημάτων που δεν εμφανίζονται στα έγγραφα της συλλογής. Για την αντιμετώπιση αυτού του προβλήματος χρησιμοποιούνται τεχνικές εξομάλυνσης (smoothing methods) οι οποίες τροποποιούν τον εκτιμητή μέγιστης πιθανοφάνειας με τέτοιον τρόπο ώστε να κάνει ακριβέστερες εκτιμήσεις. Η παρακάτω εξίσωση δίνει την εκτίμηση της πιθανότητας ερωτήματος με την χρήση του πολυωνυμικού μοντέλου και της εξομάλυνσης Dirichlet: n P(q d) = P(q i d) = tf(q i, d) + μ P(q i C) d + μ i=1 n i=1 (2.19) 29

30 Κεφάλαιο 2 Υπόβαθρο όπου n το πλήθος των όρων του ερωτήματος, tf(qi,d) το πλήθος των εμφανίσεων του όρου q i στο έγγραφο d, d το πλήθος των όρων του εγγράφου d και μ είναι μια παράμετρος που ορίζει τον βαθμό εξομάλυνσης που εφαρμόζεται. Το P(qi C) είναι η πιθανότητα εμφάνισης του όρου qi στην συλλογή C και προκύπτει από τον εκτιμητή μέγιστης πιθανοφάνειας που υπολογίζεται με βάση την συλλογή των εγγράφων Pseudo-Relevance Feedback Τα παραδοσιακά συστήματα ανάκτησης πληροφορίας βασίζονταν αποκλειστικά στο ερώτημα που έθετε ο χρήστης προς αυτά. Συνέκριναν το ερώτημα με τα διαθέσιμα έγγραφα της συλλογής και επέστρεφαν μια λίστα με τα πιο σχετικά αποτελέσματα. Χρησιμοποιήθηκαν επίσης συστήματα τα οποία δεχόντουσαν ερωτήματα συγκεκριμένης δομής τα οποία απαιτούσαν από τον χρήστη να έχει γνώση τόσο του συστήματος αναζήτησης όσο και του θέματος το οποίο αναζητούσε. Ένα ακόμη πρόβλημα στα συστήματα ανάκτησης πληροφορίας και ειδικά στις μηχανές αναζήτησης στο Διαδίκτυο, που οδηγεί στην μείωση της απόδοσης, είναι το μικρό μήκος των ερωτημάτων των χρηστών, που δεν ξεπερνούν κατά μέσο όρο τις 3 λέξεις [14]. Τα προβλήματα αυτά επιχειρήθηκε να αντιμετωπιστούν με μια σειρά μεθόδων που είχαν σαν κοινό στόχο την επέκταση ερωτήματος (Query Expansion). Στις πρώτες προσπάθειες που έγιναν στον τομέα αυτό παρατηρήθηκε ότι υπήρξε βελτίωση στο πλήθος των ανακτώμενων εγγράφων (recall), ωστόσο η ακρίβεια επηρεαζόταν αρνητικά. Αργότερα, με την βελτίωση των τεχνικών, υπήρξε αύξηση και της ακρίβειας των αποτελεσμάτων. Ωστόσο η βελτίωση στην ακρίβεια δεν ήταν σταθερή για όλα τα ερωτήματα. Το πρόβλημα αυτό αποκαλείται πρόβλημα της ευρωστίας (robustness problem) και επιχειρείται να αντιμετωπιστεί με μεθόδους που είτε επιλέγουν τα ερωτήματα στα οποία θεωρείται θεμιτό να γίνει επέκταση ερωτήματος (Selective QE), είτε με μεθόδους που υπολογίζουν το μέγεθος της επέκτασης σε κάθε περίπτωση, που μπορεί να οδηγήσει σε θετικά αποτελέσματα (Adaptive QE). Μία δημοφιλής τεχνική που χρησιμοποιείται για την επέκταση ερωτήματος είναι η ανάδραση σχετικότητας (Relevance Feedback). Η τεχνική αυτή βασίζεται στην συμμετοχή του χρήστη. Συγκεκριμένα, απαιτεί από τον χρήστη να αξιολογήσει την σχετικότητα των αποτελεσμάτων που επιστρέφονται από την πρώτη φάση της ανάκτησης πληροφορίας. Τα αποτελέσματα που ο χρήστης αξιολογεί ως σχετικά, στην συνέχεια αξιοποιούνται ώστε να εξαχθούν από αυτά όροι που προστίθενται στα ήδη υπάρχοντα ερωτήματα. Η ανάδραση ψευδο-σχετικότητας (Pseudo-relevance feedback,prf) βασίζεται στην ίδια λογική με την ανάδραση σχετικότητας. Η διαφορά της έγκειται στο γεγονός ότι δεν απαιτεί την παρέμβαση του χρήστη. Αντίθετα, επιλέγει τα Ν πιο σχετικά 30

31 Κεφάλαιο 2 Υπόβαθρο αποτελέσματα από την πρώτη φάση ανάκτησης πληροφορίας. Αυτά τα αποτελέσματα αποκαλούνται ως το ψευδο-σχετικό σύνολο (pseudo-relevant set). Οι μέθοδοι PRF εκμεταλλεύονται στατιστικά που σχετίζονται με τα αρχικά ερωτήματα, το ψευδο-σχετικό σύνολο, και την συλλογή των εγγράφων έτσι ώστε να επεκτείνουν το αρχικό ερώτημα με επιπλέον όρους οι οποίοι ιδεατά συσχετίζονται, όσον αφορά στην σχετικότητα, με το αρχικό ερώτημα [15] Μοντέλα Σχετικότητας Τα γλωσσικά μοντέλα βασισμένα στην σχετικότητα (Relevance-based language models) ή αλλιώς μοντέλα σχετικότητας, έχουν αποδειχθεί ότι είναι μια προσέγγιση PRF υψηλών επιδόσεων που βελτιώνουν κατά πολύ τα αποτελέσματα από το πρώτο στάδιο βαθμολόγησης των εγγράφων. Δημιουργούν καλύτερα μοντέλα ερωτημάτων αξιοποιώντας την πληροφορία από τα ψευδο-σχετικά έγγραφα. Μοντέλο σχετικότητας καλείται ο μηχανισμός που ορίζει την πιθανότητα P(w R) να παρατηρηθεί η λέξη w σε ένα σύνολο εγγράφων σχετικών με μια ανάγκη για πληροφορία [16]. Το πρόβλημα που προσπαθεί να λύσει αυτή η προσέγγιση είναι το εξής. Δεδομένης μιας άγνωστης διαδικασίας R με την βοήθεια της οποίας έχουμε εξάγει όλες τις λέξεις του ερωτήματος q1 qn μετά από n επαναλήψεις, ποια είναι η πιθανότητα στην επόμενη επανάληψη να εξαχθεί η λέξη w; P(w R) P(w q 1 q n ) = P(w, q 1 q n ) P(q 1 q n ) 31 (2.20) Ο στόχος τώρα είναι να υπολογιστεί η από κοινού πιθανότητα να παρατηρηθεί η λέξη w και οι όροι του ερωτήματος μαζί (ο αριθμητής). Ο παρονομαστής της εξίσωσης 2.20 μπορεί να υπολογιστεί ως P(q 1 q n ) = w P(w, q 1 q n ). Με βάση την εκτίμηση RM1 οι λέξεις των ερωτημάτων και οι λέξεις των σχετικών εγγράφων δειγματοληπτούνται από το μοντέλο σχετικότητας ανεξάρτητα και με την ίδια κατανομή (i.i.d.). Τελικά η πιθανότητα ερωτήματος του κάθε εγγράφου χρησιμοποιείται ως το βάρος του εγγράφου και η πιθανότητα μιας λέξης υπολογίζεται από τον μέσο όρο των πιθανοτήτων που προκύπτουν από όλα τα διαφορετικά μοντέλα εγγράφων. Αντίθετα, σύμφωνα με την εκτίμηση RM2, οι λέξεις των ερωτημάτων είναι ανεξάρτητες μεταξύ τους αλλά είναι εξαρτημένες με τις λέξεις των σχετικών εγγράφων (κατά συνθήκη δειγματοληψία). Επομένως σχετικά έγγραφα που περιέχουν λέξεις ερωτημάτων μπορούν να χρησιμοποιηθούν για να υπολογιστεί η συσχέτιση των λέξεων τους με τους όρους των ερωτημάτων. Θεωρείται ότι το αρχικό ερώτημα αποτελείται από έναν μικρό αριθμό λέξεων που προέρχονται από το μοντέλο σχετικότητας (R). Αν επιθυμούμε επιπλέον λέξεις από

32 Κεφάλαιο 2 Υπόβαθρο το R, είναι λογικό να προτιμηθούν οι λέξεις εκείνες που έχουν εκτιμηθεί να έχουν την υψηλότερη πιθανότητα θεωρώντας την κατανομή των λέξεων που έχουν ήδη εμφανιστεί. Οπότε οι όροι του λεξικού της συλλογής ταξινομούνται με βάση αυτή την εκτιμημένη πιθανότητα, η οποία μετά τις υποθέσεις της RM1 δίνεται από την παρακάτω εξίσωση: P(w R) P(d) P(w d) P(q i d) d C i=1 n (2.21) Συνήθως η κατανομή της P(d) θεωρείται ομοιόμορφη. i=1 P(q i d) είναι η πιθανότητα ερωτήματος σύμφωνα με το μοντέλο εγγράφου (document model). Έπειτα, για να υπολογιστεί η πιθανότητα του κάθε όρου του μοντέλου σχετικότητας πρέπει πρώτα να εκτιμηθεί η πιθανότητα P(w d). Τα βήματα που οδηγούν στο τελικό στάδιο της ανάκτησης είναι τα εξής: - Αρχικά τα έγγραφα της συλλογής βαθμολογούνται και ταξινομούνται με βάση την πιθανότητα ερωτήματος. - Εξάγονται τα r πιο σχετικά έγγραφα τα οποία αποτελούν το ψευδο-σχετικό σύνολο RS. - Οι πιθανότητες του μοντέλου σχετικότητας P(w R) υπολογίζονται σύμφωνα με την εξίσωση 2.21 λαμβάνοντας υπόψιν μόνο το σύνολο RS αντί όλης της συλλογής C. - Οι πρώτοι e όροι με την μεγαλύτερη πιθανότητα P(w R) χρησιμοποιούνται για να διαμορφωθεί το εκτεταμένο ερώτημα. Έπειτα το ερώτημα αυτό χρησιμοποιείται για να παραχθεί μια δεύτερη ταξινομημένη λίστα των πιο σχετκών εγγράφων. P(w q ) = (1 λ) P(w q) + λ P(w R) (2.22) H εκτίμηση RM3 είναι μια επέκταση των μοντέλων σχετικότητας που αποδίδει καλύτερα από την RM1 [17]. Αντί να χρησιμοποιεί άμεσα τους όρους που επελέγησαν από την RM1, κάνει παρεμβολή με τους όρους του αρχικού ερωτήματος, όπως φαίνεται στην εξίσωση Το τελικό ερώτημα χρησιμοποιείται με τον ίδιο τρόπο όπως με την RM1 για να δημιουργήσει μια δεύτερη λίστα των πιο σχετικών εγγράφων. n 32

33 Κεφάλαιο 2 Υπόβαθρο Apache Lucene Η Apache Lucene είναι μια βιβλιοθήκη Java που παρέχει εργαλεία στο πεδίο της ανάκτησης πληροφορίας. Ο κώδικάς της είναι ελεύθερος και είναι διαθέσιμη δωρεάν. Το βασικότερό της χαρακτηριστικό είναι η δυνατότητά της να παρέχει υπηρεσίες μηχανής αναζήτησης σε οποιαδήποτε εφαρμογή μέσω της δεικτοδότησης (indexing) κάθε είδους αρχείου κειμένου. Η Lucene δημιουργεί ευρετήρια Σχήμα 2.8 : Στιγμιότυπο του Lucene Index ανεστραμμένου τύπου ( inverted indexes), δηλαδή ευρετήρια στα οποία για κάθε όρο δημιουργεί μια λίστα με τα έγραφα στα οποία περιέχεται, και είναι ένα χαρακτηριστικό που προσδίδει μεγάλη ταχύτητα στις αναζητήσεις [18]. Τα έγγραφα που αποθηκεύονται στο ευρετήριο χωρίζονται σε πεδία (fields) τα οποία έχουν μια τιμή(value), δηλαδή κάποιο κείμενο το οποίο αποτελείται από μεμονωμένους όρους (terms). Σχήμα 2.9 : Δομή αποθηκευμένων εγγράφων στο Lucene Index Ένα πολύ σημαντικό χαρακτηριστικό της Lucene είναι το κομμάτι της βαθμολόγησης (Scoring). Η μέθοδος δηλαδή με την οποία συγκρίνει ένα ερώτημα με ένα έγγραφο (document) και αποφασίζει αν είναι σχετικό και σε τι βαθμό. 33

34 Κεφάλαιο 2 Υπόβαθρο Lucene VSM Scoring Η διαδικασία που ακολουθεί η Lucene για το scoring όσον αφορά στις VSM τεχνικές βασίζεται στο cosine similarity που περιεγράφηκε στην προηγούμενη ενότητα. Ωστόσο χρησιμοποιεί κάποια επιπλέον χαρακτηριστικά για να βελτιώσει επιπλέον αυτή την τεχνική. - Η κανονικοποίηση του διανύσματος ενός εγγράφου V(d) σε μοναδιαίο είναι προβληματική από την άποψη ότι αφαιρεί όλη την πληροφορία σχετικά με το μέγεθος του εγγράφου. Σε μερικές περιπτώσεις όπου υπάρχει επανάληψη πληροφορίας στο έγγραφο δεν δημιουργείται πρόβλημα, ωστόσο όταν το κείμενο αποτελείται από μη επαναλαμβανόμενες παραγράφους τότε σίγουρα οδηγεί σε λάθος αποτελέσματα. Για τον λόγο αυτό χρησιμοποιείται ένας διαφορετικός όρος κανονικοποίησης, ο doc-len-norm(d) ο οποίος κανονικοποιεί το διάνυσμα του εγγράφου σε ένα διάνυσμα μεγαλύτερο ή ίσο του μοναδιαίου. - Κατά την εκτέλεση της δεικτοδότησης μπορεί να ορίσει ότι κάποια έγγραφα θα έχουν μεγαλύτερο βάρος σε σύγκριση με άλλα. Το βάρος αυτό ορίζεται από τον όρο doc-boost(d). - Τα έγγραφα που αποθηκεύονται στην Lucene χωρίζονται σε πεδία. Ο κάθε όρος ενός ερωτήματος απευθύνεται κάθε φορά σε ένα συγκεκριμένο πεδίο. Η κανονικοποίηση του μήκους των εγγράφων γίνεται με βάση τα μήκος των πεδίων. Ως αποτέλεσμα αυτών μπορεί να μπει ειδικό βάρος για συγκεκριμένα πεδία των εγγράφων. - Το ίδιο πεδίο ενός εγγράφου μπορεί να προστεθεί πολλές φορές κατά την διάρκεια της δεικτοδότησης. Επομένως το συνολικό βάρος αυτού του πεδίου θα είναι το γινόμενο των βαρών που είχε το πεδίο κάθε φορά που προστέθηκε στο ευρετήριο. - Όταν ο χρήστης θέτει ένα ερώτημα προς αναζήτηση στο ευρετήριο μπορεί να ορίσει ειδικό βάρος για κάποιο τμήμα του ερωτήματος ή ακόμα και για έναν μοναδικό όρο του ερωτήματος. Επομένως η συνεισφορά του τμήματος ή του όρου με το επιπλέον βάρος στο συνολικό βάρος του εγγράφου πολλαπλασιάζεται με το βάρος αυτό, το οποίο αποκαλείται query-boost(q). - Ένα έγγραφο μπορεί να ταιριάξει με ένα ρώτημα χωρίς να περιέχει απαραίτητα όλους τους όρους του ερωτήματος (όταν αυτό επιτρέπεται από τον τρόπο που έχει εκφραστεί το ερώτημα). Επομένως ορίζεται ένας παράγοντας ο οποίος δίνει επιπλέον βάρος στα έγγραφα που περιέχουν περισσότερους όρους του ερωτήματος. Αυτός ο παράγοντας ονομάζεται coord-factor(q,d). 34

35 Κεφάλαιο 2 Υπόβαθρο Όλα τα παραπάνω χαρακτηριστικά ενσωματώνονται στο γενικό πρότυπο βαθμολόγησης που ακολουθεί η Lucene για τις μεθόδους VSM και δίνεται παραστατικά στην παρακάτω εξίσωση. score(q, d) = coord_factor(q, d) query_boost(q) (2.23) V(q) V(d) doc_len_norm(d) doc_boost(d) V(q) Η Lucene υποστηρίζει μία σειρά μοντέλων που υλοποιούν τα επιμέρους τμήματα της παραπάνω εξίσωσης. Ειδικότερα το χρωματισμένο μέρος της εξίσωσης επηρεάζεται άμεσα και εξαρτάται από το μοντέλο που θα επιλεγεί για να χρησιμοποιηθεί. Στα πλαίσια της εργασίας χρησιμοποιήθηκαν τα μοντέλα TFIDFSimilarity και BM25Similarity που ακολουθούν τις αρχές που περιεγράφηκαν νωρίτερα για τις δύο τεχνικές. 35

36 3. ΣΧΕΤΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ Με την εκρηκτική εξέλιξη των κοινωνικών δικτύων και την ραγδαία αυξανόμενη πληροφορία που δημοσιεύεται σε αυτά, ήταν αναμενόμενο να προκαλέσουν το ενδιαφέρον πολλών ερευνητών. Πράγμα το οποίο συνέβη και υπάρχει ήδη ένα μεγάλο πλήθος εργασιών που έχουν εκπονηθεί και έχουν σαν αντικείμενό τους την μελέτη και επεξεργασία όλων αυτών των δεδομένων. Στο κεφάλαιο αυτό θα γίνει αναφορά σε κάποιες από τις εργασίες αυτές που είτε άμεσα είτε έμμεσα ασχολούνται με το αντικείμενο της παρούσας εργασίας και αποτέλεσαν κίνητρο και εφαλτήριο για την εκπόνησή της, ενώ σε κάποιες περιπτώσεις αξιοποιήθηκαν και μέθοδοι που παρουσιάστηκαν σε αυτές. Οι McMinn et al. [19] ασχολούνται με την δημιουργία μιας μεγάλης κλίμακας συλλογής από tweets που στόχο έχει την χρησιμοποίησή της για την αξιολόγηση μεθόδων εντοπισμού γεγονότων. Η συγκέντρωση των tweets γίνεται με την χρήση του Streaming API του Twitter για 28 ημέρες και μετά την εφαρμογή μιας σειράς φίλτρων διατηρούνται 120 εκατομμύρια tweets. Έπειτα εντοπίζουν μια σειρά από γεγονότα με την βοήθεια τριών μεθόδων. Χρησιμοποιούν την μέθοδο Locality Sensitive Hashing (LSH) των Petrovic et al [20] με την οποία τα λεξικογραφικά παρόμοια tweets τοποθετούνται στο ίδιο τμήμα ενός πίνακα κατακερματισμού. Χρησιμοποιήθηκε η εντροπία Shannon για να υπολογιστεί η ποσότητα της πληροφορίας του κάθε cluster. Τα cluster με μικρή εντροπία (<2.5) τοποθετούνταν στο τέλος της λίστας των πιθανών γεγονότων. Παρατηρήθηκε ότι το καλύτερο κριτήριο για τον εντοπισμό γεγονότων ήταν ο αριθμός των διαφορετικών χρηστών και όχι τόσο το πλήθος των μηνυμάτων. Η άλλη μέθοδος που χρησιμοποιείται είναι το Cluster Summarization των Aggarwal και Subbian [21]. Με βάση την τεχνική αυτή ορίζεται εξαρχής ένα συγκεκριμένο πλήθος ομάδων από μηνύματα (tweet clusters). Για κάθε ένα cluster ορίζονται δύο συνόψεις χαρακτηριστικών, η σύνοψη των χαρακτηριστικών κόμβου(node summary) και η σύνοψη περιεχομένου(content 36

37 Κεφάλαιο 3 Σχετική Βιβλιογραφία summary). Το node summary περιέχει το πλήθος των διαφορετικών χρηστών στο cluster και την συχνότητα εμφάνισής τους. Το content summary περιέχει ένα πλήθος λέξεων που περιέχονται στα μηνύματα μαζί με τα tf-idf βάρη τους. Συνδυάζοντας τις δύο αυτές συνόψεις προκύπτει ένας νέος τρόπος υπολογισμού της ομοιότητας μεταξύ των tweets και των υφιστάμενων clusters, με τον οποίο εκτός από τις ομοιότητες του περιεχομένου, αξιοποιούνται και χαρακτηριστικά που έχουν να κάνουν με την δομή του ίδιου του κοινωνικού δικτύου. Το βάρος δίνεται από την εξίσωση sim(d, C) = λ SimS(D, C) + (1 λ) SimC(D, C) (3.1) όπου SimS η ομοιότητα με βάση τα δομικά χαρακτηριστικά του κοινωνικού δικτύου, SimC η ομοιότητα με βάση τα χαρακτηριστικά περιεχομένου των μηνυμάτων και λ μια παράμετρος εξισορρόπησης που κυμαίνεται μεταξύ 0 και 1. Το κάθε νέο μήνυμα εισάγεται στο cluster με το οποίο υπολογίστηκε να είναι πιο όμοιο με βάση την παραπάνω εξίσωση, εκτός κι αν το βάρος αυτό είναι σημαντικά μικρότερο από τα βάρη που έχουν τα ήδη υπάρχοντα μηνύματα του cluster. Τέλος, συγκεντρώνουν μια λίστα από γεγονότα που έχουν δημοσιευτεί στο Portal:Current Events της Wikipedia. Σε αυτή την περίπτωση ακολουθείται μια άλλη διαδικασία. Τα tweets αρχικά δεικτοδοτούνται μέσω της Lucene. Έπειτα χρησιμοποιείται σε πρώτη φάση αυτούσια η περιγραφή του γεγονότος σαν ερώτημα για την ανάκτηση tweets από το ευρετήριο της Lucene. Ακολούθως εκτελείται επέκταση ερωτήματος (query expansion) έτσι ώστε να απαλειφθούν λεξικολογικές αναντιστοιχίες. Συγκεκριμένα, κάποιες λέξεις που οδηγούσαν σε διαφορετικά άρθρα της Wikipedia επεκτάθηκαν στον πλήρη τίτλο του άρθρου αυτού. Επίσης σε αυτές τις λέξεις που οδηγούσαν σε άλλες σελίδες δόθηκε διπλάσιο βάρος επειδή θεωρήθηκε ότι περιέχουν την σημαντικότερη πληροφορία. Χρησιμοποιώντας το μοντέλο της Lucene, Divergence from Randomness με την χρήση του Idf, ως βασικό μοντέλο ανάκτησης, επιλέχθηκαν τα 2000 πιο σχετικά tweets για κάθε γεγονός. Στην συνέχεια, με την βοήθεια του crowd sourcing αξιολογείται ένα μεγάλο πλήθος των tweets για να εκτιμηθεί εάν τα γεγονότα που εξάχθηκαν συμφωνούν με τον ορισμό του γεγονότος που ορίστηκε από τους συγγραφείς. Τέλος, γίνεται συγχώνευση των γεγονότων που προέκυψαν μέσω των τριών παραπάνω μεθόδων με έναν αλγόριθμο clustering που αξιοποιεί τις αξιολογήσεις των χρηστών, τις περιγραφές που έδωσαν στα γεγονότα και τις κατηγορίες στις οποίες τα ενέταξαν. Οι Becker et al [22] ασχολούνται με τον εντοπισμό περιεχομένου για ένα σύνολο προγραμματισμένων γεγονότων από διάφορα μέσα κοινωνικής δικτύωσης. Αρχικά συγκεντρώνουν ένα πλήθος προγραμματισμένων γεγονότων από σελίδες στο ίντερνετ που έχουν αυτόν τον σκοπό, όπως είναι το EventBrite και το Facebook Events. Στην συνέχεια, χρησιμοποιώντας την περιγραφή και την τοποθεσία των γεγονότων σχηματίζονται ερωτήματα που προσανατολίζονται στην ακρίβεια των αποτελεσμάτων (precision-oriented). Με την χρήση αυτών των ερωτημάτων 37

38 Κεφάλαιο 3 Σχετική Βιβλιογραφία συλλέγονται δεδομένα από διάφορα κοινωνικά δίκτυα χρησιμοποιώντας τα APIs τους. Στην συνέχεια, θεωρώντας τα δεδομένα που συλλέχθηκαν σε αυτή την φάση ως ακριβή, αξιοποιούνται ώστε να δημιουργηθούν νέα ερωτήματα που στοχεύουν στην συγκέντρωση μεγάλου όγκου δεδομένων (recall-oriented). Αυτό επιτυγχάνεται με δύο μεθόδους. Με την εξαγωγή των όρων που εμφανίζονται πιο συχνά και με την επιλογή των σημαντικών όρων που προκύπτουν από την αξιοποίηση μιας εξωτερικής συλλογής αναφοράς [23].Συγκεκριμένα, χρησιμοποιείται ένα σύστημα το οποίο εκμεταλλεύεται μια μεγάλη συλλογή από κείμενα που προέρχονται από το διαδίκτυο για να κατασκευάσει ένα λεξικό οντοτήτων. Κάνοντας χρήση αυτού του λεξικού, με την βοήθεια στατιστικών και γλωσσολογικών μεθόδων ανάλυσης, εξάγει σημαντικούς όρους. Έπειτα επιλέγονται τα βέλτιστα ερωτήματα με βάση το πόσο στοχευμένα είναι (έχοντας σαν κριτήριο το πλήθος των όρων και την ύπαρξη μη συνηθισμένων λέξεων) και την χρονική διακύμανση εμφάνισης των αποτελεσμάτων τους. Τέλος, επιχειρείται να αξιοποιηθούν δεδομένα από ένα κοινωνικό δίκτυο για να ανακτηθούν δεδομένα από άλλα κοινωνικά δίκτυα, μια τεχνική η οποία απέδωσε πολύ ικανοποιητικά. Η εργασία των Packer et al [24] ασχολείται με τον εντοπισμό γεγονότων μέσα από την αναζήτηση και επεξεργασία δεδομένων από το Twitter και την αξιοποίηση του σημασιολογικού ιστού (Semantic Web). Αρχικά, θεωρείται ότι υπάρχει διαθέσιμη μια λίστα από κάποια γεγονότα, η οποία έχει δομή RDF 11, δηλαδή ακολουθεί ένα συντακτικό το οποίο μπορεί να αναγνωριστεί από υπολογιστή και χωρίζει τα δεδομένα σε κατηγορίες βάζοντας ετικέτες. Το παράδειγμα που χρησιμοποιήθηκε ήταν το πρόγραμμα συναυλιών στα πλαίσια ενός μουσικού φεστιβάλ. Από το πρόγραμμα αυτό αρχικά εξάγονται οι όροι που θεωρούνται οι πιο χαρακτηριστικοί για την κάθε συναυλία. Επιλέχθηκε να συλλέγονται τα ονόματα των συγκροτημάτων. Στη συνέχεια με την χρήση της σημασιολογικής βάσης YAGO2 [25] εξάγεται ένα πλήθος οντοτήτων που σχετίζονται με την λίστα των συγκροτημάτων που συμμετέχουν στο φεστιβάλ. Για παράδειγμα δίνοντας το όνομα ενός συγκροτήματος επιστρέφεται μια λίστα με τραγούδια αυτού του συγκροτήματος. Μπορεί να επιλεχθεί το πλήθος των βημάτων που θα γίνουν για την αναζήτηση των συσχετίσεων, δηλαδή αν θα περιοριστεί στα τραγούδια του συγκροτήματος ή αν θα εντοπίσει οντότητες που συσχετίζονται με όρους που προέρχονται από τα τραγούδια και ούτω καθεξής. Στην συνέχεια αναζητούνται tweets που περιέχουν αυτές τις οντότητες και δημοσιεύτηκαν την περίοδο διεξαγωγής του φεστιβάλ. Έπειτα, τα tweets που συλλέχθηκαν τοποθετούνται σε χρονολογική σειρά και επιχειρείται μια εκτίμηση της συσχέτισης μεταξύ του χρόνου που εμφανίζονται tweets που περιέχουν οντότητες σχετικές με ένα συγκρότημα, με τον χρόνο κατά τον οποίο εμφανίστηκε το συγκρότημα στην σκηνή στην πραγματικότητα. Παρατηρείται καταρχήν μεγάλη αύξηση στον αριθμό των σχετικών tweets που ανασύρονται σε σχέση με το αν

39 Κεφάλαιο 3 Σχετική Βιβλιογραφία αναζητούνταν απλά με το όνομα ή το hashtag του συγκροτήματος. Επίσης υπάρχει όντως συσχέτιση μεταξύ των προαναφερθέντων μεγεθών και συμπεραίνεται ότι υπάρχει η δυνατότητα εντοπισμού γεγονότων παρατηρώντας την χρονική κατανομή των tweets που περιλαμβάνουν όρους που σχετίζονται με κάποιο συγκεκριμένο θέμα. Στην εργασία τους, οι Kumaran και Carvalho [26] μελετούν τον τρόπο με τον οποίο από ένα ερώτημα (query) που αποτελείται από ένα μεγάλο πλήθος όρων, μπορεί να σχηματιστεί ένα μεγάλο πλήθος υποερωτημάτων (subqueries) που προκύπτουν από τμήματα αυτού, και στην συνέχεια την επιλογή των ποιοτικότερων εξ αυτών χρησιμοποιώντας μετρικές πρόβλεψης της ποιότητας των ερωτημάτων (Query Quality predictors). Κίνητρο για την εργασία αποτέλεσε η διαπίστωση ότι η τέλεια συρρίκνωση των ερωτημάτων που περιέχονται από περιγραφές του διαγωνισμού TREC 12 προκαλεί μέση αύξηση της ακρίβειας των αποτελεσμάτων έως και 30%. Το πρόβλημα της συρρίκνωσης ενός ερωτήματος μετασχηματίζεται στο να αξιολογηθούν και να ταξινομηθούν όλα τα υποερωτήματα που προέρχονται από το αρχικό ερώτημα βασιζόμενοι στην προβλεπόμενη ποιότητα των αποτελεσμάτων τους και να επιλεχθεί το βέλτιστο εξ αυτών. Αξιοποιούνται μια σειρά από μετρικές που υπάρχουν στην βιβλιογραφία και χρησιμοποιούνται σαν χαρακτηριστικά που αντιπροσωπεύουν τα υποερωτήματα ώστε να εκπαιδευτεί ένας ταξινομητής. Αντικαθιστώντας το αρχικό μεγάλο ερώτημα με αυτό που επιλέχθηκε από τον ταξινομητή ως βέλτιστο υποερώτημα οδηγεί σε μια στατιστικά σημαντική μέση αύξηση της ακρίβειας της τάξης του 8% στα test sets. Αναλύοντας τα αποτελέσματα, η έρευνα καταλήγει ότι η συρρίκνωση των υποερωτημάτων αποδίδει για μεγάλα ερωτήματα με μέτριες επιδόσεις, ενώ ένας μικρός αριθμός από μετρικές πρόβλεψης της ποιότητας των υποερωτημάτων είναι ιδανικός για το κομμάτι της επιλογής των καλύτερων υποερωτημάτων

40 4. ΜΕΘΟΔΟΛΟΓΙΑ Σε αυτό το κεφάλαιο θα περιγραφούν όλα τα βήματα που ακολουθήθηκαν προς την επίτευξη των στόχων της παρούσας διπλωματικής εργασίας. Θα παρουσιαστούν οι τεχνικές και οι αλγόριθμοι που χρησιμοποιήθηκαν σε όλα τα στάδια της υλοποίησης και η αρχιτεκτονική του συστήματος. Η γλώσσα προγραμματισμού που χρησιμοποιήθηκε είναι η Java [27] και το περιβάλλον προγραμματισμού ο Eclipse IDE. 4.1 Αρχιτεκτονική Συστήματος Το σύστημα που υλοποιήθηκε αποτελείται από τα μέρη που παρουσιάζονται στο Σχήμα 4.1. Το πρώτο μέρος είναι η επικοινωνία και η συγκέντρωση των απαραίτητων δεδομένων από την Wikipedia και έπειτα η αποθήκευση αυτών σε μια βάση δεδομένων. Το δεύτερο μέρος είναι η εξαγωγή των χρήσιμων όρων από τις ειδήσεις που έχουν συλλεχθεί και ο σχηματισμός των ερωτημάτων. Στην συνέχεια ακολουθεί το στάδιο της συλλογής και αποθήκευσης των σχετικών tweets από το Twitter. Μετά ακολουθεί η δημιουργία του ευρετηρίου κι έπειτα η αναζήτηση και η επιλογή των πιο σχετικών tweets για κάθε είδηση μέσα από αυτό το ευρετήριο. Στο τελευταίο κομμάτι του συστήματος γίνεται ο υπολογισμός μιας σειράς μετρικών ποιότητας για τα ερωτήματα που χρησιμοποιήθηκαν και μια εκτίμηση της συσχέτισής τους με την ακρίβεια των αποτελεσμάτων που παρήγαγαν. 40

41 Κεφάλαιο 4 - Μεθοδολογία Σχήμα 4.1 : Η Αρχιτεκτονική του Συστήματος 4.2 Συλλογή Ειδήσεων και Γεγονότων Το πρώτο απαραίτητο βήμα της εργασίας αποτελεί η συγκέντρωση ενός συνόλου ειδήσεων και γεγονότων όλων των κατηγοριών από όλο τον κόσμο. Η επιλογή μιας ειδησεογραφικής ιστοσελίδας παγκόσμιου βεληνεκούς όπως είναι το BBC News 13 ή το Reuters 14 θα αποτελούσε μια λύση. Ωστόσο ήταν επιθυμητό η πηγή να είναι όσο το δυνατόν πιο ουδέτερη και γενικού περιεχομένου. Έτσι επιλέχθηκε το Portal: Current Events 15 της Wikipedia. Το Portal αυτό ενημερώνεται από τους χρήστες με την επίβλεψη από Administrators της Wikipedia. Απαραίτητη προϋπόθεση για να δημοσιευτεί κάποια είδηση είναι να προκαλεί το παγκόσμιο ενδιαφέρον και να μην αποτελεί μια τοπικού ενδιαφέροντος ασήμαντη είδηση. Επίσης όλες οι ειδήσεις πρέπει να είναι γραμμένες στα Αγγλικά και να συνοδεύονται από τουλάχιστον έναν υπερσύνδεσμο (link) προς κάποιο άρθρο ειδησεογραφικής ιστοσελίδας. Ο τρόπος παρουσίασης των ειδήσεων είναι ημερολογιακός. Οι ειδήσεις χωρίζονται ανά ημέρα και έπειτα ανά κατηγορία. Στο Σχήμα 4.2 φαίνονται οι ειδήσεις της 12 ης Ιουλίου

42 Κεφάλαιο 4 - Μεθοδολογία Σχήμα 4.2 : Οι ημερήσιες ειδήσεις όπως αναρτώνται στο Portal: Current Events της Wikipedia Η συλλογή των δεδομένων από την σελίδα θα ήταν αρκετά απλούστερη με την χρήση του MediaWiki API 16 το οποίο είναι σχεδιασμένο για να δίνει εύκολη πρόσβαση σε δεδομένα, μεταδεδομένα και άλλα στοιχεία που προέρχονται από τα άρθρα της Wikipedia. Ωστόσο, λόγω της φύσης του Portal και του στόχου του για αντικειμενική ενημέρωση του κοινού, η πρόσβασή του από εξωτερικά APIs και bots είναι απαγορευμένη με την εφαρμογή του template:nobots. Για αυτόν τον λόγο η λύση

43 Κεφάλαιο 4 - Μεθοδολογία που προτιμήθηκε ήταν αυτή του web scraping, δηλαδή της αποδόμησης του html κώδικα της σελίδας και της αλίευσης του επιθυμητού περιεχομένου. Η βιβλιοθήκη που χρησιμοποιήθηκε για αυτό τον σκοπό είναι η Jsoup. Μέσω της Jsoup γίνεται ανάλυση (parsing) του HTML κώδικα της σελίδας και εξαγωγή του Σχήμα 4.3 : Το πρώτο μέρος του δέντρου DOM της αρχικής σελίδας του Portal:Current_Events της Wikipedia δένδρου DOM. Στο Σχήμα 4.3 παρουσιάζεται ένα μέρος του δέντρου DOM από την αρχή της ιστοσελίδας Wikipedia Portal: Current Events. Αρχικά επιλέγονται όλα τα στοιχεία (Elements) που περιγράφονται από την HTML ετικέτα (Tag) που περικλείεται στα κόκκινα πλαίσια. Το κάθε στοιχείο από αυτά περιέχει τον κώδικα που αναπαριστά τον πίνακα με τις ειδήσεις μιας ημέρας, όπως φαίνεται στο σχήμα 4.2. Ο κάθε HTML πίνακας (table) των ημερήσιων ειδήσεων αποτελείται από δύο γραμμές (<tr>). Στο Σχήμα 4.4 παρουσιάζεται το τμήμα του δέντρου DOM για την πρώτη 43

44 Κεφάλαιο 4 - Μεθοδολογία γραμμή του πίνακα των ειδήσεων μιας ημέρας. Η πληροφορία που εξάγεται από το στοιχείο του πίνακα, όσον αφορά την πρώτη γραμμή του, είναι η ετικέτα που περιγράφεται στο πράσινο πλαίσιο. Ειδικότερα εξάγεται το κείμενο που περιέχει (υποδεικνύεται από το κόκκινο πλαίσιο) και είναι η ημερομηνία δημοσίευσης των ειδήσεων. Αυτή η πληροφορία θα κρατηθεί και θα τοποθετηθεί σε όλα τα BSON Documents των επιμέρους ειδήσεων. Σχήμα 4.4 : Το πρώτο μέρος του δέντρου DOM του πίνακα των ειδήσεων της ημέρας Στο Σχήμα 4.5 παρουσιάζεται ένα μέρος του δέντρου DOM της δεύτερης γραμμής του πίνακα των ημερήσιων ειδήσεων. Από αυτό το τμήμα αρχικά συλλέγονται όλες οι κατηγορίες των ειδήσεων που περιέχονται στις ετικέτες < dl>. Στο δέντρο DOM οι κατηγορίες των ειδήσεων είναι μεταξύ τους στοιχεία-αδέρφια (sibling elements) επειδή βρίσκονται στο ίδιο επίπεδο του δέντρου. Ανάμεσα στις κατηγορίες υπάρχει από ένα στοιχείο-αδερφός <ul> το οποίο είναι μια λίστα που περιέχει τις ειδήσεις που υπάγονται στην κατηγορία που έχει προηγηθεί. Το πρώτο στοιχείο-παιδί (child element) της λίστας <ul> φαίνεται στο Σχήμα 4.5 ότι είναι ένα στοιχείο τύπου <li>. Ελέγχεται αν αυτό το στοιχείο έχει σαν δικό του στοιχείο-παιδί κάποιο στοιχείο τύπου <ul>. Στην περίπτωση αυτή εξάγεται το κείμενο του πρώτου παιδιού-στοιχείου τύπου <a>, το οποίο ονομάζεται Parent Event και αποτελεί ένα γενικότερο γεγονός που εκτυλίσσεται σε μια μακρά χρονική περίοδο, κατά την διάρκεια της οποίας προκύπτουν επιμέρους ειδήσεις. Παρατηρείται ότι τα Parent Events περιέχονται 44

45 Κεφάλαιο 4 - Μεθοδολογία πάντα σε στοιχεία <a>, διότι αποτελούν σύνδεσμο σε άλλο άρθρο της Wikipedia που αναφέρεται σε αυτά. Έπειτα η διαδικασία του ελέγχου για Parent Events συνεχίζεται και στα υφιστάμενα στοιχεία-παιδιά τύπου <ul>. Όταν έχουν εντοπιστεί όλα τα Parent Events, στην επόμενη λίστα <ul> περιέχονται οι ειδήσεις εκείνες που αφορούν την συγκεκριμένη κατηγορία και τα συγκεκριμένα Parent Events. Σχήμα 4.5 : Το δεύτερο τμήμα του δέντρου DOM του πίνακα των ειδήσεων της ημέρας Από το στοιχείο <li> που περιέχει την πληροφορία μιας είδησης εξάγονται 3 στοιχεία. Καταρχήν εξάγεται ο τίτλος της είδησης που αποτελείται από όλο το απλό κείμενο που περιέχεται τόσο στο ίδιο το στοιχείο όσο και στα στοιχεία-παιδιά του. Ο τίτλος αποτελείται από τα κόκκινα και γαλάζια πλαίσια εντός του 4 ου πράσινου πλαισίου στο Σχήμα 4.5. Από τα στοιχεία-παιδιά του <li> της είδησης εξάγεται το στοιχείο <a> 45

46 Κεφάλαιο 4 - Μεθοδολογία που ανήκει στην κλάση (class) external. Μέσα σε αυτό το στοιχείο περιέχονται οι σύνδεσμοι(links) που παρέχονται για την συγκεκριμένη είδηση και οδηγούν σε κάποια αξιόπιστη εξωτερική δημοσιογραφική ιστοσελίδα. Το τμήμα που εξάγεται σημειώνεται με μωβ χρώμα στο Σχήμα 4.5. Τέλος, εξάγονται οι όροι του τίτλου της είδησης που αποτελούν σύνδεσμο προς άλλο άρθρο της Wikipedia. Οι όροι αυτοί εντοπίζονται ως στοιχεία-παιδιά του στοιχείου <li> της είδησης. Είναι τύπου <a> και περιέχουν το χαρακτηριστικό href= /wiki. Εξάγονται μόνο οι όροι που σημειώνονται στα γαλάζια πλαίσια του Σχήματος 4.5 και αποθηκεύονται σε μια λίστα του BSON Document της είδησης που αποκαλείται keywords. Περιέχουν σημαντική πληροφορία για την είδηση και θα χρησιμοποιηθούν στον σχηματισμό των ερωτημάτων προς το Twitter. Στο Σχήμα 4.6 δίνεται το BSON Document με όλα τα δεδομένα που έχουν εξαχθεί για την είδηση που περιεγράφηκε προηγουμένως. Σχήμα 4.6 : BSON Document μιας είδησης της ημερομηνίας στην βάση δεδομένων 4.3 Εξαγωγή σημαντικών όρων και σχηματισμός ερωτημάτων Για την εξαγωγή των σημαντικών όρων και φράσεων από τις ειδήσεις που έχουν συλλεχθεί, χρησιμοποιείται ένα σύνολο βιβλιοθηκών που αξιοποιούν τεχνικές επεξεργασίας φυσικής γλώσσας. Η εξαγωγή των όρων επιλέχθηκε να γίνεται 46

47 Κεφάλαιο 4 - Μεθοδολογία αποκλειστικά από την περιγραφή της είδησης, μιας κι εκεί βρίσκεται συσσωρευμένη η χρήσιμη πληροφορία της είδησης. Αναλυτικά οι όροι που εξάχθηκαν και τα εργαλεία με τα οποία έγινε η εξαγωγή τους περιγράφεται παρακάτω. Πίνακας 4.1 : Εξαχθέντες Όροι Εξαχθέντες όροι Named Entities Proper Nouns Adjective Noun (JJNN) Nouns Noun Sequences Noun Phrases Keywords Βιβλιοθήκη Stanford NER arktweetnlp Stanford POS Tagger Stanford POS Tagger Stanford POS Tagger Apache opennlp Parser Jsoup Named Entities είναι το σύνολο των οντοτήτων του πραγματικού κόσμου, όπως είναι τα πρόσωπα, οι τοποθεσίες, οι οργανισμοί, τα προϊόντα κλπ. οι οποίες μπορούν να συμβολιστούν με την βοήθεια ενός κυρίου ονόματος. Το μοντέλο της βιβλιοθήκης Stanford NER που χρησιμοποιήθηκε (english.conll.4class) συλλέγει και διαχωρίζει τα Σχήμα 4.7 : Παράδειγμα είδησης και εξαχθέντων όρων Named Entities σε 4 κατηγορίες. Τοποθεσία, Πρόσωπο, Οργανισμός, Διάφορα. Ωστόσο, στα πλαίσια της εργασίας δεν κρατήθηκε ο τύπος, παρά μόνο τα ίδια τα Named Entities. Proper nouns είναι όλα τα κύρια ουσιαστικά. Η επικάλυψη με τα Named Entities είναι μεγάλη, ωστόσο λόγω των διαφορετικών μοντέλων που 47

48 Κεφάλαιο 4 - Μεθοδολογία χρησιμοποιούν οι βιβλιοθήκες, σε κάποιες περιπτώσεις μπορεί η μια από τις δύο να επιστρέψει επιπλέον αποτελέσματα. Adjective-Noun είναι η αλληλουχία ενός επιθέτου με ένα ουσιαστικό και σε πολλές περιπτώσεις δίνει καίρια πληροφορία για την είδηση. Το ίδιο ισχύει και για τα κοινά ουσιαστικά (Nouns) όπως και για τις αλληλουχίες δύο ή και περισσότερων ουσιαστικών (Noun sequences). Όλα τα παραπάνω εξάγονται με την χρήση του Stanford POS Tagger, ο οποίος κάνει γραμματική ανάλυση του κειμένου που του δίνεται. Τέλος, με την βοήθεια του opennlp Parser εξάγονται τα noun phrases τα οποία αποτελούν μικρές φράσεις που αποτελούνται από ένα τουλάχιστον ουσιαστικό μαζί με κάποιο ρήμα, πρόθεση ή παραπάνω λέξεις. Οι εξαγόμενες φράσεις δεν έχουν πάντοτε χρήσιμη πληροφορία, ωστόσο υπάρχουν περιπτώσεις όπου εξάγονται φράσεις 3-4 λέξεων που δεν μπορούν να εξαχθούν με άλλον τρόπο και αποτελούν εξαιρετικά ακριβή ερωτήματα για την είδηση. Αφού εξαχθούν όλοι οι όροι που αναφέρθηκαν προηγουμένως από όλες τις ειδήσεις, έπειτα ακολουθεί ο σχηματισμός των ερωτημάτων. Η διαδικασία που επιλέχθηκε για τον σχηματισμό των ερωτημάτων είναι ο συνδυασμός ανά δύο των εξαχθέντων όρων και έχουν την μορφή Term 1 AND Term 2. Δόθηκε ιδιαίτερη προσοχή στο να αποφευχθούν ερωτήματα με επαναλαμβανόμενους όρους. Δηλαδή απορρίφθηκαν ερωτήματα της μορφής Term 1 AND Term1 τα οποία προέκυψαν λόγω του ότι ο ίδιος όρος μπορεί επί παραδείγματι να προέκυψε τόσο σαν Noun phrase όσο και σαν Noun Sequence. Επίσης απορρίπτονται ερωτήματα στα οποία ο ένας όρος είναι υποσύνολο του άλλου, δηλαδή ερωτήματα της μορφής Term1 Term2 Term3 AND Term1. Για παράδειγμα, όπως φαίνεται στο Σχήμα 4.7, έχει εξαχθεί σαν αλληλουχία επιθέτου-ουσιαστικού η φράση rebel leader και σαν ουσιαστικό ο όρος leader. Το ερώτημα rebel leader AND leader θα απορριφθεί ακριβώς επειδή ο ένας όρος είναι υποσύνολο του άλλου. 4.4 Συλλογή Tweets Αφού εξαχθούν όλοι οι χρήσιμοι όροι και σχηματιστούν τα ερωτήματα με τον τρόπο που περιεγράφηκε στην προηγούμενη ενότητα, ακολουθεί η συλλογή Tweets σχετικών με τις ειδήσεις, από την βάση δεδομένων του Twitter. Η πρόσβαση στην βάση δεδομένων του Twitter γίνεται μέσω του Search REST API του Twitter και υλοποιείται με την βοήθεια της βιβλιοθήκης Twitter4j 17, η οποία είναι μια ανεπίσημη βιβλιοθήκη Java που βοηθάει στην ενσωμάτωση των υπηρεσιών που προσφέρει το REST API του Twitter σε οποιαδήποτε εφαρμογή. Το Search API θέτει κάποιους περιορισμούς σε όποιον το χρησιμοποιεί. Ο πρώτος περιορισμός αφορά την παλαιότητα των tweets τα οποία μπορεί να ανασύρει. Το 17 twitter4j.org 48

49 Κεφάλαιο 4 - Μεθοδολογία όριο αυτό είναι 7 ημέρες 18. Οπότε η αναζήτηση έχει νόημα να περιοριστεί μόνο σε πρόσφατα γεγονότα και ειδήσεις. Ο δεύτερος σημαντικός περιορισμός που τίθεται έχει να κάνει με τον αριθμό των αιτημάτων που μπορούν να αποσταλούν ανά ένα συγκεκριμένο χρονικό διάστημα (time slot). Στην περίπτωση που τα αιτήματα στέλνονται από έναν πιστοποιημένο χρήστη, το όριο για τον τύπο του αιτήματος που χρησιμοποιείται στην εργασία (GET search/tweets), είναι 180. Από την άλλη, αν τα αιτήματα γίνουν δια μέσου μιας πιστοποιημένης εφαρμογής του Twitter, τότε το όριο ανεβαίνει στα Συνεπώς στα πλαίσια της εργασίας επιλέχθηκε ο δεύτερος τρόπος προσέγγισης. Για την αποδοτικότερη αναζήτηση και την αποφυγή επανάληψης των ίδιων αποτελεσμάτων χρησιμοποιήθηκε η τεχνική της σελιδοποίησης που παρέχεται από το Search API. Σχήμα 4.8 : Twitter Paging Τα αποτελέσματα που επιστρέφει το Twitter είναι σε μορφή JSON. Το αρχείο JSON του κάθε tweet περιέχει ένα μεγάλο πλήθος πληροφοριών εκ των οποίων αποσπάται ένα μικρό υποσύνολο αυτών, που είναι οι πλέον χρήσιμες. Από αυτό το υποσύνολο που περιγράφεται παρακάτω θα αξιοποιηθούν μόνο το κείμενο και το id του tweet. Οι υπόλοιπες πληροφορίες συγκεντρώνονται για πιθανή αξιοποίηση σε μελλοντική εργασία. Ένα παράδειγμα των πληροφοριών που κρατούνται για ένα tweet και αποθηκεύονται σε ένα BSON Document στην βάση δεδομένων δίνεται στο Σχήμα 4.9 και είναι τα εξής: - _id: το μοναδικό id που δίνει το Twitter σε κάθε tweet - Tweet: το κείμενο του tweet

50 Κεφάλαιο 4 - Μεθοδολογία - Date: η ημερομηνία δημοσίευσης του tweet - UserId: Το μοναδικό id του χρήστη που έχει δημοσιεύσει το tweet - Followers: ο αριθμός των χρηστών που ακολουθούν τον χρήστη που δημοσίευσε το tweet - Friends: ο αριθμός των followers που τους ακολουθεί και ο χρήστης - Favorites: ο αριθμός των χρηστών που πάτησε ότι του αρέσει το συγκεκριμένο tweet Σχήμα 4.9 : Το BSON Document ενός Tweet στην βάση δεδομένων - IsRetweet: λογική μεταβλητή που δείχνει εάν το tweet είναι αναδημοσίευση κάποιου υφιστάμενου tweet - Retweets: το πλήθος των αναδημοσιεύσεων του παρόντος tweet - Hashtags: τα hashtags (#word) που περιλαμβάνονται στο κείμενο του tweet - Urls: οι σύνδεσμοι που περιλαμβάνονται στο κείμενο του tweet - UserMentions: οι χρήστες που αναφέρονται (@user) στο κείμενο του tweet - QueryIds: τα ids των ερωτημάτων για τα οποία επέστρεψε το συγκεκριμένο tweet - EventIds: τα ids των ειδήσεων στις οποίες αναφέρεται το tweet με βάση τα ερωτήματα με τα οποία έχει επιστρέψει. Η αναζήτηση των tweets από την βάση δεδομένων του Twitter, με την βοήθεια του Search API, εκτελείται μέσω της διαδικασίας που θα αναλυθεί παρακάτω. Αρχικά επιλέγεται ο χρόνος που είναι επιθυμητό να διαρκέσει η αναζήτηση στο Twitter. Στην συνέχεια επιλέγονται οι ειδήσεις για τις οποίες θα γίνει η αναζήτηση. 50

51 Κεφάλαιο 4 - Μεθοδολογία Έπειτα ακολουθείται διαφορετική διαδικασία για τις περιπτώσεις που γίνεται πρώτη φορά αναζήτηση για τις συγκεκριμένες ειδήσεις και για τις περιπτώσεις που έχει ξαναγίνει. 1 η Περίπτωση : Αρχική αναζήτηση Συγκεντρώνεται το σύνολο των ερωτημάτων για τις ειδήσεις για τις οποίες είναι επιθυμητό να γίνει αναζήτηση. Τα διαθέσιμα αιτήματα προς την βάση του Twitter, τα οποία αναλογούν στο χρονικό διάστημα που επιλέχθηκε να γίνει η αναζήτηση, μοιράζονται ισόποσα στα ερωτήματα. Η αναζήτηση των tweets γίνεται με χρονολογική σειρά δίνοντας προτεραιότητα στα πιο πρόσφατα tweets. Για κάθε ερώτημα, μετά από κάθε αίτημα, αποθηκεύεται το id του παλαιότερου tweet έτσι ώστε στο επόμενο αίτημα να εκτελεστεί αναζήτηση που θα ανασύρει αποτελέσματα παλαιότερα από αυτό. Κάθε ερώτημα αξιοποιεί τα διαθέσιμα αιτήματα που του έχουν ανατεθεί. Αν μετά από κάποιο αίτημα δεν επιστρέφονται νέα tweets, τα υπόλοιπα διαθέσιμα αιτήματα μεταφέρονται στο επόμενο ερώτημα και προστίθενται σε αυτά που έχει ήδη διαθέσιμα. Η ίδια διαδικασία ακολουθείται μέχρι να αξιοποιηθούν όλα τα ερωτήματα. Όταν όλα τα ερωτήματα έχουν χρησιμοποιηθεί και δεν επιστρέφουν νέα tweets το πρόγραμμα μπαίνει στην διαδικασία του Streaming. Εφόσον δηλαδή έχουν μείνει διαθέσιμα αιτήματα, εκτελείται σειριακά μια αναζήτηση για κάθε ερώτημα, μέχρι να εξαντληθούν όλα τα αιτήματα. Με τον τρόπο αυτό συλλέγονται tweets που μπορεί να δημοσιεύτηκαν κατά την διάρκεια εκτέλεσης του προγράμματος. 2 η Περίπτωση : Έχει ξαναγίνει αναζήτηση για κάποια ερωτήματα Αρχικά αναζητούνται όλα τα ερωτήματα για τα οποία δεν έχει γίνει άλλη αναζήτηση και τα ερωτήματα τα οποία έχουν χρησιμοποιηθεί ξανά αλλά δεν έχουν κορεσθεί, δηλαδή δεν επέστρεψαν μηδενικό πλήθος tweets την τελευταία φορά που χρησιμοποιήθηκαν. Για την λίστα αυτών των ερωτημάτων εκτελείται η διαδικασία που περιεγράφηκε στην 1 η Περίπτωση εκτός από το τελευταίο βήμα. Στην διαδικασία του Streaming συμμετέχουν το σύνολο των ερωτημάτων για τις συγκεκριμένες ειδήσεις, μαζί και αυτά που δεν ήταν στην αρχική λίστα. Σε κάθε περίπτωση λαμβάνεται μέριμνα ώστε να μην παραβιαστεί ο μέγιστος αριθμός αιτημάτων για το οριζόμενο χρονικό διάστημα (time slot). Όταν συμπληρώνεται ο μέγιστος αριθμός, διακόπτεται η λειτουργία του προγράμματος 51

52 Κεφάλαιο 4 - Μεθοδολογία μέχρι να παρέλθει ο χρονικός περιορισμός και έπειτα συνεχίζεται η αναζήτηση από το σημείο που είχε διακοπεί. Όλα τα tweets επιλέγεται να είναι στην Αγγλική γλώσσα και διατηρούνται μόνο τα πρωτότυπα μηνύματα, απορρίπτοντας τα retweets. Σχήμα 4.10 : Διάγραμμα ροής αλγορίθμου αναζήτησης tweets 52

53 Κεφάλαιο 4 - Μεθοδολογία 4.5 Δεικτοδότηση (Indexing) Έχοντας συλλέξει και αποθηκεύσει στην βάση δεδομένων ένα μεγάλο πλήθος tweets, το επόμενο βήμα είναι η δημιουργία ενός ευρετηρίου για την γρήγορη αναζήτηση των tweets. Πέρα από την γρήγορη αναζήτηση, η βιβλιοθήκη Apache Lucene που χρησιμοποιείται για την δεικτοδότηση, παρέχει ένα σύστημα βαθμολόγησης των αποτελεσμάτων της αναζήτησης, με βάση την ομοιότητα των αποτελεσμάτων με το ερώτημα που χρησιμοποιήθηκε. Από το σύνολο των χαρακτηριστικών που κρατήθηκε για κάθε tweet, επιλέχθηκε να δεικτοδοτηθεί το κείμενο του tweet και to tweet id έτσι ώστε να μπορούν να εντοπιστούν και τα υπόλοιπα χαρακτηριστικά του στην βάση δεδομένων. Ο υπολογισμός του βάρους των tweets εκτελέστηκε με 5 διαφορετικές μεθόδους, οι οποίες θα αναφερθούν στο κεφάλαιο των πειραμάτων (Κεφάλαιο 5). 4.6 Επιλογή των πιο σχετικών tweets Μετά την δημιουργία των κατάλληλων ευρετηρίων για τα tweets, ακολουθεί η βαθμολόγηση και επιλογή των Ν πιο σχετικών tweets για την κάθε είδηση. Στις επόμενες δύο παραγράφους θα περιγραφούν οι μεθοδολογίες που ακολουθούνται ανάλογα με τις τεχνικές που χρησιμοποιούνται κάθε φορά. Αρχικά παρουσιάζεται ο τρόπος υλοποίησης του μοντέλου ανάκτησης που βασίζεται στο Vector space model και εκμεταλλεύεται το παραδοσιακό σχήμα βαθμολόγησης εγγράφων TF-IDF και το BM25, το οποίο βασίζεται στο TF-IDF και είναι μια επέκτασή του. Έπειτα, στην επόμενη παράγραφο περιγράφεται το δεύτερο μοντέλο ανάκτησης που δημιουργήθηκε, το οποίο χρησιμοποιεί σαν σύστημα βαθμολόγησης των tweets ένα γλωσσικό μοντέλο και κάνει χρήση της ανάδρασης ψευδο-σχετικότητας (pseudorelevance feedback) για την βελτίωση των αρχικών ερωτημάτων Vector Space model-based Retrieval Αρχικά, για κάθε είδηση συγκεντρώνονται όλα τα ερωτήματα που έχουν σχηματιστεί με τον τρόπο που περιγράφηκε στην παράγραφο 4.3. Έπειτα γίνεται αναζήτηση στο ευρετήριο σειριακά με καθένα από αυτά τα ερωτήματα, ρυθμίζοντας την Lucene έτσι ώστε να βαθμολογεί τα tweets με βάση την τεχνική TF-IDF αρχικά και με την BM25 στην συνέχεια. Η Lucene επιστρέφει για κάθε αποτέλεσμα και ένα βάρος με το οποίο αξιολογεί την ομοιότητα του tweet με το ερώτημα που τέθηκε. Το ίδιο tweet μπορεί να επιστραφεί από ένα πλήθος N διαφορετικών ερωτημάτων και μαζί να επιστραφεί 53

54 Κεφάλαιο 4 - Μεθοδολογία ο ίδιος αριθμός από N διαφορετικά βάρη. Για την επιλογή των πιο σχετικών tweets χρησιμοποιήθηκαν οι εξής τεχνικές : - Average: Για κάθε tweet που έχει επιστραφεί από τις αναζητήσεις στο ευρετήριο, υπολογίζεται ο μέσος όρος των βαρών που έχει συγκεντρώσει από τα N διαφορετικά ερωτήματα ως εξής : score = N i=1 score(i) (4.1) N - Maxscore: Για κάθε tweet επιλέγεται το μέγιστο βάρος από αυτά που έχει πάρει και τα υπόλοιπα παραλείπονται: score = max{score(1) score(n)} (4.2) - Sum: Ως νέο βάρος του κάθε tweet ορίζεται το άθροισμα όλων των βαρών που έχει συλλέξει. N score = score(i) i=1 (4.3) Αφότου εκτιμηθεί η σχετικότητα των tweets για κάθε μία από τις παραπάνω τεχνικές, έπειτα τοποθετούνται σε φθίνουσα σειρά κι επιλέγονται τα 20 πιο σχετικά. Παρόλο που έχουν απορριφθεί ήδη τα retweets, σε πολλές περιπτώσεις παρατηρείται ότι κάποια tweets επαναλαμβάνονται είτε αυτούσια είτε με κάποιες μικρές διαφορές, όπως κάποιο URL στο τέλος του tweet που οδηγεί σε κάποια άλλη σελίδα, κάποια σημεία στίξης ή σε κάποιες περιπτώσεις ένα επιπλέον hashtag. Αυτά τα tweets θεωρούνται μη επιθυμητά μιας και ο στόχος είναι να συλλεχθεί πληροφορία σχετική με την είδηση αλλά όχι επαναλαμβανόμενη. Για την αντιμετώπιση αυτού του προβλήματος χρησιμοποιήθηκε μια τεχνική που είναι παραλλαγή της τεχνικής Maximal Marginal Relevance (MMR) [28]. Σύμφωνα με την τεχνική αυτή, τα tweets κατατάσσονται πάλι με βάση τις μεθόδους που αναφέρθηκαν προηγουμένως, ωστόσο το κάθε νέο tweet που προστίθεται στην λίστα των πιο σχετικών tweets ελέγχεται αν είναι όμοιο με κάποιο από τα ήδη υπάρχοντα tweets. Αν η ομοιότητα ξεπερνά κάποιο κατώφλι τότε απορρίπτεται και ελέγχεται το επόμενο στην κατάταξη tweet, μέχρι να συμπληρωθούν 20 μη όμοια μεταξύ τους tweets. Για την αξιολόγηση της ομοιότητας μεταξύ των tweets χρησιμοποιείται η μέθοδος Cosine Similarity [11] η οποία αναλύεται στο Κεφάλαιο 2. 54

55 Κεφάλαιο 4 - Μεθοδολογία Αλγόριθμος 4.1 : MMR Filtering Δεδομένα : - AllTweets: Πίνακας όλων των tweets σε φθίνουσα κατάταξη - Ν: Πλήθος Φιλτραρισμένων tweets - K: Δείκτης θέσης στον πίνακα AllTweets - Similar: Ομοιότητα με φιλτραρισμένα tweets Έξοδος : Αρχή: Τέλος - FilTweets: Top Χ tweets χωρίς duplicates Ν = 1 Κ = 1 FilTweets[N] = AllTweets[K] Κάνε Όσο{Ν<Χ} Κ = Κ+1 Similar = Ψευδές Για i από 1 μέχρι Ν Αν CosSim( AllTweets[K], FilTweets[i] ) > threshold τότε Έξοδος Τέλος_Αν Τέλος_Επανάληψης Similar = Αληθές Αν Similar == Ψευδές τότε Τέλος_Αν FilTweets[N]=AllTweets[K] 55

56 Κεφάλαιο 4 - Μεθοδολογία Language model-based Retrieval Στο δεύτερο μοντέλο ανάκτησης, αρχικά έγινε η δεικτοδότηση των tweets ρυθμίζοντας την Lucene έτσι ώστε να χρησιμοποιήσει για την βαθμολόγηση των tweets το γλωσσικό μοντέλο [29] που δημιουργείται με βάση το καθένα από αυτά, όπως αναλύθηκε στην παράγραφο Στην συνέχεια θέτονται στην Lucene όλα τα ερωτήματα που δημιουργήθηκαν για την κάθε μία είδηση. Για το κάθε ερώτημα επιλέγονται τα k πιο σχετικά tweets. Το σύνολο αυτών των tweets στην συνέχεια αξιοποιείται ως πληροφορία η οποία θεωρείται ότι είναι σχετική με την είδηση (pseudo-relevant set). Έπειτα, στην θέση του πρωτότυπου ερωτήματος τίθεται ο συνδυασμός όλων των όρων που αποτελούσαν τα αρχικά ερωτήματα για την συγκεκριμένη είδηση. Με την χρήση του γλωσσικού μοντέλου βασισμένου στην σχετικότητα που περιγράφηκε στην παράγραφο και του ψευδο-σχετικού συνόλου επιτυγχάνεται η επέκταση του ερωτήματος με βάση το οποίο γίνεται αναβαθμολόγηση των διαθέσιμων tweets. Τέλος, επιλέγονται τα 20 πιο σχετικά tweets για την κάθε είδηση κάνοντας χρήση της τεχνικής MMR που περιγράφηκε στην παράγραφο για την απαλοιφή των όμοιων αποτελεσμάτων. 4.7 Μετρικές ποιότητας ερωτημάτων Στο τελευταίο κομμάτι της εργασίας γίνεται ο υπολογισμός μιας σειράς μετρικών της ποιότητας των ερωτημάτων [26]. Το κίνητρο είναι να βρεθεί μια σχέση μεταξύ κάποιων μετρικών και της ακρίβειας των αποτελεσμάτων που αυτά επιστρέφουν. Ο απώτερος στόχος είναι, όταν το σύνολο των ερωτημάτων είναι μεγάλο, να μπορεί να επιλεγεί ένα υποσύνολο το οποίο θα δίνει τα καλύτερα αποτελέσματα. Κάποιες από τις μετρικές που χρησιμοποιήθηκαν χαρακτηρίζονται pre-retrieval, δηλαδή υπολογίζονται μόνο με βάση τα χαρακτηριστικά των ερωτημάτων και της συλλογής των tweets. Οι υπόλοιπες χαρακτηρίζονται post-retrieval δηλαδή απαιτούν να έχει προηγηθεί η χρησιμοποίησή τους για αναζήτηση και για αυτό έχουν μεγαλύτερο υπολογιστικό κόστος. Παρακάτω περιγράφονται οι μετρικές που χρησιμοποιήθηκαν: Query Length O αριθμός των μοναδικών λέξεων από τις οποίες αποτελείται το ερώτημα. IDF-based features Υπολογίστηκε το Inverse Document Frequency της κάθε λέξης του ερωτήματος με βάση την παρακάτω εξίσωση: IDF w = log N+0,5 2 Nw log 2 (N+1) (4.4) όπου Nw είναι το πλήθος των tweets στα οποία εμπεριέχεται η λέξη w και Ν είναι το σύνολο όλων των tweets. Για κάθε ερώτημα υπολογίστηκε το άθροισμα, η τυπική απόκλιση, το μέγιστο/ελάχιστο [30], το μέγιστο, ο 56

57 Κεφάλαιο 4 - Μεθοδολογία αριθμητικός μέσος, ο γεωμετρικός μέσος, ο αρμονικός μέσος και ο συντελεστής διακύμανσης (coefficient of variation) για όλες τις λέξεις που το αποτελούν. o Τυπική απόκλιση : s N = 1 N (x N i=1 i x ) 2 (4.5) o Γεωμετρικός Μέσος : μ g = ( n i = 1 x i ) 1 n (4.6) o Αρμονικός Μέσος : μ h = n n 1 i=1 x i (4.7) o Συντελεστής διακύμανσης : c v = s N μ (4.8) Query Scope (QS) Το Query Scope [30], [31] είναι ένα μέτρο του μεγέθους του συνόλου των tweets που επέστρεψε το συγκεκριμένο ερώτημα σε σχέση με τον συνολικό αριθμό των tweets που υπάρχουν στην συλλογή. Όσο μεγαλύτερο είναι το query scope τόσο χαμηλότερη είναι η ποιότητα του ερωτήματος μιας και δεν είναι επαρκώς επιλεκτικό. QS = log n Q (4.9) N όπου n Q το πλήθος των tweets που περιέχουν τουλάχιστον έναν από τους όρους από τους οποίους αποτελείται το ερώτημα. Similarity Collection/Query-based features (SCQ) Η μετρική αυτή βασίζεται στην υπόθεση ότι τα ερωτήματα που έχουν μεγαλύτερη ομοιότητα συνολικά με την συλλογή των εγγράφων προς αναζήτηση, έχουν υψηλότερη ποιότητα. SCQ w = (1 + ln(n(w))) ln ( 1 + N N w ) (4.10) όπου n(w) το πλήθος εμφάνισης του όρου w του ερωτήματος στην συλλογή. Για αυτή την μετρική υπολογίζονται οι ίδιες ποσότητες με τα IDFbased features. Inverse Collection Term Frequency-based features (ICTF) Η μετρική αυτή εκτιμά την ποιότητα του ερωτήματος με βάση την αναλογία του πλήθους της εμφάνισης ενός όρου του ερωτήματος στην συλλογή σε σχέση με το σύνολο των όρων της συλλογής [30]. n(w) ICTF w = log 2 (4.11) T 57

58 Κεφάλαιο 4 - Μεθοδολογία όπου T το σύνολο των λέξεων της συλλογής. Και για αυτή την μετρική υπολογίζονται όλα τα μεγέθη που υπολογίστηκαν και για τα SCQ και IDF. Μετά τον υπολογισμό όλων των παραπάνω μετρικών, επιχειρείται να εκτιμηθεί η συσχέτιση αυτών, με την ακρίβεια των αποτελεσμάτων που έχει το κάθε ερώτημα. Για την εκτίμηση της συσχέτισης επιλέχθηκε ο συντελεστής συσχέτισης Kendall τ [32] και πιο συγκεκριμένα η παραλλαγή του συντελεστή, Kendall τb [33]. Ο Kendall τ ορίζεται ως εξής: Έστω (x1,y1), (x2,y2),, (xn,yn) ένα σύνολο παρατηρήσεων των τυχαίων μεταβλητών X και Y αντίστοιχα, έτσι ώστε όλες οι τιμές των xi, yi να είναι μοναδικές. Ένα ζεύγος παρατηρήσεων (xi,yi) και (xj,yj), όπου i j, θεωρείται σύμφωνο αν η κατάταξη και των 2 στοιχείων είναι όμοια: δηλαδή, όταν xi > xj και yi > yj ή xi < xj και yi < yj. Ασύμφωνο ονομάζεται όταν xi > xj και yi < yj ή xi < xj και yi > yj. Όταν xi = xj ή yi = yj το ζεύγος δεν είναι ούτε σύμφωνο ούτε ασύμφωνο. τ = (πλήθος σύμφωνων ζευγών) (πλήθος ασύμφωνων ζευγών) n(n 1)/2 (4.12) Η τιμή του τ κυμαίνεται μεταξύ -1 και 1. Όταν η τιμή τείνει στο 1 υποδεικνύεται τέλεια συσχέτιση. Οι μεταβλητές είναι ανεξάρτητες όταν τείνει στο 0 ενώ όταν τείνει στο -1 υπάρχει τέλεια αντίστροφη συσχέτιση. Ο Kendall τb που χρησιμοποιείται στην εργασία, λαμβάνει μέριμνα και για τα ζεύγη που δεν είναι ούτε σύμφωνα ούτε ασύμφωνα και υπολογίζεται από την εξής εξίσωση τ B = n c n d (n 0 n 1 )(n 0 n 2 ) (4.13) όπου - n0 = n(n-1)/2 - nc = Πλήθος των σύμφωνων ζευγών - nd = Πλήθος των ασύμφωνων ζευγών - n1 = Άθροισμα των ti * (ti - 1) / 2 για κάθε i - n2 = Άθροισμα των uj * (uj - 1) / 2 για κάθε j - ti = Πλήθος των ίσων τιμών για το i-οστό σύνολο ισοβαθμιών της πρώτης ποσότητας - uj = Πλήθος των ίσων τιμών για το j-οστό σύνολο ισοβαθμιών της δεύτερης ποσότητας 58

59 5. ΠΕΙΡΑΜΑΤΑ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ Στο παρόν κεφάλαιο παρουσιάζεται το σύνολο των πειραμάτων που εκτελέστηκαν σύμφωνα με την μεθοδολογία που αναλύθηκε στο προηγούμενο κεφάλαιο. Μαζί με τα πειράματα εκτίθεται και το σύνολο των αποτελεσμάτων που προέκυψε καθώς και σχολιασμός επί αυτών. 5.1 Δεδομένα Ειδήσεις Αρχικά έγινε η συλλογή των ειδήσεων από το Portal:Current_Events της Wikipedia με τον τρόπο που περιεγράφηκε στην Ενότητα 4.2. Για τα πειράματα που έγιναν στην πορεία χρησιμοποιήθηκαν οι ειδήσεις 2 ημερομηνιών. Σε όλα τα πειράματα συμμετείχαν οι 11 ειδήσεις της 8 ης Μαΐου 2016 και σε ένα υποσύνολο αυτών συμμετείχαν επίσης και οι 12 ειδήσεις της 6 ης Μαΐου Αναλυτικά οι ειδήσεις των 2 ημερών φαίνονται στους πίνακες 5.1 και 5.2. Είναι εμφανές ότι στην πρώτη περίπτωση η συνολική πληροφορία που προκύπτει από τις περιγραφές των ειδήσεων είναι αισθητά μεγαλύτερη και αυτό έχει αντίκτυπο στο πλήθος των όρων που θα εξαχθούν. Κατά συνέπεια το πλήθος των ερωτημάτων που θα σχηματιστούν όσο και του πλήθους των tweets που θα συλλεχθούν θα είναι εκθετικά μεγαλύτερο. 59

60 Κεφάλαιο 5 Πειράματα και Αποτελέσματα Πίνακας 5.1 : Ειδήσεις 06/05/2016 # Περιγραφή Κατηγορία 1 More than 72 are killed in clashes between Armed conflicts and attacks Al-Nusra Front and Syrian government forces in Khan Tuman south of Aleppo, Syria. 2 The supporters of presidential candidates Grace Poe and Mar Roxas post petitions Politics and elections and counter-petitions on Change.org urging either candidate to drop-out and give way for the other. 3 Vice presidential candidate Leni Robredo Politics and elections thanks supporters for the "Poe-Robredo tandem" pairing her with presidential candidate Grace Poe but insists she is loyal to her running-mate Mar Roxas. 4 A man is killed, and two others are injured (a man in critical condition and a woman with non-life-threatening injuries), in the parking lot of Westfield Montgomery Mall Law and crime in Potomac in Montgomery County, Maryland, near Washington, D.C. Soon after, a woman is killed at a grocery store some miles away. Police suspect that the same shooter may be behind both crime scene incidents. Police in both Montgomery County and neighboring Prince George's County are also examining whether this person is the same as the male involved in the fatal shooting the previous day of a woman, Gladys Tordil, who was allegedly shot (a bystander who tried to help was also wounded) by her estranged abusive husband, tentatively identified as Eulalio Tordil, 62, a former Federal Protective Service officer. 5 Mar Roxas and current President Benigno Politics and elections Aquino III call on political rivals Jejomar Binay, Miriam Defensor Santiago, and Grace Poe to unite and form a unity coalition in the upcoming elections. 6 Grace Poe rejects Mar Roxas' offer saying she is not willing to withdraw. Jejomar Binay also rejects calls for him to withdraw. Politics and elections 60

61 Κεφάλαιο 5 Πειράματα και Αποτελέσματα 7 Leni Robredo thanks a group of activistfarmers from Sumilao, Bukidnon for their support promising to continue their reforms. 8 Head of Australia's Department of Immigration Mike Pezzullo denies that the detention centre for asylum seekers on Manus Island must be closed. He said there was no crisis that required any closure of the centre despite Papua New Guinea's Supreme Court ruling it to be unconstitutional and ordering the release of the detainees. 9 The Workers' Party of Korea, the ruling party of North Korea, holds its first party congress in nearly 40 years. The meeting comes as the country is facing tougher sanctions for its recent missile launches. 10 London votes Sadiq Khan to succeed Boris Johnson as Mayor of London; Khan is the first Muslim to be elected London's Mayor. 11 SpaceX successfully lands another Falcon 9 First stage onto a floating barge for the second time. It was carrying a Japanese communications satellite JCSAT-14, which was successfully put into geostationary orbit. 12 Cameroonian footballer Patrick Ekeng of Romanian club FC Dinamo București dies after collapsing during a match. Politics and elections Politics and elections Politics and elections Politics and elections Science and technology Sports 61

62 Κεφάλαιο 5 Πειράματα και Αποτελέσματα Πίνακας 5.2 : Ειδήσεις 08/05/2016 # Περιγραφή Κατηγορία 1 Gunmen kill eight policemen in an ambush Armed conflicts and attacks outside Cairo. The attack is claimed by Islamic State. 2 A policeman is killed in a shootout with Armed conflicts and attacks militants in Taif, Saudi Arabia. 3 Three Spanish journalists were released after Armed conflicts and attacks being abducted around Aleppo, Syria, and held hostage by the Al-Nusra Front since 13 July Afghan officials hang six Taliban prisoners. Law and crime 5 Turkish shelling kills 55 Islamic State of Iraq and Armed conflicts and attacks Syria insurgents in northern Syria in retaliation for rocket attacks on Kilis, a Turkish border town. 6 At least 73 people are killed in a collision Disasters and accidents between two buses and a fuel tanker in Ghazni Province, Afghanistan. 7 At least 41 people are missing in Taining County Disasters and accidents of China's Fujian province after a landslide hits a construction workers dormitory. 8 North Korean leader Kim Jong-un rules out a International relations nuclear first strike unless North Korea's sovereignty is violated. 9 Unidentified gunmen shoot dead Khurram Zaki, Law and crime a Pakistani rights activist known for speaking out against the Taliban. 10 Prime Minister of Australia Malcolm Turnbull Politics and elections has called a historic double dissolution election with both houses of Parliament being dissolved and an election to be held on July Gou Zhongwen replaces the disgraced Lu Xiwen as the Deputy Party Secretary of Beijing. Politics and elections 62

63 Κεφάλαιο 5 Πειράματα και Αποτελέσματα Εξαγωγή όρων - Σχηματισμός ερωτημάτων Από τις παραπάνω ειδήσεις έγινε εξαγωγή όρων και φράσεων με βάση την μεθοδολογία που αναλύθηκε στην Ενότητα 4.3. Ένα παράδειγμα των όρων που εξάχθηκαν από κάθε είδηση φαίνεται στο Σχήμα 4.4. Ακολούθως, με βάση τους όρους που εξάχθηκαν από κάθε είδηση, σχηματίστηκαν τα ερωτήματα ως συνδυασμοί ανά δύο των εξαχθέντων όρων. Ακολουθούν παραδείγματα στους παρακάτω πίνακες. Πίνακας 5.3 : Ερωτήματα είδησης από 08/05/2016 Three Spanish journalists were released after being abducted around Aleppo, Syria, and held hostage by the Al-Nusra Front since 13 July "july" AND "abducted" "spanish journalists" AND "aleppo" "july" AND "al-nusra" "spanish journalists" AND "abducted" "july" AND "front" "spanish journalists" AND "al-nusra" "journalists" AND "aleppo" "aleppo" AND "13 july" "journalists" AND "13 july" "aleppo" AND "abducted" "journalists" AND "al-nusra" "abducted" AND "al-nusra" "aleppo syria" AND "spanish journalists" "aleppo syria" AND "abducted" "abducted" AND "front" "abducted" AND "13 july" Πίνακας 5.4 : Ερωτήματα είδησης από 06/05/2016 Leni Robredo thanks a group of activist-farmers from Sumilao, Bukidnon for their support promising to continue their reforms. "leni robredo thanks" AND "sumilao "leni robredo thanks" AND "their bukidnon for their support promising" reforms" "leni robredo thanks" AND "bukidnon" "leni robredo thanks" AND "their support promising" "bukidnon" AND "leni" "bukidnon" AND "robredo" "bukidnon" AND "leni robredo" "bukidnon" AND "their support promising" "bukidnon" AND "leni robredo" "bukidnon" AND "reforms" "bukidnon" AND "thanks" "bukidnon" AND "group of activistfarmers" "bukidnon" AND "sumilao" "their support promising" AND "sumilao bukidnon" "their support promising" AND "group "leni robredo" AND "group of of activistfarmers" activistfarmers" 63

64 Κεφάλαιο 5 Πειράματα και Αποτελέσματα 5.2 Συλλογή tweets Η συλλογή των tweets για τις ειδήσεις των 2 ημερών που έχουν συλλεχθεί, έγινε με βάση την μεθοδολογία που περιεγράφηκε στην ενότητα 4.4. Η ίδια διαδικασία ακολουθήθηκε ξεχωριστά για την κάθε ημέρα. 3 ημέρες μετά την δημοσίευση των ειδήσεων έγινε αναζήτηση με όλα τα ερωτήματα που σχηματίστηκαν για περίπου 12 ώρες. Παρακάτω δίνεται μια γενική εικόνα των Datasets. Πίνακας 5.5 : Πληροφορίες των Datasets News Date # News Average Average DB Size Queries/News Tweets/News 06/05/ , MB 08/05/ , MB 5.3 Επιλογή των πιο σχετικών tweets Μετά και την συλλογή των tweets με τον τρόπο που περιεγράφηκε προηγουμένως, ακολουθούν οι διάφορες δοκιμές για την ανάκτηση των 20 πιο σχετικών tweets για κάθε είδηση. Η αξιολόγηση των αποτελεσμάτων γίνεται από ένα άτομο και εκτελείται με τον διαχωρισμό των tweets σε σχετικά και μη σχετικά, χωρίς κάποια περαιτέρω διαβάθμιση Dataset 06/05/2016 Οι πρώτες δοκιμές έγιναν με το Dataset των tweets για τις ειδήσεις της 6 ης Μαΐου. Αρχικά τα tweets δεικτοδοτούνται (indexing) μέσω της Lucene. Tα tweets τοποθετούνται στο ευρετήριο αυτούσια, χωρίς κάποιες μετατροπές πέρα από την απαλοιφή των κενών γραμμών. Για την δεικτοδότηση χρησιμοποιήθηκαν 2 διαφορετικοί αλγόριθμοι βαθμολόγησης (scoring formulas) που παρέχονται από την Lucene, ο TFIDF και ο BM25, οι οποίοι παρουσιάζονται στο Κεφάλαιο 2. Στον πίνακα 5.7 παρουσιάζεται η ακρίβεια των αποτελεσμάτων για κάθε είδηση (ακρίβεια σε 20 tweets, p@20) και η μέση ακρίβεια για όλες τις ειδήσεις. Οι τεχνικές που χρησιμοποιήθηκαν σε αυτό το Dataset είναι τρεις: Average, Maxscore και Sum, που αναλύθηκαν στην Ενότητα

65 Κεφάλαιο 5 Πειράματα και Αποτελέσματα Πίνακας 5.6 : Top 20 Tweets είδησης 1 06/05/2016 (ΒΜ25,Maxscore) # Tweet Relevant 1 Syrian government forces battle rebels near Aleppo, city areas shelled: BEIRUT (Reuters) - Syrian government forces 2 Syrian rebels captured Khan Tuman south to Aleppo 3 Drones footage of JaN VBIED and Tanks/BMPs storming Khan Tuman south #Syria #Aleppo. 4 Nusra Front launches offensive in Khan Tuman south of Aleppo The Al-Nusra Front exists today as the Syrian branch of ISIS. 6 Syrian government forces battle rebels near Aleppo, city areas shelled: Syrian government forces and... #Lebanon Syrian government forces battle rebels near Aleppo, city areas 7 shelled: Syrian government forces and their al... Syrian government forces battle rebels near Aleppo, city areas 8 shelled: Syrian government forces and their allies Syrian government forces battle rebels near Aleppo, city areas 9 shelled BEIRUT (Reuters) - Syrian government forces 10 #Russia: Terrorist Al-Nusra Front break the ceasefire in #Aleppo "Russia Today" CHANGED THE TITLE " Al- Nusra Front pounding Aleppo." 12 Al-Nusra Front Continues Attacks in Northwestern Aleppo 13 Huge: 18 IRCG Soldiers killed today in Khan Tuman, South #Aleppo 14 Syrian government forces battle rebels near Aleppo, city areas shelled 15 #Syrian #Syria Syrian government forces beat back rebel offensive in Aleppo 16 Syrian government forces battle rebels near Aleppo, city areas shelled 17 Syrian government forces battle rebels near Aleppo, city areas shelled: Syrian government Syrian government forces shell Damascus outskirts, clash with 18 rebels: BEIRUT (Reuters) - Syrian government fo... No 19 #jabhatunusra drone footage of VBIED attack followed by Tank/BMP's assault on Khan Tuman,south rural #Aleppo #Syria Syrian army, allies set to liberate northern town of Khan Tuman: 20 Syrian government forces, backed by advisors

66 Κεφάλαιο 5 Πειράματα και Αποτελέσματα Πίνακας 5.7 : Ακρίβεια αποτελεσμάτων για τις 06/05/2016 ******* TFIDF BM25 Είδηση Average Sum Maxscore Average Sum Maxscore Average Παρατηρείται ότι καλύτερη τεχνική και για τα δύο ευρετήρια αποδεικνύεται η Sum. Στον Πίνακα 5.6 δίνεται ένα παράδειγμα με τα 20 πιο σχετικά tweets της είδησης 1 για το ευρετήριο BM25 και με την χρήση της τεχνικής Maxscore Dataset 08/05/2016 Για τα tweets των ειδήσεων της 8 ης Μαΐου αρχικά δημιουργήθηκαν 2 ευρετήρια με όμοιο τρόπο με της 6 ης Μαΐου. Τα tweets δεικτοδοτήθηκαν αρχικά χωρίς κάποια μεταβολή στο κείμενό τους, πέρα από την απαλοιφή των χαρακτήρων αλλαγής γραμμής (αρχικό index). Επίσης δημιουργήθηκαν διαγράμματα τα οποία δείχνουν την τάση των βαρών των πρώτων 100 tweets για την κάθε είδηση. Στον παρακάτω πίνακα παρουσιάζεται η ακρίβεια των αποτελεσμάτων για κάθε είδηση (ακρίβεια σε 20 tweets, p@20) και η μέση ακρίβεια για όλες τις ειδήσεις. 66

67 Κεφάλαιο 5 Πειράματα και Αποτελέσματα Πίνακας 5.6 : Ακρίβεια αποτελεσμάτων για 08/05/2016 (αρχικό index) ******* TFIDF BM25 Είδηση Average Maxscore Sum Average Maxscore Sum Average Σε αυτή την περίπτωση η μεγαλύτερη ακρίβεια παρατηρείται με την τεχνική Sum που δίνει βάρος στα tweets που έχουν επιστραφεί με πολλά διαφορετικά ερωτήματα. Ακολουθεί, στον πίνακα 5.9, ένα παράδειγμα με τα 20 πιο σχετικά tweets της είδησης 2 για το ευρετήριο TFIDF και με την χρήση της τεχνικής Maxscore, ενώ στο Σχήμα 5.1 δίνεται το διάγραμμα της τάσης του βάρους για τα 100 πιο σχετικά tweets. Σχήμα 5.1 : Βάρη των top 100 tweets Είδησης 2 08/05/2016 (TFIDF, Maxscore) 67

Δείτε περισσότερα