Αλληλεπιδραστικός µηχανισµός ερωταπαντήσεων µε χρήση πιθανοτικών µοντέλων ϑεµάτων

Transcript

1 Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τοµέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφοριών και Υπολογισµών Αλληλεπιδραστικός µηχανισµός ερωταπαντήσεων µε χρήση πιθανοτικών µοντέλων ϑεµάτων ιπλωµατική Εργασία του Ιωάννη Αντωνιάδη ΑΕΜ 7137 Επιβλέπων Ανδρέας Λ. Συµεωνίδης Επίκουρος Καθηγητής Επιβλέπων Θεµιστοκλής Μαυρίδης Υποψήφιος ιδάκτωρ Θεσσαλονίκη 2015

2

3 Περίληψη Ηγεφύρωση του χάσµατος µεταξύ ανθρώπου και µηχανής µε σκοπό την πρόσβαση σε πληροφορίες παραµένει ένα απαιτητικό και δύσλητο πρόβληµα. Οι πρώτες προσπάθειες για την επίλυσή του ξεκίνησαν µε τη δηµιουργία των µηχανών αναζήτησης, στις αρχές της δεκαετίας του Εκτοτε, ένα ολόκληρο επιστηµονικό πεδίο, που ασχολείται µε τεχνικές ϐελτιστοποίησης των µηχανών αναζήτησης (Search Engine Optimazation - SEO), έχει συµβάλλει τα µέγιστα σε αυτό που ονοµάζεται σήµερα ως εποχή της πληροφορίας. Ωστόσο, οι κλασικές µηχανές αναζήτησης στηρίζονται σε µεθόδους που δεν επιτρέπουν την καλύτερη δυνατή εκµετάλλευση των πληροφοριακών πόρων, ενώ σε πολλές περιπτώσεις αδυνατούν να κατανοήσουν τις ακριβείς πληροφο- ϱιακές ανάγκες των χρηστών. Λύση στο συγκεκριµένο πρόβληµα καλούνται να δώσουν τα συστήµατα ερωταπαντήσεων (Question Answering Systems) τα οποία προτάθηκαν αρκετές δεκαετίες πριν και, όπως όλα δείχνουν, ϑα απασχολήσουν αισθητά την επιστηµονική κοινότητα σε παρόν και µέλλον. Τα συστήµατα αυτά στοχεύουν στην καλύτερη κατανόηση των ερωτηµάτων του χρήστη και στην εύρεση απαντήσεων που χαρακτηρίζονται ως ακριβείς. Χρησιµοποιούν τεχνικές επεξεργασίας ϕυσικής γλώσσας (γλωσσολογικές και στατιστικές τεχνικές) για την εξαγωγή πληροφορίας που σχετίζεται µε το εννοιολογικό περιεχόµενο του ερωτήµατος αλλά και της συλλογής εγγράφων, από την οποία αντλείται η απάντηση. Στα πλαίσια της διπλωµατικής εργασίας, προτείνεται ένας µηχανισµός που κάνει χρήση στατιστικών µεθόδων, και πιο συγκεκριµένα πιθανοτικών µοντέλων ϑεµάτων. Τα µοντέλα αυτά εξάγουν τη λανθάνουσα ϑεµατική πληρο- ϕορία που χαρακτηρίζει µια συλλογή εγγράφων, ενώ, στα πλαίσια του προτεινόµενου συστήµατος, η πληροφορία αυτή χρησιµοποιείται σε δύο στάδια αλληλεπίδρασης µε τον χρήστη, µε σκοπό να καθοριστούν, µε µεγαλύτερη ακρίβεια, οι πληροφοριακές του ανάγκες. Οι τελικές απαντήσεις δίνονται µε τη µορφή τµηµάτων κειµένου. Η αξιολόγηση του συστήµατος αναδεικνύει τα πλεονεκτήµατα του προτεινόµενου µηχανισµού σε σχέση µε συστήµατα που κάνουν χρήση διαφορετικών µεθόδων και τροφοδοτεί µε σηµαντικά συµπεράσµατα και ανοιχτά ϑέµατα ένα ερευνητικό πεδίο, το οποίο είναι σχετικά ανεξερεύνητο. i

4 Abstract Interactive Question Answering using Topic Models Bridging the gap between humans and machines on the scope of information retrieval has always been a challenging task. Search Engine Optimization (SEO) has made a lot of progress to that end, but still the gap seems long. Search engines are incapable of capturing the content semantics of neither the information resources nor the user s query. Question Answering systems were proposed a couple of decades ago in order to cope with this challenge and a lot of knowledge has come to light since then. QA systems attempt to capture the semantics of a user s question and provide a specific, suitable answer. Many different Natural Language Processing (NLP) techniques, such as linguistic and probabilistic techniques, have been incorporated to Question Answering with success. The main focus of this thesis is the proposal of a Question Answering mechanism that aims at providing improved answers to user queries. The proposed mechanism incorporates content semantic analysis and probabilistic topic modelling techniques to capture the latent thematic structure of the document collection, from which the answer is derived. The evaluation process includes a comparison of the proposed, topicbased, ranking mechanism with a standard search engine ranking mechanism and proves its validity. Ioannis Antoniadis antoniii@ece.auth.gr July 2015, Thessaloniki ii

5 Περιεχόµενα 1 Εισαγωγή Γενικά Αντικείµενο της εργασίας Στόχοι της εργασίας ιάρθρωση της εργασίας Γνωστικό υπόβαθρο και ερευνητικές προσεγγίσεις Συστήµατα ερωταπαντήσεων Συστήµατα ερωταπαντήσεων και συστήµατα ανάκτησης πληροφορίας οµή και λειτουργία Ιστορική αναδροµή Ερευνητικές προσεγγίσεις Linguistic approach Statistical approach Pattern matching approach Πιθανοτικά µοντέλα ϑεµάτων Ορολογία Ερευνητικές προσεγγίσεις Latent Semantic Analysis probabilistic Latent Semantic Analysis Latent Dirichlet Allocation Άλλα πιθανοτικά µοντέλα ϑεµάτων Συστήµατα ερωταπαντήσεων µε χρήση πιθανοτικών µοντέλων ϑε- µάτων Ερευνητικές προσεγγίσεις Ταξινόµηση απαντήσεων µε χρήση ιεραρχικών µοντέλων ϑεµάτων Σηµασιολογικό σύστηµα ερωταπαντήσεων µε χρήση µοντέλων ϑεµάτων Μοντελοποίηση οµοιότητας ϐασισµένη σε µοντέλα ϑεµάτων σε συστήµατα ερωταπαντήσεων iii

6 3.1.4 Παραγωγή σκορ κατάταξης ϐασισµένων σε ϑεµατικά µοντέλα σε εξατοµικευµένα συστήµατα ερωταπαντήσεων Ορισµός του προβλήµατος Το προτεινόµενο σύστηµα Παρουσίαση του συστήµατος Παρουσίαση των τεχνολογιών Elasticsearch REST AngularJS AJAX οµή του συστήµατος Μοντέλα δεδοµένων Document Paragraph Topic Offline Component Web Parser Content Analyzer Online Component ηµιουργία ϑεµάτων σε επίπεδο εγγράφων ηµιουργία ϑεµάτων σε επίπεδο παραγράφων Ταξινόµηση παραγράφων Η σελίδα της εφαρµογής Αξιολόγηση του συστήµατος Υπόθεση της αξιολόγησης Μετρικές αξιολόγησης Πειράµατα και αποτελέσµατα Πείραµα 1 - Αναλυτική εύρεση µετρικών για την περίπτωση ταξινόµησης µε ένα ϑέµα εύτερο πείραµα - Υπολογισµός µέσων τιµών για την πε- ϱίπτωση ταξινόµησης µε 1, 2 και 3 ϑέµατα Συµπεράσµατα και µελλοντικές επεκτάσεις Συµπεράσµατα Μελλοντικές επεκτάσεις iv

7 Κατάλογος Σχηµάτων 1.1 Ποσοστά επιλογής αποτελεσµάτων µε ϐάση τη σειρά κατάταξής της τους από τη µηχανή αναζήτησης Google οµή ενός συστήµατος QA Γραφικό µοντέλο plsa Γενική δοµή του µοντέλου plsa Παραγοντοποίηση του πίνακα λέξεων-εγγράφων στο πιθανοτικό µοντέλο plsa Γραφική αναπαράσταση του µοντέλου LDA Η διαφορά των ϑέσεων κατάταξης της καλύτερης απάντησης από τα συστήµατα Lucene και Lucene+LDA Γραφικό µοντέλο Ent-LDA Θεµατικές κατανοµές s και q που λαµβάνονται από την ανάλυση LDA ένδρο τριών επιπέδων µε χρήση hlda Αποτελέσµατα από την εφαρµογή των µοντέλων σε δεδοµένα του διαγωνισµού TREC 2004 µε χρήση διαφορετικού window size ιάγραµµα ϱοής του συστήµατος των [Chinaei et. al, 2014] Απόδοση του QA συστήµατος σε δεδοµένα ειδήσεων Αφαιρετικό διάγραµµα ϱοής του προτεινόµενου συστήµατος Αναλυτικό διάγραµµα ϱοής του προτεινόµενου συστήµατος Γραφική µορφή των ϑεµάτων, όπως παρουσιάζονται στον χρήστη Αντικείµενο χρήστη σε µορφή JSON document, πηγή : [Gormley, Tong, 2015] Παράδειγµα αναζήτησης µέσω του Search API του Elasticsearch, πηγή : [Gormley, Tong, 2015] Αποτελέσµατα που επιστρέφονται από την αναζήτηση που απεικονίζεται στο σχήµα 4.5, πηγή : [Gormley, Tong, 2015] Ενθυλάκωση υπερσυνδέσµων σε πληροφοριακούς πόρους µε ϐάση την αρχή HATEOAS, πηγή :[Burk, 2014] Το µοντέλο MVC v

8 4.9 ηµιουργία νέου HTML element µε χρήση directive, πηγή :[Seshadry, Green, 2014] Μοντέλο Document Μοντέλο Paragraph Μοντέλο Topic ιάγραµµα της δοµής του offline µηχανισµού Αναλυτικό διάγραµµα της δοµής του Web Parser ιαδικασία δηµιουργίας ϑεµάτων σε επίπεδο εγγράφων Ενα ϑέµα µε τις πιθανότερες λέξεις που το περιγράφουν ιαδικασία ταξινόµησης των εγγράφων και δηµιουργίας ϑεµάτων σε επίπεδο παραγράφων Θεµατική κατανοµή µε K d = 10 ϑέµατα ενός εγγράφου ιαδκιασία ταξινόµησης παραγράφων µε ϐάση τις ϑεµατικές ε- πιλογές του χρήστη στο δεύτερο στάδιο αλληλεπίδρασης Αρχική σελίδα της διαδικτυακής εφαρµογής Παρουσίαση ϑεµάτων σε επίπεδο εγγράφων Παρουσίαση ϑεµάτων σε επίπεδο παραγράφων Παρουσίαση των παραγράφων Τιµές της µετρικής precision για kp os = Τιµές της µετρικής recall για kp os = Τιµές της µετρικής precision για kp os = Τιµές της µετρικής recall για kp os = Τιµές της µετρικής precision για kp os = Τιµές της µετρικής recall για kp os = ιάγραµµα scatter των τιµών του παράγοντα ϐελτίωσης για kp os = {1, 3, 6} Μέσες τιµές της µετρικής precision και του παράγοντα ϐελτίωσης για ένα σύνολο 9 πειραµάτων Μέσες τιµές της µετρικής recall και του παράγοντα ϐελτίωσης για ένα σύνολο 9 πειραµάτων Παράδειγµα ταξινόµησης µιας λίστας εγγράφων µε ϐάση k = 3 ϑέµατα vi

9 Πίνακας συντοµογραφιών n kjajax AI API DSL GUI hlda HTTP IDF IR JSON LDA LSA MVC MVVM NLP plsa QA REST URI URL TF SE SEO XML Asynchronous Javascript and XML Artificial Intelligence Application Programming Interface Domain Specific Language Graphical User Interface hierarchical Latent Dirichlet Allocation Hypertext Transfer Protocol Inverse Document Frequency Information Retrieval JavaScript Object Notation Latent Dirichlet Allocation Latent Semantic Analysis Model-View-Controller Model-View-ViewModel Natural Language Processing probabilistic Latent Semantic Analysis Question Answering Representational State Transfer Uniform Resource Identifier Uniform Resource Locator Term Frequency Search Engine Search Engine Optimization EXtensible Markup Language vii

10 Ευχαριστίες Με αυτή την εργασία ολοκληρώνεται ένας σηµαντικός κύκλος απόκτησης γνώσεων και εµπειριών. Θα ήθελα να ευχαριστήσω όσους συµµετείχαν σε αυτή την πολυετή πορεία στο τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του ΑΠΘ. Το διδακτικό προσωπικό, τους συµφοιτητές, τους ϕίλους. Ιδιαίτερα ϑέλω να ευχαριστήσω τον επίκουρο καθηγητή του τµήµατος, κ. Ανδρέα Συµεωνίδη, και τον υποψήφιο διδάκτορα Θεµιστοκλή Μαυρίδη για τη συµβολή τους στην ολοκλήρωση της εργασίας. viii

11

12 1 Εισαγωγή Το πρώτο κεφάλαιο περιλαµβάνει µια επισκόπηση του προβλήµατος που καλείται να αντιµετωπίσει η εργασία. Γίνεται αναφορά στους επιµέρους στόχους και τις µεθόδους που χρησιµοποιούνται, ενώ ολοκληρώνεται µε µια σύντοµη παρουσίαση της δοµής των επιµέρους κεφαλαίων. 1.1 Γενικά Τις τελευταίες δεκαετίες, η επιστήµη των υπολογιστών έχει ϐοηθήσει µε πολλούς τρόπους τη Ϲωή του ανθρώπου. Μεγάλες ποσότητες πληροφορίας είναι πλέον διαθέσιµες µέσω του διαδικτύου, ενώ οι µηχανές αναζήτησης (Search Engines - SEs) παρέχουν στους χρήστες άµεση πρόσβαση σε πληροφορίες, οι οποίες είναι διασκορπισµένες σε κάθε γωνιά του πλανήτη. Οι παραπάνω λόγοι συνετέλεσαν στο χαρακτηρισµό της εποχής αυτής ως εποχής της πληροφορίας (information era). Η ανάγκη για πληροφορία αυξάνεται συνεχώς. Οι χρήστες επιζητούν α- παντήσεις καλύτερης ποιότητας, που είναι περισσότερο ακριβείς σε σχέση µε τα ερωτήµατά τους, ενώ και η ταχύτητα έχει εξελιχθεί σε κυρίαρχη απαίτηση. Το ερευνητικό πεδίο που ασχολείται µε τεχνικές ϐελτιστοποίησης των µηχανών αναζήτησης (Search Engine Optimization - SEO) έχει γνωρίσει µεγάλη άνθηση τα τελευταία χρόνια, προσπαθώντας να ακολουθήσει τους ϱυθµούς εξέλιξης των αναγκών. 1

13 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Αντικείµενο της εργασίας Οι µηχανές αναζήτησης, που χρησιµοποιούνται πλέον για την εύρεση κάθε είδους πληροφορίας (ιστοσελίδες, ειδήσεις, εικόνες, ϐίντεο κλπ) µπορούν να δεχθούν ένα ερώτηµα µε τη µορφή λέξεων-κλειδιών, ή ακόµα και σε ϕυσική γλώσσα, και επιστρέφουν ένα σύνολο από σελίδες, οι οποίες συγκεντρώνουν µεγάλη πιθανότητα να περιέχουν πληροφορίες σχετικές µε το αρχικό ερώτηµα. Ενα µειονέκτηµα της προσέγγισης αυτής είναι το γεγονός ότι οι χρήστες πρέπει να γνωρίζουν επακριβώς τον σωστό τρόπο σύνταξης του ερωτήµατος (τι ακριβώς να ϱωτήσουν), διαφορετικά ενδέχεται η µηχανή αναζήτησης να επιστρέψει αποτελέσµατα που δεν είναι τα επιθυµητά. Στο σχήµα 1.1 παρουσιάζονται τα ποσοστά επιλογής των 10 σχετικότερων αποτελεσµάτων, µε ϐάση τη σειρά κατάταξής τους από τη µηχανή Google, που προκύπτουν µε ϐάση τις αναζητήσεις των χρηστών. Το γράφηµα προέρχεται από έρευνα 1 του έτους Παρατηρώντας το γράφηµα µπορεί κανείς να ερµηνεύσει ότι οι χρήστες δεν µένουν ικανοποιηµένοι από τα πρώτα 1-2 αποτελέσµατα, αλλά συχνά πρέπει να αναζητήσουν πληροφορίες από σελίδες που ϐρίσκονται σε χαµηλότερες ϑέσεις. Μπορεί, λοιπόν, κανείς να ισχυριστεί ότι η αναζητούµενη πληροφορία κατανέµεται ανοµοιόµορφα σε έναν µεγάλο αριθ- µό σελίδων, και ότι η διαδικασία εύρεσής της µπορεί να γίνει αρκετά επίπονη για τους χρήστες. Σχήµα 1.1: Ποσοστά επιλογής αποτελεσµάτων µε ϐάση τη σειρά κατάταξής της τους από τη µηχανή αναζήτησης Google 1 2

14 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 1 Η εύρεση απαντήσεων που χαρακτηρίζονται από µεγάλη ακρίβεια σε σχέση µε τα ερωτήµατα των χρηστών είναι ένα Ϲήτηµα που απασχολεί εδώ και αρκετές δεκαετίες τους επιστήµονες των σχετικών κλάδων. Για την αντιµετώπιση του προβλήµατος έχουν προταθεί τα λεγόµενα συστήµατα ερωταπαντήσεων (Question Answering systems ή απλώς QA systems), τα οποία διαφέρουν από τις συµβατικές µηχανές αναζήτησης ως προς το γεγονός ότι επιστρέφουν στους χρήστες τους ακριβείς απαντήσεις. Ο όρος ακριβής απάντηση ερµηνεύεται διαφορετικά, ανάλογα µε τη σκοπιά από την οποία εξετάζεται το εκάστοτε πρόβληµα. Υπό την αυστηρή έννοια, ένα QA σύστηµα ϑα πρέπει να µπορεί να απαντήσει µονολεκτικά σε ερωτήσεις όπως "When did Greece enter the European Union?" ή "What is the capital of Greece?". Μία περισσότερο χαλαρή ερµηνεία του όρου µπορεί να δοθεί στην περίπτωση που το σύστηµα επιστρέφει ένα κοµµάτι κειµένου, στο οποίο περιλαµβάνεται η απάντηση. Ο κλάδος των Question Answering συστηµάτων αποτελεί συγκερασµό πολλών διαφορετικών επιστηµονικών πεδίων, όπως η επεξεργασία ϕυσικής γλώσσας (Natural Language Processing - NLP), η ανάκτηση πληροφορίας (Information Retrieval - IR), η µηχανική µάθηση (Machine Learning), η αναπαράσταση γνώσης (Knowledge Representation), η σηµασιολογική ανάλυση (Semantic Analysis) και εµπίµπτει στο γενικότερο πεδίο της τεχνητής νοηµοσύνης (Artificial Intelligence - AI). Από το σύνολο των QA συστηµάτων που αναφέρονται στη σχετική ϐιβλιογραφία, ιδιαίτερο ενδιαφέρον παρουσιάζει η κατηγορία των συστηµάτων που κάνουν χρήση στατιστικών µεθόδων, µε σκοπό να ανακαλύψουν τις λανθάνουσες δοµές που υπάρχουν στις συλλογές εγγράφων, από τις οποίες προκύπτουν οι απαντήσεις. Μια κατηγορία τέτοιων στατιστικών µεθόδων, που ονοµάζονται πιθανοτικά µοντέλα ϑεµάτων (probabilistic topic models) στοχεύουν στην ανακάλυψη των ϑεµατικών κατανοµών που περιγράφουν µια συλλογή εγγράφων. Με αυτό τον τρόπο αποκτάται χρήσιµη πληροφορία σχετική µε το περιεχόµενο των εγγράφων. Από την οικογένεια των ϑεµατικών µοντέλων ξεχωρίζει το µοντέλο Latent Dirichlet Allocation (LDA), το οποίο έχει εφαρµοσθεί µε επιτυχία σε αρκετές περιπτώσεις, όχι όµως σε τόσο µεγάλη κλίµακα σε έρευνες που σχετίζονται µε QA συστήµατα. 1.3 Στόχοι της εργασίας Ο κύριος στόχος της εργασίας είναι η ενίσχυση του πεδίου των QA συστη- µάτων, µέσω της ανάπτυξης ενός µηχανισµού για την ϐελτίωση της ποιότητας αναζήτησης που παρέχεται στους χρήστες. Πρόκειται για έναν διαδραστικό µηχανισµό ο οποίος δέχεται ερωτήµατα σε ϕυσική γλώσσα, και µετά από δύο στάδια ϑεµατικής ανάλυσης και αλληλεπίδρασης µε τον χρήστη, επιστρέφει τµήµατα κειµένου, ως απαντήσεις, στο ερώτηµα που έθεσε ο χρήστης. 3

15 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 1 ευτερεύον στόχος της εργασίας είναι και η ενίσχυση του πεδίου των πιθανοτικών µοντέλων ϑεµάτων, από τη σκοπιά της εφαρµογής τους σε συστήµατα ανάκτησης πληροφορίας, όπως είναι ο µηχανισµός που προτείνεται. Ο στόχος αυτός επιτυγχάνεται µε την παρουσίαση του γνωστικού υποβάθρου και των ερευνών που έχουν γίνει στο εν λόγω πεδίο. Παρατηρήθηκε ότι υπάρχει µειωµένος αριθµός ερευνών, που να συνδυάζουν τα αντικείµενα των QA συστηµάτων και των πιθανοτικών µοντέλων ϑε- µάτων. Εποµένως ένας ακόµη στόχος που προκύπτει άµεσα από τα παραπάνω είναι και η µελέτη της συµπεριφοράς των QA συστηµάτων, όταν αυτά συνδυάζονται µε τις συγκεκριµένες µεθόδους. Τα συµπεράσµατα που προκύπτουν συµπληρώνουν ένα κοµµάτι του συγκεκριµένου ερευνητικού πεδίου που µέχρι τώρα ήταν σχετικά ελλειπές. 1.4 ιάρθρωση της εργασίας Η εργασία αποτελείται από 6 επιµέρους κεφάλαια. Στο παρόν κεφάλαιο επιχειρήθηκε µια γενική εισαγωγή στις τεχνολογίες, στο πρόβληµα, στα κίνητρα και τους στόχους που τέθηκαν στα πλαίσια της εργασίας. Στο δεύτερο κεφάλαιο παρουσιάζεται το γνωστικό υπόβαθρο των QA συστηµάτων και των πιθανοτικών µοντέλων ϑεµάτων, καθώς και οι σηµαντικότε- ϱες έρευνες που σχετίζονται µε το εκάστοτε πεδίο. Από την οικογένεια των πιθανοτικών µοντέλων δίνεται µεγαλύτερη ϐαρύτητα στο µοντέλο LDA, που χρησιµοποιείται στα πλαίσια της εργασίας. Στο τρίτο κεφάλαιο αναλύονται ορισµένα QA συστήµατα που έχουν υλοποιηθεί στο παρελθόν, και που κάνουν χρήση του µοντέλου LDA. Εξηγούνται τα συµπεράσµατα και τα ανοιχτά ϑέµατα που προκύπτουν από τις έρευνες αυτές, και τελικά ορίζεται µε σαφήνεια το πρόβληµα που καλείται να αντιµετωπίσει η εργασία. Το τέταρτο κεφάλαιο περιλαµβάνει την αναλυτική περιγραφή του συστήµατος που υλοποιήθηκε στα πλαίσια της εργασίας, την παρουσίαση των υποσυστηµάτων που το απαρτίζουν, και τις τεχνολογίες που χρησιµοποιούνται, ώστε να τεθεί σε λειτουργία. Επιπλέον, στο κεφάλαιο αυτό παρουσιάζεται η σελίδα διεπαφής του συστήµατος (Graphical User Interface - GUI), το οποίο αναπτύχθηκε σαν διαδικτυακή εφαρµογή. Ακολουθεί το πέµπτο κεφάλαιο µε την παρουσίαση των πειραµάτων που έγιναν στο στάδιο της αξιολόγησης του συστήµατος, καθώς και των συµπερασµάτων που εξάγονται από αυτά. Η εργασία ολοκληρώνεται µε το έκτο κεφάλαιο, στο οποίο συνοψίζονται τα σηµαντικότερα χαρακτηριστικά του προτεινόµενου µηχανισµού, καθώς και τα τελικά συµπεράσµατα από την συγκεκριµένη έρευνα, ενώ παράλληλα γίνονται προτάσεις για την περαιτέρω εξερεύνηση του συγκεκριµένου επιστηµονικού πεδίου στο µέλλον. 4

16 2 Γνωστικό υπόβαθρο και ερευνητικές προσεγγίσεις Το δεύτερο κεφάλαιο περιλαµβάνει µία εισαγωγή στις τεχνολογίες των συστη- µάτων ερωταπαντήσεων (Question Answering systems) και των πιθανοτικών µοντέλων ϑεµάτων (probabilistic Topic Models), όπως επίσης και µια αναφορά στις σηµαντικότερες ερευνητικές προσεγγίσεις στο κάθε πεδίο. 2.1 Συστήµατα ερωταπαντήσεων Τα συστήµατα ερωταπαντήσεων (από εδώ και στο εξής ϑα αναφερόµαστε σε αυτά ως Question Ansering systems ή QA systems) αποτελούν κλάδο της επιστήµης των υπολογιστών, που σκοπό έχει την αναζήτηση και ανάκτηση πληροφοριών και την κατάλληλη παρουσίασή τους στον χρήστη. έχονται ερωτήσεις σε ϕυσική γλώσσα και προσπαθούν να απαντήσουν µε ακρίβεια εντοπίζοντας ή συνθέτοντας απαντήσεις από µεγάλες συλλογές εγγράφων ή ιστοσελίδων Συστήµατα ερωταπαντήσεων και συστήµατα ανάκτησης πληροφορίας εδοµένου ενός ερωτήµατος από τον χρήστη, µία κλασική µηχανή αναζήτησης, ή ένα σύστηµα ανάκτησης πληροφορίας (Information Retrieval system, 5

17 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 ή IR system), επιστρέφει µια συλλογή εγγράφων, τα οποία συγκεντρώνουν µεγάλη πιθανότητα να περιέχουν την απάντηση στο ερώτηµα του χρήστη. Τα συστήµατα ανάκτησης πληροφορίας δεν επιστρέφουν συγκεκριµένες απαντήσεις [Dwivedi, Singh, 2013]. Η εύρεση των απαντήσεων επαφίεται αποκλειστικά στον χρήστη, ο οποίος πρέπει να περιηγηθεί στο σύνολο των εγγράφων που επιστρέφει το σύστηµα, έως ότου ϐρει την απάντηση στο ερώτηµα που έθεσε. Ωστόσο, σε πολλές περιπτώσεις ϑέλουµε η απάντηση να ανακτάται αυτόµατα, και να παρουσιάζεται στον χρήστη σε κατάλληλη µορφή. Τα QA συστήµατα επεκτείνουν τη λειτουργικότητα των συµβατικών µηχανών αναζήτησης, περιλαµβάνοντας το στάδιο παραγωγής της ακριβούς απάντησης, ενώ δίνουν τη δυνατότητα στον χρήστη να ϑέσει το ερώτηµά του και να λάβει την απάντηση σε αυτό σε ϕυσική γλώσσα [Hirschmann, Gaizauskas, 2001] οµή και λειτουργία Η γενική δοµή ενός QA συστήµατος ϕαίνεται στο σχήµα 2.1. Σχήµα 2.1: οµή ενός συστήµατος QA Ενα τυπικό QA σύστηµα αποτελείται από τρία κύρια τµήµατα : Το τµήµα επεξεργασίας του ερωτήµατος Το τµήµα ανάκτησης και επεξεργασίας των εγγράφων Το τµήµα επεξεργασίας της απάντησης 6

18 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 Κάθε ένα από τα προαναφερθέντα τµήµατα αποτελείται από επιµέρους τµήµατα. Υπάρχουν, ωστόσο, συστήµατα τα οποία χρησιµοποιούν µόνο ορισµένα από αυτά στα διάφορα στάδια επεξεργασίας τους. Σύµφωνα µε τους [Allam, Haggag, 2012], ένα τυπικό σενάριο χρήσης ενός QA συστήµατος ϑα µπορούσε να είναι το παρακάτω : 1. Ο χρήστης εισάγει ένα ερώτηµα στο σύστηµα. 2. Το υποσύστηµα ανάλυσης του ερωτήµατος αναγνωρίζει τον τύπο της ε- ϱώτησης. 3. Ακολουθεί η αναδιατύπωση του ερωτήµατος, το οποίο στη συνέχεια δίνεται σαν είσοδος στο σύστηµα ανάκτησης πληροφορίας. 4. Το σύστηµα ανάκτησης πληροφορίας επιστρέφει έγγραφα, που ενδεχο- µένως να περιέχουν την απάντηση. 5. Τα έγγραφα του προηγούµενου ϐήµατος ϕιλτράρονται και το ωφέλιµο περιεχόµενο µειώνεται όλο και περισσότερο, σε παραγράφους που ανα- µένεται να περιέχουν την απάντηση. 6. Αυτοί οι παράγραφοι ταξινοµούνται µε µια διαδικασία scoring και δίνονται στο τελικό στάδιο παραγωγής της απάντησης. 7. Με ϐάση τον αναµενόµενο τύπο της απάντησης και άλλες τεχνικές αναγνώρισης, οι υποψήφιες απαντήσεις εξάγονται από τις παραγράφους. 8. Ορίζεται ένα σύνολο ευριστικών µεθόδων µε σκοπό την εξαγωγή της µοναδικής ϕράσης που αποτελεί την τελική απάντηση στο αρχικό ερώτηµα. Ενα QA σύστηµα µπορεί να διεκπεραιώνει όλα, ή κάποια από τα παραπάνω ϐήµατα. Αυτό συνήθως εξαρτάται από την εφαρµογή και από το είδος της ανάλυσης στα διαφορετικά στάδια επεξεργασίας. Για παράδειγµα, στα πλαίσια της εργασίας, το σύστηµα που υλοποιείται δεν προχωρά στην εξαγωγή µιας µοναδικής απάντησης, αλλά επιστρέφει στον χρήστη ένα µικρό σύνολο παραγράφων οι οποίες αναµένεται να περιέχουν τη Ϲητούµενη πληροφορία Ιστορική αναδροµή Ηδη από τις αρχές της νέας χιλιετίας, η διαρκής αύξηση της διαθέσιµης πλη- ϱοφορίας στο διαδίκτυο γέννησε την ανάγκη για αυτόµατα QA συστήµατα, ώστε ο χρήστης να ϑέτει ερωτήµατα σε ϕυσική γλώσσα και να λαµβάνει γρήγο- ϱες και αξιόπιστες απαντήσεις [Hirschmann, Gaizauskas, 2001]. Οι τότε µηχανές αναζήτησης επέστρεφαν αποκλειστικά λίστες εγγράφων και όχι ακρι- ϐείς απαντήσεις, τακτική που ϕυσικά ακολουθείται και σήµερα από το σύνολο των µηχανών αναζήτησης. 7

19 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 Στην ανάδειξη του επιστηµονικού πεδίου των QA συστηµάτων συνέβαλε και η εισαγωγή του, το 1999, στο TREC (Text Retrieval Conference), που αποτελεί µια σειρά διαγωνισµών µε στόχο την ανάδειξη και ϐελτίωση τεχνολογιών που σχετίζονται µε την ανάκτηση πληροφορίας από κείµενο γραµµένο σε ϕυσική γλώσσα. Ωστόσο, υπήρξαν έρευνες επάνω στο αντικείµενο του Natural Language Question Answering που χρονολογούνται πολλές δεκαετίες νωρίτερα [Sparck Jones, 2001]. Τα πρώτα QA συστήµατα χρονολογούνται στα τέλη της δεκαετίας του Οι επόµενες δύο δεκαετίες ( ) χαρακτηρίζονται από έντονη ερευνητική δραστηριότητα στο πεδίο του QA. Κατά τη δεκαετία του 1980 η δραστη- ϱιότητα αυτή µειώνεται σηµαντικά, λόγω των προβληµάτων που αποτελούσαν τροχοπέδη στην ανάπτυξη νέων συστηµάτων [Monz, 2003]. Ενα από τα σηµαντικότερα QA συστήµατα που αναπτύχθηκαν τη δεκαετία του 1960 ήταν το BASEBALL [Green et. al, 1960], ένα πρόγραµµα που έδινε απαντήσεις σε ερωτήσεις σχετικές µε παιχνίδια του αµερικανικού πρωταθλήµατος baseball για µια σεζόν. εδοµένης µιας ερώτησης όπως για παράδειγµα "Who did the Red Sox lose to on July 5?" ή "How many games did the Yankees play in July?" το BASEBALL ανέλυε την ερώτηση σε µια κανονική µορφή, η οποία στη συνέχεια χρησιµοποιούνταν για την παραγωγή ενός ερωτήµατος στη ϐάση δεδοµένων. Προς την ίδια κατεύθυνση, το LUNAR [Woods, 1973] ήταν σχεδιασµένο ώστε να διευκολύνει την πρόσβαση σε δεδοµένα χηµικής ανάλυσης, προερχόµενα από τη σελήνη. Το σύστηµα αυτό µπορούσε να απαντήσει σε ερωτήσεις όπως "What is the average concentration of aluminum in high alkali rocks?" ή "How many Brescias contain Olivine?". Κατά την παρουσίασή του, το LUNAR κατάφερε να απαντήσει µε επιτυχία σε ερωτήσεις γεωλόγων µε ποσοστό 90%. Παρόµοια συστήµατα κατά τη δεκαετία του 1970 είναι το PLANES και το LADDER [Grosz et. al, 1986], ενώ οι Bronnenberg et. al [1980] παρουσίασαν το σύστηµα PHLIQA1, το οποίο απαντούσε σε σύντοµες ερωτήσεις σχετικές µε δεδοµένα εγκατάστασης ηλεκτρονικών υπολογιστών στην Ευρώπη, και τις ε- ταιρίες που τους χρησιµοποιούσαν. Οι ερωτήσεις αναδιατυπώνονταν σε µορφή ερωτήµατος στη ϐάση δεδοµένων, ενώ τα δεδοµένα ήταν πλασµατικά. Ολα τα παραπάνω συστήµατα χρησιµοποιήθηκαν µε σκοπό την ανάκτηση πληροφο- ϱίας από ϐάσεις δεδοµένω (structured databases) ενός συγκεκριµένου πεδίου εφαρµογής. Τα συστήµατα αυτά εντάχθηκαν, για τον παραπάνω λόγο, στην κατηγορία των front-ends to databases. Ενα εξίσου αναπτυσσόµενο πεδίο, αρχικά ϑεωρητικού ενδιαφέροντος, ήταν τα συστήµατα διαλόγου ανθρώπου-µηχανής. Ο Alan Turing, ήδη από το 1950 πρότεινε έναν µηχανισµό για τον έλεγχο της τεχνητής νοηµοσύνης [Turing, 1950]. Το οµώνυµο Turing Test αποτελεί ένα σύστηµα που έχει το ϱόλο ενός ανακριτή (interrogator), ο οποίος ϑέτει ερωτήσεις σε µια οντότητα, και αποφασίζει, εάν πρόκειται για ανθρώπινη ή τεχνητή οντότητα. Ενα από τα σηµαντικότερα συστήµατα διαλόγου ήταν το ELIZA [Weizenbaum, 1966], το οποίο ϐασιζόταν σε τεχνικές επεξεργασίας ϕυσικής γλώσσας, 8

20 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 ώστε να σχηµατίσει µια ερώτηση από µια δήλωση, χρησιµοποιώντας µοτίβα που εµφανίζονται στη γλώσσα (pattern matching). Το πρόγραµµα µπορούσε να τρέξει διαφορετικά script προσοµοιώνοντας διαφορετικά είδη συνοµιλητών. Το πιο διαδεδοµένο είναι ίσως το DOCTOR script, που προσοµοίωνε έναν ψυχολόγο. Μερικά ακόµη συστήµατα προς αυτή την κατεύθυνση ήταν το SHRDLU [Winograd, 1972] και το GUS [Bobrow et. al, 1977]. Το πρώτο υλοποιήθηκε στα πλαίσια ενός παιχνιδιού εικονικού περιβάλλοντος, µε σκοπό την µετακίνηση αντικειµένων από ένα ϱοµπότ, ενώ το δεύτερο προσοµοιώνει έναν ταξιδιωτικό ατζέντη, ο οποίος διευκολύνει την πρόσβαση σε µια ϐάση δεδοµένων που περιέχει πληροφορίες σχετικές µε αεροπορικές πτήσεις. Ωστόσο, τα συστήµατα αυτά ανέδειξαν παράλληλα και τις αδυναµίες των τεχνολογικών προσεγγίσεων της εποχής, παρουσιάζοντας προβλήµατα σχετικά µε πολύπλοκες συντακτικές και σηµασιολογικές συσχετίσεις [Hirschmann, Gaizauskas, 2001]. Σηµαντικές προσπάθειες έγιναν και στην κατεύθυνση εύρεσης απαντήσεων από κείµενα που είναι γραµµένα σε ϕυσική γλώσσα (text-based approaches), όπου τα δεδοµένα ϑεωρούνται µη-δοµηµένα (ustructured). Τα συστήµατα αυτά πρέπει να αναλύσουν τόσο το ερώτηµα, όσο και το κύριο σώµα του κειµένου, από το οποίο προκύπτει η απάντηση Monz [2003]. Το σύστηµα ORACLE Phillips [1960] ακολουθεί αυτή τη λογική. Το αρχικό ερώτηµα και οι προτάσεις του κειµένου, όπου αναζητείται η απάντηση, αναλύονται σε µια κανονική µορφή, στην οποία αναγνωρίζονται το υποκείµενο, το ϱήµα, το αντικείµενο, όπως και χρονικοί και τοπικοί δείκτες. Η ανάλυση περιορίζεται σε απλές προτάσεις, ενώ αποτυγχάνει πλήρως στην περίπτωση πολύπλοκων προτάσεων. Βασισµένα στην ίδια text-based λογική είναι και τα συστήµατα PROTO- SYNTHEX [Simmons, 1969] και MURRAX [Kupiec, 1993]. Το σύστηµα που υλοποιείται στα πλαίσια της εργασίας ακολουθεί την ίδια λογική, αναζητώντας απαντήσεις µέσα από µεγάλες συλλογές εγγράφων που περιέχουν κείµενο σε ϕυσική γλώσσα, ενώ στο στάδιο της ανάλυσης των κει- µένων χρησιµοποιούνται τόσο τεχνικές γλωσσολογικής ανάλυσης όσο και στατιστικές τεχνικές. Τέλος, αξίζει να αναφέρουµε το έργο της Wendy Lehnert, η οποία το 1977 δηµιούργησε το σύστηµα QUALM, το οποίο απαντούσε σε ερωτήσεις που σχετίζονταν µε ένα κείµενο κατανόησης [Lehnert, 1977]. Στην προσέγγισή της, τόσο η ερώτηση όσο και το κείµενο της ιστορίας αναλύονται και προκύπτει µια αναπαράσταση εννοιολογικών συσχετίσεων. Η ερώτηση αντιστοιχίζεται σε µία από 13 εννοιολογικές κατηγορίες, όπως Verification, Request, Enablement, Instrumental/Procedural κ.λπ. µε στόχο την εύρεση της µορφής της απάντησης και την περαιτέρω ϐελτίωση της απόδοσης. 9

21 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Ερευνητικές προσεγγίσεις Η διαδικασία του QA συνδυάζει τεχνικές από τους κλάδους της τεχνητής νοηµοσύνης (Artificial Intelligence), επεξεργασίας ϕυσικής γλώσσας (Natural Language Processing), στατιστικής ανάλυσης (Statistical Analysis), ανάκτησης πληροφορίας (Information Retrieval) και εξαγωγής πληροφορίας (Information Extraction). Πολλές από τις πρόσφατες µελέτες ενσωµατώνουν ορισµένες ή και όλες από τις προαναφερθείσες τεχνικές [Dwivedi, Singh, 2013]. Κατά τους [Hirschmann, Gaizauskas, 2001] τα QA συστήµατα µπορούν να ταξινοµηθούν σε δύο µεγάλες κατηγορίες : QA συστήµατα ανοιχτού πεδίου εφαρµογής (open domain QA systems), τα οποία σχεδιάζονται για να απαντούν σε ερωτήσεις οποιασδήποτε ϑε- µατολογίας. QA συστήµατα περιορισµένου πεδίου εφαρµογής (restricted domain QA systems), τα οποία είναι σχεδιασµένα να απαντούν σε ερωτήµατα που αφορούν ένα συγκεκριµένο πεδίο γνώσης. Σύµφωνα µε τους [Dwivedi, Singh, 2013], µία διαφορετική ταξινόµηση προκύπτει, εάν λάβουµε ως κριτήριο την προσέγγιση που ακολουθείται στα επιµέρους στάδια επεξεργασίας, όπου έχουµε τρεις κύριες κατηγορίες : Linguistic approach Statistical approach Pattern matching approach Στα πλαίσια της εργασίας, η παρουσίαση των σχετικών ερευνών προτι- µήθηκε να γίνει µε ϐάση τη δεύτερη προσέγγιση, κυρίως λόγω του καλού διαχωρισµού που επιτυγχάνεται, όσον αφορά τις τεχνικές που χρησιµοποιούνται σε κάθε περίπτωση Linguistic approach Τα QA συστήµατα είναι στενά συνδεδεµένα µε τη ϕυσική γλώσσα. Ως εκ τούτου, αρκετοί ερευνητές στηρίχθηκαν σε µεθόδους ϐασισµένες στην τεχνητή νοηµοσύνη, οι οποίες ενσωµατώνουν τεχνικές επεξεργασίας ϕυσικής γλώσσας και γνωσιακές ϐάσεις για την κατασκευή της λογικής των QA συστηµάτων. Η πληροφορία της γνωσιακής ϐάσης οργανώνεται µε τη µορφή κανόνων παραγωγής, οι οποίοι προκύπτουν µετά από συντακτική ανάλυση, χρήση λογικής, προτύπων, οντολογιών και σηµασιολογικών δικτύων [Dwivedi, Singh, 2013]. Γλωσσολογικές τεχνικές όπως tokenization, POS tagging, parsing υλοποιούνται στο στάδιο ανάλυσης του ερωτήµατος µε σκοπό την αναδιατύπωσή του σε µια κατάλληλη µορφή, η οποία χρησιµοποιείται για την εξαγωγή της απάντησης από τη ϐάση δεδοµένων. 10

22 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 Ωστόσο, η υλοποίηση µιας γνωσιακής ϐάσης συγκεκριµένου πεδίου εφαρ- µογής εισάγει περιορισµούς στη ϕορητότητα, αφού κάθε πεδίο εφαρµογής χαρακτηρίζεται από διαφορετικούς γλωσσολογικούς κανόνες, διαφορετικό λεξιλόγιο και κανόνες αντιστοίχησης. Επιπρόσθετα, η κατασκευή µιας κατάλληλης γνωσιακής ϐάσης αποτελεί χρονοβόρα διαδικασία, έτσι αυτά τα συστήµατα ϐρίσκουν εφαρµογή κυρίως σε προβλήµατα τα οποία έχουν µακροπρόθεσµες ανάγκες σε πληροφοριακούς πόρους. Συστήµατα όπως το BASBALL [Green et. al, 1960] και το LUNAR [Woods, 1973], που παρουσιάσθηκαν στην προηγούµενη ενότητα, ανήκουν σε αυτή την κατηγορία. Ο κύριος περιορισµός που εισάγουν αυτά τα συστήµατα είναι το ότι η γνώση που αποθηκεύεται σε ϐάσεις δεδοµένων, µπορεί να απαντήσει µόνο σε ερωτήµατα ενός συγκεκριµένου πεδίου. Ωστόσο, σε σχετικά πρόσφατες έρευενες, ο περιορισµός αυτός της γνωσιακής ϐάσης έχει γίνει αποδεκτός σαν µια δυνατότητα των συστηµάτων αυτού του τύπου να παρέχουν αξιόπιστες domain-specific απαντήσεις. Ορισµένα πιο πρόσφατα QA συστήµατα, όπως το FALCON Harabagiu et. al [2001], και το START [Katz, 1997]χρησιµοποιούν τον παγκόσµιο ιστό σαν γνωσιακή ϐάση. Τα συστήµατα αυτά εφαρµόζουν ευριστικές τεχνικές για την αποθήκευση πληροφοριών από διαδικτυακά έγγραφα στην τοπική γνωσιακή ϐάση, τα οποία στη συνέχεια ϑα πρέπει να προσπελαστούν, και ϐασίζονται σε γλωσσολογικές τεχνικές για την παραγωγή της απάντησης. Ορισµένα συστήµατα χρησιµοποιούν λιγότερο πολύπλοκες τεχνικές επεξεργασίας ϕυσικής γλώσσας, ακολουθούµενες από µεθόδους για την αναγνώριση χαρακτηριστικών των ερωτηµάτων και την ταξινόµησή τους. Για πα- ϱάδειγµα, το Quarc [Riloff, Thellen, 2000] χρησιµοποιεί ευριστικούς κανόνες οι οποίοι αναζητούν λεξιλογικά και σηµασιολογικά στοιχεία στο ερώτηµα για την αναγνώριση της κλάσης στην οποία ανήκει. Ωστόσο, η ταξονοµία των κλάσεων του ερωτήµατος µπορεί να διαφέρει ανάλογα µε το σύστηµα. Μερικά συστήµατα χρησιµοποιούν γενικές κατηγορίες κλάσεων όπως Who, When, What, Where, Why type questions ενώ κάποια άλλα υλοποιούν ταξονοµίες ϐασισµένες στο πεδίο εφαρµογής Statistical approach Η ϱαγδαία αύξηση των διαθέσιµων διαδικτυακών αποθηκών κειµένου και διαδικτυακών δεδοµένων έχει αυξήσει τη σπουδαιότητα των στατιστικών προσεγγίσεων. Αυτές οι προσεγγίσεις ενθυλακώνουν τεχνικές, οι οποίες αντιµετωπίζουν αφενός τον µεγάλο όγκο δεδοµένων και αφετέρου την ανοµοιογένεια που τα διακρίνει [Sasikumar, Sindhu, 2014]. Οι στατιστικές προσεγγίσεις απαιτούν έναν επαρκή αριθµό δεδοµένων για τη διαδικασία της µάθησης, αλλά εφόσον αυτή ολοκληρωθεί επιτυχώς, τα αποτελέσµατα που παράγουν κρίνονται καλύτερα σε σύγκριση µε ανταγωνιστικές προσεγγίσεις. Επιπλέον, ο αλγόριθµος µάθησης µπορεί να προσαρµοστεί µε ευκολία σε ένα νέο πεδίο εφαρµογής. [Dwivedi, Singh, 2013]. 11

23 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 Ωστόσο, ένα από τα σηµαντικότερα µειονεκτήµατα των στατιστικών προσεγγίσεων είναι ότι αντιµετωπίζουν κάθε όρο ξεχωριστά και αποτυγχάνουν να αναγνωρίσουν γλωσσολογικά χαρακτηριστικά που σχετίζονται µε τον συνδυασµό λέξεων ή ϕράσεων. Μία πρωτοπόρος έρευνα ϐασισµένη σε στατιστικό µοντέλο είναι το IBM s statistical QA system [Ittycheriah et. al, 2000]. Το σύστηµα αυτό χρησιµοποιεί το µοντέλο µέγιστης εντροπίας για την ταξινόµηση του ερωτήµατος και της απάντησης, ϐασισµένο σε διάφορα χαρακτηριστικά που προκύπτουν µετά από ανάλυση του ερωτήµατος σε n-gram ή bag of words. Ο Moschitti [Moschitti, 2003],στην προσέγγισή του, χρησιµοποίησε Support Vector Machines για την κατηγοριοποίηση του ερωτήµατος εισόδου, αλλά και των πιθανών απαντήσεων, καταφέρνοντας µια αποδοτικότερη προσέγγιση, η οποία απορρίπτει απαντήσεις που δεν ανήκουν στην κατάλληλη κατηγορία. Στο σύστηµα που παρουσιάζεται από τους [Berger et. al, 2000] διερευνώνται οι προοπτικές της εφαρµογής στατιστικών µεθόδων στη διαδικασία εύρεσης απάντησης σε ένα QA σύστηµα, καταλήγοντας σε µια συνολικά καλή απόδοση. Τεχνικές όπως n-gram mining, µοντέλα οµοιότητας προτάσεων, και οµοιότητα Okapi εφαρµόζονται σε διάφορα χαρακτηριστικά µε σκοπό τον καθορισµό της εγγύτητας των υποψήφιων εγγράφων ή των απαντήσεων σε σχέση µε την ερώτηση. Στο στάδιο ανάκτησης πληροφορίας για το IBM s QA system[ittycheriah et. al, 2000] χρησιµοποιείται µια προσέγγιση δύο επαναλήψεων ϐασισµένη στην εξίσωση Okapi. Η ϕάση της επιλογής της απάντησης ϐασίζεται σε διάφο- ϱες ευριστικές µετρικές απόστασης. Στο [Moschitti, 2003] υλοποιείται ένα µοντέλο για τη µέτρηση οµοιότητας ανάµεσα στο ερώτηµα και στα έγγραφα ή στις προτάσεις που προκύπτουν από τις εκάστοτε συλλογές εγγράφων Pattern matching approach Η προσέγγιση αυτή κάνει χρήση των µοτίβων που εµφανίζονται στη δοµή του λόγου για να αντικαταστήσει την πολύπλοκη διαδικασία επεξεργασίας που σχετίζεται µε ανταγωνιστικές µεθόδους [Dwivedi, Singh, 2013]. Για παράδειγ- µα, η ερώτηση "When was X born?" ακολουθεί το µοτίβο "When was <NAME> born?" και ο τύπος της απάντησης ϑα ειναι, όµοια, "<NAME> was born in <BIRTHDATE>" [Ravichandran, Hovy, 2002]. Πολλά QA συστήµατα σχεδιάζονται έτσι, ώστε να αναγνωρίζουν παρόµοια µοτίβα, και αποφεύγουν την υλοποίηση πολύπλοκων γλωσσολογικών µεθόδων και εργαλείων όπως parsers, named entity recognizers, ontologies, WordNet κ.ά. για την ανάκτηση απαντήσεων. Η απλότητα τέτοιων συστηµάτων τα προκρίνει για εφαρµογές µικρής και µεσαίας κλίµακας, οι οποίες δεν µπορούν να υιοθετήσουν πολύπλοκες, χρονοβόρες λύσεις. Τα περισσότερα συστήµατα αυτής της κατηγορίας χρησιµοποιούν surface text patterns ενώ µια µερίδα συστηµάτων ϐασίζεται σε templates για την παραγωγή απαντήσεων [Dwivedi, Singh, 2013]. 12

24 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 Surface pattern based systems Αυτή η προσέγγιση εξάγει απαντήσεις α- πό τη δοµή των εγγράφων που ανακτώνται στο στάδιο ανάκτησης πληροφο- ϱίας, ϐασιζόµενη σε µια αναλυτική λίστα µοτίβων, παρόµοια µε αυτή που παρουσιάστηκε παραπάνω. Η απάντηση στο ερώτηµα αναγνωρίζεται στη ϐάση µιας οµοιότητας ανάµεσα στα σηµασιολογικά χαρακτηριστικά των µοτίβων που χρησιµοποιούνται [Dwivedi, Singh, 2013]. Τα µοτίβα αυτά µοιάζουν µε κανονικές εκφράσεις. Η σχεδίαση τέτοιων µοτίβων απαιτεί αρκετή προσπάθεια και χρόνο από πλευράς ανθρώπου, ωστόσο τα αποτελέσµατα χαρακτηρίζονται από µεγάλη ακρίβεια. Αρχικά, η µέθοδος των surface patterns στοχεύει στην ανεύρεση απαντήσεων σε factual ερωτήσεις, καθώς η Ϲητούµενη απάντηση περιορίζεται σε µία ή δύο προτάσεις. Με σκοπό τη σχεδίαση ενός ϐέλτιστου συνόλου µοτίβων, η πλειονότητα των σύγχρονων συστηµάτων που κάνουν χρήση αυτής της τεχνικής χρησιµοποιούν τη µέθοδο που περιγράφεται στο [Ravichandran, Hovy, 2002]. Υλοποιούν µια αυτόµατη µέθοδο µάθησης, η οποία κάνει χρήση bootstrapping για να κατασκευάσει ένα µεγάλο σετ µοτίβων, ξεκινώντας µόνο µε µερικά παραδείγµατα από Ϲεύγη ερωταπαντήσεων από τον παγκόσµιο ιστό. Μια ιδέα που έχει τη ϐάση της στα surface patterns προτείνεται στο [Zhang, Lee, 2002], όπου τα επιφανειακά µοτίβα ενισχύονται µε τις µετρικές support & confidence, που σχετίζονται µε το επιστηµονικό πεδίο του data mining. Το σύστηµα αυτό παρουσιάζει µεγάλη ακρίβεια αλλά χαµηλό recall. Οι [Greenwood, Gaizauskas, 2003] έκαναν χρήση ενός named entity tagger µε σκοπό την γενίκευση των παραγόµενων µοτίβων και την εξάλειψη συγκεκριµένων προβληµάτων που εµφανίζονταν για ορισµένες µορφές των ερωτήσεων εισόδου. Πρακτικά, η δουλειά τους προτείνεται ως ένας µηχανισµός ϐελτίωσης στο έργο των [Ravichandran, Hovy, 2002]. Template based systems Μια προσέγγιση ϐασισµένη σε πρότυπα κάνει χρήση προκαθορισµένων µοτίβων για τα ερωτήµατα στην είσοδο του συστήµατος. Το σύνολο των προτύπων είναι χτισµένο ώστε να καλύπτει επαρκώς τον χώρο του προβλήµατος, και κάθε µέλος του συνόλου αυτού αναπαριστά ένα ευρύ ϕάσµα ερωτηµάτων συγκεκριµένου τύπου [Dwivedi, Singh, 2013]. Τα πρότυπα αυτά έχουν entity slots, δηλαδή προκαθορισµένες ϑέσεις που καλύπτονται από οντότητες για την ολοκλήρωση του ερωτήµατος, µε σκοπό την ανάκτηση της αντίστοιχης απόκρισης από τη ϐάση δεδοµένων. Η ϐασική αρχή που διέπει τα QA συστήµατα ϐασισµένα σε templates έχει να κάνει µε την δυναµική συµπλήρωση των οντοτήτων µε παραµέτρους. Ενα από αυτά υλοποιήθηκε για την αυτόµατη κατανόηση SMS µηνυµάτων από ένα κινητό τηλέφωνο, µε τα ερωτήµατα να τίθενται στην αγγλική γλώσσα [Gunawardena et. al, 2010]. Το σύστηµα χρησιµοποιεί προεπεξεργασµένο κείµενο για την αναγνώριση του καλύτερου Ϲεύγους προτύπου/απάντησης που είναι αποθηκευµένο στη ϐάση δεδοµένων. Κάθε ένα από αυτά τα πρότυπα ορίζεται έτσι, ώστε να ταιριάζει µε διαφορετικές παραλλαγές του ίδιου ερωτήµατος. 13

25 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 Ενα άλλο QA σύστηµα που κάνει χρήση προτύπων προτάθηκε από τους [Unger et. al, 2012] και χρησιµοποεί την τεχνική αυτή σε RDF δεδοµένα µε χρήση SPARQL ερωτηµάτων. Τα αρχικά ερωτήµατα αναδιατυπώνονται σε ε- ϱωτήµατα SPARQL, κάτι που αντανακλά µε άµεσο τρόπο την εσωτερική τους δοµή και αντιστοιχίζει τη ϕυσική γλώσσα στο λεξιλόγιο του πεδίου εφαρµογής. Η παραγωγή στιγµιοτύπων από ερωτήµατα SPARQL επιτυγχάνεται µε µεθόδους γλωσσολογικής ανάλυσης, όπως statistical entity identification και predicate detection. 2.2 Πιθανοτικά µοντέλα ϑεµάτων Τα µοντέλα ϑεµάτων (topic models) αποτελούν µια κατηγορία αλγορίθµων που στοχεύουν στην ανακάλυψη ϑεµατικών δοµών σε µεγάλες συλλογές εγγράφων. Οι αλγόριθµοι αυτοί υλοποιούν στατιστικές µεθόδους, οι οποίες αναλύουν τις λέξεις του αρχικού κειµένου για την εύρεση των ϑεµάτων τα οποία σχετίζονται µε το κείµενο και τον τρόπο µε τον οποίο συνδέονται µεταξύ τους [Blei, 2012]. Ενα ϑέµα (topic) αποτελείται από µια οµάδα λέξεων (cluster of words) οι οποίες συµβαίνει να εµφανίζονται µαζί στα κείµενα των εγγράφων. Η ανάλυση ϑεµάτων (topic modeling) µιας συλλογής εγγράφων µε έναν από τους διαθέσι- µους αλγορίθµους ουσιαστικά συνδέει λέξεις µε παρόµοιο ϑεµατικό υπόβαθρο [Alghamdi, Alfalqi, 2015]. Η ιδέα στην οποία ϐασίζεται το πεδίο των topic models χρονολογείται αρκετές δεκαετίες νωρίτερα, και διατυπώνεται αρχικά από τους [Furnas et. al, 1984]: Statistical patterns of human word usage can be used to figure out what people mean. Με την πάροδο των ετών το συγκεκριµένο πεδίο ωρίµασε και αναπτύχθηκαν αρκετά µοντέλα προς την κατεύθυνση αυτή. Τα σηµαντικότερα από αυτά αναφέρονται στη συνέχεια της ενότητας, ενώ έµφαση δίνεται στη λανθάνουσα κατανοµή Dirichlet (Latent Dirichlet Allocation, LDA), η οποία χρησιµοποιείται και στα πλαίσια της προτεινόµενης υλοποίησης Ορολογία Η λέξη έγγραφο περιγράφει τα αντικείµενα τα οποία αναζητούµε σε ένα σύστη- µα ανάκτησης πληροφορίας ή σε µια µηχανή αναζήτησης, και που συνήθως αποτελούνται από κείµενο σε ϕυσική γλώσσα. Η λέξη όρος αναπαριστά µία λέξη που µπορεί να ϐρεθεί σε κάποιο έγγραφο και να επηρεάζει την σηµασιολογική του περιγραφή. Το σύνολο των όρων που µπορούν να ϐρεθούν σε µια συλλογή κειµένων είναι το λεξιλόγιο της συλλογής. Τέλος η λέξη ερώτηµα, την οποία έχουµε χρησιµοποιήσει σε όλη την έκταση του κεφαλαίου, αφορά στην έκφραση που χρησιµοποιεί ο χρήστης ενός συστήµατος ανάκτησης πληροφο- ϱιών για να περιγράψει τα αντικείµενα που ϑέλει να του επιστραφούν. 14

26 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Ερευνητικές προσεγγίσεις Latent Semantic Analysis Μία από τις πρώτες προσεγγίσεις στο πεδίο των topic models αποτελεί η λαν- ϑάνουσα σηµασιολογική ανάλυση (Latent Semantic Analysis, LSA, αναφέρεται και ως Latent Semantic Indexing, LSI) [Deerwester et. al, 1990] και πρόκειται για µια τεχνική στο πεδίο της ανάκτησης πληροφορίας, η οποία προβάλλει τα ερωτήµατα και τα έγγραφα µιας συλλογής σε έναν διανυσµατικό χώρο, µε σκοπό την σύγκριση και εξαγωγή λανθανουσών σηµασιολογικών οµοιοτήτων ανάµεσά τους. Αποτελεί µια εναλλακτική µετρική οµοιότητας σε σχέση µε κλασικές µετρικές επικάλυψης λέξεων όπως η TF-IDF. Ο διανυσµατικός χώρος στον οποίο προβάλλονται τα ερωτήµατα και τα έγγραφα έχει λιγότερες διαστάσεις από τον αρχικό (ο οποίος έχει τόσες διαστάσεις όσοι και οι όροι που εµφανίζονται σε αυτόν). Ως εκ τούτου η λανθάνουσα σηµασιολογική ανάλυση αποτελεί µια τεχνική µείωσης διαστάσεων (dimensionality reduction) [Rosario, 2000]. Η λανθάνουσα σηµασιολογική ανάλυση εφαρµόζει τη µέθοδο Singular Value Decomposition (SVD) σε έναν πίνακα λέξεων-εγγράφων. Η SVD (ως εκ τούτου και η LSA) αποτελεί µέθοδο ελαχίστων τετραγώνων, κάτι που σηµαίνει ότι η προβολή στον νέο διανυσµατικό χώρο επιλέγεται έτσι, ώστε η διαφορά του αθροίσµατος των τετραγώνων στις δύο αναπαραστάσεις να είναι η ελάχιστη [Deerwester et. al, 1990]. Μια αυστηρή µαθηµατική ϑεµελίωση και επεξήγηση της επιτυχίας που έχει η τενχική LSA, καθώς και µια πρόταση για περαιτέρω ϐελτίωση της ταχύτητας της µεθόδου, επειχειρείται από τους [Papadimitriou et. al, 1997]. Αν και η τεχνική LSA εµφανίζει διάφορες παραλλαγές, ορισµένα από τα πιο συνηθισµένα ϐήµατα, δοθείσης µιας συλλογής εγγράφων, είναι, σύµφωνα µε το [Hastings, 2004], τα παρακάτω : 1. Σχηµατίζεται ο πίνακας term-document, που αποτελεί µια συλλογή διανυσµατικών απεικονίσεων των εγγράφων. Κάθε κελί στον πίνακα αναπα- ϱιστά τον αριθµό των εµφανίσεων του συγκεκριµένου όρου στο έγγραφο. 2. Οι τιµές της συχνότητας των λέξεων που ϐρίσκονται σε κάθε κελί συχνά κανονικοποιούνται, ώστε να περιοριστεί η σηµασία των συνηθισµένων λέξεων. 3. Εφαρµόζεται µια µέθοδος µείωσης των διαστάσεων (για παράδειγµα, α- νάλυση ιδιοτιµών) µε µια παράµετρο που ελέγχει τον αριθµό τον διαστάσεων. Η µέθοδος αυτή οδηγεί στην εξαγωγή λανθανουσών µεταβλητών. 4. Για τους σκοπούς της ανάκτησης πληροφορίας, οι διανυσµατικές περιγραφές των εγγράφων εκφράζονται συναρτήσει των λανθανουσών µετα- ϐλητών. 15

27 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 Τα ερωτήµατα µετασχηµατίζονται στον αντίστοιχο διανυσµατικό χώρο και χρησιµοποιούνται για την ανάκτηση των σχετικών εγγράφων µε χρήση κατάλληλων µετρικών εγγύτητας (π.χ. οµοιότητα συνηµιτόνου). Για την καλύτε- ϱη κατανόηση του αλγορίθµου LSA προτείνεται το παράδειγµα της σελίδας seng474/svd.pdf. Η µέθοδος LSA µπορεί να ϐοηθήσει στον περιορισµό των διαστάσεων του προβλήµατος της ανάκτησης πληροφορίας. Ενα σηµαντικό Ϲήτηµα είναι αυτό του µεγέθους της συλλογής εγγράφων και του αντίστοιχου υπολογιστικού κόστους. Τέλος, όπως όλες οι µέθοδοι που αγνοούν το συντακτικό της γλώσσας, η µέθοδος αυτή δεν µπορεί να εξάγει συµπεράσµατα από την σειρά των λέξεων και να αντιληφθεί τις αρνήσεις [Hastings, 2004] probabilistic Latent Semantic Analysis Ενα σηµαντικό ϐήµα προς την κατεύθυνση των πιθανοτικών µοντέλων ϑε- µάτων αποτέλεσε η παρουσίαση της πιθανοτικής λανθάνουσας σηµασιολογικής ανάλυσης (probabilistic Latent Semantic Analysis, plsa, ενώ καλείται και probabilistic Latent Semantic Indexing, plsi) Hoffman [1999]. Στην τεχνική plsa τα δεδοµένα εκφράζονται συναρτήσει τριών συνόλων µεταβλητών : Εγγραφα : d D = {d 1,..., d N } - παρατηρούµενες µεταβλητές, όπου N ο συνολικός αριθµός εγγράφων της συλλογής. Λέξεις : w W = {w 1,..., w M } - παρατηρούµενες µεταβλητές, όπου M ο συνολικός αριθµός των διαφορετικών λέξεων της συλλογής. Θέµατα : z Z = {z 1,..., z K } - λανθάνουσες µεταβλητές, όπου K ο συνολικός αριθµός τους, καθορισµένος a priori. Οι παραπάνω µεταβλητές απεικονίζονται στο γραφικό µοντέλο του σχήµατος 2.2, το οποίο συνδέει τα ϑέµατα z µε τα παρατηρούµενα Ϲεύγη (d, w). Σχήµα 2.2: Γραφικό µοντέλο plsa Το µοντέλο περιγράφει µια γενετική διαδικασία παραγωγής των εγγράφων : 1. Αρχικά, επιλέγεται ένα έγγραφο d µε πιθανότητα P (d). 2. Στη συνέχεια, επιλέγεται ένα ϑέµα z µε πιθανότητα P (z d). 16

28 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 3. Τέλος, παράγεται µια λέξη µε πιθανότητα P (w z). Σαν αποτέλεσµα έχουµε ένα παρατηρήσιµο Ϲεύγος µεταβλητών (d, w), ενώ η µεταβλητή z παραµένει κρυφή. Στο συγκεκριµένο µοντέλο έχουν γίνει οι εξής παραδοχές : Κάθε έγγραφο ϑεωρείται µια µη-ταξινοµηµένη συλλογή από λέξεις (bag of words hypothesis). Αυτό σηµαίνει ότι η κοινή µεταβλητή (d, w) δειγ- µατοληπτείται ανεξάρτητα και, συνεπώς, η κοινή κατανοµή των παρατη- ϱούµενων δεδοµένων µπορεί να παραγοντοποιηθεί σαν ένα γινόµενο P (D, W ) = P (d, w) (d,w) Οι µεταβλητές των λέξεων και των εγγράφων δεσµεύονται µόνο από την µεταβλητή του ϑέµατος, και είναι ανεξάρτητες µεταξύ τους : P (w, d z) = P (w z)p (d z) ή P (w d, z) = P (w z) Σχήµα 2.3: Γενική δοµή του µοντέλου plsa Το µοντέλο plsa µπορεί να περιγραφεί πλήρως καθορίζοντας την κοινή κατανοµή πιθανότητας των παρατηρούµενων δεδοµένων. Θεωρώντας τις πα- ϱαπάνω παραδοχές, προκύπτουν οι εξισώσεις [Oneata, 2011]: P (w d) = z Z P (w z)p (z d) (2.1) P (w, d) = z Z P (z)p (d z)p (w z) (2.2) 17

29 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 Η εξίσωση (2.1) περιγράφει το µοντέλο του σχήµατος 2.3, µε παραµέτρους P (w z) και P (z d). Ο πληθικός αριθµός τους είναι (M 1)K και N(K 1), αντίστοιχα, που σηµαίνει ότι ο συνολικός αριθµός των παραµέτρων αυξάνεται γραµµικά µε το µέγεθος της συλλογής, κάτι που κάνει το µοντέλο ευαίσθητο στο overfitting [Jelisavcic et. al, 2012], [Oneata, 2011]. Για τον υπολογισµό των παραµέτρων του µοντέλου, στο [Hoffman, 1999] επιχειρείται µια γενίκευση του αλγορίθµου Expectation Maximization (EM), ϐασισµένη σε ευριστικούς κανόνες, µε σκοπό την αποφυγή του overfitting. Μια εναλλακτική προσέγγιση είναι η παραγοντοποίηση του πίνακα termdocument µε χρήση δύο πινάκων µικρής τάξης ως εξής : A Â = L R [Oneata, 2011] και ϐάσει της εξίσωσης (2.2) καταλήγουµε στη σχέση : A = L U R (2.3) όπου ο N K πίνακας L περιέχει τις πιθανότητες P (d z), ο K K πίνακας U τις πιθανότητες P (z) στην κύρια διαγώνιό του, και ο K M πίνακας R τις πιθανότητες P (w z), µε K N, M (σχήµα 2.4). Σχήµα 2.4: Παραγοντοποίηση του πίνακα λέξεων-εγγράφων στο πιθανοτικό µοντέλο plsa Οι µετρικές αυτές είναι µη-αρνητικές και κανονικοποιηµένες, καθώς αναπαριστούν κατανοµή πιθανότητας. Οι ιδιότητες αυτές εγγυώνται διαφορετικά αποτελέσµατα από τη µέθοδο LSA που κάνει χρήση Singular Value Decomposition (SVD) Latent Dirichlet Allocation Η έλλειψη ενός πιθανοτικού µοντέλου στο επίπεδο των εγγράφων, καθώς και ο µεγάλος αριθµός παραµέτρων σε συνδυασµό µε τις ευριστικές µεθόδους που χρησιµοποιεί η τεχνική plsa για την αποφυγή του overfitting, οδήγησαν στην αναζήτηση αποδοτικότερων µοντέλων. Η λανθάνουσα κατανοµή Dirichlet (Latent Dirichlet Allocation, LDA) [Blei et. al, 2003] παρουσιάστηκε µε στόχο την αντιµετώπιση των προαναφερθέντων αδυναµιών της plsa και αποτελεί µία από τις πλέον διαδεδοµένες τεχνικές στο πεδίο του topic modeling. Η τεχνική LDA αναπαριστά ένα έγγραφο σαν µια σύνθεση ϑεµάτων (mixture of topics) τα οποία παράγουν λέξεις µε συγκεκριµένη πιθανότητα. Το µοντέλο LDA υποθέτει ότι η κατανοµή των ϑεµάτων σε κάθε έγγραφο και η 18

30 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 κατανοµή των λέξεων σε κάθε ϑέµα ακολουθούν την κατανοµή Dirichlet [Blei et. al, 2003]. Το γενετικό µοντέλο παραγωγής των εγγράφων στο µοντέλο LDA ακολουθεί την εξής διαδικασία κατά [Blei, Lafferty, 2009]: 1. Για κάθε ϑέµα : 1.1. Τυχαία επιλογή µιας κατανοµής λέξεων (topics over words distribution) από µια κατανοµή Dirichlet: β k Dirichlet(η), k {1,..., K}. 2. Για κάθε έγγραφο : 2.1. Τυχαία πιλογή µιας κατανοµής ϑεµάτων (documents over topics distribution) από µια κατανοµή Dirichlet: θ d Dirichlet(α) Για κάθε λέξη στο έγγραφο : Επιλογή ενός ϑέµατος από την κατανοµή ϑεµάτων του εγγράφου : Z d,n Multinomial(θ d ), Z d,n {1,..., K} Επιλογή µιας λέξης από την κατανοµή των λέξεων του συγκεκριµένου ϑέµατος : W d,n Multinomial(β Zd,n ), W d,n {1,..., V }. Η κατανοµή Dirichlet ανήκει στην οικογένεια των εκθετικών κατανοµών και ορίζεται ως : p(θ α) = Γ( i α i) i Γ(α θ α i 1 i (2.4) i) Η κατανοµή Dirichlet είναι συζυγής της πολυωνυµικής, που σηµαίνει ότι δοθείσεις µιας παρατήρησης που ακολουθεί την πολυωνυµική κατανοµή, η εκ των υστέρων κατανοµή του θ είναι Dirichlet. Η παράµετρος α επηρεάζει το µέσο σχήµα και την αραιότητα (sparisty) της τυχαίας µεταβλητής θ. Το γενετικό µοντέλο παραγωγής του LDA που περιγράψαµε παραπάνω αναπαρίσταται γραφικά στο σχήµα 2.5. Οι κόµβοι υποδηλώνουν τυχαίες µεταβλητές, ενώ οι ακµές υποδηλώνουν εξάρτηση µεταξύ των µεταβλητών. Οι σκιασµένοι κόµβοι υποδηλώνουν παρατηρήσιµες µεταβλητές, ενώ οι µησκιασµένοι κρυφές µεταβλητές. Τα πλαίσια απεικονίζουν τις επαναλήψεις του µοντέλου παραγωγής. Η γενετική διαδικασία του µοντέλου LDA αντιστοιχεί στην ακόλουθη κοινή κατανοµή κρυφών και παρατηρούµενων µεταβλητών : p(β 1:K, θ 1:D, z 1:D, w 1:D ) = K D p(β i ) p(θ d ) ( N p(z d,n θ d )p(w d,n β 1:K, z d,n ) ) (2.5) i=1 d=1 n=1 Θεωρώντας ότι µια συλλογή εγγράφων έχει προκύψει από το συγκεκρι- µένο µοντέλο, ο αλγόριθµος LDA προσπαθεί να ανακαλύψει τη λανθάνουσα i 19

31 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 Σχήµα 2.5: Γραφική αναπαράσταση του µοντέλου LDA κατανοµή των ϑεµάτων, από τα οποία είναι πιθανότερο να έχει προκύψει η συγκεκριµένη συλλογή. [Blei, 2011] Η εκ των υστέρων κατανοµή των κρυφών µεταβλητών, που ϑέλουµε να υπολογίσουµε, δίνεται από τη σχέση : p(β 1:K, θ 1:D, z 1:D w 1:D ) = p(β 1:K, θ 1:D, z 1:D, w 1:D ) p(w 1:D ) (2.6) Η συγκεκριµένη πιθανότητα είναι δύσκολο να υπολογιστεί [Blei, 2011]. Ως εκ τούτου, καταφεύγουµε σε προσεγγιστικές µεθόδους. Η διαδικασία της επαγωγής των κρυφών µεταβλητών z d,n, θ d, β k από τα πα- ϱατηρούµενα έγγραφα ονοµάζεται inference και µπορεί να επιτευχθεί, προσεγγιστικά, µε διαφορετικούς αλγορίθµους, οι οποίοι εµπίµπτουν σε δύο µεγάλες κατηγορίες : sampling-based algorithms. Οι αλγόριθµοι αυτής της κατηγορίας ε- πιχειρούν τη συλλογή δειγµάτων από την εκ των υστέρων κατανοµή µε σκοπό να την προσεγγίσουν. Ο πιο γνωστός αλγόριθµος αυτής της οικογένειας είναι ο Gibbs sampling [Griffiths, 2004]. variational algorithms. Οι αλγόριθµοι αυτοί υποθέτουν µια παραµετρική οικογένεια κατανοµών για τη λανθάνουσα δοµή και στη συνέχεια ϐρίσκουν το µέλος της οικογένειας που ταιριάζει περισσότερο στα δεδο- µένα. Πρόκειται, δηλαδή, για πρόβληµα ϐελτιστοποίησης παραµέτρων. Μερικοί αλγόριθµοι αυτής της κατηγορίας περιγράφονται στα [Minka, Lafferty, 2002], [Blei et. al, 2003], [Teh et. al, 2007]. 20

32 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 Η επιλογή ενός από τους διαθέσιµους αλγορίθµους σχετίζεται µε παράγοντες όπως ταχύτητα, πολυπλοκότητα, ακρίβεια κ.ά. [Blei, Lafferty, 2009]. Μια αναλυτική σύγκριση µεταξύ των αλγορίθµων παρουσιάζεται στο [Asuncion et. al, 2009], ενώ οι [Sontag, Roy, 2011] πραγµατεύονται την υπολογιστική πολυπλοκότητα της διαδικασίας υπολογισµού των παραµέτρων στο µοντέλο LDA, και εξάγουν χρήσιµα συµπεράσµατα. Gibbs Sampling Ο αλγόριθµος Gibbs Sampling ανήκει στην ευρύτερη οικογένεια των αλγορίθµων Markov Chain Monte Carlo (MCMC). Οι αλγόριθ- µοι αυτής της οικογένειας επιχειρούν την κατασκευή µιας αλυσίδας Markov (Markov chain), η οποία στη στάσιµη κατάσταση προσεγγίζει τη Ϲητούµενη κατανοµή (posterior distribution) [Gilks et. al, 1996]. Με άλλα λόγια, µετά από ικανό, πεπερασµένο αριθµό ϐηµάτων, η ακολουθία των δειγµάτων της ακολουθίας Markov ϑα πρέπει να συγκλίνει στην ακολουθία δειγµάτων της Ϲητούµενης κατανοµής. Αποδεικνύεται, ϑεωρητικά, ότι ο αλγόριθµος Gibbs Sampling συγκλίνει σε στάσιµη ακολουθία. Ωστόσο, δεν υπάρχει τρόπος να γνωρίζουµε πόσες επαναλήψεις χρειάζονται για να επιτευχθεί η σύγκλιση. Παρόλα αυτά, στην πράξη έχει διαπιστωθεί ότι η απόδοσή του είναι ικανοποιητική [Darling, 2011]. Για παράδειγµα, για να πάρουµε δείγµατα από µια κοινή κατανοµή τυχαίων µεταβλητών p(x) = p(x 1,..., x m ), όπου δεν υπάρχει λύση κλειστής µορ- ϕής για την p(x), αλλά είναι διαθέσιµες οι κατανοµές υπό συνθήκη, κάνοντας χρήση του αλγορίθµου Gibbs sampling: 1. Τυχαία αρχικοποίηση των τιµών x i 2. Για t = 1,..., T : 2.1. x t+1 1 p(x 1 x t 2, xt 3,..., xt m) 2.2. x t+1 2 p(x 2 x t+1 1, x t 3,..., xt m) 2.3. x t+1 m p(x m x t+1 1, x t+1 2,..., x t+1 m 1 ) Η παραπάνω διαδικασία επαναλαµβάνεται, έως ότου τα δείγµατα συγκλίνουν µε αυτά της κατανοµής p(x) που ϑέλουµε να προσεγγίσουµε. Οπως είδαµε, ο αλγόριθµος LDA επιχειρεί τον υπολογισµό των παρα- µέτρων z d,n, θ d, β k. Παρόλο που ο αλγόριθµος Gibbs Sampling µπορεί να χρησιµοποιηθεί για την προσέγγιση της κατανοµής της κάθε παραµέτρου, ξεχωριστά, έχει ϐρεθεί [Steyvers, Griffiths, 2007] ότι οι παράµτεροι θ d και β k µπορούν να υπολογιστούν εάν είναι γνωστή η z d,n. Ως εκ τούτου, µπορεί να χρησιµοποιηθεί µια απλούστερη µορφή του Gibbs sampling, που ϑα δειγµατοληπτεί µόνο τη µεταβλητή z d,n. Στο µοντέλο του LDA το σύνολο των εγγράφων αναπαρίσταται ως ένα σύνολο δεικτών w i και d i για λέξεις και έγγραφα, αντίστοιχα. Ο αλγόριθµος εξετάζει την κάθε λέξη διαδοχικά, και υπολογίζει την πιθανότητα ανάθεσης της σε κάθε 21

33 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 ϑέµα, λαµβάνοντας υπόψη τις αναθέσεις όλων των υπολοίπων λέξεων. Από αυτή την υπό συνθήκη κατανοµή, δειγµατοληπτείται ένα ϑέµα και αποθηκεύεται ως το νέο ϑέµα στο οποίο ανήκει η λέξη. Γράφουµε αυτήν την υπό συνθήκη κατανοµή ως : P (z i = j z i, w i, d i, ), όπου µε z i = j δηλώνεται η ανάθεση της λέξης w i στο ϑέµα j, η παράσταση z i αναφέρεται στην ανάθεση, σε ϑέµατα, όλων των υπολοίπων λέξεων, και το σύµβολο αναφέρεται σε όλες τις υπόλοιπες γνωστές ή παρατηρήσιµες πληροφορίες, όπως όλες τις υπόλοιπες λέξεις w i και έγγρφα d i και τις παραµέτρους α, η των κατανοµών Dirichlet. Οι [Griffiths, 2004] απέδειξαν ότι η συγκεκριµένη κατανοµή υπολογίζεται από τη σχέση : P (z i = j z i, w i, d i, ) Cw W T i j + η W k=1 CW wj T + W η Cd DT i j T t=1 CDT d i t + α + T α (2.7) όπου C W T και C DT είναι πίνακες καταµέτρησης διαστάσεων W T και D T αντίστοιχα. Ο πίνακα Cwj W T περιέχει τον αριθό των αναθέσεων της λέξης w στο ϑέµα j, χωρίς να περιλαµβάνει το τρέχον στιγµιότυπο i, και ο πίνακας Cdj DT περιέχει τον αριθµό των αναθέσεων του ϑέµατος j σε κάποια από τις λέξεις του εγγράφου d, χωρίς να περιλαµβάνει το τρέχον στιγµιότυπο. Ο αλγόριθµος Gibbs sampling ξεκινά αναθέτοντας κάθε λέξη σε ένα τυχαίο ϑέµα στο διάστηµα {1,..., T }. Για κάθε λέξη, οι πίνακες καταµέτρησης C W T και C DT µειώνονται αρχικά κατά ένα, λόγω των τυχαίων αναθέσεων. Στη συνέχεια, ένα νέο ϑέµα δειγµατοληπτείται από την κατανοµή της εξίσωσης 2.7 και οι πίνακες καταµέτρησης αυξάνονται ανάλογα µε τη νέα ανάθεση του ϑέµατος. Κάθε δείγµα Gibbs αποτελείται από το σύνολο των αναθέσεων των ϑεµάτων σε όλες τις λέξεις του συνόλου των εγγράφων, και επιτυγχάνεται από µία επανάληψη του αλγορίθµου σε όλα τα έγγραφα. Κατά τη διάρκεια του αρχικού σταδίου της διαδικασίας (είναι γνωστό και ως burning period) τα δείγµατα Gibbs απορρίπτονται, καθώς η προσέγγιση δεν είναι ικανοποιητική. Μετά το στάδιο αυτό, τα διαδοχικά δείγµατα Gibbs τείνουν να προσεγγίσουν τα δείγ- µατα της Ϲητούµενης κατανοµής. Οι αντίστοιχες προσεγγίσεις για τις µεταβλητές θ και β προκύπτουν, ως προς τους πίνακες καταµέτρησης, ως εξής [Steyvers, Griffiths, 2007]: ˆβ j i = Cij W T K k=1 CW kj T + η + Kη (2.8) ˆθ d j = + α T k=1 CDT dk + T α (2.9) Cdj DT 22

34 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Αλλα πιθανοτικά µοντέλα ϑεµάτων Ενας περιορισµός του µοντέλου LDA είναι η αδυναµία του να µοντελοποιήσει την συσχέτιση µεταξύ ϑεµάτων. [Blei, Lafferty, 2009]. Για παράδειγµα, σε ένα άρθρο µε ϑέµα Genetics είναι αρκετά πιθανό να υπάρχουν λέξεις προερχόµενες από τις κατηγορίες ϑεµάτων Health, Disease, και όχι τόσο πιθανό να εµφανίζονται λέξεις µε ϑέµα x-ray Astronomy. Ο περιορισµός αυτός οφείλεται στην υπόθεση της στατιστικής ανεξαρτησίας, που υπονοείται από την κατανοµή Dirichlet που ακολουθεί η κατανοµή των ϑεµάτων ως προς τα έγγραφα, θ d. Η µοντελοποίηση της µεταβλητής αυτής µε µία διαφορετική, κατάλληλη κατανοµή, δίνει τη δυνατότητα ύπαρξης συσχετίσεων ανάµεσα στα ϑέµατα και ταιριάζει καλύτερα στον πραγµατικό χαρακτήρα των δεδοµένων. Οι [Blei, Lafferty, 2007] παρουσίασαν ένα µοντέλο µε αυτά τα χαρακτη- ϱιστικά, που ονοµάζεται Correlated Topic Model (CTM) και κάνει χρήση της κανονικής λογιστικής κατανοµής (logistic normal distribution). Μια ακόµη προσέγγιση σε αυτή την κατεύθυνση έγινε από τους [Li, Mc- Callum, 2006] µε το µοντέλο Pachinko Allocation (PAM). Το µοντέλο PAM συλλαµβάνει συσχετίσεις ανάµεσα στα ϑέµατα, κάνοντας χρήση ενός κατευθυνόµενου, ακυκλικού γράφου για την αναπαράστασή τους. Πιο συγκεκριµένα, τα ϕύλλα του γράφου αναπαριστούν τις λέξεις που υπάρχουν στο λεξιλόγιο, ενώ κάθε εσωτερικός κόµβος αναπαριστά µια συσχέτιση ανάµεσα στα παιδιά του, τα οποία ενδέχεται να είναι ϕύλλα (λέξεις) ή εσωτερικοί ϐρόχοι (ϑέµατα). Στο [Li, McCallum, 2008] παρουσιάζεται µια διαφορετική προσέγγιση αναφορικά µε τη διαδικασία υπολογισµού των παραµέτρων, όπου προτείνονται εναλλακτικές και αποδοτικότερες µέθοδοι συγκριτικά µε τη µέθοδο Gibbs sampling, που χρησιµοποιούνταν στην πρώτη έκδοση του µοντέλου. Οι [Mimmo et. al, 2007] αναγνωρίζουν την έλλειψη ιεραρχικής υποδοµής ανάµεσα στα ϑέµατα και ϐελτιώνουν το µοντέλο Pachinko Allocation παρουσιάζοντας το µοντέλο hierarchical Pachinko Allocation (hpam). Η προσέγγιση που ακολουθούν είναι ανάλογη µε παλαιότερες προσεγγίσεις, όπως για πα- ϱάδειγµα το µοντέλο hierarchical Latent Dirichlet Allocation (hlda) [Blei et. al, 2004] Τα παραπάνω µοντέλα υποθέτουν ότι η σειρά µε την οποία εµφανίζονται οι λέξεις των εγγράφων δεν επηρεάζει την κατανοµή πιθανότητας του υποκείµενου µοντέλου. Κάνουν, επίσης, την περαιτέρω υπόθεση ότι µια εναλλαγή στη σειρά των εγγράφων δεν επηρεάζει την υποκείµενη κατανοµή. Ωστόσο, σε ορισµένες περιπτώσεις, η υπόθεση αυτή δεν είναι κατάλληλη. Η ϑεµατολογία µιας συλλογής εγγράφων αλλάζει µε την πάροδο του χρόνου [Blei, Lafferty, 2009]. Για παράδειγµα, δύο άρθρα που αφορούν το ίδιο επιστηµονικό πεδίο αλλά διαφέρουν χρονολογικά κατά µία εκατονταετία, αναµένεται να παρουσιάζουν σηµαντικές διαφορές στο ϑεµατικό τους περιεχόµενο και στο λεξιλόγιο. Η εξέλιξη των ϑεµάτων µε την πάροδο του χρόνου, σε µια χρονολογικά ταξινοµηµένη συλλογή εγγράφων, συλλαµβάνεται µε τη ϐοήθεια ενός µοντέλου 23

35 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 2 των [Blei, Lafferty, 2006], που ονοµάζεται Dynamic Topic Model (DTM). Το µοντέλο αυτό κάνει χρήση της λογιστικής κανονικής κατανοµής, µε σκοπό τη µοντελοποίηση των αλλαγών στη χρονοσειρά των ϑεµάτων. Τέλος, οι [Reisinger et. al, 2010] παρουσίασαν το µοντέλο Spherical Admixture Model (SAM), το οποίο διατηρεί την ιεραρχική δοµή του µοντέλου LDA, αλλά µοντελοποιεί τα έγγραφα σαν σηµεία σε έναν χώρο υψηλών διαστάσεων σφαιροειδούς τοπολογίας (high-dimension spherical manifold), επιτρέποντας µια ϕυσική παραµετροποίηση των πιθανοτήτων µέσω απόστασης συνηµιτόνου. Επιπλέον, το µοντέλο SAM µπορεί να µοντελοποιήσει την α- πουσία/παρουσία σε επίπεδο εγγράφων, όπως επίσης να αναθέσει αρνητικά ϐάρη σε όρους ϑεµάτων, σε αντίθεση µε άλλα µοντέλα. 24

36 3 Συστήµατα ερωταπαντήσεων µε χρήση πιθανοτικών µοντέλων ϑεµάτων Το κεφάλαιο αυτό περιλαµβάνει την παρουσίαση των σηµαντικότερων προσεγγίσεων που έχουν γίνει στο πεδίο των QA συστηµάτων, που χρησιµοποιούν πιθανοτικά µοντέλα ϑεµάτων, και πιο συγκεκριµένα το µοντέλο LDA. 3.1 Ερευνητικές προσεγγίσεις Οι ερευνητικές εργασίες στο πεδίο των Question Answering συστηµάτων που κάνουν χρήση πιθανοτικών µοντέλων ϑεµάτων (probabilistic topic models) είναι σχετικά περιορισµένες. Η πλειοψηφία των ερευνών κάνει χρήση του µοντέλου LDA µε σκοπό την εύρεση της κατανοµής των ϑεµάτων που χαρακτηρίζουν µια συλλογή εγγράφων, στο στάδιο ανάκτησης πληροφορίας. Στην ενότητα αυτή παρουσιάζονται οι σηµαντικότερες προσπάθειες που έχουν γίνει σε αυτή την κατεύθυνση, µε στόχο την καλή κατανόηση του συγκεκριµένου πεδίου, και την περαιτέρω εξοικοίωση µε µεθόδους παρόµοιες µε αυτές που χρησιµοποιούνται στην υλοποίηση που προτείνεται στην διπλωµατική εργασία. 25

37 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Ταξινόµηση απαντήσεων µε χρήση ιεραρχικών µοντέλων ϑεµάτων Σε αυτή την ερευνητική εργασία [Qin et. al, 2009] παρουσιάζεται ένα Question Answering σύστηµα, το οποίο κάνει χρήση του µοντέλου LDA για τον υπολογισµό των σηµασιολογικών αποστάσεων µεταξύ του ερωτήµατος και της κάθε υποψήφιας απάντησης. Μοντέλο Το µοντέλο LDA, που χρησιµοποείται στη συγκεκριµένη προσέγγιση, παρουσιάζεται αναλυτικά στο δεύτερο κεφάλαιο. Για λόγους οπτικοποίησης, παραθέτουµε τις εξισώσεις που προκύπτουν από τον αλγόριθµο Gibbs sampling για την εκτίµηση των παραµέτρων του µοντέλου z, θ, φ του µοντέλου LDA, όπου α, β είναι παράµετροι των κατανοµών Dirichlet. Η πιθανότητα ανάθεσης της λέξης i στο ϑέµα z υπό τη συνθήκη των w i (λέξη µε δείκτη i), όπου z i (τα ϑέµατα που έχουν ανατεθεί στις υπόλοιπες λέξεις), d i (έγγραφο µε δείκτη i) και (οι υπόλοιπες παρατηρούµενες πληροφορίες), δίνεται, συναρτήσει των πινάκων καταµέτρησης, από τη σχέση : P (z i = j z i, w i, d i, ) + β W k=1 CW wj T + W β Cw W T i j Cd DT i j T t=1 CDT d i t + α + T α (3.1) Οι αντίστοιχες προσεγγίσεις για τις µεταβλητές θ και φ προκύπτουν, ως προς τους πίνακες καταµέτρησης, ως εξής : ˆφ j i = Cij W T K k=1 CW kj T + β + Kβ (3.2) ˆθ d j = + α T k=1 CDT dk + T α (3.3) Cdj DT Ενα νέο έγγραφο w, που αναπαρίσταται σαν διάνυσµα λέξεων, και το οποίο δεν εµπεριέχεται στην υπάρχουσα συλλογή D, περιγράφεται από µια κατανοµή ϑεµάτων, που δίνεται από τη σχέση : D p(w t j, D) = p(w i t j )p(t j d)p(d) (3.4) d i όπου η κατανοµή του ϑέµατος t j ϑεωρείται γνωστή από την ανάλυση LDA και δίνεται από τη σχέση : p(t j D) = W i=1 CW w T i,j W T i=1 j=1 CW w T i,j (3.5) 26

38 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 ιαδικασία scoring Μέσω της πιθανοτικής ανάλυσης µε το µοντέλο LDA, υπολογίζεται η σηµασιολογική απόσταση ανάµεσα στο ερώτηµα εισόδου και κάθε µία από τις υποψήφιες απαντήσεις. Η πληροφορία αυτή χρησιµοποιείται για την κατάταξη των απαντήσεων, που έχουν εξαχθεί από τη µηχανή α- ναζήτησης µε τη ϐοήθεια τεχνικών επεξεργασίας ϕυσικής γλώσσας, στο στάδιο εξαγωγής πληροφορίας. Ανακύπτει, ωστόσο, ένα πρόβληµα, το οποίο σχετίζεται µε το µικρό αριθµό των λέξεων-κλειδιών (key-words) που προκύπτουν από το ερώτηµα εισόδου και τις υποψήφιες απαντήσεις. Σαν αποτέλεσµα, η ϑεµατική κατανοµή σε αυτά τα τµήµατα ενδέχεται να µην είναι ακριβής, ιδιαίτερα στην περίπτωση ύπαρξης σηµασιολογικών νοηµάτων που δε µπορούν να συλληφθούν άµεσα από το µοντέλο. Για παράδειγµα, στην ερώτηση Where can I buy a Ford near Berkeley? ο µηχανισµός του µοντέλου δε µπορεί να αντιληφθεί ότι το όνοµα Ford αναφέρεται σε µάρκα αυτοκινήτου. Για την αντιµετώπιση του προβλήµατος χρησιµοποιείται µια προσέγγιση επαύξησης των προτάσεων σε παραγράφους, µε χρήση του Wordnet ή του Wikipedia. Ουσιαστικά πρόκειται για µια αντικατάσταση των key-words µε τις περιγραφές τους, µε στόχο την διαµόρφωση µιας νέας παραγράφου, η οποία ϑα χρησιµοποιηθεί για τον υπολογισµό της σηµασιολογικής απόστασης, στη ϑέση του αρχικού τµήµατος κειµένου. Για παράδειγµα, η λέξη Ford µε χρήση του Wikipedia γίνεται : Ford Motor Company is an American multinational corporation and the world s third largest auto maker based on worldwide vehicle sales. Based in Dearborn, Michigan, a suburb of Detroit, the automaker was founded by Henry Ford and incorporated in June 16, Παρόλο που η συγκεκριµένη προσέγγιση εγχέει ϑόρυβο στα δεδοµένα του ερωτήµατος και των απαντήσεων, καθιστά δυνατή τη σύλληψη σηµαντικών σηµασιολογικών συσχετίσεων. Η σηµασιολογική απόσταση ανάµεσα σε µια πιθανή απάντηση A και το ερώτηµα Q υπολογίζεται από την µέση απόκλιση Kullback-Liebler (AKL) ως εξής : AKL(A Q) = KL(A Q) + KL(Q A) 2 (3.6) Το σκορ ενός συνόλου πιθανών απαντήσεων, A i (i = 1,..., A ) υπολογίζεται από τη σχέση : AKL(A i Q) 1 S(A i ) = A i=1 AKL(A (3.7) i Q) 1 Η κανονικοποίηση αυτή αναθέτει υψηλότερα σκορ σε απαντήσεις που ϐρίσκονται πιο κοντά στην ερώτηση, σε σχέση µε το σηµασιολογικό τους πε- ϱιεχόµενο. 27

39 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 Αξιολόγηση Για την αξιολόγηση της απόδοσης του συστήµατος, έγινε σύγκριση των αποτελεσµάτων µεταξύ της µηχανής αναζήτης Lucene και της προτεινόµενης υλοποίησης, η οποία εφαρµόζει το µοντέλο στα αποτελέσµατα της µηχανής Lucene. Τα συστήµατα δοκιµάσθηκαν σε ένα σύνολο 110 εγγράφων και 90 ερωτήσεων. Στο σχήµα 3.1 απεικονίζονται τα αποτελέσµατα. Κάθε µπάρα αναπαριστά τη διαφορά µεταξύ των ϑέσεων, στην οποία κατέταξαν τα δύο συστήµατα την σωστή απάντηση, για την ίδια ερώτηση. Ο οριζόντιος άξονας αναπαριστά τον αριθµό της ερώτησης και ο κατακόρυφος άξονας τη διαφορά D. Για παράδειγ- µα, δεδοµένης της ερώτησης 6, η καλύτερη απάντηση κατατάχθηκε στη ϑέση 10 από τη µηχανή Lucene και στη ϑέση 5 από το σύστηµα Lucene+LDA. Η διαφορά υπολογίζεται από τη σχέση : D = Rank (Lucene) Rank (Lucene+LDA) (3.8) Ως εκ τούτου, ϑετική διαφορά σηµαίνει ϐελτίωση της κατάταξης µε τη χρήση του προτεινόµενου συστήµατος. Από το σύνολο των 90 ερωτήσεων, υ- πήρξε σηµαντική ϐελτίωση της κατάταξης των σωστών απαντήσεων σε 29 από αυτές. Υπάρχουν 4 ερωτήσεις, τις οποίες το σύστηµα κατέταξε, λανθασµένα, σε χαµηλότερες ϑέσεις σε σχέση µε το Lucene, κάτι που ίσως οφείλεται στην επαύξηση των τµηµάτων και στον ϑόρυβο που αναπόφευκτα εισχωρεί στα δεδοµένα. Για τις υπόλοιπες 57 ερωτήσεις, τα δύο συστήµατα κατατάσσουν την καλύτερη απάντηση στην ίδια ϑέση. Σχήµα 3.1: Η διαφορά των ϑέσεων κατάταξης της καλύτερης απάντησης από τα συστήµατα Lucene και Lucene+LDA 28

40 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Σηµασιολογικό σύστηµα ερωταπαντήσεων µε χρήση µοντέλων ϑεµάτων Στη δηµοσίευση [Celikyilmaz, 2010] προτείνεται ένα QA σύστηµα, το οποίο κάνει χρήση του πιθανοτικού µοντέλου LDA στο στάδιο ανάκτησης πληροφο- ϱίας, µε στόχο την ϐελτίωση της απόδοσης του στην εξαγωγή σωστών απαντήσεων. Στο µοντέλο αυτό επιχειρείται η συσχέτιση µεταξύ οµάδων λέξεων, δηλαδή ϑεµάτων, και τύπων οντοτήτων (entity-types) που ϐρίσκονται στη γειτονιά των λέξεων. Η διαδικασία αυτή ϐελτιώνει την ανάκτηση τµηµάτων κειµένου, τα οποία περιέχουν την απάντηση για µια δεδοµένη ερώτηση, σε σχέση µε την α- πλή αναζήτηση µε λέξεις-κλειδιά και προηγούµενες προσεγγίσεις που κάνουν χρήση πιθανοτικών µοντέλων για ανάκτηση πληροφορίας. Στη συγκεκριµένη έρευνα, χρησιµοποιούνται απλές και σύνθετες ερωτήσεις factoid τύπου, ενώ η αναµενόµενη απάντηση είναι µια λέξη ή ϕράση. Αναζητούνται τµήµατα κειµένου (text snippets) τα οποία όχι µόνο σχετίζονται µε την εκάστοτε ερώτηση, αλλά περιέχουν και τύπους οντοτήτων, οι οποίοι αναµένεται να υπάρχουν στην απάντηση. Επεκτείνεται, µε άλλα λόγια, η προσέγγιση των πιθανοτικών µοντέλων µε τέτοιο τρόπο, ώστε επιτυγχάνεται η αναπαράσταση των εγγράφων σαν κατανοµές λέξεων και ϑεµάτων, ενώ πα- ϱάλληλα το µοντέλο εµπλουτίζεται µε τύπους οντοτήτων που ϐρίσκονται στη γειτονιά κάθε λέξης. Το µοντέλο αυτό ονοµάζεται Ent-LDA. Αναπαριστά κάθε έγγραφο σαν µια κατανοµή ϑεµάτων και κάθε ϑέµα σαν µια κατανοµή λέξεων. Κάθε λέξη στο έγγραφο συσχετίζεται µε 50 διαφορετικά named entity types. Το γενετικό µοντέλο παράγει γειτονικά named entities για κάθε λέξη, η οποία µε τη σειρά της προκύπτει από µια πολυωνυµική κατανοµή ϑεµάτων. Η µεταβλητή named entity, ɛ, είναι µια δυαδική τιµή, που αναπαριστά την ύπαρξη οντότητας στην γειτονιά της αντίστοιχης λέξης. Το γενετικό µοντέλο περιλαµβάνει, επίσης, λέξεις που χαρακτηρίζονται ως specific to documets µια προσέγγιση που παρουσιάζεται στο [Chemudugunda et. al, 2006]. Ετσι, για λέξεις που έχουν τη συγκεκριµένη ιδιότητα, δηλαδή να ϑεωρούνται τοπικές ως προς ένα έγγραφο, παράγονται από µία διαφορετική κατανοµή, η οποία χαρακτηρίζεται από µια δυαδική µεταβλητή x. Η γειτονιά κάθε λέξης µπορεί να ορισθεί σαν ένα παράθυρο n προτάσεων σε σχέση µε την πρόταση στην οποία ανήκει η λέξη. Η γραφική αναπαράσταση του µοντέλου Ent-LDA απεικονίζεται στο σχήµα 3.2. Το µοντέλο αυτό έχει δοµή παρόµοια µε αυτή του LDA και του µοντέλου SWB που ορίζεται στο [Chemudugunda et. al, 2006], ωστόσο στη συγκεκριµένη υλοποίηση υπάρχουν επιπρόσθετα δοµικά στοιχεία µε σκοπό την σύλληψη των named entities στη γειτονιά των λέξεων των ερωτηµάτων. Συγκεκριµένα, κάθε στιγµιότυπο µιας λέξης σχετίζεται µε µια λανθάνουσα τυχαία µεταβλητή x. Εάν x = 0, το γενετικό µοντέλο ent-lda παράγει τη λέξη από την κατανοµή φ g (g : global), ενώ αν x = 1 η λέξη παράγεται από την κατανοµή φ l (l : local). Οι δύο κατανοµές προκύπτουν από 29

41 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 Dirichlet µε παραµέτρους β g, β l, αντίστοιχα. Η µεταβλητή x δειγµατοληπτείται από µια παράµετρο δ που προκύπτει από συµµετρική κατανοµή Dirichlet µε παράµετρο α 2. Οι µεταβλητές ɛ παράγονται για κάθε δείγµα λέξης ɛ ne {0, 1}, ne = 1,..., NE(= 50). Σχήµα 3.2: Γραφικό µοντέλο Ent-LDA Η διαδικασία παραγωγής του µοντέλου είναι η ακόλουθη : 1. Για κάθε t = 1,..., T 1.1. ιάλεξε τη διακριτή κατανοµή φ g Dirichlet(β g ) 1.2. Για κάθε λέξη w i : Για κάθε τύπο ne = 1,..., NE: ιάλεξε τη διακριτή κατανοµή λ ne ti Beta(γ) 2. Για κάθε έγγραφο d = 1,..., D: 2.1. ιάλεξε τις κατανοµές : θ d Dirichlet(α 1 ) φ l d Dirichlet(β l) δ d Beta(α 2 ) 2.2. ιάλεξε ένα ϑέµα z i Multinomial(θ d ) 2.3. ιάλεξε το x i Binomial(δ d ) 2.4. Εάν x i = 0, διάλεξε µια λέξη w i Multinomial(φ g zi ) 2.5. Εάν x i = 1, διάλεξε µια λέξη w i Multinomial(φ l d ) 2.6. Για κάθε τύπο ne = 1,..., NE: ιάλεξε τη µεταβλητή ɛ ne it Binomial(λ ne z i,w i ) 30

42 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 Για την προσέγγιση της εκ των υστέρων κατανοµής, χρησιµοποιείται ο αλγόριθµος Gibbs sampling [Griffiths, Steyvers, 2007] και προκύπτουν οι παρακάτω σχέσεις, ως προς τους πίνακες καταµέτρησης : P (z d) = nt td, i D + λ 1 t nt td, i D + T λ 1 P (w x = 1) = n d,x=1, i + α 2 n d, i + 2α 2 P (w x = 0, z = t) = n d,x=0, i + α 2 n d, i + 2α 2 n W D wd, i + βl (3.9) w nw D wt, i + W βl (3.10) n W D wd, i + βg w nw D wt, i + W βg (3.11) T,NE nw wt,ne, i [P (ɛ = ne w, z) = + ] γw T NE n W wt, i T + NEγW T (3.12) ne=1 Η γνώση του τύπου της απάντησης δίνει τη δυνατότητα όχι µόνο αναγνώρισης λέξεων που σχετίζονται σηµασιολογικά µε τις λέξεις και ϕράσεις της ερώτησης, αλλά και απόκτησης πληροφοριών σχετικά µε το αν ο τύπος οντότητας που ψάχνουµε ϐρίσκεται στη γειτονιά της συγκεκριµένης λέξης. Παρόλο που τελικός στόχος της συγκεκριµένης έρευνας είναι ένα πλήρως γενετικό µοντέλο (unsupervised), µια µερική επιτήρηση (semi-supervised approach) είναι απαραίτητη για την εκπαίδευση του µοντέλου. Η εκπαίδευση πραγµατοποιείται µε έναν ταξινοµητή ϐασιζόµενο σε textual entailment, για τον υπολογισµό της πιθανότητας µιας σχέσης συνεπαγωγής ανάµεσα στην ε- ϱώτηση και στα τµήµατα κειµένου. Η συνολική προσέγγιση είναι υβριδική, καθώς συνδυάζει έναν ταξινοµητή textual entailment µε το πιθανοτικό µοντέλο Ent-LDA. Το σύστηµα δοκιµάστηκε σε σύνολα ερωτήσεων από προγενέστερους διαγωνισµούς TREC, περιορίζοντας τις ερωτήσεις σε τύπου factoid. Τα αποτελέσµατα ήταν ικανοποιητικά, καθώς σε αρκετές περιπτώσεις, το µοντέλο Ent- LDA παρουσίασε καλύτερη απόδοση σε σχέση µε το LDA. Για παράδειγµα στην ερώτηση : TREC Question: How many employees does Rohm&Haas have? Answer Type: NUMBER:Count η απάντηση εξάγεται µε επιτυχία από το τµήµα κειµένου : Rohm and Haas Company, a Philadelphia, Pennsylvania based company, manufactures miscellaneous materials. Its annual sales revenue stands at about USD 8.9 billion. On July 10, 2008, The Dow Chemical Company agreed to buy the company for $17.29 billion. The company has more than 17,000 people around the world. όπου ο τύπος της απάντησης ϐρίσκεται στη γειτονιά λέξεων, οι οποίες εµφανίζονται αυτούσιες και στην ερώτηση. 31

43 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Μοντελοποίηση οµοιότητας ϐασισµένη σε µοντέλα ϑεµάτων σε συστήµατα ερωταπαντήσεων Η συγκεκριµένη δηµοσίευση από τους [Celikyilmaz et. al, 2010] αφορά στην παρουσίαση τεχνικών κατάταξης τµηµάτων κειµένου (candidate passages ranking) στο στάδιο ανάκτησης πληροφορίας ενός QA συστήµατος, που ϐασίζονται σε πιθανοτική ανάλυση ϑεµάτων. Πιο συγκεκριµένα, χρησιµοποιούνται τα µοντέλα LDA (Latent Dirichlet Allocation) και hlda (hierarchical Latent Dirichlet Allocation) µε σκοπό την παραγωγή σκορ κατάταξης (ranking scores), που ϐασίζονται σε µετρικές οµοιότητας ανάµεσα στην ερώτηση που τίθεται από τον χρήστη του QA συστήµατος και τα τµήµατα κειµένου που επιστρέφονται στο στάδιο ανάκτησης πληρο- ϕορίας. Οι µετρικές αυτές, που παράγονται µετά από πιθανοτική ανάλυση ϑεµάτων, χρησιµοποιούνται σε συνδυασµό µε τεχνικές textual entailment µε σκοπό τη ϐελτίωση της απόδοσης του QA συστήµατος. Similarity modeling with LDA Υποθέτουµε ότι, για µια ερώτηση που ϑέτει ο χρήστης στο σύστηµα, η µηχανή αναζήτησης επιστρέφει ένα σύνολο εγγράφων D, µε ϐάση το ερώτηµα (expanded query) που προκύπτει από την επεξεργασία της ερώτησης. Υπολογίζεται µια µετρική οµοιότητας ανάµεσα στην αρχική ερώτηση και κάθε εδάφιο/πρόταση s D, που ϐασίζεται στις λανθάνουσες κατανοµές ϑεµάτων που τα χαρακτηρίζουν. Για το σκοπό αυτό κατασκευάζονται πιθανοτικά µοντέλα σε επίπεδο προτάσεων, κάτι που δικαιολογείται και από τον µικρό αριθµό εγγράφων (περίπου 100) που επιστρέφονται από τη µηχανή αναζήτησης, για κάθε ερώτηση. Θεω- ϱώντας ένα παράθυρο (sliding window) n προτάσεων, µια πρόταση ορίζεται ως s = ( D n) + 1, όπου D ο συνολικός αριθµός προτάσεων που προκύπτουν από το σύνολο εγγράφων. Στα πλαίσια της συγκεκριµένης υλοποίησης, τα έγγραφα απαρατίζονται από 25 προτάσεις κατά µέσο όρο, εποµένως µια καλή εκτίµηση για το D είναι περίπου Ως γνωστόν, στο µοντέλο LDA, ένα τµήµα κειµένου (passage) αναπαρίσταται ως µια σύνθεση ϑεµάτων, µε κάθε ϑέµα να εκφράζεται σαν ένα ϐάρος θ z (s) στο τµήµα s, ενώ κάθε ϑέµα είναι µια κατανοµή λέξεων, µε τη λέξη w να έχει πιθανότητα φ z w στο ϑέµα z. Θεωρώντας ότι οι κατανοµές προκύπτουν από συµµετρικές Dirichlet, το γενετικό µοντέλο είναι ως εξής : w i z i, φ z i w i Discrete(φ (z i) ), φ (z) Dirichlet(β), z i θ s i Discrete(θ (s i) ), θ (s) Dirichlet(α), i = 1,..., W z = 1,..., K i = 1,..., W s = 1,..., S 32

44 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 όπου S είναι ο συνολικός αριθµός των τµηµάτων, K είναι ο συνολικός αριθµός ϑεµάτων, W είναι ο συνολικός αριθµός λέξεων στη συλλογή των εγγράφων, και s i και z i είναι το τµήµα και το ϑέµα της λέξης w i, αντίστοιχα. Κάθε λέξη του λεξιλογίου w i V = {w 1,..., w W } ανατίθεται σε κάθε λανθάνον ϑέµα µέσω της µεταβλητής z i=1,...,w. Ο υπολογισµός των εκ των υστέρων πιθανοτήτων ˆφ (z i) w i µιας λέξης w i σε ένα τµήµα s δεδοµένου ενός ϑέµατος z i = k και ˆθ (s) της αναλογίας ϑεµάτων σε ένα δεδοµένα τµήµα s γίνεται µε ϐάση τους πίνακες καταµέτρησης : ˆφ (z i) w i = + β W j=1 nw w K j k + W β (3.13) n W w K i k ˆθ (s) = n SK sk K j=1 nsk sj + α + Kα όπου n W w K i k είναι ο αριθµός των λέξεων w i στο ϑέµα k και n SK sk αριθµός ϑεµάτων k στο τµήµα s. (3.14) είναι ο Degree of Similarity Μετά την ανάλυση µε το µοντέλο LDA, υπολογίζεται ο ϐαθµός οµοιότητας, DES LDA (q, s) σαν συνάρτηση δύο µετρικών οµοιότητας sim LDA 1 και sim LDA 2. Η πρώτη µετρική στοχεύει στη σύλληψη λεξικολογικών οµοιοτήτων στα λανθάνοντα ϑέµατα. Θεωρούµε s και q δύο κατανοµές πιθανότητας σε κάθε ϑέµα z = k. Ετσι, παίρνουµε αραιά δείγµατα από την κατανο- µή ˆφ (z) χρησιµοποιώντας λέξεις από τα q, s. Κάθε τέτοια κατανοµή δηλώνεται από τον τύπο p (z) q = p(w q z, ˆφ (z) ) µε το σύνολο λέξεων w q = {w 1,..., w q } στο q και αντίστοιχα p s = p(w s z, ˆφ (z) ) µε το σύνολο λέξεων w s = {w 1,..., w s } στο s και z = 1,..., K. Οι αραιές κατανοµές πιθανότητας για κάθε ϑέµα, που ορίστηκαν παραπάνω, αναπαριστώνται µόνο από λέξεις στα σύνολα q και s, ενώ οι πιθανότητες των υπολοίπων λέξεων του V τίθενται ίσες µε µηδέν. Οι τιµές προκύτπουν από τις εκ των υστέρων κατανοµές µέσω του µοντέλου LDA (εξίσωση 3.13) ως εξής : p (z) (z) (z) s = ( ˆφ w 1,..., ˆφ w s, 0, 0,...) (0, 1)W και p q (z) (z) (z) = ( ˆφ w 1,..., ˆφ w q, 0, 0,...) (0, 1) W. εδοµένου ενός ϑέµατος z, η οµοιότητα µεταξύ των κατανοµών p (z) q και p (z) s υπολογίζεται µέσω της µεθόδου transformed Information Radius (IR), µε τη ϐοήθεια της απόκλισης Kullback-Liebler (KL): IR(p (z) q, p (z) s ) = KL(p (z) q p(z) q + p (z) s 2 ) + KL(p (z) s p(z) q + p (z) s ) (3.15) 2 όπου KL(p q) = i p i log p i q i. Η απόκλιση µετασχηµατίζεται σε µετρική ο- µοιότητας σύµφωνα µε τη σχέση : W (p (z) q, p (z) s ) = 10 δir(p(z) q,p s (z) ) (3.16) 33

45 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 Η επιλογή της µετρικής IR σε σχέση µε την KL έγινε για να µην υπάρξουν προβλήµατα µε άπειρες τιµές. Αυτό αποτρέπεται λόγω του παράγοντα pq+ps 2 0 εάν είτε p q 0 είτε p s 0. Η µετρική αυτή είναι επίσης συµµετρική, δηλαδή IR(p, q) = IR(q, p). Η οµοιότητα µεταξύ q/a pairs προκύπτει από τον µέσο όρο της µετασχη- µατισµένης απόκλισης, λαµβάνοντας υπόψην όλα τα K ϑέµατα : sim LDA 1 (q, s) = 1 K K k=1 W (p (z=k) q, p (z=k) s ) (3.17) Οσον αφορά τη δεύτερη µετρική, ϐασίζεται στις αναλογίες των ϑεµάτων στα σύνολα q και s για να συλλάβει οµοιότητες ανάµεσα στα ϑέµατά που τα χαρακτηρίζουν, µε χρήση της µετρικής transformed IR ως εξής : sim LDA 2 (q, s) = 10 IR(ˆθ (q),ˆθ (s) ) (3.18) όπου ˆθ (q) και ˆθ (s) είναι Κ-διάστατα διακριτά ϑεµατικά ϐάρη στην ερώτηση q και στο τµήµα s και δίνονται από την εξίσωση Συνοπτικά, η sim LDA 1 αποτελεί µετρική λεξιλογικής οµοιότητας σε επίπεδο ϑέµατος-λέξεων, ενώ η sim LDA 2 αποτελεί ένα µέτρο της τοπικής οµοιότητας στο επίπεδο ενός τµήµατος κειµένου, δηλαδή ενός συνόλου προτάσεων, s. Ο ϐαθµός οµοιότητας Degree of Similarity ορίζεται από τη σχέση : DES LDA (s, q) = sim LDA 1 (q, s) sim LDA 2 (q, s) (3.19) Ο αλγόριθµος που υλοποιεί τη συγκεκριµένη ανάλυση παρουσιάζεται πα- ϱακάτω : Αλγόριθµος 1 - Flat Topic-Based Similarity Model 1. Given a query q and candidate passages s. D 2. Build an LDA model for the retrieved passages. 3. for each passage s D do 4. - Calculate sim 1 (q, s) using Eq.(3.17) 5. - Calculate sim 2 (q, s) using Eq.(3.18) 6. - Calculate DES LDA using Eq.(3.19) 7. end for Στο σχήµα 3.3 (α) παρουσιάζονται κατανοµές από δείγµατα των q και s. Στο 3.3 (ϐ) ϕαίνονται οι αραιές κατανοµές (µόνο οι λέξεις των q και s παίρνουν ϑετικές τιµές πιθανότητας).από τη στιγµή που τα ϑέµατα δεν έχουν ιεραρχική δοµή, κάθε ϑεµατική κατανοµή ορίζεται σε ολόκληρο το λεξιλόγίο των λέξεων, V, της συλλογής εγγράφων D. Στο σχήµα ϕαίνονται µόνο οι πιο πιθανές λέξεις για κάθε ϑέµα. Επιπλέον, κάθε s και q αναπαρίστανται ως διακριτές κατανοµές πιθανότητας στο σύνολο των K ϑεµάτων. 34

46 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 Σχήµα 3.3: Θεµατικές κατανοµές s και q που λαµβάνονται από την ανάλυση LDA Similarity modeling with hlda Το µοντέλο hlda οργανώνει τα λανθάνοντα ϑέµατα σε ένα δένδρο σταθερού ϐάθους L, σε αντίθεση µε το µοντέλο του flat LDA της προηγούµενης ενότητας. Κάθε τµήµα κειµένου s ανατίθεται σε ένα µονοπάτι c s του δένδρου και κάθε λέξη w i του s ανατίθεται σε ένα ϑέµα z i στο επίπεδο l του c s. Κάθε κόµβος αντιστοιχεί σε µια ϑεµατική κατανοµή λέξεων. Ο αλγόριθµος Gibbs sampling που χρησιµοποιείται για τη διαδικασία εκτίµησης των κρυφών πα- ϱαµέτρων [Griffiths, 2004], επιλέγει ένα νέο µονοπάτι για κάθε τµήµα s και αναθέτει κάθε λέξη σε έναν κόµβο-ϑέµα σε αυτό το µονοπάτι. Στη διαδικασία εκµάθησης του αλγορίθµου, όπου σχηµατίζεται η δενδρική δοµή και τα ϑέµατα, χρησιµοποιείται µια nested Chinese Restaurant Process (ncrp). 35

47 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 Η ncrp [Blei et. al, 2004] είναι µια στοχαστική διαδικασία, η οποία α- ναθέτει κατανοµές πιθανότητας σε δένδρα µεγάλου ϐάθους, τα οποία διακλαδίζονται δυναµικά. Καθορίζει µια κατανοµή λέξεων, που σχετίζεται µε τµήµατα κειµένου, και την αντιστοιχίζει σε ένα µονοπάτι του δένδρου. Οι αναθέσεις τµηµάτων σε µονοπάτια συµβαίνουν ακολουθιακά : Το πρώτο τµήµα αντιστοιχίζεται στο αρχικό µονοπάτι επιπέδου-l, ξεκινώντας µια απλή διακλάδωση. Το m-οστό διαδοχικό τµήµα ανατίθεται σε ένα µονοπάτι που επιλέγεται από την κατανοµή : m c p(path old, c m, m c ) = γ + m 1 γ p(path new, c m, m c ) = γ + m 1 (3.20) όπου m c είναι ο αριθµός των τµηµάτων που έχουν ανατεθεί στο µονοπάτι c, m είναι ο συνολικός αριθµός τµηµάτων στη συγκεκριµένη επανάληψη και γ είναι µια παράµετρος που ελέγχει την πιθανότητα δηµιουργίας νέων µονοπατιών. Με ϐάση αυτή την πιθανότητα, κάθε κόµβος µπορεί να διακλαδωθεί σε ένα διαφορετικό αριθµό κόµβων-παιδιών, ανάλογα µε την τιµή του γ. Η γενετική διαδικασία του µοντέλου hlda είναι η ακόλουθη : 1. Για κάθε ϑέµα k T, διάλεξε κατανοµή β k Dirichlet(η) 2. Για κάθε τµήµα s στα ανακτηθέντα έγγραφα : 2.1. Επέλεξε ένα µονοπάτι c s ncrp (γ) 2.2. Επέλεξε ένα διάνυσµα ϐαρών µήκους-l θ s Dirichlet(α) 2.3. Για κάθε λέξη n, διάλεξε : ένα επίπεδο z s,n θ s µια λέξη w s,n {z s,n, c s, β} εδοµένου ενός τµήµατος s, θ s είναι ένα διάνυσµα µε ϑεµατικές αναλογίες που προκύπτει από µία L-διάστατη κατανοµή Dirichlet µε παράµετρο α. Ουσιαστικά πρόκειται για µια κατανοµή επιπέδων του δένδρου. Η n-οστή λέξη του s λαµβάνεται αφού πρώτα επιλεγεί ένα επίπεδο z s,n = l από την κατανοµή θ s µε πιθανότητα θ s,l. Οι παράµετροι η και γ ελέγχουν το µέγεθος του δένδρου, που επηρεάζει τον αριθµό των ϑεµάτων. Μεγάλες τιµές του η ευνοούν την εµφάνιση περισσότερων ϑεµάτων. εδοµένων των αναθέσεων των λέξεων w σε επίπεδα z και των τµηµάτων σε µονοπάτια c, η αναµενόµενη εκ των υστέρων πιθανότητα µιας συγκεκριµένης λέξης σε ένα δεδοµένο ϑέµα z = l ενός µονοπατιού c = c είναι ανάλογη του αριθµού εµφανίσεων της λέξης w στο συγκεκριµένο ϑέµα : p(w z, c, w, η) n(z = l, c = c, w = w) + η (3.21) 36

48 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 Παρόµοια, η εκ των υστέρων πιθανότητα ενός συγκεκριµένου ϑέµατος z σε ένα δεδοµένο τµήµα s είναι ανάλογη του αριθµού εµφανίσεων του z στο εν λόγω τµήµα : p(z s, z, c, α) n(c = c, z = l) + α (3.22) όπου n( ) είναι ο αριθµός των στοιχείων ενός πίνακα που ικανοποιεί τη συν- ϑήκη που ορίστηκε. Οι εκ των υστέρων πιθανότητες κανονικοποιούνται ως προς τους συνολικά µεγέθη των µεταβλητών και τις παραµέτρους των κατανο- µών. Tree-Based Similarity Model Ο hlda κατασκευάζει µια δενδρική ιεραρχική δοµή που περιλαµβάνει τα τµήµατα κειµένου και την ερώτηση, και κάθε µονοπάτι µπορεί να διαµοιράζεται σε πολλά τµήµατα ή και την ερώτηση. Γίνεται η υπόθεση ότι τα τµήµατα που µοιράζονται το ίδιο µονοπάτι είναι περισσότερο όµοια µεταξύ τους διότι έχουν παρόµοια ϑεµατολογία. Επιπλέον, εάν ένα µονοπάτι περιλαµβάνει την ερώτηση, τότε τµήµατα τα οποία ανήκουν στο ίδιο µονοπάτι είναι πιθανότερο να περιλαµβάνουν την απάντηση στην ερώτηση, καθώς είναι περισσότερο όµοια µε αυτήν από τµήµατα σε άλλα µονοπάτια. Ετσι, η οµοιότητα ενός τµήµατος s και µιας ερώτησης q, που µοιράζονται το ίδιο µονοπάτι, αποτελεί µια µετρική σηµασιολογικής οµοιότητας. Εστω µια ερώτηση q µε µονοπάτι c q. Αρχικά αναγνωρίζουµε τα τµήµατα εκείνα, τα οποία ανήκουν στο ίδιο µονοπάτι µε την q, M = {s D c s = c q }. εδοµένων των c q και M, υπολογίζουµε το ϐαθµό οµοιότητας DES hlda (s, q) ανάµεσα στα q και s υπολογίζοντας τις µετρικές sim hlda 1 και sim hlda 2. Για την πρώτη µετρική, ορίζουµε δύο αραιές κατανοµές για τα q και s, όπως και στην περίπτωση του flat LDA. Αυτό γίνεται για κάθε κόµβο l µε σκοπό τον ορισµό λεξιλογικών οµοιοτήτων σε επίπεδο ϑεµάτων. Οι κατανοµές περιλαµ- ϐάνουν το λεξιλόγιο που παράγεται από το ϑέµα του εκάστοτε κόµβου, u l V. Μια διαφορά σε σχέση µε τον flat LDA είναι ότι στη συγκεκριµένη περίπτωση, οι κατανοµές των ϑεµάτων σε κάθε επίπεδο ενός µονοπατιού λαµβάνονται από το λεξιλόγιο που ορίζεται από όλα τα τµήµατα που µοιράζονται το µονοπάτι. Στην περίπτωση του flat LDA τα ϑέµατα αποτελούσαν κατανοµές από το συνολικό λεξιλόγιο, V. εδοµένου του w q = {w 1,..., w q }, έστω w q,l w q το σύνολο των λέξεων του q που παράγονται από το ϑέµα z q στο επίπεδο l του µονοπατιού c q. Η διακριτή κατανοµή p ql = p(w q,l z q = l, c q, v l ) αναπαριστά την πιθανότητα ανάθεσης των λέξεων του συνόλου u l στο ϑέµα z l του επιπέδου l, λαµβάνοντας λέξεις µόνο από το σύνολο w q,l. Οι πιθανότητες των υπολοίπων λέξεων του v l τίθενται ίσες µε µηδέν. Παρόµοια, p s,l = p(w s,l z s, c q, u l ) είναι η πιθανότητα των λέξεων w s του s που εξάγονται από το ίδιο ϑέµα. Οι πιθανότητες λέξεων p q,l και p s,l λαµβάνονται µε χρήση της εξίσωσης 3.21 και κανονικοποιούνται. Η οµοιότητα ανάµεσα στις p q,l και p s,l σε κάθε επίπεδο υπολογίζεται από τη µετρική transformed IR: W cq,l (p q,l, p s,l ) = 10 δirc q,l (p q,l,p s,l ) (3.23) 37

49 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 όπου η παράσταση IR cq,l (p q,l, p s,l ) υπολογίζεται σύµφωνα µε την εξίσωση Τελικά, η µετρική sim 1 hlda δίνεται : sim hlda 1 (q, s) = 1 L L W cq,l (p q,l, p s,l ) l (3.24) l=1 Η δεύτερη µετρική ϐασίζεται στις ϑεµατικές αναλογίες ώστε να υπολογίσει τις τοπικές οµοιότητες µεταξύ των q και s. Υπολογίζονται οι τοπικές αναλογίες p zq = p(z q c q ) και p zs = p(z s c q ) µέσω της εξίσωσης Τελικά προκύπτει : sim hlda 2 (q, s) = 10 IRcq (pzq,pzs) (3.25) Συνοπτικά, η µετρική sim hlda 1 παρέχει πληροφορίες για την οµοιότητα µεταξύ q και s ϐασισµένη σε κατανοµές ϑεµάτων-λέξεων, ενώ η µετρική sim hlda 2 είναι η οµοιότητα µεταξύ των ϑεµατικών ϐαρών. Οι δύο µετρικές συνδυάζονται για να προκύψει ο ϐαθµός οµοιότητας : DES hlda (s, q) = sim hlda 1 (q, s) sim hlda 2 (q, s) (3.26) Ο παρακάτω αλγόριθµος περιγράφει την ανάλυση µε το προτεινόµενο µοντέλο : Αλγόριθµος 2 - Tree-Based Similarity Model 1. Given candidate passages s and question q. 2. Build hlda on set of s and q to obtain tree T. 3. Find path c q on T and candidate passages on path c q, M = {s D c s = c q }. 4. for each passage s M do 5. - Find DES hlda (q, s) using Eq.(3.24, 3.25, 3.26) 6. end for 7. if s / M, then DES hlda (q, s) = 0. Στο σχήµα 3.4 (a) ϕαίνεται ένα µονοπάτι που αντιστοιχεί σε αραιές κατανοµές λέξεων από τα σύνολα q και s, σε κάθε επίπεδο, και τις ϑεµατικές τους αναλογίες, p zq και p zs. Για τα τµήµατα που δεν ϐρίσκονται στο µονοπάτι της ερώτησης ϑα είναι DES hlda (q, s) = 0. Κάθε τµήµα κειµένου αντιστοιχίζεται σε ένα µονοπάτι c της δοµής, όπου κάθε κόµβος z s = l συσχετίζεται µε µια κατανοµή λέξεων. Το σχήµα 3.4 (b) αποτελεί µεγέθυνση ενός µονοπατιού του (a) που αναπαριστά την κατανοµή λέξεων σε ένα τµήµα κειµένου s και µια ερώτηση q που ορίζονται σε ένα υποσύνολο του λεξιλογίου V, v l. Οι διακριτές κατανοµές στα αριστερά αποτελούν συνδυασµούς ϑεµάτων για κάθε τµήµα p zq και p zs. 38

50 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 Σχήµα 3.4: ένδρο τριών επιπέδων µε χρήση hlda Discriminative model Οι µετρικές των προηγούµενων ενοτήτων ενσωµατώνονται σε ένα µοντέλο QA συστήµατος (µοντέλο ϐάσης), που παρουσιάστηκε από τους [Celikyilmaz et. al, 2009], και αντιµετωπίζει τη διαδικασία Question Answering µε τεχνικές textual entailment, µε χρήση ενός επιβλεπόµενου ταξινοµητή SVM για την πρόβλεψη της ύπαρξης απαντήσεων σε τµήµατα κει- µένου. Για τον χαρακτηρισµό της οµοιότητας ανάµεσα σε Ϲεύγη ερωτήσεων και α- παντήσεων χρησιµοποιούν : (i) χαρακτηριστικά που αναπαριστώνται από οµοιότητες ανάµεσα σε σηµασιολογικά µέρη του λόγου όπως υποκείµενο, ϱήµα, αντικείµενο, ή named entity types και (ii) λεξιλογικά χαρακτηριστικά που προκύπτουν από επικαλύψεις λέξεων µε n-grams ή συσχετίσεις µεταξύ τµη- µάτων κειµένου (cause and entailment relations). Για µια δεδοµένη ερώτηση q, τα υποψήφια τµήµατα s κατατάσσονται µε ϐάση τα σκορ που προκύπτουν από τον ταξινοµητή, T E(q, s). Στο έργο που αναλύεται σε αυτή την υποενότητα, το παραπάνω σύστηµα των [Celikyilmaz et. al, 2009] επεκτείνεται µε τη χρήση του ϐαθµού οµοιότητας, DES LDA (q, s) και DES hlda (q, s), µε την υλοποίηση των παρακάτω µοντέλων : Model M-1: Degree of Similarity as Rank Scores: Σε αυτό το µοντέλο, το σύστηµα QA κάνει αποκλειστική χρήση του ϐαθµού οµοιότητας για την κατάταξη των τµηµάτων κειµένου. Ετσι, δηµιουργούνται δύο µοντέλα, Μ-1.1 και Μ-1.2 για την περίπτωση του LDA και του hlda, αντίστοιχα. εδοµένης της ερώτησης q, το µοντέλο αυτό απαιτεί την εκπαίδευση των µοντέλων LDA, hlda. Model M-2: Interpolation Between Classifier-Based Entailment Scores and Generative Model Scores: Σε αυτό το µοντέλο, ο υποκείµενος µηχανισµός του QA συστήµατος είναι το discriminative µοντέλο που παρουσιάστηκε νωρίτερα. Τα σκορ που προκύτπουν από την πι- 39

51 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 ϑανοτική ανάλυση συνδυάζονται γραµµικά µε αυτά του υποκείµενου µοντέλου, καταλήγοντας στα µοντέλα Μ-2.1: και Μ-2.2: score(s q) = α T E(q, s) + β DES LDA (q, s) (3.27) score(s q) = α T E(q, s) + β DES hlda (q, s) (3.28) όπου 0 α 1, 0 β 1 και α + β = 1. Οι ϐέλτιστες τιµές για τα α, β υπολογίζονται από πειράµατα στα δεδοµένα εκπαίδευσης. Model M-3: Degree of Similarity as Entailment Features: Τέλος, ένας διαφορετικός τρόπος ενασωµάτωσης των πληροφοριών που προκύπτουν από την πιθανοτική ανάλυση στο discriminative µοντέλο είναι η εισαγωγή των µετρικών οµοιοτήτων στο σύνολο µεταβλητών του ταξινο- µητή. Το µοντέλο Μ-3.1 κατασκευάζεται µε χρήση των sim LDA 1, sim LDA 2 και DES LDA (q, s) ως επιπρόσθετων χαρακτηριστικών στον ταξινοµητή SVM. Παρόµοια, το µοντέλο Μ-3.2 κάνει χρήση των αντίστοιχων µετρικών του µοντέλου hlda. Στο σχήµα 3.5 απεικονίζονται τα αποτελέσµατα από την εφαρµογή των τριών µοντέλων σε δεδοµένα από το TREC Παρουσιάζονται οι µετρικές ακρίβειας Mean Reciprocal Rank (MRR), Top1 και Top5 [Voorhers, 2004]. Τα αποτελέσµατα µε αποκλειστική χρήση του discriminative µοντέλου [Celikyilmaz et. al, 2009] είναι MRR=67.6%, Top1=58%, Top5=82.2%. Παρατηρούµε ότι τα µοντέλα Μ-3.1 και Μ-3.2 έχουν την καλύτερη απόδοση σε σχέση µε τα υπόλοιπα, ενώ τα µοντέλα Μ-2.1 και Μ-2.2 παρουσιάζουν οριακά καλύτερη απόδοση σε σχέση µε το µοντέλο ϐάσης. Τέλος, η χρήση των αποτελεσµάτων της πιθανοτικής ανάλυσης σαν αποκλειστικό παράγοντα για την κατάταξη των τµηµάτων κειµένου, έχει µειωµένη απόδοση συγκριτικά µε τα υπόλοιπα. Σχήµα 3.5: Αποτελέσµατα από την εφαρµογή των µοντέλων σε δεδοµένα του διαγωνισµού TREC 2004 µε χρήση διαφορετικού window size 40

52 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Παραγωγή σκορ κατάταξης ϐασισµένων σε ϑεµατικά µοντέλα σε εξατοµικευµένα συστήµατα ερωταπαντήσεων Οι [Chinaei et. al, 2014] προτείνουν την εφαρµογή ενός πιθανοτικού µοντέλου, όπως ο LDA για τον υπολογισµό της οµοιότητας µεταξύ της ερώτησης και των πιθανών απαντήσεων, που επιστρέφονται από τη µηχανή αναζήτησης ενός Question Answering συστήµατος. Το προτεινόµενο σύστηµα υλοποιείται µε ϐάση το Ephyra, ένα QA σύστη- µα το οποίο υλοποιεί τεχνικές για την ανάλυση της ερώτησης και την εξαγωγής της απάντησης, όπως pattern learning and matching, answer type analysis, και redundancy elimination through filters [Schlaefer et. al, 2006]. Για πα- ϱάδειγµα, το προτεινόµενο σύστηµα των [Chinaei et. al, 2014] περιλαµβάνει έναν logger για τη συλλογή των εγγράφων που διάβασε ο χρήστης και ένα µοντέλο πιθανοτικής ανάλυσης για την εύρεση των ϑεµάτων ενδιαφέροντος του χρήστη. Πιο συγκεκριµένα, προτείνεται µια διαδικασία ανακατάταξης των πιθανών απαντήσεων που επιστρέφονται από τη µηχανή αναζήτησης, µε ϐάση µια νέα µετρική οµοιότητας. Αρχικά, λαµβάνει χώρα µια διαδικασία µάθησης στο σύνολο των ϑεµάτων που ενδιαφέρουν τον χρήστη µε χρήση του αλγορίθµου LDA σε κατάλληλα τµήµατα κειµένου. Στη συνέχεια, υπολογίζεται η οµοιότητα µεταξύ των ερωτήσεων του χρήστη και των υποψήφιων απαντήσεων ως η πιθανότητα της απάντησης, δεδοµένης της ερώτησης : score α = p(α q) (3.29) όπου q είναι η ερώτηση και α η υποψήφια απάντηση που επιστρέφεται από τη µηχανή αναζήτησης. Με ϐάση τον κανόνα του Bayes, η εξίσωση 3.29 γίνεται : score α = p(α, q) p(q) (3.30) Ο παρονοµαστής µπορεί να παραληφθεί, διότι δεν εξαρτάται από την υποψήφια απάντηση. Ετσι, το τελικό σκορ µπορεί να προσεγγισθεί από τη σχέση : score α p(α, q) (3.31) Για τον υπολογισµό της σχέσης 3.31, κάνουµε χρήση των ϑεµατικών ενδιαφερόντων του χρήστη, εισάγοντάς τα στην εκτίµηση του σκορ, αναδιατυπώνοντας την τελευταία σχέση : p(a, q) = z = z = z p(a, q, z) p(a, q z)p(z) p(a z)p(q z)p(z) (3.32) 41

53 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 Στην τελευταία σχέση, υποθέτουµε την ανεξαρτησία µεταξύ ερώτησης και α- πάντησης. Οπως ϕαίνεται από την εξίσωση 3.32, υπολογίζονται 3 κατανοµές πιθανοτήτων από τα ϑέµατα που προκύπτουν από την πιθανοτική ανάλυση µε LDA. εδοµένου ενός ϑέµατος z, και µιας ερώτησης q, τότε η πιθανότητα p(q = (w 1,..., w q ) z) υπολογίζεται µε τη ϐοήθεια της bag of words hypothesis. Ετσι, προκύπτει ότι p(q = (w 1,..., w q ) z) = p(w 1 z)...p(w q ). Παρόµοια, προκύπτει η πιθανότητα p(α(= w 1,..., w α ) z). Σε αυτή την προσέγγιση, α- παντήσεις µεγαλύτερου µήκους ϑα καταλήγουν να έχουν χαµηλότερες τιµές πιθανότητας. Για αυτό, η εξίσωση 3.32 κανονικοποιείται υψώνοντάς την στη δύναµη 1/α. Κάθε πιθανότητα p(w i z) και p(z) υπολογίζονται από τα αποτελέσµατα που προκύπτουν από την πιθανοτική ανάλυση µε το µοντέλο LDA. Το µοντέλο αυτό προστίθεται στο σύνολο των µεθόδων QA (filters) που συµµετέχουν στην εξαγωγή και κατάταξη των απαντήσεων. Η ανάλυση του µοντέλου LDA δίνεται αναλυτικά στο δεύτερο κεφάλαιο, αλλά και πιο συνοπτικά στην ενότητα του παρόντος κεφαλαίου και για αυτό παραλείπεται. Στο σχήµα 3.6 ϕαίνεται το διάγραµµα ϱοής του προτεινόµενου συστήµατος. Το σύστηµα ϐασίζεται στην ανάγνωση εγγράφων από τον χρήστη, κατά τη διάρκεια εκπλήρωσης των διάφορων εργασιών του. Τα έγγραφα που διαβάζονται από τον χρήστη (π.χ. άρθρα ειδήσεων) αποθηκεύονται σε έναν logger και χρησιµοποιούνται σαν είσοδος στο στάδιο της πιθανοτικής ανάλυσης ϑεµάτων. Τα µοντέλα που προκύπτουν από αυτή τη διαδικασία χρησιµοποιούνται, στη συνέχεια, για την εκτίµηση της πιθανότητας µιας απάντησης, δεδοµένης µιας ερώτησης, κατά τη διαδικασία ενός QA session του χρήστη µε το σύστηµα. Σχήµα 3.6: ιάγραµµα ϱοής του συστήµατος των [Chinaei et. al, 2014] 42

54 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 3 Στο στάδιο των δοκιµών, συγκεντρώθηκαν 1872 ειδησεογραφικά άρθρα από ένα σύνολο χρηστών, µε ϐάση τα ϑέµατα των ενδιαφερόντων τους. Στη συνέχεια συγκεντρώθηκαν 100 ερωτήσεις factoid τύπου, των οποίων οι απαντήσεις ϐρίσκονταν στο σύνολο των εγγράφων. Η αξιολόγηση έγινε µετατρέποντας τις απαντήσεις σε κανονικές εκφράσεις και συγκρίνοντάς τες µε τις απαντήσεις που επέστρεψε το σύστηµα για κάθε ερώτηση. Για κάθε ερώτηση, συγκεντρώθηκαν τα τµήµατα κειµένου που επιστράφηκαν από τη µηχανή αναζήτησης Lucene. Η ερώτηση, σε συνδυασµό µε τα τµήµατα, ϑεωρούνται σαν ένα ενιαίο έγγραφο question document, το οποίο χρησιµοποιείται στο στάδιο πιθανοτικής ανάλυσης µε τον LDA. Η πιθανότητα της κάθε ϑεµατικής κατανοµής (prior probability), p(z), για κάθε ερώτηση, προκύπτει από την εκπαίδευση του µοντέλου µε το question document. Πιο συγκεκριµένα, ο LDA χρησιµοποιήθηκε για την εκπαίδευση σε 10, 20, 40, 60, 80 και 100 ϑέµατα, µε παραµέτρους α = 50 και β = 1. Η διαδικασία του scoring ξεκινά µε την επιλογή των δέκα καλύτερων α- ποτελεσµάτων που επιστρέφει η µηχανή αναζήτησης Lucene. Για κάθε αποτέλεσµα που περιέχει µια πιθανή απάντηση, υπολογίζεται το σκορ µέσω της εξίσωσης 3.32 και κανονικοποιείται στο σύνολο των έγκυρων αποτελεσµάτων. Το σκορ των υπολοίπων αποτελεσµάτων παίρνει την τιµή. Τέλος, το σύνολο των αποτελεσµάτων δίνεται σαν όρισµα στο στάδιο εφαρµογής των ϕίλτρων του συστήµατος Ephyra, µε σκοπό την ολοκλήρωση της εξαγωγής της απάντησης. Τα αποτελέσµατα των δοκιµών ϕαίνονται στο σχήµα 3.7, όπου γίνεται σύγκριση µεταξύ του αρχικού συστήµατος, που κάνει χρήση των default functions και του συστήµατος µε επιπρόσθετη χρήση πιθανοτικής ανάλυσης ϑεµάτων µε 10, 20, 40, 60, 80 και 100 ϑέµατα, αντίστοιχα. Υπολογίστηκαν οι µετρικές MRR, top1-accuracy, top5-accuracy και top10-accuracy. Από τα αποτελέσµατα συµπεραίνεται µια σαφής ϐελτίωση της απόδοσης του QA συστήµατος που χρησιµοποιεί πιθανοτική ανάλυση ϑεµάτων, σε σχέση µε το αρχικό. Η καλύτερη απόδοση επιτυγχάνεται για έναν αριθµό 20 ϑεµάτων, όπου η µετρική MRR παρουσιάζει ϐελτίωση κατά ένα ποσοστό 50%, ενώ η µετρική top1-accuracy παρουσιάζει ϐελτίωση κατά 48%. Σχήµα 3.7: Απόδοση του QA συστήµατος σε δεδοµένα ειδήσεων 43

55 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Ορισµός του προβλήµατος Οπως έγινε ϕανερό από την ανάλυση των συστηµάτων της προηγούµενης ε- νότητας, η χρήση του LDA στο στάδιο ανάκτησης πληροφορίας ενός QA συστήµατος αποσκοπεί ως επί το πλείστον στον υπολογισµό της σηµασιολογικής οµοιότητας ανάµεσα στο ερώτηµα και σε υποψήφια τµήµατα κειµένου, κάτι που εκφράζεται από ένα σκορ κατάταξης. Τµήµατα κειµένου µε υψηλότερο σκορ έχουν µεγαλύτερη πιθανότητα να περιέχουν την απάντηση στο ερώτηµα του χρήστη. Συχνά, η ανάλυση µε LDA χρησιµοποιείται για την ανακατάταξη των α- παντήσεων που επιστρέφονται από µια υφιστάµενη µηχανή αναζήτησης, και η οποία χρησιµοποιεί διαφορετικές µετρικές κατάταξης, όπως για παράδειγµα διανσυµατικές µετρικές. Η διαδικασία της ανακατάταξης λαµβάνει υπόψην τόσο την ϑεµατική κατανοµή του ερωτήµατος εισόδου, που αντιπροσωπεύει τα ϑεµατικά ενδιαφέροντα του χρήστη, όσο και τις ϑεµατικές κατανοµές των επιµέρους υποψήφιων απαντήσεων. Ωστόσο, τα συστήµατα αυτά δεν εκµεταλλεύονται µε τον καλύτερο δυνατό τρόπο τα χρήσιµα αποτελέσµατα που προκύπτουν από την ϑεµατική ανάλυση. Ο χρήστης συµµετέχει µόνο στην αρχική ϕάση της ανάλυσης, εισάγοντας ένα ερώτηµα. Παρόλα αυτά, το αρχικό ερώτηµα ενδέχεται να µην περιέχει την απαραίτητη ποσότητα πληροφορίας, µε αποτέλεσµα να µην αντικατοπτρίζει πλήρως τις πληροφοριακές ανάγκες του χρήστη. Για τους παραπάνω λόγους, προτείνεται ένας διαδραστικός µηχανισµός, ο οποίος σε κάθε στάδιο της ανάλυσης επιχειρεί να καθορίσει µε µεγαλύτερη ακρίβεια το ερώτηµα του χρήστη. Ξεκινώντας από το αρχικό γενικό ερώτη- µα που τίθεται στη ϐάση της µηχανής αναζήτησης, το σύστηµα περιορίζει το αρχικό ερώτηµα όλο και περισσότερο, αλληλεπιδρώντας µε τον χρήστη, προσπαθώντας να καταλήξει σε συγκεκριµένα συµπεράσµατα. Συνολικά, προτείνεται ένα σύστηµα που κάνει χρήση του µοντέλου LDA για την εύρεση των ϑεµατικών κατανοµών µιας συλλογής εγγράφων, από την οποία ϑα αντλείται η απάντηση στο ερώτηµα του χρήστη. Τα ϑέµατα που προκύπτουν από την ανάλυση τροφοδοτούνται σε ένα στάδιο αλληλεπίδρασης, όπου το σύστηµα καλεί τον χρήστη να επιλέξει τα ϑέµατα των ενδιαφερόντων του. Το σύστηµα ανακατατάσσει τις υποψήφιες απαντήσεις µε ϐάση τις επιλογές του χρήστη, και επιστρέφει αυτές µε το υψηλότερο σκορ. Ακολουθώντας αυτή τη λογική, οι απαντήσεις αναµένεται να είναι περισσότερο ακριβείς σε σχέση µε τα ϑεµατικά ενδιαφέροντα του χρήστη, για δύο κύριους λόγους : Η πιθανοτική ϑεµατική ανάλυση προσφέρει µια πλουσιότερη ϱοή πλη- ϱοφορίας σε σχέση µε το εννοιολογικό περιεχόµενο των απαντήσεων Η αλληλεπίδραση χρήστη-συστήµατος συµβάλλει στον καλύτερο προσδιορισµό των πληροφοριακών αναγκών του χρήστη 44

56 4 Το προτεινόµενο σύστηµα Το κεφάλαιο ξεκινά µε µια πρώτη γνωριµία µε το προτεινόµενο σύστηµα, ενώ συνεχίζει µε µια σύντοµη παρουσίαση των τεχνολογιών που χρησιµοποιούνται στα πλαίσια της υλοποίησης του µηχανισµού. Το κεφάλαιο ολοκληρώνεται µε την αναλυτική περιγραφή της δοµής και του τρόπου λειτουργίας του συστήµατος. Σχήµα 4.1: Αφαιρετικό διάγραµµα ϱοής του προτεινόµενου συστήµατος 45

57 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Παρουσίαση του συστήµατος Στο σχήµα 4.1 απεικονίζεται ένα γενικό διάγραµµα ϱοής του προτεινόµενου µηχανισµού, ο οποίος υλοποιείται ως διαδικτυακή εφαρµογή. Ο χρήστης εισάγει ερωτήµατα, µέσω του ϕυλλοµετρητή του, στη γραφική διεπαφή του συστήµατος, και µετά από µια διαδικασία αλληλεπίδρασης και ανάλυσης, το σύστηµα παρουσιάζει στον χρήστη τις τελικές απαντήσεις, σε µορφή παραγράφων από διαδικτυακά έγγραφα. Το κοµµάτι του µηχανισµού που είναι ορατό στον χρήστη συνηθίζεται να αναφέρεται ως front-end, διότι προσφέρει µια διεπαφή η οποία προηγείται της κύριας λογικής του συστήµατος. Το front-end τµήµα του µηχανισµού τρέχει τοπικά στον ϕυλλοµετρητή του χρήστη, και επικοινωνεί µέσω αιτηµάτων HTTP µε το υπόλοιπο κοµµάτι του µηχανισµού. Το δεύτερο τµήµα, το οποίο περιλαµβάνει την κυρίως λογική και είναι ε- πιφορτισµένο µε τη διαχείριση των υπολογισµών και την διασφάλιση της σύνδεσης όλων των υπολοίπων τµηµάτων, από τη µια άκρη στην άλλη, ονοµάζεται back-end µηχανισµός, και αποτελεί ουσιαστικά τον εγκέφαλο ολόκληρου του µηχανισµού. Σχήµα 4.2: Αναλυτικό διάγραµµα ϱοής του προτεινόµενου συστήµατος Σε πρώτο στάδιο, κρίνεται σκόπιµο να δοθεί µια συνολική περιγραφή του back-end µηχανισµού και του τρόπου µε τον οποίο λειτουργεί το σύστηµα. Οπως ϕαίνεται στο σχήµα 4.2, η διαδικασία που ακολουθείται περιγράφεται αναλυτικά από τα παρακάτω ϐήµατα : 46

58 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 1. Ο χρήστης αρχικά ϑέτει ένα ερώτηµα, q, στο σύστηµα, για παράδειγµα µια ϕράση, πρόταση ή σύνολο προτάσεων, µέσω της γραφικής διεπαφής. 2. Το σύστηµα, µε ϐάση το ερώτηµα, q, του χρήστη, ανακτά έναν αριθµό D = 50 εγγράφων, από τον εξυπηρετητή Elasticsearch, µε αναζήτηση που ϐασίζεται σε διανυσµατικές µετρικές οµοιότητας µεταξύ του ερωτήµατος, q και του συνόλου των αποθηκευµένων εγγράφων, N. 3. Το σύστηµα κάνει ανάλυση του συνόλου των D εγγράφων µε χρήση του µοντέλο LDA, και προκύπτει µια συλλογή από K d ϑεµατα, τα οποία χαρακτηρίζουν τα έγγραφα της συλλογής. Τα K d ϑέµατα, µε τη σειρά τους, αναπαριστώνται ως κατανοµές λέξεων µε τις πιθανότητές τους. 4. Το σύστηµα, λαµβάνοντας υπόψην το αρχικό ερώτηµα, q, επιστρέφει στον χρήστη ένα υποσύνολο k d K d των ϑεµάτων, που είναι πιο σχετικά µε το ερώτηµα. Τα k d ϑέµατα, στη σελίδα της εφαρµογής, µετατρέπονται σε γραφικά µε τη ϐιβλιοθήκη jqcloud 1 και µορφή που ϕαίνεται στο σχήµα Ο χρήστης, σε ένα πρώτο στάδιο αλληλεπίδρασης, επιλέγει ένα ή πε- ϱισσότερα από τα k d ϑέµατα, τα οποία ϑεωρεί ότι χαρακτηρίζουν την πληροφορία που ψάχνει. 6. Με ϐάση τα ϑέµατα που επέλεξε ο χρήστης, γίνεται ταξινόµηση της συλλογής εγγράφων και τελικά επιλέγονται τα d = 10 πρώτα έγγραφα, τα οποία χρησιµοποιούνται στην ανάλυση που λαµβάνει χώρα στα πλαίσια του δεύτερου σταδίου. 7. Από τα d = 10 έγγραφα που επιλέχθηκαν, εξάγονται οι παράγραφοι, P στο σύνολο, και γίνεται ανάλυση LDA σε επίπεδο παραγράφων. Οπως και πριν, προκύπτει ένας αριθµός K p ϑεµάτων, τα οποία πλέον σχετίζονται µε το περιεχόµενο των παραγράφων. 8. Τα K p ϑέµατα συγκρίνονται µε το υποσύνολο των k d ϑεµάτων που ε- πέλεξε ο χρήστης στο πρώτο στάδιο αλληλεπίδρασης, και επιστρέφεται ένα υποσύνολο k p, που είναι περισσότερο σχετικό µε αυτά. 9. Ο χρήστης, στο δεύτερο στάδιο αλληλεπίδρασης, επιλέγει ένα ή περισσότερα από τα k p ϑέµατα, τα οποία υπενθυµίζεται ότι έχουν τη µορφή του σχήµατος Το σύστηµα, µε ϐάση την επιλογή του υποσυνόλου των k p ϑεµάτων, ταξινοµεί τις παραγράφους και επιστρέφει στον χρήστη ένα σύνολο p P παραγράφων σαν τελική απάντηση

59 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Σχήµα 4.3: Γραφική µορφή των ϑεµάτων, όπως παρουσιάζονται στον χρήστη Πρέπει να τονισθεί, ότι, παρόλο που σε αυτό το σηµείο αποφεύγεται η ϱητή αναφορά, όλες σχεδόν οι διαδικασίες υπολογισµών του συστήµατος εξαρτώνται από το Elasticsearch Αυτό ϕαίνεται και από το σχήµα 4.2, όπου για χάρην οικονοµίας χώρου και ευκρίνειας του σχήµατος, έχει χρησιµοποιηθεί το logo πάνω από σχεδόν κάθε διαδικασία, µε σκοπό να καταδειχθεί αυτή η σύνδεση. Ακολουθώντας την παραπάνω διαδικασία, µε δύο στάδια αλληλεπίδρασης, η ποιότητα της αναζήτησης του χρήστη ϐελτιώνεται αισθητά, καθώς, πλέον, ο- ϱίζει ο ίδιος µε µεγαλύτερη ακρίβεια το περιεχόµενο της απάντησης που τελικά του επιστρέφεται. Η ϑεώρηση αυτή επιβεβαιώνεται και κατά τη διαδικασία της αξιολόγησης και των πειραµάτων, που παρουσιάζονται στο επόµενο κεφάλαιο. Φυσικά, η παραπάνω διαδικασία αποτελεί µια σύντοµη παρουσίαση ε- νός αναµφίβολα πολύπλοκου µηχανισµού. Ωστόσο, πριν περάσουµε στην α- παιτούµενη εµβάθυνση στα επιµέρους υποσυστήµατα και τις µεθόδους που χρησιµοποιούνται στη διεκπεραίωση των υπολογισµών, κρίνεται σκόπιµη, α- πό άποψη ϱοής, η αναφορά στις τεχνολογίες που χρησιµοποιήθηκαν για να συνδέσουν τον εγκέφαλο του µηχανισµού, όπως εξηγήθηκε, µε τα υπόλοιπα συστήµατα και τον έξω κόσµο. 4.2 Παρουσίαση των τεχνολογιών Στο σχήµα 4.1, το κυρίως τµήµα του µηχανισµού αναπαρίσταται από ένα σύννεφο. Αυτό γίνεται επί σκοπίµου, ώστε να δοθεί µια αρχική, αφαιρετική οπτική για τον συνολικό µηχανισµό, από άκρη σε άκρη. Υπό το ίδιο πρίσµα εξετάζεται το σύστηµα και στη συγκεκριµένη ενότητα, ενώ αντίθετα δίνεται ϐαρύτητα στους υπόλοιπους µηχανισµούς, και τις τεχνολογίες, µε τις οποίες επιτυγχάνεται η επικοινωνία του συστήµατος µε αυτούς. 48

60 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Elasticsearch Το Elasticsearch 2 δηµιουργήθηκε από τον Shay Banon µε την πρώτη έκδοση να είναι διαθέσιµη το Φεβρουάριο του Πρόκειται για µια εξαιρετικά scalable µηχανή για αναζήτηση πλήρους κειµένου (full-text search) και πα- ϱοχή στατιστικών (analytics). Το Elasticsearch στηρίζεται στη ϐιβλιοθήκη αναζήτησης Apache Lucene και επιτρέπει την αποθήκευση, αναζήτηση και ανάλυση µεγάλου όγκου δεδοµένων. Είναι µια πλατφόρµα αναζήτησης µε επιδόσεις σχεδόν σε πραγµατικό χρόνο (near realtime) και αυτό ερµηνεύεται ως µια µικρή καθυστέρηση, συνήθως ενός δευτερολέπτου από την ώρα εισαγωγής των δεδοµένων για απο- ϑήκευση µέχρι να γίνουν διαθέσιµα για αναζήτηση [Gormley, Tong, 2015]. Το Elasticsearch έχει σχεδιαστεί για χρήση σε κατανεµηµένα περιβάλλοντα. Μέσα από ένα σύνολο από APIs και DSL (Domain Specific Language) ερωτήµατα, καθώς και µε clients για τις πιο γνωστές γλώσσες προγραµµατισµού, το Elasticsearch προσφέρει απεριόριστες δυνατότητες στο πεδίο της τεχνολογίας αναζήτησης. Ολη αυτή η λειτουργικότητα παρέχεται µέσα από έναν µοναδικό εξυπηρετητή (server) µε τον οποίο µπορεί να επικοινωνεί η εκάστοτε εφαρµογή µέσω µιας RESTful διεπαφής. Το Elasticsearch χρησιµοποιεί το πρότυπο JSON (JavaScript Object Notation) ως serialization format για τα έγγραφα. Το JSON είναι µια διαδεδο- µένη µορφή για διαµοιρασµό πληροφορίας στο διαδίκτυο µεταξύ των servers και εφαρµογών διαδικτύου. Υποστηρίζεται από την πλειονότητα των γλωσσών προγραµµατισµού και έχει επικρατήσει, τα τελευταία χρόνια, έναντι άλλων προτύπων, όπως το XML. Στο σχήµα 4.4 ϕαίνεται ένα έγγραφο σε µορφή JSON, το οποίο αναπαριστά ένα αντικείµενο χρήστη (user object). Σχήµα 4.4: Αντικείµενο χρήστη σε µορφή JSON document, πηγή : [Gormley, Tong, 2015] Τα δεδοµένα στο Elasticsearch µπορούν, γενικά, να χωριστούν σε δύο κατηγορίες, τις ακριβείς τιµές και το πλήρες κείµενο. Παραδείγµατα ακριβών τιµών είναι η ηµεροµηνία, ένα αναγνωριστικό χρήστη, ένα όνοµα χρήστη ή

61 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 ακόµη και µια διεύθυνση ηλεκτρονικού ταχυδροµείου. Η ακριβής τιµή "Foo" όµως δεν είναι η ίδια µε την ακριβή τιµή "foo" ούτε και η τιµή 2014 είναι η ίδια µε τη τιµή Στην περίπτωση των ερωτηµάτων, όσον αφορά τις ακριβείς τιµές, τα πράγ- µατα είναι πολύ απλά. Το µόνο που εξετάζεται είναι κατά πόσο µια τιµή αντιστοιχεί στο ερώτηµα ή όχι. Οσον αφορά το πλήρες κείµενο όµως, το Ϲήτηµα είναι πιο λεπτό. εν εξετάζεται κατά πόσο ένα κείµενο ταιριάζει µε ένα ερώτη- µα, αλλά πόσο σχετικό είναι ένα κείµενο µε το ερώτηµα. Επίσης, επιπρόσθετο Ϲητούµενο είναι η αναζήτηση να αντιλαµβάνεται και τις προθέσεις του χρήστη. Για να γίνει κατανοητό παραθέτονται µερικά παραδείγµατα. η αναζήτηση για "UK" ϑα πρέπει να επιστρέφει και κείµενα που περιέχουν το "United Kingdom". η αναζήτηση για "jump" ϑα πρέπει να ϑεωρεί σχετικά τα κείµενα που περιέχουν τις λέξεις "jumped", "jumps", "jumping". η αναζήτηση για "johnny walker" πρέπει να επιστρέφει έγγραφα που περιέχουν το όνοµα "Johnnie Walker". Προκειµένου το Elasticsearch να επιτύχει τέτοιου είδους ερωτήµατα, αρχικά αναλύει το κείµενο και στη συνέχεια χρησιµοποιεί τα αποτελέσµατα της ανάλυσης για να δηµιουργήσει ένα αντεστραµµένο ευρετήριο (inverted index). Το αντεστραµµένο ευρετήριο είναι µια δοµή, ειδικά σχεδιασµένη για να επιτρέπει γρήγορες αναζητήσεις σε πλήρη κείµενα. Ενα παράδειγµα αναζήτησης, που χρησιµοποιεί το εργαλείο CURL για την αποστολή αιτηµάτων µέσω της κονσόλας, παρουσιάζεται στο σχήµα 4.5. Σχήµα 4.5: Παράδειγµα αναζήτησης µέσω του Search API του Elasticsearch, πηγή : [Gormley, Tong, 2015] Το ερώτηµα κάνει αναζήτηση για υπαλλήλους µε επίθετο smith, ενώ χρησιµοποιεί ένα ϕίλτρο για το πεδίο που αναπαριστά την ηλικία, Ϲητώντας αποτε- 50

62 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 λέσµατα που έχουν τιµή µεγαλύτερη από 30. Τα αποτελέσµατα που επιστρέφει το Elasticsearch ϕαίνονται στο σχήµα 4.6. Επισηµαίνεται ότι η αναζήτηση σε πλήρες κείµενο, όπως είναι αυτό του πεδίου last _name, επιστρέφει ένα σκορ για κάθε έγγραφο των αποτελεσµάτων. Η τιµή αυτή είναι µια µετρική οµοιότητας ανάµεσα στο ερώτηµα και το έγγραφο, και υπολογίζεται, by-default, από την practical scoring function της ϐιβλιοθήκης Lucene. Σχήµα 4.6: Αποτελέσµατα που επιστρέφονται από την αναζήτηση που απεικονίζεται στο σχήµα 4.5, πηγή : [Gormley, Tong, 2015] Ανάλογα µε τις ανάγκες της αναζήτησης και της ανάλυσης, το Elasticsearch προσφέρει τη δυνατότητα χρήσης έτοιµων εργαλείων, όπως stemmers, tokenizers, filters αλλά και δηµιουργίας νέων αναλυτών µε χρήση επιµέρους εργαλείων και τροποποίηση των παραµέτρων τους παραµέτρων. Στα πλαίσια της υλοποίησης, το Elasticsearch χρησιµοποιείται σαν απο- ϑήκη εγγράφων, µηχανή αναζήτησης, αλλά και εργαλείο υπολογισµού στατιστικών µετρικών που σχετίζονται µε τις ϑεµατικές κατανοµές που προκύπτουν από την ανάλυση µε τον LDA. Για το λόγο αυτό, σχεδόν κάθε ανεξάρτητη διαδικασία του µηχανισµού επικοινωνεί µε τον έναν ή τον άλλο τρόπο µε το Elasticsearch, µε σκοπό είτε την ανάκτηση εγγράφων είτε τον υπολογισµό µετρικών. Ακολουθεί η παρουσίαση των ϐασικότερων δοµών που χαρακτηρίζουν το Elasticsearch. Cluster Αποτελεί ένα σύνολο από κόµβους (servers) όπου αποθηκεύονται τα δεδοµένα και παρέχει indexing και αναζήτηση στο σύνολο των κόµβων αυτών. Σε ένα σύστηµα µπορούν να συνυπάρχουν πολλά ανεξάρτητα clusters. 51

63 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Node Αποτελεί ένα ϕυσικό µηχάνηµα (server) και είναι µέρος του cluster συνεισφέροντας στην αποθήκευση, indexing και αναζήτηση δεδοµένων. Σε ένα cluster µπορούν να υπάρχουν απεριόριστοι κόµβοι. Index Αποτελεί µια συλλογή εγγράφων που έχουν παρόµοια χαρακτηριστικά. Μπο- ϱούν να οριστούν απεριόριστα indexes σε ένα cluster. Type Για κάθε index, µπορεί να οριστούν ένα ή περισσότερα types. Το type αποτελεί ένα λογικό διαχωρισµό του index, όπου η σηµασιολογία εξαρτάται αποκλειστικά από το χρήστη που το ορίζει. Γενικά ορίζεται για ένα σύνολο δεδοµένων, τα οποία έχουν κοινά πεδία. Για παράδειγµα, εάν χρησιµοποιηθεί ένα index για την αποθήκευση δεδοµένων ενός blog, ϑα ήταν σωστό να οριστεί ένα type για τα δεδοµένα του χρήστη, ένα type για τα δεδοµένα του blog και ένα τρίτο για τα δεδοµένα που αφορούν τα σχόλια στο blog. Document Με τον όρο document ή έγγραφο ορίζεται η ϐασική µονάδα πληροφορίας που µπορεί να τοποθετηθεί σε index και αποθηκεύεται σε µορφή JSON. εν υπάρχει περιορισµός στον αριθµό εγγράφων που µπορούν να αποθηκευθούν σε ένα index, πρέπει όµως το κάθε ένα να συσχετίζεται µε κάποιο type του index REST Το µοντέλο REST (Representational State Transfer) είναι µια αρχιτεκτονική λογισµικού για κατανεµηµένα συστήµατα όπως ο παγκόσµιος ιστός. Η αρχιτεκτονική αυτή προτάθηκε για πρώτη ϕορά το 2000 από τον Roy Fielding στη διδακτορική διατριβή του [Fielding, 2000]. Το µοντέλο REST έχει υιοθετηθεί τα τελευταία χρόνια από την κοινότητα των web developers για την κατασκευή web services. Λόγω της απλότητας του, έχει εκτοπίσει σε µεγάλο ϐαθµό τα παλαιότερα χρησιµοποιούµενα µοντέλα SOAP και WSDL. Παρόλο που το µοντέλο REST δεν εξαρτάται από το υ- ποκείµενο πρωτόκολλο, έχει καθιερωθεί η χρήση του µε το πρωτόκολλο HTTP, κάτι που συχνά αναφέρεται και ως REST over HTTP. Στη συνέχεια επισηµαίνονται οι σηµαντικότερες αρχές που ακολουθεί η αρχιτεκτονική του µοντέλου REST [Burk, 2014]. 52

64 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Addressability Περιγράφει την απαίτηση των διευθυνσιοδοτούµενων δεδοµένων, δηλαδή το γεγονός ότι κάθε αντικείµενο ϑα πρέπει να είναι προσβάσιµο µέσα από ένα µοναδικό αναγνωριστικό. Αυτό επιτυγχάνεται µε χρήση των URIs (Uniform Resource Identifiers) τα οποία συνδέεουν τους πληροφοριακούς πόρους µιας διαδικτυακής εφαρµογής µε ένα URI της µορφής : scheme://host:port/path?querystring#fragment Στην παραπάνω διεύθυνση, scheme είναι το πρωτόκολλο που χρησιµοποιείται για την επικοινωνία, συνήθως είναι http ή https. Ο host είναι ένα όνοµα DNS ή µια IP διεύθυνση, και ακολουθείται από την ϑύρα (port) µέσω της οποίας γίνεται η επικοινωνία. Στη συνέχεια υπάρχει το path, δηλαδή η διαδροµή από τον κεντρικό ϕάκελο έως την τοποθεσία που ϐρίσκεται η Ϲητούµενη πληροφορία, ενώ µετά τον χαρακτήρα? ακολουθούν διάφορες µορφές παραµέτρων, οι οποίες χωρίζονται µε τον χαρακτήρα &. Τέλος, το τµήµα fragment που ακολουθεί τον χαρακτήρα # συνήθως χρησιµοποιείται για να καθορίσει το ακριβές σηµείο του εγγράφου αναφοράς του ερωτήµατος. The Uniform, Constrained Interface Βασίζεται στην ιδέα της χρήσης του πεπερασµένου συνόλου των µεθόδων που προσφέρει το εκάστοτε πρωτόκολλο (συνήθως HTTP) µε τον απλούστερο δυνατό τρόπο, και για τη λειτουργία που αυτές έχουν ορισθεί. Κάθε µέθοδος έχει το σκοπό και τη σηµασία της : GET Είναι µέθοδος read-only και χρησιµοποιείται για την ανάκτηση πλη- ϱοφοριών από τον server. Χαρακτηρίζεται ως λειτουργία idempotent και safe. Αυτό σηµαίνει ότι όσες ϕορές και να επαναληφθεί η εντολή για τον ίδιο πλη- ϱοφοριακό πόρο, το αποτέλεσµα είναι πάντα το ίδιο (idempotency), ενώ πα- ϱάλληλα η εντολή δεν τροποποιεί το περιεχόµενο του πόρου (safety). PUT Η µέθοδος PUT αιτείται στον server να αποθηκεύσει την πληροφορία που αποστέλλεται στο κυρίως σώµα (body message) του αιτήµατος, και χαρακτηρίζεται επίσης ως idempotent λειτουργία, διότι όσες ϕορές και να επαναληφθεί, το αποτέλεσµα ϑα είναι το ίδιο, δηλαδή η αποθήκευση συγκεκριµένης πληροφορίας στον server. DELETE Η µέθοδος DELETE χρησιµοποιείται για τη διαγραφή πόρων και χαρακτηρίζεται επίσης ως idempotent. 53

65 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 POST Η µέθοδος POST χρησιµοποιείται για τη δηµιουργία νέας πληροφο- ϱίας στον server και είναι η µοναδική non-idempotent και non-safe λειτουργία του πρωτοκόλλου HTTP. Κι αυτό γιατί κάθε εντολή POST έχει τη δυνατότητα να µεταβάλλει τον πληροφοριακό πόρο στον οποίο απευθύενται µε οποιονδήποτε τρόπο. HEAD Η µέθοδος αυτή είναι πανοµοιότυπη µε την µέθοδο GET, εκτός στο ότι επιστρέφει µόνο τον κωδικό απόκρισης και τις επικεφαλίδες, αν υπάρχουν. OPTIONS Η µέθοδος OPTIONS χρησιµοποιείται για την ανάκτηση πληρο- ϕοριών σχετικών µε τις επιλογές επικοινωνίας, µε τις οποίες σχετίζεται ο πλη- ϱοφοριακός πόρος. Η συγκεκριµένη αρχιτεκτονική αρχή είναι πολύ σηµαντική, διότι προσφέρει αρκετά πλεονεκτήµατα. Επιγραµµατικά αναφέρεται η ευκολία χρήσης ενός µικρού αριθµού µεθόδων για την επικοινωνία µε οποιασδήποτε µορφής πληροφοριακούς πόρους και υπηρεσίες, η ευκολία στη χρήση των µεθόδων µέσω clients σε ένα µεγάλο σύνολο γλωσσών προγραµµατισµού, και η προβλεψιµότητα και η δυνατότητα επέκτασης ενός συνόλου υφιστάµενων υπηρεσιών. Representation Oriented Η τρίτη αρχή του µοντέλου REST έγκειται στην µορφή αναπαράστασης των πληροφοριακών πόρων, που ανταλλάσσονται µεταξύ πελάτη και εξυπηρετητή. Η αναπαράσταση µπορεί να είναι µία εκ των XML, JSON, YAML, αλλά και οποιαδήποτε άλλη αναπαράσταση δεδοµένων συµφωνηθεί. Στα πλαίσια της υλοποίησης, χρησιµοποιείται η αναπαράσταση JSON, που είναι συµβατή µε όλες τις υπόλοιπες τεχνολογίες (Elasticsearch, AJAX). Communicate Statelessly Η τέταρτη αρχιτεκτονική αρχή έχει να κάνει µε την παντελή έλλειψη πληρο- ϕοριών από προηγούµενη επικοινωνία ενός πελάτη και µιας υπηρεσίας. Με άλλα λόγια, ο εξυπηρετητής διαθέτει µόνο την πληροφορία κατάστασης για τους πληροφοριακούς πόρους που διαθέτει. Αυτό µειώνει την πολυπλοκότητα και τον όγκο των δεδοµένων από πλευράς εξυπηρετητή, και παράλληλα συµβάλλει στην εύκολη επέκταση των υφιστάµενων υπηρεσιών. HATEOAS Η τελευταία προκύπτει από τη ϕράση Hypermedia As The Engine of Application State. Η ιδέα των υπερσυνδέσµων έχει να κάνει µε την ενσωµάτωση συνδέσµων σε πληροφοριακούς πόρους, µε σκοπό την παροχή εύκολης προσβασιµότητας ανάµεσα σε πληροφοριακούς πόρους. Η λογική αυτή συµβάλλει 54

66 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 στην σωστή δόµηση πληροφοριακών πόρων, που αναφέρονται σε άλλους, και στην µείωση των απαιτούµενων αιτηµάτων από πλευράς client. Ενα χαρακτηριστικό παράδειγµα παρουσιάζεται στο σχήµα 4.7, όπου στην αναπαράσταση XML µιας διαδικτυακής παραγγελίας ενός χρήστη συµπεριλαµβάνεται ο σύνδεσµος που οδηγεί στον πόρο που αναπαριστά τις πληροφο- ϱίες του χρήστη, αλλά και τα προϊόντα που έχει επιλέξει στο καλάθι αγορών του. Σχήµα 4.7: Ενθυλάκωση υπερσυνδέσµων σε πληροφοριακούς πόρους µε ϐάση την αρχή HATEOAS, πηγή :[Burk, 2014] AngularJS AJAX AJAX (Asynchronous Javascript and XML) χαρακτηρίζεται η τεχνολογία που περιλαµβάνει ένα σύνολο τεχνικών και µεθόδων, στην πλευρά του ϕυλλοµετρητή ενός client, για την υλοποίηση ασύγχρονων διαδικτυακών εφαρµογών. Μια AJAX εφαρµογή µπορεί να αποστέλλει και να λαµβάνει δεδοµένα, προς και από τον server, µε ασύγχρονο τρόπο, χωρίς να επηρεάζεται η σελίδα που ϐλέπει ο χρήστης. Με άλλα λόγια, το περιεχόµενο της σελίδας ανανεώνεται δυναµικά, χωρίς αυτή να ϕορτώνεται εξ ολοκλήρου από την αρχή. Στα πλαίσια της υλοποίησης, ο µηχανισµός υλοποιείται σαν µια AJAX διαδικτυακή εφαρµογή, η οποία κάνει κλήσεις HTTP στον back-end µηχανισµό µέσω του RESTful API που διαθέτει. Αυτό επιτυγχάνεται µε τη χρήση του AngularJS framework, το οποίο περιλαµβάνει ϐιβλιοθήκες, γραµµένες σε Javascript, και οι οποίες απλοποιούν τη σχεδίαση και την οργάνωση της δοµής της εφαρµογής, από πλευράς front-end. Το AngularJS 3 είναι ένα framework που δηµιουργήθηκε από την Google το 2009 και που σκοπό έχει την εφαρµογή AJAX τεχνικών για την κατασκευή Single Page Applications. Κάνει χρήση του µοντέλου αρχιτεκτονικής MVC (Model-View-Controller). Το µοντέλο MVC, γνωστό και ως MVVM (Model-View-ViewModel), εξελίχηκε σαν ένας τρόπος διαχωρισµού των τµηµάτων εκείνων, που είναι υπεύθυνα για τον πυρήνα των υπολογισµών σε µια εφαρµογή, από τα τµήµατα που ευ- ϑύνονται για τη γραφική απεικόνιση των αντικειµένων στη σελίδα [Seshadry, Green, 2014]. Πιο συγκεκριµένα, το µοντέλο MVC διαχωρίζει µια διαδυκτιακή εφαρµογή σε τρία µέρη :

67 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 model - είναι η κινητήρια δύναµη της εφαρµογής, και υποδηλώνει µια αναπαράσταση των δεδοµένων που διαχειρίζεται η εφαρµογή. view - είναι το γραφικό περιβάλλον, ή αλλιώς γραφική διεπαφή που ϐλέπει και αλληλεπιδρά ο χρήστης. Είναι δυναµικό και παράγεται κάθε ϕορά ϐασιζόµενο στα δεδοµένα του υποκείµενου µοντέλου. controller - είναι το επίπεδο αναπαράστασης της λογικής του συστήµατος, το οποίο εκτελεί τις λειτουργίες, που τροποποιούν το µοντέλο δεδο- µένων και το συνδέουν µε το γραφικό περιβάλλον. Η δοµή και η λειτουργία του µοντέλου MVC παρουσιάζεται στο σχήµα 4.8. Ο χρήστης αλληλεπιδρά µε το γραφικό περιβάλλον της διεπαφής, και έµµεσα καλεί µεθόδους του controller, ο οποίος µε τη σειρά του τροποποποιεί το µοντέλο και ανανεώνει τα περιεχόµενα του view σε σχέση µε τις αλλαγές. Οι διακεκοµµένες γραµµές δείχνουν έµµεση συσχέτιση, για παράδειγµα το τµήµα view σχετίζεται έµµεσα µε το model, µε την έννοια ότι κάθε αλλαγή στο ένα, αυτόµατα τροποποιεί ανάλογα το άλλο. Πρόκειται για µια χαρακτη- ϱιστική ιδιότητα που προσφέρει το AngularJS και ονοµάζεται two-way data binding. Σχήµα 4.8: Το µοντέλο MVC Το µοντέλο MVC εφαρµόζεται και συνολικά στο προτεινόµενο σύστηµα, α- πό άκρη σε άκρη, µε την έννοια ότι υπάρχει ένα τµήµα view που είναι το frontend, ένας µηχανισµός που παίζει το ϱόλο του controller και περιλαµβάνει την αλγοριθµική λογική, και ένα µοντέλο δεδοµένων, το οποίο αντιπροσωπεύεται από τη δοµή των εγγράφων στο Elasticsearch. 56

68 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Τα πλεονεκτήµατα του AngularJs framework, όπως παρουσιάζονται στο [Seshadry, Green, 2014], συνοψίζονται παρακάτω : Το AngularJS παρέχει έτοιµες ϐιβλιοθήκες και µεθόδους, οι οποίες ενσωµατώνουν πολύπλοκες λειτουργίες, τις οποίες, σε διαφορετική πε- ϱίπτωση, ϑα έπρεπε να κατασκευάσει ο προγραµµατιστής. Μια εφαρµογή σε AngularJS χρειάζεται λιγότερες γραµµές κώδικα σε σχέση µε την αντίστοιχη υλοποίηση µε απλή javascript που κάνει χρήση άλλων ϐιβλιοθηκών. Ενα µεγάλο ποσοστό της λογικής ελέγχου, µπορεί πλέον να απεµπλακεί από τον υπόλοιπο κώδικα και να ενσωµατωθεί σε ανεξάρτητες, επαναχρησιµοποιήσιµες οντότητες κώδικα (reusable components). Το AngularJS frameworkδίνει τη δυνατότητα δηµιουργίας νέων αντικει- µένων HTML elements µε τη χρήση των directives. Ενα παράδειγµα χρήσης ϕαίνεται στο σχήµα 4.9. Με αυτό τον τρόπο δίνεται η δυνατότητα άµεσης κατανόησης της λειτουργικότητας µιας εφαρµογής, ϱίχνοντας µια απλή µατιά στον κώδικα HTML. Η χρήση του AngularJS δεν είναι δεσµευτική και µπορεί κάλιστα να συνυπάρξει µε άλλες ϐιβλιοθήκες και τεχνολογίες, όπως είναι η jquery, η CSS, το Bootstrap κ.ά. Σχήµα 4.9: ηµιουργία νέου HTML element µε χρήση directive, πηγή :[Seshadry, Green, 2014] 57

69 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο οµή του συστήµατος Το κυρίως τµήµα του προτεινόµενου µηχανισµού είναι γραµµένο στη γλώσσα Java και κάνει χρήση ενός πλήθους έτοιµων ϐιβλιοθηκών, από τις οποίες οι σηµαντικότερες ϑα παρουσιαστούν κατά µήκος της ενότητας. Οπως εξηγήθηκε στην ενότητα 4.1, το σύστηµα αλληλεπιδρά µε τον χρήστη και κάνει ϑεµατική ανάλυση σε επίπεδο εγγράφων, σε πρώτο στάδιο, και πα- ϱαγράφων, στη συνέχεια, ώστε τελικά να επιστρέψει τις παραγράφους που έχουν το υψηλότερο σκορ µετά τη διεκπεραίωση των υπολογισµών. Ο back-end µηχανισµός, που είναι υπεύθυνος για τις παραπάνω διαδικασίες, χωρίζεται σε δύο µέρη. Το πρώτο µέρος διεξάγεται offline, µε σκοπό την εύρεση ενός µεγάλου πλήθους εγγράφων, τα οποία αποθηκεύονται στο Elasticsearch, πριν ξεκινήσει να παρέχεται η υπηρεσία του συστήµατος στους χρήστες. Το δεύτερο µέρος είναι το τµήµα εκείνο που τρέχει online, λαµβάνει είσοδο από το front-end και τη µεταχειρίζεται αναλόγως. Πριν την αναλυτικότερη αναφορά στα επιµέρους υποσυστήµατα, κρίνεται σκόπιµη η παρουσίαση των µοντέλων δεδοµένων που χρησιµοποιούνται στον µηχανισµό Μοντέλα δεδοµένων Υπάρχουν τρία ϐασικά µοντέλα δεδοµένων, τα έγγραφα, οι παράγραφοι και τα ϑέµατα, που ορίζονται ως αυτόνοµες κλάσεις στη γλώσσα Java ως Document, Paragraph και Topic, αντίστοιχα Document Στο σχήµα 4.10 παρουσιάζεται η κλάση Document µε τα χαρακτηριστικά της. Σχήµα 4.10: Μοντέλο Document 58

70 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Ενα στιγµιότυπο της κλάσης Document αναπαραιστά ένα έγγραφο, το οποίο είναι αποθηκευµένο στο Elasticsearch. Κάθε έγγραφο έχει ένα αναγνωριστικό, id, µε το οποίο διευκολύνεται η διαχείρισή του κατά τη διάρκεια των διαφόρων σταδίων του µηχανισµού, τόσο σε επίπεδο προγράµµατος, όσο και σε επίπεδο µετακίνησης του εγγράφου από και προς το Elasticsearch. Το url είναι σηµαντική πληροφορία, αφενός για την αποτροπή πολλαπλών στιγµιοτύπων του ίδιου εγγράφου, και αφετέρου για την δυνατότητα παρουσίασης του στο χρήστη, στο στάδιο προβολής των τελικών απαντήσεων, µε σκοπό να µπορεί να οδηγηθεί στα έγγραφα από όπου προέρχονται οι τελικοί παράγραφοι. Το κείµενο του εγγράφου αναπαρίσταται από την µεταβλητή text και ε- ξάγεται από το αρχικό διαδικτυακό έγγραφο. Το κείµενο του εγγράφου χρησιµοποιείται για την ανάκτηση µέσω ερωτηµάτων, στα αρχικά στάδια του µηχανισµού. Η µεταβλητή analyzedtext περιέχει τη µορφή του κειµένου που προκύπτει µετά από ειδική ανάλυση µε σκοπό το stemming των λέξεων, την αφαίρεση stop-words, και τον γενικό καθαρισµό του κειµένου. Η µορφή αυτή χρησι- µοποιείται στο στάδιο ανάλυσης του εγγράφου µε το µοντέλο LDA. Τέλος, στη µεταβλητή paragraphlist αποθηκεύονται αντικείµενα τύπου Paragraph. Πρόκειται για τις παραγράφους που συνθέτουν το έγγραφο, κα- ϑεµία µε τα δικά της ξεχωριστά χαρακτηριστικά Paragraph Η κλάση Paragraph, που απεικονίζεται στο σχήµα 4.11, αναπαριστά τις παραγράφους των εγγράφων. Οπως και τα έγγραφα, διαθέτουν ένα αναγνωριστικό, id, αλλά και το αναγνωριστικό του εγγράφου-γονέα στο οποίο ανήκουν. Σχήµα 4.11: Μοντέλο Paragraph 59

71 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Το µοντέλο της παραγράφου διαθέτει επίσης το url του εγγράφου-γονέα και το κείµενο σε ϕυσική γλώσσα, αλλά και σε µορφή που προκύπτει µετά από ανάλυση. Οπως εξηγήθηκε και στην περίπτωση των εγγράφων, η µεταβλητή analyzedtext χρησιµοποιείται στο στάδιο της ανάλυσης παραγράφων µε το µοντέλο LDA Topic Η κλάση Topic (σχήµα 4.12) διαθέτει ένα αναγνωριστικό id, και δύο λίστες µε στοιχεία, τα οποία προκύπτουν από την ανάλυση µε το µοντέλο LDA. Η πρώτη λίστα περιλαµβάνει στιγµιότυπα της κλάσης WordPdfElement, η οποία αναπαριστά στοιχεία µιας κατανοµής λέξεων, και πιο συγκεκριµένα διαθέτει τα χαρακτηριστικά : String text, που αποτελεί το κείµενο της λέξη double value, ένας δεκαδικός αριθµός διπλής ακρίβειας, ο οποίος αναπαριστά την πιθανότητα που έχει η λέξη Η δεύτερη λίστα αποτελείται από στιγµιότυπα της κλάσης PdfElement, η οποία αναπαριστά στοιχεία µιας κατανοµής εγγράφων και διαθέτει τα χαρακτηριστικά : int id, ένα αναγνωριστικό που παραπέµπει σε έγγραφο double value, ένας δεκαδικός αριθµός διπλής ακρίβειας, ο οποίος αναπαριστά την πιθανότητα που έχει η το έγγραφο Οι κατανοµές που αποθηκεύονται στα στιγµιότυπα των ϑεµάτων είναι α- παραίτητες για τη λειτουργία του συστήµατος, καθώς είναι οι παράµετροι µε ϐάση τις οποίες γίνονται όλες οι διαδικασίες κατάταξης, τόσο των ϑεµάτων, όσο και των εγγράφων και των παραγράφων. Σχήµα 4.12: Μοντέλο Topic 60

72 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Offline Component Η ποιότητα των απαντήσεων που επιστρέφονται στον χρήστη εξαρτάται, µεταξύ άλλων, και από τη συλλογή εγγράφων, από την οποία αντλούνται οι απαντήσεις. Πρόκειται για τη συλλογή των εγγράφων που είναι αποθηκευµένα στο Elasticsearch και η οποία δηµιουργείται µε τη διεκπεραίωση του offline µηχανισµού, η δοµή του οποίου που ϕαίνεται στο σχήµα Σχήµα 4.13: ιάγραµµα της δοµής του offline µηχανισµού Η αναζήτηση διαδικτυακών εγγράφων µπορεί να γίνει µε δύο διαφορετικούς τρόπους : Αναζήτηση µε ϐάση µια λίστα από url τα οποία διαβάζει το πρόγραµµα από ένα εξωτερικό αρχείο, που µπορεί να είναι σε µορφή.txt ή.csv Αναζήτηση µε ϐάση ένα σύνολο από ερωτήµατα (queries) σε ϕυσική γλώσσα, τα οποία διαβάζονται από ένα εξωτερικό αρχείο.txt Η διαδικασία ξεκινά από τον controller. Ανάλογα µε την επιλογή που έγινε ανάµεσα σε urls και queries, ο έλεγχος του προγράµµατος µεταφέρεται στον Web Parser, που αποτελεί το µεγαλύτερο τµήµα του offline µηχανισµού, και είναι επιφορτισµένος µε την αναζήτηση διαδικτυακών εγγράφων. 61

73 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Web Parser Ο Web Parser είναι ένα από τα σηµαντικότερα και µεγαλύτερα τµήµατα στο σύνολο του µηχανισµού. Η δοµή του απεικονίζεται στο σχήµα Πρόκειται για ένα σύστηµα το οποίο δέχεται στην είσοδό του µια λίστα από urls ή ένα σύνολο από queries. Στη δεύτερη περίπτωση, κάνει ένα αίτηµα αναζήτησης στη µηχανή BING Search µέσω της διαθέσιµης διεπαφής. Η µηχανή BING επιστρέφει ένα σύνολο από url τα οποία αντιστοιχούν σε διαδικτυακά έγγραφα. Στη συνέχεια, ένας αριθµός διαφορετικών υποσυστηµάτων συνεργάζονται µε σκοπό την ανάκτηση διαδικτυακών εγγράφων και την εξαγωγή του χρήσιµου περιεχοµένου τους. Σχήµα 4.14: Αναλυτικό διάγραµµα της δοµής του Web Parser Η διαδικασία που ακολουθείται, για κάθε url, που συνδέεται µε ένα διαδικτυακό έγγραφο, περιγράφεται από τα παρακάτω ϐήµατα : 1. Η διαδικασία εκκινεί από τον HTML Documents Parser. Για κάθε url, ο έλεγχος µεταφέρεται αρχικά στον Jsoup Parser, που είναι µια ϐιβλιο- ϑήκη για την εξαγωγή περιεχοµένου από ιστοσελίδες. 2. Μέσω του Jsoup Parser 4 επιχειρείται η σύνδεση στον ιστότοπο που υ- ποδεικνύει το url. Εάν η σύνδεση είναι επιτυχής, εξάγεται το κείµενο από τα στοιχεία παραγράφων της σελίδας HTML, <p>...</p>, ένα προς ένα. Στο σηµείο αυτό εισάγεται ένας επιπρόσθετος έλεγχος του συνολικού µήκους της κάθε παραγράφου, καθώς παράγραφοι µε µικρό µήκος είναι πιθανόν να περιέχουν µη-χρήσιµη πληροφορία

74 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 3. Για κάθε παράγραφο που εξάχθηκε µε επιτυχία, προσδιορίζεται η γλώσσα στην οποία είναι γραµµένη. Αυτό επιτυγχάνεται µέσω της ϐιβλιο- ϑήκης Language Detector Εάν η γλώσσα της παραγράφου είναι η αγγλική, προστίθεται στη λίστα παραγράφων του εγγράφου. Μόλις ολοκληρωθεί η διαδικασία για όλες τις παραγράφους, ο έλεγχος επιστρέφει στον HTML Document Parser. 5. Μέσα στον HTML Document Parser δηµιουργείται ένα στιγµιότυπο του εγγράφου και εκχωρείται σε αυτό ένα αναγνωριστικό, καθώς και η λίστα των παραγράφων που επέστρεψε ο Jsoup Parser. 6. Στη συνέχεια, ο έλεγχος µεταφέρεται στο τµήµα του Content Analyzer, µε σκοπό την γλωσσολογική ανάλυση του κειµένου των παραγράφων του εγγράφου. Ο Content Analyzer επικοινωνεί µε τη διεπαφή Analyze API του Elasticsearch η οποία παρέχει τον µηχανισµό ανάλυσης. 7. Μετά την ανάλυση των παραγράφων, υπολογίζεται το κείµενο ολόκλη- ϱου του εγγράφου, ως το άθροισµα των κειµένων των επιµέρους παραγράφων, και στην απλή αλλά και στην αναλυµένη του µορφή. 8. Ο έλεγχος επιστρέφει στον HTML Documents Parser, ο οποίος, µέσω της διεπαφής Index API του Elasticsearch αιτείται την αποθήκευση και ευρετηριοποίηση του εγγράφου Content Analyzer Η γλωσσολογική ανάλυση είναι µια διαδικασία που αποτελείται από τα επι- µέρους στάδια : ένα στάδιο tokenization, το οποίο εξάγει τους διαφορετικούς όρους από το αρχικό κείµενο ένα στάδιο κανονικοποίησης των όρων µε σκοπό τη ϐελτίωση της ευρεσιµότητάς τους (searchability). Η διαδικασία αυτή εκτελείται από µια κατηγορία εργαλείων που ονοµάζονται analyzers. Οι analyzers περιλαµβάνουν τρία είδη συναρτήσεων : Character filters Πρόκειται για ϕίλτρα τα οποία αποµακρύνουν ή τροποποιούν συγκεκριµένους χαρακτήρες, όπως για παράδειγµα ακολουθίες χαρακτήρων που υποδηλώνουν τη γλώσσα HTML. Tokenizer Στη συνέχεια, εξάγονται από το κείµενο όλοι οι όροι (tokens). Για παράδειγµα, ένας απλός tokenizer διαχωρίζει τους όρους όταν συναντά τον κενό χαρακτήρα (whitespace) ή διάφορα σηµεία στίξης

75 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Token filters Στο τελευταίο στάδιο της επεξεργασίας, οι όροι που προκύπτουν από το tokenization περνούν από ειδικά ϕίλτρα, τα οποία µπορεί να τροποποιούν όρους, όπως για παράδειγµα το lowercase filter, να αποµακρύνουν όρους, όπως γίνεται µε χρήση του stop-word filter ή να προσθέτουν όρους, όπως συµβαίνει µε το synonyms filter. Το Elasticsearch παρέχει διάφορα είδη ϕίλτρων και tokenizers για χρήση out of the box. Ωστόσο, το είδος της γλωσσολογικής ανάλυσης που είναι απαραίτητο στα πλαίσια της συγκεκριµένης υλοποίησης επιβάλλει τη χρήση ενός custom analyzer, ο οποίος περιλαµβάνει τα παρακάτω υποσυστήµατα : Ενα mapping character filter το οποίο αντιστοιχίζει όλα τα χρησιµοποιούµενα ως απόστροφο σηµεία στίξης, στον ASCII χαρακτήρα της α- ποστρόφου. Τον standard tokenizer του Elasticsearch, ο οποίος διαχωρίζει τους όρους µόλις συναντήσει τον κενό χαρακτήρα και ορισµένα σηµεία στίξης. Ενα asciifolding filter, το οποίο προσπαθεί να µετατρέψει χαρακτήρες που ϐρίσκονται σε αναπαράσταση διαφορετική από την ASCII, όπως οι χαρακτήρες ß, ο. Ενα stop-word filter για την αφαίρεση όρων που στα πλαίσια της ϑεµατικής ανάλυσης των επόµενων σταδίων ϑεωρούνται µη-σηµαντικοί. Μια ενδεικτική λίστα δίνεται παρακάτω : a, about, above, after, again, against, all, am, an, and, any, are, aren t, as, at, be, because, been, before, being, below, between, both, but, by, can t, cannot, could, couldn t, did, didn t, do, does, doesn t, doing, don t, down, during, each, few, for, from, further, had, hadn t, has, hasn t, have, haven t, having, he, he d, he ll, he s, her, here, here s, hers, herself, him, himself, his, how, how s, i, i d, i ll, i m, i ve, if, in, into, is, isn t, it, it s, its, itself, let s, me, more, most, mustn t, my, myself, no, nor, not, of, off, on, once, only, or, other, ought, our, ours, ourselves, out, over, own, same, shan t, she, she d, she ll, she s, should, shouldn t, so, some, such, than, that, that s, the, their, theirs, them, themselves, then, there, there s these, they, they d, they ll, they re, they ve, this, those, through, to, too, under, until, up, very, was, wasn t, we, we d, we ll, we re, we ve, were, weren t, what, what s, when, when s, where, where s, which, while, who, who s, whom, why, why s, with, won t, would, wouldn t, you, you d, you ll, you re, you ve your, yours, yourself, yourselves. Ενα lowercase filter µε σκοπό τη µετατροπή όλων των χαρακτήρων σε πεζούς. Ενα snowball filter το οποίο κάνει stemming στους όρους και παράγει την ϱίζα από την οποία προέρχονται. Για παράδειγµα, οι jumped και jumping ϑα αντιστοιχηθούν στον όρο jump. 64

76 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Online Component Μετά την ολοκλήρωση των διαδικασιών του offline µηχανσιµού, που όπως εξηγήθηκε είναι απαραίτητος για την τροφοδότηση του Elasticsearch µε έγγραφα, µπορεί να τεθεί σε λειτουργία ο online µηχανισµός. Το γενικό διάγραµµα λειτουργίας του online µηχανισµού παρουσιάστηκε στην ενότητα 4.1. Εδώ ϑα εξηγηθούν µε µεγαλύτερη λεπτοµέρεια οι διαδικασίες και οι υπολογισµοί που ϕέρει εις πέρας ηµιουργία ϑεµάτων σε επίπεδο εγγράφων Η πρώτη ϕάση των υπολογισµών του συστήµατος ξεκινά µε την εισαγωγή ε- νός ερωτήµατος στη γραφική διεπαφή από τον χρήστη. Με ϐάση το ερώτηµα, που αποτελείται συνήθως από µια ή περισσότερες ϕράσεις ή λέξεις-κλειδιά, το σύστηµα, µέσω του Search API που προσφέρει το Elasticsearch, κάνει ανα- Ϲήτηση για τα 50 πιο σχετικά έγγραφα. Τα έγγραφα αυτά αναλύονται µε τον LDA και προκύπτει ένα σύνολο από ϑέµατα που τα χαρακτηρίζουν. Τέλος, τα ϑέµατα ταξινοµούνται µε ϐάση το αρχικό ερώτηµα και το σύστηµα επιλέγει ένα υποσύνολό τους για παρουσίαση στον χρήστη. Η παραπάνω διαδικασία συνοψίζεται στο σχήµα 4.15, ενώ τα επιµέρους τµήµατα περιγράφονται αναλυτικότερα στη συνέχεια. Σχήµα 4.15: ιαδικασία δηµιουργίας ϑεµάτων σε επίπεδο εγγράφων Η αναζήτηση εγγράφων γίνεται στη ϐάση της σύγκρισης µεταξύ των όρων του ερωτήµατος και του κειµένου του κάθε εγγράφου. Το σκορ οµοιότητας κάθε εγγράφου υπολογίζεται από την practical scoring function του Elasticsearch, η οποία προέρχεται από τη ϐιβλιοθήκη Lucene. Εστω ότι έχουµε ένα ερώτηµα q, t q ένας όρος του ερωτήµατος, και d ένα έγγραφο, τότε το σκορ οµοιότητας υπολογίζεται από τη σχέση s(q, d) = qnorm(q) crd(q, d) t ( tf(t d) idf(t) 2 boost(t) norm(t, ) d) (4.1) 65

77 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 qnorm(q) είναι ο παράγοντας κανονικοποίησης του ερωτήµατος, και εισάγεται µε σκοπό τη δυνατότητα σύγκρισης των αποτελεσµάτων µεταξύ διαφορετικών ερωτηµάτων. Υπολογίζεται από τη σχέση qnorm(q) = 1 sumofsquaredw eights (4.2) όπου η υπόρριζη ποσότητα στον παρονοµαστή υπολογίζεται αθροίζοντας τα τετράγωνα των συχνοτήτων idf για κάθε όρο του ερωτήµατος. crd(q,d) είναι παράγοντας, ο οποίος επιβραβεύει έγγραφα τα οποία περιέχουν ένα µεγάλο ποσοστό των όρων του ερωτήµατος. Για παράδειγµα, έστω το ερώτηµα q = "quick brown fox", και ότι το ϐάρος του κάθε όρου είναι ίσο µε w i = 1.5. Τότε, ένα έγγραφο που περιέχει τους όρους "brown", "fox" ϑα έδινε, χωρίς τον παράγοντα, ένα σκορ ίσο µε 3. Με χρήση του coordination factor, το σκορ γίνεται ίσο µε 3 2/3 = 2. tf(t in d) τη σχέση είναι η συχνότητα του όρου t στο έγγραφο d και υπολογίζεται από tf(t d) = frequency (4.3) όπου frequency είναι ο αριθµός των εµφανίσεων του όρου t στο έγγραφο d idf(t) είναι η αντίστροφη συχνότητα εγγράφου για τον όρο t και υπολογίζεται ως ο λογάριθµος του συνολικού αριθµού των εγγράφων προς τον αριθµό των εγγράφων που περιέχουν τον όρο t ( numdocs ) idf(t) = 1 + log docf req + 1 (4.4) boost(t) είναι ένας παράγοντας αύξησης της σηµαντικότητας του ερωτήµατος και είναι προαιρετικός norm(t,d) είναι ο παράγοντας κανονικοποίησης του µήκους του εγγράφου, σε συνδυασµό µε ένα επιπρόσθετο παράγοντα αύξησης της σηµαντικότητας των εγγράφων σαν σύνολο. Ο δεύτερος παράγοντας µπορεί να αγνοηθεί (είναι προαιρετικός έτσι κι αλλιώς) και τελικά ο παράγοντας κανονικοποίησης µπορεί να υπολογιστεί από τη σχέση norm(t, d) = 1 numt erms (4.5) όπου numt erms ο συνολικός αριθµός όρων που περιλαµβάνει το ερώτηµα q. 66

78 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Με την ολοκλήρωση της αναζήτησης εγγράφων, µε τον τρόπο που παρουσιάστηκε στην προηγούµενη ενότητα, το σύστηµα διαθέτει πλέον µια λίστα µε 50 έγγραφα, τα οποία έλαβαν τις υψηλότερες τιµές και ϕάινεται να σχετίζονται πιο πολύ µε το ερώτηµα του χρήστη. Απώτερος σκοπός του συστήµατος είναι να παρουσιάσει στον χρήστη ένα σύνολο από παραγράφους, µικρό στον αριθµό, στο οποίο να περιέχεται η πληροφορία που καλύπτει τις ανάγκες του. Είναι συνεπώς, προφανές, ότι χρειάζεται να γίνει µείωση της ποσότητας της πληροφορίας που διαθέτει το σύστηµα. Σε ένα πρώτο στάδιο, είναι απαραίτητη µια µείωση του αριθµού των 50 εγγράφων σε 10 έγγραφα, µε ϐάση κάποια κριτήρια. Τα κριτήρια αυτά αποτελούν τα ϑέµατα (topics) που χαρακτηρίζουν τη συλλογή εγγράφων, και τα οποία προκύπτουν µετά από ανάλυση µε τον LDA. Για το σκοπό αυτό, χρησιµοποιήθηκε το πακέτο jgibblda 6 που κάνει χρήση Gibbs sampling και είναι γραµµένο σε Java. Ως είσοδος δίνονται τα κείµενα των 50 εγγράφων, στη µορφή που προέκυψε µετά από γλωσσολογική ανάλυση, σε ένα.txt αρχείο, καθώς και οι παράµετροι του LDA: K d, ο συνολικός αριθµός των ϑεµάτων της ανάλυση σε επίπεδο εγγράφων. Στα πλαίσια της υλοποίησης K d = 30 twords, ο αριθµός των πιο πιθανών λέξεων για κάθε ϑέµα, που κρατούνται σε µια λίστα. Στα πλαίσια της υλοποίησης twords = 20 niter, ο αριθµός επαναλήψεων του αλγορίθµου Gibbs sampling. Στα πλαίσια της υλοποίησης είναι niter = 1000 alpha και beta, υπερπαράµετροι των κατανοµών Dirichlet. Στα πλαίσια της υλοποίησης παίρνουν τιµές alpha = 0.5, beta = 0.1 Η υλοποίηση του jgibblda γράφει τα αποτελέσµατα της ανάλυσης σε.txt αρχεία. Επειδή η συγκεκριµένη διαδικασία δεν είναι ϐολική για τις ανάγκες του συστήµατος, τροποποιήθηκε ο κώδικας του jgibblda ώστε να επιστρέφει, στην κύρια ϱοή του προγράµµατος, τα εξής αποτελέσµατα : την κατανοµή ϑεµάτων-εγγράφων, που περιέχει τις τιµές πιθανοτήτων των K d topics σε κάθε ένα από τα 50 έγγραφα Μια λίστα, µε µήκος ίσο µε την παράµετρο twords, των πιθανότερων λέξεων σε κάθε ϑέµα Οι παραπάνω µεταβλητές εκχωρούνται σε στιγµιότυπα της κλάσης Topic και αποθηκεύονται στο Elasticsearch για µετέπειτα χρήση. Πλέον, για κάθε ϑέµα το σύστηµα διαθέτει τις τιµές πιθανοτήτων µε τις οποίες εκφράζεται σε κάθε έγγραφο, αλλά και µια λίστα µε τις πιθανότερες λέξεις, twords τον αριθ- µός, και τις τιµές πιθανοτήτων τους

79 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Ο αριθµός των ϑεµάτων, K d, µπορεί σε πολλές περιπτώσεις να είναι αρκετά µεγάλος, µε σκοπό να συλλάβει τη διαφορετική πληροφορία που κρύβεται στα κείµενα των εγγράφων. Είναι ϕανερό ότι η παρουσίαση ενός µεγάλου αριθµού ϑεµάτων στον οθόνη δεν είναι ιδιαίτερα ϕιλική προς τον χρήστη. Ενας ιδανικός αριθµός για τα ϑέµατα, τα οποία ϑα πρέπει εµφανιστούν στην οθόνη του χρήστη, µε τη µορφή των word clouds, κυµαίνεται µεταξύ 4 και 6. Εποµένως, γίνεται µείωση του αριθµού των ϑεµάτων µε κριτήριο το ερώτηµα του χρήστη. Είναι λογικό να παρουσιάζονται στον χρήστη ϑέµατα, τα οποία είναι σχετικά µε το ερώτηµα που έθεσε. Η διαδικασία ταξινόµησης των K d ϑεµάτων µε ϐάση το ερώτηµα του χρήστη γίνεται µε χρήση aggregations. Πρόκειται για µια ειδική κατηγορία αναζήτησης που παρέχει το Elasticsearch, και η οποία υπολογίζει και επιστρέφει, σε πραγµατικό χρόνο, τις τιµές στατιστικών µετρικών, όπως αθροίσµατα, µέσοι όροι, ελάχιστες και µέγιστες τιµές, και πολλά άλλα. Η παραπάνω ϑεώρηση µπορεί να εκφρασθεί ϕορµαλιστικά ως εξής. Εστω ένα ερώτηµα q και t qi, i = 1, 2,..., numt erms ένας όρος του ερωτήµατος, k ένα ϑέµα και t kj, j = 1, 2,..., twords µία λέξη που περιλαµβάνεται στη λίστα των πιθανότερων λέξεων του ϑέµατος µε πιθανότητα w j. Τότε το σκορ του ϑέµατος k ως προς το ερώτηµα q ϑα υπολογίζεται από τη σχέση score(k, q) = q i k w j tqi t kj (4.6) j Για την καλύτερη κατανόηση του τρόπου µε τον οποίο γίνεται η ταξινόµηση, ας ϑεωρηθεί το ϑέµα του σχήµατος 4.16 και το ερώτηµα q = "Dog or cat for pet?". Σχήµα 4.16: Ενα ϑέµα µε τις πιθανότερες λέξεις που το περιγράφουν 68

80 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Με ϐάση του όρους του ερωτήµατος που είναι παρόντες και στη λίστα των πιθανότερων λέξεων του ϑέµατος, το σκορ που προκύπτει για το ϑέµα του σχήµατος ϑα είναι : score(k, q) = w dog + w cat + w pet = = Στα πλαίσια της υλοποίησης, µετά την ταξινόµηση των ϑεµάτων, επιλέγονται τα k d ϑέµατα µε τα υψηλότερα σκορ, και αποστέλλονται στο front-end. Στην πλευρά του front-end, τα k d ϑέµατα εµφανίζονται στον χρήστη µε τη µορφή word-clouds όπως εξηγήθηκε νωρίτερα, και απεικονίζεται στο σχήµα 4.3 της ενότητας 4.1. Το ϐάρος κάθε λέξης αντιπροσωπεύεται από το µέγεθος της λέξης στο word-cloud ηµιουργία ϑεµάτων σε επίπεδο παραγράφων Μέχρι στιγµής, ο χρήστης έχει ϑέσει το ερώτηµά του στο σύστηµα και λάβει ως απάντηση ένα σύνολο από k d σχετικά ϑέµατα. Στη συνέχεια καλείται να επιλέξει ένα ή περισσότερα από αυτά, σε ένα στάδιο αλληλεπίδρασης. Με ϐάση τα k k d ϑέµατα που επέλεξε ο χρήστης ακολουθεί ταξινόµηση των 50 εγγράφων που συµµετείχαν στην ανάλυση. Επιλέγονται τα d = 10 έγγραφα µε το µεγαλύτερο σκορ και εξάγονται, από αυτά, οι παράγραφοί τους. Στο επόµενο στάδιο του µηχανισµού, οι παράγραφοι ϑεωρούνται ως ανεξάρτητα έγγραφα, αποθηκεύονται στο Elasticsearch και ξεκινά µια νέα ϑεµατική ανάλυση, αυτή τη ϕορά σε επίπεδο παραγράφων, από την οποία προκύπτουν K p ϑέµατα. Η διαδικασία αυτή παρουσιάζεται στο σχήµα Σχήµα 4.17: ιαδικασία ταξινόµησης των εγγράφων και δηµιουργίας ϑεµάτων σε επίπεδο παραγράφων Η ταξινόµηση των εγγράφων είναι πολύ σηµαντικό να γίνει µε ϐάση τα σωστά κριτήρια, ώστε τα πρώτα d = 10 έγγραφα που ϑα προκύψουν να πε- ϱιλαµβάνουν όσο το δυνατόν πιο χρήσιµη πληροφορία. Εστω ότι ο χρήστης επέλεξε k k d ϑέµατα και έστω ότι κάθε ϑέµα k i εκφράζεται σε ένα έγγραφο doc µε πιθανότητα p i. Η ταξινόµηση των εγγράφων πραγµατοποιείται µε ϐάση 69

81 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 τη σχέση score(doc) = k p i (4.7) Το παραπάνω σκορ υπολογίζεται, για κάθε ένα από τα 50 έγγραφα, µε ϐάση τις τιµές πιθανοτήτων που είναι αποθηκευµένες σε στιγµιότυπα της κλάσης Topic στο Elasticsearch. Εστω η ϑεµατική κατανοµή ενός εγγράφου d που περιλαµβάνει K d = 10 ϑέµατα και ϕαίνεται στο σχήµα Στην κατανοµή περιλαµβάνεται το id του κάθε ϑέµατος και η πιθανότητα µε την οποία εκφράζεται στο έγγραφο d. Εστω επίσης ότι ο χρήστης, στο πρώτο στάδιο αλληλεπίδρασης, έχει επιλέξει τα ϑέµατα µε id 1, 4 και 6. Με ϐάση την παραπάνω σχέση, το σκορ του συγκεκριµένου εγγράφου υπολογίζεται ως εξής : score(doc) = p 1 + p 4 + p 6 = = 0.29 Η διαδικασία της ταξινόµησης του συνόλου των εγγράφων επιστρέφει d = 10 έγγραφα, από τα οποία εξάγονται οι παράγραφοι και αποθηκεύονται στο Elasticsearch, πριν ξεκινήσει η ϑεµατική ανάλυση µε τον LDA. i Σχήµα 4.18: Θεµατική κατανοµή µε K d = 10 ϑέµατα ενός εγγράφου Οι παράµετροι του LDA σε επίπεδο παραγράφων δε διαφέρουν σε σχέση µε αυτές του επιπέδου των εγγράφων, παρά µόνο στην περίπτωση του K p, το οποίο παίρνει µεγαλύτερες τιµές (ενδεικτικές τιµές είναι οι 50, 100). Αυτό δικαιολογείται αφενός από το πλήθος των παραγράφων, που είναι πολύ µεγαλύτερο σε σχέση µε το πλήθος των εγγράφων, και αφετέρου από την ανάγκη εξαγωγής στοχευµένης πληροφορίας σε αυτό το στάδιο. Η ανάγκη αυτή προκύπτει από τον περιορισµό που εισάγεται από πλευράς αλληλεπίδρασης. Οι χρήστες ενδέχεται να είναι πρόθυµοι να αφιερώσουν λίγο χρόνο µε σκοπό την εύρεση καλύτερων αποτελεσµάτων, αλλά όχι υπερβολικό 70

82 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 χρόνο. Μάλιστα, έχει προηγηθεί το πρώτο στάδιο, στο οποίο χρήστης έχει κάνει µια επιλογή ϑεµάτων. Είναι εύλογη, εποµένως, η ανάγκη να εξασφαλιστεί ότι το δεύτερο και τελευταίο στάδιο αλληλεπίδρασης ϑα περιλαµβάνει στοχευµένη και ποιοτική πληροφορία για τις παραγράφους, που αντιπροσωπεύεται µέσω ενός µικρού αριθµού από word-clouds (είναι αυτά που ϐλέπει ο χρήστης στην οθόνη). Οπως και στην περίπτωση των εγγράφων, έτσι και εδώ, η τροποποιηµένη υλοποίηση του jgibblda διαβάζει τα κείµενα των παραγράφων, στην µορφή που προέκυψε µετά από την γλωσσολογική ανάλυση, από ένα.txt αρχείο και σε συνδυασµό µε το σύνολο των παραµέτρων, διεξάγει την ϑεµατική ανάλυση και επιστρέφει ένα σύνολο από K p ϑέµατα. Τα ϑέµατα αυτά αντιπροσωπεύουν πε- ϱισσότερο στοχευµένη πληροφορία, σε σχέση µε τα ϑέµατα του προηγούµενου σταδίου. Ουσιαστικά, µετά τη µείωση του περιεχοµένου σε ένα σύνολο d = 10 εγγράφων και P παραγράφων, που εξάγονται από αυτά, το σύνολο της πλη- ϱοφορίας που τα χαρακτηρίζει αντιστοιχίζεται σε ένα σύνολο από K p ϑέµατα. Ο αριθµός K p των ϑεµάτων σε επίπεδο παραγράφων ενδέχεται να είναι ακόµη µεγαλύτερος σε σχέση µε την τιµή K d, διότι σε αυτό το στάδιο επιχει- ϱείται η σύλληψη περισσότερο στοχευµένης πληροφορίας, σε σχέση µε πριν. Εποµένως, όπως και στο προηγούµενο στάδιο, είναι απαραίτητη µια ταξινόµηση των K p ϑεµάτων και η παρουσίαση στον χρήστη ενός υποσυνόλου k p K p από αυτά, όπου και πάλι το k p προτείνεται να παίρνει µία τιµή στο σύνολο {4, 5, 6}. Η ταξινόµηση επιτυγχάνεται µε τη σύγκριση µεταξύ των λέξεων µε τις µεγαλύτερες πιθανότητες κάθε ενός από τα K p ϑέµατα και του συνόλου των αντιστοίχων λέξεων που προκύπτουν από τα k ϑέµατα που επέλεξε ο χρήστης στο προηγούµενο στάδιο. Με αυτό τον τρόπο επιτυγχάνεται η συνέχεια της διαδικασίας, διότι η προηγούµενη επιλογή του χρήστη καθορίζει άµεσα την πληροφορία που του πα- ϱέχεται και την επόµενη επιλογή του. Με άλλα λόγια, έχει νόηµα να παρουσιαστούν στο χρήστη ϑέµατα, σε επίπεδο παραγράφων, τα οποία σχετίζονται µε αυτά που επέλεξε ο χρήστης σε επίπεδο εγγράφων. Αυτό µεταφράζεται και ως µια απόπειρα του συστήµατος να εντοπίσει µε µεγαλύτερη ακρίβεια την ϑεµατική πληροφορία που αναζητά ο χρήστης. Στην πράξη, η σύγκριση γίνεται µε aggregations µε την ίδια λογική που γίνεται και σε επίπεδο εγγράφων. ηλαδή, σε περίπτωση ενός κοινού όρου, ανάµεσα στα συγκρινόµενα µέλη, το σκορ του topic αυξάνεται κατά την πιθανότητα εµφάνισης του όρου σε αυτό. Με ϐάση τα σκορ που προκύπτουν για κάθε ϑέµα, το σύστηµα επιλέγει τα k p πρώτα και τα αποστέλλει στο front-end, όπου παρουσιάζονται στον χρήστη. 71

83 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Ταξινόµηση παραγράφων Στο δεύτερο στάδιο αλληλεπίδρασης µε το σύστηµα, ο χρήστης καλείται να επιλέξει k k p ϑέµατα. Με ϐάση την επιλογή αυτή, το σύστηµα προχωρά σε ταξινόµηση των παραγράφων, όπως ϕαίνεται στο σχήµα Εστω ότι ο χρήστης επέλεξε k k p ϑέµατα και έστω ότι κάθε ένα από αυτά, k i, εκφράζεται σε µια παράγραφο par µε πιθανότητα p i. Η ταξινόµηση των παραγράφων πραγµατοποιείται µε ϐάση τη σχέση score(par) = k p i (4.8) i Το σκορ που περιγράφεται από την παραπάνω σχέση υπολογίζεται µε τη ϐοήθεια ενός aggregation στο Elasticsearch. Το σύστηµα επιλέγει τις p πα- ϱαγράφους µε το υψηλότερο σκορ και τις αποστέλλει στο front-end, όπου παρουσιάζονται στον χρήστη. Ετσι ολοκληρώνεται η συνεδρία (session) του χρήστη µε το σύστηµα. Σχήµα 4.19: ιαδκιασία ταξινόµησης παραγράφων µε ϐάση τις ϑεµατικές επιλογές του χρήστη στο δεύτερο στάδιο αλληλεπίδρασης 72

84 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Η σελίδα της εφαρµογής Οπως εξηγήθηκε στην αρχή του κεφαλαίου, το σύστηµα υλοποιείται σαν µια AJAX διαδικτυακή εφαρµογή. Ο back-end µηχανισµός τροφοδοτεί µε δεδο- µένα µια σελίδα, η οποία αποτελεί το γραφικό περιβάλλον διεπαφής. Μέσα από τη σελίδα ο χρήστης αποκτά πρόσβαση στις υπηρεσίες του συστήµατος. Με σκοπό την καλύτερη δυνατή πρόσβαση και εξυπηρέτηση των χρηστών, ανεξαρτήτως της συσκευής από την οποία γίνετια πρόσβαση στην εφαρµογή, χρησιµοποιήθηκε το Bootstrap framework 7. Ετσι, για παράδειγµα, οι διαστάσεις της σελίδας τροποποιούνται ανάλογα µε τη συσκευή. Η αρχική σελίδα παρουσιάζεται στο σχήµα Περιλαµβάνει µια λίστα επιλογών όπως αναφορές, σχετικές πληροφορίες και επικοινωνία. Ωστόσο το σηµαντικό κοµµάτι ϐρίσκεται στο κυρίως σώµα της σελίδας, το οποίο αποτελείται από µια γραµµή αναζήτησης, όπου ο χρήστης εισάγει το ερώτηµα. Σχήµα 4.20: Αρχική σελίδα της διαδικτυακής εφαρµογής Το σύνολο των υπόλοιπων τµηµάτων της σελίδας ϑα παρουσιαστεί στη ϐάση ενός παραδείγµατος χρήσης. Εστω ότι ένας χρήστης, που ενδιαφέρεται για την πορεία των διαπραγµατεύσεων της ελληνικής κυβέρνησης µε τους Ευρωπαίους εταίρους, πληκτρολογεί το ερώτηµα "Greek prime minister negotiates bailout agreement with Europe leaders". Στη συνέχεια, επιλέγει το Submit και το αίτηµα αποστέλλεται στον backend µηχανισµό. Οπως εξηγήθηκε αναλυτικά στην προηγούµενη ενότητα του κεφαλαίου, ο online µηχανισµός κάνει αναζήτηση για τα 50 σχετικότερα έγγραφα σε σχέση µε το ερώτηµα και διεξάγει ϑεµατική ανάλυση σε αυτά. Προκύπτει ένα σύνολο ϑεµάτων, τα οποία ταξινοµούνται µε ϐάση το ερώτη- µα. Τελικά γίνεται επιλογή των 6 ϑεµάτων µε το υψηλότερο σκορ. Τα ϑέµατα αυτά αποστέλλονται στον µηχανισµό του front-end ο οποίος τα παρουσιάζει στο χρήστη, όπως ϕαίνεται στο σχήµα

85 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Σχήµα 4.21: Παρουσίαση ϑεµάτων σε επίπεδο εγγράφων Ο χρήστης αποφασίζει ότι τα ϑέµατα 1 και 4, κατά σειρά εµφάνισης, αντιπροσωπεύουν µε καλύτερο τρόπο την πληροφορία για την οποία ενδιαφέρεται. Τα επιλέγει µε διπλό κλικ. Ενα µήνυµα εµφανίζεται κάθε ϕορά που ο χρήστης επιλέγει ή αφαιρεί ένα ϑέµα. Η διαδικασία επιλογής ολοκληρώνεται µε το Submit, και το αίτηµα αποστέλλεται στον back-end µηχανισµό. Ο online µηχανισµός ταξινοµεί τη συλλογή των εγγράφων µε ϐάση τα ϑέµατα που επέλεξε ο χρήστης. Από την ταξινοµηµένη συλλογή, το σύστη- µα επιλέγει τα 10 έγγραφα µε το υψηλότερο σκορ και εξάγει από αυτά τις παραγράφους. Στη συνέχεια, ακολουθεί ϑεµατική ανάλυση σε επίπεδο παραγράφων και ταξινόµηση των ϑεµάτων που προκύπτουν. Από το σύνολο των ταξινοµηµένων ϑεµάτων, επιλέγονται τα 6 ϑέµατα µε το υψηλότερο σκορ και αποστέλλονται στο front-end, και παρουσιάζονται στην οθόνη του χρήστη. Σχήµα 4.22: Παρουσίαση ϑεµάτων σε επίπεδο παραγράφων 74

86 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 4 Οπως ϕαίνεται και στο σχήµα 4.22, τα ϑέµατα που αφορούν τις παραγράφους έχουν διαφορετικό περιεχόµενο, αλλά και διαφορετικό χρώµα, για λόγους διάκρισης των δύο σταδίων αλληλεπίδρασης. Ο χρήστης επιλέγει τα ϑέµατα 1, 2 και 5 κατά σειρά. Ολοκληρώνοντας, επιλέγει Submit και το αίτηµα αποστέλλεται στον back-end µηχανισµό για την ταξινόµηση των παραγράφων. Μετά την ολοκλήρωση της ταξινόµησης, επιλέγονται οι 5 παράγραφοι µε το υψηλότερο σκορ και αποστέλλονται στον µηχανισµό του front-end. Οι παράγραφοι εµφανίζονται στη σελίδα, κάθε µία συνοδευόµενη από το url του εγγράφου από το οποίο προήλθε. Αυτή είναι και η τελική απάντηση του συστήµατος και ϕαίνεται στο σχήµα Σχήµα 4.23: Παρουσίαση των παραγράφων 75

87 5 Αξιολόγηση του συστήµατος Σε αυτό το κεφάλαιο παρουσιάζεται η διαδικασία αξιολόγησης του προτεινόµενου συστήµατος. Αρχικά ορίζεται η υπόθεση µε ϐάση την οποία διεξάγεται ένας αριθµός πειραµάτων και στη συνέχεια παρουσιάζονται τα αποτελέσµατα και τα συµπεράσµατα που προέκυψαν από την εφαρµογή τους. 5.1 Υπόθεση της αξιολόγησης Η αξιολόγηση ενός συστήµατος είναι απαραίτητη για την εξακρίβωση της ορ- ϑής του λειτουργίας µε καλά ορισµένες, ϕορµαλιστικές διαδικασίες. Αυτό επιτυγχάνεται µε τον ορισµό στοχευµένων µετρικών στη ϐάση των στόχων που τίθενται από την πλευρά του κατασκευαστή του συστήµατος. Στα πλαίσια της εργασίας, προτάθηκε ένα QA σύστηµα, το οποίο προσπαθεί να εξάγει ϑεµατική πληροφορία από µια συλλογή εγγράφων και να τη χρησιµοποιήσει µε κατάλληλο τρόπο, ώστε να παρουσιάσει ποιοτικές, από άποψη πληροφοριακών αναγκών, απαντήσεις στον χρήστη. Η ϐασική υπόθεση στην οποία στηρίζεται η συνολική ιδέα του συστήµατος, και εποµένως και η διαδικασία αξιολόγησής του, έγκειται στο ότι ο χρήστης ενδιαφέρεται για πληροφορίες, οι οποίες σχετίζονται µε συγκεκριµένη ϑεµατολογία. Το σύστηµα συµβάλλει στην εύρεση των ϑεµατικών χαρακτηριστικών της Ϲητούµενης πληροφορίας και προτρέπει τον χρήστη να επιλέξει ο ίδιος τη ϑεµατολογία των ενδιαφερόντων του. 76

88 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 Τα ϑέµατα που προκύπτουν από την ανάλυση µε το µοντέλο LDA χαρακτηρίζονται από λέξεις, µε τις πιθανότητες εµφάνισής τους, και πιθανότητες εµφάνισης των ϑεµάτων, που εκφράζονται στα έγγραφα της συλλογής. Επο- µένως, κατά τη διαδικασία επιλογής ενός ή περισσοτέρων ϑεµάτων από τον χρήστη, υπάρχει τόσο η έννοια του ϑέµατος σαν συνόλου, όσο και των επι- µέρους λέξεων που εµφανίζονται σε αυτά. Σε τελική ανάλυση, ο χρήστης κάνει την επιλογή του ϐασιζόµενος σε µία ή περισσότερες από τις λέξεις µε σκοπό να περιορίσει τον ορίζοντα της αναζήτησής, ενώ το σύστηµα αντιµετωπίζει την επιλογή αυτή σε επίπεδο ϑέµατος, ταξινοµώντας την υπάρχουσα πληροφορία, είτε αυτή είναι έγγραφα είτε παράγραφοι. Στηριζόµενη στην παραπάνω υπόθεση, η διαδικασία αξιολόγησης επιχειρεί την απόδειξη της ορθής λειτουργίας του συστήµατος στα πλαίσια των επιλεγόµενων ϑεµάτων. Πρόκειται για την πληροφορία που υποδηλώνει τις ανάγκες του χρήστη και ϑα µπορούσε να ϑεωρηθεί σαν ένα προχωρηµένο, πιο στοχευ- µένο, ερώτηµα. Κάποια ϐασικά ερωτήµατα στα οποία καλείται να απαντήσει η αξιολόγηση είναι το εξής : συµβάλλει το προτεινόµενο σύστηµα στη ϐελτίωση της ϑεµατικής πληροφορίας που ενδιαφέρει τον χρήστη ;, και αν ναι, σε τι ϐαθµό ;, πώς επηρεάζεται η παρεχόµενη πληροφορία από τις επιλογές του χρήστη ;, πώς επηρεάζεται από τις παραµέτρους της ανάλυσης ;. Ουσιαστικά η αξιολόγηση καλείται να απαντήσει σε αυτά αλλά και σε παρόµοια ερωτήµατα. 5.2 Μετρικές αξιολόγησης Οι µετρικές αξιολόγησης που χρησιµοποιούνται στα πλαίσια της επαλήθευσης της ορθής λειτουργίας του συστήµατος ϐασίζονται στην υπόθεση της προηγούµενης ενότητας και ορίζονται µε ϐάση την ϑεµατική πληροφορία σε επίπεδο εγγράφων. Η αξιολόγηση σε αυτό το επίπεδο κρίνεται ενδεικτική, αλλά και καθο- ϱιστικής σηµασίας, αφού µε ϐάση την επιλογή ϑεµάτων που γίνεται από τον χρήστη, ταξινοµούνται τα D έγγραφα της συλλογής και επιλέγονται τα d = 10 µε το υψηλότερο σκορ. Από αυτά προκύπτουν οι παράγραφοι, που στη συνέχεια ταξινοµούνται επίσης, µετά τη δεύτερη επιλογή ϑεµάτων από τον χρήστη, για να προκύψει η τελική λίστα παραγράφων ως απάντηση του συστήµατος. Η αξιολόγηση σε επίπεδο εγγράφων έχει νόηµα, καθώς τα αποτελέσµατα της ταξινόµησης των εγγράφων µε ϐάση τα επιλεγµένα ϑέµατα µπορούν να συγκριθούν άµεσα µε τα αντίστοιχα αποτελέσµατα που προκύπτουν µε άλλες τεχνικές ταξινόµησης. Η αξιολόγηση υπολογίζει το ωφέλιµο πληροφοριακό πε- ϱιεχόµενο των εγγράφων που προκύπτουν µε ϐάση τον προτεινόµενο µηχανισµό ταξινόµησης και το συγκρίνει µε το αντίστοιχο περιεχόµενο των εγγράφων που προκύπτουν από την ταξινόµηση µε την practical scoring function του Elasticsearch. 77

89 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 Εστω µια συλλογή D εγγράφων και ένα σύνολο K d ϑεµάτων που τα χαρακτηρίζουν. Οπως αναλύθηκε στην περιγραφή του µηχανισµού, τα K d ϑέµατα ταξινοµούνται µε ϐάση το αρχικό ερώτηµα του χρήστη και επιλέγονται τα k d µε το υψηλότερο σκορ. Τα k d ϑέµατα παρουσιάζονται στον χρήστη, ο οποίος επιλέγει k k d από αυτά, µε ϐάση τα οποία γίνεται η ταξινόµηση των εγγράφων. Στη ϐάση της παραπάνω διαδικασίας, ορίζεται η µετρική της ακρίβειας, precision, για το σύνολο των ταξινοµηµένων εγγράφων, από τη σχέση : Precision = άθροισµα πιθανοτήτων των k ϑεµάτων στα d έγγραφα άθροισµα πιθανοτήτων των K ϑεµάτων στα d έγγραφα (5.1) και αντιπροσωπεύει το ποσοστό της χρήσιµης ϑεµατικής πληροφορίας, σε σχέση µε την επιλογή ϑεµάτων του χρήστη, στο σύνολο της ϑεµατικής πλη- ϱοφορίας που περιέχεται στα πρώτα d έγγραφα που προκύπτουν από την ταξινόµηση. Εάν ένα ϑέµα k i εκφράζεται σε ένα έγγραφο doc j µέσω της πιθανότητας p ij, και γνωρίζοντας επιπλέον ότι d = 10 προκύπτει ότι : Precision = d k j i p ij d K = j i p ij d j k i p ij d = d j k i p i 10 (5.2) δηλαδή η ακρίβεια της πληροφορίας υπολογίζεται από το άθροισµα των πιθανοτήτων των k ϑεµάτων που επέλεξε ο χρήστης στο σύνολο των d ταξινο- µηµένων εγγράφων. Με παρόµοια λογική, ορίζεται η µετρική recall για µια ταξινοµηµένη λίστα d εγγράφων, από τη σχέση : Recall = άθροισµα πιθανοτήτων των k ϑεµάτων στα d έγγραφα άθροισµα πιθανοτήτων των k ϑεµάτων στα D έγγραφα (5.3) και αντιπροσωπεύει το ποσοστό της χρήσιµης πληροφορίας που συµπεριλαµβάνεται στην ταξινοµηµένη λίστα των d εγγράφων, σε σχέση µε το συνολικό ποσοστό που περιλαµβάνεται στο σύνολο των D εγγράφων, από τα οποία ξεκίνησε η ανάλυση. Λαµβάνοντας υπόψη τα παραπάνω, προκύπτει η σχέση υπολογισµού : Recall = d j D j k i p ij k i p ij (5.4) Για τον υπολογισµό της µετρικής recall είναι απαραίτητος ο υπολογισµός και των δύο αθροισµάτων. Οι δύο µετρικές ορίζονται από δύο κλάσµατα µε τον ίδιο αριθµητή, αλλά διαφορετικούς παρονοµαστές, µε σταθερή τιµή. Επειδή οι µετρικές αυτές µεταφέρουν πληροφορία για το ωφέλιµο πληροφοριακό περιεχόµενο µιας συλλογής εγγράφων, καλούνται και µετρικές ποιότητας πληροφορίας. 78

90 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 Μια ακόµη µετρική, η οποία προκύπτει από τις προηγούµενες και είναι εξαιρετικά χρήσιµη στην αποτίµηση της απόδοσης του συστήµατος είναι ο παράγοντας ϐελτίωσης. Ο παράγοντας ϐελτίωσης ορίζεται για δύο τιµές της ίδιας µετρικής, που προκύπτουν από διαφορετική µέθοδο. Εστω, για παράδειγµα, metric def η τιµή της µετρικής που υπολογίζεται για το σύνολο των d εγγράφων µετά την ταξινόµηση µε την practical scoring function και metric prop η ίδια µετρική, µε διαφορετική τιµή, αυτή που υπολογίζεται για το σύνολο d εγγράφων που προκύπτει από την ταξινόµηση του προτεινόµενου συστήµατος. Τότε, ο παράγοντας ϐελτίωσης ορίζεται από τη σχέση : Improvement factor = metric prop metric def metric def (5.5) Με τη χρήση του παράγοντα ϐελτίωσης µπορούµε να ποσοτικοποιήσουµε επακριβώς τη ϐελτίωση που επιτυγχάνει η ταξινόµηση εγγράφων µε ϐάση τις ϑεµατικές επιλογές του χρήστη, σε σχέση µε την practical scoring function, η οποία ανήκει στην κατηγορία των µεθόδων που χρησιµοποιούνται ως επί το πλείστον από τις κλασικές µηχανές αναζήτησης. Αντικαθιστώντας τις σχέσεις των δύο µετρικών, που ορίστηκαν νωρίτερα, στην εξίσωση του παράγοντα ϐελτίωσης, προκύπτει ότι αυτός παίρνει την ίδια τιµή, τόσο για τη µετρική precision, όσο και για τη µετρική recall. Το γεγονός αυτό κρίνεται ϑετικό, καθώς δίνεται η δυνατότητα αποτίµησης της συνολικής ϐελτίωσης που προσφέρει ο µηχανισµός σε µία µοναδική, κοινή ϐάση. 5.3 Πειράµατα και αποτελέσµατα Τα πειράµατα που πραγµατοποιήθηκαν στα πλαίσια της αξιολόγησης κάνουν χρήση των µετρικών ποιότητας που παρουσιάστηκαν στην προηγούµενη ε- νότητα, µε σκοπό την επαλήθευση της ορθής λειτουργίας του συστήµατος. Βασικός άξονας των πειραµάτων είναι ο υπολογισµός των µετρικών για τις δύο συγκρινόµενες συλλογές ταξινοµηµένων εγγράφων : η πρώτη προκύπτει από την ταξινόµηση µε διανυσµατικά κριτήρια ο- µοιότητας, και πιο συγκεκριµένα µε τη χρήση της practical scoring function του Elasticsearch. η δεύτερη προκύπτει από την ταξινόµηση µε στατιστικά κριτήρια, και πιο συγκεκριµένα µε χρήση των τιµών πιθανοτήτων µε τις οποίες εκ- ϕράζονται τα ϑέµατα στη συλλογή εγγράφων. Στόχος του συνόλου πειραµάτων είναι να αποδείξει την αύξηση της χρήσι- µης πληροφορίας που περιέχεται στην ταξινοµηµένη συλλογή εγγράφων της δεύτερης περίπτωσης σε σχέση µε την πρώτη, µέσα από την παρατήρηση των µετρικών που ορίστηκαν στην προηγούµενη ενότητα και υπολογίζονται κατά τη διάρκεια εκτέλεσης των πειραµάτων. 79

91 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο Πείραµα 1 - Αναλυτική εύρεση µετρικών για την περίπτωση ταξινόµησης µε ένα ϑέµα Αρχικά υπολογίστηκαν οι µετρικές ποιότητας για την απλή περίπτωση κατά την οποία η ταξινόµηση γίνεται µε ϐάση ένα ϑέµα, k = 1. Ενα Ϲήτηµα που προκύπτει σε αυτή την περίπτωση είναι το κατά πόσο επηρεάζονται τα αποτελέσµατα από την οµοιότητα του ϑέµατος αυτού µε το αρχικό ερώτηµα. Στο τέταρτο κεφάλαιο είχε δοθεί αναλυτική περιγραφή της διαδικασίας ταξινόµησης των K d ϑεµάτων και της επιλογής των πρώτων k d µε τα υψηλότερα σκορ. Οσο πιο ψηλά στη λίστα των k d ϑεµάτων ϐρίσκεται ένα ϑέµα, τόσο πιο σχετικό είναι µε το αρχικό ερώτηµα του χρήστη. Συνεπώς, έχει νόηµα η µελέτη της εξάρτησης των αποτελεσµάτων από τη ϑέση του ϑέµατος επιλογής του χρήστη, και µε ϐάση το οποίο γίνεται η ταξινόµηση, στη λίστα των k d ϑεµάτων. Για το σκοπό αυτό το πείραµα χωρίστηκε σε 3 επιµέρους τµήµατα, ανάλογα µε τη ϑέση, kp os, του ϑέµατος στη λίστα των k d ϑεµάτων. Στα πλαίσια του πειράµατος είναι K = 30 και Q = 20, ο αριθµός των ερωτηµάτων. Επιλογή ϑέµατος µε το υψηλότερο σκορ Στο πρώτο τµήµα του πειράµατος, υπολογίστηκαν και παρουσιάζονται οι µετρικές για την περίπτωση που το ϑέµα έχει το υψηλότερο σκορ, δηλαδή ϐρίσκεται στη ϑέση 1 της λίστας k d ϑεµάτων, kp os = 1. Αυτό πρακτικά σηµαίνει ότι πρόκειται για το ϑέµα που έχει τη µεγαλύτερη οµοιότητα µε το αρχικό ερώτηµα. Στο σχήµα 5.1 παρουσιάζονται οι τιµές της µετρικής precision που προέκυψαν από τα 10 έγγραφα των δύο διαφορετικών µεθόδων ταξινόµησης, για το σύνολο των 20 ερωτηµάτων. Σχήµα 5.1: Τιµές της µετρικής precision για kp os = 1 80

92 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 Συγκρίνοντας τις τιµές, παρατηρούµε µια σταθερή ϐελτίωση των τιµών της µετρικής, για την περίπτωση της προτεινόµενης ταξινόµησης. Εξαιτίας της εξάρτησης της µετρικής αυτής από το σύνολο της ϑεµατικής πληροφορίας στα πρώτα d έγγραφα (παρονοµαστής της εξίσωσης 5.2), δεν αναµένονται µεγάλες τιµές. Με άλλα λόγια, η µέγιστη τιµή της ακρίβειας της ϑεµατικής πληροφο- ϱίας στα d έγγραφα έχει άνω ϕράγµα µικρότερο της µονάδας. Η µέση τιµή της µετρικής στην περίπτωση των εγγράφων που προκύπτουνα από ταξινόµηση µε την practical scoring function είναι p def = ενώ στην περίπτωση της προτεινόµενης ταξινόµησης είναι p prop = , δηλαδή έχουµε µια µέση ϐελτίωση της µέσης τιµής της τάξης του 70%. Σχήµα 5.2: Τιµές της µετρικής recall για kp os = 1 Στο σχήµα 5.2 παρουσιάζονται οι τιµές που προέκυψαν για την µετρική recall του ίδιου πειράµατος. Με απλή παρατήρηση είναι εµφανές ότι η µετρική recall παίρνει µεγαλύτερες τιµές σε σχέση µε την µετρική precision. Αυτό συµβαίνει διότι η συγκεκριµένη µετρική ορίζεται ανεξάρτητα από το σύνολο της ολικής ϑεµατικής πληροφορίας, ορίζεται δε στη ϐάση των ϑεµάτων, µε τα οποία γίνεται η ταξινόµηση. Ωστόσο, και αυτή η µετρική περιορίζεται σε µια µέγιστη τιµή που είναι µικρότερη της µονάδας. Κι αυτό διότι κάθε ϑέµα εκφράζεται µε κάποια µη µηδενική πιθανότητα σε κάθε έγγραφο της συλλογής D. Αυτό σηµαίνει ότι µετά την ταξινόµηση και την επιλογή των πρώτων d εγγράφων, η πληροφορία που αφορά ένα συγκεκριµένο ϑέµα και ανήκει στα D d έγγραφα που έχουν απορριφθεί, έχει χαθεί µαζί µε αυτά. Η µέση τιµή της µετρικής recall στην περίπτωση της κανονικής ταξινόµησης είναι r def = , ενώ στην περίπτωση της προτεινόµενης ταξινόµησης είναι r prop = , δηλαδή έχουµε µια ϐελτίωση της µέσης τιµής της τάξης του 100%. 81

93 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 Επιλογή ϑέµατος µε σκορ µεσαίας κλίµακας Σε αυτό το τµήµα του πει- ϱάµατος είναι kp os = 3, που σηµαίνει ότι το ϑέµα που ορίζει την ταξινόµηση ϐρίσκεται στη µέση, περίπου, της λίστας των k d = 6 ϑεµάτων, που προκύπτουν από την ταξινόµηση µε ϐάση το ερώτηµα του χρήστη. Στο σχήµα 5.3 ϕαίνονται οι τιµές για την µετρική precision για τις δύο, συγκρινόµενες, περιπτώσεις ταξινόµησης. Από το σχήµα ϕαίνεται, ότι σε αυτή την περίπτωση, οι τιµές της µετρικής είναι σε γενικές γραµµές µικρότερες σε σχέση µε την περίπτωση όπου kp os = 1. Σχήµα 5.3: Τιµές της µετρικής precision για kp os = 3 Η παραπάνω παρατήρηση µπορεί να εξηγηθεί από δύο λόγους. Πρώτον, όσο σχετικότερο είναι το ϑέµα που επιλέγεται για την ταξινόµηση, µε το αρχικό ερώτηµα, τόσο µεγαλύτερη είναι και η πιθανότητα ύπαρξης περισσότερης χρήσιµης πληροφορίας στα ταξινοµηµένα έγγραφα. Από την άλλη, ίσως η χαµηλή ακρίβεια πληροφορίας να οφείλεται καθαρά στη συνολική ποσότητα πληροφορίας που µεταφέρει το ϑέµα. Αυτό ϑα γίνει περισσότερο ξεκάθαρο µε την παρατήρηση των τιµών για την µετρική recall. Η µέση τιµή που προκύπτει για την µετρική precision στις δύο περιπτώσεις είναι p def = για την πρώτη και p prop = για τη δεύτερη. Το ποσοστό ϐελτίωσης της µέσης τιµής στην προκειµένη περίπτωση είναι περίπου 143%. Παρατηρείται µεγαλύτερο ποσοστό ϐελτίωσης της µέσης τιµής σε σχέση µε την περίπτωση όπου kp os = 1. Μία ερµηνεία που µπορεί να δοθεί είναι ότι το σύστηµα αντισταθµίζει την ελάττωση της ποσότητας της πληροφορίας, που χαρακτηρίζει τη συγκεκριµένη περίπτωση. Οι αντίστοιχες τιµές της µετρικής recall ϕαίνονται στο σχήµα 5.4. Μία ση- µαντική παρατήρηση αφορά στις τιµές που προκύπτουν από την προτεινόµενη ταξινόµηση, και οι οποίες είναι µεγαλύτερες σε σύγκριση µε την περίπτωση 82

94 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 όπου kp os = 1. Η µέση τιµή για την περίπτωση της ταξινόµησης µε την practical scoring function προκύπτει r def = ενώ για την ταξινόµηση µε ϐάση τη ϑεµατική πληροφορία είναι r prop = , κάτι που σηµαίνει ϐελτίωση της µέσης τιµής κατά περίπου 181%. Το αποτέλεσµα αυτό επαληθεύει την αύξηση της ϑεµατικής πληροφορίας µε χρήση της προτεινόµενης ταξινόµησης. Επίσης, όπως ϕαίνεται από τις µέσες τιµές που προκύπτουν για τις µετρικές precision και recall, η συλλογή των ταξινοµηµένων εγγράφων µπορεί να περιέχει σχετικά µικρή ποσότητα χρήσιµης πληροφορίας, σε σχέση µε το άθροισµα της συνολικής πληροφορίας, ωστόσο αυτή η ποσότητα αντιστοιχεί σε ένα µεγάλο ποσοστό της συνολικής χρήσιµης πληροφορίας που υπάρχει σε ολόκληρη τη συλλογή. Σχήµα 5.4: Τιµές της µετρικής recall για kp os = 3 Πρέπει να τονιστεί ότι η ϐελτίωση των µέσων τιµών που παρουσιάστηκε στις προηγούµενες περιπτώσεις, δεν έχει την ίδια τιµή µε τη µέση ϐελτίωση των τιµών των µετρικών. Κι αυτό γιατί οι δύο αυτές ποσότητες υπολογίζονται µε διαφορετικό τρόπο. Οπως αναφέρθηκε και στην προηγούµενη ενότητα, η µετρική ϐελτίωσης της ποιότητας πληροφορίας έχει την ίδια τιµή στο ίδιο ερώτηµα και για τις δύο µετρικές. Επιλογή ϑέµατος µε το χαµηλότερο σκορ Στο τελευταίο τµήµα του πει- ϱάµατος αξιολογείται η ταξινόµηση που προκύπτει, όταν το ϑέµα που επιλέγεται είναι αυτό µε το χαµηλότερο σκορ, δηλαδή το λιγότερο σχετικό µε το ερώτηµα του χρήστη, kp os = 6. Σε ορισµένες περιπτώσεις, και ιδιαίτερα για ερωτήµατα αποτελούµενα από λίγες µόνον λέξεις, ενδέχεται να µην υπάρχει κοινός όρος ανάµεσα στις πιθα- 83

95 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 νότερες λέξεις του ϑέµατος και στο ερώτηµα. Σε αυτή την ιδιαίτερη περίπτωση, το σύστηµα συµπεριλαµβάνει στην λίστα των k d ϑεµάτων, ϑέµα ή ϑέµατα τα οποία δεν έχουν κανένα κοινό µε το ερώτηµα. Εχει ενδιαφέρον, λοιπόν, να εξεταστούν τα αποτελέσµατα που προκύπτουν από µια τέτοια επιλογή. Στο σχήµα 5.5 παρουσιάζεται το γράφηµα των τιµών της µετρικής precision για το σύνολο των 20 ερωτηµάτων. Με µια πρώτη µατιά ϕαίνεται αµέσως ότι οι τιµές είναι ακόµη χαµηλότερες σε σχέση µε τη περίπτωση του kp os = 3. Αυτό σηµαίνει ότι η ποσότητα της χρήσιµης πληροφορίας στην ταξινοµηµένη λίστα εγγράφων είναι πολύ µικρή σε σχέση µε το σύνολο της πληροφορίας σε αυτά. Σχήµα 5.5: Τιµές της µετρικής precision για kp os = 6 Σε αυτή την περίπτωση η µέση τιµή για τη µετρική precision είναι ίση µε p def = 0.032, πολύ µικρή, για την περίπτωση της ταξινόµησης µε την practical scoring function και p prop = για την προτεινόµενη. Η ϐελτίωση της µέσης τιµής υπολογίζεται στο 379%. Από τις µέχρι τώρα µέσες τιµές της µετρικής precision και τη ϐελτίωσή τους, γίνεται ϕανερό ότι όσο περισσότερο σχετίζεται το ϑέµα που χρησιµοποιείται για την ταξινόµηση των εγγράφων, µε το αρχικό ερώτηµα, τόσο µεγαλύτερη είναι η µέση ακρίβεια, ανεξαρτήτως της µεθόδου ταξινόµησης. Στην περίπτωση που ο χρήστης ενδιαφέρεται για ένα ϑέµα, το οποίο όµως δεν εκράζεται σωστά µέσα από το αρχικό του ερώτηµα, η ταξινόµηση των εγγράφων µε ϐάση το ερώτηµα αποτυγχάνει, ενώ αντίθετα, η ταξινόµηση που ϐασίζεται σε ϑεµατικές κατανοµές έχει σαφώς καλύτερα αποτελέσµατα. Τέλος, στο σχήµα 5.6 δίνεται το γράφηµα µε τις τιµές της µετρικής recall για το τελευταίο τµήµα του πειράµατος. 84

96 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 Η µέση τιµή της µετρικής για την ταξινόµηση µε την practical scoring function είναι ίση µε r def = , ενώ για την προτεινόµενη ταξινόµηση r prop = Η ϐελτίωση της µέσης τιµής ανάµεσα στις δύο µεθόδους είναι της τάξης του 417%, δηλαδή κάτι παραπάνω από 4 ϕορές καλύτερη ποιότητα πληροφορίας. Σχήµα 5.6: Τιµές της µετρικής recall για kp os = 6 Ενα σηµαντικό συµπέρασµα είναι το γεγονός ότι η µετρική recall συνεχίζει να διατηρεί υψηλές τιµές, ακόµη και στην περίπτωση ταξινόµησης µε ϑέµα µη σχετικό µε το αρχικό ερώτηµα. Αυτό δε ϑα έπρεπε να αποτελεί έκπληξη, καθώς ο µηχανισµός ϐασίζεται σε αυτήν ακριβώς την ιδέα. ηλαδή, την ταξινόµηση µε ϐάση τις ϑεµατικές κατανοµές και την ανακατάταξη των εγγράφων, έτσι ώστε η ϑεµατική πληροφορία να περιέχεται στα αποτελέσµατα. Αυτό είναι και το σηµαντικότερο πλεονέκτηµα του µηχανισµού σε σχέση µε απλά διανυσµατικά µοντέλα τα οποία λειτουργούν στη ϐάση της σύγκρισης όρων µεταξύ ερωτήµατος και εγγράφων. Τελικά είναι ϕανερό ότι : Η µέθοδος ταξινόµησης εγγράφων που κάνει χρήση της practical scoring function, η οποία ανήκει στην ευρύτερη οικογένεια των µεθόδων που κάνουν χρήση του διανυσµατικού µοντέλου, αποτυγχάνει να προσαρµοστεί σε τυχόν αλλαγές των ϑεµατικών ενδιαφερόντων του χρήστη, που ενδεχοµένως δεν αντιπροσωπεύονται άµεσα στο ερώτηµα. Η µέθοδος κατάταξης εγγράφων που κάνει χρήση ϑεµατικής πληρο- ϕορίας παρουσιάζει σηµαντικά καλύτερα αποτελέσµατα και µπορεί να προσαρµόζεται σε οποιαδήποτε επιλογή από πλευράς χρήστη. 85

97 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 Παράγοντας ϐελτίωσης Στις προηγούµενες παραγράφους παρουσιάστηκαν οι µετρικές precision και recall για τρεις διαφορετικές τιµές της µεταβλητής kp os. Για την συνολική αξιολόγηση της ϐελτίωσης χρησιµοποιήθηκε ο παράγοντας ϐελτίωσης των µέσων τιµών. Σε αυτή την παράγραφο γίνεται µια σύγκριση των τιµών που προκύπτουν για τη µετρική του παράγοντα ϐελτίωσης, όπως ορίστηκε στην προηγούµενη ενότητα, για τις τρεις διαφορετικές περιπτώσεις, kp os = {1, 3, 6}. Σχήµα 5.7: ιάγραµµα scatter των τιµών του παράγοντα ϐελτίωσης για kp os = {1, 3, 6} Στο σχήµα 5.7 παρουσιάζονται οι τιµές για τις τρεις διαφορετικές περιπτώσεις. Με απλή παρατήρηση των τιµών επαληθεύονται τα συµπεράσµατα που αντλήθηκαν από τα γραφήµατα και τις µέσες τιµές των υπολοίπων µετρικών. Είναι πλέον ξεκάθαρο ότι ο παράγοντας ϐελτίωσης εξαρτάται από τη σχέση του ερωτήµατος, το οποίο χρησιµοποιείται στην default ταξινόµηση, µε το ϑέµα, το οποίο χρησιµοποιείται στην προτεινόµενη ταξινόµηση. Φυσικά, αυτό δε σηµαίνει ότι στην περίπτωση του kp os = 1 δεν υπάρχει ικανοποιητική ϐελτίωση. Τελικά, ο πραγµατικός λόγος της αύξησης του παράγοντα ϐελτίωσης, µε την αύξηση του kp os έγκειται στην αδυναµία σύλληψης της ϑεµατικής πληροφορίας από την µέθοδο που χρησιµοποιεί την practical scoring function. Συνεπώς, το σύστηµα ϕαίνεται να έχει σχετικά σταθερή απόδοση, σε αντίθεση µε τη συγκρινόµενη µέθοδο, η οποία αποτυγχάνει να συλλάβει ϑεµατική πληροφορία που δεν σχετίζεται άµεσα µε το ερώτηµα εισόδου. 86

98 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο εύτερο πείραµα - Υπολογισµός µέσων τιµών για την περίπτωση ταξινόµησης µε 1, 2 και 3 ϑέµατα Το πείραµα αυτό αποτελείται από 9 επιµέρους ανεξάρτητα πειράµατα και έχει ως στόχο την αναλυτική αξιολόγηση του µηχανισµού και τη συνοπτική παρουσίαση των αποτελεσµάτων, κάνοντας χρήση στατιστικών µέσων τιµών, σε σχέση µε δύο ϑεµατικές παραµέτρους : τον αριθµό ϑεµάτων, k, µε ϐάση τα οποία γίνεται η ταξινόµηση της συλλογής εγγράφων τον συνολικό αριθµό ϑεµάτων K, που αποτελεί παράµετρο του µοντέλου LDA Τα επιµέρους πειράµατα διεξήθχησαν για τις τιµές K = {10, 30, 50}, k = {1, 2, 3}, Q = 20, d = 10. Ουσιαστικά, για κάθε τιµή στο σύνολο K ο υπολογισµός των µετρικών έγινε για κάθε δυνατό συνδυασµό k ϑεµάτων α- πό τα k d = 6 της ταξινοµηµένης λίστας. Το σύνολο των υπολογισµών για κάθε ερώτηµα δίνεται από τη σχέση c = k d! k! (k d k)! (5.6) ηλαδή, για k = 1 c = 6, ενώ για k = 2 c = 15 και τέλος για k = 3 c = 20. Με αυτό τον τρόπο εξαντλήθηκαν όλοι οι πιθανοί συνδυασµοί ϑεµάτων, που ϑα µπορούσαν να αποτελούν επιλογή του χρήστη. Για τα πειράµατα, ϑεωρήθηκε η τιµή k = 3 ως οριακή. Για τα 9 επιµέρους πειράµατα υπολογίστηκαν οι µέσες τιµές των µετρικών precision, recall και του παράγοντα ϐελτίωσης για το σύνολο των ερωτηµάτων. Τα αποτελέσµατα των πειραµάτων παρουσιάζονται συγκεντρωµένα στους πίνακες των σχηµάτων 5.8 και 5.9. Ο πρώτος περιλαµβάνει τις µέσες τιµές για την µετρική precision ενώ ο δεύτερος τις αντίστοιχες τιµές για τη µετρική recall. Τα συµπεράσµατα που προκύπτουν από τη µελέτη των αποτελεσµάτων ε- ίναι αρκετά ενδιαφέροντα. Αρχικά, παρατηρώντας τις τιµές για την µετρική precision συµπεραίνουµε ότι για συγκεκριµένο αριθµό ϑεµάτων K, υπάρχει αύξηση των τιµών της για αυξανόµενο αριθµό ϑεµάτων k. Αυτό οφείλεται στο ότι αυξάνοντας το k, για την ίδια ποσότητα πληροφορίας, ουσιαστικά αυξάνου- µε τη χρήσιµη ποσότητα πληροφορίας. Ωστόσο, η αύξηση της ακρίβειας της ϑεµατικής πληροφορίας που προκύπτει, αντισταθµίζεται από µια µείωση στον παράγοντα ϐελτίωσης. Αυτό συµβαίνει διότι όσο περισσότερα ϑέµατα υπάρχουν για την ταξινόµηση των εγγράφων, δηλαδή όσο µεγαλύτερο είναι το k, τόσο δυσκολότερος είναι ο καλός διαχωρισµός της χρήσιµης από τη µη-χρήσιµη πληροφορία. Επιπλέον, ϕαίνεται ότι για σταθερό k υπάρχει µείωση της ακρίβειας όταν αυξάνεται το K. Αυτό είναι αναµενόµενο και οφείλεται στην αύξηση της συνολικής ϑεµατικής πληροφορίας. Οσο µεγαλύτερος είναι ο αριθµός των ϑε- µάτων, K, τόσο µικρότερες είναι οι πιθανότητες έκφρασης των ϑεµάτων στα 87

99 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 έγγραφα. Συνεπώς, έχουµε µείωση του παράγοντα στον αριθµητή της εξίσωσης 5.2. Αντιθέτως, στην περίπτωση αυτή έχουµε αύξηση του παράγοντα ϐελτίωσης, διότι µεγάλο K σηµαίνει πολλά και καλά διαχωρίσιµα ϑέµατα. Επο- µένως, µπορεί η ποσότητα της χρήσιµης πληροφορίας να είναι µικρή, ωστόσο ευνοείται η σωστή ταξινόµησή της στη λίστα των d ταξινοµηµένων εγγράφων. Πρέπει να τονιστεί ότι οι χαµηλές τιµές για την µετρική precision είναι ανα- µενόµενες, ιδιαίτερα για µεγάλο K, καθώς το πλήθος της ϑεµατικής πληροφο- ϱίας είναι µεγάλο, και υπάρχει, όπως αναφέραµε και νωρίτερα στην ενότητα, ένα άνω ϕράγµα στην τιµή που µπορεί να λάβει η ποσότητα της χρήσιµης πληροφορίας. Σχήµα 5.8: Μέσες τιµές της µετρικής precision και του παράγοντα ϐελτίωσης για ένα σύνολο 9 πειραµάτων Με ϐάση τα παραπάνω, καταλαβαίνει κανείς ότι η µελέτη της µετρικής precision δεν δίνει από µόνη της σαφή συµπεράσµατα αναφορικά µε την απόδοση του συστήµατος. Πρέπει να εξετάζεται παράλληλα µε την µετρική recall. Από τον πίνακα 5.9, στον οποίο περιλαµβάνονται οι µέσες τιµές για την συγκεκριµένη µετρική, αντλούνται ορισµένα σηµαντικά συµπράσµατα. Καταρχάς, είναι ϕανερό ότι η µέση τιµή της µετρικής, στην περίπτωση των εγγράφων που έχουν προκύψει από την ταξινόµηση µε την practical scoring function, κυµαίνεται στο εύρος [ ], ανεξαρτήτως παραµέτρων. Αυτό µπορεί να εξηγηθεί ως τυχαιότητα, ιδιαίτερα αν σκεφτούµε ότι το ποσοστό αυτό αντιστοιχεί στο ποσοστό της ϑεµατικής πληροφορίας των d = 10 εγγράφων ως προς το σύνολο των N = 50 εγγράφων. 88

100 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 Στην περίπτωση των εγγράφων που προκύπτουν από ταξινόµηση µε ϑεµατικές κατανοµές, η µέση τιµή της µετρικής είναι σχετικά σταθερή και παίρνει µεγάλες τιµές. Εποµένως, αντλείται το συµπέρασµα ότι η µετρική αυτή δεν επηρεάζεται ιδιαίτερα από τις ϑεµατικές παραµέτρους. Αυτό ίσως εξηγείται από τη σχέση ορισµού της µετρικής, η οποία κάνει χρήση αποκελιστικά της χρήσιµης πληροφορίας. Για παράδειγµα, µια αλλαγή στην ποσότητα της χρήσιµης πληροφορίας, που µπορεί να οφείλεται στο K, αντισταθµίζεται λόγω του τρόπου υπολογισµού της µετρικής. Σχήµα 5.9: Μέσες τιµές της µετρικής recall και του παράγοντα ϐελτίωσης για ένα σύνολο 9 πειραµάτων Πάντως, από τον πίνακα του σχήµατος 5.9 εξάγεται το συµπέρασµα ότι η µετρική recall παίρνει τη µέγιστη τιµή της για K = 30 και µάλιστα σε καµία περίπτωση δεν µειώνεται κάτω από 0.7. Η εξάρτηση από την µεταβλητή k είναι σηµαντική. Οσο αυξάνεται η τιµή του k τόσο µειώνεται η µέση τιµή της µετρικής recall. Αυτή η µείωση οφείλεται πιθανώς στην αύξηση της ϑεµατικής πληροφορίας σε επίπεδο εγγράφων, που οφείλεται στην αύξηση του k. Οταν η χρήσιµη πληροφορία αυξάνεται ποσοτικά και κατανέµεται σε µεγάλο αριθµό ϑεµάτων, είναι δυσκολότερος ο διαχωρισµός της από τη µη-σχετική πληροφορία. Σε µία τέτοια περίπτωση, το σύστηµα επιχειρεί την ταξινόµηση των εγγράφων µε σκοπό να συµπεριλάβει όσο το δυνατόν µεγαλύτερο τµήµα της χρήσιµης πληροφορίας που υποδηλώνεται από τα k ϑέµατα. Ωστόσο, λόγω του µεγάλου k, υπάρχουν έγγραφα, που διαθέτουν σηµαντικό ποσοστό χρήσι- µης πληροφορίας και παρόλα αυτά µένουν εκτός 10άδας, καθώς υπάρχουν άλλα έγγραφα µε ακόµη υψηλότερο ποσοστό χρήσιµης πληροφορίας. 89

101 ιαδραστικό Μοντέλο Ερωταπάντησης Κεφάλαιο 5 Η παραπάνω παρατήρηση γίνεται, ίσως, καλύτερα κατανοητή µε το πα- ϱάδειγµα του σχήµατος Σε αυτό απεικονίζονται τα πρώτα 15 έγγραφα που προέκυψαν από µια ταξινόµηση 50 εγγράφων µαζί µε το σκορ που έλαβαε το καθένα, στη ϐάση ενός συνόλου k = 3 ϑεµάτων. Οπως είναι ϕανερό, ακόµη και µετά τις 10 πρώτες ϑέσεις, υπάρχουν έγγραφα που έχουν λάβει σχετικά υψηλά σκορ, διότι περιέχουν σηµαντικό ποσοστό της χρήσιµης πληροφορίας, όπως αυτή ορίζεται από τα 3 ϑέµατα που χρησιµοποιήθηκαν για την ταξινόµηση. Αυτή η πληροφορία ϑα χαθεί, εάν επιλέξουµε τα 10 πρώτα. Σχήµα 5.10: Παράδειγµα ταξινόµησης µιας λίστας εγγράφων µε ϐάση k = 3 ϑέµατα Με ϐάση το παραπάνω παράδειγµα, η επιλογή της τιµής d = 10 ϕαίνεται να επιδέχεται ϐελτίωση, για παράδειγµα µια τιµή d = 15 ϑα περιέχει, µε ϐάση τα σκορ των εγγράφων, µεγαλύτερο ποσοστό πληροφορίας. Ωστόσο, στη συγκεκριµένη περίπτωση, η αύξηση του αριθµού d πιθανώς ϑα οδηγήσει σε µείωση της ακρίβειας, λόγω της προσθήκης ποσότητας µη-χρήσιµης πληρο- ϕορίας, ενώ παράλληλα ϑα προκαλέσει αύξηση των χρόνων απόκρισης και ϑα επηρεάσει τα επόµενα στάδια της ανάλυσης. Εποµένως, όπως γίνεται αντιληπτό, σε πολλές περιπτώσεις πρέπει να γίνεται ένα trade-off ανάµεσα σε διαφορετικά χαρακτηριστικά, σε επίπεδο µετα- ϐλητών και παραµέτρων. Η τελική επιλογή εξαρτάται κυρίως από την σκοπιά από την οποία εξετάζεται το εκάστοτε πρόβληµα. Στα πλαίσια της συγκεκριµένης υλοποίησης, ϑεωρήθηκε ότι η τιµή d = 10 συλλαµβάνει ικανοποιητικό ποσοστό της χρήσιµης πληροφορίας. 90

Δείτε περισσότερα