Συστήματα Ερωταποκρίσεων με χρήση Οντολογιών

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ Συστήματα Ερωταποκρίσεων με χρήση Οντολογιών Α.Μ: 742 Επιβλέπων καθηγητής: Επίκουρος καθ. κ. Μακρής Χρήστος Φεβρουάριος Πανεπιστήμιο Πατρών Τμήμα Μηχανικών Η/Υ και Πληροφορικής

2 Πανεπιστήμιο Πατρών, Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής 2016 Με την επιφύλαξη παντός δικαιώματος

3 Ευχαριστίες Η παρούσα εργασία αποτελεί διπλωματική εργασία στα πλαίσια του μεταπτυχιακού προγράμματος «Επιστήμης και Τεχνολογίας Υπολογιστών» του τμήματος Μηχανικών Η/Υ και Πληροφορικής του Πανεπιστημίου Πατρών. Θα ήθελα να ευχαριστήσω τους ανθρώπους που έπαιξαν σημαντικό και καθοριστικό ρόλο για την ολοκλήρωση της παρούσας εργασίας. Πρώτο από όλους θέλω να ευχαριστήσω τον επιβλέποντα καθηγητή της διπλωματικής εργασίας, Επίκουρο καθηγητή κ. Χρήστο Μακρή για την πολύτιμη καθοδήγηση, την εμπιστοσύνη και την εκτίμηση που μου έδειξε. Στη συνέχεια, θα ήθελα να ευχαριστήσω τον διδάκτορα κ, Ιωάννη Πλέγα που με τα πλούσια πνευματικά προσόντα του, την υποστήριξη και τη βοήθεια του συνέβαλε στην ουσιαστική διεκπεραίωση αυτής της διπλωματικής εργασίας. Τις ευχαριστίες μου εκφράζω και στους καθηγητές κ. Αθανάσιο Τσακαλίδη και κ. Ιωάννη Χατζηλυγερούδη που δέχτηκαν να είναι μέλη της τριμελής επιτροπής αξιολόγησης της μεταπτυχιακής εργασίας. 3 Σ ε λ ί δ α

4 Περίληψη Η παρούσα εργασία περιέχει μια γενική ανάλυση των συστημάτων Ερωταποκρίσεων και ένα πρότυπο σύστημα Ερωταποκρίσεων βασισμένο σε Οντολογίες. Αρχικά γίνεται μια εκτεταμένη ανάλυση στον τρόπο λειτουργίας των συστημάτων Ερωταποκρίσεων. Στη συνέχεια εξειδικεύεται η περιγραφή αυτή στα συστήματα Ερωταποκρίσεων στο Σημασιολογικό Ιστό και στο τέλος παρουσιάζεται ένα πρότυπο σύστημα Ερωταποκρίσεων που χρησιμοποιεί τα εργαλεία του Σημασιολογικού Ιστού για να απαντήσει αποδοτικά σε ερωτήσεις φυσικής γλώσσας. Η Βασική ιδέα του συστήματος είναι η μετατροπή των αποτελεσμάτων της μηχανής αναζήτησης σε μια συνολική οντολογία, ενσωματώνοντας τη σημασιολογική ανάλυση των κειμένων ως μια σημασιολογική πληροφορία. Για να επιτευχθεί το παραπάνω, για όλους τους τύπους των πιθανών ερωτημάτων που μπορεί να τεθούν στη μηχανική αναζήτησης έχουν δημιουργηθεί αντίστοιχοι λογικοί κανόνες, υποδεικνύοντας τον τρόπο με τον οποίο το κείμενο και η συντακτική του δομή θα δομηθούν εντός της οντολογίας, χρησιμοποιώντας τη γλώσσα οντολογίας ιστού ΟWL. Στη συνέχεια, για την εύρεση και παρουσίαση των αποτελεσμάτων για τα ερωτήματα που υποβάλλονται, δημιουργείται ένα δομικό πλαίσιο εργασίας(structural framework) χρησιμοποιώντας εργαλεία εξαγωγής συμπερασμάτων. Η εφαρμογή έχει δημιουργηθεί ως αυτόνομη εφαρμογή ιστού δίνοντας σε έναν απλό χρήστη τη δυνατότητα να εκτελέσει μια ερώτηση φυσικής γλώσσας χρησιμοποιώντας τη μηχανή αναζήτησης Indri και κομμάτια του πακέτου δεδομένων Clueweb09. 4 Σ ε λ ί δ α

5 Περιεχόμενα Ευχαριστίες... 3 Περίληψη... 4 Περιεχόμενα Εισαγωγή Συστήματα Ερωταποκρίσεων Εισαγωγή Ορισμοί Γενική Αρχιτεκτονική Συστημάτων Ερωταποκρίσεων Κατηγοριοποίηση Ερωτήσεων Αναδόμηση των Ερωτημάτων Ταξινόμηση Αποτελεσμάτων Συστήματα Ερωταποκρίσεων στον Σημασιολογικό Ιστό Σημασιολογικός Ιστός Συντακτική Επεξεργασία Αρχιτεκτονική Εξειδικευμένες Μέθοδοι Βελτιστοποίησης Επέκταση της SPARQL για επιστροφή βελτιωμένων απαντήσεων Σημασιολογική επεξεργασία για Ερωταποκρίσεις σε Γνωσιακή Βάση. 35 Σχολιασμός-Κειμένων και Τεχνικές Σήμανσης Επέκταση Ερωτημάτων και Πρότυπα Κειμένου Χρήση Οντολογιών για τον Καθορισμό των Δεδομένων Συστήματα Ερωταποκρίσεων στον Ιστό AquaLog Παράδειγμα Εφαρμογής Αρχιτεκτονική QuestIO AQUA Το Μοντέλο LogAnswer Πρότυπο Σύστημα Ερωταποκρίσεων με Χρήση Οντολογιών Εισαγωγή Κανόνες Περιγραφικής Λογικής και Οντολογία συστήματος Σ ε λ ί δ α

6 Μορφοσυντακτική Ανάλυση OWL DL κανόνες και αξιώματα Κλάσεις Στιγμιότυπα Ιδιότητες Αντικειμένου OWL Σύνταξη Αυτόματο Σύστημα Ερωταποκρίσεων από Οντολογία(QASOn) Κατασκευή Οντολογίας Δόμηση ερωτήματος χρήστη για την οντολογία Εύρεση των κατάλληλων ιδιοτήτων αντικειμένου στην οντολογία Δημιουργία των απαντήσεων για το χρήση σε φυσική γλώσσα Πειραματική διαδικασία Σύνολο Πειραματικών Δεδομένων Υλοποιημένα Συστήματα Πειραματικά Αποτελέσματα Ερωτήσεις από το δικό μας σύνολο δεδομένων Ερωτήσεις κατασκευασμένες από Web Tracks Συμπεράσματα Βιβλιογραφία Σ ε λ ί δ α

7 Περιεχόμενα Σχημάτων Σχήμα 1. Τρόποι βελτίωσης των συστημάτων Ερωταποκρίσεων Σχήμα 2: Παράδειγμα μορφοσυντακτικής ανάλυσης με σημασιολογικό ενδιαφέρον Σχήμα 3. Παράδειγμα Ερωτήματος σε SPARQL Σχήμα 4. Παράδειγμα γραφήματος Freebase Σχήμα 5. Διαγράμματα Επεξεργασίας για διαφορετικά συστήματα Ερωταποκρίσεων Σχήμα 6. Μοντέλα Υπολογισμού για Επέκταση Ερωτημάτων Σχήμα 7. Περιγραφή μοντέλου Υπολογισμού Σχήμα 8. Μοντέλο Υπολογισμού του AquaLog Σχήμα 9. Γενική Αρχιτεκτονική του AquaLog Σχήμα 10. Διάγραμμα QuestIO Σχήμα 11. Εργαλείο Ανάλυσης Ερωτημάτων Σχήμα 12. Αρχιτεκτονική AQUA Σχήμα 13. Αρχιτεκτονική LogAnswer Σχήμα 14. Έξοδος του συντακτικού αναλυτή (parser) για τη πρόταση Computer science is a discipline that spans theory and practice Σχήμα 15: Παράδειγμα εφαρμογής 1 ου κανόνα Σχήμα 16: Παράδειγμα εφαρμογής του 2 ου κανόνα Σχήμα 17: Παράδειγμα εφαρμογής του 4 ου κανόνα για το σωστό ορισμό των κλάσεων Σχήμα 18: Ιεραρχική δομή των ιδιοτήτων αντικειμένου Σχήμα 19: Αναπαράσταση τριπλέτας μέσω ορισμού Ιδιότητας Αντικειμένου στην OWL Σχήμα 20 Αρχιτεκτονική του μοντέλου Σχήμα 21: Δομή της οντολογίας Σχήμα 22: Παράδειγμα Οντολογίας Σχήμα 23: παράδειγμα δενδρικής συντακτικής δομής ερώτησης χρήστη Σχήμα 24: Question Answering System using the search engine Indri Περιεχόμενα Πινάκων Πίνακας 1: OWL DL Περιγραφές, εύρη δεδομένων, ιδιότητες, στιγμιότυπα και τιμές δεδομένων Πίνακας 2: OWL DL Αξιώματα και κανόνες Πίνακας 3. Ετικέτες(Pos tags) για κάθε μέρος του λόγου σύμφωνα με το συντακτικό Πίνακας 4: OWL DL κανόνες και αξιώματα για τη δημιουργία οντολογίας στο QASOn Πίνακας 5: OWL DL Κανόνες για την απάντηση όλων των τύπων ερωτήσεων που αναγνωρίζει το QASOn Πίνακας 6: Ποσοστά επιστροφής σωστών απαντήσεων σε ερωτήσεις των ερευνητών από τη μηχανή Indri Σ ε λ ί δ α

8 Πίνακας 7: Ποσοστά επιστροφής σωστών απαντήσεων σε ερωτήσεις των ερευνητών από τη μηχανή Google Πίνακας 8: Ποσοστά επιστροφής σωστών απαντήσεων σε ερωτήσεις Web Tracks από τη μηχανή Indri Πίνακας 9: Ποσοστά επιστροφής σωστών απαντήσεων σε ερωτήσεις Web Tracks από τη μηχανή Google Πίνακας 10: DCG για τα ερωτήματα στο Web Track Πίνακας 11: DCG για τα ερωτήματα στο Web Track Σ ε λ ί δ α

9 1. Εισαγωγή Η διαδικασία των Ερωταποκρίσεων (Question-Answering) είναι μια περιοχή της Ανάκτησης Πληροφοριών(IR) που προσελκύει όλο και περισσότερη προσοχή. Ένα σύστημα Ερωταποκρίσεων ψάχνει μια μεγάλη συλλογή κειμένων και βρίσκει μια σύντομη φράση ή μια πρόταση να απαντά ακριβώς σε μια ερώτηση ενός χρήστη. Στο Κεφάλαιο αυτό περιγράφονται οι γενικές κατευθύνσεις στα συστήματα Ερωταποκρίσεων και δίνονται οι βασικές πληροφορίες έτσι ώστε να καλυφθεί το υπόβαθρο που απαιτείται για την ανάλυση των συστημάτων που ακολουθούν στα επόμενα κεφάλαια. Η διαδικασία απάντησης ερωτήσεων φυσικής γλώσσας, αρχικά, αντιμετωπιζόταν όπως η διαδικασία κλασσικής αναζήτησης πληροφορίας, κατά την οποία οι χρήστες εισάγουν ένα ερώτημα και ανακτούν ένα σύνολο από ταξινομημένα αποτελέσματα από σελίδες του Ιστού. Όμως, η επέκταση του Παγκόσμιου Ιστού οδήγησε στην ανάγκη δημιουργίας συστημάτων που απαντούν στις ερωτήσεις των χρηστών χωρίς να επιστρέφονται επιπλέον πληροφορίες. Αυτές οι απαντήσεις μπορεί να περιλαμβάνουν πληροφορίες από τρέχουσες και έγκυρες πηγές, με όρους με την ίδια σημασία με αυτούς που βρίσκονται στο ερώτημα, με σχετικούς συνδέσμους, με ερωτήσεις παρακολούθησης των αποτελεσμάτων, καθώς και πληροφορίες προέλευσης (συγγραφείς, ημερομηνία εισόδου, κύρος, την πηγή, κατάταξη, και ούτω καθεξής). Επίσης τα πιο πρόσφατα συστήματα ενσωματώνουν τα εργαλεία του Σημασιολογικού Ιστού και παρέχουν, επιπρόσθετα, καλύτερη υποστήριξη στα ερωτήματα. Αυτό εκφράζεται στην αξιολόγηση του συστήματος και συγκεκριμένα από το αν τα αποτελέσματα δεν είναι ικανοποιητικά, και συνεπώς και η ερώτηση του χρήστη δεν μπορεί να απαντηθεί, και στο αν είναι πολύ γενικά, και επιστρέφονται πολλά αποτελέσματα, ή πολύ περιορισμένα και επιστρέφει πολύ λίγα αποτελέσματα. Η διαδικασία που ακολουθείται στα συστήματα Ερωταποκρίσεων εστιάζει σε τρεις βασικές περιοχές: το περιεχόμενο (μια βάση πληροφοριών από έγγραφα του Ιστού) το ερώτημα/ερώτηση και τις απαντήσεις. Στο Σχήμα 1 φαίνεται ένα σύνολο από διαδικασίες που μπορούν να ενσωματωθούν στην βασική διαδικασία απάντησης ερωτημάτων έτσι ώστε να αυξηθεί η απόδοση των συστημάτων αυτών. 9 Σ ε λ ί δ α

10 Χειρισμός Δεδομένων Σχήμα 1. Τρόποι βελτίωσης των συστημάτων Ερωταποκρίσεων Ένας τρόπος για να βελτιωθεί η ποιότητα των κειμένων είναι να προστεθεί πληροφορία μεταδεδομένων για να βοηθηθεί το σύστημα Ερωταποκρίσεων με σκοπό να βρει τις σωστές απαντήσεις. Η προέλευση είναι μια απλή πηγή πληροφοριών. Άλλες πληγές δεδομένων είναι: Πληροφορίες στις Επικεφαλίδες. Τα προγράμματα ή οι χρήστες μπορούν να αποθηκεύσουν πληροφορίες μεταδεδομένων στην επικεφαλίδα των εγγράφων, να την διαμοιράσουν μέσω της δομής του εγγράφου και να την αποθηκεύσουν σε μια βάση μεταδεδομένων όπως η IWBase 1. Οι μηχανές αναζήτησης μπορούν να χρησιμοποιήσουν αυτήν την πληροφορία για να προσδιορίσουν την σειρά των απαντήσεων ή για να διαλέξουν ποια έγγραφα θα επιλέξουν για να τοποθετηθούν πιο υψηλά στη σειρά από άλλα. Χρήσιμους Συνδέσμους. Τα έγγραφα συνήθως περιλαμβάνουν επιπλέον ετικέτες στα δεδομένα τους υιοθετώντας ένα κοινά διαθέσιμο λεξιλόγιο από σχετικές βάσεις γνώσης. Για παράδειγμα, μπορεί να χρησιμοποιηθεί ένας μηχανισμός με χρήσιμους συνδέσμους όπως το Sentius 2 ή οι έξυπνες ετικέτες 3 της Microsoft για να εισαχθούν αυτόματα συνεπείς και λειτουργικές ετικέτες. Τα συστήματα, στη συνέχεια, μπορούν να παρουσιάσουν στους χρήστες εκφράσεις με αντίστοιχες επιλογές. Αυτή η τεχνική ενσωμάτωσης ετικετών στις απαντήσεις παρέχει ένα συνεπή και αυτόματο τρόπο επισήμανσης των δεδομένων. Επισήμανση των Όρων του Κειμένου. Μια άλλη τεχνική είναι η προσθήκη ετικετών επισήμανσης των όρων του κειμένου. Για παράδειγμα, σε μια σελίδα www. sentius.com 3 com/library/default.asp?url=/library/en-us/modcore/html/ deoriworkingwithfactoids.asp 10 Σ ε λ ί δ α

11 που αναφέρεται ένα πανεπιστήμιο, η λέξη αυτή μπορεί να επισημανθεί με μια ετικέτα με την σελίδα του πανεπιστημίου αυτού. Στη συνέχεια, αν κάποιος χρήστης αναζητήσει πληροφορίες για το πανεπιστήμιο αυτό, το σύστημα θα χρησιμοποιήσει την πληροφορία της ιστοσελίδας για να ανακτήσει πληροφορίες. Γλώσσες όπως οι W3C s OWL4 ή η απλή XML μπορούν να χρησιμοποιηθούν για επισήμανση όρων. Χρήση Οντολογιών για Ορισμό Όρων. Αν τα έγγραφα είναι ημιδομημένα ή δομημένα, ένα σύστημα μπορεί να εξάγει περισσότερη σημασιολογία και να χρησιμοποιήσει έννοιες όπως το όνομα και το εύρος των τιμών για να ελέγχεται η συνέπεια των δεδομένων. Με τον τρόπο αυτό εδραιώνονται οι συνδέσεις με τις μηχανές συμπερασμάτων(reasoners) που χρησιμοποιούν συμπερασματική λογική για να κάνουν την υπονοούμενη πληροφορία συγκεκριμένη. Η δομημένη ή ημιδομημένη πληροφορία χρησιμοποιεί ένα σχήμα βάσης ή μια βάση γνώσης από όρους και τις αντίστοιχες συσχετίσεις τους, επιτρέποντας τη διαχείριση των αντικειμένων. Ένα σχήμα βάσης μπορεί να θεωρηθεί ένα σύνολο από περιγραφές μιας φράσης (κλάσεις, ιδιότητες, και πληροφορίες τομέα και εύρους). Αυτές οι πληροφορίες μπορούν να αποθηκευτούν σε μια OWL οντολογία ή σε οποιαδήποτε γλώσσα ικανή να αναπαραστήσει κλάσεις, ιδιότητες, περιορισμούς, και ατομικές πληροφορίες. Βάση Γνώσης Περιεχομένου. Για κάθε φράση που αναγνωρίζεται στην βασική πηγή γνώσης όπως μια φράση σε μια οντολογία ή βάση γνώσης, οι συγγραφείς ή τα προγράμματα μπορούν να προσθέσουν ετικέτες για το είδος του όρου. Αν τα προγράμματα αναπαριστούν μια πλήρης βάση γνώσης με περιεχόμενο τότε πρέπει να διατηρηθεί επίσης και η ατομική πληροφορία με εκτεταμένη δομή. Συνεπώς η πηγή μπορεί να έχει επιπλέον επισήμανση από τη βάση γνώσης. Χειρισμός Ερωτήσεων και Απαντήσεων Μια μικρή περιγραφή του τρόπου χειρισμού των ερωτήσεων και των απαντήσεων στα συστήματα Ερωταποκρίσεων δίνεται παρακάτω: Συνδέσεις για τους Όρους των Ερωτήσεων/Ερωτημάτων. Αυτή η απλή προσέγγιση επιτρέπει να προκαθοριστούν σύνδεσμοι από προτιμώμενες απαντήσεις για συγκεκριμένους όρους μιας ερώτησης. Επέκταση Ερωτημάτων και Επεξεργασία. Ένα σύστημα μπορεί να επαυξήσει ένα ερώτημα επεκτείνοντάς το με όρους σχετικούς με το αρχικό ερώτημα για να βρει τις καταλληλότερες απαντήσεις. Για παράδειγμα ένα σύστημα μπορεί να επεκτείνει ένα ερώτημα για τη λέξη «car» με συνώνυμα της λέξης όπως το «auto». 11 Σ ε λ ί δ α

12 Επέκταση Απαντήσεων χρησιμοποιώντας Οντολογίες. Η μέθοδος αυτή επιτρέπει στα συστήματα να επεκτείνουν τις απαντήσεις με αναγνωρισμένα αντικείμενα που ικανοποιούν το ερώτημα. Τα συστήματα ανάκτησης πληροφοριών συνήθως δεν αναγνωρίζουν το τμήμα του κειμένου που περιέχει τις απαντήσεις. Για παράδειγμα, οι χρήστες που ζητούν πληροφορίες για τα πανεπιστήμια στη «Santa Clara» επιθυμούν περισσότερες πληροφορίες από τα ονόματα των πανεπιστημίων «Stanford University». Επιθυμούν να αναγνωριστούν αντικείμενα των πανεπιστημίων που περιέχουν πολλαπλές πληροφορίες όπως η διεύθυνση, οι φοιτητές, και ούτω καθεξής. Τα νέα συστήματα Ερωταποκρίσεων θα πρέπει να δίνουν την δυνατότητα στους χρήστες να αποκτούν πρόσβαση σε ευρύτερες πληροφορίες πάνω στο αντικείμενο που αναζητούν. Πλήρης Αναπαράσταση Γνώσης για τις Ερωτήσεις και τις Απαντήσεις. Όταν οι ερωτήσεις/ερωτήματα μετατρέπονται από μη δομημένες μορφές σε δομημένες, τα συστήματα μπορούν να υποστηρίξουν τεχνικές πλήρης αναπαράστασης της γνώσης για τις ερωτήσεις/ερωτήματα και τις απαντήσεις. Οι παραπάνω τεχνικές εφαρμόζονται στα υπάρχοντα συστήματα και στις υπάρχουσες τεχνικές που αναλύονται στο υπόλοιπο του κειμένου, και ταυτόχρονα έχουν υιοθετηθεί στο σύστημα Ερωταποκρίσεων που κατασκευάσθηκε και αναλύεται στο Κεφάλαιο 5. Το υπόλοιπο κείμενο είναι οργανωμένο ως εξής: Στο Κεφάλαιο 2 δίνεται μια γενική περιγραφή της λειτουργίας των συστημάτων Ερωταποκρίσεων ενώ στο Κεφάλαιο 3 γίνεται μια εξειδίκευση στα συστήματα Ερωταποκρίσεων που χρησιμοποιούν εργαλεία του Σημασιολογικού Ιστού για να επιστρέψουν τις σωστές απαντήσεις στις πληροφοριακές ανάγκες των χρηστών. Επίσης, στο Κεφάλαιο 3 δίνεται ένα σύνολο από σημαντικές εργασίες της βιβλιογραφίας για την βελτίωση των συστημάτων Ερωταποκρίσεων. Στο Κεφάλαιο 4, περιγράφεται η αρχιτεκτονική λειτουργίας των πιο σημαντικών συστημάτων Ερωταποκρίσεων που λειτουργούν στον Παγκόσμιο Ιστό και τα οποία υιοθετούν τεχνικές και εργαλεία του Σημασιολογικού Ιστού. Τέλος, στο Κεφάλαιο 5 αναλύεται λεπτομερώς το σύστημα Ερωταποκρίσεων που κατασκευάστηκε και υλοποιήθηκε με χρήση οντολογιών και εργαλείων του Σημασιολογικού Ιστού. 12 Σ ε λ ί δ α

13 2. Συστήματα Ερωταποκρίσεων Η διαδικασία απάντησης ερωτήσεων είναι μια περιοχή της Ανάκτησης Πληροφορίας με την επιπλέον πρόκληση της εφαρμογής εξελιγμένων τεχνικών για την αναγνώριση των πολύπλοκων συντακτικών και σημασιολογικών συσχετίσεων που υπάρχουν σε ένα κείμενο[102]. Σκοπός είναι να επιστραφεί μια πιο ολοκληρωμένη και ικανοποιητική απάντηση στις πληροφοριακές ανάγκες του χρήστη. Για το λόγο αυτό, οι συγγραφείς βλέπουν τη διαδικασία της απάντησης ερωτήσεων ως το επόμενο βήμα μετά την κλασσική ανάκτηση πληροφορίας. Σε αυτό το κεφάλαιο παρέχεται μια περιγραφή της συνολικής λειτουργίας ενός συστήματος Ερωταποκρίσεων και των βασικών τεχνικών που απαιτούνται για να λειτουργήσει σωστά Εισαγωγή Το κεφάλαιο αυτό ασχολείται γενικά με τα συστήματα Ερωταποκρίσεων (Question Answering - QA). Ξεκινώντας θα γίνει αναφορά στα πλεονεκτήματα των συστημάτων Ερωταποκρίσεων σε σχέση με τα παραδοσιακά συστήματα αναζήτησης με λέξεις κλειδιά. Το κύριο μέρος αυτού του κεφαλαίου περιγράφει τις βασικές αρχές των συστημάτων Ερωταποκρίσεων και τα βασικά χαρακτηριστικά των πιο χαρακτηριστικών συστημάτων ερωταποκρίσεων που λειτουργούν τα τελευταία χρόνια. Καλύπτονται οι βασικές κατηγορίες όλων των συστημάτων καθώς επίσης και το ποσοστό της σημασιολογικής πληροφορίας που χρησιμοποιείται κατά την επεξεργασία. Αναλύονται οι πιο σημαντικές τεχνικές και δίνεται έμφαση κυρίως στην επεξεργασία φυσικής γλώσσας και τις μεθόδους που επιτυγχάνουν την καλύτερη προσέγγιση. Σε δυο κατηγορίες συστημάτων κυρίως γίνεται λεπτομερή προσέγγιση, στα συστήματα που χρησιμοποιούν σαν είσοδο αδόμητα δεδομένα κειμένου και σε αυτά που χρησιμοποιούν δεδομένα που είναι επεξεργασμένα με εργαλεία Σημασιολογικής Αποσαφήνισης (Σημασιολογικός Ιστός). Τα συστήματα ερωταποκρίσεων προσφέρουν στους χρήστες καλύτερα αποτελέσματα σε σχέση με τα παραδοσιακά συστήματα αναζήτησης με πολλαπλούς τρόπους: Στοχευμένα και πιο σχετικά αποτελέσματα, αφού επιστρέφονται απαντήσεις και όχι ολόκληρα αποτελέσματα. Απλούστερο περιβάλλον διαχείρισης, αφού οι χρήστες εισάγουν ερωτήσεις αντί να επιλέγουν πληθώρα επιλογών για την βελτίωση της ποιότητας των αποτελεσμάτων. Ειδικά για τη σχετικότητα των αποτελεσμάτων, η χρήση βελτιωμένων μαθηματικών αναλύσεων για τις ερωτήσεις και η σημασιολογική επεξεργασία των δεδομένων οδηγούν σε υψηλής ακρίβειας απαντήσεις. Επιπλέον συστήματα που χρησιμοποιούν 13 Σ ε λ ί δ α

14 εργαλεία του Σημασιολογικού Ιστού όπως το σύστημα που παρουσιάζουμε στο Κεφάλαιο 5, μετασχηματίζουν τα δεδομένα και τις ερωτήσεις σε ένα σύνολο λογικών κανόνων πάνω στους οποίους αναπτύσσεται σημασιολογική λογική για την εξαγωγή των απαντήσεων. Επίσης, από την μεριά του περιβάλλοντος διαχείρισης, μπορούμε να σκεφτούμε ότι για να λάβουμε πληροφορίες από μια παραδοσιακή μηχανή αναζήτησης χρειάζεται να εκτελέσουμε κάποια ερωτήματα μέχρι να βρούμε το κατάλληλο ερώτημα και κάθε φορά να εξετάζουμε ένα σύνολο αποτελεσμάτων για το αν περιέχουν την απάντηση που ψάχνουμε. Αντιθέτως με ένα σύστημα ερωταποκρίσεων μπορούμε να εκτελέσουμε μια ερώτηση και να επιστραφούν σαν απαντήσεις μόνο οι πληροφορίες που μας ενδιαφέρουν χωρίς να χρειάζεται να τις αναζητήσουμε μέσα σε αποτελέσματα, πράγμα που είναι σαφώς πιο εύχρηστο για ένα χρήστη. Η φιλικότητα του περιβάλλοντος των συστημάτων Ερωταποκρίσεων θα αποτελέσει και ένα από τους βασικούς λόγους που οι παραδοσιακές μηχανές αναζήτησης θα αναπτύξουν ή έχουν αναπτύξει υποσυστήματα Ερωταποκρίσεων παράλληλα με τον παραδοσιακό τρόπο λειτουργίας τους Ορισμοί Μια ερωταπόκριση/ερωταπάντηση είναι μια διαδικασία κατά την οποία ένα ερώτημα σε φυσική γλώσσα απαντάται με ένα σύνολο από σχετικές απαντήσεις με την μορφή προτάσεων ή φράσεων [96]. Τα συστήματα Ερωταποκρίσεων σχετίζονται με πολλές και σημαντικές περιοχές γνώσης [84], ανάμεσα σε αυτές είναι η Ανάκτηση Πληροφορίας (Information Retrieval) [41], η Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing) [98, 101], η Εξαγωγή Πληροφορίας και η Αναπαράσταση Γνώσης και Λογικής [49]. Τα συστήματα Ερωταποκρίσεων κατηγοριοποιούνται κυρίως σε δυο κατηγορίες: στην φύση των δεδομένων που χειρίζονται και στο επίπεδο της σημασιολογικής επεξεργασίας που έχουν υποστεί τα δεδομένα. Όσο αφορά στις πηγές πληροφορίας που χρησιμοποιούν, χωρίζονται σε : κλειστού τομέα: ερωτήσεις σχετικές με έναν συγκεκριμένο τομέα γνώσης (ευκολότερη επεξεργασία). Συνήθως η πληροφορία αναπαρίσταται μέσω οντολογιών. ανοιχτού τομέα: Το εύρος των ερωτήσεων δεν οριοθετείτε και μπορούν να γίνουν όλες οι δυνατές ερωτήσεις σε ένα σύνολο πληροφορίας. Δυσκολότερη 14 Σ ε λ ί δ α

15 επεξεργασία και συνήθως χρειάζεται και προεργασία της σημασιολογικής δομής της πληροφορίας έτσι ώστε να είναι αποδοτικό το σύστημα Γενική Αρχιτεκτονική Συστημάτων Ερωταποκρίσεων Για να γίνουν καλύτερα κατανοητές οι δυνατότητες των συστημάτων Ερωταποκρίσεων, πρέπει να αναλυθούν οι ερωτήσεις που μπορούν να υποστηρίξουν. Σε γενικές γραμμές, υπάρχουν δυο βασικές κατηγορίες : απλές ερωτήσεις: ερωτήσεις των οποίων η απάντηση είναι μικρή, δηλαδή μια λέξη ή μια φράση(όνομα, ημερομηνία, αριθμός, κτλ.). Παράδειγμα, «What is my Ip?», «Who is president in Greece?» σύνθετες/πολύπλοκες ερωτήσεις(στην βιβλιογραφία αναφέρονται και σαν why-questions): ερωτήσεις των οποίων η απάντηση είναι σύνθετη και αποτελείται από μια πρόταση ή παράγραφος που πολλές φορές χρειάζεται να συντεθεί από διαφορετικές πηγές. Για την εύρεση των απαντήσεων σε σύνθετες ερωτήσεις απαιτείται η χρήση προηγμένων τεχνικών επεξεργασίας φυσικής γλώσσας και για την κατανόηση της ερώτησης αλλά και για την εξαγωγή των απαντήσεων και την παρουσίασή τους στον χρήστη. Σε αντίθεση με τις απλές ερωτήσεις που οι απαντήσεις συνήθως βρίσκονται αυτούσιες μέσα στην πληροφορία, στις σύνθετες ερωτήσεις πολλές φορές χρειάζεται η σημασιολογική επεξεργασία και η εξαγωγή λογικής από την πληροφορία. Στην εργασία [90] υπάρχει μια βασική κατηγοριοποίηση των ερωτήσεων και των συστημάτων Ερωταποκρίσεων σε πέντε κατηγορίες σύμφωνα με την πολυπλοκότητά τους. Επίσης μια χαρακτηριστική εργασία που περιγράφει σύνθετες ερωτήσεις είναι αυτή των [118]. Κατηγοριοποίηση Ερωτήσεων Τα περισσότερα συστήματα Ερωταποκρίσεων ακολουθούν τις ίδιες βασικές διαδικασίες για την κατάταξη των ερωτήσεων και την εξαγωγή των απαντήσεων. Συνήθως σκοπός των συστημάτων είναι να βρουν αρχικά τον τύπο της ερώτησης αφού κάνουν ένα πέρασμα σε αυτή. Στην συνέχεια κατηγοριοποιούν την ερώτηση ανάλογα με το είδος. Στις απλές ερωτήσεις υπάρχουν πέντε βασικές κατηγορίες σύμφωνα με την εργασία των [114]: 1. απλές ερωτήσεις (who, when, where ερωτήσεις) 2. ερωτήσεις ορισμών (what is ) 3. ερωτήσεις κατάφασης/άρνησης (yes or no) 4. σύνθετες ερωτήσεις (why ή how) 15 Σ ε λ ί δ α

16 5. ερωτήσεις επιλογής (list) Μια πιο αναλυτική κατηγοριοποίηση, η οποία περιλαμβάνει και την σημασιολογία των ερωτήσεων παρουσιάστηκε στην εργασία [97]. Περιλαμβάνεται μια κατηγοριοποίηση με έντεκα τύπους ερωτήσεων που στηρίχθηκε σε επιπλέον δεδομένα. Τέλος, στην εργασία [18] παρουσιάσθηκε μια κατηγοριοποίηση τριών επιπέδων, στο πρώτο επίπεδο υπάρχουν τέσσερις κυρίως τύποι (όνομα, ορισμός, ημερομηνία και ποσότητα). Στο δεύτερο και στο τρίτο επίπεδο είναι πιο τυπικά ορισμένοι τύποι δεδομένων. Επίσης στα επίπεδα αυτά, η περιγραφή και η ανάλυση ενός τύπου επεκτείνεται σε διαφορετικά επίπεδα. Συνήθως οι ταξινομήσεις των τύπων είναι ενός επιπέδου, για αυτό οι πολλαπλών επιπέδων ταξινομήσεις δίνουν μεγαλύτερη ακρίβεια στην επιλογή του τύπου της ερώτησης. Παρόλα αυτά υπάρχουν διάφορες μελέτες που υποστηρίζουν είτε το σενάριο ενός επιπέδου [68] είτε το σενάριο πολλαπλών επιπέδων [69]. Σε κάθε περίπτωση, η αποσαφήνιση του τύπου της ερώτησης όταν μπορεί να καλυφθεί από διαφορετικούς τύπους είναι μια σημαντική διαδικασία που συνήθως οδηγεί στην αντιστοίχιση της ερώτησης με πολλαπλούς τύπους είτε με τον τύπο που σχετίζεται με την ερώτηση σε μεγαλύτερο βαθμό [118]. Η αντιστοίχιση μιας ερώτησης με έναν τύπο ερώτησης είναι ένα κλασσικό πρόβλημα κατηγοριοποίησης. Για το λόγο αυτό πολλά συστήματα Ερωταποκρίσεων χρησιμοποιούν αλγόριθμους μάθησης για αυτήν την διαδικασία. Στην εργασία [125] χρησιμοποιήθηκε ο αλγόριθμος Support Vector Machines (SVM) με λεκτικά, συντακτικά και σημασιολογικά χαρακτηριστικά. Επίσης παρόμοια μοντέλα χρησιμοποιήθηκαν στην εργασία [74]. Άλλα χαρακτηριστικά που χρησιμοποιούνται για την κατηγοριοποίηση των ερωτήσεων εξετάστηκαν στην εργασία [97], όπως οι bag-of-words, τα bigrams, τα trigrams, και τα POS n-grams. Τέλος, υπάρχουν εργασίες που χρησιμοποίησαν πολύπλοκους κατηγοριοποιητές(qc Question Classifier) όπως η εργασία [28] στην οποία χρησιμοποιήθηκε ένας κατηγοριοποιητής βασισμένος σε ένα νευρωνικό δίκτυο στο οποίο ενσωματώθηκαν ένα πλήθος λεξικών, συντακτικών και σημασιολογικών δεδομένων. Πιο απλές προσεγγίσεις δεν υιοθετούν αλγόριθμους μάθησης, χρησιμοποιούν πρότυπα ή απλές μεθόδους αναγνώρισης για να αναγνωρίσουν τον τύπο της ερώτησης. Για παράδειγμα στην εργασία [90] χρησιμοποιούνται ένα σύνολο από κανόνες για την αναγνώριση του τύπου των ερωτήσεων μετά την συντακτική ανάλυση της ερώτησης. Τέλος, ένας κατηγοριοποιητής που βασίζεται σε πρότυπα παρουσιάστηκε στην εργασία [18]. 16 Σ ε λ ί δ α

17 Αναδόμηση των Ερωτημάτων Μια από τις βασικές διαδικασίες, όπως είπαμε και παραπάνω, είναι η επεξεργασία της ερώτησης έτσι ώστε να παραχθεί ένα ερώτημα που θα δοθεί στην μηχανή αναζήτησης και να περιγράφει σωστά η πληροφορία που χρειάζεται ο χρήστης. Στις παραδοσιακές μηχανές αναζήτησης, οι πληροφορίες που ενδιαφέρουν τους χρήστες συνήθως σχετίζονται με τις λέξεις που χρησιμοποιούνται στα ερωτήματα. Όταν όμως μιλάμε για ερωτήσεις φυσικής γλώσσας και ειδικά για σύνθετες ερωτήσεις, οι λέξεις της ερώτησης μπορεί να απέχουν αρκετά λεξιλογικά από τις λέξεις που θα απαντούσαν την συγκεκριμένη ερώτηση [106]. Συνεπώς πρέπει να δοθεί ιδιαίτερη προσοχή στην επιλογή του ερωτήματος που θα εφαρμοσθεί στην μηχανή αναζήτησης έτσι ώστε να βελτιωθεί η ακρίβεια(precision) και η ανάκληση(recall) των αποτελεσμάτων. Μια απλή προσέγγιση είναι αυτή που περιέχεται στις εργασίες [118] και [29], στις οποίες χωρίζεται η ερώτηση σε λέξεις, αφαιρούνται οι πιο κοινές λέξεις (stop words) και τα σημεία στίξης. Για παράδειγμα η ερώτηση «Where was Greek president born?» θα μετατρεπόταν σε ένα σύνολο λέξεων «Greek, president, born». Προφανώς αυτή η απλή προσέγγιση δεν δίνει τα κατάλληλα αποτελέσματα όταν εφαρμοστεί σε σύνθετες ερωτήσεις στις οποίες τα περιεχόμενα της ερώτησης απέχουν μορφολογικά από τα αποτελέσματα. Ένας άλλο λόγος επίσης για την διαμόρφωση των ερωτημάτων είναι γιατί οι μηχανές αναζήτησης επιστρέφουν καλύτερης ποιότητας αποτελέσματα αν τα ερωτήματα διαμορφώνονται παρόμοια με τις απαντήσεις και υπάρχει αντιστοίχιση των όρων που τα αποτελούν [106]. Για να αντιμετωπιστεί το συγκεκριμένο πρόβλημα, εφαρμόζονται τεχνικές επέκτασης και αναδόμησης των ερωτημάτων. Επίσης πολλές φορές τα ερωτήματα επεκτείνονται με όρους από τις παραγράφους που περιέχουν τις λέξεις κλειδιά. Πολλές εργασίες χρησιμοποιούν μορφολογικούς ή σημασιολογικούς μετασχηματισμούς των λέξεων κλειδιών για να βελτιώσουν την απόδοση των ερωτημάτων. Αυτοί οι μετασχηματισμοί συχνά υιοθετούν την χρήση των συνώνυμων λέξεων από γνωσιακές βάσεις γνώσης όπως το WordNet. Αυτή η προσέγγιση υιοθετήθηκε συγκεκριμένα στην εργασία [90], για παράδειγμα οι λέξεις κλειδιά της προηγούμενης ερώτησης («Greek, president, born») θα επεκτεινόταν με τη χρήση ενός απλού λεξικού συνωνύμων σε «Greek, president, born, birth, deliver». Η τεχνική αναδόμησης ενός ερωτήματος βασίζεται στην αναγνώριση πολλαπλών απαντήσεων για μια ερώτηση φυσικής γλώσσας [67]. Πολλές φορές χρησιμοποιείται μια παραδοχή ότι ένα ερώτημα μπορεί να εκφραστεί μέσω ενός προτύπου που θα διαμορφωθεί για να αντιστοιχιστεί με πιθανές απαντήσεις μέσα στα κείμενα των επιστρεφόμενων αποτελεσμάτων. Για παράδειγμα, η ερώτηση «When Beethoven born?» θα μετατρεπόταν σε «Beethoven born in year <year>», όπου ένα πρότυπο θα μετέτρεπε το «When <name> born?» σε «<name> born in <year>». Μια από τις αποδοτικές συλλογές από πρότυπα είναι αυτή που παρουσιάσθηκε στην εργασία [107]. Από την άλλη μεριά, στην εργασία [1] εφαρμόσθηκαν απλοί μετασχηματισμοί 17 Σ ε λ ί δ α

18 για τις ίδιες διαδικασίες, διατηρώντας την ίδια ποιότητα αποτελεσμάτων. Αυτό οφείλεται κυρίως στο γεγονός ότι σε μεγάλες συλλογές κειμένων η απάντηση μπορεί να βρεθεί πολλαπλές φορές και σε πολλαπλά κείμενα. Παρόλο που η αναδόμηση των ερωτημάτων βελτιώνει την απόδοση των συστημάτων είναι μια διαδικασία που απαιτεί αρκετή χειροκίνητη επεξεργασία, ειδικά όταν εφαρμόζεται σε δεδομένα διαφορετικών θεματικών περιοχών. Παρόλο που αρκετά συστήματα Ερωταποκρίσεων χρησιμοποιούν τεχνικές αναδόμησης των ερωτημάτων, πλέον υιοθετούνται και προηγμένες τεχνικές επεξεργασίας φυσικής γλώσσας. Στην εργασία [89] έγινε μια προσπάθεια για να υλοποιηθεί μια πλήρης σημασιολογική αναπαράσταση μιας ερώτησης και μιας απάντησης. Στην προσέγγιση αυτή δημιουργείται μια γραφοθεωρητική προσέγγιση όπου η εύρεση των απαντήσεων βασίζεται στην επικάλυψη σχετικών γράφων. Για την αναζήτηση σε τέτοιες δομές, πολλές εργασίες χρησιμοποιούν κυρίως το Boolean [80] και το Vector Space μοντέλο [80]. Η χρήση οποιοδήποτε από τα δυο μοντέλα δεν διαφοροποιεί σε μεγάλο βαθμό τα αποτελέσματα. Μια επέκταση των παραδοσιακών μοντέλων παρουσιάστηκε στην εργασία [18]. Συγκεκριμένα παρουσιάζεται ένα σύστημα ανάκτησης που βασίζεται σε ένα n-gram μοντέλο. Ένα n-gram είναι ένα σύνολο από σχετικούς όρους που εξάγονται από μια πρόταση ή ερώτηση. Αυτή η προσέγγιση βασίζεται στην παραδοχή ότι σε μεγάλες συλλογές κειμένων, τα n-grams των ερωτήσεων εμφανίζονται πιο συχνά κοντά στις πιθανές απαντήσεις. Ταξινόμηση Αποτελεσμάτων Η λίστα των αποτελεσμάτων ή περασμάτων που επιστρέφονται από ένα σύστημα ανάκτησης πληροφοριών συνήθως ταξινομείται βάση ενός σκορ που υπολογίζετε από το μοντέλο ανάκτησης. Πάντως, το έγγραφο με το μεγαλύτερο σκορ δεν είναι πάντα το έγγραφο που περιέχει την απάντηση. Έτσι και αλλιώς οι παραδοσιακές μηχανές αναζήτησης δεν δημιουργήθηκαν για να απαντούν σε ερωτήσεις. Συνεπώς η εκ νέου ταξινόμηση ή ανά-ταξινόμηση των αποτελεσμάτων κρίνεται απαραίτητη. Ένας επιπλέον λόγος για τον διαχωρισμό των απαντήσεων σε δυο διαδικασίες, σε ανάκτηση των αποτελεσμάτων και στη ταξινόμηση τους, είναι το ότι η ανάκτηση των αποτελεσμάτων εφαρμόζεται σε όλη τη συλλογή των κειμένων. Συνήθως αυτό λειτουργεί σαν φίλτρο για την επιλογή των υποψήφιων αποτελεσμάτων που είναι πιο πιθανό να περιέχουν τις απαντήσεις και στη συνέχεια δίνονται σαν είσοδο για να ταξινομηθούν. Αφού το σύνολο των κειμένων περιορίζεται κατά την διάρκεια του φιλτραρίσματος, στην διαδικασία της ταξινόμησης μπορούν να εφαρμοστούν πιο πολύπλοκοι αλγόριθμοι επεξεργασίας φυσικών γλωσσών. 18 Σ ε λ ί δ α

19 Συχνά στην ανάκτηση των σχετικών αποτελεσμάτων χρησιμοποιούνται υπάρχουσες μηχανές αναζήτησης ή αλγόριθμοι, ενώ αντιθέτως η διαδικασία της ταξινόμησης απαιτεί τεχνικές που είναι προσαρμοσμένες στην εφαρμογή που θα την εφαρμόσει. Παρόλα αυτά υπάρχουν και στις τεχνικές ταξινόμησης κάποιες γενικές τεχνικές που εφαρμόζονται στις πιο αποδοτικές μεθόδους όπως η χρήση συντακτικών ή σημασιολογικών προτύπων, αλγόριθμοι μάθησης και κατηγοριοποιητές. Ένας αλγόριθμος προτύπων για αναταξινόμηση αποτελεσμάτων παρουσιάστηκε στο [67] στον οποίο τα πρότυπα βασίζονται σε συντακτικά και σημασιολογικά δεδομένα χρησιμοποιώντας την σχετικότητα μεταξύ των σημασιολογικών συσχετίσεων της ερώτησης και των αποτελεσμάτων. Τα αποτελέσματα είναι ένα σύνολο από πιθανές σχετικές απαντήσεις. Μειονεκτήματα της εργασίας αυτής είναι η ανάγκη για χρήση μιας μεγάλης συλλογής δεδομένων για να εξαχθούν τα πρότυπα και επίσης η μικρή αποτελεσματικότητα των προτύπων σε σύνθετες ερωτήσεις. Ένας επιπλέον παράγοντας που βοηθάει στην βελτίωση της ποιότητας των συστημάτων Ερωταποκρίσεων είναι η ανατροφοδότηση της σχετικότητας μιας απάντησης από τον χρήστη. Πολλά συστήματα δίνουν την δυνατότητα στον χρήστη να αξιολογήσει την απάντηση και το χρησιμοποιούν στο μέλλον για την βελτίωση της ποιότητας των αποτελεσμάτων. 19 Σ ε λ ί δ α

20 3. Συστήματα Ερωταποκρίσεων στον Σημασιολογικό Ιστό Σε αυτό το κεφάλαιο παρέχεται μια επισκόπηση των τεχνολογιών που χρησιμοποιούνται στα συστήματα Ερωταποκρίσεων που εκμεταλλεύονται εργαλεία του Σημασιολογικού Ιστού. Αρχικά, δίνεται μια γενική αρχιτεκτονική των συστημάτων αυτών και, στο επόμενο κεφάλαιο, παρουσιάζονται οι πιο σημαντικές υλοποιήσεις. Ο Σημασιολογικός Ιστός είναι ένας τομέας κλειδί όπου πάνω μπορούν να βασιστούν τα νέα συστήματα Ερωταποκρίσεων έτσι ώστε να βελτιωθεί η ποιότητα των απαντήσεων που επιστρέφουν. Ακόμα πιο συγκεκριμένα, είναι ένας τομέας στον οποίο το περιεχόμενο του Ιστού εμπλουτίζεται με σημασιολογικά στοιχεία για να δοθεί η δυνατότητα στις μηχανές αναζήτησης να κατανοήσουν την σημασία(σημασιολογία) της πληροφορίας στον Παγκόσμιο Ιστό [1]. Από αυτή την οπτική, κάθε κομμάτι πληροφορίας σημειώνεται με ετικέτες οι οποίες αντιστοιχίζονται σε μια οντολογία. Συνεπώς, οι μηχανές Ερωταποκρίσεων επωφελούνται από την επιπλέον σημασιολογική πληροφορία, συνδυάζοντας την με τις πληροφορίες που είναι αποθηκευμένες στις οντολογίες και που περιέχονται στις σημασιολογικές ετικέτες. Με τον τρόπο αυτό, οι απαντήσεις στις ερωτήσεις μπορούν να είναι πιο ακριβείς στην πληροφορία που περιέχουν και δίνουν στο χρήστη. Τα σημασιολογικά εργαλεία χρησιμοποιούν πλήθος τεχνικών για την επεξεργασία των δεδομένων σε συνεργασία με γλώσσες (SPARQL [92] και SeRQL [17]) οι οποίες εκτελούν ερωτήματα λογικής σε δεδομένα. Όμως, τα ακρωνύμια των γλωσσών αυτών ταιριάζουν περισσότερο στην SQL παρά σε φυσική γλώσσα. Συνεπώς, η διαδικασία της εκτέλεσης μιας ερώτησης σε φυσική γλώσσα μετασχηματίζεται στην διαδικασία την μετατροπής της σε ερωτήματα μιας γλώσσας λογικών ερωτημάτων που εφαρμόζεται σε σημασιολογικά δεδομένα. Στην βιβλιογραφία, όλες αυτές οι προσεγγίσεις ακολουθούν κάποιες γενικές κατευθύνσεις οι οποίες περιγράφονται παρακάτω. Οι διαφορές ανάμεσα στα γενικά συστήματα Ερωταποκρίσεων που περιεγράφηκαν στο Κεφάλαιο 1 και στα αντίστοιχα του Σημασιολογικού Ιστού συνοψίζονται στις επόμενες παραγράφους. Η προ-επεξεργασία και η κατηγοριοποίηση των ερωτήσεων είναι παρόμοιες ενώ οι τεχνικές ανάκτησης των απαντήσεων διαφέρουν κατά πολύ. Στα συστήματα του Σημασιολογικού Ιστού δεν εκτελείται η κλασσική ανάκτηση των αποτελεσμάτων. Αντιθέτως, στη γνωσιακή βάση εκτελούνται λογικά ερωτήματα και η διαμόρφωση των ερωτημάτων διαφέρει αρκετά. Στα σημασιολογικά συστήματα χρησιμοποιείται κυρίως η οντολογία για την μετατροπή της ερώτησης σε λογικά ερωτήματα που θα εφαρμοστούν στην γνωσιακή βάση δεδομένων. Αρκετές διαδικασίες, πάντως 20 Σ ε λ ί δ α

21 παραμένουν ίδιες και στους δυο τύπους συστημάτων όπως η εκμετάλλευση των συνώνυμων, των λημμάτων, της συντακτικής και της σημασιολογικής ανάλυσης. Αυτά τα συστήματα μπορεί να έχουν ομοιότητες με τα συστήματα Ερωταποκρίσεων που χρησιμοποιούν ερωτήματα σε βάσεις δεδομένων(nldbi - Natural Language Database Interface) αλλά παραμένουν αρκετά διαφορετικά. Τα συστήματα Ερωταποκρίσεων με σημασιολογικά εργαλεία, χρησιμοποιούν οντολογίες και το ευρύτερο σημασιολογικό πλαίσιο που έχει αναπτυχθεί στο σύνολο της. Σκοπός είναι να γίνει πιο αποδοτική η διαδικασία προσαρμογής σε ένα συγκεκριμένο τομέα γνώσης. Eπίσης, η φορητότητα αυτών των συστημάτων είναι πολύ μεγαλύτερη σε σχέση με τα συστήματα που εκτελούν ερωτήματα σε βάσεις δεδομένων. Η πλειοψηφία των συστημάτων Ερωταποκρίσεων που χρησιμοποιούν σημασιολογικές τεχνικές μοιράζονται κοινά χαρακτηριστικά: Είναι συστήματα που εφαρμόζονται σε συγκεκριμένους τομείς γνώσης. Μπορεί η λογική τους να εφαρμοστεί εύκολα σε διαφορετικού είδους τομείς γνώσης με μικρές προσαρμογές. Χρησιμοποιούν την γνώση που περιέχεται στις οντολογίες και την ανατροφοδότηση των χρηστών. Εφαρμόζουν γλωσσική και συντακτική επεξεργασία της πληροφορίας. Αποσαφηνίζουν τις αμφίσημες σχέσεις. Τα συστήματα υιοθετούν δυο διαφορετικές πηγές γνώσεις για ανάλυση των ερωτημάτων: Την πληροφοριακή γνώση των ιδιοτήτων φυσικής γλώσσας, που σχετίζεται άμεσα με την γλώσσα και είναι ανεξάρτητη του τομέα γνώσης. Την πληροφοριακή γνώση της οντολογίας, που είναι προσαρμοσμένη στον τομέα γνώσης και είναι ανεξάρτητη της γλώσσας. Η πληροφοριακή γνώση των ιδιοτήτων της φυσικής γλώσσας σημαίνει ότι τα συστήματα γνωρίζουν πώς να επεξεργαστούν την φυσική γλώσσα. Περιλαμβάνει τη γνώση της μορφολογίας (μέρη του λόγου, εισαγωγή ετικετών, τμηματοποίηση, αφαίρεση καταλήξεων, κτλ.), της δομής της πρότασης (συντακτική ανάλυση, χωρισμός της πρότασης σε τμήματα με βάση το ρήμα, κτλ.) και τη γνώση για την κατασκευή μιας αναπαράστασης για την σημασιολογία της ερώτησης (γενικές αρχές σημασιολογικής ανάλυσης). 21 Σ ε λ ί δ α

22 Η πληροφοριακή γνώση της οντολογίας επιτρέπει στο σύστημα να επεξεργάζεται τα σημασιολογικά στοιχεία της ερώτησης. Η οντολογία καθορίζει την σημασιολογία των εννοιών και των σχέσεων ανάμεσα στις έννοιες. Πρέπει να τονιστεί, επίσης, ότι η οντολογία μπορεί να χωριστεί σύμφωνα με τα επίπεδα που περιέχει. Για παράδειγμα, το τελευταίο επίπεδο είναι πολύ συγκεκριμένο για να διαμοιραστεί ανάμεσα στους τομείς γνώσης. Τέλος, η οντολογία περιγράφει τα σημασιολογικά στοιχεία ενός τομέα με τέτοιο τρόπο που επιτρέπει σε ένα σύστημα Ερωταποκρίσεων να δημιουργήσει αυτόματους κανόνες μετατροπής των ερωτήσεων Σημασιολογικός Ιστός Στο τμήμα αυτό δίνεται μια σύντομη περιγραφή του Σημασιολογικού Ιστού, για την εύκολη κατανόηση των συστημάτων που βασίζονται στα εργαλεία του. Ο σκοπός του Σημασιολογικού Ιστού είναι να επιτρέψει την κατανόηση από την μεριά των συστημάτων της πληροφορίας του Ιστού. Αυτό θα οδηγήσει στην αυτοματοποίηση διαδικασιών όπως η ανάκτηση πληροφορίας, η εξαγωγή λογικής γνώσης από δεδομένα και κυρίως των διαδικασιών που ακολουθούνται από τα συστήματα Ερωταποκρίσεων. Στον Σημασιολογικό Ιστό, η πληροφορία αποθηκεύεται με τη μορφή τριπλετών. Μια τριπλέτα είναι μια σύνθεση ενός υποκειμένου, με ένα κατηγόρημα (ρήμα) και ένα αντικείμενο. Μια τριπλέτα αναπαριστά μια σχέση(κατηγόρημα) ανάμεσα σε ένα υποκείμενο και ένα αντικείμενο. Για παράδειγμα, στην τριπλέτα [Athens, is Located in, Greece] το υποκείμενο και το αντικείμενο αναφέρονται ως έννοιες. Αναλυτικές πληροφορίες υπάρχουν στην εργασία [22]. Όλες οι τριπλέτες αποθηκεύονται σε μια γνωσιακή βάση. Η οντολογία είναι ένας τρόπος να περιγραφεί η σημασιολογία των εννοιών και των σχέσεων. Η σημασιολογία περιγράφεται με την έννοια των συσχετίσεων ανάμεσα στις έννοιες και τις συσχετίσεις τις ίδιες. Μια ειδικού τύπου συσχέτιση είναι η isa συσχέτιση. Αυτή η συσχέτιση ορίζει την συσχέτιση μεταξύ μιας γενικής με μια συγκεκριμένη έννοια ή συσχέτιση. Για παράδειγμα, city isa municipality και municipality isa populated-place, κτλ. Μια οντολογία μπορεί επίσης να καθορίζει ότι μια πόλη μπορεί να ανήκει σε μια πολιτεία. Με βάση το παράδειγμά μας, μια συσχέτιση που καλείται locatedln μπορεί οριστεί ανάμεσα στις έννοιες city και state. Η λογική που εφαρμόσθηκε στις έννοιες μπορεί να εφαρμοστεί και στις συσχετίσεις. Για παράδειγμα, η συσχέτιση locatedln ορίζεται ως locatedln isa geographic-relation. Η οντολογία διαιρείται σε υψηλού, μεσαίου και χαμηλού επιπέδου οντολογίες. Οι υψηλού επιπέδου οντολογίες περιγράφουν τις πιο αφαιρετικές έννοιες που μπορούν να χρησιμοποιηθούν. Υπάρχουν αρκετές οντολογίες υψηλού επιπέδου όπως η WonderWeb [83] και η SUMO [91]. Οι μεσαίου επιπέδου οντολογίες είναι πιο συγκεκριμένες και είναι πιο δύσκολο να οριστούν ανάμεσα στα εμπλεκόμενα μέρη. 22 Σ ε λ ί δ α

23 Ορίζουν συνήθως έννοιες που διαμοιράζονται σε ένα σύστημα σε κάθε τομέα γνώσης. Οι χαμηλού επιπέδου οντολογίες είναι οι πιο συγκεκριμένες και συνήθως χρησιμοποιούνται σε ένα συγκεκριμένο τομέα γνώσης και μόνο. Οι μεσαίου επιπέδου οντολογίες πρέπει να συνδέονται με μια υψηλού επιπέδου οντολογία και με τον ίδιο τρόπο οι χαμηλού επιπέδου οντολογίες πρέπει να συνδέονται με μια μεσαίου τύπου οντολογία. Υπάρχουν δυο λεπτομέρειες που αξίζουν να αναφερθούν. Πρώτον, υπάρχουν ειδικού τύπου έννοιες που καλούνται τιμές. Ατομικές τιμές καλούνται αλφαριθμητικά, ακέραιοι, ημερομηνίες/ώρα, κτλ. Μπορούν να εμφανιστούν μόνο στην τρίτη θέση μιας τριπλέτας, στο αντικείμενο. Η συσχέτιση ανάμεσα σε μια έννοια και μια τιμή καλείται συσχέτιση τιμής. Κατά δεύτερον, οι προηγμένες γλώσσες, για περιγραφή οντολογιών, επιτρέπουν προηγμένες ιδιότητες για τις συσχετίσεις, όπως την μεταβατική, την συμμετρική, την λειτουργική και άλλες ιδιότητες. Οι συσχετίσεις αυτές απλοποιούν τον ορισμό της οντολογίας αλλά αυξάνουν τις απαιτήσεις για την μηχανή συμπερασμάτων(reasoning) που πρέπει να εφαρμοστεί στην οντολογία. Υπάρχουν δυο βασικές τεχνολογίες που χρησιμοποιούνται συνήθως στον Σημασιολογικό Ιστό: η Resource Description Language(RDF) που χρησιμοποιείται για να αποθηκεύσει τις τριπλέτες και για ανταλλαγή δεδομένων η Web Ontology Language(OWL) που χρησιμοποιείται για την δημιουργία οντολογιών. Αυτές οι τεχνολογίες δημιουργήθηκαν από το W3C οργανισμό που σκοπός του είναι να παράσχει μια τυπική περιγραφή των εννοιών, των όρων και των συσχετίσεων μέσα σ ένα τομέα γνώσης. Ο σχεδιασμός της OWL απαιτεί να διατηρηθεί η μέγιστη συμβατότητα με την RDF. Η απαίτηση αυτή έκανε καλή αίσθηση, αλλά αυτό οδήγησε σε μια σειρά από προβλήματα στο σχεδιασμό της OWL. Σε πρώτο επίπεδο, η RDF/XML είναι μια φλύαρη γλώσσα αφού για να εκφραστεί μια απλή λογική σχέση όπως η σχέση «a Student is a Person who is enrolledin at least 1 thing» απαιτείται τη παρακάτω σύνταξη σε OWL. <owl:class rdf:id="student"> <owl:intersectionof rdf:parsetype="collection"> <owl:class rdfs:about="person" /> <owl:restriction> <owl:onproperty rdf:resource="enrolledin" /> <owl:mincardinality rdfs:datatype="&xsd;integer"> 1 </owl:mincardinality> </owl:restriction> <owl:intersectionof> </owl:class> 23 Σ ε λ ί δ α

24 Η φλυαρία της γλώσσας δεν αποτελεί πρόβλημα από μόνη της όσο το ότι η RDF είναι μια γλώσσα σε μορφή γραφήματος, με εκφράσεις που απεικονίζονται ως τριπλέτα με τη μορφή υποκείμενο κατηγόρημα αντικείμενο, με κύριο συνθετικό το κατηγόρημα και με σύνδεση προς τις έννοιες του υποκειμένου και του αντικειμένου. Αυτό σημαίνει πώς πολλές εκφράσεις της OWL, όπως περιορισμοί στις ιδιότητες πρέπει να κωδικοποιηθούν ως τριπλέτες. Σε γενικές περιπτώσεις το παραπάνω αποτελεί μειονέκτημα στην εκτέλεση της διαδικασίας εξαγωγής αποτελεσμάτων καθώς δεν είναι υποχρεωτικό σε όλες τις περιπτώσεις η πληροφορία να αποθηκεύεται με αυτή τη δομή. Ωστόσο τα προβλήματα που δημιουργήθηκαν από την ύπαρξη της RDF επιλύθηκαν με τη χρήση της OWL FULL και της OWL DL, που τη χρησιμοποιούν μέσω ενός κατάλληλου θεωρητικού μοντέλου που προσδίδει την σημασιολογική πληροφορία. Δεδομένου ότι η OWL FULL δεν αντιστοιχεί ούτε συντακτικά ή σημασιολογικά με τη Περιγραφική Λογική(Description Logic), στη συνέχεια, θα εστιάσουμε στην OWL DL. Η OWL DL έχει κάποιες διαφορές από τη συνηθησμένη Περιγραφική Λογική. Αυτές οι διαφορές αποτελούν μια γέφυρα ανάμεσα στο κόσμος της τυπικής Περιγραφικής λογικής και τον κόσμο του Σημασιολογικού Ισού. Ουσιαστικά είναι και αυτή μια περιγραφική λογική που περιλαμβάνει χαρακτηριστικά που τη τοποθετούν με σταθερότητα εντός των εργαλείων του Σημασιολογικού Ιστού. Η OWL DL χρησιμοποιεί μηχανικούς τυποποίησης δεδομένων από την RDF και μερικούς δομικούς μηχανισμούς από το XML Schema. Χρησιμοποιεί αναφορές RDF URI ως ονόματα συμπεριλαμβάνοντας και ονόματα από το RDF, RDFS και XML Schema. Πιο συγκεκριμένα, η OWL DL[54] μπορεί να αναπαραστήσει περιγραφές για κλάσεις, τύπους δεδομένων, στιγμιότυπα και τιμές δεδομένων χρησιμοποιώντας τις δομές που φαίνονται στο Πίνακας 1. Στο Πίνακα αυτό, η πρώτη στήλη δείχνει την OWL σύνταξη για μια δομή ενώ η δεύτερη στήλη αντίστοιχα δείχνει την ισοδύναμη έκφραση Περιγραφικής Λογικής. Τα γράμματα A, D, R, U, o, v, C αντιπροσωπεύουν, αντίστοιχα, ονόματα κλάσεων(classes), εύρος δεδομένων(data ranges), ιδιότητες δεδομένων(object properties), ιδιότητες τύπων δεδομένων(datatype properties), στιγμιότυπων(individuals), τιμές δεδομένων (data values) Και μια αυθαίρετη περιγραφή κλάσης. Στην OWL, οι τιμές δεδομένων είναι RDF λεκτικά (δηλαδή παραδείγματα τύπων δεδομένων όπως string ή ακέραιοι) και όλα τα άλλα ονόματα είναι URI αναφορές. Για παράδειγμα τα στοιχεία owl:thing και owl:nothing είναι συντομογραφίες των URI αναφορών και αντίστοιχα. Η OWL, επιπρόσθετα, χρησιμοποιεί περιγραφικές δομές που σχηματίζουν αξιώματα που παρέχουν πληροφορία σχετικά με τις κλάσεις, τις ιδιότητες και τα στιγμιότυπα όπως φαίνεται στο Πίνακας 2. Και σε αυτό το πίνακα, στη πρώτη στήλη δίνεται η 24 Σ ε λ ί δ α

25 αφηρημένη σύνταξη ενώ στη δεύτερη η τυπική σύνταξη Περιγραφικής Λογικής. Όσο για τα γράμματα A, D, R, U, o, v, C αντιπροσωπεύουν ό,τι και στο Πίνακας 1. Abstract Syntax A owl:thing owl:nothing intersectionof(c1 Cn) Descriptions (C) DL Syntax A C1 Cn unionof(c1 Cn) C1 Cn complementof(c) C one of(o1 on) {o1} {on} restriction(r somevaluesfrom(c)) R.C restriction(r allvaluesfrom(c)) R.C restriction(r hasvalue(o)) R : o restriction(r mimcardinality(n)) n R restriction(r maxcardinality(n)) n R restriction(u somevaluesfrom(d)) U.D restriction(u allvaluesfrom(d)) U.D restriction(u hasvalue(v)) U : v restriction(u mincardinality(n)) n U restriction(u maxcardinality(n)) n U D oneof(v1 vn) R inv(r) U o v Data Ranges(D) {v1} {vn} Object Properties (R) R Datatype Properties (U) Individuals (o) Data Values (v) v Πίνακας 1: OWL DL Περιγραφές, εύρη δεδομένων, ιδιότητες, στιγμιότυπα και τιμές δεδομένων. Είτε μερική ή πλήρης πληροφορία μπορεί να δηλωθεί ως κλάση. Για παράδειγμα η έννοια της Χώρας, του Ατόμου, του Μαθητή που δηλώνονται ως κλάσεις ex:country, ex:person, ex:student. Εν συνεχεία, η κλάση ex:student ως υποκλάση της ex:person και η ex:canadian προσδιορίζει αυτά τα άτομα που έχουν D R U o 25 Σ ε λ ί δ α

26 εθνικότητα(ex:nationality) από τον Καναδά(ex:Canada) παρακάτω: Class(ex:Country partial owl:thing) Class(ex:Person partial owl:thing) Class(ex:Student partial ex:person) Class(ex:Canadian complete ex:person hasvalue(ex:nationality ex:canada)) όπως φαίνεται Abstract Syntax Class(A partial C1 Cn) Class(A complete C1 Cn) EnumeratedClass(A o1 on) SubVlassOf(C1 C2) EquivalentClasses(C1 Cn) DisjointClasses(C1 Cn) Datatype(D) ObjectProperty(R super(r1) super(rn) domain(c1) domain(cm) range(c1) range(cl) [inverseof(r0)] [Symmetric] [Fuctional] [InverseFunctional] [Transitive]) SubPropertyOf(R1 R2) EquivalentProperties(R1 Rn) DatatypeProperty(U super(u1) super(un) domain(c1) domain(cm) range(d1) range(dl) [functiona]) SubPropertyOf(U1 U2) EquivalentProperties(U1 Un) AnnotationProperty(S) OntologyProperty(S) Individual(o type(c1) type(cn) value(r1 o1) value(rn on) value(u1 v1) value(un vn) SameIndividual(o1 on) DifferentIndividuals(o1 on) Πίνακας 2: OWL DL Αξιώματα και κανόνες DL Syntax A C1 Cn A C1 Cn A {o1} {on} C1 C2 C1 Cn Ci Cj, i D j R Ri 1 R Ci R.Ci R R 0 R R 1 R 1 R Tr(R) R1 R2 R1 Rn U Ui 1 U Ci U.Di 1 U U1 Ui U1 Un o Ci o, o i Ri o, v i URi {o1} {on} {oi} {oj}, i D j 26 Σ ε λ ί δ α

27 Στην OWL DL, οι ιδιότητες είναι χωρισμένες σε ιδιότητες αντικειμένου όπως η ex:nationality που σχετίζουν στιγμιότυπα με άλλα στιγμιότυπα, ιδιότητες τύπων δεδομένων όπως η ex:age που σχετίζουν στιγμιότυπα με τιμές δεδομένων και ιδιότητες σχολίων, που μπορούν να χρησιμοποιηθούν για να προσθέσουν πληροφορίες χωρίς ερμηνεία σε στιγμιότυπα, κλάσεις και ιδιότητες. Περιορισμοί, όπως πεδία ορισμού και σύνολα τιμών, μπορούν να δοθούν στις ιδιότητες αντικειμένου και στις ιδιότητες τύπων δεδομένων αλλά όχι στις ιδιότητες σχολίων. Σχετικά παραδείγματα φαίνονται παρακάτω. DatatypeProperty(ex:age domain(ex:person) range(xsd:integer)) ObjectProperty(ex:nationality domain(ex:person) range(ex:country)) Οι ιδιότητες αντικειμένου έχουν τη δυνατότητα να είναι μεταβατικές, συμμετρικές, λειτουργικές και αντίστροφα λειτουργικές. Βέβαια δε μπορούν να οριστούν όλα τα παραπάνω για μια μόνο ιδιότητα καθώς προκύπτουν οι κατάλληλοι περιορισμοί από τον ορισμό του καθενός. Πολλά αξιώματα όπως Class, EnumeratedClass,Datatype, ObjectProperty, DatatypeProperty, AnnotationProperty,OntologyProperty, και Individual μπορούν να έχουν σχολιασμό που δείχνει την ανερμήνευτη πληροφορία για τις κλάσεις, ιδιότητες ή στιγμιότυπα. Σχετικό παράδειγμα είναι το παρακάτω. Class(ex:Country partial annotation(rdfs:comment "Countries of the world") owl:thing) Πληροφορία για τα στιγμιότυπα μπορεί επίσης να δοθεί σε OWL, είτε με ονοματικά στιγμιότυπα είτε με ανώνυμα στιγμιότυπα όπως φαίνεται. Individual(ex:Canada type(ex:country)) Individual(ex:England type(ex:country)) Individual(ex:Peter type(ex:canadian) value(ex:age "48"^^xsd:integer)) Individual(value(ex:nationality ex:england) value(ex:age "44"^^xsd:integer)) Συμπερασματικά, στην OWL, αξιώματα και κανόνες αναπαρίστανται μέσα σε οντολογίες με αποτέλεσμα μια OWL DL οντολογία να είναι ισοδύναμη με μια Βάση Δεδομένων Περιγραφικής Λογικής(Description Logic Knowledge Base). Αυτό δεν είναι πάντα δεδομένο καθώς οι οντολογίες θεωρούνται περισσότερο τυπικά ως δομές ενός τομέα και ως περιγραφές μιας συγκεκριμένης κατάστασης. Τέλος, είναι εξίσου σημαντικό να αναφερθούμε και κατά το σχεδιασμό της OWL DL δόθηκε η δυνατότητα υποβολής αιτήσεων για την αξιοποίηση γνωστών αλγορίθμων εξαγωγής συμπερασμάτων και των υπαρχόντων (ιδιαίτερα βελτιστοποιημένων) υλοποιήσεις μηχανών εξαγωγής συμπερασμάτων(reasoners). Αυτό σημαίνει ότι 27 Σ ε λ ί δ α

28 πρωτότυπα εργαλεία και εφαρμογές μπορούν να κάνουν χρήση των συστημάτων εξαγωγής συμπερασμάτων της που βασίζονται στη Περιγραφική Λογική όπως ο reasoner FaCT[57], Pellet και ο πιο πρόσφατος Hermit[105]. Η αυξανόμενη σημασία των οντολογιών, και η εμφάνιση της γλώσσας OWL, έχει δώσει επίσης ώθηση στην ανάπτυξη εργαλείων δημιουργίας οντολογίας, συμπεριλαμβανομένων των εργαλείων για την επεξεργασία, την επικύρωση, την απεικόνιση, τη συγχώνευση και τον εντοπισμό σφαλμάτων σε οντολογίες OWL. Αρκετές προγραμματιστικές εφαρμογές διεπαφών (API) για OWL είναι επίσης διαθέσιμα για τη δημιουργία εξ αρχής συστημάτων σε OWL. Ένα από τα διαθέσιμα εργαλεία επεξεργασίας αλλά και δημιουργίας οντολογιών είναι το Protégé. Αναλυτική περιγραφή του εργαλείου μπορεί κανείς να βρει στο [56] Συντακτική Επεξεργασία Εργαλεία συντακτικής ανάλυσης ή άλλα εργαλεία προηγμένης σημασιολογικής επεξεργασίας σε πολλές περιπτώσεις είναι αναγκαία για τις εφαρμογές του Σημασιολογικού Ιστού. Αυτό διότι σε όσες εφαρμογές η ερώτηση τίθεται από το χρήση σε φυσική γλώσσα είναι χρήσιμη η μορφοσυντακτική της ανάλυση έτσι ώστε να βρεθεί η σωστή απάντηση για την ερώτηση αυτή. Από την άλλη, η συντακτική επεξεργασία μπορεί να αποβεί μοιραία για το σύστημα ερωταποκρίσεων όταν οι ερωτήσεις δεν είναι γραμμένες σαν ολοκληρωμένες προτάσεις ή δεν είναι γραμματικά σωστές. Στα συστήματα ερωταποκρίσεων, είναι ιδιαίτερα σημαντικό να επιτευχθεί μια υψηλή ακρίβεια στη μορφοσυντακτική ανάλυση των ερωτήσεων. Το πιο συχνό φαινόμενο είναι μια απάντηση σε ερώτηση να υπάρχει σε αρκετά αποσπάσματα κειμένων, οπότε αν ο συντακτικός αναλυτής(parser) δεν παράγει αρκετά καλό συντακτικό δένδρο για μερικές από τις φράσεις- πιθανές απαντήσεις, υπάρχει πιθανότητα το ερώτημα να μην απαντηθεί σωστά. Ωστόσο είναι απαραίτητο η συγκεκριμένη διαδικασία να μη κοστίζει σε απόδοση στα συστήματα ερωταποκρίσεων που τη χρησιμοποιούν. Υπάρχουν προσεγγίσεις όπως στην εργασία [62] που εφαρμόζουν συντακτική ανάλυση αλλά ο χειρισμός τους έχει αρκετό κόστος επεξεργασίας. Αντίστοιχα κάποιες άλλες προσεγγίσεις [53] δίνουν ιδιαίτερη έμφαση στο κομμάτι της μορφοσυντακτικής ανάλυσης. Στην εν λόγω εργασία εκπαιδεύεται το σύστημα με το Pen Treebank[28] και εκτελεί επιπλέον συντακτική επεξεργασία των κειμένων για τη σωστότερη συντακτική ανάλυση με σκοπό τη βελτίωση της απάντηση σε ερώτημα. Η συντακτική ανάλυση βοηθά σε τέτοιο επίπεδο έτσι ώστε από τη δομή της ερώτησης να υπάρχουν ενδείξεις για το τι πρέπει να αναμένεται ως απάντηση. Αυτός ο τρόπος βοηθά στο ταίριασμα μεταξύ της ερώτησης και των φράσεων των κειμένων για να εξαχθεί η σωστή απάντηση. Στο Σχήμα 2 φαίνεται η εκτέλεση μορφοσυντακτικής 28 Σ ε λ ί δ α

29 ανάλυσης στην ερώτηση How much does one ton of cement cost? με τον τρόπο που προτείνεται στην εργασία αυτή. Τα τελευταία χρόνια, διαφαίνεται η ανάγκη ακόμα πιο αποδοτικής συντακτικής ανάλυσης για τη χρήση της στα εργαλεία του σημασιολογικού ιστού. Σκοπό της εργασίας[25] είναι να κατασκευαστεί ένα σημασιολογικός μορφοσυντακτικός αναλυτής για μεγάλες γνωσιακές βάσης(κβ) όπως η Freebase με στόχο την ανάκτηση του γενικού νοήματος μιας πρότασης, όπως μια οντολογία υποστηρίζει. Θα μπορεί να εκτελεί συντακτική ανάλυση ακόμα και σε ερωτήματα που δεν έχουν τη κατάλληλη συντακτική δομή αλλά και σε κείμενα με ελεύθερη δομή για τη καλύτερη δυνατή επιστροφή σωστής απάντησης στο ερώτημα. H ανάγκη συντακτικής επεξεργασίας για τη καλύτερη απάντηση ερωτήσεων αναλύεται στο Κεφάλαιο 5 καθώς στο προτεινόμενο σύστημα ερωταποκρίσεων QASOn, η είσοδος που απαιτείται είναι ερώτηση σε φυσική γλώσσα με πλήρη μορφοσυντακτική δομή. [1] How much does one ton of cement cost? [SNT,PRES,Qtarget: MONETARY-QUANTITY] (QUANT) [2] How much [INTEERR-ADV] (MOD) [3] How [INTEERR-ADV] (PRED) [4] much [ADV] (SUBJ LOG-SUBJ) [5] one ton of cement [NP] (QUANT) [6] one ton [NP,MASS-Q] (PRED) [7] one ton [NP-N,MASS-Q] (QUANT) [8] one [CARDINAL] (PRED) [9] ton [COUNT-NOUN] (PRED) [10] of cement [PP] (P) [11] of [PRED] (PRED) [12] cement [NP] (PRED) [13] cement [NOUN] (PRED) [14] does cost [VERB,PRES] (AUX) [15] does [AUX] (PRED) [16] cost [VERB] (DUMMY) [17]? [QUESTION MARK] Σχήμα 2: Παράδειγμα μορφοσυντακτικής ανάλυσης με σημασιολογικό ενδιαφέρον 3.3. Αρχιτεκτονική Παρά τις δομικές διαφορές που έχουν τα περισσότερα συστήματα Ερωταποκρίσεων, μοιράζονται μια κοινή αρχιτεκτονική. Η κοινή αυτή αρχιτεκτονική αποτελείται από τα παρακάτω βήματα. 29 Σ ε λ ί δ α

30 Βήμα 1 Στο πρώτο βήμα το σύστημα δέχεται σαν είσοδο μια ερώτηση σε φυσική γλώσσα. Η είσοδος χωρίζεται και εκτελείται προ επεξεργασία. Κατά τη διάρκεια της προ επεξεργασίας, συνήθως εκτελούνται οι διαδικασίες εύρεσης των λημμάτων και η μορφοσυντακτική ανάλυση. Η σημασία των μορφοσυντακτικών ετικετών υπάρχουν στο Penn tree bank [81] και αναφέρονται αναλυτικά στο Πίνακας 3. Βήμα 2 Στο επόμενο βήμα εκτελείται κατηγοριοποίηση των όρων της ερώτησης σε γενικές κατηγορίες (name entities recognition - NER) με την βοήθεια ειδικών οντοτήτων (gazetteers) που αντιστοιχίζουν τους όρους σε γενικά ονόματα. Οι δομές αυτές συνήθως περιλαμβάνουν διάφορους τύπους ονομάτων όπως περιοχές, οργανισμούς, ανθρώπους κτλ., όπως περιγράφονται στην εργασία [112]. Βήμα 3 Το τρίτο βήμα συνήθως αποτελείται από την διαδικασία της συντακτικής επεξεργασίας. Οι πιο συνηθισμένες μέθοδοι είναι η απομόνωση της φράσης του ρήματος (verb(v) phrase(p) chunking) ή ο απλός χωρισμός της πρότασης στα μέρη του λόγου. Στην εργασία [77] μπορεί κάποιος να δει πως χρησιμοποιείται η μέθοδος VP chunking. Άλλη μια απλή μέθοδος που χρησιμοποιείται για γλωσσική επεξεργασία είναι η χρήση ελεύθερου περιεχομένου (context-free) γραμματικών που εκμεταλλεύονται την συντακτική ανάλυση της πρότασης. Βήμα 4 Η είσοδος από το βήμα 3 πρέπει να μεταφραστεί σε κατάλληλες τριπλέτες. Οι τριπλέτες αυτές θα πρέπει να εκφράζουν σημασιολογικά το περιεχόμενο της πρότασης. Υπάρχουν αρκετές μέθοδοι για την παραγωγή τριπλετών. Ένα από τα πιο σημαντικά προβλήματα που έχουν να αντιμετωπίσουν αυτές οι μέθοδοι είναι το γεγονός ότι πολλές φορές οι προκαθορισμένες συσχετίσεις που έχουν αποθηκευμένες μπορεί να μην περιέχονται στην πρόταση που έχει υποβληθεί. Στην περίπτωση αυτή, οι συσχετίσεις αυτές θα πρέπει να προστεθούν κατά την δημιουργία των τριπλετών πριν εκτελεστεί η ερώτηση. Κατά την δημιουργία των τριπλετών, πρέπει να αντιμετωπιστούν ζητήματα αποσαφήνισης των όρων της ερώτησης. Τα συστήματα συνήθως χρησιμοποιούν 30 Σ ε λ ί δ α

31 παράθυρα διαλόγων για να επιλέξει ο χρήστης την σωστή σημασία είτε χρησιμοποιούν αυτόματα εργαλεία αποσαφήνισης που βασίζονται στο προφίλ του χρήστη και το περιεχόμενο της ερώτησης. Συνήθως οι συσχετίσεις των δεδομένων εφαρμόζονται σε συγκεκριμένα δεδομένα και διαφοροποιούνται ανάλογα με το περιεχόμενο. Το προφίλ του χρήστη είναι ένα ειδικού τύπου περιεχόμενο. Κάθε χρήστης μπορεί να χρησιμοποιεί όρους με διαφορετικές σημασίες και επίσης να περιμένει αποτελέσματα ανάλογα με τη σημασία των όρων που έχει στο μυαλό του. Για παράδειγμα στην ερώτηση «Who is the larger river in Greece?» κάποιος μπορεί να εννοεί σε μήκος ή σε πλάτος. Ανάλογα το προφίλ του χρήστη ή άλλο σημασιολογικό περιεχόμενο που μπορεί να έχει παράσχει ο χρήστης, το σύστημα πρέπει να βρει την επικρατούσα σημασία. Μετά την παραπάνω διαδικασία το σύστημα είναι σε θέση να παράγει το λογικό ερώτημα για την εξαγωγή της απάντησης. Όλες οι τριπλέτες που έχουν δημιουργηθεί λειτουργούν σαν πρότυπα για την εξαγωγή των απαντήσεων. Παράδειγμα τριπλετών για την ερώτηση «Who is the larger river in Greece?» φαίνονται παρακάτω: <?river, islocatein, continent1> <continent1, hasname, Greece > <?river, haslength, Largest > Βήμα 5 Οι τριπλέτες από το Βήμα 4 μπορούν να χρησιμοποιηθούν απευθείας σαν λογικά ερωτήματα για την διαδικασία εύρεσης απαντήσεων. Το υποσύστημα εύρεσης απαντήσεων ελέγχει την γνωσιακή βάση δεδομένων και επιστρέφει τις κατάλληλες απαντήσεις. Υπάρχουν πολλές γλώσσες που κάνουν αναζήτηση μέσα σε μια βάση με τριπλέτες. Δυο είναι οι πιο σημαντικές από αυτές: SPARQL: που χρησιμοποιείται σε πολλά πλαίσια εργασίας RDF(Jena, Pellet, κ.α.). Επίσης χρησιμοποιείται στο W3C πρότυπο [33, 63]. SeRQL: χρησιμοποιείται στο πλαίσιο εργασίας Sesame και έχει περισσότερο SQL τύπου σύνταξη [112]. Τα αποτελέσματα των ερωτημάτων SPARQL και SeRQL είναι σύνολα απαντήσεων ή RDF γράφοι. Τα σύνολα απαντήσεων είναι πίνακες με στήλες που αναπαριστούν την πρόταση SELECT της γλώσσας [17, 92]. Οι γράφοι RDF είναι κατευθυνόμενοι γράφοι που αναπαρίστανται με τριπλέτες. Οι τριπλέτες στους γράφους των αποτελεσμάτων ακολουθούν τον ορισμό των δεδομένων στην γνωσιακή βάση δεδομένων. 31 Σ ε λ ί δ α

32 3.4. Εξειδικευμένες Μέθοδοι Βελτιστοποίησης Σε αυτό το κεφάλαιο παρουσιάζουμε μερικές από τις ποιο νέες και εξειδικευμένες μεθόδους από τη βιβλιογραφία που περιέχουν κάποια μοναδικά χαρακτηριστικά και αποδίδουν αρκετά καλά σε σχέση με τις κλασσικές μεθόδους. Επέκταση της SPARQL για επιστροφή βελτιωμένων απαντήσεων Η SPARQL είναι γλώσσα συνεπαγωγών-εξαγωγής συμπερασμάτων που έχει επηρεαστεί σε μεγάλο βαθμό από την πληθώρα των εργασιών που έχουν παρουσιαστεί για συστήματα ερωταποκρίσεων βασισμένα σε οντολογίες, ιδίως στον τομέα της Περιγραφικής Λογικής (Description Logic - DL). Όμως τα σημασιολογικά στοιχεία με βάση την SPARQL ορίζονται με ένα πιο απλοϊκό και λιγότερο εκφραστικό τρόπο σε σχέση με τα σημασιολογικά στοιχεία των απαντήσεων που υιοθετούνται στην DL. Ο σκοπός του υποκεφαλαίου αυτού είναι να παρουσιάσει την εργασία [1], η οποία περιέχει μια βελτιωμένη αναπαράσταση των σημασιολογικών στοιχείων των απαντήσεων χρησιμοποιώντας SPARQL και να δείξει την αποδοτικότητα της προσέγγισης αυτής. Με βάση την OWL 2 QL, παρουσιάζονται αλγόριθμοι για την αξιολόγηση ενός τμήματος της SPARQL που ονομάζεται καλά ορισμένη SPARQL(welldesigned SPARQL). Επιπρόσθετα, αποδεικνύεται ότι η πολυπλοκότητα των βασικών διαδικασιών ανάλυσης των ερωτημάτων δεν επηρεάζονται αρνητικά από την χρήση της OWL 2 QL. Το W3C όρισε διάφορες SPARQL προσεγγίσεις [44] με τις οποίες ο χρήστης μπορεί να εκφράσει την γνώση σχετικά με το λεξιλόγιο σε ένα RDF γράφο όπως μπορεί κάποιος να δει στο [43]. Τα θεωρητικά θεμέλια στα συστήματα απάντησης ερωτημάτων με βάση πλούσια συν επαγωγικά στοιχεία [12, 66, 104] παρέχονται από το πλήθος εργασιών που έχουν παρουσιαστεί στα συστήματα ερωταποκρίσεων βασισμένα σε οντολογίες στην περιοχή της Περιγραφικής Λογικής (DLs)[5]. Διαισθητικά, η απάντηση ερωτημάτων από γράφους βασικών προτύπων (BGPs) είναι παρόμοια με την απάντηση συν επαγωγικών ερωτημάτων (CQs) με βάση την αντίστοιχη DL. Όμως υπάρχει μια μεγάλη διαφορά μεταξύ των δυο, η SPARQL δεν λαμβάνει υπόψη τις μη διακεκριμένες μεταβλητές: Παράδειγμα 1. Σκεφθείτε ένα RDF γράφημα G που περιλαμβάνει μια τριπλέτα (b, a, Prof) (όπου b είναι ένας professor) και μια οντολογία O που περιλαμβάνει μια απλή συνεπαγωγή στην οποία κάθε professor διδάσκει κάποιον. Αν σκεφθεί κάποιος το παρακάτω απλό SPARQL ερώτημα : 32 Σ ε λ ί δ α

33 SELECT?x WHERE (?x, teaches,?y) Σύμφωνα με την λογική της SPARQL στο [44], το ερώτημα αυτό οδηγεί σε ένα άδειο σύνολο. Ξεκάθαρα, το άδειο σύνολο στο παραπάνω παράδειγμα δεν είναι καλό αποτέλεσμα αφού από την παραπάνω τριπλέτα γνωρίζουμε ότι ο b διδάσκει κάποιον. Παρόλα αυτά, η SPARQL λογική απαιτεί όλες οι τιμές που ανατίθενται στο BGP να προέρχονται από τον RDF γράφο. Έτσι διαχειρίζεται τις διακεκριμένες μεταβλητές (που είναι τιμές εξόδου) και τις μη διακεκριμένες μεταβλητές (που τελικά επιστρέφονται) με τον ίδιο τρόπο. Αντιθέτως, στην DL, η απάντηση ερωτημάτων βασίζεται σε συγκεκριμένα σημασιολογικά στοιχεία των απαντήσεων. Συνεπώς μελετώντας τα μοντέλα των βάσεων δεδομένων(rdf γράφοι) και τις οντολογίες, γίνονται δεκτές όλες οι αντιστοιχίσεις ως λύσεις που κάνουν το ερώτημα να ισχύει. Στο παραπάνω παράδειγμα, κάθε μοντέλο περιέχει μια τριπλέτα (b, teaches, u) για κάποια τιμή u. Συνεπώς ακόμα και αν υπάρχουν διαφορετικές τιμές u σε διαφορετικά μοντέλα, η προβολή στο πρώτο συνθετικό οδηγεί πάντα στην αντιστοίχιση μ = {? x b} ως απάντηση στο ερώτημα. Ανάλογα με την εκφραστική δύναμη κάθε περιγραφικής λογικής DL, η απάντηση ερωτημάτων με βάση συγκεκριμένα σημασιολογικά στοιχεία της απάντησης μπορεί υπολογιστικά να είναι πολύ ακριβή. Το πρόβλημα είναι 2EXPTIME-πλήρες για τις αποκαλούμενες εκφραστικές DL [42, 79]. Συνεπώς, υπάρχει μια οικογένεια από DL με λογική εκφραστική ικανότητα και αρκετά αποδοτικές ιδιότητες, που ονομάζεται DLlite οικογένεια [19]. Ένα μέλος της οικογένειας αυτής είναι η DL-liteR, που παρέχει το θεωρητικό υπόβαθρο της OWL 2 QL. Δεν πρέπει να ξεχνιέται ότι ακόμα και αν δεν ληφθούν υπόψη DL τεχνικές, η απάντηση επαγωγικών ερωτημάτων καθώς επίσης και οι βασικές διαδικασίες ανάλυσης ερωτημάτων είναι NP-πλήρης [21]. Η πολυπλοκότητα αυτή δεν αυξάνεται αν στις παραπάνω διαδικασίες χρησιμοποιηθεί η DL-Lite [19]. Με άλλα λόγια, η αύξηση της εκφραστικής δύναμης των διαδικασιών αυτών δεν επηρεάζει την πολυπλοκότητά τους. H εργασία [121] παρουσιάζει παρόμοια αποτελέσματα για τις συν επαγωγικές απαντήσεις με την DL-Lite. Αν γίνεται επιτυχής χρησιμοποίηση των BGPs με OWL 2 QL σύμφωνα με συγκεκριμένα σημασιολογικά στοιχεία των απαντήσεων, τότε λογικά μπορούν να υπαχθούν όλα τα αποτελέσματα των επαγωγικών απαντήσεων σε DL-Lite. Σίγουρα υπάρχουν περισσότερα στοιχεία στην SPARQL εκτός από τα BGPs. Μια σημαντική επέκταση των BGPs δίνεται από τον OPTIONAL τελεστή (αναφέρεται ως OPT τελεστής). Επιτρέπει σε κάποιον να εκφράσει ότι μια αντιστοίχιση μπορεί να δεσμεύσει κάποιες μεταβλητές του ερωτήματος και υπό συνθήκες να επεκταθεί και σε άλλες μεταβλητές. Ο τελεστής OPT έχει αντίκτυπο στην πολυπλοκότητα του ερωτήματος, ακόμα και αν η SPARQL περιοριστεί στη χρήση της συνεπαγωγής και του 33 Σ ε λ ί δ α

34 OPT τελεστή, το πρόβλημα είναι PSPACE-πλήρες [102]. Στο [92], οι συγγραφείς παρουσίασαν μια καλά ορισμένη SPARQL που εφαρμόστηκαν συγκεκριμένοι περιορισμοί στην εμφάνιση των μεταβλητών. Αποδεικνύουν επίσης ότι η πολυπλοκότητα πέφτει από PSPACE-πλήρης σε conp-πλήρης. Επιπρόσθετα, όπως φαίνεται στην [70], τα καλά ορισμένα SPARQL ερωτήματα μπορούν να αναπαρασταθούν από τα αποκαλούμενα δένδρα προτύπων, δηλαδή μη ταξινομημένα δένδρα όπου οι κόμβοι έχουν ετικέτες με BGPs και η δεντρική δομή αντανακλά τα εμφωλευμένα OPTs. Πρέπει να έχουμε υπόψη ότι ο φυσικός ορισμός των συγκεκριμένων απαντήσεων σε ένα ερώτημα είναι η συλλογή όλων των αντιστοιχίσεων που είναι μια λύση σε όλα τα πιθανά μοντέλα και στην οντολογία. Όσο περιοριζόμαστε στην απάντηση επαγωγικών ερωτημάτων, ο συμβολισμός των συγκεκριμένων απαντήσεων αντανακλά τα αντίστοιχα σημασιολογικά στοιχεία. Αντιθέτως, καθώς επεκτείνονται τα επαγωγικά ερωτήματα με τον τελεστή OPT, η προσέγγιση αυτή μετατρέπεται σε μη ικανοποιητική όπως δείχνει το παρακάτω παράδειγμα. Παράδειγμα 2. Δίνεται το SPARQL ερώτημα: SELECT?x,?z WHERE (?x, teaches,?y) OPT (?y, knows,?z) Στο γράφημα G= {(b, teaches, c)} και την άδεια οντολογία O. Το ερώτημα οδηγεί σε μια μοναδική λύση την αντιστοίχιση μ = {? x b}. Ξεκάθαρα το γράφημα G = G {(c, knows, d)} είναι ένα μοντέλο του (G, O). Αλλά στο G, το μ δεν είναι ποια λύση καθώς το μ μπορεί αν επεκταθεί στην λύση μ = {? x b,? z d}. Συνεπώς, δεν υπάρχει αντιστοίχιση που να είναι μια λύση σε κάθε πιθανό μοντέλο του (G, O). Ο λόγος αυτής της συμπεριφοράς στο παραπάνω παράδειγμα, είναι η μη μονοτονία του OPT τελεστή. Συνεπώς, όπως παρατηρείται στο [3], ακόμα και αν η καλά ορισμένη SPARQL είναι μη μονοτονική, είναι τουλάχιστον ασθενώς μονοτονική με την εξής έννοια: αν ένα μοντέλο Μ επεκτείνει ένα μοντέλο Μ παρουσιάζοντας επιπρόσθετα στοιχεία, τότε κάθε λύση ενός καλά ορισμένου SPARQL ερωτήματος Q στο Μ μπορεί να επεκταθεί σε μια λύση του Q στο Μ. Συνεπώς, η ιδέα κλειδί για ένα κατάλληλο ορισμό των συγκεκριμένων απαντήσεων της καλά ορισμένης SPARQL με βάση την OWL 2 QL θα είναι να θεωρηθούν εκείνες οι αντιστοιχίσεις σαν συγκεκριμένες που μπορούν να επεκταθούν σε μια λύση σε όλα τα πιθανά μοντέλα του γράφου RDF και της οντολογίας. Συγκεκριμένα, μια επιπρόσθετη τροποποίηση στον ορισμό των σημασιολογικών στοιχείων θα χρειαζόταν για να οριστούν μοναδικά. 34 Σ ε λ ί δ α

35 Η ειδική συμπεριφορά του OPT τελεστή και η τροποποίηση των σημασιολογικών στοιχείων των συγκεκριμένων απαντήσεων απαιτούν μια προσαρμογή και μια επέκταση των αλγορίθμων των επαγωγικών ερωτημάτων για την DL-Lite. Επιπλέον, η πολυπλοκότητα της αξιολόγησης του ερωτήματος για την καλά ορισμένη SPARQL απαιτεί μια νέα ανάλυση με βάση την OWL 2 QL. Στο [121] φαίνεται ξεκάθαρα ότι αναλογικά με τα επαγωγικά ερωτήματα μέσω της DL-Lite, η επιπλέον εκφραστική δύναμη λόγω της OWL 2 QL μπορεί να υιοθετηθεί χωρίς επιπλέον κόστος σε πολυπλοκότητα. Επιπλέον στο [121] παρουσιάζονται δυο αλγόριθμοι για την λήψη συγκεκριμένων απαντήσεων για καλά ορισμένα ερωτήματα SPARQL με χρήση OWL 2 QL οντολογιών. Η βασική διαφορά μεταξύ των δυο αλγορίθμων είναι ότι ο πρώτος προχωράει ξαναγράφοντας κάθε κόμβο του δένδρου προτύπων μεμονωμένα ενώ ο δεύτερος συνολικά το δένδρο προτύπων. Αναλύοντας παραπάνω τα χαρακτηριστικά των δυο αλγορίθμων αναγνωρίζονται παράμετροι που επιδρούν θετικά είτε στον έναν είτε στον άλλον. Εν κατακλείδι, είναι σημαντικό να αναφερθεί ότι η αξία χρήσης της SPARQL γίνεται ολοένα και πιο αναγνωρίσιμη καθώς ήδη έχει προστεθεί ως Plugin εργαλείο σε ένα από τα πιο βασικά σημασιολογικά εργαλεία, στο Protégé. Στο Σχήμα 3 μπορεί κανείς να δει ένα παράδειγμα ερωτήματος σε SPARQL σε μια οντολογία αλλά και τον τρόπο με τον οποίο εκτελείται εντός του εργαλείου. Πιο συγκεκριμένα, το παράδειγμα που απεικονίζεται στο Σχήμα 3 ακολουθεί στο παράδειγμα που έχει αναπτυχθεί και στο υπόλοιπο υποκεφάλαιο. Αυτό που ζητάει το ερώτημα σε SPARQL που έχει τεθεί στην οντολογία είναι να δοθούν πληροφορίες σχετικά με τους συγγραφείς αλλά και τις μεθόδους τους. Το ερώτημα που χησιμοποιείται ζητά από την οντολογία να επιστρέψει τους authors που συνδέονται με την ιδιότητα has Author αλλά και να έχουν ένα αριθμό από methods. Το βασικό ερώτημα αποτελείται από τις εκφράσεις:?method :hasauthor?author.?author a :Author Σημασιολογική επεξεργασία για Ερωταποκρίσεις σε Γνωσιακή Βάση Στη πορεία, η μελέτη ενός πρότυπου σημασιολογικού πλαισίου[121] για συστήματα Ερωταποκρίσεων χρησιμοποιώντας μια γνωσιακή βάση δεδομένων είναι απαραίτητη. Ορίζεται ένας γράφος ερωτημάτων(query graph) που είναι παρόμοιος με τα υπογραφήματα της γνωσιακής βάσης και μπορούν να αντιστοιχιστούν απευθείας με μια λογική διαδικασία. Η σημασιολογική ανάλυση μετατρέπεται σε ένα πρόβλημα δημιουργίας ενός γράφου ερωτημάτων, μετασχηματισμένο σε ένα πρόβλημα ταιριάσματος γραφημάτων. Αντιθέτως με τις παραδοσιακές τεχνικές, η μέθοδος αυτή διαχειρίζεται την γνωσιακή βάση σε πρώιμα στάδια για να μειώσει την πολυπλοκότητα της αναζήτησης και να απλοποιήσει το πρόβλημα σημασιολογικού 35 Σ ε λ ί δ α

36 ταιριάσματος. Εφαρμόζοντας έναν προηγμένο σύστημα σύνδεσης οντοτήτων και ενός μοντέλου νευρωνικού δικτύου που αντιστοιχίζει ερωτήσεις με προκαθορισμένες ακολουθίες, η μέθοδός αυτή λειτουργεί αποδοτικότερα από τις υπάρχουσες μεθόδους, επιτυγχάνοντας μετρική F-measure 52,5% στο σύνολο δεδομένων WebQuestions [8]. Σχήμα 3. Παράδειγμα Ερωτήματος σε SPARQL Οργανώνοντας τις πληροφορίες και αποθηκεύοντάς τες σε μια δομημένη βάση δεδομένων, οι μεγάλης κλίμακας γνωσιακές βάσεις δεδομένων(κβ) όπως η DBPedia [4] και η Freebase [13], έχουν γίνει σημαντικές πηγές για την υποστήριξη συστημάτων Ερωταποκρίσεων(QA). Οι περισσότερες εργασίες βασίζονται στην σημασιολογική επεξεργασία, όπου μια ερώτηση αντιστοιχίζεται σε μια συγκεκριμένη αναπαράσταση(λογική μορφή)(σχήμα 4) και στη συνέχεια μεταφράζεται σε ένα ερώτημα στην γνωσιακή βάση. Στη συνέχεια, οι απαντήσεις στην ερώτηση μπορούν να ανακτηθούν εκτελώντας το ερώτημα. Η σημασιολογική επεξεργασία επίσης παρέχει μια βαθύτερη κατανόηση της ερώτησης, που μπορεί, στη πορεία, να χρησιμοποιηθεί για να επιβεβαιώσει τις απαντήσεις στους χρήστες, καθώς επίσης και για να παρέχει ευκολία στην εύρεση πιθανών λαθών. Παρόλα αυτά, οι περισσότερες παραδοσιακές προσεγγίσεις για σημασιολογική επεξεργασία είναι αποσυνδεδεμένες από τις βάσεις δεδομένων, και συνεπώς αντιμετωπίζονται με διάφορους τρόπους όταν προσαρμόζονται σε εφαρμογές 36 Σ ε λ ί δ α

37 Ερωταποκρίσεων. Για παράδειγμα, μια γενικής σημασίας αναπαράσταση είναι το πρόβλημα ταιριάσματος σε οντολογίες όπου οι λογικές μορφές χρησιμοποιούν πρότυπα που διαφοροποιούνται από αυτά που χρησιμοποιούνται στις γνωσιακές βάσεις [69]. Ακόμα και όταν η γλώσσα αναπαράστασης σχετίζεται στενά με το σχήμα της γνωσιακής βάσης, το να βρεις τα σωστά πρότυπα από το λεξιλόγιο στη γνωσιακή βάση παραμένει ένα δύσκολο πρόβλημα [9]. Εμπνευσμένοι από τις εργασίες [6, 123], προτάθηκε ένα πλαίσιο εργασίας βασισμένο στην σημασιολογική επεξεργασία που διαχειρίζεται την γνωσιακή βάση αποδοτικότερα όταν δημιουργείται η ανάλυση μιας ερώτησης που έχει δοθεί σαν είσοδο. Αρχικά ορίζεται ένα γράφημα ερωτημάτων, που μπορεί να αντιστοιχιστεί απευθείας σε μια λογική μορφή και σχετίζεται σημασιολογικά με τα DCS(Dependency-Based Compositional Semantics)[75]. Η σημασιολογική επεξεργασία περιορίζεται στη δημιουργία ενός γράφου ερωτημάτων, μορφοποιημένου σαν πρόβλημα αναζήτησης με διακριτά βήματα και ενέργειες. Κάθε βήμα είναι ένα υποψήφιο πέρασμα στον γράφο αναπαράστασης ερωτημάτων και κάθε ενέργεια ορίζει έναν τρόπο για την επέκταση του γράφου. Η δύναμη της αναπαράστασης της σημασιολογικής επεξεργασίας εξαρτάται από το σύνολο των ενεργειών που μπορούν να εφαρμοστούν σε κάθε βήμα. Συγκεκριμένα, οι ενέργειες χωρίζονται στην εύρεση του θέματος της οντότητας της ερώτησης, βρίσκοντας την βασική συσχέτιση ανάμεσα στην απάντηση και στο θέμα της οντότητας, και επεκτείνοντας τον γράφο ερωτημάτων με επιπλέον περιορισμούς που περιγράφουν τις ιδιότητες των απαντήσεων, ή τις συσχετίσεις ανάμεσα στην απάντηση και τις άλλες οντότητες της ερώτησης. Σχήμα 4. Παράδειγμα γραφήματος Freebase 37 Σ ε λ ί δ α

38 Ένα πλεονέκτημα αυτής της ανάλυσης είναι ότι περιορίζοντας τη πρόταση σε μερικές οντότητες και κάποια πρότυπα στη γνωσιακή βάση, η αναζήτηση γίνεται πιο αποδοτική στοχεύοντας στη δημιουργία ενός γράφου ερωτημάτων, πριν εκτελεσθεί πλήρως ένα πέρασμα. Για παράδειγμα, μετά την σύνδεση του «Family guy» στην ερώτηση «Who first voiced Meg on Family Guy?» στο FamilyGuy στη γνωσιακή βάση, η διαδικασία χρειάζεται απλώς να εξετάσει τα πρότυπα που μπορούν να εφαρμοστούν στο FamilyGuy αντί για όλα τα πρότυπα στην γνωσιακή βάση. Ελέγχοντας και άλλες οντότητες που δίνονται σαν πληροφορία, είναι ξεκάθαρο ότι το Meg αναφέρεται στην MegGriffin (τον χαρακτήρα στο Family Guy). Ο σχεδιασμός χωρίζει το πρόβλημα σημασιολογικής επεξεργασίας σε μικρότερα προβλήματα, όπως η σύνδεση οντοτήτων και το ταίριασμα σχέσεων(συσχετίσεων). Σε αυτό το πλαίσιο, οι καλύτερες λύσεις για κάθε μικρότερο πρόβλημα μπορούν να συνδυαστούν για να παράγουν την τελική σωστή σημασιολογική επεξεργασία. Για παράδειγμα, ένα προηγμένο σύστημα σύνδεσης οντοτήτων που κατασκευάστηκε εξάγει υποψήφιες οντότητες για κάθε ερώτηση με υψηλή ακρίβεια και ανάκληση. Επιπρόσθετα, υιοθετώντας ένα πρόσφατο ανεπτυγμένο πλαίσιο σημασιολογικής επεξεργασίας με συνελικτικά δίκτυα, παρουσιάζεται ένα πιο αποδοτικό μοντέλο σημασιολογικού ταιριάσματος, χρησιμοποιώντας γραμμικού χώρου αναπαραστάσεις αντί για απλό ταίριασμα λέξεων. Σχολιασμός-Κειμένων και Τεχνικές Σήμανσης Τα τελευταία συστήματα Ερωταποκρίσεων (QAS) κάνουν ερωτήματα σε γνωσιακές βάσεις δεδομένων για να απαντήσουν μια ερώτηση, αφού επεξεργαστούν και μετατρέψουν μια ερώτηση φυσικής γλώσσας σε μια λογική αναπαράσταση(μορφή). Είναι ευρέως αποδεκτό, ότι οι γνωσιακές βάσεις δεν είναι πλήρως οργανωμένες, και δεν περιέχουν πάντα τις απαντήσεις στις ερωτήσεις. Στη συνέχεια, περιγράφεται ένα νέο σύστημα Ερωταποκρίσεων [111] που βρίσκει τις απαντήσεις απευθείας από τον Ιστό, και υιοθετεί τις γνωσιακές βάσεις δεδομένων σαν επιπλέον εργαλεία για να βελτιώσουν την απόδοση των συστημάτων. Συγκεκριμένα, γίνεται μια πρώτη προσπάθεια για να συνδεθούν οι υποψήφιες απαντήσεις με οντότητες στην Freebase, κατά τη διάρκεια δημιουργίας των υποψήφιων απαντήσεων. Κάποια αξιοπρόσεκτα πλεονεκτήματα είναι: (1) Η επανάληψη της πληροφορίας μειώνεται αυτόματα. (2) Οι τύποι των υποψήφιων απαντήσεων μπορούν αποδοτικά να προσδιοριστούν από τις αντίστοιχες οντότητες στην Freebase. 38 Σ ε λ ί δ α

39 (3) Αξιοποιώντας την πλούσια πληροφορία για οντότητες που υπάρχει στην Freebase, αναπτύχθηκαν σημασιολογικά χαρακτηριστικά για κάθε υποψήφια ερώτηση μετά την σύνδεσή τους με την Freebase. Συγκεκριμένα, κατασκευάστηκαν ανάλογα με τον τύπο της απάντησης χαρακτηριστικά με δυο πιθανοτικά μοντέλα, που αξιολογούν την καταλληλότητα ενός τύπου απάντησης σε σχέση με μια ερώτηση. Συνολικά, αυτά τα σημασιολογικά χαρακτηριστικά παίζουν σημαντικό ρόλο στον προσδιορισμό των σωστών απαντήσεων σε σχέση με το σύνολο των πιθανών απαντήσεων. Τα πειραματικά αποτελέσματα έδειξαν ότι σύμφωνα με δυο σύνολα δεδομένων, το προτεινόμενο σύστημα Ερωταποκρίσεων επιτυγχάνει περίπου 18%- 54% βελτίωση με βάση την μετρική F1, σε σχέση με τα άλλα συστήματα Ερωταποκρίσεων. Τα συστήματα Ερωταποκρίσεων γενικού σκοπού, επιστρέφουν απαντήσεις σε ερωτήσεις φυσικής γλώσσας και έχουν αναδειχθεί σαν το βασικό πρόβλημα στην βελτίωση της αναζήτησης στον Ιστό[36]. Τα συστήματα αυτά κατηγοριοποιούνται ανάλογα με την πληροφορία που χρησιμοποιούν σαν είσοδο σε συστήματα βασισμένα σε γνωσιακές βάσεις δεδομένων ή συστήματα που βασίζονται σε αδόμητα δεδομένα. Τα συστήματα που βασίζονται σε γνωσιακές βάσεις δεδομένων εξάγουν τις απαντήσεις από καλά δομημένες γνωσιακές βάσεις όπως η Freebase[13], ενώ τα συστήματα που χρησιμοποιούν αδόμητα δεδομένα, χρησιμοποιούν δεδομένα που βρίσκονται σε έγγραφα ή άρθρα που είναι διαθέσιμα στον Ιστό. Μεγάλης κλίμακας γνωσιακές βάσεις δεδομένων, όπως η Freebase [13], η DBpedia [115], η YAGO [110], οι Γράφοι Γνώσης της Google και η Microsoft Satori, περιέχουν πλήθος χρήσιμης πληροφορίας, που είναι αποθηκευμένη σε μορφή τριπλετών συσχέτισης (π.χ. Obama, Place-of-Birth, Honolulu). Η ανάπτυξη τέτοιων γνωσιακών βάσεων δεδομένων έδωσε την δυνατότητα στα συστήματα Ερωταποκρίσεων να εξάγουν απευθείας απαντήσεις από γνωσιακές βάσεις. Για παράδειγμα, στα [8, 9] αναπτύχθηκαν τεχνικές σημασιολογικής επεξεργασίας που αντιστοιχίζουν εκφράσεις φυσικής γλώσσας σε ερωτήματα λογικής μορφής για να εκτελεστούν σε μια γνωσιακή βάση. Στο σύστημα Paralex[38] εξάγονται πλειάδες συσχετίσεων από γενικού σκοπού δεδομένα με εργαλεία εξαγωγής γνώσης (ReVerb [37]) και αποθηκεύονται σε μια γνωσιακή βάση, επιτρέποντας την αντιστοίχιση ερωτήσεων σε αυτά τα δεδομένα. Πολλά συστήματα Ερωταποκρίσεων [39] βασίστηκαν στην Freebase και σε εξαγόμενα δεδομένα για την απάντηση ερωτήσεων. Το Σχήμα 5(α) απεικονίζει σύντομα τις βασικές λειτουργίες ενός συστήματος Ερωταποκρίσεως, όπου μια ερώτηση μετασχηματίζεται σε μια συγκεκριμένη λογική μορφή για να εκτελεστεί στην γνωσιακή βάση. Όμως, παρόλο το μεγάλο τους μέγεθος, οι υπάρχουσες γνωσιακές βάσεις απέχουν από την ολοκλήρωση και δεν ενημερώνονται με αποδοτικό τρόπο [36]. Σαν αποτέλεσμα, η πληροφορία που χρειάζεται για να απαντήσουμε μια ερώτηση μπορεί να μην υπάρχει πάντα σε μια γνωσιακή βάση. Επιπρόσθετα, παρόλο 39 Σ ε λ ί δ α

40 που η σημασιολογική επεξεργασία [8,9] έχει γίνει πολύ σημαντικό ερευνητικό ζήτημα το τελευταίο διάστημα, το πρόβλημα της αντιστοίχισης εκφράσεων φυσικής γλώσσας σε ερωτήματα λογικών μορφών, θεωρείται ακόμα μη λυμένο πρόβλημα, πράγμα που περιορίζει τη χρήση των γνωσιακών βάσεων δεδομένων σε συστήματα Ερωταποκρίσεων. (α)qa σύστημα βασισμένο σε ΚΒ (β)qa σύστημα βασισμένο σε Web 40 Σ ε λ ί δ α

41 (γ)quase Σχήμα 5. Διαγράμματα Επεξεργασίας για διαφορετικά συστήματα Ερωταποκρίσεων Αντιθέτως, ενδιαφέροντα ή σημαντικά γεγονότα και προτάσεις μπορεί να εμφανίζονται επαναληπτικά σε συλλογές κειμένων όπως άρθρα, Wikipedia σελίδες, ιστολόγια και φόρουμ. Οδηγούμενοι από αυτή την παρατήρηση της επαναλαμβανόμενης εμφάνισης πληροφορίας [16], στο κεφάλαιο αυτό μελετάται αυτή η κατηγορία συστημάτων, δηλαδή συστήματα βασισμένα σε αδόμητες συλλογές κειμένων, εστιάζοντας στην απευθείας εξαγωγή απαντήσεων από τον Ιστό. Πριν από την άνθηση των γνωσιακών βάσεων δεδομένων, τα συστήματα Ερωταποκρίσεων, θεωρούνταν κυρίως σαν παραλλαγές των συστημάτων ανάκτησης πληροφορίας. Αυτή η οπτική μπορεί να τεκμηριωθεί από τα TREC QA tracks [119], όπου κάθε σύστημα απαιτεί την εξαγωγή ενός μικρού κομματιού πληροφορίας κειμένου από μια μεγάλη συλλογή από κείμενα, σαν την απάντηση σε ένα ερώτημα φυσικής γλώσσας. Ενώ τα περισσότερα συστήματα Ερωταποκρίσεων, χρησιμοποιούν εκλεπτυσμένη ανάλυση και προσπαθούν να ενσωματώσουν συντακτική, σημασιολογική και πραγματική γνώση για την επίτευξη καλύτερης απόδοσης, συστήματα όπως του Mulder [70] και το AskMSR [16] διαλέγουν έναν διαφορετικό τρόπο χρησιμοποιώντας την γνώση από τον Ιστό. Χωρίς χρήση προηγμένων τεχνικών ανάλυσης φυσικής γλώσσας, τέτοια συστήματα μετατρέπουν απλές ερωτήσεις σε ερωτήματα σε μια μηχανή αναζήτησης, και κατατάσσουν επαναληπτικά τα εξαγόμενα N-grams από τα κορυφαία αποτελέσματα σαν απαντήσεις, με βάση την τεχνική της αναγνώρισης 41 Σ ε λ ί δ α

42 ονομάτων (NER)[82] και τον έλεγχο του τύπου της ερώτησης. Παρά την απλότητα αυτής της στρατηγικής, τα συστήματα αυτά, που βασίζονται σε αδόμητα δεδομένα, είναι από τα πιο αποδοτικά όπως μπορεί κάποιος αν δει στο TREC-10 [15]. Μια πιο υψηλού επιπέδου οπτική αυτών των συστημάτων απεικονίζεται στο Σχήμα 5(β). Μια σημαντική αδυναμία αυτών των συστημάτων είναι η έλλειψη γνώσης για τις απαντήσεις. Για παράδειγμα, διαφορετικές αναφορές στην ίδια οντότητα, όπως President Obama και Barack Obama λαμβάνονται σαν διαφορετικές απαντήσεις και δεν ομαδοποιούνται μαζί όπως θα έπρεπε. Ο έλεγχος του είδους της ερώτησης, που πιστοποιεί πότε ένα τύπος απάντησης ταιριάζει στην ερώτηση, βασίζεται σε ένα γενικό αλγόριθμο αναγνώρισης ονομάτων. Σαν αποτέλεσμα, τέτοια συστήματα περιορίζονται σε ένα μικρό σύνολο κατηγοριών που μπορούν να απαντήσουν. Για να διευθετηθεί αυτό το θέμα, προτάθηκε ένα νέο πλαίσιο ανάπτυξης συστημάτων Ερωταποκρίσεων, που καλείται QuASE(question answering via semantic enrichment απάντηση ερωτήσεων μέσω σημασιολογικού εμπλουτισμού). Το σύστημα αυτό επεκτείνει τα παραδοσιακά συστήματα Ερωταποκρίσεων στον Ιστό, ενώνοντας τα κείμενα αναζήτησης με μια γνωσιακή βάση δεδομένων. Το Σχήμα 5(γ) απεικονίζει πως δουλεύει το σύστημα, σε αντίθεση με τα υπάρχοντα συστήματα που βασίζονται σε γνωσιακές βάσεις δεδομένων ( Σχήμα 5 (α)) και αδόμητη πληροφορία ( Σχήμα 5(β)). Συγκεκριμένα, δεδομένης μιας ερώτησης, το QuASE επιλέγει ένα σύνολο από τις ποιο ελπιδοφόρες προτάσεις. Στη συνέχεια στις προτάσεις αυτές εφαρμόζονται εργαλεία σύνδεσης οντοτήτων [30], για την αναγνώριση πιθανών απαντήσεων και την σύνδεσή τους με οντότητες στην Freebase. Όταν κάθε απάντηση συνδεθεί στην αντίστοιχη οντότητα στην Freebase, η σχετική πληροφορία, όπως το κείμενο περιγραφής και οι αντίστοιχοι τύποι της Freebase, χρησιμοποιούνται για μοντελοποίηση. Στη συνέχεια, ένας αλγόριθμος κατάταξης εκπαιδεύεται πάνω σε αυτά τα χαρακτηριστικά για να κατατάξει υψηλότερα τις καταλληλότερες απαντήσεις. Ενσωματώνοντάς γνωσιακές βάσεις, το σύστημα αυτό δεν διατηρεί μόνο την επεκτασιμότητα του σε σχέση με τα άλλα συστήματα Ερωταποκρίσεων, αλλά επίσης αυξάνει την απόδοση της διαδικασίας απάντησης ερωτήσεων. Συγκεκριμένα: (1) Η επαναλαμβανόμενη πληροφορία ανάμεσα στις πιθανές απαντήσεις αυτόματα μειώνεται. Στο προηγούμενο παράδειγμα, το President Obama και το Barack Obama θα είναι η ίδια πιθανή απάντηση καθώς και τα δυο θα αντιστοιχίζονται στην οντότητα Barack Obama στην Freebase. (2) Οι τύποι οντοτήτων που αποθηκεύονται σε γνωσιακές βάσεις δεδομένων μπορούν να χρησιμοποιηθούν φυσικά για να διευκρινιστούν οι τύποι των πιθανών απαντήσεων. Οι τύποι στη Freebase ποικίλλουν σε χιλιάδες, επιτρέποντας σε εμάς να ασχοληθούμε με περισσότερους τύπους ερωτήσεων. 42 Σ ε λ ί δ α

43 (3) Οι γνωσιακές βάσεις δεδομένων περιλαμβάνουν πλήθος πληροφοριών για τις οντότητες, οι οποίες μπορούν να υιοθετηθούν για να εμπλουτιστούν οι πιθανές απαντήσεις με επιπλέον χαρακτηριστικά. Συγκεκριμένα, υιοθετούνται δυο είδη πληροφοριών για την ανάπτυξη σημασιολογικών χαρακτηριστικών : α. Τα κείμενα περιγραφής μιας οντότητας για την αξιολόγηση του πότε μια πιθανή απάντηση ταιριάζει με βάση το περιεχόμενό της σε μια ερώτηση και β. Οι τύποι οντοτήτων της Freebase για μια πιθανή απάντηση για την αξιολόγηση του βαθμού ταιριάσματος των τύπων αυτών με την ερώτηση. Συγκεκριμένα, αντίθετα με τα υπόλοιπα συστήματα Ερωταποκρίσεων, κατασκευάστηκαν πρότυπα πιθανοτικά μοντέλα για την απευθείας αξιολόγηση της καταλληλότητας ενός τύπου Freebase μιας πιθανής απάντησης, και την μεταχείριση των τιμών αυτών σαν χαρακτηριστικό για την κατάταξη της απάντησης. Οι βασικές καινοτομίες αυτής της εργασίας είναι τρεις: (1) Νέο πλαίσιο Ερωταποκρίσεων. Γίνεται μια πρώτη προσπάθεια για την ενσωμάτωση τεχνικών σύνδεσης οντοτήτων για την εύρεση πιθανών οντοτήτων στις γνωσιακές βάσεις δεδομένων. Στη συνέχεια αναπτύσσονται σημασιολογικά χαρακτηριστικά για κάθε πιθανή απάντηση με βάση τα σημασιολογικά στοιχεία που υπάρχουν στις γνωσιακές βάσεις, και συγκεκριμένα των κειμένων περιγραφής και των τύπων, για τη χρήση τους κατά τη διαδικασία εξακρίβωσης της ορθότητας της απάντησης. Η αρχιτεκτονική αυτή είναι πολύ αποδοτική σε σχέση με υπάρχοντα συστήματα Ερωταποκρίσεων. Συγκεκριμένα το σύστημα QuASE, επιτυγχάνει 18% 54% βελτίωση της μετρικής F1 και 5% 20% στο MRR, ανάμεσα σε διαφορετικά σύνολα δεδομένων. (2) Μοντέλο ελέγχου του Τύπου μιας Απάντησης. Στα συστήματα Ερωταποκρίσεων, ο έλεγχος του πότε μια υποψήφια απάντηση ταιριάζει με πιθανούς τύπους ερωτήσεων είναι ένα πολύ σημαντικό βήμα. Αναπτύχθηκαν δυο πρότυπα πιθανοτικά μοντέλα για να αξιολογηθεί απευθείας η καταλληλότητα ενός τύπου μια πιθανής απάντησης για μια ερώτηση. Για να εκπαιδευτούν τα μοντέλα, απαιτούνται μεγάλης κλίμακας χειροκίνητα επισημασμένα δεδομένα που είναι πολύ δύσκολα να δημιουργηθούν, για αυτό προτάθηκε ένας δημιουργικός τρόπος να ανακτηθούν δεδομένα από χρήστες από τα δεδομένα περιήγησής τους. Οι μετρήσεις έδειξαν ότι αυτά τα δυο μοντέλα μπορούν να αυξήσουν την απόδοση κατά περίπου 2% με βάση όλες τις μετρικές. Συνδυάζοντας αυτά τα δυο μοντέλα με άλλα σημασιολογικά χαρακτηριστικά που βασίζονται στις περιγραφές των οντοτήτων, η απόδοση 43 Σ ε λ ί δ α

44 μπορεί να αυξηθεί κατά 5%, αποδεικνύοντας τα πλεονεκτήματα της χρήσης πλούσιων σημασιολογικών στοιχείων από γνωσιακές βάσεις δεδομένων στην απάντηση ερωτήσεων. (3) Εκτενής Πειραματική Αξιολόγηση. Με όρους αξιολόγησης δεδομένων, η τεχνική αυτή αξιολογήθηκε με βάση το σύνολο δεδομένων TREC, που αποτελείται από καλά σχεδιασμένες ερωτήσεις, καθώς επίσης και από ένα νέο σύνολο ερωτήσεων που δημιουργήθηκε από τα δεδομένα αναζήτησης μιας μηχανής αναζήτησης. Επιπλέον, οι ερωτήσεις σε αυτό το νέο σύνολο δεδομένων είναι από πραγματικούς χρήστες πράγμα που ενισχύει την θεώρηση για αξιολόγηση με βάση τις πραγματικές ανάγκες των χρηστών. Επίσης, σε σχέση με τα παραδοσιακά συστήματα Ερωταποκρίσεων, το σύστημα αυτό συγκρίθηκε με κάποια από τα ποιο εξελιγμένα συστήματα Ερωταποκρίσεων. Τα αποτελέσματα έδειξαν ότι τα συστήματα που βασίζονται σε γνωσιακές βάσεις δεδομένων δεν αποδίδουν τόσο καλά, πράγμα που ενισχύει την άποψη ότι μεγάλο μέρος γνώσης, λείπει από τις βάσεις αυτές. Η βασική μεθοδολογία πίσω από το σύστημα αυτό δείχνει μια διαδικασία που αποτελείται από τα εξής βήματα με την ακόλουθη σειρά: (1) Επιλογή της Πρότασης από την Μηχανή Αναζήτησης: δεδομένης μιας ερώτησης, σχεδιάστηκε ο παρακάτω μηχανισμός για να εξαχθούν υψηλής σχετικότητας απαντήσεις στην ερώτηση. Αρχικά υποβάλλεται η ερώτηση σαν ερώτημα σε μια μηχανή αναζήτησης γενικού σκοπού, και συλλέγονται τα αποσπάσματα των πρώτων 50 αποτελεσμάτων, καθώς επίσης και τα 50 πρώτα έγγραφα. Αφού ένα ερώτημα από τη φύση του είναι μικρό και περιέχει μόνο κάποιες λέξεις, υπολογίζεται ένα διάνυσμα με βάση τις λέξεις για κάθε απόσπασμα κειμένου. Για κάθε πρόταση στα 50 αποτελέσματα υπολογίζεται το ίδιο διάνυσμα και βρίσκονται με βάση τη μετρική cosine οι πιο σχετικές προτάσεις. Οι υπόλοιπες αγνοούνται. (2) Εύρεση των πιθανών Απαντήσεων μέσω σύνδεσης με Οντότητες: μετά τη συλλογή των προτάσεων, εφαρμόζεται σε αυτή ένας από τους πιο αποδοτικούς αλγόριθμους για σύνδεση με οντότητες [30] για την αναγνώριση πιθανών απαντήσεων που σχετίζονται με την Freebase. Αυτό το σύστημα επιτυγχάνει τα καλύτερα αποτελέσματα στο TAC-KBP 2013, υιοθετώντας έννοιες και οντότητες από σελίδες της Wikipedia. (3) Δημιουργία Σημασιολογικών Χαρακτηριστικών και Κατάταξη των Πιθανών Απαντήσεων: για κάθε πιθανή απάντηση, η Freebase περιλαμβάνει ένα σύνολο από πληροφορία, όπως τις περιγραφές και τους τύπους των οντοτήτων. Ένα σύνολο από σημασιολογικά χαρακτηριστικά αναπτύχθηκαν 44 Σ ε λ ί δ α

45 πάνω σε αυτή την πληροφορία, και με βάση αυτά δημιουργήθηκε ένας αλγόριθμος εύρεσης της καταλληλότητας μιας πιθανής απάντησης. Για παράδειγμα, για μια ερώτηση Who was the first American in space?, αρχικά το πρώτο βήμα θα επέστρεφε ένα σύνολο από σχετικές προτάσεις {1. On May 5, 1961, Shepard piloted the Freedom 7 mission... ; 2. Alan Shepard became the first American in space when the Freedom 7...;... }. Σε αυτό το σύνολο προτάσεων, εφαρμόζεται το βήμα 2 για να εξαχθούν οντότητες, όπως Freedom 7, Alan Shepard, και Sally Ride, και να συνδεθούν στη Freebase. Τέτοιες οντότητες θεωρούνται πιθανές απαντήσεις στη δοσμένη ερώτηση. Για κάθε πιθανή απάντηση, σημασιολογικά χαρακτηριστικά αναπτύσσονται με βάση τις πληροφορίες από την Freebase, και στη συνέχεια ενσωματώνονται στον αλγόριθμο κατάταξης έτσι ώστε η σωστή απάντηση να εμφανιστεί πρώτη στη λίστα( Alan Shepard ). Η βασική διαφορά του συστήματος αυτού από τα υπάρχοντα είναι ότι δεν εξάγει μόνο απαντήσεις από μεγάλης κλίμακας δεδομένα, αλλά επίσης υιοθετεί τεχνικές βασισμένες στην Freebase για να αυξήσει την απόδοση. Η Freebase διαδραματίζει ένα πολύ σημαντικό ρόλο και στην δημιουργία των πιθανών απαντήσεων και στην δημιουργία των χαρακτηριστικών που θα βοηθήσουν στην εύρεση της σωστής απάντησης. Επέκταση Ερωτημάτων και Πρότυπα Κειμένου Η αναζήτηση στον Ιστό πλέον περισσότερο μοντελοποιείται σαν ερωτήσεις φυσικής γλώσσας παρά σαν ερωτήματα με λέξεις κλειδιά. Η ανάκτηση απαντήσεων σε τέτοιες ερωτήσεις απαιτεί έναν βαθμό κατανόησης των απαιτήσεων των χρηστών. Ένα σημαντικό βήμα σε αυτήν την κατεύθυνση είναι η αυτόματη εύρεση του τύπου της ερώτησης από την ερώτηση. Υπάρχουν ταξινομήσεις των τύπων των ερωτήσεων κυρίως για τους βασικούς τύπους ερωτήσεων και όχι για τις γενικές ερωτήσεις. Η δημιουργία ταξινομήσεων για μη βασικούς τύπους ερωτήσεων είναι δύσκολο πρόβλημα καθώς αυτού του τύπου οι ερωτήσεις είναι δύσκολο να μοντελοποιηθούν. Μερικές προσπάθειες έχουν γίνει για να αναπτυχθούν ταξινομήσεις πολύπλοκων ερωτήσεων, αλλά και αυτές είναι προσανατολισμένες σε συγκεκριμένο τομέα γνώσης. Σε αυτό το κεφάλαιο, περιγράφεται η προσπάθεια που έγινε στην εργασία [22] να διευθετηθεί αυτό το πρόβλημα μοντελοποιώντας τον τύπο της ερώτησης σαν μια λανθάνουσα μεταβλητή που υπολογίζεται με βάση τα δεδομένα, επιτρέποντας στο μοντέλο να είναι πιο προσαρμοσμένο σε νέους τομείς γνώσεις και σύνολα δεδομένων. Προτείνονται προσεγγίσεις που εντοπίζουν την σχέση μιας πιθανής απάντησης με μια ερώτηση ενός χρήστη ενώνοντας ομαδοποιημένες ερωτήσεις σύμφωνα με την κρυμμένη μεταβλητή, και μοντελοποιώντας την σχέση ανάλογα με αυτήν την κρυμμένη μεταβλητή. 45 Σ ε λ ί δ α

46 Προτάθηκαν 3 νέα μοντέλα (Σχήμα 6): α. Logistic Regression Mixture (LRM) β. Global Logistic Regression Mixture (G-LRM) and γ. Mixture Global Logistic Regression Mixture (MG-LRM) τα οποία χρησιμοποιούν κατηγοριοποιήσεις ερωτήσεων και συσχετιστικά μοντέλα βασισμένα σε κατηγοριοποιημένες ερωτήσεις. Όλα τα μοντέλα αποδίδουν καλύτερα από τα κλασσικά μοντέλα κατηγοριοποίησης που χρησιμοποιούν συγκεκριμένες κατηγορίες ερωτήσεων που εξάγονται από κατηγοριοποιητές ερωτήσεων(qc) σε συλλογές κειμένων. Επίσης λειτουργούν καλύτερα από τα κλασσικά συσχετιστικά μοντέλα που δεν χρησιμοποιούν κατηγοριοποιητές ερωτήσεων. Με την ανάπτυξη των κινητών συσκευών και των προσωπικών ψηφιακών βοηθών όπως το Siri, οι χρήστες απαιτούν από τις μηχανές αναζήτησης να απαντούν σε ερωτήσεις φυσικής γλώσσας. Πρόσφατες βελτιώσεις στις μηχανές αναζήτησης προσπάθησαν να διευθετήσουν την ανάγκη αυτή προσπαθώντας να κατανοήσουν καλύτερα τις ερωτήσεις των χρηστών [11] και παρέχοντας καλύτερες σύντομες περιγραφές ή ακόμα και εξάγοντας απευθείας απαντήσεις. Για παράδειγμα, και η GoogleTM και η BingTM επιστρέφουν μια απλού τύπου απάντηση στην ερώτηση Who is the president of the United States?. Παρόλο που αυτές οι προσεγγίσεις είναι αποτελεσματικές για ένα σύνολο από απλές ερωτήσεις, οι μηχανές αναζήτησης δυσκολεύονται να κατανοήσουν την πλειοψηφία των ερωτήσεων φυσικής γλώσσας. (α) μοντέλο Logistic Regression Mixture (LRM) (β) μοντέλο Global Logistic Regression Mixture (G-LRM) 46 Σ ε λ ί δ α

47 (γ) μοντέλο Mixture Global Logistic Regression Mixture (MG-LRM) Σχήμα 6. Μοντέλα Υπολογισμού για Επέκταση Ερωτημάτων Συγκεκριμένα οι μηχανές αναζήτησης κυρίως επιστρέφουν κλασσικές απαντήσεις για υποκειμενικές ερωτήσεις που εκφράζουν σύνθετες πληροφοριακές ανάγκες. Παραδείγματα τέτοιων ερωτήσεων είναι : Is abortion ethical? και What was the impact on NYC of the stop-and-frisk practice by the NYPD? Οι χρήστες ψάχνουν στα κοινωνικά δίκτυα, τις ομάδες συζητήσεων και τα συστήματα Ερωταποκρίσεων για αυτού του τύπου τις ερωτήσεις [24]. Παρακάτω αναλύεται μια προσπάθεια να απαντήσει σε υποκειμενικές ερωτήσεις χρησιμοποιώντας τεχνικές Ανάκτησης Εγγράφων και Απάντησης Ερωτήσεων. Συνήθως η Απάντηση Ερωτήσεων διαχωρίζει τις ερωτήσεις σε απλές και σύνθετες ερωτήσεις [120]. Οι απλές ερωτήσεις έχουν συνήθως συγκεκριμένες απαντήσεις που μπορούν εύκολα να κατηγοριοποιηθούν σε μια καλά ορισμένη ταξινομία. Για παράδειγμα, η ερώτηση Who was the first woman killed in the Vietnam War? αναμένει ένα όνομα σαν απάντηση, ενώ η ερώτηση Which country has the longest life expectancy? αναμένει ένα όνομα χώρας. Αντιθέτως, οι σύνθετες ερωτήσεις είναι πιο υποκειμενικές και έχουν συνήθως περισσότερες από μια σωστές απαντήσεις. Η διαδικασία εύρεσης απαντήσεων σε απλές ερωτήσεις έχει τραβήξει πολύ προσοχή στο παρελθόν [120]. Μια πολύ δημοφιλής προσέγγιση είναι η κατηγοριοποίηση της ερώτησης σε μια κατηγορία Τύπου Ερώτησης [58], που δίνει στοιχεία για την απάντηση με βάση την ερώτηση. Ο προσδιορισμός του Τύπου μιας Ερώτησης είναι χρήσιμος γιατί μειώνει το πλήθος των πιθανών απαντήσεων(για παράδειγμα, δεν χρειάζεται να γίνει αναζήτηση για ονόματα προσώπων για την ερώτηση Which country has the longest life expectancy? ), βοηθώντας στην υιοθέτηση συγκεκριμένων χαρακτηριστικών και επιτρέπει την δημιουργία μοντέλων πρόβλεψης 47 Σ ε λ ί δ α

48 με βάση τον τύπο της ερώτησης. Για απλές ερωτήσεις σε ένα περιορισμένο τομέα γνώσης, είναι πιθανό το μεγαλύτερο μέρος των ερωτήσεων να αντιστοιχίζεται σε ένα περιορισμένο σύνολο κατηγοριών Τύπων Ερωτήσεων. Όμως, είναι αποδεδειγμένο ότι δεν ισχύει το ίδιο για τις σύνθετες ερωτήσεις. Παρόλο που υπάρχουν εργασίες [100] που υποστηρίζουν τη σημασία της αναγνώρισης του τύπου της ερώτησης για τις σύνθετες ερωτήσεις, φαίνεται ότι ο προσδιορισμός μιας ταξινομίας είναι πολύ δύσκολη διαδικασία, ακόμα και σε περιορισμένους τομείς γνώσης και με περιορισμούς στον τρόπο που δημιουργούνται οι ερωτήσεις. Για παράδειγμα, στην εργασία [117] πραγματοποιήθηκαν πειράματα σε δυο διαφορετικά σύνολα δεδομένων με ερωτήσεις τύπου «Why» και χρησιμοποιώντας διαφορετικές ταξινομίες για κάθε ένα. Ο σχεδιασμός μιας νέας ταξινομίας για κάθε σύνολο δεδομένων και στη συνέχεια η ανάλογη επισήμανση των ερωτήσεων απαιτεί αρκετό χρόνο και προσπάθεια. Στο σύστημα που περιγράφεται απλοποιείται η δυσκολία της δημιουργίας μιας ταξινομίας για Τύπους Ερωτήσεων χρησιμοποιώντας μια λανθάνουσα μεταβλητή σαν ενδιάμεσο για τον Τύπο της Ερώτησης ή για άλλο χαρακτηριστικό κατηγοριοποίηση για την ομαδοποίηση των ερωτήσεων. Παρουσιάστηκαν εποπτευόμενα πιθανοτικά πλαίσια που ομαδοποιούν τις ερωτήσεις σε λανθάνουσες κατηγοριοποιήσεις και μοντελοποιούν την σχετικότητα μιας πιθανής απάντησης στην ερώτηση, χρησιμοποιώντας δεδομένα εκπαίδευσης που είναι σημειωμένα μόνο σαν σχετικά. Αφού οι προτεινόμενες τεχνικές δεν κάνουν παραδοχές για τις κατηγορίες των ερωτήσεων, μπορούν εύκολα να προσαρμοστούν σε νέους τομείς γνώσεις. Μπορεί εύκολα να μεταφραστεί η προσέγγιση αυτή σαν κοινή κατηγοριοποίηση ερωτήσεων και πρόβλεψη σχετικότητας, και να δειχτεί τοι το μοντέλο αυτό δίνει καλύτερες προβλέψεις από εμπειρικές αξιολογήσεις σε δυο διαφορετικά σύνολα δεδομένων. Συνοψίζοντας μπορούμε να πούμε ότι στην εργασία αυτή παρουσιάζεται ένα πλαίσιο που μεταχειρίζεται τις σύνθετες ερωτήσεις σαν απλές, θεωρώντας ότι οι σύνθετες ερωτήσεις ανήκουν σε πολλαπλές κατηγορίες που μπορεί να είναι χρήσιμες για την πρόβλεψη της σχετικότητάς τους. Οι ισχυρισμοί αποδεικνύονται από πειράματα που το μοντέλο αυτό αποδίδει καλύτερα από προσεγγίσεις που δεν υιοθετούν κατηγοριοποίηση των ερωτήσεων. Πιο συγκεκριμένα, προτείνονται τρία πιθανοτικά μοντέλα που αναγνωρίζουν αυτές τις λανθάνουσες κατηγοριοποιήσεις με έναν οδηγούμενο από τα δεδομένα τρόπο και δημιουργούν με βάση την κατηγοριοποίηση αντίστοιχα μοντέλα πρόβλεψης. Αποδεικνύεται ότι τα μοντέλα αυτά αποδίδουν καλύτερα από αντίστοιχες προσεγγίσεις [78] που χρησιμοποιούν δεδομένα που έχουν επισημανθεί χειροκίνητα για να δημιουργήσουν κατηγοριοποιητές για τους Τύπους των Ερωτήσεων τουλάχιστον κατά 5.5%. Επίσης τα μοντέλα αυτά συγκρίνονται με μια μέθοδο που χρησιμοποιεί έναν Oracle κατηγοριοποιητή για τον Τύπο Ερώτησης και τα αποτελέσματα δείχνουν ότι είναι ανταγωνιστικά. 48 Σ ε λ ί δ α

49 Χρήση Οντολογιών για τον Καθορισμό των Δεδομένων Τα τελευταία χρόνια, έχει δοθεί τεράστια σημασία στην ανάπτυξη γνωσιακών βάσεων δεδομένων, όπως η Freebase, η NELL, και η YAGO. Παρόλο, όμως, το χρόνο ανταπόκρισης και τη γνώση που έχουν οι βάσεις αυτές παραμένουν μη ολοκληρωμένες. Για παράδειγμα, μόνο το 70% των ατόμων που είναι στη Freebase έχουν ορίσει ως γνωστό το μέρος γέννησης τους και το 99% από αυτούς δεν έχουν εθνικότητα. Μελετήθηκε η εργασία που παρουσιάζεται στο [122], η οποία προσπαθεί να βελτιώσει τα υπάρχοντα συστήματα Ερωταποκρίσεων με ένα στοχευμένο τρόπο έτσι ώστε να καλυφθούν τα κενά που υπάρχουν στις γνωσιακές βάσεις δεδομένων. Συγκεκριμένα, για κάθε οντότητα, δημιουργείται το καλύτερο σύνολο από ερωτήματα που πρέπει να υποβληθούν, έτσι ώστε τα αποσπάσματα-αποτελέσματα που επιστρέφονται από τη μηχανή αναζήτησης να περιέχουν τις απαντήσεις με τη μέγιστη πιθανότητα. Για παράδειγμα, αν πρέπει να βρεθεί η μητέρα του «Frank Zappa», θα μπορούσε να ερωτηθεί η ερώτηση «who is the mother of Frank Zappa». Πολύ πιθανόν, όμως, η απάντηση σε αυτό το ερώτημα να ήταν «The Mothers of Invention» που είναι το όνομα της μπάντας του. Το σύστημα αυτό, όμως, καταλαβαίνει ότι θα πρέπει να προσθέσει όρους αποσαφήνισης, όπως το μέρος γέννησης του «Zappa», για να κάνει πιο πιθανό οι απαντήσεις να περιέχουν αναφορές στην μητέρα του. Επίσης, αντιλαμβάνεται πόσα διαφορετικά ερωτήματα μπορούν να υποβληθούν για κάθε ιδιότητα, αφού σε μερικές περιπτώσεις, όταν ερωτώνται πάρα πολλά χάνεται η ακρίβεια. Επιπλέον, περιγράφεται ο τρόπος με τον οποίο συγκεντρώνονται οι υποψήφιες απαντήσεις από πολλαπλά ερωτήματα, επιστρέφοντας πιθανοτικές προβλέψεις για πιθανές τιμές κάθε ιδιότητας. Τελικά, το σύστημα μέσω της αξιολόγησης που πραγματοποιείται αποδεικνύει ότι μπορεί να επιστρέψει ένα μεγάλο αριθμό από εκφράσεις με υψηλή πιθανότητα. Οι μεγάλης κλίμακας γνωσιακές βάσεις δεδομένων όπως οι Freebase [13], NELL [20], and YAGO [110] περιέχουν πλήθος από χρήσιμη πληροφορία, που είναι αποθηκευμένη σε μορφή RDF τριπλετών (υποκείμενο σχέση(ρήμα) αντικείμενο). Παρόλο το μέγεθός τους, υπάρχουν πολλά κενά στις πληροφορίες που περιέχουν. Για να καλυφθούν αυτά τα κενά, πρέπει γίνει επεξεργασία ενός μεγάλου αριθμού από έγγραφα, και στη πορεία, να εφαρμοστεί αποσαφήνιση των οντοτήτων-ονομάτων ακολουθούμενη από εξαγωγή των αντίστοιχων συσχετίσεων [60]. Αυτή η διαδικασία ονομάζεται «push» μοντέλο, γιατί εισάγει οποιαδήποτε έκφραση βρει στην γνωσιακή βάση. Σε αντίθεση, με αυτή την διαδικασία που περιγράφεται παραπάνω, η εργασία που αναλύεται επικεντρώνεται στο «pull» μοντέλο, με το οποίο εξάγονται τιμές για συγκεκριμένα ζευγάρια τύπου υποκείμενο-σχέση χρησιμοποιώντας συγκεκριμένες τεχνικές από συστήματα Ερωταποκρίσεων. Υπάρχουν πολλαπλοί λόγοι χρήσης τέτοιων προσεγγίσεων: 1. χρησιμοποιούνται υψηλής ποιότητας και ενημερωμένες πηγές πληροφορίας. 49 Σ ε λ ί δ α

50 2. προσδιορίζονται ευκολότερα τα τμήματα των κειμένων που είναι πιο πιθανό να περιέχουν τις απαντήσεις, με βάση τα αποσπάσματα των αποτελεσμάτων 3. ενισχύεται η χρήση της διαδικασίας «push». Το παράδειγμα «pull» επιτρέπει ένα στοχευμένο, κατά απαιτητό τρόπο για την ολοκλήρωση της γνωσιακής βάσης. Μπορεί αρχικά να τρέξει μια μέθοδος «push» για να συλλέξει όσο το δυνατόν περισσότερα δεδομένα και στην συνέχεια μια μέθοδος «pull» για να ανακτήσει τα δεδομένα που δεν βρέθηκαν από την διαδικασία «push». Τελικά, πρέπει να δίνεται προσοχή στα δεδομένα επειδή διαρκώς αλλάζουν και πρέπει να διατηρούνται ενημερωμένα [113]. Το παράδειγμα «pull» είναι πιο κατάλληλο από το «push» για τον έλεγχο της εγκυρότητας των δεδομένων. Το ερώτημα κλειδί, που πρέπει να απαντηθεί για την καλύτερη απόδοση, είναι ποιες ερωτήσεις πρέπει να σταλούν στο σύστημα Ερωταποκρίσεων. Το γεγονός αυτό δεν είναι προφανές, αφού τα συστήματα Ερωταποκρίσεων αναμένουν ερωτήσεις φυσικής γλώσσας σαν είσοδο. Ωστόσο δεν υπάρχει κάποιος άνθρωπος στην διαδικασία για να διαμορφώσει τις ερωτήσεις. Επιπρόσθετα, οι ερωτήσεις δεν είναι όλες καλά διαμορφωμένες. Για παράδειγμα, υποθέστε ότι θέλουμε να προσδιορίσουμε την τοποθεσία γέννησης του «Frank Zappa». Θα μπορούσαμε να ρωτήσουμε «where does Frank Zappa come from», αλλά είναι πιο αποδοτικό να ρωτήσουμε «where was Frank Zappa born», επειδή αυτή η διαμόρφωση της ερώτησης είναι πιο πιθανό να ταιριάζει σε εκφράσεις που περιέχονται στις σελίδες του Ιστού που ψάχνουν τα συστήματα Ερωταποκρίσεων. Άλλο ένα παράδειγμα, σχετικό με την αναγνώριση της μητέρας του «Frank Zappa» όπως αναφέραμε και παραπάνω μπορεί να βελτιωθεί προσθέτοντας επιπλέον όρους στο ερώτημα, για να αναγκαστεί να επιστρέψει η μηχανή αναζήτησης αποτελέσματα σχετικά με τη μητέρα του [27]. Ένας τρόπος για να επιτευχθεί αυτό είναι, να προστεθεί στο ερώτημα το όνομα της πόλης στην οποία γεννήθηκε ο Zappa (Baltimore), αφού το μέρος στο οποίο κάποιος γεννήθηκε συχνά αναφέρεται μαζί με τα ονόματα των γονέων. Η βασική συνεισφορά της εργασία, που περιγράφεται στο υποκεφάλαιο αυτό, είναι να προταθεί ένας τρόπος με τον οποίο τα ερωτήματα θα ρωτούν το σύστημα Ερωταποκρίσεων για κάθε υποκείμενο και σχέση. Το σύστημά αυτό εκπαιδεύτηκε χρησιμοποιώντας δεδομένα ερωτημάτων αναζήτησης και υπάρχοντες πληροφορίες στην Freebase. Δείχνει ότι είναι καλύτερο να ρωτάς πολλαπλές ερωτήσεις και να συγχωνεύεις τα αποτελέσματα, παρά να βασίζεσαι σε απαντήσεις σε μια ερώτηση. Και αυτό αιτιολογείται αφού η ενσωμάτωση πολλαπλών κομματιών από πληροφορίες επιτρέπει την καλύτερη εκτίμηση της ορθότητας των απαντήσεων. Ταυτόχρονα, ο αριθμός των ερωτημάτων που πρέπει να χρησιμοποιηθούν, ποικίλλει ανάλογα με τη φύση της σχέσης. Από την άλλη μεριά σχέσεις που απαιτούν δεδομένα, από «open» κατηγορίες με μεγάλους αριθμούς από αντικείμενα (π.χ. CHILDREN, που απαιτούν τιμές από το PERSON), είναι ευαίσθητες στον αριθμό των 50 Σ ε λ ί δ α

51 ερωτημάτων που χρησιμοποιούνται. Επιπρόσθετα, ρωτώντας πάνω από έναν συγκεκριμένο αριθμό από ερωτήματα μειώνεται η απόδοση γιατί χρησιμοποιώντας όλο και περισσότερες ερωτήσεις, αυξάνεται η πιθανότητα της εύρεσης λάθος απαντήσεων. Αν ρωτήσουμε πάρα πολλές ερωτήσεις, ο αρνητικός αντίκτυπος των λάθος απαντήσεων αυτών θα εξανεμίσει την χρήση πολλαπλών πηγών πληροφορίας. Από την άλλη μεριά, αν η σχέση περιμένει τιμές από μια «closed» κατηγορία με ένα περιορισμένο αριθμό από στιγμιότυπα (π.χ. NATIONALITY, που περιμένει μόνο τιμές από COUNTRY), ο αριθμός των πιθανών λάθος απαντήσεων είναι περιορισμένος, και η απόδοση δεν επηρεάζεται από την εκτέλεση περισσότερων ερωτημάτων. Η μέθοδός αυτή αξιολογήθηκε με τη χρήση της στο να γεμίσει τα κενά για οντότητες της Freebase τύπου PERSON για κάθε μια από τις 9 σχέσεις που υπάρχουν. Αυτό το τεστ επιλέχθηκε από ένα μεγαλύτερο σύνολο από τις πιο συχνά χρησιμοποιούμενες οντότητες για αναζήτηση. Αποδείχτηκε ότι το σύστημα μπορεί να εξάγει αξιόπιστες απαντήσεις για έναν μεγάλο αριθμό από υποκείμενα και σχέσεις, πολλές από τις οποίες δεν μπορούν να εξαχθούν από τις συμβατικές μεθόδους. Η βασική μεθοδολογία, περιέχει ένα σύστημα το οποίο χρησιμοποιεί ένα σύστημα Ερωταποκρίσεων για να βρει νέες εκφράσεις για να προσθέσει στην Freebase. Μια υψηλού επιπέδου περιγραφή της μεθόδου δίνεται στο Σχήμα 7 πριν αναλυθεί κάθε επιμέρους τμήμα. Στην διαδικασία ολοκλήρωσης της γνωσιακής βάσης [60], δεδομένου μιας οντότητας υποκειμένου S και μιας οντότητας σχέσης R, ζητείται να βρεθεί η σωστή οντότητα αντικειμένου. Για παράδειγμα μπορεί να δοθεί μια οντότητα υποκειμένου (FRANK ZAPPA) και μια οντότητα σχέσης (PARENTS) και να ζητείται να επιστραφεί η οντότητα αντικειμένου (ROSE MARIE COLIMORE) ή (FRANCIS ZAPPA). Στην εργασία αυτή προτάθηκε η χρήση ενός υπάρχοντος συστήματος Ερωταποκρίσεων για να εκτελεσθεί η διαδικασία ολοκλήρωσης της γνωσιακής βάσης. Αφού το σύστημα Ερωταποκρίσεων περιμένει ένα ερώτημα σαν αλφαριθμητικό, χρειάζεται ένας τρόπος μετατροπής της σχέσης υποκείμενο-σχέση σε ερώτημα λέξεων. Είναι εύκολο να αναζητά κανείς ένα ή περισσότερα ονόματα για το υποκείμενο, το δύσκολο είναι πως πρέπει να γίνει η αναπαράσταση των σχέσεων με λέξεις. Για να επιλυθεί το εν λόγω πρόβλημα, χρησιμοποιούνται ένα σύνολο από πρότυπα ερωτημάτων από τα δεδομένα ερωτημάτων αναζήτησης σε μια εκτός σύνδεσης φάσης εκπαίδευσης, χρησιμοποιώντας μια μέθοδος μακρινής εποπτείας [88] με βάση την Freebase. Για κάθε σχέση R, αυτή η διαδικασία κατασκευάζει ένα σύνολο από QR πρότυπα. Για παράδειγμα, το parents of.είναι ένα πρότυπο για PARENTS: μπορεί να αρχικοποιηθεί για ένα υποκείμενο S ψάχνοντας για ένα όνομα για το S στην Freebase και αντικαθιστώντας την κενή θέση με αυτό (γονείς του Frank Zappa). Η ίδια σχέση μπορεί επίσης να δημιουργήσει το πρότυπο mother. Επίσης, η ποιότητα καθενός από αυτά τα πρότυπα εκτιμάται, χρησιμοποιώντας ένα επισημασμένο σύνολο εκπαίδευσης Τ για το R. Στην φάση ολοκλήρωσης της γνωσιακής βάσης (κάτω κουτί 51 Σ ε λ ί δ α

52 στο Σχήμα 7, με τη σήμανση KB COMPLETION), επεξεργάζεται κάθε ζευγάρι υποκείμενο-σχέση (S, R). Ξεκινά επιλέγοντας τα πρότυπα NR {q, 1, } q N R Q R, βασιζόμενοι στην εκτιμώμενη ποιότητα του προτύπου από την εκτός σύνδεσης διαδικασία και αρχικοποιώντας την για το S, δημιουργώντας τα ερωτήματα {q1,..., q N R}. Στο επόμενο βήμα απάντησης της ερώτησης, κάθε ερώτημα qi εφαρμόζεται στο σύστημα Ερωταποκρίσεων, το οποίο χρησιμοποιεί αναζήτηση στον Ιστό για να παράγει μια βαθμολογούμενη λίστα Ai από λέξεις απαντήσεις. Για να επεξεργαστεί τις απαντήσεις αυτές στην Freebase, πρέπει να τις συνδέσει στις οντότητες στις οποίες αναφέρονται. Αυτό γίνεται στο βήμα εύρεσης της απάντησης, όπου κάθε λίστα Ai από λέξεις απαντήσεων μετατρέπεται σε μια λίστα Ei από οντότητες απαντήσεων. Στην επόμενη φάση συνδυάζονται τα αποτελέσματα κατάταξης των απαντήσεων Ei σε μια μοναδική λίστα κατάταξης E. Είναι επιθυμητό να υπάρχει μια εκτίμηση της πιθανότητας η απάντηση να είναι σωστή. Το σύστημα Ερωταποκρίσεων παράγει σκορ ποιότητας, αλλά αυτοί είναι πραγματικοί αριθμοί που δεν μπορούν να μεταφραστούν απευθείας σε πιθανότητες. Συνεπώς, στο τελευταίο στάδιο επεξεργασίας των απαντήσεων, μεταφράζονται τα σκορ εξόδου σε πιθανότητες χρησιμοποιώντας ένα μοντέλο R που σταθμίστηκε στην εκτός σύνδεσης διαδικασία εκπαίδευσης, μέσω μια εποπτευόμενης τεχνικής μάθησης. Σχήμα 7. Περιγραφή μοντέλου Υπολογισμού 52 Σ ε λ ί δ α

53 4. Συστήματα Ερωταποκρίσεων στον Ιστό Τα τελευταία χρόνια έχουν αναπτυχθεί αρκετά συστήματα Ερωταποκρίσεων στον Ιστό που προσπαθούν να χειριστούν όσο το δυνατόν καλύτερα το πρόβλημα διαχείρισης των ερωτήσεων φυσικής γλώσσας και της εύρεσης των κατάλληλων απαντήσεων στις ερωτήσεις αυτές. Στο κεφάλαιο αυτό περιγράφουμε τέσσερα τέτοια συστήματα που είναι από τα κορυφαία σε απόδοση σύμφωνα με τη βιβλιογραφία. Συγκεκριμένα παρουσιάζονται το σύστημα AquaLog [77], το QuestIO [32], το AQUA [116] και το LogAnswer [40] AquaLog Ο εμπλουτισμός των δεδομένων του Ιστού με σημασιολογικά δεδομένα [10] από οντολογίες έχει οδηγήσει στην δημιουργία πιο αποδοτικών συστημάτων Ερωταποκρίσεων. Το AquaLog είναι ένα φορητό σύστημα Ερωταποκρίσεων που δέχεται σαν είσοδο ερωτήματα εκφρασμένα σε φυσική γλώσσα και μια οντολογία. Στην έξοδο επιστρέφει τις απαντήσεις από μια ή περισσότερες γνωσιακές βάσεις(knowledge bases-kbs). Το AquaLog [77] είναι φορητό σύστημα υπό την έννοια ότι ο χρόνος για την ρύθμιση της προσαρμογής σε μια οντολογία είναι αμελητέος. Παρουσιάζει μια αποδοτική μέθοδος στην οποία συνδυάζονται διαφορετικές στρατηγικές για να δώσουν την λύση. Χρησιμοποιεί την πλατφόρμα GATE NLP 4, μετρικούς αλγόριθμους συμβολοσειρών, το WordNet και μια νέα οντολογία που βασίζεται σε σχεσιακή υπηρεσία ομοιότητας. Η υπηρεσία αυτή χρησιμεύει στον υπολογισμό της ομοιότητας με βάση τις οντολογίες για τις ερωτήσεις των χρηστών εκμεταλλευόμενη πλήρως τα χαρακτηριστικά των γνωσιακών βάσεων δεδομένων. Από την άλλη, περιλαμβάνει και ένα εργαλείο μάθησης που εξασφαλίζει ότι η απόδοση του συστήματος θα βελτιώνεται όσο περνάει ο χρόνος και όσο το σύστημα χρησιμοποιείται από τους χρήστες. Η προσθήκη μεταδεδομένων από οντολογίες σε δομημένα ή ημιδομημένα έγγραφα και κείμενα, για να καθοριστούν καλύτερα σημασιολογικά οι έννοιες που περιέχουν, μπορεί να οδηγήσει σε λειτουργικότερη επικοινωνία ανάμεσα στις διάφορες υπηρεσίες που ανταλλάσσουν δεδομένα. Για παράδειγμα, εργαλεία όπως το Magpie [35] υποστηρίζει πλοήγηση στους χρήστες και ταυτόχρονα επιλογή μιας οντολογίας μέσω της οποίας θα καθοριστούν καλύτερα οι έννοιες που ψάχνει ο χρήστης βελτιώνοντας την αποδοτικότητα της αναζήτησης. Όπως μπορεί κάποιος να δει στην εργασία [86], η διάθεση της σημασιολογικής επισήμανσης των πληροφοριών του Ιστού, οδηγούν σε συστήματα που έχουν αυξημένη ακρίβεια και ανάκληση σε σχέση Σ ε λ ί δ α

54 με τα κλασσικά συστήματα αναζήτησης και επίσης δίνουν την δυνατότητα να παρέχονται επιπλέον λειτουργίες όπως : Επιπλέον πληροφορίες για μια απάντηση, Μετρικές αξιοπιστίας της απάντησης, Επεξήγηση του τρόπου ανάκτησης της απάντησης. Συνεπώς, στο σύστημα αυτό δίνει έμφαση στην επισήμανση των δεδομένων και στην επέκταση του ερωτήματος με σχετικούς όρους για να γίνει το σύστημα πιο έξυπνο [86]. Η σημασιολογική πληροφορία μπορεί να χρησιμοποιηθεί με διαφορετικούς τρόπους για να βελτιωθεί η ποιότητα των απαντήσεων σε μια ερώτηση. Σημαντική συνέπεια αυτού είναι ότι μπορούν να γίνουν ερωτήματα απευθείας πάνω σε σημασιολογικά δεδομένα. Με άλλα λόγια, μπορεί κάποιος να εκμεταλλευτεί την σημασιολογική πληροφορία για να παρέχει ακριβείς απαντήσεις σε σύνθετες ερωτήσεις, επιτρέποντας την χρήση συμπερασματικής λογικής. Επιπρόσθετα, καθώς η σημασιολογική επισήμανση θα εφαρμόζεται όλο και περισσότερο, θα δίνεται ακόμα μεγαλύτερο πλεονέκτημα στα συστήματα ώστε να παρέχουν σωστές απαντήσεις σε ερωτήσεις φυσικής γλώσσας παρά σε ερωτήματα με λέξεις κλειδιά. Για παράδειγμα, απλές ερωτήσεις του τύπου «Peter Scott home page KMi» επιστρέφουν την αρχική σελίδα του «Dr Peter Scott s» και όχι άλλες πληροφορίες σχετικές με αυτόν. επίσης, όπως ειπώθηκε παραπάνω, μπορεί να εκτελεστούν ερωτήματα και στην σημασιολογική επισήμανση των δεδομένων απευθείας. Για παράδειγμα, μπορεί να γίνει μια πιο πολύπλοκη ερώτηση όπως «which are the projects in KMi related to the semantic web area?» και χρησιμοποιώντας μια μηχανή εξαγωγής συμπερασματικής λογικής πάνω στην σημασιολογική πληροφορία, τα αξιώματα και τις κλάσεις μιας οντολογίας να εξαχθεί η σωστή απάντηση. Το σενάριο αυτό είναι πολύ σχετικό με το να ερωτηθεί με ερωτήματα φυσικής γλώσσας μια βάση δεδομένων (NLIDB), το οποίο έχει μελετηθεί σε μεγάλο βαθμό στους τομείς της τεχνητής νοημοσύνης και των βάσεων δεδομένων. Όπως τονίστηκε στο [54], ο βασικός περιορισμός των διεπαφών Φυσικής Γλώσσας στις βάσεις δεδομένων, είναι ότι προϋποθέτει την γνώση από το σύστημα μιας δομημένης βάσης γνώσης για να απαντήσει σε μια ερώτηση. Συνεπώς ένα σημαντικό πλεονέκτημα είναι ότι το AquaLog μπορεί να απαντήσει σε σύνθετες ερωτήσεις που απαιτούν τον συνδυασμό επιμέρους πηγών γνώσεις χωρίς να επιστρέψουν μια προ επεξεργασμένη παράγραφο κειμένου όπως τα υπάρχοντα συστήματα [26]. Το AquaLog αρχικοποιεί την οντολογία εισόδου με πληροφορίες από τον τομέα γνώσης της ερώτησης. Συνεπώς, ταιριάζει πολύ σε σημασιολογικά δίκτυα επιχειρήσεων όπου μια οντολογία χρησιμοποιείται για την σημασιολογική επισήμανση των δεδομένων. Η δύναμή του συστήματος πηγάζει αρχικά από την συντακτική και σημασιολογική ανάλυση της ερώτησης. Επίσης, περιέχει ένα 54 Σ ε λ ί δ α

55 μηχανισμό μάθησης για τα δεδομένα για να αποκτήσει ανεξάρτητη γνώση του τομέα γνώσης δημιουργώντας ένα λεξικό. Το εργαλείο αυτό εξασφαλίζει ότι η απόδοση του συστήματος βελτιώνεται στον χρόνο όπως είπαμε και παραπάνω. Παράδειγμα Εφαρμογής Πρώτα από όλα, η αρχιτεκτονική του AquaLog μπορεί να χαρακτηριστεί ως ένα κλιμακωτό μοντέλο καθώς το ερώτημα φυσικής γλώσσας μεταφράζεται από ένα γλωσσολογικό εργαλείο σε ένα σύνολο από ενδιάμεσες τριπλέτες, οι οποίες καλούνται τριπλέτες του ερωτήματος. Στη συνέχεια, η υπηρεσία υπολογισμού της σχεσιακής ομοιότητας(rss-relation Similarity Service) λαμβάνει σαν είσοδο αυτές τις τριπλέτες του ερωτήματος και τις επεξεργάζεται για να παράγει ερωτήματα προσαρμοσμένα σε οντολογίες, τα οποία με τη σειρά τους καλούνται τριπλέτες οντολογιών, όπως φαίνεται στο Σχήμα 8. Σχήμα 8. Μοντέλο Υπολογισμού του AquaLog Το μοντέλο δεδομένων(data model) είναι βασισμένο σε τριπλέτες, και συγκεκριμένα τριπλέτες της μορφής <υποκείμενο, σχέση(ρήμα), αντικείμενο>. Υπάρχουν δυο κύριοι λόγοι για την υιοθέτηση ενός μοντέλου με τριπλέτες. Πρώτον, όπως αποδεικνύεται και στην εργασία [61], αν και δεν μπορούν να μετατραπούν όλα τα ερωτήματα σε δυαδικό σχεσιακό μοντέλο, αυτές οι εξαιρέσεις συμβαίνουν σπάνια στην πραγματικότητα, αναδεικνύοντας την αποδοτικότητα του μοντέλου. Δεύτερον, η αναπαράσταση γνώσης βασισμένη σε RDF (KR knowledge representation) μορφοποιείται για τον Σημασιολογικό Ιστό, όπως κάνει και η ίδια η RDF ή και η OWL [87] που επίσης προσαρμόζεται σε αυτό το δυαδικό σχεσιακό μοντέλο και εκφράζουν εκφράσεις ως <υποκείμενο, σχέση(ρήμα), αντικείμενο>. Συνεπώς, έχει νόημα για ένα ερώτημα που εφαρμόζεται στον Σημασιολογικό Ιστό να υιοθετήσει ένα μοντέλο τριπλετών που μοιράζεται την ίδια αναπαράσταση με τις άλλες τριπλέτες που υπάρχουν στον Σημασιολογικό Ιστό. 55 Σ ε λ ί δ α

56 Για παράδειγμα, στο περιεχόμενο του ακαδημαϊκού τομέα γνώσης στο τμήμα που ανέπτυξε το AquaLog, το AquaLog είναι ικανό να μεταφράσει την ερώτηση «what is the homepage of Peter who has an interest on the semantic web?» στο ακόλουθο λογικό ερώτημα (συμβατό με την αντίστοιχη οντολογία) <what is?, has-web-address, peter-scott > και <person?, has-researchinterest, Semantic Web area>, εκφρασμένα ως τριπλέτες που περιέχουν μεταβλητές. Συγκεκριμένα, αν αναλυθεί η ερώτηση «what is the homepage of Peter?», ο ρόλος της RSS είναι να αντιστοιχίσει την ενδιάμεση μορφή <what is?, homepage, peter>, σε συνεργασία με το γλωσσολογικό εργαλείο, στο αντίστοιχο ερώτημα (τύπου οντολογίας). Το RSS καλεί τον χρήστη να συμμετάσχει στην διαδικασία απάντησης της ερώτησης αν δεν υπάρχει πληροφορία διαθέσιμη στο AquaLog για να αποσαφηνιστεί το ερώτημα απευθείας. Ένα παράδειγμα είναι η μελέτη του ερωτήματος what is the homepage of peter s για το οποίο αναζητείται η «homepage» του «Peter». Χρησιμοποιώντας μετρικές συμβολοσειρών, το σύστημα δεν είναι ικανό να αποσαφηνίσει τα ονόματα «Peter-Scott, Peter-Sharpe, Peter-Whalley, κτλ». Συνεπώς, απαιτείται η συνεισφορά του χρήστη. Επιπρόσθετα, στην δεξιά πλευρά του σχήματος η συνεισφορά του χρήστη απαιτείται για να αποσαφηνιστεί η λέξη «homepage» (είναι το ίδιο με το «has-web-address») καθώς όταν το σύστημα επεξεργάστηκε αρχικά τον όρο δεν είχε αναγνωριστεί στο WordNet το οποίο συνδέει τις δυο ετικέτες. Επιπρόσθετα και η οντολογία δεν παρείχε επιπλέον τρόπους για να αποσαφηνιστεί η σημασία της λέξης. Το σύστημα με τον τρόπο αυτό μαθαίνει το λεξιλόγιο του χρήστη για μελλοντικές περιπτώσεις. Αρχιτεκτονική Το AquaLog υλοποιήθηκε σε Java σαν μια σπονδυλωτή εφαρμογή του Ιστού, χρησιμοποιώντας μια αρχιτεκτονική πελάτη-εξυπηρετητή. Επιπλέον, το AquaLog παρέχει ένα API, που επιτρέπει την επικοινωνία με άλλες πλατφόρμες για ανεξάρτητη χρήση των υποσυστημάτων του. Το Σχήμα 9 δείχνει τα διαφορετικά υποσυστήματα της αρχιτεκτονικής του AquaLog. Σαν αποτέλεσμα αυτής της αρχιτεκτονικής, η υπάρχουσα έκδοση του AquaLog είναι σπονδυλωτή, ευέλικτη και κλιμακωτή. Το γλωσσολογικό υποσύστημα και η υπηρεσία υπολογισμού της σχεσιακής ομοιότητας(rss) είναι τα δυο κεντρικά υποσυστήματα του AquaLog, τα οποία είναι και τα δυο φορητά και ανεξάρτητα μεταξύ τους. Το AquaLog αυτόματα κατατάσσει το ερώτημα με βάση ένα γλωσσολογικό κριτήριο. Η γλωσσολογική κάλυψη μπορεί να επεκταθεί μέσω της χρήσης κανονικών εκφράσεων υιοθετώντας τα πρότυπα που καλύπτονται από μια υπάρχουσα κατηγοριοποίηση ή δημιουργώντας μια νέα. 56 Σ ε λ ί δ α

57 Σχήμα 9. Γενική Αρχιτεκτονική του AquaLog Το σημείο κλειδί για το AquaLog είναι η χρήση ενός μηχανισμού, που του επιτρέπει να προσαρμόζεται για διαφορετικές γλώσσες αναπαράστασης γνώσης. Αρχικά χρησιμοποιήθηκε το Operational Conceptual Modeling Language (OCML), χρησιμοποιώντας την εσωτερική OCML-βασισμένη KR υποδομή. Όμως, στο μέλλον σκοπός είναι να παρέχει μηχανισμούς για την ενσωμάτωση RDF και OWL εξυπηρετητών QuestIO Η προσπέλαση δομημένων δεδομένων με τη μορφή οντολογιών απαιτεί εκπαίδευση και μάθηση γλωσσών ερωτημάτων και λογικής όπως οι SeRQL, SPARQL οι οποίες είναι αρκετά δύσκολες στην κατανόηση από μη ειδικούς χρήστες. Ένας τρόπος να μειωθεί η γνώση που πρέπει να αποκτηθεί και να γίνουν τα ερωτήματα των οντολογιών πιο εύκολα είναι μέσω μιας Διεπαφής Φυσικής Γλώσσας (Natural Language Interface - NLI). Ενώ υπάρχουν NLI σε δομημένα δεδομένα με λογική απόδοση, τείνουν να χρειάζονται αρκετή τροποποίηση για να προσαρμοστούν σε νέους τομείς γνώσης ή οντολογίες. Επιπρόσθετα, συχνά απαιτούν συγκεκριμένη προσήλωση σε μια προκαθορισμένη σύνταξη, που με τη σειρά του σημαίνει, ότι οι χρήστες χρειάζονται εκπαίδευση. 57 Σ ε λ ί δ α

58 Στο κεφάλαιο αυτό περιγράφεται η εργασία [32] η οποία αναλύει το QuestIO (Question-based Interface to Ontologies), ένα εργαλείο για να εκτελούνται ερωτήματα σε οντολογίες χρησιμοποιώντας μη περιορισμένα, με βάση τη γλώσσα, ερωτήματα. Το QuestIO έχει μια πολύ απλή διεπαφή, δεν χρειάζεται εκπαίδευση για τους χρήστες και μπορεί εύκολα να ενσωματωθεί σε κάθε σύστημα ή να χρησιμοποιηθεί με οποιαδήποτε οντολογία ή βάση γνώσης χωρίς προηγούμενη προσαρμογή. Εργαλεία για δημιουργία, τροποποίηση και εκτέλεση ερωτημάτων σε οντολογίες έχουν αναπτυχθεί σε μεγάλη κλίμακα μέχρι σήμερα. Παρόλα αυτά, για τη χρήση τους πρέπει να ξεπεραστεί ένα σημαντικό εμπόδιο: απαιτούν την γνώση του τομέα που εφαρμόζονται. Για την εκτέλεση ερωτημάτων σε οντολογίες, για παράδειγμα, απαιτείται κάποιος να είναι εξοικειωμένος με υπάρχουσες γλώσσες εκτέλεσης ερωτημάτων όπως οι SPARQL και η SeRQL για να εξαχθούν χρήσιμα δεδομένα. Τέτοιες γλώσσες, ενώ έχουν πολύ ισχυρή εκφραστική δύναμη, απαιτούν γνώση της σύνταξής τους, της δομής των οντολογιών και του τρόπου με τον οποίο κωδικοποιούνται σε γλώσσες όπως οι OWL. Μέχρι σήμερα, πολλές διεπαφές για ερωτήματα σε οντολογίες έχουν αναπτυχθεί. Μερικά από αυτά έχουν και γραφικό περιβάλλον και υποστηρίζουν: α) Πλοήγηση στην οντολογία, β) Δημιουργία ενός ερωτήματος χρησιμοποιώντας προκαθορισμένα πρότυπα, γ) Εκτέλεση ερωτημάτων σε μια οντολογία χρησιμοποιώντας γλώσσες ερωτημάτων (SPARQL). Το πιο γνωστό εργαλείο που χρησιμοποιείται και στο Κεφάλαιο 5 για την απεικόνιση της οντολογίας είναι το Protégé. Το Protégé είναι μια πλατφόρμα χρήσιμη για επαγγελματίες που είναι εξοικειωμένοι με τις γλώσσες ερωτημάτων αν και χρειάζεται να είναι κάποιος εκπαιδευμένος πάνω στο Protégé για να το χρησιμοποιήσει. Μια άλλη πλατφόρμα είναι η KIM - Knowledge Management Platform [94] η οποία πάει ένα βήμα παρακάτω στην απλοποίηση της διαδικασίας σημασιολογικής αναζήτησης. Παρέχει μια διεπαφή για την εκτέλεση ερωτημάτων σε βάσεις γνώσεων χρησιμοποιώντας είτε προκαθορισμένα πρότυπα είτε δημιουργώντας ερωτήματα SeRQL. Συνεπώς, οι χρήστες περιορίζονται στο τι μπορούν να αναζητήσουν και πρέπει να είναι σχετικοί με την αντίστοιχη οντολογία. Σύμφωνα με τις προτιμήσεις των χρηστών, τα πιο φιλικά προς τον χρήστη περιβάλλοντα για να προσπελαύνουν δεδομένα κωδικοποιημένα σε μια οντολογία χρησιμοποιούν ερωτήματα με πλήρεις προτάσεις [63]. Όμως, υπάρχοντα NLI συστήματα τείνουν να είναι είτε ανεξάρτητα του τομέα και έχουν χαμηλότερη απόδοση, ή περισσότερο προσαρμοσμένα στον τομέα αλλά με καλύτερη απόδοση. Το κόστος στην τελευταία περίπτωση είναι ότι η προσαρμογή είναι πολύ ακριβή και 58 Σ ε λ ί δ α

59 χρειάζεται μεγάλη εξειδίκευση για να επιτευχθεί. Το κλειδί για να καλυφθεί το κενό ανάμεσα στις δυο αυτές περιπτώσεις είναι να γίνεται αυτόματη μετατροπή. Η φύση της σημασιολογικής επισήμανσης των δεδομένων έχει την δύναμη να δώσει λύση στο πρόβλημα αυτό στα NLI, εξάγοντας αυτόματα ανθρώπινου τύπου αντιστοιχίσεις από την οντολογία. Όμως, για να επιτευχθεί αυτό, η ποιότητα της σημασιολογικής πληροφορίας στην οντολογία πρέπει να είναι σε υψηλό επίπεδο, περιέχοντας πολλές περιγραφές και ετικέτες φυσικής γλώσσας. Το QuestIO είναι ένα εργαλείο ανεξάρτητο του τομέα, εύκολα ενσωματώσιμο και δεν χρειάζεται να εκπαιδευτούν οι χρήστες. Δέχεται ελεύθερο κείμενο σαν ερωτήματα και το μετατρέπει σε ερωτήματα γλώσσας SeRQL. Στη συνέχεια, τα ερωτήματα αυτά εκτελούνται στη γνώση βάσης(κβ) και τα αποτελέσματα επιστρέφονται στον χρήστη. Αμφισημίες στα ερωτήματα επιλύονται χρησιμοποιώντας συμπερασματική λογική στην οντολογία, για να ληφθούν υπόψη όλες οι δυνατές αναπαραστάσεις. Τελικά, σε αντίθεση με τα περισσότερα συστήματα, το QuestIO δεν χρειάζεται αρχικοποίηση και όλες οι απαραίτητες μετατροπές γίνονται στο επίπεδο της οντολογίας. Το QuestIO προσπαθεί να διευθετήσει ένα σύνολο από προβλήματα όπως: 1. Φορητότητα χωρίς προηγούμενη προσαρμογή. 2. Ελάχιστη εκπαίδευση για τον χρήστη. 3. Αποφυγή της χρήσης μιας γλώσσας εισαγωγής, επιτρέποντας στους χρήστες να εισάγουν ερωτήματα οποιοδήποτε μεγέθους. 4. Παροχή βοήθειας στον χρήστη κατά τη διάρκεια της επιδιόρθωσης του ερωτήματος. 5. Επιτρέπει στους εξειδικευμένους χρήστες να ελέγξουν την έξοδο παρέχοντας έναν μηχανισμό που ακολουθεί τους μετασχηματισμούς του συστήματος από το ερώτημα εισόδου μέχρι την έξοδο. Με τον τρόπο αυτό μπορούν να αμφισβητούν τα τελικά αποτελέσματα και να επανακαθορίσουν την διαδικασία από κάποιο ενδιάμεσο βήμα. Για τη φορητότητα του συστήματος, υλοποιήθηκε αυτόματη εξαγωγή δεδομένων από την οντολογία κατά τη φάση αρχικοποίησης. Αυτή η φάση εξαγωγής γνώσης εκτελείται κατά τη διάρκεια εκτέλεσης όταν τα αρχικά ερωτήματα μετατρέπονται σε ερωτήματα SeRQL. Για να εξαχθεί αυτόματα γνώση εκτελείται μια προ-επεξεργασία στα δεδομένα της οντολογίας (κλάσης, στιγμιότυπα, ιδιότητες και στις τιμές τους) και εξάγονται όλοι οι ανθρώπινου τύπου προσδιορισμοί. Για να επιτευχθεί αυτό αρχικά εξάγεται μια λίστα με τα ακόλουθα: Ονόματα όλων των δεδομένων της οντολογίας, 59 Σ ε λ ί δ α

60 Τιμές όλων των δεδομένων της οντολογίας Στη συνέχεια, κάθε αντικείμενο από τη λίστα αυτή επεξεργάζεται επιπλέον έτσι ώστε: οποιοδήποτε όνομα που περιλαμβάνει «-» ή «_» να αλλαχθεί και τα σύμβολα να αντικατασταθούν με κενά. Για παράδειγμα το Project_Name ή το Project- Name θα γινόταν Project_Name or Project Name. μια ιδιότητα της οντολογίας συνήθως αναγνωρίζεται από ένα URI ενωμένο με ένα σύνολο από χαρακτήρες ξεκινώντας με «#». Αυτό το σύνολο από χαρακτήρες καλείται αναγνωριστής. Για παράδειγμα, αν το URI μιας κλάσης που αναπαρίσταται στον GATE POS Tagger είναι « ο αναγνωριστής θα είναι POSTagger. οποιοδήποτε όνομα είναι γραμμένο με το πρώτο γράμμα κεφαλαίο, χωρίζεται στις αντίστοιχες λέξεις, έτσι ώστε το ProjectName να γίνεται Project Name. Το QuestIO είναι μια εφαρμογή εξαγωγής πληροφορίας, που βασίζεται στο πλαίσιο εργασίας GATE [31]. Αυτή η εφαρμογή δέχεται ένα ερώτημα εκφρασμένο σε φυσική γλώσσα και το μετατρέπει σε ερωτήματα εκφρασμένα σε SeRQL όπως φαίνεται συνολικά στο Σχήμα 10. Αφού συλλεχθούν όλα τα δεδομένα, ο Αναλυτής Ερωτημάτων (Query Analyzer QA) εκτελεί τα παρακάτω βήματα(σχήμα 11): 1. Φιλτράρισμα των αναγνωρισμένων κατηγοριών κλειδιών. 2. Αναγνώριση των σχέσεων ανάμεσα σε αυτές τις κατηγορίες κλειδιά. 3. Ταξινόμηση των σχέσεων αυτών. 4. Δημιουργία των ερωτημάτων SeRQL. Σχήμα 10. Διάγραμμα QuestIO 60 Σ ε λ ί δ α

61 Σχήμα 11. Εργαλείο Ανάλυσης Ερωτημάτων 4.3. AQUA Η χρήση συστημάτων Ερωταποκρίσεων έχει γίνει πολύ δημοφιλής τα τελευταία χρόνια στην προσπάθεια να μην επιστρέφεται μη σχετική πληροφορία στους χρήστες. Συνήθως αναζητούν την απάντηση στην βάση τους και επιστρέφουν συγκεκριμένες ερωτήσεις στους χρήστες όπως έχουμε δει και παραπάνω. Σκοπός της δημιουργίας του συστήματος AQUA(Automated Question Answering System) [116] που περιγράφεται σε αυτό το κεφάλαιο είναι η δημιουργία ενός συστήματος Ερωταποκρίσεων που θα ενσωματώνει τις πιο σημαντικές τεχνολογίες όπως είναι οι Οντολογίες, Λογική και Επεξεργασία Φυσικής Γλώσσας. Το σύστημα αυτό προσπαθεί να εκμεταλλευθεί τις ιστοσελίδες που έχουν επισημανθεί με σημασιολογικές ετικέτες για να χρησιμοποιηθούν στην απάντηση ερωτήσεων. Αυτές οι επισημάνσεις όπως έχουμε δει και προηγουμένως είναι γραμμένες σε RDF [71] ή RDFS [14] και παρέχουν ένα σημασιολογικό πλαίσιο για έκφραση των μεταδεδομένων στον Ιστό. Το AQUA χρησιμοποιεί αυτήν την πληροφορία για να εξάγει συμπεράσματα και να μειώσει το πλήθος των πιθανών απαντήσεων που δεν είναι απόλυτα σχετικές. Η βασική συνεισφορά του AQUA είναι η χρήση μιας οντολογίας με σκοπό να αποφύγει την κλασσική αναζήτηση με λέξεις κλειδιά. Η μηχανή συμπερασμάτων του AQUA λειτουργεί μέσα σε ένα πλαίσιο με πολλαπλή λογική, στην οποία κάθε όρος έχει έναν τύπο και κάθε κατηγόρημα είναι 61 Σ ε λ ί δ α

62 αντιστοιχισμένο με έναν τομέα γνώσης. Επίσης το κατηγόρημα έχει ενσωματωμένο έναν αλγόριθμο ομοιότητας που χρησιμοποιείται στην αντιστοίχιση ανάμεσα στα ονόματα και τις σχέσεις στη βάση γνώσης, και στα ονόματα των σχέσεων στην οντολογία. Το Μοντέλο Το μοντέλο υπολογισμού του AQUA είναι μια γενίκευση άλλων μοντέλων [48, 70] παρέχοντας ένα ενοποιημένο πλαίσιο εργασίας που ενσωματώνει λογικά ερωτήματα και πληροφορίες ανάκτησης. Αρχικά γίνεται επεξεργασία της ερώτησης για να αντιληφθεί το σύστημα την ερώτηση του χρήστη. Αυτή η κατανόηση της ερώτησης απαιτεί διάφορα βήματα όπως το πέρασμα της ερώτησης, η αναπαράστασης της ερώτησης και η κατάταξη της σε μια από τις κατηγορίες: what, who, when, which why and where. Η επεξεργασία του εγγράφου βασίζεται στην εξαγωγή του βασικού μέρους της ερώτησης. Στη συνέχεια, ένα σύνολο από έγγραφα επιλέγονται και εξάγεται ένα σύνολο από παραγράφους. Οι απαντήσεις εξάγονται και ελέγχονται χρησιμοποιώντας την πληροφορία του τύπου της ερώτησης και στη συνέχεια οι ερωτήσεις βαθμολογούνται. Μια αναλυτική αρχιτεκτονική του συστήματος AQUA φαίνεται στο Σχήμα Σ ε λ ί δ α

63 Σχήμα 12. Αρχιτεκτονική AQUA Αυτή η αρχιτεκτονική περιλαμβάνει ένα σύνολο από υποσυστήματα, τα οποία περιγράφονται παρακάτω: 1. Διεπαφή Ερωτημάτων(Query Interface). Ο χρήστης γράφει μια ερώτηση χρησιμοποιώντας την διεπαφή του χρήστη. Η διεπαφή αυτή είναι ανάλογη με την διεπαφή των χρηστών στην Google. Αν ένας χρήστης δεν ικανοποιηθεί από την απάντηση, τότε μπορεί να ξαναδιατυπώσει την ερώτησή του. 2. Αναλυτή Φυσικής Γλώσσας (NLP Analyzer). Ο NLP αναλυτής κάνει τον χωρισμό της πρότασης σε υποκείμενο, ρήματα, φράσεις, αντωνυμίες, και αντικείμενα. Η έξοδος αυτού του υποσυστήματος είναι μια λογική αναπαράσταση της ερώτησης. 3. WordNet. Χρησιμοποιείται σαν λεξικό στο AQUA σύστημα. 4. Οντολογία(Ontology). Χρησιμοποιείται μια χειροκίνητα κατασκευασμένη οντολογία που περιλαμβάνει ανθρώπους, σχέδια, έργα, δημοσιεύσεις, τεχνολογίες και γεγονότα. 5. Βάση Γνώσης(Knowledge Base). Η βάση γνώσης είναι κατασκευασμένη αυξητικά και είναι προσαρμοσμένη σε κάποιο τομέα γνώσης. Για παράδειγμα, μια βάση γνώσης μπορεί να περιέχει δεδομένα για έναν οργανισμό όπως ερευνητές, έργα, δημοσιεύσεις, τεχνολογίες και γεγονότα. 6. Διερμηνευτής(Interpreter). Είναι ένας λογικός διερμηνευτής που εκτελεί ένα ερώτημα χρησιμοποιώντας αλγόριθμους ενοποίησης και ανάλυσης. Βρίσκει μια απόδειξη του ερωτήματος στην βάση γνώσης. 7. Ανάλυση Σφάλματος(Failure analysis). Αυτό το υποσύστημα αναλύει την αποτυχία μιας ερώτησης και δίνει μια εξήγηση για την αποτυχία αυτή. Ο χρήστης μπορεί να παρέχει νέες πληροφορίες σαν απόδειξη. Η διαδικασία αυτή μπορεί να επαναληφθεί αρκετές φορές μέχρι να ολοκληρωθεί. 8. Κατάταξη της ερώτησης και Ανασχηματισμός (Question classification & reformulation). Το υποσύστημα αυτό κατατάσσει την ερώτηση σε ένα από τους υποστηριζόμενους τύπους ερωτήσεων στο σύστημα AQUA (what, who, when, which, why and where). 9. Μορφοποίηση του Ερωτήματος Αναζήτησης (Search query formulation). Το υποσύστημα αυτό μετατρέπει την αρχική ερώτηση χρησιμοποιώντας κανόνες μετατροπής σε μια νέα ερώτηση. Σε αυτό το στάδιο χρησιμοποιούνται συνώνυμες λέξεις, τα σημεία στίξης αφαιρούνται και στις λέξεις αφαιρούνται οι καταλήξεις. 63 Σ ε λ ί δ α

64 10. Μηχανή Αναζήτησης(Search Engine). Η μηχανή αναζήτησης ψάχνει στον Ιστό για ένα σύνολο από έγγραφα που ικανοποιούν το ερώτημα χρησιμοποιώντας ένα επιλεγμένο σύνολο από λέξεις κλειδιά. 11. Εξαγωγή Απαντήσεων (Answer Extraction). Η εξαγωγή των απαντήσεων γίνεται από τα έγγραφα που η μηχανή αναζήτησης χαρακτήρισε σαν ικανοποιητικά για τη νέα ερώτηση. 12. Επιλογή των Απαντήσεων(Answer Selection). Η επιλογής των απαντήσεων έχει τρεις λειτουργίες, κατηγοριοποιεί τις απαντήσεις, τις βαθμολογεί χρησιμοποιώντας ένα μοντέλο ψηφοφορίας και επιστρέφει το τελικό αποτέλεσμα. Τα βήματα 1-8 αντιστοιχούν στην επεξεργασία της ερώτησης, τα βήματα 9-10 αντιστοιχούν στην επεξεργασία των εγγράφων και τα βήματα αντιστοιχούν στην εύρεση των απαντήσεων LogAnswer Το LogAnswer [40] είναι ένα ανοιχτού τομέα σύστημα Ερωταποκρίσεων που υιοθετεί μια αυτοματοποιημένη μηχανή συμπερασμάτων για να εξάγει σωστές απαντήσεις για ερωτήσεις φυσικής γλώσσας. Για αυτό το σκοπό, το LogAnswer λειτουργεί σε ένα μεγάλο σύνολο από αξιώματα λογικής, αναπαριστώντας ένα δομημένο σημασιολογικό δίκτυο από ένα εκτεταμένο σύνολο από κείμενα βάσεων γνώσης. Η λογική προσέγγισης επιτρέπει την μορφοποίηση των σημασιολογικών στοιχείων και της γνώσης που περιέχουν παίζοντας πολύ σημαντικό ρόλο στην εύρεση των απαντήσεων. Συνολικά, το LogAnswer πρότυπο, αποτελεί μια αυτόματη μηχανή συμπερασμάτων για εξαγωγή λογικών απαντήσεων καθώς επίσης και ένα εργαλείο γλωσσικής επεξεργασίας. Η αρχιτεκτονική του συστήματος Ερωταποκρίσεων LogAnswer φαίνεται στο Σχήμα 13. Παρακάτω περιγράφονται τα υποσυστήματα που περιλαμβάνει. Διεπαφή Χρήστη (User interface). Η ερώτηση φυσικής γλώσσας εισάγεται στο πεδίο αναζήτησης του LogAnswer. Ανάλογα με τις προτιμήσεις του χρήστη, το σύστημα απαντά τις ερωτήσεις παρέχοντας πολλαπλά περάσματα στα κείμενα και την ερώτηση και παρουσιάζοντας απαντήσεις ταυτόχρονα με τα αντίστοιχα περάσματα. Ανάλυση της Ερώτησης(Deep Question Parsing). Η ερώτηση αναλύεται από τον αναλυτή WOCADI [50], που δημιουργεί μια σημασιολογική αναπαράσταση της ερώτησης στην μορφή του MultiNet [51]. Επίσης εκτελείται μια κατηγοριοποίηση της ερώτησης σε αυτή τη φάση, που διακρίνει κυρίως ερωτήσεις με ορισμούς (What is a neutrino?) και πραγματικές ερωτήσεις (Who discovered the neutrino?). Ενώ οι πραγματικές ερωτήσεις μπορούν να απαντηθούν λογικά μεμονωμένα, οι ερωτήσεις 64 Σ ε λ ί δ α

65 ορισμών απαιτούν επιπρόσθετη επεξεργασία για να αναγνωριστούν οι περιγραφές που δεν αναπαριστούν μόνο θετική αλλά και αρνητική γνώση. Σχήμα 13. Αρχιτεκτονική LogAnswer Ανάκτηση Περασμάτων (Passage Retrieval). Η συλλογή κειμένων του LogAnswer υιοθετεί τη συλλογή νέων CLEF και ένα στιγμιότυπο της Γερμανικής Wikipedia. Προκειμένου να αποφύγει το πέρασμα όλων των κειμένων κατά την εκτέλεση των ερωτημάτων, όλα τα κείμενα προ επεξεργάζονται από τον αναλυτή WOCADI. Οι επιστρεφόμενες MultiNet αναπαραστάσεις τμηματοποιούνται σε περάσματα και αποθηκεύονται στο σύστημα ανάκτησης IRSAW [73], που χρησιμοποιεί τους όρους στα περάσματα για δεικτοδότηση. Με βάση τους όρους ενός ερωτήματος, το IRSAW ανακτά 200 (ή παραπάνω) περάσματα ως τη βάση για την εύρεση της λογικής απάντησης. Αρχική Εξαγωγή Χαρακτηριστικών και Αναταξινόμηση (Shallow Feature Extraction and Reranking). Προκειμένου να αποφύγουμε την λογική επεξεργασία όλων των περασμάτων, το LogAnswer προσπαθεί να αναγνωρίσει τις πιο πιθανές περιπτώσεις αναταξινομώντας τα περάσματα χρησιμοποιώντας κάποια αρχικά χαρακτηριστικά(όπως επικάλυψη των λεξικών εννοιών, των ονομάτων και των αριθμητικών δεδομένων με αυτά που υπάρχουν στην ερώτηση). Είναι σημαντικό ότι αυτά τα χαρακτηριστικά μπορούν να υπολογιστούν πολύ γρήγορα χωρίς την ανάγκη της μηχανής συμπερασμάτων. Η μηχανή μάθησης και το σύνολο των χαρακτηριστικών που χρησιμοποιούνται περιγράφονται αναλυτικά στα [46, 47]. 65 Σ ε λ ί δ α

66 Λογική Κατασκευή του Ερωτήματος (Logical Query Construction). Το σημασιολογικό δίκτυο για την ερώτηση μετατρέπεται σε μια συνδεδεμένη λίστα από λεκτικά του ερωτήματος. Τα συνώνυμα κανονικοποιούνται αντικαθιστώντας όλες τις λεκτικές έννοιες με κανονικές αναπαραστάσεις συνωνύμων. Λογική Ευελιξία Βασισμένη στη Επεξεργασία(Robust Logic-Based Processing). Ως βάση για την εξαγωγή των απαντήσεων και για την βελτίωση της κατάταξης των περασμάτων, το LogAnswer προσπαθεί να αποδείξει την λογική αναπαράσταση της ερώτησης. Η ευελιξία επιτυγχάνεται χρησιμοποιώντας χαλάρωση: αν μια απόδειξη δεν βρεθεί μέσα σε ένα χρονικό πλαίσιο, στη συνέχεια τα λεκτικά του ερωτήματος παρακάμπτονται μέχρι μια απόδειξη από τα υπολειπόμενα ερωτήματα να επιτύχει, και ο αριθμός των παρακάμψεων αυτών να δείξει μη συνεπαγωγή [45, 47]. Για λόγους αποδοτικότητας, η χαλάρωση σταματάει πριν όλα τα λεκτικά αποδεχτούν ή παρακαμφθούν. Στη συνέχεια μπορεί κάποιος να δηλώσει πάνω/κάτω όρια στον αριθμό των λεκτικών, θεωρώντας ότι όλα (ή κανένα) από τα υπολειπόμενά λεκτικά είναι αποδεκτά. Εξαγωγή Απαντήσεων(Answer Extraction). Αν μια απόδειξη μιας ερώτησης από ένα πέρασμα επιτύχει, τότε το LogAnswer τη θεωρεί μια δεσμευτική απάντηση που αναπαριστά την πληροφορία αναζήτησης. Για την αναζήτηση περισσότερων απαντήσεων, οι μηχανές συμπερασμάτων του LogAnswer μπορούν επίσης να επιστρέψουν μια αντικατάσταση για ένα αποδεδειγμένο ερώτημα όταν μια πλήρης απόδειξη αποτύχει. Δεδομένης μιας απάντησης για την μεταβλητή αναζήτησης, το LogAnswer χρησιμοποιεί τα δεδομένα του WOCADI για να βρει την απάντηση που ταιριάζει, με βάση το αρχικό πέρασμα. Λογική Εξαγωγή των Χαρακτηριστικών (Logic-Based Feature Extraction). Για μια λογική εκκαθάριση των σκορ σχετικότητας, το LogAnswer εξάγει τα ακόλουθα χαρακτηριστικά, που εξαρτώνται από το όριο στους κύκλους χαλάρωσης και στα αποτελέσματα της εξαγωγής απαντήσεων. Αναταξινόμηση (Logic-Based Reranking). Η λογική αναταξινόμησης των περασμάτων χρησιμοποιεί την ίδια προσέγγιση όπως η γρήγορη ταξινόμηση, αλλά η ταχύτητα και η λογική πλέον συνδυάζονται για να επιτύχουν καλύτερη ακρίβεια. Αντί να υπολογίζεται μια πλήρης αναταξινόμηση, τα περάσματα λαμβάνονται με τη σειρά που καθορίζεται από την γρήγορη ταξινόμηση, και η λογική επεξεργασία σταματάει μετά από ένα προκαθορισμένο χρονικό όριο. Υποστήριξη Επιλογής Περάσματος (Support Passage Selection). Όταν χρησιμοποιείται το LogAnswer για την ανάκτηση αποσπασμάτων κειμένων που περιέχουν μια απάντηση, όλα τα περάσματα αναταξινομούνται χρησιμοποιώντας το λογικό σκορ που έχει υπολογιστεί(αν είναι διαθέσιμο για το πέρασμα) ή το γρήγορο σκορ (αν δεν υπάρχει λογικό αποτέλεσμα για το πέρασμα λόγω προβλήματος στο 66 Σ ε λ ί δ α

67 πέρασμα ή χρονικών περιορισμών). Τα πρώτα k περάσματα επιλέγονται για παρουσίαση (k = 5 για την διεπαφή του Ιστού). Έλεγχος Λογικής(Sanity Checks). Όταν ο χρήστης απαιτεί ακριβείς ερωτήσεις παρά αποσπάσματα που περιέχουν την απάντηση, επιπρόσθετη επεξεργασία απαιτείται: ένας βασικός έλεγχος αφαιρεί τις απαντήσεις που απλά επαναλαμβάνουν περιεχόμενα της ερώτησης. Για την ερώτηση «Who is Virginia Kelley?», ο συγκεκριμένος έλεγχος αφαιρεί τις κλασσικές απαντήσεις όπως Virginia ή Virginia Kelley. Ένα ειδικό τεστ λογικής για ερωτήσεις ορισμών επίσης αφαιρεί τις μη πληροφοριακές απαντήσεις. Διαδικασία και Επιλογή της Απάντησης (Aggregation and Answer Selection). Το υποσύστημα ενσωμάτωσης των απαντήσεων υπολογίζει ένα γενικό σκορ για κάθε απάντηση, βασισμένο στο τοπικό σκορ για κάθε πέρασμα από το οποίο η απάντηση εξάχθηκε. Οι k = 5 απαντήσεις με τις υψηλότερες τιμές επιλέγονται για να παρουσιαστούν. Για κάθε απάντηση, το υποστηριζόμενο πέρασμα με το υψηλότερο σκορ παρέχεται για να επιβεβαιώσει την παρουσιαζόμενη απάντηση. 67 Σ ε λ ί δ α

68 5. Πρότυπο Σύστημα Ερωταποκρίσεων με Χρήση Οντολογιών Σ αυτό το κεφάλαιο, αναπτύσσονται τα χαρακτηριστικά της προτεινόμενης εφαρμογής Σημασιολογικού Ιστού που επεκτείνει τις μηχανές αναζήτησης δίνοντας τους τη δυνατότητα να απαντούν ερωτήματα φυσικής γλώσσας. Η εφαρμογή αυτή δημιουργεί ένα σύστημα ερωταποκρίσεων[93] βασισμένο σε οντολογίες δημιουργημένες από κείμενα που επιστρέφει μια μηχανή αναζήτησης ως αποτελέσματα στο αντίστοιχο ερώτημα του χρήστη Εισαγωγή Για αρκετά χρόνο, οι μηχανές αναζήτησης δεν είχαν επικεντρωθεί στις ερωτήσεις φυσικής γλώσσας. Η δυνατότητα απάντησης ερωτήσεων σε φυσική γλώσσα έχουν λάβει περισσότερη προσοχή τα τελευταία χρόνια, ενσωματώνοντας σημασιολογική πληροφορία στις μηχανές αναζήτησης. Οι μηχανές αναζήτησης δίνουν τη δυνατότητα στους χρήστες να υποβάλλουν ερωτήματα δηλαδή ένα σύνολο από λέξεις κλειδιά και όχι ερωτήσεις, προτάσεις φυσικής γλώσσας [124]. Πολλές από τις μηχανές προσπαθούν να εξισορροπήσουν αυτό το μειονέκτημα προσθέτοντας στις ιστοσελίδες πλούσια σημασιολογικά αποσπάσματα(όπως microdata, microformats και RDFa)[52] με σκοπό να είναι σε θέση να δεχτούν σημασιολογικά ενισχυμένα ερωτήματα. Η μόνη μηχανή αναζήτησης που διαχειρίζεται την απάντηση σε ερωτήσεις φυσικής γλώσσας ικανοποιητικά(κυρίως απλές ερωτήσεις) είναι η υπολογιστική μηχανή γνώσης Wolfram Alpha. Η Wolfram Alpha 5 χρησιμοποιεί κυρίως υπολογιστικές διαδικασίες για να παράγει τις απαντήσεις. Σκοπός της έρευνας αυτής είναι να παρουσιαστεί μια προσπάθεια καταπολέμησης του μειονεκτήματος των μηχανών αναζήτησης, χρησιμοποιώντας ένα πρότυπο σύστημα ερωταποκρίσεων που μπορεί να λειτουργήσει και να χρησιμοποιήσει τα αποτελέσματα των μηχανών αναζήτησης. Πιο συγκεκριμένα, πρόκειται για μια εφαρμογή που επιτρέπει την υποβολή ενός ερωτήματος φυσικής γλώσσας, χρησιμοποιεί ως είσοδο τα αποτελέσματα που συγκεντρώνει από τη μηχανή αναζήτησης και παράγει ως έξοδο τις απαντήσεις στην ερώτηση μαζί με τα αντίστοιχα αποτελέσματα. Η εφαρμογή διαχειρίζεται τα ερωτήματα φυσικής γλώσσας που υποβάλλονται στη μηχανή αναζήτησης ως ερωτήσεις(μορφοσυνακτικά δομημένες προτάσεις). Πιο συγκεκριμένα, χρήστες υποβάλλουν μια ερώτηση φυσικής γλώσσας αλλά η μηχανή αναζήτησης διαχειρίζεται αυτές τις ερωτήσεις ως ερωτήματα(ένα σύνολο από λέξεις κλειδιά) για να επιστρέψει τα αντίστοιχα αποτελέσματα. Κατά Σ ε λ ί δ α

69 συνέπεια και με σκοπό να αποφύγουμε οποιαδήποτε παρεξήγηση στη πορεία, οι ερωτήσεις φυσικής γλώσσας χαρακτηρίζονται ως ερωτήματα φυσικής γλώσσας όταν υποβάλλονται σε μια μηχανή αναζήτησης. Η εφαρμογή χρησιμοποιεί μια τοπικά εγκατεστημένη έκδοση της Indri μηχανής αναζήτησης η οποία χρησιμοποιεί τα δεδομένα από ένα τοπικό αντίγραφο του ClueWeb09[109]. Το εργαλείο αυτό επιτρέπει την αξιολόγηση των αποτελεσμάτων κατάταξης των προτεινόμενων τεχνικών, σε σύγκριση με την κατάταξη της Google. Η υλοποίηση επιτυγχάνει 2 στόχους: α) δυνατότητα απάντησης σε ερωτήματα φυσικής γλώσσας πολύ γρήγορα β) εκτέλεση σημασιολογικής κατάταξης των αποτελεσμάτων με βάση τη σχετικότητά τους στο ερώτημα. Στόχος είναι να γίνει εκμετάλλευση της ταχύτητας και της απόδοσης των γενικών μηχανών αναζήτησης, προκειμένου να δημιουργηθεί ένα μικρό σύνολο δεδομένων πολύ γρήγορα, και στη συνέχεια να εφαρμοστούν οι προτεινόμενοι μέθοδοι. Εδώ πρέπει να σημειωθεί ότι η μέθοδος μπορεί να χρησιμοποιηθεί για να δημιουργηθεί μια μηχανή αναζήτησης από την αρχή αλλά στη παρούσα φάση προτιμούμε να τονίσουμε τα ιδιαίτερα χαρακτηριστικά της παρούσας προσέγγισης χρησιμοποιώντας και επεκτείνοντας τις υπάρχουσες μηχανές αναζήτησης Κανόνες Περιγραφικής Λογικής και Οντολογία συστήματος Στο υποκεφάλαιο αυτό θα γίνει αναφορά στους κανόνες Περιγραφικής Λογικής(DL) που χρησιμοποιήσαμε για τη δημιουργία της Οντολογίας μέσα από τα κείμενααποτελέσματα των μηχανών αναζήτησης. Συγκεκριμένα, όταν γίνεται αναφορά στο κείμενο των αποτελεσμάτων προσδιορίζεται ο τίτλος, η περιγραφή της σελίδας από τα μεταδεδομένα και οι παραγράφοι. Αυτές οι ετικέτες περιέχουν κυρίως συντακτικά δομημένο κείμενο και για το λόγο αυτό θα ασχοληθούμε με αυτά τα μέρη. Οι ειδικοί κανόνες μαζί με τη συντακτική δομή των κειμένων περιλαμβάνονται εντός της οντολογίας χρησιμοποιώντας τους OWL DL κανόνες. Μετά από τον ορισμό των κανόνων και την εφαρμογή τους για τη κατασκευή δημιουργία της οντολογίας, η μηχανή εξαγωγής συμπερασμάτων Hermit χρησιμοποιείται για να εξάγει το βασικό γνωστικό μοντέλο όπως περιγράφεται και στο [105]. Η διαδικασία εξαγωγής του μοντέλου χωρίζεται σε δύο μέρη: a. στη μορφοσυντακτική ανάλυση του κειμένου και b. στη δημιουργία της οντολογίας. 69 Σ ε λ ί δ α

70 Μορφοσυντακτική Ανάλυση Σε πρώτο βήμα, τα κείμενα που επιστρέφονται ως αποτελέσματα αναλύονται μορφοσυντακτικά χρησιμοποιώντας το εργαλείο SharpNLP 6. Η έξοδος αυτού το βήματος είναι η συντακτική δομή και η εσωτερική δομή των κειμένων. Η εσωτερική δομή των κειμένων χρησιμοποιείται για να αναγνωριστούν οι ειδικές περιπτώσεις, όπως όταν το θέμα της πρότασης εμφανίζεται ως επαναληπτική αντωνυμία σε άλλη πρόταση. Το εργαλείο συντακτικής ανάλυσης(parser) επιστρέφει επίσης τα μέρη του λόγου για κάθε μια από τις λέξεις του κάθε κειμένου. Στο σημείο αυτό είναι απαραίτητο να αναφερθούμε στα βασικά χαρακτηριστικά του εργαλείου της μορφοσυντακτικής ανάλυσης. Το έργο ενός αναλυτική φυσικής γλώσσας[98] είναι να δέχεται ως είσοδο μια πρόταση και να επιστρέφει τη συντακτική της αναπαράσταση που αντιστοιχεί στη πιθανή σημασιολογική ερμηνεία της πρότασης αυτής. Οι συντακτικοί αναλυτές που δείχνουν ανώτερη ακρίβεια σε ελεύθερης δομής κείμενα κατηγοριοποιούνται ως στατιστικοί ή βασισμένοι σε μια συλλογή(corpus) καθώς αυτόματα μαθαίνουν να προσεγγίζουν τη συντακτική και τη σημασιολογική γνώση από την ανάλυση με τη βοήθεια ενός μεγάλου συνόλου κειμένων, που καλείται Penn Treebank[58]. Ένα εργαλείο, λοιπόν, που επιστρέφει οποιοδήποτε κείμενο σχολιασμένο μορφοσυντακτικά είναι το sharpnlp και αυτό χρησιμοποιείται και στο σύστημα που περιγράφεται. Το SharpNLP είναι μια συλλογή από εργαλεία επεξεργασίας φυσικής γλώσσας γραμμένο σε C#. Δίνει τη δυνατότητα εκτέλεσης των παρακάτω εργαλείων NLP: Split: διακρίνει τα σημεία στίξης που υποδηλώνουν το χωρισμό προτάσεων (.,?,! ) και χωρίζει το δοσμένο κείμενο σε προτάσεις. Τokenizer: ξεχωρίζει τις λέξεις του κειμένου για να υποδείξει τη ξεχωριστή συντακτική και λεξιλογική σημασία της κάθε μιας. Τagger: χαρακτηρίζει τη κάθε λέξη του κειμένου ως ένα μέρος του λόγου με χρήση και του WordNet. Chunker: βρίσκει τους μη αναδρομικούς συντακτικούς σχολιασμούς όπως κομμάτια ονοματικής φράσης. Χωρίζει τη κάθε πρόταση σε μικρά συντακτικά σύνολα. Parser: χαρακτηρίζει συντακτικά τη κάθε λέξη μέσα στη πρόταση. Find names: ανιχνεύει κύρια ονόματα (π.χ Saffron Park, London). Coreference εργαλείο και μια διεπαφή με τη λεξιλογική βάση δεδομένων του WordNet. Οι τελευταίες δυνατότητες που δίνει στο χρήστη το εργαλείο έχουν άμεση σύνδεση με τη βάση του WordNet καθώς χρησιμοποιούν πληροφορίες που δίνει σχετικά με τη κάθε λέξη Σ ε λ ί δ α

71 Αξίζει να σημειωθεί πως η αξιοπιστία του εργαλείου αυξάνεται καθώς χρησιμοποιεί τη λεξιλογική βάση του WordNet έτσι ώστε να γνωρίζει για κάθε λέξη του κειμένου τους πιθανούς συντακτικούς της τύπους και έπειτα ακολουθώντας και κάποιους αλγορίθμους αλλά παίρνοντας και από κάποια στάδια επεξεργασίας να μπορεί να εξάγει το κείμενο συντακτικά αναλυμένο. Εκμεταλλευόμενοι τη δενδρική συντακτική δομή που επιστρέφει ο συντακτικός αναλυτής, τα κείμενα οργανώνονται σε διαφορετικά επίπεδα. Σε πρώτο επίπεδο, τα κείμενα διαχωρίζονται σε προτάσεις. Έπειτα κάθε πρόταση χωρίζεται κυρίως σε δύο μέρη: 1. στο ονομαστικό μέρος(nominal part NP): περιλαμβάνει το υποκείμενο της πρότασης και τους προσδιορισμούς του 2. στο ρηματικό μέρος(verbal part VP): περιλαμβάνει την υπόλοιπη πρόταση δηλαδή το ρήμα, το αντικείμενο της πρότασης και όποιες δευτερεύουσες προτάσεις μπορεί να υπάρχουν. Το ονοματικό και το ρηματικό μέρος χωρίζονται και αυτά με τη σειρά τους σε διαφορετικά σε βάθος συντακτικά επίπεδα, μέχρι ο συντακτικός αναλυτικής να φτάσει ως προς την ανάλυση στο επίπεδο των λέξεων. (TOP (S (NP (NN Computer) (NN science)) (VP (..))) (VBZ is) (NP (DT a) (NN discipline)) (PP (IN that) (NP (NNS spans) (NN theory) (CC and) (NN practice)))) Σχήμα 14. Έξοδος του συντακτικού αναλυτή (parser) για τη πρόταση Computer science is a discipline that spans theory and practice. Ο Πίνακας 3 περιλαμβάνει ετικέτες μέρη του λόγου(pos tags) με τις οποίες μπορεί να χαρακτηριστεί κάθε λέξη από το συντακτικό αναλυτή δείχνοντας το μέρος του λόγου που αντιπροσωπεύει εντός της πρότασης. Το Σχήμα 14 περιέχει την έξοδο του συντακτικού αναλυτή από τη πρόταση «Computer Science is a discipline that spans theory and practice», δείχνοντας γραφικά το διαχωρισμό της πρότασης σε συντακτικά μέρη. Όπως μπορούμε να παρατηρήσουμε, ο διαχωρισμός ανάμεσα στα συντακτικά επίπεδα της πρότασης γίνεται με το άνοιγμα( ( ) και το κλείσιμο ( ) ) των παρενθέσεων. Το άνοιγμα της παρένθεσης και η λέξη TOP σημαίνουν την έναρξη μιας 71 Σ ε λ ί δ α

72 πρότασης ενώ το γράμμα S σημαίνει το επίπεδο που περιέχει τη συντακτική ανάλυση της πρότασης. PosTag CC CD DT EX FW ΙΝ JJ JJR JJS LS MD NN NNP NNPS NNS PDT POS PRP PRPS RB RBR RBS RP SYM TO UH VB VBD VBG VBN VBP VBZ WDT WP WPS WRB Part of Speech Coordinating conjunction Cardinal number Determiner Existential there Foreign word Preposition or subordinating conjunction Adjective Adjective comparative Adjective superlative List item marker Modal Noun singular or mass Proper noun singular Proper noun plural Noun plural Predeterminer Possessive ending Personal pronoun Possessive pronoun Adverb Adverb, comparative Adverb, superlative Particle Symbol to Interjection Verb, base form Verb, past tense Verb, gerund or present participle Verb, past participle Verb, non-3rd person sing. Present Verb,3rd person sing. pres. Wh-determiner Wh-pronoun Possessive wh-pronoun Wh-adverb Πίνακας 3. Ετικέτες(Pos tags) για κάθε μέρος του λόγου σύμφωνα με το συντακτικό 72 Σ ε λ ί δ α

73 OWL DL κανόνες και αξιώματα Το επόμενο βήμα έπειτα από τη μορφοσυντακτική ανάλυση του κειμένου είναι η δόμηση των τριπλετών για κάθε πρόταση. Η τριπλέτα είναι μια αναπαράσταση της πληροφορίας που περιέχεται σε μια πρόταση. Αποτελείται από το υποκείμενο, το ρήμα και το αντικείμενο της εν λόγω πρότασης όπως αναφέρεται και στο [76]. Οι τριπλέτες αποτελούν τη βασική δομή της οντολογίας και περιγράφουν το νοηματικό περιεχόμενο κυρίως των κυρίων των προτάσεων του κειμένου. Ωστόσο όπως είναι κατανοητό, για να μετατραπούν οι τριπλέτες σε στοιχεία οντολογία πρέπει να οριστεί ένα σύνολο κανόνων. Ο ορισμός των κανόνων για τη δομή της οντολογίας με τη χρήση της μορφοσυντακτικής ανάλυσης των κειμένων ακολουθεί. Η οντολογία αποτελείτε από ένα σύνολο εννοιών: Κλάσεις - Named Classes (A) Στιγμιότυπα - Individuals (o) Ιδιότητες - Named Properties (P) Οι παραπάνω έννοιες θα πρέπει να προσδιοριστούν κατάλληλα έτσι ώστε να περιγραφεί η δομή της οντολογίας. Παρακάτω, περιγράφουμε με λεπτομέρεια, τη διαδικασία της δημιουργίας αυτών των συνόλων και των αντίστοιχων DL κανόνων που διέπουν τη κατασκευή. Στο τέλος του υποκεφαλαίου, στο Πίνακας 4 παρουσιάζονται οι κανόνες DL(Description Logic) για τη δημιουργία της οντολογίας χρησιμοποιώντας OWL DL Κλάσεις Όπως έχουμε αναφέρει και παραπάνω, κάθε άνοιγμα παρένθεσης στη μορφοσυντακτική ανάλυση δείχνει ένα νέο συντακτικό επίπεδο εντός της πρότασης και ένα νέο επίπεδο αντίστοιχα και στην οντολογία. Κάθε κλείσιμο παρένθεσης αντίστοιχα δείχνει το τέλος του συντακτικού επιπέδου που είχε ανοίξει προηγουμένως. Ακολουθώντας τη λογική που περιγράψαμε, δημιουργείται στην οντολογία μια υποκλάση για κάθε κείμενο αποτέλεσμα. Η ρίζα της υποκλάσης για κάθε κείμενο είναι ο τίτλος του κειμένου για να μπορεί στο μέλλον να ταυτοποιηθεί από πιο κείμενο έχει προκύψει η απάντηση στο ερώτημα του χρήστη. Για κάθε πρόταση ( (TOP ) μια νέα υποκλάση δημιουργείται στην οντολογία αντιπροσωπεύοντας τη δομή της πρότασης. Για κάθε λέξη που έχει χαρακτηριστεί, από το συντακτικό αναλυτή, ως ένα μέρος του λόγου για τη πρόταση, δημιουργείται στην οντολογία αντίστοιχα μια κλάση(named Classes (A)). Επομένως, μια κλάση αντιστοιχεί σε κάθε μέρος του λόγου όπως αυτά αναφέρονται στο Πίνακας 3. Για μια πιο λεπτομερή περιγραφή της αναπαράστασης μιας πρότασης εντός της οντολογία, δημιουργούμε τις παρακάτω κλάσεις: 73 Σ ε λ ί δ α

74 S: πρόταση NPsub: ονοματικό μέρος(υποκείμενο) κάθε πρότασης VP: ρηματικό σύνολο κάθε πρότασης NPobj: ονοματικό μέρος(αντικειμένο) κάθε πρότασης Για κάθε μια από τις τέσσερις παραπάνω κλάσεις έχουν ορισθεί αντίστοιχα σχέσεις μεταξύ τους: NPobj είναι υποκλάση της VP NPsub είναι υποκλάση της S NPobj είναι υποκλάση της S VP είναι υποκλάση της S Για να γίνει πιο κατανοητό και το περιεχόμενο του Πίνακας 4, οι παραπάνω κανόνες εκφρασμένοι σε DL είναι: NPobj NPsub NPobj VP S VP S S Οι κανόνες για τη δημιουργία των κατάλληλων τριπλετών ορίζονται παρακάτω: Α. Αν το υποκείμενο της πρότασης είναι προσωπική αντωνυμία, για να εντοπισθεί ορθά το υποκείμενο της πρότασης(ουσιαστικό) θα πρέπει να μελετηθούν δύο περιπτώσεις. Το υποκείμενο μπορεί να βρίσκεται είτε σε δευτερεύουσα πρόταση της ίδιας πρότασης που θα πρέπει να προηγείται της κύριας πρότασης είτε στη προηγούμενη πρόταση. Ως εκ τούτου, η τριπλέτα υποκείμενο-ρήμα-αντικειμένου αλλάζει σύμφωνα με τον κανόνα αυτό και η κλάση PRP πρέπει να είναι ισοδύναμη με την αντίστοιχη κλάση NPsub. Σε αυτή τη περίπτωση θα πρέπει να οριστεί NPsub PRP. Αντίστοιχο παράδειγμα φαίνεται στο Σχήμα 15 όπου η προσωπική αντωνυμία it αντιστοιχίζεται στο υποκείμενο computer science της πρότασης Computer science is important because it studies the implementation and foundation of computer systems. 74 Σ ε λ ί δ α

75 Σχήμα 15: Παράδειγμα εφαρμογής 1 ου κανόνα. Β. Στη κύρια πρόταση, αν το ρήμα έχει χαρακτηριστεί ως μέρος του λόγου με την ετικέτα VBZ ή VBP τότε η δημιουργία της τριπλέτας είναι απλή. Το υποκείμενο της πρότασης είναι το ονοματικό σύνολο NP που είναι "αδερφός" κλάση με την υπερκλάση(κλάση «γονέας») στην οποία ανήκει και η κλάση του ρήματος, όπως έχει ορισθεί στην ιεραρχική δομή της οντολογίας. Το αντικείμενο του ρήματος είναι το ονοματικό σύνολο NP το οποίο αντίστοιχα είναι η «αδερφός» κλάση της κλάσης του ρήματος. Εάν ένα άλλο ρήμα υπάρχει που η δική του ετικέτα-μέρος του λόγου είναι VBN τότε αυτό είναι ένα ρήμα αορίστου χρόνου και το άλλο ρήμα της πρότασης είναι βοηθητικό ρήμα. Ο συνδυασμός αυτών των δύο ρημάτων, σύμφωνα και με τους γραμματικούς κανόνες είναι ένας ρηματικός τύπος, για παράδειγμα: is designed. Για το λόγο αυτό στη τριπλέτα της πρότασης, τα δύο ρήματα ορίζονται ως ένα. Στη περίπτωση αυτή, η εξαγωγή του αντικειμένου της πρότασης είναι περίπλοκη. Οι «αδερφές» κλάσεις του ρήματος με την ετικέτα VBN πρέπει να ελεγχθούν: μπορεί να είναι παραπάνω από μια. Πρέπει να επιλεχθούν προς έλεγχο, οι πιο κοντινές κλάσεις στη κλάση του ρήματος. Στην οντολογία, η κλάση VBZ ή VB, που αντιπροσωπεύει το βοηθητικό ρήμα πρέπει να είναι ισοδύναμη με τη κλάση VBN. Σε αυτή τη περίπτωση εφόσον έχουν εντοπίσει τα δύο ρήματα από το συντακτικό αναλυτή θα πρέπει να οριστούν οι: VBZ VBN ή VB VBN. Στο Σχήμα 16 μπορεί κανείς να δει τον τρόπο εφαρμογής του κανόνα από στιγμιότυπο της κλάσης μέσω του προγράμματος Protégé. Τα ρήματα is και described αποτελούν ένα ενιαίο ρηματικό τύπο στη τριπλέτα της πρότασης It is frequently described as the systematic study of algorithmic processes 75 Σ ε λ ί δ α

76 Σχήμα 16: Παράδειγμα εφαρμογής του 2 ου κανόνα. Γ. Ο προηγούμενος κανόνας επίσης εφαρμόζεται και σε δευτερεύουσες προτάσεις. Δ. Όταν μια αναφορική αντωνυμία υπάρχει εντός της πρότασης, πρόσθετες τριπλέτες πρέπει να δημιουργηθούν για να ορίσουν που αναφέρεται η αντωνυμία. Το ονοματικό σύνολο, στο οποίο αναφέρεται η αντωνυμία, θα είναι στη κλάση πατέρα του αδερφού κλάση της αναφορικής αντωνυμίας. Επομένως, η σωστή τριπλέτα για τη δευτερεύουσα πρόταση δημιουργείται ορίζοντας ένα νέο κανόνα στην οντολογία. Αυτός ο κανόνας προϋποθέτει ότι η κλάση WDT πρέπει να είναι ισοδύναμη κλάση με τη κλάση του αντικειμένου NPobj. Σε αυτή τη περίπτωση θα πρέπει να οριστεί NPobj WDT. Στο μπορεί να δει κανείς πώς εφαρμόζονται τα παραπάνω στη πρόταση The general public sometimes confuses computer science with careers that deal with computers, or think that it relates to their own experience of computers, which typically involves activities such as gaming, web-browsing, and word-processing. όπου η αντωνυμία which πρέπει να αντιστοιχιστεί στο υποκείμενο της πρότασης The general public άρα και οι κλάσεις πρέπει να οριστούν ως ισοδύναμες. 76 Σ ε λ ί δ α

77 Σχήμα 17: Παράδειγμα εφαρμογής του 4 ου κανόνα για το σωστό ορισμό των κλάσεων Στιγμιότυπα Για κάθε λέξη του κειμένου, ένα στιγμιότυπο κλάσης(individuals (C(o))) εισάγεται στην οντολογία αντιστοιχισμένο στην ετικέτα μέρος του λόγου της λέξης. Όπως είναι λογικό, πολλές φορές σε διαφορετικές προτάσεις υπάρχουν ίδιες λέξεις-ρήματα. Για το λόγο αυτό, τα στιγμιότυπα που αντιστοιχούν σε ίδια λέξη-ρήμα πρέπει να ορίζονται ως «ίδια στιγμιότυπα» ιδιότητα δηλαδή του στιγμιότυπου που μπορεί να οριστεί εντός της οντολογίας. Σ αυτή τη περίπτωση θα οριστεί sameverb 1 sameverb n. Επίσης, για κάθε ρήμα δημιουργείται ένας ισχυρισμός που καταλήγει στον ορισμό της σχέσης-ιδιότητας has verb ανάμεσα σε στιγμιότυπο και στη κλάση του, συγκεκριμένα, sameverb, sameverb i hasverb-nameofverb Ιδιότητες Αντικειμένου Οι Ιδιότητες Αντικειμένου(Named Properties 7 (P)) στην οντολογία παρουσιάζονται ως οι σχέσεις μεταξύ των κλάσεων και των στιγμιότυπων. Οι σχέσεις μεταξύ των βασικών μερών της πρότασης(υποκείμενο, ρήμα και αντικείμενο) είναι απαραίτητο να δημιουργηθούν για την ορθή εξαγωγή συμπερασμάτων. Όπως και οι κλάσεις έτσι και οι ιδιότητες αντικειμένου διακρίνονται από την ιεραρχική τους δομή όπως φαίνεται και στο Σχήμα 18. Η σχέση μεταξύ του κάθε ρήματος-κλάση και του στιγμιότυπου της(ρήμα-στιγμιότυπο) απεικονίζεται με την ιδιότητα has verb και από την υποιδιότητα hasverb-nameofverb. Εδώ στην οντολογία ορίζεται ως hasverb-nameof hasverb. Η κατάλληλη ιδιότητα για τον ορισμό των σχέσεων που δημιουργεί μια Σ ε λ ί δ α

78 τριπλέτα είναι η hassubobj + nameofverb, hassubobj+nameofverbi. Έχει ως κλάση ορισμού(domain class) την κλάση NPsub και ως κλάση τιμών(range class) τη κλάση NPobj. Αυτή η ιδιότητα βεβαιώνει τη δημιουργία των κατάλληλων τριπλετών όταν οι προτάσεις περιέχουν σημεία στίξης. Για παράδειγμα, όταν ένα σύνολο ρημάτων εντός της πρόταση χωρίζονται με κόμματα, το αντικείμενο ανήκει δομικά στο ρηματικό μέρος του τελευταίου ρήματος. Για τα υπόλοιπα ρήματα, δεν αντιστοιχεί κάποιο αντικείμενο. Δεν ισχύει όμως το παραπάνω σύμφωνα με τους γραμματικούς και τους συντακτικούς κανόνες. Για να διορθωθεί το πρόβλημα αυτό, το σύστημα πρέπει να ελέγξει και να βρει το αντικείμενο των ρημάτων στο ρηματικό μέρος της πρότασης. Η ενέργεια που απαιτείται και για την εύρεση του υποκειμένου είναι αντίστοιχη. Για κάθε ρήμα σε αυτή τη περίπτωση, δημιουργείται η ιδιότητα hassubobj+nameofverb hasverb-nameofverb και το σωστό υποκείμενο και αντικείμενο ορίζονται ως κλάση ορισμού και κλάση τιμών για την εν λόγω ιδιότητα. Μερικές προτάσεις περιέχουν λέξεις όπως because, in, at, on ή ένα πληθικό αριθμό οι οποίες είναι σημαντικές για την ορθή κατασκευή της οντολογίας. Για το λόγο αυτό και για την πιο ακριβή αναπαράσταση της συντακτικής δομής για κάθε πρόταση στην οντολογία, χρειάζεται να ορίσουμε και κάποιες επιπρόσθετες ιδιότητες αντικειμένου. Αυτή τη φορά όμως θα οριστούν ως υπο-ιδιότητες της ιδιότητας hassubobj+nameofverb στην ιεραρχία της οντολογία. Συγκεκριμένα, δημιουργούνται οι ιδιότητες: hasreason : δείχνει ότι η πρόταση περιέχει τη λέξη because και η ιδιότητα δημιουργεί μια τριπλέτα με τη δομή κύρια πρόταση-because-δευτερεύουσα πρόταση. Σχήμα 18: Ιεραρχική δομή των ιδιοτήτων αντικειμένου 78 Σ ε λ ί δ α

79 Συστήματα Ερωταπο κρίσεων με χρήση Οντολογιών hascd : δείχνει ότι ένα πληθικός αριθμός υπάρχει στη πρόταση. Σε μια πιθανή ερώτηση ποσότητας, λόγω της ύπαρξης της εν λόγω ιδιότητας, θα δοθεί η σωστή απάντηση στο χρήστη. hasin : δείχνει ότι υπάρχουν στη πρόταση τοποθεσίες ή χρονική προσδιορισμοί. Εξάλλου, η σχέση μεταξύ του ρήματος-κλάση και των ιδιοτήτων που δείχνει η βασική τριπλέτα υποκείμενο-ρήμα-αντικείμενο είναι απαραίτητη και δημιουργείται στην οντολογία από την ιδιότητα hasverb-nameofverb, ως διαφορετική ιδιότητα από την hassubobj+nameofverb. H OWL ως γλώσσα κατασκευής οντολογιών χρησιμοποιεί σχηματικές- περιγραφικές δομές σε αξιώματα που παρέχουν πληροφορίες σχετικά με τις κλάσεις, τις ιδιότητες αντικειμένου και τα στιγμιότυπα όπως περιγράφουν οι Horrocks, Patel-Schneider, McGuinness and Welty στο [57]. Στο Πίνακας 4 περιέχονται αναλυτικά οι ορισμοί των OWL DL αξιωμάτων για τη δημιουργία της οντολογίας καθώς και η αντιστοιχία της σύνταξης των DL με την αφηρημένη σύνταξη που χρησιμοποιούμε στο προηγούμενο μέρος του κεφαλαίου. Αντίστοιχα, για κάθε ιδιότητα που δημιουργείται, ένα σύνολο περιορισμών με την ανωτέρω δομή αναλύεται στο Πίνακας 4. Είναι χωρισμένος σε τρία μέρη: 1. Named Classes(A): η αριστερή στήλη αποτελείται από την αφηρημένη περιγραφή κάθε κλάσης που περιγράφεται παραπάνω και η δεξιά στήλη παρουσιάζει την αντιστοιχία της σύνταξης DL. 2. Individuals(o): ακολουθεί τη δομή του πρώτου μέρους. 3. Named Properties(P): έχει προστεθεί μια τρίτη στήλη όπου εμφανίζεται το όνομα της ιδιότητας στην οντολογία. Abstract Systax DL Syntax Named Classes (A) CC CD. VBZ partial S Subclassof(NPobj VP) CC CD VBZ S NPobj VP Subclassof(NPsub S) NPsub S Subclassof(NPobj S) NPobj S Subclassof(VP S) Subclassof(S R1), R1: restriction of hasverb-nameofverb property subclassof(cs1 CSn NPsub) restriction(hassubobj+nameofverb allvaluesfrom ( subclassof(co1 COn NPobj))), CSi: any subclass of NPsub and COi: any subclass of NPobj. VP S S R1 (CS1 CSn) NPsub hassubobj+nameofverb. (CO1 COn) NPobj 79 Σ ε λ ί δ α

80 Individuals (o) Individual(eachword type(cc) type(vbz)) value(hasverb-nameofverb sameverb 1) value(hasverb-nameofverb sameverb n) eachword (CC CD VBZ) SameIndividuals(sameverb 1 sameverb n) sameverb 1 sameverb n Named Properties(P) Property s name Abstract Systax DL Syntax hasverb ObjectProperty(hasverb super(owl:topobjectproperty)) hasverb ObjectProperty(hasverb super(hasverb-nameofverb i)) hasverb-nameofverb i hasverb sameverb, sameverb i hasverbnameofverb hasverbnameofverb hassubobj+n ameofverb hasreason hascd hasin range(verb) hasverb-nameofverb.verb R 1 = restriction(hasverbnameofverb 1cardinality (verb)) R 1 = 1hasverb-nameofverb.verb Disjointproperties(hasverbnameofverb R 2 = hasverb-nameofverb hassubobj+nameofverb hassubobj+nameofverb) ObjectProperty(hassubobj+nameofv erb super(owl:topobjectproperty)) hassubobj+nameofverb i domain(npsub) R 3 = 1 hassubobj+nameofverb NPsub range(npobj) R 4 = hassubobj+nameofverb.npobj Disjointproperties(hassubobj+name ofverb hasverb-nameofverb) hassubobj+nameofverb hasverbnameofverb If IN S και ΙΝ because ObjectProperty(hassubobj+nameofv R 5 = ( IN S ΙΝ because hasreason erbofmainclause super(hasreason)) hassubobj+nameofverbofmainclause ) domain(in) R 6 = 1 hasreason IN range(restriction(hassubobj+nameof verbofsubordinateclause somevaluesfrom (IN))) R 7 = hassubobj+nameofverbofsubordinateclause. IN If CD S R 8 = ( CD S ObjectProperty(hassubobj+nameofv hascd hassubobj+nameofverb ) erb super(hascd)) domain(cd) R 9 = 1 hascd CD range(restriction(hassubobj+nameof R 10 = hassubobj+nameofverb.cd verb somevaluesfrom (CD))) If IN S and ΙΝ in,at,on ObjectProperty(hassubobj+nameofv erb super(hasin)) domain(in) range(restriction(hassubobj+nameof verb somevaluesfrom (IN))) R 11 = ( IN hasin S ΙΝ in,at,on hassubobj+nameofverb) R 12 = 1 hasin IN R 13 = hassubobj+nameofverb.in Πίνακας 4: OWL DL κανόνες και αξιώματα για τη δημιουργία οντολογίας στο QASOn 80 Σ ε λ ί δ α

81 OWL Σύνταξη Σε αυτό το κομμάτι, περιγράφουμε την OWL σύνταξη της οντολογίας. Σε επίπεδο υλοποίησης, το OWL API[7] περιλαμβάνει μια σειρά από διασυνδέσεις μαζί με μια εφαρμογή αναφοράς που διευκόλυνε τη χρήση OWL σε μια ευρεία ποικιλία εφαρμογών. Στον πυρήνα του, το OWL API αποτελείται από ένα σύνολο διεπαφών για την επιθεώρηση, το χειρισμό και την εφαρμογή λογικής σε οντολογίες OWL. Υποστηρίζει την φόρτωση και την αποθήκευση οντολογιών που αποτελούν ένα μέρος τρόπους σύνταξης. Με λίγα λόγια, παρέχει μια υψηλού επιπέδου προγραμματιστική διεπαφή για την πρόσβαση και τον χειρισμό OWL οντολογιών. Η χρήση APIs επιτρέπει στους προγραμματιστές να εργαστούν σε ένα υψηλότερο επίπεδο αφαιρετικότητας, και να απομονωθούν από μερικά από τα προβληματικά ζητήματα. H δομή της οντολογίας ξεκινά με το στοιχείο owl:ontology. Αυτό το στοιχείο περιλαμβάνει όλα τα κείμενα και τη μορφοσυντακτική του ανάλυση. <owl:ontology rdf:about=" Το στοιχείο owl:class προσδιορίζει την ετικέτα -μέρος του λόγου για τη κάθε λέξη εντός του κειμένου. Τόσο η ετικέτα-μέρος του λόγου για κάθε λέξη όσο και η ετικέτα για κάθε ονοματικό υποσύνολο της πρότασης είναι εξίσου σημαντική. Επομένως, ένα στοιχείο owl:class δημιουργείται για κάθε ετικέτα-μέρος του λόγου που μας δίνεται από τη μορφοσυντακτική ανάλυση της κάθε πρότασης του κειμένου. Σύμφωνα με τους γραμματικούς κανόνες, είναι δύσκολο κάποιες λέξεις να χαρακτηριστούν με δύο διαφορετικές ετικέτες-μέρη του λόγου. Για το λόγο αυτό, το στοιχείο owl:disjointwith χρησιμοποιείται για τον ορισμό του στοιχείου owl:class με σκοπό να προσδιορίσει τη διαφορετικότητα ανάμεσα σε δύο κλάσεις. Αυτό σημαίνει ότι μπορούν και οι δύο να είναι υποκλάσεις μιας άλλης αλλά ποτέ δεν θα είναι δυνατό να είναι τα ίδια στοιχεία. Ο ορισμός του στοιχείου αυτού γινεται: <owl:class rdf:about="http #T0_S103_VB"> <owl: disjointwith rdf:resource="http #T0_S105_VB"/> </owl:class> Στη γλώσσα OWL, είναι δυνατή η ύπαρξη πολλαπλών συνόλων και ικανών και αναγκαίων συνθηκών τα οποία παρουσιάζονται ως ισοδύναμες κλάσεις. Το στοιχείο owl:equivalentwith χρησιμοποιείται για να δείξει την ισοδυναμία ανάμεσα σε κλάσεις. Ο ορισμός του είναι: <owl:class rdf:about="http #T0_S103_VB"> <owl:equivalentclass rdf:resource="http #T0_S104_VB"/> <rdfs:subclassof rdf:resource="http #T0_S102"/> </owl:class> 81 Σ ε λ ί δ α

82 Στο OWLAPI3[55], δεν υπάρχει ορισμός για τα στιγμιότυπα και έτσι για να ορίσουμε τα μέρη της κάθε κλάση, προσθέσαμε το παρακάτω μέρος κώδικα. Αυτός ο κώδικας οδηγεί στον ορισμό του στιγμιότυπου «science» για τη κλάση ΝΝ(Σχήμα 14. Έξοδος του συντακτικού αναλυτή (parser) για τη πρόταση Computer science is a discipline that spans theory and practice. ). Κάθε λέξη του κειμένου αντιπροσωπεύεται στην οντολογία ως ένα στιγμιότυπο, owl:namedindividual. <owl:namedindividual rdf:about="http #science"> <rdf:type rdf:resource=" #NN"/> </owl:namedindividual> Για τη σωστή αναπαράσταση της συντακτικής δομής των κειμένων, δεν είναι αρκετό να δημιουργήσουμε μόνο τις κλάσεις και τα στιγμιότυπα τους. Είναι απαραίτητο να δημιουργήσουμε τις σχέσεις μεταξύ τους. Οι σχέσεις αυτές αντιπροσωπεύονται από τις ιδιότητες αντικειμένου και το στοιχείο owl:objectproperty στη γλώσσα OWL. Για κάθε ρήμα της πρόταση, μια ιδιότητα δημιουργείται με κλάση ορισμού το υποκείμενο του ρήματος και με κλάση τιμής το αντικείμενο του ρήματος. Το ρήμα προσδιορίζεται από το όνομα της σχετικής κατηγορικής ιδιότητας. Στην OWL, υπάρχουν δύο είδη ιδιοτήτων, οι ιδιότητες αντικειμένου και οι ιδιότητες δεδομένων(data Property). Οι ιδιότητες αντικειμένου συσχετίζονται με τις αντίστοιχες έννοιες των κλάσεων. Οι αντίστοιχες ιδιότητες μεταξύ των κλάσεων καθορίζουν τις σχέσεις υποκείμενο-ρήμα-αντικείμενο. Κάθε ιδιότητα ορίζεται με τον παρακάτω τρόπο: <owl:objectproperty rdf:about=" # hassubobj+1vbp_17"> <rdfs:domain rdf:resource=" #1NP7_14"/> <rdfs:range rdf:resource=" #1NP8_18"/> </owl:objectproperty> Το όνομα της ιδιότητας αποτελείται από το hassubobj+ και το όνομα της κλάσης του ρήματος. Να σημειωθεί σε αυτό το σημείο ότι στον ορισμό της ιδιότητας περιέχονται τα rdfs: domain που δείχνει το πεδίο ορισμού και το rdfs:range για το εύρος τιμών της ιδιότητας. Στο φαίνεται και σχηματικά ο ορισμός της παραπάνω ιδιότητας αντικειμένου. Με τον ίδιο τρόπο, όλες οι ιδιότητες που περιγράφονται προηγουμένως δημιουργούνται στην οντολογία. 82 Σ ε λ ί δ α

83 Σχήμα 19: Αναπαράσταση τριπλέτας μέσω ορισμού Ιδιότητας Αντικειμένου στην OWL 5.3. Αυτόματο Σύστημα Ερωταποκρίσεων από Οντολογία(QASOn) Σε αυτό το υποκεφάλαιο θα περιγράψουμε το σύστημα Ερωταποκρίσεων που αποτελεί το κύριο μέρος της προτεινόμενης εφαρμογής και πλέον θα ονομάζεται Question Answering System on Ontology(QASOn). Η αρχιτεκτονική του συστήματος φαίνεται στo Σχήμα 20. Πιο συγκεκριμένα, τα συστήματα που περιλαμβάνονται στο QASOn είναι: 1. Υποβολή ερώτησης από το χρήστη στη μηχανή αναζήτησης. 2. Επεξεργασία των αποτελεσμάτων της μηχανής αναζήτησης. 3. Εξαγωγή των κειμένων από τα αποτελέσματα. 4. Αποκοπή των επαναλαμβανόμενων και περιττών κομματιών από τα κείμενα. 5. Εκτέλεση Μορφοσυντακτικής Ανάλυσης των κειμένων. 6. Κατασκευή των συντακτικών τριπλετών. 7. Δημιουργία της Οντολογίας σε OWL που περιλαμβάνει α. Κλάσεις β. Στιγμιότυπα γ. Ιδιότητες Αντικειμένου. 8. Λειτουργία της μηχανής εξαγωγής συμπερασμάτων στην Οντολογία. 9. Υποβολή ερωτήματος στην Οντολογία για την εξαγωγή των απαραίτητων δεδομένων. 10. Τελική εξαγωγή απαντήσεων στο ερώτημα του χρήστη. 83 Σ ε λ ί δ α

84 Η συνολική διαδικασία ξεκινά με την υποβολή του ερωτήματος από τον χρήστη και τελειώνει με την επιστροφή των απαντήσεων. Παρακάτω, περιγράφεται η αναλυτική αλγοριθμική διαδικασία του συστήματος για να απαντηθεί το ερώτημα του χρήστη. Σχήμα 20 Αρχιτεκτονική του μοντέλου 84 Σ ε λ ί δ α

85 Κατασκευή Οντολογίας Ξεκινώντας, θα γίνει περιγραφή της μετατροπής των αποτελεσμάτων της μηχανής αναζήτησης σε μια οντολογία. Η κατασκευή της οντολογίας γίνεται με βάση τους κανόνες που ορίζονται στο Κεφάλαιο 3. Όταν ο χρήστης υποβάλλει ένα ερώτημα, η εφαρμογή αποθηκεύει σε μια δομή δεδομένων τα κείμενα των αποτελεσμάτων της μηχανής αναζήτησης. Το σύστημα απομονώνει τα κυρίως κείμενα από τα αποτελέσματα και αποκόπτει την επαναλαμβανόμενη και τα περιττά κομμάτια των κειμένων. Στη συνέχεια, ακολουθεί η μορφοσυντακτική ανάλυση των κειμένων και η δημιουργία των συντακτικών τριπλετών. Στη συνέχεια, η μηχανή εξαγωγής συμπερασμάτων Hermit εξάγει τα λογικά συμπεράσματα στην οντολογία. Το Σχήμα 21 δείχνει την οργάνωση των κειμένων στην οντολογία. Είναι σαφές ότι η συντακτική και η ιεραρχική δομή διατηρούνται στην οντολογία. Σχήμα 21: Δομή της οντολογίας Ένα δείγμα της οντολογίας παρουσιάζεται στο Σχήμα 22. Το δείγμα παρουσιάζει την αντιστοιχία μεταξύ της δομής του κειμένου στην OWL οντολογία και τη συντακτική δομή του κειμένου. Επιπροσθέτως, φαίνονται σχηματικά οι σχέσεις μεταξύ των υποκλάσεων και οι σχέσεις μεταξύ των υπο-ιδιότητες. Εάν μια ιδιότητα έχει επιλεγεί έτσι ώστε να δούμε πιο αναλυτικά, στο δεξί κάτω μέρος εμφανίζει η ιδιότηταπατέρας, οι ισοδύναμες ιδιότητες, και η κλάση ορισμού και τιμών της ιδιότητας αυτής. Εμφανίζονται επίσης τα στιγμιότυπα της κλάσης. Δεν πρέπει να αγνοηθεί ο τελικός στόχος: είναι απαραίτητο να σωθεί ο μοναδικός αριθμός της κάθε κλάσης στην οντολογία(id number), έτσι ώστε η ανάκτηση της πρότασης από την οντολογία να είναι ορθή. Δόμηση ερωτήματος χρήστη για την οντολογία Το επόμενο βήμα μετά τη δημιουργία της οντολογίας είναι η κατασκευή του ερωτήματος το οποίο εφαρμόζεται στην οντολογία με σκοπό την ανάκτηση των απαντήσεων σε φυσική γλώσσα. Μια οντολογία είναι ήδη δομημένη έτσι ώστε να περιέχει κείμενα, ιεραρχική και συντακτική δομή των αποτελεσμάτων κειμένων της 85 Σ ε λ ί δ α

86 μηχανής αναζήτησης. Σκοπός είναι να επιστρέψει στο χρήστη τις σωστές απαντήσεις μαζί με την πιθανότητα οι απαντήσεις αυτές να είναι σωστές. Αναλύοντας όλα τα αποτελέσματα, προκύπτει μια λίστα απαντήσεων και ένα διάνυσμα πιθανοτήτων. Τα αποτελέσματα ταξινομούνται ανάλογα με το διάνυσμα αυτό. Τέλος, οι απαντήσεις και τα σχετικά αποτελέσματα επιστρέφονται ταξινομημένα από το μεγαλύτερο προς το μικρότερο. Σχήμα 22: Παράδειγμα Οντολογίας Παρακάτω έχει μοντελοποιηθεί η διαδικασία της υποβολής ερωτήσεων με περισσότερες λεπτομέρειες. Οι ερωτήσεις κατηγοροιοποιούνται σε δύο κύριες κατηγορίες(question Classification): 1) η ερώτηση ψάχνει ως απάντηση το υποκείμενο της πρότασης για να ολοκληρώσει το νόημα. 2) η ερώτηση ψάχνει ως απάντηση το αντικείμενο της πρότασης. Η συντακτική ανάλυση της ερώτησης δείχνει την κατηγορία στην οποία ανήκει. Το είδος της ερώτησης καθορίζει τις ιδιότητες αντικειμένου που πρέπει να αναζητηθούν στην οντολογία. Ο στόχος της συντακτικής ανάλυσης της ερώτησης είναι να προσδιορίσει το είδος της ερώτησης που τέθηκε και να κατασκευαστεί το κατάλληλο ερώτημα που θα τεθεί στην οντολογία προκειμένου να ανακτηθούν οι απαντήσεις από αυτή. Η αναγνώριση του είδους της ερώτησης, όπως έχει αναφερθεί και στο υπο 86 Σ ε λ ί δ α

87 κεφάλαιο 5.3.1, μπορεί να γίνει από την ετικέτα- μέρος του λόγου που ανατίθεται σε κάθε λέξη της πρότασης μετά το πέρας της μορφοσυντακτικής ανάλυσης. Στο Σχήμα 23 παρουσιάζεται η δενδρική συντακτική δομή της ερώτησης What is computer science?. Τα συμπεράσματα από την εν λόγω δομή είναι πως πρόκειται για μια ερώτηση που ανήκει στη 2 η παραπάνω κατηγορία καθώς δίνεται το υποκείμενο της πρότασης, το ρήμα αντίστοιχα και ως απάντηση αναζητείται το αντικείμενο της πρότασης. Σχήμα 23: παράδειγμα δενδρικής συντακτικής δομής ερώτησης χρήστη Οι τύποι των ερωτήσεων για την αγγλική γλώσσα που υποστηρίζονται είναι οι ακόλουθοι [76]: Α) Ερωτήσεις κατάφασης/άρνησης(ναι/όχι) ( Does computer science have a future? ) Β) Ερωτήσεις ορισμού ( What is computer science? ) Γ) Αιτιολογικές Ερωτήσεις ( Why is computer science important? ) Δ) Ποσοτικές Ερωτήσεις( How many computer science questions do computer engineers ask? ) Ε) Τοπικές Ερωτήσεις( Where does computer vision need help from computer science? ) ΣΤ) Χρονικές Ερωτήσεις( When did computer science develop rapidly? ) 87 Σ ε λ ί δ α

88 Η διαδικασία ξεκινά με τη μορφοσυντακτική ανάλυση της ερώτησης. Ανάλογα με το αποτέλεσμα της ανάλυσης, η ερώτηση του χρήστη αντιστοιχίζεται σε μια από τις παραπάνω κατηγορίες. Παρακάτω περιγράφεται αντίστοιχα ο τρόπος λειτουργίας του συστήματος ερωταποκρίσεων σε κάθε ένα είδος ερώτησης. Στη περίπτωση που η ερώτηση χαρακτηριστεί ως ερώτηση κατάφασης/άρνησης, η ερώτηση έχει μια πλήρης μορφοσυντακτική δομή. Έχουν τη δομή τριπλέτας, υποκείμενο - ρήμα αντικείμενο. Για να δοθεί απάντηση στην ερώτηση, η τριπλέτα πρέπει να βρεθεί στο εσωτερικό της οντολογίας οπότε και τότε η απάντηση στην ερώτηση θα είναι «Ναι» αλλιώς θα είναι «Όχι». Υπάρχει και η περίπτωση το ρήμα εντός της οντολογίας να είναι σε αρνητικό τύπο λόγω της ύπαρξης της λέξης not και της αντίστοιχης ετικέτας RB που δίνει το χαρακτηρισμό για το μέρος του λόγου. Αντίστοιχα τότε η τριπλέτα διαμορφώνεται διαφορετικά όπως και η απάντηση στην ερώτηση. Αν η ερώτηση χαρακτηριστεί ως ερώτηση ορισμού, από τη δομή της ερώτησης γνωρίζουμε ότι ξεκινά με το ρήμα όπως παρατηρείς κανείς και στο παράδειγμα What is computer science?. Ανάλογα με το τύπο της ερώτησης όπως έχει αναφερθεί και παραπάνω, αναζητείται στις τριπλέτες το υποκείμενο ή το αντικείμενο μιας πρότασης για να δοθεί ως απάντηση στην ερώτηση. Στη συγκεκριμένη περίπτωση, η σωστή απάντηση θα δοθεί εξάγοντας το υποκείμενο ή το αντικείμενο της οντολογίας. Η ερώτηση που έχει χαρακτηριστεί ως αιτιολογική ερώτηση, συνδέεται, στις περισσότερες περιπτώσεις, με τη λέξη because και πιο συγκεκριμένα με το αν υπάρχει ή όχι στη πρόταση από όπου θα εξαχθεί η απάντηση. Η εφαρμογή δημιουργεί μια σχέση-ιδιότητα στην οντολογία για τις αντίστοιχες προτάσεις που περιέχουν τη λέξη κλειδί because με σκοπό να προσδιορίσει τον αιτιολογικό σύνδεσμο ανάμεσα στη κύρια και στη δευτερεούσα πρόταση. Ποσοτική Ερώτηση αναμένει να βρει απάντηση σε προτάσεις που περιέχουν ποσοτικούς προσδιορισμούς όπως είναι αναμενόμενο και από τους γραμματικούς κανόνες. Αν υπάρχει εντός της πρότασης λέξη με ετικέτα-μέρος του λόγου CD και επιπλέον το υποκείμενο, το ρήμα και το αντικείμενο της τριπλέτας της ερώτησης είναι ίδια με της τριπλέτας της πρότασης τότε έχει βρεθεί η απάντηση. Η πρόταση είναι η απάντηση στη ποσοτική ερώτηση του χρήστη. Τέλος, αν η ερώτηση είναι τοπική ή χρονική τότε αντίστοιχα τοπικοί ή χρονικοί προσδιορισμοί πρέπει να υπάρχουν στη πρόταση-απάντηση. Η παραπάνω διαδικασία εφαρμόζεται, εφόσον υπάρχει λέξη με την ετικέτα-μέρος του λόγου IN εντός της πρότασης-απάντησης. Στο πίνακα 3 περιέχονται οι αντίστοιχοι κανόνες OWL DL για κάθε τύπο ερώτησης. 88 Σ ε λ ί δ α

89 Questions Yes/No questions OWL DL Rules Question ((qverb (VB VBZ)) (R 1) (R 2) (R 3) (R 4)),where verb=qverb,npsub=qnpsub,npobj=qnpobj Rule ((o v (VB VBZ)) (R 1) (R 2) (R 3) (R 4)),where verb=o v, NPsub=o NPsub, NPobj=o NPobj If (o v=qverb o NPsub=qNPsub o NPobj=qNPobj) is Question Rule? If Yes then the answer to the user is YES else the answer is NO. List questions Reason questions Quantity questions Location questions and Time questions If the question ask the object of the sentence: Question ((qverb (VB VBZ)) (R 1) (R 2) (R 3)), where verb=qverb, NPsub=qNP Rule ((o v (VB VBZ)) (R 1) (R 2) (R 3) (R 4)),where verb=o v, NPsub=o NPsub, NPobj=o NPobj If (o v=qverb o NPsub=qNP) is Question Rule? If Yes then the o NPobj is the answer of the question. If the question ask the subject of the sentence: Question ((qverb (VB VBZ)) (R 1) (R 2) (R 4)), where verb=qverb, NPobj=qNP Rule ((o v (VB VBZ)) (R 1) (R 2) (R 3) (R 4)),where verb=o v, NPsub=o NPsub, NPobj=o NPobj If (o v=qverb o NPobj=qNP) is Question Rule? If Yes then the o NPsub is the answer of the question. Question ((qverb (VB VBZ)) (R 1) (R 2) (R 3) (R 4)),where verb=qverb,npsub=qnpsub,npobj=qnpobj Rule ((o v (VB VBZ)) (R 1) (R 2) (R 3) (R 4) (R 5) (R 6) (R 7)),where verb=o v,npsub=o NPsub,NPobj=o NPobj,verbofmainclause= o v If (o v=qverb o NPsub=qNPsub o NPobj=qNPobj) is Question Rule? If Yes then the answer of the question is the subordinate clause of the Rule. Question ((qverb (VB VBZ)) (R 1) (R 2) (R 3) (R 4)),where verb=qverb,npsub=qnpsub,npobj=qnpobj Rule ((o v (VB VBZ)) (R 1) (R 2) (R 3) (R 4) (R 8) (R 9) (R 10)),where verb=o v,npsub=o NPsub,NPobj=o NPobj If (o v=qverb o NPsub=qNPsub o NPobj=qNPobj) is Question Rule? If Yes then the answer of the question is the individual of the CD class. Question ((qverb (VB VBZ)) (R 1) (R 2) (R 3) (R 4)),where verb=qverb,npsub=qnpsub,npobj=qnpobj Rule ((o v (VB VBZ)) (R 1) (R 2) (R 3) (R 4) (R 12) (R 11) (R 13)),where verb=o v,npsub=o NPsub,NPobj=o NPobj If (o v=qverb o NPsub=qNPsub o NPobj=qNPobj) is Question Rule? If Yes then the answer of the question is the part of the sentence which contains the individual of the IN class. Definition of using sets ov: individual of the given verb in the ontology, onpsub: set of individual corresponded to the subject of the sentence, onpobj: set of individual corresponded to the object of the sentence, qverb,qnpsub,qnpobj:the question s verb,subject,object Πίνακας 5: OWL DL Κανόνες για την απάντηση όλων των τύπων ερωτήσεων που αναγνωρίζει το QASOn 89 Σ ε λ ί δ α

90 Όπως αναφέρθηκε και προηγουμένως στην αναλυτική περιγραφή της κατασκευής της οντολογίας, το εργαλείο SharpNLP εκτελεί μορφοσυντακτική ανάλυση στα κείμενα. Έτσι το πρώτο βήμα είναι να αναλυθεί το ερώτημα του χρήστη ως ερώτηση φυσικής γλώσσας για να εξαχθεί η συντακτική του ανάλυση. To δεύτερο βήμα αποτελείται από την ανάπτυξη του κατάλληλου ερωτήματος στην οντολογία με σκοπό την εξαγωγή των πιθανών απαντήσεων. Υπάρχουν δύο βασικά συστατικά μέρη κάθε πρότασης, το ονοματικό μέρος και το j j j ρηματικό μέρος. Αυτά τα δύο μέρη, τα ονοματικά NP 1, NP 2,..., NPn και τα j j j ρηματικά 1 2 n VB, VB,..., VB συνθέτουν τις προτάσεις των κειμένωναποτελεσμάτων. Σ αυτή την ενότητα περιγράφεται η γενική διαδικασία ανάλυσης της ερώτησης και της πρότασης που περιέχει το αποτέλεσμα-απάντηση. Το πρώτο βήμα είναι να διαπιστωθεί το αν η ερώτηση και η πρόταση περιέχουν το ίδιο ρήμα, προκειμένου να προσδιοριστεί αν μια πρόταση του κειμένου μπορεί να απαντήσει στην ερώτηση. Ένα σύνολο προτάσεων S δημιουργείται από τον έλεγχο όλων των προτάσεων που ικανοποιούν τον παραπάνω κανόνα. Το δεύτερο βήμα είναι να καθοριστεί εάν το υποκείμενο της ερώτησης του χρήστη είναι ίδιο με το αντικείμενο της συγκεκριμένης πρότασης. Ελέγχοντας όλες τις προτάσεις του συνόλου S, αν μια ή περισσότερες ικανοποιούν το συγκεκριμένο κανόνα, ένα σύνολο προτάσεων δημιουργείται, το οποίο απαντά στην ερώτηση που έχει τεθεί. Το σύνολο SR είναι το σύνολο των προτάσεων που απαντούν στην ερώτηση του χρήστη, 1 k j j j SR SR,..,SR, j 1,k όπου k είναι ο αριθμός των συνολικών ερωτήσεων. Για να είναι επιτυχής, αυτή η διαδικασία πρέπει να ενεργοποιηθεί η μηχανή εξαγωγής συμπερασμάτων. Η μηχανή εξαγωγής συμπερασμάτων(reasoner) είναι σε θέση να εξάγει λογικές συνέπειες ενός συνόλου με πιστοποιημένα γεγονότα ή αξιώματα από την οντολογία. Η μηχανή εξαγωγής συμπερασμάτων είναι ικανή να δώσει τη σωστή απάντηση στην ερώτηση ενώ στην αντίθετη περίπτωση μη ενεργοποίησης της, η απάντηση στη ερώτηση μπορεί να είναι αποτυχημένη. Ως εκ τούτου, οι σχετικές διαδικασίες που εκτελούνται εντός της οντολογίας ακολουθούν. Εύρεση των κατάλληλων ιδιοτήτων αντικειμένου στην οντολογία Καταρχάς, η αναζήτηση ξεκινά με τις ιδιότητες αντικειμένου που αναφέρονται στα ρήματα που έχουν ως στιγμιότυπο το ρήμα της ερώτησης. Στη συνέχεια, αφού διακριθούν αυτές οι ιδιότητες και ανάλογα και με το είδος της ερώτησης, οι κλάσεις ορισμού ή οι κλάσεις τιμών αυτώ των ιδιοτήτων αντικειμένου εξετάζονται. Σκοπός είναι να βρεθούν τα στιγμιότυπα αυτών των κλάσεων και συγκεκριμένα εκείνα που είναι ταυτόσημα με το ονοματικό μέρος της ερώτησης του χρήστη. Οι ιδιότητες αντικειμένου που βρέθηκαν, επιστρέφονται ως απάντηση. Επειδή, όμως, σκοπός μας είναι η απάντηση να είναι μια πρόταση σε φυσική γλώσσα, τα στιγμιότυπα των 90 Σ ε λ ί δ α

91 κλάσεων ορισμού και τιμών επιστρέφονται ως έξοδος από το σύστημα στο επίπεδο αυτό. Δημιουργία των απαντήσεων για το χρήση σε φυσική γλώσσα Για να επιστραφεί στο χρήστη η απάντηση, στη μορφή μιας σωστά δομημένης πρότασης, οι λέξεις πρέπει να τοποθετηθούν στη σωστή σειρά σύμφωνα με τη συντακτική δομή της αρχικής πρότασης που προήλθε από τα κείμενα-αποτελέσματα. Η σειρά των λέξεων είναι η ίδια με εκείνη που είχαν οι λέξεις στη δέντρο της μορφοσυντακτικής ανάλυσης και με εκείνη της οντολογίας. Όπως γνωρίζουμε, κατά τη δημιουργία της οντολογίας, για κάθε λέξη ορίστηκε και αποθηκεύτηκε ένας μοναδικός αριθμός με την ακριβή θέση της εντός του κειμένου. Ως εκ τούτου, οι λέξεις μπορούν να ανασυνταχθούν δίνοντας το ακριβές και σωστό νόημα στη πρόταση-απάντηση. Εν τέλει, αυτές οι προτάσεις επιστρέφονται ως απαντήσεις από την εφαρμογή. Όπως προαναφέρθηκε, η εφαρμογή δεν περιορίζεται σε μια μόνο απάντηση προς το χρήστη καθώς πολλές φορές μια απάντηση του συστήματος μπορεί να περιέχει πολλές διαφορετικές απαντήσεις-προτάσεις χωρίς σφάλμα. Όσο περισσότερες απαντήσεις μια ερώτηση χρήστη έχει, τόσο περισσότερες ανάγκες του χρήστη μπορούν να καλυφθούν από τις απαντήσεις του συστήματος. Έτσι για να υπολογίσουμε τη πιθανότητα p μια απάντηση να είναι ορθή, οι εμφανίσεις της j j απάντησης SR στα αποτελέσματα της μηχανής αναζήτησης υπολογίζονται σε σχέση με το συνολικό αριθμό Πιο συγκεκριμένα: n i SR των εμφανίσεων όλων των απαντήσεων. i 1 p j j SR n SR i 1 i, p 1 1 j j Το άθροισμα όλων των πιθανοτήτων είναι ίσο με 1 και στη περίπτωση που η πιθανότητα δύο ή περισσοτέρων αποτελεσμάτων της μηχανής αναζήτησης είναι ίδια, η κατάταξη που προέρχεται από τη μηχανή αναζήτησης χρησιμοποιείται και για τη διαλογή των αντίστοιχων απαντήσεων. Η τελική μεικτή αναπαράσταση εμφανίζεται στο χρήστη, περιλαμβάνοντας τις απαντήσεις και τα αποτελέσματα. Κάθε φορά που μια απάντηση εμφανίζεται στην έξοδο, ακολουθεί και το αποτέλεσμα της μηχανής αναζήτησης στο οποίο περιέχεται. Αρχικά οι απαντήσεις θα εμφανιστούν ταξινομημένες ανάλογα με τη πιθανότητα να είναι αυτές οι σωστές απαντήσεις στην ερώτηση του χρήστη. Στο τέλος εμφανίζονται και τα αποτελέσματα της μηχανής 91 Σ ε λ ί δ α

92 αναζήτησης που δεν περιείχαν κάποια απάντηση στην ερώτηση του χρήση με τη σειρά κατάταξης από τη μηχανή. Η συνολική διαδικασία που περιεγράφηκε παραπάνω μπορεί να παρουσιαστεί με τα εξής βασικά βήματα: 1. Τρέξιμο του ερωτήματος στη μηχανή αναζήτησης Έξοδος: τα κλασσικά αποτελέσματα για ένα ερώτημα μιας μηχανής αναζήτησης τα οποία δεν εμφανίζονται στο χρήστη. 2. Συντακτική ανάλυση των αποτελεσμάτων της μηχανής αναζήτησης Έξοδος: Δεντρική συντακτική δομή των αναλυμένων αποτελεσμάτων. 3. Μετατροπή του δέντρου της συντακτικής δομής σε Οντολογία. Έξοδος: μια οντολογία που περιλαμβάνει τα αποτελέσματα της μηχανής αναζήτησης βάση του ερωτήματος. 4. Συντακτική ανάλυση της ερώτησης σε φυσική γλώσσα που έχει υποβάλλει ο χρήστης. Έξοδος: Συντακτική δενδρική δομή της πρότασης - ερώτησης και μετατροπή της σε τριπλέτα. 5. Για κάθε αποτέλεσμα από την αναζήτηση: α. Ερώτημα στην οντολογία για να βρεθεί το σύνολο S. β. Ερώτημα στην οντολογία για να βρεθεί το σύνολο SR. Έξοδος: σύνολο των απαντήσεων, αν υπάρχουν βέβαια για την εν λόγω ερώτηση, και οι αντίστοιχες πιθανότητες. γ. Εμφάνιση των απαντήσεων στην ερώτηση του χρήστη. Έξοδος: Οι απαντήσεις και τα αποτελέσματα για το ερώτημα του χρήστη ταξινομημένα(ranked). 92 Σ ε λ ί δ α

93 5.4. Πειραματική διαδικασία Για να αξιολογηθεί το σύστημα που προτάθηκε, διεξήχθησαν πειράματα με σκοπό να εξασφαλιστεί ότι το σύστημα απαντά σωστά στις ερωτήσεις χρηστών και πώς η κατάταξη των αποτελεσμάτων είναι η καλύτερη. Προς αυτή τη κατεύθυνση, πραγματοποιήθηκαν μια σειρά ερωτημάτων στο Προτεινόμενο Σύστημα Ερωταποκρίσεων (QASOn) σε ένα σημαντικό αριθμό ιστοσελίδων. Σύνολο Πειραματικών Δεδομένων Το σύνολο των ιστοσελίδων που χρησιμοποιήθηκαν στα πειράματα ανήκουν στο σύνολο δεδομένων ClueWeb09 Dataset of Lemur Project 8. To σύνολο δεδομένων ClueWeb09 έχει δημιουργηθεί για να υποστηρίζει την έρευνα για την ανάκτηση πληροφοριών και των συναφών τεχνολογιών της ανθρώπινης γλώσσας. Αποτελείται από περίπου 1 δισεκατομμύριο ιστοσελίδες σε δέκα γλώσσες που συλλέχθηκαν τον Ιανουάριο και το Φεβρουάριο του Συγκεκριμένα, χρησιμοποιείται το TREC Κατηγορία Β σύνολο δεδομένων (πρώτα 50 εκατομμύρια Αγγλικές σελίδες). Υλοποιημένα Συστήματα Οι προτεινόμενες τεχνικές εφαρμόστηκαν σε μια αυτόνομη εφαρμογή, η οποία χρησιμοποιεί ως δεδομένα εισόδου, τα αποτελέσματα μιας τοπικά εγκατεστημένης μηχανής αναζήτησης της Indri[109]. Η μηχανή αναζήτησης Indri έχει τη δυνατότητα να αναζητεί πληροφορίες σε δύο μέρη του ClueWeb09 Dataset, στην English Wikipedia και στο Category B Dataset( το οποίο περιλαμβάνεται στην English Wikipedia). Ο χρήστης, στη πειραματική διαδικασία, επιλέγει το είδος της ερώτησης που θέτει με σκοπό να εξαλειφθεί η πιθανότητα να εισαχθεί είδος ερώτησης μη αναγνωρίσιμο από το σύστημα. Αυτή η επιλογή δίνει στο σύστημα τη δυνατότητα να διορθώσει τη συντακτική δομή της ερώτησης ακόμα και αν ο χρήστης δεν υποβάλλει ερώτηση με σωστή μορφοσυντακτική δομή. Το Σχήμα 24 δείχνει ένα στιγμιότυπο από την εφαρμογή. Επιπλέον, πραγματοποιήθηκαν πειράματα στην εφαρμογή με είσοδο δεδομένα τα αποτελέσματα από τη μηχανή αναζήτησης Google. Πειραματικά Αποτελέσματα Η διαδικασία αξιολόγησης χωρίστηκε σε δύο μέρη. Στο πρώτο μέρος, ένα σύνολο ερωτήσεων δημιουργήθηκε από τα έγγραφα της συλλογής μας. Χρησιμοποιώντας αυτό το σύνολο των ερωτήσεων, το σύστημα αξιολογήθηκε σε σχέση με τις απαντήσεις που δόθηκαν. Στο δεύτερο μέρος, οι ερωτήσεις από το Web Tracks 2009 και 2010 (TREC Συλλογές) χρησιμοποιήθηκαν για τη δημιουργία απλών ερωτήσεων Σ ε λ ί δ α

94 όπως "What is...". Χρησιμοποιώντας αυτό το σύνολο των ερωτήσεων, το σύστημα αξιολογήθηκε για τις απαντήσεις που επέστρεψε και την κατάταξη των αποτελεσμάτων αυτών. Σχήμα 24: Question Answering System using the search engine Indri Ερωτήσεις από το δικό μας σύνολο δεδομένων Για να γίνει η εξαγωγή των ερωτήσεων, εκατό ιστοσελίδες επιλέχθηκαν τυχαία από το σύνολο δεδομένων TREC Category B ως πειραματικά δεδομένα. Μόνο πενήντα από αυτές ανήκουν στην English Wikipedia. Εκατό ερωτήσεις κατασκευάστηκαν από αυτές τις σελίδες αυτόματα εξάγοντας πληροφορία από καθεμιά από αυτές. Για κάθε ερώτηση, τα κείμενα που απαντούν στις ερωτήσεις είναι γνωστά γιατί οι ερωτήσεις έχουν κατασκευαστεί και δεν έχουν τεθεί από χρήστη. Τα αποτελέσματα έδειξαν ότι οι ερωτήσεις απαντήθηκαν σωστά σε ποσοστό περισσότερο από 90%. Ένα ερώτημα θεωρείται ότι έχει απαντηθεί σωστά, όταν όλες οι σωστές απαντήσεις με τις αντίστοιχα κείμενά τους έχουν επιστραφεί. Είναι σαφές ότι τα ερωτήματα αυτά είναι καλοσχηματισμένα, σε αντίθεση με τις ερωτήσεις που υποβλήθηκαν ή μπορούν να υποβληθούν από τους χρήστες στις μηχανές αναζήτησης. Ως εκ τούτου, τα αποτελέσματα του συστήματός μας, όταν χρησιμοποιούνται οι μηχανές αναζήτησης, εξαρτώνται από τον τρόπο που οι χρήστες διαμορφώνουν τις ερωτήσεις τους. Ο χρήστης μπορεί να θέσει μια ερώτηση με συντακτικά λανθασμένη δομή και ως εκ τούτου τα αποτελέσματα του συστήματος μας δεν θα είναι τα επιθυμητά. Ο Πίνακας 6 δείχνει τα αποτελέσματα για τις δύο διαφορετικές ομάδες δεδομένων. 94 Σ ε λ ί δ α

Δείτε περισσότερα