Semantic Web & QA Παπαντωνίου Κατερίνα
Περιεχόμενα Question Answering Γενικά Εξέλιξη Tag Cloud Τύποι Ερωτήσεων Web Question Answering Question Answering & Web 2.0 Question Answering & Web 3.0 Περιγραφή υπό ανάπτυξη συστήματος
Γενικά Question Answering: Χώρος: Ανάκτηση Πληροφορίας Σκοπός: να μην χρειάζεται ο χρήστης να ψάχνει μέσα σε έγγραφα να βρει την απάντηση Θεωρείται ότι θα αντικαταστήσουν τις μηχανές αναζήτησης
Εξέλιξη Question Answering Πρωτοεμφανίστηκαν τη δεκαετία του 60 Έμπειρα συστήματα BASEBALL,LUNAR Κάλυπταν μικρές περιοχές Web Question Answering Τεράστια πηγή πληροφορίας Community QA Semantic Web & Web QA
Tag Cloud
QA: Τύποι Ερωτήσεων Ερωτήσεις Factoid Who Where When Complex How Why Inference
Περιεχόμενα Question Answering Web Question Answering Τεχνικές Question Answering & Web 2.0 Question Answering & Web 3.0 Περιγραφή υπό ανάπτυξη συστήματος
WebQA: Τεχνικές Πηγή: Lin & Katz 2003
Περιεχόμενα Question Answering Web Question Answering Question Answering & Web 2.0 Web 2.0 Collective Knowledge Community QA Question Answering & Web 3.0 Περιγραφή υπό ανάπτυξη συστήματος
Web 2.0 Ένας ορισμός: Μια υπηρεσία που παρέχεται μέσω του web με ένα web τρόπο και προσφέρει μια «πλούσια» εμπειρία στο χρήστη- Tim O'Reilly Περισσότερο κοινωνική παρά τεχνολογική εξέλιξη Χαρακτηριστικά: Collaboration μεταξύ χρηστών Ανταλλαγή Πληροφορίας Collective Knowledge Παραδείγματα: Blogs Folksonomies Wikis Social networks
Collective Knowledge Wisdom of crowds Wikipedia Flickr MySpace D.e.l.i.c.i.o.u.s Facebook YouTube
Community QA Προσπάθειες εκμετάλλευσης εφαρμογών Web 2.0 Finding High-Quality Content in Social Media Eugene Agichtein et al First ACM Conference on Web Search and Data Mining. Stanford, CA, USA. February 2008. Ανίχνευση ποιότητας των απαντήσεων Finding the Right Facts in the Crowd:Factoid Question Answering over Social Media Jiang Bian et al. WWW 2008 / Refereed Track: Search - Applications April 21-25, 2008 Beijing, China Yahoo Answers Εύρεση απαντήσεων και κατηγοριοποίηση απαντήσεων Κριτήρια: Best Answer Αξιοπιστία χρήστη που απάντησε Μέγεθος απάντησης Πόσος χρόνος πέρασε για να απαντηθεί η ερώτηση Αξιολόγηση σχόλια
Περιεχόμενα Question Answering Web Question Answering Question Answering & Web 2.0 Question Answering & Web 3.0 DBpedia YAGO NAGA Περιγραφή υπό ανάπτυξη συστήματος
Wikipedia Αποτελείται από 6.9 εκατομμύρια άρθρα Σε 251 γλώσσες 4% μηνιαία αύξηση Προσφέρει περιορισμένες δυνατότητες αναζήτησης με βάση λέξεις κλειδιά Προσπάθεια για την καλύτερη εκμετάλλευση της DBpedia YAGO
DBpedia Εξαγωγή δομημένης πληροφορίας από τη Wikipedia Απάντηση σε σύνθετα ερωτήματα χρηστών Σύνδεση με άλλα datasets Χρησιμοποιεί RDF Ελεύθερα διαθέσιμη πληροφορία (GNU) Πρώτη έκδοση 23 Ιανουαρίου 2007 Αναπτύχθηκε από: Freie Universitat Berlin (Germany) Universitat Leipzig (Germany) OpenLink Software (UK) Linking Open Data Community (W3C SWEO)
DBpedia (2) Δομημένη Πληροφορία στη Wikipedia Infobox Εικόνες Κατηγοριοποίηση Συνδέσμους σε εξωτερικές σελίδες Συνδέσμους σε άλλα σχετικά άρθρα Συνδέσμους στα αντίστοιχα άρθρα άλλων γλωσσών Περιλήψεις άρθρων (short & long) Πηγή: http://en.wikipedia.org/wiki/venice
Συστατικά Πηγή: Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak, Zachary Ives: DBpedia: A Nucleus for a Web of Open Data. 6th International Semantic Web Conference (ISWC 2007), Busan, Korea, November 2007.
Παραδείγματα Κατηγοριοποίηση Περιλήψεις Πηγή: Presentation slides των Christian Bizer Sören Auer Georgi KobilarovJens Lehmann Richard Cyganiak στα πλαίσια του 16th International World Wide Web Conference Μαιος 2007
DBpedia Dataset Περιλαμβάνει: 1,600,000 concepts 58,000 persons 70,000 places 35,000 music albums 12,000 films 91 εκατομμύρια triples 8,141 properties 557,000 σύνδεσμοι σε εικόνες 1,300,000 σύνδεσμοι σε εξωτερικές σελίδες 207,000 κατηγορίες από τη Wikipedia (SKOS) 75,000 κατηγορίες από τη YAGO
Σύνδεση με Dataset Πηγή: http://wiki.dbpedia.org/interlinking
Πρόσβαση στη DBpedia SPARQL Endpoint RDF Dumps (N-triple) Linked Data HTTP://URI http://dbpedia.org/resource/eiffel_tower
SPARQL Endpoint http://dbpedia.org/sparql Επεκτείνει τη SPARQL με: free-text search μέσα από τίτλους και περιλήψεις COUNT() Μπορεί να δώσε απαντήσεις σε SPARQL queries όπως: Give me all Sitcoms that are set in NYC? All tennis players from Moscow? All films by Quentin Tarentino? All German musicians that were born in Berlin in the 19th century? All soccer players with tricot number 11, playing for a club having a stadium with over 40,000 seats and is born in a country with over 10 million inhabitants?
Πηγή:http://dbpedia.org/sparql
Open Link Browser Πηγή:http://demo.openlinksw.com/DAV/JS/r dfbrowser/index.html
Use Cases Βελτίωση της αναζήτησης μέσα στη Wikipedia Στοιχεία από την οντολογία σε μια σελίδα Εφαρμογή σε κινητά Χειρισμός γεωγραφικών δεδομένων Social Bookmarking Favini
YAGO Yet Another Great Ontology Παρουσιάστηκε το 2007 1.7 εκατομμύρια οντότητες 14 εκατομμύρια facts Max-Planck-Institute Wikipedia + Wordnet Επεκτασιμότητα Επεκτείνει το RDFS (transitivity) YAGO model
YAGO model Entity π.χ πόλεις, άνθρωποι, αριθμοί, ημερομηνίες Relations AlbertEinstein HasWonPrize NobelPrize AlbertEinstein BornInYear 1889 Class physicist SubClassOf scientist Instance AlbertEinstein TYPE physicist
YAGO model (2) Fact => entity relation entity AlbertEinstein haswonprize NobelPrize Κάθε fact ένα μοναδικό fact identifier #1 : AlbertEinstein haswonprize NobelPrize N-ary relations #2 : #1 time 1921
YAGO confidence Πηγή:http://www.mpi-inf.mpg.de/~suchanek/downloads/yago/sample.txt
Πηγή: http://www.mpiinf.mpg.de/~suchanek/downloads/yago/
Σύγκριση YAGO & DBpedia Εξαγωγή Πληροφορίας: DBpedia: infoboxes YAGO: category & redirects Αριθμός Σχέσεων: η YAGO μικρότερο αριθμό σε σχέση με τη DBpedia
NAGA Semantic Web Search Engine ΚΒ YAGO KB στηρίζεται σε γράφους Entities κόμβοι Relations ακμές Facts Υποστηρίζει: Αβεβαιότητα Εκφραστικότητα στα ερωτήματα των χρηστών Ταξινόμηση των αποτελεσμάτων (confidence)
NAGA (2) 3 κατηγορίες ερωτημάτων Evidence Queries Discovery Queries Relatedness Queries Πηγή:Gjergji Kasneci, Fabian M. Suchanek, Georgiana Ifrim, Maya Ramanath, Gerhard Weikum "NAGA: Searching and Ranking Knowledge"
NAGA (3) Πηγή:http://www.mpi-inf.mpg.de/~kasneci/naga/
Query: Politician isa $x isa Scientist Results: Benjamin Franklin Paul Wolfowitz Angela Merkel Πηγή: presentation slides του Gjergji Kasneci
Πρόβλημα Δύσκολα διαχειρίσιμο το μεγάλο μέγεθος σχήματος Λύση: Καθοδήγηση του χρήστη στην οντολογία Για αναζήτηση (π.χ Ontowiki, PowerSet) Για υποβολή ερωτημάτων με NL
Περιεχόμενα Question Answering Web Question Answering Question Answering & Web 2.0 Question Answering & Web 3.0 Περιγραφή υπό ανάπτυξη συστήματος
Σύστημα WebQA Ερωτήσεις τύπου Who Αγγλική γλώσσα Ανεξάρτητο πεδίου Ερωτήσεις: Μονολεκτικές Απαντήσεις Λίστες Ορισμοί
Σύστημα WebQA (2)
Στάδια Ανάπτυξης
Τέλος Ευχαριστώ!!!