Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής αναζήτηση Ερευνητικά Θέματα 1
Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Βασικές έννοιες 1. Μέθοδοι προσέγγισης 2. Εργασία χρήστη 3. Αναζήτηση και Περιήγηση 4. Ανάκτηση και Φιλτράρισμα Πληροφορίας 5. Ταξινόμηση και Βαθμολόγηση 6. Δεικτοδότηση 4
1. Μέθοδοι Προσέγγισης IR Computer-Centered: Δημιουργία αποτελεσματικών δομών δεικτοδότησης Γρήγορη επεξεργασία ερωτημάτων Ποιοτικοί αλγόριθμοι κατάταξης αποτελεσμάτων Human-Centered Μελέτη πληροφοριακών αναγκών του χρήστη Μελέτη συμπεριφοράς χρήστη 5
2. Εργασία Χρήστη (user task) Ανάκτηση (Retrieval): Η δυνατότητα εύρεσης πληροφορίας σχετική με την ερώτηση του χρήστη. Περιήγηση (Browsing): Η δυνατότητα μετάβασης μεταξύ των διαθέσιμων κειμένων (π.χ. Hypertext). 6
3. Αναζήτηση και Περιήγηση Αναζήτηση (Search) Η δυνατότητα εύρεσης πληροφορίας σχετική με την ερώτηση του χρήστη. Ο χρήστης εκφράζει την πληροφοριακή ανάγκη (ερώτημα) και το σύστημα επιστρέφει έγγραφα με μεγάλο βαθμό ομοιότητας ως προς το ερώτημα. Περιήγηση (Browsing) Η δυνατότητα μετακίνησης μεταξύ των αποτελεσμάτων ή όλων των εγγράφων της συλλογής (π.χ. Hypertext) 7
3. Αναζήτηση και Περιήγηση 8
4. Ανάκτηση και Φιλτράρισμα Πληροφορίας Ανάκτηση (Retrieval) Τα αντικείμενα της βάσης δεδομένων παραμένουν σχετικά στατικά, ενώ οι ερωτήσεις του χρήστη συνεχώς αλλάζουν. Pulling information Φιλτράρισμα (Filtering) Οι ερωτήσεις παραμένουν οι ίδιες, ενώ τα αντικείμενα της βάσης δεδομένων αλλάζουν συνεχώς ή ανανεώνονται. Pushing information 9
5. Ταξινόμηση και Βαθμολόγηση Όταν ένας χρήστης υποβάλλει ένα ερώτημα σε ένα σύστημα ανάκτησης, το σύστημα επιστρέφει ένα σύνολο αποτελεσμάτων. Εάν η συλλογή κειμένων είναι μεγάλη, ενδέχεται και τα αποτελέσματα να είναι πολλά (π.χ. αναζήτηση σε μία μηχανή αναζήτησης). Επομένως, έχει μεγάλη σημασία η σειρά εμφάνισης των αποτελεσμάτων. Υπάρχουν 3 μέθοδοι: Ταξινόμηση των αποτελεσμάτων π.χ. ως προς την ημερομηνία. Βαθμολόγηση των αποτελεσμάτων ως προς την ομοιότητα με το ερώτημα. Βαθμολόγηση των αποτελεσμάτων ως προς την σημαντικότητά τους. 10
6. Δεικτοδότηση (index) Τα συστήματα IR σπάνια ψάχνουν απευθείας τις συλλογές εγγράφων. Αντίθετα δημιουργείται 1 δεικτοδότηση/κατάλογος (index) των εγγράφων της συλλογής και ο χρήστης ψάχνει εκεί. 11
Λογική Όψη Κειμένων (Logical View) Η εσωτερική αναπαράσταση των κειμένων σε ένα σύστημα IR. Πλήρες κείμενο Απαλοιφή συχνών λέξεων (άρθρα, σύνδεσμοι κτλ.) Απαλοιφή επιθέτων, ρημάτων, κ.λ.π. Άλλοι μετασχηματισμοί Λέξεις-κλειδιά (keywords) Πολλές φορές μας ενδιαφέρει και η δομή (structure) του κειμένου (π.χ. αναπαράσταση με XML) 12
Πλήρες Κείμενο index terms 13
Δομή ενός συστήματος IR 14
Δομή ενός Συστήματος IR 15
Αρχιτεκτονική Συστήματος IR 5. 1. 6. 2. 3. 4. 16
Συστατικά Συστήματος IR 1. Text Operations: σχηματίζει όρους δεικτοδότησης (tokens) Stopword removal Stemming 2. Indexing: Δημιουργεί μία δομή δεικτοδότησης όρων σε κείμενα (π.χ. inverted index) 3. Searching: ανακτά κείμενα που περιέχουν ένα δεδομένο όρο από τη δομή δεικτοδότησης 4. Ranking: αναθέτει ένα score σε όλα τα ανακτημένα κείμενα σύμφωνα με ένα κριτήριο σχετικότητας 17
Συστατικά Συστήματος IR 5. User Interface: διαχειρίζεται την αλληλεπίδραση: Είσοδος: ερώτηση, Έξοδος: κείμενα Ανατροφοδότηση σχετικότητας Οπτικοποίηση αποτελεσμάτων 6. Query Operations: μετασχηματίζει την ερώτηση για να βελτιώσει την ανάκτηση Επέκταση ερώτησης μέσω θησαυρού όρων Μετασχηματισμός ερώτησης μέσω ανατροφοδότησης σχετικότητας 18
Αναζήτηση με keywords Ο πιο απλός ορισμός της σχετικότητας είναι ότι η ερώτηση περιλαμβάνεται αυτολεξεί στο κείμενο. Ένας πιο ελεύθερος ορισμός είναι ότι οι λέξεις της ερώτησης εμφανίζονται συχνά στο κείμενο, σε οποιαδήποτε σειρά (bag of words). 19
Προβλήματα με τα keywords Σχετικά κείμενα μπορεί να μην ανακτηθούν αν περιλαμβάνουν μόνο συνώνυμους όρους με αυτούς της ερώτησης. restaurant vs. café PRC vs. China Μπορεί να ανακτηθούν μη-σχετικά κείμενα που περιλαμβάνουν αμφίσημους όρους. bat (baseball vs. mammal) Apple (company vs. fruit) bit (unit of data vs. act of eating) 20
Ευφής IR Λαμβάνει υπόψη το νόημα των όρων που χρησιμοποιούνται. Λαμβάνει υπόψη τη σειρά των λέξεων στην ερώτηση. Προσαρμόζεται στον χρήστη βάσει άμεσης ή έμμεσης ανατροφοδότησης. Λαμβάνει υπόψη την αυθεντικότητα της πηγής. 21
Ερευνητικά Θέματα: Clustering Οργάνωση των αποτελεσμάτων αναζήτησης σε κατηγορίες ή φακέλους για τη δημιουργία μιας ξεκάθαρης, σαφούς εικόνας στους χρήστες. Η συσταδοποίηση διαχωρίζει τα αποτελέσματα μιας αναζήτησης π.χ. για "cell" σε συστάδες που περιέχουν αντίστοιχα όρους σχετικούς με: "biology", "battery" και "prison". http://www.vivisimo.com IBM Watson Explorer (May 2012) 22
23
Ερευνητικά Θέματα: Meta-Search Engines Ταυτόχρονη αναζήτηση σε πολλές μηχανές αναζήτησης. Συγχώνευση αποτελεσμάτων, αποφυγή διπλών εγγράφων, επεξεργασία κατάταξης αποτελεσμάτων. «Meta search services are search services that do searches in other search services in order to put together a hit list of their own.» http://www.mamma.com 24
Ερευνητικά Θέματα: Visualization Η οπτικοποίηση των αποτελεσμάτων βοηθά τους χρήστες να έχουν μία γενική εικόνα του νοήματος πίσω από τις λέξεις. Visual Search Engines interesting ways to visually explore search engine results! Grokker Kartoo (2001-2010) http://www.infovis.net/printmag.php?num=97&lang=2 http://www.masternewmedia.org/top-visual-search-engines-the-mostinteresting-ways-to-visually-explore-search-engine-results/ 25
Grokker 26
Kartoo 27
Σχετικά συνέδρια Text Retrieval Conference (TREC) ACM Special Interest Group on Information Retrieval (SIGIR) Conference European Conference on Information Retrieval (ECIR) European Conference on Research and Advanced Technology for Digital Libraries (ECDL) Joint Conference on Digital Libraries (JCDL) ACM International Workshop on Multimedia Information Retrieval (MIR) International Symposium on Music Information Retrieval (ISMIR), και άλλα. Ακόμη, πολλά από τα μεγάλα συνέδρια που αναφέρονται στη διαχείριση δεδομένων έχουν ειδικές συνεδρίες για την Ανάκτηση Πληροφορίας. ACM Conference on Information and Knowledge Management (CIKM) ACM Special Interest Group on Management of Data (SIGMOD) Conference International Conference on Very Large Databases (VLDB). 28
Σχετικά περιοδικά ACM Transactions on Information Systems Information Retrieval Information Processing and Management Information Systems International Journal on Digital Libraries 29
Ερωτήσεις - Απορίες 30