Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 2
Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 3
Διαδικαστικά 1/5 Πρόγραμμα: Τρίτη, 3-5, Αίθουσα 2 Τετάρτη, 5-7, Αίθουσα 2 Ώρες γραφείου: Τετάρτη, 10-12, Ανάκτορα Web-site μαθήματος: http://di.ionio.gr/el/undergraduate- studies/undergraduate-modules/semester-6/67- information-retrieval.html http://e-class.ionio.gr/courses/dcs183/ 4
Διαδικαστικά 2/5 Τρόπος εξέτασης: Ο τελικός βαθμός κάθε φοιτητή προκύπτει από γραπτή εξέταση στο θεωρητικό κομμάτι του μαθήματος (παραδόσεις, διαφάνειες, σημειώσεις και βιβλίο). Προαιρετικές εργασίες bonus αυστηρά ατομικές! ο βαθμός τους προσδίδει 20%-30% (ανάλογα το θέμα) στον τελικό βαθμό Η επίτευξη της βάσης (5/10) στις γραπτές εξετάσεις είναι προαπαιτούμενο για να προσμετρηθεί η εργασία. 5
Ύλη/Συγγράμματα 3/5 Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze Introduction to Information Retrieval, Cambridge University Press, 2008 Baeza-Yates and Ribeiro-Neto Μodern Information Retrieval, Addision Wesley, 1999 6
Ύλη/Συγγράμματα 4/5 Βαζιργιάννης Μ., Χαλκίδη Μ. Εξόρυξη γνώσης από βάσεις δεδομένων και τον παγκόσμιο ιστό, Εκδόσεις Τυπωθήτω, 2005 Van Rijsbergen, C. J. Information Retrieval, Butterworths, 1979 7
Στόχοι 5/5 Στόχοι μαθήματος: Κατανόηση βασικών γενικών αρχών ανάκτησης πληροφορίας. Εξοικείωση με προχωρημένες έννοιες και αρχές της ανάκτησης πληροφορίας. Εξοικείωση με συστήματα ανάκτησης πληροφορίας. 8
Σήμερα και αύριο Ποια είναι τα κίνητρά μας??? Did You Know (2014) How will be the world in 2020? 9
Information overload 1/5 10
Information overload 2/5 11
Information overload 3/5 12
Information overload 4/5 13
Information overload 5/5 14
Σήμερα και αύριο Ποια είναι τα κίνητρά μας?? 1. Information overload!!! 2. Ψηφιακό πολυμεσικό περιεχόμενο Στις μέρες μας αποτελεί πολύτιμο περιουσιακό στοιχείο! Συνδέεται με μια ποικιλία αναδυόμενων και νέων πολυμεσικών υπηρεσιών ψυχαγωγίας για κινητά (3G, wi-fi, ) ενημέρωσης & πληροφόρησης edutainment 15
Τι είναι η «Ανάκτηση Πληροφορίας» Η Ανάκτηση Πληροφορίας μελετά προβλήματα που σχετίζονται με την αναπαράσταση (representation) αποθήκευση (storage) οργάνωση (organization) προσπέλαση (access) σε αντικείμενα πληροφορίας κείμενα, εικόνες, ήχοι, web pages, κ.λ.π. 16
Ορισμοί της Ανάκτησης Πληροφορίας Salton (1989): Τα συστήματα ανάκτησης πληροφορίας επεξεργάζονται αρχεία εγγραφών και αιτήσεις πληροφόρησης, και αναγνωρίζουν και ανακτούν από τα αρχεία συγκεκριμένες εγγραφές ως αποτέλεσμα των αιτήσεων πληροφόρησης. Η ανάκτηση συγκεκριμένων εγγραφών εξαρτάται από την ομοιότητα μεταξύ των εγγραφών και των ερωτημάτων, η οποία μετριέται συγκρίνοντας τις τιμές συγκεκριμένων χαρακτηριστικών των εγγραφών και των ερωτημάτων. Kowalski (1997): Ένα σύστημα ανάκτησης πληροφορίας είναι ένα σύστημα ικανό να αποθηκεύει, να ανακτά, και να συντηρεί πληροφορία. H πληροφορία μπορεί να αποτελείται από κείμενο, εικόνες, ήχους, βίντεο και άλλα πολυμεσικά αντικείμενα. 17
Πληροφοριακή Ανάγκη του Χρήστη «Να βρεθούν οι σελίδες όλων των πανεπιστημιακών τμημάτων στην Ελλάδα που διδάσκεται η Ανάκτηση Πληροφορίας. Στη σελίδα του κάθε τμήματος να αναφέρονται στοιχεία επικοινωνίας» «Να βρεθούν σελίδες σχετικές με ποδόσφαιρο» Στα συστήματα ανάκτησης πληροφορίας η πληροφοριακή ανάγκη του χρήστη μετατρέπεται σε ένα ερώτημα (query). 18
Ανάκτηση Πληροφορίας και όχι Δεδομένων Ανάκτηση δεδομένων (data retrieval) Καλά ορισμένη ερώτηση. Βρίσκονται αντικείμενα που ταιριάζουν απόλυτα με την ερώτηση. Ένα μόνο λάθος συνιστά καθολική αποτυχία. Ανάκτηση πληροφορίας (information retrieval) Η ερώτηση είναι ασαφής (fuzzy). Η σημασιολογία (semantics) είναι συχνά ελλιπής. Μερικά λάθη είναι ανεκτά. 19
Συστήματα Ανάκτησης Πληροφορίας (IR) Προσπαθούν να βρουν όλα τα αντικείμενα πληροφορίας που σχετίζονται με την ερώτηση του χρήστη. Προσπαθούν να μην ανακτήσουν κανένα αντικείμενο πληροφορίας που δεν σχετίζεται με την ερώτηση του χρήστη. Τα αποτελέσματα ταξινομούνται ανάλογα με το ποσοστό συσχέτισης (relevance). 20
Τυπική Περίπτωση Συστήματος IR Δεδομένα: Ένα σύνολο κειμένων σε φυσική γλώσσα. Μία ερώτηση του χρήστη με τη μορφή ακολουθίας όρων. Στόχος: Ένα σύνολο κειμένων, τα οποία: σχετίζονται με την ερώτηση βρίσκονται σε κατάταξη (ranked), ανάλογα με το βαθμό συσχέτισής τους με την ερώτηση. 21
Αρχιτεκτονική Συστήματος IR 22
Σύστημα Αναζήτησης στο Web 23
Σχετικότητα (relevance) Η σχετικότητα ενός κειμένου με την ερώτηση είναι υποκειμενική και μπορεί να απαιτεί από το κείμενο: Να είναι πάνω σε ένα συγκεκριμένο θέμα. Να είναι σύγχρονο (πρόσφατη πληροφορία). Να είναι αυθεντικό (από αξιόπιστη πηγή). Να ικανοποιεί τους στόχους του χρήστη και της χρήσης της πληροφορίας. Κύριο κριτήριο σχετικότητας: Ένα σύστημα IR πρέπει να ικανοποιεί την πληροφοριακή ανάγκη του χρήστη. 24
Παραδείγματα Συστημάτων IR Συμβατικά (κατάλογοι βιβλιοθηκών) Αναζήτηση μέσω λέξεων-κλειδιών, τίτλου συγγραφέα, κτλ. Βάσει-κειμένου (Lexis-Nexis, Google, FAST) Αναζήτηση μέσω όρων. Περιορισμένη αναζήτηση με ερωτήσεις σε φυσική γλώσσα Πολυμέσα (QBIC, WebSeek, SaFe) Αναζήτηση μέσω οπτικών χαρακτηριστικών (σχήμα, χρώμα, ) 25
Παραδείγματα Συστημάτων IR Συστήματα απάντησης ερωτήσεων (AskJeeves, Answerbus) Αναζήτηση μέσω (περιορισμένης) φυσικής γλώσσας Άλλα: Δια-γλωσσική ανάκτηση πληροφορίας Ανάκτηση μουσικής πληροφορίας 26
27
Συστήματα IR στο World Wide Web Αναζήτηση ιστοσελίδων http://www.google.com Αναζήτηση εικόνων http://images.google.com http://viral.image.ntua.gr Αναζήτηση περιεχομένου εικόνων http://wang.ist.psu.edu/image/ http://viral.image.ntua.gr Αναζήτηση απαντήσεων σε ερωτήσεις http://www.askjeeves.com 28
Ερευνητικά θέματα σχετικά με IR Αυτόματη κατηγοριοποίηση κειμένων (document categorization) Φιλτράρισμα πληροφορίας (π.χ. spam filtering) Δρομολόγηση πληροφορίας (information routing) Αυτόματη ομαδοποίηση κειμένων (document clustering) Εξαγωγή πληροφορίας (information extraction) 29
Ερωτήσεις - Απορίες 30