Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η έκδοση(μάιος, 1999) ~50 Αναλυτικό & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 2 ιδακτικό βοήθηµα 2 Καλύπτει το 30% του 290 σελίδες 1η έκδοση(μάιος, 2003) ~75 Αναλυτικό & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 3 1
ιδακτικό βοήθηµα 3 Καλύπτει το 10% του 520 σελίδες 2η έκδοση(μάιος, 1999) ~70 Αναλυτικότατο & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 4 ιδακτικό βοήθηµα 4 Καλύπτει το 10% του 350 σελίδες 1η έκδοση(μάιος, 1999) ~60 Paper-like µορφή Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 5 ιδακτικό βοήθηµα 5 Καλύπτει το 5% του 250 σελίδες 1η έκδοση(σεπτέµβριος, 2003) ~60 Ανεξάρτητα κεφάλαια Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 6 2
Αντικείµενο IR Η Ανάκτηση Πληροφορίας µελετά προβλήµατα που σχετίζονται µε την: Αναπαράσταση Αποθήκευση Οργάνωση Προσπέλαση στοιχείων πληροφορίας Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 7 Ανάκτηση Πληροφορίας & Ανάκτηση εδοµένων Να βρεθούν όλα τα ξενοδοχεία της Ελλάδας στα οποία η τιµή του δίκλινου δωµατίου είναι µικρότερη από 100 τη βραδιά. (σαφές ερώτηµα) Να βρεθούν κείµενα τα οποία αναφέρονται στο διαστηµικό σταθµό MIR. (ασαφές ερώτηµα) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 8 Σύγκριση DR IR Matching Exact Partial, best Items wanted Matching Relevant Queries Precise Imprecise Information Data, numeric Nat. Lang. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 9 3
Στόχος Συστήµατος IR Η ανάκτηση «κειµένων» τα οποία σχετίζονται µε την ερώτηση του χρήστη, και η αποφυγή ανάκτησης κειµένων που δε σχετίζονται µε την ερώτηση του χρήστη. Τα τελικά αποτελέσµατα ταξινοµούνται ανάλογα µε το ποσοστό συσχέτισης (relevance). Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 10 Σύστηµα IR Κείµενα Index Terms (keywords) κείµενο Αίτηση για Πληροφορία ταίριασµα Βαθµ/ση ερώτηµα Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 11 Λειτουργίες IR Ανάκτηση (Retrieval) Η δυνατότητα εύρεσης πληροφορίας σχετική µε την ερώτηση του χρήστη. Αναζήτηση (Browsing) Η δυνατότητα «µετακίνησης» µεταξύ των αποτελεσµάτων (π.χ. Hypertext) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 12 4
Λογική Όψη Κειµένων (Logical View) 1. Πλήρες κείµενο 2. Απαλοιφή άρθρων και συνδέσµων 3. Απαλοιφή επιθέτων, ρηµάτων, κλπ. 4. Άλλοι µετασχηµατισµοί 5. Χαρακτηριστικές Λέξεις (Keywords) Πολλές φορές µας ενδιαφέρει και η δοµή (structure) του κειµένου (π.χ. αναπαράσταση µε XML) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 13 Πλήρες Κείµενο -> > Keywords document accents spacing etc. stopwords noun groups stemming automatic or manual indexing text + structure structure recognition text structure full text index terms Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 14 ιαδικασία IR user need User Interface Text Operations Text Text user feedback logical view Query Operations query logical view Indexing inverted file DB Manager Module Searching Index retrieved docs ranked docs Ranking Text Database Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 15 5
Χθες και Σήµερα Τα πρώτα διαθέσιµα συστήµατα IR χρησιµοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων µε βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ. Αργότερα, προστέθηκε η δυνατότητα να πραγµατοποιείται ανάκτηση µε βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT). Σήµερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγµένα user interfaces, πιο γρήγορες µηχανές αναζήτησης, ανοιχτή αρχιτεκτονική. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 16 WWW + Ψηφιακές Βιβλιοθήκες Η προσπέλαση σε περισσότερες πηγές πληροφορίας κοστίζει λιγότερο. Η προσπέλαση στις πηγές πληροφορίας πραγµατοποιείται γρηγορότερα. Η ελευθερία στη δηµοσιοποίηση της πληροφορίας βοήθησε στην εξέλιξη του WWW. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 17 Ερώτηµα 1 Αν και ο χρήστης έχει στη διάθεσή του περισσότερα βοηθήµατα, ακόµη είναι δύσκολο να βρει την πληροφορία που επιθυµεί. Ποιες τεχνικές θα βελτιώσουν την ποιότητα της πληροφορίας που ανακτάται; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 18 6
Ερώτηµα 2 Με τη συνεχή βελτίωση στην ταχύτητα των δικτύων και των συστηµάτων, η γρήγορη ανάκτηση της πληροφορίας είναι πολύ σηµαντική. Ποιες τεχνικές πρέπει να χρησιµοποιηθούν για να βελτιώσουν την απόδοση των συστηµάτων; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 19 Ερώτηµα 3 Η ποιότητα της πληροφορίας που ανακτάται σχετίζεται άµεσα µε την αλληλεπίδραση χρήστη συστήµατος. Με ποιους τρόπους θα βελτιώσουµε την ανάκτηση πληροφορίας λαµβάνοντας υπόψη τις προτιµήσεις των χρηστών; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 20 7