Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006
ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου του µαθήµατος Είναι στην αγγλική 510 σελίδες 1η έκδοση (Μάιος, 1999) ~50 Αναλυτικό & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 2
ιδακτικό βοήθηµα 2 Καλύπτει το 30% του αντικειµένου του µαθήµατος Είναι στην αγγλική 290 σελίδες 1η έκδοση (Μάιος, 2003) ~75 Αναλυτικό & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 3
ιδακτικό βοήθηµα 3 Καλύπτει το 10% του αντικειµένου του µαθήµατος Είναι στην αγγλική 520 σελίδες 2η έκδοση (Μάιος, 1999) ~70 Αναλυτικότατο & κατανοητό Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 4
ιδακτικό βοήθηµα 4 Καλύπτει το 10% του αντικειµένου του µαθήµατος Είναι στην αγγλική 350 σελίδες 1η έκδοση (Μάιος, 1999) ~60 Paper-like µορφή Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 5
ιδακτικό βοήθηµα 5 Καλύπτει το 5% του αντικειµένου του µαθήµατος Είναι στην αγγλική 250 σελίδες 1η έκδοση (Σεπτέµβριος, 2003) ~60 Ανεξάρτητα κεφάλαια Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 6
Αντικείµενο IR Η Ανάκτηση Πληροφορίας µελετά προβλήµατα που σχετίζονται µε την: Αναπαράσταση Αποθήκευση Οργάνωση Προσπέλαση στοιχείων πληροφορίας Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 7
Ανάκτηση Πληροφορίας & Ανάκτηση εδοµένων Να βρεθούν όλα τα ξενοδοχεία της Ελλάδας στα οποία η τιµή του δίκλινου δωµατίου είναι µικρότερη από 100 τη βραδιά. (σαφές ερώτηµα) Να βρεθούν κείµενα τα οποία αναφέρονται στο διαστηµικό σταθµό MIR. (ασαφές ερώτηµα) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 8
Σύγκριση DR IR Matching Exact Partial, best Items wanted Matching Relevant Queries Precise Imprecise Information Data, numeric Nat. Lang. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 9
Στόχος Συστήµατος IR Η ανάκτηση «κειµένων» τα οποία σχετίζονται µε την ερώτηση του χρήστη, και η αποφυγή ανάκτησης κειµένων που δε σχετίζονται µε την ερώτηση του χρήστη. Τα τελικά αποτελέσµατα ταξινοµούνται ανάλογα µε το ποσοστό συσχέτισης (relevance). Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 10
Σύστηµα IR Κείµενα Index Terms (keywords) κείµενο Αίτηση για Πληροφορία ταίριασµα Βαθµ/ση ερώτηµα Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 11
Λειτουργίες IR Ανάκτηση (Retrieval) Η δυνατότητα εύρεσης πληροφορίας σχετική µε την ερώτηση του χρήστη. Αναζήτηση (Browsing) Η δυνατότητα «µετακίνησης» µεταξύ των αποτελεσµάτων (π.χ. Hypertext) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 12
Λογική Όψη Κειµένων 1. Πλήρες κείµενο (Logical View) 2. Απαλοιφή άρθρων και συνδέσµων 3. Απαλοιφή επιθέτων, ρηµάτων, κλπ. 4. Άλλοι µετασχηµατισµοί 5. Χαρακτηριστικές Λέξεις (Keywords) Πολλές φορές µας ενδιαφέρει και η δοµή (structure) του κειµένου (π.χ. αναπαράσταση µε XML) Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 13
Πλήρες Κείµενο -> > Keywords document accents spacing etc. stopwords noun groups stemming automatic or manual indexing text + structure structure recognition text structure full text index terms Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 14
ιαδικασία IR user need User Interface Text Operations Text Text logical view logical view user feedback Query Operations Indexing DB Manager Module query inverted file Searching Index retrieved docs ranked docs Ranking Text Database Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 15
Χθες και Σήµερα Τα πρώτα διαθέσιµα συστήµατα IR χρησιµοποιήθηκαν από βιβλιοθήκες για αναζήτηση βιβλίων µε βάση τον τίτλο, το συγγραφέα, τον εκδοτικό οίκο, κλπ. Αργότερα, προστέθηκε η δυνατότητα να πραγµατοποιείται ανάκτηση µε βάση τίτλους κεφαλαίων, λέξεις κλειδιά και δυνατότητα επεξεργασίας πολύπλοκων ερωτήσεων (π.χ. AND, OR, NOT). Σήµερα η έρευνα και ανάπτυξη στο χώρο προσανατολίζεται σε πιο εξελιγµένα user interfaces, πιο γρήγορες µηχανές αναζήτησης, ανοιχτή αρχιτεκτονική. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 16
WWW + Ψηφιακές Βιβλιοθήκες Η προσπέλαση σε περισσότερες πηγές πληροφορίας κοστίζει λιγότερο. Η προσπέλαση στις πηγές πληροφορίας πραγµατοποιείται γρηγορότερα. Η ελευθερία στη δηµοσιοποίηση της πληροφορίας βοήθησε στην εξέλιξη του WWW. Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 17
Ερώτηµα 1 Αν και ο χρήστης έχει στη διάθεσή του περισσότερα βοηθήµατα, ακόµη είναι δύσκολο να βρει την πληροφορία που επιθυµεί. Ποιες τεχνικές θα βελτιώσουν την ποιότητα της πληροφορίας που ανακτάται; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 18
Ερώτηµα 2 Με τη συνεχή βελτίωση στην ταχύτητα των δικτύων και των συστηµάτων, η γρήγορη ανάκτηση της πληροφορίας είναι πολύ σηµαντική. Ποιες τεχνικές πρέπει να χρησιµοποιηθούν για να βελτιώσουν την απόδοση των συστηµάτων; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 19
Ερώτηµα 3 Η ποιότητα της πληροφορίας που ανακτάται σχετίζεται άµεσα µε την αλληλεπίδραση χρήστη συστήµατος. Με ποιους τρόπους θα βελτιώσουµε την ανάκτηση πληροφορίας λαµβάνοντας υπόψη τις προτιµήσεις των χρηστών; Παν. Θεσσαλίας Ανάκτηση Πληροφορίας 2005-2006 20