Εισα ή στην Ανάκτηση Π ηροφορίας

Σχετικά έγγραφα
Ανάκτηση Π ηροφορίας. Συ ραφή Απόστο ος Ν. Παπαδόπου ος Ι άννης Μαν όπου ος Κ νσταντίνος Τσί ας. Κριτικός Ανα νώστης Δημήτριος Κατσαρός

Ανάκτηση Πληροφορίας Εισαγωγή

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Το Διανυσματικό Μοντέ ο

Ανάκτηση πληροφορίας

Το Λο ικό Μοντέ ο. Περιε όμενα Κεφα αίου

Ο Αντεστραμμένος Κατά ο ος

Το Πι ανοκρατικό Μοντέ ο

Αποτίμηση Αποτε εσματικότητας

Ο Κατά ο ος Υπο ραφών

Ανάκτηση Π ηροφορίας στον Πα κόσμιο Ιστό

Παρά η η Δια είριση Δεδομέν ν

Κανονισμός Εποπτικού Συμ ου ίου

Κανονισμός Εκτε εστικής Επιτροπής

Κανονισμός Οικονομικής Δια είρισης

Κανονισμός Διοικητικού Συμ ου ίου

Ορ ανισμός Εσ τερικής Υπηρεσίας

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Π Ε Δ (Π.Ε.Δ.) Ι Ν ΠΕΔ. Κανονισμοί. ΟΕΥ Προσωπικού Διοικητικού Συμβουλίου Εκτελεστικής Επιτροπής Οικονομικής Διαχείρισης Εποπτικού Συμβουλίου

Ανάκτηση Πληροφορίας

Α όρι μοι και Πο υπ οκότητα 1η Σειρά Γραπτών Ασκήσε ν

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Τε νο ο ίας Π ηροφορικής και Υπο ο ιστών. Διπ ματική Ερ ασία

Ανάπτυξη Βι ιο ήκης Γραφικών ια Ενσ ματ μένο Σύστημα

Ανάπτυξη Συστήματος Συστάσε ν Συνερ ατικής Διή ησης με ρήση Ιεραρ ικών Α ορί μ ν Κατάταξης

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Επέκταση του συστήματος ανοι τού κώδικα Pig

Απ ή υ οποίηση α ορί μου Fast Multipole Method ανεξάρτητου συνάρτησης πυρήνα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Σ εδιασμός Συστημάτ ν Ε έ ου

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ε νικό Μετσό ιο Πο υτε νείο. Πρακτικά Συστήματα Συ ο ιστικής ια Εκφραστικές Ασαφείς Περι ραφικές Λο ικές

Εξόρυξη νώσης από μέσα κοιν νικής δικτύ σης: Με έτη περίπτ σης στο Twitter.

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Η εκτρικής Ισ ύος. Διπ ματική Ερ ασία

ΕΠΑΝΑΛΗΠΣΙΚΕ ΑΚΗΕΙ ΜΙΓΑΔΙΚΟΤ-ΟΡΙΑ-ΤΝΕΧΕΙΑ

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Χημικών Μη ανικών. Με έτη και σ εδιασμός με όδ ν Εξόρυξης Δεδομέν ν και εφαρμο ές σε προ ήματα Μετα ο ομικής

Ε νικό Μετσό ιο Πο υτε νείο

Ανάκτηση Πληροφορίας

ἔστω Ο...πισινός μας! American Bar το καναμε για όλους μας. * * * κι από τη Σκιά τους. σε κάθε νησί;

Ανάκτηση Πληροφορίας

ΚΑΝΟΝΙΣ ΜΟ Ι ΙΕΞΑΓΩΓΗΣ ΑΓΩΝΩΝ 1 / 8 SCALE IC TRA CK ΕΛ. Μ. Ε

Ε νικό Μετσό ιο Πο υτε νείο. Διπ ματική Ερ ασία

Πα κ έ τ ο Ε ρ γ α σ ί α ς 4 Α ν ά π τ υ ξ η κ α ι π ρ ο σ α ρ µ ο γ ή έ ν τ υ π ο υ κ α ι η λ ε κ τ ρ ο ν ι κ ο ύ ε κ π α ι δ ε υ τ ι κ ο ύ υ λ ι κ ο

Ανάκτηση πληροφορίας

Ε νικό Μετσό ιο Πο υτε νείο. Α όρι μοι Επανε ραφής Τροποποιημέν ν Ερ τημάτ ν ια Βατές Περι ραφικές Λο ικές

Ε νικό Μετσό ιο Πο υτε νείο

Ανάπτυξη συντακτικού ανα υτή φυσικής ώσσας με ρήση του φορμα ισμού LFG. Πανα ιώτης Μίνος

20/5/ /5/ /5/ /5/2005

Η Αρ ιτεκτονική αναφοράς Μα ησιακών Χώρ ν CROP - Μια πρώτη προσέ ιση

Tη λ.: +30 (210) Fax: +30 (210)

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ε νικό Μετσό ιο Πο υτε νείο Σ ο ή Η εκτρο ό ν Μη ανικών και Μη ανικών Υπο ο ιστών Τομέας Επικοιν νιών, Η εκτρονικής και Συστημάτ ν Π ηροφορικής

Υ οποίηση αντα α ής κ ειδιού DH και ψηφιακών υπο ραφών ασισμένη σε ε ειπτικές καμπύ ες

JEAN-CHARLES BLATZ 02XD RE52755

α κα ρι ι ο ος α α νηρ ος ου ουκ ε πο ρε ε ευ θη εν βου λη η η α α σε ε ε βων και εν ο δω ω α α µαρ τω λω ων ουουκ ε ε ε


ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

αναλυτικός απλός 1 Ο αναλυτικός βλέπει τον κόσμο σαν να αποτελείται από πολλά μικρά κομμάτια.

Βάσεις Δεδομένων. Database Management Systems (DBMS) Συστήματα Διαχείρισης Βάσεων Δεδομένων (ΣΔΒΔ)

υφ υ., Β ί,. υ, Βί φ υ α π ί αμ υ Γ α - α ί υ. α. πί. V ( α μ μ μ α, α α π ία μ ί α πα μ υπ ) π αμ α 8 α, α φ μα α υ α ί υ α Βαφ π. α ί α, π ( α ί), φ

FAX : spudonpe@ypepth.gr) Φ. 12 / 600 / /Γ1

Ανάκτηση Πληροφορίας

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Π α σα πνο η αι νε σα τω τον Κυ ρι. Π α σα πνο η αι νε σα α τω τον. Ἕτερον. Τάξις Ἑωθινοῦ Εὐαγγελίου, Ὀ Ν Ψαλµός. Μέλος Ἰωάννου Ἀ. Νέγρη.

Η κ άσση L A TEX dithesis

Χρήση εναλλακτικών μετρικών για την αποτίμηση της διάδοσης της έρευνας σε επιστημονικά συνέδρια

ΘΕΜΑ: ΔΙΑΡΘΡΩΤΙΚΑ ΧΑ ΡΑ ΚΤ ΗΡ ΙΣ ΤΙ ΚΑ ΤΗΣ ΑΝΕΡΓΙΑΣ - ΠΤΥΧΙΑΚΗ ΕΡΓΑ ΣΙ Α - ΚΑΡΑ ΣΑ ΒΒ ΟΓ ΠΟ Υ ΑΝ ΑΣΤΑΣΙΟΣ

Εικονογραφημένο Λεξικό Το Πρώτο μου Λεξικό

Οι τα α α α α α α α Κ. ε ε ε ε ε ε ε ε ε Χε ε ε. ε ε ε ε ε ε ρου ου βι ι ι ι ι ι ι. ιµ µυ στι κω ω ω ω ω ως ει κο ο

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Πρι τ αρακτηρ οτικ λαπλ ουοτηματα μικρ ετ εξεργατ δ π υ τ

Περιεχόµ εν α. Εισαγω γή. Επ ισκόπ ηση υπ ο βο λής φακέλω ν (IUCLID 5) Επ ισκόπ ηση υπ ο βο λής φακέλω ν (Reach-IT) Ερω τήσεις καιαπ αν τήσεις

ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΠΛΑΤΦΟΡΜΑΣ ΠΑΡΟΧΗΣ ΥΠΗΡΕΣΙΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΕΦΑΡΜΟΓΕΣ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΓΕΩΡΓΙΟΣ ΓΟΥΛΑΣ

ΤΜΗΜΑ ΦΩΚΑ/ΤΕΤΑΡΤΗ

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

Βάσεις Δεδομένων ΙΙ Ενότητα 9

ΣΤΟ ΧΟΣ- Ε ΠΙ ΔΙΩ ΞΗ ΠΛΑΙ ΣΙΟ ΧΡΗ ΜΑ ΤΟ ΔΟ ΤΗ ΣΗΣ

Ε.Ε. Π α ρ.ι(i), Α ρ.3932, 10/12/2004 Ο ΠΕΡΙ ΚΟΙΜΗΤΗΡΙΩΝ (ΤΑΦΗ ΚΑΙ ΕΚΤΑΦΗ) ΝΟΜΟΣ. H Βουλή των Αντιπροσώπων ψηφίζει ως ακολούθως:


Θέ α: ωσ ή ια ροφή και άσκηση ια ο ς εφήβο ς.

ΣΥΜΒΑΣΗ ΜΕΤΑΞΥ ΠΑΡΟΧΟΥ ΚΑΤΑΡΤΙΣΗΣ- ΜΕΛΟΣ ΤΟΥ ΜΗΤΡΩΟΥ ΠΑΡΟΧΩΝ, ΩΦΕΛΟΥΜΕΝΟΥ- ΜΕΛΟΣ ΤΟΥ ΜΗΤΡΩΟΥ ΩΦΕΛΟΥΜΕΝΩΝ ΚΑΙ ΕΠΙΧΕΙΡΗΣΗΣ ΠΡΑΚΤΙΚΗΣ ΑΣΚΗΣΗΣ

Ό λοι οι κα νό νες πε ρί με λέ της συ νο ψί ζο νται στον ε ξής έ να: Μά θε, μό νο προκει μέ νου. Friedrich Schelling. σελ. 13. σελ. 17. σελ.

14/5/ /12/ /5/ /5/2007

Ανάκτηση Δεδομένων (Information Retrieval)


Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας


Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων



Θεωρι α Γραφημα των 2η Δια λεξη

11:30-12:00 ιά ι α 12:00-14:00 ία: Α αιο ο ία αι α ς Α έ ος. ο ισ ς: ά ο ιο. οβο ή βί α ι έ ο ή ο Αθ αίω, Α φιθέα ο «Α ώ ς ί σ ς» Α α ίας

Αρ έ ονα αρυτικά κύματα από τον κοσμο ο ικό π η ρισμό και CMB

1.2.3 ιαρ θρω τι κές πο λι τι κές Σύ στη μα έ λεγ χου της κοι νής α λιευ τι κής πο λι τι κής...37

Ανάκτηση Πληροφορίας

Ανάκτηση πολυμεσικού περιεχομένου

Πανεπιστήμιο Πατρών. Πο υτε νική Σ ο ή Τμήμα Μη ανικών Η/Υ και Π ηροφορικής. Διδακτορική Διατρι ή

Transcript:

1 Εισα ή στην Ανάκτηση Π ηροφορίας Περιε όμενα Κεφα αίου 1.1 Εισα ή............................ 2 1.2 Η Διαδικασία της Ανάκτησης Π ηροφορίας.......... 8 1.2.1 Βασικές Λειτουρ ίες.................. 9 1.2.2 Περιστασιακή Αναζήτηση και Φι τράρισμα Ε ράφ ν 14 1.2.3 Προ ρημένα Θέματα Ανάκτησης Π ηροφορίας.... 16 1.3 Σύ ρονες Τάσεις........................ 17 1.4 Σύνοψη και Περαιτέρ Με έτη................. 19 1.5 Ασκήσεις............................ 20 1

2 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας 1.1 Εισα ή Η Ανάκτηση Πληροφορίας (Information Retrieval) είναι η επιστημονική περιο ή που με ετά τα προ ήματα που σ ετίζονται με την αναπαράσταση, την ορ άν ση και την επεξερ ασία στοι εί ν π ηροφορίας, με στό ο την αποτε- εσματική και αποδοτική πρόσ αση τ ν ρηστών σε αυτά. Αν και η ν στική περιο ή της Ανάκτησης Π ηροφορίας ξεκίνησε με τη με έτη ε ράφ ν κειμένου (text), στη συνέ εια επεκτά ηκε και στη με έτη ά ν τύπ ν δεδομέν ν, κάτι που επι ή ηκε από τις ανά κες τ ν σύ ρον ν εφαρμο ών. Έτσι, σήμερα μπορούμε να ρησιμοποιούμε με όδους ανάκτησης ια την πρόσ αση σε πο υμεσικά δεδομένα (όπ ς: εικόνα, ή ο, ίντεο) κα ώς και σε δεδομένα δια έσιμα μέσ του πα κόσμιου ιστού (world wide web). Λό της ποικι ομορφίας τ ν τύπ ν δεδομέν ν στα οποία μπορεί να έ ει ταυτό ρονα πρόσ αση ο ρήστης, ε ρούμε στη συνέ εια ότι η κά ε είδους π ηροφορία είναι ενικώς απο ηκευμένη με τη μορφή εγγράφων (documents). Θα ε ρήσουμε ότι ο όρος έ ραφο είναι ισοδύναμος με τον όρο έ ραφο κειμένου (text document). Ο ενδιαφερόμενος ανα νώστης μπορεί να ανατρέξει στη διε νή ι ιο ραφία σ ετικά με την ανάκτηση ά ν τύπ ν δεδομέν ν, όπ ς εικόνα, ή ο και ίντεο. Στο κεφά αιο αυτό, α προσπα ήσουμε να δώσουμε μία ενική εικόνα της ν στικής περιο ής της Ανάκτησης Π ηροφορίας περι ράφοντας τις ασικές έννοιες και δίνοντας συνοπτικά τα έματα που διαπρα ματευόμαστε στη συνέ εια του ι ίου σε με α ύτερο ά ος. Έστ ότι έ ουμε στη διά εσή μας ένα Σύστημα Ανάκτησης Πληροφορίας (ΣΑΠ) που δια ειρίζεται αρ εία με έ ραφα κειμένου σ ετικά με το διάστημα κ δικός όνομα διάμετρος ( μ) δορυφόροι 1 Ερμής 4880 0 2 Αφροδίτη 12103.6 0 3 Γη 12756.3 1 4 Άρης 6794 2 5 Δίας 142984 63 6 Κρόνος 120536 34 7 Ουρανός 51118 21 8 Ποσειδώνας 49532 13 9 Π ούτ νας 2274 3 Πίνακας 1.1: Πίνακας πλανητών.

1.1. Εισαγωγή 3 d 1 : d 2 : d 3 : d 4 : d 5 : d 6 : d 7 : Ο κομήτης του Χά εϋ μας επισκέπτεται περίπου κά ε ε δομήντα έξι ρόνια. Ο κομήτης του Χά εϋ ανακα ύφ ηκε από τον αστρονόμο Έντμοντ Χά εϋ. Ένας κομήτης δια ράφει ε ειπτική τρο ιά. Ο π ανήτης Άρης έ ει δύο φυσικούς δορυφόρους, το Δείμο και το Φό ο. Ο π ανήτης Δίας έ ει εξήντα τρεις ν στούς φυσικούς δορυφόρους. Ο Ή ιος είναι ένας αστέρας. Ο Άρης είναι ένας π ανήτης του η ιακού μας συστήματος. Σχήμα 1.1: Συλλογή εγγράφων. και ένα Σύστημα Διαχείρισης Βάσεων Δεδομένων (ΣΔΒΔ) που επίσης απο ηκεύει δεδομένα σ ετικά με το διάστημα. Οι δυνατότητες που έ ει το ΣΑΠ είναι εντε ώς διαφορετικές από αυτές του ΣΔΒΔ (αν και υπάρ ουν ήδη υ οποιήσεις που ρησιμοποιούν τε νικές και από τις δύο περιο ές με στό ο την κα ύτερη εξυπηρέτηση τ ν ρηστών). Ας ε ρήσουμε το ακό ου ο ερώτημα: Να βρεθούν οι πλανήτες του ηλιακού μας συστήματος που έχουν κανέναν, έναν ή δύο φυσικούς δορυφόρους. Το ασικό αρακτηριστικό του ερ τήματος αυτού είναι ότι είναι σαφές, και επομέν ς α έ αμε από το σύστημα μια σαφή απάντηση που να κα- ύπτει π ήρ ς το ερώτημα του ρήστη. Το ερώτημα αυτό μπορεί να απαντη εί πο ύ εύκο α από ένα ΣΔΒΔ, αρκεί να υπάρ ει η π ηροφορία σ ετικά με τον αρι μό τ ν δορυφόρ ν που έ ει ο κά ε π ανήτης. Για παράδει μα, αν υπάρ ουν στο σύστημα τα δεδομένα του Πίνακα 1.1, τότε μπορούμε να διατυπώσουμε το προη ούμενο ερώτημα με το εξής ερώτημα SQL: SELECT όνομα FROM π ανήτες WHERE δορυφόροι = 0 OR δορυφόροι = 1 OR δορυφόροι = 2 Ας εξετάσουμε τώρα ένα ά ο ερώτημα η απάντηση του οποίου δεν είναι και τόσο προφανής όσο του προη ούμενου: Να βρεθούν πληροφορίες σχετικές με τον κομήτη του Χάλλεϋ. Το ερώτημα αυτό δεν προσδιορίζει κάποια συ κεκριμένη π ηροφορία που πρέπει να επιστραφεί στο ρήστη. Σε αντί εση με το προη ούμενο ερώτημα, το ερώτημα αυτό είναι ι ότερο σαφές ς προς το αποτέ εσμα. Ένα τέτοιο ερώτημα δεν μπορεί να απαντη εί από ένα τυπικό ΣΔΒΔ και επομέν ς, απαιτούνται διαφορετικοί μη ανισμοί ορ άν σης και επεξερ ασίας τ ν δεδομέν ν με στό ο την αποτε εσματική και αποδοτική επεξερ ασία τ ν ερ τημάτ ν τ ν ρηστών. Έστ ότι υπάρ ουν επτά διαφορετικά έ ραφα, με κ δικούς d 1,

4 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας d 2, d 3, d 4, d 5, d 6 και d 7 τα περιε όμενα τ ν οποί ν δίνονται στο Σ ήμα 1.1. Με άση τα περιε όμενα τ ν ε ράφ ν, ανα ν ρίζουμε ότι τα έ ραφα d 1 και d 2 είναι αυτά που σ ετίζονται περισσότερο με το ερώτημα, ενώ το d 3 σ ετίζεται ι ότερο ιατί αναφέρεται μεν σε κομήτες α ά ό ι στον κομήτη του Χά εϋ. Τέ ος, το έ ραφο d 4 δεν σ ετίζεται κα ό ου με το ερώτημα, κα ώς αναφέρεται στον π ανήτη Άρη και στους δορυφόρους του. Ένα ΣΑΠ είναι κατα η ότερο ια την επεξερ ασία του δεύτερου ερ τήματος, ενώ ένα ΣΔΒΔ είναι πιο κατά η ο ια την επεξερ ασία του πρώτου. Αν και υπάρ ουν συστήματα που ειτουρ ούν ταυτό ρονα και ς ΣΔΒΔ και ς ΣΑΠ, α ε ρήσουμε ότι οι δύο κατη ορίες συστημάτ ν είναι διακριτές. Πρά ματι, τα ν στικά αντικείμενα τ ν Βάσε ν Δεδομέν ν και της Ανάκτησης Π ηροφορίας αναπτύ ηκαν παρά η α, κυρί ς ό τ ν διαφορών στα δεδομένα: ενώ τα ΣΔΒΔ δια ειρίζονται π ήρ ς δομημένα δεδομένα (structured data) με τη μορφή ε ραφών, τα ΣΑΠ δια ειρίζονται αδόμητα δεδομένα (unstructured data) ή ημι-δομημένα δεδομένα (semi-structured data). Η ασική αυτή διαφοροποίηση οδή ησε τους ερευνητές τ ν δύο κατευ ύνσε ν να με ετήσουν διαφορετικά προ ήματα που οφεί ονται στην αναπαράσταση, ορ άν ση και επεξερ ασία τ ν δεδομέν ν. Στον Πίνακα 1.2 παρουσιάζονται μερικές από τις ασικότερες διαφορές μεταξύ ενός ΣΔΒΔ και ενός ΣΑΠ. Ας εξετάσουμε τις διαφορές αυτές πιο προσεκτικά: Ένα ΣΔΒΔ δια ειρίζεται δεδομένα που είναι απο ηκευμένα σε εγγραφές (records). Για παράδει μα, ένας π ανήτης μπορεί να αναπαραστα εί με μία ε ραφή τη μορφής όνομα, διάμετρος, αρ_δορυφόρων. Τα στοι εία όνομα, διάμετρος και αρ_δορυφόρων κα ούνται πεδία της ε ραφής. Επομέν ς, ό α τα δεδομένα που είναι απο ηκευμένα στη άση α πρέπει να έ ουν την ίδια μορφή. Βέ αια, σε ένα ΣΔΒΔ σπάνια τα δεδομένα είναι απο ηκευμένα σε ένα μόνο πίνακα. Στην πρα ματικότητα υπάρ ει ένα σύ- αρακτηριστικό ΣΔΒΔ ΣΑΠ είδος δεδομέν ν απο ύτ ς δομημένα αδόμητα, ημι-δομημένα τύπος δεδομέν ν αρι μητικά, α φαρι μητικά έ ραφα ώσσα ερ τημάτ ν SQL,QBE έξεις-κ ειδιά ή φυσική ώσσα ερώτημα σαφές ασαφές ταύτιση απάντησης επακρι ής μερική αποτε έσματα ρίς α μο ό ηση α μο ο ημένα Πίνακας 1.2: Βασικές διαφορές μεταξύ ΣΔΒΔ και ΣΑΠ.

1.1. Εισαγωγή 5 νο ο πινάκ ν που ορίζει τα δεδομένα και τις σ έσεις μεταξύ τους. Είναι προφανές, ότι τα δεδομένα ενός ΣΔΒΔ έ ουν μία συ κεκριμένη μορφή (δομή). Αντι έτ ς, σε ένα ΣΑΠ δεν είναι απαραίτητη η ύπαρξη δομής στα δεδομένα. Τα δεδομένα είναι απο ηκευμένα με τη μορφή ε ράφ ν που περιέ ουν ε έυ ερο κείμενο και επομέν ς δεν αρακτηρίζονται από συ κεκριμένη δομή. Σε ένα ΣΔΒΔ, σε ένα πεδίο μίας ε ραφής απο ηκεύεται μία αρι μητική ή α φαρι μητική τιμή, που έ ει συνή ς περιορισμένο μήκος. Αντι έτ ς, το μέ ε ος του κά ε ε ράφου δεν περιορίζεται, ενώ το περιε όμενό του μπορεί να είναι διαφορετικό ανά ο α με την εφαρμο ή. Αξίζει να σημει - εί ότι τα περισσότερα ΣΔΒΔ υποστηρίζουν τη δυνατότητα απο ήκευσης με ά ν αντικειμέν ν, οπότε α μπορούσαν να ρησιμοποιη ούν ια τη δια είριση ε ράφ ν. Ωστόσο, η δυνατότητα απο ήκευσης ε ράφ ν είναι ένα μόνο από τα αρακτηριστικά ενός ΣΑΠ. Προη ουμέν ς, είδαμε ότι διαφορετικά διατυπώνεται ένα ερώτημα σε ένα ΣΔΒΔ και διαφορετικά σε ένα ΣΑΠ. Στην πρώτη περίπτ ση ο ρήστης επικοιν νεί με το ΣΔΒΔ είτε διατυπώνοντας ένα ερώτημα σε μία ώσσα ερ τημάτ ν όπ ς είναι η SQL, είτε συμπ ηρώνει κάποια φόρμα ενώ στη συνέ εια το ερώτημα μετατρέπεται σε SQL ρίς την παρέμ αση του ρήστη. Αντί ετα, ια τη διατύπ ση ενός ερ τήματος σε ένα ΣΑΠ ρησιμοποιείται φυσική ώσσα. Στην πιο απ ή μορφή του ένα ερώτημα απαρτίζεται από ένα μικρό σύνο ο όρ ν που εκφράζουν την π ηροφοριακή ανά κη του ρήστη (π.. ο π ανήτης Δίας). Η διατύπ ση ενός ερ τήματος με μία ώσσα ερ τημάτ ν όπ ς η SQL περιορίζεται από τους κανόνες της ώσσας, ενώ τα ερ τήματα που απευ- ύνονται σε ένα ΣΔΒΔ αρακτηρίζονται από σαφήνεια. Για παράδει μα, το ερώτημα SQL που είδαμε προη ουμέν ς αναφέρεται με σαφήνει ια το ποια αποτε έσματα επι υμεί ο ρήστης στην έξοδο (συν ήκη WHERE). Στην περίπτ ση ενός ΣΑΠ, η απ ή περά εση μερικών όρ ν ή μίας παρα ράφου δεν είναι ικανή να προσδιορίσει με ακρί εια την π ηροφοριακή ανά κη του ρήστη. Βέ αια, υπάρ ουν μοντέ α ανάκτησης στα οποία δη ώνεται με ακρί εια το είδος της απάντησης (π.. το ο ικό μοντέ ο) όμ ς τα περισσότερα μοντέ α προσπα ούν να προσδιορίσουν το α μό ομοιότητας τ ν ε ράφ ν με το ερώτημα. Αυτό σημαίνει ότι η ταύτιση του ε ράφου με το ερώτημα μπορεί να είναι μερική (partial match). Για παράδει μα, έστ ότι ένας ρήστης εκφράζει την π ηροφοριακή του ανά κη ρησιμοποιώντας τους όρους Δίας, Κρόνος. Αν το ΣΑΠ δια ειρίζεται τη συ ο ή ε ράφ ν του Σ ήματος 1.1 τότε προφανώς δεν υπάρ ει κάποιο έ ραφο

6 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας που να περιέ ει και τους δύο όρους του ερ τήματος. Στην περίπτ ση αυτή α μπορούσε να τερματιστεί η αναζήτηση ρίς κα ό ου αποτε έσματα. Όμ ς, αν και δεν υπάρ ουν αποτε έσματα ια τον π ανήτη Κρόνο, υπάρ- ουν έ ραφα σ ετικά με τον π ανήτη Δία. Παρατηρούμε ότι σε αντί εση με ένα ερώτημα σε ένα ΣΔΒΔ το ερώτημα προς ένα ΣΑΠ αρακτηρίζεται από ασάφεια σ ετικά με την εμφάνιση τ ν όρ ν στα έ ραφα. Τα αποτε έσματα που αφορούν ένα ερώτημα SQL αποτε ούν ένα σύνο ο ε ραφών ια τα οποία δεν ορίζεται κάποια α μο ό ηση. Εξαίρεση αποτε- ούν τα ερ τήματα που περιέ ουν την έκφραση ORDER BY και τα οποία εμφανίζουν τα αποτε έσματα ταξινομημένα κατά αύξουσα ή φ ίνουσα διάταξη με άση κάποιο πεδίο (ή πεδία). Ωστόσο, δεν μπορούμε να προσδιορίσουμε κάποια ε ραφή που να είναι περισσότερο σ ετική ς προς το ερώτημα σε σ έση με κάποια ά η. Για την ακρί εια, μία ε ραφή είτε α ικανοποιεί τις συν ήκες του ερ τήματος είτε ό ι. Σε ένα ΣΑΠ στόσο, μπορούμε να προσδιορίσουμε το α μό ομοιότητας ενός ε ράφου ς προς το ερώτημα. Άρα, τα αποτε έσματα ενός ερ τήματος μπορούν να εμφανιστούν στο ρήστη με φ ίνουσα διάταξη ς προς το α μό ομοιότητας. Η σ ετικότητα ενός ε ράφου ς προς τα ενδιαφέροντα ενός ρήστη μπορεί να διαπιστ εί σ ετικά εύκο α αν ο ρήστης δια άσει προσεκτικά το έ ραφο. Ο αν ρώπινος ε κέφα ος μπορεί ρή ορα να αποφαν εί αν ένα έ ραφο είναι σ ετικό ή ό ι. Για την περίπτ ση της μικρής συ ο ής ε ράφ ν του Σ ήματος 1.1, η με έτη ό ν τ ν ε ράφ ν είναι εύκο η υπό εση τόσο ιατί τα έ ραφα είναι ί α όσο και ιατί το κά ε έ ραφο αποτε είται από πο ύ ί ες έξεις. Με ποιόν τρόπο όμ ς α μπορέσουμε να διακρίνουμε τα σ ετικά έ ραφα ανάμεσα σε αρκετές ι ιάδες ε ράφ ν που μπορεί να αποτε ούνται από πο ές ι ιάδες έξεις το κα ένα; Δυστυ ώς η τεράστια ποσότητα π ηροφορίας είναι ο κανόνας και ό ι η εξαίρεση. Για παράδει μα, με τη οή εια του πα κόσμιου ιστού έ ουμε πρόσ αση σε με ά ες ποσότητες π ηροφορίας και ρίς τα κατά η α ερ α εία, η π ηροφορία αυτή παραμένει ανεκμετά ευτη. Επίσης, υπάρ ουν με ά ες ποσότητες π ηροφορίες απο ηκευμένες σε η εκτρονικές ι ιο ήκες. Χ ρίς τους κατά η ους μη ανισμούς ανάκτησης, το μόνο που α μπορούσαμε να εφαρμόσουμε είναι η σειριακή εξέταση τ ν ε ράφ ν με σκοπό τον προσδιορισμό τ ν σ ετικών ε ράφ ν ς προς τα ενδιαφέροντα του ρήστη. Όπ ς είναι προφανές, κάτι τέτοιο δεν είναι εφικτό. Στο σημείο αυτό έρ εται να οη ήσει η Ανάκτηση Π ηροφορίας που προσφέρει αποδοτικές και αποτε εσματικές με όδους ορ άν σης δεδομέν ν και επεξερ ασίας ερ τημάτ ν με στό ο τον αυτοματοποιημένο και συστηματικό προσδιορισμό της σ ετικής π ηροφορίας ς προς τις π ηροφοριακές ανά κες τ ν ρηστών.

1.1. Εισαγωγή 7 Πριν προ ρήσουμε σε περισσότερες επτομέρειες κρίνεται σκόπιμη μία συνοπτική παρουσίαση μερικών εκ τ ν σημαντικότερ ν ε ονότ ν στο ώρο της Ανάκτησης Π ηροφορίας: 1890 Χρήση καρτών Hollerith από το Γραφείο Π η υσμιακής Απο ραφής τ ν ΗΠΑ (US Census Bureau). 1950 Πρ τοεμφανίζεται ο όρος Ανάκτηση Πληροφορίας. 1960 Η δημοσίευση της ερ ασίας τ ν Maron και Kuhns [4] σ ετικά με τη ρήση πι ανοτήτ ν στην Ανάκτηση Π ηροφορίας. 1962 Δημοσιεύονται οι πρώτες με έτες του William Cleverdon σ ετικά με τα πειράματα Cranfield. 1968 Δημοσιεύεται το ι ίο του Gerand Salton με τίτ ο Automatic Information Organization and Retrieval. 1969 Δημοσιεύεται η ερ ασία του John W. Sammon Jr. [13] που αποτέ εσε την πρώτη πρόταση ια τη ρήση οπτικοποιημένης διεπαφής με συστήματα ανάκτησης. 1971 Εκδίδεται το ι ίο του Gerand Salton ια το σύστημα SMART [4]. 1975 Δημοσιεύεται η ερ ασία [6] από την ομάδα του Salton σ ετικά με το Διανυσματκό μοντέ ο ανάκτησης. 1978 Διορ ανώνεται το πρώτο συνέδριο SIGIR (Rochester, New York). 1979 Εκδίδεται το ι ίο του Van Rijsbergen με τίτ ο Information Retrieval [7]. 1983 Δημοσιεύεται η ερ ασία τ ν Salton, Fox και Wu [5] σ ετικά με την επέκταση του Λο ικού μοντέ ου. 1989 Δημιουρ ία του Παρκόσμιου Ιστού από τον Sir Tim Berners-Lee. 1992 Διορ ανώνεται το πρώτο συνέδριο TREC (Gaithersburg, Maryland). 1993 Κατασκευή του φυ ομετρητή Mosaic. 1994 Κατασκευάζονται οι μη ανές αναζήτησης Lycos, Infoseek και AltaVista και δημιουρ είται ο φυ ομετρητής Netscape Navigator.

8 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας 1995 Ιδρύεται η εταιρία Yahoo!. 1998 Ιδρύεται η εταιρία Google Inc. 1999 Ο Sir Tim Berners-Lee εισά ει την έννοια του σημασιολογικού ιστού (semantic web). 2008 Η Yahoo! ανακοινώνει ότι υιο ετεί μερικές από τις τε νο ο ικές εξε ίξεις του σημασιο ο ικού ιστού. Στη συνέ εια παρουσιάζονται τα ασικότερα έματα που αφορούν στη διαδικασία της Ανάκτησης Π ηροφορίας, περι ράφεται η ενική αρ ιτεκτονική ενός ΣΑΠ και συζητούνται έματα που αφορούν σε προ ρημένες τε νικές και σύ - ρονες ερευνητικές τάσεις. 1.2 Η Διαδικασία της Ανάκτησης Π ηροφορίας Ένα ΣΑΠ έ ει δύο ασικούς στό ους. Ο πρώτος έ ει να κάνει με την ποιότητα και επάρκεια τ ν αποτε εσμάτ ν, δη αδή την αποτελεσματικότητα (effectiveness), ενώ ο δεύτερος σ ετίζεται με την τα ύτητα ανάκτησης της ζητούμενης π ηροφορίας, δη αδή την απόδοση (efficiency). Αν και υπάρ ουν περιπτώσεις όπου η αποτε εσματικότητα ή η απόδοση παίζει με α ύτερο ρό ο, μας ενδιαφέρει η ανάπτυξη ενός ΣΑΠ που να είναι δυνατό και στα δύο αυτά αρακτηριστικά. Εδώ παρατηρούμε ια ά η μια φορά τη διαφορά μεταξύ ΣΑΠ και ΣΔΒΔ. Για ένα ΣΔΒΔ δεν τί εται έμα αποτε εσματικότητας διότι ε ρούμε εκ τ ν προτέρ ν ότι τα αποτε έσματα προσδιορίζονται με μοναδικό τρόπο. Με ά α ό ια, δύο ΣΔΒΔ που περιέ ουν ακρι ώς τα ίδια δεδομένα α δώσουν τα ίδια αποτε έσματα ια το ίδιο ερώτημα (στη ενική περίπτ ση σε διαφορετικό ρόνο). Κάτι τέτοιο όμ ς δεν ισ ύει στην περίπτ ση τ ν ΣΑΠ. Δύο διαφορετικά ΣΑΠ ενδέ εται να δώσουν διαφορετικά αποτε έσματα ια το ίδιο ερώτημα. Θε ρήστε ς παράδει μα δύο δημοφι είς μη ανές αναζήτησης στον πα κόσμιο ιστό, τη μη ανή Yahoo! και τη μη ανή Google. Αν δοκιμάσουμε να δώσουμε το ίδιο ερώτημα στις μη ανές αυτές α πάρουμε διαφορετικά αποτε έσματα. Η αποτίμηση τ ν αποτε εσμάτ ν της διαδικασίας ανάκτησης είναι ένα από τα ασικά προ ήματα της ν στικής περιο ής. Ωστόσο, α πρέπει να τονιστεί ότι ειδικά ια την περίπτ ση του Web, η διαφορετικότητα τ ν απαντήσε ν μπορεί επίσης να οφεί εται και στο ε ονός ότι οι δύο μη ανές μπορεί να μην έ ουν συ έξει το ίδιο σύνο ο ιστοσε ίδ ν. Ένα ΣΑΠ δέ εται ένα ερώτημα από κάποιον ρήστη, το οποίο εκφράζει την ανά κη ια π ηροφορία σ ετικά με κάποιο έμα (όπ ς ια παράδει μα το ερώτημα

1.2. Η Διαδικασία της Ανάκτησης Πληροφορίας 9!"! ## $ Σχήμα 1.2: Επικοινωνία μεταξύ χρήστη και ΣΑΠ. που έ ουμε αναφέρει προη ουμέν ς σ ετικά με τον κομήτη του Χά εϋ). Στη συνέ εια, το σύστημα προσδιορίζει τη ζητούμενη π ηροφορία και την επιστρέφει στο ρήστη. Η διαδικασία αυτή παρουσιάζεται στο Σ ήμα 1.2 όπου φαίνεται ο τρόπος επικοιν νίας ενός ρήστη με ένα σύστημα Ανάκτησης ΠΛηροφορίας. Τα έ ραφα που απαρτίζουν την απάντηση είναι συνή ς ταξινομημένα σε φ ίνουσα διάταξη ς προς το α μό ομοιότητας με το ερώτημα. Ο προσδιορισμός τ ν σ ετικών ς προς το ερώτημα ε ράφ ν είναι μία πο ύπ οκη διαδικασία η οποία κα είται αναζήτηση (searching) και α πρέπει να εκτε είται ρή ορα. Μία δεύτερη ασική ειτουρ ία που επιτρέπει την α η επίδραση μεταξύ ρήση και ΣΑΠ είναι η περιήγηση (browsing), κατά την οποία ο ρήστης μπορεί να εξερευνήσει τα έ ραφα της συ ο ής ένα προς ένα, ανά εματική ενότητα ή να ρησιμοποιήσει τους πι ανούς συνδέσμους μεταξύ τ ν ε ράφ ν, όπ ς ια παράδει μα στη δια είριση ε ράφ ν τύπου HTML, ώστε να μετα εί από το ένα έ ραφο στο ά ο. Η αναζήτηση και η περιή ηση πο ές φορές ειτουρ ούν συνερ ατικά, κα ώς μπορεί ο ρήστης να ρησιμοποιήσει την αναζήτηση ια να εντοπίσει ένα υποσύνο ο τ ν ε ράφ ν της συ ο ής και στη συνέ εια να συνε ίσει ρησιμοποιώντας την περιή ηση ια τη με έτη τ ν αποτε εσμάτ ν. 1.2.1 Βασικές Λειτουρ ίες Τα τμήματα της διαδικασίας της Ανάκτησης Π ηροφορίας παρουσιάζονται δια ραμματικά στο Σ ήμα 1.3 και α ανα υ ούν συνοπτικά στη συνέ εια, ενώ στα επόμενα κεφά αια α με ετήσουμε διεξοδικά τις ειτουρ ίες που αυτά εκτε- ούν. Ο κά ε ρήστης του ΣΑΠ επικοιν νεί με το σύστημα με τη οή εια κάποιας διεπαφής. Για παράδει μα, στην περίπτ ση μίας μη ανής αναζήτησης, η διεπαφή

10 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας Έγγραφο Ερωτήµατος Νέα Έγγραφα Ερώτηµα Χρήστης Ανάδραση Προεπεξεργασία Εγγράφου Ερωτήµατος Προεπεξεργασία Εγγράφου Επαναπροσδιορισµός Ερωτήµατος Αναζήτηση Σχετικών Εγγράφων Ενηµέρωση Καταλόγου Βαθµολόγηση Εγγράφων Παραγωγή και Μορφοποίηση Αποτελεσµάτων Κατάλογος Έγγραφα Σχήμα 1.3: Η διαδικασία της Ανάκτησης Πληροφορίας. είναι ο φυ ομετρητής (browser) του ρήστη, ο οποίος συνδέεται με το ΣΑΠ μέσ του πρ τοκό ου HTTP. Επίσης, η διεπαφή μπορεί να εξαρτάται από το σύστημα, όπ ς ια παράδει μα αν πρόκειται ια μία εφαρμο ή client-server, η οποία επι ά ει την ε κατάσταση ειδικού ο ισμικού στο τερματικό του ρήστη. Οποιαδήποτε και αν είναι η διεπαφή, μέσ αυτής ο ρήστης έ ει τη δυνατότητα να ρησιμοποιεί το ΣΑΠ σε συνάρτηση με τα δικαιώματα ρήσης που αυτός έ ει. Δύο είναι οι ασικές ειτουρ ίες στις οποίες ένας ρήστης μπορεί να έ ει πρόσ αση: (α) η υπο ο ή ενός ερ τήματος (ανά κη ια π ηροφορία), και ( ) η υπο ο ή ενός νέου ε ράφου προς απο ήκευση. Προφανώς, ια τη δεύτερη ειτουρ ία α πρέπει ο ρήστης να έ ει και ανά ο α δικαιώματα. Συνή ς, δικαί μα κατα ώρισης νέ ν ε ράφ ν έ ουν μόνο εξουσιοδοτημένοι ρήστες που

1.2. Η Διαδικασία της Ανάκτησης Πληροφορίας 11 είναι υπεύ υνοι ια τα περιε όμενα του ΣΑΠ. Σε περίπτ ση που ο ρήστης επι- υμεί να κατα ρίσει ένα νέο έ ραφο, τότε το έ ραφο αυτό υπο ά εται στη διαδικασία της προεπεξερ ασίας ώστε να μετατραπεί σε μία μορφή κατά η η ια την εσ τερική του αναπαράσταση στο ΣΑΠ. Όπ ς α με ετήσουμε στη συνέ εια, η προεπεξερ ασία αυτή μπορεί να αφορά στην απα οιφή κάποι ν έξε ν που δεν μεταφέρουν σημαντική ποσότητα π ηροφορίας (π.. άρ ρα). Αν κατα- ριστεί ένα νέο έ ραφο, τότε α πρέπει να ενημερ εί ένα ζ τικό μέρος του ΣΑΠ που κα είται κατάλογος (catalogue) ή ευρετήριο (index) και το οποίο είναι υπεύ υνο ια τη ρή ορη αναζήτηση έξε ν με στό ο τον προσδιορισμό τ ν σ ετικών ς προς το ερώτημα ε ράφ ν. Επειδή τα περιε όμενα του κατα ό ου είναι σε άμεση συνάρτηση με τα περιε όμενα τ ν ε ράφ ν, κά ε φορά που μετα ά ονται τα περιε όμενα τ ν ε ράφ ν (π.. εισα ή νέου ε ράφου) α πρέπει να υπάρ ει αντίστοι η ενημέρ ση του κατα ό ου. Έστ τώρα ότι ο ρήστης υπο ά ει κάποιο ερώτημα προς το ΣΑΠ. Το ερώτημα ενός ρήστη συνή ς εκφράζεται με τον προσδιορισμό μερικών έξε ν, και ίσ ς με κάποιους τε εστές. Στο προη ούμενο παράδει μα, η αναζήτηση ε ράφ ν σ ετικών με τον κομήτη του Χά εϋ α μπορούσε να εκφραστεί ς: Q = {κομήτης,χά εϋ} Αυτή είναι η πιο ενική μορφή ενός ερ τήματος και ς απάντηση δε όμαστε έ ραφα που περιέ ουν και τις δύο ή μία από τις δύο έξεις. Επομέν ς, στην περίπτ ση αυτή υπονοείται η ρήση του ο ικού τε εστή OR μεταξύ τ ν έξε ν του ερ τήματος. Σε μερικές περιπτώσεις μπορεί να έ ουμε να ρησιμοποιήσουμε τον τε εστή AND μεταξύ τ ν έξε ν. Για παράδει μα, αν στην απάντηση έ ουμε μόνο έ ραφα που περιέ ουν και τις δύο έξεις, τότε το ερώτημα α μπορούσε να εκφραστεί ς: Q = κομήτης AND Χά εϋ Σε περίπτ ση που στο ερώτημα υπάρ ουν πο ές έξεις, τότε μπορεί να ίνει η ρήση τ ν ο ικών τε εστών AND, OR και NOT (μαζί με παρεν έσεις) ια τη διατύπ ση πιο πο ύπ οκ ν ερ τημάτ ν. Στη συνέ εια του ι ίου α με ετήσουμε μη ανισμούς ανάκτησης που επιτρέπουν τη διατύπ ση τέτοι ν ερ τημάτ ν. Επίσης, ο μη ανισμός ανάκτησης είναι αυτός που κα ορίζει και τον τρόπο αναπαράστασης τ ν ε ράφ ν. Συνή ς ρησιμοποιούνται ειδικές αναπαραστάσεις τ ν ε ράφ ν με στό ο την αποτε εσματική και αποδοτική επεξερ ασία τ ν ερ τημάτ ν. Από τους μη ανισμούς ανάκτησης που έ ουν προτα εί στη ι-

12 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας ιο ραφία, στα επόμενα κεφά αια α εστιάσουμε στους εξής: Λο ικό Μοντέ ο, Διανυσματικό Μοντέ ο, Πι ανοτική Ανάκτηση Π ηροφορίας, και LSI (Latent Semantic Indexing). Το ερώτημα του ρήστη α υποστεί και αυτό κάποια προεπεξερ ασία που εξαρτάται και από την προεπεξερ ασία που εφαρμόζεται στα απο ηκευμένα έ - ραφα. Για παράδει μα, αν δεν αμ άνουμε υπόψη τα άρ ρα τότε α πρέπει αυτά να δια ραφούν από το ερώτημα του ρήστη. Το προεπεξερ ασμένο ερώτημα οδη- είται προς εκτέ εση με στό ο την εύρεση τ ν σ ετικών ε ράφ ν ς προς αυτό. Στη φάση αυτή ο κατά ο ος παίζει πο ύ σημαντικό ρό ο, κα ώς μας οη ά στον προσδιορισμό τ ν ε ράφ ν που περιέ ουν τους όρους του ερ τήματος. Χ ρίς τη ρήση του κατα ό ου, α έπρεπε να αναζητήσουμε τους όρους του ε ράφου σε ό α τα απο ηκευμένα έ ραφα με σειριακό τρόπο. Επομέν ς, η ρήση του κατα ό ου οδη εί σε πιο αποδοτική αναζήτηση. Ο κατά ο ος που ρησιμοποιείται συνή ς στα συστήματα Ανάκτησης Π ηροφορίας είναι ο αντεστραμμένος κατάλογος (inverted index), ο οποίος αντιστοι εί σε κά ε έξη τα έ ραφα που την περιέ ουν, και τις έσεις μέσα στο έ ραφο όπου αυτές εμφανίζονται. λεξικό ο κοµήτης του Χάλλεϋ µας επισκέπτεται κάθε λίστες εµφανίσεων (d 1, 1), (d 2, 1), (d 4, 1) (d 1, 3), (d 2, 29), (d 3, 3) (d 1, 11) (d 1, 15), (d 2, 3) (d 1, 17) (d 1, 21) (d 1, 34) Σχήμα 1.4: Τμήμα αντεστραμμένου καταλόγου για τα έγγραφα του Σχήματος 1.1. Στο Σ ήμα 1.4 δίνεται ένα μέρος του αντεστραμμένου κατα ό ου που αντιστοι εί στα έ ραφα που εμφανίζονται στο Σ ήμα 1.1. Ο αντεστραμμένος κατά ο ος αποτε είται από δύο τμήματα, το λεξικό (lexicon), το οποίο αποτε είται από ό ες τις έξεις που εμφανίζονται στα έ ραφα και τις λίστες εμφανίσεων (occurrence lists ή posting lists), οι οποίες περιέ ουν την π ηροφορία εμφάνισης τ ν έξε ν στα έ ραφα. Για παράδει μα, η έξη κομήτης εμφανίζεται στο έ ραφο d 1 στη έση 3, στο έ ραφο d 2 στη έση 29 και στο έ ραφο d 3 στη έση 3 ( ε ρώντας ότι η αρί μηση τ ν έσε ν στο έ ραφο αρ ίζει από το 1 και κά ε αρακτήρας κατα αμ άνει μία έση στο έ ραφο). Η κά ε ίστα εμφανίσε ν είναι ένα σύνο ο από εμφανίσεις έξε ν. Το σύμ ο ο [d x, θ] σημαίνει

1.2. Η Διαδικασία της Ανάκτησης Πληροφορίας 13 ότι η έξη ρίσκεται στη έση θ του ε ράφου d x. Μερικές υ οποιήσεις αντεστραμέν ν κατα ό ν μπορεί να περιέ ουν και ά ες σημαντικές π ηροφορίες, όπ ς ια παράδει μα τη συχνότητα εμφάνισης (frequency of occurrence) κά ε έξης στα έ ραφα της συ ο ής. Στην πιο απ ή του μορφή, ο αντεστραμμένος κατά ο ος περιέ ει ια κά ε όρο το π ή ος τ ν ε ράφ ν που αυτός περιέ εται και τους κ δικούς αρι μούς τ ν ε ράφ ν αυτών. Ο αντεστραμμένος κατά ο ος α πρέπει να υ οποιη εί με κατά η ο τρόπο ώστε η αναζήτηση τ ν έξε ν στα έ ραφα να ίνεται αποδοτικά. Για το ό ο αυτό ρησιμοποιούνται ειδικές τε νικές ια την ορ άν ση του εξικού και τη συμπίεση τ ν ιστών εμφανίσε ν. Για παράδει μα, το εξικό μπορεί να ορ αν - εί με τη ρήση ενός B-δένδρου ή με τη ρήση πίνακα κατακερματισμού, ώστε να έ ουμε ρή ορη πρόσ αση στη ίστα εμφανίσε ν κάποιας έξης. Μορφές ορ άν σης του εξι ο ίου κα ώς επίσης και με όδους ορ άν σης τ ν ιστών εμφανίσε ν α με ετήσουμε σε επόμενα κεφά αια. Επίσης, α με ετήσουμε και ά ες με όδους ορ άν σης και αναζήτησης, όπ ς ια παράδει μα κατα ό ους που ασίζονται στη ρήση υπο ραφών (signatures). Μετά τον προσδιορισμό τ ν σ ετικών ε ράφ ν με τη οή εια του κατα ό- ου, ακο ου εί η διαδικασία της α μο ό ησης και της ταξινόμησης τ ν ε ράφ ν. Η α μο ό ηση τ ν ε ράφ ν έ ει ς στό ο τον προσδιορισμό μίας τιμής ια κά ε έ ραφο, η οποία δη ώνει τη σ ετικότητα του ε ράφου ς προς το ερώτημα του ρήστη. Ο α μός σ ετικότητας συνή ς είναι μία τιμή μεταξύ του 0 και του 1, ή εκφράζεται με ποσοστό. Έτσι, ένα έ ραφο με α μό σ ετικότητας 100% ταιριάζει ακρι ώς με το ερώτημα του ρήστη. Η μέ οδος α μο ό ησης εξαρτάται από το μοντέ ο ανάκτησης που ρησιμοποιεί το σύστημα. Υπάρ ουν μοντέ α που επιτρέπουν τον προσδιορισμό του α μού σ ετικότητας, ενώ κάποια ά α δεν έ ουν αυτή τη δυνατότητα. Τα α μο ο ημένα έ ραφα επιστρέφονται στο ρήστη συνή ς με φ ίνουσα διάταξη. Άρα, το πρώτο έ ραφο είναι το περισσότερο σ ετικό, ενώ το τε ευταίο σ ετίζεται ι ότερο με την ανά κη π ηροφορίας του ρήστη. Πο ές φορές παρατηρείται το φαινόμενο, κάποια από τα έ ραφα που επέστρεψε το ΣΑΠ να μην είναι τόσο σ ετικά με το ερώτημα του ρήστη. Μία από τις με όδους που ρησιμοποιούνται ια την ενίσ υση της ποιότητας τ ν αποτε- εσμάτ ν είναι η ανάδραση σχετικότητας (relevance feedback). Με τη μέ οδο αυτή, ο ρήστης έ ει τη δυνατότητα να επι έξει κάποια από τα έ ραφα της απάντησης ς περισσότερο σ ετικά από τα υπό οιπα και το σύστημα να επαναπροσδιορίσει την απάντηση με άση την επι ο ή του ρήστη. Η μέ οδος της ανάδρασης σ ετικότητας α με ετη εί σε ά ος σε επόμενο κεφά αιο. Στις προη ούμενες παρα ράφους προσπα ήσαμε να δώσουμε τις ασικότε-

14 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας ρες έννοιες που αφορούν στη ν στική περιο ή της Ανάκτησης Π ηροφορίας, περι ράφοντας συνοπτικά τα ασικότερα τμήματα ενός ΣΑΠ. Τα κεφά αια που ακο ου ούν με ετούν σε ά ος τις έννοιες που παρουσιάσαμε εδώ. 1.2.2 Περιστασιακή Αναζήτηση και Φι τράρισμα Ε ράφ ν Ένα ερώτημα μπορεί να ανήκει σε μία από δύο κατη ορίες. Η πρώτη κατη- ορία αφορά σε ερ τήματα που εκτε ούνται μία φορά, ενώ η δεύτερη κατη ορία αφορά σε ερ τήματα που εκτε ούνται συνε ώς ια κάποιο ρονικό διάστημα που συνή ς προσδιορίζεται από το ρήστη. Η πρώτη κατη ορία αναζήτησης κα- είται περιστασιακή ή εξειδικευμένη (ad-hoc), ενώ η συνε ής επεξερ ασία ενός ερ τήματος κα είται και φιλτράρισμα (filtering) ή δρομολόγηση (routing) τ ν ε - ράφ ν. Έστ ότι ένας ρήστης επι υμεί να ά ει π ηροφορίες σ ετικά με τον π ανήτη Άρη, και υπο ά ει στο ΣΑΠ το ερώτημα Q = {π ανήτης,άρης} δη ώνοντας ότι επι υμεί και τους δύο όρους στα έ ραφα της απάντησης. Με άση τα έ ραφα του Σ ήματος 1.1 το ΣΑΠ α προσδιορίσει ότι το d 4 είναι το μοναδικό σ ετικό έ ραφο ς προς το ερώτημα και α το επιστρέψει στο ρήστη. Στο σημείο αυτό, ο οκ ηρώνεται η επεξερ ασία του ερ τήματος. Σε περίπτ ση που ο ρήστης μετά από κάποιο ρονικό διάστημα επι υμεί να εκτε έσει πά ι το ίδιο ερώτημα, α πρέπει εκ νέου να το υπο ά ει στο ΣΑΠ. Αυτός ο τρόπος επεξερ ασίας είναι και αυτός που υπονοείται συνή ς από τους ρήστες. Ας υπο έσουμε τώρα ότι η συ ο ή τ ν ε ράφ ν α άζει με σ ετικά ρή- ερώτηµα 1 συλλογή εγγράφων χρήστης 1 απάντηση 1 ερώτηµα 2 έγγραφο 2 έγγραφο 4 χρήστης 2 απάντηση 2 έγγραφο 1 έγγραφο 5 χρήστης 3 ερώτηµα 3 έγγραφο 3 έγγραφο 6 απάντηση 3 Σχήμα 1.5: Εξειδικευμένη Ανάκτηση Πληροφορίας.

1.2. Η Διαδικασία της Ανάκτησης Πληροφορίας 15 νεότερο έγγραφο ροή εγγράφων παλαιότερο έγγραφο έγγραφο 7 έγγραφο 6 έγγραφο 5 έγγραφο 4 έγγραφο 3 έγγραφο 2 έγγραφο 1 φιλτράρισµα (δροµολόγηση εγγράφων) προφίλ χρήστη 1 προφίλ χρήστη 2 προφίλ χρήστη 3 έγγραφο 1 έγγραφο 2 έγγραφο 1 έγγραφο 2 έγγραφο 4 έγγραφο 7 έγγραφο 1 έγγραφο 2 έγγραφο 5 έγγραφο 7 Σχήμα 1.6: Ανάκτηση με φιλτράρισμα. ορους ρυ μούς (όπ ς συμ αίνει ια παράδει μα στον πα κόσμιο ιστό). Ένας ρήστης που ενδιαφέρεται ια π ηροφορίες σ ετικά με ένα έμα α πρέπει σε τακτά ρονικά διαστήματα να υπο ά ει το ίδιο ερώτημα, έτσι ώστε να εντοπίσει νέα έ ραφα που είναι δια έσιμα. Θα ήταν πιο εύκο ο ια το ρήστη να υπο ά ει το ερώτημα μία μόνο φορά, δη ώνοντας ταυτό ρονα την επι υμία του ια ενημέρ ση όταν ίνει δια έσιμο ένα νέο έ ραφο που είναι σ ετικό ς προς ερώτημα. Στην περίπτ ση αυτή, το ΣΑΠ α πρέπει να κατα ρίσει το ερώτημα του ρήστη και να ε έ ει κά ε νέο έ ραφο αν είναι ή ό ι σ ετικό με το ερώτημα. Επίσης, ο ρήστης μπορεί να ορίσει και ένα κατώφ ι σ ετικότητας, το οποίο ορίζει ότι είναι ενδιαφέρον κά ε νέο έ ραφο που έ ει α μό σ ετικότητας με α ύτερο από το κατώφ ι. Το ρονικό διάστημα ια το οποίο το ερώτημα παραμένει ενερ ό προσδιορίζεται πά ι από το ρήστη. Με αυτόν τον τύπο επεξερ ασίας ερ τημάτ ν μπορούμε να υποστηρίξουμε τη συνε ή εκτέ εση ερ τημάτ ν πο ών ρηστών, αποδεσμεύοντας τους ρήστες από την επανα αμ ανόμενη υπο ο ή του ίδιου ερ τήματος σε τακτά ρονικά διαστήματα. Στο Σ ήμα 1.5 δίνεται ένα παράδει μα περιστασιακής αναζήτησης. Παρου-

16 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας σιάζονται τα ερ τήματα τριών ρηστών και οι απαντήσεις του συστήματος. Τονίζεται ότι το κά ε ερώτημα εκτε είται μία μόνο φορά. Στο Σ ήμα 1.6 δίνεται ένα παράδει μα φι τραρίσματος ε ράφ ν. Το σύνο ο τ ν ερ τημάτ ν που έ ει υπο ά ει ο κά ε ρήστης προσδιορίζει το προφίλ του. Σε αντί εση με την περιστασιακή εκτέ εση ερ τημάτ ν, τα ερ τήματα εκτε ούνται συνε ώς, και κά ε νέο έ ραφο ε έ εται ς προς τη σ ετικότητά του με τα ενερ ά προφί. Αν ρε εί κάποιο προφί ια το οποίο το νέο έ ραφο είναι σ ετικό, τότε η ταυτότητα του νέου ε ράφου προστί εται στα σ ετικά έ ραφα και ενημερώνεται ο αντίστοι ος ρήστης. Στο παράδει μα του σ ήματος, το νέο έ ραφο (Έ ραφο 7) είναι σ ετικό ς τα προφί τ ν ρηστών 2 και 3. Τονίζεται ότι το φι τράρισμα ε ράφ ν αποκτά ιδιαίτερο ενδιαφέρον στις μέρες μας και κυρί ς ό του πα κόσμιου ιστού, όπου η δια εσιμότητα νέ ν ιστοσε ίδ ν και περιε ομένου πρα ματοποιείται με ρή ορους ρυ μούς, και επομέν ς η ανά κη ια αυτόματη ή ημι-αυτόματη ενημέρ ση τ ν αποτε εσμάτ ν είναι με α ύτερη και ιδιαίτερα ρήσιμη ια τους ρήστες. Χαρακτηριστικό παράδει μα αποτε ούν να δεδομένα που ρίσκονται σε BLOGs ή RSS feeds τα οποία α άζουν με ρή ορους ρυ μούς. 1.2.3 Προ ρημένα Θέματα Ανάκτησης Π ηροφορίας Με άση τα όσα έ ουν αναφερ εί έ ς τώρα μπορεί κάποιος να υπο έσει ότι η Ανάκτηση Π ηροφορίας ασ ο είται μόνο με την αναζήτηση σ ετικών ε ράφ ν ς προς κάποιο ερώτημα. Αν και ένα με ά ο τμήμα της έρευνας στην περιο ή με ετά αυτό ακρι ώς το πρό ημα, υπάρ ουν και ά ες κατευ ύνσεις προς έρευνα και ανάπτυξη που έ ουν εξαιρετικό ενδιαφέρον και έτουν νέα προ ήματα προς επί υση. Μερικές από τις κατευ ύνσεις αυτές περι ράφονται στη συνέ εια: Δια- σσιακή Ανάκτηση Π ηροφορίας (Cross-Language IR). Η περιο ή αυτή αναφέρεται στη με έτη της αποτε εσματικής και αποδοτικής αναζήτησης ε ράφ ν στη περίπτ ση όπου η ώσσα διατύπ σης τ ν ερ τημάτ ν είναι διαφορετική από αυτήν τ ν ε ράφ ν. Το πρό ημα αυτό έ ει με ά η πρακτική σημασία αμ άνοντας υπόψη τον αρι μό τ ν διαφορετικών σσών και τη δυνατότητα που δίνει ο πα κόσμιος ιστός ια εύκο η πρόσ αση σε τεράστιες ποσότητες π ηροφορίας. Εξόρυξη Δεδομέν ν από Έ ραφα Κειμένου (Text Mining). Η εξόρυξη δεδομέν ν είναι ένα από τα στάδια της διαδικασίας που κα είται ανάκά- υψη νώσης (knowledge discovery). Στην περίπτ ση τ ν ε ράφ ν κειμένου εστιάζει σε έματα ομαδοποίησης ε ράφ ν (clustering), κατη οριοπίησης (categorization), εξα ής π ηροφορίας (information extraction),

1.3. Σύγχρονες Τάσεις 17 και κανόνες συσ έτισης (association rules). Οι μέ οδοι εξόρυξης εφαρμόζονται ό ι μόνο στο σύνο ο τ ν ε ράφ ν της συ ο ής, α ά και στα αποτε έσματα ενός ερ τήματος, ιδιαίτερα σε περιπτώσεις όπου το π ή ος τ ν ε ράφ ν που ικανοποιούν τις συν ήκες του ερ τήματος είναι με ά ο και επομέν ς δυσκο εύεται η σειριακή εξέτασή τους από το ρήστη. Συστήματα Απάντησης Ερώτησης (Question Answering Systems). Τα Συστήματα Απάντησης Ερ τήσε ν αρακτηρίζονται από δυνατότητες να απαντούν σε ερ τήσεις τ ν ρηστών. Σε αντί εση με ένα απ ό ΣΑΠ που υποστηρίζει ανάκτηση ε ράφ ν ένα Σύστημα Απάντησης Ερώτησης δέ- εται μία ερώτηση διατυπ μένη σε φυσική ώσσα και προσπα εί να προσδιορίσει την απάντηση στην ερώτηση αυτή. Τα πρώτα συστήματα αυτού του είδους εμφανίστηκαν τη δεκαετία του 1960 και αποτε ούσαν κυρί ς διεπαφές φυσικής ώσσας με έμπειρα συστήματα (expert systems). Συστήματα Συστάσε ν (Recommendation Systems). Τα συστήματα συστάσε ν προτείνουν στο ρήστη αντικείμενα (π.., έ ραφα, τίτ ους ταινιών, τίτ ους ι ί ν) με άση τις προτιμήσεις ά ν ρηστών και με άση κάποιες από τις προτιμήσεις του ίδιου του ρήστη. Οι μέ οδοι σύστασης στηρίζονται στην ομοιότητα μεταξύ ρηστών ς προς τις προτιμήσεις τους (user-based) ή στην ομοιότητα μεταξύ τ ν αντκειμέν ν με άση τις προτιμήσεις τ ν ρηστών (item-based). Επίσης, υπάρ ουν και υ ριδικές τε νικές. 1.3 Σύ ρονες Τάσεις Η ν στική περιο ή της Ανάκτησης Π ηροφορίας έ ει σημειώσει σημαντικά επιτεύ ματα στον τομέα της αναζήτησης σ ετικής π ηροφορίας σε έ ραφα. Ωστόσο, οι σύ ρονες εφαρμο ές σε συνδυασμό με τις με α ύτερες ανά κες τ ν ρηστών ια πιο αποτε εσματική και αποδοτική αναζήτηση, συντε έσαν στο σ εδιασμό και ανάπτυξη νέ ν με όδ ν. Στη συνέ εια περι ράφουμε συνοπτικά μερικές από τις σύ ρονες τάσεις που ώ ησαν σημαντικά την έρευνα στον τομέα της Ανάκτησης Π ηροφορίας. Πα κόσμιος Ιστός. Ο πα κόσμιος ιστός είναι η με α ύτερη και π ουσιότερη πη ή π ηροφοριών. Εκατομμύρια ιστότοποι (Web sites) σε ό ον τον π ανήτη προσφέρουν π ηροφορίες προσ άσιμες από την π ειοψηφία τ ν ρηστών του διαδικτύου. Βασικό αρακτηριστικό τ ν π ηροφοριών αυτών είναι ότι είναι δομημένες με τη οή εια τ ν ιστοσε ίδ ν, ενώ από μία ιστοσε ίδα ένας ρήστης μπορεί να μετα εί σε πο ές ά ες ακο ου ώντας

18 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας τους συνδέσμους (hyperlinks). Τόσο οι με ά ες ποσότητες π ηροφοριών, όσο και η μεταξύ τους σύνδεση οδή ησε στην ανάπτυξη εξειδικευμέν ν με- όδ ν Ανάκτησης Π ηροφορίας με στό ο τη οή εια τ ν ρηστών στην εύρεση σ ετικής π ηροφορίας στον πα κόσμιο ιστό. Με ά ες εταιρείες όπ ς η Yahoo και η Google ρίσκονται στην κορυφή κα ώς έ ουν αναπτύξει μη ανές αναζήτησης που είναι τόσο αποτε εσματικές όσο και αποδοτικές και οη ούν τους ρήστες στην αναζήτηση ρήσιμης π ηροφορίας στον πα κόσμιο ιστό. Γε ραφική Π ηροφορία. Η ε ραφική π ηροφορία αποτε εί σημαντικό τμήμα της π ηροφορίας που είναι δια έσιμη. Πο ές φορές, σε ένα ερώτημα δίνονται έξεις που αναφέρονται σε συ κεκριμένη τοπο εσία, και επομέν ς η ε ραφική διάσταση α πρέπει να ηφ εί υπόψη κατά την επεξερ ασία του ερ τήματος. Η ερευνητική περιο ή της ε ραφικής Ανάκτησης Π ηροφορίας εστιάζει στην αποτε εσματική αναζήτηση π ηροφορίας με ε - ραφικούς περιορισμούς. Νέες τε νικές είναι απαραίτητες ώστε η ε ραφική π ηροφορία να ρησιμοποιη εί κατά την διαδικασία της αναζήτησης με στό ο την επιστροφή σ ετικής π ηροφορίας στο ρήστη. Πο υμεσικά Δεδομένα. Οι σύ ρονες εφαρμο ές αρακτηρίζονται εκτός τ ν ά ν και από πο ύπ οκους τύπους δεδομέν ν, οι οποίοι απαιτούν διαφορετική ορ άν ση και δια είριση από τους παραδοσιακούς α φαρι μητικούς τύπους. Για παράδει μα, ένα σύστημα ταυτοποίησης με άση τα δακτυ ικά αποτυπώματα απαιτεί α ορί μους επεξερ ασίας και ανά υσης εικόν ν κα ώς επίσης και μέτρα ομοιότητας μεταξύ διαφορετικών αποτυπ μάτ ν. Επίσης, ένα σύστημα απο ήκευσης και ορ άν σης μουσικών αρ- εί ν επι ά ει τη ρήση εξε ι μέν ν τε νικών αναζήτησης με δυνατότητα αναζήτησης μουσικής με άση το περιε όμενο (content based information retrieval) και ό ι με άση τα μεταδεδομένα. Ένα τέτοιο σύστημα μπορεί να υποστηρίξει ερ τήματα της μορφής: Να βρεθούν τα 10 μουσικά αρχεία που μοιάζουν περισσότερο με το τραγούδι Bright Eyes των Blind Guardian. Οι παραδοσιακές μέ οδοι Ανάκτησης Π ηροφορίας που εστιάζουν στην ανάκτηση ε ράφ ν με α φαρι μητικά δεδομένα δεν επαρκούν ια την αναζήτηση σε πο υμεσικά δεδομένα όπ ς άσεις εικόν ν, συ ο ές μουσικών κομματιών και συ ο ές ίντεο. Απαιτούνται σημαντικές α α ές και προσ ήκες σε ό α τα τμήματα ενός ΣΑΠ έτσι ώστε να προσφέρουν ικανοποιητική τα ύτητα ανάκτησης και ταυτό ρονα τα αποτε έσματα να είναι όσο το δυνατό π ησιέστερα στις π ηροφοριακές ανά κες τ ν ρηστών. Ο οκ ήρ ση Τε νικών Ανάκτησης και Βάσε ν Δεδομέν ν. Οι ομοιότητες τ ν ερευνητικών περιο ών της Ανάκτησης Π ηροφορίας και

1.4. Σύνοψη και Περαιτέρω Μελέτη 19 τ ν Βάσε ν Δεδομέν ν οδή ησαν τους ερευνητές στην ανάπτυξη τε νικών με στό ο την ανάπτυξη πιο δυνατών συστημάτ ν που να κα ύπτουν τόσο της ανά κες ανάκτησης δεδομέν ν όσο και τις ανά κες Ανάκτησης Π ηροφορίας. Τα περισσότερα σύ ρονα ΣΔΒΔ έ ουν ενσ ματ μένες δυνατότητες υποστήριξης ανάκτησης. Για παράδει μα, με τη ρήση του τύπου δεδομέν ν TEXT ή CLOB μπορούμε να απο ηκεύουμε ο όκ ηρα κείμενα σε μία στή η ενός πίνακα άσης δεδομέν ν και στη συνέ εια να απαντούμε ερ τήματα που αφορούν την αναζήτηση έξε ν μέσα στα έ - ραφα. Ωστόσο, απαιτούνται περισσότερα ερ α εία έτσι ώστε η ανάκτηση σ ετικής π ηροφορίας να μπορεί να εκμετα ευ εί το σ ήμα της άσης δεδομέν ν με στό ο την εύρεση σ ετικής π ηροφορίας ρίς την απαίτηση προσδιορισμού μίας συ κεκριμένης στή ης κάποιου πίνακα. Συστήματα Ομοτίμ ν. Ένα σύστημα ομοτίμ ν (peer-to-peer, P2P) αρακτηρίζεται από την ύπαρξη αυτόνομ ν υπο ο ιστικών συστημάτ ν που διασυνδέονται μεταξύ τους και έ ουν τη δυνατότητα διαμοιρασμού π ηροφορίας. Στην πιο απ ή του μορφή, σε ένα σύστημα P2P δεν υπάρ ει κεντρική δια είριση, και επομέν ς κά ε κόμ ος του δικτύου δρα ανεξάρτητα από τους υπό οιπους. Επίσης, ένας κόμ ος έ ει τη δυνατότητα αποσύνδεσης ή επανασύνδεσης στο δίκτυο κατά ού ηση. Τέτοια συστήματα είναι πο ύ δημοφι ή κα ώς ρησιμοποιούνται ευρύτατα ια το διαμοιρασμό αρ εί ν (π.., Kazaa, Limewire, Emule). Τα συστήματα αυτά υποστηρίζουν αναζήτηση π ηροφορίας με άση τα μεταδεδομένα τ ν αρ εί ν. Οι ερευνητές έ ουν ήδη στραφεί στην ενίσ υση τ ν συστημάτ ν αυτών με δυνατότητα ανάκτησης με άση το περιε όμενο. Οι κ ασικές μέ οδοι ανάκτησης δεν επαρκούν και νέες τε νικές έ ουν προτα εί πρόσφατα. 1.4 Σύνοψη και Περαιτέρ Με έτη Η Ανάκτηση Π ηροφορίας είναι μία ενερ ός ν στική περιο ή με ασικό στό ο την αποτε εσματική και αποδοτική αναζήτηση π ηροφορίας σ ετικής προς τις ανά κες τ ν ρηστών. Η ανά κη π ηροφορίας συνή ς προσδιορίζεται με την παρά εση μερικών όρ ν, οπότε το σύστημα α πρέπει να επιστρέψει στο ρήστη τα έ ραφα που σ ετίζονται (μοιάζουν) περισσότερο με αυτούς. Το πρώτο ασικό ζήτημα που πρέπει να αντιμετ πιστεί είναι ο προσδιορισμός της ομοιότητας μεταξύ του ερ τήματος και τ ν ε ράφ ν, ενώ το δεύτερο είναι ο τρόπος επεξερ ασίας του ερ τήματος έτσι ώστε το σύστημα να απαντήσει ρή ορα και με ακρί εια. Στα επόμενα κεφά αια α εστιάσουμε στα τμήματα ενός ΣΑΠ όπ ς αυτά έ ουν περι ραφεί προη ουμέν ς με στό ο την π ηρέστερη περι ραφή τους,

20 Κεφάλαιο 1. Εισαγωγή στην Ανάκτηση Πληροφορίας α με ετήσουμε διαφορετικά μοντέ α ανάκτησης, έματα αποτε εσματικότητας και ζητήματα απόδοσης. Στη ι ιο ραφία υπάρ ουν πο ά συ ράμματα και επιστημονικές ερ ασίες που μπορούν να οη ήσουν σημαντικά τον ανα νώστη στη με έτη της περιο ής. Τα ι ία [3, 9, 7, 3, 17, 7] αποτε ούν πο ύ κα ές πη ές ια το αντικείμενο. Επίσης, τα άρ ρα [2, 4, 4] εισά ουν τον ανα νώστη στην περιο ή και δίνουν μία συνοπτική περι ραφή τ ν ζητημάτ ν και τ ν με όδ ν που ρησιμοποιούνται. Υπάρ ει μία π η ώρα διε νών συνεδρί ν που επικεντρώνονται στην περιο ή της Ανάκτησης Π ηροφορίας. Συ κεκριμένα αναφέρουμε τα συνέδρια: Text Retrieval Conference (TREC), ACM Special Interest Group on Information Retrieval (SIGIR) Conference, European Conference on Information Retrieval (ECIR), European Conference on Research and Advanced Technology for Digital Libraries (ECDL), Joint Conference on Digital Libraries (JCDL), α ά και τα εξειδικευμένα: ACM International Workshop on Multimedia Information Retrieval (MIR), International Symposium on Music Information Retrieval (ISMIR) και ά α. Ακόμη, πο ά από τα με ά α συνέδρια που αναφέρονται στη δια είριση δεδομέν ν έ ουν ειδικές συνεδρίες ια την Ανάκτηση Π ηροφορίας. Χαρακτηριστικά αναφέρουμε τα συνέδρια: ACM Conference on Information and Knowledge Management (CIKM), ACM Special Interest Group on Management of Data (SIGMOD) Conference, International Conference on Very Large Databases (VLDB). Τέ ος, αναφέρουμε και επιστημονικά περιοδικά που εστιάζουν στην περιο ή: ACM Transactions on Information Systems, Information Retrieval, Information Processing and Management, Information Systems, International Journal on Digital Libraries και ά α. Ο ενδιαφερόμενος ανα νώστης μπορεί επίσης να ανατρέξει σε π η ώρα ιστότοπ ν που περιέ ουν ρήσιμο υ ικό ια την Ανάκτηση Π ηροφορίας. Χαρακτηριστικά αναφέρουμε τη σε ίδα http://www-csli.stanford.edu/ hinrich/informationretrieval.html η οποία περιέ ει συνδέσμους σε ι ία, πανεπιστημιακά ιδρύματα, ερευνητικά κέντρα και σε ά α έματα σ ετικά με το ώρο. Η σε ίδα αποτε εί μία πο ύ κα ή πη ή ια τη διερεύνηση του ώρου. 1.5 Ασκήσεις 1.1 Ποιές ασικές διαφορές εντοπίζονται μεταξύ ενός ΣΔΒΔ και ενός ΣΑΠ; 1.2 Για ποιούς ό ους α μπορούσε ένα έ ραφο d i να είναι πιο σ ετικό από ένα έ ραφο d j ς προς κάποιο ερώτημα q; 1.3 Προσδιορίστε και περι ράψτε σύνοπτικά τις δύο ασικές ειτουρίες Ανά-

1.5. Ασκήσεις 21 κτησης Π ηροφορίας. 1.4 Θα μπορούσαμε να έ ουμε δύο διαφορετικά ΣΔΒΔ που να δώσουν διαφορετικά αποτε έσματα ια το ίδιο ερώτημα και στα ίδια δεδομένα; Να αιτιο ο ήσετε την απάντησή σας. 1.5 Ποιά τμήματα απαρτίζουν ένα ΣΑΠ; Να περι ράψετε συνοπτικά τις ασικές ειτουρ ίες του κα ενός. 1.6 Ποιές οι διαφορές μεταξύ της περιστασιακής αναζήτησης (ad-hoc) και του φι τραρίσματος (δρομο ό ησης) ε ράφ ν; Να δώσετε ένα παράδει μα ια τον τρόπο ειτουρ ίας τους. 1.7 Για ποιούς ό ους πιστεύετε ότι ο πα κόσμιος ιστός δημιουρ εί νέες περιο ές έρευνας ια την επιστήμη της Ανάκτησης Π ηροφορίας; 1.8 Για τα ερ τήματα π ανήτης OR κομήτης και π ανήτης AND κομήτης να προσδιορίσετε τα σ ετικά έ ραφα με άση τη συ ο ή ε ράφ ν του Σ ήματος 1.1. 1.9 Εκτός από την απ ή παρά εση τ ν σ ετικών ε ράφ ν σε μία ίστα, ποιούς ά ους τρόπους παρουσίασης τ ν αποτε εσμάτ ν προτείνετε; 1.10 Προσπα ήστε να διατυπώσετε μία δική σας συνάρτηση ομοιότητας S(q, d) μεταξύ ενός ερ τήματος q και ενός ε ράφου d. Η συνάρτηση ομοιότητας α πρέπει να στηρίζεται στους όρους και α πρέπει να αμ άνεί μία τιμή μεταξύ 0 και 1, όπου όσο μικρότερη η ομοιότητα η τιμή S(q, d) να είναι κοντά στο 0 ενώ όσο με α ύτερη η ομοιότητα η τιμή S(q, d) να είναι κοντά στο 1. Να δώσετε μερικά παραδεί ματα ρησιμοποιώντας τη μετρική σας και τη συ ο ή ε ράφ ν του Σ ήματος 1.1.

Βι ιο ραφία [1] R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. Addison Wesley, 1999. [2] C. Faloutsos. A survey of information retrieval and filtering methods. Technical report, University of Maryland, College Park, USA, 1995. [3] W.B. Frakes and Baeza-Yates (eds). Information Retrieval: Data Structures and Algorithms. Prentice Hall, Englewood Cliffs, NJ, 1992. [4] E. Greengrass. Information retrieval: A survey. Technical report, University of Maryland, Baltimore County, USA, 2000. [5] V.N. Gudivada, V.V. Raghavan, W.I. Grosky, and R. Kasanagottu. Information retrieval on the world wide web. IEEE Internet Computing, 1(5):58-68, 1997. [6] R. Korfhage. Information Storage and Retrieval. John Wiley & Sons, 1997. [7] C.D. Manning, P. Raghavan, and H. Schutze. An Introduction to Information Retrieval (draft version). Cambridge University Press, 2007. [8] M.E. Maron and J.L. Kuhns. On relevance, probabilistic indexing and information retrieval. Journal of the ACM, 7:216-244, 1960. [9] C.J. van Rijsbergen. Information Retrieval. Butterworths, 1979. [10] G. Salton. The SMART Retrieval System - Experiments on Automatic Document Processing. Prentice Hall, Englewood Cliffs, NJ, 1971. [11] G. Salton, C.S. Yang, and A. Wong. A vector-space model for automatic indexing. Communications of the ACM, 18(11):613-620, 1975. 23

24 Βιβλιογραφία [12] G. Salton, E.A. Fox, and H. Wu. Extended boolean information retrieval. Communications of the ACM, 26(11):1022-1036, 1983. [13] J.W. Jr. Sammon. A nonlinear mapping for data structure analysis. IEEE Transactions on Computers, C-18(5):401-409, 1969. [14] I.H Witten, A. Moffat, and T.C. Bell. Managing Gigabytes: Compressing and Indexing Documents and Images. Morgan Kaufmann, 1999.