Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Σχετικά έγγραφα
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Information Retrieval

Information Retrieval

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

Introduction to Information Retrieval

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Εισαγωγή στο µάθηµα. Εισαγωγή στην Ανάκτηση Πληροφορίας. Απαιτήσεις του µαθήµατος

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

Introduction and Boolean Retrieval. Slides by Manning, Raghavan, Schutze

Περιεχόμενα. Πίνακας συμβόλων σελίδα 10 Πρόλογος 13

Information Retrieval

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

Ανάκτηση Πληροφορίας. Φροντιστήριο 3

Ευρετηρίαση ΜΕΡΟΣ ΙΙ

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

4. Κατασκευή Ευρετηρίου

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Information Retrieval

Ανάκτηση Πληροφορίας

Introduction to Information Retrieval

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

Information Retrieval

Information Retrieval

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας

Information Retrieval

Ανάκτηση Πληροφορίας

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Συµπίεση Ευρετηρίου. Term weighting. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Ανάκτηση Δεδομένων (Information Retrieval)

Information Retrieval

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Οι διαθέσιμες μέθοδοι σε γενικές γραμμές είναι:

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

Ανάκτηση Πληροφορίας

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση πληροφορίας

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

2. Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων

Τι (άλλο) θα δούμε σήμερα;

Εισαγωγή Κεφάλαιο 1: Εγκατάσταση της Access Κεφάλαιο 2: Βάσεις δεδομένων και δομικά στοιχεία της Access

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Ανάκτηση Πληροφορίας

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

Τεχνολογία Πολυμέσων

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Ευρετηρίαση ΜΕΡΟΣ ΙIΙ. Επεξεργασία Κειμένου

Διαδανεισμός, Πρωτόκολλο z39.50 Στρατηγικές αναζήτησης

Επεξεργασία Ερωτήσεων

METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ανεκτική αναζήτηση. ηµιουργία Ευρετηρίου. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Information Retrieval

Social Web: lesson #4

Dramatis. A Computational Model of Suspense

Πληροφορική, Νέες Tεχνολογίες και Μουσεία ΕΘΝΙΚΟ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΟΥΣΕΙΑΚΩΝ ΣΠΟΥΔΩΝ»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΒΙΟΛΟΓΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Information Retrieval

Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

Επεξεργασία Ερωτήσεων

ONLINE ΚΑΤΑΛΟΓΟΣ ΒΙΒΛΙΟΘΗΚΩΝ ΤΕΙ ΛΑΡΙΣΑΣ (OPAC) OPAC = Open Public Access Catalogue (Ανοιχτός ηµόσιος Κατάλογος) Ο ΗΓΟΣ ΧΡΗΣΗΣ

Transcript:

Ανάκληση Πληπουοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Γιάλεξη 2η: 23/02/2016 1

Μεγάλες συλλογές (corpora) Έστωσαν N = 1M έγγραφα, το κάθε ένα με περίπου 1K όρους Avg 6 bytes/term, συμπεριλαμβανόμενων των κενών/στίξη Άρα, 6GB δεδομένα στα έγγραφα Έστω ότι υπάρχουν m = 500K διακριτοί όροι μεταξύ αυτών 2

Ο πίνακας πρακτικά δεν χτίζεται Πίνακας με 500K x 1M έχει μισό-τρις 0 s και 1 s Αλλά έχει πάνω από ένα δις 1 s Ο πίνακας είναι εξαιρετικά αραιός Ποια θα ήταν καλύτερη αναπαράσταση; Καταγράφουμε μόνο τις θέσεις των 1 Γηαηί; 3

Αρχιτεκτονική Μηχανής Αναζήτησης 4

Inverted index (αντεστραμμένο ευρετήριο) Για κάθε όρο T, πρέπει ν αποθηκεύσουμε όλα τα έγγραφα που περιέχουν τον T Να χρησιμοποιήσουμε πίνακα ή λίστα για τον σκοπό αυτό; Brutus 2 4 8 16 32 64 128 Calpurnia 1 2 3 5 8 13 21 34 Caesar 13 16 Τη ζα ζπκβεί εάλ ν όξνο Caesar πξνζηεζεί ζην έγγξαθν14; 5

Inverted index Οι συνδεδεμένες λίστες γενικώς είναι προτιμότερες έναντι των πινάκων Δυναμική δέσμευση χώρου Εισαγωγή όρων στα έγγραφα είναι εύκολη Επιβάρυνση σε χώρο λόγω των pointers Posting Brutus Calpurnia Caesar 2 4 8 16 32 64 128 1 2 3 5 8 13 21 34 13 16 Dictionary Postings lists Ταμηλνκεκέλεο κε βάζε ην docid (πεξηζζόηεξα ζε ιίγν) 6

Κατασκευή του Inverted index Έγγξαθα πξνο indexing Friends, Romans, countrymen. Tokenizer Ρεύκα ηωλ tokens Friends Romans Countrymen Linguistic modules Τξνπνπνηεκέλα tokens friend roman countryman Σε λίγο γι αυτά Inverted index Indexer friend roman countryman 2 4 1 2 13 16 7

Βήματα του indexer Ακολουθία των ζευγών (Modified token, DocumentID) Doc 1 I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. Doc 2 So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious Term Doc # I 1 did 1 enact 1 julius 1 caesar 1 I 1 was 1 killed 1 i' 1 the 1 capitol 1 brutus 1 killed 1 me 1 so 2 let 2 it 2 be 2 with 2 caesar 2 the 2 noble 2 brutus 2 hath 2 told 2 you 2 caesar 2 was 2 ambitious 2 8

Βήματα του indexer Ταξινόμηση κατά όρο Βήμα-θεμέλιο τος indexing Term Doc # I 1 did 1 enact 1 julius 1 caesar 1 I 1 was 1 killed 1 i' 1 the 1 capitol 1 brutus 1 killed 1 me 1 so 2 let 2 it 2 be 2 with 2 caesar 2 the 2 noble 2 brutus 2 hath 2 told 2 you 2 caesar 2 was 2 ambitious 2 Term Doc # ambitious 2 be 2 brutus 1 brutus 2 capitol 1 caesar 1 caesar 2 caesar 2 did 1 enact 1 hath 1 I 1 I 1 i' 1 it 2 julius 1 killed 1 killed 1 let 2 me 1 noble 2 so 2 the 1 the 2 told 2 you 2 was 1 was 2 with 2 9

Βήματα του indexer Πολλαπλές εμφανίσεις του ίδιου όρου στο ίδιο έγγραφο συγχωνεύονται Προστίθεται πληροφορία σχετική με την συχνότητα εμφάνισης του όρου Γηαηί πιεξνθνξία ζπρλόηεηαο; Θα ην ζπδεηήζνπκε αξγόηεξα Term Doc # ambitious 2 be 2 brutus 1 brutus 2 capitol 1 caesar 1 caesar 2 caesar 2 did 1 enact 1 hath 1 I 1 I 1 i' 1 it 2 julius 1 killed 1 killed 1 let 2 me 1 noble 2 so 2 the 1 the 2 told 2 you 2 was 1 was 2 with 2 Term Doc # Term freq ambitious be brutus brutus capitol caesar caesar 2 2 did enact hath I 1 2 i' it julius killed 1 2 let me noble so the the told you was was with 10

Το αποτέλεσμα διαμερίζεται στο Dictionary και στο αρχείο με τα Postings Term Doc # Freq ambitious be brutus brutus capitol caesar caesar 2 2 did enact hath I 1 2 i' it julius killed 1 2 let me noble so the the told you was was with Term N docs Coll freq ambitious be brutus 2 2 capitol caesar 2 3 did enact hath I 1 2 i' it julius killed 1 2 let me noble so the 2 2 told you was 2 2 with Doc # Freq 2 2 1 2 1 2 11

Τι πληρώνουμε για αποθήκευση; Όξνη Term N docs Coll freq ambitious be brutus 2 2 capitol caesar 2 3 did enact hath I 1 2 i' it julius killed 1 2 let me noble so the 2 2 told you was 2 2 with Doc # Freq 2 2 1 2 1 2 Θα πνζνηηθνπνηήζνπκε ηελ απνζήθεπζε αξγόηεξα Pointers 12

Το ευρετήριο (index) που μόλις χτίσαμε Πώς επεξεργαζόμαστε ένα ερώτημα; Αργότερα τι είδους ερωτήματα μπορούμε να επεξεργαστούμε; Η εζηίαζή καο ζήκεξα 13

Επεξεργασία ερωτήματος: AND Θεωρήστε το ερώτημα: Brutus AND Caesar Εντόπισε τον όρο Brutus στο Dictionary Ανάκτησε την λίστα με τα postings που του αντιστοιχεί Εντόπισε τον όρο Caesar στο Dictionary Ανάκτησε την λίστα με τα postings που του αντιστοιχεί Συγχώνευσε τις δυο λίστες των postings: 2 4 8 16 32 64 1 2 3 5 8 13 21 128 34 Brutus Caesar 14

Η συγχώνευση Διασχίστε τις δυο λίστες ταυτόχρονα, σε χρόνο γραμμικό σε σχέση με τον συνολικό αριθμό των postings entries 2 8 2 4 8 16 32 64 1 2 3 5 8 13 21 128 34 Brutus Caesar Εάλ ηα κήθε ηωλ ιηζηώλ είλαη x θαη y, ε ζπγρώλεπζε παίξλεη O(x+y) ιεηηνπξγίεο Πξνζνρή: ηα postings είλαη ηαμηλνκεκέλα ωο πξνο ην docid 15

Boolean ερωτήματα: Ακριβές ταίριασμα Το Boolean μοντέλο ανάκτησης είναι ικανό να θέτει ένα ερώτημα το οποίο είναι μια Boolean έκφραση: Τα Boolean ερωτήματα είναι ερωτήματα που φτιάχνοναι με χρήση των τελεστών AND, OR και NOT οι οποίοι ενώνουν τους όρους του ερωτήματος Βλέπει κάθε έγγραφο ως ένα σύνολο από λέξεις Είναι ακριβές: τα ανακτηθέντα έγγραφο είτε ικανοποιούν ακριβώς τις συνθήκες είτε όχι Ήταν το κυρίαρχο εμπορικό μοντέλο ανάκτησης για πάνω από 3 δεκαετίες Στις επαγγελματικές αναζητήσεις (π.χ., δικηγόροι) χρησιμοποιούνται ακόμη Boolean ερωτήματα 16

Παράδειγμα: WestLaw http://www.westlaw.com/ Η κεγαιύηεξε εκπνξηθή (ζπλδξνκεηηθή) λνκηθή ππεξεζία αλαδήηεζεο (μεθίλεζε ην 1975; ην ranking πξνζηέζεθε ην 1992) Πνιιά terabytes δεδνκέλωλ; 700,000 ρξήζηεο Η πιεηνλόηεηα ηωλ ρξεζηώλ ρξεζηκνπνηεί ακόμα boolean εξωηήκαηα Παξάδεηγκα εξωηήκαηνο: What is the statute of limitations in cases involving the federal tort claims act? LIMIT! /3 STATUTE ACTION /S FEDERAL /2 TORT /3 CLAIM /3 = within 3 words, /S = in same sentence 17

Παράδειγμα: WestLaw http://www.westlaw.com/ Έλα αθόκε παξάδεηγκα εξωηήκαηνο: Requirements for disabled people to be able to access a workplace disabl! /p access! /s work-site work-place (employment /3 place Παρατηρήστε ότι το ΚΕΝΟ σημαίνει διάζευξη και όχι σύζευξη! Μακρά, ακριβή ερωτήματα; τελεστές εγγύτητας (proximity); Όχι όπως η Web search 18

Boolean ερωτήματα: Πιο γενικές συγχωνεύσεις Άσκηση: Προσαρμόστε την συγχώνευση για τα ερωτήματα: Brutus AND NOT Caesar Brutus OR NOT Caesar Μπορούμε και εδώ να εκτελέσουμε την συγχώνευση σε χρόνο O(x+y) ή τι μποορούμε να επιτύχουμε; 19

Συγχώνευση Τι ισχύει για τυχείες Boolean εκφράσεις; (Brutus OR Caesar) AND NOT (Antony OR Cleopatra) Μπορούμε πάντα να εκτελέσουμε συγχώνευση σε γραμμικό χρόνο; Γραμμικό ως προς τι; Μπορούμε να επιτύχουμε κάτι καλύτερο; 20

Βελτιστοποίηση επεξεργασίας ερωτημάτων Ποια είναι η καλύτερη σειρά για την επεξεργασία; Θεωρήστε ένα ερώτημα που αποτελείται από όρους συνδεόμενους με AND Για κάθε έναν από τους όρους, ανακτήστε την λίστα με τα postings, κατόπιν κάντε AND μεταξύ τους Brutus Calpurnia Caesar 2 4 8 16 32 64 128 1 2 3 5 8 16 21 34 13 16 Εξώηεκα: Brutus AND Calpurnia AND Caesar 21

Παράδειγμα βελτιστοποίησης επεξεργασίας ερωτήματος Επεξεργασία με αυξανόμενη freq: Ξεκινήστε με το μικρότερο σύνολο, κατόπιν το αμέσως μεγαλύτερο, κ.τ.λ. Brutus Απηόο είλαη ν ιόγνο πνπ απνζεθεύζακε πιεξνθνξία ζπρλόηεηαο ζην dictionary 2 4 8 16 32 64 128 Calpurnia Caesar 1 2 3 5 8 13 21 34 13 16 Επεξεργαστείτε το ερώτημα ως (Caesar AND Brutus) AND Calpurnia. 22

Πιο γενική βελτιστοποίηση Π.χ., (madding OR crowd) AND (ignoble OR strife) Ανακτήστε την freq όλων των όρων Εκτιμήστε το μέγεθος κάθε OR ως να είναι το άθροισμα των freq τους (συντηρητικό) Επεξεργαστείτε το ερώτημα σε αυξανόμενα μεγέθη των OR 23

Άσκηση Προτείνετε μια σειρά επεξεργασία του ερωτήματος (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes) Term Freq eyes 213312 kaleidoscope 87009 marmalade 107913 skies 271658 tangerine 46653 trees 316812 24

Ασκήσεις στην επεξεργασία ερωτημάτων Εάν το ερώτημα είναι friends AND romans AND (NOT countrymen), πώς μπορούμε να αξιοποιήσουμε την freq του countrymen; Άσκηση: Επεκτείνετε την τεχνική της συγχώνευσης για ένα τυχαίο Boolean ερώτημα. Μπορούμε πάντα να εγγυηθούμε γραμμικό χρόνο ως προς το συνολικό μέγεθος των postings; Υπόδειξη: Ξεκινήστε με την περίπτωση ενός Boolean formula ερωτήματος: σε ένα τέτοιο ερώτημα, κάθε όρος στο ερώτημα εμφανίζεται μόνο μια φορά στο ερώτημα 25

Τι άλλο στην IR; Πέρα από την αναζήτηση όρων Φράσεις: Stanford University Εγγύτητα (proximity): Βρείτε έγγραφα που περιέχουν τον όρο Gates NEAR Microsoft Χρειαζόμαστε ευρετήριο για να καταγράφουμε και να αξιοποιούμε πληροφορία τοποθεσίας στα έγγραφα. Περισσότερα πάνω σ αυτό σε επόμενες διαλέξεις Ζώνες (zones) στα έγγραφα: Βρείτε έγγραφαμε (author = Ullman) AND (text contains automata) 26

Διάταξη ή διαβάθμιση (ranking) των αποτελεσμάτων της αναζήτησης Τα Boolean ερωτήματα δουλεύουν με inclusion ή exclusion των εγγράφων Συχνά (σχεδόν πάντα) επιθυμούμε να διατάξουμε/ομαδοποιήσουμε (rank/group) τα αποτελέσματα Need to measure proximity from query to each doc. Need to decide whether docs presented to user are singletons, or a group of docs covering various aspects of the query. 27

Clustering και classification Δεδομένου ενός συνόλου εγγράφων, ομαδοποιήστε τα με βάση τα περιεχόμενά τους Δεδομένου ενός συνόλο θεμάτων (topics), και ενός νέου εγγράφου D, αποφασίστε σε ποιο/α θέμα/τα ανήκει το D belongs 28