Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών

Σχετικά έγγραφα
Information Retrieval

Information Retrieval

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Introduction to Information Retrieval

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Περιεχόμενα. Πίνακας συμβόλων σελίδα 10 Πρόλογος 13

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Introduction and Boolean Retrieval. Slides by Manning, Raghavan, Schutze

Ανάκτηση Πληροφορίας. Φροντιστήριο 3

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Information Retrieval

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Πληροφορική 2. Δομές δεδομένων και αρχείων

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

4. Κατασκευή Ευρετηρίου

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Επεξεργασία Ερωτήσεων

Ανάκτηση Πληροφορίας

Επεξεργασία Ερωτήσεων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Ανάκτηση Πληροφορίας

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Ανάκτηση Πληροφορίας

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Επεξεργασία Ερωτήσεων

Ανάκτηση Πληροφορίας

Βάσεις Δεδομένων. Database Management Systems (DBMS) Συστήματα Διαχείρισης Βάσεων Δεδομένων (ΣΔΒΔ)

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Δομές Δεδομένων. Ενότητα 1 - Εισαγωγή. Χρήστος Γκουμόπουλος. Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων

Το εσωτερικό ενός Σ Β

Ανάκτηση Πληροφορίας

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Βάσεις Δεδομένων ΙΙ Ενότητα 5

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Εισαγωγή στο µάθηµα. Εισαγωγή στην Ανάκτηση Πληροφορίας. Απαιτήσεις του µαθήµατος

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση πληροφορίας

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

ΕΠΛ660 Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Κεφ.11: Ευρετήρια και Κατακερματισμός

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

έντρα ομές εδομένων 3ο εξάμηνο ιδάσκων: Χρήστος ουλκερίδης ιαφάνειες προσαρμοσμένες από το υλικό της Μαρίας Χαλκίδη

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εργαστήριο Βάσεων Δεδομένων. Εισαγωγικό Φροντιστήριο Βασικές Έννοιες - Ανάλυση Απαιτήσεων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

SilverPlatter WebSPIRS 4.1.

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Ανάκτηση Πληροφορίας

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Microsoft Excel Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

επιφάνεια πυριτίου Αναφορά στο Εκπαιδευτικό Υλικό : 5. Αναφορά στο Εργαστήριο :

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Information Retrieval

Επεξεργασία Ερωτήσεων

Το µάθηµα Ηλεκτρονική ηµοσίευση

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Transcript:

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 1. Ανάκτηση Boole Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων

Γνωριμία ιδάσκων: Χρήστος ουλκερίδης e-mail: cdoulk@unipi.gr Ώρες γραφείου (102, Γρ.Λαμπράκη 126): Τετάρτη 09:15 11:00 Και κατόπιν συνεννόησης Ώρες μαθήματος: Τρίτη 08:15 08:30 11:00, Αίθ.335 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 2

Επικοινωνία Ιστοσελίδα μαθήματος: http://evdoxos.ds.unipi.gr/courses/ds213/ Θέματα και υλικό σχετικά με το μάθημα ΙΑΛΕΞΕΙΣ ΑΝΑΚΟΙΝΩΣΕΙΣ ΕΚΦΩΝΗΣΕΙΣ ΕΡΓΑΣΙΩΝ ΠΑΡΑ ΟΣΗ ΕΡΓΑΣΙΩΝ ΒΟΗΘΗΤΙΚΟ ΥΛΙΚΟ... Άρα γραφτείτε στο μάθημα! March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 3

Βιβλία Μαθήματος Εισαγωγή στην Ανάκτηση Πληροφοριών C.Manning, P.Raghavan, H.Schuetze Εκδόσεις Κλειδάριθμος Ανάκτηση Πληροφορίας Ricardo Baeza-Yates and Berthier Ribeiro- Nero Εκδόσεις Τζιόλα ιαβάστε το βιβλίο, οι διαφάνειες δεν αρκούν! March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 4

Βαθμολογία Ασκήσεις (Α) Εξέταση (Ε) Τελικός Βαθμός = 0.7*Ε + 0.3*Α Παραδείγματα : Φοιτητής που έγραψε 6 στην τελική εξέταση αλλά δεν παρέδωσε ασκήσεις Τελικός Βαθμός = 0.7*6 + 0.3*0 = 4.2 4 Φοιτητής που έγραψε 5 στην τελική εξέταση και παρέδωσε ασκήσεις που βαθμολογήθηκαν με 10/10 Τελικός Βαθμός = 0.7*5 + 0.3*10 = 6.5 7 Φοιτητής που έγραψε 4 στην τελική εξέταση και παρέδωσε ασκήσεις που βαθμολογήθηκαν με 8/10 Τελικός Βαθμός = 0.7*4 + 0.3*8 = 5.2 5 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 5

Σχετικά Μαθήματα στο Πρόγραμμα Σπουδών ομές εδομένων (3 ο εξάμηνο) Αλγόριθμοι & Πολυπλοκότητα (4 ο εξάμηνο) Σχεδιασμός Βάσεων εδομένων (4 ο εξάμηνο) Βάσεις εδομένων (5 ο εξάμηνο) Αποθήκες και Εξόρυξη εδομένων (6 ο εξάμηνο) Ανάκτηση Πληροφοριών (6 ο εξάμηνο) ιαχείριση εδομένων στον Π.Ι. (7 ο εξάμηνο) Εργαστήριο Ανάπτυξης Εφαρμογών Β (7 ο εξάμηνο) Εργαστήριο Συστημάτων Επεξεργασίας Πληροφοριών Π.Ι. (8 ο εξάμηνο) March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 6

Ανάκτηση Πληροφοριών Ανάκτηση Πληροφοριών (ΑΠ) είναι η εύρεση υλικού (συνήθως εγγράφων) αδόμητης φύσης (συνήθως κειμένων) μέσα σε μεγάλες συλλογές (που βρίσκονται συνήθως αποθηκευμένες σε υπολογιστές), το οποίο ικανοποιεί μια ανάγκη πληροφόρησης March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 7

Αδόμητα (Κείμενα) vs. Δομημένα (Βάσεις) Δεδομένα το 1996 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 8

Αδόμητα (Κείμενα) vs. Δομημένα (Βάσεις) Δεδομένα το 2009 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 9

Αδόμητα Δεδομένα το 1680 Κεφάλαιο 1.1 Ποια έργα του Shakespeare περιέχουν τις λέξεις Brutus και Caesar αλλά όχι Calpurnia; (Brutus AND Caesar AND NOT Calpurnia) Μια λύση θα ήταν (?) η γραμμική σάρωση (grep) όλων των έργων αναζητώντας λέξεις Brutus και Caesar, και έπειτα αφαίρεση των γραμμών που περιέχουν το Calpurnia Γιατί δεν είναι κατάλληλη λύση; Είναι αργή (ειδικά για μεγάλες συλλογές) Το NOT Calpurnia δεν είναι εύκολο Άλλες πράξεις, όπως εύρεση των λέξεων Romans κοντά στο countrymen, δεν είναι εφικτές Ανάκτηση με κατάταξη (ranked retrieval) εύρεση των καλύτερων εγγράφων Επόμενα μαθήματα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 10

Κεφάλαιο 1.1 Μήτρα/Πίνακας Σύμπτωσης (Incidence Matrix) March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 11

Κεφάλαιο 1.1 Διανύσματα Σύμπτωσης (Incidence Vectors) Για κάθε όρο, έχουμε ένα διάνυσμα με 0/1 Για να απαντήσουμε το ερώτημα Βρίσκουμε τα διανύσματα για τους όρους Brutus, Caesar και Calpurnia Υπολογίζουμε το συμπλήρωμα του διανύσματος Calpurnia (010000 101111) Εκτελούμε την πράξη AND στα δυαδικά ψηφία των διανυσμάτων 110100 AND 110111 AND 101111 = 100100 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 12

Απαντήσεις στο Ερώτημα Κεφάλαιο 1.1 Antony and Cleopatra, Act III, Scene ii Agrippa [Aside to DOMITIUS ENOBARBUS]: Why, Enobarbus, When Antony found Julius Caesar dead, He cried almost to roaring; and he wept When at Philippi he found Brutus slain. Hamlet, Act III, Scene ii Lord Polonius: I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 13

Κεφάλαιο 1.1 Βασικές Υποθέσεις της Ανάκτησης Πληροφοριών Συλλογή (collection) ή σώμα εγγράφων (corpus) Ένα σταθερό σύνολο εγγράφων Στόχος Ανάκτηση εγγράφων που περιέχουν πληροφορία σχετική με την πληροφοριακή ανάγκη του χρήστη και υποβοηθά το χρήστη να ολοκληρώσει κάποια εργασία March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 14

Το Κλασικό Μοντέλο Αναζήτησης TASK Info Need Verbal form Query Misconception? Mistranslation? Misformulation? Get rid of mice in a politically correct way Info about removing mice without killing them How do I trap mice alive? mouse trap SEARCH ENGINE Query Refinement Results Corpus March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 15

Κεφάλαιο 1.1 Πόσο Καλά είναι τα Έγγραφα-Αποτελέσματα; Ακρίβεια (Precision) Ποιο ποσοστό επιστρεφόμενων αποτελεσμάτων είναι συναφές προς την ανάγκη πληροφόρησης; Ανάκληση (Recall) Ποιο ποσοστό των συναφών εγγράφων της συλλογής επιστρέφονται από το σύστημα; Σε επόμενα μαθήματα θα δούμε πιο λεπτομερείς ορισμούς και μέτρα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 16

Μεγαλύτερες Συλλογές Κεφάλαιο 1.1 Έστω Ν = 1.000.000 έγγραφα, που το καθένα περιλαμβάνει περίπου 1.000 λέξεις Αν θεωρήσουμε ότι κάθε λέξη έχει μέγεθος 6 byte κατά μέσο όρο (συμπεριλαμβανομένων των κενών διαστημάτων και της στίξης) 6 GB δεδομένα μέσα στα έγγραφα Ας υποθέσουμε ότι υπάρχουν Μ = 500.000 διακριτοί όροι σε αυτά τα έγγραφα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 17

Δεν είναι Εφικτή η Κατασκευή του Πίνακα Κεφάλαιο 1.1 500Κ x 1M σημαίνει μισό τρισεκατομμύριο ψηφία 0 και 1 Όμως δεν περιέχει πάνω από ένα δισεκατομμύριο 1 Ο πίνακας είναι εξαιρετικά αραιός Ποια θα ήταν μια καλύτερη αναπαράσταση; Γιατί; Να καταγράφουμε μόνο ότι πραγματικά υπάρχει, δηλαδή τις τιμές 1 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 18

Κεφάλαιο 1.2 Αντεστραμμένο Ευρετήριο (Inverted Index) Για κάθε όρο t, αποθηκεύουμε μια λίστα όλων των εγγράφων που περιέχουν τον όρο t Κάθε έγγραφο διαθέτει ένα μοναδικό αναγνωριστικό (docid) Μπορούμε να χρησιμοποιήσουμε πίνακες σταθερού μεγέθους για αυτό το σκοπό; Brutus 1 2 4 11 31 45 173174 Caesar 1 2 4 5 6 16 57 132 Calpurnia 2 31 54101 Τι θα συμβεί εάν η λέξη Caesar προστεθεί στο έγγραφο 14? March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 19

Αντεστραμμένο Ευρετήριο (Inverted Index) Χρειαζόμαστε λίστες καταχωρήσεων (postings lists) μεταβλητού μεγέθους Στο δίσκο, αποθηκεύονται ως (πιθανώς συμπιεσμένες) συνεχόμενες ακολουθίες καταχωρήσεων Στη μνήμη, μπορούν να χρησιμοποιηθούν συνδεδεμένες λίστες ή πίνακες μεταβλητού μεγέθους Posting Brutus Υπάρχουν tradeoffs μεγέθους/ευκολίας εισαγωγής νέων όρων Κεφάλαιο 1.2 1 2 4 11 31 45 173174 Caesar 1 2 4 5 6 16 57 132 Calpurnia 2 31 54101 Dictionary Postings Ταξινόμηση κατά docid (εξήγηση ακολουθεί). March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 20

Κεφάλαιο 1.2 Δημιουργία Αντεστραμμένων Ευρετηρίων Documents to be indexed Friends, Romans, countrymen. Tokenizer Token stream Friends Romans Countrymen More on these later. Linguistic modules Modified tokens Inverted index Indexer friend roman countryman friend roman countryman 2 4 1 2 13 16 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 21

Κεφάλαιο 1.2 Βήματα Ευρετηρίασης: Ακολουθία Συμβόλων Ακολουθία ζευγών (τροποποιημένο σύμβολο, document ID) Σύμβολο (token) Doc 1 Doc 2 I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 22

Κεφάλαιο 1.2 Βήματα Ευρετηρίασης: Ταξινόμηση Ταξινόμηση πρώτα κατά όρο Μετά κατά docid Core indexing step March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 23

Βήματα Ευρετηρίασης: Λεξικό & Καταχωρήσεις Κεφάλαιο 1.2 Πολλαπλές εμφανίσεις όρων στο ίδιο έγγραφο συγχωνεύονται σε ένα ιαχωρισμός σε λεξικό και καταχωρήσεις Προστίθεται και πληροφορία για τη συχνότητα εμφάνισης κάθε όρου Γιατί συχνότητα; Θα το δούμε αργότερα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 24

Κόστος Αποθήκευσης Κεφάλαιο 1.2 Lists of docids Terms and counts Pointers Σε επόμενα μαθήματα: Πώς φτιάχνουμε αποδοτικά ευρετήρια? Πόσο χώρο αποθήκευσης χρειαζόμαστε? March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 25

Κεφάλαιο 1.3 Σχετικά με το Ευρετήριο που Δημιουργήσαμε Πώς θα επεξεργαστούμε ένα ερώτημα; Αργότερα: τι είδους ερωτήματα μπορούμε να υποστηρίξουμε; Σημερινή διάλεξη March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 26

Επεξεργασία Ερωτημάτων AND Κεφάλαιο 1.3 Ας θεωρήσουμε το συζευκτικό ερώτημα Brutus AND Caesar Βήματα Εύρεση Brutus στο λεξικό Ανάκτηση των καταχωρήσεών του Εύρεση Caesar στο λεξικό Ανάκτηση των καταχωρήσεών του «Συγχώνευση» των καταχωρήσεων (= τομή των δύο λιστών) 2 4 8 16 32 64 1 2 3 5 8 13 21 128 34 Brutus Caesar March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 27

Συγχώνευση Κεφάλαιο 1.3 ιατρέχουμε τις δύο λίστες καταχωρήσεων ταυτόχρονα σε χρόνο γραμμικό ως προς τα μήκη των δύο λιστών 2 8 2 4 8 16 32 64 1 2 3 5 8 13 21 128 34 Brutus Caesar Εάν τα μήκη των λιστών είναι x και y, η συγχώνευση απαιτεί O(x+y) πράξεις. Σημαντικό: οι καταχωρήσεις ταξινομημένες κατά docid. March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 28

Αλγόριθμος Εύρεσης Τομής δύο Λιστών March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 29

Κεφάλαιο 1.3 Ερωτήματα Boole: Ακριβές Ταίριασμα Το μοντέλο ανάκτησης Boole επιτρέπει τη διατύπωση ερωτημάτων που αποτελούν μια λογική έκφραση Boole Τα ερωτήματα Boole χρησιμοποιούν AND, OR και NOT για να συνδέσουν όρους μεταξύ τους Θεωρούν το κάθε έγγραφο σαν ένα σύνολο λέξεων (bag of words) Κάνουν επακριβές ταίριασμα: το έγγραφο είτε ταιριάζει με τη συνθήκη ή όχι Ήταν το βασικό εμπορικό εργαλείο ανάκτησης για 3 δεκαετίες Πολλά συστήματα που χρησιμοποιούμε ακόμη υιοθετούν το ίδιο μοντέλο ανάκτησης E-mail, κατάλογοι βιβλιοθηκών, Mac OS X Spotlight March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 30

Παράδειγμα: WestLaw (http://www.westlaw.com) Κεφάλαιο 1.4 Ο μεγαλύτερος εμπορικός πάροχος υπηρεσιών αναζήτησης σε νομικά κείμενα (ξεκίνησε το 1975, από το 1992 υποστήριζε καταταγμένη αναζήτηση) εκάδες TB δεδομένων και 700Κ χρήστες Η πλειοψηφία των χρηστών ακόμη χρησιμοποιούν ερωτήματα Boole Παράδειγμα Απαιτήσεις που πρέπει να ικανοποιούνται ώστε άτομα με αναπηρία (disabled) να έχουν πρόσβαση (access) στο χώρο εργασίας τους (work site, work place) disab! /p access! /s work-site work place (employment /3 place) /3 εντός 3 λέξεων, /s στην ίδια πρόταση, /p στην ίδια παράγραφο March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 31

Παράδειγμα: WestLaw (http://www.westlaw.com) Κεφάλαιο 1.4 Το κενό διάστημα μεταξύ λέξεων υποδηλώνει διάζευξη, όχι σύζευξη Μακροσκελή ερωτήματα, επακριβή ερωτήματα, χρήση τελεστών εγγύτητας ιαφορετικά από την αναζήτηση στον Παγκόσμιο Ιστό (web search) Πολλοί χρήστες (ιδιαίτερα επαγγελματίες) προτιμούν τα μοντέλα ερωτημάτων Boole Ξέρουν ακριβώς τι είναι αυτό που ανακτούν Αυτό βέβαια δε σημαίνει ότι δουλεύει καλύτερα πραγματικά... March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 32

Ερωτήματα Boole: Πιο Σύνθετη Συγχώνευση Κεφάλαιο 1.3 Άσκηση: Προσαρμόστε τη συγχώνευση για τα ερωτήματα Brutus AND NOT Caesar Brutus OR NOT Caesar Μπορούμε ακόμη να κάνουμε τη συγχώνευση σε χρόνο Ο(x+y); Τι μπορούμε να καταφέρουμε; March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 33

Συγχώνευση Κεφάλαιο 1.3 Πώς επεξεργαζόμαστε μια οποιαδήποτε αυθαίρετη παράσταση ερωτήματος Boole; (Brutus OR Caesar) AND NOT (Antony OR Cleopatra) Μπορούμε πάντα να κάνουμε συγχώνευση σε «γραμμικό» χρόνο; Γραμμικός ως προς τι; Μπορούμε να κάνουμε κάτι καλύτερο; March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 34

Βελτιστοποίηση Ερωτήματος Κεφάλαιο 1.3 Ποια είναι η καλύτερη σειρά προσπέλασης των λιστών καταχωρήσεων; Ας θεωρήσουμε ένα ερώτημα n όρων που συνδυάζονται με τον τελεστή AND Για καθένα από τους n όρους, παίρνουμε τις καταχωρήσεις, και τις συνδυάζουμε με την πράξη AND Brutus Caesar 2 4 8 16 32 64 128 1 2 3 5 8 16 21 34 Calpurnia 13 16 Query: Brutus AND Calpurnia AND Caesar March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 35

Βελτιστοποίηση Ερωτήματος: Παράδειγμα Κεφάλαιο 1.3 Επεξεργασία όρων κατά αύξουσα σειρά συχνότητας εγγράφων Ξεκινούμε με την τομή των δύο μικρότερων λιστών καταχωρήσεων, άρα όλα τα ενδιάμεσα αποτελέσματα δε θα είναι μεγαλύτερα από τη μικρότερη λίστα Να γιατί διατηρούμε τη συχνότητα εγγράφων στο λεξικό Brutus Caesar Calpurnia 2 4 8 16 32 64 128 1 2 3 5 8 16 21 34 13 16 Το ερώτημα εκτελείται ως: (Calpurnia AND Brutus) AND Caesar. March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 36

Πιο Γενική Βελτιστοποίηση Κεφάλαιο 1.3 Π.χ. (madding OR crowd) AND (ignoble OR strife) Βρες τις συχνότητες εγγράφων για όλους τους όρους Εκτίμησε το μέγεθος του κάθε αποτελέσματος OR ως το άθροισμα των συχνοτήτων εγγράφων (συντηρητική προσέγγιση) Επεξεργασία σε αύξουσα σειρά των μεγεθών των OR αποτελεσμάτων March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 37

Άσκηση Προτείνετε σειρά εκτέλεσης για το ερώτημα: (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes) Term Freq eyes 213312 kaleidoscope 87009 marmalade 107913 skies 271658 tangerine 46653 trees 316812 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 38

Ασκήσεις Επεξεργασίας Ερωτημάτων Άσκηση: εάν το ερώτημα είναι friends AND romans AND (NOT countrymen), πώς μπορούμε να χρησιμοποιήσουμε τη συχνότητα του countrymen; Άσκηση: επεκτείνετε τη συγχώνευση ώστε να υποστηρίζει αυθαίρετα ερωτήματα Boole. Μπορούμε πάντα να εγγυηθούμε εκτέλεση σε χρόνο γραμμικό ως προς το συνολικό μήκος των καταχωρήσεων; Υπόδειξη: Ξεκινήστε με την περίπτωση ενός ερωτήματος Boole φόρμουλας όπου κάθε όρος εμφανίζεται μία μόνο φορά στο ερώτημα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 39

Άσκηση οκιμάστε την αναζήτηση στο http://www.rhymezone.com/shakespeare/ Σημειώστε 5 πράγματα που θεωρείτε ότι θα μπορούσε να κάνει καλύτερα March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 40

Πέρα από την Αναζήτηση Όρων Αναζήτηση φράσεων Stanford University Εγγύτητα: εύρεση Gates NEAR Microsoft Χρειαζόμαστε ευρετήριο που διατηρεί πληροφορία για τη θέση εμφάνισης όρων σε έγγραφα Ζώνες σε έγγραφα: εύρεση εγγράφων με (author = Ullman) AND (text contains automata) March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 41

Συσσώρευση Πειστηρίων Το μοντέλο Boole καταγράφει μόνο την παρουσία/απουσία όρων (1 vs. 0) 2 vs. 1 3 vs. 2 Συνήθως περισσότερες εμφανίσεις όρων φαίνεται να δίνουν μεγαλύτερη βαρύτητα στα έγγραφα Χρειαζόμαστε πληροφορίες συχνότητας όρων στις λίστες καταχωρήσεων (= πόσες φορές εμφανίζεται ένας όρος σε ένα κείμενο) March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 42

Κατάταξη Αποτελεσμάτων Αναζήτησης Τα ερωτήματα Boole απλώς ανακτούν το σύνολο των εγγράφων που ταιριάζουν με το ερώτημα Συχνά όμως θέλουμε μια αποτελεσματική μέθοδο διάταξης (ή κατάταξης) και ομαδοποίησης των αποτελεσμάτων Χρειάζεται μηχανισμός μέτρησης της εγγύτητας του ερωτήματος από κάθε έγγραφο Πρέπει να μπορούμε να αποφασίζουμε εάν τα έγγραφα που παρουσιάζονται στο χρήστη είναι ατομικές μονάδες ή μια ομάδα εγγράφων που πιάνουν διαφορετικές οπτικές του ερωτήματος March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 43

Ανάκτηση Πληροφορίας vs. Βάσεις Δεδομένων Δομημένα vs. Αδόμητα Δεδομένα ομημένα δεδομένα αναφέρονται σε πληροφορία που αποθηκεύεται σε πίνακες Employee Manager Salary Smith Jones 50000 Chang Smith 60000 Ivy Smith 50000 Επιτρέπουν ερωτήσεις εύρους και ακριβές ταίριασμα (για κείμενο), π.χ., Salary < 60000 AND Manager = Smith. March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 44

Αδόμητα Δεδομένα Αναφερόμαστε σε ελεύθερο κείμενο Επιτρέπουν Ερωτήματα λέξεων-κλειδιών με τελεστές Πιο περίπλοκα ερωτήματα «εννοιών», όπως Εύρεση όλων των ιστοσελίδων για drug abuse Είναι το κλασικό μοντέλο αναζήτησης σε έγγραφα κειμένου March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 45

Ημιδομημένα Δεδομένα Στην πραγματικότητα δεν υπάρχουν αδόμητα δεδομένα Π.χ. Αυτή η διαφάνεια έχει διακριτές ζώνες, όπως ο τίτλος και η λίστα (bullets) Επιτρέπουν «ημιδομημένη» αναζήτηση, όπως Ο Τίτλος περιέχει δεδομένα AND η λίστα αναζήτηση Και φυσικά υπάρχει και γλωσσολογική δομή...(αλλά δεν ασχολούμαστε με αυτό) March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 46

Πιο Προχωρημένη Ημιδομημένη Αναζήτηση Ο τίτλος είναι σχετικός με Object Oriented Programming AND ο συγγραφέας μοιάζει με stro*rup Όπου * είναι ο χαρακτήρας μπαλαντέρ Θέματα Πώς επεξεργαζόμαστε το «είναι σχετικός με»; Πώς κατατάσσουμε τα αποτελέσματα; Θα το δούμε στην «Ανάκτηση XML», κεφ.10 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 47

Συσταδοποίηση, Κατηγοριοποίηση και Κατάταξη Συσταδοποίηση (clustering) οθέντος ενός συνόλου εγγράφων, ομαδοποίησέ τα σε συστάδες με βάση το περιεχόμενό τους Κατηγοριοποίηση (classification) οθέντος ενός συνόλου κατηγοριών, και ενός νέου εγγράφου D, αποφάσισε σε ποια (ποιες) κατηγορία (κατηγορίες) ανήκει το D Κατάταξη (ranking) Μπορούμε να ανακαλύψουμε τον βέλτιστο τρόπο κατάταξης ενός συνόλου εγγράφων, π.χ. αποτελεσμάτων αναζήτησης March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 48

Ο Παγκόσμιος Ιστός και οι Προκλήσεις που κρύβει Ασυνήθιστα και ποικίλα έγγραφα Ασυνήθιστοι και ποικίλοι χρήστες, ερωτήματα, πληροφοριακές ανάγκες Πέρα από όρους, εκμετάλλευση ιδεών από κοινωνικά δίκτυα Ανάλυση υπερσυνδέσμων, clickstreams Πώς λειτουργούν οι μηχανές αναζήτησης; Πώς μπορούμε να τις βελτιώσουμε; March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 49

Πιο Προηγμένη Ανάκτηση Πληροφοριών ιαγλωσσική ανάκτηση πληροφοριών (Cross-language information retrieval) Συστήματα ερωταπαντήσεων (Question answering) ημιουργία περιλήψεων ή συνόψεων (Summarization) Εξόρυξη γνώσης από κείμενα (Text mining)... March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 50

Πηγές Αναφοράς Εισαγωγή στην Ανάκτηση Πληροφοριών, κεφάλαιο 1 Shakespeare: http://www.rhymezone.com/shakespeare/ Managing Gigabytes, chapter 3.2 Modern Information Retrieval, chapter 8.2 March 15, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 51