Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Σχετικά έγγραφα
Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Information Retrieval

Ευρετηρίαση ΜΕΡΟΣ ΙΙ

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing)

Δυναμικός Κατακερματισμός

2. Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων

Διάλεξη 18: Τεχνικές Κατακερματισμού I (Hashing)

Information Retrieval

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Information Retrieval

Οι λίστες, χάνοντας τα πλεονεκτήματα των πινάκων, λύνουν προβλήματα που παρουσιάζουν οι πίνακες

Πληροφορική 2. Δομές δεδομένων και αρχείων

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Πληροφορίας

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Εισαγωγή στο µάθηµα. Εισαγωγή στην Ανάκτηση Πληροφορίας. Απαιτήσεις του µαθήµατος

Διδάσκων: Παναγιώτης Ανδρέου

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

ΕΠΛ660. Ανάκτηση Πληροφοριών και. Μάριος. ικαιάκος και Γιώργος Πάλλης

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Ανάκτηση πληροφορίας

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

Διάλεξη 22: Δυαδικά Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου

Διάλεξη 11: Δέντρα Ι - Εισαγωγή σε Δενδρικές Δομές Δεδομένων

Διάλεξη 14: Δέντρα IV - B-Δένδρα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Cuckoo Hashing. Αλγόριθμοι και Πολυπλοκότητα. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

Διάλεξη 18: B-Δένδρα

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Πίνακες Κατακερματισμού. Hash Tables. Προγραμματισμός II 1

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Δομές Δεδομένων. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής. Δομές Δεδομένων. Τμήμα Εφαρμοσμένης Πληροφορικής

HY340, 2009 Α. Σαββίδης Slide 2 / 143. HY340, 2009 Α. Σαββίδης Slide 3 / 143. HY340, 2009 Α. Σαββίδης Slide 4 / 143

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Δυαδικά Δένδρα Αναζήτησης, Δένδρα AVL

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Κατακερματισμός. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Information Retrieval

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Διάλεξη 17: Δυαδικά Δέντρα. Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Information Retrieval

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ ΙΙ - UNIX. Συστήματα Αρχείων. Διδάσκoντες: Καθ. Κ. Λαμπρινουδάκης Δρ. Α. Γαλάνη

Διάλεξη 11: Δέντρα Ι Εισαγωγή σε Δενδρικές Δομές Δεδομένων

Ανάκτηση Πληροφορίας

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Διδάσκων: Κωνσταντίνος Κώστα

Ανάκτηση Πληροφορίας. Φροντιστήριο 3

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών

Κεφ.11: Ευρετήρια και Κατακερματισμός

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

Ανάκτηση Πληροφορίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΑΣΚΗΣΗ 5 Ανάπτυξη Προγράμματος Συμπίεσης/Αποσυμπίεσης Αρχείων

Βάσεις Δεδομένων ΙΙ Ενότητα 6

Δυναμική Διατήρηση Γραμμικής Διάταξης

Δομές Δεδομένων. Ενότητα 1 - Εισαγωγή. Χρήστος Γκουμόπουλος. Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων

13/5/2015 ΟΥΡΕΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ. Δομές Δεδομένων. Ουρές Προτεραιότητας

Εργαστήριο 2 Δυναμικές Δομές Δεδομένων Διδάσκοντες: Δρ. Γεώργιος Δημητρίου Δρ. Άχμεντ Μάχντι

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Βάσεις Δεδομένων Ι Ευρετήρια/Indexes. (...και επιδόσεις ΣΔΒΔ) Views (Όψεις) Φώτης Κόκκορας (MSc/PhD) Τμήμα Τεχνολογίας Πληροφορικής & Τηλεπ/νιών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Ανάκτηση Πληροφορίας

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Δομές Δεδομένων και Αλγόριθμοι

Διδάσκων: Κωνσταντίνος Κώστα

ΟΥΡΕΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Δομές Δεδομένων. Ενότητα 11: Τεχνικές Κατακερματισμού. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής.

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

Διάλεξη 16: Σωροί. Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ουρές Προτεραιότητας - Ο ΑΤΔ Σωρός, Υλοποίηση και πράξεις

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικές Δομές Δεδομένων Λίστες Δένδρα - Γράφοι

Transcript:

Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1

Phrase queries 2

Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university δηλαδή οι δυο όροι ως ενιαία φράση Επομένως, η πρόταση I went to university at Stanford δεν είναι έγκυρη απάντηση στο ερώτημα αυτό Η έννοια των ερωτημάτων φράσεως είναι εύκολα κατανοητή από τους χρήστες: περίπου το 10% των ερωτημάτων που υποβάλλονται στο Web είναι ερωτήματα φράσεως Συνεπώς, δεν επαρκεί ν αποθηκεύσουμε μόνο ζεύγη της μορφής <term : docs> 3

Μια πρώτη προσέγγιση: Biword indexes Φτιάχνουμε ευρετήριο για κάθε ζεύγος συνεχόμενων όρων στο έγγραφο Για παράδειγμα, από το κείμενο Friends, Romans, Countrymen θα παραγόταν τα ακόλουθα biwords friends romans romans countrymen Κάθε ένα από αυτά τα biwords θα εισαχθεί πλέον ως όρος στο dictionary Τώρα, η επεξεργασία ερωτημάτων που εμπλέκουν φράσεις αποτελούμενες από δυο μόνο όρους είναι εφικτή 4

Μεγαλύτερα ερωτήματα φράσεως Μεγαλύτερες φράσεις θα τις επεργαστούμε με τον ίδιο τρόπο όπως και τα wild-cards (στην επόμενη διάλεξη): stanford university palo alto μπορεί να σπάσει στο Boolean ερώτημα πάνω σε biwords: stanford university AND university palo AND palo alto Εάν δεν έχουμε στην διάθεσή μας τα πραγματικά έγγραφα, δεν μπορούμε να πιστοποιήσουμε ότι τα έγγραφα που ταιριάξανε με το προηγούμενο Boolean ερώτημα πράγματι περιέχουν την φράση Μπορεί να οδηγήζει ζε false positives! 5

Εκτεταμένα biwords Κάνουμε parse το indexed κείμενο και εκτελούμε part-of-speech-tagging (POST) Ομαδοποιούμε τους όρους σε (έστω) Nouns (N) και articles/prepositions (X) Τώρα, όποια ακολουθία όρων της μορφής NX*N ορίζεται ως extended biword Κάθε extended biword εισάγεται ως όρος στο dictionary Παράδειγμα : catcher in the rye N X X N Επεξεργασία ερωτήματος: κάνε parse σε N και X Σπάζουμε το ερώτημα σε enhanced biwords Ψάχνουμε στον index 6

Ζητήματα με τους biword indexes False positives (όπως προαναφέραμε) Εκθετική αύξηση του μεγέθους του index, εξαιτίας του μεγαλύτερου dictionary Σε έναν extended biword index, κάνουμε parse μεγάλα ερωτήματα σε συζεύξεις: Π.χ., το ερώτημα tangerine trees and marmalade skies γίνεται parse στο: tangerine trees AND trees and marmalade AND marmalade skies Δεν υπάρχει μια λύση για όλα (για κάθε biword) 7

Λύση 2: Positional indexes Αποθηκεύουμε για κάθε term, πλειάδεις της μορφής: <number of docs containing term; doc1: position1, position2 ; doc2: position1, position2 ; etc.> 8

Παράδειγμα positional index <be: 993427; 1: 7, 18, 33, 72, 86, 231; 2: 3, 149; 4: 17, 191, 291, 430, 434; 5: 363, 367, > Ποια από ηα έγγραθα 1,2,4,5 μπορεί να περιέτοσν ηην θράζη to be or not to be? Μπορούμε να συμπιέσουμε τις position values/offsets Παρόλ αυτά, το μέγεθος των postings αυξάνει ουσιαστικά 9

Επεξεργασία ενός phrase query Βρίσκουμε από τον inverted index τις λίστες για κάθε διακριτό όρο: to, be, or, not Συγχωνεύουμε τις λίστες τους doc:position για ν απαριθμήσουμε όλες τις θέσεις με το to be or not to be. to: be: 2:1,17,74,222,551; 4:8,16,190,429,433; 7:13,23,191;... 1:17,19; 4:17,191,291,430,434; 5:14,19,101;... Η ίδια γενική μέθοδος για ερωτήματα εγγύτητας (proximity searches) 10

Ερωτήματα εγγύτητας (proximity queries) LIMIT! /3 STATUTE /3 FEDERAL /2 TORT Εδώ, το /k σημαίνει within k words of Προφανώς, οι positional indexes μπορούν να χρησιμοποιηθούν για τέτοια ερωτήματα, ενώ οι biword indexes δεν μπορούν Άσκηση: Προσαρμόστε την γραμμική συγχώνευση των postings για να χειριστείτε proximity ερωτήματα Μπορείτε να το κάνετε αυτό να δουλεύει για οποιαδήποτε τιμή του k; 11

Μέγεθος ενός positional index Μπορούμε να συμπιέσουμε τις position values/offsets (θα το αναπτύξουμε σε επόμενη διάλεξη) Παρόλ αυτά, το μέγεθος των postings αυξάνει ουσιαστικά Όμως, χρησιμοποιείται ευρύτατα εξαιτίας τις ισχύως και της χρησιμότητας των phrase και των proximity ερωτημάτων 12

Μέγεθος ενός positional index Χρειαζόμαστε ένα entry για κάθε εμφάνιση του όρου σε κάποιο έγγραφο, όχι απλά ένα entry για κάθε έγγραφο Το μέγεθος του index εξαρτάται από το μέγεθος του μέσου εγγράφου Η μέση Web σελίδα έχει <1000 όρουςterms SEC filings, βιβλία, ακόμη και κάποια επικά ποιήματα εύκολα 100,000 όρους Θεωρήστε έναν όρο με συχνότητα 0.1% Document size Postings Γιατί; Positional postings 1000 100,000 1 1 1 100 13

Εμπειρικοί κανόνες Ένας positional index είναι 2 4 φορές τόσο μεγάλος όσο μεγάλος είναι ένας non-positional index Το μέγεθος του positional index είναι 35 50% του μεγέθους της αρχικής συλλογής των εγγράφων Τουλάχιστον, αυτά ισχύουν για αγγλογενείς γλώσσες 14

Sec. 3.1 Δομές δεδομένων για το dictionary ενός inverted index Η δομή δεδομένων για το dictionary αποθηκεύει το vocabulary των όρων, την document frequency, δείκτη στην αντίστοιχη postings list ποια μπορεί να είναι η μορφή της δομής δεδομένων; 15

Sec. 3.1 Ένα απλοϊκό dictionary Ως πίνακας από struct: char[20] int Postings * 20 bytes 4/8 bytes 4/8 bytes Πώς το αποθηκεύουμε αποδοτικά στην μνήμη; Πώς ψάχνουμε γρήγορα για έναν όρο όταν υποβληθεί κάποιο ερώτημα (at query time); 16

Sec. 3.1 Δομές δεδομένων για το Dictionary Δυο κύριες επιλογές: Πίνακας κατακερματισμού (hash table) Δένδρο Μερικά συστήματα IR χρησιμοποιούν hashes, κάποια άλλα χρησιμοποιούν δένδρα 17

Sec. 3.1 Hashes Κάθε όρος στο vocabulary γίνεται hashed σε κάποιον integer Πλεονεκτήματα: Η λειτουργία αναζήτησης είναι ταχύτερη από την αντίστοιχη σ ένα δένδρο: O(1) Μειονεκτήματα: Δεν υπάρχει εύκολος τρόπος να βρεθούν όροι με ελαφρές παραλλαγές μεταξύ τους: judgment/judgement Δεν υποστηρίζει prefix search [tolerant retrieval] Εάν το vocabulary μεγαλώνει συνεχώς, προκύπτει η ανάγκη να εκτελείται περιστασιακά η ακριβή λειτουργία του rehashing όλων 18

Sec. 3.1 Δένδρο: Δυαδικό δένδρο (binary tree) a-m Root n-z a-hu hy-m n-sh si-z 19

Sec. 3.1 Δένδρο: B-tree a-hu hy-m n-z Ορισμός: Κάθε εσωτερικός κόμβος έχει έναν αριθμό παιδιών με τιμές στο διάστημα [a,b], όπου a, b είναι κατάλληλοι φυσικοί αριθμοί, π.χ., [2,4]. 20

Sec. 3.1 Δένδρα Απλούστερο: binary tree Πιο σύνηθες: B-tree Τα δένδρα απαιτούν εγγενή διάταξη μεταξύ των χαρακτήρων Πλεονεκτήματα: Λύνει το prefix problem Μειονεκτήματα: Πιο αργά: O(log M) [για balanced δένδρο μόνο] Η λειτουργία rebalancing σε binary trees είναι ακριβή Τα B-trees αμβλύνουν το rebalancing πρόβλημα 21