Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Σχετικά έγγραφα
Information Retrieval

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

Information Retrieval

3. Λεξικά & Ανάκτηση Ανεκτική σε Σφάλματα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.

Information Retrieval

Ευρετηρίαση ΜΕΡΟΣ ΙΙ

Information Retrieval

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Information Retrieval

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ανεκτική αναζήτηση. ηµιουργία Ευρετηρίου. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Επανάληψη προηγούμενης διάλεξης

Επανάληψη προηγούμενης διάλεξης

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Κεφ.11: Ευρετήρια και Κατακερματισμός

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Information Retrieval

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας

2.1. Εντολές Σχόλια Τύποι Δεδομένων

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Python & NLTK: Εισαγωγή

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Γ7.5 Αλγόριθμοι Αναζήτησης. Γ Λυκείου Κατεύθυνσης

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΗΥ360 Αρχεία και Βάσεις εδοµένων

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Ανάκτηση Πληροφορίας

4. Κατασκευή Ευρετηρίου

Microsoft ACCESS ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ECDL. Περιεχόμενα. Απόκτησε τώρα το δίπλωμα. για να θεωρείσαι Επαγγελματίας! 1 Κατανόηση Βάσεων. 2 Χρήση της Εφαρμογής

Insert (P) : Προσθέτει ένα νέο πρότυπο P στο λεξικό D. Delete (P) : Διαγράφει το πρότυπο P από το λεξικό D

Social Web: lesson #4

LALING/PLALING :

Διάλεξη 14: Δέντρα IV - B-Δένδρα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Βάσεις Δεδομένων 2η εργαστηριακή άσκηση

Διδάσκων: Παναγιώτης Ανδρέου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Δυαδικά Δένδρα Αναζήτησης, Δένδρα AVL

SilverPlatter WebSPIRS 4.1.

Διάλεξη 3: Προγραμματισμός σε JAVA I. Διδάσκων: Παναγιώτης Ανδρέου

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Βάσεις Δεδομένων ΙΙ Ενότητα 5

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Ανάκτηση Πληροφορίας. Φροντιστήριο 2

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Διάλεξη 22: Δυαδικά Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου

Πληροφορική 2. Δομές δεδομένων και αρχείων

Δεντρικά Ευρετήρια. Δέντρα Αναζήτησης

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

Μπαλτάς Αλέξανδρος 21 Απριλίου 2015

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1

Συγχώνευση αλληλογραφίας και συγχώνευση μιας πηγής δεδομένων με ένα κύριο έγγραφο όπως ένα γράμμα ή ένα έγγραφο ετικετών

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Ακαδημαϊκό έτος ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΤΗΡΙΟΥ #4

Ανάκτηση πληροφορίας

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) MASTER IN OFFICE microsoft access ΕΚΔΟΣΗ 1.0. Σόλωνος 108,Τηλ Φαξ

Διάλεξη 12: Δέντρα ΙΙ Δυαδικά Δέντρα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

ΘΕΜΑΤΑ ΤΕΛΙΚΗΣ ΦΑΣΗΣ

Διάλεξη 18: Τεχνικές Κατακερματισμού I (Hashing)

εντρικά Ευρετήρια έντρα Αναζήτησης

Εργαστήριο 2. Δημιουργία πινάκων Ιδιότητες πεδίων. Ευάγγελος Γ. Καραπιδάκης

ΜΥΥ105: Εισαγωγή στον Προγραμματισμό. Αναζήτηση και Ταξινόμηση Χειμερινό Εξάμηνο 2016

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

3ο σετ σημειώσεων - Πίνακες, συμβολοσειρές, συναρτήσεις

Ενότητα 7 Ουρές Προτεραιότητας

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Ανάκτηση Πληροφορίας

Αναζήτηση Πληροφοριών στο Διαδίκτυο

Περιεχόμενα. Μέρος 1: Βασικές έννοιες Πληροφορικής και επικοινωνιών Μέρος 2: Χρήση υπολογιστή και διαχείριση αρχείων Πρόλογος...

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Microsoft Excel Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26

ΤΟ MICROSOFT WORD XP. Ας ξεκινήσουμε λοιπόν!

Transcript:

Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 5η: 06/03/2017 1

WILD-CARD Ερωτήματα 2

Sec. 3.2 Ερωτήματα με χαρακτήρες wild-card: * mon*: να βρεθούν όλα τα έγγραφα που περιέχουν οποιαδήποτε λέξη αρχίζει με mon Εύκολο με binary tree (ή B-tree) lexicon: ανάκτηση όλων των λέξεων στην range: mon w < moo *mon: να βρεθούν όλα τα έγγραφα που περιέχουν οποιαδήποτε λέξη τελειώνει σε mon Διατήρηση ενός ακόμη B-tree για τους όρους ανάστροφα Μπορεί ν ανακτήσει όλες τις λέξεις στην range: nom w < non. Άζκεζε: Με βάζε αςηά, πώρ μποπούμε να ενηοπίζοςμε όλερ ηιρ λέξειρ πος ικανοποιούν ηο wild-card επώηεμα pro*cent? 3

Sec. 3.2 Επεξεργασία ερωτήματος Μέχρι στιγμής επιτύχαμε την απαρίθμηση όλων των όρων του dictionary που ταιριάζουν με το wild-card ερώτημα Πρέπει όμως να ψάξουμε και την αντίστοιχη postings για κάθε τέτοιο όρο Π.χ., θεωρήστε το ερώτημα: se*ate AND fil*er Μπορεί να οδηγήσει στην εκτέλεση πολλαπλών Boolean AND ερωτημάτων 4

Sec. 3.2 Τα B-trees χειρίζονται * στο τέλος ενός όρου ερωτήματος Πώς μπορούμε να χειριστούμε * στο μέσον ενός όρου ερωτήματος; co*tion Θα μπορούσαμε να ψάξουμε για co* AND *tion σε ένα B-tree και να εκτελέσουμε συγχώνευση των δυο συνόλων όρων Είναι ακριβή επιλογή Η λύση: μετασχηματισμός των wild-card ερωτημάτων, έτσι ώστε τα * να προκύπτουν στο τέλος Έτσι προκύπτει το Permuterm ευρετήριο 5

Sec. 3.2.1 Permuterm index Τον όρο hello, κάντε τον index κάτω από όλα τα παρακάτω: hello$, ello$h, llo$he, lo$hel, o$hell όπου $ είναι ένας ειδικός χαρακτήρας Ερωτήματα: X lookup on X$ X* lookup on $X* *X lookup on X$* *X* lookup on X* X*Y lookup on Y$X* X*Y*Z Επώηεμα = hel*o X=hel, Y=o Αναδήηεζε o$hel* 6

Sec. 3.2.1 Επεξεργασία ερωτήματος στον Permuterm Περιστροφή το wild-card του ερωτήματος προς τα δεξιά Κάντε χρήση ενός B-tree lookup για αναζήτηση, όπως πριν Permuterm problem: quadruples lexicon size Εμπειπική παπαηήπεζε για ηα Αγγλικά 7

Sec. 3.2.2 Bigram (k-gram) ευρετήρια Απαρίθμηση όλων των k-grams (ακολουθία k χαρακτήρων) που προκύπτουν σε έναν όρο Π.χ., από το κείμενο April is the cruelest month προκύπτουν τα ακόλουθα 2-grams (bigrams) $a,ap,pr,ri,il,l$,$i,is,s$,$t,th,he,e$,$c,cr,ru, ue,el,le,es,st,t$, $m,mo,on,nt,h$ $ είναι ένα ειδικό σύμβολο διαχωριστικό λέξεων Διατηρούμε έναν δεύτερο inverted index από bigrams προς dictionary terms που ταιριάζουν κάθε bigram 8

Sec. 3.2.2 Παράδειγμα ευρετηρίου Bigram Το k-gram ευρετήριο βρίσκει όρους βασισμένους στο ερώτημα που αποτελείται από k-grams (εδώ k=2) $m mace madden mo on among among amortize around 9

Sec. 3.2.2 Επεξεργασία wild-cards Το ερώτημα mon* μπορεί πλέον να εκετελεστεί ως $m AND mo AND on Επιστρέφει όρους που ταιριάζουν με την AND εκδοχή του wildcard ερωτήματος Αλλά, θα βρίσκαμε και το moon Πρέπει να εκτελέσουμε μετα-διήθηση (post-filter) των όρων σε σχέση με το αρχικό διατυπωθέν ερώτημα Οι επιβιώσαντες όροι αναζητούνται στον termdocument inverted index Γρήγορα, αποδοτικά σε χώρο, ως προς τον permuterm 10

Sec. 3.2.2 Επεξεργασία wild-card ερωτημάτων Πρέπει να εκτελέσουμε ένα Boolean ερώτημα για κάθε enumerated, filtered όρο Τα wild-cards μπορεί να έχουν ως αποτέλεσμα ακριβή εκτέλεση ερωτήματος pyth* AND prog* Εάν επιτραπεί laziness, σίγουρα θα αξιοποιηθεί! Type your search terms, use * if you need to. E.g., Alex* will match Alexander. Search Ποιες μηχανές αναζήτησης επιτρέπουν wildcard ερωτήματα; 11

SOUNDEX 12

Sec. 3.4 Soundex Συλλογή ευριστικών για να επεκτείνουμε ένα ερώτημα σε φωνητικά ισοδύναμα Ειδικά σε κάθε γλώσσα κυρίως για ονόματα Π.χ., chebyshev tchebycheff Επινοήθηκε για το U.S. census το 1918 13

Sec. 3.4 Soundex τυπικός αλγόριθμος Μετατροπή κάθε token που θα μπεί στον index σε μια ελαττωμένη μορφή των 4 χαρακτήρων Κάνουμε το ίδιο και για τους όρους του ερωτήματος Χτίζουμε και ψάχνουμε σε έναν index με τους ελαττωμένους όρους (όταν το ερώτημα σχετίζεται με ακουστικό ταίριασμα) http://www.creativyst.com/doc/articles/soundex1/soundex1.htm#top 14

Sec. 3.4 Soundex τυπικός αλγόριθμος 1. Διατηρούμε το πρώτο γράμμα κάθε λέξης 2. Αλλάζουμε όλες τις εμφανίσεις των ακόλουθων γραμμάτων σε '0' (μηδέν): 'A', E', 'I', 'O', 'U', 'H', 'W', 'Y'. 3. Αλλάζουμε γράμματα σε ψηφία ως εξής: B, F, P, V 1 C, G, J, K, Q, S, X, Z 2 D,T 3 L 4 M, N 5 R 6 15

Sec. 3.4 Soundex (συνέχεια) 4. Διαγράφουμε όλα τα ζεύγη συνεχόμενων ψηφίων 5. Διαγράφουμε όλα τα μηδενικά από το προκύπτον string 6. Γεμίζουμε το προκύπτον string με trailing μηδενικά και επιστρέφουμε τις 4 πρώτες θέσεις, οι οποίες θα είναι της μορφής <κεφαλαίο γράμμα> <ψηφίο> <ψηφίο> <ψηφίο> Π.χ., Herman γίνεται H655 Το hermann παπάγει ηον ίδιο κωδικό; 16

Sec. 3.4 Soundex Ο Soundex είναι ένας κλασικός αλγόριθμος, παρέχεται από πολλά DBMSs (Oracle, Microsoft, ) Πόσο χρήσιμος είναι ο soundex; Όχι ιδιαίτερα για το IR OK για high recall δουλειές (π.χ., Interpol), παρόλο που είναι πολωμένος προς ονόματα κάποιων εθνικοτήτων Οι Zobel and Dart (1996) έδειξαν ότι κάποιοι άλλοι αλγόριθμοι για φωνητικό ταίριασμα αποδίδουν καλύτερα στα πλαίσια της IR 17