Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Σχετικά έγγραφα
Information Retrieval

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.

3. Λεξικά & Ανάκτηση Ανεκτική σε Σφάλματα

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.

Information Retrieval

Information Retrieval

Information Retrieval

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ανεκτική αναζήτηση. ηµιουργία Ευρετηρίου. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκτηση Πληροφορίας

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Information Retrieval

Information Retrieval

Επανάληψη προηγούμενης διάλεξης

Ευρετηρίαση ΜΕΡΟΣ ΙIΙ. Επεξεργασία Κειμένου

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Information Retrieval

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Information Retrieval

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

ΠΛΗΚΤΡΟΛΟΓΙΟ. Η ελληνική διάταξη πλήκτρων είναι η παρακάτω (δεν υπάρχουν άλλες διατάξεις για το ελληνικό αλφάβητο):

Βάσεις εδοµένων & Πολυµέσα

Insert (P) : Προσθέτει ένα νέο πρότυπο P στο λεξικό D. Delete (P) : Διαγράφει το πρότυπο P από το λεξικό D

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

DELETE, UPDATE, INSERT

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

Ανάκτηση Πληροφορίας

Επεξεργασία Ερωτήσεων

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκτηση Πληροφορίας

DELETE, UPDATE, INSERT.

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

on οι εκκρεμότητές μου 1

Ανάκτηση Πληροφορίας (Information Retrieval IR)

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

ΓΕΝΙΚΗ ΓΡΑΜΜΑΤΕΙΑ ΗΜΟΣΙΩΝ ΕΠΕΝ ΥΣΕΩΝ & ΕΣΠΑ ΕΘΝΙΚΗ ΑΡΧΗ ΣΥΝΤΟΝΙΣΜΟΥ ΕΙ ΙΚΗ ΥΠΗΡΕΣΙΑ Ο.Π.Σ.

ΓΕΝΙΚΗ ΓΡΑΜΜΑΤΕΙΑ ΔΗΜΟΣΙΩΝ ΕΠΕΝΔΥΣΕΩΝ & ΕΣΠΑ

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Θέμα: Ανάπτυξη Βασικής Πλατφόρμας για Υπηρεσίες με Βάση το Προφίλ και τη Θέση (Profile & Location Based Services)

Ανάκτηση Πληροφορίας

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Βάσεις δεδομένων (Access)

Διαχείριση Web Περιεχομένου & Γλωσσικά Εργαλεία

Διάλεξη 18: Πρόβλημα Βυζαντινών Στρατηγών. ΕΠΛ 432: Κατανεμημένοι Αλγόριθμοι

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Κεφάλαιο 6 ο Εισαγωγή στον Προγραμματισμό 1

Αξιοποίηση της συσχέτισης μεταξύ λέξεων για τη βελτίωση του προσεγγιστικού φιλτραρίσματος πληροφορίας

Επανάληψη προηγούμενης διάλεξης

Social Web: lesson #4

Επεξεργασία ερωτημάτων

Πετράκης Κώστας ΓΤΠ-61 Μάρτιος 2015

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

Ηλεκτρονικοί Υπολογιστές II

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

9η Εργαστηριακή Άσκηση: Stored Procedures - Triggers. Αποθηκευμένες Διαδικασίες (Stored Procedures):

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Ανάκτηση Πληροφορίας

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Γλώσσες & Τεχνικές 4 ο Εξάμηνο. - Ενότητα 1 - Δημοσθένης Σταμάτης

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Βιοπληροφορική. Ενότητα 8: Αναζήτηση Ομοιοτήτων σε Βάσεις Δεδομένων Ακολουθιών, 2 ΔΩ. Τμήμα: Βιοτεχνολογίας Όνομα καθηγητή: Τ.

ΓΕΝΙΚΗ ΓΡΑΜΜΑΤΕΙΑ ΗΜΟΣΙΩΝ ΕΠΕΝ ΥΣΕΩΝ & ΕΣΠΑ ΕΘΝΙΚΗ ΑΡΧΗ ΣΥΝΤΟΝΙΣΜΟΥ ΕΙ ΙΚΗ ΥΠΗΡΕΣΙΑ Ο.Π.Σ.

ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ Ι

Ψηφιακή Επεξεργασία Σημάτων

Δυναμικός Κατακερματισμός

ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ I

Outline. 6 Edit Distance

Μαλούτα Θεανώ Σελίδα 1

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΛΗΡΟΦΟΡΙΚΗ Ι (MATLAB) Ενότητα 1

Εργαστήριο Σημασιολογικού Ιστού

Βάσεις δεδομένων και Microsoft Access

Οδηγός Εγκατάστασης και Χρήσης του Arebas Easy

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2. Α1. Ο αλγόριθμος είναι απαραίτητος μόνο για την επίλυση προβλημάτων πληροφορικής

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Πανεπιστήμιο Πειραιώς Τμήμα Ψηφιακών Συστημάτων Μανουσόπουλος Χρήστος

Field Service Management ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ

Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων -

Βασικές Εντολές SQL. Θεωρία & Εντολές SQL. Γραμμή Εντολών MS-DOS (MySQL)

SilverPlatter WebSPIRS 4.1.

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ - ΓΛΩΣΣΑ

Διαδικτυακές Εφαρμογές Ενότητα 7: Προσπέλαση ΒΔ με το JDBC

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Ανάκτηση Πληροφορίας

Transcript:

Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 6η: 08/03/2016 1

Διόρθωση πληκτρολόγησης 2

Sec. 3.3 Διόρθωση πληκτρολόγησης Δυο κύριες χρήσεις Διόρθωση εγγράφων που θα εισαχθούν στον inverted index Διόρθωση ερωτημάτων χρηστών για ν ανακτηθούν οι σωστές απαντήσεις ε δυο γεύσεις: Μεμονωμένη λέξη Έλγχος κάθε λέξης για σφάλματα Δεν θα εντοπίσει σφάλματα που εμπλέκουν σωστές λέξεις Π.χ., from form Ευαισθησία στο περιβάλλον της λέξεως Έλεγχος και των περιβαλλόντων λέξεων Π.χ., I flew form Heathrow to Narita 3

Sec. 3.3 Διόρθωση εγγράφου Ειδικά χρήσιμο για έγγραφα που προέκυψαν από διαδικασίες OCR Ειδικοί αλγόριθμοι διόρθωσης Μπορεί να χρησιμοποιηθεί γνώση ειδική σε κάθε πεδίο Π.χ., το OCR μπορεί να μπερδέψει το O και D συχνότερα από ότι το O με το I (πλαϊνά στο QWERTY πληκτρολόγιο) Web pages και τυπωμένο κείμενο έχουν λάθη τόχος: το dictionary να περιέχει λιγότρεα misspellings Αλλά συχνά δεν αλλάζουμε τα έγγραφα, αλλά στοχεύσουμε να διορθώσουμε την αντιστοίχιση ερωτήματος-εγγράφου 4

Sec. 3.3 Mis-spellings σε ερωτήματα Σο κύριο ενδιαφέρον μας Π.χ., το ερώτημα dimitros katsaros Μπορούμε είτε να Ανακτήστουμε τα έγγραφα που θα προέκυπταν από το σωστό spelling, ή Επιστρέψουμε συστάσεις εναλλακτικών ερωτημάτων με το ορθό spelling Did you mean dimitrios katsaros? 5

Sec. 3.3.2 Διόρθωση μεμονωμένης λέξεως Θεμελιώδης προϋπόθεση υπάρχει ένα lexicon από το οποίο προκύπτουν τα ορθά spellings Δυο βασικές επιλογές γι αυτό Ένα τυπικό lexicon όπως το: Webster s English Dictionary Ένα ειδικο βιομηχανικό lexicon συντηρούμενο χειρωνακτικά Σο lexicon της indexed συλλογής εγγράφων Π.χ., όλες οι λέξεις του Web Όλα τα ονόματα, ακρωνύμια, κ.τ.λ. (Περιλαμβανομένων των mis-spellings) 6

Sec. 3.3.2 Διόρθωση μεμονωμένης λέξεως Δεδομένου ενός lexicon και μιας ακολουθίας χαρακτήρων Q, επίστρεψε τις λέξεις του lexicon που ειναι κοντινότερες στην Q Σι σημαίνει κοντινότερη ; Θα μελετήσουμε διάφορες εναλλακτικές Edit distance (Levenshtein distance) Weighted edit distance Επικάλυψη n-gram 7

Sec. 3.3.3 Edit distance Δεδομένων δυο strings S 1 και S 2, ο ελέχιστος αριθμός λειτουργιών που απαιτείται για να μετατραπεί το ένα στο άλλο Οι λειτουργίες είναι συνήθως σε επίπεδο χαρακτήρα Insert, Delete, Replace, (Transposition) Π.χ., η edit distance από το dof στο dog είναι 1 Από το cat στο act είναι 2 Από το cat στο dog είναι 3. (Μόνο 1 με transpose) Τπολογίζεται με δυναμικό προγραμματισμό Δείτε http://www.let.rug.nl/kleiweg/lev/ http://www.ripelacunae.net/projects/levenshtein/ 8

Sec. 3.3.3 Weighted edit distance Όπως προηγουμένως, αλλά το βάρος μιας λειτουργίας εξαρτάται από τον/τους χαρακτήρα/ρες που εμπλέκονται Για να πιάσει λάθη OCR ή πληκτρολόγησης, π.χ., το m είναι πιο πιθανό να γίνει mis-typed ως n παρά ως q Επομένως, αντικαθιστώντας το m με το n έχει ως συνέπεια μικρότερη edit distance από ότι το q Απαιτεί πίνακα βαρών ως είσοδο Σροποποίηση του δυναμικού προγραμματισμού για τον χειρισμό βαρών 9

Sec. 3.3.4 Χρήση της edit distances Δεδομένου ενός ερωτήματος, πρώτα απαριθμούμε όλες τις ακολουθίες χαρακτήρων που απέχουν μια προκαθορισμένη (weighted) edit distance (π.χ., 2) Σέμνουμε αυτό το σύνολο με την λίστα των σωστών λέξεων Δείχνουμε στον χρήστη τους όρους που βρέθηκαν Εναλλακτικά, Βρίσκουμε όλα τα έγγραφα που ταιριάζουν με όλες τις πιθανές διορθώσεις (πολύ αργή επιλογή) Εκτελούμε την πιο πιθανό διόρωση Οι εναλλακτικές στερούν δύναμη από τον χρήστη, αλλά γλιτώνουν επιπλέον αλληλεπίδραση 10

Edit distance προς όλους τους όρους του dictionary; Δεδομένου ενός (mis-spelled) ερωτήματος πρέπει να υπολογίσουμε την edit distance του προς κάθε όρου του dictionary; Ακριβό και αργό Εναλλακτικές; Πώς ελαττώνουμε το σύνολο των υποψηφίων όρων του dictionary; Μια δυνατότητα είναι να χρησιμοποιήσουμε την επικάλυψη των n-gram 11

Sec. 3.3.4 n-gram overlap Απαριθμούμε όλα τα n-grams του υποβληθέντος ερωτήματος, καθώς επίσης και στο lexicon Χρησιμοποιούμε τον n-gram index (θυμηθείτε την αναζήτηση με wild-cards) για να ανακτήσουμε όλους τους όρους του lexicon που ταιριάζουν με οποιοδήποτε από τα n-grams του ερωτήματος Θέτουμε ένα κατώφλι στον αριθμό των n-grams που ταιριάζουν 12

Sec. 3.3.4 Παράδειγμα με trigrams Τποθέστε ότι το κείμενο είναι το november Σα trigrams είναι τα: nov, ove, vem, emb, mbe, ber Σο ερώτημα είναι το december Σα trigrams είναι τα: dec, ece, cem, emb, mbe, ber υνεπώς, 3 trigrams επικαλύπτονται (από το σύνολο των 6 σε κάθε όρο) Πώς μπορούμε να μετατρέχουμε αυτό σε ένα κανονικοποιημένο μέτρο επικάλυψης; 13

Sec. 3.3.4 Μια επιλογή υντελεστής Jaccard Ένα κοινώς χρησιμοποιούμενο μέτρο επικάλυψης Έστωσαν X και Y δυο σύνολα, τότε ο J.C. ορίζεται ως: X Y / X Y Ισούται με 1, όταν τα X και Y έχουν τα ίδια στοιχεία, και με 0 όταν είναι διακριτά Σα X και Y δεν είναι ανάγκη να είναι ίδιου μεγέθους Δίνει ως αποτέλεσμα έναν αριθμό μεταξύ 0 και 1 Θέτουμε ένα κατώφλι για να αποφασίσουμε εάν υπάρχει ταίριασμα Π.χ., εάν J.C. > 0.8, δηλώνουμε ταίριασμα 14

Sec. 3.3.4 Matching trigrams Θεωρήστε το ερώτημα lord επιθυμούμε να αναγνωρίσουμε λέξεις που ταιριάζουν με 2 από τα 3 bigrams της (lo, or, rd) lo or rd alone lord sloth border lord morbid ardent border card Η γνωζηή διαδιακζία ζσγτώνεσζης ηων postings θα κάνει ηην απαρίθμηζη 15

Sec. 3.3.5 Διόρθωση εξαρτώμενη από το περιβάλλον Κείμενο: I flew from Heathrow to Narita. Θεωρήστε το ερώτημα φράσεως flew form Heathrow Θα επιθυμούσαμε να αποκριθούμε ως εξής: Did you mean flew from Heathrow? επειδή κανένα έγγραφο δεν ταίριαξε με το ερώτημα φράσεως 16

Sec. 3.3.5 Διόρθωση εξαρτώμενη από το περιβάλλον Χρειαζόμαστε γνώση του περιβάλλοντος για να το κάνουμε Πρώτη ιδέα: ανάκτηση των όρων του dictionary που είναι κοντινοί (με όρους της weighted edit distance) σε κάθε όρο του ερωτήματος Δοκιμάζουμε όλες τις δυνατές προκύπτουσες φράσεις διορθώνοντας έναν όρο κάθε φορά flew from heathrow fled form heathrow flea form heathrow Hit-based spelling correction: υστήνουμε την εναλλακτική που έχει πολλά hits (δηλαδή επιστρέφει τα πιο πολλά έγγραφα) 17

Sec. 3.3.5 Μια άλλη προσέγγιση Διάσπαση του ερωτήματος φράσεως σε σύζευξη biwords (προηγούμενες διαλέξεις) Αναζήτηση για biwords που απαιτούν διόρθωση μόνο ενός όρου Απαρίθμηση ταιριασμάτων φράσεων και διάταξη αυτών! 18

Sec. 3.3.5 Γενικά ζητήματα στην διόρθωση Απαριθμούμε πολλαπλές εναλλακτικές για το Did you mean? Πρέπει ν αποφασίσουμε ποια εναλλακτική θα παρουσιάσουμε στον χρήστη Χρήστη ευριστικών Η εναλλακτική που επιστρέφει τα πιο πολλά έγγραφα Query log analysis + tweaking Για εξαιρετικά δημοφιλή, topical ερωτήματα Η διόρθωση είναι εξαιρετικά ακριβή υπολογιστικά Ν αποφεύγεται η εκτέλεσή της για κάθε ερώτημα Να εκτελείται μόνο για τα ερωτήματα που επέστρεψαν πολύ λίγα έγγραφα 19

ΤΓΚΕΝΣΡΩΣΙΚΑ: Ποια ερωτήματα μπορούμε να επεξεργαστούμε; Έχουμε λοιπόν Positional inverted index με skip δείκτες Wild-card ευρετήριο Διόρθωση πληκτρολόγησης Soundex Ερωτήματα όπως: (SPELL(moriset) /3 toron*to) OR SOUNDEX(chaikofski) 20