Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Σχετικά έγγραφα
Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

2. Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

Information Retrieval

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

Information Retrieval

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

Ανάκτηση Δεδομένων (Information Retrieval)

ΕΠΛ660. Ανάκτηση Πληροφοριών και. Μάριος. ικαιάκος και Γιώργος Πάλλης

SilverPlatter WebSPIRS 4.1.

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

TOOLBOOK (μάθημα 2) Δεκηνπξγία βηβιίνπ θαη ζειίδσλ ΠΡΟΑΡΜΟΓΗ: ΒΑΛΚΑΝΙΩΣΗ ΔΗΜ. ΕΚΠΑΙΔΕΤΣΙΚΟ ΠΕ19 1 TOOLBOOK ΜΑΘΗΜΑ 2

Introduction to Information Retrieval

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Άμεσοι Αλγόριθμοι: Προσπέλαση Λίστας (list access)

Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών

ΘΔΚΑ ΡΖΠ ΑΛΑΓΛΩΟΗΠΖΠ

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Εισαγωγή Κεφάλαιο 1: Εγκατάσταση της Access Κεφάλαιο 2: Βάσεις δεδομένων και δομικά στοιχεία της Access

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Εισαγωγή στο µάθηµα. Εισαγωγή στην Ανάκτηση Πληροφορίας. Απαιτήσεις του µαθήµατος

Δξγαιεία Καηαζθεπέο 1 Σάμε Σ Δ.Κ.Φ.Δ. ΥΑΝΙΧΝ ΠΡΧΣΟΒΑΘΜΙΑ ΔΚΠΑΙΓΔΤΗ. ΔΝΟΣΗΣΑ 11 ε : ΦΧ ΔΡΓΑΛΔΙΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Φαθόο κε ζσιήλα.

ΓΗΑΓΩΝΗΣΜΑ ΣΤΑ ΜΑΘΖΜΑΤΗΚΑ. Ύλη: Μιγαδικοί-Σσναρηήζεις-Παράγωγοι Θεη.-Τετν. Καη Εήηημα 1 ο :

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός. Διάλεξη 14η

Hellas online Προεπιλεγμένες ρσθμίσεις για FritzBox Fon WLAN 7140 (Annex B) FritzBox Fon WLAN Annex B ( )

Παιχνίδι γλωζζικής καηανόηζης με ζχήμαηα!

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Βάσεις Δεδομέμωμ. Εξγαζηήξην V. Τκήκα Πιεξνθνξηθήο ΑΠΘ

Information Retrieval

iii. iv. γηα ηελ νπνία ηζρύνπλ: f (1) 2 θαη

Μονοψϊνιο. Αγνξά κε ιίγνπο αγνξαζηέο. Δύναμη μονοψωνίος Η ηθαλόηεηα πνπ έρεη ν αγνξαζηήο λα επεξεάζεη ηελ ηηκή ηνπ αγαζνύ.

Ανάκτηση Πληροφορίας

Κευάλαιο 8 Μονοπωλιακή Συμπεριφορά- Πολλαπλή Τιμολόγηση

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Απνηειέζκαηα Εξσηεκαηνινγίνπ 2o ηεηξάκελν

f '(x)g(x)h(x) g'(x)f (x)h(x) h'(x) f (x)g(x)

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΚΕΦ. 2.3 ΑΠΟΛΤΣΗ ΣΘΜΗ ΠΡΑΓΜΑΣΘΚΟΤ ΑΡΘΘΜΟΤ

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Δξγαζηεξηαθή άζθεζε 03. Σηεξενγξαθηθή πξνβνιή ζην δίθηπν Wulf

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Σρήκα Α. Γξάθνπκε ηα ζηνηρεία ηνπ Πξνκεζεπηή θαη παηάκε Δηζαγσγή. Σρήκα Β1

ΣΥΣΤΗΜΑΤΑ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ. 1. Να ιπζνύλ ηα ζπζηήκαηα. 1 0,3x 0,1y x 3 3x 4y 2 4x 2y ( x 1) 6( y 1) (i) (ii)

Απαντήσεις θέματος 2. Παξαθάησ αθνινπζεί αλαιπηηθή επίιπζε ησλ εξσηεκάησλ.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΣΙΚΗ ΚΤΣΑΛΟΓΡΟΜΙΑ 2007 ΓΙΑ ΣΟ ΓΤΜΝΑΙΟ Παπασκευή 26 Ιανουαπίου 2007 Σάξη: Α Γυμνασίου ΥΟΛΕΙΟ..

Ενδεικτικά Θέματα Στατιστικής ΙΙ

Ανάκτηση Πληροφορίας

Αζκήζεις ζτ.βιβλίοσ ζελίδας 13 14

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

ΥΡΙΣΟΤΓΔΝΝΙΑΣΙΚΔ ΚΑΣΑΚΔΤΔ

Information Retrieval

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL

(Ενδεικηικές Απανηήζεις) ΘΔΜΑ Α. Α1. Βιέπε απόδεημε Σει. 262, ζρνιηθνύ βηβιίνπ. Α2. Βιέπε νξηζκό Σει. 141, ζρνιηθνύ βηβιίνπ

Κβαντικοί Υπολογισμοί. Πέκπηε Γηάιεμε

Λειτουργικά Συστήματα Κεφάλαιο 2 Οργάνωση Συστήματος Αρχείων 2.1 Διαχείριση Αρχείων και Σύστημα Αρχείων(File System)

Πολυεπίπεδα/Διασυμδεδεμέμα Δίκτυα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Επίλυση προβλήματος με Access

Case Study. Παξαθάηω παξνπζηάδνπκε βήκα - βήκα κε screenshots έλα παξάδεηγκα ππνβνιήο κηαο εξγαζίαο θαη ηελ παξαγωγή ηνπ Originality Report.

Αριθμητικά Συστήματα

α) ηε κεηαηόπηζε x όηαλ ην ζώκα έρεη κέγηζην ξπζκό κεηαβνιήο ζέζεο δ) ην κέγηζην ξπζκό κεηαβνιήο ηεο ηαρύηεηαο

Πληροφορική 2. Δομές δεδομένων και αρχείων

ΑΠΛΟΠΟΙΗΗ ΛΟΓΙΚΩΝ ΤΝΑΡΣΗΕΩΝ ΜΕ ΠΙΝΑΚΕ KARNAUGH

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

ΔΙΑΓΩΝΙΣΜΑ ΣΤΗ ΦΥΣΙΚΗ. Ύλη: Εσθύγραμμη Κίνηζη

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

H ΜΑΓΕΙΑ ΤΩΝ ΑΡΙΘΜΩΝ

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δξγαιεία Καηαζθεπέο 1 Σάμε Δ Δ.Κ.Φ.Δ. ΥΑΝΗΩΝ ΠΡΩΣΟΒΑΘΜΗΑ ΔΚΠΑΗΓΔΤΖ. ΔΝΟΣΖΣΑ 2 ε : ΤΛΗΚΑ ΩΜΑΣΑ ΔΡΓΑΛΔΗΑ ΚΑΣΑΚΔΤΔ. Καηαζθεπή 1: Ογθνκεηξηθό δνρείν

Δπηιέγνληαο ην «Πξνεπηινγή» θάζε θνξά πνπ ζα ζπλδέεζηε ζηελ εθαξκνγή ζα βξίζθεζηε ζηε λέα ρξήζε.

Διαχρονικές δομές δεδομένων

Άζκηζη ζτέζης κόζηοσς-τρόνοσ (Cost Time trade off) Καηαζκεσαζηική ΑΔ

ΘΔΜΑ 1 ο Μονάδες 5,10,10

Εςθςή ζςζηήμαηα επισειπήζεων και αξιολόγηζη

Information Retrieval

B-Δέλδξα. Τα B-δέλδξα ρξεζηκνπνηνύληαη γηα ηε αλαπαξάζηαζε πνιύ κεγάισλ ιεμηθώλ πνπ είλαη απνζεθεπκέλα ζην δίζθν.

Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων -

ΑΛΛΑΓΗ ΟΝΟΜΑΣΟ ΚΑΙ ΟΜΑΔΑ ΕΡΓΑΙΑ, ΚΟΙΝΟΥΡΗΣΟΙ ΦΑΚΕΛΟΙ ΚΑΙ ΕΚΣΤΠΩΣΕ ΣΑ WINDOWS XP

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

ΜΑΘΗΜΑ: ΜΑΘΗΜΑΤΙΚΑ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Γ ΛΥΚΕΙΟΥ

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Python & NLTK: Εισαγωγή

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) MASTER IN OFFICE microsoft access ΕΚΔΟΣΗ 1.0. Σόλωνος 108,Τηλ Φαξ

(γ) Να βξεζεί ε ρξνλνεμαξηώκελε πηζαλόηεηα κέηξεζεο ηεο ζεηηθήο ηδηνηηκήο ηνπ ηειεζηή W.

Alternative to Balanced Trees, Comms of the ACM, 33(6), June 1990,

ΚΤΠΡΙΑΚΗ ΜΑΘΗΜΑΣΙΚΗ ΕΣΑΙΡΕΙΑ ΜΑΘΗΜΑΤΙΚΗ ΣΚΥΤΑΛΟΓΡΟΜΙΑ 2015 ΓΙΑ ΤΟ ΓΥΜΝΑΣΙΟ Τεηάπηη 28 Ιανουαπίου 2015 ΛΔΥΚΩΣΙΑ Τάξη: Α Γυμναζίου

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Έλαο πίνακας σσμβόλων ππνζηεξίδεη δύν βαζηθέο ιεηηνπξγίεο:

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Transcript:

Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 3η: 01/03/2017 1

Dictionary και Postings 2

Θυμηθείτε τον τρόπο δημιουργίας του απλοϊκού ευρετηρίου Έγγξαθα πξνο επξεηεξηνπνίεζε Friends, Romans, countrymen. Tokenizer Ρεύκα ησλ tokens Friends Romans Countrymen Τξνπνπνηεκέλα tokens Inverted index Linguistic modules Indexer friend roman countryman friend roman countryman 2 4 1 2 13 16 3

Parsing ενός εγγράφου Ποιο είναι το format του; pdf/word/excel/html; Σε ποια γλώσσα είναι γραμμένο; Σε ποιο character set; Κάζε κηα από απηέο ηηο εξσηήζεηο εηζάγεη έλα πξόβιεκα θαηεγνξηνπνίεζεο (classification problem), πνπ δελ ζα κειεηήζνπκε ζην παξόλ κάζεκα, αιιά πνπ πεξηγξάθεηαη ζην βηβιίν Introduction to Information Retrieval Σπλήζσο, απηέο νη εξγαζίεο γίλνληαη επξεζηηθά... 4

Επιπλοκές: Μορφή/γλώσσα Το έγγραφα που θα μπουν στο ευρετήριο μπορεί να έχουν γραφτεί σε διάφορες γλώσσες Το ίδιο ευρετήριο μπορεί να περιέχει όρους (terms) προερχόμενους από διάφορες γλώσσες Eνα έγγραφο ή τμήματά του μπορεί να περιέχει κείμενο γραμμένο σε διαφορετικές γλώσσες Email στα Γαλλικά με επισυναπτόμενο ένα pdf στα Γερμανικά Πώς ορίζεται το έγγραφο-μονάδα ; Είναι ένα αρχείο; Ένα email; Ένα email με 5 επισυναπτόμενα; Μια ομάδα αρχείων (PPT ή LaTeX σε HTML) 5

Tokenization 6

Tokenization Είσοδος: Friends, Romans and Countrymen Έξοδος: Tokens Friends Romans Countrymen Κάθε τέτοιο token είναι υποψήφιο να γίνει όρος του λεξικού του ευρετηρίου, μετά από κάποια επιπλέον επεξεργασία που περιγράφεται στη συνέχεια Ποια όμως είναι τα έγκυρα tokens; 7

Tokenization Ζητήματα στην διαδικασία tokenization: Finland s capital Finland ή Finlands ή Finland s Hewlett-Packard Hewlett and Packard ως δυο tokens; State-of-the-art: διάσπαση ως ακολυθία λέξεων διαχωρισμένων με παύλες; co-education ; the hold-him-back-and-drag-him-away-maneuver ; San Francisco: ένα ή δυο tokens; Πώς αποφασίζεις ότι πρόκειται για ένα token; 8

Αριθμοί 3/12/91 Mar. 12, 1991 55 B.C. B-52 My PGP key is 324a3df234cb23e 100.2.86.144 Συχνά, δεν τους εισάγουμε στο ευρετήριο ως κείμενο Αλλά ίσως είναι χρήσιμο: σκεφτείτε την περίπτωση όταν αναζητείτε error codes/stacktraces (Θα μπορούσαμε να το κάνουμε με χρήση των n-grams: δείτε επόμενες διαλέξεις ) Δημιουργία ξεχωριστού ευρετηρίου για meta-data Ημερομηνία δημιουργίας, format, κ.τ.λ. 9

Tokenization: Ζητήματα γλώσσας L'ensemble ένα ή δυο tokens; L ή L ή Le ; Επιθυμούμε το l ensemble να ταύτιστεί με το un ensemble Τα πολυ-σύνθετα ουσιαστικά που επιτρέπει η Γερμανική γλώσσα δεν διασπώνται Lebensversicherungsgesellschaftsangestellter life insurance company employee 10

Tokenization: Ζητήματα γλώσσας Τα αραβικά (και Εβραϊκά) γράφονται από δεξιά προς αριστερά. αλλά μερικά στοιχεία όπως οι αριθμοί γράφονται από αριστερά προς δεξιά Οι λέξεις διαχωρίζονται, αλλά τα γράμματα μέσα σε μια λέξη σχηματίζουν σύνθετες μορφές استقلت الجزائر في سنة 1962 بعد 132 عاما من االحتالل الفرنسي. start Algeria achieved its independence in 1962 after 132 years of French occupation. Με Unicode, η επιφανειακή αναπαράσταση είναι σύνθετη, αλλά η αποθηκευμένη μορφή είναι προφανής 11

Κανονικοποιήση Χρειάζεται να κανονικοποιήσουμε τους όρους που θα μπουν στο ευρετήριο, αλλά και τα ερωτήματα, ώστε να έχουν την ίδια μορφή Επιθυμούμε να ταιριάξουν το U.S.A. και το USA Ορίζουμε έμμεσα κλάσεις ισοδυναμίας των όρων Π.χ., με διαγραφή των τελειών από έναν όρο Η εναλλακτική είναι να εκτελέσουμε ασυμμετρική επέκταση: Εισάγουμε: window Εισάγουμε : windows Εισάγουμε : Windows Αναζητείται: window, windows Αναζητείται : Windows, windows Αναζητείται : Windows Εν δυνάμει πιο ισχυρό, αλλά λιγότερο αποδοτικό 12

Κανονικοποιήση: Άλλες γλώσσες Προφορά: résumé vs. resume. Το πιο σημαντικό κριτήριο: Πώς αναμένεις ότι θα γράψουν οι χρήστες ερωτήματα γι αυτές τις λέξεις; Ακόμη και για γλώσσες που υποστηρίζουν εκ της φύσεώς τους σημεία στίξης που καθορίζουν την προφορά, πολλές φορές οι χρήστες δεν τα χρησιμοποιούν όταν συντάσσουν κάποιο ερώτημα Στα γερμανικά: Tuebingen vs. Tübingen Θα έπρεπε να είναι ισοδύναμα 13

Κανονικοποιήση: Άλλες γλώσσες Χρειάζεται να κανονικοποιήσουμε το κείμενο που μπαίνει στο ευρετήριο καθώς επίσης και το ερώτημα στην ίδια μορφή 7 月 30 日 vs. 7/30 Αναγνώριση αλφαβήτου σε επίπεδο χαρακτήρα και κατόπιν μετατροπή Η tokenization δεν είναι χωριστή διαδιακασία από αυτή Μερικές φορές διφορούμενο Morgen will ich in MIT Τν mit είλαη ζηα Γεκξαληθά; 14

Κεφαλαία-μικρά γράμματα Μετροπή όλων των γραμμάτων σε μικρά εξαίρεση: Κεφαλαία (εντός προτάσεως;) Π.χ., General Motors Fed vs. fed SAIL vs. sail Συχνά είναι καλύτερο να μετρέπουμε τα πάντα σε μικρά, αφού οι χρήστες θα χρησιμοποιήσουν μικρά γράμματα ανεξάρτητα από το ένα το ερώτημά τους περιέχει λέξη/όρο που κανονικά θα γραφόταν με κεφαλαίο... 15

Τερματικές-λέξεις (Stop words) Με μια stop list, εξαιρούμε από το λεξικό τις πιο κοινές λέξεις. Διαίσθηση: Μεταφέρουν μικρό σημασιολογικό περιεχόμενο: the, a, and, to, be Καταλαμβάνουν πολύ χώρο: ~30% των postings για τις top-30 Αλλά η τάση είναι διαφορετική: Οι καλές τεχνικές συμπίεσης σημαίνουν ότι ο χώρος για την συμπερίληψη των stopwords σε ένα σύστημα είναι μικρός Οι καλές τεχνικές βελτιστοποίησης ερωτημάτων σημαίνει ότι πληρώνουμε μικρό τίμημα κατά την υποβολή του ερωτήματος για την συμπερίληψη των stop words Τις χρειαζόμαστε για: Ερωτήματα-φράσεις: King of Denmark Διάφορους τίτλους τραγουδιών, κ.τ.λ.: Let it be, To be or not to be Σχεσιακά ερωτήματα: flights to London 16

Thesauri και soundex Χειρίζεται συνώνυμα και ομόνυμα Χειρωνακτική κατασκευή των κλάσεων ισοδυναμίας Π.χ., car = automobile color = colour Δημιουργία ευρετηρίου για αυτές τις κλάσεις ισοδυναμίας Όταν το έγγραφο περιέχει την λέξη automobile, το βάζουμε στο ευρετήριο και κάτω από το car επίσης (συνήθως, και ανάποδα) Και επέκταση ενός ερωτήματος; Όταν το ερώτημα περιέχει τον όρο automobile, κοιτάζουμε και κάτω από το car επίσης 17

Soundex Είναι η παραδοσιακή κλάση των ευρεστικών μεθόδων για επέκταση ενός ερωτήματος στα φωνητικά του αντίστοιχα Εξαρτάται από την γλώσσα κυρίως χρησιμοποιείται για ουσιαστικά Π.χ., chebyshev tchebycheff Περισσότερα επ αυτού σε επόμενη διάλεξη... 18

Lemmatization Μετατροπή πληθωριστικών/παραλλαγμένων μορφών στην βασική μορφή Π.χ., am, are, is be car, cars, car's, cars' car the boy's cars are different colors the boy car be different color Η lemmatization υπονοεί την εκτέλεση κατάλληλης μετατροπής στην μορφή των λέξεων του dictionary 19

Stemming Μετατροπή των όρων στην ρίζα τους, πριν εισαχθούν στο ευρετήριο Το stemming υπονοεί αποκοπή της κατάληξης Εξαρτάται φυσικά από την γλώσσα Π.χ., automate(s), automatic, automation όλα ελαττώνονται στο automat. for example compressed and compression are both accepted as equivalent to compress. for exampl compress and compress ar both accept as equival to compress 20

Ο αλγόριθμος του Porter Ο πιο κοινός αλγόριθμος για stemming της αγγλικής Αποτελέσματα υποδεικνύουν ότι είναι τουλάχιστον τόσο καλός όσο και οι άλλοι stemmers Συμβάσεις + 5 φάσεις από reductions Οι φάσεις εφαρμόζονται η μια μετά την άλλη Κάθε φάση αποτελείτει από ένα σύνολο εντολών Δειγματική σύμβαση: Of the rules in a compound command, select the one that applies to the longest suffix 21

Τυπικοί κανόνες στον αλγόριθμο Porter sses ss ies i ational ate tional tion Weight of word sensitive rules (m>1) EMENT replacement replac cement cement 22

Άλλοι stemmers Υπάρχουν και άλλοι stemmers, π.χ., του Lovins http://snowball.tartarus.org/algorithms/lovins/stemmer.html Είναι ενός περάσματος, λειτουργεί με αφαίρεση του μακρύτερου suffix (περίπου 250 κανόνες) Κατάλληλο κυρίως για γλωσσολόγους, αλλά και για IR Πλήρης μορφολογική ανάλυση με μέτρια οφέλη για να την ανάκτηση Το stemming και οι κανονικοποιήσεις βοηθούν; Είναι αντικρουόμενες οι απόψεις: σίγουρα βοηθούν στο recall (ποσότητα ανακτώμενων σχετικών εγγράφων) για μερικά ερωτήματα, αλλά βλάπτουν το precision (ποσοστό ανακτώμενων σχετικών εγγράφων) για άλλα 23

Language-specificity Πολλά από τα προηγούμενα χαρακτηριστικά αξιοποιούν μετασχηματισμούς, οι οποίοι είναι Εξειδικευμένοι στην κάθε γλώσσα (Συχνά) Ειδικοί για την κάθε εφαρμογή Αυτοί είναι plug-in προσθήκες στην διαδικασία δημιουργίας του ευρετηρίου Υπάρχουν διαθέσιμοι και open source και εμπορικοί plug-ins για τον χειρισμό τους 24

Γρηγορότερη συγχώνευση των postings: Δείκτες Παράκαμψης (Skip pointers) 25

Υπόβαθρο: Skip lists 26

Θυμηθείτε την βασική συγχώνευση Διασχίζουμε τις δυο λίστες των postings παράλληλα, σε χρόνο γραμμικό ως προς τον συνολικό αριθμό των postings 2 8 2 4 8 16 32 64 1 2 3 5 8 17 21 128 31 Brutus Caesar Εάλ ηα κήθε ησλ ιηζηώλ είλαη m θαη n, ε ζπγρώλεπζε απαηηεί O(m+n) ιεηηνπξγίεο Μπνξνύκε θάηη θαιύηεξν; Ναη, εάλ ην επξεηήξην δελ αιιάδεη πνιύ γξήγνξα 27

Επαύξηση των postings με skip pointers (όταν δημιουργείται το ευρετήριο) 16 128 2 4 8 16 32 64 128 8 31 1 2 3 5 8 17 21 31 Γιατί; Για να παρακάμψουμε postings που δεν θα συνεισφέρουν στο αποτέλεσμα τις αναζήτησης Πώς; Πού τοποθετούμε skip pointers; 28

Επεξεργασία ερωτήματος με τους skip pointers 16 128 2 4 8 16 32 64 128 8 31 1 2 3 5 8 17 21 31 Υπνζέζηε όηη έρνπκε δηαζρίζεη ηηο ιίζηεο κέρξη λα θηάζνπκε ζηελ επεμεξγαζία ηνπ 8 ζε θάζε ιίζηα Όηαλ θηάλνπκε ζην 16 ζηελ πάλσ ιίζηα, βιέπνπκε όηη ην επόκελν ζηνηρείν είλαη ην 32 Αιιά ην επόκελν ηνπ 8 κε βάζε ηνλ skip pointer ζηελ θάησ ιίζηα είλαη ην 31, νπόηε κπνξνύκε παξαθάκςνπκε ηα postings ηεο θάησ ιίζηαο κέρξη εθεί πνπ δείρλεη ν skip pointer 29

Πού τοποθετούμε παρακάμψεις ; Tradeoff: Περισσότερα skips μικρότερες απόστάσεις μεταξύ των skips πιο πιθανή η χρήση ενός skip. Αλλά, πολλές συγκρίσεις ώστε να γίνει χρήση των skip pointers Λιγότερα skips λιγότερες συγκρίσεις δεικτών, αλλά μεγαλύτερες αποστάσεις μεταξύ των λιγότερα χρησιμοποιημένα skips 30

Τοποθέτηση των skips Απλό ευρεστικό: για μια λίστα postings με μήκος L, χρησιμοποιήστε L ισαπέχοντες skip pointers Αυτή η προσέγγιση αγνοεί την κατανομή των όρων που εμφανίζονται στο ερώτημα Εύκολη η προσθήκη τους εάν το ευρετήριο είναι σχετικά στατικό, αλλά δύσκολο εάν το L αλλάζει διαρκώς εξαιτίας ενημερώσεων του ευρετηρίου Σίγουρα βοηθά η προσθήκη τους: Στο σύγχρονο hardware ίσως όχι Το κόστος φόρτωσης μιας μεγαλύτερης λίστας postings μπορεί να ισορροπήσει ή να υπερκεράσει το όφελος από μια ταχύτερη εντός-μνήμης συγχώνευση 31