2. Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων

Σχετικά έγγραφα
Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Information Retrieval

Information Retrieval

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

Introduction to Information Retrieval

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Εισαγωγή στο µάθηµα. Εισαγωγή στην Ανάκτηση Πληροφορίας. Απαιτήσεις του µαθήµατος

ΕΠΛ660. Ανάκτηση Πληροφοριών και. Μάριος. ικαιάκος και Γιώργος Πάλλης

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Information Retrieval

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Ανάκτηση Δεδομένων (Information Retrieval)

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Δυναμικός Κατακερματισμός

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Εισαγωγή στην επιστήμη των υπολογιστών

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

SilverPlatter WebSPIRS 4.1.

Έλεγχος του εγγράφου και της διάταξης εμφάνισης περιθώρια, μέγεθος γραμματοσειράς, μορφοποίησης και ορθογραφία

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Σύστημα Πλεονάσματος. Αναπαράσταση Πραγματικών Αριθμών. Αριθμητικές Πράξεις σε Αριθμούς Κινητής Υποδιαστολής

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Σύστημα Πλεονάσματος και Αναπαράσταση Αριθμών Κινητής Υποδιαστολής

Πληροφορική 2. Δομές δεδομένων και αρχείων

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Βάσεις Δεδομένων ΙΙ Ενότητα 5

Ευρετηρίαση ΜΕΡΟΣ ΙΙ

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Παρουσίαση της εργασίας στο μάθημα Νέες Τεχνολογίες στην Επιστημονική Έρευνα: Διαδίκτυο και Εκπαίδευση (Εαρινό 2016) Β Μέρος. Γιώργος Μικρός ΕΚΠΑ

Εισαγωγή Κεφάλαιο 1: Εγκατάσταση της Access Κεφάλαιο 2: Βάσεις δεδομένων και δομικά στοιχεία της Access

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Έλεγχος ορθογραφίας. Ορισμός γλώσσας

Ανάκτηση Πληροφορίας

Information Retrieval

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Επεξεργασία Ερωτήσεων

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Ανάκτηση Πληροφορίας

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Επεξεργασία Ερωτήσεων

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

1 ο ΕΡΓΑΣΤΗΡΙΟ ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

Δομές Δεδομένων και Αλγόριθμοι. Λουκάς Γεωργιάδης

Το εσωτερικό ενός Σ Β

Σειρά Προβλημάτων 5 Λύσεις

Οδηγός Εγκατάστασης και Χρήσης του Arebas Easy

Οργάνωση Υπολογιστών

Στρατηγική έρευνας. Στρατηγική έρευνας. Η ερευνητική διαδικασία στη βιβλιοθήκη αρχίζει από τη στιγμή που χρειάζεται

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ ΠΡΟΓΡΑΜΜΑΤΟΣ ΠΕΛΑΤΩΝ ELTA Courier. Ιούνιος ELTA Courier Διεύθυνση Πληροφορικής

Κεφ.11: Ευρετήρια και Κατακερματισμός

Επαναληπτικό διαγώνισμα στην Α.Ε.Π.Π - 18 / Απριλίου / 2010 ΘΕΜΑ 1

4. Κατασκευή Ευρετηρίου

ΠΑΝΕΠΙΣΤΗΜΙΟ AΙΓΑIΟΥ & ΑΕΙ ΠΕΙΡΑΙΑ Τ.Τ. Τμήματα Ναυτιλίας και Επιχειρηματικών Υπηρεσιών & Μηχ. Αυτοματισμού ΤΕ. Εισαγωγή στη Python

Σειρά Προβλημάτων 5 Λύσεις

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας

ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Εισαγωγή στο Bison. Μεταγλωττιστές, Χειμερινό εξάμηνο

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Η πρώτη παράμετρος είναι ένα αλφαριθμητικό μορφοποίησης

Transcript:

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων

Περίληψη Προηγούμενης Διάλεξης Ανεστραμμένα ευρετήρια ομή: Λεξικό και λίστες καταχωρήσεων Βασικό βήμα κατασκευής: ταξινόμηση Επεξεργασία ερωτημάτων Boole Τομή με συγχώνευση λιστών σε γραμμικό χρόνο Απλές βελτιστοποιήσεις Περίληψη μαθήματος March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 2

Σε Αυτό το Μάθημα Λεπτομέρειες διαδικασίας ευρετηριοποίησης Προεπεξεργασία για δημιουργία λεξικού όρων Έγγραφα ιαίρεση σε σύμβολα (tokenization) Ποιους όρους βάζουμε στο ευρετήριο; Λίστες καταχωρήσεων Γρηγορότερη συγχώνευση με δείκτες παράβλεψης (skip lists) Ερωτήματα εγγύτητας και αναζήτηση φράσεων March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 3

Υπενθύμιση Βασικής Διαδικασίας Ευρετηριοποίησης Documents to be indexed. Friends, Romans, countrymen. Tokenizer Token stream. Friends Romans Countrymen Linguistic modules Modified tokens. friend roman countryman Inverted index. Indexer friend roman countryman 2 4 1 2 13 16 4 March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 4

Λήψη της Ακολουθίας Χαρακτήρων ενός Εγγράφου (Parsing) Σε τι μορφή είναι το έγγραφο; pdf/word/excel/html; Σε ποια γλώσσα είναι γραμμένο; Ποια κωδικοποίηση έχει χρησιμοποιηθεί; Κεφάλαιο 2.1 Καθένα από αυτά αποτελεί ένα πρόβλημα κατηγοριοποίησης/ταξινόμησης (classification), που θα μελετήσουμε αργότερα στο μάθημα αυτό Όμως συχνά, αντιμετωπίζονται με ευρετικές μεθόδους March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 5

Επιπλοκές: Μορφοποίηση/Γλώσσα Κεφάλαιο 2.1 Τα έγγραφα που ευρετηριοποιούνται μπορεί να περιλαμβάνουν έγγραφα σε διαφορετικές γλώσσες Ένα ευρετήριο μπορεί να περιλαμβάνει όρους από διαφορετικές γλώσσες Μερικές φορές ένα έγγραφο μπορεί να περιέχει κείμενο σε πολλαπλές γλώσσες/μορφοποιήσεις E-mail στα γαλλικά με ένα επισυναπτόμενο pdf στα γερμανικά Ποια είναι η μονάδα εγγράφου; Ένα αρχείο; Ένα e-mail; Ένα e-mail με 5 επισυναπτόμενα; Ένα σύνολο αρχείων (PPT ή LaTeX ως HTML σελίδες); March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 6

Σύμβολα και Όροι (Tokens and Terms) March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 7

Διαίρεση σε Σύμβολα Κεφάλαιο 2.2.1 Είσοδος: Friends, Romans, Countrymen Έξοδος: Σύμβολα Friends Romans Countrymen Ένα σύμβολο (token) είναι μια εμφάνιση μιας ακολουθίας χαρακτήρων σε ένα έγγραφο Κάθε σύμβολο είναι υποψήφιο να αποτελέσει καταχώρηση στο ευρετήριο (index entry) μετά από επεξεργασία Περιγράφεται στη συνέχεια Ποια όμως είναι έγκυρα σύμβολα; March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 8

Διαίρεση σε Σύμβολα Κεφάλαιο 2.2.1 Θέματα που αφορούν στη διαίρεση σε σύμβολα Finland s capital Finland; Finlands; Finland s; Hewlett-Packard Hewlett και Packard σαν δύο σύμβολα; state-of-the-art: διασπάμε ακολουθίες με ενωτικά (hyphens); co-education lowercase, lower-case, lower case ; Μια αποτελεσματική τακτική είναι να βάλουμε τους χρήστες να πληκτρολογούν τα ενωτικά San Francisco: ένα ή δύο σύμβολα; Πώς αποφασίζουμε ότι είναι ένα σύμβολο; March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 9

Αριθμοί Κεφάλαιο 2.2.1 3/12/91 Mar. 12, 1991 12/3/91 55 B.C. B-52 My PGP key is 324a3df234cb23e (800) 234-2333 Συχνά υπάρχουν ενσωματωμένοι κενοί χαρακτήρες Παλαιότερα συστήματα ΑΠ δεν ευρετηριάζουν αριθμούς Όμως συχνά είναι πολύ χρήσιμο: για παράδειγμα εντοπισμός από error codes/stacktraces στον Παγκόσμιο Ιστό (Μία λύση είναι η χρήση n-grams: 3 ο Μάθημα) Συχνά μεταδεδομένα ευρετηριάζονται ξεχωριστά Creation date, format, κτλ. March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 10

Κεφάλαιο 2.2.1 Διαίρεση σε Σύμβολα (Θέματα Γλωσσών) Γαλλικά L'ensemble ένα ή δύο σύμβολα; L? L? Le? Θέλουμε το l ensemble να ταιριάζει με το un ensemble Τουλάχιστον μέχρι το 2003, δεν ταίριαζε στο Google Internationalization! Τα ουσιαστικά στα γερμανικά δε διαχωρίζονται Lebensversicherungsgesellschaftsangestellter life insurance company employee Τα γερμανικά συστήματα ΑΠ υποβοηθούνται σημαντικά από ένα compound splitter module Μπορεί να προσφέρει 15% βελτίωση στην απόδοση στα γερμανικά March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 11

Κεφάλαιο 2.2.1 Διαίρεση σε Σύμβολα (Θέματα Γλωσσών) Τα κινέζικα και τα ιαπωνέζικα δεν έχουν κενά μεταξύ λέξεων: 莎拉波娃现在居住在美国东南部的佛罗里达 εν εγγυάται μοναδικότητα στη διαίρεση σε σύμβολα Πιο πολύπλοκο στα ιαπωνέζικα, πολλές αλφάβητοι Ημερομηνίες/ποσά σε πολλαπλές μορφοποιήσεις フォーチュン 500 社は情報不足のため時間あた $500K( 約 6,000 万円 ) Katakana Hiragana Kanji Romaji Οι χρήστες μπορούν να εκφράσουν ένα ερώτημα αποκλειστικά σε hiragana! March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 12

Κεφάλαιο 2.2.1 Διαίρεση σε Σύμβολα (Θέματα Γλωσσών) Τα αραβικά (ή εβραϊκά) γράφονται από δεξιά προς αριστερά, αλλά κάποια στοιχεία, όπως αριθμοί, από αριστερά προς δεξιά Οι λέξεις διαχωρίζονται, αλλά τα γράμματα σε μια λέξη σχηματίζουν πολύπλοκα σχήματα start Algeria achieved its independence in 1962 after 132 years of French occupation. March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 13

Διακόπτουσες Λέξεις (Stop words) Κεφάλαιο 2.2.2 Με μια stop list, μπορούμε να απορρίψουμε τους πιο κοινούς όρους από το λεξικό, διότι διαισθητικά Έχουν λίγο περιεχόμενο σημασιολογικά: the, a, and, to, be Είναι πολλοί σε πλήθος: ~30% των λιστών καταχώρησης για τις top 30 λέξεις Όμως η τρέχουσα τάση είναι να τους κρατάμε Υπάρχουν καλές τεχνικές συμπίεσης (5 ο μάθημα) άρα τα stopwords δεν καταλαμβάνουν πολύ χώρο Υπάρχουν καλές τεχνικές βελτιστοποίησης ερωτημάτων (7 ο μάθημα) άρα μικρό κόστος σε χρόνο εκτέλεσης όταν συμπεριλαμβάνονται stopwords Είναι απαραίτητα για Phrase queries: King of Denmark Various song titles, etc.: Let it be, To be or not to be Relational queries: flights to London March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 14

Κανονικοποίηση Όρων Κεφάλαιο 2.2.3 Πρέπει να γίνει κανονικοποίηση των λέξεων στο κείμενο που ευρετηριάζεται και των λέξεων στο ερώτημα Ώστε να ταιριάζουν τα USA και U.S.A Το αποτέλεσμα είναι όροι Ένας όρος είναι μια (κανονικοποιημένη) λέξη που αποτελεί καταχώρηση του λεξικού του συστήματος ΑΠ Ο πιο καθιερωμένος τρόπος κανονικοποίησης είναι η έμμεση δημιουργία κλάσεων ισοδυναμίας, π.χ. ιαγραφή τελείων U.S.A., USA USA ιαγραφή ενωτικών (hyphens) anti-discriminatory, antidiscriminatory antidiscriminatory March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 15

Κανονικοποίηση: Άλλες Γλώσσες Κεφάλαιο 2.2.3 Τόνοι: π.χ., Γαλλικά: résumé vs. resume. Umlauts: π.χ., Γερμανικά: Tuebingen vs. Tübingen Είναι ισοδύναμα Το βασικότερο κριτήριο: Πώς θα γράφουν οι χρήστες τα ερωτήματά τους γι αυτές τις λέξεις; Ακόμη και σε γλώσσες που έχουν τόνους, οι χρήστες μπορεί συχνά να μην τους χρησιμοποιούν Συχνά είναι καλύτερο να γίνεται κανονικοποίηση σε όρους χωρίς τόνους Tuebingen, Tübingen, Tubingen Tubingen March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 16

Κανονικοποίηση: Άλλες Γλώσσες Κεφάλαιο 2.2.3 Κανονικοποίηση ημερομηνιών 7 月 30 日 vs. 7/30 Japanese use of kana vs. Chinese characters Η διαίρεση σε σύμβολα (tokenization) και η κανονικοποίηση (normalization) μπορεί να εξαρτώνται από τη γλώσσα, άρα πάνε μαζί με τον εντοπισμό γλώσσας Morgen will ich in MIT Is this German mit? Σημαντικό: Πρέπει να κανονικοποιούμε τόσο τις λέξεις όσο και το ερώτημα στην ίδια μορφή March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 17

Κεφάλαιο 2.2.3 Σύμπτυξη Πεζοκεφαλαίων (Case Folding) Μετατροπή όλων των γραμμάτων σε πεζά Εξαίρεση: κεφαλαίο στο μέσο μιας πρότασης Π.χ., General Motors Fed vs. fed SAIL vs. sail Συχνά είναι καλύτερο να μετατρέπουμε τα πάντα σε πεζά, αφού οι χρήστες χρησιμοποιούν πεζά ανεξάρτητα από το σωστό τρόπο γραφής Παράδειγμα Google Ερώτημα C.A.T. #1 αποτέλεσμα ήταν για γάτα όχι για Caterpillar Inc March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 18

Κανονικοποίηση σε Όρους Κεφάλαιο 2.2.3 Μια εναλλακτική των κλάσεων ισοδυναμίας είναι η ασύμμετρη διεύρυνση (asymmetric expansion) Ένα παράδειγμα που μπορεί αυτό να είναι χρήσιμο Όρος ερωτήματος: window Όροι που θα εντοπιστούν: window, windows Όρος ερωτήματος : windows Όροι που θα εντοπιστούν : Windows, windows, window Όρος ερωτήματος : Windows Όροι που θα εντοπιστούν : Windows Πιθανώς πιο ισχυρό, αλλά λιγότερο αποδοτικό March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 19

Θησαυροί και Soundex Πώς χειριζόμαστε συνώνυμα και ομώνυμα; Π.χ., φτιάχνοντας χειροκίνητα κλάσεις ισοδυναμίας car = automobile color = colour Μπορούμε να κάνουμε διορθώσεις ώστε να σχηματιστούν όροι κλάσεων ισοδυναμίας Όταν το έγγραφο περιέχει automobile, βάλε στο ευρετήριο carautomobile (και αντίστροφα) Ή μπορούμε να διευρύνουμε το ερώτημα Όταν περιέχει automobile, ψάξε και στο car Πώς χειριζόμαστε ορθογραφικά λάθη; Μια προσέγγιση είναι η soundex, στην οποία φτιάχνουμε κλάσεις ισοδυναμίας με βάση φωνητικά ευρετικές μεθόδους Περισσότερα στα μαθήματα 3 και 9 March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 20

Λημματοποίηση (Lemmatization) Κεφάλαιο 2.2.3 Μείωση του πλήθους (σύμπτυξη) διαφόρων μορφών σε μία βασική μορφή Π.χ. am, are, is be car, cars, car's, cars' car the boy's cars are different colors the boy car be different color March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 21

Περιστολή (Stemming) Κεφάλαιο 2.2.4 Αναγωγή κοινών λέξεων σε μια βασική μορφή Η περιστολή αποκόπτει τις καταλήξεις των λέξεων Εξαρτάται από τη γλώσσα Π.χ., automate(s), automatic, automation ανάγονται σε automat for example compressed and compression are both accepted as equivalent to compress. for exampl compress and compress ar both accept as equival to compress March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 22

Ο Αλγόριθμος του Porter Κεφάλαιο 2.2.4 Ο πιο διαδεδομένος αλγόριθμος για περιστολή αγγλικών λέξεων Με βάση τα αποτελέσματα έχει αποδειχθεί τουλάχιστον τόσο καλός όσο άλλες επιλογές περιστολής Περιλαμβάνει διάφορες συμβάσεις + 5 φάσεις περικοπής λέξεων Οι φάσεις εφαρμόζονται ακολουθιακά Κάθε φάση περιλαμβάνει ένα σύνολο εντολών Απλή σύμβαση: επιλογή από κάθε ομάδα κανόνων εκείνου που μπορεί να εφαρμοστεί στο επίθεμα με το μεγαλύτερο μήκος March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 23

Τυπικοί Κανόνες κατά Porter Κεφάλαιο 2.2.4 sses ss ies i ational ate tional tion Πολλοί κανόνες χρησιμοποιούν ένα είδος μέτρου (measure), για να αποφασίσουν αν μια λέξη είναι αρκετά μεγάλη ώστε το τμήμα της που ταιριάζει στον κανόνα να είναι πράγματι επίθεμα και όχι μέρος του θέματός της (m>1) EMENT replacement replac cement cement March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 24

Άλλοι Αλγόριθμοι Περιστολής Κεφάλαιο 2.2.4 Υπάρχουν άλλοι αλγόριθμοι, π.χ., ο αλγόριθμος του Lovins (http://www.comp.lancs.ac.uk/computing/research/stemming/general/lovins.htm) Ένα πέρασμα, αφαίρεση μεγαλύτερου επιθέματος (~250 κανόνες) Πλήρης μορφολογική ανάλυση σχετικά λίγα πλεονεκτήματα για ανάκτηση Βοηθούν η περιστολή και άλλες κανονικοποιήσεις; Αγγλικά: όχι ξεκάθαρα αποτελέσματα Βοηθούν την ανάκληση (recall) βλάπτουν όμως την ακρίβεια (precision) operative (dentistry) oper operational (research) oper operating (systems) oper Ισπανικά, γερμανικά, φινλανδικά,... Σίγουρα χρήσιμες 30% κέρδος για φινλανδικά March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 25

Σχετικότητα με τη Γλώσσα Κεφάλαιο 2.2.4 Πολλά από τα χαρακτηριστικά που αναφέρθηκαν εμπεριέχουν μετασχηματισμούς που είναι Σχετικοί με τη γλώσσα Συχνά, σχετικοί με την εφαρμογή Αποτελούν επιπρόσθετα plug-in στοιχεία στη διαδικασία ευρετηριοποίησης Υπάρχουν τόσο ανοικτού κώδικα όσο και εμπορικά plug-ins για το χειρισμό τέτοιων περιπτώσεων March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 26

Καταχωρήσεις Λεξικού Κεφάλαιο 2.2 ensemble.french 時間.japanese MIT.english mit.german guaranteed.english entries.english sometimes.english Μπορεί να ομαδοποιούνται ανά γλώσσα (ή και όχι...) Περισσότερα όταν μιλήσουμε για κατάταξη και επεξεργασία ερωτημάτων tokenization.english March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 27

Ταχύτερος Υπολογισμός Τομής Λιστών Καταχωρήσεων μέσω Δεικτών Παράβλεψης March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 28

Υπενθύμιση Βασικού Τρόπου Συγχώνευσης Κεφάλαιο 2.3 Ταυτόχρονη εξέταση των δύο λιστών σε γραμμικό χρόνο ως προς το συνολικό αριθμό καταχωρήσεων 2 8 2 4 8 41 48 64 128 Brutus 1 2 3 8 11 17 21 31 Caesar Εάν τα μήκη είναι m και n, η συγχώνευση απαιτεί O(m+n) πράξεις. Μπορούμε να κάνουμε κάτι καλύτερο? Ναι (εφόσον το ευρετήριο δεν αλλάζει συχνά). March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 29

Εμπλουτισμός Λιστών με Δείκτες Παράβλεψης (κατά την Ευρετηρίαση) 41 128 2 4 8 41 48 64 128 Κεφάλαιο 2.3 11 31 1 2 3 8 11 17 21 31 Γιατί; Πώς; Ώστε να παραβλέψουμε καταχωρήσεις που δε θα εμφανιστούν στα αποτελέσματα Πού τοποθετούμε δείκτες παράβλεψης (skip pointers); March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 30

Επεξεργασία Ερωτημάτων με Δείκτες Κεφάλαιο 2.3 Παράβλεψης 41 128 2 4 8 41 48 64 128 11 31 1 2 3 8 11 17 21 Έστω ότι έχουμε φτάσει στο 8 στις δύο λίστες Αυτά ταιριάζουν μεταξύ τους και συνεχίζουμε Τα επόμενα είναι το 41 και το 11. Το 11 είναι μικρότερο. Όμως αφού το επόμενο (μέσω δείκτη παράβλεψης) του 11 είναι το 31 (<41), μπορούμε να παραβλέψουμε τις ενδιάμεσες καταχωρήσεις 31 March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 31

Πού Τοποθετούμε Δείκτες; Κεφάλαιο 2.3 Υπάρχει ένα ζήτημα αντιστάθμισης (tradeoff) Περισσότεροι δείκτες μικρότερα διαστήματα παράβλεψης πιθανότερο να παραβλέψουμε Όμως πολλές συγκρίσεις Λιγότεροι δείκτες λίγες συγκρίσεις αλλά μεγάλα διαστήματα παράβλεψης λιγότερες ευκαιρίες παράβλεψης March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 32

Τοποθέτηση Δεικτών Κεφάλαιο 2.3 Απλή ευρετική μέθοδος: σε λίστες καταχώρησης μήκους L χρησιμοποιούμε L ισαπέχοντες δείκτες παράβλεψης Αγνοεί την κατανομή των όρων του ερωτήματος Εύκολο εάν το ευρετήριο είναι σχετικά στατικό. Πιο δύσκολο εάν το L αλλάζει λόγω ενημερώσεων Παλαιότερα αυτή η τεχνική βοηθούσε Με τις σύγχρονες CPU μπορεί και να μη βοηθά (Bahle et al. 2002), εκτός κι αν τα πάντα βρίσκονται στη μνήμη Το Ι/Ο κόστος φόρτωσης μεγαλύτερων λιστών καταχωρήσεων από το δίσκο μπορεί να είναι μεγαλύτερο από το κέρδος ταχύτερης συγχώνευσης στη μνήμη March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 33

Λίστες Καταχωρήσεων με Πληροφορίες Θέσεων και Ερωτήματα Φράσεων March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 34

Ερωτήματα Φράσεων Κεφάλαιο 2.4 Θέλουμε να μπορούμε να απαντούμε ερωτήματα όπως stanford university σαν φράση Η πρόταση I went to university at Stanford δε θα ταίριαζε Η χρήση εισαγωγικών είναι κατανοητή από τους χρήστες και χρησιμοποιείται επιτυχώς Πολλά ερωτήματα είναι όμως υπονοούμενα ερωτήματα φράσεων εν αρκεί να αποθηκεύουμε καταχωρήσεις τύπου <term : docs> March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 35

Μία Πρώτη Προσέγγιση: Ευρετήριο Ζευγών Λέξεων Βάζουμε στο ευρετήριο κάθε ζεύγος διαδοχικών όρων Για παράδειγμα το κείμενο Friends, Romans, Countrymen θα παρήγαγε τα ζεύγη (biwords) friends romans romans countrymen Κάθε ζεύγος είναι τώρα όρος του λεξικού Μπορούμε άμεσα να απαντούμε ερωτήματα φράσεων με δύο λέξεις Κεφάλαιο 2.4.1 March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 36

Μεγαλύτερα Ερωτήματα Φράσεων Κεφάλαιο 2.4.1 Επεξεργαζόμαστε μεγαλύτερες φράσεις με τον ίδιο τρόπο με χαρακτήρες μπαλαντέρ stanford university palo alto διασπάται σε ερώτημα Boolean στα biwords: stanford university AND university palo AND palo alto ίχως την ύπαρξη εγγράφων, δεν μπορούμε να επιβεβαιώσουμε ότι τα έγγραφα που ταιριάζουν στο ερώτημα αυτό πράγματι περιέχουν τη φράση Μπορεί να έχουμε ψευδή θετικά (false positives)! March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 37

Διευρυμένα Ζεύγη Λέξεων (Extended Biwords) ιαιρούμε το κείμενο σε σύμβολα και προχωράμε σε σήμανση των μερών του λόγου (part-of-speech tagging) Ομαδοποιούμε τους όρους σε ουσιαστικά (Ν) και λειτουργικές λέξεις (Χ), π.χ. άρθρα και προθέσεις Οποιαδήποτε ακολουθία όρων της μορφής ΝΧ*Ν είναι ένα διευρυμένο ζεύγος λέξεων Και γίνεται όρος του λεξικού Παράδειγμα: catcher in the rye N X X N Επεξεργασία ερωτήματος: ανάλυση σε Ν και Χ ιαίρεση του ερωτήματος σε διευρυμένα ζεύγη λέξεων Αναζήτηση στο ευρετήριο: catcher rye Κεφάλαιο 2.4.1 March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 38

Ζητήματα για τα Ευρετήρια Ζευγών Κεφάλαιο 2.4.1 False positives, όπως αναφέρθηκε πριν Μεγάλο μέγεθος ευρετηρίου, λόγω μεγαλύτερου λεξικού εν είναι εφικτό για κάτι μεγαλύτερο από ζεύγη, είναι ήδη μεγάλο για ζεύγη Τα ευρετήρια ζευγών δεν είναι η κλασική λύση, όμως μπορεί να χρησιμοποιηθούν ως μέρος μιας σύνθετης στρατηγικής March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 39

2 η Λύση: Ευρετήρια Θέσεων Κεφάλαιο 2.4.2 (Positional Indexes) Αποθηκεύουμε στις καταχωρήσεις για κάθε όρο τις θέσεις εμφάνισης <term, number of docs containing term; doc1: position1, position2 ; doc2: position1, position2 ; etc.> March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 40

Παράδειγμα Ευρετηρίου Θέσεων Κεφάλαιο 2.4.2 <be: 993427; 1: 7, 18, 33, 72, 86, 231; 2: 3, 149; 4: 17, 191, 291, 430, 434; 5: 363, 367, > Which of docs 1,2,4,5 could contain to be or not to be? Για ερωτήματα φράσεων, χρησιμοποιείται πάλι αλγόριθμος συγχώνευσης ελέγχοντας εάν δύο όροι συνυπάρχουν στο ίδιο έγγραφο Όμως τώρα πρέπει να εξετάσουμε κάτι παραπάνω από απλή ισότητα όρων March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 41

Επεξεργασία Ερωτήματος Φράσεων Κεφάλαιο 2.4.2 Εξάγονται για κάθε όρο to, be, or, not οι λίστες καταχωρήσεων από το ευρετήριο Συγχωνεύονται οι λίστες doc:position ώστε να απαριθμούνται όλες οι θέσεις με to be or not to be to: 2:1,17,74,222,551; 4:8,16,190,429,433; 7:13,23,191;... be: 1:17,19; 4:17,191,291,430,434; 5:14,19,101;... Η ίδια γενική μέθοδος εφαρμόζεται και για αναζητήσεις εγγύτητας March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 42

Ερωτήματα Εγγύτητας (Proximity Queries) LIMIT! /3 STATUTE /3 FEDERAL /2 TORT Πάλι το /k σημαίνει εντός k λέξεων (προς κάθε πλευρά) Προφανώς, μπορεί να χρησιμοποιηθούν ευρετήρια θέσεων (όχι όμως ευρετήρια ζευγών) Άσκηση: Προσαρμόστε τον αλγόριθμο συγχώνευσης λιστών ώστε να υποστηρίζει ερωτήματα εγγύτητας. Μπορείτε να τον κάνετε να δουλέυει για οποιοδήποτε k? Είναι λίγο δύσκολο να τον κάνετε να δουλεύει σωστά και αποδοτικά είτε την εικόνα 2.12 του βιβλίου Ίσως υπάρχει κάποιο πρόβλημα εκεί! Κεφάλαιο 2.4.2 March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 43

Μέγεθος Ευρετηρίου Θέσεων Κεφάλαιο 2.4.2 Η υιοθέτηση ευρετηρίου θέσεων αυξάνει σημαντικά τις απαιτήσεις σε αποθηκευτικό χώρο Μπορούμε βέβαια να συμπιέσουμε τις τιμές θέσεων/αποστάσεων (περισσότερα στο 5 ο μάθημα) Παρόλα αυτά οι περισσότερες εφαρμογές αποδέχονται αυτό το κόστος επειδή η πλειοψηφία των χρηστών θεωρεί δεδομένες τις δυνατότητες αναζήτησης φράσεων και αναζήτησης βάσει εγγύτητας March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 44

Μέγεθος Ευρετηρίου Θέσεων Κεφάλαιο 2.4.2 Κάθε καταχώρηση χρειάζεται μία τιμή για κάθε εμφάνιση όρου Το μέγεθος του ευρετηρίου εξαρτάται από το μέσο μέγεθος των εγγράφων Μια μέση ιστοσελίδα έχει < 1.000 όρους Καταστάσεις οικονομικών αποτελεσμάτων, βιβλία, ποιήματα μπορεί να φτάνουν εύκολα τους 100.000 όρους Έστω ότι ένας όρος έχει μέση συχνότητα 1 στους 1.000 όρους (δλδ. 0,1%) Γιατί? Document size Postings Positional postings 1000 100,000 1 1 1 100 March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 45

Εμπειρικοί Κανόνες Κεφάλαιο 2.4.2 Ένα ευρετήριο θέσεων είναι 2-4 φορές μεγαλύτερο από ένα απλό ευρετήριο Ένα ευρετήριο θέσεων είναι περίπου 35-50% του μεγέθους του αρχικού κειμένου Τα παραπάνω ισχύουν για γλώσσες όπως τα αγγλικά March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 46

Συνδυαστικές Μέθοδοι Κεφάλαιο 2.4.3 Οι στρατηγικές του ευρετηρίου θέσεων και του ευρετηρίου ζευγών λέξεων μπορεί να συνδυαστούν με επιτυχία Για φράσεις όπως Michael Jackson, Britney Spears δεν είναι αποδοτικό να συγχωνεύουμε συνεχώς λίστες καταχωρήσεων Ακόμη χειρότερα για φράσεις όπως The Who Οι Williams et al. (2004) εξετάζουν μια πιο εξελιγμένη μέθοδο που χρησιμοποιεί ευρετήρια και των δύο ειδών καθώς και ένα ευρετήριο επόμενης λέξης Για μια ποικιλία συνηθισμένων ερωτημάτων φράσεων Ιστού, απαντώνται στο ¼ του χρόνου που χρειάζεται ένα ευρετήριο θέσεων Καταλαμβάνοντας 26% περισσότερο χώρο March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 47

Πηγές Αναφοράς Εισαγωγή στην Ανάκτηση Πληροφοριών, κεφάλαιο 2 MG 3.6, 4.3; MIR 7.2 Porter s stemmer: http://www.tartarus.org/~martin/porterstemmer/ Skip Lists theory: Pugh (1990) Multilevel skip lists give same O(log n) efficiency as trees H.E. Williams, J. Zobel, and D. Bahle. 2004. Fast Phrase Querying with Combined Indexes, ACM Transactions on Information Systems. http://www.seg.rmit.edu.au/research/research.php?author=4 D. Bahle, H. Williams, and J. Zobel. Efficient phrase querying with an auxiliary index. SIGIR 2002, pp. 215-221. March 22, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 48