Γλώσσες Επερώτησης για Ανάκτηση Πληροφοριών

Σχετικά έγγραφα
Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

C.S. 430 Assignment 6, Sample Solutions

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Galatia SIL Keyboard Information

2 Composition. Invertible Mappings

Συντακτικές λειτουργίες

PARTIAL NOTES for 6.1 Trigonometric Identities

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

ΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ

Μορφοποίηση υπό όρους : Μορφή > Μορφοποίηση υπό όρους/γραμμές δεδομένων/μορφοποίηση μόο των κελιών που περιέχουν/

The Simply Typed Lambda Calculus

Instruction Execution Times

Εργαστήριο Ανάπτυξης Εφαρμογών Βάσεων Δεδομένων. Εξάμηνο 7 ο

derivation of the Laplacian from rectangular to spherical coordinates

Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit

Απόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.

(Α) Προεπεξεργασία κειμένου : Διάρθρωση Διάλεξης

Abstract Storage Devices

ΠΑΝΔΠΙΣΗΜΙΟ ΜΑΚΔΓΟΝΙΑ ΠΡΟΓΡΑΜΜΑ ΜΔΣΑΠΣΤΥΙΑΚΧΝ ΠΟΤΓΧΝ ΣΜΗΜΑΣΟ ΔΦΑΡΜΟΜΔΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Assalamu `alaikum wr. wb.

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

Every set of first-order formulas is equivalent to an independent set

Fractional Colorings and Zykov Products of graphs

Reminders: linear functions

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Section 8.3 Trigonometric Equations

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Lecture 2. Soundness and completeness of propositional logic

Overview. Transition Semantics. Configurations and the transition relation. Executions and computation

Approximation of distance between locations on earth given by latitude and longitude

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

(Α) Προεπεξεργασία κειμένου : Διάρθρωση Διάλεξης

Math 6 SL Probability Distributions Practice Test Mark Scheme

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Finite Field Problems: Solutions

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Démographie spatiale/spatial Demography

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

Δίκτυα Επικοινωνιών ΙΙ: OSPF Configuration

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

EE512: Error Control Coding

k A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

Homomorphism in Intuitionistic Fuzzy Automata

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

CRASH COURSE IN PRECALCULUS

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 133: ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΑΣΤΗΡΙΟ 3 Javadoc Tutorial

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

Modern Greek Extension

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Προεπεξεργασία Κειμένου. Προεπεξεργασία και Ευρετήριο. Φάσεις Προεπεξεργασίας (ΙΙ) Φάσεις Προεπεξεργασίας

About these lecture notes. Simply Typed λ-calculus. Types

SOAP API. Table of Contents

Chapter 3: Ordinal Numbers

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής Πρόγραμμα Μεταπτυχιακών Σπουδών «Πληροφορική»

A Bonus-Malus System as a Markov Set-Chain. Małgorzata Niemiec Warsaw School of Economics Institute of Econometrics

Advanced Subsidiary Unit 1: Understanding and Written Response

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

Terabyte Technology Ltd

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

Matrices and Determinants

the total number of electrons passing through the lamp.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΣΥΣΤΗΜΑΤΩΝ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΥΨΗΛΩΝ ΤΑΣΕΩΝ

Statistical Inference I Locally most powerful tests

1. Αφετηρία από στάση χωρίς κριτή (self start όπου πινακίδα εκκίνησης) 5 λεπτά µετά την αφετηρία σας από το TC1B KALO LIVADI OUT

General 2 2 PT -Symmetric Matrices and Jordan Blocks 1

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

New bounds for spherical two-distance sets and equiangular lines

department listing department name αχχουντσ ϕανε βαλικτ δδσϕηασδδη σδηφγ ασκϕηλκ τεχηνιχαλ αλαν ϕουν διξ τεχηνιχαλ ϕοην µαριανι

2. Let H 1 and H 2 be Hilbert spaces and let T : H 1 H 2 be a bounded linear operator. Prove that [T (H 1 )] = N (T ). (6p)

FSM Toolkit Exercises

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

Section 7.6 Double and Half Angle Formulas

Εγχειρίδια Μαθηµατικών και Χταποδάκι στα Κάρβουνα

Δημιουργία Λογαριασμού Διαχείρισης Business Telephony Create a Management Account for Business Telephony

CYTA Cloud Server Set Up Instructions

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

Notes on the Open Economy

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

Homework 3 Solutions

Ανάκτηση Πληροφορίας

Inverse trigonometric functions & General Solution of Trigonometric Equations

Areas and Lengths in Polar Coordinates

Math221: HW# 1 solutions

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

Strukturalna poprawność argumentu.

Μηχανισμοί πρόβλεψης προσήμων σε προσημασμένα μοντέλα κοινωνικών δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Nowhere-zero flows Let be a digraph, Abelian group. A Γ-circulation in is a mapping : such that, where, and : tail in X, head in

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

VBA ΣΤΟ WORD. 1. Συχνά, όταν ήθελα να δώσω ένα φυλλάδιο εργασίας με ασκήσεις στους μαθητές έκανα το εξής: Version ΗΜΙΤΕΛΗΣ!!!!

Συστήματα Διαχείρισης Βάσεων Δεδομένων

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Γλώσσες Επερώτησης για Ανάκτηση Πληροφοριών Κεφάλαιο 4 CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 1 Γλώσσες Επερώτησης για Ανάκτηση Πληροφοριών Επερωτήσεις λέξεων (Keyword-based Queries) Μονολεκτικές επερωτήσεις (Single-word Queries) Επερωτήσεις φυσικής γλώσσας (Natural Language Queries) Boolean Επερωτήσεις (Boolean Queries) Επερωτήσεις Συμφραζομένων (Context Queries) Φραστικές Επερωτήσεις (Phrasal Queries) Επερωτήσεις Εγγύτητας (Proximity Queries) Ταίριασμα Προτύπου (Pattern Matching) Απλό (Simple) Ανεκτικές σε ορθογραφικά λάθη (Allowing errors) Levenstein distance, LCS longest common subsequence Κανονικές Εκφράσεις (Regular expressions) Δομικές Επερωτήσεις (Structural Queries) (θα καλυφθούν σε επόμενο μάθημα) Πρωτόκολλα επερώτησης (Query Protocols) CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 2 Ανάκτηση Πληροφορίας 2008-2009 1

Γλώσσες Επερώτησης για Ανάκτηση Πληροφοριών Εισαγωγή O τύπος των επερωτήσεων που επιτρέπονται σε ένα σύστημα εξαρτάται σε ένα βαθμό και από το Μοντέλο Ανάκτησης που χρησιμοποιεί το σύστημα Boolean model => boolean queries Extended Boolean model => boolean queries ( ) Vector Space model => natural language queries (free text) Probabilistic model => natural language queries... Retrieval unit: basic unit that can be returnes as the answerto a query Protocol: not for end users Εδώ θα δούμε τύπους επερωτήσεων χρήσιμους για την ανάκτηση πληροφοριών. Αργότερα θα δούμε τις δομές δεδομένων και αλγόριθμους για την αποτίμησή τους. CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 3 Επερωτήσεις φυσικής γλώσσας ( Natural Language Queries ) Keyword queries Popular: Intuitive Simple to express Fast ranking CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 4 Ανάκτηση Πληροφορίας 2008-2009 2

Boolean Queries Keywords combined with Boolean operators: Atoms combined with Boolean operators OR: (e 1 OR e 2 ) AND: (e 1 AND e 2 ) BUT: (e 1 BUT e 2 ) Satisfy e 1 but not e 2 Compositional -> query syntax tree Negation only allowed using BUT to allow efficient use of inverted index by filtering another efficiently retrievable set. Naïve users have trouble with Boolean logic. Also, sort by some criteria and highlight the occurrences of the query words CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 5 Επερωτήσεις φυσικής γλώσσας ( Natural Language Queries ) Full text queries as arbitrary strings. Typically just treated as a bag-of-words for a vectorspace model. Typically processed using standard vector-space retrieval methods. A whole document may be considered as a query CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 6 Ανάκτηση Πληροφορίας 2008-2009 3

Context-Queries Ability to search words in a given context, that is, near other words Types of Context Queries Phrasal Queries Proximity Queries CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 7 Context-Queries Phrasal Queries Retrieve documents with a specific phrase (ordered list of contiguous words) information theory to be or not to be May allow intervening stop words and/or stemming. For example, buy camera matches: buy a camera, buy a camera, (two spaces) buying the cameras etc. CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 8 Ανάκτηση Πληροφορίας 2008-2009 4

Proximity Queries (Επερωτήσεις Εγγύτητας) List of words with specific maximal distance constraints between words. For example: dogs and race within 4 words will match dogs will begin the race May also perform stemming and/or not count stop words. The order may or may not be important CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 9 Pattern Matching Allow queries that match strings rather than word tokens. Requires more sophisticated data structures and algorithms than inverted indices to retrieve efficiently. Some types of simple patterns: Prefixes: Pattern that matches start of word. anti matches antiquity, antibody, etc. Suffixes: Pattern that matches end of word: ix matches fix, matrix, etc. Substrings: Pattern that matches arbitrary subsequence of characters. rapt matches enrapture, velociraptor etc. Ranges: Pair of strings that matches any word lexicographically (alphabetically) between them. tin to tix matches tip, tire, title, etc. CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 10 Ανάκτηση Πληροφορίας 2008-2009 5

More Complex Patterns: Allowing Errors What if query or document contains typos or misspellings? Judge similarity of words (or arbitrary strings) using: Edit distance (Levenstein distance) Longest Common Subsequence (LCS) Allow proximity search with bound on string similarity. CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 11 Edit (Levenstein) Distance Minimum number of character deletions, additions, or replacements needed to make two strings equivalent. misspell to mispell is distance 1 misspell to mistell is distance 2 misspell to misspelling is distance 3 Can be computed efficiently using dynamic programming O(mn) time where m and n are the lengths of the two strings being compared. CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 12 Ανάκτηση Πληροφορίας 2008-2009 6

Longest Common Subsequence (LCS) Length of the longest subsequence of characters shared by two strings. A subsequence of a string is obtained by deleting zero or more characters. Examples: misspell to mispell is 7 misspelled to misinterpretted is 7 mis p e ed CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 13 More complex patterns: Regular Expressions Language for composing complex patterns from simpler ones. An individual character is a regex. Union: If e 1 and e 2 are regexes, then (e 1 e 2 ) is a regex that matches whatever either e 1 or e 2 matches. Concatenation: If e 1 and e 2 are regexes, then e 1 e 2 is a regex that matches a string that consists of a substring that matches e 1 immediately followed by a substring that matches e 2 Repetition (Kleene closure): If e 1 is a regex, then e 1 * is a regex that matches a sequence of zero or more strings that match e 1 CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 14 Ανάκτηση Πληροφορίας 2008-2009 7

Regular Expression Examples (u e)nabl(e ing) matches unable unabling enable enabling (un en)*able matches able unable unenable enununenable CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 15 Enhanced Regex s (Perl) Special terms for common sets of characters, such as alphabetic or numeric or general wildcard. Special repetition operator (+) for 1 or more occurrences. Special optional operator (?) for 0 or 1 occurrences. Special repetition operator for specific range of number of occurrences: {min,max}. A{1,5} One to five A s. A{5,} Five or more A s A{5} Exactly five A s CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 16 Ανάκτηση Πληροφορίας 2008-2009 8

Perl Regex s Character classes: \w (word char) Any alpha-numeric (not: \W) \d (digit char) Any digit (not: \D) \s (space char) Any whitespace (not: \S). (wildcard) Anything Anchor points: \b (boundary) Word boundary ^ Beginning of string $ End of string Examples U.S. phone number with optional area code: /\b(\(\d{3}\)\s?)?\d{3}-\d{4}\b/ Email address: /\b\s+@\s+(\.com \.edu \.gov \.org \.net)\b/ Note: Packages available to support Perl regex s in Java CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 17 Δομικές Επερωτήσεις (Structural Queries) Εδώ τα έγγραφα έχουν δομή που μπορεί να αξιοποιηθεί κατά την ανάκτηση Η δομή μπορεί να είναι: Ένα προκαθορισμένο σύνολο πεδίων title, author, abstract, etc. Δομή Hypertext Μια ιεραρχική δομή Book, Chapter, Section, etc. book chapter chapter title section title section title subsection Θα τις μελετήσουμε αναλυτικά σε μια άλλη διάλεξη CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 18 Ανάκτηση Πληροφορίας 2008-2009 9

Query Protocols They are not intended for final users. They are query languages that are used automatically by software applications to query text databases. Some of them are proposed as standard for querying CD-ROMs or as intermediate languages to query library systems Query Protocols Z39.50 1995 standard ANSI, NISO bibliographical information SRW (Search and Retrieve Web Service): Extension of Z39.50 using Web Technologies. Queries in CQL WAIS (Wide Area Information Service) used before the Web Dienst Protocol For CD-ROMS CCL (Common Command Language) 19 commands. Based on Z39.50 CD-RDx (Compact Disk Read only Data Exchange) SFQL (Structured Full-text Query Language) CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 19 SFQL SFQL (Structured Full-text Query Language ) Relational database query language SQL enhanced with full text search. Παράδειγμα: select abstract from journal.papers where author contains Teller and title contains nuclear fusion and date < 1/1/1950 Supports Boolean operators, thesaurus, proximity operations, wild cards, repetitions. It is old, but just indicatively let s have a look CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 20 Ανάκτηση Πληροφορίας 2008-2009 10

Z39.50 CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 21 CQL (Common Query Language) A formal language for representing queries to information retrieval systems Now: CQL-> Context Query Language Human-readable http://www.loc.gov/standards/sru/specs/cql.html CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 22 Ανάκτηση Πληροφορίας 2008-2009 11

CQL (Common Query Language) Search clause Always includes a term simple terms consist of one or more words May include index name (i.e. field name) To limit search to a particular field/element Index name includes base name and may include prefix title, subject dc.title, dc.subject Several index sets have been defined (called Context Sets in SRW) dc bath srw Context set defines the available indexes for a particular application CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 23 CQL Relation <, >, <=, >=, =, <> exact used for string matching all when term is list of words to indicate all words must be found any when term is list of words to indicate any words must be found Boolean operators: and, or, not Proximity (prox operator) relation (<, >, <=, >=, =, <>) distance (integer) unit (word, sentence, paragraph, element) ordering (ordered or unordered) Masking rules and special characters single asterisk (*) to mask zero or more characters single question mark (?) to mask a single character carat/hat (^) to indicate anchoring, left or right CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 24 Ανάκτηση Πληροφορίας 2008-2009 12

CQL Examples Simple queries: dinosaur "the complete dinosaur" Boolean dinosaur and bird or dinobird "feathered dinosaur" and (yixian or jehol) Proximity foo prox bar foo prox/>/4/word/ordered bar Indexes title = dinosaur bath.title="the complete dinosaur" srw.serverchoice=dinosaur Relations year > 1998 title all "complete dinosaur" title any "dinosaur bird reptile" title exact "the complete dinosaur" CS463- Information Retrieval Systems Yannis Tzitzikas, U. of Crete 25 Ανάκτηση Πληροφορίας 2008-2009 13