Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι



Σχετικά έγγραφα
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Διάρθρωση. Στατιστικά Κειμένου Text Statistics. Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps. Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Ανάκτηση Πληροφορίας

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

Block Ciphers Modes. Ramki Thurimella

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Approximation of distance between locations on earth given by latitude and longitude

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

C.S. 430 Assignment 6, Sample Solutions

CMOS Technology for Computer Architects

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Statistical Inference I Locally most powerful tests

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Lecture 34 Bootstrap confidence intervals

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

EE512: Error Control Coding

Ανάκτηση Πληροφορίας. Φροντιστήριο 3

Example Sheet 3 Solutions

Other Test Constructions: Likelihood Ratio & Bayes Tests

Συντακτικές λειτουργίες

derivation of the Laplacian from rectangular to spherical coordinates

The Simply Typed Lambda Calculus

Numerical Analysis FMN011

Elements of Information Theory

Homework 3 Solutions

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

(C) 2010 Pearson Education, Inc. All rights reserved.

Fourier Series. MATH 211, Calculus II. J. Robert Buchanan. Spring Department of Mathematics

PARTIAL NOTES for 6.1 Trigonometric Identities

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

ST5224: Advanced Statistical Theory II

Instruction Execution Times

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

2 Composition. Invertible Mappings

4.6 Autoregressive Moving Average Model ARMA(1,1)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL

Congruence Classes of Invertible Matrices of Order 3 over F 2

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

ΑΝΙΧΝΕΥΣΗ ΓΕΓΟΝΟΤΩΝ ΒΗΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΕΠΙΤΑΧΥΝΣΙΟΜΕΤΡΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Notes on the Open Economy

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

the total number of electrons passing through the lamp.

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Calculating the propagation delay of coaxial cable

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

Galatia SIL Keyboard Information

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

FSM Toolkit Exercises

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Every set of first-order formulas is equivalent to an independent set

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

Ανάκτηση Πληροφορίας (Information Retrieval IR)

5.4 The Poisson Distribution.

Ανάκτηση Πληροφορίας

Areas and Lengths in Polar Coordinates

Aquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET

Assalamu `alaikum wr. wb.

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Math 6 SL Probability Distributions Practice Test Mark Scheme

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

[1] P Q. Fig. 3.1

Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

A Bonus-Malus System as a Markov Set-Chain. Małgorzata Niemiec Warsaw School of Economics Institute of Econometrics

Example of the Baum-Welch Algorithm

Matrices and Determinants

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Estimation for ARMA Processes with Stable Noise. Matt Calder & Richard A. Davis Colorado State University

Math221: HW# 1 solutions

Démographie spatiale/spatial Demography

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

CRASH COURSE IN PRECALCULUS

Ανάκτηση Πληροφορίας

Finite Field Problems: Solutions

DERIVATION OF MILES EQUATION FOR AN APPLIED FORCE Revision C

Areas and Lengths in Polar Coordinates

Transcript:

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Κεφάλαιο 8 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 Ανάκτηση Πληροφορίας 2009-2010 1 Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Εισαγωγή κίνητρο Ανεστραμμένα Αρχεία (Inverted files) Αρχεία Υπογραφών (Signature files) Δένδρα Καταλήξεων (Suffix trees) Ανάκτηση Πληροφορίας 2009-2010 2 Ανάκτηση Πληροφορίας 2009-2010 1

Σκοπός Ευρετηριασμός Κειμένου: Εισαγωγή Σχεδιασμός δομών δεδομένων που επιτρέπουν την αποδοτική υλοποίηση της γλώσσας επερώτησης Απλοϊκή προσέγγιση: σειριακή αναζήτηση (online sequential search) Ικανοποιητική μόνο αν η συλλογή των κειμένων είναι μικρή Είναι η μόνη επιλογή αν η συλλογή κειμένων είναι ευμετάβλητη Σχεδιασμός δομών δεδομένων, που ονομάζονται ευρετήρια (called indices), για επιτάχυνση της αναζήτησης Ανάκτηση Πληροφορίας 2009-2010 3 Χρήση Καταλόγων/Ευρετηρίων Τα συστήματα ανάκτησης σπάνια αναζητούν την πληροφορία απευθείας στη συλλογή εγγράφων. Συνήθως, χρησιμοποιούνται κατάλογοι οι οποίοι επιταχύνουν τη διαδικασία αναζήτησης. συλλογή εγγράφων Κατάλογος αναζήτηση καταλόγου δημιουργία καταλόγου Έγγραφα Ανάκτηση Πληροφορίας 2009-2010 4 Ανάκτηση Πληροφορίας 2009-2010 2

Απλές Ανάγκες Γλωσσών Επερώτησης (και μοντέλων ανάκτησης γενικότερα) βρες έγγραφα που περιέχουν μια λέξη t βρες πόσες φορές εμφανίζεται η λέξη t σε ένα έγγραφο βρες τις θέσεις τωνεμφανίσεωντηςλέξηςt στο έγγραφο Πιο σύνθετες λογικές (Boolean) επερωτήσεις επερωτήσεις εγγύτητας (phrase/proximity queries) ταιριάσματος προτύπου (pattern matching) κανονικές εκφράσεις (regular expressions) δομικές επερωτήσεις (structure based queries)... Σχεδιάζουμε το ευρετήριο ανάλογα με το μοντέλο ανάκτησης και τη γλώσσα επερώτησης Ανάκτηση Πληροφορίας 2009-2010 5 Γενική (Λογική) μορφή ενός ευρετηρίου D o c u m e n t s Indexing Items (όροι ευρετηρίου) k 1 k 2... k j... k t d 1 c 1,1 c 2,1... c i,1... c t,1 d 2 c 1,2 c 2,2... c i,2... c t,2..................... d i c 1,j c 2,j... c i,j... c t,j..................... d N c 1,N c 2,N... c i,n... c t,n c ij : το κελί που αντιστοιχεί στο έγγραφο d i και στον όρο k j, το οποίο μπορεί να περιέχει: ένα w ij που να δηλώνει την παρουσία ή απουσία του k j στο d i (ή τη σπουδαιότητα του k j στο d i ) τις θέσεις στις οποίες οόροςk j εμφανίζεται στο d i (αν πράγματι εμφανίζεται) Ερωτήματα: Τι πρέπει να έχει το κάθε c ij Πώς να υλοποιήσουμε αυτή τη λογική δομή ώστε να έχουμε καλή απόδοση; Ανάκτηση Πληροφορίας 2009-2010 6 Ανάκτηση Πληροφορίας 2009-2010 3

Τεχνικές Ευρετηριασμού (Indexing Techniques) Ανεστραμμένα Αρχεία (Inverted files) η πιο διαδεδομένη τεχνική Δένδρα και Πίνακες Καταλήξεων (Suffix trees and arrays) γρήγορες για phrase queries αλλά η κατασκευή και η συντήρησή τους είναι δυσκολότερη και ακριβότερη Αρχεία Υπογραφών (Signature files) Χρησιμοποιήθηκαν πολύ τη δεκαετία του 80. Σπανιότερα σήμερα αλλά σε κατανεμημένα διάφορες παραλλαγές τους. Ανάκτηση Πληροφορίας 2009-2010 7 Ανεστραμμένα Αρχεία (Inverted Files) Ανάκτηση Πληροφορίας 2009-2010 8 Ανάκτηση Πληροφορίας 2009-2010 4

Ανεστραμμένο Αρχείο Λογική Μορφή Ευρετηρίου Μορφή Ανεστραμμένου Ευρετηρίου Index terms C j,1 k 1 k 2... k t d 1 c 1,1 c 2,1 c t,1 d 2 c 1,2 c 2,2 c t,2...... d i c 1,j c 2,j c t,j...... d N c 1,N c 2,N c t,n k 1 k 2... k t Vocabulary Postings lists Άρα δεν δεσμεύουμε χώρο για τα «μηδενικά κελιά» της λογικής μορφής του ευρετηρίου Ανάκτηση Πληροφορίας 2009-2010 9 Inverted Files (Ανεστραμμένα αρχεία) Ιnverted file = a word oriented mechanism for indexing a text collection in order to speed up the searching task. An inverted file consists of: Vocabulary: is the set of all distinct words in the text Occurrences: lists containing all information necessary for each word of the vocabulary (documents where the word appears, frequency, text position, etc.) Τι είδους πληροφορία κρατάμε στις posting lists εξαρτάται από το λογικό μοντέλο και το μοντέλο ερωτήσεων Ανάκτηση Πληροφορίας 2009-2010 10 Ανάκτηση Πληροφορίας 2009-2010 5

Κείμενο Ανεστραμμένο αρχείο για ένα μόνο έγγραφο και αποθήκευση θέσεων εμφάνισης κάθε λέξης That house has a garden. The garden has many flowers. The flowers are beautiful 1 6 12 16 18 25 29 36 40 45 54 58 66 70 Inverted File: Vocabulary beautiful flowers garden house Occurrences 70 45, 58 18, 29 6 Τι άλλο θα κάνατε (κρατούσατε) αν είχαμε πολλά έγραφα Διανυσματικό Μοντέλο; και θέλαμε να υλοποιήσουμε το Ανάκτηση Πληροφορίας 2009-2010 11 Ανεστραμμένο αρχείο για πολλά έγγραφα, και βάρυνση tf-idf To df (document frequency, που μας χρειάζεται για το IDF) αρκεί να αποθηκευτεί μια φορά To βάρος tf (term frequency) Index terms computer df 3 D 7, 4 D j, tf j Εδώ θα μπορούσαμε να έχουμε και τις θέσεις εμφάνισης της λέξης computer στο έγγραφο D j database 2 D 1, 3 science system 4 1 D 2, 4 D 5, 2 Vocabulary file Postings lists Ανάκτηση Πληροφορίας 2009-2010 12 Ανάκτηση Πληροφορίας 2009-2010 6

Παράδειγμα ανεστραμμένου αρχείου όπου για κάθε λέξη i και έγγραφο j κρατάμε μόνο το freq ij Document Corpus Doc Ανάκτηση Πληροφορίας 2009-2010 13 Text 1 Pease porridge hot 2 Pease porridge cold 3 Pease porridge in the pot 4 Pease porridge hot, pease porridge not cold 5 Pease porridge cold, pease porridge not hot 6 Pease porridge hot in the pot Vocabulary Inverted Lists cold hot in not Inverted File pease <1,1> <2,1> <3,1> <4,2> <5,2> <6,1> porridge pot the <2,1> <4,1> <1,1> <4,1> <5,1> <6,1> <3,1> <6,1> <4,1> <5,1> <1,1> <2,1> <3,1> <4,2> <5,2> <3,1> <6,1> <3,1> <6,1> <5,1> <6,1> Another example term df document ids Ανάκτηση Πληροφορίας 2009-2010 14 Ανάκτηση Πληροφορίας 2009-2010 7

Block Addressing Στην περίπτωση που θέλουμε να κρατήσουμε και τη θέση εμφάνισης κάθε όρου στο κείμενο The text is divided in blocks The occurrences point to the blocks where the word appears Ανάκτηση Πληροφορίας 2009-2010 15 Block Addressing: Example That house has a garden. The garden has many flowers. The flowers are beautiful 1 6 12 16 18 25 29 36 40 45 54 58 66 70 beautiful 70 Vocabulary flowers Occurrences 45, 58 garden 18, 29 house 6 Block 1 Block 2 Block 3 Block 4 That house has a garden. The garden has many flowers. The flowers are beautiful beautiful 4 Vocabulary flowers Occurrences 3 garden 2 house 1 Ανάκτηση Πληροφορίας 2009-2010 16 Ανάκτηση Πληροφορίας 2009-2010 8

Block Addressing Advantages: the number of pointers is smaller than positions all the occurrences of a word inside a single block are collapsed to one reference (indices of only 5% overhead over the text size can be obtained with this technique. Of course this depends on the block size). In many cases instead of defining the block size, we define the number of blocks (in this way we know how many bits we need per pointer) Disadvantages: online sequential search over the qualifying blocks if exact positions are required e.g. for finding the sentence where the word occurs e.g. for evaluating a context (phrasal or proximity) query Ανάκτηση Πληροφορίας 2009-2010 17 Ανεστραμμένα Αρχεία: Απαιτήσεις Χώρου μικρές μεγάλες Index terms Cj,1 k1 k2... kt Postings lists Ανάκτηση Πληροφορίας 2009-2010 18 Ανάκτηση Πληροφορίας 2009-2010 9

ΠΑΡΕΝΘΕΣΗ Στατιστικά Κειμένου Text Statistics Ανάκτηση Πληροφορίας 2009-2010 19 Διάρθρωση Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps Ανάκτηση Πληροφορίας 2009-2010 20 Ανάκτηση Πληροφορίας 2009-2010 10

Γραπτός Λόγος - Κείμενο Starting with hieroglyphs, the first written surfaces (stone, wood, animal skin, papyrus and rice paper), and paper, text has been created everywhere, in many forms and languages. Ανάκτηση Πληροφορίας 2009-2010 21 CS463 - Information Retrieval Systems Στατιστικές Ιδιότητες Κειμένου How is the frequency of different words distributed? How fast does vocabulary size grow with the size of a corpus? Such factors affect the performance of information retrieval and can be used to select appropriate term weights and other aspects of an IR system. Ανάκτηση Πληροφορίας 2009-2010 22 Ανάκτηση Πληροφορίας 2009-2010 11

Συχνότητα Λέξεων A few words are very common. 2 most frequent words (e.g. the, of ) can account for about 10% of word occurrences. Most words are very rare. Half the words in a corpus appear only once, called hapax legomena (Greek for read only once ) Called a heavy tailed distribution, since most of the probability mass is in the tail Ανάκτηση Πληροφορίας 2009-2010 23 Sample Word Frequency Data (from B. Croft, UMass) Ανάκτηση Πληροφορίας 2009-2010 24 Ανάκτηση Πληροφορίας 2009-2010 12

O νόμος του Zipf Rank rof a word: The numerical position of the word in a list sorted by decreasing frequency (f ). Zipf (1949) discovered that: the frequency of any word is inversely proportional to its rank f r = k (for constant k ) Πχ: f1 * 1 = k f2 * 2 = k f3 * 3 = k... fi * i = k = f1 * 1 = f1 fi = f1 / i The most frequent word will appear twice as often as the second most frequent word, which occurs twice as often as the fourth, etc Η συχνότητα της i th πιο συχνά εμφανιζόμενης λέξης είναι 1/i φορές η συχνότητα της πιο συχνής. Πιο ακριβές: 1/i θ όπου θ μεταξύ 1.5 και 2 Ανάκτηση Πληροφορίας 2009-2010 25 Sample Word Frequency Data (again) (from B. Croft, UMass) 1 * 5.9 = 5.9 2 * 3.1 = 6.2 3 * 2.7 = 8.1 4 * 2.6 = 10.4 5 * 1.8 = 9 6 * 1.2 = 7.2 7 * 1 =7 8 * 0.9 =7.2 9 * 0.8 =7.2... Ανάκτηση Πληροφορίας 2009-2010 26 Ανάκτηση Πληροφορίας 2009-2010 13

Zipf s Law Impact on IR Good News: Stopwords will account for a large fraction of text so eliminating them greatly reduces inverted index storage costs. Bad News: For most words, gathering sufficient data for meaningful statistical analysis (e.g. for correlation analysis for query expansion) is difficult since they are extremely rare. Ανάκτηση Πληροφορίας 2009-2010 27 Zipf and Term Weighting Luhn (1958) suggested that both extremely common and extremely uncommon words were not very useful for indexing. επιλογή όρων στην αυτόματη κατασκευή θησαυρών Ανάκτηση Πληροφορίας 2009-2010 28 Ανάκτηση Πληροφορίας 2009-2010 14

Does Real Data Fit Zipf s Law? A law of the form y = kx c is called a power law. Zipf s law (fi=f1/i) is a power law with c = 1 On a log log plot, power laws give a straight line with slope c. c log( y) = log( kx ) = logk + clog( x) = logk log( x) Zipf is quite accurate except for very high and low rank. Ανάκτηση Πληροφορίας 2009-2010 29 Does Real Data Fit Zipf s Law? Σημείωση: Ο Χ και Υ έχουν λογαριθμική κλίμακα Ανάκτηση Πληροφορίας 2009-2010 30 Ανάκτηση Πληροφορίας 2009-2010 15

Mandelbrot (1954) Correction Ziph s Law: fi= f1/i θ Mandelbrot correction: fi= f1*k/(c+i) θ c: parameter k: so that all frequencies add to N This formula fits better with the read texts Ανάκτηση Πληροφορίας 2009-2010 31 Explanations for Zipf s Law Zipf s explanation was his principle of least effort. Balance between speaker s desire for a small vocabulary and hearer s desire for a large one. Η επανάληψη λέξεων είναι ευκολότερη από την επινόηση/χρήση νέων Debate (1955 61) between Mandelbrot and H. Simon over explanation. Με επιφύλαξη: Li (1992) shows that just random typing of letters including a space will generate words with a Zipfian distribution. http://www.nslij-genetics.org/wli/zipf/ Ανάκτηση Πληροφορίας 2009-2010 32 Ανάκτηση Πληροφορίας 2009-2010 16

Vocabulary Growth How does the size of the overall vocabulary (number of unique words) grow with the size of the corpus? This determines how the size of the inverted index will scale with the size of the corpus. Vocabulary not really upper bounded due to proper names, typos, etc. Ανάκτηση Πληροφορίας 2009-2010 33 Heaps Law If V is the size of the vocabulary (i.e. number of distinct words) and the n is the length of the corpus in words: V β = Kn with constants K, 0 < β < 1 Typical constants: K 10 100 β 0.4 0.6 (approx. square-root) Ανάκτηση Πληροφορίας 2009-2010 34 Ανάκτηση Πληροφορίας 2009-2010 17

Heaps Law Data Ανάκτηση Πληροφορίας 2009-2010 35 Heaps Law Explanation for Heaps Law Can be derived from Zipf s law by assuming documents are generated by randomly sampling words from a Zipfian distribution Heaps' law also means that: as more instance text is gathered, there will be diminishing returns in terms of discovery of the full vocabulary from which the distinct terms are drawn. Ανάκτηση Πληροφορίας 2009-2010 36 Ανάκτηση Πληροφορίας 2009-2010 18

Word Length Average Length of Words Why? To estimate the storage space needed for the vocabulary. AveragewordlengthinTREC 2 = 5 letters If we remove stopwords then average word length: 6 7 letters Ανάκτηση Πληροφορίας 2009-2010 37 Επίσης Σνωμφύα με μια ένυερα του Κέμπριτζ η σιερά των γμμάαρωτν σε μια λξέη δεν έεχι σησίμαα. Ακρεί το πώτρο και το ταίυελετο γμαράμ να είανι στη σστωή σεριά. Σύμφωνα με μια έρευνα του Κέμπριτζ η σειρά των γραμμάτων σε μια λέξη δεν έχει σημασία. Αρκεί το πρώτο και το τελευταίο γράμμα να είναι στη σωστή σειρά. Ανάκτηση Πληροφορίας 2009-2010 38 Ανάκτηση Πληροφορίας 2009-2010 19

Κλείσιμο ΠΑΡΕΝΘΕΣΗΣ Ανάκτηση Πληροφορίας 2009-2010 39 Ανεστραμμένα Αρχεία: Απαιτήσεις Χώρου Notations n: the size of the text (of all documents in the collection) V: the size of the vocabulary For the Vocabulary: Rather small. According to Heaps law the vocabulary grows as O(n β ), where β is a constant between 0.4 and 0.6 in practice. So V ~ sqrt(n) // άρα ανάλογο της τετραγωνικής ρίζας του μεγέθους της συλλογής) For Occurrences (posting lists): Much more space. Since each word appearing in the text is referenced once in that structure (i.e. we keep a pointer), the extra space is O(n) (To reduce space requirements, a technique called block addressing is used) Ανάκτηση Πληροφορίας 2009-2010 40 Ανάκτηση Πληροφορίας 2009-2010 20

Size of Inverted Files as percentage of the size of the whole collection 45% of all words are stopwods Index Small collection Medium collection Large collection (1Mb) (200Mb) (2Gb) Addressing words 45% 73% 36% 64% 35% 63% Addressing 64K blocks 27% 41% 18% 32% 5% 9% Addressing 256 blocks 18% 25% 1.7% 2.4% 0.5% 0.7% Without stopwords All words Without stopwords All words Without stopwords All words Addressing words: 4 bytes per pointer (2^32 ~ giga) Addressing 64K blocks: 2 bytes per pointer Addressing 256 blocks: 1 byte per pointer Ανάκτηση Πληροφορίας 2009-2010 41 Ανάκτηση Πληροφορίας 2009-2010 21