Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Σχετικά έγγραφα
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Διάρθρωση. Στατιστικά Κειμένου Text Statistics. Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps. Ανάκτηση Πληροφορίας

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι

Numerical Analysis FMN011

Statistical Inference I Locally most powerful tests

Other Test Constructions: Likelihood Ratio & Bayes Tests

Fourier Series. MATH 211, Calculus II. J. Robert Buchanan. Spring Department of Mathematics

C.S. 430 Assignment 6, Sample Solutions

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Lecture 34 Bootstrap confidence intervals

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

EE512: Error Control Coding

Finite Field Problems: Solutions

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

Block Ciphers Modes. Ramki Thurimella

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Aquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET

CMOS Technology for Computer Architects

The Simply Typed Lambda Calculus

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

derivation of the Laplacian from rectangular to spherical coordinates

Example of the Baum-Welch Algorithm

ΑΝΙΧΝΕΥΣΗ ΓΕΓΟΝΟΤΩΝ ΒΗΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΕΠΙΤΑΧΥΝΣΙΟΜΕΤΡΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

ST5224: Advanced Statistical Theory II

Chapter 2 * * * * * * * Introduction to Verbs * * * * * * *

5.4 The Poisson Distribution.

Congruence Classes of Invertible Matrices of Order 3 over F 2

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Solution Series 9. i=1 x i and i=1 x i.

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

ΠΑΡΑΜΕΤΡΟΙ ΕΠΗΡΕΑΣΜΟΥ ΤΗΣ ΑΝΑΓΝΩΣΗΣ- ΑΠΟΚΩΔΙΚΟΠΟΙΗΣΗΣ ΤΗΣ BRAILLE ΑΠΟ ΑΤΟΜΑ ΜΕ ΤΥΦΛΩΣΗ

Elements of Information Theory

Μηχανική Μάθηση Hypothesis Testing

Estimation for ARMA Processes with Stable Noise. Matt Calder & Richard A. Davis Colorado State University

Example Sheet 3 Solutions

CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS

Policy Coherence. JEL Classification : J12, J13, J21 Key words :

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Durbin-Levinson recursive method

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

Notes on the Open Economy

Galatia SIL Keyboard Information

Οι αδελφοί Montgolfier: Ψηφιακή αφήγηση The Montgolfier Βrothers Digital Story (προτείνεται να διδαχθεί στο Unit 4, Lesson 3, Αγγλικά Στ Δημοτικού)

Inverse trigonometric functions & General Solution of Trigonometric Equations

Section 9.2 Polar Equations and Graphs

LIGHT UNFLAVORED MESONS (S = C = B = 0)

Approximation of distance between locations on earth given by latitude and longitude

Every set of first-order formulas is equivalent to an independent set

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ

4.6 Autoregressive Moving Average Model ARMA(1,1)

Instruction Execution Times

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

«ΑΝΑΠΣΤΞΖ ΓΠ ΚΑΗ ΥΩΡΗΚΖ ΑΝΑΛΤΖ ΜΔΣΔΩΡΟΛΟΓΗΚΩΝ ΓΔΓΟΜΔΝΩΝ ΣΟΝ ΔΛΛΑΓΗΚΟ ΥΩΡΟ»

the total number of electrons passing through the lamp.

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

Homework 3 Solutions

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Modbus basic setup notes for IO-Link AL1xxx Master Block

PARTIAL NOTES for 6.1 Trigonometric Identities

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

Matrices and Determinants

«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»

Μηχανισμοί πρόβλεψης προσήμων σε προσημασμένα μοντέλα κοινωνικών δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 10η: Basics of Game Theory part 2 Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Mean bond enthalpy Standard enthalpy of formation Bond N H N N N N H O O O

Τo ελληνικό τραπεζικό σύστημα σε περιόδους οικονομικής κρίσης και τα προσφερόμενα προϊόντα του στην κοινωνία.

상대론적고에너지중이온충돌에서 제트입자와관련된제동복사 박가영 인하대학교 윤진희교수님, 권민정교수님

HISTOGRAMS AND PERCENTILES What is the 25 th percentile of a histogram? What is the 50 th percentile for the cigarette histogram?

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

Second Order RLC Filters

(1) Describe the process by which mercury atoms become excited in a fluorescent tube (3)

Αναερόβια Φυσική Κατάσταση

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Τα γνωστικά επίπεδα των επαγγελματιών υγείας Στην ανοσοποίηση κατά του ιού της γρίπης Σε δομές του νομού Λάρισας

ΣΤΥΛΙΑΝΟΥ ΣΟΦΙΑ

Math221: HW# 1 solutions

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

How to register an account with the Hellenic Community of Sheffield.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

Right Rear Door. Let's now finish the door hinge saga with the right rear door

LESSON 14 (ΜΑΘΗΜΑ ΔΕΚΑΤΕΣΣΕΡΑ) REF : 202/057/34-ADV. 18 February 2014

FSM Toolkit Exercises

7 Present PERFECT Simple. 8 Present PERFECT Continuous. 9 Past PERFECT Simple. 10 Past PERFECT Continuous. 11 Future PERFECT Simple

14 Lesson 2: The Omega Verb - Present Tense

Συντακτικές λειτουργίες

(C) 2010 Pearson Education, Inc. All rights reserved.

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a Ημερομηνία : 16-5-2007 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 1 Διάρθρωση Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 2

Γραπτός Λόγος - Κείμενο Starting with hieroglyphs, the first written surfaces (stone, wood, animal skin, papyrus and rice paper), and paper, text has been created everywhere, in many forms and languages. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 3 Στατιστικές Ιδιότητες Κειμένου How is the frequency of different words distributed? How fast does vocabulary size grow with the size of a corpus? Such factors affect the performance of information retrieval and can be used to select appropriate term weights and other aspects of an IR system. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 4

Συχνότητα Λέξεων A few words are very common. 2 most frequent words (e.g. the, of ) can account for about 10% of word occurrences. Most words are very rare. Half the words in a corpus appear only once, called hapax legomena (Greek for read only once ) Called a heavy tailed distribution, since most of the probability mass is in the tail CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 5 Sample Word Frequency Data (from B. Croft, UMass) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 6

O νόμος του Zipf Rank r: The numerical position of a word in a list sorted by decreasing frequency (f ). Zipf (1949) discovered that: f r = k (for constant k ) Πχ: f1 * 1 = k f2 * 2 = k f3 * 3 = k... fi * i = k = f1 * 1 = f1 fi = f1 / i Η συχνότητα της i-th πιο συχνά εμφανιζόμενης λέξης είναι 1/i φορές η συχνότητα της πιο συχνής. Πιο ακριβές: 1/i θ όπου θ μεταξύ 1.5 και 2 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 7 Sample Word Frequency Data (again) (from B. Croft, UMass) 1 * 5.9 = 5.9 2 * 3.1 = 6.2 3 * 2.7 = 8.1 4 * 2.6 = 10.4 5 * 1.8 = 9 6 * 1.2 = 7.2 7 * 1 =7 8 * 0.9 =7.2 9 * 0.8 =7.2... CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 8

Zipf s Law Impact on IR Good News: Stopwords will account for a large fraction of text so eliminating them greatly reduces inverted-index storage costs. Bad News: For most words, gathering sufficient data for meaningful statistical analysis (e.g. for correlation analysis for query expansion) is difficult since they are extremely rare. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 9 Zipf and Term Weighting Luhn (1958) suggested that both extremely common and extremely uncommon words were not very useful for indexing. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 10

Does Real Data Fit Zipf s Law? A law of the form y = kx c is called a power law. Zipf s law (fi=f1/i) is a power law with c = 1 On a log-log plot, power laws give a straight line with slope c. c log( y) = log( kx ) = logk + clog( x) = logk log( x) Zipf is quite accurate except for very high and low rank. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 11 Mandelbrot (1954) Correction Ziph s Law: fi= f1/i θ Mandelbrot correction: fi= f1*k/(c+i) θ c: parameter k: so that all frequencies add to N This formula fits better with the read texts CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 12

Explanations for Zipf s Law Zipf s explanation was his principle of least effort. Balance between speaker s desire for a small vocabulary and hearer s desire for a large one. Η επανάληψη λέξεων είναι ευκολότερη από την επινόηση/χρήση νέων Debate (1955-61) between Mandelbrot and H. Simon over explanation. Με επιφύλαξη: Li (1992) shows that just random typing of letters including a space will generate words with a Zipfian distribution. (http://linkage.rockefeller.edu/wli/zipf/ ) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 13 Vocabulary Growth How does the size of the overall vocabulary (number of unique words) grow with the size of the corpus? This determines how the size of the inverted index will scale with the size of the corpus. Vocabulary not really upper-bounded due to proper names, typos, etc. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 14

Heaps Law If V is the size of the vocabulary and the n is the length of the corpus in words: V β = Kn with constants K, 0 < β < 1 Typical constants: K 10 100 β 0.4 0.6 (approx. square-root) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 15 Heaps Law Data CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 16

Explanation for Heaps Law Can be derived from Zipf s law by assuming documents are generated by randomly sampling words from a Zipfian distribution Average Length of Words Why? To estimate the storage space needed for the vocabulary. Average word length in TREC-2 = 5 letters If we remove stopwords then average word length: 6-7 letters CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2007 17