Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Σχετικά έγγραφα
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Διάρθρωση. Στατιστικά Κειμένου Text Statistics. Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps. Ανάκτηση Πληροφορίας

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι

Numerical Analysis FMN011

Statistical Inference I Locally most powerful tests

Other Test Constructions: Likelihood Ratio & Bayes Tests

C.S. 430 Assignment 6, Sample Solutions

Fourier Series. MATH 211, Calculus II. J. Robert Buchanan. Spring Department of Mathematics

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Lecture 34 Bootstrap confidence intervals

Block Ciphers Modes. Ramki Thurimella

EE512: Error Control Coding

The Simply Typed Lambda Calculus

Finite Field Problems: Solutions

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

derivation of the Laplacian from rectangular to spherical coordinates

ST5224: Advanced Statistical Theory II

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

Aquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET

CMOS Technology for Computer Architects

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

ΑΝΙΧΝΕΥΣΗ ΓΕΓΟΝΟΤΩΝ ΒΗΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΕΠΙΤΑΧΥΝΣΙΟΜΕΤΡΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Example of the Baum-Welch Algorithm

5.4 The Poisson Distribution.

Chapter 2 * * * * * * * Introduction to Verbs * * * * * * *

Example Sheet 3 Solutions

CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS

Congruence Classes of Invertible Matrices of Order 3 over F 2

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Durbin-Levinson recursive method

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Solution Series 9. i=1 x i and i=1 x i.

Notes on the Open Economy

ΠΑΡΑΜΕΤΡΟΙ ΕΠΗΡΕΑΣΜΟΥ ΤΗΣ ΑΝΑΓΝΩΣΗΣ- ΑΠΟΚΩΔΙΚΟΠΟΙΗΣΗΣ ΤΗΣ BRAILLE ΑΠΟ ΑΤΟΜΑ ΜΕ ΤΥΦΛΩΣΗ

Elements of Information Theory

Galatia SIL Keyboard Information

Μηχανική Μάθηση Hypothesis Testing

Inverse trigonometric functions & General Solution of Trigonometric Equations

Estimation for ARMA Processes with Stable Noise. Matt Calder & Richard A. Davis Colorado State University

Every set of first-order formulas is equivalent to an independent set

4.6 Autoregressive Moving Average Model ARMA(1,1)

Policy Coherence. JEL Classification : J12, J13, J21 Key words :

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

Homework 3 Solutions

Οι αδελφοί Montgolfier: Ψηφιακή αφήγηση The Montgolfier Βrothers Digital Story (προτείνεται να διδαχθεί στο Unit 4, Lesson 3, Αγγλικά Στ Δημοτικού)

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Section 9.2 Polar Equations and Graphs

LIGHT UNFLAVORED MESONS (S = C = B = 0)

Approximation of distance between locations on earth given by latitude and longitude

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ

Matrices and Determinants

Instruction Execution Times

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

the total number of electrons passing through the lamp.

Πώς μπορεί κανείς να έχει έναν διερμηνέα κατά την επίσκεψή του στον Οικογενειακό του Γιατρό στο Ίσλινγκτον Getting an interpreter when you visit your

«ΑΝΑΠΣΤΞΖ ΓΠ ΚΑΗ ΥΩΡΗΚΖ ΑΝΑΛΤΖ ΜΔΣΔΩΡΟΛΟΓΗΚΩΝ ΓΔΓΟΜΔΝΩΝ ΣΟΝ ΔΛΛΑΓΗΚΟ ΥΩΡΟ»

Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

Math221: HW# 1 solutions

Right Rear Door. Let's now finish the door hinge saga with the right rear door

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Modbus basic setup notes for IO-Link AL1xxx Master Block

PARTIAL NOTES for 6.1 Trigonometric Identities

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»

Συντακτικές λειτουργίες

Μηχανισμοί πρόβλεψης προσήμων σε προσημασμένα μοντέλα κοινωνικών δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 10η: Basics of Game Theory part 2 Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

Mean bond enthalpy Standard enthalpy of formation Bond N H N N N N H O O O

Τo ελληνικό τραπεζικό σύστημα σε περιόδους οικονομικής κρίσης και τα προσφερόμενα προϊόντα του στην κοινωνία.

HISTOGRAMS AND PERCENTILES What is the 25 th percentile of a histogram? What is the 50 th percentile for the cigarette histogram?

상대론적고에너지중이온충돌에서 제트입자와관련된제동복사 박가영 인하대학교 윤진희교수님, 권민정교수님

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

MATH423 String Theory Solutions 4. = 0 τ = f(s). (1) dτ ds = dxµ dτ f (s) (2) dτ 2 [f (s)] 2 + dxµ. dτ f (s) (3)

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

Second Order RLC Filters

(1) Describe the process by which mercury atoms become excited in a fluorescent tube (3)

Statistics & Research methods. Athanasios Papaioannou University of Thessaly Dept. of PE & Sport Science

Αναερόβια Φυσική Κατάσταση

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Τα γνωστικά επίπεδα των επαγγελματιών υγείας Στην ανοσοποίηση κατά του ιού της γρίπης Σε δομές του νομού Λάρισας

ΣΤΥΛΙΑΝΟΥ ΣΟΦΙΑ

( ) 2 and compare to M.

HW 3 Solutions 1. a) I use the auto.arima R function to search over models using AIC and decide on an ARMA(3,1)

SOLUTIONS TO MATH38181 EXTREME VALUES AND FINANCIAL RISK EXAM

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a Ημερομηνία : CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 1 Διάρθρωση Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 2

Γραπτός Λόγος - Κείμενο Starting with hieroglyphs, the first written surfaces (stone, wood, animal skin, papyrus and rice paper), and paper, text has been created everywhere, in many forms and languages. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 3 Στατιστικές Ιδιότητες Κειμένου How is the frequency of different words distributed? How fast does vocabulary size grow with the size of a corpus? Such factors affect the performance of information retrieval and can be used to select appropriate term weights and other aspects of an IR system. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 4

Συχνότητα Λέξεων A few words are very common. 2 most frequent words (e.g. the, of ) can account for about 10% of word occurrences. Most words are very rare. Half the words in a corpus appear only once, called hapax legomena (Greek for read only once ) Called a heavy tailed distribution, since most of the probability mass is in the tail CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 5 Sample Word Frequency Data (from B. Croft, UMass) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 6

O νόμος του Zipf Rank rof a word: The numerical position of the word in a list sorted by decreasing frequency (f ). Zipf (1949) discovered that: f r = k (for constant k ) Πχ: f1 * 1 = k f2 * 2 = k f3 * 3 = k... fi * i = k = f1 * 1 = f1 fi = f1 / i Η συχνότητα της i-th πιο συχνά εμφανιζόμενης λέξης είναι 1/i φορές η συχνότητα της πιο συχνής. Πιο ακριβές: 1/i θ όπου θ μεταξύ 1.5 και 2 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 7 Sample Word Frequency Data (again) (from B. Croft, UMass) 1 * 5.9 = 5.9 2 * 3.1 = 6.2 3 * 2.7 = 8.1 4 * 2.6 = 10.4 5 * 1.8 = 9 6 * 1.2 = 7.2 7 * 1 =7 8 * 0.9 =7.2 9 * 0.8 =7.2... CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 8

Zipf s Law Impact on IR Good News: Stopwords will account for a large fraction of text so eliminating them greatly reduces inverted-index storage costs. Bad News: For most words, gathering sufficient data for meaningful statistical analysis (e.g. for correlation analysis for query expansion) is difficult since they are extremely rare. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 9 Zipf and Term Weighting Luhn (1958) suggested that both extremely common and extremely uncommon words were not very useful for indexing. Θυμηθείτε την επιλογή όρων στην αυτόματη κατασκευή θησαυρών CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 10

Does Real Data Fit Zipf s Law? A law of the form y = kx c is called a power law. Zipf s law (fi=f1/i) is a power law with c = 1 On a log-log plot, power laws give a straight line with slope c. c log( y) = log( kx ) = logk + clog( x) = logk log( x) Zipf is quite accurate except for very high and low rank. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 11 Σημείωση: Ο Χ και Υ έχουν λογαριθμική κλίμακα CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 12

Mandelbrot (1954) Correction Ziph s Law: fi= f1/i θ Mandelbrot correction: fi= f1*k/(c+i) θ c: parameter k: so that all frequencies add to N This formula fits better with the read texts CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 13 Explanations for Zipf s Law Zipf s explanation was his principle of least effort. Balance between speaker s desire for a small vocabulary and hearer s desire for a large one. Η επανάληψη λέξεων είναι ευκολότερη από την επινόηση/χρήση νέων Debate (1955-61) between Mandelbrot and H. Simon over explanation. Με επιφύλαξη: Li (1992) shows that just random typing of letters including a space will generate words with a Zipfian distribution. (http://linkage.rockefeller.edu/wli/zipf/ ) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 14

Vocabulary Growth How does the size of the overall vocabulary (number of unique words) grow with the size of the corpus? This determines how the size of the inverted index will scale with the size of the corpus. Vocabulary not really upper-bounded due to proper names, typos, etc. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 15 Heaps Law If V is the size of the vocabulary (i.e. number of distict words) and the n is the length of the corpus in words: V β = Kn with constants K, 0 < β < 1 Typical constants: K 10 100 β 0.4 0.6 (approx. square-root) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 16

Heaps Law Data CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 17 Explanation for Heaps Law Can be derived from Zipf s law by assuming documents are generated by randomly sampling words from a Zipfian distribution Average Length of Words Why? To estimate the storage space needed for the vocabulary. Average word length in TREC-2 = 5 letters If we remove stopwords then average word length: 6-7 letters CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 18