Διάρθρωση. Στατιστικά Κειμένου Text Statistics. Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps. Ανάκτηση Πληροφορίας 2008-2009 1



Σχετικά έγγραφα
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι

C.S. 430 Assignment 6, Sample Solutions

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Other Test Constructions: Likelihood Ratio & Bayes Tests

Statistical Inference I Locally most powerful tests

The Simply Typed Lambda Calculus

Main source: "Discrete-time systems and computer control" by Α. ΣΚΟΔΡΑΣ ΨΗΦΙΑΚΟΣ ΕΛΕΓΧΟΣ ΔΙΑΛΕΞΗ 4 ΔΙΑΦΑΝΕΙΑ 1

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

derivation of the Laplacian from rectangular to spherical coordinates

Fourier Series. MATH 211, Calculus II. J. Robert Buchanan. Spring Department of Mathematics

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Lecture 34 Bootstrap confidence intervals

Numerical Analysis FMN011

EE512: Error Control Coding

Example Sheet 3 Solutions

ΑΝΙΧΝΕΥΣΗ ΓΕΓΟΝΟΤΩΝ ΒΗΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΕΠΙΤΑΧΥΝΣΙΟΜΕΤΡΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Section 1: Listening and responding. Presenter: Niki Farfara MGTAV VCE Seminar 7 August 2016

Notes on the Open Economy

ST5224: Advanced Statistical Theory II

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Block Ciphers Modes. Ramki Thurimella

ΟΙΚΟΝΟΜΟΤΕΧΝΙΚΗ ΑΝΑΛΥΣΗ ΕΝΟΣ ΕΝΕΡΓΕΙΑΚΑ ΑΥΤΟΝΟΜΟΥ ΝΗΣΙΟΥ ΜΕ Α.Π.Ε

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

ΠΑΡΑΜΕΤΡΟΙ ΕΠΗΡΕΑΣΜΟΥ ΤΗΣ ΑΝΑΓΝΩΣΗΣ- ΑΠΟΚΩΔΙΚΟΠΟΙΗΣΗΣ ΤΗΣ BRAILLE ΑΠΟ ΑΤΟΜΑ ΜΕ ΤΥΦΛΩΣΗ

CMOS Technology for Computer Architects

the total number of electrons passing through the lamp.

Approximation of distance between locations on earth given by latitude and longitude

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Every set of first-order formulas is equivalent to an independent set

Galatia SIL Keyboard Information

Example of the Baum-Welch Algorithm

4.6 Autoregressive Moving Average Model ARMA(1,1)

PARTIAL NOTES for 6.1 Trigonometric Identities

Homework 3 Solutions

Solution Series 9. i=1 x i and i=1 x i.

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

Finite Field Problems: Solutions

2 Composition. Invertible Mappings

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Aquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Assalamu `alaikum wr. wb.

Policy Coherence. JEL Classification : J12, J13, J21 Key words :

Srednicki Chapter 55

Estimation for ARMA Processes with Stable Noise. Matt Calder & Richard A. Davis Colorado State University

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

(C) 2010 Pearson Education, Inc. All rights reserved.

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

Instruction Execution Times

Μηχανική Μάθηση Hypothesis Testing

Math221: HW# 1 solutions

Chapter 2 * * * * * * * Introduction to Verbs * * * * * * *

5.4 The Poisson Distribution.

Η αλληλεπίδραση ανάμεσα στην καθημερινή γλώσσα και την επιστημονική ορολογία: παράδειγμα από το πεδίο της Κοσμολογίας

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

14 Lesson 2: The Omega Verb - Present Tense

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

Matrices and Determinants

Section 8.3 Trigonometric Equations

Congruence Classes of Invertible Matrices of Order 3 over F 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΕΠΛ342: Βάσεις Δεδομένων. Χειμερινό Εξάμηνο Φροντιστήριο 10 ΛΥΣΕΙΣ. Επερωτήσεις SQL

Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook

Durbin-Levinson recursive method

Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 10η: Basics of Game Theory part 2 Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΩΝ ΣΜΖΜΑ ΖΛΔΚΣΡΟΛΟΓΩΝ ΜΖΥΑΝΗΚΩΝ ΚΑΗ ΣΔΥΝΟΛΟΓΗΑ ΤΠΟΛΟΓΗΣΩΝ ΣΟΜΔΑ ΤΣΖΜΑΣΩΝ ΖΛΔΚΣΡΗΚΖ ΔΝΔΡΓΔΗΑ

Elements of Information Theory

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

[1] P Q. Fig. 3.1

(1) Describe the process by which mercury atoms become excited in a fluorescent tube (3)

LIGHT UNFLAVORED MESONS (S = C = B = 0)

Inverse trigonometric functions & General Solution of Trigonometric Equations

SOLUTIONS TO MATH38181 EXTREME VALUES AND FINANCIAL RISK EXAM

Modbus basic setup notes for IO-Link AL1xxx Master Block

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

Mean bond enthalpy Standard enthalpy of formation Bond N H N N N N H O O O

About these lecture notes. Simply Typed λ-calculus. Types

CHAPTER 48 APPLICATIONS OF MATRICES AND DETERMINANTS

Μηχανισμοί πρόβλεψης προσήμων σε προσημασμένα μοντέλα κοινωνικών δικτύων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Τα γνωστικά επίπεδα των επαγγελματιών υγείας Στην ανοσοποίηση κατά του ιού της γρίπης Σε δομές του νομού Λάρισας

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

How to register an account with the Hellenic Community of Sheffield.

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

Συντακτικές λειτουργίες

Chapter 6: Systems of Linear Differential. be continuous functions on the interval

Οι αδελφοί Montgolfier: Ψηφιακή αφήγηση The Montgolfier Βrothers Digital Story (προτείνεται να διδαχθεί στο Unit 4, Lesson 3, Αγγλικά Στ Δημοτικού)

department listing department name αχχουντσ ϕανε βαλικτ δδσϕηασδδη σδηφγ ασκϕηλκ τεχηνιχαλ αλαν ϕουν διξ τεχηνιχαλ ϕοην µαριανι

«ΑΝΑΠΣΤΞΖ ΓΠ ΚΑΗ ΥΩΡΗΚΖ ΑΝΑΛΤΖ ΜΔΣΔΩΡΟΛΟΓΗΚΩΝ ΓΔΓΟΜΔΝΩΝ ΣΟΝ ΔΛΛΑΓΗΚΟ ΥΩΡΟ»

Tridiagonal matrices. Gérard MEURANT. October, 2008

Areas and Lengths in Polar Coordinates

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 Στατιστικά Κειμένου Text Statistics CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 1 Διάρθρωση Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 2 Ανάκτηση Πληροφορίας 2008-2009 1

Γραπτός Λόγος - Κείμενο Starting with hieroglyphs, the first written surfaces (stone, wood, animal skin, papyrus and rice paper), and paper, text has been created everywhere, in many forms and languages. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 3 Στατιστικές Ιδιότητες Κειμένου How is the frequency of different words distributed? How fast does vocabulary size grow with the size of a corpus? Such factors affect the performance of information retrieval and can be used to select appropriate term weights and other aspects of an IR system. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 4 Ανάκτηση Πληροφορίας 2008-2009 2

Συχνότητα Λέξεων A few words are very common. 2 most frequent words (e.g. the, of ) can account for about 10% of word occurrences. Most words are very rare. Half the words in a corpus appear only once, called hapax legomena (Greek for read only once ) Called a heavy tailed distribution, since most of the probability mass is in the tail CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 5 Sample Word Frequency Data (from B. Croft, UMass) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 6 Ανάκτηση Πληροφορίας 2008-2009 3

O νόμος του Zipf Rank r of a word: The numerical position of the word in a list sorted by decreasing frequency (f ). Zipf (1949) discovered that: the frequency of any word is inversely proportional to its rank f r = k (for constant k ) Πχ: f1 * 1 = k f2 * 2 = k f3 * 3 = k... fi * i = k = f1 * 1 = f1 fi = f1 / i The most frequent word will appear twice as often as the second most frequent word, which occurs twice as often as the fourth, etc Η συχνότητα της i-th πιο συχνά εμφανιζόμενης λέξης είναι 1/i φορές η συχνότητα της πιο συχνής. Πιο ακριβές: 1/i θ όπου θ μεταξύ 1.5 και 2 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 7 Sample Word Frequency Data (again) (from B. Croft, UMass) 1 * 5.9 = 5.9 2 * 3.1 = 6.2 3 * 2.7 = 8.1 4 * 2.6 = 10.4 5 * 1.8 = 9 6 * 1.2 = 7.2 7 * 1 =7 8 * 0.9 =7.2 9 * 0.8 =7.2... CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 8 Ανάκτηση Πληροφορίας 2008-2009 4

Zipf s Law Impact on IR Good News: Stopwords will account for a large fraction of text so eliminating them greatly reduces inverted-index storage costs. Bad News: For most words, gathering sufficient data for meaningful statistical analysis (e.g. for correlation analysis for query expansion) is difficult since they are extremely rare. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 9 Zipf and Term Weighting Luhn (1958) suggested that both extremely common and extremely uncommon words were not very useful for indexing. επιλογή όρων στην αυτόματη κατασκευή θησαυρών CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 10 Ανάκτηση Πληροφορίας 2008-2009 5

Does Real Data Fit Zipf s Law? A law of the form y = kx c is called a power law. Zipf s law (fi=f1/i) is a power law with c = 1 On a log-log plot, power laws give a straight line with slope c. c log( y) = log( kx ) = logk + clog( x) = logk log( x) Zipf is quite accurate except for very high and low rank. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 11 Does Real Data Fit Zipf s Law? Σημείωση: Ο Χ και Υ έχουν λογαριθμική κλίμακα CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 12 Ανάκτηση Πληροφορίας 2008-2009 6

Mandelbrot (1954) Correction Ziph s Law: fi= f1/i θ Mandelbrot correction: fi= f1*k/(c+i) θ c: parameter k: so that all frequencies add to N This formula fits better with the read texts CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 13 Explanations for Zipf s Law Zipf s explanation was his principle of least effort. Balance between speaker s desire for a small vocabulary and hearer s desire for a large one. Η επανάληψη λέξεων είναι ευκολότερη από την επινόηση/χρήση νέων Debate (1955-61) between Mandelbrot and H. Simon over explanation. Με επιφύλαξη: Li (1992) shows that just random typing of letters including a space will generate words with a Zipfian distribution. http://www.nslij-genetics.org/wli/zipf/ CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 14 Ανάκτηση Πληροφορίας 2008-2009 7

Vocabulary Growth How does the size of the overall vocabulary (number of unique words) grow with the size of the corpus? This determines how the size of the inverted index will scale with the size of the corpus. Vocabulary not really upper-bounded due to proper names, typos, etc. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 15 Heaps Law If V is the size of the vocabulary (i.e. number of distinct words) and the n is the length of the corpus in words: V β = Kn with constants K, 0 < β < 1 Typical constants: K 10 100 β 0.4 0.6 (approx. square-root) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 16 Ανάκτηση Πληροφορίας 2008-2009 8

Heaps Law Data CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 17 Heaps Law Explanation for Heaps Law Can be derived from Zipf s law by assuming documents are generated by randomly sampling words from a Zipfian distribution Heaps' law also means that: as more instance text is gathered, there will be diminishing returns in terms of discovery of the full vocabulary from which the distinct terms are drawn. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 18 Ανάκτηση Πληροφορίας 2008-2009 9

Word Lenght Average Length of Words Why? To estimate the storage space needed for the vocabulary. Average word length in TREC-2 = 5 letters If we remove stopwords then average word length: 6-7 letters CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 19 Επίσης Σνωμφύα με μια ένυερα του Κέμπριτζ η σιερά των γμμάαρωτν σε μια λξέη δεν έεχι σησίμαα. Ακρεί το πώτρο και το ταίυελετο γμαράμ να είανι στη σστωή σεριά. Σύμφωνα με μια έρευνα του Κέμπριτζ η σειρά των γραμμάτων σε μια λέξη δεν έχει σημασία. Αρκεί το πρώτο και το τελευταίο γράμμα να είναι στη σωστή σειρά. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete, Spring 2008 20 Ανάκτηση Πληροφορίας 2008-2009 10