Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems



Σχετικά έγγραφα
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Διάρθρωση. Στατιστικά Κειμένου Text Statistics. Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps. Ανάκτηση Πληροφορίας

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι

Όμιλος Λογοτεχνίας. Δράκογλου Αναστασία, Κιννά Πασχαλίνα

Χημεία Β Γυμνασίου Τμήμα Β3. Γρηγόρης Μαγουλάς Φανή Μανούσου Κύρος Μαλλαμίδης Ελίνα Μάλλιαρη Μάγδα Μαντά

Σεμινάριο με θέμα : Εθελοντισμός & Δικαιώματα Παιδιού

Πολιτικές και χρηματοδότηση. Γιάννης Θεοδωράκης Πρόεδρος ρ Πανελλήνιας Ομοσπονδίας Ατόμων με ΣΚΠ

Μαρία-Στεφανία-Γιάννης 1 ο Πρότυπο Πειραματικό Δημοτικό Σχολείο Θεσσαλονίκης Ε2 Π.Τ.Δ.Ε.-Α.Π.Θ

ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΓΕΝΙΚΩΝ ΚΑΙ ΕΙΔΙΚΩΝ ΟΡΩΝ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ «ΑΣΦΑΛΩΣ ΚΑΤΟΙΚΕΙΝ» ΚΟΙΝΟΧΡΗΣΤΟΙ ΧΩΡΟΙ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ Κεφάλαιο 3 ο

Δρ.ΠΟΛΥΚΑΡΠΟΣ ΕΥΡΙΠΙΔΟΥ

ΟΣΤΑ & ΣΚΕΛΕΤΙΚΟ ΣΥΣΤΗΜΑ

Το Μετρό συντομεύει στο μισό τον χρόνο μετακίνησης των κατοίκων στην πόλη σε σχέση με τα άλλα μέσα μεταφοράς.

Απομόνωση χλωροφύλλης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΝΟΜΟΣ ΦΛΩΡΙΝΑΣ ΔΗΜΟΣ ΑΜΥΝΤΑΙΟΥ

ΕΡΓΟ: «ΕΦΑΡΜΟΓΕΣ ΕΙΚΟΝΙΚΗΣ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑΣ ΣΤΗ ΒΟΙΩΤΙΑ: ΜΑΝΤΕΙΟ ΤΡΟΦΩΝΙΟΥ ΚΑΙ ΜΥΚΗΝΑΪΚΗ ΘΗΒΑ»

ΠΤΥΧΕΣ ΤΟΥ ΣΥΓΧΡΟΝΟΥ ΦΑΙΝΟΜΕΝΟΥ ΤΗΣ ΖΩΟΛΑΤΡΙΑΣ! ΛΑΜΠΡΟΥ Κ. ΣΚΟΝΤΖΟΥ Θεολόγου - καθηγητού Δε χρειάζεται να είναι κάποιος ειδικός για να διαπιστώσει

Α ΚΛΙΣΗ ΟΥΣΙΑΣΤΙΚΩΝ. Η α κλίση ουσιαστικών περιλαμβάνει τις εξής κατηγορίες: Α. ΑΣΥΝΑΙΡΕΤΑ ΟΥΣΙΑΣΤΙΚΑ

ΓΕΩΓΡΑΦΙΚΗ ΑΝΑΛΥΣΗ ΤΟΥ ΕΛΛΗΝΙΚΟΥ ΓΡΑΜΜΑΤΟΣΗΜΟΥ

Οι ρύποι της ατµόσφαιρας

ΞΕΝΕΣ ΓΛΩΣΣΕΣ ΞΕΝΕΣ ΓΛΩΣΣΕΣ

Χρηματοδότηση των Συλλόγων στην εποχή της κρίσης

Τμήμα Ζωικής Παραγωγής ΤΕΙ Δ. Μακεδονίας, Παράρτημα Φλώρινας

ΟΡΓΑΝΩΣΗ ΕΝΟΤΗΤΩΝ Α ΤΑΞΗΣ ΕΝΟΤΗΤΑ 3

Από τη διδασκαλία της περίληψης στη διδασκαλία της έκθεσης Η διδασκόμενη θεωρία στην πράξη Εισηγήτρια: Μαρία Κάππου

Θεματική Ενότητα: ΠΑΙΔΕΙΑ ΠΟΛΙΤΙΣΜΟΣ - ΑΘΛΗΤΙΣΜΟΣ

Ι ΑΚΤΙΚΗ ΠΑΡΕΜΒΑΣΗ ΣΤΗΝ ΠΑΡΑΓΩΓΗ ΓΡΑΠΤΟΥ ΛΟΓΟΥ ΣΕ ΤΜΗΜΑ ΕΝΤΑΞΗΣ ΕΥΤΕΡΟΒΑΘΜΙΑΣ ΕΚΠΑΙ ΕΥΣΗΣ

Ο ΡΟΛΟΣ ΤΟΥ ΧΗΜΙΚΟΥ ΜΗΧΑΝΙΚΟΥ ΣΤΗΝ ΥΓΙΕΙΝΗ ΚΑΙ AΣΦΑΛΕΙΑ - OHSAS 18001

Οργάνωση και λειτουργία του δικτυακού τόπου του Εθνικού Αστεροσκοπείου Αθηνών Προγνώσεις και παρατηρήσεις

ΤΕΧΝΟΛΟΓ ΙΚΟ ΕΚΠΑΙΛΕΥΤΙΚΟ ΙΛΡΥΜΛ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΛΟΓ ΙΣΤΙΚΗΣ ΠΤΔ ΧΙΛΚΗ ΕΡ1 ΑΣΙΑ

ΑΓΡΟΤΙΚΗ ΖΩΗ ΚΑΙ ΚΥΠΡΙΑΚΗ ΠΑΡΑΔΟΣΗ

ΦΥΣΙΚΗ ΚΑΤΑΣΤΑΣΗ. Βασίλης Γιωργαλλάς Καθηγητής Φυσικής Αγωγής

ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ ΝΕΟΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ A1. Ο συγγραφέας ορίζει το φαινόμενο του ανθρωπισμού στη σύγχρονη εποχή. Αρχικά προσδιορίζει την

ΑΠΟΦΑΣΗ ΧΟΡΗΓΗΣΗΣ ΠΙΣΤΟΠΟΙΗΤΙΚΟΥ ΓΝΩΣΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Ή ΧΕΙΡΙΣΜΟΥ Η/Υ

ΑΠΟΦΑΣΗ ΧΟΡΗΓΗΣΗΣ ΠΙΣΤΟΠΟΙΗΤΙΚΟΥ ΓΝΩΣΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Ή ΧΕΙΡΙΣΜΟΥ Η/Υ

γ ρ α π τ ή ε ξ έ τ α σ η σ τ o μ ά θ η μ α Ν Ε Ο Ε Λ Λ Η Ν Ι Κ Η Γ Λ Ω Σ Σ Α Α Λ Υ Κ Ε Ι Ο Υ Τάξη: Α Λυκείου Τμήμα: Βαθμός: Ονοματεπώνυμο: Καθηγητές:

ΚΕΦ. 1 Η ΛΟΓΙΣΤΙΚΗ ΚΑΙ Η ΣΗΜΑΣΙΑ ΤΗΣ ΣΤΙΣ ΕΠΙΧΕΙΡΗΣΕΙΣ

ΣΥΜΒΟΛΗ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΚΑΤΑΡΤΙΣΗ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ ΤΟΥ ΠΡΟΣΩΠΙΚΟΥ ΜΙΑΣ ΣΥΓΧΡΟΝΗΣ ΕΠΙΧΕΙΡΗΣΗΣ

ΤΟ ΝΕΡΟ ΜΕΣΑ ΑΠΟ ΤΙΣ ΠΗΓΕΣ-ΚΡΗΝΕΣ ΤΟΥ ΗΜΟΥ ΤΟΠΕΙΡΟΥ

Ο κόσμος των επιχειρήσεων, τησ οικονομιασ και των αγορών: επιχειρηματικές δραστηριότητες, επιχειρηματικοί κίνδυνοι και επιχειρηματικές πρακτικές

ΙΣΤΟΡΙΑ ΘΕΩΡΗΤΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ Γ ΛΥΚΕΙΟΥ ΟΜΑΔΑ Α

Μέθοδοι διαχωρισμού των συστατικών ενός ετερογενούς μείγματος

ΑΠΑΝΤΗΣΕΙΣ ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ 2014

Β Μέρος. Περιγραφική Στατιστική & Στατιστική Συμπερασματολογία

Υ π ά ρ χ ο υ ν α ν τ ι κ ε ι μ ε ν ι κ έ ς η θ ι κ έ ς α ξ ί ε ς ;

ΑΔΑ: ΒΕΖΣΘ-ΣΒ9 ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΥΠΟΥΡΓΕΙΟ ΥΓΕΙΑΣ ΓΕΝΙΚΗ Δ/ΝΣΗ ΥΠΗΡΕΣΙΩΝ ΥΓΕΙΑΣ Δ/ΝΣΗ ΠΡΟΣΩΠΙΚΟΥ Ν.Π.

ΠΕΤΡΟΓΕΝΕΤΙΚΑ ΟΡΥΚΤΑ ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΕΞΕΤΑΣΕΙΣ

Δείκτες Επικοινωνιακής Επάρκειας Κατανόησης και Παραγωγής Γραπτού και Προφορικού Λόγου Β1/Β2

«Ειρήνη» Σημειώσεις για εκπαιδευτικούς

35η ιδακτική Ενότητα ΕΝΟΧΙΚΕΣ ΣΧΕΣΕΙΣ ( ΕΝΟΧΙΚΟ ΙΚΑΙΟ)

Διδακτική πρόταση για το Νηπιαγωγείο με τίτλο: «Το σταφύλι»

*Απόσπασμα από το βιβλίο των Σέργιου Δημητριάδη και Αλεξίας Μ. Τζωρτζάκη, ΜΑΡΚΕΤΙΝΓΚ, Αρχές, Στρατηγικές, Εφαρμογές, εκδόσεις Rosili, Αθήνα, 2010.

ηθοποιός, μουσικός, γιατρός, δικηγόρος, βιολόγος, δασκάλα, νηπιαγωγός, μεταφράστρια, συγγραφέας

Περιεχόμενα. Εισαγωγή... 7 ΜΕΡΟΣ Α Κεφάλαιο 1. Κεφάλαιο 2. Κεφάλαιο 3. Κεφάλαιο 4. Κεφάλαιο 5. Κεφάλαιο 6. Κεφάλαιο 7. Κεφάλαιο 8.

ΣΥΣΤΗΜΑ ΔΙΑΓΝΩΣΗΣ ΑΝΑΓΚΩΝ ΑΓΟΡΑΣ ΕΡΓΑΣΙΑΣ ΔΙΑΓΝΩΣΗ ΑΝΑΓΚΩΝ ΣΕ ΠΕΡΙΦΕΡΕΙΑΚΟ ΕΠΙΠΕΔΟ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΕΡΙΦΕΡΕΙΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΕΡΙΦΕΡΕΙΑΚΗ ΕΝΟΤΗΤΑ ΠΙΕΡΙΑΣ. Κατερίνη,14 Σεπτεμβρίου 2015 Αριθμ.Πρωτ.

ΕΘΝΙΚΟ ΚΕΝΤΡΟ ΚΟΙΝΩΝΙΚΩΝ ΕΡΕΥΝΩΝ ΙΝΣΤΙΤΟΥΤΟ ΑΣΤΙΚΗΣ ΚΑΙ ΑΓΡΟΤΙΚΗΣ ΚΟΙΝΩΝΙΟΛΟΓΙΑΣ ΟΜΑΔΑ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΕΘΝΙΚΟ ΚΕΝΤΡΟ ΚΟΙΝΩΝΙΚΩΝ ΕΡΕΥΝΩΝ ΙΝΣΤΙΤΟΥΤΟ ΑΣΤΙΚΗΣ ΚΑΙ ΑΓΡΟΤΙΚΗΣ ΚΟΙΝΩΝΙΟΛΟΓΙΑΣ ΟΜΑΔΑ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΣΧΟΛΙΚΟ ΕΤΟΣ

Βιοκαλλιέργεια φυτών μεγάλης καλλιέργειας E. Καμπουράκης, MSc, PhD

ΙΝΣΤΙΤΟΥΤΟ ΠΑΙΔΑΓΩΓΙΚΩΝ ΕΡΕΥΝΩΝ ΜΕΛΕΤΩΝ ΔΙΔΑΣΚΑΛΙΚΗΣ ΟΜΟΣΠΟΝΔΙΑΣ ΕΛΛΑΔΑΣ

- 1 - ΝΟΜΟΣ ΚΑΒΑΛΑΣ ΔΗΜΟΣ ΘΑΣΟΥ ΛΙΜΕΝΑΣ Δ/ΝΣΗ ΤΕΧΝΙΚΩΝ ΥΠΗΡΕΣΙΩΝ ΠΕΡΙΒΑΛΟΝΤΟΣ & ΔΟΜΗΣΗΣ ΑΡΙΘ. ΠΡΩΤ.: 8017 Έδρα: Δημοτικό Κατάστημα Θάσου

ΣΥΜΦΩΝΙΑ ΑΜΕΣΟΥ ΔΙΑΚΑΝΟΝΙΣΜΟΥ ΖΗΜΙΩΝ ΑΠΟ ΤΡΟΧΑΙΟ ΑΤΥΧΗΜΑ ΠΙΝΑΚΑΣ ΥΠΑΙΤΙΟΤΗΤΩΝ

γραμματισμό των νηπίων

π.χ. ΝΟΤΙΑ ΚΛΙΤΥΣ ΑΚΡΟΠΟΛΗΣ

ΥΠΟΥΡΓΕΙΟ ΠΑΙΔΕΙΑΣ ΚΑΙ ΠΟΛΙΤΙΣΜΟΥ ΔΙΕΥΘΥΝΣΗ ΑΝΩΤΕΡΗΣ ΚΑΙ ΑΝΩΤΑΤΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΥΠΗΡΕΣΙΑ ΕΞΕΤΑΣΕΩΝ ΠΑΓΚΥΠΡΙΕΣ ΕΞΕΤΑΣΕΙΣ 2010

Η ΑΝΑΣΤΗΛΩΣΗ ΤΩΝ ΜΝΗΜΕΙΩΝ ΤΗΣ ΑΘΗΝΑΪΚΗΣ ΑΚΡΟΠΟΛΗΣ ΥΠΟΥΡΓΕΙΟ ΠΟΛΙΤΙΣΜΟΥ ΚΑΙ ΤΟΥΡΙΣΜΟΥ - ΥΠΗΡΕΣΙΑ ΣΥΝΤΗΡΗΣΗΣ ΜΝΗΜΕΙΩΝ ΑΚΡΟΠΟΛΗΣ

Σηµειώσεις στο ταξινοµούµε

στον κόσμο Τομείς παραγωγής - Οικονομικοί δείχτες Ι. Πρωτογενής τομέας: ΙΙ. Δευτερογενής τομέας:

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΣΥΝΕΔΡΙΑΣΗ Ο. Τετάρτη 8 Ιουλίου 2015

Παρασκευή 7 Μάιου 2004

7. ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΛΛΗΝΙΚΗΣ ΝΟΗΜΑΤΙΚΗΣ ΓΛΩΣΣΑΣ ΤΗΣ ΠΡΩΤΗΣ ΤΑΞΗΣ ΤΟΥ ΔΗΜΟΤΙΚΟΥ ΣΧΟΛΕΙΟΥ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΚΑΛΑΜΑΤΑΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΑΣ ΓΕΩΠΟΝΙΑΣ ΤΜΗΜΑ ΦΥΤΙΚΗΣ ΠΑΡΑΓΩΓΗΣ

Η Υγεία είναι ο παράγοντας που μετράει την φυσική, ψυχολογική ή ακόμα και την πνευματική κατάσταση ενός ζώντος οργανισμού.

5 η Ενότητα Κουλτούρα και στρατηγική

Ε.Π. ΕΚΠΑΙΔΕΥΣΗ ΚΑΙ ΑΡΧΙΚΗ ΕΠΑΓΓΕΛΜΑΤΙΚΗ ΚΑΤΑΡΤΙΣΗ, (ΕΠΕΑΕΚ ΙΙ) ΜΕΤΡΟ 2.5, ΕΝΕΡΓΕΙΑ 2.5.1, ΚΑΤΗΓΟΡΙΑ ΠΡΑΞΕΩΝ α

Τ.Ε.Ι. ΚΑΛΑΜΑΤΑΣ ΣΧΟΛΗ: ΤΕΧΝΟΛΟΓΙΑΣ ΓΕΩΠΟΝΙΑΣ ΤΜΗΜΑ: ΤΕΧΝΟΛΟΓΙΑΣ ΓΕΩΡΓΙΚΩΝ ΠΡΟΪΟΝΤΩΝ ΓΙΩΡΓΟΣ ΜΑΧΑΙΡΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΙΣΤΟΡΙΑΣ Α ΓΥΜΝΑΣΙΟΥ

Τα Αναβολικά. Τα αναβολικά χωρίζονται στα φυσικά και στα συνθετικά.

Καλζσ Πρακτικζσ ςτην Προςχολική Εκπαίδευςη ΙIΙ.A

ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΗΠΕΙΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΧΑΪΔΑΡΗΣ ΧΡ. ΝΙΚΟΛΑΟΣ ΑΜ:6805. Εισηγητής: Σωτηρόπουλος Ιωάννης

ΑΔΑ: Β4Λ3ΩΗΑ-5ΕΝ ΑΝΑΡΤΗΤΕΑ ΣΤΟ ΙΑ ΙΚΤΥΟ

ΠΡΟΒΛΗΜΑΤΑ ΤΗΣ ΔΗΜΟΣΙΑΣ ΖΩΗΣ, ΜΙΑ ΨΥΧΑΝΑΛΥΤΙΚΗ ΠΡΟΣΕΓΓΙΣΗ

ΧΡΙΣΤΟΣ ΑΠ. ΛΑΔΙΑΣ

ΔΙΑΔΟΣΗ ΘΕΡΜΟΤΗΤΑΣ Φυσική Β' Γυμνασίου. Επιμέλεια: Ιωάννης Γιαμνιαδάκης

Εμβαθύνοντας στα Ελληνικά

Το ολοκαύτωμα της Κάσου

ΠΤΤΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ

TEI ΚΑΛΑΜΑΤΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ & ΟΙΚΟΝΟΜΙΑΣ

ΘΕΜΑ: "ΕΦ Α ΡΜ ΟΓΕΣ Τ Η Σ Σ Τ Α Τ ΙΣ Τ ΙΚ Η Σ ΣΤΟ ΕΜ ΠΟΡΙΟ"

Αρωματικά φυτά της Ελλάδας

ΟΜΙΛΙΑ ΠΡΟΕΔΡΟΥ Ο.Κ.Ε. κ. Χ. ΠΟΛΥΖΩΓΟΠΟΥΛΟΥ

ΘΕΜΑ: «Καλλιέργεια προφορικών δεξιοτήτων των νηπίων: Διδακτικές δραστηριότητες του προφορικού λόγου στο νηπιαγωγείο»

Καλές Πρακτικές Πρόληψης και Αντιμετώπισης Ενδοσχολικής Βίας- Σχολική Διαμεσολάβηση

Της Ιωάννας Δημητριάδου * Τι είναι η Φωνολογική Ενημερότητα;

Πρότυπο Σχέδιο Δράσης για τα Συμβούλια Ένταξης Μεταναστών

Η ΜΠΑΡΤΣΑ ΓΙΟΡΤΑΖΕΙ ΤΗΝ ΑΝΟΔΟ ΚΑΙ ΠΑΕΙ ΔΥΝΑΤΑ ΓΙΑ ΝΤΑ ΣΙΛΒΑ

Βρήκαμε πολλά φυτά στο δάσος, αλλά και ήλιο, νερό, αέρα, έδαφος!

14/11/2010. Πορεία Εργασίας. Νέα Αναλυτικά Προγράμματα Μαθηματικών Επιμόρφωση Μάχιμων Εκπαιδευτικών. 1 η συνάντηση.

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη : 14a Ημερομηνία : CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 1 Διάρθρωση Συχνότητα Εμφάνισης Λέξεων Ο Νόμος του Zipf Ο Νόμος του Heaps CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 2

Γραπτός Λόγος - Κείμενο Starting with hieroglyphs, the first written surfaces (stone, wood, animal skin, papyrus and rice paper), and paper, text has been created everywhere, in many forms and languages. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 3 Στατιστικές Ιδιότητες Κειμένου Η συχνότητα εμφάνισης των λέξεων, τι κατανομή ακολουθεί; Πόσο γρήγορα μεγαλώνει το λεξιλόγιο σε σχέση με το μέγεθος της συλλογής κειμένων; Ποιο είναι το μέσο μήκος των λέξεων; Η γνώση των παραπάνω μπορεί να αξιοποιηθεί στη σχεδίαση συστημάτων ανάκτησης ης πληροφοριών. ρ. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 4

Συχνότητα Λέξεων Λίγες λέξεις εμφανίζονται πολύ συχνά στις δύο πιο συχνά εμφανιζόμενες λέξεις της αγγλικής (που είναι οι λέξεις the και of ) αντιστοιχεί το 10% των εμφανίσεων λέξεων Οι περισσότερες λέξεις εμφανίζονται σπάνια Οι μισές περίπου λέξεις εμφανίζονται μόνο μία φορά! (hapax legomena) Αυτή η κατανομή συχνά ονομάζεται heavy tailed (δηλαδή με... βαριά ουρά) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 5 Sample Word Frequency Data (from B. Croft, UMass) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 6

O νόμος του Zipf Rank rof a word: The numerical position of the word in a list sorted by decreasing frequency (f ). Zipf (1949) discovered that: f r = k (for constant k ) Πχ: f1 * 1 = k f2 * 2 = k f3 * 3 = k... fi * i = k = f1 * 1 = f1 fi = f1 / i Η συχνότητα της i-th πιο συχνά εμφανιζόμενης λέξης είναι 1/i φορές η συχνότητα της πιο συχνής. Πιο ακριβές: 1/i θ όπου θ μεταξύ 1.5 και 2 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 7 Sample Word Frequency Data (again) (from B. Croft, UMass) 1 * 5.9 = 5.9 2 * 3.1 = 6.2 3 * 2.7 = 8.1 4 * 2.6 = 10.4 5 * 1.8 = 9 6 * 1.2 = 7.2 7 * 1=7 8 * 0.9 =7.2 9 * 0.8 =7.2... CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 8

Νόμος του Zipf: Επιπτώσεις στην Ανάκτηση Πληροφοριών Καλά Νέα: Οι λέξεις αποκλεισμού (stopwords) αντιστοιχούν σε πολλές εμφανίσεις, άρα η απαλοιφή τους μειώνει δραστικά το μέγεθος του ευρετηρίου. Άσχημα Νέα: Για τις περισσότερες λέξεις, η συλλογή επαρκών δεδομένων για ασφαλή στατιστική ανάλυση (π.χ. χ εντοπισμός συνώνυμων λέξων μέσω συνεμφάνισης) είναι δύσκολη διότι οι λέξεις αυτές εμφανίζονται πολύ λίγες φορές. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 9 Ο νόμος του Zipf και η Βάρυνση Όρων Zipf and Term Weighting Luhn (1958) suggested that both extremely common and extremely uncommon words were not very useful for indexing. Θυμηθείτε την επιλογή όρων στην αυτόματη κατασκευή θησαυρών CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 10

Does Real Data Fit Zipf s Law? A law of the form y = kx c is called a power law. Zipf s law (fi=f1/i) is a power law with c = 1 On a log-log plot, power laws give a straight line with slope c. c log( y) = log( kx ) = logk + clog( x) = logk log( x) Zipf is quite accurate except for very high and low rank. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 11 Σημείωση: Ο Χ και Υ έχουν λογαριθμική κλίμακα CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 12

Mandelbrot (1954) Correction Ziph s Law: fi= f1/i θ Mandelbrot correction: fi= f1*k/(c+i) θ c: parameter k: so that all frequencies add to N This formula fits better with the read texts CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 13 Explanations for Zipf s Law Zipf s explanation was his principle of least effort. Balance between speaker s desire for a small vocabulary and hearer s desire for a large one. Η επανάληψη λέξεων είναι ευκολότερη από την επινόηση/χρήση νέων Debate (1955-61) between Mandelbrot and H. Simon over explanation. Με επιφύλαξη: Li (1992) shows that just random typing of letters including a space will generate words with a Zipfian distribution. (http://linkage.rockefeller.edu/wli/zipf/ ) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 14

Ανάπτυξη Λεξιλογίου και ο Νόμος του Heaps (Vocabulary Growth and Heaps Law) Παρατήρηση: Το μέγεθος του λεξιλογίου στην πράξη δεν είναι φραγμένο (λόγω των κύριων ονομάτων και των ορθογραφικών λαθών). Ερώτημα: Πως αναπτύσσεται το μέγεθος του λεξιλογίου (δηλαδή το πλήθος των διαφορετικών λέξεων) σε σχέση με το μέγεθος της συλλογής των κειμένων; Μια απάντηση μας έχει δώσει ο Heaps Πηγή: Harold Stanley Heaps. Information Retrieval: Computational and Theoretical Aspects. Academic Press, 1978. Heaps' law is proposed in Section 7.5 (pages 206 208). CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 15 Ο Νόμος του Heaps Εάν V είναι το μέγεθος του λεξιλογίου (δηλαδή ο αριθμός των διαφορετικών λέξεων) και n το μέγεθος της συλλογής κειμένου σε λέξεις, τότε: β V = Kn with constants s K, 0 < β < 1 Σχετικά με τις σταθερές Κ και β: K 10 100 00 β 0.4 0.6 (δηλαδή τετραγωνική ρίζα) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 16

Ο Νόμος του Heaps CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 17 Παρατηρήσεις Explanation for Heaps Law Can be derived from Zipf s law by assuming documents are generated by randomly sampling words from a Zipfian distribution Average Length of Words Why? To estimate the storage space needed for the vocabulary. Average word length in TREC-2 = 5 letters If we remove stopwords then average word length: 6-7 letters CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 18