Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Σχετικά έγγραφα
Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Δομές Δεδομένων και Αλγόριθμοι

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Εισαγωγή στον Προγραμματισμό

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Συμπίεση χωρίς Απώλειες

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Δομές Δεδομένων & Αλγόριθμοι

Άσκηση 3 (ανακοινώθηκε στις 24 Απριλίου 2017, προθεσμία παράδοσης: 2 Ιουνίου 2017, 12 τα μεσάνυχτα).

ΗΥ360 Αρχεία και Βάσεις εδοµένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Διάλεξη 11: Δέντρα Ι - Εισαγωγή σε Δενδρικές Δομές Δεδομένων

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Ενότητες 3 & 4: Δένδρα, Σύνολα & Λεξικά Ασκήσεις και Λύσεις

Εισαγωγή ενός νέου στοιχείου. Επιλογή i-οστoύ στοιχείου : Εύρεση στοιχείου με το i-οστό μικρότερο κλειδί

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Copyright 2007 Ramez Elmasri and Shamkant B. Navathe, Ελληνική Έκδοση, Δίαβλος, Επιμέλεια Μ.Χατζόπουλος Διαφάνεια 14-1

Δένδρα. συνεκτικό μη κατευθυνόμενο γράφημα που δεν περιέχει απλά κυκλώματα

Ενότητα 1. Γνωρίζω τον υπολογιστή ως ενιαίο σύστημα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Εισαγωγή στην επιστήμη των υπολογιστών. Υπολογιστές και Δεδομένα Κεφάλαιο 2ο Αναπαράσταση Δεδομένων

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δομές Δεδομένων Ενότητα 4

Διάλεξη 14: Δέντρα IV - B-Δένδρα

ΑΛΓΟΡΙΘΜΟΙ ΜΕ C. ΝΙΚΟΛΑΟΣ ΣΑΜΑΡΑΣ Αναπληρωτής Καθηγητής. CMOR Lab. Computational Methodologies and Operations Research

Κεφάλαιο 14. Δομές Ευρετηρίων για Αρχεία. Copyright 2007 Ramez Elmasri and Shamkant B. Navathe Ελληνική Έκδοση,

Διάλεξη 11: Δέντρα Ι Εισαγωγή σε Δενδρικές Δομές Δεδομένων

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Θέματα Υπολογισμού στον Πολιτισμό - Δένδρα. Δένδρα

ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ ΙΙ - UNIX. Συστήματα Αρχείων. Διδάσκoντες: Καθ. Κ. Λαμπρινουδάκης Δρ. Α. Γαλάνη

Ομαδοποίηση Ι (Clustering)

Το εσωτερικό ενός Σ Β

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Σχεδιαση Αλγοριθμων -Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

Αλγόριθµοι και Πολυπλοκότητα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

TEC610 Δυναμικές Εφαρμογές Διαδικτύου (ΣΤ εξάμηνο)

Διάλεξη 18: B-Δένδρα

Πληροφορική 2. Δομές δεδομένων και αρχείων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

7ο ΕΡΓΑΣΤΗΡΙΟ AAAABBBBAAAAABBBBBBCCCCCCCCCCCCCCBBABAAAABBBBBBCCCCD

Διάλεξη 16: Σωροί. Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ουρές Προτεραιότητας - Ο ΑΤΔ Σωρός, Υλοποίηση και πράξεις

Βασικές έννοιες προγραμματισμού

Συστήματα Πολυμέσων. Υπερκείμενα & Υπερμέσα A

: 29 εκ :14 Reported period: εκ 6 6 OK Summary Πρώτη επίσκεψη Summary Τελευταία επίσκεψη 15 εκ - 23:19 Μήνας εκ 31 εκ - 04:06 Μοναδικοί επισκέπ

Δομές Αναζήτησης. κλειδί από ολικά διατεταγμένο σύνολο. Θέλουμε να υποστηρίξουμε δύο βασικές λειτουργίες: Εισαγωγή ενός νέου στοιχείου

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

ΕΠΙΜΕΛΕΙΑ: ΚΩΣΤΑΣ ΔΕΛΗΜΑΡΗΣ - ΧΡΗΣΗ ΗΥ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΑΡΧΕΙΩΝ

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Κεφάλαιο 14. οµές Ευρετηρίων για Αρχεία. ιαφάνεια 14-1

Διάλεξη 22: Δυαδικά Δέντρα. Διδάσκων: Παναγιώτης Ανδρέου

Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort

Διδάσκων: Παναγιώτης Ανδρέου

ΗΜΜΥ 100 Εισαγωγή στην Τεχνολογία

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΗΥ240: Δοµές Δεδοµένων Εαρινό Εξάµηνο Ακαδηµαϊκό Έτος 2017 Διδάσκουσα: Παναγιώτα Φατούρου Προγραµµατιστική Εργασία - 1 ο Μέρος

Ουρά Προτεραιότητας (priority queue)

Διάλεξη 16: Σωροί. Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ουρές Προτεραιότητας - Ο ΑΤΔ Σωρός, Υλοποίηση και πράξεις

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων

Θεωρία τησ Πληροφορίασ (Θ) ΔΙΔΑΚΩΝ: Δρ. Αναςτάςιοσ Πολίτησ

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

13/5/2015 ΟΥΡΕΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ. Δομές Δεδομένων. Ουρές Προτεραιότητας

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου

ΔΗ Μ Ι Ο ΥΡ Γ Ι Α W I K I με τ η χρήση τ η ς υπ ηρεσίας h t t p : / id ot.com /

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Διάλεξη 26: Σωροί. Διδάσκων: Παναγιώτης Ανδρέου

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Σ η μ ε ι ώ σ ε ι ς γ ι α τ ο υ π ο λ ο γ ι σ τ ι κ ό φ ύ λ λ ο

Περιεχόμενα. Περιβάλλον ηλεκτρονικού υπολογιστή...9 Επιφάνεια εργασίας...12 Διαχείριση αρχείων...15 Ιοί Η/Υ...21 Διαχείριση εκτυπώσεων...

Κεφάλαιο 10 Ψηφιακά Λεξικά

IBM DB2, Microsoft SQL Server. Εαρινό Εξάμηνο

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ

Τμήμα Λογιστικής. Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. Μαθήματα 6 και 7 Αναπαράσταση της Πληροφορίας στον Υπολογιστή. 1 Στέργιος Παλαμάς

Οργάνωση Βάσεων Βιοϊατρικών Δεδομένων Εξόρυξη Γνώσης Βιοϊατρικών Δεδομένων. Σεμινάριο 6: Δομές ευρετηρίων για αρχεία

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

Δομές Δεδομένων. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής. Δομές Δεδομένων. Τμήμα Εφαρμοσμένης Πληροφορικής

Transcript:

ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ COMPUTER SCIENCE DEPARTMENT UNIVERSITY OF CRETE Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 4 η Σειρά Ασκήσεων Ψαράκη Μαρία-Γεωργία ΜΕΤ 556 psaraki@csd.uoc.gr Εαρινό Εξάμηνο 2008-2009

Άσκηση 1η Η απόσταση ενημέρωσης (Edit Distance) μεταξύ των λέξεων «αυτοκινητο» και «αυτοματο» είναι 4 (2 αντικαταστάσεις και 2 διαγραφές από την πρώτη στην δεύτερη). Εφαρμόζοντας τον αλγόριθμο δυναμικού προγραμματισμού έχουμε: Έστω T = «αυτοκινητο» και P = «αυτοματο». Ο πίνακας που προκύπτει είναι ο παρακάτω: α υ τ ο κ ι ν η τ ο 0 0 0 0 0 0 0 0 0 0 0 α 1 0 1 1 1 1 1 1 1 1 1 υ 2 1 0 1 2 2 2 2 2 2 2 τ 3 2 1 0 1 2 3 3 3 2 3 ο 4 3 2 1 0 1 2 3 4 3 2 μ 5 4 3 2 1 1 2 3 4 4 3 α 6 5 4 3 2 2 2 3 4 5 4 τ 7 6 5 4 3 3 3 3 4 4 5 ο 8 7 6 5 4 4 4 4 4 5 4 Άσκηση 2η (α) Σύμφωνα με τον νόμο του Heaps το μέγεθος του λεξιλογίου εκτιμάται ως: V = Kn^β με n τον συνολικό αριθμό λέξεων και σταθερές K, β, όπου K 10 100 και β 0.4 0.6 (δηλαδή τετραγωνική ρίζα). Οπότε έχουμε: Για Κ=10: V = Kn^β = 10*2,000,000^0.5 = 14,142 λέξεις Για Κ=100: V = Kn^β = 100*2,000,000^0.5 = 141,421 λέξεις Άρα, το πλήθος των διαφορετικών λέξεων θα είναι μεταξύ 14,142 και 141,421 λέξεων. (β) Σύμφωνα με τον νόμο του Zipf θα έχουμε ότι η 20 η πιο συχνά εμφανιζόμενη λέξη θα εμφανίζεται: 1/20^θ φορές την πιο συχνή, όπου θ μεταξύ 1.5 και 2. Οπότε έχουμε: 550,000*1/20^1.5 = 6,149 και 550,000*1/20^2 = 1,375 Άρα θα εμφανίζεται μεταξύ 1,375 και 6,149 φορές. Μαρία-Γεωργία Ψαράκη 2

Άσκηση 3η (α) Οι καταλήξεις του κειμένου είναι: μια φράση έχει λέξεις και αριθμούς και μια λέξη έχει γράμματα φράση έχει λέξεις και αριθμούς και μια λέξη έχει γράμματα έχει λέξεις και αριθμούς και μια λέξη έχει γράμματα λέξεις και αριθμούς και μια λέξη έχει γράμματα και αριθμούς και μια λέξη έχει γράμματα αριθμούς και μια λέξη έχει γράμματα και μια λέξη έχει γράμματα μια λέξη έχει γράμματα λέξη έχει γράμματα έχει γράμματα γράμματα Ταξινομώντας τις καταλήξεις λεξικογραφικά έχουμε: αριθμούς και μια λέξη έχει γράμματα γράμματα έχει γράμματα έχει λέξεις και αριθμούς και μια λέξη έχει γράμματα και αριθμούς και μια λέξη έχει γράμματα και μια λέξη έχει γράμματα λέξεις και αριθμούς και μια λέξη έχει γράμματα λέξη έχει γράμματα μια λέξη έχει γράμματα μια φράση έχει λέξεις και αριθμούς και μια λέξη έχει γράμματα φράση έχει λέξεις και αριθμούς και μια λέξη έχει γράμματα Οπότε, το δένδρο καταλήξεων του κειμένου θεωρώντας ως σημεία ευρετηρίου τις αρχές των λέξεων είναι: Μαρία-Γεωργία Ψαράκη 3

Το Patricia Tree είναι: Μαρία-Γεωργία Ψαράκη 4

(β) Κωδικοποίηση κατά Huffman Κείμενο: «μια φράση έχει λέξεις και αριθμούς και μια λέξη έχει γράμματα» Συχνότητες: «μια»(2), «έχει»(2), «και»(2), «φράση»(1), «λέξεις»(1), «αριθμούς»(1), «λέξη»(1), «γράμματα»(1) Canonical Tree: Το ύψος του αριστερού υποδένδρου για κάθε κόμβο δεν είναι ποτέ μικρότερο από αυτό του δεξιού υποδένδρου και όλα τα φύλλα είναι σε αύξουσα σειρά πιθανοτήτων από αριστερά προς δεξιά. Μαρία-Γεωργία Ψαράκη 5

Άσκηση 4η Έστω το εξής τμήμα ανεστραμμένου ευρετηρίου: Gates 1; 2; 3; 4; IBM 4; 7; Microsof 1; 2; 3; 5; Αν θεωρήσουμε την λίστα των ids των εγγράφων σαν μία ακολουθία από κενά μεταξύ των αριθμών των εγγράφων, έχουμε: [1; 2; 3; 4;] [1; 1; 1; 1;] [4; 7] [4; 3;] [1; 2; 3; 5;] [1; 1; 1; 2;] Με αυτόν τον τρόπο έχουμε μικρές τιμές στην λίστα του ευρετηρίου μας. Μπορούμε να επιτύχουμε καλύτερη συμπίεση κωδικοποιώντας μικρές τιμές με συντομότερους κωδικούς. Έτσι, χρησιμοποιώντας την τεχνική Elias-γ έχουμε: 1 = 2^0 + 0 = 1 2 = 2^1 + 0 = 010 3 = 2^1 + 1 = 011 4 = 2^2 + 0 = 00100 Οπότε η συμπιεσμένη μορφή του ευρετηρίου έχει ως εξής: Gates 1; 1; 1; 1; IBM 00100; 011; Microsof 1; 1; 1; 010; Άσκηση 5η Έστω τα έγγραφα d1,,d9, και sim(di, dj) = (i+j)/20 Έχουμε: sim(d1, d9) = 10/20 = 0.5 sim(d1, d8) = 9/20 = 0.45 sim(d1, d7) = 8/20 = 0.4 sim(d1, d6) = 7/20 = 0.35 sim(d1, d5) = 6/20 = 0.3 sim(d1, d4) = 5/20 = 0.25 Μαρία-Γεωργία Ψαράκη 6

sim(d1, d3) = 4/20 = 0.2 sim(d1, d2) = 3/20 = 0.15 sim(d2, d9) = 11/20 = 0.55 sim(d2, d8) = 10/20 = 0.5 sim(d2, d7) = 9/20 = 0.45 sim(d2, d6) = 8/20 = 0.4 sim(d2, d5) = 7/20 = 0.35 sim(d2, d4) = 6/20 = 0.3 sim(d2, d3) = 5/20 = 0.25 sim(d3, d9) = 12/20 = 0.6 sim(d3, d8) = 11/20 = 0.55 sim(d3, d7) = 10/20 = 0.5 sim(d3, d6) = 9/20 = 0.45 sim(d3, d5) = 8/20 = 0.4 sim(d3, d4) = 7/20 = 0.35 sim(d4, d9) = 13/20 = 0.65 sim(d4, d8) = 12/20 = 0.6 sim(d4, d7) = 11/20 = 0.55 sim(d4, d6) = 10/20 = 0.5 sim(d4, d5) = 9/20 = 0.45 sim(d5, d9) = 14/20 = 0.7 sim(d5, d8) = 13/20 = 0.65 sim(d5, d7) = 12/20 = 0.6 sim(d5, d6) = 11/20 = 0.55 sim(d6, d9) = 15/20 = 0.75 sim(d6, d8) = 14/20 = 0.7 sim(d6, d7) = 13/20 = 0.65 sim(d7, d9) = 16/20 = 0.8 sim(d7, d8) = 15/20 = 0.75 Έχοντας ως κατώφλι ομοιότητας την τιμή 0.4 κρατάμε τις εξής συσχιτίσεις: sim(d1, d9) = 10/20 = 0.5 sim(d1, d8) = 9/20 = 0.45 sim(d1, d7) = 8/20 = 0.4 sim(d2, d9) = 11/20 = 0.55 sim(d2, d8) = 10/20 = 0.5 sim(d2, d7) = 9/20 = 0.45 sim(d2, d6) = 8/20 = 0.4 sim(d3, d9) = 12/20 = 0.6 sim(d3, d8) = 11/20 = 0.55 sim(d3, d7) = 10/20 = 0.5 Μαρία-Γεωργία Ψαράκη 7

sim(d3, d6) = 9/20 = 0.45 sim(d3, d5) = 8/20 = 0.4 sim(d4, d9) = 13/20 = 0.65 sim(d4, d8) = 12/20 = 0.6 sim(d4, d7) = 11/20 = 0.55 sim(d4, d6) = 10/20 = 0.5 sim(d4, d5) = 9/20 = 0.45 sim(d5, d9) = 14/20 = 0.7 sim(d5, d8) = 13/20 = 0.65 sim(d5, d7) = 12/20 = 0.6 sim(d5, d6) = 11/20 = 0.55 sim(d6, d9) = 15/20 = 0.75 sim(d6, d8) = 14/20 = 0.7 sim(d6, d7) = 13/20 = 0.65 sim(d7, d9) = 16/20 = 0.8 sim(d7, d8) = 15/20 = 0.75 Οπότε ο γράφος που προκύπτει είναι: 5 6 8 9 4 7 3 2 1 Μαρία-Γεωργία Ψαράκη 8

Με ομαδοποίηση κατά single link έχουμε: sim(d1, d2-3-4-5-6-7-8-9) = 10/20 = 0.5 sim(d2, d3-4-5-6-7-8-9) = 11/20 = 0.55 sim(d3, d4-5-6-7-8-9) = 12/20 = 0.6 sim(d4, d5-6-7-8-9) = 13/20 = 0.65 sim(d5, d6-7-8-9) = 14/20 = 0.7 sim(d6, d7-8-9) = 15/20 = 0.75 sim(d7, d8-9) = 16/20 = 0.8 Με ομαδοποίηση κατά complete link έχουμε: sim(d1, d7-8-9) = 8/20 = 0.4 sim(d2, d6-7-8-9) = 8/20 = 0.4 sim(d3, d5-6-7-8-9) = 8/20 = 0.4 sim(d4, d5-6-7-8-9) = 9/20 = 0.45 sim(d5, d6-7-8-9) = 11/20 = 0.55 sim(d6, d7-8-9) = 13/20 = 0.65 sim(d7, d8-9) = 15/20 = 0.75 Μαρία-Γεωργία Ψαράκη 9

Έχοντας ως κατώφλι ομοιότητας την τιμή 0.8 κρατάμε τις εξής συσχιτίσεις: sim(d7, d9) = 16/20 = 0.8 Οπότε ο γράφος που προκύπτει είναι: 5 8 9 6 3 4 2 7 1 Με ομαδοποίηση κατά single link έχουμε: sim(d7, d9) = 16/20 = 0.8 Με ομαδοποίηση κατά complete link έχουμε: sim(d7, d9) = 16/20 = 0.8 Μαρία-Γεωργία Ψαράκη 10

Άσκηση 6η Μέγεθος ελληνικού παγκόσμιου ιστού Αριθμός σελίδων: 3,7 εκ σελίδες Μέσο μέγεθος σελίδων: 22 Kb Αριθμός σελίδων ανά site: 150 Πλήθος εισερχόμενων συνδέσμων: 10.3 Πλήθος εξερχόμενων συνδέσμων: 17.2 Μέσος αριθμός των διαφορετικών ελληνικών Web sites που δείχνουν σε κάποιο δοσμένο (ελληνικό) Web site (average indegree per-web site): 1.6 Μέσος αριθμός των διαφορετικών ελληνικών Web sites που δείχνονται από κάποιο δοσμένο (ελληνικό) Web site (average outdegree per-web site): 4.8 Πληθυσμός (ελληνικός): 11.212.468 Χρήστες διαδικτύου: 3.800.000 Αύξηση χρηστών( 00-05): 280% Πηγή: [Characterization of National Web Domains] -2007 Site summary Number of sites ok: 29,191 Number of sites with valid page age: 22,090 Average internal links: 1,093.67 Average pages per site: 146.90 Average static pages per site: 85.42 Average dynamic pages per site: 61.48 Average of age of oldest page in months: 16.86 Average of age of average page in months: 12.23 Average of age of newest page in months: 9.74 Average in-degree: 5.37 Average out-degree: 5.37 Average site max depth: 3.65 Average site size in MB: 2.61 Webpages summary Total Web pages: 4,051,326 Unique: 3,781,912 93.35% Duplicates: 269,414 6.65% Static: 2,524,270 62.31% Dynamic: 1,527,056 37.69% Μαρία-Γεωργία Ψαράκη 11

Πηγή: [Characterization of National Web Domains] 2004 Για την σχεδίαση του ευρετηρίου μιας μηχανής αναζήτησης για τον ελληνικό ιστό, και την εκτίμηση του μεγέθους του λεξιλογίου θα πρέπει πρώτα να εκτιμήσουμε το μέγεθος της συλλογής των κειμένων. Το μέγεθος του ελληνικού λεξιλογίου αντιστοιχεί σε 135.000 περίπου λέξεις([http://www.greeknewsonline.com/modules.php?name=news& file=print&sid=794]), συν άλλες 43.000 περίπου αγγλικές λέξεις, δηλαδή συνολικά θα αποτελείται από 178.000 διακριτές λέξεις. Θεωρώντας ότι κάθε λέξη θα έχει κατά μέσο όρο 10 χαρακτήρες (10 bytes) έχουμε: Μέγεθος λεξιλογίου = 178.000*10 bytes = 1.780.000 bytes = 1,78 Mb Όσον αφορά το συνολικό πλήθος λέξεων, έχουμε ότι ο ελληνικός ιστός αποτελείται από 4.000.000 περίπου σελίδες με μέσο μέγεθος σελίδας 22Kb. Κάθε λέξη έχει μέγεθος περίπου 10bytes, οπότε έχουμε: Μέγεθος συλλογής κειμένων = 4.000.000*22.000/10 = 8.800.000.000 λέξεις. Θεωρώντας ότι για την αποθήκευση κάθε εμφάνισης μιας λέξεις απαιτούνται 4 bytes έχουμε: Μέγεθος λιστών εμφάνισης = 8.800.000.000*4 bytes = 35.200.000.000 bytes = 35,2 Gb Επομένως, ο χώρος που απαιτείται για το ευρετήριο αντιστοιχεί σε 35,2 Gb + 1,78 Mb = 35,203 Gb. Το ίδιο το λεξιλόγιο θα μπορούσε να βρίσκεται μόνιμα στην κύρια μνήμη για καλύτερες επιδόσεις. Μαρία-Γεωργία Ψαράκη 12