Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Σχετικά έγγραφα
4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Παλαιότερες ασκήσεις

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

5.2 ΑΡΙΘΜΗΤΙΚΗ ΠΡΟΟ ΟΣ

ΛΥΣΗ ΤΗΣ ΔΕΥΤΕΡΗΣ ΑΣΚΗΣΗΣ Όλγα Γκουντούνα

Γενικό πλάνο. Μαθηµατικά για Πληροφορική. Παράδειγµα αναδροµικού ορισµού. οµική επαγωγή ΠΑΡΑ ΕΙΓΜΑ. 3ο Μάθηµα

(1) 98! 25! = 4 100! 23! = 4

Μαθηµατικά για Πληροφορική

P (A) = 1/2, P (B) = 1/2, P (C) = 1/9

Γ ΤΑΞΗ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΚΑΙ ΕΠΑΛ (ΟΜΑ Α Β )

Άσκηση 1 (α) ============================================================== Έχουµε L = π, εποµένως η σειρά Fourier είναι: 1 2 a. cos. a n. b n.

ΜΑΘΗΜΑΤΙΚΑ & ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2015 ΕΚΦΩΝΗΣΕΙΣ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΚΡΥΠΤΟΛΟΓΙΑ ΣΗΜΕΙΩΣΕΙΣ #6 ΘΕΟ ΟΥΛΟΣ ΓΑΡΕΦΑΛΑΚΗΣ

f (x) = l R, τότε f (x 0 ) = l. = lim (0) = lim f(x) = f(x) f(0) = xf (ξ x ). = l. Εστω ε > 0. Αφού lim f (x) = l R, υπάρχει δ > 0

ΛΥΣΕΙΣ 6 ης ΕΡΓΑΣΙΑΣ - ΠΛΗ 12,

12xy(1 x)dx = 12y. = 12 y. = 12 y( ) = 12 y 1 6 = 2y. x 6x(1 x)dx = 6. dx = 6 3 x4

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

P (A B) = P (A) + P (B) P (A B).

0, x < 0 1+x 8, 0 x < 1 1 2, 1 x < x 8, 2 x < 4

P( n, k) P(5,5) 5! 5! 10 q! q!... q! = 3! 2! = 0! 3! 2! = 3! 2!

( ) ΕΚΘΕΤΙΚΗ ΣΥΝΑΡΤΗΣΗ. Σηµείωση. 2. Παραδοχή α = Ιδιότητες x. αβ = α = α ( ) x. α β. α : α = α = α

Ομόλογα (bonds) Μετοχές (stocks) Αμοιβαία κεφάλαια (mutual funds)

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-217: Πιθανότητες-Χειµερινό Εξάµηνο 2015 ιδάσκων : Π. Τσακαλίδης. Λύσεις Τρίτης Σειράς Ασκήσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες - Χειµερινό Εξάµηνο 2012 ιδάσκων : Π. Τσακαλίδης. Λύσεις Τρίτης Σειράς Ασκήσεων

4. Αναδροµικός τύπος Είναι ο τύπος που συσχετίζει δύο ή περισσότερους γενικούς όρους µιας ακολουθίας

Αλγεβρικες οµες Ι Ασκησεις - Φυλλαδιο 2

4 Συνέχεια συνάρτησης

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

Αλγόριθµοι και Πολυπλοκότητα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

4 Συνέχεια συνάρτησης

0 x < (x + 2) 2 x < 1 f X (x) = 1 x < ( x + 2) 1 x < 2 0 x 2

Κεφάλαιο 6 Παράγωγος

Παρουσίαση 1 ΙΑΝΥΣΜΑΤΑ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

Επίλυση προβληµάτων. Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες - Χειµερινό Εξάµηνο 2015 ιδάσκων : Π. Τσακαλίδης

Θέµατα ( ικαιολογείστε πλήρως όλες τις απαντήσεις σας)

3 Αναδροµή και Επαγωγή

c(2x + y)dxdy = 1 c 10x )dx = 1 210c = 1 c = x + y 1 (2xy + y2 2x + y dx == yx = 1 (32 + 4y) (2x + y)dxdy = 23 28

ΘΕΤΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΚΗΣ ΚΑΤΕΥΘΥΝΣΗΣ

1.i) 1.ii) v 2. v 1 = (2) (1) + ( 2) ( 1) + (-2) (2) + (0) (-4) v 3. Βρίσκουµε πρώτα µία ορθογώνια βάση: u 1. . u 1 u. u 2

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

Πρόβληµα 2 (12 µονάδες)

P = 0 1/2 1/ /2 1/

5 Γενική µορφή εξίσωσης ευθείας

Κώδικες µεταβλητού µήκους

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες - Χειµερινό Εξάµηνο 2015 ιδάσκων : Π. Τσακαλίδης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Στροφορµή. υο παρατηρήσεις: 1) Η στροφορµή ενός υλικού σηµείου, που υπολογίζουµε µε βάση τα προηγούµενα, αναφέρεται. σε µια ορισµένη χρονική στιγµή.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Physics by Chris Simopoulos

f x = f a + Df a x a + R1 x, a, x U και από τον ορισµό της 1 h f a h f a h a h h a R h a i i j

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

5 Παράγωγος συνάρτησης

α) Η γενική εξίσωση του αρµονικού κύµατος είναι. Συγκρίνοντάς την µε µία από τις δύο εξισώσεις των τρεχόντων κυµάτων, έστω την εξίσωση

Αριθµητική Γραµµική ΑλγεβραΚεφάλαιο 4. Αριθµητικός Υπολογισµός Ιδιοτιµών 2 Απριλίου και2015 Ιδιοδιανυσµάτων 1 / 50

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Θέµατα ( ικαιολογείστε πλήρως όλες τις απαντήσεις σας)

4.3 Παραδείγµατα στην συνέχεια συναρτήσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες - Χειµερινό Εξάµηνο 2016 ιδάσκων : Π. Τσακαλίδης. Λύσεις Τρίτης Σειράς Ασκήσεων

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες-Χειµερινό Εξάµηνο ιδάσκων : Π. Τσακαλίδης.

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ: ΠΛΗΡΟΦΟΡΙΚΗ ΘΕ: ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΤΗΝ ΠΛΗΡΟΦΟΡΙΚΉ Ι (ΠΛΗ 12) ΛΥΣΕΙΣ ΕΡΓΑΣΙΑΣ 3

ΕΙΣΑΓΩΓΗ ΣΤΟ MATLAB- SIMULINK

Βραχύτερα Μονοπάτια σε Γράφους (CLR, κεφάλαιο 25)

Εισαγωγή στον Προγραµµατισµό. Σύντοµες Σηµειώσεις. Γιώργος Μανής

2η Οµάδα Ασκήσεων. 250 km db/km. 45 km 0.22 db/km 1:2. T 75 km 0.22 db/km 1:2. 75 km db/km. 1:2 225 km 0.22 db/km

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

Στροβιλισµός πεδίου δυνάµεων

3 η δεκάδα θεµάτων επανάληψης

(1) 98! 25! = 4 100! 23! = 4

4 η δεκάδα θεµάτων επανάληψης

Άσκηση 1. i) α) ============================================================== α > 0. Πρέπει κατ αρχήν να ορίζεται ο λογάριθµος, δηλ.

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

/ / 38

ΚΕΦΑΛΑΙΟ 10. Μελέτη ηλεκτρικών δικτύων στην Ηµιτονική Μόνιµη Κατάσταση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

όπου D(f ) = (, 0) (0, + ) = R {0}. Είναι Σχήµα 10: Η γραφική παράσταση της συνάρτησης f (x) = 1/x.

Ν. Μ. Μισυρλής. Τµήµα Πληροφορικής και Τηλεπικοινωνιών, Πανεπιστήµιο Αθηνών. Καθηγητής: Ν. Μ. Μισυρλής 29 Μαΐου / 18

a 1d L(A) = {m 1 a m d a d : m i Z} a 11 a A = M B, B = N A, k=1

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

1.4 ΕΦΑΡΜΟΓΕΣ ΤΩΝ ΠΑΡΑΓΩΓΩΝ

ΛΙΒΑΘΙΝΟΣ ΝΙΚΟΛΑΟΣ Επιστήµη και Τεχνολογία των Υπολογιστών Α.Μ.: 403. Πρώτη Οµάδα Ασκήσεων

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης

f x = f a + Df a x a + R1 x, a, x U και από τον ορισµό της 1 h f a h f a h a h h a R h a i i j

Θα λύσετε ένα από τα έξι πακέτα ασκήσεων που ακολουθούν, τα οποία είναι αριθµηµένα από 0 έως5. Ο κάθε φοιτητής βρίσκει το πακέτο που του αντιστοιχεί

Συναρτησιακές Εξαρτήσεις. Βάσεις εδοµένων Ευαγγελία Πιτουρά 1

Transcript:

Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάµηνο Φροντιστήριο 5 Άσκηση 1 Θεωρείστε το αλφάβητο {α,β,γ,δ,ε} και την εξής φράση: «α α β γ γ α α α α α α δ β ε β». α) Βάσει αυτής της φράσης ποια είναι η εντροπία του αλφαβήτου; β) ώστε τη συµπιεσµένη µορφή της φράσης χρησιµοποιώντας κανονικοποιηµένους κώδικες Huffman. Λύση (α) Η εντροπία εκφράζει το κατώτερο όριο, µετρηµένο σε bits ανά σύµβολο, το οποίο εφαρµόζεται σε µεθόδους κωδικοποίησης και βασίζεται στην πιθανότητα εµφάνισης του κάθε συµβόλου. E 1 = pi log2 pi Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε: α = 8 P 1 = 8 0.533 15 = β = 3 P 2 = 3 0.2 15 = γ = 2 P 3 = 2 0.133 15 = δ = 1 P 4 = 1 0.067 15 = ε = 1 P 5 = 1 0.067 15 = Έτσι σύµφωνα µε τον παραπάνω τύπο ο υπολογισµός του Ε είναι : (β) Ε=0.533*0.907 + 0.2*2.322 + 0.133*2.907 + 0.067*3.907 +0.067*3.907 E=1.858 1

Αρχικά για να υπολογίσουµε τους Huffman κώδικες πρέπει να δηµιουργήσουµε ένα κόµβο για κάθε σύµβολο του αλφαβήτου και να υπολογίσουµε ο πλήθος των εµφανίσεων κάθε συµβόλου. (παρακάτω για απλότητα στην απεικόνιση χρησιµοποιείται αντί για την πιθανότητα εµφάνισης το πλήθος των εµφανίσεων). Έτσι λοιπόν : α (8) β (3) γ (2) δ (1) ε (1) Κατόπιν πρέπει να πάρουµε τους 2 κόµβους µε την µικρότερη πιθανότητα εµφάνισης και να τους συνδέσουµε σε ένα κοινό πατρικό ο οποίος ως πιθανότητα εµφάνισης θα έχει το άθροισµα των πιθανοτήτων εµφάνισης των 2 παιδιών του. (2) 0 1 δ (1) ε (1) Κατόπιν η διαδικασία αυτή πρέπει να επαναληφθεί για όλους τους κόµβους µε τον ίδιο τρόπο αγνοώντας όµως τους κόµβους που ήδη έχουν εισαχθεί αλλά λαµβάνοντας υπ όψιν τους γονικούς που δεν έχουν άλλους γονείς. Εδώ δηλαδή οι κόµβοι που πρέπει να κοιτάξουµε θα είναι : α (8) β (3) γ (2) (2) Και έτσι οι 2 τελευταίοι θα συνδεθούν µε ένα κοινό γονέα. (4) 0 1 γ (2) (2) 0 1 δ (1) ε (1) 2

Τελικά το δένδρο που θα προκύψει θα είναι: (15) 0 1 0 (7) α (8) 1 β (3) (4) 0 1 γ (2) (2) 0 1 δ (1) ε (1) Τέλος το παραπάνω κείµενο κωδικοποιείται : α α β γ γ α α α α α α δ β ε β 1 1 00 010 010 1 1 1 1 1 1 0110 00 0111 00 Άσκηση 2 Θεωρείστε 8 έγγραφα A, B, Γ,, E, Ζ, Η, Θ, Ι, Κ και έστω ότι οι αποστάσεις µεταξύ τους είναι αυτές του παρακάτω πίνακα. ώστε το δενδρικό διάγραµµα που προκύπτει εφαρµόζοντας ιεραρχική οµαδοποίηση εγγράφων τύπου: (α) SingleLink και (β) CompleteLink. Α Β 1 Γ 2 1 3 2 1 Ε 4 3 2 1 Ζ 2 3 4 5 6 Η 3 2 3 4 5 1 Θ 4 3 2 3 4 2 1 Ι 5 4 3 2 3 3 2 1 Κ 6 5 4 3 2 4 3 2 1 Α Β Γ Ε Ζ Η Θ Ι Κ Λύση 3

Τα βήµατα για τον υπολογισµό του δενδρικού διαγράµµατος που προκύπτει εφαρµόζοντας ιεραρχική οµαδοποίηση εγγράφων τύπου SingleLink είναι : 1. Βάζουµε κάθε έγγραφο σε ένα ξεχωριστό Cluster 2. Υπολογίζουµε την οµοιότητα µεταξύ όλων των ζευγαριών Cluster (έχει ήδη γίνει) a. SIM ( c, c ') = max{ sim( d, d ') d c, d ' c ' 3. Βρίσκουµε το ζεύγος {C u, C v } µε την υψηλότερη (inter-cluster) οµοιότητα 4. Συγχωνεύουµε τα C u, C v σε ένα Cluster 5. Εάν έχει µείνει µόνο ένα cluster τελείωσε αλλιώς πήγαινε στο 2. Στον πίνακα που έχουµε παρακάτω έχουµε την απόσταση µεταξύ των εγγράφων. Όταν λοιπόν αναζητάµε τα 2 πιο όµοια clusters αναζητάµε ουσιαστικά τα 2 clusters µε την µικρότερη απόσταση µεταξύ τους. Αρχικά έχουµε τον πίνακα Α Β 1 Γ 2 1 3 2 1 Ε 4 3 2 1 Ζ 2 3 4 5 6 Η 3 2 3 4 5 1 Θ 4 3 2 3 4 2 1 Ι 5 4 3 2 3 3 2 1 Κ 6 5 4 3 2 4 3 2 1 Α Β Γ Ε Ζ Η Θ Ι Κ Και τα Clusters C Α, C Β, C Γ, C, C Ε, C Ζ, C Η, C Θ, C Ι, C Κ, C Λ C Α, C Β Συγχωνεύουµε τα C Α C Β C ΑΒ = {C Α, C Β } ΑΒ 4

Γ min{2,1} min{3,2} 1 Ε min{4,3} 2 1 Ζ min{2,3} 4 5 6 Η min{3,2} 3 4 5 1 Θ min{4,3} 2 3 4 2 1 Ι min{5,4} 3 2 3 3 2 1 Κ min{6,5} 4 3 2 4 3 2 1 ΑΒ Γ Ε Ζ Η Θ Ι Κ C Γ, C Συγχωνεύουµε τα C Γ C C Γ = {C Γ, C } ΑΒ Γ min{2,1} Ε 3 min{2,1} Ζ 2 min{4,5} 6 Η 2 min{3,4} 5 1 Θ 3 min{2,3} 4 2 1 Ι 4 min{3,2} 3 3 2 1 Κ 5 min{4,3} 2 4 3 2 1 ΑΒ Γ Ε Ζ Η Θ Ι Κ C Z, C H Συγχωνεύουµε τα C Ζ C Η C ΖΗ = {C Ζ, C Η } ΑΒ Γ 1 Ε 3 1 ΖΗ min{2,2} min{4,3} min{6,5} Θ 3 2 4 1 Ι 4 2 3 2 1 Κ 5 3 2 3 2 1 ΑΒ Γ Ε ΖΗ Θ Ι Κ 5

C ZΗ, C Θ Συγχωνεύουµε τα C ΖΗ C Θ C ΖΗΘ = {C ΖΗ, C Θ } ΑΒ Γ 1 Ε 3 1 ΖΗΘ min{2,3} min{3,2} min{5,4} Ι 4 2 3 min{2,1} Κ 5 3 2 min{3,2} 1 ΑΒ Γ Ε ΖΗΘ Ι Κ C Ι, C Κ Συγχωνεύουµε τα C Ι C Κ C ΙΚ = {C Ι, C Κ } ΑΒ Γ 1 Ε 3 1 ΖΗΘ 2 2 4 ΙΚ min{4,5} min{2,3} min{3,2} min{1,2} ΑΒ Γ Ε ΖΗΘ ΙΚ C ΑΒ, C Γ Συγχωνεύουµε τα C ΑΒ C Γ C ΑΒΓ = {C ΑΒ, C Γ } ΑΒΓ Ε min{3,1} ΖΗΘ min{2,2} 4 ΙΚ min{4,2} 2 1 ΑΒΓ Ε ΖΗΘ ΙΚ 6

C ΖΗΘ, C ΙΚ Συγχωνεύουµε τα C ΖΗΘ C ΙΚ C ΖΗΘΙΚ = {C ΖΗΘ, C ΙΚ } ΑΒΓ Ε 1 ΖΗΘΙΚ min{2,2} min{4,2} ΑΒΓ Ε ΖΗΘΙΚ C ΑΒΓ, C Ε Συγχωνεύουµε τα C ΑΒΓ C Ε C ΑΒΓ Ε = {C ΑΒΓ, C Ε } ΑΒΓ Ε ΖΗΘΙΚ min{2,2} ΑΒΓ Ε ΖΗΘΙΚ Και τέλος τα 2 εναποµείναντα clusters συγχωνεύονται σε ένα C ΑΒΓ ΕΖΗΘΙΚ = {C ΑΒΓ Ε, C ΖΗΘΙΚ } Τώρα που έχουµε µείνει µε ένα µόνο cluster µπορούµε να σχεδιάσουµε το δενδρικό διάγραµµα που προκύπτει. 7

ΑΒΓ ΕΖΗΘΙΚ ΑΒΓ Ε ΖΗΘΙΚ ΑΒΓ ΖΗΘ ΑΒ Γ ΖΗ ΙΚ Α Β Γ Ε Ζ Η Θ Ι Κ 8

(β) Τα βήµατα για τον υπολογισµό του δενδρικού διαγράµµατος που προκύπτει εφαρµόζοντας ιεραρχική οµαδοποίηση εγγράφων τύπου CompleteLink είναι : 1. Βάζουµε κάθε έγγραφο σε ένα ξεχωριστό Cluster 2. Υπολογίζουµε την οµοιότητα µεταξύ όλων των ζευγαριών Cluster (έχει ήδη γίνει) a. SIM ( c, c ') = min{ sim( d, d ') d c, d ' c ' 3. Βρίσκουµε το ζεύγος {C u, C v } µε την υψηλότερη (inter-cluster) οµοιότητα 4. Συγχωνεύουµε τα C u, C v σε ένα Cluster 5. Εάν έχει µείνει µόνο ένα cluster τελείωσε αλλιώς πήγαινε στο 2. Στον πίνακα που έχουµε παρακάτω έχουµε την απόσταση µεταξύ των εγγράφων. Όταν λοιπόν αναζητάµε τα 2 λιγότερο όµοια clusters αναζητάµε ουσιαστικά τα 2 clusters µε την µεγαλύτερη απόσταση µεταξύ τους. Αρχικά έχουµε τον πίνακα Α Β 1 Γ 2 1 3 2 1 Ε 4 3 2 1 Ζ 2 3 4 5 6 Η 3 2 3 4 5 1 Θ 4 3 2 3 4 2 1 Ι 5 4 3 2 3 3 2 1 Κ 6 5 4 3 2 4 3 2 1 Α Β Γ Ε Ζ Η Θ Ι Κ Και τα Clusters C Α, C Β, C Γ, C, C Ε, C Ζ, C Η, C Θ, C Ι, C Κ, C Λ C Α, C Β Συγχωνεύουµε τα C Α C Β C ΑΒ = {C Α, C Β } 9

ΑΒ Γ max{2,1} max{3,2} 1 Ε max{4,3} 2 1 Ζ max{2,3} 4 5 6 Η max{3,2} 3 4 5 1 Θ max{4,3} 2 3 4 2 1 Ι max{5,4} 3 2 3 3 2 1 Κ max{6,5} 4 3 2 4 3 2 1 ΑΒ Γ Ε Ζ Η Θ Ι Κ C Γ, C Συγχωνεύουµε τα C Γ C C Γ = {C Γ, C } ΑΒ Γ max{2,3} Ε 4 max{2,1} Ζ 3 max{4,5} 6 Η 3 max{3,4} 5 1 Θ 4 max{2,3} 4 2 1 Ι 5 max{3,2} 3 3 2 1 Κ 6 max{4,3} 2 4 3 2 1 ΑΒ Γ Ε Ζ Η Θ Ι Κ C Z, C H Συγχωνεύουµε τα C Z C H C ZH = {C Z, C H } 10

ΑΒ Γ 3 Ε 2 2 ZΗ max{3,3} max{5,4} max{6,5} Θ 4 3 4 max{2,1} Ι 5 3 3 max{3,2} 1 Κ 6 4 2 max{4,3} 2 1 ΑΒ Γ Ε ZΗ Θ Ι Κ C Θ, C Ι Συγχωνεύουµε τα C Θ C Ι C ΘΙ = {C Θ, C Ι } ΑΒ Γ 3 Ε 2 2 ZΗ 3 5 6 ΘΙ max{4,5} max{3,3} max{4,3} max{2,3} Κ 6 4 2 4 max{2,1} ΑΒ Γ Ε ZΗ ΘΙ Κ C AB, C E Συγχωνεύουµε τα C AB C E C ABE = {C AB, C E } ΑΒE Γ max{3,2} ZΗ max{3,6} 5 ΘΙ max{5,4} 3 3 Κ max{6,2} 4 4 2 ΑΒE Γ ZΗ ΘΙ Κ C K, C ΘΙ Συγχωνεύουµε τα C Κ C ΘΙ C ΘΙΚ = {C Κ, C ΘΙ } 11

ΑΒE Γ 3 ZΗ 6 5 ΘΙΚ max{5,6} max{3,4} max{3,4} ΑΒE Γ ZΗ ΘΙΚ C Γ, C ΑΒΕ Συγχωνεύουµε τα C Γ C ΑΒΕ C ΑΒΓ Ε = {C Γ, C ΑΒΕ } ΑΒΓ Ε ZΗ max{6,5} ΘΙΚ max{6,4} 4 ΑΒΓ Ε ZΗ ΘΙΚ C ΘΙΚ, C ΖΗ Συγχωνεύουµε τα C ΘΙΚ C ΖΗ C ΖΗΘΙΚ = {C ΘΙΚ, C ΖΗ } ΑΒΓ Ε ZΗΘΙΚ max{6,6} ΑΒΓ Ε ZΗΘΙΚ Και τέλος οµαδοποιούµε τα 2 εναποµείναντα clusters. C ΑΒΓ ΕΖΗΘΙΚ = {C ΑΒΓ Ε, C ΖΗΘΙΚ } Τώρα που έχουµε µείνει µε ένα µόνο cluster µπορούµε να σχεδιάσουµε το δενδρικό διάγραµµα που προκύπτει. 12

ΑΒΓ ΕΖΗΘΙΚ ΑΒΓ Ε ΖΗΘΙΚ ΑΒΕ ΘΙΚ ΑΒ Γ ΖΗ ΘΙ Α Β Γ Ε Ζ Η Θ Ι Κ 13

Άσκηση 3 Θεωρείστε τα ακόλουθα έγγραφα όπου τα γράµµατα Α-Ε συµβολίζουν λέξεις. d1 = «Β Γ Β», d2 = «Β Α Α Β» d3 = «Α Β», d4 = «Γ Ε Γ Ε» d5 = «Γ Γ Α», d6 = «Γ Ε» d7 = «Β Β», d8 = «Ε Β Α» Έστω ότι τα d1,d5, d6 ανήκουν σε ένα σύστηµα S1, τα d2,d4 σε ένα σύστηµα S2, και τα υπόλοιπα (d3,d7,d8) σε ένα σύστηµα S3. Θέλουµε να φτιάξουµε έναν µεσίτη Μ πάνω από αυτά τα συστήµατα. (α) Για την επιλογή πηγής ο Μ θέλει να περιγράψει τα περιεχόµενα της κάθε πηγής µε ένα διάνυσµα. ώστε τα διανύσµατα πηγών των S1, S2 και S3. (β) Έστω ότι ο Μ έχει ήδη τα διανύσµατα πηγών των S1, S2, S3 και λαµβάνει την επερώτηση q= A Γ. Αν θέλει να προωθήσει την επερώτηση q σε µία µόνο πηγή, ποια θα επιλέξει; (γ) Ο Μ λαµβάνει µια επερώτηση, την προωθεί σε όλες τις πηγές, και λαµβάνει τα εξής αποτελέσµατα από την κάθε µια: S1: <d5, d1, d6 > S2: <d2, d4> S3: <d7, d8, d3> ώστε την ενοποιηµένη διάταξη κατά round robin interleaving (δ) Προκειµένου ο µεσίτης να λαµβάνει από τις πηγές απαντήσεις µε συγκρίσιµα σκορ, αποφασίζει να κάνει αποτίµηση επερωτήσεων σε δυο φάσεις ώστε οι πηγές να λαµβάνουν τα καθολικά στατιστικά που χρειάζονται για τον σωστό υπολογισµό των σκορ. ώστε το idf του κάθε όρου στην καθολική συλλογή εγγράφων. (ε) Ο µεσίτης βρίσκει άλλο ένα σύστηµα S4 το οποίο έχει την ίδια συλλογή µε αυτήν του S1, δηλαδή και αυτό παρέχει πρόσβαση στα έγγραφα d1, d5, d6. Έστω ότι ο Μ προωθεί µια επερώτηση q στα S1 και S4 και λαµβάνει τις εξής απαντήσεις: S1: <d1, d5, d6> S4: <d6, d5, d1> Ποιο είναι το κορυφαίο έγγραφο αν ενοποιήσουµε τις διατάξεις: (i) κατά Borda, (ii) κατά Condorcet; Ο Μ αποφασίζει να δίνει στο χρήστη όχι µόνο την ενοποιηµένη διάταξη, αλλά και την Kemeny distance µεταξύ των διατάξεων που έλαβε από τα υποσυστήµατα (προκειµένου ο χρήστης να παίρνει µια γεύση για το βαθµό συµφωνίας των πηγών). Ποια είναι αυτή η απόσταση στην προκειµένη; (στ) Τα συστήµατα S1, S2, S3 δεν θέλουν πλέον να έχουν ανάγκη τον Μ και αποφασίζουν να «ανεξαρτητοποιηθούν» φτιάχνοντας ένα σύστηµα οµοτίµων (P2P), συγκεκριµένα ένα δοµηµένο σύστηµα τύπου Chord. Προσελκύουν µάλιστα άλλα δυο συστήµατα S5 και S6 (τα οποία δεν έχουν καµία συλλογή εγγράφων). Αποφασίζουν να χρησιµοποιήσουν µια συνάρτηση κατακερµατισµού h των 3 bits, και έστω ότι h(ipaddress(s1))=2, h(ipaddress(s2))=5, h(ipaddress(s3))=3, h(ipaddress(s5))=1, h(ipaddress(s6))=4 Αποφασίζουν να διανείµουν το ανεστραµµένο ευρετήριο θεωρώντας κάθε όρο σαν κλειδί και έστω ότι h(α)=2, h(β)=3, h(γ)=6 14

h( )=6, h(ε)=5 ώστε (i) τους πίνακες δροµολόγησης των κόµβων S1 και S3 και (ii) πως θα κατανεµηθεί το ανεστραµµένο ευρετήριο στους κόµβους του δικτύου (δείξτε τι ακριβώς θα έχει κάθε κόµβος) Λύση (α) Το λεξιλόγιο µας αποτελείται από τις λέξεις Α, Β, Γ,, Ε Θα θεωρήσουµε τις 3 πηγές σαν ένα έγγραφο το οποίο περιέχει τις λέξεις που περιέχουν όλα τα έγγραφα της πηγής. Έτσι για τις 3 πηγές θα έχουµε: Α Β Γ Ε S1 1 2 4 1 1 S2 2 2 2 0 2 S3 2 4 0 1 1 Για να δώσουµε τα διανύσµατα που θα αναπαριστούν τις πηγές πρέπει να κάνουµε βάρυνση µε TF-IDF. Α Β Γ Ε maxk{freqkj} S1 1 2 4 1 1 4 S2 2 2 2 0 2 2 S3 2 4 0 1 1 4 DF 3 3 2 2 3 N DF 3 1 3 = 3 1 3 = 3 1.5 2 = 3 1.5 2 = 3 1 3 = Κατόπιν πρέπει να υπολογίσουµε τα βάρη TF-IDF. Γνωρίζουµε ότι N wij = tfijidfi = log 2. Για ευκολία στους υπολογισµούς θεωρούµε dfi N IDF = DF 15

Α Β Γ Ε maxk{freqkj} S1 1 1 0.25 4 i = 2 1 0.5 4 i = 4 1 1 i 1.5 = 1.5 i 1.5 = 0.375 1 0.25 4 4 4 i = 4 S2 2 1 1 2 i = 2 1 1 2 i = 2 0 2 i 1.5 = 1.5 1 1 2 2 i = 2 S3 2 1 0.5 4 i = 4 1 1 4 i = 0 1 1 i 1.5 = 0.375 1 0.25 4 4 i = 4 DF 3 3 2 2 3 N 3 1 DF 3 = 3 1 3 = 3 1.5 2 = 3 1.5 2 = 3 1 3 = Έτσι τα διανύσµατα των ε πηγών είναι : S1: < 0.25, 0.5, 1.5, 0.375, 0.25 > S2: < 1, 1, 1.5, 0, 1 > S3: < 0.5, 1, 0, 0.375, 0.25 > (β) εδοµένου ότι για να υπολογίσουµε τα διανύσµατα των πηγών θεωρήσαµε τις πηγές ως έγγραφα τα οποία περιέχουν τις λέξεις που υπάρχουν στα περιεχόµενα έγγραφα της κάθε πηγής. Έτσι λοιπόν αρκεί να συγκρίνουµε το διάνυσµα της επερώτησης µε τα αντίστοιχα διανύσµατα των πηγών. Σε αυτό θα µας βοηθήσει το µέτρο οµοιότητας συνηµίτονου. Α Β Γ Ε maxk{freqkj} Q 1 0 1 0 0 1 Και εποµένως υπολογίζοντας τα TF-IDF βάρη έχουµε : Α Β Γ Ε maxk{freqkj} Q 1 1 1 1 i = 0 1 0 0 1 i 1.5 = 1.5 1 Το διάνυσµα της επερώτησης λοιπόν είναι: S1: < 1, 0, 1.5, 0, 0 > d jiq CosSim( d j, Q) = = d i q j t ( wijiwiq ) i= 1 t t 2 2 wiji wiq i= 1 i= 1 16

Πηγή 1: 0.25i1+ 0.5i0+ 1.5i1.5+ 0.375i0+ 0.25i0 2.5 CosSim( S1, Q) = = 0.833 8.98828125 ( 0.0625+ 0.25+ 2.25+ 0.140625+ 0.0625) i( 1+ 0+ 2.25+ 0+ 0) Πηγή 2: 1i1+ 1i0+ 1.5i1.5+ 0i0+ 1i0 3.25 CosSim( S2, Q) = = 0.787 17.0625 ( 1+ 1+ 2.25+ 0+ 1) i( 1+ 0+ 2.25+ 0+ 0) Πηγή 3: 0.5i1+ 1i0+ 0i1.5+ 0.375i0+ 0.25i0 0.5 CosSim( S3, Q) = = 0.23 4.722656 ( 0.25+ 1+ 0+ 0.140625+ 0.0625) i( 1+ 0+ 2.25+ 0+ 0) Εποµένως η πηγή την οποία θα στείλει την επερώτηση είναι η S 2. (γ) Η ενοποιηµένη διάταξη κατά Robin Round Interleaving είναι ANS(q) = <{d 5, d 2, d 7 }, {d 1, d 4, d 8 }, {d 6, d 3 }> (δ) Σε πρώτη φάση ο Μ στέλνει όλες τις λέξεις του ευρετηρίου και τις αποτιµά ώστε να υπολογίσει και να στείλει τα καθολικά στατιστικά των όρων. Στην 2 η φάση τα στατιστικά που θα στείλει ο M είναι (αγνοώντας για απλότητα τον υπολογισµό του λογαρίθµου ) 8 8 8 8 8 Α :, Β :, Γ :, :, Ε : 4 5 4 2 3 (ε) S 1 : <d 1, d 5, d 6 > S 4 : <d 6, d 5, d 1 > Σύµφωνα µε το Borda νικητής στην διάταξη αναδεικνύεται αυτός που έχει καλύτερο άθροισµα βαθµολογίας στην διάταξη. Έτσι κατά Borda έχουµε: d 1 :1+3=4 d 5 :2+2=4 17

d 6 :3+1=4 Όλα τα έγγραφα έχουν ίδιες βαθµολογίες οπότε δεν µπορούµε να αποφανθούµε ποιο είναι το κορυφαίο έγγραφο. Σύµφωνα µε τον Condorset νικητής στην διάταξη είναι αυτός που έχει περισσότερες νίκες έναντι του αντιπάλου του. Έτσι κατά Condorset έχουµε: d 1 :d 5 1:1 d 1 :d 6 1:1 d 5 :d 6 1:1 Άρα παρατηρούµε ότι και µε τον Condorset δεν µπορεί να υπάρξει νικητής. Η Kemeny Distance µας δίνει το πλήθος των διαφωνιών στην διάταξη των ζευγαριών. Η απόσταση είναι 3 αφού : - d > d, d < d - - 1 S1 5 1 S4 5 d > d, d < d 1 S1 6 1 S4 6 d > d, d < d 5 S1 6 5 S4 6 (στ) (-i-) Ο πίνακας δροµολόγησης ενός κόµβου στο Chord αποτελείται από m εγγραφές (όπου m είναι ο αριθµός των bits στην hash function) και κάθε εγγραφή έχει την διεύθυνση του πρώτου κόµβου κλειδί µεγαλύτερο ή ίσο µε n+2 i-1 δηλαδή finger[i] = successor(n+2 i-1 ) οπότε για τον S 1 γνωρίζουµε ότι είναι ο κόµβος µε h(s 1 )=2 και άρα θα έχει πίνακα δροµολόγησης : finger[1]=successor(2+2 1-1 )=successor(3)=3 S 3 finger[2]=successor(2+2 2-1 )=successor(4)=4 S 6 finger[3]=successor(2+2 3-1 )=successor(6)=1 S 5 όµοια για τον S 3 : finger[1]=successor(3+2 1-1 )=successor(4)=4 S 6 finger[2]=successor(3+2 2-1 )=successor(5)=5 S 2 finger[3]=successor(3+2 3-1 )=successor(7)=2 S 1 18

-ii- Γνωρίζουµε ότι το ευρετήριο κατανέµεται βάσει των όρων του. Πρώτα να λοιπόν πρέπει να βρούµε το ανεστραµµένο αρχείο βάσει των εµφανίσεων των λέξεων Α, Β, Γ,, Ε στα έγγραφα d 1,, d 8 Α: <d 2,2>,<d 3,1>,<d 5,1>,<d 8,1> Β: <d 1,2>,<d 2,2>,<d 3,1>,<d 7,2>,<d 8,1> Γ: <d 1,1>,<d 4,2>,<d 5,2>,<d 6,1> : <d 5,1>,<d 7,1> Ε: <d 4,2>,<d 6,1>,<d 8,1> Επίσης γνωρίζουµε ότι ένα κλειδί k εκχωρείται στον πρώτο κόµβο p έτσι ώστε h( p) h( k) Εποµένως : To κλειδί A εκχωρείται στον κόµβο S 1 αφού h(s 1 ) h(α) To κλειδί Β εκχωρείται στον κόµβο S 3 αφού h(s 3 ) h(β) To κλειδί Γ εκχωρείται στον κόµβο S 5 αφού h(s 5 ) h(γ) To κλειδί εκχωρείται στον κόµβο S 5 αφού h(s 5 ) h( ) To κλειδί Ε εκχωρείται στον κόµβο S 2 αφού h(s 2 ) h(ε) Έτσι το ανεστραµµένο ευρετήριο θα κατανεµηθεί στους κόµβους ως εξής: S 1 : key(a) <d 2,2>,<d 3,1>,<d 5,1>,<d 8,1> S 3 : key(β) <d 1,2>,<d 2,2>,<d 3,1>,<d 7,2>,<d 8,1> S 5 : key(γ) <d 1,1>,<d 4,2>,<d 5,2>,<d 6,1> S 5 : key( ) <d 5,1>,<d 7,1> S 2 : key(ε) <d 4,2>,<d 6,1>,<d 8,1> Άσκηση 4 Έστω ότι έχουµε 5 εικόνες A, B, C, D, E των οποίων οι αποστάσεις φαίνονται στον παρακάτω πίνακα. Προκειµένου να µπορούµε να απαντήσουµε επερωτήσεις γρήγορα θέλουµε να φτιάξουµε ένα µετρικό ευρετήριο, συγκεκριµένα ένα Vantage-Point-Tree (VTP). Σχεδιάστε το VTP που προκύπτει: α) αν επιλέξουµε την εικόνα A ως κεντρική (pivot), β) αν επιλέξουµε την εικόνα C ως κεντρική (pivot). 19

A B 6 C 4.2 5 D 4 2 5 E 2 8 5 6 A B C D E Λύση (α) Επιλέγοντας την εικόνα A σαν pivot έχουµε Median(d(A,B), d(a,c), d(a,d), d(a,e)) = Median(2, 4, 4.2, 6) =4 Εποµένως στο ρίζα µε δένδρο το pivot to Α θα τοποθετήσουµε αριστερά τις εικόνες µε απόσταση µικρότερη ή ίση από την median απόσταση εποµένως. Αναδροµικά υπολογίζουµε τους median για το αριστερό και το δεξιό υποδένδρο αντίστοιχα. Έτσι το τελικό δένδρο που προκύπτει είναι το εξής. (β) Επιλέγοντας την εικόνα C σαν pivot έχουµε Median(d(C,A), d(c,b), d(c,d), d(c,e)) = Median(4.2, 5, 5, 5) = 5 20

Εποµένως στο ρίζα µε δένδρο το pivot to Α θα τοποθετήσουµε αριστερά τις εικόνες µε απόσταση µικρότερη ή ίση από την median απόσταση εποµένως. Αναδροµικά υπολογίζουµε τους median για το υποδένδρο. Έτσι το τελικό δένδρο που προκύπτει είναι το εξής. 21