4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Σχετικά έγγραφα
Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Δομές Δεδομένων (Εργ.) Ακ. Έτος Διδάσκων: Ευάγγελος Σπύρου. Εργαστήριο 10 Δυαδικά Δένδρα Αναζήτησης

Συμπίεση χωρίς Απώλειες

ΗΥ118: Διακριτά Μαθηματικά - Εαρινό Εξάμηνο 2018 Τελική Εξέταση Ιουνίου Λύσεις

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

Τηλεπικοινωνιακά Συστήματα ΙΙ

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Παλαιότερες ασκήσεις

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΛΥΣΗ ΤΗΣ ΔΕΥΤΕΡΗΣ ΑΣΚΗΣΗΣ Όλγα Γκουντούνα

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

P (A B) = P (A) + P (B) P (A B).

Κωδικοποίηση εικόνων κατά JPEG

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Δομές Δεδομένων και Αλγόριθμοι

1. Financial New Times Year MAXk {FREQij} D D D D

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Θεωρία πληροφοριών. Τεχνολογία Πολυµέσων 07-1

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Σύνολο ασκήσεων 5. Άσκηση 1. Υπολογίστε τις μερικές παραγώγους ως προς 1 ή κτλ (συμβολισμός ή κτλ) για τις παρακάτω συναρτήσεις

Δομές Δεδομένων & Αλγόριθμοι

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ερωτήσεις: 1. Να αναγνωρίσετε και να ονομάσετε γεωμετρικά σχήματα στα παραπάνω στερεά.

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σειρά Προβλημάτων 1 Λύσεις

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Θεωρία Πληροφορίας. Διάλεξη 5: Διακριτή πηγή πληροφορίας με μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 : Πληροφορία και Εντροπία Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Εργαστήριο 5 Αναδρομική διεργασία εισαγωγής καινούριου κόμβου σε ΔΔΑ με αλφαβητική σειρά

Σχεδιαση Αλγοριθμων -Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο

Ομαδοποίηση Ι (Clustering)

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανολογίας

13/5/2015 ΟΥΡΕΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ. Δομές Δεδομένων. Ουρές Προτεραιότητας

12ο ΓΕΛ ΠΕΙΡΑΙΑ Οµάδα Α. Στις παρακάτω ερωτήσεις να επιλέξετε το γράµµα που αντιστοιχεί στη σωστή απάντηση:

ΕΑΠ/ΠΛΗ22/ΑΘΗ-4. 3 η ΟΣΣ

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Ψηφιακές Τηλεπικοινωνίες. Θεωρία Ρυθμού Παραμόρφωσης

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΕΑΠ/ΠΛΗ22/ΑΘΗ-3. 3 η ΟΣΣ

9. Συστολικές Συστοιχίες Επεξεργαστών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

Ηρώων Πολυτεχνείου 9, Ζωγράφου, Αθήνα, Τηλ: , Fax: URL

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing)

P (Ā) = k P ( C A) = 0

Θέματα Συστημάτων Πολυμέσων

Ονοματεπώνυμο: Ερώτημα: Σύνολο Μονάδες: Βαθμός:

Διάλεξη 18: Τεχνικές Κατακερματισμού I (Hashing)

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (1)

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

( ) log 2 = E. Σεραφείµ Καραµπογιάς

Τεχνολογία Πολυμέσων. Ενότητα # 11: Κωδικοποίηση εικόνων: JPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ανάκτηση Πληροφορίας

ΟΥΡΕΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Παραδείγματα (2) Διανυσματικοί Χώροι

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

Θεωρία Πιθανοτήτων & Στατιστική

Ασκήσεις μελέτης της 16 ης διάλεξης

Θεωρία τησ Πληροφορίασ (Θ) ΔΙΔΑΚΩΝ: Δρ. Αναςτάςιοσ Πολίτησ

Επεξεργασία Πολυµέσων. Δρ. Μαρία Κοζύρη Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Ανάκτηση Πληροφορίας

ΗΥ118: Διακριτά Μαθηματικά - Εαρινό Εξάμηνο 2016 Τελική Εξέταση Ιουνίου - Τετάρτη, 15/06/2016 Λύσεις Θεμάτων

Άσκηση 3 (ανακοινώθηκε στις 24 Απριλίου 2017, προθεσμία παράδοσης: 2 Ιουνίου 2017, 12 τα μεσάνυχτα).

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

Πρόλογος 1. 1 Μαθηµατικό υπόβαθρο 9

Πιθανοκρατικό μοντέλο

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου

1. Για καθένα από τους ακόλουθους διανυσματικούς χώρους βρείτε μια βάση και τη διάσταση. 3. U x y z x y z x y. {(,, ) } a b. c d

Ηρώων Πολυτεχνείου 9, Ζωγράφου, Αθήνα, Τηλ: , Fax: URL

Οικονομικό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής ΠΜΣ Κρυπτογραφία και Εφαρμογές

PROJECT ΣΤΟ ΜΑΘΗΜΑ "ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ"

Εισαγωγή ενός νέου στοιχείου. Επιλογή i-οστoύ στοιχείου : Εύρεση στοιχείου με το i-οστό μικρότερο κλειδί

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ

Θέματα Υπολογισμού στον Πολιτισμό - Δένδρα. Δένδρα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες - Χειµερινό Εξάµηνο 2015 ιδάσκων : Π. Τσακαλίδης

Συμπίεση Δεδομένων Δοκιμής (Test Data Compression) Νικολός Δημήτριος, Τμήμα Μηχ. Ηλεκτρονικών Υπολογιστών & Πληροφορικής, Παν Πατρών

ΕΑΠ/ΠΛΗ22/ΑΘΗ-4. 3 η ΟΣΣ

Ανάκτηση πολυμεσικού περιεχομένου

Σεραφείµ Καραµπογιάς. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6.3-1

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

Σύνολο ασκήσεων 5. = = ( ) = = ( ) = p ln ( ) Για τη συνάρτηση CES (σταθερής ελαστικότητας υποκατάστασης)

Δίαυλος Πληροφορίας. Η λειτουργία του περιγράφεται από:

Transcript:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 -Συστήματα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάμηνο 4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση) Ημερομηνία Ανάθεσης: 5/5/2006 Ημερομηνία Παράδοσης: 5/6/2006 Άσκηση 1 (15 βαθμ.) Θεωρείστε τα εξής λόγια του Σενέκα: «Ο γνωστικός γνωρίζει τον αμαθή γιατί υπήρξε και ο ίδιος αμαθής. Ο αμαθής δεν γνωρίζει τον γνωστικό γιατί δεν υπήρξε ποτέ γνωστικός». α) Θεωρώντας την κάθε λέξη ως σύμβολο του αλφαβήτου, ποια είναι η εντροπία του αλφαβήτου; β) Δώστε τη συμπιεσμένη μορφή του κειμένου χρησιμοποιώντας κανονικοποιημένους κώδικες Huffman. Λύση α) Η έννοια της πληροφοριακής εντροπίας περιγράφει την ποσότητα της πληροφορίας που βρίσκεται μέσα σε ένα σήμα. Παράδειγμα: Έστω ένα κουτί από μπάλες. Αν όλες οι μπάλες έχουν διαφορετικό χρώμα τότε είμαστε αβέβαιοι στο μέγιστο βαθμό όσο αφορά την απάντηση στο ερώτημα τι χρώμα μπάλα θα πάρει κάποιος από το κουτί. Αν όμως ένα χρώμα υπάρχει σε μεγαλύτερη ποσότητα από κάποια άλλα τότε η αβεβαιότητα μας μικραίνει. Τα συστατικά στοιχεία του λόγου του Σενέκα είναι: Λέξη Ο γνωστικός γνωρίζει τον αµαθή γιατί υπήρξε και ο ίδιος αµαθής δεν γνωστικό ποτέ Πιθανότητα εμφάνισης Υπολογισμός εντροπίας: =3,731 bits

β) Κωδικοποίηση Huffman Μεθοδολογία: 1. Επιλέγουµε δύο λέξεις µε το χαµηλότερο αριθµό εµφανίσεων. Αν υπάρχουν περισσότερες από δύο, διαλέγουµε τυχαία. 2. Ενώνουµε τις δύο λέξεις µε ένα κοινό πατρικό κόµβο, κατασκευάζοντας ένα υποδένδρο. Αναθέτουµε στον πατρικό κόµβο έναν αριθµό, ο οποίος είναι το άθροισµα των αριθµών των θυγατρικών του κόµβων. 3. Επαναλαμβάνουμε από το πρώτο βήμα έως ότου δεν υπάρχουν ασύνδετες µεταξύ τους λέξεις. Λέξη Huffman code Ο 110 γνωστικός 0001 γνωρίζει 1001 τον 0101 αµαθή 0000 γιατί 1101 υπήρξε 0011 και 1000 ο 0100 ίδιος 1100 αµαθής 1011 δεν 111 γνωστικό 0010 ποτέ 1010

Άσκηση 2 (15 βαθμ.) Θεωρείστε 5 έγγραφα,,,, και έστω ότι οι αποστάσεις μεταξύ τους είναι αυτές του παρακάτω πίνακα. Δώστε το δενδρικό διάγραμμα που προκύπτει εφαρμόζοντας ιεραρχική ομαδοποίηση εγγράφων τύπου: (α) SingleLink, (β) ompletelink, και (γ) verage Link. Λύση 6 4.2 5 4 2 5 2 8 5 6 Insert each document in a different cluster := ; For i=1 to n := U [di] FLS ompute each pairs similarity ompute SIM(c,c ) for each c, c Find the pair with highest (intercluster) similarity { u, v Totallusters == 1 Merge {u,v to one cluster TRU Return cluster hierarchy

α) SingleLink Βήμα 1: Βάζουμε κάθε έγγραφο σε διαφορετικό luster = {, = {, = {, = {, = { 6 4.2 5 4 2 5 2 8 5 6 Βήμα 3: Βρίσκουμε το ζευγάρι με την υψηλότερη (inter-cluster) ομοιότητα., = {, min{6, 8 min{4.2, 5 5 min{4, 6 2 5 Βήμα 3: Βρίσκουμε το ζευγάρι με την υψηλότερη (inter-cluster) ομοιότητα., = {, min{4, 6 4.2 min{5, 5 Βήμα 3: Βρίσκουμε το ζευγάρι με την υψηλότερη (inter-cluster) ομοιότητα., = {,

min{4.2, 5 Βήμα 3: Βρίσκουμε το ζευγάρι με την υψηλότερη (inter-cluster) ομοιότητα., = {, ήμα 5: Έχουμε μόνο ένα luster b) ompletelink Βήμα 1: Βάζουμε κάθε έγγραφο σε διαφορετικό luster = {, = {, = {, = {, = { 6 4.2 5 4 2 5 2 8 5 6 Βήμα 3: Βρίσκουμε το ζευγάρι με την μικρότερη (inter-cluster) ομοιότητα., = {,

max{6, 8 max{4.2, 5 5 max{4, 6 2 5 Βήμα 3: Βρίσκουμε το ζευγάρι με την μικρότερη (inter-cluster) ομοιότητα., = {, max{8, 6 5 max{5, 5 Βήμα 3: Βρίσκουμε το ζευγάρι με την μικρότερη (inter-cluster) ομοιότητα., = {, max{8, 5 Βήμα 3: Βρίσκουμε το ζευγάρι με την μικρότερη (inter-cluster) ομοιότητα., = {,

ήμα 5: Έχουμε μόνο ένα luster c) veragelink Βήμα 1: Βάζουμε κάθε έγγραφο σε διαφορετικό luster = {, = {, = {, = {, = { 6 4.2 5 4 2 5 2 8 5 6 Βήμα 3: Βρίσκουμε το ζευγάρι με την μέση (inter-cluster) ομοιότητα., = {, avg{6, 8 avg{4.2, 5 5 avg{4, 6 2 5 Βήμα 3: Βρίσκουμε το ζευγάρι με την μέση (inter-cluster) ομοιότητα., = {,

avg{7, 5 4.6 avg{5, 5 Βήμα 3: Βρίσκουμε το ζευγάρι με την μέση (inter-cluster) ομοιότητα., = {, avg{6, 5 Βήμα 3: Βρίσκουμε το ζευγάρι με την μέση (inter-cluster) ομοιότητα., = {, ήμα 5: Έχουμε μόνο ένα luster

Άσκηση 3 (10 βαθμ.) Έστω ότι έχουμε 5 εικόνες,,,, των οποίων οι αποστάσεις είναι αυτές που δίνονται στον πίνακα της Άσκησης 2. Προκειμένου να μπορούμε να απαντήσουμε επερωτήσεις γρήγορα θέλουμε να φτιάξουμε ένα μετρικό ευρετήριο, συγκεκριμένα ένα Vantage-Point-Tree (VTP). Σχεδιάστε το VTP που προκύπτει: α) αν επιλέξουμε την εικόνα ως κεντρική (pivot), β) αν επιλέξουμε την εικόνα ως κεντρική (pivot). Λύση α) Επιλέγοντας την εικόνα Α σαν pivot έχουμε: M d(, ), ), ), ) 6 + 4.2 + 4 + 2 16,2 = = = = 4.05 4 4 4 Άρα τα στοιχεία με απόσταση μικρότερη ή ίση του Μ εισάγονται στο αριστερό υποδένδρο, ενώ τα υπόλοιπα στο δεξί. Αναδροµικά, υπολογίζουµε το µέσο όρο των αποστάσεων του αριστερού και του δεξιού υποδένδρου αντίστοιχα. Τα στοιχεία αναδιατάσσονται και το τελικό δένδρο που προκύπτει είναι: <=4,05 >4,05 <=6 <=5

β) Επιλέγοντας την εικόνα ως κεντρική (pivot), υπολογίζουµε τον µέσο όρο των αποστάσεων από αυτή την εικόνα: d(, ), ), ), ) 4.2 + 5 + 5 + 5 M = = = 4,8 4 4 Εποµένως, τα στοιχεία µε απόσταση µικρότερη ή ίση του 4.8 εισάγονται στο αριστερό υποδένδρο, ενώ τα υπόλοιπα στο δεξί. Αναδροµικά, υπολογίζουµε τον µέσο όρο των αποστάσεων µόνο του δεξιού υποδένδρου, αφού το αριστερό περιέχει µόνο ένα στοιχείο. d(, ), ) 2 + 8 M ' = = = 5 2 2 Τα στοιχεία του δεξιού υποδένδρου αναδιατάσσονται και το δένδρο που προκύπτει είναι, Άσκηση 4 (60 βαθμοί) Θεωρείστε τα ακόλουθα έγγραφα όπου τα γράμματα Α-Ε συμβολίζουν λέξεις. d1 = «ΑΒ Γ», d2 = «ΒΕ Β» d3 = «ΔΒ», d4 = «ΓΕΓ» d5 = «ΔΓΕΓ», d6 = «ΓΕ» d7 = «ΒΔΒ», d8 = «ΕΒ» Έστω ότι τα d1,d5, d6 ανήκουν σε ένα σύστημα S1, τα d2,d4 σε ένα σύστημα S2, και τα υπόλοιπα (d3,d7,d8) σε ένα σύστημα S3. Θέλουμε να φτιάξουμε έναν μεσίτη Μ πάνω από αυτά τα συστήματα. (α) Για την επιλογή πηγής ο Μ θέλει να περιγράψει τα περιεχόμενα της κάθε πηγής με ένα διάνυσμα. Δώστε τα διανύσματα πηγών των S1, S2 και S3. (β) Έστω ότι ο Μ έχει ήδη τα διανύσματα πηγών των S1, S2, S3 και λαμβάνει την επερώτηση q= Γ. Αν θέλει να προωθήσει την επερώτηση q σε μία μόνο πηγή, ποια θα επιλέξει;

(γ) Ο Μ λαμβάνει μια επερώτηση, την προωθεί σε όλες τις πηγές, και λαμβάνει τα εξής αποτελέσματα από την κάθε μια: S1: <d1, d6, d5> S2: <d4, d2> S3: <d7, d8, d3> Δώστε την νοποιημένη διάταξη κατά round robin interleaving (δ) Προκειμένου ο μεσίτης να λαμβάνει από τις πηγές απαντήσεις με συγκρίσιμα σκορ, αποφασίζει να κάνει αποτίμηση επερωτήσεων σε δυο φάσεις ώστε οι πηγές να λαμβάνουν τα καθολικά στατιστικά που χρειάζονται για τον σωστό υπολογισμό των σκορ. Δώστε το idf του κάθε όρου στην καθολική συλλογή εγγράφων. (ε) Ο μεσίτης βρίσκει άλλο ένα σύστημα S4 το οποίο έχει την ίδια συλλογή με αυτήν του S1, δηλαδή και αυτό παρέχει πρόσβαση στα έγγραφα d1, d5, d6. Έστω ότι ο Μ προωθεί μια επερώτηση q στα S1 και S4 και λαμβάνει τις εξής απαντήσεις: S1: <d1, d5, d6> S4: <d6, d1, d5> Ποιο είναι το κορυφαίο έγγραφο αν ενοποιήσουμε τις διατάξεις: (i) κατά orda, (ii) κατά ondorcet; Ο Μ αποφασίζει να δίνει στο χρήστη όχι μόνο την ενοποιημένη διάταξη, αλλά και την Kemeny distance μεταξύ των διατάξεων που έλαβε από τα υποσυστήματα (προκειμένου ο χρήστης να παίρνει μια γεύση για το βαθμό συμφωνίας των πηγών). Ποια είναι αυτή η απόσταση στην προκειμένη; (στ) Τα συστήματα S1, S2, S3 δεν θέλουν πλέον να έχουν ανάγκη τον Μ και αποφασίζουν να «ανεξαρτητοποιηθούν» φτιάχνοντας ένα σύστημα ομοτίμων (P2P), συγκεκριμένα ένα δομημένο σύστημα τύπου hord. Προσελκύουν μάλιστα άλλα δυο συστήματα S5 και S6 (τα οποία δεν έχουν καμία συλλογή εγγράφων). Αποφασίζουν να χρησιμοποιήσουν μια συνάρτηση κατακερματισμού h των 3 bits, και έστω ότι h(ipaddress(s1))=1, h(ipaddress(s2))=2, h(ipaddress(s3))=4, h(ipaddress(s5))=7, h(ipaddress(s6))=5 Αποφασίζουν να διανείμουν το ανεστραμμένο ευρετήριο θεωρώντας κάθε όρο σαν κλειδί και έστω ότι h(α)=2, h(β)=3, h(γ)=6 h(δ)=6, h(ε)=5 Δώστε (i) τους πίνακες δρομολόγησης των κόμβων S1 και S3 και (ii) πως θα κατανεμηθεί το ανεστραμμένο ευρετήριο στους κόμβους του δικτύου (δείξτε τι ακριβώς θα έχει κάθε κόμβος)

Λύση α) S1: d1= «ΑΒΓ», d5= «ΔΓ ΕΓ», d6= «Γ Ε» S2: d2= «ΒΕΒ», d4= «Γ ΕΓ» S3: d3= «ΔΒ», d7= «ΒΔΒ», d8= «ΕΒ» term i Fi1 Fi2 Fi3 Tfi1 Tfi2 Tfi3 idfi Tfi1*idfi Tfi2*idfi Tfi3*idfi Α 1 0 0 ¼ 0/2 0/4 3/1 ¾ 0 0 Β 1 2 4 ¼ 2/2 4/4 3/3 ¼ 1 1 Γ 4 2 0 4/4 2/2 0/4 3/2 3/2 3/2 0 Δ 1 0 2 ¼ 0/2 2/4 3/2 3/8 0 ¾ Ε 2 2 1 2/4 2/2 1/4 3/3 1/2 1 1/4 S1=< 3/4, 1/4, 3/2, 3/8, 1/2> S2=<0,1, 3/2,0,1> S3=<0,1, 0, 3/4,1/4> β) q= <1*3,0*3,1*3/2,0*3 /2,0*3/ 2> = <3,0,1.5,0,0> S1 = sqrt(0.752 2 +0.25 2 +1.5 2 +0.375 2 +0.5 2 )= 1.8 S2 = sqrt(1 2 +1.5 2 +1 2 ) = 2.06 S3 = sqrt(1 2 +0.75 2 +0.25 2 ) = 1.27 q = sqrt(3 2 +1.5 2 ) = 3.35 Simos 1 =(0,75*3)+1,5*1,5/(1.8*3.35) = 0.74 Simos 2 =(1.5*1.5)/(2.06*3.35) = 0.33 Simos3= 0 Άρα η επερώτηση θα προωθηθεί στην S1. γ) Round robin interleaving: < {d1, d4, d7, {d6, d2, d8, {d5, d3 > δ) Παραλείποντας τους λογάριθμους τα idf κάθε όρου στην καθολική συλλογή εγγράφων: : 8/1, Β: 8/5, Γ: 8/4, Δ: 8/3, Ε: 8/5 ε) Παίρνουμε τις εξής απαντήσεις για την επερώτησή μας για τα συστήματα S1 S4 S1: <d1, d5, d6> S4: <d6, d1, d5> orda: d1 = 1 + 2 = 3 d5 = 2 + 3 = 5 d6 = 3 + 1 = 4 Άρα κορυφαίο έγγραφο είναι το d1.

ondorset: d1:d5 = 2:0 d5 d6 = 1:1 d1:d6 = 1:1 Kemenyistance (S1,S2) = 2 ( d1<s1 d6, d6<s2 d1) ( d5<s1 d6, d6<s2 d5) στ) i) Ο πίνακας δρομολόγησης του κόμβου S1 θα είναι: finger[1] = succ(h(ipaddress(s1)) + 20) = succ(2) = 2 (S2) finger[2] = succ(h(ipaddress(s1)) + 21) = succ(3) = 4 (S3) finger[3] = succ(h(ipaddress(s1)) + 22) = succ(5) = 5 (S6) Ο πίνακας δρομολόγησης του κόμβου S3 θα είναι: finger[1] = succ(h(ipaddress(s3)) + 20) = succ(5) = 5 (S6) finger[2] = succ(h(ipaddress(s3)) + 21) = succ(6) = 7 (S5) finger[3] = succ(h(ipaddress(s3)) + 22) = succ(8) = 1 (S1) ii) To ανεστραμμένο αρχείο είναι: : <d1,1> : <d1,1>, <d2,2>, <d3,1>, <d7,2>, <d8,1> Γ: <d1,1>, <d4,2>, <d5,2>, <d6,1> Δ: <d3,1>, <d5,1>, <d7,1> : <d2,1>, <d4,1>, <d5,1>, <d6,1>, <d8,1> Για κάθε όρο έχουμε: O στον κόμβο S2, γιατί h() = 2 και h(ipaddress(s2)) = 2 O Β στον κόμβο S3, γιατί h(β) = 3 και h(ipaddress(s3)) = 4 O Γ στον κόμβο S5, γιατί h(γ) = 6 και h(ipaddress(s5)) = 7 O Δ στον κόμβο S5, γιατί h(δ) = 6 και h(ipaddress(s5)) = 7 O Ε στον κόμβο S6, γιατί h(ε) = 5 και h(ipaddress(s6)) = 5 Άρα η κατανομή τους ανεστραμμένου ευρετηρίου στους κόμβους θα είναι: S2: : <d1,1> S3: : <d1,1>, < d2,2>, <d3,1>, <d7,2>, <d8,1> S5: Γ: <d1,1>, <d4,2>, <d5,2>, <d6,1> S5: Δ: <d3,1>, <d5,1>, <d7,1> S6: : <d2,1>, <d4,1>, <d5,1>, <d6,1>, <d8,1>