Search and Replication in Unstructured Peer-to-Peer Networks

Search and Replication in Unstructured Peer-to-Peer Networks Presented in P2P Reading Group in 11/10/2004 Abstract: Τα µη-κεντρικοποιηµένα και µη-δοµηµένα Peer-to-Peer δίκτυα όπως το Gnutella είναι ελκυστικά για συγκεκριµένες εφαρµογές γιατί δεν απαιτούν κεντρικό directory ούτε και ακριβείς ελέγχους πάνω από την τοπολογία του δικτύου ή την τοποθέτηση των δεδοµένων. Όµως ο αλγόριθµος πληµµύρας που χρησιµοποιεί το Gnutella δεν κλιµακώνεται καλά, αφού κάθε ξεχωριστή αναζήτηση δηµιουργεί ένα µεγάλο φορτίο κίνησης και το σύστηµα υπερφορτώνεται λόγω του µηνύµατος αναζήτησης. Η µελέτη αυτή ερευνά µέσω προσοµοίωσης, διάφορες εναλλακτικές λύσεις στον αλγόριθµό αναζήτησης του Gnutella, την στρατηγική αντιγραφής των αρχείων και την τοπολογία του δικτύου. Εισηγείται ένα αλγόριθµο αναζήτησης που βασίζεται σε multiple random walks, και ο οποίος δίνει απαντήσεις στις αναζητήσεις σχεδόν όσος γρήγορα και η µέθοδος πληµµύρας του Gnutella, ενώ µειώνει την κίνηση στο δίκτυο. Επίσης παρουσιάζει µία κατανεµηµένη στρατηγική replication η οποία αποφέρει σχεδόν βέλτιστη απόδοση. Τέλος, βρίσκει ότι ανάµεσα στις διάφορες τοπολογίες δικτύου, o uniform random γράφοι δίνουν καλύτερη απόδοση. Summary: Υπάρχουν δύο µεγάλες κατηγορίες αρχιτεκτονικών για τα P2P δίκτυα. Τα κεντρικοποιηµένα και τα µη-κεντρικοποιηµένα δίκτυα. Στις κεντρικοποιηµένες αρχιτεκτονικές γίνετε χρήση ενός κεντρικού Directory Server, µε τον οποίο επικοινωνούν οι κόµβοι για να πάρουν πληροφορίες για το αντικείµενο που αναζητείται. Η αρχιτεκτονική αυτή είναι αρκετά αποδοτική αλλά δεν κάνει καλό scaling και έχει ενιαίο σηµείο της αποτυχίας. Από την άλλη πλευρά έχουµε τις µηκενρικοποιηµένες αρχιτεκτονικές οι οποίες µπορεί να έχουν κάποια δοµή ή να µην έχουν καµία δοµή. Στις δοµηµένες µη-κεντρικοποιηµένες αρχιτεκτονικές υπάρχει έλεγχος στην τοπολογία του δικτύου και καθώς και στη τοποθέτησης των αρχείων. Για τις αναζητήσεις σε αυτές χρησιµοποιείται συνήθως ένας κατανεµηµένος πίνακας κατακερµατισµού. Προσφέρουν αποδοτικές αναζητήσεις και κλιµακώνονται καλά αλλά δεν υπάρχουν τέτοια ευρέως διαδεδοµένα δίκτυα έτσι ώστε να αποδειχθεί ότι µπορούν να δουλέψουν καλά. Στις αρχιτεκτονικές που δεν παρέχουν καµία δοµή οι αναζητήσεις γίνονται µε επερωτήσεις από τους κόµβους προς τους γείτονες τους, συνήθως χρησιµοποιώντας πληµµύρα. Η αρχιτεκτονική αυτή είναι εξαιρετικά ανεκτική σε αλλαγές στο δίκτυο αλλά δεν κλιµακώνεται καλά και δηµιουργεί µεγάλα φορτία. Η έρευνα επικεντρώνεται στη µελέτη πιο κλιµακώσιµων αλγορίθµών σε σχέση µε τον αλγόριθµό του Gnutella., δίνοντας προσοχή σε θέµατα αναζήτησης και replication. Για την µελέτη χρησιµοποιήθηκαν 4 τοπολογίες δικτύου, οι οποίες αναπαριστούν τον στιγµιαίο γράφο που σχηµατίζουν οι κόµβοι στο δίκτυο και οι οποίοι δεν αλλάζουν κατά τις προσοµοιώσεις. Ένας Power-Law τυχαίος γράφος µε 9230 κόµβους, των οποίων ο µέσος βαθµός είναι 4,46. Ένας κανονικός τυχαίος γράφος µε 9836 κόµβους και µέσο βαθµό 4,09. Ένα αντίγραφο του Gnutella µε 4736 κόµβους και µέσο βαθµό 5,5 και ένα Grid δύο διαστάσεων (100 x 100) και µέσο βαθµό 3,96. Εξετάζονται δύο κατανοµές αναζήτησης, δηλαδή η συχνότητα µε την οποία αναζητούµε ένα αρχείο, και τρεις κατανοµές replication, δηλαδή το ποσοστό των κόµβων που έχουν ένα

συγκεκριµένο αρχείο. Οι κατανοµές αναζήτησης είναι η Uniform, δηλαδή όλα τα αρχεία είναι το ίδιο δηµοφιλή, και η Zipf-like, όπου η δηµοτικότητα των αρχείων ακολουθεί µια Zipf-like κατανοµή. Για την replication κατανοµή έχουµε την Uniform όπου όλα τα αρχεία βρίσκονται στον ίδιο αριθµό κόµβων, την Proportional κατανοµή όπου τα αρχεία αντιγράφονται ανάλογα µε την δηµοτικότητα τους και την Square-Root κατανοµή όπου τα αρχεία αντιγράφονται σε αριθµό ανάλογο της τετραγωνικής ρίζας της δηµοτικότητας τους. Οι κατανοµές αναζήτησης παραµένουν σταθερές κατά τις προσοµοιώσεις, ενώ οι replication κατανοµές παραµένουν σταθερές κατά την µελέτη των αλγορίθµών αναζήτησης ενώ αλλάζουν κατά την µελέτη της επιρροής των στρατηγικών replication στην απόδοση της αναζήτησης. Για την µέτρηση της απόδοσης των αλγορίθµων αναζήτησης λαµβάνονται υπόψιν: το Pr(success) που δίνει την πιθανότητα επιτυχίας της αναζήτησης πριν το τέλος του αλγορίθµου, ο αριθµός των hops στους οποίος ταξίδεψε ένα επιτυχηµένο µήνυµα αναζήτησης και µας δίνει την καθυστέρηση για την ανεύρεση ενός αντικειµένου. Το overhead του αλγορίθµου δίνεται από το µέσο αριθµό µηνυµάτων αναζήτησης που έχει να επεξεργαστεί ο κάθε κόµβος και το αντίκτυπος του αλγορίθµου στο δίκτυο δίνεται από το συνολικό αριθµό κόµβων στον οποίο ταξίδεψε ένα µήνυµα αναζήτησης. Έγιναν ένα σύνολο από προσοµοιώσεις για κάθε συνδυασµό κατανοµής αναζήτησης και κατανοµής replication, όπου ο αριθµός των αρχείων είναι 100 και η µέση replication ratio είναι 1%. Έγιναν 10 διαφορετικοί συνδυασµοί replication των αντικειµένων σε συνδυασµό µε 100 αναζητήσεις για κάθε αντικείµενο. Ένα από τα σηµαντικά θέµατα στα P2P δίκτυα είναι ο φόρτος που δέχεται κάθε συµµετέχων στο δίκτυο. Ο αλγόριθµος πληµµύρας που χρησιµοποιεί το Gnutella έχει διάφορους περιορισµούς. Το Gnutella χρησιµοποιεί την παράµετρο Time To Live (TTL) για να προσδιορίσει τον αριθµό των κόµβων στους οποίους θα ταξιδέψει ένα µήνυµα αναζήτησης. Πρόβληµα αυτής της µεθόδου είναι η δυσκολία προσδιορισµού του TTL αφού για µικρό TTL υπάρχει περίπτωση µη επιτυχής αναζήτησης και για µεγάλο TTL δηµιουργείται µεγάλο overhead στο δίκτυο από την αποστολή των µηνυµάτων, αφού ο αριθµός τους αυξάνει καθώς αυξάνει το TTL. Ένα άλλο πρόβληµα που συναντάµε µε την πληµµύρα είναι ότι οι κόµβοι µπορεί να λάβουν ένα συγκεκριµένο µήνυµα από περισσότερους από ένα γείτονες. Τα µηνύµατα αυτά είναι µόνο επιπλέον overhead. Για την αντιµετώπιση αυτού του προβλήµατος υπάρχουν µηχανισµοί αναγνώρισης των διπλών µηνυµάτων, οι οποίοι, για παράδειγµα, δίνουν ένα ID στο µήνυµα και εάν λάβουν ένα µήνυµα δεύτερη φορά δεν το ξαναπροωθούν. Ακόµα όµως και µε αυτούς τους µηχανισµούς το πρόβληµα δεν λύνεται ικανοποιητικά και παρατηρούµε ότι δεν υπάρχει δυνατότητα να αυξήσουµε τον αριθµό των κόµβων που καλύπτονται µε µία αναζήτηση χωρίς να έχουµε σηµαντικό overhead από διπλά µηνύµατα. Για την µείωση των προβληµάτων της αναζήτησης βάση πληµµύρας οι συγγραφείς προτείνουν δύο αλγόριθµούς. Ο αλγόριθµός του Expanding Ring χρησιµοποιεί πολλαπλές πληµµύρες, στις οποίες ο κόµβός που κάνει την αναζήτηση αυξάνει το TTL εάν δεν υπάρχει επιτυχία στην αναζήτηση. Οι προσδοκίες είναι ότι αυτή η µέθοδος θα δουλεύει καλύτερα όταν τα αντικείµενα µε µεγάλη ζήτηση υπάρχουν σε µεγαλύτερο αριθµό κόµβων στο δίκτυο. Όντως παρατηρείται ότι το TTL για το οποίο σταµάτα η αναζήτηση µειώνεται όταν το replication του αντικειµένου είναι µεγαλύτερο του 10%. Μείωση παρατηρείται επίσης, ανάλογα µε την τοπολογία, στο µέσο αριθµό µηνυµάτων που έχει να επεξεργαστεί κάθε κόµβος, ακόµα και στη περίπτωση που το replication ratio του αντικειµένου είναι στο 0.125%. Παρόλο που ο

αλγόριθµός του Expanding Ring λύνει το πρόβληµα επιλογής TTL, δεν µειώνει τον αριθµό των διπλών µηνυµάτων τα οποία εξακολουθούν να δηµιουργούν σηµαντικό overhead στο δίκτυο. Για το λόγο αυτό, προτείνεται ο αλγόριθµός των random walks, όπου κάθε κόµβος προωθεί το µήνυµα σε ένα τυχαία επιλεγµένο γείτονα. Με χρήση απλού random walk αλγορίθµου το overhead µειώνεται, αλλά παρατηρείται αύξηση στη καθυστέρηση ανεύρεσης του αντικειµένου. Για το λόγο αυτό προτείνεται ο αλγόριθµός να ξεκινάει στέλνοντας πολλά µηνύµατα, το καθένα από τα οποία θα κάνει το δικό του random walk. Αυτό όµως δίνει περισσότερο overhead στους κόµβους και άρα χρειάζεται ένας µηχανισµός για να τερµατίζουν τα walks. Αυτό που προτείνεται είναι κάθε µήνυµα να επικοινωνεί µε τον αρχικό κόµβο κάθε κάποια βήµατα και να τερµατίζει εάν το αντικείµενο έχει βρεθεί. Τα πειράµατα έγιναν για διαφορετικούς αριθµούς αρχικών µηνυµάτων και έδειξαν ότι 16 64 µηνύµατα δίνουν καλά αποτελέσµατα. Στις µετρήσεις χρησιµοποιούνται 32 µηνύµατα. Από τις µετρήσεις φαίνεται ότι ο multiple random walk αλγόριθµός µειώνει αισθητά τον µέσο αριθµό µηνυµάτων για κάθε αναζήτηση ανεξάρτητα από την τοπολογία που χρησιµοποιείται., αλλά ότι προσφέρει µεγαλύτερη καθυστέρηση στην αναζήτηση. Η άποψη των συγγραφέων είναι ότι µία µικρή αύξηση στην καθυστέρηση καλύπτεται από την µεγάλη µείωση στο overhead που παράγεται στους κόµβούς. Μία βελτίωση στον αλγόριθµό των multiple Random-Walks είναι κάθε κόµβος να κρατάει κατάσταση για την προώθησης των µηνυµάτων αναζήτησης. Κάθε µήνυµα παίρνει µοναδικό ID και όταν φθάσει ξανά στον ίδιο κόµβο, αυτός το προωθεί σε διαφορετικό γείτονα, έτσι ακολουθεί διαφορετικό µονοπάτι. Η βελτίωση που δίνει η προσέγγιση αυτή στον αλγόριθµό εξαρτάται από την τοπολογία και προτείνεται η µελέτη των αποδόσεων των προσεγγίσεων πριν να αποφασιστεί εάν θα χρησιµοποιηθεί ή όχι η κράτηση κατάστασης. Γενικά από την µελέτη των αλγορίθµών αναζήτηση βγάζουµε το συµπέρασµα ότι το κλειδί για µία µέθοδο αναζήτησης είναι να καλύψει τον σωστό αριθµό κόµβών όσο πιο γρήγορα είναι δυνατό και µε το λιγότερο δυνατό overhead. Σηµασία πρέπει να δίνεται στη χρήση προσαρµοστικών µεθόδων τερµατισµού των αλγορίθµών, στη µείωση των διπλών µηνυµάτων και στη µικρή αύξηση του αριθµού των κόµβων που επισκέπτεται ο αλγόριθµός σε κάθε βήµα. Η επιτυχία µιας αναζήτησης στα P2P συστήµατα έχει να κάνει και µε τον αριθµό των κόµβων που θα επισκεφθούµε για να βρούµε το αντικείµενο. Συµπερασµατικά ο αριθµός των αντιγράφων του αντικειµένου που υπάρχουν στο δίκτυο βοήθά την αναζήτηση. Έτσι µία βέλτιστη στρατηγική για replication θα βοηθούσε στη µείωση του µεγέθούς αναζήτησης, δηλαδή του αριθµού των ερωτήσεων µέχρι να ικανοποιηθεί µία αναζήτηση. Η µελέτη που γίνεται προσπαθεί να απαντήσει στο ερώτηµα: πόσα αντίγραφα κάθε αντικειµένου πρέπει να υπάρχουν έτσι ώστε να ελαχιστοποιηθεί το overhead της αναζήτησης, θεωρώντας ότι το συνολικό µέγεθος µνήµης για τα αντικείµενα είναι σταθερό. Οι στρατηγικές replication που ακολουθούνται µέχρι τώρα είναι η Uniform, δηλαδή όλα τα αντικείµενα έχουν τον ίδιο αριθµό αντιγράφων, και η Proportional όπου κάθε αντικείµενο αντιγράφεται ανάλογα µε την κατανοµή αναζήτησης του. Στη Uniform replication στρατηγική όλα τα αντικείµενα έχουν το ίδιο µέσο µέγεθός αναζήτησης (average search size) αλλά ο ρυθµός utilization, δηλαδή ο αριθµός αιτήσεων που δηµιουργεί κάθε αντικείµενο είναι ανάλογος του ρυθµού αναζήτησης του αντικείµενου. Στην Proportional replication έχουµε το ίδιο ρυθµό utilization για όλα τα αντικείµενα αλλά έχουµε µεγάλες διαφορές στο µέσο µέγεθός αναζήτησης για διαφορετικά αντικείµενα, τα δηµοφιλή αντικείµενα έχουν µικρότερο µέγεθός αναζήτησης από ότι τα µη δηµοφιλή αντικείµενα.

Οι συγγραφείς προτείνουν την λύση του Square-Root replication στην οποία τα αντικείµενα αντιγράφονται σε αριθµό κόµβων ανάλογο της τετραγωνικής ρίζας της κατανοµής αναζήτησης τους. Για τους λόγους για τους οποίους επιλέχθηκε το Square-Root replication παραπεµπόµαστε στο Edith Cohen and Scott Shenker.Replication strategies in unstructured peer-to-peer networks. In manuscript, 2001. Για την υλοποίηση του Square-Root replication θεωρείται ότι για κάθε αναζήτηση κρατούµε τον αριθµό των ερωτήσεων που χρειάστηκαν για να ικανοποιηθεί. Έτσι αντιγράφουµε το αντικείµενο σε αριθµό ανάλογο µε τον αριθµό των ερωτήσεων ακολουθώντας δύο προσεγγίσεις. Είτε αντιγράφουµε το αντικείµενο στους κόµβους του επιτυχούς µονοπατιού αναζήτησης, είτε το αντιγράφουµε σε τυχαίους κόµβους από αυτούς που πήραν µέρος στην αναζήτηση. Και οι δύο αυτές προσεγγίσεις δείχνουν ότι παράγουν αντίγραφά κοντά στην τετραγωνική ρίζα της κατανοµής αναζήτησης του αντικειµένου. Για την αποτίµηση των µεθόδων replication µετρήθηκαν η συνολική κίνηση που δηµιουργείται στο δίκτυο από τα µηνύµατα αναζήτησης και ο χρόνος που χρειάζεται µία αναζήτηση για να τελειώσει. Έγιναν δυναµικές προσοµοιώσεις στις οποίες τα 100 αντικείµενα είχαν Zipf-like κατανοµή αναζήτησης και δηµιουργούνταν 5 αναζητήσεις το δευτερόλεπτο βάση µίας poison διαδικασίας. Ο αλγόριθµός αναζήτησης ήταν ένας 32-walker random walk µε κράτηση κατάστασης και έλεγχό κάθε τέσσερα βήµατα. Οι προσοµοιώσεις έτρεχάν για 10000 δευτερόλεπτα και οι µετρήσεις παίρνονταν µεταξύ των 5000 9000 δευτερολέπτων. Από τις µετρήσεις φαίνεται ότι το Square-root replication, και ειδικά µε random υλοποίηση, µειώνει σηµαντικά το µέσο αριθµό µηνυµάτων που δέχεται κάθε κόµβος, σε σχέση µε το owner replication, όπου κάθε αρχείο αντιγράφεται µόνο σε αυτό που το ζήτησε. Επίσης βλέπουµε ότι το random replication ικανοποιεί µεγαλύτερο ποσοστό αναζητήσεων σε λιγότερο αριθµό hops. Εν γένη, οι Square-root replication υλοποιήσεις δίνουν καλύτερα αποτελέσµατα από την Owner replication. Παρατηρήσεις: Πώς κλιµακώνεται το πρόβληµα που µελετούν οι συγγραφείς σε εκατοµµύρια κόµβους.: Η µελέτη έγινε σε δίκτυα µεγέθους, περίπου, 10000 κόµβων τα οποία δεν ανταποκρίνονται στα µεγέθη χρηστών που συναντάµε στα σηµερινά P2P δίκτυα. Τι γίνεται αν τα αρχεία δεν έχουν σταθερό µέγεθός αλλά προστίθενται και αφαιρούνται δυναµικά; Έχουµε τα ίδια αποτελέσµατα για τις µεθόδους που εφαρµόστηκαν. Τι γίνεται εάν οι κόµβοί µπαίνουν και βγαίνουν συχνά από το δίκτυο µε αποτέλεσµα αλλαγή στη τοπολογία του δικτύου; Πράγµα το οποίο ισχύει σε δίκτυα όπως το Gnutella. Πώς εξελίσσονται οι γειτονίες στο δίκτυο; ηλαδή αν ενδιαφέροµαι για συγκεκριµένο είδος αρχείων, είναι δυνατόν να αποκτήσω γείτονες έτσι ώστε να έχω τα αντικείµενα που θέλω πιο κοντά σε µένα; Υπάρχεί η δυνατότητα διαµόρφωσης της γειτονίας ανάλογα µε το περιεχόµενο της αναζήτησης; Ποίος γράφος είναι καλύτερος για unstructured P2P δίκτυα; Οι συγγραφείς λένε ότι οι Power-Law random graphs και οι Gnutella graphs δεν δίνουν πολύ καλά αποτελέσµατα µε την µέθοδο της πληµµύρας σε σχέση µε τους normal random γράφους.. Λόγω υψηλά συνδεδεµένων κόµβων αυξάνονται οι ρυθµοί διπλών µηνυµάτων. Επίσης υποστηρίζουν ότι οι random γράφοι δίνουν λογαριθµικό µέγιστο

φορτίο σε οποιοδήποτε κόµβο σε σχέση µε τους Power-Law και Gnutella γράφους όπου οι υψηλά συνδεδεµένοι κόµβοι έχουν πολύ υψηλότερο φορτίο από τους άλλους γράφους. εν υπάρχει όµως ένα ενιαίο µέτρο σύγκρισης έτσι ώστε κάποιος να αποφασίσει ποίος από τους γράφους είναι καλύτερος. Το µέσο replication ratio που χρησιµοποιείται (1.0%) και ακόµα και το ελάχιστο replication ratio που δίνεται (0.125%) φαντάζουν αρκετά µεγάλα σε σχέση µε πραγµατικά replication ratio που συναντώνται. Για παράδειγµα για replication ratio 1% και 10000 κόµβους στο δίχτυο θα έπρεπε να πάρω 1000 απαντήσεις για το αντικείµενο της αναζήτησης. Η διαφορά µεταξύ των µέσων αριθµών µηνυµάτων που δέχεται κάθε κόµβος για επεξεργασία στον multiple Random-Walk αλγόριθµο σε σχέση µε τον αλγόριθµό πληµµύρας αφήνει απορίες για τους µηχανισµούς αναγνώρισης διπλών µηνυµάτων που χρησιµοποιήθηκαν. Θα µπορούσα να χρησιµοποιήσω Square-Root replication για να κάνω replicate πληροφορία αναζήτησης και όχι αντικείµενα. Για παράδειγµα θα µπορούσα να φυλάγω στους κόµβους του επιτυχούς µονοπατιού πληροφορία για την τοποθεσία του αντικείµενου και έτσι εάν αυτοί οι κόµβοι λάβουν µέρος σε αναζήτηση για το ίδιο αρχείο θα µπορούσαν να απαντήσουν δίνοντας τον κόµβο που έχει το αρχείο.