Α ΡΙΣΤΟΤΕΛΕΙΟ Π ΑΝΕΠΙΣΤΗΜΙΟ Θ ΕΣΣΑΛΟΝΙΚΗΣ



Σχετικά έγγραφα
Αρχιτεκτονική του πληροφοριακού συστήµατος Cardisoft Γραµµατεία 2003 ιαχείριση Προσωπικού

Ο ΗΓΟΣ ΕΠΙΜΟΡΦΩΤΗ. ηµοτικό ιαδικτυακό Ραδιόφωνο και Τηλεόραση. Y4 ηµιουργία διαδικτυακής ραδιοφωνικής εκποµπής µε τα εργαλεία

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ο ΗΓΟΣ ΕΠΙΜΟΡΦΩΤΗ. ηµοτικό ιαδικτυακό Ραδιόφωνο και Τηλεόραση. Y4 ηµιουργία διαδικτυακής ραδιοφωνικής εκποµπής µε το εργαλείο

Τεχνικές Εξόρυξης Δεδομένων

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Βάσεις Δεδομένων Ενότητα 1

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ

Βασικές Έννοιες Web Εφαρμογών

Θώμος Χαρίλαος. Πολιτικές Διαχείρισης Δεδομένων Παγκόσμιου Ιστού σε Δίκτυο Παράδοσης Περιεχομένου

Λογισµικό (Software SW) Λειτουργικά Συστήµατα και ίκτυα

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΤΕΧΝΟΛΟΓΙΑ ΙΚΤΥΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΠΟΩΤΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΔΤΝΑΜΙΚΗΣ ΜΗΧΑΝΩΝ

Είδη Groupware. Λογισμικό Συνεργασίας Ομάδων (Groupware) Λογισμικό Groupware. Υπάρχουν διάφορα είδη groupware ανάλογα με το αν οι χρήστες εργάζονται:

ΕΡΓΑΣΙΑ. (στο µάθηµα: Τεχνολογίες Εφαρµογών ιαδικτύου του Η εξαµήνου σπουδών του Τµήµατος Πληροφορικής & Τηλ/νιών)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15

Ελληνικό Ανοικτό Πανεπιστήµιο. Η Ανάλυση και ο Σχεδιασµός στην Ενοποιηµένη ιαδικασία. ρ. Πάνος Φιτσιλής

7.11 Πρωτόκολλα εφαρµογής

ΤεχνολογίεςΕπικοινωνιών και Πληροφορικής (ΤΠΕ) Στην περιφερειακήανάπτυξη. Ηλίας Κοντάκος, ΚτΠ Α.Ε.

ίκτυα υπολογιστών Στόχοι κεφαλαίου ίκτυα

ΘΕΜΑΤΑ ΙΠΛΩΜΑΤΙΚΩΝ ΕΡΓΑΣΙΩΝ 2006 / 2007

Περίληψη Λαμπρόπουλος

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

ΠΤΥΧΙΑΚΗ/ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Μεταπτυχιακή Διατριβή

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

Web and HTTP. Βασικά Συστατικά: Web Server Web Browser HTTP Protocol

Αριστοµένης Μακρής Εργαστήρια Η/Υ

Α ΤΑΞΗ. 1 η ΕΝΟΤΗΤΑ: Γνωρίζω τον υπολογιστή. Θα παρουσιαστεί µε τρόπο απλό και κατανοητό,

ΕΥΧΑΡΙΣΤΙΕΣ. της εφαρµογής που υλοποιήσαµε, αλλά και προτάσεις για µελλοντικές εφαρµογές µε βάση την τεχνογνωσία που αποκτήσαµε.

ΟΙΚΟΝΟΜΙΚΗ ΠΡΟΣΦΟΡΑ ΣΧΕ ΙΑΣΗΣ ΚΑΙ ΚΑΤΑΣΚΕΥΗΣ web εφαρµογής - ηλεκτρονικού κατατήµατος για έξυπνα κινητά

Εισαγωγή στην επιστήμη των υπολογιστών. Υλικό Υπολογιστών Κεφάλαιο 6ο ίκτυα υπολογιστών

ΗΥ537: Έλεγχος Πόρων και Επίδοση σε Ευρυζωνικά Δίκτυα,

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας.

Αξιολόγηση Υπηρεσιών ιαδικτύου µέσω Περιπτώσεων Μελέτης

6 ο Πακέτο Εργασίας «Ψηφιακή Βάση ιαχείρισης Γεωγνώσης (e-repository of Geoscience Content)»

Πρωτόκολλα Επικοινωνίας και Τείχος Προστασίας

Network Address Translation (NAT)

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

Προσαρμοζόμενα. μενα και Εξατομικευμένα Επικοινωνιακά Περιβάλλοντα. Κων/νος Μουρλάς Επίκουρος Καθηγητής Τμήμα Επικοινωνίας & ΜΜΕ

Συνεχής ροή πολυµέσων

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Προχωρημένα Θέματα Προγραμματισμού Δικτύων Ενότητα 13: QoS Policy, Παραδείγματα QoS, Επισκόπηση μαθήματος Φώτης Βαρζιώτης

ΕΙΣΑΓΩΓΗ ΣΤΙΣ Β ΣΕ Ε Σ Ι ΟΜΕΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή. Ονοματεπώνυμο: Αργυρώ Ιωάννου. Επιβλέπων καθηγητής: Δρ. Αντρέας Χαραλάμπους

Τεχνολογία Πολυμέσων. Ενότητα 6: Υπερκείμενο - Υπερμέσα. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

Πλαίσιο Εργασιών. Στρατηγικές Ευκαιρίες

Πληροφοριακά Συστήµατα

Διαχείριση Πολιτισμικών Δεδομένων

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

ΑΣΦΑΛΕΙΑ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ ΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Μηχανισμοί Ελέγχου Προσπέλασης)

Διαχείριση Εφοδιαστικής Αλυσίδας

Συστήματα Αναμονής. Ενότητα 1: Εισαγωγή. Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Σχεδιασμός Οικολογικού Διαμεσολαβητή για την εποπτεία και διαχείριση δικτύου διανομής ηλεκτρικής ενέργειας

ΟΙΚΟΝΟΜΙΚΗ ΠΡΟΣΦΟΡΑ ΣΧΕ ΙΑΣΗΣ ΚΑΙ ΚΑΤΑΣΚΕΥΗΣ ΙΑ ΙΚΤΥΑΚΟΥ ΠΛΗΡΟΦΟΡΙΑΚΟΎ ΣΥΣΤΗΜΑΤΟΣ. Τρίτη, 7 Φεβρουαρίου 2012

ίκτυα - Internet Υπηρεσίες Internet O Παγκόσµιος Ιστός (World Wide Web) Ηλεκτρονική Αλληλογραφία ( ) Υπηρεσία FTP (File Transfer Protocol)

Επεξεργασία Ερωτήσεων

ΜΑΘΗΣΙΑΚΗ ΕΝΟΤΗΤΑ 4: ΜΕΤΑΒΑΣΗ ΣΤΟ ΥΠΟΛΟΓΙΣΤΙΚΟ ΝΕΦΟΣ: Ο ΙΚΟΣ ΧΑΡΤΗΣ

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ. Τμήμα Μηχανικών Οικονομίας και Διοίκησης ΕΠΙΠΕΔΟ ΣΠΟΥΔΩΝ Προπτυχιακό ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ ΓΕ0175 ΕΞΑΜΗΝΟ ΣΠΟΥΔΩΝ 9

Σχεδιασμός και Υλοποίηση ενός πληροφοριακού συστήματος για τους τεχνικούς του φυσικού αερίου

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Γουλή Ευαγγελία. 1. Εισαγωγή. 2. Παρουσίαση και Σχολιασµός των Εργασιών της Συνεδρίας

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Τι είναι τα Συστήµατα Γεωγραφικών Πληροφοριών. (Geographical Information Systems GIS)

Σχεδιασµός Οικολογικού ιαµεσολαβητή για την εποπτεία και διαχείριση δικτύου διανοµής ηλεκτρικής ενέργειας

Δίκτυα Υπολογιστών Firewalls. Χάρης Μανιφάβας

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ

Σύντομη παρουσίαση των εργαλείων/εντολών telnet, ping, traceroute nslookup και nmap, zenmap

Επεξεργασία Ερωτήσεων

ΤΕΧΝΟΛΟΓΙΑ ΙΚΤΥΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΥΠΗΡΕΣΙΑ. Ηλεκτρονική ιαχείριση Τάξης. Οδηγίες χρήσης για τον µαθητή.

Τεχνολογίες Υλοποίησης Αλγορίθµων

Τµήµα Πληροφορικής. Υλοποίηση LRU Cache ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4. Φθινοπωρινό Εξάµηνο Διδάσκων: E. Μαρκάκης. Γενικά περί Caching

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή

ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΤΕΧΝΟΛΟΓΙΩΝ ΔΙΑΔΙΚΤΥΑΚΩΝ ΥΠΗΡΕΣΙΩΝ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΤΕΧΝΟΛΟΓΙΑΣ REST ΠΛΑΣΤΑΡΑΣ ΕΥΡΙΠΙΔΗΣ

ιαδίκτυα & Ενδοδίκτυα Η/Υ

Προγραμματισμός διαδικτυακών εφαρμογών με PHP

Ενότητα 8. Εισαγωγή στην Πληροφορική. Internet: Τότε και Τώρα. Κεφάλαιο 8Α. Τρόπος Λειτουργίας Internet. Χειµερινό Εξάµηνο

Ο ΗΓΟΣ ΕΠΙΜΟΡΦΩΤΗ. Το εκπαιδευτικό υλικό υπόκειται σε Άδεια Χρήσης Creative Commons Αναφορά Μη-Εµπορική Χρήση Όχι Παράγωγο Έργο v. 3.

Οι Μεταπτυχιακές Σπουδές ως εργαλείο ανάπτυξης της επιχειρηµατικότητας στον κλάδο της Πληροφορικής

Περίληψη ιπλωµατικής Εργασίας

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Σχεδιασµός βασισµένος σε συνιστώσες

Εισαγωγή. Κατανεµηµένα Συστήµατα 01-1

Δίκτυα Υπολογιστών Ενότητα 10: Ethernet και ARP

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

το ιαδίκτυο συνδέει εκατοµµύρια χρήστες αποτελώντας την µεγαλύτερη πηγή πληροφοριών και ανταλλαγής µηνυµάτων στον πλανήτη.

Transcript:

Α ΡΙΣΤΟΤΕΛΕΙΟ Π ΑΝΕΠΙΣΤΗΜΙΟ Θ ΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΓΕΩΡΓΙΟΣ ΠΑΛΛΗΣ ΙΑΧΕΙΡΙΣΗ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΟ ΙΑ ΙΚΤΥΟ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ ΘΕΣΣΑΛΟΝΙΚΗ 2006

2

ΓΕΩΡΓΙΟΣ ΠΑΛΛΗΣ ΙΑΧΕΙΡΙΣΗ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΟ ΙΑ ΙΚΤΥΟ Ι ΑΚΤΟΡΙΚΗ ΙΑΤΡΙΒΗ Υποβλήθηκε στο Τµήµα Πληροφορικής του Αριστοτελείου Πανεπιστηµίου Θεσσαλονίκης Ηµεροµηνία Προφορικής Εξέτασης: 15 Ιουνίου, 2006 Εξεταστική Επιτροπή Αθηνά Βακάλη, Επίκ. Καθ. Τµ. Πληροφορικής ΑΠΘ, Επιβλέπουσα Ιωάννης Μανωλόπουλος, Καθ. Τµ. Πληροφορικής ΑΠΘ, Μέλος Τριµελούς Συµβουλευτικής Επιτροπής Ανδρέας Ποµπόρτσης, Καθ. Τµ. Πληροφορικής ΑΠΘ, Μέλος Τριµελούς Συµβουλευτικής Επιτροπής Περικλής Μήτκας, Καθ. Τµ. Ηλεκτρολόγων Μηχ. και Μηχ. Υπολογιστών ΑΠΘ, Εξεταστής Ελευθέριος Αγγελής, Επίκ. Καθ. Τµ. Πληροφορικής ΑΠΘ, Εξεταστής Νικόλαος Βασιλειάδης, Επίκ. Καθ. Τµ. Πληροφορικής ΑΠΘ, Εξεταστής Γεώργιος Ευαγγελίδης, Επίκ. Καθ. Τµ. Εφαρµ. Πληροφορικής Παν. Μακεδονίας, Εξεταστής 3

Πάλλης Γεώργιος Α.Π.Θ. «Η έγκριση της παρούσης ιδακτορικής ιατριβής από το Τµήµα Πληροφορικής του Αριστοτελείου Πανεπιστηµίου Θεσσαλονίκης δεν υποδηλώνει αποδοχή των γνωµών του συγγραφέως» (Ν. 5343/1932, άρθρο 202, παρ.2) 4

Πρόλογος Τα τελευταία χρόνια η ραγδαία ανάπτυξη του ιαδικτύου (Internet) και η δηµοτικότητα των υπηρεσιών του έχουν δηµιουργήσει νέες απαιτήσεις. Οι παλαιότερες τεχνικές διαχείρισης αντικειµένων αποδείχθηκαν µη αποτελεσµατικές και πολλές από αυτές θεωρούνται πλέον ξεπερασµένες. Με δεδοµένο ότι ο Παγκόσµιος Ιστός (Π.Ι.) µπορεί να θεωρηθεί ως µία πολύ µεγάλη και ετερογενής βάση δεδοµένων, νέες µεθοδολογίες και τεχνικές έχουν προταθεί αναπτύσσοντας είτε νέα σχήµατα διαχείρισης δεδοµένων, είτε νέες τεχνικές διάχυσης της πληροφορίας. Η παρούσα διατριβή πραγµατεύεται ένα σύνολο τεχνικών και µεθοδολογιών για την αποτελεσµατικότερη διαχείριση των αντικειµένων στον Π.Ι., µε κίνητρο να ελαττωθεί η καθυστέρηση πρόσβασης των πελατών στις προσφερόµενες υπηρεσίες. Συγκεκριµένα, η συνεισφορά της διατριβής επικεντρώνεται στους ακόλουθους τοµείς. Αρχικά παρουσιάζεται µία νέα µεθοδολογία για την επεξεργασία των οµάδων που προκύπτουν από την ανάλυση της συµπεριφοράς της κίνησης των πελατών στο ιαδίκτυο. Προτείνεται ένας νέος αλγόριθµος ο οποίος αξιολογεί την ποιότητα των οµάδων που προέκυψαν από την εφαρµογή ενός πιθανοκρατικού αλγορίθµου οµαδοποίησης. Επίσης παρουσιάζεται µία µέθοδος η οποία ανακαλύπτει χρήσιµες συσχετίσεις µεταξύ των πελατών και των αντικειµένων του Π.Ι., συµπεριλαµβάνοντας µία καινοτοµική προσέγγιση για την αποτελεσµατικότερη απεικόνιση τους. Στη συνέχεια εξετάζεται το πρόβληµα των πολιτικών αντικατάστασης και προανάκτησης των αντικειµένων στους πληρεξούσιους εξυπηρετητές του Π.Ι. Προτείνεται µία πολιτική αντικατάστασης των περιεχοµένων της ενδιάµεσης µνήµης σε «συµβατικά» περιβάλλοντα του Π.Ι. Η προτεινόµενη πολιτική σχεδιάστηκε συνδυάζοντας τρία σηµαντικά κριτήρια (τη συχνότητα ζήτησης των αντικειµένων, το µέγεθος τους και την πρόσφατη αναφορά τους). Επιπλέον αναπτύχθηκε µία νέα τεχνική προανάκτησης των αντικειµένων του Π.Ι. Συγκεκριµένα, αναπτύχθηκε ένας αλγόριθµος οµαδοποίησης των αντικειµένων του ιαδικτύου ο οποίος καθορίζει ποια αντικείµενα θα ανακτηθούν στον πληρεξούσιο εξυπηρετητή πριν οι πελάτες ζητήσουν αυτά τα αντικείµενα. Η συγκεκριµένη πολιτική ενσωµατώνεται µε την εκάστοτε πολιτική αντικατάστασης ενός πληρεξούσιου εξυπηρετητή δηµιουργώντας ένα νέο περιβάλλον εναποθήκευσης. Τέλος, η διατριβή εστιάζεται στη µελέτη των ικτύων Παράδοσης Περιεχοµένου (CDNs). Ένας νέος αλγόριθµος προτείνεται για τον εντοπισµό των αντικειµένων του Π.Ι. που θα προανακτηθούν στους CDN εξυπηρετητές ο οποίος λαµβάνει υπόψη του µόνο τη δοµή των ιαδικτυακών τόπων. Επίσης, προτείνονται δύο νέες πολιτικές οι 5

οποίες καθορίζουν την τοποθέτηση των αντιγράφων στους εξυπηρετητές ενός CDN. Τέλος, παρουσιάζεται ένα εργαλείο το οποίο αναπτύχθηκε για την αποτελεσµατική προσοµοίωση των CDNs. Συνοψίζοντας, οι παραπάνω τεχνικές µπορούν να συνδυαστούν και να συµβάλλουν θετικά στην αποτελεσµατική διαχείριση των αντικειµένων του Π.Ι. 6

Extended Abstract The explosve growth of the Web has dramatcally changed the way n whch nformaton s managed and accessed. In partcular, nowadays, the Web has evolved rapdly from a smple nformaton-sharng envronment (offerng only statc text and mages) to a rch framework of dynamc and nteractve servces (such as vdeo/audo conferencng, e-commerce, and dstance learnng). Ths enormous growth and dversty n terms of access devces, bandwdth, nformaton sources, and content has complcated Web data management frameworks and practces. In ths context, the need of varous Web data management technques and mechansms has become oblgatory towards provdng nformaton (that s actually useful to users) and mprovng nformaton crculaton and dssemnaton over the Web. Furthermore, new tools and technques are needed to effectvely manage ths data snce managng Web data wth conventonal tools s becomng almost mpossble. The contrbuton of the dssertaton focuses on the followng subjects. Chapter 3 deals wth the problem of assessng the qualty of user sesson clusters n order to make nferences regardng the users navgaton behavour. Understandng users navgaton on the Web s mportant towards mprovng the qualty of nformaton and the speed of accessng large-scale Web data sources. Clusterng of users navgaton nto sessons has been proposed n order to dentfy patterns and smlartes whch are then managed n the context of Web users orented applcatons (searchng, e-commerce, etc). In ths Chapter, a common model-based clusterng algorthm s used to result n clusters of Web users sessons. These clusters are valdated by usng a statstcal test, whch measures the dstances of the clusters dstrbutons to nfer ther smlarty. Furthermore, a vsualzaton method s proposed n order to nterpret the relaton between clusters. Usng real data sets, t s shown that the proposed analyss s robust and effectve, uncoverng valuable assocatons among Web users navgaton sessons. Chapter 4 deals wth the ssues concerned wth Web data cachng and prefetchng. Frstly, a new cache replacement algorthm s presented, whch dentfes the objects that should be evcted by consderng together three mportant crtera: object s frequency, recency and sze. Expermentaton over a synthetc workload has shown that the proposed algorthm acheves hgher ht rates when compared wth the most wdely-used and recently-proposed algorthms. Then, a clusterng-based prefetchng scheme s presented where a novel clusterng algorthm dentfes clusters of correlated Web objects, wth no need to determne the number of clusters n 7

advance. Ths scheme can be ntegrated easly nto a Web proxy server, mprovng ts performance. Through a smulaton envronment, usng real data set, t s shown that the proposed framework s robust and effectve n reducng the user-perceved latency. Chapter 5 studes some crucal content management ssues for the Content Dstrbuton Networks (CDNs). In general, a CDN s a set of servers (dstrbuted around the world), whch replcate the orgn servers content. A most mportant ssue for a CDN s to dentfy the content that should be outsourced for replcaton to ts servers. In order to address ths ssue, self-adaptve technques are developed, whch requres no apror knowledge of request statstcs. The clusters are dentfed by correlated Web pages n a ste, called Web ste communtes, and make these communtes the basc outsourcng unt. Through a detaled smulaton envronment, usng both real and synthetc data, the proposed technques are proved to be very robust and effectve n reducng the user-perceved latency, performng very close to an unfeasble, off-lne polcy, whch has full knowledge of the content popularty. Another mportant ssue, whch ths Chapter s dealt wth, s to dentfy the optmal placement of the outsourced content to CDN s servers. Takng nto account that ths problem s NP complete, an heurstc method should be developed. All the approaches developed so far ether take as crteron the network s latency or the workload. In ths framework, two novel technques are presented to place the outsourced content to CDN s servers. In the frst one, the outsourced objects are placed to CDN s servers wth respect to the network latency that each object produces, whereas n the second one the objects are placed to these servers by ntegratng both the latency and the load. Through a detaled smulaton envronment, usng both real and synthetc data, t s shown that the proposed methods can mprove sgnfcantly the response tme of requests whle keepng the CDNs servers load at a very low level. Chapter 6 presents a modelng and smulaton framework for CDNs, called CDNsm. CDNsm smulates n great detal the man characterstcs of the CDN nfrastructure model as well as the TCP/IP protocol. The purpose of the CDNsm smulaton tool s to gve a (closely) realstc vew of a CDN envronment whch wll be used as a testbed for CDN evaluaton and expermentaton. Ths s qute useful for both research communty (to experment wth new CDN data management technques) and CDNs developers (to evaluate profts on pror certan CDN nstallatons). Fnally, Chapter 7 concludes ths dssertaton and gves extensons and drectons for future work. 8

Ευχαριστίες Η διατριβή αυτή εκπονήθηκε στο Εργαστήριο Γλωσσών Προγραµµατισµού και Τεχνολογίας Λογισµικού του τµήµατος Πληροφορικής του Αριστοτελείου Πανεπιστηµίου Θεσσαλονίκης, από το Φεβρουάριο του 2002 µέχρι το Μάιο του 2006. Σε αυτό το σηµείο θα ήθελα να εκφράσω τις θερµές και ειλικρινείς ευχαριστίες µου στην επιβλέπουσα της διατριβής µου, Επίκουρη Καθηγήτρια κ. Αθηνά Βακάλη, για την εµπιστοσύνη που µου έδειξε από τα πρώτα χρόνια των προπτυχιακών µου σπουδών µέχρι σήµερα. Με τον απεριόριστο χρόνο που µου διέθεσε και τις χρήσιµες υποδείξεις που µου έκανε κατάφερα να ξεπεράσω τα όποια εµπόδια και να ολοκληρώσω αυτή τη διατριβή. Θα ήθελα επίσης να την ευχαριστήσω καθώς µου έδωσε τη δυνατότητα να συµµετάσχω σε διάφορα ερευνητικά έργα γεγονός που µου προσέφερε πολύτιµη επαγγελµατική εµπειρία αλλά και σηµαντική οικονοµική βοήθεια. Θα ήθελα επίσης να ευχαριστήσω τους Καθηγητές κ. Ιωάννη Μανωλόπουλο, κ. Ανδρέα Ποµπόρτση, και τον εκλιπόντα Καθηγητή Γεώργιο Μπλέρη που διετέλεσαν µέλη της τριµελούς συµβουλευτικής επιτροπής επίβλεψης της διατριβής µου. Πολύ καθοριστική συµβολή στην εκπόνηση της διατριβής µου είχε επίσης ο κ. Ελευθέριος Αγγελής, Επίκουρος Καθηγητής του Τµήµατος Πληροφορικής του ΑΠΘ τόσο σε επίπεδο συµβουλών και καθοδήγησης όσο και σε επίπεδο ερευνητικής συνεργασίας. Επίσης, θα ήθελα ιδιαίτερα να ευχαριστήσω το φίλο και συν-συγγραφέα µου σε κάποιες ερευνητικές εργασίες, ηµήτριο Κατσαρό, ιδάκτορα του Τµήµατος Πληροφορικής του ΑΠΘ, καθώς επίσης και τη φίλη µου Εβηµαρία Τερζή, Υποψήφια ιδάκτορα του Τµήµατος Πληροφορικής του Πανεπιστηµίου στο Ελσίνκι. Οι συζητήσεις µαζί τους σε θέµατα τόσο άµεσου όσο και ευρύτερου ερευνητικού ενδιαφέροντος υπήρξαν ιδιαίτερα εποικοδοµητικές. Θα ήθελα επίσης να ευχαριστήσω για την άψογη ερευνητική συνεργασία τον κ. Γεώργιο Παπαδηµητρίου, Επίκουρο Καθηγητή του Τµήµατος Πληροφορικής του ΑΠΘ, καθώς και τους Υποψήφιους ιδάκτορες του Τµήµατος Πληροφορικής του ΑΠΘ κ. Κωνσταντίνο Στάµο, κ. Αντώνιο Σιδηρόπουλο, κ. Κωνσταντίνα Στούπα και κ. Σοφία Πετρίδου. Ευχαριστώ ιδιαίτερα το ιευθυντή του Εργαστηρίου Γλωσσών Προγραµµατισµού και Τεχνολογίας Λογισµικού του τµήµατος Πληροφορικής ΑΠΘ, Καθηγητή κ. Ιωάννη Βλαχάβα, για την υποστήριξη που µου παρείχε καθώς επίσης και όλα τα µέλη του εργαστηρίου, του οποίου ήµουν µέλος τα έτη κατά τα οποία ανέπτυξα την παρούσα διατριβή. ε θα ήθελα να παραλείψω να εκφράσω τις ευχαριστίες µου προς την Επιτροπή Ερευνών του ΑΠΘ για την τιµή της απονοµής Αριστείου Επίδοσης για το έτος 2002-2003, καθώς επίσης και για τη συµµετοχή µου στο Επιχειρησιακό Πρόγραµµα 9

«Εκπαίδευση και Αρχική Επαγγελµατική Κατάρτιση» (ΕΠΕΑΕΚ) του ΥπΕΠΘ, µέσω του έργου «Ηράκλειτος: Υποτροφίες Έρευνας µε Προτεραιότητα στη Βασική Έρευνα». Τέλος, θα ήθελα να ευχαριστήσω την οικογένεια µου για την ψυχολογική και οικονοµική υποστήριξη που µου παρείχε όλα αυτά τα χρόνια. Η στήριξη της έπαιξε καθοριστικό ρόλο στην προσπάθεια µου να ολοκληρώσω την παρούσα διατριβή. 10

Πίνακας Περιεχοµένων ΕΙΣΑΓΩΓΗ...17 1.1 ΙΑΧΕΙΡΙΣΗ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΟ ΙΑ ΙΚΤΥΟ: Η ΣΗΜΕΡΙΝΗ ΚΑΤΑΣΤΑΣΗ...17 1.2 ΣΥΝΤΟΜΗ ΑΝΑΣΚΟΠΗΣΗ ΤΗΣ ΕΡΕΥΝΗΤΙΚΗΣ ΠΕΡΙΟΧΗΣ...20 1.3 ΣΥΝΕΙΣΦΟΡΑ ΤΗΣ ΙΑΤΡΙΒΗΣ...23 1.4 ΟΜΗ ΤΗΣ ΙΑΤΡΙΒΗΣ...25 ΒΑΣΙΚΕΣ ΈΝΝΟΙΕΣ ΚΑΙ ΤΕΧΝΙΚΕΣ ΙΑΧΕΙΡΙΣΗΣ ΤΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ...27 2.1 ΕΙΣΑΓΩΓΗ...27 2.2 ΠΕΡΙΕΧΟΜΕΝΟ ΚΑΙ ΤΥΠΟΙ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ...29 2.3 ΟΜΑ ΟΠΟΙΗΣΗ ΤΩΝ Ε ΟΜΕΝΩΝ ΤΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ...32 2.4 ΕΝΑΠΟΘΗΚΕΥΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ...35 2.4.1 Παράµετροι επίδοσης για την Ενδιάµεση Μνήµη...37 2.4.2 Παράγοντες Επίδοσης για την Ενδιάµεση Μνήµη...39 2.5 ΠΡΟΑΝΑΚΤΗΣΗ Ε ΟΜΕΝΩΝ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ...40 2.6 ΙΚΤΥΑ ΠΑΡΑ ΟΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ...41 2.7 ΕΠΙΛΟΓΟΣ...45 ΑΝΑΛΥΣΗ ΤΩΝ ΟΜΑ ΩΝ ΣΥΝΟ ΩΝ ΧΡΗΣΤΩΝ ΤΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ...47 3.1 ΕΙΣΑΓΩΓΗ...47 3.2 ΕΠΙΣΚΟΠΗΣΗ ΤΩΝ ΑΛΓΟΡΙΘΜΩΝ ΟΜΑ ΟΠΟΙΗΣΗΣ Ε ΟΜΕΝΩΝ...49 3.2.1 Αλγόριθµοι Οµαδοποίησης βασισµένοι στην Οµοιότητα...49 3.2.2 Αλγόριθµοι Οµαδοποίησης βασισµένοι στα Μοντέλα...51 3.3 ΣΥΝΕΙΣΦΟΡΑ ΤΟΥ ΚΕΦΑΛΑΙΟΥ...54 3.4 Ο ΑΛΓΟΡΙΘΜΟΣ ΟΜΑ ΟΠΟΙΗΣΗΣ...56 3.4.1 Προ-επεξεργασία των εδοµένων...56 3.4.3 Καθορισµός του αριθµού των οµάδων...61 3.5 ΕΠΙΚΥΡΩΣΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΟΜΑ ΟΠΟΙΗΣΗΣ...61 3.5.1 Ο Αλγόριθµος Wclust-V...63 3.6 ΕΡΜΗΝΕΙΑ ΤΩΝ ΟΜΑ ΩΝ ΤΩΝ ΣΥΝΟ ΩΝ ΤΩΝ ΧΡΗΣΤΩΝ...67 3.7 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ...68 3.7.1 Καθορισµός του Αριθµού των Οµάδων...70 3.7.2 Οµαδοποίηση και Επικύρωση των Συνόδων των Χρηστών...72 3.7.3 Ανάλυση των Οµάδων των Συνόδων των Χρηστών...72 3.8 ΕΠΙΛΟΓΟΣ...78 ΤΕΧΝΙΚΕΣ ΕΝΑΠΟΘΗΚΕΥΣΗΣ ΚΑΙ ΠΡΟΑΝΑΚΤΗΣΗΣ Ε ΟΜΕΝΩΝ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ...79 4.1. ΕΙΣΑΓΩΓΗ...79 4.2 ΠΟΛΙΤΙΚΕΣ ΑΝΤΙΚΑΤΑΣΤΑΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΝΑΠΟΘΗΚΕΥΣΗΣ...81 4.2.1 Σχετικές Εργασίες...81 4.2.2 ιατύπωση του Προβλήµατος Εναποθήκευσης...84 4.2.3 Ο Αλγόριθµος FRES-CAR...85 4.2.4 Πειραµατική Αξιολόγηση...92 4.3 ΠΡΟΑΝΑΚΤΗΣΗ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ...101 4.3.1 Σχετικές Εργασίες...101 4.3.2 Ο Αλγόριθµος ClustWeb...103 4.3.3 Εφαρµογή του ClustWeb σε ένα σχήµα Προανάκτησης...108 4.4 ΕΠΙΛΟΓΟΣ...113 11

ΤΕΧΝΙΚΕΣ ΙΑΧΕΙΡΙΣΗΣ ΤΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΑ ΙΚΤΥΑ ΠΑΡΑ ΟΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ (CDNS)...115 5.1 ΕΙΣΑΓΩΓΗ...115 5.2 ΤΕΧΝΙΚΕΣ ΙΑΧΕΙΡΙΣΗΣ ΤΟΥ ΦΟΡΤΟΥ ΕΡΓΑΣΙΑΣ ΣΤΑ ΙΚΤΥΑ ΠΑΡΑ ΟΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ...117 5.3 ΠΕΡΙΕΧΟΜΕΝΟ ΚΑΙ ΤΕΧΝΙΚΕΣ ΟΜΑ ΟΠΟΙΗΣΗΣ ΣΤΑ ΠΛΑΙΣΙΑ ΕΝΟΣ ΙΚΤΥΟΥ ΠΑΡΑ ΟΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ...122 5.3.1 Κοινότητες στον Παγκόσµιο Ιστό...125 5.3.2 Ο Αλγόριθµος C3...127 5.4 ΥΠΟΣΤΗΡΙΞΗ ΑΝΤΙΓΡΑΦΩΝ ΣΤΑ ΠΛΑΙΣΙΑ ΕΝΟΣ ΙΚΤΥΟΥ ΠΑΡΑ ΟΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ...135 5.4.1 ιατύπωση του Προβλήµατος...135 5.4.2 Ο Αλγόριθµος Lat-cdn...137 5.4.3 Ο Αλγόριθµος l2p...138 5.5 ΠΕΡΙΒΑΛΛΟΝ ΠΡΟΣΟΜΟΙΩΣΗΣ...140 5.6 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ...143 5.6.1 Αποτελέσµατα απόδοσης του C3 Αλγορίθµου...143 5.6.2 Αποτελέσµατα Απόδοσης των Αλγορίθµων Lat-cdn και l2p...152 5.7 ΕΠΙΛΟΓΟΣ...155 CDNSIM: ΕΡΓΑΛΕΙΟ ΠΡΟΣΟΜΟΙΩΣΗΣ ΓΙΑ ΙΚΤΥΑ ΠΑΡΑ ΟΣΗΣ ΠΕΡΙΕΧΟΜΕΝΟΥ...157 6.1 ΕΙΣΑΓΩΓΗ...157 6.2 ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ...158 6.3 ΚΙΝΗΤΡΟ ΚΑΙ ΣΥΝΕΙΣΦΟΡΑ ΤΟΥ ΚΕΦΑΛΑΙΟΥ...160 6.4 ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΟΥ CDNSIM...162 6.4.1 Τοπολογία ικτύου...162 6.4.2 Οι Ενότητες του CDNsm...163 6.4.3 Μοντελοποίηση των ίσκων στους CDN Εξυπηρετητές...164 6.5 ΠΡΩΤΟΚΟΛΛΟ ΕΠΙΚΟΙΝΩΝΙΑΣ...167 6.5.1 Προσοµοιώνοντας το IP Πρωτόκολλο...167 6.5.2 Προσοµοιώνοντας το TCP Πρωτόκολλο...172 6.5.3 Επικοινωνία Πελάτης CDN Εξυπηρετητής...172 6.7 ΙΕΠΑΦΕΣ ΤΟΥ CDNSIM...177 6.8 ΕΠΙΛΟΓΟΣ...181 ΕΠΙΛΟΓΟΣ...183 7.1 ΣΥΜΠΕΡΑΣΜΑΤΑ...183 7.2. ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ...186 12

Κατάλογος Σχηµάτων Σχήµα 1.1 ιαχείριση Αντικειµένων στον Π.Ι.... 19 Σχήµα 2.1 Αρχεία Καταγραφής στον Εξυπηρετητή του Π.Ι.... 30 Σχήµα 2.2 Αρχεία Καταγραφής σε Πληρεξούσιο Εξυπηρετητή... 30 Σχήµα 2.3 Τα ύο Σχήµατα Εναποθήκευσης στα Πλαίσια του Π.Ι... 36 Σχήµα 2.4 Μία Γενική Απεικόνιση ενός CDN... 43 Σχήµα 3.1 ενδρόγραµµα Ιεραρχικής Οµαδοποίησης... 51 Σχήµα 3.2 Παράδειγµα Οµαδοποίησης βασισµένο σε Μοντέλα... 53 Σχήµα 3.3 Το Προτεινόµενο Πλαίσιο Εργασίας... 56 Σχήµα 3.4 Απεικόνιση µίας Μαρκοβιανής Αλυσίδας από ένα Πίνακα Μετάβασης... 60 Σχήµα 3.5 Ο Αλγόριθµος Wclust-V... 66 Σχήµα 3.6 Ο Αριθµός των Οµάδων για το msnbc Σύνολο εδοµένων... 70 Σχήµα 3.7 Ο Αριθµός των Οµάδων για το csd Σύνολο εδοµένων... 70 Σχήµα 3.8 Γράφηµα συσχετίσεων των οµάδων για το msnbc σύνολο δεδοµένων... 73 Σχήµα 3.9 Γράφηµα Συσχετίσεων των Οµάδων για το csd Σύνολο εδοµένων... 74 Σχήµα 3.10 Γράφηµα Συσχετίσεων των Κατηγοριών των Αντικειµένων για το msnbc Σύνολο εδοµένων... 75 Σχήµα 3.11 Γράφηµα Συσχετίσεων των Κατηγοριών των Αντικειµένων για το csd Σύνολο εδοµένων... 76 Σχήµα 3.12 Το Ποσοστό της Συχνότητας Ζήτησης των Κατηγοριών των Αντικειµένων ανά Οµάδα για το msnbc Σύνολο εδοµένων... 77 Σχήµα 3.13 Το Ποσοστό της Συχνότητας Ζήτησης των Κατηγοριών των Αντικειµένων ανά Οµάδα για το csd Σύνολο εδοµένων... 77 Σχήµα 4.1 Η ιαδικασία Κατάτµησης της Ενδιάµεσης Μνήµης... 87 Σχήµα 4.2 H οµή της Λίστας κάθε Τµήµατος της Ενδιάµεσης Μνήµης... 89 Σχήµα 4.3 Ο Αλγόριθµος FRES-CAR... 90 Σχήµα 4.4 Το HR της FRES-CAR σε συνάρτηση µε τα Αντικείµενα µίας Αναφοράς... 96 Σχήµα 4.5 Το ΒHR της FRES-CAR σε συνάρτηση µε τα αντικείµενα µίας αναφοράς.. 96 Σχήµα 4.6 Το HR της FRES-CAR σε συνάρτηση µε την Κύρτωση... 96 Σχήµα 4.7 Το BHR της FRES-CAR σε συνάρτηση µε την Κύρτωση... 98 Σχήµα 4.8 Το HR της FRES-CAR σε συνάρτηση µε τα Μοναδικά Αναφερόµενα Αντικείµενα... 98 Σχήµα 4.9 Το BHR της FRES-CAR σε συνάρτηση µε τα Μοναδικά Αναφερόµενα Αντικείµενα... 98 Σχήµα 4.10 Το HR της FRES-CAR σε Πραγµατικά εδοµένα... 100 Σχήµα 4.11 Το ΒHR της FRES-CAR σε Πραγµατικά εδοµένα... 100 Σχήµα 4.12 Παράδειγµα ηµιουργίας ενός Γράφου ιάσχισης... 105 Σχήµα 4.13 Ο Αλγόριθµος clustweb... 106 13

Σχήµα 4.14 Ο Αλγόριθµος BFS... 107 Σχήµα 4.15 Το Προτεινόµενο Σχήµα Προανάκτησης... 108 Σχήµα 4.16 Σύγκριση των Πολιτικών Αντικατάστασης σε σχέση µε το Προτεινόµενο Σχήµα Προανάκτησης αναφορικά µε το HR... 111 Σχήµα 4.17 Σύγκριση των Πολιτικών Αντικατάστασης σε σχέση µε το Προτεινόµενο Σχήµα Προανάκτησης αναφορικά µε το BHR... 112 Σχήµα 5.1 Η Τυπική ιαδικασία Μεταφοράς Περιεχοµένου σε ένα CDN... 119 Σχήµα 5.2 Κοινότητες στο http://www.hollns.edu ιαδικτυακό Τόπο... 124 Σχήµα 5.3 Ένα Παράδειγµα µε τις Κοινότητες του Π.Ι... 127 Σχήµα 5.4 Ο C3 Αλγόριθµος... 130 Σχήµα 5.5 Ένας Κατευθυνόµενος Γράφος µε 5 Κόµβους και 5 Ακµές... 131 Σχήµα 5.6 Ο Lat-cdn Αλγόριθµος... 138 Σχήµα 5.7 Ο l2p Αλγόριθµος... 140 Σχήµα 5.8 Μέσος Χρόνος Απόκρισης για Αραιούς Γράφους... 147 Σχήµα 5.9 Μέσος Χρόνος Απόκρισης για Μέτριους Γράφους... 148 Σχήµα 5.10 Μέσος Χρόνος Απόκρισης για Πυκνούς Γράφους... 149 Σχήµα 5.11 Μέσος Χρόνος Απόκρισης για τον Stanford Γράφο... 151 Σχήµα 5.12 Μέσοι Χρόνοι Απόκρισης για Μέσης Πυκνότητας Γράφους... 153 Σχήµα 5.13 Μέσοι Χρόνοι Απόκρισης σε ένα Πραγµατικό ιαδικτυακό Τόπο... 154 Σχήµα 6.1 Η Τυπική Τοπολογία ικτύου ενός CDN... 161 Σχήµα 6.2 Η Αρχιτεκτονική του CDNsm... 162 Σχήµα 6.3 Ένα Bloom Φίλτρο µε 4 Συναρτήσεις Κατακερµατισµού... 165 Σχήµα 6.4 Ο IP Αλγόριθµος ροµολόγησης στα πλαίσια του CDNsm... 171 Σχήµα 6.5 CDNsm vs. ns-2... 176 Σχήµα 6.7CDNsm GUI: Το Κουµπί Detals... 177 Σχήµα 6.8CDNsm GUI: Η I/O Ετικέτα... 178 Σχήµα 6.9CDNsm GUI: Η Advanced Ετικέτα... 179 Σχήµα 6.10 CDNsm GUI: Η Results ετικέτα... 180 Σχήµα 6.11CDNsm GUI: Η Errors/Warnngs Ετικέτα... 180 14

Κατάλογος Πινάκων Πίνακας 2.1 Μεταβλητές Κεφαλαίου και Περιγραφή τους... 29 Πίνακας 2.2 Εφαρµογές στον Π.Ι. και Τεχνικές Οµαδοποίησης... 34 Πίνακας 3.1 Μια Σύνοψη των Μεθόδων για Οµαδοποίηση των Συνόδων των Χρηστών... 53 Πίνακας 3.2 Μεταβλητές Κεφαλαίου και Περιγραφή τους... 58 Πίνακας 3.3 Πίνακας Μετάβασης... 60 Πίνακας 3.4 Πίνακας Συνάφειας... 64 Πίνακας 3.5 Οι Κατηγορίες των Ανατικειµένων για το msnbc Σύνολο εδοµένων... 69 Πίνακας 3.6 Οι Κατηγορίες των Αντικειµένων για το csd Σύνολο εδοµένων... 69 Πίνακας 3.7 Πίνακας Συνάφειας για το msnbc Σύνολο εδοµένων... 71 Πίνακας 3.8 Πίνακας Συνάφειας για το csd Σύνολο εδοµένων... 71 Πίνακας 3.9 Τα Αποτελέσµατα του 2 χ Τεστ... 72 Πίνακας 4.1 Μεταβλητές Κεφαλαίου και Περιγραφή τους... 81 Πίνακας 4.2 Παράµετροι Εισόδου στο Εργαλείο ProWGen... 94 Πίνακας 4.3 Κέρδη Ζηµίες του FRES-CAR σε σχέση µε το γ-lru... 99 Πίνακας 5.1 ηµοφιλείς Παροχείς CDN... 117 Πίνακας 5.2 Τα Βασικά Χαρακτηριστικά των Πολιτικών ιαχείρισης του Περιεχοµένου στα CDNs... 121 Πίνακας 5.3 Προσδιορισµός του ιαθέσιµου Περιεχοµένου: Πίνακας συµβόλων... 125 Πίνακας 5.4 Υποστήριξη Αντιγράφων στα πλαίσια ενός CDN: Πίνακας Συµβόλων... 137 Πίνακας 5.5 Κέρδη-Ζηµίες του C3-PR αναφορικά µε τον Παράγοντα Αντιγράφων... 150 Πίνακας 5.6 Κέρδη-Ζηµίες του C3-PR αναφορικά µε τον Παράγοντα Αντιγράφων... 151 Πίνακας 6.1 Το IP Πακέτο εδοµένων (datagram) στο CDNsm... 166 Πίνακας 6.2 Το TCP Πακέτο εδοµένων στο CDNsm... 170 15

16

Κεφάλαιο 1: Εισαγωγή Κεφάλαιο 1 Εισαγωγή 1.1 ιαχείριση Αντικειµένων στο ιαδίκτυο: Η Σηµερινή Κατάσταση... 17 1.2 Σύντοµη Ανασκόπηση της Ερευνητικής Περιοχής... 20 1.3 Συνεισφορά της ιατριβής... 23 1.4 οµή της ιατριβής... 25 1.1 ιαχείριση Αντικειµένων στο ιαδίκτυο: Η Σηµερινή Κατάσταση Το ιαδίκτυο 1 (Internet) έχει αναδειχθεί σήµερα σε έναν από τους πιο αποδοτικούς φορείς επικοινωνίας και µάθησης τόσο για επιχειρήσεις / οργανισµούς όσο και για καταναλωτές / πολίτες (π.χ. ηλεκτρονικό εµπόριο, ηλεκτρονική εκπαίδευση). Η δηµοτικότητα του Παγκόσµιου Ιστού (Π.Ι.) 2 (World Wde Web ή WWW ή Web) οφείλεται στην ευκολία χρήσης του, στη διαθεσιµότητα του τεράστιου όγκου πληροφορίας που παρέχει αλλά και στη διαφάνεια χρήσης του. Επίσης η δυνατότητα του να µεταφέρει σε όλο τον κόσµο άµεσα, δυναµικά, κατανεµηµένα, ετερογενή και ηµι-δοµηµένα δεδοµένα συνέβαλε θετικά στην ανάπτυξη του. Αυτό το γεγονός έχει ως αποτέλεσµα τόσο την αυξηµένη κατανάλωση του εύρους ζώνης του δικτύου (bandwdth) κατά τη µεταφορά της προσφερόµενης πληροφορίας, όσο και την αύξηση του φόρτου εργασίας των εξυπηρετητών του Π.Ι. (Web servers). 1 Ένα µεγάλης κλίµακας δίκτυο πολλών διαφορετικών διασυνδεόµενων υπολογιστών οι οποίοι επικοινωνούν µεταξύ τους µε ένα κοινό πρωτόκολλο επικοινωνίας. 2 Ο Π.Ι. είναι το µέσο για την ανάκτηση της πληροφορίας που διατίθεται µέσω του ιαδικτύου. 17

1.1 ιαχείριση Αντικειµένων στο ιαδίκτυο: Η Σηµερινή Κατάσταση Σήµερα η οικονοµική και κοινωνική ανάπτυξη όλων των κρατών στηρίζονται κατά το µεγαλύτερο µέρος τους στην ύπαρξη (αλλά και στην εξέλιξη) του ιαδικτύου. Πολλές συναλλαγές οικονοµικής φύσεως πραγµατοποιούνται σε πολλές χώρες αποκλειστικά µέσω του Π.Ι. (π.χ. χρηµατιστηριακές συναλλαγές, υποβολή φορολογικών δηλώσεων κ.λ.π.). Από τα παραπάνω είναι προφανές ότι οι χρήστες του ιαδικτύου αντιµετωπίζουν καθηµερινά µεγάλους χρόνους απόκρισης κατά την εξυπηρέτηση των αιτηµάτων τους. Χωρίς τη λήψη αποτελεσµατικών µεθόδων, το ιαδίκτυο κινδυνεύει να γίνει θύµα της ίδιας του της επιτυχίας. Για να αντιµετωπιστεί το πρόβληµα επίδοσης του Π.Ι. θα µπορούσε να αυξηθεί το εύρος ζώνης του ιαδικτύου. Αυτή η λύση όµως δεν είναι επιθυµητή λόγω της σηµαντικής οικονοµικής επιβάρυνσης που επιφέρει η υλοποίηση και η συντήρηση ενός τέτοιου δικτύου. Την τελευταία πενταετία σηµαντική ερευνητική προσπάθεια έχει αφιερωθεί στην ανεύρεση µεθοδολογιών και τεχνικών που θα συνεισφέρουν στην αποδοτική αναπαράσταση, αποθήκευση και ανεύρεση των αντικειµένων στο ιαδίκτυο. Στόχος αυτής της προσπάθειας είναι η βελτίωση της επίδοσης του Π.Ι. όσον αφορά στους χρόνους απόκρισης της προσφερόµενης πληροφορίας [Bald et. al., 2003; Chakrabart, 2002; Rabnovch et. al., 2002]. Ο Π.Ι. αποτελεί µία παγκόσµια πηγή πληροφοριών και αντικειµένων παρέχοντας ένα ευρύ φάσµα από υπηρεσίες οι οποίες είναι ιδιαίτερα δηµοφιλείς και αφορούν τόσο σε επιχειρήσεις / οργανισµούς όσο και σε καταναλωτές / πελάτες. Με τον όρο αντικείµενα στον Π.Ι. θεωρείται η πληροφορία που παρέχεται µε τη µορφή: Ηµι-δοµηµένων εγγράφων (π.χ., αρχεία τύπου HTML), οµηµένων εγγράφων (π.χ., αρχεία τύπου XML), ιάφορων τύπων (πολυµεσικών και µη) αρχείων (π.χ., pdf, jpg, wmf) που αποθηκεύονται στους διάφορους εξυπηρετητές του Π.Ι., Αρχείων καταγραφής της κίνησης των πελατών στο ιαδίκτυο. Κατά την επίσκεψη ενός πελάτη σε ένα ιαδικτυακό τόπο 3 (Web ste), η κίνηση του καταγράφεται τόσο στον εξυπηρετητή του Π.Ι. στον οποίο φιλοξενείται ο ιαδικτυακός τόπος όσο και στους πιθανούς πληρεξούσιους εξυπηρετητές (proxy servers). 3 Ένας ιαδικτυακός τόπος ορίζει ένα σύνολο από αντικείµενα τα οποία αποθηκεύονται σε ένα εξυπηρετητή του Π.Ι., τα οποία είναι προσβάσιµα στους πελάτες µέσω µία IP διεύθυνσης. 18

Κεφάλαιο 1: Εισαγωγή Σχήµα 1.1 ιαχείριση Αντικειµένων στον Π.Ι. Η υιοθέτηση αποτελεσµατικών πρακτικών για την αποδοτική διαχείριση των παραπάνω αντικειµένων αποτελεί τη βάση για την ανάπτυξη αποδοτικών, προσωποποιηµένων ιαδικτυακών υπηρεσιών. Η επέκταση των υπαρχουσών τεχνικών καθώς επίσης και η υιοθέτηση νέων τεχνικών και µεθοδολογιών συµβάλλουν θετικά στην αποτελεσµατική διαχείριση των αντικειµένων του Π.Ι., µε κύριο στόχο να βελτιωθεί η ποιότητα των υπηρεσιών (Qualty of Servce QoS) που παρέχει το ιαδίκτυο στους πελάτες του. Στην παρούσα διατριβή εξετάζονται καινοτόµοι µέθοδοι διαχείρισης των αντικειµένων από τους εξυπηρετητές προς τους τελικούς χρήστες καθώς και τεχνικές οµαδοποίησης των χρηστών στους ιαδικτυακούς τόπους. Συγκεκριµένα, εξετάζονται οι παρακάτω τρέχουσες µεθοδολογίες-τεχνικές: Η οµαδοποίηση (clusterng) των πελατών ενός ιαδικτυακού τόπου, µε βάση τη συµπεριφορά της πλοήγησης τους. Η εναποθήκευση (cachng) των αντικειµένων από την πλευρά του χρήστη, δηλαδή η αποθήκευση των αντικειµένων σε πληρεξούσιους εξυπηρετητές. Η προανάκτηση (prefetchng) αντικειµένων για µελλοντική χρήση, δηλαδή η ανάκτηση των αντικειµένων στους πληρεξούσιους εξυπηρετητές προτού αιτηθούν από τους χρήστες. Τεχνικές διαχείρισης των αντικειµένων του Π.Ι. µέσω των ικτύων Παράδοσης του Περιεχοµένου (Content Dstrbuton Networks ή Content Delvery Networks ή CDNs). 19

1.1 ιαχείριση Αντικειµένων στο ιαδίκτυο: Η Σηµερινή Κατάσταση Τα παραπάνω θεµατικά αντικείµενα µπορούν να συνδυαστούν και να συντελέσουν στη βελτίωση της επίδοσης του Π.Ι. Στο Σχήµα 1.1 παρουσιάζονται οι τεχνικές που έχουν εφαρµοστεί στο περιβάλλον του Π.Ι. για να διαχειριστούν αποτελεσµατικά το (συνεχώς) αυξανόµενο αριθµό αντικειµένων αλλά και τη (συνεχώς) αυξανόµενη κυκλοφορία των πελατών στο ιαδίκτυο. Στο Σχήµα αυτό φαίνεται ότι η επικοινωνία µεταξύ πελάτη - πηγαίου εξυπηρετητή γίνεται µέσω ενός πληρεξούσιου εξυπηρετητή. Συγκεκριµένα, ένας πληρεξούσιος εξυπηρετητής βρίσκεται συνήθως σε κάθε παροχέα υπηρεσιών του ιαδικτύου (Internet Servce Provder - ISP). Ανάλογα µε τα αιτήµατα των πελατών του εκάστοτε πληρεξούσιου εξυπηρετητή, κάποια από τα αντικείµενα που ζητήθηκαν αποθηκεύονται στο δίσκο του για µελλοντική χρήση (εναποθήκευση), ενώ κάποια άλλα αντικείµενα µπορεί να ανακτηθούν από τους πηγαίους εξυπηρετητές (orgn servers) προτού ζητηθούν από τους πελάτες (προανάκτηση). Επίσης, ο πηγαίος εξυπηρετητής µπορεί να συνεργαστεί µε ένα CDN. Το CDN παρέχει, µέσω των εξυπηρετητών του, αντίγραφα των αντικείµενων του πηγαίου εξυπηρετητή µε τον οποίο συνεργάζεται πιο κοντά στους χρήστες. Σε αυτό το πλαίσιο, η εναποθήκευση, η προανάκτηση και τα CDNs συµβάλλουν θετικά στη βελτίωση της επίδοσης της προσπέλασης των αντικειµένων στο ιαδίκτυο. Από την πλευρά του πηγαίου εξυπηρετητή, τα αντικείµενα που είναι αποθηκευµένα σε αυτόν µπορούν να οµαδοποιηθούν µε βάση είτε το περιεχόµενο τους είτε τη συµπεριφορά πλοήγησης των επισκεπτών του, βελτιώνοντας τη διαδικασία αναζήτησης της πληροφορίας στον Π.Ι. Στόχος της παρούσας διατριβής είναι η µελέτη καθώς και η επέκταση των παραπάνω τεχνικών για την αποτελεσµατική διαχείριση των αντικειµένων στο ιαδίκτυο. Επιπλέον, ένας ακόµα στόχος είναι η ανάπτυξη νέων εργαλείων για την αποτελεσµατική διαχείριση των αντικειµένων δεδοµένου ότι η διαχείριση µε συµβατικά εργαλεία είναι σχεδόν αδύνατη. 1.2 Σύντοµη Ανασκόπηση της Ερευνητικής Περιοχής Η ραγδαία ανάπτυξη του ιαδικτύου καθώς επίσης και η δηµοτικότητα των υπηρεσιών του δηµιούργησαν νέες απαιτήσεις. Οι παλαιότερες τεχνικές διαχείρισης αντικειµένων αποδείχθηκαν µη αποτελεσµατικές και πολλές από αυτές θεωρούνται πλέον ξεπερασµένες [Rabnovch & Spatscheck, 2002]. Σε αυτό το πλαίσιο, η εύρεση νέων τεχνικών διαχείρισης των αντικειµένων του Π.Ι. αποτελεί µία από τις µεγαλύτερες προκλήσεις στην ερευνητική κοινότητα. Νέες µεθοδολογίες έχουν προταθεί για την αποτελεσµατική διαχείριση των αντικειµένων στον Π.Ι., αναπτύσσοντας είτε νέα σχήµατα οµαδοποίησης, είτε νέες τεχνικές διάχυσης και ανεύρεσης της πληροφορίας: 20

Κεφάλαιο 1: Εισαγωγή Ανάπτυξη νέων σχηµάτων οµαδοποίησης των αντικειµένων του Π.Ι.: Τα αντικείµενα του Π.Ι. οµαδοποιούνται µε βάση κάποια κύρια παράµετρο ή χαρακτηριστικό τους όπως: τη δηµοτικότητα, τη δοµή, ή το περιεχόµενο, ώστε να διευκολυνθεί η διαθεσιµότητα των αντικειµένων, η προσπέλαση τους, αλλά και να ικανοποιηθούν οι προτιµήσεις των πελατών. Παρότι υπάρχει στη βιβλιογραφία ένα πλήθος από αλγορίθµους οµαδοποίησης για συµβατικά δεδοµένα [Chakrabart, 2002; Jan et. al., 2001], οι ιδιαιτερότητες των αντικειµένων του Π.Ι. (ηµι-δοµηµένα ή µη δοµηµένα δεδοµένα) έχουν ως αποτέλεσµα οι υπάρχουσες προσεγγίσεις να θεωρούνται αναποτελεσµατικές. Σε αυτό το πλαίσιο, ιδιαίτερη έµφαση έχει δοθεί στην ανάπτυξη νέων τεχνικών για την κατηγοριοποίηση και την οµαδοποίηση αυτών των αντικειµένων. Η έρευνα εστιάζεται στη µοντελοποίηση και στην αναπαράσταση των αντικειµένων του Π.Ι. µε χρήση σύγχρονων προτύπων για το περιβάλλον του ιαδικτύου. Νέοι αλγόριθµοι οµαδοποίησης έχουν προταθεί όπου τα αντικείµενα ενός ιαδικτυακού τόπου οµαδοποιούνται είτε µε βάση το περιεχόµενο τους είτε µε βάση τις προτιµήσεις των πελατών [Cadez et. al., 2003; Bald et. al., 2003; Palls et. al., 2005; Vakal et. al, 2004]. Ανάπτυξη νέων τεχνικών διάχυσης των αντικειµένων του Π.Ι.: Η έρευνα έχει επικεντρωθεί στην ανάπτυξη νέων τεχνικών διάχυσης των αντικειµένων σε ιαδικτυακά περιβάλλοντα. Ιδιαίτερη έµφαση δίνεται στην εναποθήκευση [Arltt, 2000] και στην προανάκτηση [Yang & Zang, 2003] των αντικειµένων στα πλαίσια του Π.Ι. Συγκεκριµένα, η παρουσία των ενδιάµεσων µνηµών (δηλαδή η προσωρινή αποθήκευση των αντικειµένων του ιαδικτύου πιο κοντά στον τελικό χρήστη) βελτιώνει σηµαντικά την επίδοση του Π.Ι. [Palls et al, 2003; Vakal, 2001]. Η έρευνα επίσης εστιάζεται σε τεχνικές παράδοσης περιεχοµένου (content delvery) [Palls & Vakal, 2006]. Αυτές οι τεχνικές βελτιώνουν την επίδοση του Π.Ι. µετατοπίζοντας το φόρτο εργασίας από τους πηγαίους εξυπηρετητές. Επίσης, νέες αποτελεσµατικές πολιτικές προτείνονται µε σκοπό να βελτιωθεί η ποιότητα υπηρεσιών των πελατών στο ιαδίκτυο: Εναποθήκευση στον Π.Ι.: Η υποστήριξη ενδιάµεσης µνήµης στον Π.Ι. υλοποιείται σε (µεγάλης κλίµακας) πληρεξούσιους εξυπηρετητές. Οι πληρεξούσιοι εξυπηρετητές τοποθετούνται συνήθως στους ISPs. Η έννοια της εναποθήκευσης έχει διεξοδικά εξεταστεί στο πλαίσιο των λειτουργικών συστηµάτων [Tanenbaum & Woodhull, 2006], των συστηµάτων αρχείων και των βάσεων δεδοµένων. Βέβαια, ο Π.Ι. εισήγαγε νέες ιδιαιτερότητες που δεν υπάρχουν στα παραπάνω συστήµατα. Ειδικότερα, τα αιτήµατα στα αντικείµενα του Π.Ι. 21

1.2 Σύντοµη Ανασκόπηση της Ερευνητικής Περιοχής πραγµατοποιούνται από εκατοµµύρια χρήστες και δε µπορούν να προβλεφθούν, ενώ ο µεγαλύτερος φόρτος από αιτήµατα σε ένα λειτουργικό σύστηµα παράγεται συνήθως από έναν αριθµό προγραµµατιζόµενων διαδικασιών. Επίσης, στον Π.Ι. τα αντικείµενα ποικίλουν στο µέγεθος και στη µορφή τους ενώ τα λειτουργικά συστήµατα έχουν συνήθως ισοµεγέθεις οντότητες (π.χ. σελίδες µνήµης). Τέλος, το µεγαλύτερο ποσοστό των αιτηµάτων στο ιαδίκτυο είναι για ανάγνωση, σε αντίθεση µε τα λειτουργικά συστήµατα ή τις βάσεις δεδοµένων που τα αιτήµατα που προκύπτουν είναι τόσο για εγγραφή όσο και για ανάγνωση. Οι ιδιαιτερότητες της δοµής του Π.Ι. αλλά και η ποικιλοµορφία των αντικειµένων του έχουν ως αποτέλεσµα να απαιτούνται νέα (προσαρµοσµένα στις απαιτήσεις των πελατών) σχήµατα ενδιάµεσης µνήµης ώστε να καλύπτουν τις αυξανόµενες ανάγκες των πελατών του. H έρευνα εστιάζεται στην ανάπτυξη νέων αρχιτεκτονικών ενδιάµεσης µνήµης καθώς επίσης και νέων πολιτικών για τη διαχείριση των αντικειµένων που διακινούνται στο ιαδίκτυο [Arltt, 2000; Katsaros & Manolopoulos, 2004; Podlplng & Boszormeny, 2003; Vakal, 2001; Wllamson, 2002]. Προανάκτηση: Η προανάκτηση βασίζεται στην εναποθήκευση µε στόχο τη µείωση του χρόνου καθυστέρησης που αντιλαµβάνονται οι χρήστες κατά την πλοήγηση τους στον Π.Ι. Σε αντίθεση µε την εναποθήκευση, µε την προανάκτηση τα αντικείµενα αποκτούνται εκ των προτέρων από τον πηγαίο εξυπηρετητή, τα οποία αποθηκεύονται στον πληρεξούσιο εξυπηρετητή. Έτσι, αν αυτά ζητηθούν στο άµεσο µέλλον το αίτηµα θα µπορεί να ικανοποιηθεί άµεσα από τον εκάστοτε πληρεξούσιο εξυπηρετητή. Είναι σηµαντικό η τεχνική της προανάκτησης να λαµβάνει υπόψη την επιβάρυνση του δικτύου που θα προκληθεί από µία τέτοια ενέργεια. Η έρευνα εστιάζεται κυρίως στην ανάπτυξη αποδοτικών αλγορίθµων προανάκτησης σε ιαδικτυακά περιβάλλοντα [Nanopoulos et. al., 2003; Yang & Zang, 2003]. ίκτυα Παράδοσης Περιεχοµένων (CDNs): Tα CDNs είναι δίκτυα από εξυπηρετητές που βρίσκονται σε διάφορες τοποθεσίες σε ολόκληρο τον κόσµο και κρατούν αντίγραφα (replcas) από το περιεχόµενο των εξυπηρετητών του Π.Ι. Με αυτό τον τρόπο, το περιεχόµενο βρίσκεται πιο κοντά στο χρήστη µειώνοντας δραστικά την κυκλοφορία στο δίκτυο, καθώς επίσης και τους χρόνους προσπέλασης της προσφερόµενης πληροφορίας. Λόγω της υψηλής ποιότητας υπηρεσιών που προσφέρουν, 22

Κεφάλαιο 1: Εισαγωγή τα CDNs έχουν γνωρίσει µεγάλο ερευνητικό ενδιαφέρον. Συγκεκριµένα, η έρευνα εστιάζεται στην τοπολογία των εξυπηρετητών, στην αρχιτεκτονική τους και στην επιλογή του περιεχοµένου που θα αντιγραφεί στους εξυπηρετητές [Palls & Vakal, 2006]. Νέες τεχνικές και µεθοδολογίες προτείνονται για την αποτελεσµατικότερη διαχείριση των περιεχοµένων τους (π.χ., η τοπολογία των εξυπηρετητών στο ίκτυο, η επιλογή του περιεχοµένου που θα αντιγραφεί στους εξυπηρετητές κ.λ.π.) [Chen et. al, 2003;Palls et. al, 2006]. 1.3 Συνεισφορά της ιατριβής Η παρούσα διατριβή πραγµατεύεται ένα σύνολο τεχνικών για την αποτελεσµατικότερη διαχείριση των αντικειµένων στον Π.Ι., µε κίνητρο να ελαττωθεί η καθυστέρηση πρόσβασης των πελατών στις προσφερόµενες υπηρεσίες. Πιο συγκεκριµένα, σε αυτή τη διατριβή το ενδιαφέρον εστιάζεται στην ανάλυση των οµάδων των πελατών ενός ιαδικτυακού τόπου, καθώς επίσης και στις τεχνικές της εναποθήκευσης, της προανάκτησης και της υποστήριξης αντιγράφων (replcaton). Οι κυριότερες συνεισφορές της διατριβής συνοψίζονται στα ακόλουθα: Ανάπτυξη µίας νέας προσέγγισης για την ανάλυση των οµάδων των πελατών σε ένα ιαδικτυακό τόπο: Προτείνεται ένας νέος αλγόριθµος επικύρωσης για τις οµάδες των πελατών ενός ιαδικτυακού τόπου. Επίσης, παρουσιάζεται µία στατιστική µέθοδος η οποία προσδιορίζει χρήσιµες συσχετίσεις µεταξύ των πελατών και των αντικειµένων του Π.Ι., συµπεριλαµβάνοντας µία καινοτοµική προσέγγιση για την αποτελεσµατικότερη απεικόνιση τους. Ανάπτυξη µίας πολιτικής αντικατάστασης των περιεχοµένων της ενδιάµεσης µνήµης (cache replacement) σε «συµβατικά» περιβάλλοντα του Π.Ι.: Η προτεινόµενη πολιτική σχεδιάστηκε συνδυάζοντας τρία σηµαντικά κριτήρια (τη συχνότητα ζήτησης των αντικειµένων, το µέγεθός τους και την πρόσφατη αναφορά τους). Λόγω των χαρακτηριστικών της, η συγκεκριµένη πολιτική επιτυγχάνει τα πλεονεκτήµατα των υπαρχουσών πολιτικών αντικατάστασης χωρίς να παρουσιάζει τα µειονεκτήµατά τους. Η απόδοσή της εξετάζεται πειραµατικά. Τα συγκριτικά αποτελέσµατα υποδηλώνουν την ανωτερότητα της προτεινόµενης πολιτικής. Επινόηση µίας νέας τεχνικής προανάκτησης των αντικειµένων στα πλαίσια του Π.Ι.: Η προανάκτηση δρα συµπληρωµατικά στην εναποθήκευση και σκοπό έχει να προβλέψει τα µελλοντικά αιτήµατα των πελατών, αποστέλλοντας τα ζητούµενα αντικείµενα στον πληρεξούσιο εξυπηρετητή πριν αυτά ζητηθούν. 23

1.3 Συνεισφορά της ιατριβής Συγκεκριµένα, αναπτύχθηκε ένας νέος αλγόριθµος οµαδοποίησης των αντικειµένων του ιαδικτύου ο οποίος καθορίζει ποια αντικείµενα θα ανακτηθούν στον πληρεξούσιο εξυπηρετητή πριν οι πελάτες ζητήσουν αυτά τα αντικείµενα. Η συγκεκριµένη πολιτική ενσωµατώνεται µε την εκάστοτε πολιτική αντικατάστασης ενός πληρεξούσιου εξυπηρετητή δηµιουργώντας ένα νέο περιβάλλον εναποθήκευσης. Η καινοτοµία αυτής της προσέγγισης βασίζεται στο γεγονός ότι τα αντικείµενα που θα προανακτηθούν καθορίζονται από τον πληρεξούσιο εξυπηρετητή και όχι από τους πηγαίους εξυπηρετητές. Η προτεινόµενη τεχνική αποδείχτηκε ότι βελτιώνει την απόδοση ενός πληρεξούσιου εξυπηρετητή, από το να εφαρµοστεί µία οποιαδήποτε πολιτική εναποθήκευσης. Υλοποίηση ενός αλγορίθµου προανάκτησης στα ίκτυα Παράδοσης Περιεχοµένων (CDNs), όπου προανακτώνται µέσω κοινοτήτων 4 τα αντικείµενα ενός ιαδικτυακού τόπου στους εξυπηρετητές ενός CDN: Ένας νέος αλγόριθµος αναπτύχθηκε για τον εντοπισµό των κοινοτήτων του Π.Ι. ο οποίος λαµβάνει υπόψη του µόνο τη δοµή των ιαδικτυακών τόπων. Ως αποτέλεσµα αυτού, ο προτεινόµενος αλγόριθµος δεν καθορίζεται από εξωγενείς παραµέτρους ούτε λαµβάνει υπόψη του τα αιτήµατα των πελατών στον Π.Ι. Οι κοινότητες οι οποίες εντοπίζονται αποθηκεύονται στους διάφορες εξυπηρετητές του CDN. Η συγκεκριµένη προσέγγιση είναι η πρώτη η οποία εισάγει την έννοια των κοινοτήτων για την προανάκτηση των αντικειµένων στα πλαίσια των CDNs. Πειραµατικά αποτελέσµατα, που εξετάζουν ποικίλους παράγοντες, υποδηλώνουν την αποδοτικότητα του προτεινόµενου αλγορίθµου. Πρόταση νέων πολιτικών οι οποίες καθορίζουν την τοποθέτηση των αντιγράφων στους εξυπηρετητές ενός CDN: Λαµβάνοντας υπόψη ότι για το πρόβληµα αυτό δεν έχουν βρεθεί ακόµη αποτελεσµατικοί πολυωνυµικοί αλγόριθµοι (έχει χαρακτηρισθεί ως NP-complete πρόβληµα), δύο ευριστικοί αλγόριθµοι προτείνονται για τη βέλτιστη τοποθέτηση των αντιγράφων ενός ιαδικτυακού τόπου. Οι προτεινόµενοι αλγόριθµοι αποδείχτηκαν καλύτεροι ανάµεσα σε όλους τους παρόµοιους τους, δηµιουργώντας το µικρότερο χρόνο απόκρισης. Επίσης, σε αντίθεση µε τους υπόλοιπους ευριστικούς αλγορίθµους οι οποίοι είναι εξαιρετικά χρονοβόροι, οι προτεινόµενοι αλγόριθµοι παρουσιάζουν χαµηλούς χρόνους εκτέλεσης. Ανάπτυξη ενός εργαλείου προσοµοίωσης για CDNs, το ονοµαζόµενο CDNsm: Το CDNsm παρέχει µία ρεαλιστική προσοµοίωση, προσοµοιώνοντας 4 Μία κοινότητα του Π.Ι. αποτελεί µία οµάδα από αντικείµενα όπου τα µέλη της έχουν µεταξύ τους κάποια κοινά χαρακτηριστικά (π.χ., δηµοτικότητα, περιεχόµενο). 24

Κεφάλαιο 1: Εισαγωγή το TCP/IP πρωτόκολλο και αναπτύσσοντας αποδοτικές δοµές για την προσοµοίωση των δίσκων των εξυπηρετητών ενός CDN. Το CDNsm αποτελεί το πρώτο ολοκληρωµένο εργαλείο προσοµοίωσης για τα CDNs. 1.4 οµή της ιατριβής Στο δεύτερο Κεφάλαιο παρουσιάζονται διάφορες εισαγωγικές έννοιες για την καλύτερη κατανόηση των ζητηµάτων που θα περιγραφούν στα επόµενα Κεφάλαια της διατριβής. Πιο συγκεκριµένα, ο στόχος αυτού του Κεφαλαίου είναι να διασαφηνιστούν οι ιδιαιτερότητες του Π.Ι. σχετικά µε τη διάχυση των αντικειµένων στο ιαδίκτυο. Επίσης, στόχος του Κεφαλαίου είναι να παρουσιαστεί συνοπτικά µία κατηγοριοποίηση των τεχνικών διαχείρισης των αντικειµένων που έχουν προταθεί µέχρι στιγµής για τη µείωση της καθυστέρησης πρόσβασης των πελατών στις προσφερόµενες υπηρεσίες και τη βελτίωση της διαδικασίας πλοήγησης και αναζήτησης στο ιαδίκτυο. Το τρίτο Κεφάλαιο ασχολείται µε την επεξεργασία των οµάδων που προκύπτουν από την ανάλυση της συµπεριφοράς της κίνησης των πελατών στο ιαδίκτυο. Το πρόβληµα αυτό αποτελεί ένα από τα πιο σηµαντικά ζητήµατα όσον αφορά τη διαχείριση των αντικειµένων του Π.Ι. Η οµαδοποίηση των πελατών βελτιώνει τόσο την πρόσβαση των αντικειµένων όσο και την αναζήτηση τους στον Π.Ι. Στο Κεφάλαιο αυτό παρουσιάζεται ένας νέος αλγόριθµος ο οποίος αξιολογεί την ποιότητα των οµάδων που προέκυψαν από την εφαρµογή ενός πιθανοκρατικού αλγορίθµου οµαδοποίησης. Επίσης παρουσιάζεται µία µέθοδος η οποία ανακαλύπτει χρήσιµες συσχετίσεις µεταξύ των πελατών και των αντικειµένων του Π.Ι., συµπεριλαµβάνοντας µία καινοτοµική προσέγγιση για την αποτελεσµατικότερη απεικόνιση τους. Στο τέταρτο Κεφάλαιο εξετάζεται το πρόβληµα των πολιτικών αντικατάστασης και προανάκτησης στους πληρεξούσιους εξυπηρετητές του Π.Ι. Στα πλαίσια του Κεφαλαίου αυτού παρουσιάζεται ένας καινοτόµος αλγόριθµος αντικατάστασης αντικειµένων στις ενδιάµεσες µνήµες των πληρεξούσιων εξυπηρετητών. Στη συνέχεια εξετάζεται το πρόβληµα της προανάκτησης των αντικειµένων του Π.Ι. Ένας νέος αλγόριθµος προτείνεται για την αποδοτική προανάκτηση των αντικειµένων. Τα CDNs προέκυψαν ως περιβάλλοντα αξιόπιστης υποστήριξης και παράδοσης δεδοµένων χρησιµοποιώντας την τεχνική της διανοµής περιεχοµένου και της εναποθήκευσης στα πλαίσια του Π.Ι., µειώνοντας το κόστος και τη συµφόρηση του διαθέσιµου εύρους ζώνης του δικτύου. Για να υλοποιηθούν όµως µε επιτυχία τα παραπάνω, απαιτείται αφενός µία σωστή διαχείριση των αντικειµένων και αφετέρου το κατάλληλο υλικό (hardware) για να υποστηριχθεί η µεταφορά του περιεχοµένου. Στο πέµπτο Κεφάλαιο προτείνονται λύσεις τόσο για την εύρεση του περιεχοµένου που 25

1. 4 οµή της ιατριβής θα διατεθεί από τους πηγαίους εξυπηρετητές στους εξυπηρετητές ενός CDN (γνωστοί ως surrogate servers) όσο και για τη βέλτιστη τοποθέτηση αυτού του περιεχοµένου στους εξυπηρετητές ενός CDN. Στο έκτο Κεφάλαιο παρουσιάζεται ένα εργαλείο προσοµοίωσης για CDNs, το CDNsm. Το εργαλείο αυτό είναι απαραίτητο για την αξιολόγηση των CDNs, µε δεδοµένο ότι η εφαρµογή τους πάνω σε πραγµατικά CDNs δεν είναι εφικτή. Βασικά χαρακτηριστικά του CDNsm είναι οτι προσοµοιώνει αποτελεσµατικά τις ενδιάµεσες µνήµες των εξυπηρετητών ενός CDN, και το TCP/IP πρωτόκολλο. Επίσης ένα γραφικό περιβάλλον αναπτύχθηκε για την εύκολη χρήση και λειτουργία του. Τέλος, στο έβδοµο Κεφάλαιο παρουσιάζονται τα κύρια συµπεράσµατα της διατριβής και προτείνονται θέµατα που παρουσιάζουν ενδιαφέρον για περαιτέρω έρευνα στο µέλλον. 26

Κεφάλαιο 2: Βασικές Έννοιες και Τεχνικές ιαχείρισης των Αντικειµένων στον Παγκόσµιο Ιστό Κεφάλαιο 2 Βασικές Έννοιες και Τεχνικές ιαχείρισης των Αντικειµένων στον Παγκόσµιο Ιστό 2.1 Εισαγωγή... 27 2.2 Περιεχόµενο και Τύποι Αντικειµένων στον Παγκόσµιο Ιστό... 29 2.3 Οµαδοποίηση των εδοµένων του Παγκόσµιου Ιστού... 32 2.4 Εναποθήκευση Πληροφορίας στον Παγκόσµιο Ιστό... 35 2.5 Προανάκτηση εδοµένων στον Παγκόσµιο Ιστό... 40 2.6 ίκτυα Παράδοσης Περιεχοµένου... 41 2.7 Επίλογος... 45 2.1 Εισαγωγή Το ιαδίκτυο αποτελεί σήµερα ένα από τα κυριότερα µέσα πληροφόρησης και επικοινωνίας σε όλον τον κόσµο. Κάθε αναφορά στο µέγεθος του ιαδικτύου µπορεί να θεωρηθεί ξεπερασµένη αφού υπολογίζεται ότι ο αριθµός των εξυπηρετητών του και µόνο διπλασιάζεται κάθε 6 µήνες 5. Ο Παγκόσµιος Ιστός (Π.Ι.) είναι η δηµοφιλέστερη εφαρµογή του ιαδικτύου. Η εφαρµογή αυτή αποτελεί την υλοποίηση του πρωτοκόλλου HyperText Transfer Protocol (HTTP) και µέσω αυτής ο χρήστης 5 Internet World Stats: http://www.nternetworldstats.com/ 2006 27

2.1 Εισαγωγή µπορεί να µεταφέρει πληροφορίες σε υπερκείµενο (hypertext) στο υπολογιστικό µέσο από το οποίο έχει πρόσβαση στο ιαδίκτυο. Η εξ αποστάσεως εκπαίδευση, τα εικονικά καταστήµατα, οι ψηφιακές βιβλιοθήκες είναι µερικές από τις υπηρεσίες που εκτελούνται στον Π.Ι. Ειδικότερα, ο Π.Ι. είναι µία εφαρµογή που βασίζεται στο µοντέλο πελάτηεξυπηρετητή (clent-server). Οι εξυπηρετητές του Π.Ι. (Web servers) αποτελούν µεγάλες αποθήκες πληροφοριών στις οποίες έχουν πρόσβαση οι χρήστες του ιαδικτύου (µέσω του HTTP). Όµως το µοντέλο του Π.Ι. (λόγω της αλληλεπιδραστικής φύσης του) δηµιουργεί σηµαντικά προβλήµατα επίδοσης σχετικά µε τους χρόνους προσπέλασης της προσφερόµενης πληροφορίας. Την τελευταία πενταετία σηµαντικός αριθµός ερευνητικών προσπαθειών έχει αφιερωθεί στη βελτίωση της επίδοσης των υπηρεσιών του Π.Ι. Σε αυτό το πλαίσιο εργασίας, οι περισσότερες προτάσεις συµφωνούν πως η εφαρµογή αποτελεσµατικών τεχνικών για τη διαχείριση της πληροφορίας είναι η πιο ενδεδειγµένη λύση για τη βελτίωση της επίδοσης του Π.Ι. Όπως αναφέρθηκε και στο Κεφάλαιο 1, η οµαδοποίηση των αντικειµένων ενός ιαδικτυακού τόπου (Web ste) και η ανάλυση της συµπεριφοράς των πελατών συµβάλλουν στη µείωση του φόρτου του δικτύου και στην ανάπτυξη προσωποποιηµένων υπηρεσιών. Επίσης, η τεχνική της εναποθήκευσης στα πλαίσια του Π.Ι. µπορεί να οδηγήσει σε σηµαντική εξοικονόµηση του εύρους ζώνης του δικτύου, υψηλότερη διαθεσιµότητα περιεχοµένου, µείωση του χρόνου αναµονής του χρήστη αλλά και αύξηση της κλιµάκωσης και της διαθεσιµότητας του περιεχοµένου στους εξυπηρετητές. Στο Κεφάλαιο αυτό παρουσιάζονται διάφορες εισαγωγικές έννοιες για την καλύτερη κατανόηση των ζητηµάτων που θα περιγραφούν στα επόµενα κεφάλαια της διατριβής. Στόχος του Κεφαλαίου είναι να παρουσιάσει συνοπτικά µία κατηγοριοποίηση των πιο διαδεδοµένων τεχνικών διαχείρισης των αντικειµένων του Π.Ι. που έχουν προταθεί µέχρι στιγµής για τη βελτίωση της επίδοσης του ιαδικτύου. Ο Πίνακας 2.1 παρουσιάζει τις παραµέτρους που χρησιµοποιούνται στο παρόν Κεφάλαιο. Το υπόλοιπο του Κεφαλαίου είναι οργανωµένο ως εξής: Η ενότητα 2 παρουσιάζει τα περιεχόµενα και τους τύπους των αντικειµένων που είναι διαθέσιµα στα πλαίσια του Π.Ι. Η ενότητα 3 ασχολείται µε τις αρχές του ζητήµατος της οµαδοποίησης των αντικειµένων ενός ιαδικτυακού τόπου. Η ενότητα 4 παρουσιάζει την τεχνική της εναποθήκευσης αντικειµένων στον Π.Ι. ενώ η ενότητα 5 περιγράφει τη διαδικασία της προανάκτησης (prefetchng) αντικειµένων στον Π.Ι. Η ενότητα 6 παρουσιάζει τα ίκτυα Παράδοσης Περιεχοµένων. Η ενότητα 7 κλείνει το Κεφάλαιο συνοψίζοντας τις τεχνικές διαχείρισης των αντικειµένων στο Π.Ι. 28

Κεφάλαιο 2: Βασικές Έννοιες και Τεχνικές ιαχείρισης των Αντικειµένων στον Παγκόσµιο Ιστό Μεταβλητή HR BHR h r s sesson r j N C k Περιγραφή Λόγος επιτυχίας Λόγος επιτυχίας σε Bytes Ο αριθµός των επιτυχών αιτηµάτων για το αντικείµενο που βρέθηκαν στην ενδιάµεση µνήµη Το σύνολο των αιτηµάτων για το αντικείµενο Το µέγεθος του αντικειµένου Η σύνοδος ενός χρήστη Το j-στο αίτηµα ενός χρήστη Ο συνολικός αριθµός αιτηµάτων του χρήστη Η k-στη οµάδα Πίνακας 2.1 Μεταβλητές Κεφαλαίου και Περιγραφή τους 2.2 Περιεχόµενο και Τύποι Αντικειµένων στον Παγκόσµιο Ιστό Ο Π.Ι. µπορεί να θεωρηθεί ως µία πολύ µεγάλη και ετερογενής βάση δεδοµένων µε ένα ευρύ σύνολο από αντικείµενα. Αυτά τα αντικείµενα βρίσκονται είτε στην πλευρά του εξυπηρετητή, είτε στην πλευρά του πελάτη. Με τον όρο αντικείµενο προσδιορίζεται κάθε είδος πληροφορίας που µπορεί να µεταφερθεί (και είναι προσβάσιµη) µέσω του ιαδικτύου. Μία κατηγοριοποίηση αυτών των αντικειµένων µε βάση τον τύπο τους είναι η εξής: Έγγραφα στον Π.Ι. Έγγραφα στον Π.Ι. αποτελούν όλα τα αντικείµενα τα οποία αποθηκεύονται στους εξυπηρετητές του Π.Ι. και µπορούν να προσπελαύνονται µέσω ενός προγράµµατος εφαρµογής πλοήγησης (browser). Γενικά κάθε ιαδικτυακός τόπος θεωρείται ως µια συλλογή από έγγραφα του Π.Ι. (ένα σύνολο από πόρους, όπως HTML αρχεία, XML αρχεία, εικόνες, µικρο-εφαρµογές, πολυµεσικοί πόροι κλπ). Τα έγγραφα αυτά χαρακτηρίζονται από ένα εύρος θεµάτων, τα οποία µεταξύ τους έχουν διαφορετική δοµή και τα περισσότερα από αυτά δεν είναι καλά δοµηµένα. Αρχεία καταγραφής κίνησης: Όλη η κίνηση κατά την επίσκεψη ενός χρήστη σε ένα ιαδικτυακό τόπο (η διαδικασία απεικονίζεται στο Σχήµα 1.1) καταγράφεται σε ένα αρχείο το οποίο ονοµάζεται «Web server log fle». Αντίστοιχα, το αρχείο καταγραφής στον πληρεξούσιο εξυπηρετητή ονοµάζεται «proxy server log fle» και καταγράφει όλα τα αιτήµατα που πραγµατοποιήθηκαν σε ένα σύνολο ιαδικτυακών τόπων από ένα συγκεκριµένο πληθυσµό χρηστών (π.χ., το σύνολο των χρηστών σε έναν ISP): o Αρχεία καταγραφής στον εξυπηρετητή του Π.Ι.: Κάθε γραµµή στο αρχείο αντιπροσωπεύει την πρόσβαση ενός χρήστη σε ένα αντικείµενο που είναι αποθηκευµένο στον εξυπηρετητή του Π.Ι. και περιέχει την IP διεύθυνση του 29

2.2 Περιεχόµενο και Τύποι Αντικειµένων στον Παγκόσµιο Ιστό o χρήστη, την ώρα επίσκεψης (tmestamp), το URL 6 του ζητούµενου αντικειµένου, το πρωτόκολλο, τον κωδικό επιστροφής (το αποτέλεσµα του αιτήµατος), τη µέθοδο για το αίτηµα (π.χ. GET, POST κλπ.), τον αριθµό των bytes που µεταφέρθηκαν (Σχήµα 2.1). Αρχεία καταγραφής στο πληρεξούσιο εξυπηρετητή: Κάθε εγγραφή πρόσβασης χρήστη αποτελείται από τα ακόλουθα πεδία (Σχήµα 2.2): την IP διεύθυνση του χρήστη, τη χρονική στιγµή που έγινε το αίτηµα (σε ανάλυση mllseconds), τη µέθοδο για το αίτηµα (π.χ. GET, POST κλπ.), το URL του ζητούµενου αντικειµένου, το αποτέλεσµα του αιτήµατος (για το εάν το αντικείµενο που βρίσκεται στον πληρεξούσιο εξυπηρετητή είναι ενηµερωµένο), τον αριθµό των bytes που µεταφέρθηκαν, και µερικές πρόσθετες πληροφορίες (όπως µία περιγραφή από πού αποκτήθηκε το ζητούµενο αντικείµενο). 216.239.46.60 - - [04/Jan/2003:14:56:50 +0200] "GET /~lps/currculum/c+unx/ergastra/week-7/fletypes1.txt HTTP/1.0" 200 86 216.239.46.60 - - [04/Jan/2003:14:57:33 +0200] "GET /~oswnds/top.html HTTP/1.0" 200 869 64.68.82.70 - - [04/Jan/2003:14:58:25 +0200] "GET /~lps/systems/rdevce/r_devce_examples.html HTTP/1.0" 200 16792 216.239.46.60 - - [04/Jan/2003:14:58:27 +0200] "GET /~lps/publcatons/crc-chapter1.html HTTP/1.0" 304-209.237.238.161 - - [04/Jan/2003:14:59:11 +0200] "GET /robots.txt HTTP/1.0" 404 276 216.239.46.60 - - [04/Jan/2003:15:43:19 +0200] "GET /~lps/publcatons/crc-chapter3.html HTTP/1.0" 304 Σχήµα 2.1 Αρχεία Καταγραφής στον Εξυπηρετητή του Π.Ι. 986074304.817 81019 ccf.auth.gr TCP_MISS/503 1180 GET http://www.mymoble.com/ - DIRECT/www.mymoble.com 986074304.828 51360 med.auth.gr TCP_MISS/000 0 GET http://www.battle.net/ncludes/ads.js - DIRECT/www.battle.net 986074312.188 3140 med.auth.gr TCP_MISS/000 0 GET http://www.battle.net/ncludes/ads.js - DIRECT/www.battle.net 986074312.302 53 med.auth.gr TCP_HIT/200 16590 GET http://www.battle.net/ - NONE/- text/html 986074320.238 7210 med.auth.gr TCP_MISS/000 0 GET http://www.battle.net/ncludes/ads.js - DIRECT/www.battle.net Σχήµα 2.2 Αρχεία Καταγραφής σε Πληρεξούσιο Εξυπηρετητή 6 Με το URL δηλώνεται η µορφή της διεύθυνσης µιας τοποθεσίας που αποκαλύπτει το όνοµα του διακοµιστή όπου είναι αποθηκευµένα τα αρχεία (αντικείµενα) της τοποθεσίας, τη διαδροµή καταλόγου των αρχείων, και το όνοµα των αρχείων. 30

Κεφάλαιο 2: Βασικές Έννοιες και Τεχνικές ιαχείρισης των Αντικειµένων στον Παγκόσµιο Ιστό Με την επεξεργασία των αρχείων καταγραφής µπορούν να εξαχθούν πολύτιµες πληροφορίες για τη συµπεριφορά των χρηστών κατά την πλοήγηση τους στο ιαδίκτυο. Οι αλληλεπιδράσεις ενός χρήστη µε τον Π.Ι. πραγµατοποιούνται συνήθως µε τη µορφή συνόδων (sessons). Κατά τη διάρκεια µιας συνόδου ο χρήστης ζητά ένα σύνολο από αντικείµενα από τον εξυπηρετητή του Π.Ι., τα οποία καταγράφονται χρονολογικά στα αρχεία καταγραφής. Για τον εντοπισµό των συνόδων ενός χρήστη το αρχείο καταγραφής υφίσταται µία προ-επεξεργασία διαγράφοντας τις εγγραφές που δεν περιέχουν χρήσιµο περιεχόµενο (π.χ. javascrpts, εικόνες κ.λ.π.). Οι εναποµείνασες εγγραφές του αρχείου ταξινοµούνται µε βάση το IP τους, αντιστοιχίζοντας κάθε διαφορετικό IP µε ένα χρήστη. Ορισµός 2.1. Έστω r 1,, r είναι η ακολουθία των αιτηµάτων N ενός χρήστη σε µία συγκεκριµένη χρονική περίοδο t. Η σύνοδος ενός χρήστη ορίζεται ως sesson = r,, r }, όπου n N { 1 n και µεταξύ των διαδοχικών αιτηµάτων της συνόδου ισχύει µία συγκεκριµένη συνθήκη που αφορά τον καθορισµό των ορίων των συνόδων. Οι πιο δηµοφιλείς συνθήκες που έχουν χρησιµοποιηθεί για τον ορισµό των συνόδων συνοψίζονται ως εξής: Χρήση ενός χρονικού κατωφλίου : το χρονικό διάστηµα που µεσολαβεί ανάµεσα στα διαδοχικά αιτήµατα πρέπει να είναι µικρότερο ή ίσο από ένα προκαθορισµένο χρονικό κατώφλι. Ο καθορισµός αυτού του κατωφλίου αποτελεί και το µεγαλύτερο µειονέκτηµα αυτής της µεθόδου δεδοµένου ότι ο καθορισµός του υπόκειται σε υποκειµενικά κριτήρια. Γενικά, έχουν προταθεί διάφοροι χρόνοι (από 10 έως 30 λεπτά) στη διεθνή βιβλιογραφία [Catledge & Ptkow, 1995; Goker & He, 2000] για να ορίσουν επιτυχώς το χρονικό κατώφλι, µε πιο συνηθισµένη τιµή τα 30 λεπτά. Εξετάζοντας το µήκος αναφοράς: η σύνοδος ορίζεται ως η ακολουθία των αιτηµάτων ενός χρήστη µέχρι να αιτηθεί µία ιστοσελίδα που είχε προηγουµένως αιτηθεί [Chen et. al., 1998]. Μειονέκτηµα αυτής της προσέγγισης αποτελεί το γεγονός ότι δε µπορεί να υλοποιηθεί σε περιβάλλοντα που εφαρµόζονται τεχνικές εναποθήκευσης από την πλευρά του πελάτη, γιατί σε αυτά τα περιβάλλοντα δεν καταγράφονται όλα τα αιτήµατα των πελατών. 31