ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες: Κ. Μαργαρίτης Ι. Μανωλόπουλος
Περιεχόμενα παρουσίασης Κεφάλαιο 1 : Ζητήματα Απόδοσης σε Κατανεμημένα συστήματα Κεφάλαιο 2 : Εξόρυξη Δεδομένων Κεφάλαιο 3 : Web Prefetching Κεφάλαιο 4 : Ανάλυση των Δεδομένων Κεφάλαιο 5 : Αξιολόγηση Κεφάλαιο 6 : Συμπεράσματα-προτάσεις προτάσεις 2/ 32
Παγκόσμιος Ιστός (World Wide Web) WWW = World Wide Wait? Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 3/ 32
Κινητά Περιβάλλοντα Υπολογισμών (mobile environments) Κατανομή Bandwidth Εντοπισμός των χρηστών Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 4/ 32
Κίνητρο διπλωματικής εργασίας Μεγάλος όγκος δεδομένων Προβλήματα επίδοσης στα συστήματα Πώς μπορώ να αξιοποιήσω τα δεδομένα? Με τεχνικές εξόρυξης δεδομένων Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 5/ 32
Ερωτήματα προς διερεύνηση Εφαρμογή της διαδικασίας εξόρυξης σε πραγματικά Web δεδομένα Μπορεί η παραγόμενη γνώση να αξιοποιηθεί στο prefetching Είναι συνοπτική? Παράγεται γρήγορα? Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 6/ 32
Το πρόβλημα που αντιμετωπίσαμε (παγκόσμιος ιστός) Δεδομένα εισόδου: web logs από το Μακεδονικό Πρακτορείο Ειδήσεων http://www.mpa.gr Output : Εξαγωγή προτύπων για τη συμπεριφορά των επισκεπτών (association rules) Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 7/ 32
Κινητά περιβάλλοντα υπολογισμού Ποια από τις τεχνικές εξόρυξης δεδομένων ταιριάζει στο παράδειγμα? Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 8/ 32
Πρόβλεψη κίνησης χρήστη (mobile environments) Είσοδος: Οι διαδρομές των χρηστών Διαδικασία: Οργάνωση των διαδρομών με βάση την ομοιότητά τους και επιλογή προτύπων - αντιπροσώπων Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 9/ 32
Πρόβλεψη κίνησης χρήστη (mobile environments) Έξοδος: clusters όμοιων διαδρομών Ταίριασμα της διαδρομής του χρήστη με ένα (ή περισσότερα) πρότυπα, ώστε να προβλέψουμε την επόμενη θέση του Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 10 / 32
Κεφάλαιο 2: Εξόρυξη Δεδομένων Ανακάλυψη Γνώσης: εύρεση νέων, έγκυρων, χρήσιμων και κατανοητών προτύπων από τα δεδομένα Στηρίζεται στα γνωστικά πεδία : Βάσεις δεδομένων Τεχνητή νοημοσύνη Στατιστική 11 / 32
Κεφάλαιο 2: Τεχνικές εξόρυξης Στάδια ανάπτυξης της διαδικασίας Κεφάλαιο 2. Εξόρυξη Δεδομένων 12 / 32
Τεχνικές Data Mining επεξεργασίας Μελετήσαμε τη χρησιμότητα: Clustering διαδρομών χρήστη (mobile environments) Association rules που συνδέουν σελίδες (web) Sequential Analysis (future work) Κεφάλαιο 2. Εξόρυξη Δεδομένων 13 / 32
Ανακάλυψη Κανόνων Συσχέτισης Body Head [Support, Confidence] Επισκέπτεται(Χ,specials.html specials.html) Επισκέπτεται(Χ,financial.html financial.html) ) [5%,60%] Support : στατιστικό μέγεθος (ποσοστό που ισχύουν συγχρόνως A,B) Confidence : ποιοτικό (ποσοστό του A όταν ισχύει το B) Κεφάλαιο 2. Εξόρυξη Δεδομένων 14 / 32
Φάσεις αλγορίθμου Apriori Υπολογισμός support για κάθε item Δημιουργία frequent itemsets από τα ισχυρά items (support > threshold)...συνέχισε μέχρι να μην υπάρχουν υποψήφια υπερσύνολα Κεφάλαιο 2. Εξόρυξη Δεδομένων 15 / 32
Κεφάλαιο 3: Web Prefetching Έννοια του prefetching Συμπληρωματικό στο caching Πρόβλεψη συμπεριφοράς Αξιοποιεί : Το χρόνο μεταξύ διαδοχικών αιτήσεων Την τοπικότητα των επισκέψεων (αιτήσεις που γίνονται μαζί) 16 / 32
O μηχανισμός του prefetching Χρησιμότητα (Usefulness) Ακρίβεια (Accuracy) Φόρτος δικτύου (Network Traffic) Κεφάλαιο 3. Web Prefetching 17 / 32
Κεφάλαιο 4: Συγκέντρωση δεδομένων Αρχεία επισκέψεων http://www.mpa.gr Χρονική περίοδος : 01/08 ως 05/09/2003 Μέγεθος log files : 1.2 Gb (5 εβδ. αρχεία) Αριθμός αιτήσεων (HTTP Requests) : ~ 500.000 / εβδομάδα Όγκος δεδομένων : 15,5 Gb 18 / 32
Ανάπτυξη Λογισμικού Προ-επεξεργασία log files (www.mpa.gr( www.mpa.gr) Αφαίρεση θορύβου (αιτήσεις για αρχεία εικόνων, cgi, not found pages) Επιλογή δεδομένων (χρήσιμα πεδία του log file: IP,timestamp,URL) Μετασχηματισμοί (mapping IPs,, URLs ) Κεφάλαιο 4. Λογισμικό 19 / 32
Ανάπτυξη Λογισμικού Προσδιορισμός των συνόδων (transactions) των επισκεπτών Maximum 15 σελίδες (λόγω proxy servers) Χρονικό εύρος: : 2h2 Data Mining (Υλοποίηση Apriori) Είσοδος : transactions επισκεπτών Έξοδος : κανόνες συσχέτισης σελίδων Κεφάλαιο 4. Λογισμικό 20 / 32
Αριθμός κανόνων αρχείο mpa2 Κεφάλαιο 5. Αποτελέσματα 21 / 32
Μέγεθος κανόνων Κεφάλαιο 5. Αποτελέσματα 22 / 32
Χρόνος επεξεργασίας Κεφάλαιο 5. Αποτελέσματα 23 / 32
Κεφάλαιο 6: Συμπεράσματα Υπάρχει κανονικότητα στη συμπεριφορά των επισκεπτών Χαρακτηριστικά κανόνων συσχέτισης : Μικρό μέγεθος Λίγοι και κατανοητοί Ανιχνεύονται γρήγορα Prefetching Καλή Εφαρμογή 24 / 32
Γενικό συμπέρασμα Η Εξόρυξη Δεδομένων (κανόνες συσχέτισης) εφαρμόζεται με επιτυχία για τη βελτίωση της απόδοσης Κατανεμημένων Συστημάτων Κεφάλαιο 6. Συμπεράσματα-μελλοντική εργασία 25 / 32
Μελλοντική εργασία Web prefetching Εξόρυξη κανόνων, ώστε να λαμβάνεται υπόψη ο αριθμός των clicks μεταξύ των στοιχείων που αποτελούν έναν κανόνα. Κινητά περιβάλλοντα Αντί για ομαδοποίηση (clustering), να έχουμε ακολουθιακά πρότυπα (sequential patterns) Κεφάλαιο 6. Συμπεράσματα-μελλοντική εργασία 26 / 32
Ερωτήσεις?