Τεχνικές Εξόρυξης Δεδομένων

Σχετικά έγγραφα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Πληροφορικής

Εξατομίκευση (Personalization) Τεχνολογίες & Υπηρεσίες (ΙΙ)

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες

Data mining Εξόρυξη εδοµένων. o Association rules mining o Classification o Clustering o Text Mining o Web Mining

Μελέτη του αλγορίθμου ομαδοποίησης k-means σε δεδομένα του παγκόσμιου ιστού

Κεφάλαιο 9. Εξαγωγή Κανόνων Συσχέτισης

Αποθήκες και Εξόρυξη Δεδομένων

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Θέμα: «Market Basket Analysis» Στυλιανός Μητσοτάκης Α.Μ Επιβλέπων καθηγητής: Βασίλειος Ταμπακάς ΑΝΤΙΡΡΙΟ 2018

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Ποιοτικοί Δείκτες Υπηρεσιών Βιβλιοθηκών και Διαχείριση Πόρων: Μεθοδολογίες Ανάλυσης και στρατηγικός σχεδιασμός.

Εξόρυξη Γνώσης από εδοµένα (data mining)

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΔΙΑΔΙΚΤΥΟ ΚΑΙ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

Ανάκτηση Πληροφορίας

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΟΜΑΔΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΧΡΗΣΤΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Στρατηγική ανάπτυξη δικτυακού κόμβου

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

Διδάσκουσα: Χάλκου Χαρά,

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Mobile GIS. Καλύβας Διονύσιος, Καθηγητής ΓΠΣ & Χωρικής Ανάλυσης Υπεύθυνος Ερευνητικής Μονάδας GIS ΓΠΑ. Κολοβός Χρόνης, Γεωπόνος, MSc Γεωπληροφορικής

Πρόγραμμα Μεταπτυχιακών Σπουδών

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

TID Items. Τ = {t 1, t 2,.., t N } ένα σύνολο από δοσοληψίες, όπου κάθε t i είναι ένα στοιχειοσύνολο

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

ΣΥΣΧΕΤΙΣΗ ΟΔΗΓΙΚΗΣ ΣΥΜΠΕΡΙΦΟΡΑΣ ΚΑΙ ΚΑΤΑΝΑΛΩΣΗΣ ΚΑΥΣΙΜΩΝ ΜΕ ΔΕΔΟΜΕΝΑ ΑΠΟ ΕΞΥΠΝΑ ΚΙΝΗΤΑ ΤΗΛΕΦΩΝΑ

Π.Μ.Σ. στην Εφαρμοσμένη Πληροφορική Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας

Τελική έκθεση εξωτερικής αξιολόγησης του έργου

Εργαλείο αποτίμησης ποιότητας ανοικτού ψηφιακού μαθήματος. Η βαθμολογική κλίμακα για το ερωτηματολόγιο είναι η ακόλουθη:

ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ: ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ TMHMA ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕ

Ολοκληρωμένο Πληροφοριακό Σύστημα Εξυπηρέτησης Πολιτών και Παρόχων

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση πολυμεσικού περιεχομένου

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

ΑΚΑΔΗΜΙΑ ΤΩΝ ΠΟΛΙΤΩΝ

Εξόρυξη Δεδομένων σε δεδομένα διαδικτυακής κίνησης και ροής χτυπημάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Ακαδημαϊκό έτος B εξάμηνο (εαρινό)

ΣΧΕΔΙΑΣΜΟΣ ΕΝΟΣ INTERNET MARKETING PLAN

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών Α.Ε.Ι.

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης

Στοιχεία επεξεργασίας σημάτων

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Διάταξη Θεματικής Ενότητας ΕΠΑ51 / Εφαρμοσμένη Εκπαιδευτική Έρευνα

Ωρολόγιο Πρόγραμμα Χειμερινού Εξαμήνου

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ»

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

8 ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΚΑΘΗΓΗΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ποιοτικοί είκτες Υπηρεσιών Βιβλιοθηκών και ιαχείριση Πόρων: Μεθοδολογίες Ανάλυσης και στρατηγικός σχεδιασµός.

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

Ωρολόγιο Πρόγραμμα Χειμερινού Εξαμήνου

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Μεταπτυχιακή Διπλωματική Εργασία

ΕΛΛΑΚ στον εκπαιδευτικό τοµέα: opensoft.sch.gr

Γεωγραφικά Πληροφοριακά Συστήµατα (Geographical Information Systems GIS)

Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΤΗΝ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΛΑΪΚΩΝ ΑΓΟΡΩΝ Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ ΣΕΡΡΩΝ

Μεθοδολογία ερευνητικής εργασίας

Τμήμα Πληροφορικής. Σχολή Τεχνολογικών Εφαρμογών. Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλονίκης

ΑΛΓΟΡΙΘΜΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ AΠΟ ΡΟΕΣ ΔΕΔΟΜΕΝΩΝ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ

ΝΕΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ, ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ, ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ, ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΕΙΣΑΓΩΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Περιεχόμενα. Πρόλογος... xiii

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Θεωρητική προσέγγιση του Σημασιολογικού Ιστού στο χώρο της πολιτισμικής πληροφορίας: μία πρότυπη εφαρμογή στη βιβλιοθηκονομία

ΕΥΡΥΖΩΝΙΚΟΤΗΤΑ ΣΤΟ ΕΘΝΙΚΟ ΙΔΡΥΜΑ ΕΡΕΥΝΩΝ

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΣΧΟΛΙΑ και ΑΠΑΝΤΗΣΕΙΣ ΤΗΣ INTELEN

and Intelligent Systems Group LPIS Group).

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Ζητήματα ηήμ με τα δεδομένα

ΠΡΟΓΡΑΜΜΑ ΠΡΟΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

Σχεδιασμός και Υλοποίηση ενός πληροφοριακού συστήματος για τους τεχνικούς του φυσικού αερίου

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών

Παραδοτέο Π.2.1. Υπερχώρος και διαχείριση μοντέλων

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες: Κ. Μαργαρίτης Ι. Μανωλόπουλος

Περιεχόμενα παρουσίασης Κεφάλαιο 1 : Ζητήματα Απόδοσης σε Κατανεμημένα συστήματα Κεφάλαιο 2 : Εξόρυξη Δεδομένων Κεφάλαιο 3 : Web Prefetching Κεφάλαιο 4 : Ανάλυση των Δεδομένων Κεφάλαιο 5 : Αξιολόγηση Κεφάλαιο 6 : Συμπεράσματα-προτάσεις προτάσεις 2/ 32

Παγκόσμιος Ιστός (World Wide Web) WWW = World Wide Wait? Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 3/ 32

Κινητά Περιβάλλοντα Υπολογισμών (mobile environments) Κατανομή Bandwidth Εντοπισμός των χρηστών Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 4/ 32

Κίνητρο διπλωματικής εργασίας Μεγάλος όγκος δεδομένων Προβλήματα επίδοσης στα συστήματα Πώς μπορώ να αξιοποιήσω τα δεδομένα? Με τεχνικές εξόρυξης δεδομένων Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 5/ 32

Ερωτήματα προς διερεύνηση Εφαρμογή της διαδικασίας εξόρυξης σε πραγματικά Web δεδομένα Μπορεί η παραγόμενη γνώση να αξιοποιηθεί στο prefetching Είναι συνοπτική? Παράγεται γρήγορα? Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 6/ 32

Το πρόβλημα που αντιμετωπίσαμε (παγκόσμιος ιστός) Δεδομένα εισόδου: web logs από το Μακεδονικό Πρακτορείο Ειδήσεων http://www.mpa.gr Output : Εξαγωγή προτύπων για τη συμπεριφορά των επισκεπτών (association rules) Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 7/ 32

Κινητά περιβάλλοντα υπολογισμού Ποια από τις τεχνικές εξόρυξης δεδομένων ταιριάζει στο παράδειγμα? Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 8/ 32

Πρόβλεψη κίνησης χρήστη (mobile environments) Είσοδος: Οι διαδρομές των χρηστών Διαδικασία: Οργάνωση των διαδρομών με βάση την ομοιότητά τους και επιλογή προτύπων - αντιπροσώπων Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 9/ 32

Πρόβλεψη κίνησης χρήστη (mobile environments) Έξοδος: clusters όμοιων διαδρομών Ταίριασμα της διαδρομής του χρήστη με ένα (ή περισσότερα) πρότυπα, ώστε να προβλέψουμε την επόμενη θέση του Κεφάλαιο 1. Ζητήματα απόδοσης σε κατανεμημένα συστήματα 10 / 32

Κεφάλαιο 2: Εξόρυξη Δεδομένων Ανακάλυψη Γνώσης: εύρεση νέων, έγκυρων, χρήσιμων και κατανοητών προτύπων από τα δεδομένα Στηρίζεται στα γνωστικά πεδία : Βάσεις δεδομένων Τεχνητή νοημοσύνη Στατιστική 11 / 32

Κεφάλαιο 2: Τεχνικές εξόρυξης Στάδια ανάπτυξης της διαδικασίας Κεφάλαιο 2. Εξόρυξη Δεδομένων 12 / 32

Τεχνικές Data Mining επεξεργασίας Μελετήσαμε τη χρησιμότητα: Clustering διαδρομών χρήστη (mobile environments) Association rules που συνδέουν σελίδες (web) Sequential Analysis (future work) Κεφάλαιο 2. Εξόρυξη Δεδομένων 13 / 32

Ανακάλυψη Κανόνων Συσχέτισης Body Head [Support, Confidence] Επισκέπτεται(Χ,specials.html specials.html) Επισκέπτεται(Χ,financial.html financial.html) ) [5%,60%] Support : στατιστικό μέγεθος (ποσοστό που ισχύουν συγχρόνως A,B) Confidence : ποιοτικό (ποσοστό του A όταν ισχύει το B) Κεφάλαιο 2. Εξόρυξη Δεδομένων 14 / 32

Φάσεις αλγορίθμου Apriori Υπολογισμός support για κάθε item Δημιουργία frequent itemsets από τα ισχυρά items (support > threshold)...συνέχισε μέχρι να μην υπάρχουν υποψήφια υπερσύνολα Κεφάλαιο 2. Εξόρυξη Δεδομένων 15 / 32

Κεφάλαιο 3: Web Prefetching Έννοια του prefetching Συμπληρωματικό στο caching Πρόβλεψη συμπεριφοράς Αξιοποιεί : Το χρόνο μεταξύ διαδοχικών αιτήσεων Την τοπικότητα των επισκέψεων (αιτήσεις που γίνονται μαζί) 16 / 32

O μηχανισμός του prefetching Χρησιμότητα (Usefulness) Ακρίβεια (Accuracy) Φόρτος δικτύου (Network Traffic) Κεφάλαιο 3. Web Prefetching 17 / 32

Κεφάλαιο 4: Συγκέντρωση δεδομένων Αρχεία επισκέψεων http://www.mpa.gr Χρονική περίοδος : 01/08 ως 05/09/2003 Μέγεθος log files : 1.2 Gb (5 εβδ. αρχεία) Αριθμός αιτήσεων (HTTP Requests) : ~ 500.000 / εβδομάδα Όγκος δεδομένων : 15,5 Gb 18 / 32

Ανάπτυξη Λογισμικού Προ-επεξεργασία log files (www.mpa.gr( www.mpa.gr) Αφαίρεση θορύβου (αιτήσεις για αρχεία εικόνων, cgi, not found pages) Επιλογή δεδομένων (χρήσιμα πεδία του log file: IP,timestamp,URL) Μετασχηματισμοί (mapping IPs,, URLs ) Κεφάλαιο 4. Λογισμικό 19 / 32

Ανάπτυξη Λογισμικού Προσδιορισμός των συνόδων (transactions) των επισκεπτών Maximum 15 σελίδες (λόγω proxy servers) Χρονικό εύρος: : 2h2 Data Mining (Υλοποίηση Apriori) Είσοδος : transactions επισκεπτών Έξοδος : κανόνες συσχέτισης σελίδων Κεφάλαιο 4. Λογισμικό 20 / 32

Αριθμός κανόνων αρχείο mpa2 Κεφάλαιο 5. Αποτελέσματα 21 / 32

Μέγεθος κανόνων Κεφάλαιο 5. Αποτελέσματα 22 / 32

Χρόνος επεξεργασίας Κεφάλαιο 5. Αποτελέσματα 23 / 32

Κεφάλαιο 6: Συμπεράσματα Υπάρχει κανονικότητα στη συμπεριφορά των επισκεπτών Χαρακτηριστικά κανόνων συσχέτισης : Μικρό μέγεθος Λίγοι και κατανοητοί Ανιχνεύονται γρήγορα Prefetching Καλή Εφαρμογή 24 / 32

Γενικό συμπέρασμα Η Εξόρυξη Δεδομένων (κανόνες συσχέτισης) εφαρμόζεται με επιτυχία για τη βελτίωση της απόδοσης Κατανεμημένων Συστημάτων Κεφάλαιο 6. Συμπεράσματα-μελλοντική εργασία 25 / 32

Μελλοντική εργασία Web prefetching Εξόρυξη κανόνων, ώστε να λαμβάνεται υπόψη ο αριθμός των clicks μεταξύ των στοιχείων που αποτελούν έναν κανόνα. Κινητά περιβάλλοντα Αντί για ομαδοποίηση (clustering), να έχουμε ακολουθιακά πρότυπα (sequential patterns) Κεφάλαιο 6. Συμπεράσματα-μελλοντική εργασία 26 / 32

Ερωτήσεις?