ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Σχετικά έγγραφα
ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΟΜΑΔΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΧΡΗΣΤΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ

Τεχνικές Εξόρυξης Δεδομένων

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Μελέτη του αλγορίθμου ομαδοποίησης k-means σε δεδομένα του παγκόσμιου ιστού

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΑΝΑΓΝΩΡΙΣΗ ΚΟΙΝΟΤΗΤΩΝ ΚΑΙ ΣΥΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΤΗΝ ΧΡΗΣΗ ΣΥΝΘΕΤΙΚΩΝ ΣΥΝΤΕΤΑΓΜΕΝΩΝ

Εφαρμογή Ηλεκτρονικής Διαχείρισης Μετεγγραφών

Εξατομίκευση (Personalization) Τεχνολογίες & Υπηρεσίες (ΙΙ)

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

Προτεινόμενες Διπλωματικές Εργασίες 2009

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Network Science. Θεωρεία Γραφηµάτων (2)

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ο αλγόριθμος PageRank της Google

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Research Community Dashboard

Προσαρμοζόμενα. μενα και Εξατομικευμένα Επικοινωνιακά Περιβάλλοντα. Κων/νος Μουρλάς Επίκουρος Καθηγητής Τμήμα Επικοινωνίας & ΜΜΕ

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών ΑΕΙ

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ενημέρωση για την προστασία προσωπικών δεδομένων Δήλωσης Προστασίας Προσωπικών Δεδομένων και Χρήσεως Cookies

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Παρακολούθηση και βελτιστοποίηση της επισκεψιμότητας ενός δικτυακού τόπου

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών Α.Ε.Ι.

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ

Ποιοτικοί Δείκτες Υπηρεσιών Βιβλιοθηκών και Διαχείριση Πόρων: Μεθοδολογίες Ανάλυσης και στρατηγικός σχεδιασμός.

User Behavior Analysis for a Large2scale Search Engine

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Συστήματα Πολυμέσων. Υπερκείμενα & Υπερμέσα A

Φύλλο Κατανόησης 1.8


ΠΑΡΟΥΣΙΑΣΗ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΙΣΤΟΣΕΛΙΔΩΝ ΓΙΑ ΤΙΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ, ΠΟΙΟΤΙΚΗ ΕΡΕΥΝΑ ΣΕ ΕΙΔΙΚΟΥΣ SEO

Εκλογή Καθηγητή στο Τμήμα Αρχειονομίας, Βιβλιοθηκονομίας και Μουσειολογίας, στο γνωστικό αντικείμενο «Πληροφοριακά Συστήματα Βιβλιοθηκών και Αρχείων».

Ανάκτηση Πληροφορίας

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Τι προσφέρουν τα Τµήµατα Πληροφορικής. ... το Εργαστήριο Πληροφοριακών Συστηµάτων του Πα.Πει. Ερευνητικές δραστηριότητες σε GI Ενδεικτικές εργασίες

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

PServer. Θεωρία & Εφαρμογές. Δημήτριος Βογιατζής, dimitrv@iit.demokritos.gr Γεώργιος Παλιούρας, paliourg@iit.demokritos.gr

Οδηγός Σύγχρονης Τηλεκπαίδευσης για καθηγητές

Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών στα Πληροφοριακά Συστήματα

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Τεχνολογία Πολυμέσων. Ενότητα 6: Υπερκείμενο - Υπερμέσα. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Συνοπτική Παρουσίαση Πακέτου Στατιστικών Ιστοσελίδων.

Πώς λειτουργεί το Google?

Στρατηγική ανάπτυξη δικτυακού κόμβου

Τεχνολογία Ηλεκτρονικού Εμπορίου

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Δίκτυα Υπολογιστών Firewalls. Χάρης Μανιφάβας

ΤΕΧΝΙΚΕΣ ΓΙΑ ΠΡΟΣΑΡΜΟΣΤΙΚΗ ΚΑΙ ΠΡΟΣΩΠΟΠΟΙΗΜΕΝΗ ΠΡΟΣΒΑΣΗ ΣΕ ΙΣΤΟΣΕΛΙΔΕΣ

Ηλεκτρονικό Εμπόριο. Κωδικός Πακέτου ACTA - CEC 010 Certified E-Commerce Consultant Τίτλος Πακέτου

Σχεδιασμός και Υλοποίηση ενός πληροφοριακού συστήματος για τους τεχνικούς του φυσικού αερίου

Προτεινόμενες Διπλωματικές Εργασίες 2008

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ

Υποβοήθηση εκπαιδευτικής διαδικασίας μέσω πινάκων αναλυτικής εκπαιδευτικών δεδομένων

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ


substructure similarity search using features in graph databases

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Εξόρυξη Γνώσης από εδοµένα (data mining)

Speed-0 Παρουσίαση Φυσικού Αντικειμένου

ΝΕΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ, ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ, ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ, ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΕΙΣΑΓΩΓΙΚΗ ΚΑΤΕΥΘΥΝΣΗ ΔΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Data Mining)

ΕταιρικήΠαρουσίαση ΠΟΛΙΤΙΚΕΣ ΚΑΙ ΔΙΑΔΙΚΑΣΙΕΣ ΔΙΑΧΕΙΡΙΣΗΣ ΑΣΦΑΛΕΙΑΣ ΠΡΟΣΩΠΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΜΑΪΟΣ 2018

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Critical Infrastructures: The Nervous System of every Welfare State. G. Stergiopoulos, D. Gritzalis

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

interactivecommunication Search Marketing White Paper Φεβρουάριος , Cybertechnics Ltd. All rights reserved.

Δομές Δεδομένων και Αλγόριθμοι. Λουκάς Γεωργιάδης

Κεφάλαιο 8. NP και Υπολογιστική Δυσεπιλυσιμότητα. Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Information Retrieval

Παράλληλη Επεξεργασία Κεφάλαιο 7 ο Αρχιτεκτονική Συστημάτων Κατανεμημένης Μνήμης

Απεικόνιση Γεωγραφικής Ανάλυσης Δεδοµένων Οικονοµικών Ροών Παγκόσµιας Κλίµακας µε την Χρήση Διαδικτυακών Υπηρεσιών

Network Science Θεωρεία Γραφηµάτων (1)

Κεφάλαιο 8. NP και Υπολογιστική Δυσεπιλυσιµότητα. Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

PROXY SERVER. Άριστη πύλη διαχωρισμού μεταξύ του εσωτερικού δικτύου και του Internet.

Προσομοίωση Μοντέλων Επιχειρησιακών Διαδικασιών

Εξόρυξη Δεδομένων Χρήσης για Συστήματα Συστάσεων Mining Usage Data for Recommender Systems

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη Αθηνά Θεσσαλονίκη, Φεβρουάριος 2005

ΟΜΑΔΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΧΡΗΣΤΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ INTERNET DATA AND USERS CLUSTERING

ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ ΕΙΣΑΓΩΓΗ Σκοπός Εργασίας Web Mining Web Usage Mining ΠΑΡΟΥΣΙΑΣΗ ΠΡΟΒΛΗΜΑΤΟΣ Ο Γράφος Web Μετρικές του Web MajorClust ΠΡΟΤΕΙΝΟΜΕΝΗ ΜΕΘΟΔΟΛΟΓΙΑ Προ-Επεξεργασία Προφίλ Χρηστών Γράφος του Web Site Ομαδοποίηση Σελίδων Ομαδοποίηση Χρηστών ΠΕΙΡΑΜΑΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ

ΕΙΣΑΓΩΓΗ

ΣΚΟΠΟΣ ΕΡΓΑΣΙΑΣ Μελέτη μεθόδων ομαδοποίησης δεδομένων και χρηστών του Διαδικτύου Μοντελοποίηση ενός Web Site με τη μορφή γράφου Χρήση μετρικών του Web στον γράφο και τη συμπεριφορά των χρηστών Εφαρμογή του αλγόριθμου ομαδοποίησης MajorClust Ομαδοποίηση σελίδων και χρηστών Προτείνεται ολοκληρωμένη μεθοδολογία ανάλυσης ομαδοποίησης σελίδων και χρηστών του Web

ΕΙΣΑΓΩΓΗ Web Mining Ορισμός Η εφαρμογή τεχνικών του τομέα της Εξόρυξης Δεδομένων ή άλλων τεχνικών επεξεργασίας δεδομένων με σκοπό την αυτοματοποιημένη εξερεύνηση και εξαγωγή ενδιαφερόντων και ενδεχομένως χρήσιμων προτύπων και έμμεσων πληροφοριών από έγγραφα, υπηρεσίες ή τη δραστηριότητα των χρηστών που εντοπίζεται στον χώρο του Παγκόσμιου Ιστού (WWW).

ΕΙΣΑΓΩΓΗ Web Mining ΚΑΤΗΓΟΡΙΕΣ Web Content Mining Ανακάλυψη νέων πληροφοριών και γνώσης από την ανάλυση του περιεχομένου εγγράφων και ιστοσελίδων στο Web. Web Structure Mining Εξόρυξη γνώσης από τη δομή των Web Sites και εντοπίζει τις συσχετίσεις που υπάρχουν μεταξύ των ιστοσελίδων του. Web Usage Mining Εστιάζει στη συμπεριφορά των χρηστών, στη μοντελοποίηση, την πρόβλεψη και τη διεπαφή τους με το Web Site ΕΦΑΡΜΟΓΕΣ Προσωποποίηση - Προφίλ Χρηστών Στατικά / Δυναμικά Προσωπικά Δεδομένα Βελτίωση Απόδοσης Συστήματος Load Balancing Data Distribution Network Monitoring Security (IDS) Web Caching and Prefetching Διαμόρφωση Web Site Business Intelligence Marketing CRM

ΕΙΣΑΓΩΓΗ Web Usage Mining Πηγή πληροφορίας : Web Logs Προεπεξεργασία Εκκαθάριση Web Logs Αναγνώριση Χρηστών Αναγνώριση Συνόδων / Συναλλαγών Συμπλήρωση Διαδρομών Πλοήγησης Αναγνώριση Προτύπων Statistical Analysis Association Rules Clustering Classification Sequential Patterns Dependency Modeling Ανάλυση Προτύπων

ΠΑΡΟΥΣΙΑΣΗ ΠΡΟΒΛΗΜΑΤΟΣ

Ο ΓΡΑΦΟΣ WEB ΙΔΙΟΤΗΤΕΣ Κατευθυνόμενος Κόμβοι = Σύνολο σελίδων Ακμές = Σύνολο συνδέσμων Ασαφές μεγάλο μέγεθος Μεταβάλλεται συνεχώς Αραιός Οι ιδιότητες του δεν εξαρτώνται από την κλίμακα ΕΦΑΡΜΟΓΕΣ Μηχανές Αναζήτησης Σκιαγράφηση τάσεων Αποτελεσματικότερη μετάδοση πληροφορίας (Web Communities) Targeted Marketing

ΜΕΤΡΙΚΕΣ ΤΟΥ WEB Graph Properties Centrality Global Local Web Page Significance Relevance Quality Web Page Search Effectiveness Comparison Web Page Similarity Content Link Usage Characterization Information Theoretic

MAJORCLUST Ιεραρχικός Συσσωρευτικός Αποκλειστικός Μη Βέλτιστος Edge Connectivity λ ( G) = min{ E': E' E και G' = V, E\ E' να μην είναι συνδεδεμένος γράφος} Weighted Partial Edge Connectivity ( ) k C Ci λi Λ = i= 1 Λ(C*) Λ* = max{λ(c) όταν το C είναι μια ανάλυση του G }

ΠΡΟΤΕΙΝΟΜΕΝΗ ΜΕΘΟΔΟΛΟΓΙΑ

Διάγραμμα Προτεινόμενης Μεθοδολογίας

ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ Αποτελέσματα Προ-Επεξεργασίας Εκκαθάριση Web Logs Εικόνες, Error Codes, κτλ Αναγνώριση Χρηστών IP Address Αναγνώριση Συνόδων Time Window MFR Εκκαθάριση Αποτελεσμάτων Παράμετροι Min Session Size = 3 Max Session Size = 100 Min User Size = 3 Αρχικά Δεδομένα Μετά την Εκκαθάριση Users 15.346 875 Sessions 37.213 8.474 Web Pages 2.366 1.216 Page Views 109.974 48.455 Users List User 0 User 1 User 2... User Μ-1 0 User Sessions 1 1 0 1 1 1 0 1 0 0 0 1 0 1 2 3..... s 0,0 s 0,1 s 0,L P-1 Web Pages List

ΠΡΟΦΙΛ ΧΡΗΣΤΩΝ Βάρη Επισκέψεων Χρηστών Δυαδική Το ίδιο βάρος σε όλες τις επισκέψεις Σειρά Επίσκεψης Μεγαλύτερο βάρος στις επισκέψεις αργότερα στην ακολουθία των μεταβάσεων Διάρκεια Επίσκεψης TF.IDF Βάρος ανάλογο της διάρκειας της επίσκεψης Επισκέψεις συνόδων ανάλογες των λεκτικών όρων σε σύνολο εγγράφων

ΠΡΟΦΙΛ ΧΡΗΣΤΩΝ Αναπαράσταση Users List User Sessions s 0,j Users List User Profiles User 0 s 0,0 User 0 u 0 User 1 s 0,1 User 1 u 1 User 2... s 0,Li-1 User 2...... u 2 User Μ-1 Mean Value User Μ-1 u M-1 u 0 Mean User Session or User Profile u 0 Προφίλ Χρήστη i = Σ(ΣυνόδωνΣυνόδων j) ) / Πλήθος Συνόδων L i

ΓΡΑΦΟΣ ΤΟΥ WEB SITE Οι σελίδες ορίζουν το σύνολο των κόμβων V Οι ακμές του γράφου Ε προκύπτουν από τις μεταβάσεις των χρηστών από σελίδα σε σελίδα (σύνοδοι χρηστών) Ο γράφος μοντελοποιεί την πλοήγηση των χρηστών στο Web Site

ΓΡΑΦΟΣ ΤΟΥ WEB SITE Web Pages List = (0, 1, 2, 3, 4, 5, 6, 7, 8, 9) s = (0 1 5 9 4 5 1 7 9 4) 4) 0 7 2 3 9 8 6 1 4 5

ΓΡΑΦΟΣ ΤΟΥ WEB SITE Βάρη Ακμών Δεν μεταβάλλεται ο γράφος Δυαδική Διελεύσεις Χρηστών Διελεύσεις Συνδέσμων Μεταβάλλεται ο γράφος Bibliographic Coupling Co-Citation Citation Coupling Co-Occurrence Frequencies

ΓΡΑΦΟΣ ΤΟΥ WEB SITE Βάρη Κόμβων Δυαδική Διάρκεια Επισκέψεων (σύνολο Πλήθος Επισκέψεων RIC (Relative In Centrality) ROC (Relative Out Centrality) σύνολο χρηστών)

ΟΜΑΔΟΠΟΙΗΣΗ ΣΕΛΙΔΩΝ Μοντελοποίηση Web Site με γράφο Η ομαδοποίηση του γράφου εξαρτάται από: Συνόδους Πλοήγηση Χρηστών Μετρικές απόδοσης βαρών στις ακμές του γράφου Αλγόριθμο MajoCLust

ΟΜΑΔΟΠΟΙΗΣΗ ΣΕΛΙΔΩΝ Παράδειγμα νέου Majorclust Προσαρμογή MajorClust σε κατευθυνόμενους γράφους Τυχαία εξέταση κόμβων γράφου 1 8 1 2 2 8 1 2 2 10 30 10 10 30 10 3 3 50 20 5 4 1 3 3 20 4 50 5 6 7 6 7 In Weights Sum (3) = 50 < 70 = Out Weights Sum (3)

ΟΜΑΔΟΠΟΙΗΣΗ ΧΡΗΣΤΩΝ Η ομαδοποίηση χρηστών βασίζεται στην ομαδοποίηση σελίδων Κάθε χρήστης ανατίθεται σε μία (αποκλειστική) ή περισσότερες (ασαφής) ομάδες σελίδων Για κάθε χρήστη υπολογίζεται το ποσοστό συμμετοχής του σε κάθε ομάδα σελίδων με βάση το προφίλ του και τον βαθμό σπουδαιότητας των σελίδων της ομάδας.

ΟΜΑΔΟΠΟΙΗΣΗ ΧΡΗΣΤΩΝ Ποσοστό Συμμετοχής MaxUserMatch ik, P 1 j= 0, i, j 0 = u P 1 = j= 0 vj ck, p UserMatch ik, v c u UserParticipation i, k V = το σύνολο των κόμβων / σελίδων του Web Site C = η ομαδοποίηση του γράφου του Web Site U = ο πίνακας των προφίλ των χρηστών v j = το βάρος σπουδαιότητας της σελίδας i c k,p =0 ή 1, συμμετοχή της σελίδας p στην ομάδα k u i,j =βάροςβάρος της σελίδας j στο προφίλ του χρήστη i i = 0 M-1, 0 οι χρήστες k = 0 K-1, 0 οι ομάδες σελίδων j = 0 P-1, 0 οι σελίδες του Web Site = j k, p i, j UserMatch MaxUserMatch i, k i, k

ΟΜΑΔΟΠΟΙΗΣΗ ΧΡΗΣΤΩΝ Παράδειγμα Ομαδοποίησης Παράδειγμα Ομαδοποίησης Χρηστών Ομάδες Σελίδων Χρήστες Α 1 (90%) Β C 1 (70%) 2 (80%) 3 (75%) 2 (90%) 3 (100%) Ομάδες Χρηστών Χρήστες Ομάδες Σελίδων Α 1 Α Β C 1 2 3 2 3 Β C A Web Page Clusters B 90% 70% 80% 75% 90% 100% C Αντιστοίχιση Χρηστών Ομάδων Σελίδων Ομάδες Χρηστών Χρήστες Ομάδες Σελίδων Α 1 Α Β Ασαφής Ανάθεση Χρηστών Ø 2 3 Β C 1 2 Users 3 Αποκλειστική Ανάθεση Χρηστών

ΠΕΙΡΑΜΑΤΑ

ΠΕΙΡΑΜΑΤΑ Προ-επεξεργασία Ελάχιστο μέγεθος συνόδου 3 επισκέψεις Μέγιστο μέγεθος συνόδου 100 επισκέψεις Ελάχιστο μέγεθος χρήστη 3 σύνοδοι Session Timeout 30 MFR - Παράμετροι Εκκαθάρισης Δεδομένων Αρχικά Στοιχεία Τελικά Στοιχεία Ποσοστό Μεταβολής Users 15.346 875-94,30% Sessions 37.213 8.474-77,23% Web Pages 2.366 1.216-48,61% Page Views 109.974 48.455-55,94% Αποτελέσματα Προ-επεξεργασίας

ΠΕΙΡΑΜΑΤΑ Προ-επεξεργασία Κατανομή Μεγεθών Συνόδων Χρηστών

ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Σελίδων Μέθοδος Πλήθος Ακμών Πλήθος Κόμβων Κάτω Όριο Ανεξ. Γράφοι Ομάδες Σελίδων Μέσο Μέγεθος Ομάδας Μέγιστο Μέγεθος Ομάδας DB Index Λ Measure Δείκτης Ποιότητας Ομαδοποίησης Δυαδική 6.344 1.216-6 31 39.22 891 1,03999 1.290,000000 1,240.3881 Διελεύσεις Χρηστών 6.344 1.216-6 82 14.83 370 5,79798 1,159637 0.2000 Διελεύσεις Συνδέσμων 6.344 1.216-6 85 14.14 388 8,77218 1,178231 0.1343 Bibliographic Coupling 10.439 1.216 0,20 6 76 16 359 1,68472 856,854000 508.6005 Co-Citation Citation Coupling 9.149 1.216 0,20 6 64 25.87 544 1,36526 897,864000 657.6479 Co- Occurrence Frequencies 28.898 1.216 0,27 7 51 23.84 102 1,10190 10.702,271000 9,712.5258 Αποτελέσματα Μεθόδων Ομαδοποίησης Σελίδων

ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Σελίδων Κατανομή μεγεθών ομάδων σελίδων

ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Σελίδων Μέθοδος 1 Co-Occurrence Frequencies Λ Measure x 1 / DB-Index 9,712.5258 2 Δυαδική 1,240.3881 3 Co-Citation Citation Coupling 4 Bibliographic Coupling 657.6479 508.6005 5 Διελεύσεις Χρηστών 0.2000 6 Διελεύσεις Συνδέσμων 0.1343 Κατάταξη Περιπτώσεων Ομαδοποίησης Σελίδων

ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Σελίδων Ομαδοποίηση Σελίδων (Co-Occurrence Frequencies)

ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Χρηστών Απόδοση Βαρών Ακμών (Ομαδοποίηση Σελίδων) 1. Binary 2. Users Traverses 3. Links Traverses 4. Bibliographic Coupling 5. Co-citation Coupling 6. Co-occurrence occurrence Frequencies Προφίλ Χρηστών (Απόδοση Βαρών Επισκέψεων) 1. Binary 2. TF.IDF 3. View Time 4. Linear Order Κατάταξη Σπουδαιότητας Σελίδων 1. Binary 2. View Time 3. Hits Count 4. RIC 5. ROC 120 Περιπτώσεις Ομαδοποίησης Χρηστών

Μέγιστα Μεγέθη Ομάδων (αποκλειστική ΠΕΙΡΑΜΑΤΑ Ομαδοποίηση Χρηστών αποκλειστική ομαδοποίηση). Μέσα Μεγέθη Ομάδων (αποκλειστική ομαδοποίηση). Μέγιστα Μεγέθη Ομάδων (ασαφής ομαδοποίηση). Μέσα Μεγέθη Ομάδων (ασαφής ομαδοποίηση).

ΣΥΜΠΕΡΑΣΜΑΤΑ

ΣΥΜΠΕΡΑΣΜΑΤΑ Η ποιότητα των ομαδοποιήσεων σελίδων και χρηστών είναι ένα υποκειμενικό ζήτημα που αφορά το συγκεκριμένο περιβάλλον εφαρμογής. «Καλύτερη» ομαδοποίηση σελίδων προκύπτει από τη μετρική απόδοσης βαρών ακμών «Co- Occurrence Frequencies» (DB-Index, Λ Measure) «Καλύτερη» ομαδοποίηση χρηστών προκύπτει από τον συνδυασμό Co-Occurrence Frequencies - TF.IDF Ανάλογα με το πρόβλημα που μελετάται, επιλέγονται οι μέθοδοι με τα αντίστοιχα χαρακτηριστικά

ΕΡΩΤΗΣΕΙΣ?

ΕΥΧΑΡΙΣΤΩ!