P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης ιπλωµατική Εργασία του Θεοδώρου Ι. Γαλάνη ΠΕΡΙΛΗΨΗ Γενικά Με την εξάπλωση του διαδικτύου όλο και περισσότεροι χρήστες του επιλέγουν να αναζητήσουν πληροφορίες σε πύλες καταλόγου εξαιτίας της ευκολίας στην αναζήτηση των πληροφοριών που προσφέρουν και στην πληθώρα των πληροφοριών που διαθέτουν. Εξαιτίας της µεγάλης αυτής χρήσης των πυλών καταλόγων γίνεται όλο και επιτακτικότερη η προσπάθεια βελτίωσής τους και η προσπάθεια ακόµα περισσότερης διευκόλυνσης των χρηστών στην αναζήτηση των πληροφοριών που επιθυµούν. Η εξατοµίκευση των πυλών καταλόγου σύµφωνα µε τις ανάγκες τους, η οποία επιτυγχάνεται µε µελέτη των πλοηγήσεων των χρηστών είναι µία σηµαντική προσπάθεια προς την παραπάνω κατεύθυνση. Αντικείµενο Αντικείµενο της διπλωµατικής είναι η δηµιουργία ενός συστήµατος διαχείρισης Πυλών Καταλόγων (Portals) µε υποστήριξη διαδικασιών εξόρυξης δεδοµένων χρήσης. Τα δεδοµένα χρήσης προκύπτουν από τις πλοηγήσεις των χρηστών, οι οποίες καταγράφονται σε µία βάση δεδοµένων. Εφαρµογή 1. Μοντέλο Αποθήκευσης πυλών Στα πλαίσια της εργασίας σχεδιάζουµε ένα µοντέλο αποθήκευσης πυλών καταλόγων µε τη µορφή µιας οντολογίας. Ορίζουµε τις έννοιες «κατηγορία» και «σύνδεσµος» (link), καθώς και τις σχέσεις-ρόλους µεταξύ τους. Συγκεκριµένα δύο κατηγορίες -1-
µπορούν να συσχετίζονται είτε µέσω της σχέσης κατηγορία/υποκατηγορία (IS_A), µε τον αυστηρό και µαθηµατικό ορισµό της, είτε να είναι απλά σχετικές (σχέση RELATED). Χάρη στη γενικότητα του µοντέλου, µπορούν να οριστούν και άλλες πιο εξειδικευµένες σχέσεις µεταξύ κατηγοριών όπως π.χ. οι HAS_A, COMPONENT_OF, PART_OF. Ως case study χρησιµοποιείται το Open Directory Project του dmoz (www.dmoz.org), η δοµή του οποίου αποθηκεύεται σύµφωνα µε το µοντέλο µας σε µια βάση δεδοµένων MySQL. Ωστόσο επειδή στο dmoz οι σχέσεις της µορφής κατηγορία/υποκατηγορία δεν είναι συνεπείς µε τον ορισµό της IS_A σχέσης, όλες οι σχέσεις µεταξύ κατηγοριών που υπάρχουν στο dmoz χαρακτηρίζονται ως RELATED ενώ προσθέτουµε µερικές IS_A σχέσεις εκ υστέρων. 2. Εφαρµογή ιαχείρισης Το σύστηµα διαχείρισης που αναπτύσσεται στη συγκεκριµένη διπλωµατική εργασία ονοµάζεται P-Miner. Ενσωµατώνει και αξιοποιεί όλες τις λειτουργίες που προσφέρει το σύστηµα NaviMoz, το οποίο είχε αναπτυχθεί σε προηγούµενη διπλωµατική εργασία 1 και προσφέρει και µία σειρά από νέες. Οι λειτουργίες που προσέφερε το NaviMoz ήταν κυρίως λειτουργίες παρατήρησης της συµπεριφοράς των χρηστών και παρουσίασης στο διαχειριστή πληροφοριών σχετικών µε τις πλοηγήσεις αυτών, όπως η εύρεση των πιο δηµοφιλών πλοηγήσεων, η εύρεση των πλοηγήσεων που είναι σε ένα ποσοστό όµοιες µε µια δοσµένη πλοήγηση, η συσταδοποίηση των πλοηγήσεων κ.ά. Στο P-Miner ενσωµατώθηκαν πλήρως αυτές οι λειτουργίες αλλά προσφέρονται και νέες, οι οποίες δίνουν επιπλέον τη δυνατότητα στο διαχειριστή να τροποποιήσει άµεσα το περιεχόµενο της πύλης στα σηµεία όπου εκείνος το κρίνει σκόπιµο και να εξατοµικεύσει την πύλη σύµφωνα µε τις ανάγκες και τα ενδιαφέροντα των χρηστών, διευκολύνοντάς τους στην αναζήτηση των πληροφοριών και στην αύξηση της χρηστικότητας της πύλης. Η πρώτη κατηγορία των νέων αυτών λειτουργιών αφορά στην τροποποίηση της ιεραρχίας και του περιεχοµένου της πύλης. ίνεται έτσι η δυνατότητα στο διαχειριστή να δηµιουργήσει, να τροποποιήσει και να διαγράψει κατηγορίες, 1 Χριστοδούλου Γ. Ελένη, Εξόρυξη Γνώσης από Πλοηγήσεις Χρηστών σε Πύλες Καταλόγων (Portal Catalogs), Οκτώβριος 2005-2-
συνδέσµους και σχέσεις-ρόλους. Κατά τη διαγραφή των κατηγοριών µπορεί να επιλέξει είτε να διαγράψει κάποια κατηγορία µαζί µε τις σχέσεις στις οποίες αυτή συµµετέχει, είτε να διαγράψει κάποια κατηγορία και οι σχέσεις στις οποίες συµµετέχει να µεταφερθούν στις υποκατηγορίες (IS_A) της, εφόσον αυτές υπάρχουν. Επίσης του δίνεται η δυνατότητα να συσχετίσει κατηγορίες µε τους ρόλους που έχουν δηµιουργηθεί στο σύστηµα ή να καταργήσει συσχετίσεις µεταξύ κατηγοριών. Μια άλλη κατηγορία λειτουργιών αφορά λειτουργίες που σχετίζονται µε τις οµάδες χρηστών. Στο σύστηµα του P-Miner υπάρχει η δυνατότητα οι χρήστες που έχουν πραγµατοποιήσει παρόµοιες πλοηγήσεις και άρα έχουν παρόµοια συµπεριφορά και κοινά ενδιαφέροντα να οµαδοποιηθούν µε βάση τις πλοηγήσεις τους αυτές, πράγµα που µπορεί να εκµεταλλευτεί ο διαχειριστής για την εξατοµίκευση της πύλης. Οι λειτουργίες αυτής της κατηγορίας παρέχουν τη δυνατότητα στο διαχειριστή να δει τις οµάδες των χρηστών του συστήµατος που υπάρχουν, να δηµιουργήσει νέες οµάδες χρησιµοποιώντας τους αλγόριθµους συσταδοποίησης K-Means και Single Link ή να τις τροποποιήσει. Η τροποποίηση αφορά στην αλλαγή των στοιχείων κάποιας οµάδας, διαγραφή κάποιας οµάδας, διαγραφή κάποιου µέλους κάποιας οµάδας ή στην προσθήκη σε µια οµάδα κάποιας πλοήγησης που ο διαχειριστής κρίνει ότι θα πρέπει να ανήκει σε αυτή. Επίσης ο διαχειριστής µπορεί να εντοπίσει µέσω του συστήµατος τις πιο δηµοφιλείς πλοηγήσεις που έχουν πραγµατοποιηθεί ανά οµάδα χρηστών ενώ του γίνεται πρόταση για τη δηµιουργία συντόµευσης (shortcut) από την κορυφή της πύλης προς τις τελικές κατηγορίες των πιο δηµοφιλών πλοηγήσεων, το οποίο θα διευκολύνει τα µέλη µιας οµάδας που θεωρητικά έχουν κοινά ενδιαφέροντα στην αναζήτηση των πληροφοριών. Η συντόµευση ορίζεται µε µια σχέση, τον τύπο της οποίας θα µπορεί να επιλέξει ο διαχειριστής και θα εµφανίζεται µόνο στα µέλη της οµάδας. Η τρίτη κατηγορία λειτουργιών αφορά τις κατηγορίες και τις περιοχές της πύλης που σηµειώνονται back και forward στις πλοηγήσεις των χρηστών. Οι κατηγορίες αυτές οριοθετούν µια περιοχή της ιεραρχίας, στην οποία οι χρήστες αναζητούν ανεπιτυχώς την πληροφορία που θέλουν σε λάθος σηµεία, γεγονός που υποδηλώνει την ύπαρξη κάποιου προβλήµατος στη δοµή της πύλης ή κάποιας παραπλανητικής πληροφορίας, τα οποία δυσκολεύουν τους χρήστες και µειώνουν τη χρηστικότητα της πύλης. Ο διαχειριστής µπορεί να αναζητήσει τις κατηγορίες στις οποίες σηµειώνονται τα περισσότερα back-forward και τις ακολουθίες αυτών των κατηγοριών που -3-
εµφανίζονται πιο συχνά στις πλοηγήσεις των χρηστών. Με βάση αυτές τις ακολουθίες γίνεται πρόταση στο διαχειριστή για δηµιουργία κατάλληλης συντόµευσης µεταξύ των κατηγοριών των ακολουθιών αυτών, το οποίο πιθανώς θα αντιµετωπίζει τα προβλήµατα που αντιµετωπίζουν οι χρήστες στις πλοηγήσεις τους σε αυτή την περιοχή της πύλης. Η συντόµευση κατασκευάζεται και πάλι ως µια σχέση, τον τύπο της οποίας θα µπορεί να επιλέξει ο διαχειριστής και η οποία θα εµφανίζεται σε όλους τους χρήστες του συστήµατος. Η τελευταία κατηγορία λειτουργιών σχετίζεται µε τους συνδέσµους (links) που επιλέγουν οι χρήστες κατά τη διάρκεια των πλοηγήσεών τους στην ιεραρχία της πύλης. Οι σύνδεσµοι που επιλέγει κάθε χρήστης κατά τη διάρκεια των πλοηγήσεών του µαρτυρούν το πόσο εύκολα ο συγκεκριµένος χρήστης βρήκε την πληροφορία που αναζητούσε. Εφόσον στη διάρκεια µιας πλοήγησης κάποιος χρήστης επιλέξει παραπάνω από ένα σύνδεσµο, σηµαίνει ότι αρχικά αναζήτησε κάποια πληροφορία σε κάποιο σύνδεσµο ή κάποιους συνδέσµους, την οποία δε βρήκε και έτσι συνέχισε την αναζήτηση κάπου αλλού. Ενδεχοµένως βρήκε αυτό που ήθελε στον τελευταίο σύνδεσµο που επέλεξε. Και σ αυτήν την περίπτωση είναι πιθανόν να υπάρχει κάποιο πρόβληµα στη δοµή της πύλης, το οποίο δυσκολεύει τους χρήστες στην αναζήτηση των πληροφοριών. Ο διαχειριστής ενηµερώνεται για τους πιο δηµοφιλείς συνδέσµους και για τις ακολουθίες των συνδέσµων που επιλέγονται πιο συχνά στις πλοηγήσεις των χρηστών και του γίνεται πρόταση από το σύστηµα για τη δηµιουργία κατάλληλης συντόµευσης, ώστε να αντιµετωπιστεί το πρόβληµα αυτό. Στη συνέχεια επιλέγει τον τύπο της σχέσης µε βάση την οποία θα κατασκευαστεί η συντόµευση µεταξύ της κατηγορίας που πατήθηκε ο πρώτος σύνδεσµος και της κατηγορίας που πατήθηκε ο τελευταίος σύνδεσµος κάθε ακολουθίας συνδέσµων. Και αυτή η συντόµευση θα εµφανίζεται σε όλους τους χρήστες του συστήµατος. Συνεισφορά Στη διπλωµατική αυτή εργασία δηµιουργήθηκε ένα δυναµικό µοντέλο αποθήκευσης πυλών καταλόγου, αντιµετωπίζοντας τις πύλες σαν οντολογία. Επίσης µε το σύστηµα το P-Miner υλοποιήθηκε ένα σύστηµα διαχείρισης πυλών καταλόγου που υποστηρίζει διαδικασίες εξόρυξης δεδοµένων χρήσης και παρέχει δυνατότητες εξατοµίκευσης των πυλών σύµφωνα µε τις ανάγκες των χρηστών τους. Ο διαχειριστής χρησιµοποιώντας -4-
το σύστηµα αυτό έχει τη δυνατότητα να παρατηρεί και να ενηµερώνεται για τα στοιχεία των πλοηγήσεων των χρηστών και να µελετά τη συµπεριφορά τους. Με βάση τη συµπεριφορά τους έχει τη δυνατότητα να εντοπίσει προβληµατικές περιοχές στην ιεραρχία της πύλης και να εξατοµικεύσει την πύλη σύµφωνα µε τις ανάγκες τους και τις προτιµήσεις τους, µε σκοπό την αύξηση της χρηστικότητας της πύλης και τη διευκόλυνση των χρηστών στην αναζήτηση των πληροφοριών που επιθυµούν. Μελλοντικές Επεκτάσεις Μια µελλοντική επέκταση του συστήµατος είναι να δοθεί η δυνατότητα να δηµιουργούνται οµάδες χρηστών και µε άλλα κριτήρια, όπως για παράδειγµα η οµαδοποίηση των χρηστών που έχουν πραγµατοποιήσει ίδιες πλοηγήσεις µέχρι ένα σηµείο, το οποίο ορίζεται από το διαχειριστή, και στη συνέχεια διαφοροποιούνται. Επίσης το σύστηµα του P-Miner θα µπορούσε κατά την εγγραφή νέων χρηστών να τους ρωτά για τις προτιµήσεις τους και τα ενδιαφέροντά τους κατασκευάζοντας έτσι το προφίλ τους, το οποίο θα µπορούσε να χρησιµοποιηθεί για την εξατοµίκευση της πύλης στους χρήστες της. -5-