ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Μεταπτυχιακό Δίπλωμα Ειδίκευσης «Επιστήμη και Τεχνολογία Υπολογιστών» Διπλωματική Εργασία Χρήση Θεματικών Ταξινομιών για την Αυτόματη Δημιουργία και Οργάνωση Εξατομικευμένων Καταλόγων Διαδικτύου : Ένας Πρότυπος Αλγόριθμος Ταξινόμησης ΚΡΙΚΟΣ ΒΛΑΣΗΣ Μηχανικός Η/Υ και Πληροφορικής Επιβλέπων Καθηγητής Δημήτρης Χριστοδουλάκης, Καθηγητής Τριμελής Συμβουλευτική Επιτροπή Δημήτριος Χριστοδουλάκης, Καθηγητής Χρήστος Μπούρας, Αναπληρωτής Καθηγητής Γεώργιος Παυλίδης, Καθηγητής Πάτρα, 2005
Ευχαριστίες Για την ολοκλήρωση αυτής της εργασίας οφείλω να ευχαριστήσω τον καθηγητή και επιβλέποντα κ. Χριστοδουλάκη. Οι γνώσεις του και οι συμβουλές του ήταν πράγματι πολύτιμες και έδωσαν στην εργασία χαρακτήρα εκπαιδευτικό και ταυτόχρονα ερευνητικό. Μαζί με τον επιβλέποντα καθηγητή θα ήθελα να ευχαριστήσω τα υπόλοιπα μέλη της τριμελούς συμβουλευτικής επιτροπής : Καθηγητή Χρήστο Μπούρα και Καθηγητή Γιώργο Παυλίδη. Θα ήθελα να ευχαριστήσω τους συνεργάτες και φίλους μου Στάμου Σοφία και Κοκόση Παύλο, για την άψογη συνεργασία που είχαμε κατά την διάρκεια υλοποίησης τμημάτων σχετικών με το θέμα της διπλωματικής αυτής. Βλάσης Α. Κρίκος
Περίληψη Οι εξατομικευμένοι κατάλογοι διαδικτύου εμφανίστηκαν σχεδόν ταυτόχρονα με την εμφάνιση των φυλλομετρητών διαδικτύων, και από τότε όλοι οι φυλλομετρητές ενσωματώνουν απλά συστήματα διαχείρισης των εξατομικευμένων καταλόγων. Με τον όρο εξατομικευμένοι κατάλογοι εννοούμε τις προσωπικές συλλογές από ιστοσελίδες που ένας χρήστης διαδικτύου αποθηκεύει κατά την ώρα της πλοήγησης στον Παγκόσμιο Ιστό. Οι εξατομικευμένοι κατάλογοι διαδικτύου χρησιμοποιούνται σαν «προσωπικός χώρος πληροφορίας του δικτύου» για να βοηθούν τους ανθρώπους να θυμούνται και να ανακτούν ενδιαφέρουσες ιστοσελίδες από το διαδίκτυο. Στην εργασία αυτή παρουσιάζουμε ένα πρότυπο σύστημα διαχείρισης εξατομικευμένων καταλόγων διαδικτύου ορίζοντας τις προϋποθέσεις που πρέπει να πληρεί ώστε να είναι εύχρηστο και αποτελεσματικό. Το σύστημα αυτό έχει όλες τις δυνατότητες που έχουν τα εμπορικά αλλά και τα πρότυπα συστήματα διαχείρισης bookmarks. Επιπλέον διαθέτει καινοτόμες λειτουργίες που το καθιστούν μοναδικό. Παράλληλα παρουσιάζουμε αναλυτικά έναν πρότυπο αλγόριθμο κατάταξης, τον αλγόριθμο κατάταξης με βάση την συνάφεια των σελίδων με τις κατηγορίες στις οποίες ανήκουν. Τον αλγόριθμο αυτόν τον συγκρίνουμε με τον δημοφιλή αλγόριθμος γενικής κατάταξης το PageRank. Από το πείραμα που κάναμε προκύπτει ότι ο αλγόριθμος που προτείνουμε είναι πιο κατάλληλος για την ταξινόμηση των σελίδων σε θεματικές κατηγορίες από το PageRank.
Δημοσιεύσεις Κατά την εκπόνηση της διπλωματικής αυτή προέκυψαν οι ακόλουθες δημοσιεύσεις. 1. Krikos V., Stamou S., Kokosis P., Ntoulas A. and Christodoulakis D. DirectoryRank: Ordering Pages in Web Directories, WIDM 05, November 5, 2005, Bremen, Germany 2. Stamou S., Krikos V., Kokosis P., Ntoulas A. and Christodoulakis D. Web directory construction using lexical chains. In Proceedings of the 10 th NLDB Conference 2005, 138-149 3. Kokosis P., Stamou S., Krikos V. and Christodoulakis D. HiBO: A System for Automatically Organizing Bookmarks, JCDL 05, June 7 11, 2005, Denver, Colorado, USA. 4. Stamou S., Krikos V., Kokosis P., Christodoulakis D. 2006. "Classifying Web Data in Directory Structures". In proceedings of the 8th Asia Pacific Web Conference (APWeb'06), January 16-18, Harbin, China (14% accepted)
ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1...12 ΕΙΣΑΓΩΓΗ...12 1.1 ΤΙ ΕΙΝΑΙ ΚΑΙ ΠΟΙΑ ΕΙΝΑΙ Η ΧΡΗΣΙΜΟΤΗΤΑ ΤΩΝ ΕΞΑΤΟΜΙΚΕΥΜΕΝΩΝ ΚΑΤΑΛΟΓΩΝ...12 1.2 ΑΝΤΙΚΕΙΜΕΝΟ ΤΗΣ ΔΙΠΛΩΜΑΤΙΚΗ...14 1.2.1 Σύστημα διαχείρισης εξατομικευμένων καταλόγων...14 1.2.2 Αλγόριθμος κατάταξης με βάση την συνάφεια των κειμένων...15 1.3 ΔΟΜΗ ΤΗΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ...15 1.4 ΣΥΝΕΙΣΦΟΡΑ ΤΗΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ...17 ΚΕΦΑΛΑΙΟ 2...18 ΕΠΙΣΚΟΠΗΣΗ ΕΡΕΥΝΑΣ ΚΑΙ ΕΜΠΟΡΙΚΟΥ ΠΕΔΙΟΥ ΣΤΟΥΣ ΕΞΑΤΟΜΙΚΕΥΜΕΝΟΥΣ ΚΑΤΑΛΟΓΟΥΣ...18 2.1 ΟΙ ΕΞΑΤΟΜΙΚΕΥΜΕΝΟΙ ΚΑΤΑΛΟΓΟΙ ΣΤΟΥΣ ΓΝΩΣΤΟΥΣ ΦΥΛΛΟΜΕΤΡΗΤΕΣ 18 Internet Explorer...19 Mozzila Firefox...20 2.2 ΕΜΠΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΕΞΑΤΟΜΙΚΕΥΜΕΝΩΝ ΚΑΤΑΛΟΓΩΝ.21 2.2.1 Check&Get...21 2.2.2 Alert Bookmarks...23 2.2.3 NetMarks Manager...24 2.3 ΒΕΛΤΙΩΣΕΙΣ ΚΑΙ ΠΡΟΤΥΠΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΣΤΗΝ ΔΙΑΧΕΙΡΙΣΗ ΤΩΝ ΕΞΑΤΟΜΙΚΕΥΜΕΝΩΝ ΚΑΤΑΛΟΓΩΝ...26 2.3.1 Σύστημα διαχείρισης PowerBookmarks...26 2.3.2 Σύστημα διαχείρισης Babylon Bookmarks...30 2.4 ΠΡΟΤΥΠΟΙ ΤΡΟΠΟΙ ΓΙΑ ΤΗΝ ΟΡΓΑΝΩΣΗ ΤΩΝ ΕΞΑΤΟΜΙΚΕΥΜΕΝΩΝ ΚΑΤΑΛΟΓΩΝ...33
2.4.1 Οργάνωση με βάση τον αλγόριθμο του PageRank...33 2.4.2 Οργάνωση με βάση την συνάφεια...39 ΚΕΦΑΛΑΙΟ 3...42 ΜΙΑ ΠΡΟΤΥΠΗ ΕΦΑΡΜΟΓΗ ΔΙΑΧΕΙΡΙΣΗΣ ΤΩΝ ΕΞΑΤΟΜΙΚΕΥΜΕΝΩΝ ΚΑΤΑΛΟΓΩΝ...42 3.1 ΓΕΝΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ HIBO...43 3.2 ΑΝΑΛΥΣΗ ΣΥΓΚΕΚΡΙΜΕΝΩΝ ΛΕΙΤΟΥΡΓΙΩΝ...46 3.2.1 Λειτουργία κατηγοριοποίησης...47 3.2.2 Λειτουργία υποβολής ερωτημάτων...49 3.2.3 Έλεγχος εγκυρότητας των bookmarks...49 3.2.3.1 Έλεγχος ανανέωσης σελίδων...50 3.2.4 Επεκτασιμότητα του συστήματος...50 3.3 ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ HIBO...52 3.3.1 Βασική αρχιτεκτονική του συστήματος HiBo...52 3.3.2 Αρχιτεκτονική συστήματος σε επίπεδο εξυπηρετητή...53 ΚΕΦΑΛΑΙΟ 4...56 ΧΡΗΣΗ ΘΕΜΑΤΙΚΩΝ ΤΑΞΙΝΟΜΙΩΝ ΓΙΑ ΤΗΝ ΑΥΤΟΜΑΤΗ ΔΗΜΙΟΥΡΓΙΑ ΚΑΙ ΟΡΓΑΝΩΣΗ ΕΞΑΤΟΜΙΚΕΥΜΕΝΩΝ ΚΑΤΑΛΟΓΩΝ ΔΙΑΔΙΚΤΥΟΥ...56 4.1 ΔΗΜΙΟΥΡΓΙΑ ΘΕΜΑΤΙΚΗΣ ΙΕΡΑΡΧΙΑΣ-ΤΑΞΙΝΟΜΙΑΣ...60 4.1.1 Ορισμός των Εννοιών της Ιεραρχίας...62 4.2 ΟΡΓΑΝΩΣΗ ΤΩΝ ΣΕΛΙΔΩΝ ΣΤΟ ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ BOOKMARKS HIBO.65 4.2.1 Λεξικογραφική κατάταξη των bookmarks...65 4.2.2 Κατάταξη με βάση χρήσιμες ημερομηνίες σχετικά με τις σελίδες που έχουν γίνει bookmark...66 4.2.3 Κατάταξη με βάση το τη διεύθυνση μιας σελίδας στο Διαδίκτυο που ανήκει μια σελίδα...67
4.3 ΑΛΓΟΡΙΘΜΟΣ ΚΑΤΑΤΑΞΗΣ ΜΕ ΒΑΣΗ ΤΗ ΣΥΝΑΦΕΙΑ...67 4.3.1 Γενική περιγραφή του αλγορίθμου κατάταξης με βάση την συνάφεια...69 4.4 ΥΠΟΛΟΓΙΣΜΟΣ ΤΗΣ ΣΥΝΑΦΕΙΑΣ ΤΩΝ ΣΕΛΙΔΩΝ ΜΕ ΤΙΣ ΚΑΤΗΓΟΡΙΕΣ ΤΗΣ ΙΕΡΑΡΧΙΑΣ....69 4.4.1 Επεξεργασία σελίδας και εξόρυξη του περιεχομένου...69 4.4.2 Επεξεργασία του περιεχομένου και εύρεση των λεξικών αλυσίδων...73 Υποψήφιες λέξεις...75 Εύρεση των θεματικών λέξεων των ιστοσελίδων...76 4.4.3 Εύρεση του βαθμού συσχέτισης...79 4.5 ΑΛΓΟΡΙΘΜΟΣ ΚΑΤΑΤΑΞΗΣ ΤΩΝ ΣΕΛΙΔΩΝ ΜΕ ΒΑΣΗ ΤΗΝ ΣΥΝΑΦΕΙΑ (PCRANK)...81 4.6 ΑΠΟΔΟΣΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΣΥΝΑΦΕΙΑΣ - PCRANK...85 4.6.1 Πειραματική εφαρμογή...85 4.6.2 Πειραματικά Δεδομένα...86 4.6.3 Σύγκριση της απόδοσης του PCRank με το PageRank...88 4.6.4 Πειραματικά αποτελέσματα και αξιολόγηση της απόδοσης του PCRank90 ΚΕΦΑΛΑΙΟ 5...94 ΛΕΠΤΟΜΕΡΕΙΕΣ ΣΧΕΤΙΚΕΣ ΜΕ ΤΗΝ ΥΛΟΠΟΙΗΣΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΚΑΤΑΤΑΞΗΣ ΜΕ ΒΑΣΗ ΤΗΝ ΣΥΝΑΦΕΙΑ...94 ΚΕΦΑΛΑΙΟ 6...100 ΜΕΛΛΟΝΤΙΚΕΣ ΚΑΤΕΥΘΥΝΣΕΙΣ - ΣΥΜΠΕΡΑΣΜΑΤΑ...100 ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΑΙ ΟΡΓΑΝΩΣΗΣ ΕΞΑΤΟΜΙΚΕΥΜΕΝΩΝ ΚΑΤΑΛΟΓΩΝ 100 ΑΛΓΟΡΙΘΜΟΣ ΚΑΤΑΤΑΞΗΣ ΜΕ ΒΑΣΗ ΤΗΝ ΣΥΝΑΦΕΙΑ ΤΩΝ ΣΕΛΙΔΩΝ ΜΕ ΤΙΣ ΚΑΤΗΓΟΡΙΕΣ ΤΗΣ ΙΕΡΑΡΧΙΑΣ...101 ΑΝΑΦΟΡΕΣ...104 ΠΑΡΑΡΤΗΜΑ Α : ΙΕΡΑΡΧΙΚΗ ΟΡΓΑΝΩΣΗ ΚΑΤΑΛΟΓΩΝ...109 ΙΕΡΑΡΧΙΑ...109
ΤΑΞΙΝΟΜΙΑ...110 ΔΕΝΔΡΙΚΗ ΔΟΜΗ...111 ΠΑΡΑΡΤΗΜΑ Β : WORDNET-DMOZ...117 WORDNET...117 DMOZ...119 ΠΑΡΑΡΤΗΜΑ Γ :...121 ΈΡΕΥΝΑ ΓΙΑ ΕΞΑΤΟΜΙΚΕΥΜΕΝΟΥΣ ΚΑΤΑΛΟΓΟΥΣ...121 Ρυθμός με τον οποίο αυξάνονται τα bookmarks των χρηστών...124 ΟΡΓΑΝΩΣΗ ΤΩΝ BOOKMARKS...125 Μέθοδοι οργάνωσης των bookmarks...126 Μέθοδοι οργάνωσης και εμπειρία...128 Οργανωτικές συνήθειες των χρηστών σχετικά με τα bookmarks...129
Κατάλογος σχημάτων ΣΧΗΜΑ 2. 1 ΠΕΡΙΒΑΛΛΟΝ ΔΙΑΧΕΙΡΙΣΗΣ BOOKMARKS ΣΤΟΝ INTERNET EXPLORER...20 ΣΧΗΜΑ 2. 2 ΠΕΡΙΒΑΛΛΟΝ ΔΙΑΧΕΙΡΙΣΗΣ BOOKMARKS ΣΤΟΝ MOZZILA FIREFOX...20 ΣΧΗΜΑ 2. 3 ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ BOOKMARKS CHECK&GET...22 ΣΧΗΜΑ 2. 4 ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ BOOKMARKS ALERT BOOKMARKS...24 ΣΧΗΜΑ 2. 5 ΣΥΣΤΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ BOOKMARKS NETMARKS...24 ΣΧΗΜΑ 2. 6 ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ POWERBOOKMARKS...28 ΣΧΗΜΑ 2. 7 ΠΕΡΙΒΑΛΛΟΝ ΟΠΟΥ Ο ΧΡΗΣΤΗΣ ΘΕΤΕΙ ΤΑ ΕΡΩΤΗΜΑΤΑ ΣΤΟ ΣΥΣΤΗΜΑ POWERBOOKMARKS...29 ΣΧΗΜΑ 2. 8 ΔΕΝΔΡΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ...29 ΣΧΗΜΑ 2. 9 ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ «BABYLON BOOKMARKS»32 ΣΧΗΜΑ 2. 10...38 ΣΧΗΜΑ 3. 1 ΒΑΣΙΚΗ ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ BOOKMARKS HIBO...53 ΣΧΗΜΑ 3. 2 ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΣΥΣΤΗΜΑΤΟΣ ΤΟΥ ΕΠΙΠΕΔΟΥ ΤΟΥ ΕΞΥΠΗΡΕΤΗΤΗ...54 ΣΧΗΜΑ 4. 1 ΤΜΗΜΑ ΤΗΣ ΙΕΡΑΡΧΙΑΣ ΓΙΑ ΤΗΝ ΘΕΜΑΤΙΚΗ ΚΑΤΗΓΟΡΙΑ ARTS.62 ΣΧΗΜΑ 4. 2 ΠΡΟΓΡΑΜΜΑ ΓΡΑΦΙΚΗΣ ΑΝΑΠΑΡΑΣΤΑΣΗΣ ΤΗΣ HTML....72 ΣΧΗΜΑ 4. 3 ΠΟΣΟΣΤΟ ΕΠΙΛΟΓΗΣ ΜΕΘΟΔΟΥ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΑΝΑ ΚΑΤΗΓΟΡΙΑ...93 ΣΧΗΜΑ 5. 1 ΗΛΕΚΤΡΟΝΙΚΗ ΣΕΛΙΔΑ ΤΟΥ HTTP://80MUSIC.ABOUT.COM/LIBRARY/WEEKLY/...95 ΣΧΗΜΑ 5. 2 ΕΞΟΡΥΞΗ ΤΟΥ ΠΕΡΙΕΧΟΜΕΝΟΥ ΤΗΣ ΣΕΛΙΔΑΣ HTTP://80MUSIC.ABOUT.COM/LIBRARY/WEEKLY/...95
ΣΧΗΜΑ 5. 3 ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΩΣ ΕΞΟΔΟΣ ΤΟΥ ΜΟΡΦΟΣΥΝΤΑΚΤΙΚΟΥ ΑΝΑΛΥΤΗ...97 ΣΧΗΜΑ 5. 4 RSCORE ΚΑΙ ΤΕΛΙΚΗ ΑΛΥΣΙΔΑ...97 ΣΧΗΜΑ 5. 5 ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΟΜΟΙΟΤΗΤΑ...98
Κατάλογος Πινάκων ΠΙΝΑΚΑΣ 3. 1ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΔΙΑΧΕΙΡΙΣΗΣ BOOKMARKS HIBO...46 ΠΙΝΑΚΑΣ 3. 2 ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΗ...47 ΠΙΝΑΚΑΣ 3. 3 ΕΝΔΕΙΚΤΙΚΑ ΠΟΣΟΣΤΑ ΕΠΙΤΥΧΙΑΣ ΤΟΥ TODE...48 ΠΙΝΑΚΑΣ 4. 1ΘΕΜΑΤΙΚΕΣ ΚΑΤΗΓΟΡΙΕΣ...64 ΠΙΝΑΚΑΣ 4. 2 Η ΒΑΘΜΟΛΟΓΙΑ ΤΩΝ ΣΧΕΣΕΩΝ...78 ΠΙΝΑΚΑΣ 4. 3 ΣΤΑΤΙΣΤΙΚΗ ΚΑΤΑΝΟΜΗ ΤΩΝ ΠΕΙΡΑΜΑΤΙΚΩΝ ΜΑΣ ΣΕΛΙΔΩΝ...87 ΠΙΝΑΚΑΣ 4. 4 ΜΕΣΗ ΟΜΟΙΟΤΗΤΑ ΚΑΤΑΤΑΞΗΣ ΓΙΑ ΤΑ ΠΡΩΤΟΥ ΕΠΙΠΕΔΟΥ ΘΕΜΑΤΑ...89 ΠΙΝΑΚΑΣ 4. 5 ΠΕΙΡΑΜΑΤΙΚΕΣ ΘΕΜΑΤΙΚΕΣ ΚΑΤΗΓΟΡΙΕΣ...91 ΠΙΝΑΚΑΣ 4. 6 ΕΝΔΕΙΚΤΙΚΗ ΛΙΣΤΑ ΓΙΑ ΤΗΝ ΚΑΤΗΓΟΡΙΑ PHOTOGRAPHY...92 ΠΙΝΑΚΑΣ 4. 7 ΠΟΣΟΣΤΟ ΕΠΙΛΟΓΗΣ ΜΕΘΟΔΟΥ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΑΝΑ ΚΑΤΗΓΟΡΙΑ...92 ΠΙΝΑΚΑΣ 5. 1 ΚΑΝΟΝΙΚΟΠΟΙΗΣΗ ΤΩΝ ΛΕΞΕΩΝ...96
Κεφάλαιο 1 Εισαγωγή Οι εξατομικευμένοι κατάλογοι διαδικτύου εμφανίστηκαν σχεδόν ταυτόχρονα με την εμφάνιση των φυλλομετρητών διαδικτύων, και από τότε όλοι οι φυλλομετρητές ενσωματώνουν απλά συστήματα διαχείρισης των εξατομικευμένων καταλόγων. Με τον όρο «εξατομικευμένοι κατάλογοι» εννοούμε τις προσωπικές συλλογές από ιστοσελίδες που ένας χρήστης διαδικτύου αποθηκεύει κατά την ώρα της πλοήγησης στον Παγκόσμιο Ιστό. Οι εξατομικευμένοι κατάλογοι διαδικτύου είναι γνωστοί στο ευρύ κοινό με τον αγγλικό όρο bookmarks (σελιδοδείκτης). 1.1 Τι είναι και ποία είναι η χρησιμότητα των εξατομικευμένων καταλόγων Τα bookmarks χρησιμοποιούνται σαν «προσωπικός χώρος πληροφορίας του δικτύου» για να βοηθούν τους ανθρώπους να θυμούνται και να ανακτούν ενδιαφέρουσες ιστοσελίδες. Τα εκατομμύρια των εγγράφων στο ραγδαία αναπτυσσόμενο παγκόσμιο ιστό (WWW) δημιουργούν το πρόβλημα της υπερφόρτωσης πληροφορίας [31], [32]. Το διαδίκτυο όπως το ξέρουμε μέχρι σήμερα δεν έχει ένα γενικό σύστημα κατηγοριοποίησης για τους δικτυακούς τόπους, δεν έχει συγκεκριμένη πολιτική για δεικτοδότηση, ακόμα δεν έχει ελεγχόμενο λεξιλόγιο, και ούτε συστηματικό τρόπο για την ονομασία των ιστοσελίδων
(εκτός από τα domain ονόματα). Συνεπώς η αναζήτηση πληροφορίας στο διαδίκτυο είναι ένα ενδιαφέρον και συχνά μάταιο εγχείρημα. Μια στρατηγική για να αντιμετωπιστεί το πρόβλημα του μεγάλου όγκου πληροφορίας είναι να αναπτυχθούν προσωπικά συστήματα πληροφορίας τα οποία θα εστιάζουν και θα στοχεύουν σε συγκεκριμένα υποσύνολα πληροφορίας που συνδέονται απόλυτα με τις απαιτήσεις ενός συγκεκριμένου χρήστη. Τα bookmarks είναι ένας απλός τρόπος για να δημιουργούνται αυτά τα υποσύνολα προσανατολισμένα στον κάθε χρήστη, από ενδιαφέρουσες ή χρήσιμες ιστοσελίδες. Οι χρήστες έχουν την δυνατότητα να κρατούν δείκτες σε συγκεκριμένες σελίδες στο διαδίκτυο ή διαφορετικά θα μπορούσαμε να πούμε ότι οι χρήστες κρατούν το στιγμιότυπο του διαδικτύου που τους ενδιαφέρει. Τα bookmarks είναι πολύ δημοφιλή στους χρήστες. Σε μια μελέτη που έγινε σε 6619 χρήστες του διαδικτύου (αναλυτικά για την μελέτη αυτή ο αναγνώστης μπορεί να βρει στο Παράρτημα Γ), πάνω από το 80% χρησιμοποιούσε τα bookmarks σαν στρατηγική για να βρίσκουν την πληροφορία που τους ενδιαφέρει. Ενώ άλλοι τα χρησιμοποιούσαν ως στρατηγική για ερωτήματα σε μηχανή αναζήτησης, ως αναφορά σε δεικτοδοτημένες σελίδες, για να εισέρχονται σε κάποια γνωστή διεύθυνση και άλλα. Πάνω από το 92% των χρηστών είχε χρησιμοποιήσει bookmark, και πάνω από το 37% των χρηστών είχε περισσότερα από 50 bookmarks. Υπολογίζεται ότι σχεδόν το 98% των χρηστών έχουν χρησιμοποιήσει για διάφορους λόγους τις λειτουργίες που παρέχουν οι γνωστοί φυλλομετρητές σχετικά με τα bookmarks.
1.2 Αντικείμενο της διπλωματικής Η παρούσα διπλωματική εργασία πραγματεύεται δυο βασικά ζητήματα : τον σχεδιασμό και την ανάπτυξη ενός πρότυπου συστήματος διαχείρισης εξατομικευμένων καταλόγων με την χρήση θεματικών ταξινομιών, και την υλοποίηση ενός πρότυπου αλγόριθμου κατάταξης ηλεκτρονικών σελίδων σε ιεραρχικές θεματικές κατηγορίες, με βάση την συνάφεια αυτών με τις κατηγορίες που ανήκουν. 1.2.1 Σύστημα διαχείρισης εξατομικευμένων καταλόγων Θα αναπτύξουμε και θα εξετάσουμε όλους του λόγους που κρίνουν επιτακτική την ανάγκη για την ύπαρξη ενός συστήματος διαχείρισης bookmarks, και ποια είναι τα κριτήρια που πρέπει να πληρούνται ώστε το σύστημα αυτό να θεωρείται αποτελεσματικό. Παράλληλα θα παρουσιάσουμε μια πρότυπη προσέγγιση ενός τέτοιου συστήματος (το σύστημά μας το ονομάζουμε HiBo) περιγράφοντας αναλυτικά τις λειτουργίες που θα πρέπει να διαθέτει ώστε να πληρεί το σκοπό ύπαρξης του, που δεν είναι άλλος από το να οργανώνει και να διαχειρίζεται με εύχρηστο, απλό και συγχρόνως αποδοτικό τρόπο τα bookmarks του χρήστη σε μια συγκεκριμένη θεματική ταξινομία ορισμένη από τον ίδιο τον χρήστη. Βασικό χαρακτηριστικό που πρέπει να διαθέτει ένα τέτοιο σύστημα είναι η ελαχιστοποίηση του χρόνου τόσο ανάκτησης των επιθυμητών δεδομένων από μια συλλογή από bookmarks, όσο και μείωσης της προσπάθειας του χρήστη για την οργάνωσης αυτών. Για την επίτευξη των χαρακτηριστικών αυτών το σύστημα που προτείνουμε θα διαθέτει επιπλέον τρείς πρότυπες λειτουργίες, την λειτουργία της κατηγοριοποίησης, την λειτουργία της εύρεσης αλλαγών στις σελίδες της συλλογής του χρήστη και την λειτουργία
της κατάταξής με βάση την συνάφεια της σελίδας, οι οποίες περιγράφονται αναλυτικά. Η τελευταία λειτουργία αποτελεί το δεύτερο αντικείμενο της διπλωματική αυτής. 1.2.2 Αλγόριθμος κατάταξης με βάση την συνάφεια των κειμένων Το δεύτερο αντικείμενο της εργασίας έχει να κάνει με έναν πρότυπο αλγόριθμο κατάταξης σελίδων μέσα σε θεματικές κατηγορίες που έχουν προκύψει από θεματικές ταξινομίες, PCRank (Page Cohesion Rank). Αναπτύσσουμε και υλοποιούμε έναν καινοτόμο τρόπο βαθμολόγησης και κατάταξης με βάση την συνάφεια των σελίδων, του χρήστη σε μια συλλογή bookmarks, με το θέμα της κατηγορίας που ανήκει η σελίδα αυτή. Όταν ένας χρήστης αναζητά πληροφορίες μέσα σε μια θεματική ταξινομία είναι λογικό να περιμένει να του εμφανίζονται τα δεδομένα με τέτοιο τρόπο ώστε στις πρώτες θέσεις, μιας συγκεκριμένης κατηγορίας, να εμφανίζονται σελίδες που είναι πιο σχετικές με το θέμα της κατηγορίας αυτής. Οι γνωστοί τρόποι κατάταξης δεν λαμβάνουν υπόψη τους το περιεχόμενο της σελίδας, ο δικός μας τρόπος κατάταξης εξετάζει το περιεχόμενο της κάθε σελίδας, μέσα σε μια θεματική κατηγορία, και αποφασίζει πόσο σχετικό είναι αυτό με την κατηγορία στην οποία ανήκει. Έτσι δημιουργείται μια κατάταξη των σελίδων από τις πιο σχετικές στις λιγότερο σχετικές με την κατηγορία. 1.3 Δομή της διπλωματικής εργασίας Στο κεφάλαιο 2 θα δούμε εισαγωγικά θέματα σχετικά με τους εξατομικευμένους καταλόγους και τι λύση δίνουν οι γνωστοί φυλλομετρητές στο θέμα της οργάνωσης και της διαχείρισης αυτών. Επιπλέον θα εξετάσουμε τρία εμπορικά και δύο πρότυπες προσεγγίσεις στο
θέμα της διαχείρισης των bookmarks, θα αναλύσουμε ποια είναι τα σημεία που τα κάνουν χρήσιμα και ιδιαίτερα σε σχέση με της απλές λύσεις που δίνουν οι φυλλομετρητές. Στο κεφάλαιο 3 θα αναπτύξουμε μια πρότυπη προσέγγιση για την διαχείριση των bookmarks ενός χρήστη. Περιγράφουμε όλε τις λειτουργίες που διαθέτει το σύστημα HiBo (το σύστημα που προτείνουμε για την διαχείριση των bookmarks) και αναλύουμε μερικές από τις καινοτόμες λειτουργίες με τις οποίες είναι εφοδιασμένο. Τέλος περιγράφουμε την αρχιτεκτονική του συστήματος σε επίπεδο χρήστη και την αρχιτεκτονική του συστήματος σε επίπεδο εξυπηρετητή. Το κεφάλαιο 4 είναι το βασικό κεφάλαιο της εργασίας. Εδώ περιγράφουμε και αναλύουμε την χρήση των θεματικών ταξινομιών για την αυτόματη δημιουργία και οργάνωση των bookmarks του χρήστη. Παράλληλα εδώ εξετάζουμε και αναλυτικά τον τρόπο με τον οποίο υλοποιείται ο αλγόριθμος κατάταξης, καθώς και τον τρόπο που δημιουργούμε την θεματική ιεραρχία που χρησιμοποιούμε. Το κεφάλαιο αυτό ολοκληρώνεται με μια πειραματική σύγκριση του αλγορίθμου κατάταξης με βάση την συνάφεια που προτείνουμε, με τον δημοφιλή αλγόριθμο γενικής κατάταξής που χρησιμοποιεί η μηχανή αναζήτησης Google, το PageRank. Στο 5 κεφάλαιο εξετάζουμε τις λεπτομέρειες στην υλοποίησης του αλγορίθμου κατάταξης με βάση την συνάφεια και δίνουμε και ένα παράδειγμα με τα βήμα που ακολουθεί μια σελίδα ώστε να βαθμολογηθεί για μια θεματική κατηγορία. Τέλος στο κεφάλαιο 6 κλείνουμε την εργασία με συμπεράσματα και μελλοντικές κατευθύνσεις της συγκεκριμένης δουλείας που έχει γίνει στην παρούσα διπλωματική.
1.4 Συνεισφορά της διπλωματικής εργασίας Στην εργασία αυτή παρουσιάζουμε ένα πρότυπο σύστημα διαχείρισης εξατομικευμένων καταλόγων διαδικτύου ορίζοντας τις προϋποθέσεις που πρέπει να πληρεί ώστε να είναι εύχρηστο και αποτελεσματικό. Το σύστημα αυτό έχει όλες τις δυνατότητες που έχουν τα εμπορικά αλλά και τα πρότυπα συστήματα διαχείρισης bookmarks. Επιπλέον διαθέτει καινοτόμες λειτουργίες που το καθιστούν ιδιαίτερα εύχρηστο και χρήσιμο. Παράλληλα παρουσιάζουμε αναλυτικά έναν πρότυπο αλγόριθμο κατάταξης, τον αλγόριθμο κατάταξης με βάση την συνάφεια των σελίδων με τις κατηγορίες στις οποίες ανήκουν. Τον αλγόριθμο αυτόν τον συγκρίνουμε με τον δημοφιλή αλγόριθμος γενικής κατάταξης το PageRank. Από το πείραμα που κάναμε προκύπτει ότι ο αλγόριθμος που προτείνουμε είναι πιο κατάλληλος για την ταξινόμηση των σελίδων σε θεματικές κατηγορίες από το PageRank. Συγκεκριμένα ο αλγόριθμος του PCRank χαρακτηρίστηκε περισσότερο κατάλληλος σε ποσοστό 59% από τον αντίστοιχο του PageRank με 41%, για την κατάταξη ιστοσελίδων σε 7 θεματικές κατηγορίες.
Κεφάλαιο 2 Σχετική έρευνα στους εξατομικευμένους καταλόγους 2.1 Οι εξατομικευμένοι κατάλογοι στους γνωστούς φυλλομετρητές Στο σημείο αυτό θα δούμε αν και σε ποιο βαθμό οι φυλλομετρητές υποστηρίζουν την δημιουργία αλλά και την διαχείριση των εξατομικευμένων καταλόγων (bookmarks). Πιο συγκεκριμένα θα εξετάσουμε με ποιον τρόπο αντιμετωπίζουν οι δύο πιο δημοφιλείς φυλλομετρητές (Internet Explorer της Microsoft και Mozzila Firefox) τα bookmarks. Έτσι λοιπόν όπως κάποιος χρησιμοποιεί τον σελιδοδείκτη όταν διαβάζει ένα βιβλίο για γρήγορη αναφορά, κάποιος που πλοηγείτε στο διαδίκτυο χρησιμοποιεί τα bookmarks για τον ίδιο λόγο. Σήμερα όλοι οι εμπορικοί φυλλομετρητές (όπως : Internet Explorer, Firefox, Opera, Maxthon, Konqueror, Galeon) υποστηρίζουν την δημιουργία των bookmarks, ο καθένας από τους οποίους έχει αναπτύξει διαφορετικούς τρόπους με τους οποίους αντιμετωπίζει την διαχείριση τους. Γενικά οι σχεδιαστές των φυλλομετρητών δίνουν ιδιαίτερη βαρύτητα στον σχεδιασμό και την ευχρηστία των συστημάτων διαχείρισης bookmarks, και ο λόγος είναι διότι υπάρχει ανάλογο ενδιαφέρων από τους χρήστες. Με το να κατασκευάζει κάποιος χρήστης του διαδικτύου μια συλλογή από bookmarks έχει την
δυνατότητα να επιστρέφει σε διάφορες ηλεκτρονικές διευθύνσεις χωρίς να χρειάζεται να θυμάται ή να ξαναγράφει την ηλεκτρονική διεύθυνση. Ας δούμε τώρα πώς αντιμετωπίζουν τα bookmarks o Internet Explorer και ο Mozzila Firefox. Καταρχήν ο Internet Explorer χρησιμοποιεί τον όρο «Favorites» ενώ ο Firefox τον όρο «Bookmarks». Και στους δύο φυλλομετρητές ο χρήστης έχει την δυνατότητα να δημιουργήσει τα δικά του προσωπικά bookmarks (υπάρχει και συνδυασμός πλήκτρων συντόμευσης για την δημιουργία τους και είναι το CTRL + D ). Και στα δύο εργαλεία ο χρήστης μπορεί να διαγράψει bookmarks που δεν χρειάζεται ή οι σελίδες που δείχνουν είναι εκτός λειτουργίας ή δεν υπάρχουν. Και οι δύο φυλλομετρητές διαθέτουν συστήματα διαχείρισης των bookmarks τους. Internet Explorer Στο παρακάτω σχήμα βλέπουμε το περιβάλλον που έχει ο Internet Explorer για την εισαγωγή, διαχείριση των bookmarks. Συνολικά φαίνονται οι λειτουργίες της δημιουργίας νέου φακέλου, της εισαγωγής μιας νέας ηλεκτρονικής διεύθυνσης, της τροποποίησης της σειράς των φακέλων και των σελίδων της αλλαγής του ονόματος ενός φακέλου ή μιας σελίδας, και της διαγραφής μιας σελίδας ή ενός φακέλου
Σχήμα 2. 1 Περιβάλλον διαχείρισης bookmarks στον Internet explorer Mozzila Firefox Αντίστοιχα στο σχήμα 2.2 φαίνεται το σύστημα διαχείρισης των bookmarks του φυλλομετρητή Firefox. To σύστημα αυτό παρέχει πλήθος λειτουργιών και παρέχει μεγαλύτερες δυνατότητες από το αντίστοιχο του Internet explorer. Σχήμα 2. 2 Περιβάλλον διαχείρισης bookmarks στον Mozzila firefox
H βασικές λειτουργίες που παρέχει είναι : εισαγωγή-διαγραφή τόσο φακέλων, όσο και ιστοσελίδων με εύχρηστο τρόπο, διατήρηση πληροφοριών σχετικά με το ποια ημερομηνία δημιούργησε, τροποποίησε και επισκέφτηκε ο χρήστης την συγκεκριμένη σελίδα, δυνατότητα εισαγωγής περιγραφής για το κάθε bookmark και τοποθέτησης λέξεων κλειδιών. 2.2 Εμπορικά συστήματα διαχείρισης εξατομικευμένων καταλόγων Στο κεφάλαιο αυτό θα δούμε μερικά συστήματα διαχείρισης που κυκλοφορούν στο εμπόριο. Πιο συγκεκριμένα θα δούμε 3 συστήματα διαχείρισης bookmarks τα: Check&Get [39], NetMarks Manager [40], και το Alert bookmarks [41]. Θα δούμε τα βασικά χαρακτηριστικά των συστημάτων αυτών και ποίες είναι οι υπηρεσίες που προσφέρουν. Επίσης θα δούμε τις απαιτήσεις τους τόσο σε υπολογιστική ισχύει όσο και σε χώρο. 2.2.1 Check&Get Το Check&Get είναι ένα αρκετά ισχυρό σύστημα διαχείρισης bookmarks. Διαχειρίζεται τα bookmarks του κάθε φυλλομετρητή, κάνει χρονοπρογραμματισμένες επισκέψεις σε επιλεγμένους ιστοχώρους όπου ψάχνει αλλαγές, και τις ανακτά, δίνοντας έμφαση στο αλλαγμένο περιεχόμενο. Κάθε φορά που το Check&Get ανιχνεύει αλλαγές σε έναν ιστοχώρο που ελέγχει, απομονώνει τις αλλαγές αυτές και μπορεί να ειδοποιήσει για τις αλλαγές μέσω ηλεκτρονικού ταχυδρομείου, τον χρήστη. Εναλλακτικά, το πρόγραμμα μπορεί να προειδοποιήσει για την αλλαγή με το να εμφανίζει ένα μήνυμα ή με το να ακούγεται κάποιος ήχος. Με τον
εσωτερικό φυλλομετρητή που διαθέτει, το Check&Get δίνει την δυνατότητα στο χρήστη να μπορεί να πλοηγηθεί σε διάφορες ιστοσελίδες, ακόμα και όταν δεν υπάρχει σύνδεση με το Διαδίκτυο ή η σελίδα δεν υπάρχει πλέον στον Ιστό. Παρακάτω φαίνεται ένα στιγμιότυπο από το συγκεκριμένο πρόγραμμα σχήμα 2.3 Σχήμα 2. 3 Σύστημα διαχείρισης bookmarks Check&Get Επιπλέον χρησιμοποιώντας ο χρήστης το χαρακτηριστικό auto-saving μπορεί να συλλέξει στιγμιότυπα προγενέστερων εκδόσεων μιας ιστοσελίδας, επιτρέποντας την μελέτη και την εξέταση των διάφορων αλλαγών στις ιστοσελίδες κατά τη διάρκεια του χρόνου. Το Check&Get έχει αρκετούς τρόπους αναζήτησης και επεξεργασίας των bookmarks. O χρήστης έχει την δυνατότητα να αναζητήσει τα bookmarks του χρησιμοποιώντας το όνομα, την περιγραφή, ή τις λέξεις κλειδιά τους. Οι συλλογές από ηλεκτρονικές διευθύνσεις μπορούν να εισαχθούν στο σύστημα από οποιοδήποτε φυλλομετρητή ή αρχείο. Το Check&Get εντοπίζει τα διπλά bookmarks και τις ανενεργές σελίδες, με αποτέλεσμα η
συλλογή να είναι πάντα ανανεωμένη και ακριβής. Το Check&Get καταλαμβάνει χώρο 5.94 ΜΒ και τρέχει σε λειτουργικό σύστημα Windows. 2.2.2 Alert Bookmarks Το σύστημα Alert bookmarks διαχειρίζεται τα bookmarks έτσι ώστε να μπορούν να προσπελαστούν από οποιοδήποτε φυλλομετρητή. Μπορεί επίσης να επικυρώσει τα bookmarks του χρήστη αυτόματα ενώ αυτός πλοηγείται στο διαδίκτυο. Επιπλέον παρέχει πολλά εργαλεία για ανίχνευση και διόρθωση των bookmarks αυτών. Το πρόγραμμα περιλαμβάνει εκτενή χαρακτηριστικά γνωρίσματα εισαγωγής και εξαγωγής, μαζί με τη δυνατότητα να φορτωθούν τα bookmarks στον Ιστό (μέσω σελίδων html). Το σύστημα Alert bookmarks παρέχει την δυνατότητα προστασίας και κλειδώματος των bookmarks με κωδικό ασφαλείας. Στο σύστημα αυτό ο χρήστης μπορεί να αναζητήσει μια σελίδα με βάση META δεδομένα, ετικέτες της html της σελίδας και όλους τους κοινούς τρόπους αναζήτησης. Παρέχει 300 περιστρεφόμενες ράβδους από bookmarks, όπου κάθε μια υποστηρίζει πάνω από 1000 bookmarks. Η οργάνωση bookmarks γίνεται εύκολα με ένα περιβάλλον που υποστηρίζει την λειτουργία drag and drop. O χρήστης μπορεί να δει ένα bookmark ή μέχρι 100 με ένα πάτημα του ποντικιού. Επίσης περιλαμβάνεται ένα αποδοτικό σύστημα bookmark Emailer έτσι ώστε ο χρήστης μπορεί να στείλει απευθείας κάπου τα bookmarks του με ηλεκτρονικό ταχυδρομείο. Το σχήμα 2.4 δείχνει στιγμιότυπο του συστήματος Alert bookmarks
Σχήμα 2. 4 Σύστημα διαχείρισης bookmarks Alert bookmarks 2.2.3 NetMarks Manager Με το NetMarks κάποιος μπορεί να καταχωρήσει και να διαχειριστεί εύκολα χιλιάδες bookmarks. Παρέχει πλήρη επικοινωνία και υποστήριξη με τους φυλλομετρητές Internet Explorer και Mozzila Firefox έτσι ώστε να μπορεί κάποιος να δημιουργεί και να έχει πρόσβαση στα bookmarks του εύκολα ενώ πλοηγείται στο διαδίκτυο. Σχήμα 2. 5 Σύστημα διαχείρισης bookmarks NetMarks
Το σύστημα NetMarks είναι ένα εύχρηστο και αρκετά ισχυρό εργαλείο για καθέναν ανεξάρτητα με το επίπεδο εμπειρίας του στην πλοήγηση στο διαδίκτυο. To σχήμα 2.5 δείχνει στιγμιότυπο του συστήματος NetMarks Μερικές από τις χαρακτηριστικές λειτουργίες φαίνονται παρακάτω : Έχει τη δυνατότητα να αναγνωρίζει και να διαχειρίζεται τα bookmarks γνωστών φυλλομετρητών. Διαχειρίζεται τα διπλά bookmarks, και ελέγχει για διπλοεγγραφές την στιγμή που αποθηκεύεται ένα καινούργιο bookmark. Υποστηρίζει πολλαπλές συλλογές από bookmarks. Παρέχει τρόπους που μειώνουν τον χρόνο ανάκτησης των bookmarks. Το σύστημα μπορεί να συγχρονιστεί με έναn ή περισσότερους ιστοχώρους. Υποστηρίζει πλήρως τους φυλλομετρητές Internet Explorer και Mozzila Firefox παρέχοντας μπάρες εργασίας και συστήματα πρόσβασης στο NetMarks απευθείας από αυτούς. Δυνατότητα εμφάνισης της συλλογής των bookmarks του χρήστη ως ιστοσελίδα. Υποστήριξη για bookmarks εγγράφων PDF. Τα πρόσφατα προσπελάσιμα bookmarks εμφανίζονται ευδιάκριτα. Εμφανίζονται λεπτομέρειες σχετικές με τα bookmarks όπως: το μέγεθος, το όνομα, η διεύθυνση, λέξεις κλειδιά, ημερομηνίες τελευταίας πρόσβασης στην ιστοσελίδα.
2.3 Βελτιώσεις και πρότυπες προσεγγίσεις στην διαχείριση των εξατομικευμένων καταλόγων 2.3.1 Σύστημα διαχείρισης PowerBookmarks Αρχιτεκτονική συστήματος Το σύστημα PowerBookmarks έχει αναπτυχθεί και υλοποιηθεί στα πλαίσια ενός μεγαλύτερου έργου, του WebDB. Αυτό το σύστημα έχει υλοποιηθεί πάνω σε Nec-persio αντικειμενοστραφείς σύστημα διαχείρισης βάσεων δεδομένων [18]. Σε αντίθεση με τις περισσότερες μηχανές αναζήτησης οι οποίες εστιάζουν στην απόκτηση πληροφοριών που βασίζονται σε λέξεις κλειδιά, το σύστημα WebDB στοχεύει στην υποστήριξη ερωτημάτων όμοια με τα ερωτήματα που χρησιμοποιούνται σε βάσεις δεδομένων. Το WebDB παρέχει, αποθήκευση, μοντελοποίηση προσανατολισμένη στο αντικείμενο, ερωτήματα σε γλώσσα SQL και δημιουργία εγγράφων σε HTML/VRML για το σύστημα PowerBookmarks. Δύο εξωτερικά αντικείμενα, δηλαδή η μηχανή αναζήτησης JTOPIC [19] και το WordNet [20], χρησιμοποιούνται για αναζήτηση κειμένου και αναζήτηση σε λεξικά του διαδικτύου σε πραγματικό χρόνο. Αυτό εξυπηρετεί ανάγκες σχετικές με την δεικτοδότηση και ανάλυση των ερωτημάτων. WQL7 χρησιμοποιείται για ερωτήματα στο σύστημα WebDB. Ένα εικονικό περιβάλλον ερωτημάτων παρέχεται για να βοηθήσει τους χρήστες για να προσδιορίσουν ερωτήματα, ενώ στην ουσία τα WQL ερωτήματα δημιουργούνται αυτόματα από την γεννήτρια ερωτημάτων WQL. Το σύστημα PowerBookmarks υποστηρίζει πληροφορίες οι οποίες είναι διαμοιραζόμενες με τον έλεγχο πρόσβασης. Επίσης το σύστημα υποστηρίζει κατηγοριοποίηση των bookmarks η οποία βασίζεται στο περιεχόμενο των εγγράφων, η διαδικασία αυτή γίνεται μέσω
ενός εξωτερικού κατηγοριοποιητή. Το PowerBookmarks έχει υλοποιηθεί κατά τέτοιο τρόπο ώστε να είναι προσανατολισμένο στο χρήστη. Έτσι παρέχει υπηρεσίες όπως αυτόματη εύρεση νεκρών συνδέσμων και άλλα. Ένας proxy εξυπηρετητής χρησιμοποιείται για το περιβάλλον του χρήστη και παρέχει διάφορες λειτουργίες. Το σύστημα PowerBookmarks εκμεταλλεύεται όλες τις εξελιγμένες παροχές όπως η ανάθεση ερωτημάτων, μοντελοποίηση, πλοήγηση, του συστήματος WebDB. Η σχέση των παραπάνω, το πώς συνδέονται και αλληλεπιδρούν μεταξύ τους φαίνεται στο σχήμα 2.6 Παρακάτω θα δούμε τις πιο σημαντικές λειτουργίες του συστήματος Powerbookmarks. Ανάθεση ερωτημάτων στο διαδίκτυο και στην συλλογή των Bookmarks: Το σύστημα PowerBookmarks υποστηρίζει ένα απλό σύστημα και παρέχει το περιβάλλον για να ανατίθενται ερωτήματα στο διαδίκτυο. Μετά, τα αποτελέσματα που επιστρέφονται στο χρήστη από τις διάφορες μηχανές αναζήτησης, ένα πρόγραμμα, που λειτουργεί σαν φίλτρο, εξάγει χρήσιμες πληροφορίες σχετικά με τις ιστοσελίδες που επιστράφηκαν και τις προβάλει στο χρήστη. Ο χρήστης μπορεί να επιλέξει ένα σύνολο από ηλεκτρονικές διευθύνσεις και να πλοηγηθεί σε αυτές με έναν τρόπο προβολής «slide show» ή να αποθηκεύσει τις διευθύνσεις αυτές σαν bookmark στο σύστημα PowerBookmarks. Όταν ο χρήστης ζητήσει, από το σύστημα, να συλλέξει κάποιες διευθύνσεις από το PowerBookmarks, τότε το σύστημα εκτελεί μια συγκεκριμένη σειρά από διαδικασίες: (1) ανάκτηση και αποθήκευση ιστοσελίδων από το δίκτυο, (2) εξαγωγή λέξεων κλειδιών, περίληψης, συνδέσμων, και σχετικών μεταδεδομένων (όπως η πιο πρόσφατη ημερομηνία της τροποποίησης της ιστοσελίδας), (3) δεικτοδότηση των ηλεκτρονικών διευθύνσεων και WebDB.
Σχήμα 2. 6 Αρχιτεκτονική του συστήματος PowerBookmarks Ύστερα από την διαδικασία της δεικτοδότησης στο σύστημα PowerBookmarks (μέσω του WebDB), ο χρήστης μπορεί να χρησιμοποιήσει πιο σύνθετα ερωτήματα για να ανακτήσει bookmark διευθύνσεις. Στο σχήμα 2.7 φαίνεται το περιβάλλον όπου ο χρήστης θέτει τα ερωτήματα στο σύστημα PowerBookmarks. Στο σχήμα αυτό φαίνεται ένα παράδειγμα όπου ο χρήστης έχει δώσει σαν κριτήρια, για να ανακτήσει, έγγραφα σχετικά με XML. Επίσης στο σύστημα αυτό υποστηρίζονται και πιο πολύπλοκα κριτήρια αναζήτησης, όπως αναζήτηση με βάση τους συνδέσμους, το περιεχόμενο και άλλα [21]. Οι λειτουργίες των ερωτημάτων έχουν προκύψει από το WebDB.
Σχήμα 2. 7 Περιβάλλον όπου ο χρήστης θέτει τα ερωτήματα στο σύστημα PowerBookmarks. Επιπρόσθετη σημαντική λειτουργία του συστήματος είναι η κατηγοριοποίηση των bookmarks για πλοήγηση. Το σύστημα PowerBookmarks υποστηρίζει αυτόματη κατηγοριοποίηση κειμένων μέσω του περιεχομένου των σελίδων από κάποιο εξωτερικό σύστημα κατηγοριοποίηση όμοιο με το Pharos [22]. Σχήμα 2. 8 Δενδρική αναπαράσταση των αποτελεσμάτων του συστήματος.
Στο σχήμα 2.8 φαίνονται σε δενδρική αναπαράσταση τα αποτελέσματα που προκύπτουν από τον κατηγοριοποιητή με είσοδο τις σελίδες των διευθύνσεων στο σύστημα. Στο συγκεκριμένο σχήμα διακρίνεται, επίσης και ο αριθμός των σελίδων που περιέχει η κάθε κατηγορία καθώς και η συχνότητα πρόσβασης στην σελίδα αυτή, η οποία φαίνεται από το σχετικό εικονίδιο στα αριστερά. Ο χρήστης μπορεί να πλοηγείται στο δέντρο των κατηγοριών και να επιλέγει τις διευθύνσεις των σελίδων που τον ενδιαφέρουν. Παραπάνω φαίνεται μια ένδειξη των εγγράφων και φακέλων στον κατάλογο Computer/Software. Σε αυτόν τον κατάλογο υπάρχουν τα Bookmarks του χρήστη (διαμοιραζόμενα και μη) και διαμοιραζόμενα bookmarks άλλων χρηστών. Τα bookmarks με κόκκινο σταυρό χαρακτηρίζονται ως νεκροί σύνδεσμοι που ανιχνεύονται από το σύστημα. Το σύστημα μπορεί επίσης αυτόματα, εάν ο χρήστης επιθυμεί να μεταφέρει τους νεκρούς συνδέσμους και τα ανενεργά bookmarks σε έναν συγκεκριμένο φάκελο (Διαγραμμένα). Ο χρήστης μπορεί να επιλέξει κάθε φάκελο για να πάει σε άλλη κατηγορία στην δομή των bookmarks. Επιπλέον το σύστημα έχει την λειτουργία subscription service : Το σύστημα PowerBookmarks υποστηρίζει υπηρεσίες συνδρομής για νέα η τροποποιημένα αρχεία στο internet και intranet. O χρήστης μπορεί να ορίσει τα κριτήρια συνδρομής, όπως temporal, domain, ομοιότητα λέξεων κλειδιών και κειμένων και άλλα. 2.3.2 Σύστημα διαχείρισης Babylon Bookmarks Στην ενότητα αυτή θα δούμε ένα άλλο σύστημα διαχείρισης bookmarks με την ονομασία «Babylon bookmarks» το οποίο βασίζεται στο σύστημα «Babylon system». Το Babylon bookmarks δίνει την δυνατότητα στους χρήστες να χρησιμοποιήσουν την λογική των ταξινομιών στα bookmarks