ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ (ΜΔΕ) «ΕΠΙΣΤΗΜΗ & ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ»

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ (ΜΔΕ) «ΕΠΙΣΤΗΜΗ & ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ» Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης (Semantic Web and Personalization in Searching and Crawling) Α.Μ. : 404 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Χρήστος Μακρής ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ Αθανάσιος Τσακαλίδης Ιωάννης Γαροφαλάκης Χρήστος Μακρής ΠΑΤΡΑ, ΙΟΥΝΙΟΣ 2008

2 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής 2

3 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης Πρόλογος Καθώς αυτή η εργασία αποτελεί το επιστέγασμα των προσπαθειών μου για την ολοκλήρωση των μεταπτυχιακών μου σπουδών θα ήθελα να ευχαριστήσω όλους όσους με στήριξαν στην προσπάθειά μου αυτή, τόσο για να ξεκινήσω το μεταπτυχιακό όσο και να το ολοκληρώσω. Καταρχάς, τους καθηγητές που μου επέτρεψαν να παρακολουθήσω τα μαθήματά τους χωρίς να έχω γίνει ακόμα δεκτός στο μεταπτυχιακό πρόγραμμα, που στήριξαν την υποψηφιότητά μου τον επόμενο χρόνο με τις συστατικές τους επιστολές και αποτέλεσαν στη συνέχεια και μέλη της τριμελής επιτροπής μου, δίνοντας τις έμπειρες συμβουλές τους και ανοίγοντάς μου νέους δρόμους έρευνας με την οξυδέρκεια που τους διακρίνει κ.κ. Αθανάσιο Τσακαλίδη, Ιωάννη Γαροφαλάκη και Χρήστο Μακρή. Αμέριστη ήταν η συμπαράσταση και η βοήθεια που είχα κατά το σχεδιασμό και την υλοποίηση της μεταπτυχιακής διπλωματικής εργασίας από τον επιβλέποντα καθηγητή μου Χρήστο Μακρή καθώς και απόλυτα θετικές και ευχάριστες οι αναμνήσεις από την άψογη συνεργασία μας. Θα ήθελα ακόμα να ευχαριστήσω τους γονείς μου που με στήριξαν με κάθε μέσο και όχι απλώς μοιράστηκαν αλλά επωμίστηκαν όλη την αγωνία μου για την ολοκλήρωση των μεταπτυχιακών μου σπουδών μη αφήνοντας τίποτα να με αποσπάσει από το στόχο μου. Ευχαριστώ ακόμα τη γυναίκα μου για τη ψυχολογική στήριξη που μου παρείχε και την έμφυτη αισιοδοξία της που μου μεταδίδει και με βοηθάει να γίνομαι καλύτερος κάθε μέρα. 3

4 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής Περίληψη Η συγκεκριμένη μεταπτυχιακή διπλωματική εργασία ασχολείται με την αλληλεπίδραση δύο παράλληλων διεργασιών στην προσπάθεια αξιοποίησης του Παγκόσμιου Ιστού (Web): (α) τη διεργασία μετεξέλιξης του Παγκόσμιου Ιστού στο σημασιολογικό Παγκόσμιο Ιστό, (β) τη διεργασία βελτίωσης των διαδικασιών διαπέρασης (crawling) και ψαξίματος (searching) στον Παγκόσμιο Ιστό. Στα πρώτα βήματα του Παγκόσμιου Ιστού το σημαντικότερο ίσως πρόβλημα για τους χρήστες που ήθελαν να αναζητήσουν πληροφορίες σε αυτό ήταν η έλλειψη πολλών και χρήσιμων πηγών. Σταδιακά, αλλά με ιδιαίτερα γρήγορους ρυθμούς ο Παγκόσμιος Ιστός μετατράπηκε σε μία από τις μεγαλύτερες πηγές πληροφοριών που χρησιμοποιεί ο άνθρωπος καθώς όλο και περισσότεροι εισάγουν δεδομένα για κάθε είδους δραστηριότητα και θέμα. Το πρόβλημα των χρηστών λοιπόν που αναζητούν πληροφορίες ανάχθηκε στη γρήγορη εξαγωγή των χρήσιμων, από τον τεράστιο όγκο των παρεχόμενων, πληροφοριών. Όροι και τεχνικές όπως Data Mining (Εξόρυξη Δεδομένων), Information Retrieval (Ανάκτηση Πληροφορίας), Knowledge Management (Διαχείριση Γνώσης) επεκτάθηκαν για να καλύψουν και το νεοεμφανιζόμενο μέσο. Επιπλέον, στην προσπάθεια για καλύτερη ποιότητα των παρεχόμενων αποτελεσμάτων στο χρήστη σημαντικό ρόλο διαδραμάτισε η εκμετάλλευση των ιδιαίτερων στοιχείων που μπορούν να εξαχθούν για τα ενδιαφέροντά του, τόσο στο στάδιο της διαπέρασης, όπου συγκεντρώνονται σελίδες συγκεκριμένης θεματολογίας (topic-focused crawling), όσο και στο στάδιο της αναζήτησης μέσα από αυτές των πιο σημαντικών για τον εκάστοτε χρήστη (personalization). Παράλληλα, καθώς ο Παγκόσμιος Ιστός σταδιακά μετεξελίσσεται στο Σημασιολογικό Παγκόσμιο Ιστό (Semantic Web) νέα μοντέλα και πρότυπα (XML, RDF, OWL) αναπτύσσονται για την προώθηση αυτής της διαδικασίας. Η έκφραση, μετάδοση και αναζήτηση πληροφοριών με χρήση αυτών των προτύπων ανοίγει νέους ορίζοντες στη χρήση του Διαδικτύου. Το βασικό αντικείμενο της εργασίας αυτής είναι η αξιοποίηση των παρεχόμενων μοντέλων και προτύπων του Σημασιολογικού Ιστού σε συνδυασμό με ήδη εφαρμοσμένες ιδέες και αλγορίθμους στον απλό Παγκόσμιο Ιστό ώστε να είναι εφικτή η ταχύτερη και ακριβέστερη ανάκτηση και επεξεργασία πληροφοριών. Δόθηκε επίσης προσπάθεια στην αξιοποίηση τεχνικών που εκμεταλλεύονται τις ιδιαίτερες προτιμήσεις κάθε χρήστη, και στη διερεύνηση της χρήσης των νέων μοντέλων και προτύπων του Σημασιολογικού Ιστού για την προώθηση της διαδικασίας αυτής. 4

5 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης Abstract The presented master thesis examines the interaction between two parallel tasks aiming to the better utilization of the World Wide Web: (a) the task of transforming the World Wide Web into Semantic Web, (b) the task of improving the results of crawling and searching methods on the Web. In the advent of the World Wide Web the most disconcerting problem for the users searching for information in the Web was the lack of useful and sufficient sources of information. Gradually, though in really fast pace, the World Wide Web transformed into the biggest storage of information that humans can use. More and more people contribute new data on the web about every aspect of their life, activity, job or interest. Eventually, users searching for information have to deal with another problem, quite the opposite than the one mentioned above. They need to find the information they are looking for through an enormous amount of data in the minimum amount of time spend in browsing. Terms and techniques such as Data Mining, Information Retrieval, Knowledge Management were extended to be applicable and to the newly presented media. Moreover, on the strive for better quality of the results returned to users, the utilization of user s special interests that can be extracted played an important role both in the field of crawling, where pages of a certain subject are gathered (topic-focused crawling), and in the field of searching, where pages are valued according to each user s needs (personalization). At the same time, while the World Wide Web gradually transforms into Semantic Web, new standards and models (XML, RDF, OWL) are evolving in order to launch this inquiry. The storage, presentation, transmission and search of information according to those standards open up new horizons in the utilization of the Web. The principal effort of this master thesis is the utilization of the newly provided models and standards of the Semantic Web in conjunction with already tested, positively evaluated and applicable ideas and algorithms of the World Wide Web, in order to achieve higher speed in retrieval and accuracy of information. Moreover, strong efforts were given in integrating techniques that take into account the special preferences of each user and in the exploration of the benefits that come from the adaptation of these new models of the Semantic Web. 5

6 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πίνακας Περιεχομένων 1. Εισαγωγή Διαπέραση και Αναζήτηση στο Παγκόσμιο Ιστό Εισαγωγή Τα μέρη μιας μηχανής αναζήτησης Διαπέραση Χαρακτηριστικά ενός Crawler Δομή και λειτουργία ενός Crawler Αλγόριθμοι Διαπέρασης Αξιολόγηση της Διαπέρασης Μετρικές αξιολόγησης στην αναζήτηση Τεχνικές εξατομίκευσης και εστίασης σε θέμα Εξατομίκευση Εστίαση σε θέμα Σημασιολογικός Ιστός Εισαγωγή Δομή του Σημασιολογικού ιστού Μεταδεδομένα και Οντολογίες Μεταδεδομένα Οντολογίες Μοντέλα και Πρότυπα XML RDF OWL Εργαλεία Σημασιολογική Αναζήτηση Εξατομίκευση και Σημασιολογικός Ιστός Εισαγωγή Η Πρόταση Γενική ιδέα αλγορίθμου Κατηγοριοποίηση συνδέσμων και ανάθεση βαρών Στάδια λειτουργίας του crawler Υλοποίηση Συμπεράσματα και προτάσεις βελτίωσης Επίλογος Αναφορές Σημασιολογικός ιστός Αναζήτηση στο Παγκόσμιο Ιστό Διαπέραση εστιασμένη σε θέμα Ιστοσελίδες Διάφορα

7 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης 7. Παράρτημα Α Βάση Δεδομένων Παράρτημα Β Κώδικας υλοποίησης Παράρτημα Γ Κατηγοριοποίηση ετικετών Πίνακας Εικόνων Εικόνα 1: Τα τμήματα μιας Μηχανής Αναζήτησης Εικόνα 2: Ροή λειτουργίας ενός Crawler Εικόνα 3: Ροή λειτουργίας Crawler με βάση το πολυνηματικό μοντέλο Εικόνα 4: Η δομή του Σημασιολογικού ιστού Εικόνα 5: RDF γράφος που περιγράφει τον Χρήστο Καϊτανίδη Εικόνα 6: Παράδειγμα RDF γράφου Εικόνα 7: Παράδειγμα εκτεταμένου RDF γράφου Εικόνα 8: Παράδειγμα περαιτέρω εκτεταμένου RDF γράφου Εικόνα 9: Εξατομίκευση στα επίπεδα του Σημασιολογικού ιστού Εικόνα 10: Εξαγωγή RDF υπογράφου σχετικού με το θέμα Εικόνα 11: Η αρχιτεκτονική του προτεινόμενου συστήματος Εικόνα 12: Η αρχική σελίδα του περιβάλλοντος υλοποίησης πειραμάτων Εικόνα 13: Επιλογή θέματος κατά την αρχικοποίηση Εικόνα 14: Εισαγωγή διεύθυνσης εγγράφου προς διαπέραση Εικόνα 15: Ενδεικτικά αποτελέσματα διαπέρασης Εικόνα 16: Πλήθος τριπλετών στα σημασιολογικά έγγραφα

8 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής 1. Εισαγωγή Οι μηχανές αναζήτησης του Διαδικτύου έχουν γίνει αναπόσπαστο κομμάτι της καθημερινής ζωής όσων ασχολούνται με την τεχνολογία της Πληροφορικής. Η χρήση τους επεκτείνεται από το σπίτι και το γραφείο για πρόσβαση στο παγκόσμιο δίκτυο έως και εσωτερικά δίκτυα μεγάλων οργανισμών και επιχειρήσεων για ένα ευρύ φάσμα στόχων όπως ηλεκτρονικό επιχειρείν (e-business), αγορά (e-shopping), διασκέδαση (eentertainment), και εκπαίδευση (e-education). Η αναζήτηση, εύρεση, κατηγοριοποίηση και παρουσίαση πληροφοριών είναι μια επιχείρηση τεράστιων οικονομικών μεγεθών με πολλούς χρήστες στην βιομηχανία του λογισμικού. Παρ όλα αυτά, η αποδοτικότητα των μηχανών αυτών ως συστήματα ανάκτησης πληροφοριών (information retrieval - IR) παραμένει απογοητευτικά χαμηλή. To Working Group on Government Information Navigation (WGGIN) προσδιορίζει ως εξής τα προβλήματα των μηχανών αναζήτησης στο Παγκόσμιο Ιστό: Σχετικές και χρήσιμες πληροφορίες μπορεί να μη βρεθούν εάν οι ιστοσελίδες χρησιμοποιούν, για να παρουσιάσουν τις πληροφορίες τους, μορφές δεδομένων διαφορετικών από κείμενο HTML (π.χ. εικόνες, βάσεις δεδομένων, pdf έγγραφα) Συχνά οι μηχανές αναζήτησης δεν ελέγχουν κάθε σελίδα ενός ιστοτόπου αλλά μόνο αυτές που βρίσκονται στα δύο, τρία πρώτα ιεραρχικά επίπεδα, χάνοντας πληροφορίες που μπορεί να βρίσκονται σε επόμενα επίπεδα στην ιεραρχία Επίσης, οι μηχανές αναζήτησης δεν έχουν πάντα τα πιο πρόσφατα αρχεία των διάφορων ιστοσελίδων που έχουν αρχειοθετημένες καθώς τα ανανεώνουν σε συγκεκριμένα χρονικά διαστήματα Όχι σπάνια, άσχετη πληροφορία επιστρέφεται καθώς οι μηχανές αναζήτησης, που συνήθως βασίζονται στις λέξεις που περιέχονται στις ιστοσελίδες, δεν έχουν τρόπο να διαχωρίσουν τις πραγματικά σημαντικές από αυτές που τυχαία εμφανίζονται στο κείμενο των εγγράφων. Οι μηχανές αναζήτησης λοιπόν έχουν μικρή ακρίβεια (low precision) επιστρέφοντας υπερβολικά πολλά άσχετα έγγραφα και ταυτόχρονα δεν εντοπίζουν το σύνολο των χρήσιμων (low recal). Στην ουσία ο πυρήνας του προβλήματος εντοπίζεται στο γεγονός ότι η αναζήτηση στο Παγκόσμιο Ιστό ακόμα αντιπροσωπεύεται από την αντιστοίχιση επερωτήσεων (queries) και εγγράφων στο επιφανειακό επίπεδο της γλωσσολογικής ανάλυσης των λέξεων κλειδιών, αντί για το βαθύτερο επίπεδο που λαμβάνει υπόψη το πλαίσιο που περιβάλει και δίνει ξεχωριστό νόημα σε κάθε ερώτηση και στη σημασία της. Καθώς η πολυσημία (μία λέξη να χρησιμοποιείται για να περιγράψει διαφορετικά αντικείμενα π.χ. τζάγκουαρ είναι η μάρκα αυτοκινήτων αλλά και το γνωστό αιλουροειδές) και η συνωνυμία (δύο ή και περισσότερες λέξεις να περιγράφουν το ίδιο πράγμα π.χ. βελτίωση, καλυτέρευση) εμφανίζονται συχνά στη φυσική γλώσσα, η έκφραση μιας επερώτησης με 8

9 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης χρήση λέξεων κλειδιών καθιστά δύσκολη και αμφιβόλου ακρίβειας την προσπάθεια να κατανοηθεί η ανάγκη του χρήστη που έθεσε την ερώτηση. Μια λύση στο πρόβλημα αυτό της εξυπηρέτησης των χρηστών, μεταφράζοντας με ακρίβεια τις ανάγκες τους, έρχεται να δώσει το όραμα του Σημασιολογικού ιστού (Semantic Web) το οποίο περιγράφεται διεξοδικότερα στο κεφάλαιο 3 της παρούσας εργασίας. Σε γενικές γραμμές, το περιεχόμενο στο Παγκόσμιο Ιστό αναμένεται να μη δημοσιεύεται απλώς στη μορφή της καθημερινής γλώσσας αλλά σε μια υβριδική μορφή που θα περιλαμβάνει τμήματα κειμένου άμεσα συνδεδεμένα και σχολιασμένα από επεξηγηματικές σημασιολογικές ετικέτες που θα αναφέρονται σε έννοιες τυπικά ορισμένες σε οντολογίες (η έννοια των οποίων περιγράφεται αναλυτικότερα σε επόμενο κεφάλαιο της εργασίας αυτής) προσβάσιμες από το δίκτυο. Οι οντολογίες μπορούν να κατηγοριοποιηθούν σε γενικές οντολογίες που καθορίζουν υψηλού επιπέδου γενικές έννοιες κοινές στα περισσότερα θεματικά πεδία, ειδικές οντολογίες που ορίζουν εξειδικευμένες έννοιες για περιορισμένες θεματικές ενότητες, γλωσσολογικές οντολογίες που καθορίζουν έννοιες οι οποίες βασίζονται στην ύπαρξη λέξεων που αναφέρονται σε αυτές σε μία ή περισσότερες φυσικές γλώσσες, και τέλος καθαρά εννοιολογικές οντολογίες που καθορίζουν έννοιες αποκλειστικά βασιζόμενες στη χρησιμότητα που θα έχουν αυτές οι έννοιες στη διευκόλυνση αυτοματοποιημένων εργασιών λήψης αποφάσεων από τους έξυπνους πράκτορες (agents). Στον αναμενόμενο Σημασιολογικό ιστό οι χρήστες θα μπορούν να προσδιορίζουν τις πληροφοριακές τους ανάγκες χρησιμοποιώντας όρους από μια ή περισσότερες από αυτές τις οντολογίες αντί να χρησιμοποιούν λέξεις κλειδιά. Αυτό θα έχει ως αποτέλεσμα να αποκτήσουν οι νέες μηχανές αναζήτησης τη δυνατότητα να αντιστοιχούν το περιεχόμενο των εγγράφων με τις ανάγκες του χρήστη στο βαθύτερο επίπεδο της σημασιολογικής ανάλυσης, βελτιώνοντας πολύ την ακρίβεια των αποτελεσμάτων τους. Σημαντικά βήματα έχουν γίνει προς τη μετατροπή του διαδικτύου σε μια παγκόσμια βάση γνώσεων χρήσιμων τόσο για ανθρώπους-χρήστες όσο και για προγράμματα λογισμικού που λειτουργούν ως πράκτορες (software agents). Τα διαφορετικά στρώματα πάνω στα οποία χτίζεται ο Σημασιολογικός ιστός έχουν αντιστοιχηθεί σε πρότυπα κωδικοποίησης οντολογιών, μετάδοσής τους στο Παγκόσμιο Ιστό, και σημασιολογικού σχολιασμού των εγγράφων του διαδικτύου: XML και XMLS, RDF και RDFS, OWL. Επιπλέον, έχουν σχηματιστεί πολλές γενικού αλλά και εξειδικευμένου περιεχομένου οντολογίες, οι οποίες είναι διαθέσιμες στο Παγκόσμιο Ιστό. Αντίστοιχα, εργαλεία για τη δημιουργία και συντήρησή τους έχουν επίσης εμφανιστεί καθώς και εφαρμογές που κάνουν χρήση των δυνατοτήτων του Σημασιολογικού ιστού. Παρά το γεγονός ότι έχει τεθεί το πλαίσιο της λειτουργίας του Σημασιολογικού ιστού, η μετατροπή του υπάρχοντος διαδικτύου δεν μπορεί να γίνει από τη μια μέρα στην άλλη. Η μετατροπή του απλού διαδικτύου στο Σημασιολογικό ιστό θα είναι μια αργή και επίσης σταδιακή διαδικασία. Αυτό οφείλεται κυρίως στο γεγονός ότι ένα πλήρως σημασιολογικά σχολιασμένο διαδίκτυο απαιτεί συνθετότερες βάσεις δεδομένων, χρήση τυπικής γλώσσας και υψηλού επιπέδου ικανότητα από τους χρήστες οι 9

10 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής οποίοι θέλουν να «ανεβάσουν» τις πληροφορίες τους στο Παγκόσμιο Ιστό. Η απλότητα του διαδικτύου όμως ήταν αυτή που το έκανε τόσο δημοφιλές και επιτυχημένο και παρότι η χρήση φυσικής γλώσσας δυσχεραίνει τις προσπάθειες για ακρίβεια και πληρότητα στα αποτελέσματα αναζήτησης, η χρήση της ήταν αυτή που επέτρεψε τη μαζική και αυθόρμητη προώθηση τόσο μεγάλου όγκου πληροφοριών στο Παγκόσμιο Ιστό από τόσους πολλούς χρήστες χωρίς ιδιαίτερες ή και ελάχιστες προγραμματιστικές/τεχνικές ικανότητες. Για παράδειγμα, η σύνταξη ενός HTML εγγράφου απαιτεί ελάχιστες ικανότητες πέραν της πληκτρολόγησης κειμένου, της μορφοποίησής του και την κατανόηση της πλοήγησης μέσω υπερσυνδέσμων. Από την άλλη μεριά, ο σημασιολογικός σχολιασμός των εγγράφων με έννοιες από υπάρχουσες οντολογίες, ακόμα και με χρήση φιλικών προς τον χρήστη εργαλείων, απαιτεί κάποιες βασικές γνώσεις από διαχείριση γνώσης (knowledge engineering) τις οποίες ο μέσος σχεδιαστής ιστοσελίδας δεν διαθέτει και πιθανώς θα δυσκολευτεί να αποκτήσει. Αυτό εξηγεί κατά μια έννοια και το εξής παράδοξο γεγονός: Ενώ η XML είναι ευρέως γνωστή και διαδεδομένη τόσο στις επιχειρηματικές όσο και στις ακαδημαϊκές κοινότητες, οι ιστοσελίδες με XML είναι ακόμα ελάχιστες συγκριτικά με το σύνολο των σελίδων του διαδικτύου. Θα χρειαστεί επομένως ένα εύλογο χρονικό διάστημα μέχρι το σύνολο των ιστοσελίδων που δημοσιεύονται με ενσωματωμένες σημασιολογικές πληροφορίες να είναι αρκετά μεγάλο ώστε να επιδράσει δραστικά στην αποδοτικότητα των μηχανών αναζήτησης. Οι απόψεις σχετικά με το πλήθος και το βαθμό διάδοσης των σελίδων μεταδεδομένων διίστανται. Ο διευθυντής ποιότητας αναζήτησης του Google στα τέλη του 2005 [4.2] δήλωσε πως υπολόγισε τις σελίδες με κατάληξη rdf, owl και κάποιες ακόμα, σε περίπου δηλαδή το 0,005% του συνολικού ιστού. Ανάγοντας έτσι το ζήτημα της προώθησης του διαδικτύου στο γνωστό πρόβλημα του αυγού και της κότας πώς να δημιουργήσει κανείς μεταπληροφορίες όταν δεν υπάρχουν εργαλεία και εφαρμογές να τις αξιοποιήσουν και από την άλλη πώς να δημιουργήσει κανείς τα κατάλληλα εργαλεία όταν δεν έχει το απαιτούμενο μέγεθος μεταπληροφοριών προς αξιοποίηση; Από την άλλη πλευρά, ερευνητικές προσπάθειες καταμέτρησης [4.1] έδειξαν ότι ο προηγούμενος υπολογισμός ήταν μάλλον πεσιμιστικός και ότι το πραγματικό πλήθος εγγράφων του σημασιολογικού ιστού (έγγραφα RDF και έγγραφα HTML/XHTML με ενσωματωμένα σχόλια RDF) ανέρχεται γύρω στα 15 εκατομμύρια το οποίο αν και μικρό πάλι σε σχέση με το συνολικό Παγκόσμιο Ιστό, είναι αρκετά σημαντικό. Στη παρούσα εργασία έγινε μια προσπάθεια να αξιοποιηθούν οι δυνατότητες του Σημασιολογικού ιστού προς το σκοπό της ταχύτερης διαπέρασης ιστοσελίδων του Σημασιολογικού ιστού οι οποίες σχετίζονται με συγκεκριμένο θέμα προτίμησης του χρήστη που ζήτησε τη διαπέραση αυτή. Αν και οι συνθήκες δεν ήταν αρκετά ευνοϊκές, λόγω του μικρού πλήθους σημασιολογικά σχολιασμένων ιστοσελίδων σε σχέση με το σύνολο του διαδικτύου και κυρίως της μικρής διασυνδεσιμότητας που παρατηρήθηκε τελικά μεταξύ τους, μπόρεσαν να εξαχθούν χρήσιμα συμπεράσματα για την αποδοτικότητα της προτεινόμενης μεθόδου και να ενισχυθεί η πεποίθηση πως παρόμοια πειράματα θα διεξαχθούν με μεγαλύτερη 10

11 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης αποτελεσματικότητα στο μέλλον όπου το όραμα του Σημασιολογικού ιστού θα βρίσκεται ορισμένα βήματα πιο κοντά στην υλοποίησή του. Προς το παρόν, έχουν κάνει την εμφάνισή τους κυρίως εναλλακτικές μέθοδοι αύξησης της αποδοτικότητας των μηχανών αναζήτησης με μερική χρήση των τεχνολογιών που αναπτύσσονται για τη μετατροπή του διαδικτύου στο Σημασιολογικό ιστό προτού αυτή η αλλαγή γίνει πραγματικότητα. Για παράδειγμα στην εργασία [1.19] εξετάζεται κατά πόσο η χρήση γλωσσολογικών, γενικού σκοπού οντολογιών από τις υπάρχουσες μηχανές αναζήτησης μπορεί να βελτιώσει την αποδοτικότητά τους στην επιστροφή εγγράφων που δεν έχουν ενσωματώσει σημασιολογικό σχολιασμό. 11

12 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής 2. Διαπέραση και Αναζήτηση στο Παγκόσμιο Ιστό 2.1 Εισαγωγή Ο Παγκόσμιος Ιστός παρέχει σήμερα μια φαινομενικά αστείρευτη πηγή πληροφοριών για όλα τα θέματα που μπορεί να μας απασχολούν και πάνω του στηρίζεται η διάδοση της παγκόσμιας γνώσης στο ευρύ κοινό. Το τεράστιο πλήθος πληροφοριών που εντοπίζονται σε αυτόν αποτελεί ταυτόχρονα και το σημαντικότερο εμπόδιο στην εύρεση των συγκεκριμένων στοιχείων που ενδιαφέρουν κάθε χρήστη. Επομένως, μια από τις ανάγκες που «γέννησε» ο εκθετικός ρυθμός επέκτασης του Παγκόσμιου Ιστού είναι η ανάγκη για γρήγορη και με ακρίβεια αναζήτηση των επιθυμητών πληροφοριών. Στα πρώτα στάδια της ανάπτυξης του διαδικτύου πιθανόν να μπορούσε κανείς να πλοηγηθεί σε αυτό ξεκινώντας από μια γνωστή του ιστοσελίδα και ακολουθώντας υπερσυνδέσμους να καταλήξει σε αυτό που αναζητούσε. Στη συνέχεια, δημιουργήθηκαν κατάλογοι ιστοσελίδων με βάση το περιεχόμενό τους, οι οποίοι διευκόλυναν την αναζήτηση. Και πάλι όμως, η ταχύτατη και συνεχής ανάπτυξη του διαδικτύου απαιτεί εξωπραγματικούς ρυθμούς ανανέωσης των καταλόγων ώστε αυτοί να επιτυγχάνουν πληρότητα και εγκυρότητα στα περιεχόμενά τους. Από τους πιο γνωστούς θεματικούς καταλόγους είναι το Yahoo! [4.37] και από τους πιο πλήρεις ο κατάλογος του Open Directory Project (ODP) ο οποίος συντηρείται από πληθώρα εθελοντών, χρηστών του παγκόσμιου ιστού [4.20]. Πλέον, ο πιο ευέλικτος και δημοφιλής τρόπος αναζήτησης πληροφοριών στο Παγκόσμιο Ιστό είναι μέσω της χρήσης μιας μηχανής αναζήτησης, δηλαδή ενός προγράμματος σχεδιασμένου να δέχεται τις ερωτήσεις του χρήστη, κυρίως μέσω λέξεων-κλειδιών, και να του επιστρέφει σχετικές ιστοσελίδες και δεδομένα από όλο το Παγκόσμιο Ιστό. Επιπλέον, είναι εφικτός και ο συνδυασμός των αποτελεσμάτων που προκύπτουν από διαφορετικές μηχανές αναζήτησης μέσω των μετα-μηχανών αναζήτησης. Από τις πιο γνωστές και δημοφιλείς μηχανές είναι οι ακόλουθες: Google [4.38], Altavista [4.39], Lycos [4.40] στην οποία ανήκει και το HotBot [4.41], Excite [4.42] στην οποία ανήκει ο Webcrawler [4.43] και άλλες. Ενώ γνωστές μετα-μηχανές: AskJeeves [4.44], Metacrawler [4.45], Vivisimo [4.46], Dogpile [4.47], και άλλες. Παρόμοια προγράμματα σχεδιάστηκαν αρχικά για εύρεση στοιχείων σε περιορισμένες συλλογές όπως τα περιεχόμενα μιας βιβλιοθήκης ή τα δεδομένα των υπολογιστών ενός μικρού εταιρικού δικτύου. Πολλές από τις μηχανές αυτές χρησιμοποιούν διαφορετικές τεχνικές ανάκτησης πληροφοριών με κυρίαρχη για μικρό σύνολο αρχείων το Latent Semantic Indexing (LSI [5.7]) το οποίο στηρίζεται στο διανυσματικό μοντέλο (vector space model). Το LSI χρησιμοποιεί την ανάλυση σε ειδικές τιμές (Singular Value Decomposition) του πίνακα που περιέχει τους όρους που εμφανίζονται ανά έγγραφο (term-by-document) για να εντοπίσει σημασιολογικές συσχετίσεις των εγγράφων με την αναζήτηση του χρήστη. Έγινε δημοφιλές για την ικανότητά του να χειρίζεται αποδοτικά 12

13 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης αναζητήσεις στις οποίες εμπλέκονται φαινόμενα συνωνυμίας και πολυσημίας. Η SVD επιτρέπει στο LSI να ομαδοποιεί έγγραφα και όρους ανά έννοια, για παράδειγμα, τα συνώνυμα αυτοκίνητο, αμάξι, όχημα μπορούν να τοποθετηθούν στην ίδια ομάδα. Όμως, το LSI σχεδιάστηκε για μικρές συλλογές δεδομένων όπου το κόστος υπολογισμού της SVD του πίνακα και της αποθήκευσής του είναι μικρό. Η δύναμή του είναι και ο λόγος της μη πρακτικής εφαρμογής του στο Παγκόσμιο Ιστό. Συγκεκριμένα, η εφαρμογή παρόμοιων πρακτικών στο Παγκόσμιο Ιστό δυσχεραίνεται από το τεράστιο πλήθος των αρχείων που βρίσκονται σε αυτόν, την διαρκή επέκτασή του με νέες ιστοσελίδες και αρχεία και τη διασπορά τους σε εκατομμύρια διαφορετικούς υπολογιστές ανά τον κόσμο. Επιπλέον, τα έγγραφα στο Παγκόσμιο Ιστό δεν υπόκεινται σε κάποιου είδους εκδοτικό έλεγχο με συνέπεια να υπάρχει πληθώρα άχρηστων ή απλά επικαλυπτόμενων θεματικά εγγράφων. Ταυτόχρονα, η ποιότητα πολλών εγγράφων είναι πολύ χαμηλή ή και αμφιβόλου εγκυρότητας και αξίας, γεγονός που καθιστά επιτακτική την αξιολόγηση πρώτα των εγγράφων πριν την συμπερίληψή τους στα αποτελέσματα μιας αναζήτησης. Τέλος, οι συχνές αλλαγές στο περιεχόμενο των ιστοσελίδων, η ανανέωσή τους και πιθανές αλλαγές στη δομή τους οδηγούν αλλά και συνδυάζονται με την ύπαρξη εσφαλμένων υπερσυνδέσμων καθιστώντας την προσπάθεια αναζήτησης πληροφοριών μέσω ενός προγράμματος ακόμα πιο σύνθετη και δύσκολη. Στα παραπάνω στοιχεία θα πρέπει να συνυπολογιστούν και μερικές αρνητικές διαπιστωμένες [2.16] συνήθειες των χρηστών των μηχανών αναζήτησης όπως η χρήση πολύ μικρών επερωτήσεων με χρήση λίγων λέξεων-κλειδιών. Επιπλέον, δεν συνηθίζεται η χρήση των προχωρημένων επιλογών αναζήτησης που παρέχουν πολλές από τις μηχανές ούτε και η ανατροφοδότηση του συστήματος με στοιχεία που θα βελτίωναν την αναζήτηση. Ακόμα όμως και αν όλα τα παραπάνω εφαρμόζονταν, η συνήθεια των χρηστών να βλέπουν μόνο τα πρώτα 10 με 20 αποτελέσματα εντείνει την ανάγκη για καλύτερους τρόπους αναζήτησης. Επομένως, η αναζήτηση θα πρέπει να επιστρέφει αποτελέσματα, γρήγορα, με ακρίβεια, εγκυρότητα και πληρότητα ώστε να ικανοποιεί τις σύγχρονες απαιτήσεις των χρηστών. Για να επιτύχουν οι μηχανές αναζήτησης στην παροχή των κατάλληλων πληροφοριών σε κάθε επερώτηση των χρηστών θα πρέπει να προηγηθεί το στάδιο της Διαπέρασης (Crawling) του Παγκόσμιου Ιστού από τα αντίστοιχα για αυτή τη λειτουργία υποπρογράμματα/μέρη των μηχανών που είναι γνωστά ως crawlers, spiders, robots, worms κ.τ.λ. Κατά το crawling τα προγράμματα αυτά επισκέπτονται διαδοχικά σελίδες του Παγκόσμιου Ιστού ακολουθώντας τους υπερσυνδέσμους που βρίσκονται μέσα στα δημοσιευμένα αυτά έγγραφα, έχοντας ως στόχο τον εντοπισμό του συνόλου των εγγράφων του Παγκόσμιου Ιστού ή κάποιων μόνο θεματικών ενοτήτων. Από την πληρότητα και ακρίβεια του crawling λοιπόν εξαρτάται και η απόδοση της μηχανής αναζήτησης στα διάφορα ερωτήματα που δέχεται και γι αυτό το λόγο το crawling αποτελεί ένα από τα σπουδαιότερα τμήματα 13

14 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής των μηχανών αναζήτησης και είναι άρρηκτα συνδεδεμένο με τη λειτουργία της αναζήτησης. 2.2 Τα μέρη μιας μηχανής αναζήτησης Οι μηχανές αναζήτησης αποτελούν ιδιαίτερα σύνθετες εφαρμογές, απαιτητικές στη δημιουργία αλλά και κατά τη συντήρησή τους. Τα κυριότερα μέρη που έχουν συνήθως οι μηχανές αυτές παρουσιάζονται στην Εικόνα 1 και αναλύονται στη συνέχεια. Εικόνα 1: Τα τμήματα μιας Μηχανής Αναζήτησης Το τμήμα Διαπέρασης επιτελεί την «κοπιαστική» διαδικασία να επισκεφτεί και να συλλέξει ιστοσελίδες και άλλα δεδομένα από το Παγκόσμιο Ιστό. Αποτελείται συνήθως από περισσότερους του ενός ξεχωριστούς crawlers, οι οποίοι μπορούν και λειτουργούν παράλληλα εξοικονομώντας χρόνο μέχρι την επίτευξη του τελικού στόχου. Προσέχοντας να μην επισκέπτονται τις ίδιες ιστοσελίδες και πηγές πληροφοριών, ξεκινάνε από ένα σύνολο αρχικών πηγών και ακολουθώντας τους υπερσυνδέσμους ανακαλύπτουν νέες ιστοσελίδες και έγγραφα στο Παγκόσμιο Ιστό τα οποία και αποθηκεύουν στον διατιθέμενο χώρο ή λόγω οικονομίας χώρου αποθηκεύουν απλώς τις διαδρομές που οδηγούν σε αυτά. Το κέντρο ελέγχου διαπέρασης συντονίζει την λειτουργία των crawlers και καθορίζει τους αμέσως επόμενους υπερσυνδέσμους προς επίσκεψη. 14

15 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης Η διαδικασία αυτή συνεχίζεται μέχρι να εξαντληθούν οι πόροι του συστήματος πάνω στο οποίο «τρέχει» η εφαρμογή (πληρότητα αποθηκευτικού χώρου ή και μνήμης) ή μέχρι να ικανοποιηθούν οι στόχοι που είχαν τεθεί αρχικά. Για παράδειγμα, η διαπέραση θα μπορούσε να έχει ως στόχο να ανακαλυφτούν όσο πιο πολλά έγγραφα και πηγές γίνεται ανεξαρτήτου θέματος, τερματίζοντας μόνο όταν εξαντληθούν οι πόροι του συστήματος. να ανακαλυφτούν όσο το δυνατόν πιο πολλές αρχικές σελίδες ιστοτόπων. να γίνει διαπέραση μόνο των πηγών που εντοπίζονται εντός κάποιου συγκεκριμένου domain, π.χ. του πανεπιστημίου της Πάτρας ή του δικτύου μιας εταιρείας. να εντοπιστούν μόνο όσες σχετίζονται με κάποιο ή κάποια συγκεκριμένα θέματα. καθώς και συνδυασμό των παραπάνω αλλά και όποιων άλλων επιθυμούν οι δημιουργοί της μηχανής αναζήτησης. Η διαδικασία της διαπέρασης μπορεί να επαναλαμβάνεται ανά κάποια χρονικά διαστήματα ολόκληρη ή εν μέρει ώστε τα αποτελέσματα να συμβαδίζουν όσο είναι δυνατόν με την διαρκή αλλαγή και εξέλιξη του παγκόσμιου ιστού. Στην επιλογή του επόμενου υπερσυνδέσμου που θα ακολουθηθεί από έναν crawler μπορεί να συμβάλλει και η προϊστορία από προηγούμενες διαπεράσεις, σύμφωνα με τις οποίες ίσως είχε δημιουργηθεί κάποιο γράφημα ή ευρετήριο υπαρκτών υπερσυνδέσμων που θα χρησιμοποιηθεί από το κέντρο ελέγχου της διαπέρασης για να διευκολύνει την επιλογή. Το κέντρο ελέγχου της διαπέρασης θα μπορούσε να κάνει χρήση και πληροφοριών από τον τρόπο χρήσης της μηχανής αναζήτησης από τους χρήστες. Το τμήμα Ταξινόμησης εξάγει λέξεις από όλα τα έγγραφα που έχουν ανακαλυφθεί κατά τη διαπέραση και δημιουργεί έναν πίνακα για την αντιστοίχιση των εμφανίσεων των λέξεων στα εκάστοτε έγγραφα και στις εκάστοτε διευθύνσεις στο Παγκόσμιο Ιστό. Το μέγεθος του παραγόμενου πίνακα λόγω του μεγέθους του διαδικτύου είναι τεράστιο (για περιορισμένες αναζητήσεις δεν υπάρχει αντίστοιχο πρόβλημα) και η διαδικασία είναι ιδιαίτερα δύσκολη και «ακριβή» ως προς τους πόρους του συστήματος. Από τα στοιχεία αυτά μπορούν να δημιουργηθούν ευρετήρια, π.χ. ευρετήρια δομής που αποθηκεύουν πληροφορίες για τη συνδεσμολογία μεταξύ των εγγράφων και αξιοποιούνται από το κέντρο ελέγχου της διαπέρασης. Επίσης, οι πληροφορίες από τον αποθηκευτικό χώρο και τα απλά ευρετήρια που αναφέρθηκαν μπορούν να συνδυαστούν και να αναλυθούν από το τμήμα Ανάλυσης ώστε να προκύψουν ειδικά ευρετήρια συγκεκριμένου σκοπού. Για παράδειγμα, ευρετήρια που παρέχουν πρόσβαση σε ιστοσελίδες που εντοπίζονται σε διευθύνσεις περιορισμένου μήκους (κατά κανόνα αυτές είναι οι κεντρικές ιστοσελίδες των διαφόρων ιστοτόπων), ευρετήρια ιστοσελίδων με ελάχιστο όριο «σπουδαιότητας» ανάλογα με τα κριτήρια σπουδαιότητας που είχαν τεθεί ή ευρετήρια ιστοσελίδων με βάση το πλήθος ή το είδος των εικόνων που περιέχουν. 15

16 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής Ιδιαίτερα σημαντικό είναι και το τμήμα του αποθηκευτικού χώρου στον οποίο αποθηκεύονται (συνήθως προσωρινά μέχρι να αξιοποιηθούν οι πληροφορίες τους) οι ιστοσελίδες που εντοπίζονται κατά τη διαπέραση. Για παράδειγμα το Google αποθηκεύει και ιστοσελίδες για να παρέχει τη δυνατότητα στους χρήστες του να βλέπουν την αποθηκευμένη έκδοση μιας ιστοσελίδας ακόμα και αν αυτή έχει για κάποιο λόγο καταστεί μη προσβάσιμη μέσω του διαδικτύου. Προφανώς, ένας χώρος όπως ο Παγκόσμιος Ιστός δεν είναι δυνατόν να χωρέσει σε οποιοδήποτε τοπικό χώρο και επομένως η αποθήκευση των πληροφοριών του απαιτεί ειδική αντιμετώπιση για να επιλυθούν σημαντικότατα θέματα. Μερικά από αυτά είναι η εξοικονόμηση χώρου, η γρήγορη εύρεση των αποθηκευμένων πληροφοριών που αναζητούνται, η «φρεσκάδα» των αποτελεσμάτων που έχουν αποθηκευτεί (αν αργήσει πολύ η όλη διαδικασία μπορεί στο πέρας της οι πληροφορίες που αποθηκεύτηκαν να μην είναι έγκυρες καθώς επίσης και αν πραγματοποιηθεί μόνο μία φορά στην αρχή της λειτουργίας της μηχανής αναζήτησης), κ.ο.κ. Κάποια σημαντικά ζητήματα που πρέπει επιπρόσθετα να αντιμετωπίσουν οι κατασκευαστές των μηχανών αναζήτησης παρουσιάζονται αναλυτικά στο [2.17]. Τέλος, το τμήμα Διαχείρισης Επερωτήσεων αναλαμβάνει την επικοινωνία με το χρήστη. Δέχεται τα ερωτήματα που του θέτει, πραγματοποιεί την αναζήτηση στα υπάρχοντα ευρετήρια με τις συγκεντρωμένες πληροφορίες και παρουσιάζει τα αποτελέσματα στο χρήστη. Λόγω του πλήθους των αποτελεσμάτων που συνήθως υπάρχουν προς εμφάνιση στο χρήστη, απαιτείται ειδική αντιμετώπιση στην παρουσίασή τους. Αφού δεν είναι εφικτή η ταυτόχρονη παρουσίαση όλων των σχετικών με την επερώτηση ιστοσελίδων, είναι πολύ χρήσιμο για μια μηχανή αναζήτησης να παρουσιάζει τα αποτελέσματα με κάποια σειρά ως προς την αξία τους. Για παράδειγμα, όσο πιο σχετικά είναι με το θέμα αναζήτησης τόσο πιο νωρίς να παρουσιάζονται στον χρήστη. Η διαδικασία αυτή έχει ως αποτέλεσμα τη δημιουργία μιας αξιολόγησης (ranking) των ιστοσελίδων που βασίζεται σε διάφορες μετρικές για την ανάθεση θέσης (ordering metrics). Γνωστές μετρικές και αλγόριθμοι παρουσιάζονται στην παράγραφο Διαπέραση Εάν ο Παγκόσμιος Ιστός αποτελούνταν από ένα σταθερό σύνολο στατικών και μη μεταβαλλόμενων ιστοσελίδων τότε θα αρκούσε να πραγματοποιηθεί η συγκέντρωσή τους μία μόνο φορά από τις μηχανές αναζήτησης. Κάτι τέτοιο όμως είναι εντελώς αντίθετο από την πραγματικότητα κατά την οποία νέες ιστοσελίδες προστίθενται κατά εκατοντάδες καθημερινά στο υπάρχον σύνολο, άλλες αποσύρονται και πολλές ακόμα τροποποιούνται, μετακινούνται ή/και ανανεώνουν τα περιεχόμενά τους. Καθίσταται επομένως αναγκαία η συνεχής χρήση συστημάτων ανάκτησης διαδικτυακής πληροφορίας που θα ανανεώνουν τα υπάρχοντα δεδομένα. Η διαδικασία αυτή, στην οποία θα αναφερόμαστε ως Διαπέραση, μπορεί να πραγματοποιηθεί είτε βασιζόμενη στον εξαντλητικό έλεγχο όλου του 16

17 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης Παγκόσμιου Ιστού είτε επιλέγοντας την εστίαση σε συγκεκριμένης θεματολογίας και ενδιαφέροντος ιστοσελίδες. Κατά το στάδιο της Διαπέρασης είναι δυνατό να χρησιμοποιηθούν ένας ή και περισσότεροι web crawlers ταυτόχρονα για την επίτευξη του επιθυμητού αποτελέσματος. Μερικές πιθανές εφαρμογές της εκτός από τη συγκέντρωση δεδομένων προς ταξινόμηση είναι και η πιστοποίηση ιστοσελίδων, δομική ανάλυση και οπτικοποίηση, ειδοποίηση ανανέωσης, παροχή πολλαπλών πηγών της ίδιας πληροφορίας (mirroring), προσωπικοί βοηθοί και πράκτορες για το Παγκόσμιο Ιστό και άλλες Χαρακτηριστικά ενός Crawler Ένας web crawler είναι ένα πρόγραμμα που διατρέχει αυτόματα το Παγκόσμιο Ιστό, «κατεβάζοντας» ιστοσελίδες, αξιοποιώντας την ύπαρξη υπερσυνδέσμων μεταξύ των ιστοσελίδων, δηλαδή τη δομή γράφου που χαρακτηρίζει το Παγκόσμιο Ιστό. Στην απλούστερη μορφή του, ένας crawler, ξεκινά από μια αρχική σελίδα τροφοδότησης και αξιοποιεί τους εξερχόμενους υπερσυνδέσμους από αυτήν ώστε να επισκεφτεί και άλλες ιστοσελίδες. Η διαδικασία επαναλαμβάνεται με τις νέες ιστοσελίδες να προσφέρουν περισσότερους εξερχόμενους υπερσυνδέσμους προς διαπέραση, μέχρι να εντοπιστεί επαρκής αριθμός ιστοσελίδων ή να επιτευχθεί κάποιος ανώτερου επιπέδου επιδιωκόμενος στόχος. Τα προβλήματα που πρέπει να αντιμετωπίσει ένας crawler πηγάζουν κυρίως από το τεράστιο μέγεθος του διαδικτύου αλλά δεν περιορίζονται μόνο σε αυτό καθιστώντας τη κατασκευή ενός αποδοτικού crawler μια ιδιαίτερα επίπονη και λεπτή διαδικασία. Στην παράγραφο γίνεται μια προσπάθεια καθορισμού του όρου «αποδοτικός» crawler και του πως μπορεί να αξιολογηθεί η λειτουργία του. Μερικά από τα ερωτήματα τα οποία πρέπει να μπορεί να απαντήσει ένας καλά σχεδιασμένος crawler είναι τα ακόλουθα: Ποιες ιστοσελίδες θα ήταν προτιμότερο να «κατεβάσει» ο crawler; Στις περισσότερες περιπτώσεις ο crawler δεν μπορεί να διαπεράσει όλες τις σελίδες που υπάρχουν στο Παγκόσμιο Ιστό. Ακόμα και οι πιο γνωστές μηχανές αναζήτησης παρέχουν πληροφορίες για ένα μέρος του συνολικού ιστού. Επομένως, είναι σημαντικό να επιλέγει ο crawler με ιδιαίτερη προσοχή τις σελίδες και να επισκέπτεται πρώτα αυτές που θεωρεί πιο «σημαντικές» θέτοντας μια σειρά προτεραιότητας στις URLs που διαθέτει προς διαπέραση. Με αυτό τον τρόπο, το τμήμα του διαδικτύου που επισκέπτεται (και ανανεώνει στη συνέχεια) θα έχει μεγαλύτερη σημασία και βαρύτητα. Πώς θα αποφευχθεί το «κατέβασμα» ίδιων αρχείων κατά την ίδια διαπέραση; Κατά τη διαπέραση του διαδικτύου είναι πολύ πιθανό ο crawler να εντοπίσει ταυτόσημα αρχεία από διαφορετικές πηγές (για παράδειγμα λόγω του φαινομένου του mirroring) ή να οδηγείται στα ίδια URLs από διαφορετικές πηγές. Για τη δεύτερη περίπτωση αρκεί ίσως μια καταγραφή των επισκεπτόμενων URLs ώστε να μην τις ξαναεπισκέπτεται, αλλά για την πρώτη περίπτωση απαιτείται κάτι πιο σύνθετο, όπως ο έλεγχος του 17

18 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής «αποτυπώματος» του εγγράφου, για παράδειγμα μέσω ενός αλγορίθμου που βασίζεται σε ένα 64-bit άθροισμα ελέγχου του αρχείου ή με χρήση MD5 ή SHA. Με ποιο τρόπο πρέπει να ανανεώνει τις σελίδες που βρήκε; Μόλις βρεθούν αρκετές ιστοσελίδες (τόσες όσες να ικανοποιούνται τα κριτήρια που τέθηκαν εξ αρχής), πρέπει να αρχίσει η διαδικασία ανανέωσής τους, δηλαδή να τις ξανα-επισκέπτεται ώστε να εντοπίζει τυχόν αλλαγές ή καταργήσεις. Επειδή οι ιστοσελίδες αλλάζουν με πολλούς διαφορετικούς ρυθμούς (π.χ. άλλες κάθε μέρα και άλλες μια φορά το χρόνο) και διαφορετική ένταση (π.χ. ριζικές αλλαγές ή απλώς κάποιες μικρές τροποποιήσεις), ο crawler πρέπει να αποφασίζει προσεκτικά για το ποια σελίδα θα ξαναεπισκεφτεί και ποια όχι καθώς αυτή η απόφαση έχει σημαντικό αντίκτυπο στην «φρεσκάδα» της συλλογής ιστοσελίδων που επισκέφτηκε και των χαρακτηριστικών τους. Για παράδειγμα, αν μια ιστοσελίδα αλλάζει σπάνια, τότε είναι πιθανότερο να μη χρειάζεται να την ξαναεπισκέπτεται σε μικρά χρονικά διαστήματα εξοικονομώντας πόρους για να επισκεφτεί αυτές που αλλάζουν πιο συχνά. Πώς θα ελαχιστοποιηθεί ο φόρτος εργασίας που προστίθεται στους επισκεπτόμενους από τον crawler ιστοτόπους; Κατά τη διαδικασία της διαπέρασης μιας ιστοσελίδας ο crawler καταναλώνει πόρους που ανήκουν σε άλλους οργανισμούς (τους ιδιοκτήτες των εξυπηρετητών και του ενδιάμεσου δικτύου). Για παράδειγμα, όταν ο crawler «κατεβάζει» μια ιστοσελίδα από έναν ιστοτόπο, ο ιστοτόπος πρέπει να ανακτήσει τη σελίδα από το σύστημα αρχείων του καταναλώνοντας πόρους από το σκληρό δίσκο και τον επεξεργαστή του εξυπηρετητή που την φιλοξενεί. Επιπλέον, η ιστοσελίδα πρέπει να μεταφερθεί μέσω του δικτύου το οποίο αποτελεί έναν άλλο πόρο διαμοιραζόμενο μεταξύ πολλών οργανισμών. Επομένως, ο crawler πρέπει να ελαχιστοποιεί όσο μπορεί περισσότερο την επίδρασή του σε αυτούς τους πόρους (Robots exclusion protocol [4.50]), διαφορετικά οι διαχειριστές αυτών των συστημάτων μπορεί να διαμαρτυρηθούν ή και να αποκλείσουν εντελώς την πρόσβαση στα αρχεία τους από τον crawler. Πώς θα έπρεπε να υλοποιείται η παράλληλη διαπέραση; Λόγω του τεράστιου μεγέθους του διαδικτύου, συχνά οι crawlers λειτουργούν σε πολλαπλά υπολογιστικά συστήματα και επισκέπτονται ιστοσελίδες παράλληλα. Αυτή η παράλληλη λειτουργία είναι συχνά απαραίτητη ώστε να επισκεφτούν σημαντικό αριθμό ιστοσελίδων σε λογικό χρονικό διάστημα. Τίθενται λοιπόν ζητήματα συγχρονισμού μεταξύ τους ώστε για παράδειγμα διαφορετικοί crawlers να μην επισκέπτονται τον ίδιο ιστοτόπο πολλαπλές φορές. Η επίτευξη αυτού του συγχρονισμού μπορεί να επιφέρει σημαντικό επιπλέον επικοινωνιακό κόστος θέτοντας έτσι περιορισμό στο μέγιστο αριθμό των crawlers που μπορούν να δουλεύουν παράλληλα Δομή και λειτουργία ενός Crawler Η ροή λειτουργίας ενός απλού ακολουθιακού crawler φαίνεται στο ακόλουθο σχήμα: 18

19 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης Έναρξη Αρχικοποίηση συνόρου με URLs Έλεγχος τερματισμού ΟΧΙ Επιλογή URL από το σύνορο ΝΑΙ Λήξη Κενό σύνορο Επιστροφή σελίδας Ανάλυση σελίδας Προσθήκη URLs στο σύνορο Εικόνα 2: Ροή λειτουργίας ενός Crawler Το σύνορο Το σύνορο (frontier) αποτελεί μια λίστα-στόχο από URLs που γνωρίζει ο crawler αλλά δεν έχει προλάβει ακόμα να τις επισκεφτεί. Εάν η λίστα πρόκειται να αποθηκευτεί στη μνήμη αντί του σκληρού δίσκου, το μέγεθός της περιορίζεται από το ποσό της μνήμης που μπορεί να διαθέσει ο υπολογιστής. Επιπλέον, χρειάζεται και ένας μηχανισμός που θα αποφασίζει τι θα γίνεται με τις νέες URLs από τη στιγμή που το frontier θα είναι πλήρες, κάτι που μπορεί να συμβεί σύντομα, δεδομένης της ύπαρξης πολλών συνδέσμων μέσα στις υπάρχουσες ιστοσελίδες. Το frontier θα μπορούσε να υλοποιηθεί ως μια σειρά FIFO (First In First Out) υλοποιώντας έτσι έναν breadth-first crawler ο οποίος θα προσπαθούσε να διαπεράσει «τυφλά» όλο το Παγκόσμιο Ιστό. Η αμέσως επόμενη URL προς διαπέραση είναι αυτή που βρίσκεται στην κορυφή της σειράς ενώ κάθε νέα URL που εξάγεται από τις ιστοσελίδες προστίθεται στο τέλος της σειράς. Λόγω του περιορισμού στο μέγεθος της λίστας, απαιτείται έλεγχος ώστε να μην εισάγεται ξανά URL που έχει εισαχθεί στο παρελθόν. Μια λύση για να αντιμετωπιστεί το κόστος αυτής της διαδικασίας ελέγχου είναι η χρήση δενδροειδούς δομής είτε για την παράλληλη αποθήκευση των URLs (με την ονομασία τους για κλειδί) είτε την αποθήκευση του ίδιου του frontier. Στην πρώτη περίπτωση θα πρέπει να υπάρχει συγχρονισμός μεταξύ της δομής και του ίδιου του frontier και συνεπώς μεγαλύτερο περίσσευμα μνήμης, ενώ στη δεύτερη θα υπήρχε πρόσθετη καθυστέρηση κατά την επιλογή της επόμενης URL προς διαπέραση, εφόσον θα πρέπει να αναζητηθεί η παλιότερα εισηγμένη στη λίστα URL που δεν έχει ακόμα διαπεραστεί και μάλιστα διαμέσω μιας δομής που δημιουργήθηκε όχι με κλειδί το χρόνο αλλά την ονομασία. Μόλις το frontier φτάσει στο μέγιστο επιτρεπόμενο μέγεθός του τότε ο breadth-first crawler θα μπορεί να εισάγει μόνο μία νέα URL (που δεν έχει ξαναεισαχθεί) από κάθε νέα ιστοσελίδα που επισκέπτεται. Ένας άλλος τρόπος υλοποίησης του frontier είναι ως μια σειρά προτεραιότητας, υλοποιώντας με αυτό τον τρόπο έναν crawler με 19

20 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής προτιμήσεις, πιο γνωστό ως best-first crawler. Η ουρά μπορεί να είναι ένα δυναμικό διάνυσμα που διατηρείται συνεχώς ταξινομημένο βάση ενός σκορ εκτίμησης των ιστοσελίδων που ακόμα δεν έχουν δεχθεί επίσκεψη. Σε κάθε βήμα επιλέγεται η καλύτερη URL για προσπέλαση από την κορυφή της ουράς. Μόλις επιστραφεί εξάγονται τα URLs που περιέχει, γίνεται μια εκτίμηση της αξίας τους και τοποθετούνται στην αντίστοιχη θέση στην ουρά. Η διπλοεισαγωγή ενός URL στην ουρά μπορεί να αποφευχθεί με τη χρήση ενός ξεχωριστού πίνακα για γρήγορη αναζήτηση. Μόλις ξεπεραστεί το μέγιστο επιτρεπτό μέγεθος του frontier, μόνο οι «καλύτερες» κατ εκτίμηση URLs παραμένουν σε αυτό. Η διαδικασία του crawling τερματίζει εάν ο crawler βρει άδειο από URLs το frontier, κάτι που ενώ στο Παγκόσμιο Ιστό μπορεί εύκολα να μη συμβεί ποτέ (με μεγάλο όριο στο frontier και αρκετές σελίδες να το τροφοδοτούν αρχικά), στο Σημασιολογικό ιστό, για την ώρα, αυτό είναι το σύνηθες. Μερικές φορές ο crawler μπορεί να έρθει αντιμέτωπος με κάποια παγίδα (spider trap) που θα προσπαθήσει να τον εγκλωβίσει χρησιμοποιώντας πολλές διαφορετικές URLs που δείχνουν στην ίδια σελίδα. Μειώνοντας τον αριθμό από σελίδες που μπορεί να διαπεράσει ο crawler από μια συγκεκριμένη περιοχή (domain) ανά 100 για παράδειγμα προσπελάσεις μπορούμε να τον προφυλάξουμε από τέτοιου είδους αδιέξοδα, παράλληλα να γίνει πιο «ευγενικός» αποφεύγοντας να επιβαρύνει πολλαπλές συνεχόμενες φορές τον ίδιο εξυπηρετητή και οι σελίδες που διαπερνά να είναι θεματικά ευρύτερα κατανεμημένες. Ιστορικό και αποθήκευση ιστοσελίδων Ένα σημαντικότατο στοιχείο στη λειτουργία ενός crawler είναι η διατήρηση του ιστορικού, δηλαδή μιας χρονικής λίστας που θα δείχνει τη διαδρομή που ακολούθησε ξεκινώντας από τις σελίδες τροφοδότησης. Μια νέα εισαγωγή URL στη λίστα γίνεται μόνο αφού επιστραφεί η αντίστοιχη σελίδα. Το ιστορικό μπορεί να χρησιμοποιηθεί για αναλύσεις και αξιολογήσεις της διαδικασίας της διαπέρασης. Για παράδειγμα αν κάθε σελίδα σχετιστεί με κάποια αξία τότε μέσω του ιστορικού μπορούμε να δούμε σε ποια χρονικά σημεία είχε τα σημαντικότερα ευρήματα, δηλαδή διαπέρασε τις σημαντικότερες σελίδες. Επιπλέον, αν το ιστορικό, αντί να αποθηκεύεται απλώς στο δίσκο, συντηρείται ως μια δομή δεδομένων στη μνήμη του υπολογιστή μπορεί να χρησιμοποιηθεί για γρήγορο έλεγχο εάν μια ιστοσελίδα έχει ήδη διαπεραστεί. Αποφεύγεται έτσι η διαπέραση ίδιων ιστοσελίδων και ο αχρείαστος κορεσμός του περιορισμένου σε μέγεθος frontier. Για να είναι εφικτός ο έλεγχος αυτός πρέπει να εφαρμόζεται μια στρατηγική κανονικοποίησης των URLs πριν την εισαγωγή τους στο ιστορικό που περιγράφεται με περισσότερες λεπτομέρειες σε επόμενη παράγραφο. Μόλις επιστραφεί μια ιστοσελίδα μπορεί να αποθηκευτεί και να ταξινομηθεί για χρήση από την κύρια εφαρμογή που συνήθως περιέχει τον crawler (π.χ. μια μηχανή αναζήτησης). Στην απλούστερή της μορφή η αποθήκευση των σελίδων μπορεί να γίνεται ως ξεχωριστά αρχεία τα οποία θα πρέπει όμως να έχουν μοναδικό όνομα. Ένας τρόπος για να επιτευχθεί αυτό είναι η αντιστοίχιση του URL κάθε σελίδας με ένα σύνολο διαδοχικών χαρακτήρων που θα προκύπτει από μια συνάρτηση που θα εγγυάται ελάχιστη πιθανότητα συγκρούσεων (ως προς τη μοναδικότητα των ονομάτων). Για παράδειγμα, η χρήση της συνάρτησης MD5 μονής 20

21 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης κατεύθυνσης που να παρέχει έναν κώδικα 128bit για κάθε URL. Στη συνέχεια η 128bit τιμή μετατρέπεται στο δεκαεξαδικό ισοδύναμό της 32 χαρακτήρων που αποτελεί και το όνομα του αρχείου. Με αυτό τον τρόπο όλα τα URLs, ανεξαρτήτου μεγέθους, αποθηκεύονται σε αρχεία με σταθερό και δεδομένο μήκος ονόματος. Η αποθήκη ιστοσελίδων μπορεί να χρησιμοποιηθεί και για να ελεγχθεί εάν μια ιστοσελίδα έχει ήδη διαπεραστεί καθιστώντας σε μερικές περιπτώσεις μη αναγκαία τη χρήση μιας δομής δεδομένων για το ιστορικό στη μνήμη του υπολογιστή. Επιστροφή ιστοσελίδων Η διαδικασία της επιστροφής (fetching) των ιστοσελίδων είναι μια διαδικασία με πολλές παραμέτρους και απαιτεί προσοχή και πολλούς ελέγχους. Κατ αρχάς, απαιτείται μια εφαρμογή που θα στείλει το HTTP αίτημα για μια σελίδα και θα διαβάσει την απάντηση. Η εφαρμογή αυτή θα πρέπει να έχει χρονικά όρια για να εξασφαλίσει πως δε θα διατεθεί υπερβολικά πολύς χρόνος σε αργούς εξυπηρετητές ή για την επιστροφή τεράστιων σελίδων. Ο περιορισμός στην επιστροφή μόνο των πρώτων δεκάδων KB από κάθε σελίδα, μολονότι είναι εφαρμόσιμος στον απλό Παγκόσμιο Ιστό, δεν θα μπορούσε να εφαρμοστεί στο σημασιολογικό ιστό γιατί το αρχείο θα εμφάνιζε προβλήματα στη διαχείρισή του στη συνέχεια. Ο έλεγχος λαθών και εξαιρέσεων είναι πολύ σημαντικός κατά τη διαδικασία της επιστροφής καθώς πρέπει ο ίδιος κώδικας να διαχειριστεί εκατομμύρια διαφορετικά συστήματα απομακρυσμένων εξυπηρετητών. Επιπρόσθετα, θα ωφελούσε η συγκέντρωση στατιστικών αναφορικά με τα χρονικά όρια που ξεπεράστηκαν και τα διάφορα μηνύματα κατάστασης που επιστράφηκαν για τον εντοπισμό προβλημάτων π.χ. με τον αυτόματο επανακαθορισμό των χρονικών ορίων. Ένα σπουδαιότατο κομμάτι της διαπέρασης ιστοσελίδων αποτελεί και το πρωτόκολλο περιορισμού των robots πιο γνωστό ως Robot Exclusion Protocol [4.50]. Αυτό το πρωτόκολλο παρέχει ένα μηχανισμό στους διαχειριστές των εξυπηρετητών να καταστήσουν γνωστή στους άλλους την πολιτική πρόσβασης στα αρχεία τους, για παράδειγμα να καθορίζουν ποια αρχεία δεν επιτρέπεται να διαπεραστούν από έναν crawler. Αυτό επιτυγχάνεται με την ύπαρξη ενός αρχείου robots.txt στο βασικό κατάλογο του εξυπηρετητή (π.χ. το οποίο παρέχει πολιτικές πρόσβασης για διαφορετικούς πράκτορες (robots ή crawlers). Μια τιμή * για κάποιον πράκτορα δηλώνει εφαρμογή της default πολιτικής για κάθε crawler που δεν αντιστοιχεί σε άλλο είδος/τιμή πράκτορα στο αρχείο. Ένας αριθμός ετικετών Disallow μπορεί να παρέχονται για κάποιον πράκτορα. Κάθε URL που ξεκινά με μια τέτοια ετικέτα δεν πρέπει να επιστραφεί από crawler που αντιστοιχεί σε αυτό το είδος πράκτορα. Επομένως, όταν ένας crawler θέλει να διαπεράσει μια ιστοσελίδα σε έναν εξυπηρετητή πρέπει πρώτα να ελέγξει το αντίστοιχο robots.txt αρχείο του και να βεβαιωθεί πως η ενέργειά του επιτρέπεται. Για λόγους αποδοτικότητας θα μπορούσαν να αποθηκευτούν προσωρινά οι πολιτικές πρόσβασης ενός αριθμού από εξυπηρετητές που έχουν πρόσφατα δεχθεί την επίσκεψη του crawler. Έτσι, δεν θα χρειάζεται ο έλεγχος του αντίστοιχου αρχείου για κάθε URL που εξετάζεται, αρκεί βέβαια να γίνεται ανανέωση των στοιχείων του σε λογικά χρονικά διαστήματα για τυχόν αλλαγές στην πολιτική. 21

22 Πανεπιστήμιο Πατρών, Τμήμα Μηχανικών Η/Υ και Πληροφορικής Λεξικολογική, συντακτική και γραμματική ανάλυση ιστοσελίδων Μετά την επιστροφή της ιστοσελίδας ακολουθεί η ανάλυση των περιεχομένων της για την εξαγωγή πληροφορίας που θα τροφοδοτήσει και θα κατευθύνει την πορεία του crawler. Αυτή η ανάλυση μπορεί να περιλαμβάνει από απλή εξαγωγή των υπερσυνδέσμων έως πιο πολύπλοκα βήματα μετατροπής των εξαγόμενων URLs σε κανονικοποιημένη μορφή, εξάλειψη κοινότυπων λέξεων και αναγωγή των υπόλοιπων σε κοινές ρίζες, καθώς και αξιοποίηση της δενδροειδούς δομής των HTML αρχείων αλλά ακόμα περισσότερο των αρχείων του Σημασιολογικού ιστού όπως τα RDF έγγραφα. 1. Εξαγωγή νέων URLs και Κανονικοποίησή τους Εργαλεία αυτόματης ανάλυσης ιστοσελίδων (π.χ. HTML, RDF parsers) έχουν κατασκευαστεί για διάφορες προγραμματιστικές γλώσσες και παρέχουν τη δυνατότητα αναγνώρισης των χρησιμοποιούμενων ετικετών από το εκάστοτε πρότυπο. Τα εργαλεία αυτά μπορούν να χρησιμοποιηθούν για να εντοπιστούν ετικέτες που δηλώνουν υπερσυνδέσμους προς άλλα έγγραφα του ιστού, αφού όμως προηγηθεί η μετατροπή των σχετικών URLs σε απόλυτες χρησιμοποιώντας το βασικό URL της ιστοσελίδας από την οποία επιστράφηκαν. Με αυτό τον τρόπο μπορεί να αποφευχθεί το φαινόμενο της επιστροφής των ίδιων σελίδων πολλές φορές κατά την περίπτωση που διαφορετικά URLs δείχνουν προς την ίδια σελίδα. Μερικά τυπικά βήματα κανονικοποίησης των URLs που μπορούν να εφαρμοστούν είναι και τα εξής : Μετατροπή όλων των χαρακτήρων από κεφαλαία σε μικρά. Π.χ. μετατρέπεται σε Απαλοιφή τμημάτων των URLs που αναφέρονται σε συγκεκριμένο σημείο μιας ιστοσελίδας. Π.χ. το URL μειώνεται στο Χρήση της URL κωδικοποίησης για κάποιους χαρακτήρες, συχνά χρησιμοποιούμενους, όπως το «~». Π.χ. το URL θα αντιμετωπιστεί έτσι ως ίδιο με το Προσθήκη τελικών «/». Π.χ. το και το θα πρέπει να αντιστοιχούν στην ίδια διεύθυνση. Για την προσθήκη κατάλληλων «/» θα απαιτηθούν αυτοσχέδιοι κανόνες (heuristics). Ειδική αντιμετώπιση θα χρειαστεί επίσης για την αναγνώριση των προκαθορισμένων βασικών (default) σελίδων. Π.χ. σελίδες όπως οι index.html, index.htm θα μπορούσαν να εξαλειφθούν από το URL θεωρώντας πως είναι οι default σελίδες και επομένως θα μπορούσαν να επιστραφούν χρησιμοποιώντας μόνο το βασικό τμήμα του URL. Απαλοιφή των «..» και του γονικού καταλόγου από το URL. Π.χ. η διαδρομή θα αντικατασταθεί από την Απαλοιφή του αριθμού θύρας (port) 80 ή εναλλακτικά, προσθήκη του port 80 σε κάθε URL που δεν καθορίζει αριθμό θύρας. 22

23 Σημασιολογικός Παγκόσμιος Ιστός και Τεχνικές Εξατομίκευσης στις Διαδικασίες Αναζήτησης/Διαπέρασης Το σημαντικότερο σε αυτή τη διαδικασία είναι η ύπαρξη συνέπειας κατά την εφαρμογή των παραπάνω κανόνων. Είναι πιθανό δύο φαινομενικά αντίθετοι κανόνες, όπως ο παραπάνω για το port 80, να έχουν εξίσου καλά αποτελέσματα αρκεί να εφαρμόζονται με συνέπεια. Επιπλέον, μπορούν να εφαρμοστούν και άλλοι κανόνες βασισμένοι σε πρότερη γνώση και την εξειδίκευση της εκάστοτε εφαρμογής για την οποία χρησιμοποιούνται. Για παράδειγμα, οι spider traps που προαναφέρθηκαν δημιουργούν αυτόματα εικονικές (dummy) URLs το οποίων το μέγεθος συχνά ξεφεύγει από τα συνηθισμένα όρια. Επομένως, ένας κανόνας που περιορίζει το μέγεθος των αποδεκτών URLs σε 128 ή 256 χαρακτήρες θα μπορούσε να αντιμετωπίσει εν μέρει το πρόβλημα. 2. Παράλειψη κοινότυπων λέξεων (Stoplisting) και αναγωγή λέξεων σε κοινή ρίζα (Stemming) Κατά την ανάλυση μιας ιστοσελίδας για την εξαγωγή πληροφοριών από το περιεχόμενό της και τον εντοπισμό νέων URLs προς διαπέραση, είναι χρήσιμο να προηγηθεί μια απαλοιφή των πιο συνηθισμένων λέξεων που πιθανότατα δε προσφέρουν κάποια ιδιαίτερη πληροφορία. Αυτές οι λέξεις, όπως το «it» και το «and», ονομάζονται stopwords και η διαδικασία απαλοιφής τους από ένα κείμενο λέγεται stoplisting. Υπάρχουν διάφορες λίστες τέτοιων λέξεων, άλλες μεγαλύτερες, άλλες μικρότερες και για διάφορες άλλες γλώσσες εκτός από τα αγγλικά [4.48, 4.49]. Εκτός από τη διαδικασία stoplisting θα μπορούσε να εφαρμοστεί και μια αναγωγή των λέξεων στην κοινή τους ρίζα. Η διαδικασία αυτή ονομάζεται stemming και αναγάγει κάποιες μορφολογικά όμοιες λέξεις στην κοινή τους ρίζα. Για παράδειγμα οι λέξεις «study», «studies», «studying» μπορούν να αναχθούν στην λέξη «study» και ένας από τους γνωστότερους αλγόριθμους που υλοποιούν αυτή τη διαδικασία είναι ο αλγόριθμος του Porter [5.8]. Όμως, η εφαρμογή stemming αλγορίθμων δεν είναι πάντοτε βέβαιο πως θα συντελέσει θετικά στη διαπέραση, αντιθέτως, έχει παρατηρηθεί και μείωση της ακρίβειας των αποτελεσμάτων της διαπέρασης λόγω του stemming. Αξιοποίηση της δενδροειδούς δομής των επιστρεφόμενων ιστοσελίδων Επιπλέον, κατά τη διαδικασία της διαπέρασης θα μπορούσαν να αξιοποιηθούν και στοιχεία από την ίδια τη δομή ενός επιστρεφόμενου αρχείου. Για παράδειγμα, ένας crawler θα μπορούσε να προσδιορίζει κατά κάποιο τρόπο την αξία ενός συνδέσμου ή ενός περιεχομένου εξετάζοντας τη δενδροειδή δομή των ετικετών που το περιβάλλουν ή το προσδιορίζουν. Σε ένα HTML αρχείο για παράδειγμα, η ετικέτα <html> αντιστοιχεί στη ρίζα του δένδρου και οι διάφορες ετικέτες και κείμενα αποτελούν τους κόμβους του. Βέβαια, στην HTML τα περισσότερα αρχεία δεν είναι καλώς διαμορφωμένα, μπορεί να λείπει για παράδειγμα η ετικέτα κλεισίματος </html> χωρίς αυτό να επηρεάζει τη λειτουργία του αρχείου αλλά να δυσχεραίνει το σχηματισμό του δένδρου και κατά συνέπεια την αποδοτική αξιοποίηση των συσχετισμών που περιγράφει. Απαιτείται επομένως μια προεργασία «τακτοποίησης» στα HTML αρχεία ούτως ώστε να είναι δυνατή η αξιόπιστη κατασκευή του σωστού δένδρου περιγραφής των περιεχομένων του αρχείου. Καθώς στα αρχεία XML, RDF, OWL απαιτούνται από τη δημιουργία τους σωστά διαμορφωμένα αρχεία η διαδικασία σχεδιασμού του αντίστοιχου δένδρου είναι ευκολότερη και δεν απαιτεί προεργασία. Περιέχονται συγχρόνως και νέες ετικέτες πολύ πιο 23

Δείτε περισσότερα