meta-seeker: Αλγόριθμος ανατροφοδότησης εξατομικευμένης πληροφορίας από πολλαπλές Διαδικτυακές υπηρεσίες αναζήτησης



Σχετικά έγγραφα
ΜΕΛΕΤΗ ΚΑΙ ΥΛΟΠΟΙΗΣΗ ΜΙΑΣ ΜΗΧΑΝΗΣ ΜΕΤΑ-ΑΝΑΖΗΤΗΣΗΣ. (META-SEARCH ENGINE)

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Υπηρεσίες ιστού και ιδιωτικότητα: Μια προσέγγιση βασισμένη στη δημιουργία προφίλ χρήστη για προσαρμοστικούς ιστότοπους

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Δικτυακοί τόποι. Η σχεδίαση ενός δικτυακού τόπου. Δρ. Ματθαίος Α. Πατρινόπουλος

Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων)

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ. «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΝΟΣΟΚΟΜΕΙΑΚΟΥ ΠΡΟΣΩΠΙΚΟΥ

SilverPlatter WebSPIRS 4.1.

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Συγκεντρωτικό Παράρτημα

Αναζήτηση Πληροφοριών στο Διαδίκτυο

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

ΕΙΣΑΓΩΓΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ ΠΛΗΡΟΦΟΡΙΚΗΣ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

Γαβαλάς Δαμιανός

Social Network : Programming on FACEBOOK

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Βασίλης Πλαχούρας. Χρυσόστομος Καπέτης Μιχάλης Βαζιργιάννης. Οικονομικό Πανεπιστήμιο Αθηνών 3/11/2003

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Αναζήτηση στον Ιστό. Πληκτρολόγηση του URL: στο πλαίσιο αναζήτησης του Mozilla Firefox. Enter ή κλικ στο Αναζήτηση

Διαχείριση Πολιτισμικών Δεδομένων

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

Τι είναι ένα σύστημα διαχείρισης περιεχομένου; δυναμικό περιεχόμενο

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Πλοήγηση και Αναζήτηση

Ανάκτηση Πληροφορίας

METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Στρατηγική ανάπτυξη δικτυακού κόμβου

ΜΑΘΗΜΑ: Εργαλεία Ανάπτυξης εφαρμογών internet.

Έρευνα για την προσβασιμότητα των τυφλών και των ατόμων με περιορισμένη όραση στους Δικτυακούς Τόπους των Ελληνικών Ακαδημαϊκών Βιβλιοθηκών

TEC410 Ανάπτυξη Δικτυακών Τόπων (Δ εξάμηνο) Διδάσκων: Ανδρέας Γιαννακουλόπουλος Επιστημονικός συνεργάτης Εργαστηρίου: Στέλλα Λάμπουρα

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΔΙΟΙΚΗΣΗ της ΥΓΕΙΑΣ» ΑΞΙΟΛΟΓΗΣΗ ΑΠΟΔΟΣΗΣ ΠΡΟΣΩΠΙΚΟΥ: ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΙΔΙΩΤΙΚΟΥ ΝΟΣΟΚΟΜΕΙΟΥ ΠΑΡΑΓΙΟΥΔΑΚΗ ΜΑΓΔΑΛΗΝΗ

Ανάπτυξη ιστολογίου. Γνωστικό αντικείμενο: Ερευνητική Εργασία - Project. Δημιουργός: ΦΩΤΙΟΣ ΛΑΖΑΡΙΝΗΣ

Δημιουργία μιας επιτυχημένης παρουσίας στο διαδίκτυο

Ανάπτυξη διαδικτυακής διαδραστικής εκπαιδευτικής εφαρμογής σε λειτουργικό σύστημα Android

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Διασφάλιση της ποιότητας της ιατρικής πληροφορίας στο Διαδίκτυο. Γκουνταβά Ευφροσύνη

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

Πρόλογος... xiii ΜΕΡΟΣ 1 1 Εισαγωγή στο Excel Βασικές λειτουργίες του Excel... 21

Η έρευνα και το διαδίκτυο:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΜΣ «ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ» ΚΑΤΕΥΘΥΝΣΗ «ΕΥΦΥΕΙΣ ΤΕΧΝΟΛΟΓΙΕΣ ΕΠΙΚΟΙΝΩΝΙΑΣ ΑΝΘΡΩΠΟΥ - ΥΠΟΛΟΓΙΣΤΗ»

πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι.

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

þÿ¼ ½ ±Â : ÁÌ» Â Ä Å ÃÄ ²µ þÿä Å ÃÇ»¹º Í Á³ Å

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

Οδηγίες Εικόνα 1 Εικόνα 2

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Διαχείριση Ειδοποιήσεων με Κινητές Συσκευές

Παρουσίαση Παρεχόμενων Υπηρεσιών Πληροφορικής της DBS AE

Ο αλγόριθμος PageRank της Google

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

How to register an account with the Hellenic Community of Sheffield.

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος Κεφάλαιο 1 ο Αρχές Διαχείρισης πληροφορίας στον Παγκόσμιο Ιστό... 15


Εργαστήριο Σημασιολογικού Ιστού

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Πώς λειτουργεί το Google?

ιπλωµατική εργασία: Νικόλαος Ματάνας Επιβλέπων Καθηγήτρια: Μπούσιου έσποινα

Περιοδικών και του Συλλογικού Καταλόγου Ελληνικών Ακαδηµαϊκών Βιβλιοθηκών. Αθήνα, Μάιος 2007

Vodafone Business Connect

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

Σχεδιάζοντας Εφαρμογές για το Διαδίκτυο

ΑΡΧΙΜΗ ΗΣ - ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑ ΩΝ ΣΤΑ ΤΕΙ. Υποέργο: «Ανάκτηση και προστασία πνευµατικών δικαιωµάτων σε δεδοµένα

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

GoDigital.CMS Content Management System. Πλήρης διαχείριση περιεχομένου ιστοσελίδας

ΜΑΘΗΜΑ 6. Σχήµατα ιαλειτουργικότητας Μεταδεδοµένων. Το RDF Το Warwick Framework. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Περιεχόμενα ΜΕΡΟΣ 1. Πρόλογος... xiii. 1 Εισαγωγή στο Excel Βασικές λειτουργίες του Excel... 23

SITEBUILDER ΠΛΑΤΦΟΡΜΑ ΑΥΤΟΝΟΜΗΣ ΚΑΤΑΣΚΕΥΗΣ & ΔΙΑΧΕΙΡΙΣΗΣ ΔΙΚΤΥΑΚΩΝ ΤΟΠΩΝ (WEBSITE) ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ. Version 2.0

Ποια cookies χρησιμοποιούμε στον ιστότοπό μας;

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

Βελτιωμένη Εφαρμογή. Νέες δυνατότητες. Νέα Ιστοσελίδα

Πετράκης Κώστας ΓΤΠ-61 Μάρτιος 2015

Unified search of digital cultural content: Searching culture

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΔΙΕΡΕΥΝΗΣΗ ΤΟΥ ΚΛΙΜΑΤΟΣ ΑΣΦΑΛΕΙΑΣ ΤΩΝ ΑΣΘΕΝΩΝ ΣΤΟ ΝΟΣΟΚΟΜΕΙΟ

SEO ΓΙΑ ΜΙΑ ΘΕΣΗ ΣΤHΝ GOOGLE

Προσβασιµότητα στους διαδικτυακούς κόµβους

Διαδικτυακές Υπηρεσίες Αναζήτησης, Απεικόνισης και Απευθείας Πρόσβασης στα δεδομένα ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ. Έκδοση 0.1.

ΚΩΔΙΚΟΣ ΕΡΓΟΥ: 1272 ΥΔΡΟΠΟΛΗ

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

(SEO) - Ανοίγοντας τους ορίζοντες τις ΜΜΕ Ελληνικής τουριστικής επιχείρησης στο ιαδίκτυο

Transcript:

meta-seeker: Αλγόριθμος ανατροφοδότησης εξατομικευμένης πληροφορίας από πολλαπλές Διαδικτυακές υπηρεσίες αναζήτησης Η Διπλωματική Εργασία παρουσιάστηκε ενώπιον του Διδακτικού Προσωπικού του Πανεπιστημίου Αιγαίου Σε Μερική Εκπλήρωση των Απαιτήσεων για το Δίπλωμα του Μηχανικού Πληροφοριακών και Επικοινωνιακών Συστημάτων του Παύλου Φαφαλιού ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2009

ii

Η ΤΡΙΜΕΛΗΣ ΕΠΙΤΡΟΠΗ ΔΙΔΑΣΚΟΝΤΩΝ ΕΠΙΚΥΡΩΝΕΙ ΤΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΤΟΥ ΠΑΥΛΟΥ ΦΑΦΑΛΙΟΥ Αναγνωστόπουλος Ιωάννης, Επιβλέπων 29/09/2009 Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Βουγιούκας Δημοσθένης, Μέλος Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Μαραγκουδάκης Μανώλης, Μέλος Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2009 iii

iv

ΠΕΡΙΛΗΨΗ Φανταστείτε το Διαδίκτυο χωρίς καμία υπηρεσία αναζήτησης. Υποθέστε επίσης ότι θέλετε να βρείτε μερικές πληροφορίες πάνω σε ένα θέμα χωρίς να γνωρίζεται κάποια ιστοσελίδα με αντίστοιχο περιεχόμενο. Πως ακριβώς θα κινηθείτε στο χάος του Διαδικτύου; Πόσο δύσκολο είναι να βρείτε τις πληροφορίες που θέλετε; Όπως καταλαβαίνεται, η αναζήτηση και εύρεση της σωστής πληροφορίας είναι σχεδόν αδύνατη, εάν ο χρήστης δεν βοηθηθεί από τα κατάλληλα εργαλεία. Ένα τέτοιο πολύτιμο εργαλείο του Διαδικτύου είναι οι Μηχανές Αναζήτησης. Ο χρηστής απλά θέτει το ερώτημα του και η Μηχανή Αναζήτησης δημιουργεί μια λίστα από ιστοσελίδες που το προσεγγίζουν περισσότερο. Είναι τέτοιο όμως το μέγεθος του Διαδικτύου, που κάθε μηχανή αναζήτησης μπορεί να χειριστεί ένα μικρό ποσοστό των συνολικών πληροφοριών που διαθέτει. Ο συνδυασμός μερικών μηχανών αναζήτησης μπορεί να οδηγήσει σε υψηλότερο ποσοστό κάλυψης και επομένως σε μεγαλύτερη πιθανότητα εύρεσης επιθυμητών πληροφοριών. Αυτή ακριβώς είναι η λειτουργία των Μηχανών Μετά-Αναζήτησης. Πραγματοποιούν ερωτήματα σε πολλές μηχανές αναζήτησης ταυτόχρονα και επιστρέφουν στους χρήστες επεξεργασμένα αποτελέσματα προερχόμενα από όλες τις εμπλεκόμενες μηχανές αναζήτησης. Με απλά λόγια είναι οι Μηχανές Αναζήτησης των Μηχανών Αναζήτησης. Κάθε τέτοια Μηχανή Μετά- Αναζήτησης χρησιμοποιεί ένα αλγόριθμο για την συγχώνευση και κατάταξη των πληροφοριών που συγκεντρώνει, τον οποία προσπαθεί συνεχώς να βελτιώσει με σκοπό την παραγωγή όσο το δυνατόν σχετικότερων και καλύτερων για τους χρήστες αποτελεσμάτων. Η Μηχανή Μετά-Αναζήτησης που υλοποιείται στην παρούσα διπλωματική χρησιμοποιεί τα αποτελέσματα των τριών πιο διαδεδομένων Μηχανών Αναζήτησης, της Google, της Yahoo! Search και της Bing (πρώτερως γνωστή ως MSN). Προτείνει έναν αλγόριθμο με δυνατότητα εξατομίκευσης της πληροφορίας βάσει σχετικής ανατροφοδότησης από τους χρήστες. Με πιο απλά λόγια, προσαρμόζει την κατάταξη των αποτελεσμάτων βάσει των προηγούμενων αναζητήσεων που έχει πραγματοποιήσει ο ίδιος χρήστης. Η αξιολόγηση του παραπάνω αλγορίθμου είχε ενθαρρυντικά αποτελέσματα, αφού μας έδειξε ότι η σχετικότητα των αποτελεσμάτων βελτιώνεται όσο ο χρήστης χρησιμοποιεί την Μηχανή Μετά-Αναζήτησης. 2009 Παύλος Φαφαλιός v

vi

ABSTRACT Imagine the Internet without search services. Suppose also that you want to find certain information on a particular subject without knowing a single web page with corresponding content. How will you find your way in the internet chaos? How difficult is it to find the information you want? As you see, searching and finding the desirable information is almost impossible if the user is not helped by a suitable application. These precious Internet tools are the Search Engines. Users simply place their queries and the Search engine creates a list of web pages that match. However the size of the Internet is vast, so each search engine can handle a small percentage of the total information it is acquainted with. The combination of search engines can lead to better results and consequently to higher probability of finding the desirable information. This precisely is the functionality of Meta-Search Engines. They enable users to enter search criteria once and access several search engines simultaneously. In simple terms they are the Search Engines of Search Engines. Each Meta-Search Engine uses an algorithm for merging and classifying the data it assembles, which continuously tries to improve aiming at more comprehensive search results. The meta-search engine materialized in the present diploma thesis uses the results of three famous Search engines, Google, Yahoo! Search and Bing (formerly known as MSN Search). It proposes an algorithm with capability of personalizing the search results based on feedback from the users. In simple terms, every search classified the results based on the previous searches the same user has conducted. The evaluation of the above algorithm had encouraging and promising results and indicates a significant proof for the concept of the proposed approach. The results tend to be more comprehensive as long as the user continues using the Meta-Search Engine. 2009 Pavlos Fafalios vii

viii

ΑΦΙΕΡΩΣΕΙΣ Στον Ματθαίο που μας άφησε νωρίς ix

x

ΕΥΧΑΡΙΣΤΙΕΣ Ένα θερμό ευχαριστώ στον επιβλέπων καθηγητή μου κ. Ιωάννη Αναγνωστόπουλο, που μέσα από τις πολύτιμες υποδείξεις και παρατηρήσεις του με βοήθησε να γίνω καλύτερος και να ολοκληρώσω με επιτυχία την διπλωματική μου, καθώς επίσης και στους γονείς μου για την κατανόηση, το κουράγιο και την αμέριστη συμπαράστασή τους. xi

xii

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΠΕΡΙΛΗΨΗ... v ABSTRACT... vii ΑΦΙΕΡΩΣΕΙΣ... ix ΕΥΧΑΡΙΣΤΙΕΣ... xi ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ... xiii ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ... xvii ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ... xix ΚΑΤΑΛΟΓΟΣ ΔΙΑΓΡΑΜΜΑΤΩΝ... xxi ΚΑΤΑΛΟΓΟΣ ΕΙΚΟΝΩΝ... xxv ΕΙΣΑΓΩΓΗ... 1 ΚΕΦΑΛΑΙΟ 1 - ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ... 3 1.1 Διαδίκτυο και Αναζήτηση Πληροφορίας... 3 1.2 Ιστορική Εξέλιξη... 4 1.3 Προβλήματα στην Αναζήτηση Πληροφορίας από το Διαδίκτυο... 6 1.3.1 Κακόβουλη Πληροφορία (spam)... 6 1.3.1.1 Κακόβουλη πληροφορία περιεχομένου (content spam)... 6 1.3.1.2 Κακόβουλη πληροφορία συνδέσμου (link spam)... 7 1.3.2 Ποιότητα Περιεχομένου (Content Quality)... 8 1.3.3 Κανόνες Διαδικτύου (Web Conventions)... 8 1.3.4 Διπλότυποι Κόμβοι (Duplicate Hosts)... 9 1.3.5 Ασαφής Καθορισμός Δεδομένων (Vaguely-Structured Data)... 10 1.4 Βελτίωση της απόδοσης των υπηρεσιών αναζήτησης... 11 1.5 Προηγμένες λειτουργίες αναζήτησης... 12 1.5.1 Εξατομίκευση... 12 1.5.2 Προφίλ χρήστη... 12 1.5.3 Κατηγοριοποίηση... 12 1.5.4 Βοηθητικές Πληροφορίες... 12 ΚΕΦΑΛΑΙΟ 2 - ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ... 13 2.1 Ιστορική Αναδρομή... 13 2.2 Λειτουργία των Μηχανών Αναζήτησης... 15 2.3 Οφέλη χρήσης Μηχανών Αναζήτησης... 16 2.4 Κυριότερες Μηχανές Αναζήτησης... 17 2.4.1 Μηχανή Αναζήτησης Google... 17 2.4.1.1 Αλγόριθμος PageRank... 18 xiii

2.4.1.2 Αξιολόγηση Ιστοσελίδων... 18 2.4.1.3 Κύκλος Ζωής μιας Αναζήτησης... 19 2.4.1.4 Βάσεις Δεδομένων... 20 2.4.1.5 Υπηρεσίες Αναζήτησης... 21 2.4.1.6 Περιορισμοί Αναζήτησης... 21 2.4.1.7 Επιλογές Αναζήτησης... 22 2.4.1.8 Ιδιαίτερα Γνωρίσματα Αναζήτησης... 23 2.4.2 Μηχανή Αναζήτησης Yahoo! Search... 24 2.4.2.1 Εξέλιξη Τεχνολογίας Αναζήτησης... 24 2.4.2.2 Αποτελέσματα Αναζήτησης... 25 2.4.2.3 Βάσεις Δεδομένων... 25 2.4.2.4 Υπηρεσίες Αναζήτησης... 26 2.4.2.5 Περιορισμοί Αναζήτησης... 26 2.4.2.6 Επιλογές Αναζήτησης... 27 2.4.3 Μηχανή Αναζήτησης Bing (MSN Search)... 28 2.4.3.1 Η εξέλιξη της Μηχανής Αναζήτησης... 28 2.4.3.2 Αποτελέσματα Αναζήτησης... 29 2.4.3.3 Βάσεις Δεδομένων... 29 2.4.3.4 Υπηρεσίες Αναζήτησης... 30 2.4.3.5 Περιορισμοί Αναζήτησης... 30 2.4.3.6 Επιλογές Αναζήτησης... 31 ΚΕΦΑΛΑΙΟ 3 - ΜΗΧΑΝΕΣ ΜΕΤΑ-ΑΝΑΖΗΤΗΣΗΣ... 33 3.1 Κατηγορίες Μηχανών Μετά-Αναζήτησης... 34 3.1.1 Μηχανή Μετά-Αναζήτησης με λειτουργία μεσολάβησης... 34 3.1.2 Μηχανή Μετά-Αναζήτησης με σειριακή αναζήτηση... 34 3.1.3 Μηχανή Μετά-Αναζήτησης με παράλληλη αναζήτηση... 35 3.2 Λειτουργία των Μηχανών Μετά-Αναζήτησης... 36 3.2.1 Εισαγωγή ερωτήματος... 37 3.2.2 Επεξεργασία και υποβολή ερωτήματος σε πολλαπλές υπηρεσίες... 37 3.2.3 Συλλογή και επεξεργασία των αποτελεσμάτων... 37 3.2.4 Παρουσίαση των μετά-αποτελεσμάτων... 38 3.3 Χαρακτηριστικά των Μηχανών Μετά-Αναζήτησης... 39 3.3.1 Αριθμός χρησιμοποιούμενων υπηρεσιών αναζήτησης... 39 3.3.2 Είδος αναζητούμενων πηγών... 39 3.3.3 Χαρακτηριστικά αναζήτησης... 39 3.3.4 Εστίαση αναζήτησης... 39 xiv

3.3.5 Χρονικό διάστημα επεξεργασίας και αριθμός μετά-αποτελεσμάτων... 40 3.4 Επισκόπηση στο χώρο των Μηχανών Μετά-Αναζήτησης... 40 3.4.1 Dogpile... 40 3.4.2 Ithaki... 40 3.4.3 Inference Find... 40 3.4.4 Meta-Crawler... 40 3.4.5 Intelliseek (Profusion)... 41 3.4.6 Ixquick Metasearch... 41 3.4.7 Copernic... 41 3.4.8 TracerLock - Informant... 41 3.4.9 Mamma... 42 3.4.10 MetaFind... 42 3.4.11 SavvySearch... 42 ΚΕΦΑΛΑΙΟ 4 - ΜΕΘΟΔΟΙ ΣΥΓΧΩΝΕΥΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΑΠΟ ΕΤΕΡΟΓΕΝΕΙΣ ΠΗΓΕΣ ΠΛΗΡΟΦΟΡΙΑΣ... 43 4.1 Ιστορική Αναδρομή... 43 4.2 Τεχνικές Συγχώνευσης... 44 4.2.1 Μέθοδοι ενσωμάτωσης... 44 4.2.1.1 Μέθοδος σύγκρισης στατιστικών... 44 4.2.1.2 Μέθοδος παράλληλης παροχής πληροφοριών και αποτελεσμάτων... 45 4.2.2 Μέθοδοι απομόνωσης... 45 4.2.2.1 Συγχώνευση βάσει ανατιθέμενου βαθμού στάθμισης... 46 4.2.2.2 Συγχώνευση βάσει δείκτη βαρύτητας εξυπηρετητή... 46 4.2.2.3 Συγχώνευση βάσει ακολουθίας κατάταξης... 46 4.2.2.4 Συγχώνευση βάσει του περιεχομένου... 46 ΚΕΦΑΛΑΙΟ 5 - ΥΛΟΠΟΙΗΣΗ ΕΞΑΤΟΜΙΚΕΥΜΕΝΗΣ - ΑΝΑΤΡΟΦΟΔΟΤΟΥΜΕΝΗΣ ΜΗΧΑΝΗΣ ΜΕΤΑ-ΑΝΑΖΗΤΗΣΗΣ. META-SEEKER : ΤΕΚΜΗΡΙΩΣΗ ΚΩΔΙΚΑ... 47 5.1 Εισαγωγή... 47 5.2 Διασύνδεση με τον χρήστη... 48 5.3 Πραγματοποιώντας μια αναζήτηση... 49 5.3.1 Συλλογή παραμέτρων και προετοιμασία για αναζήτηση... 49 5.3.2 Ορισμός των URL που περιέχουν τα αποτελέσματα... 50 5.3.2.1 Αναζήτηση Πληροφορίας (Web Search)... 50 5.3.2.2 Αναζήτηση Εικόνας (Image Search)... 51 5.3.3 Εύρεση αποτελεσμάτων μέσα από τον πηγαίο κώδικα... 51 5.3.3.1 Αναζήτηση Πληροφορίας (Web Search)... 52 xv

5.3.3.1.1 Εύρεση αποτελεσμάτων από την Google... 52 5.3.3.1.2 Εύρεση αποτελεσμάτων από την Yahoo... 54 5.3.3.1.3 Εύρεση αποτελεσμάτων από την MSN... 56 5.3.3.2 Αναζήτηση Εικόνας (Image Search)... 57 5.3.3.2.1 Εύρεση αποτελεσμάτων από την Google... 57 5.3.3.2.2 Εύρεση αποτελεσμάτων από την Yahoo... 60 5.3.3.2.3 Εύρεση αποτελεσμάτων από την Bing (MSN)... 62 5.3.3.3 Το πρόβλημα της αλλαγής του πηγαίου κώδικα αποτελεσμάτων... 64 5.3.4 Συγχώνευση Αποτελεσμάτων... 64 5.3.5 Ταξινόμηση και εμφάνιση αποτελεσμάτων... 65 5.4 Ζητώντας περισσότερες πληροφορίες για τα αποτελέσματα... 70 5.5 Ανοίγοντας ένα αποτέλεσμα... 72 ΚΕΦΑΛΑΙΟ 6 - ΠΡΟΤΕΙΝΟΜΕΝΟΣ ΑΛΓΟΡΙΘΜΟΣ ΕΞΑΤΟΜΙΚΕΥΜΕΝΗΣ ΑΝΑΖΗΤΗΣΗΣ ΑΠΟ ΠΟΛΛΑΠΛΕΣ ΠΗΓΕΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟ ΔΙΑΔΙΚΤΥΟ: PERSONALIZED META-MERGING ALGORITHM... 73 6.1 Εισαγωγή... 73 6.2 Περιγραφή Αλγορίθμου... 74 6.3 Παράδειγμα Χρήσης... 77 ΚΕΦΑΛΑΙΟ 7 - ΑΞΙΟΛΟΓΗΣΗ ΑΛΓΟΡΙΘΜΟΥ... 85 7.1 Σύστημα Επεξεργασίας της Πληροφορίας... 85 7.2 Αξιολόγηση απόδοσης και ταξινόμηση... 86 7.3 Μεγέθη αξιολόγησης: Ανάκληση - Ακρίβεια... 86 7.4 Αξιολόγηση συστημάτων... 87 7.4.1 Αξιολόγηση Google... 88 7.4.2 Αξιολόγηση Yahoo... 97 7.4.3 Αξιολόγηση MSN (Bing)... 104 7.4.4 Αξιολόγηση Μηχανής Μετά-Αναζήτησης: meta-seeker... 111 7.4.4.1 Πρώτη Αξιολόγηση (26/10/2008)... 111 7.4.4.2 Δεύτερη Αξιολόγηση (15/01/2009)... 119 7.4.4.3 Τρίτη Αξιολόγηση (01/04/2009)... 127 ΚΕΦΑΛΑΙΟ 8 - ΣΥΜΠΕΡΑΣΜΑΤΑ... 135 ΑΝΑΦΟΡΕΣ... 137 ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΠΗΓΕΣ - ΙΣΤΟΣΕΛΙΔΕΣ... 143 ΠΑΡΑΡΤΗΜΑ I - ΔΙΑΓΡΑΜΜΑΤΑ UML... 145 ΠΑΡΑΡΤΗΜΑ II - ΠΗΓΑΙΟΣ ΚΩΔΙΚΑΣ... 149 xvi

ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Πίνακας 3-1: Λειτουργίες και υποσυστήματα των Μηχανών Μετά-Αναζήτησης.... 36 Πίνακας 7-1: Ανάκληση και Ακρίβεια ερωτήματος «Χίος Ξενοδοχεία» για την Google.... 88 Πίνακας 7-2: Ανάκληση και Ακρίβεια ερωτήματος «opel corsa 1.2» για την Google.... 91 Πίνακας 7-3: Ανάκληση και Ακρίβεια ερωτήματος «learn java j2ee platform» για την Google.... 92 Πίνακας 7-4: Ανάκληση και Ακρίβεια ερωτήματος «asus motherboard drivers» για την Google.... 93 Πίνακας 7-5: Ανάκληση και Ακρίβεια ερωτήματος «samos restaurants» για την Google.... 94 Πίνακας 7-6: Μέσος όρος Ανάκλησης και Ακρίβεια για την Google.... 95 Πίνακας 7-7: Ανάκληση και Ακρίβεια ερωτήματος «Χίος Ξενοδοχεία» για την Yahoo.... 97 Πίνακας 7-8: Ανάκληση και Ακρίβεια ερωτήματος «opel corsa 1.2» για την Yahoo.... 98 Πίνακας 7-9: Ανάκληση και Ακρίβεια ερωτήματος «learn java j2ee platform» για την Yahoo.... 99 Πίνακας 7-10: Ανάκληση και Ακρίβεια ερωτήματος «asus motherboard drivers» για την Yahoo.... 100 Πίνακας 7-11: Ανάκληση και Ακρίβεια ερωτήματος «samos restaurants» για την Yahoo.... 101 Πίνακας 7-12: Μέσος όρος Ανάκλησης και Ακρίβεια για την Yahoo.... 102 Πίνακας 7-13: Ανάκληση και Ακρίβεια ερωτήματος «Χίος Ξενοδοχεία» για την MSN.... 104 Πίνακας 7-14: Ανάκληση και Ακρίβεια ερωτήματος «opel corsa 1.2» για την MSN.... 105 Πίνακας 7-15: Ανάκληση και Ακρίβεια ερωτήματος «learn java j2ee platform» για την MSN.... 106 Πίνακας 7-16: Ανάκληση και Ακρίβεια ερωτήματος «asus motherboard drivers» για την MSN.... 107 Πίνακας 7-17: Ανάκληση και Ακρίβεια ερωτήματος «samos restaurants» για την MSN... 108 Πίνακας 7-18: Μέσος όρος Ανάκλησης και Ακρίβεια για την MSN.... 109 Πίνακας 7-19: Ανάκληση και Ακρίβεια ερωτήματος «Χίος Ξενοδοχεία» για την 1 η αξιολόγηση της μηχανής μετά-αναζήτησης... 112 Πίνακας 7-20: Ανάκληση και Ακρίβεια ερωτήματος «opel corsa 1.2» για την 1 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 113 Πίνακας 7-21: Ανάκληση και Ακρίβεια ερωτήματος «learn java j2ee platform» για την 1 η αξιολόγηση της μηχανής μετά-αναζήτησης... 114 Πίνακας 7-22: Ανάκληση και Ακρίβεια ερωτήματος «asus motherboard drivers» για την 1 η αξιολόγηση της μηχανής μετα-αναζήτησης... 115 xvii

Πίνακας 7-23: Ανάκληση και Ακρίβεια ερωτήματος «samos restaurants» για την 1 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 116 Πίνακας 7-24: Μέσος όρος Ανάκλησης και Ακρίβεια για την 1 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 117 Πίνακας 7-25: Ανάκληση και Ακρίβεια ερωτήματος «Χίος Ξενοδοχεία» για την 2 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 119 Πίνακας 7-26: Ανάκληση και Ακρίβεια ερωτήματος «opel corsa 1.2» για την 2 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 120 Πίνακας 7-27: Ανάκληση και Ακρίβεια ερωτήματος «learn java j2ee platform» για την 2 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 121 Πίνακας 7-28: Ανάκληση και Ακρίβεια ερωτήματος «asus motherboard drivers» για την 2 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 122 Πίνακας 7-29: Ανάκληση και Ακρίβεια ερωτήματος «samos restaurants» για την 2 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 123 Πίνακας 7-30: Μέσος όρος Ανάκλησης και Ακρίβεια για την 2 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 124 Πίνακας 7-31: Ανάκληση και Ακρίβεια ερωτήματος «Χίος Ξενοδοχεία» για την 3 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 127 Πίνακας 7-32: Ανάκληση και Ακρίβεια ερωτήματος «opel corsa 1.2» για την 3 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 128 Πίνακας 7-33: Ανάκληση και Ακρίβεια ερωτήματος «learn java j2ee platform» για την 3 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 129 Πίνακας 7-34: Ανάκληση και Ακρίβεια ερωτήματος «asus motherboard drivers» για την 3 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 130 Πίνακας 7-35: Ανάκληση και Ακρίβεια ερωτήματος «samos restaurants» για την 3 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 131 Πίνακας 7-36: Μέσος όρος Ανάκλησης και Ακρίβεια για την 3 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 132 xviii

ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ Σχήμα 2-1: Ποσοστά χρήσης κυριότερων Μηχανών Αναζήτησης (Μάρτιος 2009).... 17 Σχήμα 2-2: Κύκλος Ζωής μιας αναζήτησης στη Google.... 19 Σχήμα 3-1: Λειτουργία Μεσολάβησης.... 34 Σχήμα 3-2: Λειτουργία σειριακής αναζήτησης.... 35 Σχήμα 3-3: Λειτουργία παράλληλης αναζήτησης.... 35 Σχήμα 3-4: Στάδια λειτουργίας Μηχανής Μετά-Αναζήτησης.... 36 Σχήμα 4-1: Μέθοδος ενσωμάτωσης με σύγκριση στατιστικών και πληροφοριών συλλογής για την παραγωγή συγκρίσιμων αποτελεσμάτων.... 45 Σχήμα 4-2: Μέθοδος ενσωμάτωσης με παροχή πληροφοριών και στατιστικών συλλογής παράλληλα με τα αποτελέσματα αναζήτησης.... 45 Σχήμα 7-1: Ανάκληση και Ακρίβεια σε επίπεδα συνόλων... 87 xix

xx

ΚΑΤΑΛΟΓΟΣ ΔΙΑΓΡΑΜΜΑΤΩΝ Διάγραμμα 7-1: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «Χίος Ξενοδοχεία» για την Google.... 90 Διάγραμμα 7-2: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος opel corsa 1.2» για την Google.... 91 Διάγραμμα 7-3: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «learn java j2ee platform» για την Google.... 93 Διάγραμμα 7-4: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «asus motherboard drivers» για την Google.... 94 Διάγραμμα 7-5: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «samos restaurants» για την Google.... 95 Διάγραμμα 7-6: Διάγραμμα μέσου όρου Ανάκλησης Ακρίβειας για την Google.... 96 Διάγραμμα 7-7: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «Χίος Ξενοδοχεία» για την Yahoo.... 98 Διάγραμμα 7-8: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος opel corsa 1.2» για την Yahoo.... 99 Διάγραμμα 7-9: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «learn java j2ee platform» για την Yahoo... 100 Διάγραμμα 7-10: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «asus motherboard drivers» για την Yahoo.... 101 Διάγραμμα 7-11: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «samos restaurants» για την Yahoo.... 102 Διάγραμμα 7-12: Διάγραμμα μέσου όρου Ανάκλησης Ακρίβειας για την Yahoo.... 103 Διάγραμμα 7-13: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «Χίος Ξενοδοχεία» για την MSN.... 104 Διάγραμμα 7-14: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος opel corsa 1.2» για την Yahoo.... 105 Διάγραμμα 7-15Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «learn java j2ee platform» για την MSN.... 106 Διάγραμμα 7-16: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «asus motherboard drivers» για την MSN.... 107 Διάγραμμα 7-17: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «samos restaurants» για την Yahoo.... 108 Διάγραμμα 7-18: Διάγραμμα μέσου όρου Ανάκλησης Ακρίβειας για την MSN.... 109 xxi

Διάγραμμα 7-19: Σύγκριση πλήρους καμπύλης ανάκλησης ακρίβειας των 3 μηχανών αναζήτησης (Google, Yahoo, MSN).... 110 Διάγραμμα 7-20: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «Χίος Ξενοδοχεία» για την 1 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 112 Διάγραμμα 7-21: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος opel corsa 1.2» για την 1 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 113 Διάγραμμα 7-22: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «learn java j2ee platform» για την 1 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 114 Διάγραμμα 7-23: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «asus motherboard drivers» για την 1 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 115 Διάγραμμα 7-24: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «samos restaurants» για την 1 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 116 Διάγραμμα 7-25: Διάγραμμα μέσου όρου Ανάκλησης Ακρίβειας για την 1 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 117 Διάγραμμα 7-26: Σύγκριση πλήρους καμπύλης ανάκλησης ακρίβειας των 3 μηχανών αναζήτησης και της 1 ης αξιολόγησης της μηχανής μετά-αναζήτησης.... 118 Διάγραμμα 7-27: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «Χίος Ξενοδοχεία» για την 2 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 120 Διάγραμμα 7-28: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος opel corsa 1.2» για την 2 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 121 Διάγραμμα 7-29: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «learn java j2ee platform» για την 2 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 122 Διάγραμμα 7-30: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «asus motherboard drivers» για την 2 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 123 Διάγραμμα 7-31: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «samos restaurants» για την 2 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 124 Διάγραμμα 7-32: Διάγραμμα μέσου όρου Ανάκλησης Ακρίβειας για την 2 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 125 Διάγραμμα 7-33: Σύγκριση πλήρους καμπύλης ανάκλησης ακρίβειας των 3 μηχανών αναζήτησης (Google, Yahoo, MSN) και δυο πρώτων αξιολογήσεων της μηχανής μετάαναζήτησης.... 126 Διάγραμμα 7-34: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «Χίος Ξενοδοχεία» για την 3 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 128 Διάγραμμα 7-35: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος opel corsa 1.2» για την 3 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 129 xxii

Διάγραμμα 7-36: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «learn java j2ee platform» για την 3 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 130 Διάγραμμα 7-37: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «asus motherboard drivers» για την 3 η αξιολόγηση της μηχανής μετα-αναζήτησης.... 131 Διάγραμμα 7-38: Διάγραμμα Ανάκλησης Ακρίβειας ερωτήματος «samos restaurants» για την 3 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 132 Διάγραμμα 7-39: Διάγραμμα μέσου όρου Ανάκλησης Ακρίβειας για την 3 η αξιολόγηση της μηχανής μετά-αναζήτησης.... 133 Διάγραμμα 7-40: Σύγκριση πλήρους καμπύλης ανάκλησης ακρίβειας των 3 μηχανών αναζήτησης και των 3 αξιολογήσεων της μηχανής μετά-αναζήτησης.... 134 Διάγραμμα 8-1: Διάγραμμα Κλάσεως (Class Diagram) Πραγματοποιώντας μια αναζήτηση.... 145 Διάγραμμα 8-2: Διάγραμμα Κλάσεως (Class Diagram) Ανοίγοντας ένα αποτέλεσμα.... 146 Διάγραμμα 8-3: Διάγραμμα Περίπτωσης Χρήσης (Use Case Diagram)... 147 Διάγραμμα 8-4: Διάγραμμα Κατάστασης (State Diagram)... 148 xxiii

xxiv

ΚΑΤΑΛΟΓΟΣ ΕΙΚΟΝΩΝ Εικόνα 5-1: Στιγμιότυπο του πίνακα search_engine_usage... 47 Εικόνα 5-2: Αρχική σελίδα της εφαρμογής... 48 Εικόνα 5-3: Επιλογή για αναζήτηση εικόνων (images search)... 49 Εικόνα 5-4: Προτεινόμενη διόρθωση από την Google στο ερώτημα java resalts... 52 Εικόνα 5-5: Στιγμιότυπο πηγαίου κώδικα αποτελεσμάτων της Google... 52 Εικόνα 5-6: Ο σύνδεσμος προς το αποτέλεσμα για την Google... 53 Εικόνα 5-7: Ο τίτλος του αποτελέσματος για την Google... 53 Εικόνα 5-8: Η περιγραφή του αποτελέσματος για την Google... 53 Εικόνα 5-9: Στιγμιότυπο πηγαίου κώδικα αποτελεσμάτων της Yahoo... 54 Εικόνα 5-10: Ο τίτλος του αποτελέσματος για την Yahoo... 55 Εικόνα 5-11: Η περιγραφή του αποτελέσματος για την Yahoo... 55 Εικόνα 5-12: Ο σύνδεσμος του αποτελέσματος για την Yahoo... 55 Εικόνα 5-13: Στιγμιότυπο πηγαίου κώδικα αποτελεσμάτων της MSN... 56 Εικόνα 5-14: Ο τίτλος του αποτελέσματος για την MSN... 56 Εικόνα 5-15: Η περιγραφή του αποτελέσματος για την MSN... 57 Εικόνα 5-16: Ο σύνδεσμος του αποτελέσματος για την MSN... 57 Εικόνα 5-17: Στιγμιότυπο πηγαίου κώδικα αποτελεσμάτων εικόνας της Google... 58 Εικόνα 5-18: Ο σύνδεσμος της σελίδας όπου υπάρχει η εικόνα για την Google... 58 Εικόνα 5-19: Ο σύνδεσμος προς την εικόνα στην κανονική της διάσταση για την Google.. 59 Εικόνα 5-20: Το πλάτος της εικόνας στην μικρή της διάσταση για την Google.... 59 Εικόνα 5-21: Το μήκος της εικόνας στην μικρή της διάσταση για την Google.... 59 Εικόνα 5-22: Ο τίτλος της εικόνας για την Google... 59 Εικόνα 5-23: Οι διαστάσεις και το μέγεθος της εικόνας για την Google... 59 Εικόνα 5-24: Ο σύνδεσμος του ιστοτόπου όπου υπάρχει η εικόνα για την Google... 59 Εικόνα 5-25: Στιγμιότυπο πηγαίου κώδικα αποτελεσμάτων εικόνας της Yahoo... 60 Εικόνα 5-26: Ο σύνδεσμος της σελίδας όπου υπάρχει η εικόνα για την Yahoo... 60 Εικόνα 5-27: Ο σύνδεσμος του ιστοτόπου όπου υπάρχει η εικόνα για την Yahoo... 60 Εικόνα 5-28: Ο σύνδεσμος προς την εικόνα σε μικρή μορφή (thumbnail) για την Yahoo... 61 Εικόνα 5-29: Ο σύνδεσμος προς την εικόνα στην κανονική της διάσταση για την Yahoo... 61 Εικόνα 5-30: Ο τίτλος της εικόνας για την Yahoo... 61 Εικόνα 5-31: Οι διαστάσεις και το μέγεθος της εικόνας για την Yahoo... 61 Εικόνα 5-32: Το πλάτος της εικόνας στην μικρή της μορφή για την Yahoo... 61 Εικόνα 5-33: Το ύψος της εικόνας στην μικρή της μορφή για την Yahoo... 61 Εικόνα 5-34: Στιγμιότυπο πηγαίου κώδικα αποτελεσμάτων εικόνας της MSN... 62 xxv

Εικόνα 5-35: Ο σύνδεσμος της σελίδας όπου υπάρχει η εικόνα για την MSN... 63 Εικόνα 5-36: Ο τίτλος της εικόνας για την MSN... 63 Εικόνα 5-37: Ο σύνδεσμος προς την εικόνα στην κανονική της διάσταση για την MSN... 63 Εικόνα 5-38: Ο σύνδεσμος προς την εικόνα σε μικρή μορφή (thumbnail) για την MSN... 63 Εικόνα 5-39: Οι διαστάσεις και το μέγεθος της εικόνας για την MSN... 63 Εικόνα 5-40: Πληροφορίες των cookies μιας προσωποποιημένης αναζήτησης... 65 Εικόνα 5-41: Σελίδα αποτελεσμάτων για μια προσωποποιημένη αναζήτηση πληροφορίας του ερωτήματος «java»... 67 Εικόνα 5-42: Σελίδα αποτελεσμάτων για μια προσωποποιημένη αναζήτηση εικόνων του ερωτήματος «chios»... 68 Εικόνα 5-43: Περίπτωση αναζήτησης χωρίς κάποιο ερώτημα... 69 Εικόνα 5-44: Περίπτωση μη εύρεσης αποτελεσμάτων... 69 Εικόνα 5-45: Περίπτωση μη εύρεσης αποτελεσμάτων και προτροπή για διόρθωση του ερωτήματος... 69 Εικόνα 5-46: Ζητώντας περισσότερες πληροφορίες για τα αποτελέσματα.... 70 Εικόνα 6-1: Στιγμιότυπο ενός αποτελέσματος της Google.... 73 Εικόνα 6-2: Αποτελέσματα αναζήτησης με ερώτημα java... 77 Εικόνα 6-3: Εγγραφές των Cookies του συγκεκριμένου χρήστη... 78 Εικόνα 6-4: Περισσότερες πληροφορίες για τα αποτελέσματα της αναζήτησης... 79 Εικόνα 6-5: Περισσότερες πληροφορίες του πρώτου αποτελέσματος... 80 Εικόνα 6-6: Περισσότερες πληροφορίες του δεύτερου αποτελέσματος.... 82 Εικόνα 6-7: Περισσότερες πληροφορίες του τρίτου αποτελέσματος.... 83 Εικόνα 6-8: Περισσότερες πληροφορίες του τέταρτου αποτελέσματος.... 83 Εικόνα 6-9: Περισσότερες πληροφορίες του πέμπτου αποτελέσματος.... 84 xxvi

ΕΙΣΑΓΩΓΗ Η παρούσα διπλωματική εργασία μελετά τον τομέα της αναζήτησης πληροφορίας στο Διαδίκτυο (Κεφάλαιο 1), ξεκινώντας με μία ιστορική αναδρομή και συνεχίζοντας με την παρουσίαση των κυριότερων προβλημάτων κατά την αναζήτηση και ανάκτηση πληροφοριών. Στο ίδιο κεφάλαιο αναφέρονται τρόποι βελτίωσης της απόδοσης των υπηρεσιών αναζήτησης καθώς επίσης και κάποιες προηγμένες λειτουργίες που βοηθούν στην εύρεση καλύτερων αποτελεσμάτων. Στη συνέχεια γίνεται μελέτη των περισσότερο διαδεδομένων μέσων για την εύρεση πληροφορίας στο διαδίκτυο, των Μηχανών Αναζήτησης (Κεφάλαιο 2). Το κεφάλαιο αυτό αρχίζει με μια ιστορική αναδρομή στην εξέλιξη των Μηχανών Αναζήτησης, συνεχίζοντας με τον τρόπο λειτουργία τους και τα οφέλη που προσφέρει η χρήση τους. Το κεφάλαιο κλείνει με τη μελέτη των τριών κυριότερων Μηχανών Αναζήτησης, της Google, της Yahoo! Search και της Bing. Συγκεκριμένα, για κάθε μία μαθαίνουμε στοιχεία για την εξέλιξή και τη λειτουργία της, καθώς επίσης για τις υπηρεσίες, τις επιλογές και τους περιορισμούς αναζήτησης που προσφέρει. Το 3 Ο Κεφάλαιο ερευνά τις Μηχανές Μετά-Αναζήτησης, αναφέροντας τις κατηγορίες στις οποίες χωρίζονται και τα στάδια λειτουργίας τους. Στη συνέχεια γίνεται περιγραφή των βασικών χαρακτηριστικών τους και των διαδικασιών που ενεργοποιούνται κατά την αναζήτηση πληροφοριών στο Διαδίκτυο. Στο τέλος του Κεφαλαίου γίνεται μία μικρή επισκόπηση στο χώρο των Μηχανών Μετά-Αναζήτησης, με την παρουσίαση των βασικών χαρακτηριστικών και της λειτουργίας μερικών δημοφιλών Μηχανών Μετά-Αναζήτησης. Στο 4 ο Κεφάλαιο μελετάται το πρόβλημα συγχώνευσης και χειρισμού των αποτελεσμάτων από διαφορετικές υπηρεσίες αναζήτησης και αναλύονται διάφορες μέθοδοι κατάταξης αποτελεσμάτων από διαφορετικές πηγές που έχουν ως στόχο τη δημιουργία μιας ενιαίας ταξινόμησης συγκεντρωμένων αποτελεσμάτων. Ξεκινάει με μια την ιστορική εξέλιξη των μεθόδων και συνεχίζει με την παρουσίαση των τεχνικών συγχώνευσης από ετερογενείς πηγές πληροφορίας. Τα Κεφάλαιο 5, 6 και 7, ασχολούνται με την Μηχανή Μετά-Αναζήτησης που υλοποιήθηκε στα πλαίσια αυτής της διπλωματικής εργασίας. Στο Κεφάλαιο 5 αναλύεται η λειτουργία της και τεκμηριώνεται ο κώδικά της. Στο 6 ο Κεφάλαιο παρουσιάζεται ο αλγόριθμος που προτείνει και χρησιμοποιεί η εφαρμογή για εξατομικευμένη αναζήτηση από πολλαπλές πηγές πληροφορίας στο Διαδίκτυο ενώ στο Κεφάλαιο 7 γίνεται προσπάθεια αξιολόγησης της εφαρμογής, με χρήση των δεικτών ανάκλησης-ακρίβειας και παρουσίαση πολλών διαγραμμάτων, από τα οποία μπορούν να προκύψουν σημαντικά συμπεράσματα. Στο τελευταίο Κεφάλαιο αναφέρονται τα συμπεράσματα που προέκυψαν από αυτή μελέτη. Ακολουθούν δύο παραρτήματα, ένα με τα UML διαγράμματα της εφαρμογής και ένα με τον πηγαίο κώδικά της, ο οποίος παρέχεται σε συνοδευτικό CD. 1

2

ΚΕΦΑΛΑΙΟ 1 - ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ 1.1 Διαδίκτυο και Αναζήτηση Πληροφορίας Το διαδίκτυο αποτελεί ένα περιβάλλον αποθήκευσης και ανάκτησης πληροφορίας σε ηλεκτρονική μορφή. Η ταχύτατη ανάπτυξης του διαδικτύου και η συνεχώς αυξανόμενη ποσότητα πληροφορίας που συγκεντρώνεται σε αυτό οδηγούν στην ραγδαία αύξηση της ηλεκτρονικής πληροφορίας. Αυτό έχει ως αποτέλεσμα η αναζήτηση πληροφορίας από το διαδίκτυο να γίνει μια αναγκαία πραγματικότητα για τους περισσότερους χρήστες. Για να εντοπίσει κάποιος χρήστης αυτή την πληροφορία, απαιτείται πολύ χρόνος και επίμονη προσπάθεια. Η αναζήτηση και εύρεση της σωστής πληροφορίας μπορεί να γίνει αδύνατη εάν ο χρήστης δεν βοηθηθεί από τα κατάλληλα εργαλεία. Για την εύρεση της κατάλληλης πληροφορίας από τον Παγκόσμιο Ιστό υπάρχουν τρεις βασικοί τύποι: οι διαδικτυακοί κατάλογοι, οι μηχανές αναζήτησης και οι μηχανές μετά-αναζήτησης. Οι διαδικτυακοί κατάλογοι είναι ένας τρόπος αναζήτησης πληροφορίας η οποία είναι αποθηκευμένη και κατηγοριοποιημένη σε θεματικούς καταλόγους. Οι μηχανές αναζήτησης συλλέγουν πληροφορίες από ιστοσελίδες και τις αποθηκεύουν σε βάσεις δεδομένων. Όταν ο χρήστης θέλει να κάνει μια αναζήτηση, η μηχανή αναζήτησης προσπελαύνει την βάση δεδομένων που διαθέτει και στη συνέχεια εμφανίζει τα αποτελέσματα που είναι πιο κοντά στο ερώτημα του χρήστη. Οι μηχανές μετά-αναζήτησης δεν διαθέτουν δική τους βάση δεδομένων και δικό τους κατάλογο ή ευρετήριο. Αντίθετα, λειτουργούν αναζητώντας ταυτόχρονα στις βάσεις δεδομένων άλλων μηχανών αναζήτησης και επιστρέφοντας όλα τα αποτελέσματα αφού πρώτα ταξινομηθούν κατάλληλα στους χρήστες. Το διαδίκτυο διαθέτει κάποια χαρακτηριστικά που δυσκολεύουν την αναζήτηση και την ανάκτηση της επιθυμητής πληροφορίας: Δυναμική αλλαγή. Το διαδίκτυο αλλάζει καθημερινά ενώ τα κλασσικά συστήματα ανάκτησης πληροφορίας είναι σχεδιασμένα για στατικές βάσεις δεδομένων. Όγκος πληροφοριών. Αυξάνεται συνεχώς η ποσότητα της πληροφορίας και είναι δύσκολο να προσδιοριστεί, γεγονός που δυσκολεύει την αναζήτηση πληροφοριών. Ανομοιογένεια. Το διαδίκτυο εκτός από κείμενα, διαθέτει και άλλους τύπους πληροφορίας, όπως φωτογραφίες, αρχεία ήχου, βίντεο και άλλα. Πληθώρα γλωσσών. Στο διαδίκτυο χρησιμοποιούνται πολλές διαφορετικές γλώσσες, οπότε η αναζήτηση πληροφοριών γίνεται περισσότερο πολύπλοκη. Διπλοτυπίες. Η αντιγραφή είναι ένα χαρακτηριστικό του διαδικτύου που δυσκολεύει την αναζήτηση, μιας και μεγάλο ποσοστό σελίδων υπάρχει δύο φορές. Υψηλή συνδετικότητα. Σχεδόν κάθε σελίδα στον παγκόσμιο ιστό διαθέτει πολλές συνδέσεις προς άλλες σελίδες. Λάθος διαμορφωμένα ερωτήματα. Πολλές φορές τα ερωτήματα που καλούνται να εξυπηρετήσουν τα συστήματα αναζήτησης πληροφοριών είναι μικρά και όχι καλά διατυπωμένα από τους χρήστες. 3

Πληθώρα χρηστών. Κάθε χρήστης του διαδικτύου έχει διαφορετικές ανάγκες, προσδοκίες και γνώσεις. Συγκεκριμένη συμπεριφορά. Έχει υπολογιστεί ότι περίπου το 85% των χρηστών του διαδικτύου, κοιτούν μόνο την πρώτη σελίδα των επιστρεφόμενων αποτελεσμάτων μιας μηχανής αναζήτησης και το 78% δεν τροποποιούν την διατύπωση του αρχικού τους ερωτήματος. Τα παραπάνω χαρακτηριστικά προσδίδουν μια μοναδικότητα στην αναζήτηση και ανάκτηση πληροφοριών από το διαδίκτυο. Οι υπηρεσίες αναζήτησης, με γνώμονα την συνεχή τους βελτίωση, καλούνται να βρουν τρόπους αποτελεσματικής αντιμετώπισης αυτών των χαρακτηριστικών. 1.2 Ιστορική Εξέλιξη Η σημασία της αρχειοθέτησης και της αναζήτησης πληροφορίας έχει ανακαλυφθεί εδώ και εκατοντάδες χρόνια. Με την ανακάλυψη των υπολογιστών, έγινε δυνατή η αποθήκευση μεγάλου όγκου πληροφορίας. Πλέον, η εύρεση ωφέλιμης πληροφορίας από τέτοιου είδους συλλογές αποτελεί αναγκαιότητα. Η αρχειοθέτηση πληροφοριών χρονολογείται γύρω στο 3000 π.χ.. Με την πάροδο των αιώνων, η ανάγκη για αποθήκευση και ανάκτηση αυτών των πληροφοριών, γινόταν όλο και μεγαλύτερη, ιδιαίτερα όταν ανακαλύφθηκε το χαρτί και ο γραπτός λόγος. Αμέσως μετά την ανακάλυψη των υπολογιστών, οι άνθρωποι κατάλαβαν ότι μπορούσαν να τους χρησιμοποιήσουν για την αποθήκευση μεγάλων ποσοτήτων πληροφοριών. Το 1945 ο Vannevar Bush δημοσίευσε ένα άρθρο με τίτλο As We May Think [1], δηλαδή όσο μπορούμε να σκεφτόμαστε, το οποίο έδωσε το έναυσμα για την ανάπτυξη της ιδέας της αυτόματης πρόσβασης σε μεγάλες ποσότητες αποθηκευμένης πληροφορίας. Στη δεκαετία του 50, αυτή η ιδέα αποτέλεσε αντικείμενο για πραγματικές περιγραφές του πώς θα αναζητούνται αρχεία κειμένου με αυτόματο τρόπο. Στα μέσα της δεκαετίας αυτής, αρκετές έρευνες εμπνεύστηκαν από την βασική ιδέα της αναζήτησης πληροφοριών με χρήση του υπολογιστή. Ο H. P. Luhn έκανε περιγραφή μίας εκ των σημαντικότερων μεθόδων, στην οποία απλά πρότεινε την χρήση λέξεων ως δείκτες για τα κείμενα, ενώ για την ανάκτηση έθεσε ως κριτήριο την μέτρηση του ποσοστού επικάλυψης (overlap) της λέξης [2]. Στην επόμενη δεκαετία, έγιναν αρκετές προσπάθειες στο συγκεκριμένο πεδίο, με πιο ξεχωριστή αυτή του Πανεπιστημίου Cranfield στο Ηνωμένο Βασίλειο. Στο Cranfield δοκίμασαν και τελικά ανέπτυξαν μια μέθοδο αξιολόγησης για τα συστήματα ανάκτησης, η οποία χρησιμοποιείται μέχρι και σήμερα [3]. Την ίδια περίοδο αναπτύχθηκε αρχικά από το Πανεπιστήμιο Harvard και στην συνέχεια από το Πανεπιστήμιο Cornell το σύστημα SMART [4], το οποίο έδωσε την δυνατότητα στους ερευνητές να πειραματιστούν με ιδέες ώστε να βελτιωθεί η ποιότητα αναζήτησης. Το Δεκέμβριο του 1969 έκανε και την πρώτη του εμφάνιση το Διαδίκτυο, το οποίο αποτέλεσε ένα από τα πιο ραγδαία αναπτυσσόμενα φαινόμενα, και έγινε αποδεκτό από όλους. Τα καλά αποτελέσματα της δεκαετίας του 60, ακολούθησαν οι δύο επόμενες δεκαετίες, όπου αναπτύχθηκαν διαφορετικά μοντέλα για την ανάκτηση πληροφοριών, τα οποία βοήθησαν σε όλες τις κατευθύνσεις τη διαδικασία της ανάκτησης πληροφοριών. Όλα αυτά τα μοντέλα-τεχνικές που δημιουργήθηκαν, επιδείκνυαν πειραματικά την αποτελεσματικότητά τους σε συλλογές από μικρά κείμενα (μερικές χιλιάδες άρθρα), τα οποία ήταν διαθέσιμα στους ερευνητές. Ωστόσο, λόγω της έλλειψης συλλογών από μεγάλα 4

κείμενα, το ερώτημα για το αν οι τεχνικές και το μοντέλα που είχαν δημιουργηθεί, θα ήταν ικανά για μεγάλου όγκου κείμενα, παρέμενε αναπάντητο. Η απάντηση ήρθε το 1992 με την δημιουργία ενός οργανισμού για την ανάκτηση κειμένου, με την ονομασία Text Retrieval Conference (TREC) [5]. Ο στόχος του ήταν να ενθαρρύνει την έρευνα στο πεδίο της ανάκτησης πληροφορίας σε συλλογές από μεγάλα κείμενα. Αφού οι συλλογές μεγάλων κειμένων ερευνήθηκαν με τη βοήθεια του TREC, πολλές από τις παλιές τεχνικές τροποποιήθηκαν και πολλές νέες αναπτύχθηκαν (και αναπτύσσονται ακόμα και σήμερα), με συνέπεια η ανάκτηση πληροφορίας από μεγάλες συλλογές να γίνει πραγματικότητα. Το TREC παράλληλα έκανε και διαχωρισμό της ανάκτησης πληροφορίας σε σχετικά, αλλά και σημαντικά πεδία, όπως ανάκτηση πληροφορίας λόγου, ανάκτηση μηαγγλικής πληροφορίας, φιλτράρισμα της πληροφορίας, αλληλεπίδρασης των χρηστών με ένα σύστημα ανάκτησης και διάφορα άλλα. Οι πρώτες προσπάθειες εξέτασης, εντοπισμού και ανάκτησης πληροφοριών από τον Παγκόσμιο Ιστό ξεκινούν από την αρχή της προηγούμενης δεκαετίας. Προτού εισέλθουν οι πρώτοι Διαφυλλιστές (Browsers) [6], υπήρξε το σύστημα WAIS και η έκδοση του XWAIS, τα οποία χρησιμοποιούσαν ένα συγκεκριμένο σχήμα σε έναν κεντρικό υπολογιστή, με σκοπό την ανάκτηση πληροφοριών [7]. Επίσης, περίπου το 1991 το σύστημα Gopher εμφανίστηκε ως καταχωρητής [8]. Το πρώτο σύστημα με δομή μηχανής αναζήτησης όπως αυτή είναι αντιληπτή σήμερα, εισήχθη το 1994 με το όνομα Lycos [9]. Χρησιμοποιούσε ένα πρόγραμμα ευρετηρίασης και ένα αυτόματο πρόγραμμα σάρωσης. Επίσης το 1994, εμφανίστηκε και το σύστημα Yahoo! ως ο πρώτος Θεματικός Κατάλογος [10]. Με την πάροδο του χρόνου, όλο και περισσότερες μηχανές αναζήτησης παρουσιάζονταν στο προσκήνιο. Έπειτα, άρχισαν να αναπτύσσονται και συστήματα που χρησιμοποιούσαν τις βάσεις πληροφοριών των μηχανών αναζήτησης για να ενημερώσουν τους χρήστες τους, δρώντας σαν μεσίτες πληροφοριών. Το Διαδίκτυο αποτελεί πλέον ένα απαραίτητο εργαλείο στη ζωή των ανθρώπων και για αυτό το λόγο η ανάκτηση πληροφοριών δίνει έμφαση στην αναζήτηση πληροφοριών από τον παγκόσμιο ιστό. Οπότε, η συνεχώς αυξανόμενη ποσότητα πληροφοριών που συσσωρεύεται σε αυτό, έχει κάνει την ανάκτηση πληροφοριών από το Διαδίκτυο, ένα αναγκαίο συστατικό. 5

1.3 Προβλήματα στην Αναζήτηση Πληροφορίας από το Διαδίκτυο Κατά την αναζήτηση πληροφορίας από τον Παγκόσμιο Ιστό, οι μηχανές αναζήτησης αντιμετωπίζουν μια σειρά προβλημάτων σχετικά με την διατήρηση ή την αύξηση κάποιας ποιότητας απόδοσης. Κάποια από τα χαρακτηριστικά της αναζήτησης από το Διαδίκτυο που αναφέρθηκαν παραπάνω αποτελούν και παράγοντες που τα δημιουργούν. Στη συνέχεια γίνεται περιγραφή ορισμένων προβλημάτων, τα οποία μπορούν να αποτελέσουν και ενδιαφέρον τομείς για έρευνα. 1.3.1 Κακόβουλη Πληροφορία (spam) Ο Silverstein [11] έδειξε ότι το 85,2% των χρηστών που χρησιμοποιούν μηχανές αναζήτησης, κοιτούν μόνο τα αποτελέσματα της πρώτης σελίδας και το 7,5% και της δεύτερης. Αυτό σημαίνει ότι όταν οι χρήστες αναζητούν κάποιες σελίδες από μηχανές αναζήτησης τείνουν να εξετάζουν μόνο αυτές που εμφανίζονται στην πρώτη σελίδα των επιστρεφόμενων αποτελεσμάτων. Αυτό έχει ως αποτέλεσμα, οι ιστοσελίδες που εμφανίζονται στην πρώτη σελίδα των αποτελεσμάτων να γίνονται αρκετά δημοφιλείς και να προκαλείται μεγάλη κίνηση στον συγκεκριμένο δικτυακό τόπο. Στις περισσότερες ιστοσελίδες και κυρίως σε αυτές με εμπορικό περιεχόμενο, οι επισκέψεις όλο και περισσότερων χρηστών μπορεί να αποφέρει μεγάλο κέρδος στην επιχείρηση. Όμως, το να είναι κάποια ιστοσελίδα στα πρώτα αποτελέσματα μιας μηχανής αναζήτησης μπορεί να ενδιαφέρει αρκετά όχι μόνο τις επιχειρήσεις αλλά και τις μηχανές αναζήτησης. Επομένως, αρκετοί ιδιοκτήτες σελίδων στο διαδίκτυο προσπαθούν σκόπιμα να παραπλανήσουν, ακόμα και με οικονομική βοήθεια, τις γνωστότερες μηχανές αναζήτησης για να τοποθετηθούν σε υψηλές θέσεις κατάταξης. Και από την άλλη πλευρά όμως, οι μηχανές αναζήτησης δύσκολα θα πουν όχι σε κάποια συμφέρουσα προσφορά που έχει να κάνει με το πλασάρισμα μιας ιστοσελίδας σε υψηλή θέση κατάταξης. Η διαδικασία κατά την οποία ο ιδιοκτήτης κάποιας ιστοσελίδας προσπαθεί με χρήση κάποιων μεθόδων-τεχνικών να παραπλανήσει της μηχανές αναζήτησης είναι γνωστό ως κακόβουλη πληροφορία των μηχανών αναζήτησης ή spamdexing [12]. Οι τεχνικές αυτές μπορούν να κατηγοριοποιηθούν σε δύο γενικές κατηγορίες. Στην κακόβουλη πληροφορία περιεχομένου (content spam) και στην κακόβουλη πληροφορία συνδέσμου (link spam). 1.3.1.1 Κακόβουλη πληροφορία περιεχομένου (content spam) Οι τεχνικές αυτής της κατηγορίας περιλαμβάνουν την προσπάθεια μεταβολής της λογικής άποψης που έχει μια μηχανή αναζήτησης σχετικά με το περιεχόμενο μιας σελίδας. Στοχεύουν όλες σε παραλλαγές του διανυσματικού χώρου για την ανάκτηση πληροφοριών από συλλογές κειμένου. Η κατηγορία αυτή περιλαμβάνει τις παρακάτω τεχνικές: Keyword stuffing. Τοποθέτηση λέξεων-κλειδιά σε συγκεκριμένα σημεία της σελίδας έτσι ώστε η σελίδα αυτή να μπορεί να βρεθεί πιο εύκολα από κάποιο web crawler [13]. Hidden or invisible unrelated text. Απόκρυψη λέξεων-κλειδιά και φράσεων με το να τα κάνουμε ίδιο χρώμα με το background και χρησιμοποιώντας πολύ μικρό μέγεθος γραμματοσειράς. Meta tag stuffing. Επανάληψη λέξεων-κλειδιά στα Meta tags και χρησιμοποίηση λέξεων-κλειδιά που δεν σχετίζονται με το περιεχόμενο της σελίδας. 6

Gateway or doorway pages. Δημιουργία μη ποιοτικών σελίδων με πολύ μικρό περιεχόμενο αλλά γεμάτο από παρόμοιες λέξεις-κλειδιά και φράσεις. Scraper sites. Είναι επίσης γνωστά ως Made for AdSense sites και σχεδιάζονται με τέτοιο τρόπο ώστε να δημιουργούν κατάλληλο περιεχόμενο για μια ιστοσελίδα [14]. 1.3.1.2 Κακόβουλη πληροφορία συνδέσμου (link spam) Οι τεχνικές αυτής της κατηγορίας εκμεταλλεύονται τους αλγόριθμους κατάταξης που βασίζονται στους συνδέσμους, όπως ο αλγόριθμος PageRank της Google [15], ο οποίος δίνει υψηλότερη κατάταξη σε ένα site στο οποίο οδηγούν μέσα από συνδέσμους άλλα site υψηλής κατάταξης. Η κατηγορία αυτή περιλαμβάνει τις παρακάτω τεχνικές: Link Farms. Δημιουργία ενός συνόλου από σελίδες όπου η κάθε μία σε παραπέμπει στις υπόλοιπες. Hidden Links. Τοποθέτηση συνδέσμων που δεν φαίνονται στον χρήστη έτσι ώστε να αυξηθεί η δημοσιότητα - link popularity [16] της ιστοσελίδας. Sybil Attack. Δημιουργία πολλών ιστοσελίδων σε διαφορετικά ονόματα χώρου που κάθε μία έχει συνδέσμους προς τις άλλες. Spam blogs. Ψεύτικα blogs που δημιουργούνται αποκλειστικά και μόνο για spamming. Page hijacking. Δημιουργία ιστοσελίδων που μοιάζουν πολύ με άλλες διάσημες ιστοσελίδες, έχουν περιεχόμενο παρόμοιο με τις αυθεντικές ιστοσελίδες αλλά ανακατευθύνουν τον χρήστη σε κακόβουλες και μη σχετικές ιστοσελίδες. Αγορά ονομάτων χώρου που έχουν λήξει και αντικατάστασή τους με συνδέσμους προς άλλες κακόβουλες σελίδες. Spam in blogs. Τοποθέτηση συνδέσμων σε blog και άλλα site όπου επιτρέπονται σχόλια (και γενικά εισαγωγή κειμένου) από τους χρήστες. Wiki spam. Χρησιμοποίηση της ανοικτής στους χρήστες βιβλιοθήκη έτσι ώστε να τοποθετηθούν σύνδεσμοι προς άλλες ιστοσελίδες. Referrer log spamming. Τροποποίηση των logs αναφοράς πολλών ιστοσελίδων έτσι ώστε να δείχνουν σε μία συγκεκριμένη ιστοσελίδα. Κάποιες άλλης μη κατηγοριοποιημένες τεχνικές spamdexing είναι: Mirror websites. Φιλοξενία πολλών ιστοσελίδων παρόμοιου περιεχομένου αλλά με διαφορετικό URL. URL redirection. Μεταφορά του χρήστη σε κάποια άλλη ιστοσελίδα χωρίς την μεσολάβησή του. Cloaking. Προσπάθεια παραπλάνησης της μηχανής αναζήτησης αναφέροντας το περιεχόμενο σε μια συγκεκριμένη ιστοσελίδα [17]. Δυστυχώς, η κακόβουλη πληροφορία είναι τόσο διαδεδομένη όπου κάθε εμπορική μηχανή αναζήτησης θα πρέπει να λαμβάνει μέτρα ώστε να αναγνωρίζει και να απομακρύνει τέτοιου είδους πληροφορία. Χωρίς τέτοια αντιμετώπιση, η ποιότητα της κατάταξης των αποτελεσμάτων θα μειονεκτεί σε σημαντικό βαθμό. 7

1.3.2 Ποιότητα Περιεχομένου (Content Quality) Δυστυχώς, η κακόβουλη πληροφορία δεν είναι το μόνο ανησυχητικό θέμα που πρέπει να λάβει υπόψη μία μηχανή αναζήτησης. Η ποιότητα του περιεχομένου των αποτελεσμάτων κατά την διάρκεια μιας αναζήτησης είναι ένα θέμα μεγάλης σημασίας για όλες τις μηχανές αναζήτησης. Η δημοκρατική φύση της δημιουργίας περιεχομένων στο Διαδίκτυο έχει οδηγήσει σε μια συλλογή περιεχομένων όπου είναι πολύ χαμηλής ποιότητας. Ο παγκόσμιος ιστός είναι γεμάτος από χαμηλής ποιότητας, αναξιόπιστο και πραγματικά αντικρουόμενο περιεχόμενο. Για τους παραπάνω λόγους, θα ήταν αρκετά χρήσιμο για τις μηχανές αναζήτησης να έχουν την δυνατότητα να αναγνωρίζουν την ποιότητα των ιστοσελίδων ανεξαρτήτως του ερωτήματος του χρήστη. Αυτό σημαίνει ότι κάθε αποθηκευμένη σελίδα στη βάση μιας μηχανής αναζήτησης θα μπορούσε να έχει έναν δείκτη αξιολόγησης. Αυτός ο δείκτης αξιολόγησης θα μπορούσε να προκύπτει από διάφορα στοιχεία, όπως ο βαθμός ανάγνωσης της συγκεκριμένης σελίδας ή η αξιολόγησή της από τους χρήστες. Επομένως, μια λογική προσέγγιση στην αναζήτηση και ανάκτηση ποιοτικής πληροφορίας θα ήταν κάθε μηχανή αναζήτησης να προσπαθήσει να βρει τεχνικές και μεθόδους με σκοπό αρχικά την αξιολόγηση της ποιότητας και στη συνέχεια την αφαίρεση σελίδων από την βάση τους με χαμηλή ποιότητα περιεχομένου. Η αξιολόγηση των αποτελεσμάτων διαφορετικών αλγορίθμων κατάταξης ως προς την ποιότητα αποτελεί ένα δύσκολο πρόβλημα. Οι εμπορικές μηχανές αναζήτησης έχουν το πλεονέκτημα ότι μπορούν να αξιολογήσουν αποτελέσματα και να τα κατατάξουν χρησιμοποιώντας την μεγάλη ποσότητα δεδομένων που προέρχεται από ερωτήματα κανονικών και αδιάφορων από πλευράς κάποιου σκοπού χρηστών. Οι χρήστες συνήθως δεν προσπαθούν να δώσουν λανθασμένες απαντήσεις, αλλά τις πιο πολλές φορές δεν μπαίνουν στην διαδικασία να συμπληρώσουν κάποια ερωτηματολόγια. Η ερευνητική πτυχή του συγκεκριμένου προβλήματος ανάκτησης πληροφορίας έγκειται στο να γίνει εκμετάλλευση όλων των δυνατών παραγόντων ώστε να αξιολογηθούν οι διαφορετικές στρατηγικές κατάταξης. 1.3.3 Κανόνες Διαδικτύου (Web Conventions) Γενικώς στο διαδίκτυο δεν υπάρχουν κανόνες που πρέπει να τηρούνται για την κατασκευή μιας ιστοσελίδας. Οποιοσδήποτε μπορεί να κατασκευάσει και να ανεβάσει την ιστοσελίδα του όπως αυτός επιθυμεί χωρίς να τον περιορίζουν κανόνες. Όμως, οι περισσότεροι δημιουργοί ιστοσελίδων ακολουθούν κάποιους απλούς κανόνες συμβάσεις χωρίς κανείς να τους επιβάλλει. Δηλαδή οι περισσότερες σελίδες έχουν κάποια κοινά σημεία τα οποία θα τα αναφέρουμε ως κανόνες του Διαδικτύου. Μερικοί από αυτούς τους κανόνες είναι: 1. Το πρώτο πράγμα θέλει να μάθει ένας χρήστης για μια ιστοσελίδα είναι με τι έχει να κάνει αυτή η ιστοσελίδα. Αυτό φαίνεται κυρίως από το λογότυπο (logo) της σελίδας το οποίο συνήθως τοποθετείται πάνω αριστερά. 2. Οι περισσότεροι χρήστες δεν έχουν υπομονή και σαρώνουν την ιστοσελίδα στα γρήγορα. Γι αυτό το λόγο, καλό είναι οι δημιουργοί ιστοσελίδων να τοποθετούν τις σημαντικότερες πληροφορίες στο πιο εμφανές σημείο, δηλαδή κοντά στην κορυφή της σελίδας, για παράδειγμα κάτω από το λογότυπο της σελίδας. 3. Οι υπογραμμισμένες λέξεις συνήθως είναι σύνδεσμοι. Επίσης, σε ένα κείμενο από λέξεις, μία λέξη ή πρόταση που είναι σε διαφορετικό χρώμα σημαίνει πως είναι και 8

αυτός ένας σύνδεσμος στις περισσότερες περιπτώσεις. Επομένως, είναι καλό οι δημιουργοί σελίδων να μην υπογραμμίζουν λέξεις και να μην τις τονίζουν με διαφορετικό χρώμα αν αυτές δεν είναι σύνδεσμος. 4. Είναι αναγκαίο να υπάρχει σύνδεσμος προς την αρχική σελίδα σε εμφανές σημείο και συνήθως πάνω αριστερά κάτω από το λογότυπο. 5. Όταν μια ιστοσελίδα αποτελείται από πολλές άλλες καλό είναι όλες να έχουν την ίδια μορφή και εμφάνιση. Αυτό διευκολύνει και δεν μπερδεύει τους χρήστες καθώς μεταφέρονται από σελίδα σε σελίδα στο ίδιο site. 6. Το μενού μιας ιστοσελίδας συνήθως βρίσκεται σε μια οριζόντια γραμμή στην κορυφή της σελίδας και κάτω από το λογότυπο ή σε μια κάθετη στήλη δεξιά ή αριστερά. Οι μηχανές αναζήτησης, με την σειρά τους βασίζονται σε αυτούς τους κανόνες του Διαδικτύου που τηρούν οι δημιουργοί, με σκοπό να βελτιώσουν την ποιότητα των αποτελεσμάτων. Συνεπώς, όταν οι δημιουργοί μιας ιστοσελίδας αθετούν αυτούς τους κανόνες, λογικό είναι να επηρεάζουν τις μηχανές αναζήτησης. Το κύριο θέμα σε αυτό το πρόβλημα, είναι να αναγνωριστούν οι διάφοροι κανόνες οι οποίοι έχουν αναπτυχθεί σε ολόκληρο τον κόσμο, και να αναπτυχθούν τεχνικές ώστε να μπορούν να ανακαλύπτονται επακριβώς πότε αυτοί οι κανόνες παραβιάζονται και από ποιους δημιουργούς και ιστοσελίδες. 1.3.4 Διπλότυποι Κόμβοι (Duplicate Hosts) Κατά την μελέτη του διαδικτύου, οι μηχανές αναζήτησης προσπαθούν να αποφύγουν την αποθήκευση στις βάσεις δεδομένων τους διπλότυπες και πανομοιότυπες ιστοσελίδες, καθώς δεν προστίθεται νέα πληροφορία στα αποτελέσματα των αναζητήσεων αλλά αντίθετα προκαλείται μεγαλύτερη ακαταστασία στα αποτελέσματα. Αυτό το πρόβλημα της αναγνώρισης διπλότυπων ιστοσελίδων μέσα από συνεχή αναζήτηση έχει μελετηθεί αρκετά. Πολλές μηχανές αναζήτησης ελέγχουν για διπλότυπες εγγραφές κατά την παραγωγή των αποτελεσμάτων. Σε αυτή την περίπτωση όμως δεν υπάρχει εγγύηση για το ποια έκδοση της σελίδας θα εμφανιστεί στα αποτελέσματα και ποια δεν θα εμφανιστεί. Επίσης, ο web crawler [18] μιας μηχανής αναζήτησης μπορεί να σταματήσει την εισαγωγή σελίδων μιας ιστοσελίδας στα αποτελέσματα αν παρατηρήσει ότι υπάρχουν πολλά αντίγραφα των ίδιων σελίδων σε διαφορετικούς Ενιαίους Εντοπιστές Πόρων (URLs) [19]. Υπάρχουν δύο κύριοι λόγοι για τους οποίους οι μηχανές αναζήτησης επιθυμούν να μην έχουν διπλότυπο περιεχόμενο στα αποτελέσματα. Ο πρώτος φυσικά είναι η αποφυγή εμφάνισης δύο ίδιων σελίδων στα αποτελέσματα. Ο δεύτερος λόγος είναι η εξοικονόμηση πόρων από την διαδικασία της εισαγωγής στην βάση δεδομένων σελίδων με πανομοιότυπο περιεχόμενο. Ένα πολύ συχνό παράδειγμα όπου οι μηχανές αναζήτησης αντιλαμβάνονται την ύπαρξη πανομοιότυπου περιεχομένου είναι στη περίπτωση όπου κάποιες ιστοσελίδες πωλούν το ίδιο προϊόν. Αυτές οι σελίδες συνηθίζουν να χρησιμοποιούν το κείμενο της περιγραφής του προϊόντος που υπάρχει στη σελίδα του κατασκευαστή και έτσι υπάρχει μία σημαντική ποσότητα περιεχομένου που είναι ίδια σε περισσότερες από μία ιστοσελίδες. Μία άλλη περίπτωση είναι αυτή όπου πολλά διαφορετικά URLs αντιπροσωπεύουν την ίδια ιστοσελίδα. Για παράδειγμα τα παρακάτω URLs μπορεί να καταλήγουν στην ίδια ιστοσελίδα: 9

http://www.example.com http://www.example.com/index.htm http://example.com http://example.com/index.htm Στις παραπάνω δύο περιπτώσεις, αλλά και σε αρκετές άλλες [20], οι περισσότερες μηχανές αναζήτησης αντιλαμβάνονται την ύπαρξη πανομοιότυπων εγγραφών και τις εξαλείφουν. 1.3.5 Ασαφής Καθορισμός Δεδομένων (Vaguely-Structured Data) Ο τρόπος που είναι δομημένες οι πληροφορίες είναι ένα από τα βασικότερα χαρακτηριστικά και επηρεάζει πάρα πολύ σχεδόν όλες τις τεχνικές που χρησιμοποιούνται κατά την αναζήτηση και ανάκτηση πληροφοριών. Αρχικά, για τους ερευνητές των βάσεων δεδομένων μεγάλο ρόλο έπαιζαν τα δεδομένα που ήταν δομημένα σε υψηλό επίπεδο. Αντίθετα, οι ερευνητές που ερευνούσαν την επιστήμη της ανάκτησης πληροφορίας μελετούσαν αδόμητες πληροφορίες. Πλέον, οι ερευνητές των βάσεων δεδομένων λαμβάνουν υπόψη αν γίνεται εξαπάτηση που έχει να κάνει με την δομή των δεδομένων και οι αντίστοιχοι της επιστήμης της ανάκτησης πληροφορίας άρχισαν να χρησιμοποιούν συσσωρευμένη μετά-πληροφορία (meta-data) [21]. Οι ιστοσελίδες που είναι γραμμένες σε HTML [22] είναι πολύ κοντά τόσο στο ελεύθερο κείμενο όσο και στο καλά δομημένο. Η HTML δίνει περισσότερο έμφαση στην εμφάνιση, παρέχει περιορισμένη πληροφορία για την δομή αλλά παρέχει στοιχεία για την σημασιολογική πληροφορία. Οι μηχανές αναζήτησης εκμεταλλεύονται τα παραπάνω στοιχεία για την καλύτερη παραγωγή αποτελεσμάτων. Αυτό σημαίνει ότι ιστοσελίδες με ασαφώς δομημένα δεδομένα δυσκολεύουν και δεν προτιμώνται από τις μηχανές αναζήτησης. Για σχεδόν το σύνολο των μηχανών αναζήτησης, η πληροφορία για την εμφάνιση μιας ιστοσελίδας HTML έχει περιορισμένη σημασία και δεν χρησιμοποιείται αρκετά, ειδικά αν συγκριθεί με την πληροφορία που περιέχεται σε γλώσσες όπως η XML [23], όπου δίνεται περισσότερη έμφαση στη δομή και σχεδόν καθόλου στην εμφάνιση. Ήδη έχουν αρχίσει να πραγματοποιούνται έρευνες για την εκμετάλλευση της πληροφορίας εμφάνισης [24] και πιστεύεται ότι μπορεί να προσφέρει αρκετά στον τομέα της ανάκτησης πληροφορίας. 10

1.4 Βελτίωση της απόδοσης των υπηρεσιών αναζήτησης Για την βελτίωση της απόδοσης των υπηρεσιών αναζήτησης υπάρχουν τρεις κύριες κατευθύνσεις: 1. Βελτίωση της διεπαφής (interface) με το χρήστη. 2. Περαιτέρω επεξεργασία των αποτελεσμάτων. 3. Κατανόηση των αλγορίθμων ανάκτησης πηγών πληροφορίας. Η πρώτη κατεύθυνση εξετάζει το πρόβλημα της επικοινωνίας του χρήστη με το σύστημα πληροφορίας κατά τη διαδικασία υποβολής της ερώτησης. Το φιλικό περιβάλλον και η ταχύτητα επεξεργασίας - απόκρισης της υπηρεσίας αναζήτησης συνιστούν πολύ σημαντικά χαρακτηριστικά. Οι αρχάριοι χρήστες δυσανασχετούν στην ιδέα της χρήσης παραπάνω από ενός περιβάλλοντος αναζήτησης και συνήθως προσηλώνονται στη χρήση μόνο μιας υπηρεσίας αναζήτησης αγνοώντας το ενδεχόμενο απώλειας ωφέλιμης πληροφορίας. Ακόμα και οι έμπειροι χρήστες δεν εξοικειώνονται εύκολα με κάποιο συγκεκριμένο τρόπο λειτουργίας ορισμένων μηχανών αναζήτησης, αφού σε πολλές περιπτώσεις ακόμα και οι οδηγίες που παρέχουν αυτές οι υπηρεσίες είναι ασαφής και μπερδεμένες. Η δεύτερη κατεύθυνση έχει να κάνει με την περαιτέρω επεξεργασία των αποτελεσμάτων. Όλοι οι χρήστες ενοχλούνται από το χαμηλό ποσοστό σχετικών πληροφοριών στα επιστρεφόμενα αποτελέσματα, φαινόμενο που αναδεικνύει τη σημασία μία υπηρεσία αναζήτησης να παράγει αξιόπιστα και ακριβή αποτελέσματα. Επίσης, πολλές υπηρεσίες αναζήτησης δεν ενημερώνουν τις πληροφορίες που έχουν στις βάσεις τους με αποτέλεσμα να μην ανανεώνονται οι πληροφορίες που παρουσιάζονται στους χρήστες. Γι αυτό το λόγο, η γνώση, οργάνωση και ενημέρωση για την ανανέωση των πληροφοριών, μέσα από την επεξεργασία των αποτελεσμάτων, πρέπει να είναι υψηλής σημασίας για τις υπηρεσίες αναζήτησης. Τέλος, η τρίτη κατεύθυνση αφορά την μελέτη των αλγορίθμων συλλογής, σύνταξης και παρουσίασης πηγών πληροφορίας. Πιο συγκεκριμένα, η κατανόηση αυτών των αλγορίθμων μπορεί να βοηθήσει στο να ξεπεραστεί το πρόβλημα της άνισης πρόσβασης, της μη ενημέρωσης των νέων πληροφοριών, της χαμηλής χρησιμοποίησης μετά-δεδομένων καθώς επίσης και της χαμηλής κάλυψης της συνολικής πληροφορίας. Επομένως, είναι αναγκαία η βελτίωση αυτών των αλγορίθμων, με στόχο την αύξηση των σχετικών αποτελεσμάτων που παρουσιάζονται στο χρήστη. 11