Περιεχόμενα. Κεφάλαιο 1 : Γενικά περι Μηχανών Αναζήτησης. 1. Εισαγωγή 5. Η πρωτοτυπία της διαδικασίας δεικτοδότησης εγγράφων χρηστών 6



Σχετικά έγγραφα
ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

Αναζήτηση Πληροφοριών στο Διαδίκτυο

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

Πώς λειτουργεί το Google?

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του

Βασικές Υπηρεσίες Διαδικτύου. Επικοινωνίες Δεδομένων Μάθημα 2 ο

Σχεδίαση και ανάπτυξη ιστοχώρου του εργαστηρίου Μηχανικής Λογισμικού. Παληόπουλος Αποστόλης-Παπαναγιώτου Παναγιώτης

πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι.

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Σχεδίαση και Ανάπτυξη Ιστότοπων

Ως Διαδίκτυο (Internet) ορίζεται το παγκόσμιο (διεθνές) δίκτυο ηλεκτρονικών υπολογιστών (international network).

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Εργαλεία ανάπτυξης εφαρμογών internet Ι

ίκτυα - Internet Υπηρεσίες Internet O Παγκόσµιος Ιστός (World Wide Web) Ηλεκτρονική Αλληλογραφία ( ) Υπηρεσία FTP (File Transfer Protocol)

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ

Στην πράξη ουσιαστικά αντικαθιστά τον παραδοσιακό κατάλογο μιάς Βιβλιοθήκης με όλα τα παραπάνω πλεονεκτήματα.

Η αρχική οθόνη της Ηλεκτρονικής Βιβλιοθήκης περιλαμβάνει τις εξής βασικές ενότητες όπως φαίνονται στην Εικόνα 1:

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Ενδοσχολική Επιμόρφωση Εκπαιδευτικών Εσπερινού Γυμνασίου στις ΤΠΕ Δράση: Αυτοαξιολόγηση Σχολικής Μονάδας. Ο Παγκόσμιος Ιστός

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

Αναζήτηση στον Ιστό. Πληκτρολόγηση του URL: στο πλαίσιο αναζήτησης του Mozilla Firefox. Enter ή κλικ στο Αναζήτηση

ΤΙΤΛΟΣ ΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ: GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ ΠΕΡΙΟΧΗ ΕΡΕΥΝΑΣ: ΣΥΓΓΡΑΦΕΑΣ:

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Τ.Ε.Ι ΚΑΒΑΛΑΣ Σχολή: Διοίκησης & Οικονομίας Τμήμα: Διαχείριση Πληροφοριών

Δικτυακά Πολυμέσα ΙΙ Διάλεξη #7 η : Μηχανές αναζήτησης: λειτουργία, αξιολόγηση. Γαβαλάς Δαμιανός

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΙΣΤΟΤΟΠΩΝ

Διαδίκτυο είναι ένα σύστημα διασυνδεδεμένων δικτύων και υπολογιστών που απλώνεται σε όλο τον κόσμο και έχουν πρόσβαση σε αυτό εκατομμύρια χρήστες.

Βασίλης Πλαχούρας. Χρυσόστομος Καπέτης Μιχάλης Βαζιργιάννης. Οικονομικό Πανεπιστήμιο Αθηνών 3/11/2003

ΕΡΓΑΣΙΑ. (στο μάθημα: Τεχνολογίες Εφαρμογών Διαδικτύου του Η εξαμήνου σπουδών του Τμήματος Πληροφορικής & Τηλ/νιών)

Διαδίκτυο: δίκτυο διασυνδεμένων δικτύων Ξεκίνησε ως ένα μικρό κλειστό στρατιωτικό δίκτυο, απόρροια του Ψυχρού Πολέμου μεταξύ ΗΠΑ και ΕΣΣΔ.

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

Ενότητες Γ3.1 - Γ3.2 - Γ3.3

Ανάπτυξη πλήρους διαδικτυακής e-commerce εφαρμογής με χρήση του CMS WordPress

Σχεδιάζοντας Εφαρμογές για το Διαδίκτυο

Εισαγωγή στις ΤΠΕ ΙΙ Γιάννης Βρέλλης ΠΤΔΕ-Πανεπιστήμιο Ιωαννίνων. World Wide Web. Παγκόσμιος Ιστός

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

ΕΠΛ 012 Εισαγωγή στο Παγκόσμιο Πλέγμα Πληροφοριών

Η έρευνα και το διαδίκτυο:

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας.

Αναζήτηση σε όλα τα άρθρα των επιστηµονικών περιοδικών στα οποία το Α.Π.Θ. είναι συνδροµητής. Η αναζήτηση µπορεί να γίνει µε βάση λέξεις κλειδιά σε

EBSCOhost Research Databases

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

enotita-b3 11/9/ :42 #ϊ ΑΪ>& 145

Βασίλειος Κοντογιάννης ΠΕ19

Ο αλγόριθμος PageRank της Google

Πλοήγηση και Αναζήτηση

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

Σχεδιάζοντας Εφαρμογές για το Διαδίκτυο

Internet Τοπικό δίκτυο LAN Δίκτυο Ευρείας Περιοχής WAN Διαδίκτυο Πρόγραμμα Πλοήγησης φυλλομετρητής Πάροχοι Υπηρεσιών Internet URL HTML links

METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης

Vodafone Business Connect

Λειτουργικά. Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Σιώζιος Κων/νος - Πληροφορική Ι

Velvet Studio. Creative Agency

Διαδικτυακές Υπηρεσίες Αναζήτησης, Απεικόνισης και Απευθείας Πρόσβασης στα δεδομένα ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ. Έκδοση 0.1.

ΜΕΛΕΤΗ ΣΧΕΔΙΑΣΗ ΕΦΑΡΜΟΓΗΣ ΣΕ ΥΠΟΛΟΓΙΣΤΙΚΟ ΝΕΦΟΣ (CLOUD COMPUTING) ΜΕ ΕΜΦΑΣΗ ΣΤΗΝ ΚΑΤΑΣΚΕΥΗ ΔΕΝΤΡΩΝ.

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

ΕΓΧΕΙΡΙΔΙΟ ΟΡΘΩΝ ΠΡΑΚΤΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΕΣ ΚΑΜΠΑΝΙΕΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ

ΤΕΙ ΚΑΒΑΛΑΣ. Πτυχιακή εργασία ΕΙΣΑΓΩΓΗ. Μιλτιάδης Κακλαμάνης

ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Πληροφορική Ι. Ενότητα 11 : Ο αλγόριθμος PageRank της Google. Δρ.

Social Web: lesson #4

Δυναμικές Ιστοσελίδες στο Πανελλήνιο Σχολικό Δίκτυο

Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας. Υπηρεσίες Internet. ίκτυα Η/Υ. Επίπεδο Εφαρµογής. Ενότητα θ

Social Network : Programming on FACEBOOK

Εγχειρίδιο Συντονιστή Τηλεδιασκέψεων Υπηρεσίας e:presence

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Εισαγωγή στις Αρχές της Επιστήμης των ΗΥ

Wilson Web Art Databases, H.W. Wilson

Πλοήγηση www / Με τον Internet Explorer

Κεφάλαιο 9: Διαδίκτυο, Web 2.0 και Web X.0. Εφαρμογές Πληροφορικής Κεφ. 9 Καραμαούνας Πολύκαρπος 1

1. ΕΙΣΑΓΩΓΗ 2. ΠΕΡΙΓΡΑΦΗ

Μέρος 3 ο : Βασικές Έννοιες για δυναμικές ιστοσελίδες

Πρωτόκολλα Επικοινωνίας και Τείχος Προστασίας

ΕΛΑΧΙΣΤΕΣ ΑΠΑΙΤΗΣΕΙΣ ΕΞΟΠΛΙΣΜΟΥ ΕΠΙΚΟΙΝΩΝΙΑ... 23

SilverPlatter WebSPIRS 4.1.

Εθνική Υποδομή ΓΕωχωρικών Πληροφοριών

ΤΕΧΝΟΛΟΓΙΑ ΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ SYNTACTIC WEB ΑΝΑΓΝΩΣΤΟΠΟΥΛΟΣ ΙΩΑΝΝΗΣ. Internet Software Consortium

Βάσεις δεδομένων και Microsoft Access

Κεφάλαιο 4: Λογισμικό Συστήματος

Πλοήγηση στη διαδικτυακή εφαρµογή

Speed-0 WMP: Web and Mobile Platform Software Requirements Specification

Ενημέρωση για την προστασία προσωπικών δεδομένων Δήλωσης Προστασίας Προσωπικών Δεδομένων και Χρήσεως Cookies

Ανάκτηση Πληροφορίας

ΑΝΑΖΗΤΗΣΗ ΑΡΘΡΩΝ. Ανοιχτή Πρόσβαση στη Γνώση

ΟΔΗΓΟΣ ΧΡΗΣΗΣ ΥΠΗΡΕΣΙΑΣ [ΥΠΗΡΕΣΙΑ 2 ΑNAΠΤΥΞΗ

Περιεχόμενα. Visio / White paper 1

Διαδίκτυο: Ιστορία, Δομή, Υπηρεσίες

Web and HTTP. Βασικά Συστατικά: Web Server Web Browser HTTP Protocol

Powered by Web Serve

Ηλεκτρονικό εμπόριο. HE5 Ηλεκτρονικό κατάστημα Σχεδιασμός και λειτουργίες

Εργαλεία ελέγχου περιεχοµένου δικτυακών τόπων

Transcript:

Περιεχόμενα Κεφάλαιο1:ΓενικάπεριΜηχανώνΑναζήτησης ΜέροςΑ 1. Εισαγωγή 5 Ηπρωτοτυπίατηςδιαδικασίαςδεικτοδότησηςεγγράφωνχρηστών6 2. Ιστορικάστοιχεία 7 3. ΔημοφιλείςΜηχανέςΑναζήτησης 8 4. ΜηχανέςΑναζήτησηςΑνοικτούΚώδικα 12 5. Οφέληαπότηνχρήσημηχανώναναζήτησης 15 6. ΖητήματατωνΜηχανώνΑναζήτησης 16 7. ΒελτιστοποίησηΙστοσελίδωνγιατιςΜηχανέςΑναζήτησης17 (searchengineoptimization) 8. ΤιείναιοιμηχανέςΜετα Αναζήτησης 18 ΜέροςΒ 9. Ηανατομίαμιαςμηχανήςαναζήτησης(SearchEngine) 21 10. ΤρόποςΛειτουργίαςΜηχανώνΑναζήτησης 22 11. Αλγόριθμοικατάταξης(rankingAlgorithms) 24 12.Οιδιεγασίεςτηςεκτέλεσηςμιας 25 ΜηχανήΑναζήτησης 13.WebCrawler 27 ΗυψηλούεπιπέδουαρχιτεκτονικήενόςWebCrawler ΠαραδείγματααπόWebCrawlers Open sourcecrawlers

14. Index 29 ΠαράγοντεςΣχεδιασμούIndex ΔομέςΔεδομένωνIndex Προκλήσειςστονπαραλληλισμό TheInvertedIndex IndexMerging TheForwardIndex Documentparsing(ΑνάλυσηΕγγράφου) ΑναγνώρισηΓλώσσας ΑνάλυσηFormat MetaTagIndexing 15. Searching 39 ΤύποιΕρωτήσεων ΔομημένεςΕρωτήσεις Κεφάλαιο2:ΗΜηχανήΑναζήτησηςAspseek 1. Εισαγωγή 41 ΓιατίεπιλέξαμετηνASPseek 2.Περιγραφή 42 3.index πρόγραμμαindexing 49 4.searchd searchdaemon 51 5.s.cgi aspseeksearchcgifront end 52 6.aspseek.conf indexconfigurationfile 53 7.searchd.conf searchdconfigurationfile 55 8.s.htm templateκαιconfigurationγιατοs.cgi 56 9.aspseek sql ΗδομήτώνπινάκωντηςSQLβάσης57 δεδομένωνπουχρησιμοποιείταιαποτηνaspseek 2

10.ΜερικάβασικάδομικάστοιχείατηςASPseek 64 Κεφάλαιο3:Τοπρόβληματηςδεικτοδότησηςαπό τονχρήστη 1. Εισαγωγή 67 2.Προβλήματακατατοcompile 68 3.Προβλήματαστοτρέξιμοτης 71 μηχανήςαναζήτησηςaspseek 4.Προβλήματακατατηνδιάρκειατων 72 άλλαγωντουπηγαίουκώδικατηςaspseek 5.Προβλήματαστηνδημιουργίατηςφιλικήςδιεπαφης74 6.Πουκαταλήγουμε 74 Κεφάλαιο4:Ηδιαδικασίαεπίλυσηςτου προβλήματοςτηςδεικτοδότησηςαπότονχρήστη 1.Εισαγωγή 75 2.ΕισαγωγήσταGNUAutotools 75 3.Περιγραφήτουσυστήματος 78 πουυλοποιήθηκετοζητούμενο 4.CompileκαιInstallμηχανής 78 - ΕγκατάστασητωνGNUAutotools Εγκατάστασηlibtool 1.5.24 Εγκατάστασηautomake 1.7.6 Εγκατάστασηautoconf 2.58 ΕγκατάστασητηςMySQL Εγκατάστασηgcc 3.4.6compiler 3

ΕγκατάστασητηςμηχανήςαναζήτησηςASPseek ΕγκατάστασηApache2WebServerκαιlibxml2 2.7.1 ΕγκατάστασητηςμηχανήςαναζήτησηςASPseek CompileκαιInstallμηχανήςαναζήτησηςASPseek 5.Στήσιμομηχανήςαναζήτησηςκαι 84 επαλήθευσητηςλειτουργίαςτης ΤελικόΣτήσιμο Παρατηρήσεις ΕπαλήθευσηΛειτουργίαςτηςμηχανήςαναζήτησης 6.Λύσητουπροβλήματοςτης 92 δεικτοδότησηςαπότονχρήστη 7.Δημιουργίαφιλικήςδιεπαφής 96 γιατηνκαλύτερηεξυπηρέτησητουχρήστη ΠαράρτημαΑ 1.Πηγαίοικώδικες 103 2.Εντολήindex 103 3.Εντολήidx 104 4.ΣυνάρτησηindexDocument 106 5.Αρχικοποίησηβάσηςδεδομένων 109 ΠαράρτημαΒ 1.ΚώδικεςΦιλικήςΔιεπαφής 111 2.indexing.htm 111 3.enqueue.php 112 ΒιβλιογραφίακαιΑναφορές 115 4

Κεφάλαιο1:ΓενικάΠεριΜηχανών Αναζήτησης ΜέροςΑ 1.Εισαγωγή Ο Παγκόσμιος Ιστός(World Wide Web ή web) χρονολογείται από το 1989 όταν ο Tim Berners Lee πρότεινε την δημιουργία του. Η αρχική ιδέα του σχεδιασμού του Παγκόσμιου Ιστού ήταν η δημιουργία ενός μέσου ευκολότερης επικοινωνίας μεταξύ επιστημόνων και ιδρυμάτων μέσα από το Διαδίκτυο (Internet). Στην αρχική σελίδα για το World Wide Web Project, η οποία δημοσιεύτηκε στον εξυπηρετητή (server) του CERN το 1992, ο Berners Lee περιγράφειτονπαγκόσμιοιστόωςένασύστημαανάκτησηςπληροφοριώνευρείας χρήσης, το οποίο στοχεύει στο να παρέχει πρόσβαση σε ένα μεγάλκο όγκο εγγράφων.σήμερατοπεριγράφειωςέναπαγκόσμιοχώροόπουστεγάζονταιόλες οι πληροφορίες που μπορούν να ανακτηθούν μέσω δικτύου. Ουσιαστικά, ο Παγκόσμιος Ιστός είναι ένα κατανεμημένο σύστημα όπου τα πάντα εμφανίζονται ως έγγραφα (ιστοσελίδες) Ο Ted Nelson, εφευρέτης του υπερ κειμένου, δίνει την μονολεκτική περιγραφή docuverse (σύμπαν εγγράφων), θέλοντας να δείξει την γιγάντωση του Παγκόσμιου Ιστου (web) (σύμφωνα με [1]). Μια μηχανή αναζήτησης είναι μια εφαρμογή που επιτρέπει την αναζήτηση πληροφοριών στο Παγκόσμιο Ιστό ( web ). Αποτελείται από ένα πρόγραμμα υπολογιστή που βρίσκεται σε έναν ή περισσότερους υπολογιστές στους οποίους δημιουργεί μια βάση δεδομένων με τις πληροφορίες που συλλέγει από το διαδίκτυο, και το διαδραστικό περιβάλλον που εμφανίζεται στον τελικό χρήστη ο οποίος χρησιμοποιεί την εφαρμογή από άλλον υπολογιστη συνδεμένο στο διαδίκτυο. Οι Μηχανές Αναζήτησης αποθηκεύουν πληροφορίες για εκατομύρια σελίδες του Παγκόσμιου Ιστού (web) σε μια τεράστια βάση δεδομένων. Από τα αρχεία που συγκεντρώνονται(μεβάσητοντίτλοτους,τοπλήρεςκείμενο,τομέγεθοςτους,τη διεύθυνση τους κτλ.) δημιουργείται ένα ευρετήριο. Μπορείτε να κάνετε αναζητήσειςσεαυτέςτιςβάσειςδεδομένων,εισάγονταςλέξεις κλειδια(keywords). Η μηχανή αναζήτησης είναι ένα λογισμικό που βρίσκει και ταξινομεί τα 5

αποτελέσματαανάλογαμετηνσχετικότητατουπεριεχομένουτωνιστοσελίδωνσε σχέση με τους όρους της έρευνας. Κάθε Μηχανή Αναζήτησης χρησιμοποιεί ξεχωριστό αλγόριθμο για να παρουσιάζει τα σχετικότερα αποτελέσματα σε σχέση με τα στοιχεία αναζήτησης του χρήστη σε υψηλές θέσεις και σε αυτο το σημείο έγκειταικαιηδιαφοράμεταξύτων. Ηπρωτοτυπίατηςδιαδικασίαςδεικτοδότησηςεγγράφωνχρηστών Όπως προαναφέρθηκε οι πληροφορίες που τροφοδοτουν την βάση δεδομένωντωνμηχανώναναζήτησηςπροέρχονταιαπότονπαγκόσμιοιστό.ένα τρέχωνζητούμενοστοπεδίοέρευναςτωνμηχανώναναζήτησηςείναιηανάπτυξη λογισμικού με σκοπό να δίνει την δυνατότητα στον χρήστη να δεικτοδοτεί προσωπικά έγγραφα έτσι ώστε παράλληλα να μπορεί να κάνει αναζητήσεις για εύρεση πληροφοριών και σε έγγραφα που προέρχονται από τον Παγκόσμιο Ιστό αλλάκαισεπροσωπικάτουέγγραφαόλαδεικτοδοτημένασεμίαβάση.αυτόείναι καιτοκύριοπρόβλημαπουεπιλύουμεστηνπαρούσαεργασία. Με την δυνατότητα αυτήν ουσιαστικά ενοποιείται η διαδικασία της αναζήτησηςπληροφοριώνστιςδυοδιαφορετικέςπηγέςπληροφοριών,ταέγγραφα τουπαγκόσμιουιστούκαιταπροσωπικάέγγραφατουχρήστη. Ηενοποίησηστηνδιαδικασίααναζήτησηςτωνεγγράφωντου ΠαγκόσμιουΙστούκαιτωνπροσωπικώνεγγράφωντουχρήστη 6

Η ανάπτυξη ενός τέτοιου λογισμικού αποτελεί ένα πρωτοποριακό χαρακτηριστικό για την λειτουργία των Μηχανών Αναζήτησης, εφόσον μέχρις στιγμής δεν προσφέρεται ένα τέτοιο γνώρισμα στους χρήστες. Το ξεχωριστό στοιχείοείναιότιοχρήστηςμέσωτηςμηχανήςαναζήτησηςθαμπορείνααναζητεί τις πληροφορίες που επιθυμεί και στα αποτελέσματα που θα λαμβάνει, θα εμφανίζονται παράλληλα εκτός των εγγράφων του Παγκόσμιου Ιστού που ικανοποιούντουςόρουςαναζήτησηςκαιταπιοσχετικάέγγραφαωςπροςτιςλέξεις κλειδιά που χρησιμοποίησε που θα προέρχονται από τον προσωπικό του αποθηκευτικόχώρο. Ένα λογισμικό αναζήτησης υπολογιστών γραφείου το οποίο παρουσιάζει αρκετές κοινές προσεγγίσεις με το τελευταίο ζήτημα που αναφέρθηκε, ανεπτυγμένο από την Google, είναι το Google Desktop. Το πρόγραμμα μπορεί να δεικτοδοτήσειαρκετούςδιαφορετικούςτύπουςαρχείωνκαιεπιτρέπειαναζητήσεις κειμένωνστοηλεκτρονικόταχυδρομείοτουχρήστη,στααρχείατουυπολογιστή,σε αρχείαμουσικής,σεφωτογραφίες,σειστοσελίδαςπουέχουνπροσπελαστεί. 2.ΙστορικάΣτοιχεία Όταν πρώτο ξεκίνησε το Διαδίκτυο (Internet) δεν είχε καμία σχέση με το διαδίκτυο που γνωρίζουμε τώρα. Δεν υπήρχε αυτή η πληθώρα των ιστοσελίδων ούτεθεωρείτομιααπότιςμεγαλύτερεςεπιχειρηματικέςδραστηριότητες.στηναρχή ήταν απλά ένας αριθμός από Ftp (File transfer protocol) sites που χρήστες μπορούσαννακατεβάσουνήναανεβάσουναρχεία.ακόμακαιηεύρεσηαυτώντων αρχείων ήταν δύσκολη αφού έπρεπε να γνωρίζεις την ακριβή διεύθυνση που βρίσκονταν. Αυτήηδιαδικασίαεύρεσηςτωναρχείωνήτανπολύδύσκολη,χρονοβόρακαι έπρεπε να έχεις αρκετή υπομονή. Αυτό γινόταν πριν ο φοιτητής, Alan Emtage [1990], δημιουργήσει το πρώτο εργαλείο αναζήτησης (Search Engine Tool). Αυτό που έφτιαξε ήταν ένας κατάλογος από τα αρχεία που υπήρχαν στο internet και ονομάστηκεarchie(archive). Το 1991 ένας άλλος φοιτητής ο Mark McCahill συνειδητοποίησε ότι αφού μπορείςναψάχνειςτααρχείαστοδιαδίκτυο(internet),τότεμπορείςναψάχνειςκαι 7

τακείμενα.έτσιδημιούργησετοgopher,έναπρόγραμμαπουκατηγοριοποιούσετο απλόκείμενοτωναρχείων,πουαργότεραέγινανοιπρώτεςιστοσελίδες. Με την δημιουργία του Gopher, προέκυψε η ανάγκη για προγράμματα που μπορούσαν να εντοπίσουν πληροφορίες μέσα από τους καταλόγους του Gopher. ΈτσιδημιουργήθηκετοπρόγραμμαVeronica(VeryEasyRodent OrientedNet wide Index to Computerized Archives) και το jughead (Jonzy s Universal Gopher HierarchyExcavationandDisplay)γιανααναζητούναρχείακαικείμεναπουείχαν αποθηκευτείστοgopherσύστημα. Και τα δυο αυτά προγράμματα λειτουργούσαν με τον ίδιο τρόπο, επιτρέποντας στους χρήστες να ψάξουν τους καταλόγους με τις πληροφορίες δίνοντας μια λέξη ή φράση (Keywords). Η πρώτη πιο κοντινή προσπάθεια ανάπτυξης λογισμικού παρόμοιο με τις σημερινές μηχανές αναζήτησης (Search Engines) πραγματοποιήθηκε το 1993 από τον Mathew Gray και ονομάστηκε Wandex. Ήταν ένας web crawler («αράχνη») που δημιουργούσε και καταλόγους αλλά και έψαχνε τις ιστοσελίδες στο internet. Από το 1993 μέχρι το 1998 δημιουργήθηκαν όλες οι μεγάλες μηχανές αναζήτησης (Search Engines) που γνωρίζουμεμέχρισήμερα(σύμφωναμε[2]). 3.ΔημοφιλείςΜηχανέςΑναζήτησης Υπάρχουν πολλές μηχανές αναζήτησης εμπορικών εταιρειών που απευθύνονταισεχρήστες ιδιώτεςμετιςμηχανέςαναζήτησηςτηςεταιρείαςgoogle (Google)καιτηςYahoo(Yahoo!Search)πρώτεςσεχρήση. * Η Google (http://www.google.com/) είναι μια από τις μεγαλύτερες εταιρείεςδιαδικτυακώνυπηρεσιών.ηλειτουργίατηςξεκίνησετονσεπτέμβριοτου 1998.Οστόχοςτηςείναιναοργανώσειόλεςτιςπληροφορίεςτουκόσμουκαινατις κάνει παγκόσμια διαθέσιμες. Το Google ξεκίνησε σαν μια κολεγιακή εργασία από τον Λάρρυ Πέιτζ και τον Σεργκέι Μπριν το 1996 για μια μηχανή αναζήτησης. Χρησιμοποιείέναναλγόριθμοανάλυσηςσυνδέσμων(PageRank)οοποίοςορίζειμια αριθμητική στάθμιση σε κάθε στοιχείο ενός συνόλου εγγράφων, όπως είναι το World Wide Web, με σκοπό να μετρήσει την ανάλογη σημασία του μέσα στο σύνολο.μεάλλαλόγια,τααποτελέσματατουpagerankπροκύπτουναπότοπόσο 8

σημαντικήείναιμιασελίδαστοworldwideweb.έναςσύνδεσμοςυπερκειμένουσε μιασελίδαπροσμετράταισανψήφοςεμπιστοσύνης.τοpagerankμιαςιστοσελίδας καθορίζεται κατ επανάληψη και εξαρτάται από τον αριθμό και την τιμή του Page Rank όλων των σελίδων που δείχνουν σε αυτήν. Μια σελίδα που συνδέεται με πολλέςσελίδεςμευψηλόpagerankλαμβάνειηίδιαέναυψηλόpagerank.εάνδεν υπάρχουν σύνδεσμοι προς μια ιστοσελίδα δεν υπάρχει τιμή PageRank για αυτήν τηνσελίδα(σύμφωναμε[3]και[4]). * Η Yahoo! (http://www.yahoo.com/) είναι εταιρία διαδικτυακών υπηρεσιών.είναιέναςαπότουςπιογνωστούςκαιπαλιούςθεματικούςκαταλόγους τουδιαδικτύου.ανκαιξεκίνησεωςθεματικόςκατάλογος,αργότεραεξελίχτηκεκαι σεμιαπανίσχυρημηχανήαναζήτησης.προσφέρειστουςχρήστεςτουένανμεγάλο αριθμό υπηρεσιών, που περιλαμβάνουν ηλεκτρονικό ταχυδρομείο, μηχανή αναζήτησης, ομάδες χρηστών, νέα, παιχνίδια, διαφημίσεις και επίσης ένα πρόγραμμαγιαάμεσαηλεκτρονικάμηνύματα,τοyahoo!messenger. ΙδρύθηκετονΙανούαριοτου1994απότουςτότετελειόφοιτουςτουπανεπιστημίου Stanford, David Filo και Jerry Yang όταν θέλανε να ομαδοποιήσουν και να καταγράψουν διαδικτυακές τοποθεσίες μείζονος ενδιαφέροντος και να τις ταξινομήσουν σε θεματικές ενότητες, αρχικά ο θεματικός κατάλογος ήταν δημοσιευμένος στον δικτυακό τόπο του Stanford (akebono.stanford.edu/yahoo) (σύμφωναμε[5]). * Η Bing (http://www.bing.com/) (στο παρελθόν Live Search, Windows Live Search, MSN Search) είναι η τρέχουσα πολυγλωσσική μηχανή αναζήτησης Ιστού(που διαφημίζεται ως" decision engine") από τη Microsoft. Παρουσιασμένη απότονsteveballmerστις28μαΐου2009στοallthingsdigitalσυνέδριοστοσαν Ντιέγκο. Οι σημαντικές αλλαγές περιλαμβάνουν τη λίστα των προτάσεων αναζήτησης σε πραγματικό χρόνο καθώς οι ερωτήσεις εισάγονται και μία λίστα σχετικώναναζητήσεων(αποκαλούμενη"explorerpane"στηαριστερήπλευράτων αποτελεσμάτωναναζήτησης)βασισμένωνστησημασιολογικήτεχνολογίααπότην Powerset, που η Microsoft αγόρασε το 2008. Η Bing περιλαμβάνει επίσης τη δυνατότηταsave&shareιστορικώναναζήτησηςμέσωτωνwindowsliveskydrive, Facebookκαιηλεκτρονικόυταχυδρομείου(email).Στις29Ιουλίου2009,Microsoft 9

και Yahoo! ανήγγειλαν μια συμφωνία στην οποία η Bing θα τροφοδοτούσε την Yahoo!Search(σύμφωναμε[6]). * H Excite (http://www.excite.com/) είναι μια πύλη Διαδικτύου (Internet portal) και μηχανή αναζήτησης Παγκόσμιου Ιστου(Web Search Engine). Ξεκίνησε το 1994 ως Architext. Ήταν μία από τις σημαντικότερες "dotcom" "πύλες" (portals)τηςδεκαετίαςτου'90(μαζίμετοyahoo!,lycosκαιnetscape)καιένααπό τα πιο αναγνωρισμένα εμπορικά σήματα (brands) στο διαδίκτυο. Σήμερα προσφέρει ποικίλες υπηρεσίες, συμπεριλαμβανομένης της αναζήτησης, web ηλεκτρονικό ταχυδρομείο (web mail), instant messaging, τα αποσπάσματα αποθεμάτων,καιμιαδιαμορφώσιμηαπότονχρήστηαρχικήσελίδα(customizable userhomepage)(σύμφωναμε[7]). * H Ask.com(ή Ask Jeeves στο Ηνωμένο Βασίλειο)(http://ask.com) είμαι μιαμηχανήαναζήτησηςπουαρχίσετο1996απότονgarrettgruenerκαιτοdavid Warthen στο Μπέρκλεϋ της Καλιφόρνια. Το αρχικό λογισμικό της μηχανής αναζήτησης αναπτύχθηκε από τον Gary Chevskysky. Η Ask.com ανήκει στην IAC/InterActiveCorp(σύμφωναμε[8]). * Η Wolfram Alpha (επίσης γράφεται ως WolframAlpha και WolframlAlpha) (www.wolframalpha.com) είναι μια μηχανή απάντησης (answer engine) που αναπτύσσεται από την Wolfram Research. Είναι μία υπηρεσία Διαδικτύου (online) που απαντά στις πραγματικές ερωτήσεις άμεσα με τον υπολογισμότηςαπάντησηςαπόταδομημέναδεδομένα,καιόχιμετηνπαροχήμιας λίστας εγγράφων ή ιστοσελίδων που να περιέχει την απάντηση, όπως μια μηχανή αναζήτησης. Ανακοινώθηκε τον Μαρτίο του 2009 από τον Stephen Wolfram, και κυκλοφόρησεστοκοινόστις15μαΐου2009(σύμφωναμε[9]). * Η Kosmix (http://www.kosmix.com/) είναι μια μηχανή αναζήτησηςκατηγοριοποιήσηςπουοργανώνειτοδιαδίκτυοσεθεματικέςσελίδεςκαιεπιτρέπει στουςχρήστεςναερευνήσουντονπαγκόσμιοιστόαπότοθέμα,παρουσίαζοντας έναταμπλότωνσχετικώνβίντεο,φωτογραφιών,ειδήσεων,σχολίων,αποψεωνκαι τωνσυνδέσμωνσεσχετικάθέματα.οvenkyharinarayanκαιοanandrajaraman ίδυσαντηνkosmixτο2005σύμφωναμε[10]). 10

Σήμερα, οι μηχανές αναζήτησης (Search Engines) είναι πολύπλοκα προγράμματα που μας επιτρέπουν να αναζητήσουμε οποιαδήποτε πληροφορία από αρχεία, έγγραφα, είκονες, video μέχρι λέξεις ή φράσεις που χρησιμοποιούμε στην καθημερινότηταμας. Παράλληλα με τις ξένες Μηχανές Αναζήτησης, παρουσιάστηκε η ανάγκη ανάπτυξης ελληνικών Μηχανών Αναζήτησης, οι οποίες να μπορούν να αναγνωρίζουν ελληνικές ιστοσελίδες, ξένες ή και σελίδες με ελληνικούς και ξένους χαρακτήρεςταυτόχρονα. ΣήμεραόλεςσχεδόνοιΜηχανέςΑναζήτησηςέχουντηδυνατότητανααναγνωρίζουν και να παρέχουν στους χρήστες τις ιστοσελίδες που περιέχουν χαρακτήρες των περισσότερων γλωσσών του κόσμου. Από τις σημαντικότερες ελληνικές Μηχανές Αναζήτησηςείναιοιακόλουθες: *Robby(http://www.robby.gr):ΕίναιαπότιςπαλαιότερεςελληνικέςΜηχανές Αναζήτησης και χρησιμοποιεί το AltaVista για τις αναζητήσεις του. Παράλληλα, παρέχει στους χρήστες ένα πλήθος άλλων υπηρεσιών, όπως πληροφορίες για τον καιρό,τοχρηματιστήριο,τοσυνάλλαγμα,κ.α. * Anazitisis (http://anazitisis.gr) : Είναι η Μηχανή Αναζήτησης της OTEnet και παρέχει στους χρήστες τη δυνατότητα σύνθετης αναζήτησης και αναλυτικές οδηγίεςχρησιμοποίησης.είναιημοναδικήμηχανήαναζήτησηςπουαναγνωρίζειτις ιδιομορφίεςτηςελληνικήςγλώσσας,καθώςδιαθέτειδικότηςθησαυρόλέξεων.για παράδειγμα, αν ο χρήστης εισάγει τον όρο«δενδρύλλιο», είναι δυνατό να επιλέξει αναζήτησημεβάσητοθέματηςλέξηςαυτής. * Trinity (http://www.trinity.gr) : Είναι η Μηχανή Αναζήτησης της ελληνικής πύληςpathfinder.προσφέρειστουςχρήστεςτηδυνατότητασύνθετηςαναζήτησης και δεν διαθέτει δικό της θεματικό κατάλογο, αλλά παραπέμπει στο θεματικό κατάλογοτηςpathfinder. *FORTHnet(http://search.forthnet.gr):ΒασίζεταιστηντεχνολογίατηςAltaVista και προσφέρει στο χρήστη ταχύτατες και ακριβείς αναζητήσεις. Ο χρήστης της Μηχανής Αναζήτησης FORTHnet μπορεί ακόμα να επιλέξει την αναζήτηση ειδησεογραφικών sites (news) ή ακόμα και μέσα στις κατηγορίες του FORTHnet 11

directory. Ακόμη, η FORTHnet προσφέρει χρήσιμες συμβουλές για εύκολη και γρήγορηχρησιμοποίησητηςμηχανήςαναζήτησης(σύμφωναμε[11]). 4.ΜηχανέςΑναζήτησηςΑνοικτούΚώδικα Εκτός από τις μηχανές αναζήτησης που έχουν δημιουργηθεί από εταιρειές (όπως η google και η bing ) υπάρχουν και άλλες ανοιχτού κώδικα, οι οποίες απευθύνονταικυρίωςσεπρογραμματιστέςήυπεύθυνουςγιαανάπτυξηλογισμικού μεσκοπότηνπεραιτέρωέρευναπάνωστοπεδίοτωνμηχανώναναζήτησηςκάθως επίσης και την ανάπτυξη καινούργιων χαρακτηριστικών για το λογισμικό των ΜηχανώνΑναζήτησης. Μιαλίσταμεγνωστέςμηχανέςαναζήτησηςανοιχτούκώδικα: * Egothor (http://www.egothor.org/) : Είναι μια ανοιχτού κώδικα εφαρμογή μηχανήςαναζήτησηςγράμμένηεξολοκλήρουστηνjava.τοegothorείναισεθέση να αναγνωρίσει πολλές κοινές μορφές αρχείων: HTML, PDF, PS, DOC και XLS. Η αρχιτεκτονικήτουτουεπιτρέπειάλλεςμορφέςαρχείωνναμπορούνναπροστεθούν εύκολα.ημηχανήμπορείναδεικτοδοτήσειπερίπου50σελίδεςτοδευτερόλεπτοκαι συνοδεύεται από έναν crawler υψηλής ικανότητας που είναι συμβατός με τα πρότυπα του robots.txt. Το Egothor υποστηρίζει και την Boolean και την διανυσματική(vector)αναζήτηση.ηανοικτήαρχιτεκτονικήτηςμπορείεύκολανα επεκταθείκαιναυποστηρίξεισχεδόνοποιαδήποτεγλώσσα.ημηχανήαναζήτησης αυτήν την περίοδο συνήθως χρησιμοποιείται ως επίδειξη (demo) ή σε μικρής κλίμακαςπρογράμματα.(σύμφωναμε[12]). * Ht://dig (http://www.htdig.org/) : Είναι ένα ελεύθερο λογισμικό που δεικτοδοτεί και πραγματοποιεί αναζητήσεις, δημιουργήθηκε το 1995 από τον AndrewScherpbierενώδούλευεστοκρατικόπανεπιστήμιοτουΣανΝτιέγκο.Είναι γραμμένη σε C++, απαιτεί Unix/Linux λειτουργικό σύστημα. Μπορεί να δεικτοδοτήσει έναν απλό ιστοχώρο (website), σε αντιδιαστολή με τις μηχανές αναζήτησης που δεικτοδοτούν το Διαδίκτυο όπως η Google και η Yahoo!. Περιλαμβάνει τρεις ομάδες αρχείων: ένα σύνολο εργαλείων για δεικτοδότηση, ένα σύνολο εργαλείων για αναζήτηση, και ένα σύνολο αρχείων HTML για την δημιουργία της φιλικής διεπαφής και την επικοινωνία με τον χρήστη για να έχει πρόσβασηστημηχανήαναζήτησης.ητελευταίαεπίσημηέκδοσηείναιηdig3.2.0b6 12

και ανακοινώθηκε στις 16 Ιουνίου 2004. Χρησιμοποιήθηκε από το ιστοχώρο του GNUprojectγιαπολύκαιρόαλλάαντικαταστάθηκετο2008μετηνHyperEstraier (σύμφωναμε[13]). * Lucene (http://lucene.apache.org/) : Eίναι μια ελεύθερη/ανοικτού κώδικα βιβλιοθήκηανάκτησηςπληροφοριών,πουδημιουργήθηκεαρχικάσεjavaαπότον Doug Cutting. Υποστηρίζεται από το ίδρυμα λογισμικού Apache(Apache Software Foundation)καικυκλοφορείμεάδειαλογισμικούApache2.0.Ητελευταίασταθερή έκδοση είναι η 2.4.1 (κυκλοφόρησε 09 03 20009). Είναι κατάλληλο για οποιαδήποτε εφαρμογή που απαιτεί την ολοκληρωμένου κειμένου ικανότητα δεικτοδότησηςκαιέρευνας,στονπυρήνατηςαρχιτεκτονικήςτουείναιηιδέαότι ένα έγγραφο περιέχει πεδία. Αυτή η ευελιξία επιτρέπει στο Lucene να μην το ενδιαφέρει(ναείναιανεξάρτητο)ημορφήτουαρχείου.τοκείμενοαπόέγγραφα PDF, HTML, Microsoft Word, και OpenDocument, καθώς επίσης και πολλά άλλα μπορεί να δεικτοδοτηθεί εφ' όσον μπορούν να εξαχθούν οι πληροφορίες του κεμένου τους. Το Lucene είναι βιβλιοθήκη δεικτοδότησης και αναζήτησης και δεν περιέχει τη λειτουργία crawling και ανάλυσης HTML εγγράφων. Το Apache πρόγραμμα Nutch είναι βασισμένο στο Lucene και παρέχει αυτήν την λειτουργία (σύμφωναμε[14]). * Nutch (http://lucene.apache.org/nutch/) : Το Nutch είναι μια προσπάθεια να χτιστεί μια ανοικτού κώδικα μηχανή αναζήτησης βασισμένη στο Lucene για τις λειτουργίες δεικτοδότησης και αναζήτησης. Ο κώδικας της είναι γραμμένος εξ ολοκλήρου στη γλώσσα προγραμματισμού Java, αλλά τα δεδομένα είναι γραμμένασεανεξαρτήτου γλώσσαςσχήματα.(σύμφωναμε[15]). * Terrier Search Engine (http://ir.dcs.gla.ac.uk/terrier/): Eίναι μια πλατφόρμα για τη γρήγορη ανάπτυξη των μεγάλης κλίμακας εφαρμογών ανάκτησης πληροφοριών, που παρέχει λειτουργίες δεικτοδότησης και ανάκτησης. Αναπτύχθηκε από τα μέλη της ερευνητικής ομάδας ανάκτησης πληροφοριών, του τμήματοςτηςεπιστήμηςτωνυπολογιστών,στοπανεπιστήμιοτηςγλασκώβης.μια έκδοση πυρήνων του Terrier είναι διαθέσιμη ως λογισμικό ανοιχτού κώδικα υπό τηνδημόσιαάδειαmozilla(mpl),μετοστόχοναδιευκολυνθείοπειραματισμόςκαι 13

η έρευνα στην ευρύτερη κοινότητα της ανάκτησης πληροφοριών (σύμφωνα με [16]). * Xapian (http://xapian.org/) : Eίναι μια ανοικτού κώδικα πιθανολογική βιβλιοθήκη ανάκτησης πληροφοριών, που κυκλοφορεί με γενική δημόσα άδεια (GPL) GNU. Είναι μια ολοκληρωμένου κειμένου βιβλιοθήκη μηχανών αναζήτησης για προγραμματιστές. Γράμμένη σε C++, με τελευταία σταθερή έκδοση την 1.0.14 (κυκλοφόρησε 21 07 2009). Τρέχει σε Linux, MAC OS Χ, FreeBSD, NetBSD, OpenBSD, Solaris, HP UX, Tru64, IRIX, Microsoft Windows, GNU Hurd και OS/2. Εχεισχεδιαστείγιαναείναιιδιαίτεραπροσαρμόσιμημεσκοπόναεπιτρέπειστους προγραμματιστέςναπροσθέτουνεύκολαπροηγμένεςτεχνικέςδεικτοδότησηςκαι αναζήτησης στις αιτήσεις τους. Ένας αυξανόμενος αριθμός οργανώσεων και προγραμμάτων χρησιμοποιούν την Xapian συμπεριλαμβανομένων των Debian, Gmane,DieZeit,Delicious,MoinMoin,καιOneLaptopperchild(σύμφωναμε[17]). *YaCy(http://yacy.net/):Eίναιμιαελεύθερηδιανεμημένημηχανήαναζήτησης, πουστηρίζεταιστιςαρχέςτωνομότιμων{peer to peer(p2p)}δικτύων.οπυρήνας τουείναιέναπρόγραμμαυπολογιστήγράμμένοστηνjavaδιανεμημένoσεαρκετές εκατοντάδες υπολογιστές, που αποκαλούνται yacy peers. Κάθε yacy peer επισκέπτεται έγγραφα στον Παγκόσμιο Ιστό ανεξάρτητα με τους άλλους yacypeers, τα αναλύει, τα δεικτοδοτεί και τα αποτελέσματα της δεικτοδότησης τα αποθηκεύεισεμιακοινήβάσηδεδομένων(αποκαλείταιindex),ηοποίαμοιράζεται με άλλους yacy peers χρησιμοποιώντας τις αρχές των P2P δικτύων. Είναι ανεξάρτητη πλατφόρμας και μπορεί να χρησιμοποιηθεί οποιοδήποτε λειτουργικό σύστημα. Η τελευταία σταθερή έκδοση είναι η 0.9 (ανακοινώθηκε 23 Ιουνίου, 2009). Είναι γραμμένη σε Java και αναπτύχθηκε απο τον Michael Christen. Το πρόγραμμακυκλοφορείμεάδειαgpl(σύμφωναμε[18]). * Zettair (http://www.seg.rmit.edu.au/zettair/) H Zettair είναι μια συμπαγής μηχανή αναζήτησης κειμένων για την δεικτοδότηση και την αναζήτηση HTML (ή TREC) συλλογών (στο παρελθόν ονομαζόταν Lucy). Είναι ένα λογισμικό ανοιχτού κώδικαπουαναπτύσσεταιαπόμιαομάδαερευνητώνστοπανεπιστήμιοrmit.το κύριο χαρακτηριστικό γνώρισμά της είναι η δυνατότητα της να χειριστεί μεγάλες συλλογές εγγράφων (100 GB και άνω). Έχει ένα μόνο εκτελέσιμο, που εκτελεί 14

ταυτόχρονα και την διαδικασία της δεικτοδότησης και της αναζήτησης, με μια διεπαφή μέσω της γραμμής εντολών. Είναι άδειοδοτημένο υπό τους όρους της άδειαςbsd(σύμφωναμε[19]). Άλλη μία γνωστή και ισχυρή μηχανή αναζήτησης ανοιχτού κώδικα είναι η Aspseek.org, η οποία και θα παρουσιαστεί λεπτομερώς στο επόμενο κεφάλαιο εφόσονείναικαιημηχανήαναζήτησηςστηνοποίαθαπραγματοποιηθείηεπέκταση έτσιώστεναυλοποιηθείηδυνατότηταδεικτοδότησηςαπότονχρήστη. 5.Οφέληαπότηνχρήσημηχανώναναζήτησης ΗχρήσητωνΜηχανώνΑναζήτησηςεπιφέρειπολλαπλάοφέλητόσογιατον απλόχρήστητουίντερνετόσοκαιγιατηνεπιχείρησηπουδιαθέτειδικτυακότόπο. Πιοσυγκεκριμένα,γιατονμενχρήστηηύπαρξητωνΜηχανώνΑναζήτησηςκαθιστά την αναζήτηση πληροφορίας στο Διαδίκτυο μια εξαιρετικά εύκολη διαδικασία, ανεξάρτητα από το αν το θέμα που τον ενδιαφέρει είναι εξειδικευμένο ή όχι. Ο χρήστης δεν χρειάζεται να περιπλανιέται πηγαίνοντας από σελίδα σε σελίδα και από σύνδεσμο σε σύνδεσμο προκειμένου να ανακτήσει την πληροφορία που επιθυμεί. ΤομόνοπουχρειάζεταιείναιναεπισκεφτείτηναρχικήσελίδατηςΜηχανής Αναζήτησης,ναπληκτρολογήσειτουςόρουςπουπεριγράφουνμεόσομεγαλύτερη σαφήνειακαιπεριεκτικότηταγίνεταιτοθέμαπουτονενδιαφέρεικαιναπεριμένει λίγα δευτερόλεπτα έως ότου η Μηχανή Αναζήτησης πραγματοποιήσει για λογαριασμό του την περιήγηση σε όλο το Web και του επιστρέψει με τη μορφή λίσταςαποτελεσμάτωνόλεςτιςσχετικέςμετοσυγκεκριμένοθέμασελίδεςπουέχει εντοπίσει. Επομένως, ο χρήστης εξυπηρετείται γρηγορότερα, ευκολότερα και πληρέστεραμετηχρήσηενόςτέτοιουπανίσχυρουεργαλείου. Απότηνάλλη,γιαμιαεπιχείρησηπουδιαθέτειδικτυακότόποταοφέληαπό την ύπαρξη των Μηχανών Αναζήτησης είναι εξίσου σημαντικά. Αν αναλογιστούμε ότι ο αριθμός των χρηστών που χρησιμοποιούν τις Μηχανές Αναζήτησης στην καθημερινήτουςζωήγιαοποιοδήποτεθέματουςενδιαφέρειείναιτεράστιος,τότε καταλαβαίνουμε ότι η παρουσία του δικτυακού τόπου της επιχείρησης στη λίστα αποτελεσμάτων της Μηχανής σημαίνει αυτόματα αύξηση του αριθμού των 15

χρηστών πελατών που θα επισκεφτούν την ιστοσελίδα της ή ακόμη που θα ενημερωθούνγιατηνύπαρξηαυτής.επομένως,ηεπιχείρησηεπιτυγχάνειμέσωτων Μηχανών Αναζήτησης να προσελκύσει ευκολότερα και γρηγορότερα περισσότερους πελάτες ενδιαφερόμενους για τα προϊόντα/υπηρεσίες της και μάλισταχωρίςκανένακατάκανόναεπιπρόσθετοκόστοςγιατηνίδια. Συνεπώς,οιΜηχανέςΑναζήτησηςαποτελούνέναπανίσχυροεργαλείοτόσο για τους χρήστες όσο και για τις επιχειρήσεις μέσα στον απέραντο κόσμο του Διαδικύου(Internet)(σύμφωναμε[20]). 6.ΖητήματατωνΜηχανώνΑναζήτησης Καθώς οι μηχανές αναζήτησης βελτιώνονται μέσω των τεχνολογικών εξελιξέων, παρουσιάζεται και η ανάγκη για επίλυση ενός πλήθους τρεχόντων ζητημάτων,ταοποίαμέχριαυτήντηνστιγμήδενέχουναντιμετωπιστεί. Ένακύριοζήτημαείναιότιδενθυμούνταιτηνπροηγούμενηαναζήτησηπου έχει σαν συνέπεια την μείωση της αποδοτικότητας της μηχανής και την μηεξοικονόμηση χρόνου προς όφελος του χρήστη.επιπλέον, δεν προσωποιούν τις απαντήσεις,μετηνέννοιαότιδενγνώρίζουντακύριαχαρακτηριστικάγνωρίσματα του χρήστη που υποβάλει την ερώτηση αναζήτησης ούτε τα προσωπικά του ενδιαφέροντα,ωςσυνέπειααυτουπαρουσιάζονταιοιίδιεςσελίδεςαποτελεσμάτων σεδιαφορετικέςκατηγορίεςχρηστών(π.χ.επιστρέφουνταίδιαurlsσεκαθηγητές Πανεπιστημίουκαιμαθητέςδημοτικού). Επίσης, δεν φιλτράρουν την άχρηστη (παραπλανητική ή μη αξιόπιστη) πληροφορίαμεαποτέλεσμαοισελίδεςαποτελεσμάτωναναζήτησηςναγεμίζουνμε ένα πλήθος συνδέσμων(links) τα οποία είναι άχρηστα για τον χρήστη. Ένα άλλο ζήτημα είναι η ενοποίηση των διαφορετικών μηχανών αναζήτησης, εφόσον η καθεμία έχει διαφορετική αρχιτεκτονική και χρησιμοποιεί διαφορετικούς αλγόριθμους κατάταξης. Συν τοις άλλοις, η σύνδεση στις μηχανές αναζήτησης πραγματοποιείταιαποκλειστικάμέσωτουhttpπρωτοκόλου(σύμφωναμε[21]). Τέλος, ένα ακόμα ζήτημα, το οποίο και επιλύεται στην παρούσα εργασία, είναιότιδενεπιτρέπουνστονχρήστηναδεικτοδοτείοτιέγγραφοοίδιοςεπιθυμεί, 16

δενέχειπρόσβασηστηνβάσηδεδομένωντηςμηχανήςκαιτοαποκλειστικόγέμισμα τηςβάσηςτηςπραγματοποιείταιαπότονwebcrawlerτης.μέσωτηςδυνατότητας δεικτοδότησης οποιοδήποτε εγγράφων, ο χρήστης χρησιμοποιώντας την μηχανή αναζήτησης θα μπορεί να αναζητεί πληροφορίες που τον ενδιαφέρουν και στις σελίδες των αποτελεσμάτων της μηχανής θα εμφανίζονται ταυτόχρονα τα πιο σχετικάέγγραφατουπαγκόσμιουιστούαλλάκαιταπλέονσχετικάέγγραφααπό τον προσωπικό του αποθηκευτικό χώρο που ικανοποιούν τους όρους αναζήτησης του. 7. Βελτιστοποίηση Ιστοσελίδων για τις Μηχανές Αναζήτησης (searchengineoptimization) Ο όρος Βελτιστοποίηση Ιστοσελίδων για τις Μηχανές Αναζήτησης (search engine optimization) περιγράφει όλες εκείνες τις διαδικασίες επεμβάσεις που πρέπειναγίνουνστηδομήκαιτοπεριεχόμενομιαςιστοσελίδαςώστεναείναιόσο τοδυνατόπιοφιλικήπροςτιςμηχανέςαναζήτησης.τελικόςστόχοςείναιηυψηλή κατάταξητουιστοχώρουκαιηαύξησητηςεπισκεψιμότηταςτηςιστοσελίδαςμέσω οργανικών αποτελεσμάτων, δηλαδή αποτελεσμάτων χρηστών του Internet που ψάχνουν στις μηχανές αναζήτησης με τις λέξεις κλειδιά(keywords) που αφορούν τοπεριεχόμενοτηςιστοσελίδας. Ένααποτασημαντικότεραστοιχείαπουπρέπεινασυμπεριλαμβάνεταιστην ιστοσελίδαωστεναβοηθάστηνκαλύτερηκατάταξητηςστιςμηχανέςαναζήτησης είναι η συνάφεια (relevancy) μεταξύ του τίτλου, της περιγραφής, των λέξεων κλειδιώνκαιτουπεριεχομένουτηςκάθεσελίδας. Βασικόρόλοπαίζειοτίτλοςκάθεσελίδας.Θαπρέπειναπεριλαμβάνειόσοτο δυνατό περισσότερες από τις λέξεις κλειδιά που έχουν καθοριστεί, αλλά ο τίτλος καλόείναιναπαραμένειμικρότεροςαπόδώδεκαλέξεις. Η χρήση των λέξεων κλειδιών είναι ζωτικής σημασίας για την επισήμανση ενός ιστοτόπου από τις μηχανές αναζήτησης. Αν στον ιστοτόπο περιλαμβάνονται περισσότερες από μια σελίδες, οι λέξεις κλειδιά πρέπει να εμφανίζονται σε όλες. Βασικόςπαράγοντας,επίσης,είναιοιλέξεις κλειδιάνασυμπεριλαμβάνονταιόσοτο δυνατό περισσότερες φορές στον κορμό του κυρίως κειμένου της σελίδας (body 17

text). Αυτό συμβαίνει επειδή οι περισσότερες μηχανές αναζήτησης τις "ψάχνουν" και στο κυρίως κείμενο. Αν δε συναντήσουν μια λέξη κλειδί στο κυρίως κείμενο, απλάτηναγνοούν. Ορισμένοι από αυτούς που "στήνουν" ιστοσελίδες πιστεύουν ότι η σελίδα γίνεται ελκυστική με τις εικόνες. Αυτό ισχύει για τους επισκέπτες τις σελίδας, όχι όμως και για τις μηχανές αναζήτησης, οι οποίες δεν είναι ικανές να εντοπίσουν εικόνες. Κι όμως, υπάρχουν μηχανές αναζήτησης εικόνων στο Διαδίκτυο. Πώς εντοπίζουν τις εικόνες; Η απάντηση είναι και πάλι λέξεις κλειδιά για καθεμία από τιςεικόνεςπουτοποθετούνταιστονιστοχώρο. Στο Διαδίκτυο κυκλοφορούν προγράμματα (συνήθως επι πληρωμή) αλλά καιεταιρείες,οιοποίεςμεσυνδρομήαναλαμβάνουνναεντοπίζουντις500ή1000 "κορυφαίες" λέξεις κλειδιά και να τις αποστέλλουν με ηλεκτρονικό ταχυδρομείο στους χρήστες τους. Δίνουν, επίσης, και κατευθυντήριες γραμμές για τη βελτιστοποίηση,πολλέςφορέςδωρεάν. Αμφιλεγόμενο σημείο, ωστόσο, παραμένουν οι μετα επισημάνσεις (META tags). Δεν έχει διαπιστωθεί επακριβώς πόσο προσμετρώνται από τις μηχανές αναζήτησης, ωστόσο η σύσταση των ειδικών είναι να συμπληρώνονται σωστά τα πεδία μετα επισημάνσεων για λέξεις κλειδιά και μετα περιγραφή (Metadescription). Τέλος, όλοι οι ασχολούμενοι με το χώρο συστήνουν, προκειμένου να καταταγείσευψηλήθέσημιαιστοσελίδα,πρέπειησύνταξητηςhtmlστηνοποία έχειγραφείναακολουθείόσοτοδυνατόαυστηρότερατιςπροδιαγραφέςσύνταξης καιχρήσηςπουέχειθεσπίσειτοworldwidewebconsortium(w3c)(σύμφωναμε [22]). 8.ΤιείναιοιμηχανέςΜετα Αναζήτησης Είναι αλήθεια πως οι Μηχανές Αναζήτησης επιστρέφουν αρκετό υλικό ως αποτέλεσμα μιας αίτησης για αναζήτηση πληροφορίας στο Διαδίκτυο από το χρήστη. Εντούτοις, για απολύτως περιεκτικά αποτελέσματα στο κυνήγι της πληροφορίας θα πρέπει κανείς να λάβει υπόψη του τις λεγόμενες Μηχανές Μετα 18

Αναζήτησης (MetaSearch Engines). Οι Μηχανές Μετα Αναζήτησης θα μπορούσε κανείς να πει πως είναι οι μηχανές αναζήτησης των Μηχανών Αναζήτησης : πραγματοποιούν ερωτήματα για ανάκτηση πληροφορίας σε πολλές Μηχανές Αναζήτησηςταυτόχρονα. Οτρόποςλειτουργίαςτουςείναιίδιοςμετοντρόπολειτουργίαςτωναπλών ΜηχανώνΑναζήτησης.Οχρήστηςπληκτρολογείστηφόρμαεισαγωγήςερωτήματος τις λέξεις κλειδιά ή άλλες λέξεις που περιγράφουν το θέμα για το οποίο επιθυμεί την ανάκτηση πληροφορίας. Με το πάτημα του κουμπιού για την έναρξη της αναζήτησης, η Μετα Μηχανή στέλνει το ερώτημα του χρήστη ταυτόχρονα σε πολλές, ξεχωριστές, απλές Μηχανές Αναζήτησης και συνεπώς στις βάσεις δεδομένων με web σελίδες αυτών. Μέσα σε λίγα δευτερόλεπτα, η Μετα Μηχανή επιστρέφει στο χρήστη τα αποτελέσματα που έχει συλλέξει από όλες τις απλές ΜηχανέςΑναζήτησηςστιςοποίεςδιαβίβασετοερώτηματουχρήστη. Μια πιο πολύπλοκη Μηχανή Μετα Αναζήτησης επιτρέπει στον χρήστη να καθορίσει πολύπλοκες παραμέτρους με βάση τις οποίες επιθυμεί να γίνει η αναζήτησηπληροφορίαςσχετικάμετοσυγκεκριμένοθέμαπουτονενδιαφέρει.για παράδειγμα,οχρήστηςείναιδυνατόνακαθορίσειτοχρονικόδιάστημαγιατοοποίο επιθυμείναγίνειηαναζήτησηαυτή.μιατέτοιαλειτουργίαυποστηρίζεταικαιαπό τις απλές Μηχανές Αναζήτησης. Επίσης, ακριβώς όπως και στις απλές Μηχανές Αναζήτησης, είναι δυνατή στις Μηχανές Μετα Αναζήτησης η χρήση των Boolean τελεστών AND, OR και NOT, καθώς και του τελεστή προσέγγισης NEAR, στη διατύπωσητωνερωτημάτωναπότοχρήστη. Οι Μηχανές Μετα Αναζήτησης δεν διαθέτουν δικές τους βάσεις δεδομένων με web σελίδες, όπως συμβαίνει στις απλές μηχανές. Αυτό που κάνουν είναι να διαβιβάζουν τα ερωτήματα των χρηστών στις βάσεις δεδομένων των απλών ΜηχανώνΑναζήτησης.ΜιαΜετα ΜηχανήΑναζήτησηςαπαιτείπερισσότεροχρόνο γιατηνεκτέλεσηενόςερωτήματοςκαθώςθαπρέπειναπραγματοποιήσειελέγχους σεπολλέςάλλεςμηχανέςαναζήτησηςσχετικάμετοερώτημααυτό.τοσημείοστο οποίο υπερέχουν οι Μηχανές Μετα Αναζήτησης έναντι των απλών Μηχανών Αναζήτησης είναι ότι συχνά επιστρέφουν απαντήσεις σε σχετικά ασαφείς ερωτήσειςτουχρήστηπουμιααπλήμηχανήμπορείνα«χάσει». 19

ΣήμεραυπάρχουντρειςτύποιΜηχανώνΜετα Αναζήτησης: * Εργαλεία για ανάκτηση πληροφορίας (digging) σε πολλές πηγές, που προσφέρουν πολλές δυνατότητες για εύρεση αυτού που ζητά ο χρήστης μέσα σε αποτελέσματα αναζήτησης. Αυτά τα εργαλεία είναι κατάλληλα για ερευνητές που επιζητούνμιασεβάθοςανάκτησηπληροφοριώνσχετικάμεέναθέμα Παράδειγμα της παραπάνω κατηγορίας είναι η MetaCrawler (http://www.metacrawler.com). Δίνει τη δυνατότητα στο χρήστη να επιλέξει συγκεκριμένη περιοχή (π.χ. Ευρώπη) από την οποία επιθυμεί να προέρχονται τα αποτελέσματατηςαναζήτησηςήακόμηκαισυγκεκριμένουςδικτυακούςτόπους. * Μηχανές Μετα Αναζήτησης που πραγματοποιούν πολύπλοκες αναζητήσεις, ενοποιούν τα αποτελέσματα καλά, απαλείφουν τις διπλο εμφανίσεις αποτελεσμάτωνκαιπροσφέρουνεπιπρόσθετεςεπιλογές,όπωςέξυπνηταξινόμηση ήομαδοποίησηκατάθέματατωναποτελεσμάτωντηςαναζήτησης ΗSavvySearch(http://savvy.search.com/)είναιμιααπότιςπαλαιότερεςΜηχανές Μετα Αναζήτησης που ανήκει σε αυτήν την κατηγορία. Παρέχει στο χρήστη τη δυνατότητα να καθορίσει τον αριθμό των αποτελεσμάτων που επιθυμεί να του επιστραφούναπόκάθεμιααπότιςαπλέςμηχανέςαναζήτησηςπουθαερωτηθούν. Η Clusty (http://clusty.com/) είναι άλλη μια μηχανή μετα αναζήτησης αυτής της κατηγορίας που παρουσιάζει τα αποτελέσματα στον χρήστη ανα συστάδες (clusters),δηλαδήμιαομάδααπόπαρόμοιαθέματαπουσχετίζονταιμετηναρχική ερώτησητουχρήστη. *ΜηχανέςΜετα Αναζήτησηςπου«ψάχνουν»σεπολλάμέρηκαιεπιστρέφουντα αποτελέσματα χωρίς τις επιλογές που αναφέραμε παραπάνω. Σε αυτή την κατηγορίαανήκουνπολλέςμηχανέςμετα Αναζήτησης. Μια μηχανή αυτής της κατηγορίας είναι η Dogpile ( http://www.dogpile.com ). Διαβιβάζειτοερώτηματουχρήστησε25απλέςΜηχανέςΑναζήτησης.Μερικέςαπό αυτές είναι: Excite, Lycos, InfoSeek, WebCraweler, Thunderstone, PlanetSearch και Yahoo(σύμφωναμε[23]και[24]). 20

ΜέροςΒ 8.Ηανατομίαμιαςμηχανήςαναζήτησης(SearchEngine) Η βασική λειτουργία μιας μηχανής αναζήτησης είναι η εξής : Πληκτρολογούμεμιαλέξηήμιαφράσηστηφόρματηςαναζήτησηςκαιπατάμετο κουμπί. Περιμένουμε λίγα δευτερόλεπτα και θα μας επιστραφεί μια λίστα με χιλιάδεςσυνδέσμους(links)σεσχετικέςιστοσελίδες.μετάτομόνοπουέχουμενα κάνουμε είναι να επισκεφτούμε κάποιους από αυτούς τους συνδέσμους και να βρούμεαυτόπουψάχνουμε.αλλάποίαείναιηπραγματικήλειτουργίαμιαςμηχανής αναζήτησης;ποίαείναιτακομμάτιααπόταοποίααποτελείται; ΗυψηλούεπιπέδουαρχιτεκτονικήμιαςΜηχανήςΑναζήτησης Οιμηχανέςαναζήτησηςείναιπολύπλοκασυστήματαπουαποτελούνταιαπόπολλά τμήματα που κάθε ένα χρίζει ιδιαίτερης προσοχής στην ανάπτυξη και λειτουργία του.πίσωαπότιςμηχανέςαναζήτησηςυπάρχουνπρογράμματαπουχρησιμοποιούν αλγόριθμους για να βρουν και να συλλέξουν πληροφορίες για τις ιστοσελίδες. Οι 21

πληροφορίες που συλλέγονται είναι λέξεις ή φράσεις (keywords) που χαρακτηρίζουνταπεριεχόμενατηςιστοσελίδας,τοurlτηςιστοσελίδας,οκώδικας που δημιουργεί την ιστοσελίδα και συνδέσμους προς και από την σελίδα. Μετά, όλες αυτές οι πληροφορίες κατηγοριοποιούνται και αποθηκεύονται σε βάσεις δεδομένων (databases) Αυτό που φαίνεται μπροστά από τις μηχανές αναζήτησης είναι ένα φιλικό περιβάλλον (User Interface). Οι τελικοί χρήστες χρησιμοποιούν αυτότοπεριβάλλονγιαναδώσουνλέξειςήφράσεις(keywords)σεμιαπροσπάθεια ναβρουνσχετικέςπληροφορίες.ότανοχρήστηςπατάειτοκουμπίτηςαναζήτησης, ένας αλγόριθμος εξετάζει της πληροφορίες που είναι αποθηκευμένες στην βάση δεδομένων και επιστρέφει συνδέσμους (links) σε ιστοσελίδες που φαίνονται να ταιριάζουνστιςλέξεις κλειδιά(keywords)πουοχρήστηςείχεδώσει.ηδιαδικασία συλλογής πληροφοριών σχετικές με τις ιστοσελίδες, εκτελείται από έναν crawler, spiderήrobot.οcrawlerαρχικάκοιτάειέναπροςέναταurlπουβρίσκονταιστο Διαδίκτυο(Internet)καισυλλέγειλέξειςκαιφράσειςγιακάθεένααπόαυτά.Στην συνέχεια τα αποθηκεύει στην βάση δεδομένων που χρησιμοποιείται για να δίνει ζωήστηνμηχανήαναζήτησης(searchengine)(σύμφωναμε[25]). 10.ΤρόποςΛειτουργίαςΜηχανώνΑναζήτησης Οι Μηχανές Αναζήτησης δεν «ψάχνουν» στην πραγματικότητα τον ΠαγκόσμιοΙστό(www)τηνστιγμήτηςαναζήτησης.ΚάθετέτοιαΜηχανήψάχνεισε μια βάση δεδομένων που περιέχει αντίγραφα ιστοσελίδων όπως αυτές έχουν επιλεγεί αυτόματα ανάμεσα σε δισεκατομμύρια σελίδες στο Διαδίκτυο (Internet) που υπάρχουν σε εξυπηρετητές (servers). Όταν ψάχνουμε στο Διαδίκτυο χρησιμοποιώντας μια Μηχανή Αναζήτησης, αναζητούμε κατά κάποιο τρόπο ένα παλιό αντίγραφο της πραγματικής web σελίδας, όπως αυτό υπάρχει στη βάση δεδομένωντηςμηχανής.ότανκάνουμε«κλικ»πάνωστουςσυνδέσμους(links)που παρέχονται από τα αποτελέσματα αναζήτησης της Μηχανής, ανακτούμε από τον εξυπηρετητή(server)τηντωρινήέκδοσητηςσελίδας. Οι βάσεις δεδομένων των Μηχανών Αναζήτησης «συμπληρώνονται» από ειδικά προγράμματα υπολογιστών (ρομπότ) που λέγονται «αράχνες» (spiders). ΠαρόλοπουλέγεταιότιδιατρέχουντοΔιαδίκτυοπροςαναζήτησησελίδωνγιανα 22

τις συμπεριλάβουν στη βάση δεδομένων της μηχανής, στην πραγματικότητα παραμένουν σε ένα μόνο μέρος : βρίσκουν τις σελίδες που ενδέχεται να συμπεριληφθούν στη βάση ακολουθώντας τους συνδέσμους (links) στις σελίδες που ήδη υπάρχουν στην βάση δεδομένων τους. Οι «αράχνες» δεν μπορούν να σκεφτούνήναπληκτρολογήσουνέναurlήνακρίνουνκαινααποφασίσουνανθα πρέπει να αναζητήσουν περισσότερες πληροφορίες σχετικά με ένα θέμα στο Διαδίκτυο. Αφού οι «αράχνες» βρουν τις σελίδες, τις περνούν σε ένα άλλο πρόγραμμα υπολογιστή για τοποθέτηση δεικτών (index). Αυτό το πρόγραμμα αναγνωρίζειτοκείμενο,τουςσυνδέσμουςκαιτουπόλοιποπεριεχόμενοτηςσελίδας καιτοαποθηκεύειστααρχείατηςβάσηςδεδομένωντηςμηχανήςαναζήτησηςέτσι ώστε να μπορεί να πραγματοποιηθεί αναζήτηση πάνω στη βάση με τη χρήση λέξεων κλειδιώνήμεόποιεςάλλεςπιοεξελιγμένεςπροσεγγίσειςπροσφέρονται. Ησελίδαθαβρεθείανηαναζήτηση(πουέχειπραγματοποιηθείμεβάσητα στοιχείαπουέχειδώσειοχρήστης)συμπέσειμετοπεριεχόμενοκάποιαςεγγραφής της βάσης της Μηχανής Αναζήτησης. Όταν πραγματοποιηθεί μια αναζήτηση και γίνει η συλλογή των αποτελεσμάτων από τη βάση δεδομένων της Μηχανής, τα αποτελέσματα αυτά επιστρέφονται στο χρήστη με τη μορφή μιας λίστας με σύνδέσμους στις αντίστοιχες σελίδες. Ο τρόπος με τον οποίο εμφανίζονται τα αποτελέσματααυτά,αλλάκαιηταξινόμησήτουςστηλίστα,διαφέρειαπόμηχανή σεμηχανή.τααποτελέσματατηςαναζήτησηςείναιδυνατό: *ναακολουθούνκάποιοναλγόριθμοταξινόμησηςπροκειμένουναεξαχθείη σειράμετηνοποίαθαεμφανιστούνστηλίστα. *νατοποθετούνταιτυχαίαστηλίστα. *νατοποθετούνταιανάλογαμεταχρήματαπουπληρώνειοιδιοκτήτηςτου κάθεδικτυακούτόπουστηνεταιρίατηςμηχανήςαναζήτησηςειδικάγιανα τοποθετηθείηιστοσελίδατουσεκαλύτερησειράστηλίστα. *ναχρησιμοποιείταισυνδυασμόςτωνπαραπάνωμεθόδων,ανάλογαμετην κάθεπερίπτωση. Μερικοίτύποισελίδωνκαισυνδέσμωνεξαιρούνται,λόγωπολιτικής,απότις περισσότερες Μηχανές Αναζήτησης. Άλλες, πάλι, εξαιρούνται επειδή οι «αράχνες» 23

τωνμηχανώναναζήτησηςδενμπορούννατιςπροσπελάσουν.αυτέςοισελίδεςπου εξαιρούνται αναφέρονται ως το «Αόρατο Διαδίκτυο» (Invisible Web) πρόκειται γιαό,τιδενεπιστρέφεταιαπότιςμηχανέςαναζήτησηςωςαποτέλεσμα.τοαόρατο Διαδίκτυο εκτιμάται ότι είναι μεγαλύτερο δυο με τρεις φορές, ή και περισσότερο, απότο«ορατό»διαδίκτυο(σύμφωναμε[26]). 11.Αλγόριθμοικατάταξης(rankingAlgorithms) Τα κύρια στοιχεία από τα οποία αποτελείται μια μηχανή αναζήτησης είναι αυτά που φαίνονται όπως είναι το Query interface και τα Search Engine Result Pages(SERP),κιαυτάπουδεφαίνονται,όπωςείναιοιrankingAlgorithms,Crawlers καιdatabase.aυτότοοποίοαποτελείτηβάσηγιατηλειτουργίαόλωντωνάλλων είναι ο Αλγόριθμος κατάταξης (ranking Algorithm). Η λειτουργία μιας μηχανής αναζήτησης βασίζεται στον αλγόριθμο ο οποίος είναι άμεσα συνδεδεμένος με τον τρόποπουοχρήστηςεντοπίζειτιςπληροφορίες. Πιο αναλυτικά, ένας αλγόριθμος παίρνει ένα ερώτημα, εντοπίζει πιθανές απαντήσεις και τέλος επιστρέφει τις πιο σχετικές. Ένας Αλγόριθμος κατάταξης (ranking Algorithm) για μια μηχανή αναζήτησης (Search engine), παίρνει ένα ερώτημα(λέξηήφράσηπροςαναζήτηση),ψάχνειτηβάσηδεδομένωντηςμηχανής που περιέχει σε κατηγορίες keywords και URLs σχετικές προς την αναζήτηση, και στο τέλος επιστρέφει σελίδες που περιέχουν αυτή τη λέξη ή φράση στο κείμενο τουςήστοurl. Υπάρχουν πολλές κατηγοριοποιήσεις ranking Algorithms και κάθε μηχανή αναζήτησης χρησιμοποιεί διαφορετικούς. Αυτός είναι ο βασικός λόγος των διαφορετικών αποτελεσμάτων που επιστρέφουν οι μηχανές αναζήτησης μεταξύ τους. Τέλος, οι τρεις βασικότερες κατηγορίες που αξίζει να αναφερθούν είναι:onpagealgorithms,whole sitealgorithmsκαιoff sitealgorithms.κάθεμιααπόαυτές τις κύριες κατηγορίες αλγορίθμων ψάχνει διαφορετικά στοιχεία μιας ιστοσελίδας. Παρόλα αυτά και οι τρεις κατηγορίες αποτελούν μέρος ενός πολύ μεγαλύτερου αλγορίθμου(σύμφωναμε[27]). 24

12.ΟιδιεγασίεςτηςεκτέλεσηςμιαςΜηχανήΑναζήτησης ΜιαΜηχανήΑναζήτησηςεκτελείταιμετηνπαρακάτωσειρά: 1. WebCrawling 2. Indexing 3. Searching Οι Μηχανές Αναζήτησης αποθηκεύουν πληροφορίες για πολλές ιστοσελίδες τις οποίεςανακτούναποτοίδιοτοworldwideweb.αυτέςοισελίδεςανακτώνταιαπό έναν Web Crawler (γνωστό ως spider) μία αυτοματοποιημένη μηχανή αναζήτησης Ιστού, ο οποίος ακολουθει κάθε σύνδεσμο που βλεπει. Επίσης, μπορούν να γίνουν κάποιες εξαιρέσεις με την χρήση των robots.txt τα όποια αποτελούνμίασύμβασηγιαναμηνεπιτρέπουνσταwebspidersπρογράμματανα έχουνπρόσβασησεόληήσεμέροςμιαςιστοσελίδας.ταrobotsχρησιμοποιούνται συχνά από τις Μηχανές Αναζήτησης για να ταξινομήσουν και να αρχειοθετήσουν τιςιστοσελίδες. Το περιεχόμενο κάθε σελίδας αναλύεται για να καθοριστεί ο τρόπος που θα πρέπειναδεικτοδοτηθεί(γιαπαράδειγμα,λέξειςεξάγονταιαπότουςτίτλους,απο τις επικεφαλίδες headings ή από ειδικά πεδία τα οποία λέγονται meta tags τα οποία είναι HTML στοιχεία και χρησιμοποιούνται για να παρεχουν τα μεταδεδομένα, δηλαδη δεδομένα για τα δεδομένα όπως page description και keywords(από[28]). Δεδομένα σχετικά με τις ιστοσελίδες αποθηκεύονται σε μία δεικτοδοτημένη βάση δεδομένων για χρήση σε μελλοντικά ερωτήματα χρηστών. Μερικές μηχανές αναζήτησης, όπως το Google, αποθηκεύουν όλο ή μέρος του πηγαίου κώδικα (αναφέρεται ως cache) καθώς επίσης και πληροφορίες για τις ιστοσελίδες,ενώάλλες,όπωςτοaltavista,αποθηκεύουνκάθελέξησεκάθεσελίδα που βρίσκουν. Αυτή η cache σελίδα κρατά πάντα το πραγματικό κείμενο αναζήτησηςδεδομένουότιείναιαυτήπουδεικτοδοτήθηκεπραγματικά,έτσιμπορεί ναείναιπολύχρήσιμηότανενημερωθείτοπεριεχόμενοτηςτρέχουσαςσελίδαςκαι οιόροιαναζήτησηςδενείναιπλέονσεαυτήν.αυτήημέθοδοςτουgoogleικανοποιεί τις προσδοκίες των χρηστών, εφόσον οι όροι αναζήτησης θα είναι στην επιστρεφόμενηιστοσελίδα.ηαυξανόμενησχετικότητααναζήτησηςκαθιστάαυτές 25

τιςcacheσελίδεςπολύχρήσιμες,εφόσονμπορούνναπεριέχουνδεδομέναπουδεν είναιδιαθέσιμαοπουδήποτεαλλού. Όταν ένας χρήστης εισάγει μια ερώτηση σε μια μηχανή αναζήτησης (με τη χρησιμοποίηση των λέξεων κλειδίών), η μηχανή εξετάζει τα αποτελέσματα του προγράμματος index και παρέχει μια λίστα του καλύτερου ταιριάσματος ιστοσελίδαςσύμφωναμετακριτήριάτης,συνήθωςμεμιασύντομηπερίληψηπου περιέχει τον τίτλο της ιστοσελίδας και μερικές φορές μέρη του κειμένου. Οι περισσοτερες Μηχανές Αναζήτησης υποστηρίζουν την χρήση Boolean τελεστών AND,ORκαιNOTγιαπεραιτέρωδιευκρίνισητουερωτήματοςαναζήτησης.Μερικές μηχανές αναζήτησης παρέχουν ένα προηγμένο χαρακτηριστικό γνώρισμα αποκαλούμενοαναζήτησηεγγύτηταςπουεπιτρέπειστουςχρήστεςνακαθορίσουν τηναπόστασημεταξύτωνλέξεωνκλειδιών. Η χρησιμότητα μιας μηχανής αναζήτησης εξαρτάται από τη σχετικότητα των αποτελεσμάτων που επιστρέφει. Ενώ μπορούν να υπάρξουν εκατομμύρια ιστοσελίδες που περιλαμβάνουν μια ιδιαίτερη λέξη ή μια φράση, μερικές σελίδες μπορούν να είναι πιό σχετικές, δημοφιλείς, ή επιτακτικές από άλλες. Οι περισσότερες μηχανές αναζήτησης υιοθετούν μεθόδους για να ταξινομήσουν τα αποτελέσματα και να παρέχουν το πιο σχετικό αποτελέσματα πρώτα. Το πως μια μηχανήαναζήτησηςαποφασίζειποιεςσελίδεςείναιοιπερισσότεροσχετικές,καιμε ποιά σειρά πρέπει να παρουσιασεί τα αποτελέσματα, ποικίλλει από μηχανή σε μηχανή.οιμέθοδοιαλλάζουνεπίσηςμετηνπάροδοτουχρόνουκαθώςοιαλλαγές χρήσηςδιαδικτύουκαιοινέεςτεχνικέςεξελίσσονται. Οι περισσότερες μηχανές αναζήτησης είναι εμπορικές επιχειρήσεις και εξοικονομούν κέρδη από τα διαφημιστικά έσοδα. Μερικές επιτρέπουν στους ενδιαφερόμενους διαφημιστές να καταβάλλουν κάποιο αντίτιμο ετσι ώστε τα προιόντατουςναεμφανίζονταιψηλάστηνλίστατωναποτελεσμάτωντιςμηχανής αναζήτησης. Οι υπόλοιπες, οι οποίες δε δέχονται να αλλάξουν την σειρά των αποτελεσμάτων τους, κερδίζουν χρήματα με το να εμφανίζουν σχετικές διαφημίσεις με το ερώτημα του χρήστη δίπλα από τα αποτελεσματά τους. Καθε φορα που κάποιος χρήστης επιλέγει μια τέτοια διαφήμιση, η μηχανή έχει ένα διαφημιστικόέσοδο(σύμφωναμε[29]). 26

13.WebCrawler ΟWebCrawlerείναιέναπρόγραμμαυπολογιστήπουκοιτάειτοWorldWide Web με έναν μεθοδικό αυτοματοποιημένο τρόπο. Άλλα ονόματα για τους Web Crawlersείναιautomaticindexers,bots,καιwormsήWebspider. Αυτή η διαδικασία καλείται Web crawling ή spidering. Πολλές σελίδες, και ιδιαίτερα οι μηχανές αναζήτησης, χρησιμοποιούν spidering ως μέσο για να παρέχουνενημερωμέναδεδομένα.οιwebcrawlersχρησιμοποιούνταικυρίωςγια ναδημιουργήσουνένααντίγραφοαπόόλεςτιςσελίδεςπουέχουνεπισκεφτείγια μελλοντικήεπεξεργασίααπότηνμηχανήαναζήτησης,ηοποίαθαδεικτοδοτήσει τις κατεβασμένες σελίδες έτσι ώστε να παρέχει γρήγορα τα αποτελέσματα των ερωτημάτων. Επίσης, μπορούν να χρησιμοποιηθούν για αυτοματοποιημένες εργασίεςσυντήρησηςσεμιαιστοσελίδα,όπωςοέλεγχοςγιατηνεγκυρότητατων συνδέσμωνκαιοέλεγχοςγιατηνορθότητατουκώδικαhtml.επιπλέον,οιweb Crawlers μπορούν να χρησιμοποιηθούν για να συλλέξουν συγκεκριμένου τύπου πληροφοριών από τις ιστοσελίδες, όπως η συγκομιδή των διευθύνσεων ηλεκτρονικούταχυδρομείου(γιαspamming). ΈναςWebCrawlerείναιέναείδοςπράκτοραλογισμικού.Γενικά,ξεκινάει απόμιαλίσταμεurlsταοποίαεπισκέπτεται.καθώςεπισκέπτεταιαυταταurls προσδιορίζει όλους τους συνδέσμους υπερ κειμένου (hyperlinks) που βρίσκει στην κάθε σελίδα και στην συνέχεια προσθέτει αυτούς τους συνδέσμους στην λισταμεταurlsπουπρέπειναεπισκεπτεί.όληαυτήτηνλίσταμεταurlsτην επισκέπτεται επαναληπτικά σύμφωνα με ένα σύνολο πολιτικών. Υπάρχουν σημαντικά χαρακτηριστικά του World Wide Web τα οποία κάνουν το crawling πολύ δύσκολο, όπως είναι το μεγάλο του μέγεθος, ο γρήγορος ρυθμος των αλλαγώνπουσυντελούνταικαιηδυναμικήδημιουργίασελίδων. Γενικά, η συμπεριφορά του Web Crawler είναι η έκβαση από έναν συνδυασμό πολιτικών. Α)ΠολιτικήΕπιλογής,ηοποίαδηλώνειποιέςσελίδεςνακατεβούν Β)ΠολιτικήΝέαςΕπίσκεψης,ηοποίαδηλώνειπότεναελεχθούνγιααλλαγές οισελίδες 27

Γ)ΠολιτικήΕυγενείας,ηοποίαδηλώνειπωςνααποφευχθείηυπερφορτωση ιστοσελίδων Δ) Πολιτική Παραλληλισμού, η οποία δηλώνει τον τρόπο συντονισμού των κατανεμημένωνwebcrawlers Επιπλέον, οι Web Crawlers εκτελούν και ένα είδος κανονικοποίησης URL (URL normalization) με σκοπό να αποφύγουν να επισκεφτούν την ίδια πηγή περισσότερες από μία φορα, αυτό το επιτυγχάνουν τροποποιώντας και τυποποιώνταςέναurlκατατρόποσυνεπή. Τέλος, υπάρχουν κάποιες μετρικές που έχουν ως στόχο την εκτίμηση της αξιοπιστίας και της απόδοσης του Web Crawler. Σημαντικό ενδιαφέρον παρουσιάζει η μετρική που αφορά το πόσες σελίδες επεξεργάζεται ο crawler το δευτερόλεπτο (μία ενδεικτική τιμή αυτής της μετρικής είναι περίπου 200.000 έγγραφατηνμερα)καθώςεπίσηςκαιημετρικήπουεξετάζειτουςπαράγοντεςπου επηρεάζουν την ταχυτητά του. Άλλες δύο κοινές μετρικές είναι η φρεσκάδα (freshness)καιηηλικία(age).ηφρεσκάδαείναιτομέροςτωνεγγράφωνπουείναι φρέσκα, δηλ., δεν έχουν αλλάξει από την τελευταία φορά που τα επισκέφτηκε o crawler. Η ηλικία ενός εγγράφου μετράει πόσο πολυδιατηρημένο το τοπικό αντίγραφο είναι, η ηλικία ενός crawler είναι ο μέσος όρος των ηλικιών των εγγράφωντης(σύμφωναμε[30]). ΠαραδείγματααπόWebCrawlers 1) YahooείναιτοόνοματουYahooSearchCrawler. 2) Google Crawler. Βασίζεται σε C++ και Python και ενσωματώθηκε με την διεργασίατηςδεικτοδότησης,επειδήηανάλυσηκειμένουγίνεταιγιαόλοτο κείμενο που δεικτοδοτείται και επίσης για την εξαγωγή του URL. Υπάρχει έναςκεντρικόςεξυπηρετητήςurlοοποίοςστέλνειλίστεςαπόurlsγιανα προσκομιστούν από διάφορες διεργασίες crawling. Κατα την διαδικασία ανάλυσης,ταurlsπουβρέθηκανπερνιούνταιστονκεντρικόεξυπηρετητή URLγιαναελεχθείαντοURLέχειπροηγουμένωςπροσκομιστεί.Ανόχιτότε τοurlπροστιθεταιστηνουράαναμονήςτουκεντρικούεξυπηρετητήurl. 28

3) RBSEήτανηπρώτηκυκλοφορίσιμηέκδοσηWebCrawler.Βασίζεταισεδύο πρόγραμματα: το πρώτο πρόγραμμα(spider) διατηρεί μία ουρά αναμονής σε μία σχεσιακή βάση δεδομένων και το δεύτερο (mite) είναι ένας τροποποιημένοςwwwasciibrowser,οοποίοςκατεβάζειτιςσελίδεςαπότο WorldWideWeb. 4) WebCrawler,χρησιμοποιήθηκεγιαναχτίσειτονπρώτοδημόσια διαθέσιμο ολοκληρωμένου κειμένου index ενός υποσυνόλου του World Wide Web. Βασίζεταιστοlib WWWγιανακατεβάζεισελίδες,καιέναάλλοπρόγραμμα εκτελείται για να αναλύει και να διατάσσει τα URLs. Επίσης, συμπεριλαμβάνει και έναν crawler πραγματικού χρόνου, ο οποίος ακολουθεί τους συνδέσμους που σχετίζονται με την ερώτηση προς αναζήτηση. Open sourcecrawlers 1) Aspseekείναιέναςcrawler,indexerκαιμηχανήαναζήτησηςγραμμένοςσεC καιμεάδειαελεύθερουλογισμικούgpl. 2) GRUBείναιέναςανοιχτουκώδικακατανεμημμένοςcrawler. 3) Arachnode.net είναι ένας.net web crawler γραμμένος σε C# και χρησιμοποιεί SQL 2005 και Lucene. Και αυτός κυκλοφορεί κατω απο την GNUGeneralPublicLicence. 4) NutchείναιέναςcrawlerγραμμένοςσεJavaκαικυκλοφορείυπότηνApache άδεια. Μπορεί να χρησιμοποιθεί σε συνδυασμό με το Lucene (πακέτο δεικτοδότησηςκειμένου). (σύμφωναμε[31]) 14.Index Ηδιεργασίατηςδεικτοδότησηςτωνμηχανώναναζήτησηςσυλλέγει,αναλύει και αποθηκεύει τα δεδομένα έτσι ώστε να διευκολύνει την γρήγορη και ακριβή ανάκτηση πληροφορίας. Ο σχεδιασμός του προγράμματος δεικτοδότησης 29

ενσωματώνειέννοιεςαποδιαφορετικάεπιστημονικάπεδία,όπωςτηγλωσσολογία, τη γνωστική ψυχολογία, τα μαθηματικά, την πληροφορική, τη φυσική και την επιστήμη των υπολογιστων. Η διαδικασία που σχεδίαζεται με σκοπό την εύρεση ιστοσελίδωνκαλείταιwebindexing.οιδημοφιλείςμηχανέςαναζήτησηςεστιάζουν στην ολοκληρωμένου κειμένου δεικτοδότηση φυσικής γλωσσας αρχείων. Επίσης καιαρχείαβίντεο,ήχουκαιγραφικώνμπορούννααναζητηθούν. Οι Μηχανές Μετα Αναζήτησης επαναχρησιμοποιούν τα προγράμματα δεικτοδοτήσεωνάλλωνυπηρεσιώνκαιδεναποθηκεύουντααποτελέσματααποένα προγραμμαδεικτοδότησης(index)σεμίαδικιάτουςβάσηδεδομένων,ενώοιcachebased Μηχανές Αναζήτησης αποθηκεύουν μόνιμα τα αποτελεματα του index. Σε αντίθεσημεταολοκληρωμένουκειμένουπρογράμματαindex,ταμερικώς κειμένου περιορίζουν το βάθος που δεικτοδοτήται για να μειώσουν το μέγεθος του πίνακα δεικτοδότησης. Οι μεγαλύτερες μηχανές αναζήτησης εκτελούν το πρόγραμμα δεικτοδότησηςσεέναπροκαθορισμένοχρονικόδιάστημαεξαιτίαςτουχρόνουπου απαιτείται και του κόστους της διαδικασίας, ενώ οι agent based μηχανές αναζήτησηςδεικτοδοτούνσεπραγματικόχρόνο. Ο σκοπός της αποθήκευσης του πίνακα δεικτοδότησης είναι να βελτιστοποιείτηνταχύτητακαιτηναπόδοσηστηναναζήτησησχετικώνεγγράφων σε μια ερώτηση. Διαφορετικά, η μηχανη αναζήτησης θα έπρεπε να ψάξει κάθε έγγραφοσεόλητηνβάσητης,πουαπαιτείπολύχρόνοκαιυπολογιστικήδύναμη. Για παράδειγμα, ένας index 10,000 εγγράφων μπορεί να ψαχτεί μέσα σε λίγα miliseconds, ενώ μια διαδοχική αναζήτηση κάθε λέξης σε 10,000 έγγραφα θα απαιτούσε ώρες. Η πρόσθετη αποθήκευση δεδομένων στον υπολογιστή για τον index ισοσταθμίζεται με τον χρόνο που κερδίζεται μέσω του index για την ανάκτησηπληροφορίας. ΠαράγοντεςΣχεδιασμούIndex ΠαράγοντεςΣυγχώνευσης Πώς τα δεδομένα μπαίνουν στον index ή πώς οι λέξεις και τα χαρακτηριστικά γνωρίσματα προστίθενται σ αυτόν. Αν πολλαπλά πρόγραμματα δεικτοδότησης 30