ΠΑΝΕΠΙΣΗΜΙΟ ΑΙΓΑΙΟΤ ΣΜΗΜΑ ΜΗΦΑΝΙΚΨΝ ΠΛΗΡΟΥΟΡΙΑΚΨΝ ΚΑΙ ΕΠΙΚΟΙΝΨΝΙΑΚΨΝ ΤΣΗΜΑΣΨΝ. Σεχνικές Βελτιστοποίησης Κατάταξης Δικτυακών

Σχετικά έγγραφα
Βαγγϋλησ Οικονόμου Διϊλεξη 4. Δομ. Προγραμ. - Διϊλεξη 4

Οδηγόσ πουδών

Εγχειρίδιο Χρήσης των Εργαλείων Αναγνώρισης Χαρισματικών Μαθητών στα Μαθηματικά

Στο λογιςμικό (software) περιλαμβϊνονται όλα τα προγράμματα του υπολογιςτό. Το Λογιςμικό χωρύζετε ςε δύο μεγϊλεσ κατηγορύεσ:

Σο FACEBOOK ό απλώσ και Fb,όπωσ αλλιώσ χαρακτηρύζεται, γύνεται όλο και πιο διαδεδομϋνο ανϊμεςα ςτουσ νϋουσ και, ευτυχώσ ό δυςτυχώσ, αποτελεύ ςτην

Παθήςεισ του θυροειδή ςε άτομα με ςύνδρομο Down: Πληροφορίεσ για γονείσ και δαςκάλουσ. Τι είναι ο θυροειδήσ αδένασ;

Θεςμική Αναμόρφωςη τησ Προ-πτωχευτικήσ Διαδικαςίασ Εξυγίανςησ Επιχειρήςεων

NetMasterII ςύςτημα μόνιμησ εγκατϊςταςησ επιτόρηςη και καταγραφό ςημϊτων από αιςθητόρια και μετατροπεύσ κϊθε εύδουσ ςύςτημα ειδοπούηςησ βλϊβη

«Δυνατότητεσ και προοπτικϋσ του επαγγϋλματοσ που θϋλω να ακολουθόςω μϋςα από το Διαδύκτυο».

ΚΕΥΑΛΑΙΟ 2 Σο εςωτερικό του υπολογιςτό

ΑΝΑΛΤΕΙ / 12. Οικονομικό κρύςη και μϋθοδοι αναζότηςησ εργαςύασ

Ο ΟΓΙΚΟΣ ΦΑΡΤΗΣ ΤΟΥ ΣΑΚΦΑΡΩΓΗ ΓΙΑΒΗΤΗ ΣΤΗΝ ΔΛΛΑΓΑ

Δίκτυα Η/Υ ςτην Επιχείρηςη

Νέο Πρόγραμμα Σπουδών του Νηπιαγωγείου. Δρ Ζωή Καραμπατζάκη, Σχολική Σύμβουλος 21 ης Περιφέρειας Π.Α.

EETT Δημόςια Διαβούλευςη ςχετικά με την εκχώρηςη δικαιώματων χρήςησ ραδιοςυχνοτήτων ςτη Ζώνη 27,5 29,5 GHz

Τεχνικόσ Μαγειρικόσ Τϋχνησ Αρχιμϊγειρασ (Chef) Β Εξϊμηνο

19/10/2009. Προηγοφμενη βδομάδα... Σήμερα Γεωγραφικά Συςτήματα Πληροφοριϊν Χωρικά Μοντζλα Δεδομζνων. Δομή του μαθήματοσ

22/11/2009. Προηγοφμενη βδομάδα... Δεδομζνα απο Δευτερεφουςεσ πηγζσ. Αυτή την βδομάδα...

Αναφϋρεται ςτουσ μηχανιςμούσ ελϋγχου δϋςμευςησ των πόρων.

Τρύτη Διϊλεξη Μοντϋλα Διαδικαςύασ Λογιςμικού Μϋροσ Α

Βαγγϋλησ Οικονόμου Διϊλεξη 5 ΠΙΝΑΚΕΣ. Δομ. Προγραμ. - Διϊλεξη 5 1

Μαθηματικϊ. Β' Ενιαύου Λυκεύου. (μϊθημα κοινού κορμού) Υιλοςοφύα - κοπού

ΔΙΑΣΡΟΦΗ ΚΑΣΑ ΣΗ ΔΙΑΡΚΕΙΑ ΣΟΤ ΘΗΛΑΜΟΤ ΣΖΕΛΑΛΗ ΑΝΑΣΑΙΑ ΜΑΙΑ ΙΠΠΟΚΡΑΣΕΙΟ Γ.Π.Ν.Θ.

Τρίπολη Μάιος Γρηγόριος Σπυράκης MPA, Ph.D

ΗΛΕΚΣΡΟΝΙΚΗ ΕΠΙΚΟΙΝΩΝΙΑ ΣΟΤ ΦΟΛΕΙΟΤ ΠΡΟ ΣΟΤ ΓΟΝΕΙ. - Θέςη υπεύθυνου προςώπου για την ςυμπλήρωςη του ερωτηματολογίου: Ερωτηματολόγιο

Πίνακασ τεχνικών και λειτουργικών προδιαγραφών. Πλόρεσ ελληνικό περιβϊλλον (interface) για Διαχειριςτϋσ, Εκπαιδευτϋσ, Εκπαιδευόμενουσ

Η Διαύρεςη 134:5. Η Διαύρεςη 134:5. Διδακτική Μαθηματικών ΙΙ

ΜΕΣΑΠΣΤΦΙΑΚΗ ΕΡΓΑΙΑ ΕΠΕΞΕΡΓΑΙΑ ΒΙΝΣΕΟ ΜΕ ΦΡΗΗ DSP

Πωσ αλλάζει τη Μεςόγειο το ενεργειακό παζλ

ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ. Δωδϋκατη Διϊλεξη Έλεγχοσ Συςτόματοσ

Αρχϋσ του NCTM. Αρχϋσ του NCTM. Αρχϋσ του NCTM. Διδακτικό Μαθηματικών ΙΙ. Μϊθημα 9 ο Αξιολόγηςη

Ενημερωτικό Σημεύωμα για το Ειδικό Καθεςτώσ τησ Επιχειρηματικότητασ των Νϋων του Επενδυτικού Νόμου 3908/2011, για το ϋτοσ 2011

ΕΚΠΑΙΔΕΤΣΙΚΟ ΕΝΑΡΙΟ ΓΙΑ ΣΗΝ ΑΞΙΟΠΟΙΗΗ ΚΑΙ ΕΥΑΡΜΟΓΗ ΣΩΝ ΣΠΕ ΣΗ ΔΙΔΑΚΣΙΚΗ ΠΡΑΞΗ

Η κατανομή των ηπείρων και των θαλασσών Ωκεανοί και θάλασσες

Αναλύοντασ την ολοκληρωμϋνη φροντύδα του ρευματοπαθούσ. Κατερύνα Κουτςογιϊννη ύλλογοσ Ρευματοπαθών Κρότησ

Ειςαγωγό ςτο Ιnternet. χολό Θετικών Επιςτημών, Σμόμα Βιολογύασ, Πανεπιςτόμιο Πατρών

WordNet meta-search engine

ΠΡΑΚΣΙΚΟ ΟΔΗΓΟ ΓΙΑ ΣΟ STORYJUMPER

Θεωρύεσ Μϊθηςησ και ΤΠΕ Εποικοδομιςμόσ

1. ΕΙΑΓΩΓΗ ~ 1 ~ τυλιανού. 1 Σο ςχϋδιο μαθόματοσ ςυζητόθηκε με το ςύμβουλο του μαθόματοσ τησ Νϋασ Ελληνικόσ Γλώςςασ κ. Μϊριο

ΔΤΝΑΣΟΣΗΣΕ ΚΑΙ ΠΡΟΟΠΣΙΚΕ ΣΩΝ ΕΠΑΓΓΕΛΜΑΣΩΝ

Ένασ άνθρωποσ που δεν ςτοχάζεται για τον εαυτό του δεν ςτοχάζεται καθόλου». Oscar Wilde

19/10/2009. Γεωγραφικά Συςτήματα Πληροφοριϊν Spatial Operations. Σήμερα... Τφποι ερωτήςεων (Queries)

ΠΡΟΚΛΗΗ ΕΚΔΗΛΩΗ ΕΝΔΙΑΥΕΡΟΝΣΟ ΓΙΑ ΤΠΟΒΟΛΗ ΠΡΟΣΑΕΩΝ ΠΡΟ ΤΝΑΨΗ ΈΩ ΔΤΟ (2) ΤΜΒΑΕΩΝ ΜΙΘΩΗ ΕΡΓΟΤ ΙΔΙΩΣΙΚΟΤ ΔΙΚΑΙΟΤ (κωδ.: 61Μ)

ΕΠΠΑΙΚ Θεςςαλονύκησ, /02/2011

ΤΜΒΑΗ ΔΙΑΝΟΜΗ ΤΛΙΚΟΤ ΣΟ ΔΙΚΣΤΟ ΠΡΑΚΣΟΡΩΝ ΣΗ ΟΠΑΠ

Περιεκτικότητα ςε θρεπτικϊ ςτοιχεύα Ικανότητα ανταλλαγόσ κατιόντων Οξύτητα εδϊφουσ (ph)

Ειςαγωγή ςτη Διαχείριςη Δικτύων

ΤΕΙ ΑΜΘ-Σχολό Διούκηςησ και Οικονομύασ-Τμόμα Λογιςτικόσ και Χρηματοοικονομικόσ

Τϋταρτη Διϊλεξη Μοντϋλα Διαδικαςύασ Λογιςμικού Μϋροσ Β

ΕΚΠΑΙΔΕΤΣΙΚΟ ΕΝΑΡΙΟ ΓΙΑ ΣΗΝ ΑΞΙΟΠΟΙΗΗ ΚΑΙ ΕΥΑΡΜΟΓΗ ΣΩΝ ΣΠΕ ΣΗ ΔΙΔΑΚΣΙΚΗ ΠΡΑΞΗ

Εντολζς του Λειτουργικοφ Συστήματος UNIX

ημειώςεισ των αςκόςεων του μαθόματοσ Κεφαλαιαγορϋσ- Επενδύςεισ Ενότητα: Χρηματοοικονομικόσ Κύνδυνοσ Διδϊςκων : Αγγελϊκησ Γιώργοσ Εργαςτηριακόσ

ενθαρρύνοντασ τη ςυνέχιςη των προβλημάτων

Για παρϊδειγμα, μια πλοόγηςη ςτη βιβλιοθόκη τησ Ανώτατησ χολόσ Καλών Σεχνών:

Επαγγελματικϋσ Δυνατότητεσ

1.ΕΘΝΙΚΕ ΚΑΙ ΠΟΛΙΣΙΣΙΚΕ ΠΑΡΑΔΟΕΙ ΓΙΑ ΣΟΝ ΣΟΚΕΣΟ

Η νέα Υπηρεςία Έρευνασ Οικονομικού Εγκλήματοσ Ζητήματα από τη ςυμπλοκή ποινικήσ και διοικητικήσ ελεγκτικήσ διαδικαςίασ

Βαγγϋλησ Οικονόμου Διϊλεξη 6. Δομ. Προγραμ. - Συναρτόςεισ - Διϊλεξη 6

Μθχανι Αίνιγμα θ επιρροι τθσ ςτισ ςφγχρονεσ επικοινωνίεσ ςτο Internet

Πποκλήζειρ καηά ηην ένηαξή ηοςρ

Δίκτυα Η/Υ ςτην Επιχείρηςη

Πανεπιςτήμιο Πελοποννήςου Τμήμα Επιςτήμησ και Τεχνολογίασ Τηλεπικοινωνιών. Λειτουργικά Συςτήματα Προγραμματιςμόσ Συςτήματοσ. Μνήμη

Φοιτητόσ : Κουκϊρασ Παραςκευϊσ ΑΜ : 06/3059 Ίδρυμα/Τμόμα : Αλεξϊνδρειο Τεχνολογικό Εκπαιδευτικό Ιδρυμα/Πληροφορικόσ

Μαθηματικϊ Γ' Ενιαύου Λυκεύου (μϊθημα κατεύθυνςησ)

**************** Η ΤΓΧΡΟΝΗ ΜΟΤΙΚΗ ΠΑΙΔΕΙΑ ΣΗ ΔΕΤΣΕΡΟΒΑΘΜΙΑ ΕΚΠΑΙΔΕΤΗ:

ΑΡΦΙΣΕΚΣΟΝΙΚΟ ΔΙΑΓΩΝΙΜΟ ELITH

ΠΡΟΓΡΑΜΜΑ ΠΟΤΔΩΝ ΝΗΠΙΑΓΩΓΕΙΟΤ

Ποιοσ εύναι υπεύθυνοσ για την ςυλλογό δεδομϋνων αυτόσ τησ ιςτοςελύδασ;

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ ΘΕΜΑ Α Α1 Μονάδες 10 Μονάδες 4 ΤΕΛΟΣ 1ΗΣ ΣΕΛΙΔΑΣ

Εννοιολογικόσ προςδιοριςμόσ εξωτερικόσ και εςωτερικόσ επικοινωνύασ Μορφϋσ εςωτερικόσ επικοινωνύασ Τρόποι επικοινωνύασ με τισ διϊφορεσ ομϊδεσ κοινού

ΕΤΜΘΙΕΡ ΑΝΘΜΞΛΗΡΗΡ ΑΟΞΕΚΕΡΛΑΩΜ ΛΗΤΑΜΩΜ ΑΜΑΖΗΗΡΗΡ ΛΕ ΒΑΡΗ ΗΜ ΘΡΞΠΘΑ ΞΣ ΤΠΗΡΗ

Σχεδιαςμόσ & Εκπόνηςη Εκπαιδευτικήσ Ζρευνασ

Θεωρύεσ Μϊθηςησ και ΤΠΕ Συμπεριφοριςμόσ

ΣΧΕΔΙΟ ΝΟΜΟΥ ΑΙΤΙΟΛΟΓΙΚΗ ΕΚΘΕΣΗ

ενϊριο Διδαςκαλύασ: Ανϊπτυξη Παιχνιδιού-Μϋροσ 1

Δομή και ςτρατηγική των ελαιοκομικών ςυνεταιριςμών τησ Περιφέρειασ Κρήτησ. 1

ΕΛΕΓΦΟ ΕΜΠΟΡΕΤΜΑΣΨΝ ΣΕΦΝΙΚΟ ΜΑΓΕΙΡΙΚΗ ΣΕΦΝΗ ΑΡΦΙΜΑΓΕΙΡΑ (CHEF)

Επικοινωνύα. twitter: tatsis_kostas Τηλϋφωνο: Ώρεσ ςυνεργαςύασ: κλειδύ: did2009

ΚΕΥΑΛΑΙΟ Z ΜΕΣΡΑ ΓΙΑ ΣΗΝ ΟΛΙΚΗ ΑΠΑΓΟΡΕΤΗ ΣΟΤ ΚΑΠΝΙΜΑΣΟ ΣΟΤ ΔΗΜΟΙΟΤ ΦΩΡΟΤ ΣΡΟΠΟΠΟΙΗΗ ΣΩΝ ΝΟΜΩΝ 3730/2008 ΚΑΙ 3370/2005

ΑΡΧΗ 1Η ΕΛΙΔΑ ΘΕΜΑ A Α. Μονάδεσ 10 Μονάδεσ 5 Μονάδεσ 4 4 Ε. 1 Μονάδεσ 2 Ε. 2 Μονάδεσ 5 ΣΕΛΟ 1Η ΕΛΙΔA

Επιςκόπηςη Τεχνολογιών Διαδικτύου

«ΕΙΔΙΚΑ ΘΕΜΑΣΑ ΣΟΝ ΠΡΟΓΡΑΜΜΑΣΙΜΟ ΤΠΟΛΟΓΙΣΩΝ» Κεφϊλαιο2: Βαςικϊ ςτοιχεύα τησ γλώςςασ

ΤΠΟΜΝΗΜΑ. Επεξήγηςη Συντμήςεων: Α.Φ.= Αυτιςτικό Φάςμα - Π.Σ.= Παράλληλη Στήριξη

Case Studies. χρειάζεται να προςλάβουμε εμείσ άνθρωπο να ςυντηρεί τουσ servers». Επιτεύχθηκε μια επεκτϊςιμη λύςη με γρόγορη προςαρμογό των χρηςτών.

Χαιρετιςμόσ Αντιπροέδρου του Συμβουλίου του Οικονομικού Πανεπιςτημίου Αθηνών, Καθηγητή Γεώργιου Ι. Αυλωνίτη

Το Νέο Εκπαιδευηικό Σύζηημα

ΣΤΟΧΟΙ ΜΑΘΗΜΑΤΟΣ ΜΑΘΗΜΑΤΙΚΩΝ

ΙΕΚ Πϊτρασ Σεχνικόσ Σουριςτικών Μονϊδων και Επιχειρόςεων Υιλοξενύασ & Διούκηςη Επιχειρόςεων

Απαντιςεισ ςε ερωτιματα υποψθφίων διαγωνιηομζνων

OPOI YMMETOXH ΔIAΓΩNIMOY «ΠΡΩΣΗ ΓΡΑΜΜΗ»

A1. Να γρϊψετε την περύληψη του κειμϋνου που ςασ δόθηκε ( λϋξεισ). Μονάδεσ 25

Επιταχυντϋσ Σωματιδύων

&

Σχεδιαςμόσ & Εκπόνηςη Εκπαιδευτικήσ Έρευνασ

Απολυτόριεσ Εξετϊςεισ Ημερόςιων Γενικών Λυκεύων. Εξεταζόμενο Μϊθημα: Νεοελληνική Γλώςςα, Ημ/νύα: 14 Μαύου Ενδεικτικέσ Απαντήςεισ Θεμάτων

ΣΑΣΙΣΙΚΗ ΣΩΝ ΕΠΙΧΕΙΡΗΕΩΝ

Υπουργεύο Παιδεύασ, Δια Βύου Μϊθηςησ και Θρηςκευμϊτων

«Αδελφοπούηςη ςχολεύων Εκπαιδευτικϋσ επιςκϋψεισ: Προώποθϋςεισ, πρωτόκολλο ςυνεργαςύασ, ϋγκριςη μετακύνηςησ»

Άμεςη καθιϋρωςη τησ 2χρονησ υποχρεωτικόσ δημόςιασ προςχολικόσ αγωγόσ και εκπαύδευςησ. Μαζικού μόνιμοι διοριςμού τώρα!

Transcript:

ΠΑΝΕΠΙΣΗΜΙΟ ΑΙΓΑΙΟΤ ΣΜΗΜΑ ΜΗΦΑΝΙΚΨΝ ΠΛΗΡΟΥΟΡΙΑΚΨΝ ΚΑΙ ΕΠΙΚΟΙΝΨΝΙΑΚΨΝ ΤΣΗΜΑΣΨΝ Σεχνικές Βελτιστοποίησης Κατάταξης Δικτυακών Σόπων σε Αποτελέσματα Τπηρεσιών Αναζήτησης στο Διαδίκτυο Η Διπλωματική Εργασία παρουσιάστηκε ενώπιον του Διδακτικού Προσωπικού του Πανεπιστημίου Αιγαίου ε Μερική Εκπλήρωση των Απαιτήσεων για το Δίπλωμα του Μηχανικού Πληροφοριακών και Επικοινωνιακών υστημάτων του ΑΘΑΝΑΙΟΤ ΛΟΤΚΑ, Α.Μ.: 321/2003043 ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2008 i

Η ΣΡΙΜΕΛΗ ΕΠΙΣΡΟΠΗ ΔΙΔΑΚΟΝΣΨΝ ΕΓΚΡΙΝΕΙ ΣΗ ΔΙΠΛΨΜΑΣΙΚΗ ΕΡΓΑΙΑ ΣΟΤ ΑΝΑΘΑΙΟΤ ΛΟΤΚΑ: Ιωάννης Αναγνωστόπουλος, Επιβλέπων Σμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών υστημάτων Άγγελος Ρούσκας, Μέλος Σμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών υστημάτων Δημοσθένης Βουγιούκας, Μέλος Σμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών υστημάτων ΠΑΝΕΠΙΣΗΜΙΟ ΑΙΓΑΙΟΤ ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ 2008 ii

ΠΕΡΙΛΗΧΗ τόχος της παρούσας διπλωματικής εργασίας είναι η μελέτη των τρόπων αναζήτησης πληροφορίας στο διαδίκτυο, δηλαδή οι μηχανές αναζήτησης και μετα-αναζήτησης, καθώς και των προβλημάτων που εμφανίζονται κατά την ανάκτηση των αποτελεσμάτων. Θα μελετηθούν οι τεχνικές καθώς και τα βασικά χαρακτηριστικά βελτιστοποίησης κατάταξης των δικτυακών τόπων στα αποτελέσματα των αναζητήσεων και θα γίνει επισκόπηση των υπαρχόντων μηχανισμών προώθησης των αποτελεσμάτων. τη συνέχεια, θα προταθεί μια μέθοδος βελτιστοποίησης των αποτελεσμάτων για τη μηχανή αναζήτησης Google η οποία βασίζεται τόσο στην δομή και το περιεχόμενο της ιστοσελίδας όσο και στους συνδέσμους που υπάρχουν στη σελίδα αυτή. Η πρόταση αυτή θα συνοδεύεται από την υλοποίηση λογισμικού το οποίο μετά από έλεγχο συγκεκριμένων παραμέτρων θα παράγει αυτοματοποιημένες συστάσεις βελτιστοποίησης. Σέλος, θα παρατεθούν τα συμπεράσματα της μελέτης αυτής καθώς και οι δυνατότητες που υπάρχουν για μελλοντική έρευνα και βελτιώσεις. Λέξεις Κλειδιά: Αναζήτηση Πληροφορίας, Μηχανές Αναζήτησης, Μηχανές Μετα- Αναζήτησης, Βελτιστοποίηση Κατάταξης, Θέσεις Κατάταξης. Αθανάσιος Λουκάς Σμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών υστημάτων ΠΑΝΕΠΙΣΗΜΙΟ ΑΙΓΑΙΟΤ [ ] 2008 iii

ABSTRACT The aim of this final diploma thesis is the study of ways to search and retrieve information on the Internet, meaning search engines and meta-search engines, as well as the problems arising during the retrieval process. We study the techniques and basic characteristics of existing search engine optimization (SEO) techniques and review existing mechanisms to promote results at higher ranking positions. Afterwards, an optimization method for Google s search engine will be proposed. This method is based not only on the structure and content of the website but also on the inbound and outbound links of the page. The implementation of software will accompany the method. This software, after the examination of certain parameters, will produce analysis results and optimization recommendations. Finally, the findings of the study will be quoted as well as the possibilities for future research and improvement. Keywords: search engines, meta-search engines, rank, search engine optimization, seo Athanasios Loukas Department of Information and Communication Systems Engineering UNIVERSITY OF THE AEGEAN [ ] 2008 iv

ΕΤΦΑΡΙΣΙΕ - ΑΥΙΕΡΨΕΙ Πριν την παρουσίαση των αποτελεσμάτων της παρούσας διπλωματικής εργασίας, θα ήθελα να ευχαριστήσω ορισμένους ανθρώπους που γνώρισα και συνεργάστηκα μαζί τους και έπαιξαν πολύ σημαντικό ρόλο τόσο στην πραγματοποίησή της παρούσας διπλωματικής όσο και στην πορεία μου ως φοιτητής. Αρχικά, οφείλω ένα μεγάλο ευχαριστώ στον επιβλέποντα καθηγητή της διπλωματικής εργασίας, Λέκτορα κύριο Ιωάννη Αναγνωστόπουλο, για την εμπιστοσύνη που μου έδειξε καθώς και για την καθοδήγηση του. Ευχαριστώ, επίσης, θερμά τους συναδέρφους συμφοιτητές μα πάνω απ όλα φίλους μου, οι οποίοι στάθηκαν σημαντικοί αρωγοί στην προσπάθειά μου και με υποστήριξαν σε κάθε φάση της πορείας μου. Σέλος, θέλω να ευχαριστήσω τους γονείς μου και γενικότερα το οικογενειακό μου περιβάλλον που μου προσέφεραν όλα αυτά τα χρόνια την απαραίτητη, κάθε είδους, συμπαράσταση για την ολοκλήρωση όχι μόνο της διπλ ωματικής αυτής εργασίας, αλλά και γενικότερα των προπτυχιακών σπουδών μου. ε αυτούς και την αφιερώνω. v

ΠΙΝΑΚΑ ΠΕΡΙΕΦΟΜΕΝΨΝ ΠΕΡΙΛΗΧΗ... iii ABSTRACT... iv ΕΤΦΑΡΙΣΙΕ - ΑΥΙΕΡΨΕΙ... v ΠΙΝΑΚΑ ΠΕΡΙΕΦΟΜΕΝΨΝ... vi ΚΑΣΑΛΟΓΟ ΠΙΝΑΚΨΝ... ix ΚΑΣΑΛΟΓΟ ΕΙΚΟΝΨΝ... x 1 Δηζαγσγή... 11 1.1 Αληηθείκελν ηεο Γηπισκαηηθήο Δξγαζίαο... 12 1.1.1 πλεηζθνξά... 12 1.2 Οξγάλσζε Κεηκέλνπ... 13 2 Αλαδήηεζε Πιεξνθνξίαο ζην Γηαδίθηπν... 14 2.1 Ιζηνξηθή Δμέιημε Γηαδηθηύνπ... 14 2.2 Ο Παγθόζκηνο Ιζηόο... 16 2.3 Μεραλέο Αλαδήηεζεο... 18 2.3.1 Απηόκαηεο Μεραλέο Αλαδήηεζεο... 19 2.3.2 Θεκαηηθνί Καηάινγνη... 20 2.3.3 Τβξηδηθέο Μεραλέο Αλαδήηεζεο... 21 2.3.4 Άιιεο Μεραλέο Αλαδήηεζεο... 21 2.4 Μεραλέο Μεηα-Αλαδήηεζεο... 23 2.4.1 Λεηηνπξγία κηαο Μεραλήο Μεηα-Αλαδήηεζεο... 23 2.4.2 Δίδε Μεραλώλ Μεηα-Αλαδήηεζεο... 24 2.4.3 Αξρηηεθηνληθή ησλ Μεραλώλ Μεηα-Αλαδήηεζεο... 26 2.4.4 Υαξαθηεξηζηηθά ησλ Μεραλώλ Μεηα-Αλαδήηεζεο... 28 3 Πξνβιήκαηα θαη Πεξηνξηζκνί... 30 3.1 Πξνβιήκαηα ζηελ Αλάθηεζε Πιεξνθνξίαο ζην Γηαδίθηπν... 30 3.2 Πξνβιήκαηα ησλ Τπεξεζηώλ Αλαδήηεζεο... 31 3.2.1 Μεραλέο Αλαδήηεζεο... 31 3.2.2 Μεραλέο Μεηα-αλαδήηεζεο... 34 4 Σερληθέο θαη Βαζηθά Υαξαθηεξηζηηθά Βειηηζηνπνίεζεο... 36 4.1 Δμέιημε Σερληθώλ Καηάηαμεο... 36 4.2 Δπηζθόπεζε Σερληθώλ Βειηηζηνπνίεζεο... 38 4.2.1 Πιεξσκέλε πκπεξίιεςε... 38 4.2.2 Πιεξσκή Βάζε Δπηζθέςεσλ... 38 vi

4.2.3 Βειηηζηνπνίεζε γηα ηηο Μεραλέο Αλαδήηεζεο... 39 4.3 Βειηηζηνπνίεζε γηα ηηο Μεραλέο Αλαδήηεζεο... 40 4.3.1 Καηαρώξεζε Ιζηνζειίδαο... 40 4.3.2 Βαζηθά Υαξαθηεξηζηηθά Βειηηζηνπνίεζεο... 41 4.3.3 Μαύξεο ηερληθέο... 44 4.4 ρεηηθά Δξγαιεία θαη Σερληθέο... 47 4.4.1 Δθαξκνγέο Βειηηζηνπνίεζεο Καηάηαμεο... 47 4.4.2 Δηαηξείεο Βειηηζηνπνίεζεο Καηάηαμεο... 49 5 Πξνηεηλόκελε Μέζνδνο Βειηηζηνπνίεζεο Απνηειεζκάησλ γηα ηε Μεραλή Αλαδήηεζεο Google... 50 5.1 Η αλάιπζε... 50 5.2 Web Site Analyzer... 52 5.3 Μειέηε Πεξίπησζεο... 54 5.3.1 Φξάζε «παλεπηζηήκην ζάκνπ»... 55 5.3.2 Όξνο «παλεπηζηήκην»... 56 5.3.3 Όξνο «ζάκνπ»... 58 5.3.4 Φξάζε «samos university»... 59 5.3.5 Όξνο «samos»... 60 5.3.6 Όξνο «university»... 62 5.4 Σερληθή βειηηζηνπνίεζεο... 65 5.4.1 Δλδεηθηηθή πξόηαζε... 68 6 ΤΜΠΔΡΑΜΑΣΑ... 69 6.1 Βειηηζηνπνίεζε γηα Μεραλέο Αλαδήηεζεο... 69 6.2 Μειινληηθή Έξεπλα - Βειηηώζεηο... 70 ΒΙΒΛΙΟΓΡΑΦΙΑ... 71 ΠΑΡΑΡΣΗΜΑ I - Μεραλέο Αλαδήηεζεο... 76 ΠΑΡΑΡΣΗΜΑ II - Ο θώδηθαο... 82 Κλήση Σελίδας... 82 Ανάλυση HREF... 82 Ανάλυση META Name... 83 Ανάλυση META Content... 83 Ανάλυση IMG Alt... 83 Ανάλυση TITLE... 84 Ανάλυση Body... 84 Ανάλυση H1... 85 Ανάλυση B... 86 vii

Ανάλυση Strong... 87 Αναφορά... 88 ΠΑΡΑΡΣΗΜΑ III - Οη αλαθνξέο... 89 ΠΑΡΑΡΣΗΜΑ IV - Αληηζηνίρεζε ειιεληθώλ θαη αγγιηθώλ όξσλ... 100 viii

ΚΑΣΑΛΟΓΟ ΠΙΝΑΚΨΝ Πίνακας 2-1: Κάλυψη Ιστοσελίδων από Μηχανές Αναζήτησης...17 Πίνακας 6-1: Πίνακας Αποτελεσμάτων για τη φράση «πανεπιστήμιο σάμου»...55 Πίνακας 6-2: Πίνακας Αποτελεσμάτων για τον όρο «πανεπιστήμιο»...57 Πίνακας 6-3: Πίνακας Αποτελεσμάτων για τον όρο «σάμου»...58 Πίνακας 6-4: Πίνακας Αποτελεσμάτων για τη φράση «samos university»...60 Πίνακας 6-5: Πίνακας Αποτελεσμάτων για τον όρο «samos»...61 Πίνακας 6-6: Πίνακας Αποτελεσμάτων για τον όρο «university»...63 ix

ΚΑΣΑΛΟΓΟ ΕΙΚΟΝΨΝ Εικόνα 2-1: Η Ανάπτυξη του ARPANET...14 Εικόνα 2-2: Συνδεδεμένοι Υπολογιστές στον Παγκόσμιο Ιστό (1994-2007)...15 Εικόνα 2-3: Κατανομή του είδους της Πληροφορίας στον Παγκόσμιο Ιστό...16 Εικόνα 2-4: Λειτουργία Αυτόματης Μηχανής Αναζήτησης...19 Εικόνα 2-5: Στάδια Λειτουργίας μιας Μηχανής Μετα-Αναζήτησης...25 Εικόνα 3-1: Ποσοστό Κάλυψης Παγκόσμιου Ιστού...31 Εικόνα 4-1: Διαφημίσεις Πληρωμής Βάση Επισκέψεων στη Google...38 Εικόνα 4-2: Απλή σύνδεση της κύριας σελίδας ενός Ιστοχώρου...42 Εικόνα 4-3: Πλήρης σύνδεση της κύριας σελίδας ενός Ιστοχώρου...43 Εικόνα 4-4: Η τεχνική Cloaking...44 Εικόνα 4-5: Ιστοσελίδες Πύλες...45 Εικόνα 6-1: Προτάσεις Βελτιστοποίησης για τον όρο «πανεπιστήμιο»...68 x

1 Εισαγωγή Στη ςημερινό εποχό τησ κοινωνύασ τησ πληροφορύασ, η καθιϋρωςη και εξϊπλωςη του Διαδικτύου (Internet) ςυνεπϊγεται τη διαθεςιμότητα ενόσ τερϊςτιου όγκου δεδομϋνων καθιςτώντασ εξαιρετικϊ δύςκολη την ανϊκτηςη τησ χρόςιμησ πληροφορύασ. Αυτό εύχε ωσ αποτϋλεςμα την ανϊπτυξη διαφόρων εργαλεύων λογιςμικού που αποςκοπούςαν ςτην εύκολη και γρόγορη εύρεςη πληροφοριών ςχετικϊ με κϊποιο θϋμα. Λόγω τησ επύδραςησ του Παγκόςμιου Ιςτού (World Wide Web) ςτον ςύγχρονο τρόπο ζωόσ, τόςο ςτον επιχειρηματικό όςο και ςτον εμπορικό και διαφημιςτικό τομϋα, η ανϊπτυξη τεχνικών βελτιςτοπούηςησ κατϊταξησ των δικτυακών τόπων ςε υψηλότερεσ θϋςεισ ςε υπηρεςύεσ αναζότηςησ ςτο διαδύκτυο ςυνιςτϊ ϋνα πρόβλημα για το οπούο μεγϊλεσ επιχειρόςεισ και οργανιςμού αναζητούν λύςη. Οι τεχνικϋσ αυτϋσ αποςκοπούν ςε ενϋργειεσ και αυτοματοποιημϋνεσ δραςτηριότητεσ από εξειδικευμϋνα εργαλεύα τα οπούα ςτοχεύουν ςτην προώθηςη ενόσ δικτυακού τόπου (web site) ςε όςο το δυνατόν υψηλότερεσ θϋςεισ κατϊταξησ (ranking positions) ςτα επιςτρεφόμενα αποτελϋςματα μιασ υπηρεςύασ αναζότηςησ. Από την ϊλλη πλευρϊ όμωσ, οι μη-ορθϋσ προςεγγύςεισ του προβλόματοσ ενδϋχεται, με μεγϊλη πιθανότητα, να επιφϋρουν τα αντύθετα αποτελϋςματα. Οι μεγϊλεσ υπηρεςύεσ αναζότηςησ «τιμωρούν» τϋτοιεσ λανθαςμϋνεσ ενϋργειεσ εύτε με υποβιβαςμό τησ ιςτοςελύδασ ςε χαμηλότερη θϋςη κατϊταξησ, ςε μελλοντικϋσ ερωτόςεισ του χρόςτη, εύτε ακόμα και με αποκλειςμό του δικτυακού τόπου από τα αρχεύα και τα ευρετόρια που ςυντηρούν και ανανεώνουν ςυνεχώσ οι υπηρεςύεσ αυτϋσ. 11

1.1 Αντικείμενο της Διπλωματικής Εργασίας Στην παρούςα εργαςύα μελετώνται οι διϊφοροι τρόποι αναζότηςησ πληροφορύασ ςτο διαδύκτυο καθώσ και των προβλημϊτων που αντιμετωπύζουμε κατϊ την αναζότηςη αυτό. Επύςησ, παρουςιϊζονται τεχνικϋσ και εργαλεύα βελτιςτοπούηςησ κατϊταξησ των αποτελεςμϊτων ςτα αποτελϋςματα των μηχανών αναζότηςησ. Τϋλοσ, προτεύνεται μια μϋθοδοσ βελτιςτοπούηςησ αποτελεςμϊτων για τη μηχανό αναζότηςησ Google και υλοποιεύται μια εφαρμογό η οπούα θα ςυμβϊλει ςτη βελτιςτοπούηςη τησ κατϊταξησ με βϊςη αποτελϋςματα που εξϊγονται από το περιεχόμενο του δικτυακού τόπου καθώσ και από τουσ ςυνδϋςμουσ που περιϋχει. 1.1.1 υνεισφορά Η ςυνειςφορϊ τησ εργαςύασ αυτόσ ϋγκειται ςτο να βρούμε τρόπουσ βελτιςτοπούηςησ τησ κατϊταξησ των αποτελεςμϊτων ςε αποτελϋςματα υπηρεςιών αναζότηςησ. Δηλαδό, με βϊςη κϊποια ςυγκεκριμϋνα κριτόρια βαςιςμϋνα ςτη δομό, το περιεχόμενο και τουσ ςυνδϋςμουσ ενόσ δικτυακού τόπου, να κϊνουμε ςυγκεκριμϋνεσ προτϊςεισ οι οπούεσ θα ςυνειςφϋρουν ςτη βελτύωςη αυτό. 12

1.2 Οργάνωση Κειμένου Η διπλωματικό εργαςύα αποτελεύται από ϋξι ςυνολικϊ κεφϊλαια. Στο πρώτο κεφϊλαιο γύνεται μια γενικό ειςαγωγό ςτο θϋμα τησ διπλωματικόσ καθώσ και ςτο αντικεύμενο με το οπούο θα αςχοληθεύ και αναφϋρεται η ςυνειςφορϊ τησ. Στο δεύτερο κεφϊλαιο εξετϊζουμε τουσ τρόπουσ αναζότηςησ πληροφορύασ ςτο διαδύκτυο. Αρχικϊ, γύνεται μια ιςτορικό αναδρομό ςτο διαδύκτυο καθώσ και ςτον Παγκόςμιο Ιςτό και ςτη ςυνϋχεια περιγρϊφουμε αναλυτικϊ τισ λειτουργύεσ των Μηχανών Αναζότηςησ καθώσ και των Μηχανών Μετα-Αναζότηςησ. Στη ςυνϋχεια, ςτο τρύτο κεφϊλαιο, γύνεται μια αναφορϊ ςτα προβλόματα που ςυναντούμε κατϊ την ανϊκτηςη πληροφορύασ από τον Παγκόςμιο Ιςτό και εξετϊζονται τα προβλόματα και οι περιοριςμού τόςο των Μηχανών Αναζότηςησ όςο και των Μηχανών Μετα-Αναζότηςησ. Το τϋταρτο κεφϊλαιο αναφϋρεται καθαρϊ ςτισ τεχνικϋσ κατϊταξησ. Γύνεται μια αρχικό ειςαγωγό και ιςτορικό αναδρομό ςτισ τεχνικϋσ κατϊταξησ και εν ςυνεχεύα παρουςιϊζονται οι βαςικϋσ τεχνικϋσ. Ϋπειτα, αναλύεται η τεχνικό τησ Βελτιςτοπούηςησ για τισ Μηχανϋσ Αναζότηςησ. Τϋλοσ, γύνεται μια παρουςύαςη των εφαρμογών που βοηθούν ςτη βελτιςτοπούηςη αυτό καθώσ και των εταιριών που δραςτηριοποιούνται ςτο χώρο τησ βελτιςτοπούηςησ. Στο πϋμπτο κεφϊλαιο προτεύνεται μια μϋθοδοσ βελτιςτοπούηςησ των αποτελεςμϊτων για τη Μηχανό Αναζότηςησ Google, περιγρϊφεται η μϋθοδοσ αυτό, περιγρϊφεται η εφαρμογό που υλοποιόθηκε για την αυτοματοπούηςησ των διαδικαςιών και τϋλοσ, γύνεται μια μελϋτη περύπτωςησ ώςτε να παρουςιαςτούν τα τελικϊ αποτελϋςματα. Τϋλοσ, ςτο ϋκτο κεφϊλαιο, ςυνοψύζονται τα ςυμπερϊςματα που εξόχθηςαν από την διπλωματικό αυτό και προτεύνονται ςημεύα για μελλοντικό ϋρευνα και βελτιώςεισ ςτον υπό εξϋταςη τομϋα. 13

2 Αναζήτηση Πληροφορίας στο Διαδίκτυο Σε αυτό το κεφϊλαιο γύνεται, αρχικϊ, μια ςύντομη ειςαγωγό ςτην ιςτορύα του Διαδικτύου καθώσ και ςτην ϋννοια του Παγκόςμιου Ιςτού και ςτη ςυνϋχεια πραγματοποιεύται μια εκτεταμϋνη αναφορϊ ςε Μηχανϋσ Αναζότηςησ (Search Engines) και Μηχανϋσ Μετα-Αναζότηςησ (Meta-Search Engine) με την βοόθεια των οπούων οι χρόςτεσ μπορούν να εντοπύςουν και να προςπελϊςουν την πληροφορύα από απομακρυςμϋνεσ πηγϋσ. 2.1 Ιστορική Εξέλιξη Διαδικτύου Όπωσ και πολλϋσ ϊλλεσ πετυχημϋνεσ ιδϋεσ, το διαδύκτυο ξεκύνηςε με πολύ διαφορετικό ςκοπό. Κατϊ τισ δεκαετύεσ του 50 και 60, ο Ψυχρόσ πόλεμοσ βριςκόταν ςτο αποκορύφωμα του και οι Ηνωμϋνεσ Πολιτεύεσ βρύςκονταν ςε ςυνεχό ςτρατιωτικό και τεχνολογικό ανταγωνιςμό με τη Σοβιετικό Ϋνωςη. Ϋτςι, το 1958 το υπουργεύο Αμύνησ των ΗΠΑ ςυςτόνει την υπηρεςύα προωθούμενων ερευνητικών ϋργων (Advanced Research Projects Agency - ARPA) με ςκοπό να ςυντονύςει και να προωθόςει την τεχνολογικό ϋρευνα μεταξύ των διαφόρων ερευνητικών ινςτιτούτων και εκπαιδευτικών ιδρυμϊτων τησ χώρασ ώςτε να διαςφαλιςτεύ η εδαφικό ακεραιότητα των ΗΠΑ καθώσ και η τεχνολογικό υπεροχό τουσ. Το 1969 δημιουργεύται το πρόγραμμα ARPANET και ανατύθεται ςτουσ Bolt, Beranek και Newman ο ςχεδιαςμόσ και η υλοπούηςη ενόσ δικτύου που θα διαςυνδϋςει πανεπιςτόμια και εταιρύεσ ςτρατιωτικών και αμυντικών ϋργων ώςτε να διευκολυνθεύ η ανταλλαγό πληροφοριών μεταξύ των ερευνητών καθώσ τη μελϋτη του τρόπου διατόρηςησ των επικοινωνιών ςε περύπτωςη πυρηνικόσ επύθεςησ. Οι πρώτεσ ενώςεισ του δικτύου περιελϊμβαναν τα πανεπιςτόμια California, Los Angeles, Stanford, Santa Barbara και UTAH και καθώσ το δύκτυο μεγϊλωνε πρόςθεςαν δυνατότητεσ μεταφορϊσ αρχεύων, ηλεκτρονικού ταχυδρομεύου, και ταχυδρομικών λιςτών ώςτε να κρατούν ςε επαφό ανθρώπουσ με κοινϊ ενδιαφϋροντα. 14

Δικόνα 2-1: Η ανάπηςξε ηος ARPANET. (a) Γεκέμβπιορ 1969 (b) Ιούλιορ 1970 (c) Μάπηιορ 1971 (d) Αππίλιορ 1972 (e) Σεπηέμβπιορ 1972 Παρϊλληλα με την επϋκταςη του ARPANET δημιουργόθηκαν και ϊλλα δύκτυα ενώ φαινόταν καθαρϊ η επιτακτικό ανϊγκη δημιουργύασ ενόσ «δικτύου των δικτύων». Το 1973 η ARPA με το νϋο όνομα τησ DARPA (Defense Advanced Research Project Agency) επικεντρώθηκε ςτην ϋρευνα του τρόπου διαςύνδεςησ των δικτύων, ϋτςι γεννόθηκε το πρωτόκολλο TCP από το πανεπιςτόμιο του Stanford. Το 1984 το National Science Foundation (NSF) των ΗΠΑ εγκαθιδρύει το δικό του δύκτυο, το επονομαζόμενο NSFNET, το οπούο αρχύζει να χρηςιμοποιεύ το ARPANET. Το 1990 η κυβϋρνηςη των ΗΠΑ αναθϋτει τη διαχεύριςη του ARPANET ςτο NSF και το 1995 το NSF κλεύνει και ανούγει ο δρόμοσ για την ιδιωτικό διαχεύριςη του internet. 15

2.2 Ο Παγκόσμιος Ιστός Η ιδϋα του Παγκόςμιου Ιςτού πρωτοεμφανύςτηκε το 1989 από τον Tim Berners-Lee και ϊλλουσ επιςτόμονεσ του οργανιςμού CERN ςτη Γενεύη. Στόχοσ όταν η δημιουργύα ενόσ δικτύου ιςτοςελύδων που θα επϋτρεπαν την αναζότηςη και μεταφορϊ των πληροφοριών που περιϋχουν. Μϋχρι τα τϋλη του επόμενου χρόνου, πραγματοποιεύται η επύδειξη του πρώτου λογιςμικού που υλοποιεύ τον πρώτο ςτοιχειώδη Παγκόςμιο Ιςτό. Αρχικϊ, γύνεται διαθϋςιμη όλη η υπϊρχουςα πληροφορύα που βρύςκεται αποθηκευμϋνη ςτο υπολογιςτικό ςύςτημα του ινςτιτούτου η οπούα ϋχει ωσ μϋςο προςπϋλαςησ τον επονομαζόμενο Πλοηγητό Παγκόςμιου Ιςτού [1]. Αρχικϊ, η ανϊπτυξη του Παγκόςμιου Ιςτού όταν μικρό και μϋχρι το τϋλοσ του 1992 υπόρχαν μόλισ 50 ιςτοςελύδεσ, ενώ ϋνα χρόνο μετϊ ο αριθμόσ αυτόσ αυξόθηκε ςε 150. Μϋχρι τα τϋλη του 1994, ο Παγκόςμιοσ Ιςτόσ παρουςιϊζει ραγδαύα ανϊπτυξη μετρώντασ 10.000 εξυπηρετητϋσ και 10.000.000 χρόςτεσ ενώ ςτισ μϋρεσ μασ οι χρόςτεσ ϋχουν ξεπερϊςει τα 500.000.000. Δικόνα 2-2: Σςνδεδεμένοι ςπολογιζηέρ ζηον Παγκόζμιο Ιζηό (1994-2007) Η παραπϊνω εξϊπλωςη του Παγκόςμιου Ιςτού και του Διαδικτύου ςυνεπϊγεται την διαθεςιμότητα ενόσ τερϊςτιου όγκου πληροφοριών και δεδομϋνων, ςε ςημεύο που ο εντοπιςμόσ του καθύςταται εξαιρετικϊ δύςκολοσ ϋωσ αδύνατοσ. Μια ενδεικτικό κατανομό τησ ποικιλύασ τησ διαθϋςιμησ πληροφορύασ παρουςιϊζεται ςτο παρακϊτω ςχόμα όπου ενδιαφϋρον παρουςιϊζει το γεγονόσ ότι το 83% ςχετύζεται με εμπορικϋσ δραςτηριότητεσ [2],[3]. 16

Δικόνα 2-3: Καηανομή ηος είδοςρ ηερ πλεποθοπίαρ ζηον Παγκόζμιο Ιζηό Στο ςημερινό χώρο του διαδικτύου, όπου ο όγκοσ τησ πληροφορύασ αυξϊνεται εκθετικϊ, κρύνεται ολοϋνα και επιτακτικότερη η ύπαρξη των κατϊλληλων υπηρεςιών ώςτε οι χρόςτεσ να καταβϊλλουν την ελϊχιςτη δυνατό προςπϊθεια ανακϊλυψησ, ςυλλογόσ, ςύγκριςησ, ανϊλυςησ και ταξινόμηςησ των πληροφοριών που εξυπηρετούν τισ ανϊγκεσ τουσ [4],[5]. Η τερϊςτια ποςότητα τησ διαθϋςιμησ πληροφορύασ ςτο Διαδύκτυο μπορεύ να αποτελεύ το μεγϊλο του πλεονϋκτημα αλλϊ ταυτόχρονα και το αδύνατο ςημεύο του. Ο λόγοσ εύναι ότι ςε ϋναν τϋτοιο όγκο πληροφορύασ ςυχνϊ η αναζότηςη, από την πλευρϊ του χρόςτη, καταλόγει να εύναι δυςχερόσ ό μη πλόρησ ςε ορθϊ αποτελϋςματα. Ϋτςι, παρατηρεύται μια διαρκώσ αυξανόμενη τϊςη προσ εκτϋλεςη πολύπλοκων ερωτόςεων από τουσ χρόςτεσ ώςτε να λϊβουν τα δεδομϋνα που επιθυμούν. Το να εντοπύςει όμωσ κανεύσ τισ ςχετικϋσ πηγϋσ πληροφορύασ θεωρεύται εξαιρετικϊ δύςκολη εργαςύα. Το πιο δημοφιλϋσ εργαλεύο αναζότηςησ πληροφοριών που αποτελεύ ταυτόχρονα και μια λύςη ςτα παραπϊνω προβλόματα εύναι οι διϊφορεσ Μηχανϋσ Αναζότηςησ [6]. Στο Παρϊρτημα Ι υπϊρχει κατϊλογοσ με όλεσ τισ μηχανϋσ αναζότηςησ κατηγοριοποιημϋνεσ με διϊφορουσ τρόπουσ. 17

2.3 Μηχανές Αναζήτησης Οι Μηχανϋσ Αναζότηςησ εύναι ειδικϊ εργαλεύα λογιςμικού που επιτρϋπουν την αναζότηςη και ανϊκτηςη πληροφορύασ ςτον Παγκόςμιο Ιςτό χρηςιμοποιώντασ απλϋσ λϋξεισ κλειδιϊ. Σύμφωνα με ςτατιςτικϋσ, το 56% των χρηςτών που εύναι κϊθε ςτιγμό ςυνδεδεμϋνοι χρηςιμοποιούν τισ μηχανϋσ αναζότηςησ για να εντοπύςουν μια ιςτοςελύδα με το περιεχόμενο που τουσ ενδιαφϋρει [7]. Όταν ϋνασ χρόςτησ αναζητϊ μια πληροφορύα μϋςα από μια μηχανό αναζότηςησ, αυτό δεν αναζητεύται μϋςα από τον Παγκόςμιο Ιςτό, ςτην πραγματικότητα η αναζότηςη γύνεται μϋςα ςτουσ καταλόγουσ που η μηχανό αναζότηςησ ϋχει δημιουργόςει. Οι κατϊλογοι εύναι ςτην ουςύα τερϊςτιεσ βϊςεισ δεδομϋνων που περιϋχουν πληροφορύεσ που ϋχουν ςυλλεχθεύ με διϊφορουσ τρόπουσ, ανϊλογα με το εύδοσ τησ μηχανόσ, οι οπούοι θα περιγραφούν παρακϊτω. Υπολογιςμού ϋδειξαν ότι τον Ιανουϊριο του 2005 ο αριθμόσ των ςελύδων του Παγκόςμιου Ιςτού ανερχόταν ςε πϊνω από 11,5 διςεκατομμύρια ςελύδεσ εκ των οπούων τα 9,4 εύχαν ςυνταχθεύ ςε καταλόγουσ μηχανών αναζότηςησ [8]. Η ύδια ϋρευνα ϋδειξε το ποςοςτό κϊλυψησ των ιςτοςελύδων από τισ μεγαλύτερεσ Μηχανϋσ Αναζότηςησ. Μηχανό Αναζότηςησ Μϋγεθοσ που Δηλώνει (Διςεκατομμύρια) Εκτιμώμενο Μϋγεθοσ (Διςεκατομμύρια) Κϊλυψη υνταγμϋνων ελύδων Κϊλυψη υνόλου ελύδων Google 8,1 8,0 76,2% 69,6% Yahoo 4,2 6,6 69,3% 57,4% Ask 2,5 5,3 57,6% 46,1% MSN 5,0 5,1 61,9% 44,3% Indexed Web 9,4 Total Web 11,5 Πίνακαρ 3-1: Κάλςτε Ιζηοζελίδυν από Μεσανέρ Αναδήηεζερ Στισ μϋρεσ μασ, ο αριθμόσ των καταχωρημϋνων ιςτοςελύδων ανϋρχεται ςτα 27 διςεκατομμύρια [9].Ωςτόςο, το μϋγεθοσ των καταλόγων δεν θα πρϋπει να λαμβϊνεται ωσ υποκατϊςτατο τησ ςχετικότητασ. Ϋχοντασ καταλόγουσ με διςεκατομμύρια ςελύδεσ δεν ςημαύνει τύποτα αν δεν επιςτρϋφονται οι πιο ςχετικϋσ ςελύδεσ ςτα πρώτα αποτελϋςματα. Ανϊλογα με τον τρόπο λειτουργύασ τουσ, οι Μηχανϋσ Αναζότηςησ ταξινομούνται κυρύωσ ςε τρεύσ βαςικϋσ κατηγορύεσ. Στην πρώτη ανόκουν οι Αυτόματεσ Μηχανϋσ Αναζότηςησ, οι οπούεσ ςτηρύζονται ςε ευρετόρια και επιτρϋπουν την αναζότηςη βϊςη 18

λϋξεων-κλειδιών που μπορούν να ςυνδυαςτούν με λογικούσ τελεςτϋσ. Η δεύτερη κατηγορύα βαςύζεται ςε καταλόγουσ που ϋχουν οργανωθεύ με βϊςη τον τύπο και το εύδοσ τησ παρεχόμενησ πληροφορύασ ςτην οπούα ο χρός τησ καταλόγει με κατϊλληλεσ διαδικαςύεσ πλοόγηςησ, οι υπηρεςύεσ αυτϋσ ονομϊζονται και Θεματικού Κατϊλογοι. Η τρύτη κατηγορύα αποτελεύ ςυνδυαςμό των δύο παραπϊνω. Ϋτςι, αυτϋσ οι υπηρεςύεσ αναζότηςησ ονομϊζονται Υβριδικϋσ Μηχανϋσ Αναζότηςησ. Επιπρόςθετα, υπϊρχουν και κϊποια ϊλλα εύδη μηχανών αναζότηςησ όπου υποςτηρύζουν ότι πραγματοποιούν διαδικαςύεσ επεξεργαςύασ φυςικόσ γλώςςασ, ςτα ερωτόματα των χρηςτών, ό παρϋχουν τα αποτελϋςματα τουσ επύ πληρωμό. Διαφϋρουν δηλαδό ςτον τρόπο με τον οπούο παρουςιϊζουν τα τελικϊ αποτελϋςματα ςτον χρόςτη, μπορούν όμωσ να ενταχθούν ςτισ παραπϊνω τρεύσ κατηγορύεσ. Τϋλοσ, υπϊρχουν και οι λεγόμενεσ Μηχανϋσ Μετα-Αναζότηςησ ό Πολύ-Νηματικϋσ Μηχανϋσ Αναζότηςησ, οι οπούεσ επιςτρϋφουν αποτελϋςματα που προϋρχονται από ςυνδυαςμό αποτελεςμϊτων ϊλλων υπηρεςιών αναζότηςησ αντύ από δικϋσ τουσ βϊςεισ δεδομϋνων και ευρετόρια. 2.3.1 Αυτόματες Μηχανές Αναζήτησης Οι μηχανϋσ αυτϋσ ςυλλϋγουν, αποθηκεύουν και επεξεργϊζονται αυτόματα ϋνα τερϊςτιο ποςό ιςτοςελύδων με την βοόθεια προγραμμϊτων που ονομϊζονται crawlres, «αρϊχνεσ», ό ρομπότ. Τα προγρϊμματα αυτϊ επιςκϋπτονται μια ιςτοςελύδα, διαβϊζουν το περιεχόμενο τησ και ακολουθούν τισ υπερςυνδϋςεισ που βρύςκονται ςε αυτό με ςκοπό να επαναλϊβουν την διαδικαςύα αυτό ςτισ καινούργιεσ ιςτοςελύδεσ [10]. Κατόπιν, επιςτρϋφουν επεξεργαςμϋνεσ πληρ οφορύεσ ςτη βϊςη δεδομϋνων τησ Μηχανόσ Αναζότηςησ ανϊ τακτϊ χρονικϊ διαςτόματα [11]. Οποιαδόποτε πληροφορύα βρύςκεται, καταχωρεύται ςτα λεγόμενα ευρετόρια τησ Μηχανόσ Αναζότηςησ τα οπούα ςτην ουςύα εύναι τερϊςτιεσ βϊςεισ δεδομϋνων οι οπούεσ εύναι υπεύθυνεσ για την αποθόκευςη και την ανϊκτηςη των πληροφοριών. Τα αποτελϋςματα που επιςτρϋφουν ςτουσ χρόςτεσ εξαρτώνται ϊμεςα από τα ευρετόρια. Ϋτςι, ςε ϊμεςη ςυνϊρτηςη με τα παραπϊνω, όςο πιο ςυχνϊ ανανεώνονται αυτϊ, όςο δηλαδό μεγαλώνει η ςυχνότητα επύςκεψησ των αυτόματων προγραμμϊτων αναζότηςησ, τόςο πιο ακριβό και ςωςτϊ εύναι τα αποτελϋςματα. 19

Δικόνα 2-4: Λειηοςπγία Αςηόμαηερ Μεσανήρ Αναδήηεζερ Παραδεύγματα αυτόματων μηχανών εύναι οι AltaVista, AllTheWeb, Excite, Lycos, Google, Northern Light, HotBot και MSN Search. 2.3.2 Θεματικοί Κατάλογοι Οι Θεματικού Κατϊλογοι προςφϋρουν πληροφορύεσ ςτουσ χρόςτεσ οι οπούεσ ϋχουν προηγουμϋνωσ αναλυθεύ, αξιολογηθεύ και ταξινομηθεύ από ειδικούσ ςυντϊκτεσ, ςε αντιδιαςτολό με την λειτουργύα που επιτελούν οι μηχανιςμού ςυλλογόσ των αυτόματων Μηχανών Αναζότηςησ. Σε αυτό το εύδοσ Μηχανών Αναζότηςησ, η δημιουργύα των καταλόγων γύνεται με την ςυνδρομό του δημιουρ γού και κατόχου τησ ιςτοςελύδασ. Πιο ςυγκεκριμϋνα, ο δημιουργόσ τησ ιςτοςελύδασ αποςτϋλλει ςτην Μηχανό Αναζότηςησ μια ςύντομη περιγραφό ςχετικϊ με το τι παρουςιϊζει ό τι υπηρεςύεσ προςφϋρει ο ιςτοχώροσ του καθώσ και τη ν διεύθυνςη του. Εϊν εγκριθεύ η αύτηςη αποδοχόσ, τότε ειδικού ςυντϊκτεσ κατατϊςςουν τον ιςτοχώρο ςτην κατϊλληλη θεματικό ενότητα ό κατηγορύα με ςκοπό να παρουςιαςτεύ ωσ ταξινομημϋνη πληροφορύα ςτον χρόςτη τησ Μηχανόσ Αναζότηςησ. 20

Αυτό το εύδοσ μηχανόσ αναζότηςησ προςφϋρει ςυνόθωσ πιο ςυγκεντρωτικϊ αποτελϋςματα ςε ςχϋςη με τισ Αυτόματεσ Μηχανϋσ Αναζότηςησ γιατύ η αναζότηςη και το ταύριαςμα των αποτελεςμϊτων πραγματοποιεύται βϊςει των περιγραφών που ϋχουν ςταλεύ και όχι βϊςει του κειμϋνου που δημοςιεύεται ςε μια ιςτοςελύδα. Ϋτςι οι Θεματικού Κατϊλογοι πλεονεκτούν ςε ςχϋςη με τισ Αυτόματεσ Μηχανϋσ Αναζότηςησ όταν το περιεχόμενο τησ ιςτοςελύδασ εύναι δυναμικό ενώ η θεματικό ενότητα παραμϋνει η ύδια. Η ανανϋωςη, όςον αφορϊ την περιγραφό του ιςτοχώρου, γύνεται πϊλι με μια αύτηςη ςτον διαχειριςτό τησ Μηχανόσ Αναζότηςησ. Παραδεύγματα Καταλόγων εύναι οι Yahoo! και DMOZ (Open Directory Project) καθώσ και ο κατϊλογοσ του In.gr. 2.3.3 Τβριδικές Μηχανές Αναζήτησης Γενικϊ, οι Μηχανϋσ Αναζότηςησ κατατϊςςονται εύτε ςτισ Αυτόματεσ Μηχανϋσ Αναζότηςησ εύτε ςτουσ Θεματικούσ Καταλόγουσ. Παρόλα αυτϊ, κϊποιεσ από αυτϋσ παρουςιϊζουν τα αποτελϋςματα τουσ ςτουσ τελικούσ χρόςτεσ με διαφορετικό τρόπο από αυτό που ςυνόθωσ χρηςιμοποιούν. Με ϊλλα λόγια, ϋνασ Θεματικόσ Κατϊλογοσ ενδϋχεται να επιςτρϋψει κϊποια αποτελϋςματα που βαςύζονται ςε αυτόματα προγρϊμματα όπωσ εύναι οι αρϊχνεσ και τα ρομπότ. Αυτό οφεύλεται ςτο ότι πολλϋσ Μηχανϋσ Αναζότηςησ, ϋςτω και διαφορετικού τύπου, ςυνεργϊζονται μεταξύ τουσ, υποςτηρύζοντασ τα ευρετόριϊ τουσ εκατϋρωθεν. Παρϊδειγμα αποτελεύ ο κατϊλογοσ Yahoo! ο οπούοσ επιςτρϋφει και αποτελϋςματα ςε ςυνεργαςύα με την Αυτόματη Μηχανό Αναζότηςησ Google. Ο χρόςτησ λοιπόν τησ Yahoo! ενδϋχεται να λϊβει αποτελϋςματα που του προςφϋρονται βϊςει των μηχανιςμών τησ Αυτόματησ Μηχανόσ Αναζότηςησ και όχι ταξινομημϋνα όπωσ θα περύμενε. Αυτό ϋχει παρατηρηθεύ ότι ςυμβαύνει ςυνόθωσ για τα πιο δυςνόητα ερωτόματα που θα υποβληθούν. 2.3.4 Άλλες Μηχανές Αναζήτησης Το ςυντριπτικό ποςοςτό των Μ ηχανών Αναζότηςησ που χρηςιμοποιούνται ςόμερα ςτο Διαδύκτυο κατατϊςςονται ςτισ παραπϊνω τρεισ κατηγορύεσ. Παρόλα αυτϊ, υπϊρχουν κϊποιεσ μηχανϋσ αναζότηςησ που λειτουργούν με διαφορετικό τρόπο όςον αφορϊ την επικοινωνύα τουσ με τον τελικό χρόςτη. Ϋτςι υπϊρχουν μηχανϋσ αναζότηςησ όπου υποςτηρύζουν ότι πραγματοποιούν διαδικαςύεσ επεξεργαςύασ φυςικόσ γλώςςασ, ςτα ερωτόματα των χρηςτών. Η επεξεργαςύα φυςικόσ γλώςςασ εύναι το κλειδύ για την επόμενη γενιϊ των μηχανών αναζότηςησ [3]. Όμωσ, λόγω του τερϊςτιου όγκου πληροφορύασ που πρϋπει να επεξεργαςτεύ και του ςύντομου χρονικού διαςτόματοσ απόκριςησ που πρϋπει να πληρού μια ςύγχρονη υπηρεςύα πληροφορύασ, τα επιςτρεφόμενα αποτελϋςματα υπολεύπονται ςε πληρότητα και 21

ακρύβεια. Για αυτόν τον λόγο, δεν εύναι ευρϋωσ διαδεδομϋνεσ. Ϋνα παρϊδειγμα εύναι η υπηρεςύα αναζότηςησ Ask Jeeves [12]. Επιπρόςθετα, υπϊρχουν οι Μηχανϋσ Αναζότηςησ οι οπούεσ προςφϋρουν τα επεξεργαςμϋνα αποτελϋςματϊ τουσ επύ πληρωμόσ. Αυτϋσ, ςυνόθωσ, ςυντϊςςουν ιςτοςελύδεσ και κατ επϋκταςη ιςτοχώρουσ που προςφϋρουν οικονομικϋσ και διαφημιςτικϋσ υπηρεςύεσ. Ο κϊτοχοσ του ιςτοχώρου που ςυντϊςςεται πληρώνει ανϊλογα με την προώθηςη που θα του παρϋχεται από την υπηρεςύα αναζότηςησ. Ο χρόςτησ από την πλευρϊ του, πληρώνει βϊςει του όγκου των πληροφοριών που λαμβϊνει από τα επιςτρεφόμενα αποτελϋςματα, ενώ πρϋπει να τονιςτεύ ότι τα αποτελϋςματα που ταξινομούνται ςτισ υψηλότερεσ θϋςεισ κοςτύζουν περιςςότερο. Παρϊδειγμα μιασ μηχανόσ αναζότηςησ όπου ο χρόςτησ πληρώνει βϊςει του εύρουσ τησ αναζότηςόσ του εύναι η Overture. 22

2.4 Μηχανές Μετα-Αναζήτησης Οι Μηχανϋσ Μετα-Αναζότηςησ επιςτρϋφουν αποτελϋςματα που προϋρχονται από τον ςυνδυαςμό των αποτελεςμϊτων ϊλλων Μηχανών Αναζότηςησ. Θα μπορούςαμε, δηλαδό, να πούμε ότι εύναι Μηχανϋσ Αναζότηςησ των Μηχανών Αναζότηςησ. Οι Μηχανϋσ Μετα-Αναζότηςησ αποςτϋλλουν την ερώτηςη του χρόςτη ςε ϋνα πλόθοσ Μηχανών Αναζότηςησ, ςυλλϋγουν όλα ό ϋνα μϋροσ από τα ξεχωριςτϊ αποτελϋςματα και αφαιρώντασ τα κοινϊ τα παρουςιϊζουν πύςω ςτον τελικό χρόςτη. Οι Μηχανϋσ Μετα-Αναζότηςησ χρηςιμοποιούνται όλο και περιςςότερο ςόμερα, αφού υπερτερούν ςτο τομϋα τησ πληρότητασ όςον αφορϊ τα πιο ςχετικϊ αποτελϋςματα. Γνωρύζ οντασ ότι ϋνασ χρόςτησ μιασ μηχανόσ αναζότηςησ ςυνόθωσ δεν αναζητϊ πληροφορύεσ ςχετικϋσ με ϋνα υποβαλλόμενο ερώτημα πϋραν κϊποιου βαθμού κατϊταξησ, οι Μηχανϋσ Μετα-Αναζότηςησ επεξεργϊζονται αυτό το καθοριςμϋνο ποςό των πιο ςχετικών αποτελεςμϊτων ανϊ χρηςιμοποιούμενη υπηρεςύα αναζότηςησ. Παραδεύγματα Μηχανών Μετα-Αναζότηςησ εύναι οι Copernic [13], Ixquick [14] και UMSE [15]. 2.4.1 Λειτουργία μιας Μηχανής Μετα-Αναζήτησης Μια Μηχανό Μετα-Αναζότηςησ δεν διατηρεύ τη δικό τησ βϊςη δεδομϋνων και τουσ δικούσ τησ καταλόγουσ ό ευρετόρια. Αυτό που κϊνει εύναι να διαβιβϊζει τα ερωτόματα των χρηςτών ςτισ βϊςεισ δεδομϋνων των εταιριών απλών Μηχανών Αναζ ότηςησ και να επιςτρϋφει ςτουσ χρόςτεσ τα αποτελϋςματα που προϋρχονται από όλεσ τισ Μηχανϋσ Αναζότηςησ που εμπλϋκονται ςτην αναζότηςη. Ο λόγοσ ύπαρξησ των Μηχανών Μετα-Αναζότηςησ εύναι ςαφόσ, μπορούμε να παύρνουμε αποτελϋςματα από πολλαπλϋσ μηχανϋσ αναζότηςησ χωρύσ να επιςκεπτόμαςτε την κϊθε μια ξεχωριςτϊ. Σύμφωνα με μελϋτεσ, τα αποτελϋςματα από την υποβολό μιασ πολύ ςυγκρύςιμησ ερώτηςησ ςε διαφορετικϋσ Μηχανϋσ Αναζότηςησ μπορούν να διαφϋρουν ϋωσ και 40%, αλλϊ και να παρουςιϊζουν ποςοςτό επικϊλυψησ μϋχρι και 60% [16]. Αυτό ςημαύνει ότι η χρόςη των Μηχανών Μετα-Αναζότηςησ, βελτιώνει το ποςοςτό κϊλυψησ των ςυνολικών πληροφοριών και εξαλεύφει την επικϊλυψη δύνοντασ μασ μια πιο πλόρη εικόνα των αποτελεςμϊτων. Δεύτερον, με την εφαρμογό φύλτρων ό βελτιωμϋνων αλγορύθμων προσ τα αποτελϋςματα των υποβαλλόμενων ερωτόςεων από τισ Μηχανϋσ Αναζότηςησ, η ακρύβεια αναμϋνεται να βελτιωθεύ ςημαντικϊ. Βϋβαια, οι μηχανιςμού και οι αλγόριθμοι που οι Μηχανϋσ Μετϊ-Αναζότηςησ χρηςιμοποιούν εύναι διαφορετικού. Οι πιο απλϋσ μεταβιβϊζουν τισ ύδιεσ ερωτόςεισ χωρύσ καμύα αλλαγό ςε ϊλλεσ υπηρεςύεσ αναζότηςησ αυτοματοποιώντασ απλώσ την ενεργοπούηςη πολλών Μηχανών Αναζότηςησ ταυτόχρονα. Σε αντύθεςη με αυτό το εύδοσ Μηχανών Μετϊ-Αναζότηςησ, ϊλλεσ 23

υπηρεςύεσ μετα-αναζότηςησ οργανώνουν τα αποτελϋςματα μιασ υποβαλλόμενησ ερώτηςησ, εύτε ςε μια οθόνη με διαφορετικϊ πλαύςια εύτε ςε ϋνα πλαύςιο αλλϊ με μια διαδοχικό διαταγό. Ϋνα ακόμα μικρότερο ποςοςτό επιτρϋπει ςτουσ χρόςτεσ να επιλϋξουν τισ πλϋον εξοικειωμϋνεσ ςε αυτούσ υπηρεςύεσ αναζότηςόσ, κατϊ τη διαδικαςύα ειςαγωγόσ τησ ερώτηςησ, χρηςιμοποιώντασ φύλτρα και ϊλλουσ αλγορύθμουσ για να επεξεργαςτούν τα επιςτρεφόμενα αποτελϋςματα πριν αυτϊ επιςτραφούν. Τα επιςτρεφόμενα επεξεργαςμϋνα αποτελϋςματα αποκαλούνται και ωσ μετα-αποτελϋςματα. 2.4.2 Είδη Μηχανών Μετα-Αναζήτησης Οι Μηχανϋσ Μετϊ-Αναζότηςησ μπορούν να καταταχθούν ςε τρύα εύδη ανϊλογα με τη λειτουργύα αποςτολόσ των ερωτόςεων του χρόςτη και λειτουργύασ των αντύςτοιχων αναζητόςεων. Ϋτςι, διακρύνεται η λειτουργύα μεςολϊβηςησ, η ςειριακό αναζότηςη και η παρϊλληλη αναζότηςη. 2.4.2.1 Μηχανές Μετα-Αναζήτησης με λειτουργία Μεσολάβησης Αυτού του τύπου οι Μηχανϋσ Μετα-Αναζότηςησ λειτουργούν ωσ μεςύτεσ πληροφορύασ για τουσ τελικούσ χρόςτεσ. Προςφϋρουν ςυνόθωσ μια λύςτα από υπηρεςύεσ αναζότηςησ όπου ο χρόςτησ επιλϋγει αυτό ςτην οπούα θα υποβϊλλει την ερώτηςό του. Κατόπιν η Μηχανό Μετϊ-Αναζότηςησ ςτϋλνει την ερώτηςη αυτό ςτην επιλεγμϋνη υπηρεςύα, ςυλλϋγει τα αποτελϋςματα και τα παρουςιϊζει ςτο χρόςτη ςτο δικό τησ περιβϊλλον. Το πλεονϋκτημα αυτόσ τησ προςϋγγιςησ ςυνύςταται ςτο ότι με τον ςυγκεκριμϋνο τρόπο λειτουργύασ επιτυγχϊνεται μεύωςη του χρονικού διαςτόματοσ που ξοδεύει ο χρόςτησ κατϊ την μετϊβαςό του μεταξύ διαφορετικών υπηρεςιών αναζότηςησ. Επιπλϋον, μϋςω τησ λειτουργύασ αυτόσ του προτεύνονται και ϊλλεσ Μηχανϋσ Αναζότηςησ οι οπούεσ πιθανόν να μην γνώριζε. Εντούτοισ, το μειονϋκτημα ςε αυτό την προςϋγγιςη παραμϋνει ότι ο χρόςτησ λαμβϊνει την ύδια πληροφορύα, όπωσ εϊν θα εύχε επιςκεφτεύ την επιλεγόμενη υπηρεςύα μϋςω τησ διεύθυνςόσ τησ ςτο Παγκόςμιο Ιςτό. Παρϊδειγμα μιασ Μηχανόσ Μετα-Αναζότηςησ με λειτουργύα μεςολϊβηςησ εύναι η υπηρεςύα Find-It [17]. 24

2.4.2.2 Μηχανές Μετα-Αναζήτησης με Σειριακή Αναζήτηση Οι υπηρεςύεσ μετα-αναζότηςησ αυτού του τύπου παρϋχουν τη δυνατότητα ςτουσ χρόςτεσ να ειςϊγουν την ερώτηςη μϋςα από ϋνα περιβϊλλον με ενιαύα ςύνταξη, να επιλϋγουν ποιεσ ξεχωριςτϋσ Μηχανϋσ Αναζότηςησ θα εμπλακούν ςτην αναζότηςη και να διαβιβϊζουν κατόπιν την αναζότηςη ταυτόχρονα ςε όλεσ τισ επιλεγόμενεσ υπηρεςύεσ. Μόλισ οργανωθεύ η αναζότηςη, τα μετα-αποτελϋςματα θα επιςτραφούν ςτην οθόνη του χρόςτη, ςύμφωνα με τον εκϊςτοτε χρηςιμοποιούμενο αλγόριθμο επεξεργαςύασ των ξεχωριςτών αποτελεςμϊτων. Εντούτοισ, το κύριο μειονϋκτημα αυτού του τύπου προςϋγγιςησ ςυνύςταται ςτο ότι προκειμϋνου να μπορϋςει η Μηχανό Μετϊ- Αναζότηςησ να επεξεργαςτεύ και να παρουςιϊςει τα τελικϊ αποτελϋςματα, εύναι απαραύτητο να ϋχουν ςυλλεχθεύ όλα τα αποτελϋςματα από όλεσ τισ διαφορετικϋσ υπηρεςύεσ αναζότηςησ. Συνεπώσ, η ταχύτητα τησ αναζότηςησ εξαρτϊται ϊμεςα από την ταχύτητα τησ πιο αργόσ χρηςιμοποιούμενησ υπηρεςύασ. Παρϊδειγμα μιασ τϋτοιασ Μηχανόσ Μετϊ-Αναζότηςησ εύναι η Dogpile [18]. 2.4.2.3 Μηχανές Μετα-Αναζήτησης με Παράλληλη Αναζήτηση Οι Μηχανϋσ Μετα-Αναζότηςησ με παρϊλληλη αναζότηςη παρουςιϊζουν παρόμοιεσ λειτουργύεσ με αυτϋσ που ανόκουν ςτον προηγούμενο τύπο. Η ειδοποιόσ διαφορϊ ςυνύςταται ςτο ότι η παρουςύαςη των αποτελεςμϊτων πραγματοποιεύται για τα επεξεργαςμϋνα αποτελϋςματα που ϋχουν επιςτραφεύ ςτη βϊςη δεδομϋνων τησ Μηχανών Μετα-Αναζότηςησ μϋχρι κϊποιο οριςμϋνο χρονικό διϊςτημα, χωρύσ δηλαδό να εύναι απαραύτητο να ϋχουν επιςτραφεύ όλα τα αποτελϋςματα από κϊθε ξεχωριςτό χρηςιμοποιούμενη υπηρεςύα αναζότηςησ. Τα επιςτρεφόμενα αποτϋλεςμα εύναι επομϋνωσ πολύ γρηγορότερα. Όμωσ, με την προςϋγγιςη αυτό, χϊνεται ϋνα ςημαντικό ποςοςτό ακρύβειασ όςον αφορϊ την ςχετικότητα των μετα-αποτελεςμϊτων εφόςον ο αλγόριθμοσ κατϊταξησ τα ταξινομεύ περιοδικϊ και όχι επύ τησ ςυνολικόσ πληροφορύασ. Ϋνα παρϊδειγμα Μηχανόσ Μετα-Αναζότηςησ με λειτουργύα παρϊλληλησ αναζότηςησ εύναι η Ixquick Metasearch [14]. 25

2.4.3 Αρχιτεκτονική των Μηχανών Μετα-Αναζήτησης Τα βαςικϊ ςτϊδια που ςυνιςτούν τη λειτουργύα μιασ Μηχανόσ Μετα-Αναζότηςησ φαύνονται ςτην εικόνα 2.5. Δικόνα 2-5: Σηάδια Λειηοςπγίαρ μιαρ Μεσανήρ Μεηα-Αναδήηεζερ Ειςαγωγό Ερώτηςησ Η ειςαγωγό τησ ερώτηςησ από το χρόςτη αρχικοποιεύ τη λειτουργύα του ςυςτόματοσ. Η ερώτηςη ειςϊγεται μϋςω τησ διεπαφόσ (interface) του χρόςτη, ενώ η διατύπωςό τησ ακολουθεύ τουσ κανόνεσ ςύνταξησ που κϊθε Μηχανόσ Μετα-Αναζότηςησ προτεύνει και ακολουθεύ. Κατϊ το ςτϊδιο αυτό ο χρόςτησ καθορύζει πλόρωσ την πληροφοριακό του ανϊγκη, επιλϋγει το εύδοσ τησ πηγόσ πληροφορύασ και τισ υπηρεςύεσ που θα εμπλακούν ςτισ διαδικαςύεσ αναζότηςησ. Επιπλϋον, ενδϋχεται να ενημερώνεται για προηγούμενεσ αναζητόςεισ που ϋχουν ολοκληρωθεύ με ςκοπό την περαιτϋρω εξατομύκευςη μιασ ερώτηςησ, με τη βοόθεια διαδικαςιών ανατροφοδότηςησ και τησ Τοπικόσ Βϊςεωσ Δεδομϋνων. 26

Επεξεργαςύα και Υποβολό τησ ερώτηςησ ςε πολλαπλϋσ Υπηρεςύεσ Μετϊ το προηγούμενο ςτϊδιο η Μηχανό Μετα-Αναζότηςησ επεξεργϊζεται κατϊλληλα την ερώτηςη προκειμϋνου να διαβιβαςτεύ το ερώτημα ςτην αντύςτοιχη μορφό διατύπωςησ που θα εύναι κατανοητό από την εκϊςτοτε χρηςιμοποιούμενη υπηρεςύα και να εντοπιςτεύ το εύδοσ τησ ζητούμενησ πληροφορύασ, επύςησ ενεργοποιεύ την παρϊλληλη αναζότηςη αποτελεςμϊτων. Συλλογό και Επεξεργαςύα των Αποτελεςμϊτων Το ςτϊδιο αυτό αφορϊ την ςυλλογό, επεξεργαςύα και παρουςύαςη των μετα - αποτελεςμϊτων. Μετϊ την υποβολό τησ ερώτηςησ ςε κϊθε χρηςιμοποιούμενη υπηρεςύα, ϋνα υποςύςτημα ςυλλϋγει τα αποτελϋςματα και τα ςτϋλνει πύςω ςτη Μηχανό Μετα-Αναζότηςησ. Το υπό-ςύςτημα που επιτελεύ αυτόν τη διαδικαςύα ονομϊζεται Συλλϋκτησ Αποτελεςμϊτων και εύναι ικανό να ανακτϊ την απαιτούμενη χρόςιμη πληροφορύα ςε όποια μορφό και αν εντοπύζεται ςτισ εκϊςτοτε υπηρεςύεσ που χρηςιμοποιούνται. Στην ςυνϋχεια, ανϊλογα με τον τρόπο αποςτολόσ των ςυλλεγόμενων αποτελεςμϊτων που αναφϋρθηκαν ςε προηγούμενη ενότητα (ςειριακό ό παρϊλληλη αποςτολό), πραγματοποιεύται η επεξεργαςύα τουσ ςτη Τοπικό Βϊςη Δεδομϋνων τησ Μηχανόσ Μετα-Αναζότηςησ. Το υπό-ςύςτημα, το οπούο εύναι υπεύθυνο για την επεξεργαςύα και την ςχετικό ςτϊθμιςη των επιςτρεφόμενων αποτελεςμϊτων, ονομϊζεται Ταξινομητόσ ό Χειριςτόσ μετα-αποτελεςμϊτων. Ουςιαςτικϊ, το υπό-ςύςτημα αυτό κατατϊςςει τα επεξεργαςμϋνα αποτελϋςματα ςύμφωνα με τισ διαδικαςύεσ και τισ τεχνικϋσ που ακολουθεύ η Μηχανό Μετα-Αναζότηςησ όςον αφορϊ την ςυγχώνευςη των αποτελεςμϊτων από διαφορετικϋσ πηγϋσ. Παρουςύαςη Μετα-Αποτελεςμϊτων Το τελευταύο ςτϊδιο, που ολοκληρώνει και τισ λειτουργύεσ μιασ Μηχανόσ Μετα- Αναζότηςησ εύναι αυτό τησ παρουςύαςησ των επεξεργαςμϋνων αποτελεςμϊτων που ςυνιςτούν το ςύνολο των μετα-αποτελεςμϊτων. Το υπό-ςύςτημα που εύναι υπεύθυνο εύναι η διεπαφό του χρόςτη. Υπϊρχει μεγϊλη ανομοιογϋνεια ςτην παρουςύαςη των επιςτρεφόμενων αποτελεςμϊτων ςτο χώρο των υπηρεςιών αναζότηςησ. Υπϊρχουν Μηχανϋσ Αναζότηςησ που απλώσ παραθϋτουν τισ διευθύνςεισ των δικτυακών τόπων (URL), ενώ ϊλλεσ παρϋχουν επιπρόςθετεσ πληροφορύεσ ό και προτϊςεισ. Αυτόν την ανομοιογϋνεια καλύπτουν οι Μηχανϋσ Μετα-Αναζότηςησ παρουςιϊζοντασ τα μετααποτελϋςματα ςύμφωνα με τισ απαιτόςεισ του δικού τουσ περιβϊλλοντοσ. Στην περύπτωςη αυτό, ναι μεν παρουςιϊζεται ςτο χρόςτη ςυγκρύςιμη πληροφορύα ϊλλα από την ϊλλη χϊνεται η ιδιαιτερότητα τησ παρουςύαςησ και προβολόσ τησ πληροφορύασ των εκϊςτοτε εμπλεκομϋνων υπηρεςιών αναζότηςησ. 27

2.4.4 Φαρακτηριστικά των Μηχανών Μετα-Αναζήτησης Η ενότητα αυτό περιγρϊφει τα χαρακτηριςτικϊ των Μηχανών Μετα-Αναζότηςησ και τισ διαδικαςύεσ που ενεργοποιούνται κατϊ την αναζότηςη τησ ενιςχυμϋνησ πληροφορύασ. Η περιγραφό αυτών κρύνεται ςκόπιμη προκειμϋνου να γύνει πλόρωσ κατανοητό η λειτουργύα τουσ και να εύναι εφικτό η ςύγκριςη μεταξύ τουσ. Αριθμόσ Χρηςιμοποιούμενων Υπηρεςιών Αναζότηςησ Ο αριθμόσ των υπηρεςιών αναζότηςησ που εμπλϋκονται ςτην αναζότηςη ποικύλει οριςμϋνεσ φορϋσ ςημαντικϊ μεταξύ των ξεχωριςτών Μηχανών Μετα-Αναζότηςησ. Το εύροσ των υπηρεςιών κυμαύνεται από ϋξι ϋωσ ακόμα και χύλιεσ Μηχανϋσ Αναζότηςησ, Θεματικούσ Καταλόγουσ και ϊλλεσ Βϊςεισ Δεδομϋνων [19]. Βϋβαια, η ποςότητα δεν αποτελεύ ϋναν αποτελεςματικό δεύκτη τησ απόδοςησ λειτουργύασ, η οπούα εξαρτϊται κυρύωσ από τισ ποιότητα και την ποικιλύα των Μηχανών Αναζότηςησ που χρηςιμοποιούνται. Εύναι, δηλαδό, προτιμότερο να χρηςιμοποιηθεύ μια Μηχανό Μετα- Αναζότηςησ που εμπλϋκει ϋναν μικρό αριθμό Μηχανών Αναζότηςησ υψηλόσ ποιότητασ από ϋναν πολύ μεγαλύτερο αριθμό μηχανών που δε ν εύναι ιδιαύτερα δημοφιλεύσ. Εύδοσ Αναζητούμενων Πηγών Εύναι ςχεδόν αυτονόητο ότι η αναζότηςη ςτον Παγκόςμιο Ιςτό εύναι ταυτόςημη με την αναζότηςη ςτο Διαδύκτυο. Παρόλα αυτϊ, υπϊρχουν και ϊλλεσ πηγϋσ και ομϊδεσ πληροφόρηςησ ςτο Διαδύκτυο όπου υπϊρχουν αξιόλογα ποςϊ πληροφορύασ, όπωσ εύναι οι ομϊδεσ πληροφόρηςησ USENET, ό οι διευθύνςεισ ηλεκτρονικού ταχυδρομεύου. Ϋτςι οι αναζητόςεισ που πραγματοποιούν οι Μηχανϋσ Μετα-Αναζότηςησ και το εύδοσ των πηγών πληροφορύασ εξαρτϊται ϊμεςα από τισ χρηςιμοποιούμενεσ Μηχανϋσ Αναζότηςησ. Χαρακτηριςτικϊ Αναζότηςησ Από την ςτιγμό που οι Μηχανϋσ Μετα-Αναζότηςησ δεν ϋχουν δικϊ τουσ ευρετόρια και καταλόγουσ, δεν εύναι ςε θϋςη να προςφϋρουν ςτουσ χρόςτεσ λειτουργύεσ αναζότηςησ που ελϋγχονται από αυτϋσ και εξαρτώνται εξ ολοκλόρου από τα εςωτερικϊ χαρακτηριςτικϊ των υπηρεςιών αναζότηςησ που χρηςιμοποιούν. Το γεγονόσ αυτό ςυνιςτϊ ϋνα ςημαντικό πρόβλημα το οπούο εϊν δεν λυθεύ οδηγεύ ςε εςφαλμϋνα αποτελϋςματα. Για παρϊδειγμα, εϊν ο χρόςτησ θϋςει μια ερώτηςη αποκλεύοντασ την εμφϊνιςη ενόσ όρου, η Μηχανό Μετα-Αναζότηςησ πρϋπει να αποςτεύλει την ερώτηςη αυτό ςε όλεσ τισ εμπλεκόμενεσ υπηρεςύεσ αναζότηςησ εκτόσ από αυτϋσ που δεν υποςτηρύζουν το λογικό τελεςτό αποκλειςμού "NOT". Στην αντύθετη περύπτωςη θα υπϊρξουν λανθαςμϋνα πεδύα ςτα επιςτρεφόμενα μετα-αποτελϋςματα. Με ϊλλα λόγια 28

κατϊ την ςχεδύαςη μιασ Μηχανόσ Μετα-Αναζότηςησ κρύνεται επιτακτικό η ανϊγκη τησ γνώςησ των εςωτερικών χαρακτηριςτικών των χρηςιμοποιούμενων υπηρεςιών αναζότηςησ. Εςτύαςη Αναζότηςησ Πολλϋσ Μηχανϋσ Αναζότηςησ παρϋχουν ςτο χρόςτη τη δυνατότητα, όταν δεν επιθυμεύ μια ςφαιρικό αναζότηςη ςτον Παγκόςμιο Ιςτό, να εςτιϊςει τα ενδιαφϋροντϊ του ςε ϋναν ςυγκεκριμϋνο χώρο, όπωσ εύναι για παρϊδειγμα η ϋρευνα ςε μια ςυγκεκριμϋνη περιοχό Εξυπηρετητών Ονομϊτων Τομϋα (Domain Name Servers), μια γεωγραφικό περιοχό ό μια ςυγκεκριμϋνη θεματικό ενότητα. Η ευκολύα όμωσ αυ τό δεν παρϋχεται από όλεσ τισ Μηχανϋσ Αναζότηςησ, με αποτϋλεςμα να μην ςυμπεριλαμβϊνεται πϊντα ςτισ προςφερόμενεσ υπηρεςύεσ μιασ Μηχανϋσ Μετα- Αναζότηςησ. Χρονικό Διϊςτημα Επεξεργαςύασ και Ποςό Συνολικών Μετα-Αποτελεςμϊτων Δύο πολύ ςημαντικϊ χαρακτηριςτικϊ ςτοιχεύα ςτη λειτουργύα των Μηχανών Μετα- Αναζότηςησ εύναι ο απαιτούμενοσ χρόνοσ επεξεργαςύασ και το ποςό των επιςτρεφόμενων μετα-αποτελεςμϊτων. Το χρονικό διϊςτημα επιςτροφόσ των μετααποτελεςμϊτων, όπωσ ϋχει προαναφερθεύ, εξαρτϊται ϊμεςα από τη λειτουργύα αναζότηςησ τησ Μηχανόσ Μετα-Αναζότηςησ (ςειριακό ό παρϊλληλη), ενώ το ποςό αυτών ςυνόθωσ καθορύζεται από το χρόςτη. Στην περύπτωςη που δεν μπορεύ ο χρόςτησ να επϋμβει ςτην παρϊμετρο αυτό, κϊθε Μηχανό Μετα-Αναζότηςησ ϋχει ορύςει μια προκαθοριςμϋνη τιμό για τα προσ επεξεργαςύα αποτελϋςματα. 29

3 Προβλήματα και Περιορισμοί 3.1 Προβλήματα στην Ανάκτηση Πληροφορίας στο Διαδίκτυο Σόμερα, όλο και περιςςότερεσ πληροφορύεσ εύναι διαθϋςιμεσ ςτο Διαδύκτυο όμωσ η πρόςβαςη ςτισ ςωςτϋσ και ςχετικϋσ πηγϋσ πληροφοριών ϋχει γύνει ϋνα κρύςιμο πρόβλημα. Οι πρώτεσ προςπϊθειεσ εξϋταςησ, εντοπιςμού και ανϊκτηςησ πληροφοριών από τον Παγκόςμιο Ιςτό ξεκινούν από την αρχό τησ προηγούμενησ δεκαετύασ. Ϋτςι, προτού ειςϋλθουν οι πρώτοι Πλοηγητϋσ Παγκόςμιου Ιςτού (Internet Browsers), υπόρξε το ςύςτημα WAIS και η ϋκδοςη του XWAIS, τα οπούα χρηςιμοποιούςαν ϋνα ςυγκεκριμϋνο ςχόμα ςε ϋναν κεντρικό υπολογιςτό, με ςκοπό την ανϊκτηςη πληροφοριών [20]. Επύςησ, ωσ καταχωρητόσ εμφανύςτηκε περύπου το 1991 το ςύςτημα Gopher. Το πρώτο ςύςτημα με δομό Μηχανόσ Αναζότηςησ όπωσ αυτό εύναι αντιληπτό ςόμερα, ειςόχθη το 1994 με το όνομα Lycos [21]. Χρηςιμοποιούςε ϋνα πρόγραμμα ευρετηρύαςησ και ϋνα αυτόματο πρόγραμμα «ςϊρωςησ». Επύςησ, το 1994, εμφανύςτηκε και το ςύςτημα Yahoo! ωσ ο πρώτοσ Θεματικόσ Κατϊλογοσ [22]. Με την πϊροδο του χρόνου όλο και περιςςότερεσ Μηχανϋσ Αναζότηςησ παρουςιϊζονταν ςτο προςκόνιο. Εντούτοισ, οι περιςςότερεσ από αυτϋσ δεν μπορούν να ικανοποιόςουν εντελώσ τισ απαιτόςεισ του χρόςτη [6]. Παραδεύγματοσ χϊριν, οι περιςςότερεσ από αυτϋσ μπορούν να ςυντϊξουν μόνο ϋ να ευρετόριο και να επεξεργαςτούν ϋνα πολύ μικρό μϋροσ ιςτοςελύδων ςτον Παγκόςμιο Ιςτό. Επιπλϋον, πολλϋσ μϋθοδοι ευρετηρύαςησ εύναι βαςιςμϋνεσ μόνο ςτισ μετα-ετικϋτεσ μϋςα ςτο περιεχόμενο του πηγαύου κώδικα ό η περύοδοσ ενημϋρωςησ των ιςτοςελύδων τουσ εύναι αρκετϊ μεγϊλη. Όλα αυτϊ τα προβλόματα ςυνόθωσ οδηγούν ςτην ελλιπό ανϊκτηςη πληροφοριών. Επιπλϋον, η μη-φιλικό προσ τον χρόςτη διεπαφό, εμποδύζει την πλόρη εκμετϊλλευςη των προηγμϋνων λειτουργιών κϊθε μιασ Μηχανόσ Αναζότηςησ, με αποτϋλεςμα οι πολλϋσ πηγϋσ να εύναι ανακριβεύσ και μη-ςχετικϋσ [23]. Πολλού ερευνητϋσ ϋχουν εργαςτεύ ςτην αξιολόγηςη και τη βελτύωςη των Μηχανών Αναζότηςησ που ερευνούν καθημερινϊ τον Παγκόςμιο Ιςτό [24], [25], [26]. Επιπλϋον, ϋχουν προταθεύ αρχιτεκτονικϋσ βελτύωςησ μϋςω τησ θεωρύασ των γρϊφων ό τησ επεξεργαςύασ τησ φυςικόσ γλώςςασ. 30

3.2 Προβλήματα των Τπηρεσιών Αναζήτησης 3.2.1 Μηχανές Αναζήτησης Οι Μηχανϋσ Αναζότηςησ ςυχνϊ κρύνονται ανεπαρκεύσ, παρουςιϊζοντασ μερικϊ ςημαντικϊ μειονεκτόματα που απορρϋουν από τη δυναμικό φύςη τόςο τησ πληροφορύασ όςο και του Διαδικτύου ωσ μϋςου διϊδοςησ τησ πληροφορύασ αυτόσ. Συγκεντρωτικϊ, τα προβλόματα που δυςχεραύνουν τη χρόςη των Μηχανών Αναζότηςησ αναφϋρονται ςτισ παρακϊτω υπό-ενότητεσ. Επικϊλυψη του Συνολικού Ποςού Πληροφορύασ Συνόθωσ, οι Μηχανϋσ Αναζότηςησ ςυντϊςςουν τα ευρετόριϊ τουσ από ϋνα προκατειλημμϋνο δεύγμα του Ιςτού. Οι Μηχανϋσ Αναζότηςησ ακολουθούν εύτε τισ υπερςυνδϋςεισ (hyperlink) για να βρουν νϋεσ ςελύδεσ, εύτε την ανϊλυςη τησ εγγραφόσ των χρηςτών. Επομϋνωσ, εύναι πολύ ςημαντικό το πος οςτό τησ αχαρτογρϊφητησ πληροφορύασ που υπϊρχει ςτον Παγκόςμιο Ιςτό. Οι ιςτοςελύδεσ που εύναι καταγεγραμμϋνεσ ςτουσ καταλόγουσ των Μηχανών Αναζότηςησ αφορούν τον Επιφανειακό Παγκόςμιο Ιςτό (Surface Visible Indexed Web), υπϊρχουν όμωσ ακόμα πολλϋσ πληροφορύεσ οι οπούεσ δεν ϋχουν ςυνταχθεύ ςτουσ εν λόγω καταλόγουσ, ο επονομαζόμενοσ Βαθύσ Παγκόςμιοσ Ιςτόσ (Deep Invisible Hidden Web ό Deepnet). Αυτϋσ οι πληροφορύεσ μπορεύ να εύναι Δυναμικό Περιεχόμενο, ςελύδεσ δηλαδό οι οπούεσ επιςτρϋφονται μετϊ απ ό ςυμπλόρωςη κϊποιασ φόρμασ Περιεχόμενο χωρύσ ςυνδϋςεισ, ςελύδεσ που δεν ςυνδϋονται με ϊλλεσ ςελύδεσ μπορεύ να αποτρϋψουν τα ρομπότ από το να προςπελϊςουν το περιεχόμενο τουσ Ιδιωτικό Περιεχόμενο, ςελύδεσ δηλαδό που απαιτούν εγγραφό ό ςύνδεςη Περιεχόμενο το οπούο φορτώνεται δυναμικϊ μϋςω JavaScript, Flash ό AJAX Πολυμεςικό περιεχόμενο το οπούο εύναι ςε μορφϋσ που δεν υποςτηρύζουν οι Μηχανϋσ Αναζότηςησ Το μϋγεθοσ αυτόσ τησ πληροφορύασ φτϊνει 7,500 terabytes. Οπότε καταλαβαύνουμε ότι οι Μηχανϋσ Αναζότηςησ δεν καλύπτουν παρϊ μόνο ϋνα μικρό ποςοςτό τησ πληροφορύασ που υπϊρχει ςτον Παγκόςμιο Ιςτό [27]. 31

Δικόνα 3-1: Ποζοζηό Κάλςτερ Παγκόζμιος Ιζηού Ϋλλειψη Ενημϋρωςησ Η τροποπούηςη, ανανϋωςη, προςθόκη ό διαγραφό των πηγών ςτον Παγκόςμιο Ιςτό γύνεται με ϊναρχο και ανεξϋλεγκτο τρόπο με αποτϋλεςμα τη δυςκολύα ςτην αυτοματοποιημϋνη αναζότηςη και ανϊκτηςη τησ πληροφορύασ. Αυτόσ εύναι και ο λόγοσ που πολλϋσ φορϋσ μια αναζότηςη μασ επιςτρϋφει ιςτοςελύδεσ που δεν υπϊρχουν. Αν οι κατϊλογοι δεν ϋχουν ανανεωθεύ από την ςτιγμό που η ιςτοςελύδα διαγρϊφηκε, η Μηχανό Αναζότηςησ θα την αντιμετωπύζει ωσ ενεργό επιςτρϋφοντασ την ςτα αποτελϋςματα ϋωσ ότου ανανεωθούν οι κατϊλογοι τησ. Γι αυτό το λόγο, όςο πιο ςυχνϊ ανανεώνονται οι κατϊλογοι μιασ μηχανόσ αναζότηςησ τόςο πιο ϋγκυρα θα εύναι και τα αποτελϋςματα τησ. Καταλαβαύνουμε, λοιπόν, ότι απαιτεύται ςυνεχόσ και οργανωμϋνη καταγραφό καθώσ και χαρτογρϊφ ηςη τησ διαθϋςιμησ πληροφορύασ. Από την εύρεςη του ποςοςτού των ιςτοςελύδων που δεν υφύςτανται πλϋον εξ αιτύασ τησ αλλαγόσ ό διαγραφόσ τουσ και την ηλικύα των νϋων ιςτοςελύδων, διαπιςτώθηκε ότι υπϊρχει ςημαντικό ϋλλειψη ενημϋρωςησ ό ανανϋωςησ των καταλόγων/ευρετηρύων ςτισ περιςςότερεσ Μηχανϋσ Αναζότηςησ. Πιο ςυγκεκριμϋνα διαπιςτώθηκε ότι η ςυχνότητα ανανϋωςησ και παρακολούθηςησ για τον εντοπιςμό τυχόν αλλαγών ςε μια ιςτοςελύδα, εύναι 186 ημϋρεσ [2]. Κατϊταξη αποτελεςμϊτων Ϋχει, επύςησ, επαληθευτεύ ότι κϊθε χρόςτησ κατϊ μϋςο όρο κοιτϊει τισ πρώτεσ εύκοςι, το πολύ, ςελύδεσ που θα του επιςτρϋψει η μηχανό αναζότηςησ και ςυνόθωσ επιςκϋπτεται τισ δϋκα από αυτϋσ. Μύα απλό μϋθοδοσ για την αντιμετώπιςη του προβλόματοσ αυτού εύναι η αξιολόγηςη των ανακτώμενων ςελύδων με βϊςη τη ςυχνότητα εμφϊνιςησ του όρου δεικτοδότηςησ ςτο κεύμενο των ςελύδων. Παραλλαγϋσ αυτόσ τησ τεχνικόσ εύναι η παροχό αυξημϋνου βϊρουσ ςε ςελύδεσ που περιϋχουν τον όρο αναζότηςησ ςτον τύτλο τησ ςελύδασ ό ςτισ επικεφαλύδεσ ό εύναι γραμμϋνεσ με τϋτοιο τρόπο ώςτε να του δύνεται μύα ιδιαύτερη ςημαςύα. 32

Όμωσ, οι Μηχανϋσ Αναζότηςησ που ενςωματώνουν τϋτοιεσ μεθόδουσ εύναι πολύ εύκολο να παραπλανηθούν από τουσ ςχεδιαςτϋσ των ςελύδων γιατύ τα αποτελϋςματα τουσ βαςύζονται μόνο ςτο περιεχόμενο των ςελύδων και πολλϋσ ςελύδεσ δεν αναφϋρουν ρητϊ ςτο περιεχόμενο τουσ το θϋμα ςτο οπούο ανόκει η πληροφορύα που παρϋχουν. Ϋνα ϊλλο ςημαντικό πρόβλημα που προκύπτει από αυτό τη μεθοδολογύα εύναι ότι πολλϋσ φορϋσ ο όροσ που δύνει ο χρόςτησ ςαν εύςοδο ϋχει διϊφορεσ ςημαςύεσ, υπϊρχουν δηλαδό ςυνώνυμεσ λϋξεισ οι οπούεσ δεν θα επιςτ ραφούν με αποτϋλεςμα να χϊνεται ϋνα ςημαντικό μϋροσ χρόςιμησ για το χρόςτη πληροφορύασ. Επύςησ, ϋνα ϊλλο ςυχνό φαινόμενο εύναι ότι η ύδια αναζότηςη επιςτρϋφει διαφορετικϊ αποτελϋςματα ςε διαφορετικϋσ Μηχανϋσ Αναζότηςησ. Αυτό οφεύλεται κατϊ κύριο λόγο ςτον αλγόριθμο που χρηςιμοποιεύ η εκϊςτοτε μηχανό για να καταςκευϊςει τουσ καταλόγουσ τησ καθώσ και ςε αυτόν που καθορόςει την ςχετικότητα των πληροφοριών ςτουσ καταλόγουσ τησ με αυτό που αναζητϊ ο χρόςτησ. Κατϊ ςυνϋπεια, ο χρόςτησ, που χρηςιμοποιεύ μια ςυγκεκριμϋνη Μηχανό Αναζότηςησ, ενδϋχεται να χϊςει μερικϋσ χρόςιμεσ πηγϋσ πληροφοριών που επιςτρϋφονται από μια ϊλλη Μηχανό Αναζότηςησ. Για να αποφευχθεύ αυτό, οι χρόςτεσ πρϋπει να υποβϊλουν εκ νϋου τισ ερωτόςεισ τουσ ςε παραπϊνω από μια Μηχανϋσ Αναζότηςησ, αυξϊνοντασ κατ' αυτό τον τρόπο, μια όδη χρ ονοβόρα διαδικαςύα [28]. Χαμηλό Ποςοςτό Χρόςησ Μετα-Πληροφοριών Αρκετϋσ Μηχανϋσ Αναζότηςησ ςυντϊςςουν το ευρετόριό τουσ ςε πληροφορύεσ που βαςύζονται ςτα καθοριςμϋνα πεδύα των μετα-ετικετών. Εντούτοισ, τα πεδύα αυτϊ εύναι «ορατϊ» ςτισ αρχικϋσ ςελύδεσ των εκϊςτοτε δικτυακών τόπων. Εϊν ληφθεύ δε υπόψη ότι μόνο το 34% των δικτυακών τόπων χρηςιμοποιούν για περιγραφό τα πεδύα των μετα-ετικετών γύνεται αντιληπτό η ϋκταςη του προβλόματοσ ανομοιογϋνειασ που προκύπτει. Επιπλϋον, μόνο το 0,3% των δικτυακών τόπων χρηςιμοποιούν τα πρόςφατα οριςμϋνα πρότυπα μετα-δεδομϋνων Dublin Core [29]. Ανομοιογενόσ Κατανομό Πληροφορύασ Η κατανομό των πληροφοριών που δημοςιεύονται ςτον Παγκόςμιο Ιςτό δεν εύναι ομοιογενόσ. Το 83% αφορϊ δικτυακούσ τόπουσ με εμπορικό περιεχόμενο και 6% με επιςτημονικό ό εκπαιδευτικό περιεχόμενο. Επύςησ το 1.5% των δικτυακών τόπων περιϋχουν πορνογραφικό περιεχόμενο [6]. 33

3.2.2 Μηχανές Μετα-αναζήτησης Εύναι ςχεδόν αδύνατο να καταγραφούν όλεσ οι ιςτοςελύδεσ του Διαδικτύου και ϋτςι, οι Μηχανϋσ Αναζότηςησ επικεντρώνονται ςε ϋνα εξειδικευμϋνο υποςύνολο του Διαδικτύου χρηςιμοποιώντασ τεχνικϋσ κατϊταξησ οι οπούεσ προςδιορύζουν ποιεσ ιςτοςελύδεσ θα καταγραφούν ςτουσ καταλόγουσ τουσ [30], [31]. Ϋτςι, αν ςε ϋναν χρόςτη που δεν γνωρύζει αυτό το πρόβλημα δεν επιςτραφούν ςχετικϊ αποτελϋςματα, θα υποθϋςει λανθαςμϋνα ότι η ςυγκεκριμϋνη αυτό αναζότηςό του δεν μπορεύ να εξυπηρετηθεύ. Επιπλϋον, κατϊ τη διϊρκεια αυτόσ τησ διαδικαςύασ, ο χρόςτησ πρϋπει να γνωρύζει τη ςύνταξη ερώτηςησ κϊθε Μηχανόσ Αναζότηςησ, αυξϊνοντασ ακόμα μια φορϊ τον χρόνο αναζότηςησ. Εντούτοισ, τα προβλόματα εντεύνονται δεδομϋνου ότι οι διαφορετικϋσ Μηχανϋσ Αναζότηςησ δεν εύναι ςυμβατϋσ κατϊ ϋνα μεγϊλο μϋροσ και δεν επιτρϋπουν την ςυνεργαςύα μεταξύ τουσ. Για να υπερνικόςουν αυτό το πρόβλημα οι περιςςότεροι χρόςτεσ προςπαθούν να επεκτεύνουν τισ ερωτόςεισ τουσ με τη βοόθεια των Μηχανών Μετα-Αναζότηςησ. Συχνϊ, ςτη διαδικαςύα ειςαγωγόσ τησ ερώτηςησ ανακύπτουν οριςμϋνα προβλόματα. Οι Μηχανϋσ Μετα-Αναζότηςησ δεν αντιμετωπύζουν ςυνόθωσ ςοβαρϊ προβλόματα εϊν ο χρόςτησ ψϊχνει ϋναν μοναδικό όρο ό απλϊ ϋνα ζεύγοσ κϊποιων λϋξεων κλειδιών, δεν ςυμβαύνει όμωσ το ύδιο ςτην περύπτωςη που μια ερώτηςη περιϋχει περιςςότερεσ από δύο λϋξεισ ό εύναι πολύ ςύνθετη ςτην ςύνταξη τησ λογικόσ. Αυτό ςυμβαύνει γιατύ το υποβαλλόμενο ερώτημα ϋχει νόημα μόνο για τισ Μηχανϋσ Αναζότηςησ που υποςτηρύζουν τϋτοιεσ λογικϋσ λειτουργύεσ. Επιπλϋον, προκειμϋνου να ςυνταχθεύ μια γρηγορότερη απϊντηςη, οι Μηχανϋσ Μετα-Αναζότηςησ εκτελούν τισ απαραύτητεσ διαδικαςύεσ μϋςα ςε μια μικρό χρονικό περύοδο ςε κϊθε βϊςη δεδομϋνων, ενώ υπολογύζεται ότι ςυνόθωσ ανακτούν περύπου το 10% των επιςτρεφόμενων αποτελεςμϊτων κϊθε υπηρεςύασ που χρηςιμοποιεύται [3]. Τα προβλόματα αυτϊ όταν ιδιαύτερα ϋντονα κατϊ την περύοδο που πρωτοεμφανύςτηκαν οι Μηχανϋσ Μετα- Αναζότηςησ, με κυριότερο επακόλουθο την μη ορθό ανϊκτηςη όλων των ςτοιχεύων που όταν ςχετικϊ με την ερώτηςη των χρηςτών. Όπωσ αναφϋρθηκε ςτισ παραπϊνω ενότητεσ, μια Μηχανό Μετα-Αναζότηςησ χρηςιμοποιεύ τουσ καταλόγουσ και τα ευρετόρια των εμπλεκόμενων υπηρεςιών αναζότηςησ υποβϊλλοντασ ςε αυτϋσ τισ ερωτόςεισ του χρόςτη. Δεδομϋνου του γεγονότοσ ότι κϊθε μύα από αυτϋσ ϋχει διαφορετικό τρόπο ςύνταξησ όςον αφορϊ την υποβαλλόμενη ερώτηςη από το χρόςτη, υπϊρχει αςυμβατότητα όςον αφορϊ τη χρηςιμοπούηςη κϊποιων χαρακτηριςτικών που διϋπουν τη λειτουργύα των χρηςιμοποιούμενων υπηρεςιών αναζότηςησ. Ωσ αποτϋλεςμα όλησ αυτόσ τησ λειτουργικόσ αςυνϋχειασ, οι Μηχανϋσ Μετα- Αναζότηςησ πρϋπει να μεταφρϊςουν την ερώτηςη των χρηςτών πριν αυτό υποβληθεύ ςτισ καθοριςμϋνεσ Μηχανϋσ Αναζότηςησ. Η μετϊφραςη αυτό γύνεται τοπικϊ ςτο ςύςτημα τησ Μηχανόσ Μετα-Αναζότηςησ αφού πρώτα ϋχει μελετηθεύ ο τρόποσ 34

λειτουργύασ των χρηςιμοποιούμενων υπηρεςιών αναζότηςησ. Λόγω δε των ςυχνών αλλαγών ςτα εςωτερικϊ και εξωτερικϊ χαρακτηριςτικϊ των εμπλεκόμενων υπηρεςιών, κρύνεται απαραύτητη η ςυνεχόσ παρακολούθηςη και αντύςτοιχη ανανϋωςη του ςυςτόματοσ που εύναι υπεύθυνο για τη λειτουργύα αυτό. Το ςύςτημα το οπούο ενεργοποιεύται ςτο ςτϊδιο αυτό ονομϊζεται Διεκπεραιωτόσ ό και Αποςτολϋασ τησ ερώτηςησ. Ωσ γνωςτόν, ςτο χώρο των Μηχανών Αναζότηςησ υπϊρχουν πολλού τρόποι ςχετικόσ κατϊταξησ αποτελεςμϊτων, όμωσ οι χρηςιμοποιημϋνοι αλγόριθμοι ταξινόμηςησ δεν εύναι διαθϋςιμοι και γνωςτού ςτουσ χρόςτεσ. Κατϊ ςυνϋπεια, το πρόβλημα ςυγχώνευςησ των αποτελεςμϊτων από τισ διαφορετικϋσ Μηχανϋσ Αναζότηςησ οι οπούεσ χρηςιμοποιούν διαφορετικούσ και ϊγνωςτουσ αλγορύθμουσ αποτελεύ ϋνα αρκετϊ δύςκολο πρόβλημα [32], [33]. Επιπρόςθετα, εύναι δύςκολο να ςυγχωνευθούν τα αποτελϋςματα ερώτηςη σ ακόμα κι αν οι ςυγκρινόμενεσ Μηχανϋσ Αναζότηςησ χρηςιμοποιούν τον ύδιο αλγόριθμο ταξινόμηςησ. Ϋτςι, ακόμα κι αν δύο Μηχανϋσ Αναζότηςησ χρηςιμοποιούν τον γνωςτό τύπο t f id f, για τον υπολογιςμό των βαρών ομοιότητασ, αναμϋνεται ότι η ύδια ςυνταγμϋνη ιςτοςελύδα θα παρουςιϊζει διαφορετικό κατϊταξη όςον αφορϊ μια δεδομϋνη ερώτηςη, λόγω διαφορετικού ανατιθϋμενου βϊρουσ. Αυτό ςυμβαύνει επειδό οι δύο λογαριθμικϋσ αναλογύεσ των ςχετικών πηγών που περιϋχουν τουσ όρουσ ερώτηςησ, διαφϋρουν όςον αφορϊ τον ςυνολικό αριθμό των καταχωρημϋνων πηγών με αποτϋλεςμα να διαφϋρει και η αντύςτροφη ςυχνότητα εγγρϊφου για την ύδια ιςτοςελύδα [34]. Ωσ αποτϋλεςμα, προςδύδεται ςτην ιςτοςελύδα διαφορετικό βϊροσ από τισ υπηρεςύεσ αναζότηςησ και επιςτρϋφεται με διαφορετικό κατϊταξη ςτα ςχετικϊ αποτελϋςματα. Επιπλϋον, πρϋπει να υπογραμμιςτεύ ότι κατϊ τη χρηςιμοπούηςη μιασ ξεχωριςτόσ Μηχανόσ Αναζότηςησ, ο χρόςτησ λαμβϊνει πολλϋσ φορϋσ διπλότυπα πεδύα ςτα επιςτρεφόμενα αποτελϋςματα. Παρότι το πρόβλημα των διπλότυπ ων πεδύων μεταξύ διαφορετικών Μηχανών Αναζότηςησ αντιμετωπύζεται επαρκώσ, τα διπλότυπα πεδύα που παρουςιϊζονται ςτην ύδια υπηρεςύα ςυνόθωσ λαμβϊνονται ωσ διαφορετικϊ, με αποτϋλεςμα την παρουςύαςη ταυτόςημων αποτελεςμϊτων από τισ Μηχανϋσ Μετα- Αναζότηςησ. Στην επεξεργαςύα λοιπόν των αποτελεςμϊτων από κϊθε Μηχανό Αναζότηςησ κρύνεται απαραύτητη η περαιτϋρω ανύχνευςη για τυχόν διπλότυπα πεδύα. Ϋνασ μηχανιςμόσ εύναι η παραβολό και ςύγκριςη των διευθύνςεων των ςελύδων [35] 35

4 Σεχνικές και Βασικά Φαρακτηριστικά Βελτιστοποίησης Οι τεχνικϋσ βελτιςτοπούηςησ μιασ ιςτοςελύδασ αναφϋρονται ςε ϋνα ςύνολο μεθόδων που ϋχουν ωσ ςτόχο να αυξόςουν την αναγνωριςιμότητα μιασ ιςτοςελύδασ. Με τον όρο αναγνωριςιμότητα ορύζουμε την κατϊταξη που δύνουν ςτην ιςτοςελύδα αυτό οι διϊφορεσ Μηχανόσ Αναζότηςησ. Στο κεφϊλαιο αυτό αναλύονται οι τρόποι με τουσ οπούουσ επιτυγχϊνεται η βελτύωςη τησ κατϊταξησ μιασ ιςτοςελύδασ ςτα αποτελϋςματα των μηχανών αναζότηςησ. 4.1 Εξέλιξη Σεχνικών Κατάταξης Οι ςχεδιαςτϋσ ιςτοςελύδων (webmasters) και οι πϊροχοι περιεχομϋνου ξεκύνηςαν να αςχολούνται με τη βελτιςτοπούηςη των ιςτοςελύδων για τησ μηχανϋσ αναζότηςησ ςτα μϋςα τησ δεκαετύασ του 1990, καθώσ οι πρώτεσ μηχανϋσ αναζότηςησ ϊρχιςαν να καταγρϊφουν τον Παγκόςμιο Ιςτό. Αρχικϊ, αυτό που ϋπρεπε να κϊνουν οι ςχεδιαςτϋσ όταν να δηλώςουν τη ςελύδα τουσ, ό την διεύθυνςη τησ, ςε διϊφορεσ Μηχανϋσ Αναζότηςησ ώςτε αυτϋσ, με τη ςειρϊ τουσ, να ςτεύλουν τα ρομπότ τουσ να αναλύςουν τη ςελύδα, να εξϊγουν τουσ ςυνδϋςμουσ τησ προσ ϊλλεσ ςελύδεσ και να επιςτρϋψουν τισ πληροφορύεσ τισ ςελύδασ οι οπούεσ θα μπουν ςτουσ καταλόγουσ τησ μηχανόσ αναζότηςησ. Οι ςχεδιαςτϋσ ϊρχιςαν να αναγνωρύζουν την αξύα του να ϋχουν οι ιςτοςελύδεσ τουσ υψηλό βαθμό (Rank) ςτισ Μηχανϋσ Αναζότηςησ, καθώσ και ότι όςο υψηλότεροσ εύναι αυτόσ ο βαθμόσ τόςο υψηλότερα θα εμφανύζεται η ιςτοςελύδα ςτα αποτελϋςματα και τόςο περιςςότεροι χρόςτεσ θα δουν το δικτυακό τουσ τόπο. Οι πρώιμεσ εκδόςεισ των αλγορύθμων κατϊταξησ βαςύζονταν ςε πληροφορύεσ που παρεύχαν οι ςχεδιαςτϋσ των ιςτοςελύδων, όπωσ τα περιεχόμενα των μετα-πεδύων (meta-tags). Ανακριβό, ελλιπό και αντιφατικϊ δεδομϋνα ςτα πεδύα αυτϊ εύχαν ωσ αποτϋλεςμα οι ςελύδεσ να ϋχουν υψηλϊ ςκορ ςε ϊςχετεσ αναζητόςεισ. Επύςησ, οι ςχεδιαςτϋσ μπορούςαν να χειραγωγόςουν ϋνα ςύνολο πεδύων μϋςα ςτον κώδικα τησ ιςτοςελύδασ προςπαθώντασ να ϋχουν υψηλϊ ςκορ ςτισ μηχανϋσ αναζότηςησ. 36

Οι πρώτεσ Μηχανϋσ Αναζότηςησ υπϋφεραν από κατϊχρηςη και χειραγώγηςη τησ κατϊταξησ επειδό ςτηρύζονταν ςε παρϊγοντεσ των οπούο τον αποκλειςτικό ϋλεγχο εύχε ο ςχεδιαςτόσ τησ ιςτοςελύδασ. Για την παροχό καλύτερων αποτελεςμϊτων ςτουσ χρόςτεσ τουσ, οι Μηχανϋσ Αναζότηςησ ϋπρεπε να προςαρμοςτούν ώςτε να εξαςφαλύςουν ότι παρϋχουν τα πιο ςχετικϊ αποτελϋςματα. Ϋτςι, αναπτύχθηκαν πολυπλοκότεροι αλγόριθμοι κατϊταξησ οι οπούοι λϊμβαναν υπόψη τουσ πρόςθετουσ παρϊγοντεσ που όταν δυςκολότερο να χειραγωγηθούν. Οι Larry Page και Sergey Brin, μεταπτυχιακού φοιτητϋσ ςτο Πανεπιςτόμιο του Στϊνφορντ, ανϋπτυξαν την «backrub», μια Μηχανό Αναζότηςησ η οπούα βαςιζόταν ςε ϋναν αριθμητικό αλγόριθμο για την αξιολόγηςη των ιςτοςελύδων. Ο αριθμόσ που υπολογύζεται από τον αλγόριθμο PageRank, ο βαθμόσ ςελύδασ (Page Rank), εύναι ςυνϊρτηςη τησ ποςότητασ και βαρύτητασ των ειςερχόμενων ςυνδϋςεων. Ο βαθμόσ ςελύδασ εύναι η πιθανότητα να φτϊςει ϋνασ χρόςτησ, που πλοηγεύται τυχαύα ςτο διαδύκτυο, ςτη δεδομϋνη ιςτοςελύδα ακολουθώντασ τισ ςυνδϋςεισ από μια ςελύδα ςε μια ϊλλη. Το 1998 ιδρύεται η Google, από τουσ Page και Brin, η οπούα προςϋλκυςε γρόγορα ϋνα μεγϊλο μϋροσ χρηςτών λόγω του απλού ςχεδιαςμού τησ. Σε αυτό, λαμβϊνονταν υπόψη τόςο παρϊγοντεσ ϊμεςοι με τη ςελύδα, όπωσ τα περιεχόμενα κϊποιων πεδύων του κώδικα, όςο και ϋμμεςοι, όπωσ βαθμόσ ςελύδασ και ανϊλυςη των ςυνδϋςμων. Αν και ο αλγόριθμοσ PageRank όταν πιο δύςκολο να χειραγωγηθεύ, οι ςχεδιαςτϋσ ιςτοςελύδων εύχαν όδη βρει τρόπουσ να το κϊνουν. Πολλϋσ ιςτοςελύδεσ επικεντρώθηκαν ςτην ανταλλαγό, αγορϊ και πώληςη ςυνδϋςμων ςε μαζικό κλύμακα και εμπλϋκονταν ςτη δημιουργύα χιλιϊδων δικτυακών τόπων με αποκλειςτικό ςκοπό τη δημιουργύα μεγϊλου αριθμού ςυνδϋςμων, κϊτι που ϋγινε γνωςτό ωσ link spamming. Κατϊ τα τελευταύα χρόνια, οι μεγϊλεσ Μηχανϋσ Αναζότηςησ ϋχουν αρχύςει να βαςύζονται περιςςότερο ςε παρϊγοντεσ εκτόσ δικτύου, όπωσ ηλικύα, φύλο, τοποθεςύα και ιςτορικό αναζητόςεων, με ςκοπό την περαιτϋρω βελτύωςη των αποτελεςμϊτων. Μϋχρι το 2007, οι μηχανϋσ αναζότηςησ εύχαν ενςωματώςει ϋνα ευρύ φϊςμα απόρρητων παραγόντων ςτουσ αλγορύθμουσ κατϊταξησ τουσ με ςκοπό να μειώςουν τισ επιπτώςεισ τησ χειραγώγηςησ των ςυνδϋςμων. Οι τρεύσ πρώτεσ μηχανϋσ αναζότηςησ, Google, Yahoo και Microsoft Live Search, δεν αποκαλύπτουν τουσ αλγορύθμουσ που χρηςιμοποιούν για τη βαθμολόγηςη των ιςτοςελύδων. Η Google δηλώνει ότι βαθμολογεύ τισ ιςτοςελύδεσ με περιςςότερουσ από 200 παρϊγοντεσ. 37

4.2 Επισκόπηση Σεχνικών Βελτιστοποίησης Οι Τεχνικϋσ Βελτιςτοπούηςησ περιγρϊφουν όλεσ εκεύνεσ τισ διαδικαςύεσ ό επεμβϊςεισ που πρϋπει να ςε μια ιςτοςελύδα ώςτε, με τη χρόςη διϊφορων ςχετικών όρων αναζότηςησ, να εμφανύζεται με όςο το δυνατόν καλύτερη κατϊταξη ςτην λύςτα των αποτελεςμϊτων των μηχανών αναζότηςησ. Η ευνοώκότερη προβολό ςτα αποτελϋςματα των μηχανών αναζότηςησ μεταφρϊζεται ςε αύξηςη τησ επιςκεψιμότητασ μιασ ιςτοςελύδασ. Υπϊρχουν τρεύσ κύριεσ μϋθοδοι βελτιςτοπούηςησ: Πληρωμϋνη Συμπερύληψη (paid inclusion) Πληρωμό Βϊςη Επιςκϋψεων (pay per click) Βελτιςτοπούηςη για τισ Μηχανϋσ Αναζότηςησ (Search Engine Optimization) 4.2.1 Πληρωμένη υμπερίληψη Μια πολύ δημοφιλόσ μϋθοδοσ προβολόσ των ιςτοςελύδων εύναι η πληρωμϋνη ςυμπερύληψη, ςύμφωνα με την οπούα οι ιδιοκτότεσ των ιςτοςελύδων καταβϊλλουν ςτην εταιρύα που παρϋχει τη Μηχανό Αναζότηςησ ϋνα ποςό για να ςυμπεριληφθούν οι ιςτοςελύδεσ τουσ ςτον κατϊλογο αναζότηςησ (search index) που κρατούν οι Μηχανϋσ Αναζότηςησ [36]. Οι Μηχανϋσ Αναζότηςησ που προςφϋρουν τησ υπηρεςύα αυτό παρϋχουν εγγυημϋνη εμφϊνιςη ςτα αποτελϋςματα αλλϊ όχι καλό κατϊταξη. Οριςμϋνοι πολϋμιοι αυτόσ τησ μεθόδου υποςτηρύζουν ότι τα αποτελϋςματα των αναζητόςεων βαςύζονται περιςςότερο ςε οικονομικϊ κριτόρια παρϊ ςε κριτόρια ςυνϊφειασ. Οι περιςςότερεσ Μηχανϋσ Αναζότηςησ παρϋχουν την δυνατότητα τησ πληρωμϋνησ ςυμπερύληψησ με εξαύρεςη την Google. 4.2.2 Πληρωμή Βάση Επισκέψεων Η μϋθοδοσ τησ πληρωμόσ βϊςη επιςκϋψεων εύναι ϋνα διαφημιςτικό μοντϋλο ςτο οπούο οι διαφημιζόμενοι πληρώνουν εφόςον ο χρόςτησ επιλϋξει τη ςυγκεκριμϋνη διαφόμιςη και επιςκεφθεύ τη ςελύδα του διαφημιζόμενου. Οι εταιρύεσ που θϋλουν να διαφημιςτούν δεςμεύουν λϋξεισ-κλειδιϊ ςχετικϋσ με τα προώόντα τουσ τισ οπούεσ πιςτεύουν ότι το αγοραςτικό κοινό τουσ θα αναζητόςει [37]. Τϋτοιεσ διαφημύςεισ καλούνται χρηματοδοτούμενοι υπερςύνδεςμοι (sponsored links) ό χρηματοδοτούμενεσ διαφημύςεισ (sponsored ads) και εμφανύζονται εύτε δύπλα εύτε πριν τα κανονικϊ αποτελϋςματα τησ αναζότηςησ. 38

Δικόνα 4-1: Γιαθεμίζειρ Πλεπυμήρ Βάζε Δπιζκέτευν ζηε Google Οι χρεώςεισ γι αυτό την υπηρεςύα διαφϋρουν ανϊλογα με την Μηχανό Αναζότηςησ καθώσ και με τον ανταγωνιςμό για τη ςυγκεκριμϋνη λϋξη ό φρϊςη και ξεκινούν από τα $0,01 ενώ μπορεύ να κοςτύςουν πολύ περιςςότερο ςε μεγϊλεσ μηχανϋσ για δημοφιλεύσ όρουσ. 4.2.3 Βελτιστοποίηση για τις Μηχανές Αναζήτησης Οι τεχνικϋσ Βελτιςτοπούηςησ για τησ Μηχανϋσ Αναζότηςησ (Search Engine Optimization SEO) περιγρϊφουν όλεσ εκεύνεσ τισ αλλαγϋσ που πρϋπει να γύνουν τόςο ςτη δομό όςο και ςτο περιεχόμενο μιασ ιςτοςελύδασ με ςτόχο την βελτύωςη τησ βαθμολογύασ τησ. Συνόθωσ, όςο μεγαλύτερο βαθμό ϋχει μια ιςτοςελύδα, όςο δηλαδό υψηλότερα εμφανύζεται ςτα αποτελϋςματα τησ αναζότηςησ, τόςο περιςςότεροι χρόςτεσ θα την επιςκεφτούν. Οι τεχνικϋσ αυτϋσ χρηςιμοποιούνται κυρύωσ από ανθρώπουσ του χώρου προώθηςησ προώόντων οι οπούοι επιθυμούν να αυξόςουν τη βαθμολογύα τησ ιςτοςελύδασ μιασ εταιρύασ ώςτε να προςελκύςουν μεγαλύτερο αγοραςτικό κοινό. Παρακϊτω αναλύονται περεταύρω οι τεχνικϋσ αυτϋσ. 39

4.3 Βελτιστοποίηση για τις Μηχανές Αναζήτησης Οι Μηχανϋσ Αναζότηςησ, για την κατϊταξη των αποτελεςμϊτων, ϋχουν αναπτύξει αλγορύθμουσ κατϊταξησ των αποτελεςμϊτων οι οπούοι βαςύζονται ςε πληροφορύα όπωσ Κεύμενο τύτλου Όνομα τομϋα Διεύθυνςη ιςτοςελύδασ Πεδύα HTML κώδικα Συχνότητα όρων Εγγύτητα λϋξεων κλειδιών Γειτνύαςη λϋξεων κλειδιών Ακολουθύα λϋξεων κλειδιών Κεύμενο ςελύδασ Κεύμενο εικόνων Πρωτοπόροσ, όμωσ, ςτον τομϋα αυτό εύναι η Google η οπούα ανϋπτυξε τον αλγόριθμο PageRank όπου μια ιςτοςελύδα αξιολογεύται με βϊςη τουσ ειςερχόμενουσ υπερςυνδϋςμουσ. Σόμερα η Google ιςχυρύζεται ότι χρηςιμοποιεύ πϊνω από 200 παρϊγοντεσ αξιολόγηςησ. 4.3.1 Καταχώρηση Ιστοσελίδας Βαςικό προώπόθεςη για να γύνει βελτιςτοπούηςη ςε μια ιςτοςελύδα εύναι να γύνει γνωςτό η ιςτοςελύδα αυτό ςτισ Μηχανϋσ Αναζότηςησ ώςτε να καταχωρηθεύ ςτο ευρετόριο τουσ. Οι ςύνδεςμοι από ϊλλεσ ιςτοςελύδεσ ϋχουν εξαιρετικό ςημαςύα και αποτελούν βαςικό προώπόθεςη για την εύρεςη τησ ιςτοςελύδασ από τισ Μηχανϋσ Αναζότηςησ αλλϊ και από τουσ χρόςτεσ του διαδικτύου. Εύναι επύςησ ςημαντικό οι ςύνδεςμοι αυτού να προϋρχονται από ιςτοςελύδεσ με ςχετικό περιεχόμενο. Ακριβώσ ςε αυτό βαςύζονται και οι Μηχανϋσ Αναζότηςησ οι οπούεσ ϋχουν γύνει αρκετϊ «ϋξυπνεσ» ώςτε να αναγνωρύζουν τουσ ςυνδϋςμουσ από ςχετικό περιεχόμενο και να «αγνοούν» εκεύνουσ από ϊςχετο. Πολλού ςύνδεςμοι, λοιπόν, από ϊλλεσ ιςτοςελύδεσ με ςχετικό περιεχόμενο ϋχουν ςαν αποτϋλεςμα όχι μόνο την αυτόματη καταχώρηςη μιασ ιςτοςελύδασ ςτισ μηχανϋσ αναζότηςησ αλλϊ και την ταυτόχρονη αύξηςη τησ επιςκεψιμότητασ τησ ιςτοςελύδασ αυτόσ. Σε περύπτωςη, όμωσ, που μια ιςτοςελύδα δεν ϋχει τη δυνατότητα δημιουργύασ ςυνδϋςμων από ϊλλεσ ιςτοςελύδεσ προσ αυτόν, πρϋπει να καταχωρηθεύ ςτισ κυριότερεσ Μηχανϋσ Αναζότηςησ μϋςω μιασ φόρμασ καταχώρηςησ των ύδιων των μηχανών. Για παρϊδειγμα, ςελύδεσ καταχώρηςησ βαςικών μηχανών εύναι: 40

Google: http://www.google.com/addurl.html Yahoo: http://search.yahoo.com/info/submit.html MSN/Live Search: http://search.msn.com.sg/docs/submit.aspx 4.3.2 Βασικά Φαρακτηριστικά Βελτιστοποίησης Καθώσ οι αλγόριθμοι κατϊταξησ των Μηχανών Αναζότηςησ δεν αποκαλύπτονται, οι τεχνικϋσ βελτιςτοπούηςησ κυμαύνονται γύρω από κϊποιουσ βαςικούσ ϊξονεσ οι οπούοι περιγρϊφονται παρακϊτω. 4.3.2.1 Έγκυρος πηγαίος κώδικας Η βϊςη κϊθε ιςτοςελύδασ πρϋπει να εύναι η περιγραφικό γλώςςα HTML. Αυτό αναγνωρύζουν οι φυλλομετρητϋσ (Browsers) και αυτό παύρνουν οι Μηχανϋσ Αναζότηςησ πληροφορύεσ για το περιεχόμενο τησ ιςτοςελύδασ. Τεχνικϋσ όπωσ JavaScript, AJAX, Flash κτλ καθώσ και εικόνεσ προςδύδουν ςε μια ιςτοςελύδα ειδικϊ «εφϋ» και μπορούν να βελτιώςουν τόςο την εμφϊνιςη όςο και την αλληλεπύδραςη με τον χρόςτη. Δυςτυχώσ, όμωσ, το περιεχόμενο των τεχνικών αυτών δεν μπορεύ να αναλυθεύ ακόμα πλόρωσ από τισ μηχανϋσ αναζότηςησ Αφού λοιπόν η HTML εύναι απαραύτητη, πρϋπει να εφαρμόζεται ςωςτϊ με βϊςη διεθνό πρότυπα και να γύνεται ϋλεγχοσ αν ο κώδικασ πραγματικϊ ςυμμορφώνεται με τα πρότυπα αυτϊ και κατ επϋκταςη, αν εύναι ϋγκυροσ [38]. Επύςησ, πολύ ςημαντικό εύναι η εφαρμογό των αρχών προςβαςιμότητασ ςτο διαδύκτυο, δηλαδό για ϊτομα με ειδικϋσ ανϊγκεσ. Μια ιςτοςελύδα προςβϊςιμη ςε ανθρώπουσ με αναπηρύεσ εύναι ςύγουρα προςβϊςιμη και ςτισ Μηχανϋσ Αναζότηςησ. 4.3.2.2 Λέξεις-κλειδιά Οι όροι αναζότηςησ, δηλαδό οι λϋξεισ-κλειδιϊ, βϊςη των οπούων επιθυμούμε μια ιςτοςελύδα να βρεθεύ ςτα αποτελϋςματα των μηχανών αναζότηςησ πρϋπει να υπϊρχουν ςτο περιεχόμενο τησ ιςτοςελύδασ. Οι λϋξεισ-κλειδιϊ πρϋπει να υπϊρχουν αρκετϊ ςυχνϊ ςτο περιεχόμενο αλλϊ όχι ςε υπερβολικό βαθμό διότι οι Μηχανϋσ Αναζότηςησ αντιλαμβϊνονται ότι πρόκειται για απόπειρα εξαπϊτηςησ και βαθμολογούν αρνητικϊ τη ςελύδα αυτό. Συγκεκριμϋνα, η πυκνότητα των λϋξεων αυτών δεν πρϋπει να ξεπερνϊ το 4% - 7%. 41

Εκτόσ από το κυρύωσ κεύμενο όμωσ υπϊρχουν και κϊποια πεδύα τα οπούα εύναι πολύ ςημαντικϊ για την κατϊταξη, πεδύα όπωσ: Τύτλοσ Κεφαλύδεσ μεγαλύτερεσ του H3 Όνομα δικτυακού τόπου Διεύθυνςη του δικτυακού τόπου Μετα-δεδομϋνα Ϋντονη γραφό Στοιχεύα εικόνων Για παρϊδειγμα, οι τύτλοι των ιςτοςελύδων εμφανύζονται με ϋντονα γρϊμματα ςτα αποτελϋςματα των Μηχανών Αναζότηςησ και εύναι και το πρώτο πρϊγμα που βλϋπει ϋνασ χρόςτησ. Καταλαβαύνουμε, λοιπόν, ότι εύναι πολύ ςημα ντικό να χρηςιμοποιούμε περιγραφικούσ τύτλουσ που περιϋχουν τισ βαςικϋσ λϋξεισ-κλειδιϊ που αφορούν ςτο ςυγκεκριμϋνο περιεχόμενο, ςε μορφό βϋβαια φρϊςησ και όχι απλόσ αναφορϊσ όρων. Τϋλοσ, κϊθε ςελύδα ενόσ ιςτοχώρου πρϋπει να ϋχει ϋνα και μοναδικό τύτλο, η χρόςη όμοιων τύτλων ςε πολλϋσ ςελύδεσ μπορεύ να βλϊψει ςοβαρϊ την προς πϊθεια βελτιςτοπούηςησ για τισ Μηχανϋσ Αναζότηςησ. Το περιεχόμενο των κεφαλύδων, απ την ϊλλη, φαύνεται να ϋχει ιδιαύτερο βϊροσ ςτην αξιολόγηςη τησ ιςτοςελύδασ από τισ Μηχανϋσ Αναζότηςησ. Επύςησ, οι κεφαλύδεσ ςυμβϊλλουν ςημαντικϊ ςτην βελτύωςη τησ δομόσ μιασ ιςτοςελύδασ, κϊνοντασ το περιεχόμενο τησ πιο ςαφϋσ και πιο εύχρηςτο για τουσ επιςκϋπτεσ. Τϋλοσ, τα μετα-δεδομϋνα εύναι πληροφοριακϊ δεδομϋνα για ϊλλα δεδομϋνα. Στην HTML υπϊρχουν τα πεδύα των μετα-δεδομϋνων τα οπούα μπορούν να χρηςιμοποιηθούν για να περιγρϊψουν το περιεχόμενο μιασ ιςτοςελύδασ ςτισ Μηχανϋσ Αναζότηςησ. Συνεπώσ, τα μετα-δεδομϋνα εύναι πολύ χρόςιμα για τισ Μηχανϋσ Αναζότηςησ, εφόςον ϋχουν δημιουργηθεύ για να περιγρϊψουν το πραγματικό περιεχόμενο τησ ιςτοςελύδασ. 4.3.2.3 Εσωτερική σύνδεση ιστοσελίδων Οι ςελύδεσ ενόσ δικτυακού τόπου πρϋπει να εύναι ςυνδεδεμϋνεσ μεταξύ τουσ. Η ςημαςύα μιασ ςυγκεκριμϋνησ ιςτοςελύδασ μπορεύ να προκύψει και από τον αριθμό και την αρχιτεκτονικό των ςυνδϋςμων που δϋχεται από ϊλλεσ ςελύδεσ του ύδιου ιςτοχώρου. Μια πλόρωσ ςυνδεδεμϋνη ςελύδα εύναι, για τισ Μηχανϋσ Αναζότηςησ, ςημαντικότερη από μια απομονωμϋνη. 42

Δικόνα 4-2: Απλή ζύνδεζε ηερ κύπιαρ ζελίδαρ ενόρ ιζηοσώπος Δικόνα 4-3: Πλήπερ ζύνδεζε ηερ κύπιαρ ζελίδαρ ενόρ ιζηοσώπος 4.3.2.4 Συνδέσεις με άλλες ιστοσελίδες Οι ςυνδϋςεισ μιασ ιςτοςελύδασ με ϊλλεσ εύναι ϋνασ πολύ ςημαντικόσ παρϊγοντασ βελτιςτοπούηςησ και ςύγουρα ανεβϊζει τη δημοτικότητα. Όχι μόνο οι ςυνδϋςεισ από ϊλλεσ ςχετικϋσ ιςτοςελύδεσ αλλϊ και προσ αυτϋσ αποτελούν βαςικό παρϊγοντα βελτιςτοπούηςησ για τισ Μηχανϋσ Αναζότηςησ. Οι Μηχανϋσ Αναζότηςησ φαύνεται ότι 43

αξιολογούν τόςο τον αριθμό όςο και την ποιότητα των ςυνδϋςμων μιασ ιςτοςελύδασ προσ ςελύδεσ ϊλλων δικτυακών τόπων με ςχετικό, χρόςιμο περιεχόμενο. Η κατϊλληλη δημιουργύα ςυνδϋςμων μπορεύ, λοιπόν, να ςυμβϊλλει θετικϊ ςτην βελτιςτοπούηςη των ιςτοςελύδων. Το να δημιουργόςουμε, όμωσ, ςυνδϋςεισ προσ τη ςελύδα μασ δεν εύναι κϊτι που βρύςκεται ςτον ϊμεςο ϋλεγχο μασ. Μια νϋα τεχνικό, για να επιτευχθεύ αυτόσ ο ςκοπόσ, ϋγκειται ςτην προςϋλκυςη ςυνδϋςμων ςτη ςελύδα μασ με το να δημιουργηθεύ κϊτι με το οπούο ο κόςμοσ θα αςχοληθεύ και θα το ςχολιϊςει. Στόχοσ τησ τεχνικόσ αυτόσ εύναι η δημιουργύα ενόσ «δολώματοσ» για τον υπόλοιπο κόςμο [ 39]. Μερικϊ τϋτοια δολώματα εύναι τα ακόλουθα: Γραφό ενόσ ενδιαφϋροντοσ ϊρθρου Ύπαρξη αναφορών, όπωσ ιςτορύα ενόσ πρϊγματοσ ό τρόποσ πραγματοπούηςησ κϊποιου πρϊγματοσ Ύπαρξη αςτεύων Ύπαρξη τελευταύων νϋων Τα παραπϊνω εύναι μόνο ενδεικτικϊ για το πώσ μπορεύ κϊποιοσ να κϊνει την ιςτοςελύδα του πιο ενδιαφϋρουςα και να προςελκύςει υπερςυνδϋςεισ ςε αυτόν. 4.3.3 Μαύρες τεχνικές Οι τεχνικϋσ βελτιςτοπούηςησ για τισ Μηχανϋσ Αναζότηςησ μπορούν να χωριςτούν ςε 2 κατηγορύεσ: Τεχνικϋσ που οι Μηχανϋσ Αναζότηςησ ςυςτόνουν ωσ μϋροσ ενόσ καλού ςχεδιαςμού (White Hat) Τεχνικϋσ που οι Μηχανϋσ Αναζότηςησ δεν εγκρύνουν (Black Hat) Η χρόςη των τελευταύων επιδιώκει τη βελτύωςη τησ βαθμολογύασ μια ςελύδασ μϋςω εξαπϊτηςησ. Για να προςτατϋψουν οι Μηχανϋσ Αναζότηςησ τουσ χρόςτεσ τουσ εφαρμόζουν πολιτικϋσ που περιλαμβϊνουν την τιμωρύα των ιςτοςελύδων που τισ χρηςιμοποιούν. Οι τιμωρύεσ μπορεύ να εύναι εύτε μεύωςη τησ βαθμολογύασ τησ ςελύδασ εύτε πλόρη διαγραφό τησ ςελύδασ από τουσ καταλόγουσ τησ. Οι κυριότερεσ τεχνικϋσ εξαπϊτηςησ αναλύονται παρακϊτω. 4.3.3.1 Επικάλυψη (cloaking) Εύναι μια τεχνικό ςύμφωνα με την οπούα το περιεχόμενο μιασ ιςτοςελύδασ που παρουςιϊζεται ςτο ρομπότ μιασ Μηχανόσ Αναζότηςησ εύναι διαφορετικό από αυτό που παρουςιϊζεται ςτον τελικό χρόςτη όταν επιςκεφτεύ την ιςτοςελύδα αυτό. Αυτό επιτυγχϊνεται με εξϋταςη τησ IP διεύθυνςησ ό την κεφαλύδα HTTP τησ αύτηςησ αυτού 44

που ζητϊει τη ςυγκεκριμϋνη ςελύδα. Ϋτςι, υπϊρχουν 2 ιςτοςελύδεσ και όταν ο χρόςτησ αναγνωριςτεύ ωσ Μηχανό Αναζότηςησ βλϋπει τη μια, ενώ αν αναγνωριςτεύ ωσ απλόσ χρόςτησ βλϋπει την ϊλλη. Με αυτόν τον τρόπο, τα ρομπότ των Μηχανών Αναζότηςησ προςπελαύνουν ςελύδα διαφορετικού περιεχομϋνου και η οπούα κατατϊςςεται ψηλότερα με αποτϋλεςμα οι τελικού χρόςτεσ να εξαπατώνται και να επιςκϋπτονται ιςτοςελύδεσ οι οπούεσ ϋχουν μικρό, ό ςε αρκετϋσ περιπτώςεισ καμύα, ςχϋςη με τα κριτόρια τησ αναζότηςησ τουσ. Δικόνα 4-4: Η ηεσνική Cloaking 4.3.3.2 Τοποθέτηση Κρυφού Κειμένου Μια ϊλλη μϋθοδοσ παραπλϊνηςησ των Μηχανών Αναζότηςησ εύναι η τοποθϋτηςη κρυφού κειμϋνου μϋςα ςτη ςελύδα. Αυτό γύνεται με τον χρωματιςμό, ςτο χρώμα του φόντου, κειμϋνου, λϋξεων ό ακόμα και υπερςυνδϋςεων. Αυτό ϋχει ωσ αποτϋλεςμα οι Μηχανϋσ Αναζότηςησ να προςπελαύνουν το κεύμενο αυτό αλλϊ οι επιςκϋπτεσ να μην μπορούν να το διακρύνουν. 4.3.3.3 Ιστοσελίδες «Πύλες» (Doorway Pages) Οι ςελύδεσ αυτϋσ δημιουργούνται με αποκλειςτικό ςκοπό την όςο το δυνατόν καλύτερη κατϊταξη ςτα αποτελϋςματα των Μηχανών Αναζότηςησ και οι οπούεσ, από μόνεσ τουσ, δεν παρϋχουν αξιόλογεσ πληροφορύεσ ςε όςουσ τισ επιςκϋπτονται. Συνόθωσ, οι ιςτοςελύδεσ αυτόσ τησ μορφόσ καλύπτουν διϊφορεσ πλευρϋσ ενόσ θϋματοσ αλλϊ το κεύμενο εύναι το ύδιο. Τελικϊ, όλεσ καθοδηγούν, με αυτόματο τρόπο, τουσ επιςκϋπτεσ ςτην κύρια ιςτοςελύδα. 45

Δικόνα 4-5: Ιζηοζελίδερ Πύλερ 4.3.3.4 Ιστοσελίδες Φαντάσματα Η μϋθοδοσ αυτό αναφϋρεται ςτην εςκεμμϋνη δημιουργύα ιςτοςελύδων οι οπούεσ εύναι όμοιεσ με τη ςελύδα τησ οπούασ την κατϊταξη θϋλουμε να βελτιώςουμε, με τη διαφορϊ ότι ϋχουν και υπερςυνδϋςμουσ προσ αυτό. Οι ςελύδεσ αυτϋσ πρόκειται να κατηγοριοποιηθούν από τισ Μηχανϋσ Αναζότηςησ με αποτϋλεςμα την παραγωγό μεγαλύτερησ κύνηςησ ςτην κύρια ςελύδα. 46

4.4 χετικά Εργαλεία και Σεχνικές Με ςκοπό τη διευκόλυνςη των κατόχων ιςτοςελύδων να βελτιώςουν την κατϊταξη τουσ ςτισ Μηχανϋσ Αναζότηςησ πολλϋσ εταιρύεσ ϋχουν εξειδικευτεύ ςε αυτόν τον τομϋα. Επύςησ, ϋχουν υλοποιηθεύ και αρκετϋσ εφαρμογϋσ για τον ύδιο ςκοπό. Οι εφαρμογϋσ αυτϋσ αναλύουν τη ζητούμενη ιςτοςελύδα και παρϋχουν ςυμβουλϋσ βελτιςτοπούηςησ. 4.4.1 Εφαρμογές Βελτιστοποίησης Κατάταξης SEO Elite [40] Το εργαλεύο αυτό προςφϋρει εργαλεύα δημιουργύασ κύνηςησ, βρύςκει ςελύδεσ με υψηλό βαθμό, παρακολουθεύ τισ αμοιβαύεσ ςυνδϋςεισ με ϊλλεσ ιςτοςελύδεσ, βρύςκει πόςεσ και ποιεσ ςελύδεσ κϊθε μεγϊλη Μηχανό Αναζότηςησ ϋχει καταχωρόςει, ενημερώνεται τακτικϊ για την κατϊταξη τησ ιςτοςελύδασ, αναλύει και ςυγκρύνει ειδικϋσ εντολϋσ αναζότηςησ ςτη Google, βρύςκει ςε ποιεσ ιςτοςελύδεσ διαφημύζονται οι ανταγωνιςτϋσ, βρύςκει τιμωρημϋνεσ ιςτοςελύδεσ με τισ οπούεσ μπορεύ να ϋχουμε ςύνδεςη. Internet Business Promoter [41] Η ςουύτα αυτό προςφϋρει διϊφορα εργαλεύα προώθηςησ ςυμπεριλαμβανομϋνων μιασ γεννότριασ λϋξεων κλειδιών, υποβολϋα αιτόςεων ςε Μηχανϋσ Αναζότηςησ και ϋλεγχο βαθμολογύασ. Επύςησ, ϋχει τη δυνατότητα ελϋγχου των υπερςυνδϋςμων, βελτιςτοπούηςησ με βϊςη τουσ 10 πρώτουσ καθώσ και προςομούωςη ενόσ ρομπότ. Μπορεύ να διαχειριςτεύ και ϊλλουσ τρόπουσ προώθηςησ, όπωσ διαφημύςεισ, καθώσ και να ελϋγξει την εγκυρότητα του κώδικα. 47

WebPosition Gold[42] Εύναι μια εφαρμογό η οπούα βελτιςτοποιεύ ιςτοςελύδεσ, τισ υποβϊλει ςτισ μεγαλύτερεσ Μηχανϋσ Αναζότηςησ παγκοςμύωσ και ελϋγχει τη βαθμολογύα τησ ιςτοςελύδασ καθώσ και την κύνηςη τησ. Web CEO [43] Εύναι μια ςουύτα που περιλαμβϊνει γεννότρια λϋξεων κλειδιών, αναλυτό βελτιςτοπούηςησ ςελύδασ, αυτόματη καθώσ και χειροκύνητη υποβολό τησ ςελύδασ ςε Μηχανϋσ Αναζότηςησ, παρακολούθηςη βαθμολογύασ καθώσ και αναλυτό των κορυφαύων ςελύδων. OptiLink [44] Εύναι ϋνα εργαλεύο ανϊλυςησ των υπερςυνδϋςμων για τον ϋλεγχο, την ανϊλυςη καθώσ και για την παρακολούθηςη των υπερςυνδϋςεων των αντιπϊλων ώςτε να αποκαλύψει με πιο τρόπο οι πρώτεσ ιςτοςελύδεσ κατϊφεραν να ςκορϊρουν τόςο ψηλϊ. Traffic Travis [45] Η ςουύτα αυτό προςφϋρει 11 βαςικϊ εργαλεύα ςυμπεριλαμβανομϋνων εύρεςη λϋξεων-κλειδιών, ανϊλυςη ιςτοςελύδασ, ϋλεγχοσ υπερςυνδϋςμων, ανϊλυςη διαφημύςεων. SEO Toolkit [46] Μια ςουύτα με εφαρμογϋσ για τη βελτιςτοπούηςη, την υποβολό και τον υπολογιςμό τησ βαθμολογύασ μιασ ιςτοςελύδασ. 48

SmartPage Generator [47] Εύναι ϋνα πρόγραμμα που δημιουργεύ ιςτοςελύδεσ Πύλεσ βϊςη των αρχών που διϋπουν τισ πρώτεσ ςελύδεσ ςτην κατϊταξη. 4.4.2 Εταιρείες Βελτιστοποίησης Κατάταξης Εκτόσ όμωσ από τα διϊφορα πακϋτα λογιςμικού που κυκλοφορούν ςτην αγορϊ, υπϊρχουν και πολλϋσ εταιρύεσ που δραςτηριοποιούνται ςτο χώρο αυτ ό. Οι εταιρύεσ αυτϋσ προςφϋρουν υπηρεςύεσ όπωσ: Ϋρευνα λϋξεων-κλειδιών Καταχώρηςη ςε Μηχανϋσ Αναζότηςησ Ενύςχυςησ Συνδϋςμων Εμπλουτιςμό περιεχομϋνου, κειμϋνων και πεδύων Οι εταιρύεσ αυτϋσ λειτουργούν με ςυμβϊςεισ που ξεκινούν από τουσ 2 μόνεσ και μπορεύ να φτϊςουν τον 1 χρόνο. Σε αυτό το διϊςτημα εγγυώνται ότι η κατϊταξη τησ ςελύδασ θα βελτιωθεύ, αν όχι βελτιςτοποιηθεύ. Μερικϋσ από τισ εταιρύεσ που δραςτηριοποιούνται ςτον χώρο αυτό εύναι: WebOne [48] Rankings [49] Projectweb [50] Addicted [51] DS-Creative [52] Ζεύξισ [53] Pointer [54] 49

5 Προτεινόμενη Μέθοδος Βελτιστοποίησης Αποτελεσμάτων για τη Μηχανή Αναζήτησης Google Στο παρόν κεφϊλαιο θα προταθεύ μια μϋθοδοσ βελτιςτοπούηςησ για τη μηχανό αναζότηςησ Google η οπούα εύναι βαςιςμϋνη ςτην ανϊλυςη τόςο τησ δομόσ τησ ιςτοςελύδασ όςο και των ςυνδϋςμων τησ. Στην ανϊλυςη αυτό θα βοηθόςει και λογιςμικό που υλοποιόθηκε ςτα πλαύςια τησ παρούςασ διπλωματικόσ. 5.1 Η ανάλυση Όπωσ αναφϋρθηκε και ςτο κεφϊλαιο 5, ςτη δομό μιασ ιςτοςελύδασ μπορούν να υπϊρχουν πολλϊ διαφορετικϊ πεδύα, όπωσ τύτλοσ και μετα-δεδομϋνα, καθώσ και το κυρύωσ κεύμενο. Όταν λοιπόν αναφερόμαςτε ςε ανϊλυςη μιασ ιςτοςελύδασ εννοούμε την αναζότηςη, μϋςα ςτα διϊφορα πεδύα του κώδικα τησ, μιασ ϊθροιςμα των εμφανύςεων τησ. λϋξησ κλειδύ και το Αυτό ϋχει ωσ ςκοπό την εξαγωγό ςυμπεραςμϊτων ςχετικϊ με τη βαρύτητα κϊποιων πεδύων ϋναντι κϊποιον ϊλλων, δηλαδό, που εύναι πιο ςημαντικό να εμφανύζονται οι διϊφορεσ λϋξεισ κλειδιϊ για τισ οπούεσ ενδιαφερόμαςτε να βελτιώςουμε την κατϊταξη τησ ιςτοςελύδασ. Τα πεδύα, λοιπόν, που θα αναλύςουμε εύναι: Title (ο τύτλοσ τησ ςελύδασ) Meta Name (το όνομα του πεδύου των μετα-δεδομϋνων) Meta Content (το περιεχόμενο του πεδύου μετα-δεδομϋνων) Inbound Href (οι ςύνδεςμοι ςε ςελύδεσ του ύδιου ιςτοχώρου) Outbound Href (οι ςύνδεςμοι ςε ςελύδεσ ϊλλων ιςτοχώρων) Body (το κυρύωσ κεύμενο) H1 (οι κεφαλύδεσ) Bold (τα ϋντονα γρϊμματα) IMG ALT (η περιγραφό των εικόνων) 50

Η ανϊλυςη όμωσ δεν ςταματϊ εκεύ, θα αναλυθούν επύςησ: URL (η διεύθυνςη τησ ιςτοςελύδασ) Citation (ο αριθμόσ των ςυνδϋςμων που ϋχουν ϊλλεσ ςελύδεσ προσ αυτό) Ο αριθμόσ των ςυνδϋςμων που υπϊρχουν από ϊλλεσ ςελύδεσ προσ τη δικό μασ εύναι πολύ ςημαντικόσ γιατύ όςο πιο δημοφιλόσ εύναι μια ςελύδα τόςο καλύτερη κατϊταξη θα ϋχει. Ο αριθμόσ αυτόσ εύναι εύκολο να βρεθεύ, η Google για παρϊδειγμα, δύνοντασ ωσ εντολό αναζότηςησ «link: http://www.icsd.aegean.gr» επιςτρϋφει όλεσ τισ ςελύδεσ που ϋχουν κϊποιο ςύνδεςμο προσ την ςελύδα του τμόματοσ Μηχανικών Πληροφοριακών και Επικοινωνιακών Συςτημϊτων του Πανεπιςτημύου Αιγαύου. Και όπωσ ςε όλεσ τισ ςελύδεσ αποτελεςμϊτων τησ Google, αναφϋρεται ο ςυνολικόσ αριθμόσ τον αποτελεςμϊτων, ϋτςι εύναι εύκολο να βρούμε το ςυνολικό citation τησ ιςτοςελύδασ μασ. Δεν εύναι όμωσ μόνο η Google που προςφϋρει αυτό τη δυνατότητα: Live Search: «"http://www.icsd.aegean.gr" -site:http://www.icsd.aegean.gr» Yahoo: «http://www.icsd.aegean.gr» Εκτόσ όμωσ από τισ υπηρεςύεσ αναζότηςησ, η δυνατότητα αυτό προςφϋρεται και από διϊφορεσ ιςτοςελύδεσ όπωσ: Sitepopularity.org Market Leap Link-popularity-checker.com Μερικϋσ από αυτϋσ τισ υπηρεςύεσ ςυνδυϊζουν τα αποτελϋςματα περιςςότερων μηχανών ώςτε να εύναι πιο αντιπροςωπευτικϊ. Τϋλοσ, όπωσ αναφϋρθηκε και ςτο κεφϊλαιο 5, ςημαντικό ρόλο ςτη βαθμολογύα μιασ ιςτοςελύδασ παύζει και η κατεύθυνςη των ςυνδϋςμων τησ. Γι αυτό το λόγο θα μελετηθεύ κατϊ πόςο οι ςελύδεσ ςτισ οπούεσ οδηγούν οι ςύνδεςμού τησ ςελύδασ μασ ϋχουν ςυνδϋςμουσ που επιςτρϋφουν πύςω ςτην υπό ανϊλυςη ςελύδα. Η ανϊλυςη όμωσ δεν θα γύνει μόνο ςτη ςελύδα που μασ ενδιαφϋρει, τα αποτελϋςματα θα ςυγκριθούν με την ανϊλυςη των πρώτων 10 αποτελεςμϊτων που επιςτρϋφει η Google για τη λϋξη κλειδύ που μασ ενδιαφϋρει. Ϋτςι, θα μπορϋςουμε να ϋχουμε μια πιο πλόρη εικόνα για τισ βελτιώςεισ που πρϋπει να γύνουν καθώσ και ςε ποιουσ τομεύσ υςτερούμε ϋναντι του ανταγωνιςμού. Όπωσ καταλαβαύνουμε, για να εξαχθούν όλα αυτϊ τα αποτελϋςματα χρειϊζεται μια αυτοματοποιημϋνη διαδικαςύα. Γι αυτό το ςκοπό, ςτα πλαύςια τησ παρούςασ διπλωματικόσ, υλοποιόθηκε λογιςμικό το οπούο θα αναλύει όλα τα παραπϊνω και θα μασ δύνει μια πλόρη αναφορϊ των αποτελεςμϊτων καθώσ και των βελτιώςεων που πρϋπει να γύνουν για την βελτιςτοπούηςη τησ κατϊταξησ τησ ιςτοςελύδασ. 51

5.2 Web Site Analyzer Για την πραγματοπούηςη όλησ τησ παραπϊνω ανϊλυςησ υλοποιόθηκε λογιςμικό το οπούο αυτοματοποιεύ όλεσ τισ διαδικαςύεσ και μασ παρϋχει μια πλόρη αναφορϊ με τα ςχετικϊ αποτελϋςματα. Το λογιςμικό αυτό εύναι γραμμϋνο με χρόςη τησ γλώςςασ προγραμματιςμού Java και μϋρη του κώδικα βλϋπουμε ςτο Παρϊρτημα ΙΙ. Αρχικϊ, υπϊρχει ϋνα απλό interface όπου ο χρόςτησ μπορεύ να δώςει τισ λϋξεισ κλειδιϊ, βϊςη των οπούων θα γύνει ανϊλυςη, καθώσ και τη διεύθυνςη τησ ιςτοςελύδασ του. Δικόνα 6-1: Interface ηος λογιζμικού ανάλςζερ Όλεσ οι λειτουργύεσ βαςύζονται ςτην τεχνικό τησ ςυντακτικόσ ανϊλυςησ (parsing). Σύμφωνα με αυτό, δύνουμε ωσ εύςοδο ςε ειδικϋσ ςυναρτόςεισ το όνομα του πεδύου που θϋλουμε και ωσ ϋξοδο παύρνουμε τα δεδομϋνα του αντύςτοιχου πεδύου. Ϋτςι, μπορούμε με μια απλό αναζότηςη να βρούμε αν η λϋξη κλειδύ περιϋχεται ςτο αντύςτοιχο πεδύο. Στην Java, οι ςυναρτόςεισ που υλοποιούν τϋτοιεσ μεθόδουσ βρύςκονται ςτη βιβλιοθόκη import javax.swing.text.html.parser.parserdelegator. <Meta name="keywords" content="data"/> Meta Content HTML Parser Meta Name <Meta name="keywords" content="data"/> Title <Title>Title</Title> Δικόνα 6-2: Λειηοςπγία ζςνηακηικού αναλςηή 52

Όπωσ φαύνεται ςτην Εικόνα 6-2, ο κώδικασ τησ ςελύδασ HTML διαβϊζεται από ϋναν ςυντακτικό αναλυτό ςτον οπούο ϋχουμε προςδιορύςει ποια πεδύα μασ ενδιαφϋρουν. Ϋτςι, απομονώνονται και επιςτρϋφονται, ανϊλογα με το πεδύο, μόνο τα χρόςιμα προσ εμϊσ δεδομϋνα. Για παρϊδειγμα, αν θϋλουμε το περιεχόμενο των μεταδεδομϋνων (meta-content), μασ επιςτϋφονται τα data. Αρχικϊ, βρύςκουμε την κατϊταξη τησ δοθεύςασ ιςτοςελύδασ αναλύοντασ τισ ςελύδεσ αποτελεςμϊτων που επιςτρϋφει η Google. Η αναζότηςη γύνεται ςτα 1000 πρώτα αποτελϋςματα γιατύ δεν υπϊρχει νόημα να ςυνεχύςουμε περαιτϋρω γνωρύζοντασ ότι ο μϋςοσ χρόςτησ ψϊχνει τισ 10 πρώτεσ ςελύδεσ, δηλαδό τα 100 περύπου πρώτα αποτελϋςματα. Επύςησ, βρύςκουμε και τισ ςελύδεσ που ςυναντώνται ςτισ 10 πρώτεσ θϋςεισ των επιςτρεφόμενων αποτελεςμϊτων. Στη ςυνϋχεια, για την ιςτοςελύδα μασ αλλϊ και για τισ ϊλλεσ 10, υπολογύζεται ο αριθμόσ εμφϊνιςησ τησ λϋξησ κλειδύ για κϊθε ϋνα από τα πεδύα που αναφϋρθηκαν παραπϊνω. Τϋλοσ, γύνεται η ανϊλυςη των ςυνδϋςμων τησ δοθεύςασ ιςτοςελύδασ. Αυτό γύνεται ωσ εξόσ, αρχικϊ διαβϊζουμε όλουσ τουσ ςυνδϋςμουσ τησ ςελύδασ και τουσ διαχωρύζουμε ςε εςωτερικούσ και εξωτερικούσ. Εςωτερικού εύναι αυτού που δεύχνουν ςε ςελύδεσ του ύδιου ιςτοχώρου ενώ εξωτερικού εύναι αυτού που δεύχνουν ςε ςελύδεσ ϊλλων ιςτοχώρων. Στη ςυνϋχεια, διαβϊζουμε τισ ςελύδεσ που μασ οδηγούν οι ςύν δεςμού και αναλύουμε εκ νϋου τουσ δικούσ τουσ ςυνδϋςμουσ, αν βρούμε μϋςα ςε αυτούσ τη δικό μασ ςελύδα τότε καταλαβαύνουμε ότι οι ςύνδεςμοι επιςτρϋφονται. 53

5.3 Μελέτη Περίπτωσης Στη ςυνϋχεια, για να κατανοηθούν πλόρωσ οι δυνατότητεσ του προγρϊμματοσ καθώσ και για την εξαγωγό των τελικών ςυμπεραςμϊτων, θα πραγματοποιηθεύ μια μελϋτη περύπτωςησ για τον ιςτοχώρου του Τμόματοσ Μηχανικών Πληροφοριακών & Επικοινωνιακών Συςτημϊτων του Πανεπιςτημύου Αιγαύου (www.icsd.aegean.gr). Στη δεδομϋνη περύπτωςη θα μελετηθούν τα αποτελϋςματα τησ ανϊλυςησ για τη φρϊςη «πανεπιςτημιο ςαμου». Ωσ ϋξοδο από το πρόγραμμα θα ϋχουμε τρεύσ αναφορϋσ, μύα για τον καθϋνα από τουσ παρακϊτω όρουσ: πανεπιςτημιο ςαμου πανεπιςτημιο ςαμου Επύςησ, θα γύνει μελϋτη και ςτα αγγλικϊ, για πιο ολοκληρωμϋνα αποτελϋςματα, με τη φρϊςη «samos university» η οπούα θα παρϊγει ϊλλεσ τρεισ αναφορϋσ: samos university samos university Αρχικϊ, δύνουμε τισ επιθυμητϋσ ειςόδουσ ςτο λογιςμικό και ξεκινϊμε τη διαδικαςύα τησ ανϊλυςησ των ιςτοςελύδων. Δικόνα 6-3: Έναπξε διαδικαζίαρ ανάλςζερ Όταν η διαδικαςύα ανϊλυςησ ολοκληρωθεύ θα ϋχουμε ςτα χϋρια μασ, ςυνολικϊ, ϋξι αναφορϋσ, μπορούμε να τισ δούμε ολόκληρεσ ςτο Παρϊρτημα ΙΙΙ. Ανϊλυςη των αναφορών αυτών γύνεται παρακϊτω. 54

5.3.1 Υράση «πανεπιστήμιο σάμου» Στη δεδομϋνη περύπτωςη θα μελετηθούν τα αποτελϋςματα τησ ανϊλυςησ για τη φρϊςη «πανεπιςτόμιο ςϊμου». Όπωσ βλϋπουμε ςτην αναφορϊ που υπϊρχει ςτο Παρϊρτημα ΙΙΙ, η ιςτοςελύδασ μασ βρύςκεται ςτην 2 η θϋςη των αποτελεςμϊτων και τα πρώτα 10 αποτελϋςματα εύναι τα εξόσ: 1. http://www.aegean.gr/aegean/greek/samos.htm 2. http://www.icsd.aegean.gr 3. http://www.samos.aegean.gr 4. http://www.samos.aegean.gr/astronomia 5. http://www.actuar.aegean.gr/ 6. http://www.uom.gr/modules.php?op=modload&name=news&file=article&sid=689&t mima=1&categorymenu=7&mode=thread&order=0&thold=0 7. http://www.uom.gr/modules.php?op=modload&name=news&file=article&sid=689 8. http://www.samosblogs.gr/meli0s/2007/11/17/λίγα_λόγια_για_το_πανεπιστήμιο_μου.. 9. http://www.samosblogs.gr/2008/01/01/ 10. http://www.math.aegean.gr/in/index.htm Στην ανϊλυςη αυτό το μόνο ενδιαφϋρον εύναι ο αριθμόσ των ειςερχόμενων ςυνδϋςμων που ϋχει η κϊθε ςελύδα. Όλα τα υπόλοιπα πεδύα ϋχουν παραληφθεύ γιατύ εύναι μηδενικϊ, αυτό ςυμβαύνει εύτε γιατύ κϊποια πεδύα δεν παύρνουν ελληνικϊ (url, href) εύτε γιατύ η φρϊςη «πανεπιςτόμιο ςϊμου» δεν απαντϊται μϋςα ςτο κεύμενο. Citation MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 108 0 108 41 0 0 2 2 0 0 0 0 108 Πίνακαρ 6-1: Πίνακαρ αποηελεζμάηυν για ηεν θπάζε «πανεπιζηήμιο ζάμος» Όπωσ παρατηρούμε, εκεύ που υπϊρχει εμφανόσ διαφορϊ ϋναντι του ανταγωνιςμού εύναι ςτον αριθμό των ειςερχόμενων ςυνδϋςμων. Η ςελύδα μασ ϋχει 108, αριθμό μεγαλύτερο ακόμα και από την πρώτη. Τι οδόγηςε όμωσ ςε αυτό τη διαφορϊ ςτην κατϊταξη ανϊμεςα ςτισ 2 αυτϋσ ςελύδεσ; Όπωσ παρατηρούμε, η πρώτη ςελύδα εύναι εςωτερικό ςελύδα ενόσ ιςτοχώρου και όχι η κεντρικό. Επομϋνωσ, μπορεύ να μην ϋχει ειςερχόμενουσ ςυνδϋςμουσ από εξωτερικϋσ ιςτοςελύδεσ αλλϊ ςύγουρα ϋχει από την κεντρικό ςελύδα του ιςτοχώρου η οπούα πιθανόν να ϋχει μεγαλύτερο βαθμό κατϊταξησ από τη δικό μασ και γι αυτό ανεβαύνει ςτην πρώτη θϋςη. 55

Στη ςυνϋχεια γύνεται η ανϊλυςη των ςυνδϋςμων. Παρακϊτω φαύνονται μερικϊ από τα αποτελϋςματα τησ ανϊλυςησ αυτόσ. Εςωτερικού ςύνδεςμοι: http://www.icsd.aegean.gr <--> http://www.icsd.aegean.gr/default.asp http://www.icsd.aegean.gr <--> http://www.icsd.aegean.gr/prosopiko/ka8igitesforma.asp http://www.icsd.aegean.gr <--> http://www.icsd.aegean.gr/prosopiko/ka8igitesforma407.asp http://www.icsd.aegean.gr <--> http://www.icsd.aegean.gr/prosopiko/metadidaktores.asp http://www.icsd.aegean.gr <--> http://www.icsd.aegean.gr/prosopiko/ka8igitesformaetep.asp Εξωτερικού ςύνδεςμοι: http://www.icsd.aegean.gr --> http://www.aegean.gr http://www.icsd.aegean.gr --> http://www.icsd.aegean.gr/info-sec-lab http://www.icsd.aegean.gr --> http://www.icsd.aegean.gr/ccsl http://www.icsd.aegean.gr --> http://www.icsd.aegean.gr/is-lab http://www.icsd.aegean.gr --> http://www.icsd.aegean.gr/incosys Με αυτόν τον τρόπο αναπαριςτούμε την κατεύθυνςη των ςυνδϋςμων. Το διπλό βϋλοσ δεύχνει ότι η νϋα ςελύδα ϋχει ςύνδεςμο πύςω ςτην αρχικό, ενώ με το μονό ότι δεν ϋχει. Στισ αναφορϋσ, οι επιςτρεφόμενοι ςύνδεςμοι χρωματύζονται με πρϊςινο ενώ οι ϊλλοι με κόκκινο, αυτό ϋχει ωσ ςκοπό να δεύξει ότι πρϋπει να γύνουν κϊποιεσ ενϋργειεσ γιατύ ςύνδεςμοι που δεν επιςτρϋφονται ϋχουν αρνητικϊ αποτελϋςματα για τη ςελύδα μασ. 5.3.2 Όρος «πανεπιστήμιο» Η επόμενη αναφορϊ που μασ δύνει το πρόγραμμα εύναι για τη όροσ «πανεπιςτόμιο». Για τον όρο αυτό η ιςτοςελύδα μασ βρύςκεται ςτη 210 η θϋςη και οι 10 πρώτεσ ςελύδεσ εύναι: 1. http://upatras.gr 2. http://www.auths.gr 3. http://www.uoi.gr 4. http://www.aep.gr 5. http://www.eap.gr/lib 6. http://www.uoa.gr 7. http://www.uth.gr 8. http://www.uoc.gr 9. http://www.aegean.gr 10. http://www.aegean.gr/career 56

Ο ςυγκριτικόσ πύνακασ των αποτελεςμϊτων τησ ανϊλυςησ εύναι Citation MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 108 140 414 208 80 5 6 68 64 215 5 5 414 Title MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 1 0 0 0 0 0 1 0 1 1 0 1 Meta Content MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 1 0 0 0 0 0 2 0 2 1 0 2 Body MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 3 4 0 1 0 0 1 0 2 1 0 4 Η1 MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 1 0 0 0 0 0 0 0 0 0 0 1 Πίνακαρ 6-2: Πίνακαρ αποηελεζμάηυν για ηον όπο «πανεπιζηήμιο» Στη ςυγκεκριμϋνη ανϊλυςη βλϋπουμε ότι τα πρϊγματα ξεδιαλύνονται λύγο περιςςότερο. Πρώτα απ όλα, όςον αφορϊ τον αριθμό των ειςερχόμενων ςυνδϋςμων παρατηρούμε ότι η πρώτη ιςτοςελύδα ϋχει τον τϋταρτο μεγαλύτερο αριθμό και η δικό μασ τον πϋμπτο. Βλϋπουμε, λοιπόν, ότι ο αριθμόσ αυτόσ δεν εύναι το μοναδικό κριτόριο κατϊταξησ και επύςησ, ότι ςημαντικό ρόλο παύζει η βαρύτητα αυτών των ςυνδϋςμων. Όπωσ αναφϋρθηκε και ςε προηγούμενο κεφϊλαιο, με τον όρο βαρύτητα ενόσ ςυνδϋςμου δηλώνουμε τη ςημαντικότητα τησ ιςτοςελύδασ από την οπούα προϋρχεται. Ϋτςι, για παρϊδειγμα, ϋνασ ςύνδεςμοσ από μια ςελύδα με 100 ςυνδϋςεισ προσ αυτόν ϋχει μεγαλύτερη βαρύτητα από ϋναν ϊλλο μιασ ςελύδασ με 1000 ςυνδϋςεισ προσ αυτό. Συνεχύζοντασ και ςτα υπόλοιπα πεδύα, η πρώτη ςελύδα εμφανύζει το ζητούμενο όρο ςε όλα τα πεδύα που τον εμφανύζει και ο ανταγωνιςμόσ και μϊλιςτα εύναι κοντϊ ςτη μϋγιςτη τιμό. Επιπροςθϋτωσ, ο ζητούμενοσ όροσ εμφανύζεται και ςε ϋνα πεδύο που δεν την εμφανύζει ο ανταγωνιςμόσ (H1). Ϊρα, λοιπόν, ςε όςο περιςςότερα πεδύα κϊνει την εμφϊνιςη του ο όροσ και όςο πιο ςυχνό εύναι αυτό η εμφϊνιςη τόςο το καλύτερο για την κατϊταξη μασ. Στη δικό μασ ςελύδα δεν εμφανύζεται πουθενϊ ο ςυγκεκριμϋνοσ όροσ. 57

Δεν θεωρεύται ςκόπιμο να αναφερθούμε εκ νϋου ςτην ανϊλυςη των ςυνδϋςμων μιασ και τα αποτελϋςματα εύναι τα ύδια με πριν αφού η ανϊλυςη γύνεται για την ιςτοςελύδα που δύνουμε εμεύσ. Αυτό που εύναι ςημαντικό εύναι ο ςυνολικόσ αριθμόσ των ςυνδϋςμων. Βλϋπουμε ότι ϋχουμε 34 εςωτερικούσ ςυνδϋςμουσ, οι οπούοι επιςτρϋφουν πύςω ςτη ςελύδα μασ, καθώσ και 41 εξωτερικούσ, από τουσ οπούουσ κανϋνασ δεν επιςτρϋφει πύςω ςτη δικό μασ. Ϊρα καταλαβαύνουμε ότι και το πλόθοσ και η κατεύθυνςη των ςυνδϋςμων παύζει ςημαντικό ρόλο ςτην κατϊταξη. 5.3.3 Όρος «σάμου» Η τελευταύα αναφορϊ που μασ δύνει το πρόγραμμα εύναι αυτό για τον όρο «ςϊμου». Σε αυτό την περύπτωςη η ιςτοςελύδα μασ εμφανύζεται ςτην 441 η θϋςη και οι 10 πρώτεσ ςελύδεσ εύναι: 1. http://www.samos.gr 2. http://www.samos.gr/index.php?lang=en 3. http://dide.sam.sch.gr 4. http://www.samosnet.gr 5. http://www.samosin.gr/topogr.htm 6. http://www.samosin.gr/guideallhotelssamosgr.htm 7. http://www.diavlos.gr/monasteries/ 8. http://www.diavlos.gr/monasteries/samisgr.html 9. http://dipe.sam.sch.gr/ 10. http://www.imsamou.gr/ Στη ςυνϋχεια παρατύθεται ο ςυγκριτικόσ πύνακασ αποτελεςμϊτων, για ϊλλη μια φορϊ ϋχουν παραληφθεύ τα μηδενικϊ πεδύα. Citation MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 108 16 0 3 20 0 0 2 0 4 6 0 108 Title MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 1 1 0 0 0 0 0 0 0 0 0 1 58

Meta Content MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 2 0 0 0 0 0 0 1 0 0 2 Body MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 1 0 0 0 0 0 0 0 0 0 1 Img Alt MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 0 0 1 3 2 0 0 0 0 0 3 Πίνακαρ 6-3: Πίνακαρ αποηελεζμάηυν για ηον όπο «ζάμος» Εδώ βλϋπουμε και πϊλι ότι η ςελύδα μασ ϋχει τον μεγαλύτερο αριθμό των ειςερχόμενων ςυνδϋςμων αλλϊ δεν εμφανύζει ςε κανϋνα ϊλλο πεδύο τη λϋξη-κλειδύ. Βλϋπουμε ότι η πρώτη και η τϋταρτη ιςτοςελύδα ϋχουν τουσ αμϋςωσ μεγαλύτερουσ αριθμούσ ειςερχόμενων ςυνδϋςμων αλλϊ η πρώτη εμφανύζει το ζητούμενο όρο ςτον τύτλο ενώ η ϊλλη ςτην περιγραφό των εικόνων. Καταλαβαύνουμε λοιπόν τη διαφορϊ βαρύτητασ που ϋχουν αυτϊ τα 2 πεδύα. Επύςησ, παρατηρούμε ότι η δεύτερη ϋχει περιςςότερεσ εμφανύςεισ τησ λϋξησ-κλειδύ απ ότι η πρώτη αλλϊ υςτερεύ ςτουσ ςυνδϋςμουσ. Επομϋνωσ, βλϋπουμε και τη διαφορϊ ςημαντικότητασ και αυτών των 2 πεδύων. 5.3.4 Υράση «samos university» Για να γύνει πιο εμπεριςτατωμϋνη μελϋτη των αποτελεςμϊτων του λογιςμικού μελετόθηκαν και αγγλικού όροι ώςτε να δούμε και τα αποτελϋςματα ςε πεδύα που δϋχονται μόνο αγγλικϊ. Στη ςυγκεκριμϋνη περύπτωςη, η ιςτοςελύδα μασ βρύςκεται ςτην 3 η θϋςη με τισ 10 πρώτεσ να εύναι: 1. http://www.samos.aegean.gr 2. http://www.aegean.gr/aegean/en/samos.htm 3. http://www.icsd.aegean.gr 4. http://www.icsd.aegean.gr/english/deafult.asp 5. http://www.hipeac.net/node/474 6. http://stat.ucl.ac.be/samos2002/mainpage.html 59

7. http://www.stat.ucl.ac.be/samos2004/mainpage.html 8. http://dir.yahoo.com?regional/countries/greece/prefectures/samos/education/ 9. http://www.alloo.gr/listing.php?id=4335 10. http://www.alloo.gr/listing.php?id=4912 Ο ςυγκριτικόσ πύνακασ των αποτελεςμϊτων εύναι ο εξόσ: Citation MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 108 38 0 108 0 0 0 0 0 4 6 0 108 Title MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 0 1 0 0 0 0 0 0 0 0 1 Πίνακαρ 6-4: Πίνακαρ αποηελεζμάηυν για ηον όπο «samos university» Σε αυτό την περύπτωςη βλϋπουμε ότι αξιοποιόςιμα αποτελϋςματα ϋχουμε μόνο από τον αριθμό των ειςερχόμενων ςυνδϋςμων και από τον τύτλο. Αυτό ςυμβαύνει γιατύ εύναι δύςκολο να υπϊρχει αυτούςια μια ςυγκεκριμϋνη φρϊςη ςε διϊφορεσ ιςτοςελύδεσ. Η ανϊλυςη των μεμονωμϋνων λϋξεων θα εύναι πιο αντιπροςωπευτικό. 5.3.5 Όρος «samos» Για το ςυγκεκριμϋνο όρο η ιςτοςελύδα μασ βρύςκεται ςτην 181 η θϋςη με τισ 10 πρώτεσ να εύναι: 1. http://www.samos.gr/ 2. http://www.greek-tourism.gr/samos/indexuk.htm 3. http://www.greek-tourism.gr/samos/samaina 4. http://www.samosnet.gr 5. http://el.wikipedia.org/wiki/σϊμοσ 6. http://en.wikipedia.org/wiki/samos_island 7. http://en.wikipedia.org/wiki/aristarchus_of_samos 8. http://www.samosguide.com 9. http://www.greekhotel.com/greekislands/samos/home.htm 10. http://www.greekhotel.com/n-aegean/samos/home.htm 60

Ο ςυγκριτικόσ πύνακασ των αποτελεςμϊτων εύναι Citation MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 108 16 0 2 20 0 3 4 1 0 1 0 108 URL MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 1 1 1 1 0 1 1 1 1 1 0 1 Title MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 3 1 3 0 1 1 5 1 2 0 5 Meta Content MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 7 1 7 0 2 1 26 8 14 0 26 Inbound HREF MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 46 0 6 4 64 23 8 0 0 0 64 Outbound HREF MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 3 0 6 0 120 25 30 10 77 2 36 0 120 Body MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 1 0 0 6 21 0 83 7 50 14 24 0 83 H1 MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 0 0 0 0 1 1 1 0 0 0 1 Bold MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 1 0 0 0 7 0 4 0 11 1 0 0 11 61

Img Alt MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 0 0 0 0 6 0 53 3 2 0 53 Πίνακαρ 6-5: Πίνακαρ αποηελεζμάηυν για ηον όπο «samos» Σε αυτόν την περύπτωςη τα αποτελϋςματα εύναι πιο ξεκϊθαρα. Βλϋπουμε ότι, ςε αντύθεςη με τη δικό μασ ςελύδα, ςχεδόν όλεσ οι ιςτοςελύδεσ που εμφανύζονται ςτα πρώτα αποτελϋςματα ϋχουν τον όρο ςτη διεύθυνςη τουσ. Επύςησ, ϋχουμε δει πόςο ςημαντικό ρόλο παύζει και ο τύτλοσ τησ ςελύδασ. Αυτϊ που βλϋπουμε για πρώτη φορϊ εύναι τα μετα-δεδομϋνα, ςχεδόν ςε όλεσ τισ ιςτοςελύδεσ ο ζητούμενοσ όροσ αναφϋρεται ςτα μετα-δεδομϋνα αλλϊ δεν ϋχει τόςο μεγϊλη ςημαςύα το πλόθοσ. Βλϋπουμε ότι ςελύδεσ με πολλϋσ εμφανύςεισ του όρου εύναι χαμηλότερα από ϊλλεσ με λιγότερεσ. Ϋνα ακόμα νϋο χαρακτηριςτικό εύναι οι ςύνδεςμοι, τόςο εςωτερικού όςο και εξωτερικού. Εύναι πολύ ςημαντικό να υπϊρχουν από τη ςελύδασ μασ ςύνδεςμοι ςε ϊλλεσ με παρόμοιο περιεχόμενο. Τι πιο κοινό, λοιπόν, απ το να υπϊρχει ο ζητούμενοσ όροσ ςτουσ ςυνδϋςμουσ που ϋχουμε προσ ϊλλεσ ςελύδεσ. Στα υπόλοιπα πεδύα, ο αριθμόσ εμφϊνιςησ ποικύλει και δεν ςχετύζεται τόςο με την τελικό κατϊταξη. Σύγουρα όμωσ, όςο περιςςότερεσ φορϋσ κϊνει την εμφϊνιςη τησ μια λϋξη τόςο πιο ςχετικό εύναι το περιεχόμενο. 5.3.6 Όρος «university» Για τον όρο αυτό η ιςτοςελύδα μασ εμφανύζεται μετϊ τα 1000 πρώτα αποτελϋςματα. Οι 10 πρώτεσ ςελύδεσ εύναι: 1. http://www.cam.ac.uk/ 2. http://www.auth.gr/ 3. http://en.wikipedia.org/wiki/university 4. http://www.ntua.gr 5. http://eap.gr 6. http://upatras.gr/ 7. http://www.ox.ac.uk/ 8. http://www.aueb.gr 9. http://www.yale.edu 10. http://www.harvard.edu 62

Ο πύνακασ των αποτελεςμϊτων εύναι Citation MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 108 2070 414 10 520 80 140 479 260 35700 924 10 35700 URL MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 0 1 0 0 0 0 0 0 0 0 1 Title MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 1 0 1 0 0 0 1 1 1 1 0 1 Meta Content MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 1 0 2 0 0 1 8 0 4 3 0 8 Inbound HREF MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 0 99 0 0 0 0 0 0 0 0 99 Outbound HREF MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 0 5 0 0 0 7 0 1 0 0 7 Body MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 4 0 124 0 0 0 2 2 4 0 0 124 H1 MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 0 1 0 0 0 0 0 1 0 0 1 Bold MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 0 0 5 0 0 0 0 0 0 0 0 5 63

Img Alt MySite #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 Range 0 2 0 10 0 0 0 1 0 0 4 0 10 Πίνακαρ 6-6: Πίνακαρ αποηελεζμάηυν για ηον όπο «university» Για ϊλλη μια φορϊ βλϋπουμε ότι η ποςότητα των ειςερχόμενων ςυνδϋςμων δεν αποτελεύ μοναδικό κριτόριο. Παύζουν ρόλο τόςο η ποιότητα όςο και η εμφϊνιςη τησ λϋξησ ςε ςημεύα κλειδιϊ ςτην ςελύδα. Συμπεραςματικϊ, θα λϋγαμε ότι όςο πιο εμφανύζεται η λϋξη κλειδύ ςτη ςελύδα μασ τόςο μεγαλύτερη κατϊταξη θα ϋχουμε, χωρύσ βϋβαια να υπερβϊλουμε. Υπϊρχουν όμωσ και πιο ςημαντικού παρϊγοντεσ που επηρεϊζουν τη βαθμολογύα τησ ιςτοςελύδασ μασ. Ϋτςι, ςτο επόμενο κεφϊλαιο προτεύνεται μια τεχνικό βελτιςτοπούηςησ τόςο για την παρούςα ςελύδα όςο και για ϊλλεσ. 64

5.4 Σεχνική βελτιστοποίησης Αρχικϊ, θα πρϋπει να αναφερθεύ ότι εφόςον οι αλγόριθμοι κατϊταξησ παραμϋνουν κρυφού δεν εύναι δυνατόν να βρεθεύ μια μϋθοδοσ η οπούα με βεβαιότητα θα βελτιώνει την κατϊταξη μιασ ιςτοςελύδασ. Μετϊ όμωσ από την παραπϊνω ανϊλυςη αλλϊ και από πολλϊ ακόμα πειρϊματα, εύτε με ελληνικούσ εύτε με αγγλικούσ όρουσ, κατϋληξα ςτα παρακϊτω ςυμπερϊςματα. Μϋςα από αυτϊ φαύνονται οι τρόποι βελτιςτοπούηςησ καθώσ και η βαρύτητασ τουσ ξεκινώντασ από το πιο ςημαντικό. Ειςερχόμενοι ςύνδεςμοι (citation) Οι ειςερχόμενοι ςύνδεςμοι εύναι ύςωσ το πλϋον ςημαντικό ςτοιχεύο ςτη βελτύωςη τησ κατϊταξησ. Δεν εύναι μόνο η ποςότητα των ςυνδϋςμων που εύναι ςημαντικό, αλλϊ και η ποιότητα τουσ. Δεν υπϊρχει κϊποια αυτοματοποιημϋνη μϋθοδοσ για να δημιουργόςουμε ςυνδϋςμουσ ςτη ςελύδα μασ, τουλϊχιςτον όχι κϊποια νόμιμη μϋθοδοσ. Για να δημιουργόςουμε ςυνδϋςμουσ θα πρϋπει να ϋρθουμε ςε επαφό με ιδιοκτότεσ ϊλλων ιςτοςελύδων ώςτε να ζητόςουμε να μασ ςυμπεριλϊβουν, να δηλώςουμε τη ςελύδα μασ ςε όςο το δυνατόν περιςςότερεσ μηχανϋσ αναζότηςησ ό ςε ενημερωτικϋσ ςελύδεσ που ϋχουν καταλόγουσ ιςτοςελύδων (www.in.gr) καθώσ επύςησ και να ειςϊγουμε διαφημύςεισ ςτην ιςτοςελύδα μασ. Εξερχόμενοι ςύνδεςμοι (outbound links) Θα πρϋπει πϊντα να προςϋξουμε οι ςύνδεςμοι που φεύγουν από τη ςελύδα μασ να επιςτρϋφονται. Αυτό δεν εύναι κϊτι που μπορούμε να ελϋγξουμε ό να αλλϊξουμε, μόνο αν ϋρθουμε ςε επαφό με τον ιδιοκτότη τησ ϊλλησ ιςτοςελύδασ. Ϋτςι, θα πρϋπει να δημιουργούμε ςυνδϋςμουσ που θα ξϋρουμε ςύγουρα ότι θα επιςτραφούν ό να δημιουργούμε όςο το δυνατόν λιγότερουσ εξωτερικούσ ςυνδϋςμουσ. Και το κυριότερο, οι ςύνδεςμοι αυτού εύναι ςημαντικό να εύναι προσ ςελύδεσ με ςχετικό περιεχόμενο. Ειςερχόμενοι ςύνδεςμοι (inbound links) Εδώ θα πρϋπει να ιςχύει ότι και με τουσ εξωτερικούσ. Το θετικό εδώ εύναι ότι μπορούμε να ελϋγχουμε αυτούσ τουσ ςυνδϋςμουσ μιασ και εύναι μϋςα ςτον δικό μασ ιςτοχώρο. Ϋτςι, θα πρϋπει να προςϋχουμε όλοι οι ςύνδεςμοι να επιςτρϋφονται πύςω ςτην αρχικό ςελύδα. 65

Ομοιόμορφοσ Εντοπιςτόσ Πόρων (URL) Αν η λϋξη προσ αναζότηςη περιϋχεται ςτη διεύθυνςη τησ ιςτοςελύδασ τότε ςύγουρα αυτό θα εύναι ςτα επιςτρεφόμενα αποτελϋςματα. Αυτό βϋβαια για ελληνικϋσ λϋξεισ δεν εύναι εφικτό μιασ και οι διευθύνςεισ εύναι ςτα αγγλικϊ. Θα πρϋπει όμωσ να εύμαςτε πολύ προςεκτικού ςτην επιλογό τησ διεύθυνςησ ώςτε να εύναι όςο πιο ςχετικό ςτο περιεχόμενο τησ ιςτοςελύδασ. Τύτλοσ (title) Ο τύτλοσ τησ ςελύδασ δηλώνει το περιεχόμενο τησ. Ϋτςι, αν πιςτεύουμε ότι μια φρϊςη εύναι η πλϋον προςδιοριςτικό για τη ςελύδα μασ θα πρϋπει να τη βϊλουμε ωσ τύτλο ώςτε να βελτιώςουμε όςο το δυνατόν περιςςότερο την κατϊταξη τησ γι αυτό τη φρϊςη, ό για λϋξεισ τησ φρϊςησ αυτόσ. Μετα δεδομϋνα (meta-name, meta-content) Τα μετα-δεδομϋνα εύναι πεδύα που περιϋχουν επιπλϋον πληροφορύεσ ςχετικϊ με τη ςελύδα. Εύναι πολύ ςημαντικό να υπϊρχουν μετα-δεδομϋνα ώςτε οι μηχανϋσ αναζότηςησ να μπορούν να προςδιορύςουν με ακρύβεια το περιεχόμενο. Θα πρϋπει λοιπόν να επιλϋξουμε όςο το δυνατόν περιςςότερεσ λϋξεισ ςχετικϋσ με τη ςελύδα και οι οπούεσ πιςτεύουμε ότι θα αποτελούν και βαςικϊ κλειδιϊ αναζότηςησ. Ακόμα και λϋξεισ του τύτλου, ό και ολόκληροσ ο τύτλοσ, θα πρϋπει να υπϊρχει ςτα μετα-δεδομϋνα. Εύναι πολύ ςημαντικό, επύςησ, να προςϋξουμε ςτο χειριςμό αυτών των πεδύων καθώσ πολλϋσ μηχανϋσ αναζότηςησ τιμωρούν τη χρόςη λϋξεων που δεν υπϊρχουν ςτο κυρύωσ κεύμενο. Κεφαλύδα (H1) Αν και πολλϋσ ιςτοςελύδεσ δεν χρηςιμοποιούν κεφαλύδεσ, εύναι ϋνασ τρόποσ για να τονιςτεύ ότι κϊτι εύναι ςημαντικό. Ϋτςι, καλό εύναι να χρηςιμοποιούμε κεφαλύδεσ ώςτε να διαχωρύζουμε το κυρύωσ κεύμενο μασ και μϊλιςτα θα πρϋπει οι κεφαλύδεσ να αποτελούνται από βαςικϋσ λϋξεισ κλειδιϊ. Ϋντονα γρϊμματα (bold) Ϋνασ ϊλλοσ τρόποσ για να τονιςτεύ η ςημαντικότητα κϊποιων λϋξεων εύναι να χρηςιμοποιηθούν ϋντονα γρϊμματα. Καλό εύναι λοιπόν μϋςα ςτο κυρύωσ κεύμενο μασ να τονύζουμε τισ βαςικϋσ λϋξεισ κλειδιϊ ώςτε να δώςουμε ςτισ μηχανϋσ αναζότηςησ να καταλϊβουν ότι εύναι ςημαντικϋσ για τον προςδιοριςμό του περιεχομϋνου τησ ςελύδασ μασ. 66

Περιγραφό εικόνασ (img alt) Το πεδύο αυτό χρηςιμοποιεύται ςπϊνια και όταν ϋχουμε κϊποια εικόνα. Περιγρϊφοντασ όμωσ την εικόνα με βαςικϋσ λϋξεισ κλειδιϊ δύνουμε ακόμα περιςςότερη ϋμφαςη ςτο εύδοσ του περιεχομϋνου τησ ςελύδασ. Κυρύωσ κεύμενο (body) Εδώ ϋχουμε το κεύμενο που βλϋπει ο χρόςτησ ανεξϊρτητα από μορφοποιόςεισ. Δεν υπϊρχει κϊποιοσ τρόποσ να τονύςουμε τη ςημαντικότητα κϊποιων λϋξεων ςτο κυρύωσ κεύμενο παρϊ μόνο με την επανεμφϊνιςη τουσ. Ϋτςι, θα πρϋπει το κυρύωσ κεύμενο να εύναι μεγαλύτερο από 206 λϋξεισ και να περιϋχει όςο το δυνατόν περιςςότερεσ λϋξεισ κλειδιϊ καθώσ, όπωσ αναφϋρθηκε και προηγουμϋνωσ, και λϋξεισ που βρύςκονται ςτα μετα-δεδομϋνα ώςτε να μη δημιουργηθεύ κϊποιο πρόβλημα με τισ μηχανϋσ αναζότηςησ. Συμπεραςματικϊ, θα λϋγαμε ότι η πρώτη μασ προτεραιότητα θα πρϋπει να εύναι οι ςύνδεςμοι. Να μελετηθεύ η κατεύθυνςη τουσ καθώσ και ο τρόποσ πολλαπλαςιαςμού των ειςερχόμενων. Σε αυτό ςυμβϊλει και το πρόγραμμα το οπούο μασ επιδεικ νύει μϋςω του χρωματικού διαχωριςμού με ποιουσ ςυνδϋςμουσ πρϋπει να αςχοληθούμε. Ϋπειτα, θα πρϋπει να προςδιοριςτούν οι λϋξεισ για τισ οπούεσ ενδιαφερόμαςτε να βελτιςτοποιόςουμε την κατϊταξη μασ και να τισ τοποθετόςουμε ςε όςο το δυνατόν περιςςότερα πεδύα, ξεκινώντασ από τα πιο ςημαντικϊ. Και ςε αυτό ϋρχεται να ςυμβϊλλει το λογιςμικό που υλοποιόθηκε προςδιορύζοντασ μασ πωσ χρηςιμοποιεύ ο ανταγωνιςμόσ τησ κϊθε λϋξη και υπολογύζοντασ ϋνα εύροσ τιμών ςύμφωνα με το οπούο θα πρϋπει να δρϊςουμε. Θα πρϋπει δηλαδό, αν εύναι δυνατόν, να ξεπερϊςουμε αυτό το εύροσ ώςτε να δεύξουμε ότι η ςελύδασ μασ εύναι πιο ςχετικό με τη ςυγκεκριμϋνη λϋξη απ ότι οι υπόλοιπεσ. 67

5.4.1 Ενδεικτική πρόταση Μετϊ την ανϊλυςη που πραγματοποιεύ το λογιςμικό, η τελικό πρόταςη βελτιςτοπούηςησ για τον όρο «πανεπιςτόμιο» εύναι η εξόσ Δικόνα 6-1: Πποηάζειρ βεληιζηοποίεζερ για ηον όπο «πανεπιζηήμιο» Βλϋπουμε ότι η τελικό πρόταςη καλύπτει όλουσ τουσ τομεύσ που μελετόθηκαν και βαςύζεται τόςο ςτον αριθμό εμφϊνιςησ ςτην ςελύδα μασ όςο και ςτον αριθμό εμφϊνιςησ ςτισ ϊλλεσ ςελύδεσ. 68

6 ΤΜΠΕΡΑΜΑΣΑ Συνοψύζοντασ τα ςυμπερϊςματα των παραπϊνω ενοτότων θα μπορούςαμε να τονύςουμε τα εξόσ : 6.1 Βελτιστοποίηση για Μηχανές Αναζήτησης Εφόςον οι αλγόριθμοι που χρηςιμοποιούν οι Μηχανϋσ Αναζότηςησ δεν ανακοινώνονται, ποτϋ δεν θα μπορϋςουμε να πούμε με ςιγουριϊ ποιού παρϊγοντεσ εύναι αυτού που επηρεϊζουν περιςςότερο την κατϊταξη μιασ ιςτοςελύδασ. Επομϋνωσ, αυτό που κϊνουν όλα τα πακϋτα λογιςμικού και οι εταιρύεσ του χώρου, όπωσ ϊλλωςτε κϊναμε και εμεύσ ςτην παρούςα διπλωματικό, εύναι να δύνουν ςυςτϊςεισ για πρϊγματα που μπορούν να αλλϊξουν ώςτε να βελτιωθεύ η κατϊταξη. Στην παρούςα διπλωματικό προτϊθηκε ϋνα μοντϋλο το οπούο καλύπτει πολλούσ βαςικούσ τομεύσ βελτιςτοπούηςησ. Σημαντικό πλεονϋκτημα του μοντϋλου αυτού εύναι ότι ςυνοδεύεται από αντύςτοιχο λογιςμικό το οπούο αυτοματοποιεύ τισ διαδικαςύεσ και μασ δύνει ϋνα ςύνολο προτϊςεων βελτιςτοπούηςησ. Μϋςα από την εφαρμογό των προτϊςεων αυτών υπϊρχει η δυνατότητα βελτιςτοπούηςησ τησ κατϊταξησ αφού θα υπερϋχουμε ϋναντι του ανταγωνιςμού ςτουσ τομεύσ που μελετϊμε. Η εφαρμογό τουσ εύναι αρκετϊ εύκολη από κϊποιον που γνωρύζει τα βαςικϊ τησ HTML. Τϋλοσ, αν και οι προτϊςεισ αυτϋσ αφορούν την Google, μπορούν να επεκταθούν εύκολα και ςε ϊλλεσ Μηχανϋσ Αναζότηςησ. 69

6.2 Μελλοντική Έρευνα - Βελτιώσεις Ϋνα ςημαντικό μειονϋκτημα του λογιςμικού που ςυνοδεύει το προταθϋν μοντϋλο εύναι ότι λειτουργεύ μόνο για τη Μηχανό Αναζότηςησ Google. Θα μπορούςε, λοιπόν, ςτο μϋλλον να επεκταθεύ ώςτε να ςυμπεριλϊβει και ϊλλεσ μηχανϋσ. Επύςησ, θα μπορούςε η ανϊλυςη του περιεχομϋνου τησ ςελύδασ να εμβαθύνει ακόμα περιςςότερο ώςτε να ελϋγχονται και ϊλλα πεδύα, όπωσ για παρϊδειγμα οι κεφαλύδεσ H2 και H3. Τϋλοσ, όςο οι Μηχανϋσ Αναζότηςησ εξελύςςονται τόςο θα εξελύςςονται οι αλ γόριθμοι κατϊταξησ και θα περιλαμβϊνουν όλο και περιςςότερεσ μεταβλητϋσ. Ασ μην ξεχνϊμε ότι οι υπϊρχουςεσ μηχανϋσ δεν υποςτηρύζουν πολλϋσ μορφϋσ ςελύδων και αρχεύων, ο βαθύσ Παγκόςμιοσ Ιςτόσ. Όςο λοιπόν οι Μηχανϋσ Αναζότηςησ βελτιώνονται για να ςυμπεριλϊβουν όλο και περιςςότερη πληροφορύα, τόςο θα δημιουργούνται νϋοι τομεύσ βελτιςτοπούηςησ οι οπούοι θα πρϋπει να διερευνηθούν. 70

ΒΙΒΛΙΟΓΡΑΦΙΑ [1] CERN, How the Web Began, http://public.web.cern.ch/public/en/about/webstory-en.html [2] Steve Lawrence and C. Lee Giles. Accesibility of information on the web (Vol. 400, pp. 107-109) Nature (999) [3] Steve Lawrence and C. Lee Giles. Searching the web: General and scientific information access. IEEE Communications, 37(1): 116-122, 1999 [4] E. Agichtein and L. Gravano. Snowball: Extracting relations from large plaintext collections. In Proceedings of the 5 th ACM International Conference on Digital Libraries, 2000 [5] J. Budzik and K.J. Hammond. User interactions with everyday applications as context for just-in-time information access. In Proceedings of the 2000 International Conference on Intelligent User Interfaces, New Orleans, Louisiana, 2000. ACM Press [6] Steve Lawrence and C. Lee Giles. Searching the World Wide Web. (Vol. 280, pp. 98-100) Science (1998) [7] Deborah Fallows, Search Engine Users, http://www.pewinternet.org [8] A. Gulli and A. Singorini. The Indexable Web is More than 11.5 billion pages. 14 th International Web Conference (WWW 2005) [9] The size of the World Wide Web, http://www.worldwidewebsize.com [10] Junghoo Cho, Hector Garcia-Molina, Lawrence Page. Efficient Crawling Through URL Ordering. 7 th International Web Conference (WWW 98) [11] L. Gravano, H. Garcia-Molina and A. Tomasic. GIOSS: Text-source discovery over the Internet. ACM Transaction on Database Systems, 24(2), 1999 [12] Ask Jeeves, http://www.ask.com 71

[13] Copernic, http://www.copernic.com/index.html [14] Ixquick, http://www.ixquick.com [15] I. Anagnostopoulos, I. Psoroulas, V. Loumos and E. Kayafas. Implementing a customized meta-search interface for user query personalization. IEEE 24 th International Conference on Information Technology Interfaces, ITI 2002 June 24-27, 2002, Cavtat/Dubrovnik, CROATIA [16] J. Barker. Meta-Search Engines. Teaching Library Internet Workshops University of California, Berkeley, April 2000, http://www.lib.berkeley.edu/teachinglib/guides/internet/metasearch.html [17] Find-It, http://www.findit.com [18] Dogpile, http://www.dogpile.com [19] Andreas Paepcke, Steve B. Cousins, Hector Garcia-Molina, Scott W. Hassan, Steven K. Ketchepel, Martin Roscheisen and Terry Winograd. Towards interoperability in digital libraries: Overview an Selected highlight of the Stanford Digital Library Project. IEEE Computer Magazine. May 1996 [20] Lycos, http://www.lycos.com [21] B. Grossan. Search Engines: What they are, how they work, and practical suggestions for getting the most out of them. February 1997. http://www.webreference.com/content/search [22] A. Pollock and A. Hockley. What s wrong with Internet Searching. D-Lib Magazine. March 1997 [23] M. Henzinger. Web Information Retrieval. At 16 th International Conference on Data Enginneering, IEEE Computer Society, San Diego, CA, USA February 29 - March 3, 2000 [24] I. Winship. Web Search Service Features. February 2001. http://www.unn.ac.uk 72

[25] A. Kingoff. Comparing Internet Search Engines. Computer (30:4), April 1997, pp.117-118 [26] B. He, M. Patel, Z. Zhang, K. Chen-Chuan Chang. Accessing the deep web. Communications of the ACM, Volume 50, Number 5 (2007), Pages 94-101 [27] E. Selberg and O. Etzioni. Multi-Engine Search and Comparison using the MetaCrawler. In Proc. Of the Fourth Int l WWW Conference, pages 195-208, Boston, Massachusetts, USA, 1995 [28] Dublin Core. http://dublincore.org [29] O. Etzioni. The World-Wide Web: Quagmire or Gold Mine. Communications of the ACM, vol. 39, N o 11, pp 65-68, Nov 1996 [30] Gauch, Susan, Wang, Guijun and Gomez. ProFusion: Intelligent fusion from multiple, distributed search engines. The Journal of Universal Computer Science, 2(9):637-649, 1996 [31] M. Kaufmann, J. P. Callan, Z. Lu, W. B. Croft. Searching distributed collections with interference networks. Proceedings of the Eighteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 21-28). Seattle, WA, 1995 [32] E. Voorhees, N. Gupta and B. Johnson-Laird. Learning collection fusion strategies. In the Proc. Of the 18 th ACM SIGIR conf on Research and Development in Information Retrieval, pp 172-179, 1995 [33] G. Salton. Automatic text processing: the transformation, analysis and retrieval of information by computer. Addison Wesley, 1989 [34] I. Anagnostopoulos, C. Anagnostopoulos, V. Loumos, E. Kayafas. Intelligent image acquisition on the Internet employing a hybrid meta-search interface. Submitted to IEE Procceedings Software, special issue Information Retrieval and Personalisation on the Internet. 73

[35] D. Sullivan. The evolution of paid inclusion. http://searchenginewatch.com/showpage.html?page=2163971 [36] The Found Agency. http://foundagency.com.au [37] W3C Markup Validation Service. http://validator.w3.org [38] N. Wilson. The art of linkbaiting. http://performancing.com/node/38 [39] SEO Elite. http://www.seoelite.com [40] ibusiness Promoter. http://ibusinesspromoter.com [41] Web position Gold. http://webpositiongoldpro.com [42] Web CEO. http://www.webceo.com [43] OptiLink. http://www.optilinksoftware.com [44] Traffic Travis. http://www.traffictravis.com [45] SEO Toolkit. http://www.trellian.com/seotoolkit [46] Smartpage Generator. http://smartpage.generatorsoftware.com [47] WebOne. http://www.webone.gr [48] Rankings. http://www.ranking.gr [49] ProjectWeb. http://projectweb.gr [50] Addicted. http://www.addicted.gr [51] DS Creative. http://ds-creative.gr [52] ΖΕΥΞΙΣ. http://www.zefxis.gr [53] Pointer. http://www.pointer.gr 74

ΑΛΛΕ ΑΝΑΦΟΡΕ http://www.seogreece.gr http://www.discoveryarticles.com http://en.wikipedia.org http://www.hostsun.com/gr/google_ranking.php http://searchenginewatch.com http://users.att.sch.gr/tsibinos/internet_history/history_1.html http://www.webopedia.com http://www.ianrogers.net/google-page-rank http://homepage.cs.uri.edu/faculty/wolfe/book/readings/r10%20links/search1.htm http://www.epaggelmaties.com/writer/2001-2003/internethistory.html 75

ΠΑΡΑΡΤΗΜΑ I - Μηχανές Αναζήηηζης Ο παρακάτω κατάλογος είναι από το www.wikipedia.org Με Βϊςη το Περιεχόμενο Γενικϋσ Alexa Internet Ask.com Baidu Cuil Exalead Google Live Search Sogou Soku Wikia Search Περιοριςμϋνεσ Γεωγραφικϊ Accoona, China/US Alleba, Philippines Ansearch,Australia/US/UK/NZ Araby, Middle East Baidu, China Daum, Korea Guruji.com, India Goo, Japan Leit.is, Iceland Miner.hu, Hungary Nadji,si, Slovenia Naver, Korea Onkosh, Middle East Rediff, India SAPO, Portugal Search.ch, Switzerland Sesam, Norway/Sweden Walla!, Israel Yandex, Russia ZipLocal, Canada/US Λογιςτικϋσ IFACnet Επιχειρηματικϋσ Business.com Nexis Thomasnet 76

Επιχειρηςιακϋσ AskMeNow Concept Searching Limited Dieselpoint dtsearch Endeca Exalead Expert System S.p.A. Fast Search & Transfer Funnelback ISYS Search Software Microsoft Northern Light Open Text Hummingbird Oracle Corporation SAP TeraText Vivisimo ZyLAB Technologies Εργαςύασ Bixee.com, India CareerBuilder.com, USA Craigslist Eluta.ca, Canada Hotjobs.com, USA Incruit, Korea Indeed.com, USA Monster.com, USA Recruit.net, International SimplyHired.com, USA TheLadders.com, USA Νομικϋσ WestLaw Lexis Quicklaw Ιατρικϋσ Bioinformatic Harvester Entrez EB-eye EBI s Search Engine GenieKnows GoPubMed Healia Searchmedica WebMD PudGene Nextbio 77

Ειδηςεογραφικϋσ Google News Daylife MagPortal Newslookup Nexis Topix.net Yahoo! News Ανθρώπων PeekYou Ex.plode.us InfoSpace Spock Spokeo Wink Zabasearch Zoominfo Κτηματομεςιτικϋσ Fizber.com Home.co.uk HotPads Properazzi Rightmove Zillow.com Βιντεοπαιχνιδιών GenieKnows Wazap Με Βϊςη την Παρεχόμενη Πληροφορύα Forum Omgili Blog Amatomu Bloglines BlogScope IceRocket Sphere Technorati 78

Multimedia blinkx FindSounds Picsearch Podscope SeeqPod Veveo YouTube Pixsta Κώδικα Google Code Search JExamples Koders Krugle BitTorrent Btjunkie Demonoid FlixFlux Isohunt Mininova The Pirate Bay TorrentSpy Email Nicado TEK Χαρτών Geoportail Google Maps MapQuest Live Search Maps Yahoo! Maps Σιμών Google Product Search Kelkoo MSN Shopping MySimon PriceGrabber PriceRunner Shopping.com ShopWiki Shopzilla TheFind.com 79

Ερώτηςησ - Απϊντηςησ Answers.com AskMeNow BrainBoost ehow hakia Lexxe Lycos iq Powerset Live Search QnA Yahoo! Answers Με Βϊςη το Μοντϋλο Λειτουργύασ Ανοιχτού Κώδικα DataparkSearch Egothor Gonzui Grub Ht://dog Isearch Lucene Lemur Toolkit & Indri Search Engine mnogosearch Namazu Nutch OpenFTS Sciencenet Sphinx SWISH-E Terrier Search Engine Wikia Search Xapian YaCy Zettair Social Search Engines ChaChaSearch Eurekster Mahalo.com Rollyo Trexy Wink Μηχανϋσ Μετα-Αναζότηςησ Brainboost ChunkIt! Clusty Dogpile Excite HotBot Info.com Ixquick Kayak 80

Mamma Metacrawler MetaLib Mobissimo Myriad Search SideStep Turbo10 WebCrawler Visual Search Engines ChunkIt! Grokker Kartoo Pixsta PubGene Βαςιςμϋνεσ ςε ϊλλεσ μηχανϋσ Βαςιςμϋνεσ ςτη Google AOL Search CompuServe Search MySpace Search NetScape Ripple Βαςιςμϋνεσ ςτη Yahoo! AltaVista AlltheWeb GoodSearch Rectifi Βαςιςμϋνεσ ςτη Live Search A9.com Tafiti Ms. Dewey Βαςιςμϋνεσ ςτην Ask.com Hakia iwon Lycos 81

ΠΑΡΑΡΤΗΜΑ II - Ο κώδικας Κλήση Σελίδας // ειίδα πξνο αλάιπζε, ε κεηαβιεηή url είλαη ε δηεύζπλζε ηεο ζειίδαο URL PageUrl = new URL(url); // ύλδεζε ζηε ζειίδα URLConnection GetConn = PageUrl.openConnection(); // Ρπζκίζεηο ζύλδεζεο GetConn.setRequestProperty("User-Agent","Profile/MIDP-2.0 Configuration/CLDC-1.1"); // Μεηαβιεηή απνζήθεπζεο ηεο ζειίδαο Reader rd = new InputStreamReader(GetConn.getInputStream()); // αληηθείκελν γηα λα πξνζπειαζηεί ε Κιάζε Parser, ε νπνία πεξηέρεη ζπλαξηήζεηο αλάιπζεο Parser parse = new Parser(); // θιήζε parser new ParserDelegator().parse(rd, parse, true); Όιεο νη ζπλαξηήζεηο αλάιπζεο πνπ παξαζέηνληαη παξαθάησ νξίδνληαη ζηελ θιάζε Parser public class Parser extends HTMLEditorKit.ParserCallback{} Ανάλυση HREF public void handlestarttag(html.tag tag, MutableAttributeSet a, int pos){ try{ // εύξεζε ηνπ TAG πνπ πεξηέρεη ην πεδίν href if(tag.equals(html.tag.a)){ // δηάβαζκα content ηνπ πεδίνπ href text = (String)a.getAttribute(HTML.Attribute.HREF); // αλ ην πεδίν δελ είλαη θελό if (text!= null){ //ελέξγεηεο πνπ ζέινπκε λα πξαγκαηνπνηεζνύλ }}} // αλ πξνθύςεη θάπνην πξόβιεκα λα ην απνζεθεύζεη catch(exception e) { // εκθαλίζεη ηνπ πξνβιήκαηνο ζην ρξήζηε System.out.println(e); }} 82

Ανάλυση META Name public void handlesimpletag(html.tag tag, MutableAttributeSet a, int pos){ // εύξεζε ηνπ META tag if(tag.equals(html.tag.meta)){ // δηάβαζκα ηνπ πεδίνπ NAME ηνπ META tag text = (String)a.getAttribute(HTML.Attribute.NAME); if (text!= null){ //ελέξγεηεο πνπ ζέινπκε λα πξαγκαηνπνηεζνύλ }}} Ανάλυση META Content public void handlesimpletag(html.tag tag, MutableAttributeSet a, int pos){ // εύξεζε ηνπ META tag if(tag.equals(html.tag.meta)){ // δηάβαζκα ηνπ πεδίνπ CONTENT ηνπ META tag text = (String)a.getAttribute(HTML.Attribute.CONTENT); if (text!= null){ //ελέξγεηεο πνπ ζέινπκε λα πξαγκαηνπνηεζνύλ }}} Ανάλυση IMG Alt public void handlesimpletag(html.tag tag, MutableAttributeSet a, int pos){ // εύξεζε ηνπ IMG tag if(tag.equals(html.tag.img)){ // δηάβαζκα ηνπ πεδίνπ ALT ηνπ META tag text = (String)a.getAttribute(HTML.Attribute.ALT); if (text!= null){ //ελέξγεηεο πνπ ζέινπκε λα πξαγκαηνπνηεζνύλ }}} 83

Ανάλυση TITLE Όιεο νη παξαθάησ κπαίλνπλ ζηελ ίδηα θιάζε κε ηε ζεηξά πνπ αλαθέξνληαη // ζπλάξηεζε εύξεζεο ηνπ πεδίνπ, αξρηθό tag public void handlestarttag(html.tag tag, MutableAttributeSet a, int pos){ // εύξεζε ηνπ TITLE tag if(tag.equals(html.tag.title) ){ titlefound = true; }} // ζπλάξηεζε δηαρείξηζεο ηνπ πεδίνπ public void handletext(char[] data, int pos){ // αλ ε ζπλάξηεζε εύξεζεο έρεη βξεη ην πεδίν if (titlefound){ //ελέξγεηεο πνπ ζέινπκε λα πξαγκαηνπνηεζνύλ }} // ζπλάξηεζε εύξεζεο ηειηθνύ tag public void handleendtag(html.tag tag, int pos){ if ( tag.equals(html.tag.title) ){ titlefound = false; }} Ανάλυση Body Όιεο νη παξαθάησ κπαίλνπλ ζηελ ίδηα θιάζε κε ηε ζεηξά πνπ αλαθέξνληαη // ζπλάξηεζε εύξεζεο ηνπ πεδίνπ, αξρηθό tag public void handlestarttag(html.tag tag, MutableAttributeSet a, int pos){ // εύξεζε ηνπ BODY tag if(tag.equals(html.tag.body) ){ bodyfound = true; }} 84

// ζπλάξηεζε δηαρείξηζεο ηνπ πεδίνπ public void handletext(char[] data, int pos){ // αλ ε ζπλάξηεζε εύξεζεο έρεη βξεη ην πεδίν if (bodyfound){ //ελέξγεηεο πνπ ζέινπκε λα πξαγκαηνπνηεζνύλ }} // ζπλάξηεζε εύξεζεο ηειηθνύ tag public void handleendtag(html.tag tag, int pos){ if ( tag.equals(html.tag.body) ){ bodyfound = false; }} Ανάλυση H1 Όιεο νη παξαθάησ κπαίλνπλ ζηελ ίδηα θιάζε κε ηε ζεηξά πνπ αλαθέξνληαη // ζπλάξηεζε εύξεζεο ηνπ πεδίνπ, αξρηθό tag public void handlestarttag(html.tag tag, MutableAttributeSet a, int pos){ // εύξεζε ηνπ H1 tag if(tag.equals(html.tag.body) ){ h1found = true; }} // ζπλάξηεζε δηαρείξηζεο ηνπ πεδίνπ public void handletext(char[] data, int pos){ // αλ ε ζπλάξηεζε εύξεζεο έρεη βξεη ην πεδίν if (h1found){ //ελέξγεηεο πνπ ζέινπκε λα πξαγκαηνπνηεζνύλ }} 85

// ζπλάξηεζε εύξεζεο ηειηθνύ tag public void handleendtag(html.tag tag, int pos){ if ( tag.equals(html.tag.h1) ){ h1found = false; }} Ανάλυση B Όιεο νη παξαθάησ κπαίλνπλ ζηελ ίδηα θιάζε κε ηε ζεηξά πνπ αλαθέξνληαη // ζπλάξηεζε εύξεζεο ηνπ πεδίνπ, αξρηθό tag public void handlestarttag(html.tag tag, MutableAttributeSet a, int pos){ // εύξεζε ηνπ B tag if(tag.equals(html.tag.b) ){ bfound = true; }} // ζπλάξηεζε δηαρείξηζεο ηνπ πεδίνπ public void handletext(char[] data, int pos){ // αλ ε ζπλάξηεζε εύξεζεο έρεη βξεη ην πεδίν if (bfound){ //ελέξγεηεο πνπ ζέινπκε λα πξαγκαηνπνηεζνύλ }} // ζπλάξηεζε εύξεζεο ηειηθνύ tag public void handleendtag(html.tag tag, int pos){ if ( tag.equals(html.tag.b) ){ bfound = false; }} 86

Ανάλυση Strong Όιεο νη παξαθάησ κπαίλνπλ ζηελ ίδηα θιάζε κε ηε ζεηξά πνπ αλαθέξνληαη // ζπλάξηεζε εύξεζεο ηνπ πεδίνπ, αξρηθό tag public void handlestarttag(html.tag tag, MutableAttributeSet a, int pos){ // εύξεζε ηνπ STRONG tag if(tag.equals(html.tag.strong) ){ strongfound = true; }} // ζπλάξηεζε δηαρείξηζεο ηνπ πεδίνπ public void handletext(char[] data, int pos){ // αλ ε ζπλάξηεζε εύξεζεο έρεη βξεη ην πεδίν if (strongfound){ //ελέξγεηεο πνπ ζέινπκε λα πξαγκαηνπνηεζνύλ }} // ζπλάξηεζε εύξεζεο ηειηθνύ tag public void handleendtag(html.tag tag, int pos){ if ( tag.equals(html.tag.strong) ){ strongfound = false; }} 87

Αναφορά // δεκηνπξγία θαθέινπ αλαθνξώλ new File("Reports").mkdirs(); // δεκηνπξγία αλαθνξάο ζε κνξθή FileWriter fstream = new FileWriter("Reports/Results.htm"); // δεκηνπξγία κεηαβιεηήο γηα ηελ εγγξαθή ζην αξρείν out = new BufferedWriter(fstream); // ελδεηθηηθά out.write( "<html xmlns='http://www.w3.org/1999/xhtml'>" + "<meta http-equiv='content-type' content='text/html; windows-1253' />"+ "<body style='background-color:#ffffcc'>"); // ελδεηθηηθά, ε εγγξαθή ηεο θαηάηαμεο // position είλαη ε κεηαβιεηή πνπ απνζεθεύεηαη ε ζέζε, αλ είλαη <=1000 if(position==0){ out.write("<p><strong>your Rank: </strong> >1000 or not indexed</p>"); } else{ out.write("<p><strong>your Rank: </strong>"+position+"</p>"); } 88

ΠΑΡΑΡΤΗΜΑ III - Οι αναθορές πανεπιστήμιο σάμου 89

90

91

πανεπιστήμιο 92

93

94

95

σάμου 96

97

98

99