ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΗΠΕΙΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ &ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΤΗΛΕΠΛΗΡΟΦΟΡΙΚΗΣ & ΔΙΟΙΚΗΣΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Σχετικά έγγραφα

Πώς λειτουργεί το Google?

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Αύξηση πελατών. Λίγα λόγια για Επιτυχημένες προωθήσεις

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Vodafone Business Connect

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Οικονομική Προσφορά Προώθηση ιστοσελίδας

ΕΓΧΕΙΡΙΔΙΟ ΟΡΘΩΝ ΠΡΑΚΤΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΕΣ ΚΑΜΠΑΝΙΕΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

ΟΔΗΓΙΕΣ ΓΙΑ ΤΟ ΠΑΙΧΝΙΔΙ.

Πατώντας την επιλογή αυτή, ανοίγει ένα παράθυρο που έχει την ίδια μορφή με αυτό που εμφανίζεται όταν δημιουργούμε μία μεταβλητή.

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

«Δουλεύω Ηλεκτρονικά, Δουλεύω Γρήγορα και με Ασφάλεια - by e-base.gr»

Το σύστημα Βοήθειας του Internet Explorer

Να αποθηκεύουμε και να ξανανοίγουμε αρχεία σε περιβάλλον Windows. Να ξεχωρίζουμε τα συστατικά (αρχεία, φακέλους κλπ.) ενός δίσκου

Με την αλλαγή των μεταβλητών σελιδοποίησης αυτόματα ρυθμίζετε το νέο όριο για τα άρθρα και τα αποτελέσματα αναζήτησης.

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Web Sites Το τρίπτυχο της επιτυχίας

Εργαλεία ανάπτυξης εφαρμογών internet Ι

ΕΓΧΕΙΡΙΔΙΟ ΟΡΘΩΝ ΠΡΑΚΤΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΟ ΕΜΠΟΡΙΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ

Εγχειρίδιο Φοιτητών. 1. Εισαγωγή

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η

ΕΓΧΕΙΡΙΔΙΟ ΜΑΘΗΤΗ. της Πλατφόρμας Τηλεκατάρτισης

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Θεματική Ενότητα: ΔΕΟ 11 Εισαγωγή στη Διοικητική Επιχειρήσεων και Οργανισμών. 1 η Γραπτή Εργασία. Ενδεικτικές Απαντήσεις

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

Πληροφορική 2. Δομές δεδομένων και αρχείων

(18 ο ) ΚΛΑΣΜΑΤΙΚΗ ΑΝΑΓΩΓΗ - ΙI: «διάμεσος &θεσιακή επιλογή στοιχείου»

Η επιχειρηματικότητα στο διαδίκτυο

Εγχειρίδιο Χρήστη - Μαθητή

ΥΠΗΡΕΣΙΕΣ ΔΙΑΔΙΚΤΟΥ Explorer & Outlook 2013

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Ποια cookies χρησιμοποιούμε στον ιστότοπό μας;

Βάσεις δεδομένων (Access)

Περιεχόμενα. Αντί προλόγου Πώς να χρησιμοποιήσετε το βιβλίο Κεφάλαιο 1: Πώς δημιουργώ το Προφίλ μου στο Facebook;...

Εγχειρίδιο Φοιτητών. 1. Εισαγωγή

1. Τι είναι η Κινηματική; Ποια κίνηση ονομάζεται ευθύγραμμη;

Κίνηση ΚΕΦΑΛΑΙΟ 2 Β ΓΥΜΝΑΣΙΟΥ

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΙΣΤΟΤΟΠΩΝ

Μπορείτε τα δείτε βιντεάκι με τη διαδικασία εδώ:

Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan)

Στην πράξη ουσιαστικά αντικαθιστά τον παραδοσιακό κατάλογο μιάς Βιβλιοθήκης με όλα τα παραπάνω πλεονεκτήματα.

Δημιουργία. Ιστολογίου (blog) 7/5/2015. Χρυσάνθη Γιομέλου ΚΔΒΜ ΝΙΚΑΙΑΣ

Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρομεσαίες

ΒΟΗΘΕΙΑ για τη χρήση του ιδρυματικού αποθετηρίου ΥΠΑΤΙΑ ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

DIGITAL MARKETING. ΠΩΣ τα αξιοποιείτε και ΠΟΙΟΣ τα λειτουργεί;

Δικτυακοί τόποι. Η σχεδίαση ενός δικτυακού τόπου. Δρ. Ματθαίος Α. Πατρινόπουλος

ΚΕΦΑΛΑΙΟ 1: Τα είδη των Δικτύων Εισαγωγή

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Αλγόριθμοι και Πολυπλοκότητα

ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ : ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ : Γ ΛΥΚΕΙΟΥ ΣΠΟΥΔΕΣ ΟΙΚΟΝΟΜΙΑΣ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΑΓΩΝΙΣΜΑ ΠΕΡΙΟΔΟΥ : ΜΑΪΟΥ

Αναζήτηση στον Ιστό. Πληκτρολόγηση του URL: στο πλαίσιο αναζήτησης του Mozilla Firefox. Enter ή κλικ στο Αναζήτηση

ΚΥΚΛΟΣ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΕΥΝΑΣ

Ανάκτηση Πληροφορίας

ΔΙΑΔΙΚΤΥΑΚΗ ΠΡΟΒΟΛΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ

Διαδικασιακός Προγραμματισμός

Αντί προλόγου. 1. Τι είναι το Twitter;

TEC410 Ανάπτυξη Δικτυακών Τόπων (Δ εξάμηνο)

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΕΩΣ ALPHA WEB TRADING

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

enotita-b3 11/9/ :42 #ϊ ΑΪ>& 145

1. Τι είναι η Κινηματική; Ποια κίνηση ονομάζεται ευθύγραμμη;

Ο αλγόριθμος PageRank της Google

Social Web: lesson #4

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 6. Πιθανότητες

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

Velvet Studio. Creative Agency

Κεφάλαιο 14: Συμβουλές προς έναν νέο προγραμματιστή

6η Δραστηριότητα. Ναυμαχία Αλγόριθμοι αναζήτησης. Περίληψη. Αντιστοιχία με το σχολικό πρόγραμμα * Ικανότητες. Ηλικία. Υλικά

Βασικά ζητήματα μιας βάσης δεδομένων

Δομημένος Προγραμματισμός (ΤΛ1006)

της ΜΑΡΙΑΝΝΑΣ ΑΒΕΡΚΙΟΥ Παιδαγωγός MEd, Εκπαίδευση Παιδιών με Ειδικές Ανάγκες Διδάκτωρ Πανεπιστημίου Αθηνών, Φιλόλογος

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Εγχειρίδιο Φοιτητών. 1. Εισαγωγή

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΕΓΧΕΙΡΙΔΙΟ ΟΔΗΓΙΩΝ ΧΡΗΣΤΗ. Ηλεκτρονική Υποβολή Α.Π.Δ.

6. Διαχείριση Έργου. Έκδοση των φοιτητών

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων

ΔΙΑΔΙΚΤΥΑΚΗ ΠΡΟΒΟΛΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Εισαγωγική Δραστηριότητα: Χωριστείτε σε ομάδες

ΚΕΦΑΛΑΙΟ 2ο ΠΡΟΣΟΜΟΙΩΣΗ ΔΙΑΚΡΙΤΩΝ ΓΕΓΟΝΟΤΩΝ

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Transcript:

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΗΠΕΙΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ &ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΤΗΛΕΠΛΗΡΟΦΟΡΙΚΗΣ & ΔΙΟΙΚΗΣΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ ΣΤΟ ΔΙΑΔΥΚΤΙΟ ΣΠΟΥΔΑΣΤΡΙΑ ΓΚΟΥΝΤΑΜΑΝΗ ΠΗΓΗ ΕΙΣΗΓΗΤΗΣ ΤΣΙΑΝΤΗΣ ΛΕΩΝΙΔΑΣ ΑΡΤΑ ΙΟΥΛΙΟΣ 2005 1

«Οι υπολογιστές είναι απίστευτα γρήγοροι, ακριβείς και ηλίθιοι οι άνθρωποι είναι απίστευτα αργοί, ανακριβείς και ευφυείς και οι δυο μαζί είναι ισχυροί πέρα από κάθε φαντασία». Albert Einstein 2

ΕΥΧΑΡΙΣΤΙΕΣ Η παρούσα εργασία δεν θα είχε πραγματοποιηθεί χωρίς τη βοήθεια συγκεκριμένων ατόμων, τους οποίους θα ήθελα να ευχαριστήσω. Αρχικά, τους γονείς μου, Στέλιο και Μαρία Γκουνταμάνη, για την υποστήριξη και τη βοήθειά τους κατά τη διάρκεια των σπουδών μου. Ακολούθως, θα ήθελα να ευχαριστήσω : Τον επόπτη καθηγητή της εργασίας μου, κύριο Τσιαντή Λεωνίδα, ο οποίος έδωσε τη δυνατότητα της ανάπτυξής της και προσέφερε σημαντική βοήθεια σε όλα τα στάδια υλοποίησής της. 3

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1: Εισαγωγή... 6 1.1 Μηχανές αναζήτησης (search engines)... 6 ΚΕΦΑΛΑΙΟ 2: Crawling... 9 2.1 Μετρικές σπουδαιότητας (Imprtance metrics)... 11 Similarity t a Driving Query Q (IS)... 11 Backlink Cunt (IB)... 12 PageRank (IR)... 13 Frward Link Cunt (IF)... 14 Lcatin Metric (IL)... 14 ΚΕΦΑΛΑΙΟ 3: Ανανέωση... 15 3.1 Ανανέωση μέσω των spiders... 18 3.2 Βέλτιστος αλγόριθμος αναζήτησης Pissn... 19 ΚΕΦΑΛΑΙΟ 4: Δημιουργία ευρετηρίων... 20 4.1 Ευρετήρια (Index-based Search Tls - IBSTs).... 20 ΚΕΦΑΛΑΙΟ 5: Αξιολόγηση ιστοσελίδων από τις μηχανές αναζήτησης... 21 5.1 Στατιστικά στοιχεία... 22 5.2 Πότε μία ιστοσελίδα έχει υψηλή βαθμολογία;... 23 5.3 Ο αλγόριθμος PageRank... 25 5.4 PwerRank... 26 5.4.1 Ο αλγόριθμος PwerRank... 27 5.4.2 Τα πλεονεκτήματα... 29 5.4.3 Πειράματα... 29 Οργάνωση πειράματος... 29 Αποτελέσματα... 30 Πυκνή σύγκριση διανυσμάτων... 30 Χρονική σύγκριση... 30 Υψηλή πυκνή σύγκριση αποτελέσματος... 31 Η χαμηλή πυκνή σύγκριση αποτελέσματος... 31 Συμπέρασμα... 31 ΚΕΦΑΛΑΙΟ 6: Μεγιστοποίηση κυκλοφορίας... 33 6.1 SEARCH ENGINE OPTIMIZATION (SEO).... 33 6.2 KEYWORD OPTIMIZATION... 35 Τα πρώτα βήματα στο σχεδιασμό μιας ιστοσελίδας... 35 6.3 META TAGS... 40 Meta tags keywrds και descriptin... 40 ΚΕΦΑΛΑΙΟ 7: Ανατομία μιας μηχανής αναζήτησης... 42 Επισκέπτες... 43 Ταμιευτήρας εγγράφων... 44 Δημιουργός ευρετηρίου... 44 Αντιστραμμένο ευρετήριο... 44 4

Ταμιευτήρας συνδέσμων... 45 Βαθμολογητής εγγράφων... 45 Μηχανή αναζήτησης... 46 Ποσοτική αποτίμηση... 46 Αποτίμηση μηχανών αναζήτησης... 47 Διαχωρισμός σε συστοιχίες... 47 Ομαδοποίηση... 48 Εκεί όπου οι μηχανές αναζήτησης δεν φτάνουν... 48 Οι μεγαλύτεροι σε βάθος δικτυακοί τόποι... 48 Αναζήτηση εικόνων με βάση τα συμφραζόμενα... 49 Αναζήτηση εικόνων με βάση το περιεχόμενο... 49 Αναζήτηση σε ομότιμα δίκτυα... 49 ΚΕΦΑΛΑΙΟ 8: Ομαδοποίηση αποτελεσμάτων... 51 8.1 Εισαγωγή... 51 8.2 Η διαδικασία του Clustering... 53 8.3 Επιλογή του Κατάλληλου Αλγόριθμου... 56 8.4 Ορισμοί και Συμβολισμός... 58 8.5 Αναπαράσταση στοιχείων, Επιλογή και Εξαγωγή χαρακτηριστικών... 59 8.6 Μέτρο ομοιότητας... 61 8.7 Τεχνικές Clustering... 63 8.7.1 Αλγόριθμοι Ιεραρχικού clustering... 65 8.7.2Διαμεριστικοί αλγόριθμοι... 69 K-means clustering μέθοδος... 71 8.7.3 Clustering κοντινότερου γείτονα... 71 8.7.4 Fuzzy clustering... 72 8.8 Αναπαράσταση των clusters... 73 8.9 Ομαδοποιώντας μεγάλα σύνολα δεδομένων... 76 8.10 Σύνοψη... 77 ΚΕΦΑΛΑΙΟ 9: Οι Μηχανές Μετά-Αναζήτησης... 79 ΚΕΦΑΛΑΙΟ 10: SPAMMING... 82 ΒΙΒΛΙΟΓΡΑΦΙΑ:... 86 5

ΚΕΦΑΛΑΙΟ 1: Εισαγωγή 1.1 Μηχανές αναζήτησης (search engines) Η ιστορία των μηχανών αναζήτησης. Όλα ξεκίνησαν το 1994 σε ένα πανεπιστήμιο των ΗΠΑ. Οι φοιτητές εκεί είχαν διαφορετική ιδέα για το τι σημαίνει πάρτι. Θέλησαν να προγραμματίσουν ένα search- rbt που θα ανίχνευε στο Internet προγράμματα υπολογιστών και παιχνίδια. Η πρωτόγονη μηχανή αναζήτησης χτένιζε τις σελίδες του web για να βρει τις διευθύνσεις (URL), κρατούσε σημειώσεις και επέστρεφε με το φορτίο στη Βάση δεδομένων, όπου και το αποθήκευε. Από εκεί μπορούσε κανείς να ψάξει για τις λέξεις που τον ενδιαφέρουν και να τσεκάρει μια λίστα με web sites που είχαν στον τίτλο τους την "καταζητούμενη" λέξη. Η πρώτη επίσημη search engine μόλις είχε δημιουργηθεί: ήταν το Lycs, ο πρωτάρης που σύντομα θα γινόταν διεθνής σταρ. Η Ιδέα έπιασε αμέσως. Ιδρύθηκε ομότιτλη εταιρεία. Αναζητήθηκαν χορηγοί. Η μηχανή βελτιώθηκε. Στόχος ήταν να χρησιμοποιείται από όλο και περισσότερους φανατικούς φίλους. Ταυτόχρονα το θέμα άρχισε να ιντριγκάρει τις διαφημιστικές εταιρείες. Τότε εμφανίστηκε και η δεύτερη μηχανή αναζήτησης, το WebCrawler, που πέτυχε και αυτό γρήγορα. Στην αρχή η μηχανή αναζήτησης έψαχνε λέξεις που υπήρχαν μόνο στις web διευθύνσεις. Λίγο αργότερα προέκυψε η ανάγκη να ψάχνει και σε αρχεία κειμένων που ήταν αποθηκευμένα στα web sites. Τότε ξέσπασε ο πόλεμος του ανταγωνισμού. Το Internet είναι μια ψηφιακή κοινωνία χωρίς έλεος. Οι μηχανές αναζήτησης το απέδειξαν. 6

'Όταν κάποιος προσφέρει συγκεκριμένες υπηρεσίες, ο ανταγωνιστής του πρέπει να αντιδράσει τόσο γρήγορα, όσο αν έπαιζε Pac Man. Είναι μία σκληρή αγορά. Και τα πράγματα γίνονται ακόμα πιο σκληρά όταν πολλαπλασιάζεται ο αριθμός των μηχανών αναζήτησης. Aλλωστε, τα έσοδα από τις διαφημίσεις είναι ανάλογα με τις επισκέψεις στο site. Μηχανές αναζήτησης είναι συστήματα ικανά να εντοπίζουν ιστοσελίδες σε ολόκληρο το διαδίκτυο. Μία μηχανή αναζήτησης είναι βασικά ένας τεράστιος κατάλογος ιστοσελίδων. Ο κατάλογος αυτός είναι κατάλογος λέξεων, φράσεων (γενικά κειμένου) και μοιάζει κάπως με το ευρετήριο όρων που συνήθως υπάρχει στο πίσω μέρος ενός βιβλίου. Βέβαια είναι ασύγκριτα μεγαλύτερος και διαφορετικά δομημένος απ' ότι το ευρετήριο όρων ενός βιβλίου. Η ποιότητα του καταλόγου, και ο τρόπος με τον οποίο μία μηχανή αναζήτησης χρησιμοποιεί το κείμενο που αυτός περιέχει, καθορίζουν την ποιότητα των αποτελεσμάτων μίας αναζήτησης που η εν' λόγω μηχανή διεξάγει. Οι ιστοσελίδες αποτελούν ένα μέσο ενημέρωσης. Υπάρχουν χονδρικά δυο κατηγορίες ιστοσελίδων: οι μη-κερδοσκοπικές (nn cmmercial) -π.χ. επιστημονικές ιστοσελίδες, site με πληροφορίες για αθλήματα κ.λπ.- και οι ιστοσελίδες που αφορούν μια επιχείρηση. Και στις δυο περιπτώσεις οι κάτοχοι των σελίδων αποσκοπούν να παρέχουν πληροφορίες σε ένα κοινό που ενδιαφέρεται για το αντικείμενό τους. Οι ενδιαφερόμενοι χρήστες του διαδικτύου είναι αδύνατον να γνωρίζουν τη διεύθυνση όλων των ιστοσελίδων οι οποίες περιέχουν τις πληροφορίες που χρειάζονται. Οι μηχανές αναζήτησης έρχονται να διευκολύνουν τον εντοπισμό τους. Ο χρήστης πληκτρολογεί στο ενδεδειγμένο πεδίο τη λέξη ή το συνδυασμό λέξεων που περιγράφει καλύτερα αυτό που ζητάει, δηλαδή τις λέξεις-«κλειδιά» (keywrds) και η μηχανή αναζήτησης τού επιστρέφει ως αποτέλεσμα έναν αριθμό ιστοσελίδων με τη μορφή links, που θεωρεί ότι περιέχουν πληροφορίες σχετικές με αυτό που ζήτησε. Με 7

αυτόν τον τρόπο, ο χρήστης μαθαίνει για ιστοσελίδες που ούτε καν ήξερε την ύπαρξή τους. Αυτό είναι ιδιαίτερα χρήσιμο στις επιχειρήσεις, εφόσον τις βοηθά να διευρύνουν το πελατολόγιό τους χωρίς να ξοδεύουν μια περιουσία για διαφημιστικές καταχωρήσεις στον έντυπο τύπο. Οι μηχανές αναζήτησης αποτελούν λοιπόν ένα ισχυρό και οικονομικό μέσο marketing και προώθησης. 8

ΚΕΦΑΛΑΙΟ 2: Crawling Οι spiders ή αλλιώς crawlers ή rbts είναι προγράμματα υπεύθυνα για τον εντοπισμό ιστοσελίδων στο Ίντερνετ. Μέσω αυτών των προγραμμάτων η μηχανή αναζήτησης πληροφορείται για την ύπαρξη ενός δικτυακού τόπου ο οποίος, αν δεν είχε εντοπιστεί από τους spiders, θα έμενε στην αφάνεια, κάπου σε κάποιον server στο αόρατο Ίντερνετ. Με τη χρήση των ειδικών προγραμμάτων και συστημάτων που αναφέραμε πιο πάνω, των λεγόμενων spiders ή αλλιώς crawlers ή rbts. Τα συστήματα αυτά εντοπίζουν τις ιστοσελίδες θα λέγαμε κατά κάποιο τρόπο «συνειρμικά», μεταπηδώντας από link σε link. Κάθε ιστοσελίδα περιέχει συνδέσμους (links), που πατώντας με το ποντίκι επάνω τους μας οδηγούν σε άλλες ενότητές της ή ακόμα και σε άλλους δικτυακούς τόπους πέρα από αυτή. Οι μηχανές αναζήτησης με τη βοήθεια των, επισκέπτονται κάποιες ήδη γνωστές σε αυτές ιστοσελίδες, τις σαρώνουν και ακολουθώντας τα links οδηγούνται σε άλλους δικτυακούς τόπους απ όπου πάλι μέσω των links εντοπίζουν νέες ιστοσελίδες και ούτω καθεξής. Οι μηχανές αναζήτησης, λοιπόν, αντί να χρησιμοποιούν ανθρώπινο δυναμικό το οποίο θα «σέρφαρε» εικοσιτέσσερις ώρες το εικοσιτετράωρο στο διαδίκτυο για να εντοπίσει και να προσθέσει νέες ιστοσελίδες στη βάση δεδομένων, χρησιμοποιούν τα προγράμματα αυτά, τους spiders, τα οποία συνεχώς επισκέπτονται ιστοσελίδες, τις σαρώνουν και συλλέγουν πληροφορίες, ενώ ακολουθώντας τα links μεταπηδούν και εντοπίζουν νέες. Αφού εντοπιστεί μια ιστοσελίδα, η μηχανή αναζήτησης τη σαρώνει με τη βοήθεια του προγράμματος indexer, συλλέγοντας πληροφορίες για το κείμενο και τα άλλα στοιχεία που την αποτελούν. Στη συνέχεια την αρχειοθετεί σε έναν κατάλογο (catalg), μια βάση δεδομένων, δηλαδή την 9

κάνει «indexed», τη «δεικτοδοτεί». Σε αυτόν τον κατάλογο αποθηκεύεται ένα αντίγραφο από κάθε σελίδα που έχει εντοπίσει ο spider, και έτσι η μηχανή αναζήτησης έχει στη διάθεσή της ένα μεγάλο αριθμό ιστοσελίδων για να τις χρησιμοποιήσει στο επόμενο βήμα. Πρέπει εδώ να τονίσουμε ότι οι ιστοσελίδες που σαρώνονται από τους crawlers των μηχανών αναζήτησης αξιολογούνται με βάση κάποια κριτήρια. Αν οι δικτυακοί τόποι πληρούν τις προϋποθέσεις που θέτει η εκάστοτε μηχανή αναζήτησης, τότε εισάγονται στον κατάλογο της, γίνονται «indexed» και έτσι είναι διαθέσιμες ως αποτελέσματα εάν ζητηθούν. Αν δεν πληρούν τις προϋποθέσεις αυτές, τότε γίνονται «banned», δηλαδή δεν συμπεριλαμβάνονται στον κατάλογο, ή «τιμωρούνται» (penalized), δηλαδή κατατάσσονται χαμηλά στα αποτελέσματα που θα επιστρέψει η μηχανή σε σχετική έρευνα ενός χρήστη. Επίσης, ενδέχεται μια ιστοσελίδα να μην έχει καταχωρηθεί στη βάση δεδομένων μιας μηχανής αναζήτησης επειδή ο crawler δεν κατάφερε να διεισδύσει για κάποιους λόγους σε αυτή. Η Ggle είναι μία αυτοματοποιημένη μηχανή αναζήτησης που χρησιμοποιεί rbts, γνωστά και ως αράχνες (spiders) ή ερπετά (crawlers), που έρπουν στον Ιστό μία φορά κάθε μήνα, και ακολουθώντας συνδέσμους (links) πηγαίνουν από το ένα site στο άλλο, συλλέγουν ιστοσελίδες και δημιουργούν τους καταλόγους της Ggle. Η διαδικασία αυτή ονομάζεται crawling. Έρποντας στον Ιστό, τα rbts της Ggle, συλλέγουν κάθε μήνα περισσότερες από 3 δισεκατομμύρια ιστοσελίδες ενώ χρειάζονται κάμποσες εβδομάδες για να ολοκληρωθεί η διαδικασία της συλλογής (crawling). Όταν ο χρήστης πληκτρολογήσει κάποιες λέξεις-κλειδιά και τις υποβάλλει στην Ggle, 10

ξεκινά η διαδικασία της αναζήτησης (query). Ο web server στέλνει τις λέξεις στους servers που είναι αποθηκευμένοι οι κατάλογοι-ευρετήρια της Ggle. Το περιεχόμενο των καταλόγων αυτών είναι όμοιο με το ευρετήριο όρων που υπάρχει στο πίσω μέρος των βιβλίων: λέει ποιες σελίδες περιέχουν λέξεις που είναι ίδιες οι παρόμοιες με τις λέξειςκλειδιά του χρήστη. Ακολούθως η αναζήτηση μεταφέρεται στους dc servers οι οποίοι ανακτούν τις αποθηκευμένες ιστοσελίδες. Εν' συνεχεία δημιουργούνται οι ιστοσελίδες με τα αποτελέσματα της αναζήτησης. Οι σελίδες αυτές περιέχουν για κάθε αποτέλεσμα συνήθως τα εξής: Τον τίτλο της ιστοσελίδας που είναι ταυτόχρονα και σύνδεσμος προς αυτή. Μία σύντομη περιγραφή του περιεχομένου της, και έναν ακόμα σύνδεσμο που οδηγεί στην αποθηκευμένη, στον κατάλογο της μηχανής αναζήτησης, ιστοσελίδα. Τέλος, οι ιστοσελίδες με τα αποτελέσματα της αναζήτησης στέλνονται στον χρήστη, και έτσι ολοκληρώνεται η αναζήτηση. Η όλη διαδικασία διαρκεί συνήθως λιγότερο από 1 sec. 2.1 Μετρικές σπουδαιότητας (Imprtance metrics) Μπορούμε να ορίσουμε τι εννοούμε όταν λέμε ότι μια σελίδα είναι σημαντική με βάση κάποιον από τους εξής τρόπους : Similarity t a Driving Query Q (IS) : Η αναζήτηση γίνεται με βάση κάποιο ερώτημα και η σπουδαιότητα μιας σελίδας p υπολογίζεται με βάση την κειμενική ομοιότητα (textual similarity) μεταξύ των p και Q. Για τον υπολογισμό της ομοιότητας θεωρούμε 11

ότι τα p και Q είναι διανύσματα n διαστάσεων της μορφής <w 1,,w n >, όπου το w i αναπαριστά την i- οστή λέξη στο σύνολο των λέξεων που εμφανίζονται στο Web (στην πραγματικότητα στο σύνολο των λέξεων που εμφανίζονται στις σελίδες που έχουμε επισκεφτεί. Αν το w i δεν εμφανίζεται στο κείμενο της σελίδας, τότε w i = 0, διαφορετικά το w i εκφράζει τη σπουδαιότητα (significance) της λέξης i. Ο τύπος υπολογισμού της σπουδαιότητας είναι : Significance = (# the i-th wrd appears in the dcument) * idf όπου idf (inverse dcument frequency) = 1 / (# the wrd appears in the Web). Επίσης, η τιμή του w i μπορεί να εξαρτάται από τη θέση στην οποία εμφανίζεται η λέξη (π.χ. οι λέξεις που εμφανίζονται στον τίτλο μιας HTML σελίδας είναι πιο σημαντικοί από αυτές που εμφανίζονται σε άλλο σημείο. Η ομοιότητα των p και Q υπολογίζεται ως το εσωτερικό γινόμενο των διανυσμάτων p και Q. Κατά τη διαδικασία της αναζήτησης όμως ο crawler δεν έχει εξερευνήσει όλο το Web, συνεπώς οι παράγοντες idf πρέπει να εκτιμηθούν για το σύνολο των σελίδων που έχουν ήδη ανακτηθεί. Άρα, χρησιμοποιούμε μία προσέγγιση της μετρικής IS(p), την IS (p). Backlink Cunt (IB) : Με βάση αυτή τη μετρική, η σπουδαιότητα της σελίδας p καθορίζεται από τον αριθμό των συνδέσμων προς αυτή που υπάρχουν σε όλο το Web. Μία σελίδα προς την οποία υπάρχουν πολλοί σύνδεσμοι θεωρείται πιο σημαντική από ότι μια 12

άλλη στην οποία δείχνουν λιγότεροι σύνδεσμοι. Στην πράξη, αντί για την μετρική IB(p), χρησιμοποιείται μία εκτίμησή της, η ΙΒ (p), για το σύνολο των σελίδων που ο crawler έχει επισκεφτεί. PageRank (IR) : Επειδή όλοι οι σύνδεσμοι που δείχνουν σε μία σελίδα δεν είναι το ίδιο σημαντικοί, η σπουδαιότητα μίας σελίδας ορίζεται αναδρομικά ως ο σταθμισμένος μέσος όρος της σπουδαιότητας των σελίδων που έχουν συνδέσμους προς την p. Ο τύπος της μετρικής είναι IR(p) = (1 - d) + d [IR(t 1 )/c 1 + + IR(t n )/c n ] όπου t 1, t 2,, t n είναι οι σελίδες που έχουν συνδέσμους προς την p και c 1, c 2,, c n είναι οι σύνδεσμοι που πηγάζουν από τις t 1, t 2,, t n αντίστοιχα. Επειδή ένας χρήστης που περιπλανάτε στο Internet ξεκινώντας από μία αρχική σελίδα p0 ακολουθεί συνήθως κάποιους συνδέσμους σε σελίδες σχετικές και μετά από έναν αριθμό σχετικών συνδέσμων μεταπηδά σε κάποια τελείως άσχετη σελίδα, χρησιμοποιείται στον τύπο ο παράγοντας d, ο οποίος εκφράζει την πιθανότητα ότι η επόμενη σελίδα που θα επισκεφτεί ο χρήστης θα είναι τυχαία. Για κάθε σελίδα του Web λοιπόν υπάρχει μία τέτοια εξίσωση και το σύνολο αυτό των εξισώσεων μπορεί να λυθεί επαναληπτικά, θεωρώντας ότι όλες οι τιμές IR(p) αρχικά ισούνται με 1 και υπολογίζοντας σε κάθε βήμα τις νέες τιμές IR(p) από τις παλιές IR(t i ) μέχρι οι τιμές να συγκλίνουν. 13

Όπως και με τις προηγούμενες μετρικές, στην πράξη χρησιμοποιείται μία προσέγγιση της μετρικής IR(p), η IR (p), καθώς ο crawler επισκέπτεται ένα υποσύνολο των σελίδων του Web και όχι όλες τις σελίδες. Frward Link Cunt (IF) : Ως μετρική της σπουδαιότητας μίας σελίδας p μπορεί να θεωρηθεί ο αριθμός των συνδέσμων που πηγάζουν από τη σελίδα, καθώς μία σελίδα από την οποία πηγάζουν πολλοί σύνδεσμοι μπορεί να είναι ένας κατάλογος του Web (Web directry). Στην περίπτωση αυτή είναι IF (p) = IF(p). Lcatin Metric (IL) : Η σπουδαιότητα IL(p) μίας σελίδας p είναι συνάρτηση της θέσης της και όχι του περιεχομένου της. Αν ένα URL u δείχνει σε μία σελίδα p, τότε η IL(p) είναι συνάρτηση του u. Για παράδειγμα, μπορεί να μας ενδιαφέρουν URLs με κατάληξη.cm. Οι μετρικές που ορίστηκαν παραπάνω μπορούν επίσης να συνδυάζονται μεταξύ τους για να δώσουν καινούριες μετρικές. Για παράδειγμα, συνδυάζοντας τη μετρική IS(p, Q) με την μετρική IB(p), μπορούμε να δημιουργήσουμε μια καινούρια μετρική, σύμφωνα με την οποία μας ενδιαφέρουν σελίδες σχετικές με κάποιο ερώτημα Q και στις οποίες δείχνουν πολλοί σύνδεσμοι. 14

ΚΕΦΑΛΑΙΟ 3: Ανανέωση Η μια όψη της λειτουργίας τους είναι ότι εντοπίζουν την ύπαρξη μιας ιστοσελίδας ή αλλιώς, ενός δικτυακού τόπου προσθέτοντας τον στη βάση δεδομένων τους. Η άλλη είναι ότι βοηθούν τους χρήστες του διαδικτύου να εντοπίσουν, πληκτρολογώντας κάποιες λέξεις-κλειδιά, ιστοσελίδες που αφορούν ένα θέμα του ενδιαφέροντός τους, ψάχνοντας για σχετικές με το θέμα ιστοσελίδες στη βάση δεδομένων που έχουν διαμορφώσει. Μια ιστοσελίδα είναι ενεργή και διαθέσιμη στο Ίντερνετ δε σημαίνει ότι θα εμφανιστεί και στα αποτελέσματα μιας μηχανής αναζήτησης. Το αν θα εμφανιστεί ή όχι εξαρτάται από το αν οι μηχανές αναζήτησης έχουν ενημερωθεί για την ύπαρξη της σελίδας αυτής. Για να ενημερωθεί μια μηχανή αναζήτησης για την ύπαρξη μιας ιστοσελίδας Υπάρχουν δύο τρόποι: 1. να εντοπιστεί η ιστοσελίδα από την ίδια τη μηχανή αναζήτησης, 2. να γνωστοποιήσουμε εμείς ή η εταιρεία στην οποία έχουμε αναθέσει τη διαχείριση της ιστοσελίδας την ύπαρξη της. Την καταχώρηση της ιστοσελίδας μπορούμε να την κάνουμε είτε χειροκίνητα, συμπληρώνοντας μια φόρμα, είτε χρησιμοποιώντας κάποιο ειδικό πρόγραμμα καταχώρησης δικτυακών τόπων (sites). Εντοπισμός του δικτυακού τόπου που υπάρχουν στο Ίντερνετ από μηχανή αναζήτησης Με τη χρήση των ειδικών προγραμμάτων και συστημάτων που αναφέραμε πιο πάνω, των λεγόμενων spiders ή αλλιώς crawlers ή rbts. Τα συστήματα αυτά εντοπίζουν τις ιστοσελίδες θα λέγαμε κατά κάποιο 15

τρόπο «συνειρμικά», μεταπηδώντας από link σε link. Κάθε ιστοσελίδα περιέχει συνδέσμους (links), που πατώντας με το ποντίκι επάνω τους μας οδηγούν σε άλλες ενότητές της ή ακόμα και σε άλλους δικτυακούς τόπους πέρα από αυτή. Οι μηχανές αναζήτησης με τη βοήθεια των επισκέπτονται κάποιες ήδη γνωστές σε αυτές ιστοσελίδες, τις σαρώνουν και ακολουθώντας τα links οδηγούνται σε άλλους δικτυακούς τόπους απ όπου πάλι μέσω των links εντοπίζουν νέες ιστοσελίδες και ούτω καθεξής. Οι μηχανές αναζήτησης, λοιπόν, αντί να χρησιμοποιούν ανθρώπινο δυναμικό το οποίο θα «σέρφαρε» εικοσιτέσσερις ώρες το εικοσιτετράωρο στο διαδίκτυο για να εντοπίσει και να προσθέσει νέες ιστοσελίδες στη βάση δεδομένων, χρησιμοποιούν τα προγράμματα αυτά, τους spiders, τα οποία συνεχώς επισκέπτονται ιστοσελίδες, τις σαρώνουν και συλλέγουν πληροφορίες, ενώ ακολουθώντας τα links μεταπηδούν και εντοπίζουν νέες. -Δηλαδή, όταν κάνουμε μια εύρεση σε μια μηχανή αναζήτησης, παραδείγματος χάριν, όταν πληκτρολογούμε τη λέξη «χορός» στο Ggle, δεν ψάχνει σε όλες τις σελίδες που υπάρχουν στο Ίντερνετ για να βρει ποιες είναι σχετικές με το χορό; εύρεση σε μια μηχανή αναζήτησης Η μηχανή αναζήτησης δεν ψάχνει «στα τυφλά» στο Ίντερνετ εκείνη τη στιγμή. Ψάχνει μόνο σε μια δική της βάση δεδομένων, όπου βρίσκονται αντίγραφα των ιστοσελίδων που ήδη γνωρίζει την ύπαρξή τους. Αυτή η βάση δεδομένων, όπως θα δούμε, εμπλουτίζεται συνεχώς με κάποιους τρόπους. Παρόλα αυτά, υπάρχουν πάρα πολλές ιστοσελίδες των οποίων οι μηχανές αναζήτησης αγνοούν την ύπαρξη. Αυτές αποτελούν και το λεγόμενο «αόρατο Ίντερνετ». Συμπερασματικά, για να μπορέσει μια μηχανή αναζήτησης να εμφανίσει μια ιστοσελίδα στα αποτελέσματά της, 16

θα πρέπει πρώτα να έχει ενημερωθεί για την ύπαρξή της και να την έχει προσθέσει στη βάση δεδομένων της. -Για ποιους λόγους κάποιες ιστοσελίδες παραμένουν στο αόρατο Ίντερνετ, δηλαδή δεν υπάρχουν στις βάσεις δεδομένων των μηχανών αναζήτησης; Αυτό συμβαίνει είτε επειδή οι ίδιες οι μηχανές αναζήτησης επιλέγουν να μην εντάξουν τις σελίδες αυτές στη βάση δεδομένων τους είτε επειδή δεν έχουν καταφέρει να εντοπίσουν την ύπαρξή τους. Οι λόγοι για τους οποίους μια μηχανή αναζήτησης επιλέγει να μην προσθέσει μια σελίδα στη βάση δεδομένων της ποικίλλουν: από τεχνική άποψη, η σελίδα αυτή ενδεχομένως να μην πληροί κάποιες προδιαγραφές, εμφανίζοντας λίγο ως και καθόλου κείμενο ή κακογραμμένη html, χαρακτηριστικά που αποτρέπουν τις μηχανές από την εγγραφή της στη βάση τους. Σε περίπτωση που οι μηχανές δεν έχουν καταφέρει να εντοπίσουν μια ιστοσελίδα, ο πιθανότερος λόγος είναι ότι δεν υπάρχει κανένα link προς τη σελίδα αυτή σε κάποια άλλη την οποία ήδη γνωρίζει η μηχανή. Γιατί πρέπει να γνωστοποιήσουμε εμείς την ύπαρξη της σελίδας μας στις μηχανές αναζήτησης; Για να κερδίσουμε χρόνο, εφόσον δεν είναι δυνατό να ξέρουμε πότε θα εντοπιστεί η ιστοσελίδα μας από τη μηχανή αναζήτησης. Επιπλέον, δεν είμαστε καν σίγουροι ότι η μηχανή αναζήτησης θα καταφέρει τελικά να εντοπίσει μόνη της το δικτυακό μας τόπο. Καλό είναι λοιπόν να βοηθήσουμε κι εμείς στη δήλωση της ιστοσελίδας μας στις μηχανές αναζήτησης και στους θεματικούς καταλόγους. 17

3.1 Ανανέωση μέσω των spiders Οι spiders σαρώνουν κάθε ιστοσελίδα που επισκέπτονται και αντλούν πληροφορίες για το κείμενο, τα links, τον τίτλο και άλλα στοιχεία του δικτυακού τόπου. Αφού γίνει αυτό, αποθηκεύουν ένα αντίγραφο στον κατάλογό τους. Όταν η ιστοσελίδα αυτή εμφανιστεί ως αποτέλεσμα σε μια αναζήτηση, η κατάταξή της έχει γίνει λαμβάνοντας υπόψη τα στοιχεία που παρέχει η αποθηκευμένη αυτή σελίδα στη βάση δεδομένων. Πατώντας ο χρήστης στο link του αποτελέσματος θα μεταφερθεί στην τρέχουσα έκδοση της ιστοσελίδας, πράγμα που σημαίνει ότι αν ο σχεδιαστής της ιστοσελίδας έκανε κάποιες αλλαγές προκειμένου να έχει καλύτερα αποτελέσματα στις μηχανές αναζήτησης, αυτές δεν θα ληφθούν υπόψη, ωσότου ο spider επισκεφθεί πάλι το συγκεκριμένο δικτυακό τόπο και ανανεώσει το αντίγραφο που κρατάει στη βάση δεδομένων του. Οι spiders επισκέπτονται ανά τακτά χρονικά διαστήματα τις ιστοσελίδες που ήδη έχουν επισκεφθεί, αλλά μέχρι τότε εμείς θα πρέπει να κάνουμε υπομονή. Εναλλακτικά, μπορούμε έναντι κάποιου χρηματικού ποσού σε κάποια ειδική εταιρεία να εξασφαλίσουμε τακτική επίσκεψη των spiders στο δικτυακό μας τόπο. Έτσι θα είμαστε σίγουροι ότι οι μηχανές αναζήτησης θα έχουν πάντα ένα αντίγραφο της τρέχουσας μορφής της ιστοσελίδας μας στη βάση δεδομένων τους. 3.2 Βέλτιστος αλγόριθμος αναζήτησης Pissn 18

P( = k) = 1 ( rt) k e rt. k! Διανομή Pissn: Η μεταβλητή x θα καθορίσει τυχαία τον αριθμό των γεγονότων που θα συμβούν. Το r είναι η σταθερά η οποία εξάγεται το αποτέλεσμα, το t είναι το μήκος του εσωτερικού χρόνου, περιμένουμε το rt γεγονότων που θα συμβούν (κατά μέσο όρο), Η φόρμουλα μας λέει, η πιθανότητα ότι τα k γεγονότα που θα συμβούν στον εσωτερικό χρόνο είναι 1 rt k e rt ακριβώς ( ). k! 19

ΚΕΦΑΛΑΙΟ 4: Δημιουργία ευρετηρίων 4.1 Ευρετήρια (Index-based Search Tls - IBSTs). Το ευρετήριο είναι ένα αναζητήσιμο αρχείο ή βάση δεδομένων, το οποίο παρέχει δείκτες αναφοράς προς τη διαθέσιμη πληροφορία στον Ιστό. Το ευρετήριο δημιουργείται και ανανεώνεται από μία ομάδα ατόμων υπεύθυνη για τη συγκεκριμένη εργασία είτε αυτομάτως από ένα Internet Rbt, το οποίο συνεργάζεται με τη μηχανή αναζήτησης. Στην πρώτη περίπτωση οι χρήστες μπορούν να συμμετέχουν έμμεσα στη δημιουργία του ευρετηρίου μέσω της προτάσεως συγκεκριμένων σελίδων ή εξυπηρετητών. Παράλληλα, οι ιστοσελίδες ταξινομούνται σε θεματικά δένδρα. Κάθε θεματικό δένδρο περιέχει ένα σύνολο από URLs, τα οποία ανήκουν σε ένα συγκεκριμένο πεδίο ενδιαφέροντος. Τα θεματικά δένδρα και τα υπόδενδρά τους σχεδιάζονται δια χειρός με τέτοιο τρόπο, ώστε να διευκολύνεται η προσπέλαση τους από τους χρήστες μέσω της τεχνικής της αναδίφησης (brwsing). Ακολουθώντας δένδρα διαρκώς πιο σχετικά με το επιθυμητό θέμα, οι χρήστες μπορούν να εντοπίσουν πληροφορία συγκεκριμένη στο πεδίο, που τους ενδιαφέρει. Μία μηχανή αναζήτησης, που ανήκει στην κατηγορία αυτή είναι το Yah. Στη δεύτερη περίπτωση, η διαδικασία γίνεται χωρίς την ανάμιξη ανθρώπινου δυναμικού. Το Internet Rbt, το οποίο συνεργάζεται με τη μηχανή αναζήτησης, είναι υπεύθυνο να αναγνωρίσει λέξεις-κλειδιά μέσα στις ιστοσελίδες, που ανακαλύπτει και να δημιουργήσει το ευρετήριο. Μηχανές αναζήτησης, που ανήκουν στην κατηγορία αυτή, είναι οι Alta- Vista, HtBt, MetaCrawler, Excite, Lycs, Infseek και GT. 20

ΚΕΦΑΛΑΙΟ 5: Αξιολόγηση ιστοσελίδων από τις μηχανές αναζήτησης Κάθε ιστοσελίδα πρώτα εντοπίζεται από τα ειδικά προγράμματα των μηχανών αναζήτησης, τα rbts ή spiders ή crawlers, και στη συνέχεια αξιολογείται με βάση κάποιον αλγόριθμο που έχει αναπτυχθεί γι αυτό το σκοπό. Επομένως, στις μηχανές αναζήτησης η αξιολόγηση δεν γίνεται από ανθρώπους αλλά από προγράμματα. Ανάλογα με το πώς είναι σχεδιασμένο το πρόγραμμα και με τον αλγόριθμο που χρησιμοποιεί, δίνει βάρος σε κάποια στοιχεία της ιστοσελίδας «τιμωρώντας» κάποια άλλα. Οι μηχανές αναζήτησης δεν ανακοινώνουν ποτέ τα στοιχεία της ιστοσελίδας στην οποία δίνουν βαρύτητα. Παρόλα αυτά, υπάρχουν κάποιοι γενικοί κανόνες με τους οποίους οι σχεδιαστές ιστοσελίδων πρέπει να συμμορφώνονται ώστε να έχουν πιθανότητες να επιτύχουν καλά αποτελέσματα: 1. Σωστή χρήση της html. Λάθη που συγχωρούνται από τους φυλλομετρητές, τους brwsers δηλαδή, ίσως μπερδέψουν και τελικά αποτρέψουν τους spiders από την αξιολόγηση, καταγραφή και τελικά αποδοχή της σελίδας από τη μηχανή αναζήτησης. Tags που δεν κλείνουν, με λάθος παραμέτρους, άχρηστα επαναλαμβανόμενα tags που συνήθως αφήνουν πίσω τους τα προγράμματα σχεδιασμού ιστοσελίδων, άτακτη εισαγωγή μεγάλων javascript και stylesheets, όλα τους τα δείγματα άγνοιας και πρόχειρου σχεδιασμού, υπάρχει μεγάλη πιθανότητα να μπλοκάρουν τους spiders κατά τη σάρωση της σελίδας. 2. Κείμενο φυσικό στη μορφή και στο περιεχόμενο, ικανό να δώσει ικανοποιητικές πληροφορίες στο χρήστη, χωρίς άσκοπη επανάληψη των keywrds. 21

3. Φυσική τοποθέτηση των λέξεων- κλειδιών στα διάφορα Tags της html που θεωρούνται σημαντικά, χωρίς να τα υπερφορτώνουμε επαναλαμβάνοντας πολλές φορές το keywrds. 4. Χρήση μόνο των λέξεων που είναι σχετικές με το θέμα της ιστοσελίδας. 5. Σωστή καταχώρηση της ιστοσελίδας στις μηχανές αναζήτησης. 6. Αποφυγή κάθε προσπάθειας spamming, δηλαδή παραπλάνησης της μηχανής αναζήτησης. 7. Σύνδεση της ιστοσελίδας μας με άλλες, δημοφιλείς ιστοσελίδες. 5.1 Στατιστικά στοιχεία Η μηχανή αναζήτησης Ggle δόθηκε προς χρήση το 1998 και είναι σήμερα η δημοφιλέστερη μηχανή αναζήτησης στο WWW, διεξάγοντας περίπου 200 εκατομμύρια αναζητήσεις κάθε ημέρα, που προέρχονται από 200 χώρες και διατυπώνονται σε 88 διαφορετικές γλώσσες. Σε έρευνα που πραγματοποίησε η εταιρία OneStat.cm το φθινόπωρο του 2002, η Ggle βρέθηκε να είναι μακράν η δημοφιλέστερη μηχανή αναζήτησης του Ιστού, αφού διεξάγει το 55.1% του συνόλου των αναζητήσεων στο Web. Η Yah ήταν στη δεύτερη θέση με ποσοστό 20.6% ενώ η κάποτε κραταιά και κυρίαρχη Altavista ήταν στην έκτη θέση με ποσοστό μόλις 2.4% επί του συνόλου των αναζητήσεων. Η Ggle δημιουργήθηκε από τους Larry Page και Sergey Brin, δύο διδακτορικούς φοιτητές, τότε, του Πανεπιστημίου του Stanfrd. Οι Brin και Page χρησιμοποίησαν για την αξιολόγηση μιάς τυχαίας ιστοσελίδας έναν αλγόριθμο που βασίζετε στην ανάλυση των συνδέσμων (link analysis) που οδηγούν στην προς αξιολόγηση 22

ιστοσελίδα. Οι Brin και Page ήταν οι πρώτοι που σκέφτηκαν να χρησιμοποιήσουν τους πολυάριθμους συνδέσμους (links), που δρώντας σαν κόμβοι συνδέουν τις ιστοσελίδες μεταξύ τους και δομούν το οικοδόμημα του Παγκόσμιου Ιστού (Wrld Wide Web, WWW, ή Web), για να προσδιορίσουν την ποιότητα του περιεχομένου μίας ιστοσελίδας. Έτσι έφτιαξαν τον αλγόριθμο PageRank, ο οποίος αξιολογεί ξεχωριστά κάθε σύνδεσμο που οδηγεί στην ιστοσελίδα που πρόκειται να βαθμολογηθεί. 5.2 Πότε μια ιστοσελίδα έχει υψηλή βαθμολογία; Σύμφωνα με τον αλγόριθμο PageRank, μία σελίδα Α λαμβάνει υψηλή βαθμολογία εάν υπάρχουν πολλές άλλες ιστοσελίδες με σύνδεσμο προς την Α ή εάν οι ιστοσελίδες με σύνδεσμο προς την Α έχουν λάβει υψηλή βαθμολογία. Αυτό μπορούμε να το αντιληφθούμε και διαισθητικά: οι ιστοσελίδες που "φαίνονται" από πολλά και διαφορετικά μέρη του Ιστού είναι ποιοτικά αξιόλογες. Επίσης οι ιστοσελίδες που "φαίνονται" από λίγα αλλά σημαντικά μέρη του Ιστού είναι και αυτές αξιόλογες σε ποιότητα και λαμβάνουν υψηλή βαθμολογία. Για παράδειγμα, εάν υπάρχει ένας σύνδεσμος προς την ιστοσελίδα σας από το site της βιβλιοθήκης του Kγκρέσου των ΗΠΑ αυτός θα αξιολογηθεί με πολύ μεγαλύτερο βάρος από ότι ένας αντίστοιχος σύνδεσμος από μία άλλη τυχαία ιστοσελίδα. Εκτός από τον αλγόριθμο PageRank υπάρχουν και άλλοι παράγοντες αξιολόγησης μίας ιστοσελίδας Α. Ένας τέτοιος παράγοντας είναι το κείμενο των συνδέσμων που οδηγούν στην Α. Πολλές μηχανές αναζήτησης σχετίζουν το κείμενο ενός συνδέσμου με την ιστοσελίδα στη οποία βρίσκεται ο εν' λόγω σύνδεσμος. Η Ggle συσχετίζει το κείμενο ενός 23

συνδέσμου με την ιστοσελίδα που βρίσκεται ο σύνδεσμος αλλά και με την ιστοσελίδα που δείχνει. Με άλλα λόγια, το κείμενο που υπάρχει σε ένα link που οδηγεί προς τη σελίδα σας - σύμφωνα με την Ggle - ανήκει στην σελίδα που υπάρχει ο σύνδεσμος αλλά ταυτόχρονα ανήκει και στη δική σας σελίδα. Στους συνδέσμους μπορεί να βρει κανείς πιο ακριβείς και σύντομες περιγραφές του περιεχομένου μίας ιστοσελίδας απ' ότι εάν προσπαθήσει να αναλύσει το περιεχόμενο της ιστοσελίδας χρησιμοποιώντας κάποιο Web Rbt. Επιπρόσθετα οι σύνδεσμοι μπορούν να δείχνουν σε αρχεία (εικόνες, προγράμματα κλπ.) τα οποία δεν είναι δυνατόν να κατηγοριοποιηθούν από μηχανές αναζήτησης που βασίζονται αποκλειστικά στο κείμενο που περιέχουν οι σελίδες. Θα πρέπει να σημειώσουμε ότι η πρώτη μηχανή αναζήτησης που συσχέτισε το κείμενο ενός συνδέσμου με την ιστοσελίδα που αυτός οδηγεί ήταν η WWWW (Wrld Wide Web Wrm, το Μαμούνι του Παγκόσμιου Ιστού) που δημιουργήθηκε το 1994 και ήταν μία από τις πρώτες μηχανές αναζήτησης του Παγκόσμιου Ιστού. Ένας άλλος παράγοντας αξιολόγησης που χρησιμοποιεί η Ggle στηρίζεται στην ανάλυση του HTML κώδικα που υπάρχει στη ιστοσελίδα. Για παράδειγμα οι λέξεις που είναι γραμμένες με μεγαλύτερα ή με έντονα γράμματα αξιολογούνται ως σημαντικότερες από τις υπόλοιπες λέξεις. Το κείμενο που βρίσκεται μέσα στις ετικέτες h1, h2, κλπ. θεωρείται σημαντικότερο από το υπόλοιπο κείμενο της ιστοσελίδας. Η ετικέτα title είναι επίσης σημαντική για την Ggle. 24

5.3 Ο αλγόριθμος PageRank PageRank (IR) : Επειδή όλοι οι σύνδεσμοι που δείχνουν σε μία σελίδα δεν είναι το ίδιο σημαντικοί, η σπουδαιότητα μίας σελίδας ορίζεται αναδρομικά ως ο σταθμισμένος μέσος όρος της σπουδαιότητας των σελίδων που έχουν συνδέσμους προς την p. Ο τύπος της μετρικής είναι IR(p) = (1 - d) + d [IR(t 1 )/c 1 + + IR(t n )/c n ] όπου t 1, t 2,, t n είναι οι σελίδες που έχουν συνδέσμους προς την p και c 1, c 2,, c n είναι οι σύνδεσμοι που πηγάζουν από τις t 1, t 2,, t n αντίστοιχα. Επειδή ένας χρήστης που περιπλανάται στο Internet ξεκινώντας από μία αρχική σελίδα p0 ακολουθεί συνήθως κάποιους συνδέσμους σε σελίδες σχετικές και μετά από έναν αριθμό σχετικών συνδέσμων μεταπηδά σε κάποια τελείως άσχετη σελίδα, χρησιμοποιείται στον τύπο ο παράγοντας d, ο οποίος εκφράζει την πιθανότητα ότι η επόμενη σελίδα που θα επισκεφτεί ο χρήστης θα είναι τυχαία. Για κάθε σελίδα του Web λοιπόν υπάρχει μία τέτοια εξίσωση και το σύνολο αυτό των εξισώσεων μπορεί να λυθεί επαναληπτικά, θεωρώντας ότι όλες οι τιμές IR(p) αρχικά ισούνται με 1 και υπολογίζοντας σε κάθε βήμα τις νέες τιμές IR(p) από τις παλιές IR(t i ) μέχρι οι τιμές να συγκλίνουν. Όπως και με τις προηγούμενες μετρικές, στην πράξη χρησιμοποιείται μία προσέγγιση της μετρικής IR(p), η IR (p), καθώς ο crawler επισκέπτεται ένα υποσύνολο των σελίδων του Web και όχι όλες τις σελίδες. 25

Ο αλγόριθμος PageRank αναπτύχθηκε για να καθορίσει τη σημασία ιστοσελίδας με τον υπολογισμό eigenvectr αρχής της μήτρας γειτνίασης ιστοσελίδας. Λόγω του τεράστιου ποσού σελίδων στον Ιστό, ο υπολογισμός PageRank γίνεται μια πολύ εργασία χρονικής κατανάλωσης. Οι ερευνητές έχουν αναπτύξει πολλές τεχνολογίες για να επιταχύνουν τον πυκνό υπολογισμό σελίδων από διαφορετικό ενδεχόμενο. Το Kamyar et, Al, εκμεταλλεύεται τις δομές φραγμών του Ιστού για να ενισχύσει τους υπολογισμούς PageRank. Υπολόγισαν την τοπική τάξη των σελίδων των διαφορετικών περιοχών χωριστά και τους συγχώνευσαν μαζί ως νέα αρχική αξία του υπολογισμού PageRank. Το Arasu πρότεινε τις μεθόδους όπως το πολύ-πλέγμα, gauss-seidel, διαδοχική μέθοδος verrelaxatin (sr) στη μήτρα γειτνίασης Ιστού για να λάβει το πυκνό διάνυσμα αποτελέσματος. Εντούτοις, κανένας από τους στόχους που συζητήθηκαν ανωτέρω δεν ερεύνησε τη δομή ιεραρχίας και τη διανομή νόμου δύναμης της γραφικής παράστασης Ιστού για να βοηθήσει να βελτιώσει τον υπολογισμό PageRank. 5.4 POWERRANK Ο νέος αλγόριθμο ανάλυσης συνδέσεων "ο αλγόριθμος PwerRank", ο οποίος χρησιμοποιεί τις ιδιότητες διανομής νόμου δύναμης και τη δομή ιεραρχίας της γραφικής παράστασης Ιστού. Ο αλγόριθμος αποτελείται δύο μέρη. Στο πρώτο μέρος, η ειδική επεξεργασία εφαρμόζεται στις σελίδες με το χαμηλό αποτέλεσμα "σημασίας". Στο δεύτερο μέρος, το σφαιρικό αποτέλεσμα "σημασίας " για κάθε ιστοσελίδας λαμβάνεται με να συνδυάσει εκείνα τα αποτελέσματα από κοινού. Τα πειραματικά αποτελέσματά μας δείχνουν ότι: 1) Ο αλγόριθμος PwerRank υπολογίζει 10%~30% γρηγορότερο από τον αλγόριθμο PageRank. 26

2) Κορυφαίες ιστοσελίδας στον αλγόριθμο PwerRank παραμένουν παρόμοιες με αυτόν του αλγορίθμου PageRank. Μείωση της υπολογιστικής πολυπλοκότητας Κρατώντας τη διαταγή ταξινομημένων των κορυφή σελίδων παρόμοιων με αυτήν του αλγορίθμου PageRank. Μειώνοντας την πιθανότητα των πολλαπλάσιων σελίδων που έχουν το ίδιο αποτέλεσμα. 5.4.1 Ο αλγόριθμος PwerRank Όπως συζητείται προηγουμένως, οι υψηλές σελίδες-βαθμού έχουν την υψηλότερη προσδοκία για το αποτέλεσμα "σημασίας". Ομοίως, μπορούμε να συναγάγουμε ότι χαμηλές ιστοσελίδας "σημασίας" αναμένονται για να έχουν τον χαμηλό-βαθμό. Εάν πάρουμε μια ειδική επεξεργασία στις σελίδες SE θορίου ε, όπως να κόψουμε τους μακριά από τη γραφική παράσταση Ιστού, η δομή συνδέσεων γραφικών παραστάσεων Ιστού θα παραμείνει παρόμοια ως αυτήν πριν. Αυτός θα μείωνε έπειτα το χρόνο υπολογισμού και θα συντηρούσε το παρόμοιο πυκνό αποτέλεσμα. Για να προσδιορίσει το χαμηλό - ταξινομημένες σελίδες, ταξινομούμε αρχικά τους πλήθους ή τους κόμβους περιοχών του Ιστού από τον- ΒΑΘΜΌ τους. Κατόπιν κόβουμε τους χαμηλούς οικοδεσπότες ή τις περιοχές-βαθμού. Οι σελίδες που βρίσκονται σε τέτοιους κόμβους (οικοδεσπότες ή περιοχές) κόβονται επίσης. Οι υπόλοιποι κόμβοι συνεχίζονται στο επόμενο επίπεδο υπολογισμού για "τη σημασία". Τέλος, εκείνα τα αποτελέσματα "δημοτικότητας " για τις σελίδες που παραμένουν στον υπολογισμό, ή τις σελίδες που κόβονται από τον 27

υπολογισμό συνδυάζονται για να διαμορφώσουν ένα σφαιρικό αποτέλεσμα "σημασίας ". Ονομάζουμε αυτόν τον αλγόριθμο μεθόδου "PwerRank ", ο οποίος περιγράφεται λεπτομερέστερα στα εξής: Υποθέστε ότι υπάρχουν μόνο τρία επίπεδα ιεραρχιών Ιστού: dmain, οικοδεσπότης και Webpage. Υποθέστε ότι η σελίδα URL είναι http://www.acm.rg/index.html, ο οικοδεσπότης του URL είναι www.acm.rg, και η περιοχή της URL είναι acm.rg. Ο αλγόριθμος περιέχει τέσσερα βήματα: Κατ' αρχάς, ο αλγόριθμος PageRank εφαρμόζεται στις περιοχές. Μετά από διάφορες επαναλήψεις, οι lw-rank περιοχές των ΕΔ κόβονται. Δεύτερον, PageRank εφαρμόζεται στους οικοδεσπότες. Παρόμοιοι με το πρώτο βήμα, οι lw-rank οικοδεσπότες των ΕΔ κόβονται. Τρίτον, ένας παρόμοιος υπολογισμός εφαρμόζεται ιστοσελίδας, και οι χαμηλός-ταξινομημένες σελίδες κόβονται. Από το θεώρημά μας, η δομή της υπόλοιπης γραφικής παράστασης πρέπει να είναι παρόμοια με την αρχική γραφική παράσταση Ιστού. το Enapplyi NG ένας αλγόριθμος ταξινόμησης εδώ θα λάβει μια πυκνή διαταγή ομοιότητας και θα κερδίσει χρόνο αποτελεσματικά. Τέλος, τα αποτελέσματα "σημασίας" των σελίδων στους οικοδεσπότες διακοπών (περιοχές) είναι το τοπικό πυκνό αποτέλεσμά τους s που πολλαπλασιάζεται με το αποτέλεσμα s των ir τοποθετημένων οικοδεσποτών (περιοχές). Τα αποτελέσματα τ hese συνδυάζονται για να διαμορφώσουν το sc RES των σελίδων για να είναι σφαιρικά αποτελέσματα "σημασίας ". 28

5.4.2 Τα πλεονεκτήματα Τα πλεονεκτήματα του αλγορίθμου PwerRank είναι: Το πλεονέκτημα 1 ο αλγόριθμος PwerRank εισάγει ένα νέο πλαίσιο τη "σημασία" ιστοσελίδας. Σε αυτόν τον αλγόριθμο, η πολυπλοκότητα υπολογισμού μειώνεται σημαντικά έναντι του παραδοσιακού αλγορίθμου PageRank. Το πλεονέκτημα 2 ο αλγόριθμός μας μπορεί να εφαρμοστεί σε οποιεσδήποτε βελτιώσεις στον αλγόριθμο PageRank που εισαγάγαμε στο πρώτο τμήμα. 5.4.3 Πειράματα Οργάνωση πειράματος Χρησιμοποιούμε 500 sub-graph εκατομμύρια σελίδων του Ιστού (που δείχνεται ως AE) για να πραγματοποιήσουμε τα πειράματά μας. Το AE περιέχει περίπου 88 εκατομμύρια σελίδες, 4,4 εκατομμύρια οικοδεσπότες, και 3,3 εκατομμύρια περιοχές. Για να μελετήσουμε τα αποτελέσματα των διαφορετικών κριτηρίων διακοπών, πραγματοποιούμε έξι πειράματα. Αυτά τα πειράματα αντιπροσωπεύονται με τους αριθμούς τριών ποσοστών: Οι ifferent περιοχές και ο οικοδεσπότης δ τέμνων-από τις αναλογίες είναι υποδειγμένοι στους πρώτους και δεύτερους αριθμούς ποσοστού, ενώ ο τρίτος αριθμός δείχνει τα τοις εκατό ιστοσελίδας που αφήνονται. Αυτά τα έξι πειράματα είναι 2%-2%-96%, 4%-6%-90%, 8%-12%-80%, 10%-20%- 70%, 15%-25%-60%, 20%-30% -50%, που χαρακτηρίζονται ως AEI, AEII, AEIII, AEIV, AEV και AEVI, αντίστοιχα. 29

Αποτελέσματα Συγκρίναμε τα διανύσματα αποτελέσματος των έξι πειραμάτων και το διάνυσμα PageRank. Πυκνή σύγκριση διανυσμάτων καταγράφουμε τον λ1-κανόνα για το αρνητικό διάνυσμα του αρχικού διανύσματος αποτελέσματος PageRank και του διανύσματος αποτελέσματός μας. Τα αποτελέσματα σύγκρισης παρουσιάζονται στον πίνακα 2. Ο λ1-κανόνας κυμαίνεται από 0,11 έως 0,63, Πίνακας 2: Λ1-κανόνας των αρνητικών διανυσμάτων κάτω από το διαφορετικό κατώτατο όριο Ετικέτα πειράματος Λ1-κανόνας του αρνητικού διανύσματος AEI 0.112598434090614 AEII 0.139604702591896 AEIII 0.246725514531136 AEIV 0.420685678720474 AEV 0.526982128620148 AEVI 0.634842157363892 Χρονική σύγκριση συγκρίνουμε το χρόνο υπολογισμού AEI, AEIII και AEIV με τον αρχικό αλγόριθμο PageRank. Τα αποτελέσματα παρουσιάζονται στο σχήμα 1. Ο διαστιγμένος φραγμός είναι η αναλογία της παραμονής αριθμός των σελίδων στον αριθμό ολόκληρων των σελίδων. Ο ped λουρίδων φραγμός είναι η αναλογία της παραμονής αριθμός των συνδέσεων στον αριθμό ολόκληρων των συνδέσεων. Ο τετραγωνικός φραγμός δ είναι η αναλογία του υπολογισμού του χρόνου στον αρχικό χρόνο υπολογισμού PageRank. Από το σχήμα 1 μπορούμε να βρούμε εκείνο το τ που χρόνος υπολογισμού του αλγορίθμου PwerRank είναι λιγότερο από αυτός του αλγορίθμου PageRank. Στο AE ΙΙΙ, ο χρόνος υπολογισμού μειώνεται για 20%, 30

Rati t PageRank 100 80 60 40 20 0 AEI AEIII AEIV Pages % "Links %" "Time %" Experiments Label Σχήμα 1: Κόμβοι, συνδέσεις και χρονική αναλογία στα διαφορετικά πειράματα Υψηλή πυκνή σύγκριση αποτελέσματος συγκρίνουμε επίσης το αποτέλεσμα PwerRank των κορυφαίων σελίδων 5% και το αποτέλεσμα PageRank. Στις lg-lg πλοκές τους, μπορούμε να δούμε ότι hey τακτοποίηση τ η γραμμή Υ = Χ καλά. Αυτός σημαίνει ότι το PwerRank παρέχει ένα παρόμοιο αποτέλεσμα ταξινόμησης στον αλγόριθμο PageRank για την κορυφή - ταξινομημένες σελίδες. Η χαμηλή πυκνή σύγκριση αποτελέσματος δύο σελίδες με την ίδια αξία "σημασίας" στα τελικά αποτελέσματα υπολογισμού καλείται δεσμό. Το W ε συγκρίνει τις αριθμήσεις δεσμών του αποτελέσματος PwerRank και του αποτελέσματος PageRank στις χαμηλότερες σελίδες 80%. Τ δένει τις αριθμήσεις σε AEIV, AEV, και AEVI είναι λιγότερο από αυτό PageRank. Τ δένει τις αριθμήσεις των χαμηλότερων σελίδων 15% σε AEII, AEIII είναι λιγότερο από αυτό PageRank επίσης. Συμπέρασμα Σε αυτό το έγγραφο, εισάγουμε: ο αλγόριθμος "PwerRank", ο οποίος αξιοποιεί των ιδιοτήτων διανομής νόμου δύναμης και τη δομή ιεραρχίας της γραφικής παράστασης Ιστού. Τα πειραματικά αποτελέσματά μας για αυτόν τον αλγόριθμο δείχνουν ότι ο αλγόριθμος PwerRank υπολογίζει 10%~30% γρηγορότερα από τον αλγόριθμο PageRank. Επιπλέον, κορυφαίες ταξινομημένες ιστοσελίδες στον αλγόριθμο PwerRank 31

παραμένουν πολύ παρόμοιες με εκείνους του αλγορίθμου PageRank. Τέλος, μειώνει το αποτέλεσμα "δεσμοί" στα τελικά αποτελέσματα υπολογισμού. 32

ΚΕΦΑΛΑΙΟ 6: Μεγιστοποίηση κυκλοφορίας 6.1 SEARCH ENGINE OPTIMIZATION (SEO). Ο όρος Search Engine Optimizatin (SEO) αναφέρεται στην διαδικασία βελτιποίησης μιας ιστοσελίδας προκειμένου να επιτευχθεί καλύτερη συνεργασία με τις μηχανές αναζήτησης και τα directries. Η διαδικασία αυτή πρέπει να ξεκινήσει πριν ακόμα σχεδιάσουμε την ιστοσελίδα και όχι αφού έχουμε τελειώσεις το σχεδιασμό. Αν αποφασίσουμε να σκεφτούμε το θέμα των μηχανών αναζήτησης εκ των υστέρων τότε θα αντιμετωπίσουμε πολλά προβλήματα και κατά 90 τοις εκατό θα αναγκαστούμε να κάνουμε αλλαγές που απαιτούν χρόνο και χρήμα. Δουλεύοντας συστηματικά με βάση τους κανόνες που θέτουν οι μηχανές αναζήτησης μπορούμε να επιτύχουμε θεαματικά αποτελέσματα, πολλές φορές χωρίς να χρειαστεί να ξοδέψουμε παραπάνω χρήματα για μια καλύτερη κατάταξη στις μηχανές. Έχοντας υπόψη τα θέματα του SEO, ξεκινάμε να σχεδιάζουμε τις ιστοσελίδες μας αποφεύγοντας σχεδιαστικά μοτίβα που εμπόδιζαν αυτό που αναφέρεται ως Search Engine Visibility και σημαίνει το πόσο «ορατή» είναι η σελίδα από τις μηχανές αναζήτησης. Πέρα από τις τεχνικές προδιαγραφές, θέματα όπως το σωστό, λειτουργικό και σταθερό design, η ευκολία πλοήγησης, η ευκολία εύρεσης των περιεχομένων σε μια ιστοσελίδα και η αναγνωσιμότητα αποτελούν σημαντικούς παράγοντες επιτυχίας ειδικά στα directries όπου η αξιολόγηση γίνεται από ανθρώπινο δυναμικό. Ο όρος SEO δεν αφορά μόνο την βελτιοποίηση μιας ιστοσελίδας σε σχέση με το σχεδιαστικό μέρος αλλά καλύπτει και θέματα προώθησης στις μηχανές αναζήτησης, αύξησης της δημοτικότητας του site καθώς και 33

ανάλυση και παρακολούθηση των στατιστικών της ιστοσελίδας με σκοπό την συνεχή βελτίωση της απόδοσης της. Δεν υπάρχει κάποιος τρόπος που μπορεί να δώσει 100% κατάταξη στις πρώτες θέσεις. Οι αλγόριθμοι αξιολόγησης των μηχανών αναζήτηση διαφέρουν από μηχανή σε μηχανή, κρατούνται μυστικοί και επιπλέον τροποποιούνται συνεχώς. Είναι δυνατόν να έχουμε επιτύχει μια καλή κατάταξη της ιστοσελίδας μας σε μια μηχανή και όχι τόσο καλή σε μια άλλη. Είναι επίσης δυνατό να είχαμε μια καλή κατάταξη στο παρελθόν και μετά από λίγο καιρό, και εφόσον η μηχανή τροποποίησε αρκετά τον αλγόριθμο της, η κατάταξη της ιστοσελίδας μας να χειροτερέψει χωρίς εμείς να έχουμε αλλάξει κάτι. Η διατήρηση μιας καλής θέσης στα αποτελέσματα όπως και η βελτίωση της κατάταξης ενός δικτυακού τόπου αποτελεί έναν διαρκή αγώνα, μια προσπάθεια που δεν σταματά εφόσον τα δεδομένα μεταβάλλονται συνεχώς. Ωστόσο, μια σωστή σχεδιαστική στρατηγική με βάση τους κανόνες του SEO διευκολύνει σημαντικά αυτή τη διαδικασία. Στη συνέχεια θα αναφερθούν αναλυτικά στα σημεία που πλαισιώνουν έναν επιτυχή SEO σχεδιασμό μιας ιστοσελίδας. 1. Keywrd Optimizatin, δημιουργία λίστας δημοφιλών λέξεων και φράσεων κλειδιών που αφορούν τη σελίδα μας. 2. Design Optimizatin, ενσωμάτωση των keywrd στα σωστά σημεία της html για αποτελεσματική συνεργασία με τις μηχανές αναζήτησης. Επίσης, σχεδιασμός της ιστοσελίδας με βάση τους κανόνες του HCI (Human Cmputer Ιnteractin), ώστε να πληρεί τις προϋποθέσεις του σωστού και λειτουργικού Design. 3. Search Engine & Directry Submissin, σωστή καταχώρηση της ιστοσελίδας στις μηχανές αναζήτησης και στα directries. 34

6.2 KEYWORD OPTIMIZATION Τα πρώτα βήματα στο σχεδιασμό μιας ιστοσελίδας Αναλαμβάνοντας το σχεδιασμό μιας ιστοσελίδας έχουμε μια γενική ιδέα για το περιεχόμενο της. Γνωρίζουμε από τη συζήτηση με τον πελάτη και από την εξέταση του υλικού, σε ποιόν αναφέρεται η ιστοσελίδα και τι θέλει να προβάλει. Ξεκινώντας τη διαδικασία ανάπτυξης της ιστοσελίδας είναι απαραίτητο να σκεφτούμε κάποιες λέξεις ή κάποιον συνδυασμό λέξεων που περιγράφουν καλύτερα αυτό που ο πελάτης θέλει να προωθήσει μέσα από την ιστοσελίδα του. Όμως δεν αρκεί να αντιμετωπίσουμε απλώς αυτές τις λέξεις-κλειδιά πρέπει επίσης να σκεφτούμε πως ο ενδιαφερόμενος χρήστης θα έψαχνε σε μια μηχανή αναζήτησης για να εντοπίσει ιστοσελίδες σχετικές με το θέμα αυτό. Επομένως, δεν αρκεί μόνο να σκεφτούμε ποιες λέξεις ή συνδυασμοί λέξεων περιγράφουν καλύτερα την υπηρεσία που προσφέρει ο πελάτης μας, αλλά οι λέξεις αυτές θα πρέπει να συμπίπτουν με εκείνες που ο κοινός χρήστης θα χρησιμοποιούσε σε μια εύρεση. Επίσης αφού ολοκληρώσουμε την έρευνα μας πάνω στις λέξεις κλειδιά που περιγράφουν καλύτερα το θέμα μας και που συγχρόνως συμπίπτουν με τις λέξει τις οποίες θα χρησιμοποιούσε ο κοινός χρήστης, θα πρέπει να εξετάσουμε παρεμφερείς λέξεις ή συνδυασμούς λέξεων που δεν έχουν μεν σκεφτεί αλλά που αποτελούν δημοφιλείς προορισμούς ευρέσεων. Εντοπίζουμε λοιπόν τις λέξεις-κλειδιά με τους εξής τρόπους: Α. Συζητήσαμε με τον πελάτη μας. Φροντίζουμε μέσα από τη συζήτηση να κατανοήσουμε ακριβώς τις υπηρεσίες που παρέχει και, το πιο σημαντικό, τις υπηρεσίες που ενδιαφέρεται να προωθήσει περισσότερο. 35

Ακούμε προσεκτικά αυτά που λέει, τον τρόπο με τον οποίο αναφέρεται στις υπηρεσίες του, τις λέξεις και την ορολογία που χρησιμοποιεί. Καλό θα ήταν να ρίξουμε και μια ματιά και στα διαφημιστικά του, αν υπάρχουν. Με αυτόν τον τρόπο θα μας δοθεί η ευκαιρία να καταλάβουμε ποιες λέξει αναφέρονται πιο συχνά και σε τι μορφή, διαμορφώνοντας έτσι μια λίστα με τις λέξεις ή τις φράσεις που θα χρησιμοποιήσουμε. Β. Συζητήσανε με φίλους και γνωστούς ή με ανθρώπους του χώρου στον οποίο δραστηριοποιείται ο πελάτης. Τους ζητάμε να μας υποδείξουν τον τρόπο με τον οποίο αυτοί θα έψαχναν για μια τέτοια εταιρεία. Ποιες λέξεις-κλειδιά θα πληκτρολογούσαν σε μια μηχανή αναζήτησης, με ποια σειρά, σε ποιόν αριθμό, ενικό ή πληθυντικό; Παραδείγματος χάριν, αν ο πελάτης μας έχει μια σχολή οδηγών, τι θα πληκτρολογούσε ο ενδιαφερόμενος χρήστης, «σχολή οδηγών» ή «σχολές οδηγών»; Αν έψαχνε ενοικιαζόμενα δωμάτια στην Κέρκυρα τι θα πληκτρολογούσε «Κέρκυρα ενοικιαζόμενα δωμάτια» ή «δωμάτια ενοικιαζόμενα στην Κέρκυρα» ή μήπως «Κέρκυρα ενοικιαζόμενα δωμάτια» χωρίς τόνους; Είναι σημαντικό να συλλάβουμε πως κινείται ο κοινός νους, ώστε να εντάξουμε στην ιστοσελίδα τις πιο δημοφιλές λέξεις-κλειδιά. Αν καταφέρουμε να ενσωματώσουμε στα σημαντικά σημεία της html τις πιο δημοφιλές λέξεις και φράσεις, τότε είναι σίγουρο ότι θα έχουμε ένα καλό αποτέλεσμα στην κατάταξη. Εμπλουτίζουμε λοιπόν και τροποποιούμε τη λίστα με τις λέξεις και φράσεις που έχουμε αρχικά δημιουργήσει, αφαιρούμε και προσθέτουμε ανάλογα με αυτά που προέκυψαν από την έρευνα μας με τους δυνητικούς χρήστες. Γ. έχοντας υπόψη τις λέξεις και φράσεις από τα προηγούμενα βήματα, ήρθε η ώρα να κάνουμε κι εμείς μια βόλτα στις μηχανές αναζήτησης. Εντοπίζουμε ανταγωνιστικές εταιρείες στο διαδίκτυο και βλέπουμε πως είναι δουλεμένες, τι λέξεις χρησιμοποιούν στα κείμενα, πως 36

έχουν διαμορφώσει το Meta Tags, ποιες επιπλέον πληροφορίες παρέχουν. Παρατηρούμε το κείμενο στο Title bar του Brwser, ποιες λέξεις έχουν τονίσει με bld και σε τι έχουν χρησιμοποιήσει Headings. Δ. Γνωρίζοντας πλέον πως περίπου κινούνται οι άλλοι, θα πρέπει να σκεφτούμε κάποια επιπλέον θέματα που θα μπορούσαμε να χρησιμοποιήσουμε χωρίς να σχετίζονται άμεσα με τις υπηρεσίες που παρέχει ο πελάτης. Αν, για παράδειγμα, ο πελάτης μας πουλά είδη ξιφασκίας, θα ήταν καλό να εντάξουμε και κάποια πληροφοριακή σελίδα για την ξιφασκία γενικότερα, για τους κανόνες του αθλήματος, για τα είδη των ξιφών, για την πορεία του αθλήματος, για τους συλλόγους που υπάρχουν στην Ελλάδα. Αυτές οι ενότητες δεν αφορούν άμεσα το κατάστημα, παρόλα αυτά ο χρήστης που θέλει να μάθει κάτι για την ξιφασκία θα εντοπίσει την ιστοσελίδα του καταστήματος χάρη σε αυτές τις βοηθητικές-πληροφοριακές σελίδες, έτσι και τις πληροφορίες του θα πάρει και το κατάστημα θα γνωρίσει, και θα το έχει υπόψη για ό,τι σχετικό χρειαστεί στο μέλλον. Εντάσσοντας κάποιο επιπλέον υλικό επιτυγχάνουμε τα εξής θετικά: 1. αυξάνουμε την επισκεψιμότητα, επομένως και τη δημοτικότητα του site, κάτι που αποτελεί θετικό κριτήριο κατάταξης για τους αλγόριθμους των μηχανών αναζήτησης. 2. Διευρύνουμε το πελατολόγιο μας. 3. Μεταβάλλουμε τη σελίδα μας από καθαρά εμπορική (cmmercial) σε επίσης μη κερδοσκοπική (nn- cmmercial). Αυτό σημαίνει ότι κάποια directries ίσως δεχθούν να καταχωρίσουν την ιστοσελίδα δωρεάν στον κατάλογο τους, θεωρώντας ότι αυτός ο δικτυακός τόπος παρέχει στο κοινό χρήσιμες πληροφορίες για ένα θέμα μη κερδοσκοπικού χαρακτήρα. Ορισμένα directries, όπως το Yah!, δέχονται να καταχωρίσουν δωρεάν μόνο μη κερδοσκοπικές 37

ιστοσελίδες, ενώ για να καταχωρηθεί μια εμπορική ιστοσελίδα απαιτείται ένα χρηματικό ποσό. Επίσης τα directries συνήθως καταχωρούν μόνο το dmain name μιας ιστοσελίδας κι αυτό μόνο σε κατηγορία. Αν για παράδειγμα, θέλουμε να καταχωρήσουμε σε ένα directry μια εταιρεία με dmain name «www.cretarent.gr» η οποία ενοικιάζει δωμάτια στην Κρήτη αλλά παράλληλα ενοικιάζει και αυτοκίνητα, θα πρέπει υποχρεωτικά να διαλέξουν σε ποια κατηγορία του directry θα καταχωρηθεί ο τόπος «Κρήτη>τουρισμός>ενοικιαζόμενα δωμάτια» ή στο «Κρήτη >επιχειρήσεις>rent a car», αν υπάρχουν αυτές οι κατηγορίες. Υπάρχει μόνο μία περίπτωση όπου θα μπορούσαμε να καταχωρήσουμε σε παραπάνω από μια κατηγορίες μέρη της ίδιας ιστοσελίδας: αν, για παράδειγμα το «www.cretarent.gr/cretaisland.html» αφορούσε πληροφορίες για το νησί της Κρήτης, θα μπορούσαμε εκτός από την καταχώρηση «www.cretarent,gr» στην κατηγορία «Κρήτη>τουρισμός> ενοικιαζόμενα δωμάτια» να πραγματοποιήσουμε και την καταχώρηση του «www.cretarent,gr/cretaisland.html» σε μια άλλη, δεύτερη κατηγορία με θέμα «Κρήτη>πληροφορίες», αν υπάρχει μιας τέτοια γενική κατηγορία. Το κέρδος μιας τέτοιας κίνησης είναι μεγάλο, γιατί αυξάνονται οι πιθανότητες να εντοπιστεί η ιστοσελίδα μας σε μια αναζήτηση. Αν σκεφτούμε ότι πολλές μηχανές αντλούν αποτελέσματα από directries, το Ggle αντλούσε δεδομένα από το directry της Yah! Για παράδειγμα, είναι βασικό να καταχωρήσουμε όσο το δυνατόν πιο αποτελεσματικά την ιστοσελίδα μας στα directries. Ε, Ένα θέμα που επίσης πρέπει να λάβουμε υπόψη είναι η περίπτωση του «δημοφιλούς λάθους» αν μπορούμε να το ονομάσουμε έτσι. Πολλές φορές οι χρήστες από άγνοια ή από λάθος ανορθόγραφα κάποιες λέξεις αναζήτησης. Η λέξη «cheap» χρησιμοποιείται πάντα σωστά ή μήπως πρέπει να εξετάσουμε και την περίπτωση του «cheep» μήπως 38

κάποιες λέξεις είναι πιο δημοφιλής γραμμένες λάθος. Σε αυτήν την περίπτωση, και εφόσον το ζητούμενο είναι να συμπεριλαμβάνουμε τις πιο δημοφιλής λέξεις-κλειδιά θα πρέπει να εντάξουμε και αυτές στη λίστα μας, χωρίς να το παρακάνουμε όμως. Χρησιμοποιήστε αυτήν την τακτική μόνο όταν είστε σίγουρη ότι μια ανορθόγραφα πληκτρολογημένη λέξη είναι πραγματικά δημοφιλής. Είναι σημαντικό να πετύχουμε τις λέξεις που θα χρησιμοποιούσε ένας χρήστης σε μια αναζήτηση. Οι μηχανές αναζήτησης εντοπίζουν τους ενεργούς δικτυακούς τόπους που υπάρχουν στο Ίντερνετ μέσω ειδικών προγραμμάτων, των spiders ή rbts. Τα directries είναι human-based, δηλαδή εντοπίζουν και αρχειοθετούν τις ιστοσελίδες βασιζόμενο σε ανθρώπινο δυναμικό. Και οι μηχανές αναζήτησης αλλά και τα directries στη συνέχεια προσθέτουν στη βάση δεδομένων τους, οι μεν μηχανές αναζήτησης ένα αντίγραφο των ιστοσελίδων, τα δε directries τα στοιχεία που λαμβάνουν από εμάς όταν συμπληρώνουμε τη φόρμα καταχώρησης που συνήθως είναι η περιγραφή του τόπου, ο τίτλος και ίσως κάποια keywrds. Ωστόσο ο χρήστης πληκτρολογεί κάποια keywrds στο πεδίο αναζήτησης, ο «query prcessr» αναλαμβάνει να εντοπίσει σε ποιες εγγραφές στη βάση δεδομένων απαντώνται αυτά τα keywrds, είναι φυσικό να δώσει καλύτερη κατάταξη στις ιστοσελίδες στις οποίες εντόπισε τα keywrds ακριβώς όπως τα πληκτρολόγησε ο χρήστης και χειρότερη σε εκείνες των οποίων τα keywrds δεν ταιριάζουν ακριβώς με την αναζήτηση. Αν, για παράδειγμα κάποιος χρήστης πληκτρολογήσει «σχολές οδηγών», είναι πιο πιθανές αυτές που χρησιμοποιούν τον όρο «σχολή οδηγών». Τα πράγματα βέβαια δεν είναι τόσο απλά. Σημαντικό ρόλο παίζει επίσης το που και πόσες φορές, χρησιμοποιείται στην ιστοσελίδα η φράση «σχολές οδηγών». Αν, για παράδειγμα σε μια ιστοσελίδα η φράση 39