Δικτυακά Πολυμέσα ΙΙ Διάλεξη #7 η : Μηχανές αναζήτησης: λειτουργία, αξιολόγηση. Γαβαλάς Δαμιανός

Σχετικά έγγραφα
Γαβαλάς Δαμιανός

Πώς λειτουργεί το Google?

Ο αλγόριθμος PageRank της Google

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

SEO ΓΙΑ ΜΙΑ ΘΕΣΗ ΣΤHΝ GOOGLE

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

Social Web: lesson #4

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Πληροφορική Ι. Ενότητα 11 : Ο αλγόριθμος PageRank της Google. Δρ.

interactivecommunication Search Marketing White Paper Φεβρουάριος , Cybertechnics Ltd. All rights reserved.

ΠΑΡΟΥΣΙΑΣΗ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΙΣΤΟΣΕΛΙΔΩΝ ΓΙΑ ΤΙΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ, ΠΟΙΟΤΙΚΗ ΕΡΕΥΝΑ ΣΕ ΕΙΔΙΚΟΥΣ SEO

Τα είδη των ιστοσελίδων. Web Sites E-commerce Sites CMS & Blog Sites CMS Flash Facebook Layouts Tumblr Themes

Search Engine Optimization (SEO) Τεχνικές βελτίωσης κατάταξης ιστοσελίδων για τις μηχανές αναζήτησης

Οικονομική Προσφορά Προώθηση ιστοσελίδας

ΔΙΑΔΙΚΤΥΑΚΗ ΠΡΟΒΟΛΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ

DIGITAL MARKETING. ΠΩΣ τα αξιοποιείτε και ΠΟΙΟΣ τα λειτουργεί;

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Εισαγωγή στα Μέσα Κοινωνικής Δικτύωσης

Vodafone Business Connect

Δημιουργία μιας επιτυχημένης παρουσίας στο διαδίκτυο

Εισαγωγη στην html. Η δομή μιας ιστοσελίδας (αρχείο html) Η βασική δομή ενός αρχείου html είναι η εξής: <html> <head>

Γαβαλάς Δαμιανός

Web Sites Το τρίπτυχο της επιτυχίας

Internet Marketing

ΕΓΧΕΙΡΙΔΙΟ ΟΡΘΩΝ ΠΡΑΚΤΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΕΣ ΚΑΜΠΑΝΙΕΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ

Βελτίωση της θέσης της ιστοσελίδας στις μηχανές αναζήτησης

Αναζήτηση Πληροφοριών στο Διαδίκτυο

EBSCOhost Research Databases

Liveschool Marketing Services

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του

INTERNET MARKETING. Προώθηση και Διαφήμιση στο Διαδίκτυο. Β Ο/Δ Ειδική Θεματική Δραστηριότητα Σχ. Έτος

Παρακολούθηση και βελτιστοποίηση της επισκεψιμότητας ενός δικτυακού τόπου

Αξιολόγηση Ιστοσελίδων. Εργασία. Χαράλαμπος Κουτσουρελάκης

Αυτόματο Σύστημα Εύρεσης και Κατηγοριοποίησης Ευκαιριών Εργασίας Μηχανικών (ΕΥΡΗΚΑ)

Εφαρμογή Ηλεκτρονικής Διαχείρισης Μετεγγραφών

Διαδικτυακές Υπηρεσίες Αναζήτησης, Απεικόνισης και Απευθείας Πρόσβασης στα δεδομένα ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ. Έκδοση 0.1.

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΙΣΤΟΤΟΠΩΝ

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

Το διαδίκτυο στην υπηρεσία µιας επιχείρησης. Χρήση διαδικτύου & socialmedia ως εργαλεία διαφήµισης χαµηλού κόστους

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

Πληροφορική Τμήμα Σχεδιασμού & Τεχνολογίας Ξύλου & Επίπλου Αντώνιος Καραγεώργος Ευανθία Τσιλιχρήστου. Μάθημα 5 ο Τεχνολογίες Διαδικτύου: HTML I

Μελέτη Περίπτωσης (case study) spitishop.gr

Ως Διαδίκτυο (Internet) ορίζεται το παγκόσμιο (διεθνές) δίκτυο ηλεκτρονικών υπολογιστών (international network).

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Διπλωματική Εργασία

Οργάνωση περιεχομένου σε ενότητες και κατηγορίες

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

Search Engine Marketing

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών ΑΕΙ

Σύστημα Κεντρικής Υποστήριξης της Πρακτικής Άσκησης Φοιτητών Α.Ε.Ι.

ΚΑΤΑΣΚΕΥΗ ΗΛΕΚΤΡΟΝΙΚΟΥ ΚΑΤΑΣΤΗΜΑΤΟΣ [e-shop] 1. Επιλογή προτύπου 2. Δοκιμή σε πραγματικό χρόνο 3. Αγορά

Εθνική Υποδομή ΓΕωχωρικών Πληροφοριών

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

checklist 1/2 ebook 12 Βήματα για να Αυξήσετε την Eπισκεψιμότητα του Website σας!

Ποια cookies χρησιμοποιούμε στον ιστότοπό μας;

Εργαλεία ελέγχου περιεχοµένου δικτυακών τόπων

Ηλεκτρονικό εμπόριο. HE5 Ηλεκτρονικό κατάστημα Σχεδιασμός και λειτουργίες

Προσωπικά δεδομένα στο Διαδίκτυο: Τα δικαιώματα & οι υποχρεώσεις μας

Οδηγός δημιουργίας καμπάνιας Pops / Interstitial Εισαγωγή:

Εγχειρίδιο Επιμελητή Δράσεων. (Υπηρεσία Ενημέρωσης για Εκπαιδευτικές και Πολιτισμικές Δράσεις)

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

φιλοξενία & διαχείριση ιστοσελίδων

Παγκόσμιος ιστός και Internet συχνά θεωρούνται το ίδιο πράγμα. Η αντίληψη αυτή είναι λανθασμένη καθώς ο ιστός αποτελεί μία μόνο εφαρμογή του

18α γενέθλια της Google

Wilson Web Art Databases, H.W. Wilson

TEC410 Ανάπτυξη Δικτυακών Τόπων (Δ εξάμηνο) Διδάσκων: Ανδρέας Γιαννακουλόπουλος Επιστημονικός συνεργάτης Εργαστηρίου: Στέλλα Λάμπουρα

Γαβαλάς αµιανός

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Βασικές Υπηρεσίες Διαδικτύου. Επικοινωνίες Δεδομένων Μάθημα 2 ο

Η αρχική οθόνη της Ηλεκτρονικής Βιβλιοθήκης περιλαμβάνει τις εξής βασικές ενότητες όπως φαίνονται στην Εικόνα 1:

(SEO) - Ανοίγοντας τους ορίζοντες τις ΜΜΕ Ελληνικής τουριστικής επιχείρησης στο ιαδίκτυο

Προηγμένο SEO & Διαδικτυακό Μάρκετινγκ

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ήλωση προστασίας δεδοµένων προσωπικού χαρακτήρα της «unitedprint.com Hellas Ε.Π.Ε..»

Δικτυακοί τόποι. Η σχεδίαση ενός δικτυακού τόπου. Δρ. Ματθαίος Α. Πατρινόπουλος

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Τι είναι ένα σύστημα διαχείρισης περιεχομένου; δυναμικό περιεχόμενο

Ο νέος, διαφορετικός τρόπος να βρίσκεις προσωπικό.

SilverPlatter WebSPIRS 4.1.

Διαφάνεια 9.1. Κεφάλαιο 9 Διαχείριση των σχέσεων με τους πελάτες

Μέρος 3 ο : Βασικές Έννοιες για δυναμικές ιστοσελίδες

Φύλλο Εργασίας Μαθητή Τίτλος: Γίνομαι Ερευνητής/Ερευνήτρια

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας.

πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι.

ΤΕΧΝΟΛΟΓΙΕΣ ΣΧΕΔΙΑΣΗΣ ΔΙΑΔΙΚΤΥΑΚΟΥ ΤΟΠΟΥ (Web Site Design Technologies)

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Χαρακτηριστικά ιστοσελίδας

Ημερομηνία Παράδοσης: 4/4/2013

Εισαγωγή στον Παγκόσμιο ιστό και στη γλώσσα Html. Χρ. Ηλιούδης

ΕΡΓΑΣΙΑ. (στο μάθημα: Τεχνολογίες Εφαρμογών Διαδικτύου του Η εξαμήνου σπουδών του Τμήματος Πληροφορικής & Τηλ/νιών)

ICOP - ΥΠΗΡΕΣΙΕΣ INTERNET-WEBSOLUTIONS ΠΡΟΤΑΣΗ-ΑΝΑΘΕΣΗ ΕΡΓΟΥ

Πανεπιστήμιο Αιγαίου Σχολή Κοινωνικών Επιστημών Τμήμα Πολιτισμικής Τεχνολογίας Και Επικοινωνίας

Το διαδίκτυο είναι ένα δίκτυο που αποτελείτε από πολλά μικρότερα δίκτυα υπολογιστών.

Transcript:

Δικτυακά Πολυμέσα ΙΙ Διάλεξη #7 η : Μηχανές αναζήτησης: λειτουργία, αξιολόγηση Γαβαλάς Δαμιανός dgavalas@aegean.gr 1

Πως οι χρήστες εντοπίζουν ιστοσελίδες στο web; Tα ποσοστά συμμετοχής των μηχανών αναζήτησης στον εντοπισμό πληροφοριών ολοένα μεγαλώνει Είδη μηχανών αναζήτησης Με βάση το περιεχόμενο αναζήτησης : Γενικού ενδιαφέροντος Στοχευμένες Με βάση τα αποτελέσματα που δίνουν στο χρήστη : Πρώτης γενιάς Δύ Δεύτερης γενιάς Τρίτης γενιάς Τέλος, μια άλλη ξεχωριστή κατηγορία των μηχανών αναζήτησης, είναι οι Μεταμηχανές 2

Στοχευμένες και γενικού ενδιαφέροντος μηχανές αναζήτησης Οι στοχευμένες μηχανές αναζήτησης, επικεντρώνονται σε συγκεκριμένα θέματα. Προσπαθούν να βρουν και να καταγράψουν όσες περισσότερες ιστοσελίδες μπορούν για μια συγκεκριμένη θεματική, επισκεπτόμενες ένα περιορισμένο αριθμό δικτυακών τόπων που καλύπτουν το συγκεκριμένο θέμα. Οι γενικού ενδιαφέροντος σε αντίθεση με τις στοχευμένες, προσπαθούν να καταγράψουν όσο το δυνατόν μεγαλύτερο τμήμα των ιστοσελίδων του διαδικτύου, ανεξαρτήτως θεματικής. Πρώτης και δεύτερης γενιάς Πρώτης γενιάς: συσχετίζουν και παρουσιάζουν τα αποτελέσματα, με βάση το ποσοστό συνάφειας τους Εστιάζουν στο περιεχόμενο των σελίδων για να καθορίσουν τη σειρά παρουσίασης (ranking) Δεύτερης γενιάς: μηχανές αναζήτησης που μπορούν να παρουσιάσουν και να ιεραρχήσουν τα αποτελέσματα με ποικίλους τρόπους. Σύμφωνα με το τύπο ή το είδος των τεκμηρίων, η ακόμα και να δεχτούν ερωτήσεις σε φυσική γλώσσα, δίνοντας αποτελέσματα που έχουν καθοριστεί εκ των πρότερων Συνήθως εστιάζουν στην ανάλυση των links άλλων ιστοσελίδων Τρίτης γενιάς: μηχανές αναζήτησης που λαμβάνουν υπόψη τις προτιμήσεις των χρηστών (π.χ. Clicks χρηστών πάνω σε συγκεκριμένα αποτελέσματα μπορεί να ανεβάσει το ranking των τελευταίων) 3

Μεταμηχανές (metaengines) Οι μετά μηχανές δεν διαθέτουν δικό τους ευρετήριο, αλλά αντλούν τα αποτελέσματα τους από τα ευρετήρια άλλων μηχανών αναζήτησης. Έτσι σε κάθε αναζήτηση που γίνεται, στέλνουν τις λέξεις κλειδιά ταυτοχρόνως σε μια σειρά προκαθορισμένων υπηρεσιών αναζήτησης. Ο μηχανισμός αναζήτησης, παραμένει λίγο χρόνο στο ευρετήριο κάθε βάσης και επιστρέφει ένα συγκεκριμένο ποσοστό των αποτελεσμάτων (συχνά μόνο το 10%) από κάθε βάση. Σημασία των μηχανών αναζήτησης Μηχανές αναζήτησης: Εργαλεία που χρησιμοποιούνται για τον εντοπισμό πληροφορίας στον παγκόσμιο ιστό Χρησιμοποιούν λέξεις κλειδιά (Keywords) με boolean λογική για να επιστρέψουν λίστα web ιστοσελίδων που περιέχουν την πληροφορία που αναζητείται Οι περισσότερες επισκέψεις σε web site ηλεκτρονικών επιχειρήσεων προέρχονται από αναζητήσεις που κάνουν οι υποψήφιοι πελάτες στο διαδίκτυο Οι περισσότεροι χρήστες δεν βλέπουν καν τη 2η σελίδα των αποτελεσμάτων που επιστρέφει η μηχανή αναζήτησης Πολύ σημαντικός παράγοντας για μια επιχείρηση να ιεραρχηθεί / καταταχθεί ψηλότερα από τους ανταγωνιστές της (highest ranking) στα αποτελέσματα που επιστρέφουν οι μηχανές αναζήτησης 4

Μηχανές αναζήτησης: πως δουλεύουν Για τον εντοπισμό ιστοσελίδων χρησιμοποιούν δύο μηχανισμούς: Με άμεση προσθήκη μιας URL διεύθυνσης από το διαχειριστή της, π.χ. www.google.com/addurl.html Ειδικό λογισμικό ( αράχνες ) που ερευνούν συστηματικά και αυτοματοποιημένα το διαδίκτυο εντοπίζοντας νέες, διαγραμμένες ή ενημερωμένες σελίδες Οι ιστοσελίδες που ανακαλύπτονται από τις αράχνες αποθηκεύονται σε βάσεις δεδομένες της μηχανής αναζήτησης και καταλογοποιούνται Δημιουργείται δηλαδή ένα ευρετήριο (κατάλογος) των αποθηκευμένων σελίδων έτσι ώστε η μηχανή αναζήτησης να επιταχύνει τον εντοπισμό και ανάκτηση της σελίδας που περιέχει τα keywords που εισάγει ο χρήστης Μηχανές αναζήτησης: ευρετήρια λέξη-κλειδί έγγραφο:θέση; έγγραφο:θέση;... σκύλος 5:7; 8:1; 12:3 τσάντα 1:3; 7:9 βιβλίο 2:9; 12:15; 32:4 5

Tα μέρη μιας μηχανής αναζήτησης: οι αράχνες Οι αράχνες (crawlers ή spiders ή robots ή bots) δεν ταξιδεύουν στο web, αλλά «κατεβάζουν» τις σελίδες και τις διαβιβάζουν στο μηχανισμό ευρετηρίου Χρησιμοποιούν την ύπαρξη συνδέσμων (links) στις ιστοσελίδες: για κάθε σελίδα που κατεβάζουν, εντοπίζουν τους συνδέσμους της και τους ακολουθούν κατεβάζοντας και τις σελίδες στις οποίες «δείχνουν» οι σύνδεσμοι αυτοί Πρέπει να αποφεύγουν την επανα πρόσβαση στις σελίδες που έχουν ήδη κατεβάσει Κακά προγραμματισμένες αράχνες μπορεί να κατακλύσουν έναν web server με εκατομμύρια αιτήσεις ώστε να μην μπορούν να εξυπηρετήσουν τους επισκέπτες τους Θεωρητικά δεν μπορούν να ανακαλύψουν σελίδες που ανήκουν στο αόρατο web (invisible web) Αλγόριθμος μιας απλής αράχνης Initialize: UrlsDone =;UrlsTodo ={ firstsite firstsite_seed.htm seed htm, secondsite_seed.htm seed htm..} Repeat: url = UrlsTodo.getNext() ip = DNSlookup( url.gethostname() ) html = DownloadPage( ip, url.getpath() ) UrlsDone.insert( url ) newurls = parseforlinks( html ) For each newurl If not UrlsDone.contains( newurl ) then UrlsTodo.insert( newurl ) 6

Tα μέρη μιας μηχανής αναζήτησης: μηχανισμός ευρετηρίου (indexing mechanism) Όταν η αράχνη επισκέπτεται μια ιστοσελίδα, την παραδίδει στο μηχανισμό ευρετηρίου που αποθηκεύει το πλήρες κείμενο της σελίδας στη βάση δεδομένων της μηχανής αναζήτησης Καταλογοποιούνται οι λέξεις που περιέχονται στην αποθηκευμένη σελίδα και ενημερώνεται το ευρετήριο (περιέχει ρ χ τις λέξεις, λίστα με ιστοσελίδες που την περιέχουν, πιθανόν και την ακριβή θέση της λέξης μέσα στις ιστοσελίδες Απαλείφονται από το ευρετήριο συνηθισμένες λέξεις (άρθρα, σημεία στίξης,...) Tα μέρη μιας μηχανής αναζήτησης: μηχανισμός αναζήτησης Ο μηχανισμός αναζήτησης περιλαμβάνει τμήματα όπως: Διεπαφή χρήστη (φόρμα αναζήτησης) ) Μηχανισμό που αξιολογεί το ερώτημα και μέσω του ευρετηρίου εντοπίζει τις πιο σχετικές ιστοσελίδες στη βάση δεδομένων της μηχανής αναζήτησης Μορφοποιητή αποτελεσμάτων που μορφοποιεί τις πιο συναφείς ιστοσελίδες και τις επιστρέφει στον browser του χρήστη υπό μορφή συνδέσμων (links προς τις πραγματικές σελίδες) 7

Μηχανές αναζήτησης: λειτουργία αναζήτησης Χρήστης Ιστοσελίδα μηχανής Αποτελέσματα αναζήτησης Ιστοσελίδες Μηχανισμός αναζήτησης Μηχανή ευρετηρίου Ευρετήριο (index) Κριτήρια ιεράρχησης αποτελεσμάτων από μηχανές αναζήτησης Οι μηχανές αναζήτησης ιεραρχούν τα αποτελέσματα που επιστρέφουν υπολογίζοντας τη συνάφεια βάσει κάποιου αλγορίθμου Η λειτουργία αυτών των αλγορίθμων είναι εμπορικό μυστικό Κριτήρια ιεράρχησης Συχνότητα των keywords μέσα σε μια ιστοσελίδα Ο όρος που αναζητείται περιέχεται στον τίτλο, στην πρώτη επικεφαλίδα, στην πρώτη παράγραφο, κλπ HTML meta tags <META name="keywords" content="html, tutorial, learn, make, create, design, web page, εγχειρίδιο, ιστοσελίδες, writing, form, tables, frames"> Δεν εξασφαλίζουν υψηλή ιεράρχηση αφού έχουν χρησιμοποιηθεί με αθέμιτο τρόπο (spamdexing ή spoofing) 8

Κριτήρια ιεράρχησης αποτελεσμάτων από μηχανές αναζήτησης Κριτήρια ιεράρχησης Δημοτικότητα μιας ιστοσελίδας (πόσες επισκέψεις δέχεται για μια συγκεκριμένη αναζήτηση η Ανάλογα με το ποιες σελίδες «δείχνουν» σε μια σελίδα (αυτό δηλώνει και το θέμα της σελίδας στόχου ) Στατιστική σύγκριση μηχανών αναζήτησης: εκτίμηση συνολικού μεγέθους Πόσες σελίδες ιστοσελίδες έχουν καταλογοποιηθεί και περιλαμβάνονται στις βάσεις δεδομένων των μηχανών αναζήτησης Πηγή: http://www.searchengineshowdown.com 9

Στατιστική σύγκριση μηχανών αναζήτησης: σύγκριση σχετικού μεγέθους Πόσες σελίδες βρέθηκαν σε 25 αναζητήσεις keywords μίας μόνο λέξης Πηγή: http://www.searchengineshowdown.com Στατιστική σύγκριση μηχανών αναζήτησης: σύγκριση ρυθμών αύξησης μεγέθους Με ποιους ρυθμούς αυξάνεται ο αριθμός των σελίδων που περιλαμβάνονται στις βάσεις δεδομένων των μηχανών αναζήτησης Πηγή: http://www.searchengineshowdown.com 10

Στατιστική σύγκριση μηχανών αναζήτησης: πόσο φρέσκα είναι τα νέα (συχνότητα ανανέωσης) Όλες οι μηχανές αναζήτησης μας δίνουν εικόνες του παρελθόντος (ακόμα κι αν «κατεβάσουμε» σήμερα τις σελίδες μας, αυτές θα εξακολουθήσουν να βρίσκονται όταν αναζητούνται τις επόμενες εβδομάδες/μήνες) Πόσο συχνά ανανεώνουν το περιεχόμενό τους; Πηγή: http://www.searchengineshowdown.com Μηχανές αναζήτησης: Η περίπτωση του Google Πρώτο prototype στο Stanford University από τους Larry Page and Sergey Brin (1997) Η μεγαλύτερη σήμερα μηχανή αναζήτησης με πολύ υψηλά ποσοστά συνάφειας όρων αναζήτησης και αποτελεσμάτων Περισσότερες από 150 εκ αιτήσεις ημερήσια, περιλαμβάνει πάνω από 3 δις έγγραφα όλων των τύπων (.htm,.doc,.pdf,..) και 425 εκ αρχεία εικόνων Το περιβάλλον του (interface) προσφέρεται σε 35 διαφορετικές γλώσσες Χρησιμοποιεί ένα ειδικό μηχανισμό για βελτίωση των αποτελεσμάτων που επιστρέφει: Κατατάσσει ψηλά τις σελίδες στις οποίες «δείχνουν» πολλές σελίδες ή εκείνες στις οποίες «δείχνει» μια δημοφιλής σελίδα Οι λεπτομέρειες του μηχανισμού του αποτελούν εμπορικό μυστικό! 11

O αλγόριθμος PageRank της Google Το Google ερμηνεύει ένα link από μια σελίδα A προς μια σελίδα B ως μία ψήφο, της A στην B. Πέραν όμως του αριθμού ψήφων (links) προς μια σελίδα, αναλύει και τις σελίδες απ όπου προέρχονται τα links. Links από σελίδες με μεγαλύτερη «σημασία» αξιολογούνται ως πιο σημαντικά. Spamdexing Spamdexing (γνωστό και ως search spam ή search engine spam) καλείται μια διαδικασία που εμπλέκει ένα αριθμό μεθόδων με σκοπό την παραπλάνηση των μηχανών αναζήτησης και την υψηλότερη αξιολόγηση κάποιων σελίδων από αυτές Αυτή η πρακτική έλαβε μεγάλες διαστάσεις στα μέσα των 90s κάνοντας τις σημαντικότερες μηχανές αναζήτησης της εποχής λιγότερο χρήσιμες Το Google αντιμετώπισε πολλές από αυτές τις πρακτικές και έτσι έδωσε πολύ πιο αξιόπιστα αποτελέσματα στις αναζητήσεις 12

Μέθοδοι Spamdexing Πολλαπλή επανάληψη κάποιων σημαντικών λέξεων κλειδιών στο σώμα της σελίδας (keyword stuffing) ώστε να δοθεί ψευδής εικόνα συσχέτισής της με ένα συγκεκριμένο θέμα Κρυμμένο ή αόρατο κείμενο: λέξεις ή φράσεις μπορεί να κρυφθούν δίνοντάς τους ίδιο χρώμα με το χρώμα του background ή με χρήση μηδενικού πλάτους/ύψους DIVs Επανάληψη keywords στα Meta tags (Meta tag stuffing) και χρήση keywords άσχετων με το περιεχόμενο του site: αυτή η μέθοδος παραπλάνησης ηςείναι αναποτελεσματική από το 2005 Link farms: Δημιουργία «κοινοτήτων» από σελίδες με μεταξύ τους links Κρυμμένα links: τοποθέτηση αόρατων links για να αυξηθεί το link popularity (δημοφιλία) Βελτιστοποίηση για μηχανές αναζήτησης (Search Engine Optimization, SEO) Η διαδικασία βελτίωσης του όγκου και ποιότητας εισερχόμενης «κίνησης» που προέρχεται από μηχανές αναζήτησης. Ως μια Internet marketing στρατηγική, η SEO εκτιμά τον τρόπο λειτουργίας των μηχανών αναζήτησης και τι συνήθως αναζητούν οι χρήστες του web. Η βελτιστοποίηση αφορά: Επεξεργασία ξργ του HTML κώδικα (περιεχομένου) ρ χ μ ώστε να αυξηθεί η συσχέτιση της σελίδας με συγκεκριμένες αναζητήσεις (keywords) Χρήση spamdexing τεχνικών για προσέλκυση περισσότερων επισκέψεων. Φυσικά οι μηχανές αναζήτησης προσπαθούν να εντοπίσουν sites που χρησιμοποιούν τέτοιες τεχνικές ώστε να τα διαγράψουν από τα ευρετήριά τους. 13

Μηχανές αναζήτησης: Προσθήκη σελίδων και διαφημίσεων στο Google Αναζήτηση εικόνων στο web <html> <head> <title>ecommerce images</title> </head> <body> <img src="images/ecommerce.gif"> <p>bla bla bla bla</p> <p>this text is about <b>e commerce </b></p> <img src="images/ecompicn.jpg"> </body> ecompicn.jpg </html> ecommerce.gif 14

Google: αναζήτηση εικόνων Επιστρέφει thumbnails Βρίσκει όχι μόνο αρχεία εικόνων που περιέχουν το keyword που αναζητώ αλλά και εκείνες, κοντά στις οποίες υπάρχουν τα keywords (στο HTML κείμενο) Google: προβολή διαφημίσεων που ο χρήστης «θέλει να δει» Λίστα διαφημιζομένων σχετικών που προωθούν προϊόντα σχετικά με την αναζήτηση (και μάλιστα που δραστηριοποιούνται στη χώρα απ όπου προήλθε η αναζήτηση) 15

Google: εξειδικευμένη αναζήτηση Tέλος το Google, διαθέτει ένα περιβάλλον για σύνθετες αναζητήσεις, δίνοντας την δυνατότητα στον χρήστη πέρα από την εξειδικευμένη αναζήτηση συγκεκριμένων τύπων εγγράφων (format) και την δυνατότητα αναζήτησης σε μια συγκεκριμένη διαδικτυακή περιοχή (domain) ή σε μια μόνο γλώσσα. Μερίδια αγοράς των μηχανών αναζήτησης Τα ποσοστά της αγοράς που κατείχαν οι πιο δημοφιλές μηχανές αναζήτησης σύμφωνα με την comscore.com τον Ιανουάριο του 2008 φαίνονται παρακάτω: 4.9% 9.8% 22.2% 4.5% 58.8% Google Sites Yahoo! Sites Microsoft Sites AOL LLC Ask Network 16

Μερίδια αγοράς των μηχανών αναζήτησης Το Google κατέχει το μεγαλύτερο μερίδιο επισκεψιμότητας και θεωρείται η μεγαλύτερη μηχανή αναζήτησης στις μέρες μας. Σε καθημερινή βάση δέχεται περισσότερες από 180 εκατομμύρια αιτήσεις, ενώ στην βάση της έχει καταχωρημένα πάνω από 3 δισεκατομμύρια έγγραφα όλων των τύπων. Η μεγάλη επιτυχία του Google, οφείλεται στην εμφάνιση υψηλών ποσοστών συνάφειας των αποτελεσμάτων της, σε σχέση με τους όρους της αναζήτησης. Αυτό επιτυγχάνεται χρησιμοποιώντας σε μεγάλο βαθμό για την ιεράρχηση των αποτελεσμάτων, το κριτήριο της ανάλυσης υπέρ συνδέσεων (PageRank technology). Μηχανές αναζήτησης: βιβλιογραφία Βιβλιογραφία: «Έρευνα & Συλλογή Πληροφοριών στο Διαδίκτυο» (Βέγλης, Πομπόρτσης, Αβραάμ), 2004, Εκδ. Τζιόλα A. Arasu et. al. Searching the Web, ACM Trans. on Internet Technology, Vol. 1, No 1, pp. 2 43, August 2001 M.R. Henzinger, Hyperlink Analysis on the Web, IEEE Internet Computing, pp. 45 50, Jan/Feb 2001 Σύνδεσμοι www.searchenginewatch.com http://www.allsearchengines.com/ http://www.searchengineshowdown.com/ http://www.netmechanic.com/promote.htm 17