ΤΕΧΝΟΛΟΓΙΑ ΤΗΣ ΕΠΙΚΟΙΝΩΝΙΑΣ SYNTACTIC WEB ΑΝΑΓΝΩΣΤΟΠΟΥΛΟΣ ΙΩΑΝΝΗΣ. Internet Software Consortium

Σχετικά έγγραφα
πληροφορίας στον παγκόσµιο ιστό. meta-search engines) και θεµατικοί κατάλογοι.

Ανάκτηση Πληροφορίας

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Αναζήτηση Πληροφοριών στο Διαδίκτυο

Ανάκτηση πληροφορίας

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

SilverPlatter WebSPIRS 4.1.

Βασικές Υπηρεσίες Διαδικτύου. Επικοινωνίες Δεδομένων Μάθημα 2 ο

World Wide Web: Ο παγκόσµιος ιστός Πληροφοριών

Ο αλγόριθμος PageRank της Google

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

Wilson Web Art Databases, H.W. Wilson

EBSCOhost Research Databases

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Δικτυακά Πολυμέσα ΙΙ Διάλεξη #7 η : Μηχανές αναζήτησης: λειτουργία, αξιολόγηση. Γαβαλάς Δαμιανός

ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Ηλεκτρονικός Κατάλογος της Βιβλιοθήκης (OPAC)

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

Internet Τοπικό δίκτυο LAN Δίκτυο Ευρείας Περιοχής WAN Διαδίκτυο Πρόγραμμα Πλοήγησης φυλλομετρητής Πάροχοι Υπηρεσιών Internet URL HTML links

Δικτυακοί τόποι. Η σχεδίαση ενός δικτυακού τόπου. Δρ. Ματθαίος Α. Πατρινόπουλος

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Επιβλέπων Καθηγητής : Τσιαντής Λεωνίδας Φοιτητής : Μακρής Γεώργιος

Πώς λειτουργεί το Google?

Η έρευνα και το διαδίκτυο:

Διαδανεισμός, Πρωτόκολλο z39.50 Στρατηγικές αναζήτησης

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) INTERMEDIATE Υπηρεσίες Διαδικτύου ΕΚΔΟΣΗ 1.0. Διεύθυνση: Ασκληπιού 18 Τηλέφωνο:

Εγχειρίδιο Επιμελητή Δράσεων. (Υπηρεσία Ενημέρωσης για Εκπαιδευτικές και Πολιτισμικές Δράσεις)

Περιεχόμενα. Δημιουργία σύνδεσης ΤΙ ΕΙΝΑΙ ΙΣΤΟΣΕΛΙΔΕΣ ΚΑΙ ΤΙ ΤΟΠΟΘΕΣΙΕΣ ΙΣΤΟΥ Γνωριμία με μια ιστοσελίδα:... 38

ίκτυα - Internet Υπηρεσίες Internet O Παγκόσµιος Ιστός (World Wide Web) Ηλεκτρονική Αλληλογραφία ( ) Υπηρεσία FTP (File Transfer Protocol)

ΕΞΕΤΑΣΤΕΑ ΥΛΗ (SYLLABUS) INTERMEDIATE

Εισαγωγή στις ΤΠΕ ΙΙ Γιάννης Βρέλλης ΠΤΔΕ-Πανεπιστήμιο Ιωαννίνων. World Wide Web. Παγκόσμιος Ιστός

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Πληροφορική Ι. Ενότητα 11 : Ο αλγόριθμος PageRank της Google. Δρ.

ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΓΙΑ ΤΟ ΔΙΑΔΙΚΤΥΟ

Εργαλεία ανάπτυξης εφαρμογών internet Ι

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκτηση Πληροφορίας

Μελέτη περίπτωσης συστήµατος διαχείρισης οπτικοακουστικού περιεχοµένου δηµιουργηµένου από χρήστες Flickr

Microsoft Word. Δρ. Νικόλαος Σγούρος

Το διαδίκτυο είναι ένα δίκτυο που αποτελείτε από πολλά μικρότερα δίκτυα υπολογιστών.

Σεμινάριο Wordpress CMS (Δημιουργία Δυναμικών Ιστοσελίδων)

Εισαγωγή στην Επιστήμη της Πληροφορικής Εργαστήριο. Internet -

11/8/18. Κεφάλαιο 3. Συνεργασία και εργασία στο web. Χρήση του Internet: Πώς θα εκμεταλλευτούμε καλύτερα τους πόρους του web.

Ανάκτηση Πληροφορίας

Ανάπτυξη πλήρους διαδικτυακής e-commerce εφαρμογής με χρήση του CMS WordPress

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΚΕΦΑΛΑΙΟ ΟΙ ΥΠΟΛΟΓΙΣΤΕΣ ΑΠΟ ΤΗΝ ΑΡΧΑΙΟΤΗΤΑ ΜΕΧΡΙ ΣΗΜΕΡΑ Ιστορική αναδρομή Υπολογιστικές μηχανές

Εγχειρίδιο Διαχειριστή. (Υπηρεσία Ενημέρωσης για Εκπαιδευτικές και Πολιτισμικές Δράσεις)

Περιεχόμενα. Μέρος 1: Βασικές έννοιες Πληροφορικής και επικοινωνιών Μέρος 2: Χρήση υπολογιστή και διαχείριση αρχείων Πρόλογος...

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Εργαστήριο του Μαθήματος: ΕΠΛ 001

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

Ενσωματωμένα controls τα οποία προσαρμόζονται και χρησιμοποιούνται σε οποιαδήποτε ιστοσελίδα επιλέγει ο φορέας.

Σύβακας Σταύρος ΠΕ19,MSc. IT ΣΥΒΑΚΑΣ ΣΤΑΥΡΟΣ ΕΡΩΤΗΜΑΤΑ

Social Web: lesson #4

Πλοήγηση και Αναζήτηση

Ενδοσχολική Επιμόρφωση Εκπαιδευτικών Εσπερινού Γυμνασίου στις ΤΠΕ Δράση: Αυτοαξιολόγηση Σχολικής Μονάδας. Ο Παγκόσμιος Ιστός

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

TEC410 Ανάπτυξη Δικτυακών Τόπων (Δ εξάμηνο)

ΑΝΑΠΤΥΞΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΨΗΦΙΑΚΩΝ ΣΥΛΛΟΓΩΝ ΕΦΗΜΕΡΙΔΩΝ

Χαράλαμπος Καραγιαννίδης

ΔΡΑΣΤΗΡΙΟΤΗΤΕΣ. Κωδικός Τίτλος Επίπεδο

interactivecommunication Search Marketing White Paper Φεβρουάριος , Cybertechnics Ltd. All rights reserved.

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

Σύστημα υποβολής αιτήσεων υποψήφιων συνεργατών ΕΚΤ

Τίτλος Πακέτου Certified Computer Expert-ACTA

Βάσεις Δεδομένων (Using Databases)

Βελτιωμένη Εφαρμογή. Νέες δυνατότητες. Νέα Ιστοσελίδα

Ενότητες Γ3.1 - Γ3.2 - Γ3.3

ΠΑΡΟΥΣΙΑΣΗ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΙΣΤΟΣΕΛΙΔΩΝ ΓΙΑ ΤΙΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ, ΠΟΙΟΤΙΚΗ ΕΡΕΥΝΑ ΣΕ ΕΙΔΙΚΟΥΣ SEO

Μέρος 3 ο : Βασικές Έννοιες για δυναμικές ιστοσελίδες

Εγχειρίδιο Διαχειριστή. (Υπηρεσία Αναζήτησης Συνεπιβατών)

Τι είναι ένα σύστημα διαχείρισης περιεχομένου; δυναμικό περιεχόμενο

Αξιολόγηση Ιστοσελίδων. Εργασία. Χαράλαμπος Κουτσουρελάκης

ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΟΥ

Τ.Ε.Ι ΚΑΒΑΛΑΣ Σχολή: Διοίκησης & Οικονομίας Τμήμα: Διαχείριση Πληροφοριών

Διαδίκτυο: Ιστορία, Δομή, Υπηρεσίες

ΕΠΙΜΟΡΦΩΣΗ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΓΙΑ ΤΑ ΝΕΑ ΑΝΑΛΥΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΝΕΟ ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ Γ ΓΥΜΝΑΣΙΟΥ

Χρήστος Στασινός. ουλεύοντας με τη. Microsoft Access ΑΘΗΝΑ

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

ήλωση προστασίας δεδοµένων προσωπικού χαρακτήρα της «unitedprint.com Hellas Ε.Π.Ε..»

Γενικές Ηλεκτρονικές Υπηρεσίες

Μάθηµα 3. Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας

ΚΕΦΑΛΑΙΟ 10. Υπηρεσίες και εφαρμογές Διαδικτύου. ΚΕΦΑΛΑΙΟ 10 Υπηρεσίες και εφαρμογές Διαδικτύου. Α Γενικού Λυκείου

Ανάκτηση Πληροφορίας

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Διπλωματική Εργασία

ΠΗΓΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΙΝΤΕRNET

Ref.: SLWS 1 5Copyright 2005 The European Computer Driving Licence Foundation Ltd Σελίδα 1 από 7

ΤΕΙ ΗΠΕΙΡΟΥ Τμήμα Τηλεπληροφορικής & Διοίκησης

Πρωτόκολλα Επικοινωνίας και Τείχος Προστασίας

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

ΜΕΛΕΤΗ ΚΑΙ ΥΛΟΠΟΙΗΣΗ ΜΙΑΣ ΜΗΧΑΝΗΣ ΜΕΤΑ-ΑΝΑΖΗΤΗΣΗΣ. (META-SEARCH ENGINE)

Περιεχόµενα. 1 Tο βιβλίο "µε µια µατιά" Εισαγωγή στη Microsoft Access Γνωριµία µε τις βάσεις δεδοµένων της Access...

Εισαγωγή στον Παγκόσμιο ιστό και στη γλώσσα Html. Χρ. Ηλιούδης

ΤΕΧΝΟΛΟΓΙΕΣ ΣΧΕΔΙΑΣΗΣ ΔΙΑΔΙΚΤΥΑΚΟΥ ΤΟΠΟΥ (Web Site Design Technologies)

Επίσημη Εφημερίδα της Ευρωπαϊκής Ένωσης L 274/9

Transcript:

SYNTACTIC WEB ΑΝΑΓΝΩΣΤΟΠΟΥΛΟΣ ΙΩΑΝΝΗΣ Internet Software Consortium 1

Μηχανές Αναζήτησης (ΜΑ) Οι μηχανές αναζήτησης (ΜΑ) είναι ειδικά εργαλεία λογισμικού με την βοήθεια των οποίων οι χρήστες μπορούν να προσπελάσουν απομακρυσμένες πηγές πληροφορίας και δικτυακούς τόπους ιστοχώρους. Διακρίνονται σε: Αυτόματες ΜΑ [Crawlers] Google, AltaVista, Excite, AllTheWeb, Lycos, MSN Θεματικούς Κατάλογους Yahoo!, Open Directory Project (DMOZ), Looksmart Άλλες AskJeeves (επεξεργασία φυσικής γλώσσας), Overture (Paid Listings Search Engines ) Συνεργασία μεταξύ τους... Μηχανισμοί μιας Αυτόματης Μ.Α.

Χαρακτηριστικά των Μ.Α.: Εξωτερικά χαρακτηριστικά Aφορούν τις λειτουργίες της Μ.Α. όσον αφορά τα βήματα της σύλληψης, της συλλογής και της σύνταξης των ιστοσελίδων. Παρότι ο χρήστης δεν κάνει χρήση αυτών των χαρακτηριστικών, επηρεάζουν την αναζήτησή του και τα επιστρεφόμενα αποτελέσματα που λαμβάνει. Από την άλλη πλευρά βέβαια η γνώση αυτών των χαρακτηριστικών είναι ιδιαίτερα χρήσιμη για τους υπεύθυνους και τους δημιουργούς των ιστοσελίδων. Αυτό γιατί γνωρίζοντας τον τρόπο με τον οποίο μια Μ.Α. επεξεργάζεται τις πληροφορίες, γίνεται γνωστός και ο τρόπος κατάταξης της ιστοσελίδας ανάλογα με τις ερωτήσεις που υποβάλλει ο χρήστης. Εσωτερικά χαρακτηριστικά Το σύνολο των διαφορετικών λειτουργιών κάθε Μ.Α. όσον αφορά την ανάκτηση πληροφοριών από την μεριά του χρήστη. Σε αντίθεση με τα εξωτερικά χαρακτηριστικά που ενδιαφέρουν τους δημιουργούς και κατόχους των ιστοσελίδων, τα εσωτερικά χαρακτηριστικά αφορούν αποκλειστικά τους τελικούς χρήστες των Μ.Α. Εξωτερικά χαρακτηριστικά - Χαρακτηριστικά αυτόματης αναζήτησης ιστοσελίδων Υποστήριξη πλαισίων Σύνταξη - Χαρτογράφηση εικόνων Αποτροπή αυτόματης ανίχνευσης ιστοχώρου http://www.robotstxt.org/wc/exclusion.html#robotstxt, Robots Exclusion Protocol Η αποτροπή αυτή γίνεται με την εφαρμογή μιας εντολής που προστίθεται σε ένα ειδικά καθορισμένο πεδίο των μετα-ετικετών στην αρχή του πηγαίου κώδικα της Γλώσσας Υπερκείμενης Σήμανσης της ιστοσελίδας. Αποτροπή αυτόματης ανίχνευσης ιστοσελίδας http://www.robotstxt.org/wc/exclusion.html#meta, Robots Exclusion META tag Αναφορά από άλλες υπερσυνδέσεις Το χαρακτηριστικό αυτό απαντάται στις πλέον σύγχρονες Μ.Α., όπου αποτελεί ταυτόχρονα και ένα μέτρο για τον αν κάποιες ιστοσελίδες θα περιληφθούν στους καταλόγους και τα ευρετήρια αναζήτησης. Ανίχνευση ανανέωσης περιεχομένου Ειδική προβολή με πληρωμή 3

Εξωτερικά χαρακτηριστικά χαρακτηριστικά σύνταξης ιστοσελίδων Σύνταξη ορατού κειμένου Αποβολή κοινών λέξεων Υποστήριξη πεδίων μετά-ετικετών Δημιουργία παραγώγων λέξεων Εξωτερικά χαρακτηριστικά χαρακτηριστικά κατάταξης αποτελεσμάτων Στάθμιση των πεδίων μετα-ετικετών Στάθμιση σε αναφορές από άλλες υπερσυνδέσεις Στάθμιση ανάλογα με την επιλογή των αποτελεσμάτων Μέθοδοι σχετικής ανατροφοδότησης Hotbot Εξωτερικά χαρακτηριστικά Aναγνώριση και αντιμετώπιση τεχνικών Spam Αντιμετώπιση αόρατου κειμένου Αντιμετώπιση κειμένου ελάχιστου μεγέθους Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Μαθηματικές Εντολές αναζήτησης εντολές Boolean τύπου Τελεστής "AND" ή "+" Τελεστής "NOT" ή "-" Τελεστής "OR" Ο τελεστής "ADJ" ή "" "όρος1" ADJ "όρος" ADJ "όρος3" Ο τελεστής "NEAR" Ο τελεστής "FAR" Φώλιασμα ή Σύνθεση τελεστών "Ακριβής Φράση" AND ("όρος1" OR "όρος") Ενισχυμένες εντολές αναζήτησης Χρήση χαρακτήρων wildcards (Μπαλαντέρ) ("?","*") ca?s cars ή cats ca*s cars ή cats ή cameras ή careers 4

Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Χαρακτηριστικά αναζήτησης Σχετικές αναζητήσεις Το χαρακτηριστικό αυτό παρέχεται για να βοηθήσει τους χρήστες ώστε να πραγματοποιήσουν πιο συγκεκριμένες αναζητήσεις ή να τους προτείνει παρεμφερείς ερωτήσεις άλλων χρηστών. Έτσι, οι Μ.Α. που το υποστηρίζουν εμφανίζουν συνήθως μια λίστα με υπερσυνδέσεις με σχετικές αναζητήσεις χρησιμοποιώντας γνωστούς όρους, οδηγώντας τον χρήστη συχνά σε καλύτερα αποτελέσματα. Συγκέντρωση αποτελεσμάτων Το χαρακτηριστικό αυτό αποτρέπει την ταυτόχρονη εμφάνιση πολλών ιστοσελίδων που ανήκουν στον ίδιο ιστοχώρο στα τελικά αποτελέσματα. Έτσι παρουσιάζεται ένα πιο συνοπτικό και αντιπροσωπευτικό δείγμα απαντήσεων ενώ ο χρήστης έχει μεγαλύτερη πιθανότητα να ανακτήσει μια ενδιαφέρουσα πληροφορία γρήγορα. Δημιουργία παραγώγων λέξεων Εσωτερική Αναζήτηση Οι Μ.Α. που υποστηρίζουν αυτήν τη λειτουργία επιτρέπουν στους χρήστες τους να πραγματοποιήσουν επιπρόσθετες ερωτήσεις πάνω στο σύνολο των επιστρεφόμενων αποτελεσμάτων. Πρόκειται για μια πολύ χρήσιμη λειτουργία γιατί το σύνολο των αποτελεσμάτων παραμένει αναλλοίωτο, ενώ ταυτόχρονα στενεύουν οι αναζητήσεις του χρήστη. Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Χαρακτηριστικά αναζήτησης Αναζήτηση αποθηκευμένων ιστοσελίδων Το χαρακτηριστικό αυτό επιτρέπει την ανάκτηση ιστοσελίδων όπως έχουν συνταχθεί πριν ανανεωθούν εκ νέου από τους μηχανισμούς μιας υπηρεσίας αναζήτησης. Έτσι, είναι δυνατή η παρουσίαση ιστοσελίδων που δεν είναι πλέον ενεργές. Μετάφραση ιστοσελίδας Συνήθως χρονοβόρα διαδικασίας, λόγω του ότι το αίτημα στέλνεται από τον χρήστη στον διακομιστή της Μ.Α., όπου πραγματοποιείται σε πραγματικό χρόνο η μετάφραση Έλεγχος και φιλτράρισμα επικίνδυνου περιεχομένου 5

Εσωτερικά χαρακτηριστικά ή λειτουργίες ανάκτησης πληροφορίας Χαρακτηριστικά προσαρμογής απεικόνισης και προβολής Ταξινόμηση αποτελεσμάτων ανά ημερομηνία Ταξινόμηση αποτελεσμάτων σε καθορισμένο εύρος ημερομηνίας Προβολή ημερομηνίας δημιουργίας ή μορφοποίησης της ιστοσελίδας Παροχή περιβάλλοντος ενισχυμένης αναζήτησης Παροχή βοήθειας Επισκόπηση Αυτόματων Μηχανών Αναζήτησης AllTheWeb Μεγάλη κάλυψη, φιλικό interface, γρήγορη αναζήτηση: αρχεία ήχου, εικόνων, πολυμέσων AltaVista Advance Search mode: πολλοί λογικοί τελεστές, αναζήτηση βάσει γλώσσας, μετάφραση Direct Hit επιστρέφει λίγα αποτελέσματα / ομαδοποιημένα Excite Στην σημερινή της μορφή η Excite έχει μετατραπεί σε μια Πύλη, η οποία χρησιμοποιείται συνήθως για υπηρεσίες ηλεκτρονικού εμπορίου. Είναι γρήγορη, φιλική προς το χρήστη ενώ η αρχική της σελίδα παραπέμπει σε μια υπηρεσία αναζήτησης με σαφή καταναλωτικό προσανατολισμό Hotbot Φιλική προς το χρήστη, αστάθεια που οφείλεται στη διαθεσιμότητα και τη λειτουργία των εξυπηρετητών του συστήματός της Lycos Πύλη που συνεργάζεται με τη Hotbot, έμφαση στη ψυχαγωγία Northern Light εξειδικεύεται στην προσφορά αναζήτησης για περισσότερες από 5000 εφημερίδες, περιοδικά καθώς και διάφορα έγγραφα της Αμερικάνικης κυβέρνησης 6

Επισκόπηση Αυτόματων Μηχανών Αναζήτησης Google Αλγόριθμος PageRank [Brin, Page - 1998] πλήθος υπερσυνδέσμων που δείχνουν στο επιστρεφόμενο αποτέλεσμα (αναφορές) σημαντικότητα υπερσυνδέσμων βαρύτητα υπερσυνδέσμων Μεγαλύτερη κάλυψη, φιλικό περιβάλλον Ιστοσελίδα Άμεση Αναφορά 1 η έμμεση αναφορά A C A, B, D B A C C A, B, D D 1. C. A 3. B http://www.iprcom.com/papers/pagerank 4. D Δίνεται η ακόλουθη τοπολογία, η οποία παρουσιάζει την συσχέτιση πέντε ιστοσελίδων A, B, C, D και E. (α) Δεδομένου ότι και οι πέντε ιστοσελίδες ικανοποιούν ένα συγκεκριμένο ερώτημα, να δοθεί μια δικαιολογημένη εκτίμηση της κατάταξης των ιστοσελίδων που λαμβάνει ο χρήστης βάσει της μεθόδου στάθμισης PageRank της Google. (β) Ποια θα είναι η επίδραση που θα επιφέρει ένας ιός (trojan) που διπλασιάζει το μέγεθος ενός web site εάν εισβάλει στον web server που εξυπηρετεί την ιστοσελίδα D. Να δικαιολογηθεί η απάντησή σας. Ιστοσελίδα A B C D E Άμεση Αναφορά B, D A, D, E A, B A, C, E C 1 η έμμεση αναφορά D (A, C, E) D (A, C, E) A (B, D) C (A, B) B, D, A, C, E 7

We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn)) T 1 T n A T citations outgoing links Επισκόπηση Θεματικών Καταλόγων Yahoo! Ιδιαίτερα δημοφιλής υπηρεσία αναζήτησης και πύλη πληροφοριών Προσφέρει υπηρεσίες ηλεκτρονικού ταχυδρομείου και συνομιλιών Ως θεματικός κατάλογος δεν αξιολογεί το περιεχόμενο, αλλά οργανώνει θεματικά τους δικτυακούς τόπους που υποβάλλονται προς ένταξη στην υπηρεσία DMOZ [Open Directory Project] Χρησιμοποιεί ως αξιολογητές και κριτές των πληροφοριών που παρέχει, εθελοντές χρήστες από οποιαδήποτε πλευρά του πλανήτη. Παρέχει δηλαδή στον απλό χρήστη την δυνατότητα να συμμετέχει ενεργά στο πρόβλημα της ταξινόμησης της πληροφορίας που διαχέεται στον Παγκόσμιο Ιστό, σε μια καθορισμένη θεματική κατηγορία, η οποία συνήθως αφορά το γνωστικό αντικείμενο ή την γεωγραφική θέση του 8

Υπηρεσίες αναζήτησης και Θεματικοί Κατάλογοι στον Ελληνικό κυβερνοχώρο GoGreece Greek Indexer Phantis Pathfinder Robby Greek Web Index Anazitisis Eseek Thea in.gr URL References [searchengineshowdown] http://www.searchengineshowdown.com/ [searchenginewatch] http://searchenginewatch.com/ 9

Αυτόματες ΜΑ Θεματικοί Κατάλογοι Πλεονεκτήματα Βοήθεια στην εύρεση αποτελεσμάτων Σχετικά φιλικό περιβάλλον εύκολη χρήση Ιδανικές για εύρεση ανεξάρτητων (individual) ιστοσελίδων (ειδικευμένη αναζήτηση) Πλεονεκτήματα Τα ευρετήρια δημιουργούνται από αξιολογητές Η πληροφορία έχει δομή (κατηγορίες) Εύκολη πρόσβαση στην πληροφορία Φυλλομέτρηση (browsing) Ιδανικό για εύρεση δικτυακών τόπων (Γενικότερη εύρεση πληροφορίας) Μειονεκτήματα Διαφορετική γλώσσα αναζήτησης Διαφορετικές μέθοδοι ευρετηριοποίησης Χαμηλή κάλυψη της συνολικής πληροφορίας Μη-επικαλυπτόμενη πληροφορία Μειονεκτήματα Φυλλομέτρηση (browsing) μεγάλο ποσό πληροφορίας Αίτηση για συμμετοχή στα περιεχόμενα του θεματικού καταλόγου Διαφορετική ιεραρχία ενοτήτων ανά Θεματικό Κατάλογο Εντούτοις... Διαφορετικά χαρακτηριστικά λειτουργίες Αναζήτηση και εντοπισμό ιστοσελίδων Σύνταξη κωδικοποίηση ιστοσελίδων Αλγόριθμοι επεξεργασίας και κατάταξης αποτελεσμάτων Εντολές αναζήτησης Παρουσίαση αποτελεσμάτων Οδηγούν σε... έλλειψη συνοχής διαφορετικά επιστρεφόμενα αποτελέσματα στον τελικό χρήστη χαμένη πληροφορία 100 90 80 70 60 50 40 30 0 10 0 100 90 80 70 60 50 40 30 0 10 0 100 Lawrence 1999 33 16 15 8 Όλες ΜΑ Northern AltaVista Hotbot Google Lycos Light 11 0 Όλες ΜΑ Hotbot AltaVista Northern Light Lawrence 000 Όλες ΜΑ Hotbot AltaVista Northern Light Lycos Όλες ΜΑ Northern Light AltaVista Hotbot Google Lycos 8 10 Lycos 10

Λύση... Χρήση πολλών ΜΑ από το χρήστη Αύξηση της κίνησης στο Διαδίκτυο Γνώση της σύνταξης ερωτήσεων Διαγραφή διπλότυπων αποτελεσμάτων Επεξεργασία ξεχωριστών αποτελεσμάτων Χρονοβόρα και δύσκολη διαδικασία Μηχανές Μετα-Αναζήτησης (ΜΜΑ) Meta-Search Engines Οι Μηχανές Μετα-Αναζήτησης (ΜΜΑ) δεν διατηρούν τη δική τους βάση δεδομένων / ευρετήρια. Αποστέλλουν τους όρους αναζήτησης στις βάσεις δεδομένων των ΜΑ που χρησιμοποιούν, επεξεργάζονται τα ξεχωριστά αποτελέσματα και τα επιστρέφουν σε μια ενιαία μορφή (μετα-αποτελέσματα). Παραδείγματα: Copernic, Dogpile, Metacrawler, Ixquick, Profusion Χρήση ΜΜΑ Πλεονεκτήματα Αναζήτηση σε ενιαίο περιβάλλον Υποβολή ερώτησης μια φορά Γνώση μιας σύνταξης ερωτήσεων Μεγαλύτερη κάλυψη της πληροφορίας Μειονεκτήματα Συνήθως δεν καθορίζονται από το χρήστη οι χρησιμοποιούμενες υπηρεσίες αναζήτησης Χάνεται η προσωπικότητα των υπηρεσιών αναζήτησης που χρησιμοποιούνται Τα επιστρεφόμενα αποτελέσματα είναι μια συλλογή με τα πιο top ranked από κάθε Μ.Α. 11

Προβλήματα που πρέπει να λυθούν... Μετάφραση των ερωτήσεων (queries) Επεξεργασία των μετα-αποτελεσμάτων Υπό-συστήματα ΜΜΑ Διεπαφή χρήστη Διεκπεραιωτής ή Αποστολέας της ερώτησης Συλλέκτης Αποτελεσμάτων Τοπική Βάση Δεδομένων Εισαγωγή ερώτησης 1

Επεξεργασία και υποβολή ερώτησης Συλλογή και επεξεργασία αποτελεσμάτων 13

Παρουσίαση μετααποτελεσμάτων Απεικόνιση προβλήματος... R m = Dm, o m R = 1 D 1, o1 R = D, o R i = D i, oi o m D m o 1 1 p D 1 α 1 α α p o 1 k D β 1 β β k o m 1... i D m γ 1 γ... γ i 1......... j δ 1 δ......... δ j D = D UKU m 1 D N Λύση... Αλγόριθμοι κατάταξης αποτελεσμάτων από διαφορετικές πηγές Κάποια πρόταση? 14

Μέθοδοι κατάταξης αποτελεσμάτων από διαφορετικές πηγές Μέθοδοι ενσωμάτωσης (rank aggregation methods) Απαιτούν την συγκέντρωση στατιστικών χαρακτηριστικών και τις συχνότητες εμφάνισηςόρων και εγγράφων στην εξεταζόμενη συλλογή. Χρησιμοποιούν ειδικές μεθόδους για να αντιπαραβάλουν τις στατιστικές των συλλογών, επιτρέποντας την παραγωγή συγκρίσιμων βαθμών ομοιότητας στα επιστρεφόμενα αποτελέσματα. Fagin [001], Quick-combine [Guntzer,000], Proximity search [Goldman,1998], WSQ [Widom,000], COMBSUM, COMBMNZ [Fox & Shaw, 1998] Μέθοδοι απομόνωσης (isolated ranking methods) Βάσει ανατιθέμενου βαθμού στάθμισης [Selberg,1995] Βάσει δείκτη βαρύτητας εξυπηρετητή [Hawking,1998] Βάσει ακολουθίας κατάταξης [Yuwono,1997] Βάσει του περιεχομένου [Lawrence,1998] p 1 r 1 p r 1 δείκτης βαρύτητας εξυπηρετητή (χρήστης) p p r 1 Ακολουθία κατάταξης Τάξη αποτελέσματος (y) Τάξη προτεραιότητας μηχανής αναζήτησης (x) 1 p N 1 p1 r1 p r1 pp r1 pn r1 p1 r p r pp r pn r r p1 rr p rr pp rr pn rr K p1 rk p rk pp rk pn rk p N r 1 p 1 r p r p p r p N r p 1 r κ p r κ p p r κ p N r κ 15

Συλλογή Συνολικά ανακτόμενα έγγραφα (A) Σχετικά έγγραφα (R) Ανάκληση = Ακρίβεια = R R a R a Α Σχετικά ανακτόμενα έγγραφα (Ra) Διάγραμμα ανταλλαγής Ακρίβειας - Ανάκλησης Test reference collections: TREC Reuters CACM Ακρίβεια Ανάκληση Precision R q 100 80 60 40 0 0 d3,d5,d9,d 5,d39, = d 44,d56,d71,d89,d 13 10 0 30 40 50 Recall Rank Doc Rel R ecall P recision 0 0% 0% 1 d 13 10% 100% d 84 10% 50% 3 d 56 0% 67% 4 d 6 0% 50% 5 d 84 0% 40% 6 d 9 30% 50% 7 d 511 30% 43% 8 d 19 30% 38% 9 d 187 30% 33% 10 d 5 40% 40% 11 d 38 40% 36% 1 d 48 40% 33% 13 d 50 40% 31% 14 d 113 40% 9% 15 d 3 50% 33% Γραμμική παρεμβολή Μετρήσεις με μεθόδους παρεμβολής (interpolation) σε 11 επίπεδα recall: 0%, 10%, 0%,, 100% a + bx a = Y bx n, b = n xy ( x x )( y) ( x ) 16

Μέση τιμή ακρίβειας στο r επίπεδο ανάκλησης με N q ερωτήσεις P( r) = N q i= 1 Pi ( r) N q Αρμονικός μέσος όρος F( j ) = 1 1 + R( j ) P( j ) Μετρική Ε 1+ b E( j ) = 1 b 1 + R( j ) P( j ) Μέτρηση σημείου ισορροπίας (σ.ε.) breakeven-point Ακρίβεια 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0, 0,1 0 0 0,1 0, 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Ανάκληση Slides - Projects http://www.medialab.ntua.gr COMMUNICATION TECHNOLOGY janag@telecom.ntua.gr 17