Information Retrieval

Σχετικά έγγραφα
12. Σταχυολόγηση Ιστού

Information Retrieval

Information Retrieval

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

PROXY SERVER. Άριστη πύλη διαχωρισμού μεταξύ του εσωτερικού δικτύου και του Internet.

Εργαλεία ανάπτυξης εφαρμογών internet Ι

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών Δίκτυα υπολογιστών. (και το Διαδίκτυο)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Τι είναι ένα δίκτυο υπολογιστών; Αρχιτεκτονική επιπέδων πρωτοκόλλων. Δικτυακά πρωτόκολλα

Πώς λειτουργεί το Google?

Μελέτη Πολιτικών Χρονοδροµολόγησης σε Κατανεµηµένα Συστήµατα Πλοηγητών. Όνοµα : Ελένη Τσιακκούρη

Ανάκτηση Πληροφορίας

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Web characteristics. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Ανάκτηση Πληροφορίας

Ανδρέας Παπαζώης. Τμ. Διοίκησης Επιχειρήσεων

ΤΕΙ ΗΠΕΙΡΟΥ Τμήμα Τηλεπληροφορικής & Διοίκησης

Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλονίκης (ΑΤΕΙ-Θ) Τμήμα Διατροφής - Διαιτολογίας - Πληροφορική Θεωρία

Πανεπιστήµιο Πατρών Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ και Πληροφορικής

Βασίλης Πλαχούρας. Χρυσόστομος Καπέτης Μιχάλης Βαζιργιάννης. Οικονομικό Πανεπιστήμιο Αθηνών 3/11/2003

ΠΑΡΟΥΣΙΑΣΗ ΠΤΥΧΙΑΚΗΣ ΕΡΓΑΣΙΑΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΙΣΤΟΣΕΛΙΔΩΝ ΓΙΑ ΤΙΣ ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ, ΠΟΙΟΤΙΚΗ ΕΡΕΥΝΑ ΣΕ ΕΙΔΙΚΟΥΣ SEO

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

Start/Programs/ Administrative Tools/DNS

Τεχνικές Εξόρυξης Δεδομένων

Δρ Παρασκευή Μεντζέλου Επίκουρος Καθηγήτρια Πληροφορικής Γενικό Τμήμα Θετικών Επιστημών

Ο αλγόριθμος PAGE RANK και η βελτιστοποίησή του

Πρωτόκολλα Επικοινωνίας και Τείχος Προστασίας

Vodafone Business Connect

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Ηλεκτρονικό Εμπόριο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ 463 Συστήµατα Ανάκτησης Πληροφοριών. Γενικός Αλγόριθµος Ακολουθεί µια γενική περιγραφή του αλγορίθµου ενός ερπυστή.

ίκτυα - Internet Υπηρεσίες Internet O Παγκόσµιος Ιστός (World Wide Web) Ηλεκτρονική Αλληλογραφία ( ) Υπηρεσία FTP (File Transfer Protocol)

Συσκευές Τηλεπικοινωνιών και Δικτύωσης. Επικοινωνίες Δεδομένων Μάθημα 9 ο

Ορολογία. Access rights (Δικαιώματα πρόσβασης): Περιγραφή των δικαιωμάτων που παρέχονται για σε φακέλους και αρχεία. Bandwidth (Εύρος ζώνης):

Εισαγωγή στο DNS lookup

ιαδίκτυα & Ενδοδίκτυα Η/Υ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

Ενότητα 8. Εισαγωγή στην Πληροφορική. Internet: Τότε και Τώρα. Κεφάλαιο 8Α. Τρόπος Λειτουργίας Internet. Χειµερινό Εξάµηνο

α) η καταγραφή και η σύλληψη της δικτυακής κίνησης (capture) και β) η ανάλυση της δικτυακής κίνησης.

Το διαδίκτυο είναι ένα δίκτυο που αποτελείτε από πολλά μικρότερα δίκτυα υπολογιστών.

Βασικές Υπηρεσίες Διαδικτύου. Επικοινωνίες Δεδομένων Μάθημα 2 ο

Δίκτυα Υπολογιστών Επίπεδο εφαρμογής To Σύστημα Ονομασίας Τομέων DNS

Web and HTTP. Βασικά Συστατικά: Web Server Web Browser HTTP Protocol

ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΑΝΑΠΤΥΞΗ ΙΣΤΟΤΟΠΩΝ

ΔΗ Μ Ι Ο ΥΡ Γ Ι Α W I K I με τ η χρήση τ η ς υπ ηρεσίας h t t p : / id ot.com /

Πληροφορική Ι. Μάθημα 8 ο Εφαρμογές του Internet. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Δίκτυα Υπολογιστών Firewalls. Χάρης Μανιφάβας

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Κάντε κλικ για έναρξη

Μέρος 3 ο : Βασικές Έννοιες για δυναμικές ιστοσελίδες

GoDigital.CMS Content Management System. Πλήρης διαχείριση περιεχομένου ιστοσελίδας

-Δε γίνεται καμία επεξεργασία κανενός είδους προσωπικών δεδομένων για χρήστες από Ελλάδα-

Social Web: lesson #4

Άσκηση 1. Ερώτηση 1: ο αριθμός των συνδρομητών που θα εξυπηρετηθούν στη συγκεκριμένη τυχαία κυψέλη.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Σύστημα υποβολής αιτήσεων υποψήφιων συνεργατών ΕΚΤ

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Λειτουργικά Συστήματα Η/Υ

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΗΠΕΙΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ &ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΤΗΛΕΠΛΗΡΟΦΟΡΙΚΗΣ & ΔΙΟΙΚΗΣΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Επίπεδο δικτύου IP Forwading κτλ

Ethernet Ethernet ΙΕΕΕ CSMA/CD

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

2 Μάρκετινγκ µηχανών αναζήτησης (Search Engine Marketing).

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ:

Συστήματα Αναμονής. Ενότητα 1: Εισαγωγή. Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Η επιλογή γλώσσας (π.χ. ελληνικά) διεπαφής του συστήματος, βρίσκεται στο υποσέλιδο του ιστότοπου

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ

Τεχνολογίες Παγκόσμιου Ιστού. 1η διάλεξη

ΘΕΜΑ ΠΤΥΧΙΑΚΗΣ : ΜΗΧΑΝΙΣΜΟΙ ΣΥΛΛΟΓΗΣ ΣΤΟΙΧΕΙΩΝ ΣΤΟ ΔΙΑΔΥΚΤΙΟ (COOKIES)

Information Retrieval

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Τεχνολογίες και Εφαρμογές Διαδικτύου

Ενημέρωση για την προστασία προσωπικών δεδομένων Δήλωσης Προστασίας Προσωπικών Δεδομένων και Χρήσεως Cookies

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑ ΠΛΑΙΣΙΑ ΤΟΥ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΕΙΔΙΚΕΥΣΗΣ (ΜΔΕ) «ΕΠΙΣΤΗΜΗ & ΤΕΧΝΟΛΟΓΙΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ»

Ο αλγόριθμος PageRank της Google

Παρακολούθηση και βελτιστοποίηση της επισκεψιμότητας ενός δικτυακού τόπου

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Για το μέρος αυτό της άσκησης θα υλοποιήσετε μια εφαρμογή κελύφους η οποία θα χρησιμοποιείται ως εξής:

Ενημέρωση για την προστασία προσωπικών δεδομένων Δήλωσης Προστασίας Προσωπικών Δεδομένων και Χρήσεως Cookies

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Vodafone Business Connect

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΔΙΚΤΥΩΝ

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Παραδοτέο Π5.3: Έντυπο και ψηφιακό υλικό (Web site) προβολής των δράσεων έργου

Περιεχόμενα. Visio / White paper 1

Εργαλεία Ανάπτυξης Εφαρμογών Internet I

Γεωχωρική πληροφορία και υποστήριξη αποφάσεων σε επίπεδο ΟΤΑ

Μια καλή επιλογή θα ήταν (χωρίζοντας τις λέξεις με παύλα -) ή

Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας. Υπηρεσίες Internet. ίκτυα Η/Υ. Επίπεδο Εφαρµογής. Ενότητα θ

Εισαγωγή 6. Tα πολλά πρόσωπα των απειλών για το PC 8. Οι βασικές ρυθμίσεις ασφαλείας στα Windows 18. Προστασία από το Malware με το Avast Antivirus 34

Ως Διαδίκτυο (Internet) ορίζεται το παγκόσμιο (διεθνές) δίκτυο ηλεκτρονικών υπολογιστών (international network).

SNMP ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

ΘΕΜΑΤΑ ΕΞΕΤΑΣΕΩΝ ΣΤΗΝ ΑΠΟΔΟΣΗ ΙΣΤΟΣΕΛΙΔΩΝ ΚΑΙ ΟΙ ΕΝΔΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΤΟΥ ΕΑΠ ΤΕΛΙΚΗ ΕΞΕΤΑΣΗ

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Transcript:

Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηπιορ Καηζαπόρ Διάλεξη 12η: 09/05/2016 Τμ. HMMY, Πανεπιστήμιο Θεσσαλίας 1

Ερπυστές στον Παγκόσμιο Ιστό 2

Sec. 20.2 Βασική λειτουργία του crawler Αρχίζουμε με γνωστά seed URLs Τα φέρνουμε και τα κάνουμε parse Εξάγουμε τα URLs στα οποία δείχνουν Τοποθετούμε τα ηξηγμένα URLs σε μια ουρά Φέρνουμε κάθε URL της ουράς και επαναλαμβάνουμε 3

Sec. 20.2 Αναπαράσταση crawling URLs crawled and parsed Unseen Web Web Seed pages URLs frontier 4

Sec. 20.1.1 Απλή εικόνα επιπλοκές Το Web crawling δεν είναι εφικτό σε μια μηχανή Τα προαναφερθέντα βήματα πρέπει να εκτελούνται παράλληλα και κατανεμημένα Κακόβουλες σελίδες Spam σελίδες Παγίδες των spiders περιλαμβανόμενων και των δυναμικά παραγόμενων σελίδων Και οι μη κακόβουλες σελίδες παρουσιάζουν προκλήσεις Latency/bandwidth των servers κυμαίνεται Webmasters συμβουλές Πόσο βαθιά να γίνει το crawling; Site mirrors και duplicate pages Ευγένεια στις επισκέψεις σε έναν server 5

Sec. 20.1.1 Τι θα πρέπει να κάνει κάθε crawler Να είναι εύρωστος: Να είναι άνοσος στις spider traps και σε άλλες κακόβουλές συμπεριφορές από τους web servers Να είναι ευγενικός: Να σέβεται έμμεσες και άμεσες προσεγγίσεις ευγένειες 6

Sec. 20.2 Άμεσες & έμμεσες ευγενικές προσεγγίσεις Άμεση ευγένεια: προσδιορισμοί από τους webmasters σχετικά με ποια τμήματα του site να γίνουν crawled robots.txt Έμμεση ευγένεια: ακόμη και χωρίς προσδιορισμούς, αποφυγή πολύ συχνών επισκέψεων 7

Sec. 20.2.1 Robots.txt Πρωτόκολλο για να παρέχει στους spiders ( robots ) περιορισμένη πρόσβαση σε ένα website, από το 1994 www.robotstxt.org/wc/norobots.html Το Website ανακοινώνει το αίτημά του σχετικά με ποιες σελίδες μπορούν (δεν μπορούν) να γίνουν crawled Για έναν server, δημιουργείται το αρχείο /robots.txt Αυτό το αρχείο καθορίζει τους περιορισμούς πρόσβασης 8

Sec. 20.2.1 Παράδειγμα Robots.txt Κανένα robot δεν θα επισκεφτεί κάποιο URL που ξεκινά με "/yoursite/temp/", εκτός από το robot με όνομα searchengine": User-agent: * Disallow: /yoursite/temp/ User-agent: searchengine Disallow: 9

Τι θα πρέπει να μπορεί να κάνει κάθε crawler Sec. 20.1.1 Να είναι ικανός για κατανεμημένη λειτουργία: να είναι σχεδιασμένος να εκτελείται σε πολλές κατανεμημένενες μηχανές Να είναι κλιμακούμενος: να είναι σχεδιασμένος να αυξάνει τον ρυθμό crawling με προσθήκη επιπλέον μηχανών Επίδοση/αποδοτικότητα: να κάνει πλήρη χρήση των διαθέσιμων επεξεργαστικών και δικτυακών πόρων 10

Τι θα πρέπει να μπορεί να κάνει κάθε crawler Sec. 20.1.1 Να φέρνει τις σελίδες με υψηλότερη ποιότητα πρώτα Συνεχής λειτουργία: Να συνεχίζει να φέρνει φρέσκα αντίγραφα μιας σελίδας που έφερε στο παρελθόν Να είναι επεκτάσιμος: Να προσαρμόζεται σε νέα data formats, protocols 11

Sec. 20.1.1 Ενημερωμένη αναπαράσταση crawling URLs crawled and parsed Unseen Web Seed Pages URL frontier Crawling thread 12

Sec. 20.2 URL frontier Μπορεί να περιλάβει πολλές σελίδες από τον ίδιο host Πρέπει ν αποφεύγει να προσπαθεί να τα φέρει όλα μαζί την ίδια χρονική στιγμή Πρέπει να προσπαθεί να κρατάει όλα τα crawling threads απασχολημένα 13

Sec. 20.2.1 Βήματα επεξεργασίας στο crawling Επιλογή ενός URL από το frontier Κατέβασμα του εγγράφου που αντιστοιχεί στο URL Parse το URL Εξαγωγή συνδέσμων του προς άλλα docs (URLs) Έλεγχος εάν το περιεχόμενου του URL το έχουμε καναδεί Εάν όχι, προσθήκη του στους indexes Για κάθε εξηγμένο URL Ποιο; Π.σ., μόνο crawling.edu, obey robots.txt, etc. Επιβεβαίωση ότι περνά κάποιους ελέγχους για URLs Έλεγχος εάν είναι ήδη στο frontier (duplicate URL elimination) 14

Sec. 20.2.1 Βασική αρχιτεκτονική crawling DNS Doc FP s robots filters URL set WWW Fetch Parse Content seen? URL filter Dup URL elim URL Frontier 15

Sec. 20.2.2 DNS (Domain Name Server) Υπηρεσία lookup στο Διαδίκτυο Δεδομένου ενός URL, ανάκτηση της IP address του Συνήθεις υλοποιήσεις από OS της DNS lookup είναι blocking: μόνο μια εκκρεμής αίτηση κάθε φορά Λύσεις DNS caching Batch DNS resolver συλλέγει αιτήματα και τα στέλνει ομαδικά 16

Sec. 20.2.1 Parsing: URL normalization Όταν ένα fetched document γίνεται parsed, κάποιοι από τους συνδέσμους είναι relative URLs E.g., http://en.wikipedia.org/wiki/main_page έχει relative link προς /wiki/wikipedia:general_disclaimer που είναι το ίδιο με το απόλυτο absolute URL http://en.wikipedia.org/wiki/wikipedia:general_disclaimer Κατά το parsing, πρέπει να κάνουμε normalize (expand) κάθε relative URL 17

Sec. 20.2.1 Περιεχόμενο που έχουμε ήδη δει Duplication είναι εκτεταμένο στοweb Εάν η σελίδα που μόλις κατέβηκε είναι ήδη στον index, να μην την επεξεργαστούμε περαιτέρω Αυτό γίνεται με fingerprints ή shingles 18

Sec. 20.2.1 Filters και robots.txt Filters regular expressions για URLs που θα γίνουν (ή όχι) crawled Αφού κατεβάσουμε το αρχείο robots.txt από ένα site, δεν χρειάζεται να το ξαναφέρουμε Cache των αρχείων robots.txt 19

Sec. 20.2.1 Κατανεμημένος crawler Εκτέλεση πολλαπλών crawl threads, κάτω από διαφορετικές processes εν δυνάμει σε διαφορετικούς κόμβους Γεωγραφικά κατανημένους κόμβους Καταμερισμός των hosts που θα γίνουν crawled στους κόμβους Χρησιμοποιείται hashing για τον καταμερισμό Πώς επικοινωνούν αυτοί οι κόμβοι και μοιράζονται τα URLs; 20

Sec. 20.2.1 Επικοινωνία μεταξύ κόμβων Η έξοδος από κάθε URL filter σε κάθε κόμβο στέλνεται στο Dup URL Eliminator του κατάλληλου κόμβου DNS Doc FP s robots filters To other nodes URL set WWW Fetch Parse Content seen? URL Frontier URL filter Host splitter From other nodes Dup URL elim 21

Sec. 20.2.3 URL frontier: Δυο σημαντικά σημεία Politeness: Όχι συχνές επισκέψεις στον ίδιο Web server Freshness: crawl μερικές σελίδες πιο συχνά από κάποιες άλλες Π.χ., σελίδες (όπως των News sites) των οποίων το περιεχόμενο αλλάζει πιο συχνά Αυτοί οι στόχοι μπορεί να είναι αλληλοσυγκρουόμενοι 22

Προκλήσεις στην υλοποίηση ενός ερπυστή Ποιες σελίδες θα πρέπει να φέρει; Πώς θα πρέπει να ανανεώνει (ξαναεπισκέπτεται) τις σελίδες; Πώς θα ελαττώσει το φόρτο στα sites που επισκέπτεται; Πώς θα πρέπει να παραλληλοποιηθεί ο ερπυσμός; 23

Κριτήρια επιλογής σελίδων Μετρικές σημαντικότητας Ομοιότητα προς υποβληθέν ερώτημα IS(p) (γνωστοί ως Focused ή Topical crawlers) Με τις τεχνικές που είδαμε σε προηγούμενες διαλέξεις Αριθμός εισερχόμενων συνδέσμων IB(p) (backlink count) Εκτίμηση του αριθμού με βάση των γνωστών μέχρι στιγμής backlinks PageRank IR(p) Θα το εξερευνήσουμε αναλυτικότατα στις επόμενες διαλέξεις Αριθμός εξερχόμενων συνδέσμων IF(p) (forward link count) Ίσως πρόκειται για καλό directory (hub page) Μετρική τοποθεσίας IL(p) Oι.com (πιο χρήσιμες) ή πολλά slashes (λιγότερο χρήσιμες) Συνδυαστική μετρική: IC(p)= k 1 IS(p) + k 2 IB(p) +. 24

Βασικός αλγόριθμος crawling 25

reorder queue() για κάθε κριτήριο 26

Το πρόβλημα της ανενέωσης σελίδων στον index από τους ερπυστές 27

Σχηματική απεικόνιση του προβλήματος 28

Freshness και Age Freshness (Φρεσκάδα) Τοπικού στοιχείου την χρονική στιγμή t Του index την χρονική στιγμή t Age (Ηλικία) Τοπικού στοιχείου την χρονική στιγμή t Του index την χρονική στιγμή t 29

Χρονική εξέλιξη των freshness και age 30

Average freshness και average age Avg freshness Avg age Ομοίως Μπορούμε ν αποδείξουμε (διάλεξη στην τάξη) ότι: 31

Πιθανοκρατική ανανέωση σελίδας Βρέθηκε (με ανάλυση των crawled σελίδων) ότι ο ρυθμός αφίξεων updates για ένα στοιχείο (σελίδα) του Web είναι Poisson process με ρυθμό αλλαγής λ i, άρα ο χρόνος μέχρι το νέο γεγονός (δηλαδή, μια τροποποίηση) είναι εκθετικά κατανεμημένος Συγχρονίζοντας την σελίδα στην χρονική στιγμή t=0 και t=i, η expected value της freshness στον χρόνο t, η πιθανότητα ότι το συγκεκριμένο στοιχείο αλλάζει στο διάστημα (0,t] δίνεται από το ολοκλήρωμα: 32

Expected freshness Αφού το στοιχείο δεν συγχρονίζεται στο διάστημα (0,Ι), θα είναι παροχημένο με πιθανότητα: και άρα η expected freshness θα είναι, για t στο (0,Ι): 33

Expected age Αφού το στοιχείο τροποποιείται στο (0,Ι), η ηλικία του στο (s,i) θα είναι t-s. Αφού αλλάζει στον χρόνο s με πιθανότητα και άρα (αποδείξτε το) η expected age θα είναι, για t στο (0,Ι): Υπόδειξη για ηον ςπολογιζμό ηος ολοκληπώμαηορ: Η παπάγοςζα ηος s*e -λ*s είναι η [(λ*s+1)/λ 2 ]*e -λ*s 34

Χρονική εξέλιξη των expected freshness & expected age 35

Μοντέλο εξέλιξης του Web Μοντέλο uniform change-frequency Όλα τα στοιχεία αλλάζουν με την ίδια συχνότητα λ Μοντέλο non-uniform change-frequency Κάθε στοιχείο αλλάζει με την δική του συχνότητα λ i 36