Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρµογές της. Εισαγωγικά

Σχετικά έγγραφα
Αναζήτηση στο ιαδίκτυο

Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήµιο Θεσσαλονίκης Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής. Ακαδηµαϊκό Έτος

Ανάκτηση Πληροφορίας Εισαγωγή

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Ανάκτηση πληροφορίας

Web. Web p OutDegree(p) log 7 1/OutDegree(p) A New Difinition of Subjective Distance between Web Pages

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

Ανάκτηση Πληροφορίας

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ. του Γεράσιμου Τουλιάτου ΑΜ: 697

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Social Web: lesson #4


Εισαγωγή στην ανάλυση συνδέσμων

Ανάκτηση Πληροφορίας

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου


Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Ανάκτηση Πληροφορίας

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 5 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

Μελέτη Περίπτωσης: Random Surfer

E-commerce Networks & Applications. Η διαφήμιση στο Internet. Νίκος Κωνσταντίνου

Διαδανεισμός, Πρωτόκολλο z39.50 Στρατηγικές αναζήτησης

Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ. και ΣΥΣΤΗΜΑΤΑ ΓΕΩΓΡΑΦΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

Πληροφοριακά Συστήματα

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Τι είναι ένα δίκτυο υπολογιστών; Αρχιτεκτονική επιπέδων πρωτοκόλλων. Δικτυακά πρωτόκολλα

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Διαδικαστικά

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Τεχνικές Εξόρυξης Δεδομένων

Μηχανική Μάθηση Μερωνυµιών για Αναγνώριση Γεγονότων

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

FirstSearch (OCLC) Βασικά χαρακτηριστικά:

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

Μελέτη Πολιτικών Χρονοδροµολόγησης σε Κατανεµηµένα Συστήµατα Πλοηγητών. Όνοµα : Ελένη Τσιακκούρη

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ζητήµατα Μεγάλης-Κλίµακας Υλοποίησης του PageRank. Αρχιτεκτονική Μηχανής Αναζήτησης

Η χρήση του MOODLE από την οπτική γωνία του ιαχειριστή

ΜΑΘΗΜΑ 4. Ιόνιο Πανεπιστήµιο - Τµήµα Αρχειονοµίας - Βιβλιοθηκονοµίας. Λογισµικό Αναζήτησης & Ανάκτησης Πληροφοριών

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

User Behavior Analysis for a Large2scale Search Engine

interactivecommunication Search Marketing White Paper Φεβρουάριος , Cybertechnics Ltd. All rights reserved.

Ανάκτηση Πληροφορίας

ER-Tree (Extended R*-Tree)

Κεφάλαιο 1. Εισαγωγή 1

A Method for Creating Shortcut Links by Considering Popularity of Contents in Structured P2P Networks

Ανάκτηση Πληροφορίας

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Κεφάλαιο 5. Ανάκτηση Πληροφορίας στον Παγκόσµιο Ιστό

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

substructure similarity search using features in graph databases

Πώς λειτουργεί το Google?

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

IEEE Xplore, Institute of Electrical and Electronics Engineers Inc.

Κεφάλαιο 5 ο : Αλγόριθµοι Σύγκρισης Ακολουθιών Βιολογικών εδοµένων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Εξόρυξη Γνώσης από εδοµένα (data mining)

Η Τεχνολογία στις Συνεργασίες των Βιβλιοθηκών

Ανάκτηση Πληροφορίας. Φροντιστήριο 2

Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών Δίκτυα υπολογιστών. (και το Διαδίκτυο)

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Bizagi Modeler: Συνοπτικός Οδηγός

Εισαγωγή. web σελίδα Βάσεις εδοµένων Αντικείµενο: Θεµελιώδες πρόβληµα της επιστήµης µας εδοµένα

Τεχνολογία Πολυμέσων. Ενότητα 6: Υπερκείμενο - Υπερμέσα. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Ο αλγόριθμος PageRank της Google

Ανάκτηση Πληροφορίας

SilverPlatter WebSPIRS 4.1.

Ψηφιακή ανάπτυξη. Course Unit #1 : Κατανοώντας τις βασικές σύγχρονες ψηφιακές αρχές Thematic Unit #1 : Τεχνολογίες Web και CMS

About Ολοκληρωμένο Πληροφοριακό Σύστημα παρακολούθησης συλλογής, επεξεργασίας και ανάλυσης δημοσιότητας OCR Speech to Text Big Data Analytics

Βάσεις εδοµένων & Πολυµέσα

ίκτυα - Internet Υπηρεσίες Internet O Παγκόσµιος Ιστός (World Wide Web) Ηλεκτρονική Αλληλογραφία ( ) Υπηρεσία FTP (File Transfer Protocol)

Ενότητα 9 Ξένα Σύνολα που υποστηρίζουν τη λειτουργία της Ένωσης (Union-Find)

Εξόρυξη Γνώσης από εδοµένα (Data Mining)

Πίνακας περιεχοµένων

Transcript:

Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρµογές της Εισαγωγικά ΑΠ: αναπαράσταση, αποθήκευση, οργάνωση και προσπέλαση σε αντικείµενα πληροφορίας Επίκεντρο η πληροφοριακή ανάγκη του χρήστη Πληροφοριακή ανάγκη χρήστη: Εντόπισεόλατακείµενα µε πληροφορίες σχετικά µε φοιτητές που (1) φοιτούν σε κάποια σχολή πληροφορικής, (2) συµµετέχουν σε κάποιο αθλητικό σύλλογο Έµφαση δίνεται στην ανάκτηση πληροφορ ίας και όχι δεδοµ ένων

Εισαγωγικά Ανάκτηση εδοµένων Ποια κείµενα περιέχουν ένα σύνολο keywords? Καλά ορισµένη σηµασιολογία (semantics) Ελάχιστα λανθασµένηαπάντησησυνιστά αποτυχία! Ανάκτηση Πληροφορίας Το ερώτηµα είναι ασαφές Ησηµασιολογία είναι συχνά ελλιπής Μικρά λάθη είναι ανεκτά Σύστηµα ΑΠ: Ερµηνεύει περιεχόµενα αντικειµένων πληροφορίας Παράγει µία κατάταξη που αναπαριστά σχετικότητα Εισαγωγικά ΑΠ τα τελευταία 30 χρόνια: Ταξινόµηση (classification) και κατηγοριοποίηση (categorization) Κειµένων Συστήµατα Βιβλιοθήκης και γλώσσες ιεπαφή χρηστών και οπτικοποίηση Εντούτοις η περιοχή θεωρείτο στενού ενδιαφέροντος Με την έλευση του ιαδικτύου: Παγκόσµια αποθήκη γνώσης Ελεύθερη (χαµηλού κόστους) προσπέλαση Πολλά προβλήµατα : ΑΠ προσφέρει λύσεις

Πεδία Εφαρµογής Web Search Engines Ψηφιακές Βιβλιοθήκες (Digital Libraries) Ανάκτηση Στοιχείων σε Peer to Peer Περιβάλλοντα Web Services Βιοπληροφορική Συστήµατα Προσαρµοστικών Πολυµέσων/Υπερµέσων Γειτονικές Περιοχές Βάσεις εδοµένων Συστήµατα Πολυµέσων Τεχνητή Νοηµοσύνη /Επεξεργασία Φυσικής Γλώσσας Εξόρυξη εδοµένων (Data Mining) Τεχνικές Μοντελοποίησης οµές εδοµένων Συµπίεση Κειµένων Συµπίεση οµών εδοµένων

Ανάκτηση Πληροφορίας Τα τελευταία 50-60 χρόνια ως επιστηµονικό πεδίο 1945: Vannenar Bush s As we may think 1960+: Gerald Salton 1978: Πρώτο ACM SIGIR συνέδριο 1992: Πρώτο TREC συνέδριο Unstructured (text) vs. structured (database) data in 1996 160 140 120 100 80 60 Unstructured Structured 40 20 0 Data volume Market Cap

Unstructured (text) vs. structured (database) data in 2006 160 140 120 100 80 60 Unstructured Structured 40 20 0 Data volume Market Cap Μέθοδοι Προσέγγισης Computer Centered View (Ανάκτηση Πληροφορίας) - Κτίσιµο δοµών δεικτοδότησης - Γρήγορη Επεξεργασία Ερωτηµάτων - Ποιοτικοί αλγόριθµοι κατάταξης Human Centered View (Βιβλιοθηκονοµία και Επιστήµη Πληροφορήσης) - Μελέτη βασικών αναγκών του χρήστη - Καταγραφή συµπεριφοράς χρήστη

Βασικές Έννοιες Η ιεργασία του Χρήστη Ανάκτηση Βάση εδοµένων Φυλλοµέτρηση Ανάκτηση (Retrieval) Φυλλοµέτρηση (Browsing) Συνδυασµός (Hidden web) Επεξεργασία Κειµένων Σε τι format είναι; pdf/word/excel/html? Σε τι γλώσσα είναι; Ποιο σύνολο χαρακτήρων χρησιµοποιεί; Τα κείµενα µπορεί να περιέχουν όρους από διαφορετικές λέξεις Τι είναι ένα µοναδιαίο κείµενο; ένα αρχείο; ένα e-mail; ένα email µε επισυνάψεις; oµάδα αρχείων;

Λογική Όψη Κειµένων κείµενο + δοµή Κείµενο Αναγνώριση οµής τόνοι, κενά κλπ. κείµενο κοινές λέξεις οµάδες ουσιαστικών αποµάκρυνση καταλήξεων αυτόµατη ή χειροκίνητη δεικτοδότηση δοµή πλήρες κείµενο όροι δεικτοδότησης Η αναπαράσταση των κειµένων (λογική όψη) µπορεί να πάρει διάφορες µορφές σε µία συνέχεια αναπαραστάσεων ιεργασία Ανάκτησης

Τυπικός Ορισµός Μοντέλων Α.Π. Ένα µοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q, F, R(q i, d j )] όπου: 1) - D είναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείµενα της συλλογής 2) - Q είναι ένα σύνολο από λογικές αναπαραστάσεις για τις πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσεις καλούνται ερωτήµατα 3) - F είναι ένα υπόβαθρο για την µοντελοποίηση της αναπαράστασης των κειµένων, των ερωτηµάτων και των σχέσεων µεταξύ τους - R(q i, d j ) είναι µια συνάρτηση κατάταξης, ηοποίασυνδέει έναν πραγµατικό αριθµό µε έναερώτηµα q i Q και µια αναπαράσταση κειµένου d j D. Μια τέτοια κατάταξη ορίζει µια διάταξη πάνω στα κείµενα πάντα µε βάσητοερώτηµα. q- i. Μοντέλα Α.Π. Συνολοθεωρητικό Κλασσικά Μοντέλα Ασαφές (Fuzzy) Επεκτεταµένο Boolean ιαδικασία Χρήστη Ανάκτηση: Ad-hoc Φιλτράρισµα Φυλλοµέτρηση Boolean Vector space Πιθανοτικό οµηµένα Μοντέλα Μη επικαλυπτόµενες λίστες Κοντινοί κόµβοι Αλγεβρικό Γενικευµένο Vector Space Λανθ. Σηµασ. εικτοδότηση Νευρωνικά ίκτυα Πιθανοτικό ίκτυα Εξαγ. Συµπεράσµατος ίκτυα Πεποίθησης Φυλλοµέτρηση Επίπεδη Καθοδηγούµενη από δοµή Υπερκειµένου

Ανεστραµµένα Αρχεία Inverted file : Structure for the efficient location of the occurrences of a term inside a text collection. Structure : Set of inverted lists, that are stored inside a file in a disk. Inverted list: a list that contains the occurrences of a term inside the texts of a collection Structure of an inverted list [3] <1,2> <2,1> <4,3> number of documents in the inverted list that contain the specific term pair <d,f d,t > : the term appears in the document 1, twice Depending on the requirements of the application an inverted list record can contain various kinds of information (e.g. number of the paragraph where the term appears etc.) 17 Ανεστραµµένα Αρχεία d 1 d 2 d 3 t 1 t 2 t 3 t 4 t 5 t 2 t 1 t 3 t 5 t 4 t 2 t 1 t 4 t 2 t 1 Document Collection Algorithm for Inverted File creation Mapping terms to Inverted lists t 1 t 2 t 3 t 4 t 5 [3] <d 1,1> <d 2,1> <d 3,2> [3] <d 1,1> <d 2,1> <d 3,2> [2] <d 1,1> <d 2,1> [2] <d 1,1> <d 3,2> [2] <d 1,1> <d 2,1> Inverted file 18

Παγκόσµιος Ιστός WWW url καταλόγους (π.χ. Yahoo) Μηχανές Αναζήτησης τεράστιος, µη οµογενής µεταβάλλεται ραγδαία επικοινωνιακό κόστος Παγκόσµιος Ιστός URL = Universal Resource Locator http://www.ceid.upatras.gr/ir/ Access method Host name Page name

Παγκόσµιος Ιστός Τεράστιο µέγεθος 2-10B στατικές σελίδες, διπλασιαζόµενες κάθε 8-12 µήνες Μέγεθος Λεξικού: 10-100άδες εκατοµµύρια λέξεις http://www.netcraft.com/survey Παγκόσµιος Ιστός Γλώσσες/Κωδικοποιήσεις: Εκατοντάδες γλώσσες, W3C κωδικοποιήσεις: 55 Σελίδες : Αγγλικές 82%, Επόµενες 15: 13% Μεγάλος Ρυθµός Αλλαγής στις Σελίδες Ανοµοιογένεια στη µορφή: Εκατοµµύρια άνθρωποι δηµιουργούν σελίδες µε τη δικιά τους γραµµατική, λεξικό, στυλ Πολλές φορές οι σελίδες εξυπηρετούν εµπορικούς σκοπούς (marketing) Μεγάλος Ρυθµός Αλλαγής στις Σελίδες Επανάληψη της ίδιας πληροφορίας Συντακτική επανάληψη (30-40% πανοµοιότυπες) Σηµασιολογική οµοιότητα? Υψηλή Συνεκτικότητα Κατά µέσο όρο ~8 σύνδεσµοι/σελίδα Πολύπλοκη τοπολογία γράφου Bow-tie τοπολογία

Παγκόσµιος Ιστός Συλλογή:Οι προσπελάσιµες σελίδες στον παγκόσµιο ιστό: στατικές + δυναµικές Στόχος: Ανάκτηση υψηλής ποιότητας αποτελεσµάτων που να είναι σχετικά µε τις ανάγκες του χρήστη Ανάγκη Πληροφοριακή ενηµέρωση για κάποια πληροφορία (~40%) Απλής διαπέρασης µετακίνηση σε µία σελίδα (~25%) Transactional πραγµατοποίηση µίας συναλλαγής (web-mediated) (~35%) Προσπέλαση υπηρεσίας Κατέβασµα πληροφορίας Αγορά Υβριδικό Εύρεση καλού hub ιερευνητικό ψάξιµο see what s there Παγκόσµιος Ιστός Στατικές σελίδες κείµενο (html, xml), mp3, images, video,... υναµικές σελίδες = παράγονται κατ απαίτηση data base access the invisible web proprietary content, etc.

Παγκόσµιος Ιστός Κακώς σχηµατισµένες ερωτήσεις µικρές σε πλήθος όρων ανακριβείς όροι µηβέλτιστησύνταξη(80% ερωτήµατα χωρίς τελεστή) χαµηλή προσπάθεια Μεγάλη απόκλιση σε ανάγκες επίπεδα αναµονής γνώση bandwidth Τυπική συµπεριφορά Εστίαση στην πρώτη οθόνη, όχι feedback, ακολούθηση υπερδεσµών Παγκόσµιος Ιστός Ποσότητες που µπορούν να µετρηθούν Το σχετικό µέγεθος των µηχανών αναζήτησης προβλήµατα επέκταση κειµένων: π.χ. το Google δεικτοδοτεί σελίδες που δεν έχουν γίνει crawl δεικτοδοτώντας anchor-text. περιορισµός στα κείµενα: Μερικές µηχανές περιορίζουν το τι δεικτοδοτείται (πρώτες n λέξεις, µόνοσχετικέςλέξειςκ.λ.π.) Η κάλυψηµίας µηχανής σε σχέση µε κάποιαάλληδιεργασίαcrawling.

Τεχνικές Εκτίµησης Μεγέθους Ιδανική στρατηγική: παρήγαγε ένα τυχαίο URL και έλεγξε αν εµπεριέχεται στις διάφορες δοµές δεικτοδότησης. Πρόβληµα: τυχαία URLs δεν βρίσκονται εύκολα Πάρε δείγµα URLs τυχαία από κάθε µηχανή 20,000 τυχαία URLs από κάθε µηχανή ιατύπωσε random conjunctive query µε <200 αποτελέσµατα Επέλεξε ένα τυχαίοurl από τα κορυφαία 200 αποτελέσµατα Έλεγξε αν είναι παρόντα σε άλλες µηχανές Query with 8 rarest words. Look for URL match Υπολόγισε µέγεθος τοµής Τεχνικές Εκτίµησης Μεγέθους Choose random searches extracted from a local log or build random searches Use only queries with small results sets. Count normalized URLs in result sets. Use ratio statistics Advantage: Might be a good reflection of the human perception of coverage

Η οµή του Παγκόσµιου Ιστού /~newbie/ www.ibm.com / / /leaf.htm Η οµή του Παγκόσµιου Ιστού Για τυχαίες σελίδες p1,p2: Pr[p1 να προσπελαύνεται από p2] ~ 1/4 Μέγιστη απόσταση µεταξύ 2 SCC κόµβων: >28 Μέση κατευθυνόµενη απόσταση µεταξύ 2 κόµβων: ~16 Μέση µη κατευθυνόµενη απόσταση: ~7

Power Laws - Γενικά ύο ποσότητες x και y συνδέονται µε έναν power law όταν y x -c log y = -c*log x y log y x log x Ένας γνωστός power law Κατανοµή Zipf y : συχνότητα λέξης σε κείµενο x : o x-οστός πιο συχνός όρος Power law για c=1 y 1/x

Power laws και στο Web? Broder et. al. 1999 x = #links που εισέρχονται σε σελίδα i y = #σελίδων µε x εισερχόµενα links y x -2.09 Power laws και στο Web? (συνέχεια) x = #links που εξέρχονται από σελίδα i y = #σελίδων µε x εξερχόµενα links y x -2.72

Χρησιµότητα Παρατήρησης Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web Βοηθάει στην κατασκευή νέων αλγορίθµων ταξινόµησης Εκτέλεση προσοµοιώσεων σε σχέση µε το Web Μοντελοποίηση του Web Μοντελοποίηση Γραφήµατος του Web Kumar et. al. Stochastic models for the Web Graph, FOCS 2000 t+1 v Οι πρώτοι t κόµβοι του Web

Μοντελοποίηση Γραφήµατος του Web Για τον t+1 φτιάξε d συνδέσµους d>1 Πως επιλέγεται ο ι-στος σύνδεσµος? Πιθανότητα 1-α ο i-στός σύνδεσµος του v t+1 v Πιθανότητα α µια τυχαία σελίδα Μοντελοποίηση Γραφήµατος του Web Όταν δηµιουργείται µια σελίδα αυτή ανήκει σε ένα θέµα. Μας ενδιαφέρει να αντιγράψουµε τους συνδέσµους µίας άλλης σελίδας στο θέµα Ή να εισάγουµε νέες ιδέες Το µοντέλο ακολουθεί Power laws! To µέσο πλήθος των σελίδων µε βαθµό d είναι: ( 2 α ) /(1 α ) ( ) Θ d

Επεκτάσεις Εµπορικά πιο σηµαντικές εφαρµογές: Enterprise search Peer-2-Peer (P2P) search Peer-to-Peer ίκτυα Όχι κεντρικός δεικτοδοτητής Κάθε κόµβος στο διαδίκτυο κτίζει και διαχειρίζεται το δικό του δείκτη Παραδείγµατα Gnutella Kazaa Bearshare Aimster Grokster Morpheus

Μηχανές Αναζήτησης Πρώτη γενιά - χρήση µόνο on page δεδοµένων κειµένου Συχνότητα λέξεων, γλώσσα εύτερη γενιά -- χρήση off-page, web-specific δεδοµένων Link (ή connectivity) ανάλυση Click-through δεδοµένα (σε ποια αποτελέσµατα γίνεται click on) Anchor-text (πως οι άνθρωποι αναφέρονται σε δεδοµένα) Τρίτη γενιά καταγραφή ανάγκης πίσω από ερώτηµα Σηµασιολογική ανάλυση σε τι αναφέρεται? Εστίαση σε ανάγκες χρηστών και όχι ερωτήµατα Προσδιορισµός context Βοήθεια στο χρήστη Ολοκλήρωση ψαξίµατος και ανάλυσης κειµένου Μηχανές Πρώτης Γενιάς Μοντέλο διανυσµατικού χώρου και Επεκταµένο Boolean µοντέλο Ταιριάσµατα: exact, prefix, phrase, Τελεστές: AND, OR, AND NOT, NEAR, Πεδία: TITLE:, URL:, HOST:, Συνήθως ο τελεστής AND υλοποιείται πιο εύκολα, και πιθανώς να είναι προτιµητέα ως η εκ των προτέρων επιλογή για µικρά ερωτήµατα ιάταξη TF παράγοντες: TF, άµεσα keywords, λέξεις σε τίτλους, άµεση έµφαση (headers), κ.λ.π. IDF παράγοντες: IDF, συνολικός αριθµός λέξεων στο corpus, συχνότητα στο query log, συχνότητα στη γλώσσα

Μηχανές εύτερηςγενιάς Κατάταξη - χρήση off-page, web-specific δεδοµένων - Link (ή connectivity) ανάλυση - Click-through δεδοµένα (σε ποια αποτελέσµατα οι άνθρωποι εστιάζουν) - Anchor-text (πως οι άνθρωποι αναφέρονται σε µία σελίδα) Crawling - Αλγόριθµοι δηµιουργίας του καλύτερου δυνατού corpus Μηχανές Τρίτης Γενιάς Query language determination and different ranking Integration of Search and Text Analysis Context determination spatial (user location/target location) query stream (previous queries) personal (user profile) Context use Result restriction Ranking modulation

Μηχανές Αναζήτησης ιαπερνώντας το διαδίκτυο (Crawling) ποιες σελίδες πρέπει να προσπελαστούν ; τι γίνεται όταν το περιεχόµενο των σελίδων µεταβάλλεται ; (refresh policy) πως ελαχιστοποιείται ο φόρτος ; πως η διαδικασία διαπέρασης γίνεται παράλληλα ;

Είδη Crawlers (Crawling) Κλασσικός Crawler επισκέπτεται ολόκληρο το παγκόσµιο ιστό και αντικαθιστά τη δοµή δεικτοδότησης. Περιοδικός Crawler επισκέπτεται τµήµατα του παγκοσµίου ιστού και ενηµερώνει υποσύνολο δοµής δεικτοδότησης Αυξητικός Crawler επιλεκτικά ψάχνει το παγκόσµιο Ιστό και αυξητικά µεταβάλλει τη δοµή δεικτοδότησης. Εστιασµένος Crawler επισκέπτεται σελίδες που σχετίζονται µε ένα συγκεκριµένο θέµα. Crawling - Επιλογή Σελίδων Μετρικές Σπουδαιότητας Interest Driven

Crawling - Επιλογή Σελίδων Μετρικές Σπουδαιότητας Interest Driven & Οµοιότητα Κειµένων If Q is the user interest then: A new approach to topic-specific web resource discovery Chakrabarti et al. 8 th WWW conference 1999 Crawling - Επιλογή Σελίδων Μετρικές Σπουδαιότητας Popularity Driven Location Driven

Context Graph Crawling Context Graph: Context graph created for each seed document. Root is the seed document. Nodes at each level show documents with links to documents at next higher level. Updated during crawl itself. Approach: 1. Construct context graph and classifiers using seed documents as training data. 2. Perform crawling using classifiers and context graph created. Context Graph Crawling

Crawling - Ανανέωση Σελίδων f (συχνότητα επισκεψιµότητας) =σταθερή f=f(λ i ) Crawling - Ανανέωση Σελίδων P 1 P 2

Crawling - Ανανέωση Σελίδων Synchronizing a database to improve freshness. Cho, Molina. In Pro-ceedings of the International Conference on Management of Data, 2000. Αποθήκευση Page Repository

Αποθήκευση Page Repository Κατανεµηµένο και αυξοµειώσιµο Φυσική Οργάνωση : αποδοτικό RPA και Streaming Access Log Hash Hash-Log Streaming +! -! + Access RPA ~ +! ~ Page Addition +! -! ~ Αποθήκευση Page Repository conflicts vs. freshness obsolete pages : µηχανισµός διαγραφής

ηµιουργία Ευρετηρίων Indexing ηµιουργία Ευρετηρίων Indexing text index inverted files suffix arrays signature files κατανεµηµένο συµπιεσµένο structure (link) index utility index : link : site

Ranking and Link Analysis O τρόπος διασύνδεσης των σελίδων µπορεί να µας δώσει σηµαντική επιπλέον πληροφορία! PageRank : The pagerank citation ranking:bringing order to the web. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google) HITS: Authoritative sources in a hyperlinked environment. Jon Kleinberg. Journal of the ACM, 46(5):604-632, November 1999. (Clever IBM, πρόδροµος της Teoma). PageRank Κάθε σελίδα λαµβάνει µία βαθµολογία που εκφράζει την «σηµαντικότητα» της. #in_links=760 www.upatras.gr www.stanford.edu #in_links=33600 www.upatras.gr www.stanford.edu

PageRank strongly connected graph PageRank random surfer model strongly connected assumption problem: rank leak, rank sink

PageRank random surfer model Λεπτοµέρειες Υπολογισµού (1) Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και ένα n n πιθανοτικό πίνακα µεταβάσεων P. Σε κάθε βήµα, είµαστε σε µία µόνο από τις καταστάσεις. Για 1 i,j n, το στοιχείο P ij µας δίνει τη πιθανότητα το j να βρίσκεται στην επόµενη κατάσταση, υποθέτοντας ότι βρισκόµαστε στην κατάσταση i. Μία Markov chain είναι εργοδική εάν Υπάρχει µονοπάτι από κάθε κατάσταση σε άλλη Μπορούµε να βρισκόµαστε σε κάθε κατάσταση κάθε στιγµή µε µη µηδενική πιθανότητα.

Λεπτοµέρειες Υπολογισµού (2) Για κάθε εργοδική Markov αλυσίδα, υπάρχει µία Steady-state distribution. Έστω a = (a 1, a n ) το row vector µε τις steady-state πιθανότητες. Εάν η τρέχουσα θέση περιγράφεται µε a, τότε η επόµενη περιγράφεται µε ap. Άρα a=ap, και συνεπώς το a είναι το (αριστερό) ιδιοδιάνυσµα τουp. (αντιστοιχεί στο βασικό ιδιοδιάνυσµα τουp µε τη µεγαλύτερη ιδιοτιµή.) Hypertext Induced Topic Search (HITS) Χρησιµοποιεί µηχανισµό αξιολόγησης που εξαρτάται από ένα ερώτηµα Q. authority hub Q= greek university Authority : www.upatras.gr www.auth.gr Hub: www.gunet.gr Universities Worldwide http://geowww.uibk.ac.at/univ/world.html

Hypertext Induced Topic Search (HITS) Απάντηση στο Q max{d} S: focused subgraph (all the outgoing, a restricted number of the incoming) R S : root set (~10 3 ) Hypertext Induced Topic Search (HITS)

Hypertext Induced Topic Search (HITS) Hypertext Induced Topic Search (HITS)

Hypertext Induced Topic Search (HITS) Πολλαπλά σύνολα jaguar randomized algorithms abortion Tag/position heuristics Αύξησε βάρη όρων σε τίτλους σε tags Κοντά στην αρχή του κειµένου, στα κεφάλαια και sections

Χρήσεις του Anchor Text Όταν δεικτοδοτείται µία σελίδα, να δεικτοδοτείται επίσης και το anchor text των υπερδεσµών που δείχνουν σε αυτή. Γιαναδίνονταικατάλληλαβάρηστοναλγόριθµο hubs/authorities. Το Anchor text συνήθως είναι ένα παράθυρο µεγέθους 6-8 λέξεων, γύρω από ένα link anchor. h( x) a( y) xa y a( x) h( y) a( x) = w( x, y) h( y) yax h( x) = xay yax w( x, y) a( y) Web sites, όχι σελίδες Οι σελίδες σε ένα site δίνουν πληροφορίας για παραλλαγές ίδιου θέµατος

Web Mining Taxonomy Web Content Mining Keyword Term Association Similarity Search Classification Clustering Natural Language Processing

Web Usage Mining Ordering Duplicates Consecutive Maximal Support Association Rules N N N N Freq(X)/#transactions Episodes Y N N N Freq(X)/#timewindows Sequential patterns Y N N Y Freq(X)/#customers Forward sequences Y N Y Y Freq(X)/#forward sequences Maximal forward sequences Y Y Y Y Freq(X)/#clicks Βιβλιογραφία R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999. Christofer Manning, Pradhakar Raghavan, Hunrich Schutze, Introduction to Information Retrieval, Cambridge University Press, 2008. (http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html) Ι. Witten, A. Moffat, T. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann Publishers, 1999. G. Salton, M. McGill, An Introduction to Modern Information Retrieval, New York: McGraw-Hill, 1983. Van Reijsbergen, Information Retrieval, London: Butterworths, 1979 Van Reijsbergen, The Geometry of Information Retrieval, Cambridge University Press, 2005 W.B. Frakes, R. Baeza-Yates, Information Retrieval: Data Structures and Algorithms, Prentice Hall, EngleWood Cliffs, NJ. USA 1992. Σηµειώσεις : http://mmlab.ceid.upatras.gr/ir

B. Allen, Information Tasks: Towards a User-Centered Approach to Information Systems. Academic Press, San Diego, CA, 1996. M. Attalah ed., Algorithms and Theory of Computation Handbook CRC Press 1999. D. Gusfield, Algorithms on Strings, Trees and Sequences, Cambridge University Press, 1997. V.S. Subrahmanian. Principles of Multimedia Database Systems, Morgan Kaufmann, 1998. Ian H. Witten, Alistair Moffat, and Timothy C. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kaufmann, 1999. S. Abiteboul, P. Buneman, D. Suciu, Data on the Web: From Relations to Semistructured Data and XML, Morgan Kaufmann, 1999