ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Σχετικά έγγραφα
Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Ανάκτηση Πληροφορίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Information Retrieval

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Τι (άλλο) θα δούμε σήμερα;

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

Ανάκτηση Πληροφορίας

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Ανάκτηση πολυμεσικού περιεχομένου

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Ανάκτηση Πληροφορίας

Social Web: lesson #4

Ανάκτηση Δεδομένων (Information Retrieval)

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Information Technology for Business

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Ανάκτηση Πληροφορίας. Φροντιστήριο 3

Εργαστήριο Προγραμματισμού και τεχνολογίας Ευφυών συστημάτων (intelligence)

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Ανάκτηση Πληροφορίας

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Εαρινό Εξάμηνο

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Παλαιότερες ασκήσεις

Πιθανοκρατικό μοντέλο

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα

Η έρευνα και το διαδίκτυο:

Επεξεργασία Ερωτήσεων

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Βάσεις Δεδομένων Ι Εξεταστική Περίοδος Φεβρουαρίου 2006

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

Βάσεις Δεδομένων ΙΙ. Διάλεξη 5 η XML και ΒΔ στο Διαδίκτυο

Ανάκτηση Πληροφορίας

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου.

Στατιστική, Άσκηση 2. (Κανονική κατανομή)

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Αναπαράσταση Γνώσης και Αναζήτηση στον Σηµασιολογικό Ιστό

Αναλυτικές λειτουργίες ΣΓΠ

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Δυναμικός Κατακερματισμός

Πληροφορική 2. Δομές δεδομένων και αρχείων

Επεξεργασία Ερωτήσεων

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

Ανάκτηση Πληροφορίας

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση πληροφορίας

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Μεθοδολογία Έρευνας Διάλεξη 6 η : Μέθοδοι Δειγματοληψίας

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ - ΤΜΗΥΠ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΙI

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

Ανάκτηση πληροφορίας

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Σχεδίαση Βάσεων Δεδομένων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

1. Financial New Times Year MAXk {FREQij} D D D D

6 Εικόνα εξώφυλλου: Λωρίδα του Mobius (Σύνθεση). Νικόλαος Μπαλκίζας 10

Ψηφιακή οργάνωση πολιτισμικής πληροφορίας

Θεωρία Κανονικοποίησης

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Τμήμα Πληροφορικής ΑΠΘ

Κεφ.11: Ευρετήρια και Κατακερματισμός

Transcript:

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 5//013 ο ΓΛΩΣΣΑ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

Ενότητες Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο

Ενότητες 3 Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο

Συστήματα Ανάκτησης Πληροφορίας 4 Αναζήτηση και εντοπισμός πληροφορίας που σχετίζεται με την πληροφοριακή ανάγκη του χρήστη Document corpus Ταυτόσημη με της αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό Query Strng IR System Ranked Documents 1. Doc1. Doc 3. Doc3..

Τύπος Πληροφορίας 5 Κείμενο XML Εικόνες Ήχος Βίντεο Κώδικας Εφαρμογές / web servces

Ανάκτηση και Βάσεις Δεδομένων 6 Student Table Student ID Last Name Frst Name Department ID emal 1 Amn Somala CS somala@ ACAMPA NEIL CS nel@ 3 Steve Bunn CS steve@ Department Table Department ID EE HIST CLIS Department Electrcal Engneerng Hstory Informaton Studes Course Table Course ID lbsc690 ee750 hst405 Course Name Informaton Technology Communcaton Amercan Hstory Enrollment Table Student ID Course ID Grade 1 lbsc690 90 1 ee750 95 lbsc690 95 hst405 80 3 hst405 90 4 lbsc690 98 Τι πληροφορίες θα αναζητούσαμε σε αυτή τη ΒΔ;

Ανάκτηση και Βάσεις Δεδομένων Πληροφορία Δομημένη Πεδία Ερωτήματα Ταυτοποίηση ΒΔ Ξεκάθαρη σημασιολογία (SSN, age) Καθορισμένα (σχεσιακή άλγεβρα, SQL) Απόλυτη (τα αποτελέσματα είναι πάντα σωστά ) IR Μη-Δομημένη Δεν υπάρχουν πεδία (εκτός από το κείμενο) Ελεύθερο κείμενο ( φυσικής γλώσσας ), Boolean Ανακριβής (αναγκαίο να μετρήσουμε την αποτελεσματικότητα) 7

Το Μαύρο Κουτί του IR 8 Query Documents Hts

Εξερευνώντας το Μάυρο Κουτί 9 Query Documents Representaton Functon Representaton Functon Query Representaton Document Representaton Comparson Functon Index Hts

Δημιουργώντας το Μάυρο Κουτί 10 Διαφορετικά μοντέλα IR Boolean Vector space (διανυσματικού χώρου) Αναπαράσταση του νοήματος των κειμένων Πώς θα βρούμε το νόημα; Είναι το άθροισμα των όρων; Δεικτοδότηση Πώς θα αποθηκεύσουμε όλες αυτές τις λέξεις; Πώς θα βρούμε γρήγορα τους όρους δεικτοδότησης;

Ενότητες 11 Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο

Το κεντρικό πρόβλημα του IR 1 Informaton Seeker Authors Concepts Concepts Query Terms Document Terms Αναπαριστούν τις ίδιες έννοιες;

Σχετικότητα 13 Υποκειμενική εκτίμηση που εξετάζει: Ομοιότητα θέματος Σχετικότητα χρόνου (πρόσφατη πληροφορία) Εμπιστοσύνη της πηγής Ικανοποίηση πληροφοριακής ανάγκης χρήστη

Ταξινόμηση 14 Παλιότερα: Boolean queres θέτουν τους όρους που πρέπει να ικανοποιηθούν Οι όροι του ερωτήματος είτε ταυτοποιούνται στο κείμενο είτε όχι Σήμερα: Το ερώτημα εκφράζει την πληροφοριακή ανάγκη του χρήστη Ταξινόμηση κατά φθίνουσα σχετικότητα κειμένου

Μια ευρετική φόρμουλα Ταξινόμηση βάσει ομοιότητας κειμένου με το ερώτημα π.χ. Query = cryogenc labs Ομοιότητα = # λέξεις ερωτήματος που υπάρχουν στο κείμενο Ευνοεί κείμενα που περιέχουν και τις δύο λέξεις sm ( D, Q) 1 qq qd 15

Term Frequency (TF) Παρατήρηση Λέξεις επαναλαμβάνονται στο κείμενο Τροποποίηση μέτρου ομοιότητας Δίνουμε μεγαλύτερο βάρος σε λέξεις που εμφανίζονται πολλές φορές στο κείμενο ( D, Q) ( Πρόβλημα: ευνοούνται τα μεγάλα κείμενα Λύση: κανονικοποίηση βάσει μήκους κειμένου sm tf q) D sm ( D, Q) qq qq tf D ( q) D 16

Inverse Document Frequency (IDF) Παρατήρηση Σπάνιες λέξεις = ακριβέστερη σημασία (π.χ. cryogenc) Συχνές λέξεις: καμία σημασία (π.χ. of, the) Τροποποίηση μέτρου ομοιότητας Δίνουμε μεγαλύτερο βάρος σε σπάνιες λέξεις sm ( D, Q) tf ( q) log C D q Q D df ( q) C πλήθος κειμένων df(q) πλήθος κειμένων που περιέχουν το q 17

Διανυσματικός χώρος 18 cat cat cat cat cat cat cat pg pg cat θ pg cat cat pg dog dog dog

19 Ομοιότητα διανυσματικού χώρου ) ( ) ( ), ( : comparson smlarty n the normalze otherwse ), ( : normalzed term weghts f absent term s a 0 f...,,,...,, 1 1 1 1, 1 1 t j d t j qj t j d qj t j d qj qt q q d d d j j j t w w w w D Q sm w w D Q sm w w w w Q w w w D

Υπολογίζοντας την ομοιότητα 0 Έστω το ερώτημα : Και το κείμενο : Q (0.4,0.8) D (0.,0.7) Από την συνάρτηση ομοιότητας προκύπτει: sm ( Q, D ) [(0.4) 0.64 0.4 (0.4*0.) (0.8*0.7) (0.8) ]*[(0.) (0.7) ]

Υπολογίζοντας την ομοιότητα 1 Term B 1.0 0.8 0.6 0.4 0. D Q Q = (0.4,0.8) D1=(0.8,0.3) D=(0.,0.7) D 1 0 0. 0.4 0.6 0.8 1.0 Term A D =(d 1,w d1 ;d, w d ; ;d t, w dt ) Q =(q 1,w q1 ;q, w q ; ;q t, w qt ) sm ( Q, D ) sm ( Q, D) [(0.4) t j1 w q d t t ( w j q ) 1 j j1 (0.8) 0.64 0.98 0.4.56 sm ( Q, D1 ) 0.74 0.58 j w j ( w (0.40.) (0.80.7) ] [(0.) d j ) (0.7) ]

Μετρικές ομοιότητας Dot product Cosne Dce Jaccard b a b a b a Q D Sm b a b a Q D Sm b a b a Q D Sm b a Q D Sm ) * ( ) * ( ), ( ) * ( ), ( * ) * ( ), ( ) * ( ), (

Ομοιότητα μεταξύ δύο κειμένων 3 nova galaxy heat h wood flm role det fur A 1 3 1 B 5 C 1 5 D 1 Πώς θα υπολογίσουμε την ομοιότητα μεταξύ κειμένων;

Ομοιότητα μεταξύ δύο κειμένων 4 D D 1 w w sm ( D 1 11 1, w, w, D 1,, )..., w t 1 1t..., w t w 1 w sm ( A, B) (1 5) (3) 11 sm ( A, C) 0 sm ( A, D) 0 sm ( B, C) 0 sm ( B, D) 0 sm ( C, D) ( 4) (11) 9 nova galaxy heat h wood flm role det fur A 1 3 1 B 5 C 1 5 D 1

Μοντελοποίηση Γλώσσας 5 Το ερώτημα είναι ένα τυχαίο δείγμα ενός «τέλειου» κειμένου Ανεξάρτητη δειγματοληψία λέξεων Ταξινόμηση κειμένων βάσει πιθανότητας να δημουργηθεί ερώτημα D query P ( ) = P ( ) P ( ) P ( ) P ( ) = 4/9 * /9 * 4/9 * 3/9

6 Το PageRank

PageRank 7 I 1 A B PR( A) (1 d) d PR( I C( I ) ) I Αναθέτουμε μια τιμή σε κάθε σελίδα Όσο περισσότερες σελίδες δείχνουν σε μία σελίδα τόσο πιο σημαντική είναι αυτή d: dampng factor (0.85) Επιπλέον κριτήρια: π.χ. εγγύτητα όρων ερωτήματος nformaton retreval καλύτερο από nformaton retreval

Ενότητες 8 Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο

Αναζήτηση με λέξεις κλειδιά 9 Απλούστερη εκτίμηση σχετικότητας αν οι λέξεις του ερωτήματος υπάρχουν αυτούσιες στο κείμενο Εναλλακτικά, αν οι λέξεις του ερωτήματος εμφανίζονται συχνά μέσα στο κείμενο (bag of words)

Προβλήματα με τις λέξεις κλειδιά 30 Δεν ανακτούν κείμενα που περιέχουν συνώνυμα των λέξεων του ερωτήματος PRC vs. Chna Φούρνος vs. αρτοποιείο Μπορεί να ανακτήσουν άσχετα κείμενα λόγω αμφισημίας των όρων ερωτήματος Apple (εταιρεία vs. φρούτο) Jaguar (αυτοκίνητο vs. ζώο)

Επέκταση όρων Ερωτήματος 31 Προβλήματα εξαιτίας αναντιστοιχίας όρων ερωτήματος και όρων που περιέχονται στα κείμενα Query: cars, Document: automobles Επέκταση ερωτήματος Χρήση συνωνύμων (WordNet) Χρήση όρων που προκύπτουν από στατιστική ανάλυση

Ενότητες 3 Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο

Δεικτοδότηση κειμένου 33 Στόχος: εύρεση νοήματος και εσωτερική αναπαράσταση Ποια η καλύτερη αναπαράσταση του περιεχομένου; Char. Strng: όχι καλή ακρίβεια Word: μεγάλη κάλυψη αλλά όχι ακρίβεια Phrase: χαμηλή κάλυψη, μεγαλύτερη ακρίβεια Concept: χαμηλή κάλυψη, ακρίβεια Coverage (Recall) Strng Word Phrase Concept Accuracy (Precson)

34 Βήματα δεικτοδότησης Doc 1 I dd enact Julus Caesar I was klled ' the Captol; Brutus klled me. Doc So let t be wth Caesar. The noble Brutus hath told you Caesar was ambtous Term Doc # I 1 dd 1 enact 1 julus 1 caesar 1 I 1 was 1 klled 1 ' 1 the 1 captol 1 brutus 1 klled 1 me 1 so let t be wth caesar the noble brutus hath told you caesar was ambtous

Βήματα δεικτοδότησης 35 Συγχώνευση όρων με πολλαπλές εμφανίσεις στο κείμενο Προστίθεται πληροφορία για τη συχνότητα Term Doc # ambtous be brutus 1 brutus captol 1 caesar 1 caesar caesar dd 1 enact 1 hath 1 I 1 I 1 ' 1 t julus 1 klled 1 klled 1 let me 1 noble so the 1 the told you was 1 was wth Term Doc # Term freq ambtous 1 be 1 brutus 1 1 brutus 1 captol 1 1 caesar 1 1 caesar dd 1 1 enact 1 1 hath 1 I 1 ' 1 1 t 1 julus 1 1 klled 1 let 1 me 1 1 noble 1 so 1 the 1 1 the 1 told 1 you 1 was 1 1 was 1 wth 1

επεξεργασία 36/41 Απομάκρυνση Stopwords Αποκατάληξη (stemmng) Εύρεση πρώτου κλιτικού τύπου(lemmatzaton)

Ενότητες 37 Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο

IR στο web 38 Όχι σταθερή συλλογή κειμένων (crawler) Επανάληψη πληροφορίας Μέγεθος συλλογής Πολυμεσικά δεδομένα Αποκλίσεις στην ποιότητα των κειμένων Πολυγλωσσία...

Web Search 39 Web Spder Document corpus Query Strng IR System 1. Page1. Page 3. Page3.. Ranked Documents

Ερωτήσεις 40 Ευχαριστώ!!! Acknowledgement: Sldes Σοφία Στάμου Jmmy Ln, Vctor Lavrenko, Heng J