ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 5//013 ο ΓΛΩΣΣΑ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ
Ενότητες Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο
Ενότητες 3 Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο
Συστήματα Ανάκτησης Πληροφορίας 4 Αναζήτηση και εντοπισμός πληροφορίας που σχετίζεται με την πληροφοριακή ανάγκη του χρήστη Document corpus Ταυτόσημη με της αναζήτηση πληροφορίας στον Παγκόσμιο Ιστό Query Strng IR System Ranked Documents 1. Doc1. Doc 3. Doc3..
Τύπος Πληροφορίας 5 Κείμενο XML Εικόνες Ήχος Βίντεο Κώδικας Εφαρμογές / web servces
Ανάκτηση και Βάσεις Δεδομένων 6 Student Table Student ID Last Name Frst Name Department ID emal 1 Amn Somala CS somala@ ACAMPA NEIL CS nel@ 3 Steve Bunn CS steve@ Department Table Department ID EE HIST CLIS Department Electrcal Engneerng Hstory Informaton Studes Course Table Course ID lbsc690 ee750 hst405 Course Name Informaton Technology Communcaton Amercan Hstory Enrollment Table Student ID Course ID Grade 1 lbsc690 90 1 ee750 95 lbsc690 95 hst405 80 3 hst405 90 4 lbsc690 98 Τι πληροφορίες θα αναζητούσαμε σε αυτή τη ΒΔ;
Ανάκτηση και Βάσεις Δεδομένων Πληροφορία Δομημένη Πεδία Ερωτήματα Ταυτοποίηση ΒΔ Ξεκάθαρη σημασιολογία (SSN, age) Καθορισμένα (σχεσιακή άλγεβρα, SQL) Απόλυτη (τα αποτελέσματα είναι πάντα σωστά ) IR Μη-Δομημένη Δεν υπάρχουν πεδία (εκτός από το κείμενο) Ελεύθερο κείμενο ( φυσικής γλώσσας ), Boolean Ανακριβής (αναγκαίο να μετρήσουμε την αποτελεσματικότητα) 7
Το Μαύρο Κουτί του IR 8 Query Documents Hts
Εξερευνώντας το Μάυρο Κουτί 9 Query Documents Representaton Functon Representaton Functon Query Representaton Document Representaton Comparson Functon Index Hts
Δημιουργώντας το Μάυρο Κουτί 10 Διαφορετικά μοντέλα IR Boolean Vector space (διανυσματικού χώρου) Αναπαράσταση του νοήματος των κειμένων Πώς θα βρούμε το νόημα; Είναι το άθροισμα των όρων; Δεικτοδότηση Πώς θα αποθηκεύσουμε όλες αυτές τις λέξεις; Πώς θα βρούμε γρήγορα τους όρους δεικτοδότησης;
Ενότητες 11 Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο
Το κεντρικό πρόβλημα του IR 1 Informaton Seeker Authors Concepts Concepts Query Terms Document Terms Αναπαριστούν τις ίδιες έννοιες;
Σχετικότητα 13 Υποκειμενική εκτίμηση που εξετάζει: Ομοιότητα θέματος Σχετικότητα χρόνου (πρόσφατη πληροφορία) Εμπιστοσύνη της πηγής Ικανοποίηση πληροφοριακής ανάγκης χρήστη
Ταξινόμηση 14 Παλιότερα: Boolean queres θέτουν τους όρους που πρέπει να ικανοποιηθούν Οι όροι του ερωτήματος είτε ταυτοποιούνται στο κείμενο είτε όχι Σήμερα: Το ερώτημα εκφράζει την πληροφοριακή ανάγκη του χρήστη Ταξινόμηση κατά φθίνουσα σχετικότητα κειμένου
Μια ευρετική φόρμουλα Ταξινόμηση βάσει ομοιότητας κειμένου με το ερώτημα π.χ. Query = cryogenc labs Ομοιότητα = # λέξεις ερωτήματος που υπάρχουν στο κείμενο Ευνοεί κείμενα που περιέχουν και τις δύο λέξεις sm ( D, Q) 1 qq qd 15
Term Frequency (TF) Παρατήρηση Λέξεις επαναλαμβάνονται στο κείμενο Τροποποίηση μέτρου ομοιότητας Δίνουμε μεγαλύτερο βάρος σε λέξεις που εμφανίζονται πολλές φορές στο κείμενο ( D, Q) ( Πρόβλημα: ευνοούνται τα μεγάλα κείμενα Λύση: κανονικοποίηση βάσει μήκους κειμένου sm tf q) D sm ( D, Q) qq qq tf D ( q) D 16
Inverse Document Frequency (IDF) Παρατήρηση Σπάνιες λέξεις = ακριβέστερη σημασία (π.χ. cryogenc) Συχνές λέξεις: καμία σημασία (π.χ. of, the) Τροποποίηση μέτρου ομοιότητας Δίνουμε μεγαλύτερο βάρος σε σπάνιες λέξεις sm ( D, Q) tf ( q) log C D q Q D df ( q) C πλήθος κειμένων df(q) πλήθος κειμένων που περιέχουν το q 17
Διανυσματικός χώρος 18 cat cat cat cat cat cat cat pg pg cat θ pg cat cat pg dog dog dog
19 Ομοιότητα διανυσματικού χώρου ) ( ) ( ), ( : comparson smlarty n the normalze otherwse ), ( : normalzed term weghts f absent term s a 0 f...,,,...,, 1 1 1 1, 1 1 t j d t j qj t j d qj t j d qj qt q q d d d j j j t w w w w D Q sm w w D Q sm w w w w Q w w w D
Υπολογίζοντας την ομοιότητα 0 Έστω το ερώτημα : Και το κείμενο : Q (0.4,0.8) D (0.,0.7) Από την συνάρτηση ομοιότητας προκύπτει: sm ( Q, D ) [(0.4) 0.64 0.4 (0.4*0.) (0.8*0.7) (0.8) ]*[(0.) (0.7) ]
Υπολογίζοντας την ομοιότητα 1 Term B 1.0 0.8 0.6 0.4 0. D Q Q = (0.4,0.8) D1=(0.8,0.3) D=(0.,0.7) D 1 0 0. 0.4 0.6 0.8 1.0 Term A D =(d 1,w d1 ;d, w d ; ;d t, w dt ) Q =(q 1,w q1 ;q, w q ; ;q t, w qt ) sm ( Q, D ) sm ( Q, D) [(0.4) t j1 w q d t t ( w j q ) 1 j j1 (0.8) 0.64 0.98 0.4.56 sm ( Q, D1 ) 0.74 0.58 j w j ( w (0.40.) (0.80.7) ] [(0.) d j ) (0.7) ]
Μετρικές ομοιότητας Dot product Cosne Dce Jaccard b a b a b a Q D Sm b a b a Q D Sm b a b a Q D Sm b a Q D Sm ) * ( ) * ( ), ( ) * ( ), ( * ) * ( ), ( ) * ( ), (
Ομοιότητα μεταξύ δύο κειμένων 3 nova galaxy heat h wood flm role det fur A 1 3 1 B 5 C 1 5 D 1 Πώς θα υπολογίσουμε την ομοιότητα μεταξύ κειμένων;
Ομοιότητα μεταξύ δύο κειμένων 4 D D 1 w w sm ( D 1 11 1, w, w, D 1,, )..., w t 1 1t..., w t w 1 w sm ( A, B) (1 5) (3) 11 sm ( A, C) 0 sm ( A, D) 0 sm ( B, C) 0 sm ( B, D) 0 sm ( C, D) ( 4) (11) 9 nova galaxy heat h wood flm role det fur A 1 3 1 B 5 C 1 5 D 1
Μοντελοποίηση Γλώσσας 5 Το ερώτημα είναι ένα τυχαίο δείγμα ενός «τέλειου» κειμένου Ανεξάρτητη δειγματοληψία λέξεων Ταξινόμηση κειμένων βάσει πιθανότητας να δημουργηθεί ερώτημα D query P ( ) = P ( ) P ( ) P ( ) P ( ) = 4/9 * /9 * 4/9 * 3/9
6 Το PageRank
PageRank 7 I 1 A B PR( A) (1 d) d PR( I C( I ) ) I Αναθέτουμε μια τιμή σε κάθε σελίδα Όσο περισσότερες σελίδες δείχνουν σε μία σελίδα τόσο πιο σημαντική είναι αυτή d: dampng factor (0.85) Επιπλέον κριτήρια: π.χ. εγγύτητα όρων ερωτήματος nformaton retreval καλύτερο από nformaton retreval
Ενότητες 8 Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο
Αναζήτηση με λέξεις κλειδιά 9 Απλούστερη εκτίμηση σχετικότητας αν οι λέξεις του ερωτήματος υπάρχουν αυτούσιες στο κείμενο Εναλλακτικά, αν οι λέξεις του ερωτήματος εμφανίζονται συχνά μέσα στο κείμενο (bag of words)
Προβλήματα με τις λέξεις κλειδιά 30 Δεν ανακτούν κείμενα που περιέχουν συνώνυμα των λέξεων του ερωτήματος PRC vs. Chna Φούρνος vs. αρτοποιείο Μπορεί να ανακτήσουν άσχετα κείμενα λόγω αμφισημίας των όρων ερωτήματος Apple (εταιρεία vs. φρούτο) Jaguar (αυτοκίνητο vs. ζώο)
Επέκταση όρων Ερωτήματος 31 Προβλήματα εξαιτίας αναντιστοιχίας όρων ερωτήματος και όρων που περιέχονται στα κείμενα Query: cars, Document: automobles Επέκταση ερωτήματος Χρήση συνωνύμων (WordNet) Χρήση όρων που προκύπτουν από στατιστική ανάλυση
Ενότητες 3 Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο
Δεικτοδότηση κειμένου 33 Στόχος: εύρεση νοήματος και εσωτερική αναπαράσταση Ποια η καλύτερη αναπαράσταση του περιεχομένου; Char. Strng: όχι καλή ακρίβεια Word: μεγάλη κάλυψη αλλά όχι ακρίβεια Phrase: χαμηλή κάλυψη, μεγαλύτερη ακρίβεια Concept: χαμηλή κάλυψη, ακρίβεια Coverage (Recall) Strng Word Phrase Concept Accuracy (Precson)
34 Βήματα δεικτοδότησης Doc 1 I dd enact Julus Caesar I was klled ' the Captol; Brutus klled me. Doc So let t be wth Caesar. The noble Brutus hath told you Caesar was ambtous Term Doc # I 1 dd 1 enact 1 julus 1 caesar 1 I 1 was 1 klled 1 ' 1 the 1 captol 1 brutus 1 klled 1 me 1 so let t be wth caesar the noble brutus hath told you caesar was ambtous
Βήματα δεικτοδότησης 35 Συγχώνευση όρων με πολλαπλές εμφανίσεις στο κείμενο Προστίθεται πληροφορία για τη συχνότητα Term Doc # ambtous be brutus 1 brutus captol 1 caesar 1 caesar caesar dd 1 enact 1 hath 1 I 1 I 1 ' 1 t julus 1 klled 1 klled 1 let me 1 noble so the 1 the told you was 1 was wth Term Doc # Term freq ambtous 1 be 1 brutus 1 1 brutus 1 captol 1 1 caesar 1 1 caesar dd 1 1 enact 1 1 hath 1 I 1 ' 1 1 t 1 julus 1 1 klled 1 let 1 me 1 1 noble 1 so 1 the 1 1 the 1 told 1 you 1 was 1 1 was 1 wth 1
επεξεργασία 36/41 Απομάκρυνση Stopwords Αποκατάληξη (stemmng) Εύρεση πρώτου κλιτικού τύπου(lemmatzaton)
Ενότητες 37 Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο Διαδίκτυο
IR στο web 38 Όχι σταθερή συλλογή κειμένων (crawler) Επανάληψη πληροφορίας Μέγεθος συλλογής Πολυμεσικά δεδομένα Αποκλίσεις στην ποιότητα των κειμένων Πολυγλωσσία...
Web Search 39 Web Spder Document corpus Query Strng IR System 1. Page1. Page 3. Page3.. Ranked Documents
Ερωτήσεις 40 Ευχαριστώ!!! Acknowledgement: Sldes Σοφία Στάμου Jmmy Ln, Vctor Lavrenko, Heng J