ΜΥΕ003: Ανάκτηση Πληροφορίας

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΜΥΕ003: Ανάκτηση Πληροφορίας"

Transcript

1 ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 6, 7, 8.7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. Περιλήψεις. 1

2 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση και κατάταξη εγγράφων Στάθμιση όρων (term weighting) Αναπαράσταση εγγράφων και ερωτημάτων ως διανύσματα 2

3 Κεφ. 6 Boolean Μοντέλο Μέχρι τώρα, τα ερωτήματα που είδαμε ήταν Boolean. Τα έγγραφα είτε ταιριάζουν στο ερώτημα, είτε όχι Τα Boolean ερωτήματα συχνά έχουν είτε πολύ λίγα (=0) είτε πάρα πολλά (χιλιάδες) αποτελέσματα ( feast or famine ) Ερώτημα 1: standard user dlink ,000 hits Ερώτημα 2: standard user dlink 650 no card found : 0 hits Χρειάζεται επιδεξιότητα για να διατυπωθεί μια ερώτηση που έχει ως αποτέλεσμα ένα διαχειρίσιμο αριθμό ταιριασμάτων AND πολύ λίγα - OR πάρα πολλά 3

4 Κεφ. 6 Boolean Μοντέλο Κατάλληλο για ειδικούς με σαφή κατανόηση των αναγκών τους και γνώση της συλλογής Επίσης, καλό για εφαρμογές: οι εφαρμογές μπορούν να επεξεργαστούν χιλιάδες αποτελεσμάτων. Αλλά, όχι κατάλληλο για την πλειοψηφία των χρηστών Είναι δύσκολο για τους περισσότερους χρήστες να διατυπώσουν Boolean ερωτήματα Οι περισσότεροι χρήστες δεν θέλουν να διαχειριστούν χιλιάδες αποτελέσματα. Ιδιαίτερα στην περίπτωση των αναζητήσεων στο web 4

5 Κεφ. 6 Μοντέλα διαβαθμισμένης ανάκτησης Αντί ενός συνόλου εγγράφων που ικανοποιούν το ερώτημα, η διαβαθμισμένη ανάκτηση (ranked retrieval) επιστρέφει μια διάταξη των (κορυφαίων) για την ερώτηση εγγράφων της συλλογής Όταν το σύστημα παράγει ένα διατεταγμένο σύνολο αποτελεσμάτων, τα μεγάλα σύνολα δεν αποτελούν πρόβλημα Δείχνουμε απλώς τα κορυφαία (top) k ( 10) αποτελέσματα Δεν παραφορτώνουμε το χρήστη Προϋπόθεση: ο αλγόριθμος διάταξης να δουλεύει σωστά 5

6 Μοντέλα διαβαθμισμένης ανάκτησης Η διαβαθμισμένη ανάκτηση συνήθως με ερωτήματα ελεύθερου κειμένου Ερωτήματα ελεύθερου κειμένου (Free text queries): Μία ή περισσότερες λέξεις σε μια φυσική γλώσσα (αντί για μια γλώσσα ερωτημάτων με τελεστές και εκφράσεις) 6

7 Κεφ. 6 Βαθμολόγηση ως βάση της διαβαθμισμένης ανάκτησης Θέλουμε να επιστρέψουμε τα αποτελέσματα διατεταγμένα με βάση το πόσο πιθανό είναι να είναι χρήσιμα στο χρήστη ή με βάση τη συνάφεια τους με το ερώτημα Πως διατάσουμε-διαβαθμίζουμε τα έγγραφα μιας συλλογής με βάση ένα ερώτημα; Αναθέτουμε ένα βαθμό (score) ας πούμε στο [0, 1] σε κάθε έγγραφο score(d, q): μετρά πόσο καλά το έγγραφο d ταιριάζει (match) με το ερώτημα q 7

8 Κεφ. 6 Βαθμός ταιριάσματος ερωτήματοςεγγράφου Χρειαζόμαστε ένα τρόπο για να αναθέσουμε ένα βαθμό σε κάθε ζεύγος ερωτήματος (q), εγγράφου (d) score(d, q) Αν κανένα όρος του ερωτήματος δεν εμφανίζεται στο έγγραφο, τότε ο βαθμός θα πρέπει να είναι 0 Όσο πιο συχνά εμφανίζεται ο όρος του ερωτήματος σε ένα έγγραφο, τόσο μεγαλύτερος θα πρέπει να είναι ο βαθμός Θα εξετάσουμε κάποιες εναλλακτικές για αυτό 8

9 Κεφ. 6 Προσπάθεια 1: Συντελεστής Jaccard Υπενθύμιση: συνηθισμένη μέτρηση της επικάλυψης δύο συνόλων A και B jaccard(a,b) = A B / A B jaccard(a, A) = 1 jaccard(a, B) = 0 if A B = 0 Τα A και B δεν έχουν απαραίτητα το ίδιο μέγεθος Αναθέτει πάντα έναν αριθμό μεταξύ του 0 και του 1 Θεωρούμε το ερώτημα και το έγγραφο ως σύνολα όρων 9

10 Κεφ. 6 Συντελεστής Jaccard: Παράδειγμα βαθμολόγησης Ποιος είναι o βαθμός ταιριάσματος ερωτήματος-εγγράφου με βάση το συντελεστή Jaccard για τα παρακάτω; Ερώτημα (q): ides of march Έγγραφο 1 (d1): caesar died in march Έγγραφο 2 (d2): the long march Εναλλακτικός τρόπος κανονικοποιήσης του μήκους: A B / A B 10

11 Κεφ. 6.2 Παράδειγμα Ποιο είναι ο βαθμός για τα παρακάτω ζεύγη χρησιμοποιώντας jaccard; q1: [information on cars] d1: all you ve ever wanted to know about cars q1: [information on cars] d2: information on trucks, information on planes, information on trains q2: [red cars and red trucks] d3: cops stop red cars more often 11

12 Κεφ. 6 Προβλήματα Η ομοιότητα Jaccard δεν λαμβάνει υπ όψιν την συχνότητα όρου (term frequency): πόσες φορές εμφανίζεται ο όρος στο έγγραφο Αγνοεί το γεγονός πως οι σπάνιοι όροι περιέχουν περισσότερη πληροφορία από ό,τι οι συχνοί. 12

13 Κεφ Βαθμός εγγράφου και ερώτησης Μέτρο βαθμολογίας επικάλυψης (overlap score measure) t q d score( q, d) w(t, d) κοινοί όροι 13

14 Συχνότητα όρου - Term frequency (tf) Η συχνότητα όρου tf t,d του όρου t σε ένα έγγραφο d ορίζεται ως ο αριθμός των φορών που το t εμφανίζεται στο d (το πλήθος των εμφανίσεων του όρου t στο έγγραφο d) 14

15 Κεφ. 6.2 Παράδειγμα Ποιο είναι ο βαθμός για τα παρακάτω ζεύγη χρησιμοποιώντας tf; q: [information on cars] d1: all you ve ever wanted to know about cars d2: information on trucks, information on planes, information on trains q: [red cars and red trucks] d3: cops stop red cars more often 15

16 Κεφ Συχνότητα εγγράφου (Document frequency) Οι σπάνιοι όροι παρέχουν περισσότερη πληροφορία από τους συχνούς όρους Θυμηθείτε τα stop words (διακοπτόμενες λέξεις) Θεωρείστε έναν όρο σε μια ερώτηση που είναι σπάνιος στη συλλογή (π.χ., arachnocentric) Το έγγραφο που περιέχει αυτόν τον όρο είναι πιο πιθανό να είναι περισσότερο συναφές με το ερώτημα από ένα έγγραφο που περιέχει ένα λιγότερο σπάνιο όρο του ερωτήματος Θέλουμε να δώσουμε μεγαλύτερο βάρος στους σπάνιους όρους αλλά πως; df 16

17 Κεφ Βάρος idf df t είναι η συχνότητα εγγράφων του t: το πλήθος των εγγράφων της συλλογής που περιέχουν το t df t είναι η αντίστροφη μέτρηση της πληροφορίας που παρέχει ο όρος t df t N Ορίζουμε την αντίστροφη συχνότητα εγγράφων idf (inverse document frequency) του t ως idf N/df t t 17

18 Κεφ Βαθμός εγγράφου και ερώτησης score( q, d) tf.idf t q d t, d Μεγάλο για όρους που εμφανίζονται πολλές φορές σε λίγα έγγραφα (μεγάλη διακριτική δύναμη (discriminating power) σε αυτά τα έγγραφα) Μικρότερο όταν ο όρος εμφανίζεται λίγες φορές σε ένα έγγραφο ή όταν εμφανίζεται σε πολλά έγγραφα Το μικρότερο για όρους που εμφανίζονται σχεδόν σε όλα τα έγγραφα Υπάρχουν πολλές άλλες παραλλαγές Πως υπολογίζεται το tf (με ή χωρίς log) Αν δίνεται βάρος και στους όρους του ερωτήματος 18

19 Κεφ Στάθμιση tf-idf Ποιο είναι το idf ενός όρου που εμφανίζεται σε κάθε έγγραφο (ποια η σχέση με stop words); tf-idf των παρακάτω όρων: 19

20 Κεφ Στάθμιση tf-idf Ερώτημα (q) a b Έγγραφα d 1 a.. b d 2 a a d 3 a a b d 4 b.. b b d 5 a a b b a. d 6 Διάταξη?? 20

21 Η επίδραση του idf στη διάταξη Το idf δεν επηρεάζει τη διάταξη για ερωτήματα με ένα μόνο όρο, όπως iphone Το idf επηρεάζει μόνο τη διάταξη για ερωτήματα με τουλάχιστον δύο όρους Για το ερώτημα capricious person, η idf στάθμιση έχει ως αποτέλεσμα οι εμφανίσεις του capricious να μετράνε περισσότερο στην τελική διάταξη των εγγράφων από ότι οι εμφανίσεις του person. ένα έγγραφο που περιέχει μόνο το capricious είναι πιο σημαντικό από ένα που περιέχει μόνο το person 21

22 Κεφ Στάθμιση tf-idf score( q, d) tf.idf t q d t, d Υπάρχουν πολλές άλλες παραλλαγές Πως υπολογίζεται το tf (με ή χωρίς log) Αν δίνεται βάρος και στους όρους του ερωτήματος.. 22

23 Συχνότητα όρου - Term frequency (tf) Υπενθύμιση: Η συχνότητα όρου tf t,d του όρου t σε ένα έγγραφο d ορίζεται ως ο αριθμός των φορών που το t εμφανίζεται στο d. Φτάνει μόνο η συχνότητα; Ένα έγγραφο με 10 εμφανίσεις ενός όρου είναι πιο σχετικό από ένα έγγραφο με 1 εμφάνιση του όρου. Αλλά είναι 10 φορές πιο σχετικό; Η συνάφεια (relevance) δεν αυξάνει αναλογικά με τη συχνότητα εμφάνισης όρου 23

24 Κεφ. 6.2 Στάθμιση με Log-συχνότητας Η στάθμιση με χρήση του λογάριθμου της συχνότητας (log frequency weight) του όρου t στο d είναι w t,d 1 log10 tft,d, if tft,d 0 0, otherwise 0 0, 1 1, 2 1.3, 3-> 1.48, 4-> , , κλπ Ο βαθμός για ένα ζεύγος εγγράφου-ερωτήματος: άθροισμα όλων των κοινών όρων : score t q d ) idf (1 log tft, d t Ο βαθμός είναι 0 όταν κανένας από τους όρους του ερωτήματος δεν εμφανίζεται στο έγγραφο 24

25 Κεφ Στάθμιση με log tf Ερώτημα (q) a b Έγγραφα d 1 a.. b d 2 a a d 3 a a b d 4 b.. b b d 5 a a b b a. d 6 Διάταξη?? 25

26 Κεφ Βάρος idf Χρησιμοποιούμε log(n/df t ) αντί για N/df t για να «ομαλοποιήσουμε» την επίδραση του idf. idf log ( N/df t 10 t ) 26

27 Κεφ Παράδειγμα idf, έστω N = 1 εκατομμύριο term df t idf t calpurnia 1 6 animal sunday 1,000 3 fly 10,000 2 under 100,000 1 the 1,000,000 0 idf log ( N/df t 10 t ) Κάθε όρος στη συλλογή έχει μια τιμή idf Ολική μέτρηση (επίσης, αλλάζει συνεχώς) 27

28 Κεφ Στάθμιση tf-idf Το tf-idf βάρος ενός όρου είναι το γινόμενο του βάρους tf και του βάρους idf. w (1 log tf ) log ( N / df ) 10 t, d 10 t, d t Το πιο γνωστό σχήμα διαβάθμισης στην ανάκτηση πληροφορίας Εναλλακτικά ονόματα: tf.idf, tf x idf Αυξάνει με τον αριθμό εμφανίσεων του όρου στο έγγραφο Αυξάνει με τη σπανιότητα του όρου 28

29 Συχνότητα συλλογής και εγγράφου Κεφ Η συχνότητα συλλογής ενός όρου t είναι ο αριθμός των εμφανίσεων του t στη συλλογή, μετρώντας και τις πολλαπλές εμφανίσεις Παράδειγμα: Word Collection frequency Document frequency insurance try Ποια λέξη είναι καλύτερος όρος αναζήτησης (και πρέπει να έχει μεγαλύτερο βάρος)? 29

30 Bag of words model Η tf-idf διαβάθμιση δεν εξετάζει τη διάταξη των λέξεων σε ένα έγγραφο John is quicker than Mary και Mary is quicker than John Έχουν τα ίδια διανύσματα Αυτό λέγεται μοντέλο σάκου λέξεων (bag of words model) έχει σημασία ο αριθμός των εμφανίσεων αλλά όχι η διάταξη Θα εισάγουμε πληροφορία θέσης αργότερα 30

31 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση και κατάταξη εγγράφων Στάθμιση όρων (term weighting) Αναπαράσταση εγγράφων και ερωτημάτων ως διανύσματα 31

32 Κεφ Στάθμιση tf-idf Το tf-idf βάρος ενός όρου είναι το γινόμενο του βάρους tf και του βάρους idf. w (1 log tf ) log ( N / df ) 10 t, d 10 t t,d Το πιο γνωστό σχήμα διαβάθμισης στην ανάκτηση πληροφορίας Εναλλακτικά ονόματα: tf.idf, tf x idf Αυξάνει με τον αριθμό εμφανίσεων του όρου στο έγγραφο Αυξάνει με τη σπανιότητα του όρου 32

33 Δυαδική μήτρα σύμπτωσης (binary termdocument incidence matrix) Κεφ. 6.2 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser Κάθε έγγραφο αναπαρίσταται ως ένα δυαδικό διάνυσμα {0,1} V (την αντίστοιχη στήλη) 33

34 Κεφ. 6.2 Ο πίνακας με μετρητές Θεωρούμε τον tf, αριθμό (πλήθος) των εμφανίσεων ενός όρου σε ένα έγγραφο: Κάθε έγγραφο είναι ένα διάνυσμα μετρητών στο N v : μια στήλη παρακάτω Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser

35 Κεφ. 6.3 Ο πίνακας με βάρη Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser Θεωρούμε το tf-idf βάρος του όρου: Κάθε έγγραφο είναι ένα διάνυσμα tf-idf βαρών στο R v 35

36 Κεφ. 6.3 Τα έγγραφα ως διανύσματα (vector space model) Έχουμε ένα V -διάστατο διανυσματικό χώρο Οι όροι είναι οι άξονες αυτού του χώρου Τα έγγραφα είναι σημεία ή διανύσματα σε αυτόν τον χώρο Πολύ μεγάλη διάσταση: δεκάδες εκατομμύρια διαστάσεις στην περίπτωση της αναζήτησης στο web Πολύ αραιά διανύσματα οι περισσότεροι όροι είναι 0 36

37 Αποθήκευση Που υπάρχει αυτή η πληροφορία στο σύστημα ανάκτησης πληροφορίας; 37

38 Κεφ. 6.3 Ομοιότητα διανυσμάτων Πρώτη προσέγγιση: απόσταση μεταξύ δυο διανυσμάτων Ευκλείδεια απόσταση; Δεν είναι καλή ιδέα είναι μεγάλη για διανύσματα διαφορετικού μήκους 38

39 Κεφ. 6.3 Χρήση της γωνίας αντί της απόστασης Έστω ένα έγγραφο d. Υποθέστε ότι κάνουμε append το d στον εαυτό του και έστω d το κείμενο που προκύπτει. Σημασιολογικά το d και το d έχουν το ίδιο περιεχόμενο Η Ευκλείδεια απόσταση μεταξύ τους μπορεί να είναι πολύ μεγάλη Η γωνία όμως είναι 0 (αντιστοιχεί στη μεγαλύτερη ομοιότητα) => χρήση της γωνίας 39

40 Κεφ. 6.3 Η Ευκλείδεια απόσταση μεταξύ του q και του d 2 είναι μεγάλη αν και η κατανομή των όρων είναι παρόμοια 40

41 Κεφ. 6.3 Από γωνίες σε συνημίτονα Συνημίτονο μονότονα φθίνουσα συνάρτηση στο διάστημα [0 o, 180 o ] 41

42 Ομοιότητα εγγράφων V i i V i i V i i i d d d d d d d d d d d d d d d d sim ' ' ' ' ' ' ) ', cos( ) ', ( 42 Dot product Unit vectors d i (d i ) είναι το tf-idf βάρος του i-οστού όρου στο έγγραφο d (d ) cos(d, d) η ομοιότητα συνημιτόνου μεταξύ d and d ή, Ισοδύναμα, το συνημίτονο της γωνίας μεταξύ των d και d. Κεφ. 6.3

43 Κεφ. 6.3 Κανονικοποίηση του μήκους Ένα διάνυσμα μπορεί να κανονικοποιηθεί διαιρώντας τα στοιχεία του με το μήκος του, με χρήση της L 2 νόρμας: x 2 Διαιρώντας ένα διάνυσμα με την L 2 νόρμα το κάνει μοναδιαίο Ως αποτέλεσμα, μικρά και μεγάλα έγγραφα έχουν συγκρίσιμα βάρη Για διανύσματα για τα οποία έχουμε κανονικοποιήσει το μήκος τους (length-normalized vectors) το συνημίτονο είναι απλώς το εσωτερικό γινόμενο (dot or scalar product): cos( d ', d ) d ' d i V i x 1 2 i d' d i i 43

44 Κεφ. 6.3 Παράδειγμα Ποια είναι οι ομοιότητα μεταξύ των έργων SaS: Sense and Sensibility PaP: Pride and Prejudice, and WH: Wuthering Heights? Συχνότητα όρων (μετρητές) όρος SaS PaP WH affection jealous gossip wuthering

45 Κεφ. 6.3 Παράδειγμα (συνέχεια) Για απλοποίηση δε θα χρησιμοποιήσουμε τα idf βάρη Log frequency βάρος (log tf) όρος SaS PaP WH affection jealous gossip wuthering Μήκος SAS = όρος SaS PaP WH affection jealous gossip wuthering Μετά την κανονικοποίηση όρος SaS PaP WH affection jealous gossip wuthering

46 Κεφ. 6.3 Παράδειγμα (συνέχεια) όρος SaS PaP WH affection jealous gossip wuthering όρος SaS PaP WH affection jealous gossip wuthering cos(sas, PaP) cos(sas,wh) 0.79 Γιατί cos(sas,pap) > cos(sas,wh)? cos(pap,wh)

47 Κεφ. 6.3 Τα ερωτήματα ως διανύσματα Βασική ιδέα 1: Εφαρμόζουμε το ίδιο και για τα ερωτήματα, δηλαδή, αναπαριστούμε και τα ερωτήματα ως διανύσματα στον ίδιο χώρο Βασική ιδέα 2: Διαβάθμιση των εγγράφων με βάση το πόσο κοντά είναι στην ερώτηση σε αυτό το χώρο Κοντινά = ομοιότητα διανυσμάτων Ομοιότητα αντίθετο της απόστασης 47

48 Κεφ. 6.3 Από γωνίες σε συνημίτονα Οι παρακάτω έννοιες είναι ισοδύναμες: Διαβάθμιση των εγγράφων σε φθίνουσα διάταξη με βάση τη γωνία μεταξύ του εγγράφου και του ερωτήματος Διαβάθμιση των εγγράφων σε αύξουσα διάταξη με βάση το συνημίτονο της γωνίας μεταξύ του εγγράφου και του ερωτήματος 48

49 cosine(query, document) V i i V i i V i i i d q q d d d q q d q d q d q ), cos( 49 Dot product Unit vectors q i είναι το tf-idf βάρος του όρου i στην ερώτηση d i είναι το tf-idf βάρος του όρου i στο έγγραφο Κεφ. 6.3

50 Ομοιότητα συνημίτονου 50

51 Περίληψη βαθμολόγησης στο διανυσματικό χώρο 1. Αναπαράσταση του ερωτήματος ως ένα διαβαθμισμένο tf-idf διάνυσμα 2. Αναπαράσταση κάθε εγγράφου ως ένα διαβαθμισμένο tf-idf διάνυσμα 3. Υπολόγισε το συνημίτονο για κάθε ζεύγος ερωτήματος, εγγράφου 4. Διάταξε τα έγγραφα με βάση αυτό το βαθμό 5. Επέστρεψε τα κορυφαία Κ (π.χ., Κ =10) έγγραφα στο χρήστη 51

52 Κεφ. 6.4 Παραλλαγές της tf-idf στάθμισης Γιατί δεν έχει σημασία η βάση του λογαρίθμου; 52

53 Κεφ. 6.4 Κανονικοποίηση με μέγιστη συχνότητα όρου Έστω τ ο ποιο συχνός όρος σε ένα έγγραφο d και tfmax(d) η συχνότητα του Διαιρούμε τη συχνότητα tf t,d κάθε όρου t στo d με αυτήν την τιμή Γιατί; Στα μεγάλα έγγραφα μεγάλες συχνότητες όρων απλώς γιατί υπάρχει επανάληψη Προβλήματα: Ασταθής (πχ τροποποίηση stopwords) Ιδιαίτερη λέξη (outlier) που εμφανίζεται συχνά Πρέπει να υπάρχει διαφορά ανάμεσα σε έγγραφα με ομοιόμορφη και skewed κατανομή 53

54 Κεφ. 6.4 Κανονικοποίηση με μέγιστη συχνότητα όρου (augmented) Το a είναι ένας τελεστές στάθμισης (εξομάλυνσης) smoothing factor (συχνά και 0.4 αντί 0.5) 54

55 Κεφ. 6.4 Στάθμιση ερωτημάτων και εγγράφων Πολλές μηχανές αναζήτησης σταθμίζουν διαφορετικά τις ερωτήσεις από τα έγγραφα Συμβολισμό: ddd.qqq, με χρήση των ακρωνύμων του πίνακα (πρώτα 3 γράμματα έγγραφο- επόμενα 3 γράμματα ερώτημα) συχνότητα όρου.συχνότητα εγγράφων.κανονικοποίηση Συχνό σχήμα : lnc.ltc Έγγραφο: logarithmic tf (l), no idf (n), cosine normalization (c) Ερώτημα: logarithmic tf (l), idf (t), cosine normalization (c) 55

56 Κεφ. 6.4 Παράδειγμα Ερώτημα: best car insurance Έγγραφο: car insurance auto insurance Ν = 1000Κ lnc.ltc Όρος Ερώτημα (Query) Έγγραφο Prod tf-raw tf-wt df idf wt n lize tf-raw tf-wt wt n lize auto best car insurance Μήκος Ερωτήματος = Μήκος Εγγράφου = Score = 0+0+(0.52*0.52=)27+(0.78*0.68=)0.53 =

57 Κεφ. 6.3 Θέματα Που αποθηκεύουμε τις συχνότητες; Μια καλή δομή για τον υπολογισμό του top-k? Βοηθάει η διάταξη των εγγράφων με βάση το id; Πιο χρήσιμη διάταξη; 57

58 Επέκταση καταχωρήσεων Συχνότητες όρων Σε κάθε καταχώρηση, αποθήκευση του tf t,d επιπρόσθετα του docid d Η συχνότητα idf t αποθηκεύεται στο λεξικό μαζί με τον όρο t (το μήκος της αντίστοιχης λίστας καταχωρήσεων) 58

59 Κεφ. 7 Υπολογισμός ανά έγγραφο (documentat-a-time) (document-at-a-time) Μπορούμε να διατρέχουμε τις λίστες των όρων του ερωτήματος παράλληλα όπως στην περίπτωση της Boolean ανάκτησης (merge sort) Αυτό έχει ως αποτέλεσμα λόγω της ίδιας διάταξης των εγγράφων στις λίστες καταχωρίσεων τον υπολογισμό του βαθμού ανά έγγραφο 59

60 Κεφ. 7 Παράδειγμα Ερώτημα: [Brutus Caesar] Διατρέχουμε παράλληλα τις λίστες για το Brutus και Caesar 60

61 Υπολογισμός βαρών Κεφ. 7 Αν συνημίτονο: Εξαρτάται από τη μέθοδο ίσως χρειαστεί να αποθηκεύσουμε και το μήκος του εγγράφου (για κανονικοποίηση) ή να αποθηκεύσουμε τις κανονικοποιημένες τιμές (αντί του tf) Τροποποιήσεις εγγράφων: τι αλλάζει; Η σχετική διάταξη των εγγράφων δεν επηρεάζεται από την κανονικοποίηση ή όχι του διανύσματος του q Αν κάθε όρος μόνο μια φορά στο ερώτημα, το w t,q μπορεί να αγνοηθεί, οπότε μπορούμε απλώς να αθροίζουμε τα w t,d 61

62 Κεφ. 7 Υπολογισμός k-κορυφαίων αποτελεσμάτων Σε πολλές εφαρμογές, δε χρειαζόμαστε την πλήρη διάταξη, αλλά μόνο τα κορυφαία k (top-k), για κάποιο μικρό k, π.χ., k = 100 Απλοϊκός τρόπος: Υπολόγισε τους βαθμούς για όλα τα N έγραφα Sort Επέστεψε τα κορυφαία k Αν δε χρειαζόμαστε όλη τη διάταξη, υπάρχει πιο αποδοτικός τρόπος να υπολογίσουμε μόνο τα κορυφαία k; Έστω J τα έγγραφα με μη μηδενικό συνημίτονο. Μπορούμε να βρούμε τα K καλύτερα χωρίς διάταξη όλων των J εγγράφων; 62

63 Κεφ. 7 Χρήση min-heap Χρήση δυαδικού min heap Ένα δυαδικό min heap είναι ένα δυαδικό δέντρο που η τιμή ενός κόμβου είναι μικρότερη από την τιμή των δύο παιδιών του. 63

64 Αποθήκευση σε πίνακα Κεφ. 7 Η ρίζα είναι στη θέση 1 του πίνακα. Για το i-οστό στοιχείο: Το αριστερό παιδί είναι στη θέση 2*i Το δεξί παιδί είναι στη θέση 2*i+1 Ο γονέας στη θέση i/2 64

65 Κεφ. 7 Εισαγωγή στοιχείου Το νέο στοιχείο εισάγεται ως το τελευταίο στοιχείο (στο τέλος του heap) Η ιδιότητα του heap εξασφαλίζεται με σύγκριση του στοιχείου με τον γονιό του και μετακίνηση του προς τα πάνω (swap with parent) μέχρι να συναντήσει στοιχείο ίσο ή μεγαλύτερο (percolation up). 65

66 Κεφ. 7 Διαγραφή μικρότερου στοιχείου Το μικρότερο στοιχείο βρίσκεται στη ρίζα (το πρώτο στοιχείο του πίνακα) Το σβήνουμε από τη λίστα και το αντικαθιστούμε με το τελευταίο στοιχείο στη λίστα, εξασφαλίζοντας την ιδιότητα του heap συγκρίνοντας με τα παιδιά του (percolating down) 66

67 Κεφ. 7 Επιλογή των κορυφαίων k σε O(N log k) Στόχος: Διατηρούμε τα καλύτερα k που έχουμε δει μέχρι στιγμής Χρήση δυαδικού min heap Για την επεξεργασία ενός νέου εγγράφου d με score s : Get current minimum h m of heap (O(1)) If s h m skip to next document /* υπάρχουν k καλύτερα */ If s > h m heap-delete-root (O(log k)) /* καλύτερο, σβήσε τη ρίζα heap-add d /s (O(log k)) και βάλτο στο heap */ 67

68 Κεφ. 7.1 Πιο αποδοτικός υπολογισμός; Η ταξινόμηση (merge) έχει πολυπλοκότητα χρόνου O(N) όπου N ο αριθμός των εγγράφων (ή, ισοδύναμα J). Βελτιστοποίηση κατά ένα σταθερό όρο, αλλά ακόμα θέλουμε O(N), N > (δηλαδή, πρέπει να «δούμε» όλα τα έγγραφα) Υπάρχουν sublinear αλγόριθμοι; Αυτό που ψάχνουμε στην πραγματικότητα αντιστοιχεί στο να λύνουμε το πρόβλημα των k-πλησιέστερων γειτόνων (knearest neighbor (knn) problem) στο διάνυσμα του ερωτήματος (= query point). Δεν υπάρχει γενική λύση σε αυτό το πρόβλημα που να είναι sublinear. (ειδικά για πολλές διαστάσεις) 68

69 Κεφ Ασφαλής (safe) και μη ασφαλής (nonsafe) διάταξη Ο όρος ασφαλής διάταξη (safe ranking) χρησιμοποιείται για μεθόδους που εξασφαλίζουν ότι τα K έγγραφα που επιστέφονται είναι ακριβώς τα Κ έγγραφα με το μεγαλύτερο score Μη ασφαλής (ή inexact) διάταξη μας δίνει «καλά» Κ έγγραφα αλλά όχι απαραίτητα τα κορυφαία Κ αποδεκτή αλλά πρέπει να εξασφαλίσουμε ότι δεν είμαστε «πολύ μακριά» από την ασφαλή διάταξη Έτσι και αλλιώς, η tf.idf στάθμιση δεν είναι ακριβής αποτίμηση της συνάφειας, αλλά μια εκτίμηση της 69

70 Κεφ Γενική προσέγγιση «ψαλιδίσματος» (pruning) Βρες ένα σύνολο A από υποψήφια έγγραφα (contenders), όπου K < A << N Το A δεν περιέχει απαραίτητα όλα τα top K, αλλά περιέχει αρκετά καλά έγγραφα και πολλά από τα top K Επέστρεψε τα top K έγγραφα του A Το Α είναι ένα ψαλίδισμα (pruning) των μη υποψηφίων Θα δούμε σχετικούς ευριστικούς 70

71 Κεφ Περιορισμός του ευρετηρίου (index elimination) Ο βασικός αλγόριθμος υπολογισμού του συνημίτονου θεωρεί έγγραφα που περιέχουν τουλάχιστον έναν όρο του ερωτήματος Μπορούμε να επεκτείνουμε αυτήν την ιδέα; Εξετάζουμε μόνο τους όρους του ερωτήματος με μεγάλο idf Εξετάζουμε μόνο έγγραφα που περιέχουν πολλούς από τους όρους του ερωτήματος 71

72 Κεφ Μόνο όροι με μεγάλο idf Παράδειγμα: Για το ερώτημα: catcher in the rye Αθροίζουμε μόνο το βαθμό για τους όρους catcher και rye Γιατί; οι όροι in και the έχουν μικρή συνεισφορά στο βαθμό και άρα δεν αλλάζουν σημαντικά τη διάταξη Όφελος: Οι καταχωρήσεις των όρων με μικρά idf περιέχουν πολλά έγγραφα (μεγάλες λίστες καταχωρήσεων) αυτά τα (πολλά) έγγραφα δε μπαίνουν ως υποψήφια στο σύνολο Α 72

73 Κεφ Έγγραφα με πολλούς όρους του ερωτήματος Κάθε έγγραφο που έχει τουλάχιστον έναν όρο του ερωτήματος είναι υποψήφιο για τη λίστα με τα κορυφαία Κ έγγραφα Για ερωτήματα με πολλούς όρους, υπολογίζουμε τους βαθμούς μόνο των εγγράφων που περιέχουν αρκετούς από τους όρους του ερωτήματος Για παράδειγμα, τουλάχιστον 3 από τους 4 όρους Παρόμοιο με ένα είδος μερικής σύζευξης ( soft conjunction ) στα ερωτήματα των μηχανών αναζήτησης (αρχικά στη Google) Εύκολα να υλοποιηθεί κατά τη διάσχιση των καταχωρήσεων 73

74 Κεφ Παράδειγμα Antony Brutus Caesar Calpurnia από τους 4 όρους του ερωτήματος Υπολογισμοί βαθμών μόνο για τα έγγραφα 8, 16 και 32 74

75 Κεφ Λίστες πρωταθλητών Προ-υπολογισμός για κάθε όρο t του λεξικού, των r εγγράφων με το μεγαλύτερο βάρος ανάμεσα στις καταχωρήσεις του t -> λίστα πρωταθλητών (champion list, fancy list ή top docs για το t) (για κάθε t, τα καλύτερα r έγγραφα) Αν tf.idf, είναι αυτά με το καλύτερο tf Κατά την ώρα του ερωτήματος, πάρε ως Α την ένωση των λιστών πρωταθλητών για τους όρους του ερωτήματος, υπολόγισε μόνο τους βαθμούς για τα έγγραφα της Α και διάλεξε τα Κ ανάμεσα τους To r πρέπει να επιλεγεί κατά τη διάρκεια της κατασκευής του ευρετηρίου Έτσι, είναι πιθανόν ότι r < K 75

76 Υπολογισμός ανά όρο Yπολογισμός ανά-όρο (ένας-όρος-τη-φορά - a-termat-a-time) Επεξεργαζόμαστε όλη τη λίστα καταχωρήσεων για τον πρώτο όρο του ερωτήματος Δημιουργούμε ένα συσσωρευτή των βαθμών για κάθε docid εγγράφου που βρίσκουμε Μετά επεξεργαζόμαστε πλήρως τη λίστα καταχωρήσεων για τον δεύτερο όρο κοκ 76

77 Κεφ. 7 Υπολογισμός ανά όρο (term-at-a-time) Για κάθε όρο t του ερωτήματος q Λέμε τα στοιχεία του πίνακα Scores, συσσωρευτές (accumulators) 77

78 Κεφ. 7 Διάταξη καταχωρήσεων του t με βάση το wf t,d Διατάσσουμε τα έγγραφα στις λίστες καταχωρήσεων με βάση το βάρος (weight) wf t,d Η απλούστερη περίπτωση, normalized tf-idf weight Τα «καλά» έγγραφα για έναν όρο είναι στην αρχή της λίστας Όχι κοινή διάταξη των εγγράφων σε όλες τις λίστες Αλλά, δε μπορούμε να υπολογίσουμε ένα συνολικό βαθμό για κάθε έγγραφο με merge sort συσσωρεύουμε τους βαθμούς για τα έγγραφα ανά όρο 78

79 Κεφ. 7 Διάταξη καταχωρήσεων του t με βάση το wf t,d Προσέγγιση: δεν επεξεργαζόμαστε τις καταχωρήσεις που θα συνεισφέρουν λίγο στον τελικό βαθμό Τα κορυφαία k έγγραφα είναι πιθανόν να βρίσκονται στην αρχή αυτών των ταξινομημένων λιστών. γρήγορος τερματισμός ενώ επεξεργαζόμαστε τις λίστες καταχωρήσεων μάλλον δε θα αλλάξει τα κορυφαία k έγγραφα 79

80 Κεφ. 7 Υπολογισμός ανά όρο Μη φέρεις όλη τη λίστα καταχωρήσεων, μόνο τα πρώτα στοιχεία της 80

81 Κεφ Πρόωρος τερματισμός Κατά τη διάσχιση των καταχωρήσεων ενός όρου t, σταμάτα νωρίς αφού: Δεις ένα προκαθορισμένο αριθμό r από έγγραφα Το wf t,d πέφτει κάτω από κάποιο κατώφλι Πάρε την ένωση του συνόλου των εγγράφων που προκύπτει Ένα σύνολο για κάθε όρο Υπολόγισε τους βαθμούς μόνο αυτών των εγγράφων 81

82 Κεφ idf-διατεταγμένοι όροι Κατά την επεξεργασία των όρων του ερωτήματος Εξετάζουμε τους όρους με φθίνουσα διάταξη ως προς idf Όροι με μεγάλο idf πιθανών να συνεισφέρουν περισσότερο στο βαθμό Καθώς ενημερώνουμε τη συμμετοχή στο βαθμό κάθε όρου Σταματάμε αν ο βαθμός των εγγράφων δεν μεταβάλλεται πολύ 82

83 Κεφ. 7 Επεξεργασία Ανά-Έγγραφο και Ανά-Όρο Υπολογισμός ανά-όρο (term-at-a-time processing): Υπολογίζουμε για κάθε όρο της ερώτησης, για κάθε έγγραφο που εμφανίζεται στη λίστας καταχώρησης του ένα βαθμό και μετά συνεχίζουμε με τον επόμενο όρο της ερώτησης Υπολογισμός Ανά Έγγραφο (document-at-a-time processing): Τελειώνουμε τον υπολογισμό του βαθμού ομοιότητας ερωτήματος-εγγράφου για το έγγραφο d i πριν αρχίσουμε τον υπολογισμό βαθμού ομοιότητας ερωτήματος-εγγράφου για το έγγραφο d i+1. 83

84 Κεφ. 7 Με βάση την «ποιότητα» του εγγράφου (g(d)) Συχνά υπάρχει ένας ανεξάρτητος του ερωτήματος (στατικός) χαρακτηρισμός της καταλληλότητας ( goodness, authority) του εγγράφου έστω g(d) Για παράδειγμα: o Στις μηχανές αναζήτησης (στο Google) το PageRank g(d) μιας σελίδας d μετρά το πόσο «καλή» είναι μια σελίδα με βάση το πόσες «καλές» σελίδες δείχνουν σε αυτήν, ή o αριθμός hits (δημοφιλές έγγραφο) ή o wikipedia σελίδες ή o άρθρα σε μια συγκεκριμένη εφημερίδα, κλπ 84

85 Κεφ. 7 Με βάση την «ποιότητα» του εγγράφου (g(d)) Αν υπάρχει μια διάταξη της καταλληλότητας τότε ο συγκεντρωτικός βαθμός (net-score) ενός εγγράφου d και μιας ερώτησης q είναι ένας συνδυασμός της ποιότητας του εγγράφου (που έστω ότι δίνεται από μια συνάρτηση g στο [0, 1]) και της συνάφειας του με το ερώτημα q (πχ με χρήση tf-idf): net-score(q, d) = g(d) + score(q, d) Θέλουμε να επιλέξουμε σελίδες που είναι και γενικά σημαντικές (authoritative) και συναφείς ως προς την ερώτηση (το οποίο μας δίνει το score) Στην πράξη (βάρη) net-score(q, d) = w 1 g(d) + w 2 score(q, d) Υπόθεση: κανονικοποίηση ώστε score επίσης στο [0, 1] 85

86 Κεφ. 7 Με βάση την «ποιότητα» του εγγράφου (g(d)) Θέλουμε διάταξη με βάση το net-score Πως μπορούμε να επιτύχουμε γρήγορο τερματισμό (early termination); Δηλαδή να μην επεξεργαστούμε όλη τη λίστα καταχωρήσεων για να βρούμε τα καλύτερα k; 86

87 Κεφ. 7 Με βάση την «ποιότητα» του εγγράφου (g(d)) Διατάσουμε τις λίστες καταχωρήσεων με βάση την καταλληλότητα (π.χ., PageRank) των εγγράφων: g(d 1 ) > g(d 2 ) > g(d 3 ) >... Η διάταξη των εγγράφων είναι ίδια για όλες τις λίστες καταχωρήσεων Τα «καλά» έγγραφα στην αρχή της κάθε λίστας, οπότε αν θέλουμε να βρούμε γρήγορα καλά αποτελέσματα μπορούμε να δούμε μόνο την αρχή της λίστας 87

88 Κεφ. 7 Με βάση την «ποιότητα» του εγγράφου (g(d)) Υπενθύμιση net-score(q, d) = g(d) + score(q, d) και τα έγγραφα σε κάθε λίστα σε διάταξη με βάση το g Επεξεργαζόμαστε ένα έγγραφο τη φορά δηλαδή, για κάθε έγγραφο υπολογίζουμε πλήρως το net-score του (για όλους τους όρους του ερωτήματος) Έστω g [0, 1], το τελευταίο k-κορυφαίο έγγραφο έχει βαθμό 1.2 και για το έγγραφο d που επεξεργαζόμαστε g(d) < 0.1, άρα και για όλα τα υπόλοιπα συνολικός βαθμός < 1.1 (στην καλύτερη περίπτωση έχουν score ίσο με 1 που δεν αρκεί όμως). => δε χρειάζεται να επεξεργαστούμε το υπόλοιπο των λιστών 88

89 Ορισμός score(q, d) tf-idf Διανυσματικό μοντέλο Περίληψη Υπολογισμός top-k συναφών εγγράφων Χρήση heap Ασφαλής και μη ασφαλής τερματισμός (ακριβής μη ακριβής υπολογισμός) Τεχνικές Ανά έγγραφο Document At A Time (DAAT) Ανά όρο Term At A Time (TAAT) Επηρεάζει τον τρόπο διάταξης των εγγράφων στις λίστες καταχωρήσεων του ανεστραμμένου ευρετηρίου 89

90 Αλγόριθμοι υπολογισμού 1. Διάταξη με doc-id Περίληψη υπολογισμό ανά έγγραφο μη ασφαλή (pruning): (1) μικρό idf, (2) τουλάχιστον m1 από τους m2 (1 < m1 < m2) όρους του ερωτήματος, (3) λίστες πρωταθλητών 2. Διάταξη με tf t,d Υπολογισμός ανά όρο Μη ασφαλής γρήγορος τερματισμός: (1) prune για κάθε όρο (τα πρώτα r έγγραφα ή όλα πάνω κάποιου tf) (2) εξέταση με βάση idf, σταμάτα αν όχι μεγάλη αλλαγή 90

91 Περίληψη Αλγόριθμοι υπολογισμού (συνέχεια) 3. Αν υπάρχει g(d) (κάποια βαθμολογία των εγγράφων ανεξάρτητη του ερωτήματος), διάταξη με g(d) υπολογισμό ανά έγγραφο ασφαλή: κατώφλι μη ασφαλή: γρήγορος τερματισμός 91

92 Κεφ Κλάδεμα συστάδων Προ-επεξεργασία: συσταδοποίηση (clustering) εγγράφων Επέλεξε τυχαία K ( πχ, N) έγγραφα: τα οποία τα ονομάζουμε ηγέτες (leaders) Για κάθε άλλο έγγραφο, προ-υπολογίζουμε τον κοντινότερο ηγέτη του (χρήση ομοιότητας συνημιτόνου) Αυτά τα έγγραφα καλούντα ακόλουθοι (followers); Ο αναμενόμενος αριθμός είναι: ~ N ακόλουθοι ανά ηγέτη Τελικά N ομάδες με N έγγραφα 92

93 Κεφ Κλάδεμα συστάδων Για κάθε ερώτημα q Βρες τον πιο κοντινό ηγέτη L. Ψάξε για τα K πλησιέστερα έγγραφα ανάμεσα στους ακολούθους του L (δηλαδή, στην ομάδα του L). 93

94 Κεφ Κλάδεμα συστάδων Ερώτημα Ηγέτης Ακόλουθος 94

95 Κεφ Κλάδεμα συστάδων Γιατί τυχαία δείγματα; Γρήγορη Οι ηγέτες αντανακλούν την πραγματική κατανομή 95

96 Κεφ Κλάδεμα συστάδων Γενικές παραλλαγές (b1-b2) Κάθε ακόλουθος συνδέεται με b1=3 πλησιέστερους ηγέτες. Για ένα ερώτημα, βρες b2 = 4 κοντινότερους ηγέτες και τους ακολούθους τους. 96

97 Τι (άλλο) θα δούμε σήμερα; Παραμετρικά Ευρετήρια Βαθμιδωτά Ευρετήρια Συνολικό Σύστημα Περιλήψεις 97

98 Sec. 6.1 Παραμετρικά ευρετήρια και ευρετήρια ζώνης Μέχρι τώρα, ένα έγγραφο ως μια ακολουθία όρων Στην πραγματικότητα, τα έγγραφα είναι χωρισμένα σε τμήματα με διαφορετική σημασία: Συγγραφέας Τίτλος Ημερομηνία δημοσίευσης Γλώσσα κλπ Καλούνται και μεταδεδομένα (metadata) του εγγράφου

99 Sec. 6.1 Παραμετρικά ερωτήματα Συχνά αναζήτηση με βάση τα μεταδεδομένα Π.χ., βρες όλα τα έγγραφα που έγγραψε ο William Shakespeare το 1601, που περιέχουν τις λέξεις alas poor Yorick Year = 1601 είναι παράδειγμα ενός πεδίου (field) Επίσης, author last name = shakespeare, κλπ Ερωτήματα με πεδία (παραμετρικά ερωτήματα) συνήθως ερμηνεύονται ως συζευκτικά (conjunction, σύνδεση με AND) πρέπει να ισχύουν όλα

100 Κεφ. 6.1 Παραμετρική αναζήτηση 100

101 Sec. 6.1 Ζώνη Η ζώνη (zone) είναι μια περιοχή ενός εγγράφου που περιέχει κείμενο, π.χ., Title (τίτλος) Abstract (περίληψη) References (αναφορές) Πρέπει να τροποποιήσουμε τα ευρετήρια ώστε να επιτρέψουμε σχετικά ερωτήματα όπως πχ, βρες έγγραφα με τον όρο «merchant» στον τίτλο τους για το ερώτημα «gentle rain» Επίσης χρήσιμα αν θέλουμε να δώσουμε μεγαλύτερο βάρος σε εμφανίσεις όρων στον τίτλο ή στην περίληψη

102 Ευρετήριο πεδίου Sec. 6.1 Ευρετήριο πεδίου (Field index) ή παραμετρικό ευρετήριο (parametric index): καταχωρήσεις (postings) για κάθε πεδίο Συχνά ειδικού τύπου (πχ δέντρα διαστήματος για ημερομηνίες) Βασικό ευρετήριο ζώνης encoded στο λεξικό (διαφορετικές λίστες καταχωρήσεων) Ένα ευρετήριο για κάθε ζώνη/πεδίο:

103 Κεφ. 6.1 Επέκταση καταχωρήσεων Η πληροφορία ζώνης στις λίστες καταχώρησης: Το πρώτο καλύτερο για παραμετρικά ερωτήματα Το δεύτερο καλύτερο για υπολογισμό «ενιαίας» συνάφειας 103

104 Βαθμιδωτά (διαστρωματωμένα) ευρετήρια (Tiered indexes) Βασική ιδέα: Κατασκευάζουμε διάφορα επίπεδα/βαθμίδες από ευρετήρια, όπου το καθένα αντιστοιχεί στη σημαντικότητα των όρων Κατά τη διάρκεια της επεξεργασίας του ερωτήματος, Αρχίζουμε από την υψηλότερη βαθμίδα Αν το ευρετήριο της υψηλότερης βαθμίδας, έχει τουλάχιστον k (π.χ., k = 100) αποτελέσματα: σταμάτα και επέστρεψε αυτά τα αποτελέσματα στο χρήστη Αλλιώς, αν έχουμε βρει < k ταιριάσματα: επανέλαβε την αναζήτηση στην επόμενη βαθμίδα 104

105 Βαθμιδωτά ευρετήρια Παράδειγμα Έστω 2 βαθμίδες Βαθμίδα 1: Ευρετήριο για όλους τους τίτλους ή με τα έγγραφα με μεγάλο tf.idf ή με τα έγγραφα με μεγάλο g(d) Βαθμίδα 2: Ευρετήριο για τα υπόλοιπο έγγραφα ή με τα έγγραφα με μικρό tf.idf ή με τα έγγραφα με μικρό g(d) 105

106 Βαθμιδωτά ευρετήρια 106

107 Βαθμιδωτά ευρετήρια Η χρήση βαθμιδωτών ευρετηρίων θεωρείται ως ένας από τους λόγους που η ποιότητα των αποτελεσμάτων του Google ήταν αρχικά σημαντικά καλύτερη (2000/01) από αυτήν των ανταγωνιστών τους. μαζί με το PageRank, τη χρήση του anchor text και περιορισμών θέσεων (proximity constraints) 107

108 Συνδυασμός διανυσματικής ανάκτησης Πως συνδυάζουμε την ανάκτηση φράσεων (και γενικά την εγγύτητα όρων proximity queries) με τη διανυσματική ανάκτηση; Window: το μικρότερο παράθυρο που περιέχονται όλοι οι όροι του ερωτήματος μετρημένο ως το πλήθος λέξεων του παραθύρου Χρήση στη διάταξη του μεγέθους του παραθύρου πως? Με κάποιο σταθμισμένο άθροισμα? Πως συνδυάζουμε την Boolean ανάκτηση με τη διανυσματική ανάκτηση; Π.χ., AND ή NOT Πως συνδυάζουμε τα * με τη διανυσματική ανάκτηση; Evidence accumulation 108

109 Sec Πολλαπλοί παράγοντες Συνδυασμοί score πχ με βάρη Πως Σε ορισμένες εφαρμογές από χρήστες Machine learning (αλγόριθμοι μάθησης)

110 Επεξεργασία ερωτήματος Αναλυτής ερωτημάτων (query parser) Παράδειγμα rising interest rates 1. Εκτέλεσε την ερώτημα ως ερώτημα φράσης rising interest rates και κατάταξε τα αποτελέσματα χρησιμοποιώντας διανυσματική βαθμολόγηση 2. Αν δεν υπάρχουν αρκετά αποτελέσματα, εκτέλεσε το ερώτημα ως 2 ερωτήματα φράσεις: rising interest και interest rates και κατάταξε τα αποτελέσματα χρησιμοποιώντας διανυσματική βαθμολόγηση 3. Αν δεν υπάρχουν αρκετά αποτελέσματα, εκτέλεσε το ερώτημα ως διάνυσμα και κατάταξε τα αποτελέσματα χρησιμοποιώντας διανυσματική βαθμολόγηση Μπορούμε τώρα για τα έγγραφα που εμφανίζονται σε παραπάνω από ένα από τα παραπάνω βήματα να συνδυάσουμε (αθροίσουμε) τους βαθμούς 110

111 Πλήρες σύστημα αναζήτησης Προ-επεξεργασία Επεξεργασία ερωτήματος Ευρετήρια (παραλλαγές του αντεστραμμένου ευρετηρίου) 111

112 Πλήρες σύστημα αναζήτησης Τι έχουμε ήδη δει: Προ-επεξεργασία των εγγράφων Ευρετήρια θέσεων (Positional indexes) Βαθμιδωτά ευρετήρια (Tiered indexes) Διορθώσεις ορθογραφικές (Spelling correction) Ευρετήρα k-γραμμάτων (για ερωτήματα με * και ορθογραφικές διορθώσεις) Επεξεργασία ερωτημάτων Βαθμολόγηση εγγράφων 112

113 ΠΩΣ ΠΑΡΟΥΣΙΑΖΟΥΜΕ ΤΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΤΟ ΧΡΗΣΤΗ; 113

114 Κεφ. 8.7 Περιλήψεις αποτελεσμάτων Αφού έχουμε διατάξει τα έγγραφα που ταιριάζουν με το ερώτημα, θέλουμε να τα παρουσιάσουμε στο χρήστη Πιο συχνά ως μια λίστα από τίτλους εγγράφων, URL, μαζί με μια μικρή περίληψη (result snippet), aka 10 blue links 114

115 Κεφ. 8.7 Περιλήψεις αποτελεσμάτων Η περιγραφή του εγγράφου είναι κρίσιμη γιατί συχνά οι χρήστες βασίζονται σε αυτήν για να αποφασίσουν αν το έγγραφο είναι σχετικό Δε χρειάζεται να διαλέξουν ένα-ένα τα έγγραφα με τη σειρά Ο τίτλος αυτόματα από μεταδεδομένα, αλλά πώς να υπολογίσουμε τις περιλήψεις; 115

116 Κεφ. 8.7 Περιλήψεις αποτελεσμάτων Δύο βασικά είδη περιλήψεων Μια στατική περίληψη (static summary) ενός εγγράφου είναι πάντα η ίδια ανεξάρτητα από το ερώτημα που έθεσε ο χρήστης Μια δυναμική περίληψη (dynamic summary) εξαρτάται από το ερώτημα (query-dependent). Προσπαθεί να εξηγήσει γιατί το έγγραφο ανακτήθηκε για το συγκεκριμένο κάθε φορά ερώτημα 116

117 Κεφ. 8.7 Στατικές Περιλήψεις Σε ένα τυπικό σύστημα η στατική περίληψη είναι ένα υποσύνολο του εγγράφου Απλός ευριστικός: οι πρώτες περίπου 50 λέξεις του εγγράφου cached κατά τη δημιουργία του ευρετηρίου Πιο εξελιγμένες μέθοδοι (text summarization) βρες από κάθε έγγραφο κάποιες σημαντικές προτάσεις Απλή γλωσσολογική επεξεργασία (NLP) με ευριστικά για να βαθμολογηθεί κάθε πρόταση (πληροφορία θέσης: πρώτη και τελευταία παράγραφος, πρώτη και τελευταία πρόταση στην παράγραφο, και περιεχομένου: σημαντικές λέξεις) Η περίληψη αποτελείται από τις προτάσεις με το μεγαλύτερο βαθμό Ή και πιο περίπλοκη γλωσσολογική επεξεργασία για τη σύνθεση/δημιουργία περίληψης 117

118 Κεφ. 8.7 Δυναμικές Περιλήψεις Παρουσίασε ένα ή περισσότερα «παράθυρα» (windows, snippets) μέσα στο έγγραφο που να περιέχουν αρκετούς από τους όρους του ερωτήματος KWIC snippets: αναπαράσταση Keyword-in-Context

119 Κεφ. 8.7 Δυναμικές Περιλήψεις Για τον υπολογισμό τους χρειαζόμαστε τα ίδια τα έγγραφα (δεν αρκεί το ευρετήριο) Cache εγγράφων που πρέπει να ανανεώνεται Συχνά όχι όλο το έγγραφο αν είναι πολύ μεγάλο, αλλά κάποιο πρόθεμα του Βρες μικρά παράθυρα στα έγγραφα που περιέχουν όρους του ερωτήματος Απαιτεί γρήγορη αναζήτηση παράθυρου στην cache των εγγράφων 119

120 Κεφ. 8.7 Δυναμικές Περιλήψεις Βαθμολόγησε κάθε παράθυρο ως προς το ερώτημα Με βάση διάφορα χαρακτηριστικά: το πλάτος του παραθύρου, τη θέση του στο έγγραφο, κλπ Συνδύασε τα χαρακτηριστικά Δύσκολο να εκτιμηθεί η ποιότητα Positional indexes (words vs bytes) Ο χώρος που διατίθεται για τα παράθυρα είναι μικρός 120

121 Κεφ. 8.7 Δυναμικές Περιλήψεις Query: new guinea economic development Snippets (in bold) that were extracted from a document:... In recent years, Papua New Guinea has faced severe economic difficulties and economic growth has slowed, partly as a result of weak governance and civil war, and partly as a result of external factors such as the Bougainville civil war which led to the closure in 1989 of the Panguna mine (at that time the most important foreign exchange earner and contributor to Government finances), the Asian financial crisis, a decline in the prices of gold and copper, and a fall in the production of oil. PNG s economic development record over the past few years is evidence that governance issues underly many of the country s problems. Good governance, which may be defined as the transparent and accountable management of human, natural, economic and financial resources for the purposes of equitable and sustainable development, flows from proper public sector management, efficient fiscal and accounting mechanisms, and a willingness to make service delivery a priority in practice

122 Quicklinks Για navigational query (όταν ψάχνουμε μια συγκεκριμένη σελίδα) όπως united airlines οι χρήστες πιθανόν να ικανοποιούνται από τη σελίδα Quicklinks παρέχουν navigational cues σε αυτή τη σελίδα 122

123 123

124 Εναλλακτικές αναπαραστάσεις; 124

125 ΤΕΛΟΣ 6 ου - 7 ου Κεφαλαίου ΤΕΛΟΣ (τμήματος) Κεφαλαίου 8 Ερωτήσεις? Χρησιμοποιήθηκε κάποιο υλικό των: Pandu Nayak and Prabhakar Raghavan, CS276:Information Retrieval and Web Search (Stanford) Hinrich Schütze and Christina Lioma, Stuttgart IIR class 125

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση

Διαβάστε περισσότερα

Τι (άλλο) θα δούμε σήμερα;

Τι (άλλο) θα δούμε σήμερα; Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου.

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση και κατάταξη εγγράφων Στάθμιση

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 8: Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Τι είδαμε στο προηγούμενο μάθημα Βαθμολόγηση

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6-7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα;

Διαβάστε περισσότερα

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Τι είδαμε στο προηγούμενο μάθημα Βαθμολόγηση

Διαβάστε περισσότερα

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5(α): Συμπίεση Ευρετηρίου 1 ΣΤΑΤΙΣΤΙΚΑ ΣΥΛΛΟΓΗΣ 2 Κεφ. 5 Στατιστικά στοιχεία Πόσο μεγάλο είναι το

Διαβάστε περισσότερα

Περίληψη διαβάθμισης

Περίληψη διαβάθμισης Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διαλέξεις6-7: Επανάληψη Διάταξης Εγγράφων. Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Περίληψη διαβάθμισης

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 8, 11: Περιλήψεις αποτελεσμάτων, Πιθανοτική ανάκτηση πληροφορίας.

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 8, 11: Περιλήψεις αποτελεσμάτων, Πιθανοτική ανάκτηση πληροφορίας. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 8, : Περιλήψεις αποτελεσμάτων, Πιθανοτική ανάκτηση πληροφορίας. Κεφ. 8 Τι θα δούμε σήμερα; Πιθανοτική ανάκτηση Περιλήψεις αποτελεσμάτων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Διδάσκων Δημήτριος Κατσαρός Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Διδάσκων Δημήτριος Κατσαρός Διάλεξη 10η: 31/03/2014 1 Problem with Boolean search: feast or famine Ch. 6 Boolean queries often result in either too few

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο : Πιθανοτική ανάκτηση πληροφορίας. Κεφ. Πιθανοτική Ανάκτηση Πληροφορίας Βασική ιδέα: Διάταξη εγγράφων με βάση την πιθανότητα να είναι

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Μοντελοποίηση: Διανυσματικό μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

1. Financial New Times Year MAXk {FREQij} D D D D

1.  Financial New Times Year MAXk {FREQij} D D D D Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY46 - Συστήματα Ανάκτησης Πληροφοριών 2004-2005 Εαρινό Εξάμηνο 2 η Σειρά ασκήσεων (Μοντέλα Ανάκτησης Πληροφοριών και Ευρετήρια) Ανάθεση: 6 Μαρτίου Παράδοση:

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα (υποστήριξη *) 1 Ch. 2 Επανάληψη προηγούμενης

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun Κ24: Προγραμματισμός Συστήματος - 1η Εργασία, Εαρινό Εξάμηνο 2018 Προθεσμία Υποβολής: Κυριακή 18 Μαρτίου, 23:59 Εισαγωγή Στην εργασία αυτή θα υλοποιήσετε μία μίνι μηχανή αναζήτησης (search engine). Οι

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 1η: 20/02/2017 1 Ειζαγωγή ζηο μάθημα & Ειζαγωγή ζηην Ανάκηηζη Πληροθορίας 2 Διδακτικό βοήθημα 1 Καλύπηει ηο ανηικείμενο ηοσ

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ AM: Δοµές Δεδοµένων Εξεταστική Ιανουαρίου 2014 Διδάσκων : Ευάγγελος Μαρκάκης 20.01.2014 ΥΠΟΓΡΑΦΗ ΕΠΟΠΤΗ: Διάρκεια εξέτασης : 2 ώρες και

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 10: Αξιολόγηση στην Ανάκτηση Πληροφοριών II. 1 Κεφ. 8 Αξιολόγηση συστήματος Αποδοτικότητα (Performance)

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης Βάση

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2009-2010 ΑΣΚΗΣΗ Α Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Τα ανεστραμμένα αρχεία αποτελούν μια βασική μορφή ευρετηρίου και μας επιτρέπουν να εντοπίσουμε

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 6η: 08/03/2016 1 Διόρθωση πληκτρολόγησης 2 Sec. 3.3 Διόρθωση πληκτρολόγησης Δυο κύριες χρήσεις Διόρθωση εγγράφων που θα εισαχθούν

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση. 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή Συμπίεση 2 ΣΤΑΤΙΣΤΙΚΑ

Διαβάστε περισσότερα

Επίλυση Προβλημάτων 1

Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων Περιγραφή Προβλημάτων Αλγόριθμοι αναζήτησης Αλγόριθμοι τυφλής αναζήτησης Αναζήτηση πρώτα σε βάθος Αναζήτηση πρώτα σε πλάτος (ΒFS) Αλγόριθμοι ευρετικής αναζήτησης

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2016-17 Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) http://mixstef.github.io/courses/csintro/ Μ.Στεφανιδάκης Αφηρημένες

Διαβάστε περισσότερα

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών. Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι

Εισαγωγή στην επιστήμη των υπολογιστών. Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι Εισαγωγή στην επιστήμη των υπολογιστών Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι 1 Έννοια Ανεπίσημα, ένας αλγόριθμος είναι μια βήμα προς βήμα μέθοδος για την επίλυση ενός προβλήματος ή την διεκπεραίωση

Διαβάστε περισσότερα

Πιθανοκρατικό μοντέλο

Πιθανοκρατικό μοντέλο Πιθανοκρατικό μοντέλο Το μοντέλο MAP Αλέξανδρος Γκιμπερίτης Βασίλης Μπούργος Δημήτρης Σουραβλιάς 1 Εισαγωγικές έννοιες Κάθε έγγραφο d της συλλογής παριστάνεται από το δυαδικό διάνυσμα x = (x 1, x 2,...,

Διαβάστε περισσότερα

Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort

Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort Διάλεξη 17: O Αλγόριθμος Ταξινόμησης HeapSort Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Η διαδικασία PercolateDown, Δημιουργία Σωρού O Αλγόριθμος Ταξινόμησης HeapSort Υλοποίηση, Παραδείγματα

Διαβάστε περισσότερα

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης Σύνοψη Προηγούμενου Πίνακες (Arrays Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς Διαδικαστικά θέματα. Aντικείμενο Μαθήματος. Aντικείμενα, Κλάσεις, Μέθοδοι, Μεταβλητές.

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 5//013 ο ΓΛΩΣΣΑ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Ενότητες Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006 ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006 Outlne Prevous Semester Exercses Set

Διαβάστε περισσότερα

Διάλεξη 16: Σωροί. Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ουρές Προτεραιότητας - Ο ΑΤΔ Σωρός, Υλοποίηση και πράξεις

Διάλεξη 16: Σωροί. Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ουρές Προτεραιότητας - Ο ΑΤΔ Σωρός, Υλοποίηση και πράξεις ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 16: Σωροί Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ουρές Προτεραιότητας - Ο ΑΤΔ Σωρός, Υλοποίηση και πράξεις Ουρά Προτεραιότητας (Priority

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

Κεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1,

Κεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1, Κεφάλαιο 4 Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1, 2015-01-19 Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne. 1 Διαίρει και Βασίλευε (Divide-and-Conquer) Διαίρει-και-βασίλευε

Διαβάστε περισσότερα

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών ΗΥ-6 Συστήµατα Ανάκτησης Πληροφοριών 7-8 Εαρινό Εξάµηνο Άσκηση Λύσεις ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Θεωρείστε µια

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4: Ανάκτηση Ανεκτική στα Σφάλματα 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Δομές δεδομένων για Λεξικά

Διαβάστε περισσότερα

Εισαγωγή στην Αριθμητική Ανάλυση

Εισαγωγή στην Αριθμητική Ανάλυση Εισαγωγή στην Αριθμητική Ανάλυση Εισαγωγή στη MATLAB ΔΙΔΑΣΚΩΝ: ΓΕΩΡΓΙΟΣ ΑΚΡΙΒΗΣ ΒΟΗΘΟΙ: ΔΗΜΗΤΡΙΑΔΗΣ ΣΩΚΡΑΤΗΣ, ΣΚΟΡΔΑ ΕΛΕΝΗ E-MAIL: SDIMITRIADIS@CS.UOI.GR, ESKORDA@CS.UOI.GR Τι είναι Matlab Είναι ένα περιβάλλον

Διαβάστε περισσότερα

Ουρές Προτεραιότητας: Υπενθύμιση. Σωροί / Αναδρομή / Ταξινόμηση. Υλοποίηση Σωρού. Σωρός (Εισαγωγή) Ορέστης Τελέλης

Ουρές Προτεραιότητας: Υπενθύμιση. Σωροί / Αναδρομή / Ταξινόμηση. Υλοποίηση Σωρού. Σωρός (Εισαγωγή) Ορέστης Τελέλης Ουρές Προτεραιότητας: Υπενθύμιση Σωροί / Αναδρομή / Ταξινόμηση Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς (Abstract Data Type) με μεθόδους: Μπορεί να υλοποιηθεί με

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval MYE003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741 Μεταπτυχιακό Πρόγραμμα: «Επιστήμη και Τεχνολογία Υπολογιστών» Μεταπτυχιακή Διπλωματική Εργασία «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών

Εισαγωγή στην επιστήμη των υπολογιστών Εισαγωγή στην επιστήμη των υπολογιστών Υπολογιστές και Δεδομένα Κεφάλαιο 3ο Αναπαράσταση Αριθμών www.di.uoa.gr/~organosi 1 Δεκαδικό και Δυαδικό Δεκαδικό σύστημα 2 3 Δεκαδικό και Δυαδικό Δυαδικό Σύστημα

Διαβάστε περισσότερα

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33 ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος του συγγραφέα... 13 Πρόλογος του καθηγητή Τιμολέοντα Σελλή... 15 ΚΕΦΑΛΑΙΟ 1: Εργαλεία γλωσσών προγραμματισμού...17 1.1 Γλώσσες προγραμματισμού τρίτης γεννεάς... 18 τι είναι η γλώσσα

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα

Διαβάστε περισσότερα

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων Οικονομικό Πανεπιστήμιο Αθηνών Πρόγραμμα Μεταπτυχιακών Σπουδών «Επιστήμη των Υπολογιστών» Διπλωματική Εργασία Μαρία-Ελένη Κολλιάρου 2

Διαβάστε περισσότερα

Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι

Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι Εργαστήριο 6 ο 7 ο / Ερωτήματα Ι Απλά ερωτήματα Επιλογής Ερωτήματα με Ενώσεις πινάκων Ερωτήματα με Παραμετρικά Κριτήρια Ερωτήματα με Υπολογιζόμενα πεδία Απλά ερωτήματα Επιλογής Τα Ερωτήματα μας επιτρέπουν

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2018-2019 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 6: Ο Αντεστραμμένος Κατάλογος Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #11 Suffix Arrays Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης Το παρόν

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 9: Ανάδραση Σχετικότητας (Relevance Feedback ή RF) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Διάλεξη 16: Σωροί. Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ουρές Προτεραιότητας - Ο ΑΤΔ Σωρός, Υλοποίηση και πράξεις

Διάλεξη 16: Σωροί. Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ουρές Προτεραιότητας - Ο ΑΤΔ Σωρός, Υλοποίηση και πράξεις ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 16: Σωροί Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Ουρές Προτεραιότητας - Ο ΑΤΔ Σωρός, Υλοποίηση και πράξεις Ουρά Προτεραιότητας Η δομή

Διαβάστε περισσότερα

Κατακερματισμός (Hashing)

Κατακερματισμός (Hashing) Κατακερματισμός (Hashing) O κατακερματισμός είναι μια τεχνική οργάνωσης ενός αρχείου. Είναι αρκετά δημοφιλής μέθοδος για την οργάνωση αρχείων Βάσεων Δεδομένων, καθώς βοηθάει σημαντικά στην γρήγορη αναζήτηση

Διαβάστε περισσότερα