Περίληψη διαβάθμισης

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Περίληψη διαβάθμισης"

Transcript

1 Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διαλέξεις6-7: Επανάληψη Διάταξης Εγγράφων. Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Περίληψη διαβάθμισης Βαθμολόγηση και κατάταξη εγγράφων Στάθμιση όρων (term weighting) Αναπαράσταση εγγράφων και ερωτημάτων ως διανύσματα 2 1

2 Κεφ. 6 Κατάταξη εγγράφων (Ranked retrieval) Μέχρι τώρα, τα ερωτήματα που είδαμε ήταν Boolean. Τα έγγραφα ήταν ταίριαζαν, είτε όχι Κατάλληλη για ειδικούς με σαφή κατανόηση των αναγκών τους και της συλλογής Αλλά, όχι κατάλληλη για την πλειοψηφία των χρηστών Το πρόβλημα με τα πάρα πολλά ή τα πολύ λίγα αποτελέσματα 3 Μοντέλα διαβαθμισμένης ανάκτησης Αντί ενός συνόλουεγγράφων που ικανοποιούν το ερώτημα, η διαβαθμισμένη ανάκτηση (ranked retrieval) επιστρέφει μια διάταξητων (κορυφαίων) για την ερώτηση εγγράφων της συλλογής Συνήθως μαζί με ερωτήματα ελεύθερου κειμένου (Free text queries) Πως διατάσουμε-διαβαθμίζουμε τα έγγραφα μιας συλλογής με βάση ένα ερώτημα Αναθέτουμε ένα βαθμό (score) score(d, q) μετρά πόσο καλά το έγγραφοd ταιριάζει (match) με το ερώτημαq 4 2

3 Κεφ. 6 Διαβαθμισμένη ανάκτηση Όταν το σύστημα παράγει ένα διατεταγμένο σύνολο αποτελεσμάτων, τα μεγάλα σύνολα δεν αποτελούν πρόβλημα Δείχνουμε απλώς τα κορυφαία (top)k ( 10) αποτελέσματα Δεν παραφορτώνουμε το χρήστη Προϋπόθεση: ο αλγόριθμος διάταξης δουλεύει σωστά 5 Βαθμός ταιριάσματος ερωτήματοςεγγράφου Κεφ. 6 Χρειαζόμαστε ένα τρόπο για να αναθέσουμε ένα βαθμό σε κάθε ζεύγος ερωτήματος(q)/εγγράφου(d) score(d, q) Επιθυμητές ιδιότητες: Αν κανένας όρος του ερωτήματος δεν εμφανίζεται στο έγγραφο, τότε ο βαθμός θα πρέπει να είναι 0 Όσο πιο συχνά εμφανίζεται κάποιος όρος του ερωτήματος σε ένα έγγραφο, τόσο μεγαλύτερος θα πρέπει να είναι ο βαθμός 6 3

4 Κεφ. 6.2 Στάθμιση με Log-συχνότητας Η συχνότητα όρου tf t,d του όρου t σε ένα έγγραφο dορίζεται ως αριθμός των φορών που το t εμφανίζεται στο d. Επειδή η συνάφεια (Relevance) δεν αυξάνει αναλογικά με τη συχνότητα όρου, στάθμιση με χρήση του λογάριθμου της συχνότητα(log frequency weight) του όρου t στο d είναι w t,d = 1 + log 10 tf t,d, if tf t,d > 0, otherwise 0 0 0, 1 1, 2 1.3, 10 2, 100->3, , κλπ. 7 Κεφ. 6.2 Στάθμιση με Log-συχνότητας Ο βαθμός για ένα ζεύγος εγγράφου-ερωτήματος: άθροισμα όλων των κοινών όρων: + t q d score = (1 log tf, ) Ο βαθμός είναι 0 όταν κανένας από τους όρους του ερωτήματος δεν εμφανίζεται στο έγγραφο t d 8 4

5 Κεφ Συχνότητα εγγράφων (Document frequency) Οι σπάνιοι όροι δίνουν περισσότερη πληροφορία από τους συχνούς όρους Θυμηθείτε τα stop words(διακοπτόμενες λέξεις) Θεωρείστε έναν όρο σε μια ερώτηση που είναι σπάνιος στη συλλογή (π.χ., arachnocentric) Το έγγραφο που περιέχει αυτόν τον όρο είναι πιο πιθανό να είναι πιο σχετικό με το ερώτημα από ένα έγγραφο που περιέχει ένα λιγότερο σπάνιο όρο του ερωτήματος Θέλουμε να δώσουμε μεγαλύτερο βάρος στους σπάνιους όρους αλλά πως; df 9 Κεφ Βάρος idf df t είναι η συχνότητα εγγράφων του t: ο αριθμός (πλήθος) των εγγράφων της συλλογής που περιέχουν το t df t είναι η αντίστροφη μέτρηση τηςπληροφορίας που παρέχει ο όρος t df t N Ορίζουμε την αντίστροφη συχνότητα εγγράφων idf (inverse document frequency) του t ως idft = log10 ( N/dft ) Χρησιμοποιούμε log (N/df t ) αντί για N/df t για να «ομαλοποιήσουμε» την επίδραση του idf. 10 5

6 Κεφ Παράδειγμα idf, έστω N = 1 εκατομμύριο term df t idf t calpurnia 1 6 animal sunday 1,000 3 fly 10,000 2 under 100,000 1 the 1,000,000 0 idft = log10 ( N/dft ) Κάθε όρος στη συλλογή έχει μια τιμή idf 11 Κεφ Στάθμιση tf-idf Το tf-idfβάρος ενός όρου είναι το γινόμενο του βάρους tfκαι του βάρους idf. w = log(1+ tft, d ) log10 ( N / df t, d t ) Το πιο γνωστό σχήμα διαβάθμισης στην ανάκτηση πληροφορίας -- Εναλλακτικά ονόματα: tf.idf, tf x idf Αυξάνει με τον αριθμό εμφανίσεων του όρου στο έγγραφο Αυξάνει με τη σπανιότητα του όρου στη συλλογή 12 6

7 Κεφ Βαθμός εγγράφου και ερώτησης Score(q,d)= t q d tf.idf t,d Υπάρχουν πολλές άλλες παραλλαγές Πως υπολογίζεται το tf (με ή χωρίςlog) Αν δίνεται βάρος και στους όρους του ερωτήματος 13 Κεφ. 6.2 Δυαδική μήτρα σύμπτωσης (binary termdocument incidence matrix) Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser Κάθε έγγραφο αναπαρίσταται ως ένα δυαδικό διάνυσμα {0,1} V (την αντίστοιχη στήλη) 14 7

8 Κεφ. 6.2 Ο πίνακας με μετρητές Κάθε έγγραφο είναι ένα διάνυσμα μετρητών (συχνότητα εμφάνισης του όρου στο έγγραφο) στο N v : μια στήλη παρακάτω Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser Κεφ. 6.3 Ο πίνακας με βάρη Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser Θεωρούμε τοtf-idfβάρος του όρου: Κάθε έγγραφο είναι ένα διάνυσμα tf-idfβαρώνστο R v 16 8

9 Κεφ. 6.3 Τα έγγραφα ως διανύσματα Έχουμε ένα V -διάστατο διανυσματικό χώρο Οι όροι είναι οι άξονες αυτού του χώρου Τα έγγραφα είναι σημεία ή διανύσματα σε αυτόν τον χώρο Πολύ μεγάλη διάσταση: δεκάδες εκατομμύρια διαστάσεις στην περίπτωση της αναζήτησης στο web Πολύ αραιά διανύσματα οι περισσότεροι όροι είναι 0 17 Κεφ. 6.3 Τα ερωτήματα ως διανύσματα Βασική ιδέα 1: Εφαρμόζουμε το ίδιο και για τα ερωτήματα, δηλαδή, αναπαριστούμε και τα ερωτήματα ως διανύσματα στον ίδιο χώρο Βασική ιδέα 2:Διαβάθμιση των εγγράφων με βάση το πόσο κοντά είναι στην ερώτηση σε αυτό το χώρο Κοντινά = ομοιότητα διανυσμάτων Ομοιότητα αντίθετο της απόστασης 18 9

10 Κεφ. 6.3 Ομοιότητα διανυσμάτων Πρώτη προσέγγιση: απόσταση μεταξύ δυο διανυσμάτων Ευκλείδεια απόσταση; Δεν είναι καλή ιδέα είναι μεγάληγια διανύσματα διαφορετικού μήκους 19 Κεφ. 6.3 cosine(query, document) Dot product r r r r q d cos( q, d ) = r r = q d Unit vectors q r r d r r = q d i V qi i= 1 V = 1 2 q d i i V i= 1 d 2 i q i είναι τοtf-idfβάρος του όρου iστην ερώτηση d i είναι το tf-idfβάρος του όρου iστο έγγραφο cos(q,d) είναι η ομοιότητα συνημίτονου των q καιd,που ορίζεται ως το συνημίτονο της γωνίας μεταξύ τωνqκαιd

11 Κεφ. 6.3 Κανονικοποίηση του μήκους Ένα διάνυσμα μπορεί να κανονικοποιηθείδιαιρώντας τα στοιχεία του με το μήκος του, με χρήση τηςl 2 νόρμας: Διαιρώντας ένα διάνυσμα με την L 2 νόρμα το κάνει μοναδιαίο Ως αποτέλεσμα, μικρά και μεγάλα έγγραφα έχουν συγκρίσιμα βάρη Για διανύσματα που έχουμε κανονικοποιήσειτο μήκος τους (length-normalized vectors) το συνημίτονο είναι απλώς το εσωτερικό γινόμενο (dot or scalar product): r x cos( r q, r d )= r q r d = 2 = V i=1 i x 2 i q i d i 21 Ομοιότητα συνημιτόνου 22 11

12 Κεφ. 6.4 Παραλλαγές της tf-idf στάθμισης Augmented: θεωρούμε τη συχνότητα του πιο συχνού όρου στο έγγραφο και κανονικοποιούμε με αυτήν Το 0.5 είναι ένας τελεστές στάθμισης (εξομάλυνσης) 23 Κεφ. 6.4 Στάθμιση ερωτημάτων και εγγράφων Πολλές μηχανές αναζήτησης σταθμίζουν διαφορετικά τις ερωτήσεις από τα έγγραφα Συμβολισμό: ddd.qqq,με χρήση των ακρονύμωντου πίνακα (πρώτα 3 γράμματα έγγραφο-επόμενα 3 ερώτημα) Συχνό σχήμα : lnc.ltc Έγγραφο: logarithmic tf(l), no idf(n), cosine normalization (c) Γιατί; idf: ολικό μέγεθος 24 12

13 Κεφ. 6.3 Παράδειγμα Ποια είναι οι ομοιότητα μεταξύ των έργων SaS: Sense and Sensibility PaP: Pride and Prejudice, and WH: Wuthering Heights? Συχνότητα όρων (μετρητές) όρος SaS PaP WH affection jealous gossip wuthering Κεφ. 6.3 Παράδειγμα (συνέχεια) Για απλοποίηση δε θα χρησιμοποιήσουμε τα idf βάρη lnc(logarithmic, none, normalized cosine) Log frequency βάρος όρος SaS PaP WH όρος SaS PaP WH affection jealous gossip wuthering affection jealous gossip wuthering Μήκος SAS= Μετά την κανονικοποίηση όρος SaS PaP WH affection jealous gossip wuthering

14 Κεφ. 6.3 Παράδειγμα (συνέχεια) όρος SaS PaP WH affection jealous gossip wuthering όρος SaS PaP WH affection jealous gossip wuthering cos(sas,pap) cos(sas,wh) 0.79 Γιατί cos(sas,pap) > cos(sas,wh)? cos(pap,wh) Κεφ. 6.4 Στάθμιση ερωτημάτων και εγγράφων Συχνό σχήμα : lnc.ltc Έγγραφο: logarithmic tf, no idf, cosine normalization Ερώτημα: logarithmic tf(l), idf(t), cosine normalization (c) 28 14

15 Κεφ. 6.4 Παράδειγμα Έγγραφο: car insurance auto insurance Ερώτημα: best car insurance Ν = 1000Κ Όρος Ερώτηµα (Query) Έγγραφο Prod tf-raw tf-wt df idf wt n lize tf-raw tf-wt wt n lize auto best car insurance Μήκος Εγγράφου = lnc.ltc Score = 0+0+(0.52*0.52=)27+(0.78*0.68=)0.53 = Μοντέλο Σάκου Λέξεων (Bag of words model) Η διανυσματική αναπαράσταση δεν εξετάζει τη διάταξη των λέξεων σε ένα έγγραφο John is quicker than Maryκαι Mary is quicker than John Έχουν τα ίδια διανύσματα Αυτό λέγεται μοντέλου σάκου λέξεων (bag of words model)

16 Περίληψη βαθμολόγησης στο διανυσματικό χώρο Αναπαράσταση του ερωτήματος ως ένα διαβαθμισμένο tf-idf διάνυσμα Αναπαράσταση κάθε εγγράφου ως ένα διαβαθμισμένο tf-idf διάνυσμα Υπολόγισε το συνημίτονο για κάθε ζεύγος ερωτήματος, εγγράφου Διάταξε τα έγγραφα με βάση αυτό το βαθμό Επέστρεψε τα κορυφαία Κ (π.χ., Κ =10) έγγραφα στο χρήστη 31 Κεφ. 7 Μερικά θέματα υλοποίησης 32 16

17 Τροποποίηση ευρετηρίου Συχνότητες όρων Σε κάθε καταχώρηση, αποθήκευση τουtf t,d επιπρόσθετα του docid d 33 Τροποποίηση ευρετηρίου Σε κάθε καταχώρηση, αποθήκευση τουtf t,d επιπρόσθετα του docid d Ως ακέραια συχνότητα όχι(log-)σταθμισμένο πραγματικό αριθμό γιατί οι πραγματικοί αριθμοί είναι δύσκολο να συμπιεστούν. Χρήση Unary code Επιπρόσθετος χώρος μικρός, λιγότερο από ένα byteανά καταχώρηση με bitwiseσυμπίεση ή ένα byteανά καταχώρηση με μεταβλητού μεγέθους byte code 34 17

18 Υπολογισμός cosine βαθμού Yπολογισμός ανά-όρο(ένας-όρος-τη-φορά- a-termat-a-time) Η απλούστερη περίπτωση είναι να επεξεργαστούμε όλη τη λίστα καταχωρήσεων του πρώτου όρου Δημιουργούμε ένα συσσωρευτή των βαθμών για κάθε docid εγγράφου που βρίσκουμε Μετά επεξεργαζόμαστε πλήρως τη λίστα καταχωρήσεων για τον δεύτερο όρο κοκ 35 Κεφ. 7 Υπολογισμός ανά όρο (term-at-a-time) Για κάθε όρο tτου ερωτήματοςq Λέμε τα στοιχεία του πίνακα Scores, συσσωρευτές (accumulators) 36 18

19 Παράδειγμα Ερώτημα: [Brutus Caesar]: Συσσωρευτές για τα: 1, 5, 7, 13, 17, 83, 87 Δε χρειαζόμαστε για τα 8, 40, 85 Εξετάζουμε μόνο τα έγγραφα που έχουν μη μηδενικό συνημίτονο 37 Κεφ. 7.1 Υπολογισμός βαρών Η σχετική διάταξη των εγγράφων δεν επηρεάζεται από την κανονικοποίησηή όχι του διανύσματος του q, επίσης αν κάθε όρος μόνο μια φορά στο ερώτημα το w t,q μπορεί να αγνοηθεί, οπότε μπορούμε απλώς να αθροίζουμε τα w t,s (document-at-a-time) Μπορούμε να διατρέχουμε τις λίστες των όρων του ερωτήματος παράλληλα όπως στην περίπτωση της Boolean ανάκτησης (merge sort) Αυτό έχει ως αποτέλεσμα λόγω της διάταξης των εγγράφων στις λίστες καταχωρίσεων τον υπολογισμό του βαθμού ανά έγγραφο 38 19

20 Κεφ. 7.1 Πως υπολογίζουμε τα κορυφαία k αποτελέσματα; Σε πολλές εφαρμογές, δε χρειαζόμαστε την πλήρη κατάταξη, αλλά μόνο τα κορυφαία k, για κάποιο μικρό k, π.χ., k= 100 Απλοϊκός τρόπος: Υπολόγισε τους βαθμούς για όλα τα N έγραφα Sort Επέστεψε τα κορυφαία k Αν δε χρειαζόμαστε όλη τη διάταξη, υπάρχει αποδοτικός τρόπος να υπολογίσουμε μόνο τα κορυφαία k; Έστω J τα έγγραφα με μη μηδενικό συνημίτονο. Μπορούμε να βρούμε τα K καλύτερα χωρίς ταξινόμηση όλων των J εγγράφων; 39 Κεφ. 7.1 Χρήση min heap Χρήση δυαδικού min heap Ένα δυαδικό min heapείναι ένα δυαδικό δέντρο που η τιμή ενός κόμβου είναι μικρότερη από την τιμή των δύο παιδιών του

21 Κεφ. 7.1 Παράδειγμα εισαγωγής (max heap) Επιλογή των κορυφαίων kσε O(Nlog k) Στόχος: Διατηρούμε τα καλύτερα kπου έχουμε δει μέχρι στιγμής Χρήση δυαδικού min heap Για την επεξεργασία ενός νέου εγγράφου d με score s : Get current minimum h m of heap (O(1)) If s h m skip to next document /* υπάρχουν kκαλύτερα */ Ifs > h m heap-delete-root(o(log k)) /* καλύτερο, σβήσε τη ρίζα heap-add d /s (O(log k)) και βάλτο στο heap*/ 42 21

22 Κεφ. 7.1 Χρήση max heap 2Jπράξεις για την κατασκευή του, βρίσκουμε τους K winners σε 2log Jβήματα. ΓιαJ=1M, K=100, 10% του κόστους της ταξινόμησης Ακόμα πιο αποδοτικός υπολογισμός; Η ταξινόμηση έχει πολυπλοκότητα χρόνου O(N) όπουnο αριθμός των εγγράφων (ή, ισοδύναμα J). Βελτιστοποίηση κατά ένα σταθερό όρο, αλλά ακόμα θέλουμε O(N), N> Υπάρχουν sublinear αλγόριθμοι; Αυτό που ψάχνουμε στην πραγματικότητα αντιστοιχεί στο να λύνουμε το πρόβλημα των k-πλησιέστερων γειτόνων (knearest neighbor (knn) problem) στο διάνυσμα του ερωτήματος (= query point). Δεν υπάρχει γενική λύση σε αυτό το πρόβλημα που να είναι sublinear. (ειδικά για πολλές διαστάσεις) 44 22

23 Κεφ Γενική Προσέγγιση Βρες ένα σύνολο A από υποψήφια έγγραφα (contenders), όπου K < A << N Το A δεν περιέχει απαραίτητα όλα τα top K, αλλά περιέχει αρκετά καλά έγγραφα και πολλά από τα top K Επέστρεψε τα top K έγγραφατουa Το Α είναι ένα ψαλίδισμα (pruning) των μη υποψηφίων Έτσι και αλλιώς το συνημίτονο είναι μόνο μια «εκτίμηση» της συνάφειας Θα δούμε σχετικούς ευριστικούς Κεφ Περιορισμός του ευρετηρίου Ο βασικός αλγόριθμος υπολογισμού του συνημίτονου θεωρεί έγγραφα που περιέχουν τουλάχιστον έναν όρο του ερωτήματος Μπορούμε να επεκτείνουμε αυτήν την ιδέα; Εξετάζουμε μόνο τους όρους του ερωτήματος με μεγάλο idf Εξετάζουμε μόνο έγγραφα που περιέχουν πολλούς από τους όρους του ερωτήματος 23

24 Κεφ Μόνο όροι με μεγάλο idf Παράδειγμα: Για το ερώτημα «catcher in the rye» Αθροίζουμε μόνο το βαθμό για τους όρους catcher καιrye Γιατί; : οι όροι inκαι theέχουν μικρή συνεισφορά στο βαθμό και άρα δεν αλλάζουν σημαντικά τη διάταξη Όφελος: Οι καταχωρήσεις των όρων με μικρά idfπεριέχουν πολλά έγγραφα αυτά τα (πολλά) έγγραφα δε μπαίνουν ως υποψήφια στο σύνολο Α Κεφ Έγγραφα με πολλούς όρους του ερωτήματος Κάθε έγγραφο που έχει τουλάχιστον έναν όρο του ερωτήματος είναι υποψήφιο για τη λίστα με τα κορυφαία Κ έγγραφα Για ερωτήματα με πολλούς όρους, υπολογίζουμε τους βαθμούς μόνο των εγγράφων που περιέχουν αρκετούς από τους όρους του ερωτήματος Για παράδειγμα, τουλάχιστον 3 από τους 4 όρους Παρόμοιο με ένα είδος μερικής σύζευξη( soft conjunction ) στα ερωτήματα των μηχανών αναζήτησης (αρχικά στη Google) Εύκολα να υλοποιηθεί κατά τη διάσχιση των καταχωρήσεων 24

25 Κεφ από τους4 όρους του ερωτήματος Antony Brutus Caesar Calpurnia Υπολογισμοί βαθμών μόνο για τα έγγραφα 8, 16 και 32 Κεφ Λίστες πρωταθλητών Προ-υπολογισμόςγια κάθε όρο tτου λεξικού, τωνrεγγράφων με το μεγαλύτερο βάρος ανάμεσα στις καταχωρήσεις του t-> λίστα πρωταθλητών(champion list, fancy listor top docsfor t) Αν tf.idf, είναι αυτά με το καλύτερο tf Κατά την ώρα του ερωτήματος, πάρε ως Α την ένωση των λιστών πρωταθλητών για τους όρους του ερωτήματος, υπολόγισε μόνο τους βαθμούς για τα έγγραφατης Α και διάλεξε τα Κ ανάμεσα τους To r πρέπει να επιλεγεί κατά τη διάρκεια της κατασκευής του ευρετηρίου Έτσι, είναι πιθανόν ότιr< K 25

26 Επεξεργασία Ανά-Έγγραφο και Ανά-Όρο Υπολογισμός ανά-όρο (term-at-a-time processing): Υπολογίζουμε για κάθε όρο της ερώτησης, για κάθε έγγραφο που εμφανίζεται στη λίστας καταχώρησης του ένα βαθμό και μετά συνεχίζουμε με τον επόμενο όρο της ερώτησης Υπολογισμός Ανά Έγγραφο (document-at-a-time processing): Τελειώνουμε τον υπολογισμό του βαθμού ομοιότητας ερωτήματος-εγγράφου για το έγγραφο d i πριν αρχίσουμε τον υπολογισμό βαθμού ομοιότητας ερωτήματος-εγγράφου για το έγγραφοd i Διάταξη με βάση την ποιότητα των εγγράφων Μέχρι στιγμής η διάταξη των εγγράφων στις λίστες καταχωρήσεων γίνεται με βάση το docid. Συχνά υπάρχει ένας ανεξάρτητος του ερωτήματος (στατικός) χαρακτηρισμός της καταλληλότητας ( goodness, authority) του εγγράφου Για παράδειγμα: o Στις μηχανές αναζήτησης (στο Google) το PageRank g(d) μιας σελίδας d μετρά το πόσο «καλή» είναι μια σελίδα με βάση το πόσες «καλές» σελίδες δείχνουν σε αυτήν, ή o wikipediaσελίδες ή o άρθρα σε μια συγκεκριμένη εφημερίδα, κλπ 53 26

27 Διάταξη με βάση την ποιότητα των εγγράφων Αν υπάρχει μια διάταξη της καταλληλότητας τότε ο συγκεντρωτικός βαθμός (net-score) ενός εγγράφου dείναι ένας συνδυασμός της καταλληλότητας του εγγράφου (που έστω ότι δίνεται από μια συνάρτηση g στο[0, 1]) και της συνάφειας του με το ερώτημα q(που εκφράζεται από το συνημίτονο) π.χ.: net-score(q, d) = g(d)+ cos(q, d) Θέλουμε να επιλέξουμε σελίδες που είναι και γενικά σημαντικές (authoritative) και συναφείς ως προς την ερώτηση (το οποίο μας δίνει το συνημίτονο) Πως μπορούμε να επιτύχουμε γρήγορο τερματισμό (early termination); Δηλαδή να μην επεξεργαστούμε όλη τη λίστα καταχωρήσεων για να βρούμε τα καλύτερα k. 54 Διάταξη με βάση την ποιότητα των εγγράφων Διατάσουμε τις λίστες καταχωρήσεων με βάση την καταλληλότητα (π.χ., PageRank) των εγγράφων: g(d 1 ) > g(d 2 ) > g(d 3 ) >... Η διάταξη των εγγράφων είναι ίδια για όλες τις λίστες καταχωρήσεων Τα «καλά» έγγραφα στην αρχή της κάθε λίστας, οπότε αν θέλουμε να βρούμε γρήγορα καλά αποτελέσματα μπορούμε να δούμε μόνο την αρχή της λίστας 55 27

28 Διάταξη με βάση την ποιότητα των εγγράφων Υπενθύμιση net-score(q, d) = g(d) + cos(q, d)και τα έγγραφα σε κάθε λίστα σε διάταξη με βάση το g Επεξεργαζόμαστε ένα έγγραφο τη φορά δηλαδή, για κάθε έγγραφο υπολογίζουμε πλήρως το net-scoreτου (για όλους τους όρους του ερωτήματος) Έστωg [0, 1], το τελευταίο k-κορυφαίο έγγραφο έχει βαθμό 1.2 και για το έγγραφοd που επεξεργαζόμαστε g(d) < 0.1, άρα και για όλα τα υπόλοιπα συνολικός βαθμός < 1.1. => δε χρειάζεται να επεξεργαστούμε το υπόλοιπο των λιστών 56 Διάταξη με βάση το βάρος του όρου στο έγγραφο Κεφ Ιδέα: δεν επεξεργαζόμαστε τις καταχωρήσεις που θα συνεισφέρουν λίγο στο τελικό βαθμό Διάταξη των εγγράφων με βάση το βάρος (weight)wf t,d Όχι κοινή διάταξη των εγγράφων σε όλες τις λίστες Η απλούστερη περίπτωση, normalized tf-idf weight Τα κορυφαία k έγγραφα είναι πιθανόν να βρίσκονται στην αρχή αυτών των ταξινομημένων λιστών. γρήγορος τερματισμός ενώ επεξεργαζόμαστε τις λίστες καταχωρήσεων μάλλον δε θα αλλάξει τα κορυφαία k έγγραφα 57 28

29 Κεφ. 7 Υπολογισμός ανά όρο Μη φέρεις όλη τη λίστα καταχωρήσεων, μόνο τα πρώτα στοιχεία της 58 Κεφ Πρόωρος τερματισμός Κατά τη διάσχιση των καταχωρήσεων ενός όρου t, σταμάτα νωρίς αφού: Δεις ένα προκαθορισμένο αριθμό r από έγγραφα Το wf t,d πέφτει κάτω από κάποιο κατώφλι Πάρε την ένωση του συνόλου των εγγράφων που προκύπτει Ένα σύνολο για κάθε όρο Υπολόγισε τους βαθμούς μόνο αυτών των εγγράφων 29

30 Κεφ idf-διατεταγμένοι όροι Κατά την επεξεργασία των όρων του ερωτήματος Τους εξετάζουμε με φθίνουσα διάταξη ως προς idf Όροι με μεγάλο idfπιθανών να συνεισφέρουν περισσότερο στο βαθμό Καθώς ενημερώνουμε τη συμμετοχή στο βαθμό κάθε όρου Σταματάμε αν ο βαθμός των εγγράφων δεν μεταβάλλεται πολύ Κεφ Κλάδεμα συστάδων Προ-επεξεργασία Επέλεξε τυχαία N έγγραφα: τα οποία τα ονομάζουμε ηγέτες(leaders) Για κάθε άλλο έγγραφο, προυπολογίζουμε τον κοντινότερο ηγέτη του Αυτά τα έγγραφα καλούντα ακόλουθοι (followers); Ο αναμενόμενος αριθμός είναι: ~ N ακόλουθοι ανά ηγέτη 30

31 Κεφ Κλάδεμα συστάδων Για κάθε ερώτημα q Βρες τον πιο κοντινό ηγέτη L. Ψάξε για τα Kπλησιέστερα έγγραφα ανάμεσα στους ακολούθους του L. Κεφ Κλάδεμα συστάδων Query Leader Follower 31

32 Κεφ Κλάδεμα συστάδων Γιατί τυχαία δείγματα; Γρήγορη Οι ηγέτες αντανακλούν την πραγματική κατανομή Κεφ Κλάδεμα συστάδων Γενικές παραλλαγές (b1-b2) Κάθε ακόλουθος συνδέεται με b1=3 (έστω) πλησιέστερους ηγέτες. Για ένα ερώτημα, βρεςb2=4 (έστω) κοντινότερους ηγέτες και τους ακολούθους τους 32

33 Βαθμιδωτά (διαστρωματωμένα) ευρετήρια (Tiered indexes) Βασική ιδέα: Κατασκευάζουμε διάφορα επίπεδα/βαθμίδες από ευρετήρια, όπου το καθένα αντιστοιχεί στη σημαντικότητα των όρων Κατά τη διάρκεια της επεξεργασίας του ερωτήματος, αρχίζουμε από την υψηλότερη βαθμίδα Αν το ευρετήριο της υψηλότερης βαθμίδας, έχει τουλάχιστον k (π.χ., k = 100) αποτελέσματα: σταμάτα και επέστρεψε αυτά τα αποτελέσματα στο χρήστη Αλλιώς, αν έχουμε βρει < k ταιριάσματα: επανέλαβε την αναζήτηση στην επόμενη βαθμίδα 66 Βαθμιδωτά ευρετήρια Παράδειγμα Έστω 2 βαθμίδες Βαθμίδα1: Ευρετήριο για όλους τους τίτλους (ή μετα έγγραφα με μεγάλο tf.idf) Βαθμίδα2: Ευρετήριο για τα υπόλοιπο έγγραφο(ή με τα έγγραφα με μικρό tf.idf) Οι σελίδες που περιέχουν του όρους αναζήτησης στον τίτλο είναι καλύτερα ταιριάσματα από τις σελίδες που περιέχουν τους όρους στο σώμα του εγγράφου 67 33

34 Βαθμιδωτά ευρετήρια 68 Βαθμιδωτά ευρετήρια Η χρήση βαθμιδωτών ευρετηρίων θεωρείται ως ένας από τους λόγους που η ποιότητα των αποτελεσμάτων του Google ήταν αρχικά σημαντικά καλύτερη (2000/01) από αυτήν των ανταγωνιστών τους. (μαζί με το PageRank, τη χρήση του anchor text και περιορισμών θέσεων (proximity constraints)) 69 34

35 Συνδυασμός διανυσματικής ανάκτησης Πως συνδυάζουμε την ανάκτηση φράσεων (και γενικά την εγγύτητα όρων proximity queries) με τη διανυσματική ανάκτηση; Window: το μικρότερο παράθυρο που περιέχονται όλοι οι όροι του ερωτήματος μετρημένο ως το πλήθος λέξεων του παραθύρου Πως συνδυάζουμε την Boolean ανάκτησημε τη διανυσματική ανάκτηση; Π.χ., AND ή NOT Πως συνδυάζουμε τα * με τη διανυσματική ανάκτηση; 70 Επεξεργασία ερωτήματος Αναλυτής ερωτημάτων (query parser) Παράδειγμα rising interest rates 1. Εκτέλεσε την ερώτημα ως ερώτημα φράσης rising interest rates και κατάταξε τα αποτελέσματα χρησιμοποιώντας διανυσματική βαθμολόγηση 2. Αν δεν υπάρχουν αρκετά αποτελέσματα, εκτέλεσε το ερώτημα ως 2 ερωτήματα φράσεις: rising interest και interest rates και κατάταξε τα αποτελέσματα χρησιμοποιώντας διανυσματική βαθμολόγηση 3. Αν δεν υπάρχουν αρκετά αποτελέσματα, εκτέλεσε το ερώτημα ως διάνυσμα και κατάταξε τα αποτελέσματα χρησιμοποιώντας διανυσματική βαθμολόγηση Μπορούμε τώρα για τα έγγραφα που εμφανίζονται σε παραπάνω από ένα από τα παραπάνω βήματα να συνδυάσουμς (αθροίσουμε) τους βαθμούς 71 35

36 Μια εικόνα του γενικού συστήματος ΑΠ 72 Πλήρες σύστημα αναζήτησης Προ-επεξεργασία Επεξεργασία ερωτήματος Ευρετήρια (παραλλαγές του αντεστραμμένου ευρετηρίου) 73 36

37 Ποια συστατικά έχουμε ήδη δει Προ-επεξεργασία των εγγράφων Ευρετήρια θέσεων (Positional indexes) Βαθμιδωτά ευρετήρια (Tiered indexes) Διορθώσεις ορθογραφικές (Spelling correction) Ευρετήραk-γραμμάτων (για ερωτήματα με * και ορθογραφικές διορθώσεις) Επεξεργασία ερωτημάτων Βαθμολόγηση εγγράφων 74 Ποια συστατικά δεν έχουμε δει ακόμα Cache για τα έγγραφα Ευρετήρια ζώνης: χωρίζουν τα ευρετήρια σε διαφορετικές ζώνες: π.χ., το σώμα του κειμένου, όλο τα υπογραμμισμένο κείμενο, κείμενο άγκυρας (anchortext), κείμενο στα πεδία των μεταδεδομένων, κλπ Συναρτήσεις διαβάθμισης βασισμένη σε μηχανική μάθηση Διαβάθμιση με βάση τη γειτονικότητα(proximity ranking)(π.χ., κατάταξε τα έγγραφα στα οποία οι όροι του ερωτήματος εμφανίζονται στο ίδιο τοπικό παράθυρο πιο ψηλά από τα έγγραφα όπου οι όροι εμφανίζονται μακριά ο ένας από τον άλλον) 75 37

38 Κεφ. 8 Τι (άλλο) θα δούμε σήμερα; Περιλήψεις αποτελεσμάτων Κάνοντας τα καλά αποτελέσματα χρήσιμα 76 Πως παρουσιάζουμε τα αποτελέσματα στο χρήστη; 77 38

39 Κεφ. 8.7 Περιλήψεις αποτελεσμάτων Αφού έχουμε διατάξει τα έγγραφα που ταιριάζουν με το ερώτημα, θέλουμε να τα παρουσιάσουμε στο χρήστη Πιο συχνά ως μια λίστα από τίτλους εγγράφων, URL,μαζί με μια μικρή περίληψη, aka 10 blue links 78 Κεφ. 8.7 Περιλήψεις αποτελεσμάτων Η περιγραφή του εγγράφου είναι κρίσιμη γιατί συχνά οι χρήστες βασίζονται σε αυτήν για να αποφασίσουν αν το έγγραφο είναι σχετικό Δε χρειάζεται να διαλέξουν ένα-ένα τα έγγραφα με τη σειρά Ο τίτλος αυτόματα από μεταδεδομένα, αλλά πώς να υπολογίσουμε τις περιλήψεις; 79 39

40 Κεφ. 8.7 Περιλήψεις αποτελεσμάτων Δύο βασικά είδη περιλήψεων Μια στατική περίληψη (static summary) ενός εγγράφου είναι πάντα η ίδια ανεξάρτητα από το ερώτημα που έθεσε ο χρήστης Μια δυναμική περίληψη (dynamic summary) εξαρτάται από το ερώτημα (query-dependent). Προσπαθεί να εξηγήσει γιατί το έγγραφο ανακτήθηκε για το συγκεκριμένο κάθε φορά ερώτημα 80 Κεφ. 8.7 Στατικές Περιλήψεις Σε ένα τυπικό σύστημα η στατική περίληψη είναι ένα υποσύνολο του εγγράφου Απλός ευριστικός: οι πρώτες περίπου 50 λέξεις του εγγράφου cached κατά τη δημιουργία του ευρετηρίου Πιο εξελιγμένες μέθοδοι βρες από κάθε έγγραφο κάποιες σημαντικές προτάσεις Απλή γλωσσολογική επεξεργασία (NLP)με ευριστικάγια να βαθμολογηθεί κάθε πρόταση Η περίληψη αποτελείται από τις προτάσεις με το μεγαλύτερο βαθμό Ή και πιο περίπλοκη γλωσσολογική επεξεργασία για τη σύνθεση/δημιουργία περίληψης 81 40

41 Κεφ. 8.7 Δυναμικές Περιλήψεις Παρουσίασε ένα ή περισσότερα «παράθυρα» (windows, snippets) μέσα στο έγγραφο που να περιέχουν αρκετούς από τους όρους του ερωτήματος KWIC snippets: Keyword in Context presentation Κεφ. 8.7 Δυναμικές Περιλήψεις Για τον υπολογισμό των εγγράφων χρειαζόμαστε τα ίδια τα έγγραφα (δεν αρκεί το ευρετήριο) Cache εγγράφων που πρέπει να ανανεώνεται Συχνά όχι όλο το έγγραφο αν είναι πολύ μεγάλο, αλλά κάποιο πρόθεμα του Βρες μικρά παράθυρα στα έγγραφα που περιέχουν όρους του ερωτήματος Απαιτεί γρήγορη αναζήτηση παράθυρου στην cacheτων εγγράφων 83 41

42 Κεφ. 8.7 Δυναμικές Περιλήψεις Βαθμολόγησε κάθε παράθυρο ως προς το ερώτημα Με βάση διάφορα χαρακτηριστικά το πλάτος του παραθύρου, τη θέση του στο έγγραφο, κλπ Συνδύασε τα χαρακτηριστικά Δύσκολο να εκτιμηθεί η ποιότητα Positional indexes (words vs bytes) Ο χώρος που διατίθεται για τα παράθυρα είναι μικρός 84 Κεφ. 8.7 Δυναμικές Περιλήψεις Query: new guinea economic development Snippets (in bold) that were extracted from a document:... In recent years, Papua New Guinea has faced severe economic difficulties and economic growth has slowed, partly as a result of weak governance and civil war, and partly as a result of external factors such as the Bougainville civil war which led to the closure in 1989 of the Panguna mine (at that time the most important foreign exchange earner and contributor to Government finances), the Asian financial crisis, a decline in the prices of gold and copper, and a fall in the production of oil. PNG s economic development record over the past few years is evidence that governance issues underly many of the country s problems. Good governance, which may be defined as the transparent and accountable management of human, natural, economic and financial resources for the purposes of equitable and sustainable development, flows from proper public sector management, efficient fiscal and accounting mechanisms, and a willingness to make service delivery a priority in practice

43 Quicklinks Γιαnavigational query όπωςunited airlinesοι χρήστες πιθανόν να ικανοποιούνται από τη σελίδα Quicklinks παρέχουν navigational cues σε αυτή τη σελίδα

44 Εναλλακτικές αναπαραστάσεις; 88 ΤΕΛΟΣ 6-7 ου Μαθήματος Ερωτήσεις? Χρησιμοποιήθηκε κάποιο υλικό των: Pandu Nayak and Prabhakar Raghavan, CS276:Information Retrieval and Web Search(Stanford) Hinrich Schütze and Christina Lioma, Stuttgart IIR class 89 44

Τι (άλλο) θα δούμε σήμερα;

Τι (άλλο) θα δούμε σήμερα; Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Τι είδαμε στο προηγούμενο μάθημα Βαθμολόγηση

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 8: Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Τι είδαμε στο προηγούμενο μάθημα Βαθμολόγηση

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου.

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση και κατάταξη εγγράφων Στάθμιση

Διαβάστε περισσότερα

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας

ΜΥΕ003: Ανάκτηση Πληροφορίας ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 6, 7, 8.7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. Περιλήψεις. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση και κατάταξη

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6-7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα;

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5(α): Συμπίεση Ευρετηρίου 1 ΣΤΑΤΙΣΤΙΚΑ ΣΥΛΛΟΓΗΣ 2 Κεφ. 5 Στατιστικά στοιχεία Πόσο μεγάλο είναι το

Διαβάστε περισσότερα

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 8, 11: Περιλήψεις αποτελεσμάτων, Πιθανοτική ανάκτηση πληροφορίας.

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 8, 11: Περιλήψεις αποτελεσμάτων, Πιθανοτική ανάκτηση πληροφορίας. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 8, : Περιλήψεις αποτελεσμάτων, Πιθανοτική ανάκτηση πληροφορίας. Κεφ. 8 Τι θα δούμε σήμερα; Πιθανοτική ανάκτηση Περιλήψεις αποτελεσμάτων

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο : Πιθανοτική ανάκτηση πληροφορίας. Κεφ. Πιθανοτική Ανάκτηση Πληροφορίας Βασική ιδέα: Διάταξη εγγράφων με βάση την πιθανότητα να είναι

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Διδάσκων Δημήτριος Κατσαρός Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Διδάσκων Δημήτριος Κατσαρός Διάλεξη 10η: 31/03/2014 1 Problem with Boolean search: feast or famine Ch. 6 Boolean queries often result in either too few

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Μοντελοποίηση: Διανυσματικό μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα (υποστήριξη *) 1 Ch. 2 Επανάληψη προηγούμενης

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

1. Financial New Times Year MAXk {FREQij} D D D D

1.  Financial New Times Year MAXk {FREQij} D D D D Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY46 - Συστήματα Ανάκτησης Πληροφοριών 2004-2005 Εαρινό Εξάμηνο 2 η Σειρά ασκήσεων (Μοντέλα Ανάκτησης Πληροφοριών και Ευρετήρια) Ανάθεση: 6 Μαρτίου Παράδοση:

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ AM: Δοµές Δεδοµένων Εξεταστική Ιανουαρίου 2014 Διδάσκων : Ευάγγελος Μαρκάκης 20.01.2014 ΥΠΟΓΡΑΦΗ ΕΠΟΠΤΗ: Διάρκεια εξέτασης : 2 ώρες και

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Επίλυση Προβλημάτων 1

Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων Περιγραφή Προβλημάτων Αλγόριθμοι αναζήτησης Αλγόριθμοι τυφλής αναζήτησης Αναζήτηση πρώτα σε βάθος Αναζήτηση πρώτα σε πλάτος (ΒFS) Αλγόριθμοι ευρετικής αναζήτησης

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 6: Ο Αντεστραμμένος Κατάλογος Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 1η: 20/02/2017 1 Ειζαγωγή ζηο μάθημα & Ειζαγωγή ζηην Ανάκηηζη Πληροθορίας 2 Διδακτικό βοήθημα 1 Καλύπηει ηο ανηικείμενο ηοσ

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS Ralf Schenkel, Tom Crecelious, Mouna Kacimi, Sebastian Michel, Thomas Neumann, Josiane Xavier Parreira, Gerhard Weikum ΠΡΟΒΛΗΜΑ Εύρεση ενός αποτελεσματικού

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης Βάση

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 10: Αξιολόγηση στην Ανάκτηση Πληροφοριών II. 1 Κεφ. 8 Αξιολόγηση συστήματος Αποδοτικότητα (Performance)

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006 ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006 Outlne Prevous Semester Exercses Set

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή

Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή Δοµές Δεδοµένων και Αλγόριθµοι - Εισαγωγή Στην ενότητα αυτή θα µελετηθούν τα εξής επιµέρους θέµατα: Εισαγωγή στις έννοιες Αλγόριθµοι και Πολυπλοκότητα, Οργάνωση Δεδοµένων και Δοµές Δεδοµένων Χρήσιµοι µαθηµατικοί

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #11 Suffix Arrays Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης Το παρόν

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2009-2010 ΑΣΚΗΣΗ Α Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Τα ανεστραμμένα αρχεία αποτελούν μια βασική μορφή ευρετηρίου και μας επιτρέπουν να εντοπίσουμε

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Πιθανοκρατικό μοντέλο

Πιθανοκρατικό μοντέλο Πιθανοκρατικό μοντέλο Το μοντέλο MAP Αλέξανδρος Γκιμπερίτης Βασίλης Μπούργος Δημήτρης Σουραβλιάς 1 Εισαγωγικές έννοιες Κάθε έγγραφο d της συλλογής παριστάνεται από το δυαδικό διάνυσμα x = (x 1, x 2,...,

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών. Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι

Εισαγωγή στην επιστήμη των υπολογιστών. Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι Εισαγωγή στην επιστήμη των υπολογιστών Λογισμικό Υπολογιστών Κεφάλαιο 8ο Αλγόριθμοι 1 Έννοια Ανεπίσημα, ένας αλγόριθμος είναι μια βήμα προς βήμα μέθοδος για την επίλυση ενός προβλήματος ή την διεκπεραίωση

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

Κεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1,

Κεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1, Κεφάλαιο 4 Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1, 2015-01-19 Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne. 1 Διαίρει και Βασίλευε (Divide-and-Conquer) Διαίρει-και-βασίλευε

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος

Διαβάστε περισσότερα

Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο

Σχεδίαση Αλγορίθμων -Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο Πολλαπλασιασμός μεγάλων ακεραίων (1) Για να πολλαπλασιάσουμε δύο ακεραίους με n 1 και n 2 ψηφία με το χέρι, θα εκτελέσουμε n 1 n 2 πράξεις πολλαπλασιασμού Πρόβλημα ρβημ όταν έχουμε πολλά ψηφία: A = 12345678901357986429

Διαβάστε περισσότερα

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης Σύνοψη Προηγούμενου Πίνακες (Arrays Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς Διαδικαστικά θέματα. Aντικείμενο Μαθήματος. Aντικείμενα, Κλάσεις, Μέθοδοι, Μεταβλητές.

Διαβάστε περισσότερα

Πληροφορική 2. Αλγόριθμοι

Πληροφορική 2. Αλγόριθμοι Πληροφορική 2 Αλγόριθμοι 1 2 Τι είναι αλγόριθμος; Αλγόριθμος είναι ένα διατεταγμένο σύνολο από σαφή βήματα το οποίο παράγει κάποιο αποτέλεσμα και τερματίζεται σε πεπερασμένο χρόνο. Ο αλγόριθμος δέχεται

Διαβάστε περισσότερα

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα

Διαβάστε περισσότερα

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ C ΣΕΙΡΑ 1 η

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ C ΣΕΙΡΑ 1 η Δημοκρίτειο Πανεπιστήμιο Θράκης Πολυτεχνική Σχολή Τμήμα Μηχανικών Παραγωγής & Διοίκησης Ακαδ. έτος 2015-2016 Τομέας Συστημάτων Παραγωγής Εξάμηνο Β Αναπληρωτής Καθηγητής Στέφανος Δ. Κατσαβούνης ΜΑΘΗΜΑ :

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval MYE003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ

ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ (ΑΛΓΟΡΙΘΜΟΙ, Sanjoy Dasgupta, Christos Papadimitriou, Umesh Vazirani, σελ. 55-62 ΣΧΕΔΙΑΣΜΟΣ ΑΛΓΟΡΙΘΜΩΝ, Jon Kleinberg, Eva Tardos, Κεφάλαιο 5) Δυαδική αναζήτηση

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ Μαθηματικά Σταύρος Παπαϊωάννου Ιούνιος 015 Τίτλος Μαθήματος Περιεχόμενα Χρηματοδότηση... Error! Bookmark not defined. Σκοποί Μαθήματος (Επικεφαλίδα

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Μέρος 4

Αλγόριθμοι Ταξινόμησης Μέρος 4 Αλγόριθμοι Ταξινόμησης Μέρος 4 Μανόλης Κουμπαράκης Δομές Δεδομένων και Τεχνικές 1 Μέθοδοι Ταξινόμησης Βασισμένοι σε Συγκρίσεις Κλειδιών Οι αλγόριθμοι ταξινόμησης που είδαμε μέχρι τώρα αποφασίζουν πώς να

Διαβάστε περισσότερα

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί

Διαβάστε περισσότερα

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα

Διαβάστε περισσότερα

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση) TETY Εφαρμοσμένα Μαθηματικά Ενότητα ΙΙ: Γραμμική Άλγεβρα Ύλη: Διανυσματικοί χώροι και διανύσματα, μετασχηματισμοί διανυσμάτων, τελεστές και πίνακες, ιδιοδιανύσματα και ιδιοτιμές πινάκων, επίλυση γραμμικών

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 9: Ανάδραση Σχετικότητας (Relevance Feedback ή RF) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 20 Huffman codes 1 / 12 Κωδικοποίηση σταθερού μήκους Αν χρησιμοποιηθεί κωδικοποίηση σταθερού μήκους δηλαδή

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός

Δυναμικός Κατακερματισμός Δυναμικός Κατακερματισμός Καλό για βάση δεδομένων που μεγαλώνει και συρρικνώνεται σε μέγεθος Επιτρέπει τη δυναμική τροποποίηση της συνάρτησης κατακερματισμού Επεκτάσιμος κατακερματισμός μια μορφή δυναμικού

Διαβάστε περισσότερα

Κατακερματισμός (Hashing)

Κατακερματισμός (Hashing) Κατακερματισμός (Hashing) O κατακερματισμός είναι μια τεχνική οργάνωσης ενός αρχείου. Είναι αρκετά δημοφιλής μέθοδος για την οργάνωση αρχείων Βάσεων Δεδομένων, καθώς βοηθάει σημαντικά στην γρήγορη αναζήτηση

Διαβάστε περισσότερα

1.4 Αριθμητική υπολογιστών και σφάλματα

1.4 Αριθμητική υπολογιστών και σφάλματα Γ. Γεωργίου, Αριθμητική Ανάλυση 1.4 Αριθμητική υπολογιστών και σφάλματα Στην παράγραφο αυτή καλύπτουμε πρώτα γενικά το θέμα της αριθμητικής υπολογιστών και στην συνέχεια διαπραγματευόμαστε την έννοια του

Διαβάστε περισσότερα

Δομές Δεδομένων. Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο. Φυσικό Επίπεδο RAM. Ταξινομημένος.

Δομές Δεδομένων. Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο. Φυσικό Επίπεδο RAM. Ταξινομημένος. Δομές Δεδομένων Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο Φυσικό Επίπεδο RAM Πίνακας 8 10 17 19 22 Ταξινομημένος Πίνακας 5 8 10 12 17 Δένδρο 8 5 10 12 19 17

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33

ΚΕΦΑΛΑΙΟ 2: Τύποι δεδομένων και εμφάνιση στοιχείων...33 ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος του συγγραφέα... 13 Πρόλογος του καθηγητή Τιμολέοντα Σελλή... 15 ΚΕΦΑΛΑΙΟ 1: Εργαλεία γλωσσών προγραμματισμού...17 1.1 Γλώσσες προγραμματισμού τρίτης γεννεάς... 18 τι είναι η γλώσσα

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Διδάσκων Δημήτριος Κατσαρός Διάλεξη 13η: 28/04/2014 1 Παράμετροι του μοντέλου PageRank 2 Ηπαράμετροςα(1/2) Η παράμετρος αυτή ελέγχει στην ουσία την προτεραιότητα που δίνεται στη δομή

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ C ΣΕΙΡΑ 1 η

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ C ΣΕΙΡΑ 1 η Δ.Π.Θ. - Πολυτεχνική Σχολή Τμήμα Μηχανικών Παραγωγής & Διοίκησης Ακαδ. έτος 2016-2017 Τομέας Συστημάτων Παραγωγής Εξάμηνο Β Αναπληρωτής Καθηγητής Στέφανος Δ. Κατσαβούνης ΜΑΘΗΜΑ : ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Διαβάστε περισσότερα

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος

Διαβάστε περισσότερα