Επανάληψη προηγούμενης διάλεξης

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Επανάληψη προηγούμενης διάλεξης"

Transcript

1 Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4: Κατασκευή Ευρετηρίου 1 Επανάληψη προηγούμενης διάλεξης 1. Δομές Δεδομένων για το Λεξικό 2. Ανάκτηση ανεκτική σε σφάλματα a. Ερωτήματα με * b. Διόρθωση ορθογραφικών λαθών c. Soundex 2 1

2 Κεφ. 3.1 Δομές Δεδομένων για Λεξικά Περιέχουν το λεξιλόγιο όρων (λήμμα), τη συχνότητα εγγράφου (document frequency), δείκτες σε κάθε λίστα καταχωρήσεων, ποια δομή δεδομένων είναι κατάλληλη; Λεξικό 3 Κεφ. 3.1 Δομές δεδομένων για το Λεξικό Δυο βασικές επιλογές: Πίνακες Κατακερματισμού (Hashtables) Δέντρα (Trees) Μερικά Συστήματα Ανάκτησης Πληροφορίας χρησιμοποιούν πίνακες κατακερματισμού άλλα δέντρα 4 2

3 Κεφ. 3.1 Δομές Δεδομένων για Λεξικά Κριτήρια Επιλογής Αποδοτική αναζήτηση ενός όρου (κλειδιού) στο λεξικό. Σχετικές συχνότητας προσπέλασης των κλειδιών (πιο γρήγορα οι συχνοί όροι;) Πόσοι είναι οι όροι (κλειδιά) Είναι στατικό (ή έχουμε συχνά εισαγωγές/διαγραφές όρων) ή και τροποποιήσεις 5 Κεφ. 3.1 Πίνακες Κατακερματισμού Κάθε όρος του λεξιλογίου κατακερματίζεται σε έναν ακέραιο +: Η αναζήτηση είναι πιο γρήγορη από ένα δέντρο: O(1) -: Δεν υπάρχει εύκολος τρόπος να βρεθούν μικρές παραλλαγές ενός όρου judgment/judgement, resume vs. résumé Μη δυνατή η προθεματική αναζήτηση [ανεκτική ανάκληση] Αν το λεξιλόγιο μεγαλώνει συνεχώς, ανάγκη για να γίνει κατακερματισμός από την αρχή 6 3

4 Κεφ. 3.1 Δέντρα Το απλούστερο: δυαδικό δέντρο Το πιο συνηθισμένο: B-δέντρα Τα δέντρα απαιτούν να υπάρχει διάταξη των κλειδιών (αλλά συνήθως υπάρχει) +: -: Λύνουν το πρόβλημα προθέματος (π.χ., όροι που αρχίζουν με hyp) Πιο αργή: O(log M) [όπου Μ ο αριθμός των όρων-και αυτό απαιτεί (ισοζυγισμένα balanced δέντα] Η ισοζύγιση(rebalancing) τωνδυαδικών δέντρων είναι ακριβό Αλλά τα B-δέντρα καλύτερα 7 Κεφ. 3.2 Ερωτήματα με Wild-card(*) Τρεις προσεγγίσεις: 1. B-δέντρο και αντεστραμμένο Β-δέντρο 2. Permuterm index (ευρετήριο αντιμετατεθειμένων όρων) 3. k-gram index (ευρετήριο k-γραμμάτων) 8 4

5 Κεφ. 3.2 Ερωτήματα με Wild-card(*) mon*:βρες όλα τα έγγραφα που περιέχουν οποιαδήποτε λέξη αρχίζει με mon. Εύκολο όταν το λεξικό με δυαδικό δέντρο (ήb-δέντρο): 1. Ανάκτησε όλους τους όρους t στο διάστημα: mon t < moo 2. Για κάθε όρο, αναζήτησε το αντεστραμμένο ευρετήριο σε ποια έγγραφα εμφανίζεται * mon: Βρες όλα τα έγγραφα που περιέχουν οποιαδήποτε λέξη τελειώνει σε mon : πιο δύσκολο Διατήρησε ένα επιπρόσθετο B-tree για τους όρους ανάποδα backwards(πχ ο όρος demon -> nomed) Ανάκτησε όλους τους όρους t στο διάστημα: nom t < non. 9 Κεφ. 3.2 Γενικά ερωτήματα με * *στη μέση του όρου co*tion Αναζήτησε το co*and *tionσε ένα B-tree και υπολόγισε την τομή των συνόλων Ακριβό! Εναλλακτική λύση: Μετάτρεψε τις ερωτήσεις έτσι ώστε τα *να εμφανίζονται στο τέλος Permuterm Index(ευρετήριο αντιμετατεθειμένων όρων) 10 5

6 Κεφ Ευρετήριο Permuterm Βασική ιδέα: Δεξιά περιστροφή (rotation) του όρου του ερωτήματος ώστε το * στο τέλος π.χ., Ερώτημα he*lo -> he*lo$-> lo$he* όπου $ ένα ειδικός χαρακτήρας που σηματοδοτεί το τέλος μιας λέξης Ψάχνουμε το lo$hel* Κατασκευάζουμε ένα ευρετήριο αντιμετατεθειμένωνόρων στο οποίο οι διάφορες παραλλαγές πουπροκύπτουν από την περιστροφή του όρου συνδέονται με τον αρχικό όρο Πχ. για τον όρο hello -> hello$, εισάγουμε στο ευρετήριο τα: hello$, o$hell, lo$hel(match), llo$he, ello$h 11 Κεφ Ευρετήριο Permuterm X*Y*Z πως γίνεται match? X*Y*Z$ -> Z$X* Ψάξε Z$X*και μετά έλεγξε κάθε υποψήφιο όρο για το Υ Πχ fi*mo*er-> ψάξε er$fi*, έλεγξε αν και mo (π.χ., fishmonger και fillbuster) Στην πραγματικότητα, permuterm B-tree Πρόβλημα: τετραπλασιάζει το μέγεθος του λεξικού Εμπειρική παρατήρηση για τα Αγγλικά 12 6

7 Κεφ Ευρετήρια k-γραμμάτων(k-gram indexes) Απαρίθμησε όλα τα k-γράμματα (ακολουθίες k γραμμάτων) που εμφανίζονται σε κάθε όρο π.χ.,για το κείμενο April is the cruelest month έχουμε τα 2-γράμματα (bigrams) $a,ap,pr,ri,il,l$,$i,is,s$,$t,th,he,e$,$c,cr,ru, ue,el,le,es,st,t$, $m,mo,on,nt,h$ Όπου $ ένα ειδικός χαρακτήρας που σηματοδοτεί το τέλος και την αρχή μιας λέξης Διατήρησε ένα δεύτεροαντεστραμμένο ευρετήριο από τα 2-γράμματα στους όρους του λεξικού που τα περιέχουν 13 Κεφ Ευρετήρια k-γραμμάτων(k-gram indexes) Το ευρετήριο k-γραμμάτων βρίσκει τους όρους βασισμένο σε μια ερώτηση που αποτελείται από k- γράμματα (εδώ k=2). $m mace madden mo on k= 3 among along amortize among 14 7

8 Κεφ Ευρετήρια k-γραμμάτων(k-gram indexes) Ερώτημα mon* τώρα γίνεται $m ANDmo ANDon Βρίσκει τους όρους που ταιριάζουν μια AND εκδοχή του ερωτήματος Απαιτείται βήμα μετά-φιλτραρίσματος (post-filter) False positive, π.χ., moon Οι όροι που απομένουν αναζητούνται στο γνωστό αντεστραμμένο ευρετήριο όρων-εγγράφων 15 Κεφ. 3.2 Επεξεργασία ερωτημάτων Π.χ., Θεωρείστε το ερώτημα: se*ate AND fil*er Μπορεί να οδηγήσει στην εκτέλεση πολλών Boolean AND ερωτημάτων (πιθανοί συνδυασμοί όρων). 16 8

9 Κεφ. 3.3 Διόρθωση ορθογραφικών λαθών Δύο βασικές χρήσεις Διόρθωση των εγγράφων που ευρετηριοποιούνται Διόρθωση των ερωτημάτωνώστε να ανακτηθούν «σωστές» απαντήσεις Δυο βασικές κατηγορίες: Μεμονωμένες λέξεις Εξέτασε κάθε λέξη μόνη της για λάθη Δεν πιάνει typos που έχουν ως αποτέλεσμα σωστά γραμμένες λέξεις π.χ., from form Βασισμένη σε συμφραζόμενα (context sensitive) Κοιτά τις λέξεις γύρω π.χ., I flew formheathrow to Narita. 17 Κεφ. 3.3 Διόρθωση εγγράφων Χρήσιμη ιδιαίτερα για έγγραφα μετά από OCR Αλγόριθμοι διόρθωσης ρυθμισμένοι για αυτό: rn/m Μπορεί να χρησιμοποιούν ειδική γνώση (domain-specific) Π.χ., OCR μπερδεύει το O με τοd πιο συχνά από τοo και τοi (που είναι γειτονικά στα QWERTY πληκτρολόγιο, οπότε πιο πιθανή η ανταλλαγή τους στην πληκτρολόγηση) Αλλά συχνά: web σελίδες αλλά και τυπωμένο υλικό έχουν typos Στόχος: το λεξικό να περιέχει λιγότερα ορθογραφικά λάθη Αλλά συχνά δεν αλλάζουμε τα έγγραφα αλλά επεκτείνουμε την απεικόνιση ερωτήματος εγγράφου 18 9

10 Κεφ. 3.3 Διόρθωση λαθών στο ερώτημα Μπορεί είτε Να ανακτήσουμε τα έγγραφα που έχουν δεικτοδοτηθεί κάτω από τη σωστή ορθογραφία, Ή Να επιστρέψουμε διάφορες προτεινόμενα ερωτήματα με σωστή ορθογραφία Did you mean? 19 Κεφ Διόρθωση μεμονωμένης λέξης Θεμελιώδης υπόθεση υπάρχει ένα λεξικό που μας δίνει τη σωστή ορθογραφία Δυο βασικές επιλογές για αυτό το λεξικό Ένα standard λεξικό Το λεξικό της συλλογής (corpus) 20 10

11 Κεφ Διόρθωση μεμονωμένης λέξης Δοθέντος ενός Λεξικούκαι ένα ερωτήματος Q, επέστρεψε τις λέξεις του λεξικού που είναι πιο κοντά στο Q Τι σημαίνει πιο κοντά? Διαφορετικοί ορισμοί εγγύτητας: Την απόσταση διόρθωσης-- edit distance (Levenshtein distance) και την σταθμισμένη απόσταση διόρθωσης -- weighted edit distance Επικάλυψη (overlap) n-γραμμάτων 21 κεφ Απόσταση διόρθωσης (Edit distance) ΟΡΙΣΜΟΣ: Δοθέντων δυο αλφαριθμητικών (strings)s 1 and S 2, ο ελάχιστος αριθμός πράξεων για τη μετατροπή του ενός στο άλλο Συνήθως, οι πράξεις είναι σε επίπεδο χαρακτήρα Levenshteindistance: (1) Insert Εισαγωγή, (2) Delete-Διαγραφή και (3) Replace Αντικατάσταση ενός χαρακτήρα Damerau-Levenshteindistance: + Transposition -Αντιμετάθεση ένα χαρακτήρα Π.χ., η απόσταση διόρθωσης από dofσεdogείναι1 Απόcatσεactείναι2 (Μόνο1 με αντιμετάθεση) Απόcatσεdogείναι

12 Κεφ Δυναμικός προγραμματισμός Εκφράζουμε το πρόβλημα ως συνδυασμό υπόπροβλημάτων η βέλτιστη λύση βασίζεται στη βέλτιστη λύση υπό-πρόβληματος Στην περίπτωση των αποστάσεων διόρθωσης το υπόπρόβλημα δυο προθεμάτων: Ο βέλτιστος τρόπος από μια λέξη σε μια άλλη, βασίζεται στο βέλτιστο τρόπο από κάποιο πρόθεμα της πρώτης σε πρόθεμα της δεύτερης Οι επικαλυπτόμενες υπό-λύσεις: χρειαζόμαστε τις περισσότερες αποστάσεις 3 φορές: κίνηση δεξιά, στη διαγώνιο, κάτω 23 Κεφ Υπολογισμός απόστασης Levenshtein i-1 i j -1 cost from upper left neighbor (optimal m[i-1,j-1]) Togetm[i, j] eithercopyif s1[i]=s2[j] +0, or else replace +1 [i-1, j-1] cost from left neighbor (insert) [i, j-1] j Cost from upper neighbor (delete) [i-1, j] theminimumofthethree possible movements ; the cheapest way of getting here[i, j] 24 12

13 Levenshtein distance: Algorithm 25 Levenshtein distance: Algorithm 26 13

14 Levenshtein distance: Algorithm 27 Levenshtein distance: Algorithm 28 14

15 Κεφ Υπολογισμός απόστασης: παράδειγμα cat -> cart 29 Κεφ Σταθμισμένη απόσταση διόρθωσης Το βάρος μιας πράξης εξαρτάται από τον ποιο χαρακτήρα (χαρακτήρες) περιλαμβάνει Στόχος να λάβει υπόψη λάθη OCR ή πληκτρολόγησης Παράδειγμα: mπιο πιθανό να πληκτρολογηθεί ως nπαρά ωςq Οπότε η αντικατάσταση του mαπόnέχει μικρότερη απόσταση διόρθωσης από την απόσταση του από το q Προϋποθέτει ως είσοδος ένας πίνακας βαρών Πως θα μετατρέψουμε το δυναμικό προγραμματισμό για να χειριστούμε τα βάρη; 30 15

16 Κεφ Χρήση των αποστάσεων διόρθωσης 1. Δοθείσας μιας ερώτησης, πρώτα απαρίθμησε όλες τις ακολουθίες χαρακτήρων μέσα σε μια προκαθορισμένη (σταθμισμένη) απόσταση διόρθωσης (π.χ., 2) 2. Βρες την τομή αυτού του συνόλου με τις «σωστές» λέξεις 3. Πρότεινε τους όρους που βρήκες στο χρήστη Εναλλακτικά, Ψάξε όλες τις πιθανές διορθώσεις στο αντεστραμμένο ευρετήριο και επέστρεψε όλα τα έγγραφα αργό Μπορούμε να επιστρέψουμε τα έγγραφα μόνο για την πιο πιθανή διόρθωση Η εναλλακτική λύση παίρνει τον έλεγχο από το χρήστη αλλά κερδίζουμε ένα γύρο διάδρασης 31 Κεφ Επικάλυψη k-γραμμάτων Εναλλακτικός ορισμός απόστασης: βάση των κοινών k-γραμμάτων Απαρίθμησε όλα το k-γράμματα στον όρο της ερώτησης Χρησιμοποίησε το ευρετήριοk-γραμμάτων για να ανακτήσεις όλους τους όρους του λεξικού που ταιριάζουν κάποιο(>= κατώφλι) αριθμό από τα k- γράμματα του ερωτήματος Παράδειγμα με 3-γράμματα Έστω ότι ο όρος στο λεξικό είναι november Τα τριγράμματα είναι nov, ove, vem, emb, mbe, ber. Για το ερώτημα december Τα τριγράμματα είναι dec, ece, cem, emb, mbe, ber. Άρα επικαλύπτονται 3 τριγράμματα (από τα 6 κάθε όρου) 32 16

17 Κεφ Επικάλυψη k-γραμμάτων Συνήθης μέτρηση της επικάλυψης Έστω XκαιYδύο σύνολα, ο συντελεστής Jaccard(J.C.) ορίζεται ως: X Y / X Y Ίσος με1 όταν ταxκαιyέχουν τα ίδια στοιχεία και 0 όταν είναι ξένα ΤαXand Yδε χρειάζεται να έχουν το ίδιο μέγεθος Πάντα μεταξύ του 0 και του 1 Το κατώφλι καθορίζει αν υπάρχει ταίριασμα, πχ., αν J.C. > 0.8, τότε ταίριασμα 33 Κεφ Επικάλυψη k-γραμμάτων Έστω το ερώτημα lord θέλουμε να βρούμε τις λέξεις που ταιριάζουν 2 από τα 3 2-γράμματα (lo, or, rd) lo alone lore sloth or border lore morbid rd ardent border card 34 17

18 Κεφ Διόρθωση βασισμένη στα συμφραζόμενα Κείμενο: I flew from Heathrow to Narita. Θεωρείστε το ερώτημα-φράση flew form Heathrow Θα θέλαμε να απαντήσουμε Did you mean flew from Heathrow? Γιατί δεν υπήρχαν έγγραφα που να ταιριάζουν το ερώτημα φράση 35 Κεφ Διόρθωση βασισμένη στα συμφραζόμενα Χρειάζεται συμφραζόμενο περιβάλλον για να το πιάσει αυτό. Πρώτη ιδέα: 1. Ανέκτησε τους όρους του λεξικού που είναι κοντά (σε σταθμισμένη απόσταση διόρθωσης) από κάθε όρο του ερωτήματος 2. Δοκίμασε όλες τις πιθανές φράσεις που προκύπτουν κρατώντας κάθε φορά μια λέξη σταθερή flew from heathrow fled form heathrow flea form heathrow 3. Hit-based spelling correction: Πρότεινε την εναλλακτική με τα περισσότερα hits 36 18

19 Κεφ Διόρθωση βασισμένη στα συμφραζόμενα Εναλλακτική Προσέγγιση 1. Σπάσε της φράση σε σύζευξη biwords. 2. Ψάξε τα biwords που χρειάζονται διόρθωση μόνο ενός όρου. 3. Απαρίθμησε μόνο τις φράσεις που περιέχουν «κοινά» biwords. 37 Κεφ Γενικά θέματα Θέλουμε να δούμε διαφορετικές απαντήσεις στο Did you mean? Ποιες θα επιλέξουμε να παρουσιάσουμε στο χρήστη; Αυτή που εμφανίζεται στα περισσότερα έγγραφα Ανάλυση του Query log 38 19

20 ΦΩΝΗΤΙΚΗ ΔΙΟΡΘΩΣΗ (SOUNDEX) 39 Κεφ. 3.4 Soundex Κλάση ευριστικώνγια την επέκταση ενός ερωτήματος σε φωνητικά (phonetic ) ισοδύναμα Εξαρτώνται από τη γλώσσα κυρίως για ονόματα Π.χ., chebyshev tchebycheff Προτάθηκε από το U.S. census το

21 Κεφ. 3.4 Soundex τυπικός αλγόριθμος Μετάτρεψε κάθε token προς δεικτοδότηση σε μια μορφή 4-χαρακτήρων Το ίδιο και για τους όρους του ερωτήματος Κατασκεύασε και ψάξε στο ευρετήριο τις μειωμένες μορφές (όταν το ερώτημα χρειάζεται φωνητικό ταίριασμα) dex1/soundex1.htm#top 41 Κεφ. 3.4 Soundex τυπικός αλγόριθμος 1. Κράτησε τον πρώτο χαρακτήρα της λέξης 2. Μετάτρεψε όλες τις εμφανίσεις των παρακάτω όρων σε '0' (zero): 'A', E', 'I', 'O', 'U', 'H', 'W', 'Y'. 3. Άλλαξε τα γράμματα σε αριθμούς ως ακολούθως: B, F, P, V 1 C, G, J, K, Q, S, X, Z 2 D,T 3 L 4 M, N 5 R

22 κεφ. 3.4 Soundex continued 4. Σβήσε όλα τα ζεύγη συνεχόμενων αριθμών 5. Σβήσε όλα τα υπομένοντα 0 6. Πρόσθεσε 0 στο τέλος και επέστρεψε τις τέσσερις πρώτες θέσεις που θα είναι της μορφής <uppercase letter> <digit> <digit> <digit>. Π.χ., Herman γίνεται H655. Το hermann δίνει τον ίδιο κωδικό; 43 ΤΕΛΟΣ ΕΠΑΝΑΛΗΨΗΣ 44 22

23 Κεφ. 4 Τι θα δούμε σήμερα; Κατασκευή του Ευρετηρίου 45 Κεφ. 4 Κατασκευή ευρετηρίου Πως κατασκευάζουμε το ευρετήριο; Ποιες στρατηγικές χρησιμοποιούμε όταν έχουμε περιορισμένη κυρίως μνήμη? 46 23

24 Κεφ. 4.1 Βασικά στοιχεία του υλικού Πολλές αποφάσεις στην ανάκτηση πληροφορίας βασίζονται στα χαρακτηριστικά του υλικού Ας δούμε μερικά βασικά χαρακτηριστικά 47 κεφ. 4.1 Βασικά χαρακτηριστικά του υλικού Η προσπέλαση δεδομένων στην κύρια μνήμη είναι πολύ πιο γρήγορηαπό την προσπέλαση δεδομένων στο δίσκο (περίπου ένας παράγοντας του 10) Disk seeks(χρόνος αναζήτησης): Ενώ τοποθετείται η κεφαλή δε γίνεται μεταφορά δεδομένων Άρα: Η μεταφορά μεγάλων κομματιών (chunk) δεδομένων από το δίσκο στη μνήμη είναι γρηγορότερη από τη μεταφορά πολλών μικρών Η επικοινωνία με το δίσκο (Disk I/O) γίνεται σε σελίδες (blockbased): Διαβάζονται και γράφονται ολόκληρα blocks (όχι τμήματά τους). Μέγεθος Block: 8KB -256 KB

25 κεφ. 4.1 Βασικά χαρακτηριστικά του υλικού Οι επεξεργαστές που χρησιμοποιούνται στην ΑΠ διαθέτουν πολλά GB κύριας μνήμης, συχνά δεκάδες από GBs. Ο διαθέσιμος χώρος δίσκου είναι πολλές (2 3) τάξεις μεγαλύτερος. Η ανοχή στα σφάλματα (Fault tolerance) είναι πολύ ακριβή: φθηνότερο να χρησιμοποιεί κανείς πολλές κανονικές μηχανές παρά μια «μεγάλη» 49 κεφ. 4.1 Υποθέσεις για το υλικό(~2008) symbol statistic value s b P average seek time transfer time per byte processor s clock rate Low level operation (e.g., compare & swap a word) size of main memory size of disk space 5 ms = s 0.02 μs= s 10 9 s μs= 10 8 s several GB 1 TB or more 50 25

26 κεφ. 4.2 Η συλλογή RCV1 Η συλλογή με τα άπαντα του Shakespeareδεν είναι αρκετά μεγάλη για το σκοπό της σημερινής διάλεξης. Η συλλογή που θα χρησιμοποιήσουμε δεν είναι στην πραγματικότητα πολύ μεγάλη, αλλά είναι διαθέσιμη στο κοινό. Θα χρησιμοποιήσουμε τη συλλογή RCV1. Είναι ένας χρόνος του κυκλώματος ειδήσεων του Reuters (Reuters newswire)(μέρος του 1995 και 1996) 1GB κειμένου 51 κεφ. 4.2 Ένα έγγραφο της συλλογής Reuters RCV

27 Υπενθύμιση: κατασκευή ευρετηρίου Επεξεργαζόμαστε τα έγγραφα για να βρούμε τις λέξεις -αυτές αποθηκεύονται μαζί με το Document ID. Doc 1 I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. Doc 2 So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious κεφ. 4.2 Term Doc # I 1 did 1 enact 1 julius 1 caesar 1 I 1 was 1 killed 1 i' 1 the 1 capitol 1 brutus 1 killed 1 me 1 so 2 let 2 it 2 be 2 with 2 caesar 2 the 2 noble 2 brutus 2 hath 2 told 2 you 2 caesar 2 was 2 ambitious 2 53 κεφ. 4.2 Βασικό βήμα: sort Αφού έχουμε επεξεργαστεί όλα τα έγγραφα, το αντεστραμμένο ευρετήριο διατάσσεται (sort) με βάση τους όρους Θα επικεντρωθούμε στο βήμα διάταξης Πρέπει να διατάξουμε 100M όρους. Term Doc # I 1 did 1 enact 1 julius 1 caesar 1 I 1 was 1 killed 1 i' 1 the 1 capitol 1 brutus 1 killed 1 me 1 so 2 let 2 it 2 be 2 with 2 caesar 2 the 2 noble 2 brutus 2 hath 2 told 2 you 2 caesar 2 was 2 ambitious 2 Term Doc # ambitious 2 be 2 brutus 1 brutus 2 capitol 1 caesar 1 caesar 2 caesar 2 did 1 enact 1 hath 1 I 1 I 1 i' 1 it 2 julius 1 killed 1 killed 1 let 2 me 1 noble 2 so 2 the 1 the 2 told 2 you 2 was 1 was 2 with

28 κεφ. 4.2 Κλιμάκωση της κατασκευής του ευρετηρίου Δεν είναι δυνατή η πλήρης κατασκευή του στη μνήμη (in-memory) Δεν μπορούμε να φορτώσουμε όλη τη συλλογή στη μνήμη, να την ταξινομήσουμε και να τη γράψουμε πίσω στο δίσκο Πως μπορούμε να κατασκευάσουμε ένα ευρετήριο για μια πολύ μεγάλη συλλογή; Λαμβάνοντας υπ όψιν τα περιορισμούς και τα χαρακτηριστικά του υλικού κεφ. 4.2 Κατασκευή με βάση τη διάταξη Καθώς κατασκευάζουμε το ευρετήριο, επεξεργαζόμαστε τα έγγραφα έναένα Οι τελικές καταχωρήσεις για κάθε όρο είναι ημιτελής μέχρι το τέλος Μπορούμε να κρατάμε όλο το ευρετήριο στη μνήμη; Κάθε εγγραφή καταχώρησης (ακόμα και χωρίς θέση -non-positional) δηλαδή (term, doc, freq)καταλαμβάνει 4+4+4= 12 bytes και απαιτεί πολύ χώρο για μεγάλες συλλογές T = 100,000,000 όροι για το RCV1 Αυτή η συλλογή χωράει στη μνήμη, αλλά στην πραγματικότητα πολύ μεγαλύτερες, Π.χ., οιnew York Times παρέχουν ένα ευρετήριο για κύκλωμα ειδήσεων >150 χρόνια Πρέπει να αποθηκεύουμε ενδιάμεσα αποτελέσματα στο δίσκο 56 28

29 Διάταξη χρησιμοποιώντας το δίσκο σαν «μνήμη»; κεφ. 4.2 Μπορούμε να χρησιμοποιήσουμε τον ίδιο αλγόριθμο κατασκευής για το ευρετήριο αλλά χρησιμοποιώντας δίσκο αντί για μνήμη; Όχι: ΔιάταξηT = 100,000,000 εγγραφών στο δίσκο είναι πολύ αργή πολλές τυχαίες ανακτήσεις (disk seeks). Χρειαζόμαστε έναν αλγόριθμο εξωτερικής διάταξης (external sorting). 57 κεφ. 4.2 Γιατί όχι; Διαπέρασητου εγγράφου και κατασκευή εγγραφών καταχωρήσεων για ένα έγγραφο τη φορά Μετά διάταξη των εγγραφών με βάση τους όρους (και μετά, για κάθε όρο, διάταξη καταχωρήσεων με βάση το έγγραφο) Αυτή η διαδικασία με τυχαία ανάκτηση στο δίσκο θα ήταν πολύ αργή διάταξη T=100M εγγραφών Αν κάθε σύγκριση χρειάζεται 2 προσπελάσεις στο δίσκο, και για τη διάταξη Ν στοιχείων χρειαζόμαστε N log 2 N συγκρίσεις, πόσο χρόνο θα χρειαζόμασταν; 58 29

30 BSBI: Αλγόριθμος κατασκευής κατά block (Blocked sort-based Indexing) Εγγραφές 12-byte (4+4+4) (term, doc, freq). Παράγονται κατά τη διάσχιση των εγγράφων Κεφ. 4.2 Διάταξη 100M τέτοιων 12-byte εγγραφών με βάση τον όρο. Ορίζουμε ένα Block ~ 10M τέτοιες εγγραφές Μπορούμε εύκολα να έχουμε κάποια από αυτά στη μνήμη. Αρχικά, 10 τέτοια blocks. Βασική ιδέα: Συγκέντρωσε καταχωρήσεις για να γεμίσει ένα block, διάταξε τις καταχωρήσεις σε κάθε block, γράψε το στο δίσκο. Μετά συγχώνευσε τα blocks σε ένα μεγάλο διατεταγμένο block. 59 κεφ. 4.2 Παράδειγμα 60 30

31 κεφ. 4.2 Διάταξη 10 blocks των 10M εγγραφών Πρώτα, διάβασε κάθε block και διάταξε τις εγγραφές του: Quicksort 2N ln N expected steps Στην περίπτωσή μας, 2 x (10M ln10m) steps Άσκηση: εκτιμήστε το συνολικό κόστος για να διαβάσουμε κάθε block από το δίσκο και να εφαρμόσουμε quicksort σε αυτό. 10 φορές αυτή η εκτίμηση του χρόνου μας δίνει 10 διατεταγμένα runs των 10M εγγραφών το καθένα. Ο απλός τρόπος χρειάζεται 2 αντίγραφα των δεδομένων στο δίσκο Αλλά μπορεί να βελτιωθεί 61 κεφ. 4.2 Διάταξη 10 blocks των 10M εγγραφών Διάβασε ένα-ένα τα έγγραφα γεμίζοντας ένα block με <term, docid>, διάταξη του block, γράψε το γεμάτο block στο δίσκο 62 31

32 κεφ. 4.2 Πως θα γίνει η συγχώνευση των runs? Δυαδική συγχώνευση, μια δεντρική δομή μεlog 2 10 = 4 επίπεδα. Σε κάθε επίπεδο, διάβασε στη μνήμη runs σεblocks των 10M, συγχώνευσε, γράψε πίσω Merged run Runs being merged. Disk 4 63 κεφ. 4.2 Πως θα γίνει η συγχώνευση των runs? Πιο αποδοτικά με μια multi-way συγχώνευση, όπου διαβάζουμε από όλα τα blocks ταυτόχρονα Υπό την προϋπόθεση ότι διαβάζουμε στη μνήμη αρκετά μεγάλα κομμάτια κάθε block και μετά γράφουμε πίσω αρκετά μεγάλα κομμάτια, αλλιώς πάλι πρόβλημα με τις αναζητήσεις στο δίσκο 64 32

33 κεφ. 4.3 Xρήση αναγνωριστικού όρου (termid) Υπόθεση: κρατάμε το λεξικό στη μνήμη Χρειαζόμαστε το λεξικό (το οποίο μεγαλώνει δυναμικά) για να υλοποιήσουμε την απεικόνιση μεταξύ όρου (term) σε termid. Θα μπορούσαμε να εργαστούμε και με term,docid καταχωρήσεις αντί των termid,docid καταχωρήσεων Αλλά τα ενδιάμεσα αρχεία γίνονται πολύ μεγάλα. 65 SPIMI: Single-pass in-memory indexing (ευρετηρίαση ενός περάσματος) κεφ. 4.3 Βασική Ιδέα1: Δημιουργία ξεχωριστών λεξικών για κάθε block δε χρειάζεται να διατηρούμε termtermid απεικονίσεις μεταξύ blocks. Βασική Ιδέα 2: Αποφυγή της διάταξης των όρων. Συγκεντρώσετε τις καταχωρήσεις σε λίστες καταχωρήσεων όπως αυτές εμφανίζονται. Κατασκευή ενός πλήρους αντεστραμμένου ευρετηρίου για κάθε block. Μετά συγχωνεύουμε τα ξεχωριστά ευρετήρια σε ένα μεγάλο

34 κεφ. 4.3 SPIMI-Invert Χρησιμοποιούμε hash (οπότε οι καταχωρήσεις για τον ίδιο όρο στον ίδιο«κάδο» Η συγχώνευση όπως και στο BSBI. 67 κεφ. 4.5 Δυναμικά ευρετήρια Μέχρι στιγμής, θεωρήσαμε ότι τα ευρετήρια είναι στατικά. Αυτό συμβαίνει σπάνια, στην πραγματικότητα: Νέα έγγραφα εμφανίζονται και πρέπει να εισαχθούν Έγγραφα τροποποιούνται ή διαγράφονται Αυτό σημαίνει ότι πρέπει να ενημερώσουμε τις λίστες καταχωρήσεων: Αλλαγές στις καταχωρήσεις όρων που είναι ήδη στο λεξικό Προστίθενται νέοι όροι στο λεξικό 68 34

35 κεφ. 4.5 Η πιο απλή προσέγγιση Διατήρησε ένα «μεγάλο» κεντρικό ευρετήριο Τα νέα έγγραφα σε μικρό «βοηθητικό» ευρετήριο (στη μνήμη) Ψάξε και στα δύο, συγχώνευσε το αποτέλεσμα Διαγραφές Invalidation bit-vector για τα διαγραμμένα έγγραφα Περιοδικά, re-index το βοηθητικό στο κυρίως ευρετήριο 69 κεφ. 4.5 Θέματα Συχνές συγχωνεύσεις Κακή απόδοση κατά τη διάρκεια της συγχώνευσης Πιο αποδοτικό αν κάθε λίστα καταχωρήσεων ήταν αποθηκευμένη σε διαφορετικό αρχείο (τότε, απλώς append), αλλά θα χρειαζόμαστε πολλά αρχεία (μη αποδοτικό για το ΛΣ) Θα υποθέσουμε ένα αρχείο. Στην πραγματικότητα: Κάτι ανάμεσα (π.χ., πολλές μικρές λίστες καταχώρησης σε ένα αρχείο, διάσπαση πολύ μεγάλων λιστών, κλπ) 70 35

36 κεφ. 4.5 Λογαριθμική συγχώνευση Διατήρηση μια σειράς από ευρετήρια, το καθένα διπλάσιου μεγέθους από τα προηγούμενο Κάθε στιγμή, χρησιμοποιούνται κάποια από αυτά Κρατάμε το μικρότερο (Z 0 ) στη μνήμη Τα μεγαλύτερα (I 0, I 1, ) στο δίσκο Όταν το Z 0 γίνει πολύ μεγάλο (> n), το γράφουμε στο δίσκο ως I 0 ή Ή το συγχωνεύουμε με τοi 0 ως Z 1 (αν το I 0 υπάρχει ήδη) Ή γράφουμε στο δίσκο το Z 1 to disk ωςi 1 (αν δεν υπάρχει το I 1 ) Ή συγχώνευση με το I 1 ως Z 2 71 κεφ

37 Δυναμικά ευρετήρια στις μηχανές αναζήτησης κεφ. 4.5 Πολύ συχνές αλλαγές Συχνά περιοδική ανακατασκευή του ευρετηρίου από την αρχή Ενώ κατασκευάζεται το νέο, χρησιμοποιείται το παλιό και όταν η κατασκευή τελειώσει χρήση του νέου 73 κεφ. 4.4 Κατανεμημένη κατασκευή Για ευρετήριο κλίμακας web (don t try this at home!): Χρήση κατανεμημένου cluster Επειδή μια μηχανή είναι επιρρεπής σε αποτυχία Μπορεί απροσδόκητα να γίνει αργή ή να αποτύχει Χρησιμοποίηση πολλών μηχανών 74 37

38 κεφ. 4.4 Web search engine data centers Οι μηχανές αναζήτησης χρησιμοποιούν data centers (Google, Bing, Baidu) κυρίως από commodity μηχανές. Γιατί; (fault tolerance) Τα κέντρα είναι διάσπαρτα σε όλο τον κόσμο. Εκτίμηση: Google ~1 million servers, 3 million processors/cores (Gartner 2007) Θα το δούμε αναλυτικά σε επόμενα μαθήματα Λίγα «εγκυκλοπαιδικά» για το MapReduceστο επόμενο μάθημα 75 ΤΕΛΟΣ 4 ου Μαθήματος Ερωτήσεις? Χρησιμοποιήθηκε κάποιο υλικό των: Pandu Nayak and Prabhakar Raghavan, CS276:Information Retrieval and Web Search(Stanford) Hinrich Schütze and Christina Lioma, Stuttgart IIR class 76 38

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4: Ανάκτηση Ανεκτική στα Σφάλματα 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Δομές δεδομένων για Λεξικά

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα (υποστήριξη *) 1 Ch. 2 Επανάληψη προηγούμενης

Διαβάστε περισσότερα

Επανάληψη προηγούμενης διάλεξης

Επανάληψη προηγούμενης διάλεξης Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Λεξικά και Ανάκτηση Ανεκτική στα Σφάλματα 1 Ch. 2 Επανάληψη προηγούμενης διάλεξης 1. Προ-επεξεργασία

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 7η: 21/03/2016 1 Ch. 4 Κατασκευή του ευρετηρίου Πώς κατασκευάζουμε το ευρετήριο; Ποιες στρατηγικές μπορούμε ν ακολουθήσουμε

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. 1 Κεφ. 2 Επανάληψη προηγούμενης διάλεξης 1.

Διαβάστε περισσότερα

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. 1 Κεφ. 3 Τι θα δούμε σήμερα; Δομές δεδομένων για λεξικά Ανάκτηση ανεκτική

Διαβάστε περισσότερα

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. 1 Κεφ. 3 Τι θα δούμε σήμερα; Δομές δεδομένων για λεξικά Ανάκτηση ανεκτική

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. 1 Κεφ. 2 Επανάληψη προηγούμενης διάλεξης

Διαβάστε περισσότερα

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. 1 Κεφ. 3 Τι θα δούμε σήμερα; Δομές δεδομένων για λεξικά Ανάκτηση ανεκτική

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 6η: 08/03/2016 1 Διόρθωση πληκτρολόγησης 2 Sec. 3.3 Διόρθωση πληκτρολόγησης Δυο κύριες χρήσεις Διόρθωση εγγράφων που θα εισαχθούν

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 5η: 06/03/2017 1 WILD-CARD Ερωτήματα 2 Sec. 3.2 Ερωτήματα με χαρακτήρες wild-card: * mon*: να βρεθούν όλα τα έγγραφα που περιέχουν

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Ανάκτηση

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Ανάκτηση

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή

Διαβάστε περισσότερα

4. Κατασκευή Ευρετηρίου

4. Κατασκευή Ευρετηρίου Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 4. Κατασκευή Ευρετηρίου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων Πλάνο Προηγούμενο

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή

Διαβάστε περισσότερα

3. Λεξικά & Ανάκτηση Ανεκτική σε Σφάλματα

3. Λεξικά & Ανάκτηση Ανεκτική σε Σφάλματα Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 3. Λεξικά & Ανάκτηση Ανεκτική σε Σφάλματα Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Συμπίεση Ευρετηρίου 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Κατασκευή ευρετηρίου Στατιστικά

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4-5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Information Retrieval Διδάσκων Δημήτριος Κατσαρός Διάλεξη 6η: 05/03/2014 1 WILD-CARD QUERIES 2 Sec. 3.2 Wild-card queries: * mon*: find all docs containing any word beginning mon.

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Συστήματα Διαχείρισης Βάσεων Δεδομένων Άσκηση 1 Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών HY460 Συστήματα Διαχείρισης Βάσεων Δεδομένων Διδάσκοντες: Δημήτρης

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΑ. ΕΤΟΣ 2012-13 Ι ΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής, Τοµέας Τεχνολογίας

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΑΣΚΗΣΗ ΔΕΥΤΕΡΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΑΔ. ΕΤΟΣ 2007-2008 14.02.2008 EΠΙΣΤΡΕΦΕΤΑΙ ΔΙΔΑΣΚΩΝ Ιωάννης Βασιλείου, Καθηγητής,

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Introduction to Information Retrieval

Introduction to Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5: Κατασκευή και Συμπίεση Ευρετηρίου 1 Η βασική δομή: Το αντεστραμμένο ευρετήριο (inverted index)

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση. 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή Συμπίεση 2 ΣΤΑΤΙΣΤΙΚΑ

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Κατακερματισμός. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Κατακερματισμός. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Κατακερματισμός Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Λεξικό Dictionary Ένα λεξικό (dictionary) είναι ένας αφηρημένος τύπος δεδομένων (ΑΤΔ) που διατηρεί

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ανεκτική αναζήτηση. ηµιουργία Ευρετηρίου. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ανεκτική αναζήτηση. ηµιουργία Ευρετηρίου. ιδάσκων ηµήτριος Κατσαρός, Ph.D. Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 2η: 21/02/2007 1 Ανεκτική αναζήτηση & ηµιουργία

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 2η: 21/02/2007 1 Ανεκτική αναζήτηση & ηµιουργία

Διαβάστε περισσότερα

Κατακερματισμός (Hashing)

Κατακερματισμός (Hashing) Κατακερματισμός (Hashing) O κατακερματισμός είναι μια τεχνική οργάνωσης ενός αρχείου. Είναι αρκετά δημοφιλής μέθοδος για την οργάνωση αρχείων Βάσεων Δεδομένων, καθώς βοηθάει σημαντικά στην γρήγορη αναζήτηση

Διαβάστε περισσότερα

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1 Κατακερματισμός 4/3/2009 Μ.Χατζόπουλος 1 H ιδέα που βρίσκεται πίσω από την τεχνική του κατακερματισμού είναι να δίνεται μια συνάρτησης h, που λέγεται συνάρτηση κατακερματισμού ή παραγωγής τυχαίων τιμών

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Διάλεξη 14: Δέντρα IV - B-Δένδρα

Διάλεξη 14: Δέντρα IV - B-Δένδρα ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 14: Δέντρα IV - B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - 2-3 Δένδρα, Εισαγωγή και άλλες πράξεις - Άλλα Δέντρα: Β-δένδρα, Β+-δέντρα,

Διαβάστε περισσότερα

Αλγόριθμοι Ταξινόμησης Μέρος 4

Αλγόριθμοι Ταξινόμησης Μέρος 4 Αλγόριθμοι Ταξινόμησης Μέρος 4 Μανόλης Κουμπαράκης Δομές Δεδομένων και Τεχνικές 1 Μέθοδοι Ταξινόμησης Βασισμένοι σε Συγκρίσεις Κλειδιών Οι αλγόριθμοι ταξινόμησης που είδαμε μέχρι τώρα αποφασίζουν πώς να

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός

Δυναμικός Κατακερματισμός Δυναμικός Κατακερματισμός Καλό για βάση δεδομένων που μεγαλώνει και συρρικνώνεται σε μέγεθος Επιτρέπει τη δυναμική τροποποίηση της συνάρτησης κατακερματισμού Επεκτάσιμος κατακερματισμός μια μορφή δυναμικού

Διαβάστε περισσότερα

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

Cuckoo Hashing. Αλγόριθμοι και Πολυπλοκότητα. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο

Cuckoo Hashing. Αλγόριθμοι και Πολυπλοκότητα. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Cuckoo Hashing Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο β Πολυτεχνείο Πρόβλημα (ADT) Λεξικού υναμικά μεταβαλλόμενη συλλογή αντικειμένων που αναγνωρίζονται με «κλειδί» (π.χ.

Διαβάστε περισσότερα

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι

Διαβάστε περισσότερα

Εξωτερική Ταξινόμηση. Μ.Χατζόπουλος 1

Εξωτερική Ταξινόμηση. Μ.Χατζόπουλος 1 Εξωτερική Ταξινόμηση Μ.Χατζόπουλος 1 Γιατί είναι απαραίτητη; Κλασσικό Πρόβλημα της Πληροφορικής Πολλές φορές θέλουμε να παρουσιάσουμε δεδομένα σε ταξινομημένη μορφή Είναι σημαντική για την απαλοιφή διπλοτύπων

Διαβάστε περισσότερα

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Κατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινομημένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 5. Απλή Ταξινόμηση 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 11/11/2016 Εισαγωγή Η

Διαβάστε περισσότερα

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληπουοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Γιάλεξη 2η: 23/02/2016 1 Μεγάλες συλλογές (corpora) Έστωσαν N = 1M έγγραφα, το κάθε ένα με περίπου 1K όρους Avg 6 bytes/term, συμπεριλαμβανόμενων

Διαβάστε περισσότερα

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας Προηγμένη Ευρετηρίαση Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας 1. Πως δομούνται οι ιεραρχικές μνήμες; Αναφέρετε τα διάφορα επίπεδά τους από τον επεξεργαστή μέχρι τη δευτερεύουσα

Διαβάστε περισσότερα

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου Επεξεργασία & Οργάνωση Δεδομένων Εφαρμογές Γλωσσικής Τεχνολογίας Σοφία Στάμου Γλώσσα και Επικοινωνία Κάθε γλωσσικό σύστημα διέπεται από κανόνες για τη χρήση, τη σύνταξη και την ερμηνεία των λέξεων Γιατί

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Δέντρα Αναζήτησης

Δεντρικά Ευρετήρια. Δέντρα Αναζήτησης Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόµβος του περιέχει το πολύ p - 1 τιµές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

Advanced Data Indexing

Advanced Data Indexing Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Αναζήτηση Δέντρα (2 ο Μέρος) Διαχρονικά -Δέντρα (Persistent -trees) Σε μερικές εφαρμογές βάσεων/δομών δεδομένων όπου γίνονται ενημερώσεις μας ενδιαφέρει

Διαβάστε περισσότερα

Επεξεργασία ερωτημάτων

Επεξεργασία ερωτημάτων Επεξεργασία ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη Σε τι αφορά η επεξεργασία ερωτημάτων? Αναφέρεται στο σύνολο των δραστηριοτήτων που περιλαμβάνονται στην ανάκτηση δεδομένων από μία βάση δεδομένων

Διαβάστε περισσότερα

Υπάρχουν δύο τύποι μνήμης, η μνήμη τυχαίας προσπέλασης (Random Access Memory RAM) και η μνήμη ανάγνωσης-μόνο (Read-Only Memory ROM).

Υπάρχουν δύο τύποι μνήμης, η μνήμη τυχαίας προσπέλασης (Random Access Memory RAM) και η μνήμη ανάγνωσης-μόνο (Read-Only Memory ROM). Μνήμες Ένα από τα βασικά πλεονεκτήματα των ψηφιακών συστημάτων σε σχέση με τα αναλογικά, είναι η ευκολία αποθήκευσης μεγάλων ποσοτήτων πληροφοριών, είτε προσωρινά είτε μόνιμα Οι πληροφορίες αποθηκεύονται

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

ΛΥΣΗ ΤΗΣ ΔΕΥΤΕΡΗΣ ΑΣΚΗΣΗΣ Όλγα Γκουντούνα

ΛΥΣΗ ΤΗΣ ΔΕΥΤΕΡΗΣ ΑΣΚΗΣΗΣ Όλγα Γκουντούνα ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΜΑΘΗΜΑ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΑΚΑΔ. ΕΤΟΣ 2011-12 ΔΙΔΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής Τιμολέων Σελλής Καθηγητής Άσκηση 1

Διαβάστε περισσότερα

Λειτουργικά Συστήματα. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα

Λειτουργικά Συστήματα. Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Λειτουργικά Συστήματα Τ.Ε.Ι. Ιονίων Νήσων Σχολή Διοίκησης και Οικονομίας - Λευκάδα Στέργιος Παλαμάς, Υλικό Μαθήματος «Λειτουργικά Συστήματα», 2015-2016 Κεφάλαιο 2: Σύστημα Αρχείων Τα προγράμματα που εκτελούνται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Φροντιστήριο 3

Ανάκτηση Πληροφορίας. Φροντιστήριο 3 Ανάκτηση Πληροφορίας Φροντιστήριο 3 Τσιράκης Νίκος Νοέμβριος 2007 2 Περιεχόμενα Ανεστραμμένα Αρχεία Εισαγωγή Δημιουργία Συμπίεση Πιθανοτικά Μοντέλα 3 Ανεστραμμένα Αρχεία 4 Εισαγωγή Με ποιους τρόπους μπορούμε

Διαβάστε περισσότερα

Insert (P) : Προσθέτει ένα νέο πρότυπο P στο λεξικό D. Delete (P) : Διαγράφει το πρότυπο P από το λεξικό D

Insert (P) : Προσθέτει ένα νέο πρότυπο P στο λεξικό D. Delete (P) : Διαγράφει το πρότυπο P από το λεξικό D Dynamic dictionary matching problem Έχουμε ένα σύνολο πρότυπων D = { P1, P2,..., Pk } oπου D το λεξικό και ένα αυθαίρετο κειμενο T [1,n] To σύνολο των πρότυπων αλλάζει με το χρόνο (ρεαλιστική συνθήκη).

Διαβάστε περισσότερα

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1

Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2018-2019 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράµµατα για τη διαχείριση της ΒΔ Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Αρχεία δεδοµένων συστήµατος Σύστηµα Βάσεων Δεδοµένων (ΣΒΔ)

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Δέντρα Αναζήτησης Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Το πρόβλημα Αναζήτηση Θέλουμε να διατηρήσουμε αντικείμενα με κλειδιά και να μπορούμε εκτός από

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Ταξινόμηση. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Ταξινόμηση. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Ταξινόμηση Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Το πρόβλημα Είσοδος n αντικείμενα a 1, a 2,..., a n με κλειδιά (συνήθως σε ένα πίνακα, ή λίστα, κ.τ.λ)

Διαβάστε περισσότερα

Outline. 6 Edit Distance

Outline. 6 Edit Distance Αλγόριθμοι και Πολυπλοκότητα Άπληστοι Αλγόριθμοι και Δυναμικός Προγραμματισμός Ασκήσεις CoReLab ΣΗΜΜΥ - Ε.Μ.Π. 16 Νοεμβρίου 216 (CoReLab - NTUA) Αλγόριθμοι - Ασκήσεις 16 Νοεμβρίου 216 1 / 52 Outline 1

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Βάσεις εδοµένων Ευαγγελία Πιτουρά 2

Βάσεις εδοµένων Ευαγγελία Πιτουρά 2 Ευρετήρια Βάσεις εδοµένων 2002-2003 Ευαγγελία Πιτουρά 1 Ευρετήρια Ένα ευρετήριο (index) είναι µια βοηθητική δοµή αρχείου που κάνει πιο αποδοτική την αναζήτηση µιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση

Διαβάστε περισσότερα

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Δομές Δεδομένων Συμβολοσειρές Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Συμβολοσειρές Συμβολοσειρές και προβλήματα που αφορούν συμβολοσειρές εμφανίζονται τόσο συχνά που

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΜΝΗΜΗΣ. Λειτουργικά Συστήματα Ι. Διδάσκων: Καθ. Κ. Λαμπρινουδάκης ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ Ι

ΔΙΑΧΕΙΡΙΣΗ ΜΝΗΜΗΣ. Λειτουργικά Συστήματα Ι. Διδάσκων: Καθ. Κ. Λαμπρινουδάκης ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ Ι ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ Ι Μάθημα: Λειτουργικά Συστήματα Ι ΔΙΑΧΕΙΡΙΣΗ ΜΝΗΜΗΣ Διδάσκων: Καθ. Κ. Λαμπρινουδάκης clam@unipi.gr 1 ΕΙΣΑΓΩΓΗ Μνήμη : Πόρος ζωτικής σημασίας του οποίου η διαχείριση απαιτεί ιδιαίτερη

Διαβάστε περισσότερα

Τι (άλλο) θα δούμε σήμερα;

Τι (άλλο) θα δούμε σήμερα; Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;

Διαβάστε περισσότερα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη Εσωτερική Μνήμη Κρυφή Μνήμη (Cache) μεγαλύτερη χωρητικότητα Καταχωρητές (Registers) Κεντρική Μονάδα (CPU) μεγαλύτερη ταχύτητα Πολλές σημαντικές εφαρμογές διαχειρίζονται

Διαβάστε περισσότερα

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΚΕΦΑΛΑΙΑ 3 και 9 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΕΣ Δεδομένα αφαιρετική αναπαράσταση της πραγματικότητας και συνεπώς μία απλοποιημένη όψη της δηλαδή.

Διαβάστε περισσότερα

Λειτουργικά Συστήματα Ι. Καθηγήτρια Παπαδάκη Αναστασία

Λειτουργικά Συστήματα Ι. Καθηγήτρια Παπαδάκη Αναστασία Λειτουργικά Συστήματα Ι Καθηγήτρια Παπαδάκη Αναστασία 2013 1 - 2 - Κεφάλαιο 2 ο Δευτερεύουσα μνήμη Οι εύκαμπτοι μαγνητικοί δίσκοι (floppy disks) ή δισκέτες Οι σκληροί μαγνητικοί δίσκοι (hard disks) Οι

Διαβάστε περισσότερα

Κεφάλαιο 4 ο. Ο Προσωπικός Υπολογιστής

Κεφάλαιο 4 ο. Ο Προσωπικός Υπολογιστής Κεφάλαιο 4 ο Ο Προσωπικός Υπολογιστής Μάθημα 4.3 Ο Επεξεργαστής - Εισαγωγή - Συχνότητα λειτουργίας - Εύρος διαδρόμου δεδομένων - Εύρος διαδρόμου διευθύνσεων - Εύρος καταχωρητών Όταν ολοκληρώσεις το μάθημα

Διαβάστε περισσότερα

Ευρετήρια. Το ευρετήριο αρχείου είναι ένα διατεταγµένο αρχείο µε σταθερού µήκους εγγραφές

Ευρετήρια. Το ευρετήριο αρχείου είναι ένα διατεταγµένο αρχείο µε σταθερού µήκους εγγραφές Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 Ευρετήρια Ένα ευρετήριο (index) είναι µια βοηθητική δοµή αρχείου που κάνει πιο αποδοτική την αναζήτηση µιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Ευρετήρια. Πρωτεύον ευρετήριο (primary index): ορισμένο στο κλειδί διάταξης του αρχείου. Ευρετήρια. Ευρετήρια. Ευρετήρια

Ευρετήρια. Πρωτεύον ευρετήριο (primary index): ορισμένο στο κλειδί διάταξης του αρχείου. Ευρετήρια. Ευρετήρια. Ευρετήρια Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου που καλείται

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΣΔΒΔ Σύνολο από προγράμματα γιατηδιαχείρισητηςβδ Αρχεία ευρετηρίου Αρχεία δεδομένων Κατάλογος συστήματος ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ Σύστημα Βάσεων Δεδομένων (ΣΒΔ) 2 :

Διαβάστε περισσότερα

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ Διάλεξη 25: Τεχνικές Κατακερματισμού II Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear Probing, b) Quadratic Probing c) Double Hashing Διατεταγμένος

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Βάσεις δεδομένων. (10 ο μάθημα) Ηρακλής Βαρλάμης varlamis@hua.gr

Βάσεις δεδομένων. (10 ο μάθημα) Ηρακλής Βαρλάμης varlamis@hua.gr Βάσεις δεδομένων (10 ο μάθημα) Ηρακλής Βαρλάμης varlamis@hua.gr Περιεχόμενα Ευρετήρια Σκανδάλες PL/SQL Δείκτες/Δρομείς 2 Αποθήκευση δεδομένων Πρωτεύουσα αποθήκευση Κύρια μνήμη (main memory) ή κρυφή μνήμη

Διαβάστε περισσότερα