Information Retrieval
|
|
- Ζηνοβία Ταμτάκος
- 7 χρόνια πριν
- Προβολές:
Transcript
1 Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. 1
2 Κεφ. 2 Επανάληψη προηγούμενης διάλεξης 1. Προ-επεξεργασία εγγράφων της συλλογής για την κατασκευή του αντεστραμμένου ευρετηρίου 2. Πιο γρήγορες λίστες καταχώρησης με λίστες παράλειψης 3. Υποστήριξη ερωτημάτων φράσεων (phrase queries) και θέσης (positional queries) 2
3 Κεφ Προσδιορισμός Λεξιλογίου όρων ❶ Συλλέγουμε τα έγγραφα για τα οποία θα κατασκευαστεί το ευρετήριο ❷ Tokenize το κείμενο, αποτέλεσμα: μια λίστα από tokens: ❸ Γλωσσική επεξεργασία ώστε να παραχθεί μια λίστα από κανονικοποιημένα tokens που θα είναι οι όροι που εισαχθούν στο ευρετήριο ❹ Κατασκευή αντεστραμμένου ευρετηρίου 3
4 Κεφ Προσδιορισμός Λεξιλογίου όρων Token η εμφάνιση μια λέξης ή ενός όρου σε ένα έγγραφο Type (τύπος) μια κλάση ισοδυναμίας από tokens Παράδειγμα: In June, the dog likes to chase the cat in the barn. 12 word tokens, 9 word types Tokenization - Προβλήματα Ποια είναι τα διαχωριστικά (κενό, απόστροφος, ενωτικά (hyphen)) 4
5 Κεφ Προσδιορισμός Λεξιλογίου όρων Από τύπους ισοδύναμων tokens σε όρους που θα εισαχθούν στο ευρετήριο Αριθμοί Κεφαλαία/Μικρά Λημματοποίηση και Περιστολή (Stemming) Stop words? Κλάσεις ισοδύναμων όρων (για συνώνυμα) κατά την επεξεργασία του ερωτήματος ή στο ευρετήριο 5
6 Κεφ Δείκτες παράλειψης 6
7 Κεφ Ερωτήματα Φράσεων και Θέσης Ευρετήρια Biword για ερωτήματα φράσεων Ευρετήρια Θέσης (positional indexes) για ερωτήματα φράσεων και θέσης (γειτονικότητας) 7
8 Κεφ Ερωτήματα Φράσεων και Θέσης Στις λίστες καταχωρήσεων σε ένα nonpositional ευρετήριο, κάθε καταχώρηση είναι μόνο ένα docid Στις λίστες καταχωρήσεων σε ένα positional ευρετήριο, κάθε καταχώρηση είναι ένα docid και μια λίστα από θέσεις Παράδειγμα ερωτήματος: to 1 be 2 or 3 not 4 to 5 be 6 TO, : 1: 7, 18, 33, 72, 86, 231 ; 2: 1, 17, 74, 222, 255 ; 4: 8, 16, 190, 429, 433 ; 5: 363, 367 ; 7: 13, 23, 191 ;... BE, : 1: 17, 25 ; 4: 17, 191, 291, 430, 434 ; 5: 14, 19, 101 ;... 8
9 Κεφ. 3 Τι θα δούμε σήμερα; Δομές δεδομένων για Λεξικά Ανάκτηση Ανεκτική (Tolerant) σε Σφάλματα Ερωτήματα με wild-card («χαρακτήρων μπαλαντέρ»)* Ορθογραφικά λάθη Απόσταση μεταξύ όρων Φωνητική διόρθωση 9
10 Κεφ. 3.1 Δομές Δεδομένων για Λεξικά Οι δομές δεδομένων για το λεξικό περιέχουν: το λεξιλόγιο όρων (λήμμα), τη συχνότητα εγγράφου (document frequency), δείκτες σε κάθε λίστα καταχωρήσεων ποια δομή δεδομένων είναι κατάλληλη; Λεξικό 10
11 Κεφ. 3.1 Δομές Δεδομένων για Λεξικά Λεξιλόγιο (vocabulary): το σύνολο των όρων Λεξικό (dictionary): μια δομή για την αποθήκευση του λεξιλογίου Πως αποθηκεύουμε ένα λεξικό στη μνήμη αποδοτικά; Πως το χρησιμοποιούμε; 11
12 Κεφ. 3.1 Μια απλοϊκή λύση array of struct: char[20] int Postings * 20 bytes 4/8 bytes 4/8 bytes Πως αναζητούμε έναν όρο (λήμμα) στο λεξικό γρήγορα κατά την εκτέλεση του ερωτήματος; ο όρος είναι το κλειδί (σε ορολογία δομών δεδομένων) 12
13 Κεφ. 3.1 Δομές Δεδομένων για Λεξικά Κριτήρια για την επιλογή δομής: Αποδοτική αναζήτηση ενός όρου (κλειδιού) στο λεξικό. Σχετικές συχνότητες προσπέλασης των κλειδιών (πιο γρήγορα οι συχνοί όροι;) Πόσοι είναι οι όροι (κλειδιά), Είναι στατικό ή έχουμε συχνά εισαγωγές/διαγραφές όρων ή και τροποποιήσεις; Μόνο εισαγωγές (insert only append only) 13
14 Κεφ. 3.1 Δομές δεδομένων για το Λεξικό Δυο βασικές επιλογές: Πίνακες Κατακερματισμού (Hashtables) Δέντρα (Trees) Μερικά Συστήματα Ανάκτησης Πληροφορίας χρησιμοποιούν πίνακες κατακερματισμού άλλα δέντρα 14
15 Κεφ. 3.1 Πίνακες Κατακερματισμού Κάθε όρος του λεξιλογίου κατακερματίζεται σε έναν ακέραιο +: - : Η αναζήτηση είναι πιο γρήγορη από ένα δέντρο: O(1) Δεν υπάρχει εύκολος τρόπος να βρεθούν μικρές παραλλαγές ενός όρου judgment/judgement, resume vs. résumé Μη δυνατή η προθεματική αναζήτηση [ανεκτική ανάκληση] Αν το λεξιλόγιο μεγαλώνει συνεχώς, ανάγκη για να γίνει κατακερματισμός από την αρχή 15
16 Κεφ. 3.1 Δέντρα αναζήτησης: Δυαδικό δέντρο a-m Root n-z a-hu hy-m n-sh si-z 16
17 Κεφ. 3.1 Δέντρα αναζήτησης: Δυαδικό δέντρο O(log M), M: αριθμός των όρων (το μέγεθος του λεξικού) προϋποθέτει ισοζύγιση 17
18 Κεφ. 3.1 Δέντρα: B-δέντρα a-hu hy-m n-z Ορισμός: Κάθε εσωτερικός κόμβος έχει έναν αριθμό από παιδιά στο διάστημα [a, b] όπου a, b είναι κατάλληλοι φυσικοί αριθμοί, π.χ., [2, 4] 18
19 Κεφ. 3.1 Δέντρα Το απλούστερο: δυαδικό δέντρο Το πιο συνηθισμένο: B-δέντρα Τα δέντρα απαιτούν ένα δεδομένο τρόπο διάταξης των χαρακτήρων (αλλά συνήθως υπάρχει ή μπορεί να οριστεί) +: -: Λύνουν το πρόβλημα προθέματος (π.χ., όροι που αρχίζουν με hyp) Πλεονεκτούν όταν το λεξικό αποθηκεύεται στο δίσκο (τότε τα a και b καθορίζονται από το μέγεθος του block) Πιο αργή: O(log M) [και αυτό απαιτεί (ισοζυγισμένα balanced δέντρα] Η ισοζύγιση (rebalancing) των δυαδικών δέντρων είναι ακριβή Αλλά τα B-δέντρα καλύτερα 19
20 Κεφ. 3.1 Λεξικά (σύνοψη) Λεξιλόγιο (vocabulary): το σύνολο των όρων Λεξικό (dictionary): μια δομή για την αποθήκευση του λεξιλογίου Δυο βασικές επιλογές: Πίνακες Κατακερματισμού (Hashtables) Δέντρα (Trees) Μερικά Συστήματα Ανάκτησης Πληροφορίας χρησιμοποιούν πίνακες κατακερματισμού άλλα δέντρα 20
21 ΕΡΩΤΗΜΑΤΑ ΜΕ * 21
22 Κεφ. 3.2 Ερωτήματα με Wild-card (*) (1) Δεν είμαστε σίγουροι για την ορθογραφία της λέξης (πχ Sydney? Sidney?) ή (2) Υπάρχουν πολλαπλές εκδοχές της ορθογραφίας της λέξης και θέλουμε να ανακτήσουμε τα έγγραφα που περιέχουν οποιαδήποτε από αυτές (πχ color, colour) Δεν είμαστε σίγουροι αν έχει γίνει stemming Ορθογραφία ξένης λέξης (Σ*ξπ*ρ) 22
23 Κεφ. 3.2 Ερωτήματα με Wild-card (*) Τrailing wild card query Π.χ., mon*: Βρες όλα τα έγγραφα που περιέχουν οποιαδήποτε λέξη αρχίζει με mon Εύκολο όταν το λεξικό με δυαδικό δέντρο (ή B- δέντρο): ανάκτησε όλους τους όρους t στο διάστημα: mon t < moo Για κάθε όρο, αναζήτησε το αντεστραμμένο ευρετήριο σε ποια έγγραφα εμφανίζεται 23
24 Κεφ. 3.2 Ερωτήματα με Wild-card (*) Leading wild card queries Π.χ., * mon: Βρες όλα τα έγγραφα που περιέχουν οποιαδήποτε λέξη τελειώνει σε mon πιο δύσκολο Διατήρησε ένα επιπρόσθετο B-tree για τους όρους ανάποδα (backwards), πχ ο όρος demon -> nomed Reverse B-tree Ανάκτησε όλους τους όρους t στο διάστημα: nom t < non. 24
25 Κεφ. 3.2 Ερωτήματα με Wild-card (*) Πως μπορούμε να απαντήσουμε ερωτήσεις με ένα * στη μέση της λέξης, π.χ., pro*cent? + διατρέχουμε τους όρους που ανήκουν στην τομή και απορρίπτουμε όσους ταιριάζουν και με το πρόθεμα και με το επίθημα (αρκεί; ba*ba και όρος ba?) 25
26 Κεφ. 3.2 Γενικά ερωτήματα με * * στη μέση του όρου co*tion Αναζήτησε το co* AND *tion σε ένα B-tree και ένα reverse και υπολόγισε την τομή των συνόλων Ακριβό! Δύο λύσεις και οι δύο: I. Έχουν ένα ειδικό ευρετήριο II. III. Μετατρέπουν την αρχική ερώτησης q* σε μια Boolean ερώτηση Q στο ειδικό ευρετήριο έτσι ώστε η απάντηση στο Q να είναι υπερσύνολο της απάντησης στο q* Στη συνέχεια ελέγχουν τις απαντήσεις 26
27 Κεφ. 3.2 Γενικά ερωτήματα με * Πρώτη εναλλακτική λύση: Μετάτρεψε τις ερωτήσεις έτσι ώστε τα * να εμφανίζονται στο τέλος Permuterm Index (ευρετήριο αντιμετατεθειμένων όρων) 27
28 Κεφ Ευρετήριο αντιμετατεθειμένων όρων Κατασκευάζουμε ένα ευρετήριο αντιμετατεθειμένων όρων (permuter index) στο οποίο όλες οι παραλλαγές που προκύπτουν από την (δεξιόστροφη) περιστροφή (rotation) του όρου συνδέονται με τον αρχικό όρο Πχ. για τον όρο hello -> hello$, εισάγουμε στο ευρετήριο τα: hello$, $hello, o$hell, lo$hel, llo$he, ello$h όπου $ ένα ειδικός χαρακτήρας που σηματοδοτεί το τέλος μιας λέξης Permuter vocubalary Περιστροφή (rotation) του όρου του ερωτήματος ώστε το * στο τέλος π.χ., Ερώτημα he*lo -> he*lo$ -> lo$he* Ψάχνουμε το lo$hel* 28
29 Κεφ Ευρετήριο αντιμετατεθειμένων όρων Παράδειγμα Ευρετήριο αντιμετατεθειμένων όρων για moron, man Εισάγουμε στο λεξικό όλες τις περιστροφές των όρων ώστε να δείχνουν στον αρχικό όρο moron -> moron$ -> στο ευρετήριο: moron$, $moron, n$moro, on$mor ron$mo oron$m man -> man$ -> στο ευρετήριο: man$,$man, n$ma, an$m Ερώτημα m*n -> m*n$ -> n$m* Ερώτημα: mo*n -> n$mo* Match? Ερώτημα: m* -> $m* Match? 29
30 Κεφ Ευρετήριο αντιμετατεθειμένων όρων X*Y*Z X*Y*Z$ -> Z$X* πως γίνεται match? Ψάξε Z$X* και μετά έλεγξε κάθε υποψήφιο όρο για το Υ Πχ fi*mo*er -> ψάξε er$fi*, έλεγξε αν και mo (π.χ., fishmonger και fillbuster) Στην πραγματικότητα, permuterm B-tree Πρόβλημα: δεκαπλασιάζει το μέγεθος του λεξικού Εμπειρική παρατήρηση για τα Αγγλικά 30
31 Κεφ Ευρετήρια k-γραμμάτων (k-gram indexes) k-gram: ακολουθία k χαρακτήρων Απαρίθμησε όλα τα k-γράμματα που εμφανίζονται σε κάθε όρο π.χ., για το κείμενο April is the cruelest month έχουμε τα 2-γράμματα (bigrams) $a,ap,pr,ri,il,l$,$i,is,s$,$t,th,he,e$,$c,cr,ru, ue,el,le,es,st,t$, $m,mo,on,nt,h$ Όπου $ ένα ειδικός χαρακτήρας που σηματοδοτεί το τέλος και την αρχή μιας λέξης Σε ένα k-gram ευρετήριο για το λεξικό που περιέχει όλα τα k- grams που εμφανίζονται σε οποιονδήποτε όρο Διατήρησε ένα δεύτερο αντεστραμμένο ευρετήριο από τα 2- γράμματα στους όρους του λεξικού που τα περιέχουν 31
32 Κεφ Παράδειγμα ευρετηρίου k-γραμμάτων Το ευρετήριο k-γραμμάτων βρίσκει τους όρους βασισμένο σε μια ερώτηση που αποτελείται από k- γράμματα (εδώ k=2). $m mace madden mo on among along amortize among k = 3 32
33 Κεφ Επεξεργασία ερωτημάτων Ερώτημα mon* τώρα γίνεται $m AND mo AND on Βρίσκει τους όρους που ταιριάζουν μια AND εκδοχή του wildcard ερωτήματος. Απαιτείται βήμα μετά-φιλτραρίσματος (post-filter) False positive, π.χ., moon Οι όροι που απομένουν αναζητούνται στο γνωστό αντεστραμμένο ευρετήριο όρων-εγγράφων 33
34 Sec Επεξεργασία ερωτημάτων Ένα Boolean ερώτημα για κάθε όρο Μπορεί να οδηγήσουν σε ακριβή επεξεργασία ερωτημάτων pyth* AND prog* Αν ενθαρρύνουμε την τεμπελιά οι άνθρωποι θα ανταποκριθούν! Type your search terms, use * if you need to. E.g., Alex* will match Alexander. Search Ποιες μηχανές αναζήτησης επιτρέπουν τέτοια ερωτήματα; 34
35 ΔΙΟΡΘΩΣΗ ΟΡΘΟΓΡΑΦΙΚΩΝ ΛΑΘΩΝ 35
36 Κεφ. 3.3 Διόρθωση ορθογραφικών λαθών Δύο βασικές χρήσεις Διόρθωση των εγγράφων που ευρετηριοποιούνται Διόρθωση των ερωτημάτων ώστε να ανακτηθούν «σωστές» απαντήσεις Δυο βασικές κατηγορίες: Μεμονωμένες λέξεις (isolated term) Εξέτασε κάθε λέξη μόνη της για λάθη Δεν πιάνει typos που έχουν ως αποτέλεσμα σωστά γραμμένες λέξεις π.χ., from form Βασισμένη σε συμφραζόμενα (context sensitive) Κοιτά τις λέξεις γύρω, π.χ., I flew form Heathrow to Narita. 36
37 Κεφ. 3.3 Διόρθωση εγγράφων Χρήσιμη ιδιαίτερα για έγγραφα μετά από OCR Αλγόριθμοι διόρθωσης ρυθμισμένοι για αυτό: rn μοιάζει με m Μπορεί να χρησιμοποιούν ειδική γνώση (domain-specific) Π.χ., OCR μπερδεύει το O με το D πιο συχνά από το O και το I (που είναι γειτονικά στα QWERTY πληκτρολόγιο), οπότε πιο πιθανή η ανταλλαγή τους στην πληκτρολόγηση Αλλά συχνά: web σελίδες αλλά και τυπωμένο υλικό έχουν typos Στόχος: το λεξικό να περιέχει λιγότερα ορθογραφικά λάθη Αλλά συχνά δεν αλλάζουμε τα έγγραφα αλλά επεκτείνουμε την απεικόνιση ερωτήματος εγγράφου 37
38 Κεφ Διόρθωση μεμονωμένης λέξης Θεμελιώδης υπόθεση υπάρχει ένα λεξικό που μας δίνει τη σωστή ορθογραφία Δυο βασικές επιλογές για αυτό το λεξικό Ένα standard λεξικό όπως Webster s English Dictionary Ένα industry-specific λεξικό hand-maintained Το λεξικό της συλλογής (corpus) Π.χ., όλες οι λέξεις στο web Όλα τα ονόματα, ακρώνυμα κλπ. (συμπεριλαμβανομένων και των ορθογραφικών λαθών) 38
39 Κεφ Γενικά θέματα (1) Στο ερώτημα carot πάντα επέστρεψε τα έγγραφα που περιέχουν το carot καθώς και τα έγγραφα όλες τις διορθωμένες εκδοχές του όρου, πχ carrot and tarot. (2) Όπως στο (1), αλλά διορθώσεις μόνο αν το carot δεν είναι στο λεξικό (3) Όπως στο (1), αλλά μόνο αν η αρχική ερώτηση επιστρέφει λίγα (πχ λιγότερο από 5) έγγραφα. (4) Όταν η αρχική ερώτηση επιστρέφει λιγότερα από έναν προκαθορισμένο αριθμό από έγγραφα επιστρέφει «spelling suggestions : Did you mean carrot? (και όχι επιπρόσθετα έγγραφα) 39
40 Κεφ Γενικά θέματα (1) Επιστρέφουμε τη λέξη (λέξεις) που είναι πιο «κοντά» (2) Όταν ισοπαλία (1) Την πιο συχνή (συχνές) στη συλλογή (2) Την πιο συχνή στα ερωτήματα Δείτε στο στατιστικά για misspellings του Britney Spears 40
41 Sec Διόρθωση μεμονωμένης λέξης Δοθέντος ενός λεξικού και μιας ακολουθίας χαρακτήρων Q, επέστρεψε τις λέξεις του λεξικού που είναι πιο κοντά στο Q Τι σημαίνει πιο κοντά? Θα εξετάσουμε δύο ορισμούς εγγύτητας: Την απόσταση διόρθωσης -- edit distance (Levenshtein distance) και την σταθμισμένη εκδοχή της -- weighted edit distance Επικάλυψη (overlap) n-γραμμάτων 41
42 κεφ Απόσταση διόρθωσης (Edit distance) ΟΡΙΣΜΟΣ: Δοθέντων δυο αλφαριθμητικών (strings) S 1 and S 2, ο ελάχιστος αριθμός πράξεων για τη μετατροπή του ενός στο άλλο Συνήθως, οι πράξεις είναι σε επίπεδο χαρακτήρα Levenshtein distance: (1) Insert Εισαγωγή, (2) Delete - Διαγραφή και (3) Replace Αντικατάσταση ενός χαρακτήρα Damerau-Levenshtein distance: + Transposition - Αντιμετάθεση ενός χαρακτήρα Π.χ., η απόσταση διόρθωσης από dof σε dog είναι 1 Από cat σε act είναι 2 Από cat σε dog είναι 3. (Μόνο 1 με αντιμετάθεση) 42
43 Sec Απόσταση Διόρθωσης (Edit distance) Παράδειγμα Levenshtein distance: dog-do: 1, cat-cart: 1, cat-cut: 1, catact: 2 Damerau-Levenshtein distance: cat-act: 1 Γενικά υπολογίζεται με Δυναμικό Προγραμματισμό. Κοιτάξτε το για ένα παράδειγμα και ένα applet. 43
44 Κεφ Δυναμικός προγραμματισμός Εκφράζουμε το πρόβλημα ως συνδυασμό υπόπροβλημάτων η βέλτιστη λύση βασίζεται στη βέλτιστη λύση του υπό-πρόβληματος Στην περίπτωση των αποστάσεων διόρθωσης το υπόπρόβλημα δυο προθεμάτων: Ο βέλτιστος τρόπος από μια λέξη σε μια άλλη, βασίζεται στο βέλτιστο τρόπο από κάποιο πρόθεμα της πρώτης σε πρόθεμα της δεύτερης Έναν Πίνακα Γραμμές: Γράμματα (προθέματα) της πρώτη λέξης Στήλες: Γράμματα (προθέματα) της δεύτερης λέξης Θέσεις του πίνακα: βέλτιστο κόστος (απόσταση) 44
45 Κεφ Υπολογισμός απόστασης διόρθωσης String s 2 cats fast String s 1 Κάθε στοιχείο m[i, j] του πίνακα μας δίνει το βέλτιστο κόστος (απόσταση) για να πάμε από το πρόθεμα μήκους i του s 1 στο πρόθεμα μήκους j του s 2 45
46 Κεφ Δυναμικός προγραμματισμός Πως υπολογίζουμε τα στοιχεία του πίνακα; Επικαλυπτόμενες υπό-λύσεις: Βέλτιστο κόστος m[i, j] Πχ m[2, 3] ca -> fas 3 διαφορετικοί τρόποι m[i, j-1] από αριστερά (γραμμή) m[i-1, j] από πάνω (στήλη) m[i-1, j-1] (διαγώνια) i-1, j-1 i-1, j i, j-1 i, j 46
47 Κεφ Αλγόριθμος (από αριστερά) i-1, j-1 i-1, j i, j-1 i, j 47
48 Κεφ Αλγόριθμος (από πάνω) i-1, j-1 i-1, j i, j-1 i, j 48
49 Κεφ Υπολογισμός απόστασης διόρθωσης Αρχικοποίηση String s 2 String s 1 Κόστος διόρθωσης για τα προθέματα 49
50 Κεφ Υπολογισμός απόστασης Levenshtein Για να υπολογίσουμε το m[i, j] j -1 j i -1 i Εξαρτάται από το επόμενο γράμμα κόστος από τον αριστερό γείτονα (insert) [i, j-1] Κόστος από τον πάνω γείτονα (delete) [i-1, j] Το μικρότερο από τις 3 πιθανές για να φτάσουμε στο [i, j] 50
51 Κεφ Αλγόριθμος (διαγώνια) Αν το i-οστο στοιχείο του s 1 είναι ίδιο με το j- οστό στοιχείου του s 2 i-1, j-1 i-1, j i, j-1 i, j 51
52 Κεφ Αλγόριθμος (διαγώνια) Αν το i-οστο στοιχείο του s 1 είναι διαφορετικό από το j-οστό στοιχείου του s 2 i-1, j-1 i-1, j i, j-1 i, j 52
53 Κεφ Υπολογισμός απόστασης Levenshtein Κόστος από τον πάνω αριστερό γείτονα Copy ή Replace Κόστος από τον αριστερό γείτονα Insert Κόστος από τον πάνω γείτονα Delete Το μικρότερο από τα 3 κόστη 53
54 Υπολογισμός απόστασης Levenshtein: παράδειγμα Κεφ
55 Κεφ Δυναμικός προγραμματισμός 1. Βέλτιστη υπό-δομής (Optimal substructure): Η βέλτιστη λύση σε ένα πρόβλημα περιέχει τις υπό-λύσεις, δηλαδή τις βέλτιστες λύσεις σε υπό-προβλήματα 2. Επικαλυπτόμενες υπό-λύσεις (Overlapping subsolutions): Οι υπο-λύσεις υπολογίζονται ξανά και ξανά όταν υπολογίζονται οι ολικές βέλτιστες λύσεις στον brute-force αλγόριθμο. 55
56 Κεφ Δυναμικός προγραμματισμός Στην περίπτωση των αποστάσεων διόρθωσης το υπόπρόβλημα δυο προθεμάτων Οι επικαλυπτόμενες υπό-λύσεις: χρειαζόμαστε τις περισσότερες αποστάσεις 3 φορές: κίνηση δεξιά, στη διαγώνιο, κάτω 56
57 Κεφ Υπολογισμός απόστασης: παράδειγμα Από OSLO σε SNOW 57
58 Κεφ Υπολογισμός απόστασης: παράδειγμα 58
59 Κεφ Υπολογισμός απόστασης: παράδειγμα 59
60 Κεφ Υπολογισμός απόστασης: παράδειγμα 60
61 Κεφ Υπολογισμός απόστασης: παράδειγμα 61
62 Κεφ Υπολογισμός απόστασης: παράδειγμα 62
63 Κεφ Υπολογισμός απόστασης: παράδειγμα 63
64 Κεφ Υπολογισμός απόστασης: παράδειγμα 64
65 Κεφ Υπολογισμός απόστασης: παράδειγμα 65
66 Κεφ Υπολογισμός απόστασης: παράδειγμα 66
67 Κεφ Υπολογισμός απόστασης: παράδειγμα 67
68 Κεφ Υπολογισμός απόστασης: παράδειγμα 68
69 Κεφ Υπολογισμός απόστασης: παράδειγμα 69
70 Κεφ Υπολογισμός απόστασης: παράδειγμα 70
71 Κεφ Υπολογισμός απόστασης: παράδειγμα 71
72 Κεφ Υπολογισμός απόστασης: παράδειγμα 72
73 Κεφ Υπολογισμός απόστασης: παράδειγμα 73
74 Κεφ Υπολογισμός απόστασης: παράδειγμα 74
75 Κεφ Υπολογισμός απόστασης: παράδειγμα 75
76 Κεφ Υπολογισμός απόστασης: παράδειγμα 76
77 Κεφ Υπολογισμός απόστασης: παράδειγμα 77
78 Κεφ Υπολογισμός απόστασης: παράδειγμα 78
79 Κεφ Υπολογισμός απόστασης: παράδειγμα 79
80 Κεφ Υπολογισμός απόστασης: παράδειγμα 80
81 Κεφ Υπολογισμός απόστασης: παράδειγμα 81
82 Κεφ Υπολογισμός απόστασης: παράδειγμα 82
83 Κεφ Υπολογισμός απόστασης: παράδειγμα 83
84 Κεφ Υπολογισμός απόστασης: παράδειγμα 84
85 Κεφ Υπολογισμός απόστασης: παράδειγμα 85
86 Κεφ Υπολογισμός απόστασης: παράδειγμα 86
87 Κεφ Υπολογισμός απόστασης: παράδειγμα 87
88 Κεφ Υπολογισμός απόστασης: παράδειγμα 88
89 Κεφ Υπολογισμός απόστασης: παράδειγμα 89
90 Κεφ Υπολογισμός απόστασης: παράδειγμα 90
91 Κεφ Υπολογισμός απόστασης: παράδειγμα 91
92 Πως μπορώ να δω τις πράξεις που οδήγησαν από OSLO σε SNOW? 92
93 93
94 94
95 95
96 96
97 97
98 Πως μπορώ να δω τις πράξεις που οδήγησαν από CAT σε CATCAT? 98
99 99
100 100
101
102 102
103 Κεφ Απόσταση διόρθωσης από όλους τους όρους του λεξικού; Δοθέντος ενός (ανορθόγραφου) ερωτήματος, υπολογίζουμε την απόσταση διόρθωσης από όλους τους όρους του λεξικού Ακριβό και αργό Μπορούμε να μειώσουμε τον αριθμό των υποψήφιων όρων του ευρετηρίου; Μόνο λέξεις που αρχίζουν από το ίδιο γράμμα Να θεωρήσουμε ότι υπάρχει * και ένα permutern Να βρούμε λέξεις με αρκετά κοινά k-γράμματα και να περιορίσουμε τον υπολογισμό απόστασης με αυτές 103
104 Κεφ Χρήση των αποστάσεων διόρθωσης 1. Η, φοθείσας μιας ερώτησης, πρώτα απαρίθμησε όλες τις ακολουθίες χαρακτήρων μέσα σε μια προκαθορισμένη (σταθμισμένη) απόσταση διόρθωσης (π.χ., 2) 2. Βρες την τομή αυτού του συνόλου με τις «σωστές» λέξεις 3. Πρότεινε τους όρους που βρήκες στο χρήστη Ψάξε όλες τις πιθανές διορθώσεις στο αντεστραμμένο ευρετήριο και επέστρεψε όλα τα έγγραφα αργό Μπορούμε να επιστρέψουμε τα έγγραφα μόνο για την πιο πιθανή διόρθωση Η εναλλακτική λύση παίρνει τον έλεγχο από το χρήστη αλλά κερδίζουμε ένα γύρο διάδρασης 104
105 Κεφ Σταθμισμένη απόσταση διόρθωσης Το βάρος μιας πράξης εξαρτάται από τον ποιο χαρακτήρα (χαρακτήρες) περιλαμβάνει Στόχος να λάβει υπόψη λάθη OCR ή πληκτρολόγησης Παράδειγμα: m πιο πιθανό να πληκτρολογηθεί ως n παρά ως q Οπότε η αντικατάσταση του m από n έχει μικρότερη απόσταση διόρθωσης από την απόσταση του από το q Διατύπωση ως πιθανοτικό μοντέλο Προϋποθέτει ως είσοδο έναν πίνακα βαρών Πως θα μετατρέψουμε το δυναμικό προγραμματισμό για να χειριστούμε τα βάρη; 105
106 Κεφ Επικάλυψη k-γραμμάτων Εναλλακτικός ορισμός απόστασης: βάση των κοινών k- γραμμάτων Απαρίθμησε όλα το k-γράμματα στον όρο της ερώτησης Χρησιμοποίησε το ευρετήριο k-γραμμάτων για να ανακτήσεις όλους τους όρους του λεξικού που ταιριάζουν κάποιο από τα k-γράμματα του ερωτήματος Ανέκτησε όλους τους όρους του λεξικού που ταιριάζουν κάποιο (>= κατώφλι) αριθμό από τα k- γράμματα του ερωτήματος 106
107 Κεφ Παράδειγμα με 3-γράμματα Έστω ότι το κείμενο είναι november Τα τριγράμματα είναι nov, ove, vem, emb, mbe, ber. Για το ερώτημα december Τα τριγράμματα είναι dec, ece, cem, emb, mbe, ber. Άρα 3 τριγράμματα επικαλύπτονται (από τα 6 κάθε όρου) 107
108 Κεφ Ταίριασμα τριγραμμάτων Έστω το ερώτημα lord θέλουμε να βρούμε τις λέξεις που ταιριάζουν τουλάχιστον 2 από τα 3 διγράμματα (lo, or, rd) lo or rd alone border ardent lore sloth lore morbid border card Η τυπική συγχώνευση θα τα δώσει Πως μπορούμε να το χρησιμοποιήσουμε ως ένα κανονικοποιημένο μέσω επικάλυψης; 108
109 Κεφ Μια δυνατότητα συντελεστής Jaccard Συνήθης μέτρηση της επικάλυψης Έστω X και Y δύο σύνολα, ο συντελεστής Jaccard ορίζεται ως: X Y / Ίσος με 1 όταν τα X και Y έχουν τα ίδια στοιχεία και 0 όταν είναι ξένα Τα X and Y δε χρειάζεται να έχουν το ίδιο μέγεθος X Πάντα μεταξύ του 0 και του 1 Y Το κατώφλι καθορίζει αν υπάρχει ταίριασμα, πχ., αν J.C. > 0.8, τότε ταίριασμα Πως το υπολογίζουμε αποδοτικά στην περίπτωση των k-γραμμάτων; 109
110 Κεφ Διόρθωση εξαρτώμενη από το περιβάλλον Κείμενο: I flew from Heathrow to Narita. Θεωρείστε το ερώτημα-φράση flew form Heathrow Θα θέλαμε να απαντήσουμε Did you mean flew from Heathrow? Γιατί δεν υπήρχαν έγγραφα που να ταιριάζουν το ερώτημα φράση 110
111 Κεφ Διόρθωση βασισμένη στα συμφραζόμενα Χρειάζεται συμφραζόμενο περιβάλλον για να το πιάσει αυτό. Πρώτη ιδέα: 1. Ανέκτησε τους όρους του λεξικού που είναι κοντά (σε σταθμισμένη απόσταση διόρθωσης) από κάθε όρο του ερωτήματος 2. Δοκίμασε όλες τις πιθανές φράσεις που προκύπτουν κρατώντας κάθε φορά μια λέξη σταθερή flew from heathrow fled form heathrow flea form heathrow 3. Hit-based spelling correction: Πρότεινε την εναλλακτική με τα περισσότερα hits 111
112 Κεφ Διόρθωση βασισμένη στα συμφραζόμενα Εναλλακτική Προσέγγιση 1. Σπάσε της φράση σε σύζευξη biwords. 2. Ψάξε τα biwords που χρειάζονται διόρθωση μόνο ενός όρου. 3. Απαρίθμησε μόνο τις φράσεις που περιέχουν «κοινά» biwords. 112
113 Κεφ Γενικά θέματα Θέλουμε να δούμε διαφορετικές απαντήσεις στο Did you mean? Ποιες θα επιλέξουμε να παρουσιάσουμε στο χρήστη; Αυτή που εμφανίζεται στα περισσότερα έγγραφα Ανάλυση του Query log 113
114 ΦΩΝΗΤΙΚΗ ΔΙΟΡΘΩΣΗ (SOUNDEX) 114
115 Κεφ. 3.4 Soundex Φωνητική διόρθωση: ερώτημα που «ακούγεται» όπως ο σωστός όρος Κλάση ευριστικών για την επέκταση ενός ερωτήματος σε φωνητικά (phonetic ) ισοδύναμα Εξαρτώνται από τη γλώσσα κυρίως για ονόματα Π.χ., chebyshev tchebycheff Προτάθηκε από το U.S. census το 1918 (για ονόματα από εγληματίες!) Βασική ιδέα: phonetic hash : όροι που «ακούγονται» ίδιοι κατακερματίζονται στην ίδια θέση 115
116 Κεφ. 3.4 Soundex τυπικός αλγόριθμος Μετέτρεψε κάθε token προς δεικτοδότηση σε μια μορφή 4-χαρακτήρων Το ίδιο και για τους όρους του ερωτήματος Κατασκεύασε ένα ανεστραμμένο ευρετήριο από αυτούς τους 4-χαρακτήρες στον αρχικό όρο και ψάξε στο ευρετήριο τις μειωμένες μορφές (όταν το ερώτημα χρειάζεται φωνητικό ταίριασμα) dex1/soundex1.htm#top 116
117 Κεφ. 3.4 Soundex τυπικός αλγόριθμος 1. Κράτησε τον πρώτο χαρακτήρα της λέξης 2. Μετάτρεψε όλες τις εμφανίσεις των παρακάτω όρων σε '0' (zero): 'A', E', 'I', 'O', 'U', 'H', 'W', 'Y'. 3. Άλλαξε τα γράμματα σε αριθμούς ως ακολούθως: B, F, P, V 1 C, G, J, K, Q, S, X, Z 2 D, T 3 L 4 M, N 5 R 6 117
118 κεφ. 3.4 Soundex συνέχεια 4. Σβήσε όλα τα ζεύγη συνεχόμενων αριθμών 5. Σβήσε όλα τα υπομένοντα 0 6. Πρόσθεσε 0 στο τέλος και επέστρεψε τις τέσσερις πρώτες θέσεις που θα είναι της μορφής <uppercase letter> <digit> <digit> <digit>. Π.χ., Herman γίνεται H655. Το hermann δίνει τον ίδιο κωδικό; 118
119 ΤΕΛΟΣ 3 ου Μαθήματος Ερωτήσεις? Χρησιμοποιήθηκε κάποιο υλικό των: Pandu Nayak and Prabhakar Raghavan, CS276:Information Retrieval and Web Search (Stanford) Hinrich Schütze and Christina Lioma, Stuttgart IIR class 119
120 Κεφ. 3.2 Επεξεργασία γενικών ερωτημάτων Π.χ., Θεωρείστε το ερώτημα: se*ate AND fil*er Μπορεί να οδηγήσει στην εκτέλεση πολλών Boolean AND ερωτημάτων (πιθανοί συνδυασμοί όρων). 120
121 Κεφ. 3.3 Διόρθωση λαθών στο ερώτημα Βασική έμφαση στα ερωτήματα Π.χ., το ερώτημα Alanis Morisett Μπορεί είτε Να ανακτήσουμε τα έγγραφα που έχουν δεικτοδοτηθεί κάτω από τη σωστή ορθογραφία, Ή Να επιστρέψουμε διάφορα προτεινόμενα ερωτήματα με σωστή ορθογραφία Did you mean? 121
Information Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα (υποστήριξη *) 1 Ch. 2 Επανάληψη προηγούμενης
Διαβάστε περισσότεραInformation Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4: Ανάκτηση Ανεκτική στα Σφάλματα 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Δομές δεδομένων για Λεξικά
Διαβάστε περισσότεραInformation Retrieval
Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. 1 Κεφ. 2 Επανάληψη προηγούμενης διάλεξης
Διαβάστε περισσότεραΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. 1 Κεφ. 3 Τι θα δούμε σήμερα; Δομές δεδομένων για λεξικά Ανάκτηση ανεκτική
Διαβάστε περισσότεραΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. 1 Κεφ. 3 Τι θα δούμε σήμερα; Δομές δεδομένων για λεξικά Ανάκτηση ανεκτική
Διαβάστε περισσότεραΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα.
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα. 1 Κεφ. 3 Τι θα δούμε σήμερα; Δομές δεδομένων για λεξικά Ανάκτηση ανεκτική
Διαβάστε περισσότεραΑνάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 5η: 06/03/2017 1 WILD-CARD Ερωτήματα 2 Sec. 3.2 Ερωτήματα με χαρακτήρες wild-card: * mon*: να βρεθούν όλα τα έγγραφα που περιέχουν
Διαβάστε περισσότεραΑνάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 6η: 08/03/2016 1 Διόρθωση πληκτρολόγησης 2 Sec. 3.3 Διόρθωση πληκτρολόγησης Δυο κύριες χρήσεις Διόρθωση εγγράφων που θα εισαχθούν
Διαβάστε περισσότεραΕπανάληψη προηγούμενης διάλεξης
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Λεξικά και Ανάκτηση Ανεκτική στα Σφάλματα 1 Ch. 2 Επανάληψη προηγούμενης διάλεξης 1. Προ-επεξεργασία
Διαβάστε περισσότερα3. Λεξικά & Ανάκτηση Ανεκτική σε Σφάλματα
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 3. Λεξικά & Ανάκτηση Ανεκτική σε Σφάλματα Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων
Διαβάστε περισσότεραΑνάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university
Διαβάστε περισσότεραΕπανάληψη προηγούμενης διάλεξης
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4: Κατασκευή Ευρετηρίου 1 Επανάληψη προηγούμενης διάλεξης 1. Δομές Δεδομένων για το Λεξικό 2. Ανάκτηση
Διαβάστε περισσότεραΑνάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός
Ανάκληση Πληροφορίας Information Retrieval Διδάσκων Δημήτριος Κατσαρός Διάλεξη 6η: 05/03/2014 1 WILD-CARD QUERIES 2 Sec. 3.2 Wild-card queries: * mon*: find all docs containing any word beginning mon.
Διαβάστε περισσότεραInformation Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Ανάκτηση
Διαβάστε περισσότεραInformation Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Ανάκτηση
Διαβάστε περισσότεραΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.
ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση. 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή Συμπίεση 2 ΣΤΑΤΙΣΤΙΚΑ
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2018-2019 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2017-2018 1 Κατακερματισμός Πρόβλημα στατικού κατακερματισμού: Έστω Μ κάδους και r εγγραφές ανά κάδο - το πολύ Μ * r εγγραφές (αλλιώς μεγάλες αλυσίδες υπερχείλισης)
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές
Διαβάστε περισσότεραΔομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο
Δομές Δεδομένων Συμβολοσειρές Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Συμβολοσειρές Συμβολοσειρές και προβλήματα που αφορούν συμβολοσειρές εμφανίζονται τόσο συχνά που
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ
Διαβάστε περισσότεραΔυναμικός Κατακερματισμός
Δυναμικός Κατακερματισμός Καλό για βάση δεδομένων που μεγαλώνει και συρρικνώνεται σε μέγεθος Επιτρέπει τη δυναμική τροποποίηση της συνάρτησης κατακερματισμού Επεκτάσιμος κατακερματισμός μια μορφή δυναμικού
Διαβάστε περισσότεραΤα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο
Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων
Διαβάστε περισσότεραΚεφ.11: Ευρετήρια και Κατακερματισμός
Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση
Διαβάστε περισσότεραΕισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική
Διαβάστε περισσότεραCuckoo Hashing. Αλγόριθμοι και Πολυπλοκότητα. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο
Cuckoo Hashing Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο β Πολυτεχνείο Πρόβλημα (ADT) Λεξικού υναμικά μεταβαλλόμενη συλλογή αντικειμένων που αναγνωρίζονται με «κλειδί» (π.χ.
Διαβάστε περισσότεραΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων
Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας
Διαβάστε περισσότεραΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ
ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ (Οι ερωτήσεις µε κίτρινη υπογράµµιση είναι εκτός ύλης για φέτος) ΕΙΣΑΓΩΓΗ Q1. Οι Πρωταρχικοί τύποι (primitive types) στη Java 1. Είναι όλοι οι ακέραιοι και όλοι οι πραγµατικοί
Διαβάστε περισσότεραΑνάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός
Ανάκληση Πληροφορίας Information Retrieval Διδάσκων Δημήτριος Κατσαρός Διάλεξη 5η: 26/02/2014 1 Phrase queries 2 Phrase queries Want to answer queries such as stanford university as a phrase Thus the sentence
Διαβάστε περισσότεραΕπεξεργασία Ερωτήσεων
Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008
Διαβάστε περισσότεραΕισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις
Διαβάστε περισσότεραΕυρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται
Διαβάστε περισσότεραΔιάλεξη 14: Δέντρα IV - B-Δένδρα
ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 14: Δέντρα IV - B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - 2-3 Δένδρα, Εισαγωγή και άλλες πράξεις - Άλλα Δέντρα: Β-δένδρα, Β+-δέντρα,
Διαβάστε περισσότεραΛύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό
Διαβάστε περισσότεραΔιάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου
Διάλεξη 14: Δέντρα IV B Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: 2 3 Δένδρα, Εισαγωγή και άλλες πράξεις Άλλα Δέντρα: Β δένδρα, Β+ δέντρα, R δέντρα Διδάσκων: Παναγιώτης Ανδρέου ΕΠΛ231
Διαβάστε περισσότεραΟργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο
Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών
Διαβάστε περισσότεραΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση
ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή
Διαβάστε περισσότεραΕυρετηρίαση ΜΕΡΟΣ ΙΙ
Ευρετηρίαση ΜΕΡΟΣ ΙΙ Ανάκτηση Πληροφορίας 2009-2010 1 Content Processing Boolean Queries Faster posting lists with skip pointers Phrase and Proximity Queries Biwords Positional Indexes Dictionary Wild-Card
Διαβάστε περισσότεραΕισαγωγή ενός νέου στοιχείου. Επιλογή i-οστoύ στοιχείου : Εύρεση στοιχείου με το i-οστό μικρότερο κλειδί
Δομές Αναζήτησης Χειριζόμαστε ένα σύνολο στοιχείων κλειδί από ολικά διατεταγμένο σύνολο όπου το κάθε στοιχείο έχει ένα Θέλουμε να υποστηρίξουμε δύο βασικές λειτουργίες: Εισαγωγή ενός νέου στοιχείου με
Διαβάστε περισσότεραΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση
ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή
Διαβάστε περισσότεραΔιάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing)
Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ανασκόπηση Προβλήματος και Προκαταρκτικών Λύσεων Bit Διανύσματα Τεχνικές Κατακερματισμού & Συναρτήσεις
Διαβάστε περισσότεραOutline. 6 Edit Distance
Αλγόριθμοι και Πολυπλοκότητα Άπληστοι Αλγόριθμοι και Δυναμικός Προγραμματισμός Ασκήσεις CoReLab ΣΗΜΜΥ - Ε.Μ.Π. 16 Νοεμβρίου 216 (CoReLab - NTUA) Αλγόριθμοι - Ασκήσεις 16 Νοεμβρίου 216 1 / 52 Outline 1
Διαβάστε περισσότεραInsert (P) : Προσθέτει ένα νέο πρότυπο P στο λεξικό D. Delete (P) : Διαγράφει το πρότυπο P από το λεξικό D
Dynamic dictionary matching problem Έχουμε ένα σύνολο πρότυπων D = { P1, P2,..., Pk } oπου D το λεξικό και ένα αυθαίρετο κειμενο T [1,n] To σύνολο των πρότυπων αλλάζει με το χρόνο (ρεαλιστική συνθήκη).
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #11 Suffix Arrays Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης Το παρόν
Διαβάστε περισσότεραΚατακερµατισµός. Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο
Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετημένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινομημένα Αρχεία Φυσική διάταξη των εγγραφών
Διαβάστε περισσότεραΕξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα
Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη Εσωτερική Μνήμη Κρυφή Μνήμη (Cache) μεγαλύτερη χωρητικότητα Καταχωρητές (Registers) Κεντρική Μονάδα (CPU) μεγαλύτερη ταχύτητα Πολλές σημαντικές εφαρμογές διαχειρίζονται
Διαβάστε περισσότεραΔιάλεξη 18: B-Δένδρα
Διάλεξη 18: B-Δένδρα Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Εισαγωγή & Ισοζυγισμένα Δένδρα 2-3 Δένδρα, Περιγραφή Πράξεων της Εισαγωγής και άλλες πράξεις Β-δένδρα Διδάσκων: Κωνσταντίνος
Διαβάστε περισσότεραΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Συστήματα Διαχείρισης Βάσεων Δεδομένων Άσκηση 1 Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών HY460 Συστήματα Διαχείρισης Βάσεων Δεδομένων Διδάσκοντες: Δημήτρης
Διαβάστε περισσότερα2.1. Εντολές. 2.2. Σχόλια. 2.3. Τύποι Δεδομένων
2 Βασικές Εντολές 2.1. Εντολές Οι στην Java ακολουθούν το πρότυπο της γλώσσας C. Έτσι, κάθε εντολή που γράφουμε στη Java θα πρέπει να τελειώνει με το ερωτηματικό (;). Όπως και η C έτσι και η Java επιτρέπει
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing
Διαβάστε περισσότεραInformation Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση
Διαβάστε περισσότεραΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL
8.1. Εισαγωγή ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PACAL Πως προέκυψε η γλώσσα προγραμματισμού Pascal και ποια είναι τα γενικά της χαρακτηριστικά; Σχεδιάστηκε από τον Ελβετό επιστήμονα της Πληροφορικής Nicklaus Wirth to
Διαβάστε περισσότεραΛυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007
Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007 Πρόβλημα 1 Το πρώτο πρόβλημα λύνεται με τη μέθοδο του Δυναμικού Προγραμματισμού. Για να το λύσουμε με Δυναμικό Προγραμματισμό
Διαβάστε περισσότεραRed-Black Δέντρα. Red-Black Δέντρα
Red-Black Δέντρα v 6 3 8 4 z Red-Black Δέντρα Περίληψη Από τα (2,4) δέντρα στα red-black δέντρα Red-black δέντρο Ορισμός Ύψος Εισαγωγή αναδόμηση επαναχρωματισμός Διαγραφή αναδόμηση επαναχρωματισμός προσαρμογή
Διαβάστε περισσότεραΑλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι
Διαβάστε περισσότεραΙσορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή
Ισορροπημένα Δένδρα Μπορούμε να επιτύχουμε για κάθε λειτουργία; χρόνο εκτέλεσης Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή μετά από Περιστροφές x αριστερή περιστροφή από το x y α β y
Διαβάστε περισσότεραΕισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :
Διαβάστε περισσότεραΔομές Δεδομένων. Δημήτρης Μιχαήλ. Κατακερματισμός. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο
Δομές Δεδομένων Κατακερματισμός Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Λεξικό Dictionary Ένα λεξικό (dictionary) είναι ένας αφηρημένος τύπος δεδομένων (ΑΤΔ) που διατηρεί
Διαβάστε περισσότεραΕιδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων
Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις
Διαβάστε περισσότεραΔυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1
Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας
Διαβάστε περισσότεραΑλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2016-17 Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα) http://mixstef.github.io/courses/csintro/ Μ.Στεφανιδάκης Αφηρημένες
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια
Διαβάστε περισσότεραΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΑ. ΕΤΟΣ 2012-13 Ι ΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής, Τοµέας Τεχνολογίας
Διαβάστε περισσότεραΚατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1
Κατακερματισμός 4/3/2009 Μ.Χατζόπουλος 1 H ιδέα που βρίσκεται πίσω από την τεχνική του κατακερματισμού είναι να δίνεται μια συνάρτησης h, που λέγεται συνάρτηση κατακερματισμού ή παραγωγής τυχαίων τιμών
Διαβάστε περισσότεραΤι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 2015-16 Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Τι είναι
Διαβάστε περισσότεραInformation Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Συμπίεση Ευρετηρίου 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Κατασκευή ευρετηρίου Στατιστικά
Διαβάστε περισσότεραΒάσεις Δεδομένων ΙΙ Ενότητα 5
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Βάσεις Δεδομένων ΙΙ Ενότητα 5: Δομές Ευρετηρίων - ISAM Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά
Διαβάστε περισσότεραΔιασυνδεδεμένες Δομές. Λίστες. Προγραμματισμός II 1
Διασυνδεδεμένες Δομές Λίστες Προγραμματισμός II 1 lalis@inf.uth.gr Διασυνδεδεμένες δομές Η μνήμη ενός πίνακα δεσμεύεται συνεχόμενα η πρόσβαση στο i-οστό στοιχείο είναι άμεση καθώς η διεύθυνση του είναι
Διαβάστε περισσότεραΑνάκτηση Δεδομένων (Information Retrieval)
Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας
Διαβάστε περισσότεραΒάσεις Δεδομένων ΙΙ Ενότητα 6
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων Βάσεις Δεδομένων ΙΙ Ενότητα 6: Δομές Ευρετηρίων - B-tree Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά
Διαβάστε περισσότεραΣύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης
Σύνοψη Προηγούμενου Πίνακες (Arrays Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς Διαδικαστικά θέματα. Aντικείμενο Μαθήματος. Aντικείμενα, Κλάσεις, Μέθοδοι, Μεταβλητές.
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό
Διαβάστε περισσότεραΔιάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)
ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear
Διαβάστε περισσότεραΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται
Διαβάστε περισσότεραΑνάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1
Διαβάστε περισσότεραΔεντρικά Ευρετήρια. Δέντρα Αναζήτησης
Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόµβος του περιέχει το πολύ p - 1 τιµές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P
Διαβάστε περισσότεραΣημειωματάριο Δευτέρας 9 Οκτ. 2017
Σημειωματάριο Δευτέρας 9 Οκτ. 2017 Η δομή ελέγχου if... else... elif Βλέπουμε τώρα πώς μπορούμε να γράψουμε προγράμματα που η εκτέλεσή τους ακολουθεί διαφορετική πορεία ανάλογα με τα δεδομένα. Χωρίς τέτοιες
Διαβάστε περισσότεραΚατακερματισμός (Hashing)
Κατακερματισμός (Hashing) O κατακερματισμός είναι μια τεχνική οργάνωσης ενός αρχείου. Είναι αρκετά δημοφιλής μέθοδος για την οργάνωση αρχείων Βάσεων Δεδομένων, καθώς βοηθάει σημαντικά στην γρήγορη αναζήτηση
Διαβάστε περισσότεραΕύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Ανεκτική αναζήτηση. ηµιουργία Ευρετηρίου. ιδάσκων ηµήτριος Κατσαρός, Ph.D.
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 2η: 21/02/2007 1 Ανεκτική αναζήτηση & ηµιουργία
Διαβάστε περισσότεραΕύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 2η: 21/02/2007 1 Ανεκτική αναζήτηση & ηµιουργία
Διαβάστε περισσότεραΠανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 12/10/2017
Διαβάστε περισσότεραΔιάλεξη 2: Επανάληψη Προγραμματισμού Συμβολοσειρές (strings) Διδάσκων: Παναγιώτης Ανδρέου
Διάλεξη 2: Επανάληψη Προγραμματισμού Συμβολοσειρές (strings) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Εισαγωγή στις έννοιες: - Εισαγωγικές Έννοιες σε Strings - Πίνακες από Strings - Συναρτήσεις
Διαβάστε περισσότεραΔημιουργία Ευρετηρίων Συλλογής Κειμένων
Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες
Διαβάστε περισσότεραΤο εσωτερικό ενός Σ Β
Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων
Διαβάστε περισσότεραΔομές Αναζήτησης. εισαγωγή αναζήτηση επιλογή. εισαγωγή. αναζήτηση
Δομές Αναζήτησης χειρότερη περίπτωση μέση περίπτωση εισαγωγή αναζήτηση επιλογή εισαγωγή αναζήτηση διατεταγμένος πίνακας διατεταγμένη λίστα μη διατεταγμένος πίνακας μη διατεταγμένη λίστα δένδρο αναζήτησης
Διαβάστε περισσότεραΕργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων
Ενότητα 4 Επεξεργασία πινάκων 36 37 4.1 Προσθήκη πεδίων Για να εισάγετε ένα πεδίο σε ένα πίνακα που υπάρχει ήδη στη βάση δεδομένων σας, βάζετε τον κέρσορα του ποντικιού στο πεδίο πάνω από το οποίο θέλετε
Διαβάστε περισσότεραΕισαγωγή στον Προγραμματισμό
Εισαγωγή στον Προγραμματισμό Πίνακες Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ακ. Έτος 2012-2013 Πίνακες Πολλές φορές θέλουμε να κρατήσουμε στην μνήμη πολλά αντικείμενα
Διαβάστε περισσότεραΔομές Δεδομένων & Αλγόριθμοι
Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν
Διαβάστε περισσότεραΑντικειμενοστρεφής Προγραμματισμός Διάλεξη 2 : ΜΕΤΑΒΛΗΤΕΣ ΤΕΛΕΣΤΕΣ & ΕΚΦΡΑΣΕΙΣ ΕΛΕΓΧΟΣ ΡΟΗΣ
Αντικειμενοστρεφής Προγραμματισμός Διάλεξη 2 : ΜΕΤΑΒΛΗΤΕΣ ΤΕΛΕΣΤΕΣ & ΕΚΦΡΑΣΕΙΣ ΕΛΕΓΧΟΣ ΡΟΗΣ Κων. Κόκκινος Μεταβλητές-1 Οι μεταβλητές αποτελούν θέσεις μνήμης στις οποίες αποθηκεύονται τιμές αντίστοιχες
Διαβάστε περισσότεραΔιαχρονικές δομές δεδομένων
Διαχρονικές δομές δεδομένων Μια τυπική δομή δεδομένων μεταβάλλεται με πράξεις εισαγωγής ή διαγραφής Π.χ. κοκκινόμαυρο δένδρο εισαγωγή 0 18 0 5 39 73 1 46 6 80 Αποκατάσταση ισορροπίας 5 39 73 0 46 6 80
Διαβάστε περισσότεραBΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ BΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ ΕΞΕΤΑΣΗ ΦΕΒΡΟΥΑΡΙΟΥ 2005 ΛΥΣΕΙΣ Ι. Βασιλείου -----------------------------------------------------------------------------------------------------
Διαβάστε περισσότεραέντρα ομές εδομένων 3ο εξάμηνο ιδάσκων: Χρήστος ουλκερίδης ιαφάνειες προσαρμοσμένες από το υλικό της Μαρίας Χαλκίδη
έντρα 2-3-4 ομές εδομένων 3ο εξάμηνο ιδάσκων: Χρήστος ουλκερίδης ιαφάνειες προσαρμοσμένες από το υλικό της Μαρίας Χαλκίδη Σημερινό Μάθημα 2-3-4 έντρα Ισοζυγισμένα δέντρα αναζήτησης έντρα αναζήτησης πολλαπλών
Διαβάστε περισσότεραΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Ακαδημαϊκό έτος 2001-2002 ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΤΗΡΙΟΥ #4
ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Ακαδημαϊκό έτος 2001-2002 ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΤΗΡΙΟΥ #4 «Προγραμματισμός Η/Υ» - Τετράδιο Εργαστηρίου #4 2 Γενικά Στο Τετράδιο #4 του Εργαστηρίου θα αναφερθούμε σε θέματα διαχείρισης πινάκων
Διαβάστε περισσότερα