Introduction to Information Retrieval
|
|
- Γαλήνη Καλαμογδάρτης
- 8 χρόνια πριν
- Προβολές:
Transcript
1 Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 2: Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης Βάση Εγγράφων ερώτημα ΣΑΠ Απάντηση 2 1
2 Κεφ. 1 Επανάληψη (σε μια σελίδα) Βασικά αντεστραμμένα ευρετήρια Δομή: Λεξικό και οι Λίστες Καταχωρήσεων Βασικό σημείο στην κατασκευή τους: Διάταξη (Sorting) Boolean επεξεργασία ερωτήσεων Τομή με βάση γραμμικό χρόνου συγχώνευση (merging) Απλές βελτιστοποιήσεις 3 Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων 4 2
3 Τι θα δούμε σήμερα; Περισσότερα για τα ευρετήρια Προ-επεξεργασία για τη δημιουργία του λεξιλογίου όρων Έγγραφα Tokenization Μονάδες εγγράφου Ποιους όρουςνα εισάγουμε στο ευρετήριο; Καταχωρήσεις Γρηγορότερη συγχώνευση: Λίστες Παράβλεψης (skip lists) Λίστες καταχωρήσεων με πληροφορίες θέσεων (Positional postings) και ερωτήματα φράσεων ( phrase queries) 5 Τα βασικά βήματα για την κατασκευή του ευρετηρίου 1. Συλλέγουμε τα έγγραφα που θέλουμε να συμπεριλάβουμε στο ευρετήριο Friends, Romans, countrymen. 2. Διαιρούμε το κείμενο σε γλωσσικά σύμβολα (token) Tokenizer 3. Γλωσσολογική προεπεξεργασία των συμβόλων 4. Ευρετηριάζουμε τα έγγραφα στα οποία περιλαμβάνεται κάθε όρος Token stream. Modified tokens. Linguistic modules Indexer Inverted index. Friends Romans Countrymen friend roman countryman friend roman countryman
4 Κεφ Parsing Λήψη της ακολουθίας χαρακτήρων ενός εγγράφου, ποια είναι τα θέματα; Αγγλικό κείμενο σε κωδικοποίηση ASCII, αλλά: Σε τι format? pdf/word/excel/html ή και zip Σε ποια γλώσσα? Σε διαφορετικές κωδικοποιήσεις(σύνολο χαρακτήρων/character set) Π.χ., UTF-8 Πως θα το καταλάβουμε; Πρόβλημα ταξινόμησης (classification) αλλά στην πράξη συνήθως επιλογή από το χρήστη, χρήση μεταδεδομένων αρχείου κλπ 7 Κεφ. 2.1 Complications: Format/language Τα έγγραφα για τα οποία κατασκευάζουμε το ευρετήρια μπορεί να είναι γραμμένα σε διαφορετικές γλώσσες το καθένα Στο ίδιο ευρετήριο μπορεί να υπάρχουν όροι από πολλές γλώσσες Πολλαπλές γλώσσες/format μπορεί να εμφανίζονται και σε ένα έγγραφο ή στα τμήματά του French στα Γαλλικά μεpdfattachmentστα Γερμανικά. 8 4
5 κεφ Μονάδα εγγράφου Ποια θεωρείται η μονάδα εγγράφου που βάζουμε στο ευρετήριο; Ένα αρχείο; Ένα ; (από τα πολλά στο mbox.) Ένα με5 συνημμένα έγγραφα (attachments); Αν το 1 συνημμένο σε μορφή zip; Ανάποδα, εργαλεία χωρίζουνε ένα αρχείο σε πολλά, (PPT ή LaTeX σε πολλαπλές HTML σελίδες) Αναλυτικότητα ευρετηριοποίησης(indexing granularity) Π.χ., ποια πληροφορία για ένα βιβλίο έχουμε στο ευρετήριο (σε επίπεδο κεφαλαίου, παραγράφου, πρότασης;) Ακρίβεια/ανάκληση 9 ΣΥΜΒΟΛΑ (TOKENS) ΚΑΙ ΟΡΟΙ (ΤERMS) 10 5
6 κεφ Tokenization Διαίρεση σε Σύμβολα Είσοδος: Friends, Romans, Countrymen Έξοδος: Tokens Friends Romans Countrymen Ένα σύμβολο (token)είναι μια ακολουθία από χαρακτήρες σε ένα κείμενο (που είναι ομαδοποιημένοι ως μια χρήσιμη σημασιολογικά μονάδα) Κάθε τέτοιο token είναι υποψήφιο για να εισαχθεί στο ευρετήριο μετά από περαιτέρω επεξεργασία Αλλά ποια είναι τα κατάλληλα tokens; Αρκεί να χωρίσουμε το κείμενο στα κενά και στα σημεία στίξης; Εξαρτάται από τη γλώσσα 11 Κεφ Tokenization: Θέματα Αγγλικά: απόστροφος(σύντμηση και γενική κτητική) Finland s capital Finland? Finlands? Finland s? Mr. O Neill thinks that the boys stories about Chile s capital aren t amusing Ενωτικό (hyphen): Hewlett-Packard Hewlett και Packard ως δύο tokens? state-of-the-artή the-hold-him-back-and-drag-him-away maneuver (να διασπάσουμε την ακολουθία;) co-education(χωρισμός φωνηέντων) lowercase, lower-case, lower case? Διάσπαση στο κενό σύμβολο San Francisco, Los Angeles York University vsnew York University (διάσπαση ονομάτων) αλλά πως μπορούμε να το καταλάβουμε; Ή και συνδυασμός San Francisco-Los Angeles Την ίδια πολιτική και στην ερώτηση και στο κείμενο Χρήστες πάντα το όταν θέλουν να εξεταστούν όλες οι περιπτώσεις Φράσεις (πχ lower, case, lowercase) 12 6
7 Κεφ Tokenization: Αριθμοί 3/12/91 Mar. 12, /3/91 55 B.C. B-52 My PGP key is 324a3df234cb23e (800) Συχνά περιέχουν ενδιάμεσα κενά Τα παλιότερα συστήματα μπορεί να μη έβαζαν στο ευρετήριο τους αριθμού Συχνά όμως είναι χρήσιμοι, πχ αναζήτηση για κώδικες λάθους error codes/stacktraces στο web (Χρήση n-grams) Ευρετηριοποίησητων μεταδεδομένωνξεχωριστά Ημερομηνία δημιουργίας, format, κλπ 13 Κεφ Tokenization: άλλες γλώσσες Γαλλικά L'ensemble (σύντμηση άρθρου) L? L? Le? Θα θέλαμε τα l ensembleνα ταιριάζει με το un ensemble Έως το 2003, δεν το υποστήριζε το Google Internationalization! Γερμανικά (οι σύνθετες λέξεις δεν διαχωρίζονται) Lebensversicherungsgesellschaftsangestellter(life insurance company employee) Τα Γερμανικά συστήματα ανάκτησης πληροφορίας χρησιμοποιούν μια μονάδα compound splitter Βελτίωση της απόδοσης κατά 15% 14 7
8 Κεφ Tokenization: άλλες γλώσσες Τα Κινέζικα και τα Ιαπωνικά δεν έχουν κενούς χαρακτήρες ανάμεσα στις λέξεις: 莎拉波娃现在居住在美国东南部的佛罗里达 Δεν υπάρχει πάντα μια μοναδική tokenization 15 Κεφ Tokenization: άλλες γλώσσες Κινέζικα: δεν υπάρχουν κενά 16 8
9 Κεφ Tokenization: άλλες γλώσσες Κινέζικα: είτε ως ακολουθία δύο λέξεων and και still ή ως μια λέξη monk 17 Κεφ Tokenization: άλλες γλώσσες Ακόμα πιο δύσκολο στα Ιαπωνικά, ανάμιξη πολλαπλών αλφάβητων Ημερομηνίες/ποσά σε πολλά formats フォーチュン 500 社は情報不足のため時間あた $500K( 約 6,000 万円 ) Katakana Hiragana Kanji Romaji Ο χρήστης μπορεί να διατυπώσει την ερώτηση μόνο σε hiragana! 18 9
10 Κεφ Tokenization: άλλες γλώσσες Γιαπωνέζικα - 4 διαφορετικά αλφάβητα : Chinese characters, hiragana syllabary for inflectional endings and functional words, katakanasyllabaryfortranscriptionofforeignwordsandotheruses, andlatin. Nospaces(asin Chinese). End usercanexpress query entirelyin hiragana! 19 Κεφ Tokenization: άλλες γλώσσες Τα Αραβικά και στα Εβραϊκά γράφονται από τα δεξιά προς τα αριστερά, αλλά με συγκεκριμένα τμήματα (πχ αριθμοί) να γράφονται από τα αριστερά στα δεξιά Οι λέξεις διαχωρίζονται αλλά τα γράμματα μέσα στις λέξεις περίπλοκοι χαρακτήρες start Algeria achieved its independence in 1962 after 132 years of French occupation. Με χρήσηunicode, η αποθηκευμένη μορφή είναι απλοποιημένη 20 10
11 Κεφ Tokenization: άλλες γλώσσες Αραβικά 21 Κεφ Stop words(διακόπτουσες λέξεις) Χρήση stop list, αποκλείουμε από το λεξικό τις ποιο κοινές λέξεις. Γιατί; Έχουν μικρό σημασιολογικό περιεχόμενο: a, an, and, are, as, at, be, by, for, from, has, he, in, is, it, its, of, on, that, the, to, was, were, will, with Είναι πάρα πολλές:~30% των καταχωρήσεων αφορούν τις πιο συχνές 30 λέξεις Ωστόσο η τάση είναι να αποφεύγονται: Καλές τεχνικές συμπίεσης οδηγούν στο να ελαχιστοποιούν το χώρο που χρειάζεται για την αποθήκευση τους Καλές τεχνικές για την επεξεργασία ερωτημάτων μειώνουν το κόστος στην εκτέλεσης μιας ερώτησης εξαιτίας των stop words. Είναι χρήσιμα για: Φράσεις: King of Denmark Τίτλους τραγουδιών, κλπ.: Let it be, To be or not to be Σχεσιακά ερωτήματα: flights to London 22 11
12 Κεφ Κανονικοποίηση(Token normalization) Χρειάζεται να «κανονικοποιήσουμε» τις λέξεις στο κείμενο αλλά και στις ερωτήσεις στην ίδια μορφή Π.χ, θέλουμε να ταιριάξουμε το U.S.A. aκαι USA Το αποτέλεσμα είναι ένας όρος(term). Ένας όρος είναι ένα (κανονικοποιημένος) τύπος λέξης που εισάγεται στο Λεξικό του Συστήματος Ανάκτησης Πληροφορίας 23 Κεφ Κανονικοποίηση(Token normalization) Συχνά ορίζουμε έμμεσα (equivalence classes)για τους όρους, π.χ., Σβήνουμε τις τελείες από έναν όρο U.S.A.,USA USA Σβήνουμε τα ενωτικά από έναν όρο anti-discriminatory, antidiscriminatory antidiscriminatory Αρκούν απλοί κανόνες αντιστοίχησης Μερικές φορές δεν είναι εύκολο να εντοπιστεί πότε χρειάζεται προσθήκη χαρακτήρων 24 12
13 Κεφ Κανονικοποίηση: άλλες γλώσσες 60% ιστοσελίδων στα Αγγλικά (2007) 1/3 των χρηστών του διαδικτύου - 10% του παγκόσμιου πληθυσμού μιλούν Αγγλικά Accents: π.χ., Γαλλικά résumé vs. resume. Umlauts: π.χ., Γερμανικά: Tuebingen vs. Tübingen Πρέπει να είναι ισοδύναμα Πιο βασικό κριτήριο: Πως προτιμούν οι χρήστες να γράφουν αυτές τις λέξεις στα ερωτήματά τους Ακόμα και σε γλώσσες που έχουν accents, οι χρήστες δεν τα πληκτρολογούν Οπότε συχνά είναι καλύτερο να κανονικοποιούμεή να αφαιρούμε το accent από ένα όρο Tuebingen, Tübingen, Tubingen Tubingen 25 Κεφ Κανονικοποίηση: άλλες γλώσσες Κανονικοποίησησε περιπτώσεις όπως οι ημερομηνίες 7 月 30 日 vs. 7/30 Japanese use of kana vs. Chinese characters Tokenization και οι κανονικοποίησημπορεί να εξαρτάται από τη γλώσσα όποτε μαζί με αναγνώριση γλώσσας Morgen will ich in MIT Is this German mit? Βασικό: Πρέπει το κείμενο που θα ευρετηριοποιηθείκαι οι όροι στο ερώτημα να κανονικοποιούνατι με τον ίο τρόπο 26 13
14 Κεφ Μετατροπή σε κεφαλαία/μικρά Μετατροπή όλων των γραμμάτων σε μικρά εξαίρεση: κεφαλαία στη μέση της πρότασης; e.g., General Motors Fedvs. fed Bush vs. bush Πρακτικά μετατροπή όλων σε μικρά, αφού συχνά οι χρήστες χρησιμοποιούν μικρά ανεξάρτητα της «σωστής» χρήσης των κεφαλαίων Παράδειγμα από τη Google: Δοκιμάστε την ερώτησηc.a.t. #1 αποτέλεσμα για cat 27 Κεφ Κανονικοποίηση σε όρους Μια εναλλακτική προσέγγιση στις λίστες ισοδυναμίας είναι να κρατάμε όλα τα μη κανονικοποιημέναtoken (ή και «Χειροποίητες» λίστες συνωνύμων ) Διεύρυνση κατά την ερώτηση (διάζευξη) Enter: windows Search: Windows, windows, window Enter: car Search: car automobile Εναλλακτικά, καταχωρούμε το έγγραφο στις λίστες καταχώρησης κάθε συνώνυμου (πχ έγγραφο που περιέχει το car καταχωρείται και στο automobile) 28 14
15 Κεφ Κανονικοποίηση σε όρους Μη συμμετρική διεύρυνση Ένα παράδειγμα όπου αυτό μπορεί να φανεί χρήσιμο Enter: window Search: window, windows Enter: windows Search: Windows, windows, window Enter: Windows Search: Windows Θεωρητικά πιο ισχυρό από τις λίστες αλλά λιγότερο αποδοτικό 29 Θησαυροί (Thesauri) και soundex Πως χειριζόμαστε τα συνώνυμα και τα ομώνυμα; Π.χ., κατασκευάζοντας λίστες ισοδυναμίας με το χέρι car = automobile color = colour Μπορούμε να το ξαναγράψουμε (rewrite) για να δημιουργήσουμε κλάσεις ισοδυναμίας όρων Καταχωρούμε το έγγραφο στις λίστες καταχώρησης κάθε συνώνυμου (πχ έγγραφο που περιέχει το carκαταχωρείται και στο automobile και το ανάποδο) Ή να διευρύνουμε το ερώτημα Όταν το ερώτημα περιέχει automobile, ψάξε και για το car Τι γίνεται με τα ορθογραφικά λάθη (spelling mistakes)? Μια προσέγγιση είναι το soundex, που σχηματίζει κλάσεις ισοδυναμίας από λέξεις βασισζόμενεσ σε ακουστικούς ευρυστικούς κανόνες phonetic heuristics 30 15
16 Κεφ Λημματοποίηση(Lemmatization) Περικοπή κλιτικών καταλήξεων και αναγωγή παράγωγων μορφών μιας λέξης σε κοινή βασική μορφή Π.χ., am, are,is be car, cars, car's, cars' car the boy's cars are different colors the boy car be different color Η λημματοποίησηπροϋποθέτει «ορθή» αναγωγή που χρησιμοποιεί λεξιλόγιο και μορφολογική ανάλυση των λέξεων και επιστρέφει τη βασική μορφή της λέξης, το λήμμα 31 Κεφ Stemming(Περιστολή) Αναγωγή των όρων στις ρίζες του πριν την εισαγωγή τους στο ευρετήριο Stemming υπονοεί ωμό κόψιμο των καταλήξεων εξαρτάται από τη γλώσσα π.χ., automate(s), automatic, automationόλα ανάγονται στο automat. for example compressed and compression are both accepted as equivalent to compress. for exampl compress and compress ar both accept as equival to compress 32 16
17 Κεφ Ο αλγόριθμος του Porter Ο πιο διαδεδομένος αλγόριθμος stemming για τα Αγγλικά Τα αποτελέσματα δείχνουν ότι είναι τουλάχιστον τόσο καλός όσο οι άλλες επιλογές Συμβάσεις+ 5 φάσεις περικοπών Οι φάσεις εφαρμόζονται διαδοχικά Κάθε φάση αποτελείται από ένα σύνολο κανόνων Παράδειγμα σύμβασης:επιλογή εκείνου του κανόνα καπό κάθε ομάδα που μπορεί να εφαρμοστεί στο επίθεμα με το μεγαλύτερο. 33 Κεφ Χαρακτηριστικοί κανόνες του Porter sses ss ies i ational ate tional tion Παράδειγμα caresses caress ponies poni caress caress cats cat Οι κανόνες χρησιμοποιούν ένα είδους μέτρου(measure)που ελέγχει το πλήθος των συλλαβών (m>1) EMENT replacement replac cement cement
18 Κεφ Άλλοι stemmers Υπάρχουν και άλλου π.χ., Lovinsstemmer Ένα πέρασμα, αφαίρεση της μεγαλύτερης κατάληξης (περίπου250 κανόνες) Πλήρη μορφολογική ανάλυση περιορισμένα οφέλη Βοηθά το stemming και οι άλλοι κανονικοποιητές; English: ανάμικτα αποτελέσματα. Βοηθά την ανάκληση αλλά βλάπτει την ακρίβεια operative (dentistry) oper operational (research) oper operating (systems) oper Οπωσδήποτε χρήσιμο για Ισπανικά, Γερμανικά, Φιλανδικά 30% βελτίωση για τα Φινλανδικά 35 κεφ Άλλοι stemmers: σύγκριση Sample text: Such an analysis can reveal features that are not easily visible from the variations in the individual genes and can lead to a picture of expression that is more biologically transparent and accessible to interpretation Porter stemmer: such an analysi can reveal featur that ar not easili visibl from the variatin the individugene and can lead to picturof express that is more biologtransparand access to interpret Lovinsstemmer: such an analyscan revefeaturthat arnot easvisfrom thvariin thindividugen and can lead to a picturof expresthat is morbiologtransparand accesto interpres Paicestemmer: such an analyscan rev feat that are not easy visfrom the vary in the individgen and can lead to a pictof express that is mor biolog transp and access to interpret 36 18
19 Κεφ Εξάρτηση από τη γλώσσα Πολλά από τα παραπάνω περιλαμβάνουν μετασχηματισμούς που Εξαρτώνται από τη γλώσσα και Συχνά από την εφαρμογή Με τη μορφή plug-in πριν τη διαδικασία δεικτοδότησης Ελεύθερου λογισμικού και εμπορικά 37 ΛΙΣΤΕΣ ΚΑΤΑΧΩΡΗΣΕΩΝ 38 19
20 Κεφ. 2.3 Βασική συγχώνευση Brutus Caesar Αν τα μήκη των λιστών είναι m και n, O(m+n) Can we do better? Yes (if index isn t changing too fast). 39 Επέκταση των λιστών με δείκτες παράλειψης skip pointers (κατά την κατασκευή του ευρετηρίου) Κεφ Γιατί? Για να αποφύγουμε (skip) καταχωρήσεις που δεν θα εμφανιστούν στο αποτέλεσμα της αναζήτησης. Πως? Που να τοποθετήσουμε αυτούς τους δείκτες? 40 20
21 Κεφ. 2.3 Επεξεργασία ερωτήματος με skip pointers Υποθέστε ότι έχουµε διατρέξει τις λίστες και έχουµε βρει το κοινό στοιχείο 8 σε κάθε λίστα, το ταιριάζουµε και προχωράµε Έχουµε 41 και είναι το µικρότερο. Αλλά ο δείκτης παράλειψης του 11 είναι το 31, οπότε µπορούµε να παραβλέψουµε τις ενδιάµεσες καταχωρήσεις 41 Κεφ. 2.3 Που να τοποθετήσουμε τους δείκτες? Tradeoff: Πολλοί δείκτες παράβλεψης μικρότερα διαστήματα παράβλεψης μεγαλύτερη πιθανότητα παράβλεψης. Πολλές συγκρίσεις για να παραλείψουμε δείκτες. Λιγότεροι δείκτες παράβλεψης λιγότερες συγκρίσεις δεικτών αλλά μεγαλύτερα διαστήματα λίγες επιτυχημένες παραβλέψεις
22 Κεφ. 2.3 Τοποθέτηση των δεικτών Απλώς ευριστικός: για καταχωρήσεις μήκους for L, χρησιμοποίησε L ισαπέχοντες δείκτες παράβλεψης. Αγνοεί την κατανομή των όρων της ερώτησης. Εύκολο αν το ευρετήριο είναι σχετικά στατικό; Δύσκολο αν το Lαλλάζει συνεχώς λόγω τροποποιήσεων. Βοηθούσε (λόγω πιο αργής CPU); Όχι τόσο με το νέο υλικό εκτός αν memory-based TοI/O κόστος για να φορτωθεί μια μεγαλύτερη λίστα καταχωρήσεων μπορεί να υπερβαίνει το κέρδος από τη γρηγορότερη συγχώνευση 43 Κεφ. 2.4 Ερωτήματα Φράσεων Θέλουμε να μπορούμε να απαντάμε σε ερωτήματα όπως stanford university ως φράση Οπότε η φράση I went to university at Stanford δεν αποτελεί ταίριασμα. Η έννοια των ερωτήσεων φράσεων έχει αποδειχθεί πολύ δημοφιλής και εύκολα κατανοητή από τους χρήστες, από τις λίγες μορφές αναζήτησης πέρα της βασικής που υιοθετήθηκαν (ερωτήσεις με αποτελούν το 10%) Many more queries are implicit phrase queries Για να τις υποστηρίξουμε, δεν αρκούν εγγραφές της μορφής <term : docs> 44 22
23 Μια πρώτη προσέγγιση: Ευρετήρια ζευγών λέξεων (Biword indexes) Εισήγαγε στο ευρετήριο κάθε διαδοχικό ζεύγος όρων στο κείμενο ως φράση Για παράδειγμα το κείμενο Friends, Romans, Countrymen παράγει τα biwords friends romans romans countrymen Κάθε τέτοιο biwordείναι τώρα ένας όρος του Κεφ Επιτρέπει την επεξεργασία ερωτημάτων φράσεων με δύο λέξεις. 45 Κεφ Μεγαλύτερες φράσεις Οι μεγαλύτερες φράσεις με κατάτμηση: stanforduniversity paloalto μπορεί να διασπαστεί ως ένα Boolean ερώτημα με biwords: stanford university AND university palo AND palo alto Χωρίς να εξετάσουμε τα έγγραφα, δεν μπορούμε να εξακριβώσουμε ότι τα έγγραφα που ικανοποιούν το παραπάνω ερώτημα περιέχουν τη φράση. false positives! 46 23
24 Κεφ Διευρυμένα biwords Επεξεργασία του κειμένου και εκτέλεση part-of-speechtagging (POST). Ομαδοποιούμε τους όρους (έστω) σε ουσιαστικά-nouns (N) και άρθρα/προθέσεις (X). Διευρυμένο biword: κάθε ακολουθία όρων της μορφής NX*N Κάθε τέτοιο διευρυμένο biwordείναι τώρα ένας όρος του λεξικού Παράδειγμα: catcher in the rye N X X N Επεξεργασία ερωτήματος: χώρισε το σε Nκαι X Διαίρεσε την ερώτηση σε διευρυμένα biwords Αναζήτησε στο ευρετήριο το: catcher rye 47 Κεφ Θέματα False positives Δημιουργούνται πολύ μεγάλα λεξικά Δεν είναι δυνατόν για μεγαλύτερες φράσεις από 2 λέξεις, μεγάλα ακόμα και για αυτούς Τα ευρετήρια biwordδεν είναι η συνήθης λύση (για όλα τα biwords) αλλά χρησιμοποιούνται ως μέρος πιο σύνθετων λύσεων 48 24
25 Λύση 2: Positional indexes(ευρετήρια Θέσεων) Κεφ Στις καταχωρήσεις, με κάθε όρο, αποθηκεύουμε και τη θέση (θέσεις) όπου εμφανίζονται tokens του: <term, number of docs containing term; doc1: position1, position2 ; doc2: position1, position2 ; etc.> 49 Κεφ Παράδειγμα <be: ; 1: 7, 18, 33, 72, 86, 231; 2: 3, 149; 4: 17, 191, 291, 430, 434; 5: 363, 367, > Ποιο από τα έγγραφα 1,2,4,5 µπορεί να περιέχει το to be or not to be? Για ερωτήματα φράσεων, χρησιμοποιούμε έναν αλγόριθμο φράσεων αναδρομικά στο επίπεδο εγγράφου Αλλά τώρα δεν αρκεί η ισότητα 50 25
26 Κεφ Επεξεργασία ερωτήματος φράσης Βρες τις εγγραφές του ευρετηρίου για κάθε διαφορετικό όρο: to, be, or, not. Συγχώνευσε τιςdoc:positionλίστες για απαρίθμηση όλων των πιθανών θέσεων του to be or not to be. to: be: 2:1,17,74,222,551; 4:8,16,190,429,433; 7:13,23,191;... 1:17,19; 4:17,191,291,430,434; 5:14,19,101;... Η ίδια γενική μέθοδος για ερωτήματα γειτονικότητας(proximity searches) 51 Ερωτήματα γειτονικότητας(proximity queries Κεφ LIMIT! /3 STATUTE /3 FEDERAL /2 TORT Πάλι, /kmeans within kwords of. Μπορούμε να χρησιμοποιήσουμε ευρετήρια θέσεων αλλά όχι ευρετήρια biword
27 Κεφ Μέγεθος ευρετηρίου Μπορούμε να συμπιέσουμε τα position values/offsets Παρόλα αυτά, σημαντική αύξηση του χώρου αποθήκευση των λιστών καταχωρήσεων Αλλά χρησιμοποιείται ευρέως Η σχετική θέση των όρων χρησιμοποιείται και εμμέσως για την κατάταξη των αποτελεσμάτων. 53 Κεφ Μέγεθος ευρετηρίου Χρειάζεται μια εγγραφή για κάθε εμφάνιση στο έγγραφο αντί για μια ανά έγγραφο, Το μέγεθος του ευρετηρίου εξαρτάται από το μέσο μέγεθος του αρχείου Γιατί? Μέσο μέγεθος web σελίδας <1000 όροι SEC filings, books, even some epic poems πάνω από 100,000 όρους Έστω ένας όρος με συχνότητα 0.1% Document size ,000 Postings 1 1 Positional postings
28 Κεφ Rules of thumb Ένα ευρετήριο θέσεων είναι 2 4,μεγαλύτερο από ένα απλό ευρετήριο Το μέγεθος του είναι το 35 50% του όγκου του αρχικού κειμένου Αυτά αφορούν την Αγγλική (και παρόμοιες) γλώσσες 55 Κεφ Συνδυαστικές μέθοδοι Αυτές οι δυο προσεγγίσεις μπορεί να συνδυαστούν Για συγκεκριμένες φράσεις ( Michael Jackson, Britney Spears )οι συνεχείς συγχώνευση καταχωρήσεων ευρετηρίου θέσεων δεν είναι αποδοτική Ακόμα περισσότερο για φράσεις όπως The Who 56 28
29 ΤΕΛΟΣ 2 ου Μαθήματος Ερωτήσεις? Χρησιμοποιήθηκε κάποιο υλικό των: Pandu Nayak and Prabhakar Raghavan, CS276:Information Retrieval and Web Search(Stanford) 57 29
Information Retrieval
Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων. Κεφ. 1 Τι είναι η «Ανάκτηση Πληροφορίας»;
Information Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων. Τι είναι η Ανάκτηση Πληροφορίας Επεξεργασία πληροφορίας από έγγραφα (web σελίδες,
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων. Κεφ. 1 Βασικά Βήματα (προεπεξεργασία) Σύλλεξε τα έγγραφα Κατασκεύασε βοηθητικές
2. Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων. Ορισμός Ανάκτηση Πληροφορίας (Information Retrieval) - (IR) Μεγάλες συλλογές
Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university
Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 3η: 01/03/2017 1 Dictionary και Postings 2 Θυμηθείτε τον τρόπο δημιουργίας του απλοϊκού ευρετηρίου Έγγξαθα πξνο επξεηεξηνπνίεζε
Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός
Ανάκληση Πληροφορίας Information Retrieval Διδάσκων Δημήτριος Κατσαρός Διάλεξη 3η: 19/02/2014 1 Dictionary και Postings 2 Recall basic indexing pipeline Documents to be indexed. Friends, Romans, countrymen.
Information Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα (υποστήριξη *) 1 Ch. 2 Επανάληψη προηγούμενης
Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός
Ανάκληση Πληροφορίας Information Retrieval Διδάσκων Δημήτριος Κατσαρός Διάλεξη 5η: 26/02/2014 1 Phrase queries 2 Phrase queries Want to answer queries such as stanford university as a phrase Thus the sentence
ΕΠΛ660. Ανάκτηση Πληροφοριών και. Μάριος. ικαιάκος και Γιώργος Πάλλης
Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης Μάριος. ικαιάκος και Γιώργος Πάλλης Στο προηγούµενο µάθηµα Overview of course topics Introduction to Information Retrieval Basic inverted indexes: Dictionary
Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 5η: 06/03/2017 1 WILD-CARD Ερωτήματα 2 Sec. 3.2 Ερωτήματα με χαρακτήρες wild-card: * mon*: να βρεθούν όλα τα έγγραφα που περιέχουν
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 1η: 14/02/2007 1 Εισαγωγή στο µάθηµα & Εισαγωγή
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Εισαγωγή στο µάθηµα. Εισαγωγή στην Ανάκτηση Πληροφορίας. Απαιτήσεις του µαθήµατος
Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 1η: 14/02/2007 1 Εισαγωγή στο µάθηµα & Εισαγωγή
SilverPlatter WebSPIRS 4.1.
WebSPIRS 4.1. Η υπηρεσία WebSPIRS από τη SilverPlatter αποτελεί ένα φιλικό εργαλείο πρόσβασης και αναζήτησης σε περιεχόμενα βάσεων δεδομένων. Η Βιβλιοθήκη και Κέντρο Πληροφόρησης του Πανεπιστημίου Θεσσαλίας
Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληπουοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Γιάλεξη 2η: 23/02/2016 1 Μεγάλες συλλογές (corpora) Έστωσαν N = 1M έγγραφα, το κάθε ένα με περίπου 1K όρους Avg 6 bytes/term, συμπεριλαμβανόμενων
Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία
ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων
Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας
Ανάκτηση Δεδομένων (Information Retrieval)
Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας
Επεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική
Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε
Επεξεργασία Ερωτήσεων
Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων
ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.
ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση. 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή Συμπίεση 2 ΣΤΑΤΙΣΤΙΚΑ
Information Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης Βάση
Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ
Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ Το Εθνικό Αρχείο Διδακτορικών Διατριβών (EAΔΔ) συγκεντρώνει τις διδακτορικές διατριβές που έχουν εκπονηθεί σε ελληνικά πανεπιστήμια ή σε πανεπιστήμια
Επεξεργασία Ερωτήσεων
Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008
Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 6η: 08/03/2016 1 Διόρθωση πληκτρολόγησης 2 Sec. 3.3 Διόρθωση πληκτρολόγησης Δυο κύριες χρήσεις Διόρθωση εγγράφων που θα εισαχθούν
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ
HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems
HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη
ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ
ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ Ο Οργανισμός Βιομηχανικής Ιδιοκτησίας (Ο.Β.Ι.) ιδρύθηκε το 1987 (Ν.1733/1987), είναι νομικό πρόσωπο ιδιωτικού δικαίου, οικονομικά ανεξάρτητο και διοικητικά αυτοτελές.
Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου
Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε
ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων
Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.
Information Retrieval
Introduction to Information Retrieval MYE003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης
Δημιουργία Ευρετηρίων Συλλογής Κειμένων
Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες
MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole
MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα
MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole
MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P
Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές
Αναζήτηση στον Ιστό. Πληκτρολόγηση του URL: στο πλαίσιο αναζήτησης του Mozilla Firefox. Enter ή κλικ στο Αναζήτηση
Αναζήτηση στον Ιστό Χρήση μιας μηχανής αναζήτησης Επιλογή συγκεκριμένης μηχανής αναζήτησης Είναι συχνό το φαινόμενο να θέλει ο χρήστης να εντοπίσει πληροφορίες στο διαδίκτυο και να μην ξέρει που να κοιτάξει.
MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole
MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα
ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο
Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2009-2010 ΑΣΚΗΣΗ Α Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Τα ανεστραμμένα αρχεία αποτελούν μια βασική μορφή ευρετηρίου και μας επιτρέπουν να εντοπίσουμε
Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών
Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 1. Ανάκτηση Boole Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων Γνωριμία ιδάσκων: Χρήστος
ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ
ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ Δρ. Κουζαπάς Δημήτριος Πανεπιστήμιο Κύπρου - Τμήμα Πληροφορικής Μηχανές Αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες
ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.
ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α 2 ειδήσεις από ελληνικές εφημερίδες: 1. Τα Νέα, 13-4-2010, Σε ανθρώπινο λάθος αποδίδουν τη συντριβή του αεροσκάφους, http://www.tanea.gr/default.asp?pid=2&artid=4569526&ct=2 2. Τα Νέα,
Ανάκτηση Πληροφορίας
Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική
Εργαστήριο Σημασιολογικού Ιστού
Εργαστήριο Σημασιολογικού Ιστού Ενότητα 8: Εισαγωγή στη SPARQL Βασική Χρήση Μ.Στεφανιδάκης 3-5-2015. Η γλώσσα ερωτημάτων SPARQL Ερωτήσεις (και ενημερώσεις) σε σετ δεδομένων RDF Και σε δεδομένα άλλης μορφής
1 Συστήματα Αυτοματισμού Βιβλιοθηκών
1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία
Ανάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό
Πλοήγηση και Αναζήτηση
Πλοήγηση και Αναζήτηση Περιήγηση Το Eprints παρέχει πολλούς διαφορετικούς τρόπους να επιμεριστεί το καταθετήριο σε διαφορετικές συλλογές και να προσεγγίζεται το περιεχόμενό του από διαφορετικές οπτικές
Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl
ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το
Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων Kεφάλαιο 13 Ανάλυση δεδομένων...
Μέρος 2 Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων... 211 Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων... 241 Kεφάλαιο 13 Ανάλυση δεδομένων... 257 Kεφάλαιο 14 Συναρτήσεις Μέρος Β... 285 Kεφάλαιο 15 Ευρετήριο
Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 1η: 20/02/2017 1 Ειζαγωγή ζηο μάθημα & Ειζαγωγή ζηην Ανάκηηζη Πληροθορίας 2 Διδακτικό βοήθημα 1 Καλύπηει ηο ανηικείμενο ηοσ
Διαχείριση Βάσης Δεδομένων (dbadmin)
Published on PRISMA Win Help - Megasoft (http://docs.megasoft.gr) Home > Εμπορική Διαχείριση > Διαχείριση Βάσης Δεδομένων (dbadmin) Διαχείριση Βάσης Δεδομένων (dbadmin) Μέσα από τη διαχείριση βάσης δεδομένων
Information Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΑ. ΕΤΟΣ 2012-13 Ι ΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής, Τοµέας Τεχνολογίας
Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Microsoft Excel Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26
Περιεχόμενα Λίγα λόγια από το συγγραφέα... 7 Κεφάλαιο 1: Microsoft Excel 2002... 9 Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26 Κεφάλαιο 3: Δημιουργία νέου βιβλίου εργασίας και καταχώριση δεδομένων...
Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη
Βελτιστοποίηση ερωτημάτων Βάσεις Δεδομένων Διδάσκων: Μαρία Χαλκίδη με βάση slides από A. Silberschatz, H. Korth, S. Sudarshan, Database System Concepts, 5 th edition Εισαγωγή (1) Εναλλακτικοί τρόποι για
METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης
METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης Βιβλιοθήκη & Κέντρο Πληροφόρησης, Πανεπιστημίου Λευκωσίας E-mail: libithelp@unic.ac.cy Τηλ: 22444772 Έκδοση: Μάρτιος 2013 (ES, GC, KP)
ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση
ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή
ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση
ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή
Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων
Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)
Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός
Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 7η: 21/03/2016 1 Ch. 4 Κατασκευή του ευρετηρίου Πώς κατασκευάζουμε το ευρετήριο; Ποιες στρατηγικές μπορούμε ν ακολουθήσουμε
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 19/2/213 1 ο ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ Αντικείμενο του Μαθήματος 2 Εφαρμογές και εργαλεία ΓλωσσικήςΤεχνολογίας με στόχο τη βελτίωση της πρωτογενούς
Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων
Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :
Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463
ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ COMPUTER SCIENCE DEPARTMENT UNIVERSITY OF CRETE Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 4 η Σειρά Ασκήσεων Ψαράκη Μαρία-Γεωργία ΜΕΤ 556 psaraki@csd.uoc.gr Εαρινό Εξάμηνο 2008-2009
ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης
ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους
Information Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4: Ανάκτηση Ανεκτική στα Σφάλματα 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Δομές δεδομένων για Λεξικά
A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ
A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ 1 Βάση Δεδομένων: Με το όρο Βάση Δεδομένων εννοούμε ένα σύνολο δεδομένων που είναι οργανωμένο
Introduction to Information Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης Βάση
ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή
Ευρετηρίαση ΜΕΡΟΣ ΙΙ
Ευρετηρίαση ΜΕΡΟΣ ΙΙ Ανάκτηση Πληροφορίας 2009-2010 1 Content Processing Boolean Queries Faster posting lists with skip pointers Phrase and Proximity Queries Biwords Positional Indexes Dictionary Wild-Card
Τυπικές χρήσεις της Matlab
Matlab Μάθημα 1 Τι είναι η Matlab Ολοκληρωμένο Περιβάλλον Περιβάλλον ανάπτυξης Διερμηνευμένη γλώσσα Υψηλή επίδοση Ευρύτητα εφαρμογών Ευκολία διατύπωσης Cross platform (Wintel, Unix, Mac) Τυπικές χρήσεις
Ανάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια
Τι (άλλο) θα δούμε σήμερα;
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;
Information Retrieval
Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Συμπίεση Ευρετηρίου 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Κατασκευή ευρετηρίου Στατιστικά
Ανάκτηση Πληροφορίας
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών
Ανάκτηση Πληροφορίας
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό
Το εσωτερικό ενός Σ Β
Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων
Η έρευνα και το διαδίκτυο:
Η έρευνα και το διαδίκτυο: εργαλεία, μέθοδοι, προοπτικές ΓΕΩΡΓΙΟΣ Κ. ΜΙΚΡΟΣ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Έρευνα: ορισμός «Δημιουργική εργασία η οποία εκπονείται σε συστηματική βάση για
Ανάκτηση Πληροφορίας (Information Retrieval IR)
Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου
Διαγραφή Επιλέγετε Διαγραφή για να διαγράψετε μία ήδη υπάρχουσα διαδικασία εισαγωγής ASCII
Published on PRISMA Win Help - Megasoft (http://docs.megasoft.gr) Home > Διαχείριση Βάσης Δεδομένων (dbadmin) > Αρχεία Αρχεία Εισαγωγή από αρχείο ASCII Με την εργασία αυτή έχετε την δυνατότητα να εισάγετε
Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή
Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01
Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1
Κεφ.11: Ευρετήρια και Κατακερματισμός
Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση
ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης
ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους
Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1
Δυναμικά Πολυεπίπεδα Ευρετήρια (Β-δένδρα) Μ.Χατζόπουλος 1 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ.Χατζόπουλος 2 Δένδρο αναζήτησης είναι ένας ειδικός τύπος δένδρου που χρησιμοποιείται για να καθοδηγήσει την αναζήτηση μιας
ΗΥ-150. Προγραμματισμός
ΗΥ-150 Εντολές Ελέγχου Ροής Σειριακή εκτέλεση εντολών Όλα τα προγράμματα «γράφονται» χρησιμοποιώντας 3 είδη εντολών: Σειριακές εντολές (sequential built in C) Εντολές απόφασης (if, if/else, switch) Περιλαμβάνει
Δυναμικός Κατακερματισμός
Δυναμικός Κατακερματισμός Καλό για βάση δεδομένων που μεγαλώνει και συρρικνώνεται σε μέγεθος Επιτρέπει τη δυναμική τροποποίηση της συνάρτησης κατακερματισμού Επεκτάσιμος κατακερματισμός μια μορφή δυναμικού
Κεφάλαιο 4. Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1,
Κεφάλαιο 4 Διαίρει και Βασίλευε (Divide and Conquer) Παύλος Εφραιμίδης V1.1, 2015-01-19 Χρησιμοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne. 1 Διαίρει και Βασίλευε (Divide-and-Conquer) Διαίρει-και-βασίλευε
ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΕΡΩΤΗΜΑΤΟΣ
ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΕΡΩΤΗΜΑΤΟΣ Η συνθήκη WHERE βάζει περιορισμούς στις εγγραφές που επιστρέφονται. Ο όρος ORDER BY ταξινομεί τις εγγραφές που επιστρέφονται. Παράδειγμα: SELECT * FROM table_name ORDER
Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1
Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2018-2019 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας
ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ C ΣΕΙΡΑ 1 η
Δημοκρίτειο Πανεπιστήμιο Θράκης Πολυτεχνική Σχολή Τμήμα Μηχανικών Παραγωγής & Διοίκησης Ακαδ. έτος 2015-2016 Τομέας Συστημάτων Παραγωγής Εξάμηνο Β Αναπληρωτής Καθηγητής Στέφανος Δ. Κατσαβούνης ΜΑΘΗΜΑ :
Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι
Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος
Browsers. Λειτουργικότητα και Παραμετροποίηση
Browsers Λειτουργικότητα και Παραμετροποίηση 1 Πίνακας περιεχομένων Γενική περιγραφή... 3 Γενικά... 3 Ποιο αναλυτικά τα μέρη ενός browser... 4 Φίλτρα αναζήτησης... 4 Σενάρια αναζήτησης... 4 Όψεις εμφάνισης