ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων."

Transcript

1 ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

2 Τι είναι η Ανάκτηση Πληροφορίας Επεξεργασία πληροφορίας από έγγραφα (web σελίδες, βιβλία, αρχεία στον υπολογιστή, εμαιλς, posts σε κοινωνικά δίκτυα, αξιολογήσεις προϊόντων (reviews) νομικά/ιατρικά κλπ) User Generated Content (UGC) 2

3 Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα ΣΑΠ Σύστημα Ανάκτησης Πληροφορία Συσταδοποίηση Tαξινόμηση Συστάσεις (recommendations Απάντηση Search engines Desktop search search Social search 3

4 Κεφ. 1 Βασικές έννοιες Συλλογή από έγγραφα (corpus) ανάκτηση των εγγράφων που περιέχουν πληροφορία που είναι συναφής (relevant) με την ανάγκη πληροφόρησης (information need) του χρήστη Αποτέλεσμα σε διάταξη με βάση τη συνάφεια Αξιολόγηση: (πέρα από την απόδοση (efficiency) αποτελεσματικότητα (effectiveness) Ακρίβεια/Ανάκληση 4

5 Κεφ. 1 Βασικά Βήματα (προεπεξεργασία) Σύλλεξε τα έγγραφα Κατασκεύασε βοηθητικές δομές ευρετήρια (λειτουργία) Επεξεργασία ερωτήσεων Αρχικά θα δούμε την απλούστερη μορφή: Boolean retrieval: όλα τα έγγραφα που περιέχουν τους όρους της ερώτησης Ερωτήσεις είναι and/or/not όρων 5

6 Επανάληψη: Παράδειγμα Συλλογή εγγράφων Έγγραφο 1 (d1) : Summer holidays in Crete. Έγγραφο 2 (d2) : Crete is an island in Greece. Έγγραφο 3 (d3) : Summer is the best season of the year. Έγγραφο 4 (d4) : Holidays in the island of Crete. Έγγραφο 5 (d5): Greece has many islands. Όροι (terms) Έγγραφα Πίνακας σύμπτωσης (incident matrix) Ανεστραμμένο ευρετήριο (inverted index) Λεξικό (λεξιλόγιο) λίστα καταχωρήσεων

7 Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων 7

8 Τι θα δούμε σήμερα; Προ-επεξεργασία για τη δημιουργία του λεξιλογίου όρων Έγγραφα Tokenization Μονάδες εγγράφου Ποιους όρους εισάγουμε στο ευρετήριο; Καταχωρήσεις Γρηγορότερη συγχώνευση: Λίστες Παράβλεψης (skip lists) Λίστες καταχωρήσεων με πληροφορίες θέσεων (Positional postings) και ερωτήματα φράσεων ( phrase queries) 8

9 Ακολουθία εγγράφων Έγγραφο 1 (d1) : Το Παν. Ιωαννίνων ιδρύθηκε το Έγγραφο 2 (d2) : Τα Ιωάννινα είναι η μεγαλύτερη πόλη της Ηπείρου. Έγγραφο 3 (d3) : Η πτυχιακή εξεταστική στο Τμήμα Μηχ. Η/Υ και Πληροφορικής θ αρχίσει την 1 η Φεβρουαρίου. Έγγραφο 4 (d4) : Οι μαθητές των Ιωαννίνων αρίστευσαν στις εξετάσεις για την εισαγωγή στα Πανεπιστήμια. Έγγραφο 5 (d5): Το 2017 ιδρύθηκε Πολυτεχνική Σχολή στο ΠΙ. Τους όρους που θα εισάγουμε στο ευρετήριο

10 Τα βασικά βήματα για την κατασκευή του ευρετηρίου 1. Συλλέγουμε τα έγγραφα που θέλουμε να συμπεριλάβουμε στο ευρετήριο Friends, Romans, countrymen. 2. Διαιρούμε το κείμενο σε γλωσσικά σύμβολα (token) 3. Γλωσσολογική προεπεξεργασία των συμβόλων Token stream. Modified tokens (terms) 4. Ευρετηριάζουμε τα έγγραφα στα οποία περιλαμβάνεται κάθε όρος Tokenizer Linguistic modules Indexer Inverted index. Friends Romans Countrymen friend roman countryman friend roman countryman

11 Κεφ Parsing Λήψη της ακολουθίας χαρακτήρων ενός εγγράφου Ποια είναι τα θέματα; Σε τι format? pdf/word/excel/html ή και zip Αν σε δυαδική μορφή - χρήση αποκωδικοποιητή (decoder) ώστε ακολουθία χαρακτήρων Σε ποια γλώσσα? Σε διαφορετικές κωδικοποιήσεις (σύνολο χαρακτήρων/character set) Π.χ., UTF-8 11

12 Κεφ Parsing Να αγνοήσουμε τα ειδικά σύμβολα (mark up) JSON, XML &amp -> & (XML) 12

13 Κεφ. 2.1 Complications: Format/language Τα έγγραφα για τα οποία κατασκευάζουμε το ευρετήρια μπορεί να είναι γραμμένα σε διαφορετικές γλώσσες το καθένα Στο ίδιο ευρετήριο μπορεί να υπάρχουν όροι από πολλές γλώσσες Πολλαπλές γλώσσες/format μπορεί να εμφανίζονται και σε ένα έγγραφο ή στα τμήματά του French στα Γαλλικά με pdf attachment στα Γερμανικά. Πως θα το καταλάβουμε; Πρόβλημα ταξινόμησης (classification) αλλά στην πράξη συνήθως επιλογή από το χρήστη, χρήση μετα-δεδομένων αρχείου κλπ 13

14 Κεφ. 2.1 Όχι πάντα γραμμική ακολουθία χαρακτήρων Αραβικά: δισδιάστατη ακολουθία χαρακτήρων και χαρακτήρες σε μεικτή σειρά (φωνήεντα διακριτά σημεία πάνω και κάτω από τα γράμματα) Από δεξιά στα αριστερά Πιθανή απουσία φωνηέντων Η αντίστοιχη ακουστική γραμμική ακολουθία 14

15 κεφ Μονάδα εγγράφου Ποια θεωρείται η μονάδα εγγράφου που βάζουμε στο ευρετήριο; Ένα αρχείο; Ένα ; (από τα πολλά στο ένα αρχείο του mbox) Ένα με 5 συνημμένα έγγραφα (attachments); Αν το 1 συνημμένο σε μορφή zip; Ανάποδα: εργαλεία χωρίζουνε ένα αρχείο σε πολλά, (PPT ή LaTeX σε πολλαπλές HTML σελίδες) ίσως ένωση τους Αναλυτικότητα ευρετηρίασης (indexing granularity) Π.χ., ποια πληροφορία για ένα βιβλίο έχουμε στο ευρετήριο (σε επίπεδο κεφαλαίου, παραγράφου, πρότασης;) Ακρίβεια/ανάκληση Προβλήματα με μεγάλα έγγραφα -> θα δούμε πληροφορία εγγύτητας 15

16 ΣΥΜΒΟΛΑ (Tokens) και ΟΡΟΙ (ΤERMS) 16

17 κεφ Tokenization Διαίρεση σε Σύμβολα Είσοδος: Friends, Romans, Countrymen Έξοδος: Tokens Friends Romans Countrymen Ένα σύμβολο (token) είναι μια ακολουθία από χαρακτήρες σε ένα κείμενο (που είναι ομαδοποιημένοι ως μια χρήσιμη σημασιολογικά μονάδα) Κάθε τέτοιο token είναι υποψήφιο για να εισαχθεί στο ευρετήριο μετά από περαιτέρω επεξεργασία 17

18 κεφ Tokenization Διαίρεση σε Σύμβολα Token (λεκτική μονάδα) Type (τύπος) μία ομάδα (κλάση) από tokens που αποτελείται από την ίδια ακολουθία χαρακτήρων Term (όρος) συχνά κανονικοποιημένος τύπος που εισάγεται στο ευρετήριο του συστήματος Παράδειγμα: to sleep perchance to dream 18

19 κεφ Tokenization Διαίρεση σε Σύμβολα Αλλά ποια είναι τα κατάλληλα tokens; Αρκεί να χωρίσουμε το κείμενο στα κενά και στα σημεία στίξης; Εξαρτάται από τη γλώσσα 19

20 Κεφ Tokenization: Θέματα Αγγλικά: απόστροφος (σύντμηση και γενική κτητική) Finland s capital Finland? Finlands? Finland s? Mr. O Neill thinks that the boys stories about Chile s capital aren t amusing καθορίζουν ποιες Boolean ερωτήσεις θα απαντούν Πχ neill AND capital, o neill AND capital Την ίδια πολιτική και στην ερώτηση και στο κείμενο 20

21 Κεφ Tokenization: Θέματα Ενωτικό (hyphen): (συνένωση λέξεων ως επωνυμίες) Hewlett-Packard Hewlett και Packard ως δύο tokens? (ομαδοποίηση λέξεων) state-of-the-art ή the-hold-him-back-and-drag-him-away maneuver (να διασπάσουμε την ακολουθία;) (χωρισμός φωνηέντων) co-education (ως μια λέξη;) lowercase, lower-case, lower case? Διάσπαση στο κενό σύμβολο San Francisco, Los Angeles York University vs New York University (διάσπαση ονομάτων) αλλά πως μπορούμε να το καταλάβουμε; Συχνά και τα δύο white space, white-space και whitespace Επίσης, ημερομηνίες και αριθμοί τηλεφώνου Ή και συνδυασμός San Francisco-Los Angeles Την ίδια πολιτική και στην ερώτηση και στο κείμενο Μερικά συστήματα ζητούν οι χρήστες πάντα το όταν θέλουν να εξεταστούν όλες οι περιπτώσεις Αντιμετώπιση ως φράσεις (πχ lower, case, lowercase) 21

22 Κεφ /12/91 Mar. 12, /3/91 55 B.C. B-52 My PGP key is 324a3df234cb23e Tokenization: Αριθμοί (800) Συχνά περιέχουν ενδιάμεσα κενά Τα παλιότερα συστήματα μπορεί να μη έβαζαν στο ευρετήριο τους αριθμούς Συχνά όμως είναι χρήσιμοι, πχ αναζήτηση για κώδικες λάθους error codes/stacktraces στο web, IP διευθύνσεις, package tracking numbers (Χρήση n-grams) Ευρετηριοποίηση των μεταδεδομένων ξεχωριστά Ημερομηνία δημιουργίας, format, κλπ 22

23 Κεφ Tokenization Επίσης ειδικές λέξεις M*A*S*H C++ C# Αλλά και και web, IP διευθύνσεις, κλπ δε θέλουμε να τις «σπάσουμε» 23

24 Κεφ Tokenization: άλλες γλώσσες Γαλλικά L'ensemble (σύντμηση άρθρου) L? L? Le? Θα θέλαμε τα l ensemble να ταιριάζει με το un ensemble Έως το 2003, δεν το υποστήριζε το Google Internationalization! Γερμανικά (οι σύνθετες λέξεις δεν διαχωρίζονται) Lebensversicherungsgesellschaftsangestellter (life insurance company employee) Τα Γερμανικά συστήματα ανάκτησης πληροφορίας χρησιμοποιούν μια μονάδα compound splitter Βελτίωση της απόδοσης κατά 15% 24

25 Κεφ Tokenization: άλλες γλώσσες Κινέζικα: δεν υπάρχουν κενά 25

26 Κεφ Tokenization: άλλες γλώσσες Τα Κινέζικα και τα Ιαπωνικά δεν έχουν κενούς χαρακτήρες ανάμεσα στις λέξεις: 莎拉波娃现在居住在美国东南部的佛罗里达 Χωρισμός σε λέξεις (word segmentation) Διάφορες τεχνικές: χρήση λεξικού και ταίριασμα της μεγαλύτερης ακολουθίας, μηχανική μάθηση Αλλά δεν υπάρχει πάντα μια μοναδική tokenization 26

27 Κεφ Tokenization: άλλες γλώσσες Κινέζικα: είτε ως ακολουθία δύο λέξεων and και still ή ως μια λέξη monk 27

28 Κεφ Tokenization: άλλες γλώσσες Αντί για ευρετηριοποίηση σε επίπεδο λέξεων ευρετηριοποίηση όλων των ακολουθιών k-χαρακτήρων (k-grams) 28

29 Κεφ Tokenization: άλλες γλώσσες Ακόμα πιο δύσκολο στα Ιαπωνικά, ανάμιξη πολλαπλών αλφάβητων Ημερομηνίες/ποσά σε πολλά formats フォーチュン 500 社は情報不足のため時間あた $500K( 約 6,000 万円 ) Katakana Hiragana Kanji Romaji Ο χρήστης μπορεί να διατυπώσει την ερώτηση μόνο σε hiragana! 29

30 Κεφ Tokenization: άλλες γλώσσες Γιαπωνέζικα - 4 διαφορετικά αλφάβητα : Chinese characters, hiragana syllabary for inflectional endings and functional words, katakana syllabary for transcription of foreign words and other uses, and latin δεν υπάρχουν κενά (όπως στα Κινέζικα). Οι χρήστες μπορεί μια ερώτηση μόνο σε hiragana 30

31 Κεφ Tokenization: άλλες γλώσσες Τα Αραβικά και στα Εβραϊκά γράφονται από τα δεξιά προς τα αριστερά, αλλά με συγκεκριμένα τμήματα (πχ αριθμοί) να γράφονται από τα αριστερά στα δεξιά Οι λέξεις διαχωρίζονται αλλά τα γράμματα μέσα στις λέξεις περίπλοκοι χαρακτήρες start Algeria achieved its independence in 1962 after 132 years of French occupation. Με χρήση Unicode, η αποθηκευμένη μορφή είναι απλοποιημένη 31

32 Κεφ Stop words (Διακόπτουσες λέξεις) Χρήση stop list, αποκλείουμε από το λεξικό τις ποιο κοινές λέξεις (με βάση τη συχνότητα συλλογής (collection frequency)). Γιατί; Έχουν μικρό σημασιολογικό περιεχόμενο: a, an, and, are, as, at, be, by, for, from, has, he, in, is, it, its, of, on, that, the, to, was, were, will, with Είναι πάρα πολλές:~30% των καταχωρήσεων αφορούν τις πιο συχνές 30 λέξεις 32

33 Κεφ Stop words (Διακόπτουσες λέξεις) Ωστόσο η τάση είναι να μη χρησιμοποιούνται λίστες: Καλές τεχνικές συμπίεσης οδηγούν στο να ελαχιστοποιούν το χώρο που χρειάζεται για την αποθήκευση τους Καλές τεχνικές για την επεξεργασία ερωτημάτων (βάρη όρων και διάταξη όρων στα ευρετήρια βάση σημαντικότητας) μειώνουν το κόστος στην εκτέλεσης μιας ερώτησης εξαιτίας των stop words. Είναι χρήσιμα για: Φράσεις: King of Denmark Τίτλους τραγουδιών, κλπ.: Let it be, To be or not to be Σχεσιακά ερωτήματα: flights to London 33

34 Κεφ Κανονικοποίηση (Token normalization) Token normalization: κανονικοποίηση των token ώστε να εντοπίζονται αντιστοιχίες παρά κάποιες μικρές διαφορές Συχνά ορίζουμε έμμεσα κλάσεις ισοδυναμίας (equivalence classes) για τους όρους, δηλαδή, τις απεικονίζουμε στον ίδιο όρο π.χ., Σβήνουμε τις τελείες από έναν όρο U.S.A., USA USA Σβήνουμε τα ενωτικά από έναν όρο anti-discriminatory, antidiscriminatory Απλοί κανόνες αντιστοίχισης (mapping rules) Δε χρειάζεται πλήρης προσδιορισμός Μερικές φορές δεν είναι εύκολο να εντοπιστεί πότε χρειάζεται προσθήκη χαρακτήρων 34

35 Κεφ Κανονικοποίηση Μια εναλλακτική προσέγγιση στις κλάσεις ισοδυναμίας είναι να κρατάμε όλα τα μη κανονικοποιημένα token (να μην ορίσουμε αντιστοιχία) (ή και «χειροποίητες» λίστες συνωνύμων ) 1. (α) Ευρετηριοποίηση του μη κανονικοποιημένου όρου και (β) διεύρυνση κατά την ερώτηση (διάζευξη) Enter: windows Search: Windows, windows, window Enter: car Search: car automobile 2. Εναλλακτικά, καταχωρούμε το έγγραφο στις λίστες καταχώρησης κάθε συνώνυμου (πχ έγγραφο που περιέχει το car καταχωρείται και στο automobile) Το 1 ή το 2 είναι καλύτερο; 35

36 Κεφ Κανονικοποίηση σε όρους Μη συμμετρική διεύρυνση Ένα παράδειγμα όπου αυτό μπορεί να φανεί χρήσιμο Enter: window Search: window, windows Enter: windows Search: Windows, windows, window Enter: Windows Search: Windows Θεωρητικά πιο ισχυρό από τις λίστες αλλά λιγότερο αποδοτικό Είναι η κανονικοποίηση πάντα καλή, U.S.A, C.A.T? 36

37 Κεφ Κανονικοποίηση: άλλες γλώσσες, τόνοι, διακριτικά 60% ιστοσελίδων στα Αγγλικά (2007) 1/3 των χρηστών του διαδικτύου - 10% του παγκόσμιου πληθυσμού μιλούν Αγγλικά Accents: π.χ., Γαλλικά résumé vs. resume. Umlauts: π.χ., Γερμανικά: Tuebingen vs. Tübingen Πρέπει να είναι ισοδύναμα Πιο βασικό κριτήριο: Πως προτιμούν οι χρήστες να γράφουν αυτές τις λέξεις στα ερωτήματά τους Ακόμα και σε γλώσσες που έχουν accents, οι χρήστες δεν τα πληκτρολογούν (σκεφτείτε τους τόνους στα Ελληνικά) Οπότε συχνά είναι καλύτερο να κανονικοποιούμε ή να αφαιρούμε το accent από ένα όρο Tuebingen, Tübingen, Tubingen Tubingen 37

38 Κεφ Κανονικοποίηση: άλλες γλώσσες Κανονικοποίηση σε περιπτώσεις όπως οι ημερομηνίες 7 月 30 日 vs. 7/30 Japanese use of kana vs. Chinese characters Tokenization και οι κανονικοποίηση μπορεί να εξαρτάται από τη γλώσσα όποτε μαζί με αναγνώριση γλώσσας Βασικό: Πρέπει το κείμενο που θα ευρετηριοποιηθεί και οι όροι στο ερώτημα να κανονικοποιούνται με τον ίδιο τρόπο Morgen will ich in MIT Is this German mit? 38

39 Κεφ Μετατροπή σε κεφαλαία/μικρά Μετατροπή όλων των γραμμάτων σε μικρά (case folding) εξαίρεση: κεφαλαία στη μέση της πρότασης; (truefolding) e.g., General Motors Fed vs. fed Bush vs. bush Πρακτικά μετατροπή όλων σε μικρά, αφού συχνά οι χρήστες χρησιμοποιούν μικρά ανεξάρτητα της «σωστής» χρήσης των κεφαλαίων Παράδειγμα από τη Google: Δοκιμάστε την ερώτηση C.A.T. #1 αποτέλεσμα για cat 39

40 Θησαυροί (Thesauri) και soundex Πως χειριζόμαστε τα συνώνυμα και τα ομώνυμα; Π.χ., κατασκευάζοντας λίστες ισοδυναμίας με το χέρι car = automobile color = colour Μπορούμε να το ξαναγράψουμε (rewrite) για να δημιουργήσουμε κλάσεις ισοδυναμίας όρων Καταχωρούμε το έγγραφο στις λίστες καταχώρησης κάθε συνώνυμου (πχ έγγραφο που περιέχει το car καταχωρείται και στο automobile και το ανάποδο) Ή να διευρύνουμε το ερώτημα Όταν το ερώτημα περιέχει automobile, ψάξε και για το car Τι γίνεται με τα ορθογραφικά λάθη (spelling mistakes)? Μια προσέγγιση είναι το soundex, που σχηματίζει κλάσεις ισοδυναμίας από λέξεις βασιζόμενες σε ακουστικούς ευριστικούς κανόνες phonetic heuristics 40

41 Τα βασικά βήματα για την κατασκευή του ευρετηρίου 1. Συλλέγουμε τα έγγραφα που θέλουμε να συμπεριλάβουμε στο ευρετήριο Friends, Romans, countrymen. 2. Διαιρούμε το κείμενο σε γλωσσικά σύμβολα (token) 3. Γλωσσολογική προεπεξεργασία των συμβόλων 4. Ευρετηριάζουμε τα έγγραφα στα οποία περιλαμβάνεται κάθε όρος Token stream. Modified tokens. Tokenizer Linguistic modules Indexer Inverted index. Friends Romans Countrymen friend roman countryman friend roman countryman

42 Κεφ Λημματοποίηση και Stemming Δύο διαφορετικές προσεγγίσεις: λημματοποίηση και stemming Πριν την εισαγωγή στο ευρετήριο Αναγωγή των όρων στις ρίζες του (λημματοποίση) Περικοπή κλιτικών καταλήξεων και αναγωγή παράγωγων μορφών μιας λέξης σε κοινή βασική μορφή (stemming) 42

43 Κεφ Λημματοποίηση (Lemmatization) Π.χ., am, are, is be car, cars, car's, cars' car the boy's cars are different colors the boy car be different color Η λημματοποίηση προϋποθέτει «ορθή» αναγωγή που χρησιμοποιεί λεξιλόγιο και μορφολογική ανάλυση των λέξεων και επιστρέφει τη βασική μορφή της λέξης, το λήμμα POS (part of speech) Lemmatizer 43

44 Κεφ Stemming (Περιστολή) Stemming υπονοεί ωμό κόψιμο των καταλήξεων εξαρτάται από τη γλώσσα π.χ., automate(s), automatic, automation όλα ανάγονται στο automat. for example compressed and compression are both accepted as equivalent to compress. for exampl compress and compress ar both accept as equival to compress 44

45 Κεφ Ο αλγόριθμος του Porter Ο πιο διαδεδομένος αλγόριθμος stemming για τα Αγγλικά Τα αποτελέσματα δείχνουν ότι είναι τουλάχιστον τόσο καλός όσο οι άλλες επιλογές Συμβάσεις + 5 φάσεις περικοπών Οι φάσεις εφαρμόζονται διαδοχικά Κάθε φάση αποτελείται από ένα σύνολο κανόνων Παράδειγμα σύμβασης: Επιλογή εκείνου του κανόνα από κάθε ομάδα που μπορεί να εφαρμοστεί στο μεγαλύτερο επίθεμα. 45

46 Κεφ Χαρακτηριστικοί κανόνες του Porter Ομάδα κανόνων της πρώτης φάσης: sses ss ies i ss ss s Παράδειγμα caresses caress ponies poni caress caress Άλλοι κανόνες ational ate cats cat tional tion Οι κανόνες χρησιμοποιούν ένα είδους μέτρου (measure) που ελέγχει το πλήθος των συλλαβών (m>1) EMENT replacement replac cement cement 46

47 Κεφ Άλλοι stemmers Υπάρχουν και άλλου π.χ., Lovins stemmer Ένα πέρασμα, αφαίρεση της μεγαλύτερης κατάληξης (περίπου 250 κανόνες) Πλήρη μορφολογική ανάλυση περιορισμένα οφέλη Βοηθά το stemming και οι άλλοι κανονικοποιητές; English: ανάμικτα αποτελέσματα. Βοηθά την ανάκληση αλλά βλάπτει την ακρίβεια operative (dentistry) oper operational (research) oper operating (systems) oper Οπωσδήποτε χρήσιμο για Ισπανικά, Γερμανικά, Φιλανδικά 30% βελτίωση για τα Φινλανδικά 47

48 κεφ Άλλοι stemmers: σύγκριση Sample text: Such an analysis can reveal features that are not easily visible from the variations in the individual genes and can lead to a picture of expression that is more biologically transparent and accessible to interpretation Porter stemmer: such an analysi can reveal featur that ar not easili visibl from the variat in the individu gene and can lead to pictur of express that is more biolog transpar and access to interpret Lovins stemmer: such an analys can reve featur that ar not eas vis from th vari in th individu gen and can lead to a pictur of expres that is mor biolog transpar and acces to interpres Paice stemmer: such an analys can rev feat that are not easy vis from the vary in the individ gen and can lead to a pict of express that is mor biolog transp and access to interpret 48

49 Κεφ Εξάρτηση από τη γλώσσα Πολλά από τα παραπάνω περιλαμβάνουν μετασχηματισμούς που Εξαρτώνται από τη γλώσσα και Συχνά από την εφαρμογή Με τη μορφή plug-in πριν τη διαδικασία δεικτοδότησης Ελεύθερου λογισμικού και εμπορικά 49

50 Ακολουθία εγγράφων Έγγραφο 1 (d1) : Το Παν. Ιωαννίνων ιδρύθηκε το Έγγραφο 2 (d2) : Τα Ιωάννινα είναι η μεγαλύτερη πόλη της Ηπείρου. Έγγραφο 3 (d3) : Η πτυχιακή εξεταστική στο Τμήμα Μηχ. Η/Υ και Πληροφορικής θ αρχίσει την 1 η Φεβρουαρίου. Έγγραφο 4 (d4) : Οι μαθητές των Ιωαννίνων αρίστευσαν στις εξετάσεις για την εισαγωγή στα Πανεπιστήμια. Έγγραφο 5 (d5): Το 2017 ιδρύθηκε Πολυτεχνική Σχολή στο ΠΙ. Granularity: Μονάδα εγγράφου Token (λεκτικές μονάδες) Θέματα Που σταματάμε: κενό/σημείο στίξης αλλά και απόστροφοι/όχι κενό/παύλα, κλπ Stop words (το, και?) Κανονικοποίηση Κεφαλαία/μικρά Τόνοι Κανόνες vs Λίστες ισοδυναμίας Όροι (terms) που θα εισαχθούν στο ευρετήριο Περιστολή (stemming) περικοπή καταλήξεων Λημματοποίηση (lemmatization) γλωσσική/μορφολογική επεξεργασία και αναγωγή της λέξης στη ρίζα της Ίδια πολιτική και στο κείμενο και στην ερώτηση

51 Κεφ Επανάληψη (ερωτήσεις) Άσκηση 2.1 Are the following statements true or false? a. In a Boolean retrieval system, stemming never lowers precision. b. In a Boolean retrieval system, stemming never lowers recall. c. Stemming increases the size of the vocabulary. d. Stemming should be invoked at indexing time but not while processing a query. 51

52 Τι θα δούμε σήμερα; Καταχωρήσεις Γρηγορότερη συγχώνευση: Λίστες Παράβλεψης (skip lists) Λίστες καταχωρήσεων με πληροφορίες θέσεων (Positional postings) και ερωτήματα φράσεων ( phrase queries) 52

53 Λίστες Καταχωρήσεων 53

54 Κεφ. 2.3 Βασική συγχώνευση Brutus Caesar Αν τα μήκη των λιστών είναι m και n, O(m+n) Can we do better? Yes (if index isn t changing too fast). 54

55 Κεφ. 2.3 Επέκταση των λιστών με δείκτες παράβλεψης skip pointers (κατά την κατασκευή του ευρετηρίου) Γιατί? Για να αποφύγουμε (skip) καταχωρήσεις που δεν θα εμφανιστούν στο αποτέλεσμα της αναζήτησης. Πως? Που να τοποθετήσουμε αυτούς τους δείκτες? 55

56 Κεφ. 2.3 Επεξεργασία ερωτήματος με skip pointers Υποθέστε ότι έχουμε διατρέξει τις λίστες και έχουμε βρει το κοινό στοιχείο 8 σε κάθε λίστα, το ταιριάζουμε και προχωράμε Έχουμε 41 και είναι το μικρότερο. Αλλά ο δείκτης παράλειψης του 11 είναι το 31, οπότε μπορούμε να παραβλέψουμε τις ενδιάμεσες καταχωρήσεις 56

57 Κεφ. 2.3 Επεξεργασία ερωτήματος με skip pointers Αριθμός συγκρίσεων χωρίς και με χρήση δεικτών παράβλεψης 57

58 Κεφ. 2.3 Επεξεργασία ερωτήματος με skip pointers 58

59 Κεφ. 2.3 Που να τοποθετήσουμε τους δείκτες? Tradeoff: Πολλοί δείκτες παράβλεψης μικρότερα διαστήματα παράβλεψης μεγαλύτερη πιθανότητα παράβλεψης. Πολλές συγκρίσεις για να παραλείψουμε δείκτες. Λιγότεροι δείκτες παράβλεψης λιγότερες συγκρίσεις δεικτών αλλά μεγαλύτερα διαστήματα λίγες επιτυχημένες παραβλέψεις. 59

60 Κεφ. 2.3 Τοποθέτηση των δεικτών Απλώς ευριστικός: για καταχωρήσεις μήκους L, χρησιμοποίησε L δείκτες παράβλεψης σε ίδια απόσταση μεταξύ τους (evenly spaced), δηλαδή σε απόσταση L Αγνοεί την κατανομή των όρων της ερώτησης. Εύκολο αν το ευρετήριο είναι σχετικά στατικό. Δύσκολο αν το L αλλάζει συνεχώς λόγω τροποποιήσεων. Βοηθούσε (λόγω πιο αργής CPU). Όχι τόσο με το νέο υλικό εκτός αν memory-based Tο I/O κόστος για να φορτωθεί μια μεγαλύτερη (λόγω skip pointers) λίστα καταχωρήσεων μπορεί να υπερβαίνει το κέρδος από τη γρηγορότερη συγχώνευση 60

61 Κεφ. 2.3 Ερώτηση Μπορούμε να χρησιμοποιήσουμε λίστες παράβλεψης για OR ερωτήματα; Δύο ανεστραμμένες λίστες

62 Ευρετήρια φράσεων 62

63 Κεφ. 2.4 Ερωτήματα Φράσεων (phrase queries) Θέλουμε να μπορούμε να απαντάμε σε ερωτήματα όπως stanford university ως φράση Οπότε η φράση I went to university at Stanford δεν αποτελεί ταίριασμα. Η έννοια των ερωτημάτων φράσεων έχει αποδειχθεί πολύ δημοφιλής και εύκολα κατανοητή από τους χρήστες, από τις λίγες μορφές αναζήτησης πέρα της βασικής που υιοθετήθηκαν (ερωτήσεις με αποτελούν το 10%) Ακόμα περισσότερες είναι έμμεσα ερωτήματα φράσεων Για να τα υποστηρίξουμε, δεν αρκούν εγγραφές της μορφής <term : docs> 63

64 Κεφ Μια πρώτη προσέγγιση: Ευρετήρια ζευγών λέξεων (Biword indexes) Εισήγαγε στο ευρετήριο κάθε διαδοχικό ζεύγος όρων στο κείμενο ως φράση Για παράδειγμα το κείμενο Friends, Romans, Countrymen παράγει τα biwords friends romans romans countrymen Κάθε τέτοιο biword είναι τώρα ένας όρος του ευρετηρίου Επιτρέπει την επεξεργασία ερωτημάτων φράσεων με δύο λέξεις. 64

65 Κεφ Μεγαλύτερες φράσεις Οι μεγαλύτερες φράσεις με κατάτμηση: stanford university palo alto μπορεί να διασπαστεί ως ένα Boolean ερώτημα με biwords: stanford university AND university palo AND palo alto Χωρίς να εξετάσουμε τα έγγραφα, δεν μπορούμε να εξακριβώσουμε ότι τα έγγραφα που ικανοποιούν το παραπάνω ερώτημα περιέχουν τη φράση. false positives! 65

66 Κεφ Διευρυμένα biwords Επεξεργασία του κειμένου και εκτέλεση part-of-speechtagging (POST). Ομαδοποιούμε τους όρους (έστω) σε ουσιαστικά- Nouns (N) και άρθρα/προθέσεις (X). Διευρυμένο biword: κάθε ακολουθία όρων της μορφής NX*N Κάθε τέτοιο διευρυμένο biword είναι τώρα ένας όρος του λεξικού 66

67 Κεφ Διευρυμένα biwords Παράδειγμα: catcher in the rye N X X N Επεξεργασία ερωτήματος: χώρισε το σε N και X Διαίρεσε την ερώτηση σε διευρυμένα biwords Αναζήτησε στο ευρετήριο το: catcher rye Παράδειγμα: cost overruns on a power plant cost overruns overruns power power plant 67

68 Κεφ Θέματα False positives Περισσότερους από 2 όρους -> Phrase index (ευρετήριο φράσης) Δημιουργούνται πολύ μεγάλα λεξικά Δεν είναι δυνατόν για μεγαλύτερες φράσεις από 2 λέξεις, μεγάλα ακόμα και για αυτές Τα ευρετήρια biword δεν είναι η συνήθης λύση (για όλα τα biwords) αλλά χρησιμοποιούνται ως μέρος πιο σύνθετων λύσεων 68

69 Κεφ Λύση 2: Positional indexes (Ευρετήρια Θέσεων) Στις καταχωρήσεις, με κάθε όρο, αποθηκεύουμε και τη θέση (θέσεις) όπου εμφανίζονται τα tokens του: <term, number of docs containing term; doc1: position1, position2 ; doc2: position1, position2 ; etc.> 69

70 Κεφ Παράδειγμα <be: ; 1: 7, 18, 33, 72, 86, 231; 2: 3, 149; 4: 17, 191, 291, 430, 434; 5: 363, 367, > Ποιο από τα έγγραφα 1,2,4,5 μπορεί να περιέχει το to be or not to be? Για ερωτήματα φράσεων, χρησιμοποιούμε έναν αλγόριθμο φράσεων αναδρομικά στο επίπεδο εγγράφου Αλλά τώρα δεν αρκεί η ισότητα id 70

71 Κεφ. 2 Επεξεργασία ερωτήματος φράσης Βρες τις εγγραφές του ευρετηρίου για τους όρους του ερωτήματος Συγχώνευσε τις doc:position λίστες για απαρίθμηση όλων των πιθανών θέσεων Παράδειγμα ερωτήματος: to 1 be 2 or 3 not 4 to 5 be 6 TO, : 1: 7, 18, 33, 72, 86, 231 ; 2: 1, 17, 74, 222, 255 ; 4: 8, 16, 190, 429, 433 ; 5: 363, 367 ; 7: 13, 23, 191 ;... BE, : 1: 17, 25 ; 4: 17, 191, 291, 430, 434 ; 5: 14, 19, 101 ;... 71

72 Κεφ Ερωτήματα γειτονικότητας (Proximity queries) Η ίδια γενική μέθοδος για ερωτήματα γειτονικότητας (proximity searches) LIMIT! /3 STATUTE /3 FEDERAL /2 TORT Πάλι, /k means within k words of. Μπορούμε να χρησιμοποιήσουμε ευρετήρια θέσεων αλλά όχι ευρετήρια biword. 72

73 Κεφ Πολυπλοκότητα ερώτησης Αυξάνει την πολυπλοκότητα της ερώτησης από Ο(Τ), Τ αριθμός εγγράφων σε Ο(Ν), Ν αριθμός token. 73

74 Κεφ Μέγεθος ευρετηρίου Μπορούμε να συμπιέσουμε τα position values/offsets Παρόλα αυτά, σημαντική αύξηση του χώρου αποθήκευση των λιστών καταχωρήσεων Αλλά χρησιμοποιείται ευρέως Η σχετική θέση των όρων χρησιμοποιείται και εμμέσως για την κατάταξη των αποτελεσμάτων. 74

75 Κεφ Μέγεθος ευρετηρίου Χρειάζεται μια εγγραφή για κάθε εμφάνιση στο έγγραφο αντί για μια για κάθε έγγραφο Το μέγεθος του ευρετηρίου εξαρτάται από το μέσο μέγεθος του αρχείου Μέσο μέγεθος web σελίδας <1000 όροι SEC filings, books, even some epic poems πάνω από 100,000 όρους Έστω ένας όρος με συχνότητα 0.01% Document size Postings Positional postings ,

76 Κεφ Rules of thumb Ένα ευρετήριο θέσεων είναι 2 4 μεγαλύτερο από ένα απλό ευρετήριο Το μέγεθος του συμπιεσμένου ευρετηρίου είναι το 35 50% του όγκου του αρχικού κειμένου Αυτά αφορούν την Αγγλική (και παρόμοιες) γλώσσες 76

77 Κεφ Συνδυαστικές μέθοδοι Αυτές οι δυο προσεγγίσεις μπορεί να συνδυαστούν Για συγκεκριμένες φράσεις ( Michael Jackson, Britney Spears ) οι συνεχείς συγχώνευση καταχωρήσεων ευρετηρίου θέσεων δεν είναι αποδοτική Ακόμα περισσότερο για φράσεις όπως The Who Πότε biwords αντί για positional indexes? Αυτά που συναντώνται συχνά Τις ποιο «ακριβές» 77

78 ΤΕΛΟΣ 2 ου Κεφαλαίου Ερωτήσεις? Χρησιμοποιήθηκε κάποιο υλικό των: Pandu Nayak and Prabhakar Raghavan, CS276:Information Retrieval and Web Search (Stanford) 78

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη

Διαβάστε περισσότερα

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων. ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων. Κεφ. 1 Βασικά Βήματα (προεπεξεργασία) Σύλλεξε τα έγγραφα Κατασκεύασε βοηθητικές

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων. Κεφ. 1 Τι είναι η «Ανάκτηση Πληροφορίας»;

Διαβάστε περισσότερα

2. Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων

2. Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων

Διαβάστε περισσότερα

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων.

ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων. ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 2: Κατασκευή Λεξιλογίου Όρων. Λίστες Καταχωρήσεων. Ορισμός Ανάκτηση Πληροφορίας (Information Retrieval) - (IR) Μεγάλες συλλογές

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university

Διαβάστε περισσότερα

Introduction to Information Retrieval

Introduction to Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 2: Λεξιλόγιο Όρων και Λίστες Καταχωρήσεων Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 3η: 01/03/2017 1 Dictionary και Postings 2 Θυμηθείτε τον τρόπο δημιουργίας του απλοϊκού ευρετηρίου Έγγξαθα πξνο επξεηεξηνπνίεζε

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Information Retrieval Διδάσκων Δημήτριος Κατσαρός Διάλεξη 3η: 19/02/2014 1 Dictionary και Postings 2 Recall basic indexing pipeline Documents to be indexed. Friends, Romans, countrymen.

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα (υποστήριξη *) 1 Ch. 2 Επανάληψη προηγούμενης

Διαβάστε περισσότερα

ΕΠΛ660. Ανάκτηση Πληροφοριών και. Μάριος. ικαιάκος και Γιώργος Πάλλης

ΕΠΛ660. Ανάκτηση Πληροφοριών και. Μάριος. ικαιάκος και Γιώργος Πάλλης Ανάκτηση Πληροφοριών και Μηχανές Αναζήτησης Μάριος. ικαιάκος και Γιώργος Πάλλης Στο προηγούµενο µάθηµα Overview of course topics Introduction to Information Retrieval Basic inverted indexes: Dictionary

Διαβάστε περισσότερα

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός

Ανάκληση Πληροφορίας. Information Retrieval. Διδάσκων Δημήτριος Κατσαρός Ανάκληση Πληροφορίας Information Retrieval Διδάσκων Δημήτριος Κατσαρός Διάλεξη 5η: 26/02/2014 1 Phrase queries 2 Phrase queries Want to answer queries such as stanford university as a phrase Thus the sentence

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση. 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή Συμπίεση 2 ΣΤΑΤΙΣΤΙΚΑ

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 5η: 06/03/2017 1 WILD-CARD Ερωτήματα 2 Sec. 3.2 Ερωτήματα με χαρακτήρες wild-card: * mon*: να βρεθούν όλα τα έγγραφα που περιέχουν

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

SilverPlatter WebSPIRS 4.1.

SilverPlatter WebSPIRS 4.1. WebSPIRS 4.1. Η υπηρεσία WebSPIRS από τη SilverPlatter αποτελεί ένα φιλικό εργαλείο πρόσβασης και αναζήτησης σε περιεχόμενα βάσεων δεδομένων. Η Βιβλιοθήκη και Κέντρο Πληροφόρησης του Πανεπιστημίου Θεσσαλίας

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 1η: 14/02/2007 1 Εισαγωγή στο µάθηµα & Εισαγωγή

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Εισαγωγή στο µάθηµα. Εισαγωγή στην Ανάκτηση Πληροφορίας. Απαιτήσεις του µαθήµατος

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Εισαγωγή στο µάθηµα. Εισαγωγή στην Ανάκτηση Πληροφορίας. Απαιτήσεις του µαθήµατος Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 1η: 14/02/2007 1 Εισαγωγή στο µάθηµα & Εισαγωγή

Διαβάστε περισσότερα

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα

Διαβάστε περισσότερα

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα

Διαβάστε περισσότερα

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληπουοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληπουοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Γιάλεξη 2η: 23/02/2016 1 Μεγάλες συλλογές (corpora) Έστωσαν N = 1M έγγραφα, το κάθε ένα με περίπου 1K όρους Avg 6 bytes/term, συμπεριλαμβανόμενων

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης Βάση

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval MYE003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα

Διαβάστε περισσότερα

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Δεδομένων (Information Retrieval) Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2009-2010 ΑΣΚΗΣΗ Α Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Τα ανεστραμμένα αρχεία αποτελούν μια βασική μορφή ευρετηρίου και μας επιτρέπουν να εντοπίσουμε

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2017-2018 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή

Διαβάστε περισσότερα

Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ

Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ Βοήθεια ΠΛΟΗΓΗΣΗ ΑΝΑΖΗΤΗΣΗ (ΑΠΛΗ) ΣΥΝΘΕΤΗ ΑΝΑΖΗΤΗΣΗ ΠΛΟΗΓΗΣΗ Το Εθνικό Αρχείο Διδακτορικών Διατριβών (EAΔΔ) συγκεντρώνει τις διδακτορικές διατριβές που έχουν εκπονηθεί σε ελληνικά πανεπιστήμια ή σε πανεπιστήμια

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ

ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ Ο Οργανισμός Βιομηχανικής Ιδιοκτησίας (Ο.Β.Ι.) ιδρύθηκε το 1987 (Ν.1733/1987), είναι νομικό πρόσωπο ιδιωτικού δικαίου, οικονομικά ανεξάρτητο και διοικητικά αυτοτελές.

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 7η: 21/03/2016 1 Ch. 4 Κατασκευή του ευρετηρίου Πώς κατασκευάζουμε το ευρετήριο; Ποιες στρατηγικές μπορούμε ν ακολουθήσουμε

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΑ ΣΥΣΤΗΜΑΤΑ Δρ. Κουζαπάς Δημήτριος Πανεπιστήμιο Κύπρου - Τμήμα Πληροφορικής Μηχανές Αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 1. Ανάκτηση Boole Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων Γνωριμία ιδάσκων: Χρήστος

Διαβάστε περισσότερα

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ COMPUTER SCIENCE DEPARTMENT UNIVERSITY OF CRETE Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 4 η Σειρά Ασκήσεων Ψαράκη Μαρία-Γεωργία ΜΕΤ 556 psaraki@csd.uoc.gr Εαρινό Εξάμηνο 2008-2009

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 6η: 08/03/2016 1 Διόρθωση πληκτρολόγησης 2 Sec. 3.3 Διόρθωση πληκτρολόγησης Δυο κύριες χρήσεις Διόρθωση εγγράφων που θα εισαχθούν

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές

Διαβάστε περισσότερα

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α.  Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:. ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α 2 ειδήσεις από ελληνικές εφημερίδες: 1. Τα Νέα, 13-4-2010, Σε ανθρώπινο λάθος αποδίδουν τη συντριβή του αεροσκάφους, http://www.tanea.gr/default.asp?pid=2&artid=4569526&ct=2 2. Τα Νέα,

Διαβάστε περισσότερα

ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΕΡΩΤΗΜΑΤΟΣ

ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΕΡΩΤΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΕΡΩΤΗΜΑΤΟΣ Η συνθήκη WHERE βάζει περιορισμούς στις εγγραφές που επιστρέφονται. Ο όρος ORDER BY ταξινομεί τις εγγραφές που επιστρέφονται. Παράδειγμα: SELECT * FROM table_name ORDER

Διαβάστε περισσότερα

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης

ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. Μηχανές αναζήτησης ΕΠΛ 002: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιον λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους από τους

Διαβάστε περισσότερα

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Microsoft Excel Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Microsoft Excel Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26 Περιεχόμενα Λίγα λόγια από το συγγραφέα... 7 Κεφάλαιο 1: Microsoft Excel 2002... 9 Κεφάλαιο 2: Η δομή ενός φύλλου εργασίας... 26 Κεφάλαιο 3: Δημιουργία νέου βιβλίου εργασίας και καταχώριση δεδομένων...

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται

Διαβάστε περισσότερα

Ευρετηρίαση ΜΕΡΟΣ ΙΙ

Ευρετηρίαση ΜΕΡΟΣ ΙΙ Ευρετηρίαση ΜΕΡΟΣ ΙΙ Ανάκτηση Πληροφορίας 2009-2010 1 Content Processing Boolean Queries Faster posting lists with skip pointers Phrase and Proximity Queries Biwords Positional Indexes Dictionary Wild-Card

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση

Διαβάστε περισσότερα

Εισαγωγή στο Bison. Μεταγλωττιστές, Χειμερινό εξάμηνο

Εισαγωγή στο Bison. Μεταγλωττιστές, Χειμερινό εξάμηνο Εισαγωγή στο Bison Μεταγλωττιστές, Χειμερινό εξάμηνο 2016-2017 Συντακτική Ανάλυση Αποτελεί την δεύτερη φάση της μετάφρασης. Εύρεση της σχέσης που υπάρχει των λεκτικών μονάδων ενός προγράμματος. Παράδειγμα

Διαβάστε περισσότερα

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της

Διαβάστε περισσότερα

The Simply Typed Lambda Calculus

The Simply Typed Lambda Calculus Type Inference Instead of writing type annotations, can we use an algorithm to infer what the type annotations should be? That depends on the type system. For simple type systems the answer is yes, and

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή (ως τρόπος οργάνωσης αρχείου) μέγεθος

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης

ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Μηχανές αναζήτησης ΕΠΛ 003: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Μηχανές αναζήτησης Στόχοι 1 Να εξηγήσουμε για ποιο λόγο μας είναι απαραίτητες οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό. Να περιγράψουμε κάποιους

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 19/2/213 1 ο ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ Αντικείμενο του Μαθήματος 2 Εφαρμογές και εργαλεία ΓλωσσικήςΤεχνολογίας με στόχο τη βελτίωση της πρωτογενούς

Διαβάστε περισσότερα

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση Λειτουργίες επί των Κειµένων Προεπεξεργασία Clustering Συµπίεση Προεπεξεργασία Κειµένων Πριν από τη δεικτοδότηση των κειµένων προηγούνται µερικές βασικές διαδικασίες οι οποίες χρησιµοποιούνται για την

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2018-2019 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας

Διαβάστε περισσότερα

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS

DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS DISTRIBUTED CACHE TABLE: EFFICIENT QUERY-DRIVEN PROCESSING OF MULTI-TERM QUERIES IN P2P NETWORKS Paper By: Gleb Skobeltsyn, Karl Aberer Presented by: Βασίλης Φωτόπουλος Agenda 1. Ορισμός του προβλήματος

Διαβάστε περισσότερα

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741 Μεταπτυχιακό Πρόγραμμα: «Επιστήμη και Τεχνολογία Υπολογιστών» Μεταπτυχιακή Διπλωματική Εργασία «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης

METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης METALIB Σύστημα μετα-αναζήτησης για ηλεκτρονικές πηγές πληροφόρησης Βιβλιοθήκη & Κέντρο Πληροφόρησης, Πανεπιστημίου Λευκωσίας E-mail: libithelp@unic.ac.cy Τηλ: 22444772 Έκδοση: Μάρτιος 2013 (ES, GC, KP)

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΑ. ΕΤΟΣ 2012-13 Ι ΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής, Τοµέας Τεχνολογίας

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 1η: 20/02/2017 1 Ειζαγωγή ζηο μάθημα & Ειζαγωγή ζηην Ανάκηηζη Πληροθορίας 2 Διδακτικό βοήθημα 1 Καλύπηει ηο ανηικείμενο ηοσ

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

d k 10 k + d k 1 10 k d d = k i=0 d i 10 i.

d k 10 k + d k 1 10 k d d = k i=0 d i 10 i. Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

2.1. Εντολές. 2.2. Σχόλια. 2.3. Τύποι Δεδομένων

2.1. Εντολές. 2.2. Σχόλια. 2.3. Τύποι Δεδομένων 2 Βασικές Εντολές 2.1. Εντολές Οι στην Java ακολουθούν το πρότυπο της γλώσσας C. Έτσι, κάθε εντολή που γράφουμε στη Java θα πρέπει να τελειώνει με το ερωτηματικό (;). Όπως και η C έτσι και η Java επιτρέπει

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Διαχείριση Έργων Πληροφορικής Εργαστήριο

Διαχείριση Έργων Πληροφορικής Εργαστήριο Διαχείριση Έργων Πληροφορικής Εργαστήριο «Εισαγωγή στο MS Project- Διάγραμμα Gantt» Μ.Τσικνάκης, Ρ.Χατζάκη Ε. Μανιαδή, Ά. Μαριδάκη 1. Εισαγωγή στο Microsoft Project To λογισμικό διαχείρισης έργων MS Project

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Συμπίεση Ευρετηρίου 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Κατασκευή ευρετηρίου Στατιστικά

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ AΙΓΑIΟΥ & ΑΕΙ ΠΕΙΡΑΙΑ Τ.Τ. Τμήματα Ναυτιλίας και Επιχειρηματικών Υπηρεσιών & Μηχ. Αυτοματισμού ΤΕ. Εισαγωγή στη Python

ΠΑΝΕΠΙΣΤΗΜΙΟ AΙΓΑIΟΥ & ΑΕΙ ΠΕΙΡΑΙΑ Τ.Τ. Τμήματα Ναυτιλίας και Επιχειρηματικών Υπηρεσιών & Μηχ. Αυτοματισμού ΤΕ. Εισαγωγή στη Python ΠΑΝΕΠΙΣΤΗΜΙΟ AΙΓΑIΟΥ & ΑΕΙ ΠΕΙΡΑΙΑ Τ.Τ. Τμήματα Ναυτιλίας και Επιχειρηματικών Υπηρεσιών & Μηχ. Αυτοματισμού ΤΕ ΠΛΗΡΟΦΟΡΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Εισαγωγή στη Python Νικόλαος Ζ. Ζάχαρης Αναπληρωτής

Διαβάστε περισσότερα

Εργαστήριο Σημασιολογικού Ιστού

Εργαστήριο Σημασιολογικού Ιστού Εργαστήριο Σημασιολογικού Ιστού Ενότητα 8: Εισαγωγή στη SPARQL Βασική Χρήση Μ.Στεφανιδάκης 3-5-2015. Η γλώσσα ερωτημάτων SPARQL Ερωτήσεις (και ενημερώσεις) σε σετ δεδομένων RDF Και σε δεδομένα άλλης μορφής

Διαβάστε περισσότερα

Διαχείριση Βάσης Δεδομένων (dbadmin)

Διαχείριση Βάσης Δεδομένων (dbadmin) Published on PRISMA Win Help - Megasoft (http://docs.megasoft.gr) Home > Εμπορική Διαχείριση > Διαχείριση Βάσης Δεδομένων (dbadmin) Διαχείριση Βάσης Δεδομένων (dbadmin) Μέσα από τη διαχείριση βάσης δεδομένων

Διαβάστε περισσότερα

Introduction to Information Retrieval

Introduction to Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης Βάση

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων Kεφάλαιο 13 Ανάλυση δεδομένων...

Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων Kεφάλαιο 13 Ανάλυση δεδομένων... Μέρος 2 Kεφάλαιο 11 Λίστες και Ανάλυση Δεδομένων... 211 Kεφάλαιο 12 Εργαλεία ανάλυσης πιθανοτήτων... 241 Kεφάλαιο 13 Ανάλυση δεδομένων... 257 Kεφάλαιο 14 Συναρτήσεις Μέρος Β... 285 Kεφάλαιο 15 Ευρετήριο

Διαβάστε περισσότερα