Information Retrieval

Save this PDF as:
 WORD  PNG  TXT  JPG

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Information Retrieval"

Transcript

1 Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5(α): Συμπίεση Ευρετηρίου 1

2 ΣΤΑΤΙΣΤΙΚΑ ΣΥΛΛΟΓΗΣ 2

3 Κεφ. 5 Στατιστικά στοιχεία Πόσο μεγάλο είναι το λεξικό και οι καταχωρήσεις; 3

4 Κεφ. 4.2 Στατιστικά για τη συλλογή Reuters RCV1 N L M T documents tokens per document terms (= word types) bytes per token (incl. spaces/punct.) bytes per token (without spaces/punct.) bytes per term (= word type) non-positional postings 800, , ,000,000 4

5 Κεφ. 5.1 Μέγεθος ευρετηρίου size of word types (terms) non-positional postings positional postings dictionary non-positional index positional index Size (K) % cumul % Size (K) % cumul % Size (K) Unfiltered , ,879 % cumul % No numbers , , Case folding , , stopwords , , stopwords , , stemming , ,

6 Κεφ. 5.1 Λεξιλόγιο και μέγεθος συλλογής Πόσο μεγάλο είναι το λεξιλόγιο όρων; Δηλαδή, πόσες είναι οι διαφορετικές λέξεις; Υπάρχει κάποιο άνω όριο; Π.χ., το Oxford English Dictionary 600,000 λέξεις, αλλά στις πραγματικά μεγάλες συλλογές ονόματα προσώπων, προϊόντων, κλπ Στην πραγματικότητα, το λεξιλόγιο συνεχίζει να μεγαλώνει με το μέγεθος της συλλογής 6

7 Κεφ. 5.1 Λεξιλόγιο και μέγεθος συλλογής Ο νόμος του Heaps: M = k T b M είναι το μέγεθος του λεξιλογίου (αριθμός όρων), T ο αριθμός των tokens στη συλλογή περιγράφει πως μεγαλώνει το λεξιλόγιο όσο μεγαλώνει η συλλογή Συνήθης τιμές: 30 k 100 (εξαρτάται από το είδος της συλλογής) και b 0.5 Σε log-log plot του μεγέθους Μ του λεξιλογίου με το Τ, ο νόμος προβλέπει γραμμή με κλίση περίπου ½ 7

8 Κεφ. 5.1 Για το RCV1, η διακεκομμένη γραμμή log 10 M = 0.49 log 10 T (best least squares fit) Οπότε, M = T 0.49, άρα k = and b = Heaps Law Καλή προσέγγιση για το Reuters RCV1! Για το πρώτα 1,000,020 tokens, ο νόμος προβλέπει 38,323 όρους, στην πραγματικότητα 38,365 8

9 Κεφ. 5.1 Ο νόμος του Heaps Τα παρακάτω επηρεάζουν το μέγεθος του λεξικού: Stemming Including numbers Spelling errors Case folding 9

10 Κεφ. 5.1 Ο νόμος του Zipf Ο νόμος του Heaps μας δίνει το μέγεθος του λεξιλογίου μιας συλλογής Θα εξετάσουμε τη σχετική συχνότητα των όρων Στις φυσικές γλώσσες, υπάρχουν λίγοι πολύ συχνοί όροι και πάρα πολύ σπάνιοι 10

11 Κεφ. 5.1 Ο νόμος του Zipf Ο νόμος του Zipf: Ο i-οστός πιο συχνός όρος έχει συχνότητα ανάλογη του 1/i. cf i 1/i = c/i όπου c μια normalizing constant Όπου cf i collection frequency: ο αριθμός εμφανίσεων του όρου t i στη συλλογή. o Αν ο πιο συχνός όρος (ο όρος the) εμφανίζεται cf 1 φορές o Τότε ο δεύτερος πιο συχνός (of) εμφανίζεται cf 1 /2 φορές o Ο τρίτος (and) cf 1 /3 φορές o 11

12 Κεφ. 5.1 Ο νόμος του Zipf log cf i = log c - log i Γραμμική σχέση μεταξύ log cf i και log i cfi = c i K, k = -1 power law σχέση (εκθετικός νόμος) 12

13 κεφ. 5.1 Zipf s law for Reuters RCV1 13

14 Κεφ. 5.2 ΣΥΜΠΙΕΣΗ 14

15 Κεφ. 5 Συμπίεση Θα δούμε μερικά θέματα για τη συμπίεση το λεξικού και των λιστών καταχωρήσεων Βασικό Boolean ευρετήριο, χωρίς πληροφορία θέσης κλπ 15

16 Κεφ. 5 Γιατί συμπίεση; Λιγότερος χώρος στη μνήμη Λίγο πιο οικονομικό Κρατάμε περισσότερα πράγματα στη μνήμη Αύξηση της ταχύτητας Αύξηση της ταχύτητας μεταφοράς δεδομένων από το δίσκο στη μνήμη [διάβασε τα συμπιεσμένα δεδομένα αποσυμπίεσε] γρηγορότερο από [διάβασε μη συμπιεσμένα δεδομένα] Προϋπόθεση: Γρήγοροι αλγόριθμοι αποσυμπίεσης 16

17 Κεφ. 5.1 Απωλεστική και μη συμπίεση Lossless compression: (μη απωλεστική συμπίεση) Διατηρείτε όλη η πληροφορία Αυτή που κυρίως χρησιμοποιείται σε ΑΠ Lossy compression: (απωλεστική συμπίεση) Κάποια πληροφορία χάνεται Πολλά από τα βήματα προ-επεξεργασίας (μετατροπή σε μικρά, stop words, stemming, number elimination) μπορεί να θεωρηθούν ως lossy compression Μπορεί να είναι αποδεκτή στην περίπτωση π.χ., που μας ενδιαφέρουν μόνο τα κορυφαία από τα σχετικά έγγραφα 17

18 Κεφ. 5.2 ΣΥΜΠΙΕΣΗ ΛΕΞΙΚΟΥ 18

19 Κεφ. 5.2 Συμπίεση λεξικού Η αναζήτηση αρχίζει από το λεξικό -> Θα θέλαμε να το κρατάμε στη μνήμη Συνυπάρχει με άλλες εφαρμογές (memory footprint competition) Κινητές/ενσωματωμένες συσκευές μικρή μνήμη Ακόμα και αν όχι στη μνήμη, θα θέλαμε να είναι μικρό για γρήγορη αρχή της αναζήτησης 19

20 Κεφ. 5.2 Αποθήκευση λεξικού Κάθε εγγραφή: τον όρο, συχνότητα εμφάνισης, δείκτη Θα θεωρήσουμε την πιο απλή αποθήκευση, ως ταξινομημένο πίνακα εγγραφών σταθερού μεγέθους (array of fixed-width entries) ~400,000 όροι; 28 bytes/term = 11.2 MB. Terms Freq. Postings ptr. a 656,265 aachen 65.. zulu 221 Δομή Αναζήτησης Λεξικού 20 bytes 4 bytes each 20

21 Κεφ. 5.2 Αποθήκευση λεξικού Σπατάλη χώρου Πολλά από τα bytes στη στήλη Term δε χρησιμοποιούνται δίνουμε 20 bytes για όρους με 1 γράμμα Και δε μπορούμε να χειριστούμε το supercalifragilisticexpialidocious ή hydrochlorofluorocarbons. Μέσος όρος στο γραπτό λόγο για τα Αγγλικά είναι ~4.5 χαρακτήρες/λέξη. Μέσος όρος των λέξεων στο λεξικό για τα Αγγλικά: ~8 χαρακτήρες Οι μικρές λέξεις κυριαρχούν στα tokens αλλά όχι στους όρους. 21

22 Συμπίεση της λίστας όρων: Λεξικό-ως-Σειρά-Χαρακτήρων Κεφ. 5.2 Αποθήκευσε το λεξικό ως ένα (μεγάλο) string χαρακτήρων: Ένας δείκτης δείχνει στο τέλος της τρέχουσας λέξης (αρχή επόμενης) Εξοικονόμηση 60% του χώρου..systilesyzygeticsyzygialsyzygyszaibelyiteszczecinszomo. Freq Postings ptr. Term ptr. Συνολικό μήκος της σειράς (string) = 400K x 8B = 3.2MB Δείκτες για 3.2M θέσεις: log 2 3.2M = 22bits = 3bytes 22

23 Κεφ. 5.2 Χώρος για το λεξικό ως string 4 bytes ανά όρο για το Freq. 4 bytes ανά όρο για δείκτες σε Postings. 3 bytes ανά term pointer Κατά μέσο όρο 8 bytes ανά όρο στο string (3.2ΜΒ) 400K όροι x MB (έναντι 11.2MB για σταθερό μήκος λέξης) Κατά μέσο όρο:11bytes /term 23

24 Κεφ. 5.2 Blocking (Δείκτες σε ομάδες) Διαίρεσε το string σε ομάδες (blocks) των k όρων Διατήρησε ένα δείκτη σε κάθε ομάδα Παράδειγμα: k = 4. Χρειαζόμαστε και το μήκος του όρου (1 extra byte).7systile9syzygetic8syzygial6syzygy11szaibelyite8szczecin9szomo. Freq. Postings ptr. Term ptr Κερδίζουμε 3 bytes για k - 1 δείκτες. Χάνουμε 4 (k) bytes για το μήκος του όρου 24

25 Κεφ. 5.2 Blocking Συνολικό όφελος για block size k = 4 Χωρίς blocking 3 bytes/pointer 3 x 4 = 12 bytes, (ανά block) Τώρα = 7 bytes. Εξοικονόμηση ακόμα ~0.5MB. Ελάττωση του μεγέθους του ευρετηρίου από 7.6 MB σε 7.1 MB. Γιατί όχι ακόμα μεγαλύτερο k; Σε τι χάνουμε; 25

26 Κεφ. 5.2 Αναζήτηση στο λεξικό χωρίς Βlocking Ας υποθέσουμε δυαδική αναζήτηση και ότι κάθε όρος ισοπίθανο να εμφανιστεί στην ερώτηση (όχι και τόσο ρεαλιστικό στη πράξη) μέσος αριθμός συγκρίσεων = ( )/8 ~2.6 Άσκηση: σκεφτείτε ένα καλύτερο τρόπο αναζήτησης αν δεν έχουμε ομοιόμορφη κατανομή των όρων 26

27 Κεφ. 5.2 Αναζήτηση στο λεξικό με Βlocking Δυαδική αναζήτηση μας οδηγεί σε ομάδες (block) από k = 4 όρους Μετά γραμμική αναζήτηση στους k = 4 αυτούς όρους. Μέσος όρος (δυαδικό δέντρο)= ( )/8 = 3 27

28 Κεφ. 5.2 Εμπρόσθια κωδικοποίηση (Front coding) Οι λέξεις συχνά έχουν μεγάλα κοινά προθέματα αποθήκευση μόνο των διαφορών 8automata8automate9automatic10automation 8automat*a1 e2 ic3 ion Encodes automat Extra length beyond automat. 28

29 Κεφ. 5.2 Περίληψη συμπίεσης για το λεξικό του RCV1 Τεχνική Μέγεθος σε MB Fixed width 11.2 Dictionary-as-String with pointers to every term Also, blocking k = Also, Blocking + front coding

30 Κεφ. 5.2 Εμπρόσθια κωδικοποίηση (Front coding) Αν στο δίσκο, μπορούμε να έχουμε ένα Β- δέντρο με τον πρώτο όρο σε κάθε σελίδα Κατακερματισμός ελαττώνει το μέγεθος αλλά πρόβλημα με ενημερώσεις 30

31 Κεφ. 5.3 ΣΥΜΠΙΕΣΗ ΤΩΝ ΚΑΤΑΧΩΡΗΣΕΩΝ 31

32 Κεφ. 5.3 Συμπίεση των καταχωρήσεων Το αρχείο των καταχωρήσεων είναι πολύ μεγαλύτερο αυτού του λεξικού - τουλάχιστον 10 φορές. Βασική επιδίωξη: αποθήκευση κάθε καταχώρησης συνοπτικά Στην περίπτωση μας, μια καταχώρηση είναι το αναγνωριστικό ενός εγγράφου (docid). Για τη συλλογή του Reuters (800,000 έγγραφα), μπορούμε να χρησιμοποιήσουμε 32 bits ανά docid αν έχουμε ακεραίους 4-bytes. Εναλλακτικά, log 2 800, bits ανά docid. Μπορούμε λιγότερο από 20 bits ανά docid; 32

33 Κεφ. 5.3 Συμπίεση των καταχωρήσεων Μέγεθος της συλλογής 800,000 (έγγραφα) 200 (token) 6 bytes = 960 MB Μέγεθος του αρχείου καταχωρήσεων 100,000,000 (καταχωρήσεις) 20/8 bytes = 250MB 33

34 Κεφ. 5.3 Συμπίεση των καταχωρήσεων Αποθηκεύουμε τη λίστα των εγγράφων σε αύξουσα διάταξη των docid. computer: 33, 47,1 54, 159, 202 Συνέπεια: αρκεί να αποθηκεύουμε τα κενά (gaps). 33, 14, 107, 5, 43 Γιατί; Τα περισσότερα κενά μπορεί να κωδικοποιηθούν/αποθηκευτούν με πολύ λιγότερα από 20 bits. 34

35 Κεφ. 5.3 Παράδειγμα 35

36 Κεφ. 5.3 Συμπίεση των καταχωρήσεων Ένας όρος όπως arachnocentric εμφανίζεται ίσως σε ένα έγγραφο στο εκατομμύριο. Ένας όρος όπως the εμφανίζεται σχεδόν σε κάθε έγγραφο, άρα 20 bits/εγγραφή πολύ ακριβό 36

37 Κωδικοποίηση μεταβλητού μεγέθους (Variable length encoding) Στόχος: Για το arachnocentric, θα χρησιμοποιήσουμε εγγραφές ~20 bits/gap. Για το the, θα χρησιμοποιήσουμε εγγραφές ~1 bit/gap entry. Αν το μέσο κενό για έναν όρο είναι G, θέλουμε να χρησιμοποιήσουμε εγγραφές ~log 2 G bits/gap. Κεφ. 5.3 Βασική πρόκληση: κωδικοποίηση κάθε ακεραίου (gap) με όσα λιγότερα bits είναι απαραίτητα για αυτόν τον ακέραιο. Αυτό απαιτεί κωδικοποίηση μεταβλητού μεγέθους -- variable length encoding Αυτό το πετυχαίνουμε χρησιμοποιώντας σύντομους κώδικες για μικρούς αριθμούς 37

38 Κεφ. 5.3 Κωδικοί μεταβλητών Byte (Variable Byte (VB) codes) Κωδικοποιούμε κάθε διάκενο με ακέραιο αριθμό από bytes Το πρώτο bit κάθε byte χρησιμοποιείται ως bit συνέχισης (continuation bit) Είναι 0 σε όλα τα bytes εκτός από το τελευταίο, όπου είναι 1 0, αν ακολουθεί και δεύτερο byte 1, αλλιώς Χρησιμοποιείται για να σηματοδοτήσει το τελευταίο byte της κωδικοποίησης 38

39 Κεφ. 5.3 Κωδικοί μεταβλητών Byte (Variable Byte (VB) codes) Ξεκίνα με ένα byte για την αποθήκευση του G Αν G 127, υπολόγισε τη δυαδική αναπαράσταση με τα 7 διαθέσιμα bits and θέσε c =1 Αλλιώς, κωδικοποίησε τα 7 lower-order bits του G και χρησιμοποίησε επιπρόσθετα bytes για να κωδικοποιήσεις τα higher order bits με τον ίδιο αλγόριθμο Στο τέλος, θέσε το bit συνέχισης του τελευταίου byte σε 1, c=1 και στα άλλα σε 0, c = 0. 39

40 Κεφ. 5.3 Παράδειγμα docids gaps VB code Postings stored as the byte concatenation Key property: VB-encoded postings are uniquely prefix-decodable For a small gap (5), VB uses a whole byte. 40

41 Κεφ. 5.3 Άλλες κωδικοποιήσεις Αντί για bytes, δηλαδή 8 bits, άλλες μονάδες πχ 32 bits (words), 16 bits, 4 bits (nibbles). Compression ratio vs speed of decompression Με byte χάνουμε κάποιο χώρο αν πολύ μικρά διάκενα nibbles καλύτερα σε αυτές τις περιπτώσεις. Μικρές λέξεις, πιο περίπλοκος χειρισμός Οι κωδικοί VΒ χρησιμοποιούνται σε πολλά εμπορικά/ερευνητικά συστήματα 41

42 Κεφ. 5.3 Συμπίεση του RCV1 Data structure Size in MB dictionary, fixed-width 11.2 dictionary, term pointers into string 7.6 with blocking, k = with blocking & front coding 5.9 collection (text, xml markup etc) 3,600.0 collection (text) Term-doc incidence matrix 40,000.0 postings, uncompressed (32-bit words) postings, uncompressed (20 bits) postings, variable byte encoded postings, g-encoded

43 Sec. 5.3 Περίληψη Μπορούμε να κατασκευάσουμε ένα ευρετήριο για Boolean ανάκτηση πολύ αποδοτικό από άποψη χώρου Μόνο 4% του συνολικού μεγέθους της συλλογής Μόνο το 10-15% του συνολικού κειμένου της συλλογής Βέβαια, έχουμε αγνοήσει την πληροφορία θέσης Η εξοικονόμηση χώρου είναι μικρότερη στην πράξη Αλλά, οι τεχνικές είναι παρόμοιες 43

44 ΤΕΛΟΣ πρώτου μέρους 5 ου Μαθήματος Ερωτήσεις? Χρησιμοποιήθηκε κάποιο υλικό των: Pandu Nayak and Prabhakar Raghavan, CS276: Information Retrieval and Web Search (Stanford) 44

45 Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5(β) : Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 45

46 Κεφ. 6 Τι άλλο θα δούμε σήμερα; Βαθμολόγηση και κατάταξη εγγράφων Στάθμιση όρων (term weighting) Αναπαράσταση εγγράφων και ερωτημάτων ως διανύσματα 46

47 Κεφ. 6 Κατάταξη εγγράφων (Ranked retrieval) Μέχρι τώρα, τα ερωτήματα που είδαμε ήταν Boolean. Τα έγγραφα είτε ταιριάζουν στο ερώτημα, είτε όχι Τα Boolean ερωτήματα συχνά έχουν είτε πολύ λίγα (=0) είτε πάρα πολλά (χιλιάδες) αποτελέσματα ( feast or famine ) Ερώτημα 1: standard user dlink ,000 hits Ερώτημα 2: standard user dlink 650 no card found : 0 hits Χρειάζεται επιδεξιότητα για να διατυπωθεί μια ερώτηση που έχει ως αποτέλεσμα ένα διαχειρίσιμο αριθμό ταιριασμάτων AND πολύ λίγα - OR πάρα πολλά 47

48 Κεφ. 6 Διάταξη εγγράφων (Ranked retrieval) Κατάλληλη για ειδικούς με σαφή κατανόηση των αναγκών τους και της συλλογής Επίσης, καλή για εφαρμογές: οι εφαρμογές μπορούν να επεξεργαστούν χιλιάδες αποτελεσμάτων. Αλλά, όχι κατάλληλη για την πλειοψηφία των χρηστών Είναι δύσκολο για τους περισσότερους χρήστες να διατυπώσουν Boolean ερωτήματα Οι περισσότεροι χρήστες δεν θέλουν να διαχειριστούν χιλιάδες αποτελέσματα. Ιδιαίτερα στην περίπτωση των αναζητήσεων στο web 48

49 Κεφ. 6 Μοντέλα διαβαθμισμένης ανάκτησης Αντί ενός συνόλου εγγράφων που ικανοποιούν το ερώτημα, η διαβαθμισμένη ανάκτηση (ranked retrieval) επιστρέφει μια διάταξη των (κορυφαίων) για την ερώτηση εγγράφων της συλλογής Όταν το σύστημα παράγει ένα διατεταγμένο σύνολο αποτελεσμάτων, τα μεγάλα σύνολα δεν αποτελούν πρόβλημα Δείχνουμε απλώς τα κορυφαία (top) k ( 10) αποτελέσματα Δεν παραφορτώνουμε το χρήστη Προϋπόθεση: ο αλγόριθμος διάταξης να δουλεύει σωστά 49

50 Μοντέλα διαβαθμισμένης ανάκτησης Αν και διαφορετικά θέματα, η διαβαθμισμένη ανάκτηση συνήθως με ερωτήματα ελεύθερου κειμένου Ερωτήματα ελεύθερου κειμένου (Free text queries): Μία ή περισσότερες λέξεις σε μια φυσική γλώσσα (αντί για μια γλώσσα ερωτημάτων με τελεστές και εκφράσεις) 50

51 Βαθμολόγηση ως βάση της Κεφ. 6 διαβαθμισμένης ανάκτησης Θέλουμε να επιστρέψουμε τα αποτελέσματα διατεταγμένα με βάση το πόσο πιθανό είναι να είναι χρήσιμα στο χρήστη Πως διατάσουμε-διαβαθμίζουμε τα έγγραφα μιας συλλογής με βάση ένα ερώτημα Αναθέτουμε ένα βαθμό (score) ας πούμε στο [0, 1] σε κάθε έγγραφο Αυτός ο βαθμός μετρά πόσο καλά το έγγραφο d ταιριάζει (match) με το ερώτημα q 51

52 Βαθμός ταιριάσματος ερωτήματοςεγγράφου Κεφ. 6 Χρειαζόμαστε ένα τρόπο για να αναθέσουμε ένα βαθμό σε κάθε ζεύγος ερωτήματος(q)/εγγράφου(d) score(d, q) Αν ο όρος του ερωτήματος δεν εμφανίζεται στο έγγραφο, τότε ο βαθμός θα πρέπει να είναι 0 Όσο πιο συχνά εμφανίζεται ο όρος του ερωτήματος σε ένα έγγραφο, τόσο μεγαλύτερος θα πρέπει να είναι ο βαθμός Θα εξετάσουμε κάποιες εναλλακτικές για αυτό 52

53 Κεφ. 6 Προσπάθεια 1: Συντελεστής Jaccard Υπενθύμιση: συνηθισμένη μέτρηση της επικάλυψης δύο συνόλων A και B jaccard(a,b) = A B / A B jaccard(a,a) = 1 jaccard(a,b) = 0 if A B = 0 Τα A και B δεν έχουν απαραίτητα το ίδιο μέγεθος Αναθέτει πάντα έναν αριθμό μεταξύ του 0 και του 1 53

54 Συντελεστής Jaccard: Παράδειγμα βαθμολόγησης Κεφ. 6 Ποιος είναι o βαθμός ταιριάσματος ερωτήματοςεγγράφου με βάση το συντελεστή Jaccard για τα παρακάτω; Ερώτημα (q): ides of march Έγγραφο 1 (d1): caesar died in march Έγγραφο 2 (d2): the long march Θα δούμε και έναν πιο πλήρη τρόπο κανονικοποιήσης του μήκους: A B / A B 54

55 Κεφ. 6.2 Παράδειγμα Ποιο είναι ο βαθμός για τα παρακάτω ζεύγη χρησιμοποιώντας jaccard; q: [information on cars] d: all you ve ever wanted to know about cars q: [information on cars] d: information on trucks, information on planes, information on trains q: [red cars and red trucks] d: cops stop red cars more often 55

56 Συχνότητα όρου - Term frequency (tf) Η συχνότητα όρου tf t,d του όρου t σε ένα έγγραφο d ορίζεται ως ο αριθμός των φορών που το t εμφανίζεται στο d (το πλήθος των εμφανίσεων του όρου t στο έγγραφο d) 56

57 Κεφ. 6.2 Παράδειγμα Ποιο είναι ο βαθμός για τα παρακάτω ζεύγη χρησιμοποιώντας tf; q: [information on cars] d: all you ve ever wanted to know about cars q: [information on cars] d: information on trucks, information on planes, information on trains q: [red cars and red trucks] d: cops stop red cars more often 57

58 Κεφ. 6 Προβλήματα Jaccard δεν λαμβάνει υπ όψιν την συχνότητα όρου (term frequency): πόσες φορές εμφανίζεται ο όρος στο έγγραφο Αγνοεί το γεγονός πως οι σπάνιοι όροι περιέχουν περισσότερη πληροφορία από ό,τι οι συχνοί. 58

59 Κεφ Συχνότητα εγγράφου (Document frequency) Οι σπάνιοι όροι παρέχουν περισσότερη πληροφορία από τους συχνούς όρους Θυμηθείτε τα stop words (διακοπτόμενες λέξεις) Θεωρείστε έναν όρο σε μια ερώτηση που είναι σπάνιος στη συλλογή (π.χ., arachnocentric) Το έγγραφο που περιέχει αυτόν τον όρο είναι πιο πιθανό να είναι περισσότερο συναφές με το ερώτημα από ένα έγγραφο που περιέχει ένα λιγότερο σπάνιο όρο του ερωτήματος Θέλουμε να δώσουμε μεγαλύτερο βάρος στους σπάνιους όρους αλλά πως; df 59

60 Κεφ Βάρος idf df t είναι η συχνότητα εγγράφων του t: ο αριθμός (πλήθος) των εγγράφων της συλλογής που περιέχουν το t df t είναι η αντίστροφη μέτρηση της πληροφορίας που παρέχει ο όρος t df t N Ορίζουμε την αντίστροφη συχνότητα εγγράφων idf (inverse document frequency) του t ως idf N/df t t 60

61 Κεφ Βαθμός εγγράφου και ερώτησης Score(q,d) t q d tf.idf t,d Μεγάλο για όρους που εμφανίζονται πολλές φορές σε λίγα έγγραφα (μεγάλη διακριτική δύναμη (discriminating power) σε αυτά τα έγγραφα Μικρότερο όταν ο όρος εμφανίζεται λίγες φορές σε ένα έγγραφο ή όταν εμφανίζεται σε πολλά έγγραφα Το μικρότερο για όρους που εμφανίζονται σχεδόν σε όλα τα έγγραφα Υπάρχουν πολλές άλλες παραλλαγές Πως υπολογίζεται το tf (με ή χωρίς log) Αν δίνεται βάρος και στους όρους του ερωτήματος 61

62 Κεφ Συχνότητα συλλογής και εγγράφου Η συχνότητα συλλογής ενός όρου t είναι ο αριθμός των εμφανίσεων του t στη συλλογή, μετρώντας και τις πολλαπλές εμφανίσεις Παράδειγμα: Word Collection frequency Document frequency insurance try Ποια λέξη είναι καλύτερος όρος αναζήτησης (και πρέπει να έχει μεγαλύτερο βάρος)? 62

63 Bag of words model Η tf-idf διαβάθμιση δεν εξετάζει τη διάταξη των λέξεων σε ένα έγγραφο John is quicker than Mary και Mary is quicker than John Έχουν τα ίδια διανύσματα Αυτό λέγεται μοντέλο σάκου λέξεων (bag of words model) έχει σημασία ο αριθμός των εμφανίσεων αλλά όχι η διάταξη Θα εισάγουμε πληροφορία θέσης αργότερα 63

64 Κεφ Στάθμιση tf-idf Ποιο είναι το idf ενός όρου που εμφανίζεται σε κάθε έγγραφο (ποια η σχέση με stop words); tf-idf των παρακάτω όρων: 64

65 Η επίδραση του idf στη διάταξη Το idf δεν επηρεάζει τη διάταξη ερωτημάτων με ένα όρο, όπως iphone Το idf επηρεάζει μόνο τη διάταξη εγγράφων με τουλάχιστον δύο όρους Για το ερώτημα capricious person, η idf στάθμιση έχει ως αποτέλεσμα οι εμφανίσεις του capricious να μετράνε περισσότερο στην τελική διάταξη των εγγράφων από ότι οι εμφανίσεις του person. (ένα έγγραφο που περιέχει μόνο το capricious είναι πιο σημαντικό από ένα που περιέχει μόνο το person) 65

66 Συχνότητα όρου - Term frequency (tf) Η συχνότητα όρου tf t,d του όρου t σε ένα έγγραφο d ορίζεται ως ο αριθμός των φορών που το t εμφανίζεται στο d. Φτάνει μόνο η συχνότητα Ένα έγγραφο με 10 εμφανίσεις ενός όρου είναι πιο σχετικό από ένα έγγραφο με 1 εμφάνιση του όρου.. Αλλά είναι 10 φορές πιο σχετικό; Η σχετικότητα (relevance) δεν αυξάνει ανάλογα με τη συχνότητα όρου 66

67 Κεφ. 6.2 Στάθμιση με Log-συχνότητας Η στάθμιση με χρήση του λογάριθμου της συχνότητας (log frequency weight) του όρου t στο d είναι w t,d 1 log10 tft,d, if tft,d 0 0, otherwise 0 0, 1 1, 2 1.3, 10 2, , etc. Ο βαθμός για ένα ζεύγος εγγράφου-ερωτήματος: άθροισμα όλων των κοινών όρων : t q d score ) idf (1 log tft, d Ο βαθμός είναι 0 όταν κανένας από τους όρους του ερωτήματος δεν εμφανίζεται στο έγγραφο t 67

68 Κεφ Βάρος idf Χρησιμοποιούμε log (N/df t ) αντί για N/df t για να «ομαλοποιήσουμε» την επίδραση του idf. idf log ( N/df t 10 t ) 68

69 Κεφ Παράδειγμα idf, έστω N = 1 εκατομμύριο term df t idf t calpurnia 1 6 animal sunday 1,000 3 fly 10,000 2 under 100,000 1 the 1,000,000 0 idf log ( N/df t 10 t Κάθε όρος στη συλλογή έχει μια τιμή idf Ολική μέτρηση (επίσης, αλλάζει συνεχώς) ) 69

70 Κεφ Στάθμιση tf-idf Το tf-idf βάρος ενός όρου είναι το γινόμενο του βάρους tf και του βάρους idf. w (1 log tf ) log 10 t, d 10 ( N / df t, d t ) Overlap score measure Το πιο γνωστό σχήμα διαβάθμισης στην ανάκτηση πληροφορίας Εναλλακτικά ονόματα: tf.idf, tf x idf Αυξάνει με τον αριθμό εμφανίσεων του όρου στο έγγραφο Αυξάνει με τη σπανιότητα του όρου στη συλλογή 70

71 Κεφ. 6.2 Δυαδική μήτρα σύμπτωσης (binary termdocument incidence matrix) Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser Κάθε έγγραφο αναπαρίσταται ως ένα δυαδικό διάνυσμα {0,1} V (την αντίστοιχη στήλη) 71

72 Κεφ. 6.2 Ο πίνακας με μετρητές Θεωρούμε τον tf, αριθμό (πλήθος) των εμφανίσεων ενός όρου σε ένα έγγραφο: Κάθε έγγραφο είναι ένα διάνυσμα μετρητών στο N v : μια στήλη παρακάτω Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser

73 Κεφ. 6.3 Ο πίνακας με βάρη Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser Θεωρούμε το tf-idf βάρος του όρου: Κάθε έγγραφο είναι ένα διάνυσμα tf-idf βαρών στο R v 73

74 Αποθήκευση Που υπάρχει αυτή η πληροφορία στο σύστημα ανάκτησης πληροφορίας; 74

75 Τα έγγραφα ως διανύσματα (vector space model) Κεφ. 6.3 Έχουμε ένα V -διάστατο διανυσματικό χώρο Οι όροι είναι οι άξονες αυτού του χώρου Τα έγγραφα είναι σημεία ή διανύσματα σε αυτόν τον χώρο Πολύ μεγάλη διάσταση: δεκάδες εκατομμύρια διαστάσεις στην περίπτωση της αναζήτησης στο web Πολύ αραιά διανύσματα οι περισσότεροι όροι είναι 0 75

76 Κεφ. 6.3 Τα ερωτήματα ως διανύσματα Βασική ιδέα 1: Εφαρμόζουμε το ίδιο και για τα ερωτήματα, δηλαδή, αναπαριστούμε και τα ερωτήματα ως διανύσματα στον ίδιο χώρο Βασική ιδέα 2: Διαβάθμιση των εγγράφων με βάση το πόσο κοντά είναι στην ερώτηση σε αυτό το χώρο Κοντινά = ομοιότητα διανυσμάτων Ομοιότητα αντίθετο της απόστασης 76

77 Κεφ. 6.3 Ομοιότητα διανυσμάτων Πρώτη προσέγγιση απόστασης μεταξύ δυο διανυσμάτων Ευκλείδεια απόσταση; Δεν είναι καλή ιδέα είναι μεγάλη για διανύσματα διαφορετικού μήκους 77

78 Κεφ. 6.3 Γιατί η απόσταση δεν είναι καλή ιδέα Η Ευκλείδεια απόσταση μεταξύ του q και του d 2 είναι μεγάλη αν και η κατανομή των όρων είναι παρόμοια 78

79 Κεφ. 6.3 Χρήση της γωνίας αντί της απόστασης Έστω ένα έγγραφο d. Ως παράδειγμα, υποθέστε ότι κάνουμε append το d στον εαυτό του και έστω d το κείμενο που προκύπτει. Σημασιολογικά το d και το d έχουν το ίδιο περιεχόμενο Η Ευκλείδεια απόσταση μεταξύ τους μπορεί να είναι πολύ μεγάλη Η γωνία όμως είναι 0 (αντιστοιχεί στη μεγαλύτερη ομοιότητα) => χρήση της γωνίας 79

80 Κεφ. 6.3 Από γωνίες σε συνημίτονα Οι παρακάτω έννοιες είναι ισοδύναμες: Διαβάθμιση των εγγράφων σε φθίνουσα διάταξη με βάση τη γωνία μεταξύ του εγγράφου και του ερωτήματος Διαβάθμιση των εγγράφων σε αύξουσα διάταξη με βάση το συνημίτονο της γωνίας μεταξύ του εγγράφου και του ερωτήματος Συνημίτονο μονότονα φθίνουσα συνάρτηση στο διάστημα [0 o, 180 o ] 80

81 Κεφ. 6.3 Από γωνίες σε συνημίτονα 81

82 cosine(query,document) V i i V i i V i i i d q q d d d q q d q d q d q ), cos( Dot product Unit vectors q i είναι το tf-idf βάρος του όρου i στην ερώτηση d i είναι το tf-idf βάρος του όρου i στο έγγραφο cos(q,d) is the cosine similarity of q and d or, equivalently, the cosine of the angle between q and d. Κεφ

83 Κεφ. 6.3 Κανονικοποίηση του μήκους Ένα διάνυσμα μπορεί να κανονικοποιηθεί διαιρώντας τα στοιχεία του με το μήκος του, με χρήση της L 2 νόρμας: 2 x x Διαιρώντας ένα διάνυσμα με την L 2 νόρμα το κάνει μοναδιαίο Για παράδειγμα το d and d (d και μετά d) έχουν τα ίδια διανύσματα μετά την κανονικοποίηση μήκους Ως αποτέλεσμα, μικρά και μεγάλα έγγραφα έχουν συγκρίσιμα βάρη 2 i i 83

84 Συνημίτονο για κανονικοποιημένα διανύσματα Για διανύσματα που έχουμε κανονικοποιήσει το μήκος τους (length-normalized vectors) το συνημίτονο είναι απλώς το εσωτερικό γινόμενο (dot or scalar product): cos(q,d ) q d V q d i 1 i i 84

85 Ομοιότητα συνημίτονου 85

86 Κεφ. 6.3 Παράδειγμα Ποια είναι οι ομοιότητα μεταξύ των έργων (εγγράφων) SaS: Sense and Sensibility PaP: Pride and Prejudice, and WH: Wuthering Heights? Συχνότητα όρων (μετρητές) term SaS PaP WH affection jealous gossip wuthering Για απλοποίηση δε θα χρησιμοποιήσουμε τα idf βάρη 86

87 Κεφ. 6.3 Παράδειγμα (συνέχεια) Log frequency weighting term SaS PaP WH affection jealous gossip wuthering After length normalization term SaS PaP WH affection jealous gossip wuthering cos(sas,pap) cos(sas,wh) 0.79 cos(pap,wh) 0.69 Why do we have cos(sas,pap) > cos(sas,wh)? 87

88 Κεφ. 6.3 Computing cosine scores 88

89 Κεφ. 6.4 Παραλλαγές της tf-idf στάθμισης Γιατί δεν έχει σημασία η βάση του λογαρίθμου; 89

90 Κεφ. 6.4 Στάθμιση ερωτημάτων και εγγράφων Πολλές μηχανές αναζήτησης σταθμίζουνε διαφορετικά τις ερωτήσεις από τα έγγραφα Συμβολισμό: ddd.qqq, με χρήση των ακρονύμων του πίνακα Συχνό σχήμα : lnc.ltc Έγγραφο: logarithmic tf (l as first character), no idf, cosine normalization Γιατί; Ερώτημα: logarithmic tf (l in leftmost column), idf (t στη δεύτερη στήλη), no normalization 90

91 Περίληψη βαθμολόγησης στο διανυσματικό χώρο Αναπαράσταση του ερωτήματος ως ένα διαβαθμισμένο tf-idf διάνυσμα Αναπαράσταση κάθε εγγράφου ως ένα διαβαθμισμένο tf-idf διάνυσμα Υπολόγισε το συνημίτονο για κάθε ζεύγος ερωτήματος, εγγράφου Διάταξε τα έγγραφα με βάση αυτό το βαθμό Επέστρεψε τα κορυφαία Κ (π.χ., Κ =10) έγγραφα στο χρήστη 91

92 Κεφ. 6.4 Παράδειγμα: lnc.ltc Έγγραφο: car insurance auto insurance Ερώτημα: best car insurance Term Query Document Pro d tfraw tf-wt df idf wt n liz e tf-raw tf-wt wt n liz e auto best car insurance Doc length = Score = =

93 ΤΕΛΟΣ δεύτερου μέρους 5 ου Μαθήματος Ερωτήσεις? Χρησιμοποιήθηκε κάποιο υλικό των: Pandu Nayak and Prabhakar Raghavan, CS276:Information Retrieval and Web Search (Stanford) Hinrich Schütze and Christina Lioma, Stuttgart IIR class 93

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση

Διαβάστε περισσότερα

Τι (άλλο) θα δούμε σήμερα;

Τι (άλλο) θα δούμε σήμερα; Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;

Διαβάστε περισσότερα

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Συμπίεση Ευρετηρίου 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Κατασκευή ευρετηρίου Στατιστικά

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 8η: 22/03/2016 1 Ch. 5 Το οφέλη της συμπίεσης (γενικώς) Χρησιμοποιεί λιγότερο χώρο στον δίσκο Σώζει και κάποια χρήματα Διατηρούμε

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6-7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα;

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 8: Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Τι είδαμε στο προηγούμενο μάθημα Βαθμολόγηση

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Τι είδαμε στο προηγούμενο μάθημα Βαθμολόγηση

Διαβάστε περισσότερα

Introduction to Information Retrieval

Introduction to Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5: Κατασκευή και Συμπίεση Ευρετηρίου 1 Η βασική δομή: Το αντεστραμμένο ευρετήριο (inverted index)

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4-5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή

Διαβάστε περισσότερα

Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Διδάσκων Δημήτριος Κατσαρός Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Διδάσκων Δημήτριος Κατσαρός Διάλεξη 10η: 31/03/2014 1 Problem with Boolean search: feast or famine Ch. 6 Boolean queries often result in either too few

Διαβάστε περισσότερα

Περίληψη διαβάθμισης

Περίληψη διαβάθμισης Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διαλέξεις6-7: Επανάληψη Διάταξης Εγγράφων. Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Περίληψη διαβάθμισης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 3: Δομές για Λεξικά. Ανάκτηση Ανεκτική στα Σφάλματα (υποστήριξη *) 1 Ch. 2 Επανάληψη προηγούμενης

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 7η: 21/03/2016 1 Ch. 4 Κατασκευή του ευρετηρίου Πώς κατασκευάζουμε το ευρετήριο; Ποιες στρατηγικές μπορούμε ν ακολουθήσουμε

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Συµπίεση Ευρετηρίου. Term weighting. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Συµπίεση Ευρετηρίου. Term weighting. ιδάσκων ηµήτριος Κατσαρός, Ph.D. Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 3η: 28/02/2007 1 Συµπίεση Ευρετηρίου & Term

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Ανάκτηση

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης Βάση

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη

Διαβάστε περισσότερα

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια Ευαγγελία Πιτουρά 1 τιμή γνωρίσματος Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Ανάκτηση

Διαβάστε περισσότερα

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δυναμικός Κατακερματισμός Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Κατακερματισμός Τι αποθηκεύουμε στους κάδους; Στα παραδείγματα δείχνουμε μόνο την τιμή του πεδίου κατακερματισμού Την ίδια την εγγραφή

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 5//013 ο ΓΛΩΣΣΑ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Ενότητες Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο

Διαβάστε περισσότερα

Εισαγωγή στον Προγραμματισμό

Εισαγωγή στον Προγραμματισμό Εισαγωγή στον Προγραμματισμό Ενότητα 3 Λειτουργίες σε Bits, Αριθμητικά Συστήματα Χρήστος Γκουμόπουλος Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Φύση υπολογιστών Η

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων 2009-2010: Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Κατακερματισμός 1 Αποθήκευση εδομένων (σύνοψη) Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο Παραδοσιακά, μία σχέση (πίνακας/στιγμιότυπο) αποθηκεύεται σε ένα αρχείο Αρχείο δεδομένων

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1

Ευρετήρια. Ευρετήρια. Βάσεις Δεδομένων : Ευρετήρια 1 Ευρετήρια 1 Ευρετήρια Ένα ευρετήριο (index) είναι μια βοηθητική δομή αρχείου που κάνει πιο αποδοτική την αναζήτηση μιας εγγραφής σε ένα αρχείο Το ευρετήριο καθορίζεται (συνήθως) σε ένα γνώρισμα του αρχείου

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη :

Διαβάστε περισσότερα

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Κωδικοποίηση εικόνας

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Κωδικοποίηση εικόνας ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ 2 Κωδικοποίηση εικόνας Ακολουθία από ψηφιοποιημένα καρέ (frames) που έχουν συλληφθεί σε συγκεκριμένο ρυθμό frame rate (π.χ. 10fps,

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

Προγραμματισμός και Χρήση Ηλεκτρονικών Υπολογιστών - Βασικά Εργαλεία Λογισμικού

Προγραμματισμός και Χρήση Ηλεκτρονικών Υπολογιστών - Βασικά Εργαλεία Λογισμικού ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΧΗΜΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΙΚΟ ΚΕΝΤΡΟ Προγραμματισμός και Χρήση Ηλεκτρονικών Υπολογιστών - Βασικά Εργαλεία Λογισμικού Μάθημα 9ο Aντώνης Σπυρόπουλος Σφάλματα στρογγυλοποίησης

Διαβάστε περισσότερα

DIP_06 Συμπίεση εικόνας - JPEG. ΤΕΙ Κρήτης

DIP_06 Συμπίεση εικόνας - JPEG. ΤΕΙ Κρήτης DIP_06 Συμπίεση εικόνας - JPEG ΤΕΙ Κρήτης Συμπίεση εικόνας Το μέγεθος μιας εικόνας είναι πολύ μεγάλο π.χ. Εικόνα μεγέθους Α4 δημιουργημένη από ένα σαρωτή με 300 pixels ανά ίντσα και με χρήση του RGB μοντέλου

Διαβάστε περισσότερα

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Κεφάλαιο 8 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 Ανάκτηση Πληροφορίας 2009-2010 1 Δομές

Διαβάστε περισσότερα

Elements of Information Theory

Elements of Information Theory Elements of Information Theory Model of Digital Communications System A Logarithmic Measure for Information Mutual Information Units of Information Self-Information News... Example Information Measure

Διαβάστε περισσότερα

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη

Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη Ευρετήρια 1 Αρχεία Τα δεδοµένα συνήθως αποθηκεύονται σε αρχεία στο δίσκο Για να επεξεργαστούµε τα δεδοµένα θα πρέπει αυτά να βρίσκονται στη µνήµη. Η µεταφορά δεδοµένων από το δίσκο στη µνήµη και από τη

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 6: Ο Αντεστραμμένος Κατάλογος Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 6 η : Συμπίεση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 6 η : Συμπίεση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 6 η : Συμπίεση Εικόνας Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής Σκοποί ενότητας Εισαγωγή στη συμπίεση εικόνας Μη απωλεστικες

Διαβάστε περισσότερα

Β1.1 Αναπαράσταση Δεδομένων και Χωρητικότητα Μονάδων Αποθήκευσης

Β1.1 Αναπαράσταση Δεδομένων και Χωρητικότητα Μονάδων Αποθήκευσης Β1.1 Αναπαράσταση Δεδομένων και Χωρητικότητα Μονάδων Αποθήκευσης Τι θα μάθουμε σήμερα: Να αναφέρουμε τον τρόπο αναπαράστασης των δεδομένων (δυαδικό σύστημα) Να αναγνωρίζουμε πώς γράμματα και σύμβολα από

Διαβάστε περισσότερα

Συμπίεση Πολυμεσικών Δεδομένων

Συμπίεση Πολυμεσικών Δεδομένων Συμπίεση Πολυμεσικών Δεδομένων Εισαγωγή στο πρόβλημα και επιλεγμένες εφαρμογές Παράδειγμα 2: Συμπίεση Εικόνας ΔΠΜΣ ΜΥΑ, Ιούνιος 2011 Εισαγωγή (1) Οι τεχνικές συμπίεσης βασίζονται στην απόρριψη της πλεονάζουσας

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης Θρασύβουλος Γ. Τσιάτσος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #11 Suffix Arrays Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης Το παρόν

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Φροντιστήριο 2

Ανάκτηση Πληροφορίας. Φροντιστήριο 2 Ανάκτηση Πληροφορίας Φροντιστήριο 2 Τσιράκης Νίκος Νοέμβριος 2007 2 Περιεχόμενα Querying Lexicon access Μοντέλα Φυλλομέτρησης 3 Querying 4 Querying Πως χρησιμοποιούμε ένα ευρετήριο για να εντοπίσουμε πληροφορίες

Διαβάστε περισσότερα

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1 Κατακερματισμός 4/3/2009 Μ.Χατζόπουλος 1 H ιδέα που βρίσκεται πίσω από την τεχνική του κατακερματισμού είναι να δίνεται μια συνάρτησης h, που λέγεται συνάρτηση κατακερματισμού ή παραγωγής τυχαίων τιμών

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές

Διαβάστε περισσότερα

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Δεντρικά Ευρετήρια. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Δεντρικά Ευρετήρια 1 Δέντρα Αναζήτησης Ένα δέντρο αναζήτησης (search tree) τάξεως p είναι ένα δέντρο τέτοιο ώστε κάθε κόμβος του περιέχει το πολύ p - 1 τιμές αναζήτησης και ρ δείκτες ως εξής P 1 K 1 P

Διαβάστε περισσότερα

Αριθμητικά Συστήματα

Αριθμητικά Συστήματα Αριθμητικά Συστήματα Οργάνωση Δεδομένων (1/2) Bits: Η μικρότερη αριθμητική μονάδα ενός υπολογιστικού συστήματος, η οποία δείχνει δύο καταστάσεις, 0 ή 1 (αληθές η ψευδές). Nibbles: Μονάδα 4 bit που παριστά

Διαβάστε περισσότερα

Μάθημα 7 ο. Συμπίεση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Μάθημα 7 ο. Συμπίεση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1 Μάθημα 7 ο Συμπίεση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1 Εισαγωγή (1) Οι τεχνικές συμπίεσης βασίζονται στην απόρριψη της πλεονάζουσας πληροφορίας Ανάγκες που καλύπτονται Εξοικονόμηση μνήμης Ελάττωση χρόνου και εύρους

Διαβάστε περισσότερα

Introduction to Information Retrieval

Introduction to Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης Βάση

Διαβάστε περισσότερα

Θέματα Συστημάτων Πολυμέσων

Θέματα Συστημάτων Πολυμέσων Θέματα Συστημάτων Πολυμέσων Ενότητα # 6: Στοιχεία Θεωρίας Πληροφορίας Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 1. Ανάκτηση Boole Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων Γνωριμία ιδάσκων: Χρήστος

Διαβάστε περισσότερα

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Δεδομένων (Information Retrieval) Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας

Διαβάστε περισσότερα

Συστήματα Αρίθμησης. Συστήματα Αρίθμησης 1. PDF created with FinePrint pdffactory Pro trial version

Συστήματα Αρίθμησης. Συστήματα Αρίθμησης 1. PDF created with FinePrint pdffactory Pro trial version Συστήματα Αρίθμησης Στην καθημερινή μας ζωή χρησιμοποιούμε το δεκαδικό σύστημα αρίθμησης. Στο σύστημα αυτό χρησιμοποιούμε δέκα διαφορετικά σύμβολα τα :,, 2, 3, 4, 5, 6,7 8, 9. Για τον αριθμό 32 θα χρειαστούμε

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Φροντιστήριο 3

Ανάκτηση Πληροφορίας. Φροντιστήριο 3 Ανάκτηση Πληροφορίας Φροντιστήριο 3 Τσιράκης Νίκος Νοέμβριος 2007 2 Περιεχόμενα Ανεστραμμένα Αρχεία Εισαγωγή Δημιουργία Συμπίεση Πιθανοτικά Μοντέλα 3 Ανεστραμμένα Αρχεία 4 Εισαγωγή Με ποιους τρόπους μπορούμε

Διαβάστε περισσότερα

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1 Αρχές κωδικοποίησης Απαιτήσεις κωδικοποίησης Είδη κωδικοποίησης Κωδικοποίηση εντροπίας Διαφορική κωδικοποίηση Κωδικοποίηση μετασχηματισμών Στρωματοποιημένη κωδικοποίηση Κβαντοποίηση διανυσμάτων Τεχνολογία

Διαβάστε περισσότερα

4. Κατασκευή Ευρετηρίου

4. Κατασκευή Ευρετηρίου Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 4. Κατασκευή Ευρετηρίου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων Πλάνο Προηγούμενο

Διαβάστε περισσότερα

Εισαγωγή στην Πληροφορική. Α σ κ ή σ ε ι ς σ τ η ν ι α χ ε ί ρ ι σ η Μ ν ή µ η ς. Αντώνης Σταµατάκης

Εισαγωγή στην Πληροφορική. Α σ κ ή σ ε ι ς σ τ η ν ι α χ ε ί ρ ι σ η Μ ν ή µ η ς. Αντώνης Σταµατάκης Εισαγωγή στην Πληροφορική Α σ κ ή σ ε ι ς σ τ η ν ι α χ ε ί ρ ι σ η Μ ν ή µ η ς Αντώνης Σταµατάκης Μονάδες µέτρησης µνήµης Η βασική µονάδα µέτρησης της µνήµης στα υπολογιστικά συστήµατα είναι το µπάιτ

Διαβάστε περισσότερα

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing)

Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing) Διάλεξη 22: Τεχνικές Κατακερματισμού I (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ανασκόπηση Προβλήματος και Προκαταρκτικών Λύσεων Bit Διανύσματα Τεχνικές Κατακερματισμού & Συναρτήσεις

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 4: Ανάκτηση Ανεκτική στα Σφάλματα 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Δομές δεδομένων για Λεξικά

Διαβάστε περισσότερα

Τελική Εξέταση, Απαντήσεις/Λύσεις

Τελική Εξέταση, Απαντήσεις/Λύσεις ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών (ΗΜΜΥ) HMΜY 212 Οργάνωση Η/Υ και Μικροεπεξεργαστές Εαρινό Εξάμηνο, 2007 Τελική Εξέταση, Απαντήσεις/Λύσεις Άσκηση 1: Assembly για

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 6η: 08/03/2016 1 Διόρθωση πληκτρολόγησης 2 Sec. 3.3 Διόρθωση πληκτρολόγησης Δυο κύριες χρήσεις Διόρθωση εγγράφων που θα εισαχθούν

Διαβάστε περισσότερα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βασικές Έννοιες Προγραμματισμού. Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βασικές Έννοιες Προγραμματισμού. Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Βασικές Έννοιες Προγραμματισμού Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Αριθμητικά συστήματα Υπάρχουν 10 τύποι ανθρώπων: Αυτοί

Διαβάστε περισσότερα

Αντισταθμιστική ανάλυση

Αντισταθμιστική ανάλυση Αντισταθμιστική ανάλυση Θεωρήστε έναν αλγόριθμο Α που χρησιμοποιεί μια δομή δεδομένων Δ : Κατά τη διάρκεια εκτέλεσης του Α η Δ πραγματοποιεί μία ακολουθία από πράξεις. Παράδειγμα: Θυμηθείτε το πρόβλημα

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών

Εισαγωγή στην επιστήμη των υπολογιστών Εισαγωγή στην επιστήμη των υπολογιστών Υπολογιστές και Δεδομένα Κεφάλαιο 3ο Αναπαράσταση Αριθμών www.di.uoa.gr/~organosi 1 Δεκαδικό και Δυαδικό Δεκαδικό σύστημα 2 3 Δεκαδικό και Δυαδικό Δυαδικό Σύστημα

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΛΥΣΗ ΣΤΗΝ ΕΥΤΕΡΗ ΑΣΚΗΣΗ ΜΑΘΗΜΑ ΒΑΣΕΙΣ Ε ΟΜΕΝΩΝ ΑΚΑ. ΕΤΟΣ 2012-13 Ι ΑΣΚΟΝΤΕΣ Ιωάννης Βασιλείου Καθηγητής, Τοµέας Τεχνολογίας

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα Αλγόριθμοι και Πολυπλοκότητα Ανάλυση Αλγορίθμων Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ανάλυση Αλγορίθμων Η ανάλυση αλγορίθμων περιλαμβάνει τη διερεύνηση του τρόπου

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

Διάλεξη 20: Χαμηλού Επιπέδου Προγραμματισμός II

Διάλεξη 20: Χαμηλού Επιπέδου Προγραμματισμός II Τμήμα Πληροφορικής Πανεπιστήμιο Κύπρου ΕΠΛ132 Αρχές Προγραμματισμού II Διάλεξη 20: Χαμηλού Επιπέδου Προγραμματισμός II (Κεφάλαια 25.2, KNK-2ED) Δημήτρης Ζεϊναλιπούρ http://www.cs.ucy.ac.cy/courses/epl132

Διαβάστε περισσότερα

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο

Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο Κατακερµατισµός 1 Οργάνωση Αρχείων (σύνοψη) Οργάνωση αρχείων: πως είναι τοποθετηµένες οι εγγραφές ενός αρχείου όταν αποθηκεύονται στο δίσκο 1. Αρχεία Σωρού 2. Ταξινοµηµένα Αρχεία Φυσική διάταξη των εγγραφών

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 7: Κατάλογοι Υπογραφών Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #08 Συµπίεση Κειµένων Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια χρήσης

Διαβάστε περισσότερα

Εισαγωγή στους Υπολογιστές

Εισαγωγή στους Υπολογιστές Εισαγωγή στους Υπολογιστές Ενότητα #2: Αναπαράσταση δεδομένων Αβεβαιότητα και Ακρίβεια Καθ. Δημήτρης Ματαράς Πολυτεχνική Σχολή Τμήμα Χημικών Μηχανικών Αναπαράσταση δεδομένων (Data Representation), Αβεβαιότητα

Διαβάστε περισσότερα

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1 Αρχές κωδικοποίησης Απαιτήσεις κωδικοποίησης Είδη κωδικοποίησης Βασικές τεχνικές κωδικοποίησης Κωδικοποίηση Huffman Κωδικοποίηση µετασχηµατισµών Κβαντοποίηση διανυσµάτων ιαφορική κωδικοποίηση Τεχνολογία

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Συστήματα Διαχείρισης Βάσεων Δεδομένων Άσκηση 1 Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών HY460 Συστήματα Διαχείρισης Βάσεων Δεδομένων Διδάσκοντες: Δημήτρης

Διαβάστε περισσότερα

Κεφάλαιο 5 Ανάλυση Αλγορίθμων

Κεφάλαιο 5 Ανάλυση Αλγορίθμων Κεφάλαιο 5 Ανάλυση Αλγορίθμων 5.1 Επίδοση αλγορίθμων Τα πρωταρχικά ερωτήματα που προκύπτουν είναι: 1. πώς υπολογίζεται ο χρόνος εκτέλεσης ενός αλγορίθμου; 2. πώς μπορούν να συγκριθούν μεταξύ τους οι διάφοροι

Διαβάστε περισσότερα

Δύο είναι οι κύριες αιτίες που μπορούμε να πάρουμε από τον υπολογιστή λανθασμένα αποτελέσματα εξαιτίας των σφαλμάτων στρογγυλοποίησης:

Δύο είναι οι κύριες αιτίες που μπορούμε να πάρουμε από τον υπολογιστή λανθασμένα αποτελέσματα εξαιτίας των σφαλμάτων στρογγυλοποίησης: Ορολογία bit (binary digit): δυαδικό ψηφίο. Τα δυαδικά ψηφία είναι το 0 και το 1 1 byte = 8 bits word: η θεμελιώδης μονάδα σύμφωνα με την οποία εκπροσωπούνται οι πληροφορίες στον υπολογιστή. Αποτελείται

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing)

Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 1 Διάλεξη 23: Τεχνικές Κατακερματισμού II (Hashing) Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Διαχείριση Συγκρούσεων με Ανοικτή Διεύθυνση a) Linear

Διαβάστε περισσότερα

! Εάν ο αριθμός διαθέτει περισσότερα bits, χρησιμοποιούμε μεγαλύτερες δυνάμεις του 2. ! Προσοχή στη θέση του περισσότερο σημαντικού bit!

! Εάν ο αριθμός διαθέτει περισσότερα bits, χρησιμοποιούμε μεγαλύτερες δυνάμεις του 2. ! Προσοχή στη θέση του περισσότερο σημαντικού bit! Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 25-6 Πράξεις με δυαδικούς αριθμούς (αριθμητικές ) http://di.ionio.gr/~mistral/tp/csintro/ Αριθμοί Πράξεις με δυαδικούς αριθμούς

Διαβάστε περισσότερα

Πράξεις με δυαδικούς αριθμούς

Πράξεις με δυαδικούς αριθμούς Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 25-6 Πράξεις με δυαδικούς αριθμούς (αριθμητικές πράξεις) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Πράξεις με δυαδικούς

Διαβάστε περισσότερα

Διάλεξη 3: Προγραμματισμός σε JAVA I. Διδάσκων: Παναγιώτης Ανδρέου

Διάλεξη 3: Προγραμματισμός σε JAVA I. Διδάσκων: Παναγιώτης Ανδρέου Διάλεξη 3: Προγραμματισμός σε JAVA I Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Εισαγωγή στις έννοιες: - Στοιχειώδης Προγραμματισμός - Προγραμματισμός με Συνθήκες - Προγραμματισμός με Βρόγχους

Διαβάστε περισσότερα

Φροντιστήριο Αποθήκευση σε δίσκο, βασικές οργανώσεις αρχείων κατακερματισμός και δομές ευρετηρίων για αρχεία

Φροντιστήριο Αποθήκευση σε δίσκο, βασικές οργανώσεις αρχείων κατακερματισμός και δομές ευρετηρίων για αρχεία ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι Φροντιστήριο 17-1-2011 Αποθήκευση σε δίσκο, βασικές οργανώσεις αρχείων κατακερματισμός και δομές ευρετηρίων για αρχεία Θεωρία Άτρακτος/αυλάκι : ομόκεντροι κύκλοι στον δίσκο Κύλινδρος:

Διαβάστε περισσότερα

Τμήμα Λογιστικής. Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. Μαθήματα 6 και 7 Αναπαράσταση της Πληροφορίας στον Υπολογιστή. 1 Στέργιος Παλαμάς

Τμήμα Λογιστικής. Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. Μαθήματα 6 και 7 Αναπαράσταση της Πληροφορίας στον Υπολογιστή. 1 Στέργιος Παλαμάς ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας Τμήμα Λογιστικής Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές Μαθήματα 6 και 7 Αναπαράσταση της Πληροφορίας στον Υπολογιστή 1 1. Αριθμοί: Το Δυαδικό Σύστημα Οι ηλεκτρονικοί υπολογιστές

Διαβάστε περισσότερα

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Αρχεία ευρετηρίου Κατάλογος ΒΑΣΗ Ε ΟΜΕΝΩΝ Αρχεία δεδομένων συστήματος Σύστημα Βάσεων εδομένων (ΣΒ ) 2 :

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή

Διαβάστε περισσότερα

Εισαγωγή στον Προγραμματισμό

Εισαγωγή στον Προγραμματισμό Εισαγωγή στον Προγραμματισμό Ακαδημαϊκό Έτος 2010-2011 Επιμέλεια Ξενοφών Βασιλάκος Περιεχόμενα Φροντιστηρίου 1. Κωδικοποίηση και Δυαδική Αναπαράσταση 2. Κωδικοποίηση ASCII Κωδικοποίηση Unicode Εισαγωγή

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 19 Hashing - Κατακερματισμός 1 / 23 Πίνακες απευθείας πρόσβασης (Direct Access Tables) Οι πίνακες απευθείας

Διαβάστε περισσότερα

2.1. Εντολές. 2.2. Σχόλια. 2.3. Τύποι Δεδομένων

2.1. Εντολές. 2.2. Σχόλια. 2.3. Τύποι Δεδομένων 2 Βασικές Εντολές 2.1. Εντολές Οι στην Java ακολουθούν το πρότυπο της γλώσσας C. Έτσι, κάθε εντολή που γράφουμε στη Java θα πρέπει να τελειώνει με το ερωτηματικό (;). Όπως και η C έτσι και η Java επιτρέπει

Διαβάστε περισσότερα