6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Save this PDF as:
 WORD  PNG  TXT  JPG

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου"

Transcript

1 Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων

2 Περίληψη 5 ου Μαθήματος Στατιστικά συλλογής και λεξικού: Νόμοι Heap και Zipf Συμπίεση λεξικού για ευρετήρια Boole Το λεξικό σαν αλφαριθμητικό, αποθήκευση κατά μπλοκ, front coding Συμπίεση λιστών καταχώρησης: κωδικοποίηση κενών, κωδικοί ελεύθεροι προθεμάτων (prefix-unique codes) Κωδικοί Variable-Byte και Γάμμα collection (text, xml markup etc) 3,600.0 MB collection (text) Term-doc incidence matrix 40,000.0 postings, uncompressed (32-bit words) postings, uncompressed (20 bits) postings, variable byte encoded postings, encoded May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 2

3 Σημερινό Μάθημα (Κεφάλαια ) Ανάκτηση με κατάταξη (Ranked retrieval) Βαθμολόγηση εγγράφων (Scoring documents) Συχνότητα όρου (Term frequency) Στατιστικά συλλογής (Collection statistics) Τρόποι στάθμισης (Weighting schemes) Βαθμολόγηση διανυσματικού χώρου (Vector space scoring) May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 3

4 Ανάκτηση με Κατάταξη Κεφάλαιο 6 Μέχρι τώρα, όλα τα ερωτήματα ήταν Boole Ένα έγγραφο είτε ταιριάζει με το ερώτημα είτε όχι Καλός τρόπος ανάκτησης για χρήστες που γνωρίζουν επακριβώς τις ανάγκες τους και τη συλλογή δεδομένων Επίσης καλό για εφαρμογές: Οι εφαρμογές μπορούν εύκολα να διαχειριστούν χιλιάδες αποτελέσματα εν είναι όμως καλός για την πλειοψηφία των χρηστών Οι περισσότεροι χρήστες δεν είναι ικανοί να γράφουν ερωτήματα Boole (ή και εάν είναι, το θεωρούν επίπονο) Οι περισσότεροι χρήστες δεν επιθυμούν να εξετάζουν χιλιάδες αποτελεσμάτων που είναι ισοδύναμα μεταξύ τους Αυτό ισχύει ειδικά για την αναζήτηση στον Παγκόσμιο Ιστό May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 4

5 Το Πρόβλημα της Ανάκτησης Boole Κεφάλαιο 6 Τα ερωτήματα Boole συχνά επιστρέφουν πολύ λίγα (=0) ή πάρα πολλά (χιλιάδες) αποτελέσματα Query 1: standard user dlink ,000 hits Query 2: standard user dlink 650 no card found : 0 hits Χρειάζονται ιδιαίτερες ικανότητες για να διατυπωθεί ένα ερώτημα που να επιστρέφει ένα διαχειρίσιμο αριθμό αποτελεσμάτων Το AND φέρνει πολύ λίγα, ενώ το OR πάρα πολλά May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 5

6 Μοντέλα Ανάκτησης με Κατάταξη Κεφάλαιο 6 Αντί για ένα σύνολο εγγράφων που ικανοποιεί το ερώτημα, στην ανάκτηση με κατάταξη (ranked retrieval), το σύστημα επιστρέφει μια κατάταξη των (κορυφαίων) εγγράφων στη συλλογή για το δοθέν ερώτημα Ερωτήματα ελεύθερου κειμένου (free text queries): αντί για μια γλώσσα επερώτησης με τελεστές και εκφράσεις, το ερώτημα του χρήστη είναι απλά μία ή μερικές λέξεις Ενώ αυτές είναι δύο διακριτές/διαφορετικές επιλογές, στην πράξη η ανάκτηση με κατάταξη έχει συσχετιστεί με ερωτήματα ελεύθερου κειμένου και αντίστροφα May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 6

7 Έλλειψη Προβλήματος Λίγων ή Πάρα Πολλών Αποτελεσμάτων Κεφάλαιο 6 Όταν ένα σύστημα παράγει ένα σύνολο αποτελεσμάτων με κατάταξη (ranked result set), τα τεράστια σύνολα αποτελεσμάτων δεν αποτελούν πρόβλημα Απλά εμφανίζονται τα top k ( 10) αποτελέσματα ε δυσκολεύεται ο χρήστης Προϋπόθεση: ο αλγόριθμος κατάταξης δουλεύει καλά May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 7

8 Στάθμιση (Scoring): Η Βάση της Κεφάλαιο 6 Ανάκτησης με Κατάταξη Επιθυμούμε να επιστρέψουμε τα έγγραφα με μια σειρά που είναι η πιθανότερη να είναι χρήσιμη στο χρήστη Πώς μπορούμε να κατατάξουμε τα έγγραφα μιας συλλογής ως προς ένα ερώτημα; Θα αναθέτουμε σε κάθε έγγραφο μια βαθμολογία (score) π.χ. στο διάστημα [0, 1] Αυτή η βαθμολογία δείχνει πόσο καλά «ταιριάζουν» έγγραφο και ερώτημα May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 8

9 Βαθμολογίες Ταιριάσματος Κεφάλαιο 6 Ερωτήματος-Εγγράφου Χρειαζόμαστε έναν τρόπο ανάθεσης βαθμολογίας σε ένα ζεύγος ερωτήματος-εγγράφου Ας ξεκινήσουμε με ένα ερώτημα που περιέχει έναν όρο Εάν ο όρος του ερωτήματος δεν υπάρχει στο έγγραφο: η βαθμολογία είναι 0 Όσο συχνότερα εμφανίζεται ο όρος ερωτήματος στο έγγραφο, τόσο υψηλότερη (θα έπρεπε να) είναι η βαθμολογία Θα εξετάσουμε διάφορες εναλλακτικές λύσεις για αυτό May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 9

10 Κεφάλαιο 6 Πρώτη Προσπάθεια: Jaccard Coefficient Θυμόμαστε από το μάθημα 3: ένα ευρέως χρησιμοποιούμενο μέτρο που δείχνει την τομή δύο συνόλων A και B jaccard(a,b) = A B / A B jaccard(a,a) = 1 jaccard(a,b) = 0 if A B = 0 Τα A και B δε χρειάζεται απαραίτητα να έχουν το ίδιο πλήθος στοιχείων Πάντα παράγει ένα αριθμό μεταξύ 0 και 1 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 10

11 Jaccard Coefficient: Παράδειγμα Κεφάλαιο 6 Βαθμολόγησης Ποια είναι η βαθμολογία ταιριάσματος ερωτήματος-εγγράφου με χρήση της Jaccard coefficient για καθένα από τα παρακάτων έγγραφα; Query: ides of march Document 1: caesar died in march Document 2: the long march May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 11

12 Ζητήματα από τη Χρήση της Jaccard Κεφάλαιο 6 ε λαμβάνει υπόψιν τη συχνότητα όρου (term frequency) (πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο) Οι σπάνιοι όροι μιας συλλογής περιέχουν περισσότερο πληροφοριακό περιεχόμενο από ότι οι συχνοί όροι Η Jaccard δε λαμβάνει κάτι τέτοιο υπόψιν Χρειαζόμαστε έναν πιο εκλεπτυσμένο τρόπο κανονικοποίησης με βάση το μήκος Αργότερα σε αυτό το μάθημα θα χρησιμοποιήσουμε A B / A... αντί για A B / A B (Jaccard) για κανονικοποίηση του μήκος B May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 12

13 Υπενθύμιση (1 ο Μάθημα): Μήτρα Σύμπτωσης Όρων-Εγγράφων Κεφάλαιο 6.2 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser Κάθε έγγραφο αναπαρίσταται με ένα δυαδικό διάνυσμα {0,1} V May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 13

14 Πίνακας Συχνοτήτων Όρων Κεφάλαιο 6.2 Λαμβάνουμε υπόψιν το πλήθος εμφανίσεων κάθε όρου σε ένα έγγραφο Κάθε έγγραφο είναι ένα διάνυσμα αριθμών (πλήθη εμφανίσεων όρων) Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 14

15 Σάκος Λέξεων (Bag of Words) Η διανυσματική αναπαράσταση δε λαμβάνει υπόψιν τη σειρά εμφάνισης όρων σε έγγραφα John is quicker than Mary και Mary is quicker than John έχουν τα ίδια διανύσματα Αυτό το μοντέλο αναπαράστασης λέγεται σάκος λέξεων (bag of words) Υπό μία έννοια, αυτό είναι ένα βήμα προς τα πίσω: το ευρετήριο θέσης (positional index) είχε τη δυνατότητα να διακρίνει αυτά τα δύο έγγραφα Θα δούμε αργότερα σε αυτό το μάθημα πώς μπορούμε να χρησιμοποιήσουμε πληροφορία θέσης Για τώρα: χρησιμοποιούμε το μοντέλο σάκου λέξεων May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 15

16 Συχνότητα Όρου tf (term frequency) Η συχνότητα tf t,d ενός όρου t σε ένα έγγραφο d ορίζεται ως το πλήθος εμφανίσεων του t στο d Επιθυμούμε να χρησιμοποιήσουμε τη συχνότητα tf όταν υπολογίζουμε τη βαθμολόγηση ταιριάσματος ερωτήματος-εγγράφου. Όμως πώς; Η απλή συχνότητα όρου δεν είναι αυτό που θέλουμε: Ένα έγγραφο με 10 εμφανίσεις όρου είναι πιο σχετικό από ότι ένα έγγραφο με 1 εμφάνιση του όρου Όμως δεν είναι 10 φορές πιο σχετικό Η σχετικότητα (relevance) δεν αυξάνεται αναλογικά με τη συχνότητα εμφάνισης όρου ΣΗΜ: Συχνότητα (frequency) = πλήθος στην ΑΠ May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 16

17 Στάθμιση Log-frequency Κεφάλαιο 6.2 Το βάρος log frequency ενός όρου t στο d είναι w t,d 0 0, 1 1, 2 1.3, 10 2, , κτλ. Η βαθμολογία ενός ζεύγους έγγραφουερωτήματος: άθροισμα όλων των βαρών των όρων t τόσο στο ερώτημα q και στο έγγραφο d: Βαθμολογία 1 log 10 tf t,d, if tf t,d 0, otherwise t q d (1 log tf t, d ) Η βαθμολογία είναι 0 εάν κανείς όρος δεν υπάρχει στο έγγραφο 0 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 17

18 Κεφάλαιο Συχνότητα Εγγράφων (Document Frequency) Σπάνιοι όροι περιέχουν περισσότερο πληροφοριακό περιεχόμενο από συχνούς όρους Θυμηθείτε τις stop words Ας θεωρήσουμε έναν όρο ερωτήματος που είναι σπάνιος στη συλλογή εγγράφων (π.χ., arachnocentric) Ένα έγγραφο που περιέχει τον όρο αυτό, είναι πολύ πιθανό σε είναι σχετικό με το ερώτημα arachnocentric Επιθυμούμε υψηλό βάρος για σπάνιους όρους όπως το arachnocentric May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 18

19 Συχνότητα Εγγράφων (συνέχεια) Κεφάλαιο Οι συχνοί όροι περιέχουν λιγότερο πληροφοριακό περιεχόμενο από σπάνιους όρους Ας θεωρήσουμε έναν όρο ερωτήματος που είναι συχνός σε μια συλλογή (π.χ., high, increase, line) Ένα έγγραφο που περιέχει τέτοιο όρο είναι πιο πιθανό να είναι σχετικό από κάποιο έγγραφο που δεν τον περιέχει Όμως δεν είναι βέβαιος δείκτης ότι είναι σχετικό Για συχνούς όρους, θέλουμε υψηλά βάρη για όρους όπως high, increase, και line Αλλά χαμηλότερα βάρη από ότι για σπάνιους όρους Θα χρησιμοποιήσουμε τη συχνότητα εγγράφων - document frequency (df) για αυτό το σκοπό May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 19

20 Βάρος idf Κεφάλαιο Η df t είναι η συχνότητα εγγράφου (document frequency) του όρου t: το πλήθος εγγράφων που περιέχουν τον όρο t Η df t είναι αντίστροφο μέτρο του πληροφοριακού περιεχομένου του όρου t df t N Ορίζουμε την αντίστροφη συχνότητα εγγράφων idf (inverse document frequency) του όρου t idf log ( N/df ) t 10 t Χρησιμοποιούμε log (N/df t ) αντί για N/df t ώστε να ελαφρύνουμε την επίδραση του idf Θα δούμε ότι η βάση του λογάριθμου δεν επηρεάζει την κατάταξη May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 20

21 Παράδειγμα idf, έστω N=1M Κεφάλαιο term df t idf t calpurnia 1 6 animal sunday 1,000 3 fly 10,000 2 under 100,000 1 the 1,000,000 0 idf log ( N/df t 10 t ) Υπάρχει μία idf τιμή για κάθε όρο t σε μια συλλογή May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 21

22 Επίδραση του idf στην Κατάταξη Έχει (;) το idf επίδραση στην κατάταξη για ερωτήματα ενός όρου, όπως iphone Το idf δεν έχει επίδραση στην κατάταξη τέτοιων ερωτημάτων Το idf επηρεάζει την κατάταξη εγγράφων για ερωτήματα τουλάχιστον δύο όρων Για το ερώτημα capricious person, το idf βάρος κάνει τις εμφανίσεις του capricious να μετρούν πολύ περισσότερο στην τελική κατάταξη από ότι οι εμφανίσεις του person May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 22

23 Collection vs. Document frequency Κεφάλαιο Η συχνότητα συλλογής (collection frequency) του t είναι το πλήθος εμφανίσεων του t στη συλλογή, μετρώντας πολλαπλές εμφανίσεις Παράδειγμα: Word Collection frequency Document frequency insurance try Ποια λέξη είναι καλύτερος όρος αναζήτησης (και θα έπρεπε να έχει υψηλότερο βάρος); May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 23

24 Στάθμιση tf-idf Κεφάλαιο Το tf-idf βάρος ενός όρου είναι το γινόμενο του tf βάρους και του idf βάρους w log(1 tf ) log t, d 10 ( N / df t, d t ) Είναι η καλύτερη από τις γνωστές μεθόδους στάθμισης στην ΑΠ Σημείωση: η παύλα - στο tf-idf είναι ενωτικό (hyphen), όχι το πλην! Εναλλακτικές ονομασίες: tf.idf, tf x idf Αυξάνεται με το πλήθος των εμφανίσεων σε ένα έγγραφο Αυξάνεται με τη σπανιότητα του όρου στη συλλογή May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 24

25 Κεφάλαιο Βαθμολόγηση Εγγράφου ως προς Ερώτημα Υπάρχουν πολλές παραλλαγές Πώς υπολογίζεται το tf (με/χωρίς λογάριθμο) Κατά πόσο οι όροι του ερωτήματος έχουν βάρη May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 25

26 Πίνακας Δυαδικών Τιμών Συχνοτήτων Βαρών Κεφάλαιο 6.3 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony Brutus Caesar Calpurnia Cleopatra mercy worser Κάθε έγγραφο αναπαρίσταται σαν ένα διάνυσμα πραγματικών τιμών από tf-idf βάρη R V May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 26

27 Διάνυσμα Εγγράφου Κεφάλαιο 6.3 Καταλήγουμε σε ένα μοντέλο διανυσματικού χώρου V διαστάσεων ( V -dimensional vector space) Οι όροι είναι οι άξονες του χώρου Τα έγγραφα είναι σημεία ή διανύσματα του χώρου Ιδιαίτερα υψηλή διάσταση: δεκάδες εκατομμυρίων διαστάσεις όταν μιλάμε για μηχανές αναζήτησης του Παγκόσμιου Ιστού Πρόκειται για πολύ αραιά διανύσματα οι περισσότερες τιμές είναι μηδενικές May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 27

28 Τα Ερωτήματα ως Διανύσματα Κεφάλαιο 6.3 Βασική ιδέα 1: Ας κάνουμε το ίδιο για τα ερωτήματα: τα αναπαριστούμε σαν διανύσματα στο χώρο Βασική ιδέα 2: Κατάταξη των εγγράφων με βάση την εγγύτητά τους στο ερώτημα στο χώρο αυτό Εγγύτητα (proximity) = ομοιότητα διανυσμάτων Εγγύτητα το αντίστροφο της απόστασης Θυμηθείτε: Το κάνουμε αυτό για να ξεφύγουμε από το Boolean μοντέλο ανάκτησης Αντίθετα: κατατάσουμε πιο σχετικά έγγραφα υψηλότερα από λιγότερο σχετικά έγγραφα May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 28

29 Τυπικός Ορισμός Εγγύτητας Κεφάλαιο 6.3 Πρώτη προσέγγιση: η απόσταση μεταξύ δύο σημείων ( = η απόσταση μεταξύ των τελικών σημείων δύο διανυσμάτων) Ευκλείδια απόσταση (Euclidean distance)? Η ευκλείδια απόσταση δεν είναι καλή ιδέα διότι η ευκλείδια απόσταση είναι μεγάλη για διανύσματα διαφορετικού μήκους May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 29

30 Γιατί η Απόσταση είναι Κακή Ιδέα Κεφάλαιο 6.3 Η ευκλείδια απόσταση μεταξύ του q και του d 2 είναι μεγάλη ακόμη κι αν η κατανομή των όρων στο q και η κατανομή των όρων στο d 2 είναι πολύ όμοια May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 30

31 Κεφάλαιο 6.3 Χρήση της Γωνίας αντί της Απόστασης Ας σκεφτούμε το εξής: ας πάρουμε ένα έγγραφο d και ας το επικολλήσουμε στον εαυτό του (ας το διπλασιάσουμε) έστω d το νέο έγγραφο Σημασιολογικά τα d και d έχουν το ίδιο περιεχόμενο Η ευκλείδια απόσταση μεταξύ των δύο εγγράφων μπορεί να είναι αρκετά μεγάλη Η γωνία μεταξύ δύο εγγράφων είναι 0, που αντιστοιχεί στη μέγιστη ομοιότητα Βασική ιδέα: Ας κατατάξουμε τα έγγραφα με βάση τη γωνία τους με το ερώτημα May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 31

32 Από Γωνίες σε Συνημίτονα Κεφάλαιο 6.3 Οι δύο ακόλουθες έννοιες είναι ισοδύναμες Κατάταξη εγγράφων σε αύξουσα σειρά γωνιών μεταξύ ερωτήματος και εγγράφου Κατάταξη εγγράφων σε φθίνουσα σειρά συνημιτόνου: cosine(query, document) Η συνάρτηση συνημίτονο (cosine) είναι μονοτονικά φθίνουσα συνάρτηση στο διάστημα [0 o, 180 o ] May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 32

33 Από Γωνίες σε Συνημίτονα Κεφάλαιο 6.3 Όμως πώς και γιατί θα πρέπει να υπολογίσουμε συνημίτονα; May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 33

34 Κανονικοποίηση Μήκους Κεφάλαιο 6.3 Ένα διάνυσμα μπορεί να κανονικοποιηθεί ως προς το μήκος διαιρώντας κάθε συντεταγμένη του με το μήκος (χρησιμοποιώντας την L 2 norm) Η διαίρεση ενός διανύσματος με την L 2 norm του το κάνει διάνυσμα μοναδιαίου μήκους (unit length vector), δηλαδή βρίσκεται στην επιφάνεια της μοναδιαίας υπερσφαίρας Το αποτέλεσμα για τα δύο έγγραφα d και d (το d έχει επικολληθεί στον εαυτό του) από προηγουμένως: έχουν ίδια διανύσματα μετά την κανονικοποίηση x 2 Άρα τώρα μεγάλα και μικρά έγγραφα έχουν συγκρίσιμα βάρη i x 2 i May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 34

35 cosine(query, document) May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 35 Κεφάλαιο 6.3 V i i V i i V i i i d q q d d d q q d q d q d q ), cos( Dot product Unit vectors q i είναι το tf-idf βάρος του όρου i στο ερώτημα d i είναι το tf-idf βάρος του όρου i στο έγγραφο cos(q,d) είναι η συνημιτονοειδής ομοιότητα (cosine similarity) του q και του d ή, ισοδύναμα, το συνημίτονο της γωνίας μεταξύ q και d

36 Το Συνημίτονο για Κανονικοποιημένα Διανύσματα Για κανονικοποιημένα διανύσματα, η συνημιτονοειδής ομοιότητα (cosine similarity) είναι απλά το εσωτερικό γινόμενο: για κανονικοποιημένα q, d May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 36

37 Η Συνημιτονοειδής Ομοιότητα Γραφικά May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 37

38 Η Συνημιτονοειδής Ομοιότητα Μεταξύ 3 Εγγράφων Κεφάλαιο 6.3 Πόσο όμοια είναι τα βιβλία SaS: Sense and Sensibility PaP: Pride and Prejudice, and WH: Wuthering Heights? term SaS PaP WH affection jealous gossip wuthering Term frequencies (counts) Σημείωση: Για απλότητα, δε θα χρησιμοποιήσουμε idf βάρη May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 38

39 Συνέχεια Παραδείγματος Κεφάλαιο 6.3 Log frequency weighting term SaS PaP WH affection jealous gossip wuthering After length normalization term SaS PaP WH affection jealous gossip wuthering cos(sas,pap) cos(sas,wh) 0.79 cos(pap,wh) 0.69 Γιατί έχουμε cos(sas,pap) > cos(sas,wh)? May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 39

40 Υπολογισμός Βαθμολογιών Κεφάλαιο 6.3 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 40

41 Παραλλαγές Σταθμίσεων tf-idf Κεφάλαιο 6.4 Οι στήλες με επικεφαλίδα n είναι ακρώνυμα για τρόπους στάθμισης Γιατί η βάση του λογάριθμου στο idf δεν παίζει ρόλο; May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 41

42 Η Στάθμιση Μπορεί να αλλάζει από Έγγραφα σε Ερωτήματα Πολλές μηχανές αναζήτησης επιτρέπουν διαφορετικούς τρόπους στάθμισης για ερωτήματα vs. έγγραφα Σημειογραφία SMART: δηλώνει το συνδυασμό που χρησιμοποιείται από τη μηχανή, και συμβολίζεται με ddd.qqq, χρησιμοποιώντας ακρώνυμα του προηγούμενου πίνακα Ένας πολύ κλασικός τρόπος στάθμισης: lnc.ltc Έγγραφο: Κεφάλαιο 6.4 logarithmic tf (l as first character), no idf and cosine normalization Ερώτημα: Είναι κακή ιδέα; logarithmic tf (l in leftmost column), idf (t in second column), no normalization May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 42

43 Κεφάλαιο 6.4 Παράδειγμα tf-idf: lnc.ltc Έγγραφο : car insurance auto insurance Ερώτημα: best car insurance Term Query Document Pro d tfraw tf-wt df idf wt n liz e tf-raw tf-wt wt n liz e auto best car insurance Άσκηση: πόσο είναι το N, το πλήθος εγγράφων? Score = = 0.8 May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 43

44 Περίληψη Κατάταξης στο Μοντέλο Διανυσματικού Χώρου Αναπαράσταση ερωτήματος σαν tf-idf διάνυσμα με βάρη (weighted tf-idf vector) Αναπαράσταση κάθε εγγράφου ως tf-idf διάνυσμα με βάρη Υπολογισμός του cosine similarity score για τα διανύσματα ερωτήματος και εγγράφου Κατάταξη εγγράφων ως προς το ερώτημα με βάση το score Επιστρέφονται τα top K (π.χ., K = 10) αποτελέσματα (έγγραφα) στο χρήστη May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 44

45 Πηγές Αναφοράς Εισαγωγή στην Ανάκτηση Πληροφοριών, κεφάλαια May 10, 2016 Ανάκτηση Πληροφοριών,6ο Εξάμηνο 45

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση

Διαβάστε περισσότερα

Τι (άλλο) θα δούμε σήμερα;

Τι (άλλο) θα δούμε σήμερα; Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου.

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 6, 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση και κατάταξη εγγράφων Στάθμιση

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 5(α): Συμπίεση Ευρετηρίου 1 ΣΤΑΤΙΣΤΙΚΑ ΣΥΛΛΟΓΗΣ 2 Κεφ. 5 Στατιστικά στοιχεία Πόσο μεγάλο είναι το

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6-7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα;

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 8: Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Τι είδαμε στο προηγούμενο μάθημα Βαθμολόγηση

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Τι είδαμε στο προηγούμενο μάθημα Βαθμολόγηση

Διαβάστε περισσότερα

Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Διδάσκων Δημήτριος Κατσαρός

Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Διδάσκων Δημήτριος Κατσαρός Εύρεση & Διαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Διδάσκων Δημήτριος Κατσαρός Διάλεξη 10η: 31/03/2014 1 Problem with Boolean search: feast or famine Ch. 6 Boolean queries often result in either too few

Διαβάστε περισσότερα

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης

7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 7. Υπολογισμός Βαθμολογιών σε ένα Πλήρες Σύστημα Αναζήτησης Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Περίληψη διαβάθμισης

Περίληψη διαβάθμισης Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διαλέξεις6-7: Επανάληψη Διάταξης Εγγράφων. Θέματα Υλοποίησης. Περίληψη Αποτελεσμάτων. 1 Κεφ. 6 Περίληψη διαβάθμισης

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Μοντελοποίηση: Διανυσματικό μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 1η: 20/02/2017 1 Ειζαγωγή ζηο μάθημα & Ειζαγωγή ζηην Ανάκηηζη Πληροθορίας 2 Διδακτικό βοήθημα 1 Καλύπηει ηο ανηικείμενο ηοσ

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 5//013 ο ΓΛΩΣΣΑ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Ενότητες Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Για το πιθανοκρατικό του καθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων Ανάκτηση Πληροφοριών Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 1. Ανάκτηση Boole Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων Γνωριμία ιδάσκων: Χρήστος

Διαβάστε περισσότερα

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006 ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006 Outlne Prevous Semester Exercses Set

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 3η: 28/02/2007 1 Συµπίεση Ευρετηρίου & Term

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university

Διαβάστε περισσότερα

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου Επεξεργασία & Οργάνωση Δεδομένων Εφαρμογές Γλωσσικής Τεχνολογίας Σοφία Στάμου Γλώσσα και Επικοινωνία Κάθε γλωσσικό σύστημα διέπεται από κανόνες για τη χρήση, τη σύνταξη και την ερμηνεία των λέξεων Γιατί

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 6: Συμπίεση Ευρετηρίου 1 Κεφ. 3 Τι είδαμε στο προηγούμενο μάθημα Κατασκευή ευρετηρίου Στατιστικά

Διαβάστε περισσότερα

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο

ΑΣΚΗΣΗ Α. Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2009-2010 ΑΣΚΗΣΗ Α Δεικτοδότηση Συλλογής Κειμένων σε Ανεστραμμένο Ευρετήριο Τα ανεστραμμένα αρχεία αποτελούν μια βασική μορφή ευρετηρίου και μας επιτρέπουν να εντοπίσουμε

Διαβάστε περισσότερα

Εισαγωγή στους Υπολογιστές

Εισαγωγή στους Υπολογιστές Εισαγωγή στους Υπολογιστές Ενότητα #2: Αναπαράσταση δεδομένων Αβεβαιότητα και Ακρίβεια Καθ. Δημήτρης Ματαράς Πολυτεχνική Σχολή Τμήμα Χημικών Μηχανικών Αναπαράσταση δεδομένων (Data Representation), Αβεβαιότητα

Διαβάστε περισσότερα

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Δεδομένων (Information Retrieval) Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας

Διαβάστε περισσότερα

Πιθανοκρατικό μοντέλο

Πιθανοκρατικό μοντέλο Πιθανοκρατικό μοντέλο Το μοντέλο MAP Αλέξανδρος Γκιμπερίτης Βασίλης Μπούργος Δημήτρης Σουραβλιάς 1 Εισαγωγικές έννοιες Κάθε έγγραφο d της συλλογής παριστάνεται από το δυαδικό διάνυσμα x = (x 1, x 2,...,

Διαβάστε περισσότερα

Εισαγωγή στον Προγραμματισμό

Εισαγωγή στον Προγραμματισμό Εισαγωγή στον Προγραμματισμό Ενότητα 3 Λειτουργίες σε Bits, Αριθμητικά Συστήματα Χρήστος Γκουμόπουλος Πανεπιστήμιο Αιγαίου Τμήμα Μηχανικών Πληροφοριακών και Επικοινωνιακών Συστημάτων Φύση υπολογιστών Η

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση

ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαια 4, 5: Κατασκευή Ευρετηρίου. Στατιστικά Συλλογής. Συμπίεση 1 Κεφ. 4-5 Τι θα δούμε σήμερα Κατασκευή ευρετηρίου Στατιστικά για τη συλλογή

Διαβάστε περισσότερα

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση) TETY Εφαρμοσμένα Μαθηματικά Ενότητα ΙΙ: Γραμμική Άλγεβρα Ύλη: Διανυσματικοί χώροι και διανύσματα, μετασχηματισμοί διανυσμάτων, τελεστές και πίνακες, ιδιοδιανύσματα και ιδιοτιμές πινάκων, επίλυση γραμμικών

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος

Διαβάστε περισσότερα

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (3) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (3) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (3) ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 8η: 22/03/2016 1 Ch. 5 Το οφέλη της συμπίεσης (γενικώς) Χρησιμοποιεί λιγότερο χώρο στον δίσκο Σώζει και κάποια χρήματα Διατηρούμε

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 6: Ο Αντεστραμμένος Κατάλογος Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων

ΑΣΚΗΣΗ. Συγκομιδή και δεικτοδότηση ιστοσελίδων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2010-2011 ΑΣΚΗΣΗ Συγκομιδή και δεικτοδότηση ιστοσελίδων Σκοπός της άσκησης είναι η υλοποίηση ενός ολοκληρωμένου συστήματος συγκομιδής και δεικτοδότησης ιστοσελίδων.

Διαβάστε περισσότερα

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 -Συστήματα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάμηνο 4 η Σειρά ασκήσεων (Συμπίεση, Ομαδοποίηση, Ευρετηρίαση Πολυμέσων, Κατανεμημένη Ανάκτηση)

Διαβάστε περισσότερα

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης Βάση

Διαβάστε περισσότερα

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C): CS-463 Information Systems Μοντέλα Ανάκτησης ( Models) Part A Yannis Tzitzikas University of Crete CS-463,Spring 05 Lecture : 3 Date : 1-3- ιάρθρωση PART (A) Ανάκτηση και Φιλτράρισµα Εισαγωγή στα Μοντέλα

Διαβάστε περισσότερα

ΘΕΜΑΤΑ ΤΕΛΙΚΗΣ ΦΑΣΗΣ

ΘΕΜΑΤΑ ΤΕΛΙΚΗΣ ΦΑΣΗΣ 6 ος ΠΑΝΕΛΛΗΝΙΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Θέμα 1 ο : Άθροισμα ζευγών ΘΕΜΑΤΑ ΤΕΛΙΚΗΣ ΦΑΣΗΣ [30 Μονάδες] Δίνεται μία ακολουθία Ν ακέραιων αριθμών. Θέλουμε να μπορούμε να απαντάμε στο ερώτημα «υπάρχει ζεύγος

Διαβάστε περισσότερα

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων και Αλγόριθμοι Δομές Δεδομένων και Αλγόριθμοι Χρήστος Γκόγκος ΤΕΙ Ηπείρου Χειμερινό Εξάμηνο 2014-2015 Παρουσίαση 20 Huffman codes 1 / 12 Κωδικοποίηση σταθερού μήκους Αν χρησιμοποιηθεί κωδικοποίηση σταθερού μήκους δηλαδή

Διαβάστε περισσότερα

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Συµπίεση Ευρετηρίου. Term weighting. ιδάσκων ηµήτριος Κατσαρός, Ph.D.

Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό. Συµπίεση Ευρετηρίου. Term weighting. ιδάσκων ηµήτριος Κατσαρός, Ph.D. Εύρεση & ιαχείριση Πληροφορίας στον Παγκόσµιο Ιστό ιδάσκων ηµήτριος Κατσαρός, Ph.D. @ Τµ. Μηχανικών Η/Υ, Τηλεπικοινωνιών & ικτύων Πανεπιστήµιο Θεσσαλίας ιάλεξη 3η: 28/02/2007 1 Συµπίεση Ευρετηρίου & Term

Διαβάστε περισσότερα

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Τεράστιες ανάγκες σε αποθηκευτικό χώρο ΣΥΜΠΙΕΣΗ Τεράστιες ανάγκες σε αποθηκευτικό χώρο Παράδειγμα: CD-ROM έχει χωρητικότητα 650MB, χωρά 75 λεπτά ασυμπίεστου στερεοφωνικού ήχου, αλλά 30 sec ασυμπίεστου βίντεο. Μαγνητικοί δίσκοι χωρητικότητας

Διαβάστε περισσότερα

Εισαγωγή στην επιστήμη των υπολογιστών

Εισαγωγή στην επιστήμη των υπολογιστών Εισαγωγή στην επιστήμη των υπολογιστών Υπολογιστές και Δεδομένα Κεφάλαιο 3ο Αναπαράσταση Αριθμών www.di.uoa.gr/~organosi 1 Δεκαδικό και Δυαδικό Δεκαδικό σύστημα 2 3 Δεκαδικό και Δυαδικό Δυαδικό Σύστημα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις Κατζαγιαννάκη Γ. Ειρήνη Ηλέκτρα Μεταπτυχιακή Εργασία Τµήµα Επιστήµης Υπολογιστών Πανεπιστήµιο Κρήτης Περίληψη Σε ένα σύστηµα επιλεκτικής διασποράς

Διαβάστε περισσότερα

Σφαίρα σε ράγες: Η συνάρτηση Lagrange. Ν. Παναγιωτίδης

Σφαίρα σε ράγες: Η συνάρτηση Lagrange. Ν. Παναγιωτίδης Σφαίρα σε ράγες: Η συνάρτηση Lagrange Ν. Παναγιωτίδης Έστω σύστημα δυο συγκλινόντων ραγών σε σχήμα Χ που πάνω τους κυλίεται σφαίρα ακτίνας. Θεωρούμε σύστημα συντεταγμένων με οριζόντιους τους άξονες και.

Διαβάστε περισσότερα

LALING/PLALING :

LALING/PLALING : 1. Άρθρα- δημοσιεύσεις Scopus DBLP Pubmed Google Scholar 2. Αναζήτηση νουκλεοτιδίου- πρωτεΐνης Entrez : http://www.ncbi.nlm.nih.gov/nuccore/ Uniprot (πρωτεΐνης): http://www.uniprot.org/ Blast : http://blast.ncbi.nlm.nih.gov/blast.cgi

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών

Διαβάστε περισσότερα

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε: Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάµηνο Φροντιστήριο 5 Άσκηση 1 Θεωρείστε το αλφάβητο {α,β,γ,δ,ε} και την εξής φράση: «α α β γ

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval MYE003-ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η «Ανάκτηση Πληροφορίας»; Ανάγκη πληροφόρησης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 9: Ανάδραση Σχετικότητας (Relevance Feedback ή RF) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εφαρμοσμένα Μαθηματικά ΙΙ

Εφαρμοσμένα Μαθηματικά ΙΙ Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας Εφαρμοσμένα Μαθηματικά ΙΙ Διανύσματα Ευθείες - Επίπεδα Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Διάνυσμα ή Διανυσματικό μέγεθος (Vector) Μέγεθος που

Διαβάστε περισσότερα

Μοντέλα Ανάκτησης Ι (Retrieval Models)

Μοντέλα Ανάκτησης Ι (Retrieval Models) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 006 Διάρθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Informaion Rerieval (IR) Sysems Μοντέλα Ανάκτησης Ι (Rerieval Models) Εισαγωγή στα Μοντέλα

Διαβάστε περισσότερα

K24 Ψηφιακά Ηλεκτρονικά 6: Πολυπλέκτες/Αποπολυπλέκτες

K24 Ψηφιακά Ηλεκτρονικά 6: Πολυπλέκτες/Αποπολυπλέκτες K24 Ψηφιακά Ηλεκτρονικά 6: Πολυπλέκτες/Αποπολυπλέκτες TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ ΤΕΧΝΟΛΟΓΙΚΟ Περιεχόμενα 1 2 3 4 Λειτουργία Πολυπλέκτης (Mul plexer) Ο

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 6η: 08/03/2016 1 Διόρθωση πληκτρολόγησης 2 Sec. 3.3 Διόρθωση πληκτρολόγησης Δυο κύριες χρήσεις Διόρθωση εγγράφων που θα εισαχθούν

Διαβάστε περισσότερα

Σπιν 1 2. Γενικά. Ŝ και S ˆz γράφονται. ιδιοκαταστάσεις αποτελούν ορθοκανονική βάση στον χώρο των καταστάσεων του σπιν 1 2.

Σπιν 1 2. Γενικά. Ŝ και S ˆz γράφονται. ιδιοκαταστάσεις αποτελούν ορθοκανονική βάση στον χώρο των καταστάσεων του σπιν 1 2. Σπιν Γενικά Θα χρησιμοποιήσουμε τις γενικές σχέσεις που αποδείξαμε στην ανάρτηση «Εύρεση των ιδιοτιμών της στροφορμής», που, όπως είδαμε, ισχύουν για κάθε γενική στροφορμή ˆ J με συνιστώσες Jˆ, Jˆ, J ˆ,

Διαβάστε περισσότερα

Συνοπτική Μεθοδολογία Ασκήσεων IP Fragmentation. Ασκήσεις στο IP Fragmentation

Συνοπτική Μεθοδολογία Ασκήσεων IP Fragmentation. Ασκήσεις στο IP Fragmentation Συνοπτική Μεθοδολογία Ασκήσεων IP Fragmentation Οι σημειώσεις που ακολουθούν περιγράφουν τις ασκήσεις IP Fragmentation που θα συναντήσετε στο κεφάλαιο 3. Η πιο συνηθισμένη και βασική άσκηση αναφέρεται

Διαβάστε περισσότερα

Πράξεις με δυαδικούς αριθμούς

Πράξεις με δυαδικούς αριθμούς Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Εισαγωγή στην Επιστήμη των Υπολογιστών 25-6 Πράξεις με δυαδικούς αριθμούς (λογικές πράξεις) http://di.ionio.gr/~mistral/tp/csintro/ Μ.Στεφανιδάκης Εκτέλεση πράξεων

Διαβάστε περισσότερα

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση Πίνακες Διασποράς Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση κλειδί k T 0 1 2 3 4 5 6 7 U : χώρος πιθανών κλειδιών Τ : πίνακας μεγέθους

Διαβάστε περισσότερα

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος

Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος 6/6/06 Εφαρμοσμένα Μαθηματικά ΙΙ Τελική Εξέταση Ι. Λυχναρόπουλος Άσκηση (Μονάδες ) 0 Δίνεται ο πίνακας A =. Nα υπολογίσετε την βαθμίδα του και να βρείτε τη διάσταση και από μία βάση α) του μηδενοχώρου

Διαβάστε περισσότερα

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole

MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά. Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole MYE003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 1: Εισαγωγή. Ανάκτηση Boole Κεφ. 1.1 Τι είναι η Ανάκτηση Πληροφορίας (Information Retrieval); Ανάγκη πληροφόρησης Συλλογή Εγγράφων Eρώτημα

Διαβάστε περισσότερα

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης 1 Oct 16 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Εισαγωγή στις Τηλεπικοινωνίες Διάλεξη 4 η Γεωμετρική Αναπαράσταση

Διαβάστε περισσότερα

Υπάρχουν δύο τύποι μνήμης, η μνήμη τυχαίας προσπέλασης (Random Access Memory RAM) και η μνήμη ανάγνωσης-μόνο (Read-Only Memory ROM).

Υπάρχουν δύο τύποι μνήμης, η μνήμη τυχαίας προσπέλασης (Random Access Memory RAM) και η μνήμη ανάγνωσης-μόνο (Read-Only Memory ROM). Μνήμες Ένα από τα βασικά πλεονεκτήματα των ψηφιακών συστημάτων σε σχέση με τα αναλογικά, είναι η ευκολία αποθήκευσης μεγάλων ποσοτήτων πληροφοριών, είτε προσωρινά είτε μόνιμα Οι πληροφορίες αποθηκεύονται

Διαβάστε περισσότερα

Εισαγωγή στην Πληροφορική. Α σ κ ή σ ε ι ς σ τ η ν ι α χ ε ί ρ ι σ η Μ ν ή µ η ς. Αντώνης Σταµατάκης

Εισαγωγή στην Πληροφορική. Α σ κ ή σ ε ι ς σ τ η ν ι α χ ε ί ρ ι σ η Μ ν ή µ η ς. Αντώνης Σταµατάκης Εισαγωγή στην Πληροφορική Α σ κ ή σ ε ι ς σ τ η ν ι α χ ε ί ρ ι σ η Μ ν ή µ η ς Αντώνης Σταµατάκης Μονάδες µέτρησης µνήµης Η βασική µονάδα µέτρησης της µνήµης στα υπολογιστικά συστήµατα είναι το µπάιτ

Διαβάστε περισσότερα

Εισαγωγή στον Προγραμματισμό

Εισαγωγή στον Προγραμματισμό Εισαγωγή στον Προγραμματισμό Αριθμητική Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ακ. Έτος 2012-2013 Δεύτερο Πρόγραμμα 1 / * Second Simple Program : add 2 numbers * / 2

Διαβάστε περισσότερα

Λύσεις Ασκήσεων ΣΕΙΡΑ 1 η. Πρόσημο και μέγεθος

Λύσεις Ασκήσεων ΣΕΙΡΑ 1 η. Πρόσημο και μέγεθος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΕΡΓΑΣΤΗΡΙΟ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ: ΠΛΗΡΟΦΟΡΙΚΗ ΕΞΑΜΗΝΟ: 1 ο /2015-16 ΤΜΗΜΑ: ΑΓΡΟΤΙΚΗΣ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΑΝΑΠΤΥΞΗΣ Καθηγητής: Θ. Τσιλιγκιρίδης Άσκηση 1η Περιεχόμενα μνήμης Λύσεις

Διαβάστε περισσότερα

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth. Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Γιατοπιθανοτικότουκαθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο 2

Διαβάστε περισσότερα

Εισαγωγή στη Στατιστική- Κοινωνικές Στατιστικές. Διάλεξη

Εισαγωγή στη Στατιστική- Κοινωνικές Στατιστικές. Διάλεξη Εισαγωγή στη Στατιστική- Κοινωνικές Στατιστικές Διάλεξη 13-3-2015 Υπολογισμός Σταθμικού Μέσου Αριθμητικού X weighted n 1 n 1 w i w X i i Παράδειγμα Υποψήφιος της Δ' Δέσμης πήρε στις εξετάσεις τους εξής

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2007-2008 Εαρινό Εξάµηνο Άσκηση 1 Φροντιστήριο 4 Θεωρείστε ένα έγγραφο με περιεχόμενο «αυτό είναι ένα κείμενο και

Διαβάστε περισσότερα

Ψηφιακές Τηλεπικοινωνίες. Δισδιάστατες Κυματομορφές Σήματος

Ψηφιακές Τηλεπικοινωνίες. Δισδιάστατες Κυματομορφές Σήματος Ψηφιακές Τηλεπικοινωνίες Δισδιάστατες Κυματομορφές Σήματος Εισαγωγή Στα προηγούμενα μελετήσαμε τη διαμόρφωση PAM δυαδικό και Μ-αδικό, βασικής ζώνης και ζωνοπερατό Σε κάθε περίπτωση προέκυπταν μονοδιάστατες

Διαβάστε περισσότερα

Θέματα Συστημάτων Πολυμέσων

Θέματα Συστημάτων Πολυμέσων Θέματα Συστημάτων Πολυμέσων Ενότητα # 6: Στοιχεία Θεωρίας Πληροφορίας Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

Υπολογιστικά & Διακριτά Μαθηματικά

Υπολογιστικά & Διακριτά Μαθηματικά Υπολογιστικά & Διακριτά Μαθηματικά Ενότητα 1: Εισαγωγή- Χαρακτηριστικά Παραδείγματα Αλγορίθμων Στεφανίδης Γεώργιος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

ETY-202 ΤΑ ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΚΒΑΝΤΟΜΗΧΑΝΙΚΗΣ ETY-202 ΎΛΗ & ΦΩΣ 02. ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ. Στέλιος Τζωρτζάκης 1/11/2013

ETY-202 ΤΑ ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΚΒΑΝΤΟΜΗΧΑΝΙΚΗΣ ETY-202 ΎΛΗ & ΦΩΣ 02. ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ. Στέλιος Τζωρτζάκης 1/11/2013 stzortz@iesl.forth.gr 1396; office Δ013 ΙΤΕ 2 ΎΛΗ & ΦΩΣ 02. ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΑ ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΚΒΑΝΤΟΜΗΧΑΝΙΚΗΣ Στέλιος Τζωρτζάκης 1 3 4 Ο διανυσματικός χώρος των φυσικών καταστάσεων Η έννοια

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Λυμένες ασκήσεις στροφορμής

Λυμένες ασκήσεις στροφορμής Λυμένες ασκήσεις στροφορμής Θα υπολογίσουμε τη δράση των τελεστών κλίμακας J ± σε μια τυχαία ιδιοκατάσταση j, m των τελεστών J και Jˆ. Λύση Δείξαμε ότι η κατάσταση Jˆ± j, m είναι επίσης ιδιοκατάσταση των

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1

Διαβάστε περισσότερα

Προγραμματισμός Η/Υ (ΤΛ2007 )

Προγραμματισμός Η/Υ (ΤΛ2007 ) Τμήμα Ηλεκτρονικών Μηχανικών Τ.Ε.Ι. Κρήτης Προγραμματισμός Η/Υ (ΤΛ2007 ) Δρ. Μηχ. Νικόλαος Πετράκης (npet@chania.teicrete.gr) Ιστοσελίδα Μαθήματος: https://eclass.chania.teicrete.gr/ Εξάμηνο: Εαρινό 2015-16

Διαβάστε περισσότερα

Φυλλάδιο 1 - Σημεία Προσοχής στις Παραγράφους 1.1, 1.2 και 1.3

Φυλλάδιο 1 - Σημεία Προσοχής στις Παραγράφους 1.1, 1.2 και 1.3 Φυλλάδιο 1 - Σημεία Προσοχής στις Παραγράφους 1.1, 1.2 και 1.3 1. Σπάμε ένα Διάνυσμα Έστω ότι έχουμε ένα διάνυσμα. Τότε αυτό μπορούμε να το σπάσουμε σε δύο (ή περισσότερα), παρεμβάλλοντας ανάμεσα στα γράμματα

Διαβάστε περισσότερα

ΤΕΤΥ Εφαρμοσμένα Μαθηματικά 1. Τελεστές και πίνακες. 1. Τελεστές και πίνακες Γενικά. Τι είναι συνάρτηση? Απεικόνιση ενός αριθμού σε έναν άλλο.

ΤΕΤΥ Εφαρμοσμένα Μαθηματικά 1. Τελεστές και πίνακες. 1. Τελεστές και πίνακες Γενικά. Τι είναι συνάρτηση? Απεικόνιση ενός αριθμού σε έναν άλλο. ΤΕΤΥ Εφαρμοσμένα Μαθηματικά 1 Τελεστές και πίνακες 1. Τελεστές και πίνακες Γενικά Τι είναι συνάρτηση? Απεικόνιση ενός αριθμού σε έναν άλλο. Ανάλογα, τελεστής είναι η απεικόνιση ενός διανύσματος σε ένα

Διαβάστε περισσότερα

Model) Retrieval Model)... 18

Model) Retrieval Model)... 18 Πανεπιστήμιο Πατρών Πολυτεχνική Σχολή Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Αποδοτική Ιεραρχημένη Ανάκτηση Κοινωνικού Περιεχομένου με Χρήση Ταξονομιών Ετικετών Κοντοτάσιου Ιωάννα ΑΜ:

Διαβάστε περισσότερα

II. Συναρτήσεις. math-gr

II. Συναρτήσεις. math-gr II Συναρτήσεις Παντελής Μπουμπούλης, MSc, PhD σελ blogspotcom, bouboulismyschgr ΜΕΡΟΣ 1 ΣΥΝΑΡΤΗΣΕΙΣ Α Βασικές Έννοιες Ορισμός: Έστω Α ένα υποσύνολο του συνόλου των πραγματικών αριθμών R Ονομάζουμε πραγματική

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 10 : Κωδικοποίηση καναλιού Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα Ομιλίας Απόσταση και βάρος Hamming Τεχνικές και κώδικες ανίχνευσης &

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα