Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)"

Transcript

1 Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) Για το πιθανοκρατικό του καθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο 2 του βιβλίου 1 Διάρθρωση Εισαγωγή στα Μοντέλα Ανάκτησης Κατηγορίες Μοντέλων Απόλυτο και Κάλλιστο (ή Βέλτιστο) Ταίριασμα (Exact vs Best Match) Τα Τρία Κλασσικά Μοντέλα Ανάκτησης Επεκτάσεις 2 Ανάκτηση Πληροφορίας,

2 Αναπαράσταση Εγγράφων: Πως βλέπουμε ένα έγγραφο; Πως βλέπουμε ένα έγγραφο; Ως έχει (full text); Αγνοώντας λέξεις που δεν φέρουν νόημα (π.χ. τα άρθρα) ; Ως σάκο (bag) όρων ευρετηρίου (bag of index terms), δηλαδή αγνοώντας τη σειρά με την οποία εμφανίζονται οι λέξεις στο κείμενο; Ως σύνολο όρων ευρετηρίου (set of Index terms) Ως δομημένο έγγραφο (π.χ. hypertext, XML) Η απάντηση σε αυτό το ερώτημα θα καθορίσει τη μορφή του ευρετηρίου που πρέπει να κατασκευάσουμε. Η απάντηση σε αυτό το ερώτημα είναι συνυφασμένη και με το μοντέλο ανάκτησης που πρόκειται χρησιμοποιήσουμε. 3 Μοντέλα Ανάκτησης Ένα μοντέλο ανάκτησης ορίζει Αναπαράσταση Εγγράφων Αναπαράσταση Επερωτήσεων Καθορίζει και ποσοτικοποιεί την έννοια της συνάφειας ο βαθμός συνάφειας μπορεί να είναι δίτιμος (π.χ. {1,0}), ή συνεχής(π.χ. [0,1]) Έστω D η συλλογή εγγράφων και Q το σύνολο όλων των πληροφοριακών αναγκώνπουμπορείναέχειέναςχρήστης. Μπορούμε να δούμε ένα μοντέλο ανάκτησης πληροφορίας ως μια τετράδα [F, D, Q, R] όπου: D: λογικές όψεις εγγράφων D={ F(d) d D} Q: λογικές όψεις επερωτήσεων Q={ F(q) q Q} F: πλαίσιο μοντελοποίησης εγγράφων, επερωτήσεων και των σχέσεων μεταξύ τους R: συνάρτηση κατάταξης που αποδίδει μία τιμή σε κάθε ζεύγος (d,q) D x Q δίτιμη: R: D x Q [True/False] συνεχής R: D x Q [0,1] 4 Ανάκτηση Πληροφορίας,

3 Διαδικασία Ανάκτησης Documents indexing process indexing language (the range of the function F d1 q query formulation process q Information need d1 Preprocessing (text operations) stemming stopwords weighting scheme Some Cases: full text without stop words stems without positions doc = set of words doc = bag of words => weights structure preprocessing query language operators query expansion 5 Τα τμήματα της αρχιτεκτονικής που εμπλέκονται user need User Interface Text Operations Text user feedback query retrieved docs logical view Query Operations Searching logical view Indexing inverted file Index Text Corpus ranked docs Ranking 6 Ανάκτηση Πληροφορίας,

4 Κατηγορίες Μοντέλων Ανάκτησης Τι θα δούμε σήμερα: Λογικό μοντέλο για το κείμενο, την ερώτηση και τη συνάρτηση ομοιότητας μεταξύ τους Κλασσικά Μοντέλα Boolean Model Διανυσματικό (Vector Space) Πιθανοκρατικό (Probabilistic) Λέξεις Κλειδιά (Keywords) Χρησιμοποιούνται ως αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα. Το πλήθος των όρων είναι συνήθως μεγάλο και προηγείται απαλοιφή τετριμμένων λέξεων (π.χ., άρθρα, σύνδεσμοι κλπ) Ανάκτηση Πληροφορίας,

5 Παράδειγμα Κείμενο 1 Κείμενο 2 Κείμενο 3 ηγεωργική επανάσταση η βιομηχανική επανάσταση ηεπανάσταση υψηλής τεχνολογίας Η επιλογή της λέξης επανάσταση ως λέξη κλειδί για τα τρία κείμενα δημιουργεί πρόβλημα. Γιατί; Κλασσικά Μοντέλα Όλες οι λέξεις κλειδιά (αλλιώς όροι -term) δεν έχουν την ίδια βαρύτητα για τις προτιμήσεις των χρηστών. Κάποιες λέξεις μπορεί να είναι σημαντικές ενώ κάποιες άλλες λιγότερο σημαντικές. Έστω t i ένας όρος και d j ένα έγγραφο. Το βάρος του όρου ti στο έγγραφο dj συμβολίζεται ως w(t i,d j ) >= 0 (ή απλούστεραw ij ) και δηλώνει το πόσο σημαντικός είναι ο όρος t i σε σχέση με το έγγραφο d j. Έστω m αριθμός των όρων και Τ={t 1,,t m } το σύνολο των μοναδικών όρων. Εάν ο όρος t i δεν εμφανίζεται στο έγγραφο d j τότε w(t i,d j )=0. Διαφορετικά, w(k i,d j ) > 0. Άρα σε κάθε κείμενο d j αντιστοιχεί ένα m-διάστατο διάνυσμα βαρών (w 1,j, w 2,j,, w m,j ). Ανάκτηση Πληροφορίας,

6 Παράσταση εγγράφων k 1 k 2. k t d 1 w 11 w 21 w t1 d 2 w 12 w 22 w t2 : : : : : : : : d n w 1n w 2n w tn K={k 1,,k t } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ) όπου: w i,j > 0 αν η λέξη k i εμφανίζεται στο έγγραφο d j (αλλιώς w i,j =0) 11 Exact vs. Best Match Retrieval Models Exact-match (Απόλυτου Ταιριάσματος) o μια επερώτηση καθορίζει αυστηρά (απόλυτα) κριτήρια ανάκτησης o κάθε έγγραφο είτε ταιριάζει είτε όχι με μία επερώτηση o το αποτέλεσμα είναι ένα σύνολο κειμένων Best-match (Κάλλιστου Ταιριάσματος) o μια επερώτηση δεν περιγράφει αυστηρά κριτήρια ανάκτησης o κάθε έγγραφο ταιριάζει σε μια επερώτηση σε ένα βαθμό o το αποτέλεσμα είναι μια διατεταγμένη λίστα εγγράφων o με ένα κατώφλι (στο βαθμό συνάφειας) μπορούμε να ελέγξουμε το μέγεθος της απάντησης (συνάφεια > κατώφλι ή τα top-k έγγραφα) «Μικτές προσεγγίσεις» o συνδυασμός απόλυτου ταιριάσματος με τρόπους διάταξης του συνόλου της απάντησης o E.g., best-match query language that incorporates exact-match operators 12 Ανάκτηση Πληροφορίας,

7 Μια Ταξινομία των Μοντέλων Ανάκτησης Retrieval: Classic Models boolean vector probabilistic Structured Models Non-Overlapping Lists Proximal Nodes Set Theoretic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semantic Index Neural Networks Probabilistic Inference Network Belief Network 13 Information Retrieval Models Boolean Retrieval Model Ανάκτηση Πληροφορίας,

8 Boolean Retrieval Model Έγγραφο = σύνολο λέξεων κλειδιών (keywords) Επερώτηση = Boolean έκφραση λέξεων κλειδιών (AND,OR, NOT, παρενθέσεις) πχ επερώτησης (( Crete AND Greece) OR (Oia AND Santorini)) AND Hotel AND-NOT Hilton (( Crete & Greece) (Oia & Santorini)) & Hotel &! Hilton Απάντηση= σύνολο εγγράφων απουσία διάταξης 15 Παράσταση εγγράφων κατά το Boolean Model k 1 k 2. k t d 1 w 11 w 21 w t1 d 2 w 12 w 22 w t2 : : : : : : : : d n w 1n w 2n w tn w i,j {0,1} K={k 1,,k t } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ) όπου: w i,j = 1 αν η λέξη k i εμφανίζεται στο έγγραφο d j (αλλιώς w i,j =0) 16 Ανάκτηση Πληροφορίας,

9 Boolean Retrieval Model: Formally K={k 1,,k t } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ) όπου: w i,j = 1 αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς w i,j =0) Μια επερώτηση q είναι μια λογική έκφραση στο Κ, πχ: q = (k 1 k 2 ) k 3 Μετατροπή σε DNF 17 Boolean Μοντέλο q = (t 1 t 2 ) t 3 q = ( ) t1 (1, 1, 0) (1, 0, 0) (0, 1, 0) (1, 1, 1) (1, 0, 1) (0, 1, 1) t2 (0, 0, 1) (0, 0, 0) t3 Ανάκτηση Πληροφορίας,

10 Boolean Μοντέλο Πίνακας αληθείας του ερωτήματος (t1 t2) t3 Boolean Retrieval Model: Formally K={k 1,,k t } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ) όπου: w i,j = 1 αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς w i,j =0) Μια επερώτηση q είναι μια λογική έκφραση στο Κ, πχ: q = k1 and ( k2 or not k3)) δηλαδή q = k1 ( k2 k3)) q DNF = (k1 k2 k3) (k1 k2 k3) (k1 k2 k3) q DNF = (1,1,1) (1,1,0) (1,0,0) R(d,q)= True αν υπάρχει συζευκτική συνιστώσα του q μελέξειςτωνοποίωνταβάρη είναι τα ίδια με αυτά των αντίστοιχων λέξεων του εγγράφου d False, αλλιώς 20 Ανάκτηση Πληροφορίας,

11 Boolean Retrieval Model: Ισοδύναμος ορισμός Αποτίμηση επερωτήσεων (με χρήση λογικής) ένα κείμενο d είναι μια σύζευξη όρων, όπου όρος μια λέξη σε θετική ή αρνητική μορφή (σε θετική αν εμφανίζεται στο κείμενο, αλλιώς σε αρνητική) μια επερώτηση q είναι μια οποιαδήποτε λογική έκφραση R(d,q)=True if and only if d = q δηλαδή αν κάθε ερμηνεία που αληθεύει το d αληθεύει και το q 21 Boolean Retrieval Model: Ένας εναλλακτικός τρόπος ορισμού Μπορούμε να ορίσουμε ως ερμηνεία μιας λέξης (του Κ) το σύνολο των εγγράφων που την περιέχουν. Άρα η ερμηνεία είναι μια συνάρτηση Ι: K 2 D που ορίζεται ως εξής: I(k) = { d d περιέχει τη λέξη κ} Έστω Ε το σύνολο των λογικών εκφράσεων με λέξεις από το σύνολο Κ. Μπορούμε να επεκτείνουμε μια ερμηνείαιτουκσεμιαερμηνείαj του Ε ως εξής J(t) = I(t) J(e e ) = J(e) J(e ) J(e e ) = J(e) J(e ) J(e e ) = J(e) \ J(e ) Η απάντηση μιας επερώτησης q (κατά το Boolean μοντέλο) είναι η εξής: ans(q) = J(q) CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 22 Ανάκτηση Πληροφορίας,

12 Οι αδυναμίες του Boolean μοντέλου Η αδυναμία ελέγχου του μεγέθους της απάντησης Παράδειγμα: Answer( Cheap Tickets Heraklion ) = 1 Answer( Cheap Tickets = 1000 Answer( Cheap Heraklion) = 1000 Answer( Tickets Heraklion ) = 1000 Άρα είτε παίρνουμε μια απάντηση με ένα έγγραφο είτε ένα σύνολο 1000 εγγράφων. :( Too many or too few documents 23 Οι αδυναμίες του Boolean μοντέλου Άκαμπτο: AND σημαίνει όλα, OR σημαίνει οποιοδήποτε Δυσκολίες Ο έλεγχος του μεγέθους της απάντησης All matched documents will be returned Ικανοποιητική ακρίβεια (precision) συχνά σημαίνει απαράδεκτη ανάκληση (recall) Η διατύπωση των επερωτήσεων είναι δύσκολη για πολλούς χρήστες Η έκφραση σύνθετων πληροφοριακών αναγκών είναι δύσκολη Δεν μας λέει πώς να διατάξουμε την απάντηση All matched documents logically satisfy the query Τα μοντέλα κατάταξης (ranking models) έχουν αποδειχτεί καλύτερα στην πράξη Η υποστήριξη ανάδρασης συνάφειας δεν είναι εύκολη If a document is identified by the user as relevant or irrelevant, how should the query by modified? 24 Ανάκτηση Πληροφορίας,

13 Τα θετικά του Boolean μοντέλου Προβλέψιμο, εύκολα εξηγήσιμο Αποτελεσματικό όταν γνωρίζεις ακριβώς τι ψάχνεις και τι περιέχει η συλλογή Αποδοτική υλοποίηση 25 Στατιστικά Μοντέλα Ανάκτηση Πληροφορίας,

14 Κοινά χαρακτηριστικά των Στατιστικών Μοντέλων Έγγραφο: σάκος (bag) λέξεων Bag = set that allows multiple occurences of the same element So we view a document as an unordered set of words with frequencies Επερώτηση: Σύνολο όρων με προαιρετικά βάρη: Weighted query terms: q = <database 0.5, text 0.8, information 0.2> Unweighted query terms: q = <database text information > No Boolean conditions specified in the query Απάντηση: Διατεταγμένο σύνολο συναφών εγγράφων υπολογίζεται βάσει των συχνοτήτων εμφάνισης των λέξεων στα έγγραφα και στις επερωτήσεις 27 Στατιστικά Μοντέλα: Κρίσιμα Ερωτήματα Πώς να καθορίζουμε τη σπουδαιότητα ενός όρου σε ένα έγγραφο και στα πλαίσια ολόκληρης της συλλογής; Πώς να καθορίζουμε το βαθμό ομοιότητας μεταξύ ενός εγγράφου και μιας επερώτησης; 28 Ανάκτηση Πληροφορίας,

15 Information Retrieval Models Vector Space Model (Διανυσματικό Μοντέλο) (το πιο διαδεδομένο μοντέλο ανάκτησης) Διανυσματικό Μοντέλο: Εισαγωγή K={k 1,,k t } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με ένα διάνυσμα d j =(w 1,j,,w t,j ) όπου w i,j [0,1] (πχ w i,j =0.3) Μια επερώτηση q παριστάνεται με ένα διάνυσμα q=(w 1,q,,w t,q ) όπου πάλι w i,q [0,1] R(d, q) εκφράζει το βαθμό ομοιότητας των διανυσμάτων d και q 30 Ανάκτηση Πληροφορίας,

16 Παράσταση εγγράφων στο Διανυσματικό Μοντέλο k 1 k 2. k t d 1 w 11 w 21 w t1 d 2 w 12 w 22 w t2 : : : : : : : : d n w 1n w 2n w tn w i,j [0,1] K={k 1,,k t } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ) όπου: w i,j το βάρος της λέξης k i για το κείμενο d j 31 Βάρη Όρων: Συχνότητα όρου (tf) Οι πιο συχνοί όροι σε ένα έγγραφο είναι πιο σημαντικοί (υποδηλώνουν το περιεχόμενο του) freq ij = πλήθος εμφανίσεων του όρου i στο έγγραφο j Κανονικοποίηση tf ij =freq ij /max k {freq kj } όπου max k {freq kj } το μεγαλύτερο πλήθος εμφανίσεων ενός όρου στο έγγραφο j Παράδειγμα: Έστω το έγγραφο d 2 = a a a a b b b c c c c freq a2 = 4, tf a2 = 4/4=1 freq b2 = 3, tf b2 = 3/4= Ανάκτηση Πληροφορίας,

17 Παράδειγμα d 1 = { a a a b c } d 2 = { a a a d e } d 3 = { a a a f g } Το a λαμβάνει το μεγαλύτερο βάρος (άρα το μεγαλύτερο tf) σε κάθε έγγραφο Ας σκεφτούμε ολόκληρη τη συλλογή. Μας επιτρέπει το a να διακρίνουμε τα κείμενα; Αν όχι μήπως δεν θα έπρεπε να λαμβάνει το μεγαλύτερο βάρος (στο διάνυσμα του κάθε εγγράφου); Αν η συλλογή είχε μόνο αυτά τα 3 έγγραφα (και ήταν σταθερή) θα μπορούσαμε ακόμα και να... αγνοήσουμε πλήρως τον όρο a απότοευρετήριο. 33 Βάρη Όρων: Αντίστροφη Συχνότητα Εγγράφων (Inverse Document Frequency) Ιδέα: Όροι που εμφανίζονται σε πολλά διαφορετικά έγγραφα έχουν μικρή διακριτική ικανότητα df i = document frequency of term i πλήθος εγγράφων που περιέχουν τον όρο i idf i = inverse document frequency of term i := log 2 (N/ df i ) (N: συνολικό πλήθος εγγράφων) Το idf αποτελεί μέτρο της διακριτικής ικανότητας του όρου ολογάριθμοςελαφραίνειτοβάροςτουidf σε σχέση με το tf Παράδειγμα: Έστω Ν = 10 και df computer = 10, df aristotle =2, Τότε, N/df computer = 10/10=1, N/df aristotle = 10/2=5 Τότε, idf computer = log(1) =0, idf aristotle = log(5)= Ανάκτηση Πληροφορίας,

18 TF-IDF Weighting (βάρυνση TF-IDF) k 1 k 2. k t d 1 w 11 w 21 w t1 d 2 w 12 w 22 w t2 : : : : : : : : d n w 1n w 2n w tn w ij = tf ij idf i = tf ij log 2 (N/ df i ) Ένας όρος που εμφανίζεται συχνά στο έγγραφο, αλλά σπάνια στην υπόλοιπη συλλογή, λαμβάνει υψηλό βάρος. Αν και έχουν προταθεί πολλοί άλλοι τρόποι βάρυνσης, το tf-idf δουλεύει πολύ καλά στην πράξη. 35 Παράδειγμα υπολογισμού TF-IDF Έστω το ακόλουθο έγγραφο: d= A B A B C A Υποθέστε ότι η συλλογή περιέχει έγγραφα και οι συχνότητες κειμένου (document frequencies) αυτών των όρων είναι: Α(50), Β(1300), C(250) Τότε: Α: tf=3/3; idf = log(10000/50)= 5.3; tf-idf=5.3 B: tf=2/3; idf = log(10000/1300)= 2; tf-idf=1.3 C: tf=1/3; idf = log(10000/250)= 3.7; tf-idf= Ανάκτηση Πληροφορίας,

19 Διάνυσμα Επερώτησης Τα διανύσματα των επερωτήσεων θεωρούνται ως έγγραφα και επίσης βαρύνονται με tf-idf Μια επερώτηση δεν συγκροτείται πάντα από λίγες λέξεις. Μια επερώτηση μπορεί να είναι μια παράγραφος κειμένου (ή ένα ολόκληρο έγγραφο) Εναλλακτικά, ο χρήστης μπορεί να δώσει τα βάρη των όρων της επερώτησης k 1 k 2. k t d 1 w 11 w 21 w t1 d 2 w 12 w 22 w t2 : : : : : : : : d n w 1n w 2n q w 1q w 2q w tn w tq w i,j [0,1] 37 Διανυσματικό Μοντέλο: K={k 1,,k t } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με ένα διάνυσμα d j =(w 1,j,,w t,j ) όπου w i,j = tf ij idf i Μια επερώτηση q παριστάνεται με ένα διάνυσμα q=(w 1,q,,w t,q ) όπου πάλι w i,q = tf iq idf i R(d,q) =? 38 Ανάκτηση Πληροφορίας,

20 Μαθηματικές Έννοιες x = (x 1, x 2, x 3,..., x n ) διάνυσμαστοχώροτωνn διαστάσεων Μέτρο του x δίνεται με βάση το Πυθαγόρειο θεώρημα x 2 = x 12 + x 22 + x x n 2 Αν x 1 και x 2 είναι διανύσματα: Εσωτερικό Γινόμενο (dot product) δίνεται από: x 1.x 2 = x 11 x 21 + x 12 x 22 + x 13 x x 1n x 2n Συνημίτονο γωνίας μεταξύ των διανυσμάτων x 1 and x 2: cos (θ) = x 1.x 2 x 1 x 2 Example: Διανυσματικό Μοντέλο: Μέτρο Ομοιότητας Έστω οτι το λεξιλόγιο μας αποτελείται από 3 λέξεις Τ1, Τ2 και Τ3 D 1 = 2T 1 + 3T 2 + 5T 3 D 2 = 3T 1 + 7T 2 + T 3 Q = 0T 1 + 0T 2 + 2T 3 5 T 3 D 1 = 2T 1 + 3T 2 + 5T 3 Q = 0T 1 + 0T 2 + 2T T 1 D 2 = 3T 1 + 7T 2 + T 3 T 2 7 Is D 1 or D 2 more similar to Q? How to measure the degree of similarity? Distance? Angle? Projection? 40 Ανάκτηση Πληροφορίας,

21 Μέτρο Ομοιότητας: Εσωτερικό Γινόμενο (inner product) Η ομοιότητα μεταξύ των διανυσμάτων d και q ορίζεται ως το εσωτερικό τους γινόμενο: sim( dj, q) = dj q = όπου w ij το βάρος του όρου i στο έγγραφο j και w iq το βάρος του όρου i στην επερώτηση. Το πλήθος των όρων του λεξιλογίου είναι t Για δυαδικά (0/1) διανύσματα το εσωτερικό γινόμενο είναι ο αριθμός των matched query terms in the document (άρα το μέγεθος της τομής) Για βεβαρημένα διανύσματα, είναι το άθροισμα των γινομένων των βαρών των matched terms t i= 1 w ij w iq 41 Binary: Παράδειγμα d = 1, 1, 1, 0, 1, 1, 0 q = 1, 0, 1, 0, 0, 1, 1 sim(d, q) = 3 retrieval database architecture computer text management information Size of vector = size of vocabulary = 7 0 means corresponding term not found in document or query Weighted: D 1 = 2T 1 + 3T 2 + 5T 3 D 2 = 3T 1 + 7T 2 + 1T 3 Q = 0T 1 + 0T 2 + 2T 3 sim(d 1, Q) = 2*0 + 3*0 + 5*2 = 10 sim(d 2, Q) = 3*0 + 7*0 + 1*2 = 2 D 1 = 2T 1 + 3T 2 + 5T 3 T 3 5 Q = 0T 1 + 0T 2 + 2T T D 2 = 3T 1 + 7T 2 + T 3 T Ανάκτηση Πληροφορίας,

22 Ιδιότητες του Εσωτερικού Γινομένου Το εσωτερικό γινόμενο δεν είναι φραγμένο (unbounded) ευνοεί (μεροληπτεί) μεγάλα έγγραφα με μεγάλο πλήθος διαφορετικών όρων μετρά το πλήθος των όρων που κάνουν match, αλλά αγνοεί αυτούς που δεν κάνουν match 43 Μέτρο Ομοιότητας Συνημίτονου (Cosine) t 3 θ 1 CosSim(d j, q) = r d r d j j r r q q = i = 1 t t ( w w ij ij i = 1 i = 1 2 w t iq ) w iq 2 D 1 θ 2 Q t 1 t 2 D 2 D 1 = 2T 1 + 3T 2 + 5T 3 CosSim(D 1, Q) = 10 / (4+9+25)(0+0+4) = 0.81 D 2 = 3T 1 + 7T 2 + 1T 3 CosSim(D 2, Q) = 2 / (9+49+1)(0+0+4) = 0.13 Q = 0T 1 + 0T 2 + 2T 3 D 1 is 6 times better than D 2 using cosine similarity but only 5 times better using inner product. (διαισθητικά το D2 περιέχει πιο πολλούς «άσχετους» όρους) 44 Ανάκτηση Πληροφορίας,

23 Διανυσματικό Μοντέλο: Παρατηρήσεις Πλεονεκτήματα Λαμβάνει υπόψη τις τοπικές (tf) και καθολικές (idf) συχνότητες όρων Παρέχει μερικό ταίριασμα (partial matching) και διατεταγμένα αποτελέσματα Τείνει να δουλεύει καλά στην πράξη, παρά τις αδυναμίες του Αποδοτική υλοποίηση για μεγάλες συλλογές εγγράφων Αδυναμίες Απουσία Σημασιολογίας (π.χ. σημασίας λέξεων) Απουσία Συντακτικής Πληροφορίας (π.χ. δομή φράσης, σειρά λέξεων, εγγύτητα λέξεων) Υπόθεση Ανεξαρτησίας Όρων (π.χ. αγνοεί τα συνώνυμα) Έλλειψη ελέγχου ala Boolean model (π.χ. δεν μπορούμε να απαιτήσουμε την παρουσία ενός όρου στο έγγραφο) Given a two-term query q= A B, may prefer a document containing A frequently but not B, over a document that contains both A and B but both less frequently 45 Περίληψη του Διανυσματικού Μοντέλου K={k 1,,k t } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(w 1,j,,w t,j ) όπου w ij = tf ij idf i = tf ij log 2 (N/ df i ) Μια επερώτηση q παριστάνεται με το διάνυσμα q=(w 1,q,,w t,q ) όπου w iq = tf iq idf i = tf iq log 2 (N/ df i ) R(d j,q) = CosSim(d j, q) = r d r d j j r r q q = i = 1 t t ( w w ij ij i = 1 i = 1 2 w t iq ) w iq 2 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 46 Ανάκτηση Πληροφορίας,

24 Υπολογισμός του βαθμού συνάφειας Απλοϊκή Υλοποίηση 1) Φτιάξε το tf-idf διάνυσμα για κάθε έγγραφο d j ths συλλογής (έστω V το λεξιλόγιο) 2) Φτιάξε το tf-idf διάνυσμα q της επερώτησης 3) Για κάθε έγγραφο d j του D Υπολόγισε το σκορ s j = cossim(d j, q) 4) Διέταξε τα έγγραφα σε φθίνουσα σειρά 5) Παρουσίασε τα έγγραφα στο χρήστη Χρονική πολυπλοκότητα του βήματος (3): O( V D ) Πολύ ακριβό αν τα V και D είναι μεγάλα! V = 10,000; D = 100,000; V D = 1,000,000,000 CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 47 Υπολογισμός του βαθμού συνάφειας Καλύτερη (γρηγορότερη) Υλοποίηση Ένας όρος που δεν εμφανίζεται και στην επερώτηση και στο έγγραφο δεν επηρεάζει το βαθμό ομοιότητας συνημίτονου Το γινόμενο των βαρών είναι 0 και άρα δεν συνεισφέρει στο εσωτερικό γινόμενο Συνήθως η επερώτηση είναι μικρή, άρα το διάνυσμα της είναι εξαιρετικά «αραιό» => Μπορούμε να χρησιμοποιήσουμε ένα ευρετήριο ώστε να υπολογίσουμε το βαθμό ομοιότητας μόνο εκείνων των εγγράφων που περιέχουν τουλάχιστον έναν όρο της επερώτησης. 3) Για κάθε έγγραφο d j του D Υπολόγισε το σκορ s j = cossim(d j, q) Απλοϊκό 3 ) Για κάθε έγγραφο d j που περιέχει τουλάχιστον έναν όρο του query Υπολόγισε το σκορ s j = cossim(d j, q) Καλύτερο CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 48 Ανάκτηση Πληροφορίας,

25 Υπολογισμός του βαθμού συνάφειας Καλύτερη (γρηγορότερη) Υλοποίηση (ΙΙ) Q = k 1 k 2 k n D 11 D 1B D 21 D 2B D n1 D nb Ας υποθέσουμε ότι ένας όρος της επερώτησης εμφανίζεται σε B έγγραφα Τότε η χρονική πολυπλοκότητα είναι O( Q B) Το κόστος αυτό είναι συνήθως πολύ μικρότερο του κόστους του απλοϊκού τρόπου (που είχε πολυπλοκότητα Ο( V D ), διότι: Q << V, δηλαδή ο αριθμός των λέξεων στην επερώτησης είναι πολύ μικρότερος του συνολικού αριθμού των λέξεων, και B << D, δηλαδή το πλήθος των εγγράφων που έχουν μια λέξη είναι πολύ μικρότερο του πλήθους των εγγράφων της συλλογής. CS463 - Information Retrieval Systems Yannis Tzitzikas, U. of Crete 49 Μέθοδοι Υπολογισμού Ομοιότητας Περαιτέρω συζήτηση για το διανυσματικό μοντέλο Μέθοδοι υπολογισμού ομοιότητας: μετρούν το βαθμό ομοιότητας μεταξύ ενός ερωτήματος και των εγγράφων. Ερώτημα (q) Ομοιότητα Έγγραφα Σημειώστε τη διαφορά με τις μεθόδους που υποστηρίζουν μόνο επακριβή αναζήτηση (exact match). Για παράδειγμα, στο Boolean μοντέλο ένα κείμενο χαρακτηρίζεται είτε σχετικό είτε άσχετο ως προς το ερώτημα. Ανάκτηση Πληροφορίας,

26 Ομοιότητα Εγγράφων Πρόβλημα: Πόσο μοιάζουν δύο έγγραφα; Ιδέα: Όσο περισσότερες κοινές λέξεις έχουν δύο κείμενα, τόσο περισσότερο μοιάζουν. (boolean) Παράδειγμα: Έστω τα ακόλουθα έγγραφα. Πόσο μοιάζουν μεταξύ τους; d 1 d 2 d 3 ant ant bee dog bee dog hog dog ant dog cat gnu dog eel fox Διανυσματικό Μοντέλο: δυαδικά βάρη Ο χώρος των όρων Αποτελείται από m διαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο dj αναπαρίσταται ως διάνυσμα με συντεταγμένες wij (όρος i, έγγραφο j). w ij = 1 w ij = 0 αν ο i-οστόςόροςεμφανίζεταιστοdj διαφορετικά Ανάκτηση Πληροφορίας,

27 Διανυσματικό Μοντέλο: δυαδικά βάρη t 3 διάνυσμα εγγράφου d 1 w 31 t 2 w 11 w 21 t 1 Διανυσματικό Μοντέλο: δυαδικά βάρη document text terms d 1 ant ant bee ant bee d 2 dog bee dog hog dog ant dog ant bee dog hog d 3 cat gnu dog eel fox cat dog eel fox gnu ant bee cat dog eel fox gnu hog d d d διανύσματα 8 διαστάσεις w ij = 1 αν το dj περιέχει τον i-οστό όρο Ανάκτηση Πληροφορίας,

28 Ομοιότητα Εγγράφων Η ομοιότητα μεταξύ δύο εγγράφων υπολογίζεται με βάση τη γωνία που σχηματίζεται μεταξύ των δύο αντίστοιχων διανυσμάτων. Πιο συγκεκριμένα, χρησιμοποιείται το συνημίτονο της γωνίας θ. t 3 θ d 1 d 2 t 2 t 1 Παράδειγμα: δυαδικά βάρη document text terms d 1 ant ant bee ant bee d 2 dog bee dog hog dog ant dog ant bee dog hog d 3 cat gnu dog eel fox cat dog eel fox gnu ant bee cat dog eel fox gnu hog length d d d Ανάκτηση Πληροφορίας,

29 Παράδειγμα: δυαδικά βάρη Πίνακας ομοιότητα εγγράφων d 1 d 2 d 3 d d d Ομοιότητα Ερωτήματος-Εγγράφου Η ομοιότητα μεταξύ ενός ερωτήματος q και ενός εγγράφου d προσδιορίζεται πάλι με το συνημίτονο της μεταξύ τους γωνίας. t 3 q d Στην πράξη, ένα ερώτημα έχει πολύ μικρότερο μήκος από ένα έγγραφο θ t 2 t 1 Ανάκτηση Πληροφορίας,

30 Ομοιότητα Ερωτήματος-Εγγράφου ερώτημα q ant dog έγγραφα περιεχόμενα διαφορετικοί όροι d 1 ant ant bee ant bee d 2 dog bee dog hog dog ant dog ant bee dog hog d 3 cat gnu dog eel fox cat dog eel fox gnu ant bee cat dog eel fox gnu hog q 1 1 d d d Ο πίνακας έχει μηδενικά στις υπόλοιπες θέσεις. Ομοιότητα Ερωτήματος-Εγγράφου d 1 d 2 d 3 q 1/2 1/ 2 1/ Με βάση το ερώτημα και τα έγγραφα του παραδείγματος το έγγραφο που χαρακτηρίζεται περισσότερο σχετικό ως προς q είναι το d 2, μετά το d 1 και τέλος το d 3. Ανάκτηση Πληροφορίας,

31 Χρήση του Διανυσματικού Μοντέλου Ερώτημα με κατώφλι (περιοχής) Για το ερώτημα q το σύστημα επιστρέφει όλα τα έγγραφα που έχουν βαθμό ομοιότητας μεγαλύτερο από κάποιο κατώφλι (π.χ., > 0.6). Ερώτημα top-k Για το ερώτημα q το σύστημα επιστρέφει τα k έγγραφα που έχουν το μεγαλύτερο βαθμό ομοιότητας ως προς το q. Γενίκευση: μη δυαδικά βάρη Το Διανυσματικό Μοντέλο βελτιώνεται με την εισαγωγή επιπλέον πληροφορίας για τον προσδιορισμό των βαρών w ij. Μερικές από τις πληροφορίες αυτές είναι οι εξής: Το πλήθος των εγγράφων που περιέχουν τον όρο, Πόσες φορές εμφανίζεται ένας όρος σε ένα έγγραφο, Το μήκος των εγγράφων. Ανάκτηση Πληροφορίας,

32 Διανυσματικό Μοντέλο: μη δυαδικά βάρη Ο χώρος των όρων Αποτελείται από m διαστάσεις, όπου m είναι ο αριθμός των μοναδικών όρων που χρησιμοποιούνται στα έγγραφα. Διάνυσμα Το έγγραφο dj αναπαρίσταται ως διάνυσμα με συντεταγμένες wij (όρος i, έγγραφο j). w ij > 0 w ij = 0 αν ο i-οστόςόροςεμφανίζεταιστοdj διαφορετικά Ητιμήw ij ορίζεται ως το βάρος του i-οστούόρουστοj-οστό έγγραφο. Προσδιορισμός Βαρών Η γενική μορφή προσδιορισμού των βαρών wij είναι: w ij = TF ij x IDF i Όπου TF ij είναι ένας παράγοντας που εξαρτάται από τη συχνότητα εμφάνισης του i-οστούόρουστοj-οστό έγγραφο. Ο παράγοντας IDF i εξαρτάται από το πλήθος των εγγράφων που περιέχουν τον όρο t i. Ανάκτηση Πληροφορίας,

33 Προσδιορισμός Βαρών Εναλλακτικές μορφές του TF t,d Προσδιορισμός Βαρών Εναλλακτικές μορφές του IDF t Ανάκτηση Πληροφορίας,

34 Προσδιορισμός Βαρών Εναλλακτικές μορφές του L d, L q Μέγεθος αρχείου, ερώτησης Προσδιορισμός Βαρών Εναλλακτικές μορφές υπολογισμού ομοιότητας Ανάκτηση Πληροφορίας,

35 Ένα Παράδειγμα Συγκεκριμένου Μοντέλου Παράδειγμα Υπολογισμού Ομοιότητας Έστω το ερώτημα q = {κομήτης, Χάλεϋ} που αποτελείται από δύο όρους t1 = κομήτης και t2 = Χάλλεϋ Ενδιαφερόμαστε για το βαθμό ομοιότητας του ερωτήματος q με καθένα από τα έγγραφα της συλλογής εγγράφων D Ανάκτηση Πληροφορίας,

36 Παράδειγμα Υπολογισμού Ομοιότητας Συλλογή εγγράφων d1 : Ο κομήτης του Χάλλεϋ μας επισκέπτεται περίπου κάθε εβδομήντα έξι χρόνια. d2 : Ο κομήτης του Χάλλεϋ πήρε το όνομά του από τον αστρονόμo Έντμοντ Χάλλεϋ. d3 : Ένας κομήτης διαγράφει ελλειπτική τροχιά. d4 : Ο πλανήτης Άρης έχει δύο φυσικούς δορυφόρους, το Δείμο και το Φόβο. d5 : ΟπλανήτηςΔίαςέχει63 γνωστούς φυσικούς δορυφόρους. d6 : Ένας κομήτης έχει μικρότερη διάμετρο από ότι ένας πλανήτης. d7 : Ο Άρης είναι ένας πλανήτης του ηλιακού μας συστήματος. Information Retrieval Models Probabilistic Model Ανάκτηση Πληροφορίας,

37 Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική Άλγεβρα Πιθανοκρατικό (Probabilistic) που βασίζεται στη Θεωρία Πιθανοτήτων To Διανυσματικό και το Πιθανοκρατικό έχουν σημαντική επικάλυψη αν και στηρίζονται σε εντελώς διαφορετικές θεωρίες. Πιθανοκρατικό Μοντέλο Στόχος: να ορίσουμε το IR πρόβλημα σε πιθανοτικό πλαίσιο Για κάθε ερώτηση q (επερώτημα) υπάρχει ένα ιδανικό σύνολο κειμένων (R) που το ικανοποιεί. Επεξεργαζόμαστε την ερώτηση με βάση τις ιδιότητες αυτού του συνόλου. Ποιες είναι όμως αυτές οι ιδιότητες; Αρχικά γίνεται μία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται. Ανάκτηση Πληροφορίας,

38 Πιθανοκρατικό Μοντέλο Αρχικά επιστρέφεται ένα σύνολο εγγράφων. Ο χρήστης εξετάζει τα κείμενα αναζητώντας σχετικά κείμενα. Το σύστημα IR χρησιμοποιεί το feedback του χρήστη ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο κειμένων. Η διαδικασία επαναλαμβάνεται. Η περιγραφή του ιδανικού συνόλου κειμένων πραγματοποιείται πιθανοτικά. Ανεξάρτητες Μεταβλητές και Πιθανότητα υπό Συνθήκη Έστω a, και b δύο γεγονότα με πιθανότητες να συμβούν P(a) και P(b) αντίστοιχα. Ανεξάρτητα Γεγονότα Τα γεγονότα a και b είναι ανεξάρτητα αν και μόνο αν: P(a b) = P(b) P(a) Υπό Συνθήκη Πιθανότητα P(a b) είναι η πιθανότητα του a δεδομένου του b. Τα γεγονότα a 1,..., a n καλούνται υπό συνθήκη ανεξάρτητα αν και μόνο αν: P(a i a j ) = P(a i ) για όλα τα i και j Ανάκτηση Πληροφορίας,

39 Παράδειγμα Ι a a είναι η άρνηση του γεγονότος a a b w x z y b P(a) = x + y P(b) = w + x P(a b) = x / (w + x) P(a b) P(b) = P(a b) = P(b a) P(a) Παράδειγμα ΙΙ Ανεξάρτητα γεγονότα Έστω a και b οι τιμές που φέρνουν δύο ίδια ζάρια. Ισχύει: P(a=5 b=3) = P(a=5) = 1 /6 Μη ανεξάρτητα Έστω a και b οι τιμές που φέρνουν δύο ίδια ζάρια και t το άθροισμά τους. Τότε ισχύει: t = a + b P(t=8 a=2) = 1 /6 P(t=8 a=1) = 0 Ανάκτηση Πληροφορίας,

40 Θεώρημα του Bayes Έστω a και b δύο γεγονότα. P(a b) είναι η πιθανότητα να συμβεί το γεγονός a δεδομένου ότι έχει συμβεί το γεγονός b. Θεώρημα Bayes P(a b) = P(b a) P(a) P(b) Ισχύει επίσης ότι: P(a b) P(b) = P(a b) = P(b a) P(a) Θεώρημα Bayes: παράδειγμα Example a βάρος πάνω από 100 κιλά b ύψος πάνω από 2 μέτρα. P(a b) = x / (w+x) = x / P(b) P(b a) = x / (x+y) = x / P(a) x = P(a b) > 100 κιλά x w y > 2 μέτρα z Ανάκτηση Πληροφορίας,

41 Αρχή Πιθανοκρατικής Κατάταξης Probabilistic Ranking Principle (PRP) "If a reference retrieval system s response to each request is a ranking of the documents in the collections in order of decreasing probability of usefulness to the user who submitted the request, where the probabilities are estimated as accurately a possible on the basis of whatever data is made available to the system for this purpose, then the overall effectiveness of the system to its users will be the best that is obtainable on the basis of that data." Εάν η απάντηση ενός συστήματος ανάκτησης σε κάθε ερώτημα είναι μία λίστα εγγράφων ταξινομημένη με φθίνουσα διάταξη ως προς την πιθανότητα σχετικότητας του κάθε εγγράφου ως προς το χρήστη, όπου οι πιθανότητες υπολογίζονται όσο γίνεται ακριβέστερα με βάση τα δεδομένα που είναι διαθέσιμα, η συνολική αποτελεσματικότητα του συστήματος θα είναι η καλύτερη δυνατή. W.S. Cooper Πιθανοκρατική Βαθμολόγηση Για ένα δεδομένο ερώτημα, εάν γνωρίζουμε κάποια από τα σχετικά έγγραφα, οι όροι που εμφανίζονται σε αυτά θα πρέπει να έχουν μεγαλύτερη βαρύτητα κατά την αναζήτηση άλλων σχετικών εγγράφων. Κάνοντας διάφορες παραδοχές σχετικά με την κατανομή των όρων και χρησιμοποιώντας το θεώρημα του Bayes είναι δυνατόν να υπολογίσουμε τα βάρη αυτά. Van Rijsbergen Ανάκτηση Πληροφορίας,

42 Βασικές Έννοιες Η πιθανότητα ένα έγγραφο να είναι σχετικό ως προς το ερώτημα θεωρείται ότι εξαρτάται μόνο από τους όρους που περιέχονται στο έγγραφο και από τους όρους που περιέχονται στο ερώτημα. Η σχετικότητα ενός εγγράφου d ως προς το ερώτημα q δεν εξαρτάται από τη σχετικότητα άλλων εγγράφων της συλλογής. Για κάποιο ερώτημα q το σύνολο των σχετικών εγγράφων R είναι το ιδανικό σύνολο που μπορούμε να έχουμε ως απάντηση. Βασικές Έννοιες Για ένα ερώτημα q και ένα έγγραφο d το πιθανοκρατικό μοντέλο χρειάζεται μία εκτίμηση για την πιθανότητα P(R d) που δηλώνει την πιθανότητα το έγγραφο d να είναι σχετικό ως προς το ερώτημα. P(R d) πιθανότητατοέγγραφοναείναισχετικόμετοερώτημα P(R d) πιθανότητα το έγγραφο να μην είναι σχετικό με το ερώτημα Μέτρο Ομοιότητας (odds of being relevant to q): S(q, d), ομοιότητα του εγγράφου d ως προς το ερώτημα q: πιθανότητα d σχετικό P(R d) = πιθανότητα d μη σχετικό P(R d) Οι τιμές της S( ) μπορεί να είναι από πολύ μικρές έως πολύ μεγάλες και για αυτό χρησιμοποιείται συνήθως ο λογάριθμος για την άμβλυνση των διαφορών. Ανάκτηση Πληροφορίας,

43 Βασικές Έννοιες S (q, d) = P(R d) P(R d) P(d R) P(R) = θεώρημα Bayes P(d R) P(R) P(d R) είναι η πιθανότητα να διαλέξουμε τυχαία το έγγραφο d από τη συλλογή των σχετικών με την ερώτηση εγγράφων R. P(d R) P(R) P(d R) P(R) Ίδια (σταθερά) για όλα τα έγγραφα της συλλογής (έστω μια σταθερά k) Άραπρέπειναεκτιμήσουμε/υπολογίσουμε αυτές τις πιθανότητες Πως; Κοιτάμε τους όρους (terms) που εμφανίζονται στο d Βασικές Έννοιες P(d R) P(R) P(d R) P(R) P(d R): Πιθανότητα να επιλέξουμε το έγγραφο d από τα σχετικά με την ερώτηση Θα χρησιμοποιήσουμε τους όρους k i που έχει το έγγραφο d για να την υπολογίσουμε Ανάκτηση Πληροφορίας,

44 Βασικές Έννοιες Ανάκτηση Δυαδικής Ανεξαρτησίας Βinary Ιndependence Retrieval (BIR) Τα βάρη των όρων είναι δυαδικά και οι όροι είναι ανεξάρτητοι μεταξύ τους (η παρουσία ή μη κάποιου όρου δεν επηρεάζει τους υπόλοιπους). Το βάρος ενός όρου σε ένα έγγραφο είναι είτε 1 (αν ο όρος περιέχεται στο έγγραφο) είτε 0 (σε διαφορετική περίπτωση). Όπως και στο Λογικό αλλά και στο Διανυσματικό μοντέλο, η σχετικότητα ενός εγγράφου καθορίζεται από τους όρους που περιέχονται σε αυτό. Naïve Bayes Έστω x = (x 1, x 2,... x n ) το διάνυσμα του εγγράφου d όπου x i = 1 αν ο i-οστός όρος περιέχεται στο έγγραφο, x i = 0 διαφορετικά. Η εκτίμηση της πιθανότητας P(d R) γίνεται χρησιμοποιώντας την πιθανότητα P(x R) Εάν οι όροι είναι ανεξάρτητοι τότε: P(x R) = P(x 1 R) P(x 2 R)... P(x n R) = P(x 1 R) P(x 2 R)... P(x n R) = P(x i R) P(x i R) είναι η πιθανότητα ο όρος x i να βρίσκεται σε ένα έγγραφο που επιλέγεται τυχαία από το ιδανικό σύνολο R. Αντίστοιχα P(x i R) Το μοντέλο αυτό είναι γνωστό και ως Naive Bayes Ανάκτηση Πληροφορίας,

45 Συνάρτηση Ομοιότητας S(q, d) = k P(x i R) P(x i R) Αφού το κάθε x i είναι 0 ή 1 έχουμε: P(x i = 1 R) P(x i = 0 R) S = k x i = 1 P(x i = 1 R) x i = 0 P(x i = 0 R) Το σπάμε: όροι που το x i είναι 1 καιόροιπουτοx i είναι 0 Συνάρτηση Ομοιότητας Για τους όρους που εμφανίζονται στο ερώτημα θέτουμε: p i = P(x i = 1 R) σύνολο έχει τον όρο x i r r i = P(x i = 1 R) i τοίδιογιατομηιδανικό Για τους όρους που δεν εμφανίζονται στο ερώτημα έστω: p i = r i όροι με q i = 0 είναι ίσοι με p i /r i = 1 S = k = k p i p i 1 - p i x i = q i = 1 r i x i = 0, q i = r i p i (1 - r i ) 1 - p i x i = q i = 1 r i (1 - p i ) q i = r i πιθανότητα ότι ένα έγγραφο που επιλέγεται από το ιδανικό Πολλαπλασιάζουμε το δεξί γινόμενο με τους όρους που υπάρχουν στο έγγραφο και διαιρούμε το αριστερό γινόμενο με τον ίδιο όρο σταθερή ποσότητα για δεδομένο ερώτημα (ανεξάρτητη του εγγράφου) Ανάκτηση Πληροφορίας,

46 Συνάρτηση Ομοιότητας Με λογαρίθμηση της σχέσης και αγνοώντας σταθερούς παράγοντες η συνάρτηση ομοιότητας S prob (q,d) παίρνει τη μορφή: S prob (q,d) = log (S(q,d)) S prob ( q, d ) = pi (1 ri ) log r (1 p ) Όπου η άθροιση αφορά στους όρους που βρίσκονται και στo ερώτημα και στο έγγραφο. i i i Σχέση με το Διανυσματικό Μοντέλο Στο Διανυσματικό μοντέλο ανάκτησης θεωρήστε ότι η i-οστή συνιστώσα του διανύσματος ενός εγγράφου (βάρος) ισούται με την ποσότητα pi (1 ri ) log r (1 p ) i ενώ το διάνυσμα του ερωτήματος q ισούται με άσσους για τους όρους που ανήκουν στο ερώτημα και μηδενικά διαφορετικά. Τότε, η συνάρτηση ομοιότητας S prob (q,d) ισούται με το εσωτερικό γινόμενο των δύο διανυσμάτων. i Ανάκτηση Πληροφορίας,

47 Αρχική Εκτίμηση των P(x i R) Αρχικά θέτουμε τιμές στις πιθανότητες : p i = P(x i R) = c r i = P(x i R) = n i / N p i πιθανότητα ότι ένα έγγραφο που επιλέγεται από το ιδανικό σύνολο έχει τον όρο x i r i τοίδιογιατομηιδανικό όπου: c είναι μία τυχαία σταθερά (π.χ., 0.5) ίδια για όλους τους όρους η κατανομή των όρων ανάμεσα στα μη σχετικά ακολουθεί την κατανομή που ακολουθεί σε όλη τη συλλογή δεν επηρεάζει την επιλογή n i είναι το πλήθος των εγγράφων που περιέχουν τον i-οστό όρο N πλήθος εγγράφων συλλογής Προσαρμογή Τιμών των P(x i R) Είναι προφανές ότι η αυθαίρετη ανάθεση τιμών δεν μπορεί να οδηγεί πάντα σε ικανοποιητικά αποτελέσματα. Για τη βελτίωση της ποιότητας των αποτελεσμάτων οι πρώτες εφαρμογές του Πιθανοκρατικού μοντέλου χρειάζονταν την παρέμβαση του χρήστη για την αναπροσαρμογή των τιμών. Εναλλακτικά μπορεί να χρησιμοποιηθεί και αυτοματοποιημένος τρόπος. Αρχικά εκτελείται το ερώτημα με τις αρχικές εκτιμήσεις. Επιλέγονται τα k καλύτερα έγγραφα. Έστω k i ο αριθμός των εγγράφων που περιέχουν τον i-οστό όρο. Θέτουμε: p i = P(x i R) = k i / k r i = P(x i R) = (n i - k i ) / (N - k) Ανάκτηση Πληροφορίας,

48 Πλεονεκτήματα-Μειονεκτήματα Πλεονεκτήματα: 1. Απλό μοντέλο 2. Τα κείμενα ταξινομούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά Μειονεκτήματα: 1. Χρειάζεται να μαντέψουμε 2. Δε λαμβάνεται υπ όψιν η συχνότητα εμφάνισης 3. Θεωρείότιοιόροιείναιανεξάρτητοι Ανάκτηση Πληροφορίας,

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C): CS-463 Information Systems Μοντέλα Ανάκτησης ( Models) Part A Yannis Tzitzikas University of Crete CS-463,Spring 05 Lecture : 3 Date : 1-3- ιάρθρωση PART (A) Ανάκτηση και Φιλτράρισµα Εισαγωγή στα Μοντέλα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Μοντελοποίηση: Διανυσματικό μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth. Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Γιατοπιθανοτικότουκαθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο 2

Διαβάστε περισσότερα

Μοντέλα Ανάκτησης Ι (Retrieval Models)

Μοντέλα Ανάκτησης Ι (Retrieval Models) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 006 Διάρθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Informaion Rerieval (IR) Sysems Μοντέλα Ανάκτησης Ι (Rerieval Models) Εισαγωγή στα Μοντέλα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 3: Μοντελοποίηση: Boolean μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 του βιβλίου. 2 ο ΜΕΡΟΣ

ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ.  Κεφάλαιο 2 του βιβλίου. 2 ο ΜΕΡΟΣ ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Για το πιθανοκρατικό του καθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο 2 του βιβλίου

Διαβάστε περισσότερα

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006 ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006 Outlne Prevous Semester Exercses Set

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 6: Ο Αντεστραμμένος Κατάλογος Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

1. Financial New Times Year MAXk {FREQij} D D D D

1.  Financial New Times Year MAXk {FREQij} D D D D Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY46 - Συστήματα Ανάκτησης Πληροφοριών 2004-2005 Εαρινό Εξάμηνο 2 η Σειρά ασκήσεων (Μοντέλα Ανάκτησης Πληροφοριών και Ευρετήρια) Ανάθεση: 6 Μαρτίου Παράδοση:

Διαβάστε περισσότερα

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 9: Ανάδραση Σχετικότητας (Relevance Feedback ή RF) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο : Πιθανοτική ανάκτηση πληροφορίας. Κεφ. Πιθανοτική Ανάκτηση Πληροφορίας Βασική ιδέα: Διάταξη εγγράφων με βάση την πιθανότητα να είναι

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση

Διαβάστε περισσότερα

Τι (άλλο) θα δούμε σήμερα;

Τι (άλλο) θα δούμε σήμερα; Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;

Διαβάστε περισσότερα

Πιθανοκρατικό μοντέλο

Πιθανοκρατικό μοντέλο Πιθανοκρατικό μοντέλο Το μοντέλο MAP Αλέξανδρος Γκιμπερίτης Βασίλης Μπούργος Δημήτρης Σουραβλιάς 1 Εισαγωγικές έννοιες Κάθε έγγραφο d της συλλογής παριστάνεται από το δυαδικό διάνυσμα x = (x 1, x 2,...,

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 10η 1 Αποτίμηση επίδοσης Μηχανών Αναζήτησης 2 Sec. 8.6 Μέτρα επίδοσης μιας μηχανής αναζήτησης Πόσο γρήγορα εκτελεί την διαδικασία

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 5//013 ο ΓΛΩΣΣΑ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Ενότητες Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο

Διαβάστε περισσότερα

Part C. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete PART (C): CS-463,Spring 05 PART (A)

Part C. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete PART (C): CS-463,Spring 05 PART (A) CS-463 Information Systems Μοντέλα Ανάκτησης ( Models) Part C Yannis Tzitzikas University of Crete CS-463,Spring 05 Lecture : 5 Date : 8-3- ιάρθρωση ιάλεξης PART (A) Ανάκτηση και Φιλτράρισµα Εισαγωγή στα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της

Διαβάστε περισσότερα

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα. Μοντελοποίηση Μοντέλα I που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα. Ταξινόµηση Μοντέλων I etreval Browsng Κλασικά Μοντέλα Boolean Vector robablstc οµικά Μοντέλα Non-Overlappng Lsts

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας Παππάς Χρήστος Ιωάννινα, Ιανουάριος 2010 Διάρθρωση Εισαγωγή Πρόβλημα Σημαντικότητα Ενδιαφέροντα θέματα Τεχνικό

Διαβάστε περισσότερα

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών ΗΥ-6 Συστήµατα Ανάκτησης Πληροφοριών 7-8 Εαρινό Εξάµηνο Άσκηση Λύσεις ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Θεωρείστε µια

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο

Διαβάστε περισσότερα

Μοντέλα Ανάκτησης IΙ (Retrieval Models)

Μοντέλα Ανάκτησης IΙ (Retrieval Models) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης IΙ (Retrieval Models) Γιάννης Τζίτζικας ιάλεξη

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη :

Διαβάστε περισσότερα

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Δεδομένων (Information Retrieval) Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας

Διαβάστε περισσότερα

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun Κ24: Προγραμματισμός Συστήματος - 1η Εργασία, Εαρινό Εξάμηνο 2018 Προθεσμία Υποβολής: Κυριακή 18 Μαρτίου, 23:59 Εισαγωγή Στην εργασία αυτή θα υλοποιήσετε μία μίνι μηχανή αναζήτησης (search engine). Οι

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση Πίνακες Διασποράς Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση κλειδί k T 0 1 2 3 4 5 6 7 U : χώρος πιθανών κλειδιών Τ : πίνακας μεγέθους

Διαβάστε περισσότερα

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις Κατζαγιαννάκη Γ. Ειρήνη Ηλέκτρα Μεταπτυχιακή Εργασία Τµήµα Επιστήµης Υπολογιστών Πανεπιστήµιο Κρήτης Περίληψη Σε ένα σύστηµα επιλεκτικής διασποράς

Διαβάστε περισσότερα

ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων

ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων ΕΠΛ31 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων Στην ενότητα

Διαβάστε περισσότερα

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0 ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0 Η Θεωρία Πιθανοτήτων είναι ένας σχετικά νέος κλάδος των Μαθηματικών, ο οποίος παρουσιάζει πολλά ιδιαίτερα χαρακτηριστικά στοιχεία. Επειδή η ιδιαιτερότητα

Διαβάστε περισσότερα

Διάλεξη 04: Παραδείγματα Ανάλυσης

Διάλεξη 04: Παραδείγματα Ανάλυσης Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Παραδείγματα Ανάλυσης Πολυπλοκότητας : Μέθοδοι, παραδείγματα

Διαβάστε περισσότερα

Αιτιολόγηση με αβεβαιότητα

Αιτιολόγηση με αβεβαιότητα Αιτιολόγηση με αβεβαιότητα Στα προβλήματα του πραγματικού κόσμου οι αποφάσεις συνήθως λαμβάνονται υπό αβεβαιότητα (uncertainty), δηλαδή έλλειψη επαρκούς πληροφορίας. Οι κυριότερες πηγές αβεβαιότητας είναι:

Διαβάστε περισσότερα

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση) TETY Εφαρμοσμένα Μαθηματικά Ενότητα ΙΙ: Γραμμική Άλγεβρα Ύλη: Διανυσματικοί χώροι και διανύσματα, μετασχηματισμοί διανυσμάτων, τελεστές και πίνακες, ιδιοδιανύσματα και ιδιοτιμές πινάκων, επίλυση γραμμικών

Διαβάστε περισσότερα

Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων

Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: - Παραδείγματα Ανάλυσης Πολυπλοκότητας : Μέθοδοι, παραδείγματα

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 2: Μέτρηση Αποτελεσματικότητας Συστημάτων Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

Παλαιότερες ασκήσεις

Παλαιότερες ασκήσεις Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY6 - Συστήµατα Ανάκτησης Πληροφοριών Παλαιότερες ασκήσεις η Σειρά Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Άσκηση ( η σειρά ασκήσεων

Διαβάστε περισσότερα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Εισαγωγή Παρουσιάστηκε από τον Thomas L. Saaty τη δεκαετία του 70 Μεθοδολογία που εφαρμόζεται στην περιοχή των Multicriteria Problems Δίνει

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων Σ Β Βάση εδομένων Η ομή ενός ΣΒ Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 1 Βάσεις Δεδομένων 2006-2007 Ευαγγελία Πιτουρά 2 Εισαγωγή Εισαγωγή ΜΕΡΟΣ 1 (Χρήση Σ Β ) Γενική

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ Ενότητα 13: Αλγόριθμοι-Μεγάλων ακεραίων- Εκθετοποίηση- Πολλαπλασιασμός πινάκων -Strassen Μαρία Σατρατζέμη Τμήμα Εφαρμοσμένης Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Γ2.1 Στοιχεία Αρχιτεκτονικής. Γ Λυκείου Κατεύθυνσης

Γ2.1 Στοιχεία Αρχιτεκτονικής. Γ Λυκείου Κατεύθυνσης Γ2.1 Στοιχεία Αρχιτεκτονικής Γ Λυκείου Κατεύθυνσης Ορισμός άλγεβρας Boole Η άλγεβρα Boole ορίζεται, ως μία αλγεβρική δομή A, όπου: (α) Το Α είναι ένα σύνολο στοιχείων που περιέχει δύο τουλάχιστον στοιχεία

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Systems Πανεπιστήμιο Κρήτης, Άνοιξη Γιάννης Τζίτζικας Lecture : 1 Date : 22-2- Title : Administration εδοµένα Το Αντικείµενο του Μαθήµατος Μια συλλογή

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Ολοι οι αριθμοί που αναφέρονται σε όλα τα ερωτήματα είναι μικρότεροι το 1000 εκτός αν ορίζεται διαφορετικά στη διατύπωση του προβλήματος. Διάρκεια: 3,5 ώρες Καλή

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Επεξεργασία Ερωτήσεων ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήματος 1. Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασμός) 2. Προγραμματισμός (Σχεσιακή Άλγεβρα, SQL) ημιουργία/κατασκευή Εισαγωγή εδομένων

Διαβάστε περισσότερα

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS Ralf Schenkel, Tom Crecelious, Mouna Kacimi, Sebastian Michel, Thomas Neumann, Josiane Xavier Parreira, Gerhard Weikum ΠΡΟΒΛΗΜΑ Εύρεση ενός αποτελεσματικού

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

Προσωπικό. Ιστοσελίδα μαθήματος. ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών. Διδακτικές μονάδες: 4 Προαπαιτούμενα. Εβδομαδιαίο Πρόγραμμα : Παρακολούθηση

Προσωπικό. Ιστοσελίδα μαθήματος. ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών. Διδακτικές μονάδες: 4 Προαπαιτούμενα. Εβδομαδιαίο Πρόγραμμα : Παρακολούθηση Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems) Διδακτικές μονάδες: 4 Προαπαιτούμενα ΗΥ240 - Δομές Δεδομένων ΗΥ463

Διαβάστε περισσότερα

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method)

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method) ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Χειµερινό Εξάµηνο 2016 ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method) ΧΑΡΗΣ ΘΕΟΧΑΡΙΔΗΣ Επίκουρος Καθηγητής, ΗΜΜΥ (ttheocharides@ucy.ac.cy)

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας Εισαγωγή

Ανάκτηση Πληροφορίας Εισαγωγή Ανάκτηση Πληροφορίας Εισαγωγή Απόστολος Παπαδόπουλος Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής Ακαδημαϊκό Έτος 2007-2008 Αντικείμενο IR Η Ανάκτηση Πληροφορίας (ΑΠ)

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Κεφάλαιο 8 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 Ανάκτηση Πληροφορίας 2009-2010 1 Δομές

Διαβάστε περισσότερα

Επεξεργασία Ερωτήσεων

Επεξεργασία Ερωτήσεων Εισαγωγή Σ Β Σύνολο από προγράμματα για τη διαχείριση της Β Επεξεργασία Ερωτήσεων Αρχεία ευρετηρίου Κατάλογος συστήματος Αρχεία δεδομένων ΒΑΣΗ Ε ΟΜΕΝΩΝ Σύστημα Βάσεων εδομένων (ΣΒ ) Βάσεις Δεδομένων 2007-2008

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ ΑΣΚΗΣΗ Σύμφωνα με στοιχεία από το Πανεπιστήμιο της Οξφόρδης η πιθανότητα ένας φοιτητής να αποφοιτήσει μέσα σε 5 χρόνια από την ημέρα εγγραφής του στο

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

Υποερωτήματα στην SQL Αθανάσιος Σταυρακούδης http://stavrakoudis.econ.uoi.gr 1 / 31 Η ανάγκη για υποερώτημα Ποιος υπάλληλος παίρνει το μεγαλύτερο μισθό; Αν ξέραμε το μεγαλύτερο μισθό, πχ 2000, θα γράφαμε:

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL 8.1. Εισαγωγή ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PACAL Πως προέκυψε η γλώσσα προγραμματισμού Pascal και ποια είναι τα γενικά της χαρακτηριστικά; Σχεδιάστηκε από τον Ελβετό επιστήμονα της Πληροφορικής Nicklaus Wirth to

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

Κεφάλαιο 4. Λογική Σχεδίαση

Κεφάλαιο 4. Λογική Σχεδίαση Κεφάλαιο 4 Λογική Σχεδίαση 4.1 Εισαγωγή Λογικές συναρτήσεις ονομάζουμε εκείνες για τις οποίες μπορούμε να αποφασίσουμε αν είναι αληθείς ή όχι. Χειριζόμαστε τις λογικές προτάσεις στην συγγραφή λογισμικού

Διαβάστε περισσότερα

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή: Δειγματοληψία Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ συμβολίζουμε την μέση τιμή: Επομένως στην δειγματοληψία πινάκων συνάφειας αναφερόμαστε στον

Διαβάστε περισσότερα

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2007-2008 Εαρινό Εξάµηνο Άσκηση 1 Φροντιστήριο 4 Θεωρείστε ένα έγγραφο με περιεχόμενο «αυτό είναι ένα κείμενο και

Διαβάστε περισσότερα

ETY-202 ΤΑ ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΚΒΑΝΤΟΜΗΧΑΝΙΚΗΣ ETY-202 ΎΛΗ & ΦΩΣ 02. ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ. Στέλιος Τζωρτζάκης 1/11/2013

ETY-202 ΤΑ ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΚΒΑΝΤΟΜΗΧΑΝΙΚΗΣ ETY-202 ΎΛΗ & ΦΩΣ 02. ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ. Στέλιος Τζωρτζάκης 1/11/2013 stzortz@iesl.forth.gr 1396; office Δ013 ΙΤΕ 2 ΎΛΗ & ΦΩΣ 02. ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΑ ΜΑΘΗΜΑΤΙΚΑ ΕΡΓΑΛΕΙΑ ΤΗΣ ΚΒΑΝΤΟΜΗΧΑΝΙΚΗΣ Στέλιος Τζωρτζάκης 1 3 4 Ο διανυσματικός χώρος των φυσικών καταστάσεων Η έννοια

Διαβάστε περισσότερα

Section 8.3 Trigonometric Equations

Section 8.3 Trigonometric Equations 99 Section 8. Trigonometric Equations Objective 1: Solve Equations Involving One Trigonometric Function. In this section and the next, we will exple how to solving equations involving trigonometric functions.

Διαβάστε περισσότερα

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε: Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάµηνο Φροντιστήριο 5 Άσκηση 1 Θεωρείστε το αλφάβητο {α,β,γ,δ,ε} και την εξής φράση: «α α β γ

Διαβάστε περισσότερα

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741 Μεταπτυχιακό Πρόγραμμα: «Επιστήμη και Τεχνολογία Υπολογιστών» Μεταπτυχιακή Διπλωματική Εργασία «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Διαβάστε περισσότερα

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας-Βιβλιοθηκονοµίας Μεταπτυχιακό Πρόγραµµα Σπουδών2007-2008 ιδάσκουσα: Κατερίνα Τοράκη (Οι διαλέξεις περιλαµβάνουν

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται

Διαβάστε περισσότερα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n.. Μέτρα Κινδύνου για Δίτιμα Κατηγορικά Δεδομένα Σε αυτή την ενότητα θα ορίσουμε δείκτες μέτρησης του κινδύνου εμφάνισης μίας νόσου όταν έχουμε δίτιμες κατηγορικές μεταβλητές. Στην πιο απλή περίπτωση μας

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

If we restrict the domain of y = sin x to [ π, π ], the restrict function. y = sin x, π 2 x π 2

If we restrict the domain of y = sin x to [ π, π ], the restrict function. y = sin x, π 2 x π 2 Chapter 3. Analytic Trigonometry 3.1 The inverse sine, cosine, and tangent functions 1. Review: Inverse function (1) f 1 (f(x)) = x for every x in the domain of f and f(f 1 (x)) = x for every x in the

Διαβάστε περισσότερα

Μαθηματική Εισαγωγή Συναρτήσεις

Μαθηματική Εισαγωγή Συναρτήσεις Φυσικός Ραδιοηλεκτρολόγος (MSc) ο Γενικό Λύκειο Καστοριάς A. Μαθηματική Εισαγωγή Πράξεις με αριθμούς σε εκθετική μορφή Επίλυση βασικών μορφών εξισώσεων Συναρτήσεις Στοιχεία τριγωνομετρίας Διανύσματα Καστοριά,

Διαβάστε περισσότερα