Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):"

Transcript

1 CS-463 Information Systems Μοντέλα Ανάκτησης ( Models) Part A Yannis Tzitzikas University of Crete CS-463,Spring 05 Lecture : 3 Date : 1-3- ιάρθρωση PART (A) Ανάκτηση και Φιλτράρισµα Εισαγωγή στα Μοντέλα Άντλησης Κατηγορίες Μοντέλων Exact vs Best Match Τα κλασσικά µοντέλα ανάκτησης Το Boolean Μοντέλο Στατιστικά Μοντέλα - Βάρυνση Όρων Το ιανυσµατικό Μοντέλο Το Πιθανοκρατικό Μοντέλο PART (B):Εναλλακτικά µοντέλα (Ι)Συνολοθεωρητικάµοντέλα Fuzzy Model Extended Boolean Model (ΙΙ) ΑλγεβρικάΜοντέλα Latent Semantic Indexing Neural Netwok Model PART (C): (ΙΙΙ)ΠιθανοκρατικάΜοντέλα Inference Network Model Belief Network Model 2 1

2 Ανάκτηση και Φιλτράρισµα Ανάκτηση επί σκοπού (ad hoc retrieval): Σταθερήσυλλογήεγγράφων, µεταβαλλόµενες επερωτήσεις query query query query IR System σταθερή Φιλτράρισµα(Filtering): Σταθερή επερώτηση, ροή νέων κειµένων Προφίλ Χρήστη = Επερώτηση που εκφράζει πιο µόνιµες προτιµήσεις έµφαση στη δηµιουργία/ενηµέρωση του προφιλ Routing: Όπως το φιλτράρισµα µόνο που εδώ το σύστηµα δίδει διατεταγµένες λίστες σταθερή User profile IR System 3 Φιλτράρισµα User 2 Profile Docs Filtered for User 2 User 1 Profile Docs for User 1 Documents Stream 4 2

3 Πως βλέπουµε ένα έγγραφο; Επιλογές Όροι ευρετηρίασης (Index terms) Πλήρες κείµενο (Full text) Πλήρες κείµενο + οµή (π.χ. hypertext, XML) 5 Μοντέλα Ανάκτησης Ένα µοντέλο ανάκτησης ορίζει Αναπαράσταση Εγγράφων Αναπαράσταση Επερωτήσεων Καθορίζει και ποσοτικοποιεί την έννοια της συνάφειας η βαθµός συνάφειας µπορεί να είναι δίτιµος (πχ. {1,0}), ή συνεχής(πχ [0,1]) Έστω D η συλλογή εγγράφων και Q το σύνολο όλων των πληροφοριακών αναγκών που µπορεί να έχει ένας χρήστης. Μπορούµε να δούµε ένα µοντέλο ανάκτησης πληροφορίας ως µια τετράδα [F, D, Q, R] όπου: F: πλαίσιο µοντελοποίησης εγγράφων, επερωτήσεων και των σχέσεων µεταξύ τους D: παράστασηεγγράφων D={ F(d) d D} Q: παράστασηεπερωτήσεων Q={ F(q) q Q} R: συνάρτηση κατάταξης που αποδίδει µία τιµή σε κάθε ζεύγος (d,q) D x Q δίτιµη: R: D x Q [True/False] συνεχής R: D x Q [0,1] 6 3

4 Τα τµήµατα της αρχιτεκτονικής που εµπλέκονται user need User Interface Text Text Operations user feedback query retrieved docs ranked docs Query Operations Searching Ranking logical view logical view Indexing inverted file Index DB Manager Module Text Database 7 Κατηγορίες Μοντέλων Ανάκτησης (Ι) Κλασσικά Μοντέλα (3) Boolean Model ιανυσµατικό (Vector Space) Πιθανοκρατικό (Probabilistic) Συνολοθεωρητικά (set theoretic)(2) Εκτεταµένο Boolean (Extended Boolean Model) Fuzzy Model (ΑσαφέςΜοντέλο) ιανυσµατικά (στατιστικά/αλγεβρικά) (3) Γενικευµένο ιανυσµατικό (Generalized Vector Space Model) Latent Semantic Indexing (Λανθάνων/Άδηλος/Υποβόσκωνσηµασιολογικός ευρετηριασµός) Μοντέλο Νευρωνικού ικτύου (Neural Network Model) 8 4

5 Κατηγορίες Μοντέλων Ανάκτησης (ΙΙ) Πιθανοκρατικά (Probabilistic) (2) Inference Network Model (Μοντέλο ικτύου Επαγωγών) Belief Network Model (Μοντέλο ικτύου Πεποιθήσεων) Μοντέλα Βασισµένα στη Λογική Μοντέλα οµηµένου Κειµένου (Structured Text Models) Non-Overlapping Lists Proximal Nodes < Μοντέλα Ανάκτησης XML> 9 Μια Ταξινοµία των Μοντέλων Ανάκτησης Set Theoretic : Adhoc Filtering Classic Models boolean vector probabilistic Structured Models Non-Overlapping Lists Proximal Nodes Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semantic Index Neural Networks Probabilistic Inference Network Belief Network 10 5

6 Exact vs. Best Match Models Exact-match µια επερώτηση καθορίζει αυστηρά κριτήρια ανάκτησης κάθε έγγραφο είτε ταιριάζει είτε όχι µε µία επερώτηση το αποτέλεσµα είναι ένα σύνολο κειµένων Best-match µια επερώτηση δεν περιγράφει αυστηρά κριτήρια ανάκτησης κάθε έγγραφο ταιριάζει σε µια επερώτηση σε ένα βαθµό το αποτέλεσµα είναι µια διατεταγµένη λίστα εγγράφων µε ένα κατώφλι µπορούµε να ελέγξουµε το µέγεθος της απάντησης «Μικτές προσεγγίσεις» E.g., some type of ranking of result set (best of both worlds) E.g., best-match query language that incorporates exact-match operators 11 Information Models Boolean Model 6

7 Boolean Model Έγγραφο = σύνολο λέξεων κλειδιών (keywords) Επερώτηση: Boolean έκφρασηλέξεωνκλειδιών (AND,OR, NOT, παρενθέσεις) πχ επερώτησης (( Crete AND Greece) OR (Oia AND Santorini)) AND Hotel AND-NOT Hilton (( Crete & Greece) (Oia & Santorini)) & Hotel &! Hilton Απάντηση= σύνολοεγγράφων απουσία διάταξης 13 Boolean Model: Formally K={k 1,,k t } : σύνολοόλωντωνλέξεωνευρετηρίασης Κάθεέγγραφο d j παριστάνεταιµετοδιάνυσµα d j =(w 1,j,,w t,j ) όπου: w i,j = 1 ανηλέξη k i εµφανίζεταιστοκείµενο d j (αλλιώς w i,j =0) Μια επερώτηση q είναι µια λογική έκφραση στο Κ, πχ: q = k1 and ( k2 or not k3)) δηλαδή q = k1 ( k2 k3)) q DNF = (k1 k2 k3) (k1 k2 k3) (k1 k2 k3) q DNF = (1,1,1) (1,1,0) (1,0,0) R(d,q) True αν υπάρχει συζευκτική συνιστώσα του q µε λέξεις των οποίων τα βάρη είναιταίδιαµεαυτάτωναντίστοιχωνλέξεωντουεγγράφου d False, αλλιώς 14 7

8 Boolean Model: Formally Πιο απλά ένα κείµενο d είναι µια σύζευξη όρων, όπου όρος µια λέξη σε θετική ή αρνητική µορφή µια επερώτηση q είναι µια οποιαδήποτε λογική έκφραση R(d,q)=True iff d =q δηλαδήανκάθεερµηνείαπουαληθεύειτο d αληθεύεικαιτο q 15 Παράσταση εγγράφων κατά το Boolean Model k 1 k 2. k t d 1 w 11 w 21 w t1 d 2 w 12 w 22 w t2 : : : : : : : : d n w 1n w 2n w tn w i,j = {0,1} 16 8

9 ΑκριβέςΤαίριασµα (Exact Match): Συν & Πλην Πλεονεκτήµατα Προβλέψιµο, εύκολαεξηγήσιµο Αποτελεσµατικό όταν γνωρίζεις ακριβώς τι ψάχνεις και τι περιέχει η συλλογή Αποδοτική υλοποίηση Αδυναµίες Η διατύπωση των επερωτήσεων είναι δύσκολη για πολλούς χρήστες Ικανοποιητική ακρίβεια (precision) συχνά σηµαίνει απαράδεκτη ανάκληση (recall) Τα µοντέλα κατάταξης (ranking models) έχουν αποδειχτεί καλύτερα στην πράξη 17 Τα προβλήµατα του Boolean Model Άκαµπτο: AND σηµαίνειόλα, OR σηµαίνειοποιοδήποτε υσκολίες η έκφραση σύνθετων πληροφοριακών αναγκών ο έλεγχος του µεγέθους της απάντησης All matched documents will be returned η διάταξη των αποτελεσµάτων All matched documents logically satisfy the query η υποστήριξη ανάδρασης συνάφειας If a document is identified by the user as relevant or irrelevant, how should the query by modified? 18 9

10 Η αδυναµία ελέγχου του µεγέθους της απάντησης Παράδειγµα: Answer( Cheap Tickets Heraklion ) = 1 Answer( Cheap Tickets) = 1000 Answer( Cheap Heraklion) = 1000 Answer( Tickets Heraklion ) = 1000 Άρα είτε παίρνουµε µια απάντηση µε ένα έγγραφο είτε ένα σύνολο 1000 στοιχείων. :( 19 Στατιστικά Μοντέλα Έγγραφο: bag or words (unordered words with frequencies) Bag = set that allows multiple occurences of the same element Επερώτηση: Σύνολο όρων µε προαιρετικά βάρη: Weighted query terms: q=<database 0.5, text 0.8, information 0.2> Unweighted query terms: q=<database text information > No Boolean conditions specified in the query Απάντηση: ιατεταγµένο σύνολο συναφών εγγράφων υπολογίζεται βάσει των συχνοτήτων εµφάνισης των λέξεων στα έγγραφα και στις επερωτήσεις 20 10

11 Κρίσιµα Ερωτήµατα Πώς να καθορίζουµε τη σπουδαιότητα ενός όρου σε ένα έγγραφο και στα πλαίσια ολόκληρης της συλλογής; Πώς να καθορίζουµε το βαθµό οµοιότητας µεταξύ ενός εγγράφου και µιας επερώτησης; 21 Information Models Vector Space Model ( ιανυσµατικό Μοντέλο) 11

12 ιανυσµατικόμοντέλο: Εισαγωγή K={k 1,,k t } : σύνολοόλωντωνλέξεωνευρετηρίασης Κάθεέγγραφο d j παριστάνεταιµεέναδιάνυσµα d j =(w 1,j,,w t,j ) όπου w i,j [0,1] (πχ w i,j =0.3) Μιαεπερώτηση q παριστάνεταιµεέναδιάνυσµα q=(w 1,q,,w t,q ) όπου πάλι w i,q [0,1] R(d,q) εκφράζει το βαθµό οµοιότητας των διανυσµάτων d και q 23 Βάρη Όρων: Συχνότητα όρου (tf) Οι πιο συχνοί όροι σε ένα έγγραφο είναι πιο σηµαντικοί (υποδηλώνουν το περιεχόµενο του) freq ij = πλήθοςεµφανίσεωντουόρου i στοέγγραφο j Κανονικοποίηση tf ij =freq ij /max k {freq kj } όπου max k {freq kj } τοµεγαλύτεροπλήθοςεµφανίσεωνενός όρουστοέγγραφο j 24 12

13 Βάρη Όρων: Αντίστροφη Συχνότητα Εγγράφων (Inverse Document Frequency) Ιδέα: Όροι που εµφανίζονται σε πολλά διαφορετικά έγγραφα έχουν µικρή διακριτική ικανότητα df i = document frequency of term i πλήθος εγγράφων που περιέχουν τον όρο i idf i = inverse document frequency of term i := log 2 (N/ df i ) (N: συνολικό πλήθος εγγράφων) Το idf αποτελεί µέτρο της διακριτικής ικανότητας του όρου ολογάριθµοςελαφραίνειτοβάροςτου idfσεσχέσηµετο tf Παράδειγµα: ΈστωΝ=10 και df computer =10, df aristotle =2, Τότε, N/df computer =10/10=1, N/df aristotle =10/2=5 Τότε, idf computer =log(1) =0, idf aristotle =log(5)= TF-IDF Weighting (βάρυνση TF-IDF) w ij = tf ij idf i = tf ij log 2 (N/ df i ) Ένας όρος που εµφανίζεται συχνά στο έγγραφο, αλλά σπάνια στην υπόλοιπη συλλογή, λαµβάνει υψηλό βάρος Ανκαιέχουνπροταθείπολλοίάλλοιτρόποιβάρυνσης, το tf-idf δουλεύει πολύ καλά στην πράξη 26 13

14 Παράδειγµα υπολογισµού TF-IDF Έστω ένα έγγραφο που περιέχει όρους µε τις εξής συχνότητες: Α(3), Β(2), C(1), πχ. d= A B A B C A Υποθέστε ότι η συλλογή περιέχει έγγραφα και οι συχνότητες κειµένου (document frequencies) αυτών των όρων είναι: Α(50), Β(1300), C(250) Τότε: Α: tf=3/3; idf = log(10000/50)= 5.3; tf-idf=5.3 B: tf=2/3; idf = log(10000/1300)= 2; tf-idf=1.3 C: tf=1/3; idf = log(10000/250)= 3.7; tf-idf= ιάνυσµα Επερώτησης Τα διανύσµατα των επερωτήσεων θεωρούνται ως έγγραφα και επίσης βαρύνονται µε tf-idf Εναλλακτικά, ο χρήστης µπορεί να δώσει τα βάρη των όρων της επερώτησης 28 14

15 ιανυσµατικό Μοντέλο: K={k 1,,k t } : σύνολοόλωντωνλέξεωνευρετηρίασης Κάθεέγγραφο d j παριστάνεταιµεέναδιάνυσµα d j =(w 1,j,,w t,j ) όπου w i,j = tf ij idf i Μιαεπερώτηση qπαριστάνεταιµεέναδιάνυσµα q=(w 1,q,,w t,q ) όπου πάλι w i,q = tf iq idf i R(d,q) =? 29 ιανυσµατικό Μοντέλο: Μέτρο Οµοιότητας Example: D 1 = 2T 1 + 3T 2 + 5T 3 D 2 = 3T 1 + 7T 2 + T 3 T 3 Q = 0T 1 + 0T 2 + 2T 3 5 D 1 = 2T 1 + 3T 2 + 5T 3 Q = 0T 1 + 0T 2 + 2T T 1 D 2 = 3T 1 + 7T 2 + T 3 T 2 7 Is D 1 or D 2 more similar to Q? How to measure the degree of similarity? Distance? Angle? Projection? 30 15

16 ΜέτροΟµοιότητας: Εσωτερικό Γινόµενο (inner product) Η οµοιότητα µεταξύ των διανυσµάτων d και q ορίζεται ως το εσωτερικό τους γινόµενο: sim( dj, q) = t i= 1 w ij w iq όπου wij τοβάροςτουόρου i στοέγγραφο j και wiqτοβάροςτου όρου i στην επερώτηση Για δυαδικά (0/1) διανύσµατα το εσωτερικό γινόµενο είναι ο αριθµόςτων matched query terms in the document (άρατο µέγεθος της τοµής) Για βεβαρηµένα διανύσµατα, είναι το άθροισµα των γινοµένων των βαρών των matched terms 31 Binary: Παράδειγµα d = 1, 1, 1, 0, 1, 1, 0 q = 1, 0, 1, 0, 0, 1, 1 sim(d, q) = 3 retrieval database architecture computer text management information Size of vector = size of vocabulary = 7 0 means corresponding term not found in document or query Weighted: D 1 = 2T 1 + 3T 2 + 5T 3 D 2 = 3T 1 + 7T 2 + 1T 3 Q = 0T 1 + 0T 2 + 2T 3 sim(d 1, Q) = 2*0 + 3*0 + 5*2 = 10 sim(d 2, Q) = 3*0 + 7*0 + 1*2 = 2 D 1 = 2T 1 + 3T 2 + 5T 3 T 3 5 Q = 0T 1 + 0T 2 + 2T T D 2 = 3T 1 + 7T 2 + T 3 7 T

17 Ιδιότητες του Εσωτερικού Γινοµένου Το εσωτερικό γινόµενο δεν είναι φραγµένο (unbounded) ευνοεί (µεροληπτεί) µεγάλα έγγραφα µε µεγάλο πλήθος διαφορετικών όρων µετρά το πλήθος των όρων που κάνουν match, αλλά αγνοεί αυτούς που δεν κάνουν match 33 Μέτρο Οµοιότητας Συνηµίτονου (Cosine) Μετρά το συνηµίτονο της γωνίας µεταξύ των 2 διανυσµάτων t 3 Εσωτερικό γινόµενο κανονικοποιηµένο βάσει του µήκους των διανυσµάτων θ 1 CosSim(d j, q) = r d r d j j r r q q = i = 1 t t ( w w ij ij i = 1 i = 1 2 w t iq ) w iq 2 D 1 θ 2 Q t 1 t 2 D 2 D 1 = 2T 1 + 3T 2 + 5T 3 CosSim(D 1, Q) = 10 / (4+9+25)(0+0+4) = 0.81 D 2 = 3T 1 + 7T 2 + 1T 3 CosSim(D 2, Q) = 2 / (9+49+1)(0+0+4) = 0.13 Q = 0T 1 + 0T 2 + 2T 3 D 1 is 6 times better than D 2 using cosine similarity but only 5 times better using inner product

18 ιανυσµατικόμοντέλο: Παρατηρήσεις Πλεονεκτήµατα Λαµβάνει υπόψη τις τοπικές (tf) και καθολικές (idf) συχνότητες όρων Παρέχει µερικό ταίριασµα (partial matching) και διατεταγµένα αποτελέσµατα Τείνει να δουλεύει καλά στην πράξη, παρά τις αδυναµίες του Αποδοτική υλοποίηση για µεγάλες συλλογές εγγράφων Αδυναµίες Απουσία Σηµασιολογίας (π.χ. σηµασίας λέξεων) ΑπουσίαΣυντακτικήςΠληροφορίας (π.χ. δοµήφράσης, σειράλέξεων, εγγύτητα λέξεων) Υπόθεση Ανεξαρτησίας Όρων (π.χ. άγνοια συνωνύµων) Έλλειψη ελέγχου ala Boolean model (π.χ. δεν µπορούµε να απαιτήσουµε την παρουσία ενός όρου στο έγγραφο) Given a two-term query q= A B, may prefer a document containing A frequently but not B, over a document that contains both A and B but both less frequently 35 Περίληψη του ιανυσµατικού Μοντέλου K={k 1,,k t } : σύνολοόλωντωνλέξεωνευρετηρίασης Κάθεέγγραφο d j παριστάνεταιµετοδιάνυσµα d j =(w 1,j,,w t,j ) όπου w ij = tf ij idf i = tf ij log 2 (N/ df i ) Μιαεπερώτηση q παριστάνεταιµετοδιάνυσµα q=(w 1,q,,w t,q ) όπου w iq = tf iq idf i = tf iq log 2 (N/ df i ) R(d j,q) = CosSim(d j, q) = r d r d j j r r q q = i = 1 t t ( w w ij ij i = 1 i = 1 2 w t iq ) w iq

19 Απλοϊκή Υλοποίηση 1) Φτιάξε το tf-idf διάνυσµα για κάθε έγγραφο dj ths συλλογής (έστω V το λεξιλόγιο) 2) Φτιάξε το tf-idf διάνυσµα q της επερώτησης 3) Γιακάθεέγγραφο d j του D Υπολόγισε τοσκορ s j = cossim(d j, q) 4) ιέταξε τα έγγραφα σε φθίνουσα σειρά 5) Παρουσίασε τα έγγραφα στο χρήστη Χρονικήπολυπλοκότητα: O( V D ) Κακόγιαµεγάλο V & D! V = 10,000; D = 100,000; V D = 1,000,000, Γρηγορότερη Υλοποίηση Ένας όρος που δεν εµφανίζεται και στην επερώτηση και στο έγγραφο δεν επηρεάζει το βαθµό οµοιότητας συνηµίτονου Το γινόµενο των βαρών είναι 0 και άρα δεν συνεισφέρει στο εσωτερικό γινόµενο Συνήθως η επερώτηση είναι µικρή, άρα το διάνυσµα της είναι εξαιρετικά αραιό => Μπορούµε να χρησιµοποιήσουµε ένα ευρετήριο ώστε να υπολογίσουµε το βαθµό οµοιότητας µόνο εκείνων των εγγράφων που περιέχουν τουλάχιστον έναν όρο της επερώτησης. 3) Γιακάθεέγγραφο d j του D Υπολόγισε τοσκορ s j = cossim(d j, q) 3 ) Γιακάθεέγγραφο d j πουπεριέχειτουλάχιστονένανόρο του query Υπολόγισε τοσκορ s j = cossim(d j, q) 38 19

20 Γρηγορότερη Υλοποίηση (ΙΙ) Q = k 1 k 2 k n D 11 D 1B D 21 D 2B D n1 D nb Ας υποθέσουµε ότι ένας όρος της επερώτησης εµφανίζεται σε B έγγραφα Τότε η χρονική πολυπλοκότητα είναι O( Q B) Συνήθως είναι πολύ µικρότερη του απλοϊκού τρόπου (που είχε πολυπλοκότητα Ο( V D ), διότι: Q << V και B << D. 39 ιάρθρωση ιάλεξης PART (A) Ανάκτηση και Φιλτράρισµα Εισαγωγή στα Μοντέλα Άντλησης Κατηγορίες Μοντέλων Exact vs Best Match Τα κλασσικά µοντέλα ανάκτησης Το Boolean Μοντέλο Στατιστικά Μοντέλα - Βάρυνση Όρων Το ιανυσµατικό Μοντέλο Το Πιθανοκρατικό Μοντέλο PART (B):Εναλλακτικά µοντέλα (Ι)Συνολοθεωρητικάµοντέλα Fuzzy Model Extended Boolean Model (ΙΙ) ΑλγεβρικάΜοντέλα Latent Semantic Indexing Neural Netwok Model PART (C): (ΙΙΙ)ΠιθανοκρατικάΜοντέλα Inference Network Model Belief Network Model 40 20

21 Information Models Probabilistic Model Στόχος: The Probabilistic Model (πιθανοκρατικό µοντέλο) σύλληψη του προβλήµατος της ΑΠ µε χρήση πιθανοτήτων Προσέγγιση Υπόθεση: Για κάθε επερώτηση υπάρχει µια ιδανική απάντηση Υπολογισµός της απάντησης βάσει των ιδιοτήτων (όρων) της ιδανικής απάντησης Κρίσιµο ερώτηµα: Ποιες είναι αυτές οι ιδιότητες; Προσέγγιση: Μάντεψε αρχικά και κατόπιν βελτίωσε µε επαναλήψεις 42 21

22 Τα βήµατα 1/ Ένα αρχικό σύνολο εγγράφων ανακτάται µε κάποιο τρόπο 2/ Ο χρήστης τα παρατηρεί (πχ τα πρώτα 10-20) και µαρκάρει τα συναφή 3/ Το ΣΑΠ αξιοποιεί αυτά τα έγγραφα για να εκλεπτύνει την περιγραφή της ιδανικής απάντησης 4/ Επαναλαµβάνοντας αυτή τη διαδικασία αναµένουµε ότι η περιγραφή της ιδανικής απάντησης όλο και βελτιώνεται Παρατηρήσεις Πάντα πρέπει να µαντέψουµε αρχικά την περιγραφή της ιδανικής απάντησης Η περιγραφή της ιδανικής απάντησης γίνεται πιθανοκρατικά 43 Πιθανοκρατική ιάταξη Έστω επερώτηση q και έγγραφο dj Το πιθανοκρατικό µοντέλο προσπαθεί να εκτιµήσει την πιθανότητα ναβρειοχρήστηςτοέγγραφο dj συναφέςµετηνεπερώτηση q. Το µοντέλο κάνει την υπόθεση ότι αυτή η πιθανότητα εξαρτάται µόνοαπότο djκαι q (καιόχιαπόταυπόλοιπαέγγραφα) Η ιδανική απάντηση (σύνολο συναφών εγγράφων) συµβολίζεται µε R. Ερωτήµατα: πώς να υπολογίσουµε τις πιθανότητες; ποιος ο δειγµατικός χώρος; 44 22

23 Πιθανοκρατική ιάταξη (ΙΙ) Η πιθανοκρατική διάταξη ορίζεται ως εξής: sim(dj,q) = P(dj relevant-to q) / P(dj non-relevant-to q) This is the odds of the document dj being relevant Taking the odds minimize the probability of an erroneous judgement Ορισµοί: wij {0,1} Μία επερώτηση είναι ένα σύνολο όρων. P( R vec(dj)) :πιθανότητατο doc ναείναισυναφές (να ανήκει στην ιδανική απάντηση R) P( R vec(dj)) : πιθανότητα το doc να µην είναι συναφές 45 Πιθανοκρατική ιάταξη (ΙΙΙ) sim(dj,q) = P(R vec(dj)) / P( R vec(dj)) Bayes Rule: P(H e) = P(e H) P(H) P(e) = [P(vec(dj) R) * P(R)] (Bayes rule) [P(vec(dj) R) * P( R)] όπου: P(R) P( R) P(vec(dj) R) ~ P(vec(dj) R) (υποθέτοντας P(R)=P( R)) P(vec(dj) R) : πιθανότητα ένα τυχαίο επιλεγµένο έγγραφο να είναι συναφές : πιθανότητα ένα τυχαίο επιλεγµένο έγγραφο να µην είναι συναφές : πιθανότητα επιλογής του dj από το σύνολο R των συναφών 46 23

24 Ερώτηµα: Πιθανοκρατική ιάταξη (ΙV) Πως µπορούµε να υπολογίσουµε το P(vec(dj) R) ; Έστω vec(dj)= <1,0,1,0>, ποια η τιµή του P(vec(dj) R); Τρόπος: Έστω P(ki R) : η πιθανότητα εµφάνισης του όρου κi σε ένα τυχαία επιλεγµένο έγγραφο από το σύνολο των συναφών εγγράφων R Με υπόθεση ανεξαρτησίας όρων παίρνουµε: P(vec(dj) R) = P(<1,0,1,0> R) = P(k1 R) * P( k2 R) * P(k3 R) * P( k4 R) 47 Πιθανοκρατική ιάταξη (V) Αρα: sim(dj,q) ~ P(vec(dj) R) P(vec(dj) R) (assuming term independence) [ Π wij=1 P(ki R)] * [ Π wij=0 P( ki R)] ~ log [ Π wij=1 P(ki R)] * [ Π wij=0 P( ki R)] 48 24

25 Πιθανοκρατική ιάταξη (VΙ) sim(dj,q) ~ log [ Π P(ki R)] * [ Π P( kj R)] [Π P(ki R)] * [ Π P( kj R)] ~ wiq * wij * (log P(ki R) + log P(ki R) ) P( ki R) P( ki R) όπου P( ki R) = 1 - P(ki R) P( ki R) = 1 - P(ki R) Ερώτηµα: από πού ήρθε το wiq? 49 Η Αρχική ιάταξη Ποιέςείναιοιτιµέςτων P(ki R) και P(ki R)? Έστω N το πλήθος των εγγράφων, και ni τοπλήθοςτωνεγγράφωνπουπεριέχουντονόρο ki Κάνουµε µια εκτίµηση βασισµένη στις υποθέσεις: P(ki R) = 0.5 P(ki R) = ni N (τοποσοστότωνεγγράφωντουέχουντονόρο ki) Χρησιµοποιούµε αυτό το αρχικό µάντεµα για να ανακτήσουµε µια αρχική διάταξη (εγγράφων που περιέχουν τους όρους της επερώτησης) Κατόπιν βελτιώνουµε τη διάταξη 50 25

26 Έστω Βελτίωση της Αρχικής ιάταξης (χωρίς επέµβαση του χρήστη) V : το σύνολο των εγγράφων που ανακτήθηκαν αρχικά Vi : το υποσύνολο των εγγράφων του V που περιέχουν τον όρο ki Επαναποτίµηση: P(ki R) = Vi (το ποσοστό των ανακτηµένων που περιέχουν το ki) V P(ki R) = ni - Vi (µηανακτηµέναέγγραφαπουπεριέχουντον ki) N - V (µηανακτηµέναέγγραφα) Επανέλαβε αναδροµικά 51 Βελτίωση της Αρχικής ιάταξης Γιαναµηνέχουµεπρόβληµαστηνπερίπτωσηπου V=1 και Vi=0, ορίζουµε: P(ki R) = Vi V + 1 P(ki R) = ni - Vi N - V + 1 Εναλλακτικά: P(ki R) = Vi + ni/n V + 1 P(ki R) = ni - Vi + ni/n N - V

27 Συν και Πλην του Πιθανοκρατικού Μοντέλου Συν: ιάταξη εγγράφων ως προς την πιθανότητα συνάφειας τους Πλην ανάγκη µαντέµατος των P(ki R) για κάθε ki δενλαµβάνονταιυπόψητα tf και idf 53 Σύντοµη Σύγκριση των Κλασσικών Μοντέλων To Boolean model δεν υποστηρίζει µερικό ταίριασµα και είναι το πιο αδύνατο από τα κλασσικά µοντέλα Μια σειρά πειραµάτων απέδειξε ότι γενικά το διανυσµατικό µοντέλοείναιαποτελεσµατικότεροτουπιθανοκρατικού [Salton & Buckley] Η ερευνητική κοινότητα φαίνεται να συµµερίζεται αυτήν την άποψη 54 27

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Για το πιθανοκρατικό του καθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Μοντέλα Ανάκτησης Ι (Retrieval Models)

Μοντέλα Ανάκτησης Ι (Retrieval Models) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 006 Διάρθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Informaion Rerieval (IR) Sysems Μοντέλα Ανάκτησης Ι (Rerieval Models) Εισαγωγή στα Μοντέλα

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth. Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Γιατοπιθανοτικότουκαθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο 2

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Part C. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete PART (C): CS-463,Spring 05 PART (A)

Part C. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete PART (C): CS-463,Spring 05 PART (A) CS-463 Information Systems Μοντέλα Ανάκτησης ( Models) Part C Yannis Tzitzikas University of Crete CS-463,Spring 05 Lecture : 5 Date : 8-3- ιάρθρωση ιάλεξης PART (A) Ανάκτηση και Φιλτράρισµα Εισαγωγή στα

Διαβάστε περισσότερα

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006 ΗΥ-464: Συστήματα Ανάκτησης Πληροφορίας Informaton Retreval Systems Πανεπιστήμιο Κρήτης Άνοιξη 2006 Φροντιστήριο 2 Θέμα : Retreval Models Ημερομηνία : 9 Μαρτίου 2006 Outlne Prevous Semester Exercses Set

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 3: Μοντελοποίηση: Boolean μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 του βιβλίου. 2 ο ΜΕΡΟΣ

ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ.  Κεφάλαιο 2 του βιβλίου. 2 ο ΜΕΡΟΣ ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Για το πιθανοκρατικό του καθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο 2 του βιβλίου

Διαβάστε περισσότερα

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα. Μοντελοποίηση Μοντέλα I που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα. Ταξινόµηση Μοντέλων I etreval Browsng Κλασικά Μοντέλα Boolean Vector robablstc οµικά Μοντέλα Non-Overlappng Lsts

Διαβάστε περισσότερα

Part B. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Part B. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C): CS-463 Information Systems Μοντέλα Ανάκτησης ( Models) Part B Yannis Tzitzikas University of Crete CS-463,Spring 05 Lecture : 4 Date : 3-3- ιάρθρωση ιάλεξης PART (A) Ανάκτηση και Φιλτράρισµα Εισαγωγή στα

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

1. Financial New Times Year MAXk {FREQij} D D D D

1.  Financial New Times Year MAXk {FREQij} D D D D Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY46 - Συστήματα Ανάκτησης Πληροφοριών 2004-2005 Εαρινό Εξάμηνο 2 η Σειρά ασκήσεων (Μοντέλα Ανάκτησης Πληροφοριών και Ευρετήρια) Ανάθεση: 6 Μαρτίου Παράδοση:

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Μοντελοποίηση: Διανυσματικό μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης

Διαβάστε περισσότερα

Μοντέλα Ανάκτησης IΙ (Retrieval Models)

Μοντέλα Ανάκτησης IΙ (Retrieval Models) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης IΙ (Retrieval Models) Γιάννης Τζίτζικας ιάλεξη

Διαβάστε περισσότερα

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems

ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Retrieval Systems ΗΥ-463 Συστήματα Ανάκτησης Πληροφοριών Information Systems Πανεπιστήμιο Κρήτης, Άνοιξη Γιάννης Τζίτζικας Lecture : 1 Date : 22-2- Title : Administration εδοµένα Το Αντικείµενο του Μαθήµατος Μια συλλογή

Διαβάστε περισσότερα

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας. ΜΥΕ003: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο : Πιθανοτική ανάκτηση πληροφορίας. Κεφ. Πιθανοτική Ανάκτηση Πληροφορίας Βασική ιδέα: Διάταξη εγγράφων με βάση την πιθανότητα να είναι

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας Μέτρα Απόδοσης Precision = # σχετικών κειμένων που επιστρέφονται # κειμένων που επιστρέφονται Recall = # σχετικών κειμένων που επιστρέφονται # συνολικών

Διαβάστε περισσότερα

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις Κατζαγιαννάκη Γ. Ειρήνη Ηλέκτρα Μεταπτυχιακή Εργασία Τµήµα Επιστήµης Υπολογιστών Πανεπιστήµιο Κρήτης Περίληψη Σε ένα σύστηµα επιλεκτικής διασποράς

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #10 εικτοδότηση και Αναζήτηση Φοίβος Μυλωνάς fmylonas@ionio.gr Ανάκτηση Πληροφορίας 1 Άδεια

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 4η: 04/03/2017 1 Phrase queries 2 Ερωτήματα φράσεως Έστω ότι επιθυμούμε ν απαντήσουμε ερωτήματα της μορφής stanford university

Διαβάστε περισσότερα

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών ΗΥ-6 Συστήµατα Ανάκτησης Πληροφοριών 7-8 Εαρινό Εξάµηνο Άσκηση Λύσεις ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Θεωρείστε µια

Διαβάστε περισσότερα

Παλαιότερες ασκήσεις

Παλαιότερες ασκήσεις Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY6 - Συστήµατα Ανάκτησης Πληροφοριών Παλαιότερες ασκήσεις η Σειρά Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης) Άσκηση ( η σειρά ασκήσεων

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Τι (άλλο) θα δούμε σήμερα;

Τι (άλλο) θα δούμε σήμερα; Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;

Διαβάστε περισσότερα

Προσωπικό. Ιστοσελίδα μαθήματος. ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών. Διδακτικές μονάδες: 4 Προαπαιτούμενα. Εβδομαδιαίο Πρόγραμμα : Παρακολούθηση

Προσωπικό. Ιστοσελίδα μαθήματος. ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών. Διδακτικές μονάδες: 4 Προαπαιτούμενα. Εβδομαδιαίο Πρόγραμμα : Παρακολούθηση Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems) Διδακτικές μονάδες: 4 Προαπαιτούμενα ΗΥ240 - Δομές Δεδομένων ΗΥ463

Διαβάστε περισσότερα

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 2009-2010 Φθινοπωρινό Εξάμηνο Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση: Σκοπός αυτής της

Διαβάστε περισσότερα

Κεφάλαιο 1. Εισαγωγή 1

Κεφάλαιο 1. Εισαγωγή 1 Κεφάλαιο 1. Εισαγωγή 1 1.1 Η ανάγκη για Ανάκτηση Πληροφορίας Η επιστήµη της Ανάκτησης Πληροφορίας (ΑΠ στο εξής), ασχολείται µε την αναπαράσταση, την αποθήκευση, την οργάνωση και την πρόσβαση σε πληροφοριακά

Διαβάστε περισσότερα

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΗΥ463 Συστήµατα Ανάκτησης Πληροφοριών Εργασία: Ανεστραµµένο Ευρετήριο Εισαγωγή Σκοπός της εργασίας είναι η δηµιουργία ενός ανεστραµµένου ευρετηρίου για τη µηχανή αναζήτησης Μίτος, το

Διαβάστε περισσότερα

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές: Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2005-2006 Εαρινό Εξάµηνο 1 η Σειρά Ασκήσεων (Αξιολόγηση Αποτελεσµατικότητας Ανάκτησης) Άσκηση 1 (4 βαθµοί) Θεωρείστε

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 10η 1 Αποτίμηση επίδοσης Μηχανών Αναζήτησης 2 Sec. 8.6 Μέτρα επίδοσης μιας μηχανής αναζήτησης Πόσο γρήγορα εκτελεί την διαδικασία

Διαβάστε περισσότερα

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε:

Φροντιστήριο 5. Το πρώτο πράγµα λοιπόν που πρέπει να κάνουµε είναι να βρούµε τις πιθανότητες εµφάνισης των συµβόλων. Έτσι έχουµε: Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάµηνο Φροντιστήριο 5 Άσκηση 1 Θεωρείστε το αλφάβητο {α,β,γ,δ,ε} και την εξής φράση: «α α β γ

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 9: Ανάδραση Σχετικότητας (Relevance Feedback ή RF) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Αιτιολόγηση με αβεβαιότητα

Αιτιολόγηση με αβεβαιότητα Αιτιολόγηση με αβεβαιότητα Στα προβλήματα του πραγματικού κόσμου οι αποφάσεις συνήθως λαμβάνονται υπό αβεβαιότητα (uncertainty), δηλαδή έλλειψη επαρκούς πληροφορίας. Οι κυριότερες πηγές αβεβαιότητας είναι:

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ 5//013 ο ΓΛΩΣΣΑ ΚΑΙ ΑΝΑΖΗΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ Ενότητες Εισαγωγή Συστήματα Aνάκτησης πληροφορίας Κατασκευή ερωτημάτων Δεικτοδότηση Αναζήτηση στο

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009. HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας άλ ιάλεξη :

Διαβάστε περισσότερα

Πιθανοκρατικό μοντέλο

Πιθανοκρατικό μοντέλο Πιθανοκρατικό μοντέλο Το μοντέλο MAP Αλέξανδρος Γκιμπερίτης Βασίλης Μπούργος Δημήτρης Σουραβλιάς 1 Εισαγωγικές έννοιες Κάθε έγγραφο d της συλλογής παριστάνεται από το δυαδικό διάνυσμα x = (x 1, x 2,...,

Διαβάστε περισσότερα

Abstract Storage Devices

Abstract Storage Devices Abstract Storage Devices Robert König Ueli Maurer Stefano Tessaro SOFSEM 2009 January 27, 2009 Outline 1. Motivation: Storage Devices 2. Abstract Storage Devices (ASD s) 3. Reducibility 4. Factoring ASD

Διαβάστε περισσότερα

Το εσωτερικό ενός Σ Β

Το εσωτερικό ενός Σ Β Επεξεργασία Ερωτήσεων 1 Εισαγωγή ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL) ηµιουργία/κατασκευή Εισαγωγή εδοµένων

Διαβάστε περισσότερα

ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 ΗΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Γιάννης Τζίτζικας ιάλεξη : 1 Ημερομηνία : 14-3-2007 Θέμα : ιαδικαστικά

Διαβάστε περισσότερα

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι

Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and File Organization) ΜΕΡΟΣ Ι Κεφάλαιο 8 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 Ανάκτηση Πληροφορίας 2009-2010 1 Δομές

Διαβάστε περισσότερα

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών 2007-2008 Εαρινό Εξάµηνο Άσκηση 1 Φροντιστήριο 4 Θεωρείστε ένα έγγραφο με περιεχόμενο «αυτό είναι ένα κείμενο και

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2007 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method)

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method) ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Χειµερινό Εξάµηνο 2016 ΔΙΑΛΕΞΗ 3: Αλγοριθµική Ελαχιστοποίηση (Quine-McCluskey, tabular method) ΧΑΡΗΣ ΘΕΟΧΑΡΙΔΗΣ Επίκουρος Καθηγητής, ΗΜΜΥ (ttheocharides@ucy.ac.cy)

Διαβάστε περισσότερα

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι

Λύση (από: Τσιαλιαμάνης Αναγνωστόπουλος Πέτρος) (α) Το trie του λεξιλογίου είναι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών 2006-2007 Εαρινό Εξάμηνο 3 η Σειρά ασκήσεων (Ευρετηρίαση, Αναζήτηση σε Κείμενα και Άλλα Θέματα) (βαθμοί 12: όποιος

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται

Διαβάστε περισσότερα

Προσωπικό. Ιστοσελίδα μαθήματος. Σειρές Ασκήσεων. Διδακτικό Ύλικό. HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems)

Προσωπικό. Ιστοσελίδα μαθήματος. Σειρές Ασκήσεων. Διδακτικό Ύλικό. HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2006 HY463 Συστήματα Ανάκτησης Πληροφοριών (CS463 - Information Retrieval Systems) Διδακτικές μονάδες: 4 Προαπαιτούμενα ΗΥ240 - Δομές Δεδομένων ΗΥ463

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS Ralf Schenkel, Tom Crecelious, Mouna Kacimi, Sebastian Michel, Thomas Neumann, Josiane Xavier Parreira, Gerhard Weikum ΠΡΟΒΛΗΜΑ Εύρεση ενός αποτελεσματικού

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Στατιστικά Κειμένου Text Statistics Γιάννης Τζίτζικας ιάλεξη : 14a

Διαβάστε περισσότερα

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων Βάσεις εδοµένων 2003-2004 Ευαγγελία Πιτουρά 1 ΜΕΡΟΣ 1 Γενική Εικόνα του Μαθήµατος Επεξεργασία Ερωτήσεων Μοντελοποίηση (Μοντέλο Ο/Σ, Σχεσιακό, Λογικός Σχεδιασµός) Προγραµµατισµός (Σχεσιακή Άλγεβρα, SQL)

Διαβάστε περισσότερα

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ανάπτυξη εφαρμογής

Διαβάστε περισσότερα

Κεφάλαιο 13. Αβεβαιότητα. Τεχνητή Νοηµοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου

Κεφάλαιο 13. Αβεβαιότητα. Τεχνητή Νοηµοσύνη - Β' Έκδοση. Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Κεφάλαιο 13 Αβεβαιότητα Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Κυριότερες πηγές αβεβαιότητας: Αβέβαιη Γνώση Ανακριβή δεδοµένα (imprecise data).

Διαβάστε περισσότερα

Other Test Constructions: Likelihood Ratio & Bayes Tests

Other Test Constructions: Likelihood Ratio & Bayes Tests Other Test Constructions: Likelihood Ratio & Bayes Tests Side-Note: So far we have seen a few approaches for creating tests such as Neyman-Pearson Lemma ( most powerful tests of H 0 : θ = θ 0 vs H 1 :

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 7 Ιανουαρίου 2005 ιάρκεια εξέτασης: 5:00-8:00 Έστω ότι

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2006 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηριασμός, Αποθήκευση και Οργάνωση Αρχείων Κειμένων (Indexing,

Διαβάστε περισσότερα

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Εισαγωγή Παρουσιάστηκε από τον Thomas L. Saaty τη δεκαετία του 70 Μεθοδολογία που εφαρμόζεται στην περιοχή των Multicriteria Problems Δίνει

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Φροντιστήριο 3

Ανάκτηση Πληροφορίας. Φροντιστήριο 3 Ανάκτηση Πληροφορίας Φροντιστήριο 3 Τσιράκης Νίκος Νοέμβριος 2007 2 Περιεχόμενα Ανεστραμμένα Αρχεία Εισαγωγή Δημιουργία Συμπίεση Πιθανοτικά Μοντέλα 3 Ανεστραμμένα Αρχεία 4 Εισαγωγή Με ποιους τρόπους μπορούμε

Διαβάστε περισσότερα

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη Όνοµα: Νικολαΐδης Αντώνιος Επιβλέπων: Τ. Σελλής Περίληψη ιπλωµατικής Εργασίας Συνεπιβλέποντες: Θ. αλαµάγκας, Γ. Γιαννόπουλος

Διαβάστε περισσότερα

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007 Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741 Μεταπτυχιακό Πρόγραμμα: «Επιστήμη και Τεχνολογία Υπολογιστών» Μεταπτυχιακή Διπλωματική Εργασία «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Διαβάστε περισσότερα

derivation of the Laplacian from rectangular to spherical coordinates

derivation of the Laplacian from rectangular to spherical coordinates derivation of the Laplacian from rectangular to spherical coordinates swapnizzle 03-03- :5:43 We begin by recognizing the familiar conversion from rectangular to spherical coordinates (note that φ is used

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης

Δομές Ευρετηρίου: Διάρθρωση Διάλεξης Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Ευρετηρίαση, Αποθήκευση και Οργάνωση Αρχείων (Indexing, Storage and

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 2: Μέτρηση Αποτελεσματικότητας Συστημάτων Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3

Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3 Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3 1 State vector space and the dual space Space of wavefunctions The space of wavefunctions is the set of all

Διαβάστε περισσότερα

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer

Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval. Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Query-Driven Indexing for Scalable Peer-to-Peer Text Retrieval Gleb Skobeltsyn, Toan Luu, Ivana Podnar Zarko, Martin Rajman, Karl Aberer Περιγραφή του προβλήματος Ευρετηριοποίηση μεγάλων συλλογών εγγράφων

Διαβάστε περισσότερα

Section 8.3 Trigonometric Equations

Section 8.3 Trigonometric Equations 99 Section 8. Trigonometric Equations Objective 1: Solve Equations Involving One Trigonometric Function. In this section and the next, we will exple how to solving equations involving trigonometric functions.

Διαβάστε περισσότερα

6.1. Dirac Equation. Hamiltonian. Dirac Eq.

6.1. Dirac Equation. Hamiltonian. Dirac Eq. 6.1. Dirac Equation Ref: M.Kaku, Quantum Field Theory, Oxford Univ Press (1993) η μν = η μν = diag(1, -1, -1, -1) p 0 = p 0 p = p i = -p i p μ p μ = p 0 p 0 + p i p i = E c 2 - p 2 = (m c) 2 H = c p 2

Διαβάστε περισσότερα

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου Επεξεργασία & Οργάνωση Δεδομένων Εφαρμογές Γλωσσικής Τεχνολογίας Σοφία Στάμου Γλώσσα και Επικοινωνία Κάθε γλωσσικό σύστημα διέπεται από κανόνες για τη χρήση, τη σύνταξη και την ερμηνεία των λέξεων Γιατί

Διαβάστε περισσότερα

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός Ανάκληση Πληποφοπίαρ Information Retrieval Διδάζκων Δημήηριος Καηζαρός Διάλεξη 5η: 06/03/2017 1 WILD-CARD Ερωτήματα 2 Sec. 3.2 Ερωτήματα με χαρακτήρες wild-card: * mon*: να βρεθούν όλα τα έγγραφα που περιέχουν

Διαβάστε περισσότερα

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Gemini,, Applications Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών Εαρινό Εξάμηνο 2011-2012 Table of contents 1 Table of contents 1 2 Table of contents 1 2 3 Table of contents

Διαβάστε περισσότερα

Parallel and Distributed IR

Parallel and Distributed IR Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη η και Κατανεμημένη η ΑΠ Γιάννης

Διαβάστε περισσότερα

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test) ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test) Θεοχαράτος Χρήστος Εργαστήριο Ηλεκτρονικής (ELLAB), Τµήµα Φυσικής, Πανεπιστήµιο Πατρών email: htheohar@upatras.gr http://www.ellab.physics.upatras.gr/users/theoharatos/default.htm

Διαβάστε περισσότερα

......... tf idf t MATLAB \index{} \index{} tf.idf MATLAB N grams https://www.ncbi.nlm.nih.gov/pubmed/ http://www.brainmap.org/pubs/ https://www.ebay.com/ https://www.nlm.nih.gov/bsd/pmresources.html

Διαβάστε περισσότερα

EE512: Error Control Coding

EE512: Error Control Coding EE512: Error Control Coding Solution for Assignment on Finite Fields February 16, 2007 1. (a) Addition and Multiplication tables for GF (5) and GF (7) are shown in Tables 1 and 2. + 0 1 2 3 4 0 0 1 2 3

Διαβάστε περισσότερα

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1

Διαβάστε περισσότερα

Καρτεσιανό Σύστηµα y. y A. x A

Καρτεσιανό Σύστηµα y. y A. x A Στη γενική περίπτωση µπορούµε να ορίσουµε άπειρα συστήµατα συντεταγ- µένων τα οποία να µας επιτρέπουν να προσδιορίσουµε τη θέση ενός σηµείου. Στη Φυσική χρησιµοποιούνται αρκετά. Τα βασικά από αυτά θα εξετάσουµε

Διαβάστε περισσότερα

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ ΥΠΟΛΟΓΙΣΤΩΝ COMPUTER SCIENCE DEPARTMENT UNIVERSITY OF CRETE Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463 4 η Σειρά Ασκήσεων Ψαράκη Μαρία-Γεωργία ΜΕΤ 556 psaraki@csd.uoc.gr Εαρινό Εξάμηνο 2008-2009

Διαβάστε περισσότερα

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι Ροµ οτικοί Πράκτορες Αβεβαιότητα Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Πράκτορες χαρακτηριστικά στοιχεία είδη πρακτόρων αυτόνοµοι

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS CHAPTER 5 SOLVING EQUATIONS BY ITERATIVE METHODS EXERCISE 104 Page 8 1. Find the positive root of the equation x + 3x 5 = 0, correct to 3 significant figures, using the method of bisection. Let f(x) =

Διαβάστε περισσότερα