Μοντέλα Ανάκτησης Ι (Retrieval Models)

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Μοντέλα Ανάκτησης Ι (Retrieval Models)"

Transcript

1 Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 006 Διάρθρωση HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Informaion Rerieval (IR) Sysems Μοντέλα Ανάκτησης Ι (Rerieval Models) Εισαγωγή στα Μοντέλα Άντλησης Κατηγορίες Μοντέλων Απόλυτο και Κάλλιστο (ή Βέλτιστο) Ταίριασμα (Exac vs Bes Mach) Τα κλασσικά μοντέλα ανάκτησης Το Boolean Μοντέλο Στατιστικά Μοντέλα - Βάρυνση Όρων Το Διανυσματικό Μοντέλο Το Εκτεταμένο Boolean μοντέλο (Exended Boolean Model) Γιάννης Τζίτζικας ιάλεξη : 3 Ημερομηνία : CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 Αναπαράσταση Εγγράφων: Πως βλέπουμε ένα έγγραφο; Πως βλέπουμε ένα έγγραφο; Ως έχει (full ex); Αγνοώνταςλέξειςπουδενφέρουννόημα(π.χ. τα άρθρα) ; Ως σάκο (bag) όρων ευρετηρίου (bag of index erms), δηλαδή αγνοώντας τη σειρά με την οποία εμφανίζονται οι λέξεις στο κείμενο; Ως σύνολο όρων ευρετηρίου (se of Index erms) Ως δομημένο έγγραφο (π.χ. hyerex, XML) Η απάντηση σε αυτό το ερώτημα θα καθορίσει τη μορφή του ευρετηρίου που πρέπει να κατασκευάσουμε. Ηαπάντησησεαυτότοερώτημαείναισυνυφασμένηκαι με το μοντέλο ανάκτησης που πρόκειται χρησιμοποιήσουμε. CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Μοντέλα Ανάκτησης Ένα μοντέλο ανάκτησης ορίζει Αναπαράσταση Εγγράφων Αναπαράσταση Επερωτήσεων Καθορίζει και ποσοτικοποιεί την έννοια της συνάφειας ο βαθμός συνάφειας μπορεί να είναι δίτιμος (π.χ. {,0}), ή συνεχής(π.χ. [0,]) Έστω D η συλλογή εγγράφων και Q το σύνολο όλων των πληροφοριακών αναγκών που μπορεί να έχει ένας χρήστης. Μπορούμε να δούμε ένα μοντέλο ανάκτησης πληροφορίας ως μια τετράδα [F, D, Q, R] όπου: F: πλαίσιο μοντελοποίησης εγγράφων, επερωτήσεων και των σχέσεων μεταξύ τους D: παράσταση εγγράφων D={ F(d) d D} Q: παράσταση επερωτήσεων Q={ F(q) q Q} R: συνάρτηση κατάταξης που αποδίδει μία τιμή σε κάθε ζεύγος (d,q) D x Q δίτιμη: R: D x Q [True/False] συνεχής R: D x Q [0,] CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Τα τμήματα της αρχιτεκτονικής που εμπλέκονται Κατηγορίες Μοντέλων Ανάκτησης (Ι) user need logical vie Query user feedback Oeraions query rerieved docs ranked docs Searching Ranking User Inerface Tex Oeraions logical vie invered file Indexing Index CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Tex Tex Corus Κλασσικά Μοντέλα Boolean Model Διανυσματικό (Vecor Sace) Πιθανοκρατικό (Probabilisic) Συνολοθεωρητικά (se heoreic) Εκτεταμένο Boolean (Exended Boolean Model) Fuzzy Model (Ασαφές Μοντέλο) Διανυσματικά (στατιστικά/αλγεβρικά) Γενικευμένο Διανυσματικό (Generalized Vecor Sace Model) Laen Semanic Indexing (Λανθάνων/Άδηλος/Υποβόσκων σημασιολογικός ευρετηριασμός) Μοντέλο Νευρωνικού Δικτύου (Neural Neork Model) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 6

2 Κατηγορίες Μοντέλων Ανάκτησης (ΙΙ) Μια Ταξινομία των Μοντέλων Ανάκτησης Πιθανοκρατικά (Probabilisic) Inference Neork Model (Μοντέλο Δικτύου Επαγωγών) Belief Neork Model (Μοντέλο Δικτύου Πεποιθήσεων) Classic Models boolean vecor robabilisic Se Theoreic Fuzzy Exended Boolean Μοντέλα Βασισμένα στη Λογική Rerieval: Algebraic Generalized Vecor La. Semanic Index Neural Neorks Μοντέλα Δομημένου Κειμένου (Srucured Tex Rerieval Models) Non-Overlaing Liss Proximal Nodes Μοντέλα Ανάκτησης XML Εγγράφων Srucured Models Non-Overlaing Liss Proximal Nodes Probabilisic Inference Neork Belief Neork CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Exac vs. Bes Mach Rerieval Models Exac-mach (Απόλυτου Ταιριάσματος) μια επερώτηση καθορίζει αυστηρά (απόλυτα) κριτήρια ανάκτησης κάθε έγγραφο είτε ταιριάζει είτε όχι με μία επερώτηση το αποτέλεσμα είναι ένα σύνολο κειμένων Bes-mach (Κάλλιστου Ταιριάσματος) μια επερώτηση δεν περιγράφει αυστηρά κριτήρια ανάκτησης κάθε έγγραφο ταιριάζει σε μια επερώτηση σε ένα βαθμό το αποτέλεσμα είναι μια διατεταγμένη λίστα εγγράφων με ένα κατώφλι (στο βαθμό συνάφειας) μπορούμε να ελέγξουμε το μέγεθος της απάντησης «Μικτές προσεγγίσεις» συνδυασμός απόλυτου ταιριάσματος με τρόπους διάταξης του συνόλου της απάντησης E.g., bes-mach query language ha incororaes exac-mach oeraors Informaion Rerieval Models Boolean Rerieval Model Βελτίων = συγκριτικός του αγαθός CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Boolean Rerieval Model Έγγραφο = σύνολο λέξεων κλειδιών (keyords) Επερώτηση = Boolean έκφραση λέξεων κλειδιών (AND,OR, NOT, παρενθέσεις) πχ επερώτησης (( Cree AND Greece) OR (Oia AND Sanorini)) AND Hoel AND-NOT Hilon (( Cree & Greece) (Oia & Sanorini)) & Hoel &! Hilon Απάντηση= σύνολο εγγράφων απουσία διάταξης Παράσταση εγγράφων κατά το Boolean Model k k. k d d d n n n n i,j {0,} K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,,,j ) όπου: i,j = αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς i,j =0) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006

3 Boolean Rerieval Model: Formally K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,,,j ) όπου: i,j = αν η λέξη k i εμφανίζεται στο κείμενο d j (αλλιώς i,j =0) Μια επερώτηση q είναι μια λογική έκφραση στο Κ, πχ: q = k and ( k or no k3)) δηλαδή q = k ( k k3)) q DNF = (k k k3) (k k k3) (k k k3) q DNF = (,,) (,,0) (,0,0) R(d,q)= True αν υπάρχει συζευκτική συνιστώσα του q με λέξεις των οποίων τα βάρη είναι τα ίδια με αυτά των αντίστοιχων λέξεων του εγγράφου d False, αλλιώς Boolean Rerieval Model: Ισοδύναμος ορισμός Αποτίμηση επερωτήσεων (με χρήση λογικής) ένα κείμενο d είναι μια σύζευξη όρων, όπου όρος μια λέξη σε θετική ή αρνητική μορφή (σε θετική αν εμφανίζεται στο κείμενο, αλλιώς σε αρνητική) μια επερώτηση q είναι μια οποιαδήποτε λογική έκφραση R(d,q)=True if and only if d =q δηλαδή αν κάθε ερμηνεία που αληθεύει το d αληθεύει και το q CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Boolean Rerieval Model: Ένας εναλλακτικός τρόπος ορισμού Μπορούμε να ορίσουμε ως ερμηνεία μιας λέξης (του Κ) το σύνολο των εγγράφων που την περιέχουν. Άρα η ερμηνεία είναι μια συνάρτηση Ι: K D που ορίζεται ως εξής: I(k) = { d d περιέχει τη λέξη κ} Έστω Ε το σύνολο των λογικών εκφράσεων με λέξεις από το σύνολο Κ. Μπορούμε να επεκτείνουμε μια ερμηνεία Ι του Κ σε μια ερμηνεία J τουεωςεξής J() = I() J(e e ) = J(e) J(e ) J(e e ) = J(e) J(e ) J(e e ) = J(e) \ J(e ) Ηαπάντησημιαςεπερώτησηςq (κατά το Boolean μοντέλο) είναι η εξής: ans(q) = J(q) Οι αδυναμίες του Boolean μοντέλου Η αδυναμία ελέγχου του μεγέθους της απάντησης Παράδειγμα: Anser( Chea Tickes Heraklion ) = Anser( Chea Tickes) = 000 Anser( Chea Heraklion) = 000 Anser( Tickes Heraklion ) = 000 Άρα είτε παίρνουμε μια απάντηση με ένα έγγραφο είτε ένα σύνολο 000 εγγράφων. :( CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Οι αδυναμίες του Boolean μοντέλου Άκαμπτο: AND σημαίνει όλα, OR σημαίνει οποιοδήποτε Δυσκολίες Ο έλεγχος του μεγέθους της απάντησης All mached documens ill be reurned Ικανοποιητική ακρίβεια (recision) συχνά σημαίνει απαράδεκτη ανάκληση (recall) Η διατύπωση των επερωτήσεων είναι δύσκολη για πολλούς χρήστες Η έκφραση σύνθετων πληροφοριακών αναγκών είναι δύσκολη Δεν μας λέει πώς να διατάξουμε την απάντηση All mached documens logically saisfy he query Τα μοντέλα κατάταξης (ranking models) έχουν αποδειχτεί καλύτερα στην πράξη Η υποστήριξη ανάδρασης συνάφειας δεν είναι εύκολη If a documen is idenified by he user as relevan or irrelevan, ho should he query by modified? [Τώραδουλεύουμεσεαυτό] CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Τα θετικά του Boolean μοντέλου Προβλέψιμο, εύκολα εξηγήσιμο Αποτελεσματικό όταν γνωρίζεις ακριβώς τι ψάχνεις και τι περιέχει ησυλλογή Αποδοτική υλοποίηση CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 8

4 Κοινά χαρακτηριστικά των Στατιστικών Μοντέλων Έγγραφο: σάκος (bag) λέξεων Bag = se ha allos mulile occurences of he same elemen So e vie a documen as an unordered se of ords ih frequencies Στατιστικά Μοντέλα Επερώτηση: Σύνολο όρων με προαιρετικά βάρη: Weighed query erms: q=<daabase 0.5, ex 0.8, informaion 0.> Uneighed query erms: q=<daabase ex informaion > No Boolean condiions secified in he query Απάντηση: Διατεταγμένο σύνολο συναφών εγγράφων υπολογίζεται βάσει των συχνοτήτων εμφάνισης των λέξεων στα έγγραφα και στις επερωτήσεις CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Στατιστικά Μοντέλα: Κρίσιμα Ερωτήματα Πώς να καθορίζουμε τη σπουδαιότητα ενός όρου σε ένα έγγραφο και στα πλαίσια ολόκληρης της συλλογής; Πώς να καθορίζουμε το βαθμό ομοιότητας μεταξύ ενός εγγράφου και μιας επερώτησης; Informaion Rerieval Models Vecor Sace Model (Διανυσματικό Μοντέλο) (το πιο διαδεδομένο μοντέλο ανάκτησης) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 Διανυσματικό Μοντέλο: Εισαγωγή Παράσταση εγγράφων στο Διανυσματικό Μοντέλο K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με ένα διάνυσμα d j =(,j,,,j ) όπου i,j [0,] (πχ i,j =0.3) Μια επερώτηση q παριστάνεται με ένα διάνυσμα q=(,q,,,q ) όπου πάλι i,q [0,] k k. k d d d n n n n i,j [0,] R(d,q) εκφράζει το βαθμό ομοιότητας των διανυσμάτων d και q K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,,,j ) όπου: i,j το βάρος της λέξης k i για το κείμενο d j CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 4

5 Βάρη Όρων: Συχνότητα όρου (f) Οι πιο συχνοί όροι σε ένα έγγραφο είναι πιο σημαντικοί (υποδηλώνουν το περιεχόμενο του) freq ij = πλήθος εμφανίσεων του όρου i στο έγγραφο j Κανονικοποίηση f ij =freq ij /max k {freq kj } όπου max k {freq kj } το μεγαλύτερο πλήθος εμφανίσεων ενός όρου στο έγγραφο j Παράδειγμα: Έστω το έγγραφο d = a a a a b b b c c c c freq a = 4, f a = 4/4= freq b = 3, f b = 3/4=0.75 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Παράδειγμα d = { a a a b c } d = { a a a d e } d3 = { a a a f g} Το a λαμβάνει το μεγαλύτερο βάρος (άρα το μεγαλύτερο f) σε κάθε έγγραφο Ας σκεφτούμε ολόκληρη τη συλλογή. Μας επιτρέπει το a να διακρίνουμε τα κείμενα; Αν όχι μήπως δεν θα έπρεπε να λαμβάνει το μεγαλύτερο βάρος; Αν η συλλογή είχε μόνο αυτά τα 3 έγγραφα (και ήταν σταθερή) θα μπορούσαμε ακόμα και να αγνοήσουμε πλήρως τον όρο a από το ευρετήριο. CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Βάρη Όρων: Αντίστροφη Συχνότητα Εγγράφων (Inverse Documen Frequency) Ιδέα: Όροι που εμφανίζονται σε πολλά διαφορετικά έγγραφα έχουν μικρή διακριτική ικανότητα df i = documen frequency of erm i πλήθος εγγράφων που περιέχουν τον όρο i idf i = inverse documen frequency of erm i := log (N/ df i ) (N: συνολικό πλήθος εγγράφων) Το idf αποτελεί μέτρο της διακριτικής ικανότητας του όρου ο λογάριθμος ελαφραίνει το βάρος του idf σε σχέση με το f Παράδειγμα: Έστω Ν=0 και df comuer =0, df arisole =, Τότε, N/df comuer =0/0=, N/df arisole =0/=5 Τότε, idf comuer =log() =0, idf arisole =log(5)=.3 CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring TF-IDF Weighing (βάρυνση TF-IDF) k k. k d d d n n n n ij = f ij idf i = f ij log (N/ df i ) Ένας όρος που εμφανίζεται συχνά στο έγγραφο, αλλά σπάνια στην υπόλοιπη συλλογή, λαμβάνει υψηλό βάρος. Αν και έχουν προταθεί πολλοί άλλοι τρόποι βάρυνσης, το f-idf δουλεύει πολύ καλά στην πράξη. CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Παράδειγμα υπολογισμού TF-IDF Διάνυσμα Επερώτησης Έστω ένα έγγραφο που περιέχει όρους με τις εξής συχνότητες: Α(3), Β(), C(), πχ. d= A B A B C A Υποθέστε ότι η συλλογή περιέχει έγγραφα και οι συχνότητες κειμένου (documen frequencies) αυτών των όρων είναι: Α(50), Β(300), C(50) Τότε: Α: f=3/3; idf = log(0000/50)= 5.3; f-idf=5.3 B: f=/3; idf = log(0000/300)= ; f-idf=.3 C: f=/3; idf = log(0000/50)= 3.7; f-idf=. Τα διανύσματα των επερωτήσεων θεωρούνται ως έγγραφα και επίσης βαρύνονται με f-idf Μια επερώτηση δεν συγκροτείται πάντα από λίγες λέξεις. Μια επερώτηση μπορεί να έιναι μια παράγραφος κειμένου (ή ένα ολόκληρο έγγραφο) Εναλλακτικά, ο χρήστης μπορεί να δώσει τα βάρη των όρων της επερώτησης k k. k d d d n n n q q q n q i,j [0,] CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring

6 Διανυσματικό Μοντέλο: K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με ένα διάνυσμα d j =(,j,,,j ) όπου i,j = f ij idf i Μια επερώτηση q παριστάνεται με ένα διάνυσμα q=(,q,,,q ) όπου πάλι i,q = f iq idf i R(d,q) =? Διανυσματικό Μοντέλο: Μέτρο Ομοιότητας Examle: D = T + 3T + 5T 3 D = 3T + 7T + T 3 Q = 0T + 0T + T 3 T 3 D = T + 3T + 5T 3 5 Q = 0T + 0T + T 3 3 T D = 3T + 7T + T 3 T 7 Is D or D more similar o Q? Ho o measure he degree of similariy? Disance? Angle? Projecion? CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Μέτρο Ομοιότητας: Εσωτερικό Γινόμενο (inner roduc) Η ομοιότητα μεταξύ των διανυσμάτων d και q ορίζεται ως το εσωτερικό τους γινόμενο: sim( dj, q) = dj q = ij iq i= όπου ij το βάρος του όρου i στο έγγραφο j και iq το βάρος του όρου i στην επερώτηση Για δυαδικά (0/) διανύσματα το εσωτερικό γινόμενο είναι ο αριθμός των mached query erms in he documen (άρα το μέγεθος της τομής) Για βεβαρημένα διανύσματα, είναι το άθροισμα των γινομένων των βαρών των mached erms CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Binary: Παράδειγμα d =,,, 0,,, 0 q =, 0,, 0, 0,, sim(d, q) = 3 rerieval daabase archiecure comuer ex managemen informaion Weighed: D = T + 3T + 5T 3 D = 3T + 7T + T 3 Q = 0T + 0T + T 3 sim(d, Q) = *0 + 3*0 + 5* = 0 sim(d, Q) = 3*0 + 7*0 + * = Size of vecor = size of vocabulary = 7 0 means corresonding erm no found in documen or query D = T + 3T + 5T 3 D = 3T + 7T + T 3 7 T CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring T 3 Q = 0T + 0T + T 3 3 T Ιδιότητες του Εσωτερικού Γινομένου Μέτρο Ομοιότητας Συνημίτονου (Cosine) Το εσωτερικό γινόμενο δεν είναι φραγμένο (unbounded) ευνοεί (μεροληπτεί) μεγάλα έγγραφα με μεγάλο πλήθος διαφορετικών όρων μετρά το πλήθος των όρων που κάνουν mach, αλλά αγνοεί αυτούς που δεν κάνουν mach Μετρά το συνημίτονο της γωνίας μεταξύ των διανυσμάτων 3 Εσωτερικό γινόμενο κανονικοποιημένο βάσει του μήκους των διανυσμάτων CosSim(d j, q) = d d j j q q = i = ( ij ij i = i = θ D iq ) θ iq Q D D = T + 3T + 5T 3 CosSim(D, Q) = 0 / (4+9+5)(0+0+4) = 0.8 D = 3T + 7T + T 3 CosSim(D, Q) = / (9+49+)(0+0+4) = 0.3 Q = 0T + 0T + T 3 D is 6 imes beer han D using cosine similariy bu only 5 imes beer using inner roduc. CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring

7 Διανυσματικό Μοντέλο: Παρατηρήσεις Πλεονεκτήματα Λαμβάνει υπόψη τις τοπικές (f) και καθολικές (idf) συχνότητες όρων Παρέχει μερικό ταίριασμα (arial maching) και διατεταγμένα αποτελέσματα Τείνει να δουλεύει καλά στην πράξη, παράτιςαδυναμίεςτου Αποδοτική υλοποίηση για μεγάλες συλλογές εγγράφων Αδυναμίες Απουσία Σημασιολογίας (π.χ. σημασίας λέξεων) Απουσία Συντακτικής Πληροφορίας (π.χ. δομή φράσης, σειρά λέξεων, εγγύτητα λέξεων) Υπόθεση Ανεξαρτησίας Όρων (π.χ. αγνοεί τα συνώνυμα) Έλλειψη ελέγχου ala Boolean model (π.χ. δεν μπορούμε να απαιτήσουμε την παρουσία ενός όρου στο έγγραφο) Given a o-erm query q= A B, may refer a documen conaining A frequenly bu no B, over a documen ha conains boh A and B bu boh less frequenly CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Περίληψη του Διανυσματικού Μοντέλου K={k,,k } : σύνολο όλων των λέξεων ευρετηρίασης Κάθε έγγραφο d j παριστάνεται με το διάνυσμα d j =(,j,,,j ) όπου ij = f ij idf i = f ij log (N/ df i ) Μια επερώτηση q παριστάνεται με το διάνυσμα q=(,q,,,q ) όπου iq = f iq idf i = f iq log (N/ df i ) R(d j,q) = CosSim(d j, q) = d j q d j q CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring = i = i ( ij ij = i = iq ) iq Υπολογισμός του βαθμού συνάφειας Απλοϊκή Υλοποίηση ) Φτιάξε το f-idf διάνυσμα για κάθε έγγραφο dj hs συλλογής (έστω V το λεξιλόγιο) ) Φτιάξε το f-idf διάνυσμα q της επερώτησης 3) Για κάθε έγγραφο d j του D Υπολόγισε το σκορ s j = cossim(d j, q) 4) Διέταξε τα έγγραφα σε φθίνουσα σειρά 5) Παρουσίασε τα έγγραφα στο χρήστη Χρονική πολυπλοκότητα του βήματος (3): O( V D ) Πολύ ακριβό αν τα V και D είναι μεγάλα! V = 0,000; D = 00,000; V D =,000,000,000 Υπολογισμός του βαθμού συνάφειας Καλύτερη (γρηγορότερη) Υλοποίηση Ένας όρος που δεν εμφανίζεται και στην επερώτηση και στο έγγραφο δεν επηρεάζει το βαθμό ομοιότητας συνημίτονου Το γινόμενο των βαρών είναι 0 και άρα δεν συνεισφέρει στο εσωτερικό γινόμενο Συνήθως η επερώτηση είναι μικρή, άρα το διάνυσμα της είναι εξαιρετικά «αραιό» => Μπορούμε να χρησιμοποιήσουμε ένα ευρετήριο ώστε να υπολογίσουμε το βαθμό ομοιότητας μόνο εκείνων των εγγράφων που περιέχουν τουλάχιστον έναν όρο της επερώτησης. 3) Για κάθε έγγραφο d j του D Υπολόγισε το σκορ s j = cossim(d j, q) 3 ) Για κάθε έγγραφο d j που περιέχει τουλάχιστον έναν όρο του query Υπολόγισε το σκορ s j = cossim(d j, q) Απλοϊκό Καλύτερο CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Υπολογισμός του βαθμού συνάφειας Καλύτερη (γρηγορότερη) Υλοποίηση (ΙΙ) Q = k k k n D D B D D B D n D nb Ας υποθέσουμε ότι ένας όρος της επερώτησηςεμφανίζεταισεb έγγραφα Τότε η χρονική πολυπλοκότητα είναι O( Q B) Informaion Rerieval Models Exended Boolean Model Το κόστος αυτό είναι συνήθως πολύ μικρότερο του κόστους του απλοϊκού τρόπου (που είχε πολυπλοκότητα Ο( V D ), διότι: Q << V, δηλαδή ο αριθμός των λέξεων στην επερώτησης είναι πολύ μικρότερος του συνολικού αριθμού των λέξεων, και B << D, δηλαδή το πλήθος των έγγράφων που έχουν μια λέξη είναι πολύ μικρότερο του πλήθους των εγγράφων της συλλογής. CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring 006 4

8 Exended Boolean Model Κίνητρο Το Boolean model είναι απλό και κομψό αλλά δεν παρέχει κατάταξη (διαβάθμιση των συναφών εγγράφων) Προσέγγιση Επέκταση του Boolean model με βάρυνση όρων και μερικό ταίριασμα Σκεπτικό / Κίνητρο Έστω q = k x ky. Σύμφωνα με το Boolean model ένα έγγραφο που περιέχει μόνο ένα από τα k x, k y είναι μη-συναφές, και μάλιστα τόσο μη-συναφές, όσο ένα έγγραφο που δεν περιέχει κανένα από τους όρους. Συνδιασμός χαρακτηριστικών του Vecor model και ιδιοτήτων της Boolean algebra [Salon, Fox, and Wu, 983] CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Έστω ότι έχουμε μόνο δύο όρους k x, k y Μπορούμε να θεωρήσουμε κάθε όρο ως μια διάσταση Άρα έγγραφα και επερωτήσεις απεικονίζονται στο D χώρο. Ένα έγγραφο d j τοποθετείται βάσει των, βαρών x,j και y,j. Έστω ότι τα βάρη αυτά είναι κανονικοποιημένα στο [0,], π.χ. : Ηγενικήιδεά (0,) (,) d j+ k y d j (0,) (,) k y d j+ x,j = f x,j idf x y,j = f y,j idf y Για συντομία έστω x = x,j και y = y,j Άρα οι συντεταγμένες του dj είναι οι (x,y) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring (0,0) (,0) k x Έστω q OR =k x v k y Το σημείο (0,0) είναι η θέση προς αποφυγή. Άραμπορούμεναθεωρήσουμετην απόσταση του dj απόαυτότοσημείο ως το βαθμό ομοιότητας d j (0,0) (,0) k x Έστω q AND =k x Λ k y Το σημείο (,) είναι η πιο επιθυμητή θέση. Άραμπορούμεναθεωρήσουμετο συμπλήρωμα της απόστασης του dj από αυτό το σημείο ως βαθμό ομοιότητας CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Ηγενικήιδεά(ΙΙ) (0,) (,) d j+ k y d j (0,) (,) k y d j+ Γενικεύοντας την ιδέα (για > όρους) Μπορούμε να γενικεύσουμε το προηγούμενο μοντέλο χρησιμοποιώντας την Ευκλείδεια απόσταση στον -διάστατο χώρο Αυτό μπορεί να γίνει χρησιμοποιώντας -norms που γενικεύουν την έννοια της απόστασης, όπου. (0,0) (,0) k x Le q OR =k x v k y x + y sim( q OR, d) = d j (0,0) (,0) k x Le q AND =k x Λ k y ( x) + ( y) sim( q AND, d) = Διαζευκτικές επερωτήσεις q OR = k V k V.. V km Συζευκτικές επερωτήσεις q AND = k Λ k Λ... Λ km sim sim ( x x x m qor, d) m = ( ( x x ) ( m) qand, d) m = ( for normalisaion o [0,]) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring

9 Ισομετρικές καμπύλες ( x + y ) Μερικές ενδιαφέρουσες ιδιότητες L L L x + y = ( x + y ) = max( x, y) = Μεταβάλλοντας το, μπορούμε να κάνουμε το μοντέλο να συμπεριφέρεται όπως το Vecor, το Fuzzy (που θα δούμε στο επόμενο μάθημα), ή ενδιάμεσα σε αυτά τα δυο. Αν = τότε (Vecor like) sim(q OR,dj) = sim(q AND,dj) = x xm m Αν = τότε (Fuzzy like) sim(q OR,dj) = max (x i ) sim(q AND,dj) = min (x i ) Ερώτηση: Που πήγαν οι όροι της επερώτησης; CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Σύνθετες επερωτήσεις Έστω q = (k Λ k) V k3 Εφαρμόζουμε τους ορισμούς σεβόμενοι τη σειρά, εδώ: ( x x ) ( ) + / ( ( ) ) + x 3 sim( q, d ) = Μερικές Παρατηρήσεις Είναι αρκετά ισχυρό μοντέλο με ενδιαφέρουσες ιδιότητες Η επιμεριστική ιδιότητα δεν ισχύει: q = (k k) k3 q = (k k3) (k k3) sim(q,dj) sim(q,dj) Έστω q = (k V k) Λ k3 K and k should be used as in a vecor sysem bu he resence of k3 is required CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring Διάρθρωση Εισαγωγή στα Μοντέλα Άντλησης Κατηγορίες Μοντέλων Απόλυτο και Κάλλιστο (ή Βέλτιστο) Ταίριασμα (Exac vs Bes Mach) Τα κλασσικά μοντέλα ανάκτησης Το Boolean Μοντέλο Στατιστικά Μοντέλα - Βάρυνση Όρων Το Διανυσματικό Μοντέλο Το Εκτεταμένο Boolean μοντέλο (Exended Boolean Model) CS463 - Informaion Rerieval Sysems Yannis Tzizikas, U. of Cree, Sring

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth. Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης) http://www.ics.forth.gr/~tzitzik/ Γιατοπιθανοτικότουκαθ. Απ. Παπαδόπουλου (Αριστοτέλειο Παν.) Κεφάλαιο 2

Διαβάστε περισσότερα

Κεφάλαιο 1. Εισαγωγή 1

Κεφάλαιο 1. Εισαγωγή 1 Κεφάλαιο 1. Εισαγωγή 1 1.1 Η ανάγκη για Ανάκτηση Πληροφορίας Η επιστήµη της Ανάκτησης Πληροφορίας (ΑΠ στο εξής), ασχολείται µε την αναπαράσταση, την αποθήκευση, την οργάνωση και την πρόσβαση σε πληροφοριακά

Διαβάστε περισσότερα

Τι (άλλο) θα δούμε σήμερα;

Τι (άλλο) θα δούμε σήμερα; Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;

Διαβάστε περισσότερα

Περιεχόμενα. Πίνακας συμβόλων σελίδα 10 Πρόλογος 13

Περιεχόμενα. Πίνακας συμβόλων σελίδα 10 Πρόλογος 13 Περιεχόμενα Πίνακας συμβόλων σελίδα 10 Πρόλογος 13 1 Ανάκτηση Boole 21 1.1 Παράδειγμα προβλήματος ανάκτησης πληροφοριών 23 1.2 Μια πρώτη ματιά στη δημιουργία αντεστραμμένων ευρετηρίων 27 1.3 Επεξεργασία

Διαβάστε περισσότερα

Εθνικό Μετσόβιο Πολυτεχνείο. Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ» με χρήση τεχνικών μη-επιβλεπόμενης μάθησης

Εθνικό Μετσόβιο Πολυτεχνείο. Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ» με χρήση τεχνικών μη-επιβλεπόμενης μάθησης Εθνικό Μετσόβιο Πολυτεχνείο Σχολη Ηλεκτρολογων Μηχανικων και Μηχανικων Υπολογιστων Τομεας Τεχνολογιας Πληροφορικης και Υπολογιστων Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ»

Διαβάστε περισσότερα

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ

Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 2008 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Parallel and Distributed IR Παράλληλη και Κατανεμημένη ΑΠ Γιάννης

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Αυτόµατη Θεµατική Κατηγοριοποίηση και Σηµασιολογική ιεύρυνση Ερωτηµάτων

Διαβάστε περισσότερα

ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. του ΠΕΤΡΟΥ Ι. ΒΕΝΕΤΗ. Καθηγητής Ε..Μ.Π. ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. του ΠΕΤΡΟΥ Ι. ΒΕΝΕΤΗ. Καθηγητής Ε..Μ.Π. ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Αποδοτικά ευρετήρια για ερωτήματα ομοιότητας σε τυχαίους υποχώρους πολυδιάστατων

Διαβάστε περισσότερα

Μέρος Γ Συστήματα Ομοτίμων (Peer to Peer Systems) και Ανάκτηση Πληροφοριών

Μέρος Γ Συστήματα Ομοτίμων (Peer to Peer Systems) και Ανάκτηση Πληροφοριών HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μέρος Γ Συστήματα Ομοτίμων (Peer to Peer Systems) και Ανάκτηση Πληροφοριών CS463 - Information Retrieval Yannis Tzitzikas, U.

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης «Αναγνώριση μερών του λόγου σε ελληνικά κείμενα με τεχνικές

Διαβάστε περισσότερα

ΥΛΟΠΟΙΗΣΗ ΜΕΘΟΔΟΥ ΑΝΑΚΤΗΣΗΣ ΕΙΚΟΝΩΝ ΜΕ ΒΑΣΗ ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ

ΥΛΟΠΟΙΗΣΗ ΜΕΘΟΔΟΥ ΑΝΑΚΤΗΣΗΣ ΕΙΚΟΝΩΝ ΜΕ ΒΑΣΗ ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Ο Ε Κ Π Α Ι Δ Ε Υ Τ Ι Κ Ο Ι Δ Ρ Υ Μ Α Σ Ε Ρ Ρ Ω Ν Σ Χ Ο Λ Η Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Ω Ν Ε Φ Α Ρ Μ Ο Γ Ω Ν Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ & Ε Π Ι Κ Ο Ι Ν Ω Ν Ι Ω Ν ΥΛΟΠΟΙΗΣΗ ΜΕΘΟΔΟΥ ΑΝΑΚΤΗΣΗΣ

Διαβάστε περισσότερα

Πανεπιστήµιο Ιωαννίνων Σχολή Θετικών Επιστηµών Τµήµα Πληροφορικής Πτυχιακή Εργασία ΤΑΞΙΝΟΜΗΣΗ ΚΕΙΜΕΝΩΝ ΗΛΕΚΤΡΟΝΙΚΟΥ ΤΑΧΥ ΡΟΜΕΙΟΥ ΜΕ ΒΑΣΗ ΤΟ ΠΕΡΙΕΧΟΜΕΝΟ ΓΡΗΓΟΡΙΟΣ ΤΖΩΡΤΖΗΣ ΕΠΙΒΛΕΠΩΝ: Α. ΛΥΚΑΣ Ιωάννινα,

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές Σύστασης Όρων για Αναζήτηση σε Επιστηµονικές Βάσεις Δεδοµένων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Φροντιστήριο 3

Ανάκτηση Πληροφορίας. Φροντιστήριο 3 Ανάκτηση Πληροφορίας Φροντιστήριο 3 Τσιράκης Νίκος Νοέμβριος 2007 2 Περιεχόμενα Ανεστραμμένα Αρχεία Εισαγωγή Δημιουργία Συμπίεση Πιθανοτικά Μοντέλα 3 Ανεστραμμένα Αρχεία 4 Εισαγωγή Με ποιους τρόπους μπορούμε

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ» 2012-2013

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ» 2012-2013 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ» 2012-2013 ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΦΙΛΙΠΠΟΣ ΑΛΕΒΙΖΟΣ (Αναπληρωτής

Διαβάστε περισσότερα

Θοδωρής Πιτικάρης, Ιωάννης Τσαγκατάκης, Μιχάλης Νικητάκης, Γιώργος Παπαδουράκης Α. Τ. Ε. Ι ΚΡΗΤΗΣ

Θοδωρής Πιτικάρης, Ιωάννης Τσαγκατάκης, Μιχάλης Νικητάκης, Γιώργος Παπαδουράκης Α. Τ. Ε. Ι ΚΡΗΤΗΣ 11ο ΠΑΝΕΛΛΗΝΙΟ ΣΥΝΕΔΡΙΟ ΑΚΑΔΗΜΑΪΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ Θοδωρής Πιτικάρης, Ιωάννης Τσαγκατάκης, Μιχάλης Νικητάκης, Γιώργος Παπαδουράκης Α. Τ. Ε. Ι ΚΡΗΤΗΣ Theodoris Pitikaris, John Tsagatakis, Michael Nikitakis,

Διαβάστε περισσότερα

Αλγόριθμοι Ευρετηρίασης Προφίλ Χρηστών σε Συστήματα Διάχυσης Πληροφορίας

Αλγόριθμοι Ευρετηρίασης Προφίλ Χρηστών σε Συστήματα Διάχυσης Πληροφορίας Αλγόριθμοι Ευρετηρίασης Προφίλ Χρηστών σε Συστήματα Διάχυσης Πληροφορίας Αλγόριθμοι Ευρετηρίασης Προφίλ Χρηστών σε Συστήματα Διάχυσης Πληροφορίας Ζερβάκης Ελευθέριος Πανεπιστήμιο Πελοποννήσου 2011 Περίληψη

Διαβάστε περισσότερα

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων 2010-2011 1

Ανάκτηση Κειμένου (εισαγωγικά θέματα) Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό. Εξόρυξη Δεδομένων 2010-2011 1 Θέματα σχετικά με Εξόρυξη από τον Παγκόσμιο Ιστό Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ 1 Ανάκτηση Κειμένου (εισαγωγικά θέματα) Εξόρυξη Δεδομένων: Ακ. Έτος 2010-2011 ΑΝΑΛΥΣΗ ΣΥΝΔΕΣΕΩΝ

Διαβάστε περισσότερα

Πρόλογος. Η νέα έκδοση των παρόντων σημειώσεων θα ολοκληρωθεί κατά το εαρινό εξάμηνο του ακαδημαϊκού έτους 2008-2009. Αύγουστος 2008.

Πρόλογος. Η νέα έκδοση των παρόντων σημειώσεων θα ολοκληρωθεί κατά το εαρινό εξάμηνο του ακαδημαϊκού έτους 2008-2009. Αύγουστος 2008. Πρόλογος Οι παρούσες σημειώσεις αποτελούν το μεγαλύτερο μέρος του υλικού που διδάχτηκε στις παραδόσεις του προπτυχιακού μαθήματος της Αριθμητικής Ανάλυσης, το εαρινό εξάμηνο 7-8, στο Μαθηματικό τμήμα του

Διαβάστε περισσότερα

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Αυτόματη Κατάταξη Μηνυμάτων Ηλεκτρονικού Ταχυδρομείου σε Κατηγορίες. Γεώργιος Σάκκης. Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Αυτόματη Κατάταξη Μηνυμάτων Ηλεκτρονικού Ταχυδρομείου σε Κατηγορίες. Γεώργιος Σάκκης. Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Αυτόματη Κατάταξη Μηνυμάτων Ηλεκτρονικού Ταχυδρομείου σε Κατηγορίες Γεώργιος Σάκκης Υπεύθυνος Καθηγητής: Π. Σταματόπουλος ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΟ ΦΙΛΤΡΑΡΙΣΜΑ ΤΩΝ SPAM E-MAIL

ΑΛΓΟΡΙΘΜΟΙ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΟ ΦΙΛΤΡΑΡΙΣΜΑ ΤΩΝ SPAM E-MAIL ΑΛΓΟΡΙΘΜΟΙ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΟ ΦΙΛΤΡΑΡΙΣΜΑ ΤΩΝ SPAM E-MAIL Η Διπλωματική Εργασία παρουσιάστηκε ενώπιον του Διδακτικού Προσωπικού του Πανεπιστημίου Αιγαίου των Κανάρη Ιωάννη Κανάρη Κωνσταντίνου ΕΑΡΙΝΟ

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Τµήµα Εφαρµοσµένης Πληροφορικής Πρόγραµµα Μεταπτυχιακών Σπουδών Ειδίκευσης Σύγκριση Μεθόδων Ανάκτησης Εικόνας Βασισµένης στο Περιεχοµένο µε

Διαβάστε περισσότερα

Επαγωγικές Μηχανές Διανυσμάτων Στήριξης και εφαρμογή σε προβλήματα ταξινόμησης

Επαγωγικές Μηχανές Διανυσμάτων Στήριξης και εφαρμογή σε προβλήματα ταξινόμησης ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Επαγωγικές Μηχανές Διανυσμάτων Στήριξης

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης Σχολή Θετικών Επιστημών Τμήμα Επιστήμης Υπολογιστών

Πανεπιστήμιο Κρήτης Σχολή Θετικών Επιστημών Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης Σχολή Θετικών Επιστημών Τμήμα Επιστήμης Υπολογιστών Χρήση αυτόνομων οντοτήτων λογισμικού στη διαχείριση πόρων ενός συστήματος επείγουσας προνοσοκομειακής ιατρικής Ζαμπούλης Ξενοφών

Διαβάστε περισσότερα

Διπλωματική Εργασία της φοιτήτριας του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

Διπλωματική Εργασία της φοιτήτριας του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΡΓΑΣΤΗΡΙΟ: ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ Διπλωματική Εργασία της φοιτήτριας

Διαβάστε περισσότερα

ΣΥΣΤΗΜΑ ΣΥΣΤΑΣΕΩΝ ΓΙΑ ΔΙΑΔΡΑΣΤΙΚΗ ΕΞΕΡΕΥΝΗΣΗ ΣΧΕΣΙΑΚΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην

ΣΥΣΤΗΜΑ ΣΥΣΤΑΣΕΩΝ ΓΙΑ ΔΙΑΔΡΑΣΤΙΚΗ ΕΞΕΡΕΥΝΗΣΗ ΣΧΕΣΙΑΚΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην ΣΥΣΤΗΜΑ ΣΥΣΤΑΣΕΩΝ ΓΙΑ ΔΙΑΔΡΑΣΤΙΚΗ ΕΞΕΡΕΥΝΗΣΗ ΣΧΕΣΙΑΚΩΝ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ Υποβάλλεται στην ορισθείσα από την Γενική Συνέλευση Ειδικής Σύνθεσης του Τμήματος Πληροφορικής

Διαβάστε περισσότερα

Η Διπλωματική Εργασία παρουσιάστηκε ενώπιον του Διδακτικού Προσωπικού του Πανεπιστημίου Αιγαίου

Η Διπλωματική Εργασία παρουσιάστηκε ενώπιον του Διδακτικού Προσωπικού του Πανεπιστημίου Αιγαίου Εξόρυξη γνώσης από δεδομένα με διατήρηση της ιδιωτικότητας χρησιμοποιώντας νευρωνικά δίκτυα RBF για οριζόντια κατατετμημένα δεδομένα σε περιβάλλον μη έμπιστων χρηστών. Η Διπλωματική Εργασία παρουσιάστηκε

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Συσχέτιση μεταξύ δύο συνόλων δεδομένων Διαγράμματα διασποράς (scattergrams) Συσχέτιση μεταξύ δύο συνόλων δεδομένων Η οπτική απεικόνιση δύο συνόλων δεδομένων μπορεί να αποκαλύψει με παραστατικό τρόπο πιθανές τάσεις και μεταξύ τους συσχετίσεις,

Διαβάστε περισσότερα

ΣΥΣΤΗΜΑ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ ΜΕ ΧΡΗΣΗ WEB CAMERA ΚΑΙ OPENCV

ΣΥΣΤΗΜΑ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ ΜΕ ΧΡΗΣΗ WEB CAMERA ΚΑΙ OPENCV ΣΕΡΡΕΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ 2013 ΣΥΣΤΗΜΑ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΩΝ ΜΕ ΧΡΗΣΗ WEB CAMERA ΚΑΙ OPENCV ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Κωνσταντίνος

Διαβάστε περισσότερα