Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 11: Πιθανοτική ανάκτηση πληροφορίας.

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Πιθανοκρατικό μοντέλο

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

Ανάκτηση Πληροφορίας (Information Retrieval IR)

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)


4.3. Γραµµικοί ταξινοµητές

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Παλαιότερες ασκήσεις

Τεχνικές ταξινόµησης αποτελεσµάτων µηχανών αναζήτησης µε βάση την ιστορία του χρήστη

Ανάκτηση Πληροφορίας

ΕΙΣΑΓΩΓΗ ΣΤΟ MATLAB- SIMULINK

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Το θεώρηµα πεπλεγµένων συναρτήσεων

Τι (άλλο) θα δούμε σήμερα;

Εισαγωγή. Γενική Εικόνα του Μαθήµατος. Το εσωτερικό ενός Σ Β. Εισαγωγή. Εισαγωγή Σ Β Σ Β. Αρχεία ευρετηρίου Κατάλογος συστήµατος Αρχεία δεδοµένων

Multimedia IR. εικτοδότηση και Αναζήτηση. Ανάκτηση Πληροφορίας

Information Retrieval

Το εσωτερικό ενός Σ Β

Ανάκτηση Πληροφορίας

Σύνοψη Προηγούµενου. Κανονικές Γλώσσες (1) Προβλήµατα και Γλώσσες. Σε αυτό το µάθηµα. ιαδικαστικά του Μαθήµατος.

1. Financial New Times Year MAXk {FREQij} D D D D

Κοινωνικά Δίκτυα Αναζήτηση Πληροφοριών σε Δίκτυα

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών

Kεφάλαιο 4. Συστήµατα διαφορικών εξισώσεων.

ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 του βιβλίου. 2 ο ΜΕΡΟΣ

Ανάκτηση Πληροφορίας

Μηχανική Μάθηση: γιατί;

KEΦΑΛΑΙΟ 5 ΨΗΦΙΑΚΑ ΚΡΥΠΤΟΣΥΣΤΗΜΑΤΑ

ιαφορική εντροπία Σεραφείµ Καραµπογιάς

Ενότητα: Πράξεις επί Συνόλων και Σώµατα Αριθµών

Μαθηµατικό Παράρτηµα 2 Εξισώσεις Διαφορών

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Παράρτηµα Α. Στοιχεία θεωρίας µέτρου και ολοκλήρωσης.

1.4 Λύσεις αντιστρόφων προβλημάτων.

Σύµφωνα µε την Υ.Α /Γ2/ Εξισώσεις 2 ου Βαθµού. 3.2 Η Εξίσωση x = α. Κεφ.4 ο : Ανισώσεις 4.2 Ανισώσεις 2 ου Βαθµού

Συνεχείς συναρτήσεις πολλών µεταβλητών. ε > υπάρχει ( ) ( )

Multimedia IR. Εισαγωγή. Εισαγωγή. εικτοδότηση και Αναζήτηση

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Σχεσιακή Άλγεβρα και Σχεσιακός Λογισμός. Σχεσιακή Άλγεβρα Σχεσιακός Λογισμός

Εισαγωγή στην Πληροφορική. Α σ κ ή σ ε ι ς σ τ η ν ι α χ ε ί ρ ι σ η Μ ν ή µ η ς. Αντώνης Σταµατάκης

Κεφάλαιο 1. Εισαγωγή 1

Ανάκτηση πληροφορίας

Κεφάλαιο 1. Εισαγωγή 1

ΜΑΘΗΜΑΤΙΚΗ ΙΑΤΥΠΩΣΗ ΚΑΙ ΛΥΣΗ ΦΥΣΙΚΩΝ ΠΡΟΒΛΗΜΑΤΩΝ

Επεξεργασία Ερωτήσεων

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Τεχνολογίες Υλοποίησης Αλγορίθµων

Μαθηματική Εισαγωγή Συναρτήσεις

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

Επεξεργασία Ερωτήσεων

Κεφάλαιο 6 Παράγωγος

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 5

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Δοµές Δεδοµένων

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Ποιές οι θεµελιώδεις δυνατότητες και ποιοί οι εγγενείς περιορισµοί των υπολογιστών ; Τί µπορούµε και τί δε µπορούµε να υπολογίσουµε (και γιατί);

Στοιχεία Θεωρίας Υπολογισµού (1): Τυπικές Γλώσσες, Γραµµατικές

/5

( ) Κλίση και επιφάνειες στάθµης µιας συνάρτησης. x + y + z = κ ορίζει την επιφάνεια µιας σφαίρας κέντρου ( ) κ > τότε η

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Μαθηματική Εισαγωγή Συναρτήσεις

2. Missing Data mechanisms

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Περίληψη ϐασικών εννοιών στην ϑεωρία πιθανοτήτων

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ στη Ναυτιλία και τις Μεταφορές

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 9 Επαναληπτικες Ασκησεις

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΑΡΤΙΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 4

ΨΗΦΙΑΚΑ ΚΥΚΛΩΜΑΤΑ - ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 3

Κεφάλαιο 1. Θεωρία Ζήτησης

Κεφάλαιο 5 Οι χώροι. Περιεχόµενα 5.1 Ο Χώρος. 5.3 Ο Χώρος C Βάσεις Το Σύνηθες Εσωτερικό Γινόµενο Ασκήσεις

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται:

Ελληνικό Ανοικτό Πανεπιστήµιο Σπουδές στην Πληροφορική. Φαινόµενα πολυπλοκότητας στα Μαθηµατικά και στη Φυσική: ύο όψεις του ίδιου νοµίσµατος;

Αναγνώριση Προτύπων (Pattern Recognition) Μπεϋζιανή Θεωρία Αποφάσεων (Bayesian Decision Theory) Π. Τσακαλίδης

Πιθανότητες Γεώργιος Γαλάνης Κωνσταντίνα Παναγιωτίδου

Κεφάλαιο Τρία: Ψηφιακά Ηλεκτρονικά

Transcript:

Μοντελοποίηση Μοντέλα I που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

Ταξινόµηση Μοντέλων I etreval Browsng Κλασικά Μοντέλα Boolean Vector robablstc οµικά Μοντέλα Non-Overlappng Lsts roxmal Nodes Browsng Flat Structure Guded Hypertext Συνολοθεωρητικά Fuzzy Extended Boolean Αλγεβρικά Generalzed Vector Latend Semantc Neural Networs Πιθανοτικά Inference Networ Belef Networ Ανάκτηση Πληροφορίας 2

Συσχέτιση Μοντέλων, Όψεων, Λειτουργιών Λογική Όψη Κειµένου Λειτουργίες etreval Λέξεις Κλειδιά Κλασικά Συνολ/κά Πιθανοτικά Πλήρες Κείµενο Κλασικά Συνολ/κά Πιθανοτικά Πλήρες Κείµενο + οµή οµικά Browsng Flat Flat Hypertext Structure Guded Hypertext Ανάκτηση Πληροφορίας 3

Τύποι Ανάκτησης Ad-Hoc Η βάση των κειµένων παραµένει σχετικά σταθερή και στο σύστηµα εισέρχονται νέα ερωτήµατα queres. Flterng Τα ερωτήµατα παραµένουν σταθερά και νέα κείµενα εισέρχονται στη βάση. Ανάκτηση Πληροφορίας 4

Ανάκτηση Ad Hoc Q2 Q1 Q3 Συλλογή Σταθερού Μεγέθους Q4 Q5 Ανάκτηση Πληροφορίας 5

Ad Hoc vs Flterng User 2 rofle User 1 rofle Docs Fltered for User 2 Docs for User 1 Documents Stream Ανάκτηση Πληροφορίας 6

Χαρακτηριστικά Μοντέλων I Ένα µοντέλο I χαρακτηρίζεται από: D, σύνολο λογικών όψεων κειµένων Q, σύνολο λογικών όψεων ερωτηµάτων F, πλαίσιο µοντελοποίησης κειµένων, ερωτηµάτων και συσχετισµών τους q,d, συνάρτηση βαθµολόγησης Ανάκτηση Πληροφορίας 7

Λέξεις Κλειδιά Keywords Χρησιµοποιούνται σαν αντιπρόσωποι όλου του κειµένου και βοηθούν στη σύντοµη περιγραφή του κειµένου περίληψη. Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείµενα να διαχωρίζονται κατάλληλα. Ανάκτηση Πληροφορίας 8

Παράδειγµα Κείµενο 1 Κείµενο 2 Κείµενο 3 η γεωργική επανάσταση η βιοµηχανική επανάσταση η επανάσταση υψηλής τεχνολογίας Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα τρία κείµενα δηµιουργεί πρόβληµα. Γιατί; Ανάκτηση Πληροφορίας 9

Παρατήρηση Όλες οι λέξεις κλειδιά δεν έχουν την ίδια βαρύτητα για τις προτιµήσεις των χρηστών. Κάποιες λέξεις µπορεί να είναι σηµαντικές ενώ κάποιες άλλες λιγότερο σηµαντικές. Έστω µία λέξη κλειδί και d ένα κείµενο. Το βάρος ορίζεται ως w,d >= 0 και δηλώνει το πόσο σηµαντική είναι η λέξη κλειδί σε σχέση µε το κείµενο. Ανάκτηση Πληροφορίας 10

Ορισµός Έστω t αριθµός των eywords και K={1,,t} το σύνολο των eywords. Εάν το eyword δεν εµφανίζεται στο κείµενο d τότε w,d=0. ιαφορετικά, w,d > 0. Άρα σε κάθε κείµενο d αντιστοιχεί ένα διάνυσµα βαρών w1,, w2,,, wt,. Ανάκτηση Πληροφορίας 11

Κλασικά Μοντέλα I Κάθε κείµενο αντιπροσωπεύεται από ένα σύνολο χαρακτηριστικών λέξεων eywords. Ένα eyword είναι χρήσιµο για να θυµόµαστε το βασικό θέµα του κειµένου. Συνήθως τα eywords είναι ουσιαστικά, τα οποία από µόνα τους έχουν νόηµα. Ωστόσο, οι µηχανές αναζήτησης θεωρούν ότι όλες οι λέξεις του κειµένου είναι eywords full text representaton Ανάκτηση Πληροφορίας 12

Κλασικά Μοντέλα I κ ένα eyword ndex term d ένα κείµενο t συνολικός αριθµός eywords K = {1, 2,, t} σύνολο eywords w >= 0 βάρος µεταξύ,d w = 0 το eyword δε βρίσκεται στο κείµενο vecd = w1, w2,, wt διάνυσµα που σχετίζεται µε το κείµενο d gvecd = w συνάρτηση που επιστρέφει το βάρος που σχετίζεται µε το,d Ανάκτηση Πληροφορίας 13

Boolean Μοντέλο Απλό, βασίζεται στη θεωρία συνόλων ιατύπωση ερωτηµάτων ως λογικές εκφράσεις ακριβής σηµαντική exact semantcs απλός φορµαλισµός q = a b c To eyword είναι είτε παρόν είτε απόν w ε {0,1} Για παράδειγµα q = a b c vecqdnf = 1,1,1 1,1,0 1,0,0 vecqcc = 1,1,0 ένα conunctve component Ανάκτηση Πληροφορίας 14

Boolean Μοντέλο q = a b c Ka 1,0,0 1,1,0 1,1,1 Kb smq,d = 1 f vecqcc vecqcc ε vecqdnf, gvecd = gvecqcc Kc 0 otherwse Ανάκτηση Πληροφορίας 15

Μειονεκτήµατα Boolean Μοντέλου εν υπάρχει υποστήριξη για µερική ταύτιση partal matchng εν υπάρχει βαθµολόγηση των αποτελεσµάτων. Η ερώτηση πρέπει να διατυπωθεί µε λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλους τους χρήστες. Τα ερωτήµατα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Εποµένως, το boolean µοντέλο άλλοτε επιστρέφει πάρα πολλά κείµενα και άλλοτε πάρα πολύ λίγα. Ανάκτηση Πληροφορίας 16

ιανυσµατικό Μοντέλο Η χρήση των δυαδικών βαρών είναι πολύ περιοριστική Τα µη-δυαδικά βάρη δίνουν τη δυνατότητα για µερική ταύτιση partal matches Τα βάρη των eywords χρησιµοποιούνται για να υπολογιστεί ο βαθµός οµοιότητας degree of smlarty µεταξύ ενός ερωτήµατος και του κάθε κειµένου Το βαθµολογηµένο raned σύνολο των κειµένων παρέχει καλύτερη ποιοτικά ταύτιση Ανάκτηση Πληροφορίας 17

ιανυσµατικό Μοντέλο Ορίζουµε: w > 0 όταν d wq >= 0 σχετίζεται µε το ζεύγος,q vecd = w1, w2,..., wt vecq = w1q, w2q,..., wtq Με κάθε σχετίζουµε ένα µοναδιαίο διάνυσµα vec Τα vec και vec είναι ορθοκανονικά ανεξάρτητα µεταξύ τους Τα t µοναδιαία διανύσµατα vec σχηµατίζουν µία κανονική βάση του χώρου µε t διαστάσεις. Στο χώρο αυτό, κείµενα και ερωτήµατα εµφανίζονται σαν διανύσµατα βαρών. Ανάκτηση Πληροφορίας 18

ιανυσµατικό Μοντέλο d Smq,d = cosθ = [vecd vecq] / d * q = [Σ w * wq] / d * q Εφόσον w > 0 και wq > 0, 0 <= smq,d <=1 Επιτρέπεται η ανάκτηση κειµένου ακόµη και όταν αυτό δεν περιέχει όλα τα eywords partal match. Θ q Ανάκτηση Πληροφορίας 19

ιανυσµατικό Μοντέλο Smq,d = [Σ w * wq] / d * q Πως µπορούµε να υπολογίσουµε τα βάρη w και wq? Χρησιµοποιούνται τα ακόλουθα µεγέθη: Οµοιότητα µεταξύ των κειµένων smlarty tf factor, term frequency µέσα στο κείµενο Ανοµοιότητα µεταξύ των κειµένων dssmlarty df factor, nverse document frequency w = tf, * df Ανάκτηση Πληροφορίας 20

ιανυσµατικό Μοντέλο Έστω, N συνολικός αριθµός κειµένων n αριθµός κειµένων που περιέχουν το eyword freq, συχνότητα εµφάνισης του στο κείµενο d Ο κανονικοποιηµένος tf factor ορίζεται: f, = freq, / maxlfreql, Το µέγιστο υπολογίζεται από όλα τα eywords που βρίσκονται στο d O df factor υπολογίζεται: df = log N/n Ο λογάριθµος χρησιµοποιείται για να γίνουν οι τιµές συγκρίσιµες. Ανάκτηση Πληροφορίας 21

ιανυσµατικό Μοντέλο Τα καλύτερα µοντέλα βαρών προκύπτουν από τη σχέση: w = f, * logn/n Η τεχνική καλείται tf-df weghtng scheme Για τα βάρη των eywords στο ερώτηµα µία καλή πρόταση: wq = 0.5 + [0.5 * freq,q / maxfreql,q] * logn/n Το διανυσµατικό µοντέλο µε χρήση του tf-df είναι µία πολύ καλή τεχνική για τη βαθµολόγηση των αποτελεσµάτων. Ανάκτηση Πληροφορίας 22

ιανυσµατικό Μοντέλο Πλεονεκτήµατα: Η χρήση βαρών βελτιώνει την ποιότητα του αποτελέσµατος Η µερική ταύτιση επιτρέπει την ανάκτηση κειµένων τα οποία προσεγγίζουν τη συνθήκη της ερώτησης. Η χρήση του συνηµιτόνου cosne ranng formula ταξινοµεί τα κείµενα µε βάση την οµοιότητά τους ως προς το ερώτηµα. Μειονεκτήµατα: Το µοντέλο υποθέτει ότι τα eywords είναι ανεξάρτητα µεταξύ τους, κάτι που απλοποιεί την κατάσταση, όµως δεν ισχύει πάντα. Ανάκτηση Πληροφορίας 23

ιανυσµατικό Μοντέλο: Παράδειγµα I 1 d4 d2 d1 d6 d5 d3 d7 2 3 1 2 3 q d d1 1 0 1 2 d2 1 0 0 1 d3 0 1 1 2 d4 1 0 0 1 d5 1 1 1 3 d6 1 1 0 2 d7 0 1 0 1 q 1 1 1 Ανάκτηση Πληροφορίας 24

ιανυσµατικό Μοντέλο: Παράδειγµα II 1 d4 d2 d1 d6 d5 d3 d7 2 1 2 3 q d d1 1 0 1 4 d2 1 0 0 1 d3 0 1 1 5 d4 1 0 0 1 d5 1 1 1 6 d6 1 1 0 3 d7 0 1 0 2 q 1 2 3 3 Ανάκτηση Πληροφορίας 25

ιανυσµατικό Μοντέλο: Παράδειγµα III 1 d4 d2 d1 d6 d5 d3 d7 2 1 2 3 q d d1 2 0 1 5 d2 1 0 0 1 d3 0 1 3 11 d4 2 0 0 2 d5 1 2 4 17 d6 1 2 0 5 d7 0 5 0 10 q 1 2 3 3 Ανάκτηση Πληροφορίας 26

Πιθανοτικό Μοντέλο Στόχος: να ορίσουµε το I πρόβληµα σε πιθανοτικό πλαίσιο Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειµένων που το ικανοποιεί. Η ερώτηση επεξεργάζεται µε βάση τις ιδιότητες αυτού του συνόλου. Ποιες είναι όµως αυτές οι ιδιότητες; Αρχικά γίνεται µία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται. Ανάκτηση Πληροφορίας 27

Πιθανοτικό Μοντέλο Αρχικά επιστρέφεται ένα σύνολο κειµένων. Ο χρήστης εξετάζει τα κείµενα αναζητώντας σχετικά κείµενα. Το σύστηµα I χρησιµοποιεί το feedbac του χρήστη ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο κειµένων. Η διαδικασία επαναλαµβάνεται. Η περιγραφή του ιδανικού συνόλου κειµένων πραγµατοποιείται πιθανοτικά. Ανάκτηση Πληροφορίας 28

Πιθανοτικό Μοντέλο Έστω ερώτηµα q και κείµενο d. Το πιθανοτικό µοντέλο προσπαθεί να προσδιορίσει την πιθανότητα το κείµενο d να είναι χρήσιµο στο χρήστη. Το µοντέλο θεωρεί ότι αυτή η πιθανότητα εξαρτάται µόνο από το ερώτηµα και το κείµενο d µόνο. Πώς υπολογίζονται οι πιθανότητες; Ποιός είναι οδειγµατοχώρος; υαδικά βάρη w, {0,1}w,q {0,1} σύνολο σχετικών κειµένων σύνολο µη σχετικών κειµένων Ανάκτηση Πληροφορίας 29

Ανάκτηση Πληροφορίας 30 Πιθανοτικό Μοντέλο Πιθανοτικό Μοντέλο d r d r, d d q d sm r r, d d q d sm r r d r πιθανότητα d σχετικό µε q πιθανότητα d µη σχετικό µε q πιθανότητα να επιλέξουµε το d από το Ορίζουµε : Aπό τον κανόνα του Bayes :

Ανάκτηση Πληροφορίας 31 Πιθανοτικό Μοντέλο Πιθανοτικό Μοντέλο, d d q d sm r r, 0 1 0 1,,,,,,,, = = = = w w w w w w w w q sm d r Πιθανότητα το βρίσκεται σε ένα κείµενο που επιλέγεται τυχαία από το σύνολο

Ανάκτηση Πληροφορίας 32 Πιθανοτικό Πιθανοτικό Μοντέλο Μοντέλο 1 log 1 log,, 1, + = w w q sm d t q 1 = + Ισχύει ότι: Χρησιµοποιώντας λογάριθµους παίρνουµε:

Ανάκτηση Πληροφορίας 33 Αρχική Εκτίµηση Αρχική Εκτίµηση N n = = 0.5 Αρχικά χρησιµοποιούµε τις παρακάτω σχέσεις Έστω ότι επιστρέφεται ένα σύνολο κειµένων V. Ορίζουµε ως V το υποσύνολο των κειµένων που περιέχουν το eyword. V N V n V V = =

Πλεονεκτήµατα-Μειονεκτήµατα Πλεονεκτήµατα: 1. Απλό µοντέλο 2. Τα κείµενα ταξινοµούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά Μειονεκτήµατα: 1. Χρειάζεται να µαντέψουµε 2. ε λαµβάνεται υπ όψιν η συχνότητα εµφάνισης 3. Θεωρεί ότι τα eywords είναι ανεξάρτητα Ανάκτηση Πληροφορίας 34

Σύγκριση Κλασικών Μοντέλων Το Boolean µοντέλο είναι το πιο απλό αλλά και το λιγότερο ακριβές. Στηρίζεται σε θεωρία συνολών και ο τρόπος διατύπωσης των ερωτήσεων είναι απλός, σε σχέση µε τα άλλα µοντέλα. εν υπάρχει απόδειξη ότι το πιθανοτικό µοντέλο είναι καλύτερο από το διανυσµατικό και το αντίστροφο. Το διανυσµατικό µοντέλο είναι αυτό που χρησιµοποιείται περισσότερο σε συστήµατα I και µηχανές αναζήτησης. Ανάκτηση Πληροφορίας 35

Σύνοψη Βασικά στοιχεία I ιαφορές D και I Μοντέλο boolean ιανυσµατικό µοντέλο Πιθανοτικό µοντέλο Ανάκτηση Πληροφορίας 36

Πιθανοτικό Μοντέλο Στόχος: να ορίσουµε το I πρόβληµα σε πιθανοτικό πλαίσιο Για κάθε user query υπάρχει ένα ιδανικό σύνολο κειµένων που το ικανοποιεί. Η ερώτηση επεξεργάζεται µε βάση τις ιδιότητες αυτού του συνόλου. Ποιες είναι όµως αυτές οι ιδιότητες; Αρχικά γίνεται µία πρόβλεψη και στη συνέχεια η πρόβλεψη βελτιώνεται. Ανάκτηση Πληροφορίας 37

Πιθανοτικό Μοντέλο Αρχικά επιστρέφεται ένα σύνολο κειµένων. Ο χρήστης εξετάζει τα κείµενα αναζητώντας σχετικά κείµενα. Το σύστηµα I χρησιµοποιεί το feedbac του χρήστη ώστε να προσδιοριστεί καλύτερα το ιδανικό σύνολο κειµένων. Η διαδικασία επαναλαµβάνεται. Η περιγραφή του ιδανικού συνόλου κειµένων πραγµατοποιείται πιθανοτικά. Ανάκτηση Πληροφορίας 38

Πιθανοτικό Μοντέλο Έστω ερώτηµα q και κείµενο d. Το πιθανοτικό µοντέλο προσπαθεί να προσδιορίσει την πιθανότητα το κείµενο d να είναι χρήσιµο στο χρήστη. Το µοντέλο θεωρεί ότι αυτή η πιθανότητα εξαρτάται µόνο από το ερώτηµα και το κείµενο d µόνο. Πώς υπολογίζονται οι πιθανότητες; Ποιός είναι οδειγµατοχώρος; υαδικά βάρη w, {0,1}w,q {0,1} σύνολο σχετικών κειµένων σύνολο µη σχετικώνκειµένων Ανάκτηση Πληροφορίας 39

Ανάκτηση Πληροφορίας 40 Πιθανοτικό Πιθανοτικό Μοντέλο Μοντέλο d r d r, d d q d sm r r, d d q d sm r r d r πιθανότητα d σχετικό µε q πιθανότητα d µη σχετικό µε q πιθανότηταναεπιλέξουµε τοd από το Ορίζουµε : Aπό τον κανόνα του Bayes :

Ανάκτηση Πληροφορίας 41 Πιθανοτικό Πιθανοτικό Μοντέλο Μοντέλο, d d q d sm r r, 0 1 0 1,,,,,,,, = = = = w w w w w w w w q sm d r Πιθανότητα το βρίσκεται σε ένα κείµενο που επιλέγεται τυχαία από το σύνολο

Ανάκτηση Πληροφορίας 42 Πιθανοτικό Πιθανοτικό Μοντέλο Μοντέλο 1 log 1 log,, 1, + = w w q sm d t q 1 = + Ισχύει ότι: Χρησιµοποιώντας λογάριθµους παίρνουµε:

Ανάκτηση Πληροφορίας 43 Αρχική Εκτίµηση Αρχική Εκτίµηση N n = = 0.5 Αρχικά χρησιµοποιούµε τις παρακάτω σχέσεις Έστω ότι επιστρέφεται ένα σύνολο κειµένων V. Ορίζουµε ωςv το υποσύνολο των κειµένων που περιέχουν το eyword. V N V n V V = =

Πλεονεκτήµατα-Μειονεκτήµατα Πλεονεκτήµατα: 1. Απλό µοντέλο 2. Τα κείµενα ταξινοµούνται σε φθίνουσα διάταξη ως προς την πιθανότητα να είναι σχετικά Μειονεκτήµατα: 1. Χρειάζεται να µαντέψουµε 2. ε λαµβάνεται υπ όψιν η συχνότητα εµφάνισης 3. Θεωρεί ότι τα eywords είναι ανεξάρτητα Ανάκτηση Πληροφορίας 44

Σύγκριση Κλασικών Μοντέλων Το Boolean µοντέλο είναι το πιο απλό αλλά και το λιγότερο ακριβές. Στηρίζεται σε θεωρία συνολών και ο τρόπος διατύπωσης των ερωτήσεων είναι απλός, σε σχέση µε τα άλλα µοντέλα. εν υπάρχει απόδειξη ότι το πιθανοτικό µοντέλο είναι καλύτερο από το διανυσµατικό και το αντίστροφο. Το διανυσµατικό µοντέλο είναι αυτό που χρησιµοποιείται περισσότερο σε συστήµατα I και µηχανές αναζήτησης. Ανάκτηση Πληροφορίας 45

Συνολοθεωρητικά Μοντέλα Fuzzy Extended Boolean

Συνολοθεωρητικά Μοντέλα Το Boolean µοντέλο χρησιµοποιεί 0 και 1 για να περιγράψει τη σχετικότητα ενός κειµένου. Πώς µπορούµε να επεκτείνουµε το µοντέλο ώστε να υποστηρίζει µερική ταύτιση και βαθµολόγηση κειµένων. Μελετούµε δύο συνολοθεωρητικά µοντέλα: Fuzzy Set Model Extended Boolean Model Ανάκτηση Πληροφορίας 47

Fuzzy Set Μοντέλο Κείµενα και ερωτήµατα αναπαριστώνται µε eywords. Τα αποτελέσµατα είναι approxmate εξ αρχής. Αυτό µοντελοποιείται χρησιµοποιώντας ένα fuzzy πλαίσιο, ως εξής: σε κάθε eyword αντιστοιχεί ένα fuzzy σύνολο κάθε κείµενο έχει ένα βαθµό µέλους membershp στο fuzzy σύνολο Παρουσιάζουµε το µοντέλο που προτάθηκε από τους Ogawa, Morta, και Kobayash 1991 Ανάκτηση Πληροφορίας 48

Fuzzy Set Θεωρία Πλαίσιο αναπαράστασης κλάσεων των οποίων τα όρια δεν είναι σαφώς προσδιορισµένα. Η βασική ιδέα είναι να χρησιµοποιήσουµε το βαθµό συµµετοχής degree of membershp για τα µέλη ενός συνόλου Ο βαθµός αυτός είναι µεταξύ 0 και 1 Άρα, η συµµετοχή ενός αντικειµένου σε ένα σύνολο παίρνει ασαφή έννοια, σε αντίθεση µε το κλασικό boοlean µοντέλο Ανάκτηση Πληροφορίας 49

Fuzzy Set Θεωρία Ορισµός: Ένα fuzzy υποσύνολο A του U χαρακτηρίζεται από µία συνάρτηση συµµετοχής membershp functon µa,u : U [0,1] η οποία συσχετίζει κάθε στοιχείο u του U µε έναν αριθµό µu µεταξύ 0 και 1. Ορισµός: Έστω A και B δύο fuzzy υποσύνολα του U. Επίσης, έστω A το συµπλήρωµα του A. Τότε, µ A,u = 1 - µa,u µa B,u = maxµa,u, µb,u µa B,u = mnµa,u, µb,u Ανάκτηση Πληροφορίας 50

Fuzzy Ανάκτηση Πληροφορίας Fuzzy sets µοντελοποιούνται µε βάση θυσαυρό Ο θυσαυρός χτίζεται ως εξής: vecc term-term πίνακας συσχέτισης correlaton matrx c,l κανονικοποιηµένος παράγοντας συσχέτισης για το,l: c,l = n,l n + nl - n,l n: πλήθος κειµένων που περιέχουν το nl: πλήθος κειµένων που περιέχουν το l n,l: πλήθος κειµένων που περιέχουν το και το l Έτσι περιγράφεται η γειτονικότητα proxmty µεταξύ των eywords. Ανάκτηση Πληροφορίας 51

Fuzzy Ανάκτηση Πληροφορίας O παράγοντας συσχέτισης c,l χρησιµοποιείται για να ορίσει fuzzy set membershp για ένα κείµενο d : d µ, = 1 - Π 1 - c,l µ, : συµµετοχή του d στο fuzzy subset του Ένα κείµενο d ανήκει στο fuzzy set του, εάν τα eywords του d συσχετίζονται µε το. Ανάκτηση Πληροφορίας 52

Fuzzy Ανάκτηση Πληροφορίας µ, = 1 - Π 1 - c,l d µ, : συµµετοχή του d στο fuzzy subset του Εάν το d περιέχει eyword l το οποίο συσχετίζεται κατά πολύ µε : c,l ~ 1 µ, ~ 1 είναι καλός fuzzy ndex για το d Ανάκτηση Πληροφορίας 53

Παράδειγµα Ka cc3 cc2 cc1 Kb q = a b c vecqdnf = 1,1,1 + 1,1,0 + 1,0,0 = veccc1 + veccc2 + veccc3 µq,d = µcc1+cc2+cc3, = 1-1 - µa, µb, µc, * 1 - µa, µb, 1-µc,*1 - µa, 1-µb, 1-µc, Kc Ανάκτηση Πληροφορίας 54

Fuzzy Ανάκτηση Πληροφορίας Τα Fuzzy I µοντέλα έχουν µελετηθεί κυρίως στη βιβλιογραφία που σχετίζεται µε fuzzy theory. Πειραµατικά αποτελέσµατα µε standard test collectons δεν είναι διαθέσιµα. Ανάκτηση Πληροφορίας 55