Ανάκτηση Πληροφορίας

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση πληροφορίας

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Ανάκτηση Πληροφορίας

Προγραμματισμός Ηλεκτρονικών Υπολογιστών 1

Θεωρία Πιθανοτήτων & Στατιστική

Βιομηχανικοί Ελεγκτές

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

ΔΙΔΑΣΚΩΝ: Δρ. Στυλιανός Τσίτσος

Μοντελοποίηση. Μοντέλα IR που έχουν προταθεί και χρησιµοποιούνται από υπάρχοντα συστήµατα.

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Τίτλος Μαθήματος: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Υπολογιστικά & Διακριτά Μαθηματικά

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Αναγωγή _ Εξαγωγή & Έλεγχος. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ανάκτηση πληροφορίας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Συστήματα Αυτομάτου Ελέγχου. Ενότητα Α: Γραμμικά Συστήματα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Προγραμματισμός Ηλεκτρονικών Υπολογιστών 1

ΒΟΗΘΗΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Αυτοματοποιημένη χαρτογραφία

Ανάκτηση Πληροφορίας

Μοντέλα Ανάκτησης Ι (Retrieval Models)

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Εισαγωγή στην πληροφορική

Αυτοματοποιημένη χαρτογραφία

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕ ΧΡΗΣΗ Η/Υ

9 ο ΕΡΓΑΣΤΗΡΙΟ ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Ηλεκτρονικοί Υπολογιστές ΙΙ

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Λογική. Δημήτρης Πλεξουσάκης. Ασκήσεις 2ου Φροντιστηρίου: Προτασιακός Λογισμός: Κανονικές Μορφές, Απλός Αλγόριθμος Μετατροπής σε CNF/DNF, Άρνηση

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #3: Αρχή της Επέκτασης - Ασαφείς Σχέσεις. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Πληροφοριακά Συστήματα & Περιβάλλον Ασκήσεις

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 7α: SQL (NULL, Διαίρεση) Ευαγγελίδης Γεώργιος. Τμήμα Εφαρμοσμένης Πληροφορικής ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Γραφικά με υπολογιστές. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #07

Γραφικά με υπολογιστές. Διδάσκων: Φοίβος Μυλωνάς. Διαλέξεις #11-#12

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Θεωρία Πιθανοτήτων & Στατιστική

Εφαρμογές Συστημάτων Γεωγραφικών Πληροφοριών

Υπολογιστικά & Διακριτά Μαθηματικά

Εισαγωγή στους Αλγορίθμους

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανυσματικοί Χώροι (1) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Πιθανότητες. Συνδυαστική Ανάλυση Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας

Σχεδίαση με Ηλεκτρονικούς Υπολογιστές

ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Λογισμός ΙΙ. Χρήστος Θ. Αναστασίου Τμήμα Μηχανικών Πληροφορικής ΤΕ

Μαθηματικά και Φυσική με Υπολογιστές

Εισαγωγή στους Αλγορίθμους

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

Ηλεκτρονικοί Υπολογιστές I

Μοντελοποίηση Λογικών Κυκλωμάτων

Λογική Δημήτρης Πλεξουσάκης Ασκήσεις στον Κατηγορηματικό Λογισμό Τμήμα Επιστήμης Υπολογιστών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Πιθανότητες. Εισαγωγή Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας

Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσµατικότητας της Ανάκτησης)

Ηλεκτρονικοί Υπολογιστές I

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 7: Τέλεια ισορροπία Nash για υποπαίγνια. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανυσματικοί Χώροι (3) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου Σχολιασμός ερευνητικής πρότασης

Λογική Δημήτρης Πλεξουσάκης Φροντιστήριο 6: Προτασιακός Λογισμός: Μέθοδος Επίλυσης Τμήμα Επιστήμης Υπολογιστών

Μαθησιακές δραστηριότητες με υπολογιστή

Θεωρία Λήψης Αποφάσεων

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Ι

Ηλεκτρονικοί Υπολογιστές II

Λογιστικές Εφαρμογές Εργαστήριο

Περιεχόμενα Ορισμός και λειτουργία των μηχανών Turing Θεωρία Υπολογισμού Ενότητα 20: Μηχανές Turing: Σύνθεση και Υπολογισμοί Επ. Καθ. Π. Κατσαρός Τμήμ

1. Financial New Times Year MAXk {FREQij} D D D D

Τηλεπισκόπηση - Φωτοερμηνεία Ενότητα 11: Είδη Ταξινομήσεων Επιβλεπόμενες Ταξινομήσεις Ακρίβειες.

Εφαρμογή Υπολογιστικών Τεχνικών στην Γεωργία

Υπολογιστικά & Διακριτά Μαθηματικά

Γραφικά με υπολογιστές

Βάσεις Δεδομένων Ενότητα 4

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Εφαρμογές Συστημάτων Γεωγραφικών Πληροφοριών

Τεχνολογία Πολυμέσων. Ενότητα # 15: Συγχρονισμός πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ιστορία της μετάφρασης

Διδακτική της Πληροφορικής

Διαχείριση Πληροφοριακών Συστημάτων

Αξιολόγηση στο Σχεδιασμό του Χώρου

Εφαρμογές Συστημάτων Γεωγραφικών Πληροφοριών

ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ι. Ενότητα 2: Μοντελο Συσχετίσεων Οντοτήτων, Μελέτη Περίπτωσης: Η βάση δεδομένων των CD

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Λογική. Ενότητα 1: Εισαγωγή. Δημήτρης Πλεξουσάκης Τμήμα Επιστήμης Υπολογιστών

Διάλεξη #10. Διδάσκων: Φοίβος Μυλωνάς. Γραφικά με υπολογιστές. Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Χειμερινό εξάμηνο.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Κβαντική Θεωρία ΙΙ. Εκφυλισμένη Θεωρία Διαταραχών Διδάσκων: Καθ. Λέανδρος Περιβολαρόπουλος

Σχεδίαση με Ηλεκτρονικούς Υπόλογιστές

Μάθηση σε νέα τεχνολογικά περιβάλλοντα

Transcript:

Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1

Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα Ιονίου Πανεπιστημίου» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

Ακρίβεια vs. Ανάκληση Έστω: R το σύνολο των σχετικών κειμένων. R ο αριθμός των κειμένων στο σύνολο R. Α ένα σύνολο κειμένων απάντησης. A ο αριθμός των κειμένων στο σύνολο A Rα ο αριθμός των κειμένων που είναι κοινά στα σύνολα R και A. Ανάκληση (Recall) είναι το ποσοστό των σχετικών κειμένων (σύνολο R) που έχει ανακτηθεί: Rα / R Ακρίβεια (Precision) είναι το ποσοστό των ανακτηθέντων κειμένων (σύνολο Α) που είναι σχετικό: Rα / Α 4

Ακρίβεια vs. Ανάκληση Ανάκληση (Recall): Rα / R - «ποσοστό σχετικών κειμένων που έχει ανακτηθεί» Ακρίβεια (Precision): Rα / Α - «ποσοστό ανακτηθέντων κειμένων που είναι σχετικό» Έστω: R q το σύνολο των σχετικών κειμένων για ένα ερώτημα q, όπως έχει καθοριστεί από ειδικούς. Π.χ.: R q ={d 1, d 3, d 5, d 7, d 9, d 13, d 21, d 41, d 43, d 45 }. Θεωρείστε ένα νέο αλγόριθμο ανάκτησης που μόλις έχει σχεδιαστεί, και υποθέστε ότι ο αλγόριθμος αυτός επιστρέφει την ακόλουθη συλλογή κειμένων: 1. d 7 6. d 5 11. d 4 2. d 2 7. d 28 12. d 40 3. d 3 8. d 12 13. d 10 4. d 6 9. d 22 14. d 36 5. d 8 10. d 13 15. d 1 5

Ακρίβεια vs. Ανάκληση Ανάκληση (Recall): Rα / R - «ποσοστό σχετικών κειμένων που έχει ανακτηθεί» Ακρίβεια (Precision): Rα / Α - «ποσοστό ανακτηθέντων κειμένων που είναι σχετικό» Το d 7 που βρίσκεται στη θέση 1. είναι σχετικό, και αντιστοιχεί στο 10% του συνόλου των σχετικών κειμένων (το σύνολο R q ) => ακρίβεια 100% και ανάκληση 10%. Το d 3 που βρίσκεται στη θέση 3. είναι το επόμενο σχετικό κείμενο => ακρίβεια περίπου 66% (2/3 κείμενα είναι σχετικά) και ανάκληση 20% (2/10 από τα σχετικά κείμενα έχουν ειδωθεί). 1. d 7 6. d 5 11. d 4 2. d 2 7. d 28 12. d 40 3. d 3 8. d 12 13. d 10 4. d 6 9. d 22 14. d 36 5. d 8 10. d 13 15. d 1 Το d 5 που βρίσκεται στη θέση 6. είναι το επόμενο σχετικό κείμενο = > ακρίβεια??? % και ανάκληση??? % 6

Ταξινόμηση Μοντέλων IR 7

Exact vs. Best Match Retrieval Models Exact-match (Απόλυτου Ταιριάσματος) μια επερώτηση καθορίζει αυστηρά (απόλυτα) κριτήρια ανάκτησης κάθε έγγραφο είτε ταιριάζει είτε όχι με μία επερώτηση το αποτέλεσμα είναι ένα σύνολο κειμένων Best-match (Κάλλιστου Ταιριάσματος) μια επερώτηση δεν περιγράφει αυστηρά κριτήρια ανάκτησης κάθε έγγραφο ταιριάζει σε μια επερώτηση σε ένα βαθμό το αποτέλεσμα είναι μια διατεταγμένη λίστα εγγράφων με ένα κατώφλι (στο βαθμό συνάφειας) μπορούμε να ελέγξουμε το μέγεθος της απάντησης «Μικτές προσεγγίσεις» συνδυασμός απόλυτου ταιριάσματος με τρόπους διάταξης του συνόλου της απάντησης 8

Extended Boolean Model Κίνητρο Το Boolean model είναι απλό αλλά δεν παρέχει κατάταξη (διαβάθμιση των συναφών εγγράφων). Προσέγγιση Επέκταση του boolean model με βάρυνση όρων και μερικό ταίριασμα. Συνδυασμός χαρακτηριστικών του vector model και ιδιοτήτων της Boolean algebra. [Salton, Fox, and Wu, 1983] 9

Extended Boolean Model Έστω q = k x k y. Σύμφωνα με το απλό Boolean model, ένα έγγραφο που περιέχει μόνο ένα από τα k x, k y είναι μησυναφές, και μάλιστα τόσο μη-συναφές, όσο ένα έγγραφο που δεν περιέχει κανέναν από τους δύο όρους!!! 10

Extended Boolean Model Έστω ότι έχουμε μόνο δύο όρους k x, k y. Μπορούμε να θεωρήσουμε κάθε όρο ως μία διάσταση. Άρα: έγγραφα και επερωτήσεις απεικονίζονται στο 2D-χώρο. Ένα έγγραφο d j τοποθετείται βάσει των βαρών w x,j και w y,j. Έστω ότι τα βάρη αυτά είναι κανονικοποιημένα στο [0,1], π.χ.: w x,j = tf x,j idf x w y,j = tf y,j idf y Για συντομία έστω x = w x,j και y = w y,j Άρα: οι συντεταγμένες του d j είναι οι (x, y). 11

Παράδειγμα υπολογισμού TF-IDF Έστω ένα έγγραφο που περιέχει όρους με τις εξής συχνότητες: Α(3), Β(2), C(1), π.χ.: d = A B A B C A Υποθέστε ότι η συλλογή περιέχει 10.000 έγγραφα και οι συχνότητες κειμένου (document frequencies) αυτών των όρων είναι: Α(50), Β(1300), C(250) Τότε: Α: tf=3/3; idf = log(10000/50)= 5.3; tf-idf=5.3 B: tf=2/3; idf = log(10000/1300)= 2; tf-idf=1.3 C: tf=1/3; idf = log(10000/250)= 3.7; tf-idf=1.2 12

EBM - Η γενική ιδέα (α) Έστω: q OR = k x v k y Το σημείο (0,0) είναι η θέση προς αποφυγή. Άρα: μπορούμε να θεωρήσουμε την απόσταση του d j από αυτό το σημείο ως το βαθμό ομοιότητας. 13

EBM - Η γενική ιδέα (α) Έστω: q OR = k x v k y Τότε: 14

EBM - Η γενική ιδέα (β) Έστω: q AND = k x Λ k y Το σημείο (1,1) είναι η πιο επιθυμητή θέση. Άρα μπορούμε να θεωρήσουμε το συμπλήρωμα της απόστασης του d j από αυτό το σημείο ως βαθμό ομοιότητας. 15

EBM - Η γενική ιδέα (β) Έστω: q AND = k x Λ k y Τότε: 16

Γενικεύοντας την ιδέα (για >2 όρους) Μπορούμε να γενικεύσουμε το προηγούμενο μοντέλο χρησιμοποιώντας την Ευκλείδεια απόσταση στον t-διάστατο χώρο. Αυτό μπορεί να γίνει χρησιμοποιώντας p-norms που γενικεύουν την έννοια της απόστασης, όπου 1 p. Διαζευκτικές επερωτήσεις q OR = k 1 V k 2 V.. V k m Συζευκτικές επερωτήσεις q AND = k 1 Λ k 2 Λ... Λ k m 17

Μερικές ενδιαφέρουσες ιδιότητες Μεταβάλλοντας το p, μπορούμε να κάνουμε το μοντέλο να συμπεριφέρεται όπως το vector ή το fuzzy, ή ενδιάμεσα σε αυτά τα δύο! Αν p = 1, τότε (vector like): Αν p =, τότε (fuzzy like): Αν p = 2??? 18

Σύνθετες επερωτήσεις Έστω q = (k 1 Λ k 2 ) V k 3 Εφαρμόζουμε τους ορισμούς σεβόμενοι τη σειρά, εδώ: 19

Σύνοψη Είναι αρκετά ισχυρό μοντέλο με ενδιαφέρουσες ιδιότητες. Η επιμεριστική ιδιότητα δεν ισχύει: q 1 = (k 1 k 2 ) k 3 q 2 = (k 1 k 3 ) (k 2 k 3 ) sim(q 1,d j ) sim(q 2,d j ) 20

21

Εναλλακτικά Συνολοθεωρητικά Μοντέλα Το μοντέλο Boolean βασίζεται σε ένα δυαδικό κριτήριο για να ορίσει τη σχετικότητα. Είδαμε ότι το βασικό αυτό μοντέλο μπορεί να επεκταθεί για να υποστηρίξει μερικό ταίριασμα και κατάταξη των αποτελεσμάτων. Θα εξετάσουμε μία άλλη παραλλαγή του μοντέλου: Μοντέλο ασαφών συνόλων (fuzzy set model) 22

Μοντέλο Ασαφών Συνόλων Οι ερωτήσεις και τα κείμενα αναπαριστάνονται ως σύνολα των όρων δεικτοδότησης: το ταίριασμα με τη σημασιολογία των κειμένων είναι μόνο προσεγγιστικό. Αυτή η ασάφεια μπορεί να μοντελοποιηθεί χρησιμοποιώντας ασαφή σύνολα (fuzzy sets) Ένα ασαφές σύνολο συνδέεται με κάθε όρο. Κάθε κείμενο έχει ένα βαθμό μέλους στο κάθε ασαφές σύνολο. Ogawa, Morita, and Kobayashi (1991) 23

Θεωρία Ασαφών Συνόλων Ένα πλαίσιο για την αναπαράσταση κλάσεων των οποίων τα όρια δεν είναι καλά ορισμένα. Η κεντρική ιδέα βασίζεται στην έννοια του βαθμού συμμετοχής (degree of membership) που σχετίζεται με τα στοιχεία ενός συνόλου. Ο βαθμός συμμετοχής κυμαίνεται από 0 έως 1 και επιτρέπει την μοντελοποίηση της έννοιας της μερικής συμμετοχής. Συνεπώς, η συμμετοχή είναι πια μία έννοια με διάφορες διαβαθμίσεις, σε αντίθεση με τον διακριτό χαρακτήρα της έννοιας που επιβάλλεται από τη κλασσική Boolean λογική. 24

Βασική ιδέα Έγγραφα και επερωτήσεις παριστάνονται με σύνολα όρων ευρετηρίου (εδώ δεν έχουμε βάρη στο [0,1]). Κάθε όρος συσχετίζεται με ένα fuzzy set. Κάθε έγγραφο έχει ένα degree of membership σε αυτό το fuzzy set. 25

Θεωρία Ασαφών Συνόλων Ορισμός Ένα ασαφές υποσύνολο A του U χαρακτηρίζεται από μία συνάρτηση συμμετοχής: μ(a,u) : U [0,1] η οποία συνδέει με κάθε στοιχείο u του U ένα αριθμό μ(u) στο διάστημα [0,1]. Ιδιότητες Τα A και B είναι δύο ασαφή σύνολα U. Το A είναι το συμπλήρωμα του A. Τότε: μ( A,u) = 1 - μ(a,u) μ(a B,u) = max(μ(a,u), μ(b,u)) μ(a B,u) = min(μ(a,u), μ(b,u)) 26

Παράδειγμα Έστω επερώτηση q = αυτοκίνητο. Έστω έγγραφο d 1 που δεν περιέχει τη λέξη «αυτοκίνητο», αλλά περιέχει τη λέξη «όχημα». Αν υπάρχουν πολλά έγγραφα που περιέχουν και τις δυο λέξεις, τότε, υπάρχει ισχυρή συσχέτιση των δυο αυτών λέξεων, και => άρα το d 1 μπορεί να θεωρηθεί συναφές με την επερώτηση q! 27

Μορφή ευρετηρίου 28

Πίνακας Συσχέτισης 29

Ασαφής Ανάκτηση Πληροφορίας Τα ασαφή σύνολα μοντελοποιούνται βασιζόμενα σε ένα θησαυρό που εμπλουτίζει τα query terms. Ο θησαυρός χτίζεται ως εξής: Έστω vec(c) ο πίνακας συσχέτισης όρων. Έστω c(i,l) ο κανονικοποιημένος παράγοντας συσχετίσεως για τα (k i,k l ): n i : αριθμός κειμένων που περιέχουν το k i n l : αριθμός κειμένων που περιέχουν το k l n(i,l): αριθμός κειμένων που περιέχουν το k i και το k l Οπότε τώρα έχουμε την έννοια της γειτονικότητας ανάμεσα σε όρους δεικτοδότησης. 30

Ασαφής Ανάκτηση Πληροφορίας Ο παράγοντας συσχετίσεως c(i,l) χρησιμοποιείται για να ορίσει το βαθμό συμμετοχής ασαφούς συνόλου για ένα κείμενο d j ως εξής: όπου: μ(i,j) η συμμετοχή ενός κειμένου d j στο ασαφές υποσύνολο που συνδέεται με τον όρο k i. Η έκφραση αυτή υπολογίζει ένα αλγεβρικό άθροισμα για όλους τους όρους του κειμένου d j. Ένα κείμενο d j ανήκει στο ασαφές σύνολο του k i, εάν οι όροι του σχετίζονται με το k i. 31

Ασαφής Ανάκτηση Πληροφορίας Π.χ.: έστω ότι το έγγραφο d j δεν περιέχει τον όρο k i. Εάν το κείμενο d j περιέχει τον όρο k l που σχετίζεται στενά με το k i, τότε έχουμε: c(i,l) ~ 1 και άρα θα μπορούσαμε να θεωρήσουμε ότι: μ(i,j) ~ 1 Με άλλα λόγια, αν και ο όρος k i δεν εμφανίζεται στο d j, εντούτοις περιγράφει το περιεχόμενο του d j!! 32

Σύνοψη + Λαμβάνονται υπόψη οι συσχετίσεις μεταξύ των όρων του ευρετηρίου. + Μπορεί να επιτευχθεί ικανοποιητικός βαθμός συνάφειας μεταξύ ερωτημάτων q και εγγράφων d. - Τα μοντέλα ασαφούς IR βρίσκουν εφαρμογή μόνο στον ερευνητικό χώρο της ασαφούς θεωρίας. - Δεν είναι διαθέσιμα πειράματα σε γνωστές συλλογές κειμένων. - Είναι δύσκολη η σύγκριση αποτελεσμάτων με εναλλακτικές προσεγγίσεις. 33

Ερωτήσεις - Απορίες 34