Ανάκτηση πληροφορίας

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

ΣΥΣΤΗΜΑΤΑ ΗΛΕΚΤΡΙΚΗΣ ΕΝΕΡΓΕΙΑΣ ΙIΙ

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στους Αλγορίθμους

Λογιστική Κόστους Ενότητα 12: Λογισμός Κόστους (2)

ΗΛΕΚΤΡΟΝΙΚΗ ΙIΙ Ενότητα 6

Δομές Δεδομένων Ενότητα 1

Διοικητική Λογιστική

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού σε κατάσταση Κορεσμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στους Αλγορίθμους

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Μηχανολογικό Σχέδιο Ι

Λογιστική Κόστους Ενότητα 8: Κοστολογική διάρθρωση Κύρια / Βοηθητικά Κέντρα Κόστους.

Εισαγωγή στους Αλγορίθμους Ενότητα 10η Άσκηση Αλγόριθμος Dijkstra

Μάρκετινγκ Αγροτικών Προϊόντων

Εκκλησιαστικό Δίκαιο. Ενότητα 10η: Ιερά Σύνοδος της Ιεραρχίας και Διαρκής Ιερά Σύνοδος Κυριάκος Κυριαζόπουλος Τμήμα Νομικής Α.Π.Θ.

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 3: Έλεγχοι στατιστικών υποθέσεων

Διδακτική της Πληροφορικής

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 1: Καταχώρηση δεδομένων

Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας. Βιοστατιστική (Ε) Ενότητα 2: Περιγραφική στατιστική

Ενότητα. Εισαγωγή στις βάσεις δεδομένων

Ιστορία της μετάφρασης

Τίτλος Μαθήματος: Μαθηματική Ανάλυση Ενότητα Γ. Ολοκληρωτικός Λογισμός

Ανάκτηση Πληροφορίας

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Διοίκηση Εξωτερικής Εμπορικής Δραστηριότητας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

Ατμοσφαιρική Ρύπανση

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Kruskal

Εισαγωγή στους Αλγορίθμους Ενότητα 9η Άσκηση - Αλγόριθμος Prim

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Κβαντική Επεξεργασία Πληροφορίας

Θέματα Εφαρμοσμένης. Ενότητα 14.2: Η ψήφος στα πρόσωπα. Θεόδωρος Χατζηπαντελής Τμήμα Πολιτικών Επιστημών ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους (1)

Βέλτιστος Έλεγχος Συστημάτων

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Γενικά Μαθηματικά Ι. Ενότητα 12: Κριτήρια Σύγκλισης Σειρών. Λουκάς Βλάχος Τμήμα Φυσικής ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Εκκλησιαστικό Δίκαιο

Διοικητική Λογιστική

Λογιστική Κόστους Ενότητα 10: Ασκήσεις Προτύπου Κόστους Αποκλίσεων.

Μάρκετινγκ Αγροτικών Προϊόντων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Θερμοδυναμική. Ανοικτά Ακαδημαϊκά Μαθήματα. Πίνακες Νερού Υπέρθερμου Ατμού. Γεώργιος Κ. Χατζηκωνσταντής Επίκουρος Καθηγητής

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών Ενότητα 2: ΣΥΓΚΕΝΤΡΩΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΜΑΡΚΕΤΙΝΓΚ Λοίζου Ευστράτιος Τμήμα Τεχνολόγων Γεωπόνων-Kατεύθυνση

Λογιστική Κόστους Ενότητα 11: Λογισμός Κόστους

Κβαντική Επεξεργασία Πληροφορίας

Ψηφιακή Επεξεργασία Εικόνων

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Γενικά Μαθηματικά Ι. Ενότητα 15: Ολοκληρώματα Με Ρητές Και Τριγωνομετρικές Συναρτήσεις Λουκάς Βλάχος Τμήμα Φυσικής

Βάσεις Περιβαλλοντικών Δεδομένων

Στατιστική. 6 ο Μάθημα: Διαστήματα Εμπιστοσύνης και Έλεγχοι Υποθέσεων. Γεώργιος Μενεξές Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Μάρκετινγκ Αγροτικών Προϊόντων

Μυελού των Οστών Ενότητα #1: Ερωτήσεις κατανόησης και αυτόαξιολόγησης

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 6

ΗΛΕΚΤΡΟΝΙΚΗ IΙ Ενότητα 3

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Θεσμοί Ευρωπαϊκών Λαών Ι 19 ος -20 ος αιώνας

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 1

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Παράκτια Τεχνικά Έργα

Εκκλησιαστικό Δίκαιο

Η ΓΝΩΣΗ ΚΑΙ ΤΟ ΠΡΑΓΜΑΤΙΚΟ ΣΤΟΝ ΠΛΑΤΩΝΑ ΚΑΙ ΤΟΝ ΑΡΙΣΤΟΤΕΛΗ

Εφαρμογές πληροφορικής σε θέματα πολιτικού μηχανικού

Βάσεις Δεδομένων. Ενότητα 1: Εισαγωγή στις Βάσεις δεδομένων. Πασχαλίδης Δημοσθένης Τμήμα Ιερατικών σπουδών

Μαθηματικά Διοικητικών & Οικονομικών Επιστημών

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου

Εφηρμοσμένη Θερμοδυναμική

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

ΣΥΜΠΕΡΙΦΟΡΑ ΚΑΤΑΝΑΛΩΤΗ

Διοίκηση Επιχειρήσεων

Τεχνικό Σχέδιο - CAD

1 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Γραμμική Άλγεβρα και Μαθηματικός Λογισμός για Οικονομικά και Επιχειρησιακά Προβλήματα

Μηχανολογικό Σχέδιο Ι

Οικονομική Γεωργικών Εκμεταλλεύσεων

Ιδιότητες και Τεχνικές Σύνταξης Επιστημονικού Κειμένου

Τεχνικό Σχέδιο - CAD

Ανάκτηση πληροφορίας

Εισαγωγή στους Η/Υ. Ενότητα 2β: Αντίστροφο Πρόβλημα. Δημήτρης Σαραβάνος, Καθηγητής Πολυτεχνική Σχολή Τμήμα Μηχανολόγων & Αεροναυπηγών Μηχανικών

Στατιστική. 5 ο Μάθημα: Βασικές Έννοιες Εκτιμητικής. Γεώργιος Μενεξές Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Μηχανολογικό Σχέδιο Ι

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Εισαγωγή στους Αλγορίθμους Φροντιστήριο 4

Δομές Δεδομένων Ενότητα 3

Εισαγωγή στην Διοίκηση Επιχειρήσεων

Διεθνείς Οικονομικές Σχέσεις και Ανάπτυξη

Μηχανολογικό Σχέδιο Ι

Διδακτική Πληροφορικής

Ενδεικτικές λύσεις ασκήσεων διαχείρισης έργου υπό συνθήκες αβεβαιότητας

Διδακτική των εικαστικών τεχνών Ενότητα 1

Αγροτικός Τουρισμός. Ενότητα 9 η : Εκπαιδευτικές τεχνικές στον τουρισμό. Όλγα Ιακωβίδου Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Έλεγχος και Διασφάλιση Ποιότητας Ενότητα 4: Μελέτη ISO Κουππάρης Μιχαήλ Τμήμα Χημείας Εργαστήριο Αναλυτικής Χημείας

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 3: Μοντελοποίηση: Boolean μοντέλο Απόστολος Παπαδόπουλος

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Το Boolean μοντέλο

Περιεχόμενα ενότητας 1. Το Boolean μοντέλο 5

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Το Boolean μοντέλο

Μοντέλα IR Κλασικά Μοντέλα - Boolean - Vector - Probabilistic Συνολοθεωρητικά - Fuzzy - Extended Boolean Αλγεβρικά - Generalized Vector - Latent Semantic - Neural Networks Πιθανοτικά - Inference Network - Belief Network 7

Χαρακτηριστικά Μοντέλων IR Ένα μοντέλο IR χαρακτηρίζεται από: D, σύνολο λογικών όψεων κειμένων. Q, σύνολο λογικών όψεων ερωτημάτων. F, πλαίσιο μοντελοποίησης κειμένων, ερωτημάτων και συσχετισμών τους. R(q,d), συνάρτηση βαθμολόγησης. 8

Λέξεις Κλειδιά (Keywords) Χρησιμοποιούνται σαν αντιπρόσωποι όλου του κειμένου και βοηθούν στη σύντομη περιγραφή του κειμένου (περίληψη). Απαιτείται προσοχή στην επιλογή τους, έτσι ώστε τα κείμενα να διαχωρίζονται κατάλληλα. Το πλήθος των όρων είναι συνήθως μεγάλο και προηγείται απαλοιφή τετριμμένων λέξεων (π.χ., άρθρα, σύνδεσμοι κλπ). 9

Παράδειγμα Κείμενο 1 Κείμενο 2 Κείμενο 3 η γεωργική επανάσταση η βιομηχανική επανάσταση η επανάσταση υψηλής τεχνολογίας Η επιλογή της λέξης επανάσταση σαν λέξη κλειδί για τα τρία κείμενα δημιουργεί πρόβλημα. Γιατί; 10

Παρατήρηση Όλες οι λέξεις κλειδιά (αλλιώς όροι) δεν έχουν την ίδια βαρύτητα για τις προτιμήσεις των χρηστών. Κάποιες λέξεις μπορεί να είναι σημαντικές ενώ κάποιες άλλες λιγότερο σημαντικές. Έστω ti ένας όρος και dj ένα έγγραφο. Το βάρος του όρου ti στο έγγραφο dj συμβολίζεται ως w(ti,dj) >= 0 (ή απλούστερα wij) και δηλώνει το πόσο σημαντικός είναι ο όρος ti σε σχέση με το έγγραφο dj. 11

Ορισμός Έστω m αριθμός των όρων και Τ={t1,,tm} το σύνολο των μοναδικών όρων. Εάν ο όρος ti δεν εμφανίζεται στο έγγραφο dj τότε w(ti,dj)=0. Διαφορετικά, w(ki,dj) > 0. Άρα σε κάθε κείμενο dj αντιστοιχεί ένα m-διάστατο διάνυσμα βαρών (w1,j, w2,j,, wm,j) 12

Κλασικά Μοντέλα IR-1 Κάθε κείμενο αντιπροσωπεύεται από ένα σύνολο χαρακτηριστικών λέξεων (keywords). Ένα keyword είναι χρήσιμο για να θυμόμαστε το βασικό θέμα του κειμένου. Συνήθως τα keywords είναι ουσιαστικά, τα οποία από μόνα τους έχουν νόημα. Ωστόσο, οι μηχανές αναζήτησης θεωρούν ότι όλες οι λέξεις του κειμένου είναι keywords (full text representation). 13

Κλασικά Μοντέλα IR-2 ti ένας όρος (index term, keyword) dj ένα έγγραφο m συνολικός αριθμός όρων T = {t1, t2,, tm} σύνολο keywords wij >= 0 βάρος μεταξύ ti, dj wij = 0 το ti δε βρίσκεται στο έγγραφο dj vec(dj) = (w1j, w2j,, wtj) διάνυσμα που σχετίζεται με το έγγραφο dj gi(vec(dj)) = wij συνάρτηση που επιστρέφει το βάρος που σχετίζεται με τα ti και dj 14

Boolean Μοντέλο-1 Απλό, βασίζεται στη Θεωρία Συνόλων. Διατύπωση ερωτημάτων ως λογικές εκφράσεις ακριβής σημαντική (exact semantics) απλός φορμαλισμός. Ένας όρος είναι είτε παρόν είτε απών από το έγγραφο, επομένως wij Є {0,1} Για παράδειγμα q = (t1 t2) t3 qdnf = (1,1,1) (0,1,1) (1,0,1) (disjunctive normal form) conjunctive components (qcc) 15

Boolean Μοντέλο-2 t1 t2 t3 Διάνυσμα Έκφραση απάντηση 0 0 0 (0, 0, 0) t1 t2 t3 0 0 0 1 (0, 0, 1) t1 t2 t3 0 0 1 0 (0, 1, 0) t1 t2 t3 0 0 1 1 (0, 1, 1) t1 t2 t3 1 1 0 0 (1, 0, 0) t1 t2 t3 0 1 0 1 (1, 0, 1) t1 t2 t3 1 1 1 0 (1, 1, 0) t1 t2 t3 0 1 1 1 (1, 1, 1) t1 t2 t3 1 16

Boolean Μοντέλο-3 Ομοιότητα στο Boolean μοντέλο Sim(q,dj) = 1, αν vec(qcc) Є vec(qdnf) ti, gi(vec(dj)) = gi(vec(qcc) 0, διαφορετικά 17

Boolean Μοντέλο-4 q = (t1 t2) t3 t1 t2 (1, 1, 0) (1, 0, 0) (0, 1, 0) (1, 1, 1) (1, 0, 1) (0, 1, 1) (0, 0, 1) (0, 0, 0) t3 18

Μειονεκτήματα Boolean Μοντέλου Δεν υπάρχει υποστήριξη για μερική ταύτιση (partial matching). Δεν υπάρχει βαθμολόγηση των αποτελεσμάτων. Η ερώτηση πρέπει να διατυπωθεί με λογική έκφραση, το οποίο δεν είναι πάντα εύκολο για όλες τις κατηγορίες χρηστών. Τα ερωτήματα που διατυπώνονται είναι τις περισσότερες φορές πολύ απλοϊκά. Το Boolean μοντέλο άλλοτε επιστρέφει πάρα πολλά έγγραφα (απλές λογικές εκφράσεις) και άλλοτε πάρα πολύ λίγα (πολύπλοκες λογικές εκφράσεις). 19

Σημείωμα Αναφοράς Copyright, Απόστολος Παπαδόπουλος. «Ανάκτηση πληροφορίας. Το Boolean μοντέλο». Έκδοση: 1.0. Θεσσαλονίκη 2014. Διαθέσιμο από τη δικτυακή διεύθυνση: http://eclass.auth.gr/courses/ocrs388/

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά - Μη Εμπορική Χρήση - Όχι Παράγωγα Έργα 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί. Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο [1] http://creativecommons.org/licenses/by-nc-nd/4.0/

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Τέλος ενότητας Επεξεργασία: <Μαυρίδης Απόστολος> Θεσσαλονίκη, <Εαρινό εξάμηνο 2013-2014>

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Σημειώματα

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.