Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη
Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου στο πολυδιάστατο διανυσματικό χώρο. Θεωρούμε ως δεδομένο/ παρατήρηση το επεξεργαζόμενο έγγραφο Oι διαστάσεις που περιγράφουν τα δεδομένα είναι οι διακριτοί όροι του κειμένου. Γενίκευση για συλλογές: Θεωρούμε ως δεδομένα/παρατηρήσεις το σύνολο των εγγράφων της συλλογής. Οι διαστάσεις που περιγράφουν τα δεδομένα είναι οι διακριτοί όροι της συλλογής. Παράδειγμα: This is the database lab of the IS master course Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 2
Boolean Vector Space Model Boolean μοντέλο Το παλιότερο και απλούστερο μοντέλο απεικόνισης εγγράφων. Κάθε διάνυσμα λαμβάνει στις συντεταγμένες του τις τιμές 0/1 Αν η λέξη- συντεταγμένη περιέχεται στο κείμενο τότε το διάνυσμα λαμβάνει στη διάσταση αυτή τιμή 1, αλλιώς 0 Παράδειγμα Text 1: This is the database lab of the IS master course Text 2: This is a database course Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 3
Vector Space Model Vector Space Model: Αποτελεί επέκταση του Boolean μοντέλου. Οι τιμές στις συντεταγμένες δεν είναι 0/1 αλλά πραγματικοί αριθμοί. Το VMS κωδικοποιεί την σημαντικότητα κάθε όρου για το έγγραφο. Οι συντεταγμένες ορίζονται με χρήση διάφορων μοντέλων που λαμβάνουν υπόψη τη συχνότητα εμφάνισης του όρου στο έγγραφο καθώς και την συλλογή συνολικά. Συνηθέστερη προσέγγιση αυτή του TFIDF Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 4
Probabilistic Model Probabilistic Retrieval Model: Κάθε έγγραφο (d) αναπαρίσταται σαν ένα διάνυσμα δυαδικών τιμών, τα διανύσματα συνοδεύονται, δοθέντος ενός ερωτήματος q (query) από την πιθανότητα P(R d,q), που περιγράφει την πιθανότητα το έγγραφο d να είναι σχετικό με το query q. Οι πιθανότητες υπολογίζονται με βάση το θεώρημα Bayes και ενός συνόλου υποθέσεων για την κατανομή των όρων στα έγγραφα. Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 5
Διαδικασία απεικόνισης Διαδικασία εξαγωγής όρων από ένα έγγραφο: Ανάγνωση Αφαίρεση κοινών όρων Stopword removal: Εξάλειψη λέξεων όπως the, a, is Stemming. Διατηρείται μόνο η ρίζα της λέξης Documenting document Documents document Documentary document Το σύνολο των διακριτών όρων που διατηρήθηκαν από τη διαδικασία ορίζουν το λεξικό κειμένου Για κάθε έγγραφο της συλλογής ορίζεται το VSM μοντέλο του με χρήση συγκεκριμένων τεχνικών Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 6
Term Frequency Inverted Term Frequency (1) Term Frequency TF(d, t) Αριθμός εμφάνισης του όρου t στο κείμενο d συμβολίζεται n(d, t). Κανονικοποίηση του αριθμού ως προς τον αριθμό λέξεων του εγγράφου Inverse Document Frequency IDF(t) Εφαρμόζεται σε συλλογές εγγράφων Μαθηματικοποίηση της ανθρώπινης διαίσθησης ότι ένας όρος που εμφανίζεται συχνά σε μία συλλογή δεν αποτελεί χαρακτηριστικό γνώρισμα για ένα έγγραφο Εκφράζεται ως συνάρτηση πλήθους όλων των εγγράφων και αυτών που περιέχουν τον t TFIDF(d, t) = TF(d, t) IDF(t) TFIDF αποτελεί συνδυασμό των δύο παραπάνω μετρικών Υψηλό TFIDF ενός όρου σε ένα έγγραφο ο όρος χαρακτηρίζει το έγγραφο Μεγάλη συχνότητα εμφάνισης στο θεωρούμενο κείμενο και μικρή συχνότητα εμφάνισης στη συλλογή Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 7
Term Frequency Inverted Term Frequency (2) Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 8
Παράδειγμα TFIDF (1) log ((1 + 3)/2) Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 9
Παράδειγμα TFIDF (2) Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 10
Information Gain (IG) Μέτρο για τον ορισμό των συντεταγμένων του VSM (κατηγορίες όροι) Υπολογίζει την αναμενόμενη μείωση της εντροπία (αύξηση πληροφοριακού περιεχομένου του συστήματος) από την κατηγοριοποίηση ενός εγγράφου σε μία κατηγορία c με βάση έναν όρο t. Σημειώσεις Δεσμευμένη πιθανότητα P(E/F): Πιθανότητα ένα γεγονός Ε να συμβεί με δεδομένο ότι έχει συμβεί ένα γεγονός F Η εντροπία στη θεωρία πληροφορίας είναι ένα «μέτρο βεβαιότητας» που διακατέχει ένα σύστημα Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 11
Ομοιότητα κειμένων Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 12
Επερωτήσεις Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 13