Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Σχετικά έγγραφα
Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Ανάκτηση Πληροφορίας

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Ανάκτηση Πληροφορίας

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Θέμα : Retrieval Models. Ημερομηνία : 9 Μαρτίου 2006

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας

Τι (άλλο) θα δούμε σήμερα;

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Εξαγωγή ζευγών ερώτησης απάντησης από forum και αυτόματη απάντηση νέων ερωτήσεων

Information Retrieval

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Πιθανοκρατικό μοντέλο

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Part A. CS-463 Information Retrieval Systems. Yannis Tzitzikas. University of Crete. CS-463,Spring 05 PART (A) PART (C):

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ & ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ

1. Financial New Times Year MAXk {FREQij} D D D D

Ανάκτηση πληροφορίας

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Ανάκτηση πληροφορίας

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ανάκτηση Πληροφορίας

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΜΕ ΘΕΜΑ: «ΕΦΑΡΜΟΓΗ ΣΤΑΤΙΣΤΙΚΩΝ ΜΕΘΟ ΩΝ ΓΙΑ ΤΗΝ ΑΝΑΛΥΣΗ ΒΙΟΛΟΓΙΚΩΝ ΚΕΙΜΕΝΩΝ»

Τ Ε Ι Ιονίων Νήσων Τμήμα Εφαρμογών Πληροφορικής στη Διοίκηση και την Οικονομία. Υπεύθυνος: Δρ. Κολιός Σταύρος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ. Πιθανότητες. Συναρτήσεις πολλών μεταβλητών Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας

Kεφάλαιο 4. Συστήματα διαφορικών εξισώσεων. F : : F = F r, όπου r xy

HMY 795: Αναγνώριση Προτύπων


ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Ανάκτηση Πληροφορίας

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

n, C n, διανύσματα στο χώρο Εισαγωγή

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Ανάκτηση πολυμεσικού περιεχομένου

n = dim N (A) + dim R(A). dim V = dim ker L + dim im L.

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ. ΕΝΟΤΗΤΑ: Διανύσματα στους Rn, Cn, διανύσματα στο χώρο (1) ΔΙΔΑΣΚΩΝ: Βλάμος Παναγιώτης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ανάκτηση Δεδομένων (Information Retrieval)

ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Όρια Αλγόριθμων Ταξινόμησης. Εισαγωγή στην Ανάλυση Αλγορίθμων Μάγια Σατρατζέμη

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 10 ο : Αποσαφήνιση εννοιών λέξεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εργαστήριο Ασφάλειας Πληροφοριακών και Επικοινωνιακών Συστημάτων Πανεπιστήμιο Αιγαίου. Μέτρα ανωνυμίας και τεχνικές διασφάλισης της Ιδιωτικότητας

Μηχανική Μάθηση: γιατί;

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Αιτιολόγηση με αβεβαιότητα

AΕΙ ΠΕΙΡΑΙΑ T.T. ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Βασικά στοιχεία της θεωρίας πιθανοτήτων

Θέματα Συστημάτων Πολυμέσων

Υπολογιστικά & Διακριτά Μαθηματικά

Εθνικό Μετσόβιο Πολυτεχνείο. Εξαγωγή σχέσεων μεταξύ οντοτήτων από το αρχείο της εφημερίδας «ΤΑ ΝΕΑ» με χρήση τεχνικών μη-επιβλεπόμενης μάθησης

Κβαντικη Θεωρια και Υπολογιστες

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Θα μιλήσουμε για ΜΟΝΤΕΛΑ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ. Διαφάνειες του καθ. Γιάννη Τζίτζικα (Παν. Κρήτης)

Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων

Εργασία Μαθήματος Αξία: 40% του τελικού σας βαθμού Ανάθεση: Παράδοση:

Βασικά στοιχεία της θεωρίας πιθανοτήτων

Βασικές έννοιες. Χρησιμότητα Πιθανότητα Προσδοκώμενο κέρδος Δένδρα αποφάσεων Ανάλυση ευαισθησίας Πιθανότητα υπό όρους Μεταβλητές κατάστασης

Βάση και Διάσταση Διανυσματικού Χώρου

Αναγνώριση Προτύπων. Baysian Θεωρία Αποφάσεων ΕΠΙΣΚΟΠΗΣΗ-ΑΣΚΗΣΕΙΣ

Εξαγωγή ζευγών ερώτησης απάντησης από forum και αυτόματη απάντηση νέων ερωτήσεων

Ασκήσεις μελέτης της 16 ης διάλεξης

[1] είναι ταυτοτικά ίση με το μηδέν. Στην περίπτωση που το στήριγμα μιας συνάρτησης ελέγχου φ ( x)

Επεξεργασία & Οργάνωση Δεδομένων Κειμένου

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

EFFICIENT TOP-K QUERYING OVER SOCIAL-TAGGING NETWORKS

Μιγαδικός λογισμός και ολοκληρωτικοί Μετασχηματισμοί

Opinion Mining and Sentiment analysis

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

HMY 795: Αναγνώριση Προτύπων

ENOTHTA 1.1 ΕΥΘΥΓΡΑΜΜΗ ΚΙΝΗΣΗ

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Αναγνώριση Προτύπων Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Οι μελέτες φυσικών φαινομένων ή πραγματικών προβλημάτων καταλήγουν είτε σεπροσδιοριστικά

ιασπορά πληροφορίας βασισµένη σε σηµασιολογικές συσχετίσεις

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

0 The quick brown fox leaped over the lazy lazy dog 1 Quick brown foxes leaped over lazy dogs for fun

Web Mining. Χριστίνα Αραβαντινού Ιούνιος 2014

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Κεφάλαιο 7 Ορθογώνιοι Πίνακες

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Πιθανότητες Γεώργιος Γαλάνης Κωνσταντίνα Παναγιωτίδου

Transcript:

Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου στο πολυδιάστατο διανυσματικό χώρο. Θεωρούμε ως δεδομένο/ παρατήρηση το επεξεργαζόμενο έγγραφο Oι διαστάσεις που περιγράφουν τα δεδομένα είναι οι διακριτοί όροι του κειμένου. Γενίκευση για συλλογές: Θεωρούμε ως δεδομένα/παρατηρήσεις το σύνολο των εγγράφων της συλλογής. Οι διαστάσεις που περιγράφουν τα δεδομένα είναι οι διακριτοί όροι της συλλογής. Παράδειγμα: This is the database lab of the IS master course Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 2

Boolean Vector Space Model Boolean μοντέλο Το παλιότερο και απλούστερο μοντέλο απεικόνισης εγγράφων. Κάθε διάνυσμα λαμβάνει στις συντεταγμένες του τις τιμές 0/1 Αν η λέξη- συντεταγμένη περιέχεται στο κείμενο τότε το διάνυσμα λαμβάνει στη διάσταση αυτή τιμή 1, αλλιώς 0 Παράδειγμα Text 1: This is the database lab of the IS master course Text 2: This is a database course Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 3

Vector Space Model Vector Space Model: Αποτελεί επέκταση του Boolean μοντέλου. Οι τιμές στις συντεταγμένες δεν είναι 0/1 αλλά πραγματικοί αριθμοί. Το VMS κωδικοποιεί την σημαντικότητα κάθε όρου για το έγγραφο. Οι συντεταγμένες ορίζονται με χρήση διάφορων μοντέλων που λαμβάνουν υπόψη τη συχνότητα εμφάνισης του όρου στο έγγραφο καθώς και την συλλογή συνολικά. Συνηθέστερη προσέγγιση αυτή του TFIDF Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 4

Probabilistic Model Probabilistic Retrieval Model: Κάθε έγγραφο (d) αναπαρίσταται σαν ένα διάνυσμα δυαδικών τιμών, τα διανύσματα συνοδεύονται, δοθέντος ενός ερωτήματος q (query) από την πιθανότητα P(R d,q), που περιγράφει την πιθανότητα το έγγραφο d να είναι σχετικό με το query q. Οι πιθανότητες υπολογίζονται με βάση το θεώρημα Bayes και ενός συνόλου υποθέσεων για την κατανομή των όρων στα έγγραφα. Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 5

Διαδικασία απεικόνισης Διαδικασία εξαγωγής όρων από ένα έγγραφο: Ανάγνωση Αφαίρεση κοινών όρων Stopword removal: Εξάλειψη λέξεων όπως the, a, is Stemming. Διατηρείται μόνο η ρίζα της λέξης Documenting document Documents document Documentary document Το σύνολο των διακριτών όρων που διατηρήθηκαν από τη διαδικασία ορίζουν το λεξικό κειμένου Για κάθε έγγραφο της συλλογής ορίζεται το VSM μοντέλο του με χρήση συγκεκριμένων τεχνικών Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 6

Term Frequency Inverted Term Frequency (1) Term Frequency TF(d, t) Αριθμός εμφάνισης του όρου t στο κείμενο d συμβολίζεται n(d, t). Κανονικοποίηση του αριθμού ως προς τον αριθμό λέξεων του εγγράφου Inverse Document Frequency IDF(t) Εφαρμόζεται σε συλλογές εγγράφων Μαθηματικοποίηση της ανθρώπινης διαίσθησης ότι ένας όρος που εμφανίζεται συχνά σε μία συλλογή δεν αποτελεί χαρακτηριστικό γνώρισμα για ένα έγγραφο Εκφράζεται ως συνάρτηση πλήθους όλων των εγγράφων και αυτών που περιέχουν τον t TFIDF(d, t) = TF(d, t) IDF(t) TFIDF αποτελεί συνδυασμό των δύο παραπάνω μετρικών Υψηλό TFIDF ενός όρου σε ένα έγγραφο ο όρος χαρακτηρίζει το έγγραφο Μεγάλη συχνότητα εμφάνισης στο θεωρούμενο κείμενο και μικρή συχνότητα εμφάνισης στη συλλογή Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 7

Term Frequency Inverted Term Frequency (2) Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 8

Παράδειγμα TFIDF (1) log ((1 + 3)/2) Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 9

Παράδειγμα TFIDF (2) Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 10

Information Gain (IG) Μέτρο για τον ορισμό των συντεταγμένων του VSM (κατηγορίες όροι) Υπολογίζει την αναμενόμενη μείωση της εντροπία (αύξηση πληροφοριακού περιεχομένου του συστήματος) από την κατηγοριοποίηση ενός εγγράφου σε μία κατηγορία c με βάση έναν όρο t. Σημειώσεις Δεσμευμένη πιθανότητα P(E/F): Πιθανότητα ένα γεγονός Ε να συμβεί με δεδομένο ότι έχει συμβεί ένα γεγονός F Η εντροπία στη θεωρία πληροφορίας είναι ένα «μέτρο βεβαιότητας» που διακατέχει ένα σύστημα Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 11

Ομοιότητα κειμένων Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 12

Επερωτήσεις Αποθήκες και Εξόρυξη Δεδομένων, Παν. Πειραιώς 13