Λειτουργίες επί των Κειµένων. Προεπεξεργασία Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Σχετικά έγγραφα
Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Δομές Δεδομένων & Αλγόριθμοι

Ανάκτηση πληροφορίας

Τα µπιτ και η σηµασία τους. Σχήµα bit. ΚΕΦΑΛΑΙΟ 1: Αποθήκευση εδοµένων (1/2) 1.7 Αποθήκευση κλασµάτων 1.8 Συµπίεση δεδοµένων 1.9 Σφάλµατα επικοινωνίας

Επεξεργασία Πολυµέσων. Δρ. Μαρία Κοζύρη Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων Ενότητα 4

Τεχνικές Συµπίεσης Βίντεο. Δρ. Μαρία Κοζύρη Τµήµα Πληροφορικής Πανεπιστήµιο Θεσσαλίας

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ενότητα 4. Εισαγωγή στην Πληροφορική. Αναπαράσταση δεδοµένων. Αναπαράσταση πληροφορίας. υαδικοί αριθµοί. Χειµερινό Εξάµηνο

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

Συμπίεση Δεδομένων Δοκιμής (Test Data Compression) Νικολός Δημήτριος, Τμήμα Μηχ. Ηλεκτρονικών Υπολογιστών & Πληροφορικής, Παν Πατρών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ανάκτηση Πληροφορίας

Εισαγωγή στα Προσαρµοστικά Συστήµατα

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

Εισαγωγή στην Πληροφορική ΓΕΝΙΚΟ ΤΜΗΜΑ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ TEI ΧΑΛΚΙ ΑΣ

Αριθμητικά Συστήματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

Συμπίεση Δεδομένων

Εισαγωγή στον Προγραμματισμό

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Κεφάλαιο 8 : H γλώσσα προγραµµατισµού Pascal 1 ο Μέρος σηµειώσεων (Ενότητες 8.1 & 8.2 σχολικού βιβλίου)

ΑΡΙΘΜΗΤΙΚΑ ΣΥΣΤΗΜΑΤΑ ΚΑΙ ΚΩ ΙΚΕΣ

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Πληροφορική Ι. Ενότητα 9 : Συμπίεση δεδομένων. Δρ. Γκόγκος Χρήστος

Τηλεπικοινωνιακά Συστήματα ΙΙ

Αρχιτεκτονική υπολογιστών

Συμπίεση Δεδομένων

Πληροφορική 2. Δομές δεδομένων και αρχείων

Εισαγωγή στην επιστήμη των υπολογιστών. Υπολογιστές και Δεδομένα Κεφάλαιο 2ο Αναπαράσταση Δεδομένων

Social Web: lesson #4

Επεξεργασία Χαρτογραφικής Εικόνας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΠΛΗΡΟΦΟΡΙΚΗ Ι JAVA Τμήμα θεωρίας με Α.Μ. σε 8 & 9 11/10/07

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Κατηγορίες τεχνικών συµπίεσης. Τεχνικές Συµπίεσης

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Ανάκτηση πολυμεσικού περιεχομένου

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Τετάρτη 5-12/11/2014. ΣΗΜΕΙΩΣΕΙΣ 3 ου και 4 ου ΜΑΘΗΜΑΤΟΣ ΕΙΔΙΚΟΤΗΤΑ: ΤΕΧΝΙΚΟΣ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ: ΑΡΧΙΤΕΚΤΟΝΙΚΗ Η/Υ Α ΕΞΑΜΗΝΟ

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Αρχιτεκτονική Μηχανής. Αποθήκευση εδοµένων

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Ανάκτηση Πληροφορίας

Τεχνολογία Πολυμέσων. Ενότητα # 3: Συστήματα πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL

1 η Θεµατική Ενότητα : Δυαδικά Συστήµατα

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 12

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

Να αναφέρουµε τους πέντε τύπους δεδοµένων που χρησιµοποιούνται σε έναν υπολογιστή. Να περιγράψουµε τον τρόπο µε τον οποίο αποθηκεύονται οι

Ανάκτηση Δεδομένων (Information Retrieval)

6 η Θεµατική Ενότητα : Σχεδίαση Συστηµάτων σε Επίπεδο Καταχωρητή

Ανάκτηση Πληροφορίας Εισαγωγή

ιαφορική εντροπία Σεραφείµ Καραµπογιάς

Ψηφιακή Μετάδοση Αναλογικών Σηµάτων

Συµπίεση Ψηφιακών Εικόνων: Συµπίεση µε Απώλειες. Πρότυπα Συµπίεσης Εικόνων

επιφάνεια πυριτίου Αναφορά στο Εκπαιδευτικό Υλικό : 5. Αναφορά στο Εργαστήριο :

Δεδομένα & Αναπαράσταση Πληροφορίας

Δοµές Δεδοµένων. 2η Διάλεξη Αλγόριθµοι Ένωσης-Εύρεσης (Union-Find) Ε. Μαρκάκης. Βασίζεται στις διαφάνειες των R. Sedgewick K.

Αριθμητική Κωδικοποίηση

ΥΠΟΛΟΓΙΣΤΕΣ Ι. Τα επιμέρους τμήματα Η ΟΜΗ TOY ΥΠΟΛΟΓΙΣΤΗ. Αναπαράσταση μεγεθών. Αναλογική αναπαράσταση ΚΕΝΤΡΙΚΗ ΜΝΗΜΗ ΜΟΝΑ Α ΕΛΕΓΧΟΥ

Θέματα Συστημάτων Πολυμέσων

Σεραφείµ Καραµπογιάς. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6.3-1

Περιεχόµενα. οµή Η/Υ: Αναπαράσταση εδοµένων. υαδικό σύστηµα. Συστήµατα Αρίθµησης υαδικό Οκταδικό εκαεξαδικό Παραδείγµατα

Επιµέλεια Θοδωρής Πιερράτος

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

Εισαγωγή στην Πληροφορική

Δυαδικη παρασταση αριθμων και συμβολων

Συμπίεση Πολυμεσικών Δεδομένων

Περιεχόµενα. I Βασικές Γνώσεις 1

Λειτουργικά Συστήματα (Λ/Σ)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Κώδικες µεταβλητού µήκους

Kalman Filter Γιατί ο όρος φίλτρο;

Transcript:

Λειτουργίες επί των Κειµένων Προεπεξεργασία Clustering Συµπίεση Προεπεξεργασία Κειµένων Πριν από τη δεικτοδότηση των κειµένων προηγούνται µερικές βασικές διαδικασίες οι οποίες χρησιµοποιούνται για την απλοποίηση των κειµένων. Το σύνολο των διεργασιών αυτών καλείται Προεπεξεργασία Κειµένου. Ανάκτηση Πληροφορίας 2 Προεπεξεργασία Κειµένων document accents spacing etc. stopwords noun groups stemming automatic or manual indexing text + structure structure recognition text structure full text index terms Ανάκτηση Πληροφορίας 3 1

Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 4 Λεκτική Ανάλυση ιαδικασία µετατροπής ενός κειµένου από σειρά χαρακτήρων (character stream) σε σειρά λέξεων (word stream). Η αρχική εντύπωση που δηµιουργείται είναι ότι το µόνο που έχουµε να κάνουµε είναι να αναγνωρίσουµε τους κενούς χαρακτήρες του κειµένου, οι οποίοι διαχωρίζουν τις λέξεις. Όµως υπάρχουν πολύ περισσότερα που πρέπει να προσέξουµε! Ανάκτηση Πληροφορίας 5 Λεκτική Ανάλυση Αριθµητικά ψηφία Συλλαβισµός Σύµβολα Στίξης Μικρά και Κεφαλαία Γράµµατα Ανάκτηση Πληροφορίας 6 2

Αριθµητικά Ψηφία Οι αριθµοί δεν θεωρούνται καλές περιπτώσεις index terms διότι χωρίς τα συµφραζόµενα το νόηµά τους είναι αρκετά ασαφές. Γενικά, τα συστήµατα IR δεν περιλαµβάνουν τους αριθµούς στη λίστα των index terms. Ωστόσο, υπάρχουν περιπτώσεις στις οποίες απαιτείται ιδιαίτερη προσοχή. Για παράδειγµα, κείµεναταοποίαπεριέχουναριθµούς πιστωτικών καρτών. Ανάκτηση Πληροφορίας 7 Συλλαβισµός Συνήθως η απαλοιφή του συµβόλου συλλαβισµού ( - ) δε δηµιουργεί προβλήµατα στην ανάκτηση πληροφορίας (π.χ. State-of-the-art -> state of the art) Ωστόσο απαιτείται προσοχή, διότι υπάρχουν λέξεις στις οποίες το σύµβολο - παίζει σηµαντικό ρόλο (B-52) Ανάκτηση Πληροφορίας 8 Σύµβολα Στίξης Συνήθως τα σύµβολα στίξης αφαιρούνται εντελώς κατάτηφάσητηςλεκτικήςανάλυσηςκειµένων και ερωτήσεων (I.K.A -> IKA, D.N.A. -> DNA) Υπάρχουν ειδικές περιπτώσεις οι οποίες πρέπει να προσεχθούν ιδιαίτερα. Για παράδειγµα, σε ένα σύστηµα IR το οποίο διαχειρίζεται κώδικα γραµµένο σε C/C++, υπάρχει διαφορά ανάµεσα στις εκφράσεις x.id και xid. Ανάκτηση Πληροφορίας 9 3

Μικρά-Κεφαλαία Γράµµατα Κατάτηφάσητηςλεκτικήςανάλυσηςόλατα γράµµατα µετατρέπονται σε µικρά ή σε κεφαλαία. (HORSE, Horse, horse) Ειδικές περιπτώσεις πρέπει να αντιµετωπίζονται ξεχωριστά. Για παράδειγµα, κατά την αναζήτηση κειµένων που σχετίζονται µε το λειτουργικό σύστηµα Unix, ησηµασία των εντολών ls l και ls L είναι διαφορετική. (To Unix διαχωρίζει µικρά και κεφαλαία γράµµατα). Ανάκτηση Πληροφορίας 10 Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 11 Απαλοιφή stopwords Λέξεις οι οποίες εµφανίζονται στην πλειοψηφία των κειµένων δεν είναι καλές για index terms. Αυτέςοιλέξειςκαλούνταιstopwords. Άρθρα, προθέσεις, σύνδεσµοι Ηαπαλοιφήτωνstopwords µειώνει σηµαντικά το µέγεθος ενός κειµένου. Ωστόσο, ηαπαλοιφήτωνstopwords µπορεί να µειώσει το recall. Για παράδειγµα αναζητώντας τη φράση to be or not to be οχρήστηςθααντιµετωπίσει πρόβληµα. Για το λόγο αυτό πολλές µηχανές αναζήτησης στο WEB χρησιµοποιούν όλες τις λέξεις των κειµένων. Ανάκτηση Πληροφορίας 12 4

Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 13 Stemming Η λέξη που αναζητά ο χρήστης µπορεί να υπάρχει µε αυτήντηνµορφή στο κείµενο (π.χ. connect, connecting). Stem: τµήµατηςλέξηςπουαποµένει µετά την αποµάκρυνση prefix και suffix. Μειώνεται ο αριθµός των διακριτών λέξεων του κειµένου. Μερικές µηχανές αναζήτησης στο WEB δεν πραγµατοποιούν stemming. Ανάκτηση Πληροφορίας 14 Stemming Affix removal, table lookup, successor variety, n- grams. Το πιο σηµαντικό µέρος είναι η αποµάκρυνση του suffix, διότι οι διαφορετικές εκδοχές µίας λέξης προσδιορίζονται µε διαφορετικές καταλήξεις. Αλγόριθµος Porter, για την αποµάκρυνση των καταλήξεων από τις λέξεις. Χρησιµοποιούνται µερικοί κανόνες (π.χ. s->null). Ανάκτηση Πληροφορίας 15 5

Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 16 Επιλογή Index Terms Σε full text αναπαράσταση, όλες οι λέξεις ενός κειµένου χρησιµοποιούνται ως index terms. ιαφορετικά, ένα σύνολο από index terms πρέπει να επιλεγεί είτε χειροκίνητα είτε αυτόµατα. Επιλέγονται ουσιαστικά τα οποία οµαδοποιούνται σε οµάδες ουσιαστικών µε κοινό νόηµα (π.χ. computer science, information retrieval, query language) Ανάκτηση Πληροφορίας 17 Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών (θησαυροί) Ανάκτηση Πληροφορίας 18 6

Θησαυροί Λέξεων Στην απλή του µορφή ένας θησαυρός λέξεων αποτελείται από ένα σύνολο σηµαντικών λέξεων, και για κάθε λέξη ένα σύνολο σχετικών λέξεων (π.χ. συνώνυµα). Σύµφωνα µε τονfoskett οιβασικοίστόχοιενός θησαυρού είναι: Να παρέχει ένα σταθερό λεξιλόγιο για αναζήτηση. Να βοηθά τους χρήστες στη µορφοποίηση των ερωτήσεων. Να παρέχει ιεραρχίες ώστε να µπορεί ο χρήστης να διευρύνει ή να περιορίζει τα αποτελέσµατα. Ανάκτηση Πληροφορίας 19 Θησαυροί Λέξεων Κίνητρο: ελεγχόµενο λεξιλόγιο για indexing και searching. Το ελεγχόµενο λεξιλόγιο προσφέρει κανονικοποίηση, µείωση θορύβου, ανάκτηση βασισµένη στο νόηµα (concept) παρά σε λέξεις. Σε συγκεκριµένους τοµείς (π.χ. ιατρική) τα παραπάνω είναι πολύ σηµαντικά. Ωστόσο, υπάρχουν τοµείς στους οποίους η κατασκευή θησαυρού είναι δύσκολη διότι: το γνωστικό αντικείµενο είναι νέο, µεγάλο, αλλάζει δυναµικά (π.χ. WEB). Ανάκτηση Πληροφορίας 20 Clustering Clustering είναι η οµαδοποίηση κειµένων τα οποία είναι όµοια µεταξύ τους. εν αναφέρεται σε ένα µόνο κείµενο αλλά σε µία συλλογή κειµένων. Global clustering: τα κείµενα οµαδοποιούνται ανάλογα µε τηνεµφάνισή τους σε όλη τη συλλογή κειµένων. Local clustering: η οµαδοποίηση πραγµατοποιείται σύµφωνα µε ταχαρακτηριστικάτωνερωτήσεωντου χρήστηκαιτοσύνολοτωνκειµένων της απάντησης. Ανάκτηση Πληροφορίας 21 7

Συµπίεση Κειµένων υνατότητα να αναπαραστήσουµετακείµενα µε µικρότερο αριθµό bytes. Οι µέθοδοι συµπίεσης χρησιµοποιούν τη δοµήπου υπάρχει στο κείµενο για να δηµιουργήσουν µία «µειωµένη» έκδοση του αρχικού κειµένου. Από τη συµπιεσµένη έκδοση του κειµένου το αρχικό κείµενο µπορεί να ανακτηθεί πλήρως. Ανάκτηση Πληροφορίας 22 Συµπίεση Κειµένων Τι κερδίζουµε; Λιγότερος χώρος αποθήκευσης Λιγότερος χρόνος για λειτουργίες εισόδου/εξόδου (Ι/Ο) Λιγότερος χρόνος µετάδοσης δεδοµένων από έναν σταθµό σε άλλον Ανάκτηση Πληροφορίας 23 Συµπίεση Κειµένων Οι µέθοδοι συµπίεσης διακρίνονται σε δύο βασικές κατηγορίες: Στατιστικές µέθοδοι, οι οποίες στηρίζονται σε εκτιµήσεις πιθανότητας σχετικά µε τηνεµφάνιση των συµβόλων στο κείµενο. Μέθοδοι βασισµένες σε λεξικό, οι οποίες αντικαθιστούν την εµφάνιση µίας σειράς συµβόλων µε έναν δείκτη (pointer) στην αµέσως προηγούµενη εµφάνιση της σειράς. Ανάκτηση Πληροφορίας 24 8

Συµπίεση Κειµένων Συµπίεση Statistical Dictionary Modeling Coding Modeling Coding 1. adaptive 2. static 3. semi-static 1. Huffman coding 2. Byte-oriented Huffman coding 1. adaptive 2. static 3. semi-static Inverted File coding Ανάκτηση Πληροφορίας 25 Σύµβολο: ένας χαρακτήρας, µία λέξη, µία σειρά χαρακτήρων. Αλφάβητο: το σύνολο των διαφορετικών συµβόλων. Μοντελοποίηση: η διαδικασίαεκτίµησης της πιθανότητας των συµβόλων Κωδικοποίηση: η διαδικασίατηςµετατροπής των συµβόλων σε δυαδικά ψηφία Ανάκτηση Πληροφορίας 26 ύο βασικές µέθοδοι κωδικοποίησης (coding) που χρησιµοποιούνται στις στατιστικές µεθόδους συµπίεσης: Κωδικοποίηση Huffman (Huffman Coding) Αριθµητική Κωδικοποίηση (Arithmetic Coding) Ανάκτηση Πληροφορίας 27 9

Η αριθµητική κωδικοποίηση επεξεργάζεται ένα σύµβολο τη φορά. εν επιτρέπεται η αποκωδικοποίηση µίας σειράς χαρακτήρων η οποία βρίσκεται στη µέση του κειµένου. Πρέπει κάθε φορά η αποκωδικοποίηση να ξεκινά από την αρχή του κειµένου. Γιατολόγοαυτότασυστήµατα IR δεν χρησιµοποιούν τη µέθοδο της αριθµητικής κωδικοποίησης. Ανάκτηση Πληροφορίας 28 Σχέση µεταξύ πιθανοτήτων και κωδικών (Claudde Shannon): Σε µία βέλτιστη µέθοδο κωδικοποίησης, ένα σύµβολο το οποίο αναµένεται να εµφανιστεί µε πιθανότητα p, πρέπει να του αντιστοιχεί ένας κωδικός µε µέγεθος log 2 (1/ bits p) Ανάκτηση Πληροφορίας 29 Η µέση ποσότητα πληροφορίας κάθε συµβόλου σε όλοτοαλφάβητοκαλείταιεντροπίατης κατανοµής και δίνεται από τον τύπο: E = p i log 2 (1/ p i ) Το Ε αποτελεί κάτω φράγµαωςπροςτοναριθµό των bits που πρέπει να περιέχει ένα κωδικοποιηµένο σύµβολο. Ανάκτηση Πληροφορίας 30 10

Προσαρµοστικά (adaptive) Στατικά (static) Ηµιστατικά (semi-static) Modeling Ανάκτηση Πληροφορίας 31 Modeling Προσαρµοστικά Μοντέλα: εν έχουν καµία πληροφορία για το κείµενο, αλλά την αποκτούν σταδιακά καθώς προχωρά η διαδικασία συµπίεσης. Απαιτούν µόνο ένα πέρασµα στοκείµενο εισόδου. Για αρκετά µεγάλα κείµενα το µοντέλα συγκλίνουν στην πραγµατική κατανοµή του κειµένου. Η διαδικασία της αποσυµπίεσης πρέπει να ξεκινά από την αρχή. Καλή τεχνική για γενικές εφαρµογές αλλά όχι τόσο καλή για IR. Ανάκτηση Πληροφορίας 32 Modeling Στατικά Μοντέλα: Θεωρούν µία µέση κατανοµή όλωντων κειµένων εισόδου. εν έχουν καλό λόγο συµπίεσης όταν το περιεχόµενο του κειµένου ξεφεύγει από τις αρχικές πιθανοτικές εκτιµήσεις (π.χ. οικονοµικά κείµενα τα οποία περιέχουν πολλούς αριθµούς). Ανάκτηση Πληροφορίας 33 11

Modeling Ηµιστατικά Μοντέλα: εν υποθέτουν κατανοµήδεδοµένων, αλλά παίρνουν αυτήν την πληροφορία κατά το πρώτο πέρασµα. Στο δεύτερο πέρασµα γίνεταισυµπίεση µεβάσητα στατιστικά στοιχεία που εξάχθηκαν από το πρώτο πέρασµα. Στη φάση της αποκωδικοποίησης, ηστατιστικήπληροφορία µεταδίδεται στον decoder πριν την αποστολή του συµπιεσµένου κειµένου. Το βασικό τους µειονέκτηµα είναιταδύοπεράσµατα που απαιτούνται. Επιτρέπεται άµεσηπροσπέλασησεοποιοδήποτεσηµείο του κειµένου. Ανάκτηση Πληροφορίας 34 Modeling Μοντέλα βασισµένα σε λέξεις (word-based): Επιτυγχάνεται καλύτερος λόγος συµπίεσης. Τα περισσότερα συστήµατα IR στηρίζονται σε λέξεις. Η συχνότητα εµφάνισης λέξεων είναι χρήσιµη στην απάντηση ερωτήσεων τα οποία χρησιµοποιούν πολλές λέξεις µαζί. Η επεξεργασία συνήθως ξεκινά από τη λέξη µε τη µικρότερη συχνότητα εµφάνισης. Ανάκτηση Πληροφορίας 35 Modeling Μοντέλα βασισµένα σε λέξεις (word-based): Σε µερικές περιπτώσεις παράγονται µεγάλες ποσότητες διαφορετικών κωδικών (π.χ. αριθµοί) Συνήθως οι µέθοδοι που στηρίζονται σε λέξεις είναι αποδοτικές για αρκετά µεγάλα κείµενα. Γιατι; Ανάκτηση Πληροφορίας 36 12

Βασικά Σηµεία: Coding Οκύριοςστόχοςενόςκωδικοποιητήείναιη αντιστοίχιση µικρών κωδικών σε συχνά εµφανιζόµενα σύµβολα και µεγάλων κωδικών σε σπάνια εµφανιζόµενα σύµβολα. Ο χρόνος κωδικοποίησης και αποκωδικοποίησης είναι σηµαντικός. Μερικές φορές προτιµούµε να έχουµε µικρότερο λόγο συµπίεσης προκειµένου να κερδίσουµε σεχρόνο(π.χ. WinZIP). Ανάκτηση Πληροφορίας 37 Coding Έστω τα σύµβολα A,B,C,D µετουςεξήςκωδικούς: Code( A ) = 0 Code( B ) = 000 Code( C ) = 11 Code( D ) = 1 DDDAAA DCB CDAAA DDDB Οκωδικός111000 σε ποια σειρά χαρακτήρων αντιστοιχεί; Ανάκτηση Πληροφορίας 38 Βασική προϋπόθεση: Coding Μετά τη φάση της κωδικοποίησης κανένας κωδικός δεν πρέπει να αποτελεί prefix άλλου κωδικού. Ανάκτηση Πληροφορίας 39 13

Κωδικοποίηση Huffman Έστω το ακόλουθο κείµενο: one two three one two one one one two three four five one: 5/12 two: 3/12 three: 2/12 four: 1/12 five: 1/12 Συχνότητες εµφάνισης λέξεων Ανάκτηση Πληροφορίας 40 Κωδικοποίηση Huffman ένδρο Huffman 0 2/12 0 1 0 4/12 1 7/12 12/12 five 1/12 four 1/12 three 2/12 two 3/12 one 5/12 0 1 1 Ανάκτηση Πληροφορίας 41 Κωδικοποίηση Huffman Μετά την κωδικοποίηση προκύπτουν οι εξής κωδικοί: Τι παρατηρούµε; five: 0000 four: 0001 three: 001 two: 01 one: 1 Ανάκτηση Πληροφορίας 42 14

Κωδικοποίηση Huffman Τι συµπίεση επιτυγχάνουµε γιατο παράδειγµα; Απαιτούνται 42*8 = 336 bits για το αρχικό κείµενο (χωρίς τους κενούς χαρακτήρες) Απαιτούνται 25 bits για το συµπιεσµένο κείµενο Ανάκτηση Πληροφορίας 43 Κωδικοποίηση Huffman Έστω το ακόλουθο κείµενο ABRACADABRA A 5/11 B 2/11 C 1/11 D 1/11 R 2/11 Ανάκτηση Πληροφορίας 44 Κωδικοποίηση Huffman 0 ένδρο Huffman 6/11 0 1 2/11 4/11 0 1 0 1 11/11 1 C 1/11 1/11 D 1/11 1/11 B 2/11 2/11 R 2/11 2/11 A 5/11 5/11 000 001 010 011 1 Ανάκτηση Πληροφορίας 45 15

Λεξικά Οι µέθοδοι βασισµένες σε λεξικά επιτυγχάνουν συµπίεση αντικαθιστώντας σειρές συµβόλων µε δείκτες. Αυτό που πρέπει να προσέξουµε είναιη επιλογή των entries στο λεξικό. Ανάκτηση Πληροφορίας 46 Στατικές Μέθοδοι Λεξικών Οι πιο απλές µέθοδοι χρησιµοποιούν στατικά λεξικά τα οποία περιέχουν µικρές εκφράσεις. Είναι αρκετά γρήγορες και απαιτούν λίγο χρόνο για να επιτύχουν µικρά ποσοστά συµπίεσης. Μία διαδεδοµένη µέθοδος είναι διγραµµατική κωδικοποίηση (digram coding), στην οποία επιλεγµένα ζεύγη γραµµάτων αντικαθιστώνται µε κωδικούς. Το βασικό πρόβληµα των στατικών µεθόδων είναι ότι ένα λεξικό κατάλληλο για ένα κείµενο µπορεί να είναι ακατάλληλο για κάποιο άλλο. Ανάκτηση Πληροφορίας 47 Ηµι-στατικές Μέθοδοι Λεξικών Κατασκευάζουν νέο λεξικό για κάθε νέο κείµενο που συµπιέζεται. Το βασικό πρόβληµα στιςµεθόδους αυτές είναι η επιλογή του λεξικού. Ανάκτηση Πληροφορίας 48 16

Προσαρµοστικές Μέθοδοι Μέθοδος Ziv-Lempel, 1970 Μία φράση αντικαθίσταται µεένανδείκτηο οποίος αναφέρεται στην προηγούµενη εµφάνιση της φράσης. Η διαδικασία της αποκωδικοποίησης δεν µπορεί να ξεκινήσει από τη µέση του κειµένου, αλλά µόνο από την αρχή. Το ενδιαφέρον για τις µεθόδους βασισµένες σε λεξικά συνεχώς µειώνεται. Ανάκτηση Πληροφορίας 49 Αντεστραµµένο Αρχείο Μία δοµήαντεστραµµένου αρχείου αποτελείται από: Ένα διάνυσµα (vocabulary) το οποίο περιέχει όλες τις διακριτές λέξεις του κειµένου, και Μία λίστα κειµένων για κάθε διακριτή λέξη Ανάκτηση Πληροφορίας 50 Παράδειγµα Λέξεις IDs κειµένων βιβλίο 1, 1, 2, 2, 10, 10, 30, 30,...... µολύβι 1, 1, 2, 2, 10, 10, 40, 40, 43, 43,...... ταινία 11, 11, 21, 21, 22, 22, 23, 23,...... ήχος ήχος 4, 4, 6, 6, 8, 8,...... Ανάκτηση Πληροφορίας 51 17

Συµπίεση Αντεστραµµένου Αρχείων Το µέγεθος ενός αντεστραµµένου αρχείου µπορεί να περιοριστεί αν συµπιέσουµε τιςλίστες. Εφόσον τα IDs των κειµένων είναι σε αύξουσα σειρά, ησειράµπορεί να χαρακτηριστεί σαν ακολουθία από κενά µεταξύ των κειµένων. Βασικό χαρακτηριστικό: για συχνά εµφανιζόµενες λέξεις τα κενά είναι µικρά, ενώ για σπάνιες λέξεις τα κενά είναι µεγάλα. Ανάκτηση Πληροφορίας 52 Unary Code Ένας ακέραιος αριθµός x κωδικοποιείται µε (x-1) άσσους και ακολουθεί ένα µηδενικό. 1, 0 2, 10 3, 110 4, 1110 Ανάκτηση Πληροφορίας 53 Elias - γ Ένας ακέραιος αριθµός x κωδικοποιείται µε την ένωση δύο τµηµάτων: - έναν unary code για τον αριθµό 1+floor(logx) και - έναν κωδικό από floor(logx) bits ο οποίος αναπαριστά στο δυαδικό σύστηµατοναριθµό Elias-δ παραλλαγή Ανάκτηση Πληροφορίας 54 18

Golomb Στα αντεστραµµένα αρχεία η πιθανότητα ένα κενό (gap) να έχει µέγεθος x ισοδυναµεί µε την πιθανότητα να έχουµε x-1 απουσίες της λέξης και να ακολουθεί µία παρουσία της λέξης. Εάν µία λέξη εµφανίζεται σε ένα κείµενο µε πιθανότηταp, ηπιθανότηταναυπάρχειgap µεγέθους x δίνεται από τη γεωµετρική κατανοµή P[ x] = p (1 p) x 1 Ανάκτηση Πληροφορίας 55 Παραδείγµατα Gap (x) Unary Elias-γ Elias-δ Golomb b=3 1 0 0 0 00 2 10 100 1000 010 3 110 101 1001 011 4 1110 11000 10100 100 5 11110 11001 10101 1010 6 111110 11010 10110 1011 7 1111110 11011 10111 1100 8 11111110 1110000 11000000 11010 9 111111110 1110001 11000001 11011 10 1111111110 1110010 11000010 11100 Ανάκτηση Πληροφορίας 56 Σύγκριση Μεθόδων Χαρακτηριστικό Αριθµητικές Huffman Huffman Ziv-Lempel Μέθοδοι character-based word-based λόγος συµπίεσης Πολύ καλός Όχι καλός Πολύ καλός Καλός ταχύτητα συµπίεσης Αργή Γρήγορη Γρήγορη Πολύ γρήγορη ταχύτητα αποσυµπίεσης Αργή Γρήγορη Πολύ γρήγορη Πολύ γρήγορη µνήµη Χαµηλή Χαµηλή Υψηλή Μέτρια αναζήτηση σε συµπιεσµένο κείµενο Όχι Ναι Ναι Ναι τυχαία προσπέλαση Όχι Ναι Ναι Όχι Ανάκτηση Πληροφορίας 57 19

Τάσεις και Έρευνα Η τάση στα σύγχρονα συστήµατα IR είναι η χρήση semi-static word-based Huffman coding. Τα πειραµατικά αποτελέσµατα έχουν δείξει ότι είναι οι πλέον αποτελεσµατικές µέθοδοι. Με τη δυνατότητα που υπάρχει να αναζητούµε απευθείας στο συµπιεσµένο κείµενο, υπάρχει η τάση τόσο ο index όσο και το κείµενο να παραµένουν συµπιεσµένα και να αποσυµπιέζονται µόνο µετά από απαίτηση του χρήστη. Ανάκτηση Πληροφορίας 58 Σύνοψη Προεπεξεργασία κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Συµπίεση κειµένων Μοντελοποίηση Κωδικοποίηση Ανάκτηση Πληροφορίας 59 20