Λειτουργίες επί των Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Σχετικά έγγραφα
Λειτουργίες επί των Κειµένων. Προεπεξεργασία Κειµένων. Προεπεξεργασία Clustering Συµπίεση

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Δομές Δεδομένων & Αλγόριθμοι

Ανάκτηση πληροφορίας

Τα µπιτ και η σηµασία τους. Σχήµα bit. ΚΕΦΑΛΑΙΟ 1: Αποθήκευση εδοµένων (1/2) 1.7 Αποθήκευση κλασµάτων 1.8 Συµπίεση δεδοµένων 1.9 Σφάλµατα επικοινωνίας

Επεξεργασία Πολυµέσων. Δρ. Μαρία Κοζύρη Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Τεχνικές Συµπίεσης Βίντεο. Δρ. Μαρία Κοζύρη Τµήµα Πληροφορικής Πανεπιστήµιο Θεσσαλίας

Δομές Δεδομένων και Αλγόριθμοι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Δομές Δεδομένων Ενότητα 4

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Ενότητα 4. Εισαγωγή στην Πληροφορική. Αναπαράσταση δεδοµένων. Αναπαράσταση πληροφορίας. υαδικοί αριθµοί. Χειµερινό Εξάµηνο

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

Συμπίεση Δεδομένων Δοκιμής (Test Data Compression) Νικολός Δημήτριος, Τμήμα Μηχ. Ηλεκτρονικών Υπολογιστών & Πληροφορικής, Παν Πατρών

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

Συμπίεση Δεδομένων

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Ανάκτηση Πληροφορίας

Εισαγωγή στα Προσαρµοστικά Συστήµατα

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Posting File. D i. tf key1 [position1 position2 ] D j tf key2... D l.. tf keyl

Εισαγωγή στην Πληροφορική ΓΕΝΙΚΟ ΤΜΗΜΑ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ TEI ΧΑΛΚΙ ΑΣ

Τηλεπικοινωνιακά Συστήματα ΙΙ

Αριθμητικά Συστήματα

Φροντιστήριο 4. Άσκηση 1. Λύση. Πανεπιστήµιο Κρήτης, Τµήµα Επιστήµης Υπολογιστών HY463 - Συστήµατα Ανάκτησης Πληροφοριών Εαρινό Εξάµηνο

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Κατηγορίες τεχνικών συµπίεσης. Τεχνικές Συµπίεσης

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΑΡΙΘΜΗΤΙΚΑ ΣΥΣΤΗΜΑΤΑ ΚΑΙ ΚΩ ΙΚΕΣ

Εισαγωγή στον Προγραμματισμό

Ελληνική Δημοκρατία Τεχνολογικό Εκπαιδευτικό Ίδρυμα Ηπείρου. Πληροφορική Ι. Ενότητα 9 : Συμπίεση δεδομένων. Δρ. Γκόγκος Χρήστος

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Σεραφείµ Καραµπογιάς. Πηγές Πληροφορίας και Κωδικοποίηση Πηγής 6.3-1

Συμπίεση Δεδομένων

ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Κεφάλαιο 8 : H γλώσσα προγραµµατισµού Pascal 1 ο Μέρος σηµειώσεων (Ενότητες 8.1 & 8.2 σχολικού βιβλίου)

ΜΥΕ003: Ανάκτηση Πληροφορίας. Διδάσκουσα: Ευαγγελία Πιτουρά Κεφάλαιο 5: Στατιστικά Συλλογής. Συμπίεση.

Πληροφορική 2. Δομές δεδομένων και αρχείων

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Social Web: lesson #4

ιαφορική εντροπία Σεραφείµ Καραµπογιάς

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Αριθμητική Κωδικοποίηση

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Επεξεργασία Χαρτογραφικής Εικόνας

ΠΛΗΡΟΦΟΡΙΚΗ Ι JAVA Τμήμα θεωρίας με Α.Μ. σε 8 & 9 11/10/07

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Θέματα Συστημάτων Πολυμέσων

Ανάκτηση πολυμεσικού περιεχομένου

Συµπίεση Ψηφιακών Εικόνων: Συµπίεση µε Απώλειες. Πρότυπα Συµπίεσης Εικόνων

Τετάρτη 5-12/11/2014. ΣΗΜΕΙΩΣΕΙΣ 3 ου και 4 ου ΜΑΘΗΜΑΤΟΣ ΕΙΔΙΚΟΤΗΤΑ: ΤΕΧΝΙΚΟΣ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ: ΑΡΧΙΤΕΚΤΟΝΙΚΗ Η/Υ Α ΕΞΑΜΗΝΟ

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Ανάκληση Πληποφοπίαρ. Information Retrieval. Διδάζκων Δημήηριος Καηζαρός

Κώδικες µεταβλητού µήκους

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ανάκτηση Πληροφορίας

Θεωρία πληροφοριών. Τεχνολογία Πολυµέσων 07-1

Συμπίεση Πολυμεσικών Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

( ) log 2 = E. Σεραφείµ Καραµπογιάς

Ανάκτηση Δεδομένων (Information Retrieval)

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

Ανάκτηση Πληροφορίας Εισαγωγή

Δοµές Δεδοµένων. 2η Διάλεξη Αλγόριθµοι Ένωσης-Εύρεσης (Union-Find) Ε. Μαρκάκης. Βασίζεται στις διαφάνειες των R. Sedgewick K.

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Δεδομένα & Αναπαράσταση Πληροφορίας

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Εισαγωγή. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

Αρχιτεκτονική Μηχανής. Αποθήκευση εδοµένων

Αρχιτεκτονική υπολογιστών

Εισαγωγή στην επιστήμη των υπολογιστών. Υπολογιστές και Δεδομένα Κεφάλαιο 2ο Αναπαράσταση Δεδομένων

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

Επιµέλεια Θοδωρής Πιερράτος

Εισαγωγή στην Πληροφορική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

1 η Θεµατική Ενότητα : Δυαδικά Συστήµατα

Τεχνολογία Πολυμέσων. Ενότητα # 3: Συστήματα πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΚΕΦΑΛΑΙΟ 8 Η ΓΛΩΣΣΑ PASCAL

Τεχνολογία Πολυμέσων. Ενότητα # 7: Θεωρία πληροφορίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Λειτουργικά Συστήματα (Λ/Σ)

Kalman Filter Γιατί ο όρος φίλτρο;

επιφάνεια πυριτίου Αναφορά στο Εκπαιδευτικό Υλικό : 5. Αναφορά στο Εργαστήριο :

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Πρόλογος 1. 1 Μαθηµατικό υπόβαθρο 9

6 η Θεµατική Ενότητα : Σχεδίαση Συστηµάτων σε Επίπεδο Καταχωρητή

Transcript:

Λειτουργίες επί των Κειµένων Προεπεξεργασία Clustering Συµπίεση

Προεπεξεργασία Κειµένων Πριν από τη δεικτοδότηση των κειµένων προηγούνται µερικές βασικές διαδικασίες οι οποίες χρησιµοποιούνται για την απλοποίηση των κειµένων. Το σύνολο των διεργασιών αυτών καλείται Προεπεξεργασία Κειµένου. Ανάκτηση Πληροφορίας 2

Προεπεξεργασία Κειµένων document accents spacing etc. stopwords noun groups stemming automatic or manual indexing text + structure structure recognition text structure full text index terms Ανάκτηση Πληροφορίας 3

Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 4

Λεκτική Ανάλυση ιαδικασία µετατροπήςενόςκειµένου από σειρά χαρακτήρων (character stream) σε σειρά λέξεων (word stream). Ηαρχικήεντύπωσηπου δηµιουργείται είναι ότι το µόνο που έχουµενα κάνουµε είναι να αναγνωρίσουµετουςκενούς χαρακτήρες του κειµένου, οι οποίοι διαχωρίζουν τις λέξεις. Όµως υπάρχουν πολύ περισσότερα που πρέπει να προσέξουµε! Ανάκτηση Πληροφορίας 5

Λεκτική Ανάλυση Αριθµητικά ψηφία Συλλαβισµός Σύµβολα Στίξης Μικρά και Κεφαλαία Γράµµατα Ανάκτηση Πληροφορίας 6

Αριθµητικά Ψηφία Οι αριθµοί δεν θεωρούνται καλές περιπτώσεις index terms διότι χωρίς τα συµφραζόµενα το νόηµά τους είναι αρκετά ασαφές. Γενικά, τα συστήµατα IR δεν περιλαµβάνουν τους αριθµούς στη λίστα των index terms. Ωστόσο, υπάρχουν περιπτώσεις στις οποίες απαιτείται ιδιαίτερη προσοχή. Για παράδειγµα, κείµεναταοποίαπεριέχουναριθµούς πιστωτικών καρτών. Ανάκτηση Πληροφορίας 7

Συλλαβισµός Συνήθως η απαλοιφή του συµβόλου συλλαβισµού ( - ) δε δηµιουργεί προβλήµατα στην ανάκτηση πληροφορίας (π.χ. State-of-the-art -> state of the art) Ωστόσο απαιτείται προσοχή, διότι υπάρχουν λέξεις στις οποίες το σύµβολο - παίζει σηµαντικό ρόλο (B-52) Ανάκτηση Πληροφορίας 8

Σύµβολα Στίξης Συνήθως τα σύµβολα στίξης αφαιρούνται εντελώς κατά τη φάση της λεκτικής ανάλυσης κειµένων και ερωτήσεων (I.K.A -> IKA, D.N.A. -> DNA) Υπάρχουν ειδικές περιπτώσεις οι οποίες πρέπει να προσεχθούν ιδιαίτερα. Για παράδειγµα, σε ένα σύστηµα IR το οποίο διαχειρίζεται κώδικα γραµµένο σε C/C++, υπάρχει διαφορά ανάµεσα στις εκφράσεις x.id και xid. Ανάκτηση Πληροφορίας 9

Μικρά-Κεφαλαία Γράµµατα Κατά τη φάση της λεκτικής ανάλυσης όλα τα γράµµατα µετατρέπονται σε µικρά ή σε κεφαλαία. (HORSE, Horse, horse) Ειδικές περιπτώσεις πρέπει να αντιµετωπίζονται ξεχωριστά. Για παράδειγµα, κατά την αναζήτηση κειµένων που σχετίζονται µετολειτουργικό σύστηµα Unix, ησηµασία των εντολών ls l και ls L είναι διαφορετική. (To Unix διαχωρίζει µικρά και κεφαλαία γράµµατα). Ανάκτηση Πληροφορίας 10

Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 11

Απαλοιφή stopwords Λέξεις οι οποίες εµφανίζονται στην πλειοψηφία των κειµένων δεν είναι καλές για index terms. Αυτές οι λέξεις καλούνται stopwords. Άρθρα, προθέσεις, σύνδεσµοι Ηαπαλοιφήτωνstopwords µειώνει σηµαντικά το µέγεθος ενός κειµένου. Ωστόσο, η απαλοιφή των stopwords µπορεί να µειώσει το recall. Για παράδειγµα αναζητώντας τη φράση to be or not to be οχρήστηςθααντιµετωπίσει πρόβληµα. Για το λόγο αυτό πολλές µηχανές αναζήτησης στο WEB χρησιµοποιούν όλες τις λέξεις των κειµένων. Ανάκτηση Πληροφορίας 12

Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 13

Stemming Η λέξη που αναζητά ο χρήστης µπορεί να υπάρχει µε αυτήν την µορφή στο κείµενο (π.χ. connect, connecting). Stem: τµήµατηςλέξηςπουαποµένει µετά την αποµάκρυνση prefix και suffix. Μειώνεται ο αριθµός των διακριτών λέξεων του κειµένου. Μερικές µηχανές αναζήτησης στο WEB δεν πραγµατοποιούν stemming. Ανάκτηση Πληροφορίας 14

Stemming Affix removal, table lookup, successor variety, n- grams. Το πιο σηµαντικό µέρος είναι η αποµάκρυνση του suffix, διότι οι διαφορετικές εκδοχές µίας λέξης προσδιορίζονται µε διαφορετικές καταλήξεις. Αλγόριθµος Porter, για την αποµάκρυνση των καταλήξεων από τις λέξεις. Χρησιµοποιούνται µερικοί κανόνες (π.χ. s->null). Ανάκτηση Πληροφορίας 15

Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 16

Επιλογή Index Terms Σε full text αναπαράσταση, όλες οι λέξεις ενός κειµένου χρησιµοποιούνται ως index terms. ιαφορετικά, ένα σύνολο από index terms πρέπει να επιλεγεί είτε χειροκίνητα είτε αυτόµατα. Επιλέγονται ουσιαστικά τα οποία οµαδοποιούνται σε οµάδες ουσιαστικών µε κοινόνόηµα (π.χ. computer science, information retrieval, query language) Ανάκτηση Πληροφορίας 17

Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών (θησαυροί) Ανάκτηση Πληροφορίας 18

Θησαυροί Λέξεων Στην απλή του µορφή ένας θησαυρός λέξεων αποτελείται από ένα σύνολο σηµαντικών λέξεων, και για κάθε λέξη ένα σύνολο σχετικών λέξεων (π.χ. συνώνυµα). Σύµφωνα µε τονfoskett οι βασικοί στόχοι ενός θησαυρού είναι: Να παρέχει ένα σταθερό λεξιλόγιο για αναζήτηση. Να βοηθά τους χρήστες στη µορφοποίηση των ερωτήσεων. Να παρέχει ιεραρχίες ώστε να µπορεί ο χρήστης να διευρύνει ή να περιορίζει τα αποτελέσµατα. Ανάκτηση Πληροφορίας 19

Θησαυροί Λέξεων Κίνητρο: ελεγχόµενο λεξιλόγιο για indexing και searching. Το ελεγχόµενο λεξιλόγιο προσφέρει κανονικοποίηση, µείωση θορύβου, ανάκτηση βασισµένη στο νόηµα (concept) παρά σε λέξεις. Σε συγκεκριµένους τοµείς (π.χ. ιατρική) τα παραπάνω είναι πολύ σηµαντικά. Ωστόσο, υπάρχουν τοµείςστουςοποίουςηκατασκευή θησαυρού είναι δύσκολη διότι: το γνωστικό αντικείµενο είναι νέο, µεγάλο, αλλάζει δυναµικά (π.χ. WEB). Ανάκτηση Πληροφορίας 20

Clustering Clustering είναι η οµαδοποίηση κειµένων τα οποία είναι όµοια µεταξύ τους. εν αναφέρεται σε ένα µόνο κείµενο αλλά σε µία συλλογή κειµένων. Global clustering: τα κείµενα οµαδοποιούνται ανάλογα µετηνεµφάνισή τους σε όλη τη συλλογή κειµένων. Local clustering: ηοµαδοποίηση πραγµατοποιείται σύµφωνα µε τα χαρακτηριστικά των ερωτήσεων του χρήστη και το σύνολο των κειµένων της απάντησης. Ανάκτηση Πληροφορίας 21

Συµπίεση Κειµένων υνατότητα να αναπαραστήσουµετακείµενα µε µικρότερο αριθµό bytes. Οι µέθοδοι συµπίεσης χρησιµοποιούν τη δοµή που υπάρχει στο κείµενο για να δηµιουργήσουν µία «µειωµένη» έκδοση του αρχικού κειµένου. Από τη συµπιεσµένηέκδοσητουκειµένου το αρχικό κείµενο µπορεί να ανακτηθεί πλήρως. Ανάκτηση Πληροφορίας 22

Συµπίεση Κειµένων Τι κερδίζουµε; Λιγότερος χώρος αποθήκευσης Λιγότερος χρόνος για λειτουργίες εισόδου/εξόδου (Ι/Ο) Λιγότερος χρόνος µετάδοσης δεδοµένων από έναν σταθµό σε άλλον Ανάκτηση Πληροφορίας 23

Συµπίεση Κειµένων Οι µέθοδοι συµπίεσης διακρίνονται σε δύο βασικές κατηγορίες: Στατιστικές µέθοδοι, οι οποίες στηρίζονται σε εκτιµήσεις πιθανότητας σχετικά µετηνεµφάνιση των συµβόλων στο κείµενο. Μέθοδοι βασισµένες σε λεξικό, οι οποίες αντικαθιστούν την εµφάνιση µίας σειράς συµβόλων µεένανδείκτη(pointer) στην αµέσως προηγούµενη εµφάνιση της σειράς. Ανάκτηση Πληροφορίας 24

Συµπίεση Κειµένων Συµπίεση Statistical Dictionary Modeling Coding Modeling Coding 1. adaptive 2. static 3. semi-static 1. Huffman coding 2. Byte-oriented Huffman coding 1. adaptive 2. static 3. semi-static Inverted File coding Ανάκτηση Πληροφορίας 25

Στατιστικές Μέθοδοι Συµπίεσης Σύµβολο: ένας χαρακτήρας, µία λέξη, µία σειρά χαρακτήρων. Αλφάβητο: το σύνολο των διαφορετικών συµβόλων. Μοντελοποίηση: η διαδικασία εκτίµησης της πιθανότητας των συµβόλων Κωδικοποίηση: η διαδικασίατηςµετατροπής των συµβόλων σε δυαδικά ψηφία Ανάκτηση Πληροφορίας 26

Στατιστικές Μέθοδοι Συµπίεσης ύο βασικές µέθοδοι κωδικοποίησης (coding) που χρησιµοποιούνται στις στατιστικές µεθόδους συµπίεσης: Κωδικοποίηση Huffman (Huffman Coding) Αριθµητική Κωδικοποίηση (Arithmetic Coding) Ανάκτηση Πληροφορίας 27

Στατιστικές Μέθοδοι Συµπίεσης Η αριθµητική κωδικοποίηση επεξεργάζεται ένα σύµβολο τη φορά. εν επιτρέπεται η αποκωδικοποίηση µίας σειράς χαρακτήρων η οποία βρίσκεται στη µέση του κειµένου. Πρέπει κάθε φορά η αποκωδικοποίηση να ξεκινά από την αρχή του κειµένου. Γιατολόγοαυτότασυστήµατα IR δεν χρησιµοποιούν τη µέθοδο της αριθµητικής κωδικοποίησης. Ανάκτηση Πληροφορίας 28

Στατιστικές Μέθοδοι Συµπίεσης Σχέση µεταξύ πιθανοτήτων και κωδικών (Claudde Shannon): Σε µία βέλτιστη µέθοδο κωδικοποίησης, ένα σύµβολο το οποίο αναµένεται να εµφανιστεί µεπιθανότηταp, πρέπει να του αντιστοιχεί ένας κωδικός µε µέγεθος log 2 (1/ bits p) Ανάκτηση Πληροφορίας 29

Στατιστικές Μέθοδοι Συµπίεσης Η µέση ποσότητα πληροφορίας κάθε συµβόλου σε όλο το αλφάβητο καλείται εντροπία της κατανοµής και δίνεται από τον τύπο: E = p i log 2 (1/ p i ) Το Ε αποτελεί κάτω φράγµα ωςπροςτοναριθµό των bits που πρέπει να περιέχει ένα κωδικοποιηµένο σύµβολο. Ανάκτηση Πληροφορίας 30

Στατιστικές Μέθοδοι Συµπίεσης Προσαρµοστικά (adaptive) Στατικά (static) Ηµιστατικά (semi-static) Modeling Ανάκτηση Πληροφορίας 31

Στατιστικές Μέθοδοι Συµπίεσης Προσαρµοστικά Μοντέλα: Modeling εν έχουν καµία πληροφορία για το κείµενο, αλλά την αποκτούν σταδιακά καθώς προχωρά η διαδικασία συµπίεσης. Απαιτούν µόνο ένα πέρασµα στοκείµενο εισόδου. Για αρκετά µεγάλα κείµενα το µοντέλα συγκλίνουν στην πραγµατική κατανοµή τουκειµένου. Ηδιαδικασίατηςαποσυµπίεσης πρέπει να ξεκινά από την αρχή. Καλή τεχνική για γενικές εφαρµογές αλλά όχι τόσο καλή για IR. Ανάκτηση Πληροφορίας 32

Στατιστικές Μέθοδοι Συµπίεσης Modeling Στατικά Μοντέλα: Θεωρούν µία µέση κατανοµή όλωντων κειµένων εισόδου. εν έχουν καλό λόγο συµπίεσης όταν το περιεχόµενο του κειµένου ξεφεύγει από τις αρχικές πιθανοτικές εκτιµήσεις (π.χ. οικονοµικά κείµενα τα οποία περιέχουν πολλούς αριθµούς). Ανάκτηση Πληροφορίας 33

Στατιστικές Μέθοδοι Συµπίεσης Ηµιστατικά Μοντέλα: Modeling εν υποθέτουν κατανοµήδεδοµένων, αλλά παίρνουν αυτήν την πληροφορία κατά το πρώτο πέρασµα. Στο δεύτερο πέρασµα γίνεταισυµπίεση µε βάσητα στατιστικά στοιχεία που εξάχθηκαν από το πρώτο πέρασµα. Στη φάση της αποκωδικοποίησης, η στατιστική πληροφορία µεταδίδεται στον decoder πριν την αποστολή του συµπιεσµένου κειµένου. Το βασικό τους µειονέκτηµα είναι τα δύο περάσµατα που απαιτούνται. Επιτρέπεται άµεση προσπέλαση σε οποιοδήποτε σηµείο του κειµένου. Ανάκτηση Πληροφορίας 34

Στατιστικές Μέθοδοι Συµπίεσης Modeling Μοντέλα βασισµένα σε λέξεις (word-based): Επιτυγχάνεται καλύτερος λόγος συµπίεσης. Τα περισσότερα συστήµατα IR στηρίζονται σε λέξεις. Η συχνότητα εµφάνισης λέξεων είναι χρήσιµη στην απάντηση ερωτήσεων τα οποία χρησιµοποιούν πολλές λέξεις µαζί. Η επεξεργασία συνήθως ξεκινά από τη λέξη µετη µικρότερη συχνότητα εµφάνισης. Ανάκτηση Πληροφορίας 35

Στατιστικές Μέθοδοι Συµπίεσης Modeling Μοντέλα βασισµένα σε λέξεις (word-based): Σε µερικές περιπτώσεις παράγονται µεγάλες ποσότητες διαφορετικών κωδικών (π.χ. αριθµοί) Συνήθως οι µέθοδοι που στηρίζονται σε λέξεις είναι αποδοτικές για αρκετά µεγάλα κείµενα. Γιατι; Ανάκτηση Πληροφορίας 36

Στατιστικές Μέθοδοι Συµπίεσης Βασικά Σηµεία: Coding Οκύριοςστόχοςενόςκωδικοποιητήείναιη αντιστοίχιση µικρών κωδικών σε συχνά εµφανιζόµενα σύµβολα και µεγάλων κωδικών σε σπάνια εµφανιζόµενα σύµβολα. Ο χρόνος κωδικοποίησης και αποκωδικοποίησης είναι σηµαντικός. Μερικές φορές προτιµούµε να έχουµε µικρότερο λόγο συµπίεσης προκειµένου να κερδίσουµεσεχρόνο(π.χ. WinZIP). Ανάκτηση Πληροφορίας 37

Στατιστικές Μέθοδοι Συµπίεσης Coding Έστω τα σύµβολα A,B,C,D µε τουςεξήςκωδικούς: Code( A ) = 0 Code( B ) = 000 Code( C ) = 11 Code( D ) = 1 DDDAAA DCB CDAAA DDDB Οκωδικός111000 σε ποια σειρά χαρακτήρων αντιστοιχεί; Ανάκτηση Πληροφορίας 38

Στατιστικές Μέθοδοι Συµπίεσης Βασική προϋπόθεση: Coding Μετά τη φάση της κωδικοποίησης κανένας κωδικός δεν πρέπει να αποτελεί prefix άλλου κωδικού. Ανάκτηση Πληροφορίας 39

Κωδικοποίηση Huffman Έστω το ακόλουθο κείµενο: one two three one two one one one two three four five one: 5/12 two: 3/12 three: 2/12 four: 1/12 five: 1/12 Συχνότητες εµφάνισης λέξεων Ανάκτηση Πληροφορίας 40

Κωδικοποίηση Huffman ένδρο Huffman 0 7/12 0 12/12 0 2/12 0 1 4/12 1 1 1 five 1/12 four 1/12 three 2/12 two 3/12 one 5/12 Ανάκτηση Πληροφορίας 41

Κωδικοποίηση Huffman Μετά την κωδικοποίηση προκύπτουν οι εξής κωδικοί: Τι παρατηρούµε; five: 0000 four: 0001 three: 001 two: 01 one: 1 Ανάκτηση Πληροφορίας 42

Κωδικοποίηση Huffman Τι συµπίεση επιτυγχάνουµεγιατο παράδειγµα; Απαιτούνται 42*8 = 336 bits για το αρχικό κείµενο (χωρίςτουςκενούςχαρακτήρες) Απαιτούνται 25 bits για το συµπιεσµένο κείµενο Ανάκτηση Πληροφορίας 43

Κωδικοποίηση Huffman Έστω το ακόλουθο κείµενο ABRACADABRA A 5/11 B 2/11 C 1/11 D 1/11 R 2/11 Ανάκτηση Πληροφορίας 44

Κωδικοποίηση Huffman 0 ένδρο Huffman 6/11 0 1 2/11 4/11 0 1 0 1 11/11 1 C 1/11 1/11 D 1/11 1/11 B 2/11 2/11 R 2/11 2/11 A 5/11 5/11 000 001 010 011 1 Ανάκτηση Πληροφορίας 45

Λεξικά Οι µέθοδοι βασισµένες σε λεξικά επιτυγχάνουν συµπίεση αντικαθιστώντας σειρές συµβόλων µε δείκτες. Αυτό που πρέπει να προσέξουµε είναιη επιλογή των entries στο λεξικό. Ανάκτηση Πληροφορίας 46

Στατικές Μέθοδοι Λεξικών Οι πιο απλές µέθοδοι χρησιµοποιούν στατικά λεξικά τα οποία περιέχουν µικρές εκφράσεις. Είναι αρκετά γρήγορες και απαιτούν λίγο χρόνο γιαναεπιτύχουνµικρά ποσοστά συµπίεσης. Μία διαδεδοµένη µέθοδος είναι διγραµµατική κωδικοποίηση (digram coding), στην οποία επιλεγµένα ζεύγη γραµµάτων αντικαθιστώνται µε κωδικούς. Το βασικό πρόβληµα των στατικών µεθόδων είναι ότι ένα λεξικό κατάλληλο για ένα κείµενο µπορεί να είναι ακατάλληλο για κάποιο άλλο. Ανάκτηση Πληροφορίας 47

Ηµι-στατικές Μέθοδοι Λεξικών Κατασκευάζουν νέο λεξικό για κάθε νέο κείµενο που συµπιέζεται. Το βασικό πρόβληµαστιςµεθόδους αυτές είναι η επιλογή του λεξικού. Ανάκτηση Πληροφορίας 48

Προσαρµοστικές Μέθοδοι Μέθοδος Ziv-Lempel, 1970 Μία φράση αντικαθίσταται µεένανδείκτηο οποίος αναφέρεται στην προηγούµενη εµφάνιση της φράσης. Η διαδικασία της αποκωδικοποίησης δεν µπορεί να ξεκινήσει από τη µέση του κειµένου, αλλά µόνο από την αρχή. Το ενδιαφέρον για τις µεθόδους βασισµένες σε λεξικά συνεχώς µειώνεται. Ανάκτηση Πληροφορίας 49

Αντεστραµµένο Αρχείο Μία δοµή αντεστραµµένου αρχείου αποτελείται από: Ένα διάνυσµα (vocabulary) το οποίο περιέχει όλες τις διακριτές λέξεις του κειµένου, και Μία λίστα κειµένων για κάθε διακριτή λέξη Ανάκτηση Πληροφορίας 50

Παράδειγµα Λέξεις IDs κειµένων βιβλίο 1, 1, 2, 2, 10, 30,...... µολύβι 1, 1, 2, 2, 10, 40, 43,...... ταινία 11, 21, 22, 23,...... ήχος ήχος 4, 4, 6, 6, 8, 8,...... Ανάκτηση Πληροφορίας 51

Συµπίεση Αντεστραµµένου Αρχείων Το µέγεθος ενός αντεστραµµένου αρχείου µπορεί να περιοριστεί αν συµπιέσουµε τις λίστες. Εφόσον τα IDs των κειµένων είναι σε αύξουσα σειρά, ησειράµπορεί να χαρακτηριστεί σαν ακολουθία από κενά µεταξύ των κειµένων. Βασικό χαρακτηριστικό: για συχνά εµφανιζόµενες λέξεις τα κενά είναι µικρά, ενώ για σπάνιες λέξεις τα κενά είναι µεγάλα. Ανάκτηση Πληροφορίας 52

Unary Code Ένας ακέραιος αριθµός x κωδικοποιείται µε (x-1) άσσους και ακολουθεί ένα µηδενικό. 1, 0 2, 10 3, 110 4, 1110 Ανάκτηση Πληροφορίας 53

Elias - γ Ένας ακέραιος αριθµός x κωδικοποιείται µε την ένωση δύο τµηµάτων: - έναν unary code για τον αριθµό 1+floor(logx) και - έναν κωδικό από floor(logx) bits οοποίος αναπαριστά στο δυαδικό σύστηµατοναριθµό Elias-δ παραλλαγή Ανάκτηση Πληροφορίας 54

Golomb Στα αντεστραµµένα αρχεία η πιθανότητα ένα κενό (gap) να έχει µέγεθος x ισοδυναµεί µετην πιθανότητα να έχουµε x-1 απουσίες της λέξης και να ακολουθεί µία παρουσία της λέξης. Εάν µία λέξη εµφανίζεται σε ένα κείµενο µε πιθανότητα p, η πιθανότητα να υπάρχει gap µεγέθους x δίνεται από τη γεωµετρική κατανοµή P[ x] = p (1 p) x 1 Ανάκτηση Πληροφορίας 55

Παραδείγµατα Gap (x) Unary Elias-γ Elias-δ Golomb b=3 1 0 0 0 00 2 10 100 1000 010 3 110 101 1001 011 4 1110 11000 10100 100 5 11110 11001 10101 1010 6 111110 11010 10110 1011 7 1111110 11011 10111 1100 8 11111110 1110000 11000000 11010 9 111111110 1110001 11000001 11011 10 1111111110 1110010 11000010 11100 Ανάκτηση Πληροφορίας 56

Σύγκριση Μεθόδων Συµπίεσης Χαρακτηριστικό Αριθµητικές Μέθοδοι Huffman character-based Huffman word-based Ziv-Lempel λόγος συµπίεσης Πολύ καλός Όχι καλός Πολύ καλός Καλός ταχύτητα συµπίεσης Αργή Γρήγορη Γρήγορη Πολύ γρήγορη ταχύτητα αποσυµπίεσης Αργή Γρήγορη Πολύ γρήγορη Πολύ γρήγορη µνήµη Χαµηλή Χαµηλή Υψηλή Μέτρια αναζήτηση σε συµπιεσµένο κείµενο Όχι Ναι Ναι Ναι τυχαία προσπέλαση Όχι Ναι Ναι Όχι Ανάκτηση Πληροφορίας 57

Τάσεις και Έρευνα Η τάση στα σύγχρονα συστήµατα IR είναι η χρήση semi-static word-based Huffman coding. Τα πειραµατικά αποτελέσµατα έχουν δείξει ότι είναιοιπλέοναποτελεσµατικές µέθοδοι. Με τη δυνατότητα που υπάρχει να αναζητούµε απευθείας στο συµπιεσµένο κείµενο, υπάρχει η τάση τόσο ο index όσο και το κείµενο να παραµένουν συµπιεσµένα και να αποσυµπιέζονται µόνο µετά από απαίτηση του χρήστη. Ανάκτηση Πληροφορίας 58

Σύνοψη Προεπεξεργασία κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Συµπίεση κειµένων Μοντελοποίηση Κωδικοποίηση Ανάκτηση Πληροφορίας 59