Λειτουργίες επί των Κειµένων Προεπεξεργασία Clustering Συµπίεση
Προεπεξεργασία Κειµένων Πριν από τη δεικτοδότηση των κειµένων προηγούνται µερικές βασικές διαδικασίες οι οποίες χρησιµοποιούνται για την απλοποίηση των κειµένων. Το σύνολο των διεργασιών αυτών καλείται Προεπεξεργασία Κειµένου. Ανάκτηση Πληροφορίας 2
Προεπεξεργασία Κειµένων document accents spacing etc. stopwords noun groups stemming automatic or manual indexing text + structure structure recognition text structure full text index terms Ανάκτηση Πληροφορίας 3
Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 4
Λεκτική Ανάλυση ιαδικασία µετατροπήςενόςκειµένου από σειρά χαρακτήρων (character stream) σε σειρά λέξεων (word stream). Ηαρχικήεντύπωσηπου δηµιουργείται είναι ότι το µόνο που έχουµενα κάνουµε είναι να αναγνωρίσουµετουςκενούς χαρακτήρες του κειµένου, οι οποίοι διαχωρίζουν τις λέξεις. Όµως υπάρχουν πολύ περισσότερα που πρέπει να προσέξουµε! Ανάκτηση Πληροφορίας 5
Λεκτική Ανάλυση Αριθµητικά ψηφία Συλλαβισµός Σύµβολα Στίξης Μικρά και Κεφαλαία Γράµµατα Ανάκτηση Πληροφορίας 6
Αριθµητικά Ψηφία Οι αριθµοί δεν θεωρούνται καλές περιπτώσεις index terms διότι χωρίς τα συµφραζόµενα το νόηµά τους είναι αρκετά ασαφές. Γενικά, τα συστήµατα IR δεν περιλαµβάνουν τους αριθµούς στη λίστα των index terms. Ωστόσο, υπάρχουν περιπτώσεις στις οποίες απαιτείται ιδιαίτερη προσοχή. Για παράδειγµα, κείµεναταοποίαπεριέχουναριθµούς πιστωτικών καρτών. Ανάκτηση Πληροφορίας 7
Συλλαβισµός Συνήθως η απαλοιφή του συµβόλου συλλαβισµού ( - ) δε δηµιουργεί προβλήµατα στην ανάκτηση πληροφορίας (π.χ. State-of-the-art -> state of the art) Ωστόσο απαιτείται προσοχή, διότι υπάρχουν λέξεις στις οποίες το σύµβολο - παίζει σηµαντικό ρόλο (B-52) Ανάκτηση Πληροφορίας 8
Σύµβολα Στίξης Συνήθως τα σύµβολα στίξης αφαιρούνται εντελώς κατά τη φάση της λεκτικής ανάλυσης κειµένων και ερωτήσεων (I.K.A -> IKA, D.N.A. -> DNA) Υπάρχουν ειδικές περιπτώσεις οι οποίες πρέπει να προσεχθούν ιδιαίτερα. Για παράδειγµα, σε ένα σύστηµα IR το οποίο διαχειρίζεται κώδικα γραµµένο σε C/C++, υπάρχει διαφορά ανάµεσα στις εκφράσεις x.id και xid. Ανάκτηση Πληροφορίας 9
Μικρά-Κεφαλαία Γράµµατα Κατά τη φάση της λεκτικής ανάλυσης όλα τα γράµµατα µετατρέπονται σε µικρά ή σε κεφαλαία. (HORSE, Horse, horse) Ειδικές περιπτώσεις πρέπει να αντιµετωπίζονται ξεχωριστά. Για παράδειγµα, κατά την αναζήτηση κειµένων που σχετίζονται µετολειτουργικό σύστηµα Unix, ησηµασία των εντολών ls l και ls L είναι διαφορετική. (To Unix διαχωρίζει µικρά και κεφαλαία γράµµατα). Ανάκτηση Πληροφορίας 10
Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 11
Απαλοιφή stopwords Λέξεις οι οποίες εµφανίζονται στην πλειοψηφία των κειµένων δεν είναι καλές για index terms. Αυτές οι λέξεις καλούνται stopwords. Άρθρα, προθέσεις, σύνδεσµοι Ηαπαλοιφήτωνstopwords µειώνει σηµαντικά το µέγεθος ενός κειµένου. Ωστόσο, η απαλοιφή των stopwords µπορεί να µειώσει το recall. Για παράδειγµα αναζητώντας τη φράση to be or not to be οχρήστηςθααντιµετωπίσει πρόβληµα. Για το λόγο αυτό πολλές µηχανές αναζήτησης στο WEB χρησιµοποιούν όλες τις λέξεις των κειµένων. Ανάκτηση Πληροφορίας 12
Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 13
Stemming Η λέξη που αναζητά ο χρήστης µπορεί να υπάρχει µε αυτήν την µορφή στο κείµενο (π.χ. connect, connecting). Stem: τµήµατηςλέξηςπουαποµένει µετά την αποµάκρυνση prefix και suffix. Μειώνεται ο αριθµός των διακριτών λέξεων του κειµένου. Μερικές µηχανές αναζήτησης στο WEB δεν πραγµατοποιούν stemming. Ανάκτηση Πληροφορίας 14
Stemming Affix removal, table lookup, successor variety, n- grams. Το πιο σηµαντικό µέρος είναι η αποµάκρυνση του suffix, διότι οι διαφορετικές εκδοχές µίας λέξης προσδιορίζονται µε διαφορετικές καταλήξεις. Αλγόριθµος Porter, για την αποµάκρυνση των καταλήξεων από τις λέξεις. Χρησιµοποιούνται µερικοί κανόνες (π.χ. s->null). Ανάκτηση Πληροφορίας 15
Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Ανάκτηση Πληροφορίας 16
Επιλογή Index Terms Σε full text αναπαράσταση, όλες οι λέξεις ενός κειµένου χρησιµοποιούνται ως index terms. ιαφορετικά, ένα σύνολο από index terms πρέπει να επιλεγεί είτε χειροκίνητα είτε αυτόµατα. Επιλέγονται ουσιαστικά τα οποία οµαδοποιούνται σε οµάδες ουσιαστικών µε κοινόνόηµα (π.χ. computer science, information retrieval, query language) Ανάκτηση Πληροφορίας 17
Προεπεξεργασία Κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών (θησαυροί) Ανάκτηση Πληροφορίας 18
Θησαυροί Λέξεων Στην απλή του µορφή ένας θησαυρός λέξεων αποτελείται από ένα σύνολο σηµαντικών λέξεων, και για κάθε λέξη ένα σύνολο σχετικών λέξεων (π.χ. συνώνυµα). Σύµφωνα µε τονfoskett οι βασικοί στόχοι ενός θησαυρού είναι: Να παρέχει ένα σταθερό λεξιλόγιο για αναζήτηση. Να βοηθά τους χρήστες στη µορφοποίηση των ερωτήσεων. Να παρέχει ιεραρχίες ώστε να µπορεί ο χρήστης να διευρύνει ή να περιορίζει τα αποτελέσµατα. Ανάκτηση Πληροφορίας 19
Θησαυροί Λέξεων Κίνητρο: ελεγχόµενο λεξιλόγιο για indexing και searching. Το ελεγχόµενο λεξιλόγιο προσφέρει κανονικοποίηση, µείωση θορύβου, ανάκτηση βασισµένη στο νόηµα (concept) παρά σε λέξεις. Σε συγκεκριµένους τοµείς (π.χ. ιατρική) τα παραπάνω είναι πολύ σηµαντικά. Ωστόσο, υπάρχουν τοµείςστουςοποίουςηκατασκευή θησαυρού είναι δύσκολη διότι: το γνωστικό αντικείµενο είναι νέο, µεγάλο, αλλάζει δυναµικά (π.χ. WEB). Ανάκτηση Πληροφορίας 20
Clustering Clustering είναι η οµαδοποίηση κειµένων τα οποία είναι όµοια µεταξύ τους. εν αναφέρεται σε ένα µόνο κείµενο αλλά σε µία συλλογή κειµένων. Global clustering: τα κείµενα οµαδοποιούνται ανάλογα µετηνεµφάνισή τους σε όλη τη συλλογή κειµένων. Local clustering: ηοµαδοποίηση πραγµατοποιείται σύµφωνα µε τα χαρακτηριστικά των ερωτήσεων του χρήστη και το σύνολο των κειµένων της απάντησης. Ανάκτηση Πληροφορίας 21
Συµπίεση Κειµένων υνατότητα να αναπαραστήσουµετακείµενα µε µικρότερο αριθµό bytes. Οι µέθοδοι συµπίεσης χρησιµοποιούν τη δοµή που υπάρχει στο κείµενο για να δηµιουργήσουν µία «µειωµένη» έκδοση του αρχικού κειµένου. Από τη συµπιεσµένηέκδοσητουκειµένου το αρχικό κείµενο µπορεί να ανακτηθεί πλήρως. Ανάκτηση Πληροφορίας 22
Συµπίεση Κειµένων Τι κερδίζουµε; Λιγότερος χώρος αποθήκευσης Λιγότερος χρόνος για λειτουργίες εισόδου/εξόδου (Ι/Ο) Λιγότερος χρόνος µετάδοσης δεδοµένων από έναν σταθµό σε άλλον Ανάκτηση Πληροφορίας 23
Συµπίεση Κειµένων Οι µέθοδοι συµπίεσης διακρίνονται σε δύο βασικές κατηγορίες: Στατιστικές µέθοδοι, οι οποίες στηρίζονται σε εκτιµήσεις πιθανότητας σχετικά µετηνεµφάνιση των συµβόλων στο κείµενο. Μέθοδοι βασισµένες σε λεξικό, οι οποίες αντικαθιστούν την εµφάνιση µίας σειράς συµβόλων µεένανδείκτη(pointer) στην αµέσως προηγούµενη εµφάνιση της σειράς. Ανάκτηση Πληροφορίας 24
Συµπίεση Κειµένων Συµπίεση Statistical Dictionary Modeling Coding Modeling Coding 1. adaptive 2. static 3. semi-static 1. Huffman coding 2. Byte-oriented Huffman coding 1. adaptive 2. static 3. semi-static Inverted File coding Ανάκτηση Πληροφορίας 25
Στατιστικές Μέθοδοι Συµπίεσης Σύµβολο: ένας χαρακτήρας, µία λέξη, µία σειρά χαρακτήρων. Αλφάβητο: το σύνολο των διαφορετικών συµβόλων. Μοντελοποίηση: η διαδικασία εκτίµησης της πιθανότητας των συµβόλων Κωδικοποίηση: η διαδικασίατηςµετατροπής των συµβόλων σε δυαδικά ψηφία Ανάκτηση Πληροφορίας 26
Στατιστικές Μέθοδοι Συµπίεσης ύο βασικές µέθοδοι κωδικοποίησης (coding) που χρησιµοποιούνται στις στατιστικές µεθόδους συµπίεσης: Κωδικοποίηση Huffman (Huffman Coding) Αριθµητική Κωδικοποίηση (Arithmetic Coding) Ανάκτηση Πληροφορίας 27
Στατιστικές Μέθοδοι Συµπίεσης Η αριθµητική κωδικοποίηση επεξεργάζεται ένα σύµβολο τη φορά. εν επιτρέπεται η αποκωδικοποίηση µίας σειράς χαρακτήρων η οποία βρίσκεται στη µέση του κειµένου. Πρέπει κάθε φορά η αποκωδικοποίηση να ξεκινά από την αρχή του κειµένου. Γιατολόγοαυτότασυστήµατα IR δεν χρησιµοποιούν τη µέθοδο της αριθµητικής κωδικοποίησης. Ανάκτηση Πληροφορίας 28
Στατιστικές Μέθοδοι Συµπίεσης Σχέση µεταξύ πιθανοτήτων και κωδικών (Claudde Shannon): Σε µία βέλτιστη µέθοδο κωδικοποίησης, ένα σύµβολο το οποίο αναµένεται να εµφανιστεί µεπιθανότηταp, πρέπει να του αντιστοιχεί ένας κωδικός µε µέγεθος log 2 (1/ bits p) Ανάκτηση Πληροφορίας 29
Στατιστικές Μέθοδοι Συµπίεσης Η µέση ποσότητα πληροφορίας κάθε συµβόλου σε όλο το αλφάβητο καλείται εντροπία της κατανοµής και δίνεται από τον τύπο: E = p i log 2 (1/ p i ) Το Ε αποτελεί κάτω φράγµα ωςπροςτοναριθµό των bits που πρέπει να περιέχει ένα κωδικοποιηµένο σύµβολο. Ανάκτηση Πληροφορίας 30
Στατιστικές Μέθοδοι Συµπίεσης Προσαρµοστικά (adaptive) Στατικά (static) Ηµιστατικά (semi-static) Modeling Ανάκτηση Πληροφορίας 31
Στατιστικές Μέθοδοι Συµπίεσης Προσαρµοστικά Μοντέλα: Modeling εν έχουν καµία πληροφορία για το κείµενο, αλλά την αποκτούν σταδιακά καθώς προχωρά η διαδικασία συµπίεσης. Απαιτούν µόνο ένα πέρασµα στοκείµενο εισόδου. Για αρκετά µεγάλα κείµενα το µοντέλα συγκλίνουν στην πραγµατική κατανοµή τουκειµένου. Ηδιαδικασίατηςαποσυµπίεσης πρέπει να ξεκινά από την αρχή. Καλή τεχνική για γενικές εφαρµογές αλλά όχι τόσο καλή για IR. Ανάκτηση Πληροφορίας 32
Στατιστικές Μέθοδοι Συµπίεσης Modeling Στατικά Μοντέλα: Θεωρούν µία µέση κατανοµή όλωντων κειµένων εισόδου. εν έχουν καλό λόγο συµπίεσης όταν το περιεχόµενο του κειµένου ξεφεύγει από τις αρχικές πιθανοτικές εκτιµήσεις (π.χ. οικονοµικά κείµενα τα οποία περιέχουν πολλούς αριθµούς). Ανάκτηση Πληροφορίας 33
Στατιστικές Μέθοδοι Συµπίεσης Ηµιστατικά Μοντέλα: Modeling εν υποθέτουν κατανοµήδεδοµένων, αλλά παίρνουν αυτήν την πληροφορία κατά το πρώτο πέρασµα. Στο δεύτερο πέρασµα γίνεταισυµπίεση µε βάσητα στατιστικά στοιχεία που εξάχθηκαν από το πρώτο πέρασµα. Στη φάση της αποκωδικοποίησης, η στατιστική πληροφορία µεταδίδεται στον decoder πριν την αποστολή του συµπιεσµένου κειµένου. Το βασικό τους µειονέκτηµα είναι τα δύο περάσµατα που απαιτούνται. Επιτρέπεται άµεση προσπέλαση σε οποιοδήποτε σηµείο του κειµένου. Ανάκτηση Πληροφορίας 34
Στατιστικές Μέθοδοι Συµπίεσης Modeling Μοντέλα βασισµένα σε λέξεις (word-based): Επιτυγχάνεται καλύτερος λόγος συµπίεσης. Τα περισσότερα συστήµατα IR στηρίζονται σε λέξεις. Η συχνότητα εµφάνισης λέξεων είναι χρήσιµη στην απάντηση ερωτήσεων τα οποία χρησιµοποιούν πολλές λέξεις µαζί. Η επεξεργασία συνήθως ξεκινά από τη λέξη µετη µικρότερη συχνότητα εµφάνισης. Ανάκτηση Πληροφορίας 35
Στατιστικές Μέθοδοι Συµπίεσης Modeling Μοντέλα βασισµένα σε λέξεις (word-based): Σε µερικές περιπτώσεις παράγονται µεγάλες ποσότητες διαφορετικών κωδικών (π.χ. αριθµοί) Συνήθως οι µέθοδοι που στηρίζονται σε λέξεις είναι αποδοτικές για αρκετά µεγάλα κείµενα. Γιατι; Ανάκτηση Πληροφορίας 36
Στατιστικές Μέθοδοι Συµπίεσης Βασικά Σηµεία: Coding Οκύριοςστόχοςενόςκωδικοποιητήείναιη αντιστοίχιση µικρών κωδικών σε συχνά εµφανιζόµενα σύµβολα και µεγάλων κωδικών σε σπάνια εµφανιζόµενα σύµβολα. Ο χρόνος κωδικοποίησης και αποκωδικοποίησης είναι σηµαντικός. Μερικές φορές προτιµούµε να έχουµε µικρότερο λόγο συµπίεσης προκειµένου να κερδίσουµεσεχρόνο(π.χ. WinZIP). Ανάκτηση Πληροφορίας 37
Στατιστικές Μέθοδοι Συµπίεσης Coding Έστω τα σύµβολα A,B,C,D µε τουςεξήςκωδικούς: Code( A ) = 0 Code( B ) = 000 Code( C ) = 11 Code( D ) = 1 DDDAAA DCB CDAAA DDDB Οκωδικός111000 σε ποια σειρά χαρακτήρων αντιστοιχεί; Ανάκτηση Πληροφορίας 38
Στατιστικές Μέθοδοι Συµπίεσης Βασική προϋπόθεση: Coding Μετά τη φάση της κωδικοποίησης κανένας κωδικός δεν πρέπει να αποτελεί prefix άλλου κωδικού. Ανάκτηση Πληροφορίας 39
Κωδικοποίηση Huffman Έστω το ακόλουθο κείµενο: one two three one two one one one two three four five one: 5/12 two: 3/12 three: 2/12 four: 1/12 five: 1/12 Συχνότητες εµφάνισης λέξεων Ανάκτηση Πληροφορίας 40
Κωδικοποίηση Huffman ένδρο Huffman 0 7/12 0 12/12 0 2/12 0 1 4/12 1 1 1 five 1/12 four 1/12 three 2/12 two 3/12 one 5/12 Ανάκτηση Πληροφορίας 41
Κωδικοποίηση Huffman Μετά την κωδικοποίηση προκύπτουν οι εξής κωδικοί: Τι παρατηρούµε; five: 0000 four: 0001 three: 001 two: 01 one: 1 Ανάκτηση Πληροφορίας 42
Κωδικοποίηση Huffman Τι συµπίεση επιτυγχάνουµεγιατο παράδειγµα; Απαιτούνται 42*8 = 336 bits για το αρχικό κείµενο (χωρίςτουςκενούςχαρακτήρες) Απαιτούνται 25 bits για το συµπιεσµένο κείµενο Ανάκτηση Πληροφορίας 43
Κωδικοποίηση Huffman Έστω το ακόλουθο κείµενο ABRACADABRA A 5/11 B 2/11 C 1/11 D 1/11 R 2/11 Ανάκτηση Πληροφορίας 44
Κωδικοποίηση Huffman 0 ένδρο Huffman 6/11 0 1 2/11 4/11 0 1 0 1 11/11 1 C 1/11 1/11 D 1/11 1/11 B 2/11 2/11 R 2/11 2/11 A 5/11 5/11 000 001 010 011 1 Ανάκτηση Πληροφορίας 45
Λεξικά Οι µέθοδοι βασισµένες σε λεξικά επιτυγχάνουν συµπίεση αντικαθιστώντας σειρές συµβόλων µε δείκτες. Αυτό που πρέπει να προσέξουµε είναιη επιλογή των entries στο λεξικό. Ανάκτηση Πληροφορίας 46
Στατικές Μέθοδοι Λεξικών Οι πιο απλές µέθοδοι χρησιµοποιούν στατικά λεξικά τα οποία περιέχουν µικρές εκφράσεις. Είναι αρκετά γρήγορες και απαιτούν λίγο χρόνο γιαναεπιτύχουνµικρά ποσοστά συµπίεσης. Μία διαδεδοµένη µέθοδος είναι διγραµµατική κωδικοποίηση (digram coding), στην οποία επιλεγµένα ζεύγη γραµµάτων αντικαθιστώνται µε κωδικούς. Το βασικό πρόβληµα των στατικών µεθόδων είναι ότι ένα λεξικό κατάλληλο για ένα κείµενο µπορεί να είναι ακατάλληλο για κάποιο άλλο. Ανάκτηση Πληροφορίας 47
Ηµι-στατικές Μέθοδοι Λεξικών Κατασκευάζουν νέο λεξικό για κάθε νέο κείµενο που συµπιέζεται. Το βασικό πρόβληµαστιςµεθόδους αυτές είναι η επιλογή του λεξικού. Ανάκτηση Πληροφορίας 48
Προσαρµοστικές Μέθοδοι Μέθοδος Ziv-Lempel, 1970 Μία φράση αντικαθίσταται µεένανδείκτηο οποίος αναφέρεται στην προηγούµενη εµφάνιση της φράσης. Η διαδικασία της αποκωδικοποίησης δεν µπορεί να ξεκινήσει από τη µέση του κειµένου, αλλά µόνο από την αρχή. Το ενδιαφέρον για τις µεθόδους βασισµένες σε λεξικά συνεχώς µειώνεται. Ανάκτηση Πληροφορίας 49
Αντεστραµµένο Αρχείο Μία δοµή αντεστραµµένου αρχείου αποτελείται από: Ένα διάνυσµα (vocabulary) το οποίο περιέχει όλες τις διακριτές λέξεις του κειµένου, και Μία λίστα κειµένων για κάθε διακριτή λέξη Ανάκτηση Πληροφορίας 50
Παράδειγµα Λέξεις IDs κειµένων βιβλίο 1, 1, 2, 2, 10, 30,...... µολύβι 1, 1, 2, 2, 10, 40, 43,...... ταινία 11, 21, 22, 23,...... ήχος ήχος 4, 4, 6, 6, 8, 8,...... Ανάκτηση Πληροφορίας 51
Συµπίεση Αντεστραµµένου Αρχείων Το µέγεθος ενός αντεστραµµένου αρχείου µπορεί να περιοριστεί αν συµπιέσουµε τις λίστες. Εφόσον τα IDs των κειµένων είναι σε αύξουσα σειρά, ησειράµπορεί να χαρακτηριστεί σαν ακολουθία από κενά µεταξύ των κειµένων. Βασικό χαρακτηριστικό: για συχνά εµφανιζόµενες λέξεις τα κενά είναι µικρά, ενώ για σπάνιες λέξεις τα κενά είναι µεγάλα. Ανάκτηση Πληροφορίας 52
Unary Code Ένας ακέραιος αριθµός x κωδικοποιείται µε (x-1) άσσους και ακολουθεί ένα µηδενικό. 1, 0 2, 10 3, 110 4, 1110 Ανάκτηση Πληροφορίας 53
Elias - γ Ένας ακέραιος αριθµός x κωδικοποιείται µε την ένωση δύο τµηµάτων: - έναν unary code για τον αριθµό 1+floor(logx) και - έναν κωδικό από floor(logx) bits οοποίος αναπαριστά στο δυαδικό σύστηµατοναριθµό Elias-δ παραλλαγή Ανάκτηση Πληροφορίας 54
Golomb Στα αντεστραµµένα αρχεία η πιθανότητα ένα κενό (gap) να έχει µέγεθος x ισοδυναµεί µετην πιθανότητα να έχουµε x-1 απουσίες της λέξης και να ακολουθεί µία παρουσία της λέξης. Εάν µία λέξη εµφανίζεται σε ένα κείµενο µε πιθανότητα p, η πιθανότητα να υπάρχει gap µεγέθους x δίνεται από τη γεωµετρική κατανοµή P[ x] = p (1 p) x 1 Ανάκτηση Πληροφορίας 55
Παραδείγµατα Gap (x) Unary Elias-γ Elias-δ Golomb b=3 1 0 0 0 00 2 10 100 1000 010 3 110 101 1001 011 4 1110 11000 10100 100 5 11110 11001 10101 1010 6 111110 11010 10110 1011 7 1111110 11011 10111 1100 8 11111110 1110000 11000000 11010 9 111111110 1110001 11000001 11011 10 1111111110 1110010 11000010 11100 Ανάκτηση Πληροφορίας 56
Σύγκριση Μεθόδων Συµπίεσης Χαρακτηριστικό Αριθµητικές Μέθοδοι Huffman character-based Huffman word-based Ziv-Lempel λόγος συµπίεσης Πολύ καλός Όχι καλός Πολύ καλός Καλός ταχύτητα συµπίεσης Αργή Γρήγορη Γρήγορη Πολύ γρήγορη ταχύτητα αποσυµπίεσης Αργή Γρήγορη Πολύ γρήγορη Πολύ γρήγορη µνήµη Χαµηλή Χαµηλή Υψηλή Μέτρια αναζήτηση σε συµπιεσµένο κείµενο Όχι Ναι Ναι Ναι τυχαία προσπέλαση Όχι Ναι Ναι Όχι Ανάκτηση Πληροφορίας 57
Τάσεις και Έρευνα Η τάση στα σύγχρονα συστήµατα IR είναι η χρήση semi-static word-based Huffman coding. Τα πειραµατικά αποτελέσµατα έχουν δείξει ότι είναιοιπλέοναποτελεσµατικές µέθοδοι. Με τη δυνατότητα που υπάρχει να αναζητούµε απευθείας στο συµπιεσµένο κείµενο, υπάρχει η τάση τόσο ο index όσο και το κείµενο να παραµένουν συµπιεσµένα και να αποσυµπιέζονται µόνο µετά από απαίτηση του χρήστη. Ανάκτηση Πληροφορίας 58
Σύνοψη Προεπεξεργασία κειµένων Λεκτική ανάλυση (lexical analysis) Απαλοιφή stopwords Stemming Επιλογή index terms ηµιουργία δοµών κατηγοριών Συµπίεση κειµένων Μοντελοποίηση Κωδικοποίηση Ανάκτηση Πληροφορίας 59