ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ

Σχετικά έγγραφα
Επεξεργασία Πολυµέσων. Δρ. Μαρία Κοζύρη Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας

Δομές Δεδομένων και Αλγόριθμοι

Τεχνικές Συµπίεσης Βίντεο. Δρ. Μαρία Κοζύρη Τµήµα Πληροφορικής Πανεπιστήµιο Θεσσαλίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Συμβολοσειρές. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Συμπίεση Δεδομένων

Τεχνολογία Πολυμέσων. Ενότητα # 9: Κωδικοποίηση εντροπίας Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Regular Expressions ΓΛΩΣΣΙΚΉ ΤΕΧΝΟΛΟΓΊΑ

Μελετάμε την περίπτωση όπου αποθηκεύουμε ένα (δυναμικό) σύνολο στοιχειών. Ένα στοιχείο γράφεται ως, όπου κάθε.

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Ανάκτηση Πληροφορίας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Επεξεργασία Χαρτογραφικής Εικόνας

Γλωσσική Τεχνολογία. String Handling Regular Expressions

Δομές Δεδομένων & Αλγόριθμοι

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 3 : Πηγές Πληροφορίας Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

FSM Toolkit Exercises

Ο Αλγόριθμος FP-Growth

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Κωδικοποίηση Πηγής. Δρ. Α. Πολίτης

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών 6

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (2)

Ανάλυση Συσχέτισης IΙ

Εισαγωγή στην Επιστήμη των Υπολογιστών

7ο ΕΡΓΑΣΤΗΡΙΟ AAAABBBBAAAAABBBBBBCCCCCCCCCCCCCCBBABAAAABBBBBBCCCCD

Κωδικοποίηση Πηγής. Η λειτουργία ενός συστήματος επικοινωνίας (γενικό διάγραμμα):

Θεωρία Υπολογισμού και Πολυπλοκότητα Κανονικές Γλώσσες (2)

Ερώτημα 1. Μας δίνεται μια συλλογή από k ακολοθίες, k >=2 και αναζητούμε το πρότυπο Ρ, μεγέθους n.

Σχεδιαση Αλγοριθμων -Τμημα Πληροφορικης ΑΠΘ - Κεφαλαιο 9ο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΑΣΚΗΣΗ 5 Ανάπτυξη Προγράμματος Συμπίεσης/Αποσυμπίεσης Αρχείων

Θεωρία Υπολογισμού και Πολυπλοκότητα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΗ ΑΣΚΗΣΗ 2

Elements of Information Theory

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Μορφοποίηση υπό όρους : Μορφή > Μορφοποίηση υπό όρους/γραμμές δεδομένων/μορφοποίηση μόο των κελιών που περιέχουν/

Ψηφιακή Επεξεργασία Εικόνας

Τεχνητή Νοημοσύνη. 21η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 5: Κανονικές Εκφράσεις

Αυτόματα. Παράδειγμα: πωλητής καφέ (iii) Παράδειγμα: πωλητής καφέ (iv) Εισαγωγή στην Επιστήμη των Υπολογιστών. Προδιαγραφές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Μεταγλωττιστές. Ενότητα 2: Τυπικές γλώσσες (Μέρος 1 ο ) Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Στο εργαστήριο θα μελετηθούν: Διδάσκων: Γιώργος Χατζηπολλάς. Εργαστήριο 2: Εργαλεία Συστήματος UNIX. Ομάδες για παρουσίαση

Θεωρία τησ Πληροφορίασ (Θ) ΔΙΔΑΚΩΝ: Δρ. Αναςτάςιοσ Πολίτησ

Συστήματα Ανάκτησης Πληροφοριών ΗΥ-463

Ανάκτηση Πληροφορίας

Αριθμητική Κωδικοποίηση

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Κωδικοποίηση εικόνων κατά JPEG

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

ΑΝΑΠΑΡΑΣΤΑΣΗ ΚΕΙΜΕΝΟΥ

Αντισταθμιστική ανάλυση

C.S. 430 Assignment 6, Sample Solutions

k A = [k, k]( )[a 1, a 2 ] = [ka 1,ka 2 ] 4For the division of two intervals of confidence in R +

Insert (P) : Προσθέτει ένα νέο πρότυπο P στο λεξικό D. Delete (P) : Διαγράφει το πρότυπο P από το λεξικό D

Μάθημα Εισαγωγή στις Τηλεπικοινωνίες Κωδικοποίηση πηγής- καναλιού Μάθημα 9o

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 2 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Mεταγλωττιστές. 4 ο εργαστηριακό μάθημα Λεξική ανάλυση και flex. Θεωρία

ΗΥ360 Αρχεία και Βάσεις εδοµένων

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

ΘΕΩΡΙΑ ΥΠΟΛΟΓΙΣΜΩΝ ΚΑΙ ΑΥΤΟΜΑΤΩΝ

Συμπίεση Πολυμεσικών Δεδομένων

Δυαδικά Δέντρα Αναζήτησης (Binary Search Trees) Ορισμός : Ένα δυαδικό δέντρο αναζήτησης t είναι ένα δυαδικό δέντρο, το οποίο είτε είναι κενό είτε:

Μάθημα 7 ο. Συμπίεση Εικόνας ΤΜΗΥΠ / ΕΕΣΤ 1

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις

Επίλυση Προβληµάτων µε Greedy Αλγόριθµους

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 6 η : Συμπίεση Εικόνας. Καθ. Κωνσταντίνος Μπερμπερίδης Πολυτεχνική Σχολή Μηχανικών Η/Υ & Πληροφορικής

Εισαγωγή στα Λειτουργικά Συστήματα

Μεταγλωττιστές. Γιώργος Δημητρίου. Μάθημα 3 ο. Πανεπιστήμιο Θεσσαλίας - Τμήμα Πληροφορικής

Ασκήσεις από παλιές εξετάσεις

Διάλεξη 6 Εργαλεία Ωφελιμότητας Unix: Sed

Θέματα Συστημάτων Πολυμέσων. Ενότητα # 7: JPEG Διδάσκων: Γεώργιος Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

Θεωρία Υπολογισμού και Πολυπλοκότητα Ασυμφραστικές Γλώσσες (1)

Θεωρία Υπολογισμού και Πολυπλοκότητα Κανονικές Γλώσσες (1)

Ποιές οι θεµελιώδεις δυνατότητες και ποιοί οι εγγενείς περιορισµοί των υπολογιστών ; Τί µπορούµε και τί δε µπορούµε να υπολογίσουµε (και γιατί);

Στοιχεία Θεωρίας Υπολογισµού (1): Τυπικές Γλώσσες, Γραµµατικές

Ισορροπημένα Δένδρα. για κάθε λειτουργία; Ισορροπημένο δένδρο : Διατηρεί ύψος κάθε εισαγωγή ή διαγραφή

The Simply Typed Lambda Calculus

ΟιβασικέςπράξειςπουορίζουντονΑΤΔ δυαδικό δέντρο αναζήτησης είναι οι ακόλουθες:

Μπαλτάς Αλέξανδρος 21 Απριλίου 2015

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Συμπίεση Δεδομένων

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 7: Ασυμφραστικές Γλώσσες (Γλώσσες Ελεύθερες Συμφραζομένων)

Κεφάλαιο 2: Τυπικές γλώσσες. Νίκος Παπασπύρου, Κωστής Σαγώνας Μεταγλωττιστές Μάρτιος / 216

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

ΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ

Εισαγωγή στην Επιστήμη Υπολογιστών. Εισαγωγή στην Python

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο

Θέματα Συστημάτων Πολυμέσων

1 η ΑΣΚΗΣΗ ΣΤΗΝ ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΥΠΟΛΟΓΙΣΤΩΝ. Ακ. έτος , 5ο Εξάμηνο, Σχολή ΗΜ&ΜΥ

Σειρά Προβλημάτων 1 Λύσεις

Θεωρία Υπολογισμού Αλφάβητα, Γλώσσες, Κανονικές Εκφράσεις

ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ I

Transcript:

ΤΕΧΝΟΛΟΓΙΕΣ ΠΟΛΥΜΕΣΩΝ Κείμενα Ν. Μ. Σγούρος (sgouros@unipi.gr)

Επεξεργασία Κειμένων Αναζήτηση Ακολουθιακή Αναζήτηση, Δομές Trie Συμπίεση Huffmann Coding, Run-Length Encoding, Burrows- Wheeler Κρυπτογράφηση Στατιστική Ανάλυση Εντοπισμός Διαφορών, Ανίχνευση Ομοιοτύπων (patterns)

Αναζήτηση Όρισε ένα σύνολο απο λέξεις-κλειδιά Κανονικές Εκφράσεις (Regular Expressions) Ανακάλυψε ποιές από τις λέξεις-κλειδιά περιέχονται στο κείμενο Επέστρεψε τις θέσεις στις οποίες καθεμία από τις λέξεις-κλειδιά εμφανίζεται στο κέιμενο

Κανονικές Εκφράσεις Μια κανονική έκφραση μπορεί να είναι:

Παραδείγματα a b* αναπαριστά {ε, "a", "b", "bb", "bbb",...} (a b)* αναπαριστά το σύνολο όλων των συμβολοσειρών που περιέχουν οποιονδήποτε συνδυασμό των συμβόλων "a" και "b" μαζί με την κενή συμβολοσειρά: {ε, "a", "b", "aa", "ab", "ba", "bb", "aaa",...} ab*(c ε) αναπαριστά το σύνολο όλων των συμβολοσειρών που αρχίζουν με "a", ακολουθούνται από μηδέν ή περισσότερα "b" και προαιρετικά μπορούν να τελειώνουν με ένα "c": {"a", "ac", "ab", "abc", "abb", "abbc",...}

Συντακτικό POSIX. Matches any single character For example, a.c matches "abc", etc., but [a.c] matches only "a", ".", or "c". [ ] Matches a single character that is contained within the brackets. For example, [abc] matches "a", "b", or "c". [a-z] specifies a range which matches any lowercase letter from "a" to "z". These forms can be mixed: [abcx-z] matches "a", "b", "c", "x", "y", or "z", as does [a-cx-z]. [^ ] Matches a single character that is not contained within the brackets. ^ Matches the starting position within the string. $ Matches the ending position of the string.

Συντακτικό POSIX ( ) Defines a marked subexpression. \n Matches what the nth marked subexpression matched, where n is a digit from 1 to 9. * Matches the preceding element zero or more times. For example, ab*c matches "ac", "abc", "abbbc", etc. [xyz]* matches "", "x", "y", "z", "zx", "zyx", "xyzzy", and so on. (ab)* matches "", "ab", "abab", "ababab", and so on. {m,n} Matches the preceding element at least m and not more than n times. For example, a{3,5} matches only "aaa", "aaaa", and "aaaaa".

Παραδείγματα.at matches any three-character string ending with "at", including "hat", "cat", and "bat". [hc]at matches "hat" and "cat". [^b]at matches all strings matched by.at except "bat". [^hc]at matches all strings matched by.at other than "hat" and "cat". ^[hc]at matches "hat" and "cat", but only at the beginning of the string or line. [hc]at$ matches "hat" and "cat", but only at the end of the string or line.

Αναγνώριση Κανονικών Εκφράσεων Μετατροπή κανονικών εκφράσεων σε ένα Μη Ντετερμινιστικό Πεπερασμένο Αυτόματο (ΜΠΑ) Σε ένα ΜΠΑ μπορεί να υπάρχουν: περισσότερες από μια μεταβάσεις που σημειώνονται με τον ίδιο χαρακτήρα κενές μεταβάσεις Παραγωγή από το ΜΠΑ ενός Ντετερμινιστικού Πεπερασμένου Αυτόματου (ΝΠΑ)

Παραδείγματα Αυτομάτων

Ακολουθιακή Αναζήτηση Για κάθε θέση του κειμένου έλεγξε αν η συμβολοσειρά που αρχίζει από αυτήν είναι ίδια με την λέξη-κλειδί Πολυπλοκότητα O(nm) στη χειρότερη περίπτωση, O(n+m) κατά μέσο όρο όπου n το μήκος του κειμένου και m το μήκος του κλειδιού.

Αναζήτηση Καταλόγου (Index Search) Αποθήκευσε το κείμενο σε μια καινούργια δομή δεδομένων που να διευκολύνει την αναζήτηση Ευρετήρια (inverted indices) Δέντρα επιθεμάτων (suffix trees) Εφάρμοσε ένα αλγόριθμο αναζήτησης στην νέα δομή.

Inverted Index Αποθήκευσε τις θέσεις στις οποίες εμφανίζεται κάθε λέξη του κειμένου Ταξινόμησε λεξικογραφικά το ευρετήριο που κατασκευάστηκε στο προηγούμενο βήμα (+) Γρήγορη εύρεση των θέσεων, (-) Μεγάλο μήκος ευρετηρίου O(n) όπου n ο αριθμός των λέξεων του κειμένου

Δέντρo Επιθεμάτων (Suffix Tree) Αποθήκευσε όλα τα επιθέματα στο κείμενο σε ένα δέντρο

Ορισμός Suffix Tree Το δέντρο έχει ακριβώς n φύλλα, όπου n το μήκος του κειμένου. Εξαιρουμένης της ρίζας καθε εσωτερικός κόμβος έχει τουλάχιστον δύο παιδιά. Κάθε ακμή αναπαριστά μια μη κενή συμβολοσειρά του κειμένου. Οποιεσδήποτε δυο ακμές που ξεκινούν από ένα κόμβο δεν μπορούν να αναπαριστούν συμβολοσειρές που αρχίζουν με τον ίδιο χαρακτήρα. Η συμβολοσειρά που σχηματίζεται ακολουθώντας ένα οποιοδήποτε μονοπάτι από τη ρίζα σε ένα φύλλο αποτελεί ένα επίθεμα του κειμένου.

Χαρακτηριστικά Suffix Tree Αφου κατασκευαστεί το δέντρο η αναζήτηση επιτυγχάνεται σε λογαριθμκό χρόνο Η κατασκευή του δέντρου έχει πολυπλοκότητα Ο(nlog(n)) Απαντά σε σύνθετα ερωτήματα όπως η εύρεση της μέγιστης κοινής συμβολοσειράς μεταξύ δυο κειμένων

Συμπίεση Η κωδικοποίηση μιας πηγής πληροφορίας με μικρότερο αιρθμό bits από την αρχική μορφή της. Η συμπίεση μπορεί να είναι μη απωλεστική (lossless) ή απωλεστική (lossy)

Ποιότητα Συμπίεσης Μέγεθος συμπιεσμένης πηγής Λόγος συμπίεσης =(μέγεθος ασυμπίεστης πηγής)/(μέγεθος συμπιεσμένης πηγής) Διάρκεια Συμπίεσης/Αποσυμπίεσης Ποιότητα Αποσυμπιεσμένης Πηγής Benchmark Archive Comparison Test (Act) - http://http://compression.ca/

Φάσεις Συμπίεσης Μοντελοποίηση Δημιουργία πιθανοτικών κατανομών στα μηνύματα της πηγής με βάση την εξέταση της δομής τους Κωδικοποίηση Δημιουργία κώδικα για κάθε μήνυμα με βάση το μοντέλο της πηγής Variable length coding

Εντροπία Αν S έιναι ένα σύνολο από πιθανά μηνύματα και p(s) η πιθανότητα εμφάνισης ενός s S τότε η ιδιοπληροφορία (self-information) του μηνύματος s και η εντροπία του S ορίζoνται ως:

Παραδείγματα Εντροπίας

Εντροπία της Αγγλικής Γλώσσας

Huffman Coding Κάθε σύμβολο κωδικοποιείται με μήκος λέξης αντιστρόφως ανάλογο της συχνότητας εμφάνισης του στο κείμενο Ο παραγόμενος κώδικας είναι ακριβής (όχι αμφίσημος) Prefix code (Καμμία συμβολοσειρά που κωδικοποιεί ένα σύμβολο δεν αποτελεί πρόθεμα κάποιας άλλης).

Prefix Code Ο κώδικας αναπαριστάται ως ένα δυαδικό δέντρο: Κάθε φύλλο αποτελεί ένα μήνυμα Ο κώδικιας για κάθε μήνυμα παράγεται ακολουθώντας ένα μονοπάτι από τη ρίζα στο φύλλο και προσθέτοντας 0 κάθε φορά που ακολουθείται ένα αριστερό κλαδί και 1 κάθε φορά που ακολουθείται ένα αριστερό κλαδί

Παράδειγμα this is an example of a huffman tree

Run-Length Encoding (RLE) Αντικατέστησε μια επαναλαμβανόμενη ακολουθία χαρακτήρων από τον αριθμό των επαναλήψεων και την ακολουθία Χρησιμοποιείται κυρίως σε εικόνες κειμένων

Lempel-Ziv (.zip,.gzip...) Η μέθοδος διατηρεί ένα ιστορικό των χαρακτήρων που έχει επεξεργαστεί και προσπαθεί να αντιστοιχήσει το επόμενο τμήμα του μηνύματος με αυτό. Αν δεν υπάρχει αντιστοίχιση επιστρέφει το επόμενο σύμβολο του μηνύματος αλλοιώς επιστρέφει ένα ζεύγος (offset, length) το οποίο δηλώνει τη θέση (offset) στην οποία έχει γίνει η αντιστόχιση στο ιστορικό αρχίζοντας απο το τέλος του ιστορικού και το μήκος (length) της συμβολοσειράς που αντιστοιχήθηκε

Παράδειγμα

Παράδειγμα