Εισαγωγή: Εφαρµογή του βίντεο στη διδασκαλία από απόσταση, και ορισµός του βίντεο κατ απαίτηση



Σχετικά έγγραφα
ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Κωδικοποίηση εικόνας

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Εισαγωγή. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

Βίντεο και κινούµενα σχέδια

ΒΕΣ 04: Συµπίεση και Μετάδοση Πολυµέσων. Περιεχόµενα. Βιβλιογραφία. Συµπίεση εικόνων: Το πρότυπο JPEG. Εισαγωγή. Ευθύς µετασχηµατισµός DCT

Συµπίεση Εικόνας: Το πρότυπο JPEG

Επεξεργασία Χαρτογραφικής Εικόνας

ΕΙΔΗ ΠΛΑΙΣΙΩΝ Ενδο-πλαισιακή κωδικοποίηση (Intra- frame Coding): Δια-πλαισιακή κωδικοποίηση (Inter-frame Coding):

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Κωδικοποίηση βίντεο (H.261 / DVI)

Group (JPEG) το 1992.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

Συµπίεση Ψηφιακών Εικόνων: Συµπίεση µε Απώλειες. Πρότυπα Συµπίεσης Εικόνων

Συστήματα Πολυμέσων. Ενότητα 7: Συμπίεση Εικόνας κατά JPEG. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Βίντεο. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 06-1

19/3/2007 Πολυµέσα και Συµπίεση εδοµένων

Εφαρμογές που συνδυάζουν ταυτόχρονα πολλαπλά μέσα : Κί Κείμενο, Εικόνα, Ήχος, Video, Animation. Στα υπερμέσα η πρόσπέλαση της πληροφορίας γίνεται

Ανάλυση Διατάξεων Εκπομπής σε Συστήματα Ψηφιακής Τηλεόρασης Υψηλής Ευκρίνειας

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Εικόνα. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 05-1

Βασικές έννοιες. Αναλογικό Βίντεο. Ψηφιακό Βίντεο. Κινούμενα γραφικά (animation)( Πλαίσιο (frame, καρέ) Ρυθμός πλαισίων (frame rate)

Εικόνες και γραφικά. Τεχνολογία Πολυµέσων 05-1

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Εισαγωγή

Συστήματα Πολυμέσων. Ενότητα 15: Συμπίεση Ψηφιακού Βίντεο. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

χωρίςναδηµιουργείταιαίσθησηαπώλειαςτηςποιότηταςτηςανακατασκευασµένηςεικόνας.

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

DIP_06 Συμπίεση εικόνας - JPEG. ΤΕΙ Κρήτης

2.0 ΒΑΣΙΚΕΣ ΓΝΩΣΕΙΣ-ΟΡΟΛΟΓΙΕΣ

ΕΝΟΤΗΤΑ ΤΗΛΕΟΡΑΣΗ ΕΙΣΑΓΩΓΗ

Τεχνολογία Πολυμέσων. Ενότητα # 11: Κωδικοποίηση εικόνων: JPEG Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση 12 η. Θεωρία Χρώματος και Επεξεργασία Έγχρωμων Εικόνων

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΠΛΗ21 Κεφάλαιο 1. ΠΛΗ21 Ψηφιακά Συστήματα: Τόμος Α Κεφάλαιο: 1 Εισαγωγή

Η ανάγκη για συμπίεση

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

Συστήµατα και Αλγόριθµοι Πολυµέσων

Επεξεργασία Χαρτογραφικής Εικόνας

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18

Θέμα: «ΣΥΜΠΙΕΣΗ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΠΟΛΥΜΕΣΑ» Εισηγητής: Παναγιώτης Γιώτης 20 Μαϊου 2007 Αθήνα

ΠΛΗΡΟΦΟΡΙΚΗ I. 7 η ΔΙΑΛΕΞΗ Γραφικά με Υπολογιστή

Αντοχή (ruggedness) στο θόρυβο μετάδοσης Αποτελεσματική αναγέννηση (regeneration) Δυνατότητα ομοιόμορφου σχήματος (uniform format) μετάδοσης Όμως:

VIDEO ΚΑΙ ΕΦΑΡΜΟΓΕΣ. Υπάρχουσες εφαρμογές:

Κωδικοποίηση βίντεο (MPEG)

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

Θέματα Συστημάτων Πολυμέσων. Ενότητα #3: Ιδιότητες μέσων Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

ΚΕΦΑΛΑΙΟ 7 ΕΠΕΞΕΡΓΑΣΙΑ ΚΑΙ ΜΕΤΑΔΟΣΗ ΨΗΦΙΑΚΩΝ ΔΕΔΟΜΕΝΩΝ

Τεχνολογία Πολυμέσων. Ενότητα # 6: Βίντεο Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Κωδικοποίηση βίντεο (MPEG)

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. MPEG 2 bitstream και πολυπλεξία

Κωδικοποίηση εικόνων κατά JPEG

Έγχρωµο και Ασπρόµαυρο Φως

Συµπίεση Δεδοµένων: Συµπίεση Ψηφιακού Βίντεο

ΣΧΕΔΙΑΣΗ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΧΡΗΣΗ ΥΠΟΛΟΓΙΣΤΩΝ (E-CAD) ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ

Τμήμα Επιστήμης Υπολογιστών ΗΥ-474. Ψηφιακή Εικόνα. Χωρική ανάλυση Αρχεία εικόνων

Εισαγωγή στην επιστήμη των υπολογιστών. Υπολογιστές και Δεδομένα Κεφάλαιο 2ο Αναπαράσταση Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Αρχιτεκτονική Μηχανής. Αποθήκευση εδοµένων

Συστήματα Επικοινωνιών ΙI

ΨΗΦΙΑΚΗΕΠΕΞΕΡΓΑΣΙΑVIDEO ΣΠΟΥ ΑΣΤΗΣ: ΠΑΣΜΑΤΖΙ ΗΣ ΙΩΑΝΝΗΣ

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Πόσες λέξεις αξίζει µια εικόνα; Εικόνα

Αφήγηση Μαρτυρία. Μουσική. Ενίσχυση μηνύματος Μουσική επένδυση Ηχητικά εφέ

Επεξεργασία Χαρτογραφικής Εικόνας

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τι συσχετίζεται με τον ήχο

Τμήμα Λογιστικής. Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές. Μαθήματα 6 και 7 Αναπαράσταση της Πληροφορίας στον Υπολογιστή. 1 Στέργιος Παλαμάς

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Βιβλιογραφία. Κατηγορίες τεχνικών συµπίεσης. Τεχνικές Συµπίεσης

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Γιατί Συµπίεση; Βιβλιογραφία

Βίντεο και κινούµενα σχέδια

Εισαγωγή στα ψηφιακά Συστήµατα Μετρήσεων

Συμπίεση Πολυμεσικών Δεδομένων

Εφαρμογές Πληροφορικής

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Πολυμέσα. Συμπίεση δεδομένων Κωδικοποίηση MPEG. Δρ. Γεώργιος Π. Παυλίδης ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ

Τι είναι τα πολυμέσα;

Τεχνολογία Πολυμέσων. Ενότητα # 12: Κωδικοποίηση βίντεο: H.26x Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΒΑΣΙΚΑ ΘΕΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΚΡΗΤΗΣ

Θέματα Συστημάτων Πολυμέσων. Ενότητα # 7: JPEG Διδάσκων: Γεώργιος Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

Ερωτήσεις Απαντήσεις επανάληψης κεφ.9 (Πολυμέσα).

Πολυπλεξία. Creative Commons License 3.0 Share-Alike

ΓΝΩΡΙΜΙΑ ΜΕ ΤΟΝ ΠΑΛΜΟΓΡΑΦΟ

Τηλεπικοινωνιακά Συστήματα Ι

«Επικοινωνίες δεδομένων»

ΠΑΡΑΓΩΓΗ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ

ΕΠΙΧΕΙΡΗΣΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΚΡΗΤΗΣ

Τεχνολογία Πολυμέσων. Ενότητα 9: Αναλογικό Βίντεο. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Δ10. Συμπίεση Δεδομένων

Transcript:

Μετάδοση αρχείων εικόνας και ήχου µέσω δικτύων ηλεκτρονικών υπολογιστών για διδασκαλία από απόσταση, και οργάνωση του υλικού σε βάση δεδοµένων Ριζάκος Κωνσταντίνος Περιεχόµενα Εισαγωγή: Εφαρµογή του βίντεο στη διδασκαλία από απόσταση, και ορισµός του βίντεο κατ απαίτηση Κεφάλαιο 1: Από το αναλογικό στο ψηφιακό βίντεο Κεφάλαιο 2: Τεχνολογίες δικτύων υπολογιστών για µετάδοση βίντεο Κεφάλαιο 3: Μέθοδοι εκποµπής και λήψης Κεφάλαιο 4: Αναζήτηση υλικού σε βάση δεδοµένων Κεφάλαιο 5: ηµιουργία του συστήµατος µετάδοσης βίντεο Κεφάλαιο 6: Νέες τεχνολογίες και προοπτικές αναβάθµισης της υπηρεσίας Σελίδα 1

Εισαγωγή «Βίντεο κατ απαίτηση» Σε µια εφαρµογή όπως είναι η διδασκαλία από απόσταση, τα οπτικοακουστικά µέσα αποτελούν ένα πολύ ισχυρό εργαλείο, µε το οποίο ο διδάσκων µπορεί να κάνει το αντικείµενο της διδασκαλίας του πιο εύκολα κατανοητό στο κοινό του. Στόχος µας είναι η ανάπτυξη ενός συστήµατος που χρησιµοποιεί το διαδίκτυο για τη µετάδοση πολυµεσικού υλικού προς τους διδασκόµενους, µέσω ενός ολοκληρωµένου διαδραστικού περιβάλλοντος. Τα τελευταία χρόνια υπάρχει µεγάλη ανάπτυξη στα δίκτυα υπολογιστών, µε αποτέλεσµα τη δηµιουργία ενός ενιαίου παγκόσµιου δικτύου υπολογιστών, του διαδικτύου. Αυτή η στροφή από τον αποµονωµένο υπολογιστή - σταθµό εργασίας, προς τον υπολογιστή µέρος του δικτύου, δηµιούργησε τις προϋποθέσεις για επικοινωνία και πρόσβαση σε πληροφορίες ανεξαρτήτως γεωγραφικής θέσης. Με το διαδίκτυο άνοιξε ο δρόµος για δηµιουργία νέων υπηρεσιών όπως οι κόµβοι πληροφόρησης, το ηλεκτρονικό εµπόριο, η διδασκαλία από απόσταση, και το βίντεο κατ απαίτηση. Οι πληροφορίες που παρέχονται πλέον από το διαδίκτυο είναι σε µορφή κειµένου, εικόνας, ήχου και βίντεο. Η µεταφορά του κειµένου και της ακίνητης εικόνας είναι εύκολη υπόθεση. Όµως, η µεταφορά ήχου και κινούµενης εικόνας λόγω του µεγάλου όγκου και της ανάγκης χρονικά µη διακοπτόµενης µετάδοσης έχει µεγαλύτερες απαιτήσεις, και χρειάζεται ιδιαίτερη µεταχείριση. Για την εκπαίδευση από απόσταση ο χρήστης πρέπει να έχει πρόσβαση σε πηγές βίντεο άµεσα όποτε το απαιτεί. Συνεπώς πρέπει να υπερβούµε τις δυσκολίες µετάδοσης και µεταφοράς του ήχου και του βίντεο. Μελετήσαµε λοιπόν τις υπάρχουσες τεχνολογίες και τεχνικές στους τοµείς της τηλεοπτικής εικόνας, των δικτύων υπολογιστών, των ροών δεδοµένων και των βάσεων δεδοµένων, προκειµένου να κατανοήσουµε τα προβλήµατα και να εφαρµόσουµε τη βέλτιστη λύση για την ανάπτυξη µιας πρότυπης εφαρµογής εκπαίδευσης από απόσταση στο χώρο του εργαστηρίου ηλεκτρακουστικής και τηλεοπτικών συστηµάτων. Η εφαρµογή που αναπτύχθηκε αποτελείται από πολλές διακριτές υπηρεσίες που εδράζονται σε διαφορετικούς υπολογιστές εξυπηρετητές. Το περιβάλλον χρήσης και διαχείρισης είναι φιλικό προς το χρήστη, γρήγορο στην επεξεργασία πληροφοριών, ανθεκτικό στις αστοχίες και εύκολο προς διαχείριση και αναβάθµιση. Η συγκεκριµένη εφαρµογή είναι δοµηµένη µε τέτοιο τρόπο ώστε να µπορεί να χρησιµοποιηθεί ως υποδοµή για µελλοντικές υπηρεσίες διδασκαλίας από απόσταση. Σελίδα 2

Κεφάλαιο 1 Από το αναλογικό στο ψηφιακό βίντεο 1.1 Αναλογικό βίντεο 1.1.1 Η αίσθηση της κινούµενης εικόνας Το ανθρώπινο µάτι έχει την ιδιότητα να διατηρεί για µερικά χιλιοστά του δευτερολέπτου την αίσθηση µιας εικόνας που έχει αποτυπωθεί ως ερέθισµα πάνω στον αµφιβληστροειδή χιτώνα. Αν µια ακολουθία στατικών εικόνων εναλλάσσεται µε γρήγορο ρυθµό (24 ή παραπάνω εικόνες ανά δευτερόλεπτο), το µάτι δεν αντιλαµβάνεται ότι βλέπει διαφορετικές διακριτές εικόνες, αλλά µια οµαλή µεταβολή της εικόνας που παρακολουθεί. Όλα τα συστήµατα κινούµενης εικόνας εκµεταλλεύονται αυτή τη χρονική υστέρηση του µατιού. 1.1.2 Εικονοληψία Για να είναι δυνατόν να µεταδοθεί και να αποθηκευτεί η κινούµενη εικόνα, είναι αναγκαίο να µετατραπεί η πληροφορία που περιέχει σε ηλεκτρικό σήµα σαν συνάρτηση του χρόνου: Το φως της εικόνας διεγείρει µια φωτοευαίσθητη πλάκα την οποία σαρώνει η κάµερα µε µια ακτίνα που ακτινοβολείται από ένα ηλεκτρονικό πυροβόλο. Με αυτό τον τρόπο η κάµερα µετατρέπει την ένταση του φωτός σε κάθε σηµείο της εικόνας σε ένα αντίστοιχο ηλεκτρικό σήµα[1]. Η σάρωση ξεκινάει από το πάνω αριστερό τµήµα της εικόνας και ανιχνεύονται τα σηµεία οριζόντια, κατά το πλάτος της εικόνας (Σχ.1.1). Ο αισθητήρας δίνει µια συνεχή έξοδο η οποία παριστάνει τη µεταβολή της φωτεινότητας η οποία παρατηρείται ανιχνεύοντας κατά πλάτος. Στο δεξί άκρο της εικόνας η ανίχνευση σταµατάει, και ξεκινάει πάλι από αριστερά και πιο κάτω, για να ανιχνεύσει την επόµενη σειρά σηµείων. Αυτό συνεχίζεται µέχρι να φτάσει στη βάση της εικόνας, οπότε η ανίχνευση ξεκινάει πάλι από πάνω αριστερά. Μια πλήρης ανίχνευση όλων των σηµείων της εικόνας ονοµάζεται καρέ (frame). Η περιοχή αναπαραγωγής του ειδώλου ονοµάζεται raster. Σηµείο εκκίνησης οριζόντια διεύθυνση ανίχνευσης κατακόρυφη διεύθυνση ανίχνευσης ανίχνευση επαναφορά Σχήµα 1.1: Προοδευτική ανίχνευση εικόνας Σελίδα 3

Μια εναλλακτική µέθοδος σε αυτήν που περιγράφτηκε παραπάνω, η οποία ονοµάζεται προοδευτική ανίχνευση (progressive scanning), είναι η πεπλεγµένη ανίχνευση (interlaced scanning), η οποία χρησιµοποιείται εκτενώς στα τηλεοπτικά συστήµατα, γιατί επιτρέπει µια 2:1 ελάττωση του ρυθµού εµφάνισης των καρέ (frame rate), οπότε και του απαιτούµενου εύρους ζώνης (bandwidth) [33]: η πλήρης ανίχνευση της εικόνας κατά τον κατακόρυφο άξονα περιέχει µόνο τις µισές γραµµές από την προοδευτική ανίχνευση, οπότε χρειάζονται δύο ανιχνεύσεις για να έχουµε µια πλήρη εικόνα 1. Η πρώτη ανίχνευση ξεκινάει µε µια πλήρη γραµµή (Σχ.1.2) και περιλαµβάνει τις περιττές γραµµές, ενώ η δεύτερη ξεκινάει µε µια µισή γραµµή και περιλαµβάνει τις άρτιες. Το µειονέκτηµα της πεπλεγµένης ανίχνευσης είναι η ατελής ή προβληµατική αναπαραγωγή µικρών οριζόντιων τµηµάτων (όπως τα γράµµατα) µε λεπτοµέρεια, επειδή οι άκρες τους τρεµοπαίζουν. 1 Το προϊόν της κάθε ανίχνευσης µε τον πεπλεγµένο τρόπο ονοµάζεται πεδίο (field). Σηµείο εκκίνησης 1 οριζόντια διεύθυνση ανίχνευσης Σηµείο εκκίνησης2 κατακόρυφη διεύθυνση ανίχνευσης ανίχνευση επαναφορά Σχήµα 1.2: Πεπλεγµένη ανίχνευση εικόνας Τα δύο πιο διαδεδοµένα συστήµατα µετάδοσης εικόνας, το PAL (Ευρώπη) και το NTSC (Αµερική και Ιαπωνία), χρησιµοποιούν την πεπλεγµένη σάρωση. Τυπικές τιµές για την ποσότητα των γραµµών που σαρώνονται είναι 625 για το πρώτο και 525 για το δεύτερο σύστηµα. Όπως φαίνεται από τα σχήµατα, δεν ορίζεται οριζόντια ανάλυση (αριθµός στηλών) για τα συστήµατα αυτά, µια και αυτή δεν έχει νόηµα, γιατί το ηλεκτρονικό πυροβόλο που κάνει την αναπαραγωγή δεν διακρίνει τα εικονοστοιχεία. Εκτός από την σάρωση µε ηλεκτρονικό πυροβόλο, υπάρχει και ένας άλλος τρόπος αποτύπωσης της εικόνας, µε τη χρήση του CCD (Charge Coupled Device). Το CCD είναι µια συστοιχία από τρανζίστορ, διατεταγµένα σαν πλέγµα, τα οποία διεγειρόµενα από την ένταση του φωτός στην εικόνα παράγουν ηλεκτρικές τάσεις. Οι τάσεις αυτές στη συνέχεια µετατρέπονται σε µια σειρά από bits, από έναν µετατροπέα ψηφιακού προς αναλογικό σήµα (Σχ.1.3). Και εδώ η σάρωση γίνεται µε την ίδια διεύθυνση όπως παραπάνω, οπότε χρειάζεται συγχρονισµός οριζόντιας και κάθετης διεύθυνσης. Η διαφορά σε σχέση µε την σάρωση των γραµµών είναι ότι στην εικονοληψία µε CCD, υπάρχει συγκεκριµένος αριθµός τρανζίστορ στο πλέγµα, άρα και συγκεκριµένος αριθµός σηµείων των οποίων τα χαρακτηριστικά αποτυπώνονται, εισάγεται δηλαδή η έννοια του εικονοστοιχείου (pixel). Σελίδα 4

1.1.3 Χαρακτηριστικά του χρώµατος Χρώµα είναι η ερµηνεία του µατιού για την φασµατική κατανοµή της οπτικής ακτινοβολίας που δέχεται. Μονοχρωµατική λέγεται µια ακτινοβολία όταν περιέχει ένα κύµα µιας µοναδικής συχνότητας, η οποία ερεθίζει µε κάποιον συγκεκριµένο τρόπο τα διαφορετικά είδη των κωνίων στο µάτι [31]. Τα συστήµατα αναπαραγωγής µονόχρωµου βίντεο παράγουν ένα µόνο σήµα κατά την ανίχνευση, το οποίο περιγράφει τις µεταβολές της λάµψης (brightness) της εικόνας. Το σήµα αυτό ονοµάζεται φωτεινότητα (luminance). ψ πλέγµα από τρανζίστορ: κάθε τρανζίστορ έχει έξοδο τάση ανάλογη µε τη διέγερση που δέχεται. Οι τάσεις διαβάζονται διαδοχικά, κατά παρόµοιο τρόπο µε τη σάρωση της εικόνας από µια δέσµη ηλεκτρονίων χ CCD αναλογικό σήµα µετατροπέας ADC ψηφιακό σήµα Σχήµα 1.3: Αποτύπωση εικόνας µε CCD Σύµφωνα µε το τριχρωµατικό σύστηµα (tri-chromatic system) η περιγραφή του χρώµατος χρειάζεται τρία χαρακτηριστικά [31]: την απόχρωση (hue), που αναφέρεται στις µονοχρωµατικές ακτινοβολίες που θα δηµιουργούσαν το ίδιο αίσθηµα µε το χρώµα που περιγράφεται 1 (Σχ.1.4), τον κορεσµό (saturation), που χαρακτηρίζει την περιεκτικότητα του χρώµατος σε λευκό 2, την φωτεινότητα (luminance) που αναφέρεται στην ένταση της ακτινοβολίας. Έτσι µπορεί δύο χρώµατα που έχουν τα άλλα δύο χαρακτηριστικά εντελώς ίδια να διαφέρουν στο ότι το ένα είναι φωτεινότερο από το άλλο. 1.1.4 Σύνθεση και αναπαραγωγή χρωµάτων µιας εικόνας Η σύνθεση των χρωµάτων µπορεί να γίνει είτε προσθετικά χρησιµοποιώντας τα πρωτεύοντα χρώµατα είτε αφαιρετικά χρησιµοποιώντας τα συµπληρωµατικά (Σχ.1.4) [32]. Είναι δυνατόν χρησιµοποιώντας τις τρεις πρωτεύουσες ακτινοβολίες σε κατάλληλες αναλογίες να προκαλέσουµε στο µάτι τον ίδιο ερεθισµό µε οποιαδήποτε φυσική ακτινοβολία είτε µονοχρωµατική είτε σύνθετη. Στα έγχρωµα συστήµατα βίντεο, το χρώµα γεννιέται στην κάµερα, όπου τρία σήµατα αντιπροσωπεύουν τους αισθητήρες του κόκκινου, του πράσινου και του µπλε. Η διαδικασία ανίχνευσης της εικόνας είναι αυτή που παρουσιάστηκε παραπάνω στην 1.1.2, αλλά υπάρχουν τρία ίχνη ανίχνευσης, ένα για κάθε ένα από τα βασικά χρώµατα. Τελικά, από τη διαδικασία ανίχνευσης, παράγονται τρία σήµατα. Τα τρία σήµατα αυτά ονοµάζονται συνιστώσες (RGB components), και το σύστηµα που τα επεξεργάζεται ξεχωριστά λέγεται component video system. 1 Εξαίρεση αποτελεί η πορφυρή ακτινοβολία η οποία δεν µπορεί να δηµιουργηθεί από µονοχρωµατική ακτινοβολία, αλλά δηµιουργείται από ίσα ποσά κόκκινης και κυανώδους (Σχ.1.4). 2 Με την έννοια ότι το λευκό περιέχει όλες τις αποχρώσεις ή δεν έχει απόχρωση. Αν στο λευκό ενισχυθεί µια απόχρωση, τότε παίρνουµε ένα χρώµα µε απόχρωση αυτή που αντιστοιχεί στη συγκεκριµένη ακτινοβολία, και χαµηλό κορεσµό. Σελίδα 5

Κόκκινο Πορφυρό (magenta) κόκκινο + µπλε Κίτρινο κόκκινο + πράσινο Μπλε Κυανό µπλε + πράσινο Πράσινο Πρωτεύοντα χρώµατα Συµπληρωµατικά χρώµατα Σχήµα 1.4: Τα βασικά και τα συµπληρωµατικά χρώµατα Τα ίδια αυτά σήµατα χρησιµοποιούνται και από την πλευρά του δέκτη για την αναπαραγωγή του βίντεο στην τηλεόραση. Κατά την επεξεργασία και τη µεταφορά τους όµως, είναι σύνηθες να µετασχηµατίζεται το σύστηµα συνιστωσών RGB σε ένα άλλο σύστηµα µε καλύτερη συµπεριφορά όσον αφορά την επεξεργασία των σηµάτων: οι RGB συνιστώσες µπορούν να µετασχηµατιστούν σε άλλες συνιστώσες συνδυαζόµενες γραµµικά. Ένα σύστηµα που χρησιµοποιείται συχνά είναι η δοµή της φωτεινότητας και χρωµοδιαφοράς (luminance and color-difference structure), ή αλλιώς σύστηµα συνιστωσών YC RC B [27] (Σχ.1.5), το οποίο εισήχθηκε αρχικά για να επιτευχθεί συµβατότητα µε την ασπρόµαυρη τηλεόραση, στην οποία έχει νόηµα µόνο ο φωτεινότητα 1. Y = 0.59G + 0.30R + 0.11B C R = R - Y C B = B - Y Σχήµα 1.5: Μετατροπή του RGB σε YCRCB 1 Η λογική της αναπαραγωγής είναι αντίστοιχη µε αυτή της ανίχνευσης της εικόνας. Μια δέσµη ηλεκτρονίων παράγεται και επιταχύνεται µέσα στον καθοδικό σωλήνα, και στη συνέχεια εκτρέπεται µαγνητικά ώστε να σαρώνει όλη την περιοχή της οθόνης (µε κάποιον από τους δύο τρόπους σάρωσης που περιγράφτηκαν στην 1.1.1). Η µονοχρωµατική απεικόνιση της εικόνας γίνεται όταν η δέσµη των ηλεκτρονίων σαρώνει µια συνεχή φωσφορούχο επίστρωση που παράγει µονοχρωµατικό φως. Η έγχρωµη απεικόνιση γίνεται σε οθόνη που έχει τριάδες στιγµάτων, ή κάθετες λωρίδες κόκκινου, πράσινου και µπλε φωσφόρου, µε χρήση τριών ηλεκτρονικών δεσµών, µία για κάθε χρώµα φωσφόρου. Η µετάδοση του σήµατος βίντεο αρχικά µπορεί να γίνει µε 5 καλώδια, 3 για τις RGB συνιστώσες, και 2 για τους συγχρονισµούς (οριζόντιο και κατακόρυφο, H-sync, V-sync). Υπάρχει περίπτωση τα σήµατα συγχρονισµού να πεπλεχτούν σε ένα σήµα, (H/V-sync), οπότε χρειάζονται 4 καλώδια, ή ακόµα και αυτό το ένα σήµα συγχρονισµού να πεπλεχτεί στο σήµα που µεταφέρει το πράσινο (καλώδιο G). Εκτός από τη µετατροπή στο YC RC B component σήµα, 1 Ο τύπος Y = 0.59G + 0.30R + 0.11B, βασίζεται στη διαπίστωση ότι στην αίσθηση φωτεινότητας του λευκού, το 30% της αίσθησης το προκαλούν οι κόκκινες ακτινοβολίες, το 59% οι πράσινες και το 11% οι κυανώδεις. Σελίδα 6

µπορεί να γίνει µετατροπή και σε ένα σήµα 2 καλωδίων, στο οποίο µεταφέρονται σε ένα σήµα η φωτεινότητα και ο συγχρονισµός, και στο άλλο η χρωµατικότητα. Αυτό λέγεται S-video ή separated video. Τέλος, το σήµα που χρησιµοποιείται για την ασύρµατη εκποµπή είναι το λεγόµενο σύνθετο σήµα (composite video), το οποίο µεταφέρει πεπλεγµένες όλες τις πληροφορίες. 1.1.5 Αναλογικός ήχος Ο ήχος είναι ένα µονοδιάστατο ακουστικό κύµα, το οποίο εισέρχεται στο αυτί, και προκαλεί την ταλάντωση του τυµπάνου η οποία στέλνει παλµούς στον εγκέφαλο µέσω του νευρικού συστήµατος. Αυτοί οι παλµοί γίνονται αντιληπτοί από τον ακροατή σαν ήχος. Κατά παρόµοιο τρόπο όταν ένα ακουστικό κύµα χτυπάει σε ένα µικρόφωνο, το µικρόφωνο παράγει ένα ηλεκτρικό σήµα, αναπαριστάνοντας το πλάτος της κυµατοµορφής του ήχου σαν συνάρτηση του χρόνου. Η περιοχή συχνοτήτων που ακούει το ανθρώπινο αυτί είναι από 20 Hz µέχρι 20 KHz, ενώ µερικά ζώα ακούν και µεγαλύτερες συχνότητες. Το αυτί αντιλαµβάνεται τον ήχο λογαριθµικά, οπότε ο λόγος δύο ήχων µε πλάτη A και Β κατά σύµβαση εκφράζεται µε decibels (db) κατά τον τύπο: db = 20 log 10 ( A / B ) Το αυτί, σε αντίθεση µε το µάτι, είναι ευαίσθητο σε µεταβολές του ήχου οι οποίες διαρκούν µόνο µερικά χιλιοστά του δευτερολέπτου. Το αποτέλεσµα αυτής της παρατήρησης είναι ότι θόρυβος στην εκποµπή ήχου που διαρκεί µερικά χιλιοστά του δευτερολέπτου επηρεάζει την αντιληπτή ποιότητα του ήχου, ενώ δεν θα επηρέαζε την αντιληπτή ποιότητα της εικόνας. 1.1.6 Αποθήκευση αναλογικού βίντεο Η αποθήκευση πληροφορίας για µεταγενέστερη χρήση, επεξεργασία ή διανοµή γίνεται µε την εγγραφή της σε κάποιο µέσο. Η ηλεκτρική εγγραφή χρησιµοποιεί τις φυσικές ιδιότητες από κάποια υλικά των οποίων οι µαγνητικές ιδιότητες µπορούν να µεταβληθούν µόνιµα ή αντιστρεπτά. Η εγγραφή σε ένα µαγνητικό υλικό επιτυγχάνεται µε τη σχετική κίνηση µεταξύ της κεφαλής εγγραφής και του µαγνητικού µέσου, ενώ εφαρµόζεται κάποιο σήµα στην κεφαλή. Ανάλογα µε την ένταση και την πολικότητα του σήµατος στην κεφαλή, αλλάζει η µαγνήτιση του µέσου. Το βίντεο είναι ένα σήµα µε πολλές πληροφορίες, το οποίο καταλαµβάνει µεγάλο εύρος ζώνης (στην τάξη των 6 MHz). Η εγγραφή τέτοιου µεγάλου εύρους ζώνης απαιτεί µεγάλης ταχύτητας σχετική κίνηση ανάµεσα στο µέσο και την κεφαλή ώστε το µήκος κύµατος να είναι µικρό και να µπορούν να εγγραφούν και οι υψηλές συχνότητες [27]. Οι µεγάλες ταχύτητες επιτυγχάνονται µε διάφορους τρόπους, αλλά ο πιο συχνός είναι περιστρέφοντας τις κεφαλές πάνω σε ένα µέσο κινούµενο γραµµικά (όπως η βιντεοταινία µέσα στο VCR). Η λύση για την αντιµετώπιση των µειονεκτηµάτων της αναλογικής εγγραφής σε µαγνητικά µέσα (θόρυβος, αποµαγνήτιση του µέσου, µηχανικές καταπονήσεις) είναι η µετάβαση από το αναλογικό στο ψηφιακό βίντεο, οπότε η αποθήκευση, επεξεργασία και διανοµή του υλικού θα γίνεται ψηφιακά. 1.2 Ψηφιοποίηση τηλεοπτικού σήµατος Το βίντεο είναι ένα οπτικοακουστικό µέσο, περιέχει δηλαδή ήχο και εικόνα κατάλληλα συγχρονισµένα. Η µετατροπή της πληροφορίας από Σελίδα 7

αναλογική σε ψηφιακή µορφή πρέπει να γίνει και για τον ήχο και για το βίντεο, ενώ θα πρέπει να διατηρηθεί ο συγχρονισµός τους. 1.2.1 Από τον αναλογικό στον ψηφιακό ήχο Τα ακουστικά κύµατα µπορούν να µετατραπούν σε ψηφιακή µορφή από έναν µετατροπέα αναλογικού σήµατος σε ψηφιακό (analog to digital converter, ADC). O µετατροπέας παίρνει µια ηλεκτρική τάση ως είσοδο και παράγει ένα δυαδικό αριθµό στην έξοδο. Η διαδικασία µετατροπής περιλαµβάνει δειγµατοληψία και κβαντοποίηση: αρχικά παίρνονται από την κυµατοµορφή δείγµατα ανά Τ, τα οποία µετά κβαντοποιούνται ανάλογα µε το βαθµό ακρίβειας που έχουµε ορίσει. Ο βαθµός ακρίβειας ή λεπτοµέρειας εξαρτάται από τον αριθµό των bits του αποτελέσµατος. Για παράδειγµα, για να κωδικοποιήσουµε ένα ηµίτονο (Σχ.1.6), χρησιµοποιώντας µόνο 3 bits, θα έχουµε µόλις 8 στάθµες στην κλίµακα, επειδή 2 3 = 8, οπότε θα έχουµε ακρίβεια 0.25 (αφού όλα τα bits όταν είναι 1, θα αντιστοιχούν στο 1, ηµίτονο 90 ο ). καµπύλη ηµιτόνου 1 0.75 0.50 0.25 0-0.25-0.50-0.75-1 δειγµατοληψία κβαντοποίηση Σχήµα 1.6: Μετατροπή ADC ενός κύµατος 1 Μετατροπές σαν κι αυτή ορίζονται στο πρότυπο PCM που χρησιµοποιείται στην τηλεφωνία, όπου η συχνότητα δειγµατοληψίας είναι 8000 δείγµατα το δευτερόλεπτο, και η ακρίβεια είναι 7 (στην Αµερική) ή 8 bits (στην Ευρώπη). Στα µουσικά CDs η δειγµατοληψία είναι 44100 δείγµατα το δευτερόλεπτο και η ακρίβεια είναι 16 bits. Αυτό σηµαίνει ότι για µεταφερθεί η πληροφορία που περιέχεται στο CD χρειάζεται ρυθµός µεταφοράς δεδοµένων 1411 Kbits ανά δευτερόλεπτο. 1 Στο τέλος της µετατροπής AD, ο µετατροπέας δίνει στην έξοδο µια σειρά από bits, που αντιστοιχούν στα κβαντοποιη- µένα πλάτη, µε µορφή σαν κι αυτή: 000100101101 01 Σελίδα 8

1.2.2 Ψηφιακό Βίντεο Ο πιο απλός ορισµός του ψηφιακού βίντεο είναι µια αλληλουχία από εικόνες ή καρέ (frames), τα οποία αποτελούνται από ένα παραλληλόγραµµο πλέγµα εικονοστοιχείων (pixels). Κάθε εικονοστοιχείο πρέπει να παριστάνεται από τουλάχιστον 1 bit στο αρχείο, το οποίο bit διακρίνει ανάµεσα στο λευκό και το µαύρο. Το επόµενο στάδιο λεπτοµέρειας είναι η χρήση 8 bits ανά εικονοστοιχείο, οπότε υπάρχουν 256 δυνατοί συνδυασµοί. Αυτή η διακριτική ικανότητα ικανοποιεί για την αναπαράσταση ασπρόµαυρων εικόνων, µε 256 κλίµακες του γκρι. Για έγχρωµο βίντεο, χρησιµοποιείται η κωδικοποίηση RGB µε χρήση 8 bits για κάθε χρώµα (συνολικά 24 bits), αν και στα περισσότερα συστήµατα εκποµπής αυτά συντίθενται στο σύνθετο (composite) σήµα για εκποµπή σε ένα κανάλι. Η χρήση των 24 bits αυξάνει τον αριθµό των χρωµάτων σε 16 εκατοµµύρια, τα οποία φυσικά δεν µπορεί να ξεχωρίσει το ανθρώπινο µάτι. Η µετατροπή µιας ακολουθίας βίντεο σε ψηφιακή µορφή γίνεται λαµβάνοντας κάθε εικόνα της ταινίας και αποθηκεύοντας τα χαρακτηριστικά των εικονοστοιχείων (pixels) της. Για το κάθε pixel οι RGB παράµετροι ορίζουν µονοσήµαντα το χρώµα του (Σχ.1.8), δεδοµένης και της ακρίβειας που χρησιµοποιείται σε bits ανά χρώµα (bits per color). Έτσι µπορεί να συντεθεί ένας χρωµατικός χάρτης, ο οποίος ονοµάζεται και «παλέτα» (Σχ.1.7), στον οποίο περιέχονται όλα τα διαφορετικά χρώµατα που χρησιµοποιούνται (πάντα ανάλογα µε τον αριθµό των bits). Ένα άλλο χαρακτηριστικό της ψηφιακής εικόνας είναι η ανάλυσή της. Ανάλυση είναι ο συνολικός αριθµός των pixels που χρησιµοποιούνται για να αποδώσουν µια εικόνα, και συνήθως εκφράζεται από ένα γινόµενο, {αριθµός εικονοστοιχείων κατά µήκος} επί {αριθµός εικονοστοιχείων κατά πλάτος}. Είναι προφανές λοιπόν ότι η ποιότητα της ψηφιοποιηµένης εικόνας και η οµοιότητά της µε την πρωτότυπη εξαρτώνται από την ανάλυσή της, δηλαδή τον συνολικό αριθµό των εικονοστοιχείων, καθώς και από την ποσότητα των διακριτών χρωµάτων της. Η ποσότητα των χρωµάτων καθορίζεται από τον αριθµό των bits που αφιερώνονται από το σύστηµα για την αναγνώριση κάθε χρώµατος. Τυπική τιµή για αυτή την παράµετρο είναι τα 16 bits, οπότε µπορούµε να κωδικοποιήσουµε 65536 χρώµατα (δηλαδή 2 16 ). 1.3 Ρυθµός µετάδοσης δεδοµένων, bitrate Όπως αναφέρθηκε προηγούµενα, κατά το σύστηµα PAL της ευρωπαϊκής τηλεόρασης, η εικόνα έχει 625 γραµµές. Για να µπορέσουµε να µεταφέρουµε πιστά την εικόνα αυτή στον υπολογιστή, διατηρώντας και µια αναλογία 4:3, δηµιουργούµε εικόνες διαστάσεων 625 επί 440 pixels (γραµµές επί στήλες). Αυτό σηµαίνει ότι κάθε ξεχωριστό καρέ αποτελείται από 275.000 pixels. Αν χρώµα από κάθε pixel χρειάζεται 16 bits για να παρασταθεί µε τη ζητούµενη ευκρίνεια, τότε κάθε καρέ καταλαµβάνει 4.400.000 bits. Το βίντεο όµως είναι κινούµενη εικόνα, µε τουλάχιστον 25 καρέ το δευτερόλεπτο. Αυτό σηµαίνει ότι κάθε δευτερόλεπτο κινούµενης εικόνας καταλαµβάνει 110.000.000 bits, ή και παραπάνω αν έχουµε καλύτερη ευκρίνεια χρωµάτων (για παράδειγµα 24 bits που χρησιµοποιούνται στην επαγγελµατική επεξεργασία βίντεο), ή περισσότερα καρέ ανά δευτερόλεπτο. Αυτός ο αριθµός από bits ανά δευτερόλεπτο, που χρειάζονται για να αναπαραχθεί µια προβολή κινούµενης εικόνας, ονοµάζεται bitrate. Το bitrate είναι επίσης και ένα µέτρο της ποιότητας της αναπαραγόµενης ταινίας, µια και όσο καλύτερη ποιότητα έχει µια εικόνα (σε αριθµό από pixels και χρώµατα), τόσο µεγαλύτερο θα είναι και το bitrate που απαιτείται για την αναπαραγωγή της. Σελίδα 9

Σχήµα 1.7: χρωµατικός χάρτης 1 για 16 bits Σχήµα 1.8: αντιστοίχηση των χρωµάτων σε αριθµούς ανάλογα µε τον χρωµατικό χάρτη και τον αριθµό των bits ανά pixel Πρέπει να σηµειωθεί επίσης, ότι το εύρος ζώνης (bandwidth) είναι το βασικότερο εµπόδιο για τη µεταφορά του βίντεο από την αναλογική µορφή, στον υπολογιστή. Όπως είδαµε παραπάνω, µια ταινία µε ανάλυση τηλεόρασης χρειάζεται ένα bitrate των 110 Μbits/sec, που αντιστοιχεί σε 13,75 Mb (megabytes) ανά δευτερόλεπτο. Τέτοια ταχύτητα έχει µόνο η µνήµη του υπολογιστή και µερικοί πολύ ακριβοί σκληροί δίσκοι, πράγµα που σηµαίνει ότι η αναπαραγωγή της ταινίας είναι αδύνατη ή απαγορευτικά ακριβή. Είναι λοιπόν ανάγκη να µειωθεί το απαιτούµενο bitrate της κινούµενης εικόνας, ώστε να γίνει συµφέρουσα η µεταφορά της σε ψηφιακή µορφή. Αυτό επιτυγχάνεται µε τη µέθοδο της συµπίεσης. 1.4 Συµπίεση Είναι απολύτως εµφανές ότι η αποθήκευση και η µετάδοση πολυµέσων, και ειδικότερα βίντεο, χωρίς συµπίεση αποκλείεται. Μάλιστα, η µόνη ελπίδα είναι ότι πάρα πολύ µεγάλη συµπίεση θα είναι δυνατή. Τα συστήµατα συµπίεσης χρειάζονται δύο αλγόριθµους: έναν για τη συµπίεση των δεδοµένων και έναν για την αποσυµπίεση. Οι αλγόριθµοι συµπίεσης και αποσυµπίεσης έχουν συνήθως µια σηµαντική «ασυµµετρία». Τις περισσότερες φορές γίνεται µια φορά η συµπίεση των δεδοµένων (για παράδειγµα µιας ταινίας που αποθηκεύεται κάπου), ενώ η αποκωδικοποίηση µπορεί να γίνει πολλές φορές (όταν την βλέπουν οι θεατές). Αυτή η ασυµµετρία σηµαίνει ότι είναι επιτρεπτό από τον αλγόριθµο συµπίεσης να είναι αργός και να χρειάζεται ακριβό και εξειδικευµένο hardware, αρκεί να εξασφαλίζει ότι ο αλγόριθµος του αποκωδικοποιητή θα είναι απλός και γρήγορος. Από την άλλη, υπάρχουν εφαρµογές πραγµατικού χρόνου, όπως είναι η τηλεσυνδιάσκεψη, που πρέπει να είναι πολύ γρήγοροι και οι δύο αλγόριθµοι. Αυτό σηµαίνει ότι οι αλγόριθµοι που χρησιµοποιούνται σε κάθε εφαρµογή είναι εξειδικευµένοι και έχουν άλλες προτεραιότητες, ανάλογα µε το είδος της εφαρµογής. Η συµπίεση γίνεται µε αφαίρεση ή αναδιοργάνωση της πληροφορίας σε ένα αρχείο κινούµενης εικόνας, µε στόχο τη µείωση του µεγέθους του. Ανάλογα µε τον τελικό αποδέκτη της ταινίας, απαιτείται διαφορετική ποιότητα στην τελική ταινία. Ενδεικτικά αναφέρουµε ότι το ανθρώπινο µάτι δεν µπορεί να διακρίνει µικρές διαφορές 1 οπότε επιτρέπεται συµπίεση που να αλλοιώνει ελαφρώς το αρχικό υλικό. Αντίθετα, στην περίπτωση που απαιτείται ένα αρχείο βίντεο για περαιτέρω επεξεργασία σε έναν υπολογιστή, όπου οι διαφορές γίνονται εύκολα αντιληπτές µε τους αλγορίθµους ψηφιακής επεξεργασίας 1 Το µάτι δεν µπορεί να διακρίνει µικρές διαφορές στα χρώµατα και στην κίνηση, ακόµα και αν αυτή δεν είναι απόλυτα οµαλή. Σελίδα 10

σήµατος, δεν θέλουµε παρεκκλίσεις από το αρχικό υλικό γιατί µπορεί να είναι δύσκολη ή αδύνατη η επεξεργασία του. Με αυτά τα κριτήρια, µπορούµε να διαχωρίσουµε δύο µεθόδους συµπίεσης, µε ή χωρίς απώλειες. 1.4.1 Συµπίεση χωρίς απώλειες Η πρώτη µέθοδος, και αυτή µε τα καλύτερα αποτελέσµατα όσον αφορά την παραγόµενη εικόνα ή βίντεο, είναι αυτή που ονοµάζουµε «συµπίεση χωρίς απώλειες» (lossless compression) [2], επειδή διατηρεί τα αρχικά δεδοµένα έτσι ώστε το κάθε ξεχωριστό καρέ να µην αλλάξει µετά την συµπίεση. Αλλιώς λέγεται κωδικοποίηση εντροπίας (entropy encoding), επειδή απλώς επεξεργάζεται τις σειρές από τα bits χωρίς ενδιαφέρον του τι σηµαίνουν τα bits. Η τεχνική αυτή δεν έχει απώλειες και είναι πλήρως αντιστρέψιµη, µπορεί δε να εφαρµοστεί σε όλων των ειδών τα δεδοµένα. Ο πιο συνήθης τρόπος συµπίεσης χωρίς απώλειες είναι η διαδοχική κωδικοποίηση (run length encoding), που βασίζεται στο ότι σε πολλά είδη δεδοµένων υπάρχουν στοιχεία που επαναλαµβάνονται. Αυτά µπορούν να αντικατασταθούν από ένα ειδικό σηµάδι, ακολουθούµενο από την ποσότητα των επαναλήψεων (Σχ.1.9). 315000000000000894274111111111991111167543800000000000000000000987 315 Α012 894274 Α109 99 Α105 675438 Α020 987 Σχήµα 1.9: Run Length Encoding. Αντικατάσταση των ακολουθιών των 0 µε το Α0, και των 1 µε το Α1, ακολουθούµενα από την ποσότητα των 0 και των 1 αντίστοιχα: το µέγεθος του αρχείου σε bits είναι µετά την κωδικοποίηση µισό. Η διαδοχική κωδικοποίηση (run length encoding) έχει µεγάλη επιτυχία στον ψηφιακό ήχο και στην ψηφιακή εικόνα, γιατί εκεί υπάρχει µεγάλη επανάληψη στοιχείων (για παράδειγµα, ησυχία σε αρχεία ήχου, ή ο ακίνητος γαλάζιος ουρανός σε ένα αρχείο βίντεο). Στο βίντεο η κωδικοποίηση γίνεται αναλύοντας διαδοχικά τα καρέ, και αφαιρώντας τµήµατά τους στα οποία δεν µεταβάλλεται το χρώµα σε σχέση µε το προηγούµενο καρέ. Στην περίπτωση που έχουµε σχεδόν ακίνητη εικόνα, ένας τέτοιος τρόπος συµπίεσης µπορεί να έχει πολύ καλά αποτελέσµατα, αλλά στις περισσότερες περιπτώσεις που περιέχουν περίπλοκες εικόνες ο λόγος συµπίεσης δεν είναι καλύτερος από 3:1. Μια άλλη µέθοδος κωδικοποίησης εντροπίας είναι η στατιστική κωδικοποίηση (statistical encoding). Με αυτό τον όρο εννοούµε την χρησιµοποίηση λίγων στοιχείων για να αναπαραστήσουµε συχνά σύµβολα (ή σειρές από bits), και περισσότερα για να αναπαραστήσουµε τα σπάνια. Παράδειγµα στατιστικής κωδικοποίησης είναι ο κώδικας Morse, στον οποίο το Ε παρίσταται απλά από µια τελεία., ενώ το Q που είναι σπάνιο παρίσταται από --.- και ούτω καθ εξής. Τέλος µια εξειδικευµένη µέθοδος είναι η χρήση του πίνακα αντιστοίχησης χρωµάτων (color look up table): σε µια εικόνα RGB µε 24 bits ανά pixel υπάρχουν 2 24 συνδυασµοί χρωµάτων. Στην πράξη όµως, η εικόνα θα περιέχει πολύ λιγότερα χρώµατα, ειδικά αν είναι καρτούν ή η εικόνα είναι κατασκευασµένη από υπολογιστή. Η συµπίεση επιτυγχάνεται αν κατασκευαστεί ένας πίνακας χρωµάτων µε τα χρώµατα που υπάρχουν, στον οποίο τα χρώµατα θα αποθηκεύονται µε λιγότερα bits. Έτσι, επιτυγχάνεται Σελίδα 11

µεγάλη µείωση του µεγέθους, ενώ χρησιµοποιείται ο πίνακας αντιστοίχησης για να µπορεί να ανακατασκευαστεί η πλήρης RGB εικόνα από τη συµπιεσµένη. 1.4.2 Συµπίεση µε απώλειες Ο λόγος συµπίεσης που επιτυγχάνεται από τις µεθόδους συµπίεσης χωρίς απώλειες δεν είναι ικανοποιητικός για οικονοµική αναπαραγωγή ή επεξεργασία του βίντεο, πράγµα που οδήγησε στην ανάπτυξη αλγορίθµων συµπίεσης µε ποσοστό απωλειών (lossy compression). Με τη µέθοδο αυτή, επιχειρείται η αφαίρεση πληροφορίας που είναι απίθανο να γίνει αντιληπτή από τον θεατή, οπότε τα αρχικά δεδοµένα αλλοιώνονται. Η ποσότητα της πληροφορίας που χάνεται εξαρτάται από το επιθυµητό ποσοστό συµπίεσης. Οι µέθοδοι συµπίεσης µε απώλειες ονοµάζονται επίσης και µέθοδοι κωδικοποίησης πηγαίου αρχείου (source encoding), γιατί εκµεταλλεύονται τις ιδιότητες των δεδοµένων που επεξεργάζονται για να τα συµπιέσουν κι άλλο. Ο πιο απλός τρόπος κωδικοποίησης είναι η κωδικοποίηση διαφορών (differential encoding) [29], στην οποία µια ακολουθία τιµών (για παράδειγµα δείγµατα από µια κυµατοµορφή ήχου) κωδικοποιούνται αναπαριστώντας κάθε ένα σαν διαφορά του προηγούµενου 1. Αυτή η µέθοδος εισάγει απώλεια πληροφορίας, γιατί µπορεί η διαφορά δύο στοιχείων να είναι τόσο µεγάλη που να µην µπορεί να περιγραφεί από τον αριθµό των bits που χρησιµοποιείται, οπότε θα εισαχθεί τουλάχιστον µία λανθασµένη τιµή στην ακολουθία. Στην περίπτωση που οι διαφορές ανάµεσα στα στοιχεία που κωδικοποιούνται είναι µεγάλες υπάρχει περίπτωση ο αριθµός των bits που χρειάζεται για την αποθήκευση της διαφοράς να είναι αντίστοιχος µε αυτόν που χρειάζεται για την αποθήκευση της πραγµατικής τιµής, στην οποία περίπτωση δεν υπάρχει συµπίεση και η µέθοδος δεν χρησιµοποιείται. Ένας πιο σύνθετος τρόπος κωδικοποίησης είναι οι µετασχηµατισµοί. Μετασχηµατίζοντας ένα σήµα από ένα πεδίο ορισµού σε ένα άλλο, η συµπίεση µπορεί να γίνει πολύ ευκολότερη. Για παράδειγµα, σε έναν µετασχηµατισµό Fourier, µια συνάρτηση του χρόνου αναπαρίσταται σαν ένα άθροισµα πλατών. εδοµένων των τιµών όλων των πλατών η αρχική συνάρτηση µπορεί να ανακατασκευαστεί πλήρως. Ωστόσο, δεδοµένων µόνο των τιµών των πρώτων πλατών, ακόµα και αν έχει γίνει στρογγυλοποίηση µετά τα πρώτα δεκαδικά ψηφία, είναι δυνατό να ανακατασκευαστεί το αρχικό σήµα σε τέτοιο βαθµό που ο ακροατής (ή ο θεατής) να µην είναι σε θέση να καταλάβει ότι κάποια πληροφορία χάθηκε. Το κέρδος είναι ότι για τη µετάδοση των πρώτων πλατών χρειάζονται λιγότερα bits από ότι για τη µετάδοση της κυµατοµορφής. Ένας πολύ σηµαντικός αλγόριθµος συµπίεσης διδιάστατων σηµάτων είναι ο διακριτός µετασχηµατισµός συνηµίτονου (discrete cosine transform, DCT) [3]. Η εικόνα χωρίζεται σε blocks, και για κάθε block σχηµατίζεται ο πίνακας µε τις τιµές των χρωµάτων (όπως στο Σχ.1.4), ο οποίος χρησιµοποιείται για τον µετασχηµατισµό. Ο αλγόριθµος DCT βασίζεται στον µετασχηµατισµό Fourier, και αποδίδει τιµές συχνότητας και πλάτους ανάλογα µε τη θέση των τιµών των χρωµάτων των pixels στην εικόνα. Έτσι, µεγάλες όµοιες επιφάνειες στην εικόνα αντιπροσωπεύονται πιο πολύ από τις χαµηλές συχνότητες, ενώ οι λεπτοµέρειες στις υψηλότερες. Με βάση τον πίνακα των χρωµάτων, ο µετασχηµατισµός DCT δίνει µια τιµή (συνιστώσα) DC και περισσότερες τιµές AC (amplitude coefficients). Η ενέργεια του σήµατος που κωδικοποιείται συγκεντρώνεται περισσότερο στις χαµηλότερες συχνότητες, καθώς και στην DC συνιστώσα. Οι περισσότεροι συντελεστές πλάτους στις υψηλές συχνότητες είναι µηδέν ή κοντά στο µηδέν, επειδή το κύριο µέρος της οπτικής πληροφορίας µιας εικόνας βρίσκεται σε ένα κατανεµηµένο πεδίο τιµών στην περιοχή των χαµηλών συχνοτήτων. Τέλος, ένας ακόµη τρόπος κωδικοποίησης είναι η διανυσµατική κβαντοποίηση (vector quantization) [27], η οποία εφαρµόζεται άµεσα πάνω στα δεδοµένα της εικόνας. Η λογική της είναι η διαίρεση της εικόνας σε παραλληλόγραµµα σταθερών διαστάσεων, και η αντιστοίχησή τους µε κωδικούς 1 Οπότε χρησιµοποιούνται λιγότερα bits από όσα θα χρησιµοποιούνταν για την αποθήκευση ολόκληρης της τιµής. Σελίδα 12

(λίγων bits) σε παραλληλόγραµµα που υπάρχουν πάνω σε έναν πίνακα ή διάνυσµα αναφοράς το οποίο λέγεται βιβλίο κώδικα (code book). Κάθε παραλληλόγραµµο µεταδίδεται αφού πρώτα αναζητηθεί ο κωδικός του στο βιβλίο κώδικα, οπότε τελικά στέλνεται µια σειρά από κωδικούς αντί για την ίδια την εικόνα. Στην περίπτωση που το βιβλίο του κώδικα δηµιουργείται δυναµικά 1, τότε πρέπει και αυτό να σταλεί. Προφανώς, αν ένα είδος παραλληλογράµµων κυριαρχεί στην εικόνα, τότε υπάρχει µεγάλη συµπίεση µε αυτό τον τρόπο, χωρίς πολλές απώλειες 2. εδοµένου ότι ο λόγος συµπίεσης των µεθόδων χωρίς απώλειες είναι απαγορευτικός για τη µαζική χρήση βίντεο στους υπολογιστές, η χρήση της συµπίεσης µε απώλειες είναι µονόδροµος. Με αυτό σαν δεδοµένο, γίνεται τα τελευταία χρόνια προσπάθεια για βελτιστοποίηση των αλγορίθµων συµπίεσης ώστε να µειωθούν οι ορατές απώλειες και να αποκτήσει το βίντεο εµπορικό ενδιαφέρον. Σ αυτή την κατεύθυνση έχουν κινηθεί οι περισσότεροι κατασκευαστές, µε αποτέλεσµα να υπάρχουν ήδη αρκετά πρότυπα στο χώρο, τα οποία ακολουθούν διαφορετικές προσεγγίσεις στο θέµα της συµπίεσης. 1.5 Πρότυπα συµπίεσης εικόνας Τα πρότυπα συµπίεσης άρχισαν να εξελίσσονται παράλληλα µε την εµφάνιση του βίντεο στους υπολογιστές, στις αρχές της δεκαετίας του 90, και έκτοτε εξελίσσονται, µε αποτέλεσµα τα πιο σύγχρονα να έχουν σηµαντικές διαφορές από τα παλαιότερα. Σηµαντικός παράγοντας εξέλιξης είναι η ανάπτυξη και η ευρεία χρήση του διαδικτύου, όπου οι ταχύτητες σύνδεσης (bitrates) είναι πολύ χαµηλές, µε αποτέλεσµα να απαιτούνται ποιοτικά βίντεο µε όσο το δυνατόν λιγότερη πληροφορία. 1 ηλαδή αν δηµιουργείται από την ίδια την εικόνα, αντί να υπάρχει ένα βιβλίο κώδικα αναφοράς, για περισσότερες από µία εικόνες. 2 Απώλειες όµως εισάγονται επειδή είναι δυνατόν παραλληλόγρα µµα που δεν είναι ακριβώς ίδια να µην έχουν ξεχωριστές καταχωρήσεις στο βιβλίο του κώδικα, για εξοικονόµηση εύρους ζώνης κατά την µετάδοση. 1.5.1 Συµπίεση ακίνητης εικόνας, το πρότυπο JPEG Το πρότυπο JPEG (Joint Photographic Experts Group) για την συµπίεση ακίνητων φωτογραφικών εικόνων αναπτύχθηκε κάτω από τις οδηγίες διάφορων οργανισµών προτυποποίησης όπως οι ITU, ISO, και IEC. Το πρότυπο αυτό ορίζει τέσσερις µεθόδους συµπίεσης εικόνας, εµάς όµως µας ενδιαφέρει η ακολουθιακή µέθοδος (sequential mode), η οποία είναι αυτή που επιτυγχάνει τη µέγιστη συµπίεση. Τα στάδια συµπίεσης µιας εικόνας κατά JPEG παρουσιάζονται στο Σχήµα 1.9, και θα σχολιαστούν αναλυτικά παρακάτω. Το πρώτο βήµα της κωδικοποίησης της εικόνας είναι η προετοιµασία των τµηµάτων στα οποία θα εφαρµοστούν οι µετασχηµατισµοί συµπίεσης, τα οποία ονοµάζονται blocks. Τα τµήµατα αυτά έχουν σταθερό µέγεθος 8 επί 8 pixels. Η RGB εικόνα µετασχηµατίζεται στο σύστηµα YIQ (για το NTSC), ή το YUV (για το PAL), σύµφωνα µε τους αντίστοιχους τύπους µετασχηµατισµού. Έτσι παίρνουµε τελικά τρεις πίνακες, έναν για τη φωτεινότητα (luminance) και δύο για τις χρωµατικότητες, στους οποίους το κάθε pixel ορίζεται από το 1/3 των pixels που ορίζονταν στην αρχική RGB εικόνα, ώστε ο αριθµός των συνολικών bits να είναι ίδιος. Τέλος, η διαδικασία σχηµατισµού των τµηµάτων ολοκληρώνεται µε την µείωση δια δύο των διαστάσεων των πινάκων που απαρτίζονται από τις χρωµατικότητες. Για παράδειγµα, για µια RGB εικόνα 640 επί 480, ο πίνακας της φωτεινότητας έχει διαστάσεις 640 x 480, ενώ οι πίνακες των χρωµατικοτήτων έχουν διαστάσεις 320 x 240 (Σχ.1.11). Τελικά, έχουµε δηµιουργήσει συνολικά 7200 τµήµατα (blocks), τα οποία χρησιµοποιούµε στο δεύτερο στάδιο, που είναι ο µετασχηµατισµός DCT. Το αποτέλεσµα του µετασχηµατισµού για κάθε τµήµα είναι ένας 8 επί 8 πίνακας συντελεστών. Το στοιχείο στη θέση (0,0) είναι η µέση τιµή του τµήµατος. Τα άλλα στοιχεία περιγράφουν πόση φασµατική ισχύς υπάρχει σε κάθε συχνότητα. Συνήθως, οι τιµές των στοιχείων αυτών εξασθενίζουν όσο µεγαλώνει η απόσταση από το σηµείο (0,0). Αυτό φαίνεται ποιοτικά στο Σχήµα 1.12. Σελίδα 13

προετοιµασία τµηµάτων µετασχηµατισµός διακριτού συνηµιτόνου διαφορικός κβαντισµός κβαντισµός διαδοχική κωδικοποίηση στατιστική κωδικοποίηση Σχήµα 1.10: Τα στάδια κωδικοποίησης του προτύπου JPEG 480 RGB εικόνα, 24 bits ανά pixel 640 τµήµατα 8 x 8 240 240 480 320 320 640 πίνακας φωτεινότητας, 8 bits ανά pixel πίνακες χρωµατικότητας, 8 bits ανά pixel Σχήµα 1.11: ηµιουργία τµηµάτων µέσα στους πίνακες χρωµατικότητας και φωτεινότητας των εικονοστοιχείων Στη θεωρία ο µετασχηµατισµός αυτός δεν εισάγει απώλειες, αλλά επειδή γίνεται στρογγυλοποίηση στους αριθµούς κινητής υποδιαστολής, υπάρχει κάποιο µικρό λάθος. Αυτό το λάθος όµως είναι µικρό, σε σχέση µε τις απώλειες που εισάγονται στα επόµενα στάδια της κωδικοποίησης, και κυρίως στο τρίτο στάδιο, που γίνεται κβαντοποίηση (quantization). Κατά την κβαντοποίηση, οι λιγότερο σηµαντικοί συντελεστές των τµηµάτων απαλείφονται: Κάθε ένα από τα στοιχεία του 8 επί 8 πίνακα που περιγράφει το τµήµα διαιρείται µε έναν αριθµό, ο οποίος ονοµάζεται βάρος (weight), και προέρχεται από έναν πίνακα βαρών, διαστάσεων 8 x 8, ώστε να ορίζονται τόσα βάρη όσα και τα στοιχεία των πινάκων. Ο πίνακας των βαρών λέγεται πίνακας κβαντοποίησης (quantization table) και είναι κοινός για όλα τα τµήµατα της εικόνας. Στο στάδιο της κβαντοποίησης αποφασίζεται (από την εφαρµογή που κάνει την συµπίεση), πόση απώλεια πληροφορίας θα έχουµε προς όφελος της συµπίεσης. Αυτό γίνεται αλλάζοντας τα βάρη του πίνακα κβαντοποίησης: Σελίδα 14

µεγαλύτερα βάρη σηµαίνει περισσότερη συµπίεση, ενώ αν τα βάρη είναι ίσα µε 1, δεν έχουµε απώλεια πληροφορίας σε αυτό το επίπεδο. Συνήθως την επιλογή για το λόγο συµπίεση προς απώλεια, την κάνει ο χρήστης, εκτός αν πρόκειται για αυτοµατοποιηµένη διεργασία. Οι τιµές των στοιχείων στο (0,0) λέγονται συντελεστές DC, ενώ οι τιµές των άλλων στοιχείων λέγονται συντελεστές AC. Πλάτος τµήµατος φωτεινότητας / χρωµατικότητας pixel στη θέση (8,8) ιαστάσεις τµήµατος: 8 x 8. Στοιχεία πίνακα µετά τον DCT ιαστάσεις τµήµατος: 8 x 8. Σχήµα 1.12: Μετασχηµατισµός DCT στην κωδικοποίηση JPEG 1 Το στάδιο 4 αναλαµβάνει να µειώσει τον χώρο που χρειάζεται για την αποθήκευση του στοιχείου (0,0) του πίνακα που προκύπτει από το µετασχηµατισµό DCT, βάζοντας στη θέση του τη διαφορά του από το προηγούµενο στοιχείο. Πρόκειται δηλαδή για µια διαφορική κβαντοποίηση (differential quantization), η οποία στην προκειµένη περίπτωση έχει αρκετή επιτυχία, γιατί τα στοιχεία στο (0,0) είναι µέσες τιµές, οπότε η µεταβολή τους είναι µικρή και χρειάζεται λίγα bits για να κωδικοποιηθεί. Στο στάδιο 5 τα στοιχεία του πίνακα τοποθετούνται σε σειρά (µια σειρά 64 στοιχείων), και εφαρµόζεται στο σύνολο των bits η τεχνική της διαδοχικής κωδικοποίησης (run length encoding) που παρουσιάστηκε παραπάνω. Η έξοδος αυτού του σταδίου είναι µια λίστα αριθµών, η οποία κωδικοποιείται κατά Huffman στο στάδιο 6, και στη συνέχεια αποθηκεύεται ή µεταδίδεται. 1 Οι κατακόρυφες γραµµές αναπαριστούν τα πλάτη στις αντίστοιχες συντεταγµένες. Σελίδα 15

Το αρχείο που παράγεται κατά JPEG έχει δύο ενδιαφέρουσες ιδιότητες. Η πρώτη είναι ότι η αποκωδικοποίηση γίνεται απλά εκτελώντας τον αλγόριθµο ανάποδα, οπότε οι διαδικασίες κωδικοποίησης και αποκωδικοποίησης είναι περίπου συµµετρικές, ως προς το χρόνο εκτέλεσης. Η δεύτερη είναι ότι εξαιτίας κάποιων µαθηµατικών ιδιοτήτων του αλγόριθµου DCT, είναι δυνατόν να γίνει ως ένα βαθµό επεξεργασία της εικόνας 1 χωρίς να είναι απαραίτητη η αποκωδικοποίησή της. Έχοντας µελετήσει την πολύπλοκη δηµιουργία ενός αρχείου JPEG, µπορούµε να δούµε πως οι τεχνικές αυτές εξελίχθηκαν µε το χρόνο και βελτιώθηκαν για να χρησιµοποιηθούν και στα αρχεία κινούµενης εικόνας. Ένα από τα παλιότερα πρότυπα για βίντεο είναι το AVI της Microsoft και το MOV της Apple, τα οποία όµως έχουν σχεδόν εκτοπιστεί από τα πιο σύγχρονα MPEG. 1.5.2 Η πρόταση της Microsoft: Κωδικοποίηση AVI To πρότυπο AVI εµφανίστηκε στις αρχές της δεκαετίας του 90 στους υπολογιστές τύπου Intel x86, ως προϊόν ενσωµατωµένο στα Windows 3.1 της Microsoft. Η συντόµευση AVI σηµαίνει Audio Video Interlaced, και ως πρότυπο του πακέτου «Video for Windows» έθεσε τη βάση για διάφορους αλγόριθµους συµπίεσης, όπως οι Cinepak και Intel Indeo. Στην πρώτη του εµφάνιση, το AVI υποστήριζε αναλύσεις ως 160 επί 120 pixels, µε ρυθµό ανανέωσης 15 καρέ το δευτερόλεπτο. εδοµένου ότι δεν υπήρχε κάτι άλλο στο χώρο κατά την εµφάνιση του AVI, αυτό έτυχε καθολικής αποδοχής και στα πρώτα συστήµατα επεξεργασίας video. Επειδή όµως το AVI σαν πρότυπο είχε αρκετούς περιορισµούς 1, ο κάθε κατασκευαστής προγράµµατος ή πλακέτας επεξεργασίας βίντεο το χρησιµοποιούσε σαν βάση για να εξελίξει το δικό του πρότυπο, µε βάση τις ανάγκες του. Αυτό είχε σαν αποτέλεσµα να µην υπάρχει ένα καθολικό πρότυπο, και να µην είναι δυνατόν τα αρχεία που κατασκευάζονταν σε ένα µηχάνηµα να µεταφερθούν σε ένα άλλο. Η επαγγελµατική χρήση του AVI όµως είχε να αντιµετωπίσει και άλλους περιορισµούς, τους οποίους έθετε το λειτουργικό σύστηµα. Το σύστηµα αρχείων FAT-16, επιτρέπει αρχεία µεγέθους µόνο µέχρι 2 GB, το οποίο είναι λίγο για επαγγελµατική επεξεργασία βίντεο. Αυτός ο περιορισµός υποτίθεται ότι αποµακρύνθηκε, µε τα Windows 98, το σύστηµα αρχείων FAT-32 και τη βιβλιοθήκη συναρτήσεων DirectShow. Στην πράξη όµως, και ενώ το µέγιστο µέγεθος αρχείου είναι πλέον 8 GB, δεν προσφέρεται η πλατφόρµα του AVI για επαγγελµατική επεξεργασία ήχου και εικόνας. 1 Μπορούν να γίνουν απλές επεµβάσεις όπως επέκταση (stretch), ή περιστροφή (rotate). εν είναι δυνατόν να γίνουν επεµβάσεις στα χρώµατα της εικόνας χωρίς να αποκωδικοποιηθεί. 1.5.2 Η πρόταση της Apple: Κωδικοποίηση MOV Το πρότυπο MOV εµφανίστηκε αρχικά στον χώρο των υπολογιστών Macintosh, σχεδόν παράλληλα µε το AVI, και στη συνέχεια µεταφέρθηκε και στον χώρο των PCs. Είναι το πρότυπο του προγράµµατος Quicktime της Apple, το οποίο παράλληλα αποθηκεύει ήχο και εικόνα. Την περίοδο 1993 1995 το πρότυπο της Apple ήταν ανώτερο από αυτό της Microsoft και σε χρηστικότητα και σε ποιότητα. Ενώ όµως η Apple συνέχισε να εξελίσσει το πρότυπό της δίνοντάς του και άλλες δυνατότητες όπως είναι η κατά τµήµατα λήψη και αναπαραγωγή βίντεο µέσω internet, δεν εξέλιξε ανάλογα και τους αλγορίθµους κωδικοποίησης, µε αποτέλεσµα το Quicktime να παραµεριστεί σε κάποιο βαθµό από τους αλγορίθµους MPEG. 1.5.3 Κωδικοποίηση MJPEG Τα αρχικά MJPEG σηµαίνουν Motion JPEG, όπου JPEG είναι το δηµοφιλές πρότυπο συµπίεσης εικόνας από την Joint Photographic Experts Group. Αυτό το πρότυπο είναι στην ουσία ένα ενδιάµεσο βήµα ανάµεσα στην ακίνητη εικόνα και στο βίντεο, µια και ένα αρχείο MJPEG δεν είναι παρά µια αλληλουχία από εικόνες JPEG. Σελίδα 16

Ο αλγόριθµος συµπίεσης εφαρµόζεται διαδοχικά σε κάθε µια εικόνα, και τελικά η συµπίεση που προσφέρεται είναι της τάξης 5:1. Το µειονέκτηµα του προτύπου αυτού είναι ότι δεν έχει υλοποιηθεί κάποιος τρόπος συγχρονισµού µεταξύ του ήχου και της εικόνας, µε αποτέλεσµα οι κατασκευαστές από τις κάρτες που το υποστηρίζουν να έχουν προβεί σε δικές τους υλοποιήσεις 1. 1.5.4 Κωδικοποίηση MPEG Σήµερα, τα πρότυπα MPEG είναι τα περισσότερο διαδεδοµένα. Προέρχονται από έναν διεθνή οργανισµό, τον Motion Picture Experts Group, που αναπτύσσει εφαρµογές και πρότυπα για την κωδικοποίηση κινούµενης εικόνας. Προκειµένου να πετύχει καθολική αποδοχή, το πρότυπο MPEG καθορίζει τη δοµή και τη µορφή των δεδοµένων για την συµπίεση της εικόνας και τον συγχρονισµό του ήχου. Κατ αυτό τον τρόπο, µένει ανεξάρτητο από την πλατφόρµα πάνω στην οποία χρησιµοποιείται. Το πρότυπο MPEG είναι ένα πλήρες πρότυπο συµπίεσης ήχου και εικόνας, και χρησιµοποιεί δύο κωδικοποιητές, έναν για κάθε µέσο (Σχ.1.13). Σηµαντική ιδιότητα του προτύπου είναι ο συγχρονισµός των δύο µέσων, του ήχου και της εικόνας, τα οποία έχουν κωδικοποιηθεί χρησιµοποιώντας διαφορετικό εύρος ζώνης για το καθένα 2. Στη συνέχεια θα αναφερθούµε στους αλγορίθµους συµπίεσης του ήχου ( 1.5.6) και της εικόνας χωριστά. σήµα ήχου συγχρονισµός σήµα εικόνας κωδικοποιητής ήχου κωδικοποιητής εικόνας πολύπλέκτης έξοδος MPEG 1 Το πρότυπο MJPEG χρησι- µοποιείται εκτενώς από προγράµµατα επεξεργασία βίντεο, γιατί επιτρέπει στον χρήστη του προγράµµατος να επεµβαίνει σε κάθε καρέ ξεχωριστά. 2 Αυτό είναι λογικό, µια και ο ήχος περιέχει λιγότερη πληροφορία από ότι η κινούµενη εικόνα, ενώ είναι δυνατόν να συµπιεστεί και σε µεγαλύτερο βαθµό χωρίς εµφανείς απώλειες στην ποιότητα. Σχήµα 1.13: Συγχρονισµός ήχου και εικόνας στο πρότυπο MPEG Σε µια ταινία υπάρχουν δύο είδη πλεονασµού πληροφορίας: χωρικά (µέσα στις ίδιες τις εικόνες), και χρονικά (οµοιότητα ανάµεσα στα διαδοχικά καρέ). Το MPEG τις εκµεταλλεύεται και τις δύο, µε τις τεχνικές της συµπίεσης εσωτερικά στα καρέ (intra-frame compression) και ανάµεσα στα διαδοχικά καρέ (inter-frame compression). Ο αλγόριθµος συµπίεσης του MPEG (Σχ.1.14) περιέχει στοιχεία και από την συµπίεση µε απώλειες και από την συµπίεση χωρίς απώλειες, και έχει αρκετές οµοιότητες µε την κωδικοποίηση JPEG. Αρχικά γίνεται συµπίεση εσωτερικά στα καρέ, όπως στο JPEG: κάθε εικόνα χωρίζεται σε blocks των 8x8 pixels, και µε τον µετασχηµατισµό DCT γίνεται µια πρώτη συµπίεση σε επίπεδο εικόνας. Στη συνέχεια ακολουθεί κβαντισµός (quantizing), µια διαδικασία προσαρµογής της ακρίβειας κωδικοποίησης στην ικανότητα της ανθρώπινης αντίληψης. Εκµεταλλεύοντας το ότι το µάτι δεν µπορεί να παρακολουθήσει αλλαγές σε πολύ µικρές λεπτοµέρειες, αφαιρείται πληροφορία τόση ώστε ο παρατηρητής να µην αντιληφθεί την ελαφρώς µειωµένη ακρίβεια στην οθόνη. Τελειώνοντας την συµπίεση εσωτερικά στα καρέ, γίνεται συµπίεση µεταξύ των καρέ, βασιζόµενη στο ότι το κάθε καρέ συχνά θα έχει οµοιότητες µε το προηγούµενο και το επόµενο. Αυτό το στάδιο συµπίεσης γίνεται µε διαδοχική κωδικοποίηση (run length encoding) κατά µήκος της ακολουθίας των καρέ. Ο αλγόριθµος διαβάζει Σελίδα 17

τα επόµενα καρέ και σηµειώνει τις διαφορές τους από τα προηγούµενα, ένα προς ένα. Το πρότυπο MPEG δεν προσδιορίζει πώς να γίνει η έρευνα για οµοιότητες, πόσο µακριά να ψάξει ο αλγόριθµος και πόσο πρέπει να ταιριάζουν τα καρέ προκειµένου να θεωρηθούν όµοια και το ένα από τα δύο να απαλειφθεί. Για παράδειγµα, µπορεί ένας αλγόριθµος να εξετάζει για οµοιότητα του τρέχοντος µε το προηγούµενο καρέ µόνο σηµείο προς σηµείο. Ένας άλλος πιο εξελιγµένος αλγόριθµος µπορεί να ψάχνει και για σηµεία ή περιοχές της εικόνας που µετακινήθηκαν προς κάποια κατεύθυνση, και να αποθηκεύει στο αρχείο µόνο τη νέα θέση της υπο-εικόνας, αντί να την αποθηκεύει ολόκληρη. Προφανώς ο δεύτερος θα επιτύχει µεγαλύτερη συµπίεση από τον πρώτο, αλλά θα χρειαστεί πολλαπλάσιο χρόνο εκτέλεσης. προετοιµασία τµηµάτων πίνακες και διανύσµατα συχνοτήτων και πλατών δηµιουργία blocks 8x8 µετασχ/µός DCT διαφορικός κβαντισµός διαδοχική κωδικοποίηση κβαντισµός στατιστική κωδικοποίηση run-length coding P-, I-, B- frames aλγόριθµος Huffman Αρχείο MPEG Σχήµα 1.14 Αλγόριθµος κωδικοποίησης MPEG Επίσης, αυτή η τεχνική έχει καλά αποτελέσµατα όταν η κάµερα ή οι ηθοποιοί κινούνται αργά. Αν υπάρχει γρήγορη κίνηση, ή εστίαση της κάµερας, η τεχνική αυτή δεν είναι επιτυχής. Εδώ υπάρχει η µεγαλύτερη διαφορά της συµπίεσης MPEG από το JPEG: για να αντισταθµιστεί η κίνηση, το πρότυπο MPEG ορίζει τρία είδη καρέ: τα Ι, Ρ και Β καρέ. Μερικά καρέ αποθηκεύονται αυτούσια, σαν τα αντίστοιχα αρχεία JPEG, και ονοµάζονται χαρακτηριστικά «Ι-καρέ» (I-frame, Intra coded image). Τα Ι-frames είναι τα µόνα καρέ τα οποία δεν εξαρτώνται από τα προηγούµενα ή τα επόµενα καρέ. Αποτελούν τη βάση του αρχείου MPEG, επειδή δίνουν τη δυνατότητα στον θεατή να κινείται µέσα στο αρχείο: αν τα Ι-καρέ δεν υπήρχαν, και όλα τα καρέ δίνονταν συναρτήσει του προηγούµενου, όποιος έχανε το πρώτο καρέ δεν θα µπορούσε να δει το βίντεο. Επίσης, δεν θα ήταν δυνατό να ξεκινήσει η αναπαραγωγή του βίντεο από οποιοδήποτε σηµείο εκτός της αρχής του. Αντίθετα, τα P-frames (Predicted image), δηµιουργούνται συναρτήσει του προηγούµενου I-frame, και αποθηκεύουν µόνο τις διαφορές ανάµεσα στο τρέχον καρέ και το προηγούµενο. Οι διαφορές εντοπίζονται µεταξύ τµηµάτων µεγάλης κλίµακας (macroblocks) στην εικόνα, τα οποία έχουν διαστάσεις 16 x 16 στην φωτεινότητα και 8 x 8 1 στις χρωµατικότητες. Τα περισσότερα καρέ ενός αρχείου MPEG είναι τύπου B-frame (Bidirectionally interpolated image), τα οποία παρεµβάλλονται ανάµεσα σε P και Ι- frames (Σχ.1.15). Τα Β-καρέ περιέχουν τις διαφορές ανάµεσα και στο προηγούµενο και στο επόµενο καρέ του βίντεο. Αυτό επιτρέπει την 1 H διαφορά στην ανάλυση οφείλεται στο ότι οι χρωµατικότητες έχουν κωδικοποιηθεί µε µισές διαστάσεις ήδη από τη δη- µιουργία των blocks κατά JPEG. Η ίδια αναλογία διατηρείται και εδώ. Σελίδα 18

αντιστάθµιση της κίνησης (motion compensation), και επιτρέπει επιπλέον κωδικοποίηση όταν αντικείµενα στο βίντεο περνούν άλλα αντικείµενα από µπροστά ή από πίσω. Τέλος, γίνεται και επεξεργασία των I- B- και P-frames µε τον αλγόριθµο Huffman, σε µια διαδικασία που λέγεται κωδικοποίηση µεταβλητού µήκους (variable length coding), και ουσιαστικά αντικαθιστά τις περισσότερο εµφανιζόµενες ακολουθίες στοιχείων µε άλλες µικρότερες. Η πρώτη εµφάνιση του MPEG 1 έγινε µε το πρότυπο MPEG-1 το 1993, σκοπός του οποίου ήταν να επιτύχει ανεκτό ρυθµό καρέ ανά δευτερόλεπτο, καθώς και τη καλύτερη δυνατή ποιότητα κινούµενης εικόνας (και του συνοδευόµενου ήχου), για µέσα µε χαµηλή ταχύτητα επικοινωνίας (δηλαδή bitrates στην περιοχή 1 µε 1,5 Mbit/sec). Ένας άλλος στόχος κατά τη σχεδίαση του MPEG-1 είναι η ικανότητα να µεταπηδήσει η αναπαραγωγή σε οποιοδήποτε σηµείο της ταινίας µέσα σε πολύ µικρό χρονικό διάστηµα (µισό δευτερόλεπτο), και χωρίς να µεσολαβεί εµφανής πτώση στην ποιότητα. Τελικά, το MPEG-1 παρέχει σήµερα τέτοια ποιότητα στον ήχο και την εικόνα, που είναι απολύτως αποδεκτό για τις περισσότερες ηµι-επαγγελµατικές εφαρµογές. I-Frames P-Frame 1 Οι πιο πρόσφατες διορθώσεις και προσθήκες στο πρότυπο MPEG διατίθενται από την επιτροπή του προτύπου: http://drogo.cs elt.stet.it/mpeg/ B-Frames Σχήµα 1.15: Σύνθεση αρχείου MPEG από P, I και Β-frames Το 1995 έγινε η εµφάνιση του MPEG-2, του οποίου η βασική δοµή είναι παρόµοια µε αυτή του MPEG-1, µε τη διαφορά ότι είναι φτιαγµένο για πολύ καλύτερη ποιότητα εικόνας, και συνεπώς για µεγαλύτερο εύρος επικοινωνίας. To MPEG-2 υποστηρίζει bitrates µέχρι 100 Mbits/sec, και χρησιµοποιείται για την ψηφιακή τηλεόραση, τις ταινίες σε DVD και σε επαγγελµατικά στούντιο. Η βασική του διαφορά από το MPEG-1 είναι ότι ορίζει την έννοια της στοιχειώδους ροής (elementary stream), ενώ το ίδιο το αρχείο MPEG-2 µπορεί να αποτελείται από έναν άπειρο αριθµό τέτοιων ροών. Η στοιχειώδης ροή είναι µια ροή δεδοµένων η οποία µπορεί να περιέχει ήχο, εικόνα, αλλά και άλλα δεδοµένα, όπως είναι οι υπότιτλοι σε κάποια άλλη γλώσσα. Με τον τρόπο αυτό, το αρχείο MPEG-2 µπορεί να µεταφέρει µια πληθώρα πληροφοριών, πέρα από τα βασικά κανάλια του ήχου και το βίντεο: επιπλέον κανάλια ήχου για surround ήχο, υπότιτλους σε πολλές γλώσσες, διαφορετικό ήχο, ανάλογα µε τη γλώσσα στην οποία θα µιλούν οι ηθοποιοί, επιπλέον κοµµάτια βίντεο, µε σκηνές από τα γυρίσµατα, καθώς και άλλες ποικίλες πληροφορίες (Σχ.1.16). Για να γίνει αυτό χρειάζεται ένας µηχανισµός διαχωρισµού και πολυπλεξίας της πληροφορίας, ώστε τελικά να δηµιουργηθούν δύο βασικές ροές πληροφορίας. Η µία χρησιµεύει για τον έλεγχο, λέγεται ροή µεταφοράς (transport stream), και περιέχει πληροφορίες σχετικά µε τις ροές που µεταδίδονται πεπλεγµένες µέσα στην άλλη βασική ροή του MPEG-2, τη ροή προγράµµατος (program stream). Ο θεατής χρησιµοποιεί την πληροφορία που περιέχεται στην πρώτη για να ανακτήσει από την δεύτερη όσες από τις πληροφορίες (αποθηκευµένες µέσα στις επί µέρους ροές) χρειάζεται. Σελίδα 19

Σηµειώνουµε, τελειώνοντας για το MPEG, ότι οι αλγόριθµοι που παρουσιάστηκαν αφορούν την συµπίεση µε απώλειες ενός αρχείου, το οποίο θα µεταδοθεί σε ένα περιβάλλον χωρίς απώλειες. εν υπάρχει πρόνοια στα αρχεία MPEG για απώλειες στο µέσο ή το δίκτυο µετάδοσης, και αν υπάρξουν σφάλµατα, τα αποτέλεσµά τους θα είναι εµφανές στον θεατή. συγχρονισµός σήµα ήχου κωδικοποιητής ήχου δη- µιουργός ροής πολύπλέκτης έξοδος ροής προγράµµατος σήµα εικόνας κωδικοποιητής εικόνας δη- µιουργός ροής στοιχειώδεις ροές έξοδος ροής µεταφοράς υπότιτλοι κωδικοποιητής δεδοµένων δη- µιουργός ροής πολύπλέκτης Σχήµα 1.16: Σχηµατισµός ροών στο αρχείο MPEG-2 1.5.6 Συµπίεση ήχου κατά MPEG Σε ένα αρχείο MPEG αρχικά γίνεται δειγµατοληψία στην κυµατοµορφή του ήχου µε συχνότητα 32, 44.1 ή 48 KHz. Ο ήχος µπορεί να αποθηκευτεί µονοφωνικά, στερεοφωνικά (µε το κάθε κανάλι να αποθηκεύεται ξεχωριστά), ή σε συνδυασµό στερεοφωνικά (joint stereo), ώστε να γίνεται εκµετάλλευση της οµοιότητας των δύο καναλιών για να επιτυγχάνεται µεγαλύτερη συµπίεση. Η συµπίεση του ήχου γίνεται σε τρία στάδια, τα οποία ονοµάζονται και στρώµατα (layers), µια και η συµπίεση ενός αρχείου ξεκινάει πάντα από το πρώτο στρώµα (layer 1), και µπορεί να φτάσει µέχρι το τρίτο, ανάλογα µε το βαθµό συµπίεσης που είναι επιθυµητός. Τα δηµοφιλή αρχεία MP3 είναι αρχεία ήχου κωδικοποιηµένα κατά MPEG, όπου έχουν εφαρµοστεί και τα τρία στάδια κωδικοποίησης (οπότε και το όνοµά τους είναι «αρχεία MPEG-layer 3», απ όπου προκύπτει η συντοµογραφία MP3). Η συµπίεση ξεκινάει στο στάδιο 1, µε την µεταφορά του σήµατος του ήχου από το πεδίο του χρόνου στο πεδίο της συχνότητας µε τον γρήγορο µετασχηµατισµό Fourier (fast Fourier transform, FFT). Το απορρέων φάσµα χωρίζεται σε 32 ζώνες συχνοτήτων, κάθε µία από τις οποίες επεξεργάζεται και κβαντοποιείται ξεχωριστά, ανάλογα µε το πόσο σηµαντική είναι για το συνολικό αποτέλεσµα. Ο λόγος διαχωρισµού είναι η ύπαρξη του φαινοµένου απόκρυψης, κατά το οποίο όταν εµφανιστεί ένα δυνατό σήµα σε µια συχνότητα, τα ασθενέστερα σήµατα στις αµέσως επόµενες γειτονικές συχνότητες δεν γίνονται αντιληπτά από το αυτί [39]. Ο κωδικοποιητής MPEG, ο οποίος λαµβάνει υπόψη του τις δυνατότητες της ανθρώπινης αντίληψης (human perception), θα αφαιρέσει το ασθενέστερο Σελίδα 20