ΤΜΗΜΑΤΟΠΟΙΗΣΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΟΠΤΙΚΟΑΚΟΥΣΤΙΚΟΥ ΥΛΙΚΟΥ ΜΕ ΤΗ ΧΡΗΣΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΧΑΜΗΛΟΥ ΕΠΙΠΕΔΟΥ ΗΧΟΥ ΚΑΙ ΕΙΚΟΝΑΣ



Σχετικά έγγραφα
Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Τι συσχετίζεται με τον ήχο

3. ΤΕΧΝΙΚΕΣ ΣΥΜΠΙΕΣΗΣ ΠΟΛΥΜΕΣΩΝ

Μετάδοση πληροφορίας - Διαμόρφωση

Ψηφιακός ήχος και κινούμενα γραφικά

DIP_06 Συμπίεση εικόνας - JPEG. ΤΕΙ Κρήτης

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Μετάδοση πληροφορίας - Διαμόρφωση

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Συστήματα Επικοινωνιών

Ο Ήχος. Υπεύθυνος Καθηγητής: Παζούλης Παναγιώτης

ΤΕΙ ΚΡΗΤΗΣ ΤΜ. ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡ/ΚΗΣ & ΠΟΛΥΜΕΣΩΝ ΔΙΔΑΣΚΩΝ: Δρ. Γ. ΓΑΡΔΙΚΗΣ. Κωδικοποίηση εικόνας

Παλμοκωδική Διαμόρφωση. Pulse Code Modulation (PCM)

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

Βασικές έννοιες. Αναλογικό Βίντεο. Ψηφιακό Βίντεο. Κινούμενα γραφικά (animation)( Πλαίσιο (frame, καρέ) Ρυθμός πλαισίων (frame rate)

Επεξεργασία Χαρτογραφικής Εικόνας

Ψηφιακή Επεξεργασία Σημάτων

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

Ψηφιακή Επεξεργασία Σηµμάτων

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

ΦΥΣΙΚΗ Γ ΓΥΜΝΑΣΙΟΥ - ΘΕΩΡΙΑ - ΤΥΠΟΛΟΓΙΟ

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Πληροφορική Ι. Μάθημα 9 ο Συμπίεση δεδομένων. Τμήμα Χρηματοοικονομικής & Ελεγκτικής ΤΕΙ Ηπείρου Παράρτημα Πρέβεζας. Δρ.

Ψηφιακή Επεξεργασία Σηµμάτων

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη.

19/3/2007 Πολυµέσα και Συµπίεση εδοµένων

Συστήματα Πολυμέσων. Ενότητα 11: Χαρακτηριστικά Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

ΠΛΗ21 Κεφάλαιο 1. ΠΛΗ21 Ψηφιακά Συστήματα: Τόμος Α Κεφάλαιο: 1 Εισαγωγή

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Ψηφιοποίηση και Ψηφιακή Επεξεργασία Εικόνας

Φυσική για Μηχανικούς

Αφήγηση Μαρτυρία. Μουσική. Ενίσχυση μηνύματος Μουσική επένδυση Ηχητικά εφέ

Θεώρημα δειγματοληψίας

Τι είναι τα πολυμέσα;

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος

Συστήματα Επικοινωνιών ΙI

Συµπίεση Ήχου µεβάσητην Αντίληψη: Τα πρότυπα συµπίεσης MPEG-1 layer I, layer II, layer III

Τηλεπικοινωνίες. Ενότητα 5: Ψηφιακή Μετάδοση Αναλογικών Σημάτων. Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Τηλεπικοινωνιακά Συστήματα ΙΙ

ΕΙΔΗ ΠΛΑΙΣΙΩΝ Ενδο-πλαισιακή κωδικοποίηση (Intra- frame Coding): Δια-πλαισιακή κωδικοποίηση (Inter-frame Coding):

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Συστήματα Επικοινωνιών ΙI

Τηλεπικοινωνιακά Συστήματα Ι

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Ερωτήσεις Απαντήσεις επανάληψης κεφ.9 (Πολυμέσα).

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

ΚΕΦΑΛΑΙΟ 7 ΕΠΕΞΕΡΓΑΣΙΑ ΚΑΙ ΜΕΤΑΔΟΣΗ ΨΗΦΙΑΚΩΝ ΔΕΔΟΜΕΝΩΝ

Συστήματα Επικοινωνιών ΙI

Αντίστοιχα σημαντικό ήταν το Mp3, όσον αφορά την ταχύτητα των συνδέσεων στο Internet.

Εισαγωγή στην επιστήμη των υπολογιστών. Υπολογιστές και Δεδομένα Κεφάλαιο 2ο Αναπαράσταση Δεδομένων

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση 12 η. Θεωρία Χρώματος και Επεξεργασία Έγχρωμων Εικόνων

Συστήματα Επικοινωνιών

Τεχνολογικό Eκπαιδευτικό Ίδρυμα Kρήτης TMHMA MHXANOΛOΓIAΣ. Δρ. Φασουλάς Γιάννης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Φυσική για Μηχανικούς

Κεφάλαιο 2. Οργάνωση και διαχείριση της Πληροφορίας στον. Υπολογιστή

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

Ανάκτηση πολυμεσικού περιεχομένου

Φυσική για Μηχανικούς

Από τις τριγωνομετρικές συναρτήσεις στο Mp3

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Ψηφιακή Επεξεργασία Εικόνας

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Ανάλυση Διατάξεων Εκπομπής σε Συστήματα Ψηφιακής Τηλεόρασης Υψηλής Ευκρίνειας

Φυσική για Μηχανικούς

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ,

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Τι συσχετίζεται με τον ήχο

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών

Συμπίεση Πολυμεσικών Δεδομένων

Ο Ήχος ως Σήμα & η Ακουστική Οδός ως Σύστημα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Ευρυζωνικά δίκτυα (2) Αγγελική Αλεξίου

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

Εισαγωγή στην επιστήμη των υπολογιστών

Τεχνολογία Πολυμέσων. Ενότητα 3: Ψηφιοποίηση της Πληροφορίας. Νικολάου Σπύρος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Θέματα Συστημάτων Πολυμέσων. Ενότητα #3: Ιδιότητες μέσων Διδάσκων: Γεώργιος K. Πολύζος Τμήμα: Μεταπτυχιακό Πρόγραμμα Σπουδών Επιστήμη των Υπολογιστών

Κεφάλαιο 5 Διασύνδεση Αναλογικών & Ψηφιακών Συστηµάτων

Ύψος Συχνότητα Ένταση Χροιά. Ο ήχος Ο ήχος είναι μια μορφή ενέργειας. Ιδιότητες του ήχου. Χαρακτηριστικά φωνής

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών

Συστήματα Πολυμέσων. Ενότητα 7: Συμπίεση Εικόνας κατά JPEG. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Μάθημα: Ακουστική και Ψυχοακουστική

2. ΨΗΦΙΟΠΟΙΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

Εφαρμογή στις ψηφιακές επικοινωνίες

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

Κεφάλαιο 5 Διασύνδεση Αναλογικών & Ψηφιακών Συστημάτων

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑΤΟΠΟΙΗΣΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΟΠΤΙΚΟΑΚΟΥΣΤΙΚΟΥ ΥΛΙΚΟΥ ΜΕ ΤΗ ΧΡΗΣΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΧΑΜΗΛΟΥ ΕΠΙΠΕΔΟΥ ΗΧΟΥ ΚΑΙ ΕΙΚΟΝΑΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Βουτσιλάς Θωμάς Ναλμπάντης Χριστόφορος Επιβλέπων: Παπανικολάου Γεώργιος Αν. Καθηγητής Α.Π.Θ. Θεσσαλονίκη, Μάρτιος 2009

2

Περίληψη Τα τελευταία χρόνια η διογκούμενη πληροφορία οπτικοακουστικού περιεχομένου έχει οδηγήσει στην ανάγκη για δημιουργία νέων μεθόδων οργάνωσης, αναζήτησης και πρόσβασης σε αυτήν. Η ανάκτηση της οπτικοακουστικής πληροφορίας είναι ένα σχετικά νέο πεδίο έρευνας και διαμέσου αυτής, αναπτύχθηκαν εφαρμογές επεξεργασίας αυτής της πληροφορίας με χρήση αυτόματων μεθόδων τμηματοποίησης και ταξινόμησης. Σε αυτή τη διπλωματική μελέτη γίνεται εξαγωγή οπτικοακουστικών χαρακτηριστικών χαμηλού επιπέδου και μία προσπάθεια ταξινόμησης της ηχητικής πληροφορίας και ανεύρεση πλάνων βίντεο. Πιο αναλυτικά, στα πλαίσια της εργασίας αυτής, κατασκευάζεται ένα σύστημα εξαγωγής ηχητικών χαρακτηριστικών χαμηλού επιπέδου, και χρησιμοποίηση αυτών για ταξινόμηση ήχων. Επιπρόσθετα με χρήση των οπτικών χαρακτηριστικών το σύστημα τμηματοποιεί ένα αρχείο βίντεο, εντοπίζοντας εναλλαγές πλάνων. Τα χαρακτηριστικά του ήχου που εξάγονται είναι τα Temporal Centroid, Zero Crossing Rate, Log Attack Time, Short Time Energy, Roll Off, Audio Spectrum Centroid, Audio Spectrum Flatness, Audio Spectrum Spread, Harmonic Spectral Centroid, Harmonic Spectral Deviation, Harmonic Spectral Spread, Harmonic Spectral Variation, Audio Fundamental Frequency, Upper Limit of Harmonicity, Harmonic Ratio, MFCC, Spectral Flux. Με συνδυασμό των αποτελεσμάτων των δύο πρώτων χαρακτηριστικών και του αλγορίθμου k-nearest neighbor υλοποιήθηκε μία μέθοδος ταξινόμησης του ήχου σε πέντε κατηγορίες. Αυτές είναι ησυχία, ομιλία, μουσική, τραγούδι και θόρυβος. Από την άλλη, στην εφαρμογή βίντεο εξάγονται τα χαρακτηριστικά της υφής, του χρωματικού ιστογράμματος, και των ακμών με βάση τους τελεστές Sobel και Canny. Το χρωματικό ιστόγραμμα χρησιμοποιείται σε ένα σύστημα που υλοποιήθηκε για την ανεύρεση πλάνων σε βίντεο. Σε περίπτωση που τα δεδομένα ήχου και βίντεο ανήκουν σε ένα ενιαίο αρχείο, δύναται να γίνει σύγκριση των αποτελεσμάτων της ταξινόμησης του ήχου με την εναλλαγή πλάνων του βίντεο. Τέλος, παρουσιάζονται αποτελέσματα για όλες τις παραπάνω περιπτώσεις, αναλύονται οι δυνατότητες, οι ελλείψεις και τα περιθώρια βελτίωσης και επέκτασης του συστήματος. Με βάση την αποκτηθείσα εμπειρία και γνώση, προτείνονται στοιχεία μελλοντικής εξέλιξης στις υπάρχουσες αλλά και νέες εφαρμογές. 3

4

Abstract Nowadays, the enlarging information of audiovisual content has led to the emerging need for developing new ways for organizing, searching and accessing this information. Audiovisual content retrieval is a relatively young research domain, used in developing applications for processing this information, with automated methods of segmentation and classification. In this diploma thesis, low level audiovisual features are extracted and an attempt to classify audio information and to find shots in a video is made. More specifically, a low level audio feature extraction system is constructed and some of these features are used in sound classification. Moreover, visual features are extracted in order to accomplish shot change detection. The audio features that can be extracted are Temporal Centroid, Zero Crossing Rate, Log Attack Time, Short Time Energy, Roll Off, Audio Spectrum Centroid, Audio Spectrum Flatness, Audio Spectrum Spread, Harmonic Spectral Centroid, Harmonic Spectral Deviation, Harmonic Spectral Spread, Harmonic Spectral Variation, Audio Fundamental Frequency, Upper Limit of Harmonicity, Harmonic Ratio, MFCC, Spectral Flux. By combining the results of the first two features and the k-nearest neighbor algorithm, a method for sound classification into five categories was developed. These categories are silence, speech, music, song and noise. On the other hand, in the video application the features of texture, color histogram, and edge detection using Sobel and Canny operators, are extracted. The color histogram is used in a system that was implemented to detect shots in a video. If the audio and video data belong to a single file, it is possible to compare the results of audio classification and shot detection. Finally, extensive experimental results are presented for all cases, and we aim to indicate capabilities, disadvantages and cases of improving and expanding this system. Based on gained experience and knowledge, we propose future development in existing and new applications. 5

6

Ευχαριστίες Η παρούσα διπλωματική εργασία εκπονήθηκε κατά το ακαδημαϊκό έτος 2008-2009 στο Εργαστήριο Ηλεκτρακουστικής και Τηλεοπτικών Συστημάτων, του Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών της Πολυτεχνικής Σχολής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης. Θα θέλαμε να ευχαριστήσουμε τον επιβλέποντα Καθηγητή κ. Γεώργιο Παπανικολάου για την εμπιστοσύνη που μας έδειξε αναθέτοντάς μας την εργασία αυτή και για τη δυνατότητα που μας έδωσε να ασχοληθούμε με το συγκεκριμένο ενδιαφέρον θέμα. Θα θέλαμε επίσης να ευχαριστήσουμε τον Υποψήφιο Διδάκτορα Χρήστο Βεγίρη, διότι συνέβαλε στη συγγραφή αυτής της εργασίας με την καθοδήγηση, τις πολύτιμες συμβουλές και υποδείξεις του. Να ευχαριστήσουμε τέλος την οικογένεια και τους φίλους μας, που μας στήριξαν και μας βοήθησαν, ο καθένας με τον τρόπο του, κατά τη διάρκεια των φοιτητικών μας σπουδών. 7

8

Π ε ρ ι ε χ ό μ ε ν α Μ Ε Ρ Ο Σ Ι: Ήχος - Εικόνα Κ Ε Φ Α Λ Α Ι Ο 1 Εισαγωγή...17 1.1 Αντικείμενο της μελέτης..17 1.2 Σκοπός της εργασίας 18 Κ Ε Φ Α Λ Α Ι Ο 2 Ήχος και εικόνα....19 2.1 Θεωρία ήχου.19 2.2 Ψηφιακός ήχος..21 2.2.1 Ασυμπίεστος ψηφιακός ήχος WAV...22 2.2.2 Lossless compression 23 2.2.3 Lossy compression...23 2.3 Θεωρία εικόνας...24 2.4 Ψηφιακή εικόνα...24 2.4.1 Συμπίεση εικόνας.....25 2.5 Βίντεο...25 2.6 AVI (Audio Video Interleave).. 26 9

Μ Ε Ρ Ο Σ II: Low-Level χαρακτηριστικά ήχου-εικόνας Κ Ε Φ Α Λ Α Ι Ο 3 Χαρακτηριστικά ήχου. 29 3.1 Εισαγωγή...29 3.2 Timbral Temporal...30 3.2.1 Log Attack Time...31 3.2.2 Temporal Centroid...32 3.3 Basic Spectral...32 3.3.1 Audio Spectrum Envelope 32 3.3.2 Audio Spectrum Centroid. 34 3.3.3 Audio Spectrum Spread 34 3.3.4 Audio Spectrum Flatness.. 35 3.4 Timbral Spectral...36 3.4.1 Harmonic Spectral Centroid.. 37 3.4.2 Harmonic Spectral Spread...37 3.4.3 Harmonic Spectral Variation.38 3.4.4 Harmonic Spectral Deviation 38 3.4.5 Spectral Centroid...39 3.5 Basic Signal Parameters...39 3.5.1 Harmonic Ratio...40 3.5.2 Upper Limit of Harmonicity......40 3.5.3 Fundamental Frequency 41 3.6 Επιπλέον χαρακτηριστικά...42 3.6.1 Zero Crossing Rate...42 3.6.2 Ενεργειακή εντροπία.43 10

3.6.3 Ενέργεια μικρής διάρκειας (STE). 43 3.6.4 Roll-Off...44 3.6.5 Spectral flux...45 3.6.6 MFCC (Mel frequency cepstral coefficients)...45 Κ Ε Φ Α Λ Α Ι Ο 4 Χαρακτηριστικά εικόνας.49 4.1 Χαρακτηριστικά χρώματος...49 4.1.1 Color Space...49 4.1.2 Color Quantization...51 4.1.3 Dominant Color...51 4.1.4 Scalable Color Descriptor..52 4.1.5 Color Layout Descriptor 54 4.1.6 Color Structure Descriptor 55 4.2 Χαρακτηριστικά υφής...57 4.2.1 Homogeneous Texture Descriptors... 57 4.2.2 Edge Histogram...58 4.2.3 Texture Browsing Descriptor 59 4.3 Περιγραφείς σχήματος...60 4.3.1 Region Shape Descriptor...60 4.3.2 Contour Shape Descriptor...61 4.3.3 Log Polar...62 Κ Ε Φ Α Λ Α Ι Ο 5 Μέθοδοι ταξινόμησης ήχου και τεχνικές ανίχνευσης πλάνων σε βίντεο 65 5.1 Μέθοδοι ταξινόμησης ήχου...65 5.1.1 Gaussian mixture model (GMM). 66 5.1.2 Hidden Markov model (HMM) 67 11

5.1.3 Νευρωνικά δίκτυα...68 5.1.4 Support Vector Machine (SVM).. 69 5.2 Υπάρχουσες τεχνικές για την ανίχνευση πλάνων 69 5.2.1 Διαφορές των Pixels..70 5.2.2 Διαφορές Ιστογράμματος..71 5.2.3 Στατιστικές Μετρικές 72 5.2.4 Μετρικές βασισμένες σε ακμές.73 Μ Ε Ρ Ο Σ IIΙ: Υλοποίηση εφαρμογής Κ Ε Φ Α Λ Α Ι Ο 6 Τρόπος υλοποίησης εφαρμογής...77 6.1 Εισαγωγή στον τρόπο υλοποίησης...77 6.2 Εφαρμογή ήχου. 78 6.2.1 Επεξήγηση παραμέτρων εισόδου..78 6.2.2 Περιγραφή αλγορίθμων εξαγωγής 81 6.2.2.1 Temporal Centroid.81 6.2.2.2 Zero Crossing Rate. 82 6.2.2.3 Log Attack Time. 82 6.2.2.4 Short Time Energy. 83 6.2.2.5 Roll Off....84 6.2.2.6 Audio Spectrum Centroid... 85 6.2.2.7 Audio Spectrum Flatness...85 6.2.2.8 Audio Spectrum Spread.86 6.2.2.9 Audio Fundamental Frequency..86 6.2.2.10 Harmonic (Centroid, Deviation,Spread, Variation).87 12

6.2.2.11 Upper Limit Of Harmonicity Harmonic Ratio..88 6.2.2.12 MFCC...88 6.2.2.13 Spectral Flux. 89 6.2.3 Περιγραφή της διαδικασίας ταξινόμησης του ήχου..90 6.2.3.1 Ανάλυση αποτελεσμάτων του Temporal Centroid 92 6.2.3.2 Ανάλυση αποτελεσμάτων του ZCR...94 6.2.3.3 Αναγνώριση τραγουδιού και θορύβου...95 6.3 Εφαρμογή βίντεο...96 6.3.1 Περιγραφή αλγορίθμων εξαγωγής χαρακτηριστικών... 96 6.3.1.1 Color Histogram.96 6.3.1.2 Texture....97 6.3.1.3 Edges Sobel..98 6.3.1.4 Edges Canny 99 6.3.2 Τεχνική που χρησιμοποιήθηκε για την εξαγωγή των πλάνων.102 6.4 XML Schema...104 6.4.1 XML schema ήχου...104 6.4.2 XML schema βίντεο...105 6.5 CSV....106 Κ Ε Φ Α Λ Α Ι Ο 7 Πειραματικά αποτελέσματα - Συμπεράσματα... 107 7.1 Αποτελέσματα και συμπεράσματα εφαρμογής ήχου.107 7.2 Αποτελέσματα εφαρμογής βίντεο..113 7.2.1 Εύρεση λήψεων...113 7.2.2 Υφή (Texture)...119 7.2.3 Sobel - Canny...120 13

Κ Ε Φ Α Λ Α Ι Ο 8 Συμπεράσματα και Επίλογος.123 8.1 Συμπεράσματα...123 8.2 Μελλοντικές επεκτάσεις...124 Π α ρ ά ρ τ η μ α.125 Π.1 Απαιτήσεις συστήματος....125 Π.2 Εκτέλεση εφαρμογής...125 Π.2.1 Εφαρμογή ήχου....127 Π.2.2 Εφαρμογή βίντεο...129 Π.2.3 Εφαρμογή σύγκρισης..132 Β ι β λ ι ο γ ρ α φ ί α...135 14

Μέρος Ι Ήχος-Εικόνα 15

16

Κ Ε Φ Α Λ Α Ι Ο 1 Εισαγωγή 1.1 Αντικείμενο της Μελέτης Στη σύγχρονη κοινωνία της πληροφορίας και της γνώσης τα πολυμέσα είναι κυρίαρχο στοιχείο της καθημερινότητας μας. Με τον όρο πολυμέσα εννοούμε όλα τα είδη πληροφορίας και δεδομένων που: Είναι αντιληπτά από τις αισθήσεις μας. Είναι διαχειρίσιμα από τους υπολογιστές. Μπορούν να αναπαρασταθούν ψηφιακά. Έτσι τα πολυμέσα αναφέρονται σε οποιαδήποτε εφαρμογή, η οποία ενσωματώνει κείμενο, ακίνητες και κινούμενες εικόνες, ψηφιακό ήχο, video και συνδέσμους. Μια εφαρμογή ονομάζεται εφαρμογή πολυμέσων αν χρησιμοποιεί δύο ή περισσότερα από τα παραπάνω συστατικά. Στην έρευνα που κάναμε ασχοληθήκαμε με οπτικοακουστικό περιεχόμενο, δηλαδή πολυμέσα ήχου και εικόνας. Με την ανάπτυξη του διαδικτύου, ο όγκος που καταλαμβάνει η πληροφορία ήχου και εικόνας έχει πάρει γιγάντιες διαστάσεις. Έτσι κρίνεται απαραίτητη η δημιουργία εφαρμογών που στόχο έχουν την απλοποίηση της επεξεργασίας του οπτικοακουστικού υλικού. Οι εφαρμογές αυτές πρέπει να διευκολύνουν την πρόσβαση, την αλληλεπίδραση και την παρουσίαση των σύνθετων και ετερογενών πληροφοριών. Πληθώρα τέτοιων εφαρμογών βασίζονται σε διάφορα πρότυπα π.χ. MPEG-7. Οι εφαρμογές αυτές δεν χρησιμοποιούν την πληροφορία του οπτικοακουστικού περιεχομένου αυτή καθεαυτή, λόγω του τεράστιου όγκου δεδομένων, αλλά κάποιους οπτικούς και ηχητικούς περιγραφείς αυτών. Οι 17

περιγραφείς μπορούν να είναι χαμηλού επιπέδου (low level) ή υψηλού (high level). Οι υψηλού επιπέδου είναι πιο κοντά στην ανθρώπινη αντίληψη και περιγράφουν πιο αφηρημένες έννοιες σε αντίθεση με αυτούς του χαμηλού επιπέδου. Οι τελευταίοι υλοποιούνται με βάση τη θεωρία επεξεργασίας σήματος και περιγράφουν μαθηματικές έννοιες του σήματος. Έχουν σημαντικό πλεονέκτημα ότι είναι απλούστεροι στην υλοποίηση και επεξεργασία στα υπολογιστικά συστήματα. 1.2 Σκοπός της εργασίας Στο σύγγραμμα αυτό μελετάται η αναγνώριση και ταξινόμηση οπτικοακουστικού περιεχομένου. Γίνεται εξαγωγή και ανάλυση ορισμένων low level χαρακτηριστικών οπτικού και ακουστικού περιεχομένου. Οι περιγραφείς ήχου και εικόνας εξάγονται χωριστά. Κάποιοι από τους περιγραφείς αυτούς χρησιμοποιούνται με σκοπό την αναγνώριση και ταξινόμηση της πληροφορίας. Συγκεκριμένα στο ηχητικό μέρος της εφαρμογής γίνεται ταξινόμηση της ηχητικής πληροφορίας σε 5 κατηγορίες. Οι κατηγορίες που αναγνωρίζονται είναι : ομιλία, μουσική, τραγούδι, ησυχία και θόρυβος. Στο οπτικό μέρος (video) αναγνωρίζονται οι λήψεις (πλάνα). Στο τέλος γίνεται μια σύγκριση των αποτελεσμάτων της ηχητικής και οπτικής ανάλυσης. Η σύγκριση αυτή γίνεται στην περίπτωση που θέλουμε να αναγνωρίσουμε ένα βίντεο με ήχο. Δηλαδή στη σύγκριση, ο χρήστης μπορεί να παρατηρήσει κατά πόσο ταιριάζουν οι αλλαγές πλάνων με τις αλλαγές στην κατηγορία του ήχου. Για παράδειγμα όταν έχουμε μια μουσική εκπομπή, στο πλάνο που φαίνεται ο παρουσιαστής θα πρέπει να έχουμε κατηγορία ομιλίας στον ήχο, ενώ όταν αρχίσει η προβολή ενός βιντεοκλίπ θα έχουμε αλλαγή πλάνου και η κατηγορία του ήχου θα είναι μουσική ή τραγούδι. 18

Κ Ε Φ Α Λ Α Ι Ο 2 Ήχος και Εικόνα 2.1 Θεωρία ήχου Ο ήχος είναι η υποκειμενική εντύπωση (αίσθημα) που προκαλείται στον εγκέφαλο, λόγω της διέγερσης των αισθητηρίων οργάνων της ακοής, από ταχείες μεταβολές πίεσης (φυσικό αίτιο) του ατμοσφαιρικού αέρα. Αυτές οι μεταβολές πίεσης, διαδίδονται με τη μορφή ηχητικών κυμάτων. Πολλές φορές στην πράξη, ο όρος ήχος χρησιμοποιείται ως ταυτόσημος με την έννοια των ηχητικών κυμάτων, πχ διάδοση του ήχου αντί του ορθότερου διάδοση των ηχητικών κυμάτων. Τα ηχητικά κύματα παράγονται από σώματα που εκτελούν μηχανικές ταλαντώσεις (δονήσεις) και τα οποία στη συνέχεια διαδίδονται σε στερεά, υγρά και αέρια υλικά μέσα. Στο απόλυτο κενό, η ηχητική ενέργεια δεν διαδίδεται. Επομένως, τα ηχητικά κύματα είναι μηχανικά κύματα (ελαστικότητας), τα οποία μεταφέρουν μηχανική ενέργεια. Στα ρευστά (υγρά και αέρια) η ηχητική ενέργεια διαδίδεται πάντοτε με μία μορφή που είναι γνωστή ως διαμήκη κύματα, ενώ στα στερεά μπορεί να διαδίδεται επιπρόσθετα και με τη μορφή των εγκάρσιων κυμάτων. Έχουμε διάφορα είδη ήχων, πχ τους απλούς, τους σύνθετους, τους μεταβατικούς, κτλ. Η παραγωγή απλού ήχου είναι αρκετά δύσκολη. Ο σύνθετος ήχος είναι μείγμα πολλών απλών ήχων και αποτελείται από ένα θεμελιακό ήχο με μεγαλύτερη ένταση και από λίγους ή πολλούς απλούς που λέγονται ανώτεροι ή αρμονικοί ήχοι. Κάθε ήχος χαρακτηρίζεται από τρία υποκειμενικά χαρακτηριστικά: το ύψος, την ένταση και το ποιόν ή χροιά. 19

Το ύψος ενός ήχου μας επιτρέπει να τον χαρακτηρίσουμε βαρύ ή οξύ κι εξαρτάται από τον αριθμό των παλμικών κινήσεων που κάνει το ηχογόνο σώμα, κατά τη διέγερσή του, σε 1 δευτερόλεπτο (συχνότητα). Όσο πιο μικρός είναι ο αριθμός των παλμικών κινήσεων, τόσο πιο βαρύς είναι ο ήχος, ενώ όσο πιο μεγάλος είναι ο αριθμός των παλμικών κινήσεων, τόσο πιο οξύς είναι ο παραγόμενος ήχος. Συχνότητα ήχου λέγεται ο αριθμός των παλμικών κινήσεων που εκτελεί ένα σώμα. Ανάλογα με τη συχνότητα, οι ήχοι διακρίνονται σε υπόηχους, υπέρηχους και ακουστούς ήχους. Οι ακουστοί ήχοι είναι αυτοί που μπορούν να συλληφθούν από το ανθρώπινο αφτί και η συχνότητά τους βρίσκεται μεταξύ 20Hz 20000Hz. Η ένταση είναι η δύναμη του ήχου, δηλαδή αν ο ήχος είναι ισχυρός ή ασθενής και εξαρτάται από το πλάτος των παλμικών κινήσεων. Όσο μικρότερο είναι το πλάτος τόσο πιο ασθενής είναι ο ήχος κι όσο μεγαλύτερο είναι το πλάτος τόσο πιο ισχυρός είναι ο ήχος. Είναι δυνατόν όμως δύο ήχοι να έχουν το ίδιο ύψος και την ίδια ένταση και να διαφέρουν μεταξύ τους, πχ αν ακούσουμε δύο ίδιους ήχους, έναν από βιολί και άλλον από μαντολίνο, τους ξεχωρίζουμε αμέσως. Το ιδιαίτερο αυτό χαρακτηριστικό που μας επιτρέπει να ξεχωρίζουμε δύο, κατά τα άλλα, ίδιους ήχους μεταξύ τους, είναι η χροιά. Το παραπάνω εξηγείται από το ότι οι παραγόμενοι ήχοι είναι σύνθετοι και αποτελούνται από ένα θεμελιακό ήχο και πολλούς άλλους αρμονικούς που βρίσκονται σε μια ορισμένη σχέση με το θεμελιακό. Έτσι η συχνότητα κάθε αρμονικού είναι ακέραιο πολλαπλάσιο της συχνότητας του θεμελιακού. Αν δηλαδή ο θεμελιακός παράγεται από 500 παλμικές κινήσεις στο 1 δευτερόλεπτο, οι αρμονικοί θα παράγονται από 1.000, 1.500, 2.000 παλμικές κινήσεις το δευτερόλεπτο. Όπως αναφέρθηκε και παραπάνω, η διάδοση του ήχου στον αέρα γίνεται με τα ηχητικά κύματα. Η δημιουργία των ηχητικών κυμάτων είναι η εξής: Κάθε σώμα που παράγει ήχο μπαίνει σε παλμική κίνηση, που διαδίδεται προς όλες τις κατευθύνσεις. Τα στρώματα του αέρα, που βρίσκονται σ' επαφή με το ηχογόνο σώμα, διεγείρονται και μπαίνουν κι αυτά σε όμοια κίνηση με το σώμα, που μεταδίνεται παραπέρα. Έτσι τα ηχητικά κύματα φτάνουν στο αφτί μας. Δημιουργούνται στον αέρα πυκνώματα και αραιώματα σε σφαιρικό σχήμα, που, όταν φτάσουν στο αφτί μας, βάζουν σε παλμική κίνηση το ακουστικό τύμπανο και δημιουργείται έτσι το αίσθημα της ακοής. Η απόσταση μεταξύ δύο διαδοχικών πυκνωμάτων ή αραιωμάτων λέγεται μήκος του ηχητικού κύματος. Τα μικρά μήκη κύματος αντιστοιχούν σε μεγάλες συχνότητες και τα μεγάλα μήκη κύματος σε μικρές συχνότητες. Όταν ένα ηχογόνο σώμα παράγει ήχο, οι παλμικές κινήσεις μεταδίδονται στο περιβάλλον του σώματος και το βάζουν σε παλμική κίνηση. Δημιουργούνται λοιπόν στον αέρα σφαιρικά ηχητικά κύματα που εκπέμπονται προς όλες τις κατευθύνσεις. Το κέντρο εκπομπής είναι το ηχογόνο σώμα. Τα ηχητικά κύματα δεν διακρίνονται με το μάτι, είναι αόρατα, σε αντίθεση με τα κύματα στην επιφάνεια του νερού, που είναι ορατά. Αν όμως σταθούμε κοντά σ' ένα ηχογόνο σώμα καταλαβαίνουμε τον ήχο. Όσο πιο κοντά στο κέντρο εκπομπής βρισκόμαστε, τόσο δυνατότερος είναι και ο ήχος. Εάν απομακρυνθούμε πολύ από το 20

κέντρο εκπομπής, θα φτάσει στιγμή που δε θα ακούμε πια τον ήχο, γιατί τα ηχητικά κύματα θα σβήνουν πριν φτάσουν στα αυτιά μας. 2.2 Ψηφιακός ήχος Ο ψηφιακός ήχος χρησιμοποιεί ψηφιακά σήματα για την αναπαραγωγή ήχου. Αυτό περιλαμβάνει μετατροπή αναλογικού σε ψηφιακό (analog to digital conversion), ψηφιακού σε αναλογικό ( digital to analog conversion ), αποθήκευση και μετάδοση. Ο ψηφιακός ήχος προέκυψε λόγω της χρησιμότητας στην εγγραφή, διαχείριση, μαζική παραγωγή και διανομή του ήχου. Καθοριστικό ρόλο έπαιξε το internet, καθώς συνέβαλε σημαντικά με την μαζική πρόσβαση σε ψηφιοποιημένα μουσικά αρχεία, στην ανάπτυξη της ψηφιοποίησης και στην δημιουργία αλγορίθμων συμπίεσης. Επομένως η αποθήκευση και μεταφορά του ήχου σε ψηφιακή μορφή δεδομένων παρά σαν αναλογικό σήμα ( κασέτα, audio-cd ), μείωσε σε μεγάλο βαθμό τα κόστη διανομής. Ο ψηφιακός ήχος δημιουργείται με την μετατροπή του αναλογικού ηχητικού σήματος σε δυαδικά σήματα. Έπειτα το σήμα κωδικοποιείται για να αποφύγουμε σφάλματα που μπορεί να προκύψουν κατά την αποθήκευση ή μετάδοση του σήματος. Για να γίνει η μετατροπή του αναλογικού σήματος σε ψηφιακό χρειάζεται ένας ρυθμός δειγματοληψίας (sampling rate) και μια ψηφιακή ανάλυση (bit resolution). Επίσης μπορεί να περιέχονται περισσότερα από ένα κανάλια ήχου ( π.χ. 2 κανάλια για στέρεο ή περισσότερα για surround ήχο). Γενικά όσο μεγαλύτερο sampling rate και bit resolution έχουμε τόσο καλύτερη είναι και η ποιότητα ήχου, όπως και μεγαλύτερο όγκο δεδομένων. Αρχικά η μετατροπή του αναλογικού ήχου σε ψηφιακό ξεκινά περνώντας το αναλογικό σήμα μέσα από έναν analog to digital converter (ADC). Ο ADC λειτουργεί σε κάποιο συγκεκριμένο sampling rate και μετατρέπει σε ένα γνωστό bit resolution. Εάν το αναλογικό σήμα δεν έχει περάσει προηγουμένως από ένα ζωνοπερατό φίλτρο τότε είναι απαραίτητο πριν τη μετατροπή το σήμα να περάσει από φίλτρο antialiasing, για να αποφύγουμε το φαινόμενο αναδίπλωσης συχνοτήτων (aliasing) στο ψηφιακό σήμα. Το φαινόμενο αναδίπλωσης συχνοτήτων προκύπτει όταν οι συχνότητες που είναι μεγαλύτερες από την συχνότητα Nyquist δεν έχουν αποκοπεί από ένα ζωνοπερατό φίλτρο και έτσι εμφανίζονται σαν ήχοι χαμηλών συχνοτήτων. Ο ψηφιακός ήχος μπορεί εύκολα να αποθηκευτεί ή να μεταδοθεί (π.χ. μέσω κάποιου δικτύου). Τα κυριότερα μέσα αποθήκευσης είναι τα μουσικά cd, τα mp3 players, οι σκληροί δίσκοι, οι μνήμες αποθήκευσης τύπου flash, κ.α.. Ο ψηφιακός ήχος βρίσκει εφαρμογή σε μεγάλη γκάμα εφαρμογών όπως: Ψηφιακή τηλεοπτική ή ραδιοφωνική αναμετάδοση. Digital audio player. Digital audio workstation. CD μουσικής. 21

DVD MiniDisc Εφαρμογές Internet. Λόγω του σχετικά μεγάλου χώρου που καταλαμβάνουν τα αρχεία ήχου, προέκυψε η ανάγκη για συμπίεση τους. Οι συμπιεσμένες μορφές ήχου σχεδιάστηκαν για να μειώσουν τον απαιτούμενο χώρο αποθήκευσης σε σχέση με τα ασυμπίεστα αρχεία. Αυτό επιτυγχάνεται με την εφαρμογή αλγορίθμων συμπίεσης σε υπολογιστικά συστήματα. Επομένως έχουμε τρείς κύριες κατηγορίες των ψηφιοποιημένων ήχων. 1. Ασυμπίεστοι ήχοι (uncompressed audio formats). 2. Συμπιεσμένοι ήχοι χωρίς απώλεια πληροφορίας (lossless compression). 3. Συμπιεσμένοι ήχοι με απώλεια πληροφορίας (lossy compression). 2.2.1 Ασυμπίεστος ψηφιακός ήχος - WAV Υπάρχει μόνο μια κύρια μορφή ασυμπίεστου ήχου. Αυτή είναι το PCM, που αποθηκεύεται σαν.wav (Waveform Audio File Format) στα συστήματα με Windows και σαν.aiff στα συστήματα με Macintosh. Το wav πρότυπο αναπτύχθηκε από κοινού από την Microsoft και την IBM ως μέρος του προτύπου RIFF (Resource Interchange File Format) για τα Windows 3.1. Είναι ένα ευέλικτο format σχεδιασμένο για να δουλεύει με οποιονδήποτε συνδυασμό sampling rate και bitrate. Οι ασυμπίεστοι ήχοι απαιτούν λιγότερη επεξεργασία σε σύγκριση με τους συμπιεσμένους ήχους για τον ίδιο χρόνο εγγραφής, όμως υστερούν στο μεγαλύτερο αποθηκευτικό χώρο που καταλαμβάνουν. Στο πρότυπο wav, ο ψηφιοποιημένος ήχος αποθηκεύεται όπως προκύπτει από την δειγματοληψία, σε PCM (Pulse Coded Modulation) μορφή. Υποστηρίζονται δείγματα 8 bit, 16 bit (η πλέον συνηθισμένη περίπτωση) και 24 ή 32 bit (πιο σπάνια). Το wav αρχείο ήχου χωρίζεται σε δύο τμήματα: το αρχικό τμήμα ονομάζεται κομμάτι μορφής (format chunk) και περιλαμβάνει την πληροφορία ότι πρόκειται για wav αρχείο ήχου όπως π.χ. τον αριθμό των καναλιών, τον απαιτούμενο ρυθμό δειγματοληψίας και το μήκος (σε bit) του κάθε δείγματος. Το επόμενο τμήμα ονομάζεται κομμάτι δεδομένων (data chunk) και εκτός από τα pcm δείγματα της κυματομορφής, περιλαμβάνει επιπλέον πληροφορία, όπως σημειώσεις ή άλλου είδους κείμενο, σειρά εκτέλεσης εάν το τραγούδι ανήκει σε playlist κ.λ.π. Επίσης, η κυματομορφή μπορεί να περιγράφεται με συμπιεσμένο τρόπο, αντί δηλαδή PCM, να χρησιμοποιείται κάποια μορφή κωδικοποίησης-συμπίεσης όπως Adaptive Differential Pulse Coded Modulation (ADPCM). Υπάρχουν, δηλαδή και συμπιεσμένες μορφές wav. Ωστόσο, χρησιμοποιείται περισσότερο στην απλή αποθήκευση pcm ηχητικών κυματομορφών, απαιτώντας μεγάλες χωρητικότητες ψηφιακής μνήμης. Για παράδειγμα, ένα τραγούδι ''ποιότητας'' CD (= στέρεο, με ρυθμό δειγματοληψίας 44.1 khz και 16 bit δείγματα) και διάρκειας 3 λεπτών, ''κοστίζει'' σε μνήμη 2 x 44100 x 22

180 x 16=254016000 bits ή αλλιώς 242 Mbits ή 30.25ΜΒ. Οπότε σε ένα CD χωρητικότητας 700ΜΒ χωράνε 700 / 30.25 23 τραγούδια. Η χρήση των WAV έχει να κάνει με την απλότητα της δομής που είναι αποθηκευμένο και την φιλικότητα προς το χρήστη. Έτσι συνεχίζει να χρησιμοποιείται ευρέως σε πληθώρα εφαρμογών. Στο διαδίκτυο όμως εμφανίζει μια πτωτική τάση στη χρήση λόγω της ανάπτυξης των συμπιεσμένων μορφών αποθήκευσης του ήχου. 2.2.2 Lossless compression Η συμπίεση lossless επιτρέπει την διατήρηση όλης της ηχητικής πληροφορίας σε αντίθεση με την μη αναστρέψιμη αλλαγή του lossy compression. Η συμπίεση φτάνει σε βαθμό το 50-60% του αρχικού μεγέθους. Λόγω της διατήρησης όλης της πληροφορίας πετυχαίνουμε εξαίρετη ποιότητα και γι αυτό χρησιμοποιείται στις περιπτώσεις αρχειοθέτησης. Δεδομένου ότι ποιότητα είναι μέγιστη, τα κριτήρια αξιολόγησης των διάφορων lossless αλγορίθμων είναι: Η ταχύτητα συμπίεσης και αποσυμπίεσης. Ο βαθμός συμπίεσης. Η υποστήριξη από software και hardware. Ανθεκτικότητα στα σφάλματα και ικανότητα διόρθωσης τους. 2.2.3 Lossy compression Η συμπίεση lossy βρίσκει χρήση σε ένα μεγάλο φάσμα εφαρμογών. Εκτός από τους υπολογιστές εφαρμόζεται και σε συσκευές αναπαραγωγής mp3 και DVD, στην ψηφιακή τηλεόραση, streaming μέσω internet, δορυφορικό και καλωδιακό ραδιόφωνο και στον ραγδαία αναπτυσσόμενο τομέα της επίγειας ψηφιακής αναμετάδοσης ραδιοφώνου. Η lossy συμπίεση επιτυγχάνει πολύ μεγαλύτερη συμπίεση απ ότι η lossless συμπίεση και φτάνει το 5-20% του αρχικού μεγέθους, αγνοώντας περιττά δεδομένα. Η καινοτομία της είναι ότι βασίζεται στην ψυχοακουστική θεωρία που αναγνωρίζει ότι το ανθρώπινο σύστημα ακοής δεν αντιλαμβάνεται όλα τα δεδομένα σε έναν ήχο. Τα δεδομένα αυτά είναι συνήθως υψηλές συχνότητες ή ήχοι που λαμβάνουν χώρα την ίδια χρονική στιγμή με πολύ δυνατότερους ήχους. Τέτοιο ήχοι είτε κωδικοποιούνται με μειωμένη ακρίβεια είτε δεν κωδικοποιούνται καθόλου. Η αποκοπή αυτών των μη ακουστών ήχων από τον άνθρωπο δεν μειώνει σημαντικά το μέγεθος των δεδομένων. Η πραγματική μείωση οφείλεται στο φαινόμενο noise shaping. Μειώνοντας τον αριθμό των bits που χρησιμοποιούνται στην κωδικοποίηση του σήματος, αυξάνεται ο θόρυβος. Βασιζόμενοι πάλι στην ψυχοακουστική θεωρία μπορούμε να κρύψουμε αυτόν τον θόρυβο σε περιοχές του ήχου που δεν γίνονται αντιληπτές. 23

Ανάλογα με το είδος του ήχου μπορούμε να πετύχουμε μεγαλύτερη συμπίεση. Για παράδειγμα η ομιλία μπορεί να συμπιεστεί περισσότερο από την μουσική. Επίσης εξαρτάται από τις απαιτήσεις σε bandwidth και αποθηκευτικό χώρο. Έτσι μπορεί να έχουμε ασήμαντη απώλεια ποιότητας ή σε άλλες περιπτώσεις πιο σημαντική. Σημαντικός αρνητικός παράγοντας είναι η μη δυνατότητα ανάκτησης της αρχικής πληροφορίας. Τα κριτήρια αξιολόγησης των lossy αλγορίθμων είναι: Ποιότητα ήχου που γίνεται αντιληπτή. Ο βαθμός συμπίεσης. Ταχύτητα συμπίεσης και αποσυμπίεσης, Εγγενής καθυστέρηση του αλγορίθμου (σημαντικό σε real-time εφαρμογές). Η υποστήριξη από software και hardware. 2.3 Θεωρία εικόνας Με τον όρο εικόνα εννοούμε συνήθως ένα αντικείμενο δύο διαστάσεων όπου απεικονίζεται η μορφή ενός αντικειμένου (π.χ. φυσικό αντικείμενο ή άνθρωπος). Χαρακτηριστικό παράδειγμα μιας εικόνας είναι μια φωτογραφία. Η αποτύπωση μιας εικόνας μπορεί να γίνει μέσω μιας συσκευής όπως π.χ. κάμερα, φωτογραφική μηχανή, καθρέφτης, τηλεσκόπιο, μικροσκόπιο κλπ, ή ακόμα και από φυσικά αντικείμενα ή φαινόμενα όπως είναι το μάτι και η επιφάνεια του νερού. 2.4 Ψηφιακή εικόνα Η ψηφιακή εικόνα είναι μια αναπαράσταση της εικόνας που αναφερθήκαμε πιο πάνω, στα υπολογιστικά συστήματα με χρήση της δυαδικής λογικής. Οι εικόνες στην ψηφιοποιημένη μορφή τους αποτελούνται από στοιχεία τα οποία καλούνται pixels. Ο αριθμός των pixels είναι σταθερός για κάθε εικόνα και αναπαριστώνται με μορφή δισδιάστατου πίνακα. Το pixel είναι το μικρότερο δομικό στοιχείο σε μια εικόνα. Η τιμή που μπορεί να έχει είναι κβαντισμένη και αναπαριστά τη φωτεινότητα του χρώματος που έχουμε σε αυτό το σημείο. Όσο μεγαλύτερο είναι το πλήθος των pixel μιας εικόνας, τόσο καλύτερη ποιότητα και ευκρίνεια έχει. Κάθε pixel αντιστοιχίζεται με ένα συγκεκριμένο σημείο στην εικόνα και η τιμή του αποτελείται από μια ή περισσότερες συνιστώσες. Έτσι προκύπτουν οι πιο κάτω τύποι ψηφιακών εικόνων : Binary (ασπρόμαυρη εικόνα) Grayscale (απόχρωση του γκρι) Έγχρωμη 24

2.4.1 Συμπίεση εικόνας Για την εξοικονόμηση αποθηκευτικού χώρου και εύρους ζώνης κατά την μεταφορά πολυμεσικών δεδομένων κρίνεται απαραίτητη η συμπίεση της εικόνας. Πολλές εφαρμογές θα ήταν πρακτικώς αδύνατες ή οικονομικά ασύμφορες χωρίς τη χρήση αλγορίθμων συμπίεσης. Τέτοιες εφαρμογές είναι η ψηφιακή τηλεόραση, η μετάδοση εικόνων και βίντεο μέσω internet, DVD κ.α.. Οι αλγόριθμοι συμπίεσης, όπως και στον ήχο, διακρίνονται σε lossless και lossy. Οι lossless συμπιέσεις εφαρμόζονται σε περιπτώσεις που η ποιότητα της εικόνας απαιτείται να είναι μεγάλη. Οι lossy προτιμούνται σε εικόνες που δεν μας ενδιαφέρει τόσο η ποιότητα, αλλά ο όγκος που καταλαμβάνει η εικόνα. Μερικά είδη lossless συμπίεσης είναι: Run-length encoding (π.χ. BMP,TGA, TIFF) DPCM Entropy encoding LZW (π.χ. GIF) Deflation (π.χ. PNG) Μερικά είδη lossy συμπίεσης είναι: Μείωση του χρωματικού χώρου (color space) στα χρώματα που εμφανίζονται περισσότερο στην εικόνα. Υποδειγματοληψία χρωμικότητας. Μέσω μετασχηματισμού (π.χ. Fourier, DCT, wavelet) Fractal compression 2.5 Βίντεο Το βίντεο είναι βασικά ένας τρισδιάστατος πίνακας που αποτελείται από pixel. Οι δυο διαστάσεις εξυπηρετούν τις χωρικές διαστάσεις και η τρίτη την χρονική. Στην πραγματικότητα ένα βίντεο είναι μια αλληλουχία εικόνων και κάθε εικόνα λέγεται frame. Έτσι κάθε frame είναι ένα σύνολο από pixels που αντιστοιχούν σε μια χρονική στιγμή. Οι σημαντικότεροι τύποι αρχείων βίντεο είναι τα avi, mpeg, wmv, mkv, asf κ.α. Στην επόμενη ενότητα γίνεται μια πιο εκτενέστερη περιγραφή των αρχείων τύπου avi, τα οποία χρησιμοποιούνται από την εφαρμογή av_analyser. Οι περισσότερες συμπιέσεις βίντεο είναι lossy και βασίζονται στην αρχή ότι πολλά από τα δεδομένα πριν από την συμπίεση δεν είναι απαραίτητα για να έχουμε μια καλή ποιότητα βίντεο. Η συμπίεση βίντεο εφαρμόζεται σε τετραγωνικές ομάδες γειτονικών pixels, τα οποία ονομάζονται macroblock. Τα macroblock του τρέχοντος frame συγκρίνονται με τα αντίστοιχα του επόμενου και κωδικοποιούνται μόνο αυτά που έχουν διαφορές. Τα βασικότερα πρότυπα συμπίεσης είναι το Η.26x, M-JPEG, MPEG-1, MPEG-2, MPEG-4. 25

2.6 AVI (Audio Video Interleave) Το AVI είναι ένα format πολυμέσων που προτάθηκε από την Microsoft τον Νοέμβριο του 1992 και είναι παράγωγο του RIFF. Τα αρχεία AVI περιέχουν συγχρονισμένα δεδομένα ήχου και βίντεο. Τα δεδομένα χωρίζονται σε blocks (κομμάτια). Κάθε κομμάτι αναγνωρίζεται από ένα κώδικα τεσσάρων χαρακτήρων (FourCC). Το AVI παίρνει την μορφή ενός μονού κομματιού σε ένα αρχείο κατά RIFF, το οποίο υποδιαιρείται σε δύο υποχρεωτικά και ένα προαιρετικό κομμάτι. Το πρώτο από τα δύο κομμάτια αναγνωρίζεται από το χαρακτηριστικό hdrl. Αυτό είναι η επικεφαλίδα του αρχείου και περιέχει τα χαρακτηριστικά του βίντεο, όπως πλάτος, ύψος και frame rate. Το δεύτερο κομμάτι αναγνωρίζεται από χαρακτηριστικό movi και περιέχει τα οπτικοακουστικά μας δεδομένα. Το τρίτο προαιρετικό κομμάτι αναγνωρίζεται από το χαρακτηριστικό idx1 το οποίο δεικτοδοτεί τις αντισταθμίσεις των δεδομένων στο αρχείο. Το δεύτερο κομμάτι που περιέχει τα δεδομένα ( movi ) μπορεί να κωδικοποιηθεί ή να αποκωδικοποιηθεί με κάποιο λογισμικό το οποίο λέγεται codec. Κατά την δημιουργία του αρχείου ο codec κάνει μετάφραση των μη επεξεργασμένων και των συμπιεσμένων δεδομένων. Άρα ένα AVI αρχείο, μπορεί να έχει τα δεδομένα της οπτικοακουστικής πληροφορίας συμπιεσμένα ή ασυμπίεστα. Η συμπίεση που προείπαμε, μπορεί να γίνει με codecs όπως Indeo, Cinepak, M-JPEG, Editable MPEG, VDOWave, ClearVideo / RealVideo, QPEG και MPEG-4 Video. Τα τελευταία χρόνια υπήρξε μεγάλη διάδοση των AVI αρχείων που χρησιμοποιούν τους codecs Xvid και Divx. Το Χvid γνώρισε μεγαλύτερη ανάπτυξη καθώς είναι ανοικτού κώδικα και ο καθένας μπορεί να επέμβει και να το βελτιώσει. Τα αρχεία αυτά είναι πολύ δημοφιλή στα δίκτυα ανταλλαγής αρχείων, λόγω της καλής αναλογίας μεγέθους-ποιότητας που προσφέρουν. 26

Μέρος ΙΙ Low-Level χαρακτηριστικά ήχου-εικόνας 27

28

Κ Ε Φ Α Λ Α Ι Ο 3 Χαρακτηριστικά Ήχου 3.1 Εισαγωγή Τα χαρακτηριστικά χαμηλού επιπέδου είναι μια συλλογή απλών περιγραφέων και μπορούν να χαρακτηρίσουν οποιοδήποτε τύπο ήχου. Με τον όρο χαρακτηρισμό εννοούμε την περιγραφή του ήχου με μαθηματικές έννοιες. Δηλαδή μπορούμε να εξάγουμε κάποιες πληροφορίες με βάση κάποιες ιδιότητες του ήχου, τόσο στο πεδίο του χρόνου, όσο και στο πεδίο της συχνότητας. Εφαρμόζονται κυρίως για τον εντοπισμό ομοιοτήτων μεταξύ δύο ή περισσότερων ήχων. Έτσι είναι δυνατό να εντοπιστούν ταυτόσημα, παρόμοια ή ανόμοια ηχητικά κομμάτια. Επίσης, αυτά τα χαρακτηριστικά, είναι η βάση για την ταξινόμηση των ήχων σε διάφορες κατηγορίες. Κύριο πλεονέκτημα τους είναι η ευελιξία τους, επιτρέποντας έτσι την δημιουργία καινούριων εφαρμογών. Ένα πλήθος χαρακτηριστικών μπορεί να ορίσει ένα πρότυπο, όπως π.χ. το MPEG-7 που είναι και το πιο διαδεδομένο στις μέρες μας. Διευκολύνεται επομένως με βάση τα πρότυπα, η δημιουργία εφαρμογών υψηλότερου επιπέδου. Πιο κάτω γίνεται μια περιγραφή ενός πλήθους χαρακτηριστικών, ορισμένα εκ των οποίων περιέχονται στο πρότυπο MPEG-7. Τα χαρακτηριστικά ομαδοποιήθηκαν στις παρακάτω κατηγορίες: Timbral Temporal: Log Attack Time, Temporal Centroid Basic Spectral: Audio Spectrum Envelope, Audio Spectrum Centroid, Audio Spectrum Spread, Audio Spectrum Flatness 29

Spectral Timbral: Harmonic Spectral Centroid, Harmonic Spectral Deviation, Harmonic Spectral Spread, Harmonic Spectral Variation, Spectral Centroid Basic Signal Parameters: Harmonicity Rate, Upper Limit of Harmonicity, Audio Fundamental Frequency Επιπλέον χαρακτηριστικά στο πεδίο του χρόνου: Zero Crossing Rate, Ενεργειακή Εντροπία, Short Time Energy Επιπλέον χαρακτηριστικά στο πεδίο της συχνότητας: Roll-Off, Spectral Flux, MFCC 3.2 Timbral Temporal Τα Timbral Temporal χαρακτηριστικά περιγράφουν χρονικά χαρακτηριστικά σε τμήματα του ήχου. Είναι ιδιαίτερα χρήσιμα στην περιγραφή μουσικής χροιάς. Δηλαδή μπορούν να διακρίνουν δύο ήχους με ίδιο τόνο και ένταση. Εξάγονται από το περίγραμμα του σήματος στο πεδίο του χρόνου. Το περίγραμμα του σήματος περιγράφει την αλλαγή ενέργειας στο σήμα και είναι γενικά ισοδύναμο με τον μουσικό όρο ADSR (Attack, Decay, Sustain, Release). Ένας τρόπος εξαγωγής του περιγράμματος είναι ο υπολογισμός της ενεργού τιμής του σήματος s(n) για κάθε frame. 1 Env l s ln n l L N w 1 2 ( ) = ( hop + ) (0 1), Nw n= 0 (3.1) όπου L είναι ο ολικός αριθμός frame, n ο δείκτης των δειγμάτων στο χρόνο, l είναι ο δείκτης των frame στο χρόνο, Ν hop είναι ο ακέραιος αριθμός των δειγμάτων στο χρόνο αντίστοιχα με το hopsize και N w είναι ο ακέραιος αριθμός των δειγμάτων στο χρόνο σύμφωνα με το μήκος ενός frame. Σχ. 3.1: Απεικόνιση του ADSR στο περίγραμμα ενός ήχου Οι τέσσερις φάσεις του ADSR είναι: 1. Attack: είναι το μήκος του χρόνου που απαιτείται για να φτάσει ο ήχος για πρώτη φορά στη μέγιστη ένταση του. 30

2. Decay: είναι ο χρόνος που χρειάζεται η ένταση του ήχου, για να σταθεροποιηθεί 3. Sustain: είναι η φάση που ακολουθεί μετά την Decay και στην οποία το περίγραμμα του σήματος είναι σταθερό. 4. Release: είναι ο χρόνος που χρειάζεται για να φτάσει η ένταση στο μηδέν. Σε έναν ήχο δεν είναι απαραίτητο να εμφανίζονται και οι τέσσερις φάσεις. 3.2.1 Log Attack Time Ορίζεται ως ο λογάριθμος της χρονικής διάρκειας μεταξύ του χρόνου εκκίνησης του σήματος και του χρόνου που το σήμα λαμβάνει για πρώτη φορά τη μέγιστη τιμή του. Ως χρόνος εκκίνησης θεωρείται ένα ελάχιστο κατώφλι. Συνήθως το κατώφλι αυτό είναι της τάξης του 2% της μέγιστης τιμής. Ο LAT ορίζεται ως: LAT = log ( T1 T 0) (3.2) Όπου Τ0 είναι ο χρόνος εκκίνησης του σήματος και Τ1 είναι ο χρόνος που το σήμα λαμβάνει τη μέγιστη τιμή του για πρώτη φορά (Σχ. 3.2). Να διευκρινιστεί ότι ο χρόνος Τ1 μπορεί να είναι ίσος με t stop ή t sustain αναλόγως αν υπάρχει η φάση Decay ή όχι αντίστοιχα. Με άλλα λόγια ο χρόνος επίθεσης είναι η διάρκεια της φάσης Α (Σχ. 3.1) και είναι το πρώτο μέρος ενός ήχου, πριν ακόμα ένα αισθητό ηχητικό συμβάν λάβει μέρος. Για παράδειγμα, τα κρουστά όργανα έχουν μικρό LAT ενώ τα πνευστά έχουν LATs μεγαλύτερης διάρκειας. 10 Σχ. 3. 2: Απεικόνιση του Log Attack Time. Το T0 υπολογίζεται ως ο χρόνος που το περίγραμμα του σήματος υπερβαίνει το 0.02 της μέγιστης τιμής. Ο Τ1 υπολογίζεται ως ο χρόνος που το περίγραμμα του σήματος φτάνει τη μέγιστη τιμή του. 31

3.2.2 Temporal Centroid Είναι ο μέσος χρόνος του περιγράμματος της ενέργειας του σήματος. Ορίζεται από τον παρακάτω τύπο: TC = N F hop s L 1 l= 0 L 1 l= 0 lenv() l Env() l (3.3) F είναι ο ρυθμός δειγματοληψίας, Env() l είναι το περίγραμμα του σήματος όπου s όπως αυτό ορίζεται από τη σχέση 3.1 και l είναι ο αύξων αριθμός του frame. Ο παράγοντας N / F είναι ο ρυθμός δειγματοληψίας των frame. Μονάδα μέτρησης hop του TC είναι το δευτερόλεπτο. s 3.3 Basic Spectral Οι 4 βασικοί φασματικοί περιγραφείς έχουν την ίδια κοινή βάση. Προέρχονται από μια ανάλυση χρόνου-συχνότητας ενός ηχητικού σήματος. Όλοι οι περιγραφείς χρησιμοποιούν τον περιγραφέα Audio Spectrum Envelope, ο οποίος είναι ένα λογαριθμικό φάσμα συχνοτήτων. Η χρήση λογαριθμικών συχνοτήτων γίνεται για να προσεγγίζεται η απόκριση του ανθρώπινου αφτιού. 3.3.1 Audio Spectrum Envelope Το ASE είναι ένα φάσμα ισχύος λογαριθμισμένων συχνοτήτων. Δημιουργεί ένα μειωμένο φασματογράφημα του αρχικού σήματος. Υπολογίζεται αθροίζοντας την ενέργεια του αρχικού φάσματος ισχύος μέσα σε μια σειρά ζωνών συχνοτήτων. Οι ζώνες είναι λογαριθμικά κατανεμημένες μεταξύ δύο συχνοτήτων loedge και hiedge. Η ανάλυση r των ζωνών συχνοτήτων, μέσα στο διάστημα που αναφέραμε, μπορεί να επιλεγεί μεταξύ οχτώ πιθανών τιμών (από 1/16 της οκτάβας μέχρι 8 οκτάβες) και δίνεται από τον τύπο: r = 2 j octaves( 4 j 3) (3.4) Τα loedge και hiedge πρέπει να συσχετίζονται με το 1kHz με τον ακόλουθο τρόπο: όπου r είναι η ανάλυση σε οκτάβες και n μια ακέραια τιμή. rn Edge = 2 1kHz (3.5) Οι συνηθέστερες τιμές των loedge και hiedge είναι 62.5Hz και 16kHz αντίστοιχα. Η δεύτερη είναι το άνω όριο της ακοής ενώ η πρώτη είναι τέτοια ώστε το 32

εύρος να αντιστοιχεί σε οχτώ οκτάβες. Μέσα σε αυτό το εύρος το πλήθος των λογαριθμισμένων ζωνών, για ανάλυση r, είναι B in =8/r. Τα άνω και κάτω όρια κάθε ζώνης είναι: lof hif b b = loedge 2 = loedge 2 ( b 1) r br, (1 b B in ) (3.6) Το άθροισμα των συντελεστών ισχύος στη ζώνη b, δίνει το συντελεστή ASE σε αυτή τη ζώνη. hikb ASEb ( ) = Pk ( ), (1 b Bin) (3.7) k= lokb όπου Pk ( ) είναι οι συντελεστές του φάσματος ισχύος και ορίζονται στην σχ. 3.8 και lok b ή hik b είναι ακέραιοι που αντιστοιχούν στα lof b και hif b. 1 2 Pk l( ) = Sl( k) για k= 0 και k= N E FT w 1 2 N Pk l( ) = 2 Sl( k) για 0< k< N E 2 FT w FT N 2 FT (3.8) Όπου k είναι ο δείκτης συχνοτήτων, Sl ( k ) το φάσμα του l-οστού frame, Pk l ( ) το φάσμα ισχύος του ίδιου frame, E w η ενέργεια του παραθύρου, Ν FT το μέγεθος του DFT. Σχ. 3.3: Εξαγωγή του ASE από φάσμα ισχύος 33

3.3.2 Audio Spectrum Centroid Το audio spectrum centroid δείχνει που βρίσκεται το «κέντρο μάζας» του φάσματος ισχύος (λογαριθμισμένων συχνοτήτων). Θα μπορούσε να χαρακτηριστεί ως η φωτεινότητα ενός ήχου. Όλοι οι συντελεστές ισχύος κάτω από 62.5Hz προστίθενται και αναπαριστώνται από ένα μόνο συντελεστή για να αποφύγουμε μια μηδενική DC συνιστώσα ή συνιστώσες πολύ χαμηλών συχνοτήτων να έχουν δυσανάλογο βάρος. Στην κλίμακα διακριτών συχνοτήτων, αυτό αντιστοιχεί σε κάθε συντελεστή ισχύος που είναι κάτω από τον δείκτη: K = floor(62.5 / F) (3.9) low όπου ΔF=F s /N FT είναι το διάστημα συχνοτήτων ανάμεσα σε δυο bins του FFT. Αυτό οδηγεί σε ένα καινούργιο φάσμα ισχύος το οποίο συνδέεται με το αρχικό φάσμα ισχύος με την παρακάτω σχέση: P'( k') Οι συχνότητες K low Pk ( ) για k' = 0 k= 0 = NFT ( ' + low) για 1 ' Pk K k K 2 f '( k ') που αντιστοιχούν στα νέα bins k ' δίνονται από: low (3.10) f 31.25 για k ' = 0 '( k') = NFT f( k' + Klow) για 1 k' 2 K low (3.11) Τελικά για κάθε frame το ASC υπολογίζεται ως εξής: ASC = ( N /2) K FT low 2 k ' = 0 ( N /2) K FT f '( k') log ( ) P'( k') 1000 k ' = 0 low P'( k') (3.12) Το ASC περιγράφει το σχήμα του φάσματος ισχύος και υποδηλώνει αν στο φάσμα επικρατούν χαμηλές ή υψηλές συχνότητες. Επίσης είναι μια προσέγγιση της οξύτητας του ήχου. Οι λογαριθμικές συχνότητες προσεγγίζουν την αντίληψη των συχνοτήτων στο ανθρώπινο σύστημα ακοής. 3.3.3 Audio Spectrum Spread Το ASS είναι ένα ακόμα απλό μέτρο του σχήματος του φάσματος. Ορίζεται ως η δεύτερη κεντρική του φάσματος συχνοτήτων (λογαριθμικών). Είναι η ρίζα της 34

μέσης τετραγωνικής τιμής της απόκλισης των λογαριθμικών συχνοτήτων του φάσματος ισχύος σε σχέση με το κέντρο βάρους ενός πλαισίου. ASS = ( N /2) K FT k ' = 0 low f '( k') log 2( ) ASC P'( k ') 1000 ( N /2) K FT k ' = 0 low P'( k') 2 (3.13) Το ASS δείχνει με ποιο τρόπο το φάσμα διανέμεται γύρω από το κέντρο μάζας του. Μια χαμηλή τιμή σημαίνει ότι το φάσμα ίσως συγκεντρώνεται γύρω από το κέντρο μάζας, στο οποίο μια υψηλή τιμή αντικατοπτρίζει μια διανομή ισχύος κατά μήκος ενός πλατύτερου εύρους συχνοτήτων. Είναι σχεδιασμένο έτσι ώστε να διακρίνονται τονικοί ήχοι και ήχοι που μοιάζουν με θόρυβο. 3.3.4 Audio Spectrum Flatness Περιγράφει το πόσο επίπεδο είναι ένα φάσμα ισχύος ανάμεσα σε ένα ζεύγος συχνοτήτων. Πιο συγκεκριμένα, για ένα σήμα ήχου, αποτελείται από ένα σύνολο τιμών, κάθε μία από τις οποίες εκφράζει την απόκλιση του φάσματος ισχύος από ένα επίπεδο μέσα σε μια ζώνη συχνοτήτων. Συνεπώς είναι ένα μέτρο του πόσο όμοιος είναι ο ήχος με το λευκό θόρυβο. Το πρώτο βήμα είναι ο υπολογισμός της σχέσης 3.8. Το διάστημα μεταξύ hiedge και loedge του φάσματος διαιρείται σε υποδιαστήματα του ¼ της οκτάβας. Τα hiedge και loedge δεν πρέπει να συγχέονται με αυτά της 3.3.1. Εδώ οι τιμές αυτές επιλέγονται έτσι ώστε τα διαστήματα που τις χωρίζουν από το 1kHz, να είναι πολλαπλάσια του ¼ της οκτάβας. Επομένως έχουμε: 1 4 loedge = 2 1kHz 1 4 hiedge = 2 loedge n B (3.14) όπου n και B είναι ακέραιες παράμετροι με τις ακόλουθες σημασίες. Η τιμή του n καθορίζει την άκρη της χαμηλότερης ζώνης. Η τιμή του Β είναι το επιθυμητό πλήθος ζωνών συχνοτήτων. Δεν πρέπει όμως να υπερβαίνει ένα όριο πέρα από το οποίο δεν μπορεί να εξαχθεί το ASF. ' b ' b hik lok + 1 ' b ' b hik ' b ' b k ' = lok P ( k') ASF( b) = ' (1 b B) hikb 1 Pg ( k') hik lok + 1 g ' b k ' = lok (3.15) 35

όπου Pg ( k ') είναι ένα νέο σύνολο συντελεστών ισχύος που υπερβαίνουν το 1 khz και χρησιμοποιούνται αντί των P(k) για να μειωθεί το υπολογιστικό κόστος, και ' hik b είναι οι νέοι δείκτες των άκρων στις νέες ζώνες συχνοτήτων. ' lok b Οι συντελεστές του Audio Spectrum Flatness μπορούν να χρησιμοποιηθούν για σύγκριση δύο ήχων. Θα μπορούσε επίσης να χρησιμοποιηθεί ο μέσος όρος κάθε frame σε εφαρμογές ταξινόμησης ήχου. 3.4 Timbral Spectral Τα χαρακτηριστικά αυτά στοχεύουν στην περιγραφή της δομής του αρμονικού φάσματος. Σε αντίθεση με τα Timbral Temporal εξάγονται σε ένα γραμμικό χώρο συχνοτήτων. Για την εξαγωγή τους απαιτείται ο υπολογισμός της θεμελιώδους συχνότητας (Audio Fundamental Frequency) και ο εντοπισμός των αρμονικών συνιστωσών του σήματος. Ο αλγόριθμος εντοπισμού εκτελείται σε τέσσερα βήματα. 1. Εξάγεται το φάσμα S(k), του παραθυροποιημένου σήματος, μέσω ενός αλγορίθμου FFT. Έπειτα υπολογίζεται το μέτρο του. 2. Εύρεση θεμελιώδους συχνότητας f 0. 3. Εντοπισμός των κορυφών του φάσματος. 4. Κάθε μια κορυφή αναλύεται για να αποφασιστεί αν είναι ή όχι αρμονική. Σχ. 3.4: Διάγραμμα αλγορίθμου εντοπισμού αρμονικών κορυφών Η θεμελιώδης συχνότητα βοηθά στον εντοπισμό των αρμονικών κορυφών στο φάσμα. Οι αρμονικές κορυφές βρίσκονται γύρω από τα πολλαπλάσια της θεμελιώδους αυτής συχνότητας. Δηλαδή: f = hf, (1 ) 0 h N (3.16) h όπου Ν H είναι το πλήθος των αρμονικών κορυφών. Το FFT bin k h που αντιστοιχεί στην h-οστή αρμονική κορυφή είναι: k h k [ a b ] h, h h = arg max Sk ( ) (3.17) 36

Τα όρια αναζήτησης α h και b h είναι: f0 ah = floor ( h nht) F f0 bh = ceil ( h + nht) F (3.18) όπου ΔF=F s /N FT είναι το διάστημα μεταξύ δύο FFT bins και nht είναι η επιθυμητή ανοχή μη-αρμονικότητας. Η αρμονική ανάλυση του φάσματος είναι ιδιαίτερα χρήσιμη για μουσική και ομιλία. Μουσικά όργανα που παράγουν τόνους εμφανίζουν υψηλό βαθμό αρμονικότητας. Στην ομιλία το περίγραμμα του φάσματος εμφανίζει κορυφές και κοιλάδες. Οι περιοχές αυτές διακρίνουν φωνήεντα. Αυτές εμφανίζονται ακόμη και στα βιολιά, αλλά ο αριθμός των κοιλάδων είναι μεγαλύτερος και οι περιοχές αλλάζουν ελάχιστα με την πάροδο του χρόνου σε αντίθεση με την ομιλία. 3.4.1 Harmonic Spectral Centroid Υπολογίζεται ως το πλάτος του μέσου βάρους, των αρμονικών κορυφών του φάσματος. Η έκφραση του για κάθε frame είναι: LHSC l = N H h= 1 N ( f A ) H h= 1 hl, hl, A hl, (3.19) όπου f και hl, A είναι η συχνότητα και το πλάτος της h-οστής αρμονικής κορυφής hl, που υπολογίζεται στο l-οστό frame του σήματος και Ν Η είναι το πλήθος των αρμονικών. Η τελική τιμή του HSC είναι το μέσο των βαρών των frame. όπου L είναι το πλήθος των frames. 1 1 L LHSCl L l= 0 HSC = (3.20) 3.4.2 Harmonic Spectral Spread Το HSS είναι ένα μέτρο της μέσης διασποράς του φάσματος σε σχέση με το HSC. Ορίζεται ως η ενεργός απόκλιση της ισχύος του φάσματος από το στιγμιαίο HSC όπως αυτό ορίζεται στη σχέση 3.19. 37

Η τοπική τιμή του κανονικοποιείται από το LHSC l. LHSS l = 1 LHSC l N H h= 1 ( f LHSC ) A hl, l hl. N H h= 1 A 2 hl, 2 (3.21) Η μέση τιμή για όλα τα frames είναι: HSS 1 1 L LHSSl L l= 0 = (3.22) 3.4.3 Harmonic Spectral Variation (HSV) Το HSV αντανακλά την απόκλιση του φάσματος των αρμονικών μεταξύ διαδοχικών frame. Ορίζεται ως το συμπλήρωμα του 1, της κανονικοποιημένης συσχέτισης μεταξύ των πλατών των αρμονικών κορυφών, που ανήκουν σε δύο διαδοχικά frames. LHSV l = 1 N H ( Ahl, 1 Ahl,) h= 1 N H A NH 2 2 hl, 1 hl, h= 1 h= 1 A (3.23) Επομένως το HSV είναι: HSV 1 1 L LHSVl L l= 0 = (3.24) 3.4.4 Harmonic Spectral Deviation Το HSD μετράει την απόκλιση των αρμονικών κορυφών από το περίγραμμα του φάσματος. Μέσα στο l-οστό frame του σήματος, όπου έχουν εντοπιστεί Ν Η αρμονικές κορυφές, το φασματικό περίγραμμα SE hl, προσεγγίζεται με παρεμβολή των πλατών διαδοχικών αρμονικών κορυφών με τον ακόλουθο τρόπο: 1/ 2( Ahl, + Ah+ 1, l) αν h= 1 SEhl, = 1 / 3( Ah 1, l + Ahl, + Ah+ 1, l) αν 2 h NH 1 1/ 2( Ah 1, l + Ahl, ) αν h= NH (3.25) 38

Οι τοπικές τιμές απόκλισης για κάθε frame είναι: LHSD l = N H h= 1 log ( A ) log ( SE ) 10 hl, 10 hl, N H h= 1 log ( A ) 10 hl, (3.26) Επομένως σε όλο το κομμάτι ήχου το HSD είναι: 1 1 L LHSDl L l= 0 HSD = (3.27) 3.4.5 Spectral Centroid Το Spectral Centroid δεν σχετίζεται με την αρμονική δομή του σήματος. Είναι ουσιαστικά το μέσο των βαρών της ισχύος, των διακριτών συχνοτήτων στο φάσμα. SC = N /2 FT k= 0 N fkpk ( ) ( ) /2 FT k= 0 s P( k) s (3.28) Το P s είναι το φάσμα ισχύος κάθε τμήματος, f(k) είναι η συχνότητα του k- οστού bin και N FT είναι το μέγεθος του DFT. Το P s μπορεί να υπολογιστεί με το μέσο όρο των συντελεστών ισχύος P l (σχ. 3.8) για κάθε frame. Αυτό το χαρακτηριστικό είναι παρόμοιο με το ASC της 3.3.2, όμως είναι σχεδιασμένο έτσι ώστε να διακρίνει καλύτερα χροιές μουσικών οργάνων. Επίσης σχετίζεται άμεσα με τον όρο φωτεινότητα του ήχου. Όσο αυξάνει η ένταση τόσο αυξάνεται και το φασματικό περιεχόμενο του σήματος, κάνοντας τον ήχο πιο φωτεινό. 3.5 Basic Signal Parameters Τα χαρακτηριστικά αυτά δίνουν κάποιες συμπληρωματικές πληροφορίες, περιγράφοντας πιο αναλυτικά το βαθμό αρμονικότητας των ηχητικών σημάτων. Τα Basic Signal Parameters είναι το Audio Fundamental Frequency, το Harmonic Ratio και το Upper Limit of Harmonicity. Τα δύο τελευταία συχνά αναφέρονται στη βιβλιογραφία ως ένα ενιαίο χαρακτηριστικό, το Audio Harmonicity. 39

3.5.1 Harmonic Ratio Το Harmonic Ratio είναι ο λόγος των αρμονικών συντελεστών στο φάσμα ισχύος. Οι συντελεστές HR υπολογίζονται για κάθε frame του αρχικού σήματος με βήμα N δείγματα. Για κάθε frame l, η κανονικοποιημένη συνάρτηση hop αυτοσυσχέτισης είναι: N 1 w s ( n) s ( n m) Γ = l l n= 0 l ( m) ( l m M,0 l L 1) Nw 1 Nw 1 2 2 sl( n) sl( n m) n= 0 n= 0 (3.29) Όπου sl ( n ) είναι s( lnhop + n), m είναι ο δείκτης καθυστέρησης της αυτοσυσχέτισης, και L ο συνολικός αριθμός των frames. Η μέγιστη καθυστέρηση Μ αντιστοιχεί στη μέγιστη θεμελιώδη περίοδο Τ 0 (ή αντίστοιχα στην ελάχιστη θεμελιώδη συχνότητα). F M = T F = (3.30) max s 0 s min f0 Εάν το σήμα είναι καθαρά περιοδικό, οι μέγιστες τιμές του Γ l ( m) θα είναι στις καθυστερήσεις m που αντιστοιχούν σε πολλαπλάσια της Τ 0. Στις καθυστερήσεις κοντά στο m=0, θα εμφανίζεται μια υψηλή κορυφή, η οποία θα έχει τιμές κοντά στο 1 για όλους τους ήχους. Το HR είναι η μέγιστη τιμή της αυτοσυσχέτισης, αγνοώντας την κορυφή που έχει μηδενική καθυστέρηση. HR = max { Γ ( m)} (3.31) M 0 m M Όπου Μ 0 είναι η καθυστέρηση που βρίσκεται ακριβώς δεξιά της κορυφής με τη μηδενική καθυστέρηση. Οι καθυστέρηση που μεγιστοποιεί το Γ l ( m) αντιστοιχεί στην θεμελιώδη περίοδο. Τιμές του HR που είναι κοντά στο 0 υποδηλώνουν λευκό θόρυβο και κοντά στο 1 καθαρά περιοδικά σήματα. l 3.5.2 Upper Limit of Harmonicity Περιγράφει την συχνότητα πέρα από την οποία το φάσμα δεν μπορεί να θεωρηθεί αρμονικό. Βασίζεται στην αναλογία ισχύος της εξόδου/εισόδου ενός συνδυαστικού φίλτρου στο πεδίο του χρόνου. Το φίλτρο είναι συντονισμένο στη θεμελιώδη περίοδο του σήματος. Το χαρακτηριστικό υπολογίζεται με τον πιο κάτω αλγόριθμο. 1. Το συνδυαστικό φίλτρο είναι: 40

s ( n) = s ( n) Gs ( n mˆ ) (0 n N 1) (3.32) l l l w όπου ˆm είναι η καθυστέρηση που μεγιστοποιεί τη συνάρτηση αυτοσυσχέτισης στη σχέση 3.31. Το G l είναι το ιδανικό κέρδος του φίλτρου. G l = N 1 w j= 0 N s ( j) s ( j mˆ ) l 1 w j= 0 l s ( j mˆ ) l 2 (3.33) 2. Υπολογίζεται το φάσμα ισχύος του αρχικού ( P'( k ) ) και του P c' ( k )) σήματος για κάθε frame σύμφωνα με τη φιλτραρισμένου ( σχέση 3.10. 3. Για τα δύο προηγούμενα, προστίθενται όσα δείγματα είναι κάτω από το bin συχνότητας. Η αναλογία των δύο αθροισμάτων είναι: Rk ( ) = ( N /2) K FT k= klim lim ( N /2) K FT k= k lim low low P( k) ' c P'( k) (3.34) 4. Οι αναλογίες Rk ( lim) υπολογίζονται διαδοχικά, μειώνοντας το k lim από k lim = k max έως το πρώτο bin συχνότητας k ulh, για το οποίο το Rk ( lim) είναι μικρότερο από ένα κατώφλι με τιμή 0.5. 5. Η f ulh είναι f( kulh + Klow), εκτός και αν k ulh =0. Στη τελευταία περίπτωση παίρνει την τιμή 31.25 για το λόγο που περιγράφεται στην 3.3.2. 6. Τελικά η τιμή του ULH για κάθε frame είναι: f log ulh ULH = 2 (3.35) 1000 Τα HR και ULH που περιγράφτηκαν στις δύο προηγούμενες παραγράφους χρησιμοποιούνται στη διάκριση αρμονικών (π.χ. μουσική) και μη-αρμονικών ήχων (π.χ. θόρυβος). 3.5.3 Fundamental Frequency Η θεμελιώδης συχνότητα είναι αυτή που εξηγεί καλύτερα την περιοδικότητα ενός σήματος. Είναι αυτό που αντιλαμβάνεται το ανθρώπινο αυτί ως τόνο. Ο ορισμός στο πρότυπο ANSI της ψυχοακουστικής ορολογίας λέει «τόνος είναι το ακουστικό χαρακτηριστικό του ήχου σύμφωνα με το οποίο οι ήχοι μπορούν να κατηγοριοποιηθούν σε μια κλίμακα από χαμηλό έως υψηλό». 41

Το AFF δίνει μια εκτίμηση της θεμελιώδους συχνότητας σε τμήματα που το σήμα είναι περιοδικό. Πιο κάτω παρατίθεται μια από τις πολλές μεθόδους υπολογισμού του. Αυτή είναι η STA (spectro-temporal autocorrelation). Δεδομένου ενός τόνου τ η STA ορίζεται ως: Γ ( τ) = βγ ( τ) + (1 β) Γ ( τ) (3.36) STA ΤΑ όπου Γ ΤΑ και Γ SA είναι οι συναρτήσεις αυτοσυσχέτισης του σήματος στον χρονικό και φασματικό χώρο και β είναι ένας παράγοντας βάρους με τιμές 0 έως 1. Η θεμελιώδης περίοδος Τ 0 και συχνότητα f 0 είναι: SA T 0 1 = arg max [ Γ STA( τ )] = (3.37) τ f 0 Το AFF χρησιμοποιείται κυρίως στην προσέγγιση του τόνου μουσικών οργάνων και ομιλίας. 3.6 Επιπλέον χαρακτηριστικά 3.6.1 Zero crossing rate (ZCR) Το χαρακτηριστικό της συχνότητας διάσχισης του μηδενικού άξονα (Zero Crossing Rate, ZCR) αποτελεί μια από τις δημοφιλέστερες τεχνικές που χρησιμοποιούνται σήμερα για ταξινόμηση και κατηγοριοποίηση των ηχητικών δειγμάτων στο πεδίο του χρόνου. Με την μέθοδο αυτή μπορούμε να προσδιορίσουμε τη συχνότητα του σήματος. Ουσιαστικά, έχουμε Zero-Crossing (διάσχιση του μηδενικού άξονα) κάθε φορά που δύο διαδοχικές τιμές έχουν διαφορετικό πρόσημο. Το ZCR υπολογίζεται ως ο αριθμός των χρονικών διασχίσεων του μηδενικού άξονα (zero-crossings), διαιρεμένος με τον συνολικό αριθμό των δειγμάτων στο πλαίσιο. 1 ZCR = sgn( x ) sgn( x ) (3.38) j i i 1 2N i= 1... N Όπου Ν είναι ο αριθμός των δειγμάτων στο σήμα και 1, xi 0 sgn( xi ) = 1, xi < 0 42