Σημασιολογική ανάλυση περιβαλλοντικών ήχων μέσω εξαγωγής ηχητικών χαρακτηριστικών και χρήσης μεθόδων μηχανικής μάθησης

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Σημασιολογική ανάλυση περιβαλλοντικών ήχων μέσω εξαγωγής ηχητικών χαρακτηριστικών και χρήσης μεθόδων μηχανικής μάθησης"

Transcript

1 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Τομέας Τηλεπικοινωνιών Διπλωματική Εργασία Σημασιολογική ανάλυση περιβαλλοντικών ήχων μέσω εξαγωγής ηχητικών χαρακτηριστικών και χρήσης μεθόδων μηχανικής μάθησης Μπουντουράκης Βασίλειος Επιβλέπων Καθηγητής: Παπανικολάου Γεώργιος Θεσσαλονίκη, Μάιος 2015

2 2

3 Ευχαριστίες Η εργασία εκπονήθηκε στο Εργαστήριο Ηλεκτρακουστικής και Τηλεοπτικών Συστημάτων του Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Αριστοτέλειου Πανεπιστημίου Θεσσαλονίκης. Θα ήθελα να ευχαριστήσω: Τον κ. Γ. Παπανικολάου, που εκτός από επιβλέπων της παρούσας εργασίας, είναι και ο άνθρωπος που με εισήγαγε στο αντικείμενο της Ηλεκτρακουστικής ως καθηγητής μου στη σχολή. Το Λάζαρο Βρύση, υποψήφιο διδάκτορα του Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών για την καθοδήγηση και τη βοήθεια που μου προσέφερε καθ όλη την πορεία της εργασίας. 3

4 Σημασιολογική ανάλυση περιβαλλοντικών ήχων μέσω εξαγωγής ηχητικών χαρακτηριστικών και χρήσης μεθόδων μηχανικής μάθησης Περίληψη Η παρούσα διπλωματική επικεντρώνεται στην εφαρμογή και αξιολόγηση μεθόδων για την αυτόματη αναγνώριση και κατηγοριοποίηση περιβαλλοντικών ήχων. Σε αντίθεση με τα ερευνητικά πεδία της αυτόματης αναγνώρισης ανθρώπινης ομιλίας (Automatic Speech Recognition) και της εξαγωγής πληροφορίας από τη μουσική (Music Information Retrieval), για τα οποία υπάρχει πλούσια βιβλιογραφία, το αντίστοιχο πεδίο της αναγνώρισης περιβαλλοντικών ήχων (Environmental Sound Recognition) δεν έχει λάβει ιδιαίτερη προσοχή. Για το λόγο αυτό, θα εφαρμόσουμε και θα αξιολογήσουμε τεχνικές που έχουν αποδειχτεί αποτελεσματικές στα άλλα δύο πεδία. Το πρώτο στάδιο της διαδικασίας που ακολουθήθηκε αφορά τη συλλογή δειγμάτων ήχου για τη δημιουργία μιας βιβλιοθήκης περιβαλλοντικών ήχων, κατάλληλης για τη διεξαγωγή πειραμάτων. Στη συνέχεια, πραγματοποιήθηκε η επισημείωση (annotation) των δειγμάτων με την καταχώρηση ετικετών της κλάσης στην οποία ανήκουν και η εξαγωγή ηχητικών χαρακτηριστικών (audio feature extraction) από τα δείγματα ήχου, δηλαδή η μετατροπή του ακουστικού σήματος σε μια σειρά διανυσμάτων μικρών διαστάσεων, το οποία περιέχουν μόνο τις βασικές πληροφορίες του σήματος που είναι απαραίτητες για την ταξινόμηση. Συγκεκριμένα, το στάδιο αυτό περιλαμβάνει την προεπεξεργασία του σήματος, την κατάτμηση σε μικρότερα πλαίσια με την εφαρμογή συναρτήσεων παραθύρων, την εξαγωγή χαρακτηριστικών από κάθε πλαίσιο ξεχωριστά και την εφαρμογή μεθόδων αποσυσχέτισης με στόχο τη μετατροπή του αρχικού διανύσματος σε ένα συμπαγές διάνυσμα μικρότερων διαστάσεων, ώστε να διατηρηθούν μόνο εκείνα τα χαρακτηριστικά που συνεισφέρουν περισσότερο στο διαχωρισμό των κλάσεων ταξινόμησης. Στο επόμενο στάδιο, γίνεται εφαρμογή μεθόδων μηχανικής μάθησης για την ταξινόμηση (classification) των ηχητικών γεγονότων. Ένα μέρος των ηχητικών χαρακτηριστικών χρησιμοποιείται για την εκπαίδευση των αλγορίθμων μάθησης και τα υπόλοιπα χρησιμοποιούνται ως δεδομένα ελέγχου της απόδοσης αναγνώρισης των ήχων. Τέλος, παρουσιάζονται τα ποσοστά επιτυχούς αναγνώρισης για κάθε μέθοδο και γίνεται σύγκριση και αξιολόγηση των αποτελεσμάτων. 4

5 Semantic analysis of environmental sounds through audio feature extraction and use of machine learning methods Abstract The goal of this paper is the application and evaluation of methods aiming at the automatic recognition and classification of environmental sounds. In contrast to the research fields of Automatic Speech Recognition and Music Information Retrieval, for which there exists extensive bibliography, the corresponding field of Environmental Sound Recognition has not received special attention. For this reason, we will apply and evaluate techniques that have been proved efficient in the other two fields. The first stage of the process concerns the collection of audio samples for the creation of an environmental sounds library, suitable for the conduction of experiments. Then followed the annotation of the audio samples with the respective class labels and the extraction of audio features from them, i.e. the conversion of the sound signal to a series of matrices of small dimensions, which contain only the basic information of the signal that is required for the classification. In particular, this stage involves the preprocess of the signal, the segmentation in small frames with the use of window functions, the extraction of features from its frame separately and the application of decorrelation methods with the purpose of converting the initial matrix in a more compact one of less dimensions, so as to keep only those features that contribute more to the separation of the classification classes. The next stage involves the application of machine learning methods for the classification of sound events. One part of the audio features is used for the training of the learning algorithms and the rest are used as test data for the estimation of the sound recognition performance. Finally, the recognition rates for each applied method are presented, followed by the comparison and evalutaion of the results. 5

6 6

7 Περιεχόμενα ΚΕΦΑΛΑΙΟ ΕΙΣΑΓΩΓΗ ΓΕΝΙΚΑ ΒΑΣΙΚΟΣ ΣΤΟΧΟΣ ΔΟΜΗ ΤΗΣ ΕΡΓΑΣΙΑΣ ΘΕΩΡΗΤΙΚΟ ΜΕΡΟΣ ΚΕΦΑΛΑΙΟ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΓΕΝΙΚΑ ΜΑΘΗΣΗ ΜΕ ΕΠΙΒΛΕΨΗ, ΧΩΡΙΣ ΕΠΙΒΛΕΨΗ ΚΑΙ ΜΕ ΗΜΙΕΠΙΒΛΕΨΗ ΕΦΑΡΜΟΓΕΣ ΚΕΦΑΛΑΙΟ ΒΑΣΙΚΟ ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΤΑΧΥΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΒΡΑΧΥΠΡΟΘΕΣΜΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΣΥΝΗΜΙΤΟΝΟΥ ΣΑΦΜΑ (CEPSTRUM) ΚΛΙΜΑΚΑ MEL ΚΛΙΜΑΚΑ BARK ΑΚΟΥΣΤΟΤΗΤΑ (LOUDNESS) ΚΕΦΑΛΑΙΟ ΗΧΗΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΧΡΟΝΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ (TEMPORAL FEATURES) ΦΑΣΜΑΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ (SPECTRAL FEATURES) ΣΑΦΜΑΤΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ (CEPSTRAL FEATURES) ΚΕΦΑΛΑΙΟ ΑΛΓΟΡΙΘΜΟΙ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΑΠΛΟΪΚΟΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΗΣ BAYES ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΗΣ K ΠΛΗΣΙΕΣΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΔΕΝΔΡΑ ΑΠΟΦΑΣΕΩΝ ΜΗΧΑΝΕΣ ΔΙΑΝΥΣΜΑΤΙΚΗΣ ΣΤΗΡΙΞΗΣ

8 5.5 ΤΕΧΝΗΤΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΛΟΓΙΣΤΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΚΕΦΑΛΑΙΟ ΑΞΙΟΛΟΓΗΣΗ ΜΟΝΤΕΛΩΝ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΑΚΡΙΒΕΙΑ ΚΑΙ ΑΝΑΚΛΗΣΗ (PRECISION AND RECALL) F-MEASURE ΜΗΤΡΑ ΣΥΓΧΥΣΗΣ (CONFUSION MATRIX) ΕΡΕΥΝΗΤΙΚΟ ΠΕΙΡΑΜΑΤΙΚΟ ΜΕΡΟΣ ΚΕΦΑΛΑΙΟ ΠΑΡΟΥΣΙΑΣΗ ΤΗΣ ΔΙΑΔΙΚΑΣΙΑΣ ΓΕΝΙΚΑ ΔΗΜΙΟΥΡΓΙΑ ΒΙΒΛΙΟΘΗΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΙΚΩΝ ΗΧΩΝ ΔΙΑΜΟΡΦΩΣΗ ΚΛΑΣΕΩΝ ΕΞΑΓΩΓΗ ΗΧΗΤΙΚΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ ΕΠΙΣΗΜΕΙΩΣΗ ΔΕΙΓΜΑΤΩΝ ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ (FEATURE SELECTION) ΑΝΑΛΥΣΗ ΚΥΡΙΩΝ ΣΥΝΙΣΤΩΣΩΝ ΤΑΞΙΝΟΜΗΣΗ ΜΕΣΩ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΔΗΜΙΟΥΡΓΙΑ ΝΕΩΝ ΣΧΗΜΑΤΩΝ ΤΑΞΙΝΟΜΗΣΗΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΜΕ ΑΛΛΑΓΗ ΠΑΡΑΜΕΤΡΩΝ ΤΩΝ ΑΛΓΟΡΙΘΜΩΝ ΑΝΑΛΥΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΜΕ ΧΡΗΣΗ ΜΕΤΡΙΚΩΝ ΑΞΙΟΛΟΓΗΣΗΣ ΚΕΦΑΛΑΙΟ ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΕΦΑΛΑΙΟ ΕΠΕΚΤΑΣΕΙΣ ΒΙΒΛΙΟΓΡΑΦΙΑ

9 9

10 Ευρετήριο Εικόνων ΕΙΚΟΝΑ 2.1 ΣΤΑΔΙΑ ΣΧΕΔΙΑΣΗΣ ΕΝΟΣ ΣΥΣΤΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΕΙΚΟΝΑ ΔΙΑΦΟΡΕΤΙΚΟΙ ΤΥΠΟΙ ΠΑΡΑΘΥΡΩΝ ΜΕ ΤΙΣ ΦΑΣΜΑΤΙΚΕΣ ΤΟΥΣ ΑΠΟΚΡΙΣΕΙΣ. 27 ΕΙΚΟΝΑ ΑΝΑΛΥΤΙΚΟΤΗΤΑ ΤΟΥ STFT ΣΤΟ ΧΡΟΝΟ ΚΑΙ ΣΤΗ ΣΥΧΝΟΤΗΤΑ ΕΙΚΟΝΑ ΔΙΑΔΙΚΑΣΙΑ ΥΠΟΛΟΓΙΣΜΟΥ ΤΟΥ CEPSTRUM ΕΙΚΟΝΑ ΔΙΑΓΡΑΜΜΑ MEL HERTZ ΕΙΚΟΝΑ ΤΡΑΠΕΖΑ ΦΙΛΤΡΩΝ MEL ΕΙΚΟΝΑ ΔΙΑΓΡΑΜΜΑ BARK HZ ΕΙΚΟΝΑ ΙΣΟΦΩΝΙΚΕΣ ΚΑΜΠΥΛΕΣ [ROBINSON, DADSON] ΕΙΚΟΝΑ ΚΑΤΑΝΟΜΕΣ ΜΕ ΘΕΤΙΚΟ ΚΑΙ ΑΡΝΗΤΙΚΟ SKEWNESS ΕΙΚΟΝΑ ΚΑΤΑΝΟΜΕΣ ΜΕ ΘΕΤΙΚΟ ΚΑΙ ΑΡΝΗΤΙΚΟ KURTOSIS ΕΙΚΟΝΑ SPECTRAL CENTROID ΕΙΚΟΝΑ SPECTRAL SPREAD ΕΙΚΟΝΑ SPECTRAL SLOPE ΕΙΚΟΝΑ SPECTRAL ROLL-OFF ΓΙΑ K= ΕΙΚΟΝΑ ΑΠΟΚΛΙΣΗ ΦΑΣΜΑΤΙΚΩΝ ΣΥΝΙΣΤΩΣΩΝ ΑΠΟ ΤΙΣ ΙΔΑΝΙΚΕΣ ΤΙΜΕΣ ΤΩΝ ΑΡΜΟΝΙΚΩΝ ΕΙΚΟΝΑ TRISTIMULUS 1, 2 ΚΑΙ ΕΙΚΟΝΑ ΤΡΙΓΩΝΙΚΟ ΓΡΑΦΗΜΑ TRISTIMULUS ΕΙΚΟΝΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ CHROMA ΕΙΚΟΝΑ SPECTRAL FLATNESS MEASURE ΕΙΚΟΝΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΟ ΦΑΣΜΑ ΕΝΟΣ ΚΛΑΡΙΝΕΤΟΥ ΕΙΚΟΝΑ BRIGHTNESS ΕΙΚΟΝΑ ROUGHNESS ΕΙΚΟΝΑ ΔΙΑΔΙΚΑΣΙΑ ΥΠΟΛΟΓΙΣΜΟΥ ΤΩΝ MFCCS ΕΙΚΟΝΑ ΦΑΣΜΑΤΟΓΡΑΜΜΑ ΗΧΗΤΙΚΟΥ ΣΗΜΑΤΟΣ ΚΑΙ ΤΟ ΑΝΤΙΣΤΟΙΧΟ ΔΙΑΓΡΑΜΜΑ MFCCS ΕΙΚΟΝΑ ΔΙΑΔΙΚΑΣΙΑ ΥΠΟΛΟΓΙΣΜΟΥ ΤΩΝ ΒFCCS ΕΙΚΟΝΑ ΚΑΝΟΝΑΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΜΕΣΩ 3 ΠΛΗΣΙΕΣΤΕΡΩΝ ΓΕΙΤΟΝΩΝ ΕΙΚΟΝΑ ΔΙΑΓΡΑΜΜΑ VORONOI ΣΤΟΝ ΔΙΣΔΙΑΣΤΑΤΟ ΧΩΡΟ ΓΙΑ ΕΥΚΛΕΙΔΕΙΑ ΑΠΟΣΤΑΣΗ ΕΙΚΟΝΑ ΔΟΜΗ ΔΕΝΔΡΟΥ ΑΠΟΦΑΣΗΣ ΕΙΚΟΝΑ ΔΙΑΦΟΡΕΤΙΚΕΣ ΓΡΑΜΜΕΣ ΑΠΟΦΑΣΗΣ ΓΙΑ ΤΟ ΔΙΑΧΩΡΙΣΜΟ ΓΡΑΜΜΙΚΑ ΔΙΑΧΩΡΙΣΙΜΩΝ ΚΛΑΣΕΩΝ ΕΙΚΟΝΑ ΒΕΛΤΙΣΤΗ ΕΠΙΛΟΓΗ ΥΠΕΡΕΠΙΠΕΔΟΥ ΠΟΥ ΜΕΓΙΣΤΟΠΟΙΕΙ ΤΟ ΠΕΡΙΘΩΡΙΟ (MARGIN) ΕΙΚΟΝΑ ΜΗ ΓΡΑΜΜΙΚΑ ΔΙΑΧΩΡΙΣΙΜΕΣ ΚΛΑΣΕΙΣ ΕΙΚΟΝΑ ΕΙΣΑΓΩΓΗ ΜΕΤΑΒΛΗΤΩΝ ΧΑΛΑΡΟΤΗΤΑΣ ΕΙΚΟΝΑ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΣΕ ΧΩΡΟ ΥΨΗΛΟΤΕΡΗΣ ΔΙΑΣΤΑΣΗΣ ΓΙΑ ΤΟ ΓΡΑΜΜΙΚΟ ΔΙΑΧΩΡΙΣΜΟ ΤΟΥΣ ΕΙΚΟΝΑ ΔΟΜΗ ΤΕΧΝΗΤΟΥ ΝΕΥΡΩΝΙΚΟΥ ΔΙΚΤΥΟΥ ΕΙΚΟΝΑ ΑΠΛΟ PERCEPTRON

11 ΕΙΚΟΝΑ ΠΡΟΣΕΓΓΙΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΕΚΠΑΙΔΕΥΣΗΣ ΜΕ ΧΡΗΣΗ ΛΟΓΙΣΤΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ ΕΙΚΟΝΑ ΑΚΡΙΒΕΙΑ ΚΑΙ ΑΝΑΚΛΗΣΗ ΕΙΚΟΝΑ ΓΕΝΙΚΑ ΣΤΑΔΙΑ ΣΧΕΔΙΑΣΗΣ ΕΝΟΣ ΣΥΣΤΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΕΙΚΟΝΑ ΣΥΣΧΕΤΙΣΗ ΜΕΤΑΞΥ MFCC_1 ΚΑΙ BRIGHTNESS ΕΙΚΟΝΑ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟ ΠΡΩΤΟ ΣΧΗΜΑ ΤΑΞΙΝΟΜΗΣΗΣ ΕΙΚΟΝΑ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟ ΠΡΩΤΟ ΣΧΗΜΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕ ΧΡΗΣΗ PCA ΕΙΚΟΝΑ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟ ΔΕΥΤΕΡΟ ΣΧΗΜΑ ΤΑΞΙΝΟΜΗΣΗΣ ΕΙΚΟΝΑ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟ ΔΕΥΤΕΡΟ ΣΧΗΜΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕ ΧΡΗΣΗ PCA ΕΙΚΟΝΑ ΑΚΡΙΒΕΙΑ ΩΣ ΠΡΟΣ ΚΑΘΕ ΚΛΑΣΗ ΤΟΥ ΠΡΩΤΟΥ ΣΧΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟΥΣ ANN ΚΑΙ SVM ΕΙΚΟΝΑ ΑΝΑΚΛΗΣΗ ΩΣ ΠΡΟΣ ΚΑΘΕ ΚΛΑΣΗ ΤΟΥ ΠΡΩΤΟΥ ΣΧΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟΥΣ ANN ΚΑΙ SVM ΕΙΚΟΝΑ F-MEASURE ΩΣ ΠΡΟΣ ΚΑΘΕ ΚΛΑΣΗ ΤΟΥ ΠΡΩΤΟΥ ΣΧΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟΥΣ ANN ΚΑΙ SVM ΕΙΚΟΝΑ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΤΟΥ ΠΡΩΤΟΥ ΣΧΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟΥΣ ANN ΚΑΙ SVM ΕΙΚΟΝΑ ΣΥΝΟΛΙΚΟ F-MEASURE ΤΟΥ ΠΡΩΤΟΥ ΣΧΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟΥΣ ANN ΚΑΙ SVM ΕΙΚΟΝΑ ΑΚΡΙΒΕΙΑ ΩΣ ΠΡΟΣ ΚΑΘΕ ΚΛΑΣΗ ΤΟΥ ΔΕΥΤΕΡΟΥ ΣΧΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟΥΣ K-NN, ANN ΚΑΙ SVM ΕΙΚΟΝΑ ΑΝΑΚΛΗΣΗ ΩΣ ΠΡΟΣ ΚΑΘΕ ΚΛΑΣΗ ΤΟΥ ΔΕΥΤΕΡΟΥ ΣΧΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟΥΣ K-NN, ANN ΚΑΙ SVM ΕΙΚΟΝΑ F-MEASURE ΩΣ ΠΡΟΣ ΚΑΘΕ ΚΛΑΣΗ ΤΟΥ ΔΕΥΤΕΡΟΥ ΣΧΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟΥΣ K-NN, ANN ΚΑΙ SVM ΕΙΚΟΝΑ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΤΟΥ ΔΕΥΤΕΡΟΥ ΣΧΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟΥΣ K-NN, ANN ΚΑΙ SVM ΕΙΚΟΝΑ ΣΥΝΟΛΙΚΟ F-MEASURE ΤΟΥ ΔΕΥΤΕΡΟΥ ΣΧΗΜΑΤΟΣ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟΥΣ K-NN, ANN ΚΑΙ SVM

12 Ευρετήριο Πινάκων ΠΙΝΑΚΑΣ ΚΑΤΑΤΑΞΗ ΤΩΝ ΣΗΜΑΝΤΙΚΟΤΕΡΩΝ ΗΧΗΤΙΚΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΠΙΝΑΚΕΣ ΣΕΤ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΜΕ 79, 43 ΚΑΙ 29 ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΜΕ ΤΗ ΧΡΗΣΗ ΤΟΥ 10- FOLD CROSS VALIDATION ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΜΕ ΤΟ ΧΩΡΙΣΜΟ ΤΟΥ ΣΥΝΟΛΟΥ ΔΕΔΟΜΕΝΩΝ ΣΕ ΣΥΝΟΛΟ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΣΥΝΟΛΟ ΕΛΕΓΧΟΥ ΠΙΝΑΚΑΣ ΜΗΤΡΑ ΣΥΓΧΥΣΗΣ ΓΙΑ ΤΟΝ ΑΝΝ ΜΕ ΤΟ ΣΕΤ ΤΩΝ 79 ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΠΙΝΑΚΑΣ ΜΗΤΡΑ ΣΥΓΧΥΣΗΣ ΓΙΑ ΤΟΝ SVM ΜΕ ΤΟ ΣΕΤ ΤΩΝ 79 ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟ ΠΡΩΤΟ ΣΧΗΜΑ ΤΑΞΙΝΟΜΗΣΗΣ ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟ ΠΡΩΤΟ ΣΧΗΜΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕ ΧΡΗΣΗ ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟ ΔΕΥΤΕΡΟ ΣΧΗΜΑ ΤΑΞΙΝΟΜΗΣΗΣ ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟ ΔΕΥΤΕΡΟ ΣΧΗΜΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕ ΧΡΗΣΗ PCA ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟΝ ΑΝΝ ΜΕ ΜΕΤΑΒΟΛΗ ΤΟΥ ΡΥΘΜΟΥ ΕΚΠΑΙΔΕΥΣΗΣ ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟΝ SVM ΜΕ ΜΕΤΑΒΟΛΗ ΤΟΥ C ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟΝ K-NN ΜΕ ΜΕΤΑΒΟΛΗ ΤΟΥ K ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟΝ ANN ΜΕ ΜΕΤΑΒΟΛΗ ΤΟΥ ΡΥΘΜΟΥ ΕΚΠΑΙΔΕΥΣΗΣ ΠΙΝΑΚΑΣ ΣΥΝΟΛΙΚΗ ΑΠΟΔΟΣΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ PR(%) ΓΙΑ ΤΟΝ SVM ΜΕ ΜΕΤΑΒΟΛΗ ΤΟΥ C ΠΙΝΑΚΑΣ ΜΕΤΡΙΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ ΓΙΑ ΤΟΝ ANN ΜΕ ΤΟ ΣΕΤ ΤΩΝ 79 ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ LR= ΠΙΝΑΚΑΣ ΜΕΤΡΙΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ ΓΙΑ ΤΟΝ SVM ΜΕ ΤΟ ΣΕΤ ΤΩΝ 79 ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ C= ΠΙΝΑΚΑΣ ΜΕΤΡΙΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ ΓΙΑ ΤΟΝ K-NN ΜΕ ΤΟ ΣΕΤ ΤΩΝ 29 ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ K= ΠΙΝΑΚΑΣ ΜΕΤΡΙΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ ΓΙΑ ΤΟΝ ANN ΜΕ ΤΟ ΣΕΤ ΤΩΝ 43 ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ, PCA ΚΑΙ LR= ΠΙΝΑΚΑΣ ΜΕΤΡΙΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ ΓΙΑ ΤΟΝ SVM ΜΕ ΤΟ ΣΕΤ ΤΩΝ 43 ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ, PCA ΚΑΙ C=

13 13

14 Κεφάλαιο 1 Εισαγωγή 1.1 Γενικά Παρόλο που οι ερευνητικές προσπάθειες στην αναγνώριση ήχου έχουν εστιαστεί κυρίως στην ομιλία και τα μουσικά σήματα, το πρόβλημα της αναγνώρισης περιβαλλοντικών ήχων έχει λάβει ιδιαίτερη προσοχή τα τελευταία χρόνια. Με τον όρο περιβαλλοντικοί ήχοι εννοούμε οποιοδήποτε ήχο μπορεί να συναντήσει κάποιος στην καθημερινότητά του που να μην ανήκει στην κατηγορία της ομιλίας ή της μουσικής. Το πληροφοριακό περιεχόμενο από αυτούς τους ήχους μπορεί να αξιοποιηθεί για διάφορες ειδικές εφαρμογές, όπως τα συστήματα ασφαλείας. Οι πρώτες μελέτες πάνω στην αναγνώριση περιβαλλοντικών ήχων δανείστηκαν εργαλεία και τεχνικές από τους τομείς της αναγνώρισης ομιλίας και της μουσικής, σημειώνοντας αρκετά ικανοποιητικά αποτελέσματα. Πολλές, όμως, από τις τεχνικές αυτές κρίθηκαν αναποτελεσματικές λόγω της διαφορετικής φύσης των περιβαλλοντικών ήχων. Για παράδειγμα, η αναγνώριση ομιλίας στηρίζεται στην αναγνώριση φωνημάτων, τα οποία αποτελούν τα βασικά δομικά στοιχεία της ομιλίας. Κάποιο αντίστοιχο δομικό στοιχείο δεν υφίσταται στην περίπτωση των περιβαλλοντικών ήχων. Όσον αφορά την αναγνώριση μουσικών σημάτων αξιοποιούνται ρυθμικά και μελωδικά σχήματα, κάτι που επίσης δεν υφίσταται στους περιβαλλοντικούς ήχους. Κάτι που δυσχεραίνει ακόμα περισσότερο το έργο της αναγνώρισης περιβαλλοντικών ήχων είναι η ύπαρξη πολλών διαφορετικών κατηγοριών ήχων που μπορεί να συναντήσει κάποιος, καθώς και οι διαφορετικές μορφές που μπορεί να έχουν οι ήχοι της ίδιας κατηγορίας. Επίσης, παρά το αυξανόμενο ενδιαφέρον στον τομέα αυτό, δεν υπάρχει κάποια καθορισμένη βάση δεδομένων (βιβλιοθήκη περιβαλλοντικών ήχων) που να μπορεί να χρησιμοποιηθεί για συγκριτική αξιολόγηση (benchmarking) των τεχνικών αναγνώρισης. [20], [22] 14

15 1.2 Βασικός στόχος Βασικός στόχος της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη ενός αποδοτικού σημασιολογικού σχήματος ταξινόμησης περιβαλλοντικών ήχων μέσω χρησιμοποίησης αλγοριθμικών τεχνικών καθοδογούμενης μηχανικής εκπαίδευσης μοντέλων κατηγοριοποίησης. Ειδικότερα, εξετάζεται ένας αριθμός ηχητικών χαρακτηριστικών ως προς τη δυνατότητα κατηγοριοποίησης περιβαλλοντικών ήχων που προσφέρουν και αναζητείται ένα σύνολο από αυτά ικανό να διαχωρίσει τις κλάσεις μεταξύ τους. Παράλληλα, τα ηχητικά αυτά χαρακτηριστικά χρησιμοποιούνται ως είσοδοι σε έξι αλγορίθμους μηχανικής εκμάθησης προκειμένου να καταλήξουμε στον αποδοτικότερο αλγόριθμο σε συνδυασμό με το αποδοτικότερο σύνολο ηχητικών χαρακτηριστικών. Επίσης, λόγω της έλλειψης κάποιας καθιερωμένης βάσης δεδομένων για την εκτέλεση πειραμάτων πάνω στην αναγνώριση περιβαλλοντικών ήχων και τη συγκριτική αξιολόγηση αυτών, στα πλαίσια αυτής της εργασίας, δημιουργείται μία βιβλιοθήκη περιβαλλοντικών ήχων, η οποία διατίθεται για μελλοντικά πειράματα ή και για την επέκταση αυτής με επιπλέον δείγματα ήχων. 1.3 Δομή της εργασίας Η παρούσα εργασία αποτελείται από δύο διακριτά μέρη: το θεωρητικό μέρος που αποτελείται από τα κεφάλαια 2,3,4,5 και 6 και το ερευνητικό-πειραματικό μέρος που αποτελείται από τα κεφάλαια 7 και 8. Τέλος, παρουσιάζεται η βιβλιογραφία που μελετήθηκε και χρησιμοποιήθηκε κατά την έρευνα. Συγκεκριμένα, στο κεφάλαιο 2 παρουσιάζονται βασικές έννοιες που αφορούν το επιστημονικό πεδίο της αναγνώρισης προτύπων, καθώς και κάποιες χαρακτηριστικές εφαρμογές. Στο κεφάλαιο 3 παρουσιάζονται κάποια βασικά στοιχεία ψυχοακουστικής, καθώς και τα μαθηματικά εργαλεία που χρησιμοποιούνται για την εξαγωγή των ηχητικών χαρακτηριστικών. Στο κεφάλαιο 4 αναλύονται τα ηχητικά χαρακτηριστικά που χρησιμοποιήθηκαν στην παρούσα εργασία, ενώ στο κεφάλαιο 5 παρουσιάζονται οι αλγόριθμοι μηχανικής μάθησης που χρησιμοποιήθηκαν. Το κεφάλαιο 6 ασχολείται με τις μετρικές αξιολόγησης των μοντέλων μηχανικής μάθησης. Στο κεφάλαιο 7 γίνεται η περιγραφή της διαδικασίας που ακολουθήθηκε, καθώς και η παρουσίαση του λογισμικού που χρησιμοποιήθηκε για την υλοποίησή της. Τέλος, στο κεφάλαιο 8 συνοψίζονται τα συμπέρασματα που προέκυψαν και αναλύονται ενδεχόμενες επεκτάσεις της εργασίας. 15

16 Θεωρητικό Μέρος 16

17 Κεφάλαιο 2 Αναγνώριση Προτύπων 2.1 Γενικά Η επιστημονική περιοχή της μηχανικής μάθησης (machine learning) έχει ως αντικείμενο την ανάπτυξη μηχανών ικανών να μαθαίνουν, δηλαδή ικανών να βελτιώνουν την απόδοσή τους, αξιοποιώντας προηγούμενη γνώση και εμπειρία. Αν και απέχουμε πολύ από τη δημιουργία μηχανών που να μπορούν να προσεγγίσουν την ανθρώπινη νοημοσύνη, εντούτοις έχει επιτευχθεί ακρίβεια, ταχύτητα, ευελιξία και χαμηλό κόστος στις διάφορες διαδικασίες που εκτελούνται. Η αναγνώριση προτύπων (pattern recognition) αποτελεί έναν κλάδο της μηχανικής μάθησης που έχει στόχο την ταξινόμηση αντικειμένων σε κατηγορίες ή κλάσεις. Ανάλογα με την εφαρμογή, τα αντικείμενα αυτά μπορεί να είναι εικόνες, κυματομορφές σημάτων ή οποιοδήποτε άλλο είδος μετρήσεων χρειάζεται να ταξινομηθεί. Τα αντικείμενα αυτά αναφέρονται με τον όρο πρότυπα (patterns). Η αναγνώριση προτύπων έχει μακρά ιστορία, αλλά πριν τη δεκαετία του 1960 ήταν κυρίως προϊόν θεωρητικής έρευνας στην περιοχή της στατιστικής. Η εξέλιξη των ηλεκτρονικών υπολογιστών αύξησε τις δυνατότητες για πρακτικές εφαρμογές της αναγνώρισης προτύπων, κάτι που με τη σειρά του έθεσε νέες απαιτήσεις για περαιτέρω θεωρητικές εξελίξεις. Στη μεταβιομηχανική εποχή, η αυτοματοποίηση της βιομηχανικής παραγωγής και η ανάγκη διαχείρισης και ανάκτησης πληροφορίας αποκτούν αυξανόμενη σπουδαιότητα. Η τάση αυτή έχει ωθήσει την αναγνώριση προτύπων στην αιχμή των σύγχρονων εφαρμογών της τεχνολογίας και της έρευνας. [2] Η διαδικασία αντιμετώπισης ενός τυπικού προβλήματος ταξινόμησης περιλαμβάνει τα εξής τέσσερα βασικά στάδια: 1. Το πρώτο στάδιο αφορά την εξαγωγή χαρακτηριστικών (feature extraction) από τα διαθέσιμα πρότυπα εισόδου. Τα χαρακτηριστικά αποτελούν μια κατάλληλη κωδικοποίηση 17

18 της χρήσιμης πληροφορίας που εμπεριέχεται σε κάθε πρότυπο. Η διαδικασία της εξαγωγής χαρακτηριστικών είναι στην ουσία μια μορφή επεξεργασίας δεδομένων, κατά την οποία ένα σύνολο τιμών μετατρέπεται σε μια πιο συμπαγή αναπαράσταση αυτών των τιμών. Το αρχικό σύνολο τιμών αναφέρεται ως διάνυσμα εισόδου (input vector), ενώ το σύνολο των νέων τιμών ονομάζεται διάνυσμα χαρακτηριστικών (feature vector). Με άλλα λόγια, έχουμε μια διαδικασία μείωσης διαστάσεων, καθώς το διάνυσμα εισόδου διαστάσης Ν αντιστοιχίζεται σε ένα διάνυσμα χαρακτηριστικών με διάσταση μικρότερη του Ν. 2. Στην πράξη, ο αριθμός των χαρακτηριστικών που παράγονται είναι πολύ μεγαλύτερος από αυτά που είναι αναγκαία για το εκάστοτε πρόβλημα ταξινόμησης. Ακολουθεί, επομένως, το στάδιο της επιλογής χαρακτηριστικών (feature selection), κατά το οποίο ελέγχεται η απόδοση των χαρακτηριστικών και τελικά υιοθετούνται τα καταλληλότερα από αυτά, δηλαδή αυτά με το μεγαλύτερο πληροφοριακό περιεχόμενο σε σχέση με το πρόβλημα που εξετάζεται. Παράλληλα, γίνεται έλεγχος ώστε ο αριθμός των χαρακτηριστικών που τελικά θα χρησιμοποιηθούν να είναι διαχειρίσιμος υπολογιστικά. 3. Ακολουθεί το στάδιο σχεδίασης του ταξινομητή (classifier design) που πρόκειται να χρησιμοποιηθεί. Το στάδιο αυτό προσδιορίζει τις τεχνικές που χρησιμοποιούνται για το διαχωρισμό των προτύπων σε κατηγορίες. Η είσοδος στο στάδιο αυτό είναι τα επιλεγμένα χαρακτηριστικά που περιγράφουν το πρότυπο και η έξοδος η κλάση στην οποία κατατάσσεται το πρότυπο. Υπάρχει πληθώρα αλγορίθμων ταξινόμησης και η τελική επιλογή γίνεται ανάλογα με το ποιος κρίνεται πιο αποδοτικός για τη συγκεκριμένη κατηγορία προβλημάτων. Η βασική λογική των αλγορίθμων αφορά την αναζήτηση μιας συνάρτησης f, η οποία να προσεγγίζει όσο το δυνατόν καλύτερα μια ιδανική συνάρτηση με την οποία δύναται να μοντελοποιηθεί το πρόβλημα, τη συνάρτηση-στόχο f. Η επίλυση του προβλήματος ταξινόμησης ανάγεται έτσι στην επίλυση ενός προβλήματος προσέγγισης των τιμών μιας συνάρτησης. 4. Τέλος, μετά την ολοκλήρωση της σχεδίασης του ταξινομητή, γίνεται η αποτίμητη της επίδοσής του στο στάδιο αξιολόγησης του συστήματος (system evaluation). Στο στάδιο αυτό χρησιμοποιούνται διάφορες μετρικές αξιολόγησης για τη σύγκριση των σωστών και εσφαλμένων ταξινομήσεων. Στο παρακάτω σχήμα παρουσιάζονται τα στάδια που αναφέρθηκαν. Όπως είναι εμφανές από τα βέλη ανάδρασης, τα στάδια αυτά δεν είναι ανεξάρτητα μεταξύ τους. Αντιθέτως, συσχετίζονται, και ανάλογα με τα αποτελέσματα, ίσως χρειαστεί ο επανασχεδιασμός προηγούμενων σταδίων προκειμένου να βελτιωθεί η συνολική επίδοση. Επιπλέον, υπάρχουν μέθοδοι που συνδυάζουν 18

19 στάδια, για παράδειγμα, το στάδιο επιλογής χαρακτηριστικών και σχεδίασης του ταξινομητή σε μια κοινή διαδικασία βελτιστοποίησης. [2], [11] πρότυπα εξαγωγή χαρακτηριστικών επιλογή χαρακτηριστικών σχεδίαση ταξινομητή αξιολόγηση συστήματος Εικόνα 2.1 Στάδια σχεδίασης ενός συστήματος ταξινόμησης 2.2 Μάθηση με επίβλεψη, χωρίς επίβλεψη και με ημιεπίβλεψη Ανάλογα με το είδος της γνώσης που παρέχεται για την εκπαίδευση των αλγορίθμων ταξινόμησης, οι τεχνικές αναγνώρισης προτύπων διακρίνονται σε δύο βασικές κατηγορίες: αναγνώριση προτύπων με επίβλεψη (supervised pattern recognition) ή, στο γενικότερο πλαίσιο της μηχανικής μάθησης, μάθηση με επίβλεψη (supervised learning) και αναγνώριση προτύπων χωρίς επίβλεψη (unsupervised pattern recognition) ή μάθηση χωρίς επίβλεψη (unsupervised learning) ή ομαδοποίηση δεδομένων (clustering). 19

20 Στην πρώτη κατηγορία, είναι γνωστή η κλάση για κάθε πρότυπο του συνόλου των δεδομένων εκπαίδευσης και ο ταξινομητής σχεδιάζεται αξιοποιώντας αυτή την εκ των προτέρων πληροφορία. Μετά την εκπαίδευση του συστήματος ταξινόμησης, αυτό μπορεί να ταξινομήσει στη μία ή την άλλη κλάση ένα άγνωστο πρότυπο, το οποίο πρέπει να αναγνωριστεί. Το ζητούμενο, επομένως, στην περίπτωση της μάθησης με επίβλεψη είναι να κατασκευαστεί ένα μοντέλο που να αναπαριστά τη γνώση που παρέχεται μέσω της εμπειρίας και το οποίο στη συνέχεια πρόκειται να χρησιμοποιηθεί για την ταξινόμηση νέων προτύπων. Στη μάθηση χωρίς επίβλεψη δεν είναι διαθέσιμες οι κλάσεις στις οποίες ανήκουν τα δεδομένα εκπαίδευσης. Σε αυτό το είδος προβλημάτων, ο αλγόριθμος ομαδοποίησης (clustering algorithm) προσπαθεί να εντοπίσει εσωτερικές σχέσεις μεταξύ των δεδομένων εκπαίδευσης και να ομαδοποιήσει όμοια διανύσματα στην ίδια ομάδα. Ένα σοβαρό ζήτημα στην αναγνώριση προτύπων χωρίς επίβλεψη είναι αυτό του ορισμού της ομοιότητας μεταξύ των διανυσμάτων χαρακτηριστικών και της επιλογής ενός κατάλληλου μέτρου γι αυτή. Ένα άλλο σημαντικό θέμα είναι η επιλογή του αλγοριθμικού σχήματος, που θα ομαδοποιήσει τα διανύσματα με βάση το μέτρο ομοιότητας που έχει υιοθετηθεί. Γενικά, διαφορετικά αλγοριθμικά σχήματα μπορεί να οδηγήσουν σε διαφορετικά αποτελέσματα, τα οποία και πρέπει να ερμηνευτούν από κάποιον ειδικό. Τέλος, υπάρχει και η αναγνώριση προτύπων με ημιεπίβλεψη, η οποία αποτελεί συνδυασμό των παραπάνω τεχνικών. Στην περίπτωση αυτή, είναι διαθέσιμο ένα σύνολο από πρότυπα των οποίων δεν είναι γνωστή η κλάση, καθώς και πρότυπα εκπαίδευσης των οποίων η κλάση είναι γνωστή. Συνήθως, αναφερόμαστε στα πρώτα με τον όρο πρότυπα χωρίς ετικέτα (unlabeled), ενώ στα δεύτερα με τον όρο πρότυπα με ετικέτα (labeled). Η αναγνώριση προτύπων με ημιεπίβλεψη μπορεί να φανεί χρήσιμη όταν ο σχεδιαστής του συστήματος έχει πρόσβαση σε περιορισμένο αριθμό δεδομένων με ετικέτα κλάσης. Σε τέτοιες περιπτώσεις, η ανακάλυψη επιπρόσθετης πληροφορίας από τα δεδομένα χωρίς ετικέτα, η οποία σχετίζεται με τη γενική δομή των υπό εξέταση δεδομένων, μπορεί να είναι χρήσιμη για τη βελτίωση της σχεδίασης του συστήματος. Η μάθηση με ημιεπίβλεψη βρίσκει επίσης έδαφος σε προβλήματα ομαδοποίησης δεδομένων. Στην περίπτωση αυτή, δεδομένα με ετικέτες χρησιμοποιούνται με τη λογική πρέπει και δεν μπορεί.με άλλα λόγια, η διαδικασία ομαδοποίησης υποχρεώνεται στην καταχώρηση ορισμένων σημείων στην ίδια ομάδα ή στην απαγόρευση της καταχώρησης ορισμένων σημείων στην ίδια ομάδα. [2] 20

21 2.3 Εφαρμογές Αναγνώριση προτύπων σε δεδομένα κειμένου Η εξόρυξη δεδομένων και η ανακάλυψη γνώσης (data mining and knowledge discovery) σε δεδομένα κειμένου αποτελεί μία σημαντική περιοχή εφαρμογής της αναγνώρισης προτύπων. Αφού, συνήθως, προηγηθεί η διαμόρφωση ενός λεξικού εννοιών που περιλαμβάνει αντιπροσωπευτικές λέξεις και σύντομες φράσεις σχετικές με το πρόβλημα υπό διερεύνηση, μπορούν να εκτελεστούν εφαρμογές, όπως η αυτοματοποιημένη θεματική κατηγοριοποίηση κειμένων, η εξαγωγή νοημάτων μέσω συνδυασμού λέξεων και η συναισθηματική ανάλυση. Τεχνικές εξόρυξης γνώσης μπορούν να εφαρμοστούν και στον παγκόσμιο ιστό, με σκοπό την εξαγωγή χρήσιμων πληροφοριών από τα αρχεία καταγραφής των εξυπηρετητών (servers) του διαδικτύου. Με βάση αυτές τις πληροφορίες μπορεί να επιτευχθεί, για παράδειγμα, ο προσδιορισμός των μοτίβων πλοήγησης των χρηστών στο διαδίκτυο με σκοπό την ταχύτερη και αποδοτικότερη εξυπηρέτησή τους ή ο προσδιορισμός των άρθων υψηλής απήχησης και ενδιαφέροντος που αναρτώνται σε μια ιστοσελίδα. Μια άλλη εφαρμογή που εντάσσεται σε αυτή την κατηγορία αφορά την ανάλυση δεδομένων του DNA, με στόχο τη χαρτογράφηση της σχέσης μεταξύ συγκεκριμένων ακολουθιών του DNA και της προδιάθεσης σε κάποια ασθένεια ή την εύρεση διαφορών ανάμεσα στις γονιδιακές ακολουθίες υγιών και βλαβερών ιστών. Τέλος, η εξόρυξη δεδομένων βρίσκει εφαρμογή και στον τομέα της οικονομίας, μέσω της πολυδιάστατης ανάλυσης των οικονομικών δεδομένων που συλλέγονται από τράπεζες και άλλους οικονομικούς οργανισμούς. [2] Αναγνώριση εικόνας Ένα σύστημα οπτικής αναγνώρισης προσφέρει τη δυνατότητα ανάλυσης των εικόνων και εξαγωγής σημασιολογικού περιεχομένου από αυτές. Συστήματα οπτικής αναγνώρισης εγκαθίστανται και λειτουργούν αυτόματα ή ημιαυτόματα, καλύπτοντας εφαρμογές σε όλο και περισσότερους κλάδους. Μια χαρακτηριστική εφαρμογή αποτελεί η υπολογιστική όραση (computer vision), η οποία συναντάται στη βιομηχανία κατασκευών, στα πλαίσια της αυτοματοποιημένης επόπτευσης της παραγωγής για την ανίχνευση ελαττωματικών κατασκευών ή των αυτοματισμών στη γραμμή συναρμολόγησης για την ταυτοποίηση και ταξινόμηση εξαρτημάτων. Η αναγνώριση χαρακτήρων (γραμμάτων ή αριθμών) είναι μια άλλη σημαντική περιοχή της αναγνώρισης προτύπων, με μεγάλη χρησιμότητα στον αυτοματισμό και στη 21

22 διαχείριση πληροφορίας. Συστήματα οπτικής αναγνώρισης χαρακτήρων (optical character recognition OCR) είναι διαθέσιμα στο εμπόριο και χρησιμοποιούνται σε εφαρμογές όπως η αυτόματη ανάγνωση κειμένου από σελίδα βιβλίου και αποθήκευσή του στον υπολογιστή, η ταξινόμηση επιστολών στο ταχυδρομείο, η μηχανική ανάγνωση τραπεζικών επιταγών και η έκδοση λογαριασμών σε υπερκαταστήματα. Η υποβοηθούμενη από τον υπολογιστή διάγνωση (computer aided diagnosis) είναι μια άλλη σημαντική εφαρμογή της αναγνώρισης προτύπων, που έχει στόχο να επικουρεί τους γιατρούς στη λήψη διαγνωστικών αποφάσεων. Η ανάγκη για υποβοηθούμενη από τον υπολογιστή διάγνωση πηγάζει από το γεγονός ότι τα ιατρικά δεδομένα, συχνά, δεν είναι εύκολα ερμηνεύσιμα και η ερμηνεία τους μπορεί να εξαρτάται σε σημαντικό βαθμό από την ικανότητα του γιατρού. Στον τομέα της ρομποτικής, η οπτική αναγνώριση χρησιμοποιείται για την ερμηνεία αντικειμένων της σκηνής του περιβάλλοντος, τον υπολογισμό αποστάσεων των αντικειμένων από την κάμερα και τη λήψη απόφασης για την κίνηση. Η εγκατάσταση συστημάτων οπτικής αναγνώρισης σε δορυφόρους υποβοηθά στην πρόγνωση του καιρού και στην αναγνώριση και παρατήρηση αστικών, γεωργικών ή θαλάσσιων περιοχών. Τέλος, όλο και πιο δημοφιλή γίνονται τα συστήματα ανάκτησης εικόνας με βάση το περιεχόμενο (content based image retrieval CBIR). Ο παραδοσιακός τρόπος αναζήτησης εικόνων σε βάσεις δεδομένων βασίζεται στο μοντέλο περιγραφής, όπου η ανάκτησή τους απαιτεί την περιγραφή τους με λέξεις-κλειδιά και ακολούθως γίνεται αναζήτηση των λέξεων αυτών. Όμως, αυτός ο τρόπος αναζήτησης προϋποθέτει την χειροκίνητη επισημείωση (manual annotation) της αποθηκευμένης πληροφορίας, κάτι που απαιτεί πολύ χρόνο και είναι εφικτό μόνο όταν ο όγκος της αποθηκευμένης πληροφορίας είναι περιορισμένος. Στα συστήματα ανάκτησης εικόνων με βάση το περιεχόμενο επιτυγχάνεται η ταξιθέτηση και η αναζήτηση κάθε εικόνας στη βάση δεδομένων με δείκτη-κλειδί που προκύπτει από την ανάλυση του περιεχομένου της εικόνας. [2] Αναγνώριση ήχου Στο πεδίο του ήχου, οι ερευνητικές προσπάθειες ξεκίνησαν από την αυτόματη αναγνώριση ομιλίας (automatic speech recognition ASR). Αρχικά, αναπτύχθηκαν συστήματα αναγνώρισης μεμονωμένων λέξεων από συγκεκριμένο ομιλητή και αργότερα με την αναγνώριση φωνημάτων έγιναν αρκετά επιτυχημένες προσπάθειες αναγνώρισης συνεχούς λόγου. Χαρακτηριστικές εφαρμογές αποτελούν η εισαγωγή δεδομένων στον υπολογιστή με χρήση μικροφώνου, ο διαχωρισμός και η επαλήθευση ομιλητών, η ανίχνευση και διάκριση σημάτων ομιλίας και μουσικής, η συναισθηματική ανάλυση, η αναγνώριση γλώσσας, ο εξ αποστάσεως έλεγχος 22

23 μηχανών με φωνητικές εντολές και η βοήθεια ατόμων με αναπηρία μέσω του φωνητικού ελέγχου οικιακών συσκευών. Αργότερα, η έρευνα επεκτάθηκε στον τομέα της ανάκτησης μουσικής πληροφορίας (music information retrieval), με εφαρμογές όπως την αυτόματη κατηγοριοποίηση μουσικών κομματιών ανάλογα με το είδος μουσικής, την αναγνώριση και το διαχωρισμό μουσικών οργάνων, την αναγνώριστη εκτελεστή μουσικού έργου, την πλήρη αντιστοίχηση μουσικού σήματος σε νότες (music transcription), τη συστηματοποιημένη ταξινόμηση και ανάκτηση μουσικού σήματος και τη δημιουργία συστημάτων πρότασης μουσικών επιλογών. Τα τελευταία χρόνια, γίνεται όλο και πιο δημοφιλής ο τομέας της αναγνώρισης περιβαλλοντικών ήχων (environmental sound recognition ESR). Με τον όρο περιβαλλοντικός ήχος εννοούμε οποιοδήποτε καθημερινό ήχο που δεν μπορεί να χαρακτηριστεί ως ομιλία ή μουσική. Χαρακτηριστικές εφαρμογές είναι η αυτόματη επισημείωση ηχητικών αρχείων με στόχο την αναζήτηση και ανάκτηση πληροφορίας, η βελτίωση της πλοήγησης ρομπότ με την ενσωμάτωση συστήματος ESR, η επίβλεψη χώρων σε συνδυασμό με σύστημα οπτικής αναγνώρισης, η αναπροσαρμογή των φορητών συσκευών σύμφωνα με τον περιβάλλοντα χώρο και η αναγνώριση ζώων και ειδών πτηνών από τους χαρακτηριστικούς τους ήχους. [2], [9] Αναγνώριση οπτικοακουστικού περιεχομένου Με το συνδυασμό μεθόδων από τους τομείς της αναγνώρισης εικόνας και της αναγνώρισης ήχου μπορεί να επιτευχθεί αναγνώριση προτύπων οπτικοακουστικού περιεχομένου. Στον τομέα αυτό περικλείονται ερευνητικές δραστηριότητες που αφορούν την ταξινόμηση αποσπασμάτων βίντεο σε σχέση με τα εμφανιζόμενα πρόσωπα ή με βάση τα παρακείμενα πλαίσια κειμένου, ενώ επίσης, έχουν οριστεί σχήματα διάκρισης εσωτερικών-εξωτερικών λήψεων. Παράλληλα, έχουν αναπτυχθεί στοχευμένες μεθοδολογίες σχετικά με τον εντοπισμό βίαιων σκηνών σε οπτικοακουστικό περιεχόμενο. Εξειδικεύοντας στο τηλεοπτικό σήμα, έχουν διεξαχθεί πειράματα ταξινόμησης διαφορετικών εννοιολογικών τμημάτων των δελτίων ειδήσεων, όπως για παράδειγμα ο εντοπισμός των αθλητικών. [9] 23

24 Κεφάλαιο 3 Βασικό Θεωρητικό Υπόβαθρο Στο κεφάλαιο αυτό γίνεται παρουσίαση των βασικών εννοιών και των μαθηματικών εργαλείων που είναι απαραίτητα για την κατανόηση της διαδικασίας εξαγωγής ηχητικών χαρακτηριστικών. 3.1 Μετασχηματισμός Fourier (Fourier Transform FT) Ο μετασχηματισμός Fourier (Fourier Transform FT) είναι ένα μαθηματικό εργαλείο που χρησιμοποιείται για την ανάλυση ενός σήματος που είναι συνάρτηση του χρόνου στις συχνότητες που το αποτελούν. Επιτυγχάνει, δηλαδή, τη μεταφορά ενός σήματος από το πεδίο του χρόνου στο πεδίο της συχνότητας. Η νέα συνάρτηση ονομάζεται μετασχηματισμός Fourier ή φάσμα συχνοτήτων (spectrum) του σήματος. Η αντίστροφη διαδικασία, δηλαδή η μεταφορά του σήματος από το πεδίο της συχνότητας στο πεδίο του χρόνου, είναι γνωστή ως αντίστροφος μετασχηματισμός Fourier (Inverse Fourier Transform IFT). Οι δύο αυτές συναρτήσεις αποτελούν το ζεύγος μετασχηματισμού Fourier και ορίζονται ως εξής: X(f) = x(t)e j2πft dt (3.1.1) x(t) = X(f)e j2πft df (3.1.2) Η συνάρτηση X(f) είναι γενικά μιγαδική συνάρτηση του f και περιγράφει τόσο το πλάτος όσο και τη φάση της αντίστοιχης φασματικής συνιστώσας. Προκειμένου να υπάρχει ο μετασχηματισμός Fourier ενός σήματος πρέπει να ικανοποιούνται κάποιες συνθήκες, γνωστές ως συνθήκες Dirichlet: i. Το x(t) πρέπει να είναι απολύτως ολοκληρώσιμο, δηλαδή x(t) dt < (3.1.3) 24

25 ii. iii. Το x(t) πρέπει να έχει πεπερασμένο αριθμό μεγίστων και ελαχίστων σε κάθε πεπερασμένο χρονικό διάστημα Το x(t) πρέπει να έχει πεπερασμένο αριθμό ασυνεχειών σε κάθε πεπερασμένο διάστημα Στην περίπτωση που το σήμα x(t) είναι μια σαφώς καθορισμένη συνάρτηση ενός φυσικά υλοποιήσιμου σήματος, τότε αυτό αποτελεί επαρκή συνθήκη για την ύπαρξη του μετασχηματισμού Fourier του x(t). [3] 3.2 Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT) Καθώς ο χειρισμός συνεχών συναρτήσεων με τη χρήση ηλεκτρονικού υπολογιστή δεν είναι αποδοτικός, αναπτύχθηκε μια εναλλακτική μορφή του μετασχηματισμού Fourier, με την οποία ακολουθίες πεπερασμένου μήκους στο πεδίο του χρόνου μετασχηματίζονται σε ακολουθίες, οι οποίες αντιπροσωπεύουν δείγματα στο χώρο της συχνότητας και αντίστροφα. Το ζεύγος του μετασχηματισμού αυτού ονομάζεται ζεύγος του διακριτού μετασχηματισμού Fourier και ορίζεται ως εξής: DFT: X{k} = 1 N 1 x{n}w N n=0 N kn για k = 0,1,2,. N 1 (3.2.1) IDFT: x{n} = 1 N 1 X{k}W N k=0 N kn για n = 0,1,2, N 1 (3.2.2) όπου x{n} και Χ{k} πεπερασμένες ακολουθίες μήκους Ν και W N = e j2π Ν. Ο διακριτός μετασχηματισμός Fourier, εκτός από τη σημασία του για την αναπαράσταση ακολουθιών διακριτού χρόνου στο χώρο της συχνότητας, αποτελεί τη βάση πολλών εφαρμογών για την επεξεργασία σήματος, όπως είναι η ανάλυση φάσματος και η κωδικοποίηση δεδομένων (εικόνες JPEG, MP3, video MPEG). [4] 3.3 Ταχύς Μετασχηματισμός Fourier (Fast Fourier Transform FFT) Η άμεση εφαρμογή του ορισμού του DFT για μία τιμή του k απαιτεί N μιγαδικούς πολλαπλασιασμούς και Ν 1 μιγαδικές προσθέσεις. Για τις Ν συνολικά τιμές του k χρειάζονται Ν 2 μιγαδικές πράξεις. Ο ίδιος αριθμός μιγαδικών πράξεων χρειάζεται και για τον υπολογισμό 25

26 του IDFT. Ο τεράστιος αυτός αριθμός των μιγαδικών πράξεων για μεγάλα Ν καθιστά πολύ δύσκολη την εφαρμογή του DFT ή του IDFT σε πραγματικό χρόνο. Σε απάντηση αυτού του προβλήματος, πολλοί ερευνητές εφηύραν αλγορίθμους ταχέως μετασχηματισμού Fourier (FFT) και πολλοί περισσότεροι συνέβαλαν στην περεταίρω ανάπτυξη και επέκτασή τους. Οι σύγχρονοι αλγόριθμοι FFT προσφέρουν υπολογιστική πολυπλοκότητα της τάξης Ο(Νlog 2 N) αντί για Ο(N 2 ) που αναφέρθηκε παραπάνω. Η επιτάχυνση που επιτυγχάνει ο FFT οφείλεται στο γεγονός ότι αναλύει τον αρχικό υπολογισμό του DFT σε επιμέρους απλούστερους υπολογισμούς DFT. Συνήθως, προτιμάται η τιμή του Ν να είναι δύναμη του 2, διότι έτσι αποφεύγονται οι πολλαπλασιασμοί με το W N όταν αυτό γίνεται ± j. Στην περίπτωση αυτή, ο αλγόριθμος ονομάζεται radix-2 FFT. [4] 3.4 Βραχυπρόθεσμος Μετασχηματισμός Fourier (Short-Time Fourier Transform STFT) Για την ανάλυση της δυναμικής συμπεριφοράς του φάσματος ενός σήματος στο χρόνο χρησιμοποιείται ο βραχυπρόθεσμος μετασχηματισμός Fourier, ο οποίος υπολογίζει τοπικά το φάσμα του σήματος σε καθορισμένα χρονικά πλαίσια (frames). Στην περίπτωση συνεχών μεταβλητών, η συνάρτηση που πρόκειται να μετασχηματιστεί πολλαπλασιάζεται με μια συνάρτηση χρονικού παραθύρου, η οποία είναι μη μηδενική μόνο σε ένα μικρό χρονικό διάστημα. Καθώς το παράθυρο ολισθαίνει στον άξονα του χρόνου, υπολογίζεται ο μετασχηματισμός Fourier και έτσι καταλήγουμε σε μια δισδιάσταση αναπαράσταση του σήματος. Μαθηματικά, γράφεται ως εξής: STFT{x(t)}(τ, ω) X(τ, ω) = x(t)w(t τ)e jωt dt (3.4.1) όπου w(t) είναι η συνάρτηση χρονικού παραθύρου και x(t) είναι το σήμα που μετασχηματίζεται. Ο μετασχηματισμός Fourier Χ(τ,ω) είναι μια μιγαδική συνάρτηση που αναπαριστά το πλάτος και τη φάση του σήματος στο χρόνο και τη συχνότητα. Στην περίπτωση διακριτών μεταβλητών, τα δείγματα που πρόκειται να μετασχηματιστούν τεμαχίζονται σε πλαίσια μέσω χρονικών παραθύρων, τα οποία συνήθως επικαλύπτονται ώστε να βελτιωθεί η ακρίβεια της ανάλυσης. Τα παράθυρα που χρησιμοποιούνται είναι συνήθως Hann, Hamming, Blackman ή Γκαουσιανά. Τα παράθυρα αυτά είναι ομαλά στα άκρα τους, ώστε να 26

27 μην εισάγεται θόρυβος λόγω ασυνεχειών. Σε κάθε πλαίσιο εφαρμόζεται μετασχηματισμός Fourier, όπως φαίνεται στην παρακάτω σχέση: διακριτός STFT{x[n]}(m, ω) Χ(m, ω) = n= x[n]w[n m]e jωn (3.4.2) όπου w[n] είναι το παράθυρο και x[n] το διακριτό σήμα. Εικόνα Διαφορετικοί τύποι παραθύρων με τις φασματικές τους αποκρίσεις Στις περισσότερες εφαρμογές που εκτελούνται σε ηλεκτρονικό υπολογιστή χρησιμοποιείται ο ταχύς μετασχηματισμός Fourier. Για τη χρήση του FFT πρέπει να προσδιοριστούν δύο παράμετροι: το μέγεθος του FFT σε δείγματα (FFT size) και ο παράγοντας επικάλυψης των παραθύρων (overlap factor). Το μέγεθος του παραθύρου είναι συνήθως ίσο με το μέγεθος του FFT και καθορίζει την αναλυτικότητα στο χρόνο (time resolution). Η απόσταση σε δείγματα ανάμεσα σε δύο διαδοχικά πλαίσια (hop size) προκύπτει από τη σχέση: hop size = FFT size overlap factor (3.4.3) Κάθε φασματικό πλαίσιο χωρίζεται σε ίσες φασματικές ζώνες που ονομάζονται bins. Επομένως, τα bins είναι τα φασματικά δείγματα και το πλήθος τους καθορίζει τη συχνοτική αναλυτικότητα (frequency resolution) του παραθύρου. Το πλήθος τους Ν συνδέεται με το μέγεθος του FFT σύμφωνα με τη σχέση: 27

28 Ν(bins) = FFT size 2 (3.4.4) Η συχνοτική αναλυτικότητα FR κάθε bin δίνεται από τη σχέση: FR = F max N (3.4.5) όπου F max η μέγιστη συχνότητα του φάσματος, η οποία για συχνότητα δειγματοληψίας F s ισούται με τη συχνότητα Nyquist F max = F s /2. Ένα από τα μειονεκτήματα του STFT αφορά τη δυσκολία επίτευξης ικανοποιητικής αναλυτικότητας στο χρόνο και στη συχνότητα ταυτόχρονα. Το μέγεθος του παραθύρου καθορίζει το αν θα υπάρχει καλύτερη αναλυτικότητα στη συχνότητα ή το χρόνο. Ένα μεγάλο παράθυρο αποδίδει καλύτερη αναλυτικότητα στη συχνότητα με χαμηλή αναλυτικότητα στο χρόνο, ενώ ένα μικρό παράθυρο καλύτερη αναλυτικότητα στο χρόνο με χαμηλή αναλυτικότητα στη συχνότητα. Αυτό παρουσιάζεται στο παρακάτω σχήμα. Εικόνα Αναλυτικότητα του STFT στο χρόνο και στη συχνότητα Τέλος, αξίζει να αναφερθεί ότι το μέτρο του STFT στο τετράγωνο δίνει το φασματόγραμμα (spectrogram) του σήματος: spectrogram{x(t)}(τ, ω) Χ(τ, ω) 2 (3.4.6) Το φασματόγραμμα δίνει μια οπτική αναπαράσταση της μεταβολής του φάσματος ενός σήματος συναρτήσει του χρόνου. Συνήθως, στον άξονα x απεικονίζεται ο χρόνος και στον άξονα y η συχνότητα, ενώ η κατανομή της ενέργειας απεικονίζεται με χρωματικές διαφοροποιήσεις. [31] 28

29 Εικόνα Φασματογράμματα ενός ηχητικού σήματος με την επιλογή μικρού και μεγάλου παραθύρου αντίστοιχα 3.5 Διακριτός Μετασχηματισμός Συνημιτόνου (Discrete Cosine Transform DCT) Ο Διακριτός μετασχηματισμός συνημιτόνου αποτελεί μία μορφή μετασχηματισμού Fourier που εκφράζει μια πεπερασμένη ακολουθία δειγμάτων ως άθροισμα συνημιτόνων με διαφορετικά πλάτη και συχνότητες. Η προφανής διαφορά του με τον DFT, είναι ότι ο πρώτος χρησιμοποιεί πραγματικούς αριθμούς (συνημίτονα), ενώ ο δεύτερος μιγαδικούς (συνημίτονα και ημίτονα) για την αναπαράσταση του σήματος. Η επιλογή του συνημιτόνου αντί του ημιτόνου οφείλεται στο γεγονός ότι για την προσέγγιση ενός τυπικού σήματος απαιτούνται λιγότερα συνημίτονα απ ό,τι ημίτονα. Υπάρχουν οκτώ διαφορετικές παραλλαγές του μετασχηματισμού, από τις οποίες η πιο συνηθισμένη είναι ο DCT τύπου-ιι: N 1 Χ k = x n cos [ π (n + 1 n=0 ) k] k = 0,1,2, N 1 (3.5.1) Ν 2 Ο DCT βρίσκει εφαρμογή στην απωλεστική συμπίεση αρχείων εικόνας και ήχου (π.χ. JPEG, MP3), καθώς έχει την ικανότητα να συγκεντρώνει το μεγαλύτερο μέρος της πληροφορίας σε λίγους συντελεστές χαμηλής συχνότητας. Οι συντελεστές υψηλότερων συχνοτήτων μπορούν να απορριφθούν χωρίς να υπάρχει σημαντική απώλεια πληροφορίας. [32] 29

30 3.6 Σάφμα (Cepstrum) Το cepstrum ενός σήματος ορίζεται ως ο αντίστροφος μετασχηματισμός Fourier του λογαρίθμου του φάσματος ενός σήματος. Η ονομασία του προήλθε από την αντιστροφή των πρώτων τεσσάρων γραμμάτων του spectrum (φάσματος). Το cepstrum περιέχει πληροφορία σχετικά με το ρυθμό μεταβολής που παρατηρείται σε επιμέρους συχνοτικές ζώνες. Υπάρχουν τέσσερα είδη cepstrum: μιγαδικό, πραγματικό, ισχύος και φάσης. Το cepstrum ισχύος, συγκεκριμένα, βρίσκει εφαρμογές στην ανάλυση της ανθρώπινης ομιλίας κυρίως, αλλά και στην αναπαράσταση μουσικών σημάτων. Ορίζεται ως εξής: power cepstrum = F 1 {log( F{f(t)} 2 )} 2 (3.6.1) Μια σημαντική ιδιότητα του πεδίου του cepstrum είναι ότι η συνέλιξη δύο σημάτων στο πεδίο του χρόνου μπορεί να εκφραστεί ως πρόσθεση των μιγαδικών cepstrum. [33] σήμα FT mag log IFT cepstrum Εικόνα Διαδικασία υπολογισμού του cepstrum 3.7 Κλίμακα Mel Η υποκειμενική αντίληψη της του τονικού ύψους από τον άνθρωπο είναι πολύ διαφορετική από το μετρούμενο φυσικό μέγεθος της συχνότητας. Κατόπιν ψυχοακουστικών πειραμάτων σε ακροατές, προτάθηκε το 1937 από τους Stevens, Volkmann και Newman η αντιληπτική κλίμακα συχνοτήτων Mel, στην οποία οι αποστάσεις των τόνων μεταξύ τους ακολουθούν την υποκειμενική αντίληψη του ανθρώπινου ακουστικού συστήματος. Σύμφωνα με την κλίμακα αυτή, το ανθρώπινο αυτί μέχρι τα 1000Hz αντιλαμβάνεται τις μεταβολές της συχνότητας σχεδόν γραμμικά, ενώ πάνω από τα 1000Hz σχεδόν λογαριθμικά. Το σημείο αναφοράς ανάμεσα στην κλίμακα Mel και την κλίμακα φυσικών συχνότητων ορίστηκε αντιστοιχίζοντας τα 1000 mel σε έναν τόνο 1000Hz έντασης 40dB πάνω από το όριο ακοής. Η αντιστοίχιση των υποκειμενικών συχνοτήτων mel με τις φυσικές συχνότητες Hz γίνεται μέσω του παρακάτω τύπου: 30

31 Η αντίστροφη σχέση είναι η εξής: m = 2595 log 10 (1 + f 700 ) (3.7.1) f = 700(10 m ) (3.7.2) Αν και έχουν προταθεί και άλλοι τύποι αντιστοίχισης των mel σε Hz, ο παραπάνω είναι ο πιο διαδεδομένος. Εικόνα Διάγραμμα mel Hertz Η τράπεζα φίλτρων mel (mel filter bank) είναι ένα σύνολο τριγωνικών επικαλυπτόμενων ζωνοπερατών φίλτρων που τοποθετούνται σε ίσες αποστάσεις μεταξύ τους πάνω στην κλίμακα Mel. Σκοπός τους είναι να προσομοιώσουν τη συμπεριφορά του ανθρώπινου ακουστικού συστήματος. Ανάλογα με τον αριθμό των φίλτρων, το σήμα χωρίζεται σε τόσες ζώνες mel. Ο υπολογισμός της ενέργειας κάθε ζώνης γίνεται προσθέτοντας τις ενέργειες κάθε bin του FFT που αντιστοιχεί στην συγκεκριμένη ζώνη mel. [12] Εικόνα Τράπεζα φίλτρων mel 31

32 3.8 Κλίμακα Bark Η κλίμα Bark είναι μία ακόμη ψυχοακουστική κλίμακα συχνοτήτων που προτάθηκε από τον Zwicker το 1961 και προσομοιώνει τη λειτουργία του ανθρώπινου αυτιού χρησιμοποιώντας 24 ζώνες συχνοτήτων. Η μετατροπή από Hz σε Bark γίνεται με τον παρακάτω τύπο [12]: B = 13 arctan( f) arctan (( f 7500 )2 ) (3.8.1) Εικόνα Διάγραμμα Bark Hz 3.9 Ακουστότητα (Loudness) Ακουστότητα (loudness) ονομάζεται η υποκειμενική αίσθηση της έντασης του ήχου και εξαρτάται από την ένταση και τη συχνότητα του ήχου που φτάνει στον ακροατή. Βέβαια, με την αύξηση της έντασης του ήχου αυξάνεται και η ακουστότητα, αλλά δύο τόνοι με την ίδια ένταση και διαφορετική συχνότητα μπορεί να έχουν διαφορετική ακουστότητα. Η στάθμη ακουστότητας (Loudness Level) ορίζεται ως η στάθμη ηχητικής πίεσης ενός τόνου 1kHz που αντιλαμβάνεται η ανθρώπινη ακοή και που είναι το ίδιο έντονος με το συγκεκριμένο ήχο. Μονάδα μέτρησης της στάθμης της ακουστότητας είναι τα phons. Οι στάθμες ακουστότητας έχουν μετρηθεί μέσω ψυχοακουστικών πειραμάτων για διάφορους τονικούς ήχους. Από τις μετρήσεις αυτές προέκυψαν οι ισοφωνικές καμπύλες (equal loudness), 32

33 οι οποίες συνδέουν τόνους διαφορετικών συχνοτήτων και σταθμών πίεσης αλλά ίσης ακουστότητας. Εικόνα Ισοφωνικές καμπύλες [Robinson, Dadson] Από τις παραπάνω καμπύλες φαίνεται ότι: η ένταση του ήχου αλλάζει με τη συχνότητα για την ίδια ακουστότητα ίδιες αλλαγές της έντασης προκαλούν διαφορετικές αλλαγές της ακουστότητας για διαφορετικές συχνότητες η ακοή επηρεάζεται κατά κάποιο τρόπο λογαριθμικά από τις εξωτερικές διεγέρσεις [1] 33

34 Κεφάλαιο 4 Ηχητικά Χαρακτηριστικά (Audio Features) Η εξαγωγή ηχητικών χαρακτηριστικών αποτελεί ένα από τα πιο κρίσιμα στάδια της διαδικασίας κατηγοριοποίησης ηχητικών δεδομένων σε κλάσεις. Στόχος είναι ο προσδιορισμός και η συλλογή των πιο αντιπροσωπευτικών ιδιοτήτων του σήματος που μπορούν να συνεισφέρουν στο διαχωρισμό των κλάσεων μεταξύ τους, απορρίπτοντας παράλληλα ένα μεγάλο όγκο πληροφορίας που περιέχεται στο σήμα και δεν προσφέρει δυνατότητες ταξινόμησης. Έχει προταθεί μεγάλος αριθμός διαφορετικών ηχητικών χαρακτηριστικών, προερχόμενα από τον τομέα της αναγνώρισης ομιλίας, από μελέτες στην ταξινόμηση μουσικών οργάνων και από αποτελέσματα ψυχοακουστικών μελετών. Ύστερα από μελέτη της σχετικής βιβλιογραφίας, στην παρούσα εργασία εξετάστηκαν χαρακτηριστικά που έχουν αποδειχτεί αποδοτικά στην αναγνώριση περιβαλλοντικών ήχων, καθώς και κάποια που προέρχονται από τους τομείς της αυτόματης αναγνώρισης ομιλίας (ASR) και της ανάκτησης μουσικής πληροφορίας (MIR). Όσον αφορά τη διαδικασία εξαγωγής, τα χαρακτηριστικά διακρίνονται σε καθολικά (global features) και στιγμιαία (instantaneous features). Τα πρώτα αναφέρονται σε ολόκληρο το σήμα, ενώ τα δεύτερα προϋποθέτουν την κατάτμηση του σήματος σε ίσης διάρκειας χρονικά πλαίσια (συνήθως κάποιων msec) και τη μετέπειτα εξαγωγή χαρακτηριστικών για κάθε πλαίσιο χωριστά. Το διάνυσμα χαρακτηριστικών που αντιστοιχεί σε κάθε πλαίσιο, ονομάζεται στιγμιότυπο (instance). Στην παρούσα εργασία εξετάστηκαν στιγμιαία χαρακτηριστικά. Τέλος, ανάλογα με το πεδίο στο οποίο γίνεται ο υπολογισμός των χαρακτηριστικών, διακρίνουμε τρεις κατηγορίες: χρονικά χαρακτηριστικά (temporal features), τα οποία υπολογίζονται απευθείας από την κυματομορφή του σήματος, δηλαδή στο πεδίο του χρόνου φασματικά χαρακτηριστικά (spectral features), τα οποία υπολογίζονται με βάση το βραχυπρόθεσμο μετασχηματισμό Fourier (STFT) του σήματος. Υπολογίζεται, δηλαδή, 34

35 ο διακριτός μετασχηματισμός Fourier (στην πράξη ο FFT) για κάθε χρονικό πλαίσιο πριν την εξαγωγή των χαρακτηριστικών σαφματικά χαρακτηριστικά (cepstral features), τα οποία εξάγoνται κατόπιν της μεταφοράς κάθε πλαισίου στο πεδίο του σάφματος (cepstrum) Στη συνέχεια του κεφαλαίου, παρουσιάζονται τα ηχητικά χαρακτηριστικά που χρησιμοποιήθηκαν στην παρούσα εργασία, χωρισμένα ανάλογα με το πεδίο στο οποίο γίνεται ο υπολογισμός τους. [12], [13], [15], [16] 4.1 Χρονικά χαρακτηριστικά (Temporal features) Zero Crossing Rate (ZCR) Το Zero Crossing Rate είναι ένα από τα απλούστερα χαρακτηριστικά και ορίζεται ως ο αριθμός των διαβάσεων του σήματος στο πεδίο του χρόνου από τον μηδενικό άξονα μέσα σε ένα δευτερόλεπτο. Σε ορισμένες περιπτώσεις, μπορεί να μετράει μόνο τις θετικές ή μόνο τις αρνητικές διαβάσεις, καθώς είναι προφανές ότι μεταξύ δύο θετικών διαβάσεων μπορεί να υπάρχει μόνο μία αρνητική. Η μαθηματική του έκφραση είναι: ZCR = 1 N I{x N n=1 nx n 1 < 0} (4.1.1) όπου x n είναι το n-οστό δείγμα σε ένα πλαίσιο από N δείγματα (samples), ενώ η συνάρτηση I{A} δίνει αποτέλεσμα 1 στην περίπτωση που η συνθήκη Α είναι αληθής και 0 στην αντίθετη περίπτωση. Το Zero Crossing Rate, όπως γίνεται αντιληπτό, είναι χαμηλό για περιοδικά σήματα και υψηλό για θορυβώδη. Επομένως, μπορεί να χρησιμοποιηθεί για την εκτίμηση της θεμελιώδους συχνότητας ή του θορύβου που περιέχεται σε ένα σήμα. Επίσης, λειτουργεί ως ένας βασικός διαχωριστής μεταξύ ομιλίας και μουσικής, ενώ έχει αποδειχθεί ότι είναι αποτελεσματικό και στην κατηγοριοποίηση κρουστικών ήχων. [13], [16] 35

36 Root Mean Square (RMS) Η RMS ή ενεργός τιμή ενός σήματος είναι ένα μέτρο της ενέργειάς του, εύκολο στην εφαρμογή. Υπολογίζεται στο πεδίο του χρόνου ως η τετραγωνική ρίζα της μέσης τιμής των τετραγώνων των δειγμάτων σε ένα χρονικό πλαίσιο: RMS = 1 N x N n=1 n 2 (4.1.2) όπου x n είναι το n-οστό δείγμα σε ένα πλαίσιο από N δείγματα. Χρησιμοποιείται για την εκτίμηση της έντασης του ήχου σε ένα πλαίσιο, καθώς και για την ανίχνευση ηχητικών γεγονότων, την κατάτμηση ηχητικού σήματος και τον υπολογισμό του tempo. [12] Relative Difference Function Το χαρακτηριστικό αυτό υπολογίζει το λογάριθμο της παραγώγου της RMS τιμής του σήματος σε ένα πλαίσιο. Είναι χρήσιμο για τον εντοπισμό των στιγμών έναρξης ενός ηχητικού συμβάντος (onset detection). Skewness Στη Θεωρία Πιθανοτήτων και Στατιστική, το χαρακτηριστικό αυτό είναι ένα μέτρο της ασυμμετρίας μια κατανομής πιθανότητας σε σχέση με τη μέση τιμή της. Υπολογίζεται μέσω της κεντρικής ροπής τρίτης τάξης μιας τυχαίας μεταβλητής: μ 3 = (x x ) 3 f(x)dx (4.1.3) Τότε ο συντελεστής ασυμμετρίας (skewness coefficient) είναι: skewness = μ 3 σ 3 (4.1.4) όπου σ είναι η τυπική απόκλιση της κατανομής. Ο συντελεστής αυτός παίρνει συνήθως τιμές από -3 έως 3 για φυσικά συστήματα. 36

37 Σε ένα χρονικό πλαίσιο που αποτελείται από Ν τιμές το χαρακτηριστικό skewness υπολογίζεται ως: skewness = 1 N N i=1 (x i x ) 3 { 1 N N i=1 (x i x ) 2 } 3 (4.1.5) Η θετική τιμή του skewness δηλώνει θετική συμμετρία, κατά την οποία οι περισσότερες τιμές της κατανομής είναι μικρότερες της μέσης τιμής και επομένως εμφανίζεται μια ουρά στα δεξιά του διαγράμματος. Αν το skewness είναι αρνητικό εμφανίζεται ουρά στα αριστερά, ενώ η μηδενική τιμή του skewness δηλώνει συμμετρική κατανομή. [12], [14] Εικόνα Κατανομές με θετικό και αρνητικό skewness Kurtosis Σε αντιστοιχία με το skewness, το χαρακτηριστικό αυτό είναι ένα μέτρο του βαθμού κυρτότητας μιας κατανομής, δηλαδή της συγκέντρωσης των τιμών της γύρω από τη μέση τιμή. Υπολογίζεται μέσω της κεντρικής ροπής τέταρτης τάξης μιας τυχαίας μεταβλητής: μ 4 = (x x ) 4 f(x)dx (4.1.6) Τότε ο συντελεστής κύρτωσης (kurtosis coefficient) είναι: kurtosis = μ 4 σ 4 (4.1.7) όπου σ είναι η τυπική απόκλιση της κατανομής. 37

38 Σε ένα χρονικό πλαίσιο που αποτελείται από Ν τιμές το χαρακτηριστικό kurtosis υπολογίζεται ως: kurtosis = 1 N N i=1 (x i x ) 4 ( 1 N N i=1 x i x ) 2 (4.1.8) Μια κατανομή, η οποία έχει μεγάλη συγκέντρωση τιμών γύρω από το μέσο λέγεται λεπτόκυρτη (leptokurtic), ενώ αν έχει μικρή συγκέντρωση πλατύκυρτη (platykurtic). Κατανομές που προσεγγίζουν την κανονική κατανομή λέγονται μεσόκυρτες (mesokurtic). Επειδή για κανονικές κατανομές έχουμε kurtosis = 3, συνηθίζεται να προσθέτουμε το συντελεστή διόρθωσης -3, έτσι ώστε το χαρακτηριστικό για λεπτόκυρτες κατανομές να παίρνει θετικές τιμές, για πλατύκυρτες αρνητικές, ενώ η μηδενική τιμή να αντιστοιχεί στις κανονικές κατανομές. [12], [14] Εικόνα Κατανομές με θετικό και αρνητικό kurtosis 38

39 4.2 Φασματικά χαρακτηριστικά (Spectral features) Spectral Centroid Το φασματικό κεντροειδές (spectral centroid) είναι ένα μέτρο του κέντρου βάρους του σήματος, δηλαδή εκφράζει την τάση του σήματος να έχει συγκέντρωση των τιμών του στο κέντρο (κοντά στο μέσο όρο). Ταυτίζεται με τη συχνότητα στην οποία η ενέργεια όλων των συχνοτήτων κάτω από αυτή ισούται με την ενέργεια των συχνοτήτων πάνω από αυτή. Υπολογίζεται θεωρώντας το φάσμα ως μια κατανομή, της οποίας οι τιμές είναι οι συχνότητες και οι πιθανότητες αυτών των τιμών είναι τα κανονικοποιημένα πλάτη τους: centroid = μ = x p(x)dx (4.2.1) όπου μ η πρώτη κεντρική ροπή (μέση τιμή), x = freq(x) και p(x) = A(x). x A(x) Εικόνα Spectral Centroid To φασματικό κεντροειδές ενός χρονικού πλαισίου με Ν τιμές ορίζεται ως: C = N k=1 (k+1)x(k) N k=1 X(k) (4.2.2) όπου Χ(k), k = 1,2,,N είναι οι συντελεστές του διακριτού μετασχηματισμού Fourier (DFT). Σε αντιληπτικό επίπεδο έχει σχέση με τη λαμπρότητα (brightness) του ήχου. Χαμηλές τιμές δηλώνουν την παρουσία ισχυρών συνιστωσών στις χαμηλές συχνότητες και ασθενών συνιστωσών στις υψηλές συχνότητες και άρα χαμηλή τιμή του brightness. Χρησιμοποιείται ευρέως σαν ένα μέτρο της μουσικής χροιάς (timbre). Επίσης, καθώς έχει αποδειχθεί ότι η 39

40 ακολουθία του φασματικού κεντροειδούς έχει υψηλές διακυμάνσεις σε σήματα ομιλίας, χρησιμοποιείται και σε μεθόδους διάκρισης ομιλίας μουσικής. [12], [13], [15] Spectral Spread Ακολουθώντας τον παραπάνω ορισμό του spectral centroid, η φασματική διασπορά (spectral spread) ορίζεται ως η διασπορά του φάσματος γύρω από το φασματικό κεντροειδές. Ισούται δηλαδή με τη διακύμανση της κατανομής πιθανοτήτων που ορίστηκε προηγουμένως: spread = σ 2 = (x μ) 2 p(x)dx (4.2.3) όπου σ 2 η δεύτερη κεντρική ροπή (διακύμανση). Εικόνα Spectral Spread Η φασματική διασπορά ενός χρονικού πλαισίου με Ν τιμές ορίζεται ως: S = N k=1 (k+1 C)2 X(k) N k=1 X(k) (4.2.4) όπου Χ(k), k = 1,2,,N είναι οι συντελεστές του διακριτού μετασχηματισμού Fourier (DFT) και C το spectral centroid. Χαμηλές τιμές του spectral spread δηλώνουν ότι η φασματική ενέργεια είναι συγκεντρωμένη σε μια περιορισμένη συχνοτική περιοχή. Όπως και το spectral centroid μπορεί να χρησιμοποιηθεί για την εκτίμηση της μουσικής χροιάς. [12], [14], [15] 40

41 Spectral Flux Το spectral flux είναι ένα μέτρο του ποσοστού μεταβολής του φάσματος ισχύος ενός σήματος στο χρόνο. Υπολογίζεται συγκρίνοντας το φάσμα ισχύος ενός πλαισίου με το φάσμα ισχύος του προηγούμενού του. Συνήθως, υπολογίζεται ως η Ευκλείδεια απόσταση μεταξύ των δύο κανονικοποιημένων φασμάτων. Με αυτό τον τρόπο, το spectral flux είναι ανεξάρτητο της συνολικής ενέργειας του σήματος, καθώς τα φάσματα είναι κανονικοποιημένα και ανεξάρτητο επίσης της φάσης, καθώς στους υπολογισμούς λαμβάνονται υπόψη μόνο τα πλάτη. Το spectral flux του i οστού χρονικού πλαισίου με Ν τιμές ορίζεται ως: N\2 F i = k=1 ( X i (k) X i 1 (k) ) 2 (4.2.3) Σήματα με αργές μεταβολές στο χρόνο (π.χ. θόρυβος) έχουν χαμηλές τιμές του spectral flux, ενώ σε σήματα με απότομες μεταβολές παρατηρούνται υψηλές τιμές. Σε ορισμένες περιπτώσεις, όπως για τον εντοπισμό των στιγμών έναρξης ενός ηχητικού συμβάντος (onset detection), λαμβάνονται υπόψη μόνο οι θετικές μεταβολές της ενέργειας του φάσματος. [12], [13], [16] Spectral Slope Το spectral slope είναι ένα μέτρο που παρέχει μια βασική προσέγγιση της μορφής του φάσματος, δηλαδή περιγράφει την κατανομή της ενέργειας του σήματος ως προς τη συχνότητα. Υπολογίζεται με χρήση γραμμικής παλινδρόμησης στο μετασχηματισμό Fourier του σήματος, η οποία παράγει μία τιμή που αντιστοιχεί στην κλίση της ευθείας που παρεμβάλλεται ανάμεσα στα φασματικά δεδομένα. Η μαθηματική έκφραση του spectral slope είναι η εξής: slope = 1 N N N f i a i N N i=1 i=1 f i i=1 a i i=1 a i N N 2 N i=0 f i ( f i i=0 ) 2 (4.2.4) όπου α i είναι το πλάτος της i οστής φασματικής συνιστώσας και f i η συχνότητά της. Αρνητικές τιμές του spectral slope υποδηλώνουν ισχυρές συνιστώσες χαμηλών συχνοτήτων, ενώ θετικές τιμές ισχυρές συνιστώσες υψηλών συχνοτήτων. Μπορεί να χρησιμοποιηθεί αποτελεσματικά στον τομέα της αναγνώρισης ομιλίας για τη διάκριση ανάμεσα σε ηχηρά και άηχα φωνήματα. [12], [16] 41

42 Εικόνα Spectral Slope Spectral Roll-off Το χαρακτηριστικό spectral roll-off προσδιορίζει τη συχνότητα κάτω από την οποία είναι συγκεντρωμένο το k% της συνολικής ενέργειας του σήματος. Το k παίρνει συνήθως την τιμή k=95, αλλά μπορεί να πάρει και χαμηλότερες τιμές έως k=85. Υπολογίζεται από τον παρακάτω τύπο: f c 0 a 2 (f) = k f s / a2 (f) (4.2.5) όπου f c είναι η συχνότητα roll-off και f s /2 η συχνότητα Nyquist. Το spectral roll-off χρησιμοποιείται εκτενώς στον τομέα της ανάκτησης μουσικής πληροφορίας, καθώς και για την κατάτμηση ομιλίας και μουσικής. [12], [16] Εικόνα Spectral Roll-off για k=95 42

43 Spectral Skewness Σε αντιστοιχία με το χαρακτηριστικό skewness στο πεδίο του χρόνου, το spectral skewness είναι ένα μέτρο της ασυμμετρίας της κατανομής των τιμών του φάσματος ισχύος γύρω από τη μέση τιμή της. Υπολογίζεται από τον τύπο: spectral skewness = N i=1 (f i s ) 3 a i σ 3 (4.2.6) όπου α i και f i το πλάτος και η συχνότητα αντίστοιχα του i οστού πλαισίου και s μέση τιμή του φάσματος [12,13]: s = 1 N i=1 a i N i=1 f i a i (4.2.7) Spectral Kurtosis Σε αντιστοιχία με το χαρακτηριστικό kurtosis στο πεδίο του χρόνου, το spectral kurtosis είναι ένα μέτρο του βαθμού συγκέντρωσης των τιμών του φάσματος ισχύος γύρω από τη μέση τιμή της κατανομής. Υπολογίζεται από τον τύπο [12], [16]: spectral kurtosis = ( N i=1 (f i s ) 4 a i ) 3 (4.2.8) σ 4 Inharmonicity Το χαρακτηριστικό inharmonicity εκφράζει την απόκλιση των φασματικών συνιστωσών ενός ηχητικού σήματος από αυτές ενός πλήρως αρμονικού σήματος. Είναι, δηλαδή, ο βαθμός στον οποίο οι συχνότητες των αρμονικών συχνοτήτων αποκλίνουν από τις θεωρητικές τους τιμές, οι οποίες συμπίπτουν με τα ακέραια πολλαπλάσια της θεμελιώδους συχνότητας (αρμονική σειρά). Υπολογίζεται από τον τύπο: inharmonicity = 2 2 k f k kf 0 a k f 0 a2 k k (4.2.9) 43

44 όπου το f k και το α k αντιστοιχούν στη συχνότητα και το πλάτος αντίστοιχα της k οστής αιχμής του σήματος. Οι τιμές του κυμαίνονται στο διάστημα [0,1], με το 0 να αντιστοιχεί σε έναν πλήρως αρμονικό ήχο. Στο παρακάτω σχήμα σημειώνονται με διακεκομμένη γραμμή οι ιδανικές τιμές των αρμονικών και με συνεχή οι πραγματικές τους τιμές. [12], [16] Εικόνα Απόκλιση φασματικών συνιστωσών από τις ιδανικές τιμές των αρμονικών Tristimulus Τα χαρακτηριστικά tristimulus βασίζονται σε λόγους μεταξύ ζωνών του αρμονικού φάσματος και του συνολικού αρμονικού φάσματος. Προέρχονται από το χώρο της επεξεργασίας εικόνας, όπου οι τιμές tristimulus αντιστοιχούν στα τρία χρώματα αναφοράς (κόκκινο, πράσινο, μπλε), που με το συνδυασμό τους σε διαφορετικές αναλογίες το καθένα μπορούν να δώσουν την οπτική αίσθηση οποιουδήποτε χρώματος. Στις συναρτήσεις tristimulus, οι συντελεστές πλάτους α k του αρμονικού φάσματος χωρίζονται σε τρεις ζώνες: χαμηλής τάξης 1. η θεμελιώδης συχνότητα, f 0 2. η 2 η, 3 η και 4 η αρμονική υψηλής τάξης 3. από την 5 η και πάνω Η σχέση μεταξύ των ζωνών αυτών μπορεί να οπτικοποιηθεί με ένα τριγωνικό γράφημα, στο οποίο κάθε κορυφή αντιστοιχεί στις ακραίες τιμές των τριών εξισώσεων tristimulus [12], [16]: 44

45 tristimulus1 = a 1 N k=1 a k (4.2.10) tristimulus2 = a 2+a 3 +a 4 tristimulus3 = N k=1 a k N k=5 a k N k=1 a k (4.2.11) (4.2.12) Εικόνα Tristimulus 1, 2 και 3 Εικόνα Τριγωνικό Γράφημα Tristimulus 45

46 Odd to Even Harmonic Ratio Το odd to even harmonic ratio υπολογίζεται ως ο λόγος των πλατών (ή της ενέργειας) μεταξύ των περιττών και των άρτιων αρμονικών συνιστωσών: OER = k=1:2:h a k a k k=2:2:h (4.2.13) Είναι χρήσιμο για τη διάκριση ανάμεσα σε ήχους στους οποίους κυριαρχούν οι περιττές αρμονικές συνιστώσες (π.χ. ο ήχος του κλαρινέτου) και ήχους που έχουν το ίδιο ενεργειακό περιεχόμενο στις αρμονικές τους συνιστώσες (π.χ. ο ήχος της τρομπέτας). [12], [16] Chroma Η αίσθηση του μουσικού τόνου μπορεί να χαρακτηριστεί με δύο διαστάσεις: το τονικό ύψος και το chroma. Η διάσταση του τονικού ύψους κατανέμεται στις μουσικές οκτάβες, ενώ η διάσταση του chroma διαιρείται σε 12 τονικές κλάσεις, καθεμία από τις οποίες αντιστοιχεί σε έναν από τους 12 τόνους της μουσικής οκτάβας. Για παράδειγμα, η τονική κλάση C περιέχει τα C όλων των οκτάβων (C 0,C 1,C 2 ). Επομένως, οι τόνοι που περιέχονται στην ίδια κλάση έχουν το ίδιο chroma και παράγουν μια παρόμοια ηχητική αίσθηση. Τα χαρακτηριστικά chroma αναπαριστούν το φάσμα ενός ηχητικού σήματος με ένα διάνυσμα 12 διαστάσεων για κάθε πλαίσιο, καθεμία από τις οποίες αντιστοιχεί σε μία από τις 12 τονικές κλάσεις. Στην ουσία, αποτελούν ένα φασματόγραμμα, το οποίο παράγεται μέσω λογαριθμισμένου βραχυπρόθεσμου μετασχηματισμού Fourier (STFT). Στη συνέχεια, όλες οι συχνότητες που ανήκουν στην ίδια τονική κλάση προστίθενται σε ένα κελί. Τα χαρακτηριστικά αυτά, συνεπώς, προβάλλουν όλες τις συχνότητες του φάσματος σε μία οκτάβα και έτσι έχουμε μια συμπιεσμένη μορφή του φάσματος. Τα χαρακτηριστικά αυτά χρησιμοποιούνται κυρίως στην ανάλυση και ανάκτηση μουσικής πληροφορίας, καθώς προσφέρουν μια ανεξάρτητη της οκτάβας αναπαράσταση του ηχητικού σήματος και μπορούν να αποκαλύψουν μουσικές ομοιότητες που δεν είναι φανερές στο αρχικό φάσμα. [12], [16] 46

47 Εικόνα Χαρακτηριστικά chroma Spectral Flatness Measure (SFM) Το spectral flatness measure είναι ένα χαρακτηριστικό που ποσοτικοποιεί την ομοιότητα ενός ηχητικού σήματος με θόρυβο ή καθαρό τόνο. Υπολογίζεται διαιρώντας το γεωμετρικό μέσο του φάσματος ισχύος με τον αριθμητικό μέσο: SFM = N N i=1 a i N i=1 a i N (4.2.14) όπου α i είναι το πλάτος της i οστής φασματικής συνιστώσας. Οι τιμές κυμαίνονται από 0 έως 1. Υψηλές τιμές του SFM (προσεγγίζοντας το 1 για τον λευκό θόρυβο) υποδηλώνουν ότι το φάσμα ισχύος έχει την ενέργεια μοιρασμένη ομοιόμορφα σε όλες τις φασματικές ζώνες, με αποτέλεσμα το διάγραμμά του να είναι σχετικά επίπεδο και ομαλό. Από την άλλη, χαμηλές τιμές του SFM (προσεγγίζοντας το 0 για καθαρό τόνο) υποδηλώνουν ότι η φασματική ενέργεια είναι συγκεντρωμένη σε ένα σχετικά μικρό αριθμό φασματικών ζωνών, με αποτέλεσμα στο διάγραμμα του φάσματος να εμφανίζονται αιχμές. Το SFM συνήθως υπολογίζεται σε έναν αριθμό συχνοτικών ζωνών, αλλά μπορεί να υπολογιστεί και για ολόκληρο το φάσμα. Μπορεί, επίσης, να μετατραπεί σε κλίμακα decibel με μέγιστη τιμή το 0 db και ελάχιστη το db. [12], [13], [16] 47

48 Εικόνα Spectral Flatness Measure Spectral Crest Factor (SCF) Ένα άλλο χαρακτηριστικό που χρησιμοποιείται για τη διάκριση ανάμεσα σε ήχους που μοιάζουν με θόρυβο και ήχους που μοιάζουν με καθαρούς τόνους είναι το spectral crest factor. Είναι αντιστρόφως ανάλογο του SFM, δηλαδή παίρνει μικρές τιμές για σήματα με ομοιόμορφη κατανομή του φάσματος και υψηλότερες για σήματα που εμφανίζουν αιχμές στο φάσμα τους. Υπολογίζεται από το λόγο της μέγιστης τιμής του πλάτους (ή της ενέργειας) του φάσματος προς τον αριθμητικό μέσο του πλάτους (ή της ενέργειας): SCF = max i {a i } 1 N i a i (4.2.15) όπου α i είναι το πλάτος της i οστής φασματικής συνιστώσας. Όπως και το SFM, μπορεί να υπολογιστεί για διάφορες συχνοτικές ζώνες, αλλά και για ολόκληρο το φάσμα. [12], [13], [16] Spectral Sharpness Το χαρακτηριστικό spectral sharpness εκφράζει την αναλογία του φασματικού περιεχομένου ενός σήματος μεταξύ υψηλών και χαμηλών συχνοτήτων. Έχει, δηλαδή, παρόμοια λογική με το spectral centroid, με τη διαφορά ότι χρησιμοποιεί το ψυχοακουστικό μοντέλο της 48

49 ακουστότητας (loudness) της μη γραμμικής κλίμακας Bark αντί του πλάτους της φασματικής ισχύος. Δίνει, επομένως, αποτελέσματα πιο κοντά στην ανθρώπινη αντίληψη του ήχου, αλλά δε χρησιμοιποιείται τόσο συχνά όσο το spectral centroid λόγω της μεγαλύτερης υπολογιστικής του πολυπλοκότητας. Οι τιμές του αυξάνονται, καθώς το κέντρο βάρους του φάσματος μετατοπίζεται προς τις υψηλότερες συχνότητες. Ορίζεται μαθηματικά ως εξής: sharpness = 0.11 nband z=1 z g(z)n (z) N (4.2.16) όπου z είναι ο δείκτης της φασματικής ζώνης της κλίμακας Bark και το g(z) ορίζεται ως: g(z) = 1 αν z < 15 (4.2.17) g(z) = exp(0.17z) αν z 15 (4.2.18) Με Ν (z) συμβολίζεται η ειδική ακουστότητα που αντιστοιχεί στην z οστή ζώνη της κλίμακας Bark και ορίζεται ως: Ν (z) = E (z) 0.23 (4.2.19) Η συνολική ακουστότητα Ν είναι το άθροισμα των επιμέρους ακουστοτήτων κάθε ζώνης: nband N = z=1 N (z) (4.2.20) [12], [16] Spectral Smoothness Το χαρακτηριστικό αυτό συνδέεται με το βαθμό που διαφέρει το πλάτος μεταξύ δύο συνεχόμενων αρμονικών συχνοτήτων στο φάσμα ισχύος. Για παράδειγμα, οι αρμονικές συχνότητες που παράγονται από την τρομπέτα έχουν περίπου το ίδιο πλάτος, άρα το spectral smoothness θα είναι χαμηλό. Αντίθετα, στο κλαρινέτο υπάρχει έμφαση στις περιττές αρμονικές με αποτέλεσμα το spectral smoothness να είναι υψηλό. Υπολογίζεται από τον παρακάτω τύπο [16]: N SS = 20 log(a i ) 20 log(a i 1)+20 log(a i )+20log(a i+1 ) i=1 (4.2.21) 3 49

50 Εικόνα Χαρακτηριστικό φάσμα ενός κλαρινέτου Spectral Variability Το χαρακτηριστικό αυτό περιγράφει το βαθμό της μεταβολής της μορφής του φάσματος στο χρόνο συγκρίνοντας τα φάσματα διαδοχικών πλαισίων. Σχετίζεται με το χαρακτηριστικό spectral flux, με τη διαφορά ότι τα φάσματα που συγκρίνει δεν είναι κανονικοποιημένα. Έτσι, πέρα από τις μεταβολές στη μορφή του φάσματος μπορεί να εκφράσει και μεταβολές στη συνολική ενέργεια του σήματος. [17] Irregularity Το χαρακτηριστικό αυτό είναι ένα μέτρο της διακύμανσης που εμφανίζουν οι διαδοχικές κορυφές στο φάσμα του ηχητικού σήματος. [16] Σύμφωνα με τον τύπο του Krimphoff, υπολογίζεται όπως το spectral smoothness με τη διαφορά ότι δεν εφαρμόζεται η λογαριθμική κλιμάκωση στα πλάτη των κορυφών: N irregularity = a i a i 1+a i +a i+1 i=1 (4.2.22) Σύμφωνα με τον τύπο του Jensen, προσδιορίζεται από το άθροισμα των τετραγώνων των διαφορών μεταξύ των πλατών δύο διαδοχικών κορυφών: 3 50

51 irregularity = N i=1 (a i+1 a i ) 2 N a2 i=1 i (4.2.23) Brightness Το χαρακτηριστικό brightness εκφράζει τη φασματική κατανομή των συχνοτήτων, δηλαδή το κατά πόσο σε ένα σήμα επικρατούν οι υψηλές ή οι χαμηλές συχνότητες. Ορίζεται ως το ποσοστό της συνολικής ενέργειας του σήματος που περιέχεται πάνω από μία συχνότητα κατωφλίου, η οποία συμβατικά ορίζεται στα 1500Hz. Έχουν προταθεί επίσης οι τιμές 1000Hz (Laukka, Juslin και Bresin, 2005) και 3000Hz (Juslin, 2000). [13] Εικόνα Brightness Roughness Οι Plomp και Lovelt πρότειναν μία μέθοδο εκτίμησης της ακουστικής αίσθησης της διαφωνίας, δηλαδή του χαρακτηριστικά ασταθούς ακουστικού φαινομένου που παράγεται κατά τη συνήχηση δύο τόνων με μικρή διαφορά συχνότητας. Η μέθοδος εκτίμησης της διαφωνίας στηρίζεται στο λόγο των συχνοτήτων κάθε ζεύγους ημιτόνων που υπάρχει στο σήμα. Για τον υπολογισμό του roughness, αρχικά υπολογίζονται οι κορυφές του φάσματος και στη συνέχεια ο μέσος όρος της διαφωνίας ανάμεσα σε όλα τα δυνατά ζεύγη κορυφών. Το roughness ενός ζεύγους ημιτονοειδών σημάτων με συχνότητες f 1, f 2 και πλάτη Α 1, Α 2 υπολογίζεται από τον τύπο: R = X 0.1 *0.5 (Y 3.11 )*Z (4.2.24) 51

52 όπου Χ = Α min *A max, Y = 2Α min /( Α min + Α max ) και Ζ = e -b1s(fmax-fmin) - e -b2s(fmax-fmin) [b1 = 3.5; b2 = 5.75; s = 0.24/(s1f min + s2); s1 = ; s2 = 18.96] Στον παραπάνω τύπο, ο όρος X 0.1 εκφράζει την εξάρτηση του roughness από το πλάτος των δύο σημάτων, ο όρος Y 3.11 την εξάρτηση του roughness από τη διαφορά πλάτους των δύο σημάτων και ο όρος Ζ την εξάρτηση του roughness από τη διαφορά συχνότητας των δύο σημάτων και από τη συχνότητα του χαμηλότερου σήματος. Στο παρακάτω σχήμα βλέπουμε το διάγραμμα του roughness ενός ζεύγους ημιτονοειδών σημάτων ως προς τη συχνότητα (χρωματική μουσική κλίμακα), υπολογισμένο για διάφορες συχνότητες του χαμηλότερου σήματος. [19] Εικόνα Roughness 52

53 4.3 Σαφματικά χαρακτηριστικά (Cepstral features) Mel-Frequency Cepstral Coefficients (MFCC) Το Mel-Frequency Cepstrum (MFC) είναι το cepstrum ενός σήματος, υπολογισμένο στις Mel συχνοτικές μπάντες αντί για το φάσμα του μετασχηματισμού Fourier. Η χρήση της κλίμακας Mel επιτρέπει την ακριβέστερη αναπαράσταση των μεσαίων συχνοτήτων του σήματος, καθώς οι συχνοτικές μπάντες στην κλίμακα Mel προσεγγίζουν καλύτερα την αντίληψη του ανθρώπινου ακουστικού συστήματος από ό,τι οι γραμμικές συχνοτικές μπάντες του απλού cepstrum. Οι Mel-Frequency Cepstral Coefficients (MFCCs) αποτελούν τα πιο δημοφιλή ηχητικά χαρακτηριστικά που χρησιμοποιούνται σήμερα. Είναι συντελεστές που αναπαριστούν συνοπτικά το Mel-Frequency Cepstrum, δηλαδή αποτελούν μία κατά προσέγγιση περιγραφή της μορφής του φάσματος. Η διαδικασία υπολογισμού τους ακολουθεί τα παρακάτω βήματα: 1. Το ηχητικό σήμα χωρίζεται σε πλαίσια (frames) με την εφαρμογή χρονικών παραθύρων. 2. Υπολογίζεται με τη χρήση FFT το φάσμα ισχύος κάθε πλαισίου. 3. Οι τιμές του φάσματος ισχύος κάθε πλαισίου αντιστοιχίζονται στην κλίμακα Mel με την εφαρμογή μιας τράπεζας φίλτρων Mel (Mel filter bank). Έτσι, προκύπτει το φάσμα Mel (Mel-spectrum). 4. Υπολογίζεται ο λογάριθμος της εξόδου κάθε φίλτρου. 5. Εφαρμόζεται διακριτός μετασχηματισμός συνημιτόνου (DCT) στο λογαριθμισμένο φάσμα Mel. Ο DCT χρησιμοποιείται αντί του αντίστροφου μετασχηματισμού που εφαρμόζεται για τον υπολογισμό του απλού cepstrum, λόγω της δυνατότητάς του να αποσυσχετίζει τα δεδομένα και να συγκεντρώνει το μεγαλύτερο μέρος της πληροφορίας του σήματος στους συντελεστές χαμηλής τάξης. Οι συντελεστές υψηλότερης τάξης μπορούν να απορριφθούν και έτσι με ένα πιο συμπιεσμένο διάνυσμα να έχουμε σημαντικό κέρδος σε υπολογιστική πολυπλοκότητα. Οι συντελεστές MFCC είναι οι συντελεστές χαμηλής τάξης του DCT. Από το σύνολο των συντελεστών που προκύπτουν, συνήθως χρησιμοποιούνται οι πρώτοι 8 έως 40, ανάλογα με την απαιτούμενη ανάλυση. Για τις περισσότερες εφαρμογές αρκούν οι πρώτοι 8 με 13, οι οποίοι μπορούν να περιγράψουν προσεγγιστικά τη μορφή του φάσματος. Οι 53

54 συντελεστές μεγαλύτερης τάξης παρέχουν μια αναλυτικότερη περιγραφή του φάσματος και χρησιμοποιούνται σε πιο απαιτητικές εφαρμογές. Για παράδειγμα, για την αναγνώριση ομιλίας στην Κινεζική γλώσσα απαιτούνται 20 συντελεστές. Ο πρώτος συντελεστής, συγκεκριμένα, αντιπροσωπεύει τη μέση ενέργεια του φάσματος και για το λόγο αυτό συνήθως δε χρησιμοποιείται. Ο δεύτερος συντελεστής προσεγγίζει το γενικό σχήμα του φάσματος και σχετίζεται με το spectral centroid. σήμα κατάτμηση FFT Mel log DCT MFCC Εικόνα Διαδικασία υπολογισμού των MFCCs Εικόνα Φασματόγραμμα ηχητικού σήματος και το αντίστοιχο διάγραμμα MFCCs Επίσης, μπορούν να χρησιμοποιηθούν ως χαρακτηριστικά και οι παράγωγοι πρώτης και δεύτερης τάξης των συντελεστών MFCC για την περιγραφή της δυναμικής συμπεριφοράς του σήματος: Delta MFCC = MFCC(t) (4.3.1) t Delta Delta MFCC = 2 MFCC(t) (4.3.2) 2 t 54

55 Η τεχνική των συντελεστών MFCC αναπτύχθηκε αρχικά για την αυτόματη αναγνώριση ομιλίας, ενώ αργότερα αποδείχθηκε χρήσιμη και στους κλάδους της ανάκτησης μουσικής πληροφορίας και αναγνώρισης περιβαλλοντικών ήχων. [12] - [16], [18] Bark-Frequency Cepstral Coefficients (BFCC) Με την πάροδο του χρόνου, προτάθηκαν αρκετές παραλλαγές των συντελεστών MFCC, οι οποίες διαφέρουν κυρίως στην ψυχοακουστική κλίμακα που χρησιμοποιείται. Αντί για την κλίμακα Mel, χρησιμοποιήθηκαν και οι κλίμακες Bark, ERB και οκτάβας. Οι Bark-Frequency Cepstral Coefficients (BFCC) αποτελούν την πιο χαρακτηριστική παραλλαγή των MFCCs και χρησιμοποιούν την κλίμακα Bark. Η διαδικασία υπολογισμού τους ακολουθεί παρόμοια λογική με αυτή των MFCCs και περιγράφεται στα παρακάτω βήματα: 1. Το ηχητικό σήμα χωρίζεται σε πλαίσια (frames) με την εφαρμογή χρονικών παραθύρων. 2. Υπολογίζεται με τη χρήση FFT το φάσμα ισχύος κάθε πλαισίου. 3. Οι τιμές του φάσματος ισχύος κάθε πλαισίου αντιστοιχίζονται στην κλίμακα Bark με την εφαρμογή μιας τράπεζας φίλτρων Bark (Bark scale filter bank). 4. Οι έξοδοι των φίλτρων σταθμίζονται σύμφωνα με τις ισοφωνικές καμπύλες (equal loudness) που προσεγγίζουν την ευαισθησία της ανθρώπινης ακοής. 5. Το πλάτος του σήματος στη συνέχεια συμπιέζεται σύμφωνα με το νόμο ισχύος έντασης-ακουστότητας (intensity-loudness power law): L(ω) = Ι(ω) 1/3 6. Ακολουθεί συμπίεση μέσω της λογαριθμικής συνάρτησης. 7. Εφαρμόζεται διακριτός μετασχηματισμός συνημιτόνου (DCT), όπως στην περίπτωση των MFCCs. [12,16,18] Εικόνα Διαδικασία υπολογισμού των ΒFCCs 55

56 Linear Prediction Cepstral Coefficients (LPCC) Η κωδικοποίηση γραμμικής πρόβλεψης (Linear predictive coding - LPC) είναι ένα εργαλείο που χρησιμοποιείται κυρίως στην αναγνώριση ομιλίας για την αναπαράσταση της μορφής του φάσματος ενός ψηφιακού σήματος φωνής σε συμπιεσμένη μορφή. Αποτελεί μία από τις πιο επιτυχημένες τεχνικές που έχουν εφαρμοστεί για την ακριβή εκτίμηση των παραμέτρων των σημάτων ομιλίας. Η ανάλυση γραμμικής πρόβλεψης βασίζεται στην υπόθεση ότι το σχήμα το φωνητικού σωλήνα καθορίζει το χαρακτήρα των ήχων που παράγονται. Έτσι, ο μηχανισμός παραγωγής φωνής προσεγγίζεται με ένα IIR φίλτρο που εφαρμόζεται σε μια πηγή παραγωγής συχνοτήτων και μια πηγή θορύβου. Με βάση τη θεωρία της γραμμικής πρόβλεψης, οι τιμές των νέων δειγμάτων φωνής μπορούν να εκτιμηθούν από τα προηγούμενα χρησιμοποιώντας έναν γραμμικό συνδυασμό. Το πρόβλημα της ανάλυσης γραμμικής πρόβλεψης συνίσταται στον υπολογισμό των συντελεστών του φίλτρου, έτσι ώστε αυτό να προσεγγίσει το ψηφιακό μοντέλο παραγωγής της φωνής. Αρχικά, το σήμα εισόδου ενισχύεται στις υψηλές συχνότητες με την εφαρμογή ενός υψιπερατού φίλτρου, καθώς στα σήματα ομιλίας η ενέργεια είναι συγκεντρωμένη κυρίως στις χαμηλές συχνότητες. Για την επίλυση του προβλήματος χρησιμοποιείται ανάλυση βραχέως χρόνου (short-time analysis) με χρονικά παράθυρα ms, γιατί το σήμα της φωνής είναι χρονικά μεταβαλλόμενο. Μια από τις πιο αποδοτικές μεθόδους για τον υπολογισμό των συντελεστών LPC είναι η μέθοδος της αυτοσυσχέτισης. Οι LPC συντελεστές σπάνια χρησιμοποιούνται ως χαρακτηριστικά. Στο τελευταίο στάδιο, ακολουθεί η μεταφορά των συντελεστών στο πεδίο του cepstrum μέσω μιας αναδρομικής διαδικασίας και έτσι προκύπτουν οι Linear Prediction Cepstral Coefficients (LPCC). Οι LPCC έχουν αποδειχθεί αποδοτικότεροι από τους LPC, λόγω της ανεκτικότητάς τους στο θόρυβο. [13], [18] 56

57 Κεφάλαιο 5 Αλγόριθμοι Μηχανικής Μάθησης Στο παρόν κεφάλαιο γίνεται η παρουσίαση των αλγορίθμων μηχανικής μάθησης που χρησιμοποιήθηκαν στην παρούσα εργασία. Η επιλογή τους έγινε με κριτήριο την καταγεγραμμένη αποδοτικότητά τους στην αναγνώριση και κατηγοριοποίηση ήχων στη σχετική βιβλιογραφία. 5.1 Απλοϊκός Κατηγοριοποιητής Bayes (Naive - Bayes Classifier) Οι κατηγοριοποιητές Bayes αποτελούν τεχνικές καθοδηγούμενης εκμάθησης που στηρίζονται στο θεώρημα του Bayes και χρησιμοποιούνται σε πιθανοτικά μοντέλα επίλυσης προβλημάτων κατηγοριοποίησης. Ο απλοϊκός κατηγοριοποιητής Bayes βασίζεται στην παραδοχή ότι υπάρχει γραμμική ανεξαρτησία μεταξύ των μεταβλητών εισόδου. Η παραδοχή αυτή συνήθως δεν μπορεί να υποστηριχτεί στα περισσότερα προβλήματα εξόρυξης πληροφορίας, καθώς εμπλέκεται συνήθως ένας μεγάλος αριθμός χαρακτηριστικών εισόδου, τα οποία συχνά εμφανίζουν ασθενείς ή ισχυρές ετεροσυσχετίσεις. Παρόλα αυτά, αποδεικνύεται ότι ο απλοϊκός κατηγοριοποιητής Bayes μπορεί να είναι πολύ εύρωστος σε παραβιάσεις της υπόθεσης ανεξαρτησίας και έχουν αναφερθεί καλές επιδόσεις του σε πολλά σύνολα δεδομένων του πραγματικού κόσμου. Ο κανόνας του Bayes περιγράφεται από την παρακάτω σχέση: P(O I) = P(I O)P(O) P(I) (5.1.1) όπου με Ο συμβολίζεται το χαρακτηριστικό εξόδου, με Ι το χαρακτηριστικό εισόδου, ενώ το P(O I) εκφράζει την εκ των υστέρων πιθανότητα (a posteriori) να ικανοποιείται η υπόθεση Ο δεδομένης της εισόδου Ι, το P(I O) αντιπροσωπεύει τη δεσμευμένη πιθανότητα του 57

58 χαρακτηριστικού Ι, δεδομένου ότι επαληθεύεται η υπόθεση Ο, με P(O) συμβολίζεται η εκ των προτέρων (a priori) πιθανότητα του χαρακτηριστικού εξόδου Ο, ανεξάρτητα από την ισχύ οποιουδήποτε χαρακτηριστικού εισόδου και το P(I) συμβολίζει την πιθανότητα του χαρακτηριστικού Ι. Δοθέντος ενός προβλήματος ταξινόμησης κλάσεων C j, j = 1,2,,Ν και ενός αγνώστου προτύπου, το οποίο αναπαρίσταται από ένα διάνυσμα χαρακτηριστικών Α i, i = 1,2,n, ο απλοϊκός Bayes καλείται να βρει την τιμή του C που μεγιστοποιεί την εκ των υστέρων πιθανότητα P(C A 1,A 2,,A n ). Με βάση το θεώρημα του Bayes η πιθανότητα αυτή μπορεί να γραφεί: P(C A 1, A 2,, A n ) = P(A 1,A 2,,A n C)P(C) P(A 1,A 2,,A n ) (5.1.2) Το πρόβλημα, επομένως, είναι ισοδύναμο με την εύρεση της τιμής του C που μεγιστοποιεί την P(A 1, A 2,,A n C)P(C). Επίσης, λόγω της υπόθεσης ανεξαρτησίας μεταξύ των μεταβλητών A 1, A 2,,A n έχουμε: P(A 1, A 2,, A n C) = P(A 1 C) P(A 2 C) P(A n C) (5.1.3) Άρα, η νέα εγγραφή ταξινομείται ως C j, αν η πιθανότητα P(C j ) P(A i C j ) είναι μέγιστη. Οι πιθανότητες P(A i C) και P(C j ) μπορούν να υπολογιστούν για κάθε τιμή C j από τα διαθέσιμα διανύσματα χαρακτηριστικών εκπαίδευσης. Αν Ν είναι ο συνολικός αριθμός των διαθέσιμων προτύπων εκπαίδευσης και Ν k ο αριθμός των προτύπων που ανήκουν στην κλάση C j, τότε P(C j ) = Ν k \N. Στην περίπτωση που οι μεταβλητές εισόδου παίρνουν διακριτές τιμές οι δεσμευμένες πιθανότητες υπολογίζονται ως: P(A i C j ) = A ij /N k,όπου A ij είναι ο αριθμός των στιγμιοτύπων που έχουν την τιμή Α i μιας μεταβλητής και ανήκουν στην κλάση C j. Στην περίπτωση που οι μεταβλητές Α i είναι συνεχείς, συνήθως υποθέτουμε ότι η μεταβλητή ακολουθεί κανονική κατανομή και υπολογίζουμε τη δεσμευμένη πιθανότητα μέσω της συνάρτησης πυκνότητας πιθανότητας. Η προσέγγιση της απλοϊκής κατηγοριοποίησης κατά Bayes παρουσιάζει αρκετά πλεονεκτήματα. Πρώτον, είναι πολύ εύκολο να χρησιμοποιηθεί. Δεύτερον, αντίθετα με άλλες τεχνικές κατηγοριοποίησης χρειάζεται μόνο ένα πέρασμα των δεδομένων εκπαίδευσης. Επίσης, η προσέγγιση αυτή μπορεί να διαχειριστεί τιμές που λείπουν, απλά αγνοώντας τις αντίστοιχες εγγραφές κατά τον υπολογισμό της εκτίμησης πιθανοτήτων. Σε περιπτώσεις όπου υπάρχουν απλές συσχετίσεις στα δεδομένα, η 58

59 τεχνική συνήθως δίνει καλά αποτελέσματα κατηγοριοποίησης σε σύντομο χρονικό διάστημα. Τέλος, ο απλοϊκός Bayes είναι ιδιαίτερα εύρωστος σε σχέση με μεμονωμένα σημεία θορύβου. [2], [8], [9], [11] 5.2 Κατηγοριοποιητής k Πλησιέστερων Γειτόνων (k Nearest Neighbor Classifier) Ο κατηγοριοποιητής k Πλησιέστερων Γειτόνων αποτελεί μια μέθοδο μηχανικής μάθησης βασισμένη στα στιγμιότυπα (instance-based), κατά την οποία κάθε στοιχείο εκπαίδευσης κατηγοριοποιείται στην κλάση των k πλησιέστερων γνωστών γειτόνων, δηλαδή των k γνωστών στιγμιότυπων με τα οποία παρουσιάζει τις περισσότερες ομοιότητες ως προς τα χαρακτηριστικά του. Ο αλγόριθμος του κατηγοριοποιητή k Πλησιέστερων Γειτόνων συνοψίζεται ως εξής: Δοθέντος ενός αγνώστου διανύσματος χαρακτηριστικών Α και ενός μέτρου απόστασης, τότε Από τα Ν διανύσματα εκπαίδευσης, προσδιόρισε τα k πλησιέστερα, ανεξαρτήτως κλάσης. Το k επιλέγεται να είναι περιττό για πρόβλημα δύο κλάσεων, και γενικά όχι πολλαπλάσιο του πλήθους των κλάσεων Μ. Από αυτά τα k δείγματα, προσδιόρισε τον αριθμό των διανυσμάτων, k i, που ανήκουν στην κλάση C i, i = 1, 2,, M. Προφανώς, i k i = k. Καταχώρησε το Α στην κλάση C i με τον μέγιστο αριθμό δειγμάτων k i. Μπορούν να χρησιμοποιηθούν πολλά μέτρα απόστασης, συμπεριλαμβανομένης της Ευκλείδειας και της Mahalanobis απόστασης, ενώ για διακριτές μεταβλητές μπορεί να χρησιμοποιηθεί η απόσταση Hamming. Εικόνα Κανόνας κατηγοριοποίησης μέσω 3 πλησιέστερων γειτόνων 59

60 Η κατάλληλη επιλογή του k εξαρτάται από τα δεδομένα: με την επιλογή μικρού k ο αλγόριθμος παρουσιάζει ευαισθησία στο θόρυβο, ενώ αν επιλεγεί πολύ μεγάλο k, τα όρια των κλάσεων γίνονται λιγότερο ευδιάκριτα. Η απλούστερη έκδοση του αλγόριθμου για k=1 είναι γνωστή ως κανόνας του πλησιέστερου γείτονα (nearest neighbor rule - NN). Στην περίπτωση αυτή, ένα διάνυσμα χαρακτηριστικών ταξινομείται στην κλάση του πλησιέστερου γείτονά του. Υπό την προϋπόθεση ότι το πλήθος των δειγμάτων εκπαίδευσης είναι αρκετά μεγάλο, ο απλός αυτός κανόνας παρουσιάζει καλή απόδοση, κάτι που τεκμηριώνεται και από θεωρητικά ευρήματα. Όταν χρησιμοποιείται ο κανόνας του k=1 πλησιέστερου γείτονα, τα διανύσματα εκπαίδευσης Α i, i=1,2,, N, ορίζουν μία διαμέριση του l-διάστατου χώρου σε Ν περιοχές, R i. Κάθε μία από αυτές τις περιοχές ορίζεται ως R i = {A: d(a, A i ) < d(a, A j ), i j} Δηλαδή, η περιοχή Ri περιέχει όλα τα σημεία του χώρου τα οποία είναι πιο στο Αi από ότι σε οποιοδήποτε άλλο σημείο του συνόλου εκπαίδευσης, ως προς την απόσταση d. Η διαμέριση αυτή του χώρου χαρακτηριστικών είναι γνωστή ως ψηφίδωση (tessellation) Voronoi. Εικόνα Διάγραμμα Voronoi στον δισδιάστατο χώρο για Ευκλείδεια απόσταση Αξίζει να αναφερθεί και μια παραλλαγή του αλγορίθμου k Πλησιέστερων Γειτόνων που βασίζεται στη μέθοδο της σταθμισμένης απόστασης. Σύμφωνα με την παραλλαγή αυτή, το πόσο συνεισφέρει κάθε γείτονας στην κατηγοριοποίηση υπολογίζεται βάσει ενός βάρους, ανάλογα με 60

61 την απόσταση από το ζητούμενο (π.χ. w = 1/d ή w = 1/d 2 ). Έτσι οι κοντινότεροι γείτονες έχουν μεγαλύτερη συνεισφορά αφού έχουν αυξημένο βάρος, ενώ οι μακρινότεροι (από τους k γείτονες) έχουν μικρότερη συνεισφορά. Από τα παραπάνω γίνεται κατανοητό ότι το πλεονέκτημα που προσφέρει η μέθοδος των k Πλησιέστερων Γειτόνων είναι η απλότητα κατά τη χρήση της, καθώς δεν κατασκευάζει ένα γενικά ρητά διατυπωμένο μοντέλο που προσεγγίζει τη συνάρτηση-στόχο καθολικά, αλλά εκτελεί τους υπολογισμούς κάθε φορά που εμφανίζεται ένα καινούριο στιγμιότυπο προς κατάταξη. Για το λόγο αυτό χαρακτηρίζεται και ως οκνηρή μάθηση. Παρά την απλότητά της, όμως, συνεισφέρει σε αρκετά ικανοποιητικά αποτελέσματα, καθώς όσο πολύπλοκη καθολικά και αν είναι η συνάρτηση-στόχος, μέσω της μεθόδου αυτής μπορεί να περιγραφεί ως μια συλλογή λιγότερο σύνθετων τοπικών προσεγγίσεων και επομένως να προσεγγιστεί καλύτερα. Το κύριο μειονέκτημά της είναι το υψηλό υπολογιστικό κόστος, καθώς αποθηκεύει όλα τα δεδομένα εκπαίδευσης στη μνήμη και τα ανακαλεί με την εμφάνιση κάθε νέου στιγμιότυπου, εκτελώντας και τους απαραίτητους υπολογισμούς τότε και όχι κατά τη φάση της εκπαίδευσης. Επίσης, ενέχει τον κίνδυνο μετάδοσης διαδοχικών σφαλμάτων κατά την πρότερη εσφαλμένη κατηγοριοποίηση ορισμένων δεδομένων, γεγονός που επιβαρύνει ιδιαίτερα τα προβλήματα που απαιτούν την υλοποίηση ιεραρχικών σχημάτων ταξινόμησης.[2], [8], [9], [11] 5.3 Δένδρα αποφάσεων (Decision Trees) Τα δένδρα αποφάσεων αποτελούν μία από τις πιο δημοφιλείς μεθόδους μηχανικής μάθησης, κυρίως χάρη στην εύκολα αντιληπτή και κατανοητή από τον άνθρωπο δομή που προσφέρουν. Φέρουν τη μορφή ενός συνδεδεμένου γράφου, ο οποίος αποτελείται από κόμβους αποφάσεων σε διαφορετικά επίπεδα. Η διαδικασία κατασκευής του δένδρου ξεκινάει από τη ρίζα και καταλήγει προς τα φύλλα (τερματικοί κόμβοι). Η ρίζα και οι εσωτερικοί κόμβοι αντιπροσωπεύουν τον έλεγχο ενός ή περισσοτέρων χαρακτηριστικών εισόδου του μοντέλου, ενώ τα φύλλα ουσιαστικά αποτελούν τις κλάσεις ταξινόμησης. Τα τόξα που προέρχονται από κάθε κόμβο αντιπροσωπεύουν κάθε πιθανή απάντηση στην ερώτηση ελέγχου. 61

62 Εικόνα Δομή δένδρου απόφασης Η διαδικασία κατηγοριοποίησης χωρίζεται σε δύο φάσεις: α) την κατασκευή του δέντρου και β) την εφαρμογή του στη βάση δεδομένων. Από τα διαθέσιμα δεδομένα εισόδου, ένα τμήμα χρησιμοποιείται για τη σταδιακή διαμόρφωση του δένδρου αποφάσεων, ενώ τα υπόλοιπα γνωστά δεδομένα εισόδου χρησιμοποιούνται ως δείγματα ελέγχου της ακρίβειας κατηγοριοποίησης. Όπως είναι αυτονόητο, η πλειοψηφία των δεδομένων εισόδου χρειάζεται να εμπλακεί στη διαδικασία δόμησης του δένδρου, ενώ λιγότερα απαιτούνται για τον έλεγχο, καθώς όσο περισσότερα είναι τα διαθέσιμα δεδομένα εκπαίδευσης τόσο αποδοτικότερο προκύπτει το δένδρο αποφάσεων. Ο αλγόριθμος τερματίζεται όταν ικανοποιούνται κάποια κριτήρια τερματισμού. Μια απλή προσέγγιση είναι να τερματιστεί στην περίπτωση που ταξινομεί ορθά όλα τα στιγμιότυπα. Οι εσφαλμένες κατηγοριοποιήσεις μπορούν να ανατροφοδοτήσουν τη διαδικασία εκπαίδευσης, οπότε και το δένδρο επαναπροσδιορίζεται. Αφού κατασκευαστεί ένα δένδρο, είναι πιθανό να χρειάζονται κάποιες τροποποιήσεις σε αυτό, ώστε να βελτιωθεί η απόδοση του. Η φάση του κλαδέματος (pruning) αφαιρεί κάποιες περιττές συγκρίσεις ή διαγράφει κάποια υποδένδρα με στόχο την επίτευξη καλύτερης απόδοσης. Οι κανόνες που μπορούν να παραχθούν από το δένδρο πριν τη φάση του κλαδέματος είναι αρκετά εξειδικευμένοι. Περιορίζοντας το μέγεθος του δένδρου, παράγουμε μικρότερο αριθμό γενικότερων κανόνων, το οποίο είναι καλύτερο από το να έχουμε πολλούς και εξειδικευμένους κανόνες. Οι τεχνικές κλαδέματος μπορεί να εφαρμοστούν όχι μόνο μετά το χτίσιμο του δένδρου αλλά και κατά τη διάρκεια κατασκευής του. Με τον τρόπο αυτό αποτρέπουμε την άσκοπη ανάπτυξη του δένδρου. 62

63 Για το ίδιο σύνολο εκπαίδευσης μπορεί να προκύψουν διαφορετικά δένδρα αποφάσεων με διαφορετική απόδοση κατηγοριοποίησης. Τα διαφορετικά δένδρα προκύπτουν από τις διαφορετικές επιλογές των χαρακτηριστικών που θα χρησιμοποιηθούν ως ρίζα και ως κόμβοιγονείς και από τον τρόπο διαχωρισμού, δηλαδή τον αριθμό διασπάσεων των κόμβων (δυαδικό split/multi-way split). Τα χαρακτηριστικά που θα χρησιμοποιηθούν στους κόμβους του δένδρου και γύρω από τα οποία θα πραγματοποιηθούν οι διαιρέσεις, ονομάζονται χαρακτηριστικά διάσπασης (splitting predicates). Η κατάλληλη επιλογή και αξιολόγηση αυτών των χαρακτηριστικών μπορεί να βασιστεί σε κατάλληλα κριτήρια και μετρικές από τη θεωρία πληροφοριών (εντροπία, κέρδος πληροφορίας) ή στο λόγο ενίσχυσης για κάθε κλάδο του δένδρου ως προς τη μερική απόδοση ταξινόμησης που προκύπτει. Πέρα από την ευκολία κατά την εφαρμογή τους και την κατανοητή δομή, ένα άλλο βασικό πλεονέκτημα των δένδρων αποφάσεων είναι το γεγονός ότι το μέγεθος τους είναι ανεξάρτητο από το μέγεθος της βάσης δεδομένων και έτσι μπορούν να χρησιμοποιηθούν με επιτυχία σε μεγάλες βάσεις δεδομένω. Επίσης, είναι δυνατό να κατασκευάσουμε δένδρα για δεδομένα με μεγάλο αριθμό χαρακτηριστικών εισόδου και εξόδου. Στην περίπτωση αυτή, όμως, παρουσιάζουν μεγαλύτερη πολυπλοκότητα στη δομή με αποτέλεσμα να μην μπορούν να χρησιμοποιηθούν με εποπτικό τρόπο. Ένα ακόμα πλεονέκτημα είναι ότι τα λάθη στις τιμές ή τα ελλιπή δεδομένα δεν επηρρεάζουν ουσιαστικά την ανάπτυξη του δένδρου. Το βασικό τους μειονέκτημα είναι ότι παρουσιάζουν μεγάλη εξάρτηση από τα χρησιμοποιούμενα δεδομένα εκπαίδευσης, με αποτέλεσμα ακόμα και μια μικρή διαφοροποίηση στο υποσύνολο δειγμάτων εκπαίδευσης να μπορεί να συνεπάγεται την ανάπτυξη τελείως διαφορετικών παραλλαγών στη δομή του δένδρου. Εμφανίζεται, δηλαδή, το φαινόμενο της υπερπροσαρμογής στα δεδομένα εκπαίδευσης. Επιπλέον, χαρακτηρίζονται δύσχρηστα στις περιπτώσεις όπου κάποια από τα χαρακτηριστικά εκπαίδευσης είναι συνεχή δεδομένα, γιατί οδηγούν στη δημιουργία σύνθετων δενδρικών δομών που προκύπτουν από δυαδικές διαιρέσεις των αριθμητικών δεδομένων. Τέλος, τα δένδρα απόφασης δε λαμβάνουν υπόψη τις πιθανές συσχετίσεις που υπάρχουν μεταξύ των χαρακτηριστικών. Οι βασικοί αλγόριθμοι που χρησιμοποιούνται για την υλοποίηση δένδρων αποφάσεων είναι ο αλγόριθμος ID3, ο οποίος αποτελεί τη βάση των περισσότερων αλγορίθμων πάνω στα δένδρα αποφάσεων, καθώς και οι εξελίξεις αυτού, ο C4.5 και C5.0. [2], [8], [9], [11] 63

64 Αλγόριθμος ID3 Η βασική ιδέα του αλγόριθμου ID3 είναι να ελαχιστοποιήσει τον αριθμό των συγκρίσεων. Αυτό το επιτυγχάνει επιλέγοντας χαρακτηριστικά διάσπασης που διαχωρίζουν όσο γίνεται πιο αποδοτικά τα δεδομένα εισόδου. Το κριτήριο που χρησιμοποιεί για την επιλογή αυτών των χαρακτηριστικών είναι το κέρδος πληροφορίας (gain), μια μετρική από τον κλάδο της Θεωρίας Πληροφοριών. Το κέρδος πληροφορίας μετρά τη μείωση της εντροπίας (entropy) που θα προκληθεί αν χωριστεί το σύνολο δεδομένων με βάση κάποιο χαρακτηριστικό. Η εντροπία είναι μια έννοια που προέρχεται επίσης από τον κλάδο της Θεωρίας Πληροφοριών και μετρά την ομογένεια των δεδομένων σε έναν κόμβο. Το μέτρο της παίρνει τιμές στο διάστημα [0,1]. Όταν η εντροπία είναι κοντά στο μηδέν, αυτό συνεπάγεται την ύπαρξη τάξης στα δεδομένα, ενώ όταν προσεγγίζει τη μονάδα το αντίστροφο. Συγκεκριμένα, παίρνει την τιμή 0, όταν όλες οι εγγραφές στον κόμβο ανήκουν σε μία κλάση και την τιμή 1, όταν οι εγγραφές στον κόμβο έχουν την ίδια κατανομή για όλες τις κλάσεις. Η εντροπία σε έναν κόμβο t δίνεται από τη σχέση: Entropy(t) = p(j t)logp(j t) j (5.3.1) όπου p(j t) είναι η σχετική συχνότητα της κλάσης j στον κόμβο t Το κέρδος πληροφορίας δίνεται από τη σχέση: Gain = Entropy(p) i=1 Entropy(i) (5.3.2) όπου k ο αριθμός των τμημάτων στα οποία διαχωρίζεται ο κόμβος p, n i ο αριθμός των εγγραφών στο τμήμα i και n ο συνολικός αριθμός των εγγραφών. Ο πρώτος όρος της διαφοράς είναι η εντροπία του συνόλου δεδομένων, ενώ ο δεύτερος όρος αποτελείται από το άθροισμα της εντροπίας για το κάθε σύνολο που προκύπτει μετά το διαχωρισμό. Τελικά, επιλέγεται ο διαχωρισμός που μεγιστοποιεί το κέρδος πληροφορίας. Για την κατασκευή του δέντρου, η διαδικασία συνεχίζεται διαδοχικά με επαναληπτική εισαγωγή κόμβων βασιζόμενη στο κέρδος πληροφορίας. Στο τέλος, το μοντέλο ολοκληρώνεται με την τοποθέτηση των κόμβων-φύλλα του δένδρου, στους οποίους και τελικά γίνεται η ταξινόμηση των δεδομένων στις κλάσεις εξόδου. k n i n 64

65 Αλγόριθμος C4.5 Ο Αλγόριθμος C4.5 βελτιώνει τον ID3 με διάφορους τρόπους. Αρχικά, ο ID3 προτιμά διαχωρισμούς που οδηγούν σε πολλά μικρά, αλλά καθαρά τμήματα. Αυτό, όμως, μπορεί να οδηγήσει σε υπερπροσαρμογή. Ο C4.5 αντισταθμίζει αυτό το μειονέκτημα, χρησιμοποιώντας ως κριτήριο διαχωρισμού το GainRatio αντί του Gain. GainRatio = Gain SplitINFO (5.3.3) k SplitINFO = log n i i=1 (5.3.4) n n Το GainRatio κανονικοποιεί το κέρδος πληροφορίας ως προς την εντροπία διαχωρισμού SplitINFO. Η υψηλή εντροπία διαχωρισμού, που συνεπάγεται μεγάλο αριθμό μικρών τμημάτων, τιμωρείται. Έτσι o αλγόριθμος κλίνει προς διασπάσεις όπου το μέγεθος του ενός υποσυνόλου είναι πιο κοντά σε αυτό του αρχικού. Επίσης, ο C4.5 χρησιμοποιεί δύο σημαντικές στρατηγικές κλαδέματος: n i αντικατάσταση του υποδένδρου (subtree replacement): ένα υποδένδρο αντικαθιστάται από ένα φύλλο, αν αυτή η αντικατάσταση έχει ως αποτέλεσμα σφάλμα κοντά σε αυτό του αρχικού υποδένδρου. Η τεχνική αυτή εφαρμόζεται ξεκινώντας από τα φύλλα και ανεβαίνοντας προς τη ρίζα. ανύψωση υποδένδρου (subtree raising): αντικαθιστά ένα υποδένδρο με το περισσότερο χρησιμοποιούμενο υποδένδρο του. Έτσι, ένα υποδένδρο ανυψώνεται αφού αντικαθιστά ένα υποδένδρο που βρίσκεται σε ψηλότερο επίπεδο. Τέλος, ο Αλγόριθμος C4.5 δεν επηρρεάζεται από ελλιπή δεδομένα, καθώς κατά τον υπολογισμό του κέρδους λαμβάνονται υπόψη μόνο οι εγγραφές που έχουν τιμή και επίσης, μπορεί να χειριστεί συνεχή δεδομένα χωρίζοντάς τα σε διαστήματα. 65

66 5.4 Μηχανές Διανυσματικής Στήριξης (Support Vector Machines - SVM) Οι Μηχανές Διανυσματικής Στήριξης αποτελούν μεθόδους καθοδηγούμενης μάθησης που συνδυάζουν στοιχεία γραμμικών μοντέλων και μάθησης βασισμένης στα στιγμιότυπα. Η βασική λογική της μεθόδου είναι η επιλογή ενός μικρού αριθμού στιγμιότυπων εκπαίδευσης από κάθε κλάση, των διανυσμάτων στήριξης (support vectors), που συνορεύουν στο χώρο του προβλήματος, με σκοπό την κατασκευή μιας γραμμικής συνάρτησης διάκρισης, ικανής να τα διαχωρίσει όσο το δυνατόν περισσότερο. Διακρίνουμε δύο περιπτώσεις προβλημάτων, κατά τις οποίες η μέθοδος διαφοροποιείται: την περίπτωση των γραμμικά διαχωρίσιμων κλάσεων και την περίπτωση των μη γραμμικά διαχωρίσιμων. Γραμμικά διαχωρίσιμες κλάσεις Έστω ότι τα δεδομένα του συνόλου εκπαίδευσης ανήκουν σε δύο κλάσεις, για τις οποίες υποθέτουμε ότι είναι γραμμικά διαχωρίσιμες. Ο στόχος του αλγορίθμου είναι να βρεθεί ένα γραμμικό υπερεπίπεδο (σύνορο απόφασης), το οποίο θα διαχωρίζει τα δεδομένα. Όπως φαίνεται, όμως, και στο παρακάτω σχήμα, ένα τέτοιο υπερεπίπεδο δεν είναι μοναδικό. Εικόνα Διαφορετικές γραμμές απόφασης για το διαχωρισμό γραμμικά διαχωρίσιμων κλάσεων Η τελική επιλογή του υπερεπιπέδου ταξινόμησης είναι αυτή που μεγιστοποιεί το περιθώριο (margin), ανάμεσα στις δύο κλάσεις. Ας δούμε αναλυτικά πώς γίνεται αυτή η επιλογή. Έστω ότι έχουμε ένα σύνολο δεδομένων εκπαίδευσης D = (x i,y i ), i = 1,2,,N 66

67 όπου x i είναι τα διανύσματα χαρακτηριστικών και το y i παίρνει τις τιμές 1 ή -1, ανάλογα με την κλάση στην οποία ανήκει το x i. Θέλουμε να βρούμε το υπερεπίπεδο που διαχωρίζει τα σημεία που έχουν y i = 1 από αυτά με y i = -1. Το υπερεπίπεδο αυτό μπορεί να γραφεί ως εξής: wx + b = 0 (5.4.1) όπου το w είναι το κάθετο διάνυσμα στο υπερεπίπεδο. Αν τα δεδομένα εκπαίδευσης είναι γραμμικά διαχωρίσιμα, μπορούμε να επιλέξουμε δύο υπερεπίπεδα, έτσι ώστε να χωρίζουν τα δεδομένα χωρίς να υπάρχουν σημεία μεταξύ τους και στη συνέχεια να μεγιστοποιήσουμε την απόστασή τους, δηλαδή το περιθώριο. Αυτά τα υπερεπίπεδα μπορούν να γραφούν ως εξής: wx + b = 1 (5.4.2) wx + b = -1 (5.4.3) Με χρήση της γεωμετρίας βρίσκουμε ότι η απόσταση μεταξύ των δύο υπερεπιπέδων είναι 2 w w 2. Άρα θέλουμε να ελαχιστοποιήσουμε το w ή ισοδύναμα το L(w)=. Επίσης, επειδή θέλουμε να μην υπάρχουν σημεία μεταξύ του περιθωρίου, έχουμε τους παρακάτω περιορισμούς: wx i + b 1, για τα x i της πρώτης κλάσης (5.4.4) wx i + b -1, για τα x i της δεύτερης κλάσης (5.4.5) 2 Εικόνα Βέλτιστη επιλογή υπερεπιπέδου που μεγιστοποιεί το περιθώριο (margin) 67

68 Έχουμε, επομένως, να αντιμετωπίσουμε ένα πρόβλημα βελτιστοποίησης υπό περιορισμούς, το οποίο επιλύεται με αριθμητικές μεθόδους. Η λύση έχει τη μορφή w= i=1 λ i y i x i (5.4.6) N όπου λ i οι πολλαπλασιαστές Lagrange. Για κάθε μη μηδενικό λ i, το αντίστοιχο x i είναι διάνυσμα στήριξης. Άρα, βλέπουμε ότι τα διανύσματα στήριξης βρίσκονται σε ένα από τα δύο υπερεπίπεδα. Μη γραμμικά διαχωρίσιμες κλάσεις Όταν οι κλάσεις δεν είναι διαχωρίσιμες, όπως στο παρακάτω σχήμα, τα παραπάνω δεν είναι πλέον έγκυρα. Κάθε προσπάθεια να σχεδιαστεί ένα υπερεπίπεδο δεν θα καταλήξει ποτέ σε μία ζώνη διαχωρισμού κλάσεων χωρίς σημεία στο εσωτερικό της, όπως συνέβαινε στην περίπτωση των γραμμικά διαχωρίσιμων κλάσεων. Εικόνα Μη γραμμικά διαχωρίσιμες κλάσεις Μπορούμε να ξεπεράσουμε το πρόβλημα αυτό εισάγοντας ένα νέο σύνολο μεταβλητών ξ i στις ανισότητες, που ονομάζονται μεταβλητές χαλαρότητας. Επομένως, οι περιορισμοί αποκτούν την παρακάτω μορφή: wx i + b 1 - ξ i, για τα x i της πρώτης κλάσης (5.4.7) 68

69 wx i + b -1 + ξ i, για τα x i της δεύτερης κλάσης (5.4.8) Eνώ η συνάρτηση που πρέπει να ελαχιστοποιηθεί είναι η εξής: L(w) = w 2 2 N + C i=1 ξ i (5.4.9) Η παράμετρος C είναι μια θετική σταθερά που καθορίζει την αντιστάθμιση μεταξύ της μεγιστοποίησης του ορίου ταξινόμησης και της ανοχής σε λάθος ταξινομημένα δεδομένα και μπορεί να χρησιμοποιηθεί για τον έλεγχο της υπερεκπαίδευσης. Εικόνα Εισαγωγή μεταβλητών χαλαρότητας Παρόλα αυτά, με τη μέθοδο των μεταβλητών χαλαρότητας δεν μπορεί να γίνει γραμμικός διαχωρισμός χωρίς λάθη. Ο βέλτιστος διαχωρισμός σε μη γραμμικά προβλήματα μπορεί να επιτευχθεί με τα μη γραμμικά SVM. Η γενική ιδέα των μη γραμμικών SVM είναι ο μετασχηματισμός των δεδομένων εκπαίδευσης σε ένα χώρο υψηλότερης διάστασης, ούτως ώστε να είναι εφικτός ο διαχωρισμός τους. Ο μετασχηματισμός αυτός γίνεται μέσω των συναρτήσεων πυρήνα (kernel). Οι κυριότερες συναρτήσεις πυρήνα που συναντάμε πιο συχνά είναι: Πολυωνυμική: (x T y + 1) d Γκαουσιανή RBF: e x y 2 2σ 2 Σιγμοειδής: tan(ax T y + θ) 69

70 Εικόνα Μετασχηματισμός των δεδομένων σε χώρο υψηλότερης διάστασης για το γραμμικό διαχωρισμό τους Παραπάνω ασχοληθήκαμε μόνο με το πρόβλημα της ταξινόμησης δύο κλάσεων. Αν έχουμε περισσότερες κλάσεις ταξινόμησης, χρησιμοποιούνται διάφορες τεχνικές που ανάγουν το πρόβλημα των Μ κλάσεων σε πολλαπλά προβλήματα δυαδικής ταξινόμησης. [2], [9], [11] 5.5 Τεχνητά Νευρωνικά Δίκτυα (Artificial Neural Networks - ANN) Όπως δηλώνει το όνομά τους, τα Τεχνητά Νευρωνικά Δίκτυα προσπαθούν να προσομοιώσουν το νευρικό σύστημα του ανθρώπου και να μιμηθούν τον τρόπο λειτουργίας του εγκεφάλου. Η δομή τους αποτελείται από ένα σύνολο συνδεμένων κόμβων, τους νευρώνες, οι οποίοι διαθέτουν προσαρμοζόμενες παραμέτρους και είναι ικανοί να εκπαιδεύονται με την εισαγωγή νέων δεδομένων στο δίκτυο και την ανταλλαγή πληροφοριών μεταξύ τους. Συγκεκριμένα, υπάρχουν τρία είδη νευρώνων: οι νευρώνες εισόδου, οι νευρώνες εξόδου και οι υπολογιστικοί ή κρυφοί νευρώνες. Οι νευρώνες ομαδοποιούνται σε επίπεδα (layers), έτσι ώστε να υπάρχει μεγάλος βαθμός παραλληλίας στην επεξεργασία. Οι νευρώνες εισόδου και εξόδου περιέχονται στα αντίστοιχα επίπεδα εισόδου και εξόδου, ενώ οι κρυφοί νευρώνες βρίσκονται σε ένα ή περισσότερα κρυφά ενδιάμεσα επίπεδα. Οι συνάψεις μεταξύ των νευρώνων κάθε επιπέδου χαρακτηρίζονται από βάρη, τα οποία δηλώνουν πόσο ισχυρή είναι η αλληλεπίδρασή τους. Οι νευρώνες εισόδου δέχονται τις τιμές των χαρακτηριστικών εισόδου και απλά τις μεταβιβάζουν στο επόμενο επίπεδο. Στους κρυφούς νευρώνες αθροίζονται οι τιμές του προηγούμενου επιπέδου, αφού πρώτα πολλαπλασιαστούν με τα αντίστοιχα βάρη και το αποτέλεσμα αποτελεί το όρισμα μιας κατάλληλης συνάρτησης ενεργοποίησης. Οι συναρτήσεις ενεργοποίησης μπορεί να 70

71 είναι αυστηρού κατωφλίου (είτε ενεργοποιείται, είτε όχι), γραμμικές ή σιγμοειδείς συναρτήσεις (π.χ. λογιστική συνάρτηση ή υπερβολική εφαπτομένη). Οι νευρώνες εξόδου αντιστοιχούν στα χαρακτηριστικά εξόδου του μοντέλου και παρέχουν την πιθανότητα να αντιστοιχεί η εγγραφή στην αντίστοιχη κλάση. Η εγγραφή θα εκχωρηθεί τελικά στην κλάση με τη μεγαλύτερη πιθανότητα. Εικόνα Δομή τεχνητού νευρωνικού δικτύου Η λειτουργία του δικτύου μπορεί να διακριθεί σε δύο στάδια, το στάδιο της εκπαίδευσης και το στάδιο λειτουργίας. Η εκπαίδευση του δικτύου ουσιαστικά συνίσταται στην προσαρμογή των βαρών των συνάψεων βάσει της απόδοσης στην κατηγοριοποίηση. Η πιο γνωστή διαδικασία εκπαίδευσης νευρωνικών δικτύων είναι γνωστή ως εκπαίδευση με οπισθοδιάδοση (back propagation), κατά την οποία, για κάθε δείγμα εκπαίδευσης γίνεται σύγκριση της γνωστής εξόδου με αυτή που προκύπτει από το δίκτυο. Οποιαδήποτε απόκλιση προκύψει μεταδίδεται προς τα πίσω, δηλαδή από τους νευρώνες εξόδου προς τους νευρώνες εισόδου, τροποποιώντας τα βάρη των συνάψεων. Η ταχύτητα με την οποία τροποποιούνται τα βάρη καθορίζεται από μία παράμετρο που καλείται ρυθμός εκπαίδευσης (learning rate). Όσο μεγαλύτερη είναι η τιμή του ρυθμού εκπαίδευσης, τόσο πιο γρήγορα εκπαιδεύεται το νευρωνικό δίκτυο, ενώ για μικρότερες τιμές επιτυγχάνεται μεγαλύτερη ακρίβεια. Είναι επιθυμητό σε κάθε επανάληψη το σφάλμα της κατηγοριοποίησης να μειώνεται, αυτό όμως δε γίνεται πάντα. Η διαδικασία αυτή συνεχίζεται μέχρι να τελειώσουν τα δεδομένα εκπαίδευσης ή μετά από έναν προκαθορισμένο αριθμό επαναλήψεων ή μετά από ένα πεπερασμένο χρονικό διάστημα ή όταν επιτευχθεί ένα ανεκτό ποσοστό σφάλματος. Στο στάδιο λειτουργίας του δικτύου, τα βάρη παραμένουν αμετάβλητα και το δίκτυο πλέον χρησιμοποιείται για την ταξινόμηση άγνωστων δεδομένων εισόδου. 71

72 Η πιο απλή μορφή νευρωνικού δικτύου είναι το Perceptron. Το Perceptron αποτελείται από πολλαπλές εισόδους και μία έξοδο, χωρίς ενδιάμεσο κρυφό επίπεδο. Ένα απλό Perceptron μπορεί να χρησιμοποιηθεί για τη λύση προβλημάτων κατηγοριοποίησης δύο κλάσεων. Συναρτήσεις που δεν είναι γραμμικά διαχωρίσιμες δεν μπορούν να αναπαρασταθούν με ένα Perceptron. Για την επίλυση μη γραμμικά διαχωρίσιμων προβλημάτων κατηγοριοποίησης χρησιμοποιούμε τα Perceptron πολλαπλών επιπέδων (Multilayer Perceptron - MLP), τα οποία περιέχουν τουλάχιστον ένα κρυφό επίπεδο με μη γραμμικούς νευρώνες. Έχει αποδειχθεί θεωρητικά ότι ένα MLP με ένα κρυφό επίπεδο μπορεί να προσεγγίσει με μεγάλη ακρίβεια οποιαδήποτε συνάρτηση, αυξάνοντας αναλόγως των αριθμό των νευρώνων στο κρυφό επίπεδο. Εικόνα Απλό Perceptron Το κύριο πλεονέκτημα των νευρωνικών δικτύων είναι ότι βελτιώνουν την απόδοσή τους με τη μάθηση. Αυτό, μάλιστα, μπορεί να συνεχιστεί και μετά την εφαρμογή του συνόλου εκπαίδευσης. Επίσης, τα νευρωνικά δίκτυα μπορούν να μοντελοποιήσουν πολυσύνθετα προβλήματα κατηγοριοποίησης με μεγάλο αριθμό μεταβλητών εισόδου και εξόδου. Ακόμα, δεν επηρρεάζεται η απόδοσής τους από εσφαλμένες τιμές ή ελλιπή δεδομένα. Τέλος, είναι εύρωστα σε περιβάλλοντα όπου υπάρχει θόρυβος. Το βασικό τους μειονέκτημα είναι οι αυξημένες υπολογιστικές απαιτήσεις που τα καθιστούν ακατάλληλα για χρήση σε πραγματικό χρόνο. Επίσης, λόγω της πολύπλοκης δομής τους, είναι δύσκολα στην κατανόηση από το χρήστη. [2], [8], [9], [11] 72

73 5.6 Λογιστική Παλινδρόμηση Η λογιστική ή λογαριθμική παλινδρόμηση είναι μια τεχνική κατηγοριοποίησης που βασίζεται στη στατιστική, η οποία μοντελοποιεί μια εξαρτημένη μεταβλητή εξόδου ως γραμμικό συνδυασμό των ανεξάρτητων μεταβλητών εισόδου. Συγκεκριμένα, δέχεται ένα σύνολο δεδομένων εισόδου και τα ταιριάζει στην παρακάτω εξίσωση, γνωστή ως λογιστική συνάρτηση: Υ = 1 (5.6.1) 1+ e (a+bx) όπου Υ είναι τα χαρακτηριστικά εξόδου, Χ τα χαρακτηριστικά εισόδου, ενώ οι συντελεστές α και b προσδιορίζονται κατά την εκπαίδευση του μοντέλου από τα γνωστά ζεύγη τιμών (Χ,Υ). Η λογιστική συνάρτηση μπορεί να δεχτεί σαν είσοδο οποιαδήποτε πραγματική τιμή και να δώσει σαν έξοδο κάποια τιμή στο διάστημα [0,1]. Με βάση αυτή την ιδιότητα, η τιμή της εξόδου μπορεί να συσχετιστεί με τη δεσμευμένη πιθανότητα του μετρούμενου χαρακτηριστικού. Αφού, λοιπόν, προσδιοριστούν οι συντελεστές παλινδρόμησης α και b, η εξίσωση μπορεί να χρησιμοποιηθεί για την πρόβλεψη της εξόδου Υ από μία είσοδο Χ. Στο παρακάτω σχήμα φαίνεται ο τρόπος με τον οποίο η λογιστική συνάρτηση παρεμβάλλεται ανάμεσα στα δεδομένα εκπαίδευσης. [9] Εικόνα Προσέγγιση των δεδομένων εκπαίδευσης με χρήση λογιστικής παλινδρόμησης 73

74 Κεφάλαιο 6 Αξιολόγηση Μοντέλων Μηχανικής Μάθησης Για την αξιολόγηση και σύγκριση της κατηγοριοποίησης που επιτυγχάνεται μέσω των αλγορίθμων στα μοντέλα καθοδηγούμενης εκμάθησης έχουν αναπτυχθεί διάφορες μετρικές αξιολόγησης, μερικές από τις οποίες παρουσιάζονται στο παρόν κεφάλαιο. 6.1 Συνολική απόδοση κατηγοριοποίησης Η πιο συνηθισμένη μετρική αξιολόγησης που υιοθετείται σε προβλήματα αναγνώρισης προτύπων είναι η συνολική απόδοση κατηγοριοποίησης ή αναγνώρισης (performance rate PR), η οποία προσδιορίζεται από το λόγο του αριθμού των δειγμάτων που ταξινομήθηκαν ορθά προς το συνολικό αριθμό των δεδομένων εισόδου του μοντέλου. Ο τύπος υπολογισμού της συνολικής απόδοσης κατηγοριοποίησης είναι: PR(%) = N CCS N 100 (6.1.1) όπου PR είναι η συνολική απόδοση κατηγοριοποίησης, Ν CCS ο αριθμός των ορθά ταξινομημένων δειγμάτων (correctly classified samples CCS) και Ν ο συνολικός αριθμός των δειγμάτων εισόδου. [9] 6.2 Ακρίβεια και ανάκληση (Precision and recall) Στην αναγνώριση προτύπων και ανάκτηση πληροφορίας, η ακρίβεια (precision) είναι το ποσοστό των ανακτημένων στιγμιότυπων που είναι συναφή και η ανάκληση (recall) το ποσοστό των συναφών στιγμιότυπων που ανακτώνται. Δηλαδή, η ακρίβεια εκφράζει την ικανότητα ανάκτησης μόνο συναφών στιγμιότυπων, ενώ η ανάκληση την ικανότητα εύρεσης όλων των συναφών στιγμότυπων της συλλογής. Επομένως, ακρίβεια ίση με 1 σημαίνει ότι όσα στιγμιότυπα 74

75 ανακτώνται είναι συναφή, ενώ ανάκληση ίση με 1 σημαίνει ότι ανακτώνται όλα τα συναφή στιγμιότυπα. Σε ένα πρόβλημα ταξινόμησης, η συνάφεια ενός ανακτημένου στιγμιότυπου σημαίνει την ορθή του κατηγοριοποίηση. Η ακρίβεια για μία κλάση ορίζεται ως ο αριθμός των ορθών θετικών ( true positives TP), δηλαδή των στιγμιότυπων που ορθά ταξινομήθηκαν στη συγκεκριμένη κλάση, προς το συνολικό αριθμό των στιγμιότυπων που ταξινομήθηκαν σε αυτή την κλάση, δηλαδή το άθροισμα των ορθών θετικών και των εσφαλμένων θετικών ( false positives FP). Σε αυτό το πλαίσιο, η ανάκληση ορίζεται ως ο αριθμός των ορθών θετικών προς το συνολικό αριθμό των στιγμιότυπων που ανήκουν όντως σε αυτή την κλάση, δηλαδή το άθροισμα των ορθών θετικών και των εσφαλμένων αρνητικών (false negatives FN), που είναι τα στιγμιότυπα που δεν ταξινομήθηκαν σε αυτή την κλάση ενώ θα έπρεπε. Για λόγους πληρότητας, αναφέρουμε ότι ως ορθά αρνητικά ( true negatives TN) χαρακτηρίζονται τα στιγμιότυπα που δεν ταξινομήθηκαν στη συγκεκριμένη κλάση και όντως δεν ανήκουν σε αυτή.[30] Precision = TP TP+FP (6.3.1) Recall = TP TP+FN (6.3.2) Εικόνα Ακρίβεια και ανάκληση 75

76 6.3 F-Measure Συχνά, υπάρχει μια αντίστροφη σχέση αναλογίας ανάμεσα στην ακρίβεια και την ανάκληση, με την έννοια ότι μπορούμε να αυξήσουμε το ένα μέτρο μειώνοντας το άλλο. Στην πράξη, επομένως γίνεται ένας συμβιβασμός ανάλογα με το πρόβλημα που εξετάζεται. Προκειμένου να συνδύασουμε και τις δύο μετρικές σε ένα μέτρο, χρησιμοποιούμε το F-measure που αποτελεί τον αρμονικό μέσο της ακρίβειας και της ανάκλησης. Χρησιμοποιείται ο αρμονικός και όχι ο αριθμητικός μέσος, γιατί για να πάρουμε υψηλή τιμή του αρμονικού μέσου χρειαζόμαστε υψηλή ακρίβεια και ταυτόχρονα υψηλή ανάκληση. Το F-measure θεωρεί ότι τόσο η ακρίβεια όσο και η ανάκληση έχουν την ίδια βαρύτητα για την αποτίμηση της αποτελεσματικότητας. [30] F measure = 2 1 Recall + 1 Precision (6.4.1) 6.4 Μήτρα σύγχυσης (Confusion matrix) Η μήτρα σύγχυσης (confusion matrix) είναι μια ειδική μορφή πίνακα που επιτρέπει την οπτικοποίηση της απόδοσης ενός αλγορίθμου καθοδηγούμενης εκμάθησης. Το όνομά του οφείλεται στο γεγονός ότι, μέσω του πίνακα είναι εύκολο να παρατηρήσει κανείς αν ο αλγόριθμος συγχέει δύο κλάσεις μεταξύ τους. Στον πίνακα αυτό, οι οριζόντιες γραμμές αντιπροσωπεύουν τις πραγματικές κατηγορίες των δεδομένων, ενώ οι στήλες τις κατηγορίες στις οποίες ταξινομούνται τα δεδομένα από τον αλγόριθμο. Η κύρια διαγώνιος περιλαμβάνει τους αριθμούς των δεδομένων που κατηγοριοποιήθηκαν ορθά σε κάθε κλάση, ενώ τα υπόλοιπα στοιχεία εκατέρωθεν της κυρίας διαγωνίου αντιπροσωπεύουν τα σφάλματα ταξινόμησης. Αν το άθροισμα των τιμών της κυρίας διαγωνίου διαιρεθεί με το συνολικό αριθμό δεδομένων, προκύπτει η συνολική απόδοση κατηγοριοποίησης του μοντέλου. Η μερική απόδοση κατηγοριοποίησης για μία κλάση προκύπτει διαιρώντας την τιμή της κυρίας διαγωνίου με τον αντίστοιχο αριθμό δειγμάτων της κλάσης, που ισούται με το άθροισμα των τιμών της οριζόντιας γραμμής. [9] 76

77 Ερευνητικό Πειραματικό Μέρος 77

78 Κεφάλαιο 7 Παρουσίαση της Διαδικασίας 7.1 Γενικά Η τυπική διαδικασία αντιμετώπισης ενός προβλήματος αναγνώρισης προτύπων περιγράφηκε στο κεφάλαιο 2. Παρακάτω επαναλαμβάνεται το σχήμα που παρουσιάζει τα στάδια της γενικής διαδικασίας. Στη συνέχεια του κεφαλαίου, περιγράφονται αναλυτικά τα βήματα που ακολουθήθηκαν στην παρούσα εργασία για την αντιμετώπιση του προβλήματος της αναγνώρισης περιβαλλοντικών ήχων σε μια προσπάθεια να προσαρμοστεί ο γενικός τρόπος αντιμετώπισης στο συγκεκριμένο πρόβλημα. πρότυπα εξαγωγή χαρακτηριστικών επιλογή χαρακτηριστικών σχεδίαση ταξινομητή αξιολόγηση συστήματος Εικόνα Γενικά στάδια σχεδίασης ενός συστήματος ταξινόμησης 78

79 7.2 Δημιουργία βιβλιοθήκης περιβαλλοντικών ήχων Διαμόρφωση κλάσεων Το πρώτο στάδιο της διαδικασίας που ακολουθήθηκε αφορά τη δημιουργία μιας βιβλιοθήκης περιβαλλοντικών ήχων. Όπως αναφέρθηκε και στην εισαγωγή, σε αντίθεση με τα πεδία της αναγνώρισης ομιλίας και της ανάκτησης μουσικής πληροφορίας, για την αναγνώριση των περιβαλλοντικών ήχων δεν υπάρχει κάποια καθορισμένη βάση δεδομένων αληθείας για την εκτέλεση των πειραμάτων. Κατά συνέπεια, η σύγκριση των αποτελεσμάτων μεταξύ των διαφόρων ερευνών πάνω στην αναγνώριση περιβαλλοντικών ήχων δεν είναι εφικτή. Επομένως, μία βασική επιδίωξη της εργασίας είναι η χρησιμοποίηση της παρούσας βιβλιοθήκης και από άλλους ερευνητές για την εκτέλεση πειραμάτων ή και για την επέκτασή της με επιπλέον δείγματα ήχου. Για το λόγο αυτό διατίθεται στην ηλεκτρονική διεύθυνση: folder/f8rcwvf7tcxx7/esr_library Για τη δημιουργία της βιβλιοθήκης συλλέχθηκαν αρχεία ήχου από τις βιβλιοθήκες BBC Complete Sound Effects Library και Sony Pictures Sound Effects Series και από τον ιστότοπο Αποτελείται από 120 δείγματα ήχων, διάρκειας 10 δευτερολέπτων το καθένα με τις εξής ετικέτες: airplanes (αεροπλάνα), alarms (συναγερμοί), applause (χειροκροτήματα), birds (πτηνά), dogs (σκυλιά), footsteps (βήματα), motorcycles (μοτοσικλέτες), rain (βροχή), rivers (ποτάμια), sea waves (κύματα θάλασσας), thunders (κεραυνοί), wind (άνεμος). Η επιλογή των συγκεκριμένων κλάσεων βασίστηκε στη συχνή εμφάνισή τους στη βιβλιογραφία σε προβλήματα ταξινόμησης περιβαλλοντικών ήχων. Σε καθεμία από τις 12 κατηγορίες-κλάσεις αντιστοιχούν 10 δείγματα ήχου, είναι δηλαδή ισομερώς μοιρασμένα με στόχο την καλύτερη εκπαίδευση και γενίκευση του μοντέλου κατηγοριοποίησης που πρόκειται να κατασκευαστεί. Ο τύπος των αρχείων είναι WAV με συχνότητα δειγματοληψίας khz και ανάλυση 16 bit. Για τη διευκόλυνση της διαδικασίας εξαγωγής ηχητικών χαρακτηριστικών από τα δείγματα, έγινε επίσης η μετατροπή τους από στερεοφωνικά σε μονοφωνικά. 7.3 Εξαγωγή ηχητικών χαρακτηριστικών και επισημείωση δειγμάτων Όπως αναφέρθηκε, η φάση της εξαγωγής ηχητικών χαρακτηριστικών (audio feature extraction) αποτελείται από τη μετατροπή του ακουστικού σήματος σε μια σειρά διανυσμάτων 79

80 μικρών διαστάσεων, καθένα από τα οποία συνοψίζει ένα τμήμα του σήματος. Στόχος είναι τα χαρακτηριστικά αυτά να αντιπροσωπεύουν όλες τις πληροφορίες που είναι σχετικές με την εφαρμογή της ταξινόμησης και να απορρίπτουν τις περιττές πληροφορίες. Τα χαρακτηριστικά που εξήχθησαν από τα δείγματα ήχου της βιβλιοθήκης ήχων παρουσιάστηκαν στο κεφάλαιο 4. Για την εξαγωγή τους χρησιμοποιήθηκαν τα εργαλεία λογισμικού Marsyas, jaudio, Sonic Visualiser και το πακέτο MIRtoolbox του Matlab. Κάθε ένα από αυτά εξάγει ένα συγκεκριμένο σύνολο χαρακτηριστικών και προκειμένου να έχουμε ένα μεγάλο σύνολο διαφορετικών χαρακτηριστικών χρησιμοποιήθηκαν και τα τέσσερα εργαλεία. Το Sonic Visualiser, συγκεκριμένα, δέχεται ως επεκτάσεις (plug-ins) έτοιμες βιβλιοθήκες συναρτήσεων εξαγωγής χαρακτηριστικών. Στα πλαίσια της παρούσας εργασίας χρησιμοποιήθηκαν οι βιβλιοθήκες Libxtract και MIR.EDU. Παρακάτω παρουσιάζονται τα χαρακτηριστικά που εξήχθησαν από κάθε εργαλείο: 1. Marsyas: ZCR, Spectral Centroid, Spectral Flux, Spectral Roll-off, Chroma(12), LPCC(12), Spectral Flatness Measure(12), Spectral Crest Factor(24) 2. jaudio: MFCC(13), Delta-MFCC(13), RMS, Relative Difference Function, Spectral Smoothness, Spectral Variability 3. Sonic Visualiser a) Libxtract: BFCC(26), Kurtosis, Skewness, Spectral Slope, Spectral Sharpness, Inharmonicity, Tristimulus I, Odd to Even Harmonic Ratio b) MIR.EDU: Spectral Kurtosis, Spectral Skewness, Spectral Spread 4. MIRtoolbox (Matlab): Brightness, Roughness, Irregularity Μετά την εξαγωγή των χαρακτηριστικών μέσω των εργαλείων σε αρχεία μορφής ARFF ή csv (comma separated values), ακολούθησε η ενοποίησή τους σε ένα τελικό αρχείο csv που περιέχει όλα τα χαρακτηριστικά. Η μορφή csv επιλέχθηκε για το λόγο ότι είναι η μορφή που χρησιμοποιείται ευρέως στα λογισμικά εξόρυξης γνώσης, ένα από τα οποία θα χρησιμοποιηθεί στη συνέχεια για την κατασκευή του μοντέλου κατηγοριοποίησης. Επίσης, κατά την ενοποίηση των αρχείων πραγματοποιήθηκε χειροκίνητα και η επισημείωση (annotation) των στιγμιοτύπων με την καταχώρηση ετικετών της κλάσης στην οποία ανήκουν, καθώς το jaudio και το Sonic Visualiser δεν υποστηρίζουν τη λειτουργία της αυτόματης επισημείωσης. Για την κατάτμηση των αρχείων ήχου σε μικρότερα πλαίσια και την εξαγωγή χαρακτηριστικών για κάθε πλαίσιο χωριστά επιλέχθηκαν παράθυρα Hann των δειγμάτων (samples) με επικάλυψη μεταξύ τους 50%. Καθώς η συχνότητα δειγματοληψίας είναι khz, προκύπτει ότι η διάρκεια κάθε παραθύρου είναι 32768/44100 = 0,743 sec. Επιλέχθηκε 80

81 μια σχετικά μεγάλη τιμή για τη διάρκεια του παραθύρου, καθώς οι περισσότεροι από τους ήχους της βιβλιοθήκης δεν παρουσιάζουν γρήγορες μεταβολές, σε αντίθεση για παράδειγμα με τα σήματα ομιλίας για τα οποία χρησιμοποιείται συνήθως παράθυρο των msec. Τελικά, με την επιλογή του συγκεκριμένου παραθύρου κάθε αρχείο των 10 δευτερολέπτων χωρίζεται σε 27 στιγμιότυπα, επομένως σε κάθε κλάση αντιστοιχούν 270 στιγμιότυπα. 7.4 Επιλογή χαρακτηριστικών (feature selection) Η συνήθης πρακτική που υιοθετείται σε μοντέλα ταξινόμησης μέσω καθοδηγούμενης εκπαίδευσης συνίσταται στην αρχική εξαγωγή ενός μεγάλου πλήθους χαρακτηριστικών και στη μετέπειτα επιλογή των πιο κατάλληλων αποδοτικών από αυτά μέσω τεχνικών αξιολόγησής τους. Στόχος είναι η μείωση των διαστάσεων του αρχικού διανύσματος χαρακτηριστικών, απορρίπτοντας χαρακτηριστικά που οι τιμές τους δε διαφοροποιούνται ανάλογα με την κλάση δεδομένων, καθώς και χαρακτηριστικά που εμφανίζουν γραμμική εξάρτηση με τα υπόλοιπα. Με τη μείωση των διαστάσεων αφενός μειώνονται οι υπολογιστικές απαιτήσεις με αποτέλεσμα οι εκπαιδεύσεις των μοντέλων να πραγματοποιούνται ταχύτερα, αφετέρου αναμένεται να επιτευχθούν υψηλότερα ποσοστά αναγνώρισης. Η επιλογή των χαρακτηριστικών που συνεισφέρουν περισσότερο στο διαχωρισμό των κλάσεων πραγματοποιήθηκε με τη χρήση δύο διαφορετικών εξειδικευμένων αλγορίθμων κατάταξης στο περιβάλλον λογισμικού ανοιχτού κώδικα WEKA. Η πρώτη τεχνική, InfoGainAttributeEval, βασίζεται στην αποτίμηση της σημασίας κάθε χαρακτηριστικού μέσω υπολογισμού του κέρδους πληροφορίας, στη βάση προσδιορισμού της αντίστοιχης εντροπίας πληροφορίας. Στη συνέχεια, τα χαρακτηριστικά κατατάσσονται με φθίνουσα σειρά, δηλαδή από το μεγαλύτερο προς το μικρότερο κέρδος πληροφορίας. Ο δεύτερος αλγόριθμος, OneRAttributeEval, παράγει για κάθε χαρακτηριστικό εισόδου ένα δένδρο απόφασης ενός επιπέδου και στη συνέχεια προσδιορίζει τον αριθμό των δειγμάτων που ταξινομούνται ορθά. Συνεπώς, πραγματοποιείται κατάταξη κατά φθίνουσα ιεραρχία με βάση τα μεγαλύτερα ποσοστά ορθής ταξινόμησης. Στον παρακάτω πίνακα φαίνονται τα πρώτα 30 χαρακτηριστικά με τη σειρά κατάταξης που επιλέχθηκαν από τους δύο αυτούς αλγορίθμους. Παρατηρούμε ότι και οι δύο αλγόριθμοι κατέληξαν στα ίδια σχεδόν χαρακτηριστικά με διαφορετική σειρά κατάταξης. 81

82 Σειρά κατάταξης InfoGainAttributeEval Αλγόριθμος αξιολόγησης 1 Brightness ZCR 2 ZCR SFM_12 3 SFM_12 MFCC_2 4 MFCC_1 Brightness 5 MFCC_2 LPCC_12 6 SFM_13 MFCC_1 7 Spectral Smoothness SFM_10 8 LPCC_12 LPCC_11 9 MFCC_3 LPCC_10 OneRAttributeEval 10 SFM_11 Spectral Smoothness 11 SFM_10 SFM_13 12 SFM_18 SFM_9 13 LPCC_10 LPCC_8 14 Spectral Spread Spectral Skewness 15 SCF_15 SCF_15 16 SFM_9 Spectral Centroid 17 SFM_7 SFM_11 18 SFM_19 LPCC_9 19 Spectral Centroid LPCC_6 20 Spectral Skewness SFM_19 21 LPCC_11 SFM_6 22 SFM_15 Spectral Roll-off 23 LPCC_8 MFCC_3 24 SFM_14 SFM_18 25 MFCC_0 SCF_10 26 SCF_17 SCF_12 27 Spectral Sharpness SFM_15 28 SFM_5 SFM_8 29 SFM_20 SCF_11 30 SFM_6 SCF_17 Πίνακας Κατάταξη των σημαντικότερων ηχητικών χαρακτηριστικών 82

83 Για την εύρεση γραμμικών συσχετίσεων μεταξύ των χαρακτηριστικών χρησιμοποιήθηκε αρχικά η επιλογή Visualize του WEKA που παρουσιάζει τα διαγράμματα διασποράς των τιμών με τις τιμές κάθε ζεύγους χαρακτηριστικών στους δύο άξονες. Στη συνέχεια, αφού εντοπίστηκαν μέσω εποπτικής παρατήρησης τα ζεύγη χαρακτηριστικών για τα οποία φαίνεται να υπάρχει γραμμική συσχέτιση, υπολογίστηκε ο συντελεστής συσχέτισης (Pearson Correlation Coefficient) για τα χαρακτηριστικά τα οποία εμφανίστηκαν σε υψηλή σειρά κατάταξης μέσω των αλγορίθμων αξιολόγησης. Ο συντελεστής συσχέτισης λαμβάνει τιμές από -1 έως 1, αναδεικνύοντας τη θετική ή αρνητική γραμμική εξάρτηση δύο χαρακτηριστικών. Για δύο χαρακτηριστικά που έχουν έντονη θετική συσχέτιση (συντελεστής συσχέτισης τείνει στο 1) ή έντονη αρνητική συσχέτιση (συντελεστής συσχέτισης τείνει στο -1), μόνο το ένα θα πρέπει να επιλεγεί ως χαρακτηριστικό εισόδου στο μοντέλο, καθώς η ταυτόχρονη χρησιμοποίησή τους θα επέφερε περιττό υπολογιστικό κόστος και φόρτο εργασίας [9]. Ο μαθηματικός τύπος του συντελεστή συσχέτισης για δύο χαρακτηριστικά x και y είναι ο εξής: r xy = n i=1(x i x )(y i y ) n i=1 (x i x ) 2 n i=1(y i y ) 2 (7.4.1) Σύμφωνα, λοιπόν, με την παραπάνω διαδικασία εντοπίστηκε αρχικά μέσω των διαγραμμάτων διασποράς πιθανή γραμμική συσχέτιση μεταξύ των χαρακτηριστικών MFCC_1 και Brightness, όπως φαίνεται παρακάτω: Εικόνα Συσχέτιση μεταξύ MFCC_1 και Brightness 83

84 Ακολούθως, υπολογίστηκε ο συντελεστής συσχέτισης μεταξύ των δύο χαρακτηριστικών: r = - 0,8866 Επομένως, λόγω της έντονης αρνητικής συσχέτισης, κατά το στάδιο επιλογής χαρακτηριστικών παραλείφθηκε το χαρακτηριστικό Brightness. Επίσης, προκειμένου το μοντέλο κατηγοριοποίησης να είναι ανεξάρτητο της έντασης της ηχογράφησης, παραλείφθηκαν τα χαρακτηριστικά MFCC_0, Delta-MFCC_0 και Root Mean Square, τα οποία σχετίζονται με την ενέργεια του σήματος. Τελικά, επιλέχθηκαν τέσσερα διαφορετικά σετ χαρακτηριστικών ως είσοδοι στους αλγορίθμους ταξινόμησης του επόμενου σταδίου, με πλήθος χαρακτηριστικών 142, 79, 43 και 29. Το σετ των 142 χαρακτηριστικών περιλαμβάνει όλα τα χαρακτηριστικά που εξήχθησαν, εκτός από αυτά που σχετίζονται με την ενέργεια του σήματος. Τα υπόλοιπα τρία παρουσιάζονται στους παρακάτω πίνακες: 79 features MFCC (12) LPCC (12) SFM (24) SCF (24) ZCR Spectral Centroid Spectral Spread Spectral Roll-off Spectral Skewness Spectral Sharpness Spectral Smoothness 43 features MFCC (12) SFM (24) ZCR Spectral Centroid Spectral Spread Spectral Roll-off Spectral Skewness Spectral Sharpness Spectral Smoothness 29 features SFM (24) ZCR Spectral Centroid Spectral Spread Spectral Skewness Spectral Smoothness Πίνακες Σετ χαρακτηριστικών με 79, 43 και 29 χαρακτηριστικά 84

85 7.5 Ανάλυση Κύριων Συνιστωσών (Principal Components Analysis PCA) Στην παράγραφο αυτή παρουσιάζεται μία μέθοδος προεπεξεργασίας των διανυσμάτων χαρακτηριστικών εισόδου, η Ανάλυση Κύριων Συνιστωσών (Principal Components Analysis), η οποία χρησιμοποιήθηκε σε ορισμένα σχήματα ταξινόμησης στην πορεία της εργασίας. Η στατιστική ανάλυση πολυδιάστατων δεδομένων καθίσταται ιδιαίτερα δύσκολη όταν αυξάνεται το πλήθος των μεταβλητών. Μάλιστα, το πρόβλημα της ανάλυσης γίνεται εντονότερο όταν οι μεταβλητές είναι υψηλά συσχετισμένες μεταξύ τους. Συνήθως, το πρόβλημα αυτό αναφέρεται ως κατάρα της διαστασιμότητας (curse of dimensionality) και οφείλεται στο γεγονός ότι με την αύξηση των διαστάσεων, τα δεδομένα γίνονται αυξανόμενα αραιά. Έτσι, για την εξασφάλιση κάποιου στατιστικά αξιόπιστου αποτελέσματος, ο απαιτούμενος αριθμός δεδομένων αυξάνεται σχεδόν εκθετικά με τη διάσταση. Για την αντιμετώπιση αυτού του ζητήματος εφαρμόζεται η τεχνική της Ανάλυσης Κύριων Συνιστωσών, η οποία περιγράφηκε αρχικά από τον Karl Pearson το 1901, ενώ αργότερα εξελίχθηκε σε διάφορες παραλλαγές από πολλούς ακόμη. Ο σκοπός της Ανάλυσης Κύριων Συνιστωσών είναι ο προσδιορισμός ενός νέου συστήματος συντεταγμένων χαμηλότερης διάστασης, στο οποίο οι νέες μεταβλητές, που ονομάζονται Κύριες Συνιστώσες, είναι γραμμικός συνδυασμός των αρχικών μεταβλητών, ορθογώνιες στον αρχικό χώρο διαστάσεων, ασυσχέτιστες μεταξύ τους και περιέχουν όσο το δυνατόν μεγαλύτερο μέρος της διακύμανσης των αρχικών δεδομένων. Η μέθοδος αυτή, δηλαδή, επιτυγχάνει τη συμπίεση των διανυσμάτων σε μικρότερο αριθμό διαστάσεων. Για να το πετύχει αυτό, εκμεταλλεύεται τις συσχετίσεις ανάμεσα στις μεταβλητές των διανυσμάτων που πρόκειται να συμπιεστούν. Όσο περισσότερο συσχετισμένες είναι μεταξύ τους οι μεταβλητές των αρχικών διανυσμάτων, τόσο μεγαλύτερη είναι η συμπίεση που επιτυγχάνεται. Επομένως, παρόλο που απαιτούνται n μεταβλητές για την ερμηνεία της συνολικής μεταβλητότητας του δείγματος, με τη μέθοδο αυτή μπορεί να ερμηνευτεί το μεγαλύτερο ποσοστό της μεταβλητότητας μέσω ενός μικρότερου αριθμού k μεταβλητών. Σίγουρα χάνεται κάποιο μέρος της πληροφορίας, αλλά το κέρδος σε χώρο και ταχύτητα επεξεργασίας μπορεί να είναι τεράστιο. Ο μετασχηματισμός στο νέο σύστημα συντεταγμένων ορίζεται με τέτοιο τρόπο ώστε η πρώτη κύρια συνιστώσα να έχει τη διεύθυνση της μεγαλύτερης διακύμανσης στα δεδομένα (δηλαδή να αντιπροσωπεύει το μεγαλύτερο μέρος της μεταβλητότητας των δεδομένων) και κάθε επόμενη συνιστώσα με τη σειρά της να αντιστοιχεί στην υψηλότερη δυνατή διακύμανση με τον περιορισμό ότι είναι ορθογώνια προς τις προηγούμενες κύριες συνιστώσες. Έτσι, οι κύριες 85

86 συνιστώσες διατάσσονται σε φθίνουσα σειρά, ανάλογα με το ποσοστό της μεταβλητότας που εκφράζουν. Όλες μαζί εκφράζουν συνολικά το 100% του μεταβλητότητας του δείγματος, αλλά μπορούμε να αγνοήσουμε τις τελευταίες συνιστώσες μικρότερης σημασίας. Η βασική ιδέα πάνω στην οποία στηρίχτηκε η μέθοδος των Κύριων Συνιστωσών προέρχεται από τη Γραμμική Άλγεβρα και αφορά τη φασματική ανάλυση ενός τετραγωνικού πίνακα. Έστω ένας τετραγωνικός συμμετρικός πίνακας Α διαστάσεων n x n. Ο πίνακας αυτός μπορεί να αναπαρασταθεί ως Α = ΡΛΡ', όπου Λ είναι ένας n x n διαγώνιος πίνακας που τα στοιχεία της διαγωνίου του είναι οι ιδιοτιμές του πίνακα Α και P ένας ορθογώνιος n x n πίνακας (δηλαδή ισχύει P'P = Ι), ο οποίος αποτελείται από τα κανονικοποιημένα ιδιοδιανύσματα των αντίστοιχων ιδιοτιμών. Επομένως αφού ο πίνακας είναι ορθογώνιος θα ισχύει πως P -1 = P'. Μπορεί κάποιος να δείξει με βάση τις παραπάνω ιδιότητες πως ισχύει Λ = P'ΑP (1) Αν δηλαδή ξεκινήσουμε από έναν τετραγωνικό πίνακα Α μπορούμε να καταλήξουμε σε έναν διαγώνιο πίνακα Λ. Έστω τώρα ότι έχουμε ένα τυχαίο διάνυσμα Χ το οποίο έχει πίνακα διακύμανσης Σ. Τότε το διάνυσμα Υ=ΒΧ έχει πίνακα διακύμανσης Β ΣΒ. Αν τώρα κοιτάξουμε την σχέση (1) βλέπουμε πως από έναν τετραγωνικό πίνακα μπορώ να οδηγηθώ σε έναν διαγώνιο πίνακα, πολλαπλασιάζοντας με έναν κατάλληλο πίνακα Ρ και άρα, αν ο τετραγωνικός πίνακας είναι πίνακας διακύμανσης καταλήγουμε σε έναν διαγώνιο πίνακα διακύμανσης. Επομένως, το τυχαίο διάνυσμα που αντιστοιχεί στον πίνακα αυτόν είναι ασυσχέτιστο. Δηλαδή αυτό που μου προσφέρει η φασματική ανάλυση ενός πίνακα διακύμανσης είναι πως αν πολλαπλασιάσω το αρχικό διάνυσμα με έναν κατάλληλο πίνακα μπορώ να δημιουργήσω έναν νέο διάνυσμα το οποίο να είναι ασυσχέτιστο, να έχει δηλαδή διαγώνιο πίνακα διακύμανσης. Με βάση, λοιπόν, την παραπάνω λογική μπορούμε να χρησιμοποιήσουμε τον πίνακα διακύμανσης (ή συμμεταβλητότητας) για να εκτελέσουμε την Ανάλυση Κύριων Συνιστωσών, η οποία περιγράφεται στα παρακάτω βήματα: 86

87 1. Αρχικά αφαιρείται η μέση τιμή από κάθε μία από τις n μεταβλητές. Με την αφαίρεση της μέσης τιμής γίνεται πιο εύκολος ο υπολογισμός της διακύμανσης και της συμμεταβλητότητας. Διακύμανση και συμμεταβλητότητα δεν επηρρεάζονται από τη μέση τιμή. 2. Στη συνέχεια υπολογίζεται ο πίνακας συμμεταβλητότητας n x n : 2 σ 1 σ 1n Σ= Ε[(x-x )(x-x ) T ] = [ ] σ n1 2 σ n Ο πίνακας Σ περιέχει τις συσχετίσεις των αρχικών αξόνων, βάσει των προβολών των δεδομένων πάνω τους. 3. Μετά υπολογίζονται τα ιδιοδιανύσματα και οι ιδιοτιμές του πίνακα συμμεταβλητότητας. 4. Ακολουθεί η ταξινόμηση των ιδιοδιανυσμάτων από αυτό με τη μεγαλύτερη ιδιοτιμή σε αυτό με τη μικρότερη. Αυτό δηλώνει και τη σημασία των συνιστωσών. Επομένως, μπορούμε να αγνοήσουμε τα ιδιοδιανύσματα μικρότερης σημασίας και να φτιάξουμε ένα διάνυσμα μεταβλητών με όσα ιδιοδιανύσματα θεωρούμε αρκετά. Η πληροφορία που χάνεται είναι τόσο μικρότερη όσο μικρότερες είναι οι ιδιοτιμές των ιδιοδιανυσμάτων που παραλείπονται. 5. Τέλος, γίνεται η εξαγωγή των νέων δεδομένων Υ μέσω της σχέσης: Υ = ΡΖ όπου Ρ είναι ένας πίνακας με τα ιδιοδιανύσματα στις στήλες ανεστραμμένα, ώστε τα ιδιοδιανύσματα να είναι σε γραμμές, με το πιο σημαντικό ιδιοδιάνυσμα στην πρώτη γραμμή και Ζ είναι τα κανονικοποιημένα ως προς τη μέση τιμή δεδομένα ανεστραμμένα, δηλαδή τα σημεία σε κάθε στήλη, με κάθε γραμμή να περιέχει μία διάσταση. [2], [9], [11] 87

88 7.6 Ταξινόμηση μέσω μηχανικής μάθησης Η εκπαίδευση των αλγοριθμικών μοντέλων μηχανικής μάθησης πραγματοποιήθηκε στο περιβάλλον λογισμικού του WEKA με χρήση των αλγορίθμων IBk, Naive Bayes, SMO, J48, Logistic και MultilayerPerceptron, οι οποίοι αποτελούν αντίστοιχα υλοποιήσεις των αλγορίθμων Κατηγοριοποιητής k Πλησιέστερων Γειτόνων (k-nearest Neighbor Classifier), Απλοϊκός Κατηγοριοποιητής Bayes (Naive Bayes Classifier), Μηχανές Διανυσματικής Στήριξης (Support Vector Machines), Aλγόριθμος C4.5 (δένδρο απόφασης), Λογιστική Παλινδρόμηση (Logistic Regression) και Τεχνητά Νευρωνικά Δίκτυα (Artificial Neural Networks). Όπως έχει αναφερθεί, κατά τη διάρκεια της καθοδηγούμενης εκπαίδευσης, για να δομηθεί το μοντέλο ταξινόμησης, πρέπει ένα μέρος των δεδομένων εισόδου να χρησιμοποιηθούν ως δεδομένα εκπαίδευσης του αλγορίθμου κατηγοριοποίησης και τα υπόλοιπα ως δεδομένα ελέγχου για τον προσδιορισμό του ποσοστού αναγνώρισης. Για να επιτευχθεί η μέγιστη δυνατή χρησιμοποίηση όλων των δεδομένων εισόδου στο μοντέλο και παράλληλα να αποφευχθούν προβλήματα τυχαιότητας και υπερεκπαίδευσης, χρησιμοποιήθηκε η τεχνική της διασταυρωμένης επικύρωσης με k αναδιπλώσεις του αρχικού συνόλου δεδομένων (k-fold cross validation). Σύμφωνα με τη μέθοδο αυτή, το αρχικό σύνολο δεδομένων εισόδου χωρίζεται τυχαία σε k υποσύνολα, από τα οποία τα k-1 συνθέτουν το σύνολο εκπαίδευσης και το τελευταίο υποσύνολο αποτελεί το σύνολο ελέγχου. Η διαδικασία αυτή επαναλαμβάνεται σε k επαναληπτικούς βρόγχους, ούτως ώστε να χρησιμοποιηθούν όλα τα υποσύνολα ως δεδομένα ελέγχου. Μέσω της επαναληπτικής διαδικασίας δομούνται k διαφορετικά μοντέλα ταξινόμησης και προσδιορίζεται κάθε φορά η απόδοση του αλγορίθμου κατηγοριοποίησης. [2,9] Τελικά, από το μέσο όρο των αποδόσεων προκύπτει το τελικό ποσοστό αναγνώρισης. Για την εκτέλεση των πειραμάτων επιλέχθηκε η τιμή k=10. Στον παρακάτω πίνακα φαίνονται τα αποτελέσματα ταξινόμησης με τη χρήση του 10-fold cross validation. k-nn Naive Logistic SVM C4.5 ANN (k=1) Bayes Regression 142 features % % % % % % 79 features % % % % % % 43 features % % % % % % 29 features % % % % % % Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) με τη χρήση του 10-fold cross validation 88

89 Τα παραπάνω αποτελέσματα, λόγω των μη ρεαλιστικά υψηλών ποσοστών που παρουσιάζουν, οδήγησαν στο συμπέρασμα ότι η διασταυρωμένη επικύρωση δεν μπορεί να εφαρμοστεί στο συγκεκριμένο πρόβλημα. Αυτό οφείλεται στο γεγονός ότι τα στιγμιότυπα του κάθε αρχείου ήχου παρουσιάζουν πολύ έντονες ομοιότητες μεταξύ τους και, καθώς με τη διασταυρωμένη επικύρωση επιλέγονται στιγμιότυπα του ίδιου αρχείου ήχου και για το σύνολο εκπαίδευσης και για το σύνολο ελέγχου αυτό έχει σαν αποτέλεσμα την επίτευξη υψηλού ποσοστού επιτυχίας που δεν ανταποκρίνεται στην πραγματικότητα. Έτσι, στην επόμενη φάση, αλλά στη συνέχεια της εργασίας, επιλέχθηκε ο χωρισμός του συνόλου δεδομένων σε σύνολο εκπαίδευσης και σύνολο ελέγχου. Στον παρακάτω πίνακα παρουσιάζονται τα αποτελέσματα ταξινόμησης, χρησιμοποιώντας τα 8 δείγματα ήχου κάθε κλάσης ως σύνολο εκπαίδευσης και τα υπόλοιπα 2 ως σύνολο ελέγχου. k-nn Naive Logistic SVM C4.5 (k=1) Bayes Regression ANN 142 features % % % % % % 79 features % % % % % % 43 features % % % % % % 29 features % % % % % % Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) με το χωρισμό του συνόλου δεδομένων σε σύνολο εκπαίδευσης και σύνολο ελέγχου Τα αποτελέσματα αυτά παρουσιάζουν αναμενόμενα ποσοστά επιτυχούς αναγνώρισης, αν και χαμηλότερα από τα αναφερόμενα στη βιβλιογραφία. Σύμφωνα με τη βιβλιογραφία, η συνολική απόδοση αναγνώρισης για το πρόβλημα ταξινόμησης 5 κλάσεων κυμαίνεται στο 90%, για τις 11 κλάσεις στο 77%, για τις 13 στο 60% και μειώνεται ραγδαία με την προσθήκη επιπλέον κλάσεων. [23] Παρατηρούμε ότι τα υψηλότερα ποσοστά επιτεύχθηκαν με τους αλγορίθμους SVM και ANN και τη χρήση του σετ των 79 χαρακτηριστικών. Καθώς, όμως, τα ποσοστά αυτά κρίνονται ακατάλληλα για πρακτικές εφαρμογές, στη συνέχεια της εργασίας δοκιμάστηκαν νέα σχήματα ταξινόμησης με λιγότερες κλάσεις. Όσον αφορά τους αλγορίθμους μηχανικής μάθησης, στα νέα σχήματα ταξινόμησης χρησιμοποιήθηκαν και οι έξι, διότι με κάποιο σετ χαρακτηριστικών όλοι πέτυχαν ένα ποσοστό τουλάχιστον κοντά στο 45%. Από τα σετ χαρακτηριστικών δε χρησιμοποιήθηκε στην επόμενη φάση το σετ των 142 χαρακτηριστικών, καθώς κανένας αλγόριθμος δεν εμφάνισε τα καλύτερα ποσοστά του με αυτό. Το ίδιο, βέβαια, ισχύει και για το 89

90 σετ των 29 χαρακτηριστικών, αλλά διατηρήθηκε λόγω του ικανοποιητικού ποσοστού που πέτυχε ο k-nn. 7.7 Δημιουργία νέων σχημάτων ταξινόμησης Προκειμένου να γίνει η επιλογή των νέων σχημάτων ταξινόμησης, ελέγχθηκε η σύγχυση μεταξύ των κλάσεων του αρχικού σχήματος για τους αλγορίθμους που πέτυχαν τα μεγαλύτερα ποσοστά. Παρακάτω φαίνονται οι μήτρες σύγχυσης (confusion matrix) για τους αλγορίθμους ΑΝΝ και SVM με είσοδο το σετ των 79 χαρακτηριστικών. a b c d e f g h i j k l classified as a = airplanes b = alarms c = applause d = birds e = dogs f = footsteps g = motorcycles h = rain i = rivers j = sea waves k = thunders l = wind Πίνακας Μήτρα σύγχυσης για τον ΑΝΝ με το σετ των 79 χαρακτηριστικών 90

91 a b c d e f g h i j k l classified as a = airplanes b = alarms c = applause d = birds e = dogs f = footsteps g = motorcycles h = rain i = rivers j = sea waves k = thunders l = wind Πίνακας Μήτρα σύγχυσης για τον SVM με το σετ των 79 χαρακτηριστικών Παρατηρούμε ότι και στους δύο πίνακες τα αποτελέσματα είναι παραπλήσια. Το μεγαλύτερο πρόβλημα εμφανίζεται στην κλάση wind, στην οποία δεν αναγνωρίζεται κανένα στιγμιότυπο ορθά με κανέναν από τους δύο αλγορίθμους, αλλά και πολλά στιγμιότυπα άλλων κλάσεων ταξινομούνται εσφαλμένα σε αυτή την κλάση. Επίσης πολύ χαμηλό ποσοστό αναγνώρισης εμφανίζεται στην κλάση footsteps, καθώς τα περισσότερα στιγμιότυπά της ταξινομούνται στην κλάση wind. Στη συνέχεια, παρατηρούμε ότι υπάρχει σύγχυση μεταξύ των κλάσεων rain, rivers και sea. Τέλος, σημαντικός αριθμός στιγμιότυπων των κλάσεων birds και dogs αναγνωρίζονται ως alarms, αλλά και αρκετά στιγμιότυπα της κλάσης motorcycles ταξινομούνται στην κλάση airplane και της κλάσης thunders στην κλάση motorcycles. Με βάση αυτές τις παρατηρήσεις, εξετάστηκε η δημιουργία δύο νέων σχημάτων ταξινόμησης, τα οποία θα μπορούσαν να αποφέρουν ικανοποιητικά ποσοστά αναγνώρισης, κατάλληλα για πρακτικές εφαρμογές. 91

92 Πρώτο σχήμα ταξινόμησης Για το πρώτο σχήμα ταξινόμησης αφαιρέθηκαν οι πιο προβληματικές κλάσεις και χρησιμοποιήθηκαν τελικά οι εξής 7 κλάσεις: airplane, alarms, applause, birds, motorcycles, sea waves και thunders. Στον παρακάτω πίνακα παρουσιάζονται τα αποτελέσματα ταξινόμησης, χρησιμοποιώντας τα 8 δείγματα ήχου κάθε κλάσης ως σύνολο εκπαίδευσης και τα υπόλοιπα 2 ως σύνολο ελέγχου. Επίσης, τα αποτελέσματα δίνονται και στην Εικόνα σε μορφή διαγράμματος για να μπορέσουν να συγκριθούν με εποπτικό τρόπο. k-nn Naive Logistic SVM C4.5 (k=1) Bayes Regression ANN 79 features % % % % % % 43 features % % % % % % 29 features % % % % % % Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) για το πρώτο σχήμα ταξινόμησης 100% 90% 80% 70% 60% 50% 40% 30% 79 features 43 features 29 features 20% 10% 0% k-nn Naive Bayes SVM C4.5 Logistic Regression ANN Εικόνα Συνολική απόδοση κατηγοριοποίησης PR(%) για το πρώτο σχήμα ταξινόμησης 92

93 Επίσης, σε αυτό το σχήμα ταξινόμησης εφαρμόστηκε και η τεχνική της Ανάλυσης Κύριων Συνιστωσών. Παρακάτω παρουσιάζονται τα αποτελέσματα: k-nn Naive Logistic SVM C4.5 (k=1) Bayes Regression ANN 79 features % % % % % % 43 features % % % % % % 29 features % % % % % % Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) για το πρώτο σχήμα ταξινόμησης με χρήση 100% 90% 80% 70% 60% 50% 40% 30% 79 features 43 features 29 features 20% 10% 0% k-nn Naive Bayes SVM C4.5 Logistic Regression ANN Εικόνα Συνολική απόδοση κατηγοριοποίησης PR(%) για το πρώτο σχήμα ταξινόμησης με χρήση PCA 93

94 Δεύτερο σχήμα ταξινόμησης Για τη δημιουργία του δεύτερου σχήματος ταξινόμησης αφαιρέθηκαν οι κλάσεις wind και footsteps και έγινε συγχώνευση των κλάσεων airplanes και motorcycles στη γενικότερη κλάση engines και των κλάσεων rain, rivers και sea waves στην κλάση water. Έτσι, χρησιμοποιήθηκαν τελικά οι εξής 7 κλάσεις: engines, alarms, applause, birds, dogs, water και thunders. Καθώς οι κλάσεις engines και water περιείχαν περισσότερα στιγμιότυπα από τις υπόλοιπες, χρησιμοποιήθηκε ο αλγόριθμος ClassBalancer που διαθέτει το λογισμικό WEKA, ο οποίος εξισορροπεί την αναλογία των κλάσεων, ούτως ώστε να έχουν όλες την ίδια συμβολή στο συνολικό ποσοστό αναγνώρισης. Παρακάτω φαίνονται τα αποτελέσματα της ταξινόμησης: k-nn Naive Logistic SVM C4.5 (k=1) Bayes Regression ANN 79 features % % % % % % 43 features % % % % % % 29 features % % % % % % Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) για το δεύτερο σχήμα ταξινόμησης 100% 90% 80% 70% 60% 50% 40% 30% 79 features 43 features 29 features 20% 10% 0% k-nn Naive Bayes SVM C4.5 Logistic Regression ANN Εικόνα Συνολική απόδοση κατηγοριοποίησης PR(%) για το δεύτερο σχήμα ταξινόμησης 94

95 Η Ανάλυση Κύριων Συνιστωσών για το δεύτερο σχήμα ταξινόμησης έδωσε τα παρακάτω αποτελέσματα: k-nn Naive Logistic SVM C4.5 (k=1) Bayes Regression ANN 79 features % % % % % % 43 features % % % % % % 29 features % % % % % % Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) για το δεύτερο σχήμα ταξινόμησης με χρήση PCA 100% 90% 80% 70% 60% 50% 40% 30% 79 features 43 features 29 features 20% 10% 0% k-nn Naive Bayes SVM C4.5 Logistic Regression ANN Εικόνα Συνολική απόδοση κατηγοριοποίησης PR(%) για το δεύτερο σχήμα ταξινόμησης με χρήση PCA 95

96 7.8 Βελτιστοποίηση με αλλαγή παραμέτρων των αλγορίθμων Στο στάδιο αυτό, επιλέχθηκαν για κάθε σχήμα ταξινόμησης οι αλγόριθμοι που σε συνδυασμό με κάποιο σετ χαρακτηριστικών πετυχαίνουν τα μεγαλύτερα ποσοστά αναγνώρισης και επιχειρήθηκε περαιτέρω βελτίωση της απόδοσής τους με αλλαγή κάποιων χαρακτηριστικών παραμέτρων τους. Οι παράμετροι που μεταβλήθηκαν είναι το k στον k-nn, το C στον SVM και o ρυθμός εκπαίδευσης (learning rate - LR) στον ΑΝΝ. Υπενθυμίζεται από το κεφάλαιο 5 ότι ο k εκφράζει το πλήθος των πλησιέστερων γειτόνων, το C είναι μια θετική σταθερά που καθορίζει την αντιστάθμιση μεταξύ της μεγιστοποίησης του ορίου ταξινόμησης και της ανοχής σε λάθος ταξινομημένα δεδομένα και ο ρυθμός εκπαίδευσης καθορίζει την ταχύτητα με την οποία τροποποιούνται τα βάρη των συνάψεων σε ένα τεχνητό νευρωνικό δίκτυο. Πρώτο σχήμα ταξινόμησης Για το πρώτο σχήμα ταξινόμησης, τα υψηλότερα ποσοστά αναγνώρισης σημείωσαν ο ΑΝΝ για το σετ των 79 χαρακτηριστικών ( % - LR=0.3) και ο SVM επίσης για το σετ των 79 χαρακτηριστικών ( % - C=1). Παρακάτω παρουσιάζονται τα αποτελέσματα της παραμετρικής ανάλυσης που πραγματοποιήθηκε: Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) για τον ΑΝΝ με μεταβολή του ρυθμού εκπαίδευσης 96

97 Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) για τον SVM με μεταβολή του C Παρατηρούμε ότι η απόδοση του ΑΝΝ γίνεται μέγιστη ( %) για τιμή του ρυθμού εκπαίδευσης LR = 0,1 και η απόδοση του SVM γίνεται μέγιστη ( %) για τιμή του C στο διάστημα [13:1:18]. Επιλέγουμε C = 15 για το επόμενο στάδιο. 97

98 Δεύτερο σχήμα ταξινόμησης Για το δεύτερο σχήμα ταξινόμησης, τα υψηλότερα ποσοστά αναγνώρισης σημείωσαν ο k-nn για το σετ των 29 χαρακτηριστικών ( % - k=1), ο ΑΝΝ για το σετ των 43 χαρακτηριστικών με τη χρήση PCA ( % - LR=0.3) και ο SVM επίσης για το σετ των 43 χαρακτηριστικών με τη χρήση PCA ( % - C=1). Παρακάτω παρουσιάζονται τα αποτελέσματα της παραμετρικής ανάλυσης που πραγματοποιήθηκε: Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) για τον k-nn με μεταβολή του k 98

99 Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) για τον ANN με μεταβολή του ρυθμού εκπαίδευσης Πίνακας Συνολική απόδοση κατηγοριοποίησης PR(%) για τον SVM με μεταβολή του C 99

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΤΑΧΥΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΤΑΧΥΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ Ενότητα : ΤΑΧΥΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER Aναστασία Βελώνη Τμήμα Η.Υ.Σ 1 Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών Δημήτρης Κουτσογιάννης Τομέας Υδατικών Πόρων και Περιβάλλοντος, Σχολή Πολιτικών Μηχανικών, Εθνικό Μετσόβιο Πολυτεχνείο Αθήνα Επανέκδοση

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΔΕΔΟΜΕΝΑ Δεδομένα μπορούν να αποκτηθούν στα πλαίσια διαφόρων εφαρμογών, χρησιμοποιώντας, όπου είναι απαραίτητο, κατάλληλο εξοπλισμό. Μερικά παραδείγματα

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 1: Σήματα Συνεχούς Χρόνου Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Εισαγωγή στα Σήματα 1. Σκοποί της Θεωρίας Σημάτων 2. Κατηγορίες Σημάτων 3. Χαρακτηριστικές Παράμετροι

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ Ενότητα : ΑΝΑΛΥΣΗ FOURIER (H ΣΕΙΡΑ FOURIER ΚΑΙ Ο ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER) Aναστασία Βελώνη Τμήμα Η.Υ.Σ 1 Άδειες

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών Τύπων. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 6: Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 6: Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 6: Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier 1. Ανάπτυγμα σήματος σε Σειρά Fourier

Διαβάστε περισσότερα

FFT. Θα επικεντρωθούμε στο ΔΜΦ αλλά όλα ισχύουν και για τον

FFT. Θα επικεντρωθούμε στο ΔΜΦ αλλά όλα ισχύουν και για τον University of Cyprus Biomedical Imaging & Applied Optics Διάλεξη 5 και Ανάλυση με (Κεφ. 9.0-9.5, 10.0-10.2) ΟΔΜΦ Ο αντίστροφος ΔΜΦ Θα επικεντρωθούμε στο ΔΜΦ αλλά όλα ισχύουν και για τον αντίστροφο ΔΜΦ

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος στο LabVIEW. Εμπρόσθιο Πλαίσιο (front

Διαβάστε περισσότερα

Διάλεξη 6. Fourier Ανάλυση Σημάτων. (Επανάληψη Κεφ. 10.0-10.2 Κεφ. 10.3, 10.5-7) Ανάλυση σημάτων. Τι πρέπει να προσέξουμε

Διάλεξη 6. Fourier Ανάλυση Σημάτων. (Επανάληψη Κεφ. 10.0-10.2 Κεφ. 10.3, 10.5-7) Ανάλυση σημάτων. Τι πρέπει να προσέξουμε University of Cyprus Biomedical Imaging & Applied Optics Διάλεξη (Επανάληψη Κεφ. 10.0-10. Κεφ. 10.3, 10.5-7) Ανάλυση σημάτων Τι πρέπει να προσέξουμε Επαρκής ψηφιοποίηση στο χρόνο (Nyquist) Αναδίπλωση (aliasing)

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σημάτων

Ψηφιακή Επεξεργασία Σημάτων Ψηφιακή Επεξεργασία Σημάτων Ενότητα 11: Εφαρμογές DFT Ταχύς Μετασχηματισμός Fourier (FFT) Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Διακριτός Μετασχηματισμός Fourier Υπολογισμός Γραμμικής Συνέλιξης

Διαβάστε περισσότερα

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ

ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ. Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΕΧΡΩΜΩΝ ΕΓΓΡΑΦΩΝ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (Τ.Ε.Ι.) ΣΕΡΡΩΝ Τμήμα ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΡΕΥΝΗΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΑΡΧΙΜΗΔΗΣ ΕΝΙΣΧΥΣΗ ΕΡΕΥΝΗΤΙΚΩΝ ΟΜΑΔΩΝ ΣΤΟ ΤΕΙ ΣΕΡΡΩΝ Ενέργεια. 2.2.3.στ ΘΕΜΑ ΕΡΕΥΝΑΣ: ΔΙΑΡΘΡΩΣΗ

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 22: Γρήγορος Μετασχηματισμός Fourier Ανάλυση σημάτων/συστημάτων με το ΔΜΦ

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 22: Γρήγορος Μετασχηματισμός Fourier Ανάλυση σημάτων/συστημάτων με το ΔΜΦ HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων Διάλεξη 22: Γρήγορος Μετασχηματισμός Fourier Ανάλυση σημάτων/συστημάτων με το ΔΜΦ Γρήγορος Μετασχηματισμός Fourier Το ζεύγος εξισώσεων που ορίζουν το

Διαβάστε περισσότερα

Διακριτός Μετασχηματισμός Fourier

Διακριτός Μετασχηματισμός Fourier Διακριτός Μετασχηματισμός Fourier 1 Διακριτός Μετασχηματισμός Fourier Ο μετασχηματισμός Fourier αποτελεί τον ακρογωνιαίο λίθο της επεξεργασίας σήματος αλλά και συχνή αιτία πονοκεφάλου για όσους πρωτοασχολούνται

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Ο μετασχηματισμός Fourier

Ο μετασχηματισμός Fourier Ο μετασχηματισμός Fourier είναι από τα διαδεδομένα εργαλεία μετατροπής δεδομένων και συναρτήσεων (μιας ή περισσοτέρων διαστάσεων) από αυτό που ονομάζεται περιοχή χρόνου (time domain) στην περιοχή συχνότητας

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων Σκοπός Βασική δομή ενός προγράμματος στο LabVIEW. Εμπρόσθιο Πλαίσιο (front

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Οικονομίας Διοίκησης και Πληροφορικής Τμήμα Πληροφορικής και Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Αρχές Τηλ/ων Συστημάτων Εργαστήριο 7 ο : Δειγματοληψία και Ανασύσταση Βασική

Διαβάστε περισσότερα

Συμπίεση Δεδομένων

Συμπίεση Δεδομένων Συμπίεση Δεδομένων 2013-2014 Κωδικοποίηση ζωνών συχνοτήτων Δρ. Ν. Π. Σγούρος 2 Φαινόμενο Μπλόκ (Blocking Artifact) Η χρήση παραθύρων για την εφαρμογή των μετασχηματισμών δημιουργεί το φαινόμενο μπλόκ Μειώνεται

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 7: Μετασχηματισμός Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 7: Μετασχηματισμός Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 7: Μετασχηματισμός Fourier Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Μετασχηματισμός Fourier 1. Ορισμός του Μετασχηματισμού Fourier 2. Φυσική Σημασία του Μετασχηματισμού

Διαβάστε περισσότερα

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT)

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT) HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT) Εισαγωγή Μέχρι στιγμής έχουμε δει το Μετασχηματισμό Fourier Διακριτού

Διαβάστε περισσότερα

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1 Ήχος Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Κβαντοποίηση δειγμάτων Παλμοκωδική διαμόρφωση Συμβολική αναπαράσταση μουσικής Τεχνολογία Πολυμέσων και Πολυμεσικές

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Στοιχεία επεξεργασίας σημάτων

Στοιχεία επεξεργασίας σημάτων Στοιχεία επεξεργασίας σημάτων ΕΜΠ - ΣΧΟΛΗ ΑΤΜ Ακ. Έτος 2004-2005 Β.Βεσκούκης, Δ.Παραδείσης, Δ.Αργιαλάς, Δ.Δεληκαράογλου, Β.Καραθανάση, Β.Μασσίνας Γενικά στοιχεία για το μάθημα Εισάγεται στα πλαίσια της

Διαβάστε περισσότερα

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΥΣΗ FOURIER ΔΙΑΚΡΙΤΩΝ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ. Διακριτός Μετασχηματισμός Fourier DFT

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΥΣΗ FOURIER ΔΙΑΚΡΙΤΩΝ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ. Διακριτός Μετασχηματισμός Fourier DFT ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΥΣΗ FOURIER ΔΙΑΚΡΙΤΩΝ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ Διακριτός Μετασχηματισμός Fourier DFT Διακριτός μετασχηματισμός συνημιτόνου DCT discrete cosine transform Η σχέση αποτελεί «πυρήνα»

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Σήματα και Συστήματα ΙΙ

Σήματα και Συστήματα ΙΙ Σήματα και Συστήματα ΙΙ Ενότητα 3: Διακριτός και Ταχύς Μετασχηματισμός Fourier (DTF & FFT) Α. Ν. Σκόδρας Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Επιμέλεια: Αθανάσιος Ν. Σκόδρας, Καθηγητής

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Συστήματα Πολυμέσων Ενότητα 12: Συμπίεση Ψηφιακού Ήχου Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1 Αρχές κωδικοποίησης Απαιτήσεις κωδικοποίησης Είδη κωδικοποίησης Κωδικοποίηση εντροπίας Διαφορική κωδικοποίηση Κωδικοποίηση μετασχηματισμών Στρωματοποιημένη κωδικοποίηση Κβαντοποίηση διανυσμάτων Τεχνολογία

Διαβάστε περισσότερα

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΥΣΗ FOURIER ΔΙΑΚΡΙΤΩΝ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ. DTFT και Περιοδική/Κυκλική Συνέλιξη

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΥΣΗ FOURIER ΔΙΑΚΡΙΤΩΝ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ. DTFT και Περιοδική/Κυκλική Συνέλιξη ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΥΣΗ FOURIER ΔΙΑΚΡΙΤΩΝ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ DTFT και Περιοδική/Κυκλική Συνέλιξη Διακριτός μετασχηματισμός συνημιτόνου DCT discrete cosine transform Η σχέση αποτελεί «πυρήνα»

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σηµμάτων

Ψηφιακή Επεξεργασία Σηµμάτων Ψηφιακή Επεξεργασία Σηµμάτων Διάλεξη 3: DSP for Audio Δρ. Θωµμάς Ζαρούχας Επιστηµμονικός Συνεργάτης Μεταπτυχιακό Πρόγραµμµμα: Τεχνολογίες και Συστήµματα Ευρυζωνικών Εφαρµμογών και Υπηρεσιών 1 Προεπισκόπηση

Διαβάστε περισσότερα

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής Κωδικοποίηση ήχου Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής T. Painter and A. Spanias, Perceptual Coding of Digital Audio, Proceedings of the IEEE, pp. 451-513, April 2000. P. Noll, MPEG digital audio

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του

Διαβάστε περισσότερα

Συστήματα Επικοινωνιών Ι

Συστήματα Επικοινωνιών Ι + Διδάσκων: Δρ. Κ. Δεμέστιχας e-mail: cdemestichas@uowm.gr Συστήματα Επικοινωνιών Ι Αναπαράσταση Σημάτων και Συστημάτων στο πεδίο της συχνότητας + Περιεχόμενα n Εισαγωγή n Ανάλυση Fourier n Μετασχηματισμός

Διαβάστε περισσότερα

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Εφαρµογές της Ψηφιακής Επεξεργασίας Σηµάτων Ακουστικά Σήµατα ü Αναγνώριση, Ανάλυση, Σύνθεση,

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος Εισαγωγή στην Επεξεργασία Σήματος Νόκας Γιώργος Βιβλιογραφία στον εύδοξο 1. Γ. Β. Μουστακίδης, Βασικές Τεχνικές Ψηφιακής Επεξεργασίας Σημάτων και Συστημάτων, εκδόσεις Α. Τζιόλα & Υιοί Ο.Ε., Θεσσαλονίκη,

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier

2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier 2.1 2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier 2.1 Εισαγωγή Η βασική ιδέα στην ανάλυση των κυματομορφών με την βοήθεια της μεθόδου Fourier συνίσταται στο ότι μία κυματομορφή μιας οποιασδήποτε

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ Εργαστήριο Ηλεκτρακουστικής Ι Άσκηση 1 - Σελίδα 1 ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗΣ ΕΙΣΑΓΩΓΙΚΕΣ ΕΝΝΟΙΕΣ 1. ΘΕΩΡΙΑ ΣΗΜΑΤΩΝ/ΣΥΣΤΗΜΑΤΩΝ ΚΑΙ ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ Αρχικά, για την καλύτερη κατανόηση

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 2: Στοιχειώδη Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 2: Στοιχειώδη Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 2: Στοιχειώδη Σήματα Συνεχούς Χρόνου Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Στοιχειώδη Σήματα Συνεχούς Χρόνου 1. Μοναδιαία Βηματική Συνάρτηση 2. Κρουστική Συνάρτηση ή

Διαβάστε περισσότερα

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR

Διαβάστε περισσότερα

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου Εξαγωγή μεταδεδομένων / περιγραφών Χαμηλού επιπέδου περιγραφείς Συντακτικός και σημασιολογικός ορισμός Ανάκτηση πολυμεσικών τεκμηρίων XML / OWL Δημοσίευση 2002

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ Ενότητα 1, Μέρος 2ο: ΠΕΡΙ ΣΗΜΑΤΩΝ Aναστασία Βελώνη Τμήμα Η.Υ.Σ Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 4 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

17-Φεβ-2009 ΗΜΥ Ιδιότητες Συνέλιξης Συσχέτιση

17-Φεβ-2009 ΗΜΥ Ιδιότητες Συνέλιξης Συσχέτιση ΗΜΥ 429 7. Ιδιότητες Συνέλιξης Συσχέτιση 1 Μαθηματικές ιδιότητες Αντιμεταθετική: a [ * b[ = b[ * a[ παρόλο που μαθηματικά ισχύει, δεν έχει φυσικό νόημα. Προσεταιριστική: ( a [ * b[ )* c[ = a[ *( b[ * c[

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σημάτων

Ψηφιακή Επεξεργασία Σημάτων Ψηφιακή Επεξεργασία Σημάτων Ενότητα 10: Διακριτός Μετασχηματισμός Fourier (DFT) Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Μετασχηματισμός Fourier Διακριτού Χρόνου Διακριτός Μετασχηματισμός Fourier (DFT)

Διαβάστε περισσότερα

DFT ιακριτός µετ/σµός Fourier Discrete Fourier Transform

DFT ιακριτός µετ/σµός Fourier Discrete Fourier Transform DFT ιακριτός µετ/σµός Fourier Discrete Fourier Transform Νοέµβριος 5 ΨΕΣ Ορισµοί O διακριτός µετασχηµατισµός Fourier DFT, αναφέρεται σε µία πεπερασµένου µήκους ακολουθία σηµείων και ορίζεται ως εξής: X(

Διαβάστε περισσότερα

Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου

Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου Δρ. Νικόλαος- Αλέξανδρος Τάτλας Τμήμα Ηλεκτρονικών

Διαβάστε περισσότερα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ Σχολή Θετικών Επιστημών Τεχνολογίας Τηλεπικοινωνιών Τμήμα Επιστήμης και Τεχνολογίας Τηλεπικοινωνιών ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΠΙΚΟΙΝΩΝΙΕΣ ΙI Εργαστήριο 9 ο : Δειγματοληψία και Ανασύσταση

Διαβάστε περισσότερα

Εισαγωγή στις Τηλεπικοινωνίες

Εισαγωγή στις Τηλεπικοινωνίες ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Εισαγωγή στις Τηλεπικοινωνίες Ενότητα 3: Δειγματοληψία και Ανακατασκευή Σημάτων Όνομα Καθηγητή: Δρ. Ηρακλής Σίμος Τμήμα: Ηλεκτρονικών

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Τεράστιες ανάγκες σε αποθηκευτικό χώρο

Τεράστιες ανάγκες σε αποθηκευτικό χώρο ΣΥΜΠΙΕΣΗ Τεράστιες ανάγκες σε αποθηκευτικό χώρο Παράδειγμα: CD-ROM έχει χωρητικότητα 650MB, χωρά 75 λεπτά ασυμπίεστου στερεοφωνικού ήχου, αλλά 30 sec ασυμπίεστου βίντεο. Μαγνητικοί δίσκοι χωρητικότητας

Διαβάστε περισσότερα

Σήματα και Συστήματα. Διάλεξη 9: Μελέτη ΓΧΑ Συστημάτων με τον Μετασχηματισμό Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Σήματα και Συστήματα. Διάλεξη 9: Μελέτη ΓΧΑ Συστημάτων με τον Μετασχηματισμό Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής Σήματα και Συστήματα Διάλεξη 9: Μελέτη ΓΧΑ Συστημάτων με τον Μετασχηματισμό Fourier Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Μελέτη ΓΧΑ Συστημάτων με τον Μετασχηματισμό Fourier 1. Μετασχηματισμός Fourier

Διαβάστε περισσότερα

2 ο κεφάλαιο: Ανάλυση και Σύνθεση κυματομορφών με τον Μετασχηματισμό Fourier

2 ο κεφάλαιο: Ανάλυση και Σύνθεση κυματομορφών με τον Μετασχηματισμό Fourier 2 ο κεφάλαιο: Ανάλυση και Σύνθεση κυματομορφών με τον Μετασχηματισμό Fourier Η βασική ιδέα στην ανάλυση των κυματομορφών με την βοήθεια του μετασχηματισμού Fourier συνίσταται στο ότι μία κυματομορφή

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA) ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Coponent Analysis, PCA) καθ. Βασίλης Μάγκλαρης aglaris@netode.ntua.gr www.netode.ntua.gr

Διαβάστε περισσότερα

Σύστημα ενίσχυσης ήχου εξωτερικού χώρου (Outdoor Sound Reinforcement System)

Σύστημα ενίσχυσης ήχου εξωτερικού χώρου (Outdoor Sound Reinforcement System) Σύστημα ενίσχυσης ήχου εξωτερικού χώρου (Outdoor Sound Reinforcement System) Εισαγωγή Η μελέτη των συστημάτων ενίσχυσης ήχου αρχίζει με μια ανάλυση ενός απλού συστήματος εξωτερικού χώρου (outdoor system).

Διαβάστε περισσότερα

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής

Συστήματα αναγνώρισης ομιλίας και χρήση τους. Αναστάσιος Φραντζής Συστήματα αναγνώρισης ομιλίας και χρήση τους Αναστάσιος Φραντζής ΓΤΠ 61 0/0/202 01/04/2012 Συσκευές αλληλεπίδρασης εισόδου 1. Εισαγωγής κειμένου 3. Αναγνώριση κειμένου, χειρογράφου, φωνής Πληκτρολόγιο

Διαβάστε περισσότερα

Μετάδοση πληροφορίας - Διαμόρφωση

Μετάδοση πληροφορίας - Διαμόρφωση Μετάδοση πληροφορίας - Διαμόρφωση MYE006: ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ Ευάγγελος Παπαπέτρου ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΗΧ. Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Διάρθρωση μαθήματος Μετάδοση Βασικές έννοιες Διαμόρφωση ορισμός είδη

Διαβάστε περισσότερα

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ΗΜΥ 100 Εισαγωγή στην Τεχνολογία Δρ. Στέλιος Τιμοθέου ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΑ ΘΕΜΑΤΑ ΜΑΣ ΣΗΜΕΡΑ Αναλογικά και ψηφιακά συστήματα Μετατροπή

Διαβάστε περισσότερα

Keywords λέξεις κλειδιά:

Keywords λέξεις κλειδιά: ΑΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΕΠΙΣΤΗΜΩΝ Τμήμα Μηχανικών Μουσικής Τεχνολογίας & Ακουστικής ''Κοχλιακά εμφυτεύματα: προσομοίωση της ακοής μέσω εφαρμογής και απεικόνιση της διασποράς ηλεκτρικού πεδίου με

Διαβάστε περισσότερα

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Συστήματα Πολυμέσων. Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΙΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 2: Εισαγωγικά θέματα Ψηφιοποίησης Θρασύβουλος Γ. Τσιάτσος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

Ανάλυση Κυκλωμάτων. Φώτης Πλέσσας Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών

Ανάλυση Κυκλωμάτων. Φώτης Πλέσσας Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Ανάλυση Κυκλωμάτων Σήματα Φώτης Πλέσσας fplessas@inf.uth.gr Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Εισαγωγή Για την ανάλυση των ηλεκτρικών κυκλωμάτων μαζί με την μαθηματική περιγραφή των

Διαβάστε περισσότερα

Επικοινωνίες στη Ναυτιλία

Επικοινωνίες στη Ναυτιλία Επικοινωνίες στη Ναυτιλία Εισαγωγή Α. Παπαδάκης, Αναπλ. Καθ. ΑΣΠΑΙΤΕ Δρ. ΗΜΜΥ Μηχ. ΕΜΠ Βασικά Αντικείμενα Μαθήματος Σήματα Κατηγοριοποίηση, ψηφιοποίηση, δειγματοληψία, κβαντισμός Βασικά σήματα ήχος, εικόνα,

Διαβάστε περισσότερα

HMY 220: Σήματα και Συστήματα Ι

HMY 220: Σήματα και Συστήματα Ι Σύγκλιση Σειρών Fourier Ιδιότητες Σειρών Fourier Παραδείγματα HMY 220: Σήματα και Συστήματα Ι ΔΙΑΛΕΞΗ #10 Τρεις ισοδύναμες μορφές: () = = = = Σειρές Fourier j( 2π ) t Τ.. x () t FS a jω0t xt () = ae =

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004

Συστήµατα Πολυµέσων Ενδιάµεση Εξέταση: Οκτώβριος 2004 Ενδιάµεση Εξέταση: Οκτώβριος 4 ΜΕΡΟΣ Β: ΑΣΚΗΣΕΙΣ Άσκηση (25 µονάδες): Μια εικόνα αποχρώσεων του γκρι και διαστάσεων 25 x pixel έχει κωδικοποιηθεί κατά PCM µε βάθος χρώµατος 3 bits /pixel. Οι τιµές φωτεινότητας

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία Σημάτων

Ψηφιακή Επεξεργασία Σημάτων Ψηφιακή Επεξεργασία Σημάτων Ενότητα 7: Μετατροπή Σήματος από Αναλογική Μορφή σε Ψηφιακή Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής 1 Μετατροπή Αναλογικού Σήματος σε Ψηφιακό Είδη Δειγματοληψίας: Ιδανική

Διαβάστε περισσότερα

ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ

ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ Απλοί Ταξινομητές Δύο προσεγγίσεις για το σχεδιασμό ενός ταξινομητή. 1. Θεωρητική: Αρχικά, δημιουργείται μαθηματικό μοντέλο του προβλήματος, μετά, βάση του μοντέλου, σχεδιάζεται βέλτιστος ταξινομητής.

Διαβάστε περισσότερα

27/4/2009. Για την υλοποίηση τέτοιων αλγορίθμων επεξεργασίας απαιτείται η χρήση μνήμης. T η περίοδος δειγματοληψίας. Επίκ. Καθηγητής.

27/4/2009. Για την υλοποίηση τέτοιων αλγορίθμων επεξεργασίας απαιτείται η χρήση μνήμης. T η περίοδος δειγματοληψίας. Επίκ. Καθηγητής. Μάθημα: «Ψηφιακή Επεξεργασία Ήχου» Διάλεξη 6 η : «Επεξεργαστές με Μνήμη (Mέρος ΙI)» Φλώρος Ανδρέας Επίκ. Καθηγητής Από προηγούμενο μάθημα... Αναπαράσταση καθυστέρησης ενός δείγματος η περίοδος δειγματοληψίας

Διαβάστε περισσότερα

Θεώρημα δειγματοληψίας

Θεώρημα δειγματοληψίας Δειγματοληψία Θεώρημα δειγματοληψίας Ένα βαθυπερατό σήμα πεπερασμένης ενέργειας που δεν περιέχει συχνότητες μεγαλύτερες των W Hertz μπορεί να περιγραφθεί πλήρως από τις τιμές του σε χρονικές στιγμές ισαπέχουσες

Διαβάστε περισσότερα

Συμπίεση Δεδομένων

Συμπίεση Δεδομένων Συμπίεση Δεδομένων 2014-2015 Στοιχεία Επεξεργασίας Σήματος Δρ. Ν. Π. Σγούρος 2 Εργοδικές Διαδικασίες Η μέση τιμή διαφόρων στιγμιότυπων της διαδικασίας (στατιστική μέση τιμή) ταυτίζεται με τη χρονική μέση

Διαβάστε περισσότερα

Kεφάλαιο 5 DFT- FFT ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER DISCRETE FOURIER TRANSFORM 1/ 80. ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ DFT-FFT Σ.

Kεφάλαιο 5 DFT- FFT ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER DISCRETE FOURIER TRANSFORM 1/ 80. ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ DFT-FFT Σ. Kεφάλαιο 5 DFT- FFT ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER DISCRETE FOURIER TRASFORM / x X x X x X x 3 x DFT X 3 X x 5 X 5 x 6 X 6 x 7 X 7 / DFT - Ορισμοί αναφέρεται σε μία πεπερασμένου μήκους ακολουθία σημείων

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Ακαδημαϊκό Έτος Παρουσίαση Νο. 2. Δισδιάστατα Σήματα και Συστήματα #1

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Ακαδημαϊκό Έτος Παρουσίαση Νο. 2. Δισδιάστατα Σήματα και Συστήματα #1 Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ακαδημαϊκό Έτος 009-0 Παρουσίαση Νο. Δισδιάστατα Σήματα και Συστήματα # Βασικοί ορισμοί () Κάθε εικόνα είναι ένα δισδιάστατο (-D) σήμα. Αναλογική εικόνα: x α Ψηφιακή

Διαβάστε περισσότερα

Ψηφιακές Τηλεπικοινωνίες

Ψηφιακές Τηλεπικοινωνίες Ψηφιακές Τηλεπικοινωνίες Κωδικοποίηση Αναλογικής Πηγής: Κβάντιση Εισαγωγή Αναλογική πηγή: μετά από δειγματοληψία γίνεται διακριτού χρόνου άπειρος αριθμός bits/έξοδο για τέλεια αναπαράσταση Θεωρία Ρυθμού-Παραμόρφωσης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ ΤΜΗΜΑ ΕΠΙΣΤΗΜΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΜΔΕ Προηγμένα Τηλεπικοινωνιακά Συστήματα και Δίκτυα Διάλεξη 6 η Νικόλαος Χ. Σαγιάς Επίκουρος Καθηγητής Webpage: http://eclass.uop.gr/courses/tst215

Διαβάστε περισσότερα

Συστήµατα και Αλγόριθµοι Πολυµέσων

Συστήµατα και Αλγόριθµοι Πολυµέσων Συστήµατα και Αλγόριθµοι Πολυµέσων Ιωάννης Χαρ. Κατσαβουνίδης Οµιλία #3: Αρχές Επεξεργασίας Σηµάτων Πολυµέσων 10 Οκτωβρίου 005 Επανάλειψη (1) ειγµατοληψία επανα-δειγµατοληψία Τεχνικές φίλτρων (συνέλειξη)

Διαβάστε περισσότερα

Εφαρμογή στις ψηφιακές επικοινωνίες

Εφαρμογή στις ψηφιακές επικοινωνίες Δειγματοληψία Εφαρμογή στις ψηφιακές επικοινωνίες Γεννήτρια σήματος RF, (up converter Ενισχυτής) Προενισχυτής down-converter Ψηφιοποιητής σήματος RF Μονάδα ψηφ. επεξεργασίας Μονάδα ψηφ. επεξεργασίας 100

Διαβάστε περισσότερα

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1 Ήχος και φωνή Φύση του ήχου Ψηφιοποίηση µε µετασχηµατισµό Ψηφιοποίηση µε δειγµατοληψία Παλµοκωδική διαµόρφωση Αναπαράσταση µουσικής Ανάλυση και σύνθεση φωνής Μετάδοση φωνής Τεχνολογία Πολυµέσων 4-1 Φύση

Διαβάστε περισσότερα

Ο Παλμογράφος στη Διδασκαλία της Τριγωνομετρίας. Εφαρμογές της Τριγωνομετρίας σε πραγματικά προβλήματα και ενδιαφέρουσες επεκτάσεις

Ο Παλμογράφος στη Διδασκαλία της Τριγωνομετρίας. Εφαρμογές της Τριγωνομετρίας σε πραγματικά προβλήματα και ενδιαφέρουσες επεκτάσεις Ο Παλμογράφος στη Διδασκαλία της Τριγωνομετρίας Εφαρμογές της Τριγωνομετρίας σε πραγματικά προβλήματα και ενδιαφέρουσες επεκτάσεις Περίληψη Τριγωνομετρικές Συναρτήσεις Κυματική Παλμογράφος STEM Εφαρμογές

Διαβάστε περισσότερα

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

Μετάδοση πληροφορίας - Διαμόρφωση

Μετάδοση πληροφορίας - Διαμόρφωση ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΤΜΗΜΑ ΜΗΧ. Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Μετάδοση πληροφορίας - Διαμόρφωση MYE006-ΠΛΕ065: ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ Ευάγγελος Παπαπέτρου Διάρθρωση μαθήματος Βασικές έννοιες μετάδοσης Διαμόρφωση ορισμός

Διαβάστε περισσότερα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ Ενότητα : ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER Aναστασία Βελώνη Τμήμα Η.Υ.Σ 1 Άδειες Χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309 Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2015-2016 Ντίνα Λύκα lika@biology.uoc.gr 1. Εισαγωγή Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΜΕΛΕΤΗ ΓΝΩΣΤΙΚΩΝΝ ΡΑΔΙΟΣΥΣΤΗΜΑΤΩΝ ΕΠΙΚΟΙΝΩΝΙΑΣ

ΜΕΛΕΤΗ ΓΝΩΣΤΙΚΩΝΝ ΡΑΔΙΟΣΥΣΤΗΜΑΤΩΝ ΕΠΙΚΟΙΝΩΝΙΑΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡOΦΟΡΙΚΗΣ ΤΕ ΜΕΛΕΤΗ ΓΝΩΣΤΙΚΩΝΝ ΡΑΔΙΟΣΥΣΤΗΜΑΤΩΝ ΕΠΙΚΟΙΝΩΝΙΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΟΥ ΖΗΣΚΑ ΠΑΝΑΓΙΩΤΗ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Δρ ΕΥΣΤΑΘΙΟΥ ΔΗΜΗΤΡΙΟΣ ΕΠΙΣΚΟΠΗΣΗ ΠΑΡΟΥΣΙΑΣΗΣ Σκοπός Πτυχιακής Εργασίας

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ Κεφάλαιο 4 : Σήματα Χρήστος Ξενάκης Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων Περιεχόμενα ομιλίας Είδη /Κατηγορίες Σημάτων Στοιχειώδη Σήματα Χαρακτηριστικές Τιμές Σημάτων Τεχνικές

Διαβάστε περισσότερα

Επεξεργασία Πολυµέσων. Δρ. Μαρία Κοζύρη Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας

Επεξεργασία Πολυµέσων. Δρ. Μαρία Κοζύρη Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας Π.Μ.Σ. «Εφαρµοσµένη Πληροφορική» Τµήµα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών Πανεπιστήµιο Θεσσαλίας Ενότητα 0: Εισαγωγή στο µάθηµα 2 Διαδικαστικά Παράδοση: Παρασκευή 16:00-18:30 Διδάσκων: E-mail:

Διαβάστε περισσότερα

Επομένως το εύρος ζώνης του διαμορφωμένου σήματος είναι 2.

Επομένως το εύρος ζώνης του διαμορφωμένου σήματος είναι 2. ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΠΛΗ ΓΙΑ ΤΙΣ ΕΞΕΤΑΣΕΙΣ ΘΕΜΑ Το φέρον σε ένα σύστημα DSB διαμόρφωσης είναι c t A t μηνύματος είναι το m( t) sin c( t) sin c ( t) ( ) cos 4 c και το σήμα. Το διαμορφωμένο σήμα διέρχεται

Διαβάστε περισσότερα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα Δρ. Δημήτριος Ευσταθίου Επίκουρος Καθηγητής Μετασχηματισμός Fourier Στο κεφάλαιο αυτό θα εισάγουμε και θα μελετήσουμε

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ακαδημαϊκό Έτος 2015-16 Παρουσίαση Νο. 1 Εισαγωγή Τι είναι η εικόνα; Οτιδήποτε μπορούμε να δούμε ή να απεικονίσουμε Π.χ. Μια εικόνα τοπίου αλλά και η απεικόνιση

Διαβάστε περισσότερα