Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

Σχετικά έγγραφα
Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 22: Γρήγορος Μετασχηματισμός Fourier Ανάλυση σημάτων/συστημάτων με το ΔΜΦ

Ψηφιακή Επεξεργασία Σημάτων

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος

Ο μετασχηματισμός Fourier

Διακριτός Μετασχηματισμός Fourier

Kεφάλαιο 5 DFT- FFT ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER DISCRETE FOURIER TRANSFORM 1/ 80. ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ DFT-FFT Σ.

Ψηφιακή Επεξεργασία Σημάτων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΤΑΧΥΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Διάλεξη 6. Fourier Ανάλυση Σημάτων. (Επανάληψη Κεφ Κεφ. 10.3, ) Ανάλυση σημάτων. Τι πρέπει να προσέξουμε

Ψηφιακή Επεξεργασία Σημάτων

Σήματα και Συστήματα. Διάλεξη 2: Στοιχειώδη Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

FFT. Θα επικεντρωθούμε στο ΔΜΦ αλλά όλα ισχύουν και για τον

Σήματα και Συστήματα. Διάλεξη 9: Μελέτη ΓΧΑ Συστημάτων με τον Μετασχηματισμό Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Α. Αιτιολογήστε αν είναι γραμμικά ή όχι και χρονικά αμετάβλητα ή όχι.

DFT ιακριτός µετ/σµός Fourier Discrete Fourier Transform

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

1. ΕΙΣΑΓΩΓΗ ΣΤΟ MATLAB... 13

Ψηφιακή Επεξεργασία Σημάτων

27/4/2009. Για την υλοποίηση τέτοιων αλγορίθμων επεξεργασίας απαιτείται η χρήση μνήμης. T η περίοδος δειγματοληψίας. Επίκ. Καθηγητής.

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Θεώρημα δειγματοληψίας

Εφαρμογή στις ψηφιακές επικοινωνίες

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

Τηλεπικοινωνιακά Συστήματα Ι

Επαναληπτικές Ασκήσεις για το µάθηµα Ψηφιακή Επεξεργασία Σηµάτων

ΑΝΑΛΥΣΗ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΤΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟ FOURIER

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής

27-Ιαν-2009 ΗΜΥ (ι) Βασική στατιστική (ιι) Μετατροπές: αναλογικό-σεψηφιακό και ψηφιακό-σε-αναλογικό

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ

Σήματα και Συστήματα. Διάλεξη 7: Μετασχηματισμός Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα

3-Μαρτ-2009 ΗΜΥ Γρήγορος Μετασχηματισμός Fourier Εφαρμογές

20-Φεβ-2009 ΗΜΥ Διακριτός Μετασχηματισμός Fourier

Σήματα και Συστήματα. Διάλεξη 10: Γραμμικά Φίλτρα. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

7 ο ΚΕΦΑΛΑΙΟ ΕΡΩΤΗΣΕΙΣ ΑΥΤΟΕΞΕΤΑΣΗΣ. 1) Ποιος είναι ο ρόλος του δέκτη στις επικοινωνίες.

Ενότητα 4: Δειγματοληψία - Αναδίπλωση

Kεφάλαιο 5 DFT- FFT ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER DISCRETE FOURIER TRANSFORM ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ DFT-FFT. Σ.

Σήματα και Συστήματα. Διάλεξη 6: Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΥΣΗ FOURIER ΔΙΑΚΡΙΤΩΝ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ. DTFT και Περιοδική/Κυκλική Συνέλιξη

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT)

17-Φεβ-2009 ΗΜΥ Ιδιότητες Συνέλιξης Συσχέτιση

Αριθμητική Ανάλυση & Εφαρμογές

H ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΟΣ. στις τηλεπικοινωνίες

Τηλεπικοινωνιακά Συστήματα ΙΙ

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Σερρών Τμήμα Πληροφορικής & Επικοινωνιών Σήματα και Συστήματα

Ψηφιακές Τηλεπικοινωνίες. Θεωρία Ρυθμού Παραμόρφωσης

Εξομοίωση Τηλεπικοινωνιακού Συστήματος Βασικής Ζώνης

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ενότητα 5 η : Αποκατάσταση Εικόνας

FFT. εκέµβριος 2005 ΨΕΣ 1

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

Ψηφιακή Επεξεργασία Σημάτων

Στοιχεία επεξεργασίας σημάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ

ΕΝΟΤΗΤΑ 12: ΑΠΟΚΡΙΣΗ ΣΥΧΝΟΤΗΤΑΣ ΔΙΑΓΡΑΜΜΑΤΑ BODE

Παρουσίαση Νο. 6 Αποκατάσταση εικόνας

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

10-Μαρτ-2009 ΗΜΥ Παραθύρωση Ψηφιακά φίλτρα

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ. Εργαστήριο 8 ο. Αποδιαμόρφωση PAM-PPM με προσαρμοσμένα φίλτρα

Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e

Εισαγωγή στις Τηλεπικοινωνίες

Σήματα και Συστήματα. Διάλεξη 8: Ιδιότητες του Μετασχηματισμού Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

y[n] ay[n 1] = x[n] + βx[n 1] (6)


ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

20-Μαρ-2009 ΗΜΥ Φίλτρα απόκρισης πεπερασμένου παλμού (FIR)

Ιατρικά Ηλεκτρονικά. Χρήσιμοι Σύνδεσμοι. ΙΑΤΡΙΚΑ ΗΛΕΚΤΡΟΝΙΚΑ - ΔΙΑΛΕΞΗ 5α. Σημειώσεις μαθήματος: E mail:

Μετάδοση πληροφορίας - Διαμόρφωση

Μετάδοση πληροφορίας - Διαμόρφωση

Στατιστική, Άσκηση 2. (Κανονική κατανομή)

Κεφάλαιο 1 ο. Βασικά στοιχεία των Κυκλωμάτων

Συμπίεση Δεδομένων

Εισαγωγή στις Τηλεπικοινωνίες

Επεξεργασία Στοχαστικών Σημάτων

Ο μετασχηματισμός Fourier

Ο Μετασχηματισμός Ζ. Ανάλυση συστημάτων με το μετασχηματισμό Ζ

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER

Ψηφιακές Τηλεπικοινωνίες

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier

Εισαγωγή στις Τηλεπικοινωνίες. Δομή της παρουσίασης

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Transcript:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ: ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΗΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών Χαράλαμπου Ιωάννου του Δημητρίου Αριθμός Μητρώου: 5334 Θέμα Μελέτη Αλγόριθμων Αποθορυβοποίησης Σήματος Ομιλίας Επιβλέπων Ιωάννης Μουρτζόπουλος Αριθμός Διπλωματικής Εργασίας: Πάτρα, Ιούνιος 2010

ΠΙΣΤΟΠΟΙΗΣΗ Πιστοποιείται ότι η Διπλωματική Εργασία με θέμα Μελέτη Αλγόριθμων Αποθορυβοποίησης Σήματος Ομιλίας Του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Χαράλαμπου Ιωάννου του Δημητρίου Αριθμός Μητρώου: 5334 Παρουσιάστηκε δημόσια και εξετάστηκε στο Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών στις.../../ Ο Επιβλέπων Ο Διευθυντής του Τομέα Ιωάννης Μουρτζόπουλος Καθηγητής Νικόλαος Φακωτάκης Καθηγητής

Αριθμός Διπλωματικής Εργασίας: Θέμα: Μελέτη Αλγόριθμων Αποθορυβοποίησης Σήματος Ομιλίας Φοιτητής: Χαράλαμπος Ιωάννου Επιβλέπων: Ιωάννης Μουρτζόπουλος Περίληψη Στην παρούσα διπλωματική εργασία παρουσιάζεται αρχικά η θεωρία στη οποία βασίζεται η δημιουργία πέντε αλγόριθμων αποθορυβοποίησης. Συγκεκριμένα η γραμμική φασματική αφαίρεση (στην απλή μορφή της βασίζεται ο αλγόριθμος Boll, και με χρήση υπεραφαίρεσης ο αλγόριθμος Βerouti), η πολυζωνική φασματική αφαίρεση (σε αυτή βασίζεται ο αλγόριθμος Multiband), η χρήση φίλτρων Wiener (με εκτίμηση του a priori SNR όπως πρότεινε ο Scarlat). Τέλος παρουσιάζεται ο αλγόριθμος του Τσουκαλά που βασίζεται σε Wiener συνάρτηση και σε ένα ψυχοακουστικό μοντέλο. Στα πλαίσια της εργασίας δημιουργήθηκε γραφικό περιβάλλον αλληλεπίδρασης μέσω Matlab όπου και πραγματοποιήθηκαν μετρήσεις του SNR, NMR, segmental SNR και segmental NMR για 4 διαφορετικές τιμές ενθόρυβου σήματος 0,10,15 και 20 db. Το ενθόρυβο σήμα δημιουργήθηκε τεχνητά με την χρήση λευκού θορύβου. Μέσω των ποσοτήτων αυτών έγινε μια σύγκριση της απόδοσης αυτών των αλγορίθμων.

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 - ΕΙΣΑΓΩΓΗ ΕΙΣΑΓΩΓΙΚΟ ΚΕΙΜΕΝΟ ΚΑΙ ΓΕΝΙΚΗ ΔΙΑΡΘΡΩΣΗ ΤΗΣ ΕΡΓΑΣΙΑΣ...3 ΚΕΦΑΛΑΙΟ 2 - ΘΕΩΡΙΑ 2.1 Εισαγωγή...5 2.2 Ο Μετασχηματισμός Fourier...5 2.2.1 Ο Διακριτός Μετασχηματισμός Fourier (DFT)...5 2.2.2 Ο Ταχύς Μετασχηματισμός Fourier (FFT)...7 2.2.3 Ο Μετασχηματισμός Fourier Κατά Τμήματα (Short Time DFT)...9 2.3 Ο Αλγόριθμος Επικάλυψης Πρόσθεσης (Overlapadd)...10 2.4 Παράθυρο Ανάλυσης......12 2.5 Λευκός Θόρυβος..15 2.5.1 Εισαγωγή..15 2.5.2 Μαθηματική Ανάλυση.15 2.6 Μέθοδοι μέτρησης της ποιότητας της ομιλίας..16 Θεωρία Αλγόριθμων Αποθορυβοποίησης 2.7. Γραμμική Φασματική Αφαίρεση..18 2.7.1α Βασικές αρχές των αλγόριθμων φασματικής αφαίρεσης.18 2.7.1β Μειονέκτηματα της φασματικής αφαίρεσης...21 2.7.2 Φασματική αφαίρεση με χρήση υπεραφαίρεσης..22 2.8 Μη γραμμική Φασματική Αφαίρεση 2.8.1 Μη γραμμική φασματική αφαίρεση.27 2.8.2 Πολυζωνική Φασματική Αφαίρεση (Μultiband Spectral Subtraction) 29 2.9 Βελτίωση Ομιλίας με φίλτρο Wiener 2.9.1 Eισαγωγή στην θεωρία του φίλτρου Wiener... 32 2.9.2 Φίλτρα Wiener στο πεδίο της συχνότητας....33 2.9.3 Φίλτρα Wiener για μείωση θορύβου 34 2.9.4 Υλοποίηση φίλτρου Wiener σύμφωνα με Scarlat 35 2.10 Αλγόριθμος συμπίεσης ακουστού θορύβου (Τσουκαλάς)........38 1

ΚΕΦΑΛΑΙΟ 3 - ΥΛΟΠΟΙΗΣΗ 3.1 ΑΝΑΛΥΣΗ ΤΗΣ ΛΕΙΤΟΥΡΓΙΑΣ ΤΗΣ ΠΛΑΤΦΟΡΜΑΣ GUI...43 3.2 ΥΛΟΠΟΙΗΣΗ ΑΛΓΟΡΙΘΜΩΝ ΑΠΟΘΟΡΥΒΟΠΟΙΗΣΗΣ..48 3.2.1 Γενική μορφή αλγόριθμων αποθορυβοποίησης...48 3.2.2 Εκτίμηση θορύβου και ανίχνευση ομιλίας / ησυχίας...49 3.2.3 Ανιχνευτής δραστηριότητας ομιλίας φασματικής απόστασης (Spectral Distance Voice Activity Detector - VAD)...49 3.2.4 O αλγόριθμος του Boll.50 3.2.5 O αλγόριθμος του Berouti 52 3.2.6 O αλγόριθμος Μultiband..53 3.2.7 O αλγόριθμος Wiener...54 3.2.8 O αλγόριθμος καταστολής ακουστού θορύβου (Τσουκαλάς)..55 ΚΕΦΑΛΑΙΟ 4 ΜΕΤΡΗΣΕΙΣ 4.1 ΕΙΣΑΓΩΓΗ..57 4.2 ΠΑΡΟΥΣΙΑΣΗ ΜΕΤΡΗΣΕΩΝ..57 4.2.1 SNR ενθόρυβου σήματος 10dB..58 4.2.1.1 Αποθορυβοποιημένα σήματα...58 4.2.1.2 Segmental SNR (Ενθόρυβο Σήμα 10dB).....60 4.2.1.3 Segmental NMR (Ενθόρυβο Σήμα 10dB) 61 4.2.2 Συγκεντρωτικοί Πίνακες και Γραφικές Παραστάσεις..63 4.2.2.1 Πίνακας SNR/NMR - Γραφικές Seg.SNR / Seg.NMR (Ενθόρυβο Σήμα 10dB) 63 4.2.2.2 Πίνακας SNR/NMR - Γραφικές Seg.SNR / Seg.NMR (Ενθόρυβο Σήμα 0dB)..65 4.2.2.3 Πίνακας SNR/NMR - Γραφικές Seg.SNR / Seg.NMR (Ενθόρυβο Σήμα 15dB) 66 4.2.2.4 Πίνακας SNR/NMR - Γραφικές Seg.SNR / Seg.NMR (Ενθόρυβο Σήμα 20dB) 68 ΚΕΦΑΛΑΙΟ 5 - ΣΥΜΠΕΡΑΣΜΑΤΑ 70 ΒΙΒΛΙΟΓΡΑΦΙΑ... 71 ΠΑΡΑΡΤΗΜΑ Α Κώδικας αλγόριθμων και συναρτήσεων που χρησιμοποιούν....73 ΠΑΡΑΡΤΗΜΑ Β Περιεχόμενα του συνοδευτικού CD......86 2

ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ Η χρήση ηχητικών σημάτων ομιλίας αποκτά ολοένα και περισσότερες εφαρμογές στη σύγχρονη ζωή. Παραδείγματος χάριν σε θέματα προσωπικής ασφάλειας (πχ. αναγνώριση προσωπικής ομιλίας αντί για χρήση κωδικών για πρόσβαση ιδιωτικών χώρων), στον τομέα των τηλεπικοινωνιών, σε εφαρμογές ανακατασκευής αλλοιωμένων σημάτων. Γίνεται κατανοητό λοιπόν πως η ανάγκη για την αποθορυβοποίηση αυτών των σημάτων ομιλίας είναι μεγάλη. Ο θόρυβος που υπεισέρχεται σε ένα ηχητικό σήμα ομιλίας μπορεί να ανήκει σε δυο μεγάλες κατηγορίες: στατικός (stationary) και μεταβλητό (non-stationary). Στην πρώτη κατηγορία ανήκει ο λευκός, ο ροζ και άλλοι. Στην δεύτερη έχουμε τους περιβαλλοντικούς θορύβους (πχ. θόρυβος από αυτοκίνητα σε δρόμο, μουσική, ήχος εργοστασικών μηχανών). Στην παρούσα διπλωματική εργασία επικεντρωνόμαστε στους πιο βασικούς αλγόριθμους που έχουν δημιουργηθεί για την αφαίρεση προσθετικού θορύβου σε σήματα ομιλίας. Όλοι οι αλγόριθμοι της διπλωματικής έχουν υλοποιηθεί σε περιβάλλον MATLAB το οποίο αποτελεί ένα πολύ χρήσιμο εργαλείο στα χέρια ενός μηχανικού ήχου, όχι όμως και για υλοποιήσεις πραγματικού χρόνου (real time). Σε αυτό το σημείο είναι σημαντικό να γίνει μια αναφορά στον τρόπο διάρθρωσης της εργασίας: Στο 2 ο κεφάλαιο γίνεται αρχικά μια ανασκόπηση σε ζητήματα που αφορούν τον διακριτό και τον ταχύ μετασχηματισμό Φουριέ (DFT - FFT). Κατόπιν δίνεται η θεωρία του μετασχηματισμού Fourier κατά τμήματα. Στην συνέχεια ακολουθεί μια διεξοδική αναφορά στην μέθοδο συνέλιξης κατά τμήματα Overlap add και η θεωρία της παραθυροποίησης. Έπειτα παρουσιάζεται η βασική θεωρία του λευκού θορύβου. Κατόπιν αναλύονται οι αντικειμενικές μέθοδοι που χρησιμοποιήθηκαν για την μέτρηση της ποιότητας ομιλίας. Τέλος δίνεται η βασική θεωρία των αλγορίθμων αποθορυβοποίησης που έχουν αναπτυχθεί, φασματικής αφαίρεσης (γραμμικής Βοll, με χρήση υπεραφαίρεσης Βerouti), μη γραμμικής (πολυζωνική multiband), βασισμένων σε φίλτρα Wiener, και τέλος σε ψυχοακουστικά μοντέλα (αλγόριθμος Τsouala).που είναι το πρώτο βήμα για την περαιτέρω ημιτονοειδή του ανάλυση. Τέλος αναλύεται θεωρητικά κάθε κατηγορία αλγόριθμων που έχει αναπτυχθεί για την αποθορυβοποίηση ηχητικών σημάτων: Φασματικής αφαίρεσης (Boll), Φασματικής αφαίρεσης με υπεραφαίρεση (Berouti), Μη γραμμική φασματική αφαίρεση: Πολυζωνική (Μultiband), Wiener, Aλγόριθμος συμπίεσης ακουστού θορύβου του Tσουκαλά. Στο πρώτο μέρος του 3 ο κεφάλαιο δίνεται η υλοποίηση των πέντε αλγορίθμων που εξετάστηκαν στα πλαίσια της διπλωματικής, και παρουσιάζονται τα λογικά διαγράμματα τους (bloc diagrams) που προκύπτουν από την αντίστοιχη θεωρία στο κεφάλαιο 2. Στο δεύτερο μέρος του 3 ου κεφαλαίου δίνονται κάποια γενικά εισαγωγικά στοιχεία για το εργαλείο GUIDE του MATLAB, κάποιες βασικές εντολές δημιουργίας μιας πλατφόρμας GUI, καθώς και μια ανάλυση του τρόπου λειτουργίας της πλατφόρμας GUI που δημιουργήθηκε για τις ανάγκες της παρούσας εργασίας. Στο 4 ο κεφάλαιο παρουσιάζονται οι μετρήσεις που πραγματοποιήθηκαν με σκοπό την σύγκριση της απόδοσης των διαφορετικών αλγορίθμων και δίνονται οι αντίστοιχες γραφικές παραστάσεις των μεγεθών που μετρήθηκαν (SNR, NMR, Segmental SNR, Segmental NMR). Στο 5 ο κεφάλαιο αναλύονται τα συμπεράσματα που προέκυψαν από την διεξαγωγή των μετρήσεων. 3

Στο παράρτημα Α παρουσιάζεται ο κώδικας σε MATLAB των αλγορίθμων και των συναρτήσεων που αυτοί χρησιμοποιούν. Πιο συγκεκριμένα, παρατίθενται τα εκάστοτε scripts που αντιστοιχούν στα m-files του περιβάλλοντος MATLAB. Στο παράρτημα Β δίδονται τα περιεχόμενα του συνοδευτικού CD της διπλωματικής εργασίας. Bιβλιογραφία 4

ΘΕΩΡΙΑ ΚΕΦΑΛΑΙΟ 2 2.1 Εισαγωγή Στο κεφάλαιο αυτό επιχειρείται μια συνοπτική παρουσίαση όλου του θεωρητικού υπόβαθρου στο οποίο στηρίζεται η συγκεκριμένη εργασία. Έτσι, αρχικά γίνεται μια ανασκόπηση σε ζητήματα που αφορούν τον διακριτό και τον ταχύ μετασχηματισμό Φουριέ (DFT - FFT). Κατόπιν δίνεται η θεωρία του μετασχηματισμού Fourier κατά τμήματα. Στην συνέχεια ακολουθεί μια διεξοδική αναφορά στην μέθοδο συνέλιξης κατά τμήματα Overlap add και η θεωρία της παραθυροποίησης. Έπειτα παρουσιάζεται η βασική θεωρία του λευκού θορύβου. Κατόπιν αναλύονται οι αντικειμενικές μέθοδοι που χρησιμοποιήθηκαν για την μέτρηση της ποιότητας ομιλίας. Τέλος δίνεται η βασική θεωρία των αλγορίθμων αποθορυβοποίησης που έχουν αναπτυχθεί, φασματικής αφαίρεσης (γραμμικής Βοll, με χρήση υπεραφαίρεσης Βerouti), μη γραμμικής (πολυζωνική multiband), βασισμένων σε φίλτρα Wiener, και τέλος σε ψυχοακουστικά μοντέλα (αλγόριθμος Τsouala). 2.2 Ο Μετασχηματισμός Fourier 2.2.1 Ο Διακριτός Μετασχηματισμός Fourier (DFT) Η αξία του μετασχηματισμού Fourier στην ανάλυση των σημάτων στο πεδίο της συχνότητας είναι δεδομένη. Ωστόσο, οι ηλεκτρονικοί υπολογιστές δεν μπορούν να χειριστούν την εξίσωση ανάλυσης του μετασχηματισμού Fourier για σήματα διακριτού χρόνου: 1 jω 1 0 n j (2 π N ) n a = x[ n] e = x[ n] e (2.2.1) N n= N N n= N διότι είναι μια συνεχής συνάρτηση της ανεξάρτητης μεταβλητής ω. Έτσι, ο μετασχηματισμός Fourier διακριτού χρόνου καθίσταται αδόκιμος για χρήση από ένα υπολογιστικό σύστημα. Σε τέτοια συστήματα χρησιμοποιούμε μια εναλλακτική μορφή του μετασχηματισμού Fourier που ονομάζεται Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform - DFT). O DFT αντιστοιχεί σε δείγματα του Μετασχηματισμού Fourier, τα οποία ισαπέχουν κατά συχνότητα. Όπως και ο Μετασχηματισμός Fourier, έτσι και ο DFT ορίζεται για ακολουθίες πεπερασμένης διάρκειας. Είναι και ο ίδιος μια ακολουθία και ως τέτοια χρησιμοποιείται για την υλοποίηση μιας πληθώρας από σημαντικούς αλγορίθμους ψηφιακής επεξεργασίας σήματος. Οι εξισώσεις σύνθεσης και ανάλυσης του Διακριτού Μετασχηματισμού Fourier είναι οι εξής: N 1 1 x[ n] = X[ ] WN [ n] N = 0 (2.2.2) N 1 X[ ] = x[ nw ] [ n] n= 0 N (2.2.3) 5

όπου: 2π j n n N N[ ] N W n = W = e (2.2.4) Η ανεξάρτητη μεταβλητή είναι ο δείκτης που αναφέρεται στη συχνοτική συνιστώσα (ή φασματική ζώνη - frequency bin) με συχνότητα: 2π ω =, 0 N 1 (2.2.5) N Έτσι τα δείγματα που προκύπτουν από τον διακριτό μετασχηματισμό Fourier αντιστοιχούν σε συχνότητες, κλάσματα της συχνότητας δειγματοληψίας. Αποδεικνύεται ότι το τμήμα του φάσματος που εκτείνεται από το ω > π είναι το αντεστραμμένο είδωλο του τμήματος του φάσματος για συχνότητες 0 < ω < π. Για ω= π, λαμβάνουμε τη μέγιστη συχνότητα που διαχειρίζεται το σύστημα ψηφιακής επεξεργασίας σήματος χωρίς να γίνει aliasing. Συνεπώς η χρήσιμη πληροφορία του φάσματος βρίσκεται για τιμές του στο διάστημα 0 < < Ν / 2. Για > Ν/2 συναντάται το αντεστραμμένο είδωλο του φάσματος για < Ν/2. Δηλαδή για να αναπαρασταθούν σε ένα αριθμητικό σύστημα υπολογιστή οι ωφέλιμες συχνότητες από 0 < F < F max αρκούν τα πρώτα Ν/2 φασματικές ζώνες του DFT. Έτσι, εάν υποθέσουμε ότι εφαρμόζουμε DFT Ν σημείων σε ένα σήμα h[n], όπου n = 0,..,Ν-1, παίρνουμε την μιγαδική συνάρτηση Η[] με = 0,.. Ν-1. Επειδή το h[n] είναι ακολουθία πραγματικών αριθμών, για τα πραγματικά και φανταστικά μέρη του μετασχηματισμού του θα ισχύει: όπου το παίρνει τιμές στο διάστημα 0 έως Ν-1. Re() = Re(N-) (2.2.6) Im() = -Im(N-) (2.2.7) Το μέγεθος Ν αποτελεί το μήκος του Διακριτού Μετασχηματισμού Fourier. Μπορεί να είναι ίσο με τη διάρκεια Μ του σήματος x[n], αλλά μπορεί να είναι και μεγαλύτερο (Ν > Μ) για να επιτευχθεί καλύτερη ικανότητα διάκρισης συχνοτήτων (frequency resolution). Σε αυτή τη περίπτωση τα υπόλοιπα N-M δείγματα της x[n] λαμβάνονται ως μηδενικά. Ως ευκρίνεια διάκρισης συχνοτήτων ορίζεται το μέγεθος: Fs 1 1 Δ F = = = (2.2.8) N NT D όπου D η συνολική διάρκεια της ακολουθίας (σε sec), F s η συχνότητα δειγματοληψίας, T s η περίοδος δειγματοληψίας και Ν το μήκος του DFT. Όσο μικρότερο είναι το μέγεθος ΔF, τόσο αυξάνει η ικανότητα του DFT να διακρίνει μεταξύ συχνοτήτων της x[n] που βρίσκονται η μία κοντά στην άλλη. Το σύνολο των ιδιοτήτων που ισχύουν για τον Μετασχηματισμό Fourier ισχύει και για τον Διακριτό Μετασχηματισμό Fourier, με την προϋπόθεση ότι όλα τα μεγέθη έχουν μετασχηματιστεί με το ίδιο μήκος Ν έτσι ώστε να αντιστοιχούν σε όλα οι ίδιες συχνότητες ω. s 6

2.2.2 Ο Ταχύς Μετασχηματισμός Fourier (FFT) Η ευρεία χρησιμοποίηση του DFT σε ψηφιακά υπολογιστικά συστήματα, για πλειάδα εφαρμογών λειτούργησε ως κίνητρο, για να ερευνηθούν τρόποι με τους οποίους μπορεί να μειωθεί η πολυπλοκότητά του. Σε πρακτικές εφαρμογές, η πολυπλοκότητα του DFT, δηλαδή ο αριθμός των πράξεων που απαιτούνται, καθορίζει και τον χρόνο που απαιτείται για αυτή την υλοποίηση καθώς και τον εξοπλισμό σε υλικό - λογισμικό στη φάση του σχεδιασμού. Προσέχοντας την εξίσωση ανάλυσης του DFT (2.2.3), φαίνεται ότι για τον υπολογισμό κάθε μιας από τις Ν τιμές X[] χρειάζονται Ν πολλαπλασιασμοί και Ν-1 προσθέσεις. Άρα για το σύνολο των τιμών (δειγμάτων) του DFT, χρειάζονται Ν 2 πολλαπλασιασμοί και Ν(Ν-1) προσθέσεις. Εάν η ακολουθία x[n] είναι μιγαδική, όλες αυτές οι πράξεις είναι επίσης μιγαδικές και το συνολικό τους πλήθος είναι της τάξης του Ν 2. Η έρευνα που έχει γίνει, και που συνεχίζεται να γίνεται, στον τομέα της μείωσης των πράξεων που απαιτούνται για την υλοποίησή του DFT έχει αποδώσει σημαντικούς καρπούς. Με τη χρήση μαθηματικών χειρισμών της εξίσωσης 2.2.3 έχει καταστεί δυνατό, να παραχθούν αλγόριθμοι, όχι προσεγγίσεις, οι οποίοι στηρίζονται στον υπολογισμό πολλών DFT μικρότερου μήκους από Ν σημεία. Τα αποτελέσματα όλων αυτών των μικρότερων DFT συνδυάζονται κατάλληλα, ώστε να παράγουν τον DFT N σημείων. Αυτή η αναγωγή του DFT σε πολλούς DFT μικρότερου μήκους έχει γίνει μέχρι σήμερα με πάρα πολλούς τρόπους. Σε όλους αυτούς γίνεται αναφορά με το συλλογικό όνομα Ταχύς Μετασχηματισμός Fourier (Fast Fourier Transform - FFT), λόγω της μείωσης των πράξεων που επιτυγχάνουν και, επομένως, του χρόνου που απαιτείται για την υλοποίησή τους. Στις περισσότερες εκδοχές του FFT γίνεται εκμετάλλευση σειράς χαρακτηριστικών ιδιοτήτων της βασικής μιγαδικής εκθετικής W N n ποσότητας (αλγόριθμοι πεταλούδας) που περιγράφουμε στην εξίσωση 2.2.4 και που είναι γνωστή στη διεθνή βιβλιογραφία με το όνομα μικρός παράγοντας (twiddle factor). Οι πλέον γνωστοί αλγόριθμοι FFT θεωρούν ότι το Ν είναι μια ακέραια δύναμη του 2 (Ν = 2 Μ ) και μειώνουν τις πράξεις, ώστε η πολυπλοκότητα να γίνει ανάλογη του: Nlog 2 N (2.2.9) Στον παρακάτω πίνακα 2.1 φαίνεται το κέρδος σε ταχύτητα που επιτυγχάνεται με την χρησιμοποίηση του FFT, έναντι του DFT. Στο σχήμα 2.1 δίνεται πιο παραστατική αυτή η διαφορά: 7

N N 2 Nlog 2 (N) N 2 /Nlog 2 (N) 2 4 2 2,00 4 16 8 2,00 8 64 24 2,67 16 256 64 4,00 32 1024 160 6,40 64 4096 384 10,67 128 16384 896 18,29 256 65536 2048 32,00 512 262144 4608 56,89 1024 1048576 10240 102,40 2048 4194304 22528 186,18 Πίνακας 2.1: Ο αριθμός πράξεων που απαιτούνται από τον DFT, τον FFT και ο λόγος τους ως συνάρτηση του μήκους Ν 300000 250000 200000 Αριθμός πράξεων 150000 100000 DFT 50000 0 FF 0 100 200 300 400 500 600 N Σχήμα 2.1: Ο αριθμός των πράξεων που απαιτούνται από τον DFT και τον FFT ως συνάρτηση του μήκους Ν 8

2.2.3 Ο Μετασχηματισμός Fourier Κατά Τμήματα (Short Time DFT) Με την εισαγωγή του διακριτού μετασχηματισμού Fourier λύθηκε το πρόβλημα χειρισμoύ του φάσματος με τη βοήθεια ηλεκτρονικού υπολογιστή, που οφειλόταν στη συνεχή συνάρτηση της εξίσωσης ανάλυσης του μετασχηματισμού Fourier, μέσω της διακριτοποίησης σε συγκεκριμένες ισαπέχουσες συχνότητες του φάσματος και δημιουργώντας, αυτή τη φορά, μια νέα ακολουθία στο πεδίο της συχνότητας. Επίσης με την εισαγωγή του γρήγορου μετασχηματισμού Fourier περιορίστηκε δραστικά ο χρόνος εκτέλεσης του αλγορίθμου, έτσι ώστε να επιτευχθούν καλύτερα αποτελέσματα σε ζητήματα ταχύτητας. Τα παραπάνω εργαλεία αρκούν για την ανάλυση ενός σήματος - συστήματος διακριτού χρόνου στο πεδίο της συχνότητας, ενός πεπερασμένης διάρκειας σήματος. x[n] h[n] y[n] Πεδίο Χρόνου Πεδίο Συχνότητας D F T I D F T D F T I D F T D F T I D F T X[f] H[f] Y[f] Σχήμα 2.2: Ο διακριτός μετασχηματισμός Fourier ισχυρό εργαλείο για την ανάλυση σημάτων συστημάτων σε διακριτό χρόνο. και Τι γίνεται στην περίπτωση του πραγματικού χρόνου όπου η ροή πληροφορίας με τη μορφή σήματος διακριτού χρόνου είναι συνεχής; Είναι γεγονός ότι όταν γίνεται επεξεργασία σημάτων σε πραγματικό χρόνο δεν είναι γνωστό το τέλος τους, ούτε υπάρχει η πολυτέλεια της αναμονής για να τελειώσουν, διότι το σύστημα ψηφιακής επεξεργασίας του σήματος πρέπει να δίνει αποτελέσματα στην έξοδο, με τον ίδιο ρυθμό που τα δεδομένα εμφανίζονται στην είσοδο. Το ερώτημα που γεννάται είναι: Μπορεί να χρησιμοποιηθεί η ανάλυση Fourier χωρίς να είναι γνωστό το μήκος N του σήματος; Την απάντηση σε αυτό το πρόβλημα δίνει η μέθοδος του υπολογισμού του μετασχηματισμού κατά τμήματα. Έστω ένα σήμα στο πραγματικό χρόνο που συνεχώς εκτυλίσσεται. Με τη μέθοδο του κατά τμήματα υπολογισμού του μετασχηματισμού, δεν αναμένεται το τέλος του σήματος αλλά επιλέγεται ένα τμήμα διάρκειας Μ δειγμάτων. Μόλις εμφανιστεί το Μ-ιοστό δείγμα στην είσοδο του υπολογιστή τα Μ δείγματα θεωρούνται ως μπλοκ, των οποίων υπολογίζεται ο διακριτός μετασχηματισμός Fourier. Εκτελείται ο επιθυμητός αλγόριθμος στο πεδίο της συχνότητας και στη συνέχεια γίνεται υπολογισμός του αντίστροφου διακριτού μετασχηματισμού Fourier, βγάζοντας τα αποτελέσματα στην έξοδο. Η λεπτομερής διαδικασία είναι αρκετά πιο περίπλοκη αφού κάποιο τμήμα της πληροφορίας είναι απαραίτητο να επικαλυφθεί ή να αντικατασταθεί από το επόμενο μπλοκ δεδομένων. Τις σημαντικότερες μεθόδους υπολογισμού του μετασχηματισμού Fourier κατά τμήματα αποτελούν η μέθοδος Επικάλυψης Διατήρησης (Overlap Save) και η μέθοδος Επικάλυψης Πρόσθεσης (Overlap Add). 9

Σχήμα 2.5: Προκειμένου η κυκλική συνέλιξη να μας δώσει τα ίδια αποτελέσματα με την γραμμική, πρέπει να χρησιμοποιήσουμε συμπληρωμένους με μηδενικά (zero padded)dfts L +M 1. Σχήμα 2.6: Για το μήκος Ν του DFT διαλέγουμε το μικρότερο επιτρεπτό (συνήθως η μικρότερη δύναμη του 2 που είναι μεγαλύτερη ίση από το μήκος L + M -1) y(n) =IDFT N. 2.3 Ο Αλγόριθμος επικάλυψης - Πρόσθεσης (Overlap add) Σε αυτή τη μέθοδο το μήκος των μπλοκ δεδομένων εισόδου είναι L δείγματα και το μήκος των DFTs και IDFTs είναι N = L + M 1. Κάθε μπλοκ δεδομένων συμπληρώνεται με Μ 1 μηδενικά (zero padding) και κατόπιν υπολογίζεται ο DFT του. Έτσι τα μπλοκ δεδομένων μπορούν να αναπαρασταθούν ως εξής: Χ1(n) = { x(0), x(1),....., x(l 1), 0, 0,...., 0} (2.3.1) M 1 μηδενικά Χ2(n) = {x(l),x(l + 1),...., x(2l 1), 0, 0,...., 0} (2.3.2) M 1 μηδενικά Χ3(n) = {x(2l),...., x(3l 1), 0, 0,...., 0} (2.3.3) M 1 μηδενικά Οι δυο Ν μήκους DFTs (φίλτρου και μπλοκ δεδομένων) πολλαπλασιάζονται μεταξύ τους με αποτέλεσμα: Y m() = H()X m() = 0, 1,....., N 1 (2.3.4) 10

Η εφαρμογή του αντίστροφου μετασχηματισμού (IDFT) έχει σαν αποτέλεσμα μπλοκ δεδομένων με μήκος N που είναι ελεύθερα από aliasing μιας και το μήκος των DFTs και IDFTs είναι N = L + M 1 και οι ακολουθίες αυξάνονται στα Ν δείγματα κάθε φορά, συμπληρώνοντας με μηδενικά κάθε μπλοκ. Μιας και κάθε μπλοκ δεδομένων συμπληρώνεται με Μ 1 μηδενικά, τα τελευταία Μ 1 δείγματα από κάθε μπλοκ πρέπει να επικαληφθούν και να προστεθούν στα M 1 αρχικά δείγματα του επόμενου παραθύρου. Γι αυτό και η μέθοδος πήρε το όνομα «επικάλυψης πρόσθεσης» (Overlap add). Αυτή η επικάλυψη και πρόσθεση έχει σαν αποτέλεσμα μια ακολουθία εξόδου της μορφής: y(n) = {y1(0), y1(1),...., y1(l - 1), y1(l), + y2(0), y1(l + 1) + y2(1),...., y1(n - 1) + y2(m - 1), y2(m),...} (2.3.5) Η παραθυριοποίηση αυτή των δεδομένων εισόδου και η «μίξη» των μπλοκ εξόδου μεταξύ τους παρουσιάζονται στο σχήμα 2.7: Σχήμα 2.7:Σχηματική απεικόνιση του αλγόριθμου επικάλυψης πρόσθεσης (Overlap - add). 11

2.4 Παράθυρο Ανάλυσης Το πρώτο και σημαντικότερο βήμα για τη διαδικασία μετατροπής ενός σήματος από το πεδίο του χρόνου στο πεδίο της συχνότητας είναι η παραθυροποίηση του. Η τελευταία αποτελεί τη διαδικασία εκλογής ενός αριθμού δειγμάτων από το σήμα και τον πολλαπλασιασμό τους με μια συνάρτηση παραθύρου w(n). Ο αριθμός δειγμάτων που προκύπτει σε κάθε βήμα της διαδικασίας καθορίζεται από το μέγεθος του παραθύρου. Το τελευταίο αποτελεί μια σημαντική παράμετρο κυρίως αν ληφθεί υπ όψιν ότι ο αριθμός των συχνοτικών δειγμάτων που θα δώσει ο DFT στην έξοδό του αντιστοιχεί στο μισό του αριθμού των δειγμάτων στην είσοδό του, διεσπαρμένα στη μισή συχνότητα δειγματοληψίας. Πιο συγκεκριμένα το μέγεθος της συνάρτησης του παραθύρου σχετίζεται με τον τρόπο με τον οποίο το σήμα αναπαρίσταται-καθορίζει αν θα υπάρχει καλή ανάλυση συχνότητας ή καλή χρονική ανάλυση. Έτσι όσο πιο μεγάλο είναι το παράθυρο στο χρόνο τόσο καλύτερη ανάλυση συχνότητας θα έχουμε. Ταυτόχρονα όμως θα έχουμε κακή χρονική ανάλυση. Αυτό το φαινόμενο είναι γνωστό ως εναλλαγή ανάλυσης χρόνου εναντίον συχνότητας (time vs. frequency resolution trade off) Θα μπορούσε κανείς να ισχυριστεί ότι ένας τρόπος για να πάρει καλύτερη συχνοτική ανάλυση θα ήταν να προστεθούν μηδενικά στο παραθυροποιημένο σήμα έτσι ώστε να προκύπτει μεγαλύτερος FFT (Fast Fourier Transform).Αυτή η διαδικασία είναι γνωστή ως zero-padding και εκφράζει μια παρεμβολή (interpolation) στο πεδίο συχνότητας. Εν τούτοις όταν προστεθούν μηδενικά πριν από την εφαρμογή του DFT δεν αυξάνεται η ικανότητα διάκρισης δύο γειτονικών ημίτονων, αυξάνεται όμως η ανάλυση συχνότητας προσθέτοντας ενδιάμεσα παρεμβεβλημένα συχνοτικά bins. Το είδος του παραθύρου που θα χρησιμοποιηθεί έχει πολύ σημαντική επίδραση στη συχνοτική αναπαράσταση που θα προκύψει. Υπάρχουν διάφοροι τύποι παραθύρων και οι πιο γνωστοί από αυτούς φαίνονται στο Σχήμα 2.9 μαζί με την απόκριση συχνότητάς τους. Στο σημείο αυτό είναι σημαντικό να σημειωθεί ότι ένας πολλαπλασιασμός στο πεδίο του χρόνου (όπως αυτός μεταξύ του σήματος και της συνάρτησης παραθύρου) ισοδυναμεί με τη συνέλιξη στο πεδίο της συχνότητας των Fourier μετασχηματισμό των σημάτων. Αυτό φαίνεται στο Σχήμα 2.10 για ένα ημιτονικό σήμα και ένα παράθυρο Hamming. 12

Σχ. 2.9. Διάφοροι τύποι παραθύρων και η απόκριση συχνότητάς τους Σχ. 2.10 Συνέλιξη των φασμάτων ενός ημιτόνου και ενός παραθύρου Hamming 13

Δυο χαρακτηριστικά του μετασχηματισμού του παραθύρου στο πεδίο της συχνότητας σχετίζονται με το αν η συγκεκριμένη συνάρτηση παραθύρου είναι χρήσιμη ή όχι: α) το εύρος του κυρίως λοβού και β) η σχέση πλάτους μεταξύ του κυρίου και του δευτερεύοντος λοβού. Το εύρος ζώνης του κυρίως λοβού εκφράζεται σε bins (συχνοτικά δείγματα spectral samples) και σε σύνδεση με το μέγεθος του παραθύρου καθορίζει την ικανότητα διάκρισης δύο ημιτονοειδών κορυφών. Η ακόλουθη σχέση εκφράζει τη σχέση που θα έπρεπε να έχουν το μέγεθος του παραθύρου σε samples Μ, το εύρος ζώνης του κυρίως λοβού Β και η συχνότητα δειγματοληψίας f s ώστε να είναι δυνατή η διάκριση δύο ημιτονοειδών με συχνότητες f και f + 1 : s M B f + 1 f f (2.4.1) H σχέση πλάτους μεταξύ του κυρίου και του δευτερεύοντος λοβού εκφράζει το ποσοστό παραμόρφωσης που θα λάβει η ημιτονοειδής κορυφή από γειτονικούς λοβούς. Τώρα, αφού το φάσμα ενός bloc ή frame έχει υπολογιστεί, το παράθυρο ανάλυσης πρέπει να κινηθεί στην επόμενη θέση πάνω στην κυματομορφή ώστε να χρησιμοποιήσει το επόμενο σύνολο δειγμάτων. Η απόσταση μεταξύ των κέντρων δύο συνεχόμενων παραθύρων είναι γνωστή ως μέγεθος ολίσθησης παραθύρου (window slide ή hop size).αν το μέγεθος αυτό είναι μικρότερο από το μέγεθος του παραθύρου, τότε θα υπάρξει κάποιο ποσοστό επικάλυψης (overlap), που σημαίνει ότι κάποια δείγματα θα χρησιμοποιηθούν παραπάνω από μια φορά στη διαδικασία ανάλυσης. Γενικότερα, όσο μεγαλύτερο είναι το ποσοστό επικάλυψης τόσο πιο ομαλές θα είναι οι μεταβολές του φάσματος από frame σε frame, αυτό όμως είναι μια υπολογιστικά χρονοβόρα διαδικασία. Ο τύπος του παραθύρου και το μέγεθος ολίσθησης Η ή R α, όπως χρησιμοποιήθηκε παραπάνω, πρέπει να είναι τέτοια ώστε η περιβάλλουσα που προκύπτει να αθροίζεται σε μια σταθερά, σύμφωνα με την εξίσωση: A ( ) ( ) w m = w n m const (2.4.2) n= Μια μέτρηση της διαφοράς του A w από τη σταθερά είναι η σχέση: d w max m[ Aw( m)] min m[ Aw( m)] = 100 (2.4.3) max [ A ( m)] Αυτή η σχέση αναφέρεται ως η διαφόριση πλάτους του παράγοντα επικάλυψης (overlap factor) και η απαίτηση είναι να είναι ίση ή μικρότερη από το ένα τοις εκατό (1%). m w 14

2.5 Λευκός Θόρυβος 2.5.1 Εισαγωγή Στο πρόγραμμα που υλοποιήθηκε για την αποθορυβοποίηση σημάτων ομιλίας, δίνεται η δυνατότητα στον χρήστη να προσθέσει τεχνητά θόρυβο. Συγκεκριμένα του δίνεται η δυνατότητα επιλογής δύο μη στατικών θορύβων (street και factory noise) και δύο βασικών στατικών, του λευκού θορύβου και του ροζ θορύβου. Τα βασικά στοιχεία του λευκού θορύβου παρουσιάζονται παρακάτω. 2.5.2 Μαθηματική Ανάλυση Στην πράξη, σε κάθε πρόβλημα μέτρησης ή πρόβλημα διαβίβασης πληροφορίας, π.χ. σε μια τηλεπικοινωνιακή ζεύξη ή κατά τις μετρήσεις που γίνονται σε ένα ερευνητικό πρόγραμμα, έχουμε συνήθως να κάνουμε με πολύ ασθενή ηλεκτρικά σήματα. Η μέτρηση των σημάτων αυτών γίνεται πάντα με μια αβεβαιότητα που είναι συμφυής στα φυσικά φαινόμενα και στις φυσικές δομές και εμποδίζει την ανάδειξη του κύριου φαινομένου ή της πληροφορίας. Η χρονικά εξαρτημένη αβεβαιότητα στις φυσικές παραμέτρους αναφέρεται γενικά σαν θόρυβος. Ο θόρυβος είναι μια εντελώς ακανόνιστη διακύμανση που μπαίνει μαζί με την πληροφορία στην είσοδο της μετρητικής διάταξης ή που γεννιέται μέσα στην ίδια τη διάταξη ή στο κανάλι διαβίβασης της πληροφορίας. Η πιο απλή μορφή θορύβου είναι ο λεγόμενος λευκός θόρυβος. Η διακριτή διεργασία {wt} καλείται μία καθαρώς τυχαία ή λευκός θόρυβος (white noise) αν οι τυχαίες μεταβλητές wt αποτελούν μία ακολουθία αμοιβαία ανεξαρτήτων μεταβλητών με την ίδια κατανομή. Από τον ορισμό προκύπτει ότι η μέση τιμή και η διασπορά είναι σταθερές και ότι η αυτοδιασπορά δίνεται από τη σχέση γ() = cov{w t, w t+ } = 0 για =±1,±2,... (2.5.1) Καθώς η μέση τιμή και η αυτοδιασπορά είναι ανεξάρτητες από το χρόνο, η διεργασία είναι δευτέρας τάξεως στάσιμη. Στην πραγματικότητα είναι επίσης και αυστηρώς στάσιμη. Ο συντελεστής αυτοσυσχέτισης δίνεται από τη σχέση r( )= { 1 0 αν =0 αν = ± 1, ± 2,... (2.5.2) Το φάσμα ισχύος του λευκού θορύβου είναι σταθερό και δεν εξαρτάται από τις τιμές της συχνότητας. H χρονοσειρά λευκού θορύβου w(i), i=1,2,..n, που χρησιμοποιήθηκε στα πειράματα παράχθηκε από γεννήτρια τυχαίων αριθμών, έχει Γκαουσσιανή κατανομή, με μέση τιμή ίση με το μηδέν (0) και διασπορά ίση με ένα (1). Επίσης επειδή είναι και γραμμικός θόρυβος λόγω της κατανομής επειδή κάθε Γκαουσσιανό σήμα είναι και γραμμικό άρα και η χρονοσειρά θορύβου w(i) είναι γραμμική. 15

2.6 Μέθοδοι μέτρησης της ποιότητας της ομιλίας [15] Οι αντικειμενικές μέθοδοι μέτρησης της ποιότητας της ομιλίας είναι οι πλέον χρησιμοποιούμενες επειδή υλοποιούνται εύκολα, γρήγορα και χωρίς κόστος. Αν και δεν έχουν μεγάλη αξιοπιστία, χρησιμοποιούνται ευρύτατα, κυρίως για τη σύγκριση συστημάτων ομιλίας (πχ. Ενθόρυβη και αποθορυβοποιημένη ομιλία από διαφορετικές τεχνικές) παρά για την εξαγωγή ενός απόλυτου δείκτη ποιότητας. Οι αντικειμενικές μέθοδοι μπορούν να χωριστούν σε κατηγορίες ανάλογα με το πεδίο εφαρμογής τους, για παράδειγμα το πεδίο του χρόνου, της συχνότητας ή παραμέτρων. Οι μέθοδοι αυτές μετράνε την διαφορά δύο σημάτων από τα οποία το ένα είναι σήμα αναφοράς ενώ το άλλο είναι το υπό εκτίμηση (ή υπό μέτρηση ή τεστ) σήμα. Στην περίπτωση της αποθορυβοποίησης σήμα αναφοράς είναι το καθαρό σήμα ομιλίας ενώ υπό εκτίμηση σήμα είναι το ενθόρυβο σήμα (πριν την αποθορυβοποίηση) ή το αποθορυβοποιημένο σήμα (μετά την εφαρμογή της τεχνικής). Το πιο παλιό κριτήριο που χρησιμοποιήθηκε στην εργασία αυτή είναι ο Λόγος Σήματος προς Θόρυβο (Signal to Noise Ratio, SNR), ο οποίος μετράει το ποσοστό του θορύβου στο ενθόρυβο σήμα ή της παραμόρφωσης σε σχέση με το σήμα αναφοράς. Δίνεται από τη σχέση: N 1 2 [ xn ( )] SNR = [ xn ( ) f( n) ] n= 0 n= 0 10log 10 ( db) N 1 2 (2.6.1) όπου x(n) είναι το σήμα αναφοράς, f(n) το υπό μέτρηση σήμα που μπορεί να είναι είτε το ενθόρυβο σήμα y(n) ή το αποθορυβοποιημένο xˆ( n) και Ν το μήκος (σε δείγματα) του σήματος. Η ίδια σχέση χρησιμοποιείται και για τον υπολογισμό του θορύβου που στα πλαίσια της εργασίας προστέθηκε τεχνητά στο σήμα ομιλίας, με την διαφορά ότι ο παρονομαστής της εξ. (2.6.1) αντικαθίσταται από το σήμα του θορύβου d(n) και η σχέση χρησιμοποείται για να δώσει ένα συντελεστή με τον οποίο θα πολλαπλασιαστεί το σήμα θορύβου πριν την πρόσθεση του με το σήμα ομιλίας, δηλαδή: λ = N 1 2 x ( n) n= 0 SNR N 1 10 2 10 d ( n) n= 0 (2.6.2) όπου λ είναι η σταθερά με την οποία θα πολλαπλασιαστεί το σήμα θορύβου έτσι ώστε να προκύψει το επιθυμητό SNR μετά την πρόσθεση. Ο SNR είναι ασυσχέτιστος με υποκειμενικές μεθόδους. Μια βελτιωμένη έκδοση του είναι ο Τμηματικός Λόγος Σήματος προς Θόρυβο (Segmental Signal to Noise Ratio, SSNR), ο οποίος αποτελεί άθροιση του SNR για βραχύχρονα πλαίσια του σήματος και παρουσιάζει πολύ μεγαλύτερη συσχέτιση με υποκειμενικές μεθόδους. Δίνεται από τη σχέση: ik + K 1 2 1 [ wn ( ik) xn ( ) M ] 10 n= ik SSNR = log 10 ( db) ik + K 1 M 2 i= 0 wn ( ik) ( xn ( ) f( n) ) n= ik (2.6.3) 16

όπου Μ είναι ο συνολικός αριθμός των βραχύχρονων πλαισίων του σήματος ομιλίας, Κ το μήκος του κάθε τμήματος, και w(n) μια συνάρτηση παραθύρου μήκους Κ. Πρόσφατα έχουν προταθεί κριτήρια που βασίζονται σε μοντέλα του μηχανισμού ακοής. Τα κριτήρια αυτά μετράνε κάποια μορφή παραμόρφωσης που γίνεται αντιληπτή ή ακουστή στον ακροατή. Κατά συνέπεια χρησιμοποιούν μεγέθη τα οποία αντιπροσωπεύουν ενδιάμεσες και εσωτερικές αναπαραστάσεις του σήματος από το μηχανισμό ακοής. Από τα κριτήρια αυτά στην εργασία χρησιμοποίηθηκε ο Λόγος Θορύβου προς Επικάλυψη (Noise to Mas Ratio, NMR) ο οποίος στηρίζεται στο φαινόμενο επικάλυψης που λαμβάνει χώρα στο εσωτερικό αυτί. Λόγω αυτής της ταυτόχρονης φασματικής επικάλυψης, συνιστώσες θορύβου κάτω από ένα ορισμένο όριο (το κατώφλι επικάλυψης) δεν γίνονται αντιληπτές και κατά συνέπεια δεν συνεισφέρουν σε ακουστές παραμορφώσεις. Ο NMR μετράει το λόγο του θορύβου που υπάρχει σε ένα σήμα προς το κατώφλι επικάλυψης που δημιουργεί το σήμα αυτό. Μια προτεινόμενη μορφή του δίνεται από τη σχέση: M 1 2 10 B lh 1 Di (, ) NMR = log 10 ( db) M i= 0 B b= 1 = C () lb btbi (2.6.4) όπου D(,i) είναι οι φασματικές συνιστώσες του θορύβου, Tb ( i) το κατώφλι επικάλυψης για την φασματική περιοχή b και το i παράθυρο δεδομένων. C b ο αριθμός των φασματικών συνιστωσών ανά φασματική περιοχή, και lb, lh οι ακραίες συνιστώσες ανά φασματική περιοχή. Στην διπλωματική αυτή ο NMR υπολογίστηκε μέσω εξωτερικού εκτέλεσιμου αρχείου (ΝΜR.exe). Ουσιαστικά το αρχείο αυτό υπολογίζει τον Segmental NMR με προκαθορισμένο παράθυρο 1024 frames και στην συνέχεια δίνει τον μέσο όρο ως τιμή NMR. 17

ΘΕΩΡΙΑ ΑΛΓΟΡΙΘΜΩΝ ΑΠΟΘΟΡΥΒΟΠΟΙΗΣΗΣ 2.7. Γραμμική Φασματική Αφαίρεση [14] 2.7.1α Βασικές αρχές των αλγορίθμων φασματικής αφαίρεσης Ο αλγόριθμος φασματικής αφαίρεσης είναι ιστορικά ένας από τους πρώτους αλγόριθμους που προτάθηκαν για την μείωση του θορύβου. Τα περισσότερα από κάθε άλλο αλγόριθμο άρθρα έχουν γραφτεί περιγράφοντας τις παραλλαγές αυτού του αλγόριθμου. Βασίζεται σε μια απλή αρχή. Υιοθετώντας προσθετικό θόρυβο, μπορούμε να πάρουμε την εκτίμηση του φάσματους θορύβου από το φάσμα του ενθόρυβου σήματος. Το φάσμα του θορύβου μπορεί να εκτιμηθεί, και να αναπροσαρμοστεί, κατά την διάρκεια όπου το σήμα απουσιάζει. Η υπόθεση που κάνουμε είναι ότι ο θόρυβος είναι στατικός ή μια πολύ αργά μεταβαλλομένη διαδικασία και ότι το φάσμα του θορύβου δεν αλλάζει σημαντικά μεταξύ των περιόδων αναπροσαρμογής. Το βελτιωμένο σήμα προκύπτει από τον υπολογισμό του αντίστροφου μετασχηματισμού Fourier του εκτιμώμενου φάσματος του σήματος χρησιμοποιώντας την φάση του ενθόρυβου σήματος. Ο αλγόριθμος είναι υπολογιστικά απλός αφού περιλαμβάνει μόνο έναν κανονικό και έναν αντίστροφο μετασχηματισμό Fourier. H απλή όμως διαδικασία αφαίρεσης έχει και τα μειονεκτήματά της. Η αφαιρετική διαδικασία πρέπει να γίνει προσεκτικά για να αποφευχθεί αλλοίωση της ομιλίας. Αν γίνει πολύ μεγάλη αφαίρεση, τότε μπορεί να χαθεί κάποια πληροφορία ομιλίας, ενώ αν γίνει μικρή αφαίρεση τότε μπορεί να μείνει πολύς παρεμβατικός θόρυβος. Πολλές μέθοδοι έχουν προταθεί για την μείωση και σε μερικές περιπτώσεις εξαφάνιση της περισσότερης αλλοίωσης ομιλίας που εισάγεται από την διαδικασία φασματικής αφαίρεσης. Υποθέτουμε ότι y(n), το αλλοιωμένο σήμα από θόρυβο που έχουμε ως είσοδο, αποτελείται από το καθαρό σήμα x(n) και το σήμα προσθετικού θορύβου d(n) y(n)=x(n)+d(n) (2.7.1) Παίρνοντας τον μετασχηματισμό Fourier διακριτού χρόνου και στις δύο πλευρές προκύπτει: Υ(ω)=Χ(ω)+D(ω) (2.7.2) Mπορούμε να εκφράσουμε το Υ(ω) σε πολική μορφή: j y ( ) Y( ω) =Υ ( ω) e φ ω (2.7.3) Y(ω) είναι η το μέτρο του φάσματος και φy ( ω ) είναι η φάση του φάσματος του αλλοιωμένου σήματος με θόρυβο. Το φάσμα του θορύβου D(ω) μπορεί επίσης να εκφραστεί συναρτήσει του μέτρου και της φάσης j d ( ) D( ω) = D( ω) e φ ω. Το μέτρο του φάσματος του θορύβου D(ω) είναι άγνωστο, αλλά μπορεί να αντικατασταθεί από την μέση τιμή του που υπολογίζεται κατά την διάρκεια απουσίας ομιλίας (πχ. στις παύσεις ομιλίας). Παρομοίως η φάση του θορύβου φd ( ω ) μπορεί να αντικατασταθεί από το φάσμα του σήματος ομιλίας με θόρυβο φy ( ω ). Αυτό εν μέρει παρακινείται από το γεγονός ότι η 18

φάση δεν επηρεάζει την καταληπτότητα ομιλίας, αλλά μπορεί να επηρεάζει την ποιότητα της ομιλίας σε ένα βαθμό. Αφού κάνουμε αυτές τις αντικαταστάσεις στην εξίσωση 2.7.2, μπορούμε να έχουμε μια εκτίμηση του φάσματος του καθαρού σήματος: ˆ j ( ) ˆ y Χ ( ω) = [ Y( ω) D( ω) ] e φ ω (2.7.4) όπoυ D ˆ ( ω) είναι η εκτίμηση του μέτρου του φάσματος θορύβου που δημιουργήθηκε κατά την διάρκεια απουσίας ομιλίας. Χρησιμοποιούμε το σύμβολο ^ για να δηλώσουμε το εκτιμώμενο φάσμα ή την εκτιμώμενη παράμετρο που μας ενδιαφέρει. Το βελτιωμένο σήμα ομιλίας μπορεί να προκύψει απλά παίρνοντας τον αντίστροφο μετασχηματισμό Fourier του Χ ˆ ( ω). H εξίσωση 2.7.4 συνοψίζει την θεμελιώδη αρχή της φασματικής αφαίρεσης. Υπολόγισε το μέτρο του φάσματος της ομιλίας με θόρυβο μέσω του FFT και κράτα μια εκτίμηση του φάσματος του θορύβου όταν η ομιλία απουσιάζει. Αφαίρεσε το μέτρο του φάσματος θορύβου από το μέτρο του φάσματος του σήματος με θόρυβο (εξού κ το όνομα φασματική αφαίρεση) και τέλος πάρε τον αντίστροφο μετασχηματισμό Fourier του φάσματος διαφοράς (χρησιμοποιώντας την φάση του θορύβου) για να παραχθεί το βελτιωμένο σήμα ομιλίας. Πρέπει να σημειώσουμε ότι το μέτρο φάσματος του βελτιωμένου σήματος, Χ ˆ ( ω) = Y( ω) Dˆ ( ω), μπορεί να είναι αρνητικό λόγω ανακριβείων στον υπολογισμό του φάσματος του θορύβου. Το μέτρο του φάσματος όμως δεν μπορεί να είναι αρνητικό. Έτσι πρέπει να υπάρχει προσοχή όταν γίνεται η αφαίρεση των δυο φασμάτων για να διασφαλιστεί ότι το Χˆ ( ω) είναι πάντα μη αρνητικό. Μία λύση γι αυτό είναι να διορθώσουμε half-wave την διαφορά του φάσματος, δηλαδή να θέσουμε τα αρνητικά φασματικά στοιχεία στο μηδέν όπως φαίνεται παρακάτω: ( ) ˆ( ) ( ) ˆ ˆ Υ ω D ω αν Y ω > D( ω) X ( ω) = 0 αλλού (2.7.5) Η διαδικασία αυτή διόρθωσης είναι μόνο ένας από τους πολλούς τρόπους που μπορούμε να διασφαλίσουμε μη αρνητικά Χ ˆ ( ω). Η προηγούμενη απόρροια του αλγόριθμου φασματικής αφαίρεσης μπορεί εύκολα να επεκταθεί στο πεδίο της ισχύος. Σε μερικές περιπτώσεις μπορεί να είναι καλύτερα να δουλεύουμε με φάσματα ισχύος αντί για φάσματα ενέργειας. Για να πάρουμε το βραχυχρόνιο φάσμα ισχύος του σήματος ομιλίας με θόρυβο, πολλαπλασιάζουμε το Y(ω) στην εξίσωση 2.7.2 με το συζυγές του Y*(ω). Έτσι η 2.7.2 γίνεται: Υ(ω) ² = Χ(ω) ² + D(ω) ² + Χ(ω)D*(ω) + X*(ω)D(ω) = X(ω) ² + D(ω) ² + 2Re {X(ω)D*(ω)} (2.7.6) Οι όροι D(ω) ², Χ(ω)D*(ω), και X*(ω)D(ω) δεν μπορούν να παρθούν άμεσα και προσεγγίζονται ως Ε{ D(ω) ²}, Ε{ Χ(ω)D*(ω)} και Ε{ X*(ω)D(ω)}, όπου το E{} υποδεικνύει τον τελεστή εκτίμησης. 2 Τυπικά το Ε{ D(ω) ²} υπολογίζεται κατά την διάρκεια απουσίας ομιλίας και σημειώνεται Dˆ ( ω ). Αν δεχτούμε ότι d(n) είναι κατά μέσο όρο μηδέν (zero mean) και δεν συσχετίζεται με το καθαρό σήμα x(n), τότε οι όροι Ε{ Χ(ω)D*(ω)} και Ε{X*(ω)D(ω)} τείνουν στο μηδέν. Έτσι χρησιμοποιώντας τις προηγούμενες υποθέσεις, η εκτίμηση του φάσματος ισχύος του καθαρού σήματος προκύπτει: 19

ˆ 2 2 ˆ 2 X( ω) =Υ ( ω) D( ω) (2.7.7) Η προηγούμενη εξίσωση περιγράφει τον αλγόριθμο αφαίρεσης φάσματος ισχύος. Όπως και πριν, το X ˆ ( ω ) 2 δεν είναι σίγουρα θετικό, αλλά μπορεί να διορθωθεί με την μέθοδο half-wave. Το βελτιωμένο σήμα τελικά προκύπτει από τον υπολογισμό του αντίστροφου μετασχηματισμού 2 Fourier του ˆ 2 X ( ω ) (αυτό προκύπτει από την τετραγωνική ρίζα του Xˆ ( ω ), χρησιμοποιώντας την φάση του σήματος ομιλίας με θόρυβο. Η εξίσωση 2.7.7 μπορεί να γραφτεί στην ακόλουθη μορφή: ˆ ( ) 2 X ω = Η²(ω) Υ(ω) ² (2.7.8) όπου Dˆ ( ω) ² Η ( ω) = 1 (2.7.9) Υ ( ω) ² Στα πλαίσια της θεωρίας γραμμικών συστημάτων, το Η(ω) είναι γνωστό ως η συνάρτηση μεταφοράς του συστήματος. Στην βελτίωση ομιλίας, αναφερόμαστε στο Η(ω) ως συνάρτηση κέρδους ή συνάρτηση καταστολής. Το Η(ω) όπως βλέπουμε στην εξίσωση 2.7.9 είναι πραγματικός αριθμός και κατ αρχήν είναι πάντα θετικός παίρνοντας τιμές στο εύρος 0 Η( ω) 1. Αρνητικές τιμές προκύπτουν κάποιες φορές εξαιτίας ανακριβών υπολογισμών του φάσματος του θορύβου. Το Η(ω) ονομάζεται και συνάρτηση καταστολής γιατί παρέχει την ποσότητα καταστολής (ή ελάττωσης, αφού 0 Η( ω) 1) που εφαρμόζεται στο φάσμα ισχύος του θορύβου Υ(ω) ² σε μια 2 δεδομένη συχνότητα για να προκύψει το βελτιωμένο φάσμα ισχύος Xˆ ( ω ). Το σχήμα της συνάρτησης καταστολής είναι μοναδικό για ένα συγκεκριμένο αλγόριθμο βελτίωσης ομιλίας. Γι αυτό τον λόγο συχνά συγκρίνουμε διαφορετικούς αλγόριθμους μέσω της σύγκρισης των συναρτήσεων καταστολής. Το γεγονός ότι το Η(ω) παίρνει πραγματικές τιμές υποδηλώνει ότι το h(n) (o αντίστροφος μετασχηματισμός Fourier του) είναι ομαλά συμμετρικό γύρω από το μηδέν και έτσι όχι αιτιώδης (noncausal). Μια πιο γενικευμένη έκδοση του αλγόριθμου φασματικής αφαίρεσης δίνεται από τον τύπο: Xˆ( ω) p =Υ ( ω) p Dˆ( ω) p (2.7.10) όπου p είναι ο εκθέτης της ισχύος, με p=1 αποδίδεται η φασματική αφαίρεση ενεργείας, και με p=2 αποδίδεται ο αλγόριθμος της φασματικής αφαίρεσης ισχύος. Η γενική μορφή του αλγόριθμου φασματικής αφαίρεσης φαίνεται στο γράφημα 2.11. Είναι σημαντικό να σημειώσουμε ότι οι εξισώσεις 2.7.7 και 2.7.10 είναι μόνο προσεγγιστικές λόγω της παρουσίας των διασταυρούμενων όρων. Οι όροι αυτοί είναι μηδέν μόνο από στατιστικής άποψης, υποθέτοντας ότι οι υπολογισμοί πραγματοποιούνται χρησιμοποιώντας επαρκή δεδομένα και υποθέτοντας ότι τα σήματα είναι στάσιμα. Τα σήματα ομιλίας όμως δεν είναι στάσιμα. Στις περισσότερες εφαρμογές το σήμα ομιλίας επεξεργάζεται σε μια βάση frame-by-frame (χρησιμοποιώντας παράθυρα 20-30msec) και οι διασταυρούμενοι όροι δεν είναι απαραίτητα μηδενικοί. 20

Σχήμα 2.11 Γενική μορφή του αλγόριθμου φασματικής αφαίρεσης 2.7.1β. Μειονέκτηματα της φασματικής αφαίρεσης Αν και ο αλγόριθμος φασματικής αφαίρεσης μπορεί εύκολα να υλοποιηθεί για να μειώσει αποτελεσματικά τον θόρυβο που είναι παρόν σε ένα αλλοιωμένο σήμα, έχει μερικά μειονεκτήματα. Όπως αναφέρθηκε νωρίτερα, για την διασφάλιση ενός μη αρνητικού φάσματος, χρησιμοποιούμε την διόρθωση half-wave (θέτουμε τις αρνητικές τιμές ίσες με μηδέν). Αυτή η μη γραμμική επεξεργασία των αρνητικών τιμών όμως δημιουργεί μικρές, απομονωμένες κορυφές στο φάσμα που συμβαίνουν σε τυχαίες περιοχές συχνοτήτων για κάθε πλαίσιο (frame). Μετασχηματισμένες στο πεδίο του χρόνου, αυτές οι κορυφές ηχούν παρόμοια με τόνους με συχνότητες που αλλάζουν τυχαία από frame σε frame, που είναι δηλαδή τόνοι που ενεργοποιούνται κ απενεργοποιούνται στον ρυθμό της ανάλυσης πλαισίου ( κάθε 20 με 30 msec). Αυτός ο τύπος θορύβου που εισάγεται από την διορθωτική διαδικασία half-wave περιγράφεται ως τιτίβισμα με τονική ποιότητα και συχνά αναφέρεται στην βιβλιογραφία ως μουσικός θόρυβος (musical noise). O μουσικός θόρυβος είναι πιο χαρακτηριστικός στα σημεία του σήματος που δεν υπάρχει ομιλία, όπου η ισχύς του θορύβου είναι συγκρίσιμη με την ισχύ του σήματος ομιλίας. Σε μερικές περιπτώσεις αυτός ο μουσικός θόρυβος μπορεί να είναι πιο ενοχλητικός στον ακροατή σε σχέση με τις αρχικές διαστρεβλώσεις που οφείλονται από τον παρεμβαλλόμενο θόρυβο. Ένα άλλο σχετικά μικρότερης σημασίας μειονέκτημα είναι η χρήση του φάσματος του θορύβου που παράγει μια τραχύτητα στην ποιότητα της συντιθέμενης ομιλίας. Οι φάσεις του σήματος με θόρυβο δεν ενισχύονται προτού συνδυαστούν με το τροποποιημένο φάσμα για να αναπαράγουν το ενισχυμένο σήμα στον χρόνο. Αυτό οφείλεται στο ότι η παρουσία του θορύβου στην πληροφορία του φάσματος δεν συνεισφέρει πολύ στην ελάττωση της ποιότητας ομιλίας. Αν και αυτό είναι ιδιαίτερα αληθινό σε υψηλά SNR (>5 d B), σε χαμηλά SNR (<0 d B) το φάσμα του θορύβου 21

μπορεί να οδηγήσει σε μια αισθητή τραχύτητα στο σήμα ομιλίας, συνεισφέροντας έτσι στην μείωση της ποιότητας ομιλίας. Η εκτίμηση της φάσης της καθαρής ομιλίας είναι μια δύσκολη διαδικασία και αυξάνει σημαντικά την πολυπλοκότητα του αλγόριθμου. Η διαστρέβλωση εξαιτίας του φάσματος του θορύβου δεν είναι τόσο σημαντική σε σύγκριση με αυτή του φάσματος ενέργειας, ειδικά για υψηλά SNR. H καταπολέμηση του μουσικού θορύβου είναι πολύ πιο κρίσιμη από την εύρεση μεθόδων για την διατήρηση της αρχικής φάσης. Για αυτόν τον λόγο μεγάλη προσπάθεια έχει επικεντρωθεί στην εύρεση μεθόδων για μείωση του μουσικού θορύβου. Πριν όμως αναλύσουμε τις μεθόδους αυτές, είναι σημαντικό να επισημάνουμε μερικούς από τους παραγόντες που συνεισφέρουν στον μουσικό θόρυβο: 1. Μη γραμμική επεξεργασία των αρνητικών αφαιρούμενων φασματικών στοιχείων. 2. Ανακριβής εκτίμηση του φάσματος του θορύβου. Αφού το φάσμα του θορύβου δεν μπορεί να ληφθεί άμεσα, είμαστε αναγκασμένοι να χρησιμοποιήσουμε μια μέση προσέγγιση του θορύβου. Έτσι υπάρχουν μερικές σημαντικές αποκλίσεις στο εκτιμώμενο φάσμα θορύβου και στο πραγματικό περιεχόμενο θορύβου που είναι παρόν στο στιγμιαίο φάσμα ομιλίας. Η αφαίρεση αυτών των ποσοτήτων έχει ως αποτέλεσμα την παρουσία απομονωμένων υπολειμματικών επιπέδων θορύβου μεγάλης διασποράς. 3. Μεγάλη διασπορά στους υπολογισμούς των φασμάτων του θορύβου και του σήματος με θόρυβο. Οι περισσότεροι αλγόριθμοι χρησιμοποιούν εκτιμητές φάσματος περιοδικού τύπου, οι οποίοι είναι γνωστό ότι έχουν μεγάλη διακύμανση ακόμα και όταν χρησιμοποιούνται παράθυρα μεγάλης διάρκειας. 4. Μεγάλη ευμεταβλητότητα στην συνάρτηση καταστολής ή κέρδους. Είναι εξαιρετικά δύσκολο να ελαχιστοποιηθεί ο μουσικός θόρυβος χωρίς να επηρεαστεί το σήμα ομιλίας με κάποιο τρόπο και γενικά υπάρχει ένα ισοζύγιο μεταξύ της ποσότητας της μείωσης του θορύβου και της διαβλητότητας της ομιλίας που εισάγεται. Στη συνέχεια θα αναλυθούν κάποιες μέθοδοι που έχουν προταθεί για την μείωση του μουσικού θορύβου και συνεπώς της βελτίωσης της λειτουργίας του απλού αλγόριθμου φασματικής αφαίρεσης. 2.7.2 Φασματική αφαίρεση με χρήση υπεραφαίρεσης Η προσέγγιση του Βoll για την μείωση του μουσικού θορύβου ήταν να κατανικήσει φασματικά κάθε αρνητικό φασματικό στοιχείο από το να το θέσει στο μηδέν (εξίσωση 2.7.5.). Η κατώτερη τιμή (floor value) καθορίστηκε παίρνοντας την ελάχιστη φασματική τιμή από γειτονικά πλαίσια. Πιο συγκεκριμένα η εξίσωση 2.7.5 τροποποιήθηκε ως εξής: ( ) ˆ( ) ( ) ˆ( ) max ˆ( ) ˆ Υi ω D ω αν Yi ω D ω > D ω X i ( ω) = min ˆ j= i 1, i, i+ 1 X j( ω) αλλού (2.7.11) όπου Xˆ i ( ω ) υποδηλώνει το βελτιωμένο φάσμα που υπολογίζεται στο πλαίσιο i, και Dˆ ( ω ) είναι το φάσμα του θορύβου που λαμβάνεται κατά την διάρκεια απουσίας ομιλίας. Η βασική ιδέα της εξίσωσης 2.7.11 είναι να διατηρηθεί η πληροφορία αν το τρέχον πλαίσιο είναι ένα κομμάτι χαμηλής ενέργειας (πχ. ένα κομμάτι χωρίς ομιλία) ή να χρησιμοποιηθεί μία καλύτερη εκτίμηση του θορύβου αν αρκετά διαδοχικά πλαίσια δεν περιέχουν ομιλία. Το βασικό μειονέκτημα αυτής της προσέγγισης είναι ότι απαιτεί πρόσβαση σε μελλοντικό ενισχυμένο φάσμα, και μια τέτοια προσέγγιση μπορεί να μην είναι εφικτή για υλοποίηση πραγματικού χρόνου. 22

Μια διαφορετική προσέγγιση που δεν απαιτεί πρόσβαση σε μελλοντική πληροφορία προτάθηκε από τον Berouti. Η μέθοδος του συνίσταται στην αφαίρεση μιας υπερεκτίμησης του φάσματος ισχύος του θορύβου ενώ αποφεύγεται τα προκύπτοντα φασματικά στοιχεία να πάνε κάτω από μία προκαθορισμένη ελάχιστη τιμή (φασματικό δάπεδο). Η τεχνική αυτή είχε την ακόλουθη μορφή: ( ) ² ˆ( ) ² ( ) ² ( )max ˆ ˆ Υi ω α D ω αν Yi ω > α + β D( ω) ² X i ( ω) ² = β Dˆ ( ω) ² αλλού (2.7.12) όπου α είναι ο παράγοντας υπεραφαίρεσης ( α 1), και β (0 < β 1) είναι παράμετρος του φασματικού δαπέδου. Το βασικό κίνητρο για την χρήση του παράγοντα υπεραφαίρεσης και του φασματικού δαπέδου αναλύεται στην συνέχεια. Όταν αφαιρούμε την εκτίμηση του φάσματος του θορύβου από το φάσμα της ομιλίας με θόρυβο, παραμένουν κορυφές στο φάσμα. Κάποιες από αυτές τις κορυφές είναι ευρυζωνικές (περικλείουν μία ευρεία σειρά συχνοτήτων). ενώ άλλες είναι είναι στενής ζώνης και εμφανίζονται σαν καρφιά στο φάσμα. Υπεραφαιρώντας το φάσμα του θορύβου πχ χρησιμοποιώντας α>1, μπορούμε να μειώσουμε το μέγεθος των ευρυζωνικών κορυφών και σε μερικές περιπτώσεις να τις εξουδετερώσουμε. Αυτό όμως από μόνο του δεν είναι αρκετό επειδή οι βαθιές κοιλάδες που περιβάλλουν τις κορυφές παραμένουν στο φάσμα. Για αυτό τον λόγο το φασματικό δάπεδο (spectral flooring) χρησιμοποιείται για να «γεμίσει» τις φασματικές κοιλάδες και πιθανόν να καλύψει τις παραμένουσες κορυφές με την γειτνίαση φασματικών στοιχείων συγκρίσιμης τιμής. Οι κοιλάδες μεταξύ των κορυφών δεν είναι πια βαθιές όταν β>0 συγκριτικά με όταν β=0. Ο Berouti βρήκε ότι η ομιλία που επεξεργάστηκε σύμφωνα με την εξίσωση 2.7.11 είχε λιγότερο μουσικό θόρυβο από αυτήν που επεξεργάστηκε σύμφωνα με την 2.7.5. Οι δυο παράμετροι α και β προσφέρουν μεγάλη ελαστικότητα στον αλγόριθμο φασματικής αφαίρεσης. Η παράμετρος β ελέγχει το ποσό του απομείνοντος θορύβου και το ποσό του αντιληπτού μουσικού θορύβου. Αν η παράμετρος φασματικού δαπέδου β είναι πολύ μεγάλη, τότε ο απομένων θόρυβος θα είναι ακουστός αλλά ο μουσικός θόρυβος δεν θα είναι αντιληπτός. Αντίστροφα, αν ο β είναι πολύ μικρός ο μουσικός θόρυβος θα γίνει ενοχλητικός αλλά ο απομένων θόρυβος θα μειωθεί έντονα. Η γραφική παράσταση 2.12 δείχνει το αποτέλεσμα της αλλαγής της τιμής β στο φάσμα για μια δεδομένη τιμή του α. 23

Σχήμα 2.12 Επίδραση της αλλαγής της τιμής της παραμέτρου b φασματικού δαπέδου για δεδομένη τιμή του α Η παράμετρος α επηρεάζει το ποσό της φασματικής διαστρέβλωσης της ομιλίας που προκαλείται από την αφαίρεση στην εξίσωση 2.7.12. Αν το α είναι πολύ μεγάλο τότε το σήμα που προκύπτει θα διαστρεβλωθεί έντονα σε σημείο που θα υπάρχει πρόβλημα με την καταληπτότητα. Η γραφική παράσταση 2.13 δείχνει το αποτέλεσμα της αλλαγής της τιμής α στο φάσμα για μια δεδομένη τιμή του β. Πειραματικά αποτελέσματα έχουν δείξει ότι για την καλύτερη μείωση θορύβου με τον ελάχιστο μουσικό θόρυβο, το α θα πρέπει να είναι μικρό για υψηλά SNR πλαίσια (δηλαδή όταν η ομιλία είναι παρούσα) και μεγάλο για χαμηλά SNR πλαίσια (πχ για τμήματα χαμηλής ενέργειας ή κατά την διάρκεια παύσεων). Ο Berouti πρότεινε ότι η παράμετρος α θα πρέπει να ποικίλει από πλαίσιο σε πλαίσιο σύμφωνα με: α = α 3 0 20 SNR 5dB SNR 20dB (2.7.13) όπου 0 α είναι η επιθυμητή τιμή του α στα 0 db SNR, και το SNR είναι το βραχυχρόνιο SNR υπολογισμένο σε κάθε πλαίσιο. Να σημειώσουμε εδώ ότι αυτό δεν είναι το πραγματικό SNR αφού δεν έχουμε πρόσβαση στο καθαρό σήμα. Είναι μια a posteriori εκτίμηση του SNR υπολογισμένο βάσει του λόγου της ισχύος της θορυβώδους ομιλίας προς την ισχύ του εκτιμώμενου θορύβου. Η γραφική παράσταση 2.14 δείχνει το διάγραμμα της τιμής α σαν συνάρτηση του a posteriori SNR. 24

Σχήμα 2.13 Επίδραση της αλλαγής της τιμής της παραμέτρου υπεραφαίρεσης α για μία δεδομένη τιμή της b Σχήμα 2.14 Γραφική παράσταση του παράγοντα υπεραφαίρεσης α συναρτήσει του SNR 25

Το αποτέλεσμα της παραμέτρου α στο φάσμα φαίνεται αν σχεδιάσουμε τις ελαττωμένες καμπύλες σαν συνάρτηση του SNR για διαφορετικές τιμές του α. Αυτές οι καμπύλες μας δίνουν το ποσό της ελάττωσης (σε db) που συμβαίνει από τον αλγόριθμο της φασματικής αφαίρεσης. Για να πάρουμε τις καμπύλες καταστολής (ή ελάττωσης) πρέπει πρώτα να εκφράσουμε την συνάρτηση 2.7.12 στην μορφή: Xˆ ( ω) =Η( ω) Υ ( ω) (2.7.14) όπου Η(ω) μπορεί να θεωρηθεί ως ένα χρονικά μεταβαλλόμενο φίλτρο. Από την εξίσωση 2.7.12 το H(ω) δίνεται από τον τύπο: Υ( ω) ² α Dˆ ( ω) ² H ( ω) = ( ) Υ( ω) ² 1/2 (2.7.15) Η προηγούμενη εξίσωση μπορεί επίσης να γραφτεί: γ ( ω) α H ( ω) ( ) γω ( ) 1/2 = (2.7.16) όπου γ(ω) είναι το a posteriori SNR στην συχνότητα ω και ορίζεται: Υ( ω) ² γω ( ) = Dˆ (2.7.17) ( ω) ² Η γραφική παράσταση 2.15 σχεδιάζει το Η(ω) σαν συνάρτηση του γ(ω) για διαφορετικές τιμές της παραμέτρου α. Περισσότερη ελάττωση εφαρμόζεται αυξανόμενα για μεγαλύτερες τιμές του α. Έτσι για παράδειγμα αν το a posteriori SNR είναι 8dB στην συχνότητα ω, τότε η ελάττωση που θα επιτευχθεί για α=1 θα είναι -0.74 db, με α=3 θα είναι -2.8 db, και με α=5 θα είναι -6.8 db. Μεγαλύτερη ελάττωση πραγματοποιείται συνεπώς με μεγαλύτερες τιμές του α. Οι καμπύλες ελάττωσης της γραφικής παράστασης 2.15 επίσης μας λένε πότε συμβαίνει η «δαπεδοποίηση» (flooring). Αν α=5 για παράδειγμα, φασματικό flooring γίνεται όταν το a posteriori SNR είναι μικρότερο από 7dB. Αν α=3, συμβαίνει όταν είναι 5 db, και αν α=1, γίνεται όταν είναι μικρότερο από 0 db. Αυτό δείχνει ότι το φασματικό flooring συμβαίνει πιο συχνά όταν το α είναι μεγάλο συγκριτικά με το όταν το α είναι μικρό. Αυτό το συνεχόμενο φασματικό flooring του ενισχυμένου φάσματος συνεισφέρει σε διαστρέβλωση ομιλίας. Άλλος ένας παράγοντας είναι η ανομοιόμορφη κατανομή των τιμών γ(ω) στο φάσμα. Είναι δυνατό για παράδειγμα σε ένα δεδομένο πλαίσιο τα στοιχεία χαμηλών συχνοτήτων να ελλατωθούν κατά 7 db, ενώ αυτά των υψηλών κατά 1 db. Εκτεταμένα πειράματα εκτελέστηκαν από τον Berouti για να καθοριστούν οι ιδανικές τιμές των α και β. Η συνάρτηση στην εξίσωση 2.7.13 που φαίνεται στην γραφική 2.14 βρέθηκε να δουλεύει αρκετά καλά με το καλύτερο α 0 να βρίσκεται στην περιοχή από 3 έως 6. Η παράμετρος β βρέθηκε να εξαρτάται από την τιμή του a posteriori SNR. Για υψηλά επίπεδα θορύβου (SNR = -5 db), πρότεινε ότι το β πρέπει να είναι από 0.02 μέχρι 0.06 ενώ για χαμηλά επίπεδα θορύβου ( SNR 0 db), από 0.005 μέχρι 0.02. Συνέστισε ένα παράθυρο ανάλυσης 25-35msec. Η χρησιμοποίηση παραθύρου μικρότερου των 20msec οδήγησε σε τραχιά ποιότητα ομιλίας. 26