Θέματα Πτυχιακής/Μεταπτυχιακής Εργασίας Εργαστήριο Επεξεργασίας Σήματος Φωνής 26 Οκτωβρίου 2018 Τα παρακάτω θέματα παρουσιάζουν πτυχιακές/μεταπτυχιακές εργασίες στο Εργαστηριο Επεξεργασίας Σήματος Φωνής του Τμήματος Επιστήμης Υπολογιστών. 1. Ερευνητικό: Ανάλυση και Αναγνώριση Εκφραστικού Περιεχομένου Σημάτων Φωνής με χρήση τεχνικών Μηχανικής Μάθησης - 12 μήνες: Η αναγνώριση συναισθήματος αποτελεί σημαντικό και νέο κεφάλαιο στην Επεξεργασία Φωνής. Υπάρχουν μοντέλα που μπορούν να αναλύσουν το σήμα της φωνής σε υψηλής ακρίβειας AM-FM συνιστώσες. Θα θέλαμε να χρησιμοποιήσουμε αυτές τις συνιστώσες, πιθανόν σε συνδυασμό με άλλες, για την αναγνώριση συναισθήματος ομιλητών με τεχνικές μηχανικής μάθησης (Support Vector Machines, Gaussian Mixture Models) και άλλες. Η γνώση που θα αποκτήσετε περιλαμβάνει ανάλυση φωνής και ημιτονοειδών μοντέλων, τεχνικών μηχανικής μάθησης, καθώς και γνώση χαρακτηριστικών της εκφραστικής ομιλίας. Απαιτείται καλή γνώση επεξεργασίας σήματος και προγραμματισμού σε MATLAB. 2. Ερευνητικό: Εφαρμογή της Απόκλισης Διαταραχής Φάσης σε Ομιλία Κωφών - 6 μήνες: Η συνάρτηση Απόκλισης Διαταραχής Φάσης (Phase Distortion Deviation - PDD) είναι μια πρόσφατη τεχνική που εφαρμόζεται σε αρμονικά μοντέλα φωνής και μας πληροφορεί για τη διαταραχή της φάσης από την πλήρη αρμονικότητα. Η τεχνική αυτή έχει εφαρμοστεί για τη διάκριση παθολογικών από κανονικούς ομιλητές. Θέλουμε να δούμε αν υπάρχει σχέση ανάμεσα στην Απόκλιση Διαταραχής Φάσης και στην ομιλία που προέρχεται από κωφούς ομιλητές, αν δηλαδή μπορούμε να διαχωρίσουμε-αναγνωρίσουμε τους ομιλητές με βάση αυτή τη μετρική. Η γνώση που θα αποκτήσετε περιλαμβάνει ανάλυση φωνής και ημιτονοειδών μοντέλων, καθώς και χαρακτηριστικών της ομιλίας από κωφούς ομιλητές. Απαιτείται καλή γνώση επεξεργασίας σήματος και προγραμματισμού σε MATLAB. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με τη Δρ Άννα Σφακιανάκη, ΕΔΙΠ στο Τμήμα Επιστήμης Υπολογιστών, Παν. Κρήτης. 3. Ερευνητικό: Αντιληπτικά Προσαρμόσιμα Ημιτονοειδή Μοντέλα - Perceptual adaptive Sinusoidal Models - 12 μήνες: Το MP3 βασίζεται αρκετά σε τεχνικές perceptual coding - αντιληπτικής κωδικοποίησης. Στο τρέχον MPEG Layer 3 standard υλοποιείται ο γνωστός μετασχηματισμός Fourier διακριτού χρόνου για την εξαγωγή των τόνων του ήχου. Θα θέλαμε να εφαρμόσουμε πιο ακριβή μοντέλα αντί του μετασχηματισμού Fourier, και να δούμε τη σχετική απόδοση (βελτίωση/υποβάθμιση) σε σχέση με το τρέχον standard. Η γνώση που θα αποκομίσετε περιλαμβάνει τη λειτουργία του MP3 και ανάλυση ήχου/φωνής. Απαιτείται καλή γνώση επεξεργασίας σήματος, γνώση προγραμματισμού σε MATLAB/C. 4. Υλοποίηση/Μεταγραφή Προσαρμοσιμων Ημιτονοειδών Μοντέλων σε C: - 6 μήνες Θα θέλαμε να μεταγράψουμε τον κώδικα ενός προηγμένου μοντέλου ανάλυσης φωνής που διαθέτει το εργαστήριο από MATLAB σε C. Η μεταγραφή του απαιτεί υπάρχουσες βιβλιοθήκες και συγγραφή νέου κώδικα, καταλληλα προσαρμοσμένου. Ο C κώδικας θα πρέπει να δίνει τα ίδια (ακρίβεια < 10 10 ) αποτελέσματα με τον MATLAB κώδικα, και φυσικά να τρέχει πιο γρήγορα. Η ενασχόληση με αυτήν την εργασία θα δώσει γνώσεις software engineering στην πράξη, καθώς και interaction MATLAB-C (επικοινωνία διαφορετικών γλωσσών προγραμματισμού). Απαιτείται καλή γνώση επεξεργασίας σήματος, γνώση προγραμματισμού σε MATLAB/C. 1
5. Σύνθεση ομιλίας από κείμενο στα Ελληνικά με μεθόδους Μηχανικής Μάθησης - 12 μήνες: Οι τεχνολογίες φωνής όπως αυτή της σύνθεσης φωνής από κείμενο είναι ιδιαίτερα χρήσιμες μεταξύ άλλων στην επικοινωνία ανθρώπου-μηχανής και στην εύκολη ανάκτηση πληροφορίας. Τα τελευταία χρόνια, η χρήση προχωρημένων μεθόδων μηχανικής μάθησης έχει βελτιώσει σημαντικά την ποιότητα των συστημάτων σύνθεσης ομιλίας από κείμενο. Στην εργασία αυτή θα μάθετε αν εξάγετε παραμέτρους από σήματα φωνής που θα χρησιμοποιηθούν από συστήματα μηχανικής μάθησης για την εκπαίδευση ακουστικών μοντέλων σύνθεσης φωνής από κείμενο. Θα δείτε θέματα επεργασίας σήματος, πιθανοτήτων και στατιστικής να εφαρμόζονται στην πράξη. Χρειάζονται πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB/C. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με το Δρ Βασίλη Τσιάρα, ΕΔΙΠ στο Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης. 6. Ερευνητικό: Εφαρμογή προχωρημένων μεθόδων μηχανικής μάθησης για Αναγνώριση Ομιλίας - 12 μήνες: Οι τεχνολογίες φωνής όπως αυτή της αυτόματης αναγνώρισης ομιλίας είναι ιδιαίτερα χρήσιμες μεταξύ άλλων στην επικοινωνία ανθρώπου-μηχανής και στην ανάκτηση πληροφορίας σε πολυμεσικά δεδομένα. Τα τελευταία χρόνια, η χρήση προχωρημένων μεθόδων μηχανικής μάθησης έχει βελτιώσει σημαντικά την ακρίβεια των συστημάτων αναγνώρισης ομιλίας. Στην εργασία αυτή θα γίνει χρήση βιβλιοθηκών μηχανικής μάθησης (deep learning) όπως KALDI, Theano, για την αναγνώριση ομιλίας σε βάσεις δεδομένων που έχουν καταγραφεί από συναντήσεις. Θα μάθετε τη διαδικασία δημιουργίας μεγάλου συστήματος διαχείρισης δεδομένων, επικοινωνία των υποσυστημάτων του συστήματος, εφαρμοσμένο προγραμματισμό. Χρειάζεται καλή γνώση σε προγραμματισμό C, Python, script languages. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με το Δρ Βασίλη Τσιάρα, ΕΔΙΠ στο Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης. 7. Ερευνητικό: Αλγόριθμοι επεξεργασίας ιατρικών σημάτων: Φωνοκαρδιογράφημα - 12 μήνες: Η επεξεργασία ιατρικών σημάτων έχει συνήθως το στόχο να εξάγει χρήσιμες παραμέτρους από τα σήματα και στη συνέχεια να μετατρέψει του παραμέτρους σε πληροφορία η οποία θα είναι χρήσιμη σε γιατρούς να πάρουν αποφάσεις για το ασθενή τους. Σε αυτή την εργασία θα επεξεργαστούμε φωνοκαρδιογραφήματος, ακουστικό σήμα της καρδιάς, από παιδιά σχολικής ηλικίας με σκοπό την αυτόματη κατηγοριοποίηση αυτών σε υγιή και παθολογικά. Θα δείτε εφαρμογή μεθόδων επεξεργασίας σήματος, πιθανοτήτων και στατιστικής, καθώς και την εφαρμογή μεθόδων αυτόματης κατηγοριοποίησης με σύγχρονες μεθόδους μηχανικής μάθησης. Απαιτείται καλή γνώση ε- πεξεργασίας σήματος, γνώση προγραμματισμού σε MATLAB/C. Θα είναι ιδιαίτερα χρήσιμη η γνώση μεθόδων μηχανικής/βαθιάς μάθησης. 8. Αυτόματη τμηματοποίηση βάσεων δεδομένων φωνής - 6-12 μήνες: Οι τεχνολογίες φωνής όπως αυτή της αυτόματης αναγνώρισης ομιλίας και σύνθεσης φωνής από κείμενο είναι ιδιαίτερα χρήσιμες μεταξύ άλλων στην επικοινωνία ανθρώπου-μηχανής και στην ανάκτηση πληροφορίας σε πολυμεσικά δεδομένα. Τα τελευταία χρόνια, η χρήση προχωρημένων μεθόδων μηχανικής μάθησης έχει βελτιώσει σημαντικά την ακρίβεια των συστημάτων αναγνώρισης ομιλίας. Για να είναι αποδοτικές αυτές οι μέθοδοι όμως, χρειάζεται να υπάρχουν τηματοποιημένες σε επίπεδο φωνήματος βάσεις δεδομένων φωνής. Σε αυτή την εργασία θα μάθετε την εφαρμογή επεξεργασίας σήματος για την εξαγωγή παραμέτρων για τη φωνή οι οποίες θα χρησιμοποιηθούν για την αυτόματη τμηματοποίηση με σύγχρονες μεθόδους μηχανικής μάθησης, χρησιμοποιώντας βιβλιοθήκες όπως TensorFlow (Google) κ.λ.π. Χρειάζεται καλή γνώση επεξεργασίας σήματος και προγραμματισμού κυρίως σε Python και σε script languages. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με το Δρ Βασίλη Τσιάρα, ΕΔΙΠ στο Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης. 9. Ερευνητικό: Εύρωστες σε θόρυβο και απόσταση παραμέτρους για Αυτόματη Αναγνώριση Ομιλίας - 12 μήνες: Οι τεχνολογίες φωνής όπως αυτή της αυτόματης αναγνώρισης ομιλίας είναι ιδιαίτερα χρήσιμες μεταξύ άλλων στην επικοινωνία ανθρώπου-μηχανής και στην ανάκτηση πληροφορίας σε πολυμεσικά δεδομένα. 2
Τα τελευταία χρόνια, η χρήση προχωρημένων μεθόδων μηχανικής μάθησης έχει βελτιώσει σημαντικά την ακρίβεια των συστημάτων αναγνώρισης ομιλίας. Στην εργασία αυτή θα μάθετε αν εξάγετε παραμέτρους από σήματα φωνής που θα χρησιμοποιηθούν από συστήματα μηχανικής μάθησης για την εκπαίδευση ακουστικών μοντέλων αυτόματης αναγνώρισης ομιλίας. Θα δείτε θέματα επεργασίας σήματος, πιθανοτήτων και στατιστικής να εφαρμόζονται στην πράξη. Χρειάζονται πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB/C. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με το Δρ Βασίλη Τσιάρα, ΕΔΙΠ στο Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης. 10. Αξιολόγηση αλγορίθμων αύξησης καταληπτότητας σε περιβάλλοντα θορύβου - 6 μήνες: Ενα από τα πιο επίκαιρα ανοιχτά ερευνητικά θέματα με άμεση τεχνολογική εφαρμογή ειναι η ανάπτυξη αλγορίθμων για την αύξηση της καταληπτότητας της ομιλίας σε περιβάλλοντα θορύβου. Το εργαστήριο Επεξεργασιας Σηματος Φωνής, σε συνεργασία με Πανεπιστημιακά ιδρυματα του εξωτερικού, έχει αναπτύξει μια σειρά απο αλγορίθμους για την αύξηση της καταληπτότητας. Δυστυχώς όμως, οι αλγόριθμοι αυτοί έχουν αξιολογηθεί σε διάφορες βάσεις δεδομένων ομιλίας και σε διάφορα επίπεδα και περιβάλλοντα θορύβου. Στόχος της παρούσης εργασίας είναι η αξιολόγηση των αλγορίθμων σε 4 διαφορετικά περιβάλλοντα (χωρις θόρυβο, σε θόρυβο εστιατορίου, σε ανακλαστικά περιβάλλοντα και σε περιβάλλον ύπαρξης ανταγωνιστικού ομιλητή). Για την αξιολόγηση θα μετασχηματίσετε την ομιλία με τους υπάρχοντες αλγορίθμους, θα αποκτήσετε σημαντικές γνώσεις όσον αφορά την διεξαγωγή τεστ καταληπτότητας (θα μάθετε πως να επιλέγετε το κατάλληλο επίπεδο θορύβου) και θα εξάγετε στατιστικά αποτελέσματα ώστε να αναδείξετε την σημαντικότητα των αλγορίθμων μετασχηματισμού. Απαιτούνται καλές γνώσεις MATLAB και βασικές γνώσεις επεξεργασίας σήματος και στατιστικής. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με τη Δρ Μαρία Κουτσογιαννάκη, μεταδιδακτορική ερευνήτρια στο Basque Center of Cognition, Brain, and Language, Spain. 11. Ερευνητικό: Βελτιστοποίηση ποιότητας και καταληπτότηας σήματος φωνής εντός κι εκτός περιβάλλοντος θορύβου - 12 μήνες: Η ανάπτυξη αλγορίθμων για την αύξηση της καταληπτότητας της ομιλίας σε περιβάλλοντα θορύβου είναι καίριας σημασίας στη σημερινή τεχνολογιά κυριαρχούμενη εποχή. Δυστυχώς, ενώ οι αλγόριθμοι έχουν αρκετά καλή απόδοση, εισάγουν παραμορφώσεις στο σήμα φωνής με αποτέλεσμα εκτός θορύβου η ποιότητα του σήματος να είναι υποβαθμισμένη. Σκοπός της εργασίας αυτής είναι η βελτίωση της ποιότητας των αλγορίθμων μετασχηματισμού εκτός περιβάλλοντος θορύβου, χωρίς να μειωθεί η καταληπτότητα του σήματος εντός θορύβου. Πρώτο βήμα είναι η αποσύνθεση του σήματος σε πλάτη, φάσεις, και συχνότητες με τα ακριβή μοντέλα μετασχηματισμού που έχουν αναπτυχθεί στο εργαστήριο μας. Σε δεύτερη φάση, απαιτείται η μετατροπή των πλατών με κατάλληλες τεχνικές ωστε να βελτιωθεί η καταληπτότητα χωρίς να μειωθεί η ποιότητα του σήματος και η επανασύνθεση του σήματος. Πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB είναι απαραίτητες. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με τη Δρ Μαρία Κουτσογιαννάκη, μεταδιδακτορική ερευνήτρια στο Basque Center of Cognition, Brain, and Language, Spain. 12. Ερευνητικό: Near-end listening intelligibility enhancement - 12 μήνες: Το Εργαστήριο Επεξεργασίας Σήματος Φωνής διαθέτει μερικούς εξαιρετικούς αλγόριθμους αύξησης καταληπτοτητας ομιλίας σε περιβάλλοντα θορύβου. Δυστυχώς όμως οι αλγόριθμοι αυτοί μπορούν να εφαρμοστούν μονάχα σε καθαρό σήμα φωνής - πριν δηλαδή την εισαγωγή του σήματος σε θόρυβο. Αυτή η τεχνική, παρ όλο που είναι χρήσιμη στην κινητή τηλεφωνία όταν ο θόρυβος βρίσκεται στην πλευρά του δέκτη (near-end listening enhancement), δεν μπορεί να εφαρμοστεί όταν ο θόρυβος βρίσκεται στην πλευρά του ομιλητή (far end) διότι ο αλγόριθμος μετασχηματισμού ενισχύει και το θόρυβο. Σκοπός της εργασίας είναι η εφαρμογή των αλγορίθμων μετασχηματισμού σε σήματα που εχουν υποβαθμιστεί από θόρυβο και η αύξηση της καταληπτότητάς τους χωρίς την παράλληλη αύξηση θορύβου. Πρώτο βήμα είναι η αποσύνθεση του σήματος σε πλάτη, φάσεις, και συχνότητες με τα ακριβή μοντέλα μετασχηματισμού που έχουν αναπτυχθεί στο εργαστήριο μας. Σε δεύτερη φάση, πρέπει να γίνει η μετατροπή των πλατών με κατάλληλες τεχνικές ώστε να βελτιωθεί η καταληπτότητα χωρίς να αυξηθεί ο θόρυβος και η επανασύνθεση του σήματος. Πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB είναι απαραίτητες. Η εργασία αυτή θα 3
διεκπεραιωθεί σε συνεργασία με τη Δρ Μαρία Κουτσογιαννάκη, μεταδιδακτορική ερευνήτρια στο Basque Center of Cognition, Brain, and Language, Spain. 13. Ανάπτυξη αλγορίθμων αποσύνθεσης σήματος φωνής σε περιδικά και απεριοδικά σήματα - 6/12 μήνες: Σχετικά πρόσφατα έχουν αναπτυχθεί μέθοδοι αποσύνθεσης ενός σήματος φωνής σε ένα περιοδικό και ένα απεριοδικό σήμα, με χρήση του Διακριτού Αρμονικού Μετασχηματισμού (Discrete Harmonic Transform - DHT). Ενα από τα προσόντα του DHT είναι ότι μπορεί να συγχρονίζει τη συνάρτηση βάσης του με τη χρονικά μεταβαλλόμενη δομή της θεμελιώδους συχνότητας της φωνής. Η παρούσια εργασία στοχεύει στη μελέτη του αλγορίθμου και στην ανάπτυξη ενός συστήματος που αναλύει ένα σήμα φωνής σε μια περιοδική και μια απεριοδική συνιστώσα. Η γνώση που θα αποκτήσετε περιλαμβάνει την ανάλυση και μοντελοποίηση σημάτων φωνής, καθώς και τον προγραμματισμό τους σε MATLAB. Ως εκ τούτου, πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB είναι απαραίτητες, ενώ το κατάλληλο υπόβαθρο επεξεργασίας σήματος φωνής θα δοθεί ως πρώτη μελέτη. 14. Ανάπτυξη αλγορίθμου εξαγωγής της φασματικής περιβάλλουσας του σήματος φωνής παρουσία θορύβου - 6/12 μήνες: Πολύ πρόσφατα, ερευνητές ανέπτυξαν μια μέθοδο εξαγωγής της φασματικής περιβάλλουσας ενός σήματος φωνής η οποία είναι εύρωστη σε θόρυβο και βασίζεται στην κλασική τεχνική της Γραμμικής Πρόβλεψης (Linear Prediction). Στην παρούσα εργασία, ζητείται η υλοποίηση της μεθόδου time-regularized linear prediction η οποία έχει αποδειχθεί ότι είναι ιδιαίτερα αποδοτική. Η γνώση που θα αποκτήσετε περιλαμβάνει την ανάλυση και μοντελοποίηση σημάτων φωνής, τη μοντελοποίηση της παραγωγής ανθρώπινης ομιλίας και τα στάδιά της, τα σήματα που εμπλέκονται στην παραγωγή αυτή, καθώς και τον προγραμματισμό τους σε MA- TLAB. Πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB είναι απαραίτητες, ενώ το κατάλληλο υπόβαθρο επεξεργασίας σήματος φωνής θα δοθεί ως πρώτη μελέτη. 15. Ελεγχος βιβλιοθήκης MatConvNet για υλοποίηση Συνελικτικών Νευρωνικών Δικτύων σε MATLAB - 6/12 μήνες: Για την υλοποίηση αλγορίθμων μηχανικής μάθησης (συγκεκριμένα, βαθιάς μάθησης - deep learning), η ερευνητική κοινότητα χρησιμοποιεί γλώσσες προγραμματισμού όπως η Python και εργαλεία όπως το Tensorflow της Google. Ενα μεγάλο τμήμα των αλγορίθμων αυτών περιλαμβάνει Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks - CNNs). Το περιβάλλον του MATLAB είναι γνωστό ότι είναι αρκετά αργό για τις απαιτήσεις των αλγορίθμων αυτών. Πρόσφατα δημοσιεύτηκε μια βιβλιοθήκη για CNNs σε MATLAB. Στόχος της εργασίας είναι να ελέγξει τις επιδόσεις της βιβλιοθήκης αυτής σε γνωστά προβλήματα ταξινόμησης βασισμένα σε CNNs. Η γνώση που θα αποκτήσετε περιλαμβάνει τεχνικές βαθιάς μάθησης και προχωρημένο προγραμματισμό σε MATLAB. Πολύ καλές βασικές γνώσεις προγραμματισμού σε MATLAB είναι απαραίτητες, ενώ είναι επιθυμητή η εξοικείωση με τεχνικές βαθιάς μάθησης. 16. Ελεγχος βιβλιοθήκης Deep Learning του MATLAB για υλοποίηση αλγορίθμων Βαθιάς Μάθησης σε MATLAB - 6/12 μήνες: Για την υλοποίηση αλγορίθμων μηχανικής μάθησης (συγκεκριμένα, βαθιάς μάθησης - deep learning), η ερευνητική κοινότητα χρησιμοποιεί γλώσσες προγραμματισμού όπως η Python και εργαλεία όπως το Tensorflow της Google. Η τελευταία έκδοση του MATLAB (2018) περιλαμβάνει μια νέα βιβλιοθήκη αποκλειστικά για αλγορίθμους βαθιάς μάθησης. Στόχος της εργασίας είναι να ελέγξει τις επιδόσεις της βιβλιοθήκης αυτής σε γνωστά προβλήματα που λύνονται με τεχνικές βαθιάς μάθησης και να τις συγκρίνει με ήδη γνωστές υλοποιήσεις σε Python-Tensorflow. Η γνώση που θα αποκτήσετε περιλαμβάνει τεχνικές βαθιάς μάθησης και προχωρημένο προγραμματισμό σε MATLAB. Πολύ καλές βασικές γνώσεις προγραμματισμού σε MATLAB είναι απαραίτητες, ενώ είναι επιθυμητή η εξοικείωση με τεχνικές βαθιάς μάθησης. 4
17. Ερευνητικό: Εγκέφαλος και καταληπτότητα ομιλίας: μια πειραματική διαδικασία εύρεσης συσχετισμών - 6/12 μήνες: Η αύξηση της ευκαταληπτότητας της φωνής μέσα σε περιβάλλοντα θορύβου είναι ένα απο τα πιο hot θέματα στον τομέα των Τηλεπικοινωνιών. Οι περισσότερες μέθοδοι βασίζονται είτε στην ενίσχυση του σήματος σε περίπτωση ανίχνευσης θορύβου στη πλευρά του δέκτη είτε στην καταστολή του σήματος θορύβου απο τη πλευρά του πομπού. Στην δεύτερη περίπτωση οι μέθοδοι που χρησιμοποιούνται καταστέλλουν το σήμα θορύβου αλλά παράλληλα μπορεί να το βλάψουν (εισάγουν παραμορφώσεις). Η ιδέα της παρούσης εργασίας βασίζεται στην ιδιότητα του εγκεφάλου να συντονίζεται με σήματα ομιλίας σε συγκεκριμένες συχνότητες (συγκεκριμένα με το ρυθμό της συλλαβής και της λέξης). Η γνώση που θα αποκτήσετε περιλαμβάνει την αντίληψη της ομιλίας από τον εγκέφαλο σε περιβάλλοντα θορύβου, την κατασκευή ακουστικών τεστ αντίληψης ομιλίας, και την επεξεργασία του σήματος φωνής. Καλές γνώσεις προγραμματισμού σε MATLAB, HTML/CSS ή scripting είναι επιθυμητές. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με τη Δρ Μαρία Κουτσογιαννάκη, μεταδιδακτορική ερευνήτρια στο Basque Center of Cognition, Brain, and Language, Spain. 18. Ερευνητικό: Καταστολή Ακουστικής Ηχούς με μεθόδους βαθιάς μάθησης - 12 μήνες: Η ηχώ είναι το φαινόμενο στο οποίο μια καθυστερημένη και τροποποιημένη έκδοση ενός αρχικού σήματος ανακλάται πίσω στην πηγή του ήχου. Σε αυτήν την εργασία θα προσπαθήσουμε να καταστείλουμε την ηχώ μέσω μεθόδων μηχανικής - και συγκεκριμένα - βαθιάς μάθησης. Η ερευνητική κοινότητα έχει προτείνει διάφορες μεθόδους για να διευθετηθεί αυτό το πρόβλημα, οι περισσότερες όμως λειτουργούν στο φασματικό επίπεδο της ομιλίας αγνοώντας μερικώς ή ολικώς το κομμάτι της φάσης του σήματος. Στην εργασία αυτή προτείνουμε τη δημιουργία ενός συστήματος καταστολής ηχούς που λειτουργεί απευθείας στο πεδίο του χρόνου. Μια πολλά υποσχόμενη τεχνική μηχανικής μάθησης για την εργασία αποτελεί το Wavenet, το οποίο αρχικά προτάθηκε για σύνθεση φωνής από δείγματα διακριτού χρόνου και αποτελεί state-of-the-art στον τομέα. Η γνώση που θα αποκτήσετε περιλαμβάνει την επεξεργασία του σήματος φωνής και μοντέλα μηχανικής μάθησης όπως το Wavenet. Πολύ καλές γνώσεις προγραμματισμού σε Python είναι απαραίτητες, ενώ εξοικείωση με νευρωνικά δίκτυα είναι επιθυμητή. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με τον υποψήφιο διδάκτορα M. Shifas PV του εργαστηρίου. 5