of Cognition, Brain, and Language, Spain.

Σχετικά έγγραφα
Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB )

Κωδικοποίηση ήχου. Σύστημα ακοής MP3 / MP4 Κωδικοποίηση φωνής

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Τεχνολογία Πολυμέσων. Ενότητα # 10: Κωδικοποίηση ήχου Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Ι

Keywords λέξεις κλειδιά:

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Μετάδοση πληροφορίας - Διαμόρφωση

Στοιχεία επεξεργασίας σημάτων

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. 4o Εργαστήριο Σ.Α.Ε

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εισαγωγή στα Συστήματα Ηλεκτρικής Ενέργειας (ΣΗΕ) Ηλ. Αμφ. 1, 2, 3. Ηλεκτρομαγνητικά Πεδία Β. Ηλ. Αμφ.

Μετάδοση πληροφορίας - Διαμόρφωση

ΗΥ370 Ψηφιακή Επεξεργασία Σήματος

Εισαγωγή στις Τηλεπικοινωνίες

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εισαγωγή στα Συστήματα Ηλεκτρικής Ενέργειας (ΣΗΕ) (επί πτυχίω) Ηλ. Αμφ. 1, 2, 3

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εισαγωγή στα Συστήματα Ηλεκτρικής Ενέργειας (ΣΗΕ) (επί πτυχίω) Ηλ. Αμφ. 1, 2, 3

ΠΡΟΓΡΑΜΜΑ ΕΠΑΝΑΛΗΠΤΙΚΩΝ ΕΞΕΤΑΣΕΩΝ

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εργαστηριακή και Βιομηχανική Ηλεκτρονική Ηλ. Αμφ. 2, 3. Γλώσσες Προγραμματισμού Ι. Ηλ. Αμφ. 1, 2, 3, 4, 5

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Αρχιτεκτονική Υπολογιστών Ηλ. Αιθ. 001, 002. Ηλ. Αιθ. 003, 004 Ηλεκτρονική ΙΙΙ Ηλ. αιθ. 003, 004. Θεωρία Δικτύων & Κυκλωμάτων

Εισαγωγή στις Τηλεπικοινωνίες

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Ηλ. Αιθ. 003, 004 Ηλεκτρονική ΙΙΙ Ηλ. αιθ. 003, 004

Συστήματα Επικοινωνιών

ΠΡΟΓΡΑΜΜΑ ΕΠΑΝΑΛΗΠΤΙΚΩΝ ΕΞΕΤΑΣΕΩΝ

Βιοϊατρική τεχνολογία

ΠΡΟΓΡΑΜΜΑ ΕΠΑΝΑΛΗΠΤΙΚΩΝ ΕΞΕΤΑΣΕΩΝ ΟΡΘΗ ΕΠΑΝΑΛΗΨΗ

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Β Εξάµηνο Τίτλος Μαθήµατος Θ Φ Α.Π Ε Φ.E. Π.Μ Προαπαιτούµενα

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Πρόγραμμα Σπουδών Ακαδημαϊκού Έτους

15/3/2009. Ένα ψηφιακό σήμα είναι η κβαντισμένη εκδοχή ενός σήματος διάκριτου. χρόνου. Φλώρος Ανδρέας Επίκ. Καθηγητής

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Στοχαστικά Συστήματα & Επικοινωνίες Ηλ. Αμφ. 1, 2 Ηλ. Αιθ. 001, 002. Γλώσσες Προγραμματισμού Ι Ηλ. Αμφ.

ΠΡΟΓΡΑΜΜΑ ΕΠΑΝΑΛΗΠΤΙΚΩΝ ΕΞΕΤΑΣΕΩΝ

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Μία (1) θέση έρευνας σε Αναγνώριση Σύνθετων Γεγονότων από Δεδομένα.

219 Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Θεσσαλονίκης

Τηλεπικοινωνικακά Συστήματα Ι - Ενδεικτικές Ερωτήσεις Ασκήσεις 1)

ΕΙΣΑΓΩΓΗ ΣΤΗ ΘΕΩΡΙΑ ΣΗΜΑΤΩΝ & ΣΥΣΤΗΜΑΤΩΝ

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT)

ΠΡΟΓΡΑΜΜΑ ΤΕΛΙΚΩΝ ΕΞΕΤΑΣΕΩΝ

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εφαρμοσμένος & Υπολογιστικός Ηλεκτρομαγνητισμός Ηλ. Αιθ. 012, 013. Στοχαστικά Συστήματα & Επικοινωνίες Ηλ. Αμφ.

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Εφαρμοσμένος & Υπολογιστικός Ηλεκτρομαγνητισμός Ηλ. Αιθ. 012, 013. Εργαστήριο Ψηφιακών Συστημάτων Ηλ. Εργ.

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Ραδιοτηλεοπτικά Συστήματα Ενότητα 5: Ψηφιοποίηση και συμπίεση σημάτων ήχου

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Projects Στα Ειδικά Θέµατα Επεξεργασίας Σήµατος και Εικόνας

Εισαγωγή στην Επεξεργασία Σήματος. Νόκας Γιώργος

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ. Ενότητα : ΔΙΑΚΡΙΤΟΣ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER

Συστήματα Πολυμέσων. Ενότητα 12: Συμπίεση Ψηφιακού Ήχου. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

Αφαίρεση του Φαινομένου του Μικροφωνισμού σε Ακουστικά Βαρηκοΐας

Ανάλυση, Στατιστική Επεξεργασία και Παρουσίαση Δεδομένων με χρήση Ανοικτών Λογισμικών Δρ. Φίλιππος Σοφός

Ημερίδα «Δείκτες ερευνητικής δραστηριότητας και σχεδιασμός πολιτικών για έρευνα, Τεχνολογική Ανάπτυξη και Καινοτομία

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ (ΠΜΣ) «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΕΣ» ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΟΥ Α.Π.Θ.

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Μάθημα: Ακουστική και Ψυχοακουστική

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

Οι Τομείς (κατευθύνσεις ειδικότητας) του Τμήματος Πληροφορικής & Επικοινωνιών είναι:

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18

Εισαγωγή στις Τηλεπικοινωνίες

1: Λογισμικό μετατροπής λόγου σε κείμενο (Ελληνική γλώσσα) Δυνατότητα αναγνώρισης προηχογραφημένης ομιλίας και από αρχεία wav

Συστήματα Πολυμέσων. Ενότητα 3: Εισαγωγικά θέματα Συμπίεσης. Θρασύβουλος Γ. Τσιάτσος Τμήμα Πληροφορικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

27/4/2009. Για την υλοποίηση τέτοιων αλγορίθμων επεξεργασίας απαιτείται η χρήση μνήμης. T η περίοδος δειγματοληψίας. Επίκ. Καθηγητής.

ΘΕΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΩΝ ΕΡΓΑΣΙΩΝ 2008 / 2009

ΠΡΟΓΡΑΜΜΑ ΕΞΕΤΑΣΕΩΝ. Διατάξεις Ημιαγωγών. Ηλ. Αιθ Αριθμητικές Μέθοδοι Διαφορικών Εξισώσεων Ηλ. Αιθ. 013

Ψηφιακή Επεξεργασία Σηµμάτων

Μηχανουργική Τεχνολογία ΙΙ

Ειδικός Λογαριασμός Κονδυλίων Έρευνας Πολυτεχνείο Κρήτης

Εξάμηνο. 1ο 3ο 5ο 7ο 9ο. Ηλεκτρολογικό Σχέδιο. Ν. Κτ. Ηλεκτρ. Αμφ. 1,2,3 8:30. αιθ. 01,02,03,04,05. Παραγωγή Υψηλών Τάσεων Ν.κτ. Ηλεκτρ. Αμφ.

Ε π ε ξ ε ρ γ α σ ί α Ο μ ι λ ί α ς κ α ι Φ υ σ ι κ ή ς Γ λ ώ σ σ α ς

Εισαγωγή στις Τηλεπικοινωνίες / Εργαστήριο

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Γενική εικόνα τι είναι σήµα - Ορισµός. Ταξινόµηση σηµάτων. Βασικές ιδιότητες σηµάτων. Μετατροπές σήµατος ως προς το χρόνο. Στοιχειώδη σήµατα.

Εισαγωγή στα Προσαρµοστικά Συστήµατα

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία Διάλεξη 6

Βασικά Στοιχεία Αναλογικών Ηλεκτρονικών

Ανάκτηση πολυμεσικού περιεχομένου

Εισαγωγή. Προχωρημένα Θέματα Τηλεπικοινωνιών. Ανάκτηση Χρονισμού. Τρόποι Συγχρονισμού Συμβόλων. Συγχρονισμός Συμβόλων. t mt

Ανατομία ενός πομποδέκτη σταθμού βάσης HSDPA (Node-B)

Εισαγωγή στις Τηλεπικοινωνίες / Εργαστήριο

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Αναγνώριση Προτύπων Ι

Ισχύει μόνο για φοιτητές που εισήχθησαν στο Τμήμα από το ακαδ. έτος και πριν

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΗΝ ΕΝΟΡΓΑΝΗ ΑΝΑΛΥΣΗ

Μάθημα: Τεχνολογία Ήχου

ΕΘΝΙΚΟ & ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Τεχνολογία Πολυμέσων. Ενότητα # 15: Συγχρονισμός πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

711 Πληροφορικής ΤΕΙ Αθήνας

Αλγόριθμος Ομαδοποίησης

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Δρ. Φώτης Κοντομίχος Δρ. Θωμάς Ζαρούχας Δρ. Παναγιώτης Χατζηαντωνίου

Τεχνητά Νευρωνικά Δίκτυα. Τσιριγώτης Γεώργιος Τμήμα Μηχανικών Πληροφορικής ΤΕΙ Ανατολικής Μακεδονίας & Θράκης

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

7. ΠΡΟΓΡΑΜΜΑ ΚΟΡΜΟΥ ο ΕΞΑΜΗΝΟ. Θεωρ. - Εργ.

Τμήμα Μηχανικών Η/Υ και Πληροφορικής

Υλοποίηση Συστήματος Ανίχνευσης Εισβολών σε Περιβάλλον Android για Ασύρματα Δίκτυα Πρόσβασης

Transcript:

Θέματα Πτυχιακής/Μεταπτυχιακής Εργασίας Εργαστήριο Επεξεργασίας Σήματος Φωνής 26 Οκτωβρίου 2018 Τα παρακάτω θέματα παρουσιάζουν πτυχιακές/μεταπτυχιακές εργασίες στο Εργαστηριο Επεξεργασίας Σήματος Φωνής του Τμήματος Επιστήμης Υπολογιστών. 1. Ερευνητικό: Ανάλυση και Αναγνώριση Εκφραστικού Περιεχομένου Σημάτων Φωνής με χρήση τεχνικών Μηχανικής Μάθησης - 12 μήνες: Η αναγνώριση συναισθήματος αποτελεί σημαντικό και νέο κεφάλαιο στην Επεξεργασία Φωνής. Υπάρχουν μοντέλα που μπορούν να αναλύσουν το σήμα της φωνής σε υψηλής ακρίβειας AM-FM συνιστώσες. Θα θέλαμε να χρησιμοποιήσουμε αυτές τις συνιστώσες, πιθανόν σε συνδυασμό με άλλες, για την αναγνώριση συναισθήματος ομιλητών με τεχνικές μηχανικής μάθησης (Support Vector Machines, Gaussian Mixture Models) και άλλες. Η γνώση που θα αποκτήσετε περιλαμβάνει ανάλυση φωνής και ημιτονοειδών μοντέλων, τεχνικών μηχανικής μάθησης, καθώς και γνώση χαρακτηριστικών της εκφραστικής ομιλίας. Απαιτείται καλή γνώση επεξεργασίας σήματος και προγραμματισμού σε MATLAB. 2. Ερευνητικό: Εφαρμογή της Απόκλισης Διαταραχής Φάσης σε Ομιλία Κωφών - 6 μήνες: Η συνάρτηση Απόκλισης Διαταραχής Φάσης (Phase Distortion Deviation - PDD) είναι μια πρόσφατη τεχνική που εφαρμόζεται σε αρμονικά μοντέλα φωνής και μας πληροφορεί για τη διαταραχή της φάσης από την πλήρη αρμονικότητα. Η τεχνική αυτή έχει εφαρμοστεί για τη διάκριση παθολογικών από κανονικούς ομιλητές. Θέλουμε να δούμε αν υπάρχει σχέση ανάμεσα στην Απόκλιση Διαταραχής Φάσης και στην ομιλία που προέρχεται από κωφούς ομιλητές, αν δηλαδή μπορούμε να διαχωρίσουμε-αναγνωρίσουμε τους ομιλητές με βάση αυτή τη μετρική. Η γνώση που θα αποκτήσετε περιλαμβάνει ανάλυση φωνής και ημιτονοειδών μοντέλων, καθώς και χαρακτηριστικών της ομιλίας από κωφούς ομιλητές. Απαιτείται καλή γνώση επεξεργασίας σήματος και προγραμματισμού σε MATLAB. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με τη Δρ Άννα Σφακιανάκη, ΕΔΙΠ στο Τμήμα Επιστήμης Υπολογιστών, Παν. Κρήτης. 3. Ερευνητικό: Αντιληπτικά Προσαρμόσιμα Ημιτονοειδή Μοντέλα - Perceptual adaptive Sinusoidal Models - 12 μήνες: Το MP3 βασίζεται αρκετά σε τεχνικές perceptual coding - αντιληπτικής κωδικοποίησης. Στο τρέχον MPEG Layer 3 standard υλοποιείται ο γνωστός μετασχηματισμός Fourier διακριτού χρόνου για την εξαγωγή των τόνων του ήχου. Θα θέλαμε να εφαρμόσουμε πιο ακριβή μοντέλα αντί του μετασχηματισμού Fourier, και να δούμε τη σχετική απόδοση (βελτίωση/υποβάθμιση) σε σχέση με το τρέχον standard. Η γνώση που θα αποκομίσετε περιλαμβάνει τη λειτουργία του MP3 και ανάλυση ήχου/φωνής. Απαιτείται καλή γνώση επεξεργασίας σήματος, γνώση προγραμματισμού σε MATLAB/C. 4. Υλοποίηση/Μεταγραφή Προσαρμοσιμων Ημιτονοειδών Μοντέλων σε C: - 6 μήνες Θα θέλαμε να μεταγράψουμε τον κώδικα ενός προηγμένου μοντέλου ανάλυσης φωνής που διαθέτει το εργαστήριο από MATLAB σε C. Η μεταγραφή του απαιτεί υπάρχουσες βιβλιοθήκες και συγγραφή νέου κώδικα, καταλληλα προσαρμοσμένου. Ο C κώδικας θα πρέπει να δίνει τα ίδια (ακρίβεια < 10 10 ) αποτελέσματα με τον MATLAB κώδικα, και φυσικά να τρέχει πιο γρήγορα. Η ενασχόληση με αυτήν την εργασία θα δώσει γνώσεις software engineering στην πράξη, καθώς και interaction MATLAB-C (επικοινωνία διαφορετικών γλωσσών προγραμματισμού). Απαιτείται καλή γνώση επεξεργασίας σήματος, γνώση προγραμματισμού σε MATLAB/C. 1

5. Σύνθεση ομιλίας από κείμενο στα Ελληνικά με μεθόδους Μηχανικής Μάθησης - 12 μήνες: Οι τεχνολογίες φωνής όπως αυτή της σύνθεσης φωνής από κείμενο είναι ιδιαίτερα χρήσιμες μεταξύ άλλων στην επικοινωνία ανθρώπου-μηχανής και στην εύκολη ανάκτηση πληροφορίας. Τα τελευταία χρόνια, η χρήση προχωρημένων μεθόδων μηχανικής μάθησης έχει βελτιώσει σημαντικά την ποιότητα των συστημάτων σύνθεσης ομιλίας από κείμενο. Στην εργασία αυτή θα μάθετε αν εξάγετε παραμέτρους από σήματα φωνής που θα χρησιμοποιηθούν από συστήματα μηχανικής μάθησης για την εκπαίδευση ακουστικών μοντέλων σύνθεσης φωνής από κείμενο. Θα δείτε θέματα επεργασίας σήματος, πιθανοτήτων και στατιστικής να εφαρμόζονται στην πράξη. Χρειάζονται πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB/C. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με το Δρ Βασίλη Τσιάρα, ΕΔΙΠ στο Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης. 6. Ερευνητικό: Εφαρμογή προχωρημένων μεθόδων μηχανικής μάθησης για Αναγνώριση Ομιλίας - 12 μήνες: Οι τεχνολογίες φωνής όπως αυτή της αυτόματης αναγνώρισης ομιλίας είναι ιδιαίτερα χρήσιμες μεταξύ άλλων στην επικοινωνία ανθρώπου-μηχανής και στην ανάκτηση πληροφορίας σε πολυμεσικά δεδομένα. Τα τελευταία χρόνια, η χρήση προχωρημένων μεθόδων μηχανικής μάθησης έχει βελτιώσει σημαντικά την ακρίβεια των συστημάτων αναγνώρισης ομιλίας. Στην εργασία αυτή θα γίνει χρήση βιβλιοθηκών μηχανικής μάθησης (deep learning) όπως KALDI, Theano, για την αναγνώριση ομιλίας σε βάσεις δεδομένων που έχουν καταγραφεί από συναντήσεις. Θα μάθετε τη διαδικασία δημιουργίας μεγάλου συστήματος διαχείρισης δεδομένων, επικοινωνία των υποσυστημάτων του συστήματος, εφαρμοσμένο προγραμματισμό. Χρειάζεται καλή γνώση σε προγραμματισμό C, Python, script languages. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με το Δρ Βασίλη Τσιάρα, ΕΔΙΠ στο Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης. 7. Ερευνητικό: Αλγόριθμοι επεξεργασίας ιατρικών σημάτων: Φωνοκαρδιογράφημα - 12 μήνες: Η επεξεργασία ιατρικών σημάτων έχει συνήθως το στόχο να εξάγει χρήσιμες παραμέτρους από τα σήματα και στη συνέχεια να μετατρέψει του παραμέτρους σε πληροφορία η οποία θα είναι χρήσιμη σε γιατρούς να πάρουν αποφάσεις για το ασθενή τους. Σε αυτή την εργασία θα επεξεργαστούμε φωνοκαρδιογραφήματος, ακουστικό σήμα της καρδιάς, από παιδιά σχολικής ηλικίας με σκοπό την αυτόματη κατηγοριοποίηση αυτών σε υγιή και παθολογικά. Θα δείτε εφαρμογή μεθόδων επεξεργασίας σήματος, πιθανοτήτων και στατιστικής, καθώς και την εφαρμογή μεθόδων αυτόματης κατηγοριοποίησης με σύγχρονες μεθόδους μηχανικής μάθησης. Απαιτείται καλή γνώση ε- πεξεργασίας σήματος, γνώση προγραμματισμού σε MATLAB/C. Θα είναι ιδιαίτερα χρήσιμη η γνώση μεθόδων μηχανικής/βαθιάς μάθησης. 8. Αυτόματη τμηματοποίηση βάσεων δεδομένων φωνής - 6-12 μήνες: Οι τεχνολογίες φωνής όπως αυτή της αυτόματης αναγνώρισης ομιλίας και σύνθεσης φωνής από κείμενο είναι ιδιαίτερα χρήσιμες μεταξύ άλλων στην επικοινωνία ανθρώπου-μηχανής και στην ανάκτηση πληροφορίας σε πολυμεσικά δεδομένα. Τα τελευταία χρόνια, η χρήση προχωρημένων μεθόδων μηχανικής μάθησης έχει βελτιώσει σημαντικά την ακρίβεια των συστημάτων αναγνώρισης ομιλίας. Για να είναι αποδοτικές αυτές οι μέθοδοι όμως, χρειάζεται να υπάρχουν τηματοποιημένες σε επίπεδο φωνήματος βάσεις δεδομένων φωνής. Σε αυτή την εργασία θα μάθετε την εφαρμογή επεξεργασίας σήματος για την εξαγωγή παραμέτρων για τη φωνή οι οποίες θα χρησιμοποιηθούν για την αυτόματη τμηματοποίηση με σύγχρονες μεθόδους μηχανικής μάθησης, χρησιμοποιώντας βιβλιοθήκες όπως TensorFlow (Google) κ.λ.π. Χρειάζεται καλή γνώση επεξεργασίας σήματος και προγραμματισμού κυρίως σε Python και σε script languages. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με το Δρ Βασίλη Τσιάρα, ΕΔΙΠ στο Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης. 9. Ερευνητικό: Εύρωστες σε θόρυβο και απόσταση παραμέτρους για Αυτόματη Αναγνώριση Ομιλίας - 12 μήνες: Οι τεχνολογίες φωνής όπως αυτή της αυτόματης αναγνώρισης ομιλίας είναι ιδιαίτερα χρήσιμες μεταξύ άλλων στην επικοινωνία ανθρώπου-μηχανής και στην ανάκτηση πληροφορίας σε πολυμεσικά δεδομένα. 2

Τα τελευταία χρόνια, η χρήση προχωρημένων μεθόδων μηχανικής μάθησης έχει βελτιώσει σημαντικά την ακρίβεια των συστημάτων αναγνώρισης ομιλίας. Στην εργασία αυτή θα μάθετε αν εξάγετε παραμέτρους από σήματα φωνής που θα χρησιμοποιηθούν από συστήματα μηχανικής μάθησης για την εκπαίδευση ακουστικών μοντέλων αυτόματης αναγνώρισης ομιλίας. Θα δείτε θέματα επεργασίας σήματος, πιθανοτήτων και στατιστικής να εφαρμόζονται στην πράξη. Χρειάζονται πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB/C. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με το Δρ Βασίλη Τσιάρα, ΕΔΙΠ στο Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης. 10. Αξιολόγηση αλγορίθμων αύξησης καταληπτότητας σε περιβάλλοντα θορύβου - 6 μήνες: Ενα από τα πιο επίκαιρα ανοιχτά ερευνητικά θέματα με άμεση τεχνολογική εφαρμογή ειναι η ανάπτυξη αλγορίθμων για την αύξηση της καταληπτότητας της ομιλίας σε περιβάλλοντα θορύβου. Το εργαστήριο Επεξεργασιας Σηματος Φωνής, σε συνεργασία με Πανεπιστημιακά ιδρυματα του εξωτερικού, έχει αναπτύξει μια σειρά απο αλγορίθμους για την αύξηση της καταληπτότητας. Δυστυχώς όμως, οι αλγόριθμοι αυτοί έχουν αξιολογηθεί σε διάφορες βάσεις δεδομένων ομιλίας και σε διάφορα επίπεδα και περιβάλλοντα θορύβου. Στόχος της παρούσης εργασίας είναι η αξιολόγηση των αλγορίθμων σε 4 διαφορετικά περιβάλλοντα (χωρις θόρυβο, σε θόρυβο εστιατορίου, σε ανακλαστικά περιβάλλοντα και σε περιβάλλον ύπαρξης ανταγωνιστικού ομιλητή). Για την αξιολόγηση θα μετασχηματίσετε την ομιλία με τους υπάρχοντες αλγορίθμους, θα αποκτήσετε σημαντικές γνώσεις όσον αφορά την διεξαγωγή τεστ καταληπτότητας (θα μάθετε πως να επιλέγετε το κατάλληλο επίπεδο θορύβου) και θα εξάγετε στατιστικά αποτελέσματα ώστε να αναδείξετε την σημαντικότητα των αλγορίθμων μετασχηματισμού. Απαιτούνται καλές γνώσεις MATLAB και βασικές γνώσεις επεξεργασίας σήματος και στατιστικής. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με τη Δρ Μαρία Κουτσογιαννάκη, μεταδιδακτορική ερευνήτρια στο Basque Center of Cognition, Brain, and Language, Spain. 11. Ερευνητικό: Βελτιστοποίηση ποιότητας και καταληπτότηας σήματος φωνής εντός κι εκτός περιβάλλοντος θορύβου - 12 μήνες: Η ανάπτυξη αλγορίθμων για την αύξηση της καταληπτότητας της ομιλίας σε περιβάλλοντα θορύβου είναι καίριας σημασίας στη σημερινή τεχνολογιά κυριαρχούμενη εποχή. Δυστυχώς, ενώ οι αλγόριθμοι έχουν αρκετά καλή απόδοση, εισάγουν παραμορφώσεις στο σήμα φωνής με αποτέλεσμα εκτός θορύβου η ποιότητα του σήματος να είναι υποβαθμισμένη. Σκοπός της εργασίας αυτής είναι η βελτίωση της ποιότητας των αλγορίθμων μετασχηματισμού εκτός περιβάλλοντος θορύβου, χωρίς να μειωθεί η καταληπτότητα του σήματος εντός θορύβου. Πρώτο βήμα είναι η αποσύνθεση του σήματος σε πλάτη, φάσεις, και συχνότητες με τα ακριβή μοντέλα μετασχηματισμού που έχουν αναπτυχθεί στο εργαστήριο μας. Σε δεύτερη φάση, απαιτείται η μετατροπή των πλατών με κατάλληλες τεχνικές ωστε να βελτιωθεί η καταληπτότητα χωρίς να μειωθεί η ποιότητα του σήματος και η επανασύνθεση του σήματος. Πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB είναι απαραίτητες. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με τη Δρ Μαρία Κουτσογιαννάκη, μεταδιδακτορική ερευνήτρια στο Basque Center of Cognition, Brain, and Language, Spain. 12. Ερευνητικό: Near-end listening intelligibility enhancement - 12 μήνες: Το Εργαστήριο Επεξεργασίας Σήματος Φωνής διαθέτει μερικούς εξαιρετικούς αλγόριθμους αύξησης καταληπτοτητας ομιλίας σε περιβάλλοντα θορύβου. Δυστυχώς όμως οι αλγόριθμοι αυτοί μπορούν να εφαρμοστούν μονάχα σε καθαρό σήμα φωνής - πριν δηλαδή την εισαγωγή του σήματος σε θόρυβο. Αυτή η τεχνική, παρ όλο που είναι χρήσιμη στην κινητή τηλεφωνία όταν ο θόρυβος βρίσκεται στην πλευρά του δέκτη (near-end listening enhancement), δεν μπορεί να εφαρμοστεί όταν ο θόρυβος βρίσκεται στην πλευρά του ομιλητή (far end) διότι ο αλγόριθμος μετασχηματισμού ενισχύει και το θόρυβο. Σκοπός της εργασίας είναι η εφαρμογή των αλγορίθμων μετασχηματισμού σε σήματα που εχουν υποβαθμιστεί από θόρυβο και η αύξηση της καταληπτότητάς τους χωρίς την παράλληλη αύξηση θορύβου. Πρώτο βήμα είναι η αποσύνθεση του σήματος σε πλάτη, φάσεις, και συχνότητες με τα ακριβή μοντέλα μετασχηματισμού που έχουν αναπτυχθεί στο εργαστήριο μας. Σε δεύτερη φάση, πρέπει να γίνει η μετατροπή των πλατών με κατάλληλες τεχνικές ώστε να βελτιωθεί η καταληπτότητα χωρίς να αυξηθεί ο θόρυβος και η επανασύνθεση του σήματος. Πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB είναι απαραίτητες. Η εργασία αυτή θα 3

διεκπεραιωθεί σε συνεργασία με τη Δρ Μαρία Κουτσογιαννάκη, μεταδιδακτορική ερευνήτρια στο Basque Center of Cognition, Brain, and Language, Spain. 13. Ανάπτυξη αλγορίθμων αποσύνθεσης σήματος φωνής σε περιδικά και απεριοδικά σήματα - 6/12 μήνες: Σχετικά πρόσφατα έχουν αναπτυχθεί μέθοδοι αποσύνθεσης ενός σήματος φωνής σε ένα περιοδικό και ένα απεριοδικό σήμα, με χρήση του Διακριτού Αρμονικού Μετασχηματισμού (Discrete Harmonic Transform - DHT). Ενα από τα προσόντα του DHT είναι ότι μπορεί να συγχρονίζει τη συνάρτηση βάσης του με τη χρονικά μεταβαλλόμενη δομή της θεμελιώδους συχνότητας της φωνής. Η παρούσια εργασία στοχεύει στη μελέτη του αλγορίθμου και στην ανάπτυξη ενός συστήματος που αναλύει ένα σήμα φωνής σε μια περιοδική και μια απεριοδική συνιστώσα. Η γνώση που θα αποκτήσετε περιλαμβάνει την ανάλυση και μοντελοποίηση σημάτων φωνής, καθώς και τον προγραμματισμό τους σε MATLAB. Ως εκ τούτου, πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB είναι απαραίτητες, ενώ το κατάλληλο υπόβαθρο επεξεργασίας σήματος φωνής θα δοθεί ως πρώτη μελέτη. 14. Ανάπτυξη αλγορίθμου εξαγωγής της φασματικής περιβάλλουσας του σήματος φωνής παρουσία θορύβου - 6/12 μήνες: Πολύ πρόσφατα, ερευνητές ανέπτυξαν μια μέθοδο εξαγωγής της φασματικής περιβάλλουσας ενός σήματος φωνής η οποία είναι εύρωστη σε θόρυβο και βασίζεται στην κλασική τεχνική της Γραμμικής Πρόβλεψης (Linear Prediction). Στην παρούσα εργασία, ζητείται η υλοποίηση της μεθόδου time-regularized linear prediction η οποία έχει αποδειχθεί ότι είναι ιδιαίτερα αποδοτική. Η γνώση που θα αποκτήσετε περιλαμβάνει την ανάλυση και μοντελοποίηση σημάτων φωνής, τη μοντελοποίηση της παραγωγής ανθρώπινης ομιλίας και τα στάδιά της, τα σήματα που εμπλέκονται στην παραγωγή αυτή, καθώς και τον προγραμματισμό τους σε MA- TLAB. Πολύ καλές γνώσεις επεξεργασίας σήματος και προγραμματισμού σε MATLAB είναι απαραίτητες, ενώ το κατάλληλο υπόβαθρο επεξεργασίας σήματος φωνής θα δοθεί ως πρώτη μελέτη. 15. Ελεγχος βιβλιοθήκης MatConvNet για υλοποίηση Συνελικτικών Νευρωνικών Δικτύων σε MATLAB - 6/12 μήνες: Για την υλοποίηση αλγορίθμων μηχανικής μάθησης (συγκεκριμένα, βαθιάς μάθησης - deep learning), η ερευνητική κοινότητα χρησιμοποιεί γλώσσες προγραμματισμού όπως η Python και εργαλεία όπως το Tensorflow της Google. Ενα μεγάλο τμήμα των αλγορίθμων αυτών περιλαμβάνει Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks - CNNs). Το περιβάλλον του MATLAB είναι γνωστό ότι είναι αρκετά αργό για τις απαιτήσεις των αλγορίθμων αυτών. Πρόσφατα δημοσιεύτηκε μια βιβλιοθήκη για CNNs σε MATLAB. Στόχος της εργασίας είναι να ελέγξει τις επιδόσεις της βιβλιοθήκης αυτής σε γνωστά προβλήματα ταξινόμησης βασισμένα σε CNNs. Η γνώση που θα αποκτήσετε περιλαμβάνει τεχνικές βαθιάς μάθησης και προχωρημένο προγραμματισμό σε MATLAB. Πολύ καλές βασικές γνώσεις προγραμματισμού σε MATLAB είναι απαραίτητες, ενώ είναι επιθυμητή η εξοικείωση με τεχνικές βαθιάς μάθησης. 16. Ελεγχος βιβλιοθήκης Deep Learning του MATLAB για υλοποίηση αλγορίθμων Βαθιάς Μάθησης σε MATLAB - 6/12 μήνες: Για την υλοποίηση αλγορίθμων μηχανικής μάθησης (συγκεκριμένα, βαθιάς μάθησης - deep learning), η ερευνητική κοινότητα χρησιμοποιεί γλώσσες προγραμματισμού όπως η Python και εργαλεία όπως το Tensorflow της Google. Η τελευταία έκδοση του MATLAB (2018) περιλαμβάνει μια νέα βιβλιοθήκη αποκλειστικά για αλγορίθμους βαθιάς μάθησης. Στόχος της εργασίας είναι να ελέγξει τις επιδόσεις της βιβλιοθήκης αυτής σε γνωστά προβλήματα που λύνονται με τεχνικές βαθιάς μάθησης και να τις συγκρίνει με ήδη γνωστές υλοποιήσεις σε Python-Tensorflow. Η γνώση που θα αποκτήσετε περιλαμβάνει τεχνικές βαθιάς μάθησης και προχωρημένο προγραμματισμό σε MATLAB. Πολύ καλές βασικές γνώσεις προγραμματισμού σε MATLAB είναι απαραίτητες, ενώ είναι επιθυμητή η εξοικείωση με τεχνικές βαθιάς μάθησης. 4

17. Ερευνητικό: Εγκέφαλος και καταληπτότητα ομιλίας: μια πειραματική διαδικασία εύρεσης συσχετισμών - 6/12 μήνες: Η αύξηση της ευκαταληπτότητας της φωνής μέσα σε περιβάλλοντα θορύβου είναι ένα απο τα πιο hot θέματα στον τομέα των Τηλεπικοινωνιών. Οι περισσότερες μέθοδοι βασίζονται είτε στην ενίσχυση του σήματος σε περίπτωση ανίχνευσης θορύβου στη πλευρά του δέκτη είτε στην καταστολή του σήματος θορύβου απο τη πλευρά του πομπού. Στην δεύτερη περίπτωση οι μέθοδοι που χρησιμοποιούνται καταστέλλουν το σήμα θορύβου αλλά παράλληλα μπορεί να το βλάψουν (εισάγουν παραμορφώσεις). Η ιδέα της παρούσης εργασίας βασίζεται στην ιδιότητα του εγκεφάλου να συντονίζεται με σήματα ομιλίας σε συγκεκριμένες συχνότητες (συγκεκριμένα με το ρυθμό της συλλαβής και της λέξης). Η γνώση που θα αποκτήσετε περιλαμβάνει την αντίληψη της ομιλίας από τον εγκέφαλο σε περιβάλλοντα θορύβου, την κατασκευή ακουστικών τεστ αντίληψης ομιλίας, και την επεξεργασία του σήματος φωνής. Καλές γνώσεις προγραμματισμού σε MATLAB, HTML/CSS ή scripting είναι επιθυμητές. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με τη Δρ Μαρία Κουτσογιαννάκη, μεταδιδακτορική ερευνήτρια στο Basque Center of Cognition, Brain, and Language, Spain. 18. Ερευνητικό: Καταστολή Ακουστικής Ηχούς με μεθόδους βαθιάς μάθησης - 12 μήνες: Η ηχώ είναι το φαινόμενο στο οποίο μια καθυστερημένη και τροποποιημένη έκδοση ενός αρχικού σήματος ανακλάται πίσω στην πηγή του ήχου. Σε αυτήν την εργασία θα προσπαθήσουμε να καταστείλουμε την ηχώ μέσω μεθόδων μηχανικής - και συγκεκριμένα - βαθιάς μάθησης. Η ερευνητική κοινότητα έχει προτείνει διάφορες μεθόδους για να διευθετηθεί αυτό το πρόβλημα, οι περισσότερες όμως λειτουργούν στο φασματικό επίπεδο της ομιλίας αγνοώντας μερικώς ή ολικώς το κομμάτι της φάσης του σήματος. Στην εργασία αυτή προτείνουμε τη δημιουργία ενός συστήματος καταστολής ηχούς που λειτουργεί απευθείας στο πεδίο του χρόνου. Μια πολλά υποσχόμενη τεχνική μηχανικής μάθησης για την εργασία αποτελεί το Wavenet, το οποίο αρχικά προτάθηκε για σύνθεση φωνής από δείγματα διακριτού χρόνου και αποτελεί state-of-the-art στον τομέα. Η γνώση που θα αποκτήσετε περιλαμβάνει την επεξεργασία του σήματος φωνής και μοντέλα μηχανικής μάθησης όπως το Wavenet. Πολύ καλές γνώσεις προγραμματισμού σε Python είναι απαραίτητες, ενώ εξοικείωση με νευρωνικά δίκτυα είναι επιθυμητή. Η εργασία αυτή θα διεκπεραιωθεί σε συνεργασία με τον υποψήφιο διδάκτορα M. Shifas PV του εργαστηρίου. 5