Αναγνώριση Μουσικής ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Νικολάου Μουστάκα



Σχετικά έγγραφα
4.3. Γραµµικοί ταξινοµητές

Διακριτός Μετασχηματισμός Fourier

Ήχος και φωνή. Τεχνολογία Πολυµέσων 04-1

Ο Ήχος. Υπεύθυνος Καθηγητής: Παζούλης Παναγιώτης

Σήματα και Συστήματα. Διάλεξη 6: Ανάλυση Σημάτων σε Ανάπτυγμα Σειράς Fourier. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας

Μουσικές Νότες και Κλίμακες Κλίμακες και Ηχοχρώματα (συγκερασμός) Η Πυθαγόρεια Κλίμακα Ισο συγκερασμένη Κλίμακα Ανορθόδοξες Κλίμακες

ΕΡΓΑΣΤΗΡΙΟ ΦΥΣΙΚΗΣ ΟΠΤΙΚΗΣ - ΟΠΤΟΗΛΕΚΤΡΟΝΙΚΗΣ & LASER ΤΜΗΜΑ ΦΥΣΙΚΗΣ ΧΗΜΕΙΑΣ & Τ/Υ ΑΣΚΗΣΗ ΝΟ7 ΟΠΤΙΚΗ FOURIER. Γ. Μήτσου

Ψηφιακή Επεξεργασία Σηµμάτων

Περιεχόµενα ΕΠΛ 422: στα Συστήµατα Πολυµέσων. Βιβλιογραφία. ειγµατοληψία. ηµιουργία ψηφιακής µορφής πληροφορίας στα Συστήµατα Πολυµέσων

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 22: Γρήγορος Μετασχηματισμός Fourier Ανάλυση σημάτων/συστημάτων με το ΔΜΦ

Ο μετασχηματισμός Fourier

Κλινική χρήση των ήχων

2. ΤΟ ΠΛΕΟΝΕΚΤΗΜΑ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΟΣ SYNTHESIS ΣΤΗΝ ΑΠΟ ΟΣΗ ΤΩΝ ΙΑΣΤΗΜΑΤΩΝ ΚΑΙ Η ΑΙΤΙΟΛΟΓΗΣΗ ΤΟΥ

DFT ιακριτός µετ/σµός Fourier Discrete Fourier Transform

Κουρδίσµατα (περίληψη)

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Κωδικοποίηση ήχου. Κωδικοποίηση καναλιού φωνής Κωδικοποίηση πηγής φωνής Αντιληπτική κωδικοποίηση Κωδικοποίηση ήχου MPEG

Τηλεπικοινωνίες. Ενότητα 2.1: Ανάλυση Fourier. Μιχάλας Άγγελος Τμήμα Μηχανικών Πληροφορικής ΤΕ

Ψηφιακή Επεξεργασία Σηµμάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

«Επικοινωνίες δεδομένων»

Διάλεξη 8. Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων. Αντιληπτό ύψος καθαρού τόνου Απόλυτο ύψος

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Μουσική και Μαθηματικά

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών

Περιεχόµενα. ΕΠΛ 422: Συστήµατα Πολυµέσων. Μέθοδοι συµπίεσης ηχητικών. Βιβλιογραφία. Κωδικοποίηση µε βάση την αντίληψη.

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ ΕΞΕΤΑΣΤΙΚΗΣ ΠΕΡΙΟ ΟΥ ΙΟΥΝΙΟΥ 2004., η οποία όµως µπορεί να γραφεί µε την παρακάτω µορφή: 1 e

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 8 Επεξεργασία Σήματος με την Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

ΣΤΟΧΑΣΤΙΚΑ ΣΗΜΑΤΑ ΚΑΙ ΕΦΑΡΜΟΓΕΣ

Σήματα και Συστήματα. Διάλεξη 1: Σήματα Συνεχούς Χρόνου. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

Διάλεξη 9. Η Φυσική της Μουσικής Τ.Ε.Ι. Ιονίων Νήσων. Αντίληψη συνδυασμών τόνων Μορφές ακοής Συνήχηση & παραφωνία Θεωρίες αντίληψης ύψους

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)

«Επικοινωνίες δεδομένων»

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών

Αναγνώριση Προτύπων Ι

Διάλεξη 6. Fourier Ανάλυση Σημάτων. (Επανάληψη Κεφ Κεφ. 10.3, ) Ανάλυση σημάτων. Τι πρέπει να προσέξουμε

ΑΝΑΠΤΥΓΜA - ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΟΓΙΚΩΝ ΣΗΜΑΤΩΝ. Περιγράψουµε τον τρόπο ανάπτυξης σε σειρά Fourier ενός περιοδικού αναλογικού σήµατος.

ΑΝΑΛΥΣΗ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΤΟ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟ FOURIER

Φυσική για Μηχανικούς

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

17-Φεβ-2009 ΗΜΥ Ιδιότητες Συνέλιξης Συσχέτιση

Συµπίεση Ήχου µεβάσητην Αντίληψη: Τα πρότυπα συµπίεσης MPEG-1 layer I, layer II, layer III

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Ευαισθησία πειράµατος (Signal to noise ratio = S/N) ιάρκεια πειράµατος (signal averaging)) ιάρκεια 1,38 1,11 0,28 5,55. (h) πειράµατος.

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Εξεταστική Ιανουαρίου 2007 Μάθηµα: «Σήµατα και Συστήµατα»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΣΗΜΑΤΩΝ Εισαγωγή. Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ. Εισαγωγή στα Σήµατα Εισαγωγή στα Συστήµατα Ανάπτυγµα - Μετασχηµατισµός Fourier Μετασχηµατισµός Z

Συστήµατα τα οποία χαρακτηρίζονται από γραµµικές εξισώσεις διαφορών µε σταθερούς συντελεστές

ΠΕΡΙΕΧΟΜΕΝΑ. ΕΙΣΑΓΩΓΗ: Γνωριμία με την ΑΚΟΥΣΤΙΚΗ 1 ΜΕΡΟΣ ΠΡΩΤΟ: ΘΕΩΡΙΑ 5. 1 ος ΘΕΜΑΤΙΚΟΣ ΑΞΟΝΑΣ: ΤΑΛΑΝΤΩΣΕΙΣ 7 Προσδοκώμενα αποτελέσματα 8

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ιάλεξη 18

x(t) = 4 cos(2π600t π/3) + 2 sin(2π900t + π/4) + sin(2π1200t) (1) w(t) = y(t)z(t) = 2δ(t + 1) (2) (2 sin(2π900t + π/4) t= 1 + sin(2π1200t) )

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΟΜΟΣΠΟΝ ΙΑ ΕΚΠΑΙ ΕΥΤΙΚΩΝ ΦΡΟΝΤΙΣΤΩΝ ΕΛΛΑ ΟΣ (Ο.Ε.Φ.Ε.) ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ 2017 Α ΦΑΣΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Επαναληπτικές Ασκήσεις για το µάθηµα Ψηφιακή Επεξεργασία Σηµάτων

Φυσική για Μηχανικούς

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ FOURIER ΑΝΑΛΥΣΗ FOURIER ΔΙΑΚΡΙΤΩΝ ΣΗΜΑΤΩΝ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ. DTFT και Περιοδική/Κυκλική Συνέλιξη

ΘΕΜΑ Α ΕΡΩΤΗΣΕΙΣ ΘΕΜΑ Α

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 7 Ακούγοντας Πρώτη Ματιά στην Ανάλυση Fourier. Σύστημα Συλλογής & Επεξεργασίας Μετρήσεων

Εργαστήριο Ηλεκτρoακουστικής Άσκηση 2 - Σελίδα 1 ΗΛΕΚΤΡΟΑΚΟΥΣΤΙΚΗ ΑΣΚΗΣΗ 2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

7. Ταλαντώσεις σε συστήµατα µε πολλούς βαθµούς ελευθερίας

Εισαγωγή στα Προσαρµοστικά Συστήµατα

0,4 2 t (όλα τα μεγέθη στο S.I.). Η σύνθετη ταλάντωση περιγράφεται (στο

Κατασκευή- γραφή- έκταση

Στοιχεία επεξεργασίας σημάτων

Νευρωνικά ίκτυα και Εξελικτικός. Σηµερινό Μάθηµα. επανάληψη Γενετικών Αλγορίθµων 1 η εργασία Επανάληψη νευρωνικών δικτύων Ασκήσεις εφαρµογές

Θεωρία Στοχαστικών Σηµάτων: Στοχαστικές διεργασίες, Περιγραφή εργοδικών στοχαστικών διεργασιών

Ο Ήχος ως Σήμα & η Ακουστική Οδός ως Σύστημα

Προσδιορισµός της φασµατικής ισχύος ενός σήµατος

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT)

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Μετάδοση πληροφορίας - Διαμόρφωση

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Αριθµητική Ολοκλήρωση

Ιατρικά Ηλεκτρονικά. Δρ. Π. Ασβεστάς Εργαστήριο Επεξεργασίας Ιατρικού Σήματος & Εικόνας Τμήμα Τεχνολογίας Ιατρικών Οργάνων

5. ΣΥΣΤΗΜΑΤΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Systematic Sampling)

ΠΡΟΒΛΗΜΑΤΑ ΕΛΑΧΙΣΤΟΠΟΙΗΣΗΣ

ΘΟΡΥΒΟΣ Αξιολόγηση και µέτρα αντιµετώπισης

9. Τοπογραφική σχεδίαση

«ΦΥΣΙΚΗ ΚΑΙ ΜΟΥΣΙΚΗ»

ΣΗΜΕΙΩΣΕΙΣ ΘΕΩΡΙΑΣ ΤΗΣ ΜΟΥΣΙΚΗΣ

Θεώρημα δειγματοληψίας

Συμπίεση Δεδομένων

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Ο Παλμογράφος στη Διδασκαλία της Τριγωνομετρίας. Εφαρμογές της Τριγωνομετρίας σε πραγματικά προβλήματα και ενδιαφέρουσες επεκτάσεις

Ψηφιακή Επεξεργασία Σημάτων

ΕΡΓΑΣΤΗΡΙΟ ΑΝΑΛΟΓΙΚΩΝ & ΨΗΦΙΑΚΩΝ ΕΠΙΚΟΙΝΩΝΙΩΝ

Ακαδηµαϊκό Έτος , Εαρινό Εξάµηνο ιδάσκων Καθ.: Νίκος Τσαπατσούλης

2. Ανάλυση και Σύνθεση κυματομορφών με την μέθοδο Fourier

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤ ΩΝ Αναγνώριση Μουσικής ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ του Νικολάου Μουστάκα Επιβλέπων: Αναστάσιος Ντελόπουλος, Επίκουρος Καθηγητής Θεσσαλονίκη, Ιούνιος 2008

Abstract Music recognition refers to the analysis of a musical signal, resolving the pitch, timing and source of each sound event that occurs in it. As this can be very hard, or even theoretically impossible in some cases, the goal is usually redefined as being either to recognize as many of the constituent sounds as possible, or to recognize only some well-defined part of the musical signal, for example the dominant melody. This paper presents a system based on the Fourier Transform which combines some of the existing time-frequency analysis methods advantages, while using some properties of modern music and limitations of the human auditory system, in order to reduce its computational cost. The main steps of the algorithm are the time-frequency analysis of the signal, sound event detection, fundamental frequency estimation and identification of the musical instrument. The identification of the musical instruments is achieved by means of an artificial neural network, trained using an evolutionary algorithm with music samples created for this purpose. 1

Περιεχόµενα Abstract 1 1 Εισαγωγή 4 1.1 Περιγραφή του προβλήµατος.......................... 4 1.2 Υπάρχουσες µέθοδοι ανάλυσης........................ 5 1.3 Σύνοψη της µεθόδου της εργασίας....................... 6 1.4 οµή της εργασίας............................... 6 2 Βασικές ιδιότητες της µουσικής 8 2.1 Στοιχεία της ανθρώπινης ακοής........................ 8 2.2 Στοιχεία της σύγχρονης δυτικής µουσικής.................. 10 2.3 Ανάλυση µουσικών ήχων............................ 11 3 Ανάλυση στο χρόνο και τη συχνότητα 14 3.1 Ανάλυση Fourier................................ 14 3.2 Ανάλυση στο χρόνο και τη συχνότητα..................... 16 3.3 Ανάλυση σε λογαριθµική κλίµακα....................... 17 4 Στοιχεία αναγνώρισης προτύπων 19 4.1 Γενικά...................................... 19 4.2 Τεχνητά Νευρωνικά ίκτυα........................... 20 4.3 Εξελικτικοί αλγόριθµοι............................. 21 5 Ο Αλγόριθµος 24 5.1 Η δοµή του αλγορίθµου............................ 24 2

5.2 Ανάλυση στο χρόνο και τη συχνότητα..................... 25 5.3 Χρονικός εντοπισµός νότας........................... 26 5.4 Υπολογισµός ϑεµελιωδών συχνοτήτων..................... 29 5.5 Αναγνώριση οργάνου.............................. 30 5.6 Περιορισµοί του αλγορίθµου.......................... 32 6 οκιµές 33 6.1 Αναγνώριση µονοφωνικών ήχων........................ 33 6.2 Αναγνώριση πολυφωνικών ήχων........................ 35 7 Συµπεράσµατα - Προοπτικές 38 3

Κεφάλαιο 1 Εισαγωγή 1.1 Περιγραφή του προβλήµατος Ως αναγνώριση ενός µουσικού ηχητικού σήµατος, αναφέρεται ο προσδιορισµός του είδους της ηχητικής πηγής, της συχνότητας, καθώς και ο χρονικός προσδιορισµός του κάθε επιµέρους ήχου που το απαρτίζουν. Επειδή όµως µια πλήρης ανάλυση όλων των παραπάνω στοιχείων είναι δύσκολη, ή ακόµα και ϑεωρητικά αδύνατη σε ορισµένες περιπτώσεις [4], ο στόχος της αναγνώρισης συνήθως επαναπροσδιορίζεται ως είτε η αναγνώριση όσο το δυνατόν περισσότερων ήχων, είτε η αναγνώριση ενός συγκεκριµένου µέρους του σήµατος, όπως για παράδειγµα η κυρίαρχη µελωδία του κοµµατιού. Η αναγνώριση µουσικής έχει πλήθος εφαρµογών. Ενδεικτικά αναφέρονται η µουσική ανάλυση παραδοσιακών κοµµατιών ή αυτοσχεδιασµών, τα οποία δεν έχουν καταγραφεί σε µορφή µουσικού κειµένου, η δηµιουργία οπτικών εφέ τα οποία συγχρονίζονται µε τη µουσική, δηµιουργία διαδραστικών συστηµάτων που να συνοδεύουν ένα σολίστα, ή απλά ϐοηθητικά εργαλεία για τους ερασιτέχνες µουσικούς που προσπαθούν να ερµηνεύσουν κάποιο κοµµάτι που έχουν ακούσει. Οπως αναφέρεται και στη ϐιβλιογραφία, έχουν ήδη αναπτυχθεί διάφορα συστήµατα αναγνώρισης µουσικής. Σκοπός αυτής της εργασίας είναι η σχεδίαση και υλοποίηση ενός σχετικά απλού υπολογιστικά τέτοιου συστήµατος, καθώς και η πειραµατική µελέτη των δυνατοτήτων του. 4

1.2 Υπάρχουσες µέθοδοι ανάλυσης Οι πρώτες προσπάθειες αναγνώρισης πολυφωνικής µουσικής έγιναν τη δεκαετία του 70 από τον Moorer, ενώ ακολούθησαν οι Chafe, Piszczalski και Maher τη δεκαετία του 80. Τα συστήµατα που αναπτύχθηκαν περιορίζονταν στην αναγνώριση δύο το πολύ ταυτόχρονων ήχων, ενώ οι συχνότητες που µπορούσαν αυτοί να έχουν ήταν περιορισµένες. Οι πρώτες προσπάθειες αναγνώρισης κρουστών έγιναν από τον Schloss στα µέσα της δεκαετίας του 80. Ακολούθησε ο Bilmes, ενώ αργότερα οι Goto και Muraoka ασχολήθηκαν µε την αναγνώριση πολυφωνικών κοµµατιών από κρουστά. Από τη δεκαετία του 90 και µετά το ενδιαφέρον για την αναγνώριση µουσικής υπήρξε πιο έντονο, και δηµοσιεύτηκε πλήθος εργασιών. Στις µέρες µας έχει σηµειωθεί σηµαντικός ϐαθµός επιτυχίας στην αναγνώριση πολυφωνικής µουσικής περιορισµένης πολυπλοκότητας, µε κάποιες πολλά υποσχόµενες δηµοσιεύσεις από τους Goto, Ryynanen και Klapuri. Ωστόσο, ακόµα και τα πιο σύγχρονα συστήµατα που αναπτύχθηκαν, είναι σαφώς κατώτερης ακρίβειας σε σχέση µε έναν εκπαιδευµένο µουσικό [4]. Κατά τη διάρκεια των ερευνών έχουν χρησιµοποιηθεί διάφορες µέθοδοι ανάλυσης στο χρόνο και τη συχνότητα, κάθε µία από τις οποίες έχει τα πλεονεκτήµατα και τα µειονεκτήµατά της, ενώ η καταλληλότητά τους διαφέρει ανάλογα µε τις απαιτήσεις της εκάστοτε εφαρµογής. Οι µέθοδοι αυτές διακρίνονται σε παραµετρικές και µη παραµετρικές, ενώ εφαρµόζονται στο σήµα είτε στο πεδίο του χρόνου είτε στο πεδίο των συχνοτήτων. Μια ϐασική µέθοδος, γνωστή ως Short-Time Fourier Transform (STFT), είναι ο µετασχηµατισµός Fourier διαδοχικών τµηµάτων του σήµατος, τα οποία αποµονώνονται από το υπόλοιπο σήµα µε τη ϐοήθεια µιας συνάρτησης παραθύρου. Ο µετασχηµατισµός constant-q [3] χρησιµοποιεί µεταβλητό µήκος παραθύρου, για να επιτύχει σταθερό λόγο συχνότητας προς ακρίβεια ανάλυσης, όπως το ανθρώπινο αυτί. Ισοδύναµα, η ανάλυση µπορεί να γίνει µε εφαρµογή στο σήµα µιας σειράς ϕίλτρων µεταβλητού εύρους Ϲώνης (constant-q filterbank), κατανεµηµένων λογαριθµικά στο ϕάσµα των ακουστών συχνοτήτων. Άλλες µέθοδοι που αναφέρονται στη ϐιβλιογραφία [2] είναι η µοντελοποίηση µε χρήση προσαρµοζόµενων ϕίλτρων, η αυτοσυσχέτιση του σήµατος, ο αλγόριθµος MUSIC 5

(MUltiple SIgnal Classification), η µέθοδος του Prony, η ανάλυση κυµατιδίων (wavelets), η ανάλυση cepstrum κ.ά.. 1.3 Σύνοψη της µεθόδου της εργασίας Στην παρούσα εργασία, γίνεται µια προσέγγιση του προβλήµατος ϐασισµένη στο µετασχηµατισµό Fourier η οποία συνδυάζει χαρακτηριστικά κάποιων από τις υπάρχουσες µεθόδους ανάλυσης, ενώ λαµβάνονται υπόψη ορισµένα στοιχεία της ανθρώπινης ακοής και της µουσικής για µείωση των απαιτούµενων υπολογισµών. Ο αλγόριθµος που παρουσιάζεται χωρίζει µε χρήση παραθύρου το σήµα σε αλληλοεπικαλυπτόµενα τµήµατα σταθερού µήκους, όπως ο µετασχηµατισµός STFT, αλλά ο υπολογισµός του ϕάσµατος γίνεται σε ορισµένες µόνο συχνότητες. Οι συχνότητες αυτές επιλέγονται σύµφωνα µε την ανάλυση constant-q filterbank [3]. Ο εντοπισµός της χρονικής στιγµής έναρξης κάθε νότας γίνεται µε ϐάση την εκτίµηση της ενέργειας του ϕάσµατος του σήµατος. Ο υπολογισµός της συχνότητας γίνεται µέσω της ετεροσυσχέτισης του ϕάσµατος µε ένα πρότυπο ϕάσµατος. Τέλος, για την αναγνώριση του οργάνου, µετρούνται ορισµένες παράµετροι της κάθε νότας, οι οποίες δίνονται ως είσοδος σε ένα νευρωνικό δίκτυο. Το νευρωνικό δίκτυο έχει εκπαιδευτεί εκ των προτέρων στη διάκριση µεταξύ των οργάνων που χρησιµοποιήθηκαν στα πειράµατα, σύµφωνα µε µετρήσεις που λήφθηκαν από ένα σύνολο αρχείων ήχου που ηχογραφήθηκαν για το σκοπό αυτό. Η εκπαίδευση του νευρωνικού δικτύου έγινε µε χρήση εξελικτικού αλγορίθµου. 1.4 οµή της εργασίας Στο επόµενο κεφάλαιο δίνονται κάποια στοιχεία σχετικά µε την ανθρώπινη ακοή, τη µουσική, και γίνεται ανάλυση των ήχων που παράγουν τα όργανα που επιλέχθηκαν για την παρούσα εργασία. Στο τρίτο κεφάλαιο δίνεται το ϑεωρητικό υπόβαθρο της µεθόδου που χρησιµοποιείται για την ανάλυση του σήµατος στο χρόνο και τη συχνότητα. Στο τέταρτο κεφάλαιο αναλύονται ϑεωρητικά οι µέθοδοι αναγνώρισης προτύπων που 6

χρησιµοποιήθηκαν για το διαχωρισµό των οργάνων. Στο πέµπτο κεφάλαιο περιγράφεται αναλυτικά ο αλγόριθµος και η επεξεργασία ενός σήµατος ϐήµα προς ϐήµα. Στο έκτο κεφάλαιο δίνονται τα αποτελέσµατα των πειραµάτων, και στατιστικά στοιχεία σχετικά µε την επιτυχία του αλγορίθµου. Τέλος, στο έβδοµο κεφάλαιο, γίνεται µια σύνοψη και παρουσίαση των συµπερασµάτων που προέκυψαν από την παρούσα εργασία. 7

Κεφάλαιο 2 Βασικές ιδιότητες της µουσικής 2.1 Στοιχεία της ανθρώπινης ακοής Η αντίληψη των ϕυσικών ακουστικών µεγεθών από τον άνθρωπο είναι πολύ διαφορετική από την ανάλυση που µπορεί να εκτελέσει ένα όργανο µέτρησης των µεγεθών αυτών. Το ϕάσµα των ακουστών συχνοτήτων είναι περιορισµένο εξαιτίας της ανατοµίας του ανθρώπινου αυτιού. Η ελάχιστη ακουστή συχνότητα είναι περίπου 20Hz, ενώ η µέγιστη αγγίζει τα 20KHz και µειώνεται σταδιακά µε την ηλικία, µέχρι και τα 10KHz. Το ίδιο συµβαίνει και µε τις εντάσεις του ήχου. Οι µικρές εντάσεις δεν γίνονται αντιληπτές, ενώ οι πολύ µεγάλες εντάσεις προκαλούν πόνο ή ακόµα και ϐλάβη στο αυτί. Στο σχήµα 2.1 παρουσιάζεται το διάγραµµα πεδίου της ανθρώπινης ακοής. Είναι ϕανερό ότι η οµιλία καλύπτει ένα περιορισµένο πεδίο της ακοής, και κυρίως όσο αφορά την δυναµική της περιοχή. Η µουσική καλύπτει σαφώς µεγαλύτερη έκταση των εντάσεων και συχνοτήτων, όµως παρόλα αυτά είναι και πάλι περιορισµένη σε σχέση µε το υπόλοιπο πεδίο της ακουστότητας. Η ελάχιστη αντιληπτή διαφορά συχνότητας εξαρτάται από την ένταση αλλά και τη συχνότητα του ήχου. Η διαφορά αυτή µεγαλώνει µε τη µείωση της έντασης ή την αύξηση της συχνότητας του ήχου. Η δυνατότητα διάκρισης εξαρτάται επίσης από το αν πρόκειται για καθαρούς τόνους ή σύνθετους ήχους. Σύνθετοι ήχοι είναι δυνατόν να αναγνωριστούν χάρη στη διαφορά που έχουν οι αρµονικές τους. Από έρευνες που έγιναν, προκύπτει ότι ο ελάχιστη διάρκεια που πρέπει να έχει ένας 8

Σχήµα 2.1: Πεδίο και όρια της ανθρώπινης ακοής. ήχος για να γίνει αντιληπτός κυµαίνεται περίπου από 10msec ως 100msec, ανάλογα µε την ένταση και τη συχνότητά του. Ενδιαφέρον επίσης παρουσιάζει η ικανότητα του αυτιού να διαχωρίζει έναν ήχο από τις ανακλάσεις του (ηχώ). Για µικρές διαφορές στο χρόνο άφιξης, µέχρι 30msec, η ακοή µε δυσκολία αναγνωρίζει την ύπαρξη του ανακλώµενου ήχου, δίνοντας την εντύπωση ότι ο πρώτος ήχος διαρκεί περισσότερο. Με αύξηση της διαφοράς (πάνω από 50msec) ο δεύτερος ήχος γίνεται πια καθαρά αντιληπτός και χρειάζεται να µειωθεί αισθητά η έντασή του ώστε να µην γίνεται σύγχυση µε τον πρώτο. Πέρα από την ειδική συµπεριφορά της ευαισθησίας της ακοής αναλόγως της συχνότητας, εµφανίζονται µειώσεις στην κανονική αυτή συµπεριφορά, για διάφορους λόγους. Ενας από αυτούς είναι και το ϕαινόµενο της απόκρυψης. Είναι ϕυσικό, όταν υπάρχει ένας τόνος µε κάποια συχνότητα, ένας άλλος τόνος µε την ίδια συχνότητα και µε χαµηλότερη στάθµη να µη γίνεται αντιληπτός. Στην περίπτωση όµως αυτή, εκτός από τη συχνότητα του τόνου που δηµιουργεί την απόκρυψη, η ευαισθησία της ακοής µειώνεται σε µια ευρύτερη περιοχή που επεκτείνεται προς τις υψηλότερες περιοχές συχνοτήτων. Συνεπώς η παρουσία ενός τόνου αποκρύπτει στην πραγµατικότητα και µια σειρά τόνων υψηλότερης συχνότητας. Η µείωση αυτή της ευαισθησίας περιορίζεται όσο αυξάνει η συχνότητα. Η συνολική απώλεια ευαισθησίας εξαρτάται από τη στάθµη του τόνου που 9

δηµιουργεί την απόκρυψη. 2.2 Στοιχεία της σύγχρονης δυτικής µουσικής Τα κύρια χαρακτηριστικά που διαφοροποιούν τη µουσική από το ϑόρυβο είναι η περιοδικότητα των µουσικών ήχων και ο ϱυθµός. Εποµένως τα ϐασικά στοιχεία που πρέπει να προσδιοριστούν σε µια νότα είναι η ϐασική της συχνότητα και η διάρκειά της. Τα στοιχεία αυτά µπορούν να πάρουν διάφορες τιµές, ανάλογα µε το είδος της µουσικής. Η ανάλυσή µας ϑα γίνει σύµφωνα µε τη σύγχρονη δυτική µουσική, η οποία είναι και η πιο διαδεδοµένη παγκοσµίως. Σύµφωνα µε τη σύγχρονη δυτική µουσική λοιπόν, τα ϕάσµα των συχνοτήτων χωρίζεται σε οκτάβες. Ως οκτάβα ορίζεται το διάστηµα ανάµεσα σε µία συχνότητα και τη διπλάσιά της. Η οκτάβα χωρίζεται περαιτέρω σε 12 ηµιτόνια. Ο λόγος των συχνοτήτων δύο διαδοχικών ηµιτονίων είναι σταθερός, και ίσος µε 2 1/12. Οι συχνότητες αυτές παίρνουν συγκεκριµένες, κβαντισµένες τιµές, οι οποίες δίνονται στον πίνακα 2.2. Είναι ϕανερό ότι οι συχνότητες που µπορεί να έχει µια νότα είναι λογαριθµικά κατανεµηµένες στον άξονα των συχνοτήτων. Ως κεντρική συχνότητα αναφέρεται συνήθως η νότα C4 (ντο) στα 262Hz. Η διάρκεια της κάθε νότας, και άρα η απόσταση στο χρόνο δύο διαδοχικών νοτών, παίρνει επίσης συγκεκριµένες τιµές. Μεγαλύτερη διάρκεια έχει το ολόκληρο, το οποίο διαρκεί 4 χρόνους. Οι υπόλοιπες δυνατές τιµές είναι γενικά οι υποδιαιρέσεις του. Το µισό, µε διάρκεια 2 χρόνους, το τέταρτο, µε διάρκεια 1 χρόνο, το όγδοο κτλ. Ορίζονται και διαστήµατα ελαφρώς µεγαλύτερα ή µικρότερα από τα παραπάνω, αλλά πάντα µε συγκεκριµένη τιµή. Θεωρητικά επίσης µπορούν να οριστούν πολύ µικρά διαστήµατα, στην πράξη όµως ακόµα και ένα πολύ γρήγορο κοµµάτι δεν περιέχει διαστήµατα µικρότερα από ένα τριακοστό δεύτερο. Η απόλυτη χρονική διάρκεια ενός χρόνου ποικίλλει ανάλογα µε το κοµµάτι, και συνήθως αναφέρεται στην αρχή του µουσικού κειµένου. Συνήθως παίρνει τιµή γύρω στα 0.7sec. 10

Α1 55Hz D 3 156Hz Α4 440Hz D 6 1245Hz Α 1 58Hz Ε3 165Hz Α 4 466Hz Ε6 1319Hz Β1 62Hz F3 175Hz Β4 494Hz F6 1397Hz C2 65Hz F 3 185Hz C5 523Hz F 6 1480Hz C 2 69Hz G3 196Hz C 5 554Hz G6 1568Hz D2 73Hz G 3 208Hz D5 587Hz G 6 1661Hz D 2 78Hz Α3 220Hz D 5 622Hz Α6 1760Hz Ε2 82Hz Α 3 233Hz Ε5 659Hz Α 6 1865Hz F2 87Hz Β3 247Hz F5 698Hz Β6 1976Hz F 2 92Hz C4 262Hz F 5 740Hz C7 2093Hz G2 98Hz C 4 277Hz G5 784Hz C 7 2217Hz G 2 104Hz D4 294Hz G 5 831Hz D7 2349Hz Α2 110Hz D 4 311Hz Α5 880Hz D 7 2489Hz Α 2 117Hz Ε4 330Hz Α 5 932Hz Ε7 2637Hz Β2 123Hz F4 349Hz Β5 988Hz F7 2794Hz C3 131Hz F 4 370Hz C6 1047Hz F 7 2960Hz C 3 139Hz G4 392Hz C 6 1109Hz G7 3136Hz D3 147Hz G 4 415Hz D6 1175Hz G 7 3322Hz Σχήµα 2.2: Θεµελιώδεις συχνότητες 2.3 Ανάλυση µουσικών ήχων Στη σύγχρονη και παραδοσιακή µουσική συναντώνται πολλά όργανα, κάθε ένα από τα οποία έχει τα δικά του χαρακτηριστικά και το δικό του ξεχωριστό ήχο. Τα µουσικά όργανα χωρίζονται σε κρουστά, πνευστά και έγχορδα, ανάλογα µε το µέσο ταλάντωσης που παράγει τον ήχο. Κάθε µία από αυτές τις κατηγορίες µπορεί να χωριστεί σε υποκατηγορίες. Στα έγχορδα όργανα για παράδειγµα, το χτύπηµα των χορδών µπορεί να γίνει µε τα δάκτυλα, µε δοξάρι, ή µε πλήκτρα. Τίθεται λοιπόν το ερώτηµα, σε τι διαφέρουν τα ηχητικά σήµατα που παράγονται από διαφορετικά όργανα. Οι µουσικοί ήχοι, όπως κάθε περιοδικό σήµα, εκτός από τη ϐασική συχνότητα 11

περιέχουν και αρµονικές. Συχνότητες δηλαδή µε τιµές ακέραια πολλαπλάσια της ϐασικής. Αν υπολογίσουµε το ϕάσµα διαφόρων οργάνων, διαπιστώνουµε ότι το πλάτος της κάθε αρµονικής διαφέρει από όργανο σε όργανο. Σε µερικά όργανα µάλιστα κάποιες αρµονικές απουσιάζουν τελείως, ή έχουν ισχύ µεγαλύτερη από αυτήν της ϐασικής συχνότητας. Άλλα χαρακτηριστικά προκύπτουν από ανάλυση της µεταβολής της έντασης του παραγόµενου ήχου συναρτήσει του χρόνου. Ο χρόνος που µεσολαβεί από το χτύπηµα π.χ. της χορδής ή του πλήκτρου, µέχρι το σηµείο όπου η ένταση του ήχου παίρνει τη µέγιστη τιµή της, καθώς και ο ϱυθµός µείωσης της έντασης στη συνέχεια είναι µεγέθη που µπορούν να χαρακτηρίσουν κάποια όργανα ή κατηγορίες οργάνων. Στην παρούσα εργασία έγινε ανάλυση ήχων από πιάνο, κιθάρα, κρητική λύρα και µεταλλόφωνο. Στα παρακάτω σχήµατα ϕαίνεται το αρχικό σήµα, το ϕάσµα και η µεταβολή της έντασης των ήχων που παράγουν τα παραπάνω όργανα. Σχήµα 2.3: Ηχοι διαφόρων µουσικών οργάνων : πιάνο, κιθάρα, κρητική λύρα και µεταλλόφωνο 12

Σχήµα 2.4: Φασµατική ανάλυση των ήχων του σχήµατος 2.3 Σχήµα 2.5: Μεταβολή της έντασης συναρτήσει του χρόνου των ήχων του σχήµατος 2.3 13

Κεφάλαιο 3 Ανάλυση στο χρόνο και τη συχνότητα 3.1 Ανάλυση Fourier Οπως είναι γνωστό, το ϕάσµα ενός σήµατος µπορεί να υπολογιστεί µε το µετασχηµατισµό Fourier (Fourier Transform, FT). Με άλλα λόγια, µε το µετασχηµατισµό Fourier µπορούµε να µεταφέρουµε ένα σήµα x(t) από το πεδίο του χρόνου στο πεδίο των συχνοτήτων, ή αλλιώς να υπολογίσουµε το συχνοτικό του περιεχόµενο. Ο µετασχηµατισµός Fourier δίνεται από τον τύπο X(ω) = x(t)e jωt dt (3.1) Για διακριτά σήµατα πεπερασµένου µήκους N, χρησιµοποιούµε το διακριτό µετασχηµατισµό Fourier (Discrete Fourier Transform, DFT), ο οποίος ορίζεται ως X[k] = N=1 n=0 x[n]e j 2π N kn, k = 0, 1,..., N 1 (3.2) Το διακριτό ϕάσµα που προκύπτει υπολογίζεται στις διακριτές συχνότητες ω k = 2π k, k = 0, 1,..., N 1 (3.3) N Ορίζεται επίσης ο µετασχηµατισµός Fourier διακριτού χρόνου (Discrete Time Fourier Transform, DTFT), ως X(ω) = x[n]e jωn (3.4) n= 14

Οπως είναι ϕανερό από τον παραπάνω τύπο, ο DTFT ορίζεται µόνο για διακριτά σήµατα απείρου µήκους. Στη συνέχεια ϑα εξετάσουµε δυο παραδείγµατα ανάλυσης µε χρήση του DFT. Θεωρούµε τα πεπερασµένου µήκους διακριτά σήµατα x 1 [n] = sin(2π 8 n), n = 0, 1,..., N 1 (3.5) 64 x 2 [n] = sin(2π 9 n), n = 0, 1,..., N 1 (3.6) 64 µε µήκος N = 32. Ο DFT αυτών των σηµάτων ϕαίνεται στο σχήµα 3.1. Σχήµα 3.1: Μετασχηµατισµός DFT των σηµάτων x 1 [n] και x 2 [n] Παρατηρούµε ότι τα διακριτά ϕάσµατα των δυο σηµάτων διαφέρουν σηµαντικά µεταξύ τους, ενώ δεν είναι δυνατός ο ακριβής προσδιορισµός της συχνότητας του δεύτερου σήµατος. Το ϕαινόµενο αυτό εξηγείται αν ϑεωρήσουµε ότι τα δύο σήµατα αποτελούν τµήµατα από τα αντίστοιχα σήµατα απείρου µήκους x 1 [n] και x 2 [n] 0 n < 0 x i [n] = x i [n] 0 n < N (3.7) 0 n N 15

ή ισοδύναµα 0 n < 0 x i [n] = x i [n]w[n], όπου w[n] = 1 0 n < N 0 n N (3.8) Στην περίπτωση αυτή, µπορούµε να εφαρµόσουµε το µετασχηµατισµό DTFT, και έτσι να υπολογίσουµε το συνεχές ϕάσµα των δύο σηµάτων. Η συνάρτηση w[n] ονοµάζεται παράθυρο. Οπως ϕαίνεται και στο σχήµα 3.2, ο DFT των σηµάτων αποτελεί ουσιαστικά δειγµατοληψία του συνεχούς ϕάσµατος που υπολογίσαµε µε τον DTFT. Σχήµα 3.2: Μετασχηµατισµοί DFT και DTFT των σηµάτων x 1 [n] και x 2 [n] Οταν η συχνότητα του σήµατος συµπίπτει µε µια από τις συχνότητες ω k στις οποίες υπολογίζεται ο DFT, όπως στο σήµα x 1 [n], η δειγµατοληψία γίνεται ανάµεσα στους λοβούς, όπου το ϕάσµα έχει τιµή µηδέν. Σε αντίθετη περίπτωση, όπως στο σήµα x 2 [n], η δειγµατοληψία γίνεται πάνω στους λοβούς, µε αποτέλεσµα η µορφή του ϕάσµατος να αλλάζει. Εποµένως, µε χρήση του DTFT είναι δυνατός ο ακριβής υπολογισµός της συχνότητας του σήµατος. 3.2 Ανάλυση στο χρόνο και τη συχνότητα Ο µετασχηµατισµός Fourier έχει ένα ϐασικό µειονέκτηµα. εν περιέχει καµία πληροφορία για το πώς µεταβάλλεται το σήµα συναρτήσει του χρόνου. Ενα χρήσιµο 16

εργαλείο για την ανάλυση σηµάτων στο χρόνο και τη συχνότητα είναι ο Short Time Fourier Transform (STFT). Ο STFT ενός συνεχούς σήµατος x(t) ορίζεται από τον τύπο X(τ, ω) = x(t)w(t τ)e jωt dt (3.9) όπου w(t) είναι µία συνάρτηση παραθύρου. Στην ουσία πρόκειται για υπολογισµό του FT σε διαδοχικά τµήµατα του αρχικού σήµατος. Ο διακριτός STFT ορίζεται από τον τύπο X(m, ω) = x[n]w[n m]e jωn (3.10) n= Ενδιαφέρον παρουσιάζει η ικανότητα ανάλυσης του STFT στο χρόνο και τη συχνότητα. Η ελάχιστη διαφορά που απαιτείται για να µπορούν δύο διαφορετικές συχνότητες να διαχωριστούν µεταξύ τους, να παρουσιάζονται δηλαδή ως δύο διαφορετικές κορυφές στο ϕάσµα, είναι f w = B w f s N (3.11) όπου N το µήκος του παραθύρου και f s η συχνότητα δειγµατοληψίας. Η παράµετρος B w εξαρτάται από το είδος του παραθύρου, και παίρνει τιµή 2 για το ορθογώνιο παράθυρο και 4 για το παράθυρο hamming. Οπως είναι λοιπόν ϕανερό, για δεδοµένη συχνότητα δειγµατοληψίας, για να αυξηθεί η ακρίβεια της ανάλυσης στη συχνότητα πρέπει να αυξηθεί το µήκος του παραθύρου. Μεγάλο µήκος παραθύρου όµως σηµαίνει απώλεια πληροφορίας στο πεδίο του χρόνου. Οι ϐέλτιστες παράµετροι εξαρτώνται από την εκάστοτε εφαρµογή. 3.3 Ανάλυση σε λογαριθµική κλίµακα Οπως αναφέρθηκε στο προηγούµενο κεφάλαιο, οι µουσικές νότες έχουν ϑεµελιώδεις συχνότητες λογαριθµικά κατανεµηµένες στον άξονα των συχνοτήτων. Εποµένως, για την ανάλυση ενός σήµατος µουσικής απαιτείται µεγαλύτερη ακρίβεια στις χαµηλές συχνότητες και µικρότερη στις υψηλές. Μια παραλλαγή του διακριτού µετασχηµατισµού STFT που πετυχαίνει αυτή την 17

ανάλυση είναι ο µετασχηµατισµός constant Q, ο οποίος ορίζεται από τον τύπο X cq [k] = 1 N[k] 1 2π j x[n]w[n, k]e N[k] kn (3.12) N[k] n=0 Ο µετασχηµατισµός αυτός υπολογίζει το πλάτος ορισµένων µόνο συχνοτήτων του ϕάσµατος, για κάθε µια από τις οποίες χρησιµοποιεί διαφορετικό µήκος παραθύρου, επιτυγχάνοντας την επιθυµητή ακρίβεια στη συχνότητα. Με αυτό τον τρόπο όµως, στις χαµηλές συχνότητες όπου το µήκος του παραθύρου είναι µεγαλύτερο, είναι µικρότερη η ανάλυση στο πεδίο του χρόνου. Η απλούστερη λύση ϑα ήταν ο υπολογισµός του STFT για τιµές συχνοτήτων λογαριθµικά κατανεµηµένες στον άξονα των συχνοτήτων, αλλά µε σταθερό µήκος παραθύρου. Ωστόσο, προϋπόθεση για την επιτυχή ανάλυση µε τον τρόπο αυτό όµως, είναι να µην υπάρχουν στο σήµα συχνότητες µε διαφορά µικρότερη από f w. 18

Κεφάλαιο 4 Στοιχεία αναγνώρισης προτύπων 4.1 Γενικά Η αναγνώριση προτύπων αποτελεί υποσύνολο της τεχνητής νοηµοσύνης, και έχει ως στόχο την κατάταξη ενός αριθµού προτύπων σε κατηγορίες σύµφωνα µε a priori γνώση ή στατιστική ανάλυση πληροφοριών που εξάχθηκαν από αυτά. Τα πρότυπα προς κατάταξη αποτελούν συνήθως σύνολα µετρήσεων, τα οποία ορίζουν σηµεία στον πολυδιάστατο χώρο. Η κατάταξη συνήθως ϐασίζεται σε ένα πλήθος προτύπων που έχει εκ των προτέρων κατηγοριοποιηθεί, το οποίο ονοµάζεται σύνολο εκπαίδευσης (training set). Στην περίπτωση αυτή η εκπαίδευση του αλγορίθµου κατάταξης ϑεωρείται επιβλεπόµενη (supervised), σε αντιδιαστολή µε την µη επιβλεπόµενη εκπαίδευση η οποία γίνεται χωρίς εκ των προτέρων προσδιορισµό των προτύπων. Ο διαχωρισµός γίνεται σύµφωνα µε τις συναρτήσεις απόφασης, οι οποίες στην γραµµική τους µορφή δίνονται από τον τύπο d( x) = n w i x i + w n+1 = w T x (4.1) i=1 Ο διαχωρισµός M > 2 προτύπων Ω 1, Ω 2,..., Ω M δεν είναι µονοσήµαντη ενέργεια, και µπορεί να σηµαίνει διαχωρισµό του κάθε προτύπου από όλα τα υπόλοιπα, > 0 x Ω i d i ( x) = w it x = i = 1, 2,..., M (4.2) < 0 x / Ω i 19

είτε διαχωρισµό των προτύπων ανά δύο > 0 x Ω i d ij ( x) = w ijt x = (4.3) < 0 x Ω j Συνεπάγεται ϐέβαια ότι για κατάταξη στο πρότυπο Ω i η παραπάνω σχέση πρέπει να ισχύει για κάθε j i. Είναι όµως δυνατόν να υπάρξουν περιπτώσεις στις οποίες η συγκυρία αυτή να είναι αδύνατη για τις συγκεκριµένες συναρτήσεις απόφασης και πρότυπα Ω i. Άλλος, τέλος, διαχωριστικός κανόνας είναι ο εξής : d i ( x) > d j ( x) i j x Ω i (4.4) Η εκπαίδευση του αλγορίθµου κατάταξης συνίσταται στην επιλογή των ϐαρών w i µε σκοπό τον επιτυχή διαχωρισµό των προτύπων. Επειδή είναι δυνατόν ένα σύνολο προτύπων να µην είναι γραµµικά διαχωρίσιµο, είναι δυνατόν να χρησιµοποιηθούν και µη γραµµικές συναρτήσεις απόφασης. 4.2 Τεχνητά Νευρωνικά ίκτυα Μια ευέλικτη µέθοδος µη γραµµικού διαχωρισµού προτύπων είναι η χρήση τεχνητών νευρωνικών δικτύων (Artificial Neural Networks, ANN). Τα τεχνητά νευρωνικά δίκτυα αποτελούν ένα µαθηµατικό µοντέλο των πραγµατικών (ϐιολογικών) νευρωνικών δικτύων του εγκεφάλου. Ενα νευρωνικό δίκτυο αποτελείται από νευρώνες, συνδεδεµένους µεταξύ τους, οι οποίοι είναι διατεταγµένοι σε στρώµατα. Η έξοδος του κάθε στρώµατος αποτελεί την είσοδο του εποµένου. Στρώµατα µε µη παρατηρήσιµες εισόδους/εξόδους ονοµάζονται κρυµµένα (hidden), και παρεµβάλλονται µεταξύ των στρωµάτων εισόδου και εξόδου. Ο κάθε νευρώνας έχει ένα σύνολο εισόδων a 1, a 2,..., a n και παράγει µία έξοδο b. Η µαθηµατική του περιγραφή είναι ( n ) b = f a i w i + w 0 θ (4.5) i=1 Η συνάρτηση f, τα ϐάρη w και η πολωτική παράµετρος θ χαρακτηρίζουν πλήρως τον νευρώνα. Η συνάρτηση f µπορεί να είναι γραµµική ή µη γραµµική. Στην πράξη, η 20

Σχήµα 4.1: Τεχνητό Νευρωνικό ίκτυο συχνότερη επιλογή είναι η σιγµοειδής συνάρτηση : f(x) = 1 1 e x (4.6) Αξιοσηµείωτο είναι το γεγονός ότι η συνάρτηση αυτή περιγράφει τις σχέσεις εισόδουεξόδου πραγµατικών (ϕυσιολογικών) νευρώνων. Η εκπαίδευση του δικτύου µπορεί να γίνει µε διάφορους τρόπους, να είναι επιβλεπόµενη ή µη επιβλεπόµενη, ενώ η δυνατότητα εκµάθησης µπορεί να είναι δοµική (ανεξάρτητη από το χρόνο) ή διαχρονική (εξελισσόµενη). Κατά την επιβλεπόµενη εκπαίδευση στόχος είναι η επιλογή των ϐαρών w i που ελαχιστοποιεί το σφάλµα κατάταξης e του δείγµατος εκπαίδευσης. 4.3 Εξελικτικοί αλγόριθµοι Ενας τρόπος εκπαίδευσης νευρωνικών δικτύων είναι µε χρήση εξελικτικών αλγορί- ϑµων. Οι εξελικτικοί αλγόριθµοι αποτελούν τεχνικές ολικής ϐελτιστοποίησης που ϐασ ιζονται σε ιδέες δανεισµένες από την εξελικτική ϐιολογία, η οποία έχει να επιδείξει την επιτυχηµένη επίλυση πολύπλοκων προβληµάτων ϐελτιστοποίησης όπως η δηµιουργία και 21

ανάπτυξη νέων οργανισµών, καθώς και η προσαρµογή τους σε δραστικά µεταβαλλόµενες συνθήκες. Ολοι οι εξελικτικοί αλγόριθµοι ϑεωρούν ένα πληθυσµό από άτοµα, καθένα από τα οποία παριστάνει µια λύση του προβλήµατος ϐελτιστοποίησης (ένα σηµείο στο χώρο αναζήτησης). Οπως και στη ϕύση, ο πληθυσµός εξελίσσεται σε γενεές διαµέσω του χρόνου, λόγω της εφαρµογής πάνω στα άτοµα του πληθυσµού διαφόρων εξελικτικών τελεστών. Με τον τρόπο αυτό, δηµιουργούνται νέα άτοµα που παριστάνουν διαφορετικά σηµεία στο χώρο αναζήτησης, καλύπτοντας έτσι ολοένα και περισσότερες περιοχές αυτού. Σε κάθε άτοµο του πληθυσµού αντιστοιχεί µια τιµή της αντικειµενικής συνάρτησης η οποία στην ορολογία των εξελικτικών αλγορίθµων καλείται συνάρτηση ικανότητας. Η διαδικασία επιλογής εξασφαλίζει ότι τα άτοµα µε την καλύτερη απόδοση, η οποία αξιολογείται µε ϐάση τη συνάρτηση ικανότητας, ϑα έχουν µεγαλύτερη πιθανότητα να επιβιώσουν. Κατά συνέπεια, ο πληθυσµός τείνει να εξελιχθεί προς τα άτοµα µε την καλύτερη απόδοση, λύνοντας το πρόβληµα της ϐελτιστοποίησης. Η γενική δοµή των εξελικτικών αλγορίθµων είναι η εξής : 1. Επιλογή αρχικού πληθυσµού Θ που απαρτίζεται από Ν άτοµα. 2. Εφαρµογή γενετικών τελεστών στον Θ και δηµιουργία νέου πληθυσµού. 3. Υπολογισµός της συνάρτησης ικανόητας για κάθε άτοµο του Θ 4. Εκτέλεση της διαδικασίας επιλογής και δηµιουργίας του πληθυσµού Θ. 5. Ελεγχος κριτηρίων τερµατισµού ώστε αν ικανοποιούνται να τερµατιστεί ο αλγόριθµος, αλλιώς επιστροφή στο ϐήµα 2. Οι εξελικτικοί αλγόριθµοι διαφέρουν τόσο στη διαδικασία επιλογής, όσο και στους εφαρµοζόµενους γενετικούς τελεστές. Μια µορφή εξελικτικών αλγορίθµων είναι οι εξελικτικές στρατηγικές (evolution strategies), οι οποίες αναπτύχθηκαν από τους Rechenberg και Schwefel στη Γερµανία στη δεκαετία του 60. Στις εξελικτικές στρατηγικές κυρίαρχο ϱόλο παίζει ο τελεστής της µετάλλαξης (mutation) x i (k) = x i (k 1) + x(k) (4.7) όπου k ο µετρητής των γενεών (επαναλήψεων του αλγορίθµου). Στην απλούστερη περίπτωση, όλα τα ορίσµατα της συνάρτησης ικανότητας µεταλλάσσονται µε την ίδια 22

Gaussian κατανοµή. Στην προηγούµενη σχέση το x κατανέµεται σύµφωνα µε τη συνάρτηση πυκνότητας πιθανότητας P ( x) = 1 2πσ e x2 2σ 2 (4.8) Επειδή η συνάρτηση αυτή έχει µηδενική µέση τιµή, τα ορίσµατα µεταβάλλονται ισοπίθανα τόσο για µικρές όσο και για µεγάλες τιµές. Επιπλέον, η συνάρτηση αυτή παράγει µικρές µεταλλάξεις (µικρά x) µε µεγαλύτερη πιθανότητα απ ότι µεγαλύτερες. Η διασπορά σ ελέγχει το µέγεθος του µέσου ϐήµατος x της µετάλλαξης. Εκτός από τον τελεστή µετάλλαξης, χρησιµοποιείται και ο τελεστής της διασταύρωσης (crossover). Απαραίτητη προϋπόθεση για να γίνει η διασταύρωση είναι η ύπαρξη δύο ατόµων του πληθυσµού που ονοµάζονται γονείς. Με τη διασταύρωση παράγονται νέα άτοµα που ονοµάζονται απόγονοι. ύο είναι οι κύριες διαδικασίες εφαρµογής της διασταύρωσης. Στην πρώτη, χρησιµοποιείται η µέση τιµή των αντίστοιχων στοιχείων των δύο γονέων, δηµιουργώντας µε τον τρόπο αυτό έναν απόγονο. Κατά τη δεύτερη, παράγονται δύο απόγονοι, καθένας από τους οποίους έχει κληρονοµήσει ένα τµήµα από τον ένα γονέα και το υπόλοιπο από τον άλλο. Τόσο ο τελεστής της µετάλλαξης, όσο και ο τελεστής της διασταύρωσης πραγµατοποιούνται µε πιθανότητα. Η διαδικασία της επιλογής εφαρµόζεται κατά ντετερµινιστικό τρόπο στις εξελικτικές στρατηγικές. Καταρχήν το κάθε άτοµο στον πληθυσµό κατατάσσεται ανάλογα µε την τιµή της συνάρτησης ικανότητας που του αντιστοιχεί. Στη συνέχεια επιλέγονται τα καλύτερα. Στη διαδικασία επιλογής µπορούν να συµµετέχουν είτε γονείς και απόγονοι, είτε µόνο οι απόγονοι. Ο ϐέλτιστος πληθυσµός (γονείς και απόγονοι) σε κάθε γενεά εξαρτάται από το πρόβληµα. Πολύπλοκα προβλήµατα απαιτούν µεγαλύτερο πληθυσµό καθώς και γενεές. 23

Κεφάλαιο 5 Ο Αλγόριθµος 5.1 Η δοµή του αλγορίθµου Ο αλγόριθµος που υλοποιήθηκε στην παρούσα εργασία µπορεί να χωριστεί σε τέσσερα ϐασικά τµήµατα : Ανάλυση σήµατος εισόδου στο χρόνο και τη συχνότητα Χρονικός εντοπισµός νότας Υπολογισµός ϑεµελιώδους συχνότητας Αναγνώριση οργάνου Σχήµα 5.1: οµή του αλγορίθµου Κάθε τµήµα του αλγορίθµου έχει σαν είσοδο τις εξόδους όλων των προηγούµενων τµηµάτων. Τα αποτελέσµατα όλων των τµηµάτων σε µορφή πίνακα αποτελούν την έξοδο του αλγορίθµου. Οι παράµετροι του αλγορίθµου έχουν υπολογιστεί για συχνότητα δειγµατοληψίας 44100samples/sec. Αυτή είναι η συχνότητα που χρησιµοποιείται συνήθως στην πράξη, και προκύπτει από το ϑεώρηµα δειγµατοληψίας των Nyquist-Shannon δεδοµένου του 24

ότι το ϕάσµα των ακουστών από τον άνθρωπο συχνοτήτων ϕτάνει περίπου τα 20.000Hz. Στη συνέχεια ακολουθεί µια λεπτοµερής ανάλυση όλων των επί µέρους τµηµάτων του αλγορίθµου. 5.2 Ανάλυση στο χρόνο και τη συχνότητα Το πρώτο ϐήµα του αλγορίθµου αποτελεί η ανάλυση του σήµατος στο χρόνο και τη συχνότητα. Το σήµα χωρίζεται σε αλληλοεπικαλυπτόµενα τµήµατα (frames) µε χρήση παραθύρου hamming µήκους 4096 δειγµάτων, καθένα από τα οποία επικαλύπτεται κατά τα 7/8 από τα γειτονικά του. Σύµφωνα µε τα όσα αναφέρθηκαν σε προηγούµενο κεφάλαιο, αυτό το µήκος παραθύρου παρέχει ικανοποιητική ανάλυση στο χρόνο για τα περισσότερα κοµµάτια της σύγχρονης δυτικής µουσικής. είναι Η διακριτική ικανότητα του DFT στη συχνότητα, µε χρήση του παραθύρου αυτού, f s f w = B w N = 444100samples/sec = 43Hz (5.1) 4096samples Το εύρος αυτό των συχνοτήτων είναι υπερβολικά µεγάλο, και ο διαχωρισµός δυο γειτονικών ηµιτονίων στις χαµηλές συχνότητες είναι αδύνατος. Στην πράξη όµως αυτή η διαφορά είναι επαρκής για την ανάλυση µουσικών κοµµατιών. Αυτό συµβαίνει γιατί η σύνθεση δύο ηµιτονοειδών συναρτήσεων µε µικρή διαφορά συχνότητας οδηγεί στη δηµιουργία διακροτηµάτων. Εµφανίζεται δηλαδή ως µία µόνο συχνότητα µε περιοδικά µεταβαλλόµενο πλάτος. Η περίοδος του διακροτήµατος δίνεται από τον τύπο T δ = 1 f (5.2) Οταν η περίοδος του διακροτήµατος είναι µεγαλύτερη από περίπου 40msec, το διακρότηµα γίνεται αντιληπτό από το αυτί ως παραφωνία. Για λόγους αρµονίας λοιπόν, στη µουσική δεν παίζονται ταυτόχρονα νότες µε διαφορά συχνοτήτων µικρότερη από 25Hz περίπου. Εποµένως, η ελάχιστη διαφορά που συναντάται µεταξύ των πρώτων αρµονικών είναι 50Hz. Κατά συνέπεια, είναι δυνατός ο διαχωρισµός δυο νοτών σε κάθε µουσικό κοµµάτι µε χρήση των αρµονικών τους, όπως ϑα δούµε στην επόµενη ενότητα. 25

Ο υπολογισµός του ϕάσµατος γίνεται µε χρήση του DTFT σε συχνότητες που απέχουν µεταξύ τους µισό ηµιτόνιο, ξεκινώντας από τη νότα Α1 (λα) στα 55Hz, και για τις επόµενες 8 οκτάβες. Οι συχνότητες αυτές δίνονται από τον τύπο ω k = 2π 55 2 k/24 (5.3) Το εύρος αυτό των συχνοτήτων καλύπτει τα περισσότερα µουσικά όργανα. Η τάξη πολυπλοκότητας του αλγορίθµου, λόγω της λογαριθµικής κατανοµής των συχνοτήτων αυτών, είναι O(N log N). Στο σχήµα 5.3ϕαίνεται το αποτέλεσµα της ανάλυσης αυτής σε ένα µουσικό κοµµάτι. Σχήµα 5.2: Το σήµα στο πεδίο του χρόνου 5.3 Χρονικός εντοπισµός νότας Ο χρονικός εντοπισµός µιας νότας ϐασίζεται στην εκτίµηση της ενέργειας Ε του ϕάσµατος του σήµατος σε κάθε frame j, σύµφωνα µε τον τύπο Ê j = K X j (ω k ) (5.4) k=0 Για λόγους απλότητας, η εκτίµηση γίνεται σύµφωνα µε τις K τιµές των συχνοτήτων που υπολογίστηκαν στο προηγούµενο ϐήµα του αλγορίθµου. Στη συνέχεια υπολογίζεται 26

Σχήµα 5.3: Ανάλυση του σήµατος στο χρόνο και τη συχνότητα η µεταβολή της µεταξύ διαδοχικών frame. Êj = Êj Êj 1 (5.5) Η απότοµη αύξηση της ενέργειας αποτελεί ένδειξη ότι κάποια νέα νότα έχει παιχθεί. Για την ανίχνευση της µεταβολής χρησιµοποιείται ένα κατώφλι (threshold) µε τιµή το 10% της µέγιστης µεταβολής που παρατηρείται στο σήµα. Μείωση της διαφοράς κάτω από την τιµή του κατωφλίου σηµαίνει ότι στο συγκεκριµένο frame η νότα ϕθάνει στη µέγιστη έντασή της. Στα παρακάτω σχήµατα ϕαίνεται ως παράδειγµα η εφαρµογή του αλγορίθµου στο σήµα της προηγούµενης ενότητας. 27

Σχήµα 5.4: Εκτίµηση ενέργειας ϕάσµατος του σήµατος Σχήµα 5.5: ιαφορά ενέργειας µεταξύ διαδοχικών frame Σχήµα 5.6: Κατώφλι 10% επί της µέγιστης τιµής της µεταβολής 28

Σχήµα 5.7: Χρονικός εντοπισµός νέας νότας 5.4 Υπολογισµός ϑεµελιωδών συχνοτήτων Ο υπολογισµός των ϑεµελιωδών συχνοτήτων γίνεται µε ϐάση το ϕάσµα του σήµατος, για τα σηµεία στο χρόνο που εντοπίστηκαν νέες νότες στο προηγούµενο ϐήµα του αλγορίθµου. Για κάθε σηµείο που εντοπίστηκε νέα νότα, υπολογίζονται τα τοπικά µέγιστα του ϕάσµατος, καθώς επίσης και το µέσο πλάτος της κάθε συχνότητας πριν και µετά το σηµείο αυτό. Τα τοπικά µέγιστα στα οποία παρατηρήθηκε αύξηση του µέσου πλάτους σηµειώνονται σε ένα δείκτη p(k). Ο λόγος που υπολογίζεται η διαφορά και όχι η απόλυτη τιµή του πλάτους, είναι για να αγνοηθούν οι νότες που παίχθηκαν νωρίτερα αλλά συνεχίζουν να ηχούν. Η λογαριθµική κατανοµή των υπολογιζόµενων συχνοτήτων έχει σαν αποτέλεσµα την επίσης λογαριθµική κατανοµή των αρµονικών της κάθε νότας στο ϕάσµα, όπως ϕαίνεται στο σχήµα 5.8. Οι σχετικές αποστάσεις µεταξύ των αρµονικών είναι ίδιες για κάθε νότα, ανεξαρτήτως της τιµής της ϐασικής της συχνότητας. Υπάρχει δηλαδή ένα σταθερό πρότυπο, η ϑέση του οποίου στο ϕάσµα ϕανερώνει τη ϐασική συχνότητα της κάθε νότας. Για τον υπολογισµό της ϐασικής συχνότητας της νότας, δηµιουργούµε ένα δείκτη m(k) µε το παραπάνω πρότυπο. Στη συνέχεια υπολογίζουµε τη συνάρτηση ετεροσυσχέτισης µεταξύ του δείκτη p(k) και του προτύπου m(k). Η ϑέση του µεγίστου στη συνάρτηση ετεροσυσχέτισης ϑα δίνει τη ϐασική συχνότητα της νότας. Η ετεροσυσχέτιση υπολογίζεται 29

Σχήµα 5.8: Σχετικές ϑέσεις αρµονικών στο ϕάσµα από τον τύπο (f g)[k] = j f [j]g[k + j] (5.6) Στην περίπτωση που το σήµα που εξετάζουµε µπορεί να περιέχει δύο ή περισσότερες νότες παιγµένες ταυτόχρονα, για κάθε ϐασική συχνότητα που εντοπίζουµε αφαιρούµε από τον δείκτη p(k) αυτή και τις αρµονικές της, και επαναλαµβάνουµε το προηγούµενο ϐήµα. Στα σχήµατα που ακολουθούν ϕαίνεται η ανάλυση της συγχορδίας C (ντο µατζόρε). Σχήµα 5.9: Ανάλυση ϕάσµατος της συχγορδίας C 5.5 Αναγνώριση οργάνου Για την αναγνώριση του οργάνου, µετρούνται τα σχετικά πλάτη των αρµονικών της κάθε νότας. Οι µετρήσεις δίνονται ως είσοδος σε ένα τεχνητό νευρωνικό δίκτυο, το οποίο 30

Σχήµα 5.10: είκτης p(k) στο ϕάσµα της συχγορδίας C στις 3 πρώτες επαναλήψεις έχει µία έξοδο για κάθε πιθανό όργανο. Το όργανο που αντιστοιχεί στην έξοδο µε τη µεγαλύτερη τιµή ϑεωρείται ότι είναι αυτό που παίζει τη νότα. Για την εκπαίδευση του δικτύου, δηµιουργήθηκε ένα σύνολο δειγµάτων αρχείων ήχου που περιείχε µεµονωµένες νότες από τα προς αναγνώριση όργανα, των οποίων οι ϐασικές συχνότητες ήταν εκ των προτέρων γνωστές. Στη συνέχεια µετρήθηκαν τα σχετικά ύψη των αρµονικών, τα οποία και καταχωρήθηκαν σε ένα πίνακα δεδοµένων. Τα δείγµατα 31

χωρίστηκαν σε ένα σύνολο εκπαίδευσης και ένα σύνολο ελέγχου. Κάθε σετ περιείχε νότες από όλο το εύρος των συχνοτήτων που µπορεί να παίξει το κάθε όργανο. Η εκπαίδευση του δικτύου πραγµατοποιήθηκε µε τη ϐοήθεια ενός εξελικτικού αλγορίθµου που ανήκει στην κατηγορία των εξελικτικών στρατηγικών. Κάθε γενεά περιλάµβανε τους τελεστές µετάλλαξης και διασταύρωσης, ενώ ως συνάρτηση ικανότητας επιλέχθηκε το µέσο σφάλµα κατάταξης. Οι υπόλοιπες παράµετροι του αλγορίθµου, όπως το µέγεθος του πληθυσµού και τα ποσοστά µετάλλαξης, επιλέχθηκαν µετά από δοκιµές σύµφωνα µε το ποσοστό επιτυχίας του αλγορίθµου. 5.6 Περιορισµοί του αλγορίθµου Ο παραπάνω αλγόριθµος, σε ϑεωρητικό επίπεδο, παρουσιάζει επαρκή ακρίβεια στην ανάλυση συχνότητας. Ωστόσο, αν η ηχογράφηση του προς αναγνώριση µουσικού κοµµατιού είναι κακής ποιότητας, π.χ. σε περιβάλλον µε έντονο ϑόρυβο, ενδέχεται να υπάρξει λανθασµένη εκτίµηση των ϑεµελιωδών συχνοτήτων. Το ίδιο µπορεί να συµβεί αν τα χρησιµοποιούµενα όργανα δεν είναι σωστά κουρδισµένα. Στην περίπτωση που εµφανίζονται πολλές νότες ταυτόχρονα, των οποίων οι αρµονικές συµπίπτουν, υπάρχει επίσης κάποια πιθανότητα να υπάρξει σφάλµα. Η ανάλυση στο πεδίο του χρόνου, όπως προαναφέρθηκε, περιορίζεται από το µέγεθος του παραθύρου, αλλά δεν αναµένεται να υπάρξει πρόβληµα στην πλειοψηφία των µουσικών κοµµατιών. Τέλος, σχετικά µε την αναγνώριση των οργάνων, δεν είναι ϐέβαιο ότι τα εξεταζόµενα όργανα µπορούν να διαχωριστούν πλήρως µεταξύ τους. Η δυσκολία της αναγνώρισης αυξάνεται όσο πληθαίνουν τα όργανα αυτά, καθώς επίσης και όταν χρησιµοποιούνται όργανα που µοιάζουν µεταξύ τους. 32

Κεφάλαιο 6 οκιµές Για τις ανάγκες της εργασίας ηχογραφήθηκαν τέσσερα διαφορετικά όργανα : ηλεκτρικό πιάνο, κλασσική κιθάρα, παραδοσιακή κρητική λύρα και παιδικό µεταλλόφωνο. Η ηχογράφηση έγινε µε απλό µικρόφωνο ηλεκτρονικού υπολογιστή, πλην του πιάνου το οποίο συνδέθηκε απευθείας στον υπολογιστή (line-in). Εποµένως τα δείγµατα αναµένεται να περιέχουν σχετικά έντονο ϑόρυβο. 6.1 Αναγνώριση µονοφωνικών ήχων Οι πρώτες δοκιµές περιλάµβαναν ένα σύνολο από ανεξάρτητες νότες. Οι νότες αυτές κάλυπταν το µεγαλύτερο εύρος των συχνοτήτων του πιάνου, και ολόκληρο το εύρος των συχνοτήτων των υπολοίπων οργάνων. Στη συνέχεια αναγνωρίστηκαν αρπίσµατα ορισµένων συγχορδιών, καθώς επίσης και ορισµένα τµήµατα µουσικών κοµµατιών. Τα αποτελέσµατα δίνονται συνοπτικά στους παρακάτω πίνακες. Παρατηρούµε ότι αν και τα ποσοστά αναγνώρισης είναι σχετικά υψηλά, υπάρχει και ένα σηµαντικό ποσοστό σφαλµάτων. Τα σφάλµατα αυτά δικαιολογούνται αν λάβουµε υπόψη ορισµένες ιδιαιτερότητες των οργάνων. Η κρητική λύρα για παράδειγµα, η οποία παρουσιάζει και το µικρότερο ποσοστό επιτυχούς αναγνώρισης, δεν έχει τάστα. Αυτό σηµαίνει ότι η ακριβής συχνότητα που έχει η κάθε νότα εξαρτάται από τη δεξιοτεχνία του λυράρη, και εποµένως εµφανίζονται σχετικά εύκολα σφάλµατα ενός ηµιτονίου. Επιπλέον, στις χαµηλές συχνότητες χαρακτηρίζεται από µια ισχυρή πρώτη αρµονική, κατά πολύ 33

Οργανο αρ. νοτών αν. συχνότητας αν. οργάνου Πιάνο 55 98% 85% Κιθάρα 78 95% 85% Λύρα 62 79% 94% Μεταλλ. 38 91% 62% Σύνολο 233 91% 80% Σχήµα 6.1: Αποτελέσµατα αναγνώρισης ανεξαρτήτων νοτών Άρπισµα αρ. νοτών αν. συχνότητας αν. οργάνου C 19 95% 100% Am 28 96% 75% G 27 78% 75% A 27 89% 79% Em 28 86% 82% E 22 86% 95% G 23 83% 91% Cm 26 81% 88% D 22 90% 68% F 27 89% 74% Σύνολο 249 87% 82% Σχήµα 6.2: Αποτελέσµατα αναγνώρισης αρπισµάτων ισχυρότερη της ϑεµελιώδους συχνότητας, κάτι που οδηγεί µερικές ϕορές σε σφάλµατα οκτάβας. Ωστόσο, αυτή της η ιδιαιτερότητα την καθιστά εύκολα διαχωρίσιµη από τα άλλα όργανα. Ο διαχωρισµός των οργάνων γενικά είναι επιτυχηµένος. Τα σφάλµατα αναγνώρισης οργάνου εξαρτώνται συνήθως από τη συχνότητα. Το µεταλλόφωνο, το οποίο έχει ιδιαίτερα υψηλές ϑεµελιώδεις συχνότητες, αλλά σχεδόν µηδενικές αρµονικές, συγχέεται συχνά µε τις υψηλότερες νότες του πιάνου. Το πιάνο εξάλλου έχει το µεγαλύτερο εύρος συχνοτήτων από όλα τα υπόλοιπα όργανα, συνολικά 7 οκτάβες, και είναι το µόνο όργανο που έχει 34

Ονοµα αρ. νοτών αν. συχνότητας αν. οργάνου Ode to joy 25 92% 100% Let it be 19 94% 94% Greensleeves 27 83% 85% Κάλαντα 29 86% 77% Κρητικό 25 84% 88% Σύνολο 125 87% 88% Σχήµα 6.3: Αποτελέσµατα αναγνώρισης αποσπασµάτων µουσικών κοµµατιών κοινές συχνότητες µε όλα τα υπόλοιπα. Ενα σηµαντικό σφάλµα που παρατηρήθηκε είναι η αναγνώριση µη υπαρκτών νοτών (ghost notes). Το σφάλµα αυτό παρατηρείται συχνά στις χαµηλότερες νότες του πιάνου, το οποίο έχει πολλές σχετικά ισχυρές αρµονικές. Αποτέλεσµα του γεγονότος αυτού είναι, αφού αναγνωριστεί η ϐασική νότα, στη συνέχεια ορισµένες από τις αρµονικές της να ϑεωρούνται ϑεµελιώδεις συχνότητες από άλλες, ανεξάρτητες νότες. Μη υπαρκτές νότες εµφανίζονται επίσης συχνά στην κιθάρα, όταν ηχούν οι γειτονικές χορδές της νότας που παίζεται. Στην κιθάρα επίσης πολλές ϕορές αναγνωρίζονται εσφαλµένα νότες όταν τα δάκτυλα του αριστερού χεριού πιέζουν ή αφήνουν τις χορδές. Στην περίπτωση της λύρας, το πρόβληµα είναι πιο πολύπλοκο, κυρίως λόγω του τρόπου µε τον οποίο το δοξάρι παίζει τις νότες. Οι νότες µπορούν να έχουν εξαιρετικά µεγάλη διάρκεια, ενώ ανάλογα µε την κίνηση του δοξαριού η έντασή τους αυξοµειώνεται. Ετσι, πολλές ϕορές παρατηρούνται λανθασµένες επαναλήψεις της ίδιας νότας. 6.2 Αναγνώριση πολυφωνικών ήχων Το δεύτερο µέρος των δοκιµών περιλάµβανε δοκιµές µε αρχεία πολυφωνικής µουσικής. οκιµάστηκε ένα σύνολο συγχορδιών σε πιάνο και κιθάρα, αλλά και τµήµατα πολυφωνικών κοµµατιών µουσικής. Στην περίπτωση της πολυφωνικής µουσικής, η µεγαλύτερη δυσκολία που έπρεπε να αντιµετωπιστεί ήταν ο εντοπισµός της κάθε νότας. Στη συνέχεια η αναγνώριση της 35

ϑεµελιώδους συχνότητας ήταν κατά κανόνα επιτυχής. Στις συγχορδίες που παίχθηκαν στο πιάνο, η αναγνώριση ήταν απολύτως επιτυχής. Εντοπίστηκαν όλες οι νότες της κάθε συγχορδίας, ενώ η ϐασική τους συχνότητα υπολογίστηκε µε ακρίβεια. εν συνέβη όµως το ίδιο µε τις συγχορδίες στην κιθάρα, όπου πολλές ϕορές αγνοήθηκαν κάποιες νότες. Η διαφορά αυτή παρουσιάζεται εξαιτίας του τρόπου µε τον οποίο χτυπούνται οι χορδές στο κάθε όργανο. Στο πιάνο, όπου το χτύπηµα των χορδών γίνεται µέσω των πλήκτρων, όλες οι νότες της συγχορδίας έχουν την ίδια περίπου ένταση. Αντίθετα στην κιθάρα, όπου το χτύπηµα γίνεται άµεσα µε τα δάκτυλα, η ένταση µπορεί να είναι διαφορετική σε κάθε νότα. Ετσι σε ορισµένες περιπτώσεις µία ή και περισσότερες από τις νότες της συγχορδίας αγνοήθηκαν, αφού οι αρµονικές τους κρύφτηκαν στο ϕάσµα ανάµεσα στις αρµονικές των υπολοίπων, ισχυροτέρων νοτών. Παρόλα αυτά, όταν µια νότα εντοπιζόταν, η αναγνώριση της συχνότητάς της γινόταν συνήθως µε επιτυχία. Ονοµα εντοπ. νότας αν. συχνότητας αν. οργάνου Συγχορδίες πιάνου 100% 100% 43% Συγχορδίες κιθάρας 67% 97% 73% Σονάτα 86% 94% 56% Σχήµα 6.4: Αποτελέσµατα αναγνώρισης πολυφωνικών κοµµατιών Τα πολυφωνικά κοµµάτια πραγµατικής µουσικής ωστόσο διαφέρουν από την αναγνώριση συγχορδιών. Στο πιάνο, για παράδειγµα, όταν το αριστερό χέρι συνοδεύει το δεξί, κατά κανόνα παίζει νότες των οποίων οι αρµονικές συµπίπτουν µε αυτές του δεξιού. Σαν αποτέλεσµα ορισµένες από τις νότες που παίζονται να ϑεωρούνται απλές αρµονικές, και όχι ανεξάρτητες νότες. Το ϕαίνόµενο αυτό είναι εντονότερο όταν οι δύο νότες έχουν µεταξύ τους διαφορά οκτάβας. Ενα άλλο πρόβληµα που παρατηρείται είναι η συχνά λανθασµένη αναγνώριση του οργάνου. Οπως και στην προηγούµενη περίπτωση, η αναγνώριση παρουσίαζε συχνότερα σφάλµατα όταν οι νότες είχαν µεταξύ τους διαφορά οκτάβας. Η αναγνώριση ήταν επίσης λανθασµένη όταν κάποια νότα παιζόταν από δυο όργανα ταυτόχρονα. Ο πλήρης διαχωρισµός δυο οργάνων είναι γενικά αδύνατος, ενώ ο µερικός διαχωρισµός είναι εφικτός 36

υπό ορισµένες προϋποθέσεις. Τέλος, είναι σηµαντικό να αναφερθεί ότι η αναγνώριση δεν είναι δυνατόν να επιτευχθεί για κάθε είδος µουσικής. Οταν για παράδειγµα υπάρχει έντονος ϱυθµός µε κρουστά (beat, drums) εµφανίζονται κορυφές σε όλο το εύρος του ϕάσµατος µε αποτέλεσµα να καλύπτονται οι αρµονικές των οργάνων. Κάτι παρόµοιο συµβαίνει στα τραγούδια, όπου η ανθρώπινη ϕωνή συνδυάζεται µε τον ήχο των οργάνων. Ενώ τα ϕωνήεντα µπορεί να ϑεωρηθεί ότι παρουσιάζουν κάποια ϑεµελιώδη συχνότητα, δε συµβαίνει το ίδιο µε τα σύµφωνα, τα οποία δυσχεραίνουν σηµαντικά τη διαδικασία της αναγνώρισης. 37

Κεφάλαιο 7 Συµπεράσµατα - Προοπτικές Στην παρούσα εργασία σχεδιάστηκε και υλοποιήθηκε ένα σύστηµα αναγνώρισης µουσικής, ϐασισµένο στον STFT, µε υπολογισµό ϕασµατικών συνιστωσών του σήµατος λογαριθµικά κατανεµηµένων στον άξονα των συχνοτήτων. Η αναγνώριση του οργάνου ϐασίστηκε σε ένα νευρωνικό δίκτυο, εκπαιδευµένο µε χρήση εξελικτικού αλγορίθµου. Ο αλγόριθµος του συστήµατος ϐασίστηκε σε απλές σχετικά µεθόδους ανάλυσης, έ- χοντας σαν στόχο την κατά το δυνατόν επιτυχέστερη αναγνώριση µε µικρή πολυπλοκότητα και υπολογιστικό κόστος. εδοµένης και της χαµηλής ποιότητας ηχογράφησης, τα ποσοστά επιτυχίας της αναγνώρισης ήταν σε γενικές γραµµές ικανοποιητικά, έχοντας ω- στόσο σηµαντικά περιθώρια ϐελτίωσης. Μια παρατήρηση που πρέπει να γίνει, είναι ότι υπάρχει σηµαντική διαφορά στα ποσοστά επιτυχούς αναγνώρισης µεταξύ αλγορίθµων αναγνώρισης µονοφωνικής και πολυφωνικής µουσικής. Αν λοιπόν δοθεί στο σύστηµα η πληροφορία ότι το εξεταζόµενο σήµα είναι µονοφωνικό, τότε το ποσοστό επιτυχίας αυξάνεται σηµαντικά. Επίσης, κατά τις δοκιµές που πραγµατοποιήθηκαν, διαπιστώθηκε ότι οι απαιτήσεις τις ανάλυσης αλλάζουν ανάλογα µε το όργανο. Εποµένως, έχοντας υπόψη τα ιδιαίτερα χαρακτηριστικά του κάθε οργάνου, είναι δυνατόν να τροποποιηθούν οι επί µέρους παράµετροι του αλγορίθµου σε κάθε περίπτωση, έτσι ώστε η αναγνώριση να επιτευχθεί σε µεγαλύτερο ποσοστό. Η τροποποίηση αυτή είναι δυνατή, δεδοµένου του ότι το σύστηµα είναι σε ϑέση να αναγνωρίσει το όργανο µε σχετικά µεγάλο ποσοστό επιτυχίας. Το ποσοστό αυτό µπορεί να αυξηθεί ακόµα περισσότερο αφού, σε αντίθεση µε τις συµβατικές µεθόδους 38

εκπαίδευσης νευρωνικών δικτύων, οι εξελικτικοί αλγόριθµοι έχουν τη δυνατότητα ολικής ϐελτιστοποίησης, και εποµένως αν αφιερωθεί περισσότερος χρόνος στην εκπαίδευση του δικτύου ο διαχωρισµός των οργάνων µπορεί να γίνει µε τον ϐέλτιστο δυνατό τρόπο. Για τον καλύτερο διαχωρισµό των οργάνων ϑα πρέπει επίσης να χρησιµοποιηθούν περισσότερα και καλύτερης ποιότητας δείγµατα εκπαίδευσης. Τέλος, αξίζει να σηµειωθεί ότι στην παρούσα εργασία χρησιµοποιήθηκαν τεχνικές που µιµούνται την λειτουργία των πραγµατικών εγκεφαλικών νευρωνικών δικτύων, καθώς και της ϕυσικής εξέλιξης. εδοµένου του ότι, όπως προαναφέρθηκε, ακόµη και τα πιο σύγχρονα συστήµατα αναγνώρισης υστερούν σε ικανότητα σε σχέση µε το αυτί ενός έµπειρου µουσικού, τίθεται το ϕιλοσοφικό ερώτηµα αν είναι δυνατόν ο άνθρωπος να κατασκευάσει ένα τέτοιο σύστηµα που να ξεπερνά σε ικανότητα τη ϕύση και άρα τον ίδιο του τον εαυτό. 39

Βιβλιογραφία [1] Musical Signal Processing, C. Roads, Swets & Zeitlinger 1997 [2] The Computer Music Tutorial, C. Roads, MIT 1995 [3] Analysis, Synthesis and Perception of Musical Sounds, J. W. Beauchamp, Springer 2007 [4] Signal Processing Methods for Music Transcription, A.Klapuri, Springer 2006 [5] I. Bruno, S. Monni, P. Nesi, "Automatic Music Transcription Supporting Different Instruments", 2003 [6] Ηλεκτρακουστική, Γ. Παπανικολάου, Univerisity Studio 2005 [7] Αναγνώριση προτύπων, Μ.Γ.Στρίντζης, Εκδόσεις Κυριακίδη 1999 [8] Τεχνικές Βελτιστοποίησης, Γ. Ροβιθάκη, 2005 [9] Ψηφιακή Επεξεργασία Σήµατος, Σ. Πανά, University Studio 2001 40