ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ «ΕΠΙΣΤΗΜΗ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑ ΥΠΟΛΟΓΙΣΤΩΝ» ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Ανάπτυξη εφαρμογής για music genre classification με χρήση ακουστικών χαρακτηριστικών και μεταδεδομένων. Θεόδωρος Κωνσταντίνου Μπουρδούλης Αριθμός Μητρώου : 835 Επιβλέπων Καθηγητής : Γεώργιος Παυλίδης, Καθηγητής ΤΜΗΥΠ Τριμελής Εξεταστική Επιτροπή : Γεώργιος Παυλίδης, Καθηγητής ΤΜΗΥΠ Αθανάσιος Τσακαλίδης, Καθηγητής ΤΜΗΥΠ Ιωάννης Χατζηλυγερούδης, Αναπληρωτής Καθηγητής ΤΜΗΥΠ Πάτρα, Απρίλιος 2017

2

3 Ευχαριστίες Σε αυτό το μέρος, θα ήθελα να ευχαριστήσω όλους όσους με βοήθησαν, με κάθε τρόπο στην εκπόνηση και συγγραφή της διπλωματικής μου εργασίας. Αρχικά, θα ήθελα να ευχαριστήσω τους γονείς μου και τον αδερφό μου Μιχάλη, για τη μεγάλη βοήθεια που μου προσέφεραν στη διάρκεια των ακαδημαϊκών μου σπουδών. Στη συνέχεια, θέλω να ευχαριστήσω θερμά τον επιβλέποντα Καθηγητή του τμήματος Μηχανικών Η/Υ και Πληροφορικής και Διευθυντή του Εργαστηρίου Πληροφορικών Συστημάτων και Επιχειρηματικής Νοημοσύνης, κ. Γεώργιο Παυλίδη για την τιμή που μου έκανε να συνεργαστούμε και για την εμπιστοσύνη που μου έδειξε αναθέτοντάς μου την εκπόνηση της συγκεκριμένης διπλωματικής εργασίας. Η άψογη συνεργασία, η προθυμία και η πολύτιμη καθοδήγησή του ήταν καταλυτικοί παράγοντες για την ολοκλήρωση της διπλωματικής μου εργασίας. Θα ήθελα να ευχαριστήσω θερμά την Τριμελή Επιτροπή της Διπλωματικής για την υποστήριξή τους και πιο συγκεκριμένα τον Καθηγητή κ. Αθανάσιο Τσακαλίδη και τον Αναπληρωτή Καθηγητή κ. Ιωάννη Χατζηλυγερούδη για την καθοδήγησή τους καθ όλη τη διάρκεια της Ακαδημαϊκής μου φοίτησης. Επιπλέον θα ήθελα να ευχαριστήσω τον Καθηγητή και Πρόεδρο του Τμήματος Μηχανικών Η/Υ & Πληροφορικής κ. Ιωάννη Γαροφαλάκη για την υποστήριξη και βοήθεια στη διάρκεια των μεταπτυχιακών μου σπουδών. Κλείνοντας, θα ήθελα να ευχαριστήσω τους φίλους μου, οι οποίοι με στήριξαν όλα αυτά τα χρόνια και κάθε στιγμή, δύσκολη ή μη. i

4 ii

5 Πίνακας Περιεχομένων 1. Εισαγωγή Κίνητρο και σημασία του θέματος Δομή Εργασίας Ανάκτηση Πληροφορίας (Information Retrieval) Γενικά Μοντέλα Ανάκτησης Πληροφορίας Συνολοθεωρητικά Μοντέλα (Set-Theoretic Models) Boolean Retrieval Μοντέλο Extended Boolean Retrieval Μοντέλο Fuzzy Retrieval Μοντέλο Μοντέλο Mixed Min και Max (ΜΜΜ) Μοντέλο Paice Αλγεβρικά Μοντέλα (Algebraic Models) Μοντέλο Διανυσματικού Χώρου (Vector Space Model) Γενικευμένο Μοντέλο Διανυσματικού Χώρου (Generalized Vector Space Model) Topic-Based Μοντέλο Διανυσματικού Χώρου (Topic-Based Vector Space Model) Μοντέλο Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing Model) Πιθανοτικά Μοντέλα (Probabilistic Models) Μοντέλο Ανάκτησης Δυαδικής Ανεξαρτησίας (Binary Independence Model) Μοντέλο Πιθανοτικής Σχετικότητας (Probabilistic Relevance Model) Αβέβαιη Συμπερασματολογία (Uncertain Inference) Γλωσσικό μοντέλο (Language Model) Μοντέλο Divergence-from-randomness iii

6 Μοντέλο Λανθάνουσας Κατανομής Dirichlet (Latent Dirichlet Allocation) Feature-based Retrieval Models Υπόλοιποι διαχωρισμοί Μοντέλων Models without term-interdependencies Models with immanent term-interdependencies Models with transcendent term interdependencies Μετρικές αξιολόγησης της απόδοσης των συστημάτων ανάκτησης πληροφορίας Ακρίβεια (Precision) Ανάκληση (Recall) Fall-out F-score Μέση Ακρίβεια (Average Precision) Precision at K R-Precision Mean average precision Mean reciprocal rank Μουσική Τεχνολογία και Ακουστική Μουσική Τεχνολογία Ερευνητική Δραστηριότητα στη Μουσική Τεχνολογία Αλγοριθμική Σύνθεση (Algorithmic Composition) Music Performance Analysis Μοντελοποίηση Ήχων (Sound Modeling) Μουσικές Διεπαφές (Music Interfaces) Ανάκτηση Πληροφορίας από τη Μουσική (Music Information Retrieval) Εφαρμογές της Μουσικής Τεχνολογίας Βασικές Έννοιες Ακουστικής Ήχος (Sound) Μουσικό ύψος του ήχου (Pitch) Ηχηρότητα (Loudness) Ηχόχρωμα (Timbre) iv

7 Articulation Ρυθμός (Rhythm) Συμπεράσματα Music Information Retrieval Ορισμός Βασικές Αρχές των Δεδομένων Ήχου Μουσικές Αναπαραστάσεις Παρτιτούρα (Musical Score) Μορφή audio Μορφή MIDI Συστήματα Music Information Retrieval Αναζήτηση Μουσικής Ανάκτηση με βάση το query Ανάκτηση με βάση το ταίριασμα ακολουθιών Ανάκτηση με βάση γεωμετρικές μεθόδους Φιλτράρισμα Μουσικής Αυτόματη παραγωγή λίστας τραγουδιών (Automatic playlist generation) Περιήγηση, Ταξινόμηση και Οπτικοποίηση Μουσικής Περιήγηση σε μουσικές συλλογές Ταξινόμηση ήχου (audio classification) Οπτικοποίηση μουσικής συλλογής (Visualization of music collections) Αξιολόγηση ενός συστήματος MIR Το framework Audio Description Contest To Music Information Retrieval Evaluation exchange MIREX MIREX Παρουσίαση εφαρμογής για music genre classification με χρήση ακουστικών χαρακτηριστικών και μεταδεδομένων Εισαγωγή v

8 5.2 Σχεδιασμός για την υλοποίηση της εφαρμογής Τεχνική περιγραφή της εφαρμογής Η συνάρτηση mp3read Το training set Τα audio features Το testing set Επιστροφή Λίστας με τα παρόμοια μουσικά κομμάτια Επιστροφή Λίστας με χρήση των audio features Επιστροφή Λίστας με χρήση tags Λειτουργικότητα εφαρμογής music genre classification Συμπεράσματα Επίλογος Βιβλιογραφία vi

9 Ευρετήριο Εικόνων Εικόνα 1. Incident Matrix Εικόνα 2. Αποτελέσματα του αρχικού query Εικόνα 3. βάρος ενός όρου Εικόνα 4. Διάνυσμα βαρών Εικόνα 5. Query βασισμένο στο OR Εικόνα 6. Υπολογισμός ομοιότητας Εικόνα 7. Query βασισμένο στο AND Εικόνα 8. Υπολογισμός ομοιότητας Εικόνα 9. Query βασισμένο στο OR Εικόνα 10. Υπολογισμός ομοιότητας Εικόνα 11. Query βασισμένο στο AND Εικόνα 12. Υπολογισμός ομοιότητας Εικόνα 13. Βαθμός συμμετοχής ένωσης και τομής Εικόνα 14. Βάρη στο μοντέλο MMM Εικόνα 15. Όροι στο μοντέλο ΜΜΜ Εικόνα 16. Queries στο μοντέλο MMM Εικόνα 17. Υπολογισμός ομοιότητας στο μοντέλο ΜΜΜ Εικόνα 18. Ομοιότητα στο μοντέλο Paice Εικόνα 19. Έγγραφα και βάρη στο Vector Space Model Εικόνα 20. Διανύσματα για έγγραφα και query Εικόνα 21. Συνημίτονο γωνίας μεταξύ διανυσμάτων Εικόνα 22. Υπολογισμός στοιχείων συνημιτόνου Εικόνα 23. Υπολογισμός ομοιότητας στο Generalized Vector Space Model Εικόνα 24. Το μητρώο Χ Εικόνα 25. Διάνυσμα όρων Εικόνα 26. Διάνυσμα εγγράφων Εικόνα 27. Διάσπαση Ιδιαζουσών Τιμών Εικόνα 28. Διάσπαση Ιδιαζουσών Τιμών στο μητρώο όρων - εγγράφων vii

10 Εικόνα 29. Πιθανότητα σχετικότητας εγγράφου Εικόνα 30. Πιθανότητα στο μοντέλο Uncertain Interference Εικόνα 31. Σχέση εγγράφου - query Εικόνα 32. Query Εικόνα 33. Πιθανότητα Εικόνα 34. Δεσμευμένη πιθανότητα Εικόνα 35. Πιθανότητα στο language model Εικόνα 36. Η μετρική precision Εικόνα 37. Η μετρική recall Εικόνα 38. Η μετρική fall-out Εικόνα 39. Η μετρική F-score Εικόνα 40. Η μετρική average precision Εικόνα 41. Η μετρική Mean average precision Εικόνα 42. Η μετρική Mean Reciprocal rank Εικόνα 43. (a) Η χορδή κινείται προς τα εμπρός δημιουργώντας πυκνώσεις, και (b) η χορδή κινείται προς τα πίσω δημιουργώντας αραιώσεις Εικόνα 44. Συχνότητες νοτών στο πιάνο Εικόνα 45. Η κυματομορφή του ήχου Εικόνα 46. Κυματομορφή που δείχνει την περίοδο μιας κυματομορφής η οποία μετράται από δυο διαφορετικά σημεία εκίννησης Εικόνα 47. Κυματομορφή που δείχνει το πλάτος Εικόνα 48. Ερμηνεία των αριθμών Εικόνα 49. Επίπεδα ηχηρότητας σε σχέση με τη συχνότητα Εικόνα 50. Κυματομορφή μιας τρομπέτας Εικόνα 51. Βασικές κυματομορφές: (a) ημιτονοειδής, (b) τριγωνική, (c) πριονοειδής, (d) τετραγωνική, (e) παλμική Εικόνα 52. (a) λευκός θόρυβος, (b) ροζ θόρυβος Εικόνα 53. Η εναλλαγές στην "ένταση" σε μια κυματομορφή Εικόνα 54. Ανίχνευση ρυθμού (beat detection) Εικόνα 55. Παρτιτούρα που περιέχει τα 5 πρώτα μέτρα της 5ης Συμφωνίας του Beethoven Εικόνα 56. Κώδικας MusicXML Εικόνα 57. Κυματομορφές αρχείων audio Εικόνα 58. Η κωδικοποίηση MIDI Εικόνα 59. Οι αριθμοί νοτών MIDI σε ένα ηλεκτρονικό πιάνο Εικόνα 60. Ένα MIDI synthesizer viii

11 Εικόνα 61. Pianoroll μιας παρτιρούρας Εικόνα 62. Αρχιτεκτονική συστήματος για query με τη φωνή Εικόνα 63. Ιεραρχική ταξινόμηση μουσικής με βάση το είδος Εικόνα 64. Ταμπλατούρα Εικόνα 65. Φασματογράφημα μουσικού κομματιού Εικόνα 66. Τα κύρια χαρακτηριστικά των εργασιών του MIREX Εικόνα 67. Το λογότυπο του Matlab Εικόνα 68. Φάκελος που περιέχει το training set Εικόνα 69. Φασματογραφήματα rock και hip hop μουσικών κομματιών του training set Εικόνα 70. Μουσικά χαρακτηριστικά (Audio Features) Εικόνα 71. Zero Crossing Rate για rock και hip hop μουσικά κομμάτια του training set Εικόνα 72. Zero Crossing Rate για rock και hip hop μουσικά κομμάτια του training set, με νέο άνω όριο Εικόνα 73. Φάκελος που περιέχει το testing set Εικόνα 74. Το μητρώο που προκύπτει από το αρχείο excel Εικόνα 75. Χρήση της συνάρτησης mp3input για rock τραγούδι Εικόνα 76. Χρήση της mp3input για hip hop τραγούδι Εικόνα 77.Χρήση της mp3input για classical τραγούδι ix

12 x

13 Περίληψη Η ανάπτυξη του Internet έχει οδηγήσει τη μουσική βιομηχανία σε μια μετάβαση από τα φυσικά μέσα σε διαδικτυακά προϊόντα και υπηρεσίες. Άμεση συνέπεια της παραπάνω μετάβασης, είναι η online αποθήκευση μουσικών συλλογών, οι οποίες εμπλουτίζονται διαρκώς με χιλιάδες νέα μουσικά κομμάτια. Τα παραπάνω έχουν δημιουργήσει την ανάγκη για μουσικές τεχνολογίες, οι οποίες θα επιτρέπουν στους χρήστες να έχουν πρόσβαση σε αυτές τις εκτενείς συλλογές με αποτελεσματικό και αποδοτικό τρόπο. Το Music Information Retrieval (MIR) είναι η επιστήμη της ανάκτησης πληροφορίας από τη μουσική. Η ενασχόληση με το συγκεκριμένο επιστημονικό τομέα απαιτεί την ύπαρξη υποβάθρου από άλλους επιστημονικούς τομείς όπως της μουσικολογίας, της ψυχολογίας, της επεξεργασίας σημάτων, του machine learning ή και συνδυασμό αυτών. Στην παρούσα διπλωματική εργασία, παρουσιάζονται οι τεχνολογίες για Music Information Retrieval, και η ανάπτυξη μιας εφαρμογής ταξινόμησης μουσικών κομματιών ως προς το μουσικό είδος στο οποίο ανήκουν (Music Genre Classification), καθώς επίσης και εμφάνισης παρόμοιων μουσικών κομματιών, με χρήση ακουστικών χαρακτηριστικών (audio features) και μουσικών μεταδεδομένων (tags). Abstract The rise of the Internet has led the music industry to a transition from physical to online products and services. As a consequence, online music collections store millions of songs and are constantly being enriched with new content. All the above, have created the need for music technologies that allow users to interact with these extensive collections efficiently and effectively. xi

14 Music Information Retrieval (MIR) is the is the science of retrieving information from music. Those involved in MIR may have a background in musicology, psychology, signal processing, machine learning or some combination of these. This Diploma Thesis, presents the Music Information Retrieval technologies, and an application for music genre classification and the suggestion of similar music tracks with the use of audio features and music metadata (tags). xii

15 xiii

16 Κεφάλαιο 1 1. Εισαγωγή 1.1 Κίνητρο και σημασία του θέματος Η μουσική είναι ένα παγκόσμιο φαινόμενο, που μελετάται, δημιουργείται και απολαμβάνεται από ένα ευρύ και ποικίλο κοινό. Στην εποχή της ψηφιακής πληροφορίας, πολλή ψηφιοποιημένη μουσική πληροφορία έχει γίνει θεωρητικά διαθέσιμη σε κάθε χρήστη. Ωστόσο, η αφθονία της πληροφορίας είναι τόσο μεγάλη και ποικίλη, κάτι το οποίο την καθιστά μη-διαχειρίσιμη, και οδηγεί στην ανάγκη για την ανάπτυξη αυτόματων τεχνικών για την ανάκτηση πληροφορίας από τη μουσική (Music Information Retrieval). Οι τεχνικές που έχουν χρησιμοποιηθεί για το Music Information Retrieval είναι αρκετές, άλλοτε πετυχημένες άλλοτε όχι, και όλες εκμεταλλεύονται τα εξής 2 χαρακτηριστικά ενός μουσικού κομματιού: Τα μουσικά χαρακτηριστικά (audio features), τα οποία βασίζονται στην επεξεργασία του μουσικού σήματος ενός κομματιού. Τα μεταδεδομένα (tags) που έχουν ανατεθεί σε ένα μουσικό κομμάτι. Οι περισσότερες εμπορικές εφαρμογές για Music Information Retrieval στην εποχή μας, βασίζονται σχεδόν μόνο στα tags που έχουν ανατεθεί στα μουσικά κομμάτια, επειδή η χρήση μουσικών χαρακτηριστικών για ανάκτηση πληροφορίας από τη μουσική είναι αρκετά δύσκολη. Στόχος της παρούσας διπλωματικής εργασίας είναι η μελέτη τεχνολογιών Music Information Retrieval και η ανάπτυξη μιας εφαρμογής για music genre classification, η οποία δέχεται ως είσοδο μουσικά κομμάτια σε μορφή mp3, και χρησιμοποιώντας μουσικά 1

17 χαρακτηριστικά, διαχωρίζει το μουσικό κομμάτι στο είδος μουσικής που ανήκει ανάμεσα σε 3 είδη: Rock Hip-Hop Classical και αφού τα διαχωρίσει, επιστρέφει μια λίστα με παρόμοια μουσικά κομμάτια το ίδιου είδους με 2 τρόπους: με χρήση των audio features μουσικών κομματιών από μια λίστα με χρήση των tags που έχουν ανατεθεί στα μουσικά κομμάτια 1.2 Δομή Εργασίας Το συγκεκριμένο κεφάλαιο είναι μια εισαγωγή στο στόχο του θέματος και παρουσιάζει την δομή/αρχιτεκτονική της εργασίας. Αναλυτικά, η διπλωματική εργασία ακολουθεί την παρακάτω δομή: Στο δεύτερο κεφάλαιο, γίνεται μια παρουσίαση του Information Retrieval, των μοντέλων αλλά και των διάφορων μετρικών για αξιολόγηση, που χρησιμοποιούνται σε αυτό. Στο τρίτο κεφάλαιο, γίνεται παρουσίαση στις βασικές έννοιες της μουσικής τεχνολογίας και της ακουστικής. Στο τέταρτο κεφάλαιο, παρουσιάζονται οι τεχνολογίες για Music Information Retrieval. Στο πέμπτο κεφάλαιο, γίνεται μια παρουσίαση της εφαρμογής για music genre classification, περιγράφοντας αρχικά τα πιο σημαντικά τμήματα κώδικα της υλοποίησης, και παράλληλα σχεδιαστικές τεχνικές/αποφάσεις που πάρθηκαν για την ολοκλήρωση της. Στη συνέχεια βλέπουμε βήμα - βήμα τη λειτουργία της εφαρμογής με screenshots. 2

18 3

19 Κεφάλαιο 2 2. Ανάκτηση Πληροφορίας (Information Retrieval) 2.1 Γενικά Ο όρος «Ανάκτηση Πληροφορίας» (Information Retrieval) είναι πολύ ευρύς. Βγάζοντας κάποιος απλά, μια πιστωτική κάρτα από το πορτοφόλι του, ώστε να πληκτρολογήσει τον αριθμό της πιστωτικής κάρτας, είναι μια μορφή Information Retrieval. Ωστόσο, ως επιστημονικό πεδίο μελέτης, το Information Retrieval ορίζεται ως εξής: Ανάκτηση Πληροφορίας (Information Retrieval) είναι η τεχνική εύρεσης υλικού/πληροφορίας (συνήθως εγγράφων/μουσικής), μέσα από κάποια μεγάλη συλλογή (η οποία είναι συνήθως αποθηκευμένη σε υπολογιστή). Σύμφωνα με τον παραπάνω ορισμό, το Information Retrieval ήταν μια δραστηριότητα την οποία συνήθιζαν να έχουν βιβλιοθηκάριοι, δικηγόροι κ.α. Με την πάροδο του χρόνου όμως, και την εξέλιξη της τεχνολογίας, εκατομμύρια άνθρωποι εφαρμόζουν το Information Retrieval καθημερινά χρησιμοποιώντας μια διαδικτυακή μηχανή αναζήτησης, ή απλά κάνοντας αναζήτηση στα mails τους. Το Information Retrieval γίνεται ταχύτατα η κυρίαρχη μορφή πρόσβασης στην πληροφορία, προσπερνώντας την παραδοσιακή αναζήτηση σε βάσεις δεδομένων. Το Information Retrieval μπορεί επίσης να καλύψει διάφορα είδη προβλημάτων δεδομένων και πληροφορίας. Ο όρος «αδόμητα δεδομένα», αναφέρεται στα δεδομένα τα οποία δεν έχουν ξεκάθαρη, σημασιολογικά εμφανή μορφή. Είναι το αντίθετο από τα «δομημένα δεδομένα», παράδειγμα των οποίων είναι οι σχεσιακές βάσεις δεδομένων, τις οποίες χρησιμοποιούν εταιρίες ώστε να διατηρήσουν καταγραφή των εμπορευμάτων τους ή του προσωπικού τους. 4

20 Ο τομέας του Information Retrieval, καλύπτει επίσης χρήστες οι οποίοι αναζητούν φιλτραρισμένες συλλογές εγγράφων. Για ένα σύνολο εγγράφων, «ομαδοποίηση» (clustering), είναι η διαδικασία κατά την οποία ομαδοποιούνται έγγραφα με βάση το περιεχόμενό τους. Είναι μια διαδικασία παρόμοια, με την τακτοποίηση βιβλίων σε ένα ράφι, σύμφωνα με τον τομέα με τον οποίο σχετίζονται. Για ένα σύνολο τομέων, «ταξινόμηση» (classification) είναι η διαδικασία κατά την οποία αποφασίζεται σε ποια κλάση ανήκει κάθε σύνολο από έγγραφα. Η διαδικασία του classification προσεγγίζεται αρχικά από την χειροκίνητη ταξινόμηση κάποιων εγγράφων, και μετά από τη δυνατότητα όλα τα υπόλοιπα έγγραφα να μπορούν να ταξινομηθούν με αυτόματο τρόπο. Τα Information Retrieval συστήματα, μπορούν επίσης να διαχωριστούν με βάση την κλίματα στην οποία λειτουργούν: Αναζήτηση στο διαδίκτυο (web search) : το σύστημα πρέπει να παρέχει αναζήτηση σε δισεκατομμύρια έγγραφα αποθηκευμένα σε εκατομμύρια υπολογιστές. Enterprise, institutional, and domain-specific search : η ανάκτηση παρέχεται από συλλογές όπως εσωτερικά έγγραφα επιχειρήσεων, βάσεις δεδομένων ασθενών κ.α. Σε αυτή την περίπτωση, τα έγγραφα είναι συνήθως αποθηκευμένα σε κεντρικά συστήματα αρχείων. Προσωπική Ανάκτηση Πληροφορίας (personal information retrieval) : οι εφαρμογές για συνήθως δεν παρέχουν μόνο αναζήτηση, αλλά και ταξινόμηση. Πιο συγκεκριμένα, παρέχουν φίλτρο για spam (junk) , και συνήθως παρέχουν χειροκίνητους ή αυτόματους τρόπους για ταξινόμηση Μοντέλα Ανάκτησης Πληροφορίας Συνολοθεωρητικά Μοντέλα (Set-Theoretic Models) Τα παραπάνω μοντέλα αναπαριστούν τα έγγραφα ως σύνολα από λέξεις και φράσεις Boolean Retrieval Μοντέλο Ας πάρουμε για παράδειγμα το έργο Shakespeare s Collected Works. Έστω, πως πρέπει να καθοριστεί ποια κομμάτια του βιβλίου περιέχουν τις λέξεις Brutus KAI Caesar KAI OXI Calpurnia. Ένας τρόπος για να γίνει αυτό, είναι να ξεκινήσουμε από την αρχή και να 5

21 διαβάσουμε όλο το κείμενο, σημειώνοντας σε κάθε κομμάτι πότε περιέχεται η λέξη Brutus και η λέξη Caesar και όχι η λέξη Calpurnia. Ο πιο απλός τρόπος ανάκτησης αυτής της πληροφορίας για ένα υπολογιστή είναι η γραμμική αναζήτηση ανάμεσα στα κομμάτια του έργου. Με τη χρήση ενός μοντέρνου υπολογιστή, αυτή η διαδικασία είναι φαινομενικά απλή, όμως για πολλούς λόγους χρειαζόμαστε παραπάνω: 1. Την πρόσβαση σε μεγάλες συλλογές εγγράφων γρήγορα. Το μέγεθος των online δεδομένων έχει μεγαλώσει τόσο γρήγορα, όσο και η ταχύτητα των υπολογιστών, και θα πρέπει να μπορούμε να ψάξουμε συλλογές που περιέχουν δισεκατομμύρια και τρισεκατομμύρια λέξεων. 2. Την πιο ευέλικτη διαδικασία επιστροφής αποτελεσμάτων. 3. Την υποστήριξη Information Retrieval με αξιολόγηση: σε πολλές περιπτώσεις χρειαζόμαστε την καλύτερη απάντηση ανάμεσα σε πολλά έγγραφα που περιέχουν συγκεκριμένες λέξεις. Ο τρόπος για να αποφύγουμε τη γραμμική αναζήτηση του κειμένου για κάθε query, είναι το εκ των προτέρων indexing (δεικτοδότηση) των εγγράφων. Στην περίπτωση του Shakespeare s Collected Works, καταγράφουμε εάν κάθε κομμάτι του έργου περιέχει κάθε λέξη από του αρχικό μας query, ανάμεσα σε όλες τις λέξεις τις οποίες χρησιμοποίησε ο Shakespeare. Το αποτέλεσμα είναι ένα έγγραφο δυαδικών όρων (incidence matrix) όπως φαίνεται παρακάτω: Εικόνα 1. Incident Matrix. 6

22 Για να απαντηθεί το αρχικό ερώτημα (query), παίρνουμε τα διανύσματα, όπως φαίνονται από τον πίνακα, για Brutus, Caesar και Calpurnia, αντιστρέφουμε το τελευταίο, και έχουμε την εξής πράξη: Το αποτέλεσμα της παραπάνω πράξης, αντιστοιχεί στα κομμάτια: Antony and Cleopatra Hamlet Όπως βλέπουμε από την παρακάτω εικόνα: Εικόνα 2. Αποτελέσματα του αρχικού query. Το παραπάνω παράδειγμα Ανάκτησης Πληροφορίας, αποτελεί το «Δυαδικό Μοντέλο Ανάκτησης» (Boolean Retrieval Model), στο οποίο όπως είδαμε, μπορούμε να θέσουμε ένα ερώτημα query, που αντιστοιχεί σε μια δυαδική αναπαράσταση. 7

23 Extended Boolean Retrieval Μοντέλο Το Extended Boolean Retrieval μοντέλο, έχει ως στόχο να ξεπεραστούν τα μειονεκτήματα του απλού Boolean μοντέλου ανάκτησης πληροφορίας. Το Boolean μοντέλο δεν περιλαμβάνει «βάρη» (weights) στους όρους, οι οποίοι χρησιμοποιούνται στα queries, και το τελικό αποτέλεσμα που προκύπτει από το Boolean query, είναι συχνά είτε πολύ μικρό είτε πολύ μεγάλο [Wikipedia]. Η ιδέα του Extended Boolean μοντέλο είναι να κάνει χρήση «μερικού ταιριάσματος» και «βαρών» σε όρους. Περιλαμβάνει χαρακτηριστικά του μοντέλου Vector Space (στο οποίο θα αναφερθούμε παρακάτω), με ιδιότητες γραμμικής άλγεβρας και βαθμολογεί τις ομοιότητες ανάμεσα σε queries και έγγραφα. Με αυτό τον τρόπο, ένα έγγραφο μπορεί να είναι σχετικό αν ταιριάζει με μερικούς όρους που έχουν χρησιμοποιηθεί στο query, και θα επιστραφεί ως αποτέλεσμα, ενώ στο απλό Boolean μοντέλο, δε θα επιστρεφόταν ως αποτέλεσμα. Έτσι, το Extended Boolean Μοντέλο, μπορεί να θεωρηθεί ως μια γενίκευση των Boolean και Vector Space μοντέλων, τα οποία είναι ξεχωριστές περιπτώσεις, εάν χρησιμοποιούνται «ιδανικές» ρυθμίσεις και ορισμοί. Στο Extended Boolean Μοντέλο, ένα έγγραφο μπορεί να αναπαρασταθεί ως ένα διάνυσμα. Κάθε i διάσταση αντιστοιχεί σε ένα ξεχωριστό όρο, ο οποίος σχετίζεται με το έγγραφο. Το «βάρος» Κ χ ενός όρου το οποίο σχετίζεται με ένα έγγραφο d j, υπολογίζεται από την κανονικοποιημένη «συχνότητα όρων» (Term Frequency) και μπορεί να οριστεί ως εξής: Εικόνα 3. βάρος ενός όρου. Ενώ το διάνυσμα «βαρών» το οποίο σχετίζεται με ένα έγγραφο d j, αναπαρίσταται ως εξής: 8

24 Εικόνα 4. Διάνυσμα βαρών. Ένα παράδειγμα για το 2-διάστατο χώρο είναι το παρακάτω. Έστω δύο μόνο όροι K χ και Κ y, και τα αντίστοιχα «βάρη» w 1 και w 2. Για το query Εικόνα 5. Query βασισμένο στο OR. Μπορούμε να υπολογίσουμε την ομοιότητα, με την παρακάτω συνάρτηση: Ενώ για το query Εικόνα 6. Υπολογισμός ομοιότητας. Εικόνα 7. Query βασισμένο στο AND. Υπολογίζουμε την ομοιότητα με την παρακάτω συνάρτηση: Εικόνα 8. Υπολογισμός ομοιότητας. Μπορούμε να γενικεύσουμε το παραπάνω 2-διάστατο παράδειγμα Extended Boolean μοντέλου, σε μεγαλύτερο t-διάστατο χώρο χρησιμοποιώντας Ευκλείδεια απόσταση. Ένα γενικευμένο query με βάση την πράξη της σύζευξης είναι το εξής: Η ομοιότητα των q or και d j, ορίζεται ως εξής: Εικόνα 9. Query βασισμένο στο OR. 9

25 Εικόνα 10. Υπολογισμός ομοιότητας. Ενώ, για ένα query με βάση την πράξη της διάζευξης: η ομοιότητα μπορεί να υπολογιστεί ως εξής: Εικόνα 11. Query βασισμένο στο AND. Εικόνα 12. Υπολογισμός ομοιότητας Μοντέλο Fuzzy Retrieval Οι τεχνικές για «ασαφή ανάκτηση» (fuzzy retrieval), βασίζονται στο Extended Boolean Μοντέλο και τη θεωρία «ασαφών συνόλων» (Fuzzy set theory). Υπάρχουν δυο κλασσικά μοντέλα για fuzzy retrieval: Mixed Min και Max (MMM) Μοντέλο Paice Κανένα από τα παραπάνω μοντέλα, δεν παρέχει τρόπο για υπολογισμό του βάρους των queries Μοντέλο Mixed Min και Max (ΜΜΜ) Στη θεωρία fuzzy-set, ένα στοιχείο έχει ένα «βαθμό συμμετοχής», έστω d A, σε ένα δοθέν σύνολο Α, αντί της παραδοσιακής συμμετοχής (είναι μέλος/δεν είναι μέλος). 10

26 Στο μοντέλο Mixed Min και Max, κάθε όρος έχει ένα fuzzy set, με το οποίο σχετίζεται. Το βάρος ενός εγγράφου σε σχέση με τον όρο Α, είναι ο βαθμός συμμετοχής του εγγράφου στο fuzzy set. Ο βαθμός συμμετοχής της ένωσης και της τομής στη θεωρία Fuzzy set, ορίζονται ως εξής: Εικόνα 13. Βαθμός συμμετοχής ένωσης και τομής. Σύμφωνα με τα παραπάνω, τα έγγραφα τα οποία πρέπει να μας επιστρέψει ένα query της μορφής Α or B, θα έπρεπε να βρίσκονται στο fuzzy set το οποίο σχετίζεται με την τομή των 2 συνόλων. Έτσι, είναι πιθανό να οριστεί η ομοιότητα ενός εγγράφου στο or query να είναι max(d A,d B) και η ομοιότητα ενός εγγράφου στο and query να είναι min(da,db). To ΜΜΜ μοντέλο θεωρεί την ομοιότητα query-εγγράφου ως ένα γραμμικό συνδυασμό του min και του max βάρους του εγγράφου. Δοθέντος ενός εγγράφου D me βάρη, όρους Εικόνα 14. Βάρη στο μοντέλο MMM. και queries Εικόνα 15. Όροι στο μοντέλο ΜΜΜ. Εικόνα 16. Queries στο μοντέλο MMM. Η ομοιότητα query-εγγράφου στο μοντέλο ΜΜΜ, υπολογίζεται ως εξής: 11

27 Εικόνα 17. Υπολογισμός ομοιότητας στο μοντέλο ΜΜΜ. Όπου C or1, C or2 είναι συντελεστές «χαλαρότητας» σε σχέση με τις Boolean πράξεις, για την πράξη OR, και οι C and1, C and2 είναι οι συντελεστές «χαλαρότητας» για την πράξη AND Μοντέλο Paice To μοντέλο Paice είναι μια γενική επέκταση του μοντέλου MMM. Σε αντίθεση με το MMM μοντέλο, το οποίο θεωρεί μόνο τα ελάχιστά και τα μέγιστα βάρη για τους όρους, το μοντέλο Paice ενσωματώνει όλα τα βάρη όταν υπολογίζει την ομοιότητα: Εικόνα 18. Ομοιότητα στο μοντέλο Paice. Όπου r είναι μια σταθερά και w di διατάσσεται σε αύξουσα σειρά για τα queries με AND, και σε φθίνουσα σειρά για τα queries με OR. Όταν n=2, το μοντέλο Paice εμφανίζει την ίδια συμπεριφορά όπως το μοντέλο MMM. Πειράματα των Lee και Fox, έχουν δείξει πως ορίζοντας το r σε 1.0 για τα queries με AND και 0.7 για τα queries με OR τότε έχουμε καλή λειτουργία της ανάκτησης (retrieval effectiveness 1 ). Το υπολογιστικό κόστος για αυτό το μοντέλο είναι μεγαλύτερο από το κόστος του MMM μοντέλου. Αυτό συμβαίνει, επειδή το μοντέλο MMM απαιτεί μόνο τον καθορισμό του min ή του max για ένα σύνολο όρων, σε χρόνο Ο(n). Το μοντέλο Paice απαιτεί να ταξινομούνται τα βάρη σε αύξουσα ή φθίνουσα σειρά. Αυτό απαιτεί τουλάχιστον έναν O(n log n) αλγόριθμο ταξινόμησης. 1 Η δυνατότητα του συστήματος να ανακτά σχετικά έγγραφα, ενώ ταυτόχρονα να αποφεύγει την ανάκτηση μη σχετικών εγγράφων 12

28 2.2.2 Αλγεβρικά Μοντέλα (Algebraic Models) Τα παραπάνω μοντέλα, αναπαριστούν έγγραφα και queries ως διανύσματα, μητρώα ή πλειάδες Μοντέλο Διανυσματικού Χώρου (Vector Space Model) Το μοντέλο Vector Space, είναι ένα αλγεβρικό μοντέλο το οποίο έχει σκοπό την αναπαράσταση εγγράφων κειμένου σε διανύσματα όρων. Τα έγγραφα και τα queries αναπαρίστανται ως διανύσματα: Εικόνα 19. Έγγραφα και βάρη στο Vector Space Model. Κάθε διάσταση αντιστοιχεί σε ένα ξεχωριστό όρο. Αν ένας όρος βρίσκεται στο έγγραφο, τότε η τιμή του διανύσματός του, είναι μη-μηδενική. Υπάρχουν διάφοροι τρόποι για τον υπολογισμό αυτών των τιμών, επίσης γνωστών ως βάρη. Ένας από τους πιο γνωστούς είναι το tf-idf weighting. Το tf-idf weighting (term frequency inverse document frequency), είναι ένα αριθμητικό στατιστικό το οποίο έχει σκοπό να δείξει πόσο σημαντική είναι μια λέξη σε ένα έγγραφο που ανήκει σε μια συλλογή. Χρησιμοποιείται συχνά ως ένας παράγοντας για προσδιορισμό βάρους (weighting factor). Η τιμή του tf-idf αυξάνεται ανάλογα με πόσες φορές εμφανίζεται μια λέξη σε ένα έγγραφο, αλλά αντισταθμίζεται από τη συχνότητα μια λέξης στη συλλογή. Στην εποχή μας, η μετρική tf-idf είναι από τις πιο γνωστές μετρικές για term-weighting. Για παράδειγμα, 83% των text-based recommender systems χρησιμοποιούν τη συγκεκριμένη μετρική. Στο μοντέλο vector space, ο ορισμός του «όρου» εξαρτάται από την εφαρμογή. Συνήθως, «όροι» είναι λέξεις, λέξεις-κλειδιά, ή μεγαλύτερες φράσεις. Αν οι λέξεις είναι επιλεγμένες να είναι όροι, τότε η διάσταση του διανύσματος είναι ο αριθμός των λέξεων του λεξικού. Για τη σύγκριση των εγγράφων με queries, χρησιμοποιούνται διανυσματικές πράξεις. Για τον υπολογισμό της σχετικότητας των εγγράφων, χρησιμοποιείται η θεωρία της 13

29 σχετικότητας των εγγράφων, κατά την οποία συγκρίνεται η απόκλιση των γωνιών καθενός διανύσματος-εγγράφου, και του αρχικού διανύσματος-query. Εικόνα 20. Διανύσματα για έγγραφα και query. Πρακτικά, υπολογίζεται το συνημίτονο της γωνίας μεταξύ των διανυσμάτων: Εικόνα 21. Συνημίτονο γωνίας μεταξύ διανυσμάτων. Όπου d 2*q είναι η τομή του διανύσματος - εγγράφου και του διανύσματος query. Το υπολογίζεται ως εξής: Εικόνα 22. Υπολογισμός στοιχείων συνημιτόνου. Μιας και όλα τα διανύσματα σε αυτό το μοντέλο είναι μη αρνητικά, όταν το συνημίτονο έχει τιμή μηδενική, αυτό σημαίνει πως τα διανύσματα εγγράφου και query, είναι ορθογώνια και δεν έχουν κάτι κοινό, με άλλα λόγια, ο όρος που αναζητείται μέσω του query, δε βρίσκεται μέσα στο έγγραφο προς αναζήτηση. Τα πλεονεκτήματα του μοντέλου Vector Space, συγκριτικά με το κλασσικό Boolean μοντέλο είναι τα εξής: 14

30 Το μοντέλο vector space είναι πιο απλό και βασίζεται στη γραμμική άλγεβρα. Τα βάρη αντιστοιχούν σε όρους και δεν είναι δυαδικά. Τα βάρη των όρων μπορούν να χρησιμοποιηθούν με τέτοιο τρόπο ώστε να εκφράσουν ένα βαθμό ομοιότητας ανάμεσα σε κάθε query και κάθε έγγραφο. Τα μη δυαδικά βάρη επιτρέπουν και την χρήση queries μερικού ταιριάσματος. Το συγκεκριμένο μοντέλο, έχει και κάποια μειονεκτήματα τα οποία είναι: Τα μεγάλα έγγραφα δεν αναλύονται σωστά μιας και έχουν μικρές τιμές ομοιότητας. Οι λέξεις κλειδιά προς αναζήτηση πρέπει να ταιριάζουν ακριβώς με τους όρους του εγγράφου. Σημασιολογική «ευαισθησία»: τα έγγραφα με παρόμοιο περιεχόμενο αλλά διαφορετικό λεξικό όρων, δε θα συσχετιστούν. Η σειρά με την οποία οι όροι εμφανίζονται στο έγγραφο χάνεται στην αναπαράσταση του διανυσματικού χώρου. Το weighting είναι «ενστικτώδες» και όχι τυπικό. Πολλά από τα παραπάνω μειονεκτήματα, μπορούν να ξεπεραστούν με διάφορα εργαλεία και μαθηματικές τεχνικές όπως η Διάσπαση Ιδιαζουσών Τιμών (SVD) κ.α Γενικευμένο Μοντέλο Διανυσματικού Χώρου (Generalized Vector Space Model) Το Γενικευμένο μοντέλο διανυσματικού χώρου, είναι μια γενίκευση του απλού Vector Space μοντέλου. Το συγκεκριμένο μοντέλο, εισάγει συσχετίσεις όρων. Πιο συγκεκριμένα, θεωρούμε ένα νέο χώρο, στον οποίο κάθε όρος αντιστοιχεί σε ένα διάνυσμα t j και εκφράζεται ως ο γραμμικός συνδυασμός των 2 n διανυσμάτων m r όπου r = 1 2 n. Για κάθε έγγραφο d k και ένα query q, η συνάρτηση ομοιότητας γίνεται η εξής: Εικόνα 23. Υπολογισμός ομοιότητας στο Generalized Vector Space Model. Όπου ti και tj είναι διανύσματα ενός 2 n διαστάσεων χώρο. 15

31 Topic-Based Μοντέλο Διανυσματικού Χώρου (Topic-Based Vector Space Model) Το Topic-Based μοντέλο διανυσματικού χώρου, επεκτείνει το κλασσικό Vector Space μοντέλο, αφαιρώντας τον περιορισμό πως τα διανύσματα-όρη είναι ορθογώνια. Η υπόθεση των ορθογώνιων όρων, είναι λανθασμένη όσων αφορά τις φυσικές γλώσσες, κάτι το οποίο δημιουργεί προβλήματα με συνώνυμους όρους. Η βασική αρχή του παραπάνω μοντέλου είναι η ύπαρξη ενός d-διαστάσεων χώρου R, με θετικούς άξονες μόνο. Κάθε διάσταση του R αναπαριστά ένα topic. Το διάνυσμα όρου t έχει ένα συγκεκριμένο βάρος για κάθε R. Για τον υπολογισμό αυτών των βαρών, λαμβάνονται υποθέσεις σχετικά με τα περιεχόμενα του κάθε εγγράφου. Ιδανικά, οι σημαντικοί όροι έχουν μεγαλύτερο βάρος, ενώ οι ασήμαντοι όροι θα έχουν μικρό βάρος. Στο Topic-Based Vector Space μοντέλο, η ομοιότητα μεταξύ δύο εγγράφων D i και D j ορίζεται ως το εσωτερικό γινόμενο των διανυσμάτων των εγγράφων Μοντέλο Λανθάνουσας Σημασιολογικής Δεικτοδότησης (Latent Semantic Indexing Model) Το μοντέλο Λανθάνουσας Σημασιολογικής Δεικτοδότησης, ή αλλιώς η Λανθάνουσα Σημασιολογική ανάλυση, είναι μια τεχνική στην επεξεργασία φυσικής γλώσσας, κατά την οποία αναλύονται σχέσεις μεταξύ εγγράφων και των όρων που περιέχουν, παράγοντας σύνολο των concepts που σχετίζονται με τα έγγραφα και τους όρους. Η συγκεκριμένη ανάλυση υποθέτει πως οι λέξεις που βρίσκονται κοντά σε σημασία, θα βρίσκονται σε παρόμοια «κομμάτια» κειμένου. Ένα μητρώο περιέχει τη μέτρηση κάθε λέξης ανά παράγραφο (οι γραμμές αναπαριστούν ξεχωριστές λέξεις και οι στήλες αναπαριστούν κάθε παράγραφο) το οποίο δημιουργείται από ένα μεγάλο κείμενο και μια μαθηματική τεχνική που αναφέρθηκε παραπάνω, τη Ανάλυση Ιδιαζουσών Τιμών (Singular Value Decomposition - SVD). Η χρήση της Ανάλυσης Ιδιαζουσών Τιμών γίνεται με σκοπό τη μείωση του αριθμού των γραμμών, διατηρώντας την δομή της ομοιότητας μεταξύ των στηλών. Στη συνέχεια, οι λέξεις συγκρίνονται, παίρνοντας το συνημίτονο της γωνίας μεταξύ δύο διανυσμάτων που δημιουργούνται από δυο οποιεσδήποτε γραμμές. Οι τιμές 16

32 κοντά στο 1 αναπαριστούν παρόμοιες λέξεις, ενώ οι τιμές κοντά στο 0 αναπαριστούν μηπαρόμοιες λέξεις. Το συγκεκριμένο μοντέλο περιέχει ένα μητρώο, το οποίο περιγράφει τις εμφανίσεις των όρων στα έγγραφα. Είναι ένα αραιό μητρώο, του οποίου οι γραμμές αντιστοιχούν σε όρους και οι στήλες αντιστοιχούν σε έγγραφα. Ένα παράδειγμα του weighting των στοιχείων του μητρώου είναι η τεχνική ts-idf που περιγράφηκε σε προηγούμενο κεφάλαιο, κατά την οποία το βάρος ενός στοιχείου του μητρώου είναι ανάλογο των φορών που εμφανίζονται οι όροι σε κάθε έγγραφο. Μετά την κατασκευή του παραπάνω μητρώου, το μοντέλο βρίσκει μια «χαμηλού βαθμού προσέγγιση» (low-rank approximation) στο μητρώο όρων εγγράφων. Υπάρχουν διάφοροι λόγοι γι αυτές τις προσεγγίσεις: Το αρχικό μητρώο όρων εγγράφων θεωρείται πολύ μεγάλο για τις υπολογιστικές δυνατότητες του συστήματος. Το αρχικό μητρώο θεωρείται «θορυβώδες», όταν περιέχει ασήμαντους όρους που πρέπει να απαλειφθούν. Το αρχικό μητρώο θεωρείται αρκετά αραιό σχετικά με το πραγματικό μητρώο όρων εγγράφων. Έστω Χ το μητρώο του οποίου το στοιχείο (i,j) περιγράφει την εμφάνιση του όρου i στο έγγραφο j. Το Χ διαμορφώνεται ως εξής: Εικόνα 24. Το μητρώο Χ. Μια γραμμή στο μητρώο αυτό, αποτελεί ένα διάνυσμα που αντιστοιχεί σε ένα όρο: 17

33 Εικόνα 25. Διάνυσμα όρων. Με αντίστοιχο τρόπο, μια στήλη στο μητρώο αυτό, αποτελεί ένα διάνυσμα που αντιστοιχεί σε ένα έγγραφο: Εικόνα 26. Διάνυσμα εγγράφων. Από τη θεωρία της γραμμικής άλγεβρας, γνωρίζουμε πως για ένα μητρώο X, η διάσπαση του σε ιδιάζουσες τιμές, αποτελείται από 3 μητρώα U, Σ, V T, εκ των οποίων τα U, V είναι ορθογώνια μητρώα και το Σ είναι ένα διαγώνιο μητρώο: Εικόνα 27. Διάσπαση Ιδιαζουσών Τιμών. Κάνοντας λοιπόν χρήση τη διάσπασης ιδιαζουσών τιμών στο μητρώο της περίπτωσής μας, έχουμε την εξής διάσπαση: Εικόνα 28. Διάσπαση Ιδιαζουσών Τιμών στο μητρώο όρων - εγγράφων. Για να συγκρίνουμε λοιπόν δύο έγγραφα j και q, συγκρίνουμε τα διανύσματα:, 18

34 Το συγκεκριμένο μοντέλο έχει αρκετά πλεονεκτήματα. Αρχικά, μπορεί να ξεπεράσει προβληματικούς περιορισμούς που έχουν τα Boolean μοντέλα: πολλαπλές λέξεις με παρόμοιες ερμηνείες, και λέξεις που έχουν παραπάνω από μια σημασία. Η συνωνυμία είναι ο πιο κοινός λόγος αναντιστοιχίας στο λεξιλόγιο που χρησιμοποιείται από τους συγγραφείς των εγγράφων και τους χρήστες των συστημάτων ανάκτησης πληροφορίας. Ως αποτέλεσμα, τα Boolean μοντέλα επιστρέφουν άσχετα αποτελέσματα ή χάνουν πληροφορία η οποία είναι σχετική με το query που έχει δοθεί. Το μοντέλο Λανθάνουσας Σημασιολογικής Δεικτοδότησης επίσης χρησιμοποιείται για αυτοματοποιημένη κατηγοριοποίηση εγγράφων. Κατηγοριοποίηση εγγράφων είναι η διαδικασία κατά την οποία έγγραφα που έχουν αντίστοιχη θεματική ενότητα, τοποθετούνται σε διάφορες κατηγορίες. Το μοντέλο χρησιμοποιεί έγγραφα παραδείγματα ώστε να δημιουργήσει κάθε θεματική ενότητα και στη συνέχεια τα πραγματικά έγγραφα τοποθετούνται στη θεματική ενότητα στην οποία ανήκουν [Tsakalidis κ.α., 2003]. Το συγκεκριμένο μοντέλο δεν περιορίζεται μόνο σε λειτουργία με λέξεις. Μπορεί επίσης, να επεξεργαστεί strings. Κάθε αντικείμενο το οποίο μπορεί να εκφραστεί σε κείμενο, μπορεί να αναπαρασταθεί στο vector space του μοντέλου. Το μοντέλο Λανθάνουσας Σημασιολογικής Δεικτοδότησης επίσης, μπορεί να προσαρμοστεί σε νέα και αλλαγμένη ορολογία, και έχει δειχθεί πως είναι αρκετά ανεκτικό σε «θόρυβο» (τυπογραφικά λάθη, ορθογραφικά λάθη κλπ. ). Αυτό είναι ιδιαίτερα σημαντικό για εφαρμογές που χρησιμοποιούν κείμενο το οποίο προέρχεται από Οπτική Αναγνώριση Χαρακτήρων (Optical Character Recognition - OCR) και από μετατροπή ομιλίας σε κείμενο (speech to - text). Το κείμενο δε χρειάζεται να βρίσκεται στη μορφή πρότασης για να λειτουργήσει το συγκεκριμένο μοντέλο. Το μοντέλο λειτουργεί με λίστες, σημειώσεις, , περιεχόμενο web κλπ. Όσο μια συλλογή περιέχει κείμενο με πολλαπλούς όρους, το μοντέλο μπορεί να χρησιμοποιηθεί ώστε να αναγνωρίζει πρότυπα στις σχέσεις μεταξύ των σημαντικών όρων και των θεματικών ενοτήτων σε ένα κείμενο. Το μοντέλο έχει αποδειχθεί πως είναι μια χρήσιμη λύση σε δύσκολα προβλήματα εννοιολογικής αντιστοίχισης. 19

35 2.2.3 Πιθανοτικά Μοντέλα (Probabilistic Models) Τα παραπάνω μοντέλα χειρίζονται τη διαδικασία ανάκτησης πληροφορίας μέσα σε ένα πιθανοτικό πλαίσιο. Οι ομοιότητες υπολογίζονται ως πιθανότητες κατά τις οποίες ένα έγγραφο είναι σχετικό για ένα δοθέν query Μοντέλο Ανάκτησης Δυαδικής Ανεξαρτησίας (Binary Independence Model) Το μοντέλο ανάκτησης δυαδικής ανεξαρτησίας είναι μια πιθανοτική τεχνική η οποία κάνει μερικές υποθέσεις για τον υπολογισμό της πιθανότητας ομοιότητας εγγράφου query. Στο συγκεκριμένο μοντέλο, τα έγγραφα είναι δυαδικά διανύσματα, και μόνο η απουσία ή παρουσία των όρων καταγράφονται. Οι όροι είναι ανεξάρτητα κατανεμημένοι σε ένα σύνολο σχετικών εγγράφων και είναι επίσης ανεξάρτητα κατανεμημένοι σε ένα σύνολο μησχετικών εγγράφων. Η αναπαράσταση του, είναι ένα διατεταγμένο σύνολο με Boolean μεταβλητές. Η αναπαράσταση ενός εγγράφου ή ενός query είναι ένα Boolean στοιχείο για κάθε όρο που μελετάται. Πολλά έγγραφα μπορούν να έχουν αναπαράσταση ίδιου διανύσματος. Η «ανεξαρτησία» δηλώνει πως οι όροι στο έγγραφο θεωρούνται ανεξάρτητοι από τους άλλους και δεν έχουν καμία συσχέτιση. Αυτή η υπόθεση είναι αρκετά περιοριστική, αλλά έχει δειχθεί πως δίνει καλά αποτελέσματα για πολλές περιπτώσεις. Η πιθανότητα κατά την οποία ένα έγγραφο είναι σχετικό, προέρχεται από την πιθανότητα της σχετικότητας του διανύσματος όρων του συγκεκριμένου εγγράφου. Χρησιμοποιώντας τον κανόνα Bayes έχουμε: Εικόνα 29. Πιθανότητα σχετικότητας εγγράφου. 20

36 Μοντέλο Πιθανοτικής Σχετικότητας (Probabilistic Relevance Model) Το μοντέλο πιθανοτικής σχετικότητας, υπολογίζει την πιθανότητα ένα έγγραφο d j να είναι σχετικό με ένα query q. Το συγκεκριμένο μοντέλο υποθέτει πως αυτή η πιθανότητα σχετικότητας βασίζεται στο query και στην αναπαράσταση του εγγράφου. Επίσης, υποθέτει πως υπάρχει αναλογία των εγγράφων που προτιμά ο χρήστης ως σύνολο απάντησης στο query q. Τέτοιο ιδανικό σύνολο λέγεται R και βελτιστοποιεί τη συνολική πιθανότητα της σχετικότητας στο χρήστη. Η πιθανότητα είναι τα έγγραφα του συνόλου R να είναι σχετικά με το query, ενώ τα documents που δεν ανήκουν στο R, να είναι μη-σχετικά. Τα μειονεκτήματα του συγκεκριμένου μοντέλου είναι τα εξής: Δεν υπάρχει ακριβής εκτίμηση για το πρώτο set πιθανοτήτων. Δεν υπάρχουν βάρη στους όρους. Οι όροι θεωρούνται ανεξάρτητοι μεταξύ τους Αβέβαιη Συμπερασματολογία (Uncertain Inference) Στο μοντέλο Uncertain Inference το μέτρο της αβεβαιότητας ενός εγγράφου d σε ένα query q, είναι η πιθανότητα Εικόνα 30. Πιθανότητα στο μοντέλο Uncertain Interference. Το query ενός χρήστη, μπορεί να ερμηνευθεί ως ένα σύνολο ισχυρισμών για το επιθυμητό έγγραφο. Από κει και πέρα, είναι υποχρέωση του συστήματος να παρέμβει, δοθέντος ενός εγγράφου, αν οι ισχυρισμοί για το query, είναι αληθινοί. Αν είναι αληθινοί, το έγγραφο επιστρέφεται ως επιτυχές αποτέλεσμα. Σε πολλές περιπτώσεις, τα περιεχόμενα των εγγράφων δεν είναι αρκετά για να γίνει σωστά ένα query. Στο συγκεκριμένο μοντέλο, είναι αναγκαία μια γνωσιακή βάση με γεγονότα και κανόνες, αλλά μερικοί από αυτούς μπορεί να είναι αβέβαιοι. Έτσι, μπορούμε να αναφερθούμε στην τεχνική αυτή και ως «εύλογη 21

37 συμπερασματολογία». Αντί για να επιστρέφεται ένα έγγραφο που ταιριάζει ακριβώς στο query που δόθηκε, θα πρέπει να βαθμολογούνται τα έγγραφα με βάση το πόσο «εύλογα» είναι σε σχέση με το query. Μιας και το d και το q παρέχονται από τους χρήστες, είναι επιρρεπή σε λάθη. Έτσι, το Εικόνα 31. Σχέση εγγράφου - query. είναι αβέβαιο. Αυτό επηρεάζει την αληθοφάνεια του δοθέντος query. Για παράδειγμα, έστω πως έχουμε το εξής query: Εικόνα 32. Query. Όπου A, B, C είναι οι ισχυρισμοί του query, τότε για ένα έγγραφο D η πιθανότητα που ζητάμε είναι η εξής: Εικόνα 33. Πιθανότητα. Εάν μετατρέψουμε αυτή την πιθανότητα, στη δεσμευμένη πιθανότητα: Εικόνα 34. Δεσμευμένη πιθανότητα. και αν οι ισχυρισμοί του query είναι ανεξάρτητοι, τότε μπορούμε να υπολογίσουμε τη συνολική πιθανότητα ως το γινόμενο των ανεξάρτητων πιθανοτήτων των ισχυρισμών Γλωσσικό μοντέλο (Language Model) Ένα στατιστικό γλωσσικό μοντέλο είναι μια κατανομή πιθανοτήτων πάνω σε ακολουθίες λέξεων. Δοθείσας μιας ακολουθίας λέξεων, μήκους m, το μοντέλο αναθέτει την πιθανότητα Εικόνα 35. Πιθανότητα στο language model. 22

38 σε ολόκληρη την ακολουθία. Έχοντας ένα τρόπο να εκτιμηθεί η σχετική πιθανότητα διαφορετικών φράσεων, το συγκεκριμένο μοντέλο είναι χρήσιμο σε πολλές εφαρμογές επεξεργασίας φυσικής γλώσσας, ειδικά αυτές που παράγουν κείμενο ως έξοδο Μοντέλο Divergence-from-randomness Στο συγκεκριμένο μοντέλο, στους όρους έχουν ανατεθεί βάρη, τα οποία υπολογίζονται μετρώντας την απόκλιση ανάμεσα στην κατανομή του όρου, που παράγεται από μια τυχαία διαδικασία και την πραγματική κατανομή του όρου Μοντέλο Λανθάνουσας Κατανομής Dirichlet (Latent Dirichlet Allocation) Στην επεξεργασία φυσικής γλώσσας, το μοντέλο λανθάνουσας κατανομής Dirichlet, είναι ένα απλό στατιστικό μοντέλο, στο οποίο κάθε κείμενο αποτελείται από ένα σύνολο θεμάτων, τα οποία προσδιορίζονται από συγκεκριμένες λέξεις συνδεδεμένες με κάποια πιθανότητα. Μια συλλογή κειμένων μοιράζεται κοινά θέματα περιεχομένου, αλλά το κείμενο εκφράζει τα θέματα σε διαφορετικές αναλογίες. Ο τρόπος με τον οποίο κατανέμονται τα θέματα σε μια συλλογή κειμένων, σε συνδυασμό με την αναλογία των θεμάτων και την κατανομή των λέξεων στο κάθε κείμενο, αποτελούν την κρυφή δομή της συλλογής. Για να αναγνωριστεί η θεματολογία των κείμενων, η οποία αποτελεί την άγνωστη μεταβλητή του μοντέλου, το υπολογιστικό πρόβλημα ανάγεται στην αντιστροφή της διαδικασίας παραγωγής τους: αν υπολογιστεί η δομή με την οποία δημιουργήθηκαν αρχικά τα κείμενα, έχει επιτευχθεί η ανίχνευση των θεμάτων που την αποτελούν. Για παράδειγμα, το συγκεκριμένο μοντέλο, μπορεί να έχει θέματα τα οποία μπορούν να ταξινομηθούν ως CAT_related ή DOG_related. Ένα θέμα έχει πιθανότητες παραγωγής διαφόρων λέξεων, όπως milk, meow, και kitten, τα οποία μπορούν να ταξινομηθούν και από τον χρήστη ως CAT_related. Φυσικά, η λέξη cat θα έχει μεγάλη πιθανότητα σε αυτό το θέμα. Από την άλλη, το θέμα DOG_related έχει πιθανότητες να παράγει λέξεις όπως: puppy, bark, και bone, οι οποίες θα έχουν και μεγάλη πιθανότητα. Λέξεις χωρίς ιδιαίτερη σχετικότητα όπως η λέξη the, θα έχει πολύ μικρή πιθανότητα. 23

39 Το μοντέλο Λανθάνουσας Κατανομής Dirichlet, προσπαθεί να αυτοματοποιήσει την ανίχνευση των θεμάτων, με βάση ένα υπάρχον λεξικό που αποκλείει τις λέξεις που δεν εισάγουν θεματολογία στο κείμενο. Ως «θέμα» ορίζεται η κατανομή γύρω από ένα συγκεκριμένο λεξιλόγιο. Πρακτικά, το λεξιλόγιο και η κατανομή του σε θέματα, πρέπει να έχει δημιουργηθεί πριν από την επεξεργασία των κειμένων. Εφόσον έχουμε το λεξικό, η διαδικασία παραγωγής των λέξεων, για κάθε κείμενο, γίνεται στις εξής δυο φάσεις: Επιλέγεται τυχαία μια κατανομή από τα ήδη υπάρχοντα θέματα. Για κάθε λέξη στο κείμενο, είτε επιλέγεται τυχαία ένα θέμα από την κατανομή των θεμάτων της 1 ης φάσης, είτε επιλέγεται τυχαία κάποια λέξη από την αντίστοιχη κατανομή του θέματος Feature-based Retrieval Models Τα παραπάνω μοντέλα χειρίζονται τα έγγραφα ως διανύσματα τιμών που προέρχονται από feature functions και αναζητούν τον καλύτερο τρόπο να συνδυάσουν αυτά τα features σε ένα μοναδικό σχετικό σκορ, με τη χρήση machine learning μεθόδων. Οι feature functions είναι αυθαίρετες συναρτήσεις εγγράφων queries, και γι αυτό το λόγο μπορούν εύκολα να ενσωματώσουν οποιοδήποτε άλλο μοντέλο ανάκτησης πληροφορίας Υπόλοιποι διαχωρισμοί Μοντέλων Models without term-interdependencies Τα συγκεκριμένα μοντέλα χειρίζονται διαφορετικές λέξεις όρους ως ανεξάρτητους. Αυτό το γεγονός αναπαρίσταται στα vector space μοντέλα με την υπόθεση της ορθογωνιότητας στα διανύσματα των όρων. 24

40 Models with immanent term-interdependencies Τα συγκεκριμένα μοντέλα επιτρέπουν μια αναπαράσταση των αλληλεξαρτήσεων μεταξύ των όρων. Ωστόσο, ο βαθμός της αλληλεξάρτησης μεταξύ δύο όρων ορίζεται από το μοντέλο αυτό καθαυτό Models with transcendent term interdependencies Τα συγκεκριμένα μοντέλα επιτρέπουν μια αναπαράσταση των αλληλεξαρτήσεων μεταξύ των όρων, αλλά δεν προβάλλουν τον τρόπο με τον οποίο ορίζεται η αλληλεξάρτηση μεταξύ δύο όρων. Βασίζονται σε εξωτερική πηγή για το βαθμό της αλληλεξάρτησης μεταξύ δύο όρων. 2.3 Μετρικές αξιολόγησης της απόδοσης των συστημάτων ανάκτησης πληροφορίας Η αξιολόγηση ενός συστήματος ανάκτησης πληροφορίας είναι η διαδικασία η οποία αξιολογεί πόσο καλά ένα σύστημα ικανοποιεί τις ανάγκες πληροφόρησης των χρηστών του. Παραδοσιακές μετρικές για αξιολόγηση οι οποίες έχουν σχεδιαστεί για το Boolean μοντέλο είναι η «ακρίβεια» (precision) και η «ανάκληση» (recall). Γενικότερα, οι μετρικές αξιολόγησης, έχουν ως δεδομένα μια συλλογή από έγγραφα τα οποία θα αναζητηθούν, και ένα query προς αναζήτηση. Όλες οι μετρικές που περιγράφονται παρακάτω, βασίζονται σε μια κοινή αρχή: κάθε έγγραφο είναι σχετικό ή μη σχετικό με το συγκεκριμένο query Ακρίβεια (Precision) Ακρίβεια είναι το κλάσμα των εγγράφων που έχουν ανακτηθεί και είναι σχετικά με τις ανάγκες πληροφόρησης του χρήστη. Εικόνα 36. Η μετρική precision. 25

41 2.3.2 Ανάκληση (Recall) Ανάκληση είναι το κλάσμα των εγγράφων τα οποία είναι σχετικά με το query και έχουν ανακτηθεί επιτυχώς. Εικόνα 37. Η μετρική recall Fall-out Η μετρική Fall-out είναι η αναλογία των μη-σχετικών εγγράφων που ανακτώνται, ανάμεσα σε όλα τα διαθέσιμα μη-σχετικά έγγραφα: Εικόνα 38. Η μετρική fall-out F-score Η μετρική F-score είναι ένα κλάσμα αποτελούμενο από τις δύο πρώτες μετρικές που αναφέρθηκαν: 26

42 Εικόνα 39. Η μετρική F-score Μέση Ακρίβεια (Average Precision) Η ακρίβεια και η ανάκληση είναι μετρικές που βασίζονται σε ολόκληρη την λίστα των εγγράφων τα οποία επιστρέφονται από το σύστημα. Τα συστήματα που χρησιμοποιούν διατεταγμένη ακολουθία εγγράφων, είναι επιθυμητό να λαμβάνουν υπόψη τη σειρά με την οποία τα έγγραφα επιστρέφονται. Υπολογίζοντας την ακρίβεια και την ανάκληση σε κάθε θέση σε μια διατεταγμένη ακολουθία εγγράφων, προκύπτει η «μέση ακρίβεια»: Εικόνα 40. Η μετρική average precision Precision at K Στα μοντέρνα συστήματα ανάκτησης πληροφορίας, η μετρική recall δεν είναι ιδιαίτερα χρήσιμη, μιας και τα περισσότερα queries περιλαμβάνουν χιλιάδες σχετικά έγγραφα και ελάχιστοι χρήστες ενδιαφέρονται να τα διαβάσουν όλα. Η μετρική precision-at-k 2 είναι χρήσιμη μετρική, αλλά αποτυγχάνει να λάβει υπόψη τις θέσεις των σχετικών εγγράφων ανάμεσα στις top k R-Precision Η μετρική R-precision απαιτεί την εκ των προτέρων γνώση των εγγράφων τα οποία είναι σχετικά με το query. Εάν έχουμε για παράδειγμα, 15 έγγραφα σχετικά (R=15) και 2 Precision at 10 αναφέρεται στον αριθμό τον σχετικών αποτελεσμάτων της 1 ης σελίδας των αποτελεσμάτων. 27

43 επιστραφούν κάποια έγγραφά σχετικά με τα 15, τότε η μετρική αυτή είναι το κλάσμα των σχετικών εγγράφων ως προς τα 15: r/ Mean average precision Η συγκεκριμένη μετρική, για ένα σύνολο από queries υπολογίζεται ως εξής: Όπου Q είναι ο αριθμός των queries. Εικόνα 41. Η μετρική Mean average precision Mean reciprocal rank Η συγκεκριμένη μετρική χρησιμοποιείται για την αξιολόγηση μιας διαδικασίας που παράγει μια λίστα από πιθανές απαντήσεις σε ένα δείγμα από queries, και υπολογίζεται ως εξής: Εικόνα 42. Η μετρική Mean Reciprocal rank. Όπου rank i αναφέρεται στη θέση του πρώτου σχετικού εγγράφου για το i-οστό query. 28

44 Κεφάλαιο 3 3. Μουσική Τεχνολογία και Ακουστική 3.1 Μουσική Τεχνολογία Μουσική Τεχνολογία (Music Technology) ορίζεται ως η ανάπτυξη τεχνολογιών και διαδικασιών, σχετικά με μεθοδολογίες, εκτέλεση, αντίληψη, επεξεργασία, ανάλυση και σύνθεση μουσικής. Η Μουσική Τεχνολογία είναι ένα χαρακτηριστικό παράδειγμα ερευνητικού πεδίου, το οποίο βρίσκεται στο σταυροδρόμι πολλών επιστημονικών κλάδων όπως η Μουσικολογία, η Ακουστική, η Επεξεργασία Σημάτων, η Ψυχοακουστική, η Τεχνητή Νοημοσύνη και η Αλληλεπίδραση Ανθρώπου Υπολογιστή Ερευνητική Δραστηριότητα στη Μουσική Τεχνολογία Η Μουσική Τεχνολογία υπήρξε πάντα ένα εφαρμοσμένο πεδίο πολύ κοντά στη μουσική βιομηχανία. Υπάρχουν πολλά ενεργά ερευνητικά πεδία στη Μουσική Τεχνολογία. Από τα πρώτα πειράματα μουσικής σε υπολογιστές στα τέλη της δεκαετίας του 50 έως τη σύγχρονη έρευνα, το πεδίο της έχει διευρυνθεί. Μια κατηγοριοποίηση της ενεργούς έρευνας στη Μουσική Τεχνολογία, είναι η παρακάτω Αλγοριθμική Σύνθεση (Algorithmic Composition) Αλγοριθμική Σύνθεση (Algorithmic Composition): είναι η τεχνική της χρήσης αλγορίθμων για τη δημιουργία μουσικής. Οι αλγόριθμοι (ή τουλάχιστον «σύνολα κανόνων») έχουν χρησιμοποιηθεί για τη σύνθεση μουσικής για αιώνες. Ο όρος «αλγοριθμική σύνθεση» συνήθως χρησιμοποιείται για τη χρήση διαδικασιών παραγωγής μουσικής χωρίς την ανθρώπινη παρέμβαση, μέσω της χρήσης των ηλεκτρονικών υπολογιστών. Μερικοί αλγόριθμοι ή δεδομένα τα οποία δεν έχουν άμεση μουσική συσχέτιση, χρησιμοποιούνται 29

45 από συνθέτες, ως δημιουργική έμπνευση για τη μουσική τους. Αλγόριθμοι όπως fractals, L- systems, στατιστικά μοντέλα, ακόμη και αυθαίρετα δεδομένα (π.χ. συντεταγμένες GIS) έχουν χρησιμοποιηθεί ως «πρώτες ύλες». Δεν υπάρχει καθολική μέθοδος για την ταξινόμηση διαφορετικών αλγορίθμων σύνθεσης, σε κατηγορίες. Ένας τρόπος για να γίνει αυτό είναι να εξετάσουμε τον τρόπο με τον οποίο ένας αλγόριθμος λαμβάνει μέρος στη συνθετική διαδικασία. Τα αποτελέσματα της διαδικασίας μπορούν στη συνέχεια να διαιρεθούν σε 2 κατηγορίες: Μουσική που δημιουργείται από ηλεκτρονικό υπολογιστή. Μουσική που δημιουργείται με τη βοήθεια του ηλεκτρονικού υπολογιστή. Μουσική που δημιουργείται από ηλεκτρονικό υπολογιστή, μπορεί να θεωρηθεί, όταν ένας αλγόριθμος είναι σε θέση να κάνει τις δικές του επιλογές κατά τη δημιουργική διαδικασία. Ένας άλλος τρόπος για την ταξινόμηση αλγορίθμων σύνθεσης, είναι η εξέταση των αποτελεσμάτων των συνθετικών διαδικασιών τους. Οι αλγόριθμοι μπορούν είτε να παρέχουν συμβολική πληροφορία (παρτιτούρες ή MIDI) για άλλα όργανα, είτε να παρέχουν ένα ανεξάρτητο τρόπο σύνθεσης ήχου (εκτέλεση μουσικής από μόνοι τους). Υπάρχουν επίσης αλγόριθμοι, οι οποίοι δημιουργούν συμβολικά δεδομένα και παρέχουν δυνατότητα για σύνθεση μουσικής. Ένας τρόπος για την κατηγοριοποίηση αλγορίθμων σύνθεσης είναι από τη δομή τους και τον τρόπο που επεξεργάζονται τα δεδομένα, όπως φαίνεται παρακάτω: Μαθηματικά μοντέλα (Mathematical Models): βασίζονται σε μαθηματικές εξισώσεις και τυχαία γεγονότα. Ο πιο κοινός τρόπος για τη δημιουργία συνθέσεων μέσω των μαθηματικών, είναι οι στοχαστικές διαδικασίες. Στα στοχαστικά μοντέλα, ένα κομμάτι μουσικής, δημιουργείται ως αποτέλεσμα μη-ντετερμινιστικών μεθόδων. Η συνθετική διαδικασία είναι μερικώς ελεγχόμενη από το συνθέτη ο οποίος αξιολογεί τις πιθανότητες για τυχαία γεγονότα. Χαρακτηριστικά παραδείγματα των στοχαστικών αλγορίθμων είναι οι Μαρκοβιανές αλυσίδες (Markov chains), και η χρήση Gaussian κατανομών. Οι στοχαστικοί αλγόριθμοι συνήθως χρησιμοποιούνται μαζί με άλλους αλγόριθμους σε διάφορες διαδικασίες λήψης αποφάσεων. Συστήματα που βασίζονται στη γνώση (Knowledge-based systems): είναι προγράμματα τα οποία χρησιμοποιούν μια γνωσιακή βάση για να επιλύσουν πολύπλοκα προβλήματα. Ένας τρόπος για να δημιουργηθούν συνθέσεις, είναι η 30

46 απομόνωση του «αισθητικού» κώδικα ενός συγκεκριμένου μουσικού είδους και η χρήση του ώστε να δημιουργηθούν νέες παρόμοιες συνθέσεις. Τα συστήματα αυτά, βασίζονται σε ένα σύνολο δεδομένων τα οποία μπορούν να χρησιμοποιηθούν για να δημιουργηθούν νέες συνθέσεις παρόμοιου είδους. Αυτό επιτυγχάνεται συνήθως από ένα σύνολο από τεστ και κανόνες. Γραμματικές (Grammars): η μουσική μπορεί επίσης να εξεταστεί σαν μια γλώσσα με ένα ξεχωριστό σύνολο γραμματικής. Οι συνθέσεις δημιουργούνται πρώτα με την κατασκευή μουσικής γραμματικής, η οποία χρησιμοποιείται στη συνέχεια για τη δημιουργία κατανοητών μουσικών κομματιών. Οι γραμματικές συχνά περιλαμβάνουν κανόνες για σύνθεση σε μακρο-επίπεδο, για παράδειγμα αρμονίες και ρυθμό. Εξελικτικές μέθοδοι (Evolutionary methods): Οι εξελικτικές μέθοδοι σύνθεσης μουσικής βασίζονται στους γενετικούς αλγόριθμους. Η σύνθεση γίνεται μέσω εξελικτικών διαδικασιών. Μέσω της μετάλλαξης (mutation) και της φυσικής επιλογής (natural selection), εξελίσσονται διαφορετικές λύσεις σε ένα κατάλληλο μουσικό κομμάτι. Συστήματα που μαθαίνουν (Systems that learn): Τα συστήματα τα οποία μαθαίνουν, είναι προγράμματα τα οποία δεν έχουν προϋπάρχουσα γνώση για το είδος της μουσικής πάνω στο οποίο «τρέχουν». Αντ αυτού, συλλέγουν το υλικό εκμάθησης από υλικό-παράδειγμα το οποίο παρέχεται από το χρήστη ή τον προγραμματιστή. Το υλικό στη συνέχεια επεξεργάζεται ως ένα μουσικό κομμάτι παρόμοια με το υλικό-παράδειγμα. Αυτή η μέθοδος για αλγοριθμική σύνθεση, είναι άρρηκτα συνδεδεμένη με την αλγοριθμική μοντελοποίηση, το machine improvisation, και μελέτες όπως η cognitive science και η μελέτη νευρωνικών δικτύων. Υβριδικά συστήματα (Hybrid Systems): Τα προγράμματα, τα οποία βασίζονται σε ένα μοναδικό αλγοριθμικό μοντέλο, σπάνια επιτυγχάνουν στο να δημιουργήσουν αισθητικά ικανοποιητικά αποτελέσματα. Γι αυτό το λόγο, διαφορετικού τύπου αλγόριθμοι, χρησιμοποιούνται συχνά με συνδυαστικό τρόπο ώστε να είναι πιο αποδοτικοί και να μειώσουν αισθητά τις αδυναμίες τους. Η δημιουργία υβριδικών συστημάτων για τη σύνθεση μουσικής έχει βοηθήσει στη δημιουργία ενός πεδίου αλγοριθμικής σύνθεσης και έχει δημιουργήσει αρκετούς νέους τρόπους για την αλγοριθμική κατασκευή συνθέσεων. Το μοναδικό σημαντικό πρόβλημα με τα υβριδικά μοντέλα, είναι η αυξανόμενη πολυπλοκότητά τους και η ανάγκη για πόρους για να τεσταριστούν οι αλγόριθμοι αυτοί. 31

47 Music Performance Analysis Η μουσική είναι μια τέχνη η οποία βασίζεται στην ζωντανή εκτέλεση. Ενώ η διαφοροποίηση μεταξύ ενός μουσικού θέματος (music score) και της εκτέλεσής του είναι δύσκολο στην περίπτωση της δημοφιλούς μουσικής, δεν ισχύει το ίδιο για την πολύπλοκη μη-δημοφιλή μουσική. Στην περίπτωση αυτή, ο ερμηνευτής αφού αναλύσει πλήρως το έργο του συνθέτη, μετατρέπει το μουσικό θέμα, το οποίο περιέχει μουσικές ιδέες και εντολές για την εκτέλεσή του, σε ζωντανή αναπαράσταση. Το ερευνητικό πεδίο Music Performance Analysis, στοχεύει στη μελέτη της εκτέλεσης ενός μουσικού θέματος, παρά στο ίδιο το μουσικό θέμα. Ασχολείται με την παρατήρηση, την εξαγωγή, την περιγραφή, την ερμηνεία και τη μοντελοποίηση των μουσικών παραμέτρων της εκτέλεσης, όπως και τη ανάλυση των χαρακτηριστικών της παραγωγής και της αντίληψης της μουσικής εκτέλεσης. Διάφοροι ερευνητικοί τομείς συμβάλλουν στο Music Performance Analysis, όπως η μουσικολογία, η ψυχολογία και η επιστήμη των υπολογιστών (Computer Science) Μοντελοποίηση Ήχων (Sound Modeling) Η μουσική που παράγεται ηλεκτρονικά στη σημερινή εποχή, στηρίζεται στην επεξεργασία δειγμάτων, την πιο άμεση ψηφιακή αναπαράσταση ενός δεδομένου ήχου, αν και υπάρχουν ακόμα πιο πολλές ισχυρές αναπαραστάσεις και μοντέλα. Αυτή η προτίμηση δε σχετίζεται μόνο με την ποιότητα του ήχου που παράγεται από ένα συγκεκριμένο αλγόριθμο σύνθεσης, αλλά περισσότερο με τον έλεγχο και την εκφραστικότητά του. Για παράδειγμα, μια πολλά υποσχόμενη κατεύθυνση στηρίζεται σε σύνθεση βασισμένη στα γνωρίσματα του ήχου (feature-driven) γνωστή και ως Audio Mosaicing. Τέτοια συστήματα στηρίζονται σε φιλτράρισμα με τη βοήθεια περιφερειακών, κατάτμηση και εξαγωγή χαρακτηριστικών, αναγνώριση προτύπων, συσσώρευση και ταξινόμηση και περνούν από άκουσμα σε μάθηση μέσω μοντελοποίησης των νοητικών διαστάσεων της ανθρώπινης ακοής. 32

48 Μουσικές Διεπαφές (Music Interfaces) Στα πλαίσια των ηλεκτρονικών οργάνων είναι εφικτό να χωριστεί η πτυχή του ελέγχου ενός μουσικού οργάνου από τις δυνατότητές του στην παραγωγή ήχων. Μπορούμε να χτίσουμε τους ελεγκτές και τις διεπαφές ώστε να συλλάβουμε τις «χειρονομίες» της εκτέλεσης και τις μονάδες ήχου για να παράγουμε τους ήχους. Με αυτό το διαχωρισμό, οι δυνατότητες που δίνονται είναι εξαιρετικές. Από την εφεύρεση των πρώτων ηλεκτρονικών οργάνων έχει υπάρξει ιδιαίτερη έρευνα για την ανάπτυξη των νέων ελεγκτών με τους οποίους θα διερευνηθούν οι νέες δημιουργικές δυνατότητες και τα πρωτόκολλα επικοινωνίας για να διασυνδεθούν οι ελεγκτές με τις συσκευές παραγωγής ήχου. Υπάρχει ανοικτό έδαφος για την έρευνα στην εξέταση της διεπαφής εκτελεστή-οργάνου στο γενικό πλαίσιο της αλληλεπίδρασης ανθρώπου-υπολογιστή. Αυτός είναι ένας ερευνητικός τομέας που έχει επίσης ένα πολύ ισχυρό μουσικό συστατικό και για τον οποίο δεν είναι εύκολο να καθιερωθούν κριτήρια καθορισμού της προόδου. Μερικά από τα ενεργά ερευνητικά θέματα είναι η μελέτη των μουσικών αλγόριθμων χαρτογράφησης, η ανάπτυξη ευφυών ελεγκτών και νέων ελεγκτών για ομαδικές εκτελέσεις. Ένα σαφές παράδειγμα της μετατόπισης που λαμβάνει χώρα συσχετίζεται με το Διαδίκτυο. Το Internet γίνεται όλο και περισσότερο ένα μέσο στο οποίο παράγεται μουσική και κατά συνέπεια αποτελεί και μια νέα μουσική διεπαφή προς εξερεύνηση Ανάκτηση Πληροφορίας από τη Μουσική (Music Information Retrieval) Ο τομέας Music Information Retrieval στοχεύει στην επέκταση της κατανόησης και της χρησιμότητας των μουσικών δεδομένων, μέσω της έρευνας, της ανάπτυξης και της εφαρμογής υπολογιστικών μεθόδων και εργαλείων [Wikipedia]. Βασίζεται στη συνδυαστική χρήση θεωριών, εννοιών και τεχνικών από τη μουσική, την επιστήμη των υπολογιστών, και την επεξεργασία σημάτων. Η μουσική πληροφορία που χρησιμοποιείται στο συγκεκριμένο τομέα μπορεί να είναι είτε βιβλιογραφική, είτε έρευνες, tags, μουσικά θέματα, MIDI, ηχητικά σήματα κ.α. Με τη χρήση των τεχνικών επεξεργασίας σημάτων και εκμάθησης μηχανών, είμαστε σε θέση να εξάγουμε και να προσδιορίσουμε τις σημαντικές και χρήσιμες 33

49 πληροφορίες από τα μουσικά σήματα. Αυτές οι αυτόματα εξαγόμενες πληροφορίες μπορούν να χρησιμοποιηθούν σε πολλά από τα προβλήματα που είναι υπό μελέτη αυτή την περίοδο μέσα στην περιοχή της ανάκτησης της πληροφορίας από τη μουσική. Ήδη υπάρχουν αποτελέσματα που μπορούν να χρησιμοποιηθούν στις πρακτικές εφαρμογές και η πρόοδος είναι τόσο γρήγορα που είναι δύσκολο να προβλέψουμε τι θα συμβεί στα επόμενα έτη. Περαιτέρω αναφορά και ανάλυση για τον τομέα Music Information Retrieval, θα γίνει στο επόμενο κεφάλαιο της παρούσας διπλωματικής εργασίας Εφαρμογές της Μουσικής Τεχνολογίας Η Μουσική Τεχνολογία βρίσκει εφαρμογή κυρίως στον τομέα της εκπαίδευσης και της σύνθεσης. Η διαδικασία εκμάθησης μέσω της τεχνολογίας, μπορεί να βοηθήσει καθηγητές να διαχειρίζονται πληροφορίες στην καθημερινή τους εργασία πολύ πιο αποδοτικά. Τα λογισμικά επεξεργασίας κειμένου επιτρέπουν τη δημιουργία, την επεξεργασία και την εκτύπωση εγγράφων. Αυτό είναι ένα χρήσιμο εργαλείο για τη δημιουργία προγραμμάτων, ασκήσεων, παρουσιάσεων κλπ. Τα ηλεκτρονικά μουσικά όργανα μπορούν να οριστούν ως αυτά τα όργανα τα οποία παράγουν ήχο με ηλεκτρονικό τρόπο, παρά με ακουστικό. Δύο χαρακτηριστικά παραδείγματα είναι το synthesizer και το ψηφιακό πιάνο. Αυτά τα όργανα, έχουν σε γενικές γραμμές τρία συστατικά: ένα ελεγκτή, ένα τροποποιητή δυνατοτήτων, και μια γεννήτρια ήχου, τα οποία μπορεί να είναι είτε ξεχωριστές μονάδες ή να περιέχονται όλα μαζί σε ένα ψηφιακό πιάνο. Οι καθηγητές μουσικής απαιτείται να γνωρίζουν πως γίνονται οι συνδέσεις MIDI ανάμεσα στα όργανα, πώς να χρησιμοποιηθεί το MIDI σε μια αίθουσα διδασκαλίας και πώς να συνδέονται τα όργανα MIDI με ηλεκτρονικούς υπολογιστές. Πρέπει να μπορούν να κατανοήσουν με ποιο τρόπο δημιουργούνται μουσικοί ήχοι για ζωντανές εκτελέσεις. 34

50 Πρέπει να γνωρίζουν πως μπορούν να επιλέξουν και να τροποποιήσουν ήχους από έτοιμες βιβλιοθήκες και να δημιουργούν ήχους μέσω ενός ηλεκτρονικού μουσικού οργάνου. Οι μαθητές μπορούν να χρησιμοποιούν ηλεκτρονικά μουσικά όργανα για να δημιουργήσουν είτε απλά είτε πολύπλοκα μουσικά κομμάτια, αποκτώντας ταυτόχρονα δεξιότητα και τεχνική. Τα ηλεκτρονικά μουσικά όργανα μπορούν να χρησιμοποιηθούν σε συναυλίες ώστε να ενισχύσουν τα παραδοσιακά ακουστικά σύνολα. Μια μουσική παράσταση αποτελείται από μια σειρά από ήχους οι οποίοι παίζονται με κατάλληλο ρυθμό και δυναμικές αλλαγές. Τα δεδομένα MIDI ωστόσο, αποτελούνται από ένα «ρεύμα» πληροφοριών- νότες οι οποίες παράγονται από μια ηλεκτρονική συσκευή ελέγχου. Αυτές οι πληροφορίες μπορούν να αποθηκευτούν σειριακά ώστε να παιχτούν σε κάποια διαφορετική χρονική στιγμή. Ένας ηλεκτρονικός υπολογιστής χρησιμοποιείται για το MIDI sequencing και ένα MIDI workstation είναι ένα ηλεκτρονικό πληκτρολόγιο το οποίο έχει μια ακολουθία ενσωματωμένων δυνατοτήτων. Σήμερα, οι ακολουθίες MIDI είναι ικανές να αποθηκεύουν μεγάλες ποσότητες δεδομένων. Έχουν σχεδιαστεί να μιμούνται ένα μαγνητόφωνο πολλών καναλιών, μια έννοια γνώριμη στους μουσικούς. Ένας μουσικός μπορεί να ηχογραφήσει διαφορετικά μουσικά μέρη σε ξεχωριστά κομμάτια μιας ενορχήστρωσης MIDI. Σε αντίθεση με το μαγνητόφωνο, το MIDI sequencer δίνει στους μουσικούς ισχυρά και διαισθητικά εργαλεία, τα οποία επιτρέπουν αλλαγές και διορθώσεις χωρίς εκ νέου εγγραφή. Υπάρχουν πολλές εφαρμογές λογισμικού που διατίθενται για την υποστήριξη της μουσικής εκπαίδευσης. Αυτές οι εφαρμογές λέγονται Computer Assisted Instructional Software (CAI). Έχουν σχεδιαστεί αρκετά εμπορικά διαθέσιμα προγράμματα λογισμικού CAI, για να βοηθήσουν τους μαθητές να μάθουν μουσική θεωρία και την ιστορία της μουσικής, να βελτιώσουν τις ακουστικές τους δεξιότητες και να διανοίξουν και να τεστάρουν τις γνώσεις τους σε διάφορους τομείς. Πολυμέσο (Multimedia) είναι η ενσωμάτωση του ήχου, κειμένου, γραφικών, φωτογραφιών και βίντεο σε ψηφιακή μορφή. Οι υπολογιστές μπορούν να χρησιμοποιηθούν για να αποθηκεύσουν και να διαχειριστούν MIDI και μουσική σημειογραφία, αλλά και να δημιουργούν, να χειρίζονται και να συνδυάζουν διάφορα αντικείμενα πολυμέσων όπως 35

51 ήχο, βίντεο και γραφικά. Αυτό είναι ήδη μια νέα μορφή τέχνης σε διαδραστικά υπολογιστικά περιβάλλοντα. Η ενσωμάτωση αυτών των στοιχείων πολυμέσων σε διαδραστικά υπολογιστικά περιβάλλοντα παρέχει πλούσιους εκπαιδευτικούς πόρους για την υποστήριξη της διδασκαλίας μουσικής. Τα συστήματα τα οποία «προτείνουν» μουσική (Music Recommendation Systems) και ταξινομούν κατά είδος, πρέπει να πάρουν ένα μικρό αριθμό από αποφάσεις χρησιμοποιώντας ένα μεγάλο σώμα από μουσικές ηχογραφήσεις, και άρα να επεξεργαστούν μεγάλο όγκο δεδομένων σε περιορισμένο χρόνο. Η αναγνώριση της μουσικής σε πραγματικό χρόνο έχει καταστεί εφικτή καθώς τα αποτελέσματα μπορούν να ληφθούν σε κάποιες δεκάδες δευτερόλεπτα. Κάποιες εφαρμογής όπως η «Query by Music» απαιτούν συγκεκριμένα την εξαγωγή σημασιολογικών δεδομένων. Σύνθετα συστήματα, βασίζονται συχνά σε μια τεχνική κατηγοριοποίησης για τη συσσώρευση στοιχείων σε μια βάση δεδομένων. Οι ταξινομητές πολύ συχνά χρησιμοποιούν την εξαγωγή χαρακτηριστικών των σημάτων σε περιορισμένα χρονικά τμήματα. Η ταχύτητα είναι η πιο σημαντική απαίτηση για τις μηχανές αναζήτησης Βασικές Έννοιες Ακουστικής Μερικές από τις βασικές έννοιες της ακουστικής, οι οποίες αναλύονται παρακάτω, είναι ο ήχος (sound), η ηχηρότητα (loudness), το μουσικό ύψος του ήχου (pitch), το ηχόχρωμα (timbre), το articulation, και ο ρυθμός (rhythm) Ήχος (Sound) Ως ήχος μπορεί να οριστεί μια διάδοση κυμάτων στον αέρα ή άλλο ελαστικό μέσο (ερέθισμα) ή ως εκείνη η διέγερση του μηχανισμού ακρόασης που οδηγεί στην αντίληψη ενός ήχου (αίσθηση). Το ποιος ορισμός ισχύει, εξαρτάται από το εάν η προσέγγιση είναι φυσική ή ψυχοφυσική. Ο τύπος του προβλήματος υπαγορεύει και την προσέγγιση στον ήχο. Εάν το ενδιαφέρον είναι στη διαταραχή στον αέρα που δημιουργείται από ένα 36

52 μεγάφωνο, τότε η μελέτη του ήχου ανάγεται σε ένα φυσικό πρόβλημα. Εάν το ενδιαφέρον είναι πώς ηχεί σε ένα πρόσωπο πλησίον στο μεγάφωνο, τότε θα πρέπει να χρησιμοποιηθούν ψυχοφυσικές μέθοδοι. Οποιοσδήποτε ήχος, ό,τι είδους κι αν είναι, προκαλείται από μια δόνηση. Χωρίς δόνηση, δε μπορεί να υπάρξει κανένας ήχος. Το δονούμενο σώμα αναγκάζει τα μόρια αέρα γύρω του να δονηθούν και εκείνα τα μόρια αέρα με τη σειρά τους, αναγκάζουν τα μόρια δίπλα τους να δονηθούν. Κατά αυτό τον τρόπο, μια διαταραχή του αέρα κινείται από την πηγή του ήχου και μπορεί τελικά να φτάσει στα αυτιά ενός ακροατή. Όταν ακούμε ένα ήχο, ο αέρας που φτάνει στα τύμπανά μας, δονείται αναγκάζοντας τα να δονηθούν επίσης. Αυτές οι δονήσεις ανιχνεύονται και αναλύονται από τον εγκέφαλό μας. Αν και συνήθως ο αέρας ενεργεί ως διαβιβάζον μέσο, ο ήχος μπορεί να διαβιβαστεί και από άλλα μέσα, π.χ. στερεά, υγρά. Ο ήχος δεν αποτελείται από τον αέρα που κινείται προς εμάς, αλλά ταξιδεύει μέσω του αέρα ως ένα ηχητικό κύμα. Ένα ηχητικό κύμα αποτελείται από μια διαταραχή που κινείται από μια πηγή προς τις περιβάλλουσες θέσεις με αποτέλεσμα η ενέργεια να μεταφέρεται από μια θέση σε μια άλλη. Για την παραγωγή ήχου χρειάζεται μια συσκευή η οποία μπορεί να προκαλέσει τα μόρια στον αέρα να συμπιεστούν μαζί και στη συνέχεια να τους επιτρέψει να διασπαστούν ξανά. Ευτυχώς, κάθε μουσικό όργανο, ταιριάζει σε αυτή την περιγραφή. Για παράδειγμα, ας πάρουμε την χορδή μιας κιθάρας. Μια χορδή πάλλεται όταν απομακρύνεται από τη θέση ηρεμίας της. Όταν απελευθερώνουμε τη χορδή, η ένταση την επαναφέρει στην θέση ηρεμία της. Όσο η χορδή μετακινείται προς τα εμπρός, τα μόρια αέρα μπροστά από τη χορδή πιέζονται μαζί. Αυτές οι περιοχές του αέρα στην οποία τα μόρια έχουν συμπιεστεί μαζί ονομάζονται πυκνώσεις (compressions). Αυτά τα συμπιεσμένα μόρια αέρα διασπώνται και προκαλούν μια πύκνωση. Τα μόρια σε αυτή την πύκνωση διασπώνται περαιτέρω και ο κύκλος συνεχίζεται. Η ενέργεια που προσδίδεται στα μόρια μεταφέρεται μέσω του αέρα. 37

53 Όσο αυτή η συμπίεση μεταφέρεται μέσω του αέρα, η χορδή της κιθάρας συνεχίζει να κινείται. Στη συνέχεια, αφού η χορδή έχει φτάσει το πλέον πρόσθιο σημείο της, η ένταση στη χορδή την τραβά προς τα πίσω, στη θέση ηρεμίας της. Μέχρι τώρα, όμως, η εμπρόσθια κίνηση της χορδής έχει εξαφανίσει πολλά από τα μόρια στο μπροστινό μέρος της χορδής, αφήνοντας μια περιοχή μπροστά από τη χορδή στην οποία υπάρχουν λιγότερα μόρια αέρα από πριν. Τέτοιες περιοχές, οι οποίες είναι πρακτικά το αντίθετο των πυκνώσεων, λέγονται αραιώσεις (rarefactions). Εικόνα 43. (a) Η χορδή κινείται προς τα εμπρός δημιουργώντας πυκνώσεις, και (b) η χορδή κινείται προς τα πίσω δημιουργώντας αραιώσεις. Καθώς η ένταση της χορδής τραβάει τη χορδή προς τα εμπρός, ο κύκλος ξεκινά ξανά. Η κίνηση της χορδής θα υποχωρήσει σταδιακά λόγω δυνάμεων όπως η τριβή. Όσο η χορδή κινείται μπροστά και πίσω, δημιουργεί μια σειρά από πυκνώσεις και αραιώσεις που διαδίδονται μέσω του αέρα. Αυτός ο τύπος ηχητικού κύματος, κατά τον οποίο η διαταραχή του μέσου είναι στην ίδια κατεύθυνση όσο το κύμα διαδίδεται, ονομάζεται κύμα συμπίεσης [Dan Hosken, 2010]. Οι αραιώσεις και οι πυκνώσεις κινούνται στην κατεύθυνση διάδοσης των κυμάτων. Τα μόρια του μέσου δεν κινούνται ομαδικά στην κατεύθυνση της μετακίνησης κυμάτων, δονούνται γύρω από τις κανονικές θέσεις τους. Κάθε πλήρης δόνηση ενός μορίου ονομάζεται κύκλος. 38

54 Ο αριθμός κύκλων που ολοκληρώνονται σε ένα δευτερόλεπτο ονομάζεται συχνότητα της δόνησης. Το φάσμα της ανθρώπινης ακοής εκτείνεται προσεγγιστικά από τα 20Hz έως τα 20kHZ. Αυτό το φάσμα συχνοτήτων έχει εύρος ίσο με περίπου 10 οκτάβες από τον χαμηλότερο αντιληπτό τόνο ως τον υψηλότερο. Οι συχνότητες των νοτών που μπορούν να παιχτούν σε ένα πιάνο κυμαίνονται από 27.5Hz και φτάνουν πάνω από τα 4kHz. Εικόνα 44. Συχνότητες νοτών στο πιάνο. Οποιαδήποτε νότα παίζεται σε ένα πιάνο θα ηχήσει διαφορετικά από μια νότα του ίδιου τόνου που παράγεται από ένα άλλο τύπο οργάνου. Η μουσική νότα που παράγεται με έναν συντονισμό λέγεται καθαρός τόνος (pure tone), επειδή αποτελείται από ένα τόνο μιας συχνότητας. Μια νότα που παίζεται σε ένα πιάνο, ή στα περισσότερα άλλα όργανα, αποτελείται από διάφορους τέτοιους τόνους που ηχούν μαζί σε διαφορετικές συχνότητες. Αυτές οι συχνότητες συσχετίζονται με τη συχνότητα που δίνει στη νότα το χαρακτηριστικό τόνο της, η οποία είναι συνήθως η χαμηλότερη. Οι κυματομορφές μουσικής ή ομιλίας απέχουν πολύ από τη μορφή του απλού ημιτόνου. Είναι όμως πολύ ενδιαφέρον το γεγονός ότι όσο πολύπλοκο κι αν είναι ένα κύμα, αν είναι περιοδικό, μπορεί να περιγραφεί ως άθροισμα ημιτονικών όρων διαφορετικών συχνοτήτων, φάσεων και πλάτους. Ο ημιτονικός όρος με τη χαμηλότερη συχνότητα καλείται θεμελιώδης (fundamental). Οι άλλοι όροι καλούνται partials. Εάν οι αρμονικοί ήχοι έχουν συχνότητες που είναι ακέραια πολλαπλάσια της θεμελιώδους συχνότητας καλούνται αρμονικές (harmonics). 39

55 Μουσικό ύψος του ήχου (Pitch) Pitch είναι μια μέτρηση του ήχου η οποία γίνεται από το ανθρώπινο μυαλό. Το μουσικό ύψος του ήχου μπορεί επομένως να περιγραφεί ως αντιληπτική ιδιότητα του ήχου. Η παρακάτω κυματομορφή δείχνει τι συμβαίνει στα μόρια του αέρα όταν αυτά διαταράσσονται από κάτι που δονείται: Εικόνα 45. Η κυματομορφή του ήχου. Η παραπάνω κυματορμοφή λοιπόν είναι μια φυσική αναπαράσταση, όχι διαισθητική. Κάθε μια από τις βασικές έννοιες της ακουστικής είναι διαισθητικές. Η φυσική ιδιότητα που σχετίζεται με το pitch, είναι η συχνότητα. Η συχνότητα μετριέται από τον αριθμό των κύκλων πυκνώσεων και αραιώσεων που συμβαίνουν κάθε δευτερόλεπτο. Η περίοδος είναι το αντίστροφο της συχνότητας και μετριέται σε δευτερόλεπτα ανά κύκλο. Αναπαριστούμε την περίοδο με το γράμμα Τ. Εικόνα 46. Κυματομορφή που δείχνει την περίοδο μιας κυματομορφής η οποία μετράται από δυο διαφορετικά σημεία εκκίνησης. 40

56 Όσο η περίοδος μειώνεται, η συχνότητα αυξάνεται, και όσο η περίοδος αυξάνεται, η συχνότητα μειώνεται. Αν σκεφτούμε μια δονούμενη χορδή, αυτό φαίνεται λογικό. Όσο περισσότερο παίρνει για μια χορδή να μετακινηθεί πίσω και εμπρός, τόσο πιο αργά η κινείται η χορδή και τόσο πιο μικρή η συχνότητα. Εάν η χορδή χρειάζεται λιγότερο χρόνο να μετακινηθεί εμπρός και πίσω, τότε πρέπει να κινείται πιο γρήγορα έτσι η συχνότητα θα είναι μεγαλύτερη Ηχηρότητα (Loudness) Η διαισθητική έννοια της ηχηρότητας σχετίζεται με τη φυσική ιδιότητα του πλάτους (amplitude). Το πλάτος καθορίζεται από το πόσο η πίεση του αέρα σε πύκνωση ή αραίωση, αποκλίνει από την κανονική πίεση του αέρα. Στην περίπτωση ενός έγχορδου οργάνου, όσο περισσότερο πάλλεται η χορδή, τόσο μακρύτερα κινείται η χορδή από την κανονική θέση και τόσο μεγαλύτερη είναι η απόκλιση στην πίεση του αέρα από το κανονικό σε πύκνωση ή αραίωση. Τα όργανα όπως τα κρουστά, παράγουν μεγαλύτερο εύρος με τον ίδιο τρόπο. Για τα πνευστά όργανα, όσο μεγαλύτερο είναι η ροή του αέρα, τόσο περισσότερο τα μόρια του αέρα μαζεύονται μαζί, και τόσο μεγαλύτερο το πλάτος του ηχητικού κύματος. Στην παρακάτω κυματομορφή, το πλάτος μετριέται από τον άξονα x έως την κορυφή ώστε να αναπαριστά την απόκλιση της πίεσης του αέρα από το κανονικό. Εικόνα 47. Κυματομορφή που δείχνει το πλάτος. 41

57 Μέχρι τώρα, αναφερόμαστε στο πλάτος σχετικά με την απόκλιση της πίεσης του αέρα από το κανονικό σε πύκνωση ή αραίωση. Αυτή η μέτρηση του πλάτος δίνεται συνήθως σε σχέση με μια τιμή αναφοράς, με αποτέλεσμα ένα επίπεδο ηχητικής πίεσης. Αυτό το επίπεδο εκφράζεται σε μονάδες γνωστές ως decibels (db). Υπάρχουν πολλά διαφορετικά είδη μετρήσεων decibel στη μουσική τεχνολογία. Όπως και με τη συχνότητα, το εύρος της ανθρώπινης ακοής για την ηχηρότητα, περιορίζεται σε ένα μόνο μέρος του πλήρους φάσματος των πιθανών επιπέδων ηχητικής πίεσης. Ο πιο σιγανός ήχος δίνεται ως 0db, το οποίο είναι το όριο της ανθρώπινης ακοής. Η τιμή «0» δεν σημαίνει πως δεν υπάρχει πίεση στο ηχητικό κύμα, απλά ότι η ηχητική πίεση του κύματος συμπίεσης που μετράμε, είναι ίδια με την ηχητική πίεση του κύματος συμπίεσης το οποίο προσδιορίστηκε πειραματικά ότι είναι το πιο σιγανό που μπορεί να ακούσει το ανθρώπινο αυτί. Οποιοδήποτε κύμα συμπίεσης με χαμηλότερη πίεση ή ένταση θα μετριόταν σε αρνητικά decibels και δε θα ήταν αντιληπτό από τον άνθρωπο. Ο πιο δυνατός ήχος που μπορεί να «ανεχθεί» το ανθρώπινο αυτί είναι περίπου 120db και αναφέρεται ως το κατώφλι του πόνου. Οτιδήποτε πάνω από αυτό είναι σωματικά επώδυνο και επιζήμιο για την ακοή μας. Ωστόσο, είναι σημαντικό να σημειωθεί ότι η παρατεταμένη έκθεση σε επίπεδα ηχητικής πίεσης σημαντικά χαμηλότερα από το όριο αυτό, μπορούν να προκαλέσουν βλάβες στην ακοή. Τα decibels χρησιμοποιούνται όταν εκφράζουν επίπεδα ηχητικής πίεσης επειδή μειώνουν ένα ευρύ φάσμα αριθμών, σε ένα διαχειρίσιμο φάσμα. Η ανθρώπινη ακοή είναι πολύ ευαίσθητη με αποτέλεσμα μία αναλογία της έντασης το ήχου στο κατώφλι του πόνου, προς την ένταση του ήχου στο όριο της ακοής περίπου προς 1. Μικρές αλλαγές σε τιμές decibel επομένως, μπορεί να αντανακλούν μεγάλες αλλαγές στην πραγματική ένταση του ήχου. Μια αλλαγή κατά 3db υποδεικνύει ένα διπλασιασμό της μέτρησης της έντασης. Ωστόσο, όσον αφορά την αντίληψη μας για τα decibel, μια αύξηση της τάξης των 10db ακούγεται περίπου δύο φορές πιο δυνατά. Μια άλλη διαφορά μεταξύ των φυσικών μετρήσεων και της αντίληψης, είναι η διαφορά στα αντιληπτά επίπεδα έντασης ήχου για ήχους διαφορετικών συχνοτήτων. Είμαστε πιο ευαίσθητοι σε συχνότητες μεταξύ 1kHz και 42

58 5kHz, έτσι ώστε αυτοί οι ήχοι να απαιτούν λιγότερη ένταση, και ως εκ τούτου λιγότερα decibels να ακούγονται τόσο δυνατά όσο ήχοι μικρότερων συχνοτήτων. Η ευαισθησία μας σε αυτό το εύρος συχνοτήτων έχει λογική, δεδομένου ότι μια σειρά συμφώνων στη γλώσσα μας έχουν «σημαντική» ενέργεια σε αυτό το εύρος. Εικόνα 48. Ερμηνεία των αριθμών. Εικόνα 49. Επίπεδα ηχηρότητας σε σχέση με τη συχνότητα. 43

59 Ηχόχρωμα (Timbre) Η διαισθητική ιδιότητα του ηχοχρώματος σχετίζεται με τη φυσική ιδιότητα της μορφής ενός κύματος, της κυματομορφής δηλαδή. Το ηχόχρωμα σχετίζεται επίσης με τη φυσική ιδιότητα του ηχητικού φάσματος. Μέχρι τώρα έχει θεωρηθεί πως το δονούμενο αντικείμενο πραγματοποιεί τις πιο απλές κινήσεις. Η μορφή που παράγεται από την απλή πίσω-εμπρός κίνηση, λέγεται ημιτονοειδές κύμα. Ένα αντικείμενο στον πραγματικό κόσμο, κινείται σπάνια με απλό τρόπο. Τυπικά, η εμπρός-πίσω κίνηση θα είναι πιο πολύπλοκη, με αποτέλεσμα ένα εξίσου πολύπλοκο γράφημα με μεταβαλλόμενη ένταση συναρτήσει του χρόνου. Στην παρακάτω εικόνα βλέπουμε μια κυματομορφή μιας τρομπέτας. Εικόνα 50. Κυματομορφή μιας τρομπέτας. Είναι δύσκολο να γίνουν πολλές γενικεύσεις, σχετικά με τις κυματομορφές των πραγματικών μέσων, έτσι η όψη της κυματομορφής είναι λίγο περιορισμένη στο τι μπορεί να μας πει σχετικά με το ηχόχρωμα. Επιπλέον, το ηχόχρωμα είναι ένα περίπλοκο φαινόμενο και μπορεί να επηρεαστεί από τις άλλες βασικές έννοιες της ακουστικής (ηχηρότητα, μουσικό ύψος του ήχου) και το συνολικό ηχητικό πλαίσιο (τι παίζουν τα υπόλοιπα όργανα, αν είναι θορυβώδη κλπ.). Παραπάνω αναφερθήκαμε σε μια μορφή, η οποία προκύπτει από την κίνηση του αντικειμένου που δονείται, το ημιτονοειδές κύμα. Υπάρχουν και άλλες κυματομορφές, όπως το τριγωνικό κύμα, το «πριονοειδές» κύμα, το τετραγωνικό κύμα, και μια ειδική έκδοση του τετραγωνικού κύματος, το παλμικό κύμα κ.α. Στην παρακάτω εικόνα βλέπουμε αναπαραστάσεις από διάφορα είδη κυματομορφών. 44

60 Εικόνα 51. Βασικές κυματομορφές: (a) ημιτονοειδής, (b) τριγωνική, (c) πριονοειδής, (d) τετραγωνική, (e) παλμική. Αυτές οι κυματομορφές είναι αρκετά σχετικές μιας και αποτελούν τη βάση για τους πρώτους αναλογικούς ήχους των synthesizers. Αυτό μπορεί να φαίνεται ιστορικά ασήμαντο, αλλά πολλά από τα σημερινά λογισμικά synthesizers χρησιμοποιούν τεχνικές αναλογικής μοντελοποίησης, για να παράγουν ήχο. Σήμερα ακόμη, κατασκευάζονται κάποια πραγματικά αναλογικά synthesizers που εξακολουθούν να χρησιμοποιούνται για ηχογράφηση από πολλά μουσικά συγκροτήματα. Έχει παρατηρηθεί μάλιστα μια γενικότερη τάση προς τον αναλογικό ήχο και την αναλογική ηχογράφηση τα τελευταία χρόνια. Ο όρος «αναλογική μοντελοποίηση» χρησιμοποιείται για να περιγράψει μεθόδους ψηφιακής σύνθεσης που έχουν σχεδιαστεί ώστε να μιμούνται τις πρωτότυπες τεχνικές αναλογικής σύνθεσης. Μια άλλη τυπική κυματομορφή είναι αυτή που δεν έχει καθόλου μοτίβο: ο θόρυβος. Ο θόρυβος βέβαια, βρίσκεται γύρω μας σε πάρα πολλές μορφές, έτσι είναι παρόν και στους μουσικούς ήχους. Είναι ένα σημαντικό ηχητικό συστατικό κατά την φάση που ένα όργανο θα «παιχτεί», όχι μόνο στις κιθάρες, τις φλογέρες, τα βιολιά, αλλά και στα κρουστά όπως τα κύμβαλα και τα snare drums. Ο θόρυβος ήταν επίσης μια σημαντική πηγή ήχου στα αναλογικά synthesizers και χρησιμοποιείται ακόμη και σήμερα σε αναλογική σύνθεση και σε μοντελοποίηση αναλογικής σύνθεσης. Ο θόρυβος μπορεί να έχει μια ποικιλία από χαρακτηριστικά που 45

61 περιγράφονται συνήθως ως χρώματα, όπως ο λευκός θόρυβος και ο ροζ θόρυβος. Χαρακτηριστικές κυματομορφές για το λευκό και τον ροζ θόρυβο φαίνονται στην παρακάτω εικόνα. Εικόνα 52. (a) λευκός θόρυβος, (b) ροζ θόρυβος. Η παραπάνω εικόνα δείχνει μόνο αντιπροσωπευτικές κυματομορφές του λευκού και το ροζ θορύβου, μιας και ο θόρυβος δεν έχει προβλέψιμο μοτίβο ως προς το πλάτος Articulation Η διαισθητική ιδιότητα του articulation αναφέρεται στο πως η ηχηρότητα του ήχου αλλάζει στο χρόνο. Για παράδειγμα, η ηχηρότητα μιας τονισμένης νότας ανεβαίνει πιο γρήγορα από την ησυχία στη μέγιστη ηχηρότητα, σε σχέση με μια μη τονισμένη νότα. Μια νότα η οποία είναι staccato θα έχει μια γρήγορη αύξηση και μετά μια ξαφνική πτώση στο τέλος. Το articulation δεν περιορίζεται μόνο σε μουσικές νότες. Η ηχηρότητα των μη-μουσικών ήχων γύρω μας αλλάζει με το χρόνο. Ένας κεραυνός έχει ένα ξαφνικό «άλμα» στην ένταση του ήχου, ακολουθούμενο από μια μακρά πτώση. Μια μοτοσυκλέτα που πλησιάζει προς το μέρος ενός ανθρώπου, έχει μια μακρά, αργή αύξηση στην ένταση ακολουθούμενη από μια μακρά μείωση καθώς περνάει τον άνθρωπο και συνεχίζει. Κάθε ένας από αυτούς τους ήχους έχει το δικό του articulation. Όταν αναφερθήκαμε παραπάνω στην ηχηρότητα, τη συσχετίσαμε με το πλάτος μιας κυματομορφής, της οποίας η διάρκεια ήταν αρκετά μικρή. Οι αλλαγές της ηχηρότητας στο articulation λαμβάνουν χώρα σε πολύ μεγαλύτερα χρονικά διαστήματα. 46

62 Ρυθμός (Rhythm) Ρυθμός είναι μια διαισθητική ιδιότητα της οποίας η αντίστοιχη φυσική ιδιότητα είναι πολύπλοκη, επειδή ο ρυθμός αποτελείται από πολλαπλές νότες ή ήχους. Ο ρυθμός είναι παρόμοιος με τη μελωδία, η οποία επίσης αποτελείται από πολλαπλές νότες. Υπάρχουν διαφορετικά επίπεδα για το ρυθμό, ξεκινώντας από ένα μόνο ήχο που έχει το δικό του εσωτερικό ρυθμό, και καταλήγοντας σε μια ομάδα από νότες οι οποίες σχηματίζουν ένα ρυθμικό μοτίβο. Σε ένα σύνολο από νότες, πτυχές του ρυθμού μπορούν να φανούν σε μια κυματομορφή με τον προσδιορισμό προτύπων σε κάθε νότα, τα οποία ονομάζονται παροδικά μοτίβα. Μερικοί τύποι ήχου, όπως των drums, σχηματίζουν μοτίβα τα οποία έχουν εναλλαγές στην ένταση και καθόλου διατήρηση (sustain), ενώ άλλοι ήχοι, όπως πνευστά, ή χορδές, σχηματίζουν μοτίβα στα οποία είναι δύσκολο να παρατηρήσουμε αυτή την εναλλαγή στην ένταση. Εικόνα 53. Η εναλλαγές στην "ένταση" σε μια κυματομορφή. Η ανάλυση αυτών των εναλλαγών ως ένα μοτίβο από ρυθμού είναι ένα κλασσικό χαρακτηριστικό γνώρισμα σε πολλά προγράμματα ηχογράφησης και αναφέρεται γενικά ως ανίχνευση ρυθμού (beat detection). 47

63 Εικόνα 54. Ανίχνευση ρυθμού (beat detection). Αυτή η διαδικασία, επιτρέπει στον χρήστη να χειριστεί τον ήχο ως ξεχωριστά λογικά κομμάτια, με τον ίδιο τρόπο με τον οποίο μπορεί να χειριστεί τις νότες. Με αυτό τον τρόπο μπορεί ο χρήστης να αλλάξει τον ρυθμό ενός τραγουδιού με «φυσικό» τρόπο. Πολλά προγράμματα ηχογράφησης μπορούν να εξάγουν πληροφορία για το ρυθμό, και να την εφαρμόσει ο κάθε χρήστης σε άλλα αρχεία ήχου και σε αρχεία MIDI. Ο ήχος ο οποίος αποτελείται από καθορισμένες εναλλαγές έντασης σε ένα απλοϊκό μοτίβο, καθιστά αυτόματα τον ήχο πιο εύκολο για τον άνθρωπο να τον αναλύσει μέσω κάποιου λογισμικού. Η ακολουθία από νότες τύπου legato (το αντίθετο του staccato), η οποία έχει λιγότερες εναλλαγές, είναι πιο δύσκολη για ανάλυση από λογισμικά επεξεργασίας ήχου. Ως συνέπεια, ένα λογισμικό το οποίο μπορεί να έχει μια πιο «πολύπλευρη» προσέγγιση στην επεξεργασία του ήχου, θα είναι σαφώς πιο επιτυχημένο σε σχέση με ένα απλό λογισμικό που βασίζεται στις έντονες εναλλαγές της έντασης Συμπεράσματα Στα προηγούμενα κεφάλαια τα οποία ανέλυαν κάθε βασική έννοια της ακουστικής, παρατηρήσαμε πως κάθε μια έννοια από αυτές, δίνει και μια ξεχωριστή ιδιότητα στον ήχο. 48

64 Μάλιστα κάθε μια έννοια γίνεται πιο κατανοητή, αν την αντιστοιχίσουμε σε μια φυσική ιδιότητα η οποία έχει και φυσική αναπαράσταση, μέσω κυματομορφής. 49

65 Κεφάλαιο 4 4. Music Information Retrieval 4.1 Ορισμός Στα προηγούμενα δύο κεφάλαια, παρουσιάστηκαν εκτενώς οι έννοιες της Ανάκτησης Πληροφορίας (Information Retrieval) και της Μουσικής Τεχνολογίας (Music Technology). Το Music Information Retrieval συνδυάζει αυτούς τους δύο ερευνητικούς τομείς, και έχει ως σκοπό την Ανάκτηση Πληροφορίας από τη Μουσική. Σχετικά με τη μουσική, υπάρχει ένα μεγάλο ποσό ψηφιοποιημένων δεδομένων, καθώς και μια ποικιλία από σχετικές αναπαραστάσεις των δεδομένων, οι οποίες περιγράφουν τη μουσική σε διάφορα σημασιολογικά επίπεδα. Συνήθως, οι ψηφιακές μουσικές συλλογές περιέχουν ένα μεγάλο αριθμό σχετικών ψηφιακών «εγγράφων» για ένα μουσικό έργο, τα οποία δίνονται σε διάφορες ψηφιακές μορφές και πολλαπλές αναπαραστάσεις. Για παράδειγμα, στην περίπτωση της 5 ης Συμφωνία του Beethoven μια ψηφιακή μουσική βιβλιοθήκη, μπορεί να περιέχει τις σαρωμένες σελίδες κάποιας συγκεκριμένης έκδοσης του «μουσικού θέματος». Ή μπορεί το «μουσικό θέμα» να δίνεται σε μια ψηφιακή μουσική αναπαράσταση, η οποία πρακτικά μπορεί να είναι μια ψηφιοποίηση της παρτιτούρας. Επιπλέον, η βιβλιοθήκη μπορεί να περιέχει διαφορετικές ηχογραφήσεις διασκευές του συγκεκριμένου έργου. Αυτές οι διαφορετικές ηχογραφήσεις ενός έργου, έχουν συχνά μεγάλες διαφορές στις ιδιότητες της Ακουστικής, όπως ο ρυθμός, η ηχηρότητα, το articulation κλπ. Όπως φαίνεται από το παράδειγμα του Beethoven, υπάρχουν διάφορες ψηφιακές αναπαραστάσεις ενός μουσικού έργου, οι οποίες διαφέρουν ως προς τη μορφή και το περιεχόμενο. Στο ερευνητικό πεδίο Music Information Retrieval, έχουν καταβληθεί μεγάλες 50

66 προσπάθειες ως προς την ανάπτυξη τεχνολογιών που επιτρέπουν στους χρήστες να έχουν πρόσβαση και να εξερευνούν τη μουσική. Για παράδειγμα, κατά την αναπαραγωγή κάποιου CD, μια ψηφιακή συσκευή αναπαραγωγής μουσικής του μέλλοντος, θα παρουσιάζει τη μουσική του συγκεκριμένου έργου, παράλληλα με τη θέση του εκείνη τη στιγμή στην παρτιτούρα. Μπορεί επίσης αυτή η ψηφιακή συσκευή να παρέχει στο χρήστη παραπάνω πληροφορίες, όπως την μελωδική και την αρμονική εξέλιξη ή τον ρυθμό με αυτόματο τρόπο. Μια κατάλληλη διεπαφή χρήστη, παρουσιάζει τη μουσική δομή του τρέχοντος μουσικού κομματιού και επιτρέπει στο χρήστη να μεταβεί απευθείας σε οποιοδήποτε χρονικό σημείο του μουσικού έργου χωρίς προβλήματα στην αναπαραγωγή. Επιπλέον, ο ακροατής είναι εξοπλισμένος με μια μηχανή αναζήτησης, παρόμοια με αυτή της Google, η οποία του επιτρέπει να εξερευνήσει ολόκληρη τη μουσική συλλογή με διάφορους τρόπους: ο χρήστης εισάγει ένα query, καθορίζοντας μια συγκεκριμένη ακολουθία από νότες ή κάποια αρμονία ή ένα ρυθμικό μοτίβο ή τραγουδώντας μια μελωδία ή απλά επιλέγοντας ένα μικρό κομμάτι της ηχογράφησης. Το σύστημα, στη συνέχεια, παρέχει στο χρήση μια ταξινομημένη λίστα με όλα τα διαθέσιμα μουσικά αποσπάσματα από τη μουσική συλλογή, τα οποία σχετίζονται με το query που έδωσε. Για παράδειγμα, δίνοντας ένα query το οποίο περιέχει ένα απόσπασμα 20 δευτερολέπτων της διασκευής του Bernstein στην 5 η Συμφωνία του Beethoven, το σύστημα θα επιστρέψει ως αποτέλεσμα όλα τα αντίστοιχα μουσικά clips που βρίσκονται στη βάση δεδομένων. Τα αποτελέσματα θα περιλαμβάνουν και το μουσικό clip της αυθεντικής εκτέλεσης, αλλά και όλα τα μουσικά clips των διασκευών που έχουν γίνει στην 5 η Συμφωνία του Beethoven. Μια προηγμένη μηχανή αναζήτησης, είναι επίσης σε θέση να αναγνωρίζει με αυτόματο τρόπο το μουσικό θέμα, ακόμη και με την παρουσία σημαντικών «μεταβολών», επιτρέποντας έτσι την επιστροφή αποτελεσμάτων όπως pop, ηλεκτρονικές διασκευές στην 5 η Συμφωνία του Beethoven. Αν και έχει σημειωθεί σημαντική πρόοδος στην ανάπτυξη προηγμένων συσκευών αναπαραγωγής μουσικής, υπάρχουν ακόμα πολλά άλυτα προβλήματα στην βασισμένη στο περιεχόμενο (content-based) αναζήτηση και ανάκτηση μουσικής, τα οποία οφείλονται στην ανομοιογένεια και την πολυπλοκότητα των μουσικών δεδομένων. Στην περίπτωση 51

67 μας, content-based σημαίνει ότι στη σύγκριση των μουσικών δεδομένων, το σύστημα κάνει χρήση μόνο των ακατέργαστων δεδομένων (raw data), αντί να βασίζεται στα χειροκίνητα μουσικά μεταδεδομένα όπως λέξεις κλειδιά, ή άλλες συμβολικές περιγραφές. Ενώ η βασισμένη σε κείμενο (text based) ανάκτηση μουσικών εγγράφων χρησιμοποιώντας το όνομα του συνθέτη, τους στίχους, μπορεί να είναι εύκολα διαχειρίσιμη από μια κλασσική βάση δεδομένων, η καθαρά content-based ανάκτηση μουσικής αποτελεί ένα δύσκολο ερευνητικό πρόβλημα. Μερικά προβλήματα είναι τα εξής: Πως πρέπει να σχεδιαστεί ένα σύστημα ανάκτησης, αν το query του χρήση είναι μια τραγουδισμένη μελωδία, ή ένα σύντομο απόσπασμα από κάποιο CD? Πως μπορεί μια παρτιτούρα να συγκριθεί με μια κυματομορφή που προέρχεται από ένα μουσικό απόσπασμα ενός CD? Ποιες είναι οι καλύτερες μετρικές για την ομοιότητα μουσικών αποσπασμάτων, ώστε να μπορούν να επιστρέφονται ως αποτέλεσμα διασκευές ενός τραγουδιού? Πως μπορεί η μουσική δομή, η οποία αντικατοπτρίζεται από επαναλαμβανόμενα μουσικά μοτίβα να προέρχεται αυτόματα από μια ηχογράφηση CD? Οι ερωτήσεις αυτές αντικατοπτρίζουν μόνο ένα μικρό μέρος των σημερινών θεμάτων έρευνας του τομέα Music Information Retrieval, τα οποία είναι στενά συνδεδεμένα με την αυτόματη ανάλυση της μουσικής. Την τελευταία δεκαετία, ο τομέας του Music Information Retrieval έχει γίνει ένα πεδίο ενεργής και πολυεπιστημονικής έρευνας. Βασικά προβλήματα του Music Information Retrieval αφορούν τον χειρισμό και ανάκτηση μουσικής, την αυτοματοποιημένη αναγνώριση και ταξινόμηση μουσικής, το σχεδιασμό και εξόρυξη μουσικών χαρακτηριστικών και την ανάπτυξη νέων user interfaces πιο φιλικά προς το χρήστη. Λόγω της πολυμορφίας και της ποσότητας της μουσικής, η έρευνα στο Music Information Retrieval φέρνει σε επαφή εμπειρογνώμονες από πλήθος διαφόρων ερευνητικών πεδίων που κυμαίνονται από την επιστήμη των υπολογιστών, του audio engineering, της επιστήμης της πληροφορίας, της μουσικολογίας, της θεωρίας της μουσικής κ.α. 52

68 4.2 Βασικές Αρχές των Δεδομένων Ήχου Στο 3 ο κεφάλαιο αναφερθήκαμε σε διάφορες αναπαραστάσεις της μουσικής όπως οι παρτιτούρες, οι ταμπλατούρες, τα MIDI αρχεία κλπ. Ο σκοπός του συγκεκριμένου κεφαλαίου είναι η ανάλυση που βασίζεται στο περιεχόμενο (content-based analysis) και η τεχνικές ανάκτησης για μουσική και δεδομένα ήχου. Για να γίνουν πιο κατανοητές αυτές οι έννοιες γίνεται πρώτα μια παρουσίαση των εννοιών της παρτιτούρας, του MIDI, και της μορφής audio Μουσικές Αναπαραστάσεις Οι σύγχρονες ψηφιακές βιβλιοθήκες μουσικής περιέχουν δεδομένα κειμένου, εικόνας, και ήχου. Μεταξύ αυτών των τύπων πολυμέσων, τα δεδομένα μουσικής παρουσιάζουν αρκετά προβλήματα, μιας και μουσική πληροφορία αναπαρίσταται σε διάφορες μορφές δεδομένων. Αυτές οι μορφές, ανάλογα την εφαρμογή, διαφέρουν ριζικά σε δομή και περιεχόμενο. Σε αυτό το κεφάλαιο παρουσιάζονται τρεις ευρέως χρησιμοποιούμενες μορφές για την αναπαράσταση των δεδομένων μουσικής: Η παρτιτούρα η οποία περιέχει πληροφορία για τις νότες κ.α., η μορφή audio που κωδικοποιεί την κυματομορφή ενός σήματος ήχου που χρησιμοποιείται σε CD, και τέλος η μορφή MIDI η οποία μπορεί να θεωρηθεί ως ένα υβρίδιο των δύο προηγούμενων μουσικών αναπαραστάσεων Παρτιτούρα (Musical Score) Μια παρτιτούρα, δίνει μια συμβολική περιγραφή ενός μουσικού κομματιού. Η παρτιτούρα κωδικοποιεί ένα μουσικό έργο σε μια «επίσημη γλώσσα» και το απεικονίζει σε γραφική μορφή και σε κείμενο. Στην παρακάτω εικόνα φαίνονται τα πέντε πρώτα μέτρα της 5 ης Συμφωνίας του Beethoven. 53

69 Εικόνα 55. Παρτιτούρα που περιέχει τα 5 πρώτα μέτρα της 5ης Συμφωνίας του Beethoven. Σε μια παρτιτούρα η μουσική αναπαρίσταται από νότες, στις οποίες δίνονται κάποια χαρακτηριστικά όπως η διάρκεια, οι δυναμικές, το articulation, το μουσικό ύψος του ήχου κλπ. Ο ρυθμός καθορίζεται από συμβολισμούς κειμένου όπως Allegro con brio ή Andante con moto. Αντίστοιχα, η ηχηρότητα και οι δυναμικές περιγράφονται από όρους όπως piano, forte, crescendo, diminuendo. Η παρτιτούρα μπορεί να θεωρηθεί ως ένα πρόχειρος οδηγός για την μουσική εκτέλεση που απαιτεί αρκετή γνώση και μεγάλη εμπειρία του μουσικού, ώστε να δημιουργήσει ένα συγκεκριμένο ηχητικό αποτέλεσμα. Συνήθως, υπάρχει πολύς χώρος για ελευθερία έκφρασης στη μουσική, η οποία συχνά οδηγεί σε διακυμάνσεις το ρυθμό, στις δυναμικές ή στο articulation. Για παράδειγμα η διάρκεια μιας παύσης (fermata) στην 5 η Συμφωνία του Beethoven μπορεί να διαφέρει αρκετά μεταξύ δύο διαφορετικών διασκευών. Έχουν προταθεί αρκετών ειδών κώδικες για την αναπαράσταση της παρτιτούρας σε μια ψηφιακή μορφή η οποία «διαβάζεται» από ένα μεταφραστή (compiler). Σε αυτό το σημείο παρουσιάζεται η μορφή απεικόνισης παρτιτούρας MusicXML, η οποία έχει υλοποιηθεί για να αποτελεί ένα καθολικό μεταφραστή της παρτιτούρας. Στην παρακάτω εικόνα βλέπουμε ένα παράδειγμα: Εικόνα 56. Κώδικας MusicXML. 54

70 Στην εικόνα παρατηρούμε τα tags. Το βασικό tag είναι το <note> το οποίο περιγράφει μια νότα, στη συνέχεια το tag <pitch> προσδιορίζει το μουσικό ύψος του ήχου, το tag <step> που παίρνει τιμή E, η οποία δείχνει πρακτικά το ύψος που πρέπει να έχει η νότα, το tag <alter> με τιμή -1, δείχνει πως το έχουμε μια E επίπεδη (E flat) και το tag <octave> με τιμή 4, είναι η 4 η οκτάβα. Στη συνέχεια το tag <duration> με τιμή 2, δείχνει τη διάρκεια της νότας, ενώ το tag <type> με τιμή half, μας δείχνει πως έχουμε να κάνουμε με ένα ημιτόνιο. Υπάρχουν πολλοί τρόποι για τη παραγωγή ψηφιακών μουσικών αναπαραστάσεων μιας παρτιτούρας. Ο πρώτος τρόπος είναι να γίνει χειροκίνητη μεταφορά της παρτιτούρας στη μορφή MusicXML, κάτι το οποίο επιφυλάσσει αρκετά πιθανά λάθη. Ο δεύτερος τρόπος είναι τα λογισμικά για ψηφιακή αναπαράσταση μουσικής (Music Notation Software), τα οποία παρέχουν στο χρήστη υποστήριξη στη συγγραφή και τροποποίηση ψηφιοποιημένης μουσικής από παρτιτούρα, στα οποία οι νότες μπορούν να εισαχθούν και να τροποποιηθούν με εύκολο τρόπο με τη χρήση ενός πληκτρολογίου, ενός ποντικιού ή ενός ηλεκτρονικού πιάνο [Meinard Müller,2007]. Δύο γνωστά προγράμματα είναι το Finale και το Sibelius. Ένας τρίτος τρόπος είναι η παραγωγή ψηφιακής παρτιτούρας από τη σάρωση εκτυπωμένης παρτιτούρας με ένα scanner το οποίο μετατρέπει πρακτικά την παρτιτούρα σε ψηφιακή εικόνα. Σε αυτό το επίπεδο, ο υπολογιστής θεωρεί αυτές τις εικόνες σαν μια συλλογή από pixels και έτσι δε μπορεί να επεξεργαστεί τη σημασιολογική πληροφορία της παρτιτούρας. Ως συνέπεια, στο επόμενο στάδιο, οι ψηφιακές εικόνες πρέπει να μεταφραστούν περαιτέρω μέσω μιας γλώσσας π.χ MusicXML η οποία χειρίζεται τη σημασιολογική πληροφορία της παρτιτούρας, όπως οι νότες κλπ. Η διαδικασία της σάρωσης και της μετατροπής της παρτιτούρας σε ψηφιακή αναπαράσταση διαθέσιμη για τροποποίηση από ένα χρήστη, ονομάζεται οπτική αναγνώριση μουσικής (Optical Music Recognition). 55

71 Μορφή audio Η μορφή audio βασίζεται στην αναπαράσταση του ήχου μέσω κυματομορφής, όπως περιγράφηκε στο 3 ο Κεφάλαιο. Η παρακάτω εικόνα δείχνει κυματομορφές audio αρχείων: Εικόνα 57. Κυματομορφές αρχείων audio Μορφή MIDI Η μορφή MIDI όπως περιγράφηκε παραπάνω, αποτελεί ένα υβρίδιο της παρτιτούρας και της μορφής audio: μπορεί να κωδικοποιήσει σημαντική πληροφορία για τις νότες της παρτιτούρας όπως και δυναμικά στοιχεία μιας συγκεκριμένης αναπαράστασης. Ωστόσο, η μορφή MIDI είναι αρκετά περιορισμένη, ειδικά όταν αναπαριστά το ηχόχρωμα ενός ήχου [Tuomas Eerola κ.α, 2004]. Τα αρχικά MIDI προέρχονται από τις λέξεις Musical Instrument Digital Interface και αναπτύχθηκε αρχικά ως ένα πρότυπο της βιομηχανίας ήχου, το οποίο έχει σκοπό να βοηθήσει στη παράλληλη λειτουργία ψηφιακών ηλεκτρονικών μουσικών οργάνων. Η μορφή MIDI επιτρέπει σε ένα μουσικό τον απομακρυσμένο και αυτόματο έλεγχο ενός ηλεκτρονικού οργάνου ή ενός ψηφιακού synthesizer σε πραγματικό χρόνο. Ας πάρουμε 56

72 για παράδειγμα ένα ψηφιακό πιάνο, στο οποίο ο μουσικός πατάει ένα πλήκτρο ώστε να ακουστεί ένας ήχος, και ελέγχει την ένταση του ήχου από την ταχύτητα της πίεσης του πλήκτρου. Εάν αφήσει ελεύθερο το πλήκτρο, ο ήχος σταματά. Αντί για να πιέζει με φυσικό τρόπο το πλήκτρο και να το αφήνει ελεύθερο μετά, ο μουσικός μπορεί να «προκαλέσει» το όργανο να παράγει τον ίδιο ήχο με τη διαβίβαση κατάλληλων MIDI μηνυμάτων, τα οποία κωδικοποιούν την πληροφορία για ενεργοποίηση και απενεργοποίηση της νότας και την ταχύτητα πίεσης της νότας. Αυτά τα μηνύματα MIDI μπορούν να παραχθούν αυτόματα από κάποιο άλλο ηλεκτρονικό όργανο ή να παραχθούν κατευθείαν από κάποιο ηλεκτρονικό υπολογιστή. Σημαντικό γεγονός είναι δε, πως το MIDI δεν αντιπροσωπεύει κάποιο «άμεσο» μουσικό ήχο, αλλά μόνο πληροφορίες για την επίδοση της πληροφορίας, κωδικοποιώντας τις οδηγίες για το πώς ένα όργανο πρέπει να παιχθεί ή πώς να παραχθεί μουσική. Το αρχικό πρότυπο MIDI βελτιώθηκε στη συνέχεια, και περιλαμβάνει την μορφή αρχείου Standard MIDI File, η οποία περιγράφει πως δεδομένα MIDI πρέπει να αποθηκεύονται σε ένα ηλεκτρονικό υπολογιστή. Αυτή η μορφή αρχείου επιτρέπει στους χρήστες να ανταλλάσσουν δεδομένα MIDI ανεξάρτητα από το λειτουργικό σύστημα του ηλεκτρονικού υπολογιστή, και παρέχει μια βάση για αποδοτική διανομή μουσικών δεδομένων μέσω του Internet στη μορφή Standard MIDI File. Ένα αρχείο MIDI περιέχει μια λίστα από μηνύματα MIDI μαζί με χρονικές σφραγίδες που απαιτούνται για το χρονισμό των μηνυμάτων. Παραπάνω πληροφορία (μετα-μηνύματα) σχετίζεται με το λογισμικό που διαχειρίζεται αρχεία MIDI. Στην περίπτωσή μας, θεωρούμε πως τα πιο σημαντικά μηνύματα MIDI είναι η ενεργοποίηση της νότας (note-on) και η απενεργοποίησή της (note-off). Διαισθητικά, κάποιος μπορεί να θεωρήσει πως τα μηνύματα note-on και note-off, αποτελούνται από ένα αριθμό νότας MIDI, ένα αριθμό για την ταχύτητα, μια προδιαγραφή καναλιού και μια χρονική σφραγίδα. Ο αριθμός νότας MIDI είναι ένας ακέραιος αριθμός με τιμές από 0 έως 127 και κωδικοποιεί το μουσικό ύψος του ήχου της νότας. Η ταχύτητα είναι επίσης ένας ακέραιος αριθμός με τιμές από 0 έως 127 που πρακτικά ελέγχει την ένταση του ήχου. Στην περίπτωση του μηνύματος note-on, η ταχύτητα καθορίζει την ένταση, ενός στην περίπτωση του 57

73 μηνύματος note-off ελέγχει την απομείωση του ήχου. Το κανάλι MIDI είναι ένας ακέραιος με τιμές από 0 έως 15. Ουσιαστικά στο κανάλι MIDI ο κάθε αριθμός «υπαγορεύει» στο synthesizer να χρησιμοποιήσει ένα συγκεκριμένο όργανο το οποίο έχει ανατεθεί σε ένα κανάλι. Εικόνα 58. Η κωδικοποίηση MIDI. Αξίζει να σημειωθεί πως κάθε κανάλι, υποστηρίζει πολυφωνία (δηλαδή πολλαπλές νότες ταυτόχρονα). Τέλος, η χρονική σφραγίδα είναι ένας ακέραιος αριθμός που περιγράφει πόσους παλμούς ρολογιού πρέπει να περιμένουμε πριν από την εκτέλεση του αντίστοιχου note-on μηνύματος εντολής. 58

74 Εικόνα 59. Οι αριθμοί νοτών MIDI σε ένα ηλεκτρονικό πιάνο. Ένα σημαντικό χαρακτηριστικό της μορφής MIDI είναι η δυνατότητα της να διαχειριστεί μουσικά αλλά και με φυσικό τρόπο χρόνους και διάρκειες νοτών. Παρόμοια με την παρτιτούρα, η μορφή MIDI εκφράζει πληροφορία χρονισμού για μουσικές οντότητες, αντί για απόλυτες μονάδες χρόνου όπως τα microseconds. Όπως και η αναπαράσταση στην παρτιτούρα, η μορφή MIDI επιτρέπει την κωδικοποίηση και αποθήκευση πληροφορίας χρονισμού, με πολύ πιο ευέλικτο τρόπο. Για το σκοπό αυτό, κάποιος μπορεί να συμπεριλάβει επιπρόσθετα μηνύματα για το ρυθμό, τα οποία προσδιορίζουν τον αριθμό των microseconds ανά τέταρτο (quarter note). 59

75 Εικόνα 60. Ένα MIDI synthesizer. Στη συγκεκριμένη ενότητα έγινε μια μικρή παρουσίαση της μορφής MIDI και της λειτουργικότητάς της. Αν και έχουν γραφτεί εκατοντάδες κώδικες για τη συμβολική αναπαράσταση μουσικής, η μορφή MIDI είναι ακόμη η μοναδική συμβολική μορφή ανταλλαγής μουσικής που χρησιμοποιείται ευρέως τη σημερινή εποχή, παρά το γεγονός ότι η μορφή MIDI σχεδιάστηκε για να λύσει προβλήματα στην ηλεκτρονική μουσική και περιορίζεται αρκετά όσον αφορά τις μουσικές πτυχές τις οποίες αντιπροσωπεύει. Παραδείγματος χάριν, η μορφή MIDI δεν είναι ικανή να ξεχωρίσει ανάμεσα στις νότες Dsharp και Eflat αφού αυτές έχουν ακριβώς τον ίδιο αριθμό νότας MIDI 63. Επίσης η μορφή MIDI δεν μπορεί να ορίσει μια νότα ρητά. Αντίθετα, οι νότες οριοθετούνται με τα μηνύματα note-on και note-off. Οι παύσεις δεν εκπροσωπούνται με κάποιο τρόπο, και γι αυτό υπονοούνται από την απουσία κάποιων νοτών. Τη λύση στο συγκεκριμένο πρόβλημα καλούνται να δώσουν αναπαραστάσεις όπως η MusicXML, οι οποίες μπορούν να περιγράψουν ρητά όλους τους κανόνες ψηφιακής αναπαράστασης μιας παρτιτούρας χωρίς ασάφειες και ελλιπή δεδομένα. 60

76 4.3 Συστήματα Music Information Retrieval Στα συστήματα Music Information Retrieval, ένα από τα πιο σημαντικά στοιχεία είναι οι τεχνικές οι οποίες χρησιμοποιούνται για την εξαγωγή χρήσιμων πληροφοριών από μουσικά έγγραφα. Υπάρχουν τρεις διαφορετικών ειδών προσεγγίσεις για τη διαχείριση της πληροφορίας: 1. Αναζήτηση (searching) 2. Φιλτράρισμα (filtering) 3. Περιήγηση (browsing) Αναζήτηση Μουσικής Η αναζήτηση ενός μουσικού κομματιού με μια προσεγγιστική περιγραφή, είναι μια πρωτότυπη ανάθεση για ένα σύστημα Music Information Retrieval (MIR), και με απλά λόγια αυτή η διαδικασία ονομάζεται ανάκτηση μουσικής. Για παράδειγμα, ένας χρήστης μπορεί να δώσει ένα παράδειγμα ηχοχρώματος ή του ήχου του μουσικού κομματιού που αναζητεί, ή να περιγράψει μια συγκεκριμένη δομή του μουσικού κομματιού. Έχουν προταθεί συστήματα τα οποία βασίζονται στη φωνητική αρμονία - μελωδία. Η έρευνα που έχει πραγματοποιηθεί σχετικά με την ανάκτηση με βάση τη μελωδία, μπορεί να ομαδοποιηθεί ανάλογα τις μεθοδολογίες που έχουν προταθεί για τον υπολογισμό της ομοιότητας μεταξύ ενός query και των μουσικών εγγράφων. Η ομαδοποίηση γίνεται στις εξής 3 κατηγορίες: Ομαδοποίηση με βάση το query, η οποία είναι παρόμοια με την αναζήτηση με όρους σε ένα έγγραφο. Ομαδοποίηση με βάση τεχνικές για ταίριασμα ακολουθιών, οι οποίες λαμβάνουν υπόψη τόσο το query όσο και τα έγγραφα ως ακολουθίες συμβόλων και μοντελοποιούν τις πιθανές μεταξύ τους διαφορές. Ομαδοποίηση με βάση γεωμετρικές μεθόδους, οι οποίες μπορούν να διαχειριστούν πολυφωνικές παρτιτούρες και μπορούν να εκμεταλλεύονται τις ιδιότητες των 61

77 μέτρων απόστασης όπως η τριγωνική ανισότητα, ώστε να μειωθεί η υπολογιστική πολυπλοκότητα Ανάκτηση με βάση το query Όπως είναι γνωστό, στην Ανάκτηση Πληροφορίας το indexing βελτιώνει την επεκτασιμότητα ενός συστήματος ανάκτησης, επειδή όλες οι σχετικές πληροφορίες που απαιτούνται στο χρονικό διάστημα της ανάκτησης, υπολογίζονται offline και το ταίριασμα πραγματοποιείται μεταξύ του query και του index του εγγράφου. Η επεκτασιμότητα είναι το κύριο κίνητρο πίσω από τα συστήματα που βασίζονται στον υπολογισμό με βάση το query. Αυτή η θετική πτυχή εξισορροπείται από τη δυσκολία της εξαγωγής του περιεχομένου ενός εγγράφου, με πολύπλοκα προβλήματα τα οποία σχετίζονται με λανθασμένα queries, κάτι το οποία μπορεί να οδηγήσει σε πλήρη αναντιστοιχία μεταξύ του query και του εγγράφου Ανάκτηση με βάση το ταίριασμα ακολουθιών Η τυπική εφαρμογή αυτής της προσέγγισης είναι η ακριβής ανάκτηση ενός μουσικού εγγράφου, δοθέντος ενός προσεγγιστικού query από το χρήστη. Για το σκοπό αυτό, μια αναπαράσταση του query συγκρίνεται με τις αναπαραστάσεις των εγγράφων της συλλογής, κάθε φορά που ένα νέο query εισάγεται στο σύστημα. Η κύρια θετική πλευρά αυτής της προσέγγισης είναι ότι μπορεί να μοντελοποιήσει πιθανές αναντιστοιχίες μεταξύ του query και των εγγράφων προς ανάκτηση. Αυτές οι αναντιστοιχίες μπορούν να προκύψουν από λάθος εισαγωγή ή διαγραφή μιας νότας. Έχουν προταθεί διάφορες προσεγγιστικές τεχνικές string matching για την ανάκτηση με βάση τη μελωδία. Μια τεχνική είναι η αναπαράσταση των μελωδιών από τρία σύμβολα (αύξον ή φθίνον διάστημα, και η ίδια η νότα) προκειμένου να αντιμετωπιστούν οι πιθανές αναντιστοιχίες μεταξύ query και εγγράφου. 62

78 Ανάκτηση με βάση γεωμετρικές μεθόδους Από την αναπαράσταση μιας παρτιτούρας μέσω του pianoroll της παρακάτω εικόνας, προτείνεται ο υπολογισμός της αντιστοίχισης του query με έγγραφα σε ένα γεωμετρικό πλαίσιο. Εικόνα 61. Pianoroll μιας παρτιρούρας. Αυτή η προσέγγιση μπορεί να διαχειριστεί την πολυφωνική μουσική χωρίς προηγούμενη εξαγωγή της κύριας μελωδίας, επειδή ολόκληρη η παρτιτούρα αναπαρίσταται ως ένα σύνολο σημείων ή γραμμών: ο κάθετος άξονας αντιστοιχεί συνήθως στο μουσικό ύψος του ήχου και ο οριζόντιος άξονας στο χρόνο. Η ίδια αναπαράσταση ισχύει και για τα queries. Η γεωμετρική προσέγγιση βασίζεται στην εφαρμογή ενός αριθμού από μεταφράσεις του μοτίβου των queries με σκοπό να βρεθούν οι καλύτερες αντιστοιχίσεις με τη γεωμετρική αναπαράσταση του κάθε εγγράφου. Οι αναντιστοιχίες μπορούν επίσης να βρεθούν με τη γεωμετρική προσέγγιση, όπου οι παρτιτούρες αναπαρίστανται ως σημεία. Μια επέκταση της αναπαράστασης των εγγράφων είναι όταν μια πολυφωνική παρτιτούρα αναπαρίσταται ως ένα σύνολο από γραμμές, όπου η θέση κατά μήκος του άξονα του χρόνου και η διάρκεια της γραμμής υπολογίζονται από το χρόνο έναρξης και τη διάρκεια της νότας αντίστοιχα. Έχει προταθεί μια περαιτέρω βελτίωση, στην οποία αξιοποιείται η διάρκεια της νότας ώστε να δημιουργεί ένα μοντέλο με βάρη που «τιμωρεί» τις αναντιστοιχίες μεταξύ των νοτών. 63

79 Το υπολογιστικό κόστος των γεωμετρικών προσεγγίσεων είναι Ο(mnlogn), όπου m είναι το μέγεθος του query και n είναι το μέγεθος της παρτιτούρας. Η αύξηση στην υπολογιστική πολυπλοκότητα αντισταθμίζεται από το γεγονός ότι η γεωμετρική προσέγγιση μπορεί να διαχειριστεί πολυφωνικές παρτιτούρες Φιλτράρισμα Μουσικής Δοθέντος ενός αριθμού πελατών οι οποίοι αγοράζουν συχνά μουσική σε ηλεκτρονικά καταστήματα, είναι προφανές ότι έχει αναπτυχθεί ένας αριθμός από αυτόματα συστήματα πρότασης μουσικής (automatic recommender systems). Ο σκοπός αυτών των συστημάτων είναι να παρέχουν στο χρήστη ένα υποκατάστατο ενός εμπειρογνώμονα υπαλλήλου ενός καταστήματος μουσικής. Το σύστημα μπορεί να προτείνει τι να αγοράσει κάποιος χρήστης, ανάλογα με τις προτιμήσεις του, φιλτράροντας όλα τα μη σχετικά άλμπουμ. Συνήθως, τα συστήματα αυτά βασίζονται σε εξωτερικές πληροφορίες, όπως το προφίλ του κάθε χρήστη, οι αγορές του, οι βαθμολογήσεις που έχει κάνει ο ίδιος σε διάφορα άλμπουμ μουσικής, εφαρμόζοντας τεχνικές όπως το collaborative filtering, οι οποίες δε βασίζονται στην αναζήτηση με βάση το περιεχόμενο. Οι τεχνικές collaborative filtering, βασιζόμενες στη συμπεριφορά του κάθε πελάτη έχουν και πλεονεκτήματα αλλά και αρκετά μειονεκτήματα. Γι αυτό το λόγο, έχει προταθεί ένας αριθμός από συστήματα πρότασης μουσικής με βάση το περιεχόμενο. Τα συστήματα πρότασης μουσικής με βάση το περιεχόμενο, βασίζονται στην ιδέα ότι ενώ ένας χρήστης έχει βαθμολογήσει εξαρχής ένα σύνολο από αντικείμενα, το σύστημα προτείνει ένα αριθμό από νέα αντικείμενα, βασιζόμενο στην ομοιότητα ή τη μη ομοιότητα των νέων αντικειμένων με τα αρχικά. Η επιλογή των χαρακτηριστικών βασίζεται στις ιδιότητες που θεωρούνται σχετικές για το χρήστη. Για παράδειγμα, κάποια τέτοια συστήματα χρησιμοποιούν πληροφορία σχετική με το ηχόχρωμα και ομαδοποιούν αντικείμενα ανάλογα με την ομοιότητά τους. 64

80 Μια τελευταία πρόταση για φιλτράρισμα μουσικής, βασίζεται στην κλασσική τεχνική collaborative filtering, όπου κάθε βαθμολόγηση αντικειμένου βασίζεται στην ομαδοποίηση των αντικειμένων με βάση το περιεχόμενό τους. Είναι δηλαδή μια υβριδική προσέγγιση. Ένα τέτοιο σύστημα χρησιμοποιεί τους συντελεστές MFCCs (Mel-frequency cepstrum coefficients) και εξερευνά τη χρήση διαφορετικών μεθόδων για να υπολογιστεί η απόσταση μεταξύ του αρχικού συνόλου αντικειμένων και των τραγουδιών που προτάθηκαν από το σύστημα [Riccardo Miotto and Nicola Orio, 2012]. Τα παραδείγματα βασίζονται σε ποσοτικές αναλύσεις τις απόστασης μεταξύ τραγουδιών του ίδιου άλμπουμ. Σχετικά με την επιλογή των ιδιοτήτων για ένα τέτοιο σύστημα, ένα παράδειγμα τέτοιου συστήματος για φιλτράρισμα μουσικής, το λεγόμενο MusicSurfer βασίζεται σε high-level ιδιότητες όπως ο ρυθμός και η αρμονία. Οι τεχνικές collaborative filtering και η πρόταση με βάση το περιεχόμενο έχουν συγκριθεί σε μεγάλα datasets, και ως αποτέλεσμα οι τεχνικές collaborative filtering έχουν πολύ καλύτερες επιδόσεις από τις τεχνικές πρότασης με βάση το περιεχόμενο Αυτόματη παραγωγή λίστας τραγουδιών (Automatic playlist generation) Μόλις έχει δοθεί ένα μέτρο ομοιότητας μεταξύ αντικειμένων, μπορεί να εφαρμοστεί ένα σύστημα πρότασης με βάση το περιεχόμενο, μιας και ο τελικός στόχος είναι η πρόταση στο χρήστη να αγοράσει ένα ή περισσότερα αντικείμενα. Θεωρούμε πως τα τραγούδια σε μια playlist θα πρέπει να μοιράζονται κάποιες μουσικές ιδιότητες, τοπικά και καθολικά. Υπάρχουν δύο κύριες διαφορές μεταξύ της αυτόματης παραγωγής playlist, και του συνηθισμένου συστήματος πρότασης μουσικής: οι χρήστες είναι πιο πιθανό να θέλουν να ακούσουν τραγούδια που ξέρουν ήδη, και η σειρά των τραγουδιών σχετίζεται με αυτό. Η παραγωγή της playlist αναπαρίσταται ως ένα μονοπάτι σε ένα γράφημα του οποίου οι κόμβοι είναι τραγούδια και οι συνδέσεις μεταξύ των κόμβων δείχνουν την ομοιότητα των τραγουδιών μεταξύ τους. Η αυτόματη παραγωγή μιας λίστας τραγουδιών μπορεί να μεταφερθεί και σε μια «εξωτερική συλλογή», για παράδειγμα στην περίπτωση που οι χρήστες χρησιμοποιούν ψηφιακό ράδιο. Σε αυτή την περίπτωση οι προσεγγίσεις για κατηγοριοποίηση και για 65

81 ανάκτηση, μπορούν να συνδυαστούν με την τεχνική collaborative filtering, με σκοπό να βρεθούν μουσικά κομμάτια που ενδιαφέρουν το χρήστη, και στη συνέχεια να τα οργανώσει ο ίδιος σε μια playlist Περιήγηση, Ταξινόμηση και Οπτικοποίηση Μουσικής Η απευθείας αναζήτηση, όπως προτάθηκε στο προηγούμενο υποκεφάλαιο, είναι μόνο μια από τις πιθανές προσεγγίσεις για την πρόσβαση σε μια συλλογή. Σήμερα διερευνώνται άλλοι τρόποι για την προσπέλαση σε κείμενο και δεδομένα πολυμέσων, συμπεριλαμβανομένης και της δυνατότητας να περιηγείται ένας χρήστης σε μια συλλογή, με σκοπό την ταξινόμηση εγγράφων σε ένα αριθμό κατηγοριών, ή να χρησιμοποιήσει οπτικές ενδείξεις για την πιο αποτελεσματική πρόσβαση σε μεγάλες συλλογές εγγράφων. Σαφώς, οι ίδιες παρατηρήσεις μπορούν να γίνουν για μουσικές συλλογές. Για παράδειγμα, ένας χρήστης μπορεί να ανακτήσει μέσω ενός query με τη φωνή ένα αριθμό από μουσικά έγγραφα τα οποία όμως δεν ικανοποιούν πλήρως τις πληροφορίες που χρειάζεται. Ωστόσο, ο χρήστης μπορεί να μην είναι σε θέση να βελτιώσει το query του επειδή έχει ήδη δώσει με τον καλύτερο τρόπο που μπορεί το query με τη φωνή του. Η διαδικασία της περιήγησης μπορεί να αξιοποιηθεί για να ξεπεραστεί αυτή η κατάσταση. Για παράδειγμα, ένας χρήστης μπορεί να ενδιαφέρεται για ένα μόνο συγκεκριμένο είδος μουσικής και μπορεί να ενοχλείται με την ανάκτηση ενός ενιαίου καταλόγου μουσικής όπου η παραδοσιακή μουσική είναι αναμεμειγμένη με τραγούδια Hip-Hop και Hard Rock. Η ταξινόμηση με υψηλού επιπέδου ιδιότητες όπως το περιεχόμενο της μουσικής, μπορεί να βοηθήσει στην αναδιοργάνωση των αποτελεσμάτων με παρόμοιο τρόπο όπως οι μηχανές αναζήτησης στο web με την ομαδοποίηση εγγράφων. Τέλος, οι χρήστες μπορεί να επιθυμούν να χρησιμοποιήσουν οπτικές ενδείξεις για την πρόσβαση σε μουσικές συλλογές. Για το σκοπό αυτό, έχει ήδη ληφθεί υπόψη ότι τα μουσικά έγγραφα δεν επιτρέπουν την εύκολη αναπαράσταση του περιεχομένου τους και το ψάξιμο για αρχεία μουσικής ακόμα και σε προσωπικές συλλογές, ενδέχεται να μην είναι μια εύκολη διαδικασία. 66

82 Εικόνα 62. Αρχιτεκτονική συστήματος για query με τη φωνή Περιήγηση σε μουσικές συλλογές Είναι γνωστό ότι η περιήγηση σε μια συλλογή εγγράφων είναι μια βιώσιμη εναλλακτική λύση για άμεση αναζήτηση. Επιπλέον, όπως συμβαίνει σε πολλές παρόμοιες προσεγγίσεις, η πλοήγηση μπορεί να ενσωματώνει την κλασσική αναζήτηση με βάση το περιεχόμενο. Για την αντιστοίχιση ενός query με το κατάλληλο έγγραφο, το σύστημα παράγει μια λίστα από έγγραφα τα οποία βρίσκονται σε μια «λογική απόσταση» από το query, και παρέχει links για την ανάκτηση άλλων παρόμοιων εγγράφων. Η περιήγηση και η πλοήγηση της μουσικής βασίζονται στην έννοια της ομοιότητας μεταξύ μουσικών εγγράφων, τα οποία μπορούν να βρίσκονται σε συμβολική μορφή ή και σε μορφή audio. Όλες οι ιδιότητες που έχουν παρουσιαστεί και οι συνδυασμοί τους, μπορούν να χρησιμοποιηθούν για την δημιουργία νέων συνδέσεων μεταξύ των εγγράφων. Καταρχήν, η ομοιότητα είναι τουλάχιστον εξαρτημένη από το χρήστη, επειδή η ατομική συνεισφορά κάθε μεμονωμένης μουσικής ιδιότητας στον τελικό πίνακα ομοιότητας εξαρτάται από τη σπουδαιότητα που της δίνει ο ίδιος ο χρήστης και μπορεί να διαφέρει από το χρόνο και την εμπειρία του κάθε χρήστη. Ωστόσο, οι περισσότερες από τις προσεγγίσεις για την περιήγηση στη μουσική βασίζονται στον στατικό υπολογισμό της ομοιότητας, με βάση ένα προκαθορισμένο αριθμό μουσικών ιδιοτήτων. Η περιήγηση μπορεί μερικώς να 67

83 ξεπεράσει το πρόβλημα της περιγραφής του περιεχομένου ενός μουσικού εγγράφου, ιδίως για τους περιστασιακούς χρήστες. Για το σκοπό αυτό, ο ορισμός ενός μουσικού εγγράφου μέσω μιας λίστας με συνδέσεις σε άλλα παρόμοια μπορεί να είναι ένα χρήσιμο εργαλείο στους χρήστες, για την επιλογή και τελικά αγορά νέων άλμπουμ μουσικής. Στο πρώτο paper που αναφερόταν στην πλοήγηση με βάση το περιεχόμενο, η ομοιότητα υπολογιζόταν χρησιμοποιώντας τη μελωδία ως τη μοναδική σχετική μουσική ιδιότητα. Μια ενδιαφέρουσα πτυχή είναι ότι υιοθετείται ένα ανοικτό μοντέλο πολυμέσων, το οποίο δίνει τη δυνατότητα στο χρήστη να βρει διαθέσιμες συνδέσεις από ένα αυθαίρετο snippet μουσικής. Σε μια άλλη προσέγγιση, μια συλλογή από μουσικά έγγραφα και λεξιλογικές μονάδες είναι εμπλουτισμένη με μια υπερκειμενική δομή (hypertextual structure), η οποία ονομάζεται hypermusic, και επιτρέπει στο χρήστη να πλοηγηθεί στο σύνολο το εγγράφου. Ένα σημαντικό χαρακτηριστικό είναι ότι οι συνδέσεις μεταξύ των εγγράφων δημιουργούνται αυτόματα. Η πλοήγηση μπορεί να συνεχιστεί και στα υπόλοιπα έγγραφα Ταξινόμηση ήχου (audio classification) Ο όρος audio classification έχει χρησιμοποιηθεί αρχικά για την περιγραφή μιας συγκεκριμένης εργασίας στους τομείς της επεξεργασίας φωνής και video, στους οποίους ο κύριος στόχος είναι η αναγνώριση και το labeling του ήχου σε τρεις διαφορετικές κατηγορίες: Ομιλία Μουσική Περιβαλλοντικός ήχος Αυτή η πρώτη βασική ταξινόμηση μπορεί να χρησιμοποιηθεί για να βοηθήσει στην τμηματοποίηση ενός βίντεο ή για την απόφαση για το που μπορεί να εφαρμοσθεί η αυτόματη αναγνώριση ομιλίας. Στο επόμενο στάδιο, στο οποίο τα μουσικά σήματα χωρίζονται με βάση ένα αριθμό προκαθορισμένων κατηγοριών, βελτιώνεται η ταξινόμηση με τη χρήση των κρυμμένων μοντέλων Markov (hidden Markov models) [Jan Müllers, 2015]. 68

84 Έχει επίσης παρουσιαστεί μια εργασία πάνω στην ταξινόμηση του ήχου, η οποία είχε ως στόχο την ανάκτηση απλών σημάτων μουσικής, χρησιμοποιώντας ένα σύνολο από σημασιολογικές ετικέτες, με επίκεντρο τα μουσικά όργανα που λάμβαναν μέρος στην ενορχήστρωση. Αυτή η προσέγγιση βασίζεται στο συνδυασμό των τεχνικών κατάτμησης με αυτόματο διαχωρισμό των διαφορετικών πηγών και της εξαγωγής των παραμέτρων. Η ταξινόμηση βασίζεται στη συγκεκριμένη ενορχήστρωση και είναι ένα ακόμη ανοικτό πρόβλημα το κομμάτι των πολύπλοκων πολυφωνικών παραστάσεων. Ένα σημαντικό ζήτημα στην ταξινόμηση του ήχου, είναι η ποσότητα των δεδομένων ήχου που απαιτούνται για να επιτευχθούν καλοί ρυθμοί ταξινόμησης. Το πρόβλημα αυτό έχει πολλές πτυχές. Πρώτον, η ποσότητα των δεδομένων που απαιτούνται, σχετίζεται αυστηρά με την υπολογιστική πολυπλοκότητα των αλγόριθμων, η οποία είναι συνήθως, τουλάχιστον γραμμική με τον αριθμό των δειγμάτων ήχου. Δεύτερον, μελέτες έχουν δείξει ότι ακόμα και οι ανεκπαίδευτοι ακροατές είναι αρκετά καλοί στην ταξινόμηση δεδομένων ήχου snippets (μικρότερων του ενός δευτερολέπτου). Τέλος, στην τεχνική query μέσω παραδείγματος, στο οποίο τα παραδείγματα πρέπει να έχουν ηχογραφηθεί ψηφιακά από τους χρήστες είναι αρκετά πιθανό οι χρήστες να μην είναι σε θέση να καταγράψουν ένα μεγάλο μέρος του ήχου. Η πιο σημαντική πτυχή της ταξινόμησης του ήχου, είναι η ταξινόμηση με βάση το είδος της μουσικής (genre classification). Η εφαρμογή που έχει υλοποιηθεί στα πλαίσια της συγκεκριμένης μεταπτυχιακής διπλωματικής, και θα παρουσιαστεί στο επόμενο κεφάλαιο, βασίζεται στο genre classification. Το σημαντικό ζήτημα στη συγκεκριμένη ταξινόμηση είναι η σωστή αντιστοίχιση μιας άγνωστης μουσικής ηχογράφησης στο μουσικό είδος στο οποίο ανήκει. Οι «ετικέτες» μπορούν να οργανωθούν ιεραρχικά σε είδη και σε υποείδη όπως φαίνεται στην παρακάτω εικόνα. 69

85 Εικόνα 63. Ιεραρχική ταξινόμηση μουσικής με βάση το είδος. Οι ετικέτες μπορούν να χρησιμοποιηθούν για να εμπλουτίσουν ένα μουσικό έγγραφο με υψηλού επιπέδου μεταδεδομένα ή για να οργανωθεί μια μουσική συλλογή. Στην τελευταία περίπτωση, γίνεται η υπόθεση ότι η κατηγοριοποίηση σε είδη και υποείδη είναι ιδιαίτερα κατάλληλη για ένα χρήστη, επειδή ακολουθείται από όλες τις δισκογραφικές εταιρίες, και είναι μια από τις προτιμώμενες μεθόδους πρόσβασης σε ηλεκτρονικά καταστήματα. Η ταξινόμηση με βάση το είδος είναι μια αρκετά δύσκολη διαδικασία, όπως θα φανεί και στο επόμενο κεφάλαιο για πολλούς λόγους, μιας και υπάρχουν τόσα πολλά είδη μουσικής ξεχωριστά αλλά και συνδυαστικά μεταξύ τους, κάτι το οποίο μπορεί να κάνει δύσκολη την διαδικασία της ταξινόμησης. Μπορεί να υποστηριχθεί πως μια απλή ταξινόμηση με βάση το είδος δεν είναι ιδιαίτερα χρήσιμη για ένα χρήστη, επειδή μπορεί να οδηγήσει σε εκατοντάδες χιλιάδες μουσικά έγγραφα στην ίδια κατηγορία, και οι χρήστες να διαφωνούν σχετικά με το είδος το οποίο ανήκουν. Ωστόσο, το πεδίο genre classification είναι αρκετά ενεργό σε έρευνα, επειδή οι 70

86 χρήστες εξακολουθούν να βασίζουν τις επιλογές τους σε είδη μουσικής, και διάφορες πληροφορίες σχετικά με τις προτιμήσεις τους ανά είδος μπορούν να αξιοποιηθούν για την βελτίωση του «προφίλ» του χρήστη. Τα χαρακτηριστικά που χρησιμοποιούνται για να περιγράψουν το περιεχόμενο, συνδέονται συνήθως με το ηχόχρωμα. Η επιλογή των χαρακτηριστικών βασίζεται στο γεγονός ότι για να ταξινομηθεί ένα μουσικό κομμάτι, χρησιμοποιείται ένα μικρό απόσπασμα, και γι αυτό το λόγο δε μπορεί να χρησιμοποιηθεί η μελωδία ή η αρμονία ως μουσικό χαρακτηριστικό. Όπως αναφέραμε παραπάνω, σαν χαρακτηριστικό χρησιμοποιούνται αρκετά οι συντελεστές MFCCs. Τα συστήματα για genre classification συνήθως χρησιμοποιούν ως είσοδο αποσπάσματα μουσικών κομματιών, και η ταξινόμηση γίνεται μέσω διαφορετικών τεχνικών και μοντέλων. Για τον διαχωρισμό σε είδος χρησιμοποιούνται συχνά τα μοντέλα k-nearest Neighbor και Gaussian Mixtures [Tzanetakis, 2002] Οπτικοποίηση μουσικής συλλογής (Visualization of music collections) Οι προσεγγίσεις για την οπτικοποίηση μουσικών συλλογών μπορούν να διαχωριστούν στις εξής δύο κατηγορίες: Αυτές που στοχεύουν στη γραφική αναπαράσταση του περιεχομένου ξεχωριστών μουσικών εγγράφων Αυτές που στοχεύουν στην αναπαράσταση μιας ολόκληρης μουσικής συλλογής. Η πρώτη προσέγγιση σχετίζεται με τις δυσκολίες ανάκτησης μουσικών εγγράφων που αντιμετωπίζει ένας καθημερινός χρήστης, τα οποία έχει ήδη αγοράσει και κατεβάσει στον προσωπικό του υπολογιστή. Η δυνατότητα να έχει ο χρήστης ένα μουσικό στιγμιότυπο του περιεχομένου ενός τραγουδιού, χωρίς να χρειάζεται να ακούσει το τραγούδι, θα τον διευκολύνει να περιηγηθεί στη δική του συλλογή. Η δεύτερη προσέγγιση, σχετίζεται με το γεγονός πως μια χωρική οργάνωση μιας μουσικής συλλογής, θα βοηθήσει τους χρήστες να βρουν συγκεκριμένα τραγούδια που τους ενδιαφέρουν, επειδή μπορεί να θυμηθεί ο χρήστης την θέση τους στην οπτική 71

87 αναπαράσταση και να βοηθηθεί από την παρουσία παρόμοιων μουσικών κομματιών τα οποία βρίσκονται κοντά σε αυτό το κομμάτι που αναζητείται. Υπάρχει μια ποικιλία προσεγγίσεων για την οπτικοποίηση της μουσικής, συμπεριλαμβανομένης της παρτιτούρας, της ταμπλατούρας, το pianoroll view, το φασματογράφημα (spectrogram) και την κυματομορφή. Εικόνα 64. Ταμπλατούρα. Εικόνα 65. Φασματογράφημα μουσικού κομματιού. Η οπτικοποίηση μιας συλλογής μουσικών εγγράφων, βασίζεται συνήθως στην ομοιότητα. Το πρόβλημα με τη γραφική αναπαράσταση, είναι ότι συνήθως βασίζεται σε δισδιάστατο χώρο. Τεχνικές όπως το Multidimensional Scaling και το Principal Component Analysis 72

88 είναι γνωστές για την αναπαράσταση ενός πολύπλοκου και πολυδιάστατου συνόλου δεδομένων, όταν ένα μέτρο απόστασης, όπως η μουσική ομοιότητα, μπορεί να υπολογιστεί ανάμεσα στα στοιχεία ή όταν τα στοιχεία αντιστοιχίζονται σε σημεία ενός πολυδιάστατου χώρου. Η εφαρμογή των δισδιάστατων τεχνικών οπτικοποίησης σε μουσικές συλλογές, πρέπει να πραγματοποιείται λαμβάνοντας υπόψη ότι η οπτικοποίηση θα δοθεί σε χρήστες μη-ειδικούς, και όχι σε αναλυτές δεδομένων, οι οποίοι χρειάζονται μια απλή και ελκυστική αναπαράσταση των δεδομένων. Ένα παράδειγμα ενός συστήματος για γραφική αναπαράσταση μιας μουσικής συλλογής είναι το Marsyas3D, το οποίο περιλαμβάνει 2D και 3D απεικονίσεις των στοιχείων στης συλλογής. Πιο συγκεκριμένα, χρησιμοποιείται η τεχνική Principal Component Analysis. Ένα άλλο παράδειγμα είναι το πρόγραμμα Sonic Browser, το οποίο χρησιμοποιείται για την περιήγηση σε μουσικές συλλογές. 4.4 Αξιολόγηση ενός συστήματος MIR Η αξιολόγηση της αποτελεσματικότητας ενός συστήματος Music Information Retrieval και η σύγκριση διαφορετικών προσεγγίσεων, είναι θεμελιώδη βήματα προς τη συνεχή βελτίωση της αποτελεσματικότητας του συστήματος. Λαμβάνοντας υπόψη την ποικιλία των προσεγγίσεων στο Music Information Retrieval, η αξιολόγηση πρέπει να λαμβάνει υπόψη πολλές πτυχές: την αποτελεσματικότητα μιας μηχανής ανάκτησης, που μπορεί να υπολογιστεί με κοινά συμφωνημένες μετρικές, όπως η κλασσική μέση ακρίβεια (average precision), και η αποτελεσματικότητα στην ταξινόμηση και στην ομαδοποίηση μουσικών εγγράφων. Μέχρι το έτος 2004, τα αποτελέσματα της έρευνας στο Music Information Retrieval αξιολογούνταν με αυτοσχέδια τεστ, στα οποία κάθε ερευνητική ομάδα χρησιμοποιούσε διαφορετικά σύνολα από έγγραφα και queries. Οι συλλογές δημιουργούνταν είτε από συμβολικά έγγραφα όπως το MIDI, είτε από ακουστικά έγγραφα όπως η μορφή mp3. 73

89 Παρατηρούνταν επίσης διαφορές στα queries, τα οποία είτε ηχογραφούνταν από πραγματικούς χρήστες είτε παράγονταν αυτόματα, στο μέγεθος της μουσικής συλλογής που διέφερε αρκετά από ερευνητική ομάδα σε ερευνητική ομάδα, και μουσικό είδος. Οι μετρικές επίσης, οι οποίες χρησιμοποιήθηκαν για την αξιολόγηση των συστημάτων, ήταν διαφορετικές βασισμένες σε ατομικές επιλογές Το framework Audio Description Contest Το πρώτο βήμα προς ένα κοινό περιβάλλον αξιολόγησης έγινε στο Music Technology Group του Audiovisual Ινστιτούτου στο Universitat Pompeu Fabra στη Barcelona, τα οποίο φιλοξένησε το International Conference of Music Information Retrieval (ISMIR). Η εξειδίκευση της ερευνητικής ομάδας ήταν η ανάλυση και σύνθεση ήχου. Στην πραγματικότητα, το περιβάλλον αξιολόγησης λεγόταν Audio Description Contest. Πρέπει να σημειωθεί πως οι ηχογραφήσεις είναι πιο πιθανό να παρουσιάζουν ενδιαφέρον για μεγαλύτερο ακροατήριο σε σχέση με παρτιτούρες, επειδή μπορούν να επεξεργαστούν από χρήστες που δεν έχουν μουσική εκπαίδευση. Το Audio Description Contest χωρίστηκε σε έξι ανεξάρτητες εργασίες. Οι πρώτες τρεις αφορούσαν την ταξινόμηση και την αναγνώριση καλλιτεχνών και είδους μουσικής: Ταξινόμηση με βάση το είδος: ταξινόμηση μουσικού κομματιού ανάμεσα σε έξι είδη. Αναγνώριση καλλιτέχνη: αναγνώριση ενός καλλιτέχνη, δοθέντων τριών κομματιών από το ρεπερτόριό του, αφού εκπαιδευτεί πρώτα το σύστημα με επτά παραπάνω κομμάτια. Ομοιότητα καλλιτεχνών: πρόταση για ομοιότητα καλλιτεχνών, ανάμεσα σε 53 καλλιτέχνες στο σύνολο εκπαίδευσης, και 52 καλλιτέχνες στο σύνολο αξιολόγησης. Οι τρεις επόμενες εργασίες αφιερώθηκαν στην αξιολόγηση τεχνικών επεξεργασίας της μουσικής, με ιδιαίτερη έμφαση στο ρυθμό και τη μελωδία: Ταξινόμηση με βάση το ρυθμό: ταξινόμηση μουσικού κομματιού με βάση το ρυθμό του, ανάμεσα σε οκτώ διαφορετικούς ρυθμούς, έχοντας βάση ένα σύνολο εκπαίδευσης με 74

90 488 περιπτώσεις ταξινόμησης μουσικών κομματιών με βάση το ρυθμό, ενώ 210 ακόμα περιπτώσεις χρησιμοποιήθηκαν για την ταξινόμηση. Αναγνώριση κύριου ρυθμού ενός μουσικού κομματιού: αναγνώριση κύριου ρυθμού ενός μουσικού κομματιού χωρίς σύνολο εκπαίδευσης (training set) και με 3199 περιπτώσεις στο σύνολο αξιολόγησης. Εξαγωγή μελωδίας: αναγνώριση κύριας μελωδίας, φωνής, μουσικού οργάνου ή πολυφωνικού ήχου. Το σύνολο εκπαίδευσης αποτελούταν από 10 αποσπάσματα, ενώ το σύνολο αξιολόγησης από 20 αποσπάσματα. Μια ενδιαφέρουσα προσέγγιση, η οποία έχει διατηρηθεί και στις επόμενες διαδικασίας αξιολόγησης του Music Information Retrieval, είναι ότι οι συμμετέχοντες έπρεπε να υποβάλουν τους αλγόριθμους τους οποίους είχαν αναπτύξει για να φέρουν εις πέρας συγκεκριμένες εργασίες, αντί να υποβάλλουν άμεσα τα αποτελέσματα. Ήταν καθήκον των διοργανωτών να συλλέξουν και να τρέξουν τους αλγόριθμους και να υπολογίσουν τα αποτελέσματα. Επιτρέπονταν επίσης διαφορετικές πλατφόρμες και γλώσσες προγραμματισμού, με σκοπό τη μεγαλύτερη συμμετοχή στο διαγωνισμό. Η επιλογή της συλλογής των αλγορίθμων, αντί για τα αποτελέσματα, είχε δύο κύρια μειονεκτήματα. Από την πλευρά των διοργανωτών, είναι σίγουρα απαιτητικό να τρέξουν λογισμικό το οποίο έχει αναπτυχθεί για ερευνητικούς σκοπούς και το οποίο είναι πιθανό να μην είναι σωστά ελεγμένο για λάθη, και να είναι ένα αποτέλεσμα επιλογών της τελευταίας στιγμής. Από την πλευρά των συμμετεχόντων, η διαδικασία απαιτούσε τη συλλογή διαφορετικών «κομματιών» λογισμικού που έχει χρησιμοποιηθεί σε διαφορετικά στάδια του πειραματισμού. Είναι ενδιαφέρον να σημειωθεί ότι η προτεινόμενη προσέγγιση για την αξιολόγηση, απαιτούσε από τους συμμετέχοντες να εμπιστεύονται πλήρως του διοργανωτές οι οποίοι έτρεχαν όλα τα πειράματα. Αυτό ήταν ίσως δυνατό, λόγω της ανάγκης για ένα κοινό πλαίσιο αξιολόγησης, το οποίο παρεμποδίζεται από προβλήματα κοινής χρήσης μουσικών εγγράφων σε οποιαδήποτε μορφή. 75

91 4.4.2 To Music Information Retrieval Evaluation exchange To International Music Information Retrieval System Evaluation Laboratory (IMIRSEL) project δημιουργήθηκε με σκοπό την αξιολόγηση των MIR συστημάτων σε μεγαλύτερη κλίμακα. Ο κύριος σκοπός αυτού το project είναι η δημιουργία ασφαλών μουσικών συλλογών για την αξιολόγηση του Music Information Retrieval. Οι ερευνητές μπορούν να έχουν πρόσβαση σε έγγραφα που τους επιτρέπουν να τεστάρουν την επεξεργασία της μουσικής, την πρόσβαση και τις τεχνικές ανάκτησης χωρίς να απαιτείται η μεταφορά της συλλογής στην πλευρά του χρήστη. Μια γραφική διεπαφή χρήστη επιτρέπει στους ερευνητές και τους προγραμματιστές την προτυποποιήση νέων προσεγγίσεων και την εφαρμογή νέων λειτουργιών. Η προσέγγιση στον ορισμό των εργασιών είναι ένα παράδειγμα «δημοκρατίας». Κάθε πιθανός συμμετέχων είναι σε θέση να προτείνει μια συγκεκριμένη εργασία και να περιλαμβάνει όσους συμμετέχοντες χρειάζεται. Εναπόκειται στον προτείνοντα να ορίσει τον τελικό στόχο του έργου, και να παρέχει τα σύνολα δεδομένων για εκπαίδευση και αξιολόγηση, και να καθορίσεις τις μετρικές με τις οποίες κατατάσσονται τα αποτελέσματα. Αυτό συνήθως επιτυγχάνεται με την ενεργή συνεργασία όλων των πιθανών συμμετεχόντων, οι οποίοι μπορούν να συζητήσουν όλες τις λεπτομέρειες της εργασίας, να προσφέρουν μουσικά έγγραφα στα σύνολα δεδομένων και να προτείνουν διαφορετικές προσεγγίσεις για την αξιολόγηση. Φυσικά εναπόκειται στους διοργανωτές να επιλέξουν ποια είναι η τελική ρύθμιση της προτεινόμενης εργασίας MIREX 2005 Η πρώτη καμπάνια αξιολόγησης, η οποία βασίστηκε στο IMIRSEL project, διοργανώθηκε το 2005 και τα αποτελέσματα παρουσιάστηκαν στο ISMIR του ίδιου χρόνου. Η καμπάνια ονομάστηκε Music Information Retrieval Evaluation exchange (MIREX). Στη συγκεκριμένη καμπάνια υπήρχαν εννέα διαφορετικές εργασίες, έξι σε μορφή ήχου και τρεις σε συμβολική μορφή: 76

92 Ταξινόμηση με βάση το είδος: ταξινόμηση ηχογράφησης πολυφωνικής μουσικής με βάση το είδος, ανάμεσα σε 10 προκαθορισμένα είδη μουσικής. Αναγνώριση Καλλιτέχνη: αναγνώριση του τραγουδιστή ή του συγκροτήματος στο οποίο ανήκει μια πολυφωνική ηχογράφηση. Αναγνώριση ήχων drums: αναγνώριση των ήχων από drums σε πολυφωνικά pop μουσικά κομμάτια. Ανίχνευση έναρξης οργάνων: αναγνώριση της έναρξης για κάθε μουσικό όργανο σε διαφορετικού είδους ηχογραφήσεις, από πολυφωνική μουσική σε solo drums. Εξαγωγή ρυθμού: υπολογισμός του ρυθμού σε πολυφωνικές ηχογραφήσεις. Εξαγωγή μελωδίας: εξαγωγή της κύριας μελωδίας, για παράδειγμα της φωνητικής μελωδίας ενός pop μουσικού κομματιού ή την κύρια μελωδία ενός μουσικού οργάνου σε μια jazz μπαλάντα. Εύρεση τόνου μουσικού κομματιού: εξαγωγή του τόνου ενός μουσικού κομματιού, δοθείσας είτε μιας παρτιτούρας είτε μιας ηχογράφησης [Chao-Ling Hsu κ.α., 2010]. Ταξινόμηση με βάση το είδος με χρήση συμβολικής αναπαράστασης: ταξινόμηση μουσικής με βάση το είδος από μια παρτιτούρα ή ένα MIDI αρχείο, ανάμεσα σε 38 προκαθορισμένα είδη [Jakob Abeßer, 2014]. Ομοιότητα μελωδίας με χρήση συμβολικής αναπαράστασης Οι δυο πρώτες εργασίες έγιναν με παρόμοια σύνολα δεδομένα τα οποία βασίστηκαν σε ανεξάρτητες συλλογές. Οι συμμετέχοντες έπρεπε να χειριστούν κάθε συλλογή ξεχωριστά, και τα τελικά αποτελέσματα βασίζονταν στο μέσο όρο των επιδόσεων. Στην περίπτωση της αναγνώρισης καλλιτέχνη, το καλύτερο αποτέλεσμα είχε βαθμό αναγνώρισης 72%. Η χρήση εναλλακτικών συλλογών έγινε και για τις άλλες εργασίες. Συγκεκριμένα, η ανίχνευση της έναρξης των οργάνων χωρίστηκε σε 9 δευτερεύουσες εργασίες, ανάλογα με το είδος του ήχου π.χ. πολυφωνικός, και τα τελικά αποτελέσματα ήταν ένας σταθμισμένος μέσος όρος των μεμονωμένων δευτερευουσών εργασιών. Τα καλύτερα αποτελέσματα υπολογίστηκαν με χρήση της μετρικής F-measure και διέφεραν αρκετά μεταξύ τους ανάλογα με την ηχητική πηγή από την οποία προέρχονταν: από F=0.99 π.χ. από ήχο κουδουνιού μέχρι F=0.45 για ανθρώπινη φωνή. Τα αποτελέσματα αυτά, υπογραμμίζουν ότι η ανθρώπινη φωνή θα πρέπει να αναλυθεί με ad hoc τεχνικές. Ομοίως, για την αναγνώριση των ήχων των drums, χρησιμοποιήθηκαν τρεις διαφορετικές συλλογές, από τις οποίες καθεμιά παρεχόταν από έναν από τους συμμετέχοντες. Σε αυτή την περίπτωση, τα αποτελέσματα δεν διέφεραν αισθητά μεταξύ των συλλογών. Η μέση τιμή 77

93 της μετρικής F-measure για το σύστημα που είχε την καλύτερη απόδοση ήταν F=0.67. Το μόνο αποτέλεσμα της συλλογής είναι ότι σε δυο περιπτώσεις εκ των τριών, η ομάδα από τους συμμετέχοντες που παρείχε την συλλογή ήταν η ίδια που έχει την καλύτερη απόδοση. Τόσο η εξαγωγή ρυθμού όσο και η εξαγωγή μελωδίας, διεξήχθησαν σε μια ενιαία συλλογή, με ποσοστό 95% για την εξεύρεση τουλάχιστον ενός σωστού ρυθμού και μ ένα ποσοστό για τη συνολική ακρίβεια στην εξαγωγή μελωδίας, της τάξης του 71%. Γενικότερα, θα ήταν σημαντικό για τις τεχνικές επεξεργασίας μουσικής να αξιολογούνταν από το πόσο καλά έχουν φέρει σε πέρας μια Music Information Retrieval εργασία, παρά από το πώς κρίνονται από εμπειρογνώμονες. Δεδομένου ότι έχει χρησιμοποιηθεί η ίδια συλλογή μουσικών έργων, είναι δυνατόν να συγκριθούν άμεσα αποτελέσματα σε συμβολική μορφή ή σε μορφή ήχου. Το ποσοστό των σωστών αναγνωρίσεων ήταν πολύ παρόμοιο και για τις δύο μορφές: μέγιστο ποσοστό αναγνώρισης για μορφή ήχου 90% και 91% για συμβολική μορφή, κάτι το οποίο δείχνει πως οι τεχνικές για την αναγνώριση ακόρντων έχουν φτάσει σε πολύ υψηλή ακρίβεια. Ακόμα κι αν με κάποια επιφύλαξη, επειδή τα σύνολα ήταν διαφορετικά, είναι επίσης δυνατό να συγκριθούν εργασίες ταξινόμησης συμβολικής μορφής ή μορφής ήχου. Σε αυτή την περίπτωση, τα αποτελέσματα δείχνουν πως η χρήση συμβολικών σημάτων, μπορεί να έχει καλύτερα αποτελέσματα από τη χρήση συμβολικής πληροφορίας της τάξης του 5%: η ακρίβεια στην ταξινόμηση έφτασε το 84% για τον ήχο και 77% για τη συμβολική πληροφορία. Η εργασία που ήταν πιο σχετική με μια εργασία Information Retrieval, ήταν αυτή που αφορούσε την ομοιότητα μελωδίας. Η αξιολόγηση πραγματοποιήθηκε με τη χρήση του μοντέλου ανάκτησης πληροφορίας Cranfield, με μια πειραματική συλλογή από 582 έγγραφα και δύο σύνολα από queries για την εκπαίδευση και το testing του συστήματος αντίστοιχα. Τα queries ήταν στην ίδια μορφή εγγράφων, ενώ οι αποφάσεις για την σχετικότητα έχουν συλλεχθεί από τους υπεύθυνους της εργασίας. Η αποτελεσματικότητα της ανάκτησης συγκρίθηκε χρησιμοποιώντας κλασσικές μετρικές για Information Retrieval, για παράδειγμα χρησιμοποιήθηκε η μέση ακρίβεια(average precision) με τιμή 0.51, σε συνδυασμό με μια ad hoc μετρική, που ονομάζεται μέση δυναμική ανάκληση (Average 78

94 Dynamic Recall). Το νέο αυτό μέτρο έλαβε υπόψη το γεγονός ότι οι εκτιμήσεις για τη σχετικότητα δεν ήταν δυαδικής μορφής. Η σχετική βαθμολόγηση των διαφορετικών συστημάτων δεν επηρεάστηκε από το είδος της μετρικής που χρησιμοποιήθηκε. Αφού προωθήθηκαν και διοργανώθηκαν από διαφορετικούς ανθρώπους, οι εννέα εργασίες του MIREX 2005 έγιναν με διαφορετικές συλλογές, με πολύ διαφορετικά μεγέθη, μερικές φορές χωρισμένες σε συλλογές για εκπαίδευση και σε συλλογές για testing του συστήματος. Ορισμένες πληροφορίες σχετικά με το είδος της εργασίας, το μέγεθος των συλλογών, και τον αριθμό των συμμετεχόντων για κάθε εργασία φαίνεται στην παρακάτω εικόνα. Εικόνα 66. Τα κύρια χαρακτηριστικά των εργασιών του MIREX Οι εργασίες που αφορούσαν τη μορφή ήχου ήταν σαφώς πιο δημοφιλή στο μέσο αριθμό συμμετεχόντων και στον αριθμό των εργασιών, σε σχέση με τις εργασίες που αφορούσαν τη συμβολική μορφή. Οι διοργανωτές του MIREX 2005 είχαν επίσης το καθήκον να συλλέγουν και να τρέξουν διαφορετικούς αλγόριθμους, είτε χρησιμοποιώντας τη γραφική διεπαφή που παρεχόταν από το IMIRSEL ή σε διαφορετικές γλώσσες προγραμματισμού. Αυτή η προσέγγιση, οι οποία αποδείχθηκε επιτυχής ως προς την αντιμετώπιση θεμάτων πνευματικής ιδιοκτησίας, δε δημιούργησε κανένα πρόβλημα ακόμα και αν οι συμμετέχοντες έπρεπε να εμπιστεύονται τους διοργανωτές και δε μπορούσε να αξιολογήσει την αποτελεσματικότητα ή την ορθότητα των αλγορίθμων με τα τελικά δεδομένα. Αξίζει να σημειωθεί ότι οι διοργανωτές του MIREX 79

95 2005 ήταν σε θέση, σε ορισμένες περιπτώσεις, να διορθώσουν ακόμα και τους κώδικες και να τους τρέξουν MIREX 2006 Η καμπάνια MIREX διοργανώθηκε επίσης το 2006 με μια παρόμοια προσέγγιση. Τον Ιούλιο του 2006 προτάθηκαν οι παρακάτω εννέα εργασίες από τους συμμετέχοντες: Audio Beat Tracking: εύρεση ρυθμού σε ένα αρχείο ήχου. Εξαγωγή μελωδίας: παρόμοια εργασία με του MIREX Ανάκτηση και Ομοιότητα μουσικής: υπολογισμός ενός πίνακα αποστάσεων από μια συλλογή μουσικών αρχείων. Διασκευή μουσικού κομματιού: εύρεση εναλλακτικών εκδόσεων ενός μουσικού κομματιού. Ανίχνευση έναρξης οργάνων: συνέχιση της εργασίας του MIREX Εξαγωγή ρυθμού: παρόμοια εργασία με του MIREX Query μέσω φωνής: ανάκτηση μουσικών κομματιών σε συμβολική μορφή μέσω queries με χρήση φωνής. Score Following: συγχρονισμός ήχου μουσικού κομματιού με την παρτιτούρα του [Jakob Abeßer κ.α.,2014]. Ανάκτηση παρτιτούρας μέσω ομοιότητας με μελωδία: ανάκτηση μιας διατεταγμένης λίστας από παρτιτούρες δοθέντος ενός query με κάποια μελωδία. Η εργασία αυτή διαφέρει από την αντίστοιχη του MIREX 2005, η οποία απαιτούσε τον υπολογισμό της ομοιότητας των εγγράφων της συλλογής. Παρατηρούμε μια τάση από τη σύγκριση των MIREX 2005 και MIREX Πρώτα απ όλα, το ποσοστό των εργασιών που αφορούν τη μορφή ήχου, αυξήθηκαν επειδή υπάρχει μόνο μια εργασία που αφορά τη συμβολική μορφή. Επιπλέον, όλες οι εργασίες για την εξαγωγή υψηλού επιπέδου μετά-πληροφορίας (genre classification, artist identification, key finding) δεν είναι μέρος των τελικών εργασιών του MIREX 2006, παρά το γεγονός ότι ήταν μέρος της αρχικής πρότασης [Spring, 2012]. Μια άλλη σημαντική διαφορά με το MIREX 2005 είναι ότι ορισμένες από τις εργασίες μπορούν να ομαδοποιηθούν, επειδή έχουν παρόμοιους στόχους και μπορούν να βασίζονται στις ίδιες συλλογές για testing. Για παράδειγμα, οι εργασίες Audio Beat Tracking και η Εξαγωγή ρυθμού, εστιάζουν και οι δύο στο ρυθμό ως την πιο σχετική μουσική 80

96 διάσταση, ενώ η Ανάκτηση και Ομοιότητα μουσικής και η Διασκευή μουσικού κομματιού βασίζονται στην ίδια συλλογή. Επίσης η Ανάκτηση παρτιτούρας μέσω ομοιότητας με μελωδία και η Query μέσω φωνής, οι οποίες είναι δύο χαρακτηριστικές εργασίες για Information Retrieval, είναι πολύ παρόμοιες, με την πρώτη να επικεντρώνεται στα αποτελέσματα της συλλογής και την τελευταία στις επιδράσεις των queries. 81

97 Κεφάλαιο 5 5. Παρουσίαση εφαρμογής για music genre classification με χρήση ακουστικών χαρακτηριστικών και μεταδεδομένων. 5.1 Εισαγωγή Η ανάπτυξη του Internet έχει οδηγήσει τη μουσική βιομηχανία σε μια μετάβαση από τα φυσικά μέσα σε διαδικτυακά προϊόντα και υπηρεσίες. Άμεση συνέπεια της παραπάνω μετάβασης, είναι η online αποθήκευση μουσικών συλλογών οι οποίες εμπλουτίζονται διαρκώς με χιλιάδες νέα μουσικά κομμάτια [Meinard Müller κ.α, 2011]. Τα παραπάνω έχουν δημιουργήσει την ανάγκη για μουσικές τεχνολογίες, οι οποίες θα επιτρέπουν στους χρήστες να έχουν πρόσβαση σε αυτές τις εκτενείς συλλογές με αποτελεσματικό και αποδοτικό τρόπο. Στο 2 ο κεφάλαιο, έγινε μια εκτενής παρουσίαση της έννοιας της Ανάκτησης της Πληροφορίας (Information Retrieval), των μοντέλων αλλά και των μετρικών που χρησιμοποιούνται για να αξιολογήσουν ένα σύστημα Information Retrieval. Στη συνέχεια, στο 3 ο κεφάλαιο είδαμε κάποιες βασικές έννοιες της Μουσικής Τεχνολογίας (Music Technology) και της Ακουστικής, τα οποία είχαν σκοπό να αποτελέσουν εισαγωγή στο 4 ο κεφάλαιο που συνδυάζει το Information Retrieval με τη μουσική, το Music Information 82

98 Retrieval. Όπως είδαμε, το Music Information Retrieval έχει διάφορους τομείς για έρευνα αλλά και εφαρμογές. Ένας ερευνητικός τομέας από τον οποίο προκύπτουν εφαρμογές, είναι το music genre classification. Ο συγκεκριμένος τομέας, όπως είδαμε, ασχολείται γενικότερα με το διαχωρισμό μουσικών κομματιών κατά είδος στο οποίο ανήκουν. Είδαμε επίσης, πως κάθε music genre classification σύστημα αξιολογείται ως προς την απόδοσή του, και πως δεν έχει δημιουργηθεί μέχρι σήμερα ένα σύστημα διαχωρισμού μουσικών κομματιών κατά είδος που να κάνει ακριβή διαχωρισμό της τάξης του 90% και άνω. Οι περισσότερες εμπορικές εφαρμογές για music genre classification στην εποχή μας, βασίζονται σχεδόν μόνο στα tags που έχουν ανατεθεί στα μουσικά κομμάτια, επειδή η χρήση μουσικών χαρακτηριστικών για ανάκτηση πληροφορίας από τη μουσική είναι αρκετά δύσκολη. Στο συγκεκριμένο κεφάλαιο παρουσιάζεται μια εφαρμογή για music genre classification, η οποία αναπτύχθηκε στα πλαίσια της παρούσας διπλωματικής εργασίας, η οποία δέχεται ως είσοδο snippets μουσικών κομματιών που διαρκούν 15 δευτερόλεπτα, σε μορφή mp3, και χρησιμοποιώντας μουσικά χαρακτηριστικά, διαχωρίζει το μουσικό κομμάτι στο είδος μουσικής που ανήκει ανάμεσα σε 3 είδη: Rock Hip-Hop Classical και αφού τα διαχωρίσει, επιστρέφει μια λίστα με παρόμοια μουσικά κομμάτια το ίδιου είδους με 2 τρόπους: με χρήση των audio features μουσικών κομματιών από μια λίστα με χρήση των tags που έχουν ανατεθεί στα μουσικά κομμάτια 5.2 Σχεδιασμός για την υλοποίηση της εφαρμογής Η συγκεκριμένη εφαρμογή, όπως αναφερθήκαμε στο προηγούμενο υποκεφάλαιο, δέχεται ως είσοδο μουσικά κομμάτια σε μορφή.mp3 και με συγκεκριμένη διάρκεια, και ως έξοδο επιστρέφει μια λίστα με παρόμοια μουσικά κομμάτια, τραγούδια δηλαδή που ανήκουν στο 83

99 ίδιο είδος μουσικής. Η λίστα έχει αποτελέσματα, τα οποία προέρχονται από δύο διαφορετικούς τρόπους. Στον πρώτο τρόπο χρησιμοποιούνται τα audio features που χρησιμοποιήθηκαν για να ταξινομήσουν το μουσικό κομμάτι είσοδο στο είδος το οποίο ανήκει, πάνω σε ένα αριθμό μουσικών κομματιών μορφής mp3 και με τον ίδιο τρόπο φέρνουν ως αποτέλεσμα παρόμοια μουσικά κομμάτια. Στον δεύτερο τρόπο, χρησιμοποιείται η λογική των tags, σε ένα excel αρχείο το οποίο περιέχει μουσικά κομμάτια, και ένα tag που περιγράφει σημασιολογικά το είδος στο οποίο ανήκει κάθε μουσικό κομμάτι. Η εφαρμογή επεξεργάζεται το συγκεκριμένο αρχείο excel, και με βάση το είδος στο οποίο ανήκει το μουσικό κομμάτι είσοδος, θα επιστρέψει τα παρόμοια μουσικά τραγούδια από το αρχείο excel. Για την επίτευξη αυτής της ιδέας προς υλοποίηση, προτιμήθηκε η χρήση του Matrix Laboratory (Matlab), το οποίο είναι αρκετά φιλικό ως προς την υλοποίηση και μελέτη δύσκολων μαθηματικών προβλημάτων. Επίσης βοηθάει αρκετά, η δυνατότητα που δίνει για οπτική αναπαράσταση διαφόρων τύπων γραφήματα (όπως το φασματογράφημα) για την εξαγωγή συμπερασμάτων και την αξιολόγηση ενός συστήματος. Εικόνα 67. Το λογότυπο του Matlab. Το πρώτο σημαντικό κομμάτι της υλοποίησης είναι η δυνατότητα της εφαρμογής να «διαβάζει» και να επεξεργάζεται ένα αρχείο της μορφής mp3. Αφού η εφαρμογή έχει την παραπάνω δυνατότητα, θα πρέπει να βρεθούν τα audio features που θα χρησιμοποιηθούν, ώστε να ταξινομήσουν το μουσικό κομμάτι στο μουσικό είδος από τα τρία (rock, hiphop, classical), στο οποίο ανήκει. Για να βρεθούν όμως αυτά τα 84

100 μουσικά χαρακτηριστικά, θα πρέπει να χρησιμοποιηθεί και να μελετηθεί ένα σύνολο εκπαίδευσης (training set), όπως περιγράφηκε στο 4 ο κεφάλαιο. Έχοντας πλέον το training set, και αφού προκύψουν κάποια συμπεράσματα για τα μουσικά κομμάτια εκπαίδευσης, τότε καταλήγουμε σε ποια audio features θα πρέπει να χρησιμοποιηθούν για να γίνει η συγκεκριμένη ταξινόμηση. Στη συνέχεια, αφού υλοποιηθούν τα audio features, πρέπει να δημιουργηθεί ένα σύνολο για testing (testing set), που θα περιέχει μουσικά κομμάτια, για να αξιολογηθεί η σωστή λειτουργία των audio features [Elias Pampalk, 2004]. Αφού εξακριβωθεί, πως, αυτά τα audio features, κάνουν τη σωστή κατηγοριοποίηση, τότε ακολουθεί το τελευταίο κομμάτι της υλοποίησης, το οποίο χρησιμοποιεί το testing set, για να επιστρέψει μια λίστα με παρόμοια μουσικά κομμάτια, αφού «τρέξει» τα ήδη υλοποιημένα audio features στα μουσικά κομμάτια του testing set. Τέλος, δημιουργείται ένα αρχείο μορφής excel, που περιέχει μουσικά κομμάτια μαζί με ένα tag για το καθένα, που αναφέρει το μουσικό είδος στο οποίο ανήκουν. Το Matlab στη συνέχεια πρέπει να επεξεργαστεί το συγκεκριμένο αρχείο. Αυτό που πρακτικά γίνεται, είναι η μεταφορά κάθε στήλης του excel σε ένα μητρώο με διαστάσεις αντίστοιχες του excel αρχείου, και αφού γίνει η επιτυχής κατηγοριοποίηση του μουσικού κομματιού εισόδου, τότε το Matlab «διαβάζει» αυτό το μητρώο γραμμή προς γραμμή, και ανάλογα το τι περιέχει η στήλη με τα tags, θα επιστρέψει ως αποτέλεσμα τα παρόμοια μουσικά κομμάτια με την είσοδο. 5.3 Τεχνική περιγραφή της εφαρμογής Η συνάρτηση mp3read Όπως αναφέραμε στο προηγούμενο υποκεφάλαιο, το πρώτο κομμάτι της υλοποίησης, είναι η δυνατότητα της εφαρμογής να «διαβάζει» και να επεξεργάζεται αρχεία της μορφής mp3. Γι αυτό τον λόγο, χρησιμοποιήθηκε η συνάρτηση mp3read. 85

101 Η συγκεκριμένη συνάρτηση καλεί ένα εξωτερικό mp3 πρόγραμμα για αποκωδικοποίηση με σκοπό να μετατρέψει το αρχείο σε μορφή wav, και στη συνέχεια το «διαβάζει». Όπως είπαμε, τα μουσικά κομμάτια που δίνονται ως είσοδος, δεν είναι ολόκληρα τα τραγούδια, αλλά 15 δευτερόλεπτα από κάθε μουσικό κομμάτι. Αυτό που κάνει στη συνέχεια η συνάρτηση είναι να αποκωδικοποιεί ένα μόνο μέρος του αρχείου, αντί για ολόκληρο το αρχείο. Μερικά παραδείγματα της κλήσης της συγκεκριμένης συνάρτησης είναι τα εξής: [d,sr] = mp3read('file.mp3'); : διαβάζει ολόκληρο το αρχείο και θέτει το sr (sampling rate) στο ρυθμό δειγματοληψίας. [d,sr] = mp3read('file.mp3', [n1 n2], 1, 4); : «αναγκάζει» τα δεδομένα να είναι σε μορφή mono, μειώνει τη δειγματοληψία κατά ένα παράγοντα 4, και επιστρέψει μόνο τα frames μεταξύ n1 και n2. Τα n1 και n2 αναφέρονται στα δείγματα μετά από τη μείωση της δειγματοληψίας κατά 4, οπότε θα επιστραφούν (n2-n1+1) δείγματα. Η συνάρτηση προσπαθεί να αποκωδικοποιήσει το ελάχιστο ποσό του αρχείου. [x,sr,nb,opt] = mp3read('file.mp3', 'size'); : το x επιστρέφεται ως ένα διάνυσμα δύο στοιχείων το οποίο αποτελείται από τον αριθμό των δειγμάτων στο αρχείο και τον αριθμό των καναλιών. Το sr είναι ο ρυθμός δειγματοληψίας (μετά την υποδειγματοληψία). Το nb είναι ο αριθμός των bits ανά δείγμα, και είναι πάντα 16. Το opt είναι ένα μητρώο που περιέχει όλη την πληροφορίας που διαβάζει το αρχείο mp3info.exe. path = fileparts(which('mp3read')); tmpdir = getenv('tmpdir'); if isempty(tmpdir) exist(tmpdir,'file')==0 tmpdir = '/tmp'; end if exist(tmpdir,'file')==0 tmpdir = ''; end 86

102 Στο παραπάνω κομμάτι κώδικα η συνάρτηση mp3read ψάχνει το βασικό φάκελο στον οποίο βρίσκονται τα αρχεία mp3, και δημιουργεί ένα προσωρινό φάκελο. ext = lower(computer); if ispc ext = 'exe'; rmcmd = 'del'; end MPG = 0; mpg123 = fullfile(path,['mpg123.',ext]); mp3info = fullfile(path,['mp3info.',ext]); Στο παραπάνω κομμάτι κώδικα, η mp3read διαβάζει ψάχνει να βρει δύο βασικά αρχεία binaries που χρειάζεται, τα mpg123.exe και mp3info.exe, ενώ παρακάτω ξεκινά η διαδικασία της δειγματοληψίας προς τα κάτω κατά 4. if nargin < 2 N = 0; end FMT = 'double'; if ischar(n) FMT = lower(n); N = 0; end if length(n) == 1 N = [1 N]; end if nargin < 3 87

103 forcemono = 0; else if ischar(mono) FMT = lower(mono); MONO = 0; end forcemono = (MONO ~= 0); end if nargin < 4 downsamp = 1; else downsamp = DOWNSAMP; end if downsamp ~= 1 && downsamp ~= 2 && downsamp ~= 4 error('downsamp can only be 1, 2, or 4'); end Στο επόμενο κομμάτι κώδικα, η mp3read επιλέγει συγκεκριμένο μέρος από το μουσικό κομμάτι το οποίο έχει αποκωδικοποιήσει: if skipx+endfrm-sttfrm > length(y) endfrm = length(y)+sttfrm-skipx; end if endfrm > sttfrm Y = Y(skipx+(1:(endfrm-sttfrm)),:); elseif skipx > 0 Y = Y((skipx+1):end,:); end 88

104 if strcmp(fmt,'native') Y = int16((2^15)*y); end Το training set Το δεύτερο σημαντικό κομμάτι της υλοποίησης είναι το σύνολο εκπαίδευσης (training set), από το οποίο θα προκύψουν συμπεράσματα ως προς την επιλογή των audio features που θα χρησιμοποιηθούν για το music genre classification. Αρχικά, δημιουργούμε ένα φάκελο με ονομασία train_set και μέσα σε αυτόν τοποθετούμε κομμάτια μουσικής από τα 3 είδη που περιγράψαμε, τα οποία θα χρησιμοποιήσουμε για να βγάλουμε συμπεράσματα, ως προς τα audio features που θα χρησιμοποιήσουμε. Εικόνα 68. Φάκελος που περιέχει το training set. 89

105 Στη συνέχεια, δημιουργούμε ένα.m αρχείο (train.m) στο Matlab, το οποίο διαβάζει με τη συνάρτηση mp3read αυτά τα αρχεία, και βλέπουμε το φασματογράφημα για κάθε ένα από αυτά ώστε να καταλήξουμε στα audio features που θα χρησιμοποιήσουμε. % ROCK % % [d1a, sr1a] = mp3read('train_set/rock1_ozzy.mp3'); [d1, sr1] = mp3read('train_set/rock1_ozzy.mp3'); [d1b, sr1b] = mp3read('train_set/rock1_ozzy.mp3', sr1*5); subplot(2,2,1); specgram(d1b(:,1),1024,sr1b); title('ozzy Osbourne - Perry Mason'); ylim([ ]); % [d2, sr2] = mp3read('train_set/rock2_foo.mp3'); [d2, sr2] = mp3read('train_set/rock2_foo.mp3'); [d2b, sr2b] = mp3read('train_set/rock2_foo.mp3', sr2*5); subplot(2,2,2); specgram(d2b(:,1),1024,sr2b); title('foo Fighters - Best Of You'); ylim([ ]); Με τον παραπάνω κώδικα, καλούμε τη συνάρτηση mp3read και στη συνέχεια βλέπουμε το φασματογράφημα (οπτική αναπαράσταση του φάσματος των συχνοτήτων ενός σήματος ήχου) για τα rock μουσικά κομμάτια Perry Mason του Ozzy Osbourne, και Best Of You των Foo Fighters. Αντίστοιχα, για τα hip hop κομμάτια του training set, και τα classical κομμάτια: % CLASSICAL % % [d5, sr5] = mp3read('train_set/classical1_dt'); [d5, sr5] = mp3read('train_set/classical1_dt.mp3'); [d5b, sr5b] = mp3read('train_set/classical1_dt.mp3',sr5*5); subplot(2,2,3); specgram(d5b(:,1),1024,sr5b); xlabel('time'); title('dream Theater - Illumination Theory'); ylim([ ]); % [d4, sr4] = mp3read('train_set/classical2_wol'); [d6, sr6] = mp3read('train_set/classical2_wol.mp3'); [d6b, sr6b] = mp3read('train_set/classical2_wol.mp3', sr6*5); subplot(2,2,4); specgram(d6b(:,1),1024,sr6b); title('classical 2'); ylim([ ]); 90

106 Frequency Frequency Frequency Frequency Τμήμα Μηχανικών Η/Υ και Πληροφορικής Το πρώτο classical κομμάτι, βλέπουμε πως ανήκει σε ένα progressive rock μουσικό συγκρότημα (Dream Theater Illumination Theory). Το snippet 15 δευτερολέπτων που χρησιμοποιήθηκε, είναι από ένα σημείο του μουσικού κομματιού, το οποίο μπορεί να χαρακτηριστεί classical. Αυτή η επισήμανση θα χρειαστεί στη συνέχεια για τα συμπεράσματα της δημιουργίας μιας music genre classification εφαρμογής. Αφού τρέξουμε το συγκεκριμένο.m αρχείο, κάποια από τα παρακάτω φασματογραφήματα θα είναι τα εξής: Ozzy Osbourne - Perry Mason 2 x Foo Fighters - Best Of You 2 x Time Gym Class Heroes - Lazarus, Ze Gitan 2 x Time Eminem - Love The Way You Lie 2 x Time Time Εικόνα 69. Φασματογραφήματα rock και hip hop μουσικών κομματιών του training set. Παρατηρούμε στα παραπάνω φασματογραφήματα πως οι συχνότητες των rock τραγουδιών είναι πιο έντονες προς τα κάτω, σε αντίθεση με τα αντίστοιχα των hip hop τραγουδιών Τα audio features Στην παρακάτω εικόνα μπορούμε να δούμε μερικά από τα μουσικά χαρακτηριστικά (audio features) τα οποία υπάρχουν [Kilian Merkelbach, 2015]: 91

107 Εικόνα 70. Μουσικά χαρακτηριστικά (Audio Features). Από το φασματoγράφημα μπορεί να βρεθεί κάποια συσχέτιση με τη δυναμικότητα(rms: Root Mean Square), οπότε ίσως αυτό να αποτελέσει μια μετρική για το διαχωρισμό των κομματιών σε είδος. Από τις γραφικές παραστάσεις όμως, που προέκυψαν από τα μουσικά κομμάτια, του RMS ανά μήκος του μουσικού σήματος δεν προέκυψαν ξεκάθαρα δεδομένα ώστε να διαφοροποιηθούν τα σήματα ανά είδος. Ένα χαρακτηριστικό το οποίο χρησιμοποιήθηκε είναι το Zero Crossing Rate το οποίο είναι ο ρυθμός εναλλαγών του πρόσημου ενός σήματος (ο ρυθμός δηλαδή, με τον οποίο το σήμα εναλλάσσεται στον θετικό και τον αρνητικό άξονα). Από τις παρακάτω γραφικές παραστάσεις (άθροισμα των zero crossings ανά frame) παρατηρούμε πως για τα rock μουσικά κομμάτια τα γραφήματα ξεκινάνε πιο ψηλά στον άξονα y, σε σχέση με τα hip hop μουσικά κομμάτια, τα οποία πιάνουν τιμές κοντά στο 0. Οπότε θέτουμε ένα άνω όριο στο οποίο παρατηρούμε πως τα ηχητικά σήματα των rock κομματιών δεν υπάρχουν. Συνεπώς, αν το άθροισμα των zero crossings ανά frame είναι διάφορο του μηδενός κάτω από την τιμή τότε το μουσικό σήμα αντιστοιχεί σε hip hop κομμάτι. Στην παρακάτω εικόνα παρατηρούμε το Zero Crossing Rate για τα rock και τα hip hop μουσικά κομμάτια: 92

108 Εικόνα 71. Zero Crossing Rate για rock και hip hop μουσικά κομμάτια του training set. Μετά την αλλαγή στο όριο (άνω όριο 0.005), οι γραφικές παραστάσεις είναι οι εξής: Εικόνα 72. Zero Crossing Rate για rock και hip hop μουσικά κομμάτια του training set, με νέο άνω όριο. 93

109 Σχετικά με την κλασσική μουσική, χρησιμοποιήθηκε ως χαρακτηριστικό το Full-wave rectification, το οποίο μετατρέπει την κυματομορφή εισόδου σε σταθερής πολικότητας έξοδο. Παρατηρήσαμε εκεί πως υπάρχει κάτω όριο, το οποίο διαφέρει για κομμάτια κλασσικής μουσικής σε σχέση με των υπολοίπων 2 ειδών. Οπότε και το Full Wave Rectification αποτέλεσε το 2ο χαρακτηριστικό για το διαχωρισμό των μουσικών τραγουδιών στα 3 είδη. Στο Matlab δημιουργούμε μια νέα συνάρτηση mp3input, στην οποία υλοποιούμε με κώδικα τα audio features που περιγράφηκαν παραπάνω: %% GAIN x = db; y = abs(x); %plot(y) y(y<0.8) = 0; Στον παραπάνω κώδικα είναι το audio feature Full Wave Rectification, που χρησιμοποιούμε για να διαχωρίσουμε την κλασσική μουσική από τα άλλα δύο είδη. %% ZERO CROSSING len_samp = length(db); frame_size =.02; frame_length = round(sr*frame_size); frames_per_sec = round(1/frame_size); zcr = []; n=1; for frame = 1:frame_length:len_samp-frame_length framedata = d(frame:frame+frame_length-1); zcr(n) = 0; for i = 2:length(frameData) zcr(n) = zcr(n) + abs(sign(framedata(i)) - sign(framedata(i-1))); end zcr(n) = zcr(n)/(2*frame_length); n=n+1; end Με τον παραπάνω κώδικα υπολογίζουμε το audio feature Zero Crossing, για τον διαχωρισμό των rock με hip hop μουσικών κομματιών. 94

110 5.3.4 Το testing set Όπως με το training set, για να ελέγξουμε τη σωστή λειτουργία της εφαρμογής, δημιουργούμε το σύνολο για testing (testing set). Από το συγκεκριμένο σύνολο, θα προκύψουν επίσης οι προτάσεις παρόμοιων μουσικών κομματιών ανάλογα το είδος που ανήκει το μουσικό κομμάτι είσοδος. Αρχικά, δημιουργούμε ένα φάκελο με ονομασία test_set και μέσα σε αυτόν τοποθετούμε κομμάτια μουσικής από τα 3 είδη που περιγράψαμε: Εικόνα 73. Φάκελος που περιέχει το testing set. Στη συνέχεια, αφού ήδη έχουμε γράψει κώδικα για τα audio features, γράφουμε κώδικα ο οποίος θα μας διαχωρίσει τα μουσικά κομμάτια ανά είδος: %% results if any(zcr) signal_type = 'Genre: HIP-HOP'; end if ~any(zcr) signal_type = 'Genre: ROCK'; end if ~any(y) signal_type = 'Genre: CLASSICAL'; end 95

111 5.3.5 Επιστροφή Λίστας με τα παρόμοια μουσικά κομμάτια Όπως αναφέραμε στην αρχή του κεφαλαίου, έχουν υλοποιηθεί δύο διαφορετικοί τρόποι για να μας επιστρέφει η εφαρμογή παρόμοια μουσικά κομμάτια με το αρχικό που δώσαμε ως είσοδο Επιστροφή Λίστας με χρήση των audio features Με τον πρώτο τρόπο, χρησιμοποιούμε απλά τα audio features που χρησιμοποιήσαμε για το μουσικό κομμάτι είσοδο, για όλα τα μουσικά κομμάτια τα οποία βρίσκονται στο φάκελο test_set. %% fprintf('similar Tracks based on audio features:\n') filelist = dir('*.mp3'); % Pre-allocate a cell array to store some per-file information. result = cell(size(filelist)); %warning('off','all'); for index = 1 : length(filelist) [y, sr] = mp3read(filelist(index).name); [zb, srb] = mp3read(filelist(index).name, sr*5, 1); Ο παραπάνω κώδικας «διαβάζει» τα μουσικά κομμάτια του φακέλου που έχουμε δώσει ως είσοδο (test_set). Στη συνέχεια αφού χρησιμοποιήσει τα audio features με τον ίδιο τρόπο, θα διαχωρίσει τα υπόλοιπα μουσικά κομμάτια ανά είδος και θα κρατήσει αυτά που ανήκουν στο ίδιο είδος με το αρχικό. zcr(zcr>.005)=0; if any(zcr) if strcmp(signal_type,'genre: HIP-HOP') == 1 fprintf('%s\n', filelist(index).name) end end if ~any(zcr) if strcmp(signal_type,'genre: ROCK') == 1 fprintf('%s\n', filelist(index).name) end end if ~any(z) if strcmp(signal_type,'genre: CLASSICAL') == 1 fprintf('%s\n', filelist(index).name) end end 96

112 Επιστροφή Λίστας με χρήση tags Με τον δεύτερο τρόπο, δημιουργούμε ένα αρχείο excel το οποίο περιέχει ονόματα καλλιτεχνών, τραγουδιών, και το είδος στο οποίο ανήκει κάθε μουσικό κομμάτι. Με τον παρακάτω κώδικα, δημιουργούμε ένα μητρώο στο Matlab, το οποίο περιέχει ως γραμμές, τις γραμμές από το αρχείο excel που περιγράψαμε παραπάνω: % Import the file sheetname='φύλλο1'; [numbers, strings] = xlsread(filetoread1, sheetname); if ~isempty(numbers) newdata1.data = numbers; end if ~isempty(strings) newdata1.textdata = strings; end % Create new variables in the base workspace from those fields. vars = fieldnames(newdata1); for i = 1:length(vars) assignin('base', vars{i}, newdata1.(vars{i})); end Το μητρώο που προκύπτει έχει την εξής μορφή: Εικόνα 74. Το μητρώο που προκύπτει από το αρχείο excel. 97

113 Στη συνέχεια, ο κώδικας που θα επιστρέψει τη σχετική λίστα η εφαρμογή είναι ο εξής: fprintf('similar Tracks based on song tags:\n') % importfile('songlist.xlsx'); if strcmp(signal_type,'genre: ROCK') == 1 for i = 1:length(textdata(:,2)) if strcmp(textdata(i,2),'rock') textdata(i) end end elseif strcmp(signal_type,'genre: CLASSICAL') == 1 for i = 1:length(textdata(:,2)) if strcmp(textdata(i,2),'classical') textdata(i) end end elseif strcmp(signal_type,'genre: HIP-HOP') == 1 for i = 1:length(textdata(:,2)) if strcmp(textdata(i,2),'hiphop') textdata(i) end end end 5.4 Λειτουργικότητα εφαρμογής music genre classification Αφού περιγράψαμε παραπάνω τα τεχνικά χαρακτηριστικά της εφαρμογής, μπορούμε πλέον να τη χρησιμοποιήσουμε. Για να τρέξουμε την εφαρμογή, απλά καλούμε τη συνάρτηση mp3input με τα εξής arguments: mp3input('μουσικό τραγούδι', textdata) Το 2 ο argument (textdata) είναι το μητρώο που προέρχεται από το αρχείο excel. Για παράδειγμα, καλούμε την συνάρτηση mp3input με τα παρακάτω arguments: mp3input('bruce Dickinson - King In Crimson', textdata) Το αποτέλεσμα που μας δίνει το Matlab είναι το παρακάτω: 98

114 Εικόνα 75. Χρήση της συνάρτησης mp3input για rock τραγούδι. Από την παραπάνω εικόνα βλέπουμε πως το τραγούδι κατηγοριοποιείται σωστά ως rock, και επιστρέφει την πρώτη λίστα με τα σχετικά κομμάτια με βάση τα audio features, και την δεύτερη λίστα με βάση τα tags από το μητρώο textdata. Τα μουσικά κομμάτια που έχουν επιστραφεί και στις 2 λίστες είναι όλα μουσικά κομμάτια που ανήκουν στο είδος rock. Στη συνέχεια καλούμε την mp3input, για ένα hip hop κομμάτι: mp3input('drake - Started From The Bottom', textdata) τα αποτελέσματα που παίρνουμε φαίνονται στην παρακάτω εικόνα: 99

115 Εικόνα 76. Χρήση της mp3input για hip hop τραγούδι. Από την παραπάνω εικόνα βλέπουμε πως το τραγούδι κατηγοριοποιείται σωστά ως hip hop, και επιστρέφει την πρώτη λίστα με τα σχετικά κομμάτια με βάση τα audio features, και την δεύτερη λίστα με βάση τα tags από το μητρώο textdata. Τα μουσικά κομμάτια που έχουμε στη λίστα από το μητρώο textdata είναι όλα hip hop κομμάτια, ενώ στη λίστα που βασίζεται στα audio features παίρνουμε μεν ως σχετικά κομμάτια όλα τα hip hop κομμάτια του testing set, αλλά επιστρέφονται και δύο λανθασμένα αποτελέσματα από κομμάτια κλασσικής μουσικής. Στη συνέχεια καλούμε την mp3input, για ένα classical κομμάτι: mp3input(' Mozart - Eine kleine Nachtmusik Allegro', textdata) τα αποτελέσματα που παίρνουμε φαίνονται στην παρακάτω εικόνα: 100

116 Εικόνα 77.Χρήση της mp3input για classical τραγούδι. Παρατηρούμε πως στην περίπτωση των κλασσικών τραγουδιών έχουμε και επιτυχημένη κατηγοριοποίηση και ταυτόχρονα επιτυχημένη εξαγωγή μουσικών κομματιών του ίδιου είδους. 5.4 Συμπεράσματα Παρατηρήσαμε στο προηγούμενο υποκεφάλαιο, πως η εφαρμογή έχει μεγάλη ακρίβεια στη λειτουργία της. Σε όλες τις περιπτώσεις έκανε σωστή κατηγοριοποίηση των μουσικών κομματιών στο είδος που ανήκουν, και η λίστα με τις προτάσεις παρόμοιων μουσικών κομματιών ήταν σωστές, εκτός από την περίπτωση που ως είσοδο είχαμε δώσει μουσικό κομμάτι hip hop. Η λίστα βέβαια που βασιζόταν στα tags ήταν σωστή. Ένας λόγος γι αυτό είναι πως ένα μουσικό κομμάτι μπορεί να «ανήκει» ταυτόχρονα σε πάνω από ένα, μουσικά είδη. Αυτό διαπιστώνεται εύκολα, ειδικά σε κομμάτια hip hop που χρησιμοποιούν ως sample είτε rock μουσικά κομμάτια είτε πολλές φορές και κομμάτια από κλασσική μουσική. 101

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ανάκτηση Πληροφορίας Το μοντέλο Boolean Το μοντέλο Vector Ταξινόμηση Μοντέλων IR Ανάκτηση Περιήγηση Κλασικά Μοντέλα Boolean Vector Probabilistic Δομικά Μοντέλα Non-Overlapping Lists Proximal Nodes Browsing

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #05 Ακρίβεια vs. Ανάκληση Extended Boolean Μοντέλο Fuzzy Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #06 Πιθανοτικό Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Το Πιθανοκρατικό Μοντέλο Κλασικά Μοντέλα Ανάκτησης Τρία είναι τα, λεγόμενα, κλασικά μοντέλα ανάκτησης: Λογικό (Boolean) που βασίζεται στη Θεωρία Συνόλων Διανυσματικό (Vector) που βασίζεται στη Γραμμική

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 7 ο : Ανάκτηση πληροφορίας Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Οι διαφάνειες αυτού του μαθήματος βασίζονται

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 8: Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Ανάκτηση πολυμεσικού περιεχομένου

Ανάκτηση πολυμεσικού περιεχομένου Ανάκτηση πολυμεσικού περιεχομένου Ανίχνευση / αναγνώριση προσώπων Ανίχνευση / ανάγνωση κειμένου Ανίχνευση αντικειμένων Οπτικές λέξεις Δεικτοδότηση Σχέσεις ομοιότητας Κατηγοριοποίηση ειδών μουσικής Διάκριση

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη

Διαχείριση εγγράφων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Διαχείριση εγγράφων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκων: Μ. Χαλκίδη Απεικόνιση κειμένων για Information Retrieval Δεδομένου ενός κειμένου αναζητούμε μια μεθοδολογία απεικόνισης του γραμματικού χώρου

Διαβάστε περισσότερα

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3.

Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY463 - Συστήματα Ανάκτησης Πληροφοριών Εαρινό Εξάμηνο. Φροντιστήριο 3. Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών HY6 - Συστήματα Ανάκτησης Πληροφοριών 007 008 Εαρινό Εξάμηνο Φροντιστήριο Retrieval Models Άσκηση Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 4: Μοντελοποίηση: Διανυσματικό μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5: Μοντελοποίηση: Πιθανοκρατικό Μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ

ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ. 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΜΑΘΗΜΑ: Εισαγωγή στις Αρχές της Επιστήμης των Η/Υ 1 η ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στόχος Θεματικής Ενότητας Οι μαθητές να περιγράφουν τους βασικούς τομείς της Επιστήμης των Υπολογιστών και να μπορούν

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #04 Εισαγωγή στα Μοντέλα Ανάκτησης Πληροφορίας Boolean Μοντέλο 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία

ΗΜΥ 100 Εισαγωγή στην Τεχνολογία ΗΜΥ 100 Εισαγωγή στην Τεχνολογία Δρ. Στέλιος Τιμοθέου ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΑ ΘΕΜΑΤΑ ΜΑΣ ΣΗΜΕΡΑ Αναλογικά και ψηφιακά συστήματα Μετατροπή

Διαβάστε περισσότερα

Information Retrieval

Information Retrieval Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη 7: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι θα δούμε σήμερα; Βαθμολόγηση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #01 Διαδικαστικά μαθήματος Εισαγωγικές έννοιες & Ορισμοί Συστήματα ανάκτησης πληροφορίας 1

Διαβάστε περισσότερα

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

1 Συστήματα Αυτοματισμού Βιβλιοθηκών 1 Συστήματα Αυτοματισμού Βιβλιοθηκών Τα Συστήματα Αυτοματισμού Βιβλιοθηκών χρησιμοποιούνται για τη διαχείριση καταχωρήσεων βιβλιοθηκών. Τα περιεχόμενα των βιβλιοθηκών αυτών είναι έντυπα έγγραφα, όπως βιβλία

Διαβάστε περισσότερα

Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 - Project Σεπτεμβρίου Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος Εξέταση: Προφορική, στο τέλος της εξεταστικής. Θα βγει ανακοίνωση στο forum. Ομάδες

Διαβάστε περισσότερα

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Σύνθεση Πανοράµατος Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή

Διαβάστε περισσότερα

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου

6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 6. Βαθμολόγηση, Στάθμιση Όρων, και το Μοντέλο Διανυσματικού Χώρου Ανάκτηση Πληροφοριών Χρήστος ουλκερίδης

Διαβάστε περισσότερα

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή

Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή Γενικά Στοιχεία Ηλεκτρονικού Υπολογιστή 1. Ηλεκτρονικός Υπολογιστής Ο Ηλεκτρονικός Υπολογιστής είναι μια συσκευή, μεγάλη ή μικρή, που επεξεργάζεται δεδομένα και εκτελεί την εργασία του σύμφωνα με τα παρακάτω

Διαβάστε περισσότερα

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα.

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα. i Π Ρ Ο Λ Ο Γ Ο Σ Το βιβλίο αυτό αποτελεί μια εισαγωγή στα βασικά προβλήματα των αριθμητικών μεθόδων της υπολογιστικής γραμμικής άλγεβρας (computational linear algebra) και της αριθμητικής ανάλυσης (numerical

Διαβάστε περισσότερα

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης)

Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης & Μοντέλα Ανάκτησης) Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών ΗΥ463 Συστήματα Ανάκτησης Πληροφοριών 28-29 Εαρινό Εξάμηνο Προτεινόμενες Λύσεις 1 ης Σειράς Ασκήσεων (Αξιολόγηση της Αποτελεσματικότητας της Ανάκτησης &

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 9: Ανάδραση Σχετικότητας (Relevance Feedback ή RF) Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Τι (άλλο) θα δούμε σήμερα;

Τι (άλλο) θα δούμε σήμερα; Introduction to Information Retrieval ΠΛΕ70: Ανάκτηση Πληροφορίας Διδάσκουσα: Ευαγγελία Πιτουρά Διάλεξη6: Βαθμολόγηση. Στάθμιση όρων. Το μοντέλο διανυσματικού χώρου. 1 Κεφ. 6 Τι (άλλο) θα δούμε σήμερα;

Διαβάστε περισσότερα

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων

Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων Μία αξιωματική προσέγγιση για τη διαφοροποίηση των αποτελεσμάτων ΜΑΘΗΜΑ Ανάκτηση Πληροφορίας Παππάς Χρήστος Ιωάννινα, Ιανουάριος 2010 Διάρθρωση Εισαγωγή Πρόβλημα Σημαντικότητα Ενδιαφέροντα θέματα Τεχνικό

Διαβάστε περισσότερα

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής

Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2018-2019 Παρεμβολή & πρόγνωση άγνωστης συνάρτησης μέσω σημειακής προσαρμογής (Least squares collocation) Χριστόφορος Κωτσάκης Τμήμα Αγρονόμων

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA) ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Coponent Analysis, PCA) καθ. Βασίλης Μάγκλαρης aglaris@netode.ntua.gr www.netode.ntua.gr

Διαβάστε περισσότερα

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης

Ψηφιακές Τηλεπικοινωνίες. Βέλτιστος Δέκτης Ψηφιακές Τηλεπικοινωνίες Βέλτιστος Δέκτης Σύνδεση με τα Προηγούμενα Επειδή το πραγματικό κανάλι είναι αναλογικό, κατά τη διαβίβαση ψηφιακής πληροφορίας, αντιστοιχίζουμε τα σύμβολα σε αναλογικές κυματομορφές

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση Πληροφορίας (Information Retrieval IR) Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του αντικειµένου

Διαβάστε περισσότερα

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής

Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής Ειδικά Θέματα Συνορθώσεων & Εφαρμογές 8 ο εξάμηνο, Ακαδημαϊκό έτος 2016-2017 Βέλτιστη παρεμβολή και πρόγνωση άγνωστης συνάρτησης με τη μέθοδο της σημειακής προσαρμογής (Least squares collocation) Χριστόφορος

Διαβάστε περισσότερα

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Τεχνολογία Πολυμέσων Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το

Διαβάστε περισσότερα

Εισαγωγή στους Υπολογιστές

Εισαγωγή στους Υπολογιστές Εισαγωγή στους Υπολογιστές Ενότητα #2: Αναπαράσταση δεδομένων Αβεβαιότητα και Ακρίβεια Καθ. Δημήτρης Ματαράς Πολυτεχνική Σχολή Τμήμα Χημικών Μηχανικών Αναπαράσταση δεδομένων (Data Representation), Αβεβαιότητα

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ.

Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ. Αναλογικά & Ψηφιακά Κυκλώματα ιαφάνειες Μαθήματος ρ. Μηχ. Μαραβελάκης Εμ. 1 Εισαγωγή Αναλογικό σήμα (analog signal): συνεχής συνάρτηση στην οποία η ανεξάρτητη μεταβλητή και η εξαρτημένη μεταβλητή (π.χ.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΔΟΥΒΛΕΤΗΣ ΧΑΡΑΛΑΜΠΟΣ ΕΠΙΒΛΕΠΟΝΤΕΣ ΚΑΘΗΓΗΤΕΣ Μαργαρίτης Κωνσταντίνος Βακάλη

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ανάκτηση Πληροφορίας (Information Retrieval IR) Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων Ακαδηµαϊκό Έτος 2005-2006 ιδακτικό βοήθηµα 1 Καλύπτει το 60% του 510 σελίδες 1η

Διαβάστε περισσότερα

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ

Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Η ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΤΟ ΣΥΓΧΡΟΝΟ ΠΕΡΙΒΑΛΛΟΝ Ιόνιο Πανεπιστήµιο Τµήµα Αρχειονοµίας-Βιβλιοθηκονοµίας Μεταπτυχιακό Πρόγραµµα Σπουδών2007-2008 ιδάσκουσα: Κατερίνα Τοράκη (Οι διαλέξεις περιλαµβάνουν

Διαβάστε περισσότερα

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου Γλωσσικη τεχνολογια Προεπεξεργασία Κειμένου Στόχος Επεξεργασίας Γραπτό κείμενο: Τρόπος επικοινωνίας Φέρει σημασιολογικό περιεχόμενο Αναζητούμε τρόπο να: Μετρήσουμε το πληροφοριακό περιεχόμενο Ποσοτικοποιήσουμε

Διαβάστε περισσότερα

Εξομοίωση Τηλεπικοινωνιακού Συστήματος Βασικής Ζώνης

Εξομοίωση Τηλεπικοινωνιακού Συστήματος Βασικής Ζώνης Πανεπιστήμιο Πατρών Τμήμα Μηχ. Η/Υ & Πληροφορικής Ακαδημαϊκό Έτος 009-010 Ψ Η Φ Ι Α Κ Ε Σ Τ Η Λ Ε Π Ι Κ Ο Ι Ν Ω Ν Ι ΕΣ η Εργαστηριακή Άσκηση: Εξομοίωση Τηλεπικοινωνιακού Συστήματος Βασικής Ζώνης Στην άσκηση

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #02 Ιστορική αναδρομή Σχετικές επιστημονικές περιοχές 1 Άδεια χρήσης Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση)

Τι είναι βαθμωτό μέγεθος? Ένα μέγεθος που περιγράφεται μόνο με έναν αριθμό (π.χ. πίεση) TETY Εφαρμοσμένα Μαθηματικά Ενότητα ΙΙ: Γραμμική Άλγεβρα Ύλη: Διανυσματικοί χώροι και διανύσματα, μετασχηματισμοί διανυσμάτων, τελεστές και πίνακες, ιδιοδιανύσματα και ιδιοτιμές πινάκων, επίλυση γραμμικών

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος 3

Περιεχόμενα. Πρόλογος 3 Πρόλογος Η χρησιμότητα της Γραμμικής Άλγεβρας είναι σχεδόν αυταπόδεικτη. Αρκεί μια ματιά στο πρόγραμμα σπουδών, σχεδόν κάθε πανεπιστημιακού τμήματος θετικών επιστημών, για να διαπιστώσει κανείς την παρουσία

Διαβάστε περισσότερα

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Μεταπτυχιακή Διπλωματική Εργασία. «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741 Μεταπτυχιακό Πρόγραμμα: «Επιστήμη και Τεχνολογία Υπολογιστών» Μεταπτυχιακή Διπλωματική Εργασία «Τεχνικές Δεικτοδότησης Συστημάτων Ανάκτησης Πληροφορίας με τη χρήση Wavelet Trees» Κατσίπη Δήμητρα ΑΜ: 741

Διαβάστε περισσότερα

Ανάκτηση πληροφορίας

Ανάκτηση πληροφορίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ανάκτηση πληροφορίας Ενότητα 3: Μοντελοποίηση: Boolean μοντέλο Απόστολος Παπαδόπουλος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Δυναμικές Δομές Δεδομένων Λίστες Δένδρα - Γράφοι

Δυναμικές Δομές Δεδομένων Λίστες Δένδρα - Γράφοι Δυναμικές Δομές Δεδομένων Λίστες Δένδρα - Γράφοι Κ Ο Τ Ι Ν Η Ι Σ Α Β Ε Λ Λ Α Ε Κ Π Α Ι Δ Ε Υ Τ Ι Κ Ο Σ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Π Ε 8 6 Ν Ε Ι Ρ Ο Σ Α Ν Τ Ω ΝΙ Ο Σ Ε Κ Π Α Ι Δ Ε Υ Τ Ι Κ Ο Σ Π Λ Η Ρ Ο Φ Ο

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο Πρόβλημα ο Ασκήσεις Φροντιστηρίου 5 o Φροντιστήριο Δίνεται το παρακάτω σύνολο εκπαίδευσης: # Είσοδος Κατηγορία 0 0 0 Α 2 0 0 Α 0 Β 4 0 0 Α 5 0 Β 6 0 0 Α 7 0 Β 8 Β α) Στον παρακάτω κύβο τοποθετείστε τα

Διαβάστε περισσότερα

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή Oι οπτικές επιδράσεις, που μπορεί να προκαλέσει μια εικόνα στους χρήστες, αποτελούν ένα από τα σπουδαιότερα αποτελέσματα των λειτουργιών γραφικών με Η/Υ. Τον όρο της οπτικοποίησης

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

EBSCOhost Research Databases

EBSCOhost Research Databases Η EBSCOhost είναι ένα online σύστημα αναζήτησης σε έναν αριθμό βάσεων δεδομένων, στις οποίες είναι συμβεβλημένο κάθε φορά το ίδρυμα. Διαθέτει πολύγλωσσο περιβάλλον αλληλεπίδρασης (interface) με προεπιλεγμένη

Διαβάστε περισσότερα

Ανάκτηση Δεδομένων (Information Retrieval)

Ανάκτηση Δεδομένων (Information Retrieval) Ανάκτηση Δεδομένων (Information Retrieval) Παύλος Εφραιμίδης Βάσεις Δεδομένων Ανάκτηση Δεδομένων 1 Information Retrieval (1) Βάσεις Δεδομένων: Περιέχουν δομημένη πληροφορία: Πίνακες Ανάκτηση Πληροφορίας

Διαβάστε περισσότερα

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι

HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems. Μοντέλα Ανάκτησης Ι Πανεπιστήμιο Κρήτης, Τμήμα Επιστήμης Υπολογιστών Άνοιξη 009 HΥ463 - Συστήματα Ανάκτησης Πληροφοριών Information Retrieval (IR) Systems Μοντέλα Ανάκτησης Ι (Retrieval Models) Γιάννης Τζίτζικας άλ ιάλεξη

Διαβάστε περισσότερα

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση Πίνακες Διασποράς Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση κλειδί k T 0 1 2 3 4 5 6 7 U : χώρος πιθανών κλειδιών Τ : πίνακας μεγέθους

Διαβάστε περισσότερα

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1 Ήχος Χαρακτηριστικά του ήχου Ψηφιοποίηση με μετασχηματισμό Ψηφιοποίηση με δειγματοληψία Κβαντοποίηση δειγμάτων Παλμοκωδική διαμόρφωση Συμβολική αναπαράσταση μουσικής Τεχνολογία Πολυμέσων και Πολυμεσικές

Διαβάστε περισσότερα

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής

Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής. Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Ειδικά Θέµατα Υπολογιστικής Όρασης & Γραφικής Εµµανουήλ Ζ. Ψαράκης & Αθανάσιος Τσακαλίδης Πολυτεχνική Σχολή Τµήµα Μηχανικών Η/Υ & Πληροφορικής Χαρακτηριστικά Εµµανουήλ Ζ. Ψαράκης Πολυτεχνική Σχολή Τµήµα

Διαβάστε περισσότερα

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΕΝΟΤΗΤΑ 1 : ΕΙΣΑΓΩΓΗ Διάλεξη 1: Γενικά για το ΓΣΠ, Ιστορική αναδρομή, Διαχρονική εξέλιξη Διάλεξη 2 : Ανάλυση χώρου (8/4/2013) Διάλεξη 3: Βασικές έννοιες των Γ.Σ.Π.. (8/4/2013)

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης Πιθανότητες & Τυχαία Σήματα Διγαλάκης Βασίλης Τυχαία Σήματα Γενίκευση τυχαίων διανυσμάτων Άπειρο σύνολο πιθανά αριθμήσιμο από τυχαίες μεταβλητές Παραδείγματα τυχαίων σημάτων: Τηλεπικοινωνίες: Σήμα πληροφορίας

Διαβάστε περισσότερα

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας Ακαδημαϊκό Έτος 2015-16 Παρουσίαση Νο. 1 Εισαγωγή Τι είναι η εικόνα; Οτιδήποτε μπορούμε να δούμε ή να απεικονίσουμε Π.χ. Μια εικόνα τοπίου αλλά και η απεικόνιση

Διαβάστε περισσότερα

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας

Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας Χωρικές και Πολυμεσικές Βάσεις Δεδομένων (ΠΜΣ) Ενδεικτικές ερωτήσεις-θέματα για την εξέταση της θεωρίας 1. Ποια είναι τα βασικά πλεονεκτήματα ενός παραδοσιακού σχεσιακού συστήματος βάσεων δεδομένων και

Διαβάστε περισσότερα

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. ΕΡΓΑΣΙΑ 4 «Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ. Στόχος Στόχος της Εργασίας 4 είναι να η εξοικείωση με την αντικειμενοστρέφεια (object oriented programming). Πιο συγκεκριμένα,

Διαβάστε περισσότερα

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η μέθοδος PCA (Ανάλυση Κύριων Συνιστωσών), αποτελεί μία γραμμική μέθοδο συμπίεσης Δεδομένων η οποία συνίσταται από τον επαναπροσδιορισμό των συντεταγμένων ενός

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων Βάσεις Δεδομένων 2013-2014 Ευαγγελία Πιτουρά 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα Βάσεις

Διαβάστε περισσότερα

Εφαρµογες Της Ψηφιακης Επεξεργασιας Σηµατων. Εκτιµηση Συχνοτητων Με ΙδιοΑναλυση του Μητρωου ΑυτοΣυσχετισης

Εφαρµογες Της Ψηφιακης Επεξεργασιας Σηµατων. Εκτιµηση Συχνοτητων Με ΙδιοΑναλυση του Μητρωου ΑυτοΣυσχετισης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Εφαρµογες Της Ψηφιακης Επεξεργασιας Σηµατων Εκτιµηση Συχνοτητων Με ΙδιοΑναλυση του Μητρωου ΑυτοΣυσχετισης

Διαβάστε περισσότερα

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ

ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ ΛΥΣΕΙΣ 2 ης ΣΕΙΡΑΣ ΑΣΚΗΣΕΩΝ Άσκηση 1 Θεωρείστε μια συλλογή κειμένων που περιέχει τα ακόλουθα 5 έγγραφα: Έγγραφο 1: «Computer Games» Έγγραφο 2: «Computer Games Computer Games» Έγγραφο 3: «Games Theory and

Διαβάστε περισσότερα

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων 1 Επεξεργασία Ερωτήσεων Θα δούμε την «πορεία» μιας SQL ερώτησης (πως εκτελείται) Ερώτηση SQL Ερώτηση ΣΒΔ Αποτέλεσμα 2 Βήματα Επεξεργασίας Τα βασικά βήματα στην επεξεργασία

Διαβάστε περισσότερα

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος

ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος ΠΑΡΆΡΤΗΜΑ Β Ενδεικτική Λίστα Διδασκόντων Μελών Δ.Ε.Π. του Τμήματος 1 Βασίλειος Χρυσικόπουλος Καθηγητής Πληροφορική Δίκτυα Ασφάλεια Πληροφοριών Ερευνητικά Ενδιαφέροντα Ασφάλεια Δίκτυα Η/Υ http://di.ionio.gr/staff-2/faculty-staff/vassilischrissikopoulos/

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. ΕΙΣΑΓΩΓΗ: Γνωριμία με την ΑΚΟΥΣΤΙΚΗ 1 ΜΕΡΟΣ ΠΡΩΤΟ: ΘΕΩΡΙΑ 5. 1 ος ΘΕΜΑΤΙΚΟΣ ΑΞΟΝΑΣ: ΤΑΛΑΝΤΩΣΕΙΣ 7 Προσδοκώμενα αποτελέσματα 8

ΠΕΡΙΕΧΟΜΕΝΑ. ΕΙΣΑΓΩΓΗ: Γνωριμία με την ΑΚΟΥΣΤΙΚΗ 1 ΜΕΡΟΣ ΠΡΩΤΟ: ΘΕΩΡΙΑ 5. 1 ος ΘΕΜΑΤΙΚΟΣ ΑΞΟΝΑΣ: ΤΑΛΑΝΤΩΣΕΙΣ 7 Προσδοκώμενα αποτελέσματα 8 ΠΕΡΙΕΧΟΜΕΝΑ ΕΙΣΑΓΩΓΗ: Γνωριμία με την ΑΚΟΥΣΤΙΚΗ 1 ΜΕΡΟΣ ΠΡΩΤΟ: ΘΕΩΡΙΑ 5 1 ος ΘΕΜΑΤΙΚΟΣ ΑΞΟΝΑΣ: ΤΑΛΑΝΤΩΣΕΙΣ 7 Προσδοκώμενα αποτελέσματα 8 1.1. Περιοδική κίνηση Περιοδικά φαινόμενα 9 1.2. Ταλάντωση - Ταλαντούμενα

Διαβάστε περισσότερα

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB )

Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB ) Μια «ανώδυνη» εισαγωγή στο μάθημα (και στο MATLAB ) Μια πρώτη ιδέα για το μάθημα χωρίς καθόλου εξισώσεις!!! Περίγραμμα του μαθήματος χωρίς καθόλου εξισώσεις!!! Παραδείγματα από πραγματικές εφαρμογές ==

Διαβάστε περισσότερα

Επιστημονικοί Υπολογισμοί (ή Υπολογιστική Επιστήμη)

Επιστημονικοί Υπολογισμοί (ή Υπολογιστική Επιστήμη) Επιστημονικοί Υπολογισμοί (ή Υπολογιστική Επιστήμη) Ασχολoύνται με την κατασκευή μαθηματικών μοντέλων και με τεχνικές ποσοτικής ανάλυσης και τη χρήση υπολογιστών για την ανάλυση και την επίλυση επιστημονικών

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Πεπερασμένες και Διαιρεμένες Διαφορές Εισαγωγή Θα εισάγουμε την έννοια των διαφορών με ένα

Διαβάστε περισσότερα

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω:

Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω: Σημειώσεις Δικτύων Αναλογικά και ψηφιακά σήματα Ένα αναλογικό σήμα περιέχει άπειρες πιθανές τιμές. Για παράδειγμα ένας απλός ήχος αν τον βλέπαμε σε ένα παλμογράφο θα έμοιαζε με το παρακάτω: Χαρακτηριστικά

Διαβάστε περισσότερα

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03 Ιόνιο Πανεπιστήμιο Τμήμα Πληροφορικής Ανάκτηση Πληροφορίας Διδάσκων: Φοίβος Μυλωνάς fmylonas@ionio.gr Διάλεξη #03 Βασικές έννοιες Ανάκτησης Πληροφορίας Δομή ενός συστήματος IR Αναζήτηση με keywords ευφυής

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Το Πολυεπίπεδο Perceptron. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Το Πολυ Perceptron Δίκτυα Πρόσθιας Τροφοδότησης (feedforward) Tο αντίστοιχο γράφημα του δικτύου δεν περιλαμβάνει κύκλους: δεν υπάρχει δηλαδή ανατροφοδότηση της εξόδου ενός νευρώνα προς τους νευρώνες από

Διαβάστε περισσότερα

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3

Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 Ανάπτυξη Οντολογίας Βιοϊατρικών Όρων Α. Βαγγελάτος 2, Γ. Ορφανός 2, Χ. Τσαλίδης 2, Χ. Καλαμαρά 3 www.iatrolexi.cti.gr 1 Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών (ΕΑΙΤΥ) Σελίδα 1 Ημερομηνία:

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ. ΕΙΣΑΓΩΓΗ ΚΑΙ ΜΙΑ ΜΙΚΡΗ ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ...xi

ΠΕΡΙΕΧΟΜΕΝΑ. ΕΙΣΑΓΩΓΗ ΚΑΙ ΜΙΑ ΜΙΚΡΗ ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ...xi ΠΕΡΙΕΧΟΜΕΝΑ (Με * έχουν σημειωθεί ενότητες που μπορούν να παραλειφθούν σε ένα προπτυχιακό επίπεδο σπουδών) ΕΙΣΑΓΩΓΗ ΚΑΙ ΜΙΑ ΜΙΚΡΗ ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ...xi ΚΕΦΑΛΑΙΟ Ι ΤΑ ΘΕΜΕΛΙΑ ΤΗΣ ΓΡΑΜΜΙΚΗΣ ΑΛΓΕΒΡΑΣ...

Διαβάστε περισσότερα

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 4

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 4 Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Τομέας Συστημάτων και Αυτομάτου Ελέγχου ΠΡΟΣΑΡΜΟΣΤΙΚΟΣ ΕΛΕΓΧΟΣ Διάλεξη 4 Πάτρα 2008 Ντετερμινιστικά Moving Average Μοντέλα Ισχύει:

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 2 Επισκόπηση θεωρίας πιθανοτήτων Τυχαίες μεταβλητές: Βασικές έννοιες Τυχαία μεταβλητή: Μεταβλητή της οποίας δε γνωρίζουμε με βεβαιότητα την τιμή (σε αντίθεση με τις

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας

215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας 215 Μηχανικών Η/Υ και Πληροφορικής Πάτρας Το Τμήμα ασχολείται με τη διδασκαλία και την έρευνα στην επιστήμη και τεχνολογία των υπολογιστών και τη μελέτη των εφαρμογών τους. Το Τμήμα ιδρύθηκε το 1980 (ως

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Σαράντος Καπιδάκης

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Σαράντος Καπιδάκης ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Σαράντος Καπιδάκης 0_CONT_Ω.indd iii τίτλος: ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ συγγραφέας: Καπιδάκης Σαράντος 2014 Εκδόσεις Δίσιγμα Για την ελληνική γλώσσα σε όλον τον

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Στ Τάξη. Α/Α Μαθηματικό περιεχόμενο Δείκτες Επιτυχίας Ώρες Διδ. 1 ENOTHTA 1

Στ Τάξη. Α/Α Μαθηματικό περιεχόμενο Δείκτες Επιτυχίας Ώρες Διδ. 1 ENOTHTA 1 Ενδεικτική Οργάνωση Ενοτήτων Στ Τάξη Α/Α Μαθηματικό περιεχόμενο Δείκτες Επιτυχίας Ώρες Διδ. 1 ENOTHTA 1 15 Αρ3.1 Απαγγέλουν, διαβάζουν, γράφουν και αναγνωρίζουν ποσότητες αριθμών Επανάληψη μέχρι το 1 000

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα