Εξόρυξη γνώσης από μουσική πληροφορία

Σχετικά έγγραφα
Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Σκοπός. Εργαστήριο 6 Εντολές Επανάληψης

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Υπολογιστικό Πρόβληµα

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Δομές Δεδομένων & Αλγόριθμοι

ΔΙΑΣΧΙΣΗ ΓΡΑΦΗΜΑΤΩΝ 1

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Κατανεμημένα Συστήματα Ι

Υπολογιστικά & Διακριτά Μαθηματικά

Θεωρήστε ένα puzzle (παιχνίδι σπαζοκεφαλιάς) με την ακόλουθη αρχική διαμόρφωση : b b b w w w e

Δομές Δεδομένων και Αλγόριθμοι

Κεφάλαιο 5: Στρατηγική χωροταξικής διάταξης

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

Σειρά Προβλημάτων 4 Λύσεις

ΕΝΑΣ ΔΙΚΡΙΤΗΡΙΟΣ ΑΛΓΟΡΙΘΜΟΣ SIMPLEX

Αλγόριθμοι Ταξινόμησης Μέρος 4

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Ταξινόμηση: Εισαγωγικά. Ταξινόμηση (Sor ng) Αλγόριθμοι Απλής Ταξινόμησης. Βασικά Βήματα των Αλγορίθμων

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

Δέντρα Απόφασης (Decision(

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

Γράφημα. Συνδυαστικό αντικείμενο που αποτελείται από 2 σύνολα: Σύνολο κορυφών (vertex set) Σύνολο ακμών (edge set) 4 5 πλήθος κορυφών πλήθος ακμών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Ψευδοκώδικας. November 7, 2011

Κεφάλαιο 10 Ψηφιακά Λεξικά

ΜΕΡΙΚΑ ΣΤΟΙΧΕΙΑ ΓΙΑ ΤΙΣ ΓΛΩΣΣEΣ ΠPOΓPAMMATIΣMOY

E [ -x ^2 z] = E[x z]

Θεωρία Γραφημάτων 6η Διάλεξη

Ενδεικτικές Ερωτήσεις Θεωρίας

Κεφ.11: Ευρετήρια και Κατακερματισμός

Ανάλυση των δραστηριοτήτων κατά γνωστική απαίτηση

Δομές Δεδομένων Ενότητα 2

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Προσεγγιστικοί Αλγόριθμοι

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΑΣΚΗΣΕΙΣ C ΣΕΙΡΑ 1 η

Οι δυναμικές δομές δεδομένων στην ΑΕΠΠ

Κατηγορίες Συμπίεσης. Συμπίεση με απώλειες δεδομένων (lossy compression) π.χ. συμπίεση εικόνας και ήχου

Περιεχόμενα. Περιεχόμενα

ΣΥΝΕΚΤΙΚΟΤΗΤΑ ΓΡΑΦΗΜΑΤΩΝ

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Κεφάλαιο 11 Ένωση Ξένων Συνόλων

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Δομές Δεδομένων και Αλγόριθμοι

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Πληροφορική 2. Δομές δεδομένων και αρχείων

Εισαγωγή στην Πληροφορική

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΤΕΧΝΙΚΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

5. Απλή Ταξινόμηση. ομές εδομένων. Χρήστος ουλκερίδης. Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων

Διαχρονικές δομές δεδομένων

Σειρά Προβλημάτων 5 Λύσεις

Σειρά Προβλημάτων 4 Λύσεις

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Δομές Δεδομένων και Αλγόριθμοι

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Γραφήματα. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Παράδειγμα δομικής επαγωγής Ορισμός δομικής επαγωγής Συμβολοσειρές Γλώσσες Δυαδικά δένδρα Μαθηματικά Πληροφορικής 3ο Μάθημα Αρχικός συγγραφέας: Ηλίας

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

4.3. Γραµµικοί ταξινοµητές

Διάλεξη 04: Παραδείγματα Ανάλυσης

Μερικές φορές δεν μπορούμε να αποφανθούμε για την τιμή του άπειρου αθροίσματος.

I. ΑΛΓΟΡΙΘΜΟΣ II. ΠΡΑΞΕΙΣ - ΣΥΝΑΡΤΗΣΕΙΣ III. ΕΠΑΝΑΛΗΨΕΙΣ. 1. Τα πιο συνηθισμένα σενάρια παραβίασης αλγοριθμικών κριτηρίων είναι:

Δένδρα Αναζήτησης Πολλαπλής Διακλάδωσης

P(n, r) = n r. (n r)! n r. n+r 1

Θεωρία Υπολογισμού και Πολυπλοκότητα Μαθηματικό Υπόβαθρο

Κατανεμημένα Συστήματα Ι

Τεχνικές Εξόρυξης Δεδομένων

Παράδειγμα δομικής επαγωγής Ορισμός δομικής επαγωγής Συμβολοσειρές Γλώσσες Δυαδικά δένδρα Μαθηματικά Πληροφορικής 3ο Μάθημα Τμήμα Πληροφορικής και Τηλ

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάλυση αλγορίθμων. Χρόνος εκτέλεσης: Αναμενόμενη περίπτωση. - απαιτεί γνώση της κατανομής εισόδου

Αντισταθμιστική ανάλυση

Αλγόριθμοι και Πολυπλοκότητα

ΘΕΜΑ 1: Αλγόριθμος Ford-Fulkerson

Κατ οίκον Εργασία 5 Σκελετοί Λύσεων

Ταξινόμηση. 1. Ταξινόμηση του Shell. Εισαγωγή στην Ανάλυση Αλγορίθμων Μάγια Σατρατζέμη

Ταξινόμηση με συγχώνευση Merge Sort

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Δομές Δεδομένων. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής. Δομές Δεδομένων. Τμήμα Εφαρμοσμένης Πληροφορικής

Transcript:

ΚΕΦΑΛΑΙΟ 3 Εξόρυξη γνώσης από μουσική πληροφορία Περιεχόμενα 3.1 ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ.......... 51 3.2 ΟΜΑΔΟΠΟΙΗΣΗ....................... 68 3.1 Επαναλαμβανόμενα πρότυπα 3.1.1 Εισαγωγή Ένας χαρακτηριστικός τύπος αναπαράστασης μουσικών δεδομένων βασίζεται στη χρήση επαναλαμβανόμενων προτύπων (ΕΠ) που ενυπάρχουν στα μουσικά δεδομένα, δηλαδή, τμήματα του μουσικού αντικειμένου, τα οποία επαναλαμβάνονται. Στην αναπαράσταση αυτή, ένα επαναλαμβανόμενο πρότυπο αντιστοιχεί σε ένα μοτίβο, δηλαδή σε ένα ελάχιστου μήκους πρότυπο που είναι νοηματικά ανεξάρτητο και πλήρες σε ένα μουσικό αντικείμενο. Τα επαναλαμβανόμενα πρότυπα αποτελούν μια χρήσιμη αναπαράσταση ενός μουσικού αντικειμένου. Η χρήση τους (με την έννοια των μοτίβων) υπήρξε εκτεταμένη στο ρου της ιστορίας της μουσικής [4] αλλά και στη σύγχρονη μουσική έρευνα [3], καθώς αποτελούν μια συμπυκνωμένη μορφή για τη δεικτοδότηση των αρχικών μορφών (λ.χ., ασυμπίεστο ακουστικό σήμα, αρχεία τύπου MIDI, κτλ.). Το γεγονός αυτό οφείλεται στο ότι το συνολικό μέγεθος όλων των επαναλαμβανόμενων προτύπων είναι μικρότερο από ότι το μέγεθος του μουσικού αντικειμένου. Συνεπώς, τα επαναλαμβανόμενα πρότυπα ικανοποιούν τα αιτήματα σημασιολογίας και απόδοσης που απαιτεί η 51

52 ανάκτηση μουσικής πληροφορίας βάσει περιεχόμενου [14, 50]. Εξαιτίας των προαναφερθέντων, τα επαναλαμβανόμενα πρότυπα έχουν ήδη χρησιμοποιηθεί για τη δεικτοδότηση μουσικών ακολουθιών στην ανάκτηση μουσικής πληροφορίας [14]. Επιπλέον, τα πρότυπα αυτά παρέχουν ένα σημείο αναφοράς για την ανεύρεση των μουσικών θεμάτων [32, 49]. Ένα μουσικό θέμα (ιδιαιτέρως στην κλασική δυτικού τύπου μουσική) είναι το τμήμα εκείνο της μελωδίας, το οποίο ο συνθέτης χρησιμοποιεί ως εναρκτήριο σημείο για περαιτέρω ανάπτυξη, και το οποίο πιθανώς επαναλαμβάνεται με τη μορφή παραλλαγών 1 [49]. Τέλος, τα επαναλαμβανόμενα πρότυπα έχουν θεωρηθεί ως χαρακτηριστικές υπογραφές των μουσικών αντικειμένων, με την έννοια ποσοτικών μέτρων για τη διαπίστωση της μουσικής ομοιότητας [11]. Για το πρόβλημα της αποδοτικής ανεύρεσης επαναλαμβανόμενων προτύπων, στη σύγχρονη βιβλιογραφία παρουσιάζονται διάφορες τεχνικές εξόρυξης δεδομένων [14, 23, 32, 49]. Καθώς η άμεση χρήση των επαναλαμβανόμενων προτύπων εμφανίζει πολλαπλές δυσκολίες, πρωτίστως λόγω του αυξημένου πλήθους τους, το επίκεντρο έχει εστιαστεί στα λεγόμενα μη-τετριμμένα επαναλαμβανόμενα πρότυπα [14, 32, 20]. Μολοντούτο, το πλήθος των μη-τετριμμένων επαναλαμβανόμενων προτύπων μπορεί επίσης να είναι αρκετά μεγάλο ώστε να δυσκολεύει τη εξέταση τους δια χειρός από αναλυτές. Για παράδειγμα, μουσικά αντικείμενα με μέγεθος παραπλήσιο των 1000 νοτών μπορούν να περιέχουν αρκετές δεκάδες μητετριμμένων επαναλαμβανόμενων προτύπων [14], ενώ οι αριθμοί αυτοί αυξάνουν για μεγαλύτερα μουσικά κομμάτια. Το γεγονός αυτό μπορεί έχει επιπτώσεις και στην ικανότητα των μη-τετριμμένων επαναλαμβανόμενων προτύπων να καταδεικνύουν τα μουσικά θέματα, καθώς αρκετά από τα πρότυπα είναι πιθανώς ψεύτικα και άσχετα με τα μουσικά θέματα. Κατά συνέπεια, η τρέχουσα έρευνα αναγνώρισε ότι μεταξύ των μη-τετριμμένων επαναλαμβανόμενων προτύπων, τα μέγιστα σε μήκος είναι τα πρότυπα που μπορούν να χαρακτηριστούν ως χαρακτηριστικές συμβολοσειρές μελωδίας και είναι αυτά που συνήθως οδηγούν στα μουσικά θέματα [32]. Το εύρημα αυτό εξετάζεται περαιτέρω στην [14], όπου εμφανίζονται ενδείξεις ότι τα Μεγίστου Μήκους Επαναλαμβανόμενα Πρότυπα (ΜΜΕΠ) (περιορισμένα από μια μέγιστη τιμή μήκους, λ.χ. 30) είναι τα πρότυπα, όπου συνήθως βασίζονται τα μουσικά θέματα. Στην ίδια ερευνητική κατεύθυνση, οι συγγραφείς της [49] προτείνουν μια μέθοδο ανεύρεσης των μουσικών θεμάτων, η οποία βασίζεται σε μια αρχικά υπολογισμένη συλλογή των μέγιστου μήκους επαναλαμβανόμενων προτύπων. 2 1 Ο βαθμός της μεταβολής καθώς και η συχνότητα επανάληψης ενός θέματος παρουσιάζουν διακυμάνσεις μεταξύ των συνθετών και των ειδών της μουσικής (λ.χ., μεταξύ της κλασικής και σύγχρονης δημοφιλούς μουσικής). 2 Χρήζει μνείας το γεγονός ότι τα ΜΜΕΠ που ανακαλύπτονται οφείλουν να εξετάζονται περαι-

53 Μια απλοϊκή μέθοδος για την ανεύρεση των ΜΜΕΠ θα μπορούσε να αποτελείται από την επιλογή τους σε ένα βήμα επεξεργασίας μετά την εξόρυξη όλων των μη-τετριμμένων επαναλαμβανόμενων προτύπων. Ωστόσο, το μήκος των ΜΜΕΠ συνήθως τείνει να είναι μεγάλο (πειραματικά δεδομένα [14, 23] έδειξαν ότι μπορεί να είναι μέχρι και αρκετές δεκάδες). Επίσης, η άμεση μέθοδος αποδεικνύεται ιδιαιτέρως μη αποδοτική, καθώς το πλήθος των ενδιάμεσων επαναλαμβανόμενων προτύπων (δηλ. αυτών που δεν είναι μεγίστου μήκους) πρέπει να εξεταστεί πριν βρεθούν τα μεγίστου μήκους. Συνεπώς απαιτήθηκε η ανάπτυξη νέων αλγορίθμων [20] για την αποδοτική ανεύρεση των ΜΜΕΠ, οι οποίοι δεν απαιτούν την ανεύρεση των ενδιάμεσων επαναλαμβανόμενων προτύπων. Όπως ήδη αναφέρθηκε, καθώς το πλήθος των προτύπων αυτών μπορεί να φθάσει ακόμα και τις αρκετές δεκάδες, για λόγους απόδοσης πρέπει να αποφευχθούν οι δαπανηροί υπολογισμοί κατά τη διάρκεια της ανεύρεσης, εξετάζοντας όσο το δυνατό λιγότερα ενδιάμεσα πρότυπα ώστε να εντοπιστεί γρήγορα το σύνολο των ΜΜΕΠ. Στο σημείο αυτό χρήζει μνείας η ανάλογη αιτιολόγηση που έχει χρησιμοποιηθεί σε άλλους τομείς της εξόρυξης δεδομένων, λ.χ. στην εξόρυξη των μεγάλων στοιχειοσυνόλων [6, 31, 58]. Μολαταύτα, υπάρχουν σημαντικές διαφορές (που αναλύονται εκτενώς στην Ενότητα 3.1.2.2) μεταξύ του προβλήματος αυτού και της εξόρυξης των ΜΜΕΠ. Περιληπτικά, οι βασικές διαφορές εντοπίζονται στο γεγονός ότι οι μέθοδοι για τα μεγάλα στοιχειοσύνολα εστιάζουν σε μεγάλες και εγκατεστημένες σε δίσκους βάσεις στοιχειοσυνόλων, ενώ για την ανεύρεση των ΜΜΕΠ οι μουσικές ακολουθίες βρίσκονται στη μνήμη και οι αλγόριθμοι δίνουν προτεραιότητα στην επίτευξη καλύτερων χρόνων εκτέλεσης. Επιπλέον, στο πρόβλημα της ανεύρεσης των ΜΜΕΠ, οι αλγόριθμοι έχουν κατώφλι συχνότητας των επαναλαμβανόμενων προτύπων ίσο με τη μονάδα, ενώ στην εξόρυξη των στοιχειοσυνόλων αλγόριθμοι με τέτοια προϋπόθεση θα προκαλούσαν αυξημένη επιβάρυνση. Τέλος, οι αλγόριθμοι που προτείνονται οφείλουν να αντιμετωπίζουν τα ιδιαίτερα χαρακτηριστικά του υπό εξέταση προβλήματος, όπως η διάταξη των νοτών στις μουσικές ακολουθίες, παράγοντες που δεν εμφανίζονται σε παρόμοιους τομείς όπως η ανεύρεση των επαναλαμβανόμενων στοιχειοσυνόλων. τέρω βάσει αρκετών χαρακτηριστικών (λ.χ., συχνότητα, διάρκεια, ρυθμική συνέπεια, θέση) [38] ώστε να οδηγήσουν ουσιαστικά στα μουσικά θέματα. Παρόλα αυτά, όπως και στην [14], το Κεφάλαιο αυτό εστιάζει στη διαδικασία ανεύρεσης των ΜΜΕΠ. Κατά συνέπεια, η εξέταση τέτοιων ιδιαίτερων χαρακτηριστικών είναι εκτός του στόχου του παρόντος.

54 3.1.2 Σχετικές εργασίες 3.1.2.1 Εξόρυξη επαναλαμβανόμενων προτύπων και ανεύρεση μουσικών θεμάτων Η διαδικασία εξόρυξης ΕΠ παρουσιάζεται στις εργασίες [14, 32], όπου δυο αλγόριθμοι προτείνονται για την ανεύρεση των μη-τετριμμένων ΕΠ και της χαρακτηριστικής μελωδικής συμβολοσειράς. Ο πρώτος αλγόριθμος χρησιμοποιεί μια αμοιβαία συσχετιζόμενη μήτρα για την εξαγωγή των ΕΠ, ενώ ο δεύτερος βασίζεται σε μια επαναλαμβανόμενη λειτουργία ένωσης συμβολοσειρών. Πειραματικά αποτελέσματα των εργασιών [14, 32] υποδεικνύουν την υπεροχή του δεύτερου αλγόριθμου σε σχέση με τη μέθοδο με την αμοιβαία συσχετιζόμενη μήτρα. Περισσότερες πληροφορίες για τη μέθοδο με την ένωση συμβολοσειρών δίνονται στην Ενότητα 3.1.3.2. Οι Koh και Yu [23] παρουσίασαν μια μέθοδο εξόρυξης των ΜΜΕΠ από τη μελωδία ενός μουσικού δεδομένου χρησιμοποιώντας μια ακολουθία bit index όπως επίσης και μια επέκταση για την εξαγωγή των συχνών ακολουθιών νοτών από ένα σύνολο μουσικών αντικειμένων. Στη μέθοδο που προτείνεται στην εργασία [23], όλα τα ΕΠ βρίσκονται και επιβεβαιώνονται υπολογίζοντας τη συχνότητα εμφάνισής τους, ενώ ο έλεγχος πλεονασμού εκτελείται σε επόμενο στάδιο δημιουργώντας το σύνολο ΜΜΕΠ με μη αποδοτικό τρόπο. Οι Rolland και Ganascia [45], πρότειναν μια μέθοδο για την κατά προσέγγιση εξαγωγή των σειριακών προτύπων σε μουσικά δεδομένα, η οποία εξετάζει ένα πλήθος ιδιαιτεροτήτων των μουσικών δεδομένων και βασίζεται στον ορισμό μιας συνάρτησης ομοιότητας. Όσον αφορά στη συμμετοχή των ΕΠ στην ανεύρεση των μουσικών θεμάτων, οι Smith και Medina [49] πρότειναν μια τεχνική ταιριάσματος προτύπων, η οποία καταλήγει στα μουσικά θέματα και βασίζεται σε πρότερη συλλογή των ΜΜΕΠ. Οι Meek και Birmingham στην εργασία [38] προσδιόρισαν μια πληθώρα χαρακτηριστικών, που απαιτείται να εξαχθούν από τα μουσικά δεδομένα για την ανεύρεση των μουσικών θεμάτων. Μεταξύ αυτών, θεωρούν ως σημαντικότερο τη θέση του θέματος (προτιμώντας τα θέματα που εμφανίζονται νωρίτερα στο μουσικό δεδομένο). Καθώς τέτοια χαρακτηριστικά, που προκύπτουν από ΕΠ, μπορούν να χρησιμοποιηθούν για την ανεύρεση των μουσικών θεμάτων, οι εργασίες [38, 49] μπορούν να θεωρηθούν συμπληρωματικές στο πρόβλημα που αντιμετωπίζει το παρόν κεφάλαιο. Επιπλέον, ένα ενδιαφέρον σύστημα για την ανεύρεση μουσικών θεμάτων βασισμένο στον παγκόσμιο ιστό παρουσιάζεται στην [24]. Τα πρότυπα είναι πιθανό να μη βρίσκονται μόνο σε μια φωνή (στην περίπτωση της πολυφωνικής μουσικής), καθώς ένα πρότυπο μπορεί να είναι κατανεμημένο σε αρκετές παράλληλα ηχούσες φωνές. Οι συγγραφείς των [18, 19] παρουσίασαν αλγόριθμους για την ανεύρεση κατανεμημένων προτύπων μεταξύ των οποίων και

55 για το ταίριασμα κατανεμημένων προτύπων με το μέγιστο k διαφορές (εξέλιξη μοτίβου). Οι προαναφερθείσες εργασίες πρωτίστως εξετάζουν στο πρόβλημα της ανεύρεσης όλων των ΕΠ και τη σχέση τους με το σύνολο των μουσικών θεμάτων. Το εστιακό ενδιαφέρον του παρόντος κεφαλίου βρίσκεται στην ανεύρεση όλων των ΜΜΕΠ. Στο σημείο «πολλά ΕΠ (τουλάχιστο τα μεγίστου μήκους) ενός πραγματικού μουσικού αντικειμένου είναι εκ-προθέσεως κατασκευασμένα από το συνθέτη» [32]. Ακολούθως, η ύπαρξη των ΜΜΕΠ είναι βάσει πρόθεσης του συνθέτη. Συνεπώς, η αναγκαιότητα της ανεύρεσης τους είναι προφανής, εφόσον αποδίδουν πληροφορίες για την πρόθεση του συνθέτη. Επιπλέον, όπως ήδη αναφέρθηκε, τα ΜΜΕΠ είναι επαναλαμβανόμενα πρότυπα και περιέχουν όλα τα ΕΠ που παράγονται ως υποακολουθίες τους. Κατά συνέπεια, τα ΜΜΕΠ εκ φύσεως μεταφέρουν τη σημασιολογική αξία των αντίστοιχων ΕΠ (των ιδίων ΜΜΕΠ αλλά και των ΕΠ που είναι υποακολουθίες τους). Η σημασιολογική αξία των ΕΠ περιγράφεται περαιτέρω στις [32, 10, 14, 23]. Ειδικότερα, τα πειραματικά αποτελέσματα στην εργασία [32] παρουσιάζουν ποσοστό ανάκλησης 100% στην εξαγωγή μουσικών μοτίβων από ΕΠ (δηλ. όλα τα μοτίβα πρέπει να είναι ΕΠ). Επίσης, οι εργασίες [14, 32] καταλήγουν ότι η ομαδοποίηση των μουσικών αντικειμένων μπορεί να γίνει αποδοτικά βάσει ΕΠ. Ωστόσο, πρέπει να καταστεί σαφές ότι τα ΜΜΕΠ είναι πρότυπα που αποκαλύπτουν μια διαφορετική, νέα όψη των μουσικών δεδομένων. 3.1.2.2 Εξόρυξη μεγάλων στοιχειοσυνόλων Στον τομέα της εξόρυξης στοιχειοσυνόλων, τελευταία προτάθηκαν διάφορες μέθοδοι για την ανεύρεση των μεγίστου μήκους συχνών στοιχειοσυνόλων [6, 31, 58]. Οι εργασίες αυτές εστιάζουν στην αποφυγή εξέτασης όλων των συχνών στοιχειοσυνόλων, μεταφέροντας την έρευνα προς τη γρήγορη ανεύρεση των στοιχειοσυνόλων που έχουν μέγιστο μήκος ή αυτών που είναι maximal 3 (δηλ. δεν έχουν υπερσύνολο που να είναι επίσης συχνό). Εμφανώς, υπάρχει μια ευδιάκριτη αναλογία μεταξύ του προβλήματος που εξετάζουν οι εργασίες [6, 31, 58] και του προβλήματος της ανεύρεσης των ΜΜΕΠ. Ωστόσο, η διαδικασία εξόρυξης των ΜΜΕΠ παρουσιάζει σημαντικές διαφορές εξαιτίας των οποίων, οι προαναφερθείσες μέθοδοι, δεν μπορούν να εφαρμοστούν άμεσα. Πρωτίστως, η κύρια διαφορά των μεθόδων για μεγάλα στοιχειοσύνολα είναι 3 Καθώς δεν υπάρχει δόκιμος όρος στην Ελληνική, στο κεφάλαιο αυτό παραμένει στην Αγγλική και έχει την εξής μαθηματική έννοια: Ένα maximal στοιχείο ενός υποσυνόλου S ενός μερικώς ταξινομημένου συνόλου, είναι το στοιχείο του S το οποίο δεν είναι μικρότερο από κανένα άλλο στοιχείο στο S

56 η εστίαση τους σε ογκώδεις, εγκατεστημένες σε δίσκο βάσεις στοιχειοσυνόλων. Ακολούθως, οι τεχνικές που χρησιμοποιούνται στις εργασίες [6, 31, 58] μειώνουν τον αριθμό προσβάσεων στη βάση με τη χρήση δομών βελτιστοποιημένων για μεγάλο όγκο δεδομένων. Αντιθέτως, για την εξόρυξη μουσικών ΕΠ και ΜΜΕΠ, η μουσική ακολουθία βρίσκεται στην κύρια μνήμη και οι εμπλεκόμενες δομές και τεχνικές έχουν κύριο στόχο την ταχύτητα εκτέλεσης. Συνεπώς, η εφαρμογή υπαρκτών μεθόδων για μεγάλα στοιχειοσύνολα θα ήταν ιδιαίτερα μη αποδοτική, καθώς οι βελτιστοποιήσεις τους αφορούν στο κόστος εισόδου/εξόδου. Για το λόγο αυτό, οι συγγραφείς της εργασίας [14] δεν προσπάθησαν την άμεση εφαρμογή μιας μεθόδου εξόρυξης για βάσεις ακολουθιών, όπως επίσης και στην εργασία [1] για το πρόβλημα της εξόρυξης ΕΠ σε μουσικές ακολουθίες. Επιπλέον, στο πεδίο της εξόρυξης ΕΠ και ΜΜΕΠ, μια υποακολουθία της μουσικής ακολουθίας είναι ΕΠ εάν η συχνότητα εμφάνισης της είναι μεγαλύτερη της μονάδας. Αντίθετα, οι αλγόριθμοι εξόρυξης μεγάλων στοιχειοσυνόλων θεωρούν αρκετά μεγαλύτερο κατώφλι για τη συχνότητα εμφάνισης των προτύπων 4, οπότε είναι αναπόφευκτο να έχουν αυξημένη επιβάρυνση στην περίπτωση που θεωρήσουν κατώφλι συχνότητας εμφάνισης ίσο με τη μονάδα. Ακολούθως, το κεφάλαιο εξετάσει μια μέθοδο που εστιάζει στις απαιτήσεις της συγκεκριμένης εφαρμογής, δηλαδή, θεωρεί βελτιστοποιήσεις για μουσικές ακολουθίες που βρίσκονται στην κύρια μνήμη και για πρότυπα που εμφανίζονται τουλάχιστο δύο φορές στην ακολουθία (κατώφλι εμφάνισης ίσο με τη μονάδα), βάσει των αποτελεσμάτων της εργασίας [20]. 3.1.3 Υπόβαθρο και κίνητρα 3.1.3.1 Ορισμοί Θεωρούμε τη μουσική ακολουθία να είναι μια ακολουθία χαρακτήρων από ένα αλφάβητο διακριτών στοιχείων. Γενικά, η μουσική περιγράφεται από αρκετά χαρακτηριστικά. Μεταξύ αυτών το τονικό ύψος, ο ρυθμός, η χροιά και η δυναμική θεωρούνται τα πιο σημασιολογικά αξιόλογα [8]. Ειδικότερα, για τη μουσική δυτικού τύπου, το τονικό ύψος έχει το μεγαλύτερη πληροφοριακή βαρύτητα [8]. Παρότι, το χαρακτηριστικό του ρυθμού δεν μπορεί να αγνοηθεί, χάριν ευκολότερης αναπαράστασης, εστιάζουμε στην πληροφορία που περιέχεται στο τονικό ύψος. Παρόμοια υπόθεση έχει γίνει και σε πολλές σχετικές εργασίες που αντιμετωπίζουν την ανεύρεση ΕΠ [14, 23, 49]. Ωστόσο, είναι ευνόητο ότι η προτεινόμενη μεθοδολογία μπορεί εύκολα να εφαρμοστεί σε ακολουθίες χαρακτηριστικών 4 Ακόμα και μικρά ποσοστά κατωφλιού εμφάνισης, λ.χ., 0.1%, αντιστοιχούν σε πολύ μεγαλύτερες τιμές απ ότι η απόλυτη τιμή της μονάδας.

57 ρυθμού. Στην κατεύθυνση αυτή, θα ήταν ενδιαφέρουσα η διερεύνηση του συνδυασμού των δύο σημαντικών χαρακτηριστικών (δηλ., τονικό ύψος και ρυθμός) στα πρότυπα που βρέθηκαν. Όμως στην περίπτωση αυτή ελάχιστες παραλλαγές των θεμάτων θα οδηγούσαν σε διαφοροποιημένες συνδυαστικές ακολουθίες. Έτσι, θα χρειάζονταν ανάπτυξη μεθόδων που δεν θα ήταν ευαίσθητες σε μικρές παραλλαγές ώστε να μη χάνονται αρκετά ΕΠ. ΟΡΙΣΜΟΣ 3.1 (Επαναλαμβανόμενο Πρότυπο (ΕΠ) [14]). Δεδομένης μιας μουσικής ακολουθίας A, ένα επαναλαμβανόμενο πρότυπο Π είναι μια υποακολουθία συνεχόμενων στοιχείων της A, η οποία εμφανίζεται τουλάχιστο δυο φορές στην A. Εδώ πρέπει να αναφερθεί ότι για την αναπαράσταση που ακολουθείται από το πρωτόκολλο MIDI, το μέγεθος του αλφάβητου (πλήθος διακριτών στοιχείων) είναι ίσο με 128. Η συχνότητα επανάληψης συχν(π) (εφεξής συχνότητα) ενός ΕΠ Π ορίζεται ως ο αριθμός των εμφανίσεων του Π στην A. Το μήκος Π ενός ΕΠ Π είναι το πλήθος των νοτών στο Π. ΟΡΙΣΜΟΣ 3.2 (Maximal ΕΠ [23]). Ένα ΕΠ X είναι maximal ΕΠ σε μια μουσική ακολουθία A, εάν το είναι ΕΠ στην A και δεν υπάρχει άλλο ΕΠ A στην A τέτοιο ώστε: (i) το A να είναι υποακολουθία του A, και (ii) η συχν(x) = συχν(a ). ΟΡΙΣΜΟΣ 3.3 (Μεγίστου Μήκους Επαναλαμβανόμενο Πρότυπο (ΜΜΕΠ)). Ένα ΕΠ X είναι ΜΜΕΠ σε μια μουσική ακολουθία A εάν: (i) το X είναι maximal ΕΠ της A, και (ii) δεν υπάρχει άλλο ΕΠ X στην A τέτοιο ώστε X > X. Ο ανωτέρω ορισμός αρχικά απαιτεί ένα ΕΠ X, για να είναι ΜΜΕΠ, να μην είναι υποακολουθία άλλου ΕΠ X, με το οποίο να έχουν ίδια συχνότητα, στην οποία περίπτωση το X είναι το maximal. Επιπλέον, ο ορισμός απαιτεί το X να έχει το μέγιστο μήκος από κάθε ΕΠ X. Παραδείγματος χάριν, στην ακολουθία Α = εαβγδεβγαβγδβγα, υπάρχουν 13 ΕΠ, που παρουσιάζονται στον Πίνακα 3.1 με τις αντίστοιχες συχνότητες εμφάνισης. α β γ δ ε αβ βγ γα γδ αβγ βγα βγδ αβγδ 3 4 4 2 2 2 4 4 2 2 2 2 2 Πίνακας 3.1: Συγχνότητα εμφάνισης ΕΠ. Εκ των 13 αυτών ΕΠ, το {αβγδ} είναι ΜΜΕΠ (καθώς είναι το maximal και δεν υπάρχει άλλο ΕΠ X στην A τέτοιο ώστε X > X ), τα {α, βγ, βγδ, βγ} είναι maximal, ενώ τα υπόλοιπα είναι τετριμμένα.

58 Τέλος, ο ορισμός του υπό εξέταση προβλήματος στο παρόν κεφάλαιο είναι ο εξής: δεδομένης μιας μουσικής ακολουθίας A, να βρεθούν όλα τα ΜΜΕΠ, εφόσον υπάρχουν. 3.1.3.2 Ο αλγόριθμος HLC Όπως έχει ήδη σχολιαστεί στην Ενότητα 3.1.2.1, ο Hsu και οι συνεργάτες του στην εργασία [14] πρότειναν δυο διαφορετικές τεχνικές για την ανεύρεση των μητετριμμένων ΕΠ. Εδώ, εστιάζουμε στον αλγόριθμο με την ένωση συμβολοσειρών, στον οποίο αναφερόμαστε ως HLC (από τα αρχικά των συγγραφέων). Ο HLC θα παρουσιαστεί επιγραμματικά (με τη βοήθεια ενός παραδείγματος), ώστε να περιγραφεί η καταλληλότητα του ως βασικού αλγορίθμου για την εξαγωγή των ΜΜΕΠ (βλ. Ενότητα 3.1.3.3). Ο HLC χρησιμοποιεί την τριάδα {X, συχν(), (ϑϵση 1, ϑϵση 2,...)} για να αναπαραστήσει το κάθε ΕΠ που βρέθηκε σε μια μουσική ακολουθία, όπου X είναι το ΕΠ, συχν(x) είναι η συχνότητα εμφάνισης του X και κάθε ϑϵση i, 1 i συχν(), είναι το σημείο εκκίνησης του X στην A. Σύμφωνα με την [14] η διαδικασία ένωσης συμβολοσειρών ορίζεται ως εξής: Υποθέτουμε ότι οι τριάδες: {α 1 α 2... α m, συχν(α 1 α 2... α m ), (p 1, p 2,..., p i )} και {β 1 β 2... β n, συχν(β 1 β 2... β n ), (q 1, q 2,..., q j )} είναι δυο ΕΠ της συμβολοσειράς χαρακτηριστικών του μουσικού αντικειμένου. Ορίζεται η k-τάξης ένωση συμβολοσειρών (k 0) των δυο ΕΠ ως εξής: {α 1 α 2... α m, (α 1 α 2... α m ), (p 1, p 2,..., p i )} k {β 1 β 2... β n, (β 1 β 2... β n ), (q 1, q 2,..., q j )} = {γ 1 γ 2... γ l, (γ 1 γ 2... γ l ), (o 1, o 2,..., o h )} όπου i = συχν(α 1 α 2... α m ), j = συχν(β 1 β 2... β n ), h = συχν(γ 1 γ 2... γ l ), γ t = α t για 1 t m, γ t = β t m+k για m + 1 t l = m + n k, o t = x = y m + k, όπου x {p 1, p 2..., p i } και y {q 1, q 2..., q j } 5, o t < o t+1, για 1 t h 1, if k > 0, α m k+s = β s, για 1 s k. 5 Η προϋπόθεση αυτή αναφέρεται στη συσχέτιση των στοιχείων στην ακολουθία γ με τις θέσεις εμφάνισης των ακολουθιών α και β.

59 Ο HLC εξελίσσεται σε 2 στάδια: Στο πρώτο εντοπίζονται τα ΕΠ μήκους 2 k (αρχικά, k = 0), ενώ τα ΕΠ μήκους 2 k+1 συνθέτονται εφαρμόζοντας ενώσεις ΕΠ μήκους 2 k. Η έρευνα, κατά τη διάρκεια του πρώτου σταδίου, συνεχίζει μέχρι να βρεθεί μία τιμή του k, έστω k l, για την οποία δεν υπάρχουν ΕΠ. Στο σημείο αυτό, ο HLC πρέπει να καθορίσει το μήκος L του μέγιστου σε μήκους ΕΠ, το οποίο δεν είναι γνωστό εκ προοιμίου. Ωστόσο, το μήκος L του μέγιστου ΕΠ είναι γνωστό ότι είναι μεταξύ 2 k l 1 L < 2 k l. Επομένως, ο HLC εκτελεί δυαδική αναζήτηση για πρότυπα τα μήκη των οποίων είναι στο διάστημα [2 k l 1, 2 k l). Στο τέλος του πρώτου σταδίου, ο HLC έχει προσδιορίσει το L και τα αντίστοιχα ΜΜΕΠ. Με το δεύτερο στάδιο, επιβεβαιώνει ότι όλα τα πρότυπα που βρέθηκαν στο προηγούμενο στάδιο είναι μη-τετριμμένα με τη βοήθεια μιας δενδρικής δομής που ονομάζεται RP-δένδρο, της οποίας κάθε κόμβος αποτελεί ένα από τα ΕΠ που βρέθηκαν. Μετά την αφαίρεση των τετριμμένων ΕΠ, μια πιο λεπτομερής διαδικασία εντοπίζει ΕΠ με μήκος που δεν είναι δύναμη του δυο, εφόσον υπάρχουν. Τα ΕΠ που προκύπτουν μετά την τελευταία αυτή διαδικασία εισάγονται στο RP-δένδρο. Τέλος, όλα τα τετριμμένα πρότυπα διαγράφονται, αφήνοντας το RP-δένδρο να περιέχει μόνο τα ΜΜΕΠ και τα μικρότερα μη-τετριμμένα ΕΠ, ολοκληρώνοντας το δεύτερο στάδιο του HLC. Για να γίνει περισσότερο κατανοητή η λειτουργία του HLC, παραθέτουμε ένα παράδειγμα της εκτέλεσης του σε μια υποθετική μουσική ακολουθία (το παράδειγμα αυτό θα αποτελέσει και το τρέχον παράδειγμα στο κεφάλαιο αυτό). Έστω μια μουσική ακολουθία S, όπου S = EBCDEHGABFJDEHGJEBCDEABFJ. Ακολουθώντας τα προαναφερθέντα, τα ΕΠ μήκους 1, 2, 4 υφίστανται, παρότι το EΠ[8] =, όπου το ΕΠ[χ] ενέχει την έννοια του συνόλου των ΕΠ με μήκος χ. Για να προσδιοριστεί το L (και τα αντίστοιχα ΜΜΕΠ), θεωρούμε ότι k l = 3, εφόσον 8 = 2 3 ; ενώ k l 1 = 2, εφόσον 4 = 2 2 και ΕΠ[4] είναι το τελευταίο μήκος για το οποίο υφίστανται ΕΠ. Ακολούθως, ο αλγόριθμος ψάχνει τις ενδιάμεσες τιμές μήκους 5, 6 και 7 ανακαλύπτοντας το ΕΠ[5]={EBCDE,2,(1,8)} EΠ[6] = και EΠ[7] =. Κατά συνέπεια, L = 5 και το σύνολο των ΜΜΕΠ είναι το ΕΠ[5]={EBCDE,2,(1,8)} (δηλ., το ΕΠ[5] περιέχει μόνο ένα ΜΜΕΠ). Το αποτέλεσμα του πρώτου σταδίου του HLC παρουσιάζεται στο Σχήμα 3.1, όπου το ΜΜΕΠ βρίσκεται στη ρίζα. (Στο Σχήμα 3.1, τα μη-τετριμμένα ΕΠ εμφανίζονται με τονισμένες γραμμές). Το επόμενο στάδιο του HLC δεν παρουσιάζει ενδιαφέρον για το παρόν καφάλαιο καθώς εστιάζει στα ΜΜΕΠ (που βρέθηκαν στο πρώτο στάδιο), κατά συνέπεια τα βήματα του HLC που εκτελούνται στο δεύτερο στάδιο παραλείπονται.

60 EBCDE,2,(1,17) ABFJ, 2,(8,22) EBCD,2,(1,17) BCDE,2,(2,18) DEHG,2,(4,12) FJ,2,(10,24) AB,2,(8,22) BF,2,(9,23) BC,2,(2,18) CD,2,(3,19) EB,2,(1,17) DE,3,(4,12, 20) EH,2,(5,13) HG,2,(6,14) F,2,(10,24) J,3,(11,16,25) A,2,(8, 22) C,2,(3,19) B,4,(2,9,18,23) D,3,(4,12,20) E,5,(1,5,13,17,21) H,2,(6,14) G,2,(7,15) Σχήμα 3.1: Ο συνολικός γράφος για το τρέχον παράδειγμα του HLC. 3.1.3.3 Κίνητρα Βασιζόμενοι στα προαναφερθέντα, πρέπει να διευκρινιστεί πως μεταξύ των μη-τετριμμένων ΕΠ, ο HLC ανακαλύπτει το σύνολο των ΜΜΕΠ. Εμφανώς, αυτό γίνεται με πολύ αποδοτικό τρόπο λόγω των ακόλουθων: (i) Απαιτείται να βρεθεί μόνο ένα λογαριθμικό πλήθος ενδιάμεσων μηκών για την ανεύρεση των ΜΜΕΠ (τα μήκη τύπου 2 k εξετάζονται μέχρι να βρεθεί ένα k l και τότε χρησιμοποιείται δυαδική αναζήτηση στο διάστημα [2 k l 1, 2 k l)), ενώ μια απλοϊκή μέθοδος θα εξέταζε όλα τα πιθανά μήκη μεταξύ 1 και L. (ii) Πειραματικές μετρήσεις μπορούν να δείξουν ότι το απαιτητικότερο στάδιο σε χρόνο εκτέλεσης του HLC είναι το δεύτερο στάδιο, όπου δημιουργείται το RP-δένδρο και απαλείφονται τα τετριμμένα πρότυπα. Σε περίπτωση που το ενδιαφέρον εστιάζεται στην ανεύρεση των ΜΜΕΠ και μόνο, τότε το δεύτερο στάδιο μπορεί να παραληφθεί πλήρως. Για τους λόγους αυτούς, μια τροποποιημένη εκδοχή του HLC (η οποία περιλαμβάνει μόνο το πρώτο του στάδιο) μπορεί να θεωρηθεί ως ένας καλός βασικός αλγόριθμος για εύρεση των ΜΜΕΠ, καθώς σαφώς υπερνικά την απλοϊκή μέθοδο. Ωστόσο, πρέπει να αναφερθεί ότι ο HLC δεν σχεδιάστηκε εξαρχής μονάχα για την ανεύρεση των ΜΜΕΠ. Παρότι εντοπίζει το σύνολο των ΜΜΕΠ χρησιμοποιώντας μόνο λογαριθμικό πλήθος ενδιάμεσων βημάτων, σε κάθε ένα από τα βήματα αυτά πρέπει να εντοπίσει όλα τα ΕΠ του βήματος. Καθώς το μέγιστο μήκος μπορεί να είναι της τάξης των μερικών εκατοντάδων, ο HLC πρέπει να εκτελέσει ενώσεις και να υπολογίσει τη συχνότητα μεγάλου αριθμού ΕΠ. Το γεγονός αυτό είναι ιδιαιτέρως εμφανές στα αρχικά βήματα, όταν το πλήθος των ΕΠ με σχετικά μικρό μήκος είναι κατά πολύ αυξημένο, εξαιτίας της μη-μονοτονικής ιδιότητας 6. Συνεπώς, απαιτείται μια άλλη μέθοδος που θα αποφεύγει όσο το δυνατό περισσότερο το κόστος εξέτασης (δηλ., τον υπολογισμό της συχνότητα εμφάνισης) των ενδιάμεσων 6 Σύμφωνα με την ιδιότητα της μη-μονοτονίας, μια υποακολουθία X της A δεν μπορεί να είναι ΕΠ εκτός εάν όλες οι υποακολουθίες της X είναι επίσης ΕΠ (εδώ δεν ενδιαφερόμαστε για τη διαφοροποίηση μεταξύ τετριμμένων και μη, καθώς τα ΜΜΕΠ είναι εξ ορισμού μη-τετριμμένα).

61 προτύπων. Τέλος, πρέπει να γίνει μνεία στην εργασία των Koh και Yu [23] όπου προτείνουν μια διαφορετική προσέγγιση για την ανεύρεση των ΕΠ. Η μέθοδος τους χρησιμοποιεί ένα πίνακα bit-index και εντοπίζει όλα τα ΕΠ με μοναδιαία αύξηση μήκους. Συνεπώς, η μέθοδος αυτή προσεγγίζει το επίπεδο των ΜΜΕΠ εξετάζοντας όλα τα ενδιάμεσα μήκη και όχι μόνο ένα λογαριθμικό πλήθος όπως ο HLC. Επιπλέον, παρόμοια με τον HLC, σε κάθε εξεταζόμενο επίπεδο, η μέθοδος της εργασίας [23], ελέγχει όλα τα ΕΠ. Πειραματικά αποτελέσματα στην [23] καταδεικνύουν μια βελτίωση του συνολικού χρόνου εκτέλεσης σε σύγκριση με τον HLC. Ωστόσο, τα αποτελέσματα αυτά αναφέρονται στη διαδικασία ανεύρεσης όλων των ΕΠ, όπου ο HLC περιλάμβανε την εκτέλεση του δαπανηρού δεύτερου σταδίου του. Κατά συνέπεια, ο τροποποιημένος HLC θεωρείται αποδοτικότερος από τη μέθοδο των Koh & Yu, όσον αφορά στο πρόβλημα της ανεύρεσης μόνο των ΜΜΕΠ. 3.1.4 Ο αλγόριθμος M 2 P 3.1.4.1 Περίγραμμα της μεθόδου Στην ενότητα αυτή περιγράφεται ο αλγόριθμος που M 2 P (Mining Maximumlength Patterns, Εξόρυξη μεγίστου μήκους προτύπων) βάσει των αποτελεσμάτων της εργασίας [20]. Ο αλγόριθμος M 2 P εξελίσσεται ως εξής: Έστω A = α 1,..., α ν μια μουσική ακολουθία μήκους ν. Υποθέτουμε ότι έχουν εντοπιστεί όλα τα ΕΠ μήκους δύο, ΕΠ[2] = { α i, α j : α i, α j A, συχν( α i, α j ) 2}. Τα στοιχεία της A και του ΕΠ[2] σχηματίζουν ένα κατευθυνόμενο γράφο Γ(K, H), όπου το σύνολο των κόμβων K(Γ) αντιστοιχεί στο σύνολο όλων των στοιχείων της A και το σύνολο όλων των ακμών H(Γ) στο σύνολο όλων των στοιχείων του ΕΠ[2] (δηλ., μια κατευθυνόμενη ακμή α i α j στο γράφο αντιστοιχεί στο μέλος α i, α j του ΕΠ[2]). Κάθε μονοπάτι M στο Γ μπορεί να θεωρηθεί ως πιθανό ΕΠ, καθώς όλα τα υπομονοπάτια του μήκους δύο (δηλ., οι κατευθυνόμενες ακμές) είναι ΕΠ. Συνεπώς, το σύνολο όλων των πιθανών μονοπατιών του Γ σχηματίζουν το χώρο έρευνας του εξεταζόμενου προβλήματος, καθώς τα ΜΜΕΠ είναι επίσης ΕΠ και αντιστοιχούν σε μονοπάτια του Γ. Μια απλοϊκή προσέγγιση θα εξέταζε τον πλήρη γράφο, όπου κάθε πιθανό ζεύγος στοιχείων της A θα αποτελούσε μια ακμή. Ωστόσο, η μέθοδος αυτή οδηγεί σε έναν υπέρμετρο αριθμό πιθανών μονοπατιών, ενώ (εξαιτίας της μη-μονοτονικής ιδιότητας) το πλήθος αυτό περικόπτεται δραστικά χάρις στο γεγονός ότι οι ακμές αντιστοιχούν μόνο σε μέλη του ΕΠ[2]. Ο αντικειμενικός σκοπός του M 2 P είναι να εντοπίσει στον προαναφερθέντα

62 χώρο έρευνας τα μονοπάτια εκείνα που έχουν το μέγιστο μήκος και αντιστοιχούν σε ΕΠ. Για να το κατορθώσει αυτό, ο M 2 P διασχίζει το Γ ερευνώντας τα μονοπάτια που πηγάζουν από οποιονδήποτε από τους κόμβους του. Καθώς συναντά μονοπάτια, ο M 2 P ασχολείται μόνο με εκείνα που είναι υποψήφια να είναι ΜΜΕΠ (δηλ., όχι μόνο ΕΠ). Κατά τη διάρκεια της διάσχισης, κρατά αναφορά του μονοπατιού Φ που έχει ήδη επισκεφτεί και: (i) έχει το μέγιστο μήκος μέχρι του σημείου αυτού, και (ii) αντιστοιχεί σε ΕΠ (δηλ., η συχνότητα του έχει υπολογιστεί και βρεθεί να είναι μεγαλύτερη του δυο) 7. Ο περιορισμός του χώρου έρευνας επιτυγχάνεται απορρίπτοντας τις προεκτάσεις (δηλ., προσαρτήματα κόμβων και ακμών κατά τη διάσχιση) μονοπατιών των οποίων η συχνότητα μετρήθηκε και δεν επαρκούσε ώστε να θεωρηθούν ΕΠ, καθώς καμία από τις προεκτάσεις τους δεν οδηγούσε σε ΜΜΕΠ (εξαιτίας της ιδιότητας της μη μονοτονικότητας, μιας και ένα ΜΜΕΠ είναι ΕΠ). Συνεπώς, κατά την πρόοδο της διάσχισης του Γ, τρεις περιπτώσεις χρήζουν μνείας: 1η Περίπτωση: Εάν το τρέχον μονοπάτι M που έχει επισκεφτεί ο αλγόριθμος έχει μήκος μικρότερο από Φ, τότε η μέτρηση της συχνότητας του μπορεί να αποφευχθεί (καθώς δεν είναι ΜΜΕΠ με βεβαιότητα). 2η Περίπτωση: Εάν M > Φ, τότε υπολογίζεται η συχνότητα του αντίστοιχου προτύπου στην A και εάν βρεθεί το πρότυπο να είναι επαναλαμβανόμενο, τότε το Φ εξισώνεται με το M. Εναλλακτικά, εάν δεν είναι ΕΠ, τότε (όπως έχει ήδη περιγραφεί) η διάσχιση δεν συνεχίζει σε κανένα μονοπάτι που να περιέχει το M. 3η Περίπτωση: Τέλος, εάν το μήκος του M είναι ίσο με το μήκος του Φ, τότε ο υπολογισμός της συχνότητας αποφεύγεται στο σημείο αυτό και διατηρούμε ένα πίνακα και τον συνδέουμε με το Φ. Εάν μετά το τέλος της διάσχισης του Γ δεν έχουν βρεθεί άλλα ΕΠ με μήκος μεγαλύτερο του Φ, όλα τα μονοπάτια που έχουν συνδεθεί με το Φ είναι επίσης υποψήφια να είναι ΕΠ (το Φ έχει επιβεβαιωθεί ως ΜΜΕΠ, εφόσον ήταν το πρώτο μονοπάτι το μήκος του οποίου εξετάσθηκε κατά τη διάσχιση, άρα και η συχνότητα του έχει υπολογιστεί εξαιτίας της πρώτης περίπτωσης. Βάσει των προηγουμένων, ο M 2 P υπολογίζει τη συχνότητα ενός μονοπατιού μόνο εάν το μήκος είναι τέτοιο ώστε είναι πιθανό να είναι ΜΜΕΠ. Για το λόγο αυτό, αναβάλλει όσο το δυνατό περισσότερο τη δαπανηρή διαδικασία μέτρησης 7 Αρχικά, κάθε ακμή του Γ μπορεί να να επιλεχθεί ως τέτοιο μονοπάτι.

63 της συχνότητας, στοχεύοντας στην εύρεση νέων υποψηφίων με μεγαλύτερο μήκος. Το αποτέλεσμα είναι ότι ο M 2 P, αντίθετα με τον HLC, αποφεύγει τη μέτρηση της συχνότητας όλων των μονοπατιών ενός συγκεκριμένου μήκους. Αντίθετα, προσδιορίζει τη συχνότητα μονοπατιών συγκεκριμένου μήκους μόνο, έως ότου βρεθεί το πρώτο μονοπάτι που αντιστοιχεί σε ΕΠ. Τέλος, όταν τελειώσει η διάσχιση, εξετάζονται όλα τα συνδεδεμένα μονοπάτια που είναι συνδεδεμένα με το αρχικό ΜΜΕΠ (δηλ., εκείνα τα μονοπάτια με μήκος ίσο με το μέγιστο μήκος που βρέθηκε για το Φ ), ώστε να βρεθούν όλα τα ΜΜΕΠ, καθώς μπορεί να υπάρχουν περισσότερα από ένα. Οφείλουμε να σημειώσουμε ότι η μέτρηση της συχνότητας στον M 2 P εκτελείται χρησιμοποιώντας αλγόριθμο ταιριάσματος συμβολοσειρών 8, καθώς η συχνότητα ενός μονοπατιού M είναι ίση με το πλήθος των εμφανίσεων του M (δηλ., της υποακολουθίας που αντιστοιχεί στο M) στην A. 3.1.4.2 Περιγραφή του αλγορίθμου M 2 P Στην ενότητα αυτή περιγράφεται η αλγοριθμική μορφή του M 2 P, όπως παρουσιάζεται στο Σχήμα 3.2. Το δεδομένο εισόδου του M 2 P είναι η μουσική ακολουθία. Αρχικά, ο M 2 P υπολογίζει όλα τα ΕΠ μήκους δύο και τα αποθηκεύει στο σύνολο ΕΠ[2]. Η διαδικασία αυτή αποτελεί μέρος της αρχικοποίησης και εκτελείται με τη βοήθεια μιας διδιάστατης μήτρας M, το μέγεθος της οποίας για την αναπαράσταση MIDI είναι 128 128. Ο γράφος Γ κατασκευάζεται βάσει του πίνακα γειτνίασης του M. Κατόπιν, ο M 2 P εκτελεί τη διάσχιση του Γ κατά τη διάρκεια της οποίας εξετάζει τα μονοπάτια Π που πηγάζουν από τους κόμβους του Γ (η διάσχιση επισκέπτεται τους κόμβους με προτεραιότητα κατά βάθος). Στη διαδικασία διάσχισης του γράφου, το μήκος του τρέχοντος μονοπατιού M συγκρίνεται με το μήκος του τρέχοντος μέγιστου μονοπατιού (Current Maximum Length - CML), το οποίο αρχικά είναι ίσο με δυο, καθώς ο M 2 P έχει ήδη προσδιορίσει το σύνολο ΕΠ[2]. Εάν το μήκος του M είναι μεγαλύτερο από το CML, τότε ο M 2 P υπολογίζει τη συχνότητα του M και σε περίπτωση που είναι μεγαλύτερη του δύο, το M αποθηκεύεται (ως το μόνο στοιχείο) στην ουρά μέγιστου μήκους (Maximum Length Queue - MLQ), ενώ το CML γίνεται ίσο με το μήκος του M. Αντίθετα, όταν το μήκος του M είναι ίσο με το CML, τότε το M προστίθεται στην MLQ χωρίς να γίνει υπολογισμός της συχνότητάς του. Τέλος, εάν δεν έχει περικοπεί η έρευνα για μονοπάτια που περιέχουν το M (περικοπές συμβαίνουν όταν η συχνότητα του M υπολογιστεί και βρεθεί μικρότερη του δύο), η διάσχιση συνεχίζει επισκεπτόμενη γειτονικούς κόμβους v του M. Μετά το πέρας της διάσχισης του Γ, ο M 2 P έχει προσδιορίσει (εφόσον υπάρχει) ένα ΜΜΕΠ (το πρώτο στοιχείο της MLQ). Ακολούθως, συνεχίζει υπολογίζοντας 8 Χάριν απλότητας, θα μπορούσε να χρησιμοποιηθεί και ο αλγόριθμο Knuth-Morris-Pratt.

64 Procedure M 2 P(MusicSequence S) begin 1. RP[2] = Find all rp with length 2 2. Construct G(RP[2]) 3. CML := 2 4. MLQ := 5. for each v V (G) 6. Traverse(G, v, v, CML, MLQ) 7. endfor 8. for each P MLQ 9. if (CountFreq(q) 2) 10. Output(P ) 11. endif 12. endfor end Procedure Traverse(Graph G, Vertex v, Path P, int CML, Queue MLQ) begin 1. bool prune := false 2. Append(P, v) 3. if Length(P ) > CML 4. if CountFreq(P 2) 5. MLQ := P 6. CML = Length(P ) 7. else 8. prune := true 9. endif 7. else if length(p ) = CML) 8. Enqueue(MLQ, P ) 9. endif 10. if not prune 11. for each u V (G) and v u E(G) 12. Traverse(G, u, P, CML, MLQ) 13. endfor 14. endif end Σχήμα 3.2: Ο αλγόριθμος M 2 P.

65 τη συχνότητα των όλων των υπόλοιπων στοιχείων της MLQ, ώστε να συγκεντρώσει το σύνολο όλων των ΜΜΕΠ. Η ορθότητα του M 2 P μπορεί εύκολα να αποδειχθεί ως εξής: Υποθέτουμε ότι το P M είναι ένα ΜΜΕΠ με μήκος M, ενώ τα στοιχεία του είναι p 1,..., p M. Εφόσον το P M είναι ΜΜΕΠ, η συχνότητα του είναι μεγαλύτερη ή ίση με δύο. Συνεπώς, κάθε διαδοχικό ζευγάρι p i, p i+1 των στοιχείων του P M ανήκει στο ΕΠ[2] και έχει μια αντίστοιχη ακμή στο Γ. Ακολούθως, το P M θα εξεταστεί από τον M 2 P κατά τη διάρκεια της διάσχισης του Γ, ακολουθώντας τις ακμές p i, p i+1 για 1 i < M. Εάν το P M είναι το πρώτο μονοπάτι με μήκος M που θα εξεταστεί, τότε θα υπολογιστεί η συχνότητα του και το P M θα αποτελεί το πρώτο στοιχείο της MLQ (διαγράφοντας όποιες παλαιότερες εγγραφές που αντιστοιχούσαν σε υποψήφια μονοπάτια μικρότερου μήκους). Αλλιώς, εάν έχουν ήδη συμπεριληφθεί άλλα μονοπάτια με μήκος M στην MLQ, καθώς δεν υπάρχει άλλο ΕΠ P με P > M, το P M θα εξεταστεί στο βήμα μετά το τέλος της διάσχισης, όταν θα υπολογίζονται οι συχνότητες όλων των στοιχείων της MLQ. Κατά συνέπεια, σε κάθε περίπτωση το P M θα ενσωματωθεί στην MLQ και θα περιλαμβάνεται στην έξοδο του M 2 P. 3.1.4.3 Παράδειγμα Για να αποσαφηνιστεί η περιγραφή του M 2 P, στην ενότητα αυτή παρουσιάζεται ένα παράδειγμα της εκτέλεσής του ακολουθώντας το τρέχον παράδειγμα του κεφαλαίου αυτού. Στο παράδειγμα αυτό, η ακολουθία S = EBCDEHGABFJD- EHGJEBCDEABFJ, έχει σύνολο ΕΠ[2] και ο αντίστοιχος γράφος Γ παρουσιάζεται στο Σχήμα 3.3. Υποθέτουμε (χωρίς απώλεια της γενικότητας) ότι ο M 2 P ξεκινά τη διάσχιση από τα μονοπάτια που πηγάζουν από τον κόμβο A και την ακμή AB, ειδικότερα. Αρχικά, επισκέπτεται το μονοπάτι ABC (Σχήμα 3.4a). Καθώς το μήκος του είναι 3 > CML = 2, η συχνότητα του υπολογίζεται και βρίσκουμε ότι είναι μηδενική. Έτσι, ο M 2 P δεν συνεχίζει τη διάσχιση στο μονοπάτι ABC. Κατόπιν, συνεχίζει εξετάζοντας το ABF, του οποίου η συχνότητα υπολογίζεται ίση με δύο. Συνεπώς, το CML γίνεται ίσο με τρία και το ABF εισάγεται στην MLQ. Η διάσχιση συνεχίζει περαιτέρω με το μονοπάτι αυτό προχωρώντας στο ABFJ, του οποίου η συχνότητα υπολογίζεται ίση με δύο. Ομοίως, το CML γίνεται τέσσερα και η MLQ={ABFJ}. Συνεχίζοντας, εξετάζεται το μονοπάτι ABFJH, όμως η συχνότητα του είναι μηδενική. Συνεπώς, αποφεύγεται η εξέταση μονοπατιών που το περιέχουν. Στη συνέχεια, η διάσχιση προχωρά στον κόμβο B (Σχήμα 3.4b) και την ακμή BC. Αρχικά εξετάζεται το μονοπάτι BCD, το μήκος του οποίου είναι μικρότερο του CML, και ακολούθως η συχνότητα του δεν υπολογίζεται. Ωστόσο, η διάσχιση συνεχίζει σε μονοπάτια που περιέχουν το BCD, καθώς δεν μπορεί να απορριφθεί

66 J A B H C G F E D Σχήμα 3.3: Ο γράφος Γ του παραδείγματος. ως μη ΕΠ (δηλ., δεν έχει υπολογιστεί η συχνότητα του). Συνεπώς, το μονοπάτι BCDE ακολουθεί προς εξέταση, το μήκος του οποίου είναι ίσο με το CML. Έτσι, το BCDE προστίθεται στην MLQ που γίνεται ίση με {ABFJ,BCDE}. A B C D E C D E H G B F J H G C D E H G F J H G B D E F J H H G E B C F J H G H G B C F D J H G H G G (a) (b) (c) (d) (e) Σχήμα 3.4: Παράδειγμα μονοπατιών που πηγάζουν από τους κόμβους A, B, C, D, και E. Ομοίως, τα μονοπάτια που πηγάζουν από τον κόμβο C (Σχήμα 3.4c) δεν επηρεάζουν το CML ή την MLQ, ενώ τα μονοπάτια που απορρέουν από τον κόμβο D (Σχήμα 3.4d) προσθέτουν το DEHG στην MLQ (εφόσον DEHG = CML = 4, η συχνότητα του δεν υπολογίζεται), ενώ η MLQ γίνεται {ABFJ,BCDE,DEHG}. Συνεχίζοντας με τον κόμβο E (Σχήμα 3.4e), το μονοπάτι EBCD προστίθεται στην MLQ (MLQ={ABFJ,BCDE,DEHG,EBCD}). Κατόπιν, εξετάζεται το EBCDE και η συχνότητα του υπολογίζεται ίση με δύο (εφόσον το μήκος του είναι μεγαλύτερο από το CML). Ακολούθως, το CML γίνεται ίσο με πέντε, ενώ τα τρέχοντα στοιχεία της MLQ διαγράφονται και το EBCDE προστίθεται (εφόσον βρέθηκε μεγαλύτερη τιμή CML). Τέλος, όλοι οι υπόλοιποι κόμβοι (F, G, H και J) δεν επιφέρουν καμία αλλαγή. Συνεπώς, εφόσον δεν υπάρχουν άλλα υποψήφια μονοπάτια στην MLQ το σύνολο των ΜΜΕΠ που βρέθηκαν είναι {EBCDE}.

67 3.1.4.4 Αναπτύσσοντας βελτιστοποιήσεις Η αποδοτικότητα του αλγόριθμου M 2 P βασίζεται στα κεντρικά χαρακτηριστικά του, την ικανότητα του, όπως έχει ήδη περιγραφεί, να αποφεύγει τον υπολογισμό της συχνότητας εμφάνισης των υποψηφίων (εκτός του πρώτου που βρεθεί για κάθε μήκος) το μήκος των οποίων είναι ίσο με το CML, και τη δυνατότητα του να αποφεύγει εντελώς κάθε μέτρηση που σχετίζεται με υποψήφιους με μήκος μικρότερο του CML. Για την περαιτέρω βελτιστοποίηση της απόδοσής του, στην ενότητα αυτή περιγράφονται δυο τεχνικές ώστε να βελτιωθεί επιπλέον η βασική μορφή του M 2 P. Όπως περιγράφεται στην εργασία [14], το πλήθος των ΕΠ με μικρό μήκος είναι κατά πολύ μεγαλύτερο από το πλήθος των ΕΠ με μεγάλο μήκος. Για το λόγο αυτό, θα ήταν επιθυμητό ο M 2 P (κατά τη διάρκεια της διάσχισης) να μειώσει τον αριθμό των εξεταζόμενων μονοπατιών με μικρό μήκος. Κάτι τέτοιο είναι εφικτό σε ένα βήμα προεργασίας. Έστω l το μήκος των ΕΠ των οποίων επιθυμούμε να μειωθεί το πλήθος. Ο M 2 P διαβάζει τη μουσική ακολουθία S και κατακερματίζει τις υποακουλουθίες μήκους l σε ένα πίνακα κατακερματισμού, του οποίου τα περιεχόμενα είναι ακέραιοι μετρητές (αρχικά ίσοι με μηδέν). Κατά τη διάρκεια της διάσχισης, όταν εξετάζεται ένα μονοπάτι P μήκους l, ο M 2 P ελέγχει τον αντίστοιχο μετρητή και εάν αυτός είναι μικρότερος του δύο, τότε σταματά τη διάσχιση για προεκτάσεις του P, καθώς το P δεν μπορεί να είναι ΕΠ. Ωστόσο, εάν η τιμή του μετρητή είναι μεγαλύτερη ή ίση του δύο, το P είναι πιθανό να μη είναι ΕΠ, εξαιτίας πιθανών συγκρούσεων στον πίνακα κατακερματισμού. Ακολούθως, ο κατακερματισμός μπορεί μόνο να προσφέρει ένα διηθητήρα ώστε να μειωθεί το πλήθος των εξεταζόμενων μονοπατιών μήκους l. Εδώ πρέπει να αναφερθεί ότι σχετική τεχνική κατακερματισμού έχει χρησιμοποιηθεί σε εξόρυξη στοιχειοσυνόλων [43]. Καθώς η τεχνική αυτή αποδίδει ικανοποιητικά μόνο για μονοπάτια μικρού μήκους, στις υλοποιήσεις προτείνεται να εξετάζονται τιμές l μικρές (λ.χ. ίσες με τρία και τέσσερα) αλλά και διακριτοί πίνακες κατακερματισμού για τις τιμές του l. Η δεύτερη τεχνική αντιμετωπίζει την επίδραση των κύκλων στο γράφο Γ. Εμφανώς, τα στοιχειά των ΕΠ και ΜΜΕΠ δεν απαιτείται να είναι διακριτά, συνεπώς, κόμβοι και/ή ακμές του Γ είναι πιθανό να περιέχονται περισσότερες από μια φορές για το τρέχον εξεταζόμενο μονοπάτι (κατά τη διάρκεια της διάσχισης). Ας υποθέσουμε ότι ένα μονοπάτι P είναι ΕΠ αλλά το μήκος του είναι μικρότερο από το CML. Στην περίπτωση αυτή, εάν το P περιέχει κύκλο, χρησιμοποιώντας τους κόμβους και τις ακμές στον κύκλο για κατάλληλο αριθμό φορών (δηλ., αρκεί να ακολουθηθεί ο κύκλος όσες φορές απαιτείται), το P μπορεί να επεκταθεί ώστε το μήκος του να γίνει ίσο με το CML. Επιπλέον, εξαιτίας της Περίπτωσης 3 (όπως

68 αυτή περιγράφεται στην Ενότητα 3.1.4.1), ένα μεγάλο πλήθος μονοπατιών μπορούν να προστεθούν στην MLQ. Για το λόγο αυτό, προτείνεται η βελτίωση της αρχικής μορφής του M 2 P ώστε να μπορεί να εντοπίσει την ύπαρξη κύκλων στο τρέχον εξεταζόμενο μονοπάτι και όταν ισχύει η Περίπτωση 3 για μονοπάτι με κύκλο, να υπολογίζεται πρώτα η συχνότητα του και να ακολουθεί η προσθήκη του στην MLQ. Παρά το γεγονός ότι η τεχνική αυτή αυξάνει το πλήθος των ενδιάμεσων μονοπατιών των οποίων εξετάζεται η συχνότητα, εντούτοις περιορίζει την υπέρμετρη αύξηση των μελών της MLQ (η συχνότητα των οποίων θα πρέπει να υπολογιστεί στο τέλος της διάσχισης). Οι δύο προαναφερθείσες βελτιστοποιήσεις έχουν βρεθεί να προσφέρουν ουσιαστική βελτίωση στην απόδοση του M 2 P. Για το λόγο αυτό, ενσωματώθηκαν στην αρχική μορφή του, όπως αυτή περιγράφηκε προηγουμένως. 3.2 Κατηγοριοποίηση 3.2.1 Κατά γένος Τα μουσικά γένη (genres) είναι κατηγορίες μουσικών κομματιών που έχουν κοινή μορφή (style). Παρότι η μουσική μπορεί επίσης να χαρακτηριστεί κι από μη μουσικά κριτήρια, όπως η γεωγραφική τοποθεσία της παραγωγής, η «βασική μουσική γλώσσα» μου χρησιμοποιούν τα μέλη του γένους αλλά και ο χαρακτηρισμός που της αποδίδουν τα μέλη της κοινότητας των ακροατών της είναι ιδιαίτερα σημαντική [53]. Είναι η εξειδικευμένη κοινότητα των δημιουργών, κριτικών και της μουσικής βιομηχανίας που δημιουργεί και εγκαθιδρύει τις ταξινομίες αυτές. Ακολούθως, μια από τις αναγκαιότητες που παρουσιάζονται στην ΕΜΠ είναι η κατηγοριοποίηση κατά γένος. Εκτός της προφανούς σημασίας σε πληθώρα επαγγελματιών (πωλητές, βιβλιοθηκονόμοι, μουσικολόγοι, κλπ) ως μέσο οργάνωσης της μουσικής, η κατηγοριοποίηση κατά γένος είναι εξίσου σημαντική καθώς η έρευνα [41] δείχνει πως η αρέσκεια σε ένα μουσικό κομμάτι μπορεί να έχει υψηλή συσχέτιση με τη μορφή της εκτέλεσης και όχι στο ίδιο το περιεχόμενο του κομματιού μετατρέποντας το γένος σε ψηλής σημασίας χαρακτηριστικό για την ΕΜΠ. Καθώς τα μεταδεδομένα στη μουσική απαιτούν ρητή ανάθεση η οποία δεν συμβαίνει πάντα και η χειρωνακτική τους ανάθεση παρουσιάζει δυσκολίες και πιθανώς ασυνέπεια [42], η αναγκαιότητα για αποδοτικές αυτοματοποιημένες τεχνικές κατηγοριοποίησης της μουσικής είναι προφανής, ειδικότερα καθώς οι μουσικές συλλογές αυξάνουν σε πλήθος, μέγεθος με ταχύ ρυθμό. Επιπλέον, η κατηγοριοποίηση κατά γένος μουσικής έχει πολλαπλά οφέλη για το ευρύ κοινό καθώς διευκολύνει την πρόσβαση προσφέροντας ευκολία.

69 Παρότι η ΕΜΠ και ειδικότερα η έρευνα βάσει περιεχομένου είναι ακόμα σε φάση ανάπτυξης, η τρέχουσα έρευνα εστιάζει σε ακουστικά δεδομένα, γεγονός που μπορεί εύκολα να εξηγηθεί από την δημοφιλία των ακουστικών καταγραφών. Τα μουσικά δεδομένα σε συμβολική μορφή, όπως προαναφέρθηκε, έχουν την έννοια της πρόθεσης από το δημιουργό προς τον εκτελεστή. Ακολούθως, η συμβολική αναπαράσταση εμπεριέχει πλούτο πληροφορίας, η οποία δεν είναι πάντα προφανής στο αντίστοιχή ακουστική αναπαράσταση. Επιπλέον, τα ακουστικά μουσικά δεδομένα εμπεριέχουν περαιτέρω άσχετη πληροφορία με τη μορφή του θορύβου, δυσχεραίνοντας έτσι την επεξεργασία τους. Για να μπορέσει να γίνει επεξεργασία της συνολικής πληροφορίας που περιέχεται στα μουστικά δεδομένα διάφορες μέθοδοι έχουν προταθεί [36, 5, 52] που εκμεταλλεύονται χαρακτηριστικά της μουσικής όπως το τονικό ύψος, ο ρυθμός, το ηχόχρωμα κλπ για την κατηγοριοποίηση της μουσικής κατά γένος. Στην ενότητα αυτή εστιάζουμε στο τονικό ύψος και τη χρονική διάρκεια των νοτών της μουσικής πληροφορίας σε συμβολική αναπαράσταση. Ένα από τα κυριότερα θέματα που αντιμετωπίζει η έρευνα κατηγοριοποίησης μουσικής πληροφορίας κατά γένος, ειδικότερα καθώς οι ταξινομίες εξελίσσονται σε λεπτότερου διαχωρισμού γένη και υπογένη, είναι η υποκειμενικότητα και επιβεβαίωση του ορισμού των γενών. Επιπλέον, τα νέο-αναδυόμενα γένη και τα μουσικά έργα που ανήκουν σε περισσότερα του ενός γένη, αυξάνουν σημαντικά τη δυσκολία της κατηγοριοποίησης κατά γένος. 3.2.1.1 Σχετικές εργασίες Η κατηγοριοποίηση κατά γένος είναι μια από τις βασικές περιοχές της ΕΜΠ για την οποία η έρευνα είναι ιδιαίτερα ανθηρή. Παρότι, όπως προαναφέρθηκε, η κατηγοριοποίηση κατά γένος εστιάζει κυρίως στα ακουστικά δεδομένα, οι αντίστοιχες μέθοδοι για συμβολικά δεδομένα έχουν να παρουσιάσουν ενδιαφέροντα αποτελέσματα. Στην εργασία [52], οι συγγραφείς εισήγαγαν τα ιστογράμματα τονικού ύψους (ΙΤΥ) ως μέθοδο για την αναπαράσταση του του περιεχόμενου τονικού ύψους στα μουσικά ακουστικά και συμβολικά σήματα. Αρχεία τύπου MIDI χρησιμοποιήθηκαν για την εξαγωγή του τονικού ύψους, η συχνότητα εμφάνισης των οποίων προσδιορίζει το ΙΤΥ. Καθώς οι προδιαγραφές των αρχείων MIDI επιτρέπουν μόνο 128 διακριτές νότες, κάθε ΙΤΥ είναι ένας πίνακας 128 τιμών καταλογοποιημένος κατά το αναγνωριστικό της νότας, που αναπαριστά τη συχνότητα εμφάνισης της αντίστοιχης νότας. Στην ίδια εργασία εξετάζονται δύο εκδόσεις ΙΤΥ ανάλογα με το αν λαμβάνουν κατά νου την πληροφορία οκτάβας των νοτών. Η αιτιολογία για τη χρήση ή όχι

70 της πληροφορίας οκτάβας βασίζεται στο ότι μεν τα εκτεταμένα ΙΤΥ εμπεριέχουν την πλούσια πληροφορία του τονικού ύψους συμπεριλαμβανόμενης της οκτάβας ενώ τα συμπτυγμένα ΙΤΥ είναι ανεξάρτητα οκτάβας και ο μετασχηματισμός σε κύκλο πέμπτων βελτιώνει την έκφραση της τονικής μουσικής. Ακολούθως, η εκτεταμένη έκδοση συνυπολογίζει την πληροφορία οκτάβας του τονικού ύψους μεταξύ δύο νότες Do που απέχουν μια οκτάβα και τις θεωρεί ως διαφορετικές νότες. Στην συμπτυγμένη έκδοση, όλα τα τονικά ύψη μεταφέρονται σε μια και μόνο οκτάβα, δηλαδή οι δύο νότες Do που προαναφέρθηκαν θεωρούνται ως η ίδια νότα και στη συνέχεια μετασχηματίζονται σε ένα κύκλο πέμπτων, ώστε οι γειτνιάζοντες κάδοι του ιστογράμματος να είναι σε απόσταση πέμπτου αντί ημιτόνιου. Για την ελαχιστοποίηση του χώρου αναζήτησης, τέσσερα μονοδιάστατα χαρακτηριστικά εξάγονται από τα το εκτεταμένο και το συμπτυγμένο ΙΤΥ, τα PITCH- Fold, AMPL-Fold, PITCH-Unfold & DIST-Fold. Το πρώτο είναι ο αριθμός κάδου της μέγιστης κορυφής του συμπτυγμένου ΙΤΥ ενώ το δεύτερο είναι το πλάτος της μέγιστης κορυφής του συμπτυγμένου ΙΤΥ. Το PITCH-Unfold είναι η περίοδος της της μέγιστης κορυφής του εκτεταμένου ΙΤΥ και το DIST-Fold είναι το διάστημα (σε πλήθος κάδων) μεταξύ των δύο υψηλότερων κορυφών του συμπτυγμένου ΙΤΥ. Βασισμένοι στα χαρακτηριστικά αυτά οι συγγραφείς της [52] πέτυχαν 50% ακρίβεια (accuracy) για πέντε γένη. Στην εργασία [36] παρουσιάζεται ένα σύστημα που εξάγει 109 μουσικά χαρακτηριστικά από συμβολικά μουσικά και τα χρησιμοποιεί για την κατηγοριοποίησή τους κατά γένος. Τα χαρακτηριστικά βασίζονται στην ενορχήστρωση, την υφή, το ρυθμό, τη δυναμική, στατιστικά γνωρίσματα του τονικού ύψους, τη μελωδία και της συγχορδίες. Το ίδιο σύστημα απαιτεί εκπαίδευση για τον προσδιορισμό του αποδοτικότερου υποσυνόλου χαρακτηριστικών, ένα κόστος που εξισορροπεί την γενικότητα της λύσης με την απαιτούμενη προ-επεξεργασία της επιλογής του υποσυνόλου. Η ακρίβειά του κατά την κατηγοριοποίηση κατά γένος αναφέρεται 90% για υπό-γένη και 98% για γένη. Τέλος, οι συγγραφείς της [5] παρουσίασαν τη χρήση πέντε χαρακτηριστικά που βασίζονται στη μελωδία, το ηχόχρωμα, το ρυθμό για την κατηγοριοποίηση κατά γένος συμβολικής μουσικής πληροφορίας. Στην έρευνά τους γίνεται σύγκριση διαφορετικών μεθόδων μηχανικής μάθησης (μεταξύ των οποίων τις decisiontree, Bayesian και rule-based ομαδοποιητές). Τα επαναλαμβανόμενα πρότυπα (ΕΠ), όπως παρουσιάστηκαν στην Ενότητα 3.1 έχουν χρησιμοποιηθεί εκτενώς στην ΕΜΠ ενώ μια από τις χρήσεις υπήρξε και η κατηγοριοποίηση μουσικών δεδομένων κατά γένος. Οι συγγραφείς της εργασίας [30] χρησιμοποίησαν ΕΠ για το χαρακτηρισμό μουσικών κατηγοριών. Στην εργασία εκείνη, για κάθε πρότυπο που ανακαλύπτεται για μια ομάδα μουσικών

71 δεδομένων, χρησιμοποιείται ένα σύνολο από μετρήσεις ώστε να προσδιοριστεί η χρησιμότητα του προτύπου για την κατηγοριοποίηση της ομάδας των δεδομένων. Ακολούθως, βάσει των ΕΠ που περιέχει ένα κομμάτι, προσδιορίζουν την κλάση στην οποία πρέπει να ανήκει. Η μέθοδος που χρησιμοποιείται στην εργασία [30] μπορεί να θεωρηθεί ως συμπληρωματική της μεθόδου που παρουσιάζει η Ενότητα 3.2.1.3. Οι συγγραφείς της [30] συλλογικά χαρακτηρίζουν ένα μουσικό γένος από τα ΕΠ που είναι κοινά στο γένος. Συνεπώς, κάθε νέο, ακόμα μη κατηγοριοποιημένο κομμάτι κρίνεται από την ομοιότητα των ΕΠ του με τα ΕΠ του γένους. Κατά τη μέθοδο που παρουσιάζεται εδώ, τα ΕΠ προσδιορίζουν τα μουσικά μέρη που περιέχουν ουσιώδη πληροφορία, ενώ τα υπόλοιπα μέρη θεωρούνται επουσιώδη και δεν εξετάζονται. Ακολούθως, τα ΕΠ ενός μουσικού κομματιού συνεισφέρουν στη συλλογή του συνόλου χαρακτηριστικών του κομματιού και κάθε νέο, ακόμα μη κατηγοριοποιημένο κομμάτι κρίνεται από την ομοιότητα των χαρακτηριστικών χρησιμοποιώντας τη μέθοδο k-nn. 3.2.1.2 Προσθέτοντας τη διάρκεια Στην ενότητα αυτή παρουσιάζεται η προσθήκη πληροφορίας της χρονικής διάρκειας με τη χρήση ιστογραμμάτων διάρκειας νοτών (ΙΔΝ) για την κατηγοριοποίηση μουσικών δεδομένων κατά γένος. Ακολούθως, προτείνονται τρία χαρακτηριστικά που βασίζονται στη διάσταση της διάρκειας των νοτών ενός μουσικού κομματιού καθώς και μια διαφοροποιημένη, σε σχέση με την εργασία [52], μέθοδος για την εξαγωγή χαρακτηριστικών από την πληροφορία τονικού ύψους ενός κομματιού. Ένα ΙΔΥ είναι ένας πίνακας 25 ακεραίων τιμών (οι 8 συνήθεις διάρκειες, οι παρεστιγμένες και δις παρεστιγμένες επαυξήσεις τους και η κομμένη ή breve διάρκεια) καταλογοποιημένες βάσει του μεγέθους της διάρκειάς τους, που αναπαριστούν τη συχνότητα εμφάνισης κάθε διάρκειας νότας σε ένα μουσικό κομμάτι. Διαισθητικά, τα ΙΔΝ προσφέρουν μια μέθοδο για να αιχμαλωτιστεί η δομή και το ρυθμικό μέρος ενός κομματιού, κάτι που είναι επιπλέον εμφανές στα κλασσικά μουσικά κομμάτια όπου τα γένη δημιουργήθηκαν εξελίχθηκαν βασισμένα σε κανόνες. Παράδειγμα αποτελούν οι φούγκες (fugues) όπου είναι σύνηθες να υπάρχουν πολλά μέρη όπου οι διάρκειες των νοτών είναι μικρότερες από ότι στα άλλα μέρη με στόχο να μεταδώσουν ένα αίσθημα έντασης καθώς το αρχικό θέμα τους ήταν η απόδραση. Αντίθετα, οι σονάτες (sonatas) είναι γνωστές για τη δομή τους που είναι συνήθως αργή, ειδικότερα στα δεύτερα μέρη τους. Όπως έχει ήδη σχολιαστεί, η επιλογή των χαρακτηριστικών είναι ιδιαίτερης σημασίας για όλες τις δράσεις ανάκτησης πληροφορίας. Στην προκείμενη περί-

72 πτωση η επιλογή των χαρακτηριστικών είναι επιπλέον σημαντική καθώς η απόδοση του κατηγοριοποιητή εξαρτάται κυρίως από τη διακριτική ικανότητα των χαρακτηριστικών να αποβάλουν στατιστικές ιδιότητες των ιστογραμμάτων ενώ θα διατηρούν πληροφορία που περιγράφει τις διαφορές των γενών και κατά συνέπεια υποστηρίζουν τη δράση κατηγοριοποίησης. Ακολούθως, στην ενότητα αυτή γίνεται χρήση 3 μονοδιάστατων χαρακτηριστικών από τα ΙΔΝ, η διάρκεια που έχει τη μεγαλύτερη συχνότητα εμφάνισης, το πλήθος των εμφανίσεων της διάρκειας με τη μεγαλύτερη συχνότητα εμφάνισης αλλά και την απόσταση μεταξύ των δύο υψηλότερων κορυφών συχνότητας εμφάνισης διάρκειας σε απεικόνιση σχετικής χρονικής διάρκειας. Η επιλογή των προτεινόμενων χαρακτηριστικών βασίζεται στα ιδιαίτερα χαρακτηριστικά που απαιτείται να διατηρούν, όπως η διάρκεια της πρώτης και δεύτερης νότας που εμφανίζεται συχνότερα (έμμεσα μέσω της απόστασής τους) αλλά και το πλήθος των εμφανίσεων της συχνότερης διάρκειας. Επιπλέον, χαρακτηριστικά παρόμοιας μορφής αλλά σε διαφορετική πληροφορίας της μουσικής χρησιμοποιήθηκαν επιτυχώς στη βιβλιογραφία για την κατηγοριοποίηση συμβολικών μουσικών δεδομένων κατά γένος. Τα προτεινόμενα χαρακτηριστικά είναι τα εξής: Συμπτυγμένο τονικό ύψος Στα χαρακτηριστικά συμπτυγμένου τονικού ύψους, η πληροφορία της οκτάβας δεν λαμβάνεται κατά νου. Ακολούθως, τα τέσσερα μονοδιάστατα χαρακτηριστικά της εργασίας [52] εξάγονται από τα εκτεταμένα ΙΤΥ. Αυτό γίνεται για να προσδιοριστεί η συνέπεια της πληροφορίας της οκτάβας στα κλασσικά μουσικά έργα αλλά και για λόγους σύγκρισης. Διάρκεια Στα χαρακτηριστικά διάρκειας, όλα τα χαρακτηριστικά όπως προαναφέρθηκαν στην ίδια Ενότητα εξάγονται μόνο από ΙΔΝ ώστε να παρουσιαστεί η διακριτική ικανότητα της πληροφορίας της διάρκειας των νοτών, όπως παράγονται από τα ΙΔΝ. Τονικό ύψος & διάρκεια Το χαρακτηριστικό αυτό παράγεται από το συνδυασμό των χαρακτηριστικών του τονικού ύψους και της διάρκειας. Ακολούθως, κάθε μουσικό κομμάτι αναπαρίσταται από 7 χαρακτηριστικά, 4 από το ΙΤΥ και 3 από το ΙΔΝ. Καθώς τα χαρακτηριστικά τονικού ύψους μπορούν να είναι σε έκδοση εκτεταμένη ή συμπτυγμένη, όμοια και το συνδυαστικό χαρακτηριστικό αυτό μπορεί να εξαχθεί για τις ίδιες εκδόσεις. Σταθμισμένο τονικό ύψος & διάρκεια Το τελευταίο χαρακτηριστικό που προτείνεται είναι μια μεταλλαγμένη έκδοση του συνδυασμού τονικού ύψους και διάρκειας. Η μετάλλαξη συνίσταται στη χρήση στάθμισης ώστε ένα από