Καταλογοποίηση ακουστικών μουσικών δεδομένων

Σχετικά έγγραφα
Gemini, FastMap, Applications. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Εξωτερική Αναζήτηση. Ιεραρχία Μνήμης Υπολογιστή. Εξωτερική Μνήμη. Εσωτερική Μνήμη. Κρυφή Μνήμη (Cache) Καταχωρητές (Registers) μεγαλύτερη ταχύτητα

Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Κεφ.11: Ευρετήρια και Κατακερματισμός

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MPEG-7 : Περιγραφή πολυμεσικού περιεχομένου

MIDI [8] MIDI. [9] Hsu [1], [2] [10] Salamon [11] [5] Song [6] Sony, Minato, Tokyo , Japan a) b)

Ειδικές Επιστηµονικές Εργασίες

Εισαγωγή στην Επεξεργασία Ερωτήσεων. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Ανάκτηση Πληροφορίας (Information Retrieval IR) ιδακτικό βοήθηµα 2. Πανεπιστήµιο Θεσσαλίας Πολυτεχνική Σχολή Τµήµα Μηχ. Η/Υ, Τηλ/νιών & ικτύων

Ανάκτηση Πληροφορίας (Information Retrieval IR)

Ανάκτηση πολυμεσικού περιεχομένου

Αρχές κωδικοποίησης. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 08-1

Αλγόριθμοι και Δομές Δεδομένων (Ι) (εισαγωγικές έννοιες)

Βάσεις εδοµένων & Πολυµέσα

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Πληροφορική 2. Δομές δεδομένων και αρχείων

Τι είναι αλγόριθμος; Υποπρογράμματα (υποαλγόριθμοι) Βασικές αλγοριθμικές δομές

«Μηχανή Αναζήτησης Αρχείων» Ημερομηνία Παράδοσης: 30/04/2015, 09:00 π.μ.

Οι πράξεις της συνένωσης. Μ.Χατζόπουλος 1

Τα δεδομένα (περιεχόμενο) μιας βάσης δεδομένων αποθηκεύεται στο δίσκο

Επεξεργασία Ερωτήσεων

Τεχνολογία Πολυμέσων. Ενότητα # 4: Ήχος Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών Σημάτων. Διάλεξη 20: Διακριτός Μετασχηματισμός Fourier (Discrete Fourier Transform DFT)

Εξόρυξη γνώσης από μουσική πληροφορία

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Multimedia IR. εικτοδότηση και Αναζήτηση. Ανάκτηση Πληροφορίας

Σχεδίαση και Ανάλυση Αλγορίθμων

ER-Tree (Extended R*-Tree)

Επεξεργασία Ερωτήσεων

Βάσεις δεδομένων και Microsoft Access

Κατακερματισμός. 4/3/2009 Μ.Χατζόπουλος 1

Επεξεργασία Ερωτήσεων

Multimedia IR. Εισαγωγή. Εισαγωγή. εικτοδότηση και Αναζήτηση

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #03

Θεωρία Πληροφορίας. Διάλεξη 4: Διακριτή πηγή πληροφορίας χωρίς μνήμη. Δρ. Μιχάλης Παρασκευάς Επίκουρος Καθηγητής

Δομές Δεδομένων & Αλγόριθμοι

Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον

Το εσωτερικό ενός Σ Β

Ήχος. Τεχνολογία Πολυμέσων και Πολυμεσικές Επικοινωνίες 04-1

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών

Εισαγωγή. Διαλέξεις στο μάθημα: Μεταφραστές Γιώργος Μανής

Περιγραφή των Δεδομένων

ΚΕΦΑΛΑΙΟ 3 ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ

Δομές Δεδομένων και Αλγόριθμοι

Αναγνώριση Προτύπων Ι

Δυναμικός Κατακερματισμός

R-Trees, kd-trees, QuadTrees. Εαρινό Εξάμηνο Τμήμα Μηχανικών Η/Υ και Πληροϕορικής Πολυτεχνική Σχολή, Πανεπιστήμιο Πατρών

Τεχνολογία Πολυμέσων. Ενότητα # 8: Αρχές κωδικοποίησης Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Επιχειρηματικές Προβλέψεις: Μέθοδοι & Τεχνικές Παρακολούθηση Χρονοσειράς Διάλεξη 11

ΟΜΑΔΟΠΟΙΗΣΗ ΑΡΙΘΜΗΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Ο μετασχηματισμός Fourier

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

ιαχείριση και Ανάκτηση Εικόνας µε χρήση Οµοιότητας Γράφων (WW-test)

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Οι βασικές λειτουργίες (ή πράξεις) που γίνονται σε μια δομή δεδομένων είναι:

Ανάκτηση Πληροφορίας

Ανάλυση, Περιγραφή και Ανάκτηση Μουσικών Δεδομένων: το έργο ΠΟΛΥΜΝΙΑ*

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

Υπάρχουν δύο τύποι μνήμης, η μνήμη τυχαίας προσπέλασης (Random Access Memory RAM) και η μνήμη ανάγνωσης-μόνο (Read-Only Memory ROM).

Δυναμικός Κατακερματισμός. Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1

Επεξεργασία Ερωτήσεων

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 7 ο : Ανάκτηση πληροφορίας. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Ακέραιος Γραμμικός Προγραμματισμός

Αρχές κωδικοποίησης. Τεχνολογία Πολυµέσων 08-1

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017

ΗΥ-460 Συστήµατα ιαχείρισης Βάσεων εδοµένων ηµήτρης Πλεξουσάκης Βασίλης Χριστοφίδης

Ανάκτηση Πληροφορίας. Διδάσκων: Φοίβος Μυλωνάς. Διάλεξη #01

Ψηφιακή Επεξεργασία Σημάτων

Σχεδίαση & Ανάλυση Αλγορίθμων

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών

Επερωτήσεις σύζευξης με κατάταξη

Ενδεικτικές Ερωτήσεις Θεωρίας

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

3 ο ΦΥΛΛΑΔΙΟ ΑΣΚΗΣΕΩΝ - ΠΙΝΑΚΕΣ

Θέμα: Ανάπτυξη Βασικής Πλατφόρμας για Υπηρεσίες με Βάση το Προφίλ και τη Θέση (Profile & Location Based Services)

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

Λίγα λόγια από το συγγραφέα Βάσεις δεδομένων και Microsoft Access Microsoft Access... 22

Query by Phrase (QBP) (Music Information Retrieval, MIR) QBH QBP / [1, 2] [3, 4] Query-by-Humming (QBH) QBP MIDI [5, 6] [8 10] [7]

Δομές Δεδομένων. Ενότητα 11: Τεχνικές Κατακερματισμού. Καθηγήτρια Μαρία Σατρατζέμη. Τμήμα Εφαρμοσμένης Πληροφορικής.

Σηµειώσεις στις σειρές

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Παραδοτέο Π.1.3. Μηχανισμοί δεικτοδότησης μη-παραδοσιακών δεδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΜΑΘΗΜΑ 8 Ο. Ταξινόμηση και Αναζήτηση Συναρτήσεις χειρισμού οθόνης ΣΙΝΑΤΚΑΣ Ι. ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Πίνακες Διασποράς. Χρησιμοποιούμε ένα πίνακα διασποράς T και μια συνάρτηση διασποράς h. Ένα στοιχείο με κλειδί k αποθηκεύεται στη θέση

Έστω ένας πίνακας με όνομα Α δέκα θέσεων : 1 η 2 η 3 η 4 η 5 η 6 η 7 η 8 η 9 η 10 η

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΡΟΣΟΜΟΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΤΟ ΛΟΓΙΣΜΙΚΟ EXTEND. 1 ο εργαστήριο Διοίκησης και Παραγωγής Έργων

Συλλογή & Επεξεργασία Δεδομένων Εργαστήριο 9 Ανάλυση Fourier: Από τη Θεωρία στην Πρακτική Εφαρμογή των Μαθηματικών

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Εισαγωγή στην. Εισαγωγή Σ Β. Αρχεία ευρετηρίου Κατάλογος. συστήματος. Αρχεία δεδομένων

Τεχνολογία Πολυμέσων. Ενότητα # 3: Συστήματα πολυμέσων Διδάσκων: Γεώργιος Ξυλωμένος Τμήμα: Πληροφορικής

Transcript:

ΚΕΦΑΛΑΙΟ 5 Καταλογοποίηση ακουστικών μουσικών δεδομένων Περιεχόμενα 5.1 ΕΙΣΑΓΩΓΗ.......................... 147 5.2 ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ.................... 149 5.3 Ο ΑΛΓΟΡΙΘΜΟΣ MS-INDEX................ 151 5.4 ΕΠΙΛΥΣΗ ΨΕΥΔΩΝ ΤΑΙΡΙΑΣΜΑΤΩΝ........... 154 5.5 ΠΕΙΡΑΜΑΤΙΚΗ ΑΠΟΤΙΜΗΣΗ............... 157 5.1 Εισαγωγή Μια από τις κύριες προκλήσεις στην Ανάκτηση Μουσικής Πληροφορίας Βάσει Περιεχομένου (ΑΜΠΒΠ) είναι η επιλογή της αναπαράστασης των μουσικών δεδομένων σε ένα σύστημα. Τα μουσικά δεδομένα απαιτούν αναπαράσταση μέσω των χαρακτηριστικών τους για λόγους μείωσης του χώρου έρευνας. Στη βιβλιογραφία υφίσταται μια πληθώρα εναλλακτικών προσεγγίσεων [13] όσον αφορά στα χαρακτηριστικά που πρέπει να αναπαραστήσουν ένα μουσικό δεδομένο. Για τα ακουστικά μουσικά δεδομένα, τα συνηθέστερα χαρακτηριστικά εξάγονται με τη χρήση ανάλυσης στο πεδίο του χρόνου ([7, 8]), φασματικής ανάλυσης ([7, 8, 6]) και ανάλυσης wavelet [12]. Οι συντελεστές που συλλέγονται από τις αναλύσεις αυτές μπορούν δεικτοδοτηθούν με TV-δένδρα [11], με τη μέθοδο του ευαίσθητου κατακερματισμού ως προς την τοπικότητα (locality-sensitive hashing) [15], S-καταλόγους [2] κλπ. Επιπλέον, η εργασία [10] παρουσιάζει μια 145

146 σύγκριση τεσσάρων διαφορετικών πολυδιάστατων μεθόδων δεικτοδότησης μουσικών δεδομένων, το KD-δένδρο, το K-δένδρο, την πολυδιάστατη γρήγορη ταξινόμηση και τη μέθοδο Box Assisted. Οι συγγραφείς της [10] καταλήγουν ότι το KD-Tree είναι σημαντικά αποδοτικότερο από τις συγκρινόμενες μεθόδους, ιδιαίτερα για πολυδιάστατα δεδομένα. Τέλος, οι συγγραφείς της εργασίας [14] χρησιμοποίησαν ένα M-δένδρο στο οποίο αποθηκεύουν ένα σύνολο επιλεγμένων χαρακτηριστικών, επιτυγχάνοντας 65% κέρδος σε απαιτήσεις χώρου. Στην παρούσα Ενότητα, εστιάζουμε στο πρόβλημα της ανεύρεσης ομοιότητας σε υποακολουθίες ακουστικών μουσικών δεδομένων χρησιμοποιώντας ως χαρακτηριστικά των μουσικών αρχείων (ακολουθίες) τους πρώτους μερικούς συντελεστές του μετασχηματισμού DFT. Οι συντελεστές αυτοί αποθηκεύονται σε μια χωροταξική δομή με στόχο τη μείωση του χρόνου ανεύρεσης. Βασικές διαφοροποιήσεις των ακουστικών μουσικών δεδομένων σε σχέση με άλλα δεδομένα και τις ήδη υπαρκτές προσεγγίσεις για αυτά (κυρίως από το πεδίο της ανάλυσης χρονοσειρών) επιβεβαιώνουν την αναγκαιότητα εξειδικευμένων μεθόδων για τη μουσική πληροφορία. Λόγου χάριν, σε συνήθεις εφαρμογές χρονοσειρών, όπως η ανάλυση μετοχών, οι ακολουθίες επερωτημάτων έχουν σχετικά μικρά μήκη, π.χ., μικρότερο των 1,000 στοιχείων. Για μουσικές ακολουθίες, ακόμα και στην περίπτωση μειωμένης δειγματοληψίας ασυμπίεστων ακουστικών αρχείων, ένα επερώτημα θα περιλάμβανε τουλάχιστο τρία δευτερόλεπτα μουσικής τα οποία παράγουν μια ακολουθία επερωτήματος 60,000 στοιχείων κατά προσέγγιση. Είναι λοιπόν εμφανές, ότι η Επίλυση Ψευδών Αποτελεσμάτων (false alarms) 1 (ΕΨΑ) ενός τέτοιου επερωτήματος θα ήταν υπολογιστικά πολύ δαπανηρή. Επιπλέον, σε σχέση με υπάρχουσες μεθόδους δεικτοδότησης μουσικών ακολουθιών για ανεύρεση ομοιότητας, το ενδιαφέρον της τρέχουσας Ενότητας είναι για προσεγγίσεις που θα επιτρέπουν άμεση υλοποίηση σε υπάρχοντα συστήματα διαχείρισης βάσεων δεδομένων. Κατά συνέπεια, χρησιμοποιούνται δομές δεικτοδότησης από την οικογένεια του R-δένδρου, οι οποίες έχουν υλοποιηθεί σε πολλά εμπορικά και ανοικτού κώδικα συστήματα διαχείρισης βάσεων δεδομένων, λ.χ., Oracle και Postgres κ.ο.κ. Έτσι απαιτείται η χρήση ενός αλγόριθμου αποδοτικής ανάκτησης όμοιων ακουστικών μουσικών δεδομένων για ακουστικά επερωτήματα. Ο αλγόριθμος που παρουσιάζεται εδώ αντιμετωπίζει τα χαρακτηριστικά που προκύπτουν από τη φύση του εξεταζόμενου προβλήματος, λ.χ., παράγοντες όπως το αυξημένο μέγεθος των εξεταζόμενων ακολουθιών (όπως προαναφέρθηκε, παρεμφερείς παράγοντες δεν εμφανίζονται σε συγγενικά πεδία, όπως η ανεύρεση ομοιότητας σε χρονοσειρές). 1 Ο εντοπισμός ταιριασμάτων τα οποία παρουσιάζονται ως αληθινά αποτελέσματα ενώ στην πραγματικότητα δεν είναι.

147 5.2 Σχετικές εργασίες 5.2.1 Δεικτοδότηση σε συστήματα ΑΜΠΒΠ Στην Ενότητα αυτή παρουσιάζονται σχετικές έρευνες σε μεθόδους δεικτοδότησης συστημάτων ΑΜΠΒΠ ακουστικών μουσικών δεδομένων. Ο συγγραφέας της εργασίας [15] προτείνει έναν αλγόριθμο φασματικής δεικτοδότησης για ΑΜΠΒΠ. Η διαδικασία εξαγωγής χαρακτηριστικών που προτείνει προσπαθεί να εντοπίσει διακριτές νότες ή ρυθμικά πρότυπα. Τα χαρακτηριστικά χρησιμοποιούνται για την κατασκευή «χαρακτηριστικών ακολουθιών», που σε επόμενο βήμα δεικτοδοτούνται βάσει ενός πιθανοτικού συστήματος, του λεγόμενου ευαίσθητου κατακερματισμού ως προς την τοπικότητα (Locality-Sensitive Hashing - LSH). Το LSH επιτρέπει τόσο ψευδή θετικά (false positive) όσο και αρνητικά (false negative) αποτελέσματα, τα οποία αντιμετωπίζονται σε επόμενο βήμα ανάλογα με την ομοιομορφία στο χρόνο των αλλαγών του μουσικού ρυθμού. Πειραματικά αποτελέσματα παρουσιάζουν υψηλή ακρίβεια ανεύρεσης για διαφορετικούς τύπους ομοιότητας. Στην εργασία [14], οι συγγραφείς προτείνουν ένα σύστημα ΑΜΠΒΠ, το οποίο προσανατολίζεται στην εξυπηρέτηση διαφορετικών τύπων επερωτημάτων. Οι αποδεκτοί τύποι επερωτημάτων περιλαμβάνουν ακουστικά αρχεία, μουσική σημειογραφία αλλά και ερώτημα με τραγούδισμα σε μικρόφωνο (Query-By-Humming - QBH). Το πρωτόκολλο MIDI χρησιμοποιείται ως ενδιάμεση αναπαράσταση των μουσικών αντικειμένων. Η συλλογή των χαρακτηριστικών ονομάζεται αντιπροσωπευτική μελωδία και καταχωρίζεται σε ένα Μ-δένδρο, όπου οι μελωδίες εισάγονται βάσει της απόκλισης του μέσου μήκους και τονικού ύψους τους μαζί με υπογραφές της μελωδίας που περιγράφουν τον τύπο της απόκλισης. Η χρησιμοποιούμενη συνάρτηση απόστασης είναι τύπου χρόνο-στρέβλωσης (time-warping). Προκαταρκτικά αποτελέσματα δείχνουν 65% κέρδος σε απαιτήσεις χώρου με τη χρήση της συλλογής των χαρακτηριστικών σε αντίθεση με τις πλήρεις μελωδίες. Η εργασία [14] βασίζεται στην υπόθεση ότι το επερώτημα των χρηστών πρέπει να περιλαμβάνει τουλάχιστο ένα από τα μέρη που χρησιμοποιήθηκαν για τη δημιουργία των αντιπροσωπευτικών μελωδιών. Η υπόθεση αυτή μπορεί να αποδώσει για επερωτήματα τύπου QBH, ωστόσο είναι πιθανό να μην αποδώσει για ένα τυχαίο μέρος ενός κομματιού από μουσικό αρχείο το οποίο περιλαμβάνεται στο ευρετήριο, ιδιαίτερα για επερωτήματα μικρού μήκους. Επιπλέον, η μετατροπή ακουστικής πολυφωνικής μουσικής σε συμβολική είναι γνωστή για τη δυσκολία και τη φτωχή απόδοσή της ([15, 9]). Όσον αφορά στην εργασία [15], η μέθοδος επιλογής χαρακτηριστικών που προτείνει είναι κυρίως εστιασμένη στον προσδιορισμό διαφορετικών τύπων ομοιότητας σε μουσικά ζεύγη. Επιπλέον, τα επιλεγμένα χαρακτηριστικά είναι πιθανό να οδηγήσουν σε ψευδή αρνητικά αποτελέ-

148 σματα, τα οποία πρέπει να αντιμετωπισθούν σε μετεπεξεργαστικό βήμα. Τέλος, η εργασία [15] χρησιμοποιεί ένα εξειδικευμένο σύστημα δεικτοδότησης. Η παρούσα Ενότητα εστιάζει σε ένα απλούστερο, αλλά χρήσιμο, μοντέλο για ανεύρεση ομοιότητας σε υποακολουθίες, το οποίο βασίζεται σε έρευνα σχετικά με ανάλυση χρονοσειρών. Η προσέγγιση δεν εμφανίζει ψευδή αρνητικά αποτελέσματα, σύμφωνα με το χρησιμοποιούμενο μοντέλο ομοιότητας, καθώς επίσης ενσωματώνει γενικής χρήσης ευρετήρια (R-δένδρα), που επιτρέπουν άμεση υλοποίηση σε υπάρχοντα συστήματα διαχείρισης σχεσιακών βάσεων δεδομένων. 5.2.2 Δεικτοδότηση ομοιότητας πολυμεσικών δεδομένων Η μέθοδος γενικής δεικτοδότησης πολυμεσικών αντικειμένων (GEneric Multimedia object INdexIng - GEMINI) [3] αποτελείται από μια συνάρτηση εξαγωγής για την αντιστοίχιση των αντικειμένων σε σημεία στον f -διάστατο χώρο. Ακολούθως, χρησιμοποιείται μια Μέθοδος Χωροταξικής Δεικτοδότησης (ΜΧΔ) για την επιτάχυνση της έρευνας. Η μέθοδος GEMINI βασίζεται στα εξής τρία σημαντικά σημεία: (i) ένα γρήγορο έλεγχο που πιθανώς επιτρέπει ψευδή ταιριάσματα, ώστε να απορριφθεί η πλειονότητα των μη κατάλληλων αντικειμένων, (ii) τη χρήση μιας ΜΧΔ για τη βελτιστοποίηση της απόδοσης της έρευνας, και (iii) τη χρήση μιας μεθόδου επίλυσης ψευδών ταιριασμάτων. Μια από τις δημοφιλέστερες φασματικές αναλύσεις για χρονοσειρές βασίζεται στο μετασχηματισμό Discrete Fourier Transform (DFT). Διατηρώντας τους πρώτους μερικούς συντελεστές ως χαρακτηριστικά οδηγεί σε υπο-εκτίμηση της απόστασης των ακολουθιών και κατά συνέπεια αποφεύγει τις απορρίψεις ορθών αποτελεσμάτων[4]. Η δημοτικότητα της συγκεκριμένης μεθόδου πηγάζει από το γεγονός ότι οι περισσότερες αληθινές ακολουθίες εμπίπτουν στην κατηγορία των τυχαίων περιπάτων (random walks), και ειδικότερα του χρωματικού θορύβου (colored noise). Για του τύπου αυτού ακολουθίες, οι πρώτοι μερικοί συντελεστές του μετασχηματισμού DFT περιέχουν την περισσότερη ενέργεια της ακολουθίας. Το φαινόμενο αυτό είναι ιδιαίτερα εμφανές σε ακολουθίες μετοχών, οι οποίες μπορούν να θεωρηθούν ως brown noise [4]. Είναι ενδιαφέρον να πως το ίδιο φαινόμενο ισχύει και για σήματα, όπως τα ακουστικά μουσικά δεδομένα που ανήκουν στον θόρυβο pink noise [4]. Σε σύγκριση με τη μέθοδο που περιγράφεται στην εργασία [4], η μέθοδος που παρουσιάζεται εδώ διαφέρει στα εξής σημεία. Οι ακολουθίες επερωτημάτων μπορεί να έχουν μεγάλα μεγέθη σε σύγκριση με τις αντίστοιχες σε δεδομένα χρονοσειρών και ακολουθίες μετοχών τα οποία εξετάζονται στην [4]. Συνεπώς, παρουσιάζεται ένα σύστημα επίλυσης ψευδών ταιριασμάτων, το οποίο ενσωματώνει μεθόδους για τα προαναφερθέντα μεγάλα μεγέθη επερωτημάτων όπως προτάθηκε

149 στην εργασία [5] όπου το ευρετήριο μπορεί να περιέχει ένα μεγάλο πλήθος ακολουθιών (αναπαραστάσεων ακουστικών σημάτων). 5.3 Ο αλγόριθμος MS-Index 5.3.1 Καθορισμός προβλήματος Το πρόβλημα που αντιμετωπίζεται στην Ενότητα αυτή ορίζεται το εξής: Έστω D μια συλλογή από n μουσικές ακολουθίες, δηλ., D = {D i }, 1 i n. Δοθείσας μιας μουσικής ακολουθίας Q, να βρεθούν όλες οι D i D όπου κάθε τέτοια D i περιέχει τουλάχιστο μια υποακολουθία S j μήκους S j = Q και S j Q ϵ (η απόσταση ϵ είναι καθοριζόμενη από το χρήστη). Για λόγους απλότητας χρησιμοποιείται η Ευκλείδεια απόσταση για την εύρεση της απόστασης μεταξύ των Q και S j. Παράδειγμα. Έστω ότι η συλλογή των ακολουθιών D είναι όπως εμφανίζεται στο Σχήμα 5.1, και περιλαμβάνει τρεις μουσικές ακολουθίες. Για ένα επερώτημα σε μορφή ακολουθίας Q (επίσης στο σχήμα) και για ϵ = 5, βρίσκουμε ένα αποτέλεσμα στην D 1. Η αντίστοιχη υποακολουθία εμφανίζεται στο τονισμένο ορθογώνιο. Αξίζει να σημειωθεί ότι η D 1 περιέχει επίσης μια ακόμα υποακολουθία με μήκος τριών στοιχείων (την υποακολουθία με στοιχεία: 23, 17, και 31), η οποία ταιριάζει με την Q. Ωστόσο, εφόσον αρκεί να αναφερθεί ότι η D 1 περιλαμβάνει ένα αποτέλεσμα, το πρώτο που θα εντοπισθεί είναι αρκετό. D 1 : 0 0 12 25 18 32 12 23 17 31 D 2 : 0 1 13 12 28 35 19 58 92 14 D 3 : 2 5 67 96 55 44 28 128 116 35 Q: 24 16 32 Σχήμα 5.1: Παράδειγμα ανεύρεσης αποτελεσμάτων ομοιότητας σε υποακολουθίες. Στην Ενότητα αυτή θεωρούνται ως μουσικές ακολουθίες, οι ακολουθίες ακεραίων αριθμών που κυμαίνονται από 0 έως και 255 (κάτα το πρωτόκολλο MIDI), και περιγράφουν το μέγεθος (amplitude) του σήματος του μουσικού αρχείου.

150 5.3.2 Εξαγωγή χαρακτηριστικών Η επιλογή κατάλληλων χαρακτηριστικών είναι υψηλής σημασίας στην ανάκτηση πολυμεσικής πληροφορίας. Χαρακτηριστικά με μεγάλη σημασιολογική αξία βοηθούν στην αποδοτική αναπαράσταση των μουσικών αντικειμένων και επιτρέπουν τη χρήση μεθόδων δεικτοδότησης για αποτελεσματική επεξεργασία των επερωτημάτων. Η μέθοδος εξαγωγής χαρακτηριστικών που παρουσιάζεται εδώ προτείνεται στην εργασία [4], καθώς το πρόβλημα που αντιμετωπίζεται είναι παρόμοιο με το ταίριασμα υποακολουθιών χρονοσειρών. Συνεπώς, οι αρχικές μουσικές ακολουθίες μετατρέπονται σε ένα πλήθος πολυδιάστατων σημείων εφαρμόζοντας ένα κινούμενο παράθυρο στα μουσικά δεδομένα και στη συνέχεια το μετασχηματισμό DFT σε κάθε παράθυρο. Με τη μέθοδο αυτή κάθε μουσική ακολουθία παράγει ένα σύνολο πολυδιάστατων σημείων. Ο αριθμός των διαστάσεων του χώρου μετατροπής εξαρτάται από το πλήθος των συντελεστών DFT που θα χρησιμοποιηθούν για την αναπαράσταση. Διατηρώντας τους πρώτους μερικούς από τους συντελεστές αυτούς το μέγεθος της αρχικής ακολουθίας μειώνεται σημαντικά. Επιπλέον, καθώς η περισσότερη ενέργεια της μουσικής ακολουθίας είναι συγκεντρωμένη στους πρώτους μερικούς συντελεστές DFT ([4]), αυτοί αποτελούν μια επαρκή αναπαράσταση. p4 p6 y p'4 p'5 p'6 p2 p'3 0 0 12 25 18 32 12 23 17 31 p'2 p'1 p1 p3 x p5 z (a) (b) Σχήμα 5.2: Τα δεδομένα: ο αρχικός (a) και ο μετασχηματισμένος (b) χώρος. Το Σχήμα 5.2 παρουσιάζει ένα παράδειγμα της προαναφερθείσας μεθόδου μετατροπής. Στο προκείμενο παράδειγμα το κινούμενο παράθυρο είναι μήκους πέντε στοιχείων και εφαρμόζεται στην αρχική ακολουθία. Κάθε σημείο p i που ορίζεται από το παράθυρο, μετατρέπεται σε ένα σημείο p i στον ν-διάστατο χώρο εφαρ-

151 μόζοντας το μετασχηματισμό DFT και διατηρώντας μόνο τους πρώτους ν συντελεστές του μετασχηματισμού. Αποδεικνύεται στην εργασία [4] ότι δεν γίνονται απορρίψεις ορθών αποτελεσμάτων χρησιμοποιώντας το μετασχηματισμό αυτό, καθώς η απόσταση στο χώρο μετασχηματισμού είναι κάτω φραγμένη. Ωστόσο, ψευδή ταιριάσματα αποτελούν μια πιθανότητα και απαιτούν αντιμετώπιση. Η μέθοδος αντιμετώπισης των ψευδών ταιριασμάτων αναλύεται στην Ενότητα 5.4. 5.3.3 Δεικτοδότηση Η αναπαράσταση των μουσικών δεδομένων που περιγράφηκε προηγουμένως, δεν μπορεί να εγγυηθεί αφ εαυτού της την αποδοτική επεξεργασία ενός επερωτήματος. Για το λόγο αυτό, οι μετασχηματισμένες μουσικές ακολουθίες πρέπει να οργανωθούν με τη χρήση ενός ευρετηρίου με στόχο την αύξηση της απόδοσης της επεξεργασίας. Καθώς κάθε μουσική ακολουθία αναπαρίσταται από ένα σύνολο πολυδιάστατων σημείων, μπορεί να χρησιμοποιηθεί μια πολυδιάστατη ΜΧΔ για την οργάνωση των δεδομένων αυτών. Ωστόσο, η απευθείας δεικτοδότηση πολυδιάστατων σημείων οδηγεί σε υπέρμετρες απαιτήσεις χώρου αποθήκευσης καθώς κάθε μουσική ακολουθία μπορεί να δημιουργήσει χιλιάδες πολυδιάστατα σημεία. Για την αντιμετώπιση του προβλήματος αυτού γίνεται χρήση μιας προσέγγισης όμοια με την προτεινόμενη στην εργασία [4] που εφαρμόζει ομαδοποίηση των πολυδιάστατων σημείων με Ελάχιστα Περικλείοντα Ορθογώνια (Minimum Bounding Rectangles - MBR). Η μέθοδος αυτή εκμεταλλεύεται το γεγονός ότι διαδοχικά πολυδιάστατα σημεία αναμένεται να είναι κοντά μεταξύ τους στο χώρο μετασχηματισμού. Ένα παράδειγμα της ομαδοποίησης αυτής παρουσιάζεται στο Σχήμα 5.3. MBR 1 MBR 2 R*-tree Σχήμα 5.3: Ομαδοποίηση και δεικτοδότηση. Το πλήθος των MBR είναι σημαντικά μικρότερο από ότι το πλήθος των πολυδιάστατων σημείων. Συνεπώς, τα MBR μπορούν να οργανωθούν σε ένα R - δένδρο [1] αλλά και οποιοδήποτε άλλη ΜΧΔ πολυδιάστατων δεδομένων. Η Ενότητα αυτή εστιάζει στο R -δένδρο καθώς έχει συστηματικά χρησιμοποιηθεί σε

152 πολλές εφαρμογές και είναι ήδη υλοποιημένο σε διάφορες εμπορικές βάσεις δεδομένων. 5.3.4 Έρευνα διαστήματος για ομοιότητα Το επερώτημα του χρήστη αποτελείται από μια μουσική ακολουθία Q καθώς και το κατώφλι της απόστασης e. Η μέθοδος επεξεργασίας της ομοιότητας του επερωτήματος αποτελείται από τα εξής τρία βήματα: 1ο βήμα: Η μουσική ακολουθία επερωτήματος Q μετασχηματίζεται βάσει του μετασχηματισμού που ήδη αναφέρθηκε στην Ενότητα 5.3.2. Εάν η Q είναι μεγαλύτερη από ότι το μήκος w του ολισθαίνοντος παράθυρου, τότε χωρίζεται σε k μέρη q 1, q 2,..., q k, όπου k = Q w. 2ο βήμα: Τα μέρη του επερωτήματος που προσδιορίσθηκαν στο προηγούμενο βήμα χρησιμοποιούνται για αναζήτηση στο ευρετήριο του R -δένδρου. Το αποτέλεσμα του βήματος αυτού είναι ένα σύνολο μουσικών ακολουθιών οι οποίες ίσως ικανοποιούν τους περιορισμούς του επερωτήματος. 3ο βήμα: Το τελικό βήμα περιλαμβάνει τον καθαρισμό των απαντήσεων που παρήγαγε το προηγούμενο βήμα. Αυτό γίνεται με ένα αλγόριθμο ΕΨΑ ο οποίος περιγράφεται λεπτομερώς στην Ενότητα 5.4. 5.4 Επίλυση ψευδών ταιριασμάτων Για να αντιμετωπιστεί ένα ψευδές ταίριασμα, πρέπει να ανακτηθεί η αντίστοιχη υποακολουθία και να εξεταστεί η πραγματική της απόσταση από την ακολουθία επερωτήματος. Ο αλγόριθμος που παρουσιάζεται στην εργασία [4] χρησιμοποιεί μια άμεση τεχνική επίλυσης των ψευδών ταιριασμάτων. Για κάθε MBR που βρίσκεται να ικανοποιεί το διάστημα του επερωτήματος, η υποακολουθία του ανακτάται και εξετάζεται σε σχέση με την ακολουθία επερωτήματος. Στο πλαίσιο που εξετάζει η παρούσα Ενότητα, η προαναφερθείσα μεθοδολογία είναι μη αποδοτική για τους εξής δυο λόγους: i. Οι μουσικές ακολουθίες επερωτήματος είναι κατά πολύ μεγαλύτερες σε σχέση με τις εξεταζόμενες στην [4] (δεδομένα μετοχών-χρηματιστηρίου). Συνεπώς, η δαπάνη μιας απλοϊκής ΕΨΑ μπορεί να αποτελέσει σημείο παρεμπόδισης ολόκληρης της διαδικασίας έρευνας.

153 ii. Στην εργασία [4] εξετάζεται μόνο μια ακολουθία δεδομένων, ενώ στο παρόν μπορεί να υπάρχουν πολύ περισσότερες από μια (εκτενής βάσεις δεδομένων)). Εάν χρησιμοποιηθεί η άμεση μέθοδος [4], οι μουσικές ακολουθίες θα εξετάζονταν σε τυχαία σειρά (τη σειρά που δημιουργεί το επερώτημα διαστήματος), οδηγώντας στο φαινόμενο διασκορπισμού (scattering effect) κατά τη διάρκεια της πρόσβασης των σελίδων του δίσκου που περιέχουν τις ακολουθίες. Στην περίπτωση αυτή δεν θα ήταν δυνατό να διατηρηθεί η τοπικότητα στις προσβάσεις και δεν μπορεί να χρησιμοποιηθεί απομονωτής αποδοτικά (το φαινόμενο αυτό στην ορολογία των βάσεων δεδομένων ονομάζεται thrashing). Ακολουθώντας τη λύση που παρουσιάζεται στην εργασία [5], για την αντιμετώπιση του τελευταίου προβλήματος (ii), δεν εξετάζεται άμεσα κάθε πιθανό αποτέλεσμα. Αντιθέτως, συλλέγονται πληροφορίες για όλα τα πιθανά αποτελέσματα (την αρχική και τελική θέση κάθε υποακολουθίας και το αναγνωριστικό της μουσικής ακολουθίας από την οποία προέρχεται η υποακολουθία). Στη συνέχεια, επιλύονται τα ψευδή ταιριάσματα σε ένα μετεπεξεργαστικό βήμα. Αρχικά ομαδοποιούνται τα πιθανά αποτελέσματα κάθε μουσικής ακολουθίας ξεχωριστά και κατόπιν ταξινομούνται σε κάθε ομάδα τα διαστήματα βάσει της αρχικής θέσης της υποακολουθίας. Με τη μέθοδο αυτή, επιχειρείται η αποφυγή του τυχαίου διασκορπισμού (scattering) κατά τη διάρκεια της πρόσβασης στις μουσικές ακολουθίες. Όσον αφορά στο πρώτο πρόβλημα (i), ακολουθώντας και πάλι τη λύση που παρουσιάζεται στην εργασία [5], η εξέταση των σελίδων δίσκου γίνονται με τη βοήθεια ενός ανάστροφου σχήματος κατά τη διάρκεια της ΕΨΑ. Λόγου χάριν, υποθέτοντας ότι πρέπει να επιλυθεί ένα ψευδές ταίριασμα που δημιουργήθηκε από ένα MBR που αντιστοιχεί σε υποακολουθίες στο διάστημα [l, r]. Για κάθε θέση l i r, μπορεί να υπάρχει μια υποακολουθία μήκους Q, η οποία ταιριάζει με την ακολουθία επερώτηματος Q. Παρότι το διάστημα [l, r] είναι σχετικά μικρό, το γεγονός ότι πρέπει να εξεταστούν υποακολουθίες μεγάλου μήκους ( Q ), επιβεβαιώνει το πρόβλημα που χρήζει αντιμετώπισης. Μια άμεση προσέγγιση θα ήταν να εξεταστούν όλες οι υποακολουθίες αυτές και να εντοπιστούν αυτές που περιέχουν αποτελέσματα. Μια τετριμμένη βελτιστοποίηση είναι ο τερματισμός της εξέτασης για κάθε υποακολουθία εφόσον η πραγματική απόσταση γίνει μεγαλύτερη από ότι το κατώφλι ομοιότητας που έχει θέσει ο χρήστης (καθώς η περαιτέρω εξέταση της υποακολουθίας δεν μπορεί να μειώσει, παρά να αυξήσει, την απόσταση). Ωστόσο, η βελτιστοποίηση αυτή επιφέρει μόνο οφέλη όσον αφορά στο χρόνο χρήσης της κεντρικής μονάδας επεξεργασίας. Οι λειτουργίες εισόδου/εξόδου δεν μειώνονται, εφόσον πρέπει να εξεταστούν όλες οι υποακο-

154 λουθίες με αρχικό σημείο τη θέση l i r. Καθώς κάθε τέτοια υποακολουθία είναι μήκους Q, πρέπει να προσπελαστούν ένα μεγάλο πλήθος σελίδων δίσκου. Στο σχήμα ανάστροφης εξέτασης λειτουργεί ως εξής: όταν πρέπει να εξεταστεί μια υποακολουθία που έχει αρχική θέση i στην αντίστοιχη ακολουθία της D c, δεν προσπελαύνεται η σελίδα που περιέχει το πρώτο αυτό στοιχείο. Αντίθετα, προσδιορίζεται η σελίδα (έστω R) που περιέχει το τελευταίο στοιχείο που πρέπει να εξεταστεί, δηλαδή, το ( Q + i 1)-στό στοιχείο της D c. Στη συνέχεια, αρχικά εξετάζεται η μερική απόσταση μεταξύ των στοιχείων της R και των αντίστοιχων στοιχείων στην Q, η οποία είναι ορθά ευθυγραμμισμένη σαν να εξετάζονταν με την υποακολουθία που ξεκινά στη θέση i. Εάν η μερική απόσταση είναι μεγαλύτερη του κατωφλιού ομοιότητας του χρήστη ϵ, τότε δεν εξετάζονται τα υπόλοιπα στοιχεία της υποακολουθίας. Με μετακίνηση στην επόμενη θέση, δηλ., στην i+1, είναι εφικτή ακόμα η εξέταση της μερικής απόστασης μεταξύ των αντίστοιχων στοιχείων της Q και των στοιχείων στην υποακολουθία που ξεκινούν από τη θέση i + 1. Κατά συνέπεια, αποφεύγεται η προσπέλαση μιας ακόμα σελίδας, όσο εξετάζονται υποακολουθίες που περιέχουν στοιχεία αποθηκευμένα στην R. Όταν η μερική απόσταση δεν είναι μεγαλύτερη από ϵ, τότε υπάρχει ένα μερικό αποτέλεσμα. Στην περίπτωση αυτή προσπελαύνεται η σελίδα που περιέχει την πρώτη θέση της τρέχουσας εξεταζόμενης ακολουθίας και υπολογίζεται η απόσταση μεταξύ της Q και της υποακολουθίας, μέχρι να βρεθεί ένα πλήρες αποτέλεσμα ή η υπολογιζόμενη απόσταση να υπερβεί το ϵ. Υποθέτοντας ότι κάθε σελίδα δίσκου μπορεί να αποθηκεύσει N στοιχεία, μπορεί να χρησιμοποιηθεί ένας απομονωτής που θα διατηρήσει Q /N σελίδες, ώστε να αποφευχθεί η επαν-ανάγνωση ενδιάμεσων σελίδων. Εν κατακλείδι, σε περίπτωση πλήρους αποτελέσματος, όλες οι ενδιάμεσες σελίδες προσπελαύνονται (γεγονός που δεν μπορεί να αποφευχθεί), ενώ στις λοιπές περιπτώσεις ένα μεγάλο πλήθος αναγνώσεων σελίδων αποφεύγεται, επιφέροντας σημαντικά οφέλη σε χρόνο εισόδου/εξόδου. Στη σημείο αυτό πρέπει να τονιστούν οι εξής υποθέσεις: πρέπει να εξετάστεί μια υποακολουθία που ξεκινά στη θέση i της ακολουθίας D c, ακόμα η αρίθμηση των σελίδων στην D c : η πρώτη έχει αναγνωριστικό 0 και η τελευταία D c /N. Τότε, η σελίδα που περιέχει το τελευταίο στοιχείο έχει αναγνωριστικό (έστω rpid). Η θέση του πρώτου στοιχείου στην τελευταία αυτή σελίδα ονομάζεται f και είναι ίση με rpid N. Χρησιμοποιώντας τη σημειολογία αυτή, το Σχήμα 5.4 παρουσιάζει την ευθυγράμμιση της Q όταν εξετάζεται ένα μερικό αποτέλεσμα. Τα στοιχεία που εμπλέκονται στον υπολογισμό της μερικής απόστασης δείχνονται με γκρι χρώμα. Στη συνέχεια, περιγράφεται ο αλγόριθμος ΕΨΑ, ο οποίος υλοποιείται στη διαδικασία RFA (Resolve False Alarms) στο Σχήμα 5.5. Η RFA δρα σε ένα βρόχο που εξετάζει όλες τις θέσεις l i r, όπου [l, r] είναι το διάστημα που πρέπει να ίσο με i+ Q 1 N

155 D c i f Q +i-1 Q 0 f-i Σχήμα 5.4: Παράδειγμα μερικού ταιριάσματος χρησιμοποιώντας το σχήμα ανάστροφης εξέτασης σελίδων. εξεταστεί. Η απόφαση του υπολογισμού της μερικής απόστασης ή της κανονικής απόστασης καθορίζεται από την τιμή της μεταβλητής rmode (reverse mode - κατάσταση ανάστροφου σχήματος). Η rmode γίνεται αληθής όποτε βρεθεί ένα μερικό αποτέλεσμα (επιστρέφει στη ψευδή τιμή όταν δεν επιτύχει ένα κανονικό αποτέλεσμα). Κατά τη διάρκεια του υπολογισμού της μερικής ή κανονικής απόστασης, πρέπει να εξεταστούν στοιχεία της ακολουθίας D c. Ο αλγόριθμος εξετάζει πότε μια νέα σελίδα πρέπει να προσπελαστεί, εφόσον τα στοιχεία αυτά μπορεί να είναι αποθηκευμένα σε διαφορετικές συνεχόμενες σελίδες. Στο σημείο αυτό πρέπει να τονιστεί ότι η προσπέλαση γίνεται με τη χρήση απομονωτή Q /N σελίδων, ούτως ώστε να αποφευχθούν η επαν-αναγνώσεις σελίδων όταν δεν απαιτούνται. 5.5 Πειραματική αποτίμηση 5.5.1 Πειραματικό Περιβάλλον Για να υποστηριχθεί η αποδοτικότητα του παρουσιαζόμενου αλγόριθμου, η Ενότητα αυτή παρουσιάζει τα πειράματα που πραγματοποιήθηκαν. Επιπλέον, δίνεται μια αναλυτική περιγραφή του περιβάλλοντος και των δεδομένων που χρησιμοποιήθηκαν, ενώ ακολουθεί η ανάλυση των πειραματικών αποτελεσμάτων της σύγκρισης της βασικής μεθόδου, δηλ., του ευρετηρίου ST-Index [4], και της προσέγγισης παρουσιάζεται εδώ, του MS-Index (Music Subsequence match Index)). Τα δεδομένα που χρησιμοποιήθηκαν για τα πειράματα περιλαμβάνουν μόνο πραγματικά μουσικά δεδομένα. Τα πειράματα έγιναν σε 300 ακουστικά μουσικά αρχεία που αντιστοιχούν σε περίπου 13 ώρες μουσικής. Τα αρχεία προήλθαν από μουσικά CD από όπου εξαχθήκαν τα αρχεία τύπου wav. Τα μουσικά κομμάτια ανήκουν σε γένη μεταξύ των οποίων είναι pop, rock, οργανική καθώς και διάφοροι τύποι ελληνικής μουσικής. Τα επερωτήματα δημιουργήθηκαν διατηρώντας 1-10 δευτερόλεπτα των μουσικών αρχείων που περιλάμβανε η βάση. Εφεξής, για λόγους εμφανέστερης αναπαράστασης τα αποτελέσματα δείχνουν τους σχετικούς χρόνους εκτέλεσης μεταξύ του MS-index και του ST-index.

156 Το σχήμα 5.6 παρουσιάζει το σχετικό χρόνο ανάκτησης για διαφορετικά μεγέθη επερωτήματος. Το μέγεθος του επερωτήματος μετράται σε δευτερόλεπτα και καθώς το μέγεθος του παραθύρου του μετασχηματισμού DFT δεν μπορεί να είναι μεγαλύτερο από το μέγεθος της ακολουθίας επερωτήματος, μεταβλήθηκε επίσης και το μέγεθος του παραθύρου ανάλογα. Στην περίπτωση που το μέγεθος του παραθύρου του DFT είχε μείνει ανεπηρέαστο, τότε τα αποτελέσματα θα ήταν παραπλανητικά καθώς το μικρό μέγεθος του θα προκαλούσε ένα μεγάλο πλήθος υποεπερωτημάτων, τα οποία θα αύξαναν το χρόνο εκτέλεσης για μεγαλύτερα επερωτήματα. Η απόδοση του MS-Index είναι τουλάχιστο τετραπλάσια της απόδοσης του ST-Index, ενώ για μεγαλύτερα επερωτήματα γίνεται 9 φορές γρηγορότερη. Η καλύτερη απόδοση του MS-Index οφείλεται στο ότι τα μεγάλα επερωτήματα χρησιμοποιούν μεγαλύτερο παράθυρο DFT και το ανάστροφο σχήμα υπολογισμού της απόστασης γίνεται αποδοτικότερο, περιορίζοντας περισσότερο την έρευνα σε ενδιάμεσες σελίδες.

157 procedure RFA(D c, l, r, Q, ϵ, N, wsize) begin forceread = false, rmode = true rpid = i+ Q 1 N f = rpid N for (i = l ; i < min{r, D i Q }; i++) if (forceread == true) /*a partial match was found earlier in reverse page*/ fetch page that contains the i-th element of D c forceread = false else if ( i N == rpid) /* rpid will be tested as a normal page*/ rmode = false else if ( i N > rpid) /*a new reverse page must be found*/ rpid = i+ Q 1 N f = rpid N rmode = true if (rmode == false) s = 0 for (j = 0); j < Q ; j + +) fetch page containing the (i + j)-th element of D c s += (D c [i + j] Q[j]) 2 if ( s ϵ) output match else rmode = true forceread = false else s = 0 for (j = 0; j < Q f + i; j++) s += (D c [f + j] Q[f i + j]) 2 if ( s ϵ) rmode = false forceread = true i /*re-examine i-th element for full match*/ end Σχήμα 5.5: Ο αλγόριθμος επίλυσης των ψευδών ταιριασμάτων.

158 9 Χρόνος (σχετικός) 8 7 6 5 4 3 2 1 0 ST-Index MS-Index 1 2 3 4 5 6 7 8 9 10 μέγεθος επερωτήματος (sec) Σχήμα 5.6: Σχετικός χρόνος ανάκτησης για μεταβαλλόμενο μέγεθος επερωτήματος.

ΒΙΒΛΙΟΓΡΑΦΙΑ [1] N. Beckmann, H. P. Kriegel, and B. Seeger. The R -tree: An efficient and robust method for points and rectangles. In Proc. ACM SIGMOD Conf., pages 322 331, 1990. [2] D. Dervos, P. Linardis, and Y. Manolopoulos. S-index: a hybrid structure for text retrieval. In Proceedings of ADBIS, pages 204 209, 1997. [3] C. Faloutsos. Searching Multimedia Databases by Content. Kluwer Academic Publishers, 1996. [4] C. Faloutsos, M. Ranganathan, and Y. Manolopoulos. Fast subsequence matching in time-series databases. In Proceedings of the ACM SIGMOD international conference on Management of data, pages 419 429, 1994. [5] I. Karydis, A. Nanopoulos, A. Papadopoulos, and Y. Manolopoulos. Audio indexing for efficient music information retrieval. In Proc. MMM Conf., pages 22 29, 2005. [6] B. Kostek and A. Wieczorkowska. Parametric representation of musical sound. In Archive of Acoustics, pages 3 26, 1997. [7] C. Papaodysseus, G. Roussopoulos, D. Fragoulis, Th. Panagopoulos, and C. Alexiou. A new approach to the automatic recognition of musical recordings. Jounal of Acoustical Engineering Society, 49(1/2):23 35, 2001. [8] M. Paraskevas and J. Mourjopoulos. A statistical study of the variability and features of audio signals. In Audio Engineering Society, 1996. [9] J. Pickens. Harmonic modeling for polyphonic music retrieval. Ph.D. thesis, University of Massachusetts at Amherst, 2004. [10] J. Reiss, J.-J. Aucouturier, and M. Sandler. Efficient multidimensional searching routines for music information retrieval. In Proceedings of ISMIR, pages 163 171, 2001. 159

160 ΒΙΒΛΙΟΓΡΑΦΙΑ [11] V. S. Subrahmanian. Multimedia Database Systems. Kaufmann Publishers, 1998. [12] A. Wieczorkowska. Musical sound classification based on wavelet analysis. Fundamenta Informaticae, 47(1/2):175 188, 2001. [13] A. Wieczorkowska and Z. Ras. Audio content description in sound databases. In Web Intelligence: Research and Development, pages 175 183, 2001. [14] J.-Y. Won, J.-H. Lee, K. Ku, J. Park, and Y.-S. Kim. A content-based music retrieval system using representative melody index from music databases. In Computer Music Modeling and Retrieval, pages 280 294, 2004. [15] C. Yang. Efficient acoustic index for music retrieval with various degrees of similarity. In Proc. ACM MM Conf., pages 584 591, 2002.