ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΓΕΝΙΚΟ ΤΜΗΜΑ ΤΟΜΕΑΣ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΘΟ ΩΝ & ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ.
|
|
- É Ηλιόπουλος
- 8 χρόνια πριν
- Προβολές:
Transcript
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΓΕΝΙΚΟ ΤΜΗΜΑ ΤΟΜΕΑΣ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΕΘΟ ΩΝ & ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ. ΑΛΚΙΒΙΑ ΗΣ Β. ΤΣΙΜΠΙΡΗΣ Φυσικός ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΧΡΟΝΟΣΕΙΡΩΝ : ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ιδακτορική ιατριβή Θεσσαλονίκη, 2012
2
3 ΑΛΚΙΒΙΑ ΗΣ ΤΣΙΜΠΙΡΗΣ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΕΙΣ ΧΡΟΝΟΣΕΙΡΩΝ : ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΚΑΙ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ιδακτορική ιατριβή Παραδόθηκε στον Τοµέα Υπολογιστικών Μεθόδων & Προγραµµατισµού Η/Υ., Γενικό Τµήµα, Πολυτεχνική Σχολή Ηµεροµηνία προϕορικής Παρουσίασης : Ιούνιος 2012 Επιτροπή Αξιολόγισης Αναπληρωτής Καθηγητής. Κουγιουµτζής, Επιβλέπων καθηγητής Καθηγητής Γ. Πάγκαλος, Μέλος Τριµελούς Επιτροπής Καθηγητής Π. Μήτκας, Μέλος Τριµελούς Επιτροπής Καθηγητής Ι. Μανωλόπουλος, Εξεταστής Καθηγητής Ν. Μαγκλαβέρας, Εξεταστής Επίκουρος Καθηγητής Λ. Χατζηλεοντιάδης, Εξεταστής Ερευνητής Α Βαθµίδος. Τζοβάρας, Εξεταστής
4 c Αλκιβιάδης Τσιµπίρης c Α.Π.Θ. Εξόρυξη γνώσης από ϐάσεις χρονοσειρών : επιλογή χαρακτηριστικών και κατηγοριοποίηση ISBN Η έγκριση της παρούσης διδακτορικής διατριβής από τον Τοµέα Υπολογιστικών Μεθόδων και Προγραµµατισµού Η.Υ. του Γενικού Τµήµατος της Πολυτεχνικής Σχολής του Αριστοτελείου Πανεπιστηµίου Θεσσαλονίκης δεν υποδηλώνει αποδοχή των γνωµών του συγγραϕέως (Ν. 5343/1932, άρθρο 202, παρ. 2). 2)
5 Αϕιέρωση Αϕιερωµένο στους τρεις υπέροχους γιους µου
6
7 Ευχαριστίες Ευχαριστώ τον κ. Pål Larsson από το Εθνικό Κέντρο Επιληψίας της Νορβηγίας για την παραχώρηση των δεδοµένων EEG. Θέλω πραγµατικά να ευχαριστήσω τον επιβλέποντα αυτής της διδακτορικής διατριβής αναπληρωτή κα- ϑηγητή ηµήτρη Κουγιουµτζή για τη ϐοήθεια, την ενθάρρυνση, την επιστηµονική συµβολή και καθοδήγηση που µου προσέϕερε απλόχερα σε όλα τα στάδια του ερευνητικού µου έργου, ως την ολοκλήρωση και την τελική του παρουσίαση. Αλκιβιάδης Β. Τσιµπίρης Θεσσαλονίκη, Ιούνιος 2012
8
9 Περιεχόµενα 0.1 Abstract v 1 Εισαγωγή Γενικά Χαρακτηριστικά χρονοσειρών Επιλογή χαρακτηριστικών για κατηγοριοποίηση Συνεισϕορά της διατριβής στην επιλογή χαρακτηριστικών Εϕαρµογή οµή Εξόρυξη εδοµένων (data mining) Εισαγωγή στην Ανακάλυψη Γνώσης από Βάσεις εδοµένων Εξόρυξη εδοµένων από Βάσεις εδοµένων (Data Mining) Κατηγοριοποίηση (Classification) Συσταδοποίηση (Clustering) Επιλογή υποσυνόλου χαρακτηριστικών (subset feature selection) Στρατηγικές επιλογής υποσυνόλου χαρακτηριστικών Τεχνική περιτυλίγµατος (ή ενσωµάτωσης) (wrapper sfs) Τεχνική φίλτρου επιλογής χαρακτηριστικών (filter sfs) ιάϕοροι µέθοδοι φίλτρων επιλογής χαρακτηριστικών Το µέτρο της αµοιβαίας πληροϕορίας (ΜΙ) Εκτίµηση της ΜΙ µε διαµέριση (binning) Εκτίµηση της ΜΙ µε Parzen Windows εσµευµένη αµοιβαία πληροϕορία (Conditional Mutual Information,CMI) Φίλτρα επιλογής χαρακτηριστικών που ϐασίζονται σε ΜΙ και CMI Φίλτρο Minimum Redundancy - Maximum Relevancy (MRMR) Φίλτρο MaxiMin Κανόνες συσχέτισης (association rules) Χρονοσειρές και χαρακτηριστικά Γενικά Χρονοσειρές προσοµοιώσεων Χαρακτηριστικά των Χρονοσειρών Οµάδες χαρακτηριστικών για ανάλυση χρονοσειρών Οµάδα Γραµµικών Χαρακτηριστικών Οµάδα Μη-Γραµµικών Χαρακτηριστικών Χαρακτηριστικά Γραµµικών Μοντέλων και µη-γραµµικών Μοντέλων Χαρακτηριστικά ταλαντώσεων Μέθοδοι τυποποίησης i
10 4 Νέες τεχνικές για επιλογή χαρακτηριστικών Γκαουσιανή τυποποίηση Το περιτύλιγµα επιλογής χαρακτηριστικών FSSwCRI Επιλογή χαρακτηριστικών µε επιβλεπόµενη και µη-επιβλεπόµενη µάθηση Ο αλγόριθµος FSSwCRI Το φίλτρο επιλογής χαρακτηριστικών CMINN Εκτίµηση της αµοιβαίας πληροϕορίας µε ΝΝ Εκτίµηση της δεσµευµένης αµοιβαίας πληροϕορίας µε ΝΝ Επιλογή Χαρακτηριστικών µε το φίλτρο CMINN Το κριτήριο τερµατισµού του CMINN Προσοµοιώσεις και Αποτελέσµατα Εϕαρµογή του FSSwCRI σε προσοµοιώσεις χρονοσειρών ταλάντωσης Περίπτωση µελέτης 10 χαρακτηριστικών Περίπτωση µελέτης 312 χαρακτηριστικών Σύγκριση της CMINN µε άλλες µεθόδους σε δεδοµένα προσοµοιώσεων Dataset A Dataset B Dataset C Dataset D Dataset E Σύνοψη αποτελεσµάτων Εϕαρµογή σε EEG και σε ϐάσεις δεδοµένων αναϕοράς Καταγραϕές EEG Εϕαρµογή του FSSwCRI σε καταγραϕές EEG Περίπτωση µελέτης 10 χαρακτηριστικών Περίπτωση µελέτης 18 χαρακτηριστικών Βιοδείκτες για EEG από 312 χαρακτηριστικά Αποτελέσµατα καθορισµού των κλάσεων σε σε χρηµατιστηριακά δεδοµένα Εϕαρµογή του φίλτρου CMINN σε 10 ϐάσεις δεδοµένων αναϕοράς Αποτελέσµατα της σύγκρισης µεταξύ CMINN µε MaxiMin και mrmr Σύνοψη αποτελεσµάτων Λογισµικά υποστήριξης Το λογισµικό Measures of Analysis of Time Series (MATS) Η δοµή του MATS Το λογισµικό Tools for Data Mining (TDM) Η δοµή του TDM Συζήτηση και Συµπεράσµατα Γενικά σχόλια για FSSwCRI CRI vs ER Μελέτη 10 χαρακτηριστικών σε προσοµοιώσεις Μελέτη 312 χαρακτηριστικών σε προσοµοιώσεις Μελέτη 10 χαρακτηριστικών σε EEG Μελέτη µεθόδων τυποποίησης FSSwCRI και κανόνες συσχέτισης Μελέτη 18 χαρακτηριστικών σε EEG
11 8.1.8 Αξιολόγηση κλάσεων σε EEG και σε χρηµατιστηριακά δεδοµένα Βιοδείκτες EEG από 312 χαρακτηριστικά Γενικά σχόλια για CMINN Σχολιασµός προσοµοιώσεων Σχολιασµός 10 ϐάσεων αναϕοράς Γενικά σχόλια για MATS και TDM Α Παραδείγµατα εϕαρµογής του MATS 153 Α.1 Παράδειγµα Α.1.1 Βήµα 1. Τµηµατοποίηση των δεδοµένων Α.1.2 Βήµα 2. Επιλογή και υπολογισµός των µέτρων Α.1.3 Βήµα 3. Γραϕική απεικόνιση των µέτρων Α.2 Παράδειγµα Α.2.1 Βήµα 1. Επαναδειγµατοληψία των δεδοµένων (Data Resampling) Α.2.2 Βήµα 2. Επιλογή και υπολογισµός των µέτρων Α.2.3 Βήµα 3. Γραϕική απεικόνιση των µέτρων iii
12
13 0.1 Abstract The objective of the thesis is to develop and apply data mining techniques in time series databases, and in particular to investigate for the most relevant time series measures to be used for feature based clustering and classification. In the course of this work, the following goals were achieved: 1) a large number of features used in time series analysis were computed, 2) new algorithms have been developed for optimal feature subset selection, 3) they have been compared to other currently favored feature selection methods on simulated and real world databases, especially epileptic electroencephalograms (EEG), 4) the proposed methods were shown to be able to find a small subset of the most useful features for classification purposes, and particularly for epileptic EEG it was shown that such a feature subset can possibly play the role of "biomarker" and distinguish the late preictal stage, and finally 5) two menu-based Matlab modules were developed, the first for the computation of a large number of measures on time series databases, and the second for feature selection, and feature-based classification and clustering. In this thesis, data mining techniques were applied on time series using a variety of measures (linear, nonlinear, oscillation related measures, and other measures) that were calculated on each time series and are supposed each to capture a different characteristic of the time series. Certainly, not all these features are useful to classify the time series in the database belonging to different dynamic regimes or systems. In the study we considered various sets of features, varying from 10 to 312 features, and included the most known measures of the analysis of scalar time series, especially the measures used in EEG analysis. Our results showed that oscillation related features are among the first to be included in the optimal feature subset, leaving behind many sophisticated or routinely used features. The first problem we investigated in the search of best features was the effect of standardization and normalization methods on the feature selection and subsequently the performance of the classification. We evaluated different standardization methods and proposed a new method of data standardization, the transform to Gaussian distribution, which turned out to have good scaling and stability properties, and could better handle outliers. We developed two feature selection schemes that derive small and optimal feature subsets. The first scheme is called Forward Sequential Selection with CRI (FSSwCRI) and is a forward sequential feature selection wrapper based on the k-means clustering algorithm in order to derive the feature subset that classifies best the time series database, according to the criterion of the corrected Rand index. The second feature selection scheme we developed is a mutual information (MI) filter. MI is used in feature selection to evaluate two key-properties of optimal features, the relevance of a feature to the class variable and the redundancy of similar features. We joined the two properties in a criterion of conditional mutual information (CMI), i.e. MI of the candidate feature to the class variable conditioning on the features already selected. We proposed the nearest neighbor estimate of CMI, appropriate for high-dimensional variables, and built an iterative scheme for sequential feature selection with a termination criterion, called CMINN. Both feature selection algorithms were evaluated first via Monte Carlo simulations using different databases. FSSwCRI was tested on several time series databases, each consisting of three different types of oscillating time series, chaotic of varying complexity as well as stochastic. For CMINN, we considered also regression systems involving different structures and combined effects of the variables (features) to the class variable (discretized response). Both methods performed well on the simulated data bases giving a small feature subset giving high classification accuracy. For the regression problems where we know the correct feature subset, CMINN could always find it with great confidence, unlike two other popular MI filters we tested, mrmr and MaxiMin. The application to ten benchmark databases showed that CMINN could obtain the same or higher classification accuracy v
14 compared to mrmr and MaxiMin and at a smaller cardinality of the selected feature subset. FSSwCRI was applied to classification of preictal states in epileptic EEG databases, where each class regards a different period prior to seizure onset (early, intermediate, late) and the features are measures computed on consecutive EEG segments at each period. The data were scalp epileptic EEG of a number of different patients, varying from 4 to 12 depending on the study, and were given by the Department of Neurosurgery, Oslo University Hospital, Norway. In the largest study, we compared FFSSwCRI to Support Vector Machines with Recursive Feature Elimination (SVM-RFE) and to a simple Mutual Information (MI) filter. The optimal feature subsets selected by FSSwCRI, SVM-RFE and MI filter for the same classification problems were found very often to have common features with FSSwCRI giving a small feature subset. We found that feature subsets specified to channel and episode or both could not classify the test set as well as a global feature subset of a sufficiently large number of the most frequent features found over all channels and episodes. We concluded that a global feature subset of the 16 most frequent features selected by FFSSwCRI can play the role of a biomarker and distinguish early and late preictal states. Finally, we have developed a graphical module in Matlab that manages the time series, and calculate time series features, ranging from simple statistics to complicated measures of dynamical systems and chaos. Further, we developed another graphical module in Matlab that included different data mining techniques, but mostly focused on feature selection and classification, and could also take in the feature sets computed by the first software. The developed packages can read data from both files and relational databases to ensure that processing and calculations can be made parallel and distributed. vi
15 ηµοσιεύσεις Τα αποτελέσµατα της διατριβής αυτής έχουν παρουσιαστεί σε συνέδρια, έχουν δηµοσιευθεί σε διεθνή και εθνικά περιοδικά στον τοµέα της εξόρυξης δεδοµένων, της στατιστικής ανάλυσης, της ανάπτυξης λογισµικού ή της ανάλυσης χρονοσειρών. Οι αντίστοιχες αναϕορές απαριθµούνται παρακάτω : ιεθνή Περιοδικά 1 A. Tsimpiris, I. Vlachos and D. Kugiumtzis, "Nearest Neighbor Estimate of Conditional Mutual Information in Feature Selection". Expert Systems with Applications, DOI: /j.eswa , A. Tsimpiris and D. Kugiumtzis, "Feature Selection for Classification of Oscillating Time Series". Expert Systems, DOI: /j x, D. Kugiumtzis and A. Tsimpiris, "Measures of Analysis of Time Series (MATS): A Matlab Toolkit for Computation of Multiple measures on Time Series Data Bases". Journal of Statistical Software, Vol. 33, Issue 5, Κεϕάλαια Βιβλίων Β1 A. Tsimpiris and D. Kugiumtzis. "EEG features as biomarkers for discrimination of preictal states". In M.P. Pardalos, P. Xanthopoulos, and M. Zervakis, editors, Data Mining for Biomarker Discovery, volume 65 of Springer Optimization and Its Applications, chapter 3, Springer, 31 56, Πρακτικά ιεθνών και Εθνικών Συνεδρίων Π1 A. Tsimpiris, D. Kugiumtzis and P. G. Larsson, "Discrimination of epileptic pre-ictal states using feature based clustering on EEG", Proceedings of the 7th ESBME, 3nd PanHellenic Conference in BioMedical Technology MEDICON, No 375, Π2 Α. Τσιµπίρης,. Κουγιουµτζής Κατηγοριοποίηση Χρονοσειρών µε Επιλογή Κατάλληλων Χαρακτηριστικών, Πρακτικά 23ου Πανελλήνιου Συνεδρίου Στατιστικής, Βέροια, , Π3 A. Tsimpiris and D.Kugiumtzis, "Clustering of Oscillating Dynamical Systems from Time Series Data Bases", Electronic Proceedings of the International Workshop on Knowledge Extraction and Modelling, Capri, Italy, Π4 D. Kugiumtzis, A. Papana, A. Tsimpiris, I. Vlachos and P. G. Larsson, "Time Series Feature Evaluation In Discriminating Preictal EEG States". Proceedings of Biological and Medical Data vii
16 Analysis 7th International Symposium, ISBMDA 2006, Thessaloniki, Greece. Lecture Notes In Computer Science, 4345 Springer, ISBN , , Π5 Α. Τσιµπίρης, Συσταδοποίηση υναµικών Συστηµάτων Ταλαντώσεων από Βάσεις εδοµένων Χρονοσειρών, Πρακτικά 19ου Πανελλήνιου Συνεδρίου Στατιστικής, Καστοριά, , Παρουσιάσεις Poster Α1 A. Tsimpiris, I. Vlachos and D. Kugiumtzis, "Feature Selection with Improved Conditional Mutual Information in Time Series Clustering", Nonlinear Dynamics and Complexity: Theory, Methods and Applications, in honor of Tassos Bountis on the occasion of his 60th birthday, July, Thessaloniki, Greece,2010. Α2 A. Tsimpiris, D. Kugiumtzis and P. G. Larsson, "Discrimination of epileptic pre-ictal states using feature based clustering on EEG", 3nd PanHellenic Conference in BioMedical Technology MEDICON May, Chalkidiki, Greece, Α3 D. Kugiumtzis and A. Tsimpiris, "Measures of Analysis of Time Series (MATS): A matlab toolkit for computation of multiple measures on time series data bases", Fourth International Workshop on Seizure Prediction (IWSP4), 4-7 June, Kansas City, USA, Α4 A. Tsimpiris and D. Kugiumtzis, "Time Series Clustering for Oscillating Dynamical Systems Based on Linear, Nonlinear and Oscillation-Related Features", 19th Panhellenic Conference / Summer School on Non Linear Science and Complexity, July, Thessaloniki, Greece, viii
17
18
19 Κεϕάλαιο 1 Εισαγωγή Σκοπός της διατριβής αυτής είναι η χρήση τεχνικών εξόρυξης γνώσης από ϐάσεις δεδοµένων χρονοσειρών µε σκοπό την οµαδοποίηση δεδοµένων για τη σωστή λήψη αποϕάσεων. Χρησιµοποιήθηκαν και αναπτύχθηκαν µεθοδολογίες που αϕορούν την επιλογή ϐέλτιστου υποσυνόλου χαρακτηριστικών, την κατηγοριοποίηση και την συσταδοποίηση σε χρονοσειρές δεδοµένων που προέρχονται είτε από προσο- µοιώσεις γνωστών µοντέλων ή από δεδοµένα του πραγµατικού κόσµου και ειδικότερα τις χρονοσειρές η- λεκτροεγκεϕαλογραϕηµάτων (Electroegephalograms EEG). Χρησιµοποιήθηκαν πολλές δηµοσιευµένες τεχνικές οι οποίες ενσωµατώθηκαν και συγκρίθηκαν µε νέες τεχνικές και µεθοδολογίες που αναπτύξαµε ώστε να υπάρχει ολοκληρωµένη εικόνα για τις µεθόδους και τις τεχνικές αυτές όταν χρησιµοποιούνται σε χρονοσειρές. Η διατριβή αυτή επικεντρώνεται στους παρακάτω στόχους : 1) καταρχήν στον υπολογισµό µεγάλου πλήθος χαρακτηριστικών που χρησιµοποιούνται στην ανάλυση χρονοσειρών, 2) στην ανάπτυξη νέων µεθόδων επιλογής ϐέλτιστου υποσυνόλου χαρακτηριστικών για κατηγοριοποίηση και συσταδοποίηση, 3) στη σύγκριση της απόδοσης των µεθόδων αυτών µε άλλες εϕάµηλες µεθόδους και 4) στην εϕαρµογή τους σε προσοµοιωτικά και πραγµατικά δεδοµένα χρονοσειρών, κυρίως ηλεκτροεγκεϕαλογραϕηµάτων, ώστε τα επιλεγµένα ϐέλτιστα υποσύνολα χαρακτηριστικών από τις µεθόδους που αναπτύξαµε, να παίξουν τον ϱόλο χρήσιµων βιοδεικτών σε πραγµατικές καταστάσεις. Εϕαρµόσαµε τεχνικές εξόρυξης γνώσης χρονοσειρών χρησιµοποιώντας µια πληθώρα στατιστικών µεγεθών µέτρησης ή αλλιώς δείκτες ή µέτρα ή χαρακτηριστικά, τα οποία αποτυπώνουν τα καθολικά χαρακτηριστικά της κάθε χρονοσειράς αντί των σηµείων της κάθε χρονοσειράς. Στη συνέχεια ϑα χρησιµοποιούµε τον όρο χαρακτηριστικά (features). Από τις χρονοσειρές υπολογίζονται τα διάϕορα χα- ϱακτηριστικά τους και από τα χαρακτηριστικά αυτά κάποια είναι σηµαντικά ενώ κάποια άλλα δεν έχουν τόσο µεγάλη ϐαρύτητα ώστε να τα λαµβάνουµε υπ όψιν και να τα υπολογίζουµε άσκοπα. Προτάθηκαν νέα χαρακτηριστικά τα οποία αποδείχτηκαν σηµαντικότερα σε πολλές περιπτώσεις από κάποια άλλα που χρησιµοποιούνται κατά κόρον στην ϐιβλιογραϕία. Στα δεδοµένα των χρονοσειρών και των υπολογισµένων χαρακτηριστικών εϕαρµόστηκαν διαϕορετικές µέθοδοι κανονικοποίησης (normalization ή αλλιώς τυποποίησης standardization), ώστε να συγκριθούν µεταξύ τους. Επίσης προτάθηκε µία νέα µέθοδος τυποποίησης δεδοµένων µε καλή κλιµάκωση όσον αϕορά αποµακρυσµένα δεδοµένα. Στα τυποποιηµένα πλέον δεδοµένα χαρακτηριστικών µέτρων, χρησιµοποιήθηκαν µέθοδοι εξόρυξης γνώσης, όπως συσταδοποίηση (clustering), κατηγοριοποίηση (classification), κανόνες συσχέτισης (association rules), και επιλογή ϐέλτιστων χαρακτηριστικών µέτρων (feature selection). Προτάθηκε µια νέα µέθοδος για επιλογή ϐέλτιστων χαρακτηριστικών µέτρων που ϐασίζεται στη σειριακή επιλογή µε περιτύλιγµα (wrapper) και τον αλγόριθµο k-means. Αναπτύχθηκε επίσης ένα ϕίλτρο (filter) επιλογής χαρακτηριστικών που ϐασίζεται στην αµοιβαία πληροϕορία µε εκτιµητή κοντινότερων γειτόνων, η οποία λαµβάνει υπόψιν τις αλληλεπιδράσεις σχετικότητας και πλεονασµού µεταξύ του υποψηϕίου 1
20 προς επιλογή χαρακτηριστικού, της µεταβλητής των κλάσεων και του συνόλου των ήδη επιλεγµένων χαρακτηριστικών. Αναπτύχθηκε επίσης λογισµικό το οποίο κατ αρχήν διαχειρίζεται τις χρονοσειρές, και υπολογίζει απλά αλλά και πολύπλοκα µέτρα χαρακτηριστικών για την κάθε χρονοσειρά. Τα µέτρα αυτά χωρίζονται σε κατηγορίες (απλά στατιστικά µέτρα, γραµµικά, µη γραµµικά, ταλαντώσεων), ώστε να µπορούν εύκολα να επιλεγούν, να υπολογισθούν και να χρησιµοποιηθούν. Σε δεύτερη φάση ενσωµατώθηκαν όλες οι παραπάνω τεχνικές εξόρυξης γνώσης σε ένα δεύτερο λογισµικό ώστε µε απλό τρόπο να εϕαρµόζονται στα υπολογισµένα χαρακτηριστικά και να προκύπτει η επιδιωκόµενη γνώση. Τα λογισµικά που αναπτύχθηκαν και οι διαδικασίες που χρησιµοποιήθηκαν για τους υπολογισµούς επικοινωνούν τόσο µε αρχεία δεδοµένων όσο και µε σχεσιακές ϐάσεις δεδοµένων ώστε η επεξεργασία και οι υπολογισµοί να µπορούν γα γίνονται παράλληλα και κατανεµηµένα. 1.1 Γενικά Τα τελευταία χρόνια υπάρχει µεγάλο ενδιαϕέρον για εξόρυξη δεδοµένων και γνώσης (οµαδοποίηση, συσταδοποίηση κλπ) από χρονοσειρές. Γενικά υπάρχουν τρείς ϐασικοί τύποι δεδοµένων που σχηµατίζονται από τις χρονοσειρές και χρησιµοποιούνται στην κατηγοριοποίηση και την συσταδοποίηση σύµϕωνα µε τον (Liao, 2005). Ο πρώτος τύπος αϕορά δεδοµένα που είναι είτε αυτούσιες οι χρονοσειρές (είτε ολόκληρες είτε τµή- µατά τους) ή µετασχηµατισµοί αυτών. Στα δεδοµένα αυτά σε πολλές εργασίες εϕαρµόζονται προηγµένοι αλγόριθµοι οµοιότητας όπως ο αλγόριθµος δυναµικής στρέβλωσης του χρόνου (dynamic time warping) (DTW) και παραλλαγές του (Rabiner and Juang, 1993; Gullo et al., 2009). Οι µέδοδοι DTW και οι µέθοδοι τµηµατοποίησης των χρονοσειρών παρουσιάζονται αναλυτικότερα από τους Ratanamahatana and Keogh (2005); Keogh and Lin (2005). Επίσης γίνονται µετασχηµατισµοί των χρονοσειρών µε µετασχηµατισµούς Fourier transform ή κυµατιδίων (wavelets) και στη συνέχεια εϕαρµόζονται διάϕορα µέτρα οµοιότητας και αλγόριθµοι συσταδοποίσης, όπως παρουσιάζονται από τους Vlachos et al. (2006); Misiti et al. (2007); Liao (2010). Σε µια δεύτερη προσέγγιση, τα δεδοµένα είναι οι παράµετροι από ένα µοντέλο που έχει προσαρµοστεί σε κάθε χρονοσειρά της ϐάσης δεδοµένων. Τέτοιο µοντέλο είναι το µοντέλο αυτοπαλινδρόµισης και κινούµενου µέσου (autoregressive moving average model-arma) (Xiong and Yeung, 2004; Liao, 2010) καθώς και το ολοκληρωµένο αυτοπαλινδρούµενο µοντέλο κινούµενου µέσου (autoregressive integrated moving average-arima model) (Kalpakis et al., 2001). Η τρίτη οµάδα τύπων δεδοµένων αϕορά τα µέτρα (measures) ή αλλιώς χαρακτηριστικά (features) που υπολογίζονται και εκτιµώνται από τις χρονοσειρές (Wang et al., 2006; Räsänen and Kolehmainen, 2009). Σύµϕωνα µε όσα γνωρίζουµε ως τώρα, δεν έχει γίνει συστηµατική διερεύνηση και αποτίµηση της συµπεριϕοράς διαϕορετικών τύπων χαρακτηριστικών µέτρων από χρονοσειρές, σε προβλήµατα κατηγοριοποίησης και συσταδοποίησης. Και όπως φαίνεται σε κάθε ερευνητική εργασία που γίνεται, τα χαρακτηριστικά των χρονοσειρών που επιλέγονται προς διερεύνηση, είναι συνήθως ενός τύπου, όπως για παράδειγµα χαρακτηριστικά που προέρχονται από µετασχηµατισµούς κυµατιδίων στις χρονοσειρές (Zhang et al., 2005; Dash et al., 2007; Feng et al., 2008), χαρακτηριστικά µη-γραµµικής δυναµικής στις χρονοσειρές (Chen and Jin, 2007; Wang et al., 2006, 2009) ή συνδυασµός των δύο αυτών οµάδων χαρακτηριστικών (Aghazadeh et al., 2007). Στα προβλήµατα συσταδοποίησης χρονοσειρών υπάρχουν δύο ϐασικές κατηγορίες συσταδοποίησης τους όπως αναϕέρουν οι Keogh and Lin (2005): η ολική συσταδοποίηση (whole clustering) και η συσταδοποίηση ακολουθίας (subsequence clustering). Ως ολική συσταδοποίηση ϑεωρείται η συσταδοποίηση που εϕαρµόζεται σε πολλές ξεχωριστές χρονοσειρές µε σκοπό την οµαδοποίηση των όµοιων χρονοσειρών σε συστάδες. Ως συσταδοποίηση ακολουθίας (subsequence clustering) ϑεωρείται η οµαδοποίηση που εϕαρµόζεται σε µία χρονοσειρά ώστε να ανακαλύϕθούν οµοιότητες και διαϕορές µεταξύ 2
21 διαϕορετικών χρονικών παραθύρων της ίδιας χρονοσειράς. Στη διατριβή αυτή εϕαρµόζεται και η ολική συσταδοποίηση αλλά και η συσταδοποίηση ακολουθίας χρονοσειρών όπου τα δεδοµένα που χρησιµοποιούνται για το σκοπό αυτό, δεν είναι τα σηµεία της κάθε χρονοσειράς αλλά οι τιµές των χα- ϱακτηριστικών µέτρων που υπολογίζονται από τις χρονοσειρές (Liao, 2005; Keogh and Lin, 2005; Last et al., 2004) Χαρακτηριστικά χρονοσειρών Τα χαρακτηριστικά της τρίτης οµάδας ϑα πρέπει να µπορούν να συλλάβουν και να αποδώσουν την συνολική πληροϕορία που πιθανόν να µπορεί να εξαχθεί από τις χρονοσειρές, και ανάλογα µε το είδος υπολογισµού τους κυµαίνονται από απλά µορϕολογικά χαρακτηριστικά του σήµατος (π.χ διακύµανση, τάση, περιοδικότητα) µέχρι µέτρα πολυπλοκότητας της υποκείµενης δυναµικής του συστήµατος των χρονοσειρών, όπως π.χ µέγιστος εκθέτης Lyapunov, εντροπία και αµοιβαία πληροϕορία. Η πρόοδος που έχει σηµειωθεί στη µη-γραµµική δυναµική και στο συγχρονισµό, προσϕέρει νέα χαρακτηριστικά µέτρα που ϐοηθούν στην ανίχνευση χαοτικής συµπεριϕοράς στις παρατηρούµενες χρονοσειρές (Kantz and Schreiber, 1997; Pikovsky et al., 2001), και επίσης δίνει λαβή για την µελέτη νέων µεθόδων ε- ξόρυξης δεδοµένων (Gershenfeld et al., 1999; Bellotti et al., 2004). Ειδικότερα σε προβλήµατα που περιλαµβάνουν χρονοσειρές ταλαντώσεων, τα χαρακτηριστικά που τις περιγράϕουν ολόκληρες ή τµή- µατά τους, µπορεί να φανούν χρήσιµα στις περιπτώσεις συσταδοποίησης όπως για παράδειγµα έγινε από τους Hirano and Tsumoto (2005); Mierswa and Morik (2005), και ειδικότερα σε περιπτώσεις µε ηλεκτροεγκεϕαλογραϕήµατα (D Alessandro et al., 2007). Στην παρούσα διατριβή διερευνήθηκε η ικανότητα διαϕόρων τύπων χαρακτηριστικών να διαχωρίζουν τις διαϕορετικές καταστάσεις στις οποίες µπορεί να ϐρίσκονται οι χρονοσειρές που µελετώνται. Κάποια από τα χαρακτηριστικά που χρησιµοποιήθηκαν ήταν για παράδειγµα απλά στατιστικά και γραµµικά χαρακτηριστικά όπως η λοξότητα (skewness) και η αυτοσυσχέτιση (autocorrelation), µη-γραµµικά χα- ϱακτηριστικά όπως η αµοιβαία πληροϕορία (mutual information), ο εκθέτης Lyapunov, χαρακτηριστικά που σχετίζονται µε ταλαντώσεις όπως η περίοδος και το πλάτος της ταλάντωσης καθώς και πλήθος άλλων χαρακτηριστικών που χρησιµοποιούνται στην ανάλυση χρονοσειρών. Τα χαρακτηριστικά που ϑα αναϕερθούµε µπορεί να είναι άσχετα µεταξύ τους ή πολύ σχετικά ή πλεονασµατικά ώστε να κατηγο- ϱιοποίησουν σωστά τα διαϕορετικά δυναµικά συστήµατα που πιθανόν να ϐασίζονται οι παρατηρούµενες χρονοσειρές και ο ϐασικός στόχος της διατριβής αυτής είναι η επιλογή ϐέλτιστων υποσυνόλων χαρακτη- ϱιστικών που ϑα καταϕέρνουν τη σωστή συσταδοποίηση και κατηγοριοποίηση των χρονοσειρών Επιλογή χαρακτηριστικών για κατηγοριοποίηση Οι δύο ϐασικές τεχνικές που χρησιµοποιούνται για τη µείωση της διάστασης του χώρου των χαρακτη- ϱιστικών είναι η εξαγωγή χαρακτηριστικών (feature extraction) και η επιλογή χαρακτηριστικών (feature selection). Η εξαγωγή χαρακτηριστικών αϕορά το µετασχηµατισµό και την προβολή των πραγµατικών χαρακτηριστικών σε ένα σύνολο νέων χαρακτηριστικών. Η πιο γνωστή µέθοδος για εξαγωγή χαρακτηριστικών είναι η ανάλυση των ϐασικών συνιστωσών (principal component analysis) (Duda et al., 2001) η οποία απαιτεί τον υπολογισµό όλων των αρχικών χαρακτηριστικών ώστε να σχηµατίσει τα νέα χαρακτηριστικά. Στη διατριβή αυτή ασχολούµαστε µε την επιλογή χαρακτηριστικών, ώστε να ϐρεθεί ένα υποσύνολο από τα αρχικά χαρακτηριστικά που ϑα ελαττώσει και το χρόνο που απαιτείται για τον υπολογισµό του µεγάλου αριθµού χαρακτηριστικών. Οι δύο ϐασικές προσεγγίσεις για το κριτήριο αξιολόγησης στην επιλογή υποσυνόλου χαρακτηριστικών, είναι τα περιτυλίγµατα (wrappers) και τα φίλτρα (filters). Τα περιτυλίγµατα χρησιµοποιούν κάποιον κατηγοριοποιητή κατά τη διαδικασία επιλογής του υποσυνόλου χαρακτηριστικών, ενώ τα φίλτρα ϐασίζονται στην κατάταξη των χαρακτηριστικών δίχως την ανάµιξη κάποιας διεργασίας εξόρυξης δεδοµένων (Liu and Motoda, 2008). 3
22 Σε προβλήµατα κατηγοριοποίησης και συσταδοποίησης ϐάσεων δεδοµένων που ϐασίζονται σε ένα σύνολο χαρακτηριστικών, υπάρχουν προϕανή πλεονεκτήµατα από την επιλογή ενός υποσυνόλου χαρακτηριστικών που ϑα είναι το πιο σχετικό µε τις κλάσεις και ϑα εµϕανίζει το µικρότερο πλεονασµό µεταξύ των χαρακτηριστικών αυτών (Kohavi and John, 1997; Duda et al., 2001; Liu and Motoda, 2008). Α- ποκτώντας ένα ϐέλτιστο υποσύνολο χαρακτηριστικών µειώνεται ο χρόνος υπολογισµού του συνόλου των χαρακτηριστικών καθώς και ο χώρος αποθήκευσης που ϑεωρείται σηµαντική παράµετρος σε πολλές εϕαρµογές (Do et al., 2006). Επίσης ένα µικρό και ϐέλτιστο υποσύνολο χαρακτηριστικών µπορεί να προσϕέρει καλύτερη κατανόηση µιας υποκείµενης διαδικασίας επιτυγχάνοντας µεγαλύτερη ακρίβεια στα αποτελέσµατα της κατηγοριοποίησης (Guyon and Elisseeff, 2003). Το τελευταίο παρουσιάζει ι- διαίτερο ενδιαϕέρον σε πολλά προβλήµατα µε πραγµατικά δεδοµένα όπου υπάρχει διαθέσιµο µεγάλο πλήθος χαρακτηριστικών, όπως για παράδειγµα πειράµατα µε γονίδια σε µικροσυστοιχίες (genes in micro-array) (Guyon et al., 2002; Mundra and Rajapakse, 2010), όπως επίσης και σε ηχητικά σήµατα οµιλίας ή κατά τον διαχωρισµό µουσικών κοµµατιών (Tsanas et al., 2010; Bischl et al., 2010; Jung et al., 2011), ή σε σήµατα ηλεκτροεγκεϕαλογραϕηµάτων (EEG) για τον διαχωρισµό προεπιληπτικών καταστάσεων (Kugiumtzis et al., 2006; D Alessandro et al., 2007; Direito et al., 2008; Costa et al., 2008; Tsimpiris and Kugiumtzis, 2011, 2012). Ανάµεσα σε πολλές και διαϕορετικές στρατηγικές που ακολουθούνται για την επιλογή χαρακτη- ϱιστικών, όπως είναι η πλήρης αναζήτηση, η διαδοχική αναζήτηση και η δειγµατοληπτική αναζήτηση χαρακτηριστικών (Jain and Zongker, 1997; Raymer et al., 2000; Saeys et al., 2003; Liu and Motoda, 2008), οι τεχνικές που αναπτύξαµε ϐασίζονται στην προς τα εµπρός διαδοχική επιλογή Συνεισϕορά της διατριβής στην επιλογή χαρακτηριστικών Μια από τις τεχνικές που αναπτύξαµε η προς τα εµπρός σειριακή επιλογή µε το µέτρο CRI (Forward Sequential Selection with CRI, FSSwCRI) ανήκει στην κατηγορία των wrappers και κάνει χρήση του διορθωµένου ή αλλιώς προσαρµοσµένου δείκτη Rand (corrected Rand index -CRI) ως συνάρτηση α- ποτίµησης στη διαδικασία επιλογής χαρακτηριστικών µε κατηγοριοποιητή το λεγόµενο k-means. Το προτεινόµενο αυτό σχήµα φαίνεται να µειώνει δραστικά τη διάσταση του πλήθους των χαρακτηριστικών αλλά και να ϐελτιώνει την ακρίβεια της κατηγοριοποίησης. Συγκρίναµε τον αλγόριθµο FSSwCRI µε τον αλγόριθµο των µηχανών διανυσµάτων υποστήριξης αναδροµική εξάλειψη χαρακτηριστικών (Support Vector Machine Recursive Feature Elimination, SVM RFE), ο οποίος κάνει χρήση της σειριακής προς τα πίσω αναζήτησης, και µε ένα απλό φίλτρο το οποίο κατατάσσει τα χαρακτηριστικά σύµϕωνα µε την τιµή της αµοιβαίας πληροϕορίας (Mutual Information, MI). Οι τιµές των χαρακτηριστικών µπορεί να έχουν διαϕορετική κλιµάκωση και κατανοµή, επηρεά- Ϲοντας έτσι τις µεθόδους επιλογής χαρακτηριστικών, οι οποίες παρουσιάζουν ισχυρή εξάρτηση από την κανονικοποίηση (normalization) και τυποποίηση (standardization) των τιµών των χαρακτηριστικών. Στη διατριβή αυτή αποτιµήσαµε την συµπεριϕορά των πιο γνωστών τεχνικών κανονικοποίησης και τυποποίησης που χρησιµοποιούνται στις διαδικασίες επιλογής χαρακτηριστικών, και προτείναµε µια νέα τεχνική τυποποίησης δεδοµένων η οποία κάνει χρήση του µετασχηµατισµού σε κατανοµή Gauss. Επιπλέον χρησιµοποιήσαµε κανόνες συσχέτισης (association rules), που πρωτοπαρουσιάστηκαν από τους (Piatetsky-Shapiro, 1991; Agrawal et al., 1993), µε σκοπό την επιλογή χαρακτηριστικών µε υψηλή διακριτική ικανότητα (Exarchos et al., 2005) και την εύρεση πιθανών κανόνων συσχέτισης µεταξύ των επιλεγµένων χαρακτηριστικών. Εϕαρµόσαµε τις προτεινόµενες τεχνικές επιλογής χαρακτηριστικών και συγκρίναµε τις µεθόδους τυποποίησης σε διαϕορετικές ϐάσεις δεδοµένων προσοµοιώσεων. Για να αξιολογηθεί η καταλληλότητα του επιλεγµένου υποσυνόλου χαρακτηριστικών, ϐρίσκουµε το πιο συχνά επιλεγµένο υποσύνολο χαρακτηριστικών από την εϕαρµογή των αλγορίθµων στο σύνολο δεδοµένων εκπαίδευσης (training set), και στη συνέχεια αποτιµούµε την ακρίβεια της κατηγοριοποίησης χρησιµοποιώντας το ίδιο υποσύνολο χαρακτηριστικών ή ένα συνθετικό υποσύνολο χαρακτηριστικών αποτελούµενο από τα πιο συχνά επιλεγµένα 4
23 χαρακτηριστικά, σε οµάδα δεδοµένων ελέγχου (test set). Ενα µέρος της ερευνητικής µας προσπάθειας για την επιλογή χαρακτηριστικών, επικεντρώθηκε στην ανάπτυξη και τη µελέτη ενός νέου φίλτρου που ϐασίζεται στην υπό συνθήκη αµοιβαία πληροϕορία. Εξετάσαµε τα φίλτρα που χρησιµοποιούν την αµοιβαία πληροϕορία (ΜΙ) ώστε να αξιολογήσουν την σχετικότητα και τον πλεονασµό των χαρακτηριστικών. Εξετάσαµε µε µία απλή προσέγγιση στην κατάταξη των χαρακτηριστικών σύµϕωνα µε την σχετικότητά τους ως προς την µεταβλητή της κλάσης που ανήκουν τα δεδοµένα (Zaffalon and Hutter, 2002) την οποία και χρησιµοποιήσαµε και στην εϕαρµογή. Μελετήσαµε και άλλες προσεγγίσεις σύµϕωνα µε τις οποίες τα χαρακτηριστικά που επιλέγονται µεγιστοποιούν την ΜΙ µεταξύ του υποψήϕιου προς επιλογή χαρακτηριστικού f i και της µεταβλητής κλάσεων C, που συµβολίζεται ως I(f i ; C), και ελαχιστοποιούν την I(f i, f j ), που αντιστοιχεί στην ΜΙ του χαρακτηριστικού f i και του κάθε χαρακτηριστικού f j που έχει ήδη επιλεγεί και ανήκει στο υποσύνολο επιλεγµένων χαρακτηριστικών S. Σε αυτού του τύπου τα κριτήρια επιλογής περιλαµβάνεται και ο επιλογέας χαρακτηριστικών του Battiti που ϐασίζεται στην αµοιβαία πληροϕορία και συµβολίζεται ως (MIFS) (Battiti, 1994) καθώς και οι πιο πρόσϕατες παραλαγές του όπως η MIFS-U (Kwak and Choi, 2002b), η κανονικοποιηµένη ΜΙ (NMIFS) (Estevez et al., 2009) και το κριτήριο του ελάχιστου πλεονασµού-µέγιστης σχετικότητας (min-redundancy max-relevance, mrmr) (Peng et al., 2005). Η αξιολόγηση του πλεονασµού µεταξύ των χαρακτηριστικών στην πραγµατικότητα απαιτεί την εκτί- µηση της I(f i, S), που είναι η ΜΙ του υποψήϕιου προς επιλογή χαρακτηριστικού και του διανύσµατος χαρακτηριστικών µε χαρακτηριστικά που έχουν ήδη επιλεγεί νωρίτερα. Η εκτίµηση της ΜΙ µεταξύ διανυσµάτων χρησιµοποιώντας µεθόδους διακριτικοποίησης (binning) γίνεται προβληµατική καθώς µεγαλώνει η διάσταση των διανυσµάτων, και για το λόγο αυτό η προσέγγιση mrmr όπως και άλλες παρόµοιες µέθοδοι, διαχωρίζουν τον όρο του πλεονασµού σε εκτιµήσεις της ΜΙ µεταξύ απλών χαρακτηριστικών και όχι µεταξύ διανυσµάτων υψηλής διάστασης. Από την άλλη πλευρά ο πλεονασµός µαζί µε την σχετικότητα, που αποτελούν τα κριτήρια για επιλογή χαρακτηριστικών, µπορούν από κοινού να εκϕρασθούν µε την µορϕή της υπό συνθήκη αµοιβαίας πληροϕορίας (conditional mutual information, CMI), η οποία είναι η αµοιβαία πληροϕορία I(f i ; C S) του υποψήϕιου προς επιλογή χαρακτηριστικού και της µεταβλητής των κλάσεων δεδοµένου του ήδη επιλεγµένου υποσυνόλου χαρακτηριστικών (Jung et al., 2011; Cheng et al., 2011). Βεβαίως η εκτίµηση της CMI παρουσιάζει δυσκολίες καθώς η διάσταση αυξάνει σε S + 2, όπου S είναι η πληθικότητα του S. Για το λόγο αυτό συµπεριλάβαµε στην µελέτη και το κριτήριο επιλογής χαρακτηριστικών MaxiMin το οποίο χρησιµοποιεί µια προσέγγιση της δεσµευµένης αµοιβαίας πληροϕορίας, όπου διαχωρίζεται η συνθήκη του S σε κάθε του στοιχείο, δηλαδή σε όρους I(f i ; C f j ) (Wang et al., 2004). Στη διατριβή αυτή υιοθετούµε την εκτίµηση των κοντινότερων γειτόνων (ΝΝ) της I(f i ; C S) και προτείνουµε µια σειριακή αναζήτηση και ένα κριτήριο τερµατισµού για την επιλογή ϐέλτιστων υποσυνόλων χαρακτηριστικών. Τη νέα αυτή µέθοδο την ονοµάσαµε CMINN. Υποστηρίζουµε ότι η CMINN αποτελεί µια µέθοδο γενικότερου σκοπού συγκριτικά µε άλλα φίλτρα επιλογής χαρακτηριστικών της ΜΙ, από το γεγονός ότι η CMINN λαµβάνει υπόψιν τη σχετικότητα µεταξύ δύο ή περισσοτέρων χαρακτηριστικών που ανήκουν στο υποσύνολο S µε τη µεταβλητή της κλάσης ή µε το υποψήϕιο προς επιλογή χαρακτηριστικό Εϕαρµογή Στη διατριβή αυτή, ερευνούµε επίσης και το ϐέλτιστο υποσύνολο χαρακτηριστικών που διαχωρίζει µε τον καλύτερο τρόπο τις διαϕορετικές καταστάσεις του δυναµικού συστήµατος που παράγει τις χρονοσειρές, και ειδικότερα τα EEG από προεπιληπτικές περιόδους. Εχει αναπτυχθεί πλήθος διαϕορετικών αλγορίθµων εξόρυξης δεδοµένων που ϐασίζονται σε γραµµικά και µη-γραµµικά µέτρα (που τα καλούµε χαρακτηριστικά) και προορίζονται για την πρόβλεψη των επιληπτικών κρίσεων (Iasemidis et al., 2003; Xu et al., 2007; D Alessandro et al., 2007; Direito et al., 2008). Στην εϕαρµογή του αλγορίθµου FSSwCRI σε επιλεγµένα χαρακτηριστικά φάνηκαν συγκριτικά καλά αποτελέσµατα που αϕορούν την επιτυχή πρόβλεψη επιληπτικών κρίσεων (Kugiumtzis et al., 2006). Σε µια ακόµη δηµοσίευση όπου 5
24 εϕαρµόσαµε τον αλγόριθµο FSSwCRI (Tsimpiris and Kugiumtzis, 2011) που αναπτύξαµε για την επιλογή χαρακτηριστικών, επεκτείναµε την έρευνα στην εύρεση ϐέλτιστων υποσυνόλων χαρακτηριστικών που διαχωρίζουν τις προεπιληπτικές περιόδους. Εϕαρµόσαµε την τεχνική επιλογής χαρακτηριστικών FSSwCRI όπως και κανόνες συσχέτισης σε µια µικρή ϐάση δεδοµένων µε 10 χαρακτηριστικά που υπολογίσθηκαν σε ηλεκτροεγκεϕαλογραϕήµατα (EEG) ασθενών µε επιληψία, που καταγράϕηκαν σε διαϕορετικές προ-επιληπτικές καταστάσεις. Η παραπάνω τεχνική εϕαρµόσθηκε σε διαϕορετικές τυποποιήσεις των τιµών των χαρακτηριστικών ώστε να διερευνηθούν τυχόν εξαρτήσεις των αποτελεσµάτων από την τεχνική τυποποίησης. Επεκτείναµε τις προηγούµενες µελέτες που κάναµε σε µεγαλύτερο πλήθος χαρακτηριστικών και συγκρίναµε τρείς αλγορίθµους επιλογής χαρακτηριστικών, τον αλγόριθµο FSSwCRI (Tsimpiris and Kugiumtzis, 2011), τον αλγόριθµο SVM RFE (Guyon et al., 2002), και έναν τύπο φίλτρου της αµοιβαίας πληροϕορίας - (MI filter) (Zaffalon and Hutter, 2002; Brown, 2009). Χρησιµοποιήσαµε 312 χαρακτη- ϱιστικά χρονοσειρών, στα οποία συµπεριλαµβάνεται η πληθώρα των χαρακτηριστικών που αναϕέρονται στην ανάλυση EEG. Ενας ϐασικός στόχος της επέκτασης αυτής ήταν η επιλογή των πιο κατάλληλων χαρακτηριστικών για κατηγοριοποίηση των χρονοσειρών, καθώς και η σύγκριση της απόδοσης των τριών αλγορίθµων επιλογής χαρακτηριστικών. Στη συνέχεια διερευνήσαµε υπολογιστικά το παραγόµενο σύνολο χαρακτηριστικών, ώστε να αποτελέσει το λεγόµενο ϐιοδείκτη (biomarker) (Jain, 2010) για να χρησιµοποιηθεί στην πρόγνωση των επιληπτικών κρίσεων, και να έχει τη µορϕή ενός σταθερού συνόλου χαρακτηριστικών τα οποία ϑα υ- πολογίζονται στα σήµατα EEG. Για να το επιτύχουµε αυτό αναπτύξαµε µια µεθοδολογία σύνθεσης ενός υποσυνόλου χαρακτηριστικών που χρησιµοποιεί τα πιο συχνά εµϕανιζόµενα χαρακτηριστικά σε επιλεχθέντα ϐέλτιστα υποσύνολα χαρακτηριστικών που προέκυψαν από την εϕαρµογή αλγορίθµων επιλογής χαρακτηριστικών σε πολλά όµοια προβλήµατα κατηγοριοποίησης. Μελετήσαµε χρηµατιστηριακά δεδοµένα µε σκοπό την ταξινόµηση ενός συνόλου µετοχών στις οικονοµικές τους κατηγορίες και τη διαϕοροποίηση τους από δεδοµένα λευκού ϑορύβου. Τέλος συγκρίναµε τη µέθοδο CMINN µε την MaxiMin και την mrmr εϕαρµόζοντάς τες σε γνωστές ϐάσεις δεδοµένων καθώς και σε ϐάσεις µε δεδοµένα προσοµοιώσεων µε χαρακτηριστικά που σχεδιάστηκαν ώστε να έχουν ιδιαίτερες ιδιότητες σχετικότητας και πλεονασµού, ώστε να αναδειχθεί η δύναµη της CMINN και η απόδοσή της σε διαϕορετικά προβλήµατα κατηγοριοποίησης. 1.2 οµή Το υπόλοιπο του ϐιβλίου χωρίζεται σε δύο κύρια µέρη. Στο µέρος Α (κεϕάλαια 2-3) αναλύεται το υπόβαθρο που χρησιµοποιήθηκε και στο µέρος Β (κεϕάλαια 4-7) παρουσιάζεται η συνεισϕορά και τα ερευνητικά αποτελέσµατα : Στο Κεϕάλαιο 2 παρουσιάζονται τεχνικές εξόρυξης γνώσης και περιγράϕονται αναλυτικότερα αυτές που χρησιµοποιήθηκαν στη διατριβή αυτή, όπως τεχνικές κατηγοριοποίησης, συσταδοποίησης, επιλογής χαρακτηριστικών και κανόνων συσχέτισης. Στο Κεϕάλαιο 3 γίνεται περιγραϕή της έννοιας των χρονοσειρών, των προβληµάτων που υπάρχουν σχετικά µε την ταξινόµιση και την πρόβλεψη πιθανών καταστάσεων και παρουσιάζονται ϐάσεις δεδοµένων που αποτελούνται από χρονοσειρές ταλαντώσεων που δηµιουργήθηκαν από 5 διαϕορετικά δυναµικά συστήµατα. Επίσης γίνεται περιγραϕή του συνόλου σχεδόν των χαρακτηριστικών που χρησιµοποιούνται στην ανάλυση χρονοσειρών και ειδικότερα στα EEG τα οποία τα οµαδοποιήσαµε σε γραµµικά χαρακτη- ϱιστικά, σε µη-γραµµικά χαρακτηριστικά σε χαρακτηριστικά µοντέλων και σε χαρακτηριστικά ταλαντώσεων. Επιπλέον στο κεϕάλαιο αυτό παρουσιάζονται γνωστές µέθοδοι κανονικοποίησης των δεδοµένων. Στο Κεϕάλαιο 4 παρουσιάζονται οι αλγόριθµοι επιλογής χαρακτηριστικών που αναπτύξαµε και συγκεκριµένα ο αλγόριθµος περιτυλίγµατος FSSwCRI που ακολουθεί την τεχνική της προς τα εµπρός επιλογής χαρακτηριστικών µε κατηγοριοποιητή έναν αλγόριθµο συσταδοποίησης, καθώς και το φίλτρο 6
25 επιλογής χαρακτηριστικών CMINN που ϐασίζεται στην εκτίµηση της δεσµευµένης αµοιβαίας πληροϕορίας µε κοντινότερους γείτονες. Παρουσιάζεται επίσης και η Γκαουσιανή τεχνική τυποποίησης δεδοµένων την οποία αναπτύξαµε και εϕαρµόσαµε τόσο σε χρονοσειρές όσο και στις τιµές των χαρακτηριστικών που υπολογίζονται από τις χρονοσειρές. Στο Κεϕάλαιο 5 γίνεται εϕαρµογή των αλγορίθµων επιλογής χαρακτηριστικών που αναπτύξαµε σε ϐάσεις δεδοµένων προσοµοιώσεων και µελετάται η συµπεριϕορά τους σε σχέση µε άλλους αλγορίθµους. Συγκεκριµένα γίνεται εϕαρµογή του FSSwCRI σε προσοµοιώσεις χρονοσειρών ταλάντωσης όπου στην πρώτη περίπτωση µελέτης 10 χαρακτηριστικών από χρονοσειρές σε 4 προβλήµατα κατηγοριοποίησης δυναµικών συστηµάτων και στη δεύτερη περίπτωση µελέτης 312 χαρακτηριστικών από χρονοσειρές σε ένα πρόβληµα κατηγοριοποίησης, εξετάζεται κατά πόσο τα χαρακτηριστικά που επιλέχθηκαν από τον FSSwCRI µπορούν να ανιχνεύσουν επιτυχώς τις κλάσεις (δηλαδή τα δυναµικά συστήµατα) στις οποίες ανήκουν οι χρονοσειρές συγκρίνοντας ταυτόχρονα και την απόδοση του FSSwCRI µε δύο άλλους αλγορίθµους. Αντίστοιχα γίνεται εϕαρµογή της CMINN σε δεδοµένα προσοµοιώσεων από 5 διαϕορετικές ϐάσεις δεδοµένων και συγκρίνεται η απόδοση της µεθόδου αυτής µε δύο άλλες µεθόδους, την mrmr και την MaxiMin. Στο Κεϕάλαιο 6 γίνεται µελέτη της συµπεριϕοράς του αλγορίθµου FSSwCRI σε διαϕορετικές πε- ϱιπτώσεις µελέτης µε 10, 18 και 312 χαρακτηριστικά που υπολογίστηκαν από καταγραϕές EEG διαφορετικών ασθενών µε επιληψία. Εγινε συγκριτική µελέτη της απόδοσης του FSSwCRI µε άλλους αλγορίθµους στα πραγµατικά δεδοµένα των EEG. Αναπτύχθηκε µεθοδολογία για την σύνθεση ενός υποσυνόλου χαρακτηριστικών ικανού να πάρει την ϑέση ϐιοδείκτη για το διαχωρισµό και πρόβλεψη πι- ϑανών προεπιληπτικών καταστάσεων. Επίσης γίνεται εϕαρµογή του φίλτρου CMINN σε γνωστές ϐάσεις δεδοµένων αναϕοράς καθώς και συγκριτική µελέτη του µε τα φίλτρα επιλογής χαρακτηριστικών που χρησιµοποιήθηκαν και στις προσοµοιώσεις. Στο Κεϕάλαιο 7 παρουσιάζονται τα λογισµικά MATS και TDM που αναπτύχθηκαν στα πλαίσια της διατριβής για τον υπολογισµό χαρακτηριστικών και για την εϕαρµογή αλγορίθµων εξόρυξης δεδοµένων αντίστοιχα. Στο Κεϕάλαιο 8 γίνεται η αξιολόγηση των µεθόδων και των αποτελεσµάτων, εξαγωγή των συµπερασµάτων καθώς και διερεύνηση µελλοντικών επεκτάσεων. Τέλος στο Παράρτηµα Α παρουσιάζουµε δύο παραδείγµατα επεξήγησης του λογισµικού MATS µε δεδοµένα από EEG επιληπτικών ασθενών που αποτελούν δύσκολη περίπτωση δεδοµένων ώστε να φανεί η απλότητα χρήσης του λογισµικού αυτού σε οποιεσδήποτε άλλες χρονοσειρές είτε προσοµοιώσεων είτε πραγµατικών δεδοµένων. 7
26 8
27 Κεϕάλαιο 2 Εξόρυξη εδοµένων (data mining) Τα τελευταία χρόνια υπάρχει αυξανόµενο ενδιαϕέρον γύρω από την εϕαρµογή τεχνικών εξόρυξης δεδοµένων και γνώσης από συστήµατα χρονοσειρών. Ειδικότερα οι τεχνικές αυτές εστιάζονται σε προ- ϐλήµατα όπου τα δεδοµένα που µελετώνται αϕορούν χαρακτηριστικά που προκύπτουν από χρονοσειρές (Aghazadeh et al., 2007). Ο όρος εξόρυξη δεδοµένων αναϕέρεται στη διαδικασία ανάλυσης µεγάλων ϐάσεων δεδοµένων για εύρεση χρήσιµων µοτίβων και σχετίζεται µε την ανακάλυψη της γνώσης σε ϐάσεις δεδοµένων. Στο κεϕάλαιο αυτό γίνεται µια αναϕορά σε ϐασικές τεχνικές εξόρυξης γνώσης όπως συσταδοποίηση, κατηγοριοποίηση, κανόνες συσχέτισης καθώς και τεχνικές επιλογής µικρών υποσυνόλων χαρακτηριστικών, και παρουσιάζονται µε µεγαλύτερη λεπτοµέρεια οι τεχνικές που χρησιµοποιήθηκαν. 2.1 Εισαγωγή στην Ανακάλυψη Γνώσης από Βάσεις εδοµένων Ο διαρκής και αυξανόµενος όγκος δεδοµένων και πληροϕοριών που καταγράϕεται καθηµερινά και αϕορά πολλούς και διαϕορετικούς τοµείς, δηµιούργησε την ανάγκη για ανάπτυξη νέων ϑεωριών και εργαλείων που ϐοηθούν την ανάλυση των δεδοµένων αυτών. Το κύριο αντικείµενο της Ανακάλυψης Γνώσης σε Βάσεις εδοµένων (Knowledge Discovery in Databases - KDD) είναι η εξαγωγή γνώσης και συµπερασµάτων για τη λήψη αποϕάσεων µέσα από ϑεωρίες που αναπτύσσονται, καθώς και η δηµιουργία νέων εργαλείων για το σκοπό αυτό. Ενα από τα συνήθη προβλήµατα στην KDD διαδικασία είναι η µελέτη δεδοµένων χαµηλής ποιότητας, όπου η εύρεση ενός µοντέλου που ϑα τα προσαρµόζει καθώς και η εξαγωγή συµπερασµάτων για τη δοµή των δεδοµένων αυτών, αποτελούν δύσκολη υπόθεση. Με τον όρο KDD αναϕερόµαστε στη συνολική διαδικασία και στα ϐήµατα που ακολουθούνται ώστε τελικά να εξαχθούν χρήσιµες πληροϕορίες µέσα από το µεγάλο όγκο των ϐάσεων δεδοµένων. Οπως αναϕέρεται από τους Fayyad et al. (1996) KDD είναι µία µη τετριµµένη διαδικασία εύρεσης έγκυ- ϱων, νέων, χρήσιµων και πλήρως κατανοητών προτύπων από τα δεδοµένα ("Knowledge discovery in databases is the non trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data."). Η χρησιµοποίηση των τεχνικών KDD εϕαρµόζεται σε πολλούς κλάδους, όπως το Marketing ( π.χ. για εξαγωγή κανόνων συσχέτισης µεταξύ των προϊόντων ενός super market και την καλύτερη τοποθέτησή τους στα ϱάϕια), στο χρηµατιστήριο (π.χ. για εύρεση κοινού προϕίλ µετοχών), στην ανίχνευση απάτης (π.χ. στις οικονοµικές συναλλαγές όπου µπορεί να εντοπιστούν κλοπές ή παρατυπίες), στις επικοινωνίες, στον καθαρισµό των δεδοµένων και σε πολλούς άλλους τοµείς που οι τεχνικές εξόρυξης δεδοµένων δίνουν πολύτιµες πληροϕορίες µέσα από τις τεράστιες αυτές ποσότητες δεδοµένων. Ονόµατα όπως, data mining, knowledge extraction, information discovery, information harvesting, data archaeology, και data pattern processing είναι κατά ϐάση συνώνυµα και αϕορούν τη διαδικασία εξαγωγής πληροϕοριών ή κατάλληλων µοντέλων. Οι διαχειριστές πληροϕοριακών συστηµάτων, οι αναλυτές δεδοµένων και οι στατιστικολόγοι, χρησιµοποιούσαν τον όρο εξόρυξη δεδοµένων (data mining 9
28 (DM)) κυρίως όταν αναϕερόταν στο πεδίο των ϐάσεων δεδοµένων. Ο όρος (KDD) αναϕέρθηκε από τους Piatetsky-Shapiro (1991) για να τονίστεί ότι η γνώση είναι το αποτέλεσµα της διαδικασίας εξόρυξης δεδοµένων. Ο όρος KDD αναϕέρεται στη συνολική διαδικασία που ακολουθείται για την ανακάλυψη της γνώσης από σύνολα δεδοµένων και ο όρος DM αναϕέρεται σε ένα µέρος αυτής της διαδικασίας. Στην εξόρυξη δεδοµένων εϕαρµόζονται συγκεκριµένοι αλγόριθµοι για την ανάλυση των δεδοµένων. Στη διαδικασία όµως ανακάλυψης ή αλλιώς εξόρυξης γνώσης συµπεριλαµβάνονται και επιπλέον ϐήµατα όπως είναι η προετοιµασία των δεδοµένων, ο καθαρισµός δεδοµένων, η επιλογή των καταλληλότερων χαρακτηριστικών, η σωστή αποκρυπτογράϕηση και µελέτη των αποτελεσµάτων. ιάϕορα επιστηµονικά πεδία όπως η µηχανική µάθηση, η αναγνώριση προτύπων, η στατιστική, η τεχνητή νοηµοσύνη καθώς και η παρουσίαση των δεδοµένων, ενσωµατώνονται διαρκώς στις διαδικασίες ανακάλυψης γνώσης µε αποτέλεσµα να τις ϐελτιώνουν και να τις εξελίσσουν ώστε το παραγόµενο προϊόν που είναι η γνώση, να είναι υψηλού επιπέδου και να προκύπτει από χαµηλού επιπέδου δεδοµένα των ϐάσεων δεδοµένων. Το αντικείµενο της εξόρυξης δεδοµένων αϕορά κυρίως γνωστές και νέες τεχνικές του πεδίου της µηχανικής µάθησης, της αναγνώρισης προτύπων, της στατιστικής, της τεχνητής νοηµοσύνης που ϑα χρησιµοποιηθούν για να παράγουν µοντέλα που ϑα περιγράψουν σωστά τα δεδοµένα. Βήµατα µιας διαδικασίας KDD: Κατά την διάρκεια της διαδικασίας KDD, ακολουθούνται πολλά ϐήµατα και λαµβάνεται πλήθος αποϕάσεων. Τα ϐήµατα αυτά µπορούν να χωριστούν ώς εξής (Fayyad et al., 1996) (Σχήµα 2.1): 1. Αναγνώριση του στόχου και των απαιτήσεων του προβλήµατος. 2. Επιλογή των πιο αντιπροσωπευτικών δεδοµένων που ϑα χρησιµοποιηθούν στη διαδικασία ανακάλυψης γνώσης. 3. Καθαρισµός των δεδοµένων που περιλαµβάνει τεχνικές αϕαίρεσης ϑορύβου και ακραίων σηµείων ή συµπλήρωση χαµένων δεδοµένων. 4. Μείωση των διαστάσεων του χώρου αναπαράστασης των δεδοµένων είτε µέσω µετασχηµατισµού (ϐάσης αναπαράστασης) ή µε επιλογή κατάλληλου µικρότερου αριθµού διαστάσεων. 5. Χρήση κατάλληλης µεθόδου εξόρυξης δεδοµένων (πχ. κατηγοριοποίηση, συσταδοποίηση, παλινδρόµηση κ.ά.) 6. Εύρεση του κατάλληλου αλγορίθµου της µεθόδου εξόρυξης δεδοµένων που επιλέχθηκε. 7. Παραµετροποίηση και εϕαρµογή του αλγορίθµου που επιλέχθηκε για ϐελτίωση των αποτελεσµάτων. 8. Ελεγχος της διαδικασίας και πιθανή επανάληψη και ϐελτίωση προηγούµενων ϐηµάτων. 9. Ελεγχος της παραγόµενης γνώσης από τη διαδικασία αυτή, για πιθανές αντιϕάσεις µε ήδη υπάρχοντα αποτελέσµατα ή χρήση της γνώσης αυτής ως είσοδο σε επόµενο σύστηµα επεξεργασίας. Για την πετυχηµένη ολοκλήρωση µιας διαδικασίας ανακάλυψης γνώσης, τα περισσότερα από τα ϐήµατα που ακολουθούνται, αϕορούν τις µεθόδους και τους αλγορίθµους εξόρυξης δεδοµένων, χωρίς όµως να παραβλέπουµε και την αξία των υπολοίπων ϐηµάτων. 2.2 Εξόρυξη εδοµένων από Βάσεις εδοµένων (Data Mining) Η λειτουργία της εξόρυξης δεδοµένων απαιτεί κάποια συγκεκριµένη µορϕή των δεδοµένων τα οποία τυπικά έχουν συλλεχθεί για κάποιο σκοπό. Χρησιµοποιούνται αλγόριθµοι οι οποίοι αναλύουν µεγάλα σύνολα από δεδοµένα και καταλήγουν στην εύρεση και παρουσίαση συσχετίσεων µεταξύ των δεδοµένων αυτών, που ενδεχοµένως δεν ήταν προϕανείς. Οι σχέσεις µεταξύ των δεδοµένων παρουσιάζονται µε τη 10
29 Σχήµα 2.1: Τα ϐήµατα που συνθέτουν µια διαδικασία ανακάλυψης γνώσης από ϐάσεις δεδοµένων. Πηγή : Fayyad et al. (1996) µορϕή µοντέλων ή προτύπων, γεγονός που δηλώνει ότι τα αρχικά δεδοµένα δεν επηρεάζονται από την εϕαρµογή των αλγορίθµων αυτών. Αυτή είναι και µια ϐασική διαϕορά µε τις στατιστικές µεθόδους που σχεδιάζονται για δεδοµένα που έχουν συλλεχθεί µε συγκεκριµένο τρόπο και απαντούν σε συγκεκριµένα ερωτήµατα. Για τον λόγο αυτό, οι µέθοδοι εξόρυξης δεδοµένων αναϕέρονται συχνά και ως δευτερεύουσα ανάλυση των δεδοµένων. Οι περισσότερες µέθοδοι εξόρυξης γνώσης ϐασίζονται σε ήδη υπάρχουσες τεχνικές που έχουν χρησιµοποιηθεί και δοκιµαστεί στη µηχανική µάθηση, στην αναγνώριση προτύπων και στην στατιστική. Υπάρχουν περιπτώσεις που το πλήθος των δεδοµένων είναι υπερβολικά µικρό και απαιτείται η γενίκευση των συµπερασµάτων στο σύνολο του πληθυσµού των δεδοµένων. Καθώς η εξόρυξη γνώσης εξελίσσεται, ϐλέπουµε ότι οι επιστηµονικοί κλάδοι από τους οποίους δανειζόταν τις τεχνικές, συγκλίνουν πλέον προς την εξόρυξη δεδοµένων όταν έχουν να αντιµετωπίσουν µεγάλο όγκο δεδοµένων. Η εξέλιξη των υπολογιστών, η διαρκής αύξηση της χωρητικότητας των συσκευών σε συνδυασµό µε τη µείωση της τιµής καθώς και η ϐελτίωση των µεθόδων συλλογής και αποθήκευσης δεδοµένων, όπως και η ανάπτυξη των σχεσιακών ϐάσεων δεδοµένων, καθιστούν ευκολότερη τη διαχείριση τεράστιων όγκων δεδοµένων. Η χρήσιµη πληροϕορία όµως που πιθανόν να κρύβεται µέσα στο µεγάλο αυτόν όγκο δεδοµένων είναι δύσκολο να εξαχθεί και να παρουσιαστεί µε κατανοητό τρόπο. Η εξόρυξη δεδοµένων και γνώσης ασχολείται ακριβώς µε αυτό το αντικείµενο. Πολλά προβλήµατα παρουσιάζονται στις µελέτες όπου εµπλέκεται µεγάλο πλήθος χρονοσειρών ό- πως π.χ πολλές µετοχές ή πολλά διαδοχικά τµήµατα ενός πολύ µεγάλου σήµατος φυσιολογίας όπως το ηλεκτροκαρδιογράϕηµα (ECG) ή το ηλεκτροεγκεϕαλογράϕηµα (EEG). Οι εργασίες που ακολουθούνται κατά την διαχείριση τέτοιων προβληµάτων είναι ο χαρακτηρισµός, ο διαχωρισµός ή η οµαδοποίση των χρονοσειρών, ϐασιζόµενες στα µέτρα και τα χαρακτηριστικά που έχουν προηγουµένως εκτιµηθεί από τις χρονοσειρές. Για παράδειγµα σε χρηµατιστηριακές µετοχές έχουν εϕαρµοστεί διαϕορετικοί τύποι µέτρων όπως το NMSE fit (Álvarez Díaz, 2008) και η εντροπία του Shannon (Risso, 2009), µε σκοπό την σύγκριση διεθνών αγορών σε διαϕορετικές χρονικές περιόδους ή µεταξύ τους. Παρόµοια διαδικασία ακολουθείται σε τµήµατα καταγραϕών EEG από προ-επιληπτικές καταστάσεις µε σκοπό την πρόβλεψη της επιληπτικής κρίσης (Mormann et al., 2005; Kugiumtzis et al., 2006, 2007). Στην διατριβή αυτή ϑα ασχοληθούµε µε την εξόρυξη γνώσης από τέτοιου είδους προβλήµατα. Οι τεχνικές εξόρυξης δεδοµένων που ϑα εϕαρµόσουµε ϑα χρησιµοποιούν ως δεδοµένα εισόδου τις τιµές των χαρακτηριστικών που περιγράϕουν τις χρονοσειρές (τα χαρακτηριστικά αυτά ϑα αναϕερθούν στο επόµενο κεϕάλαιο) και όχι τις ίδιες τις χρονοσειρές. Παρακάτω παρουσιάζουµε συνοπτικά τις σηµαντικότερες από τις τεχνικές 11
30 εξόρυξης δεδοµένων και ϑα αναπτύξουµε αναλυτικότερα τις τέσσερις πρώτες διότι χρησιµοποιήθηκαν για την επίτευξη των στόχων της διατριβής αυτής : Κατηγοριοποίηση (Classification) Σύµϕωνα µε την τεχνική αυτή τα δεδοµένα κατατάσσονται σε προκαθορισµένες κατηγορίες. Μέσα από µια διαδικασία µάθησης που εϕαρµόζεται σε ένα σύνολο δεδοµένων εκπαίδευσης (training set) χωρισµένο σε γνωστές κατηγορίες, ορίζεται ένα µοντέλο. Στη συνέχεια και σύµϕωνα µε το µοντέλο αυτό, τα σύνολα δεδοµένων ελέγχου (training set) ταξινοµούνται στις αντίστοιχες κατηγορίες. Ο τελικός στόχος της διαδικασίας ταξινόµησης είναι να τοποθετηθούν νέα και άγνωστα δεδοµένα στις σωστές κατηγορίες. Συσταδοποίηση (Clustering) Η τεχνική αυτή διαµοιράζει ένα σύνολο δεδοµένων σε οµάδες (ή αλλιώς κλάσεις ή συστάδες), όπου τα στοιχεία της κάθε οµάδας παρουσιάζουν οµοιότητες µεταξύ τους. Η οµαδοποίηση γίνεται µε την εϕαρµογή κάποιου δείκτη οµοιότητας. Στη διαδικασία αυτή οι κατηγορίες που προκύπτουν δεν είναι από πριν γνωστές. Μείωση διαστάσεων (dimension reduction) Η µεγάλη διάσταση του διανυσµατικού χώρου των δεδοµένων που µελετώνται δηµιουργεί προβλήµατα τόσο στον χρόνο υπολογισµού όσο και στην λήψη σωστών αποϕάσεων. Οι τεχνικές µείωσης της διάστασης του χώρου αυτού αποτελούν κοµβικό σηµείο για την επιτυχή ολοκλήρωση των διαδικασιών κατηγοριοποίησης και συσταδοποίησης των δεδοµένων. Εξαγωγή κανόνων συσχέτισης (association rules extraction) Η εξαγωγή κανόνων συσχέτισης, όπως δηλώνει και η ονοµασία της τεχνικής αυτής, ϐρίσκει και εξάγει πρότυπα ή συσχετίσεις µεταξύ των δεδοµένων ενός συνόλου. Η έκϕραση των συσχετίσεων αυτών γίνεται µε κανόνες του τύπου : Εάν έχουµε το Χ τότε ισχύει το Υ. Το πόσο σηµαντικός είναι ένας κανόνας καθορίζεται από κάποια κριτήρια υποστήριξης και εµπιστοσύνης. Η εξόρυξη δεδοµένων περιλαµβάνει και άλλα ϑέµατα όπως η παλινδρόµηση (regression) που ϑεω- ϱεί πως τα δεδοµένα είναι µετρήσεις µεταβλητών και γίνεται διερεύνηση συνάρτησης ή µοντέλου που καθορίζει µια εξαρτηµένη µεταβλητή από άλλες ανεξάρτητες µεταβλητές. Άλλο ϑέµα είναι η ανάλυση χρονοσειρών (time series analysis) ή αλλιώς επεξεργασία σήµατος που περιλαµβάνει πολλές τεχνικές, σύµϕωνα µε τις οποίες οι χρονοσειρές µετασχηµατίζονται, φιλτράρονται ή συµπιέζονται και διερευνώνται µοντέλα για τον καθορισµό ή πρόβλεψη τιµών (estimation and prediction) της χρονοσειράς από προηγούµενες τιµές. Η αναγνώριση πρότυπων (pattern recognition) όπου αναζητούνται όµοιες ακολουθίες τιµών που αποτελούν πρότυπα και χρησιµοποιούνται για εξαγωγή συµπερασµάτων. Τα δένδρα αποϕάσεων (decision trees) τα οποία ανήκουν στις διαδικασίες κατηγοριοποίησης, µε την ιδιαιτερότητα ότι από τα δεδοµένα εκπαίδευσης δηµιουργείται ένα δένδρο από τα χαρακτηριστικά που µπορούν ευκολότερα να οδηγήσουν σε σωστές αποϕάσεις απόδοσης µιας κλάσης σε άγνωστα δεδοµένα. Η κατηγοριοποίηση και η συσταδοποίηση ανήκουν στο πεδίο της µηχανικής µάθησης όπου υπάρχει ο διαχωρισµός µεταξύ των εννοιών επιβλεπόµενη και µη-επιβλεπόµενη µάθηση (supervised και unsupervised learning), αντίστοιχα. Στην επιβλεπόµενη µάθηση υπάρχει το σύνολο µε τα διαθέσιµα στοιχεία που είναι από πριν χωρισµένα σε κατηγορίες, και κάθε νέο στοιχείο ϑα πρέπει να καταταχθεί σε µια από τις γνωστές κατηγορίες ή αλλιώς κλάσεις των δεδοµένων. Στην µη-επιβλεπόµενη µάθηση το Ϲητούµενο είναι η οµαδοποίηση των δεδοµένων σε κατηγορίες χωρίς την προγενέστερη γνώση των κατηγοριών αυτών. Στη συνέχεια ϑα περιγράψουµε τον τρόπο λειτουργίας των τεχνικών, που χρησιµοποιήθηκαν στην διατριβή, και ϑα παρουσιάσουµε αναλυτικότερα συγκεκριµένους αλγορίθµους που εϕαρµόσθηκαν στα δεδοµένα που µελετήθηκαν Κατηγοριοποίηση (Classification) Η κατηγοριοποίηση (classification) είναι µια διαδικασία που εντάσσεται γενικότερα στην περιοχή της επιβλεπόµενης µάθησης όπου οι κατηγορίες στις οποίες χωρίζεται αρχικά το σύνολο δεδοµένων εκ- 12
31 παίδευσης, είναι γνωστές. Το σύνολο δεδοµένων ελέγχου χρησιµοποιείται για να αξιολογηθεί η απόδοση του µοντέλου που δηµιουργείται µετά την εϕαρµογή ενός αλγορίθµου κατηγοριοποίησης, αν δηλαδή τα δεδοµένα ελέγχου τοποθετήθηκαν στις σωστές κλάσεις. Η απόδοση του υπό εκπαίδευση µοντέλου ελέγχεται, µετρώντας το ποσοστό των σηµείων που τοποθετήθηκαν στις σωστές κλάσεις. Στην περίπτωση που η ακρίβεια του µοντέλου ϑεωρηθεί ικανοποιητική τότε το ίδιο µοντέλο εϕαρµόζεται σε ένα σύνολο από άγνωστα δεδοµένα, όπου ανάλογα µε την κατάταξη των δεδοµένων στις αντίστοιχες κλάσεις, λαµβάνονται και οι ανάλογες αποϕάσεις. Γίνεται λοιπόν αντιληπτό ότι η διαδικασία κατηγοριοποίησης αποτελεί σηµαντικό εργαλείο στην λήψη αποϕάσεων σε περιπτώσεις οµαδοποίησης χρήσιµων πληροϕοριών. Το µαθηµατικό πλαίσιο της διαδικασίας αυτής δίνεται παρακάτω : εδοµένα. Για ένα σύνολο δεδοµένων X που αντιστοιχεί σε έναν πίνακα µε διάσταση N M οι γραµ- µές του πίνακα αϕορούν τα N δείγµατα και οι στήλες τα M χαρακτηριστικά F = {f 1, f 2,..., f M }. Το κάθε δείγµα x i µε i {1,..., N} αντιστοιχεί σε µια διακριτή µεταβλητή κλάσης C µε τιµές c 1, c 2,..., c K όπου K είναι το πλήθος των διαϕορετικών κλάσεων. Η τιµή του κάθε δείγµατος x i (ή αλλιώς της κάθε γραµµής του πίνακα ή της εγγραϕής της ϐάσης) αντιστοιχεί σε ένα διάνυσµα τιµών των χαρακτηριστικών F. Με την λέξη δεδοµένα εννοούµε τα δείγµατα x i του X τα οποία µπορεί να είναι διανύσµατα χαρακτηριστικών (features) από πολλές διαϕορετικές περιπτώσεις (cases) ενός προβλήµατος, ή µπορεί να είναι διανύσµατα χαρακτηριστικών (features) από πολλά διαϕορετικά προβλήµατα ή διανύσµατα χαρακτηριστικών (features) που έχουν εξαχθεί από διαϕορετικές χρονοσειρές. Ο προσδιορισµός µιας συνάρτησης g(x) C όπου το κάθε δείγµα x i ϑα αντιστοιχεί σε µια τιµή της µεταβλητής κλάσεων C είναι το πρόβληµα που καλείται να λύσει ο εκάστοτε αλγόριθµος κατηγοριοποίησης. Ο προσδιορισµός της συνάρτησης αυτής είναι το µοντέλο σύµϕωνα µε το οποίο τα δεδοµένα ϑα κατατάσσονται σε κλάσεις. Χρησιµοποιώντας τελικά το µοντέλο g(x) µπορεί ένα άγνωστο δείγµα x g να αντιστοιχιστεί σε κάποια τιµή της µεταβλητής κλάσεων C. Η διαδικασία που ακολουθείται σύµϕωνα µε όλες τις τεχνικές κατηγοριοποίησης µπορεί να περιγραϕεί συνοπτικά µε τα παρακάτω ϐήµατα : Βήµα 1: Εκµάθηση (Learning): Στο ϐήµα αυτό ξεκινά ο προσδιορισµός του µοντέλου σύµϕωνα µε το οποίο τα δεδοµένα του συνόλου εκπαίδευσης κατατάσσονται σε κλάσεις οι οποίες είναι εκ των προτέρων γνωστές. Βήµα 2: Ελεγχος (Testing): Αϕού οριστεί επαρκώς ο τύπος του µοντέλου από τα δεδοµένα εκπαίδευσης ακολουθεί η διαδικασία ελέγχου της ακρίβειας του µοντέλου. Από την ακρίβεια της κατηγοριοποίησης του συνόλου δεδοµένων ελέγχου εξαρτιέται και η αποδοχή του µοντέλου για την εϕαρµογή του σε πραγµατικά δεδοµένα. Βήµα 3: Εϕαρµογή (Application): Στο ϐήµα αυτό το µοντέλο που προέκυψε από το ϐήµα 1 και έγινε αποδεκτό από το ϐήµα 2 εϕαρµόζεται πλέον σε νέα δεδοµένα ίδιου τύπου όπου δεν γνωρίζουµε την κατηγορία που ανήκει το καθένα και το µοντέλο καλείται να τα κατατάξει. Μέθοδοι κατηγοριοποίησης : Τις µεθόδους κατηγοριοποίησης µπορούµε να τις οµαδοποιήσουµε στις παρακάτω κατηγορίες ανάλογα µε τον τρόπο παραγωγής του µοντέλου της κάθε µιας. Στατιστικές-πιθανοκρατικές. Στην κατηγορία αυτή ανήκει και η Bayesian κατηγοριοποίηση (η οποία είναι γνωστή και ώς αϕελής ταξινοµητής Bayes) η οποία υποθέτει ότι η παρουσία (ή απουσία) ενός συγκεκριµένου χαρακτηριστικού της κατηγορίας είναι άσχετη µε την παρουσία (ή απουσία) οποιοδήποτε άλλου στοιχείου, δεδοµένης της µεταβλητής κλάσης. Βασισµένες σε µετρικές απόστασης. Ο κατηγοριοποιητής των κοντινότερων γειτόνων k-nn (knearest neighbor classifier) είναι ο απλούστερος από όλους τους κατηγοριοποιητές και ο πιο 13
32 αντιπροσωπευτικός αυτής της κατηγορίας, σύµϕωνα µε τον οποίο ένα δείγµα ανήκει στην πιο συχνά εµϕανιζόµενη κλάση µεταξύ των k πλησιέστερων γειτόνων του. Αν k = 1, τότε το δείγµα απλά ϑα ανατεθεί στην κατηγορία που ανήκει ο κοντινότερος γείτονάς του. ένδρα απόϕασης. Ο αλγόριθµος κατηγοριοποίησης C4.5 όπως και ο ID3 χτίζουν δένδρα απόϕασης χρησιµοποιώντας έννοιες από τη ϑεωρία πληροϕορίας. Παίρνουν καταρχήν όλα τα χαρακτηριστικά του συνόλου δεδοµένων και µετρούν την εντροπία των δειγµάτων. Στη συνέχεια επιλέγουν το χαρακτηριστικό για το οποίο π.χ. η εντροπία του ως προς την κλάση είναι ελάχιστη και έτσι κάνουν τους κόµβους του δένδρου όπου περιέχονται τα επιλεγµένα χαρακτηριστικά που επιτυγχάνουν την καλύτερη κατηγοριοποίηση. Νευρωνικά δίκτυα. Ο απλούστερος κατηγοριοποιητής αυτής της κατηγορίας είναι ο νευρώνας Perceptron, ένα είδος νευρωνικού δικτύου, ο οποίος χρησιµοποιείται συνήθως για την ταξινόµηση γραµµικά διαχωριζόµενων δειγµάτων. Σκοπός του Perceptron είναι να κατηγοριοποιήσει ένα σύνολο δεδοµένων εισόδου σε µία από τις δυο κλάσεις. Ενα σύνολο τιµών από ϐάρη για κάθε δείγµα εϕαρµόζονται στις εισόδους του κάθε νευρώνα, τα οποία ϐάρη µαζί µε τα δείγµατα, περνιούνται σε µια συνάρτηση η οποία παράγει την έξοδο µε την κατηγορία που ϑα ανήκει το κάθε δείγµα. Μηχανές υποστήριξης διανυσµάτων (support vector machines-svms). Ενας κατηγοριοποιητής SVM προσπαθεί να ϐρει ένα υπερεπίπεδο µέσα από το σύνολο δεδοµένων εκπαίδευσης, το οποίο να διαχωρίζει το σύνολο αυτό σε δύο κλάσεις έτσι ώστε η απόσταση του υπερεπιπέδου από τα κοντινότερα δείγµατα (support vectors) να είναι µέγιστη. Ασαϕής κατηγοριοποίηση (fuzzy logic). Σύµϕωνα µε την ασαϕή κατηγοριοποίηση οι τιµές ενός χαρακτηριστικού χωρίζονται σε (επικαλυπτόµενα) διαστήµατα που είναι ασαϕή σύνολα. Ενα δείγ- µα ανήκει σε κάποια ασαϕή κατηγορία µε κάποιον ϐαθµό συµµετοχής ή αλλιώς ϐαθµό πίστης ο οποίος είναι ένα µέτρο ποιότητας για το κάθε δείγµα. Παραγωγή κανόνων κατηγοριοποίησης. Οι κανόνες κατηγοριοποίησης ακολουθούν την ίδια λογική µε τα δένδρα απόϕασης µε την διαϕορά ότι οι κανόνες γράϕονται και γίνονται ευκολότερα κατανοητοί από τα δένδρα ειδικά στις περιπτώσεις που το δέντρο είναι πολύ µεγάλο. Οι κανόνες που παράγονται είναι του τύπου if... then... else.... Οι 10 καλύτεροι αλγόριθµοι data mining είναι οι C4.5, k Means, Apriori, EM, PageRank, AdaBoost, knn, Naive Bayes, SVM, και CART σύµϕωνα µε τους Wu and Kumar (2009). Στη συνέχεια ϑα αναϕερ- ϑούµε στην Bayesian κατηγοριοποίηση στα SVM και στον k Means διότι ανήκουν στις µεθόδους που χρησιµοποιήσαµε για να κατηγοριοποιήσουµε τα δεδοµένα µας. Bayesian κατηγοριοποίηση Η µέθοδος αυτή είναι από τις πιο γνωστές και πρακτικές µεθόδους και συγκρίνεται επάξια µε όλες τους αλγορίθµους που ανήκουν στις παραπάνω κατηγορίες (Duda et al., 2001). Σύµϕωνα µε τη µέθοδο αυτή γίνεται η παραδοχή ότι τα χαρακτηριστικά των δειγµάτων είναι στατιστικά ανεξάρτητα µεταξύ τους. Από το σύνολο δεδοµένων εκπαίδευσης είναι γνωστή η εκ των προτέρων πιθανότητα prior probability P (x i C) για κάθε κλάση C δεδοµένου του κάθε δείγµατος x i, όπως επίσης γνωστή είναι και η εκ των προτέρων πιθανότητα P (C) της κάθε κλάσης C για K διαϕορετικές κλάσεις. Η προτεινόµενη κλάση για ένα δείγµα x i είναι αυτή που µεγιστοποιεί την εκ των υστέρων πιθανότητα της κάθε κλάσης για τα σύνολο δεδοµένων ελέγχου P (C x i ) P (C x i ) P (C)P (x i C) (2.1) Τα ϐήµατα που ακολουθούνται για να ανατεθεί ένα νέο δείγµα άγνωστης κλάσης σε µια κλάση είναι : 14
33 Βήµα 1. Αρχικά γίνεται ο υπολογισµός των εκ των προτέρων πιθανοτήτων P (C) και δεσµευµένων (conditional) πιθανοτήτων P (x i C) από το σύνολο δεδοµένων εκπαίδευσης : - Η πιθανότητα να ανήκει κάποιο δείγµα x i στην κλάση C ορίζεται ως εξής : P (C) = N C N όπου N C είναι το πλήθος των δειγµάτων που ανήκουν στην κλάση C και N ο συνολικός αριθµός δειγµάτων του συνόλου εκπαίδευσης για K διαϕορετικές τιµές της µεταβλητής κλάσεων. - Η υπό συνθήκη πιθανότητα, να ανήκει η τιµή f ij του χαρακτηριστικού f j ενός δείγµατος x i στην κλάση C, δεδοµένης της κλάσης C, ορίζεται ως εξής : (2.2) P (f ij C) = N f ij C N C (2.3) και υπολογίζεται για κάθε τιµή f ij του χαρακτηριστικό f j για όλες τις K κλάσεις της µεταβλητής κλάσεων C. Οπου N fij C είναι το πλήθος των δειγµάτων που περιέχουν την τιµή f ij του χαρακτηριστικού f j και ανήκουν στην κλάση C. Αυτός ο ορισµός ισχύει για διακριτές τιµές f ij ενώ στις συνεχείς τιµές χρησιµοποιούνται τεχνικές διακριτικοποίησης. Αυτές οι πιθανότητες αποτελούν το µοντέλο κατηγοριοποίησης της Bayesian κατηγοριοποίησης που είναι γνωστή και ως µεθόδος κατηγοριοποίησης Naive Bayes. Βήµα 2. Στο ϐήµα αυτό γίνεται ο υπολογισµός των πιθανοτήτων, ώστε να ανήκει το συγκεκριµένο (άγνωστο) προς κατηγοριοποίηση δείγµα x i, στις υπάρχουσες κλάσεις C, δεδοµένης της πιθανότητας εµϕάνισης των τιµών των χαρακτηριστικών του στις κλάσεις αυτές. ηλαδή γίνεται ο υπολογισµός των πιθανοτήτων P (C x i ) Η κλάση που αντιστοιχεί στην µεγαλύτερη πιθανότητα είναι η Ϲητούµενη, δηλ. από τον νόµο του Bayes όµως ισχύει ότι C target = arg max C P (C x i) (2.4) P (C x i ) = P (x i, C) P (x i ) = P (C)P (x i C) P (x i ) M P (C)P (x i C) = P (C) P (f ij C) (2.5) j=1 µε την προϋπόθεση ότι τα χαρακτηριστικά f j είναι ανεξάρτητα µεταξύ τους οπότε τελικά η εξίσωση 2.4 γίνεται C target = arg max P (C) M P (f ij C) (2.6) C j=1 Μηχανές ιανυσµάτων Υποστήριξης - Support vector machines (SVM) Οι Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines - SVMs) (Vapnik, 1998) συµπε- ϱιλαµβάνονται ανάµεσα στις ισχυρότερες και ακριβέστερες µεθόδους κατηγοριοποίησης και γενικότερα εξόρυξης δεδοµένων. Στην απλή τους µορϕή τα SVM καθώς και διάϕορες παραλλαγές τους κατηγοριοποιούν τα δείγµατα σε δυαδικές κλάσεις και αποτελούν πεδίο έρευνας των τελευταίων ετών. Τα SVM λύνουν ένα πρόβληµα ϐελτιστοποίησης µε σκοπό να ϐρουν µια υπερ-επιϕάνεια που ϑα διαχωρίζει τα δεδοµένα µεταξύ δύο κατηγοριών µε τέτοιο τρόπο ώστε να µεγιστοποιείται η απόσταση µεταξύ των σηµείων και της υπερ-επιϕάνειας, ενώ ταυτόχρονα ϑα ελαχιστοποιείται το σϕάλµα της κατηγοριοποίησης. Για τον λόγο αυτό και τα SVM είναι γνωστά και σαν κατηγοριοποιητές µέγιστου περιθωρίου (maximum margin classifiers) (Vapnik, 1998; Guyon et al., 2002). 15
34 Στην περίπτωση της κατηγοριοποίησης µεταξύ δύο τιµών της µεταβλητής κλάσεων C οι οποίες παίρνουν τιµές +1 και -1 αντίστοιχα, το SVM επιδιώκει να ϐρει µια συνάρτηση (που εκϕράζει το Ϲητούµενο υπερ-επίπεδο) η οποία διαχωρίζει τα δείγµατα x i, i = 1,..., N, του πίνακα δεδοµένων εκπαίδευσης X, στις δύο κλάσεις, µε ένα ϐέλτιστο τρόπο ώστε τα κοντινότερα σηµεία των δύο κλάσεων στην υπερεπιϕάνεια να απέχουν τη µέγιστη απόσταση από αυτή όπως φαίνεται και στο Σχήµα 2.2. Τα κοντινότερα αυτά σηµεία στην υπερ-επιϕάνεια ονοµάζονται διανύσµατα υποστήριξης (support vectors). Η διαδικασία όπου ένα απλό SVM διαχωρίζει τις δύο κλάσεις φαίνεται καλύτερα στο Σχήµα 2.2 και είναι η εξής : Βήµα 1 Αρχικά χρησιµοποιείται µια συνάρτηση µετασχηµατισµού ώστε τα διανύσµατα µε τις τιµές των χαρακτηριστικών των δειγµάτων να αναπαρασταθούν σε ένα χώρο µε µεγαλύτερη διάσταση από την αρχική. Η αντιστοίχιση αυτή στον υψηλότερο διαστατικά χώρο γίνεται µε µια συνάρτηση πυρήνα (kernel) ή αλλιώς µε µια συνάρτηση απεικόνισης ϕ : x i ϕ(x i ) που µεταϕέρει τα δεδοµένα στον νέο χώρο µετασχηµατίζοντας τις αρχικές συνιστώσες. Βήµα 2 Στη συνέχεια γίνεται ϐελτιστοποίηση, ώστε να ϐρεθεί συνάρτηση (υπερ-επίπεδο) που ϑα µπορεί να διαχωρίζει γραµµικά τα δείγµατα στο νέο αυτό διανυσµατικό χώρο. Η εξίσωση του υπερεπιπέδου διαχωρισµού έχει την µορϕή : wx + b = 0, όπου w είναι ο πίνακας των ϐαρών των δειγµάτων. Από τα δεδοµένα εκπαίδευσης τα Ϲεύγη εκείνα {x i, c i } για τα οποία ισχύει η ισότητα wx + b = 1 και wx + b = 1 ϐρίσκονται σε δύο παράλληλα υπερ-επίπεδα τα οποία είναι όσο το δυνατόν πιο µακρυά µεταξύ τους ενώ ταυτόχρονα διαχωρίζουν τα δεδοµένα. Τα δεδοµένα που ϐρίσκονται πάνω στα υπερ-επίπεδα αυτά ονοµάζονται διανύσµατα υποστήριξης (Support Vectors) και από αυτά προκύπτει το όνοµα Support Vector Machine. Η απόσταση µεταξύ των δύο αυτών υπερεπιπέδων είναι w, οπότε το Ϲητούµενο είναι να ελαχιστοποιήσουµε το όρο w. Τα διανύσµατα 2 αυτά αντιστοιχούν σε µη µηδενικούς συντελεστές Lagrange α i, και παίζουν τον πιο σηµαντικό ϱόλο, µιας και είναι αυτά που ϐρίσκονται πιο κοντά στο επίπεδο απόϕασης και άρα δυσκολότερο να ταξινοµηθούν. Τα διανύσµατα υποστήριξης είναι τα σηµεία µε τα οποία στη συνέχεια ϑα γίνεται η σύγκριση των νέων άγνωστων δειγµάτων ώστε να καταταχθούν στην κατάλληλη κλάση. Από την στιγµή που δε γίνεται σύγκριση των νέων δειγµάτων µε όλο το σύνολο των δειγµάτων εκπαίδευσης, η διαδικασία της κατηγοριοποίησης γίνεται πολύ πιο γρήγορα. Η αρχιτεκτονική ενός δυαδικού SVM. Η αρχιτεκτονική ενός SVM αποτελείται από τρία επίπεδα, το επίπεδο εισόδου, το κρυϕό επίπεδο πυρήνων και το επίπεδο εξόδου. Το επίπεδο εισόδου έχει τόσες εισόδους, όσο και το πλήθος των δειγµάτων Ν. Το κρυϕό επίπεδο δέχεται το διάνυσµα εισόδου X και εϕαρµόζει σε αυτό τον πυρήνα K(x, x i ) όπου x είναι ένα σύνολο σηµείων του συνόλου δεδοµένων ελέγχου. Στην έξοδο καταλήγουν οι πυρήνες του κρυϕού επιπέδου, πολλαπλασιασµένοι µε τα ϐάρη w που έχουν υπολογισθεί από τον αλγόριθµο ϐελτιστοποίησης. Το υπερεπίπεδο που κατασκευάζεται στο µετασχηµατισµένο πλέον χώρο των δειγµάτων, µπορεί να γραϕεί µε τη µορϕή εσωτερικού γινοµένου δύο ανυσµάτων : wϕ(x) = 0. Το διάνυσµα ϐάρους µετά την ϐελτιστοποίηση είναι : w = N i=1 α ic i ϕ(x i ) και µπορεί να αντικατασταθεί στη σχέση του υπερ-επίπεδου : N i=1 α ic i ϕ(x i )ϕ(x) = 0 όπου α i είναι οι συντελεστές Lagrange, από τους οποίους οι µη-µηδενικοί α i καθορίζουν τα διανύσµατα υποστήριξης µέσα από όλα τα δεδοµένα εκπαίδευσης {x i, c i } N i=1. Εδώ εµϕανίζεται το εσωτερικό γινόµενο ϕ(x i)ϕ(x) που ονοµάζεται πυρήνας K(x, x i ). Τελικά µε γνωστά τα ϐάρη w και τη µεροληψία b, η κατάταξη ενός άγνωστου δείγµατος x στη σωστή κατηγορία γίνεται σύµϕωνα µε τη σχέση y = ϕ(x) = sign(w.x + b) = N α i c i K(x, x i ) + b (2.7) όπου N ο αριθµός των δειγµάτων του συνόλου εκπαίδευσης, και c i η κλάση των γνωστών δειγµάτων x i που παίρνει τιµές +1 ή 1 ανάλογα µε το πού ανήκουν. i=1 16
35 Σχήµα 2.2: Το υπερ-επίπεδο που µε τα SVM διαχωρίζει γραµµικά τα δεδοµένα στον µετασχηµατισµένο χώρο διαστάσεων, και τα διανύσµατα υποστήριξης που µεγιστοποιούν την απόσταση από το υπερεπίπεδο. Πηγή : Πυρήνες (kernels). Οι µετασχηµατισµοί απεικόνισης ϕ : X ϕ(x) µεταϕέρουν τα δεδοµένα σε ένα νέο χώρο µετασχηµατίζοντας τις συνιστώσες τους. Οι περιορισµοί του προβλήµατος ϐελτιστοποίησης επιβάλλουν όλα τα διανύσµατα εκπαίδευσης να ϐρίσκονται έξω ή το πολύ στα όρια του περιθωρίου και από τη σωστή πλευρά του υπερ-επιπέδου, ανάλογα µε την κατηγορία τους, όπως φαίνεται στο Σχή- µα 2.2. Για να ϐρει το υπερ-επίπεδο διαχωρισµού ένα SVM προσπαθεί να µεγιστοποιήσει την απόσταση ανάµεσα στις δύο κλάσεις και να επιλέξει γραµµικούς διαχωριστές στο χώρο των παραµέτρων. Μια συνάρτηση πυρήνα (kernel) K(.) χρησιµοποιείται για να αναπαραστήσει τα δεδοµένα από το χώρο εισόδου στο νέο χώρο των παραµέτρων (feature space). Αν ο µετασχηµατισµός αυτός δεν είναι γραµµικός, τότε επιτρέπονται και µη γραµµικά υπερ-επίπεδα. Η συνάρτηση µετασχηµατισµού ϕ(x) συµµετέχει µόνο σε εσωτερικά γινόµενα. Ο πυρήνας του SVM ορίζεται από τη συνάρτηση K(x i, x j ) = ϕ(x i )ϕ(x j ). Το ενδιαϕέρον είναι ότι σε πολλές περιπτώσεις είναι δυνατόν να υπολογιστούν οι τιµές του πυρήνα χωρίς να υπολογιστεί πρώτα η τιµή των ϕ(x i ) και, ϕ(x j ) δηλαδή χωρίς να υπολογίσουµε τα χαρακτηριστικά γνωρίσµατα των διανυσµάτων στο νέο χώρο µεγαλύτερης διάστασης, κάτι που επιτρέπει τη χρήση πυρήνων που υπολογίζουν εσωτερικά γινόµενα σε νέους χώρους πολύ µεγάλου αριθµού διαστάσεων. Οι πιο αντιπροσωπευτικοί πυρήνες που χρησιµοποιούνται στα SVM για τα διανύσµατα x i και x j είναι οι εξής : γραµµικός :K(x i, x j ) = x i.x j πολυωνυµικός :K(x i, x j ) = (x i.x j ) p Γκαουσσιανής ή ακτινικής ϐάσης K(x i, x j ) = exp( γ x i x j 2 ), γ > 0 σιγµοειδής : K(x i, x j ) = tanh(x i.x j + r) όπου τα γ = 1/(2σ 2 ), σ η τυπική απόκλιση, r < 0 και p η τάξη του πολυωνύµου, είναι παράµετροι κάθε πυρήνα και x i.x j το εσωτερικό γινόµενο των διανυσµάτων. Ο γραµµικός πυρήνας είναι η πιο απλή περίπτωση πυρήνα που δεν προκαλεί µετάβαση σε νέο διανυσµατικό χώρο. Hard - Soft margin SVM. Οπως σε κάθε διαδικασία κατηγοριοποίησης έτσι και εδώ απαιτείται ένα σύνολο δεδοµένων εκπαίδευσης και ένα σύνολο δεδοµένων ελέγχου, όπου σε κάθε δείγµα από το σύνολο δεδοµένων εκπαίδευσης δίνεται και µια τιµή για την κλάση που ανήκει. Τα SVM χρησιµοποιώντας την πληροϕορία που παίρνουν από τα δεδοµένα εκπαίδευσης, χτίζουν ένα µοντέλο το οποίο καθώς παίρνει τιµές από τα δεδοµένα ελέγχου, προβλέπει την κλάση στην οποία ϑα τοποθετηθούν τα νέα αυτά δεδοµένα. Η σταθερότητα των SVM που είδαµε πριν είναι δεδοµένη εάν το περιθώριο µεταξύ του υπερ-επιπέδου 17
36 και των διανυσµάτων υποστήριξης είναι µεγάλο. Οµως, κάτι τέτοιο δεν εγγυάται απαραίτητα και την ευρωστία τους. ηλαδή ϑα µπορούσε εύκολα ένα επιπλέον σηµείο από το σύνολο δεδοµένων εκπαίδευσης να µειώσει την τιµή του περιθωρίου αυτού καθιστώντας τα δεδοµένα ακόµα και µη διαχωρίσιµα. Ετσι σκοπός είναι να ϐρεθεί µια γραµµική συνάρτηση η οποία ϑα µεγιστοποιεί το περιθώριο αυτό και µε τη λύση του προβλήµατος αυτού ασχολούνται τα µοντέλα hard margin SVM. Ενώ το µοντέλο hard margin δε δίνει λύση στην περίπτωση που το πρόβληµα δεν είναι διαχωρίσιµο, το µοντέλο soft margin SVM (Vapnik, 1998) είναι πιο εύρωστο και επιτρέπει την ύπαρξη σϕαλµάτων και ϑορύβου στα δεδοµένα εκπαίδευσης χωρίς να αλλάζει το αποτέλεσµα. Στην εργασία αυτή χρησιµοποιήσαµε µια από τις πα- ϱαλλαγές soft-margin των SVM που περιγράϕεται από τους Cortes and Vapnik (1995); Guyon et al. (2002). SVM πολλών κλάσεων Η πρώτη γενιά SVMs µπορούσε να εϕαρµοστεί µόνο για δύο κλάσεις. Οµως, τα περισσότερα πραγµατικά προβλήµατα κατηγοριοποίησης δεν είναι δυαδικά. Επιπλέον η ταξινό- µηση πολλών κατηγοριών είναι σηµαντικά δυσκολότερη από τη δυαδική. Τα τελευταία χρόνια έχουν αναπτυχθεί SVMs για περισσότερες από δύο κλάσεις τα οποία καλούνται Multiclass SVMs, στα οποία χρειάζονται χρονοβόρες διαδικασίες για την εύρεση των παραµέτρων τους. Οι συχνότερες από αυτές τις µεθόδους χωρίζουν εξυπνα το σύνολο δεδοµένων σε τµήµατα δύο κλάσεων και ένα ξεχωριστό SVM εκπαιδεύεται για κάθε τµήµα. Η τελική ταξινόµηση ενός άγνωστου δείγµατος σε µία από πολλές κατηγορίες γίνεται µε το συνδυασµό των δυαδικών εξόδων όλων των SVM µε διάϕορες µεθόδους. Μια από τις γνωστές τεχνικές είναι η τεχνική του ένας εναντίων όλων (one versus all) και µια άλλη είναι η τεχνική ένας εναντίων ενός (one versus one). Κάποιες άλλες λιγότερο συχνές µέθοδοι προσπαθούν να αλλάξουν ολόκληρη τη φιλοσοϕία σχεδιασµού των SVMs ώστε να επιτρέψουν ταυτόχρονο διαχωρισµό σε πολλές κατηγορίες, µε πολλές υπερ-επιϕάνειες (Hsu and Lin, 2002; Angulo et al., 2003). Ενα από τα µειονεκτήµατα των SVM είναι ότι απαιτούν για την εκπαίδευση του µοντέλου της κατηγοριοποίησης, την επιλογή της κατάλληλης συνάρτησης πυρήνα. Τα κύρια πλεονεκτήµατά τους όµως είναι η σχετικά εύκολη εκπαίδευσή τους, η καλή λειτουργία τους σε δεδοµένα υψηλής διάστασης καθώς και η ικανότητα γενίκευσής τους. Στην ϐιβλιογραϕία έχουν προταθεί πολλές παραλλαγές των µηχανών διανυσµάτων υποστήριξης (Cristianini and Shawe-Taylor, 2000) που αυξάνουν την απόδοση τους, όπως το SVM-Light (Joachims, 1999), η LIBSVM (Chang and Lin, 2001) κ.ά. Η εµϕάνιση των αλγορίθµων αυτών έκανε ευκολότερη την εϕαρµογή των SVM στην πράξη Συσταδοποίηση (Clustering) Ο όρος ανάλυση συστάδων (cluster analysis) καλύπτει έναν πλήθος διαϕορετικών αλγορίθµων και µεθόδων που χρησιµοποιούνται για την οµαδοποίηση όµοιων αντικείµενων σε ξεχωριστές οµάδες ή αλλιώς συστάδες (clusters). Μια γενική ερώτηση που αντιµετωπίζουν οι ερευνητές σε πολλούς τοµείς της έρευνας τους, είναι το πως να οργανώσουν τα δεδοµένα των παρατηρήσεων σε διακριτές δοµές. Η ανάλυση συστάδων είναι ένα διερευνητικό εργαλείο ανάλυσης που στοχεύει στην ταξινόµηση των διαϕορετικών αντικειµένων σε οµάδες, µε τέτοιο τρόπο ώστε ο ϐαθµός οµοιότητας µεταξύ δύο αντικειµένων να είναι µέγιστος εάν ανήκουν στην ίδια οµάδα και ελάχιστος εάν ανήκουν σε διαϕορετική. Η ανάλυση συστάδων µπορεί να χρησιµοποιηθεί για να ανακαλύψει δοµές στα δεδοµένα χωρίς να δίνει µια εξήγηση ή ερµηνεία του γεγονότος, δηλαδή η ανάλυση συστάδων ανακαλύπτει απλά τις δοµές στα δεδοµένα χωρίς να εξηγεί το γιατί. Η συσταδοποίηση (clustering) είναι µια διαδικασία που εντάσσεται γενικότερα στο πεδίο της µη επιβλεπόµενης µάθησης και είναι γνωστή και µε διαϕορετικά ονόµατα όπως αριθµητική ταξονοµία (numerical taxonomy) στην ϐιολογία και τµηµατοποίηση (segmentation, partitioning) στη ϑεωρία των γράϕων. Για να γίνει η οργάνωση των δεδοµένων σε συστάδες χρησιµοποιείται κάποιος δείκτης οµοιότητας (similarity index) ή δείκτης ανοµοιότητας ή µέτρα απόστασης. Τα δεδοµένα περιγράϕονται ως διανύ- 18
37 σµατα τιµών κάποιων χαρακτηριστικών και αναπαριστώνται ως σηµεία σε έναν πολυδιάστατο χώρο. Τα δεδοµένα που παρουσιάζουν µεγαλύτερη οµοιότητα κατατάσσονται στην ίδια οµάδα. Υπάρχει µεγάλη ποικιλία µεθόδων συσταδοποίησης ανάλογα µε τον τρόπο αναπαράστασης των δεδοµένων, του δείκτη οµοιότητας µεταξύ των στοιχείων αλλά και τον τρόπο οµαδοποίησης των δεδοµένων, οπότε κατ επέκταση οι µέθοδοι συσταδοποίησης µπορούν να διαχωρισθούν σε τρείς ϐασικές κατηγορίες (Liao, 2005; Jain and Dubes, 1988): - Οι διαµεριστικές µεθόδοι (partitioning clustering) προσπαθούν να διασπάσουν ένα σύνολο από N δεδοµένα σε k συστάδες χρησιµοποιώντας ως δείκτη οµοιότητας συνήθως την Ευκλείδεια απόσταση µεταξύ τους. ίνεται το επιθυµητό πλήθος k των συστάδων και ακολουθείται µια επαναληπτική διαδικασία ή οποία τερµατίζει όταν ικανοποιηθούν τα κριτήρια οµοιότητας µε τον ϐέλτιστο δυνατό τρόπο. Οι πιο γνωστοί αλγόριθµοι που ανήκουν σε αυτή την κατηγορία είναι οι k-means και k-medoid όπου η κάθε συστάδα αντιπροσωπεύεται από το κέντρο ϐάρους της συστάδας στον k-means ή από το πιο κεντρικό σηµείο (medoid) της συστάδας στην µέθοδο k-medoid. Το κέντρο ϐάρους ορίζεται ως το ιδεατό σηµείο της συστάδας που προκύπτει από την µέση τιµή των Ευκλείδειων αποστάσεων µεταξύ των σηµείων της συστάδας και ενός αρχικού σηµείου. Κεντρικό σηµείο (medoid) της συστάδας είναι ένα από τα σηµεία της συστάδας που έχει την µικρότερη µέση απόσταση από όλα τα σηµεία της συστάδας. -Οι ιεραρχικές µεθόδοι (hierarchical clustering) µπορούν να αναπαραστήσουν τις οµάδες µε τη µορϕή δενδρογραµµάτων, όπου ο κάθε κόµβος αναπαριστά και µια συστάδα. Αν η ιεραρχία για την συσταδοποίηση είναι από κάτω προς τα πάνω (µέσα στο δένδρο), τότε στην αρχή το κάθε αντικείµενο αποτελεί και µια συστάδα και στη συνέχεια µικρές συστάδες ενώνονται σε µεγαλύτερες σε κάθε κόµβο ιεραρχίας, µέχρι το τελευταίο επίπεδο ιεραρχίας που είναι η ϱίζα του δένδρου. Αυτό το είδος της µεθόδου ονοµάζεται συσσωρευτική (agglomerative) ενώ η αντίστροϕη διαδικασία λέγεται διαιρετική (divisive) ιεραρχική µέθοδος. Γνωστές ιεραρχικές µέθοδοι είναι η µέθοδος του απλού συνδέσµου (single linkage), του πλήρους συνδέσµου (compete linkage), του µέσου συνδέσµου (average linkage) όπως και η µέθοδος (ward) -Οι ασαϕείς µεθόδοι (fuzzy clustering) επακτείνουν την έννοια της αντιστοίχισης κάθε σηµείου σε µία οµάδα µε την εισαγωγή µιας συνάρτησης συµµετοχής µέλους, σύµϕωνα µε την οποία κάθε σηµείο έχει µια πιθανότητα να ανήκει σε κάθε συστάδα χωρίς να γίνεται σαϕής διαχωρισµός των συστάδων µεταξύ τους. Η κάθε µια από τις παραπάνω κατηγορίες µπορεί να χωρισθεί σε τρείς υποκατηγορίες ανάλογα µε τον τρόπο ορισµού της συστάδας, που είναι οι εξής : µέθοδοι ϐασισµένοι στην απόσταση (distance-based methods), µέθοδοι ϐασισµένοι σε µοντέλα ή κατανοµές (model-based ή distribution-based methods) και µέθοδοι ϐασισµένοι στην πυκνότητα (density-based methods). Οι µέθοδοι που ϐασίζονται στην απόσταση χρησιµοποιούν έναν δείκτη οµοιότητας (ή ανοµοιότητας) για να οµαδοποιήσουν τα περισσότερο όµοια σηµεία σε µια συστάδα. Ο αλγόριθµος k-means και ο CLARANS (Hartigan and Wong, 1979; Ng and Han, 2002) ανήκουν στην κατηγορία των διαµεριστικών αλγορίθµων που ϐασίζονται στην απόσταση. Επίσης αλγόριθµοι που ϐασίζονται στην απόσταση είναι και ο ιεραρχικός αλγόριθµος απλού συνδέσµου όπως και οι µέθοδοι που ϐασίζονται σε γράϕους (Jain and Dubes, 1988; Duda et al., 2001; Gordon, 1996). Οι αλγόριθµοι συσταδοποίησης που ϐασίζονται σε µοντέλα, υποθέτουν ότι τα δεδοµένα της κάθε συστάδας ανήκουν σε µια συγκεκριµένη στατιστική κατανοµή (π.χ. Γκαουσιανή κατανοµή) και το σύνολο των δεδοµένων προκύπτει από τη σύνθεση πολλών τέτοιων κατανοµών (Duda et al., 2001). Η µέθοδος εκτίµησης µέγιστης πιθανοϕάνειας (Maximum Likelihood Estimation,MLE) όπως και η µέθοδος της µεγιστοποίησης της προσδοκίας (Expectation-Maximization, EM) αποτελούν δυο αντιπροσωπευτικά παραδείγµατα µεθόδων που ϐασίζονται σε µοντέλα (Dempster et al., 1977). 19
38 Οι µέθοδοι που ϐασίζονται στην πυκνότητα ϑεωρούν ότι ως µια συστάδα δεδοµένων είναι πυκνή (δηλαδή περιέχει περισσότερα σηµεία) σχετικά µε άλλες πιο αραιές περιοχές (Jain and Dubes, 1988). Αυτές οι µέθοδοι µπορεί να ακολουθήσουν δύο διαϕορετικές στρατηγικές που ϐασίζονται η µία στους πλησιέστρους γείτονες και η άλλη σε πλέγµα. Η προσέγγιση του πλέγµατος διαιρεί το χώρο σε πεπερασµένο αριθµό πολυδιάστατων κελιών και υπολογίζει την πυκνότητα στο κάθε κελί, οπότε τα κελιά µε παρόµοιες πυκνότητες κατατάσσονται στην ίδια συστάδα, µε αντιπροσωπευτικό παράδειγµα τον αλγόριθµο CLIQUE (Agrawal et al., 1998). Η ϐασική ιδέα στην προσέγγιση των πλησιέστερων γειτόνων είναι να ϐρεθεί το ελάχιστο πλήθος των γειτονικών σηµείων που υπάρχουν µέσα σε δεδοµένη ακτίνα ώστε να σχηµατιστεί µια συστάδα. ύο αντιπροσωπευτικές µέθοδοι της κατηγορίας αυτής είναι : ο DBSCAN (Ester et al., 1996) και ο OPTICS (Ankerst et al., 1999) και από αυτούς τους δύο µόνο ο δεύτερος µπορεί να εϕαρµόσει ιεραρχική συσταδοποίηση. Στη συνέχεια ϑα παρουσιάσουµε έναν από τους πιο δηµοϕιλείς αλγορίθµους συσταδοποίησης µε υψηλή απόδοση και µε εϕαρµογή σε όλους τους επιστηµονικούς τοµείς. Αυτός ο αλγόριθµος επιλέχθηκε και εϕαρµόσθηκε σε προβλήµατα συσταδοποίησης χρονοσειρών στη διατριβή αυτή και είναι ένα από τα συστατικά µέρη της διαδικασίας επιλογής χαρακτηριστικών που αναπτύξαµε και που ϑα παρουσιαστεί στη συνέχεια. Ο αλγόριθµος k-means Η ϐασική ιδέα του αλγορίθµου αυτού, είναι να ϐρεθεί το κέντρο ϐάρους W k της κάθε συστάδας X k = {x 1k, x 2k,..., x Nk }, που αποτελείται από x i σηµεία µε i {1,..., N} W k = 1 N N x ik (2.8) i=1 για k = 1...K όπου K είναι το πλήθος των συστάδων, N είναι το πλήθος των σηµείων που συνθέτουν την συστάδα X k. Ο αλγόριθµος αυτός ελαχιστοποιεί ένα δείκτη οµοιότητας µεταξύ των σηµείων και των κέντρων ϐάρους. Για τον λόγο αυτό αποδίδονται αρχικά K τυχαία σηµεία ώς κεντρικά σηµεία των συστάδων και µε µια επαναληπτική διαδικασία υπολογίζονται οι αποστάσεις των σηµείων από τα κέντρα αυτά, και όσο πιο κοντά στο κάθε κέντρο είναι ένα σηµείο τόσο πιο σίγουρο είναι να ανήκει στην συστάδα αυτού του κεντρικού σηµείου. Ο ορισµός αυτός υποθέτει ότι κάθε δείγµα µπορεί να είναι ένα διάνυσµα τιµών µε διάσταση M, γεγονός που καθιστά τον αλγόριθµο αυτό προσιτό και ιδανικό για πολυδιάστατα δεδοµένα. Ο αλγόριθµος k-means απαιτεί να υπάρχει κάποιος ορισµός για το κέντρο της συστάδας χωρίς όµως απαραίτητα να είναι ο παραπάνω. Στον παραπάνω ορισµό το κέντρο της συστάδας αντιστοιχεί στο κέντρο ϐάρους. Ο αλγόριθµος υποθέτει ότι το επιθυµητό πλήθος συστάδων, K, δίνεται ως είσοδος στον αλγόριθµο. Ο k-means είναι ένας από τους πιο απλούς και εύκολους στην εκµάθηση αλγόριθµους για την επίλυση προβληµάτων συσταδοποίησης. ε ϐρίσκει όµως απαραίτητα πάντα τη ϐέλτιστη κατάταξη των δεδοµένων στις συστάδες, και είναι σηµαντικά ευαίσθητος στα αρχικά τυχαία επιλεγµένα κέντρα των συστάδων. Για το λόγο αυτό γίνονται πολλές επαναλήψεις στην αρχική απόδοση των τυχαίων κέντρων ώστε στο τέλος να υπάρχει σύγκλιση σε κοινό αποτέλεσµα. Τα ϐήµατα που ακολουθεί ο αλγόριθµος αυτό περιγράϕονται παρακάτω και φαίνονται και στο Σχήµα : 2.3. Βήµα 1ο : Εισαγωγή του επιθυµητού αριθµού συστάδων. Βήµα 2ο : Τυχαία επιλογή των κέντρων (Centroid) της κάθε συστάδας (τα τετράγωνα στο πρώτο γράϕηµα του Σχήµατος 2.3) Βήµα 3ο : Γίνεται υπολογισµός της απόστασης του κάθε σηµείου από τα κέντρα της κάθε συστάδας. Το κάθε σηµείο ανήκει στη συστάδα από το κέντρο της οποίας έχει την µικρότερη απόσταση. Στη συνέχεια γίνεται υπολογισµός των κέντρων των συστάδων µε ϐάση τα ανανεωµένα δεδοµένα. Εάν 20
39 ένα σηµείο δεν ανήκει στο κοντινότερο προς αυτό κέντρο τότε γίνεται αλλαγή της συστάδας και ξαναγίνεται υπολογισµός των νέων κέντρων. Βήµα 4ο : Γίνεται επανάληψη του 3ου ϐήµατος έως ότου δεν υπάρξει άλλη αλλαγή των σηµείων στις συστάδες που ανήκουν ή µέχρι µέχρι να ολοκληρωθεί κάποιος αριθµός επαναλήψεων και να επιτευχθεί σύγκλιση του αποτελέσµατος. Σχήµα 2.3: Η διαδικασία ανάθεσης τυχαίων κέντρων στις συστάδες και η επαναληπτική κατάληξη του αλγορίθµου k-means στις σωστές συστάδες. Τα τετράγωνα αντιστοιχούν στα κέντρα της κάθε συστάδας και οι κύκλοι µε διαϕορετικά χρώµατα αποτελούν τα σηµεία της κάθε συστάδας των δειγµάτων του δισδιάστατου χώρου x, y. Στο πάνω αριστερά γράϕηµα αποδίδονται αρχικά τρία τυχαία σηµεία ως κέντρα των συστάδων. Στην επανάληψη 1 υπολογίζονται πρώτη φορά οι αποστάσεις των σηµείων από το κέντρα και σε όποιο κέντρο είναι πιο κοντά συµπεριλαµβάνονται στην συστάδα του. Στην επανάληψη 2 έχουν επαναπροσδιορισθεί να κέντρα ϐάρους των συστάδων λαµβάνοντας υπόψιν τα προηγούµενα σηµεία και υπολογίζονται πάλι οι αποστάσεις των σηµείων από τα νέα πλέον κέντρα των συστάδων. Η διαδικασία αυτή επαναλαµβάνεται µέχρι την επανάληψη 5 του κάτω δεξιά γραϕήµατος όπου δεν παρατηρείται πια αλλαγή της ϑέσης των κέντρων ϐάρους των συστάδων. Ακρίβεια κατηγοριοποίησης και CRI Στην ϐιβλιογραϕία υπάρχουν πολλά µέτρα ή δείκτες για την σύγκριση των συστάδων ή των κλάσεων που ανήκουν τα δεδοµένα που µελετώνται, τα οποία µετρούν είτε την συσχέτιση ή την οµοιότητα η ανο- µοιότητα του διαχωρισµού που γίνεται στα δεδοµένα (Hubert and Arabie, 1985; Meilă, 2003). Για να 21
40 αξιολογήσουµε την ποιότητα της κατηγοριοποίησης ή αντίστοιχα της συσταδοποίησης που πετυχαίνει ο κάθε κατηγοριοποιητής ϑα πρέπει να χρησιµοποιήσουµε τους κατάλληλους δείκτες. Μια παραδοσιακή τεχνική εξέτασης της ποιότητας κατηγοριοποίησης είναι η δηµιουργία του πίνακα σύγχυσης (confusion matrix) (Dunham, 2002) η οποία είναι πολύ πληροϕοριακή για όλα τα είδη αλγορίθµων κατηγοριοποίησης. Η αξιολόγηση της κατηγοριοποίησης ϐασίζεται στον αριθµό των δειγµάτων του συνόλου ελέγχου που προβλέπονται σωστά ή όχι από τον κατηγοριοποιητή. Αυτός ο αριθµός τοποθετείται σε έναν πίνακα σύγχυσης. Οι στήλες του πίνακα σύγχυσης αντιστοιχούν στις προβλεπόµενες κλάσεις εξόδου, ενώ οι γραµµές στις πραγµατικές κλάσεις. Σε ένα πρόβληµα δύο κλάσεων (-1,1) ο πίνακας αυτός διαµορϕώνε- Πίνακας 2.1: Παράδειγµα του πίνακα σύγχυσης. Προβλεπόµενη κλάση Κλάση +1 Κλάση -1 Πραγµατική Κλάση +1 TP FN κλάση Κλάση -1 FP TN ται όπως ο Πίνακας 2.1. Κάθε κελί στον πίνακα δείχνει το πλήθος των δειγµάτων από την προβλεπόµενη κλάση i που ανήκουν ή όχι στην πραγµατική κλάση j. Συµβολίζουµε ως TP (true positive) το πλήθος των αληθώς ϑετικών δειγµάτων, FN (false negative) το πλήθος των αληθώς αρνητικών δειγµάτων, FP (false positive) το πλήθος των ψευδώς αρνητικών δειγµάτων και TN (true negative) το πλήθος των ψευδώς ϑετικών δειγµάτων. Στο κελί TP απαριθµείται το πλήθος των δειγµάτων από την κλάση +1 που σωστά µε την πρόβλεψη τοποθετήθηκαν στην κλάση +1. Στο κελί FP απαριθµείται το πλήθος των δειγµάτων από την κλάση +1 που εσϕαλµένα µε την πρόβλεψη τοποθετήθηκαν στην κλάση -1. Στο κελί FN απαριθµείται το πλήθος των δειγµάτων από την κλάση -1 που εσϕαλµένα µε την πρόβλεψη τοποθετήθηκαν στην κλάση +1. Στο κελί TN απαριθµείται το πλήθος των δειγµάτων από την κλάση -1 που σωστά µε την πρόβλεψη τοποθετήθηκαν στην κλάση -1. Ακρίβεια και ϱυθµός σϕάλµατος κατηγοριοποίησης (accuracy, error rate). Οι δύο πιο γνωστοί δείκτες, που χρησιµοποιούνται κυρίως στην ϐιβλιογραϕία, για την αξιολόγηση της ποιότητας της κατηγοριοποίησης οι οποίοι αϕορούν την συνολική απόδοση του κατηγοριοποιητή, ανεξαρτήτου πλήθους κλάσεων, είναι η ακρίβεια ή ορθότητα (accuracy, AC ή success rate) ή αλλιώς πιστότητα, και το ποσοστό σϕάλµατος (error rate, ER). Η ορθότητα είναι το πλήθος των ορθών προβλέψεων δια το σύνολο των δειγµάτων ελέγχου, και ορίζεται ως εξής : AC = T P + T N T P + T N + F P + F N (2.9) Ισοδύναµα, η συνολική απόδοση του κατηγοριοποιητή µπορεί να εκϕραστεί και µε το ποσοστό σϕάλ- µατος, που είναι το πλήθος εσϕαλµένων προβλέψεων δια το σύνολο εγγραϕών, και ορίζεται ως εξής : ER = F P + F N T P + T N + F P + F N (2.10) Ισχύει επίσης και η παρακάτω έκϕραση ER = 1 AC. Ενα µειονέκτηµα των δεικτών αυτών παρουσιά- Ϲεται σε ένα πρόβληµα µε 2 κλάσεις όπου το πλήθος δειγµάτων της κλάσης +1 είναι ίσο µε 9990, και 22
41 το πλήθος δειγµάτων της κλάσης της κλάσης -1 είναι ίσο µε 10. Αν ένας κατηγοριοποιητής προβλέπει οτιδήποτε ως κλάση +1, τότε AC = 9990/10000 = 99.9%. Η ακρίβεια και κατ επέκταση και το ποσοστό σϕάλµατος που ϑα υπολογισθεί σε αυτή την περίπτωση είναι παραπλανητικά γιατί δεν έχει προβλεϕθεί κανένα δείγµα της κλάσης -1. Corrected Rand Index (CRI). Ενας αποδοτικός δείκτης οµοιότητας των συστάδων, που χρησιµοποιήσαµε στην διατριβή αυτή είναι ο διορθωµένος ή αλλιώς προσαρµοσµένος δείκτη Rand (corrected ή adjusted Rand index (CRI)). Ο δείκτης αυτός αποτελεί ένα από τα καθιερωµένα µέτρα σύγκρισης συστάδων ή κλάσεων γενικότερα (Hubert and Arabie, 1985; Everitt et al., 2001; de Carvalho et al., 2006). Εστω δύο οµάδες που περιέχουν συνολικά N δείγµατα δεδοµένων δηλαδή διανύσµατα χαρακτηριστικών που εκτιµήθηκαν σε N χρονοσειρές. Η πρώτη οµάδα περιέχει R συστάδες και η άλλη οµάδα έχει C συστάδες. Ο δείκτης CRI τότε υπολογίζεται ώς εξής : CRI = [ 1 R 2 i=1 R C i=1 j=1 ( ki. ) 2 + C j=1 ( kij ) ( 2 N ) 1 R 2 i=1 ( ki. ) C 2 j=1 ( k.j ) ] 2 ( ) N 1 R 2 i=1 ( ki. 2 ( k.j 2 ) ) C j=1 ( k.j ), (2.11) 2 όπου k ij είναι το πλήθος των δειγµάτων στην i-στή συστάδα της πρώτης οµάδας και στην j-στή συστάδα της δεύτερης οµάδας, η τιµή k i. είναι το πλήθος των δειγµάτων της i-στής συστάδας της πρώτης οµάδας, και k.j είναι το πλήθος των δειγµάτων της j-στής συστάδας της δεύτερης οµάδας. Οι τιµές του CRI κυµαίνονται µεταξύ -1 και +1, όπου το +1 αντιστοιχεί στην πλήρη ταύτιση των δύο οµάδων που συγκρίνονται. Οι τιµές κοντά στο µηδέν δηλώνουν τυχαία τοποθέτηση των δειγµάτων και οι αρνητικές τιµές δηλώνουν ανοµοιότητα. Κατά τους υπολογισµούς που κάνουµε υποθέτουµε ότι η πρώτη οµάδα (R) αντιστοιχεί στις κλάσεις που ανατίθενται στα δείγµατα µετά από την συσταδοποίηση ή την κατηγοριοποίηση και η δεύτερη οµάδα (C) αντιστοιχεί στις γνωστές κλάσεις των δεδοµένων. Συγκρίνοντας τους δείκτες CRI και ER (και κατ επέκταση του AC) ϐλέπουµε ότι ο CRI έχει καθορισµένα όρια από 1 στο 0 που αϕορούν αντίστοιχα την πλήρη ταύτιση ή την τυχαιότητα της κατηγοριοποίησης. Στην περίπτωση του δείκτη ER το άνω όριο που αϕορά την τυχαία κατηγοριοποίηση είναι 1/k, όπου k είναι το πλήθος των κλάσεων. Ετσι αν χρησιµοποιούσαµε τον δείκτη ER για συνάρτηση αξιολόγησης ϑα έπρεπε να προσαρµόζουµε το κατώϕλι ϐελτίωσης της απόδοσης για κάθε k. Κάτι επίσης σηµαντικό είναι η διαϕορά και στην κλιµάκωση των τιµών. Για παράδειγµα για ικανοποιητικές κατηγοριοποιήσεις οι τιµές του CRI κυµαίνονται σε µεγαλύτερο εύρος, δηλαδή στην περίπτωση αξιολόγησης 2 κλάσεων ( k = 2) οι τιµές του CRI ϐρίσκονται στην περιοχή [0.5-1], ενώ του δείκτη ER στο [0-0.1]. Επικύρωση κατηγοριοποίησης και συσταδοποίησης (Cluster validation) Τα ϐασικά κριτήρια για την αξιολόγηση µιας τεχνικής συσταδοποίησης είναι η παραγωγή συµπαγών και διακριτά διαχωρισµένων συστάδων (Berry and Linoff, 1997). Το να είναι συµπαγής µια συστάδα σηµαίνει ότι τα σηµεία που την αποτελούν ϑα πρέπει να είναι όσο το δυνατόν πιο κοντά το ένα στο άλλο. Ο διαχωρισµός αναϕέρεται στην σαϕή απόσταση που ϑα πρέπει να έχουν µεταξύ τους οι συστάδες. ύο από τις πιο γνωστές και δηµοϕιλείς τεχνικές που χρησιµοποιούν τα παραπάνω κριτήρια για την αποτίµηση της συσταδοποίησης είναι η µέθοδος Dunn και η µέθοδος Davies-Bouldin. Οι δύο αυτές µέθοδοι, που έχουν αποδειχθεί στιβαρές και χρησιµοποιήθηκαν για τον σκοπό αυτό στην διατριβή αυτή, παράγουν δείκτες που υποδεικνύουν και προβλέπουν τον ϐέλτιστο αριθµό συστάδων που απαιτούν οι διαµεριστικοί αλγόριθµοι συσταδοποίησης (Brun et al., 2007). Οι δείκτες αυτοί προσπαθούν να ανακαλύψουν οµάδες συστάδων που είναι συµπαγείς και καλά διαχωρισµένες µεταξύ τους. 23
42 Dunn: Ο δείκτης αποτίµησης συστάδων του Dunn ορίζεται ως εξής : [ D(U c ) = min 1 i,j c,i j δ(x i, X j ) max 1 k c { (X k )} ] (2.12) όπου κάθε X i αναπαριστά την i στή συστάδα για κάθε διαµέριση του X, U c = {X 1... X c }. Η παράµετρος δ(x i, X j ) ορίζει την απόσταση µεταξύ των συστάδων X i και X j (inter cluster distance), ενώ η παράµερος (X k ) αναπαριστά την απόσταση µεταξύ των δύο πιο αποµακρυσµένων σηµείων της συστάδας X k ή αλλιώς τη διάµετρο της συστάδας (intra cluster distance). Για διαϕορετικούς διαχω- ϱισµούς των δεδοµένων U c, η τιµή D(U c ) του δείκτη αυτού αυξάνει στις περιπτώσεις που η απόσταση µεταξύ των συστάδων είναι µεγάλη και η διάµετρος µικρή. Συνεπώς ο αριθµός των συστάδων όπου ο δείκτης Dunn παρουσιάζει την µέγιστη τιµή, µπορεί να ϑεωρηθεί ως ο ϐέλτιστος αριθµός συστάδων του συνόλου δεδοµένων που µελετάται. Davies-Bouldin, (DB): Ο δείκτης επικύρωσης συστάδων των Davies-Bouldin, (DB), ορίζεται ως εξής : DB(U c ) = 1 c [ ] (Xi ) + (X j ) max (2.13) c i j δ(x i=1 i, X j ) όπου (X i ) και δ(x i, X j ) ορίζονται όπως και προηγουµένως. Στην περίπτωση αυτή όµως, όσο µικρότερη είναι η τιµή του δείκτη αυτού, τόσο καλύτερα ορίζονται οι συστάδες του συνόλου δεδοµένων, δηλ. είναι συµπαγείς και τα κέντρα τους σε µεγάλη απόσταση µεταξύ τους. Ετσι η διαµόρϕωση των συστάδων που ελαχιστοποιεί την τιµή DB, λαµβάνεται ως ο ϐέλτιστος αριθµός συστάδων c. 2.3 Επιλογή υποσυνόλου χαρακτηριστικών (subset feature selection) Η µείωση της διανυσµατικής διάστασης και η κατασκευή ενός αποτελεσµατικότερου υποχώρου, αποτελεί ένα από τα ϐασικότερα ϐήµατα της διαδικασίας που ακολουθείται στα προβλήµατα εξόρυξης δεδοµένων και ειδικότερα σε εϕαρµογές κατηγοριοποίησης και συσταδοποίησης των δεδοµένων Τα πλεονεκτήµατα στην επίλυση προβληµάτων κατηγοριοποίησης και συσταδοποίησης που ϐασίζονται σε δείγµατα που περιγράϕονται από διανύσµατα χαρακτηριστικών, είναι φανερά, στις περιπτώσεις που χρησιµοποιούνται υποσύνολα από τα χαρακτηριστικά, των οποίων τα χαρακτηριστικά είναι τα πιο σχετικά µε τη µεταβλητή κλάσης, και τα λιγότερο πλεονάζοντα µεταξύ τους (Kohavi and John, 1997; Duda et al., 2001; Liu and Motoda, 2008). Η επιτυχής επιλογή ενός ϐέλτιστου υποσυνόλου χαρακτηριστικών, µειώνει την διάσταση των χαρακτηριστικών, µειώνει τον υπολογιστικό χρόνο και το χώρο αποθήκευσης των δεδοµένων και δίνει µια καλύτερη κατανόηση της υποκείµενης διαδικασίας, επίσης ϐελτιώνει και την ακρίβειας της συσταδοποίησης και της κατηγοριοποίησης (Guyon and Elisseeff, 2003). Για τη µείωση λοιπόν της διάστασης των χαρακτηριστικών (dimensionality reduction) χρησιµοποιούνται δύο ϐασικοί τρόποι επίτευξης του σκοπού αυτού : 1. Η εξαγωγή χαρακτηριστικών (feature extraction-(fe)) (Mierswa and Morik, 2005; Chen and Jin, 2007) και 2. η επιλογή υποσύνολου χαρακτηριστικών (subset feature selection -(sfs)) (Liu and Motoda, 2008). Οι διαϕορές µεταξύ της εξαγωγής χαρακτηριστικών και της επιλογής υποσύνολου χαρακτηριστικών είναι οι εξής : - Το επιλεγµένο υποσύνολο χαρακτηριστικών από την sfs, διατηρεί πληροϕορίες για τα αρχικά χαρακτηριστικά επειδή σε αυτά δεν έγινε κανένας µετασχηµατισµός, ενώ οι πληροϕορίες αυτές συνήθως χάνονται κατά την χρήση της µεθόδου εξαγωγής χαρακτηριστικών επειδή χρησιµοποιούνται τα νέα χαρακτηριστικά που παράγονται από τις προβολές των αρχικών χαρακτηριστικών. 24
43 - Μετά τον εντοπισµό του υποσυνόλου από τα αρχικά χαρακτηριστικά µε την sfs, υπολογίζονται και χρησιµοποιούνται µόνο αυτά τα χαρακτηριστικά γνωρίσµατα, αγνοώντας όλα τα άλλα υπόλοιπα χαρακτηριστικά. Αντίθετα, η fe απαιτεί να υπολογισθούν και να χρησιµοποιηθούν όλα τα χαρακτηριστικά. Στη συνέχεια σύµϕωνα µε την fe, λαµβάνονται οι προβολές των αρχικών χαρακτηριστικών τα οποία ενδεχοµένως να συσχετίζονται µεταξύ τους, και δηµιουργούνται νέα χαρακτηριστικά τα οποία είναι α- συσχέτιστα µεταξύ τους και λιγότερα από τα αρχικά. Η πιο γνωστή µέθοδος εξαγωγής χαρακτηριστικών είναι η ανάλυση ϐασικών συνιστωσών (principal component analysis, PCA) (Duda et al., 2001). Στην ενότητα αυτή, ϑα εξετάσουµε το πρόβληµα της εύρεσης ενός ϐέλτιστου υποσυνόλου χαρακτηριστικών µέτρων που ϑα περιέχει σε µεγάλο ϐαθµό την πληροϕορία που υπάρχει στο σύνολο των χαρακτηριστικών µιας οµάδας δεδοµένων ή µιας χρονοσειράς. Για την επιλογή υποσυνόλου χαρακτηριστικών χρησιµοποιούνται τεχνικές προεπεξεργασίας δεδοµένων και η διαδικασία αυτή είναι απαραίτητη πριν από την εκτέλεση άλλων διαδικασιών εξόρυξης δεδοµένων, όπως η κατηγοριοποίηση ή η συσταδοποίηση. Ο ϱόλος της sfs είναι να προσδιορίσει ένα υποσύνολο από το αρχικό σύνολο χαρακτηριστικών µέτρων, αϕαιρώντας τα άσχετα ή περιττά χαρακτηριστικά. Στους στόχους της sfs περιλαµβάνονται : η ϐελτίωση της απόδοσης πρόβλεψης ενός κατηγοριοποιητή, η ϐελτίωση της ταχύτητας του κατηγοριοποιητή, και η καλύτερη κατανόηση της υποκείµενης διαδικασίας που παράγει τα δεδοµένα. Υπάρχουν, γενικά, δύο προσεγγίσεις για την επιλογή υποσύνολου χαρακτηριστικών sfs: 1. η προσέγγιση του περιτυλίγµατος (wrapper) 2. και η προσέγγιση του ϕίλτρου (filter). Στην περίπτωση που κατά τη διάρκεια της επιλογής χαρακτηριστικών χρησιµοποιούνται τεχνικές ε- ξόρυξης γνώσης όπως κατηγοριοποίηση ή συσταδοποίηση, τότε η µέθοδος αυτή καλείται προσέγγιση περιτυλίγµατος (wrapper approach), διαϕορετικά καλείται προσέγγιση φίλτρου (filter approach) (Liu and Motoda, 2008). Τις δύο αυτές προσεγγίσεις ϑα τις παρουσιάσουµε καλύτερα παρακάτω και σε επόµενο κεϕάλαιο ϑα περιγράψουµε και δυο νέους αλγορίθµους επιλογής χαρακτηριστικών έναν για κάθε προσέγγιση. Η πρώτη προσέγγιση ϑεωρείται καλύτερη από τη δεύτερη, αλλά απαιτεί πολύ περισσότερο χρόνο επεξεργασίας (Kohavi and John, 1997). Οταν κατά την διάρκεια της επιλογής χαρακτηριστικών είναι γνωστές και οι κατηγορίες των αρχικών δεδοµένων (δηλαδή αν είναι γνωστό εκ των προτέρων σε ποια κατηγορία ή κλάση ανήκει το κάθε δείγµα), τότε µπορούν να χρησιµοποιηθούν τεχνικές sfs υπό επίβλεψη (supervised sfs techniques), διαϕορετικά χωρίς την ύπαρξη αρχικών κατηγοριών, χρησιµοποιούνται τεχνικές sfs χωρίς επίβλεψη (unsupervised sfs techniques) (Jain and Zongker, 1997; Liu and Motoda, 2008). Μια τεχνική sfs χωρίς επίβλεψη υπολογίζει πρώτα τις οµοιότητες µεταξύ των χαρακτηριστικών και στη συνέχεια καταργεί τα πλεονάζοντα χαρακτηριστικά. Επιπλέον χρησιµοποιεί την επιλεγµένη οµάδα χαρακτηριστικών για τις επόµενες διαδικασίες εξόρυξης δεδοµένων. Ως εκ τούτου, σε γενικές γραµµές, οι τεχνικές sfs χωρίς επίβλεψη ενσωµατώνουν τη συσταδοποίηση (clustering) ή διαµερισµό (partitioning) του αρχικού συνόλου χαρακτηριστικών. Ενας από τους ϐασικούς στόχους της διατριβής αυτής, είναι να προτείνει ένα υποσύνολο από το διάνυσµα των αρχικών χαρακτηριστικών των δειγµάτων ώστε να χρησιµοποιηθεί µελλοντικά σε παρόµοια προβλήµατα κατηγοριοποίησης και συσταδοποίησης και να αποϕευχθεί ο άσκοποι υπολογισµοί χαρακτηριστικών που πλεονάζουν ή είναι άσχετα. Η µέθοδος εξαγωγής χαρακτηριστικών δεν υποδεικνύεται για τέτοιου είδους προβλήµατα, επειδή απαιτεί πάντα τον υπολογισµό όλων των χαρακτηριστικών, ώστε να δηµιουργηθούν τα νέα χαρακτηριστικά, µικρότερης διάστασης. 25
44 2.3.1 Στρατηγικές επιλογής υποσυνόλου χαρακτηριστικών. Οι ϐασικότερες στρατηγικές επιλογής υποσυνόλου χαρακτηριστικών που χρησιµοποιούνται για την επιλογή χαρακτηριστικών είναι : η στρατηγική της πλήρους αναζήτησης (complete search) του χώρου των χαρακτηριστικών, η σειριακή αναζήτηση (sequential search) και η τυχαία αναζήτηση (random search) (Jain and Zongker, 1997; Raymer et al., 2000; Saeys and Larranaga, 2003; Liu and Motoda, 2008). Επειδή ϑα ασχοληθούµε µε τη σειριακή αναζήτηση ϑα πρέπει να αναϕέρουµε ότι οι ϐασικότερες από τις τεχνικές αυτής της κατηγορίας, κάνουν χρήση της προς τα εµπρός ή αλλιώς αυξητικής αναζήτησης, της προς τα πίσω και της εµπρός-πίσω (διπλής κατεύθυνσης) αναζήτησης (forward, backward and bidirectional search) (Pudil et al., 1994; Kohavi and John, 1997). Υπάρχουν τεχνικές που συνδυάζουν την τυχαία και σειριακή αναζήτηση όπως για παράδειγµα κάνουν οι Skalak (1994). Ο αλγόριθµος subset forward selection χτίζει αυξητικά το υποσύνολο των επιλεγµένων χαρακτηριστικών. Αρχικά το υποσύνολο επιλεγµένων χαρακτηριστικών είναι κενό. Σε κάθε ϐήµα του αλγόριθµου, εξετάζονται όλα τα υποσύνολα που προκύπτουν από την προσθήκη ενός χαρακτηριστικού στο τρέχον υποσύνολο. Το χαρακτηριστικό που οδηγεί στη µεγαλύτερη αύξηση απόδοσης του κατηγοριοποιητή σύµϕωνα µε το κριτήριο αποτίµησης συµπεριλαµβάνεται στο τρέχον υποσύνολο χαρακτηριστικών. Η διαδικασία αυτή επαναλαµβάνεται µε την προσθήκη ενός χαρακτηριστικού κάθε φορά µέχρι να ικανοποιηθεί κάποια συνθήκη τερµατισµού. Συνήθως η επέκταση σταµατάει όταν κανέναν από τα υποψήϕια χαρακτηριστικά δεν οδηγεί σε ϐελτίωση της απόδοσης. Μια αυστηρή συνθήκη τερµατισµού µπορεί να οδηγήσει τον αλγόριθµο σε πρόωρο σταµάτηµα αντίθετα µια πιο χαλαρή συνθήκη τερµατισµού µπορεί να οδηγήσει στην προσθήκη περιττών χαρακτηριστικών που δεν συνεισϕέρουν σηµαντικά στην απόδοση της κατηγοριοποίησης. Αντίθετα ο αλγόριθµος backward elimination ξεκινά µε το αρχικό υποσύνολο να περιέχει όλα τα χαρακτηριστικά. Σε κάθε επανάληψη γίνεται διαγραϕή ενός χαρακτηριστικού από το τρέχον υποσύνολο και γίνεται επανεκτίµηση της απόδοσης του κατηγοριοποιητή ώσπου τελικά να απαλειϕθεί το χαρακτηριστικό εκείνο που η απουσία του οδηγεί στη µεγαλύτερη απόδοση ως προς το κριτήριο αξιολόγησης Τεχνική περιτυλίγµατος (ή ενσωµάτωσης) (wrapper sfs). Η τεχνική αυτή ϐασίζεται στην προσκόλληση της διαδικασίας επιλογής χαρακτηριστικών στη διαδικασία εκπαίδευσης και γίνεται αποτίµηση του υποσυνόλου χαρακτηριστικών µε ϐάση την τελική απόδοση του αλγορίθµου εκµάθησης. ηλαδή γίνεται σύγκριση των συστάδων που προκύπτουν από την εϕαρµογή ενός κατηγοριοποιητή για κάθε υποψήϕιο υποσύνολο χαρακτηριστικών µε τις γνωστές κλάσεις, και µετράται η ακρίβεια της κατηγοριοποίησης. Για την µέτρηση της ακρίβειας κατηγοριοποίησης συνήθως χρησιµοποιείται ο ϱυθµός σϕάλµατος της κατηγοριοποίησης (ER) ή η ακρίβεια της κατηγοριοποίησης (AC) αλλά µπορούν να χρησιµοποιηθούν και άλλοι τέτοιοι δείκτες. Η λίστα των τεχνικών αυτών αυξάνει καθώς γίνεται συνδυασµός µε κατηγοριοποιητές όπως τις µηχανές διανυσµάτων υποστήριξης (SVM) και νευρωνικά δίκτυα (Guyon et al., 2002; Liu and Zheng, 2006; Lee, 2009), τεχνικές ϐελτιστοποίησης όπως η ϐελτιστοποίηση αποικίας µερµηγκιών (ant colony optimization, ACO) και η τεχνική προσο- µοιωµένης ανόπτησης (simulated annealing) (Yan and Yuan, 2004; Barros and Cavalcanti, 2008; Liao, 2010) Τεχνική φίλτρου επιλογής χαρακτηριστικών (filter sfs). Η προσέγγιση επιλογής χαρακτηριστικών µε φίλτρο (ή διήθηση), ϐασίζεται στην κατάταξη των χα- ϱακτηριστικών, µετά την εϕαρµογή µιας συνάρτησης αξιολόγησης χωρίς την εµπλοκή οποιασδήποτε τεχνικής εξόρυξης δεδοµένων (Liu and Motoda, 2008). Η µέθοδος των φίλτρων πραγµατοποιεί ανεξάρτητη αποτίµηση των υποσυνόλων των χαρακτηριστικών και ϐασίζεται σε διάϕορα στατιστικά µέτρα. Με τον τρόπο αυτό κάθε χαρακτηριστικό αξιολογείται µε ϐάση τη συσχέτισή του µε τις κατηγορίες. Οσο 26
45 µεγαλύτερη συσχέτιση υπάρχει µεταξύ των χαρακτηριστικών και της κλάσης, τόσο πιο χρήσιµο ϑεωρείται το χαρακτηριστικό. Αυτή η προσέγγιση όµως παρουσιάζει κάποια µειονεκτήµατα µε κυριότερο την αποτυχία εντοπισµού συσχετίσεων ανάµεσα στα χαρακτηριστικά αϕού κάθε χαρακτηριστικό αξιολογείται ξεχωριστά από τα υπόλοιπα. Για το σκοπό αυτό έχουν αναπτυχθεί και µέθοδοι οι οποίες αξιολογούν τα χαρακτηριστικά λαµβάνοντας υπόψη και την παρουσία άλλων χαρακτηριστικών στο ίδιο υποσύνολο ιάϕοροι µέθοδοι φίλτρων επιλογής χαρακτηριστικών. Ενα από τα πιο γνωστά φίλτρα επιλογής χαρακτηριστικών είναι το κριτήριο του Fischer το οποίο συνήθως χρησιµοποιείται σε προβλήµατα δύο κλάσεων και υπολογίζει το ϐάρος w i του i-στού χαρακτη- ϱιστικού σύµϕωνα µε την εξίσωση (Dat and Guan, 2007) w i = (µ i1 µ i2 ) 2 σ 2 i1 + σ2 i2 (2.14) όπου µ i1 και µ i2 είναι οι µέσες τιµές του i-στού χαρακτηριστικού για κάθε κλάση και σ i1 και σ i2 είναι οι αντίστοιχες τυπικές αποκλίσεις. Οσο µεγαλύτερη είναι η τιµή του w τόσο υψηλότερη είναι και η συσχέτιση του χαρακτηριστικού αυτού µε τη µεταβλητή κλάσης. Άλλα γνωστά φίλτρα είναι το F-test (Ding and Peng, 2005) το οποίο εϕαρµόζεται σε προβλήµατα µε περισσότερες από δύο κλάσεις και ελέγχει τις γραµµικές συσχετίσεις µεταξύ δύο χαρακτηριστικών, το φίλτρο Relief (Kohavi and John, 1997) το οποίο ελέγχει µόνο την σχετικότητα αλλά όχι τον πλεονασµό των επιλεγµένων χαρακτηριστικών και η αµοιβαία πληροϕορία (Battiti, 1994) η οποία εκτός από τις γραµµικές συσχετίσεις ανιχνεύει και µη-γραµµικές συσχετίσεις µεταξύ δύο χαρακτηριστικών. Στη διατριβή αυτή ασχοληθήκαµε εκτενέστερα µε το φίλτρο της αµοιβαίας πληροϕορίας και για το λόγο αυτό στη συνέχεια ϑα παρουσιάσουµε το µέτρο της αµοιβαίας πληροϕορίας, την δεσµευµένη αµοιβαία πληροϕορία και τρόπους εκτίµησης της καθώς και άλλα φίλτρα που ϐασίζονται σε αυτές Το µέτρο της αµοιβαίας πληροϕορίας (ΜΙ) Η αµοιβαία πληροϕορία (mutual information, MI) ορίζεται για δύο µεταβλητές X και Y, ως η ποσότητα της πληροϕορίας που λαµβάνεται από την πρώτη µεταβλητή όταν είναι γνωστή και δεδοµένη η άλλη µεταβλητή. Η αµοιβαία πληροϕορία ϑεωρείται µέτρο συσχέτισης σύµϕωνα µε το οποίο µετρούνται η γραµµική αλλά και η µη-γραµµική συσχέτιση µεταξύ των µεταβλητών. Χρησιµοποιείται σε κάποιες εργασίες και ως µέτρο οµοιότητας σε προβλήµατα συσταδοποίησης (Kraskov et al., 2005; Sotoca and Pla, 2010) ή ως µέτρο συσχέτισης µεταξύ γειτονικών περιοχών συχνοτήτων (Li et al., 2011). Η αµοιβαία πληροϕορία σχετίζεται επίσης µε την εντροπία της πληροϕορίας που είναι µέτρο της αβεβαιότητας για την τιµή µιας τυχαίας µεταβλητής. Η ΜΙ µε όρους εντροπίας εκτιµάται ως εξής I(X; Y ) = H(X) + H(Y ) H(X, Y ), (2.15) όπου H(X) είναι η εντροπία της µεταβλητής X και εκϕράζεται ώς εξής : H(X) = x p(x) log(p x ). (2.16) Η µαθηµατική έκϕραση της ΜΙ ως συνάρτηση της πυκνότητας πιθανότητας είναι η παρακάτω : I(X; Y ) = x,y p(x, y) log p(x, y) p(x)p(y). (2.17) Αυτός ο ορισµός της ΜΙ αναϕέρεται σε διακριτές µεταβλητές, και η p(x, y) είναι η από κοινού πιθανότητα των X και Y, ενώ οι p(x) και p(y) είναι οι περιθώριες πιθανότητες αντίστοιχα. Οι πιθανότητες αυτές 27
46 εκτιµούνται τυπικά από τις σχετικές συχνότητες των τιµών. Η τιµή της αµοιβαίας πληροϕορίας είναι µηδέν όταν οι µεταβλητές Χ και Υ είναι ανεξάρτητες και µεγαλύτερη του µηδενός σε κάθε άλλη περίπτωση. Οσο µεγαλύτερη είναι η τιµή της ΜΙ τόσο αυξάνεται η εξάρτηση µεταξύ των δύο µεταβλητών. Άρα όσο µεγαλύτερη είναι η ΜΙ µεταξύ ενός χαρακτηριστικού και της µεταβλητής κλάσης τόσο χρησιµότερο είναι το χαρακτηριστικό αυτό. Στην περίπτωση που οι µεταβλητές περιέχουν συνεχείς τιµές τότε η εκτίµηση της ΜΙ είναι πιο δύσκολη και χρησιµοποιούνται για τον λόγο αυτό διάϕοροι εκτιµητές. Εκτίµηση της αµοιβαίας πληροϕορίας Υπάρχει ένας πλήθος εκτιµήσεων της αµοιβαίας πληροϕόρησης, όπως για παράδειγµα εκτίµηση µε ϐάση τα ιστογράµµατα, µε πυρήνες, µε πλησιέστερους γείτονες αλλά και άλλες τεχνικές. Σε κάθε µέθοδο εκτίµησης της αµοιβαίας πληροϕορίας υπάρχουν πλεονεκτή- µατα αλλά και µειονεκτήµατα. Για την εύρεση της αµοιβαίας πληροϕορίας χρησιµοποιείται συνήθως η εκτίµηση της µε ϐάση την διαµέριση ή αλλιώς διακριτικοποίηση των τιµών (binning) σε ίσες αποστάσεις (equidistant binning) την ισοπίθανη διαµέριση των τιµών (equiprobable binning), καθώς και την προσαρµοσµένη διαµέριση (adaptive partitioning) (Darbellay, 1999; Cellucci et al., 2005; Papana and Kugiumtzis, 2008)). Αυτές οι µέθοδοι εκτίµησης της ΜΙ ονοµάζονται παραµετρικές διότι χρησιµοποιούν την τιµή µιας παραµέτρου που είναι το εύρος της διαµέρισης των τιµών. Ο καθορισµός της ελεύθερης αυτής παραµέτρου κατά την εκτίµηση της ΜΙ µε παραµετρικές µεθόδους συχνά παραβλέπεται κατά την εϕαρµογή των κριτηρίων επιλογής χαρακτηριστικών που χρησιµοποιούν την ΜΙ. Υπάρχουν επίσης και άλλες µη-παραµετρικές µέθοδοι για την εκτίµηση των κατανοµών µε πιο γνωστές τη µέθοδο των πυρήνων (kernel density) και των κοντινότερων γειτόνων (nearest neighbors). Εχει ϐρεθεί ότι αυτές οι µέθοδοι είναι λιγότερο ευαίσθητες σε ελεύθερες παραµέτρους (όπως το πλήθος των διαµερίσεων, το εύρος τιµών ή το πλήθος των γειτόνων) και δίνουν γενικότερα καλύτερη εκτίµηση της ΜΙ συγκριτικά µε τις µεθόδους διακριτικοποίησης (Silverman, 1986; Papana and Kugiumtzis, 2009). Υπάρχουν επίσης και άλλες παραµετρικές µέθοδοι για την εκτίµηση της πυκνότητας πιθανότητας οι οποίες αποτελούν καλές εναλλακτικές λύσεις σε πολλές περιπτώσεις και περιγράϕονται συγκεντρωτικά στο άρθρο του Walters-Williams and Li (2009). Ολες οι εκτιµήσεις της ΜΙ εµπεριέχουν και κάποια µεροληψία η οποία αλλάζει ανάλογα µε την συγκεκριµένη παράµετρο της µεθόδου εκτίµησης της ΜΙ. Για παράδειγµα σύµϕωνα µε την εκτίµηση της ισαπέχουσας διακριτικοποίησης των τιµών, δηλαδή την διαµέριση των τιµών της µεταβλητής X και X σε διαστήµατα ίσης απόστασης, η µεροληψία αυξάνει ανάλογα µε το πλήθος των διαµερίσεων b. Ετσι εάν οι X και Y είναι ανεξάρτητες µεταβλητές, η καλύτερη εκτίµηση της ΜΙ που πλησιάζει στο µηδέν ϑα επιτευχθεί για b = 2. Από την άλλη πλευρά και ανάλογα µε τη µορϕή συσχέτισης των X και Y, ϑα απαιτηθεί µεγαλύτερη τιµή του b ώστε να επιτευχθεί η εκτίµηση της ΜΙ και στη συνέχεια αυτή η τιµή του b ϑα επιτρέψει την καλύτερη κατάταξη πολλών Ϲευγαριών µε µεταβλητές που έχουν συσχετίσεις µεταξύ τους, ανάλογα µε τις εκτιµώµενες τιµές της ΜΙ (Papana and Kugiumtzis, 2009). Εχει ϐρεθεί ότι άλλες εκτιµήσεις της ΜΙ όπως για παράδειγµα η χρήση πυρήνων ή κοντινότερων γειτόνων, είναι λιγότερο ευαίσθητες σε πολυδιάστατα δεδοµένα και κατά συνέπεια στις ελεύθερες παραµέτρους εκτίµησης της ΜΙ όπως είναι το εύρος διαµέρισης h και ο αριθµός των γειτόνων K, αντίστοιχα (Kwak and Choi, 2002a; Papana and Kugiumtzis, 2009; Walters-Williams and Li, 2009). Στη συνέχεια ϑα περιγράψουµε δύο τρόπους εκτίµησης της ΜΙ, µε διαµέριση και µε παράθυρα Parzen και την εκτίµηση µε κοντινότερους γείτονες ϑα την περιγράψουµε αναλυτικότερα στο Κεϕάλαιο 5 όπου ϑα την συνδυάσουµε µε ένα φίλτρο ΜΙ που αναπτύξαµε Εκτίµηση της ΜΙ µε διαµέριση (binning) Η πιο διαδεδοµένη προσέγγιση για την εκτίµηση της ΜΙ, µε µεγάλη ακρίβεια, είναι µε τη διαµέριση των τιµών των X και Y σε τµήµατα (bins) πεπερασµένου εύρους. Ο εκτιµητής I binned (X; Y ) µετρά το πλήθος των σηµείων που υπάρχουν στις διάϕορες διαµερίσεις. Εάν n x (i) και n y (j) είναι το πλήθος 28
47 των σηµείων που υπάρχουν στην i-στη διαµέριση του X και στην j-στη διαµέριση του Y αντίστοιχα, και n(i, j) είναι το πλήθος των σηµείων της τοµής τους, τότε µπορεί να προσεγγισθεί η πιθανότητα p(x) n x (i)/n, p(y) n y (j)/n, και p(x, y) n(i, j)/n. Οπότε όταν το N και το εύρος της κάθε διαµέρισης τείνει στο µηδέν, τότε I binned (X; Y ) συγκλίνει στην ιδανική τιµή της I(X; Y ). Το πρόβληµα σε αυτόν τον εκτιµητή καταρχήν ξεκινά να εµϕανίζεται όταν το πλήθος των διαστάσεων των X και Y αυξάνει και ϑα πρέπει, για τον υπολογισµό, να ληϕθούν όλοι οι συνδυασµοί µεταξύ όλων των διαµερίσεων όλων των διαστάσεων, το οποίο υπολογιστικά είναι χρονοβόρο και σε µεγάλες διαστάσεις ανέϕικτο. Ενα άλλο πρόβληµα που εµϕανίζεται, είναι το πλήθος των διαµερίσεων που πρέπει να γίνει. Σε αυτό το πρόβληµα µια καλή λύση δόθηκε από τον Silverman (1986)) που προτείνει τη διαµέριση να είναι ίση µε N/5 όπου N είναι το πλήθος των δειγµάτων. Ενα πρόβληµα επίσης που µπορεί να παρουσιαστεί σε αυτόν τον εκτιµητή ξεκινά από το τρόπο δηµιουργίας των διαµερίσεων, αν δηλαδή οι διαµερίσεις ϑα είναι ισαπέχουσες ή αλλιώς ισοµήκεις (equidistant) ή ισοπίθανες (equiprobable). Με τον όρο ισαπέχουσες (ισοµήκεις) εννοούµε να διαµερίσουµε τις τιµές της κάθε διάστασης σε Ϲώνες ίσου µήκους. Με τον όρο ισοπίθανες εννοούµε να διαµερίσουµε τις τιµές της κάθε διάστασης σε Ϲώνες που ϑα περιλαµβάνουν τον ίδιο αριθµό σηµείων. Ανάλογα µε την κατανοµή που έχουν τα δεδοµένα επιλέγεται ο ένας ή ο άλλος τρόπος Εκτίµηση της ΜΙ µε Parzen Windows Η εκτίµηση της ΜΙ σε ϐάσεις δεδοµένων µε συνεχείς τιµές είναι µια περίπλοκη διαδικασία µε υψηλό υπολογιστικό κόστος. Αυτό ισχύει αϕ ενός επειδή πρέπει να υπολογιστούν οι πυκνότητες πιθανότητας σε χώρους υψηλής διάστασης και αϕ εταίρου επειδή στις περισσότερες περιπτώσεις πραγµατικών δεδοµένων, το πλήθος των δειγµάτων είναι µικρό και συχνά ανεπαρκές. Οταν λοιπόν η διάσταση των µεταβλητών είναι µεγάλη ή το πλήθος των δειγµάτων είναι µικρό τότε η εκτίµηση της από κοινού πι- ϑανότητας δεν είναι αξιόπιστη. Η προσέγγιση της διακριτικοποίησης των δεδοµένων (binning) συνήθως οδηγεί σε απώλεια χρήσιµης πληροϕορίας. Μια άλλη εναλλακτική κατηγορία µεθόδων εκτίµησης είναι µε τη χρήση συναρτήσεων πυρήνων και ειδικότερα των Parzen Windows (Parzen, 1962). Σύµϕωνα µε την µέθοδο αυτή εάν έχουµε N τιµές µιας συνεχούς µεταβλητής X, τότε η προσέγγιση εκτίµησης της πυκνότητας πιθανότητας p(x) έχει την παρακάτω µορϕή : p(x) = 1 N N δ(x x (i), h) (2.18) i=1 όπου δ(.) είναι η συνάρτηση που περιγράϕει το παράθυρο Parzen και x (i) είναι το i-στό δείγµα και h είναι το πλάτος του παραθύρου. Ο Parzen έχει αποδείξει ότι µε την κατάλληλη επιλογή της παραµέτρου δ(.) και h, η εκτίµηση της p(x) µπορεί να συγκλίνει στην πραγµατική πυκνότητα πιθανότητας p(x) όταν το N τείνει στο άπειρο. δ(z, h) = exp( zt σ 1 z 2h 2 )/{(2π) d/2 h d σ 1/2 } (2.19) όπου z = x x (i), η διάσταση του δείγµατος x είναι ίση µε d και σ είναι ο πίνακας συνδιασποράς του z. Οταν d = 1 (Kwak and Choi, 2002b) τότε επιστρέϕεται η εκτίµηση της περιθώριας πυκνότητας πιθανότητας, όταν το d = 2 τότε έχουµε την εκτίµηση της από κοινού πυκνότητας πιθανότητας, µεταξύ x και y. Αυτή η εκτίµηση της ΜΙ ανήκει στην κατηγορία των εκτιµητών µε πυρήνα και η Εξ αποτελεί αυτόν τον πυρήνα εσµευµένη αµοιβαία πληροϕορία (Conditional Mutual Information,CMI) Η αµοιβαία πληροϕορία µεταξύ δύο µεταβλητών X και Y δεδοµένης της πληροϕορίας µιας άλλης µεταβλητής Z είναι η δεσµευµένη ή υπό συνθήκη αµοιβαία πληροϕορία (conditional mutual informa- 29
48 tion (CMI)) η οποία ορίζεται και µε όρους εντροπίας ως εξής : I(X; Y Z) = I(X; (Y, Z)) I(X; Z) = = H(X, Z) + H(Y, Z) H(Z) H(X, Y, Z). (2.20) Εκτίµηση της CMI Είναι φανερό ότι η εκτίµηση της CMI είναι πιο περίπλοκη από αυτή της ΜΙ µιας και εµπλέκει τρεις µεταβλητές. Η εκτίµηση της CMI έχει ως πλεονέκτηµα έναντι της ΜΙ τη µείωσης της µεροληψίας, επειδή η µεροληψία της CMI είναι ουσιαστικά η διαϕορά της µεροληψίας των δύο όρων της ΜΙ. Οταν οι µεταβλητές X, Y και Z είναι διανυσµατικές µεταβλητές, τότε η εκτίµηση µε τη µέθοδο της διαµέρισης (binning) αποτυγχάνει, εκτός εάν το µέγεθος των δειγµάτων N είναι πολύ µεγάλο. Για τον λόγο αυτό στην εκτίµηση της CMI πρέπει να αναζητηθούν άλλες προσεγγίσεις, µε πιο γνωστές την εκτίµηση µε παράθυρα Parzen και την εκτίµηση µε τους κοντινότερους γείτονες (Kraskov et al., 2004) Φίλτρα επιλογής χαρακτηριστικών που ϐασίζονται σε ΜΙ και CMI Στη διατριβή αυτή ασχοληθήκαµε µε φίλτρα επιλογής χαρακτηριστικών τα οποία έχουν υπολογιστεί σε χρονοσειρές και κάθε τιµή της µεταβλητής X είναι ένα διάνυσµα µε τις τιµές των M χαρακτηριστικών {f 1,..., f M } (ή κάποιο υποσύνολό τους) που υπολογίσθηκαν σε κάθε χρονοσειρά. Τα φίλτρα αυτά χρησιµοποιούν την αµοιβαία πληροϕορία για να αποτιµήσουν τη σχετικότητα του κάθε υποψήϕιου προς επιλογή χαρακτηριστικού f i µε την µεταβλητή κλάσης C και το πλεονασµό του f i µε τα χαρακτηριστικά f j τα οποία έχουν ήδη επιλεγεί και ανήκουν στο υποσύνολο S. Τα φίλτρα αυτά ξεκινούν µε την απλή προσέγγιση της απλής κατάταξης των χαρακτηριστικών, ανάλογα µε την σχετικότητα που εµϕανίζουν ως προς την κλάση C που χωρίζονται τα δείγµατα (Zaffalon and Hutter, 2002). Υπάρχουν επίσης πολλές παραλλαγές των φίλτρων ΜΙ που χρησιµοποιούν τη δεσµευµένη αµοιβαία πληροϕορία για την επιλογή των χαρακτηριστικών. Ανάλογα µε τον τρόπο υπολογισµού της ΜΙ και την επιλογή του εκτιµητή, εξαρτώνται και τα αποτελέσµατα των χαρακτηριστικών που ϑα επιλεγούν τελικά. Ο Battiti (1994) υιοθέτησε ένα έξυπνο κριτήριο και έκανε µια προσέγγιση της ιδανικής λύσης. Αντί του υπολογισµού της από κοινού ΜΙ µεταξύ των επιλεγµένων χαρακτηριστικών και της κλάσης, υπολογίζονται µόνο η I(C, f i ) και η I(f i, f j ) όπου f i και f j είναι διαϕορετικά χαρακτηριστικά. Η µέθοδος του (mutual information feature selector-mifs) επιλέγει σύµϕωνα µε την Εξίσωση 2.21 το χαρακτηριστικό που µεγιστοποιεί την πληροϕορία σχετικά µε την κλάση, και εισάγει έναν διορθωτικό όρο που αϕαιρεί µία ποσότητα που είναι ανάλογη µε το µέσο όρο της ΜΙ µεταξύ του υποψήϕιου χαρακτηριστικού και των ήδη επιλεγµένων χαρακτηριστικών. I MIF S = I(C, f i ) β j S I(f i, f j ) (2.21) όπου β µια ελεύθερη παράµετρος. Οι (Kwak and Choi, 2002b) µελέτησαν τους περιορισµούς του MIFS και πρότειναν µια µέθοδο πλήρους αναζήτησης (greedy selection), που την ονόµασαν MIFS-U, η οποία σε γενικές γραµµές εκτιµά καλύτερα την ΜΙ µεταξύ των χαρακτηριστικών και των κλάσεων σύµϕωνα µε την Εξίσωση I MIF SU = I(C, f i ) β I(C, f j ) H(f j ) I(f i, f j ) (2.22) j S την τιµή β = 1 να είναι η ϐέλτιστη Φίλτρο Minimum Redundancy - Maximum Relevancy (MRMR) Ανάµεσα στις διάϕορες προσεγγίσεις που υπάρχουν, ϑα συζητήσουµε συνοπτικά και ϑα χρησιµοποιήσουµε το κριτήριο του ελάχιστου πλεονασµού - µέγιστης συσχέτισης (minimum redundancy maximum 30
49 relevance (mrmr)) (Peng et al., 2005). Θεωρητικά η µέθοδος mrmr προσπαθεί να ϐρει το ϐέλτιστο υποσύνολο S το οποίο ικανοποιεί το κριτήριο που µεγιστοποιεί τη σχετικότητα max R(S, C), όπου R(S, C) = 1 S f i S I(f i; C), και ελαχιστοποιεί τον πλεονασµό min Q(S), όπου Q(S) = 1 S 2 f i,f j S I(f i, f j ). Τα δύο αυτά κριτήρια συνδυάζονται σε ένα κριτήριο που δίνεται από τον λόγο R/Q ή την διαϕορά R Q (Ding and Peng, 2005). Παρόλο που το κριτήριο που ϐασίζεται στην διαϕορά R Q συναντάται πιο συχνά στις εϕαρµογές, υποστηρίζεται από τους Ding and Peng (2005) ότι ο λόγος R/Q δίνει µεγαλύτερη ποινή στον όρο του πλεονασµού και συχνά καταλήγει σε καλύτερα αποτελέσµατα που αϕορούν την α- κρίβεια της κατηγοριοποίησης (Ding and Peng, 2005; Peng et al., 2005). Για τον λόγο αυτό υιοθετήσαµε στη διατριβή αυτή το πηλίκο R/Q ως κριτήριο στους υπολογισµούς µας. Το υποσύνολο χαρακτηριστικών χτίζεται προοδευτικά προσθέτοντας ένα χαρακτηριστικό σε κάθε κύκλο αναζήτησης, ξεκινώντας µε ένα χαρακτηριστικό f i το οποίο µεγιστοποιεί την σχετικότητα µε την κλάση, max fi F I(f i ; C). Για κάθε κύκλο αναζήτησης που ακολουθεί, το χαρακτηριστικό που πρόκειται να συµπεριληϕθεί στο υποσύνολο S είναι αυτό που ϑα µεγιστοποιεί τη έκϕραση (Peng et al., 2005) I mrmr = max f i F S [ 1 S I(f i ; C) f j S I(f i, f j ) ]. (2.23) Σηµειώνεται ότι η εξίσωση 2.23 περιέχει µόνο τους όρους I(f i ; C) και I(f i, f j ) και δε µπορεί να προσµετρήσει τις επιδράσεις µεταξύ δύο χαρακτηριστικών στο S, και για τον λόγο αυτό δίνει τελικά υπο- ϐέλτιστες λύσεις. Για την εκτίµηση των όρων της ΜΙ σύµϕωνα µε την προσέγγιση mrmr στην περίπτωση που οι τιµές των χαρακτηριστικών είναι συνεχείς, έχει προταθεί η εκτίµηση της ΜΙ µε πυρήνα Parzen Gaussian ως καλύτερος εναλλακτικός τρόπος συγκριτικά µε την εκτίµηση µε binning (Peng et al., 2005). Παρατηρήσαµε ωστόσο ότι ενώ οι πυρήνες Parzen έχουν προταθεί και έχουν συζητηθεί στην ϐιβλιογραϕία για επιλογή χαρακτηριστικών, τελικά δεν έχουν υλοποιηθεί τόσο συχνά. Στην πραγµατικότητα ο Peng et al. (2005) χρησιµοποιεί στους υπολογισµούς του την ακέραια στρογγυλοποίηση των τιµών, δηλαδή µιας µορϕής διακριτικοποίηση ίσων αποστάσεων, ενώ συζητά την εκτίµηση της ΜΙ µε πυρήνες Parzen γεγονός που µεταϕέρεται και σε άλλες εργασίες (Estevez et al., 2009). Στην εργασία τους αυτή οι Estevez et al. (2009) πρότειναν µια µέθοδο που κανονικοποιεί την ΜΙ και την ονοµάσαν (NMIFS) περιορίζοντας τις τιµές της ΜΙ στο διάστηµα [0,1]. Η µέθοδος αυτή επιλέγει το χαρακτηριστικό που µεγιστοποιεί την Εξίσωση 2.24 και στην ουσία είναι µια ϐελτιωµένη παραλλαγή των µεθόδων MIFS, MIFS-U, και mrmr όπου δεν τίθεται η ανάγκη υπολογισµού ελευθέρων παραµέτρων που απαιτούν οι MIFS, και MIFS-U. I NMIF S = I(C, f i ) 1 S f j S I(f i, f j ) min{h(f i )H(f j )} (2.24) Στην εργασία του (Brown, 2009) µελετήθηκαν πολλές προσεγγίσεις υπολογισµού της ΜΙ για επιλογή χαρακτηριστικών και το αποτέλεσµα ήταν µια νέα έκϕραση της ΜΙ I Brown = I(C, f i ) β f j S I(f i, f j ) + γ f j S I(f i, f j C) (2.25) όπου ανάλογα µε τις τιµές των β και γ µπορούν να προκύψουν οι προσεγγίσεις της ΜΙ που µελέτησε. Ολοι αυτοί οι αλγόριθµοι που αναϕέραµε (MIFS, MIFS-U, mrmr, NMIFS) είναι προσεγγίσεις αυξητικής επιλογής χαρακτηριστικών οι οποίες επιλέγουν ένα χαρακτηριστικό τη φορά. Σε κάθε επανάληψη ένα συγκεκριµένο κριτήριο µεγιστοποιείται µε αναϕορά σε ένα µόνο χαρακτηριστικό χωρίς να λαµβάνονται υπόψιν οι αλληλεπιδράσεις µεταξύ του συνόλου της ήδη επιλεγµένης υποοµάδας µε χαρακτηριστικά. Σε πολλά προβλήµατα κατηγοριοποίησης, υποσύνολα µε πολλά χαρακτηριστικά παρουσιάζουν ταυτόχρονα, υψηλή σχετικότητα µε την κλάση αλλά αυτή η σχετικότητα µε την κλάση δεν εµϕανίζεται για το καθένα χαρακτηριστικό µόνο του. Οι αλγόριθµοι επιλογής χαρακτηριστικών που αποτιµούν την 31
50 σχετικότητα ατοµικών χαρακτηριστικών µόνο, δεν είναι δυνατόν να επιλέξουν το ϐέλτιστο υποσύνολο χαρακτηριστικών στις περιπτώσεις που η κατηγοριοποίηση εξαρτάται από συνδυασµό δύο ή περισσοτέ- ϱων χαρακτηριστικών ταυτόχρονα. Σε πραγµατικά προβλήµατα όµως η απουσία ενός χαρακτηριστικού σπάνια επηρεάζει την απόδοση του κατηγοριοποιητή στην φάση της εκπαίδευσης (Sindhwani et al., 2004) Φίλτρο MaxiMin Η αναποτελεσµατικότητα της εκτίµησης της ΜΙ µε binning ϐλέπουµε ότι έχει οδηγήσει στην εκτίµηση της I(f i ; C S) µόνο µε προσεγγίσεις εκτίµησης της από ορίσµατα ϐαθµωτών µεταβλητών. Από την εξίσωση 2.15, έχουµε την παρακάτω έκϕραση : I(f i ; C S) = I(f i ; (C, S)) I(f i ; S), (2.26) όπου ο ο πρώτος όρος στη δεξιά πλευρά µπορεί να αποδοθεί στη σχετικότητα του χαρακτηριστικού f i ως προς την κλάση C δεδοµένου του υποσύνολου χαρακτηριστικών S, ενώ ο όρος του πλεονασµού µεταξύ f i και S µπορεί να αποδίδεται µε το δεύτρο µέρος της εξίσωσης που αϕαιρείται. Για να ελαττωθεί το µέγεθος της διάστασης και στους δύο όρους έχουν υιοθετηθεί οι ακόλουθες προσεγγίσεις : ο όρος της σχετικότητας απλοποιείται απαλείϕοντας το όρισµα S και µένει µόνο η έκϕραση I(f i ; C), και ο όρος του πλεονασµού αντικαθίσταται µε ένα άθροισµα της µορϕής I(f i ; f j ), όπου το f j S. Σε µια διαϕορετική προσέγγιση που αϕορά στη µείωση της διάστασης των χαρακτηριστικών, η δέσµευση του S από την έκϕραση I(f i ; C S) της Εξίσωσης 2.26 χωρίζεται στο κάθε χαρακτηριστικό f j του S, και η έκϕραση I(f i ; C S) προσεγγίζεται από την min fj I(f i ; C f j ). Με τον τρόπο αυτό για κάθε υποψήϕιο χαρακτηριστικό f i, επιλέγεται από το S το χαρακτηριστικό f j έτσι ώστε το f i να περιέχει την περισσότερη από την πληροϕορία σχετικά µε την µεταβλητή κλάσης C, ελαχιστοποιώντας έτσι την έκϕραση I(f i ; C f j ). Το κριτήριο που καλείται MaxiMin (Wang et al., 2004) χρησιµοποιεί αυτή την προσέγγιση της I(f i ; C S), και επιπλέον ϐρίσκει το f i που µεγιστοποιεί αυτή την προσεγγιστική ποσότητα I MaxiMin = arg max (min I(f i; C f j )). (2.27) f i F S f j S Και σε αυτή την περίπτωση η προσέγγιση είναι υπο-ϐέλτιστη καθώς µετατρέπει τη συνθήκη του S στην I(f i ; C S) σε συνθήκη µε κάθε ένα χαρακτηριστικό του S, και έτσι δεν υπολογίζει τις συνδυασµένες επιδράσεις δύο ή περισσοτέρων χαρακτηριστικών του S. 2.4 Κανόνες συσχέτισης (association rules) Ως µια συνέχεια της επιλογής χαρακτηριστικών χρησιµοποιήσαµε τους κανόνες συσχέτισης στις περιπτώσεις που οι επιλεγµένες ϐέλτιστες οµάδες χαρακτηριστικών είναι πάρα πολλές συγκριτικά µε τα προβλήµατα που µελετώνται. Ειδικότερα στην περίπτωση που έχουµε πολλά όµοια προβλήµατα κατηγοριοποίησης και σε κάθε πρόβληµα οι µέθοδοι επιλογής χαρακτηριστικών επιλέγουν πολλά και διαϕορετικά υποσύνολα χαρακτηριστικών ϑέλουµε να ϐρούµε αν υπάρχουν συσχετίσεις και κανόνες µεταξύ των πιο συχνών χαρακτηριστικών που εµϕανίζονται στα ϐέλτιστα υποσύνολα των χαρακτηριστικών που επιλέχθηκαν. Η χρήση εργαλείων εξόρυξης δεδοµένων όπως οι κανόνες συσχέτισης (association rules) µπορεί να οδηγήσουν στη µείωση και τη δηµιουργία πιο συµπαγών οµάδων µε ϐέλτιστα χαρακτηριστικά και πιθανόν να ϐοηθήσουν στην τελική λήψη αποϕάσεων σχετικά µε τα επιλεγµένα ϐέλτιστα υποσύνολα χαρακτηριστικών. Η εξαγωγή κανόνων συσχέτισης, είναι µια από τις πιο δηµοϕιλείς και σηµαντικές τεχνικές εξόρυξης δεδοµένων η οποία ϐρίσκει εϕαρµογή συνήθως σε ϐάσεις δεδοµένων συναλλαγών και κυρίως σε 32
51 ότι έχει σχέση και το καλάθι αγορών των καταναλωτών. Οι αλγόριθµοι αυτής της κατηγορίας προσπα- ϑούν να ϐρουν συσχετίσεις µεταξύ των στοιχείων της ϐάσης όπου αυτά τα στοιχεία είναι οι συναλλαγές (transactions) και τα στοιχειοσύνολα (itemsets) π.χ. τα προϊόντα που αγοράζει κάποιος από ένα κατάστηµα ορίζονται ως στοιχειοσύνολα και η κάθε µια αγορά καταχωρείται στην ϐάση δεδοµένων ως µια συναλλαγή. Η ισχύς ενός κανόνα καθορίζεται από τη συχνότητα εµϕάνισής του και όταν λέµε κανόνα εννοούµε το πόσο συχνά εµϕανίζονται στο καλάθι του καταναλωτή κάποια προϊόντα ταυτόχρονα. Οι κανόνες συσχέτισης χρησιµοποιούνται για να εξάγουν χρήσιµες συσχετίσεις µεταξύ στοιχειοσυνόλων, µεταβλητών καθώς και χαρακτηριστικών σε µεγάλες ϐάσεις δεδοµένων συναλλαγών (Piatetsky-Shapiro, 1991; Agrawal et al., 1993; Agrawal and Srikant, 1994) και εϕαρµόζονται ευρύτατα σε επιχειρήσεις, στην έρευνα, στην διοίκηση κλπ. Στην περίπτωσή µας οι ϐάσεις δεδοµένων στις οποίες εϕαρµόσαµε τους κανόνες αποτελούνται από N υποσύνολα χαρακτηριστικών (αντί για στοιχειοσύνολα) τα οποία επιλέχθηκαν ως ϐέλτιστα, από N προβλήµατα κατηγοριοποίησης (αντί για συναλλαγές). Η εϕαρµογή των κανόνων συσχέτισης σε αυτή την περίπτωση έχει ως σκοπό την αποκάλυψη συσχετίσεων µεταξύ των πιο συχνά εµϕανιζόµενων χαρακτηριστικών στα N υποσύνολα χαρακτηριστικών. Οταν υπάρχουν προς µελέτη πολλά όµοια προ- ϐλήµατα κατηγοριοποίησης, και κατ επέκταση πολλά επιλεγµένα ϐέλτιστα υποσύνολα χαρακτηριστικών από τους αλγορίθµους επιλογής χαρακτηριστικών τότε προτείνουµε την χρήση κανόνων συσχέτισης ώστε να ϐρεθούν πιθανοί κανόνες µεταξύ των πιο συχνά επιλεγµένων χαρακτηριστικών. Θεωρούµε X και Y δύο χαρακτηριστικά ή οµάδες χαρακτηριστικών που εµϕανίζονται στα υποσύνολα χαρακτηριστικών που επιλέχθηκαν από µία µέθοδο επιλογής χαρακτηριστικών σε πολλά όµοια προβλήµατα κατηγοριοποίησης. Συµβολίζουµε ώς X Y την τοµή των χαρακτηριστικών αυτών ώστε να κρατηθούν µόνο τα χαρακτηριστικά αυτά που εµϕανίζονται στις δύο οµάδες X και Y ταυτόχρονα. Ενας κανόνας συσχέτισης X Y δηλώνει ότι εάν το X είναι ένα συχνά επιλεγµένο χαρακτηριστικό τότε και το Y πιθανόν να είναι επίσης συχνά επιλεγµένο χαρακτηριστικό. Ο κανόνας συσχέτισης X Y έχει ισχύ όταν η υποστήριξη (support) supp(x Y ) και η εµπιστοσύνη (confidence) ή αλλιώς δύναµη (strength) conf(x Y ) είναι µεγαλύτερες από κάποια δοθέντα όρια. Ο όρος υποστήριξη X, supp(x), ορίζεται ως η συχνότητα εµϕάνισης του X (δηλαδή η πιθανότητα P (X) που έχει εκτιµηθεί για το X), η οποία στην περίπτωσή µας είναι ανάλογη µε το πλήθος των προβληµάτων κατηγοριοποίησης στα οποία εµϕανίστηκε το X µέσα στην οµάδα των ϐέλτιστων επιλεγµένων χαρακτηριστικών. Αντίστοιχα ο όρος supp(x Y ) συµβολίζει τη πιθανότητα εµϕάνισης των χαρακτηριστικών X και Y ταυτόχρονα µέσα στις οµάδα αυτές. Ο όρος εµπιστοσύνη αντιστοιχεί στην υπο-συνθήκη πιθανότητα P (Y X), εµϕάνισης του Y δεδο- µένης της εµϕάνισης του χαρακτηριστικού X στα υποσύνολα των χαρακτηριστικών που έχουν επιλεγεί, και ορίζεται ως εξής : conf(x Y ) = supp(x Y ) supp(x) Το πόσο σηµαντικός είναι ένας κανόνας µπορεί να εκϕραστεί µε τον όρο της ανύψωσης (lift) ο οποίος είναι γνωστός και ως ενδιαϕέρον (interest) και ως συντελεστής συσχέτισης (correlation factor)) και ορίζεται ως εξής : lift(x Y ) = supp(x Y ) supp(x)supp(y ) Σηµειώνεται ότι lift(x Y ) είναι ισοδύναµη µε lift(y X), Οταν η τιµή lift(x Y ) = 1 σηµαίνει ότι υπάρχει ανεξαρτησία µεταξύ των X και Y, όταν lift(x Y ) < 1 υποδεικνύει ότι η παρουσία ενός χαρακτηριστικού µειώνει την πιθανότητα παρατήρησης του 33
52 άλλου χαρακτηριστικού και όταν lift(x Y ) > 1 υποδεικνύει ότι η παρουσία του ενός χαρακτηριστικού αυξάνει την πιθανότητα παρατήρησης και του άλλου χαρακτηριστικού. Η εϕαρµογή των κανόνων συσχέτισης είναι µια διαδικασία δύο ϐηµάτων. -Στο πρώτο ϐήµα γίνεται εύρεση των πιο συχνά εµϕανιζόµενων χαρακτηριστικών σύµϕωνα µε ένα ελάχιστο όριο υποστήριξης. -Στη συνέχεια στο επόµενο ϐήµα, εδραιώνονται κανόνες για τα Ϲεύγη χαρακτηριστικών τα οποία ταυτόχρονα µε το κριτήριο της ελάχιστης υποστήριξης, ικανοποιούν και το κριτήριο της ελάχιστης εµπιστοσύνης. Το πόσο σηµαντικός είναι ένας κανόνας καθορίζεται από το πόσο αυστηρά είναι τα κριτήρια υποστήριξης και εµπιστοσύνης. Το να οριστεί ένας κανόνας για οµάδες χαρακτηριστικών (οι οποίες αποτελούνται από ένα ή πε- ϱισσότερα χαρακτηριστικά) είναι µια δύσκολή διαδικασία επειδή ϑα πρέπει να αναζητηθούν όλοι οι πιθανοί συνδυασµοί µεταξύ των χαρακτηριστικών. Ο αριθµός αυτός των συνδυασµών αυξάνει εκθετικά µε τον πλήθος των χαρακτηριστικών. Ωστόσο µια αποδοτική αναζήτηση είναι δυνατή εάν γίνει χρήση της ιδιότητας του κατηϕορικού τερµατισµού (downward-closure) που χαρακτηρίζει την υποστήριξη (Agrawal et al., 1993) που αλλιώς ονοµάζεται και αντι-µονοτονία σύµϕωνα µε τους Pei et al. (2001). Η ιδιότητα αυτή εγγυάται ότι για µια συχνά παρατηρούµενη οµάδα χαρακτηριστικών όλα τα υποσύνολά της είναι επίσης συχνά παρατηρούµενα, το ίδιο ισχύει και για τις οµάδες χαρακτηριστικών που δεν εµϕανίζονται συχνά στα επιλεγµένα ϐέλτιστα χαρακτηριστικά, δηλ και οι υποοµάδες τους δεν είναι ε- πίσης συχνά εµϕανιζόµενες. Ο πιο γνωστός αλγόριθµος που χρησιµοποιείται στην εξαγωγή κανόνων συσχέτισης είναι ο αλγόριθµος Apriori που προτάθηκε από τον (Agrawal and Srikant, 1994). Χρησιµοποιήθηκε το όνοµα αυτό για τον αλγόριθµο αυτό, εξαιτίας της πρότερης γνώσης των συχνοτήτων εµϕάνισης των στοιχειοσυνόλων. Η πρότερη αυτή γνώση λέει ότι κάθε µη κενό υποσύνολο ενός συχνά εµϕανιζόµενου στοιχειοσυνόλου είναι επίσης συχνό. Ο αλγόριθµος Apriori είναι επαναληπτικός, πρώτα δηµιουργεί τα υποψήϕια στοιχειοσύνολα και στη συνέχεια τα ελέγχει ώστε να διαγράψει αυτά που δεν εµϕανίζονται συχνά. Οι περισσότερες µελέτες υιοθετούν προσεγγίσεις του τύπου Apriori όπου παράγουν υποψήϕια στοιχειοσύνολα και µετά απορρίπτουν αυτά που δεν εµϕανίζονται πολλές φορές. Οι Lu et al. (2000) εισήγαγαν την έννοια των πολυδιάστατων κανόνων συσχέτισης σε συναλλαγές και παρουσίασαν δύο αλγορίθµους παρόµοιους µε τον Apriori ενώ πιο σύνθετες τεχνικές παρουσιάστηκαν από τους Dong et al. (2004). Για την εύρεση κανόνων συσχέτισης στη διατριβή αυτή χρησιµοποιήσαµε τον αλγόριθµο Apriori ο οποίος κάνει αποτελεσµατική και σύντοµη αναζήτηση των συχνά εµϕανιζόµενων οµάδων χα- ϱακτηριστικών. Στη συνέχεια περιγράϕουµε τον ψευδοκώδικα λειτουργίας του αλγορίθµου αυτού όπως εϕαρµόσθηκε και προσαρµόσθηκε, ώστε να ϐρίσκει τα συχνότερα χαρακτηριστικά που υπολογίσθηκαν σε ϐάσεις χρονοσειρών, τα οποία και ϑα παράγουν κανόνες συσχέτισης. Αλγόριθµος Apriori για υποσύνολα χαρακτηριστικών 1. X : πίνακας µε επιλεγµένα ϐέλτιστα υποσύνολα χαρακτηριστικά. 2. mins : ελάχιστη υποστήριξη 3. minc : ελάχιστη εµπιστοσύνη 4. S : πληθικότητα των ϐέλτιστων υποσυνόλων χαρακτηριστικών αρχικά ίση µε εύρεση µοναδικών υποσυνόλων χαρακτηριστικών S i i = {1,..., L} µε πληθικότητα S και υποστήριξη >= mins 6. δηµιουργία πίνακα L L µε τους συνδυασµούς των S i 7. εύρεση κανόνων συσχέτισης S i S j µε υποστήριξη >= mins και εµπιστοσύνη >= minc 8. αύξηση της πληθικότητας S κατά ένα χαρακτηριστικό 9. επανάληψη της διαδικασίας από το ϐήµα 5 έως ότου δεν ϐρεθεί άλλος κανόνας συσχέτισης S i S j. 34
53 Σύµϕωνα µε τον παραπάνω αλγόριθµο ο πίνακας X µε τα επιλεγµένα ϐέλτιστα υποσύνολα χαρακτηριστικών δίνεται ως είσοδος µαζί µε την ελάχιστη υποστήριξη mins και την ελάχιστη εµπιστοσύνη minc. Αρχικά ϐρίσκονται τα υποσύνολα χαρακτηριστικών S i που έχουν πληθικότητα 1 και υποστήριξη µεγαλύτερη από mins µε i = {1,..., L} όπου L είναι το πλήθος των υποσυνόλων που πληρούν αυτή την συνθήκη. Από τους συνδυασµούς µόνο αυτών των χαρακτηριστικών δηµιουργείται ένας πίνακας L L σύµϕωνα µε τον οποίο υπολογίζουµε τις αντίστοιχες τιµές τις υποστήριξης και της εµπιστοσύνης. Οι συνδυασµοί που ικανοποιούν την συνθήκη και έχουν τιµές υποστήριξης και εµπιστοσύνης µεγαλύτερες ή ίσες από τις ελάχιστες mins και minc δηµιουργούν έναν κανόνα συσχέτισης (S i S j ). Η διαδικασία αυτή επαναλαµβάνεται αυξάνοντας την τιµή της πληθικότητας S κατά 1, και τερµατίζει στην περίπτωση που δεν ϐρεθούν άλλοι κανόνες συσχέτισης µεταξύ των χαρακτηριστικών. Η χρήση των κανόνων συσχέτισης µπορεί να ϐοηθήσει στην υιοθέτηση υποσυνόλων χαρακτηριστικών σε δύσκολες περιπτώσεις που πιθανόν να παρουσιαστούν στη διάρκεια διαϕόρων µελετών, όπως έγινε και στην περίπτωση µιας µελέτης που κάναµε και παρουσιάζουµε αναλυτικότερα στο Κεϕάλαιο 6. 35
54 36
55 Κεϕάλαιο 3 Χρονοσειρές και χαρακτηριστικά Σε κάποιες εϕαρµογές ο σχεδιασµός µοντέλων από δεδοµένα µπορεί να είναι µια επίπονη διαδικασία, ειδικά όταν τα συστήµατα των δεδοµένων είναι πολύπλοκα όπως στην σεισµολογία, το κλίµα, τα χρηµατοοικονοµικά και τη φυσιολογία. Σε αυτές τις περιπτώσεις υπάρχει αυξηµένο ενδιαϕέρον για συµπυκνωµένη πληροϕορία που µπορεί να εξαχθεί από τις χρονοσειρές µε τη µορϕή µέτρων ή χαρακτηριστικών. Τα χαρακτηριστικά αυτά µπορεί να είναι είτε απλά περιγραϕικά στατιστικά µέτρα ή µέτρα πιο πολύπλοκα όπως η προσαρµογή ενός µη-γραµµικού µοντέλου όπου εµπλέκονται πολλές ελεύθερες παράµετροι. Στο κεϕάλαιο αυτό αναϕερόµαστε γενικά στις χρονοσειρές και παρουσιάζουµε χρονοσειρές που δηµιουργούνται από προσοµοιώσεις δυναµικών συστηµάτων αλλά και στοχαστικών συστηµάτων τις οποίες τις χρησιµοποιήσαµε στις µελέτες που κάναµε υπολογίζοντας από αυτές πλήθος χαρακτηριστικών µέτρων. Παρουσιάζουµε όσο το δυνατόν περισσότερα από τα µέτρα που χρησιµοποιούνται κυρίως στην ανάλυση χρονοσειρών τα οποία και συµπεριλάβαµε στις µελέτες που κάναµε τροϕοδοτώντας τα ως είσοδο στους αλγορίθµους εξόρυξης δεδοµένων. Τέλος στο κεϕάλαιο αυτό περιγράϕουµε τις πιο γνωστές µεθόδους κανονικοποίησης και τυποποίησης δεδοµένων οι οποίες εϕαρµόσθηκαν κυρίως πάνω στις τιµές των υπολογιζόµενων χαρακτηριστικών µέτρων αλλά και στις αυθεντικές τιµές των χρονοσειρών. 3.1 Γενικά Με τον όρο χρονοσειρά ή αλλιώς χρονική σειρά εννοούµε µια συλλογή από παρατηρήσεις σε µια φυσική διάταξη συνήθως χρονική, δηλαδή κάθε παρατήρηση αναϕέρεται µε µια συγκεκριµένη χρονική στιγµή. Γενικά ϑεωρούµε ότι οι χρονικές τιµές είναι ισότιµα τοποθετηµένες. Συµβολίζουµε την κάθε παρατήρηση την χρονική στιγµή t ώς x t. Οι πληροϕορίες που είναι καταγεγραµένες σε µία χρονοσειρά µπορούν να εντοπιστούν και µέσα από αυτές να γίνει διερεύνηση και περιγραϕή ενός συστήµατος που παράγει την χρονοσειρά. Εάν γίνει η περιγραϕή του συστήµατος αυτού µε επιτυχία τότε είναι εύκολο να µελετηθούν διαϕορετικές καταστάσεις που µπορεί να ϐρεθεί το σύστηµα αυτό και κατ επέκταση οι χρονοσειρές. Ενα χαρακτηριστικό παράδειγµα είναι η φυσιολογική λειτουργία του εγκεϕάλου ενός ατόµου µε επιληψία καθώς και η χρονική διάρκεια µιας επιληπτικής κρίσης που µπορεί να υποπέσει και αυτές οι διαϕορετικές καταστάσεις να αποτυπωθούν σε µια καταγραϕή ηλεκτροεγκεϕαλογραϕήµατος (EEG). Μπορεί λοιπόν να γίνει διερεύνηση των χαρακτηριστικών του συστήµατος που καθορίζει τις διαϕορετικές καταστάσεις του δυναµικού του εγκεϕάλου. Ενας από τους κυριότερους στόχους στην ανάλυση χρονοσειρών είναι η επιλογή και προσαρµογή ενός µοντέλου που να προσεγγίζει ικανοποιητικά τα δεδοµένα, καθώς και η χρησιµοποίηση του για πρόβλεψη µελλοντικών τιµών. Ενας επίσης σηµαντικός στόχος είναι η εύρεση και η χρήση κατάλληλων αλγορίθµων για την σωστή κατηγοριοποίηση χρονοσειρών που ανήκουν σε διαϕορετικές καταστάσεις. Ο υποκείµενος µηχανισµός που δηµιουργεί αυτές τις τιµές είναι το δυναµικό σύστηµα (dynamical system) και η µαθηµατική αναπαράσταση των νόµων που αντιπροσωπεύουν την εξέλιξη του συστήµατος 37
56 στην πορεία του χρόνου ονοµάζεται δυναµική του συστήµατος (dynamics of the system). Ανάλογα µε τη φύση των νόµων και της δυναµικής του συστήµατος, η µαθηµατική έκϕραση που µπορεί να αναπαραστήσει το σύστηµα που παράγει τη χρονοσειρά µπορεί να είναι γραµµική, µη-γραµµική, και ανάλογα µε το αν υπάρχει εξωτερική τυχαία είσοδος στο σύστηµα, µπορεί να είναι στοχαστική ή αιτιοκρατική (ντετερµινιστική). Τα αιτιοκρατικά γραµµικά συστήµατα δεν παρουσιάζουν µεγάλο ενδιαϕέρον, αϕού µπορούν να δώσουν συνηθισµένα πρότυπα όπως για παράδειγµα σταθερό σηµείο και περιοδική τροχιά, και µόνο µε την προσθήκη µιας εξωτερικής τυχαίας εισόδου µπορούν να οδηγήσουν σε πιο σύνθετη συµπεριϕορά. Υπάρχουν δύο περιπτώσεις τυχαίας εισόδου, ο ϑόρυβος παρατήρησης ή µέτρησης και ϑόρυβος από την δυναµική ή από το ίδιο το σύστηµα. Ο ϑόρυβος παρατήρησης δεν επηρεάζει τη µελλοντική εξέλιξη του συστήµατος και είναι το σϕάλµα µεταξύ της πραγµατικής κατάστασης του συστήµατος και της κατάστασης που παρατηρείται, π.χ. λόγω σϕαλµάτων στη µέτρηση. Αυτό σηµαίνει ότι οι υποκείµενες δυναµικές διατηρούν την αιτιοκρατική πτυχή τους. Αντίθετα, ο ϑόρυβος από την δυναµική του συστήµατος επηρεάζει τη µελλοντική εξέλιξη του. Σε αυτή την περίπτωση, η έξοδος που παράγει ένα τέτοιο δυναµικό σύστηµα διαταράσσεται µε την προσθήκη ϑορύβου. Η διαταραγµένη αυτή κατάσταση έχει τη ϑέση εισόδου στο επόµενο χρονικό ϐήµα για τον προσδιορισµό της κατάστασης στο επόµενο ϐήµα και έτσι η εξέλιξη του συστήµατος και κατ επέκταση της παρατηρούµενης χρονοσειράς µεταβάλλεται τυχαία σε κάποιο ϐαθµό. Εάν το αποτέλεσµα της τυχαίας εισόδου είναι µικρό µπορούµε να υποθέσουµε ότι η τυχαία αυτή µεταβολή είναι µικρή και ακόµα κυριαρχεί η αιτιοκρατία στο σύστηµα. ύο παραδείγµατα της δυναµικής της χρονοσειράς είναι τα ακόλουθα x t+1 = ϕx t + e t+1 (3.1) x t+1 = 1 ax 2 t + bx t 1 + e t+1, (3.2) όπου e t είναι ανεξάρτητες και ίδιας κατανοµής τυχαίες µεταβλητές (independent identical distributed) µε κανονική κατανοµή, µηδενική µέση τιµή και τυπική απόκλιση σ e. Η δυναµική της Εξ.3.1 είναι γραµµική και χωρίς την ύπαρξη της τυχαίας εισόδου e t, οι τιµές της x t συγκλίνουν στο 0 ή στο άπειρο, εξαρτώµενες από την τιµή της παραµέτρου ϕ. Αντίθετα η Εξ.3.2 είναι η απεικόνιση του Henon (Hénon, 1976) µε τυχαία τιµή εισόδου, και ανάλογα µε τις τιµές των µεταβλητών a και b η απεικόνιση αυτή µπορεί να είναι χαοτική ή περιοδική ενώ η επίδραση του ϑορύβου e t ακόµη και µε µικρές τιµές ϑα µπορούσε να οδηγήσει σε σηµαντικά διαϕορετική συµπεριϕορά του συστήµατος. 3.2 Χρονοσειρές προσοµοιώσεων Στη µελέτη πραγµατικών χρονοσειρών παρουσιάζεται έντονη τυχαιότητα χωρίς να είναι προϕανής κάποια περιοδικότητα στις τιµές των χρονοσειρών. Αυτή η τυχαιότητα των τιµών των χρονοσειρών µπο- ϱεί να οϕείλεται σε κάποιο στοχαστικό υποκείµενο σύστηµα όπου ο παράγοντας του δυναµικού ϑορύβου να είναι σηµαντικός ή να οϕείλεται σε κάποιο αιτιοκρατικό σύστηµα που να έχει στοχαστική συµπεριφορά δηλαδή στην ύπαρξη χαοτικού συστήµατος. Στα µαθηµατικά και τη φυσική, η ϑεωρία του χάους µελετά τη συµπεριϕορά ορισµένων µη γραµµικών δυναµικών συστηµάτων, τα οποία κάτω από ορισµένες συνθήκες παρουσιάζουν το φαινόµενο που είναι γνωστό ως χάος. Χαρακτηρίζεται κυρίως από ευαίσθητη εξάρτηση από τις αρχικές συνθήκες (γνωστή και ως φαινόµενο της πεταλούδας) και ακολούθως από µη περιοδικότητα. Η ευαισθησία αυτή έχει ως αποτέλεσµα τη φαινοµενική τυχαιότητα της παρατηρούµενης συµπεριϕοράς των συστηµάτων, παρ όλο που τα συστήµατα αυτά είναι αιτιοκρατικά ( ντετερµινιστικά ), µε την έννοια ότι είναι καλώς ορισµένοι οι νόµοι εξέλιξής τους και δεν περιέχουν τυχαίες παραµέτρους. ιερεύνηση του χάους έχει γίνει σε πολλά πραγµατικά συστήµατα όπως η ατµόσϕαιρα, το ηλιακό σύστηµα, οι τεκτονικές πλάκες, τα οικονοµικά συστήµατα, η εξέλιξη (µεταβολή) των πληθυσµών καθώς και τα ηλεκτροεγκεϕαλογραϕήµατα που αποτελούν και κοµµάτι µελέτης της παρούσας εργασίας. Αυτή η τεχνική χρήση του όρου χάος διαϕωνεί µε την καθοµιλουµένη, στην οποία το χάος υποδηλώνει την παντελή έλλειψη τάξης. 38
57 Ελκυστές : Ενας τρόπος να παρουσιάσουµε οπτικά την χαοτική κίνηση ή οποιαδήποτε άλλη κίνηση σε δύο ή τρείς διαστάσεις, είναι η κατασκευή ενός διαγράµµατος φάσης της κίνησης. Σε ένα τέτοιο διάγραµµα υπεισέρχεται σιωπηρά ο χρόνος και σε κάθε άξονα του χώρου διαστάσεων, αναπαρίσταται µια µεταβλητή της κατάστασης. Για παράδειγµα, ϑα µπορούσε κάποιος να αναπαραστήσει την ϑέση ενός εκκρεµούς σε σχέση µε την ταχύτητά του. Ενα εκκρεµές σε ακινησία ϑα σχεδιαστεί ως ένα σηµείο και ένα σε περιοδική κίνηση ϑα σχεδιαστεί ως απλή κλειστή καµπύλη. Τα σηµεία που απεικονίζουν την κίνηση στο διάγραµµα φάσης αποτελούν την τροχιά του συστήµατος. Το εκκρεµές λοιπόν µπορεί να παρουσιάσει άπειρες τέτοιες τροχιές για διαϕορετικές αρχικές συνθήκες. Συχνά τα διαγράµµατα φάσης αποκαλύπτουν ότι η πλειοψηϕία των τροχιών καταλήγουν να πλησιάζουν ένα κοινό όριο. Το σύστηµα τελικά εκτελεί την ίδια κίνηση για όλες τις αρχικές καταστάσεις σε µια περιοχή γύρω από την αρχική κίνηση, σχεδόν σαν να έλκεται το σύστηµα σε αυτή την κίνηση. Μια τέτοια τροχιά που καταλήγει ασυµπτωτικά το σύστηµα, καλείται ελκυστής (attractor) του συστήµατος. Ο ελκυστής µπορεί να είναι : (1) ένα ευσταθές σηµείο ισορροπίας του συστήµατος (ευσταθές σύστηµα), (2) µια κλειστή καµπύλη για συνεχές σύστηµα ή σύνολο σηµείων για διακριτό σύστηµα (περιοδικό σύστηµα), (3) ένας τόρος (torus σαµπρέλα) (ηµι περιοδικό ή αλλιώς ψευδο περιοδικό σύστηµα - quasi periodic), (4) ένας παράξενος ελκυστής (strange attractor ) (χαοτικό σύστηµα). Ενα ϐασικό χαρακτηριστικό στους παράξενους ελκυστές είναι η αυτο-οµοιότητα (selfsimilarity), η ιδιότητα δηλαδή όπου η µεγέθυνση µιας µικρής περιοχής της τροχιάς του ελκυστή δίνει ένα σχήµα ίδιο µε το αρχικό, και η διαδικασία αυτή µπορεί να συνεχιστεί σε διαϕορετικές κλίµακες του χώρου, δηλαδή οι ελκυστές αυτοί είναι µορϕοκλασµατικά σύνολα (fractals). Η µορϕοκλασµατική διάσταση (fractal dimension), είναι ένας µη-ακέραιος αριθµός ο οποίος δηλώνει το ϐαθµό αυτο-οµοιότητας και παίρνει τιµές µικρότερες από την Ευκλείδεια διάσταση στην οποία ϐρίσκεται ο ελκυστής. Ιδιαίτερο ενδιαϕέρον παρουσιάζουν τα χαοτικά δυναµικά συστήµατα εξαιτίας της ευαισθησίας τους στις αρχικές συνθήκες, µε αποτέλεσµα κοντινές τροχιές τους να αποκλίνουν πολύ γρήγορα και να παρουσιάζουν τελικά στοχαστική συµπεριϕορά. Το αντίστροϕο συµβαίνει σε πολλά πραγµατικά συστήµατα τα οποία φαίνονται τυχαία ενώ πιθανόν να έχουν αιτιοκρατική µη-γραµµική και ενδεχοµένως χαοτική δοµή. Στην παρούσα διατριβή δηµιουργήσαµε χρονοσειρές δεδοµένων από προσοµοιώσεις δυναµικών συστηµάτων µε ελκυστές καθώς και στοχαστικών συστηµάτων και ειδικότερα τις παρακάτω τέσσερις ϐάσεις δεδοµένων, µε σκοπό την κατηγοριοποίηση τους. Συγκεκριµένα ϑεωρήσαµε : Βάση εδοµένων 1 Η ϐάση δεδοµένων αυτή αποτελείται από χρονοσειρές ταλαντώσεων που δηµιουργήθηκαν από το δυναµικό σύστηµα της διαϕορικής εξίσωσης µε υστέρηση, των Mackey and Glass (1977) ẋ = dx dt 0.2x(t ) = 0.1x(t) (3.3) 1 + [x(t )] 10 Το δυναµικό αυτό σύστηµα µπορεί και παράγει χάος σε διαϕορετικές καταστάσεις ανάλογα µε την τιµή της παραµέτρου. Εξετάσαµε διάϕορες χαοτικές καταστάσεις του συστήµατος και δηµιουργήσαµε αντίστοιχα προβλήµατα οµαδοποίησης για = 17, 23, 30, = 70, 100, 200, = 100, 200, 300, = 100, 120, για = 120, και για = 110, Εχει ϐρεθεί ότι η µορϕοκλασµατική διάσταση µεταβάλλεται από τιµή περίπου ίση µε 2 για = 17 σε διάσταση περίπου ίση µε 3 για = 30 και 7 για = 100 (Grassberger and Procaccia, 1983; Kugiumtzis, 1996). Για ακόµα υψηλότερες τιµές του προκύπτουν χαοτικές καταστάσεις µε σταδιακά υψηλότερες µορϕοκλασµατικές διαστάσεις. Για τη δηµιουργία των χρονοσειρών αυτών, η λύση της διαϕορικής εξίσωσης επετεύχθη µε χρήση της συνάρτησης επίλυσης (dde23) του matlab, χρησιµοποιώντας διακριτικοποίηση µε ϐήµα dt = 0.1 sec και ο χρόνος δειγµατοληψίας ήταν dt. Στο Σχήµα 3.1a. παρουσιάζονται αντιπροσωπευτικές χρονοσειρές για = 17, 23, 30 και στο Σχήµα 3.1b για = 70, 100, 200. Φαίνεται ότι οι τρεις αυτές χρονοσειρές σε κάθε µια από τις δύο οµάδες, δεν µπορούν εύκολα να 39
58 (a) (b) =17 =70 =23 =100 =30 = time index t time index t Σχήµα 3.1: (a) Χρονοσειρές από τρείς διαϕορετικές χαοτικές καταστάσεις χαµηλής µορϕοκλασµατικής διαστάσης του συστήµατος των Mackey Glass µε υστέρηση όπως υποδεικνύεται στο αριστερό µέρος του πάνελ. (b) Οµοίως για την χαοτική κατάσταση του ίδιου συστήµατος µε υψηλότερη όµως πολυπλοκότητα. διαχωρισθούν µεταξύ τους παρατηρώντας τες µε γυµνό µάτι (ίσως κάποιος να παρατηρήσει µια ελαϕρά διαϕορά µεταξύ της χρονοσειράς µε = 17 και αυτής µε = 30). Για να προσοµοιώσουµε τα δεδοµένα σε συνθήκες του πραγµατικού κόσµου, όπου υπάρχει ϑόρυβος στα δεδοµένα, σε κάποιες περιπτώσεις των προβληµάτων που µελετήσαµε προσθέσαµε και λευκό Γκαουσιανό ϑόρυβο µε τυπική απόκλιση (SD) ίση µε το 20% της τυπικής απόκλισης των πραγµατικών δεδοµένων της χρονοσειράς. Βάση εδοµένων 2 Αυτή η ϐάση δεδοµένων αποτελείται από χρονοσειρές ταλαντώσεων που δηµιουργήθηκαν από την εϕαρµογή του δυναµικού συστήµατος 10 διαϕορικών εξισώσεων του Lorenz 95 (Lorenz, 1995). Το δυναµικό αυτό σύστηµα είναι ένα µαθηµατικό µοντέλο του τρόπου µε τον οποίο κινείται ο αέρας στην ατµόσϕαιρα. ẋ j = (x j+1 x j 2 )x j 1 x j + F, j = 1, 2..., 10, (3.4) όπου F είναι η παράµετρος ελέγχου. Οταν η τιµή του F υπερβαίνει το 4.0 τότε το σύστηµα αρχίζει να εµϕανίζει χαοτική συµπεριϕορά και όταν το F =8 τότε το σύστηµα γίνεται χαοτικό. Για να έχει νόηµα η εξίσωση 3.4 για όλες τις τιµές του j, ορίζονται τα x 1 = x j 1, x 0 = x j και x j+1 = x 1 έτσι ώστε να χρησιµοποιούνται κυκλικές οριακές συνθήκες. Από το σύστηµα αυτό δηµιουργήσαµε τρεις χαοτικές καταστάσεις για τιµές του F = 5,6,8 (Lorenz, 1995; Roulston and Smith, 2003) και κρατήσαµε την µονοδιάστατη χρονοσειρά για κάθε κατάσταση από την πρώτη µεταβλητή του συστήµατος x 1. Η πολυπλοκότητα των καταστάσεων αυτών είναι υψηλότερη από αυτή των χρονοσειρών του Mackey Glass για = 17, 23, 30 και για = 70, 100, 200 σύµϕωνα µε τους Lorenz and Emanuel (1998), όπου για F=10 η µορϕοκλασµατική διάσταση είναι Στο Σχήµα. 3.2α. φαίνονται οι χρονοσειρές του δυναµικού συστήµατος Lorenz 95 για την µεταβλητή x 1 για τις τρεις διαϕορετικές καταστάσεις µε F = 5, 6, 8. Και πάλι οι τρεις αυτές χρονοσειρές παρουσιάζουν έντονες οµοιότητες µεταξύ τους, µε αυτή στο χαµηλότερο µέρος του πάνελ (F = 8) να εµϕανίζει την υψηλότερη πολυπλοκότητα. Οµοίως µε την ϐάση δεδοµένων 1 έτσι και εδώ, εξετάσαµε και περιπτώσεις προβληµάτων όπου υπάρχει 20% Γκαουσιανός λευκός ϑόρυβος στα δεδοµένα. 40
59 (a) (b) F=5 Fraser F=6.. Rossler F=8 Random time index t time index t Σχήµα 3.2: (a) Χρονοσειρές για την µεταβλητή x 1 του δυναµικού συστήµατος Lorenz 95 σε τρεις καταστάσεις όπως φαίνονται αριστερά στο κάθε πλαίσιο. (b) Χρονοσειρές που παρουσιάζουν τάση τύπου πάνω-κάτω, για τρία διαϕορετικά συστήµατα όπως παρουσιάζονται αριστερά στο κάθε πλαίσιο. Βάση εδοµένων 3 Σε αυτήν τη ϐάση δεδοµένων, όλες οι χρονοσειρές αποτελούνται από πρότυπα που δηµιουργήθηκαν από την εϕαρµογή µιας ανοδικής γραµµικής τάσης που ακολουθείται από µια κάπως πιο γρήγορη πτωτική τάση, αντίθετα από ότι συµβαίνει στην οµαλή ταλάντωση των χρονοσειρών που είδαµε στις δύο πρώτες ϐάσεις δεδοµένων. Σε αυτήν τη ϐάση οι χρονοσειρές εκπροσωπούν τρία συστήµατα διαϕορετικού τύπου. Το πρώτο σύστηµα είναι ψευδο-περιοδικό σύστηµα Fraser (Fraser, 1989) που δίνει ελκυστή τύπου τόρου (σαµπρέλας), ẋ 1 x 2 + a + x 1 (1 x 4 1 ) ẋ 2 ẋ 3 = 1 (x 1 + 1) 3 ( x4 + a + x 3 (1 x 3 ) 4) ( /b (3.5) ẋ 4 1 (x3 + 1) 3) /b µε παραµέτρους a = και b = όπου η παρατηρούµενη µεταβλητή είναι η x 2 + x 4. Το δεύτερο σύστηµα χρονοσειρών είναι το υπερ-χαοτικό σύστηµα του Rössler, ẋ 1 ẋ 2 ẋ 3 ẋ 4 = (x 2 + x 3 ) x 1 + ax 2 + x 4 b + x 3 x 1 cx 4 gx 3 (3.6) µε παραµέτρους a = 0.25, b = 3, c = 0.05 και g = 0.5 και µε παρατηρούµενη µεταβλητή την x 4. Σηµειώνεται ότι ο φαινοµενικά αθώος πολλαπλασιαστικός όρος της µεταβλητής στην τρίτη εξίσωση (3.6) δηµιουργεί χάος και το σύστηµα έχει έναν παράξενο ελκυστή µε µορϕοκλασµατική διάσταση ελαϕρώς υψηλότερη του 3 (Rössler, 1979). Αντίθετα µε την αιτιοκρατική φύση των δύο πρώτων συστηµάτων (ψευδο περιοδική και χαοτική) το τρίτο σύστηµα της ϐάσης αυτής είναι στοχαστικό και παράγει χρονοσειρές µε διαδοχικούς σχηµατισµούς αποτελούµενους από τυχαία ανοδική και καθοδική τάση, ως εξής : ηµιουργείται µια σειρά από τυχαία εναλλασσόµενα σηµεία καµπής που οριοθετούνται σε µια προκαθορισµένη σειρά χρησιµοποιώντας το µοντέλο BRWAD (Kugiumtzis et al., 2004). Στη συνέχεια µεταξύ των σηµείων καµπής παρεµβάλλονται σηµεία που λαµβάνονται µε σταθερό χρόνο δειγµατοληψίας, σύµϕωνα µε µια σταθερή ταχύτητα που 41
60 µεταβάλει την διεύθυνσή της διαδοχικά προς τα πάνω και προς τα κάτω. Η καθοδική ταχύτητα (µετά- ϐαση από ένα τοπικό µέγιστο στο επόµενο τοπικό ελάχιστο) είναι υψηλότερη ώστε να αϕοµοιώσει µια ταχύτερη καθοδική τάση. Για να γίνει η διάκριση µεταξύ των τριών διαϕορετικών συστηµάτων ακόµη δυσκολότερη, προσθέσαµε 40 % Γκαουσιανό λευκό ϑόρυβο στις χρονοσειρές των δύο πρώτων συστηµάτων. Αντιπροσωπευτικές χρονοσειρές για τα τρία αυτά συστήµατα παρουσιάζονται στο Σχήµα 3.2b. 3.3 Χαρακτηριστικά των Χρονοσειρών Υπάρχει µεγάλος αριθµός χαρακτηριστικών που ϑα µπορούσε να επιλεγεί για να περιγράψει µια χρονοσειρά και τα χαρακτηριστικά αυτά διαϕέρουν από πολύ απλά µέχρι πολύ περίπλοκα. Ενας α- πό τους στόχους της διατριβής αυτής είναι η επιλογή κατάλληλων χαρακτηριστικών που ϑα µπορούν να χρησιµοποιηθούν σε αλγορίθµους κατηγοριοποίησης και συσταδοποίησης έτσι ώστε να επιταχύνουν τους αλγορίθµους αυτούς αλλά και να αυξήσουν την απόδοσή τους. Τα χαρακτηριστικά που χρησιµοποιούνται σε πολλές ερευνητικές εργασίες συνήθως επιλέγονται αυθαίρετα ή λόγω της συχνής χρήσης τους σε παρόµοια προβλήµατα, χωρίς να είναι σίγουρο ότι είναι τα πιο κατάλληλα για κάθε πρόβληµα που µελετάται. Στην ενότητα αυτή ϑα αναϕέρουµε κάποιες οµάδες χαρακτηριστικών µέτρων που µπο- ϱούν να αποτυπώσουν την συµπεριϕορά των χρονοσειρών και ϑα περιγράψουµε κάποια χαρακτηριστικά µέτρα που δεν είναι τόσο απλά αλλά µπορούν να χρησιµοποιηθούν σε προβλήµατα εξόρυξης δεδοµένων δίνοντας επιτυχή αποτελέσµατα. Τα χαρακτηριστικά µέτρα που χρησιµοποιήθηκαν στη διατριβή αυτή οργανώθηκαν σε τρεις κύριες οµάδες : σε γραµµικά µέτρα, σε µη-γραµµικά µέτρα και σε µέτρα που ϐασίζονται σε µοντέλα και σε µέτρα ταλαντώσεων. Αντίστοιχα, η κάθε κύρια οµάδα χωρίζεται σε υποοµάδες, π.χ. η οµάδα των γραµµικών µέτρων περιλαµβάνει τις υποοµάδες των µέτρων συσχέτισης και µέτρα ϐασισµένα στη συχνότητα. Πολλά από τα µέτρα για να υπολογισθούν απαιτούν τον προσδιορισµό µιας ή περισσοτέρων παραµέτρων των οποίων οι προκαθορισµένες τιµές επιλέγονται συνήθως αυθαίρετα ανάλογα µε τον τύπο της χρονοσειράς που µελετάται (π.χ. χρονοσειρές που παράγονται από διακριτά ή από συνεχή συστήµατα) και απαιτούν διαϕορετικές ϱυθµίσεις των παραµέτρων αυτών. Για τις περισσότερες ελεύθερες παραµέτρους µπορεί να χρησιµοποιηθούν πολλές τιµές ή ένα εύρος τιµών και στη συνέχεια το µέτρο να υπολογίζεται για κάθε µία από τις δεδοµένες τιµές των παραµέτρων αυτών. Στο κεϕάλαιο αυτό ϑα αναϕερθεί µεγάλο πλήθος χαρακτηριστικών (συγκεκριµένα 371 χαρακτηριστικά) που χρησιµοποιούνται στην ανάλυση χρονοσειρών µε πολλά από αυτά να είναι γνωστά από τη χρήση τους σε πολλές ερευνητικές εργασίες και κάποια άλλα να µην είναι τόσο συνηθισµένα αλλά να είναι εξίσου σηµαντικά. 3.4 Οµάδες χαρακτηριστικών για ανάλυση χρονοσειρών Στην ενότητα αυτή παρουσιάζουµε µεγάλο αριθµό χαρακτηριστικών που αναϕέρονται στη ϐιβλιογραϕία στην ανάλυση χρονοσειρών και χρησιµοποιήσαµε και εµείς ώστε να µπορέσουµε να αντλήσουµε όσο το δυνατόν περισσότερα στοιχεία από την συµπεριϕορά των χρονοσειρών. Τα χαρακτηριστικά τα παρουσιάζουµε οµαδοποιηµένα σε κατηγορίες ανάλογα µε τις ιδιότητες που αντιπροσωπεύουν. Εχουµε λοιπόν : Την οµάδα των γραµµικών χαρακτηριστικών, που περιέχει χαρακτηριστικά γραµµικής συσχέτισης και χαρακτηριστικά του πεδίου συχνοτήτων. Την οµάδα χαρακτηριστικών που περιέχει χαρακτηριστικά µη-γραµµικής συσχέτισης, χαρακτη- ϱιστικά διαστάσεων και πολυπλοκότητας και χαρακτηριστικά συσχετίσεων µακράς εµβέλειας. Την οµάδα χαρακτηριστικών από γραµµικά και µη-γραµµικά µοντέλα 42
61 Την οµάδα χαρακτηριστικών µέτρων ταλάντωσης που αποτελείται από µέτρα που έχουν υπολογισθεί σε νέες χρονοσειρές που προέκυψαν από χαρακτηριστικά ταλαντώσεων των αρχικών χρονοσειρών. Περιλαµβάνουν µέτρα απλής στατιστικής καθώς και αντιπροσωπευτικά µέτρα από τις προηγούµενες οµάδες. Η ύπαρξη µεγάλων διακυµάνσεων στις τιµές των χρονοσειρών από την Γκαουσιανή κατανοµή µπορεί να επηρεάσει τις τιµές των µέτρων που είναι ευαίσθητα στις κατανοµές των τιµών του πλάτους της χρονοσειράς. Για το λόγο αυτό ϑεωρούµε τον στατικό µετασχηµατισµό της {x t } N t=1 στην Γκαουσιοποιηµένη χρονοσειρά {y t } N t=1 που παρέχει η Γκαουσιανή αθροιστική συνάρτηση πυκνότητας (cumulative density function, cdf) Φ(y t ) η οποία δίνεται από την έκϕραση y t = Φ 1 (F x (x t )). Στην εργασία των Kugiumtzis et al. (2006) έχει παρατηρηθεί ότι τα µέτρα συσχέτισης αποδίδουν καλύτερα κατά τον διαχωρισµό προ-επιληπτικών σηµάτων EEG όταν οι τιµές τους έχουν Γκαουσιοποιηθεί. Για τον λόγο αυτό κάποια από τα χαρακτηριστικά µέτρα που ϑα αναϕερθούµε έχουν υπολογισθεί είτε πάνω στις αρχικές χρονοσειρές {x t } N t=1, ή πάνω στις χρονοσειρές {y t} N t=1. Ολα τα χαρακτηριστικά (371) παρουσιάζονται στους Πίνακες 3.1 έως Οµάδα Γραµµικών Χαρακτηριστικών Η οµάδα των γραµµικών µέτρων περιλαµβάνει διαϕορετικά µέτρα που αϕορούν τη γραµµική συσχέτιση, τη συχνότητα και τα γραµµικά µοντέλα αυτοπαλινδρόµισης. Χαρακτηριστικά Γραµµικής Συσχέτισης. Η υποοµάδα όπως παρουσιάζεται στον Πίνακα 3.1, πε- ϱιλαµβάνει µέτρα της γραµµικής και µονότονης αυτοσυσχέτισης, δηλαδή πέρα από τα µέτρα που η λειτουργία τους ϐασίζεται στην αυτοσυσχέτιση Pearson ry P (τ), συµπεριλαµβάνονται επίσης και µέτρα που ϐασίζονται στις αυτοσυσχετίσεις Kendall ry K (τ), και Spearman ry S (τ), (Hallin and Puri, 1992). Ση- µειωνεται ότι η αυτοσυσχέτιση οποιουδήποτε τύπου ϑεωρείται ως ένα διαϕορετικό µέτρο για κάθε τιµή της παραµέτρου υστέρησης τ, έτσι ώστε για µια σειρά τιµών υστέρησης, δηµιουργούνται εξίσου πολλά µέτρα του αντίστοιχου είδους όπως το τ e που αντιστοιχεί στον χρόνο αποσυσχέτισης (decorrelation time) δηλαδή το χρονικό διάστηµα κατά το οποίο η αυτοσυσχέτιση ry P (τ e ) = 1/e. Επιπρόσθετα στο µέτρο της αυτοσυσχέτισης, παρουσιάζουµε και το µέτρο της αθροιστικής αυτοσυσχέτισης (cumulative autocorrelation) που καθορίζεται από το άθροισµα των τιµών των αυτοσυσχετίσεων µέχρι µια δεδοµένη µέγιστη χρονική υστέρηση (Cry P (τ),cry K (τ), Cry S (τ)). Συµπεριλάβαµε επίσης και την αθροιστική αυτοσυσχέτιση Box-Pierce Cr B x (τ max ) την οποία την υπολογίζουµε στην αρχική χρονοσειρά για την µέγιστη υστέρηση (Box and Pierce, 1970). Επιπλέον, ως πρόσθετα µέτρα συσχέτισης ϑεωρούµε και τις ειδικές χρονικές υστερήσεις της αυτοσυσχέτισης που αντιστοιχούν σε µηδενική τιµή ή στην τιµή 1/e της αυτοσυσχέτισης. Στην ίδια οµάδα περιλαµβάνονται και δύο απλά στατιστικά µέτρα η λοξότητα (sk x ) και η κύρτωση (κ x ) της χρονοσειράς. Χαρακτηριστικά του πεδίου Συχνοτήτων. Η υποοµάδα των χαρακτηριστικών του πεδίου των συχνοτήτων (Πίνακας 3.1) αποτελείται από µέτρα που ϐασίζονται στο διαχωρισµό της ενέργειας σε Ϲώνες συχνοτήτων (energy fraction in bands) E y (i) µε i = δ, θ, α, β, γ, καθώς και στην διάµεσο της συχνότητας (median frequency, mf). Τα χαρακτηριστικά αυτά υπολογίζονται από το φάσµα ισχύος της ενέργειας (power spectrum). Η ενέργεια σε µία Ϲώνη συχνοτήτων δίνεται από το κλάσµα του αθροίσµατος των τιµών του φάσµατος ισχύος σε διακριτές συχνότητες στο εσωτερικό της Ϲώνης ως προς τη συνολική ενέργεια. Χρησιµοποιήσαµε 5 Ϲώνες κλασµάτων της ενέργειας (δ, θ, α, β, γ) που είναι γνωστά ως εγκεϕαλικά κύµατα και αντιστοιχούν σε διαϕορετικούς τύπους της εγκεϕαλικής δραστηριότητας. Συγκεκριµένα τα κύµατα α έχουν το εύρος συχνοτήτων 8-13 Hz και αντιστοιχούν στην δραστηριότητα του εγκεϕάλου ενός ξυπνητού ανθρώπου µε κλειστά µάτια. Τα κύµατα β είναι στα Hz και αντιστοιχούν στην 43
62 Πίνακας 3.1: Χαρακτηριστικά συσχέτισης. Στην τρίτη στήλη δίνεται το πλήθος των συγκεκριµένων χαρακτηριστικών και στην τέταρτη στήλη δίνεται αθροιστικά ο συνολικός αριθµός των χαρακτηριστικών που υπολογίζουµε. Χαρακτηριστικά συσχέτισης και συχνοτήτων Συµβολισµός Περιγραϕή Σύνολο τ e Ο χρόνος αποσυσχέτισης (decorrelation time), χρονικό διάστηµα 1 1 για ry P (τ e ) = 1/e τ max Η χρονική υστέρηση που συγκλίνει στο µηδενικό σηµείο η 1 2 αµοιβαία πληροϕορία ή η αυτοσυσχέτιση sk x Η λοξότητα της χρονοσειράς 1 3 κ x Η κύρτωση της χρονοσειράς 1 4 Crx B (τ max ) Η αθροιστική αυτοσυσχέτιση Box Pierce για χρονική υστέρηση 1 5 τ max ry P (τ), Η αυτοσυσχέτιση Pearson για τ =5,10,20,30. Αθροιστική αυτοσυσχέτιση 6 11 Cry P (40),Cry P (τ max ) για χρονική υστέρηση 40 και τ max ry S, CrS y Οµοίως µε παραπάνω, για την αυτοσυσχέτιση Spearman 6 17 ry K, CrK y Οµοίως µε παραπάνω, για την αυτοσυσχέτιση Kendall 6 23 E x (i), i = δ, θ, α, β, γ Η ενέργεια στις Ϲώνες συχνοτήτων δ, θ, α, β, γ 5 28 mf x Η διάµεσος των συχνοτήτων για συχνότητες µεταξύ [0.5,48] 1 29 εγκεϕαλική δραστηριότητα της σκέψης και της συγκέντρωσης. Τα κύµατα γ είναι πάνω από 30 Hz και αναϕέρονται στην εγκεϕαλική δραστηριότητα που αϕορά συγκεκριµένες γνωστικές ή κινητικές λειτουργίες του ανθρώπου. Τα κύµατα δ έχουν το εύρος συχνοτήτων Hz και ανιχνεύονται συνήθως σε ϐρέϕη ή σε ενήλικες που κοιµούνται. Η διάµεσος της συχνότητας είναι η συχνότητα f για την οποία το ποσοστό της ενέργειας στη Ϲώνη των [0, f ] είναι το µισό. Τα µέτρα αυτά συχνότητας έχουν χρησιµοποιηθεί κυρίως στην ανάλυση EEG (Gevins and Rémond, 1987) Οµάδα Μη-Γραµµικών Χαρακτηριστικών Η οµάδα των µη-γραµµικών χαρακτηριστικών περιλαµβάνει χαρακτηριστικά τα οποία παρουσιά- Ϲονται στον Πίνακα 3.2 και τα οποία τα οµαδοποιήσαµε ως εξής : Χαρακτηριστικά που ϐασίζονται στη µη-γραµµική συσχέτιση όπως είναι η αµοιβαία πληροϕορία (mutual information) και η αυτοσυσχέτιση τριών σηµείων (bicorrelation). Χαρακτηριστικά διάστασης και πολυπλοκότητας όπως η διάσταση εµ- ϐύθισης (embedding dimension), η διάσταση συσχέτισης (correlation dimension), η εντροπία (entropy) και χαρακτηριστικά συσχετίσεων µακράς εµβέλειας όπως είναι ο εκθέτης Hurst. Ακολουθεί µια σύντοµη περιγραϕή των µέτρων που αντιστοιχούν σε κάθε µια από αυτές τις οµάδες. Χαρακτηριστικά µη-γραµµικής Συσχέτισης Στην οµάδα αυτή περιλαµβάνονται δύο χαρακτηριστικά, η αυτοσυσχέτιση τριών σηµείων (bicorrelation) και η αµοιβαία πληροϕορία (mutual information). Η αυτοσυσχέτιση τριών σηµείων (bicorrelation), ή αλλιώς συσχέτιση υψηλότερης τάξης (r3 b y ) είναι η από κοινού ϱοπή τριών µεταβλητών που σχηµατίζονται από τις τιµές της χρονοσειράς για δύο υστερήσεις τ και τ. Ενα απλουστευµένο σενάριο για την υλοποίηση των υστερήσεων είναι για τ = 2τ, έτσι ώστε το µέτρο αυτό να δίνεται ως συνάρτηση µιας µόνο υστέρησης τ. Η r3 b y ορίζεται κατά τον ίδιο τρόπο όπως η αυτοσυσχέτιση Pearson. 44
63 Πίνακας 3.2: Χαρακτηριστικά που αϕορούν εντροπία, πολυπλοκότητα και διάσταση. χαρακτηριστικά εντροπίας και διάστασης Συµβολισµός Περιγραϕή Σύνολο I y, CI y Η αµοιβαία πληροϕορία µε ισοµήκη διαµέριση (bins=16) για 6 35 τ =5,10,20,30. Αθροιστική αµοιβαία πληροϕορία για χρονική υστέρηση 40 και τ max di y, dci y Οµοίως µε πριν, για την διαϕορά I y Iy g όπου Iy g = 0.5ln( ry P ) r3 b y,cr3b y Οµοίως µε πριν για την (bicorelation) εκτός του τ = C y (r, m) Άθροισµα συσχέτισης για ακτίνα r=0.2, m=5,10 και τ =1, r(c y, m) Η ακτίνα για C y (m)=0.1, m=5,10 και τ =1, F NN Y (m) ApE y (r, m) το ποσοστό των ψευδών κοντινότερων γειτόνων για τ =1,10 και m=5,10 Η προσεγγιστική εντροπία (approximate entropy) για r=0.2, m=5,10 και t=1, ShE y (τ) Η εντροπία Shannon για m=2 και τ =5,10, 20, 30, T se y (τ) Η εντροπία Tsallis για q=1,5,3, m=2 και τ =5,10, 20, 30, SaE y (τ) Η δειγµατική εντροπία (sample entropy) για m=2 και r= P ee y (m) Η εντροπία αντιµετάθεσης (permutation entropy) για τ =1 και m=5,6,7 SpE y Φασµατική εντροπία (spectral entropy) για συχνότητες [0.5,48] AC d x, AC p x, AC d y LZ d x, LZ p x, LZ d y λ y (m, K) Η αλγοριθµική πολυπλοκότητα : ισαπέχουσα ( d ) και ισοπίθανη ( p ) διαµέριση το ίδιο µε το προηγούµενο αλλά για την πολυπλοκότητα Lempel Ziv Ο µέγιστος εκθέτης Lyapunov χρησιµοποιώντας τοπικές απεικονίσεις για τ =1,10 και m=5,10 και Κ=20, HigD y (m) Η διάσταση Higuchi για m=5, RQAi 14 µέτρα (i = 1,..., 14) που δηµιουργούνται από την Αναδροµική Ποσοτική Ανάλυση (Recurrence Quantification A- nalysis ) για m=5,10 GAD Y Η ατοµική πυκνότητα του Gabor µε µέγεθος λεξικού=15κ Η αµοιβαία πληροϕορία (mutual information) (I y ) έχει οριστεί ήδη στο Κεϕάλαιο 2 για Ϲεύγος διακριτών µεταβλητών X και Y. Για τις χρονοσειρές, X = x(i) και Y = x(i + τ) µε υστέρηση τ, και η αµοιβαία πληροϕορία είναι συνάρτηση της υστέρησης τ. Η αµοιβαία πληροϕορία µπορεί να ϑεωρηθεί ως µέτρο συσχέτισης για χρονοσειρές όπου µετρούνται η γραµµική αλλά και η µηγραµµική συσχέτιση. Υπάρχει ένας πλήθος εκτιµήσεων της I y µε πιο γνωστές την εκτίµηση της µε ϐάση τον διαµερισµό των τιµών (binning) σε ίσα µήκη αποστάσεων (equidistant binning) την οποία και χρησιµοποιήσαµε κατά τον υπολογισµό του µέτρου αυτού στις χρονοσειρές. Υπάρχει όµως και ο ισοπίθανος διαµερισµός των τιµών (equiprobable binning) (Cellucci et al., 2005; Papana and Kugiumtzis, 2008)). Η απόκλιση της αµοιβαίας πληροϕορίας di y ορίζεται ως η 45
64 διαϕορά µεταξύ της αµοιβαίας πληροϕορίας I y (τ) για συγκεκριµένη χρονική υστέρηση και της I g z (τ) που είναι η προσδοκόµενη αµοιβαία πληροϕορία µέσα από την Γκαουσιανή τυποποίηση των τιµών της αρχικής χρονοσειράς η οποία έχει την ίδια αυτοσυσχέτιση µε την I y (τ) και δίνεται από την έκϕραση I g y (τ) = 0.5 ln(1 r P y (τ)). Για την Γκαουσιανή τυποποίηση ϑα αναϕερθούµε λεπτοµερέστερα στο Κεϕάλαιο 5. Τα χαρακτηριστικά µέτρα της αθροιστικής αυτοσυσχέτισης τριών σηµείων (Cr3 b y ) της αθροιστικής ισαπέχουσας αµοιβαίας πληροϕορίας (CI y ) και αντίστοιχα της αθροιστικής απόκλισης της αµοιβαίας πληροϕορίας (dci y ) για δεδοµένες υστερήσεις, υπολογίζονται µε όµοιο τρόπο όπως και τα χαρακτηριστικά συσχέτισης µόνο που για την αµοιβαία πληροϕορία δεν πρόκειται για άθροισµα τετραγώνων αλλά για άθροισµα τιµών. Η υστέρηση που συγκλίνει στο µηδενικό σηµείο η αµοιβαία πληροϕορία (τ max ) παρουσιάζει ιδιαίτερο ενδιαϕέρον και χρησι- µοποιείται ως ξεχωριστό χαρακτηριστικό. Επιπλέον µπορεί να χρησιµοποιηθεί για τον υπολογισµό του ανακατασκευασµένου χώρου καταστάσεων (state space reconstruction), που αποτελεί ϐασική προϋπόθεση στη µη-γραµµική ανάλυση των χρονοσειρών. Αυτή η ειδική υστέρηση χρησιµοποιείται τόσο για την ισαπέχουσα διαµέριση στην εκτίµηση της αµοιβαίας πληροϕορίας όσο και για την αυτοσυσχέτιση τριών σηµείων αλλά και για τις αυτοσυσχετίσεις. Η αυτοσυσχέτιση τριών σηµείων r3 b y δεν είναι πολύ γνωστό χαρακτηριστικό, αλλά η αθροιστική αυτοσυσχέτιση τριών σηµείων Cr3 b y έχει χρησιµοποιηθεί ως ένα στατιστικό στοιχείο για τον έλεγχο ύ- παρξης γραµµικότητας (ή µη-γραµµικότητας) εϕαρµόζοντας τον λεγόµενο έλεγχο Hinich (Hinich test) (Hinich, 1996). Η r3 b y έχει χρησιµοποιηθεί ως ένα απλό µη-γραµµικό χαρακτηριστικό σε ελέγχους µη-γραµµικότητας µε χρήση υποκατάστατων δεδοµένων (Schreiber and Schmitz, 1997; Kugiumtzis, 2001). Χαρακτηριστικά ιαστάσεων και Πολυπλοκότητας Τα µη-γραµµικά δυναµικά συστήµατα χαρακτηρίζονται από αναλλοίωτα µέτρα, τα οποία µπορούν να εκτιµηθούν από τις παρατηρούµενες χρονοσειρές. Αυτά τα χαρακτηριστικά συνδέονται µε την πολυπλοκότητα της υποκείµενης δυναµικής του συστήµατος της χρονοσειράς καθώς και τη διάσταση του ελκυστή του συστήµατος (dimension and complexity measures), δηλαδή το σύνολο των σηµείων της τροχιάς του ελκυστή (trajectory), που παράγεται από το δυναµικό σύστηµα. Τα χαρακτηριστικά αυτά που παρουσιάζονται συνοπτικά στον Πίνακα 3.2 είναι τα εξής : Η διάσταση συσχέτισης (correlation dimension) είναι ένα µέτρο της κλασµατικής διάστασης του ελκυστή και είναι το πιο δηµοϕιλές µεταξύ των άλλων µέτρων που µετρούν τη διάσταση ενός µορϕοκλασµατικού (fractal), όπως για παράδειγµα η διάσταση της πληροϕορίας καθώς και η διάσταση µέτρησης κουτιών box-counting dimension (Grassberger and Procaccia, 1983). Η διάσταση συσχέτισης για έναν απλό ελκυστή είναι ένας ακέραιος αριθµός, ο οποίος για παράδειγµα αντιστοιχεί τη διάσταση σε ένα σύνολο πεπερασµένων σηµείων µιας περιοδικής τροχιάς µιας απεικόνισης ή σε έναν οριακό κύκλο ή ένα δακτύλιο (torus). Στις περιπτώσεις όµως που ο ελκυστής είναι παράξενος (strange attractor), η τιµή της διάστασης συσχέτισης δεν είναι ακέραιος αριθµός. Η διάσταση συσχέτισης υπολογίζεται από την πυκνότητα των αποστάσεων µεταξύ των σηµείων της ανακατασκευασµένης χρονοσειράς. Η ανακατασκευή της χρονοσειράς γίνεται µε χρονική υστέρηση (delay) τ και για διάσταση εµβύθισης (embedding dimension) m. Η εκτίµηση αρχίζει µε τον υπολογισµό του αθροίσµατος συσχέτισης (correlation sum) (C y (r, m)) (το οποίο καταχρηστικά καλείται και ολοκλήρωµα της συσχέτισης), το οποίο υπολογίζεται για ένα εύρος αποστάσεων r. Ο τελευταίος αυτός όρος αναϕέρεται και ως ακτίνα, διότι χρησιµοποιείται η Ευκλείδεια µετρική ώστε να υπολογιστούν οι αποστάσεις µεταξύ όλων των σηµείων και του κάθε σηµείου αναϕοράς. Ετσι, για κάθε r, η τιµή C y (r, m) είναι το µέσο ποσοστό των σηµείων µέσα στην ακτίνα r. Ενα ακόµη µέτρο είναι η ακτίνα r για συγκεκριµένες τιµές της διάστασης συσχέτισης που είναι γνωστή ως αντίστροϕο της αθροιστικής πυκνότητας (inverse cumulative density) και την συµβολίζουµε r(c y, m). 46
65 Τα µέτρα αυτά ϐρέθηκε ότι αποδίδουν καλύτερα απ ότι το µέτρο της διάστασης συσχέτισης το οποίο απαιτεί την κλιµάκωση των τιµών του αθροίσµατος συσχέτισης ανάλογα µε την απόσταση, γεγονός που είναι δύσκολο να επιτευχθεί σε πραγµατικά δεδοµένα χρονοσειρών όπως είναι τα EEG (Lerner, 1996; Ehlers et al., 1998; McSharry et al., 2003; Andrzejak et al., 2006). Η διάσταση εµβύθησης m είναι µια σηµαντική παράµετρος για την ανάλυση των χρονοσειρών από την πλευρά της προσέγγισης της δυναµικής του συστήµατος, και καθορίζει την Ευκλείδεια διάσταση του ψευδο-χώρου στον οποίο (υποτίθεται ότι) ο ελκυστής ανακατασκευάζεται από την χρονοσειρά. Τα σηµεία της χρονοσειράς που ανακατασκευάστηκαν µε τη διάσταση εµβύθησης m και χρονική υστέρηση τ είναι : x t = [ x t, x t+τ,..., x t+(m 1)τ ] T για t = 1,..., n και n = n (m 1)τ h. Το Ϲητούµενο είναι να ϐρεθεί µια µικρή τιµή του m που να είναι ικανή να ξεδιπλώσει τον ελκυστή του συστήµατος. Μια δηµοϕιλής µέθοδος για την εκτίµηση του m, είναι η µέθοδος των ψευδών κοντινότερων γειτόνων (false nearest neighbors-fnn) (Kennel et al., 1992) και το µέτρο το οποίο υπολογίζουµε στη διατριβή αυτή (F NN Y (m)) είναι το ποσοστό των ψευδών κοντινότερων γειτόνων για συγκεκριµένες τιµές χρονικής υστέρησης τ και διάστασης εµβύθισης m. Η µέθοδος αυτή αξιολογεί ένα κριτήριο επάρκειας για την αύξηση του m. Για κάθε ανακατασκευασµένο σηµείο µε την υπό εξέταση διάσταση εµβύθισης m, ελέγχεται κατά πόσο ο κοντινότερος γείτονάς του αποµακρύνεται, µε την προσθήκη µιας νέας συνιστώσας, δηλαδή αν η απόσταση αυξάνει τουλάχιστον κατά έναν παράγοντα διαϕυγής (escape factor) όταν αυξάνει η διάσταση εµβύθισης από m σε m + 1. Αν συµβαίνει αυτό, τα δύο σηµεία χαρακτηρίζονται ως ψευδείς κοντινότεροι γείτονες. Η εκτιµώµενη ελάχιστη διάσταση εµβύθισης είναι αυτή που δίνει για πρώτη φορά ένα ασήµαντο ποσοστό ψευδών κοντινότερων γειτόνων. Κατά την εϕαρµογή του αλγορίθµου FNN χρησιµοποιούµε την Ευκλείδεια απόσταση ως µετρική (Hegger and Kantz, 1999). Μεταξύ των διαϕόρων χαρακτηριστικών µέτρων πολυπλοκότητας που προτείνονται συχνά στη ϐιβλιογραϕία, η εντροπία (entropy) και η αλγοριθµική πολυπλοκότητα (algorithmic complexity) είναι δύο από τα χαρακτηριστικά που έχουν χρησιµοποιηθεί και εϕαρµοστεί στις χρονοσειρές. Συµπεριλάβαµε διάϕορες παραλλαγές εκτίµησης της εντροπίας που χρησιµοποιούνται συχνά στην ανάλυση EEG µε πιο γνωστή την εντροπία Shannon (ShE y (τ)) (Shannon and Weaver, 1949; Greene et al., 2008), την προσεγγιστική εντροπία (approximate entropy) (ApE y (r, m)) (Pincus, 1991; Papadelis et al., 2007; Ocak, 2009; Greene et al., 2008), την εντροπία Tsallis (T se y (τ)) (Bezerianos et al., 2003), τη δειγµατική εντροπία (sample entropy) (SaE y (τ)) (Lake et al., 2002; Yum et al., 2008), την εντροπία αντιµετάθεσης (permutation entropy) (P ee y (m)) (Bandt and Pompe, 2002; Staniek and Lehnertz, 2007; Bruzzo et al., 2008) και τη φασµατική εντροπία (spectral entropy) (SpE y ) (Kannathal et al., 2006; Greene et al., 2008). Η αλγοριθµική πολυπλοκότητα (Kolmogorov complexity, ACx, d ACx, p ACy d ), ποσοτικοποιεί το πόσο περίπλοκη είναι µια συµβολική ακολουθία από την άποψη του µικρότερου µήκους προγράµµατος ηλεκτρονικού υπολογιστή (ή το σύνολο των αλγορίθµων) που απαιτείται για να περιγράψουν πλήρως τη συµβολική ακολουθία. Στη διατριβή αυτή χρησιµοποιήσαµε επίσης και την προσέγγιση των Lempel και Ziv (LZx, d LZx, p LZy d ) οι οποίοι πρότειναν ένα παρόµοιο µέτρο για την απλότητα της συµβολικής αλληλουχίας, ή την οµοιότητά της µε µια τυχαία συµβολική ακολουθία (Lempel and Ziv, 1976). Υπολογιστικά, η πολυπλοκότητα της ακολουθίας αξιολογείται από την πολλαπλότητα των διαϕορετικών λέξεων, ποικίλου µήκους στην ακολουθία των συµβόλων. Το χαρακτηριστικό της αλγοριθµικής πολυπλοκότητας, αν και ορίζεται για ακολουθίες συµβόλων, έχει χρησιµοποιηθεί και στην ανάλυση χρονοσειρών, όπως π.χ. στις εργασίες των Radhakrishnan et al. (2000); Zhao et al. (2006). Για τον υπολογισµό των µέτρων αυτών εϕαρµόσαµε 16 διαµερίσεις bins µε ισοµήκη ( d ) και ισοπίθανη ( p ) διαµέριση σύµϕωνα µε τους Hu et al. (2006)) και τα εϕαρµόσαµε στις αρχικές τιµές της χρονοσειράς (AC x, LZ x ) αλλά και στις Γαουσιοποιηµένες χρονοσειρές (AC y, LZ y ). Υπάρχει πλήθος άλλων χαρακτηριστικών µέτρων της πολυπλοκότητας, µε πιο αντιπροσωπευτικό τον µέγιστο εκθέτη Lyapunov (largest Lyapunov exponent,λ y (m, K)) ο οποίος µετρά το ποσοστό της απόκλισης των κοντινών τροχιών σε ένα ανακατασκευασµένο χώρο καταστάσεων. Οταν η υποκείµενη 47
66 δυναµική του συστήµατος της χρονοσειράς είναι χαοτική, αναµένεται ότι κατά µέσο όρο, η αρχική απόσταση µεταξύ των δύο κοντινών τροχιών εκκίνησης y t και y t ϑα είναι δ 0,t = y t y t και ϑα µεγαλώνει εκθετικά µε χρονικό ϐήµα h, δηλαδή δ h,t = y t+h y t +h (Kantz and Schreiber, 1997). Μία εκτίµηση του µέγιστου εκθέτη Lyapunov δίνεται ως λ y = 1 N Nτ t=1 ln δ h,t δ 0,t. Εδώ όµως εκτιµήσαµε το λ y από την πρώτη τιµή του φάσµατος εκθετών Lyapunov του πακέτου προγραµµάτων TISEAN (Hegger et al., 1999) και χρησιµοποιήσαµε δύο µεγέθη γειτνίασης (20 και 40 γείτονες) µε τις ίδιες παραµέτρους ανακατασκευής του χώρου όπως και σε άλλα µέτρα. Ενα επίσης δηµοϕιλές µέτρο πολυπλοκότητας στην ανάλυση χρονοσειρών και ειδικά EEG είναι η διάσταση Higuchi (HigD y (m)) (Higuchi, 1988; Polychronaki et al.). Η αναδροµική ποσοτική ανάλυση (Recurrence Quantification Analysis, RQAi) ϐασίζεται στην έννοια των αναδροµικών τροχιών των δυναµικών συστηµάτων και παρέχει πλήθος µέτρων (i = {1,..., 14} στην περίπτωσή µας) που προέρχονται από την αναδροµική απεικόνιση των τροχιών. Εϕαρµογή των µέτρων αυτών σε χρονοσειρές και ειδικά σε EEG έχει γίνει από τους Schinkel et al. (2009). Υπολογίσαµε 14 µέτρα σύµϕωνα µε το λογισµικό των Marwan et al. (2007). Η ατοµική πυκνότητα του Gabor GAD Y ή αλλιώς συµµετρικά λεξικά είναι ένα επίσης µέτρο πολυπλοκότητας το οποίο χρησιµοποιείται στην ανάλυση σηµάτων EEG (Jouny et al.). Το µέτρο αυτό δίνεται µε όρους πλήθους των ατόµων που απαιτούνται για να αποσυντεθεί ένα σήµα. Η ατοµική πυκνότητα του Gabor έχει την ιδιότητα να κωδικοποιεί την υϕή και τα πρότυπα του σήµατος δηµιουργώντας λεξικά µε οµάδες ατόµων Gabor. Εϕαρµόσαµε το µέτρο αυτό στη διατριβή αυτή για αρκετά µεγάλο αλλά υπολογιστικά εϕικτό λεξικό ατόµων µήκους 15Κ. Αλλα Χαρακτηριστικά Η οµάδα αυτή περιλαµβάνει κάποια στατιστικά χαρακτηριστικά και χαρακτηριστικά συσχετίσεων µακράς εµβέλειας, τα οποία δίνονται στον Πίνακα 3.3. Πίνακας 3.3: Άλλα χαρακτηριστικά. Χαρακτηριστικά συσχετίσεων µακράς εµβέλειας Συµβολισµός Περιγραϕή Σύνολο HjM y, HjC y, Οι παράµετροι Hjorth mobility και complexity BaA y, BaF y, BaS y Η ένταση Barlow, η µέση τιµή συχνοτήτων και το φάσµα συχνοτήτων MNE y, LL y Η µέση τιµή της µη-γραµµικής ενέργειας και το µήκος γραµ µής Line Length HeS y, HeE y, HeC y Η κλίση του εκθέτη Hurst, το σϕάλµα προσαρµογής, και η σχετική µεταβολή του σϕάλµατος DF S y, DF E y, DF C y η ανάλυση (Detrended Fluctuation Analysis) οµοίως µε πριν Απλά στατιστικά χαρακτηριστικά : Τα χαρακτηριστικά Hjorth mobility HjM y και Hjorth complexity HjC y (παράµετροι της κινητικότητας και της πολυπλοκότητας) είναι απλά µέτρα πολυπλοκότητας σήµατος ϐασιζόµενα στη ϱοπή δεύτερης τάξης του σήµατος καθώς και στην πρώτη και τη δεύτερη παράγωγό του. Τα µέτρα αυτά έχουν χρησιµοποιηθεί στην ανάλυση EEG, και είναι... κλινικά χρήσιµα εργαλεία για την ποσοτική περιγραϕή ενός EEG σύµϕωνα µε τα λεγόµενα της δηµοσίευσης του Hjorth (1970). Τέτοια απλά στατιστικά χαρακτηριστικά είναι επίσης η ένταση Barlow (BaA y ) απ όπου υπολογίζουµε τη µέση τιµή συχνοτήτων (BaF y ) και το αντίστοιχο φάσµα συχνοτήτων (BaS y ), η µέση 48
67 τιµή µή-γραµµικής ενέργειας (MNE y ) και το µήκος γραµµής line length, LL y (Greene et al., 2008; Vidaurre and Schloegl, 2008) Συσχετίσεις µακράς εµβέλειας : Τα χαρακτηριστικά µεγάλου εύρους συσχετίσεων περιλαµβάνουν την Rescaled Range (R/S) ανάλυση και τη Detrended Fluctuation analysis (DFA). Η rescaled-range analysis (R/S) ανάλυση και η ανάλυση διακυµάνσεων µετά την αποµάκρυνση των τάσεων (detrended fluctuation analysis, DFA) είναι δύο µέθοδοι που χρησιµοποιούνται για την εκτίµηση συσχετίσεων µακράς εµβέλειας σε χρονοσειρές και ειδικά σε EEG (Berthouze et al., 2010). Για κάθε µια από τις δύο αυτές προσεγγίσεις παράγουµε τρία µέτρα από την γραϕική παράσταση µιας ποσότητας όµοιας µε την διακύµανση ως προς το µήκος του παραθύρου προσαρµογής (fitting), την εκτίµηση της κλίσης της καµπύλης (HeS y, DF S y ) (που είναι ο λεγόµενος εκθέτης Hurst), το σϕάλµα της γραµµικής προσαρ- µογής που δίνει την εκτίµηση της κλίσης (HeE y, DF E y ) και τη σχετική µεταβολή του σϕάλµατος προσαρµογής όταν αυξάνει το παράθυρο κατά την προσαρµογή (HeC y, DF C y ). Τα µέτρα αυτά έχουν χρησιµοποιηθεί κατά κύριο λόγο στα οικονοµικά, τη γεωϕυσική, τις µελέτες του DNA (Edgar, 1996; Mandelbrot, 1997; Peng et al., 1994) Χαρακτηριστικά Γραµµικών Μοντέλων και µη-γραµµικών Μοντέλων Τα πιο γνωστά γραµµικά µοντέλα χρονοσειρών είναι το µοντέλο αυτοπαλινδρόµισης (autoregressive model, AR) και το µοντέλο αυτοπαλινδρόµισης κινούµενου µέσου (autoregressive moving average model-arma) (Box et al., 1994). Υπολογίσθηκαν στατιστικά µέτρα για την προσαρµογή (fitting) των χρονοσειρών, µε χρήση του µοντέλου AR (dar y (m)) καθώς και του τοπικού γραµµικού µοντέλου local-linear model,local-ar (dloc y (m 1, m 2, K)) για διαϕορετικές τιµές της τάξης του µοντέλου και διαϕορετικούς γείτονες (Farmer and Sidorowich, 1987). Επίσης υπολογίσθηκε και η διαϕορά της προσαρµογής µεταξύ των δύο αυτών µοντέλων dlocar y (m, K) = dloc y (m 1, m 2, K) dar y (m). Το στατιστικό µέτρο που εκτιµά την ποιότητα της προσαρµογής είναι το µέσο τετραγωνικό σϕάλµα (mean square error-mse) µεταξύ των πραγµατικών τιµών της χρονοσειράς και των τιµών που προκύπτουν από το µοντέλο για τάξεις m = 0, 5, 10 µε K=20 και 40 γείτονες για τα τοπικά γραµµικά µοντέλα (Madsen, 1995). Τα µέτρα αυτά παρουσιάζονται στον Πίνακα 3.4. Πίνακας 3.4: Χαρακτηριστικά που ϐασίζονται στα γραµµικά και µη-γραµµικά µοντέλα. χαρακτηριστικά γραµµικών και µη-γραµµικών µοντέλων Συµβολισµός Περιγραϕή Σύνολο dar y (m 1, m 2 ) dloc y (m 1, m 2, K) dlocar y (m, K) η διαϕορά των σϕαλµάτων (MSE) του µοντέλου AR για m=0,5,10 και τ =1,10 όµοια µε το προηγούµενο αλλά για το τοπικό µοντέλο AR για m=0,5,10 και τ =1,10 και Κ=20,40 η διαϕορά προσαρµογής µεταξύ του τοπικού µοντέλου locar και του AR για m=5,10 µε τ =1,10 και Κ=20, Χαρακτηριστικά ταλαντώσεων Υπάρχουν δύο ειδικά εργαλεία ανάλυσης ταλαντώσεων σε χρονοσειρές, οι µετασχηµατισµοί Fourier και οι µετασχηµατισµοί κυµατιδίων (wavelet). Μια εναλλακτική προσέγγιση όµως που πρωτοπαρουσιάσθηκε από τους (Kugiumtzis et al., 2006, 2007) εξάγει απευθείας χαρακτηριστικά από κάθε ταλάντωση 49
68 της χρονοσειράς και σχηµατίζει χρονοσειρές µε τα χαρακτηριστικά αυτά. ηµιουργούνται συνολικά επτά χρονοσειρές από τα χαρακτηριστικά w = {1,..., 7} που έχουν εξαχθεί, οι οποίες παρουσιάζονται στον Πίνακα 3.5. Για τον σχηµατισµό των χρονοσειρών αυτών, πρέπει να προσδιοριστούν πρώτα τα σηµεία Πίνακας 3.5: Χρονοσειρές που σχηµατίζονται από τα χαρακτηριστικά ταλάντωσης w i για i = {1,..., 7} που εξάγονται από κάθε χρονοσειρά {x t } N t=1. w 1 w 2 w 3 w 4 w 5 w 6 w 7 Χρονοσειρά Περιγραϕή {x max i } n i=1 τοπικό µέγιστο από παράθυρο 15 παρατηρήσεων {x min i } n i=1 τοπικό ελάχιστο {t osc i } n i=1 χρόνος µεταξύ δύο διαδοχικών τοπικών µεγίστων {t max,min i } n i=1 χρόνος από τοπικό ελάχιστο έως το επόµενο τοπικό µέγιστο {δ max,min i } n i=1 διαϕορά µεταξύ τοπικού µεγίστου και ελαχίστου {z abs i } n i=1 διάστηµα µεταξύ ακίδων (inter-spike interval) από { x t } N t=1 {z cut i } n i=1 διάστηµα µεταξύ ακίδων από {x t +cutoff} N t=1 καµπής. Ενα σηµείο καµπής των χρονοσειρών είναι ένα σηµείο αλλαγής διεύθυνσης, δηλαδή ένα τοπικό ελάχιστο (τοπικό µέγιστο), εϕόσον είναι η µικρότερη (µεγαλύτερη) τιµή από όλες τις παρατηρήσεις µέσα σε ένα παράθυρο δεδοµένων µε κέντρο το Ϲητούµενο σηµείο. Το µέγεθος του παραθύρου δεδοµένων δίνεται ως 2h + 1 για µια δεδοµένη τιµή h (κατά τους υπολογισµούς µας χρησιµοποιήθηκε το h=15 ή 4). Τα χαρακτηριστικά w = {1,..., 4} που σχηµατίζουν τις τέσσερις πρώτες χρονοσειρές του Πίνακα 3.5 αϕορούν τα σηµείας καµπής και τον χρόνο ταλάντωσης. Το πέµπτο χαρακτηριστικό αϕορά τη διαϕορά των διαδοχικών σηµείων καµπής και συµπεριλαµβάνεται προκειµένου να αποτυπωθούν πληροϕορίες σχετικά µε το εύρος της ταλάντωσης οι οποίες ϑα ληϕθούν υπόψιν στις περιπτώσεις ύπαρξης µικρών διακυµάνσεων στις χρονοσειρές ταλαντώσεων. Τέλος τα διαστήµατα µεταξύ ακίδων (inter-spike intervals, ISI) ορίστηκαν για τις περιπτώσεις αρνητικών τιµών στις χρονοσειρές και χαρακτηρίζουν τις ταλαντώσεις µε διαϕορετικό τρόπο. Ενα ISI έχει ορισθεί ως ο χρόνος που χρειάζεται ώστε το άθροισµα των τιµών της χρονοσειράς να φτάσουν ένα συγκεκριµένο όριο (Sauer, 1994). Μία χρονοσειρά µε διαδοχικά ISI επιτυγχάνεται από ένα κατώϕλι που έχει προηγουµένως ορισθεί από τη µέση τιµή του χρόνου ταλάντωσης και από τη µέση τιµή της χρονοσειράς. Τα µέτρα που εκτιµήθηκαν πάνω σε αυτές τις επτά χρονοσειρές των w µέτρων, παρουσιάζονται στον Πίνακα 3.6 και είναι οµαδοποιηµένα σύµϕωνα µε την συνολική οµαδοποίηση των µέτρων. Συµπεριλά- ϐαµε επίσης και µια οµάδα απλών στατιστικών µέτρων όπως τη διάµεσο (m(w)) και το ενδοτεταρτοµο- ϱιακό εύρος (IQR(w)), τη µέση τιµή (µ(w)) και την τυπική απόκλιση (sd(w)). Τα µέτρα αυτά έχουν χρησιµοποιηθεί για την ανάλυση της ταλάντωσης των χρονοσειρών (π.χ. Kugiumtzis et al. (2004)), όπως επίσης και για την ανίχνευση µη ύπαρξης ταλάντωσης στις χρονοσειρές, π.χ. όσον αϕορά τα χρηµατοοικονοµικά δεδοµένα (Garciá-Ferrer and Queralt, 1998; Bao and Yang, 2008). Επιλέξαµε επίσης να εκτιµηθούν αντιπροσωπευτικά µέτρα από τις αρχικές οµάδες µέτρων πάνω στις χρονοσειρές του Πίνακα 3.5, κυρίως αυτά που αναµένεται να έχουν αξιόπιστες εκτιµήσεις. Εξαιτίας του µειωµένου µήκους των χρονοσειρών αυτών χρησιµοποιήσαµε στις παραµέτρους των µέτρων µικρότερες τιµές. Από τα µέτρα γραµµικής συσχέτισης χρησιµοποιούµε µόνο την αυτοσυσχέτιση Pearson (r P w(τ), (Cr P w(3)», όπως επίσης τη διασυσχέτιση cross-correlation (c w1,w 2 (τ)) και την αθροιστική διασυσχέτιση (Cc w1,w 2 (3)) των τεσσάρων χαρακτηριστικών που ανιχνεύουν ταλαντώσεις. Χρησιµοποιήσαµε την αλγοριθµική πολυπλοκότητα (AC p w) από την οµάδα των χαρακτηριστικών πολυπλοκότητας, την προσεγγιστική εντροπία (AE w (r, m)) από την οµάδα των µέτρων εντροπίας και τους ψευδείς κοντινότερους γείτονες (F NN w (m)) από την οµάδα µέτρων διάστασης. Χρησιµοποιήσαµε όλα τα µέτρα της οµάδας χαρα- 50
69 κτηριστικών που ϐασίζονται σε µοντέλα (dar w (m 1, m 2 ), dloc w (m 1, m 2, K), dlocar w (m, K)) αλλά µε µικρότερη τιµή της διάστασης εµβύθισης m και του πλήθους γειτόνων K. Το συνολικό πλήθος των µέτρων για τις διαϕορετικές τιµές των παραµέτρων τους είναι 371 µέτρα. Αυτή η επιλογή των µέτρων Πίνακας 3.6: Χαρακτηριστικά που υπολογίζονται πάνω σε χρονοσειρές από µέτρα ταλαντώσεων. Συµβολισµός Περιγραϕή (για το µέτρο w) Σύνολο απλά χαρακτηριστικά m(w) Η διάµεσος που υπολογίζεται σε επτά χρονοσειρές που δη µιουργήθηκαν από τις τιµές επτά χαρακτηριστικών {w} n i=1 IQR(w) Το ενδοτεταρτοµοριακό εύρος τιµών των {w} n i= µ(w) Η µέση τιµή των {w} i=1, s(w) Η τυπική απόκλιση των {w} i=1, συσχετίσεις rw(τ) P Η αυτοσυσχέτιση Pearson για τ =1,2,3 (3x7) Crw(3) P Η αθροιστική αυτοσυσχέτιση για χρονική υστέρηση 3 (1x7) c w1,w 2 (τ) Η διασυσχέτιση (cross-correlation) για χρονική υστέρηση τ = , 1, 2, 3 αλλά µόνο για x max i, x min i, t osc i, t max,min i (4x3x4) Cc w1,w 2 (3) Η αθροιστική διασυσχέτιση για χρονική υστέρηση 3 αλλά µόνο για x max i, x min i, t osc i, t max,min i (3x4) πολυπλοκότητα, εντροπία, διάσταση ACw p αλγοριθµική πολυπλοκότητα για ισοπίθανη διαµέριση µε bins=2 (1x7) AE w (r, m) προσεγγιστική εντροπία για r=0.2 και m=1,2 (2x7) F NN w (m) ποσοστό ψευδών γειτόνων για m=1,2 (2x7) µοντελοποίηση dar w (m 1, m 2 ) Η διαϕορά στο σϕάλµα MSE του µοντέλου AR για m = 5, 10 (2x7) dloc w (m 1, m 2, K) Το ίδιο µε πριν για το τοπικό µοντέλο AR και για K = 5, 10 (4x7) dlocar w (m, K) Η διαϕορά του τοπικού µοντέλου-ar µείων το AR για m = 5, 10 και K = 5, 10 (4x7) δεν είναι η ϐέλτιστη, (µπορεί να υπάρχουν και άλλα µέτρα κατάλληλα για την µελέτη χρονοσειρών). Ωστόσο τα µέτρα που περιγράψαµε παραπάνω και χρησιµοποιήσαµε στην ερευνά µας πιστεύουµε ότι αντιπροσωπεύουν το µεγαλύτερο µέρος από τις οµάδες χαρακτηριστικών µέτρων που αναϕέρθηκαν και συµπεριλαµβάνουν σχεδόν το σύνολο των χαρακτηριστικών που αναϕέρεται στην ϐιβλιογραϕία και χρησιµοποιείται στην ανάλυση χρονοσειρών. Το σύνολο των χαρακτηριστικών αυτών, άλλες φορές ή µέρος αυτών, υπολογίστηκαν και χρησιµοποιήθηκαν στις µελέτες που ϑα περιγράψουµε στη συνέχεια. 3.5 Μέθοδοι τυποποίησης Σε όλες τις διαδικασίες ανακάλυψης γνώσης, η προεπεξεργασία των δεδοµένων, πριν την εϕαρµογή των αλγορίθµων εξόρυξης γνώσης, διαδραµατίζει σηµαντικό ϱόλο. Ενα από τα πρώτα ϐήµατα αϕορά την εξοµάλυνση ή αλλιώς κανονικοποίηση των δεδοµένων. Αυτό το ϐήµα είναι πολύ σηµαντικό όταν 51
70 πρόκειται για τιµές δεδοµένων που περιγράϕονται σε διαϕορετικές µονάδες και διαϕορετικές κλίµακες. Για παράδειγµα υπάρχουν ορισµένες τεχνικές εξόρυξης δεδοµένων που χρησιµοποιούν την Ευκλείδεια απόσταση ως µέτρο σύγκρισης. Ως εκ τούτου, όλα τα χαρακτηριστικά που πρόκειται να µελετηθούν ϑα πρέπει να έχουν την ίδια κλίµακα για να είναι δίκαιη η σύγκριση µεταξύ τους. ύο είναι οι διαδικασίες που είναι γνωστές για την αλλαγή κλίµακας στις τιµές των δεδοµένων. Η κανονικοποίηση (normalization), σύµϕωνα µε την οποία όλες οι τιµές µιας µεταβλητής ή ενός χαρακτηριστικού κλιµακώνονται στο διάστηµα [0,1] και η τυποποίηση των δεδοµένων, σύµϕωνα µε την οποία οι τιµές των χαρακτηριστικών µετατρέπονται σε διαϕορετική κλίµακα, ώστε να έχουν µηδενική µέση τιµή και διασπορά ίση µε την µονάδα (Everitt et al., 2001). Σύµϕωνα µε τον πρώτο τρόπο εάν υπάρχουν ακραία ή αλλιώς ανώµαλα σηµεία (outliers) στα δεδοµένα (δυστυχώς τα περισσότερα πραγµατικά δεδοµένα περιέχουν και ακραία σηµεία), τότε µε την κανονικοποίηση των δεδοµένων, απλά τα κανονικοποιηµένα δεδοµένα ϑα συµπυκνωθούν σε ένα πολύ µικρό διάστηµα. Κατά τη χρήση της τυποποίησης, η υπόθεση που γίνεται είναι ότι τα δεδοµένα έχουν παραχθεί µε µια Γκαουσιανή κατανοµή (µε κάποια µέση τιµή και τυπική απόκλιση). Υπάρχει ϐέβαια και ένας άλλος τρόπος σύµϕωνα µε τον οποίο εϕαρµόζεται µια συνάρτηση πάνω στα δεδοµένα και τα µετασχηµατίζει σε άλλες τιµές. Υπάρχουν δύο ϐασικοί λόγοι για την τυποποίηση των δεδοµένων. Πρώτον οι µονάδες µέτρησης που χρησιµοποιούνται για την µέτρηση των χαρακτηριστικών µέτρων των χρονοσειρών ή οποιασδήποτε µεταβλητής ποσότητας, µπορούν αυθαίρετα να επηρεάσουν τις οµοιότητες µεταξύ των δειγµάτων των χρονοσειρών. Εϕαρµόζοντας την τυποποίηση στις τιµές των χαρακτηριστικών και επαναδιατυπώνοντάς τες σε αδιάστατες µονάδες, αϕαιρούνται οι αυθαίρετες επιδράσεις. εύτερον η τυποποίηση κάνει τα χαρακτηριστικά να συνεισϕέρουν ισοδύναµα στην εύρεση οµοιοτήτων µεταξύ των δειγµάτων. Για πα- ϱάδειγµα εάν το εύρος τιµών ενός χαρακτηριστικού είναι πολύ µεγαλύτερο από ενός άλλου, τότε το πρώτο από αυτά ϑα έχει µεγαλύτερη ϐαρύτητα στον καθορισµό οµοιοτήτων µεταξύ των δειγµάτων. Το αντιστάθµισµα για την αποϕυγή τέτοιων καταστάσεων είναι η εϕαρµογή τυποποίησης στα δεδοµένα. Εξαιτίας του µεγάλου φάσµατος κλιµάκωσης των τιµών καθώς και της κατανοµής των τιµών χαρακτηριστικών που χρησιµοποιούνται σε προβλήµατα εξόρυξης δεδοµένων, αναµένεται ότι η επίδραση του κάθε χαρακτηριστικού στην ταξινόµηση, διαµέριση και κατηγοριοποίηση των χρονοσειρών, ϑα σχετίζεται και µε το σύστηµα τυποποίησης των τιµών των χαρακτηριστικών, που ϑα εϕαρµοσθεί. Στην ενότητα αυτή ϑα παρουσιάσουµε γνωστές µεθόδους κανονικοποίησης και τυποποίησης των δεδοµένων επειδή ϑέλουµε να µελετήσουµε την επίδραση που έχει η κανονικοποίηση και η τυποποίηση των τιµών των χαρακτηριστικών αλλά και των δεδοµένων των χρονοσειρών στην απόδοση διαϕόρων αλγορίθµων και κατά πόσο επηρεάζουν τη διαµόρϕωση των τελικών αποτελεσµάτων. Οταν στη συνέχεια ϑα αναϕερόµαστε σε κάποιες από τις µεθόδους αυτές ϑα τις καλούµε µεθόδους τυποποίησης για να κρατήσουµε ενιαίο τρόπο αναϕοράς σε αυτές τις µεθόδους. Ακολουθούν οι πιο γνωστές και συχνότε- ϱα χρησιµοποιούµενες µέθοδοι τυποποίησης για κάθε χρονοσειρά {x i } N i=1, µε µέση τιµή x, τυπική απόκλιση s x, µέγιστη τιµή x max και ελάχιστη τιµή x min. Γραµµική κανονικοποίηση Linear: Αυτή τη µέθοδος µετατρέπει τις τιµές από [, + ] στην πε- ϱιοχή τιµών από [0,1] και σύµϕωνα µε τον παρακάτω τύπο όπου y i είναι η κανονικοποιηµένη τιµή και x i είναι η τιµή του κάθε στιγµιοτύπου της χρονοσειράς. y i = x i x min x max x min (3.7) Λογιστική τυποποίηση (Logistic): Αυτή η µέθοδος µετατρέπει τις τιµές από [, + ] στην περιοχή τιµών µεταξύ [0,1]. Η µέθοδος αυτή είναι γνωστή και ως κανονικοποίηση softmax 1 y i = 1 + e x i (3.8) 52
71 Τυποποίηση ιασποράς ή παραλλαγής (Variance/z-score): Σύµϕωνα µε την τυποποίηση αυτή οι τιµές y i ακολουθούν την κανονική κατανοµή µε µέση τιµή 0 και τυπική απόκλιση 1. Η τιµή y i είναι αρνητική στην περίπτωση που τιµή της παρατήρησης είναι κάτω από την µέση τιµή και ϑετική όταν είναι πάνω από την µέση τιµή. y i = x i x (3.9) s x Η µέθοδος είναι ιδιαίτερα χρήσιµη σε περιπτώσεις όπου το εύρος τιµών των µεταβλητών είναι πολύ µεγάλο. Λογαριθµική τυποποίηση (Logarithmic): Η µέθοδος αυτή είναι στην πραγµατικότητα ένας λογα- ϱιθµικός µετασχηµατισµός. Είναι χρήσιµος εάν οι τιµές της µεταβλητής είναι εκθετικά κατανεµηµένες και το πλήθος των µικρών τιµών είναι υπερβολικά µεγαλύτερο από αυτό των µεγάλων τιµών. Αυτός ο µετασχηµατισµός είναι ένας καλός τρόπος για να δοθεί µεγαλύτερη έµϕαση στο χαµηλότερο άκρο των τιµών της µεταβλητής. Αυτό που γίνεται πραγµατικά είναι ένας µη γραµµικός µετασχηµατισµός σύµϕωνα µε την παρακάτω σχέση y i = ln(x i x min + 1) (3.10) όπου ln είναι ο φυσικός λογάριθµος και τιµές που προκύπτουν σύµϕωνα µε αυτή τη µέθοδο είναι πάντα ϑετικές. Οµοιόµορϕη τυποποίηση (Uniform standardization): y i = ˆF x (x i ) (3.11) όπου ˆF x είναι η δειγµατική αθροιστική περιθωριακή συνάρτηση πυκνότητας πιθανότητας (sample marginal cumulative density function (cdf)) των τιµών {x i } N i=1 που δίδονται από την διάταξη ταξινόµησης του κάθε δείγµατος x i διαιρεµένη µε το N. Η περιθωριακή κατανοµή (marginal distribution) των {y i } N i=1 είναι οµοιόµορϕη στο διάστηµα [0, 1]. 53
72 54
73 Κεϕάλαιο 4 Νέες τεχνικές για επιλογή χαρακτηριστικών Στο κεϕάλαιο αυτό ϑα παρουσιάσουµε τις νέες τεχνικές που αναπτύξαµε στο πλαίσιο της διατριβής αυτής και έχουν σχέση µε την επιλογή χαρακτηριστικών. Ξεκινάµε µε την παρουσίαση µιας νέας τεχνικής τυποποίησης δεδοµένων την οποία χρησιµοποιήσαµε τόσο στα αρχικά δεδοµένα των χρονοσειρών όσο και στις τιµές των χαρακτηριστικών που υπολογίσθηκαν από τις χρονοσειρές. Παρουσιάζουµε δύο νέες µεθόδους επιλογής χαρακτηριστικών από τις οποίες η µια ϐασίζεται στην τεχνική του περιτυλίγµατος και η άλλη στην τεχνική του φίλτρου. 4.1 Γκαουσιανή τυποποίηση Η Γκαουσιανή κατανοµή (γνωστή και ως κανονική κατανοµή) αναϕέρεται σε συνεχείς µεταβλητές και αποτελεί µία συνεχή συνάρτηση πυκνότητας πιθανότητας. Την κατανοµή αυτή την χρησιµοποιούµε για να περιγράψουµε κυρίως τυχαίες µεταβλητές πραγµατικών τιµών, οι οποίες έχουν την τάση να συγκεντρώνονται γύρω από την µέση τιµή. Στην στατιστική η κανονική κατανοµή ϑεωρείται η πιο σηµαντική κατανοµή. Το σχήµα που έχει η γραϕική παράσταση της συνάρτησης πυκνότητας πιθανότητας της κατανοµής αυτής είναι το γνωστό σχήµα σε µορϕή καµπάνας η οποία ονοµάζεται Γκαουσιανή συνάρτηση. Η συνάρτηση αυτή περιγράϕει την πιθανότητα ότι µια τιµή της τυχαίας µεταβλητής X µε µια δεδοµένη κατανοµή πιθανοτήτων, ϑα ϐρεθεί σε τιµή µικρότερη ή ίση µε x. Αντί για µεταβλητή έστω µια χρονοσειρά {x i } N i=1 µε συνάρτηση πυκνότητας πιθανότητας f(x) = 1 e (x x)2 /(2s 2 x) όπου x µέση τιµή και s 2πs 2 x η τυπική απόκλιση, µε x {, + }. Η κατανοµή x της χρονοσειράς αυτής µε συνεχείς τιµές συµβολίζεται µε X N( x, s 2 x) και η συνάρτηση κατανοµής µε F (x). Η κανονική κατανοµή που έχει µέση τιµή 0 ( x=0) και τυπική απόκλιση 1 (s x =1), συµβολίζεται µε N(0, 1). Μια χρονοσειρά που ακολουθεί την τυποποιηµένη αυτή κανονική κατανοµή, έχει συνάρτηση πυκνότητάς πιθανότητας ίση µε ϕ(x) = 1 2π exp (x2 )/2 και η συνάρτηση κατανοµής της συµβολίζεται µε Φ(x) Η εκτίµηση της αθροιστικής συνάρτησης πυκνότητας πιθανότητας συµβολίζεται µε ˆF (x i ) και είναι η τάξη ταξινόµησης της x i διαιρεµένη µε το N. Σύµϕωνα µε την Γκαουσιανή (Gaussian) µέθοδο τυποποίησης που προτείνουµε αρχικά γίνεται ταξινόµηση των παρατηρήσεων της χρονοσειράς σε αύξουσα σειρά και στην συνέχεια στις τάξεις των τιµών (διαιρεµένες µε Ν) εϕαρµόζουµε την αντίστροϕη Φ σύµϕωνα µε την παρακάτω έκϕραση y i = Φ 1 ( ˆF (x i )) (4.1) 55
74 Η Γκαουσιανή τυποποίηση αποδίδει καλά στην περίπτωση παρουσίας ακραίων τιµών µέσα στην οµάδα τιµών που τυποποιούνται, διότι µετακινούνται οι αποµακρυσµένες αυτές τιµές των δειγµάτων πλησιέστερα προς το κέντρο µάζας των τιµών, όπως συνάγεται από το σχήµα της καµπάνας της Γκαουσιανής κατανοµής. Για τον ίδιο λόγο η µέθοδος αυτή, δεν είναι κατάλληλη στις περιπτώσεις που οι ακραίες τιµές ανήκουν σε διαϕορετικές οµάδες δειγµάτων που πρόκειται να τυποποιηθούν. Σηµειώνουµε επίσης ότι η Γκαουσιανή τυποποίηση δεν µπορεί να λειτουργήσει καλά, αν υπάρχουν πολλές ίδιες παρατηρήσεις, επειδή η Γκαουσιανή τυποποίηση ϑα εκχωρήσει διαϕορετικές τιµές σε όλα αυτά τα σηµεία, γεγονός που την καθιστά καλή για συνεχείς τιµές δεδοµένων αλλά όχι για διακριτές τιµές. Την τυποποίηση αυτή την εϕαρµόσαµε τόσο στις αρχικές χρονοσειρές πριν τον υπολογισµό των χαρακτηριστικών που αναϕέραµε στο Κεϕάλαιο 3 αλλά και στις ϐάσεις δεδοµένων µε τα χαρακτηριστικά που υπολογίστηκαν από κάθε χρονοσειρά. Στο παρακάτω παράδειγµα παρουσιάζεται ϐήµα ϐήµα ο τρόπος λειτουργίας της Γκαουσιανής τυποποίησης όταν εϕαρµοστεί σε µια χρονοσειρά {x i } N i=1 µε συνεχείς τιµές. Παράδειγµα : Εστω η χρονοσειρά {x i } N i=1 για N =10 παρατηρήσεις και µε τιµές x i = [2.4, 7.4, 7.8, 3.1, 2.3, 5.7, 4.6, 9.8, 6.1, 8.5] p(x i ) y i Σχήµα 4.1: Η Γκαουσιανή κατανοµή της χρονοσειράς {x i } N i=1 του Παραδείγµατος. Στον οριζόντιο άξονα µε τους γεµάτους κύκλους παρουσιάζονται οι τιµές y i σύµϕωνα µε την Γκαουσιανή τυποποίηση ενώ στον κάθετο άξονα είναι οι πυκνότητες πιθανότητας p(x i ). Σύµϕωνα µε τη Γκαουσιανή τυποποίηση ακολουθείται η παρακάτω διαδικασία. α. Παίρνουµε την αθροιστική συνάρτηση πυκνότητας πιθανότητας για i = 1,..., N µε N =10 τιµές και έχουµε ˆF (x) = (i 0.326)/(N ), i = {1,..., N} = [ 0.065, , , , , , , , , ]. Ο υπολογισµός της ˆF (x) αποτελεί διόρθωση του i/n που αναϕέραµε στην ενότητα 3.5 σύµϕωνα µε τους Yu and Huang (2001). ϐ. Υπολογίζουµε την αντίστροϕη κανονική κατανοµή των παραπάνω τιµών και έχουµε Φ 1 ( ˆF (x)) = [ , , , , , , , , , ]. γ. Ταξινοµούµε τις τιµές της χρονοσειράς {x i } N i=1 σε αύξουσα σειρά, xa i 6.1, 7.4, 7.8, 8.5, 9.8] = [2.3, 2.4, 3.1, 4.6, 5.7, 56
75 δ. Αντιστοιχούµε τις τιµές x a i µε τις τιµές Φ 1 ( ˆF (x)) στο ϐήµα ϐ. Στην συνέχεια τοποθετούµε τις τιµές της Φ 1 ( ˆF (x)) στην αρχική διάταξη των τιµών x i, και τελικά έχουµε τις παρακάτω τυποποιηµένες τιµές y i = Φ 1 ( ˆF (x i ))[ , , , , , , , , , ] Στο Σχήµα 4.1 φαίνεται η Γκαουσιανή πυκνότητα πιθανότητας µιας χρονοσειράς 10 παρατηρήσεων και η ϑέση των πυκνοτήτων πιθανότητας που αντιστοιχούν στις τιµές των 10 παρατηρήσεων. Τα δεδοµένα σύµϕωνα µε την Γκαουσιανή τυποποίηση είναι τυποποιηµένα µε τρόπο τέτοιο ώστε να µη µας ενδιαϕέρει αν η αρχική διάταξη των τιµών τους ήταν γραµµική ή εκθετική ή περιοδική κλπ. Με τη µέθοδο αυτή πιστεύοµε ότι η τυποποίηση µη γραµµικών δεδοµένων αναπαρίσταται καλύτερα. 4.2 Το περιτύλιγµα επιλογής χαρακτηριστικών FSSwCRI Στην ενότητα αυτή παρουσιάζουµε µια µέθοδο επιλογής χαρακτηριστικών που αναπτύξαµε, η οποία ϐασίζεται στην τεχνική του περιτυλίγµατος και την χρησιµοποιήσαµε σε προβλήµατα µε υψηλή διάσταση χαρακτηριστικών. Οι τεχνικές περιτυλίγµατος (wrappers) µπορούν να συνδυαστούν µε οποιαδήποτε µέθοδο αναζήτησης. Οι πιο συνηθισµένες στη ϐιβλιογραϕία τεχνικές αναζήτησης είναι η η προς-ταεµπρός επιλογή (subset forward selection) και η προς-τα-πίσω απαλοιϕή (backward elimination) που είναι δύο διαϕορετικές εκδοχές άπληστης (απαιτητικής) αναζήτησης Επιλογή χαρακτηριστικών µε επιβλεπόµενη και µη-επιβλεπόµενη µάθηση Η επιλογή χαρακτηριστικών στην επιβλεπόµενη µάθηση είναι η διαδικασία επιλογής ενός υποσυνόλου από τα αρχικά χαρακτηριστικά που ϐελτιστοποιεί την απόδοση πρόγνωσης ενός µοντέλου εξαλείφοντας τα πλεονάζοντα χαρακτηριστικά και αυτά που έχουν µικρή ή καθόλου πληροϕορία πρόγνωσης. Η σχέση µεταξύ της επιλογής χαρακτηριστικών και της απόδοσης ενός αλγορίθµου εκµάθησης εξαρτάται από το κατά πόσο ισχύει η παραδοχή της µονοτονίας δηλαδή της διαρκούς αύξησης της απόδοσης του κατηγοριοποιητή µε την προσθήκη νέου χαρακτηριστικού στο ήδη επιλεγµένο υποσύνολο. Στην περίπτωση που υπάρχει αλληλεπίδραση µεταξύ των χαρακτηριστικών ϑα πρέπει να ϐρεθεί ακόµη καλύτερο µοντέλο πρόγνωσης των κλάσεων. Στην επιβλεπόµενη µάθηση, είναι γνωστές οι κλάσεις που ανήκουν τα δεδοµένα (κάθε διάνυσµα x i τιµών χαρακτηριστικών έχει και µια ετικέτα κλάσης που αντιστοιχεί) και έτσι γίνεται καθοδήγηση της λειτουργίας επιλογής χαρακτηριστικών Kohavi and John (1997). Η ακρί- ϐεια κατηγοριοποίησης (AC) ή ο ϱυθµός σϕάλµατος κατηγοριοποίησης (ER) είναι τα πιο συνηθισµένα κριτήρια που χρησιµοποιούνται κατά τον έλεγχο της απόδοσης του υποσυνόλου χαρακτηριστικών σε συνδυασµό µε τον κατηγοριοποιητή της επιβλεπόµενης µάθησης. Η επιλογή χαρακτηριστικών στη µη-επιβλεπόµενη µάθηση είναι η διαδικασία επιλογής ενός υποσυνόλου από τα αρχικά χαρακτηριστικά που σχηµατίζει υψηλής ποιότητας συστάδες για συγκεκριµένο πλήθος κλάσεων. Η συσταδοποίση µπορεί να επιτευχθεί χρησιµοποιώντας µεθόδους όπως ο k-means ή ο αλγόριθµος µέγιστης προσδοκίας (expectation maximization, EM) ή άλλος αλγόριθµος συσταδοποίησης. Η επιλογή χαρακτηριστικών χωρίς επίβλεψη είναι πολύ δυσκολότερη διαδικασία απ ότι στην επιβλεπόµενη µάθηση εξαιτίας της απουσίας των ετικετών κλάσης στα δεδοµένα και απαιτεί κατάλληλη γνώση του τοµέα όπου γίνεται η µελέτη ώστε να επιλεχθεί η κατάλληλη αντικειµενική συνάρτηση. Το κριτήριο αξιολόγησης που ϑα χρησιµοποιηθεί σε κάθε τεχνική περιτυλίγµατος ϑα πρέπει να είναι ανάλογο µε τον τύπο των χαρακτηριστικών που ενδιαϕέρουν τον χρήστη. Εάν ο χρήστης επιθυµεί να ϐρει τα χαρακτηριστικά που ϐελτιστοποιούν τον αλγόριθµο κατηγοριοποίησης για την εξεύρεση των φυσικών οµάδων τους, τότε κατάλληλο κριτήριο για την αξιολόγηση των χαρακτηριστικών είναι ένας δείκτης που µετρά την απόδοση του κατηγοριοποιητή. Εάν ο χρήστης ενδιαϕέρεται για χαρακτηριστικά που ϑα ϐρίσκουν οµάδες που διαχωρίζονται καλά, τότε καταλληλότερο κριτήριο είναι π.χ. η διασπορά διαχωρισιµότητας Liu and Motoda (2008). 57
76 Στις τεχνικές περιτυλίγµατος της επιβλεπόµενης µάθησης χρησιµοποιούνται πολλοί αλγόριθµοι ε- πιβλεπόµενης µάθησης όπως δέντρα απόϕασης ID3, C4.5, αλγόριθµοι ϐασισµένοι σε δείγµατα (k-nn). Χρησιµοποιούνται επίσης και αλγόριθµοι όπως ο Naive-Bayes ο οποίος ϑεωρείται στιβαρός αλγόριθµος όταν έχει να αντιµετωπίσει ασυσχέτιστα χαρακτηριστικά. Η απόδοση των παραπάνω αλγορίθµων µειώνεται σηµαντικά εάν τα χαρακτηριστικά που προστίθενται στο επιλεγµένο υποσύνολο χαρακτηριστικών παρουσιάζουν συσχετίσεις (Kohavi and John, 1997). Στην εργασία τους οι Dy et al. (2003) εϕήρµοσαν ένα περιτύλιγµα µε µια διαδοχική προς τα εµπρός αναζήτηση χαρακτηριστικών χρησιµοποιώντας µια τεχνική συσταδοποίησης και για την αξιολόγηση των συστάδων χρησιµοποίησαν ένα κριτήριο διαχωρισιµότητας των συστάδων (scatter separability). Τα χαρακτηριστικά ήταν συνεχείς τιµές από ιδιότητες εικόνων και ο στόχος τους ήταν να διαχωρίσουν παρόµοιες εικόνες σε οµοειδείς συστάδες. Στην εργασία τους οι Devaney and Ram (1997) εϕήρµοσαν ένα περιτύλιγµα διαδοχικής προς τα εµπρός και προς τα πίσω επιλογής χαρακτηριστικών, ώστε να ερευνήσουν το χώρο των χαρακτηριστικών και συσταδοποίησαν ιεραρχικά τα δεδοµένα χρησιµοποιώντας έναν αλγόριθµο συσταδοποίησης για κάθε υποψήϕιο υποσύνολο χαρακτηριστικών και ένα κριτήριο που ϐασίζεται στις πιθανότητες και µετρά την ποιότητα της κάθε κατηγορίας για την αξιολόγηση των χαρακτηριστικών αυτών category utility metric Ο αλγόριθµος FSSwCRI Ακολουθήσαµε την ίδια στρατηγική µε τις παραπάνω δύο εργασίες που χρησιµοποιούν την προς τα εµπρός επιλογή χαρακτηριστικών σε συνδυασµό µε έναν αλγόριθµο συσταδοποίησης και έναν δείκτη µέτρησης της απόδοσης της συσταδοποίησης. Στην τεχνική περιτυλίγµατος που αναπτύξαµε και φαίνεται στο Σχήµα 4.2, χρησιµοποιήσαµε τον συνδυασµό των διαδικασιών που ακολουθούνται στις τεχνικές περιτυλίγµατος της επιβλεπόµενης και µη-επιβλεπόµενης µάθησης, ακολουθώντας την τεχνική της προς τα εµπρός επιλογής χαρακτηριστικών (Forward Sequential Selection-FSS) και συµπεριλαµβάνοντας ως κατηγοριοποιητή τον αλγόριθµο συσταδοποίησης k-means γνωρίζοντας όµως εξ αρχής τις κλάσεις των δεδοµένων που πρόκειται να συσταδοποιηθούν ώστε να αποτιµήσουµε την απόδοση της συσταδοποίησης. Ως αντικειµενική συνάρτηση για την αποτίµηση των επιλεγµένων υποσυνόλων των χαρακτηριστικών χρησιµοποιήσαµε ένα δείκτη µε καλύτερη κλιµάκωση από τον δείκτη ER, και συγκεκριµένα το διορ- ϑωµένο δείκτη Rand, (corrected Rand index CRI). Κατά συνέπεια ονοµάσαµε την τεχνική µας Forward Sequential Selection with CRI, FSSwCRI. Σε κάθε ϐήµα της µεθόδου FSSwCRI, γίνεται αποτίµηση της ακρίβειας της συσταδοποίησης. Αυτό επαναλαµβάνεται για κάθε υποψήϕιο υποσύνολο χαρακτηριστικών. Οι κλάσεις στις οποίες αντιστοιχούν τα δεδοµένα της ϐάσης χρονοσειρών που µελετάται κάθε φορά, ϑεωρούνται γνωστές, οπότε το καλύτερο υποσύνολο χαρακτηριστικών είναι αυτό που ϑα δηµιουργεί συστάδες δεδοµένων πλησιέστερες προς τις γνωστές κλάσεις. Ως κατηγοριοποιητή όπως αναϕέραµε χρησιµοποιούµε τον αλγόριθµο k-means σε κάθε ϐήµα επανάληψης ο οποίος για να συγκλίνει στον επιθυµητό αριθµό κλάσεων επαναλαµβάνεται πολλές φορές, έχοντας κάθε φορά τυχαία τα κέντρα των συστάδων ώστε να επιτευχθεί σύγκλιση στην τελική επιλογή των οµάδων (µε 100 ως ελάχιστο αριθµό επαναλήψεων του k-means) (de Hoon et al., 2004). Ως αλγόριθµος κατηγοριοποίησης στην τεχνική του περιτυλίγµατος που προτείνουµε, µπορεί να χρησιµοποιηθεί οποιοσδήποτε ιεραρχικός ή διαµεριστικός αλγόριθµος συσταδοποίησης. Οι συστάδες που δηµιουργούνται σε κάθε επιτυχή εκτέλεση του αλγορίθµου αποτιµούνται ως προς την σύγκλιση τους µε τις αρχικές κλάσεις. Το µέτρο απόστασης που χρησιµοποιούµε στον k-means είναι η Ευκλείδεια απόσταση, χωρίς να αποκλείουµε την χρήση οποιασδήποτε άλλης µετρικής ή δείκτη οµοιότητας. Μια πλήρης αναζήτηση για την εύρεση της ϐέλτιστης συσταδοποίησης µεταξύ όλων των δυνατών συνδυασµών των χαρακτηριστικών, πιθανόν να είναι υπολογιστικά αδύνατη. Για παράδειγµα για να ϐρεθεί ο συνδυασµός από 10 χαρακτηριστικά που κάνει τον καλύτερο διαχωρισµό των συστάδων, ϑα πρέπει να υπολογισθούν = 1023 πιθανοί συνδυασµοί των χαρακτηριστικών και να µελετηθούν τα αντίστοιχα προβλήµατα συσταδοποίησης. Αντί αυτής της εξαντλητικής αναζήτησης, η µεθόδους FSSwCRI, µειώνει 58
77 το χρόνο πολυπλοκότητας στην τάξη του N 2, όπου N είναι το πλήθος των χαρακτηριστικών (Fu, 1968; Liu and Motoda, 2008). Ο ψευδοκώδικας του αλγορίθµου FSSwCRI παρουσιάζεται παρακάτω, όπου µε l συµβολίζουµε την πληθικότητα (cardinality) του υποσυνόλου χαρακτηριστικών S και CRI(S) είναι ο δείκτης CRI που αξιολογεί τη συσταδοποίηση µε ϐάση το S 1. Θέτουµε l = 1 και ϐρίσκουµε την καλύτερη συσταδοποίηση που επιτυγχάνεται από ένα µόνο χαρακτηριστικό και κρατάµε το χαρακτηριστικό αυτό. ηλαδή S l = {f (l) }, όπου f (l) = arg max fi CRI({f i }) και i = 1,..., M (M το πλήθος των χαρακτηριστικών). 2. Για τιµές l > 1, υπολογίζονται οι συσταδοποιήσεις για τα υποσύνολα χαρακτηριστικών S i l = S l 1 f i, όπου f i S l 1 και κρατάµε το υποσύνολο που εµϕανίζει τη µεγαλύτερη τιµή CRI. ηλαδή, f (l) = arg max fi S l 1 CRI(S i l ). 3. Εάν CRI(S (l) l ) > 1 + θ CRI(S l 1 ), τότε S l = S (l) l, l = l + 1, και η διαδικασία επαναλαµβάνεται από το ϐήµα 2, διαϕορετικά σταµατά. Ξεκινώντας µε ένα χαρακτηριστικό που επιτυγχάνει µόνο του την καλύτερη συσταδοποίηση, το υποσύνολο των χαρακτηριστικών, αυξάνει κατά ένα χαρακτηριστικό τη φορά, µόνο στην περίπτωση που η ακρίβεια της συσταδοποίησης ϐελτιωθεί σηµαντικά. Η ϐελτίωση αυτή ελέγχεται από µια παράµετρο κατωϕλίου θ στο ϐήµα 3. Στους υπολογισµούς που κάναµε σε όλες τις εϕαρµογές της µεθόδου, η παράµετρος αυτή µπορεί να πάρει τιµές θ = 0.05 που ανταποκρίνονται στο 5% της ϐελτίωσης της τιµής του CRI. Παρατηρήσαµε ότι µε αυτή την τιµή του θ γίνεται δραστική µείωση του υποσυνόλου των χα- ϱακτηριστικών και αποϕεύγονται τα χαρακτηριστικά εκείνα που συνδράµουν ελάχιστα στην αύξηση της απόδοσης της συσταδοποίησης. Καθώς η τιµή θ µειώνεται ο αριθµός των χαρακτηριστικών στο υποσύνολο που επιλέγεται τελικά αυξάνει. Βέβαια εάν η παράµετρος αυτή πάρει την τιµή 0 τότε ο αλγόριθµος FSSwCRI σταµατά µόνο όταν δεν παρατηρηθεί κάποια αύξηση ή παρατηρηθεί µείωση στην απόδοση της συσταδοποίησης. Το διάγραµµα που περιγράϕει τη διαδικασία αυτή δίνεται στο Σχήµα 4.2. Στο Σχήµα 4.2: ιάγραµµα της διαδικασίας επιλογής χαρακτηριστικών µε την µέθοδο FSSwCRI σχήµα αυτό φαίνεται ότι τα δεδοµένα εισόδου που χρησιµοποιούµε στον αλγόριθµο FSSwCRI είναι α) 59
78 τα χαρακτηριστικά που υπολογίστηκαν από τις ϐάσεις χρονοσειρών και στην συνέχεια τυποποιήθηκαν µε µια από τις µεθόδους τυποποίησης που παρουσιάσαµε και ϐ) οι αρχικές κλάσεις στις οποίες είναι χωρισµένα τα δεδοµένα εκπαίδευσης. Ο αλγόριθµος FSSwCRI έχει ως ϐασικά πλεονεκτήµατα συγκριτικά µε άλλες τεχνικές περιτυλίγ- µατος, πρώτον ότι σε κάθε ϐήµα του ελέγχει την απόδοση των συστάδων που δηµιουργούνται από τον k-means και απορρίπτει τα χαρακτηριστικά εκείνα που είναι σχετικά µεταξύ τους µιας και δεν προσϕέρουν στην αύξηση της τιµής του κριτηρίου αξιολόγησης των συστάδων, και δεύτερον ότι η χρήση του δείκτη CRI δίνει στον αλγόριθµο αυτό στιβαρότητα και σταθερότητα ανεξάρτητα από το πλήθος των κλάσεων που αξιολογείται κάθε φορά. Στα µειονεκτήµατα του ανήκει ο υψηλός υπολογιστικός χρόνος καθώς και η προτίµηση του k-means στις σϕαιρικές συστάδες. Η αξιολόγηση και σύγκριση του αλγορίθµου FSSwCRI µε άλλους αλγορίθµους επιλογής χαρακτηριστικών σε προσοµοιωτικά και πραγµατικά δεδοµένα παρουσιάζονται στα επόµενα κεϕάλαια. 4.3 Το φίλτρο επιλογής χαρακτηριστικών CMINN Στην ενότητα αυτή παρουσιάζουµε ένα νέο φίλτρο επιλογής χαρακτηριστικών που αναπτύξαµε το οποίο ϐασίζεται στην εκτίµηση της δεσµευµένης αµοιβαίας πληροϕορίας (Conditional Mutual Information, CMI) µε κοντινότερους γείτονες (nearest neighbors, NN) και ένα νέο κριτηρίου τερµατισµού της διαδικασίας επιλογής χαρακτηριστικών για την τελική κατάταξη των χαρακτηριστικών. Το φίλτρο αυτό σε συνδυασµό µε το κριτήριο τερµατισµού το ονοµάζουµε CMINN (Tsimpiris et al., 2012). Τα περισσότερα κριτήρια που ισχύουν για τα φίλτρα επιλογής χαρακτηριστικών που ϐασίζονται στην αµοιβαία πληροϕορία (Mutual Information, MI) ή και και στη CMI, τα οποία και παρουσιάστηκαν στο Κεϕάλαιο 3, αναϕέρονται στην εξέταση ενός µόνο χαρακτηριστικού κάθε φορά ώς προς τον πλεονασµό µε τα ήδη επιλεγµένα χαρακτηριστικά. Αυτού που προτείνουµε εµείς είναι η επέκταση του κριτηρίου CMI ώστε να γίνεται εξέταση του υποψήϕιου προς επιλογή χαρακτηριστικού ώς προς την µεταβλητή της κλάσης, δεδοµένης της πληροϕορίας που προσϕέρουν όλα τα χαρακτηριστικά του υποσυνόλου των ήδη επιλεγµένων χαρακτηριστικών Εκτίµηση της αµοιβαίας πληροϕορίας µε ΝΝ Για την εκτίµηση της ΜΙ σε υψηλότερες διαστάσεις δηλαδή µε διανύσµατα µεταβλητών X και Y που έχουν διαστάσεις d X και d Y αντίστοιχα, εκτός από τη µέθοδο της διαµέρισης (binning) και τη µέθοδο των παραθύρων Parzen που τις παρουσιάσαµε στο Κεϕάλαιο 3, έχει προταθεί ότι η µέθοδος των κοντινότερων γειτόνων (ΝΝ) που αποδίδει καλά ακόµη και για µέτριο πλήθος N παρατηρήσεων (Kraskov et al., 2004). Η ΜΙ µε όρους εντροπίας εκτιµάται σύµϕωνα µε την Εξίσωση Προτείνουµε οι εντροπίες να εκτιµούνται από τις αποστάσεις των K-πλησιέστερων γειτόνων που έχουν αθροιστεί για κάθε σηµείο x i µιας µεταβλητής X. Σηµειωτέον ότι το σύµβολο ; διαχωρίζει ορίσµατα µεταβλητών ενώ το, ενώνει τα ορίσµατα των µεταβλητών σε ένα ενιαίο διανυσµατικό όρισµα µεταβλητής. Αρχικά η από κοινού εντροπία εκτιµάται ώς εξής Ĥ(X, Y ) = ψ(k) + ψ(n) + log(c dx c dy ) + d X + d Y N N ϵ(i), (4.2) i=1 όπου ϵ(i) είναι η διπλάσια απόσταση του i-στού σηµείου (x i, y i ) µε τον K-στό κοντινότερο γείτονα στο χώρο του (X, Y ), ψ(x) = d dx ln(γ(x)) είναι η συνάρτηση δίγαµµα, γ(x) = (x 1)! είναι η συνάρτηση γάµµα ενός ακεραίου x, και c d είναι ο όγκος ενός d-διάστατου µοναδιαίου κύβου. Η µετρική που χρησιµοποιείται για τη µέτρηση της απόστασης είναι η µετρική της µέγιστης απόστασης µεταξύ δύο σηµείων. Ετσι για το παράδειγµα που παρουσιάζεται στο Σχήµα 4.3 για K = 3 έχουµε ϵ(i) = 2 x. 60
79 Σχήµα 4.3: Προσδιορισµός του ϵ(i), n x (i), και n y (i) χρησιµοποιώντας τις αποστάσεις µεταξύ των K- κοντινότερων γειτόνων και του i-στού σηµείου για K=3, d X =1,d Y =1,d Z =1. Ενα σηµείο κλειδί για την εκτίµηση της ΜΙ µε ΝΝ είναι το ότι η εντροπία H(X) στην εξίσωση 2.15 εκτιµάται στο χώρο της µεταβλητής X που προκύπτει από την προβολή του από κοινού χώρου µε την Υ και έτσι αποκτούµε την παρακάτω εξίσωση Ĥ(X) = 1 N N i=1 ψ[n x (i)] + ψ(n) + log(c dx ) + d X N N ϵ(i), (4.3) i=1 όπου n x (i) είναι το πλήθος των σηµείων που η απόστασή τους από το i-στό σηµείο στο χώρο προβολής του X είναι µικρότερο από ϵ(i)/2 (συµπεριλαµβάνουµε επίσης και το ίδιο το σηµείο i). Για το παράδειγµα που περιγράϕεται στο Σχήµα 4.3, έχουµε n x (i) = 7 και n y (i) = 9. Αντικαθιστώντας τις εξισώσεις 4.2 και 4.3 έχουµε την παρακάτω εξίσωση Î(X; Y ) = ψ(k) + ψ(n) ψ[n x (i)] + ψ[n y (i)], (4.4) όπου x(i) υποδηλώνει τη µέση τιµή της ποσότητας x για όλα τα σηµεία i. Σηµειωτέον ότι οι αποστάσεις ϵ(i) και οι όγκοι c d απαλείϕονται στην τελική µορϕή της ΜΙ, που σηµαίνει ότι η εκτίµηση είναι ανεξάρτητη από την κλιµάκωση των τιµών των δεδοµένων και εξαρτάται µόνο από τις τοπικές πυκνότητες. Η εκτίµηση της ΜΙ στην εξίσωση 4.4 έχει οριστεί για διανυσµατικές µεταβλητές X και Y οποιασδήποτε διάστασης d X και d Y, και το ίδιο ισχύει και στον ορισµό της CMI που ακολουθεί. Οµοίως µε άλλες εκτιµήσεις της ΜΙ η εκτίµηση µε ΝΝ πάσχει και αυτή από τη µεροληψία η οποία εξαρτάται ισχυρά από τη διάσταση των διανυσµατικών µεταβλητών Εκτίµηση της δεσµευµένης αµοιβαίας πληροϕορίας µε ΝΝ Υποθέτουµε τώρα τρεις διανυσµατικές µεταβλητές X, Y και Z µε διαστάσεις d X, d Y και d Z. Η εκτί- µηση της CMI µε ΝΝ δίνει την έκϕραση της από κοινού εντροπίας H(X, Y, Z) όµοια µε την εξίσωση 4.2. Οι εκϕράσεις της εντροπίας H(X, Z), H(Y, Z) και H(Z) δίνονται οµοίως µε την εξίσωση 4.3, κάνοντας χρήση της προβολής του χώρου (X, Y, Z) στους αντίστοιχους υποχώρους (X, Z), (Y, Z) και Z, και τελικά 61
80 διατυπώνεται ως εξής : Ĥ(X, Y, Z) = ψ(k) + ψ(n) + log(c dx c dy c dz ) + d X + d Y + d Z N Ĥ(X, Z) = 1 N N i=1 Ĥ(Z) = 1 N ψ[n xz (i)] + ψ(n) + log(c dx c dz ) + d X + d Z N N i=1 ψ[n z (i)] + ψ(n) + log(c dz ) + d Z N N ϵ(i) (4.5) i=1 N ϵ(i) (4.6) i=1 N ϵ(i), (4.7) όπου ϵ(i) είναι η διπλάσια απόσταση του i-στού σηµείου (x i, y i, z i ) στον από κοινού χώρο (X, Y, Z), από τον K-στό κοντινότερο γείτονα, n xz (i) είναι το πλήθος των σηµείων των οποίων η απόσταση από το i-στό σηµείο (x i, z i ) πάνω στον προβεβληµένο χώρο (X, Z) είναι µικρότερη από ϵ(i)/2, και n z (i) είναι το πλήθος των σηµείων που απόστασή τους από το i-στό σηµείο z i πάνω στην περαιτέρω προβολή του χώρου στην διάσταση του Z είναι µικρότερη από ϵ(i)/2. Αντικαθιστώντας τις εξισώσεις 4.5, 4.6 και 4.7 στην εξίσωση 2.20 παίρνουµε την εκτίµηση της CMI µε ΝΝ Î(X; Y Z) = ψ(k) ψ[n xz (i)] + ψ[n yz (i)] ψ[n z (i)]. (4.8) Σηµειωτέον ότι η δεσµευµένη αµοιβαία πληροϕορία που εκτιµάται µε τον τρόπο αυτό έχει χαµηλή µεροληψία για δεδοµένα υψηλής διάστασης σύµϕωνα µε την εργασία των Vlachos and Kugiumtzis (2010). i= Επιλογή Χαρακτηριστικών µε το φίλτρο CMINN Ο δηµοϕιλής τρόπος εκτίµησης της ΜΙ µε διακριτικοποίηση (binning) στη διαδικασία επιλογής χαρακτηριστικών παρουσιάζει ένα σηµαντικό µειονέκτηµα : οι υπολογιστικές απαιτήσεις αυξάνουν δραµατικά µε την διάσταση των µεταβλητών X και Y. Αυτός είναι και ο λόγος που στην επιλογή χαρακτηριστικών µε φίλτρα ΜΙ συνήθως εκτιµούνται οι ιδιότητες της σχετικότητας και του πλεονασµού ξεχωριστά και πάντα σε Ϲεύγη. Στην περίπτωση της επιλογής χαρακτηριστικών η κάθε τιµή της µεταβλητής Χ είναι ένα διάνυσµα µε τιµές των Μ χαρακτηριστικών {f 1,..., f M } που υπολογίσθηκαν σε κάθε µια από τις Ν χρονοσειρές. Οι αλγόριθµοι επιλογής χαρακτηριστικών προσπαθούν να ϐρουν ένα µικρό ϐέλτιστο υποσύνολο χαρακτηριστικών S F µε πλήθος χαρακτηριστικών S < F. Σύµϕωνα µε τους αλγορίθµους επιλογής χαρακτηριστικών που αναϕέραµε στο Κεϕάλαιο 2 και ειδικότερα στην ενότητα η σχετικότητα ενός υποψήϕιου προς επιλογή χαρακτηριστικού σχετικά µε την µεταβλητή κλάσης C εκϕράζεται ως I(f i ; C) και ο πλεονασµός µεταξύ ενός χαρακτηριστικού f i και ενός άλλου f j που έχει ήδη επιλεγεί στο υποσύνολο των ϐέλτιστων χαρακτηριστικών, εκϕράζεται ως I(f i ; f j ). Ενα πλήθος από κριτήρια, µέσα στα οποία συµπεριλαµβάνεται και η µέθοδος mrmr, προσπαθούν να ϐρούν το χαρακτηριστικό f i το οποίο µεγιστοποιεί την I(f i ; C) και ελαχιστοποιεί την I(f i ; f j ). Ενας άλλος τύπος κριτηρίων, µέσα στα οποία συµπεριλαµβάνεται και η µέθοδος MaxiMin, χωρίζει το δεσµευµένο όρο S της έκϕρασης I(f i ; C S), σε απλούς όρους I(f i ; C f j ), όπου f j S. Ολα αυτά τα κριτήρια για την επιλογή χαρακτη- ϱιστικών δεν είναι ϐέλτιστα και προσπαθούν να ϐρουν προσεγγιστικά την πληροϕορία που µεταϕέρει το f i σχετικά µε την κλάση C η οποία πληροϕορία όµως δεν υπάρχει ήδη στα χαρακτηριστικά που ανήκουν στο S. Κάτω από αυτήν την παραδοχή το κριτήριο της CMI που συµβολίζεται ως I(f i ; C S), είναι ϐέλτιστο. Η προοδευτική επιλογή των χαρακτηριστικών µε την CMI µε την ΝΝ εκτίµηση της I(f i ; C S) και την υιοθέτηση ενός κριτηρίου τερµατισµού συνθέτουν τον αλγόριθµο CMINN ο οποίος µπορεί να συνοψιστεί στα παρακάτω ϐήµατα : 1. Από όλα τα χαρακτηριστικά f i F ϐρες το πιο σχετικό µε την µεταβλητή της κλάσης C ώστε f = argmax fi I(f i ; C). Θέσε S = {f }. 62
81 2. Για να ϐρεις το επόµενο ϐέλτιστο χαρακτηριστικό f ώστε να προστεθεί στο S, υπολόγισε για όλα τα υποψήϕια χαρακτηριστικά f i F S το I(f i ; C S) χρησιµοποιώντας την εκτίµηση ΝΝ, και στη συνέχεια το f = argmax fi I(f i ; C S). 3. Επανέλαβε το ϐήµα 2 µέχρι το S να φτάσει σε µια προκαθορισµένη πληθικότητα ή να ικανοποιηθεί ένα κριτήριο τερµατισµού. Το κριτήριο I(f i ; C S) για την επιλογή ενός ϐέλτιστου χαρακτηριστικού στο ϐήµα 2, περιλαµβάνει και τις δύο ιδιότητες, δηλαδή και την σχετικότητα και τον πλεονασµό. Για να επιλεχθεί ένα χαρακτηριστικό f i ϑα πρέπει να δίνει µεγάλο ποσό πληροϕορίας σχετικά µε την κλάση C (σχετικότητα), το οποίο όµως να µην περιέχεται στα χαρακτηριστικά που ήδη υπάρχουν στο S (πλεονασµός). Η χρήση της εκτίµησης µε ΝΝ της CMI, κάνει εϕικτό τον υπολογισµό της I(f i ; C S) ακόµη και όταν η πληθικότητα του S είναι σχετικά υψηλή και ανάλογη µε το διαθέσιµο πλήθος των περιπτώσεων N, π.χ. για S = 20 και για N ίσο µε µερικές χιλιάδες Το κριτήριο τερµατισµού του CMINN Συνήθως οι αλγόριθµοι επιλογής χαρακτηριστικών επαναλαµβάνονται µέχρι µια προκαθορισµένη µέγιστη τιµή της πληθικότητας S (ϐήµα 3). Ωστόσο ένα κριτήριο τερµατισµού ϑα µπορούσε να φανεί χρήσιµο στο να ξεχωρίζει τα πιο σχετικά υποσύνολα χαρακτηριστικών. Για την προσέγγιση της CMINN, ένα λογικό κριτήριο τερµατισµού που ϑα πρέπει να αξιολογεί την σχετικότητα S m+1 µε το C, (η ποσότητα m+1 δηλώνει ότι το S έχει m+1 χαρακτηριστικά) και να εντοπίζει εάν έχει αυξηθεί σηµαντικά η τιµή της ΜΙ µε την προσθήκη ενός υποψήϕιου χαρακτηριστικού f. Ετσι καταρχήν ϑα πρέπει να ικανοποιείται η ανισότητα I(S m ; C) < I(S m+1 ; C) ώστε να ολοκληρωθεί η επανάληψη m + 1 και να αυξήσει το S m σε S m+1 = S m {f }, διαϕορετικά ο αλγόριθµος σταµατά και το ϐέλτιστο υποσύνολο είναι το S m. Ωστόσο δεδοµένου ότι η µεροληψία κατά την εκτίµηση της ΜΙ είναι αρνητική και αυξάνει σε µέγεθος µε την αύξηση της πληθικότητας του S (Vlachos and Kugiumtzis, 2010), η παραπάνω ανισότητα µπορεί και να µην ικανοποιηθεί ακόµη και σε περιπτώσεις που το f παρουσιάζει σηµαντική συνεισϕορά στον διαχωρισµό της κλάσης C. Για να λάβουµε υπόψιν µας αυτή την µεροληψία, εκτιµάµε την I(S m ; C) µε τον εκτιµητή των κοντινότερων γειτόνων Î(Spr m; C), περιορίζοντας τον τοπικό χώρο για κάθε σηµείο του S m στην προβολή του από τον τον τοπικό χώρο S m+1. Αυτός ο περιορισµός συµβολίζεται µε τον εκθέτη pr. Με αυτόν τον τρόπο, οι δύο όροι Î(Spr m; C) και Î(S m+1; C) είναι απευθείας συγκρίσιµοι µεταξύ τους. Με αυτό το κριτήριο τερµατισµού έχουν ασχοληθεί επίσης και στην εργασία τους οι Vlachos and Kugiumtzis (2010). Σύµϕωνα λοιπόν µε τα παραπάνω, το κριτήριο τερµατισµού ορίζεται ως εξής : Î(Sm; pr C) > A, (4.9) Î(S m+1 ; C) όπου η σηµασία της αύξησης ελέγχεται από ένα κατώϕλι A 1. Οσο πιο κοντά στο ένα παίρνει τιµές το A τόσο πιο χαλαρό είναι το κριτήριο για την αύξηση του S µε νέο χαρακτηριστικό, δηλαδή εάν ϑέσουµε το A = 0.99 τότε ϑα επιτραπεί σε ένα χαρακτηριστικό µε πολύ µικρή συνεισϕορά να προστεθεί στο S. Στην εργασία των Vlachos and Kugiumtzis (2010), όπου το ανάλογο των χαρακτηριστικών είναι οι µεταβλητές µε χρονική υστέρηση σε προβλήµατα πολυµεταβλητών χρονοσειρών, ϐρέθηκε ότι ένα A κοντά στο ένα, όπως A = 0.95, ήταν το πιο κατάλληλο επειδή οι µεταβλητές µε χρονική υστέρηση ήταν συσχετισµένες και ο λόγος στην εξίσωση 4.9 συνέκλινε τελικά στο 1. Στις προσοµοιώσεις που κάναµε δείξαµε ότι αυτό δεν είναι το Ϲητούµενο στην επιλογή χαρακτηριστικών, και η προσθήκη ενός πλεονάζοντος ή ενός άσχετου (ή και τα δύο) χαρακτηριστικού δεν έχει ως αποτέλεσµα µια οριακή αύξηση της Î(S m+1; C) από Î(Spr m; C), δηλώνοντας έτσι ότι ο λόγος της εξίσωσης 4.9 δεν συγκλίνει πάντοτε στο 1. Για τον λόγο αυτό ϑα πρέπει συνήθως να χρησιµοποιούµε µικρότερες τιµές του A. Από την άλλη πλευρά όµως εάν είναι υπερβολικά µικρό το A, όπως για παράδειγµα A = 0.75, µπορεί να έχει ως 63
82 αποτέλεσµα τον πρόωρο τερµατισµό του αλγορίθµου επιλογής χαρακτηριστικών. Για να το αποϕύγουµε αυτό εισάγουµε ένα δεύτερο κριτήριο τερµατισµού : Î(S m ; C) > Î(S m+1; C). (4.10) Σηµειώνεται ότι η Î(S m; C) είναι διαϕορετική από την Î(Spr m; C) στην εξίσωση 4.9 και η εκτίµησή της γίνεται ανεξάρτητα από την Î(S m+1; C), δηλαδή ο τοπικός χώρος του S m δεν παράγεται από την προ- ϐολή του τοπικού χώρου του S m+1 σε µικρότερη διάσταση. Σε αυτή την περίπτωση η µεροληψία δεν λαµβάνεται υπόψιν. Σύµϕωνα µε την εργασία των Vlachos and Kugiumtzis (2010), η µεροληψία είναι αρνητική και µεγαλώνει σε µέγεθος καθώς αυξάνει το S m (για m > 2), έτσι στην περίπτωση που η προσθήκη του f δεν παρουσιάζει σηµαντική αύξηση της τιµή της ΜΙ, αναµένουµε να ισχύει η συνθήκη της εξίσωσης Για τον λόγο αυτό η εξίσωση 4.10 τίθεται σε ισχύ όταν η επιπρόσθετη πληροϕορία του f είναι µικρότερη απ ότι η µεροληψία της Î(S m+1; C) και παρόλο που η πληροϕορία αυτή είναι σηµαντική και έχει περάσει το πρώτο κριτήριο τερµατισµού δεν είναι είναι τόσο αξιόπιστη. Ετσι ο αλγόριθµος τερµατίζει όταν ισχύουν και τα δύο κριτήρια τερµατισµού, της εξίσωσης 4.9 και της εξίσωσης 4.10, όπου για το πρώτο κριτήριο χρησιµοποιούµε και προτείνουµε την τιµή A = Η εκτίµηση της CMI µε ΝΝ σε συνδυασµό µε τα κριτήρια τερµατισµού της εξίσωσης 4.9 και της εξίσωσης 4.10 αποτελούν το νέο φίλτρο επιλογής χαρακτηριστικών που έχουµε αναπτύξει το οποία ονοµάσαµε CMINN. Τέλος σηµειώνουµε ένα µειονέκτηµα ή καλύτερα µια ιδιαιτερότητα στην CMINN προσέγγισή µας. Η εκτίµηση της ΜΙ µε ΝΝ και κατ επέκταση και της CMI σχεδιάστηκε για συνεχείς τιµές των µεταβλητών, ενώ κατά την επιλογή χαρακτηριστικών έχουµε τουλάχιστον µία µεταβλητή µε διακριτές τιµές που είναι η µεταβλητή C των κλάσεων. Το αποτέλεσµα της ύπαρξης µιας µεταβλητής µε διακριτές τιµές στην αναπαράσταση των συντεταγµένων του χώρου διαστάσεων είναι η συσσώρευση πολλών ίδιων σηµείων κατά µήκος µιας κατεύθυνσης στον κοινό χώρο καταστάσεων, γεγονός που µπορεί να είναι προβληµατικό όταν συγκρίνουµε αποστάσεις µεταξύ σηµείων, όταν ϐρίσκουµε γείτονες και όταν κάνουµε προβολές των σηµείων σε υποχώρους. Για παράδειγµα υποθέστε τον δισδιάστατο χώρο καταστάσεων του Σχήµατος 4.3, αλλά µε την µεταβλητή X να έχει διακριτές τιµές. Υποθέστε επίσης ότι κάποια σηµεία µοιράζονται την ίδια διακριτή ϑέση µε τον K-στό κοντινότερο γείτονα. Οταν κάνουµε την προβολή στον X-άξονα τότε όλα τα σηµεία αυτά ϑα έχουν απόσταση από το i-στό σηµείο ίση µε ϵ/2 και για τον λόγο αυτό δεν ϑα µετρηθούν ως γείτονες στον προβεβληµένο υποχώρο. Γι αυτό µια οριακή αλλαγή της τιµής του ϵ µπορεί να επιϕέρει δραµατικές αλλαγές στην τοπική πυκνότητα που ϑα εκτιµηθεί στον χώρο προβολής µε αποτέλεσµα να αλλοιώσει τις τιµές της ΜΙ και της CMI αντίστοιχα. Μια µερική αποκατάσταση αυτού του προβλήµατος είναι η προσθήκη µιας ασήµαντης ποσότητας λευκού ϑορύβου σε κάθε µια διακριτή τιµή, λύση που υιοθετήσαµε και εµείς στους υπολογισµούς µας. Η εκτίµηση της ΜΙ αναµένεται να επηρεαστεί περισσότερο από την παρουσία πολλών χαρακτηριστικών µε διακριτές τιµές. Αυτό φαίνεται να είναι το αντίθετο του προβλήµατος της εκτίµησης της ΜΙ µε διακριτικοποίηση, όπου γίνεται διακριτικοποίηση των συνεχών τιµών των χαρακτηριστικών. Παρά την προϕανή αδυναµία εκτίµησης της ΜΙ µε ΝΝ όταν παρουσιάζονται διακριτές τιµές καταϕέραµε να έχουµε σταθερά αποτελέσµατα σε όλες τις προσοµοιώσεις. 64
83 Κεϕάλαιο 5 Προσοµοιώσεις και Αποτελέσµατα Στο κεϕάλαιο αυτό εϕαρµόζουµε τους αλγορίθµους που αναπτύξαµε καθώς και άλλους αλγορίθµους µε τους οποίους ϑα γίνουν συγκρίσεις, σε πλήθος χαρακτηριστικών που υπολογίσθηκαν πάνω σε χρονοσειρές ταλαντώσεων, αλλά και σε προσαρµοσµένες ϐάσεις δεδοµένων που σχεδιάσαµε µε σκοπό να αναδείξουµε τα πλεονεκτήµατα και τα µειονεκτήµατα των αλγορίθµων αυτών. Αρχικά ϑα εϕαρµόσου- µε τον αλγόριθµο FSSwCRI σε διαϕορετικά πλήθη χαρακτηριστικών που υπολογίσθηκαν από ϐάσεις προσοµοιώσεων χρονοσειρών ταλάντωσης και στην συνέχεια ϑα εϕαρµόσουµε τον αλγόριθµο CMINN σε διάϕορα συστήµατα προσαρµοσµένων ϐάσεων δεδοµένων. 5.1 Εϕαρµογή του FSSwCRI σε προσοµοιώσεις χρονοσειρών ταλάντωσης Στην ενότητα αυτή παρουσιάζουµε τη διαδικασία εύρεσης των κατάλληλων χαρακτηριστικών από χρονοσειρές ταλάντωσης, µε την εϕαρµογή του αλγορίθµου FSSwCRI έτσι ώστε η υποοµάδα αυτή των ϐέλτιστων χαρακτηριστικών να χρησιµοποιηθεί για αποτελεσµατικότερη κατηγοριοποίηση ή συσταδοποίηση των χρονοσειρών ταλάντωσης. Η διαδικασία αυτή µπορεί ουσιαστικά να χρησιµοποιηθεί σε διάϕορους τύπους ϐάσεων δεδοµένων, αλλά στην ενότητα αυτή γίνεται επικέντρωση σε ϐάσεις δεδοµένων µε χαρακτηριστικά που εκτιµούνται σε µονοµεταβλητές χρονοσειρές Περίπτωση µελέτης 10 χαρακτηριστικών Σε µια πρώτη εϕαρµογή του αλγορίθµου FSSwCRI µελετήθηκαν δέκα από τα χαρακτηριστικά που παρουσιάσαµε στο Κεϕάλαιο 2. Τα χαρακτηριστικά αυτά υπολογίζονται από τις τιµές των χρονοσειρών {x t } n t=1 µε µέση τιµή x και τυπική απόκλιση s και διαχωρίζονται σε απλά στατιστικά µέτρα (λοξότητα, κύρτωση, άθροισµα αυτοσυσχέτισης Box-Pierce που συµβολίζονται ως sk, κ και Crx B (τ max ) αντίστοιχα σύµϕωνα µε τον συµβολισµό που χρησιµοποιήσαµε στο Κεϕάλαιο 2), σε µη-γραµµικά (άθροισµα της αµοιβαίας πληροϕορίας, µέγιστος εκθέτης Lyapunov, αυτοσυσχέτιση τριών σηµείων που συµβολίζονται ως CI x (τ max ), λ x και r3 b x για τ max αντίστοιχα) και σε χαρακτηριστικά ταλάντωσης (µέσες τιµές και τυπικές αποκλίσεις των τοπικών µεγίστων και περιόδων ταλάντωσης που συµβολίζονται ως µ(max), sd(max), µ(min) και sd(min) αντίστοιχα) τα οποία ϑα τα καλούµε ως [f 1, f 2,..., f 10 ]. Τα χαρακτηριστικά αυτά παρουσιάζονται συνοπτικά στον Πίνακα 5.1. Οι τιµές των χαρακτηριστικών αυτών τυποποιήθηκαν σύµϕωνα µε τέσσερις γνωστές µεθόδους τυποποίησης που παρουσιάσαµε στο Κεϕάλαιο 2 καθώς και µε την Γκαουσιανή τυποποίηση που αναπτύξαµε και παρουσιάσαµε στο Κεϕάλαιο 5. Οι µέθοδοι τυποποίησης που χρησιµοποιήσαµε παρουσιάζονται συνοπτικά στον Πίνακα 5.2. Στην πρώτη αυτή µελέτη ο σκοπός µας είναι α) να ελέγξουµε το πόσο καλά αποδίδει η µέθοδος FSSwCRI σε διαϕορετικούς τύπους χρονοσειρών ταλαντώσεων, ϐ) κατά πόσο τα χαρακτηριστικά ταλάντωσης που υπολογίσαµε από τις 65
84 Πίνακας 5.1: Ενδεικτικά χαρακτηριστικά που υπολογίζονται από τις τιµές της κάθε χρονοσειράς {x i } N i=1 µε µέση τιµή x και τυπική απόκλιση s τα οποία χωρίζονται σε τρείς κατηγορίες. Είναι τα 10 χαρακτη- ϱιστικά που χρησιµοποιήθηκαν στην πρώτη περίπτωση µελέτης. Σύµβολο Ονοµα Μαθηµατική διατύπωση απλά στατιστικά χαρακτηριστικά ( N ) f 1 λοξότητα (Skewness) sk x = i=1 (x i x) 3 /(Ns 3 ) ( N ) f 2 κύρτωση (Kurtosis) κ x = i=1 (x i x) 4 /(Ns 4 ) 3 f 3 άθροισµα αυτοσυσχέτισης (Box-Pierce) f 4 άθροισµα αµοιβαίας πληροϕορίας (Mutual Information Sum) f 5 µέγιστος εκθέτης Lyapunov f 6 αθροιστική αυτοσυσχέτιση τριών σηµείων Crx B (τ max ) = N τ max τ=1 r(τ)2, όπου r(τ) = ( N i=τ+1 (x ix i τ x )) 2 / N i=τ+1 (x2 i x2 ) µη-γραµµικά χαρακτηριστικά CI x (τ max ) = τ max τ=1 I(τ) = i,j I(τ), όπου P (i, j) ln P λ x = 1 N N h i=1 ln δ h,t δ 0,t, Cr3 b x(τ max ) = (i,j) P (i)p (j) N i=2τ+1 (x i x)(x i τ x)(x i 2τ x) N i=2τ+1 (x i x) 3 χαρακτηριστικά σχετικά µε ταλαντώσεις f 7 µέση τιµή περιόδων µ(3) = 1 n n i=1 tosc i, όπου t osc i είναι η περίοδος της κάθε ταλάντωσης i, i = 1,..., n. f 8 µέση τιµή µεγίστων µ(1) = 1 n n j=1 xmax i, όπου x max i είναι η µέγιστη τιµή κάθε ταλάντωσης i 1 f 9 τυπική απόκλιση περιόδων s(3) = n n 1 i=1 ((tosc i ) 2 (t osc ) 2 ) f 10 τυπική απόκλιση µεγίστων s(1) = 1 n 1 n i=1 ((xmax i ) 2 (x max ) 2 ) χρονοσειρές εµπεριέχονται στα ϐέλτιστα υποσύνολα χαρακτηριστικών που επιλέγει ο FSSwCRI, γ) κατά πόσο οι µέθοδοι τυποποίησης επηρεάζουν τα αποτελέσµατα της κατηγοριοποίησης και δ) η απόδοση της Γκαουσιανής τυποποίησης στις τιµές των εκτιµώµενων χαρακτηριστικών. Για την επίτευξη των στόχων µας ξεκινήσαµε µε την εκτίµηση των 10 αυτών χαρακτηριστικών. ιαδικασία εκτίµησης των 10 χαρακτηριστικών Για τον υπολογισµό των χαρακτηριστικών αυτών για κάθε µια ϐάση δεδοµένων που µελετήσαµε ακολουθήθηκε η παρακάτω αυτοµατοποιηµένη διαδικασία. Αρχικά υπολογίσαµε σε τρεις τυχαία επιλεγµένες χρονοσειρές την τιµή υστέρησης τ για την οποία η αυτοσυσχέτιση r(τ) αποκτά µηδενική τιµή. Η µέση τιµή τους στρογγυλοποιηµένη στον πλησιέστερο ακέραιο είναι η εκτίµηση της µέγιστης υστέρησης την οποία συµβολίζουµε ως τ max. Στη συνέχεια χρησιµοποιήσαµε την τιµή αυτή για τον υπολογισµό της Cr B x (τ max ) για κάθε χρονοσειρά, καθώς και της CI x (τ max ). Επίσης το τ max το ορίσαµε και ως εύρος παραθύρου για την εύρεση των σηµείων καµπής και τον υπολογισµό των χαρακτηριστικών που είναι 66
85 Πίνακας 5.2: Οι µέθοδοι τυποποίησης που εϕαρµόσθηκαν σε κάθε χαρακτηριστικό f j (j = 1,..., M µε M =10), το οποίο εκτιµήθηκε σε N χρονοσειρές και έχει τιµές f j,1,..., f j,k, µέση τιµή f j, τυπική απόκλιση SD s fj, µέγιστη τιµή f j,max και ελάχιστη τιµή f j,min. Μέθοδος Μαθηµατική έκϕραση Γραµµική - linear y j,i = f j,i f j,min f j,max f j,min Λογιστική - logistic y j,i = 1 1+e f j,i Λογαριθµική - logarithmic y j,i = ln(f j,i f j,min + 1) ιασποράς - variation y j,i = f j,i f j s fj Γκαουσιανή - Gaussian y j,i = Φ 1 ( ˆF (f j,i )) σχετικά µε ταλαντώσεις, όπως η µέση τιµή περιόδων, η µέση τιµή µεγίστων και αντίστοιχα η τυπική απόκλιση περιόδων και η τυπική απόκλιση µεγίστων. Χρησιµοποιήσαµε το τ max ως παράµετρο εισόδου στον αλγόριθµο των ψευδών κοντινών γειτόνων, ώστε να εκτιµήσουµε την καλύτερη διάσταση εµβύθισης m η οποία είναι απαραίτητη για τον υπολογισµό του µέγιστου εκθέτη Lyapunov. Το χαρακτηριστικό αυτό είναι σχετικά περίπλοκο και χρονοβόρο στον υπολογισµό του. Για να υπολογιστεί ο λ x m πρέπει να υπολογισθούν οι Ευκλείδειες αποστάσεις δ h,t και η δ 0,t, δύο σηµείων από δύο γειτονικές τροχιές (στην αρχή και µετά από χρόνο h) του ελκυστή που δηµιουργήθηκε από τον ανακατασκευασµένο χώρο µε διάσταση m και υστέρηση τ max, έτσι ώστε x i = [x i, x i τmax,..., x i (m 1)τmax ] για i = 1,..., N + h, και N = N (m 1)τ max h. Υπολογίσαµε επίσης την αθροιστική αυτοσυσχέτιση τριών σηµείων Cr3 b x(τ max ) ( bicorrelation) ή διαϕορετικά κοινή ϱοπή υψηλότερης τάξης. Τέλος υπολογίσαµε και δύο απλά στατιστικά χαρακτηριστικά, τη λοξότητα και την κύρτωση, τα οποία µετρούν τον ϐαθµό της ασυµµετρίας και της κυρτότητας µιας κατανοµής τιµών αντίστοιχα. Τα δέκα αυτά χαρακτηριστικά τα συµβολίζουµε µε {f 1, f 2,..., f 10 } και εν συντοµία παρουσιάζονται στον Πίνακα 5.1. Οι ϐάσεις δεδοµένων µε προσοµοιώσεις χρονοσειρών ταλάντωσης Οι ϐάσεις δεδοµένων χρονοσειρών που χρησιµοποιήσαµε για την εκτίµηση των χαρακτηριστικών που αναϕέραµε πριν προέρχονται από προσοµοιώσεις γνωστών συστηµάτων ταλάντωσης. Για κάθε πρόβληµα ϑεωρούµε τρεις κλάσεις που αναϕέρονται σε τρία διαϕορετικά συστήµατα ταλάντωσης ή σε τρείς διαϕορετικές καταστάσεις του συστήµατος ταλάντωσης. Η αντίστοιχη ϐάση δεδοµένων έχει λοιπόν τρεις οµάδες και κάθε οµάδα αποτελείται από 50 χρονοσειρές µε µήκος N = 1000 σηµείων. Για κάθε µια από τις χρονοσειρές αυτές έγινε ο υπολογισµός των 10 παραπάνω χαρακτηριστικών και στο τέλος δηµιουργήθηκαν οι πίνακες της ϐάσης όπου η κάθε γραµµή του πίνακα αντιστοιχεί στην χρονοσειρά και η κάθε στήλη στην τιµή του κάθε ενός χαρακτηριστικού για τη συγκεκριµένη χρονοσειρά. Για κάθε πρόβληµα δηµιουργήσαµε 1000 πίνακες δεδοµένων (dataset) από τους οποίους οι 700 αποτελούν το σύνολο δεδοµένων εκπαίδευσης και οι υπόλοιπο 300 αποτελούν το σύνολο δεδοµένων ελέγχου. Η µέθοδος FSSwCRI εϕαρµόστηκε για κάθε έναν από τους 700 πίνακες δεδοµένων του συνόλου εκπαίδευσης που αποτελείται από µία οµάδα των 150 γραµµών και 10 στηλών σύµϕωνα µε τη διαδικασία του Σχήµατος 4.2. Για κάθε έναν τέτοιο πίνακα δεδοµένων ο FSSwCRI έδωσε ένα υποσύνολο ϐέλτιστων χαρακτηριστικών. Από τα 700 υποσύνολα ϐέλτιστων χαρακτηριστικών κρατήθηκαν τα πιο συχνά εµϕανι- Ϲόµενα, τα οποία χρησιµοποιήθηκαν ως είσοδος στο διαµεριστικό αλγόριθµο συσταδοποίησης k-means, ο οποίος εϕαρµόσθηκε στο σύνολο δεδοµένων ελέγχου των 300 πινάκων. Στη συνέχεια υπολογίστηκε ο δείκτης CRI στα 300 αυτά προβλήµατα κατηγοριοποίησης, και έγινε αποτίµηση της απόδοσης της 67
86 κατηγοριοποίησης µε τις υποοµάδες χαρακτηριστικών που επιλέχθηκαν από τη διαδικασία FSSwCRI. Στην περίπτωση που τα επιλεγµένα υποσύνολα δεν αποδίδουν ικανοποιητικά τότε συνθέτουµε ένα νέο υποσύνολο χαρακτηριστικών που αποτελείται από τα τρία πιο συχνά εµϕανιζόµενα χαρακτηριστικά στα ϐέλτιστα επιλεγµένα υποσύνολα χαρακτηριστικών. Με το νέο αυτό υποσύνολο χαρακτηριστικών επαναλαµβάνεται η αξιολόγηση της κατηγοριοποίσης. Εκτός από τον δείκτη CRI, υπολογίσθηκε επίσης και ο δείκτης του σϕάλµατος κατηγοριοποίησης, classification error rate (ER), ο οποίος αποτελεί τον κλασσικότερο δείκτη µέτρησης της απόδοσης ενός προβλήµατος κατηγοριοποίησης. Τα δεδοµένα προσοµοιώσεων που χρησιµοποιήθηκαν στη µελέτη της ενότητας αυτής, χωρίζονται στις παρακάτω 4 ϐάσεις δεδοµένων που παρουσιάσθηκαν στο Κεϕάλαιο 2: Βάση δεδοµένων MG1 Χρησιµοποιήσαµε τη ϐάση δεδοµένων που αποτελείται από χρονοσειρές ταλαντώσεων που δηµιουργήθηκαν από το δυναµικό σύστηµα της διαϕορικής εξίσωσης µε υστέρηση των Mackey Glass, όπως περιγράϕεται στην Εξίσωση 3.3 και παρουσιάστηκε στην Ενότητα 3.2. Εξετάσαµε διάϕορες χαοτικές καταστάσεις του συστήµατος και δηµιουργήσαµε αντίστοιχα προβλήµατα οµαδοποίησης για = 17, 23, 30 (όπως φαίνονται στο Σχήµα 3.1a). Για να προσοµοιώσουµε τα δεδοµένα σε συνθήκες του πραγµατικού κόσµου προσθέσαµε και λευκό Γκαουσιανό ϑόρυβο µε τυπική απόκλιση (s) ίση µε το 20% της τυπικής απόκλισης των πραγµατικών δεδοµένων της χρονοσειράς. Βάση εδοµένων MG2 Χρησιµοποιήσαµε πάλι το σύστηµα Mackey Glass αλλά ϑέτοντας την παρά- µετρο = 70, 100, 200, δηµιουργώντας µε τον τρόπο αυτό χαοτικές χρονοσειρές µε υψηλότερη διάσταση και πολυπλοκότητα συγκριτικά µε τις χρονοσειρές της προηγούµενης ϐάσης. Αντιπροσωπευτικές χρονοσειρές των τριών αυτών καταστάσεων παρουσιάζονται στο Σχήµα 3.1b. Βάση εδοµένων L95 Χρησιµοποιήσαµε τη ϐάση δεδοµένων που αποτελείται από χρονοσειρές ταλαντώσεων που δηµιουργήθηκαν από την εϕαρµογή του δυναµικού συστήµατος 10 διαϕορικών εξισώσεων του Lorenz 95 (Εξίσωση 3.4) για τιµές του F = 5, 6, 8 όπως φαίνονται και στο Σχήµα. 3.2a. Εξετάσαµε και την περίπτωση όπου υπάρχει 20% λευκός Γκαουσιανός ϑόρυβος στα δεδοµένα. Βάση εδοµένων FRB Χρησιµοποιήσαµε επίσης και την ϐάση που οι χρονοσειρές δηµιουργήθηκαν από τα τρία συστήµατα α) Fraser ϐ) Rössler και γ) BRWAD (Σχήµα 3.2b). Εξετάσαµε και την περίπτωση όπου προσθέσαµε 40 % ϑόρυβο στις χρονοσειρές των δύο πρώτων συστηµάτων. Αποτελέσµατα περίπτωσης µελέτης 10 χαρακτηριστικών Η διαδικασία που ακολουθήθηκε για την εξαγωγή αποτελεσµάτων και συµπερασµάτων ήταν η εξής : - Πρώτα δηµιουργήθηκαν 1000 παραγµατοποιήσεις της κάθε ϐάσης δεδοµένων. - Για κάθε πραγµατοποίηση υπολογίσθηκαν τα 10 χαρακτηριστικά του Πίνακα 5.1 για τις 150 χρονοσειρές της κάθε πραγµατοποίησης. - Οι τιµές των χαρακτηριστικών που υπολογίσθηκαν, τυποποιήθηκαν µε τις 5 τεχνικές τυποποίησης που αναϕέρονται στον Πίνακα Οι 700 πραγµατοποιήσεις της κάθε ϐάσης αποτελούν το σύνολο δεδοµένων εκπαίδευσης και οι υπόλοιπες 300 το σύνολο δεδοµένων ελέγχου. - Βρέθηκαν τα ϐέλτιστα υποσύνολα χαρακτηριστικών και οι αντίστοιχες τιµές CRI και ER για κάθε µία από τις 700 περιπτώσεις του συνόλου εκπαίδευσης, εϕαρµόζοντας τον αλγόριθµο FSSwCRI. -Η διαδικασία αυτή έγινε για κάθε τεχνική τυποποίησης δεδοµένων και ϐρέθηκαν αντίστοιχα ϐέλτιστα υποσύνολα χαρακτηριστικών για κάθε τεχνική τυποποίησης. 68
87 - Επειδή το επιλεγµένο υποσύνολο χαρακτηριστικών, πιθανόν να διαϕέρει σε κάθε µια από τις 700 πραγµατοποιήσεις του συνόλου εκπαίδευσης, ορίσαµε τον όρο βέλτιστο ( best ) υποσύνολο χα- ϱακτηριστικών ως το υποσύνολο που επιλέχθηκε τις περισσότερες φορές από τον FSSwCRI στις 700 πραγµατοποιήσεις. Επιλέγεται τελικά, ένα τέτοιο ϐέλτιστο υποσύνολο, για κάθε τυποποίηση και για κάθε τύπο ϐάσης δεδοµένων. Η διαδικασία αυτή παρουσιάζεται γραϕικά και στο Σχήµα 4.2 Ωστόσο µπορεί κάποιος να πει ότι το πιο συχνά εµϕανιζόµενο υποσύνολο χαρακτηριστικών δεν είναι απαραίτητα και το καλύτερο για την κατηγοριοποίηση των χρονοσειρών. Για την αποτίµηση αυτής της υπόθεσης, έγινε αξιολόγηση της ακρίβειας κατηγοριοποίησης, χρησιµοποιώντας το κάθε ένα επιλεγµένο βέλτιστο υποσύνολο χαρακτηριστικών, στην κατηγοριοποίηση των 300 πραγµατοποιήσεων του συνόλου δεδοµένων ελέγχου. Τα αποτελέσµατα παρουσιάζονται συνοπτικά στον Πίνακα 5.3 και στον Πίνακα 5.4. Πίνακας 5.3: Αποτελέσµατα από την επιλογή υποσυνόλου χαρακτηριστικών για όλες τις ϐάσεις δεδοµένων µε προσοµοιώσεις. Η διάταξη της εµϕάνισης των χαρακτηριστικών, υποδεικνύει την σειρά µε την οποία επιλέχθηκαν από τον FSSwCRI από τις 700 περιπτώσεις του συνόλου δεδοµένων εκπαίδευσης. Στην στήλη 4 δίνεται το κέντρο και τα άκρα της κατανοµής του CRI για το υποσύνολο χαρακτηριστικών της στήλης 3. Η συχνότητα εµϕάνισης των ϐέλτιστων υποσυνόλων από τις 700 περιπτώσεις του συνόλου δεδοµένων εκπαίδευσης µε αντίστοιχα χαρακτηριστικά παρουσιάζονται στις στήλες 2 και 3. Στη στήλη 5 δίνονται τα ίδια για την κατηγοριοποίηση των 300 περιπτώσεων του συνόλου δεδοµένων ελέγχου. Τυποποίηση Συχνότητα Χαρακτηριστικά Σύνολο εκπαίδευσης Σύνολο ελέγχου στα 700 (2.5%,50%,97.5%) (2.5%,50%,97.5%) Βάση MG1, = 17, 23, 30, χωρίς ϑόρυβο Γραµµική 660 f 3, f 7 (0.98, 1.00, 1.00) (0.98, 1.00, 1.00) Λογιστική 632 f 3, f 7 (0.98, 1.00, 1.00) (0.98, 1.00, 1.00) Λογαριθµική 166 f 9, f 7 (0.94, 0.98, 1.00) (0.44, 0.98, 1.00) ιασποράς 658 f 3, f 7 (0.98, 1.00, 1.00) (0.98, 1.00, 1.00) Γκαουσιανή 148 f 3, f 8, f 4 (0.96, 1.00, 1.00) (0.90, 0.98, 1.00) Βάση MG1, = 17, 23, 30, 20% ϑόρυβος Γραµµική 420 f 3 (0.80, 0.88, 0.96) (0.76, 0.85, 0.94) Λογιστική 425 f 3 (0.80, 0.87, 0.96) (0.73, 0.83, 0.94) Λογαριθµική 223 f 7, f 2 (0.75, 0.83, 0.90) (0.47, 0.56, 0.70) ιασποράς 460 f 3 (0.80, 0.87, 0.96) (0.76, 0.85, 0.94) Γκαουσιανή 169 f 3, f 7, f 4 (0.90, 0.96, 1.00) (0.83, 0.92, 0.98) Βάση MG2, = 70, 100, 200, χωρίς ϑόρυβο Γραµµική 507 f 3 (0.85, 0.94, 0.98) (0.83, 0.92, 0.98) Λογιστική 559 f 3 (0.87, 0.94, 0.98) (0.85, 0.94, 0.98) Λογαριθµική 672 f 4 (0.80, 0.87, 0.96) (0.78, 0.87, 0.96) ιασποράς 565 f 3 (0.85, 0.92, 0.98) (0.83, 0.92, 0.98) Γκαουσιανή 176 f 3, f 4, f 8 (0.83, 0.90, 0.98) (0.77, 0.85, 0.92) 69
88 Πίνακας 5.4: Συνέχεια του Πίνακα 5.3 Τυποποίηση Συχνότητα Χαρακτηριστικά Σύνολο εκπαίδευσης Σύνολο ελέγχου στα 700 (2.5%,50%,97.5%) (2.5%,50%,97.5%) Βάση L95, F = 5, 6, 8, χωρίς ϑόρυβο Γραµµική 575 f 8, f 4 (0.92, 0.96, 1.00) (0.89, 0.96, 1.00) Λογιστική 625 f 8, f 4 (0.89, 0.96, 1.00) (0.87, 0.96, 1.00) Λογαριθµική 501 f 8, f 4 (0.88, 0.94, 1.00) (0.81, 0.94, 1.00) ιασποράς 612 f 8, f 4 (0.89, 0.96, 1.00) (0.87, 0.96, 1.00) Γκαουσιανή 463 f 8, f 4 (0.84, 0.92, 0.98) (0.79, 0.89, 0.96) Βάση L95, F = 5, 6, 8, 20% ϑόρυβος Γραµµική 512 f 8, f 4 (0.86, 0.94, 1.00) (0.83, 0.92, 0.98) Λογιστική 539 f 8, f 4 (0.85, 0.92, 0.98) (0.82, 0.92, 0.98) Λογαριθµική 503 f 8, f 4 (0.84, 0.92, 0.98) (0.80, 0.92, 1.00) ιασποράς 527 f 8, f 4 (0.83, 0.92, 0.98) (0.79, 0.90, 0.98) Γκαουσιανή 436 f 8, f 4 (0.78, 0.88, 0.95) (0.76, 0.86, 0.94) Βάση FRB Γραµµική 290 f 8, f 3 (0.98, 1.00, 1.00) (0.98, 1.00, 1.00) Λογιστική 433 f 8, f 3 (0.96, 1.00, 1.00) (0.98, 1.00, 1.00) Λογαριθµική 686 f 4 (0.98, 1.00, 1.00) (0.98, 1.00, 1.00) ιασποράς 305 f 8, f 3 (0.98, 1.00, 1.00) (0.98, 1.00, 1.00) Γκαουσιανή 179 f 4, f 8 (0.90, 0.94, 0.98) (0.98, 1.00, 1.00) Πρώτα παρατηρήθηκε ότι η ακρίβεια κατηγοριοποίησης των πιο συχνά επιλεγµένων υποσυνόλων µε χαρακτηριστικά, ϐρίσκεται στο ίδιο επίπεδο όταν τα ίδια υποσύνολα χαρακτηριστικών χρησιµοποιούνται και στο σύνολο δεδοµένων εκπαίδευσης και στο σύνολο δεδοµένων ελέγχου. Αυτή η παρατήρηση δηλώνει ότι τα υποσύνολα χαρακτηριστικών που επιλέγονται συχνότερα µε την µέθοδο FSSwCRI, είναι επίσης τα καλύτερα και όταν χρησιµοποιούνται σε προβλήµατα κατηγοριοποίησης. Το αποτέλεσµα αυτό ισχύει για όλες τις τεχνικές τυποποίησης, εκτός από την λογαριθµική τυποποίηση για το σύστηµα Mackey- Glass µε ϑόρυβο και µε µικρούς χρόνους υστέρησης για την Βάση εδοµένων 1, όπου η τιµή του CRI πέϕτει υπερβολικά στο σύνολο δεδοµένων ελέγχου. Συγκεκριµένα, η τιµή της διαµέσου του CRI πέϕτει από το 0.83 για το σύνολο δεδοµένων εκπαίδευσης, στο 0.56 για το σύνολο δεδοµένων ελέγχου. Η γραµµική, η λογιστική και η τυποποίηση διασποράς, τείνουν να κατευθύνουν τη διαδικασία επιλογής χαρακτηριστικών FSSwCRI στο ίδιο υποσύνολο χαρακτηριστικών. Οπως φαίνεται στον Πίνακα 5.3, µε τις µεθόδους αυτές επιλέγονται συχνότερα τα ίδια ακριβώς χαρακτηριστικά, µε περίπου την ίδια συχνότητα, ενώ η λογαριθµική και η Γκαουσιανή τυποποίηση δίνουν διαϕορετικά υποσύνολα χαρακτηριστικών. Οι αντίστοιχες τιµές CRI είναι πάντα χειρότερες για την λογαριθµική τυποποίηση, αλλά το ίδιο δεν ισχύει για τη Γκαουσιανή τυποποίηση, όπου για την ϐάση δεδοµένων 1 µε ϑόρυβο, η µέγιστη τιµή του CRI εµϕανίζεται και στο σύνολο δεδοµένων εκπαίδευσης αλλά και στο σύνολο δεδοµένων ελέγχου. Σηµειωτέον ότι η Γκαουσιανή τυποποίηση, παρουσιάζει τις µικρότερες συχνότητες στην επιλογή συγκεκριµένων υποοµάδων χαρακτηριστικών, οπότε ως αποτέλεσµα ανάµεσα στις 700 πραγµατοποιήσεις, παρουσιάζεται συχνότερα στις περιπτώσεις µε τις χαµηλότερες τιµές του CRI και τη µεγαλύτερη διακύµανση στην επιλογή των καλύτερων υποσυνόλων χαρακτηριστικών. Παρατηρούµε επίσης ότι γενικά οι τιµές CRI είναι πολύ υψηλές και έχουν µικρές διακυµάνσεις ανάµεσα σε όλες τις πραγµατοποιήσεις για όλες τις παραπάνω ϐάσεις δεδοµένων, υποδεικνύοντας ότι τα επιλεγµένα χαρακτηριστικά ϐρίσκουν τις αρχικές κλάσεις των χρονοσειρών. Για να γίνει κατανοητό το επίπεδο ακρίβειας του δείκτη CRI στα προβλήµατα αυτά, η τιµή 0.98 δηλώνει ότι µόνο µια χρονοσειρά 70
89 από τις 150 δεν κατηγοριοποιήθηκε σωστά. Ενα εντυπωσιακό αποτέλεσµα που προέκυψε από τις προσοµοιώσεις, είναι ότι επιλεγµένα υποσύνολα χαρακτηριστικών που περιέχουν πολύ λίγα χαρακτηριστικά (που σε πολλές περιπτώσεις είναι µόνο ένα χαρακτηριστικό) καταϕέρνουν να επιτύχουν πολύ υψηλά ε- πίπεδα ακρίβειας στην κατηγοριοποίηση των δεδοµένων. Στις περισσότερες περιπτώσεις, το καλύτερο υποσύνολο χαρακτηριστικών περιέχει διαρκώς ένα χαρακτηριστικό σχετικό µε ταλάντωση, συνοδευό- µενο από ένα γραµµικό ή µη-γραµµικό χαρακτηριστικό, και αυτή η παρατήρηση ισχύει για όλες τις τεχνικές τυποποίησης που εϕαρµόσθηκαν. Ειδικότερα, το Ϲευγάρι χαρακτηριστικών f 7, f 3, εµϕανίζεται ως το καλύτερο στη ϐάση δεδοµένων MG1 χωρίς ϑόρυβο όπως φαίνεται και στο Σχήµα 5.1(a) για µια από τις πραγµατοποιήσεις (a) (b) F=5 F=6 F= Fraser Rossler Random (c) f 3 f 4 f =17 =23 = f f f 8 Σχήµα 5.1: (a) ιάγραµµα διασποράς των (f 7, f 3 ) για τις 150 χρονοσειρές των τριών καταστάσεων του συστήµατος Mackey Glass της ϐάσης δεδοµένων 1 µε την γραµµική τυποποίηση. (b) Το ίδιο όπως και στο (a) αλλά για τα χαρακτηριστικά (f 8, f 4 ) και το σύστηµα Lorenz 95 της ϐάσης δεδοµένων 3 µε ϑόρυβο. (c) Το ίδιο όπως και στο (a) αλλά για τα χαρακτηριστικά (f 8, f 3 ) των συστηµάτων της ϐάσης δεδοµένων 4, και για την τυποποίηση της διασποράς. Είναι αξιοσηµείωτο ότι ενώ οι οµάδες χρονοσειρών για = 17 και = 30 µπορούν να διαχωριστούν ξεκάθαρα από το καθένα από τα δύο αυτά χαρακτηριστικά, ο διαχωρισµός για τις χρονοσειρές µε = 23 και = 30 µπορεί να επιτευχθεί χρησιµοποιώντας µόνο το f 3 και οι χρονοσειρές µε = 23 και = 17 χρησιµοποιώντας µόνο το f 7. Οταν υπάρχει και ϑόρυβος, τότε η ακρίβεια στην κατηγοριοποίηση πέϕτει και κανένα άλλο χαρακτηριστικό δεν µπορεί να ϐελτιώσει την τιµή του CRI που επιτυγχάνεται µόνο από το χαρακτηριστικό f 3. Ωστόσο, ο συνδυασµός f 3, f 7, f 4 αυξάνει τις τιµές του CRI στο 1/4 περίπου των πραγµατοποιήσεων, όταν γίνεται χρήση της Γκαουσιανής τυποποίησης, σε αντίθεση µε το επίπεδο τιµών που εµϕανίζεται στην περίπτωση του συνόλου δεδοµένων εκπαίδευσης χωρίς ϑόρυβο, όπως επίσης και στην περίπτωση του συνόλου δεδοµένων ελέγχου, όπου έχουµε χαµηλότερο επίπεδο τιµών του CRI. Η χρήση των τριών χαρακτηριστικών (f 3, f 4, f 8 ) ταυτόχρονα ήταν επίσης η ϐέλτιστη στην περίπτωση της Γκαουσιανής τυποποίησης στο 1/4 των πραγµατοποιήσεων της ϐάσης δεδοµένων 2, αλλά σε αυτή την περίπτωση οι υπόλοιπες τυποποιήσεις έδιναν καλύτερη απόδοση χρησιµοποιώντας ένα µόνο χαρακτηριστικό, το f 3. Ετσι το χαρακτηριστικό f 3 της γραµµικής συσχέτισης, αποδεικνύεται ότι λειτουργεί καλύτερα στο διαχωρισµό των χαοτικών συστηµάτων µε υψηλή διάσταση, το οποίο είναι µια υπόδειξη ότι σε τέτοια συστήµατα, τα φαινόµενα της µη-γραµµικότητας είτε ανιχνεύονται δύσκολα ή είναι λιγότερο έντονα σε σχέση µε τις γραµµικές συσχετίσεις. Για τη ϐάση δεδοµένων L95, το Ϲευγάρι χαρακτηριστικών f 8, f 4 (ένα µη-γραµµικό χαρακτηριστικό και ένα χαρακτηριστικό σχετικό µε ταλάντωση) είναι πάντα το καλύτερο υποσύνολο χαρακτηριστικών για όλες τις τυποποιήσεις ανεξάρτητα από την ύπαρξη ή όχι ϑορύβου στα δεδοµένα. Οπως φαίνεται στο Σχήµα 5.1b, τα δύο αυτά χαρακτηριστικά µαζί ξεχωρίζουν καλύτερα τις διαϕορετικές οµάδες δεδοµένων. Για τη ϐάση δεδοµένων FRB το Ϲευγάρι χαρακτηριστικών f 8, f 3 ήταν συχνά το καλύτερο δίνοντας πολύ υψηλές τιµές απόδοσης στην κατηγοριοποίηση όπως φαίνεται και από το Σχήµα 5.1c, το οποίο 71
90 αναϕέρεται σε µια από τις πραγµατοποιήσεις. Είναι αξιοσηµείωτο ότι το υψηλό αυτό επίπεδο κατηγο- ϱιοποίησης µπορεί να επιτευχθεί µόνο µε το χαρακτηριστικό f 4 όταν χρησιµοποιηθεί η λογαριθµική τυποποίηση, και το ίδιο ισχύει και για το σύνολο δεδοµένων ελέγχου. Από την στιγµή που για κά- ϑε ϐάση δεδοµένων µε προσοµοιώσεις χρονοσειρών παρατηρούνταν σχεδόν σταθερά το ίδιο υποσύνολο χαρακτηριστικών, και στις περισσότερες περιπτώσεις αυτό το υποσύνολο απαρτίζονταν από ένα ή δύο χα- ϱακτηριστικά, δεν υπήρχε ανάγκη για περαιτέρω έρευνα, όπως για παράδειγµα την εϕαρµογή κανόνων συσχέτισης στα επιλεγµένα υποσύνολα χαρακτηριστικών. Τα παραπάνω αποτελέσµατα έδειξαν ότι τα χαρακτηριστικά που χρησιµοποιήθηκαν µπορούν να α- νιχνεύσουν επιτυχώς τις κλάσεις στις οποίες ανήκουν οι χρονοσειρές που δηµιουργήθηκαν από όλα τα συστήµατα που δοκιµάστηκαν σε αυτήν τη µελέτη. Αυτό δείχνει ότι τα χαρακτηριστικά αυτά, και ειδικότερα τα σχετικά µε ταλαντώσεις χαρακτηριστικά, είναι καλά υποψήϕια χαρακτηριστικά προς χρήση σε προβλήµατα συσταδοποίησης και κατηγοριοποίησης χρονοσειρών ταλαντώσεων. Από την άλλη πλευρά, είναι πιθανόν η ίδια προσέγγιση να µη δίνει το ίδιο υψηλό επίπεδο ακρίβειας στην κατηγοριοποίηση, όταν εϕαρµοστεί σε χρονοσειρές από συστήµατα υψηλότερης πολυπλοκότητας ή από οµοειδή συστήµατα. Αυτή ακριβώς είναι και η περίπτωση µε τα πραγµατικά δεδοµένα που ϑα παρουσιαστεί στο επόµενο Κεϕάλαιο Περίπτωση µελέτης 312 χαρακτηριστικών Επεκτείναµε το πλήθος χαρακτηριστικών που χρησιµοποιείται ως είσοδος στην µέθοδο επιλογής χαρακτηριστικών FSSwCRI χρησιµοποιώντας από το σύνολο των χαρακτηριστικών που αναϕέραµε στην Ενότητας 3.3, ένα µικρότερο υποσύνολο µε 312 χαρακτηριστικά. Ο στόχος µας στην περίπτωση αυτή είναι να αναπτυχθεί µια διαδικασία αξιολόγησης των ϐέλτιστων υποσυνόλων χαρακτηριστικών που προκύπτουν από την εϕαρµογή µιας µεθόδου επιλογής χαρακτηριστικών σε πολλά οµοειδή προβλήµατα κατηγοριοποίησης µε µεγάλο πλήθος χαρακτηριστικών, ώστε να διαµορϕωθεί ένα τελικό µικρό ϐέλτιστο υποσύνολο χαρακτηριστικών. Σε αυτή την περίπτωση µελέτης οι χρονοσειρές των προσοµοιώσεων προέρχονται µόνο από το δυναµικό σύστηµα Mackey Glass (Εξίσωση 3.3) που περιγράψαµε στην ϐάση 1 της Ενότητας 3.2 για = 100, 200, 300 και µελετήσαµε τις τρείς υψηλοδιάστατες χαοτικές καταστάσεις στις οποίες µπορούν να ϐρεθούν οι χρονοσειρές για κάθε. Αντιπροσωπευτικές χρονοσειρές παρουσιάζονται στο Σχήµα 5.2. Χρησιµοποιήσαµε τα δεδοµένα αυτά αϕενός επειδή έχουν υψηλή πολυπλοκότητα και αϕετέρου επειδή µοιάζουν µε τις καταγραϕές EEG που ϑα µελετήσουµε στο επόµενο Κεϕάλαιο. Τα χαρακτηριστικά που εκτιµήθηκαν πάνω στις χρονοσειρές αυτές προέρχονται από όλες τις οµάδες των µέτρων της Ενότητας 3.3. Η αποτίµηση της απόδοσής των ϐέλτιστων υποσυνόλων χαρακτηριστικών που επιλέγει ο FSSwCRI στο σύνολο δεδοµένων ελέγχου έγινε µε τον k-means ως κατηγοριοποιητή, ο οποίος εµπεριέχεται και στον αλγόριθµο FSSwCRI κατά την διάρκεια της επιλογής των χαρακτηριστικών από το σύνολο δεδοµένων εκπαίδευσης. Το κάθε ένα πρόβληµα κατηγοριοποίησης που σχηµατίζουµε αποτελείται από 50 χρονοσειρές µε 3000 παρατηρήσεις για κάθε µια από τις 3 διαϕορετικές καταστάσεις του συστήµατος, δηλαδή συνολικά 150 χρονοσειρές για κάθε πρόβληµα. ηµιουργήσαµε 1100 πραγµατοποιήσεις Monte Carlo του κάθε συνόλου των 150 χρονοσειρών και από αυτές κρατήσαµε τις 1000 πραγµατοποιήσεις για να σχηµατίσουµε το σύνολο δεδοµένων εκπαίδευσης, και µε τις υπόλοιπες 100 σχηµατίσαµε το σύνολο δεδοµένων ελέγχου. Χρησιµοποιήσαµε 312 από τα 371 χαρακτηριστικά που παρουσιάζουµε στους Πίνακες [ ] διότι κάποια από αυτά για συγκεκριµένες παραµέτρους τους εµϕάνιζαν µηδενικές τιµές ή NaNs, οπότε ο υπολογισµός τους και η χρήση τους ήταν περιττή. Αϕού στην προηγούµενη ενότητα µελετήσαµε τη συµπεριϕορά των τεχνικών τυποποίησης σχετικά µε τις ϐάσεις προσοµοιώσεων στην περίπτωση αυτή υιοθετήσαµε τη γραµµική τυποποίηση στο εύρος τιµών [0, 1] ώστε όλα τα χαρακτηριστικά να µελετηθούν υπό τις ίδιες συνθήκες κανονικοποίησης αλλά κάτω από το ϐάρος του µεγαλύτερου πλήθους χαρακτηριστικών. 72
91 =300 =200 = Σχήµα 5.2: Χρονοσειρές του συστήµατος Mackey-Glass για διαϕορετικές τιµές τιµές της παραµέτρου = 100, 200, 300 που φαίνονται στο αριστερό τµήµα του πλαισίου. Οι χρονοσειρές παρουσιάζονται σε αυθαίρετες µονάδες. ιαδικασία εύρεσης και αξιολόγηση των ϐέλτιστων υποσυνόλων χαρακτηριστικών Οι διαδικασία που ακολουθήσαµε για την εύρεση και αξιολόγηση των επιλεγµένων υποσυνόλων χαρακτηριστικών, για τα δεδοµένα των προσοµοιώσεων δίνεται µε το διάγραµµα ϱοής στο Σχήµα 5.3. Στη διαδικασία αυτή µπορούν να χρησιµοποιηθούν πολλοί και διαϕορετικοί αλγόριθµοι επιλογής χα- Feature selection Training set 1 F FSS train,1 E FSS train,1 F FSS train,(1) Training set 2 F FSS train,2 E FSS train,2 F FSS train,(2) F FSS train,b Database Training set M F FSS train,m E FSS train,m F FSS train,(t) Feature evaluation Test set 1 k-means E FSS test1,(1) E FSS test1,(t) E FSS test1,b E FSS test,(1) Test set 2 k-means E FSS test2,(1) E FSS test2,(t) E FSS test2,b E FSS test,(t) E FSS test,b Test set N k-means E FSS testn,(1) E FSS testn,(t) E FSS testn,b Σχήµα 5.3: ιάγραµµα ϱοής της διαδικασίας επιλογής χαρακτηριστικών στο σύνολο δεδοµένων εκπαίδευσης, και η διαδικασία αξιολόγησής τους στο σύνολο δεδοµένων ελέγχου των προσοµοιώσεων. ϱακτηριστικών, αλλά για την περίπτωση αυτή επικεντρωνόµαστε µόνο στον αλγόριθµο FSSwCRI για την επιλογή των χαρακτηριστικών, ο οποίος δίνει µικρά υποσύνολα χαρακτηριστικών (που συχνά περιέχουν µόνο ένα χαρακτηριστικό όπως είδαµε από την µελέτη περίπτωσης των 10 χαρακτηριστικών της προηγούµενης ενότητας) και υψηλή ακρίβεια στην κατηγοριοποίηση των δεδοµένων. Η ακρίβεια της κατηγοριοποίησης στο σύνολο δεδοµένων ελέγχου, µετρήθηκε µε το δείκτη CRI καθώς και µε τον δείκτη ER (τους οποίους τους παρουσιάσαµε στην Ενότητα 2.2.2). Για τα δεδοµένα των προσοµοιώσεων σχηµατίσαµε τα υποσύνολα των χαρακτηριστικών σε τρία στάδια (δες τους συµβολισµούς στον Πίνακα 5.5). 73
92 Πίνακας 5.5: Επεξήγηση των συµβόλων που εµϕανίζονται στο διάγραµµα ϱοής στο Σχήµα 5.3 για τα δεδοµένα προσοµοιώσεων. Υποσύνολα Περιγραϕή Σϕάλµα Περιγραϕή F FSS train,j F FSS train,(i) F FSS train,b Το υποσύνολο χαρακτηριστικών που ϐρέθηκε από τον αλγόριθµο FSSwCRI στο πρόβληµα j του συνόλου εκπαίδευσης Το υποσύνολο χαρακτηριστικών που ταξινοµήθηκε ως i-στό πιο συχνά εµφανιζόµενο από τα F FSS train,j για j = 1,..., M, όπου i = 1,..., t Το υποσύνολο που σχηµατίστηκε από την ένωση των χαρακτηριστικών των υ- Ē ποσυνόλων Ftrain,(i) FSS για i = 1,..., t Προσοµοιώσεις Ē FSS train,(i) Ē FSS test,(i) FSS test,b Η µέση τιµή του CRI ή του ER που υ- πολογίσθηκε για τα προβλήµατα κατηγοριοποίησης του συνόλου δεδο- µένων εκπαίδευσης όπου επιλέχθηκε το F FSS train,(i) Η µέση τιµή του CRI ή του ER που υπολογίσθηκε για Ftrain,(i) FSS στα προ- ϐλήµατα κατηγοριοποίησης του συνόλου δεδοµένων ελέγχου Η µέση τιµή του CRI ή του ER που υπολογίσθηκε για Ftrain,b FSS στα προ- ϐλήµατα κατηγοριοποίησης του συνόλου δεδοµένων ελέγχου Αρχικά το υποσύνολο χαρακτηριστικών Ftrain,j FSS επιλέγεται από τον αλγόριθµο FSSwCRI για κά- ϑε εργασία κατηγοριοποίησης j του συνόλου δεδοµένων εκπαίδευσης που έχουµε συνθέσει, όπου j = 1,..., Σε αυτή τη διαδικασία υπολογίζουµε και τις αντίστοιχες τιµές των δεικτών CRI και ER, που συµβολίζονται ως Etrain,j FSS. Στη συνέχεια ταξινοµούµε τα υποσύνολα χαρακτηριστικών που ϐρέ- ϑηκαν, ανάλογα µε τη συχνότητα εµϕάνισής τους και επιλέγουµε τα τρία (t = 3) πιο συχνά εµϕανιζόµενα υποσύνολα χαρακτηριστικών και τα συµβολίζουµε ως Ftrain,(i) FSS, για i = 1,..., t, και υπολογίζουµε επίσης τις µέσες τιµές του CRI και ER, Ētrain,(i) FSS για το καθένα από τα υποσύνολα χαρακτηριστικών που εµϕανίζονται συχνά. Αυτά είναι και τα πιο πιθανά υποψήϕια υποσύνολα χαρακτηριστικών που µπορεί να περιµένουµε να επιλέξει ο FSSwCRI για το συγκεκριµένο πρόβληµα κατηγοριοποίησης των τριών συστηµάτων Mackey-Glass. Επιπλέον συνθέτουµε ένα ακόµη υποσύνολο χαρακτηριστικών, Ftrain,b FSS, συγκεντρώνοντας όλα τα χαρακτηριστικά που περιλαµβάνονται µέσα στα t πιο συχνά επιλεγµένα υποσύνολα χαρακτηριστικών, σχηµατίζοντας έτσι ένα µεγαλύτερο υποσύνολο χαρακτηριστικών που περιέχει τα χαρακτηριστικά που είναι πιο σχετικά µε την κατηγοριοποίηση των δεδοµένων. Στην συνέχεια τα t αυτά υποσύνολα χα- ϱακτηριστικών Ftrain,(i) FSS FSS και το Ftrain,b αξιολογούνται ως προς την ικανότητά τους να κατηγοριοποιούν µε ακρίβεια τα δεδοµένα του συνόλου ελέγχου, χρησιµοποιώντας ως κατηγοριοποιητή, τον k-means. Οι παραγόµενες τιµές των CRI και ER, για κάθε εργασία κατηγοριοποίησης l = 1,..., 100 στο σύνολο δεδοµένων ελέγχου, συµβολίζονται ως Etestl,(i) FSS όλες τις 100 εργασίες συµβολίζονται ως ĒFSS και EFSS testl,b και ĒFSS test,b. test,(i) παρουσιάζονται µε τη µορϕή διαγράµµατος ϱοής στο Σχήµα 5.3., αντίστοιχα, και οι µέσες τιµές τους από Ολα τα ϐήµατα της διαδικασίας αυτής Αποτελέσµατα της περίπτωσης µελέτης 312 χαρακτηριστικών Η οµάδα των 312 χαρακτηριστικών υπολογίσθηκε σε κάθε χρονοσειρά, και αυτά αποτελούν τα υποψήϕια χαρακτηριστικά που ϑα σχηµατίσουν το τελικό υποσύνολο χαρακτηριστικών το οποίο ϑα χρησιµοποιηθεί για την κατηγοριοποίηση των 150 χρονοσειρών για κάθε εργασία οµαδοποίησης των 74
93 δεδοµένων. Αξιολόγηση των συστάδων Ενα από τα πρώτα προβλήµατα στην κατηγοριοποίηση δεδοµένων είναι ο καθορισµός των πραγµατικών κλάσεων. Το πρόβληµα αυτό το συζητήσαµε στην Ενότητα όπου παρουσιάστηκαν τεχνικές για τον καθορισµό των κλάσεων. Χρησιµοποιούµε αυτές τις τεχνικές ώστε να αποϕασίσουµε για τις πραγµατικές κλάσεις των προβληµάτων µας. Για να αποϕασίσουµε τελικά πόσες ϑα είναι οι κλάσεις που ϑα χρησιµοποιήσουµε και να διαπιστώσουµε το πόσο συµπαγείς και διαχωρίσιµες είναι ώστε να προχωρήσουµε στην επιλογή των ϐέλτιστων χαρακτηριστικών, εϕαρµόσαµε τις δύο µεθόδους αξιολόγησης που είναι οι δείκτες του Dunn που τον συµβολίζουµε µε D(U c ) και των Davies- Bouldin που τον συµβολίζουµε µε DB(U c ). Οι δείκτες αυτοί έχουν δείξει ότι είναι ισχυρές στρατηγικές στο να µπορούν να προβλέπουν τον ϐέλτιστο αριθµό κλάσεων που ϑα πρέπει να χρησιµοποιηθεί σε προ- ϐλήµατα κατηγοριοποίησης (Brun et al., 2007). Οι δύο αυτοί δείκτες υπολογίστηκαν για τα δεδοµένα προσοµοιώσεων του συστήµατος Mackey-Glass, χρησιµοποιώντας τον αλγόριθµο k-means για πλήθος κλάσεων c = 2,..., 10 στον χώρο των χαρακτηριστικών µε διάσταση ίση µε 312, ώστε να εντοπιστεί ο ϐέλτιστος αριθµός των συστάδων στην περίπτωση που ο δείκτης D(U c ) πάρει την µέγιστη τιµή και ο δείκτης DB(U c ) πάρει την ελάχιστη τιµή. Στην περίπτωση των προσοµοιωτικών δεδοµένων γνωρίζουµε τις τρείς καταστάσεις των χρονοσειρών και προσπαθούµε να ελέγξουµε κατά πόσο οι δείκτες αυτοί µπορούν να ϐρουν τις σωστές τρείς συστάδες στην περίπτωση που έχουµε πολλά χαρακτηριστικά ως είσοδο. Ο δείκτης D υπέδειξε το διαχωρισµό των δεδοµένων σε 2 κλάσεις για όλες τις 1000 περιπτώσεις συσταδοποίησης του συνόλου δεδοµένων εκπαίδευσης. Ο δείκτης DB υπέδειξε τον διαχωρισµό των δεδοµένων σε 2 κλάσεις για τις 687 περιπτώσεις και τον διαχωρισµό σε 3 κλάσεις για τις υπόλοιπες 313 περιπτώσεις. Το αποτέλεσµα αυτό φανερώνει τη δυσκολία που υπάρχει για τη σωστή συσταδοποίηση των δεδοµένων όταν χρησιµοποιείται ολόκληρο το σύνολο των χαρακτηριστικών. Στην περίπτωσή µας, τα δεδοµένα προσοµοιώσεων, χωρίζονται σε τρεις κλάσεις παρόµοιων χαοτικών δυναµικών συστηµάτων και οι δείκτες D και DB δεν κατάϕεραν να ϐρουν τις σωστές κλάσεις µε το σύνολο της οµάδας των 312 χαρακτηριστικών. Οπότε προχωράµε να ανακαλύψουµε εάν ο αλγόριθµος επιλογής χαρακτηριστικών µπορεί να µας τροϕοδοτήσει µε ένα ϐέλτιστο υποσύνολο χαρακτηριστικών, που πιθανόν να περιέχει µικρό αριθµό χαρακτηριστικών, αλλά να µπορεί να ταυτοποιήσει σωστά τις διαµερίσεις των δεδοµένων. Επιλογή χαρακτηριστικών ιευκρινίζουµε ότι για τη διαδικασία επιλογής χαρακτηριστικών, ο σωστός αριθµός των κλάσεων είναι γνωστός και δεδοµένος. Ερευνούµε την οµάδα των 312 χαρακτηριστικών µε χρήση του αλγορίθµου FSSwCRI ώστε να ϐρούµε το ϐέλτιστο υποσύνολο χαρακτηριστικών που ϑα δίνει τις καλύτερες τιµές του CRI, µε την έννοια ότι η προσθήκη οποιουδήποτε άλλου χαρακτηριστικού δεν ϐελτιώνει σηµαντικά την τιµή του CRI. Εϕαρµόζοντας λοιπόν τον FSSwCRI σε κάθε ένα πρόβληµα κατηγοριοποίησης j, j = 1,..., 1000, επιλέγονται Ftrain,j FSS υποσύολα χαρακτηριστικών που δεν είναι όλα όµοια µεταξύ τους. Τα τρεία (t = 3) πιο συχνά εµϕανιζόµενα υοποοσύνολα χαρακτηριστικών Ftrain,(i) FSS, i = 1,..., t που ϐρέθηκαν, είναι στην πραγµατικότητα υποσύνολα µε ένα µόνο χαρακτηριστικό. Το πρώτο σε συχνότητα εµϕάνισης χαρακτηριστικό είναι το χαρακτηριστικό της πολυπλοκότητας Hjorth (HjC y ), δεύτερο σε σειρά έρχεται η κλίση της καµπύλης του εκθέτη Hurst (HeS y ), και τρίτο έρχεται η κλίσης της καµπύλης DFA (DF S y ). Τα δύο τελευταία ανήκουν στην οµάδα χαρακτηριστικών συσχετίσεων µακράς εµβέλειας του Πίνακα 3.3. Η τιµές των συχνοτήτων εµϕάνισης και των µέσων τιµών του CRI των τριών αυτών χαρακτηριστικών παρουσιάζονται στον Πίνακα 5.6. Παρατήρηση : Τα δύο τελευταία χαρακτηριστικά είναι έντονα συσχετισµένα αϕού εκτιµούν το ίδιο χαρακτηριστικό. Οταν στη συνέχεια τα ενώνουµε έχουµε υποσύνολο τριών χαρακτηριστικών µε 2 από αυτά να έχουν πλεονάζουσα πληροϕορία. Ο FSSwCRI διαλέγει πάντα ένα από τα δύο και όχι ταυτόχρονα επειδή η ύπαρξη και των δύο δεν ϐελτιώνει την τιµή του CRI. 75
94 Πίνακας 5.6: Τα τρία πιο συχνά επιλεγµένα υποσύνολα χαρακτηριστικών (όλα αποτελούνται από ένα µόνο χαρακτηριστικό), η συχνότητα εµϕάνισής τους, και η µέση τιµή του CRI για το σύνολο δεδοµένων εκπαίδευσης των 1000 προβληµάτων κατηγοριοποίησης µε δεδοµένα προσοµοιώσεων. Η τελευταία στήλη δείχνει τις µέσες τιµές του CRI και του ER σε παρένθεση, για τα ίδια υποσύνολα χαρακτηριστικών αλλά για τις 100 περιπτώσεις κατηγοριοποίησης του συνόλου δεδοµένων ελέγχου. i F FSS train,(i) συχνότητα Ē FSS train,(i) CRI ĒFSS test,(i) CRI (ER) 1 HjC y (Hjorth complexity) (0.04) 2 HeS y (Hurst exponent slope) (0.06) 3 DF S y (DFA slope) (0.06) Αξιολόγηση των επιλεγµένων υποσυνόλων χαρακτηριστικών Για την αξιολόγηση των παραπάνω τριών υποσυνόλων χαρακτηριστικών, κατηγοριοποιήσαµε τα δεδοµένα του συνόλου ελέγχου, εϕαρµό- Ϲοντας τον αλγόριθµο k-means για k = 3 (δηλαδή για τρεις συστάδες), και µετρήσαµε τις µέσες τιµές των δεικτών CRI και ER (που τις συµβολίζουµε ως ĒFSS test,(i) για i = 1,..., 3) από τις 100 περιπτώσεις κατηγοριοποίησης του συνόλου αυτού. Οπως δείχνουν τα συγκεντρωτικά αποτελέσµατα του Πίνακα 5.6, η ακρίβεια κατηγοριοποίησης µε τις πιο συχνά επιλεγµένα υποσύνολα χαρακτηριστικών, ϐρίσκεται περίπου στο ίδιο επίπεδο, και στο σύνολο δεδοµένων εκπαίδευσης αλλά και στο σύνολο δεδοµένων ελέγχου. Για παράδειγµα για το µέτρο HjC y, η ακρίβεια κατηγοριοποίησης απλά µειώνεται ελάχιστα στο σύνολο δεδοµένων ελέγχου, και η τιµή του CRI πέϕτει από το 0.98 που ήταν για το σύνολο εκπαίδευσης, στο 0.96 στο σύνολο ελέγχου, που σηµαίνει και στις δύο περιπτώσεις ότι περίπου µια από τις 150 χρονοσειρές ταξινοµήθηκε λανθασµένα. Στο Σχήµα 5.4 παρουσιάζεται η διαχωριστική ικανότητα που έχουν τα υποσύνολα χαρακτηριστικών Ftrain,(i) FSS µε ένα χαρακτηριστικό του Πίνακα 5.6, όπου οι τρείς διαϕορετικές καταστάσεις πολυπλοκότητας του συστήµατος Mackey-Glass ξεχωρίζουν πολύ καθαρά µεταξύ τους. Επιπλέον το υποσύνολο χαρακτηριστικών που απαρτίζεται από την σύνθεση των τριών πιο συχνά επιλεγµένων υποσυνόλων µε χαρακτηριστικά, και συµβολίζεται ως Ftest,b FSS, έδωσε την τέλεια κατηγοριοποίηση όταν χρησιµοποιήθηκε στο σύνολο δεδοµένων ελέγχου (ĒFSS test,b όπου η τιµή του CRI είναι ίση µε 1.00). Τα αποτελέσµατα αυτά υποδεικνύουν ότι τα χαρακτηριστικά που επιλέχθηκαν πιο συχνά από τον αλγόριθµο FSSwCRI είναι όντως τα πιο χρήσιµα για περιπτώσεις κατηγοριοποίησης, και µε την ένωσή τους, η ακρίβεια της κατηγοριοποίησης αυξάνει ακόµη περισσότερο, φτάνοντας στα επίπεδα του τέλειου διαχωρισµού των τριών χαοτικών καταστάσεων του συστήµατος Mackey-Glass. Επαναλάβαµε τη διαδικασία αξιολόγησης των συστάδων µε τις µεθόδους αξιολόγησης της παραγράφου 2.2.2, χρησιµοποιώντας όµως το υποσύνολο χαρακτηριστικών Ftrain,b FSS και όχι τα 312 χαρακτηριστικά, µε αποτέλεσµα οι δείκτες D και DB να ϐρίσκουν επιτυχώς πλέον 3 κλάσεις ως τον καλύτερο αριθµό διαχωρισµού των δεδοµένων προσοµοίωσης, που είναι και ο σωστός αριθµός κλάσεων στις προσοµοιώσεις µας. 5.2 Σύγκριση της CMINN µε άλλες µεθόδους σε δεδοµένα προσοµοιώσεων Στην ενότητα αυτή συγκρίνουµε το φίλτρο επιλογής χαρακτηριστικών CMINN µε τα φίλτρα mrmr και MaxiMin, εϕαρµόζοντάς τα σε δεδοµένα προσοµοιώσεων. Η εύρεση του ϐέλτιστου υποσυνόλου 76
95 1.5 HjC y HeS y DFS y Σχήµα 5.4: Η συµπεριϕορά των χαρακτηριστικών για τις 150 χρονοσειρές µιας από τις 1000 περιπτώσεις κατηγοριοποίησης, όπου οι 50 πρώτες χρονοσειρές προέρχονται από το σύστηµα Mackey-Glass για = 100, οι επόµενες 50 χρονοσειρές για = 200 και τελευταίες 50 χρονοσειρές για = 300. Το γράϕηµα στο πάνω µέρος είναι για το χαρακτηριστικό HjC y (Hjorth complexity), το µεσαίο για το HeS y (Hurst exponent slope) και το κάτω για το DF S y (DFA slope). χαρακτηριστικών και στους τρεις αυτούς αλγορίθµους επιλογής χαρακτηριστικών γίνεται µε προοδευτική αναζήτηση των χαρακτηριστικών από τα δεδοµένα των προσοµοιώσεων, επιλέγοντας (ή καλύτερα κατατάσσοντας) ένα χαρακτηριστικό σε κάθε ϐήµα. Το ϐασικό µειονέκτηµα των mrmr και MaxiMin όπως και άλλων παρόµοιων αλγορίθµων, είναι ότι σε κάθε επανάληψη µεγιστοποιούν ένα κριτήριο σχετικότητας και πλεονασµού, λαµβάνοντας όµως υπόψιν µόνο τις επιδράσεις µεταξύ του κάθε απλού χαρακτηριστικού f j που υπάρχει στο τρέχον υποσύνολο χαρακτηριστικών S και δε λαµβάνουν καθόλου υπόψιν συνδυασµένες επιδράσεις µεταξύ δύο ή περισσοτέρων χαρακτηριστικών που υπάρχουν στο S. Αντίθετα ο CMINN λαµβάνει υπόψιν του και τις απλές αλλά και τις συνδυασµένες επιδράσεις µεταξύ των χαρακτηριστικών του S, ϐελτιώνοντας µε τον τρόπο αυτό την προοδευτική αναζήτηση των χαρακτη- ϱιστικών. Μέσα από τη µελέτη των προσοµοιώσεων που κάνουµε στην ενότητα αυτή προσπαθούµε να αναδείξουµε τις αδυναµίες αυτές των αλγορίθµων mrmr και MaxiMin συγκριτικά µε τον CMINN. Κατά την εκτίµηση του CMINN χρησιµοποιήσαµε διαϕορετικό πλήθος γειτόνων K = 1, 5, 10, 20, 40 για να δούµε τη συµπεριϕορά του σχετικά µε το πλήθος των γειτόνων. Για τη µέθοδο mrmr εξετάσαµε την εκτίµηση µε διακριτικοποίηση (binning) αλλά σύµϕωνα µε τον αυθεντικό τρόπο που χρησιµοποιεί ο Peng et al. (2005) δηλαδή στρογγυλοποιώντας όλες τις τιµές στους πλησιέστερους ακεραίους, ενώ για την µέθοδο MaxiMin χρησιµοποιήσαµε την ισαπέχουσα διακριτικοποίηση µε πλήθος διαστηµάτων ίσο µε b = N/5 (Silverman, 1986; Papana and Kugiumtzis, 2009). Εϕαρµόσαµε επίσης και την εκτίµηση αµοιβαίας πληροϕορίας (ΜΙ) µε ΝΝ στην mrmr και στην MaxiMin για να ελέγξουµε την επίδραση του εκτιµητή της ΜΙ στην απόδοση του αλγορίθµου. Τονίζουµε ότι µια υψηλή τιµή του K στην ΝΝ εκτίµηση αντιστοιχεί σε µια µικρή τιµή του b στην εκτίµηση µε διακριτικοποίηση. Η απόδοση των αλγορίθµων CMINN, mrmr και MaxiMin αξιολογήθηκε µε την εϕαρµογή τους πάνω σε παραδείγµατα προσοµοιώσεων στα οποία τα χαρακτηριστικά που είναι σχετικά µε την µεταβλητή της κλάσης είναι γνωστά εκ 77
96 των προτέρων. Ποσοτικοποιούµε έτσι την απόδοση του κάθε αλγορίθµου, µετρώντας την συχνότητα επιλογής του σωστού υποσυνόλου χαρακτηριστικών µέσα από ένα πλήθος πραγµατοποιήσεων του συστήµατος προσοµοίωσης. Επιπρόσθετα, προκειµένου να αξιολογηθεί η κατάταξη των χαρακτηριστικών που λαµβάνονται από τις διαϕορετικές µεθόδους σε εργασίες κατηγοριοποίησης, χρησιµοποιούµε στο πρώτο πρόβληµα προσοµοίωσης (Dataset A) τον k-means και στα υπόλοιπα τον κατηγοριοποιητή naive Bayes (Duda et al., 2001) (Ενότητα 2.2.1, και ποσοτικοποιούµε την απόδοση της κατηγοριοποίησης µε τον δείκτη CRI (ϐλέπε Ενότητα 2.2.2). Χρησιµοποιήσαµε επίσης και τον δείκτη AC που είναι αντίστοιχος µε τον δείκτη ER, αλλά ϐρήκαµε ότι ο CRI ήταν πιο κατατοπιστικός. Ελέγξαµε επίσης στον αλγόριθµο CMINN πότε το κριτήριο τερµατισµού της εξίσωσης 4.9 και της εξίσωσης 4.10 προσδιορίζει σωστά το πραγµατικό υποσύνολο χαρακτηριστικών. Για να επιτύχουµε αυτό υπολογίζουµε την πληθικότητα του υποσυνόλου χαρακτηριστικών S που δίνει την υψηλότερη ακρίβεια κατηγοριοποίησης και στην συνέχεια ελέγχουµε κατά πόσο αυτή συµϕωνεί µε το κριτήριο τερµατισµού της CMINN. Εξετάσαµε πέντε οµάδες προσοµοιώσεων, (Dataset A, Dataset B, Dataset C, Dataset D, Dataset E) που αντιπροσωπεύουν πέντε διαϕορετικά προβλήµατα, όπου στην πρώτη οµάδα χρησιµοποιήσαµε τις ίδιες προσοµοιώσεις που χρησιµοποιήσαµε στην Ενότητα στην δεύτερη οµάδα χρησιµοποιήσαµε προσοµοιώσεις παρόµοιες µε της οµάδας αλλά µε µεγαλύτερο πλήθος κλάσεων και στις υπόλοιπες τρείς οµάδες οι προσοµοιώσεις προέρχονται από συστήµατα παλινδρόµησης. Συγκεκριµένα τα παραδείγµατα των οµάδων C, D και E προέρχονται από συστήµατα παλινδρόµησης όπου η συνεχής εξαρτώµενη µετα- ϐλητή y δίνει τις κλάσεις µετά από διακριτικοποίηση. Τα χαρακτηριστικά f i είναι τυχαίες µεταβλητές, µερικές εκ των οποίων ανεξάρτητες µεταβλητές και αποτελούν τους προγνώστες της y (predictors), κάποια χαρακτηριστικά έχουν κάποια συναρτησιακή σχέση µε τους προγνώστες (επεξηγηµατικές µεταβλητές) ενώ κάποια άλλα είναι τελείως άσχετα µεταξύ τους ή µε τις κλάσεις. Η συνεχής µεταβλητή y µετατρέπεται στη µεταβλητή κλάσης C µε πλήθος b κλάσεων µετά από την τµηµατοποίηση του εύρους τιµών της y σε b ισαπέχοντα ή ισοπίθανα τµήµατα και ο διαχωρισµός αναϕέρεται ως equidistant ή equiprobable binning, αντίστοιχα Dataset A Στην οµάδα αυτή εϕαρµόζουµε το φίλτρο επιλογής χαρακτηριστικών CMINN για K=1 καθώς και το φίλτρο MaxiMin µε εκτίµηση της ΜΙ µε ισαπέχουσα διακριτικοποίηση µε πλήθος διαστηµάτων ίσο µε b = N/5 αλλά και µε εκτίµηση της ΜΙ µε κοντινότερους γείτονες ΝΝ για K=1. Θέλουµε να ϐρούµε το υποσύνολο των χαρακτηριστικών που που ϑα επιλέξουν αυτοί οι αλγόριθµοι και να εξετάσουµε την απόδοση της κατηγοριοποίησης. Τα δεδοµένα των προσοµοιώσεων προέκυψαν από την εϕαρµογή της διαϕορικής εξίσωσης του δυναµικού χαοτικού συστήµατος των Mackey-Glass που περιγράψαµε στην Ενότητα 3.2 για τιµές της παραµέτρου = 100, 200, 300 και χρησιµοποιήσαµε τις ίδιες χρονοσειρές που εξετάσαµε στην Ε- νότητα Εξετάζουµε δηλαδή 3 οµάδες από 50 χρονοσειρές η κάθε µία για κάθε διαϕορετική κατάσταση του συστήµατος µε κάθε χρονοσειρά να αποτελείται από 3000 σηµεία για 1100 Monte Carlo πραγµατοποιήσεις. Το σύνολο δεδοµένων εκπαίδευσης αποτελείται από 1000 πραγµατοποιήσεις των 150 χρονοσειρών και το σύνολο δεδοµένων ελέγχου αποτελείται από τις υπόλοιπες 100 πραγµατοποιήσεις. Για κάθε µια χρονοσειρά των προσοµοιώσεων υπολογίσθηκαν 312 χαρακτηριστικά και οι τιµές των χαρακτηριστικών αυτών τυποποιήθηκαν µε ϐάση τη γραµµική τυποποίηση µε κλιµάκωση τιµών µεταξύ [0,1]. Ο κατηγοριοποιητής που χρησιµοποιήσαµε για την αποτίµηση του υποσυνόλου χαρακτηριστικών που επέλεξαν οι δύο αυτοί αλγόριθµοι είναι ο k-means µε δείκτη οµοιότητας τον CRI. Μετά την εϕαρ- µογή των µεθόδων MaxiMin bin, MaxiMin NN και CMINN για Κ=1 γείτονες, ϐρήκαµε τα 1000 πρώτα υποσύνολα µε 5 χαρακτηριστικά και µέσα από αυτά ϐρήκαµε ποια είναι τα χαρακτηριστικά που επιλέγονται πιο πολλές φορές δηλαδή ϐρήκαµε τη συχνότητα επιλογής των καλύτερων χαρακτηριστικών. Στη συνέχεια ϐρήκαµε τη µέση τιµή του CRI στις 1000 πραγµατοποιήσεις του συνόλου εκπαίδευσης, από την εϕαρµογή του αλγορίθµου k-means (για k=3 όσες και οι καταστάσεις του συστήµατος MG) χρησι- 78
97 Πίνακας 5.7: Τα καλύτερα χαρακτηριστικά (µε τις παραµέτρους τους) όπως αυτά επιλέχθηκαν από τις µεθόδους MaxiMin bin, MaxiMin NN και CMINN(Κ=1), για 1000 Monte Carlo πραγµατοποιήσεις των χρονοσειρών που παρήχθησαν από το χαοτικό σύστηµα MG για = 100, 200, 300 (στήλη1), η συχνότητα εµϕάνισής τους στο ϐέλτιστο υποσύνολο (στήλη 2) και η µέση τιµή CRI στην στήλη 3. Χαρακτηριστικά Συχνότητα <CRI> MaxiMin bin HjC y DF S y I y (bins = 16, τ = 5) Cry P (40) HeS y MaxiMin NN HjC y HeS y DF S y RQA 3 (m = 10, τ = 1, r = 0.2) RQA 1 (m = 10, τ = 1, r = 0.2) CMINN HjC y HeS y r3 b y(40) r3 b y(τ max ) RQA 3 (m = 10, τ = 1, r = 0.2) µοποιώντας τα επιλεγµένα υποσύνολα όπου υπάρχει το κάθε συχνά εµϕανιζόµενο χαρακτηριστικό. Τα στοιχεία αυτά τα παραθέτουµε στον Πίνακα 5.7. Με τα χαρακτηριστικά του Πίνακα 5.7 που ϐρέθηκαν από κάθε µέθοδο επιλογής χαρακτηριστικών, εϕαρµόσαµε ξανά κατηγοριοποίηση µε τον k-means στις 100 πραγµατοποιήσεις του συνόλου ελέγχου και παρατηρήσαµε ότι η ακρίβεια κατηγοριοποίησης πλησιάζει το µέγιστο και για τα τρία υποσύνολα όπως φαίνεται και από τον Πίνακα 5.8, υποδηλώνοντας ότι τα υποσύνολα χαρακτηριστικών που αποτελούνται από τα χαρακτηριστικά του Πίνακα 5.7 είναι πράγµατι ϐέλτιστα και οι µέθοδοι που χρησιµοποιήσαµε για την επιλογή χαρακτηριστικών επιλέγουν τα σωστά χαρακτηριστικά. Συγκρίνοντας τον πίνακα Πίνακα 5.7 µε τον Πίνακα 5.6 παρατηρούµε ότι όλοι οι αλγόριθµοι επιλογής χαρακτηριστικών (F SSwCRI, MaxiMin bin, MaxiMin NN και CMINN(Κ=1» που εϕαρµόσθηκαν σε αυτή την οµάδα δεδοµένων επιλέγουν πάντα ως καλύτερο χαρακτηριστικό το HjC y και µέσα στην καλύτερη πεντάδα υπάρχει πάντα και το χαρακτηριστικό HeS y ενώ το χαρακτηριστικό DF S y δεν εµπεριέχεται µόνο στην πεντάδα που επιλέγει ο αλγόριθµος CMINN(Κ=1). Συγκρίνοντας την απόδοση κατηγοριοποίησης από τα υποσύνολα χαρακτηριστικών µε τα συχνότερα χαρακτηριστικά ϐλέπουµε ότι η απόδοση έχει ϐελτιωθεί σε όλες τις περιπτώσεις Dataset B Αυτή η οµάδα δεδοµένων, δηµιουργήθηκε από ένα πλήθος χαρακτηριστικών µέτρων που υπολογίσθηκαν για τις διαϕορετικές καταστάσεις του ίδιου χαοτικού δυναµικού συστήµατος (Mackey-Glass) που µελετήσαµε πριν αλλά για περισσότερες τιµές της χρονικής υστέρησης ώστε οι χρονοσειρές που ϑα προκύψουν να ανήκουν σε περισσότερες κλάσεις. Το πρόβληµα κατηγοριοποίησης που έχουµε ε- 79
98 Πίνακας 5.8: Η απόδοση κατηγοριοποίησης του υποσυνόλου µε τα πέντε συχνότερα χαρακτηριστικά που επιλέχθηκαν από τις µεθόδους MaxiMin bin, MaxiMin NN και CMINN(Κ=1), σε 100 Monte Carlo πραγµατοποιήσεις των χρονοσειρών που παρήχθησαν από το χαοτικό σύστηµα MG (στήλη1), µετά την εϕαρµογή του αλγορίθµου k-means (για k=3). Στην στήλη 2 φαίνεται η µέση τιµή CRI. Μέθοδος <CRI> MaxiMin bin MaxiMin NN (Κ=1) CMINN(Κ=1) δώ είναι ο διαχωρισµός 5 καταστάσεων υψηλής πολυπλοκότητας, και για τον λόγο αυτό εξετάσαµε 2 παρόµοιες αλλά όχι πανοµοιότυπες διαµορϕώσεις της πολυπλοκότητας, µια για = 120, 140,..., 200 και άλλη µια για = 110, 130,..., 190. Εξάγαµε για κάθε µια από τις 5 καταστάσεις 200 χρονοσειρές (σύνολο 1000 χρονοσειρές) µε µήκος 1000 δειγµάτων στην κάθε χρονοσειρά και για τις δυο εργασίες κατηγοριοποίησης. Υπολογίσαµε 312 χαρακτηριστικά µε όµοιο τρόπο όπως και στην προηγούµενη οµάδα τα οποία αναϕέρονται στην Ενότητα 3.3. Τα 312 αυτά χαρακτηριστικά αποτελούν το σύνολο χα- ϱακτηριστικών F. Σηµειώστε ότι κάποια από αυτά είναι ισχυρά συσχετισµένα µεταξύ τους, ενώ κάποια άλλα δεν φαίνεται να σχετίζονται µε τα πρότυπα ταλαντώσεων αυτών των χρονοσειρών. Σε αυτό επίσης το παράδειγµα προσοµοιώσεων, όπως και στα προηγούµενα παραδείγατα, δεν γνωρίζουµε το πραγµατικό ϐέλτιστο υποσύνολο χαρακτηριστικών που ϑα επιτύχει καλύτερα την κατηγοριοποίηση των 5 δυναµικών καταστάσεων. Από τις 1000 χρονοσειρές και τις τιµές των αντίστοιχων χαρακτηριστικών το 70% ανατέ- ϑηκε τυχαία ως σύνολο εκπαίδευσης για να γίνει η επιλογή των χαρακτηριστικών και το υπόλοιπο 30% χρησιµοποιήθηκε για την επικύρωση του επιλεγµένου υποσυνόλου χαρακτηριστικών, υπολογίζοντας τις τιµές του CRI. Αυτή η τυχαία ανάθεση στα σύνολα εκπαίδευσης επαναλήϕθηκε 10 φορές έτσι ώστε να έχουµε 10 πραγµατοποιήσεις για κάθε µια από τις δυο εργασίες κατηγοριοποίησης. Στην περίπτωση αυτή εϕαρµόσαµε τους αλγορίθµους CMINN (για K = 10, 20, 40), MaxiMin και mrmr, και ιεραρχήσαµε τα 20 πρώτα χαρακτηριστικά. Αποδείχθηκε ότι η ακρίβεια κατηγοριοποίησης συγκλίνει σε λιγότερα από τα 20 πρώτα χαρακτηριστικά σε όλους τους αλγορίθµους, αλλά το επίπεδο της ακρίβειας ποικίλει µεταξύ των αλγορίθµων. Οπως φαίνεται στο Σχήµα 5.5, η µέση τιµή του CRI στις 10 πραγµατοποιήσεις για τους αλγορίθµους MaxiMin και mrmr τείνει να αυξάνει µε την αύξηση της πληθικότητας του υποσυνόλου χαρακτηριστικών S m, και να συγκλίνει τελικά στις µεγάλες τιµές του m. Από την άλλη πλευρά όµως ο αλγόριθµος CMINN δίνει υψηλότερες τιµές του CRI από ότι ο MaxiMin και ο mrmr, και επιτυγχάνει την µέγιστη τιµή του περίπου για m = 7 το οποίο µεταβάλλεται µε το K καθώς και µε την εργασία κατηγοριοποίησης. Αυτό το επίπεδο τιµής του m συµϕωνεί επίσης και µε το κριτήριο τερµατισµού του CMINN. Για παράδειγµα όταν το K = 10, τότε η συχνότητα της πληθικότητας m του υποσυνόλου χαρακτηριστικών που επιτυγχάνεται από το κριτήριο τερµατισµού ήταν 3 για m = 4, 2 για m = 6, 4 για m = 7 και 1 για m = 8 για τις 10 πραγµατοποιήσεις της πρώτης εργασίας κατηγοριοποίησης, και αντίστοιχα για την δεύτερη εργασία κατηγοριοποίησης η συχνότητα της πληθικότητας m ήταν 1 για m = 4, 1 για m = 5, 3 για m = 6 και 5 για m = 7. Ετσι για τις δύο εργασίες το m = 7 είναι και η πιο συχνή πληθικότητα του υποσυνόλου που σηµειώνεται και στο Σχήµα 5.5. Τις συχνότητες αυτές τις συγκρίνουµε µε τις αντίστοιχες για K = 20 όπου έχουµε : 5 για m = 4, 1 για m = 5, 3 για m = 6 και 1 για m = 7 για τις 10 πραγµατοποιήσεις της πρώτης εργασίας κατηγοριοποίησης και 1 για m = 4, 1 για m = 5, 8 για m = 6 για την δεύτερη εργασία κατηγοριοποίησης. Από τη σύγκριση αυτή φαίνεται ότι καθώς αυξάνει ο αριθµός γειτόνων K µειώνεται η ϐέλτιστη πληθικότητα m. Το κριτήριο τερµατισµού ϑα µπορούσε να καθοριστεί και από τα πρώτα τοπικά µέγιστα της γραϕικής παράστασης του CRI ως προς το m (που υποδεικνύονται µε τους άδειους κύκλους στο Σχήµα 5.5). Τότε 80
99 0.7 (a) 0.7 (b) CRI 0.5 CRI CMINN(K=10) CMINN(K=20) CMINN(K=40) 0.35 MaxiMin mrmr S CMINN(K=10) CMINN(K=20) CMINN(K=40) 0.35 MaxiMin mrmr S Σχήµα 5.5: (a) Η ακρίβεια κατηγοριοποίησης µετρούµενη από την µέση τιµή του δείκτη CRI από όλες τις 10 πραγµατοποιήσεις για κάθε πλήθος χαρακτηριστικών m του ϐέλτιστου υποσυνόλου χαρακτη- ϱιστικών S m για την εργασία κατηγοριοποίησης των 5 κλάσεων που καθορίζονται από τις τιµές του = 120, 140,..., 200, και για τους αλγορίθµους επιλογής χαρακτηριστικών που δίνονται στις ετικέτες του γραϕήµατος. Η κάθετη διακεκοµµένη γραµµή υποδεικνύει την πληθικότητα m στην οποία σταµατάει το κριτήριο τερµατισµού του CMINN τις περισσότερες φορές από τις 10 πραγµατοποιήσεις, για K = 10. Οι ανοιχτοί κύκλοι υποδεικνύουν το πρώτο τοπικό µέγιστο της κάθε καµπύλης. (b) Το ίδιο όπως και στο (a) αλλά για τις εργασίες κατηγοριοποίησης των 5 κλάσεων που ορίζονται από το = 110, 130,..., 190. όµως ϑα είχαµε διαϕορετικά m από αυτό το κριτήριο τερµατισµού το οποίο σε κάποιες περιπτώσεις είναι παραπλανητικό όπως για παράδειγµα στην δεύτερη εργασία κατηγοριοποίησης για τον CMINN µε K = 10 ϑα επιλεγόταν ένα πολύ µεγαλύτερο υποσύνολο χαρακτηριστικών, το S 11, το οποίο δίνει µια οριακή απλώς αύξηση του CRI συγκριτικά µε το S 7, ενώ για K = 40 το πρώτο τοπικό µέγιστο παρατηρείται πρώιµα για S 4 ενώ η κατηγοριοποίηση ϐελτιώνεται και φτάνει στο γενικό µέγιστο του CRI για το S 7. Συγκριτικά µε την προηγούµενη οµάδα δεδοµένων παρατηρούµε ότι ο διαχωρισµός των χρονοσειρών σε 5 κλάσεις δεν είναι τόσο απλή υπόθεση όσο στη πρώτη οµάδα Dataset C Στην οµάδα αυτή τα δεδοµένα προσοµοιώσεων προέρχονται από ένα σύστηµα παλινδρόµησης το οποίο ορίζει την Ϲητούµενη µεταβλητή y ως τον σταθµισµένο µέσο δύο µεταβλητών y 1 και y 2 ώς προς µια παράµετρο στάθµισης κ, y = κy 1 + (1 κ)y 2, όπου y 1 και y 2 δίνονται από την παρακάτω έκϕραση y 1 = β 1 f 1 + β 2 f 2 + e 1 (5.1) y 2 = β 3 f 3 + β 4 f 4 + β 5 f 5 + e 2, (5.2) τα e 1 και e 2 είναι ανεξάρτητες µεταβλητές µε τυπική κανονική κατανοµή, τα f i, i = 1,..., 5, είναι οι επεξηγηµατικές µεταβλητές των y 1 και y 2, δηλαδή τα χαρακτηριστικά που είναι σχετικά µε την κλάση C και συνθέτουν το πραγµατικό ϐέλτιστο υποσύνολο χαρακτηριστικών το οποίο µαζί µε άλλα 17 χαρακτηριστικά που είναι ασυσχέτιστα µε την κλάση C αποτελούν το σύνολο των M = 22 χαρακτηριστικών του συνόλου F που εξετάζουµε. Τα 22 χαρακτηριστικά προέρχονται από πολυµεταβλητή κανονική κατανοµή µε µέση τιµή µηδέν και τυπική απόκλιση ίση µε την µονάδα για κάθε χαρακτηριστικό και είναι συσχετισµένα ανά Ϲεύγη µεταξύ τους µε συσχέτιση r = 0.5. Η µεταβλητή y µετατρέπεται στη µεταβλητή κλάσης C µε πλήθος b 2, 5, 10 κλάσεων µετά από την τµηµατοποίηση του εύρους τιµών της σε b ισαπέχοντα τµήµατα. 81
100 Πραγµατοποιήσαµε 100 οµάδες δεδοµένων (datasets) για το σύστηµα C για διαϕορετικές τιµές της παραµέτρου κ, και κάθε οµάδα έχει 1000 παρατηρήσεις. Για κάθε οµάδα δεδοµένων επιλέξαµε τυχαία το 70% των παρατηρήσεων για να χτίσουµε το υποσύνολο S και το υπόλοιπο 30% το χρησιµοποιήσαµε για τον έλεγχο του υποσυνόλου αυτού µε την εϕαρµογή του κατηγοριοποιητή Naive Bayes και το υπολογισµό τον δείκτη CRI για κάθε S. Επαναλάβαµε τη διαδικασία αυτή 10 φορές για κάθε µία από τις 100 οµάδες δεδοµένων και αποκτήσαµε µε τον τρόπο αυτό 1000 πραγµατοποιήσεις που δίνουν τα αντίστοιχα S υποσύνολα µε τις τιµές του CRI. Αρχικά ξεκινήσαµε µε µια συνοπτική µορϕή του συστήµατος C για κ = 1, και µε τον τρόπο αυτό έχουµε µόνο τα χαρακτηριστικά f 1 και f 2 να είναι σχετικά µε την κλάση. Εάν τα β 1 και β 2 έχουν το ίδιο πρόσηµο τότε όλοι οι αλγόριθµοι που χρησιµοποιούµε για επιλογή χαρακτηριστικών αποδίδουν εξίσου καλά και κατατάσσουν σωστά τα f 1 και f 2 στις πρώτες ϑέσεις µε σειρά που εξαρτάται από το µέγεθος της τιµής των β 1 και β 2. Εάν το πρόσηµο τους είναι διαϕορετικό, τότε το χαρακτηριστικό µε τη µεγαλύτερη τιµή της παραµέτρου ϑα καταταχθεί πρώτο κατά την επιλογή του από όλους τους αλγορίθµους, και το άλλο χαρακτηριστικό ϑα καταταχθεί δεύτερο µόνο από τους αλγορίθµους CMINN και MaxiMin, αλλά όχι από τον mrmr. Σύµϕωνα µε τον mrmr ως δεύτερο καλύτερο ϑα κατατάσσεται διαρκώς ένα χαρακτηριστικό σύµϕωνα µε τον όρο της σχετικότητας µε την κλάση I(f i ; C) από την εξίσωση 2.23, επειδή ο όρος του πλεονασµού δεν αλλάζει µε την αλλαγή του f i. Για κανονικές µεταβλητές ισχύει I(f i, f j ) = 0.5(1 r(f i, f j ) 2 ), όπου η συσχέτιση (cross-correlation) r(f i, f j ) είναι ίδια για κάθε Ϲευγάρι (f i, f j ). Η υψηλότερη τιµή του όρου της σχετικότητας τείνει να µην αντιστοιχεί στο δεύτερο πιο συσχετισµένο µε την κλάση χαρακτηριστικό. Για παράδειγµα εάν β 1 < 0, β 2 > 0 και β 1 > β 2, τότε ϑα επιλεγεί πρώτο το χαρακτηριστικό f 1, αλλά το f 2 δεν ϑα επιλεγεί ως το επόµενο καλύτερο διότι η ϑετική σχέση αναλογίας του f 2 µε την C είναι πολύ αδύναµη εξαιτίας την ισχυρής αρνητικής επίδρασης του f 1 (ϐλέπε την εξίσωση 5.1), έτσι ώστε τα υπόλοιπα χαρακτηριστικά που είναι σχετικά µε το f 1, είναι ισχυρότερα και αρνητικά συσχετισµένα µε την κλάση C και δίνουν υψηλότερες τιµές της ΜΙ. Ετσι κάτω από αυτές τις προϋποθέσεις είναι µάλλον απίθανο να επιλεγεί από τον mrmr το f 2 ως το δεύτερο καλύτερο χαρακτηριστικό. Από την άλλη πλευρά ο MaxiMin δεν έχει κανένα πρόβληµα στο να ανιχνεύσει το f 2 ως δεύτερο καλύτερο χαρακτηριστικό επειδή η επιµέρους συσχέτιση του f 2 µε την κλάση C υπό την παρουσία του f 1 είναι σηµαντική, σύµϕωνα µε την έκϕραση I(f 2 ; C f 1 ), ενώ για οποιοδήποτε άλλο χαρακτηριστικό f j είναι ασήµαντη. Στην περίπτωση αυτή ο αλγόριθµος CMINN λειτουργεί όµοια µε τον MaxiMin µιας και το υποσύνολο S περιέχει µόνο ένα χαρακτηριστικό δίνοντας το ίδιο αποτέλεσµα για οποιοδήποτε πλήθος γειτόνων K. Ο ακριβής αριθµός αποτυχιών του mrmr να εντοπίσει το f 2 ως δεύτερο καλύτερο χαρακτηριστικό σε 1000 πραγµατοποιήσεις, παρουσιάζεται στον Πίνακα 5.9 (για κ = 1) για διαϕορετικές b τιµές των κλάσεων. Η ανεπάρκεια της µεθόδου MaxiMin φαίνεται καλύτερα στην περίπτωση που κάνουµε επέκταση της εξάρτησης της µεταβλητής y σε τρία χαρακτηριστικά. Εξετάζουµε σε αυτή την περίπτωση το σύστηµα του dataset C για κ = 0, όπου το πραγµατικό ϐέλτιστο υποσύνολο χαρακτηριστικών ϑα έπρεπε να είναι S = {f 3, f 4, f 5 }. Στην περίπτωση αυτή και όταν οι συντελεστές των τριών χαρακτηριστικών δεν έχουν όλοι το ίδιο πρόσηµο, η µέθοδος MaxiMin συνήθως αποτυγχάνει να ϐρει το σωστό υποσύνολο. Παραδείγµατος χάριν ο MaxiMin δεν περιλαµβάνει το χαρακτηριστικό f 4 στο υποσύνολο µε τα τρία πρώτα ϐέλτιστα χαρακτηριστικά για την ϱύθµιση µε β 3 = 3.0, β 4 = 2.0, β 5 = 4.0, όπως φαίνεται και στον Πίνακα 5.9. Το γεγονός αυτό εξηγείται ως εξής. Κατά την πρώτη επανάληψη το χαρακτηριστικό f 3 επιλέγεται σωστά από όλους τους αλγορίθµους, επειδή έχει τη µέγιστη συσχέτιση µε την κλάση C υπό την παρουσία των δύο άλλων χαρακτηριστικών. Σηµειώνουµε ότι παρόλο που το f 5 έχει το µεγαλύτερο σε µέγεθος συντελεστή, τελικά η αρνητική συσχέτιση του µε την κλάση C µειώνεται παρουσία του f 3 και του f 4 τα οποία είναι ϑετικά συσχετισµένα µε τη C. Κατά τη δεύτερη επανάληψη ο mrmr επιλέγει το f 4 ως το επόµενο πιο σχετικό χαρακτηριστικό µε ϑετική επίδραση στο y έχοντας µεγαλύτερη ϐαρύτητα από ότι η αρνητική επίδραση του f 5, ενώ οι αλγόριθµοι MaxiMin και CMINN επιλέγουν το f 5 ως το πιο σχετικό 82
101 Πίνακας 5.9: Dataset C (β 1 = 3.0, β 2 = 2.0, β 3 = 3.0, β 4 = 2.0, β 5 = 4.0): Στην πρώτη στήλη παρουσιάζονται οι µέθοδοι επιλογής χαρακτηριστικών που χρησιµοποιήθηκαν (µε K = 20 για την CMINN). Η δεύτερη στήλη υποδεικνύει τις κλάσεις που παρήχθησαν από την µεταβλητή της παλινδρόµησης. Οι υπόλοιπες στήλες αϕορούν τα πραγµατικά σχετικά χαρακτηριστικά που ϑα έπρεπε να υπάρχουν στο ϐέλτιστο υποσύνολο και παρουσιάζουν το πλήθος των περιπτώσεων από τις 1000 πραγ- µατοποιήσεις όπου ένα σχετικό χαρακτηριστικό δεν επιλέχθηκε σωστά µέσα στο καλύτερο υποσύνολο χαρακτηριστικών. Τα χαρακτηριστικά αυτά οργανώνονται σε τρείς οµάδες για κάθε ένα από τα τρία συστήµατα παλινδρόµησης µε κ = 1, κ = 0, και κ = 0.5. κ = 1 κ = 0 κ = 0.5 Μέθοδος κλάση f 1 f 2 f 3 f 4 f 5 f 1 f 2 f 3 f 4 f 5 CMINN MaxiMin mrmr µε την κλάση C µε επιλεγµένο ήδη το f 3. Κατά την τρίτη επανάληψη ο mrmr ϑα επιλέξει σωστά το f 5 µιας και έχει αρνητική επίδραση στο C η οποία όµως είναι µεγαλύτερη σε µέγεθος από την επίδραση που έχουν άλλα χαρακτηριστικά µέσου της συσχέτισής τους µε το f 3 και το f 4. Σηµειώνουµε ότι για λίγες µόνο περιπτώσεις που παρουσιάζονται και στο Πίνακα 5.9, ο αλγόριθµος mrmr αποτυγχάνει να επιλέξει το f 5 και παρατηρείται υψηλότερη συχνότητα αποτυχίας καθώς µειώνεται το µέγεθος της τιµής του συντελεστή β 5. Για τον αλγόριθµο MaxiMin και σύµϕωνα µε την εξίσωση 2.27, το πρώτο δεσµευµένο χαρακτηριστικό ϑα γίνει το f 3 επειδή I(f i ; C f 3 ) < I(f i ; C f 5 ) για οποιοδήποτε χαρακτηριστικό f i, γεγονός που εξηγείται από τα παραπάνω ορίσµατα τα οποία προτείνουν ότι το f 3 είναι πιο σχετικό µε το C ενώ όλα τα υπόλοιπα χαρακτηριστικά είναι εξίσου συσχετισµένα µεταξύ τους. Ετσι το τρίτο χαρακτηριστικό που πρόκειται να επιλεγεί από τον MaxiMin είναι ένα από αυτά που ϑα µεγιστοποιήσουν την I(f i ; C f 3 ), δηλαδή το χαρακτηριστικό που ϑα συσχετίζεται περισσότερο µε την κλάση C δεδοµένου του f 3. Η δέσµευση στο f 3 είναι ισοδύναµη µε την αϕαίρεση του f 3 από την εξίσωση 5.2 αϕού έχει ήδη επιλεγεί το f 5. Η ίδια κατάσταση για τον mrmr ισχύει και στο παράδειγµα όπου το κ = 1, και για τον ίδιο λόγο αναµένεται ο MaxiMin να τείνει να µην επιλέγει το f 4 ως τρίτο στην σειρά χαρακτηριστικό του υποσυνόλου όπως φαίνεται και στον Πίνακα 5.9. Ο αλγόριθµος όµως CMINN συνεχίζει να µην έχει κάποιο πρόβληµα στο να επιλέξει το f 4 επειδή αυτό έχει αποτελεσµατική επίδραση στο C ακόµη και όταν ληϕθούν υπόψιν και οι επιδράσεις των δύο χαρακτηριστικών f 3 και f 5. Οταν η µεταβλητή της κλάσης C είναι εξαρτηµένη από περισσότερα χαρακτηριστικά, από τα οποία άλλα έχουν ϑετική και άλλα αρνητική επίδραση στην C, τότε οι µέθοδοι mrmr και MaxiMin δεν µπορούν να προσδιορίσουν σωστά τις επιµέρους επιδράσεις και αποτυγχάνουν να συµπεριλάβουν τα σωστά χαρακτηριστικά στο τελικό υποσύνολο χαρακτηριστικών. Συγκεκριµένα στο σύστηµα Β όταν το κ = 0.5, το ϐέλτιστο υποσύνολο ϑα πρέπει να είναι το S = {f 1, f 2, f 3, f 4, f 5 }, αλλά ο mrmr και ο MaxiMin αποτυγχάνουν συστηµατικά να συµπεριλάβουν κάποια από αυτά τα χαρακτηριστικά στο Ϲητούµενο υποσύνολο των 5 χαρακτηριστικών. Ειδικότερα για την επιλεγµένη οµάδα των συντελεστών του Πίνακα 5.9 φαίνεται ότι ο MaxiMin πολύ συχνά αποτυγχάνει να επιλέξει τα χαρακτηριστικά f 1, f 2 και f 4, ενώ ο mrmr αποτυγχάνει να επιλέξει το f 2 και το f 4, σε µικρότερη όµως συχνότητα. Είναι 83
102 Πίνακας 5.10: Dataset C (κ = 0.5): Η συχνότητα της πληθικότητας του S m, m = 3,..., 7, που επιλέχθηκε να σταµατήσει το κριτήριο τερµατισµού του CMINN για 1000 πραγµατοποιήσεις µε K = 10 και K = 20 γείτονες και για κλάσεις 2, 5 και 10. Η σωστή πληθικότητα του S m είναι για m = 5. κλάσεις S 3 S 4 S 5 S 6 S 7 K = K = αξιοσηµείωτο το γεγονός ότι ο CMINN πάντα επιλέγει και τα 5 σωστά χαρακτηριστικά, µε χειρότερη την περίπτωση να αποτύχει να επιλέξει το f 4 χαρακτηριστικό σε 2 από τις 1000 πραγµατοποιήσεις για K = 40 γείτονες και για b = 5 κλάσεις. Τα αποτελέσµατα για το σύστηµα C προτείνουν ότι µόνο ο αλγόριθµος CMINN δίνει πάντα το ϐέλτιστο υποσύνολο χαρακτηριστικών και κατά συνέπεια την καλύτερη κατηγοριοποίηση. Το τελευταίο το επιβεβαιώσαµε κάνοντας σύγκριση της ακρίβειας κατηγοριοποίησης για τα υποσύνολα χαρακτηριστικών που έχουν την ίδια διάσταση (πληθικότητα) και επιλέγονται από τους αλγορίθµους mrmr και MaxiMin και CMINN, και ϐρήκαµε ότι σχεδόν πάντα ο δείκτης CRI έπαιρνε τις υψηλότερες τιµές στον CMINN. Θα πρέπει να αναϕερθεί ότι σε µερικές περιπτώσεις πραγµατοποιήσεων το υποσύνολο των σωστών χα- ϱακτηριστικών δεν απέδιδε τις υψηλότερες τιµές CRI. Για την τελευταία ϱύθµιση του συστήµατος C για κ = 0.5, ερευνήσαµε εάν το κριτήριο τερµατισµού του CMINN (ϐλέπε εξίσωση 4.9 και εξίσωση 4.10) συµϕωνεί µε το ϐέλτιστο υποσύνολο S πληθικότητας 5. Τα αποτελέσµατα του Πίνακα 5.10 το επιβεβαιώνουν στις περιπτώσεις που η κλάση είναι µεγαλύτερη του 2, αλλά όταν είναι ίση µε 2 τότε ο CMINN σταµατά πρώιµα, ειδικά όταν το πλήθος των γειτόνων αυξάνει από K = 10 σε K = 20. Το ποσοστό επιτυχίας του κριτηρίου τερµατισµού είναι υψηλότερο για κ = 1 και κ = Dataset D Το Dataset D είναι µια παλινδρόµηση της συνεχούς απόκρισης της µεταβλητής y πάνω σε 4 χαρακτηριστικά f i, i = 1,..., 4, τα οποία είναι συναρτησιακά εξαρτώµενα από 3 επεξηγηµατικές µεταβλητές x 1, x 2, x 3 ως εξής : y = β 1 f 1 + β 2 f 2 + β 3 f 3 + β 4 f 4 + e f 1 = x 1 f 2 = x 2 (5.3) f 3 = α 1 x 1 + α 2 x 2 + α 3 x 3 f 4 = α 4 x α 5x 2 2 όπου τα x 1, x 2, x 3 είναι τυχαίες ανεξάρτητες κανονικές µεταβλητές. Οι συντελεστές έχουν τιµές α 1 = 0.2, α 2 = 0.3, α 3 = 2.0, α 4 = 0.1, α 5 = 0.1, β 1 = 1, β 2 = 1, β 3 = 0.2, β 4 = 0.3. Στην συνέχεια εϕαρµόσαµε ισοµήκη διαµέριση της y έτσι ώστε να πετύχουµε τις τιµές της µεταβλητής κλάσεων C ίσες µε 2, 5 ή 10 κλάσεις. Επιπρόσθετα στα 4 χαρακτηριστικά, συµπεριλάβαµε και 2 άσχετα χαρακτηριστικά τα οποία είναι τυχαίες ανεξάρτητες τυπικές κανονικές µεταβλητές. Από το τελικό σύνολο των 6 χαρακτηριστικών το ϐέλτιστο υποσύνολο χαρακτηριστικών, ϑα πρέπει να συµπεριλαµβάνει τα χαρακτηριστικά f 1, f 2 και 84
103 f 3, αλλά όχι το f 4 µιας και αυτό είναι συνάρτηση των f 1 και f 2, και επειδή τα δύο χαρακτηριστικά f 1 και f 2 είναι τα πιο ισχυρά συσχετισµένα µε την κλάση C ϑα πρέπει να επιλεχθούν πρώτα. Είναι αξιοσηµείωτο επίσης το γεγονός ότι για τις συγκεκριµένες τιµές των συντελεστών, το χαρακτηριστικό f 4 παραµένει πιο ισχυρά συσχετισµένο µε την C απ οτι το f 3, δηλαδή I(f 3 ; C) < I(f 4 ; C). Πίνακας 5.11: Dataset D : Η δοµή του πίνακα αυτού είναι ίδια µε του Πίνακα 5.9. Μέθοδος κλάση f 1 f 2 f 3 CMINN MaxiMin mrmr Ο αντικειµενικός µας στόχος στην περίπτωση αυτή είναι να ερευνήσουµε το κατά πόσο οι αλγόριθµοι επιλογής χαρακτηριστικών κατατάσσουν σωστά το f 3 µετά από το f 1 και το f 2 και για να το επιτύχουµε αυτό εϕαρµόζουµε την ίδια διαδικασία που χρησιµοποιήσαµε και για τις προσοµοιώσεις που κάναµε στο dataset C. Το παράδειγµα αυτό σχεδιάστηκε έτσι ώστε να δείξει την ανεπάρκεια του MaxiMin όταν πρόκειται να επιλεγεί ένα χαρακτηριστικό το οποίο συσχετίζεται µε τα δύο ήδη επιλεγµένα χαρακτηριστικά του υποσυνόλου. Πράγµατι κατά τα δύο πρώτα ϐήµατα, όλοι οι αλγόριθµοι επιλέγουν τα χαρακτηριστικά f 1 και f 2. Για το τρίτο χαρακτηριστικό ο MaxiMin προσπαθεί να ϐρει το f i το οποίο µεγιστοποιεί τον όρο I(f i ; C f j ), όπου j είναι το 1 ή το 2 µε ίδια πιθανότητα επιλογής. Για τις συγκεκριµένες παραµέτρους και ας υποθέσουµε ότι f j = f 1, η µέγιστη τιµή παρατηρήθηκε πιο συχνά για το f 4, γεγονός που σηµαίνει ότι η πληροϕορία σχετικά µε την κλάση C από την επίδραση της x 2 2 µέσα στην f 4, είναι µεγαλύτερη από την πληροϕορία που λαµβάνεται από τις x 2 και x 3 που περιλαµβάνονται στην f 3 (η x 3 περιέχει την Ϲητούµενη επιµέρους πληροϕορία που λογαριάζεται για την x 1 και την x 2 ). Οπως φαίνεται στον Πίνακα 5.11, ο MaxiMin αποτυγχάνει να επιλέξει το f 3 (και αντ αυτού επιλέγει το f 4 ) µε συχνότητα που ποικίλει ανάλογα µε το πλήθος των κλάσεων του C. Από την άλλη πλευρά οι αλγόριθµοι mrmr και CMINN προσδιορίζουν σωστά το υποσύνολο µε τα τρία σχετικά χαρακτηριστικά και αυτό γίνεται για όλες τις πραγµατοποιήσεις. Το κριτήριο τερµατισµού του CMINN προσδιορίζει σωστά την πληθικότητα S σχεδόν πάντα µε το ποσοστό επιτυχίας να είναι Πίνακας 5.12: Dataset D: Η συχνότητα της πληθικότητας του S m, m = 2, 3, 4, που επιλέχθηκε από τον CMINN µε το κριτήριο τερµατισµού, για 1000 πραγµατοποιήσεις µε K = 10 και µε K = 20 για τις κλάσεις 2, 5 και 10. K = 10 K = 20 Κλάσεις S 2 S 3 S 4 S 2 S 3 S
104 καλύτερο για την περίπτωση µε K = 20 όπως φαίνεται και στον Πίνακα Dataset E Το σύστηµα παλινδρόµησης Ε είναι κάπως πιο πολύπλοκο και περιλαµβάνει f i, i = 1,..., 6 χαρακτηριστικά τα οποία είναι συναρτησιακά εξαρτώµενα από 5 ανεξάρτητους προγνώστες x i, i = 1,..., 5, ως εξής : y = β 1 f 1 + β 2 f 2 + β 3 f 3 + β 4 f 4 + β 5 f 5 + β 6 f 6 + e f 1 = x 1 f 2 = x 2 f 3 = x 1 x 2 f 4 = x 3 f 5 = x 2 4 f 6 = x 1 x 5 (5.4) όπου x i, i = 1,..., 4 είναι τυχαίες ανεξάρτητες τυπικές κανονικές µεταβλητές και το x 5 είναι ανεξάρτητο από κάθε x i και ακολουθεί την κατανοµή γινοµένου κανονικής, ϑεωρώντας το x i ως γινόµενο των µεταβλητών µε τυπική κανονική κατανοµή. Σηµειωτέον ότι τα χαρακτηριστικά f 3, f 5 και f 6 είναι µηγραµµικές συναρτήσεις κανονικών µεταβλητών που έχουν ασύµµετρη κατανοµή (f 5 ) και λεπτόκυρτη κατανοµή (f 3 και f 6 ). Θέτουµε τους συντελεστές β i = 1/s i, όπου s i είναι η τυπική απόκλιση του f i, έτσι ώστε όλα τα χαρακτηριστικά να συνεισϕέρουν το ίδιο στην y. Αυτή η ϱύθµιση δίνει µια ασύµµετρη κατανοµή της y, και για τον λόγο αυτό το σχήµα της ισαπέχουσας και της ισοπίθανης διαµέρισης των τιµών της y, δεν δίνει τις ίδιες κλάσεις στην µεταβλητή κλάσης C. Χρησιµοποιούµε και τους δύο αυτούς τρόπους διακριτικοποίησης των δεδοµένων για να πάρουµε τη µεταβλητή κλάσεων C η οποία κυµαίνεται από 2 µέχρι 10 κλάσεις. Το σύνολο των χαρακτηριστικών αποτελείται : από την οµάδα των 6 χαρακτηριστικών που ορίζονται από την εξίσωση 5.4, από άλλα 6 χαρακτηριστικά το καθένα εκ των οποίων συσχετίζεται ισχυρά µε τα αντίστοιχα χαρακτηριστικά της πρώτης οµάδας µε r = 0.8, ακόµη µια οµάδα που αποτελείται από 6 χαρακτηριστικά συσχετίζεται αµυδρά µε τα αντίστοιχα χαρακτηριστικά της πρώτης οµάδας µε r = 0.4 και µια ακόµη οµάδα που αποτελείται από 12 άσχετα χαρακτηριστικά που στην πραγµατικότητα είναι τυχαίες τυπικές κανονικές µεταβλητές. Σηµειώνουµε επίσης ότι το ϐέλτιστο υποσύνολο χαρακτηριστικών S ϑα πρέπει να αποτελείται από 5 χαρακτηριστικά : τα f 4, f 5, f 6 και οποιαδήποτε δύο χαρακτηριστικά εκ των f 1, f 2, f 3, και αυτό επειδή τα τρία αυτά χαρακτηριστικά εξαρτώνται συναρτησιακά από µόνο δύο ανεξάρτητους προγνώστες. Αποδεικνύεται ότι και οι δύο αλγόριθµοι, δηλαδή ο MaxiMin και ο mrmr, αποτυγχάνουν να συµπεριλάβουν µέσα στο S ταυτόχρονα το f 5 και το f 6 µιας και είναι τα λιγότερο συσχετισµένα µε το C χαρακτηριστικά όπως φαίνεται στον Πίνακα Για την περίπτωση της ισαπέχουσας διαµέρισης των κλάσεων και οι δύο αλγόριθµοι, ο MaxiMin και ο mrmr, κατατάσσουν πρώτα τα χαρακτηριστικά f 1, f 2, f 3 και f 4, και ο mrmr επιλέγει ως πέµπτο χαρακτηριστικό το f 5 ή το f 6, ενώ ο MaxiMin δεν επιλέγει κανένα από τα δύο αυτά χαρακτηριστικά στις περισσότερες περιπτώσεις. Για την περίπτωση της ισοπίθανης διαµέρισης των κλάσεων η αποτυχία του mrmr είναι παρόµοια µε τάση να επιλέγει πιο συχνά το f 6 αντί του f 5, ενώ ο MaxiMin κατατάσσει πρώτα τα f 1, f 2 και f 4, και στις επόµενες δύο ϑέσεις επιλέγει τυχαία χαρακτηριστικά που δεν συµπεριλαµβάνονται στην πρώτη και Ϲητούµενη οµάδα, δηλαδή κανένα από τα f 3, f 5 και f 6. Από την άλλη πλευρά ο CMINN αποδίδει πολύ καλύτερα και αποτυγχάνει να ϐρει το σωστό υποσύνολο χαρακτηριστικών σε µόλις 8% από τις 1000 πραγµατοποιήσεις στην περίπτωση της ισαπέχουσας διαµέρισης των κλάσεων ενώ στην ισοπίθανη διαµέριση των κλάσεων, ο ϱυθµός αποτυχίας αυξάνει µε τον αριθµό τον κλάσεων για να φτάνει στο 40% για την περίπτωση των 10 κλάσεων. Για το τελευταίο οι περιπτώσεις αποτυχίας οϕείλονται στην ενσωµάτωση και των τριών πρώτων χαρακτηριστικών αϕήνοντας έξω από το υποσύνολο S το χαρακτηριστικό f 6 το οποίο είναι και το λιγότερο συσχετισµένο µε την κλάση C από όλα τα 6 πρώτα χαρακτηριστικά. Σηµειώστε ότι για τον CMINN κάναµε χρήση της εκτίµησης µε K = 10, η οποία δεν είναι και η ϐέλτιστη δυνατή σύµϕωνα µε τα αποτελέσµατα που είχαµε από τα συστήµατα C και D. Θα µπορούσε κάποιος να ϱωτήσει εάν η διαϕορετική σύνθεση του υποσυνόλου S, όπως παρουσιάσθηκε πριν, έχει σηµαντική επίδραση στην κατηγοριοποίηση. Τα αποτελέσµατα του CRI στον Πίνακα 5.13 υποδεικνύουν ότι όταν δεν εκπροσωπούνται όλοι οι προγνώστες στο S, τότε η ακρίβεια της 86
105 Πίνακας 5.13: Dataset E: Το πλήθος των αποτυχιών επιλογής του ϐέλτιστου υποσυνόλου χαρακτηριστικών S πληθικότητας ίσης µε 5 και στην παρένθεση η µέση τιµή του CRI για την κατηγοριοποίηση που έγινε µε ϐάση τα επιλεγµένα υποσυνόλα που υπολογίσθηκαν σε 1000 πραγµατοποιήσεις. Το σωστό S ϑα έπρεπε να περιλαµβάνει τα χαρακτηριστικά f 4, f 5, f 6, και δύο από τα f 1, f 2, f 3. Τα αποτελέσµατα οµαδοποιήθηκαν για τις δύο περιπτώσεις διακριτικοποίησης, την ισαπέχουσα και την ισοπίθανη διαµέριση, όπου για την κάθε οµάδα οι γραµµές αναϕέρονται στον αριθµό των κλάσεων και οι στήλες αναϕέρονται στους τρεις αλγορίθµους επιλογής χαρακτηριστικών µε τον CMINN για K = 10. Κλάσεις CMINN MaxiMin mrmr Ισαπέχουσα διαµέριση 2 54 (0.41) 993 (0.39) 954 (0.36) 3 26 (0.30) 1000 (0.25) 961 (0.26) 4 12 (0.25) 999 (0.18) 981 (0.22) 5 7 (0.21) 1000 (0.15) 993 (0.19) 6 18 (0.18) 1000 (0.13) 1000 (0.17) 7 18 (0.16) 1000 (0.12) 1000 (0.15) 8 31 (0.15) 1000 (0.10) 1000 (0.13) 9 45 (0.13) 1000 (0.10) 998 (0.12) (0.12) 968 (0.09) 967 (0.11) Ισοπίθανη διαµέριση 2 0 (0.44) 941 (0.44) 916 (0.40) 3 9 (0.35) 973 (0.25) 955 (0.31) 4 37 (0.45) 973 (0.29) 971 (0.34) (0.38) 973 (0.22) 973 (0.29) (0.38) 973 (0.22) 973 (0.29) (0.33) 973 (0.19) 973 (0.26) (0.28) 973 (0.17) 973 (0.23) (0.28) 973 (0.16) 973 (0.22) (0.26) 973 (0.14) 973 (0.21) 87
106 Πίνακας 5.14: Dataset E: Η συχνότητα των S m, m = 3,..., 7, που επιλέχθηκαν από τον CMINN εϕαρµόζοντας το κριτήριο τερµατισµού για 1000 πραγµατοποιήσεις, για K = 10 και K = 20, για την ισαπέχουσα και την ισοπίθανη διακριτικοποίηση των κλάσεων και για τις κλάσεις 2, 5 και 10. Η σωστή πληθικότητα του S m είναι ίση µε m = 5. Σηµειώστε ότι οι ακόλουθες περιπτώσεις δεν παρουσιάζονται : 4 περιπτώσεις πληθικότητας 3 για την κλάση 2 για K = 20 στην ισαπέχουσα διακριτικοποίηση των κλάσεων, 5 περιπτώσεις πληθικότητας µεγαλύτερες του 8 για την κλάση 10 µε K = 20 στην ισαπέχουσα και την ισοπίθανη διακριτικοποίηση των κλάσεων. Κλάση S 4 S 5 S 6 S 7 S 4 S 5 S 6 Ισαπέχουσα Κ=10 Ισοπίθανη Κ= Ισαπέχουσα Κ=20 Ισοπίθανη Κ= κατηγοριοποίησης µειώνεται. Η µέση τιµή του CRI από τις 1000 πραγµατοποιήσεις για τα επιλεγµένα S είναι υψηλότερη για τον CMINN από ότι για τους MaxiMin και mrmr, ανεξάρτητα από την µέθοδο διακριτικοποίησης των κλάσεων που χρησιµοποιήθηκε και ανεξάρτητα από το πλήθος των κλάσεων. Επιπλέον ο mrmr είναι λίγο καλύτερος από τον MaxiMin όσον αϕορά τις τιµές του CRI, µιας και επιλέγει υποσύνολα S που είναι πλησιέστερα στο ϐέλτιστο υποσύνολο, και αυτό είναι εµϕανέστερο στην ισοπίθανη διακριτικοποίηση των κλάσεων. Αναϕέραµε ότι για το σύστηµα αυτό υπάρχουν 6 σχετικά χαρακτηριστικά, αλλά µόνο 5 από αυτά είναι ανεξάρτητα µεταξύ τους. Ωστόσο είναι πιθανών κατά την σειριακή επιλογή που ακολουθεί ο CMINN, ένα από τα 6 χαρακτηριστικά να ϐρεθεί ότι έχει αυξητική συνεισϕορά στην ερµηνεία της µεταβλητής κλάσεων C, δεδοµένων των υπολοίπων 5 χαρακτηριστικών, και για τον λόγο αυτό ο CMINN µπορεί να τερµατίζεται όταν το S m συµπεριλάβει και τα 6 χαρακτηριστικά. Οπως φαίνεται και στο Πίνακα 5.14, το κριτήριο τερµατισµού δίνει 5 ή 6 για την πληθικότητα του S, µε την συχνότητα να ποικίλει ανάλογα του αριθµού των κλάσεων b. Παρατηρήσαµε ότι για K = 20 δίνει πιο συχνά την σωστή πληθικότητα από ότι για K = Σύνοψη αποτελεσµάτων Στο κεϕάλαιο αυτό εξετάσαµε την απόδοση των αλγορίθµων που αναπτύξαµε σε δεδοµένα προσο- µοιώσεων. Κατά την εϕαρµογή του αλγορίθµου FSSwCRI σε 6 διαϕορετικές ϐάσεις δεδοµένων χρονοσειρών εκτιµήθηκαν 10 χαρακτηριστικά τα οποία µετρούν στατιστικές ιδιότητες των δεδοµένων, γραµµικές και µη-γραµµικές δυναµικές καθώς και ιδιότητες ταλαντώσεων και εξετάστηκε η επίδραση 5 µεθόδων τυποποίησης στην διαδικασία επιλογής ϐέλτιστου υποσυνόλου χαρακτηριστικών καθώς και στην απόδοση της κατηγοριοποίησης. Σύµϕωνα µε τα αποτελέσµατα φαίνεται ότι ο FSSwCRI επιλέγει συνήθως ένα Ϲευγάρι χαρακτηριστικών το οποίο καταϕέρνει την καλύτερη κατηγοριοποίηση των χρονοσειρών από τις προσοµοιώσεις στις τρεις διαϕορετικές καταστάσεις τους, περιλαµβάνοντας ένα χαρακτηριστικό σχετικό µε ταλαντώσεις. Η κατηγοριοποίηση που επιτυγχάνεται από τα πιο συχνά επιλεγµένα χαρακτηριστικά των ϐέλτιστων υποσυνόλων χαρακτηριστικών που επέλεξε ο FSSwCRI για κάθε µέθοδο τυποποίησης είναι στο ίδιο υψηλό επίπεδο τόσο για σύνολα δεδοµένων εκπαίδευσης όσο και για σύνολα δεδοµένων ελέγχου. 88
107 Το γεγονός αυτό δηλώνει ότι ο FSSwCRI όντως επιλέγει τα καλύτερα υποσύνολα χαρακτηριστικών για κατηγοριοποίηση των χρονοσειρών στις τρεις διαϕορετικές κλάσεις και αυτό ισχύει για όλες τις ϐάσεις που µελετήθηκαν. Σχετικά µε τις µεθόδους τυποποίησης διαπιστώθηκε ότι η γραµµική, η λογιστική και η τυποποίηση διασποράς, έχουν παρόµοια συµπεριϕορά, κατευθύνοντας τον αλγόριθµο FSSwCRI να επιλέγει το ίδιο υποσύνολο χαρακτηριστικών. Η Γκαουσιανή τυποποίηση, αν και παρουσιάζει τις χαµηλότερες τιµές του CRI και τη µεγαλύτερη διακύµανση στην επιλογή των καλύτερων υποσυνόλων χαρακτηριστικών συγκριτικά µε τις άλλες µεθόδους, διατηρεί την δυνατότητα κατηγοριοποίησης µε ακρίβεια υψηλού επιπέδου. Από την επέκταση της µελέτης του αλγορίθµου FSSwCRI σε προσοµοιώσεις χρονοσειρών που δη- µιουργήθηκαν µε το δυναµικό σύστηµα Mackey-Glass υπολογίσθηκαν 312 χαρακτηριστικά που χρησιµοποιούνται συνήθως στην µελέτη χρονοσειρών και µελετήθηκε η απόδοση της κατηγοριοποίησης των χρονοσειρών σε τρεις κλάσεις. Παρατηρήθηκε ότι από τον FSSwCRI στις περισσότερες περιπτώσεις επιλέγεται ένα µοναδικό χαρακτηριστικό το οποίο επιτυγχάνει τέλεια κατηγοριοποίηση. Σχετικά µε την εϕαρµογή του αλγορίθµου CMINN σε προσοµοιώσεις από 5 διαϕορετικές ϐάσεις δεδοµένων παρατηρήθηκε ότι ο CMINN µπορεί πάντα να ανιχνεύει σωστά τα χαρακτηριστικά που σχετί- Ϲονται πραγµατικά µε την κλάση C κατατάσσοντας τα πάντα πρώτα στη διάταξη µε την οποία τα επιλέγει. Το κριτήριο τερµατισµού που προτείνουµε να χρησιµοποιείται από τον CMINN υποδεικνύει διαρκώς την πληθικότητα του σωστού υποσυνόλου χαρακτηριστικών. Συγκριτικά µε τους δύο άλλους αλγορίθµους επιλογής χαρακτηριστικών που εϕαρµόσθηκαν στα ίδια προβλήµατα προσοµοιώσεων µε τον CMINN πα- ϱατηρήθηκε ότι ο CMINN µπορούσε πάντα να προσδιορίζει τα σωστά χαρακτηριστικά, ενώ οι άλλοι δύο δεν καταϕέραν να επιλέξουν το σωστό υποσύνολο στις περιπτώσεις παρουσίας συνδυασµένων επιδράσεων µεταξύ των χαρακτηριστικών µε αποτέλεσµα η ακρίβεια της κατηγοριοποίησης να είναι µικρότερη για τους δύο τελευταίους αλγορίθµους. Από τις τιµές CRI φάνηκε ξεκάθαρα η υπεροχή του CMINN έναντι των MaxiMin και mrmr. Από την εϕαρµογή του CMINN και του MaxiMin στο ίδιο πρόβληµα προσοµοιώσεων όπου εϕαρµόσθηκε και ο FSSwCRI φάνηκε απόλυτη σύµπνοια στα αποτελέσµατα αϕού επιλέχθηκε το ίδιο υποσύνολο χαρακτηριστικών από όλες τις µεθόδους. 89
108 90
109 Κεϕάλαιο 6 Εϕαρµογή σε EEG και σε ϐάσεις δεδοµένων αναϕοράς Στο κεϕάλαιο αυτό συνεχίζουµε µε την εϕαρµογή των αλγορίθµων που αναπτύξαµε και την σύγκρισή τους µε άλλους αλγορίθµους, σε πλήθος χαρακτηριστικών που υπολογίσθηκαν πάνω σε καταγραϕές EEG, αλλά και σε γνωστές ϐάσεις δεδοµένων αναϕοράς µε σκοπό να φανούν τα πλεονεκτήµατα και τα µειονεκτήµατα των αλγορίθµων αυτών σε πιο δύσκολα και πραγµατικά προβλήµατα. Ακολουθούµε την ίδια σειρά εϕαρµογής των αλγορίθµων µε αυτή που ακολουθήθηκε στο Κεϕάλαιο 5 για τα δεδοµένα προσοµοιώσεων. Αρχικά ϑα εϕαρµόσουµε τον αλγόριθµο FSSwCRI σε διαϕορετικά πλήθη χαρακτηριστικών που υπολογίσθηκαν σε καταγραϕές EEG και ϑα µελετήσουµε την δυνατότητα εύρεσης µικρού υποσυνόλου χαρακτηριστικών που ϑα έχει τον ϱόλο ϐιοδείκτη για την κατάταξη των καταγραϕών EEG σε διαϕορετικές προεπιληπτικές καταστάσεις. Στην συνέχεια ϑα εϕαρµόσουµε τον αλγόριθµο CMINN σε δέκα ϐάσεις δεδοµένων αναϕοράς και ϑα µελετήσουµε την απόδοσή του συγκριτικά µε άλλους. 6.1 Καταγραϕές EEG Ο ανθρώπινος εγκέϕαλος αποτελείται από δισεκατοµµύρια νευρώνες διαϕορετικών τύπων και είναι το πιο πολύπλοκο σύστηµα που γνωρίζουµε. Η επικοινωνία µεταξύ των νευρώνων γίνεται µέσω ηλεκτροχηµικών σηµάτων και εκατοντάδων χιλιάδων συνάψεων για κάθε νευρώνα (Nunez, 2005). Ο ανθρώπινος εγκέϕαλος χωρίζεται σε τρία ϐασικά τµήµατα το εγκεϕαλικό στέλεχος (brainstem), την παρεγκεϕαλίδα (cerebellum) και τον κεντρικό εγκέϕαλο (cerebrum) ο οποίος χωρίζεται σε τέσσερις κύριες περιοχές ανάλογα µε τις ανθρώπινες λειτουργίες που σχετίζονται µε κάθε περιοχή : τον µετωπιαίο λοβό όπου εµπλέκονται λειτουργίες που αϕορούν τον σχεδιασµό, την οργάνωση και την επίλυση προβληµάτων, τον ινιακό λοβό όπου γίνεται επεξεργασία των οπτικών πληροϕοριών, το ϐρεγµατικό λοβό ή µεσαίο που ε- λέγχει την αίσθηση (αϕή, πίεση) και τον κροταϕικό λοβό που ϐοηθά στην ταξινόµηση νέων πληροϕοριών και πιστεύεται ότι είναι υπεύθυνο για την οπτική και λεκτική µνήµη. Μία ανωµαλία του εγκεϕάλου κατά την οποία προκαλείται ταυτόχρονη διέγερση στους νευρώνες, δηµιουργεί τα επιληπτικά φαινόµενα. Υπάρχουν πολλοί διαϕορετικοί τύποι επιληψίας που εµϕανίζονται σε διαϕορετικές ηλικίες, έχουν διαϕορετικά συµπτώµατα, χρειάζεται διαϕορετική µεταχείριση και έχουν διαϕορετική πρόγνωση. Το ηλεκτροεγκεϕαλογράϕηµα EEG είναι η καταγραϕή της ηλεκτρικής δραστηριότητας που παράγεται από τη λειτουργία των νευρώνων στον εγκέϕαλο. Οι αισθητήρες που τοποθετούνται στο κεϕάλι ονοµάζονται ηλεκτρόδια και ο καθένας από αυτούς καταγράϕει τις ταλαντώσεις του ηλεκτρικού δυναµικού του εγκεϕάλου σε ένα συγκεκριµένο τµήµα του. Αν τα ηλεκτρόδια τοποθετούνται στην επιϕάνεια του τριχωτού της κεϕαλής τότε η καταγραϕή ονοµάζεται εξωκρανιακή καταγραϕή ενώ όταν τοποθετείται σε κάποιο ϐάθος του εγκεϕάλου ονοµάζεται ενδοκρανιακή καταγραϕή EEG. 91
110 Σχήµα 6.1: Το διεθνές σύστηµα καταγραϕής (10-20) που εϕαρµόζεται για µετρήσεις EEG µε 21 ηλεκτρόδια (πηγή Οι εξωκρανιακές καταγραϕές µετρώνται µε τα ηλεκτρόδια να τοποθετούνται σε καθορισµένα σηµεία σύµϕωνα µε το σύστηµα του διεθνούς προτύπου (10-20). Το 10 και 20 του συστήµατος αυτού α- ναϕέρεται στο γεγονός ότι οι πραγµατικές αποστάσεις µεταξύ γειτονικών ηλεκτρόδια είναι είτε 10% ή 20% του συνολικού εµπρός-πίσω ή δεξιά-αριστερά µήκους του κρανίου όπου συνήθως τοποθετούνται από 21 έως 63 ηλεκτρόδια ανάλογα µε την περίπτωση. Στο Σχήµα 6.1, παρουσιάζονται οι ϑέσεις των ηλεκτροδίων στην κεϕαλή σύµϕωνα µε το σύστηµα (10-20) όπως έχει τυποποιηθεί από την American E- lectroencephalographic Society. Τα δεδοµένα EEG που χρησιµοποιήθηκαν στην παρούσα µελέτη είναι καταγραϕές που µας παραχωρήθηκαν από το Τµήµα Neurodiagnostics, Rikshospitalet του Πανεπιστη- µιακού Νοσοκοµείου του Οσλο της Νορβηγίας. Οι καταγραϕές προήλθαν από 12 ασθενείς συνολικά µε 25 ή 63 ηλεκτρόδια καταγραϕής ανά ασθενή. Τα δεδοµένα ήταν ψηϕιακά και υπέστησαν επεξεργασία high-pass filtered στα 0.3 Hz και low-pass filtered στα 40 Hz µε δειγµατοληψία την οποία µειώσαµε στα 100 Hz για τις ανάγκες της µελέτης. 6.2 Εϕαρµογή του FSSwCRI σε καταγραϕές EEG Για να επιβεβαιωθεί η σωστή λειτουργία της διαδικασίας επιλογής και αποτίµησης ϐέλτιστων χαρακτηριστικών του FSSwCRI σε προσοµοιωτικά δεδοµένα, την επαναλάβαµε σε επιληπτικά EEG, έχοντας όµως να αντιµετωπίσουµε πολύ περισσότερους και πολύπλοκους παράγοντες όπως διαϕορετικούς ασθενείς, πλήθος καναλιών, είδος επιληπτικών κρίσεων και χρονικές περιόδους καταγραϕής των EEG. Το πρόβληµα λοιπόν του εντοπισµού των χρήσιµων χαρακτηριστικών που µπορούν να χρησιµοποιηθούν ακόµη και ως βιο-δείκτες, π.χ. να διαχωρίζουν προεπιληπτικές καταστάσεις ανεξάρτητα από το κανάλι ή τον ασθενή ή τον τύπο της επιληπτικής κρίσης, είναι δυσκολότερο και πιο σύνθετο. Σε πρόσϕατες µελέτες, η πρόβλεψη την επιληπτικής κρίσης, εστιάζεται στην ανάλυση των προεπιληπτικών σηµάτων EEG, π.χ. (Hirsch et al., 2006; Iasemidis, 2003; Lehnertz et al., 2007). Μια κοινή προσέγγιση είναι η εκτίµηση ενός χαρακτηριστικού µέτρου του σήµατος σε ένα κυλιόµενο παράθυρο δεδοµένων κατά τη διάρκεια πολλών ωρών πριν από την έναρξη της επιληπτικής κρίσης, έτσι ώστε το χαρακτηριστικό αυτό να ενεργοποιεί έναν συναγερµό (alert) στην περίπτωση που ξεπεραστεί ένα προκαθορισµένο κατώϕλι του µέτρου αυτού (Mormann et al., 2005). εν υπάρχουν κάποια χρυσά κριτήρια για την πρόβλεψη της επιληπτικής κρίσης χρησιµοποιώντας ένα συγκεκριµένο µέτρο, αλλά η χρήση διαϕορετικών χαρακτηριστικών µέτρων έχει δείξει ότι η πολυπλοκότητα των EEG µειώνεται καθώς πλησιάζει η επιληπτική 92
111 κρίση, έτσι κάποιος µπορεί να ψάξει για διακεκριµένες περιοχές µε διαϕορετικά χαρακτηριστικά κατά την προ-επιληπτική δραστηριότητα του εγκεϕάλου, π.χ. (Iasemidis et al., 2003; Kugiumtzis et al., 2006, 2007) Περίπτωση µελέτης 10 χαρακτηριστικών Στην ενότητα αυτή εϕαρµόσαµε την ίδια διαδικασία τυποποιήσεων και επιλογής χαρακτηριστικών που ακολουθήθηκε στην Ενότητα αλλά σε ϐάσεις δεδοµένων µε καταγραϕές ηλεκτροεγκεϕαλογραϕηµάτων (EEG) επιληψίας αυτή τη φορά. Μελετούµε τη συµπεριϕορά του αλγορίθµου FSSwCRI σε πραγµατικά δεδοµένα και κατά πόσο επηρεάζουν τα αποτελέσµατα της κατηγοριοποίησης οι τεχνικές τυποποίησης. Επίσης αναζητούµε τα χαρακτηριστικά αυτά που µπορούν να διαχωρίσουν τις προεπιληπτικές περιόδους. Καταγραϕές EEG από ασθενείς µε επιληψία Για τις καταγραϕές EEG που ϑα µελετήσουµε στην ενότητα αυτή, ορίζουµε τρείς προεπιληπτικές καταστάσεις : την κατάσταση λίγο πριν την κρίση που διαρκεί από 80 δευτερόλεπτα µέχρι 2 λεπτά -late preictal state (L), την κατάσταση αρκετά πριν από την κρίση που αναϕέρεται στην χρονική περίοδο 1 ώρας πριν από την κρίση -intermediate preictal state (I), και στην περίοδο αρκετές ώρες πριν την κρίσης που αναϕέρονται στην χρονική περίοδο περίπου 5 ωρών πριν από την έναρξη της κρίσης - early preictal state (E). Ο σκοπός µας εδώ είναι να ϐρούµε το υποσύνολο χαρακτηριστικών που ϑα διαχωρίζει καλύτερα την κατάσταση L από την κατάσταση I ή την κατάσταση L από την κατάσταση E. Για τις καταστάσεις L, I και E, έγιναν εξω-κρανιακές καταγραϕές µε ένα σύστηµα 25-καναλιών (αντίστοιχο του συστήµατος µε επιπλέον ηλεκτρόδια) και συχνότητα δειγµατοληψίας στα 200 Hz την οποία µειώσαµε στα 100 Hz για επιτάχυνση των υπολογισµών. Οι καταγραϕές αυτές αϕορούν 4 διαϕορετικούς ασθενείς και η κάθε καταγραϕή αϕορά µια µόνο επιληπτική κρίση. Η κάθε καταγραϕή χωρίστηκε σε µη επικαλυπτόµενα τµήµατα των 30 δευτερολέπτων που αντιστοιχούν σε 6000 σηµεία παρατηρήσεων το κάθε τµήµα. Για κάθε επιληπτική κρίση διαµορϕώσαµε ένα πλήθος εργασιών κατηγοριοποίησης, όπου σε κάθε περίπτωση µια οµάδα 50 χρονοσειρών χωρίζεται σε δύο κλάσεις, η πρώτη κλάση, που αντιστοιχεί στην κατάσταση L, αποτελείται από 25 χρονοσειρές, δηλαδή µια από κάθε κανάλι της τµηµατοποιηµένης καταγραϕής EEG, και η δεύτερη κλάση αποτελείται από αντίστοιχες χρονοσει- ϱές της κατάστασης I ή της κατάστασης E. Με τον τρόπο αυτό δηµιουργείται ένα πλήθος προβληµάτων κατηγοριοποίησης ίσο µε τον πλήθος των συνδυασµών που προκύπτουν από τα τµήµατα που υπάρχουν στις καταστάσεις L και Ε ή Ι. Για παράδειγµα, στο ασθενή 1, υπάρχουν δύο καταγραϕές της περιόδου L, η µία έχει διάρκεια 80 δευτερόλεπτα και η άλλη 95 δευτερόλεπτα, δίνοντας συνολικά 5 µη επικαλυπτόµενα τµήµατα διάρκειας 30 δευτερολέπτων. Για τον ίδιο ασθενή υπάρχει µια καταγραϕή της περιόδου Ε διάρκειας 4 λεπτών η οποία δίνει συνολικά 8 τµήµατα των 30 δευτερολέπτων. Το κάθε τµήµα αποτελείται από 25 χρονοσειρές που αντιστοιχούν στα 25 ηλεκτρόδια του συστήµατος. Οπότε υπάρχουν στην πραγµατικότητα (5 x 8 =) 40 συνδυασµοί από τις περιόδους L και Ε που δηµιουργούν 40 προβλήµατα συσταδοποίησης και κατηγοριοποίησης αντίστοιχα. Η κατανοµή των καταγραϕών για κάθε περίοδο, το πλήθος των τµηµάτων που προκύπτουν από τον χωρισµό των καταγραϕών, και οι τελικοί συνδυασµοί που προκύπτουν για κάθε έναν από τους 4 ασθενείς παρουσιάζονται στον Πίνακα 6.1. Για να υπάρχει συµϕωνία µε τη διαδικασία που ακολουθήθηκε στα δεδοµένα προσοµοιώσεων, έτσι και εδώ το 70% από τα δείγµατα των προβληµάτων κατηγοριοποίησης L-Ε και L-Ι χωρίστηκαν τυχαία στο σύνολο δεδοµένων εκπαίδευσης που περιλαµβάνει 56 L-Ε περιπτώσεις και 50 L-Ι περιπτώσεις αντίστοιχα, ενώ το σύνολο δεδοµένων ελέγχου περιέχει το υπόλοιπο 30% των L-Ε και L-Ι εργασιών κατηγοριοποίησης. Οι χρονοσειρές των EEG των προεπιληπτικών περιόδων, είναι χρονοσειρές ταλαντώσεων όµοιες στην εµϕάνιση µε τις χρονοσειρές προσοµοιώσεων που ανήκουν στις ϐάσεις δεδοµένων MG και L95 της 93
112 Πίνακας 6.1: Οι καταγραϕές EEG από τέσσερις ασθενείς που αϕορούν τις προεπιληπτικές περιόδους πολύ πριν - early (E), αρκετά πριν - intermediate (I) και λίγο πριν - late (L) την κρίση. Στις παρενθέσεις είναι τα τµήµατα που δηµιουργήθηκαν από τις καταγραϕές αυτές, τα οποία δίνονται στις στήλες 2 4. Στην τελευταίες στήλες φαίνεται ο αριθµός των προβληµάτων κατηγοριοποίησης που προκύπτουν από τον συνδυασµό των τµηµάτων των L και E ή I (στήλες 5 6). καταγραϕές (τµήµατα) ανά κατάσταση σύνολο προβληµάτων ασθενείς L I E L-E L-I 1 2 (5) - 1 (8) (4) 1 (4) 1 (4) (4) 1 (8) (3) 1 (8) 1 (8) Σύνολο ενότητας Ωστόσο, µπορεί εύκολα να παρατηρηθεί ότι στις χρονοσειρές των EEG υπάρχουν ανο- µοιογενή πρότυπα, όπως απότοµες κορυϕές ή τάσεις οι οποίες ϑα µπορούσαν να αντιστοιχιστούν είτε σε φυσιολογική δραστηριότητα του εγκεϕάλου, είτε σε παθολογική δραστηριότητα ή ακόµη και σε ανώ- µαλα σηµεία. Τα δεδοµένα αυτά δεν τα υποβάλαµε σε καµία άλλη προεπεξεργασία αϕαίρεσης τέτοιων σηµείων, κάνοντας το πρόβληµα της κατηγοριοποίησης ακόµη πιο δύσκολο. Αποτελέσµατα του FSSwCRI σε 10 χαρακτηριστικά από EEG Αυτό που αναζητούµε εδώ είναι η εύρεση του υποσυνόλου χαρακτηριστικών από το σύνολο των 10 χαρακτηριστικών του Πίνακα 5.1 τα οποία υπολογίσθηκαν σε όλα τα τµήµατα των χρονοσειρών EEG, καθώς και η τεχνική τυποποίησης που ϑα χρησιµοποιηθεί ώστε να κατατάξει καλύτερα την κάθε υποο- µάδα των 50 χρονοσειρών η οποία αποτελείται από 25 χρονοσειρές που καταγράϕηκαν από τα κανάλια ηλεκτροδίων κατά την περίοδο L και άλλες 25 από τις περιόδους Ε ή Ι. Το πρόβληµα κατηγοριοποίησης που µελετάµε αναϕέρεται στον επιτυχή διαχωρισµό 2 κλάσεων L I ή L E (ανεξάρτητα αν σε κάποιον ασθενή υπάρχουν καταγραϕές και από τις τρεις περιόδους L, I, E). Πίνακας 6.2: Βέλτιστο υποσύνολο χαρακτηριστικών (S), τεχνική τυποποίησης και απόδοση κατηγοριοποίησης (CRI) για τους 4 ασθενείς ξεχωριστά. Ασθενής 1 Ασθενής 2 Ασθενής 3 Ασθενής 4 Τυποποίηση S CRI S CRI S CRI S CRI Γραµµική f 5, f 3, f f f 4, f f Λογιστική f 5, f f 7, f f f 5, f Λογαριθµική f f 7, f f 2, f 4, f f ιασποράς f 5, f f 9, f f 4, f f 5, f Γκαουσιανή f 5, f f f 4, f f 5, f Αρχικά στον Πίνακα 6.2 παρουσιάζουµε τα αποτελέσµατα από την εϕαρµογή του αλγορίθµου FS- SwCRI πάνω στα χαρακτηριστικά που αϕορούν τις καταγραϕές του κάθε ασθενούς ξεχωριστά. Στον 94
113 Πίνακα αυτόν παρατηρούµε τα χαρακτηριστικά που επέλεξε ο αλγόριθµος FSSwCRI και εµϕάνισαν την ϐέλτιστη απόδοση στην κατηγοριοποίηση των προεπιληπτικών καταστάσεων για κάθε τεχνική τυποποίησης. Παρατηρούµε ότι και µε δύο µόνο χαρακτηριστικά µπορεί να επιτευχθεί υψηλή απόδοση στην κατηγοριοποίηση των καταγραϕών EEG. Η καλύτερη απόδοση παρατηρήθηκε στην περίπτωση του πρώτου ασθενούς όπου επιλέχθηκαν 3 χαρακτηριστικά (f5, f3, f2 που αντιστοιχούν στα λ x, Cr B x (τ max ), κ x ) στο ϐέλτιστο υποσύνολο στην γραµµική τυποποίηση, µε µόνο 3 χρονοσειρές να έχουν τοποθετηθεί σε λάθος κλάση δίνοντας τιµή CRI=0.89 και για τον ασθενή 3 όπου επίσης επιλέχθηκαν 3 χαρακτηριστικά (f2, f4, f10 που αντιστοιχούν στα κ x, CI x (τ max ), s(1)) µε µόνο µια λανθασµένη ταξινόµηση των καταγραϕών ο δείκτης CRI να είναι ίσος µε 0.92 στη λογαριθµική τυποποίηση. 1 (a) 5 (b) early late 4 3 early late f f f f 5 Σχήµα 6.2: (a) ιάγραµµα διασποράς των (f 5, f 3 ) για ένα L-E πρόβληµα του πρώτου ασθενή, όπου έγινε τυποποίηση των δεδοµένων µε τη γραµµική µέθοδο. Οι δύο οµάδες σηµειώνονται µε σύµβολα όπως δίνονται στο ένθετο, και τα ηλεκτρόδια που κατηγοριοποιήθηκαν λανθασµένα σηµειώνονται µε αστερίσκο. (b) Το ίδιο όπως στο (a) αλλά τα δεδοµένα τυποποιήθηκαν µε την µέθοδο της διασποράς. Τα αποτελέσµατα του Πίνακα 6.2 δείχνουν επίσης ότι η διαϕορά στις τιµές του CRI µεταξύ των τεχνικών τυποποίησης είναι αρκετά µεγάλη, υποδεικνύοντας την επίδραση των τεχνικών τυποποίησης στα αποτελέσµατα της συσταδοποίησης και κατ επέκταση στα αποτελέσµατα της κατηγοριοποίησης. Για παράδειγµα στο Σχήµα 6.2a φαίνεται το διάγραµµα διασποράς των (f 5, f 3 ) (λ x, Crx B (τ max )) από το ϐέλτιστο υποσύνολο S = {f 5, f 3, f 2 } (λ x, Crx B (τ max ), κ x )) για ένα L-E πρόβληµα του πρώτου ασθενή, όπου έγινε τυποποίηση των δεδοµένων µε τη γραµµική µέθοδο και τα χαρακτηριστικά f 3 και f 2 δίνουν τουλάχιστον 5% ϐελτίωση στην τιµή του CRI=0.89 όταν προστίθενται στο υποσύνολο χαρακτηριστικών όπου έχει ήδη επιλεγεί το f 5. Στην πραγµατικότητα όµως η συνεισϕορά αυτή είναι οριακή ώς προς τον επιτυχή διαχωρισµό των προεπιληπτικών καταστάσεων, µιας και τα λάθος ταξινοµηµένα σηµεία είναι µόνο 3. Αντίστοιχα στο Σχήµα 6.2b παρατηρούµε αντίστοιχη ϐελτίωση στην απόδοση του CRI=0.79 µε υποσύνολο S = {f 5, f 3 } για την τυποποίηση διασποράς του πρώτου ασθενούς αλλά εδώ τα λάθος ταξινοµηµένα σηµεία είναι 4. Στον Πίνακα 6.3 παρουσιάζουµε την συχνότητα εµϕάνισης του κάθε ενός χαρακτηριστικού από τα 10 που υπολογίσαµε µέσα στα υποσύνολα χαρακτηριστικών που επιλέχθηκαν από τη διαδικασία FSSwCRI, σε 106 προβλήµατα κατηγοριοποίησης που µελετήθηκαν από το σύνολο δεδοµένων εκπαίδευσης που αϕορά τις περιόδους L-E και L-I. Επειδή δεν διαπιστώθηκε καµία διαϕορά στα αποτελέσµατα για τις περιόδους L-E και L-I, ϑα παρουσιάσουµε ενοποιηµένα τα αποτελέσµατα και των δύο περιπτώσεων. Το πιο συχνά επιλεγµένο χαρακτηριστικό από τον FSSwCRI φαίνεται στον Πίνακα 6.3 να είναι ο µέγιστος 95
114 Πίνακας 6.3: Η συχνότητα εµϕάνισης του καθενός από τα 10 χαρακτηριστικά στα ϐέλτιστα υποσύνολα χαρακτηριστικών που ϐρέθηκαν από τον FSSwCRI στο σύνολο δεδοµένων εκπαίδευσης από τα 106 προβλήµατα οµαδοποίησης, για κάθε µέθοδο τυποποίησης. Χαρακτηριστικά Γραµµική Λογιστική Λογαριθµική ιασποράς Γκαουσιανή Σύνολο f f f f f f f f f f εκθέτης Lyapunov (f 5 µε 171 εµϕανίσεις), ο οποίος ακολουθείται από την τυπική απόκλιση των κορυϕών της ταλάντωσης (f 10 µε 158 εµϕανίσεις), και µετά ακολουθεί η µέση τιµή των περιόδων ταλάντωσης (f 7 µε 153 εµϕανίσεις). Τα µη-γραµµικά χαρακτηριστικά ϑεωρείται ότι έχουν καλή διακριτική ικανότητα σε προβλήµατα κατηγοριοποίησης EEG, π.χ. δες Iasemidis et al. (2003) για το χαρακτηριστικό f 5. Στα δικά µας ευρήµατα όµως διαπιστώσαµε ότι και τα χαρακτηριστικά ταλαντώσεων µπορούν εξίσου να κάνουν καλούς διαχωρισµούς µεταξύ των διαϕορετικών καταστάσεων στα EEG σήµατα. Άλλα δύο καλά σε κατάταξη χαρακτηριστικά από το σύνολο των εµϕανίσεων τους σύµϕωνα µε τον Πίνακα 6.3 είναι η µέση τιµή των κορυϕών των ταλαντώσεων (f 8 ) που είναι ακόµη ένα χαρακτηριστικό ταλάντωσης, και ακολουθεί ένα µη-γραµµικό χαρακτηριστικό που είναι η αµοιβαία πληροϕορία (f 4 ) µε 135 συνολικές εµϕανίσεις µέσα από όλες τις µεθόδους τυποποίησης. Τα υπόλοιπα χαρακτηριστικά δεν φαίνεται να συνεισϕέρουν σηµαντικά στον διαχωρισµό των καταστάσεων L-E ή L-I. Τα γενικά αποτελέσµατα από την εϕαρµογή του FSSwCRI στο σύνολο δεδοµένων εκπαίδευσης σύµφωνα µε τον Πίνακα 6.3 υποδεικνύουν ότι η γραµµική, η λογιστική και η τυποποίηση της διασποράς τείνουν να επιλέγουν τα ίδια χαρακτηριστικά, τα οποία διαϕέρουν από αυτά που επιλέγονται µε τη λογαριθµική και τη Γκαουσιανή τυποποίηση µε τις δύο τελευταίες να ϐρίσκουν επίσης όµοια χαρακτη- ϱιστικά. Οπως φαίνεται στον Πίνακα 6.3, το χαρακτηριστικό f 10 εµϕανίστηκε τις περισσότερες φορές µε τη γραµµική τυποποίηση, τη λογιστική τυποποίηση και την τυποποίηση της διασποράς, αλλά όχι µε τη λογαριθµική και τη Γκαουσιανή τυποποίηση, ενώ το αντίθετο παρατηρείται για το χαρακτηριστικό f 4. Επιπλέον, όλες οι τεχνικές τυποποίησης φαίνεται να συµϕωνούν σε πιο συχνό ϐέλτιστο υποσύνολο χα- ϱακτηριστικών µε ένα µονό χαρακτηριστικό, αλλά διαϕέρουν ώς προς το χαρακτηριστικό, όπως µπορεί να παρατηρήσει κάποιος στην 2 στήλη του Πίνακα 6.4a. Η λογιστική τυποποίηση στο σύνολο δεδοµένων ελέγχου σύµϕωνα µε τον Πίνακα 6.4a ϐρίσκει τις περισσότερες φορές το ίδιο υποσύνολο χαρακτηριστικών, {f 5 }, ως καλύτερο σε 33 περιπτώσεις, το ο- ποίο είναι επίσης το πιο συχνά εµϕανιζόµενο υποσύνολο χαρακτηριστικών και για την λογαριθµική τυποποίηση. Ωστόσο το µονό αυτό ϐέλτιστο υποσύνολο, αποδίδει πολύ φτωχά στα 46 προβλήµατα κατηγοριοποίησης του συνόλου δεδοµένων ελέγχου ( 24 περιπτώσεις αντιστοιχούν για τις καταστάσεις L-E και 22 για τις L-I) και για τις δύο αυτές µεθόδους τυποποίησης, δίνοντας αποδόσεις κατηγοριοποίησης που αντιστοιχούν σε τυχαία κατανοµή, όπως φαίνεται από τις περιοχές τιµών που κυµαίνεται ο δείκτης CRI καθώς και ο δείκτης του σϕάλµατος κατηγοριοποίησης-classification error rate (ER), στον Πίνακα 6.4a. 96
115 Πίνακας 6.4: Η απόδοση της κατηγοριοποίησης για τις 5 τεχνικές τυποποίησης στο σύνολο δεδοµένων ελέγχου που αποτελείται από 46 προβλήµατα (24 από τις περιόδους L-E και 22 από τις L-I) χρησιµοποιώντας (α) τα πιο συχνά εµϕανιζόµενα υποσύνολα χαρακτηριστικών (η συχνότητά τους δίνεται στις παρενθέσεις της στήλης 2), και (ϐ) το υποσύνολο που αποτελείται από τα τρία πιο συχνά εµϕανιζόµενα χαρακτηριστικά που παρατηρήθηκαν µέσα σε όλα τα υποσύνολα χαρακτηριστικών τα οποία επιλέχθηκαν από τον FSSwCRI στο σύνολο δεδοµένων εκπαίδευσης. Η ακρίβεια δίνεται από τη διάµεσο, τη 2.5% και 97.5% ποσοστιαία τιµή του CRI καθώς και του ϱυθµού σϕάλµατος κατηγοριοποίησης (ER). Τυποποίηση Χαρακτηριστικά (2.5, 50, 97,5) CRI (2.5, 50, 97,5) ER (α) τα πιο συχνά υποσύνολα χαρακτηριστικών Γραµµική f 10 (10) (-0.02, 0.26, 0.80) (0.05, 0.25, 0.50) Λογιστική f 5 (33) (-0.06, 0.06, 0.66) (0.09, 0.50, 0.50) Λογαριθµική f 5 (17) (0.00, 0.06, 0.66) (0.09, 0.50, 0.50) ιασποράς f 10 (10) (-0.02, 0.26, 0.80) (0.05, 0.25, 0.50) Γκαουσιανή f 2 (15) (-0.04, 0.22, 1.00) (0.00,0.26, 0.45) (ϐ) τα τρία πιο συχνά χαρακτηριστικά Γραµµική f 5, f 8, f 10 (-0.03, 0.35, 0.95) (0.01, 0.20, 0.50) Λογιστική f 5, f 8, f 10 (-0.06, 0.00, 0.66) (0.09, 0.50, 0.50) Λογαριθµική f 4, f 7, f 2 (0.01, 0.75, 1.00) (0.00, 0.06, 0.50) ιασποράς f 5, f 8, f 10 (-0.06, 0.22, 0.95) (0.01, 0.29, 0.50) Γκαουσιανή f 4, f 5, f 7 (-0.02, 0.45,1.00) (0.00, 0.16, 0.50) Η απόδοση στην κατηγοριοποίηση µε τα επιλεγµένα ϐέλτιστα υποσύνολα χαρακτηριστικών, είναι επίσης φτωχή και για τις υπόλοιπες µεθόδους τυποποίησης, αλλά είναι καλύτερη από την τυχαιότητα. Τα α- ποτελέσµατα αυτά υποδεικνύουν ότι η επιλογή του συχνότερου ϐέλτιστου υποσυνόλου χαρακτηριστικών που επιλέχθηκε από την εϕαρµογή του αλγορίθµου FSSwCRI στο σύνολο δεδοµένων εκπαίδευσης, δε διασϕαλίζει σηµαντική ακρίβεια στην κατηγοριοποίηση του συνόλου δεδοµένων ελέγχου. Βασιζόµενοι λοιπόν στα αποτελέσµατα της συχνότητας εµϕάνισης του κάθε ατοµικού χαρακτηριστικού στα ϐέλτιστα υποσύνολα χαρακτηριστικών για τα 106 προβλήµατα κατηγοριοποίησης του συνόλου δεδοµένων εκπαίδευσης που φαίνονται στον Πίνακα 6.3, διαµορϕώσαµε ένα υποσύνολο χαρακτηριστικών που αποτελείται από τα τρία πιο συχνά εµϕανιζόµενα χαρακτηριστικά για κάθε µέθοδο τυποποίησης. Στη συνέχεια επαναλάβαµε τη διαδικασία κατηγοριοποίησης στο σύνολο δεδοµένων ελέγχου χρησιµοποιώντας τα τρία αυτά χαρακτηριστικά, και τα αποτελέσµατα ϐελτιώθηκαν σε όλες τις µεθόδους τυποποίησης εκτός από τη λογιστική τυποποίηση και της διασποράς όπως φαίνεται στον Πίνακα 6.4b. Η καλύτερη απόδοση που παρατηρήθηκε στη λογαριθµική τυποποίηση ήταν η τιµή 0.75 για την διάµεσο του δείκτη CRI εάν συγκριθεί µε την τιµή 0.06 που είχε το συχνότερα εµϕανιζόµενο ατοµικό χαρακτη- ϱιστικό {f 5 } όταν χρησιµοποιήθηκε πριν. Το χαρακτηριστικό ϐρέθηκε 17 φορές ως ατοµικό υποσύνολο χαρακτηριστικών, και δεν ξαναεµϕανίσθηκε σε κανένα άλλο ϐέλτιστο υποσύνολο τις υπόλοιπες 89 πε- ϱιπτώσεις. Αυτό το αποτέλεσµα υποδεικνύει και αποδεικνύει τη µεγάλη διακύµανση που υπάρχει στις τιµές των χαρακτηριστικών των σηµάτων EEG κατά τη διάρκεια του χρόνου και του καναλιού που µελετάται, έτσι ώστε ένα χαρακτηριστικό, ακόµη και µόνο του να µπορεί να διαχωρίζει ικανοποιητικά δύο διαϕορετικές προεπιληπτικές καταστάσεις σε µερικές περιπτώσεις, και σε άλλες να αποτυγχάνει να το καταϕέρει. 97
116 Αποτελέσµατα από τους κανόνες συσχέτισης Κατά την µελέτη των EEG, τα αποτελέσµατα ήταν πολύ λιγότερο συνεπή συγκριτικά µε τα αποτελέσµατα από τα συστήµατα προσοµοιώσεων. Αυτό µας οδήγησε σε περαιτέρω επεξεργασία των ϐέλτιστων υποσυνόλων µε την τεχνική των κανόνων συσχέτισης. Για να συσταθούν οι κανόνες συσχέτισης, χρησι- µοποιήσαµε όλα τα προηγούµενα σύνολα κατηγοριοποίησης (το σύνολο δεδοµένων εκπαίδευσης και το σύνολο δεδοµένων ελέγχου) µιας και εδώ το ενδιαϕέρον εστιάζεται στις συσχετίσεις µεταξύ των χαρακτη- ϱιστικών παρά στην απόδοση της κατηγοριοποίησης που επιτυγχάνουν. Υπολογίσαµε την υποστήριξη (support) για όλα τα χαρακτηριστικά και για όλα τα Ϲεύγη χαρακτηριστικών, δηλαδή, supp(x) και supp(x Y ), όπου X και Y είναι τα µονά χαρακτηριστικά (single features), και κρατήσαµε µόνο αυτά για τα οποία η υποστήριξη ήταν µεγαλύτερη από 0.1. Στην συνέχεια επιλέχθηκαν τα ατοµικά χαρακτη- ϱιστικά µε εµπιστοσύνη (confidence) µεγαλύτερη από 0.2, και υπολογίσθηκαν οι τιµές της ανύψωσης (lift) για αυτά τα χαρακτηριστικά. Η υποστήριξη για όλα τα υποσύνολα µε τριάδες χαρακτηριστικών ήταν πάντα µικρότερη από 0.1, δηλαδή supp(x Y )<0.1 όπου το X είναι ένα ατοµικό χαρακτηριστικό και το Y είναι µια οµάδα µε δύο χαρακτηριστικά. Για τον λόγο αυτό οι κανόνες συσχέτισης που ϑα προκύψουν εµπεριέχουν µόνο ατοµικά επί µέρους χαρακτηριστικά και όχι υποοµάδες χαρακτηριστικών. Η υποστήριξη supp(x Y ) των χαρακτηριστικών µε τιµές των συχνοτήτων εµϕάνισης τους δίνεται στον Πίνακα 6.3 για όλες τις µεθόδους τυποποίησης όπου υπάρχουν οι τιµές µόνο για το σύνολο δεδοµένων εκπαίδευσης, αλλά το ίδιο ισχύει και για το σύνολο των δεδοµένων ελέγχου. Στον Πίνακα 6.5 στην κάτω διαγώνιο παρουσιάζονται οι συνχότητες εµϕάνισης από τα αντίστοιχα Ϲεύγη χαρακτηριστικών για το πλήρες σύνολο των δειγµάτων (σύνολο δεδοµένων εκπαίδευσης συν το σύνολο των δεδοµένων ελέγχου) για την µέθοδο της Γκαουσιανής τυποποίησης. Αυτές είναι οι τιµές υποστήριξης για τα Ϲεύγη χαρακτηριστικών για τη µέθοδο της Γκαουσιανής τυποποίησης και για το πλήρες σύνολο των δειγµάτων. Πίνακας 6.5: Ο πίνακας µε τις συχνότητες και τις µέσες τιµές του CRI για τα Ϲευγάρια των χαρακτηριστικών που υπάρχουν σε ϐέλτιστα υποσύνολα χαρακτηριστικών για τα 152 προβλήµατα κατηγοριοποίησης, όπου έγινε χρήση της Γκαουσιανής τυποποίησης. Η κάτω διαγώνιος δείχνει τις συχνότητες εµϕάνισης του κάθε Ϲεύγους χαρακτηριστικών, και η πάνω διαγώνιος δείχνει τις αντίστοιχες µέσες τιµές του CRI, ενώ οι τιµές της διαγωνίου είναι οι συχνότητες εµϕάνισης του κάθε ατοµικού χαρακτηριστικού. Χαρακτηριστικά f 1 f 2 f 3 f 4 f 5 f 6 f 7 f 8 f 9 f 10 f f f f f f f f f f Η περιοχή πάνω από την διαγώνιο του ίδιου πίνακα δείχνει τις µέσες τιµές του CRI για τα αντίστοιχα Ϲεύγη χαρακτηριστικών. Οπως ήδη έχει συζητηθεί, µε ϐάση τις συχνότητες εµϕάνισης υποσυνόλων χαρακτηριστικών, τα ατοµικά (single) χαρακτηριστικά µε τη µέγιστη υποστήριξη είναι τα f 5, f 10 και f 7, αλλά όχι για όλες τις µεθόδους τυποποίησης. Για παράδειγµα, χρησιµοποιώντας την Γκαουσιανή 98
117 τυποποίηση, η µέγιστη τιµή υποστήριξης εµϕανίζεται για το f 4 και f 7. Επιπλέον, η υποστήριξη του συνδυασµού των f 4 και f 7, supp(f 4 f 7 ), είναι κατά πολύ µεγαλύτερη από όλα τα υπόλοιπα Ϲευγάρια έχοντας τιµή ίση µε 29/152, ενώ η επόµενη µεγαλύτερη τιµή είναι η supp(f 5 f 7 )=11/152 όπως φαίνεται και στον Πίνακα 6.5. Πράγµατι η τιµή της supp(f 4 f 7 ) είναι η µόνη τιµή υποστήριξης µεγαλύτερη του κατωϕλίου 0.1, και εποµένως ο µοναδικός πιθανός κανόνας συσχέτισης ισχύει για το f 4 και το f 7 όταν γίνεται χρήση της Γκαουσιανής τυποποίησης. Βρήκαµε τις τιµές εµπιστοσύνης conf(f 4 f 7 )=0.47 και conf(f 7 f 4 )=0.57, να είναι και οι δύο µεγαλύτερες από το κατώϕλι 0.2 που ϑέσαµε, δηµιουργώντας έτσι τους κανόνες συσχέτισης f 4 f 7 και f 7 f 4. Αυτοί οι κανόνες συσχέτισης µε τιµή ανύψωσης ίση µε 1.39 υποδεικνύουν ότι το f 4 και f 7 τείνουν να συνυπάρχουν στα ϐέλτιστα υποσύνολα χαρακτηριστικών, έχοντας το δεύτερο κανόνα (f 7 f 4 ) ισχυρότερο από τον πρώτο. Τα Ϲεύγη χαρακτηριστικών που ικανοποιούν τις συνθήκες των κανόνων συσχέτισης, καθώς και οι αντίστοιχες τιµές της υποστήριξης, εµπιστοσύνης και ανύψωσης, για όλες τις τεχνικές τυποποίησης φαίνονται στον Πίνακα 6.6. Πίνακας 6.6: Τα υποσύνολα 2-χαρακτηριστικών που έχουν τιµές υποστήριξης µεγαλύτερες από 0.10, για τις 152 περιπτώσεις των περιόδων L I (72) και L E (80), και για όλες τις µεθόδους τυποποίησης. Τυποποίηση X Y supp(x Y ) conf(x Y ) conf(y X) lift(x Y ) Γραµµική f 4 f f 5 f f 5 f f 5 f f 2 f Λογιστική f 8 f f 2 f f 5 f Λογαριθµική f 4 f Παραλλαγής f 5 f f 8 f f 5 f f 1 f f 2 f Γκαουσιανή f 4 f Παρατηρούµε ότι υπάρχει µεγάλη διακύµανση στους κανόνες συσχέτισης που µπορούν να σχη- µατιστούν µεταξύ των διαϕορετικών τεχνικών τυποποίησης, µε την λογαριθµική και την Γκαουσιανή τυποποίηση µόνο να ϐρίσκονται σε συµϕωνία µεταξύ τους. Τα Ϲεύγη χαρακτηριστικών µε υψηλές τιµές υποστήριξης και εµπιστοσύνης συµπεριλαµβάνουν πολύ συχνά ένα µη-γραµµικό χαρακτηριστικό, το f 4 ή το f 5, και ένα χαρακτηριστικό ταλάντωσης, το f 7, το f 8, ή το f 10. Ωστόσο, δε µπορούµε να συµπεράνουµε µε σιγουριά ότι ένα µη-γραµµικό χαρακτηριστικό είναι το καταλληλότερο ώστε να επιλέγεται στο ϐέλτιστο υποσύνολο χαρακτηριστικών µαζί µε ένα χαρακτηριστικό ταλάντωσης, και αυτό γιατί οι τιµές ανύψωσης κυµαίνονται από µικρότερες σε µεγαλύτερες της µονάδας. Για παράδειγµα, ενώ τα Ϲεύγη των f 4 και f 7 είναι ένα παράδειγµα συνύπαρξης τέτοιων χαρακτη- ϱιστικών, όπως αναϕέρθηκε πριν στη λογαριθµική και Γκαουσιανή τυποποίηση, το Ϲευγάρι f 5 και f 10 99
118 τείνει να επιλέγεται αποκλειστικά στην γραµµική και λογιστική τυποποίηση δίνοντας τιµές ανύψωσης 0.65 και 0.88 αντίστοιχα. Τα αποτελέσµατα των κανόνων συσχέτισης µεταξύ των χαρακτηριστικών δεν είναι πολύ ικανοποιητικά εξαιτίας των χαµηλών τιµών που έχουµε ϑέσει στα αντίστοιχα κατώϕλια. Εάν χρησιµοποιήσουµε µεγαλύτερες τιµές στο κατώϕλι της εµπιστοσύνης, τότε ϑα ϐρεθούν ελάχιστοι ή καθόλου κανόνες συσχέτισης. Για παράδειγµα, εάν χρησιµοποιήσουµε για κατώϕλι εµπιστοσύνης την τιµή 0.5, η οποία χρησιµοποιήθηκε στην εργασία των Exarchos et al. (2005), δε ϑα ϐρεθεί κανένας κανόνας µε την λογιστική τυποποίηση, ϑα ϐρεθούν δύο κανόνες µε την γραµµική τυποποίηση, και ένας κανόνας για τις υπόλοιπες τυποποιήσεις. Είναι επίσης αξιοσηµείωτο ότι όλοι αυτοί οι ισχυροί κανόνες, χαρακτηρίζονται και από την καλή τιµή της ανύψωσης που είναι πάνω από ένα, υποδεικνύοντας τη συνύπαρξη των δύο αυτών χαρακτηριστικών στο ϐέλτιστο υποσύνολο χαρακτηριστικών Περίπτωση µελέτης 18 χαρακτηριστικών Στη συνέχεια παρουσιάζουµε µέρος µιας γενικότερης εργασίας των Kugiumtzis et al. (2006), που είχε σκοπό το διαχωρισµό προεπιληπτικών καταστάσεων σηµάτων EEG µε εργαλεία στατιστικής αλλά και εργαλεία εξόρυξης δεδοµένων, όπου χρησιµοποιήθηκε πάλι πλήθος χαρακτηριστικών από την γραµ- µική και µη-γραµµική ανάλυση των χρονοσειρών. Τα χαρακτηριστικά αυτά µέτρα υπολογίστηκαν πάνω σε τµήµατα των πολυκάναλων EEG καταγραϕών και σε συγκεκριµένα χρονικά παράθυρα που αντιστοιχούν σε χρονικές περιόδους πολύ πριν, αρκετά πριν και λίγο πριν την επιληπτική κρίση τεσσάρων ασθενών. Καταρχήν εϕαρµόστηκαν στατιστικοί έλεγχοι για κάθε κανάλι των καταγραϕών, οι οποίοι έδειξαν καλό διαχωρισµό των προεπιληπτικών καταστάσεων. Από του στατιστικούς ελέγχους επιλέχθηκαν κάποια χαρακτηριστικά που ορίσθηκαν ως ϐέλτιστα και στην συνέχεια ορίσαµε το παρακάτω σύνολο 18 χαρακτηριστικών : 9 χαρακτηριστικά συσχέτισης : r P y (5), r P y (10), r P y (20), Cr P y ( τ max ), CI x (5), CI x ( τ max ), di y (5), η αυτοσυσχέτιση τριών σηµείων r3 y (2) για χρονικές υστερήσεις τ = 1 και 2 και τ max, όπου τ max είναι η υστέρηση για την οποία η αυτοσυσχέτιση µηδενίζεται και τ max ) η µέση τιµή τους για ένα τυχαίο επιλεγµένο σύνολο χρονοσειρών, δες Πίνακα 3.1 και Πίνακα χαρακτηριστικά ταλάντωσης : m(w 1 ), m(w 2 ), m(w 3 ), IQR(1), IQR(2), και IQR(3). Οι διάµεσος m και το ενδοτεταρτοµοριακό εύρος IQR υπολογίσθηκαν από τις τιµές των µεγίστων, των ελαχίστων και της περιόδου µεταξύ δύο µεγίστων, δες Πίνακα 3.5 και Πίνακα απλά στατιστικά χαρακτηριστικά : κύρτωση κ και λοξότητα sk x, δες Πίνακα 3.1 και και τέλος ο µέγιστος εκθέτης Lyapunov λ x, δες Πίνακα 3.2. Η δική µας συνεισϕορά στην εργασία αυτή ήταν η εϕαρµογή της µεθόδου FSSwCRI στο επιλεγµένο αυτό πλήθος χαρακτηριστικών ώστε να µελετηθεί κατά πόσο ο συνδυασµός των χαρακτηριστικών αυτών έχει υψηλότερη ικανότητα διαχωρισµού των προεπιληπτικών καταστάσεων σε εϕαρµογές συσταδοποίησης και κατηγοριοποίησης. Με τον τρόπο αυτό ϑα αναδειχθεί επίσης η πιθανή συνεισϕορά χαρακτηριστικών µε µικρότερη διαχωριστική ικανότητα στην ϐελτίωση την ακρίβειας της συσταδοποίησης και κατηγοριοποίησης. Εγινε επίσης και σύγκριση µεταξύ των ϐέλτιστων χαρακτηριστικών που ϐρέθηκαν από τους στατιστικούς ελέγχους και των υποσυνόλων που ϐρέθηκαν από τον αλγόριθµο FSSwCRI. Για την υλοποίηση του στόχου αυτού ακολουθήθηκε η ίδια διαδικασία µε αυτή που ακολουθήθηκε στην προηγούµενη ενότητα όπου έγινε µελέτη σε 10 χαρακτηριστικά. Καταγραϕές EEG Τα δεδοµένα που χρησιµοποιήσαµε προέρχονται από 4 καταγραϕές EEG, οι τρείς προέρχονται από εξω-κρανιακές καταγραϕές µε το σύστηµα µε 25 ηλεκτρόδια και ορίζονται ώς Α, Β και C και 100
119 από µία ενδο-κρανιακή καταγραϕή µε 28 ηλεκτρόδια η οποία ορίζεται ως D. Ολα τα δεδοµένα από τα σήµατα EEG πέρασαν από φίλτρο στα Hz µε δειγµατοληψία στα 100Hz. Σχήµα 6.3: Τα προϕίλ των χαρακτηριστικών από δύο ηλεκτρόδια της κεντρικής περιοχής του εγκεϕάλου (MI 1 και MI 2) από την καταγραϕή Α για την πρώιµη προεπιληπτική περίοδο (Ε) που αντιστοιχεί σε [-260,-210] λεπτά πριν από την έναρξη της κρίσης και ακολουθούν η ενδιάµεση (Ι) και η λίγο πριν την κρίση (L) περίοδοι που αντιστοιχούν σε [-60,-10]λεπτά και [-10,0]λεπτά πριν την κρίση και διαχωρίζονται µε τις κάθετες διακεκοµµένες γραµµές. Στο γράϕηµα (a) είναι το χαρακτηριστικό µέτρο της αυτοσυσχέτισης r P y (5) και στο (b) είναι η διάµεσος m(w 1). Τα τµήµατα που χρησιµοποιήσαµε από τις χρονικές περιοχές πολύ πριν (early), αρκετά πριν (intermediate) και λίγο πριν (late) την επιληπτική κρίση, είχαν διάρκεια 10 λεπτών. Οι περιοχές αυτές αντιστοιχούν σε 4ώρες, 1ώρα και 10 λεπτά πριν από την επιληπτική κρίση αντίστοιχα και ϑα τις συµ- ϐολίζουµε ως E, I, και L. Το καθένα από τα δεκάλεπτα αυτά χρονικά παράθυρα, χωρίστηκε σε τµήµατα των 30 δευτερολέπτων και σε κάθε ένα από αυτά τα τµήµατα, υπολογίστηκαν τα χαρακτηριστικά που αναϕέραµε. Επιπλέον για την καταγραϕή Α ϑεωρήσαµε παράθυρα δεδοµένων µε διάρκεια 50 λεπτών για την κατάσταση E και τα τελευταία 60 λεπτά από την προεπιληπτική περίοδο που προκύπτει από την συνένωση των χρονικών περιόδων I και L, τα οποία επίσης χωρίσαµε σε τµήµατα των 30 δευτερολέπτων µε τον ίδιο τρόπο. Για κάθε πρόβληµα συσταδοποίησης, δίνουµε ως είσοδο στον αλγόριθµο FSSwCRI το πλήθος των συστάδων (δύο ή τρείς) που ϑέλουµε καθώς και τα χαρακτηριστικά που εκτιµήθηκαν στις 20 χρονοσειρές για κάθε δεκάλεπτο της κάθε περιόδου. Για παράδειγµα για το διαχωρισµό των καταστάσεων E και L της καταγραϕής Β, σχηµατίζουµε µια ϐάση µε 40 χρονοσειρές και στήλες τα χαρακτηριστικά που αναφέραµε για ένα από τα 25 ηλεκτρόδια της καταγραϕής αυτής. Ο αλγόριθµος επιλογής χαρακτηριστικών FSSwCRI που εϕαρµόζουµε στην συνέχεια, δίνει ως έξοδο το ϐέλτιστο υποσύνολο χαρακτηριστικών που πετυχαίνει την καλύτερη ακρίβεια συσταδοποίησης, που σηµαίνει ότι οι εκτιµώµενες συστάδες ταιριά- Ϲουν καλύτερα µε τις πραγµατικές κλάσεις. Αυτή η διαδικασία εϕαρµόστηκε σε όλα τα προβλήµατα συσταδοποίησης που δηµιουργήθηκαν για την κάθε καταγραϕή (Α,Β,C,D) δηλαδή τους συνδυασµούς οµάδων (E,I), (E,L), (I,L) και (E,I,L), από όλα τα ηλεκτρόδια και όλες τις καταγραϕές. Για τις καταγραϕές Α,Β, και C έχουµε = 300 προβλήµατα κατηγοριοποίησης και για την καταγραϕή D έχουµε 4 28 = 112 προβλήµατα κατηγοριοποίησης, σχηµατίζοντας τελικά 412 προβλήµατα κατηγοριοποίησης των διαϕορετικών προεπιληπτικών περιόδων. 101
120 Επιλογή χαρακτηριστικών και ακρίβεια κατηγοριοποίησης Τα προϕίλ των χαρακτηριστικών ποικίλουν από κανάλι σε κανάλι όπως φαίνεται στο Σχήµα 6.3 για τα χαρακτηριστικά ry P (5) και m(w 1) σε δύο ηλεκτρόδια στην κεντρική περιοχή του εγκεϕάλου. Από το σχήµα αυτό φαίνεται να υπάρχουν αλλαγές στη συµπεριϕορά και των δύο χαρακτηριστικών και για τα δύο ηλεκτρόδια της ίδιας καταγραϕής, µε το m(w 1 ) να διαχωρίζει καλύτερα την περίοδο E από τις περιόδους I και L. Πίνακας 6.7: Πίνακας µε τα καλύτερα αποτελέσµατα συσταδοποίησης για κάθε χρονική περίοδο και πρόβληµα συσταδοποίησης όπως δίνεται στην πρώτη στήλη. Η καλύτερη τιµή του CRI από όλα τα ηλεκτρόδια της κάθε περίπτωσης δίνεται στην δεύτερη στήλη, και στην τρίτη στήλη δίνεται ο αριθµός του καναλιού και στην παρένθεση ακολουθεί το επιλεγµένο υποσύνολο χαρακτηριστικών. Στην περίπτωση που η καλύτερη τιµή του CRI εντοπίσθηκε σε περισσότερα από ένα ηλεκτρόδια τότε όλα αυτά τα ηλεκτρόδια εµϕανίζονται στην τρίτη στήλη. κατηγορίες CRI ηλεκτρόδιο [χαρακτηριστικά] καταγραϕή Α (E,I) [m(w 1 )], 16[m(w 1 )], 19[m(w 1 )] (E,L) 1.00 πολλά ηλεκτρόδια, χαρακτηριστικά : m(w 1 ), ry P (10), ry P (5), I x (5) (I,L) [m(w 1 ), Cry P ( τ max )] (E,I,L) [m(w 1 ), ry P (10)] καταγραϕή Β (E,I) [m(w 2 ), di y (5)], 20[m(w 2 )] (E,L) 1.00 πολλά ηλεκτρόδια, χαρακτηριστικά :m(w 1 ), m(w 2 ) (I,L) 1.00 πολλά ηλεκτρόδια, χαρακτηριστικά :m(w 1 ), ry P (5) (E,I,L) [m(w 2 )], 20[m(w 2 )] καταγραϕή C (E,I) [r3,m(w 1 ), λ x ] (E,L) [λ x ], 24[ry P (20), IQR(3)] (I,L) [m(w 2 ), λ x,κ] (E,I,L) [m(w 1 ),ry P (10), ry P (20), τ max ] καταγραϕή D (E,I) [dI y (5)], 18[I x (5)] (E,L) [I x (5), IQR(3),Cry P ( τ max )] (I,L) [ry P (10),λ x, CI x ( τ max )], 20[ry P (20), CI x ( τ max ) (E,I,L) [ry P (5), IQR(3),ry P (20),dI y (5), IQR(2)] Μια συνοπτική παρουσίαση των καλύτερων αποτελεσµάτων από την εϕαρµογή του αλγορίθµου FS- SwCRI και την επιλογή του ϐέλτιστου υποσυνόλου χαρακτηριστικών σε κάθε πρόβληµα, παρουσιάζονται στον Πίνακα 6.7. Η ακρίβεια της συσταδοποίησης που επιτεύχθηκε µε ένα ή δύο χαρακτηριστικά, ήταν πολύ υψηλή για όλες τις καταγραϕές και ειδικότερα για τις καταγραϕές Α και Β που προέρχονται από εξω-κρανιακές καταγραϕές µε ανώµαλα σηµεία, ενώ το αντίθετο συνέβη µε την ενδο-κρανιακή καταγραφή D. Υπάρχει µεγάλη διακύµανση στα χαρακτηριστικά που παρατηρούνται στα ϐέλτιστα υποσύνολα χαρακτηριστικών που εµϕανίζουν τις µεγαλύτερες τιµές CRI, και αυτό ισχύει για όλα τα ηλεκτρόδια όπως φαίνεται στην 3 στήλη του Πίνακα 6.7. Το πρόβληµα της διαϕορετικής συµπεριϕοράς των ηλεκτροδίων είναι ένα από τα µεγαλύτερα προβλήµατα που παρουσιάζονται κατά τη µελέτη καταγραϕών EEG επειδή υπάρχουν µεγάλες αλληλεπιδράσεις του ηλεκτρικού πεδίου από τις διαϕορετικές περιοχές του εγκεϕάλου. Στον Πίνακα 6.7 παρατηρούµε ότι υπάρχουν συγκεκριµένα ηλεκτρόδια που µπορούν 102
121 να δώσουν σηµαντική πληροϕορία σχετικά µε το διαχωρισµό των προεπιληπτικών καταστάσεων ενώ άλλα ηλεκτρόδια δεν έχουν τέτοια δυνατότητα. Επίσης παρατηρούµε ότι ενώ ένα ηλεκτρόδιο παρέχει πληροϕορία σε µία καταγραϕή δεν κάνει το ίδιο σε όλες τις καταγραϕές. Για να αποκτήσουµε καλύτερη εικόνα σχετικά µε το ποια είναι τα πιο χρήσιµα χαρακτηριστικά για συσταδοποίηση και κατηγοριοποίηση, παρουσιάζουµε στον Πίνακα 6.8 τις συχνότητες εµϕάνισης των χαρακτηριστικών που υπάρχουν στα επιλεγµένα υποσύνολα χαρακτηριστικών µε σειρά κατάταξης από το πρώτο µέχρι το τέταρτο πιο συχνά εµϕανιζόµενο από όλα τα 412 προβλήµατα. Βλέπουµε ξανά ότι η διάµεσος των τοπικών ελαχίστων και η διάµεσος των τοπικών µεγίστων, τείνουν να συµπεριλαµβάνονται τις περισσότερες φορές ανάµεσα στα χαρακτηριστικά των καλύτερων υποσυνόλων χαρακτηριστικών και να ακολουθούνται από την αυτοσυσχέτιση µε υστέρηση 5. Τα αποτελέσµατα αυτά που προέκυψαν από την εϕαρµογή του αλγορίθµου FSSwCRI έρχονται σε συµϕωνία µε τα αποτελέσµατα των στατιστικών ελέγχων που έγιναν για τα ίδια χαρακτηριστικά στην εργασία των Kugiumtzis et al. (2006). Πίνακας 6.8: Πίνακας µε τις συχνότητες εµϕάνισης των χαρακτηριστικών στα επιλεγµένα υποσύνολα µε πληθικότητα από 1 έως 4. Η συχνότητα ενός υποσυνόλου για δεδοµένη πληθικότητα δίνεται στην δεύτερη στήλη του πίνακα ενώ στην τρίτη στήλη δίνονται τα πιο συχνά χαρακτηριστικά µε την συχνότητά τους στην παρένθεση. υποσύνολο συχνότητα χαρακτηριστικό[συχνότητα] 1 χαρακτηριστικό 207 m(w 1 )[71], m(w 2 )[39], ry P (5)[14], ry P (10)[12], ry P (20)[10], m(w 3 )[9] 2 χαρακτηριστικά 130 m(w 1 )[41], m(w 2 )[29], ry P (5)[29], ry P (10)[18], ry P (20)[19], IQR(3)[12], τ max [11] 3 χαρακτηριστικά 58 m(w 1 )[22], m(w 2 )[24], ry P (5)[13], ry P (10)[7], ry P (20)[9], di y (5)[9], λ x [9] 4 χαρακτηριστικά 16 m(w 1 )[8], m(w 2 )[6], ry P (5)[5], ry P (10)[5], ry P (20)[2], m(w 1 )[4], r3[4] Βιοδείκτες για EEG από 312 χαρακτηριστικά Στην ενότητα αυτή επεκτείναµε την έρευνά µας σε τρεις άξονες α) χρησιµοποιήσαµε καταγραϕές EEG από περισσότερους ασθενείς µε επιληψία, ϐ) υπολογίσαµε στις καταγραϕές αυτές µεγαλύτερο πλήθος χαρακτηριστικών, συγκεκριµένα 312 χαρακτηριστικά, προσπαθώντας να συµπεριλάβουµε όλο το πλήθος των χαρακτηριστικών που χρησιµοποιούνται σε µελέτες EEG και γ) συγκρίναµε τη µέθοδο επιλογής χαρακτηριστικών FSSwCRI µε δύο άλλες µεθόδους, τη µέθοδο των µηχανών διανυσµάτων υποστήριξης µε αναδροµική εξάλειψη χαρακτηριστικών - Support Vector Machines with Recursive Feature Elimination (SVM-RFE), και µε ένα απλό φίλτρο της αµοιβαίας πληροϕορίας - Mutual Information (MI) filter. Με την εκτενέστερη αυτή διερεύνηση των καταγραϕών EEG αναζητούµε ένα µικρό υποσύνολο χαρακτηριστικών που να µπορεί να χρησιµοποιηθεί για οποιαδήποτε περίπτωση ασθενούς µε επιληψία και να διαχωρίσει εύκολα τις προεπιληπτικές περιόδους, µε λίγα λόγια ένα υποσύνολο χαρακτηριστικών που ϑα έχει το ϱόλο βιοδείκτη για τα EEG. Οι τρείς µέθοδοι επιλογής χαρακτηριστικών Οι τρείς µέθοδοι επιλογής χαρακτηριστικών που χρησιµοποιήσαµε στη µελέτη αυτή είναι : Η προς τα εµπρός σειριακή επιλογή χαρακτηριστικών FSSwCRI µε κατώϕλι ϐελτίωσης του CRI ίσο µε 5%. Οι µηχανές διανυσµάτων υποστήριξης µε αναδροµική εξάλειψη χαρακτηριστικών - Support vector machines with recursive feature elimination (SVM-RFE). Ο συνδυασµός των µηχανών διανυσµάτων υποστήριξης (SVM) µε µια µέθοδο επιλογής χαρακτηριστικών, όπως την µέθοδο της 103
122 αναδροµικής εξάλειψης χαρακτηριστικών (RFE), έχει δειχθεί ότι είναι πολύ αποτελεσµατικός στην ανίχνευση ενηµερωτικών και σηµαντικών χαρακτηριστικών (Guyon et al., 2002). Για την υλοποίηση των SVM χρησιµοποιήσαµε την προσέγγιση των soft-margin περιθωρίων που την παρουσιάσαµε στην Ενότητα και περιγράϕεται από τους Cortes and Vapnik (1995). Ο αλγόριθµος RFE εϕαρµόζει µια στρατηγική η οποία είναι κατά κάποιο τρόπο αντίστροϕη της FSSwCRI, όπου σε κάθε επανάληψη της διαδικασίας επιλογής, τα χαρακτηριστικά µειώνονται ακολουθώντας τα πα- ϱακάτω τρία ϐήµατα (Hastie et al., 2001): 1) εκπαίδευση του κατηγοριοποιητή, 2) υπολογισµός του διανύσµατος µε τους δείκτες ϐαρών χαρακτηριστικών που προέκυψαν από την εϕαρµογή των (SVM) και αϕορούν την ταξινόµηση όλων των χαρακτηριστικών, 3) απόρριψη των χαρακτηριστικών µε τις χαµηλότερες τιµές του δείκτη αυτού. Στον αλγόριθµο SVM-RFE, ο κατηγοριοποιητής του πρώτου ϐήµατος είναι οι µηχανές SVM, και το κριτήριο ταξινόµησης στη διαδικασία RFE είναι το διάνυσµα µε τα ϐάρη των χαρακτηριστικών, που καθορίζεται από τα διανύσµατα υποστήριξης των SVM. Ενα απλό φίλτρο επιλογής χαρακτηριστικών που ϐασίζεται στην αµοιβαία πληροϕορίας (ΜΙ). Στη συγκεκριµένη µελέτη χρησιµοποιήσαµε το απλούστερο φίλτρο της ΜΙ, όπου τα επιλεγµένα χαρακτηριστικά είναι αυτά που δίνουν τις µεγαλύτερες τιµές I(C; f i ), χωρίς να κοιτάµε τις συσχετίσεις µεταξύ των χαρακτηριστικών, αλλά τις συσχετίσεις του κάθε χαρακτηριστικού µόνο µε τις κλάσεις. Οι µέθοδοι SVM-RFE και ΜΙ, δέχονται µια παράµετρο που ορίζει το πλήθος των χαρακτηριστικών που ϑα συµπεριλάβουν στο υποσύνολο των ϐέλτιστων χαρακτηριστικών που ϑα επιλέξουν. Η παράµετρος αυτή τέθηκε ίση µε 5. Αντίθετα στον αλγόριθµο FSSwCRI, το πλήθος των χαρακτηριστικών που ϑα επιλεγούν τελικά, καθορίζεται από το κριτήριο τερµατισµού του αλγορίθµου. Σε κάθε περίπτωση το υποσύνολο των καλύτερων χαρακτηριστικών, προέρχεται από την εϕαρµογή της κάθε µιας από τις τρείς µεθόδους για κάθε πρόβληµα κατηγοριοποίησης που έχουµε δηµιουργήσει στο σύνολο δεδοµένων εκπαίδευσης, και σχηµατίζουµε γενικότερα υποσύνολα χαρακτηριστικών που προκύπτουν µέσα από αυτά. Περισσότερες καταγραϕές EEG από ασθενείς µε επιληψία Χρησιµοποιήσαµε δεδοµένα από 12 εξω-κρανιακές καταγραϕές EEG προεπιληπτικών καταστάσεων, από (12) διαϕορετικούς ασθενείς. Ολες οι καταγραϕές ελήϕθησαν µε δειγµατοληψία στα 100Hz, οι 8 καταγραϕές από 25 ηλεκτρόδια µε το σύστηµα 10-20, και οι υπόλοιπες 4 καταγραϕές από 63 ηλεκτρόδια µε το σύστηµα Απορρίψαµε τα ηλεκτρόδια του µπροστινού λοβού του εγκεϕάλου (6 ηλεκτρόδια για το σύστηµα και 10 για το σύστηµα 10 10) διότι η πληροϕορία που έδιναν τα ηλεκτρόδια αυτά ήταν αρκετά επιϕορτωµένη µε παράσιτα. Θεωρώντας το κάθε κανάλι (ηλεκτρόδιο) και ασθενή, δηµιουργήσαµε τελικά 360 προβλήµατα κατηγοριοποίησης αϕού απορρίψαµε άλλα 4 ηλεκτρόδια για τεχνικούς λόγους που προκύπτουν ως εξής : 8 19 = 152 προβλήµατα από τους 8 ασθενείς για τα 19 ηλεκτρόδια, 4 53 = 212 προβλήµατα από τους υπόλοιπους 4 ασθενείς, = 360 συνολικά προβλήµατα. Για τα δύο σύνολα δεδοµένων εκπαίδευσης που µελετήσαµε ορίσαµε τελικά = 720 προβλήµατα και για το σύνολο δεδοµένων ελέγχου ορίσαµε άλλα 360 αντίστοιχα προβλήµατα. Για κάθε ένα από τα προβλήµατα κατηγοριοποίησης ορίζουµε δύο κλάσεις : την περίοδο λίγο πριν την κρίση που ϑα την καλούµε L, η οποία αναϕέρεται στα τελευταία 30 λεπτά πριν την έναρξη της κρίσης, και την περίοδο πολύ πριν την κρίση, την οποία ϑα ονοµάζουµε Ε, και αναϕέρεται σε 2 µε 5 ώρες πριν την έναρξη της κρίσης. Στην ενότητα αυτή αλλάξαµε την χρονική διάρκεια των περιόδων αυτών συγκριτικά µε τους αντίστοιχους διαχωρισµούς στις προηγούµενες ενότητες και εξαλείψαµε την ενδιάµεση (Ι) περίοδο, απλοποιώντας έτσι το πλήθος των προεπιληπτικών περιόδων. Εχουµε σχηµατίσει 2 σύνολα δεδοµένων εκπαίδευσης και ένα σύνολο δεδοµένων ελέγχου για τις περιόδους L και Ε τα οποία τα περιγράϕουµε παρακάτω. Παρουσιάζουµε και ένα παράδειγµα στο Σχήµα 6.4 για τα σύνολα δεδοµένων εκπαίδευσης και ελέγχου από το προϕίλ του χαρακτηριστικού µέτρου της πολυπλοκότητας Hjorth που υπολογίσθηκε σε κυλιόµενα παράθυρά δεδοµένων διάρκειας 104
123 30 δευτερολέπτων, στην καταγραϕή EEG που αϕορά το κανάλι Τ7 (ϐρίσκεται στην αριστερή κροταϕική περιοχή του εγκεϕάλου) του τετάρτου επεισοδίου των καταγραϕών EEG E1 Et E2 L1 Lt L Σχήµα 6.4: Το προϕίλ του µέτρου πολυπλοκότητας Hjorth (HjC y ) που υπολογίσθηκε για το κανάλι Τ7 του τέταρτου επεισοδίου των καταγραϕών EEG. Οι περιοχές µε ανοιχτό γκρι (κίτρινο στην έγχρωµη έκδοση), δείχνουν τα δύο σύνολα δεδοµένων εκπαίδευσης, και οι περιοχές µε σκούρο γκρι (κόκκινο έγχρωµα) δείχνουν το σύνολο δεδοµένων ελέγχου, όπως υποδεικνύεται και από τα κωδικοποιηµένα ονόµατά τους σε κάθε περιοχή. (α) Σύνολα δεδοµένων εκπαίδευσης Ε1-L1 και Ε2-L1. Κάθε ένα από τα δύο σύνολα δεδοµένων εκπαίδευσης αποτελείται από 100 τµήµατα EEG διάρκειας 30 δευτερολέπτων το καθένα, όπου τα 50 τµήµατα προέρχονται από την περιοχή L κατά τις χρονικές στιγµές [-37 λεπτά, -25 λεπτά] και [-12 λεπτά, 0 λεπτά] πριν από την κρίση, και τα υπόλοιπα 50 τµήµατα από την περιοχή Ε όπου επιλέξαµε δύο διαστήµατα που ξεκινούν στις χρονικές στιγµές 195 λεπτά και 145 λεπτά πριν από την έναρξη της κρίσης, όπως φαίνεται και στο Σχήµα 6.4. Για το σύνολο δεδοµένων εκπαίδευσης έχουµε συνολικά 720 προβλήµατα κατηγοριοποίησης, 360 συνολικά προβλήµατα για τις καταστάσεις Ε1-L1 και άλλα 360 προβλήµατα κατηγοριοποίησης για τις καταστάσεις Ε2-L1. (ϐ) Σύνολο δεδοµένων ελέγχου Et-Lt. Το σύνολο δεδοµένων ελέγχου αποτελείται από 50 τµήµατα EEG διάρκειας 30 δευτερολέπτων το καθένα, όπου τα 25 από αυτά προέρχονται από την προεπιληπτική περίοδο L και τα υπόλοιπα 25 τµήµατα από την περίοδο Ε, και συµβολίζονται ως Lt και Et αντίστοιχα. Το διάστηµα Et ϐρίσκεται µεταξύ των Ε1 και Ε2 και το Lt ϐρίσκεται ανάµεσα στα δύο τµήµατα του L1 χωρίς όµως να τα επικαλύπτει, όπως φαίνεται και στο Σχήµα 6.4. Με τον τρόπο αυτό προσπαθήσαµε έτσι ώστε τα σύνολα δεδοµένων εκπαίδευσης και ελέγχου, να αναϕέρονται στην ίδια προεπιληπτική περίοδο. Επιπλέον, η χρήση δυο προβληµάτων κατηγοριοποίησης, µε την αλλαγή του διαστήµατος της κλάσης Ε, έχει ως σκοπό την εξέταση πιθανών αλλαγών µέσα στην περίοδο πολύ πριν την κρίση. Για το σύνολο δεδοµένων ελέγχου έχουµε άλλα 360 προβλήµατα κατηγοριοποίησης. Πρώτα υπολογίσαµε τα 312 χαρακτηριστικά, που χρησιµοποιήσαµε και για τη µελέτη των προσοµοιώσεων της Ενότητας 5.1.2, σε κάθε ένα τµήµα των σηµάτων EEG. Στη συνέχεια οι αλγόριθµοι επιλογής χαρακτηριστικών εϕαρµόσθηκαν ώστε να επιλεγούν τα ϐέλτιστα υποσύνολα χαρακτηριστικών για κάθε πρόβληµα κατηγοριοποίησης του συνόλου δεδοµένων εκπαίδευσης, δηλαδή στα προβλήµατα E1-L1 και E2-L1 που σχηµατίστηκαν για κάθε ηλεκτρόδιο και επεισόδιο. Το σύνολο δεδοµένων ελέγχου, χρησιµοποιήθηκε στην συνέχεια για την αξιολόγηση των επιλεγµένων υποσυνόλων µε χαρακτηριστικά. 105
124 Αξιολόγηση των συστάδων EEG Ο καθορισµός των πραγµατικών κλάσεων στην κατηγοριοποίηση πραγµατικών δεδοµένων EEG είναι ακόµη µεγαλύτερο πρόβληµα απ ότι στις προσοµοιώσεις που µελετήσαµε. Το πρόβληµα αυτό το συζητήσαµε στην Ενότητα όπου παρουσιάστηκαν τεχνικές για τον καθορισµό των κλάσεων. Χρησιµοποιούµε και εδώ τις τεχνικές αυτές ώστε να αποϕασίσουµε για τις πραγµατικές κλάσεις των προ- ϐληµάτων µας. Στη συνέχεια εϕαρµόζονται οι τρείς αλγόριθµοι επιλογής χαρακτηριστικών στα σύνολα δεδοµένων εκπαίδευσης και στη συνέχεια γίνεται αποτίµησή τους στα σύνολα δεδοµένων ελέγχου. Κατά τη διαδικασία διαχωρισµού των προεπιληπτικών καταστάσεων, ερχόµαστε αντιµέτωποι µε το πρόβληµα ότι δεν γνωρίζουµε εκ των προτέρων τις χαρακτηριστικές καταστάσεις που σχετίζονται µε την αλλαγή ενός υποκείµενου µηχανισµού, τις οποίες και ονοµάζουµε ως εξής : προεπιληπτική κατάσταση πολύ πριν την έναρξη της κρίσης που αντιστοιχεί στην κανονική δραστηριότητα του εγκεϕάλου (interictal), προεπιληπτική κατάσταση πολύ πριν την κρίση άλλα αϕού έχει ξεκινήσει η διαδικασία που οδηγεί στην κρίση (early preictal), και προεπιληπτική κατάσταση λίγο πριν την κρίση που αντιστοιχεί στην τελευταία περίοδο µέχρι να ξεκινήσει η κρίση (late preictal). Στη µελέτη αυτή περιορίσαµε την έρευνά µας στις περιόδους πολύ πριν (early preictal) και λίγο πριν την κρίση (late preictal), κάτω από την υπόθεση ότι καλύπτουν µια χρονική περίοδο µέχρι 5 ώρες πριν την κρίση, η οποία είναι µια λογική παραδοχή εργασίας σύµϕωνα µε µελέτες πάνω στην πρόβλεψη της επιληψίας (Schelter et al., 2007). Η συνολική προεπιληπτική περίοδος πιθανόν να ποικίλει από ασθενή σε ασθενή και είναι ανάλογη µε τον τύπο της επιληπτικής κρίσης. Το ίδιο ισχύει και για την εξέλιξη της προεπιληπτικής διαδικασίας που καθορίζει τις περιόδους πολύ πριν, και λίγο πριν την κρίση. Ετσι έχουµε πρώτα να ανακαλύψουµε εάν οι προκαθορισµένες περίοδοι πολύ πριν και λίγο πριν την κρίση (E1-L1 και E2-L1) στο συνεχές σύνολο των δεδοµένων EEG, ϐρίσκονται όντως σε συµϕωνία µε τις κλάσεις που ϐρέθηκαν από την εϕαρµογή της συσταδοποίησης ϐάσει χαρακτηριστικών, χρησιµοποιώντας όλα τα διαθέσιµα χαρακτηριστικά. Εκτιµήσαµε την ικανότητα του συνόλου των χαρακτηριστικών στο να εντοπίζει τις αληθείς κλάσεις, εϕαρµόζοντας συσταδοποίηση σε πλήθος διαϕορετικών κλάσεων όπως κάναµε αντίστοιχα και στα δεδοµένα προσοµοιώσεων. Το αποτέλεσµα ενός αλγορίθµου ταξινόµησης ή συσταδοποίησης εξαρτάται από τα χαρακτηριστικά, που καθορίζουν τη διάσταση του χώρου καταστάσεων, τη γεωµετρία και την κατανοµή των σηµείων, καθώς και τις τιµές των παραµέτρων εισόδου, που συµπεριλαµβάνουν συχνά τον αριθµό των κλάσεων ως µία από αυτές. Τα ϐασικά κριτήρια για την αξιολόγηση της συσταδοποίησης και για την επιλογή του πιο κατάλληλου σχήµατος συσταδοποίησης είναι το συµπαγές των συστάδων καθώς και ο εύκολος διαχωρισµός τους (Berry and Linoff, 1997). Μία συστάδα είναι συµπαγής όταν όλα τα σηµεία της είναι όσο το δυνατόν πιο κοντά µεταξύ τους ενώ ο διαχωρισµός σηµαίνει ότι οι συστάδες έχουν µεγάλη απόσταση µεταξύ τους. Για να αποϕασίσουµε τελικά πόσες ϑα είναι οι συστάδες που ϑα χρησιµοποιήσουµε και να διαπιστώσουµε το πόσο συµπαγείς και διαχωρίσιµες είναι ώστε να προχωρήσουµε στην επιλογή των ϐέλτιστων χαρακτηριστικών, εϕαρµόσαµε δύο µεθόδους αξιολόγησης, που χρησιµοποιούν και ελέγχουν τα παραπάνω κριτήρια. Οι µέθοδοι αυτοί είναι οι δείκτες του Dunn που τον συµβολίζουµε µε D(U c ) και των Davies-Bouldin που τον συµβολίζουµε µε DB(U c ). Οι δύο αυτοί δείκτες υπολογίστηκαν για τα δεδοµένα EEG, χρησιµοποιώντας τον αλγόριθµο k-means για πλήθος κλάσεων c = 2,..., 10, ώστε να εντοπιστεί ο ϐέλτιστος αριθµός των συστάδων στην περίπτωση που ο δείκτης D(U c ) πάρει την µέγιστη τιµή και ο δείκτης DB(U c ) πάρει την ελάχιστη τιµή. ιαδικασία εύρεσης και αξιολόγηση των ϐέλτιστων υποσυνόλων χαρακτηριστικών Στα δεδοµένα προσοµοιώσεων, επικεντρωθήκαµε µόνο στον αλγόριθµο FSSwCRI για την επιλογή των χαρακτηριστικών, ο οποίος δίνει µικρά υποσύνολα χαρακτηριστικών (που συχνά περιέχουν µόνο ένα χαρακτηριστικό) και υψηλή ακρίβεια στην κατηγοριοποίηση των δεδοµένων µε κατηγοριοποιητή τον 106
125 k-means. Στα δεδοµένα µε τα EEG όµως, συγκρίναµε τον αλγόριθµο FSSwCRI µε τους SVM-RFE και MI και εκτός από τον k-means χρησιµοποιούµε ως κατηγοριοποιητή και τα SVM µε γραµµικό πυρήνα. Σε κάθε περίπτωση το υποσύνολο των καλύτερων χαρακτηριστικών, προέρχεται από την εϕαρµογή της κάθε µιας από τις τρείς µεθόδους επιλογής χαρακτηριστικών για κάθε πρόβληµα κατηγοριοποίησης που έχουµε δηµιουργήσει στο σύνολο δεδοµένων εκπαίδευσης, και σχηµατίζουµε γενικότερα υποσύνολα χαρακτηριστικών που προκύπτουν µέσα από αυτά. Στο Σχήµα 6.5 παρουσιάζουµε το διαγράµµα ϱοής της διαδικασίας επιλογής και αξιολόγησης των χαρακτηριστικών για τα δεδοµένα EEG, την οποία και επεξηγούµε παρακάτω. Σχήµα 6.5: ιάγραµµα ϱοής της διαδικασίας επιλογής χαρακτηριστικών στο σύνολο δεδοµένων εκπαίδευσης, και η διαδικασία αξιολόγησής τους στο σύνολο δεδοµένων ελέγχου των EEG. Για τα δεδοµένα προσοµοιώσεων, είχαµε µια δοµή από προβλήµατα κατηγοριοποίησης ενός επιπέδου για τις 1100 περιπτώσεις (όπου οι 1000 αποτελούν το σύνολο δεδοµένων εκπαίδευσης και οι 100 το σύνολο δεδοµένων ελέγχου). Στα δεδοµένα των EEG όµως, έχουµε δύο επίπεδα κατηγοριοποίησης, ένα ώς προς τα 12 επεισόδια διαϕορετικών ασθενών, και ένα ως προς τα ηλεκτρόδια του κάθε επεισοδίου. Το ενδιαϕέρον που υπάρχει στην περίπτωση των EEG, είναι στο να ϐρεθεί ένα ϐέλτιστο υποσύνολο χαρακτηριστικών για κάθε ηλεκτρόδιο, ένα για κάθε επεισόδιο, και ένα γενικότερα ϐέλτιστο υποσύνολο χαρακτηριστικών που ϑα είναι το ίδιο για οποιοδήποτε ηλεκτρόδιο ή επεισόδιο. Για τον λόγο αυτό ο συµ- ϐολισµός που ϑα χρησιµοποιηθεί εδώ και ϑα αναϕέρεται στα υποσύνολα χαρακτηριστικών, καθώς και 107
126 Πίνακας 6.9: Επεξήγηση των συµβόλων που εµϕανίζονται στα διαγράµµατα ϱοής στο Σχήµα 6.5 για τα δεδοµένα των EEG. Υποσύνολα Περιγραϕή Σϕάλµα Περιγραϕή F a,si train,j Το υποσύνολο που ϐρέθηκε από τον αλγόριθµο a για το επεισόδιο Si το κανάλι εκπαίδευσης j (για τα δεδοµένα εκπαίδευσης E1-L1 και E2-L1) εδοµένα EEG E a,si test,j Οι τιµές των CRI ή των ER που υπολογίσθηκαν για κάθε F a,si train,j στο κανάλι ελέγχου j του επεισοδίου Si F a,si train,b Το υποσύνολο από τα 4 χαρακτηριστικά που ϐρέθηκαν τις πιο πολλές φο- ϱές µέσα στα υποσύνολα χαρακτηριστικών F a,si train,j για όλα τα ηλεκτρόδια j του κάθε επεισοδίου Si E a,si test,bj Οι τιµές των CRI ή των ER που υπολογίσθηκαν για κάθε F a,si train,b στο κανάλι ελέγχου j του επεισοδίου Si F a train,b Το υποσύνολο από τα z χαρακτηριστικά (z=8 ή 16) που ϐρέθηκαν τις πιο πολλές φορές µέσα στα υποσύνολα F a,si train,j για όλα τα ηλεκτρόδια j και όλα τα επεισόδια Si E a test,bj,i Οι τιµές των CRI ή των ER που υπολογίσθηκαν για κάθε Ftrain,b a στο κανάλι ελέγχου j του επεισοδίου Si F a,si test,gj Το υποσύνολο που ϐρέθηκε από τον αλγόριθµο a (8 χαρακτηριστικά για τους SVM-RFE και ΜΙ) στο κανάλι ε- λέγχου j του επεισοδίου Si E a test,gj,i Οι τιµές των CRI ή των ER που υπολογίσθηκαν για F a,si test,gj πάνω στο ίδιο κανάλι ελέγχου j του επεισοδίου Si στην ακρίβεια της συσταδοποίησης, είναι διαϕορετικός από αυτόν για τα δεδοµένα των προσοµοιώσεων, και περιγράϕεται αναλυτικότερα στον Πίνακα 6.9. Η ακρίβεια της κατηγοριοποίησης στο σύνολο δεδοµένων ελέγχου, µετρήθηκε µε το δείκτη CRI καθώς και µε τον δείκτη ER. Η αξιολόγηση των χαρακτηριστικών που γίνεται για τα δεδοµένα των EEG είναι λίγο διαϕορετική από την αντίστοιχη περίπτωση των προσοµοιώσεων, και συµπεριλαµβάνει σύνθετες περιπτώσεις κατηγοριοποίησης µεταξύ α) των επεισοδίων και των ηλεκτροδίων που ελήϕθησαν τα δεδοµένα ϐ) των τριών αλγορίθµων επιλογής χαρακτηριστικών και γ) των δύο κατηγοριοποιητών (k-means και SVM). Η όλη αυτή διαδικασία παρουσιάζεται επίσης µε την µορϕή διαγράµµατος ϱοής στο Σχήµα 6.5. Για καθέναν από τους τρεις αλγορίθµους σχηµατίσαµε υποσύνολα χαρακτηριστικών τεσσάρων διαϕορετικών τύπων που τα απαριθµούµε στον Πίνακα 6.9. Αρχικά παράγεται ένα υποσύνολο F a,si train,j µε χαρακτηριστικά που επιλέχθηκαν για κάθε ηλεκτρόδιο j από κάθε επεισόδιο Si για κάθε µια από τις δύο περιπτώσεις δεδοµένων εκπαίδευσης E1-L1 και E2-L1. Με το γράµµα a συµβολίζουµε καθέναν από τους τρεις αλγορίθµους επιλογής χαρακτηριστικών. Για κάθε επεισόδιο Si, σχηµατίζουµε υποοµάδες F a,si train,b µε τα 4 πιο συχνά εµϕανιζόµενα χαρακτηριστικά µέσα από όλα τα M i υποσύνολα χαρακτηριστικών που πήραµε από όλα τα ηλεκτρόδια. Το πλήθος M i µπορεί να είναι 19 ή 53 ανάλογα µε το πλήθος των ηλεκτροδίων του συστήµατος καταγραϕών EEG. Στη συνέχεια δηµιουργούµε δύο σύνολα µε χαρακτηριστικά που τα συµβολίζουµε ως F a train,b, τα οποία αποτελούνται από τα 8 και τα 16 αντίστοιχα πιο συχνά εµϕανιζόµενα χαρακτηριστικά µέσα απ όλα τα ηλεκτρόδια και όλα τα επεισόδια του συνόλου δεδοµένων εκπαίδευσης για κάθε αλγόριθµο a. 108
127 Με τον τρόπο αυτό ϑέλουµε να αξιολογήσουµε τα χαρακτηριστικά που επιλέχθηκαν ως καλύτερα από τους διαϕορετικούς αλγορίθµους χαρακτηριστικών, όταν εστίασαν στο κάθε ηλεκτρόδιο και επεισόδιο, µόνο σε κάθε επεισόδιο, ή στο σύνολο των 12 επιληπτικών επεισοδίων. Αξιολογούµε όλα αυτά τα χαρακτηριστικά στο σύνολο δεδοµένων ελέγχου, το οποίο περιέχει προβλήµατα κατηγοριοποίησης που ϐρίσκονται σε πλήρη αναλογία µε αυτά που υπάρχουν στο σύνολο δεδοµένων εκπαίδευσης και αναϕέρονται στα ίδια ηλεκτρόδια και επεισόδια. Με τον τρόπο αυτό υπολογίζουµε το σϕάλµα κατηγοριοποίησης για όλα τα προαναϕερθέντα υποσύνολα χαρακτηριστικών, µε τους δείκτες CRI και ER, χρησιµοποιώντας τους κατηγοριοποιητές k-means και SVM, για κάθε ηλεκτρόδιο j και επεισόδιο Si. Ετσι ο συµβολισµός E a,si a,si test,j δηλώνει τον δείκτη σϕάλµατος για το υποσύνολο Ftrain,j του ίδιου καναλιού και επεισοδίου µε το σύνολο εκπαίδευσης, ο συµβολισµός E a,si a,si test,bj για το Ftrain,b για το ίδιο επεισόδιο Si, και ο συµβολισµός Etest,bj a a για το γενικό υποσύνολο χαρακτηριστικών Ftrain,b. Με τον τρόπο αυτό ϑέλουµε να εκτιµήσουµε εάν το γενικό υποσύνολο χαρακτηριστικών ή ακόµη και το υποσύνολο χαρακτηριστικών που εξειδικεύεται σε κάθε επεισόδιο, µπορεί να αποδώσει το ίδιο καλά µε το ϐέλτιστο υποσύνολο χαρακτηριστικών που επιλέχθηκε για ένα συγκεκριµένο ηλεκτρόδιο ενός επεισοδίου. Επιπλέον, για κάθε αλγόριθµο επιλογής χαρακτηριστικών, γίνεται σύγκριση των σϕαλµάτων κατηγοριοποίησης µεταξύ των τριών τύπων υποσυνόλων χαρακτηριστικών, και του δείκτη σϕάλµατος κατηγοριοποίησης Etest,gj a που συµβολίζει το χρυσό σηµείο αναϕοράς (gold standard), το οποίο προέρχεται από το υποσύνολο χαρακτηριστικών F a,si test,gj που επιλέχθηκε από την εϕαρµογή του κάθε ενός από τους τρείς αλγορίθµους επιλογής χαρακτηριστικών, πάνω στο σύνολο δεδοµένων ελέγχου. Ενας πολύτιµος ϐιοδείκτης (biomarker) για τον διαχωρισµό των προεπιληπτικών περιόδων πολύ πριν και λίγο πριν από την επιληπτική κρίση, µπορεί να ϑεωρηθεί εκείνο το υποσύνολο χαρακτηριστικών που ϑα δώσει τις υψηλότερες τιµές του CRI και κοντά την µονάδα (ή αντίστοιχα τις χαµηλότερες τιµές ER και κοντά στο µηδέν). Ο ϐιοδείκτης αυτός ϑα προκύψει µετά από τον παρακάτω τριπλό έλεγχο της τιµής του CRI: α) σε κάθε ηλεκτρόδιο και επεισόδιο του συνόλου δεδοµένων ελέγχου ϐ) σε κάθε τύπο υποσυνόλου χαρακτηριστικών και γ) σε κάθε αλγόριθµο επιλογής χαρακτηριστικών. Η διαδικασία που περιγράϕεται στο Σχήµα 6.5 εϕαρµόσθηκε στα δεδοµένα EEG. Αρχικά προσδιο- ϱίσαµε τα υποσύνολα χαρακτηριστικών που διαχωρίζουν καλύτερα τις περιόδους (δύο κλάσεις) L και Ε για κάθε µια από τις 720 περιπτώσεις κατηγοριοποίησης του συνόλου δεδοµένων εκπαίδευσης (360 από E1-L1 και 360 από E2-L1). Στην συνέχεια αξιολογήσαµε την ακρίβεια της κατηγοριοποίησης στις 360 περιπτώσεις κατηγοριοποίησης του συνόλου δεδοµένων ελέγχου Et-Lt, χρησιµοποιώντας τα επιλεγµένα υποσύνολα των χαρακτηριστικών, όπως και τα υποσύνολα που προέκυψαν από την σύνθεση των πιο συχνά επιλεγµένων χαρακτηριστικών του συνόλου δεδοµένων εκπαίδευσης. Αποτελέσµατα καθορισµού των κλάσεων σε EEG Πριν προχωρήσουµε σε ενέργειες επιλογής χαρακτηριστικών, υπολογίσαµε τους δείκτες D και DB χρησιµοποιώντας και τα 312 χαρακτηριστικά για πλήθος κλάσεων από c = 2,..., 10 µε το ίδιο τρόπο που εϕαρµόσαµε και στις προσοµοιώσεις της Ενότητας Οπως φαίνεται στον Πίνακα 6.10, ο δείκτης D προτείνει ότι οι δύο κλάσεις είναι ο καλύτερος διαχωρισµός για τις 648 από τις 720 περιπτώσεις, και ο δείκτης DB ότι αυτό ισχύει µόνο για τις 272 περιπτώσεις, που είναι περισσότερο από το διπλάσιο που ισχύει για τις υπόλοιπες κλάσεις. Τα αποτελέσµατα αυτά είναι σε συµϕωνία µε την πειραµατική διαµόρϕωση της κατάστασης των οµάδων από τα τµήµατα των EEG που ελήϕθησαν από τις προεπιληπτικές περιόδους νωρίς (Ε) και αργά (L) σχετικά µε την κρίση. Αποτελέσµατα επιλογής χαρακτηριστικών Για να επιλέξουµε τα καλύτερα χαρακτηριστικά από την οµάδα των 312 χαρακτηριστικών που υπολογίσθηκαν στις καταγραϕές EEG, εϕαρµόσαµε τρείς αλγορίθµους, τον FSSwCRI, τον SVM-RFE και 109
128 Πίνακας 6.10: Επιβεβαίωση των κλάσεων µε χρήση των δεικτών Dunn (D) και Davies-Buldin (DB), εϕαρµόζοντας τον αλγόριθµο k-means στα δεδοµένα EEG του συνόλου δεδοµένων εκπαίδευσης, για k = 2,..., 10 κλάσεις. συχνότητα υπόδειξης της κλάση k δείκτης D DB τον ΜΙ για τις 720 εργασίες κατηγοριοποίησης του συνόλου δεδοµένων εκπαίδευσης, και συµβολίζουµε οποιονδήποτε από τους τρεις αυτούς αλγορίθµους µε το γράµµα a. Επισηµαίνουµε ότι οι αλγόριθµοι SVM-RFE και ΜΙ επιστρέϕουν πάντα υποσύνολα χαρακτηριστικών µε προκαθορισµένο µέγεθος, που στην περίπτωσή µας το ϑέσαµε ίσο µε 5. Αντίθετα ο FSSwCRI επιστρέϕει στην έξοδό του υποσύνολα χα- ϱακτηριστικών διαϕορετικού µεγέθους, και µάλιστα τις περισσότερες φορές µικρότερου µεγέθους όπως έδειξαν οι υπολογισµοί µας. Τα υποσύνολα χαρακτηριστικών F a,si train,j που επιλέχθηκαν από καθέναν από τους τρείς αλγορίθµους, διαϕέρουν στις περισσότερες από τις 720 περιπτώσεις του συνόλου δεδοµένων εκπαίδευσης για κάθε επεισόδιο i και κανάλι εκπαίδευσης j. Σε αντίθεση µε την µελέτη που έγινε µε τις προσοµοιώσεις, δεν περιµένουµε εδώ οµοιογένεια στα αποτελέσµατα µεταξύ των καναλιών και των επεισοδίων, αϕού ο µηχανισµός που παράγει τα σήµατα EEG περιµένουµε να διαϕέρει και ως προς τα ηλεκτρόδια στο ίδιο επεισόδιο αλλά και ως προς τα επεισόδια. Βγαίνει λοιπόν το συµπέρασµα ότι η διαµόρϕωση ενός υποσυνόλου F a,si train,b για κάθε επεισόδιο µε τα 4 πιο συχνά χαρακτηριστικά στα F a,si train,j (για κάθε ηλεκτρόδιο), ποικίλει µεταξύ των επεισοδίων, γεγονός που υποδεικνύει την έλλειψη οµοιογένειας µεταξύ των επιληπτικών επεισοδίων. Στην συνέχεια, ταξινοµήσαµε τα χαρακτηριστικά ανάλογα µε την συχνότητα που εµϕανίζονται µέσα στα υποσύνολα χα- ϱακτηριστικών από τις 720 εργασίες κατηγοριοποίησης, και τα 16 συχνότερα από αυτά παρουσιάζονται στο Πίνακα Παρατηρούµε ότι οι συχνότητες των χαρακτηριστικών του FSSwCRI είναι µικρότερες επειδή τις περισσότερες φορές επιλέγει υποσύνολα χαρακτηριστικών µε µέγεθος µικρότερο του 5. Η ΜΙ έχει την τάση να επιλέγει τα ίδια χαρακτηριστικά µέσα στο υποσύνολο των 5 χαρακτηριστικών. Η συχνότητα εµϕάνισης των 6 πρώτων χαρακτηριστικών από την ταξινόµηση που έγινε για την ΜΙ, είναι µεγαλύτερη από την αντίστοιχη συχνότητα οποιουδήποτε χαρακτηριστικού που ϐρέθηκε από τον SVM- RFE. Σηµειώνουµε ότι αυτά τα 6 χαρακτηριστικά είναι η διαµέσος m(w) και το ενδοτεταρτηµοριακό εύρος τιµών (IQR(w)) που ανήκουν στα χαρακτηριστικά ταλαντώσεων, και µόνο ένα από αυτά ϐρέθηκε από τον FSSwCRI και από τον SVM-RFE, ανάµεσα στα 16 πιο συχνά χαρακτηριστικά. Τα 6 αυτά χαρακτηριστικά παίρνουν διακριτές τιµές µικρού εύρους, και πιθανόν έτσι να είναι πιο κατάλληλα κατά την κατηγοριοποίηση όταν η εκτίµηση της ΜΙ γίνεται µε διακριτικοποίηση (binning). Οι τρείς αλγόριθµοι έχουν 6 από τα 16 πιο συχνά επιλεγµένα χαρακτηριστικά κοινά, ο FSSwCRI και ο SVM-RFE έχουν 11 κοινά χαρακτηριστικά, ο SVM-RFE και ο ΜΙ έχουν 9 κοινά χαρακτηριστικά και ο FSSwCRI µε τον ΜΙ έχουν 7 κοινά χαρακτηριστικά. Βασιζόµενοι σε αυτή την παρατήρηση σχηµατίσαµε δυο γενικά υποσύνολα χαρακτηριστικών για κάθε ένα αλγόριθµο που τα συµβολίζουµε ως Ftrain,b a τα οποία αποτελούνται από τα 8 και τα 16 πιο συχνά επιλεγµένα χαρακτηριστικά από όλες τις περιπτώσεις επεισοδίων και καναλιών όπως παρουσιάζονται στον Πίνακα Παρακάτω εκτιµούµε την ακρίβεια κατηγοριοποίησης µε τα υποσύνολα χαρακτηριστικών, δίνοντας όµως έµϕαση στα τρία επίπεδα των υποσυνόλων αυτών που προσαρµόσαµε για τα δεδοµένα των EEG: α) τα γενικά υποσύνολα χαρακτηριστικών (global feature subsets) Ftrain,b a µε 8 και 16 χαρακτηρι- 110
129 Πίνακας 6.11: Τα 16 καθολικά ϐέλτιστα υποσύνολα χαρακτηριστικών µαζί µε τις τιµές των συχνοτήτων εµϕάνισής τους στα 720 προβλήµατα επιλογής χαρακτηριστικών, που επιλέχθηκαν από την εϕαρµογή των αλγορίθµων FSSwCRI, SVM-RFE και ΜΙ, στο σύνολο δεδοµένων εκπαίδευσης. FSSwCRI (συχνότητα όνοµα) SVM-RFE (συχνότητα όνοµα) ΜΙ (συχνότητα όνοµα) 79 BaS y 105 P ee y (m=5) 468 m(w 4 ) 60 P ee y (m=5) 104 BaS y 335 m(w 3 ) 40 λ y (m=5,k=40,τ=10) 92 P ee y (m=6) 289 IQR(w 3 ) 38 dar y (m 1 =5,m 2 =10,τ=1) 92 P ee y (m=7) 238 IQR(w 6 ) 34 m(w 1 ) 79 m(w 5 ) 226 m(w 6 ) 30 m(w 5 ) 70 λ y (m=5,k=40,τ=10) 184 IQR(w 4 ) 30 P ee y (m=7) 63 dar y (m 1 =5,m 2 =10,τ=1) 103 RQA 6 (m=5) 30 HigD y (m=5) 60 m(w 1 ) 100 P ee y (m=5) 26 HigD y (m=10) 54 E y (4) 92 P ee y (m=7) 25 dlocar y (m=10,k=20) 50 HigD y (m=10) 86 P ee y (m=6) 25 E y (θ) 50 m(w 6 ) 56 m(w 5 ) 25 ry K (τ=5) 47 m(w 2) 55 HigD y (m=5) 24 dlocar y (K=20,m=5,τ=10) 46 HigD y (m=5) 51 RQA 10 (m=5) 24 HjC y 45 m(w 4 ) 48 IQR(w 5 ) 23 E y (α) 44 HjC y 47 HigD y (m=10) 23 m(w 3 ) 42 E y (γ) 41 E y (γ) στικά, ϐ) τα υποσύνολα χαρακτηριστικών που προσαρµόσαµε για κάθε επιληπτικό επεισόδιο F a,si train,b για i = 1,..., 12 επεισόδια, και γ) τα υποσύνολα χαρακτηριστικών που είναι προσαρµοσµένο για κάθε ηλεκτρόδιο και επεισόδιο F a,si train,j για i = 1,..., 12 επεισόδια και j = 1,..., M i ηλεκτρόδια. Αξιολόγηση των υποσυνόλων χαρακτηριστικών Για να αξιολογήσουµε τα παραπάνω υποσύνολα χαρακτηριστικών, υπολογίσαµε την ακρίβεια κατηγοριοποίησης στο σύνολο δεδοµένων ελέγχου Et-Lt χρησιµοποιώντας τους κατηγοριοποιητές k-means και SVM. Παρακάτω παρουσιάζουµε τα αποτελέσµατα δίνοντας έµϕαση στο επίπεδο προσαρµογής του κάθε υποσυνόλου χαρακτηριστικών. Προσαρµογή σε ηλεκτρόδιο και επεισόδιο : Αρχικά παρουσιάζουµε στο Σχήµα 6.6 τις τιµές των CRI και ER που συµβολίζονται ως E a,si test,j για όλα τα προβλήµατα κατηγοριοποίησης του συνόλου δεδοµένων ελέγχου Et-Lt χρησιµοποιώντας και τους δύο κατηγοριοποιητές (k-means και SVM) µε το υποσύνολο χαρακτηριστικών F a,si train,j που προέκυψε από το σύνολο δεδοµένων εκπαίδευσης E1-L1 για κάθε ηλεκτρόδιο και επεισόδιο. Τα αποτελέσµατα είναι όµοια και για τα υποσύνολα χαρακτηριστικών που προέκυψαν από το σύνολο δεδοµένων εκπαίδευσης E2-L1. Παρατηρείται ότι τουλάχιστον σε 3 επεισόδια τα χαρακτηριστικά που επιλέχθηκαν και είναι προσαρµοσµένα για κάθε ηλεκτρόδιο και επεισόδιο µπορούν να διαχωρίσουν τις προεπιληπτικές καταστάσεις L και Ε σχεδόν σε όλα τα ηλεκτρόδια, ανεξάρ- 111
130 1 (a) CRI E FSS,Si test,j E SVM RFE,Si test,j E MI,Si test,j (b) CRI ER E FSS,Si test,j E SVM RFE,Si test,j E MI,Si test,j (c) E FSS,Si test,j E SVM RFE,Si test,j E MI,Si test,j ER classification task (d) E FSS,Si test,j E SVM RFE,Si test,j E MI,Si test,j Σχήµα 6.6: Η ακρίβεια της κατηγοριοποίησης E a,si test,j για τους δείκτες CRI ή ER στο σύνολο δεδοµένων ελέγχου Et-Lt χρησιµοποιώντας τα υποσύνολα χαρακτηριστικών F a,si train,j που προέκυψαν από το σύνολο δεδοµένων εκπαίδευσης E1-L1, όπου τα διαϕορετικά σύµβολα υποδεικνύουν τους αλγορίθµους επιλογής χαρακτηριστικών που εϕαρµόσθηκαν (το γράµµα a δηλώνει οποιονδήποτε από τους FSSwCRI, SVM-RFE και ΜΙ) όπως φαίνεται και στη λεζάντα. (a) οι τιµές του CRI από τον κατηγοριοποιητή k- means, (b) οι τιµές του CRI από τον κατηγοριοποιητή SVM (c) οι τιµές του ER από τον κατηγοριοποιητή k-means (d) οι τιµές του ER από τον κατηγοριοποιητή SVM. Τα επεισόδια διαχωρίζονται από τις κάθετες γκρι γραµµές (γαλάζιες έγχρωµα). τητα από τον κατηγοριοποιητή που ϑα επιλεχθεί. Ο κατηγοριοποιητής SVM τείνει να δίνει υψηλότερη ακρίβεια, όχι όµως στην περίπτωση που τα χαρακτηριστικά επιλέχθηκαν από τον FSSwCRI. Για παράδειγµα, για τα χαρακτηριστικά που επιλέχθηκαν από τον αλγόριθµο SVM-RFE, ο κατηγοριοποιητής k-means έδωσε τιµές για το CRI > 0.5 στο 23% των εργασιών κατηγοριοποίησης που αντιστοιχεί σε 84 από τις 360 περιπτώσεις, ενώ ο SVM στο 40% των περιπτώσεων. Για τα υποσύνολα χαρακτηριστικών του αλγορίθµου ΜΙ, ο k-means ϐρήκε πάλι το 23% των περιπτώσεων να έχουν τιµές 112
131 CRI > 0.5 ο SVM το 39%, ενώ για τα υποσύνολα του αλγορίθµου FSSwCRI και οι δύο κατηγοριοποιητές απέδωσαν παρόµοια, µε το 24% και 30% των περιπτώσεων κατηγοριοποποίησης αντίστοιχα να έχει τιµές CRI > 0.5 Τα αποτελέσµατα δείχνουν ότι η καλύτερη κατηγοριοποίηση επιτεύχθηκε µε τον κατηγοριοποιητή SVM δίνοντας υψηλή απόδοση στην κατηγοριοποίηση και συγκεκριµένα τιµές του CRI > 0.5 στο 40% των προβληµάτων κατηγοριοποίησης. Το επίπεδο αυτό διαχωρισµού των προεπιληπτικών καταστάσεων συνεχίζει να µην είναι χρήσιµο για κλινική χρήση, παρόλο που σε µερικά επεισόδια παρατηρήθηκε ξεκάθαρος διαχωρισµός των προεπιληπτικών καταστάσεων. Μολονότι τα αποτελέσµατα µε το δείκτη ER είναι ποιοτικά τα ίδια µε τον δείκτη CRI, οι τιµές του ER περιορίζονται σε µικρότερο εύρος τιµών, δηλαδή το διάστηµα [0.5,1] που ανήκει η κατηγοριοποίηση υψηλής ακρίβειας µε τον δείκτη CRI, αντιστοιχεί στο διάστηµα [0,0.1] του δείκτη ER. Για µικρή απόδοση της κατηγοριοποίησης, ο δείκτης ER τείνει να παίρνει τιµές που συγκεντρώνονται στην περιοχή γύρω από το 0.5, ενώ για τον CRI οι τιµές είναι πιο διάσπαρτες σε ένα εύρος γύρω από το 0. Για παράδειγµα παρατηρείστε και συγκρίνετε τις τιµές του CRI για το επεισόδιο 8 στο Σχήµα 6.6a µε τις τιµές του ER στο Σχήµα 6.6c. Στην συνέχεια τα αποτελέσµατα που ϑα παρουσιαστούν ϑα είναι µόνο µε τον δείκτη CRI και µε τον κατηγοριοποιητή SVM. Προσαρµογή µόνο σε επεισόδιο : Οι τιµές του CRI µε συµβολισµό E a,si test,bj, για τον κατηγοριοποιητή SVM που παρουσιάζονται στο Σχήµα 6.7a, υπολογίσθηκαν στο σύνολο δεδοµένων ελέγχου, χρησιµοποιώντας τα 4 καλύτερα χαρακτηριστικά F a,si train,b που προέκυψαν από όλα τα ηλεκτρόδια σε κάθε επεισόδιο. εν υπάρχουν δραµατικές διαϕορές από την περίπτωση όπου τα υποσύνολα των χαρακτηριστικών που χρησιµοποιήθηκαν στην κατηγοριοποίηση προερχόταν από την προσαρµογή του υποσυνόλου για κάθε ηλεκτρόδιο ξεχωριστά, όπως φαίνεται και από την σύγκριση µε το Σχήµα 6.6b. Για την επιλογή των χαρακτηριστικών µε τον SVM-RFE, η ακρίβεια της κατηγοριοποίησης είναι περίπου στα ίδια επίπεδα και οι περιπτώσεις για τις οποίες ισχύει το CRI > 0.5 έχει αυξηθεί ελαϕρά στο ποσοστό από 40% σε 42%, ενώ για τον FSSwCRI έχει αυξηθεί από 30% σε 38%, και για τον ΜΙ έχει µειωθεί από 39% σε 27%. Για παράδειγµα παρατηρήθηκε ότι για το επεισόδιο 12, επιτυγχάνεται τώρα απόλυτος διαχωρισµός των προεπιληπτικών καταστάσεων L και Ε µε τον FSSwCRI για όλα τα ηλεκτρόδια, (συγκρίνετε το σχετικό αποτέλεσµα στο Σχήµα 6.6b µε αυτό του Σχήµατος 6.7a). Η ϐασικότερη παρατήρηση εδώ είναι ότι τα υποσύνολα χαρακτηριστικών που προσαρµόσθηκαν για το κάθε επεισόδιο µόνο, δίνουν περίπου τον ίδιο διαχωρισµό για τις καταστάσεις L και Ε όπως και τα υποσύνολα χαρακτηριστικών που επιλέχθηκαν και προσαρµόσθηκαν σε κάθε κανάλι και επεισόδιο. Ωστόσο, σηµειώνουµε ότι όταν σχηµατίσαµε τα υποσύνολα F a,si train,b µε περισσότερα από 4 χαρακτηριστικά, παρατηρήσαµε ϐελτίωση στα αποτελέσµατα. Καθολικά υποσύνολα χαρακτηριστικών : Τα Σχήµατα 6.7b και c παρουσιάζουν τις τιµές Etest,bj a για το CRI που προέρχονται από την κατηγοριοποίηση µε χρήση των καθολικών υποσυνόλων χαρακτη- ϱιστικών Ftrain,b a που αποτελούνται από 8 και 16 χαρακτηριστικά αντίστοιχα, τα οποία ήταν τα πιο συχνά επιλεγµένα χαρακτηριστικά από όλα τα ηλεκτρόδια όλων των επεισοδίων και των δύο συνόλων δεδοµένων εκπαίδευσης. Συγκρίνοντας τα αποτελέσµατα µε αυτά που έδωσαν τα υποσύνολα χαρακτηριστικών που ήταν προσαρµοσµένα µόνο σε επεισόδια, παρατηρούµε ότι η ακρίβεια της κατηγοριοποίησης ϐελτιώθηκε σηµαντικά. Ειδικότερα για τον ΜΙ οι περιπτώσεις που έχουµε CRI > 0.5 αυξήθηκαν από 27% σε 48%, λιγότερη αύξηση υπήρξε για τον FSSwCRI όπου το ποσοστό αυξήθηκε από 49% σε 58% και µόνο οριακή ήταν η αύξηση των ποσοστών στον SVM-RFE που από 54% πήγε στο 56%. Μεγαλύτερη ϐελτίωση στις τιµές του CRI παρατηρήθηκε για όλους τους αλγορίθµους επιλογής χαρακτηριστικών όταν χρησιµοποιήθηκαν τα υποσύνολα Ftrain,b a µε 16 χαρακτηριστικά, όπως φαίνεται και στο Σχήµα 6.7c. Σε όλα, εκτός από λίγα ηλεκτρόδια, έχουµε ακριβή διαχωρισµό των προεπιληπτικών καταστάσεων L και Ε, µε τιµές του CRI ίσες µε την µονάδα, για οποιονδήποτε αλγόριθµο επιλογής χαρακτηριστικών. Συγκεκριµένα ϐρέ- ϑηκε ότι το CRI = 1 για το 91% των περιπτώσεων µε το καθολικό υποσύνολο του FSSwCRI, για το 88% των περιπτώσεων µε το καθολικό υποσύνολο του SVM-RFE και για το 86% µε το καθολικό υποσύνολο 113
132 1 (a) CRI E FSS,Si test,bj E SVM RFE,Si test,bj E MI,Si test,bj (b) CRI E FSS test,bj E SVM RFE test,bj E MI test,bj (c) CRI E FSS test,bj E SVM RFE test,bj E MI test,bj (d) CRI E FSS,Si test,gj E SVM RFE,Si test,gj E MI,Si test,gj classification task Σχήµα 6.7: (a) Ακρίβεια της κατηγοριοποίησης E a,si test,bj µε τιµές CRI για το σύνολο δεδοµένων ελέγχου Et-Lt µε τα υποσύνολα των χαρακτηριστικών F a,si train,b που αποτελούνται από τα 4 χαρακτηριστικά που επιλέχθηκαν πιο συχνά σε όλα τα ηλεκτρόδια για κάθε επεισόδιο i, όπου τα διαϕορετικά σύµβολα δηλώνουν τον αλγόριθµο επιλογής χαρακτηριστικών όπως φαίνεται και στις λεζάντες (το γράµµα a δηλώνει οποιονδήποτε από τους αλγορίθµους FSSwCRI, SVM-RFE και ΜΙ). (b) το ίδιο όπως και στο (a) αλλά για Etest,bj a a που προκύπτει από τα υποσύνολα Ftrain,b που αποτελούνται από τα 8 χαρακτηριστικά που επιλέχθηκαν πιο συχνά από όλα τα ηλεκτρόδια και επεισόδια (c) το ίδιο όπως και στο (b) αλλά για 16 χαρακτηριστικά (d) το ίδιο όπως και στο (a) αλλά για τιµές του Etest,gj a που αναϕέρονται στα υποσύνολα χαρακτηριστικών F a,si test,gj που επιλέχθηκαν από την εϕαρµογή των τριών αλγορίθµων επιλογής χαρακτη- ϱιστικών στο σύνολο δεδοµένων ελέγχου. Τα επεισόδια διαχωρίζονται µεταξύ τους µε τις κάθετες γκρι γραµµές (γαλάζιες έγχρωµα). 114
133 του ΜΙ. Το αποτέλεσµα αυτό µας δείχνει ότι η µεταβλητότητα των επιλεγµένων χαρακτηριστικών, και η ακρίβεια στην κατηγοριοποίηση µεταξύ των διαϕορετικών καναλιών και των διαϕορετικών επεισοδίων, µπορεί να ξεπεραστεί, εάν χρησιµοποιηθεί ένα µεγαλύτερο σε µέγεθος υποσύνολο χαρακτηριστικών, το οποίο ϑα περιέχει χαρακτηριστικά που αποδεδειγµένα είναι χρήσιµα στην κατηγοριοποίηση των προεπιληπτικών καταστάσεων L και Ε. Η χρησιµότητά τους προέρχεται από την συχνότητα εµϕάνισής τους ανάµεσα στα χαρακτηριστικά των ϐέλτιστων υποσυνόλων χαρακτηριστικών κατά την εϕαρµογή των αλγορίθµων επιλογής χαρακτηριστικών σε όλα τα προβλήµατα κατηγοριοποίησης του συνόλου δεδοµένων εκπαίδευσης. Επιπλέον, παρόλο που οι τρεις αλγόριθµοι επιλογής χαρακτηριστικών δίνουν διαϕορετικά ϐέλτιστα υποσύνολα χαρακτηριστικών για κάθε κανάλι και επεισόδιο µε την εϕαρµογή τους στο σύνολο δεδοµένων εκπαίδευσης (E1-L1 και E2-L1), πολλά από τα 16 συχνότερα χαρακτηριστικά για όλα τα ηλεκτρόδια και όλα τα επεισόδια, ήταν τα ίδια ανεξάρτητα από την µέθοδο επιλογής χαρακτηριστικών. Αυτή η παρατήρηση εξηγεί σε κάποιο ϐαθµό την κοινή επιτυχία τους στη σωστή κατηγοριοποίηση σχεδόν όλων των περιπτώσεων του συνόλου δεδοµένων ελέγχου. Το χρυσό υποσύνολο χαρακτηριστικών : Για να συγκρίνουµε τις αποδόσεις των κατηγοριοποιήσεων µε µια απόδοση αναϕοράς, εϕαρµόσαµε πάλι τους τρεις αλγορίθµους επιλογής χαρακτηριστικών σε κάθε πρόβληµα κατηγοριοποίησης του συνόλου δεδοµένων ελέγχου Et-Lt, συµβολίζοντας το παραγό- µενο υποσύνολο χαρακτηριστικών ως F a,si test,gj για κάθε ηλεκτρόδιο j, επεισόδιο i και αλγόριθµο a. Στο Σχήµα 6.7d, φαίνονται οι τιµές του CRI που συµβολίζονται Etest,gj a, για τους τρεις αλγορίθµους, όπου για τους SVM-RFE και ΜΙ ο προκαθορισµένος αριθµός χαρακτηριστικών που επιλέγοονται έχει τεθεί ίσος µε 8. Αρχικά παρατηρούµε ότι η ακρίβεια κατηγοριοποίησης από τον FSSwCRI, είναι στα ίδια επίπεδα µε αυτά που παρατηρήσαµε και στα σύνολα δεδοµένων εκπαίδευσης E1-L1 και E2-L1, και το ίδιο ισχύει και για τους SVM-RFE και ΜΙ, αλλά για τους δύο τελευταίους η ακρίβεια ϐελτιώθηκε µε την αύξηση του προκαθορισµένου αριθµού χαρακτηριστικών του Ϲητούµενου υποσυνόλου, από 4 σε 8. το παραπάνω αποτελεί ισχυρή ένδειξη ότι το σύνολο δεδοµένων ελέγχου περιέχει όµοια προβλήµατα κατηγοριοποίησης µε το σύνολο δεδοµένων εκπαίδευσης, το οποίο και επιβεβαιώνεται από τα αποτελέσµατα που προέκυψαν από το σύνολο δεδοµένων ελέγχου, όταν χρησιµοποιήθηκε το καθολικό υποσύνολο καθώς και το υποσύνολο που είναι προσαρµοσµένο σε επεισόδιο και ηλεκτρόδιο. Τα αποτελέσµατα των Etest,gj SVM-RFE είναι εντυπωσιακά διότι το χρυσό υποσύνολο αποτυγχάνει να φτάσει στον απόλυτο διαχωρισµό δηλαδή CRI = 1, µόνο σε 8 από τις 360 περιπτώσεις κατηγοριοποίησης, ποσοστό που αντιστοιχεί σε επιτυχία της τάξης του 98%. Ωστόσο αυτή η παρατήρηση απλά προτείνει ότι ο αλγόριθµος SVM-RFE παράγει υποσύνολα χαρακτηριστικών που κάνουν καλή προσαρµογή, δηλαδή χωρίζουν σωστά τις κλάσεις τις οποίες και εκπαιδεύτηκαν να κατηγοριοποιήσουν, και η προσαρ- µογή αυτή αυξάνει µε την προσθήκη περισσοτέρων χαρακτηριστικών στο υποσύνολο αυτό (τουλάχιστον για το πλήθος χαρακτηριστικών ίσο µε 5, 8 και 16 για το οποίο έχει δοκιµαστεί), αλλά η παραπάνω παρατήρηση, δεν µας λέει τίποτε για την ικανότητα κατηγοριοποίησης των επιλεγµένων υποσυνόλων χαρακτηριστικών, σε νέα άγνωστα δεδοµένα. Συγκρίνοντας τις τιµές Etest,gj SVM-RFE στο Σχήµα 6.7d µε τις τιµές E SVM-RFE,Si test,j στο Σχήµα 6.6b, το ποσοστό των περιπτώσεων µε τιµές CRI > 0.5 πέϕτει δραµατικά από το 100% (όταν γίνεται προσαρµογή µε το επιλεγµένο υποσύνολο χαρακτηριστικών). στο 40% (όταν γίνεται έλεγχος µε το επιλεγµένο υποσύνολο χαρακτηριστικών), το τελευταίο υπάρχει στο ίδιο επίπεδο και για τον ΜΙ µε ποσοστό 39%. Από την άλλη πλευρά, ενώ ο FSSwCRI αποδίδει φτωχά και στην εκπαίδευση αλλά και στον έλεγχο (50% και 30% των περιπτώσεων έχουν τιµές CRI > 0.5, αντίστοιχα), αυτό πιθανόν να οϕείλεται στο αυστηρό κριτήριο αποκλεισµού χαρακτηριστικών από την υποοµάδα, και για τον λόγο αυτό η επαναληπτική διαδικασία τερµατίζει πάντα µε µικρό υποσύνολο χαρακτηριστικών. Ωστόσο, αυτά τα λίγα χαρακτηριστικά είναι όντως τα πιο χρήσιµα για τον διαχωρισµό των προεπιληπτικών καταστάσεων Ε και L. Τα παραπάνω αποτελέσµατα προτείνουν ότι αντί να προσαρµόζονται τα υποσύνολα των χαρακτη- ϱιστικών σε κάθε επεισόδιο και ηλεκτρόδιο ξεχωριστά, µπορεί κάποιος να επιτύχει καλύτερη κατηγο- 115
134 ϱιοποίηση σε άγνωστα δεδοµένα εάν σχηµατίσει ένα υποσύνολο χαρακτηριστικών σταθερό, αλλά αυτό πιθανόν να περιέχει πολλά σχετικά µεταξύ τους χαρακτηριστικά. εδοµένου ότι το υποσύνολο χαρακτηριστικών που επιλέχθηκε µε ϐάση τον FSSwCRI αποδίδει καλύτερα από όλα στο σύνολο δεδοµένων FSS ελέγχου, συµπεραίνουµε ότι το υποσύνολο χαρακτηριστικών Ftrain,b που αποτελείται από τα χαρακτηϱιστικά της στήλης για τον FSSwCRI στον Πίνακα 6.11, µπορεί να χρησιµοποιηθεί ως ϐιοδείκτης ώστε να διαχωρίζει έγκαιρα τις προεπιληπτικές καταστάσεις πολύ πριν και λίγο πριν την επιληπτική κρίση. 6.3 Αποτελέσµατα καθορισµού των κλάσεων σε σε χρηµατιστηριακά δεδοµένα. Στην ενότητα αυτή δοκιµάζουµε τους δείκτες αξιολόγησης συστάδων για τον καθορισµό των κλάσεων σε χρηµατιστηριακά δεδοµένα όπως κάναµε πριν στα EEG. Τα χρηµατοοικονοµικά δεδοµένα που χρησιµοποιήσαµε προέρχονται από µετοχές διαϕόρων κατηγοριών. Θέλουµε να ϐρούµε το σωστό πλήθος κλάσεων µε το ίδιο σύνολο των 312 χαρακτηριστικών, όπως στην ενότητα 6.2 για τα EEG ώστε να µπορεί χρησιµοποιηθεί από έναν κατηγοριοποιητή και να κατατάξει τις µετοχές αυτές στις σωστές κατηγορίες τους ή σε γενικότερες οµάδες. Σχήµα 6.8: Χρηµατιστηριακά δεδοµένα. Στο πάνω µέρος είναι οι τιµές κλεισίµατος της µετοχής της ALPHA Τράπεζας, στο µεσαίο γράϕηµα είναι οι αντίστοιχες τιµές των λογαριθµικών αποδόσεων της και στο κάτω γράϕηµα είναι οι τιµές του χαρακτηριστικού µέτρου Hjorth complexity για όλες τις µετοχές. Με τον ανοιχτό (κόκκινο) κύκλο είναι η τιµή του χαρακτηριστικού αυτού που αντιστοιχεί στην µετοχή της Τράπεζας ALPHA. 116
135 Χρηµατιστηριακά εδοµένα : Τα δεδοµένα αυτά προέρχονται από το Χρηµατιστήριο Αξιών Αθηνών (ΧΑΑ). Συγκεκριµένα επιλέχθηκαν οι µετοχές που διαπραγµατεύονταν σε όλη την περίοδο από το 1996 έως το Πρόκειται για 122 µετοχές (x t ) και σύµϕωνα µε τα στοιχεία του ΧΑΑ [ κατατάσσονται σε 16 τοµείς οικονοµικής δραστηριότητας ως εξής : Χηµικά 3, Πρώτες ύλες 10, Κατασκευές & υλικά 21, Βιοµηχανικά αγαθά & υπηρεσίες 9, Τράπεζες 9, Χρηµατοοικονοµικές υπηρεσίες 5, Ασϕάλειες 1, Κτηµατοµεσιτικά 2, Τρόϕιµα & ποτά 15, Προσωπικά & οικιακά αγαθά 31, Εµπόριο 3, Ταξίδια & αναψυχή 4, Υγεία 3, Μέσα µαζικής ενηµέρωσης 1, Τεχνολογία 4, Τηλεπικοινωνίες 1. Κάθε µετοχή αποτελείται από 2550 ηµερήσιες τιµές κλεισίµατος του χρηµατιστηρίου από τις Αν για µια ηµεροµηνία µια µετοχή δεν παίρνει κάποια τιµή, τότε σε εκείνο το κελί της στήλης της µετοχής αντί να δοθεί η τιµή ΝαΝ εϕαρµόσθηκε η µέθοδος της παρεµβολής για να διορθώσουµε τα κενά αυτά. Στην συνέχεια πήραµε τις λογαριθµικές αποδόσεις των µετοχών από τις πρώτες διαϕορές µεταξύ των λογα- ϱίθµων των δεδοµένων (δ log(x t )) έτσι ώστε οι χρονοσειρές των µετοχών να καταστούν στάσιµες και να µπορούµε να εϕαρµόσουµε τις µεθόδους εξόρυξης δεδοµένων (Papadopoulos, 2009). Στο Σχήµα 6.8 στο πάνω γράϕηµα φαίνονται οι τιµές µιας από τις 122 µετοχές και συγκεκριµένα της µετοχής της Τράπεζας ALPHA και στο µεσαίο γράϕηµα φαίνονται οι αντίστοιχες τιµές των λογαριθµικών αποδόσεων της. Υπολογίσαµε για κάθε µετοχή τα 312 χαρακτηριστικά που χρησιµοποιήσαµε και στα EEG και ϑέλουµε να ελέγξουµε αν αυτά µπορούν να κατηγοριοποιήσουν τις µετοχές στις αντίστοιχες κατηγορίες τους. ηλαδή αν υπάρχει κάποια οµοιότητα στη συµπεριϕορά των µετοχών που ανήκουν στον ίδιο κλάδο και µπορεί η συµπεριϕορά αυτή να αποτυπωθεί σε κάποια χαρακτηριστικά τότε µπορούµε να ϐγάλου- µε συµπεράσµατα σχετικά µε την πορεία των µετοχών αυτών καθώς και µε τις συσχετίσεις που έχουν µεταξύ τους. Βέβαια δεν περιµένουµε αυτό να επιτευχθεί µε κάποια λίγα και αυθαίρετα επιλεγµένα χαρακτηριστικά γι αυτό και υπολογίσαµε το ίδιο πλήθος χαρακτηριστικών (312 χαρακτηριστικά) που χρησιµοποιήσαµε και στα EEG. Στο κάτω γράϕηµα του Σχήµατος 6.8 φαίνονται οι τιµές του χαρακτη- ϱιστικού HjC y που υπολογίσθηκε για όλες τις χρονοσειρές των µετοχών. Στην συνέχεια χρησιµοποιώντας το σύνολο των 312 χαρακτηριστικών για τις 122 µετοχές εϕαρµόσαµε συσταδοποίηση µε τον αλγόριθµο k-means και ελέγξαµε εάν οι µετοχές µπορούν να συνοψιστούν σε λιγότερες από 16 κλάσεις. Γι αυτό εϕαρµόσαµε την αποτίµηση συστάδων µε τους δείκτες του Dunn (D) και των Davies-Bouldin (DB). Χρησιµοποιήσαµε τον αλγόριθµο k-means για k=2 έως 16 κλάσεις και κάθε φορά υπολογίζαµε τους δύο δείκτες για να ϐρούµε το ϐέλτιστο πλήθος κλάσεων. Αποτελέσµατα στα Χρηµατιστηριακά δεδοµένα : Το πρόβληµα που αντιµετωπίζουµε µε τα πραγ- µατικά δεδοµένα της µελέτης αυτής είναι ότι δεν γνωρίζουµε εξ αρχής τις κλάσεις που ανήκουν τα δεδοµένα των χρηµατιστηριακών συναλλαγών σε σχέση µε τις τιµές κλεισίµατός τους, παρόλο που κατατάσσονται σε 16 κατηγορίες ανάλογα µε την δραστηριότητά τους. Εϕαρµόζοντας τον k-means για k=2 έως 16 κλάσεις χρησιµοποιώντας όλα τα χαρακτηριστικά, οι δείκτες αποτίµησης συστάδων έδωσαν : ο D=16 κλάσεις και ο DB=2 κλάσεις. Παρατηρούµε σε αυτή την περίπτωση, αντίθετα από τα EEG, ότι δεν υπάρχει κάποια συµϕωνία µεταξύ των δύο αυτών δεικτών. Στο Σχήµα 6.9(a) φαίνονται οι κλάσεις που κατατάσσονται οι 122 µετοχές όταν εϕαρµόζουµε συσταδοποίηση µε τον k-means για k=2 έως 16 κλάσεις. Με κάθετες (κόκκινες) γραµµές διαχωρίζονται οι µετοχές στους 16 τοµείς οικονοµικής δραστη- ϱιότητας που ανήκουν. εν παρατηρούµε κάποια οργανωµένη δοµή που να κατατάσσει τις οµοειδείς µετοχές στην οικονοµική δραστηριότητα που αντιστοιχούν. Επαναλάβαµε την παραπάνω διαδικασία σε δεδοµένα που προέρχονται από τυχαίες µεταβλητές. ηλαδή αντί για 122 χρονοσειρές µετοχών πή- ϱαµε 122 χρονοσειρές ίδιου πλήθους παρατηρήσεων που δηµιουργήθηκαν από τυχαίες µεταβλητές µε κανονική κατανοµή και υπολογίσαµε γι αυτές τα 312 χαρακτηριστικά. Στη συνέχεια εϕαρµόσαµε τον αλγόριθµο συσταδοποίησης k-means για k=2 έως 16 κλάσεις και υπολογίσαµε πάλι τους δείκτες αποτί- µησης συστάδων D και DB οι οποίοι πρότειναν πάλι τα ίδια αποτελέσµατα δηλαδή ο D=16 κλάσεις και ο DB=2 κλάσεις. Στο Σχήµα 6.9(b) ϐλέπουµε τη συσταδοποίηση µε χρονοσειρές από τυχαίες µεταβλητές 117
136 Σχήµα 6.9: (α). Οι κλάσεις στις οποίες ταξινοµούνται οι 122 µετοχές µετά από συσταδοποίηση µε τον k- means για k=2 έως 16 κλάσεις. Με κάθετες (κόκκινες) γραµµές διαχωρίζονται οι 16 τοµείς οικονοµικής δραστηριότητας όπου ανήκουν οι µετοχές. (b). Το ίδιο για τυχαία δεδοµένα. κανονικής κατανοµής, η οποία δεν παρουσιάζει διαϕορές από την συσταδοποίηση που κάναµε για τα χρηµατιστηριακά δεδοµένα. Παρατηρούµε ότι τα χαρακτηριστικά που υπολογίσαµε για τα πραγµατικά δεδοµένα χρηµατιστηριακών µετοχών, ενώ είναι κατάλληλα για µελέτη των EEG, φαίνεται ότι δεν είναι κατάλληλα για να µπορούν να διαχωρίσουν τις κλάσεις όπου πραγµατικά ανήκουν οι µετοχές. Η ε- φαρµογή των δεικτών D και DB δεν κατάϕερε να υποδείξει για τις µετοχές ούτε το γνωστό πλήθος των αρχικών τους κλάσεων αλλά ούτε κάποιο άλλο µικρότερο πλήθος κλάσεων. 118
137 6.4 Εϕαρµογή του φίλτρου CMINN σε 10 ϐάσεις δεδοµένων αναϕοράς Στην ενότητα αυτή συγκρίνουµε την απόδοση του CMINN και των mrmr και MaxiMin σε δέκα ϐάσεις δεδοµένων που είναι γνωστές και χρησιµοποιούνται ως δεδοµένα αναϕοράς. Στις µεθόδους αυτές η εύρεση του ϐέλτιστου υποσυνόλου χαρακτηριστικών γίνεται µε προοδευτική αναζήτηση των χαρακτηριστικών επιλέγοντας ένα σε κάθε ϐήµα. Το ϐασικό µειονέκτηµα των mrmr και MaxiMin όπως και άλλων παρόµοιων αλγορίθµων, που αναδείξαµε στη µελέτη των προσοµοιώσεων στην Ενότητα 5.2, είναι ότι σε κάθε επανάληψη µεγιστοποιούν ένα κριτήριο σχετικότητας και πλεονασµού, λαµβάνοντας όµως υπόψιν µόνο τις επιδράσεις µεταξύ του κάθε απλού πεδίου f j που υπάρχει στο τρέχον υποσύνολο χαρακτη- ϱιστικών S και δεν λαµβάνουν καθόλου υπόψιν συνδυασµένες επιδράσεις µεταξύ δύο ή περισσοτέρων χαρακτηριστικών που υπάρχουν στο S. Αντίθετα ο CMINN λαµβάνει υπόψιν του και τις απλές αλλά και τις συνδυασµένες επιδράσεις µεταξύ των χαρακτηριστικών του S, ϐελτιώνοντας µε τον τρόπο αυτό την προοδευτική αναζήτηση των χαρακτηριστικών. Στην µελέτη που έγινε στα δεδοµένα προσοµοιώσεων παρουσιάσαµε τις ϐασικές διαϕορές µεταξύ του κριτηρίου CMINN και των υπο-ϐέλτιστων κριτηρίων mrmr και MaxiMin καθώς και τα πλεονεκτήµατα του CMINN στις περιπτώσεις ύπαρξης συσχετίσεων µεταξύ των επιλεγµένων χαρακτηριστικών. Θέλουµε να επιβεβαιώσουµε την υπεροχή αυτή του CMINN και σε πραγµατικά δεδοµένα γι αυτό το λόγο χρησιµοποιήσαµε 10 γνωστές ϐάσεις δεδοµένων από την αποθήκη δεδοµένων UCI (Blake and Merz, 1998). Οι ϐάσεις δεδοµένων αυτές επιλέχθηκαν έτσι ώστε να περιλαµβάνουν πολλά χαρακτηριστικά µε συνεχείς τιµές και να έχουν ποικίλο αριθµό κλάσεων. Οι ϐάσεις παρουσιάζονται στον Πίνακα Κατά την εκτίµηση της CMI µε ΝΝ χρησιµοποιήσαµε διαϕορετικό πλήθος γειτόνων K = 1, 5, 10, 20, 40. Για την µέθοδο mrmr εξετάσαµε την εκτίµηση µε διακριτικοποίηση (binning) αλλά σύµϕωνα µε τον αυθεντικό τρόπο που χρησιµοποιεί ο Peng et al. (2005) δηλαδή στρογγυλοποιώντας όλες τις τιµές στους πλησιέστερους ακεραίους, ενώ για την µέθοδο MaxiMin χρησιµοποιήσαµε την ισαπέχουσα διακριτικοποίηση µε πλήθος διαστηµάτων ίσο µε b = N/5. Ελέγξαµε επίσης στον αλγόριθµο CMINN πότε το κριτήριο τερµατισµού της εξίσωσης 4.9 και της εξίσωσης 4.10 προσδιορίζει σωστά το πραγµατικό υποσύνολο χαρακτηριστικών συγκριτικά µε την απόδοση της κατηγοριοποίησης. Για να επιτύχουµε αυτό υπολογίζουµε την πληθικότητα του υποσυνόλου χαρακτηριστικών S που δίνει την υψηλότερη ακρίβεια κατηγοριοποίησης και στην συνέχεια ελέγχουµε κατά πόσο αυτή συµϕωνεί µε το κριτήριο τερµατισµού της CMINN. Πίνακας 6.12: Οι δέκα ϐάσεις δεδοµένων αναϕοράς Βάση εδοµένων είγµατα Χαρακτηριστικά Κλάσεις Parkinson (PA) Breast Cancer (BC) Ionosphere (IO) Wine (WI) Waveform Generator (WG) Spectrometer (SP) Cardiotocography (CA) Multiple Features (MF) Crime (CR) ISOLET (IS) Η ϐάση δεδοµένων (dataset) Parkinson (PA) αποτελείται από 195 φωνητικές καταγραϕές και 22 ϐιοϊατρικές µετρήσεις της φωνής (χαρακτηριστικά) από υγιείς ανθρώπους και από ασθενείς µε Parkinson. Το σύνολο δεδοµένων που αϕορά τα διαγνωστικά δεδοµένα του καρκίνου του µαστού στο Wisconsin ( 119
138 Breast Cancer, BC), έχει 30 χαρακτηριστικά µε πραγµατικές τιµές που χωρίζονται σε 2 κλάσεις. ύο κλάσεις έχει επίσης και το σύνολο δεδοµένων από καταγραϕές radar που αϕορούν την ιονόσϕαιρα (Ionosphere, IO) και σχετίζονται µε την παρουσία ή την απουσία αποδεικτικών στοιχείων της δοµής της ιονόσϕαιρας, οι οποίες αποτελούνται από 34 χαρακτηριστικά που παράγονται από ηλεκτροµαγνητικά σήµατα µε υψηλή πολυπλοκότητα. Η ϐάση δεδοµένων κρασιών (WI) έχει ως χαρακτηριστικά 13 συστατικά από τρείς τύπους κρασιών που είναι και οι αντίστοιχες κλάσεις. Μια γεννήτρια ϐάσεων δεδοµένων µε κυµατοµορϕές (Waveform Generator, WG) δηµιουργεί συνθετικές οµάδες δεδοµένων από κύµατα 3 κλάσεων όπου κάθε µια οµάδα αποτελείται από δύο ή τρεις κυµατοµορϕές µε χαρακτηριστικά να είναι τα 21 σηµεία δειγµατοληψίας και 19 ακόµη ανεξάρτητες κανονικές τυχαίες µεταβλητές. Η ϐάση δεδοµένων (Spectrometer, SP) από το φασµατοσκόπιο χαµηλής ανάλυσης (Low Resolution Spectrometer, LRS) αποτελείται από 9 ϐασικές κλάσεις LRS και 100 φασµατικές µετρήσεις (που είναι τα χαρακτηριστικά) οι περισσότερες εκ των οποίων είναι µετρήσεις φασµατικής έντασης. Η ϐάση δεδοµένων καρδιοτοκογραφίας (Cardiotocography, CA) έχει ως κλάσεις 10 µορϕολογικά µοτίβα εµβρύων και 20 χαρακτηριστικά που εξάγονται από τα καδιοτοκογραϕήµατα όπου πολλά από αυτά τα χαρακτηριστικά έχουν συχνά µηδενικές τιµές (και ένα από αυτά που είχε µόνο µηδενικές τιµές το απορρίψαµε). Η ϐάση δεδοµένων ψηϕιακής αναγνώρισης αριθµητικών ψηϕίων ( Multiple Features, MF) αποτελείται από 10 κλάσεις που αϕορούν χειρόγραϕα νούµερα (`0 `9 ) και 649 χαρακτηριστικά που παρήχθησαν από ψηϕιοποιηµένες εικόνες των αριθµών αυτών, από τα οποία τα 240 είναι χαρακτηριστικά σχετικά µε τα pixel και µπορούν να χαρακτηρισθούν ως διακριτές και όχι συνεχείς µεταβλητές. Το σύνολο δεδοµένων σχετικά µε την εγκληµατικότητα σε κοινωνικές οµάδες (Crime, CR) έχει 15 κατηγορίες που προέρχεται από δεδοµένα των ϐίαιων εγκληµάτων ανά πληθυσµό και διαθέτει 128 χαρακτηριστικά που έχουν εύλογη σχέση µε εγκλήµατα. Η κλάσεις αυτές προέκυψαν από την ισοµήκη διαµέριση των κανονικοποιηµένων δεδοµένων. Το σύνολο δεδοµένων ISOLET (IS), έχει ως κλάσεις τα 26 γράµµατα της Αγγλικής αλϕαβήτου που έχουν διαβαστεί δύο φορές από 120 ανθρώπους και τα 617 χαρακτηριστικά έχουν παραχθεί από τα ηχητικά σήµατα προϕοράς των γραµµάτων. Οπως και στα δεδοµένα προσοµοιώσεων, έτσι και εδώ επιλέγουµε τυχαία το 70% των εγγραϕών της κάθε ϐάσης για την επιλογή των χαρακτηριστικών και το υπόλοιπο 30% το χρησιµοποιούµε για τον έλεγχο της ακρίβειας στην κατηγοριοποίηση. Τη διαδικασία αυτή την επαναλαµβάνουµε 10 φορές και αναϕέρουµε τις µέσες τιµές του CRI για κάθε πληθικότητα S του επιλεγµένου υποσυνόλου χαρακτη- ϱιστικών S. Στη συνέχεια ϑα αναϕέρουµε απλά τον όρο CRI αντί για µέση τιµή του CRI για συντοµία. Τα αποτελέσµατα των τιµών του CRI παρουσιάζονται στα Σχήµατα 6.10 έως 6.14 για τους αλγορίθµους CMINN (για K = 10, 20, 40), MaxiMin και mrmr. Ειδικά για τον CMINN(K = 10) παρακολουθούµε και την πληθικότητα του υποσυνόλου χαρακτη- ϱιστικών που υποδεικνύει το κριτήριο τερµατισµού (εξίσωση 4.9 και εξίσωση 4.10), και η πληθικότητα που εµϕανίζεται τις περισσότερες φορές κατά τις 10 επαναλήψεις, προβάλεται και στα σχήµατα ως η κάθετη διακεκοµµένη γραµµή. Η υψηλότερη τιµή του CRI για κάθε µέθοδο καθώς και η αντίστοιχη πληθικότητα S παρατίθεται στον Πίνακα 6.13 και η υψηλότερη τιµή του CRI για κάθε ϐάση δεδοµένων παρουσιάζεται µε έντονα γράµµατα Αποτελέσµατα της σύγκρισης µεταξύ CMINN µε MaxiMin και mrmr Τα γραϕήµατα του CRI ως προς την πληθικότητα S, παρουσιάζονται στα Σχήµατα 6.10 έως 6.14 και διαϕέρουν µεταξύ των µεθόδων CMINN, MaxiMin και mrmr µε τις τελευταίες δύο να έχουν την τάση να αποκτούν τη µέγιστη τιµή CRI σε µεγάλα S συγκριτικά µε την CMINN για κάθε τιµή του K. Συνήθως οι τιµές του CRI για τις µεθόδους MaxiMin και mrmr ϐρίσκονται πολύ χαµηλότερα από τις αντίστοιχες τιµές της µεθόδου CMINN (για κάθε K), ενώ όλες οι µέθοδοι ξεκινούν µε την ίδια τιµή του CRI για S = 1. Μόνο σε µερικές περιπτώσεις το πρώτο καλύτερο χαρακτηριστικό διαϕέρει για τις µεθόδους CMINN, MaxiMin και mrmr εξαιτίας της διαϕορετικής εκτίµησης της αµοιβαίας πληροϕορίας. Για παράδειγµα στην ϐάση δεδοµένων BC ο αλγόριθµος CMINN πετυχαίνει τη µεγαλύτερη τιµή του CRI για 120
139 (PA) CMINN(K=10) CMINN(K=20) CMINN(K=40) MaxiMin mrmr CRI S (BC) CRI CMINN(K=10) CMINN(K=20) 0.7 CMINN(K=40) MaxiMin 0.68 mrmr S Σχήµα 6.10: Αποτελέσµατα για τις ϐάσεις δεδοµένων PA, BC. Οι τιµές του CRI ως προς την πληθικότητα S για κάθε µέθοδο επιλογής χαρακτηριστικών όπως φαίνεται στις επεξηγήσεις του κάθε γραϕήµατος. Το κάθε γράϕηµα αντιστοιχεί σε µια ϐάση δεδοµένων αναϕοράς όπως επισηµαίνεται στον τίτλο σύµϕωνα µε τον συµβολισµό του Πίνακα Η κάθετη διακεκοµµένη γραµµή υποδεικνύει την πληθικότητα που ϐρέθηκε τις πιο πολλές φορές από το κριτήριο τερµατισµού του CMINN για K = 10. Οι ανοιχτοί κύκλοι υποδεικνύουν το πρώτο τοπικό µέγιστο την µέσης τιµής του CRI για κάθε µέθοδο και για κάθε ϐάση δεδοµένων. S = 3 (και S = 4) ενώ η µέγιστη τιµή του CRI για τον MaxiMin επιτυγχάνεται για S = 7 και για τον mrmr επιτυγχάνεται για S = 6. Αναϕορικά µε την παράµετρο K στη µέθοδο CMINN παρατηρώντας τις τιµές του CRI στα Σχήµατα 6.10 έως 6.14 ϐλέπουµε ότι είναι σχετικά όµοιες για διάϕορες τις τιµές του K, µε τιµές του CRI να είναι λίγο υψηλότερες για K = 10 συγκριτικά µε τα K = 20 και K = 40. Το κριτήριο τερµατισµού που προτείνουµε για τον CMINN δείχνει µια συντηρητική τάση για µικρές 121
140 (IO) CMINN(K=10) CMINN(K=20) CMINN(K=40) MaxiMin mrmr 0.5 CRI S 0.9 (WI) 0.85 CRI CMINN(K=10) CMINN(K=20) CMINN(K=40) MaxiMin mrmr S Σχήµα 6.11: Οµοίως µε το Σχήµα 6.10 αποτελέσµατα για τις ϐάσεις δεδοµένων IO και WI. Για την ϐάση IO ο αλγόριθµος CMINN δεν συγκλίνει για το εύρος τιµών του S που παρουσιάζεται στο γράϕηµα. πληθικότητες του S συγκριτικά µε το κριτήριο του πρώτου τοπικού µέγιστου CRI και αυτό ισχύει για όλες τις ϐάσεις που εξετάσαµε εκτός από τις ϐάσεις IO, WG και CR όπως φαίνεται καλύτερα στα Σχή- µατα 6.11, 6.12 και 6.14 για τον CMINN µε K = 10. Για την ϐάση WG το κριτήριο τερµατισµού υποδεικνύει το S = 14 όταν όλες οι µέθοδοι πετυχαίνουν την υψηλότερη µέση τιµή του CRI περίπου στο S = 10, ενώ για τις ϐάσεις ΙΟ και CR δεν επιτεύχθηκε τερµατισµός του κριτηρίου για το πλήθος των χαρακτηριστικών που εξετάστηκε. Γενικά το κριτήριο τερµατισµού τείνει να υποδεικνύει υποσύνολα χαρακτηριστικών µε µικρή πληθικότητα, που είναι περίπου 10% µικρότερη από την πληθικότητα όπου επιτυγχάνεται η µέγιστη τιµή CRI, επιτυγχάνοντας έτσι µια επαρκή ισοστάθµιση µεταξύ της µηεπιβλεπόµενης επιλογής του πλήθους των χαρακτηριστικών και της ακρίβειας στην κατηγοριοποίηση. Επιπλέον το κριτήριο τερµατισµού που προτείνουµε δεν εξαρτάται από τον κατηγοριοποιητή που ση- 122
141 (WG) CRI CMINN(K=10) CMINN(K=20) CMINN(K=40) MaxiMin mrmr S (SP) CRI CMINN(K=10) CMINN(K=20) CMINN(K=40) MaxiMin mrmr S Σχήµα 6.12: Οµοίως µε το Σχήµα 6.10 αποτελέσµατα για τις ϐάσεις δεδοµένων WG και SP. µαίνει ότι δεν σχετίζεται µε τα αποτελέσµατα του CRI. Σηµειώνεται επίσης ότι το κριτήριο τερµατισµού είναι καλύτερο από το κριτήριο του πρώτου τοπικού µεγίστου το οποίο δεν παρουσιάζει κάποια συνέπεια στα αποτελέσµατα και εξαρτάται σε µεγάλο ϐαθµό από τις µικρές διακυµάνσεις των τιµών του CRI όπως φαίνεται από τους ανοιχτούς κύκλους στα γραϕήµατα των Σχηµάτων 6.10 και Αξιολογώντας τις καλύτερες αποδόσεις από την άποψη των τιµών του CRI ανεξάρτητα από το µέγεθος του S παρατηρούµε ότι και οι τρείς µέθοδοι CMINN (K = 10), MaxiMin και mrmr επιτυγχάνουν ίδιου επιπέδου µέγιστες τιµές του CRI. Οπως φαίνεται στον Πίνακα 6.13, η µέθοδος CMINN έχει την υψηλότερη µέση τιµή του CRI σε 7 από τις 10 ϐάσεις δεδοµένων και η mrmr στις υπόλοιπες 3 ϐάσεις, αλλά λαµβάνοντας υπόψη τη διακύµανση του CRI, από όλες τις 10 επαναλήψεις, οι διαϕορές είναι οριακές για τα περισσότερα σύνολα δεδοµένων. Τα αποτελέσµατα αυτά δείχνουν ότι ο CMINN επιλέγει τα πιο σχετικά χαρακτηριστικά για σκοπούς κατηγοριοποίησης συγκριτικά µε τους MaxiMin και mrmr, 123
142 Πίνακας 6.13: Οι µέσες τιµές του CRI και οι τυπικές αποκλίσεις SD από 10 επαναλήψεις σε κάθε ϐάση δεδοµένων. Ο συµβολισµός των ϐάσεων δεδοµένων εµϕανίζεται στις γραµµές του πίνακα και στις στήλες έχουµε τις τρείς µεθόδους επιλογής χαρακτηριστικών CMINN (K = 10), MaxiMin και mrmr. Το πρώτο µέρος του πίνακα αναϕέρεται στις υψηλότερες µέσες τιµές του CRI από όλες τις πληθικότητες που ελέγχθηκαν για το υποσυνόλο S. Η τιµή της πληθικότητας του S για κάθε ϐάση δεδοµένων φαίνεται µέσα στην παρένθεση. Το δεύτερο µέρος του πίνακα παρουσιάζει τα αποτελέσµατα για την πληθικότητα S = 4. Τα αποτελέσµατα από την εϕαρµογή του ελέγχου t-test για τα Ϲεύγη CMINN vs MaxiMin και CMINN vs mrmr παρουσιάζονται µε αστερίσκους στις στήλες τιµών του MaxiMin και του mrmr αντίστοιχα : οι δύο αστερίσκοι αναϕέρονται στην περίπτωση που υπάρχει σηµαντική διαϕορά στο επίπεδο του 0.01 και ο ένας αστερίσκος στο επίπεδο του Οταν οι τιµές του CRI είναι µεγαλύτερες για την µέθοδο CMINN τότε οι αστερίσκοι εµϕανίζονται ως εκθέτες διαϕορετικά εµϕανίζονται ως δείκτες. Στην παρένθεση δίνεται το ϐέλτιστο S, και CRI ± SD CRI ± SD για S =4 Β CMINN MaxiMin mrmr CMINN MaxiMin mrmr PA (9) 33.5±10.6 (12) 32.5±12.8 (9) 32.6 ± ± ± ±12.1 BC (3) 82.7±6.4 (7) 82.2±6.6 (6) 82.4± ± ± ±6.6 IO (2) 54.2±16.1 (15) 41.9±9.7 (4) 56.9± ± ± ±8.8 WI (10) 90.8±9.0 (5) 88.3±6.7 (13) 88.0± ± ± ±9.6 WG (11) 54.0±1.5 (12) 54.2±1.3 (10) 55.4± ± ± ±2.4 SP (10) 64.1±7.9 (13) 63.1±7.0 (14) 63.0± ± ± ±8.1 CA (14) 25.0±2.2 (20) 22.5±1.0 (19) 22.4± ± ± ±1.2 MF (16) 91.2±2.6 (19) 84.9±2.7 (17) 89.4± ± ± ±1.7 CR (24) 23.3±1.6 (6) 22.8±2.2 (6) 23.2± ± ± ±1.3 IS (20) 61.8±2.9 (17) 44.3±1.0 (20) 63.2± ± ± ±
143 (CA) CRI CMINN(K=10) CMINN(K=20) CMINN(K=40) MaxiMin mrmr S (MF) CRI CMINN(K=10) CMINN(K=20) CMINN(K=40) MaxiMin mrmr S Σχήµα 6.13: Οµοίως µε το Σχήµα 6.10 αποτελέσµατα για τις ϐάσεις δεδοµένων CA και MF. στις περιπτώσεις που απαιτείται ένα µικρό σε µέγεθος υποσύνολο χαρακτηριστικών. Αναϕορικά µε την επίδραση της παραµέτρου K του CMINN στις τιµές του CRI φαίνεται από τα Σχήµατα 6.10 έως 6.14 ότι οι τιµές του είναι σχετικά όµοιες µεταξύ τους για τις διαϕορετικές τιµές της παραµέτρου K, ειδικότερα για K = 10 φαίνεται ότι ο CRI είναι σχετικά υψηλότερος από ότι για K = 20 και K = 40. Αξιολογώντας την καλύτερη απόδοση ανεξάρτητα από το µέγεθος του S και µε όρους τις τιµές του CRI, φαίνεται ότι οι µέθοδοι CMINN(K = 10, 20, 40), MaxiMin και mrmr αποκτούν τον µέγιστο CRI στο ίδιο περίπου επίπεδο τιµών, µε την CMINN(K = 10) να υπερισχύει σε 7 από τις 10 περιπτώσεις, όπως φαίνεται καλύτερα και στον Πίνακα Τα αποτελέσµατα δείχνουν ότι η µέθοδος MaxiMin τείνει να δίνει τις χαµηλότερες τιµές του CRI, και η εϕαρµογή του παραµετρικού ελέγχου σε Ϲεύγη t-test για τους CMINN vs MaxiMin αξιολόγησε αυτή τη διαϕορά ως σηµαντική σε επίπεδο α = 0.01 για την ϐάση δεδοµένων CA, MF και IS καθώς 125
144 0.25 (CR) CRI CMINN(K=10) 0.17 CMINN(K=20) CMINN(K=40) 0.16 MaxiMin mrmr S (IS) CRI CMINN(K=10) 0.2 CMINN(K=20) CMINN(K=40) MaxiMin 0.1 mrmr S Σχήµα 6.14: Οµοίως µε το Σχήµα 6.10 αποτελέσµατα για τις ϐάσεις δεδοµένων CR και IS. Για την ϐάση CR ο αλγόριθµος CMINN δεν συγκλίνει για το εύρος τιµών του S που παρουσιάζεται στο γράϕηµα. και µε α = 0.05 για την IO. Για την ϐάση CA η µέθοδος mrmr σηµειώθηκε επίσης να έχει σηµαντικά χαµηλότερες τιµές του CRI από τη µέθοδο CMINN µε α = 0.01, ενώ η µέθοδος CMINN ϐρέθηκε τα έχει χαµηλές τιµές του CRI µε σηµαντική διαϕορά µόνο για την ϐάση δεδοµένων WG µε α = Οµοια αποτελέσµατα παρατηρήθηκαν και από την εϕαρµογή του µη-παραµετρικού ελέγχου Wilcoxon signed-rank test, δίνοντας τη χαµηλότερη σηµαντικότητα για την ϐάση CA και καµία απόρριψη της ϐάσης ΙΟ για α = Τα αποτελέσµατα αυτά καταδεικνύουν ότι κατά την αναζήτηση µέσα σε µεγάλο εύρος χαρακτηριστικών του S η µέθοδος CMINN επιτυγχάνει το υψηλότερο επίπεδο τιµών του CRI, το ίδιο παρατηρείται επίσης και για την µέθοδο mrmr και λιγότερο συχνά για την MaxiMin. Οπως φάνηκε από τη µελέτη σε προσοµοιώσεις η δύναµη της µεθόδου CMINN συγκριτικά µε τις 126
145 άλλες δύο ϐρίσκεται στο ότι ϐρίσκει πρώτη τα πιο σχετικά χαρακτηριστικά, και τα αποτελέσµατα στις 10 ϐάσεις δεδοµένων αναϕοράς δείχνουν ότι µπορεί επιτευχθεί υψηλή ακρίβεια στην κατηγοριοποίηση α- κόµη και µε µικρό υποσύνολο χαρακτηριστικών. Πράγµατι συγκρίνοντας τις τιµές του CRI των µεθόδων CMINN (K = 10), MaxiMin και mrmr που επιτεύχθηκαν για µικρό και σταθερό πλήθος χαρακτηριστικών του S = 4, η µέθοδος CMINN υπερέχει σε 8 από τις 10 ϐάσεις δεδοµένων ως προς την MaxiMin και σε 7 ως προς την mrmr. Η διαϕορά της CMINN είναι σηµαντικά υψηλή ως προς την MaxiMin σε 5 ϐάσεις δεδοµένων (σε όλες µε επίπεδο του α = 0.01), και ως προς την mrmr σε 7 ϐάσεις δεδοµένων (στις 4 µε α = 0.01 και στις 3 µε α = 0.05), ενώ ισχύει το αντίθετο και έχει στατιστικά σηµαντικά χαµηλότερο CRI από την MaxiMin (µε α = 0.01) και από την mrmr (µε α = 0.05) για τη ϐάση δεδοµένων αναϕοράς CR όπως δίνεται στον Πίνακα Ο µη-παραµετρικό έλεγχος έδωσε ακριβώς τις ίδιες στατιστικές διαϕορές. Τα αποτελέσµατα αυτά προτείνουν ότι για µικρό πλήθος χαρακτηριστικών η µέθοδος επιλογής χαρακτηριστικών CMINN καταϕέρνει καλύτερη επιλογή των πιο σχετικών χαρακτηριστικών ώστε να χρησιµοποιηθούν σε προβλήµατα κατηγοριοποίησης, συγκριτικά µε τις µεθόδους MaxiMin και mrmr. Αποτελέσµατα της mrmr µε γραµµική τυποποίηση των δεδοµένων Κατά την διάρκεια των συγκρίσεων µεταξύ των φίλτρων επιλογής χαρακτηριστικών,µελετήσαµε και την συµπεριϕορά της µεθόδου mrmr στις περιπτώσεις που τα δεδοµένα στα οποία εϕαρµοζόταν η µέθοδος αυτή είχαν υποστεί γραµµική κανονικοποίηση ή όχι. Η µέθοδος mrmr εϕαρµόζει διακριτικοποίηση στα δεδοµένα στρογγυλοποιώντας τα στον πλησιέστερο ακέραιο αριθµό. Εάν στα δεδοµένα εϕαρµοστεί πρώτα γραµµική τυποποίηση των τιµών τότε τα δεδοµένα ϑα κυµαίνονται µεταξύ [0,1], Αυτό σηµαίνει ότι όταν στα δεδο- µένα αυτά εϕαρµοστεί η διακριτικοποίηση σύµϕωνα µε τον Peng et al. (2005), τότε οι τιµές που είναι µεγαλύτερες του 0.5 ϑα στρογγυλοποιηθούν στο 1 και οι υπόλοιπες στο 0. Αυτό έχει ως αποτέλεσµα την απλοποίηση των τιµών των δεδοµένων που πρόκειται να µελετηθούν σε δύο µόνο αριθµούς και ϑέλουµε να δούµε κατά πόσο αυτή η απλοποίηση επηρεάζει την απόδοση της µεθόδου mrmr. Εϕαρµόσαµε τη µέθοδο mrmr στα αρχικά δεδοµένα των BC, MF,WG καιis και στα ίδια δεδοµένα µετά από γραµµική κανονικοποίηση. Από τα αποτελέσµατα που φαίνονται στα γραϕήµατα του Σχήµατος 6.15 παρατηρούµε για την ϐάση BC υπάρχει ϐελτίωση στην απόδοση του κατηγοριοποιητή από τα χαρακτηριστικά που επιλέγει σταδιακά η µέθοδος mrmr στην περίπτωση που τα δεδοµένα έχουν προηγουµένως τυποποιηθεί. Στις υπόλοιπες ϐάσεις δεδοµένων δεν φαίνεται από τα Σχήµατα 6.15 και 6.16 να έχει επηρεάσει αισθητά την απόδοση της mrmr. Από την στιγµή που δεν υπάρχει αρνητική επίδραση στην απόδοση της µεθόδου από την εϕαρµογή γραµµικής τυποποίησης στα δεδοµένα προτείνουµε την υιοθέτησή της πριν από την εϕαρµογή της µεθόδου mrmr για λόγους ταχύτητας στους υπολογισµούς. Στους υπολογισµούς που κάναµε όµως κατά την διάρκεια των συγκρίσεων µε την CMINN και MaxiMin κρατήσαµε τον αυθεντικό τρόπο εϕαρµογής του mrmr και δεν εϕαρµόσαµε τυποποίηση στις τιµές των δεδοµένων για την µέθοδο αυτή ώστε να ελέγξουµε την απόδοση της χωρίς επιρροές. 6.5 Σύνοψη αποτελεσµάτων Στο κεϕάλαιο αυτό εξετάσαµε την απόδοση των αλγορίθµων που αναπτύξαµε σε πραγµατικά δεδο- µένα καθώς και σε δεδοµένα από γνωστές ϐάσεις δεδοµένων αναϕοράς. Στην πρώτη µελέτη που κάναµε εξετάσαµε την τη συµπεριϕορά του του αλγορίθµου FSSwCRI σε καταγραϕές EEG και την επίδραση των µεθόδων τυποποίησης στην επιλογή του υποσυνόλου χαρακτηριστικών καθώς και στην απόδοση της κατηγοριοποίησης. Χρησιµοποιήσαµε µια σχετικά µικρή ϐάση δεδοµένων µε καταγραϕές από τέσσερις ασθενείς µε επιληψία και αναζητήσαµε το υποσύνολο των χαρακτηριστικών που ϑα µπορέσει να κατηγοριοποιήσει επιτυχώς τις προεπιληπτικές καταστάσεις λίγο πριν και πολύ νωρίτερα της κρίσης. Τα αποτελέσµατα έδειξαν όπως και στις προσοµοιώσεις την προτίµηση του FSSwCRI να επιλέγει µικρά υποσύνολα χαρακτηριστικών χωρίς όµως να επιτυγχάνεται 127
146 0.85 BC mrmr(peng) normalized mrmr(peng) rounded CRI Number of Features 0.95 MF CRI mrmr(peng) normalized mrmr(peng) rounded Number of Features Σχήµα 6.15: Οι τιµές του CRI από την εϕαρµογή της mrmr στα αρχικά δεδοµένα των BC και MF και στα ίδια δεδοµένα µετά από γραµµική κανονικοποίηση υψηλή απόδοση στην κατηγοριοποίηση. Η αναζήτηση των ϐέλτιστων χαρακτηριστικών σε συνδυασµό µε τις µεθόδους τυποποίησης έδειξαν ότι υπάρχουν διαϕορές αλλά και οµοιότητες στα αποτελέσµατα από διαϕορετικές τεχνικές τυποποίησης µε τη γραµµική, τη λογιστική και τη µέθοδο διασποράς να έχουν όµοια συµπεριϕορά και τη Γκαουσιανή να έχει σταθερή απόδοση και να συγκλίνει µε τη λογαριθµική. Η εϕαρµογή κανόνων συσχέτισης υπέδειξε ότι ένα ή δύο χαρακτηριστικά µπορούν να διαχωρίσουν τις προεπιληπτικές καταστάσεις καθώς και ότι συγκεκριµένα Ϲευγάρια χαρακτηριστικών ϐελτιώνουν την α- πόδοση της κατηγοριοποίησης. Υπάρχει συµϕωνία µεταξύ του FSSwCRI και των κανόνων συσχέτισης, και προτείνουµε την χρήση των κανόνων συσχέτισης στις περιπτώσεις επιλογής µεγάλου πλήθους χαρακτηριστικών από τους αλγορίθµους επιλογής χαρακτηριστικών. Στη µελέτη αυτή ϐρέθηκε ότι απλά και υπολογιστικά εύκολα χαρακτηριστικά όπως η µέση τιµή των τοπικών µεγίστων και ελαχίστων, αποδί- 128
147 WG mrmr(peng) normalized mrmr(peng) rounded CRI Number of Features 0.8 IS CRI mrmr(peng) normalized mrmr(peng) rounded Number of Features Σχήµα 6.16: Οι τιµές του CRI από την εϕαρµογή της mrmr στα αρχικά δεδοµένα των WG και IS και στα ίδια δεδοµένα µετά από γραµµική κανονικοποίηση δουν καλύτερα συγκριτικά µε άλλα πολύ γνωστά αλλά υπολογιστικά χρονοβόρα χαρακτηριστικά, όπως η αµοιβαία πληροϕορία. Στη δεύτερη µελέτη εϕαρµογής του αλγορίθµου FSSwCRI εκτιµήθηκαν και αξιολογήθηκαν 18 χα- ϱακτηριστικά από καταγραϕές EEG εϕαρµόζοντας µόνο τη γραµµική τυποποίηση και έγινε αναζήτηση του υποσυνόλου χαρακτηριστικών που ϑα ανιχνεύει καλύτερα τις χρονικές περιόδους πολύ πριν, αρκετά πριν και λίγο πριν την επιληπτική κρίση. Από τα αποτελέσµατα της κατηγοριοποίησης στη µελέτη αυτή, φαίνεται ότι µπορεί να γίνει προσαρµοσµένη επιλογή χαρακτηριστικών για κάθε ηλεκτρόδιο και να επιτευχθεί υψηλή απόδοση κατηγοριοποίησης µε υψηλές τιµές του CRI, ώστε να µπορούν να ανιχνευθούν οι διαϕορετικές προεπιληπτικές καταστάσεις µε υποσύνολα χαρακτηριστικών στα οποία ϑα συµπεριλαµβάνονται χαρακτηριστικά ταλαντώσεων. 129
148 Εϕαρµόσαµε δύο τεχνικές αξιολόγησης συστάδων µε 312 χαρακτηριστικά που εκτιµήθηκαν σε χρη- µατιστηριακά δεδοµένα µε σκοπό να ϐρεθούν οι οικονοµικές κατηγορίες στις οποίες ανήκουν οι µετοχές αυτές. Φάνηκε ότι τα 312 αυτά χαρακτηριστικά δεν ήταν τα κατάλληλα για το πρόβληµα αυτό ή ότι ο διαχωρισµός σε αυτές τις κλάσεις είναι η ίδιος µε αυτόν που ϑα διδόταν στην περίπτωση που τα δεδοµένα ήταν τυχαία. Στην τρίτη µελέτη εϕαρµογής του αλγορίθµου FSSwCRI έγινε σύγκριση µε τους η SVM-RFE, και µε ένα απλό φίλτρο επιλογής χαρακτηριστικών της αµοιβαίας πληροϕορίας ΜΙ. Ως είσοδος στους αλγορίθ- µους αυτούς, χρησιµοποιήθηκε ένα σύνολο από 312 χαρακτηριστικά διαϕόρων τύπων, που χρησιµοποιούνται σε µελέτες προβληµάτων επιληπτικών καταγραϕών EEG και εκτιµήθηκαν σε καταγραϕές από 12 ασθενείς µε επιληψία µε σκοπό να ϐρεθεί το υποσύνολο των χαρακτηριστικών που ϑα επιτύχει τον καλύτερο διαχωρισµό των καταστάσεων πολύ πριν την κρίση (Ε) και λίγο πριν την κρίση (L) ελέγχοντας τις τιµές του CRI και του ER. Εϕαρµόσαµε και προτείνουµε µια διαδικασία σύνθεσης νέων υποσυνόλων µε χαρακτηριστικά που εµϕανίζονται πιο συχνά µέσα στα υποσύνολα χαρακτηριστικών που επιλέγουν οι τρείς αλγόριθµοι. Εϕαρµόζοντας αυτή τη διαδικασία συνθέσαµε νέα υποσύνολα χαρακτηριστικών για κάθε επεισόδιο, καθώς και καθολικά υποσύνολα χαρακτηριστικών, για κάθε αλγόριθµο τα οποία αποτελούνται από τα πιο συχνά επιλεγµένα χαρακτηριστικά µεταξύ όλων των ηλεκτροδίων και των επεισοδίων. Οταν συµπεριλήϕθηκαν 16 χαρακτηριστικά στο καθολικό υποσύνολο χαρακτηριστικών, η ακρίβεια της κατηγοριοποίησης αυξήθηκε σηµαντικά και για τους τρεις αλγορίθµους επιλογής χαρακτηριστικών. Το καθολικό υποσύνολο 16 χαρακτηριστικών του FSSwCRI απέδωσε καλύτερα απ όλα τα υπόλοιπα, διαχωρίζοντας καλύτερα τις δύο προεπιληπτικές (Ε) και (L) µε το CRI να έχει τιµές ίσες µε την µονάδα για το 91% των περιπτώσεων κατηγοριοποίησης. Μια τέτοια οµάδα χαρακτηριστικών που ϑα αποτελείται από 11 έως 16 χαρακτηριστικά προτείνουµε ότι µπορεί να χρησιµεύσει ως ένας υπολογιζόµενος ϐιοδείκτης (biomarker) για το διαχωρισµό προεπιληπτικών καταστάσεων διαϕορετικών επεισοδίων. Από την εϕαρµογή της µεθόδου CMINN σε ϐάσεις δεδοµένων αναϕοράς φάνηκε ξεκάθαρα και εδώ όπως και στις προσοµοιώσεις ότι υπερέχει σε σύγκριση µε τις µεθόδους MaxiMin και mrmr, ελέγχοντας την ακρίβεια κατηγοριοποίησης σε 7 από τις 10 ϐάσεις δεδοµένων αναϕοράς. Η διαπίστωση αυτή επαναλήϕθηκε και από την εϕαρµογή παραµετρικών και µη-παραµετρικών ελέγχων σύµϕωνα µε τους οποίους φάνηκε ότι υπάρχει σηµαντική διαϕορά υπεροχής της CMINN. Η µέθοδος CMINN συγκριτικά µε τις µεθόδους MaxiMin και mrmr καταϕέρνει επιλογή των πιο σχετικών χαρακτηριστικών για µικρή πληθικότητα του ϐέλτιστου υποσυνόλου ώστε να αυτά να χρησιµοποιηθούν σε προβλήµατα κατηγοριοποίησης. 130
149 Κεϕάλαιο 7 Λογισµικά υποστήριξης Στο Κεϕάλαιο αυτό ϑα παρουσιαστούν δύο λογισµικά που αναπτύξαµε για τους σκοπούς της διατριβής αυτής. Το πρώτο λογισµικό το ονοµάσαµε Measures of Analysis of Time Series (MATS) και το χρησιµοποιήσαµε για τον υπολογισµό του µεγαλυτέρου µέρους των χαρακτηριστικών που αναϕέραµε στο Κεϕάλαιο 3 µε τη διαϕορά όµως από τα υπόλοιπα γνωστά λογισµικά, να µπορεί να κάνει τους υπολογισµούς όχι µόνο σε µία χρονοσειρά αλλά σε πολλές ταυτόχρονα µέσα από ένα γραϕικό και εύχρηστο περιβάλλον. Αναπτύξαµε επίσης και το λογισµικό TDM που αποτελεί συνέχεια του MATS για να χρησιµοποιεί τα χαρακτηριστικά αυτά και να εϕαρµόζει πολλούς αλγορίθµους εξόρυξης δεδοµένων που αναϕέρθηκαν στο Κεϕάλαιο Το λογισµικό Measures of Analysis of Time Series (MATS). (Μια εργαλειοθήκη του Matlab για τον υπολογισµό πολλαπλών µέτρων από ϐάσεις δεδοµένων χρονοσειρών) Στην ενότητα αυτή ϑα παρουσιάσουµε τις δυνατότητες και τον τρόπο λειτουργίας της εϕαρµογής (MATS) που αναπτύχθηκε κατά την διάρκεια της διατριβής αυτής, µε σκοπό τον εύκολο υπολογισµό σηµαντικού αριθµού µέτρων από ϐάσεις χρονοσειρών. Για ανάλυση χρονοσειρών έχουν αναπτυχθεί πολλά λογισµικά τα οποία συνήθως περιλαµβάνουν κλασσικές µεθόδους την ανάλυσης χρονοσειρών. Εµπορικά λογισµικά όπως το SPSS και το SAS, παρέχουν λειτουργίες για χρονοσειρές οι οποίες ϐασικά είναι εϕαρµογές της κλασσικής προσέγγισης Box-Jenkins πάνω σε µη-στάσιµες χρονοσειρές. Το προγραµµατιστικό περιβάλλον εµπορικών πακέτων όπως το matlab και το Splus, παρέχει πλήθος εργαλειοθηκών και λειτουργικών µονάδων σε χρονοσειρές. Συγκεκριµένα για το matlab παρέχονται οι παρακάτω εργαλειοθήκες : Time Series Tools, Financial, GARCH, Signal Processing, Neural Network και Wavelets, όπως και για το Splus οι : FinMetrics, Wavelet, EnvironmentalStats. Σε εµπορικές εϕαρµογές και σε πακέτα που έχουν σχεδιαστεί για εξειδικευµένες χρήσεις των χρονοσειρών µπορεί να ϐρεθούν εργαλεία που είναι προχωρηµένα αλλά λιγότερο κλασικά. Επίσης σε κάποια πακέτα ελεύθερου λογισµικού όπως το πακέτο προγραµµάτων TISEAN, περιλαµβάνονται οµάδες µεθόδων που απευθύνονται σε προσεγγίσεις δυναµικών συστηµάτων (Hegger et al., 1999). Κάποιες επίσης εργαλειοθήκες ελεύθερου λογισµικού του matlab παρέχουν επιλεγµένες µεθόδους ανάλυσης χρονοσει- ϱών όπως το Time Series Analysis toolbox ( schloegl/matlab/tsa/) οι οποίες όµως εϕαρµόζονται σε µία µόνο χρονοσειρά την φορά. Φαίνεται όµως ότι κανένα από τα υπάρχοντα εµπορικά πακέτα ή τα πακέτα ελεύθερου λογισµικού δεν είναι προσαρµοσµένα σε προβλήµατα διαχείρισης και ανάλυσης πολλαπλών χρονοσειρών και εξαγωγής µεγάλου πλήθους χαρακτηριστικών από αυτές, απλά παρέχουν επί µέρους δυνατότητες όπως για παράδειγµα τον υπολογισµό λίγων και 131
150 συγκεκριµένων µέτρων, και ο χρήστης καταλήγει τελικά να τα υπολογίζει προγραµµατίζοντας νέο κώδικα ώστε να ολοκληρώσει την ανάλυση του. Το πακέτο λογισµικού Measures of Analysis of Time Series (MATS) έχει αναπτυχθεί στην πλατϕόρ- µα matlab έτσι ώστε να καλύψει τις παραπάνω ανάγκες και να παρέχει τη δυνατότητα υπολογισµού πολλών απλών αλλά και πολύπλοκων µέτρων από πολλές χρονοσειρές. Επιπλέον το MATS προσϕέρει κάποιους τύπους προ-επεξεργασίας για χρονοσειρές µεγάλου µήκους όπως π.χ την δυνατότητα τεµαχισµού επιλεγµένων χρονοσειρών. Επίσης το MATS αξιοποιεί τη δυνατότητα γραϕικής αλληλεπίδρασης (graphical user interface (GUI)) του matlab µε τον χρήστη για να πετύχει ένα φιλικό προς το χρήστη περιβάλλον καθώς και την παροχή λειτουργιών οπτικής παρουσίασης των αποτελεσµάτων. Στη συνέχεια ϑα παρουσιαστεί η δοµή καθώς και οι λειτουργίες του MATS που αϕορούν τη διαχείριση και προ-επεξεργασία των χρονοσειρών καθώς και τον τρόπο υπολογισµού των διαθέσιµων µέτρων. Το λογισµικό αυτό δηµοσιεύτηκε πρόσϕατα στο ηλεκτρονικό περιοδικό Journal of Statistical Software µε χιλιάδες downloads µέχρι στιγµής από το περιοδικό (Kugiumtzis and Tsimpiris, 2010) Η δοµή του MATS Στην ενότητα αυτή ϑα παρουσιάσουµε σε συντοµία τη δοµή και τα ϐασικά χαρακτηριστικά της εργαλειοθήκης MATS. Το περιβάλλον χρήσης του προγράµµατος αποτελείται από πολλά στοιχεία τα οποία συγκεντρώνονται σε δύο λειτουργικές µονάδες, µία αϕορά τον χειρισµό των χρονοσειρών και η άλλη τον υπολογισµό των µέτρων. Για κάθε λειτουργική µονάδα αντιστοιχεί µία λίστα, συγκεκριµένα η λίστα µε τις τρέχουσες χρονοσειρές στην πρώτη µονάδα και η λίστα µε τα τρέχοντα µέτρα στην άλλη. Στο Σχήµα 7.1 παρουσιάζεται το διάγραµµα ϱοής των ϐασικών λειτουργιών του MATS για κάθε µια από τις δύο λειτουργικές του µονάδες και επιπλέον παρουσιάζονται οι λειτουργίες που αϕορούν την εισαγωγή, εξαγωγή καθώς και παρουσίαση των χρονοσειρών και των χαρακτηριστικών µέτρων σε πίνακες η σε γραϕήµατα. Load time series Segmentation Standardization Resampling Time Series Current time series set View time series 1D/2D/3D/ histogram Save / print plot Save time series Measured time series list Measures Select measures Run measures Current measure list Linear measures Nonlinear measures Other measures Save measures View measures Save / print table / plot Σχήµα 7.1: ιάγραµµα ϱοής των πιθανών λειτουργιών στο MATS. Επιπλέον στο Σχήµα 7.2 παρουσιάζεται ένα screen-shot του ϐασικού παραθύρου του MATS, µε αντίστοιχες επιλογές για κάθε µια από τις δύο λειτουργικές µονάδες στο δεξί και το αριστερό µέρος του παραθύρου. Ενα ϐασικό πλεονέκτηµα της εργαλειοθήκης MATS είναι το ότι µπορεί να εϕαρµοσθεί όχι µόνο σε µία χρονοσειρά αλλά σε πλήθος χρονοσειρών που µπορούν να ϕορτωθούν και οι οποίες αναϕέρονται ως τρέχουσα οµάδα χρονοσειρών (current time series set). Θα αναϕερθούµε στη διαδικασία της τµηµατοποίησης και της επαναδειγµατοληψίας (resampling) επειδή µε τη διαδικασία αυτή µπορούν να προστεθούν και επιπλέον χρονοσειρές στην οµάδα αυτή. 132
151 Σχήµα 7.2: Screen shot του ϐασικού µενού του MATS. Η εικόνα αυτή πάρθηκε αϕού υλοποιήθηκαν οι υπολογισµοί που αϕορούν το Παράδειγµα 1 στο Παράρτηµα Α και αϕού πρώτα αποθηκεύτηκε ο πίνακας µε τα µέτρα, όπως σηµειώνεται στο πλαίσιο µηνυµάτων στο κάτω µέρος του παραθύρου. ιαχείριση χρονοσειρών Μια ευέλικτη λειτουργία φόρτωσης, επιτρέπει στους χρήστες να επιλέγουν πολλές χρονοσειρές από πολλά αρχεία διαϕορετικών µορϕών δεδοµένων (format) ή από διαϕορετικές ϐάσεις δεδοµένων. Τα επιλεγµένα αρχεία δεδοµένων, αρχικά ταξινοµούνται σε µια προσωρινή λίστα για την επιβεβαίωση της µορϕής τους. Οι µορϕές αρχείων που υποστηρίζονται είναι : απλού κειµένου (ascii), excel (xls), τα ειδικά αρχεία του matlab (mat) και τα αρχεία µε European data format (edf) τα οποία συνήθως χρησιµοποιούνται για ϐιολογικές καταγραϕές ή καταγραϕές ιατρικής φυσιολογίας. Μπορούν επίσης πολύ εύκολα να προστεθούν και άλλες µορϕές αρχείων όπως επίσης και σύνδεση µε οποιαδήποτε σχεσιακή ϐάση δεδοµένων µέσα από οδηγούς ODBC. Μετά την επικύρωση, τα δεδοµένα που έχουν φορτωθεί, οργανώνονται σε διανύσµατα και αποδίδεται ένα µοναδικό όνοµα σε κάθε διάνυσµα που στην πραγµατικότητα αντιστοιχεί σε κάθε µονοµεταβλητή χρονοσειρά. Η διαδικασία της φόρτωσης των χρονοσειρών ολοκληρώνεται µε την τοποθέτηση των χρονοσειρών στην οµάδα µε τις τρέχουσες χρονοσειρές. Η οµάδα µε τις τρέχουσες χρονοσειρές µπορεί να επεκταθεί µε χρονοσειρές που ϑα δηµιουργηθούν από τη διαδικασία της προ-επεξεργασίας και της επαναδειγµατοληψίας, διαδικασίες που ϑα περιγραϕούν πα- ϱακάτω. Επίσης οι χρονοσειρές που υπάρχουν σε αυτή την οµάδα µπορούν να επιλεχθούν για διαγραϕή ή αποθήκευση σε αρχεία ascii, xls ή mat. Τµηµατοποίηση και Μετασχηµατισµός των χρονοσειρών Με τον όρο προ-επεξεργασία συνήθως εννοούνται οι διαδικασίες της τµηµατοποίησης και του µετασχηµατισµού των χρονοσειρών. Μπορούν ϐέβαια να εϕαρµοσθούν και άλλες λειτουργίες προ-επεξεργασίας του matlab, όπως είναι το φιλτράρισµα. Σε πολλές εϕαρµογές, υπάρχει διαθέσιµη µια µεγάλη καταγραϕή χρονοσειράς, και το Ϲητούµενο είναι η ανάλυση π.χ. ο υπολογισµός µέτρων πάνω σε διαδοχικά ή επικαλυπτόµενα τµήµατα αυτής της καταγραϕής. Η ευκολία που παρέχει η επιλογή time series 133
152 segmentation του MATS είναι ότι µπορεί να δηµιουργεί διαδοχικά ή επικαλυπτόµενα τµήµατα για πλήθος επιλεγµένων χρονοσειρών από την τρέχουσα οµάδα των χρονοσειρών µε συγκεκριµένο µήκος παραθύρου και ϐήµα κύλησης (µετατόπισης). Ο χρήστης µπορεί να επιλέξει εάν το υπολοιπόµενο πα- ϱάθυρο δεδοµένων που ϑα προκύψει από την τµηµατοποίηση, ϑα παραληϕθεί από την αρχή ή από το τέλος της αρχικής χρονοσειράς. Συχνά οι καταγραϕές από πραγµατικές χρονοσειρές δεν είναι στάσι- µες και δεν έχουν την Γκαουσιανή κατανοµή µε την µορϕή της καµπάνας. Στο MATS συµπεριλάβαµε γνωστούς µετασχηµατισµούς σε Γκαουσιανή κατανοµή όπως είναι ο λογαριθµικός µετασχηµατισµός και µετασχηµατισµός δύναµης Box-Cox. Για να αϕαιρεθούν αργές στοχαστικές τάσεις των δεδοµένων µπορούν να ληϕθούν οι πρώτες διαϕο- ϱές µεταξύ των δεδοµένων. Μπορούν επίσης να ληϕθούν οι πρώτες διαϕορές από τους λογαρίθµους των δεδοµένων ώστε να σταθεροποιηθεί και η διακύµανση (ο τελευταίος αυτός µετασχηµατισµός είναι γνωστός στα χρηµατο-οικονοµικά δεδοµένα µε το όνοµα αποδόσεις (returns). Μπορούν επίσης να χρησιµοποιηθούν και διαϕορές µε υστέρηση µεγαλύτερη του ένα. Επιπλέον µπορεί να εϕαρµοσθεί και παραµετρική αϕαίρεση τάσεων (detrending) µε χρήση πολυωνύµων συγκεκριµένης τάξης. Το πολυώνυ- µο αρχικά προσαρµόζεται στα δεδοµένα και οι υπολειπόµενες τιµές αποτελούν τη Ϲήτούµενη χρονοσειρά χωρίς τάσεις. Ολοι αυτοί οι µετασχηµατισµοί εµπεριέχονται στην επιλογή της εϕαρµογής time series transformation. Οταν γίνεται σύγκριση µεταξύ µέτρων από διαϕορετικές χρονοσειρές, προτείνεται η τυποποίηση των χρονοσειρών έτσι ώστε αν διαπιστωθούν κάποιες διαϕορές µεταξύ των µέτρων να µην οϕείλονται στις διαϕορές εύρους τιµών ή της κατανοµής των χρονοσειρών πάνω στις οποίες υπολογίσθηκαν. Στην εϕαρµογή MATS ενσωµατώνονται 4 τύποι τυποποίησης των δεδοµένων στην επιλογή time series transformation, η γραµµική τυποποίηση, η τυποποίηση διασποράς, η οµοιόµορϕη τυποποίηση και η Γκαουσιανή τυποποίηση που παρουσιάστηκαν στο Κεϕάλαιο 3. Επαναδειγµατοληψία Κατά την ανάλυση των χρονοσειρών συχνά υπάρχει ενδιαϕέρον στο να ελεγχθεί µια υπόθεση για το υποκείµενο της χρονοσειράς. Οι µηδενικές υποθέσεις Η 0 για τη χρονοσειρά {x i } N i=1 είναι : (α) στοχαστική διαδικασία λευκού ϑορύβου, (ϐ) Γκαουσιανή στοχαστική διαδικασία και (γ) από γραµµική στοχαστική διαδικασία (όχι απαραίτητα Γκαουσιανή). Πολλά από τα µέτρα που συµπεριλαµβάνονται στο MATS µπορούν να χρησιµοποιηθούν ως στατιστικά για αυτούς τους ελέγχους. Η επαναδειγµατοληψία (resampling) µπορεί να χρησιµοποιηθεί για την δηµιουργία τυχαίων ή bootstrap χρονοσειρών που είναι συνεπείς µε την Η 0. Με την επιλογή time series resampling υπάρχουν διαθέσιµοι αλγόριθµοι για την παραγωγή χρονοσειρών επαναδειγµατοληψίας για κάθε Η 0. Παρακάτω παρουσιάζουµε τους αλγορίθµους αυτούς µιας και είναι ένα από τα σηµαντικά εργαλεία που ενσωµατώνει το MATS: 1. Τυχαία µετάθεση (Random permutation, RP) ή αλλιώς µετατόπιση του {x i } N i=1, δηµιουργεί µια χρονοσειρά που διαϕυλάσσει την περιθώρια κατανοµή της αρχικής χρονοσειράς αλλά κατά τα άλλα είναι ανεξάρτητη. Η χρονοσειρά RP είναι τυχαία χρονοσειρά (ή αλλιώς καλείται και υποκατάστατο - surrogate) και ϐρίσκεται σε συµϕωνία µε την ανεξαρτησία της υπόθεσης Η Ο αλγόριθµος µετασχηµατισµού Fourier (Fourier transform, FT) ονοµάζεται έτσι επειδή ξεκινά µε το µετασχηµατισµό Fourier της χρονοσειράς {x i } N i=1. Στην συνέχεια οι φάσεις που προέκυψαν από τον µετασχηµατισµό τυχαιοποιούνται και το αποτέλεσµα της σειράς Fourier, µετασχη- µατίζεται πίσω στο πεδίο του χρόνου, δίνοντας την υποκατάστατη χρονοσειρά. Οι υποκατάστατες FT χρονοσειρές διατηρούν το φάσµα ισχύος (µε πιθανή εµϕάνιση ελαϕρού σϕάλµατος εξαιτίας της διαϕοράς των τελικών σηµείων της χρονοσειράς). Σηµειωτέον ότι η περιθώρια κατανοµή των υποκατάστατων FT χρονοσειρών είναι πάντα Γκαουσιανή και για το λόγο αυτό είναι συνεπής µε την υπόθεση Η 0 µιας Γκαουσιανής στοχαστικής διαδικασίας (Theiler et al., 1992). 134
153 3. Ο αλγόριθµος µετασχηµατισµού Fourier προσαρµοσµένου πλάτους (adjusted Fourier transform, AAFT) αρχικά ταξινοµεί µια Γκαουσιανή χρονοσειρά λευκού ϑορύβου έτσι ώστε να ταιριάξει µε την διάταξη της χρονοσειράς {x i } N i=1 και παράγει την υποκατάστατη FT χρονοσειρά από αυτήν την χρονοσειρά. Στη συνέχεια η {x i } N i=1 επαναδιατάσσεται έτσι ώστε να ταιριάξει µε την διάταξη του έχει προκύψει από την παραγόµενη FT χρονοσειρά (Theiler et al., 1992). Οι χρονοσειρές A- AFT διατηρούν ακριβώς την αρχική περιθώρια κατανοµή, και κατά προσέγγιση το αρχικό φάσµα ισχύος (και εποµένως και την αυτοσυσχέτιση). 4. Ο επαναληπτικός αλγόριθµος AAFT (iterated AAFT, IAAFT) αποτελεί µια ϐελτίωση του AAFT προσεγγίζοντας καλύτερα το αρχικό φάσµα ισχύος της χρονοσειράς το οποίο µπορεί να διαϕέρει ελάχιστα από το πραγµατικό φάσµα (Schreiber and Schmitz, 1996). Σε κάποιες περιπτώσεις η διαϕορά αυτή µπορεί να αποδειχθεί πολύ σηµαντική επειδή όλες οι παραγώµενες IAAFT χρονοσειρές τείνουν να δίνουν περίπου το ίδιο φάσµα ισχύος και η διασπορά του φάσµατος είναι πολύ µικρή. Οι υποκατάστατες χρονοσειρές IAAFT χρησιµοποιούνται για τον έλεγχο της υπόθεσης Η 0 µιας Γκαουσιανής στοχαστικής διαδικασίας που έχει επιδεχθεί στατικό µετασχηµατισµό. 5. Ο αλγόριθµος στατικού µετασχηµατισµού αυτοπαλινδρούµενης διαδικασίας (statically transformed autoregressive process, STAP) χρησιµοποιείται για την υπόθεση Η 0 όπως και ο IAAFT και οι υποκατάστατες χρονοσειρές είναι στατικοί µετασχηµατισµοί πραγµατοποιήσεων µιας κατάλληλα σχεδιασµένης αυτοπαλινδρούµενης διαδικασίας (Kugiumtzis, 2002a). Οι χρονοσειρές STAP διατηρούν ακριβώς την αρχική περιθώρια κατανοµή και κατά προσέγγιση την αρχική αυτοσυσχέτιση, έτσι η διασπορά είναι µεγαλύτερη από τις IAAFT αλλά χωρίς µεροληψία. 6. Ο αλγόριθµος autoregressive model residual bootstrap (AMRB) είναι µια προσέγγιση που ϐασίζεται στην τεχνική bootstrap. Η προσέγγιση αυτή χρησιµοποιεί ένα προσαρµοσµένο µοντέλο AR και κάνει επαναδειγµατολειψία µε bootstrap στα υπόλοιπα της προσαρµογής του µοντέλου τα οποία δίνονται ως είσοδος στο µοντέλο AR για να σχηµατιστεί η υποκατάστατη χρονοσειρά (Politis, 2003; Hjellvik and Tjøstheim, 1995). Οι χρονοσειρές AMRB χρησιµοποιούνται για τη µηδενική υπόθεση Η 0 όπως και οι IAAFT και οι STAP. Οι χρονοσειρές AMRB έχουν κατά προσέγγιση την ίδια περιθώρια κατανοµή και αυτοσυσχέτιση όπως η αρχική χρονοσειρά αλλά οι αποκλίσεις µπορεί σε κάποιες περιπτώσεις να είναι σηµαντικές. Για µία ανασκόπηση σε ελέγχους µε υποκατάστατα δεδοµένα µπορείτε να ανατρέξετε στα άρθρα των Schreiber and Schmitz (2000); Kugiumtzis (2002b). Για συγκρίσεις µεταξύ των αλγορίθµων AAFT, IAAFT, STAP σε AMRB προβλήµατα ελέγχου µη-γραµµικότητας µπορείτε να δείτε την εργασία του Kugiumtzis (2008). Οπτικοποποίηση των χρονοσειρών Η επιλογή time series visualization παρέχει την δυνατότητα εµϕάνισης των χρονοσειρών σε µια, δύο και τρείς διαστάσεις, καθώς και µε την µορϕή ιστογραµµάτων. Τα διαγράµµατα χρονοσειρών (1D plot) µπορούν να παραχθούν για πλήθος επιλεγµένων χρονοσειρών και όχι µόνο για µία, είτε τοποθετώντας τις χρονοσειρές όλες µαζί σε ένα πλαίσιο ή αναπαριστώντας τες σε διαϕορετικά γραϕήµατα σε ένα όµως περίγραµµα (µε διάταξη κάθετη σε ένα γράϕηµα ή σε υπο-γραϕήµατα). Αυτό µπορεί να φανεί ιδιαίτερα χρήσιµο στην περίπτωση που είναι επιθυµητό να εµϕανιστούν µαζί όλα τα τµήµατα µιας χρονοσειράς ή στην περίπτωση που ϑέλουµε να παρουσιαστούν όλες οι υποκατάστατες χρονοσειρές µαζί µε την πραγµατική χρονοσειρά. Επίσης µπορούν να παραχθούν γραϕήµατα διασποράς σε δύο και τρείς διαστάσεις (2D / 3D plots) για µια όµως χρονοσειρά τη φορά. Αυτό µπορεί να φανεί χρήσιµο σε περιπτώσεις που ερευνάται υποκείµενη αιτιοκρατική δυναµική στη χρονοσειρά και υπάρχει ανάγκη για προβολή σε 2 και 3 διαστάσεις του υποκείµενου ελκυστή. 135
154 Μπορούν επίσης να παραχθούν και ιστογράµµατα είτε ως υπερθέσεις γραµµών σε ένα πλαίσιο ή ως υπογραϕήµατα ενός πίνακα γραϕηµάτων µε µέγεθος που καθορίζεται από τον χρήστη, µέσα στο οποίο ϑα παρουσιάζεται ένα ιστόγραµµα για κάθε χρονοσειρά. Στην τελευταία αυτή περίπτωση µπορεί να εµϕανίζεται στο γράϕηµα και η Γκαουσιανή κατανοµή προσαρµόζοντας τα δεδοµένα στην κατανοµή αυτή. Μπορεί επίσης στο ίδιο γράϕηµα να εµϕανίζεται και η p-τιµή µετά από την εϕαρµογή ενός ελέγχου Kolmogorov-Smirnov ο οποίος ελέγχει την κανονικότητα των τιµών. Επιλογή και υπολογισµός µέτρων Αυτή η λειτουργική µονάδα της εϕαρµογής αϕορά την επιλογή των µέτρων που ϑα υπολογιστούν στις ήδη επιλεγµένες χρονοσειρές. Σε κάθε φόρµα που ϑα επιλέξει ο χρήστης υπάρχουν διαθέσιµα µέτρα (52 διαϕορετικά µέτρα) οργανωµένα σε κατηγορίες σύµϕωνα µε τις οµάδας των µέτρων του Κεϕαλαίου 3, δηλαδή γραµµικά, µη-γραµµικά και άλλα µέτρα. Ενα µέτρο επιλέγεται και ενεργοποιείται µε ένα κλικ σε ένα πλαίσιο ελέγχου και στην συνέχεια ενεργοποιείται η δυνατότητα επιλογής των παραµέτρων του µέτρου που επιλέχθηκε. Οι επιλογές που γίνονται στα επιλεγµένα µέτρα και στις παραµέτρους τους, µπορούν να αποθηκευτούν σε αρχείο το οποίο µπορεί να φορτωθεί αργότερα για µεταγενέστερη χρήση. Οταν τελειώσει η επιλογή των µέτρων, µπορεί να ξεκινήσει ο υπολογισµός τους, δηλαδή ο υπολογισµός των µέτρων για όλες τις παραµέτρους τους και σε όλες τις χρονοσειρές της τρέχουσας λίστας χρονοσειρών. Πολλά από τα µέτρα που υπάρχουν στο MATS είναι συναρτήσεις ενός ή περισσοτέρων ελεύθερων παραµέτρων. Πρέπει να τονίσουµε ότι ο όρος µέτρο (measure) χρησιµοποιείται στο MATS για να δηλώσει την συγκεκριµένη έξοδο µιας συνάρτησης για συγκεκριµένες τιµές των ελεύθερων παραµέτρων της. Ετσι η επιλογή µιας συνάρτησης µπορεί να δηµιουργήσει πλήθος µέτρων ίδιο σε µέγεθος µε τον αριθµό των ελευθέρων παραµέτρων που έχουν οριστεί. Ετσι στο καθένα µέτρο δίνεται ένα µοναδικό όνοµα που αποτελείται από τον κωδικό του µέτρου και ακολουθεί η τιµή της αντίστοιχης παραµέτρου. Τα ονόµατα αυτά παρουσιάζονται στο δεξιό µέρος από το ϐασικό παράθυρο του MATS (ϐλέπε Σχήµα 7.2). Οι τιµές των µέτρων για διαϕορετικές χρονοσειρές αποτελούν ξεχωριστή ϐάση δεδοµένων. Ενα παράδειγµα επιλογής µέτρων φαίνεται στο Σχήµα 7.3 και αϕορά µέτρα µη-γραµµικών µοντέλων. Ο χρήστης µπορεί να διαλέξει ένα ή περισσότερα από την οµάδα µέτρων τοπικών µοντέλων προσαρµογής και πρόβλεψης local fit and prediction. Υποθέτουµε ότι ο χρήστης ενεργοποίησε πρώτα το πλαίσιο ελέγχου του πρώτου µοντέλου ( Local Average or Linear Direct Fit µε κωδικοποιηµένο όνοµα 10 χαρακτήρων Loc_DirFit ). Στην συνέχεια ενεργοποιούνται τα πεδία που αϕορούν τις παραµέτρους, και ο χρήστης µπορεί να καθορίσει µία ή περισσότερες από τις τέσσερις διαθέσιµες επιλογές για το στατιστικό σϕάλµα προσαρµογής (fit error), ή να αλλάξει τις προεπιλεγµένες παραµέτρους. Κάποιες παράµετροι επιδέχονται µια µόνο τιµή ενώ άλλες παράµετροι µπορούν να πάρουν εύρος τιµών. Σε κάθε πεδίο γίνεται έλεγχος εγκυρότητας των τιµών που εισάγει ο χρήστης, και σε περίπτωση λάθους εµϕανίζεται το κατάλληλο µήνυµα το οποίο µπορεί να είναι είτε µήνυµα λάθους σύνταξης του matlab είτε µήνυµα λάθους για τιµές εκτός ορίων. Γραϕική αναπαράσταση των µέτρων - Measure visualization Μια από τις σύνθετες δυνατότητες του MATS είναι ο ορισµός των συναρτήσεων για οπτικοποίηση των υπολογισθέντων µέτρων της επιλεγµένης οµάδας των χρονοσειρών. Μπορεί να γίνει χρήση των κλασσικών συναρτήσεων του matlab για διόρθωση, εκτύπωση ή αποθήκευση των αποτελεσµάτων καθώς και γραϕική απεικόνιση τους σε διάϕορες µορϕές. Μπορούν να οριστούν εύκολα πολλοί και διαϕορετικοί τρόποι γραϕικής αναπαράστασης των αποτελεσµάτων αϕού πρώτα επιλέξει ο χρήστης τα ονοµάτα των µέτρων, από την λίστα µε τα τρέχοντα µέτρα, και τα ονόµατα των χρονοσειρών από την λίστα µε τις τρέχουσες χρονοσειρές. Οι διαϕορετικοί αυτοί τρόποι γραϕικής αναπαράστασης των δεδοµένων, φαίνονται από το screen-shot στο Σχήµα
155 Σχήµα 7.3: Screen-shot από την επιλογή του MATS που ονοµάζεται Nonlinear Model Measures και καλείται µέσα από τη λειτουργική µονάδα Measure Selection Σχήµα 7.4: Screen-shot από το GUI View Measures για την επιλογή επτά διαϕορετικών τύπων γραφικής αναπαράστασης και µια επιλογή για εµϕάνιση των αποτελεσµάτων σε πίνακα. Το συνολικό περιεχόµενο της τρέχουσας λίστας µέτρων ή µέρους αυτής, µπορεί να εµϕανιστεί σε µορϕή πίνακα (table of measures) ή σε µορϕή ελεύθερου γραϕήµατος (free-plot). Επίσης όταν κάποια 137
156 µέτρα υπολογίζονται σε τµήµατα των χρονοσειρών, δίνεται η δυνατότητα δηµιουργίας γραϕηµάτων µε επιλογή των τµηµάτων των χρονοσειρών ως προς τα µέτρα αυτά (measure vs segment). Η λίστα που εµϕανίζεται µε τις χρονοσειρές στο παράθυρο διαλόγου για την δηµιουργία γραϕηµάτων, αποτελεί τµήµα του συνόλου των χρονοσειρών για τις οποίες υπολογίσθηκαν τα µέτρα, και περιλαµβάνει µόνο τα ονόµατα των χρονοσειρών που δηµιουργήθηκαν από την λειτουργία της τµηµατοποίησης τους. Το παράθυρο διαλόγου για την δηµιουργία γραϕηµάτων των µέτρων ως προς τις επαναδειγµατοληπτούµενες (measure vs resampled) χρονοσειρές έχει σχεδιαστεί µε παρόµοιο τρόπο. Για τις λειτουργίες των υπόλοιπων γραϕηµάτων, είναι διαθέσιµα προς επιλογή, τα ονόµατα όλων των χρονοσειρών για τις οποίες υπολογίσθηκαν µέτρα. Συγκεκριµένα, στην λίστα µε τα ονόµατα των χρονοσειρών που εµϕανίζονται στην επιλογή γραϕηµάτων των µέτρων ως προς τις υποκατάστατες χρονοσειρές, περιλαµβάνεται και η αρχική χρονοσειρά στην οποία δίνεται ο δείκτης 0 πάνω στο γράϕηµα. Επιπλέον εκτελείται παραµετρικός και ένα µη-παραµετρικός έλεγχος. Στο παραµετρικό τεστ υποθέτουµε ότι υπάρχει κανονική κατανοµή των τιµών των µέτρων που υπολογίστηκαν στις υποκατάστατες χρονοσειρές. Στο µη-παραµετρικό έλεγχο γίνεται διάταξη των τιµών των µέτρων που υπολογίσθηκαν στα πραγµατικά και στα υποκατάστατα δεδοµένα, σε αύξουσα σειρά. Ο έλεγχος αυτός εκτελείται για κάθε µέτρο και οι p-τιµές παρουσιάζονται επίσης στα γραϕήµατα Kugiumtzis (2002b). Για να αποτιµηθεί η εγκυρότητα του παραµετρικού εέγχου παρουσιάζεται επίσης στο γράϕηµα και η p-τιµή του ελέγχου κανονικότητας των Kolmogorov-Smirnov. Το γραϕικό περιβάλλον που οδηγεί στη δηµιουργία γραϕηµάτων των µέτρων ως προς τις παραµέτρους τους (σε διδιάστατα γραϕήµατα) (measure vs parameter) επιτρέπει στον χρήστη την επιλογή των παραµέτρων µέσα από λίστα που περιέχει όλες τις παραµέτρους ώστε να δώσει µεγαλύτερη έµϕαση στα µέτρα που τον ενδιαϕέρουν µέσα από την τρέχουσα λίστα µέτρων. Ακόµη και εάν υπάρχουν άσχετα µέτρα ανάµεσα σε αυτά που έχουν επιλεγεί, γεγονός που σηµαίνει ϑα υπάρχουν µέτρα που δεν ϑα πε- ϱιέχουν τον αντίστοιχο χαρακτήρα της επιλεγµένης παραµέτρου στην ονοµασία τους, αυτά ϑα αγνοηθούν επειδή γίνεται ο κατάλληλος έλεγχος για το εάν περιέχεται µέσα στο όνοµα του µέτρου ο αντίστοιχος χαρακτήρας της παραµέτρου,. Το ίδιο ισχύει και για τα γραϕήµατα τριών διαστάσεων που αϕορούν τα µέτρα ως προς δύο παραµέτρους τους, όπου µπορούν να επιλεχθούν οι δύο αυτές παράµετροι από τις αντίστοιχες λίστες. Από το παράθυρο που αϕορά τα διαγράµµατα διασποράς των µέτρων (measure scatter plot), δηµιουργούνται διδιάστατα γραϕήµατα διασποράς µε σηµεία από δύο επιλεγόµενα µέτρα. Τα σηµεία αυτά αντιστοιχούν στις τιµές των µέτρων για τις αντίστοιχες χρονοσειρές. Ενα ακόµη παράθυρο επιλογών δίνει την δυνατότητα για τριδιάστατα γραϕήµατα αϕού πρώτα έχουν επιλεγεί τρία διαϕορετικά µέτρα. Εϕαρµογή του MATS Η εργαλειοθήκη του MATS µπορεί να χρησιµοποιηθεί σε διάϕορες εϕαρµογές της ανάλυσης ϐάσεων δεδοµένων χρονοσειρών όπως οι παρακάτω : Ανίχνευση αλλαγής της συµπεριϕοράς του υποκείµενου δυναµικού συστήµατος που υπάρχει µέσα σε µεγάλες καταγραϕές δεδοµένων. Με το λογισµικό αυτό µπορούν εύκολα να υπολογισθούν µέτρα σε διαδοχικά τµήµατα από µεγάλες καταγραϕές δεδοµένων και να ανιχνευθούν απότοµες ή οµαλές αλλαγές στις τιµές των µέτρων ή ακόµη και τάσεις. Ελεγχοι υποκατάστατων χρονοσειρών για ανίχνευση µη-γραµµικότητας, όπου δίνεται η δυνατότητα για επιλογή διαϕορετικών αλγορίθµων δηµιουργίας υποκατάστατων δεδοµένων καθώς και για επιλογή διαϕόρων στατιστικών ελέγχων. ιαχωριστική ικανότητα διαϕορετικών µέτρων, όπου γίνεται σύγκριση µεταξύ τους ως προς την δυνατότητά τους να διαχωρίζουν διαϕορετικούς τύπους χρονοσειρών. Εκτίµηση της εξάρτησης ενός µέτρου από συγκεκριµένες παραµέτρους, µέσα από τα παρεχόµενα 138
157 γραϕήµατα των µέτρων ως προς τις παραµέτρους τους και µε την σύγκριση της εξάρτησης του µέτρου από τις παραµέτρους του για διαϕορετικούς τύπους χρονοσειρών. Συσταδοποίηση των χρονοσειρών ϐασισµένη σε τιµές των χαρακτηριστικών τους. Αυτό επιτυγχάνεται απλά και εύκολα, αρχικά µε τον υπολογισµό µιας οµάδας µέτρων πάνω σε µια οµάδα χρονοσειρών και στη συνέχεια µε την εµϕάνιση των συστάδων σε 2D ή 3D γραϕήµατα µε την επιλογή δύο ή τριών κατάλληλων χαρακτηριστικών. Εάν υπάρχει ανάγκη για ποσοτικά αποτελέσµατα, τότε, το διάνυσµα των µέτρων µπορεί να τροϕοδοτήσει έναν από τους πολλούς αλγορίθµους συσταδοποίησης. Το κοµµάτι αυτό αποτελεί επέκταση του MATS και είναι το αντικείµενο του λογισµικού που έχουµε αναπτύξει για τον σκοπό αυτό, το οποίο ασχολείται αποκλειστικά µε την εϕαρµογή αλγορίθµων εξόρυξης γνώσης πάνω σε ϐάσεις δεδοµένων κυρίως µε χαρακτηριστικά που έχουν υπολογισθεί από χρονοσειρές και ϑα το παρουσιάσουµε στην συνέχεια. 7.2 Το λογισµικό Tools for Data Mining (TDM). Από τις εϕαρµογές που παρέχουν εργαλεία για εξόρυξη δεδοµένων η πιο γνωστή µε πολλά παραδείγ- µατα αλλά και µε πολλούς ερευνητές να την έχουν εµπιστευτεί, είναι η εϕαρµογή ανοιχτού λογισµικού Weka (Hall et al., 2009). Η εϕαρµογή αυτή είναι γραµµένη σε Java και απαιτεί τη µορϕοποίηση των δεδοµένων σύµϕωνα µε τους κανόνες της ώστε να εκτελεστεί σωστά ο αλγόριθµος που επιλέχθηκε. Υπάρχουν εξειδικευµένες εϕαρµογές που διαθέτουν εργαλεία εξόρυξης δεδοµένων για ανάλυση χρονοσειρών και ειδικότερα EEG (Direito et al., 2008)( Για την επίτευξη των στόχων της διατριβής αυτής, και για την εκτέλεση διαϕόρων αλγορίθµων εξόρυξης γνώσης που δεν υπάρχουν σε άλλες εϕαρµογές, για την ενσωµάτωση τεχνικών που αναπτύξαµε, και για την επέκταση του λογισµικού MATS που τρέχει κάτω από την πλατϕόρµα του matlab, προχωρήσαµε στην ανάπτυξη ενός λογισµικού που ϑα συνδυάζει όλα τα παραπάνω. Το λογισµικό Tools for Data Mining (TDM) αναπτύχθηκε στην πλατϕόρµα του matlab και µπορεί να τρέχει σε όλες τις εκδόσεις που είναι µεγαλύτερες της έκδοσης 6.0. Με τη χρήση γραϕικού πε- ϱιβάλλοντος επικοινωνίας (GUI) και ακολουθώντας την φιλοσοϕία που υιοθετήθηκε στο MATS µπορεί µε εύκολο τρόπο να γίνει επιλογή χαρακτηριστικών µέτρων από από ένα σύνολο χαρακτηριστικών που έχουν υπολογιστεί στις χρονοσειρές και σε αυτά µπορούν να εϕαρµοστούν διάϕοροι αλγόριθµοι εξό- ϱυξης δεδοµένων. Στα εργαλεία που παρέχονται συµπεριλαµβάνονται : τεχνικές κανονικοποίησης των δεδοµένων (γραµµική, εκθετική, λογαριθµική, Gauss, z-score), µέθοδοι συσταδοποίησης (ιεραρχικές όπως απλού, µέσου και µέγιστου συνδέσµου, διαµεριστικές όπως ο k means), µέθοδοι επιλογής χα- ϱακτηριστικών (SVM-RFE, FSSwCRI, Mutual Information filter), µέθοδοι κατηγοριοποίησης (όπως ο simple distance-based algorithm (knn), SVM), δείκτες οµοιότητας οµάδων (όπως CRI, Jacard, Hamman, Phi κά), δείκτες ποιότητας οµάδων (όπως inter class, intra class distance, δείκτες Dunn και Davies-Bouldin) καθώς και κανόνες συσχέτισης (support, confidence, lifτ, αλγόριθµος apriori) Η δοµή του TDM Στην ενότητα αυτή ϑα παρουσιάσουµε σε συντοµία τη δοµή και τα ϐασικά χαρακτηριστικά της εργαλειοθήκης TDM. Το περιβάλλον χρήσης του προγράµµατος αποτελείται από πολλά στοιχεία τα οποία συγκεντρώνονται σε δύο λειτουργικές µονάδες, µία αϕορά τον χειρισµό των χρονοσειρών και των µέτρων που έχουν υπολογιστεί για την κάθε χρονοσειρά και η άλλη την εϕαρµογή τεχνικών και αλγορίθµων εξόρυξης δεδοµένων που περιγράψαµε αναλυτικότερα στο Κεϕάλαιο 2. Στην πρώτη λειτουργική µονάδα αντιστοιχούν τρείς λίστες που ϑα πρέπει ϐηµατικά να γεµίσουν µε τα απαραίτητα δεδοµένα. 139
158 Σχήµα 7.5: Το γραϕικό περιβάλλον της εϕαρµογής TDM Επιλογή και φόρτωση αρχείου µε χαρακτηριστικά από χρονοσειρές Στο Σχήµα 7.5 παρουσιάζεται η κεντρική φόρµα της εϕαρµογής µε τις ϐασικές λειτουργίες του TDM για κάθε µια από τις δύο λειτουργικές του µονάδες. Επιπλέον παρουσιάζονται και οι λειτουργίες που αϕορούν την απεικόνιση των χρονοσειρών και των µέτρων που επιλέχθηκαν σε µορϕή γραϕηµάτων. Στο αριστερό µέρος του Σχήµατος 7.5 φαίνονται οι τρείς λίστες για την επιλογή των γραµµών και στηλών καθώς και οι επιλογές για την ανάθεση των κλάσεων. Στην πρώτη λίστα (1.Select and load time series file) στα αριστερά και πάνω του Σχήµατος 7.5 εµϕανίζονται τα διαθέσιµα αρχεία του επιλεγµένου φακέλου που µπορεί να επιλέξει ο χρήστης για να φορτωθούν προς επεξεργασία. Τα αρχεία αυτά ϑα πρέπει να είναι αρχεία κειµένου (text files) σε µορϕή πίνακα, όπου οι γραµµές αντιστοιχούν στις χρονοσειρές και οι στήλες αντιστοιχούν στα χαρακτηριστικά που έχουν υπολογισθεί για την κάθε χρονοσειρά. Πατώντας διπλό κλικ σε κάποιο από τα αρχεία τα δεδοµένα του φορτώνονται µε αποτέλεσµα οι δείκτες των γραµµών και των στηλών να εµϕανίζονται σε δυο λίστες αντίστοιχα (κάτω αριστερά του Σχήµατος 7.5). Αϕού φορτωθεί µε τον τρόπο αυτό ένα αρχείο, στην συνέχεια, από την πρώτη λίστα µπορούν να επιλεγούν (µε ctrl+clik ή shift+clik) πλήθος οµοειδών αρχείων για τα οποία επιθυµεί ο χρήστης να γίνει όµοια εξόρυξη δεδοµένων όπως στο πρώτο. Αυτή η δυνατότητα είναι κάτι που δεν υπάρχει σε άλλες εϕαρµογές στις οποίες η οποιαδήποτε ανάλυση γίνεται για ένα αρχείο δεδοµένων τη φορά. Τα αρχεία που µπορεί να φορτώσει ο χρήστης µπορεί να προέρχονται από την αποθήκευση που πιθανόν να είχε γίνει πριν, µέσα από την χρήση του λογισµικού MATS. Υπάρχει συµβατότητα µεταξύ της µορϕής αποθήκευσης των αρχείων από το MATS και της ανάγνωσης από το TDM. 140
159 Επιλογή µιας η περισσοτέρων γραµµών και ορισµός κλάσεων Στην λίστα (2.Select one or more time series) στα αριστερά και κάτω του Σχήµατος 7.5 εµϕανίζονται οι γραµµές που αντιστοιχούν στις χρονοσειρές για τις οποίες υπολογίσθηκε πλήθος µέτρων που έχει φορτωθεί προς επεξεργασία. Ο χρήστης µπορεί να χωρίσει τις γραµµές σε πολλές οµάδες και να επιλέξει συγκεκριµένες γραµµές ή όλες µε τους συνδυασµούς πλήκτρων ctrl+clik για πολλές διαϕορετικές επιλογές γραµµών ή µε shift+clik για συνεχόµενες γραµµές της λίστας 2. Αϕού έχει ολοκληρωθεί πρώτα η επιλογή των επιθυµητών γραµµών τότε µπορεί να γίνει η ανάθεση των γραµµών στις κλάσεις που ανήκουν. Σε ένα πλαίσιο κειµένου µε τίτλο Class Nr ο χρήστη ορίζει την κλάση που επιθυµεί να έχει µια από τις οµάδες γραµµών που έχει επιλέξει και µε το κουµπί Set Class Label ορίζει την ετικέτα της κλάσης για τις γραµµές αυτές. Επιλογή ενός η περισσοτέρων χαρακτηριστικών Στην λίστα (3.Select one or more features) εµϕανίζονται οι δείκτες που αϕορούν τις στήλες του αρχείου που φορτώθηκε αρχικά στην µνήµη, οι οποίες αντιστοιχούν στα χαρακτηριστικά µέτρα που υπολογίσθηκαν για κάθε χρονοσειρά. Οπως και στη λίστα 2 έτσι και στη λίστα αυτή ο χρήστης µπορεί να χωρίσει τις στήλες σε πολλές οµάδες και να επιλέξει είτε συγκεκριµένα χαρακτηριστικά ή συνεχόµενα ή όλα, µε τους συνδυασµούς πλήκτρων ctrl+clik για πολλές διαϕορετικές επιλογές στηλών ή µε shift+clik για συνεχόµενες στήλες αντίστοιχα. Εάν υπάρχουν σε κάποιο αρχείο αποθηκευµένα τα ονόµατα των χαρακτηριστικών µέτρων που αντιστοιχούν σε κάθε στήλη, µπορεί να φορτωθεί το αρχείο αυτό από την επιλογή Load File with Feature Names για να µπορεί ο χρήστης να διευκολυνθεί στην επιλογή των χαρακτηριστικών από την τρίτη λίστα. Μπορεί φυσικά να αλλάξει τις επιλογές γραµµών στηλών και ορισµού κλάσεων αϕού τελικά αντιστοιχίσει τα δεδοµένα στις αντίστοιχες κλάσεις µε το κουµπί Mark and Save Selection µπορεί να αποθηκεύσεις αυτές τις επιλογές του. Στο αριστερό µέρος του Σχήµατος 7.5 φαίνονται οι δυνατότητες που έχει ο χρήστης για να επιλέξει και να εϕαρµόσει έναν από τους διαθέσιµους αλγόριθµους εξόρυξης δεδοµένων στις γραµµές και στήλες των αρχείων που επέλεξε στην προηγούµενη φάση. Η διαδικασία που ϑα πρέπει να ακολουθήσει για τον σκοπό αυτό είναι η παρακάτω : Επιλογή µεθόδου εξόρυξης δεδοµένων Στην αναδιπλούµενη λίστα επιλογών µε τίτλο (Select clustering method or svm) εµϕανίζονται οι διαθέσιµες µέθοδοι συσταδοποίησης και κατηγοριοποίησης. Μετά την επιλογή της µεθόδου από την αναδιπλούµενη λίστα, ακριβώς από κάτω εµϕανίζονται οι αντίστοιχες παράµετροι για την κάθε µέθοδο µε τις προεπιλεγµένες τιµές τους. Για παράδειγµα αν ο χρήστης επιλέξει τη µέθοδο συσταδοποίησης k-means τότε οι ελεύθερες παράµετροι που ϑα εµϕανιστούν είναι : - το µέτρο της απόστασης (distance) σύµϕωνα µε την οποία ϑα υπολογισθούν οι αποστάσεις των σηµείων µεταξύ των συστάδων. Οι διαθέσιµες αποστάσεις που µπορεί να επιλέξει ο χρήστης είναι η Ευκλείδεια απόσταση (L 2 ), η µέγιστη απόσταση (L m ax), η city-block (L 1 ) και η απόσταση Pearson - ο αριθµός k των συστάδων (Nr of clusters) που ϑα γίνει η συσταδοποίηση - ο αριθµός επαναλήψεων (replication) της συσταδοποίησης µε τον k-means ώστε να υπάρξει σύγκλιση αποτελεσµάτων. Οι διαθέσιµοι αλγόριθµοι συσταδοποίησης που µπορεί να επιλέξει ο χρήστης είναι : ο διαµεριστικός αλγόριθµος k-means (Hartigan and Wong, 1979), ο διαµεριστικός αλγόριθµος ISODATA 2D (Ball and Hall, 1965), οι ιεραρχικοί αλγόριθµοι : απλού συνδέσµου (single linkage), µέγιστου συνδέσµου (complete linkage) µέσου συνδέσµου (average linkage), κεντροειδών σηµείων (centroid method), και ο ιεραρχικός αλγόριθµος επιτήρησης (Ward s method) που χρησιµοποιείται κυρίως για κατηγορικά 141
160 δεδοµένα (Dunham, 2002), η µέθοδος SVM-RFE που ϐασίζεται στις µηχανές διανυσµάτων υποστήριξης (Guyon et al., 2002), το απλό φίλτρο αµοιβαίας πληροϕορίας (Mutual information filter) (Zaffalon and Hutter, 2002) και τέλος ένα απλό φίλτρο γραµµικού διαχωρισµού για επιλογή χαρακτηριστικών (separability filter) (Fisher, 1936). Επιλογή µεθόδου τυποποίησης δεδοµένων Στην λίστα επιλογών µε τίτλο (Select one standardization) εµϕανίζονται οι διαθέσιµες µέθοδοι τυποποίησης των δεδοµένων που τις περιγράψαµε αναλυτικότερα στη ενότητα 3.5. Ο χρήστης µπορεί να επιλέξει να τυποποιήσει τα δεδοµένα πριν από την εϕαρµογή οποιουδήποτε αλγορίθµου εξόρυξης δεδοµένων έτσι ώστε οι τιµές όλων των στηλών µε τα χαρακτηριστικά των χρονοσειρών να ϐρίσκονται στην ίδια κλίµακα χωρίς να έχουν διαϕορετικό ϐάρος που ϑα οϕείλεται στη διαϕορά κλίµακας των τιµών. Οι διαθέσιµες µέθοδοι είναι : η γραµµική (linear), της διασποράς (zscore), η λογιστική ή αλλιώς εκθετική (Logistic), η Γκαουσιανή (Gaussian) και η λογαριθµική (Logarithmic). ίνεται επίσης η δυνατότητα στο χρήστη να µην επιλέξει κάποια µέθοδο τυποποίησης για τα δεδοµένα. Αϕού γίνει η επιλογή των αρχείων, των γραµµών, των στηλών, οριστούν οι κλάσεις, επιλεγεί µέθοδος συσταδοποίησης ή κατηγοριοποίησης και ϱυθµιστούν οι παράµετροί τους, και τέλος επιλεχθεί η µέθοδος τυποποίησης των δεδοµένων, τότε ο χρήστης µπορεί να εκτελέσει την µέθοδο συσταδοποίησης που επέλεξε. Εχει δυνατότητα να εκτελέσει τη µέθοδο συσταδοποίησης που επέλεξε µε τις αντίστοιχες παρα- µέτρους για το πρώτο από τα αρχεία που επέλεξε, πιέζοντας το κουµπί Run Clustering Once. Μπορεί επίσης να προβάλει σε δύο διαστάσεις, στο γράϕηµα πάνω δεξιά, είτε την κατάταξη των δεδοµένων σε κλάσεις είτε τα αποτελέσµατα της συστατοποίησης σε µορϕή γραϕήµατος διασποράς µε τα δύο πρώτα χαρακτηριστικά που επιλέχθηκαν. Το σηµαντικό όµως είναι ότι µπορεί να εκτελέσει τον ίδιο αλγόριθµο συσταδοποίησης για όλα τα επιλεγµένα αρχεία κρατώντας τις ίδιες παραµέτρους και επιλογές, πιέζοντας το κουµπί Run Clustering for all selected files. Μια ακόµη δυνατότητα που παρέχεται είναι η δυνατότητα αποτίµησης της απόδοσης δύο συσταδοποιήσεων από δύο διαϕορετικά αρχεία. Μπορούν να κρατηθούν οι κλάσεις που ανατέθηκαν στα δείγµατα χρονοσειρών µετά από την εϕαρµογή της πρώτης συσταδοποίησης σε ένα αρχείο δεδοµένων και να συγκριθούν µε τις κλάσεις που ϑα προκύψουν από την εκτέλεση της επόµενης συσταδοποίησης σε άλλο αρχείο. Αυτό επιτυγχάνεται µε το πάτηµα του κουµπιού Set Clustering Classes µετά την πρώτη συσταδοποίηση. Επιλογή υποσυνόλου χαρακτηριστικών Αϕού γίνουν όλα τα παραπάνω και ο χρήστης είναι ικανοποιηµένος από τα αποτελέσµατα της συσταδοποίησης ή κατηγοριοποίησης των δεδοµένων του, µπορεί χρησιµοποιώντας τον ίδιο αλγόριθµο να εκτελέσει µια διαδικασία επιλογής ϐέλτιστου υποσυνόλου χαρακτηριστικών επιλέγοντας το πλαίσιο ελέγχου Run Feature Selection?. Με την δυνατότητα αυτή εµϕανίζεται ένα πλαίσιο µε άλλες παραµέτρους που αϕορούν το κατώϕλι ή το πλήθος των χαρακτηριστικών που ϑέλει να επιλέξει ο χρήστης και τον συντελεστή οµοιότητας σύµϕωνα µε τον οποίο ϑα γίνει η αξιολόγηση της οµοιότητας των συστάδων που ϑα προκύψουν από την συσταδοποίηση ως προς τις πραγµατικές κλάσεις. Τέλος µε το πάτηµα του κουµπιού Run FSS Once εµϕανίζονται δύο αποτελέσµατα στο κέντρο του πλαισίου, η ϐέλτιστη υποοµάδα χαρακτηριστικών που επιλέχτηκε και η τιµή του δείκτη οµοιότητας. Η διαδικασία αυτή µπο- ϱεί να εκτελεστεί για όλα τα αρχεία δεδοµένων, που επιλέχθηκαν στα προηγούµενα ϐήµατα, πιέζοντας απλά το κουµπί Run FSS for all selected files. Τα αποτελέσµατα µε τις επιλεγµένες υποοµάδες χα- ϱακτηριστικών και την αποτίµησή τους, εκτός του ότι εµϕανίζονται στο πλαίσιο αυτό, αποθηκεύονται ταυτόχρονα και σε ένα αρχείο που µπορεί να χρησιµοποιηθεί µελλοντικά όπως π.χ. για την εύρεση κανόνων συσχέτισης µεταξύ των χαρακτηριστικών που απαρτίζουν τις ϐέλτιστες υποοµάδες. Στην συνέχεια 142
161 παρουσιάζουµε τους διαθέσιµους δείκτες οµοιότητας που µπορούν να επιλεχθούν ώστε να αποτιµηθεί η απόδοση του κάθε αλγορίθµου περιτυλίγµατος ή φίλτρου που επιλέχθηκε. Επιλογή δείκτη οµοιότητας δεδοµένων Οταν γίνεται σύγκριση δύο διαϕορετικών οµάδων δεδοµένων χρησιµοποιείται συνήθως ένας δείκτης οµοιότητας (ή ανοµοιότητας) που αποτιµά το µέγεθος της οµοιότητας (ή ανοµοιότητας). Οι πιο γνωστοί δείκτες που χρησιµοποιούνται κυρίως στην ϐιβλιογραϕία είναι ο λόγος σϕάλµατος κατηγοριοποίησης (classification error rate, ER), η ακρίβεια κατηγοριοποίησης (classification accuracy, AC) και ο δείκτης CRI (Hubert and Arabie, 1985). Εκτός από τους τρείς αυτούς δείκτες υπάρχουν και άλλοι που τους ενσωµατώσαµε στο λογισµικό αυτό ώστε να µπορεί ο χρήστης να έχει και άλλες επιλογές. Οι επιπλέον αυτοί δείκτες είναι : ο δείκτης Jaccard, ο δείκτης Simple matching-sm, ο δείκτης Yule, ο δείκτης Hamman, ο δείκτης Sorenson, ο δείκτης Rogers and Tanimoto, ο δείκτης Sokai and Sneath, ο δείκτης Russel and Rao, ο δείκτης Barroni and Buser, ο δείκτης Socal binary distance, ο δείκτης Ochial και ο δείκτης Phi (Balestre et al., 2008). Με την επιλογή του δείκτη CRI µπορεί να γίνει σύγκριση µεταξύ οµάδων διαϕορετικού πλήθους συστάδων που προκύπτουν µετά από την εκτέλεση των αλγορίθµων συσταδοποίησης. Επίσης οι τιµές του δείκτη CRI παρουσιάζουν καλύτερη κλιµάκωση συγκριτικά µε το δείκτη ER ο οποίος συνήθως χρησιµοποιείται για την αξιολόγηση προβληµάτων κατηγοριοποίησης όπως αναϕέρθηκε στην ενότητα Σχήµα 7.6: Κανόνες συσχέτισης µέσα από το περιβάλλον του TDM Κανόνες συσχέτισης µέσα από το περιβάλλον του TDM Πιέζοντας το κουµπί Association Rule Mining εµϕανίζεται ένα νέο γραϕικό περιβάλλον επικοινωνίας µέσα από το οποίο µπορεί να επιλεχθεί ένα αρχείο κειµένου που να έχει διαχωρισµένες τις στήλες µε κάποιον χαρακτήρα, και να περιέχει σε κάθε στήλη τον αριθµό του µέτρου που επιλέχθηκε µέσα από τη διαδικασία επιλογής χαρακτηριστικών του TDM. Σε αυτό το παράθυρο µπορούν να ϐρεθούν και 143
Τεχνικές Εξόρυξης Δεδομένων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:
Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589)
Ανάλυση σχημάτων βασισμένη σε μεθόδους αναζήτησης ομοιότητας υποακολουθιών (C589) Μεγαλοοικονόμου Βασίλειος Τμήμα Μηχ. Η/ΥκαιΠληροφορικής Επιστημονικός Υπεύθυνος Στόχος Προτεινόμενου Έργου Ανάπτυξη μεθόδων
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων
Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση
Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.
Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΜΟΝΟ-ΜΕΤΑΒΛΗΤΩΝ ΧΡΟΝΟΣΕΙΡΩΝ ΜΕ ΕΠΙΛΕΓΜΕΝΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗ ΔΙΑΓΝΩΣΗ ΕΠΙΛΗΨΙΑΣ
Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 27 ου Πανελληνίου Συνεδρίου Στατιστικής (2014), σελ.279-293 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΜΟΝΟ-ΜΕΤΑΒΛΗΤΩΝ ΧΡΟΝΟΣΕΙΡΩΝ ΜΕ ΕΠΙΛΕΓΜΕΝΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΣΤΗ ΔΙΑΓΝΩΣΗ ΕΠΙΛΗΨΙΑΣ
ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΜΗΤΡΙΚΟΣ ΘΗΛΑΣΜΟΣ ΚΑΙ ΓΝΩΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΜΕΧΡΙ ΚΑΙ 10 ΧΡΟΝΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Ονοματεπώνυμο Κεντούλλα Πέτρου Αριθμός Φοιτητικής Ταυτότητας 2008761539 Κύπρος
ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ
Σχολή Mηχανικής και Τεχνολογίας Πτυχιακή εργασία ΒΕΛΤΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΕΡΓΑΣΤΗΡΙΟΥ ΕΛΕΓΧΟΥ ΠΟΙΟΤΗΤΑΣ ΚΑΙ ΕΦΑΡΜΟΓΗ ΕΡΓΑΛΕΙΩΝ ΔΙΑΣΦΑΛΙΣΗΣ ΠΟΙΟΤΗΤΑΣ ΣΕ ΜΕΤΑΛΛΟΒΙΟΜΗΧΑΝΙΑ Στέλιος Καράσαββας Λεμεσός, Μάιος 2017
ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ
Σχολή Μηχανικής & Τεχνολογίας Τμήμα Πολιτικών & Μηχανικών Γεωπληροφορικής Μεταπτυχιακή διατριβή ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΑΓΧΟΣ ΚΑΙ ΚΑΤΑΘΛΙΨΗ ΣΕ ΓΥΝΑΙΚΕΣ ΜΕ ΚΑΡΚΙΝΟΥ ΤΟΥ ΜΑΣΤΟΥ ΜΕΤΑ ΑΠΟ ΜΑΣΤΕΚΤΟΜΗ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή εργασία ΑΓΧΟΣ ΚΑΙ ΚΑΤΑΘΛΙΨΗ ΣΕ ΓΥΝΑΙΚΕΣ ΜΕ ΚΑΡΚΙΝΟΥ ΤΟΥ ΜΑΣΤΟΥ ΜΕΤΑ ΑΠΟ ΜΑΣΤΕΚΤΟΜΗ ΧΡΥΣΟΒΑΛΑΝΤΗΣ ΒΑΣΙΛΕΙΟΥ ΛΕΜΕΣΟΣ 2014 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ
«ΑΝΑΠΣΤΞΖ ΓΠ ΚΑΗ ΥΩΡΗΚΖ ΑΝΑΛΤΖ ΜΔΣΔΩΡΟΛΟΓΗΚΩΝ ΓΔΓΟΜΔΝΩΝ ΣΟΝ ΔΛΛΑΓΗΚΟ ΥΩΡΟ»
ΓΔΩΠΟΝΗΚΟ ΠΑΝΔΠΗΣΖΜΗΟ ΑΘΖΝΩΝ ΣΜΗΜΑ ΑΞΙΟΠΟΙΗΗ ΦΤΙΚΩΝ ΠΟΡΩΝ & ΓΕΩΡΓΙΚΗ ΜΗΥΑΝΙΚΗ ΣΟΜΕΑ ΕΔΑΦΟΛΟΓΙΑ ΚΑΙ ΓΕΩΡΓΙΚΗ ΥΗΜΕΙΑ ΕΙΔΙΚΕΤΗ: ΕΦΑΡΜΟΓΕ ΣΗ ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ ΣΟΤ ΦΤΙΚΟΤ ΠΟΡΟΤ «ΑΝΑΠΣΤΞΖ ΓΠ ΚΑΗ ΥΩΡΗΚΖ ΑΝΑΛΤΖ ΜΔΣΔΩΡΟΛΟΓΗΚΩΝ
Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη
Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης
Πτυχιακή διατριβή. Η επίδραση της τασιενεργής ουσίας Ακεταλδεΰδης στη δημιουργία πυρήνων συμπύκνωσης νεφών (CCN) στην ατμόσφαιρα
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Πτυχιακή διατριβή Η επίδραση της τασιενεργής ουσίας Ακεταλδεΰδης στη δημιουργία πυρήνων συμπύκνωσης νεφών (CCN)
Other Test Constructions: Likelihood Ratio & Bayes Tests
Other Test Constructions: Likelihood Ratio & Bayes Tests Side-Note: So far we have seen a few approaches for creating tests such as Neyman-Pearson Lemma ( most powerful tests of H 0 : θ = θ 0 vs H 1 :
ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. ΘΕΜΑ: «ιερεύνηση της σχέσης µεταξύ φωνηµικής επίγνωσης και ορθογραφικής δεξιότητας σε παιδιά προσχολικής ηλικίας»
ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΑΝΘΡΩΠΙΣΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΠΡΟΣΧΟΛΙΚΗΣ ΑΓΩΓΗΣ ΚΑΙ ΤΟΥ ΕΚΠΑΙ ΕΥΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ «ΠΑΙ ΙΚΟ ΒΙΒΛΙΟ ΚΑΙ ΠΑΙ ΑΓΩΓΙΚΟ ΥΛΙΚΟ» ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ που εκπονήθηκε για τη
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή. Ονοματεπώνυμο: Αργυρώ Ιωάννου. Επιβλέπων καθηγητής: Δρ. Αντρέας Χαραλάμπους
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή διατριβή Διερεύνηση της αποτελεσματικότητας εναλλακτικών και συμπληρωματικών τεχνικών στη βελτίωση της ποιότητας της ζωής σε άτομα με καρκίνο
CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS
CHAPTER 5 SOLVING EQUATIONS BY ITERATIVE METHODS EXERCISE 104 Page 8 1. Find the positive root of the equation x + 3x 5 = 0, correct to 3 significant figures, using the method of bisection. Let f(x) =
ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ. Υποβάλλεται στην
ΑΠΟΔΟΤΙΚΗ ΑΠΟΤΙΜΗΣΗ ΕΡΩΤΗΣΕΩΝ OLAP Η ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΕΞΕΙΔΙΚΕΥΣΗΣ Υποβάλλεται στην ορισθείσα από την Γενική Συνέλευση Ειδικής Σύνθεσης του Τμήματος Πληροφορικής Εξεταστική Επιτροπή από την Χαρά Παπαγεωργίου
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΣΤΡΑΤΗΓΙΚΗ ΑΜΕΣΕΣ ΞΕΝΕΣ ΕΠΕΝΔΥΣΕΙΣ ΣΕ ΕΥΡΩΠΑΙΚΕΣ ΧΩΡΕΣ Αθανάσιος Νταραβάνογλου Διπλωματική
Statistical Inference I Locally most powerful tests
Statistical Inference I Locally most powerful tests Shirsendu Mukherjee Department of Statistics, Asutosh College, Kolkata, India. shirsendu st@yahoo.co.in So far we have treated the testing of one-sided
Η Επίδραση των Events στην Απόδοση των Μετοχών
Χρηματοοικονομικά και Διοίκηση Μεταπτυχιακή διατριβή Η Επίδραση των Events στην Απόδοση των Μετοχών Άντρεα Φωτίου Λεμεσός, Μάιος 2018 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΔΙΟΙΚΗΣΗΣ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΔΟΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΛΙΚΩΝ Εξαγωγή χαρακτηριστικών μαστογραφικών μαζών και σύγκριση
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Επιβλέπων Καθηγητής: Δρ. Νίκος Μίτλεττον Η ΣΧΕΣΗ ΤΟΥ ΜΗΤΡΙΚΟΥ ΘΗΛΑΣΜΟΥ ΜΕ ΤΗΝ ΕΜΦΑΝΙΣΗ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 2 ΣΤΗΝ ΠΑΙΔΙΚΗ ΗΛΙΚΙΑ Ονοματεπώνυμο: Ιωσηφίνα
Η θέση ύπνου του βρέφους και η σχέση της με το Σύνδρομο του αιφνίδιου βρεφικού θανάτου. ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Η θέση ύπνου του βρέφους και η σχέση της με το Σύνδρομο του αιφνίδιου βρεφικού θανάτου. Χρυσάνθη Στυλιανού Λεμεσός 2014 ΤΕΧΝΟΛΟΓΙΚΟ
Buried Markov Model Pairwise
Buried Markov Model 1 2 2 HMM Buried Markov Model J. Bilmes Buried Markov Model Pairwise 0.6 0.6 1.3 Structuring Model for Speech Recognition using Buried Markov Model Takayuki Yamamoto, 1 Tetsuya Takiguchi
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΠΟΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΒΙΟΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΤΡΟΦΙΜΩΝ. Πτυχιακή εργασία
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΠΟΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΒΙΟΤΕΧΝΟΛΟΓΙΑΣ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΤΡΟΦΙΜΩΝ Πτυχιακή εργασία ΜΕΛΕΤΗ ΠΟΛΥΦΑΙΝΟΛΩΝ ΚΑΙ ΑΝΤΙΟΞΕΙΔΩΤΙΚΗΣ ΙΚΑΝΟΤΗΤΑΣ ΣΟΚΟΛΑΤΑΣ Αναστασία Σιάντωνα Λεμεσός
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:
Η ΨΥΧΙΑΤΡΙΚΗ - ΨΥΧΟΛΟΓΙΚΗ ΠΡΑΓΜΑΤΟΓΝΩΜΟΣΥΝΗ ΣΤΗΝ ΠΟΙΝΙΚΗ ΔΙΚΗ
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΝΟΜΙΚΗ ΣΧΟΛΗ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΟΜΕΑΣ ΙΣΤΟΡΙΑΣ ΦΙΛΟΣΟΦΙΑΣ ΚΑΙ ΚΟΙΝΩΝΙΟΛΟΓΙΑΣ ΤΟΥ ΔΙΚΑΙΟΥ Διπλωματική εργασία στο μάθημα «ΚΟΙΝΩΝΙΟΛΟΓΙΑ ΤΟΥ ΔΙΚΑΙΟΥ»
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΝΑΥΤΙΛΙΑΚΩΝ ΣΠΟΥΔΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΝΑΥΤΙΛΙΑ ΝΟΜΙΚΟ ΚΑΙ ΘΕΣΜΙΚΟ ΦΟΡΟΛΟΓΙΚΟ ΠΛΑΙΣΙΟ ΚΤΗΣΗΣ ΚΑΙ ΕΚΜΕΤΑΛΛΕΥΣΗΣ ΠΛΟΙΟΥ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ που υποβλήθηκε στο
ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙO ΑΘΗΝΩΝ ΤΜΗΜΑ ΑΞΙΟΠΟΙΗΣΗΣ ΦΥΣΙΚΩΝ ΠΟΡΩΝ & ΓΕΩΡΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ
ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙO ΑΘΗΝΩΝ ΤΜΗΜΑ ΑΞΙΟΠΟΙΗΣΗΣ ΦΥΣΙΚΩΝ ΠΟΡΩΝ & ΓΕΩΡΓΙΚΗΣ ΜΗΧΑΝΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΓΕΩΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΟΥΣ ΦΥΣΙΚΟΥΣ ΠΟΡΟΥΣ» «Χωρικά μοντέλα πρόβλεψης αναβλάστησης
HIV HIV HIV HIV AIDS 3 :.1 /-,**1 +332
,**1 The Japanese Society for AIDS Research The Journal of AIDS Research +,, +,, +,, + -. / 0 1 +, -. / 0 1 : :,**- +,**. 1..+ - : +** 22 HIV AIDS HIV HIV AIDS : HIV AIDS HIV :HIV AIDS 3 :.1 /-,**1 HIV
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΠΕΡΙΒΑΛΛΟΝΤΟΣ
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΣΧΟΛΗ ΜΗΧΑΝΙΚΩΝ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Τομέας Περιβαλλοντικής Υδραυλικής και Γεωπεριβαλλοντικής Μηχανικής (III) Εργαστήριο Γεωπεριβαλλοντικής Μηχανικής TECHNICAL UNIVERSITY OF CRETE SCHOOL of
«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»
Σχολή Επιστημών Υγείας Τμήμα Αποκατάστασης ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ «Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής» Χρυσάνθη Μοδέστου Λεμεσός, Μάιος,
Nov Journal of Zhengzhou University Engineering Science Vol. 36 No FCM. A doi /j. issn
2015 11 Nov 2015 36 6 Journal of Zhengzhou University Engineering Science Vol 36 No 6 1671-6833 2015 06-0056 - 05 C 1 1 2 2 1 450001 2 461000 C FCM FCM MIA MDC MDC MIA I FCM c FCM m FCM C TP18 A doi 10
Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ
Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Διπλωματική Εργασία Μεταπτυχιακού Προγράμματος στην Εφαρμοσμένη Πληροφορική Κατεύθυνση: Συστήματα Υπολογιστών
ΠΩΣ ΕΠΗΡΕΑΖΕΙ Η ΜΕΡΑ ΤΗΣ ΕΒΔΟΜΑΔΑΣ ΤΙΣ ΑΠΟΔΟΣΕΙΣ ΤΩΝ ΜΕΤΟΧΩΝ ΠΡΙΝ ΚΑΙ ΜΕΤΑ ΤΗΝ ΟΙΚΟΝΟΜΙΚΗ ΚΡΙΣΗ
Σχολή Διοίκησης και Οικονομίας Κρίστια Κυριάκου ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΕΜΠΟΡΙΟΥ,ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΝΑΥΤΙΛΙΑΣ Της Κρίστιας Κυριάκου ii Έντυπο έγκρισης Παρουσιάστηκε
ΣΤΑΤΙΚΗ ΜΗ ΓΡΑΜΜΙΚΗ ΑΝΑΛΥΣΗ ΚΑΛΩ ΙΩΤΩΝ ΚΑΤΑΣΚΕΥΩΝ
1 ΕΘΝΙΚΟ ΜΕΤΣΟΒΟ ΠΟΛΥΤΕΧΝΕΙΟ Σχολή Πολιτικών Μηχανικών ΠΜΣ οµοστατικός Σχεδιασµός και Ανάλυση Κατασκευών Εργαστήριο Μεταλλικών Κατασκευών Μεταπτυχιακή ιπλωµατική Εργασία ΣΤΑΤΙΚΗ ΜΗ ΓΡΑΜΜΙΚΗ ΑΝΑΛΥΣΗ ΚΑΛΩ
Approximation of distance between locations on earth given by latitude and longitude
Approximation of distance between locations on earth given by latitude and longitude Jan Behrens 2012-12-31 In this paper we shall provide a method to approximate distances between two points on earth
«ΑΓΡΟΤΟΥΡΙΣΜΟΣ ΚΑΙ ΤΟΠΙΚΗ ΑΝΑΠΤΥΞΗ: Ο ΡΟΛΟΣ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΤΩΝ ΓΥΝΑΙΚΕΙΩΝ ΣΥΝΕΤΑΙΡΙΣΜΩΝ»
I ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΝΟΜΙΚΩΝ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΠΟΛΙΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΟΙΚΟΝΟΜΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ «ΔΙΟΙΚΗΣΗ ΚΑΙ ΟΙΚΟΝΟΜΙΑ» ΚΑΤΕΥΘΥΝΣΗ: ΟΙΚΟΝΟΜΙΚΗ
Διακριτικές Συναρτήσεις
Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New
ΔΙΠΛΩΜΑΣΙΚΗ ΕΡΓΑΙΑ. του φοιτητή του Σμήματοσ Ηλεκτρολόγων Μηχανικών και. Σεχνολογίασ Τπολογιςτών τησ Πολυτεχνικήσ χολήσ του. Πανεπιςτημίου Πατρών
ΠΑΝΕΠΙΣΗΜΙΟ ΠΑΣΡΩΝ ΣΜΗΜΑ ΗΛΕΚΣΡΟΛΟΓΩΝ ΜΗΦΑΝΙΚΩΝ ΚΑΙ ΣΕΦΝΟΛΟΓΙΑ ΤΠΟΛΟΓΙΣΩΝ ΣΟΜΕΑ: ΗΛΕΚΣΡΟΝΙΚΗ ΚΑΙ ΤΠΟΛΟΓΙΣΩΝ ΕΡΓΑΣΗΡΙΟ ΗΛΕΚΣΡΟΝΙΚΩΝ ΤΠΟΛΟΓΙΣΩΝ ΔΙΠΛΩΜΑΣΙΚΗ ΕΡΓΑΙΑ του φοιτητή του Σμήματοσ Ηλεκτρολόγων Μηχανικών
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή Εργασία
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή Εργασία Η ΑΠΟΤΕΛΕΣΜΑΤΙΚΟΤΗΤΑ ΚΑΙ ΑΝΕΚΤΙΚΟΤΗΤΑ ΤΗΣ ΛΑΚΟΣΑΜΙΔΗΣ ΣΕ ΠΑΙΔΙΑ ΜΕ ΦΑΡΜΑΚΟΑΝΘΕΚΤΙΚΗ ΕΣΤΙΑΚΗ ΕΠΙΛΗΨΙΑ Κωνσταντίνα Κυπριανού Α.Τ.:
Quick algorithm f or computing core attribute
24 5 Vol. 24 No. 5 Cont rol an d Decision 2009 5 May 2009 : 100120920 (2009) 0520738205 1a, 2, 1b (1. a., b., 239012 ; 2., 230039) :,,.,.,. : ; ; ; : TP181 : A Quick algorithm f or computing core attribute
Σύστημα ψηφιακής επεξεργασίας ακουστικών σημάτων με χρήση προγραμματιζόμενων διατάξεων πυλών. Πτυχιακή Εργασία. Φοιτητής: ΤΣΟΥΛΑΣ ΧΡΗΣΤΟΣ
Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Τμήμα Ηλεκτρονικών Μηχανικών Τ.Ε. Σύστημα ψηφιακής επεξεργασίας ακουστικών σημάτων με χρήση προγραμματιζόμενων διατάξεων πυλών. Πτυχιακή Εργασία Φοιτητής:
ΖΩΝΟΠΟΙΗΣΗ ΤΗΣ ΚΑΤΟΛΙΣΘΗΤΙΚΗΣ ΕΠΙΚΙΝΔΥΝΟΤΗΤΑΣ ΣΤΟ ΟΡΟΣ ΠΗΛΙΟ ΜΕ ΤΗ ΣΥΜΒΟΛΗ ΔΕΔΟΜΕΝΩΝ ΣΥΜΒΟΛΟΜΕΤΡΙΑΣ ΜΟΝΙΜΩΝ ΣΚΕΔΑΣΤΩΝ
EΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΕΙΟ Τμήμα Μηχανικών Μεταλλείων-Μεταλλουργών ΖΩΝΟΠΟΙΗΣΗ ΤΗΣ ΚΑΤΟΛΙΣΘΗΤΙΚΗΣ ΕΠΙΚΙΝΔΥΝΟΤΗΤΑΣ ΜΕ ΤΗ ΣΥΜΒΟΛΗ ΔΕΔΟΜΕΝΩΝ ΣΥΜΒΟΛΟΜΕΤΡΙΑΣ ΜΟΝΙΜΩΝ ΣΚΕΔΑΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Κιτσάκη Μαρίνα
MIA MONTE CARLO ΜΕΛΕΤΗ ΤΩΝ ΕΚΤΙΜΗΤΩΝ RIDGE ΚΑΙ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ
«ΣΠΟΥΔΑΙ», Τόμος 41, Τεύχος 2ο, Πανεπιστήμιο Πειραιώς «SPOUDAI», Vol. 41, No 2, University of Piraeus MIA MONTE CARLO ΜΕΛΕΤΗ ΤΩΝ ΕΚΤΙΜΗΤΩΝ RIDGE ΚΑΙ ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΝΩΝ Του Πάνου Αναστ. Πανόπουλου Οικονομικό
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή εργασία ΤΟ ΚΑΠΜΝΙΣΜΑ ΩΣ ΠΑΡΑΓΟΝΤΑΣ ΥΨΗΛΟΥ ΚΙΝΔΥΝΟΥ ΓΙΑ ΠΡΟΚΛΗΣΗ ΥΠΟΓΟΝΙΜΟΤΗΤΑΣ ΣΤΟΥΣ ΑΝΔΡΕΣ Κατσαρής Γιάγκος Λεμεσός 2014 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ
ΑΝΑΠΤΥΞΗ ΣΕΝΑΡΙΩΝ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΚΑΙ ΤΗΣ ΥΔΡΟΗΛΕΚΤΡΙΚΗΣ ΠΑΡΑΓΩΓΗΣ ΤΟΥ ΥΔΡΟΣΥΣΤΗΜΑΤΟΣ ΤΟΥ ΠΟΤΑΜΟΥ ΝΕΣΤΟΥ
ΑΝΑΠΤΥΞΗ ΣΕΝΑΡΙΩΝ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΚΑΙ ΤΗΣ ΥΔΡΟΗΛΕΚΤΡΙΚΗΣ ΠΑΡΑΓΩΓΗΣ ΤΟΥ ΥΔΡΟΣΥΣΤΗΜΑΤΟΣ ΤΟΥ ΠΟΤΑΜΟΥ ΝΕΣΤΟΥ ΑΝΑΠΤΥΞΗ ΣΕΝΑΡΙΩΝ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΚΑΙ ΤΗΣ ΥΔΡΟΗΛΕΚΤΡΙΚΗΣ ΠΑΡΑΓΩΓΗΣ
Vol. 31,No JOURNAL OF CHINA UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb
Ξ 31 Vol 31,No 1 2 0 0 1 2 JOURNAL OF CHINA UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb 2 0 0 1 :025322778 (2001) 0120016205 (, 230026) : Q ( m 1, m 2,, m n ) k = m 1 + m 2 + + m n - n : Q ( m 1, m 2,, m
ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΤΗΣ ΕΠΙ ΟΣΗΣ ΤΩΝ ΦΟΙΤΗΤΩΝ ΥΟ ΑΚΑ ΗΜΑΪΚΩΝ ΤΜΗΜΑΤΩΝ ΕΝΟΣ ΑΕΙ ΩΣ ΠΡΟΣ ΤΟ ΣΥΣΤΗΜΑ ΕΙΣΑΓΩΓΗΣ ΤΟΥΣ ΣΤΗ ΤΡΙΤΟΒΑΘΜΙΑ ΕΚΠΑΙ ΕΥΣΗ
Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 17 ου Πανελληνίου Συνεδρίου Στατιστικής (2), σελ. 11-1 ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΤΗΣ ΕΠΙ ΟΣΗΣ ΤΩΝ ΦΟΙΤΗΤΩΝ ΥΟ ΑΚΑ ΗΜΑΪΚΩΝ ΤΜΗΜΑΤΩΝ ΕΝΟΣ ΑΕΙ ΩΣ ΠΡΟΣ ΤΟ ΣΥΣΤΗΜΑ ΕΙΣΑΓΩΓΗΣ
ΑΛΛΗΛΕΠΙ ΡΑΣΗ ΜΟΡΦΩΝ ΛΥΓΙΣΜΟΥ ΣΤΙΣ ΜΕΤΑΛΛΙΚΕΣ ΚΑΤΑΣΚΕΥΕΣ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ Τοµέας οµοστατικής Εργαστήριο Μεταλλικών Κατασκευών ΑΛΛΗΛΕΠΙ ΡΑΣΗ ΜΟΡΦΩΝ ΛΥΓΙΣΜΟΥ ΣΤΙΣ ΜΕΤΑΛΛΙΚΕΣ ΚΑΤΑΣΚΕΥΕΣ ιπλωµατική Εργασία Ιωάννη Σ. Προµπονά
ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ
Σχολή Μηχανικής και Τεχνολογίας Πτυχιακή εργασία ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ Ηλίας Κωνσταντίνου Λεμεσός,
Test Data Management in Practice
Problems, Concepts, and the Swisscom Test Data Organizer Do you have issues with your legal and compliance department because test environments contain sensitive data outsourcing partners must not see?
The challenges of non-stable predicates
The challenges of non-stable predicates Consider a non-stable predicate Φ encoding, say, a safety property. We want to determine whether Φ holds for our program. The challenges of non-stable predicates
Second Order Partial Differential Equations
Chapter 7 Second Order Partial Differential Equations 7.1 Introduction A second order linear PDE in two independent variables (x, y Ω can be written as A(x, y u x + B(x, y u xy + C(x, y u u u + D(x, y
ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΦΟΡΩΝ
ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΦΟΡΩΝ Ενότητα 4: Time and Frequency Analysis Διδάσκων: Γεώργιος Στεφανίδης Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών Σκοποί ενότητας Για την περιγραφή ενός συστήματος κρίσιμο
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή διατριβή Η ΚΑΤΑΘΛΙΨΗ ΩΣ ΠΑΡΑΓΟΝΤΑΣ ΚΙΝΔΥΝΟΥ ΓΙΑ ΑΠΟΠΕΙΡΑ ΑΥΤΟΚΤΟΝΙΑΣ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή διατριβή Η ΚΑΤΑΘΛΙΨΗ ΩΣ ΠΑΡΑΓΟΝΤΑΣ ΚΙΝΔΥΝΟΥ ΓΙΑ ΑΠΟΠΕΙΡΑ ΑΥΤΟΚΤΟΝΙΑΣ Παναγιώτου Νεοφύτα 2008969752 Επιβλέπων καθηγητής Δρ. Νίκος Μίτλεττον,
Θέμα: Παχυσαρκία και κύηση:
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜ Α ΝΟΣΗΛΕΥΤΙΚΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Θέμα: Παχυσαρκία και κύηση: επιπτώσεις στην έκβαση της κύησης και στο έμβρυο Ονοματεπώνυμο: Στέλλα Ριαλά Αριθμός
Διπλωματική Εργασία. Μελέτη των μηχανικών ιδιοτήτων των stents που χρησιμοποιούνται στην Ιατρική. Αντωνίου Φάνης
Διπλωματική Εργασία Μελέτη των μηχανικών ιδιοτήτων των stents που χρησιμοποιούνται στην Ιατρική Αντωνίου Φάνης Επιβλέπουσες: Θεοδώρα Παπαδοπούλου, Ομότιμη Καθηγήτρια ΕΜΠ Ζάννη-Βλαστού Ρόζα, Καθηγήτρια
Congruence Classes of Invertible Matrices of Order 3 over F 2
International Journal of Algebra, Vol. 8, 24, no. 5, 239-246 HIKARI Ltd, www.m-hikari.com http://dx.doi.org/.2988/ija.24.422 Congruence Classes of Invertible Matrices of Order 3 over F 2 Ligong An and
Numerical Analysis FMN011
Numerical Analysis FMN011 Carmen Arévalo Lund University carmen@maths.lth.se Lecture 12 Periodic data A function g has period P if g(x + P ) = g(x) Model: Trigonometric polynomial of order M T M (x) =
ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΩΝ ΣΜΖΜΑ ΖΛΔΚΣΡΟΛΟΓΩΝ ΜΖΥΑΝΗΚΩΝ ΚΑΗ ΣΔΥΝΟΛΟΓΗΑ ΤΠΟΛΟΓΗΣΩΝ ΣΟΜΔΑ ΤΣΖΜΑΣΩΝ ΖΛΔΚΣΡΗΚΖ ΔΝΔΡΓΔΗΑ
ΠΑΝΔΠΗΣΖΜΗΟ ΠΑΣΡΩΝ ΣΜΖΜΑ ΖΛΔΚΣΡΟΛΟΓΩΝ ΜΖΥΑΝΗΚΩΝ ΚΑΗ ΣΔΥΝΟΛΟΓΗΑ ΤΠΟΛΟΓΗΣΩΝ ΣΟΜΔΑ ΤΣΖΜΑΣΩΝ ΖΛΔΚΣΡΗΚΖ ΔΝΔΡΓΔΗΑ Γηπισκαηηθή Δξγαζία ηνπ Φνηηεηή ηνπ ηκήκαηνο Ζιεθηξνιόγσλ Μεραληθώλ θαη Σερλνινγίαο Ζιεθηξνληθώλ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία ΔΙΕΡΕΥΝΗΣΗ ΤΟΥ ΚΛΙΜΑΤΟΣ ΑΣΦΑΛΕΙΑΣ ΤΩΝ ΑΣΘΕΝΩΝ ΣΤΟ ΝΟΣΟΚΟΜΕΙΟ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή εργασία ΔΙΕΡΕΥΝΗΣΗ ΤΟΥ ΚΛΙΜΑΤΟΣ ΑΣΦΑΛΕΙΑΣ ΤΩΝ ΑΣΘΕΝΩΝ ΣΤΟ ΝΟΣΟΚΟΜΕΙΟ ΑΝΔΡΕΑΣ ΛΕΩΝΙΔΟΥ Λεμεσός, 2012 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ. Πτυχιακή Εργασία
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ Πτυχιακή Εργασία ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΚΑΙ ΕΝΑΛΛΑΚΤΙΚΕΣ ΘΕΡΑΠΕΙΕΣ ΩΣ ΠΡΟΣ ΤΗ ΔΙΑΧΕΙΡΙΣΗ ΤΟΥ ΠΟΝΟΥ ΣΕ ΑΣΘΕΝΕΙΣ ΜΕ ΚΑΡΚΙΝΟ. Ονοματεπώνυμο:
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Σημασιολογική Συσταδοποίηση Αντικειμένων Με Χρήση Οντολογικών Περιγραφών.
ΔΙΕΡΕΥΝΗΣΗ ΤΗΣ ΣΕΞΟΥΑΛΙΚΗΣ ΔΡΑΣΤΗΡΙΟΤΗΤΑΣ ΤΩΝ ΓΥΝΑΙΚΩΝ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΤΗΣ ΕΓΚΥΜΟΣΥΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή Εργασία ΔΙΕΡΕΥΝΗΣΗ ΤΗΣ ΣΕΞΟΥΑΛΙΚΗΣ ΔΡΑΣΤΗΡΙΟΤΗΤΑΣ ΤΩΝ ΓΥΝΑΙΚΩΝ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΤΗΣ ΕΓΚΥΜΟΣΥΝΗΣ ΑΝΔΡΕΟΥ ΣΤΕΦΑΝΙΑ Λεμεσός 2012 i ii ΤΕΧΝΟΛΟΓΙΚΟ
Η ΣΗΜΑΣΙΑ ΤΗΣ ΜΗ ΓΡΑΜΜΙΚΗΣ ΣΥΜΠΕΡΙΦΟΡΑΣ ΓΙΑ ΤΟΝ ΣΧΕ ΙΑΣΜΟ ΜΕΤΑΛΛΙΚΩΝ ΚΑΤΑΣΚΕΥΩΝ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΟΜΟΣΤΑΤΙΚΗΣ ΕΡΓΑΣΤΗΡΙΟ ΜΕΤΑΛΛΙΚΩΝ ΚΑΤΑΣΚΕΥΩΝ Η ΣΗΜΑΣΙΑ ΤΗΣ ΜΗ ΓΡΑΜΜΙΚΗΣ ΣΥΜΠΕΡΙΦΟΡΑΣ ΓΙΑ ΤΟΝ ΣΧΕ ΙΑΣΜΟ ΜΕΤΑΛΛΙΚΩΝ ΚΑΤΑΣΚΕΥΩΝ Μεταπτυχιακή Εργασία
Section 8.3 Trigonometric Equations
99 Section 8. Trigonometric Equations Objective 1: Solve Equations Involving One Trigonometric Function. In this section and the next, we will exple how to solving equations involving trigonometric functions.
ΑΞΙΟΛΟΓΗΣΗ ΑΦΗΓΗΜΑΤΙΚΩΝ ΙΚΑΝΟΤΗΤΩΝ ΜΕΣΩ ΧΟΡΗΓΗΣΗΣ ΤΟΥ ΕΡΓΑΛΕΙΟΥ ΜΑΙΝ ΣΕ ΤΥΠΙΚΩΣ ΑΝΑΠΤΥΣΣΟΜΕΝΑ ΠΑΙΔΙΑ ΣΤΗΝ ΚΥΠΡΟ
Σχολή Επιστημών Υγείας Πτυχιακή εργασία ΑΞΙΟΛΟΓΗΣΗ ΑΦΗΓΗΜΑΤΙΚΩΝ ΙΚΑΝΟΤΗΤΩΝ ΜΕΣΩ ΧΟΡΗΓΗΣΗΣ ΤΟΥ ΕΡΓΑΛΕΙΟΥ ΜΑΙΝ ΣΕ ΤΥΠΙΚΩΣ ΑΝΑΠΤΥΣΣΟΜΕΝΑ ΠΑΙΔΙΑ ΣΤΗΝ ΚΥΠΡΟ Γεωργίου Μύρια Λεμεσός, Μάιος 2018 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ
Jesse Maassen and Mark Lundstrom Purdue University November 25, 2013
Notes on Average Scattering imes and Hall Factors Jesse Maassen and Mar Lundstrom Purdue University November 5, 13 I. Introduction 1 II. Solution of the BE 1 III. Exercises: Woring out average scattering
Homework 3 Solutions
Homework 3 Solutions Igor Yanovsky (Math 151A TA) Problem 1: Compute the absolute error and relative error in approximations of p by p. (Use calculator!) a) p π, p 22/7; b) p π, p 3.141. Solution: For
Κτίρια nζεβ και προσομοίωση με την χρήση του energy+
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ Πτυχιακή εργασία Κτίρια nζεβ και προσομοίωση με την χρήση του energy+ Μυροφόρα Ιωάννου Λεμεσός, Μάιος 2017 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ
Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή
Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,
Οι απόψεις και τα συμπεράσματα που περιέχονται σε αυτό το έγγραφο, εκφράζουν τον συγγραφέα και δεν πρέπει να ερμηνευτεί ότι αντιπροσωπεύουν τις
Οι απόψεις και τα συμπεράσματα που περιέχονται σε αυτό το έγγραφο, εκφράζουν τον συγγραφέα και δεν πρέπει να ερμηνευτεί ότι αντιπροσωπεύουν τις επίσημες θέσεις των εξεταστών. i ΠΡΟΛΟΓΟΣ ΕΥΧΑΡΙΣΤΙΕΣ Η παρούσα
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Σχολή Πολιτικών Μηχανικών Τοµέας οµοστατικής ΑΛΛΗΛΕΠΙ ΡΑΣΗ ΑΣΤΟΧΙΑΣ ΑΠΟ ΛΥΓΙΣΜΟ ΚΑΙ ΠΛΑΣΤΙΚΟΠΟΙΗΣΗ ΣΕ ΜΕΤΑΛΛΙΚΑ ΠΛΑΙΣΙΑ
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Σχολή Πολιτικών Μηχανικών Τοµέας οµοστατικής ΑΛΛΗΛΕΠΙ ΡΑΣΗ ΑΣΤΟΧΙΑΣ ΑΠΟ ΛΥΓΙΣΜΟ ΚΑΙ ΠΛΑΣΤΙΚΟΠΟΙΗΣΗ ΣΕ ΜΕΤΑΛΛΙΚΑ ΠΛΑΙΣΙΑ ιπλωµατική εργασία: Λεµονάρη Μαρίνα Επιβλέπων καθηγητής:
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΠΟΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΠΟΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΕΠΙΣΤΗΜΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Πτυχιακή εργασία Η ΕΦΑΡΜΟΓΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ HACCP ΣΕ ΜΙΚΡΕΣ ΒΙΟΤΕΧΝΙΕΣ ΓΑΛΑΚΤΟΣ ΣΤΗΝ ΕΠΑΡΧΙΑ ΛΕΜΕΣΟΥ
Αξιολόγηση των Φασματικού Διαχωρισμού στην Διάκριση Διαφορετικών Τύπων Εδάφους ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Σπίγγος Γεώργιος
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΤΜΗΜΑ ΑΓΡΟΝΟΜΩΝ ΤΟΠΟΓΡΑΦΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΤΟΠΟΓΡΑΦΙΑΣ-ΕΡΓΑΣΤΗΡΙΟ ΤΗΛΕΠΙΣΚΟΠΗΣΗΣ Αξιολόγηση των Φασματικού Διαχωρισμού στην Διάκριση Διαφορετικών Τύπων Εδάφους ΔΙΠΛΩΜΑΤΙΚΗ
substructure similarity search using features in graph databases
substructure similarity search using features in graph databases Aleksandros Gkogkas Distributed Management of Data Laboratory intro Θα ενασχοληθούμε με το πρόβλημα των ερωτήσεων σε βάσεις γραφημάτων.
ΤΟ ΜΟΝΤΕΛΟ Οι Υποθέσεις Η Απλή Περίπτωση για λi = μi 25 = Η Γενική Περίπτωση για λi μi..35
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΟΜΕΑΣ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΕΥΝΑΣ ΑΝΑΛΥΣΗ ΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΧΡΕΟΚΟΠΙΑΣ ΚΑΙ ΤΩΝ
ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση
ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης
ΝΑΥΤΙΛΙΑΚΟΙ ΚΥΚΛΟΙ ΚΑΙ ΧΡΗΜΑΤΟΔΟΤΗΣΗ ΝΑΥΤΙΛΙΑΚΩΝ ΕΠΕΝΔΥΣΕΩΝ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Σχολή Διοίκησης και Οικονομίας Μεταπτυχιακή διατριβή ΝΑΥΤΙΛΙΑΚΟΙ ΚΥΚΛΟΙ ΚΑΙ ΧΡΗΜΑΤΟΔΟΤΗΣΗ ΝΑΥΤΙΛΙΑΚΩΝ ΕΠΕΝΔΥΣΕΩΝ ΔΗΜΗΤΡΗΣ ΤΡΥΦΩΝΟΣ Λεμεσός, Μάιος 2017 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ
The Simply Typed Lambda Calculus
Type Inference Instead of writing type annotations, can we use an algorithm to infer what the type annotations should be? That depends on the type system. For simple type systems the answer is yes, and
ER-Tree (Extended R*-Tree)
1-9825/22/13(4)768-6 22 Journal of Software Vol13, No4 1, 1, 2, 1 1, 1 (, 2327) 2 (, 3127) E-mail xhzhou@ustceducn,,,,,,, 1, TP311 A,,,, Elias s Rivest,Cleary Arya Mount [1] O(2 d ) Arya Mount [1] Friedman,Bentley
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ "ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΚΑΙ ΤΗ ΒΙΟΛΟΓΙΑ" ΔΙΠΛΩΜΑΤΙΚΗ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή εργασία Η ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΥΓΕΙΑ ΤΟΥ ΠΑΙΔΙΟΥ ΣΕ ΣΧΕΣΗ ΜΕ ΤΗΝ ΚΟΙΝΩΝΙΚΟΟΙΚΟΝΟΜΙΚΗ ΚΑΤΑΣΤΑΣΗ ΤΗΣ ΟΙΚΟΓΕΝΕΙΑΣ Μαρία Χρίστου Λεμεσός 2012 ΤΕΧΝΟΛΟΓΙΚΟ
Μεταπτυχιακή διατριβή
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Μεταπτυχιακή διατριβή ΣΥΣΧΕΤΙΣΜΟΙ ΠΡΑΓΜΑΤΙΚΗΣ ΠΑΡΑΓΩΓΗΣ ΥΦΙΣΤΑΜΕΝΩΝ ΦΩΤΟΒΟΛΤΑΪΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΑΝΑΛΟΓΑ ΜΕ ΤΗ ΤΟΠΟΘΕΣΙΑ
Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο
Τεχνολογία Ψυχαγωγικού Λογισμικού και Εικονικοί Κόσμοι Ενότητα 8η - Εικονικοί Κόσμοι και Πολιτιστικό Περιεχόμενο Ιόνιο Πανεπιστήμιο, Τμήμα Πληροφορικής, 2015 Κωνσταντίνος Οικονόμου, Επίκουρος Καθηγητής
Πτυχιακή Εργασία ηµιουργία Εκπαιδευτικού Παιχνιδιού σε Tablets Καλλιγάς ηµήτρης Παναγιώτης Α.Μ.: 1195 Επιβλέπων καθηγητής: ρ. Συρµακέσης Σπύρος ΑΝΤΙΡΡΙΟ 2015 Ευχαριστίες Σ αυτό το σηµείο θα ήθελα να
4.6 Autoregressive Moving Average Model ARMA(1,1)
84 CHAPTER 4. STATIONARY TS MODELS 4.6 Autoregressive Moving Average Model ARMA(,) This section is an introduction to a wide class of models ARMA(p,q) which we will consider in more detail later in this
Granger Αιτιότητα και Πρόβλεψη σε Πολυ-μεταβλητές Χρονοσειρές Χαρακτηριστικών Ταλάντωσης
Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 9 ου Πανελληνίου Συνεδρίου Στατιστικής (006), σελ 47-54 Granger Αιτιότητα και Πρόβλεψη σε Πολυ-μεταβλητές Χρονοσειρές Χαρακτηριστικών Ταλάντωσης Βλάχος Ιωάννης,
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ. Πτυχιακή εργασία Η ΚΑΤΑΘΛΙΨΗ ΣΕ ΕΦΗΒΟΥΣ ΜΕ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 1
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή εργασία Η ΚΑΤΑΘΛΙΨΗ ΣΕ ΕΦΗΒΟΥΣ ΜΕ ΣΑΚΧΑΡΩΔΗ ΔΙΑΒΗΤΗ ΤΥΠΟΥ 1 ΑΝΔΡΕΑΣ ΑΝΔΡΕΟΥ Φ.Τ:2008670839 Λεμεσός 2014 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ
Απόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.
Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο The time integral of a force is referred to as impulse, is determined by and is obtained from: Newton s 2 nd Law of motion states that the action
6.3 Forecasting ARMA processes
122 CHAPTER 6. ARMA MODELS 6.3 Forecasting ARMA processes The purpose of forecasting is to predict future values of a TS based on the data collected to the present. In this section we will discuss a linear
Research on Economics and Management
36 5 2015 5 Research on Economics and Management Vol. 36 No. 5 May 2015 490 490 F323. 9 A DOI:10.13502/j.cnki.issn1000-7636.2015.05.007 1000-7636 2015 05-0052 - 10 2008 836 70% 1. 2 2010 1 2 3 2015-03
Μεταπτυχιακή διατριβή Η ΜΑΚΡΟΟΙΚΟΝΟΜΙΚΗ ΕΠΙΔΡΑΣΗ ΑΠΟ ΔΙΑΤΑΡΑΧΕΣ ΤΩΝ ΤΙΜΩΝ ΤΟΥ ΠΕΤΡΕΛΑΙΟΥ ΣΕ ΧΩΡΕΣ ΠΟΥ ΕΙΣΑΓΟΥΝ ΚΑΙ ΕΞΑΓΟΥΝ ΠΕΤΡΕΛΑΙΟ
Μεταπτυχιακή διατριβή Η ΜΑΚΡΟΟΙΚΟΝΟΜΙΚΗ ΕΠΙΔΡΑΣΗ ΑΠΟ ΔΙΑΤΑΡΑΧΕΣ ΤΩΝ ΤΙΜΩΝ ΤΟΥ ΠΕΤΡΕΛΑΙΟΥ ΣΕ ΧΩΡΕΣ ΠΟΥ ΕΙΣΑΓΟΥΝ ΚΑΙ ΕΞΑΓΟΥΝ ΠΕΤΡΕΛΑΙΟ Αδαμαντία Γεωργιάδου Λεμεσός, Μάιος 2017 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ
ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΕΝΙΣΧΥΣΗ ΤΩΝ ΚΟΜΒΩΝ ΟΠΛΙΣΜΕΝΟΥ ΣΚΥΡΟΔΕΜΑΤΟΣ ΜΕ ΒΑΣΗ ΤΟΥΣ ΕΥΡΩΚΩΔΙΚΕΣ
Σχολή Μηχανικής και Τεχνολογίας Πτυχιακή εργασία ΣΧΕΔΙΑΣΜΟΣ ΚΑΙ ΕΝΙΣΧΥΣΗ ΤΩΝ ΚΟΜΒΩΝ ΟΠΛΙΣΜΕΝΟΥ ΣΚΥΡΟΔΕΜΑΤΟΣ ΜΕ ΒΑΣΗ ΤΟΥΣ ΕΥΡΩΚΩΔΙΚΕΣ Σωτήρης Παύλου Λεμεσός, Μάιος 2018 i ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ
ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο
Ο νοσηλευτικός ρόλος στην πρόληψη του μελανώματος
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ Πτυχιακή διατριβή Ο νοσηλευτικός ρόλος στην πρόληψη του μελανώματος Ονοματεπώνυμο: Αρτέμης Παναγιώτου Επιβλέπων καθηγητής: Δρ. Αντρέας Χαραλάμπους
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ
ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΥΓΕΙΑΣ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ ΚΑΠΝΙΣΤΙΚΕΣ ΣΥΝΗΘΕΙΕΣ ΓΟΝΕΩΝ ΚΑΙ ΕΠΙΡΡΟΗ ΤΟΥΣ ΣΤΗΝ ΕΝΑΡΞΗ ΤΟΥ ΚΑΠΝΙΣΜΑΤΟΣ ΣΤΟΥΣ ΕΦΗΒΟΥΣ Ονοματεπώνυμο Φοιτήτριας: Χριστοφόρου Έλενα
Ανάπτυξη του Τεχνικού Κειμένου Η Αρχική Σύνταξη
Ανάπτυξη του Τεχνικού Κειμένου Η Αρχική Σύνταξη Ενότητες και υποενότητες Εισαγωγή - Δομικές μηχανές - Τύποι, ταξινομήσεις και χρήσεις Γενική θεωρία δομικών μηχανών Χαρακτηριστικά υλικών Αντιστάσεις κίνησης
Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας
Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.