"Τεχνικές μηχανικής μάθησης για κατηγοριοποίηση βιοϊατρικών πολυδιάστατων σημάτων" Διπλωματική Εργασία Του Βλαχοσπύρου Σπυρίδωνος.

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download ""Τεχνικές μηχανικής μάθησης για κατηγοριοποίηση βιοϊατρικών πολυδιάστατων σημάτων" Διπλωματική Εργασία Του Βλαχοσπύρου Σπυρίδωνος."

Transcript

1 Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Π Α Τ Ρ Ω Ν ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΠΛΗΡΟΦΟΡΙΚΗΣ Διπλωματική Εργασία Του Βλαχοσπύρου Σπυρίδωνος Θέμα: "Τεχνικές μηχανικής μάθησης για κατηγοριοποίηση βιοϊατρικών πολυδιάστατων σημάτων" Επιβλέπων: Καθηγητής Βασίλειος Μεγαλοοικονόμου Πάτρα, Οκτώβριος 2020 i

2 Ε Υ Χ Α Ρ Ι Σ Τ Ι Ε Σ Στο σημείο αυτό θα ήθελα να ευχαριστήσω όλους όσους με βοήθησαν και με στήριξαν στην προσπάθεια μου για την εκπόνηση αυτής της διπλωματικής εργασίας. Θα ήθελα να ευχαριστήσω θερμά όλα τα μέλη του εργαστήριου Πολυδιάστατης Ανάλυσης Δεδομένων και Διαχείρισης Γνώσης (Multidimensional Data Analysis and Knowledge Management Laboratory MDAKM) που από την πρώτη στιγμή με έκαναν να αισθανθώ μέλος της ομάδας τους παρέχοντάς μου κάθε δυνατή βοήθεια. Θα ήθελα να ευχαριστήσω ιδιαιτέρως τον Δρ. Θωμά Παπαστεργίου για την καθοριστική καθοδήγησή του στην ολοκλήρωση της παρούσας διπλωματικής και για την υποστήριξη, πρακτική και ηθική, σε κάθε δυσκολία που αντιμετώπισα. Τέλος, ένα μεγάλο ευχαριστώ στον καθηγητή και επιβλέποντα της διπλωματικής μου κύριο Βασίλειο Μεγαλοοικονόμου για την ευκαιρία που μου έδωσε να συνεργαστώ με τον ίδιο και την ομάδα του καθώς και για τη βοήθειά του και την υποστήριξή του καθ όλη τη διάρκεια. Κλείνοντας θα ήθελα να ευχαριστήσω την οικογένεια μου για την ηθική και υλική υποστήριξη τους κατά τη διάρκεια των σπουδών μου. ii

3 Π Ε Ρ Ι Λ Η Ψ Η Τα τελευταία χρόνια λόγω της τεχνολογικής προόδου και ανάπτυξης της επιστήμης των υπολογιστών κατέστη δυνατή η ύπαρξη και παρατήρηση τεράστιων συλλογών δεδομένων, η επεξεργασία των οποίων οδηγεί πολλές φορές σε αστείρευτη γνώση. Έτσι και στον τομέα της υγείας τα δεδομένα υπάρχουν και η επεξεργασία τους μπορεί να οδηγήσει σε μεγάλη βελτίωση των συστημάτων υγείας, σε έγκαιρες διαγνώσεις ασθενειών, σε ανάλυση της κλινικής εικόνας των ασθενών και κατά συνέπεια σε αύξηση του προσδόκιμου ζωής. Στόχος της παρούσας διπλωματικής εργασίας είναι η παρατήρηση διαφόρων τεχνικών επεξεργασίας βιοϊατρικών δεδομένων. Οι τεχνικές αυτές χωρίστηκαν σε δύο μεγάλες κατηγορίες. Πρώτα, αναλύθηκαν τεχνικές μηχανικής μάθησης για την ταξινόμηση των δεδομένων. Στη συνέχεια, παρουσιάστηκαν τεχνικές διαχείρισης και μείωσης του όγκου των δεδομένων. Πέραν του θεωρητικού υποβάθρου που αναπτύχθηκε και αναλύθηκε, δημιουργήθηκε σε πειραματικό επίπεδο ένα μοντέλο πρόβλεψης της κλινικής εικόνας ηλικιωμένων μέσω της κατηγοριοποίησης βιοϊατρικών σημάτων καθώς και διαχείρισης του όγκου τους. Τα δεδομένα αυτά συλλέχθηκαν στο πλαίσιο ενός ευρωπαϊκού προγράμματος και περιείχαν δεδομένα για το κλινικό προφίλ των ηλικιωμένων μέσω της χρήσης ενός γιλέκου με τοποθετημένους αισθητήρες μέτρησης καρδιακού και πνευμονικού ρυθμού. Το μοντέλο κλήθηκε να ταξινομήσει τα δείγματα ως προς την ευθραυστότητά τους (Frailty) σε τρεις κατηγορίες: frail, pre-frail, no-frail. Για την επίτευξη αυτού του σκοπού αναπτύχθηκε μια μέθοδος η οποία στηρίχθηκε στη Μάθηση Πολλαπλών Στιγμιότυπων (Multi Instance Learning - MIL). Τα σήματα αναλύθηκαν με τεχνικές εξαγωγής χαρακτηριστικών με κυλιόμενα παράθυρα (sliding windows) και όχι στην «ωμή» (raw) μορφή τους, με σκοπό τη μείωση του όγκου των δεδομένων, και αποθηκεύτηκαν σε έναν τανυστή. Τέλος, για να επιτευχθεί η διαστατική μείωση των δεδομένων χρησιμοποιήθηκαν τεχνικές τανυστικής αποδόμησης φτάνοντας έτσι στα τελικά δεδομένα που χρησιμοποιήθηκαν σε αλγόριθμους τόσο μηχανικής μάθησης όσο και αλγόριθμων πολλαπλών στιγμιοτύπων. Λέξεις κλειδιά Μηχανική μάθηση, Μεγάλου Όγκου Δεδομένα, Ευθραυστότητα Ηλικιωμένων, Κατηγοριοποίηση, Επιβλεπόμενη Μάθηση, Εξαγωγή Χαρακτηριστικών, Τανυστική Αποδόμηση, Μάθηση Πολλαπλών Στιγμιότυπων iii

4 A B S T R A C T In recent years, due to the technological progress of computer science, it has become possible to have and observe huge data sets. The processing of which often leads to inexhaustible knowledge. Thus, in the field of health, the data also exist and their processing can lead to a great improvement of the health systems, to the initial diagnoses of patients, to the analysis of the clinical picture of the patients and consequently to an increase in the life expectancy. The aim of this thesis is to observe various biomedical data processing techniques. These techniques were divided into two major categories. Machine learning techniques for data classification were first analyzed. Then, data volume management techniques as well as their dimensional reduction were presented. In addition to the theoretical background that was developed and analyzed, an experimental model for predicting the clinical picture of the elderly was created through the categorization of biomedical signals as well as their tumor management. This data was collected as part of a European program and contained data on the clinical profile of the elderly using a vest with sensors measuring heart and lung rate. The model was asked to classify the samples in terms of their Frailty into three categories: frail, pre-frail, no-frail. To achieve this goal a method was developed which was based on Multi Instance Learning (MIL). The signals were analyzed by extracting statistical features from them using sliding windows techniques and not their raw form, in order to reduce the volume of data. Then they were stored in a tensor. Finally, to achieve dimensional reduction to the data, tensor decomposition techniques were used, thus reaching the final data used in both machine learning and multiple instance learning algorithms. Keywords Machine Learning, High Volume Data, Elderly Frailty, Classification, Supervised Learning, Feature Extraction, Tensor Decomposition, Multi Instance Learning. iv

5 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΥΧΑΡΙΣΤΊΕΣ... II ΠΕΡΊΛΗΨΗ... III ABSTRACT...IV ΠΕΡΙΕΧΌΜΕΝΑ...V ΛΊΣΤΑ ΣΧΗΜΆΤΩΝ ΛΊΣΤΑ ΠΙΝΆΚΩΝ ΑΚΡΩΝΎΜΙΑ ΚΕΦΆΛΑΙΟ 1: ΜΗΧΑΝΙΚΉ ΜΆΘΗΣΗ ΕΙΣΑΓΩΓΗ ΤΙ ΕΙΝΑΙ Η ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΙΣΤΟΡΙΚΗ ΑΝΑΔΡΟΜΗ ΚΑΤΗΓΟΡΙΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΜΗ ΕΠΙΒΛΕΠΟΜΕΝΗ ΜΑΘΗΣΗ ΕΠΙΒΛΕΠΟΜΕΝΗ ΜΑΘΗΣΗ ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ ΜΕΤΡΙΚΕΣ ΑΠΟΔΟΣΗΣ ΑΛΓΟΡΙΘΜΟΙ ΕΠΙΒΛΕΠΟΜΕΝΗΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΑΛΓΟΡΙΘΜΟΙ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕ ΧΡΗΣΗ ΔΕΝΤΡΩΝ ΑΠΟΦΑΣΕΩΝ Ensemble classifiers SUPPORT VECTOR MACHINES K-NEAREST NEIGHBORS NAÏVE BAYES LINEAR DISCRIMINANT ANALYSIS ΔΙΑΔΙΚΑΣΙΑ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΔΕΔΟΜΕΝΩΝ ΔΙΑΦΟΡΕΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΜΕ ΒΑΘΙΑ ΜΑΘΗΣΗ ΣΥΓΚΡΙΣΗ ΑΛΓΟΡΙΘΜΩΝ ΕΠΙΒΛΕΠΟΜΕΝΗΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΜΑΘΗΣΗ ΠΟΛΛΑΠΛΩΝ ΣΤΙΓΜΙΟΤΥΠΩΝ (MIL) Ο ΑΛΓΟΡΙΘΜΟΣ MILBOOST ΚΕΦΆΛΑΙΟ 2: ΕΦΑΡΜΟΓΈΣ ΜΗΧΑΝΙΚΉΣ ΜΆΘΗΣΗΣ ΣΕ ΒΙΟΪΑΤΡΙΚΑ ΔΕΔΟΜΈΝΑ v

6 2.1 ΕΙΣΑΓΩΓΗ ΕΦΑΡΜΟΓΕΣ ΤΗΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΣΕ ΒΙΟΪΑΤΡΙΚΑ ΔΕΔΟΜΕΝΑ ΚΑΤΗΓΟΡΙΕΣ ΒΙΟΪΑΤΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΕΦΆΛΑΙΟ 3: ΜΕΓΆΛΟΥ ΌΓΚΟΥ ΔΕΔΟΜΈΝΑ ΕΙΣΑΓΩΓΗ ΤΕΧΝΙΚΕΣ ΕΠΙΛΟΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ VARIANCE ΚΑΙ CORRELATION THRESHOLDS STEPWISE REGRESSION ΤΕΧΝΙΚΕΣ ΕΞΑΓΩΓΗΣ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΔΙΑΣΤΑΤΙΚΗ ΜΕΙΩΣΗ ΜΕΣΩ LDA ΜΕΘΟΔΟΙ PCA ΚΑΙ SVD ΤΑΝΥΣΤΙΚΗ ΑΠΟΔΟΜΗΣΗ ΒΑΣΙΚΟΙ ΟΡΙΣΜΟΙ ΚΑΙ ΕΝΝΟΙΕΣ ΤΑΝΥΣΤΩΝ Η ΤΑΝΥΣΤΙΚΗ ΑΠΟΔΟΜΗΣΗ CPD (CANDECOM/PARAFAC) Alternating Least Squares (ALS) Algorithm ΚΕΦΆΛΑΙΟ 4: ΕΞΑΓΩΓΉ ΧΑΡΑΚΤΗΡΙΣΤΙΚΏΝ ΣΕ ΧΡΟΝΟΣΕΙΡΈΣ ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Εξαγωγή χαρακτηριστικών με τεχνικές παραθύρων ΚΕΦΆΛΑΙΟ 5: ΠΕΙΡΑΜΑΤΙΚΉ ΥΛΟΠΟΊΗΣΗ ΟΡΙΣΜΟΣ ΠΡΟΒΛΗΜΑΤΟΣ ΠΑΡΟΥΣΙΑΣΗ ΔΕΔΟΜΕΝΩΝ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ DATA CLEANING ΕΞΑΓΩΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ ΣΤΗΝ ΠΕΙΡΑΜΑΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ ΕΚΠΑΙΔΕΥΣΗ ΔΕΔΟΜΕΝΩΝ ΑΛΓΟΡΙΘΜΟΙ ML ΚΑΙ MIL ΣΤΗΝ ΠΕΙΡΑΜΑΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ ΚΕΦΆΛΑΙΟ 6: ΑΠΟΤΕΛΈΣΜΑΤΑ ΚΑΙ ΣΥΜΠΕΡΆΣΜΑΤΑ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΕΡΓΑΛΕΙΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΜΕΓΑΛΟΥ ΟΓΚΟΥ ΔΕΔΟΜΕΝΩΝ ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΕΙΡΑΜΑΤΙΚΗΣ ΔΙΑΔΙΚΑΣΙΑΣ ΤΕΛΙΚΑ ΣΥΜΠΕΡΑΣΜΑΤΑ ΠΕΙΡΑΜΑΤΙΚΗΣ ΔΙΑΔΙΚΑΣΙΑΣ ΜΕΛΛΟΝΤΙΚΗ ΕΡΕΥΝΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΒΙΒΛΙΟΓΡΑΦΊΑ vi

7 vii

8 Λ Ι Σ Τ Α Σ Χ Η Μ Α Τ Ω Ν Figure 1 Παράδειγμα clustering Figure 2 Παράδειγμα Association Analysis Figure 3 Διαδικασία εκπαίδευσης μοντέλου επιβλεπομένης μάθησης Figure 4 Διαφορά Supervised-Reinforcement Learning Figure 5 Confusion Matrix Figure 6 Balance accuracy over accuracy Figure 7 Παράδειγμα καμπύλης ROC Figure 8 Model creation processes Figure 9 Basic structure of a decision tree Figure 10 Decision tree an example Figure 11 Παράδειγμα τεχνικής bootstrap Figure 12 Παράδειγμα random forest αλγορίθμου Figure 13 Μεταφορά μη γραμμικού προβλήματος σε περισσότερες διαστάσεις Figure 14 Δυαδικό πρόβλημα SVM ανάλυση Figure 15 Παράδειγμα K-NN για k=3 και k= Figure 16 Παράδειγμα Μπευζιανου δικτύου Figure 17 LDA vs QDA Figure 18 Διαδικασία κατηγοριοποίησης Figure 19 Διαφορά μηχανικής μάθησης από βαθιά μάθηση Figure 20 Παράδειγμα στιγμιότυπων εικόνας Figure 21 Instance space classifier Figure 22 Bag space classification

9 Figure 23 Ψευδοκώδικας αλγορίθμου MCILBoost Figure 24 Διαφορά αναμεσά σε επιλογή και εξαγωγή δεδομένων Figure 25 Feature extraction process Figure 26 Singular Value Decomposition Figure 27 Αναπαράσταση τανυστή τάξης Figure 28 Τάξεις ενός τανυστή Figure 29 Ίνες υπο-τανυστή τάξης τρία Figure 30 Κομμάτια υπο-τανυστή τάξης τρία Figure 31 Τανυστής βαθμού ένα σαν εξωτερικό γινόμενο Figure 32 Τανυστική αποδόμηση τανυστή βαθμού τρία Figure 33 Αλγόριθμος ALS Figure 34 Χρήση νευρωνικων δικτύων για κατηγοριοποίηση χρονοσειρών Figure 35 Εξαγωγή χαρακτηριστικών από σήματα Figure 36 Διαφορετικοί τομείς εξαγωγής χαρακτηριστικών Figure 37 Εξαγωγή χαρακτηριστικών με σταθερού μήκους παράθυρο Figure 38 Εξαγωγή χαρακτηριστικών με τεχνική κυλιόμενου παραθύρου Figure 39 Εξαγωγή χαρακτηριστικών με τεχνική επεκτανόμενου παραθύρου Figure 40 Διαδικασία δημιουργίας μοντέλου ML Figure 41 Ιστόγραμμα μήκους δειγματοληψίας των σημάτων Figure 42 Διαδικασία εισαγωγής χαρακτηριστικών σε τανυστή Figure 43 Διαφορετικοί τύποι κύρτωσης Figure 44 Παράδειγμα διαφορετικών τιμών στο skewness Figure 45 Αποθήκευση δεδομένων σε τανυστή Figure 46 Διάγραμμα πειραματικής διαδικασίας Figure 47 Data set size through preprocessing stage Figure 48 Διαγραμματική αναπαράσταση χρόνων εκπαίδευσης και δοκιμής MIL

10 Figure 49 Αναπαράσταση χρόνων εξαγωγής χαρακτηριστικών Figure 50 Διαγραμματική αναπαράσταση απόδοσης MIL και MCIL μοντέλου (10% overlap)...- Figure 51 Απόδοση SVM μοντέλου στο instance-level πρόβλημα (10% overlap) Figure 52 Διαγραμματική αναπαράσταση απόδοσης MIL και MCIL μοντέλου (25% overlap)...- Figure 53 Απόδοση SVM μοντέλου στο instance-level πρόβλημα (25% overlap) Figure 54 Διαγραμματική αναπαράσταση απόδοσης MIL και MCIL μοντέλου (50% overlap)...- Figure 55 Απόδοση SVM μοντέλου στο instance-level πρόβλημα (50% overlap) Figure 56 Συγκριτική απόδοση MCILBoost μοντέλων για κάθε τιμή επικάλυψης Figure 57 Συγκριτική απόδοση SVM μοντέλων για κάθε τιμή επικάλυψης Figure 58 Αποτελέσματα επίδοσης άλλων τεχνικών στα ίδια δεδομένα

11 Λ Ι Σ Τ Α Π Ι Ν Α Κ Ω Ν Table 1 Σύγκριση αλγορίθμων μηχανικής μάθησης Table 2 Βασικές κατηγορίες βιοϊατρικών εικόνων Table 3 Βασικές κατηγορίες βιοϊατρικών σημάτων Table 4 Χαρακτηριστικά υπολογιστικού συστήματος Table 5 Μέσος χρόνος λειτουργίας της κεντρικής μονάδας επεξεργασίας Table 6 Χρόνοι εξαγωγής χαρακτηριστικών Table 7 Αποτελέσματα σε κανονικοποιημένα δεδομένα για R=15 και 10% overlap Table 8 Αποτελέσματα σε κανονικοποιημένα δεδομένα για R=15 και 25% overlap Table 9 Αποτελέσματα σε κανονικοποιημένα δεδομένα για R=15 και 50% overlap

12 Α Κ Ρ Ω Ν Υ Μ Ι Α Machine Learning Deep Learning Artificial Intelligence True Positive True Negative False Positive False Negative Receiver Operating Characteristic Area Under the Curve Support Vector Machine Linear Discriminant Analysis Multi Instance Learning Principal Component Analysis Singular Value Decomposition Electrocardiogram Canonical Polyadic Decomposition ML DP AI TP TN FP FN ROC AUC SVM LDA MIL PCA SVD ECG CPD - 5 -

13 Κ Ε Φ Α Λ Α Ι Ο 1 : Μ Η Χ Α Ν Ι Κ Η Μ Α Θ Η Σ Η 1.1 Εισαγωγή Στο κεφάλαιο αυτό θα αναπτυχθεί η έννοια της μηχανικής μάθησης,η προέλευση του όρου και η ανάπτυξή του μέσα στα χρόνια. Θα γίνει ανάλυση διαφόρων κατηγοριών, εφαρμογών και παρουσίαση σχετικών αλγορίθμων και παραδειγμάτων Τι είναι η μηχανική μάθηση Η μηχανική μάθηση (Machine Learning) εξετάζει το ζήτημα του πώς μπορούμε να δημιουργήσουμε υπολογιστές οι οποίοι να μπορούν να παίρνουν αποφάσεις μόνοι τους βάσει των στοιχείων και της προηγουμένης τους εμπειρίας που έχουν. Είναι ένας από τους πιο γρήγορα αναπτυσσόμενους τεχνολογικούς τομείς σήμερα. Βασίζεται σε επιστήμες που χαίρουν μεγάλης ανάπτυξης όπως κυρίως η επιστήμη των υπολογιστών (computer science) και η στατιστική, ενώ αποτελεί τον κύριο πυλώνα επιστημών που βρίσκονται τώρα στο προσκήνιο όπως η τεχνητή νοημοσύνη (artificial intelligence) και η επιστήμη της πληροφορίας (Data science). Αν και σαν επιστήμη έχει θέσει τα θεμέλιά της αρκετά χρονιά πριν, τώρα γνωρίζει την μεγάλη της ανάπτυξη. Αυτό οφείλεται τόσο στην ανάπτυξη νέων αλγορίθμων και θεωριών όσο και στη μεγάλη πρόοδο και βελτίωση της υπολογιστικής ταχύτητας, της διαθέσιμης μνήμης στα υπολογιστικά συστήματα αλλά και στην ύπαρξη τεράστιας ποσότητας διαθέσιμων δεδομένων. [1] Έχοντας δει εν συντομία τι είναι η μηχανική μάθηση, σε αυτό το σημείο θα παρατεθούν κάποιες προσπάθειες να ορίσουμε τον όρο αυτό ώστε να γίνει και πιο κατανοητός. Αυτή μπορεί να οριστεί ως: Φαινόμενο κατά το οποίο ένα υπολογιστικό σύστημα προσπαθεί να βελτιώσει την απόδοσή του στο αποτέλεσμα μιας συγκεκριμένης διεργασίας χωρίς να χρειάζεται να προγραμματιστεί από την αρχή και χωρίς να υπάρξει κάποια ανθρώπινη παρέμβαση. Ένας λίγο πιο εξειδικευμένος ορισμός δίνεται από τον Tom M. Mitchell (1997): «Ένα υπολογιστικό πρόγραμμα μαθαίνει από την εμπειρία του Ε ως προς κάποια συλλογή εργασιών Τ και μέτρο απόδοσης Ρ, αν η απόδοσή του σε εργασίες από το Τ, όπως μετριέται από το Ρ, βελτιώνεται μέσω της εμπειρίας Ε.» - 6 -

14 Εφαρμογές της μηχανικής μάθησης μπορούν να βρεθούν σε πολλούς τομείς της επιστήμης, της τεχνολογίας και του εμπορίου. Χαρακτηριστικά παραδείγματα αποτελούν η υγειά, ο κατασκευαστικός τομέας, η οικονομία, η πολιτική, το marketing και η παιδεία.[1], [2] Ιστορική αναδρομή Η ιδέα της μηχανικής μάθησης ξεκίνησε στην προσπάθεια ορισμένων ερευνητών να δημιουργήσουν ένα μοντέλο το οποίο θα προσομοίωνε τη λειτουργία των κυττάρων του ανθρώπινου εγκέφαλου. Μία από τις πρώτες προσπάθειες να εξηγήσει κανείς τις σχέσεις και τους δίαυλους επικοινωνίας των νευρώνων του εγκεφάλου μας έγινε από τον Donald Hebb το 1949 και δημοσιεύτηκε στο βιβλίο με όνομα The Organization of Behavior. Το 1950 ο Arthur Samuel ο οποίος εργαζόταν για την IBM ανέπτυξε ένα πρόγραμμα για να παίζει κανείς ντάμα. Ο σχεδιασμός περιλάμβανε μια συνάρτηση βαθμολογίας η οποία επιχειρούσε να μετρήσει την πιθανότητα νίκης της κάθε πλευράς. Έτσι, το πρόγραμμα επέλεγε την επόμενη κίνησή του, προσπαθώντας να αυξήσει τη δική του πιθανότητα για νίκη. Η συνάρτηση αυτή αργότερα εξελίχθηκε στον αλγόριθμο min-max. Αξίζει ακόμα να αναφερθεί ότι ήταν ο πρώτος ο οποίος εξέφρασε δημόσια τη φράση «μηχανική μάθηση» το Το 1957 ο Frank Rosenblatt μέλος του εργαστήριου αεροναυπηγικής του Cornell συνδύασε τη θεωρία του Hebb και τα μοντέλα του Samuel και έφτιαξε τον Perceptron. Ο Perceptron ήταν ένας αλγόριθμος επιβλεπόμενης μάθησης με σκοπό την αναγνώριση προτύπων σε εικόνες. Πάρα το γεγονός ότι ο αλγόριθμος αυτός έδειχνε πολλά υποσχόμενος δεν ήταν σε θέση να αναγνωρίσει πολλά διαφορετικά πρότυπα, δεν παύει παρόλα αυτά να θεωρείται ως η απαρχή των νευρωνικών δικτύων. Με την έλευση του 1967 άνοιξε ένα καινούργιο μονοπάτι στην έρευνα από την αναγνώριση προτύπων και αυτό γιατί επινοήθηκε ο αλγόριθμος κοντινότερου γείτονα (nearest neighbor) οπού θα αναλυθεί καλυτέρα στην συνέχεια της εργασίας. Ο αλγόριθμος αρχικά χρησιμοποιήθηκε για την εύρεση συντομότερων διαδρομών. Τέλη της δεκαετίας του 70 και αρχές του 80 τεχνητή νοημοσύνη και μηχανική μάθηση άρχισαν να ακολουθούν διαφορετικά μονοπάτια. Η τεχνητή νοημοσύνη σταμάτησε να βασίζεται στην χρήση αλγορίθμων και προτιμήθηκε μια πιο βασισμένη στην λογική και την γνώση εκδοχή. Η μηχανική μάθηση άρχισε να χαρακτηρίζεται ως ξεχωριστή επιστήμη και να μην αποτελεί πια κομμάτι του AI. Η αλλαγή αυτή είχε ως αποτέλεσμα για μια δεκαετία να μην υπάρχει μεγάλη ανάπτυξη και αυτό γιατί έπρεπε να αλλάξει την εστίαση της. Δεν ήταν πια απλά το training part του AI αλλά μια επιστήμη που καλούνταν να λύσει πρακτικά πρόβληματα σε τομείς που αφορούν πιο πολύ την στατιστική και τις πιθανοτικές τεχνικές. Η καταξίωση για την επιστήμη ήρθε στη δεκαετία του 90 οπού και με την βοήθεια της γενικότερης τεχνολογικής ανάπτυξης (μεγαλύτερη υπολογιστική ισχύ, φτηνή και πιο γρήγορη μνήμη καθώς και η γενικότερη ανάπτυξη του παγκοσμίου ιστού) έφτασε να θεωρείτε ως ένα από τα σημαντικότερα εργαλεία της 4 ης βιομηχανικής επανάστασης

15 Μηχανική μάθηση και βαθιά μάθηση (Deep Learning) αποτελούν πλέον τα θεμέλια της αναγνώρισης φωνής, της αναγνώρισης πρότυπων από εικόνες και βίντεο, των οχημάτων αυτόματης οδήγησης και άλλων τεχνολογιών που χρησιμοποιούμε στην καθημερινότητα μας. Το γεγονός ότι αυτές οι τεχνολογίες έχουν την δυνατότητα να βελτιώνονται όσο υπάρχουν και όσο τους παρέχουμε μεγαλύτερο όγκο δεδομένων τις καθιστούν κυρίαρχες για την εποχή μας. [3] 1.2 Κατηγορίες μηχανικής μάθησης Υπάρχουν πολλοί και διαφορετικοί τρόποι για να κατηγοριοποιηθεί ένα μοντέλο μηχανικής μάθησης ανάλογα με τον τύπο των δεδομένων που δίνουν στην έξοδο, τον τύπο των δεδομένων που χρησιμοποιεί το μοντέλο σαν είσοδο ή ακόμα και με το είδος της ιδίας της μάθησης. Οι τρεις κυρίες κατηγορίες που απορρέουν από το τρόπο με τον οποίο γίνεται η μάθηση είναι η επιβλεπομένη (supervised), η μη επιβλεπόμενη (unsupervised) και η ενισχυτική (Reinforcement) μάθηση. Η κύρια διαφορά των δύο πρώτων κατηγοριών βρίσκεται στο αν είναι απαραίτητο κατά την μάθηση να γνωρίζω η όχι το τελικό αποτέλεσμα. Το υποκεφάλαιο αυτό θα εστιάσει κυρίως στην επιβλεπόμενη μάθηση, η οποία αποτέλεσε το αντικείμενο του πειραματικού μέρους της εργασίας.[1] Μη επιβλεπόμενη μάθηση Ένα μοντέλο μη επιβλεπομένης μάθησης καλείται συνήθως να απαντήσει σε ερώτημα συσχέτισης και ομαδοποίησης των δεδομένων. Η κύρια διαφορά της από τις άλλες κατηγορίες είναι ότι για την εκπαίδευση των μοντέλων της απαιτεί μόνο χαρακτηριστικά (Features) βάσει των οποίων μετρά ή ομαδοποιεί τα δεδομένα (clustering) είτε βρίσκει σε αυτά συσχετίσεις (Association Analysis). Οι δύο αυτές διαφορετικές υποκατηγορίες μη επιβλεπομένης μάθησης βρίσκουν εφαρμογή σε πολλά σημερινά προβλήματα όπως σε γενετικές αναλύσεις, στο marketing, στην κατηγοριοποίηση άρθρων και ιστοσελίδων στο διαδίκτυο αλλά και στην ομαδοποίηση ανθρώπων συμπεριφορών ανάλογα με τις κοινωνικές τους συμπεριφορές. [4] Figure 1 Παράδειγμα clustering - 8 -

16 Όπως είναι λογικό οι αλγόριθμοι που χρησιμοποιούνται είναι διαφορετικοί από την επιβλεπόμενη μάθηση. Αναφορικά κάποιοι από τους πιο γνωστούς αλγορίθμους μη επιβλεπομένης μάθησης είναι : K-means DBSCAN CURE BIRCH Οι αλγόριθμοι αυτοί διαφέρουν ως προς τον τρόπο που σχηματίζουν τις ομάδες. Κάποιοι είναι βασισμένοι στις πυκνότητα των χαρακτηριστικών, άλλοι στην ιεραρχία, βγάζοντας έτσι διαφορετικά αποτελέσματα ο καθένας. Είναι πιο εύκολο να γίνει συλλογή δεδομένων για να εφαρμοστεί μη επιβλεπόμενη μάθηση καθώς δεν χρειάζεται να ξέρουμε εκ των πρότερων το αποτέλεσμα (label) των δεδομένων παρόλα αυτά το γεγονός αυτό κάνει πιο δύσκολη την σύγκριση και την αξιολόγηση των αποτελεσμάτων του κάθε αλγορίθμου. Για να γίνει σύγκριση δυο αλγορίθμων συχνά παίζει ρόλο αν οι ομάδες που έχουν δημιουργήσει διαφέρουν και δεν περιέχουν ιδιά πληροφορία και αν τα αντικείμενα της κάθε ομάδας έχουν μεγάλη ομοιότητα μεταξύ τους. Έτσι αν και όχι ευκολά πετυχαίνουμε να έχουμε μετρικές συγκρίσεις αυτών των αλγορίθμων. [4] Η εξαγωγή συμπερασμάτων και συσχετίσεων που αναφέρθηκε παραπάνω δεν προσπαθεί να ομαδοποιήσει ακριβώς τα δεδομένα αλλά να βρει από αυτά σχέσεις που μπορεί να υπάρχουν μεταξύ τους και είναι δύσκολο να βρεθούν η όχι προφανείς. Το πιο απλό παράδειγμα είναι αυτό των συσχετίσεων προϊόντων σε κατάστημα. Για παράδειγμα αν κάποιος αγοράσει το προϊόν Α τότε με μεγάλη πιθανότητα θα πάρει και το προϊόν Β, ενώ με μικρή το προϊόν Γ. Figure 2 Παράδειγμα Association Analysis Ο πιο γνωστός, ίσως, αλγόριθμος είναι ο Apriori, ο οποίος χρησιμοποιεί μία αναζήτηση κατά πλάτος για να εξάγει τα συμπεράσματα του

17 1.2.2 Επιβλεπομένη μάθηση Είναι εύκολα αντιληπτό ότι η επιβλεπόμενη μάθηση (Supervised Learning) είναι το αντίθετο της μη επιβλεπομένης. Όλες οι μέθοδοι επιβλεπομένης μάθησης απαιτούν να γνωρίζουμε εκ των πρότερων τις ετικέτες (labels) κάθε στιγμιοτύπου που χρησιμοποιείται για εκπαίδευση. Έτσι, καθορίζονται εξ αρχής πως πρέπει να είναι η είσοδος (input) αλλά και η έξοδος (output) του κάθε αλγορίθμου. Με τον ορό output εννοείται το label με το οποίο θα χαρακτηριστεί κάθε είσοδος που δέχεται ο αλγόριθμος. Γίνεται, λοιπόν, κατανοητό ότι δεν πρόκειται για μία ομαδοποίηση δεδομένων αλλά για μία ταξινόμηση σε ήδη γνωστές κλάσεις. Οι αλγόριθμοι χρησιμοποιούν τα δεδομένα εκπαίδευσης που έχουν σκοπό να φτιάξουν ένα μοντέλο πρόβλεψης. Με τον τρόπο αυτό όταν υπάρχουν δεδομένα που δεν είναι γνωστή η κλάση τους το μοντέλο θα πραγματοποιήσει μία πρόβλεψη για το ποια μπορεί να είναι. Αν τα label της εξόδου είναι συνεχείς τιμές σε ένα διάστημα τότε το μοντέλο ονομάζεται regression model, διαφορετικά classification. Τα classification models χωρίζονται ανάλογα με τον αριθμό των labels στη έξοδο, σε binary μοντέλα και multiclass. [5] Figure 3 Διαδικασία εκπαίδευσης μοντέλου επιβλεπομένης μάθησης Μερικά κοινά προβλήματα που εμφανίζονται στην επιβλεπόμενη μάθηση είναι ότι απαιτείται πολύ μεγαλύτερος υπολογιστικός χρόνος για τη δημιουργία των μοντέλων, ειδικά αν τα δεδομένα είναι πολλά. Ακόμα, περισσότερος χρόνος απαιτείται για την προετοιμασία των δεδομένων που θα περαστούν στους αλγορίθμους, όπως επίσης πολλές φορές απαιτείται και κάποια πιο εξειδικευμένη γνώση γύρο από τα δεδομένα. Επιπρόσθετα, ένα πρόβλημα που συναντάται συχνά είναι ότι, τα label της εξόδου καθορίζονται από την αρχή. Αν βρεθεί είσοδος που δεν ανήκει σε κανένα label από αυτά που έχουν οριστεί οι αλγόριθμοι δεν είναι σε θέση να το διαχειριστούν και θα το ταξινομήσουν λάθος σε κάποιο από τα υπάρχοντα label. Τέλος, ένα αρκετά συχνό φαινόμενο στην επιβλεπόμενη μάθηση είναι το λεγόμενο overfitting. Το μοντέλο προσαρμόζεται τόσο πολύ στα δεδομένα εκπαίδευσης ακόμα και στο «θόρυβο» τους με αποτέλεσμα να το θεωρεί σενάριο μάθησης

18 Πολλές είναι οι πρακτικές εφαρμογές της επιβλεπόμενης μάθησης που απαντώνται καθημερινά. Κάποια χαρακτηριστικά παραδείγματα είναι : Εύρεση ανεπιθύμητων μηνυμάτων Ιατρικές διαγνώσεις Αναγνώριση προτύπων από εικόνες Προβλεπόμενη συντήρηση συσκευών Αυτές και πολλές άλλες εφαρμογές εφαρμόζονται όλο και περισσότερο επηρεάζοντας έμπρακτα την καθημερινότητα των ανθρώπων και συχνά βελτιώνοντάς τη.[5] Ενισχυτική μάθηση Η ενισχυτική μάθηση (Reinforcement Learning) στοχεύει σε αλγορίθμους, οι οποίοι καλούνται να ικανοποιήσουν κάποιον στόχο σε συγκεκριμένα βήματα. Πολλές φορές ο στόχος μπορεί να μην επιτυγχάνεται ακριβώς αλλά προσεγγίζεται όσο καλυτέρα γίνεται στα συγκεκριμένα βήματα εκτέλεσης. Στην αρχή, ο κάθε αλγόριθμος ξεκινά από μία κενή κατάσταση και σιγά σιγά προσπαθεί να φτάσει στον στόχο του. Κάθε βήμα επιλέγεται με το αν προσεγγίζει ή όχι τον τελικό στόχο, από το οποίο καθορίζονται σε μεγάλο βαθμό και τα βήματα που θα χρειαστεί. Τα βήματα που ακολουθεί ο κάθε αλγόριθμος μπορεί να διαφέρουν αλλά ο στόχος παραμένει ένας, να παίρνει τις καλύτερες αποφάσεις που θα τον επιβραβεύσουν περισσότερο. Περαιτέρω ανάλυση ξεπερνά τα πλαίσια αυτής της εργασίας.[6] Figure 4 Διαφορά Supervised-Reinforcement Learning

19 1.3 Μετρικές απόδοσης Ένα από τα σημαντικότερα βήματα στην δημιουργία ενός μοντέλου μηχανικής μάθησης είναι η μέτρηση της απόδοσής του έτσι ώστε να γίνει δυνατή η σύγκρισή του με αλλά μοντέλα αλλά και η αποτελεσματικότητά του στα δεδομένα. Υπάρχουν πολλές διαφορετικές μετρικές απόδοσης για κάθε κατηγορία που αναφέρθηκε παραπάνω όμως το κεφάλαιο αυτό θα επικεντρωθεί στην κατηγορία της επιβλεπομένης μάθησης και την μέτρηση απόδοσης των classifier. Οι περισσότερες μετρικές υπολογίζονται από το confusion matrix, έναν πίνακα που περιέχει τα αποτελέσματα του αλγορίθμου σε σχέση με τις πραγματικές τιμές. Η μορφή ενός τέτοιου πίνακα φαίνεται παρακάτω. [7] Figure 5 Confusion Matrix Ο πίνακας αυτός παρουσιάζει ένα δυαδικό πρόβλημα. Προφανώς μπορεί να γενικευτεί και για περισσότερα labels χωρίς πρόβλημα. Στο πρώτο τεταρτημόριο του πίνακα (TP) αριθμούνται οι τιμές οπού ο αλγόριθμος προέβλεψε θετικό αποτέλεσμα και το πραγματικό αποτέλεσμα ήταν όντως θετικό. Η τιμή false positive (FP) αντιπροσωπεύει την κατάσταση οπού ο αλγόριθμος προέβλεψε θετικό αποτέλεσμα αλλά το πραγματικό ήταν αρνητικό. Αντίστοιχα false negative (FN) είναι οι τιμές οπού ο αλγόριθμος προέβλεψε αρνητικό αποτέλεσμα και ήταν θετικό και true negative (TN) όταν η πρόβλεψη ήταν αρνητική όπως και το αποτέλεσμα. Από αυτές τις τιμές υπολογίζονται οι περισσότερες μετρικές που είναι διαθέσιμες για τους αλγορίθμους. Στην συνέχεια θα αναφέρονται με τα αρχικά τους για μεγαλύτερη διευκόλυνση.[8] Classification Accuracy: Η μετρική accuracy είναι ίσως ο πιο απλός και εύκολος τρόπος να μετρηθεί η απόδοση σε έναν Classifier. Ορίζεται ως ο αριθμός σωστών προβλέψεων ως προς των αριθμό των συνολικών προβλέψεων acc = tp + tn tp + tn + fp + fn

20 Precision : υπάρχουν πολλές περιπτώσεις οπού το accuracy μπορεί να μη βοηθάει στην κατανόηση της πραγματικής απόδοσης του μοντέλου. Χαρακτηριστικό παράδειγμα είναι όταν τα δεδομένα δεν είναι ομοιόμορφα κατανεμημένα σε όλες τις υπάρχουσες κλάσεις. Δηλαδή, όταν υπάρχουν πολλά στιγμιότυπα μίας κλάσης και πολύ λιγότερα της άλλης στα δεδομένα εκπαίδευσης. Αν, λοιπόν, το μοντέλο προβλέψει για κάθε είσοδο την κλάση με τα περισσότερα στιγμιότυπα θα πετύχει ένα μεγάλο ποσοστό accuracy χωρίς όμως να έχει αποκτήσει πραγματική γνώση πάνω στα δεδομένα. Πρέπει λοιπόν να υπολογιστεί η απόδοση του μοντέλου ξεχωριστά για κάθε label. Το precision είναι μία τέτοια μετρική και ορίζεται ως : precision = tp tp+fp Recall: το recall είναι άλλη μία μετρική αρκετά σημαντική που δείχνει για κάθε label την επιτυχία του και υπολογίζεται όπως στον τύπο: recall = Όμοια υπολογίζεται και για tn. tp tp + fn F1 score: ανάλογα με την εφαρμογή και τα αποτελέσματα που θέλει κάνεις μπορεί να δώσει μεγαλύτερη προτεραιότητα στο recall ή to precision. Υπάρχουν και οι περιπτώσεις όμως που και τα δύο είναι σημαντικά για το αποτέλεσμα έτσι το f1 score είναι μία μετρική που συνδυάζει τις δύο προηγούμενες και υπολογίζεται : F1 = 2 precision recall precision + recall Sensitivity and Specificity: Οι μετρικές αυτές είναι αρκετά δημοφιλείς σε κλάδους όπως η βιολογία και η ιατρική. Σε πολλά προβλήματα δεν είναι αναγκαίο ο αλγόριθμος να προβλέπει με μεγάλη επιτυχία κάθε label. Για παράδειγμα, σε ένα πρόβλημα ιατρικό είναι πολύ σημαντικό ο αλγόριθμος να μην προβλέψει ότι κάποιος είναι υγιής ενώ δεν είναι, πάρα να προβλέψει ότι κάποιος είναι άρρωστος ενώ δεν είναι. sensitivity = recall

21 specificity = tn tn + fp Balance accuracy: η μετρική αυτή μοιάζει αρκετά με το κανονικό accuracy αλλά επιτυγχάνει να έχει καλυτέρα αποτελέσματα όταν το σύνολο δεδομένων είναι αρκετά ανομοιόμορφο. Αν τα δεδομένα είναι τελείως ομοιόμορφα και κάθε κλάση υπάρχει σε ίσο ποσοστό με τις άλλες τότε ισχύει ότι accuracy = balance accuracy. Ο υπολογισμός του γίνεται : ( tp p + tn n ) bacc = 2 Figure 6 Balance accuracy over accuracy Πέρα από τις μετρικές που αναφέρθηκαν έως τώρα υπάρχουν ακόμα αρκετές άλλες εξίσου χρήσιμες σε ορισμένα προβλήματα αλλά ξεφεύγει από τα πλαίσια αυτής της εργασίας η περαιτέρω ανάλυση τους. [9] Πέρα από τις μετρικές που βγαίνουν απευθείας από τον πίνακα αξίζει να αναφερθεί και η καμπύλη Receiver Operating Characteristic (ROC curve). Η καμπύλη αυτή παρουσιάζει την απόδοση ενός δυαδικού ταξινομητή ως συνάρτηση ενός cut-off threshold. Πιο απλά, δείχνει το διάγραμμα true positive rate ως προς το false positive rate για διάφορες τιμές του threshold. Πολλά από τα μοντέλα είναι πιθανοτικά, προβλέπουν δηλαδή μία κλάση με μία πιθανότητα. Αν η πιθανότητα αυτή είναι πάνω από ένα όριο τότε η είσοδος ανήκει στην κλάση Α, αν είναι κάτω από αυτό το όριο τότε ανήκει στην κλάση Β. Γίνεται αντιληπτό ότι το που θα τεθεί αυτό το όριο δημιουργεί τελείως διαφορετικά μοντέλα. Όσο πιο χαμηλά είναι το όριο, τόσα περισσότερα δείγματα θα ταξινομηθούν σαν Α μεγαλώνοντας το recall αλλά και το false positive

22 rate. Πρέπει λοιπόν να γίνει επιλογή και να βρεθεί το καλύτερο threshold ώστε να υπάρξει όσο το δυνατόν καλύτερο recall και μικρότερο fpr. Figure 7 Παράδειγμα καμπύλης ROC Πολλές φορές χρησιμοποιείται το εμβαδό της περιοχής κάτω από την καμπύλη ROC γνωστό και ως Area Under the Curve (AUC) για να υπολογιστεί η απόδοση του classifier. Συνήθως όσο μεγαλύτερη είναι τόσο καλύτερος είναι ο ταξινομητής. Η τιμή της προφανώς κυμαίνεται στο διάστημα [0,1]. Κάθε classifier αξιολογείται με μία από τις μετρικές που αναφέρθηκε πιο πάνω μετά την εκπαίδευση του. Δεν υπάρχει κάποιος γενικός κανόνας για το ποια μετρική πρέπει να χρησιμοποιηθεί ή ποια είναι η κατάλληλη μετρική για κάποιον αλγόριθμο. Είναι αρκετά συχνό στο ίδιο πρόβλημα και στον ίδιο ταξινομητή κάποια μετρική να βγάζει πολύ καλά αποτελέσματα και κάποια άλλη όχι. Το ποια μετρική πρέπει να εφαρμοστεί εξαρτάται από το πρόβλημα που υπάρχει και από την μορφή των δεδομένων και όχι από το πια βγάζει καλύτερα αποτελέσματα καθώς με τη λογική αυτή υπάρχει κίνδυνος να οδηγηθεί κανείς σε λανθασμένα μοντέλα.[8], [10] 1.4 Αλγόριθμοι επιβλεπόμενης μηχανικής μάθησης Στο υποκεφάλαιο αυτό θα αναλυθούν οι σημαντικότεροι αλγόριθμοι επιβλεπόμενης μάθησης. Μερικοί από αυτούς χρονολογούνται αρκετά παλιά έχουν όμως ακόμα εφαρμογές σε σύγχρονες τεχνολογίες. Αν και διαφέρουν μεταξύ τους στο τρόπο που αντιμετωπίζουν τα δεδομένα όλοι είναι σε θέση να δημιουργήσουν ένα μοντέλο πρόβλεψης και να έχουν πολύ καλά αποτελέσματα. Παρακάτω απεικονίζεται η διαδικασία με την οποία κατασκευάζεται ένα ML μοντέλο. Η ίδια διαδικασία χρησιμοποιείται για κάθε διαθέσιμο αλγόριθμο

23 Figure 8 Model creation processes Αλγόριθμοι ταξινόμησης με χρήση δέντρων αποφάσεων Τα δέντρα απόφασης χρησιμοποιούν δεντρικές δομές με σκοπό την ταξινόμηση των τιμών με βάση τα χαρακτηριστικά τους. Κάθε δέντρο αποτελείται από κόμβους διακλάδωσης και από τα φύλλα του. Κάθε κόμβος αντιπροσωπεύει ένα χαρακτηριστικό του συνόλου δεδομένων και κάθε φύλλο στο τέλος του δέντρου είναι μία κλάση στην οποίο θα ταξινομηθεί η είσοδος. Figure 9 Basic structure of a decision tree Παραπάνω φαίνεται η βασική δομή ενός δέντρου. Ένα δέντρο μπορεί να έχει παραπάνω από δύο διακλαδώσεις σε ένα κόμβο του όπως επίσης μπορεί να υποστηρίξει τόσο binary class προβλήματα, όσο και multi class. Ο πρώτος κόμβος σε ένα δέντρο

24 ονομάζεται ρίζα. Σε κάθε κόμβο το δέντρο καλείται να πάρει μία απόφαση ανάλογα με την τιμή που έχει η είσοδος στο συγκεκριμένο χαρακτηριστικό. Για να γίνει ακόμα πιο κατανοητό παρατίθεται ένα παράδειγμα δέντρου ταξινόμησης. [11] Figure 10 Decision tree an example Το παράδειγμα από πάνω είναι ένα δέντρο που καλείται να αποφασίσει αν πρέπει ή όχι να γίνει ένας αγώνας τένις. Το πρόβλημα αυτό είναι δυαδικό και βασίζεται στο αν θα γίνει ο αγώνας ή όχι. Αρά, οι κλάσεις είναι ναι ή όχι (Yes-No). Ο αλγόριθμος για να μπορέσει να αποφασίζει χρησιμοποιεί χαρακτηριστικά του καιρού. Σύνολο υπάρχουν τρία χαρακτηριστικά outlook,humidity,windy. Ανάλογα με τις τιμές που έχει ο καιρός σε αυτά τα χαρακτηριστικά ο αλγόριθμος αποφασίζει αν πρέπει να γίνει ο αγώνας. Παράδειγμα, αν υπάρχει ήλιος και η υγρασία είναι μικρότερη του 75% τότε ο αγώνας θα γίνει όταν όμως ο καιρός είναι ηλιόλουστος αλλά η υγρασία είναι πάνω από το 75% τότε ο αγώνας δεν θα γίνει. Όμοια βγαίνει κάθε απόφαση για όλες τις τιμές των χαρακτηριστικών. Γίνεται, λοιπόν, κατανοητό ότι τα χαρακτηριστικά που θα χρησιμοποιηθούν παίζουν πολύ μεγάλο ρολό στην τελική απόφαση του αλγορίθμου. Μεγάλο ρολό παίζει ακόμα και ο αριθμός τους, δηλαδή πόσες διακλαδώσεις θα έχουμε στο δέντρο. Μεγάλος αριθμός χαρακτηριστικών οδηγεί σε πολύ μεγάλα δέντρα οπού μπορεί ευκολά να κάνουν overfit στα δεδομένα. Ο αλγόριθμος δίνει τη δυνατότητα να καθοριστεί από πριν το μέγιστο βάθος του δέντρου. Τα πλεονεκτήματα των δέντρων είναι αρκετά ώστε να τα καθιστούν αρκετά δημοφιλής αλγόριθμους μηχανικής μάθησης μερικά από αυτά φαίνονται στην συνέχεια: Ευκολία στην κατανόηση και στην παρουσίαση του μοντέλου (visualize)

25 Τα δέντρα πραγματοποιούν με κατάλληλη ρύθμιση παραμέτρων αυτόματη επιλογή και έλεγχο των χαρακτηριστικών Μπορούν να χρησιμοποιηθούν για αριθμητικά και κατηγορικά δεδομένα καθώς επίσης για binary και multi class προβλήματα Μη γραμμική σχέση των δεδομένων δεν επηρεάζει την απόδοση των δέντρων Είναι αρκετά γρήγορος αλγόριθμος τόσο στην εκπαίδευση όσο και στην πρόβλεψη των δεδομένων Έχουν μικρές απαιτήσεις για μνήμη. Φυσικά και υπάρχουν και ελαττώματα τα οποία χρειάζονται προσοχή κατά την εκπαίδευση και κατά την επεξεργασία των δεδομένων. Είναι πολύ εύκολο να οδηγηθεί το μοντέλο σε overfitting στα δεδομένα όταν δημιουργούνται αρκετά πολύπλοκα και μεγάλα δέντρα Είναι ασταθή στα δεδομένα. Δηλαδή μικρές αλλαγές σε αυτά οδηγούν σε τελείως διαφορετικά δέντρα Επειδή η κατασκευή τους βασίζεται σε greedy αλγορίθμους δεν είναι πάντα βέβαιο ότι το τελικό δέντρο που θα προκύψει θα είναι και το καλύτερο που θα μπορούσε να παραχθεί. Δεν έχουν καλή απόδοση σε δεδομένα οπού μία κλάση κυριαρχεί Για να αξιοποιηθούν όλα τα πλεονεκτήματα που αναφέρθηκαν στα δέντρα και να περιοριστούν όσο γίνεται τα προβλήματα που μπορεί να έχουν αναπτυχθήκαν διάφορες μέθοδοι που θα παρουσιαστούν στην συνέχεια με αποτέλεσμα ισχυρά δέντρα. [11], [12] Ensemble classifiers Όπως αναφέρθηκε πιο πάνω ένα από τα βασικά μειονεκτήματα των δέντρων και αρκετών άλλων αλγορίθμων είναι η αστάθεια τους στα δεδομένα εκπαίδευσης. Οι ensemble μέθοδοι αποτελούν μία λύση σε τέτοια προβλήματα. Η ιδέα είναι να μην γίνει εκπαίδευση σε ένα μόνο μοντέλο αλλά να χρησιμοποιηθεί ο γραμμικός συνδυασμός διαφόρων μοντέλων f1,f2,,fn. Το αποτέλεσμα προκύπτει από το μέσο όρο των

26 μοντέλων αυτών. Στη λογική αυτή έχουν δημιουργηθεί μία σειρά από μοντέλα που θα αναλυθούν στην συνέχεια. [11], [13] Bagging: η τεχνική του bagging βασίζεται σε μία μέθοδο της στατιστικής που ονομάζεται bootstrap. Για ένα δοθέν σύνολο δεδομένων εκπαίδευσης μεγέθους n ένα δείγμα bootstrap βγαίνει από το σύνολο δειγματοληπτώντας στιγμιότυπα του n φορές με επανατοποθέτηση. Δηλαδή, κάποιο από τα στιγμιότυπα μπορεί να βγει παραπάνω από μία φορές. Στην τεχνική του bagging δημιουργούνται Μ bootstrap δείγματα από το σύνολο δεδομένων και εκπαιδεύονται Μ μοντέλα δέντρων απόφασης πάνω σε αυτά τα δείγματα ένα για το κάθε δείγμα. Ο συνδυασμός αυτών των Μ δέντρων αποτελεί το τελικό μοντέλο. Η τελική έξοδος του μοντέλου είναι η απόφαση που έβγαλαν τα περισσότερα επιμέρους δέντρα ενώ σε περίπτωση που το πρόβλημα είναι regression η έξοδος είναι ο μέσος όρος όλων των τιμών των δέντρων. Τα bag-trees συνήθως αποδίδουν καλυτέρα από τα απλά δέντρα. Figure 11 Παράδειγμα τεχνικής bootstrap Random forests: τα τυχαία δάση αποτελούνται από πολλά δέντρα απόφασης μαζί. Όπως και πριν η τελική απόφαση βγαίνει από την πλειοψηφική απόφαση των επιμέρους δέντρων. Έστω ένα δείγμα

27 εκπαίδευσης μεγέθους n. Θα χρησιμοποιηθούν n bootstrap δείγματα για να εκπαιδευτεί κάθε δέντρο. Κάθε δέντρο αναπτύσσεται όσο πιο βαθιά γίνεται χωρίς να τίθεται κάποιο όριο. Τέλος τα τυχαία δάση βελτιώνουν ακόμα περισσότερο την τεχνική των bags καθώς μειώνουν τις συσχετίσεις των δεδομένων μοιράζοντας σε πολλά δέντρα απόφασης ένα τυχαίο σύνολο από τα χαρακτηριστικά που υπάρχουν και όχι όλα. Αυτό σημαίνει ότι σε κάθε διάσπαση του δέντρου, το μοντέλο αντιλαμβάνεται μόνο ένα μικρό υποσύνολο των χαρακτηριστικών και όχι όλα τα χαρακτηριστικά (features) του μοντέλου. Άρα, από το σύνολο των διαθέσιμων χαρακτηριστικών έστω n, επιλέγεται τυχαία ένα υποσύνολο χαρακτηριστικών m (m = τετραγωνική ρίζα του n). Αυτή η τεχνική βοηθάει στο να αποτραπεί σε ένα μεγάλο βαθμό το overfitting. Τα δάση πέρα από το ότι βελτιώνουν κατά πολύ την απόδοση των δέντρων, λειτουργούν πολύ καλά σε μεγάλου όγκου δεδομένα καθώς μπορούν να εκτελεστούν και παράλληλα. Figure 12 Παράδειγμα random forest αλγορίθμου Support Vector Machines Ο αλγόριθμος Support Vector Machine (SVM) παρέχει άλλον έναν τρόπο να ταξινομηθούν τα δεδομένα σε κατηγορίες, τόσο σε αριθμήσιμα όσο και σε συνεχή

28 σύνολα τιμών. Έστω ότι τα δεδομένα ανήκουν στο R και έστω ότι το πρόβλημα είναι δυαδικό και γραμμικά διαχωρίσιμο. Τότε υπάρχει τουλάχιστον μία υπερεπιφάνεια οπού χωρίζει τελειά τις δύο αυτές ομάδες κατηγοριών. Ο αλγόριθμος προσπαθεί από όλες τις υπερεπιφάνειες να βρει αυτή που μεγιστοποιεί το margin. Δηλαδή, τη γραμμή αυτή που η απόσταση της από το κοντινότερο στοιχείο των δεδομένων θα είναι και η μεγαλύτερη δυνατή Η = arg max γ H Οπού Η αποτελεί μία εξίσωση ευθείας όταν το πρόβλημα είναι δυαδικό. Αν υπάρχει δυαδικό πρόβλημα αλλά τα δεδομένα δεν μπορούν να χωριστούν γραμμικά, τότε αυξάνεται η διάσταση του προβλήματος ώστε να βρεθεί η καλύτερη καμπύλη που θα έχει ως συνέπεια καλυτέρα αποτελέσματα. [14], [15] Figure 13 Μεταφορά μη γραμμικού προβλήματος σε περισσότερες διαστάσεις Όταν το πρόβλημα έχει περισσότερες κατηγορίες ανάγεται σε χώρο μεγαλύτερων διαστάσεων, το οποίο ονομάζεται feature space και χρησιμοποιούνται Kernel συναρτήσεις. Συνήθως γίνεται χρήση Gaussian Kernel. Figure 14 Δυαδικό πρόβλημα SVM ανάλυση

29 1.4.3 k-nearest neighbors Η τεχνική των γειτόνων αποτελεί μία από τις πιο απλές και εύκολα κατανοητή μέθοδο μηχανικής μάθησης. Για να γίνει πρόβλεψη ενός στιγμιότυπου x πρέπει να οριστεί γύρω από αυτό μία γειτονιά k(x) που αντιπροσωπεύει τα k πιο κοντινά του στιγμιότυπα. Αν το πρόβλημα είναι regression τότε η απόφαση βγαίνει από το μέσο αυτών των k κοντινών στοιχείων. Αν έχουμε classification πρόβλημα τότε η πρόβλεψη γίνεται με βάση την πλειοψηφία της γειτονιάς k(x). Το μέγεθος του k καθορίζεται από εμάς και προφανώς αλλαγές του μπορούν να επιφέρουν μοντέλα με αλλά αποτελέσματα. Μεγάλο θετικό της μεθόδου πέραν της απλότητας της είναι και η μεγάλη ανοχή που επιδεικνύει στα outliers δεδομένα δηλαδή με τιμές ακραίες και λάθος συνήθως που επηρεάζουν σε άλλους αλγορίθμους αρνητικά το αποτέλεσμα. Η εύρεση του καλυτέρου k συνήθως βρίσκεται μέσω πειραμάτων καθώς δεν υπάρχουν συγκεκριμένα βήματα που μπορεί να ακολουθήσει κάνεις για βρει το βέλτιστο.[12], [13], [15] Figure 15 Παράδειγμα K-NN για k=3 και k= Naïve Bayes Αλγόριθμος που κυρίως χρησιμοποιείται για ταξινόμηση κειμένων ενώ μπορεί να χρησιμοποιηθεί και για ομαδοποίηση. Η όλη αρχιτεκτονική του αλγορίθμου βασίζεται στην υποσυνθήκη πιθανότητα. Δημιουργεί δέντρα βασιζόμενος στο πόσο πιθανό είναι κάτι να συμβεί. Τα δέντρα αυτά είναι γνωστά και ως Μπειζιανα δίκτυα. Τα δίκτυα αυτά είναι κατευθυνόμενα άκυκλα γραφήματα

30 Figure 16 Παράδειγμα Μπευζιανου δικτύου Ο αλγόριθμος ονομάζεται αφελής γιατί χρησιμοποιεί σαν δεδομένο ότι οι μεταβλητές μεταξύ τους είναι ανεξάρτητες. Δηλαδή καμία δεν επηρεάζεται από άλλη κάνοντας έτσι και τις πιθανότητες τους ανεξάρτητες ώστε να ισχύει το θεώρημα του Bayes. Το πρόβλημα βρίσκεται στο γεγονός ότι σχεδόν ποτέ οι μεταβλητές δεν είναι ανεξάρτητες στα σύγχρονα προβλήματα που μελετάμε. Αυτό έχει ως αποτέλεσμα ο αλγόριθμος να μην λειτουργεί αποτελεσματικά σε όλα τα πρόβλημα αλλά μόνο σε όσα η ανεξαρτησία των μεταβλητών υπάρχει σε μεγάλο βαθμό. Κλασσικό παράδειγμα καλής εφαρμογής του αλγορίθμου είναι η ταξινόμηση σε spam η no-spam mails. Μεγάλο του πλεονέκτημα είναι ότι είναι εξαιρετικά γρήγορος.[12] Linear Discriminant Analysis Η γραμμική ανάλυση διακριτότητας ή καλυτέρα LDA, είναι ένα εργαλείο που μπορεί να χρησιμοποιηθεί για ταξινόμηση αλλά και για διαστατική μείωση και προβολή των δεδομένων μας. Πάρα την απλότητα της μας παρέχει μοντέλα με πολύ καλά αποτελέσματα ειδικά όταν πρόκειται για εφαρμογές real-time. Έστω ότι έχουμε μια τυχαία μεταβλητή χ από το σύνολο δεδομένων μας. Η μεταβλητή αυτή θα ανήκει σε μία από τις κ κλάσης του προβλήματος μας. Ένας διακριτός κανόνας προσπαθεί να χωρίσει τα δεδομένα σε κ περιοχές που αντιπροσωπεύουν τις κλάσεις. Η LDA προσπαθεί να τοποθετήσει το x σε κάποια από τις κ κλάσεις. Αν το x βρίσκεται στην περιοχή της κλάσης j τότε θα τοποθετηθεί σε αυτή. Υπάρχουν δύο γνωστοί κανόνες αντιστοίχισης σε μία περιοχή : Maximum likelihood rule: αν κάθε κλάση μπορεί να προκύψει με ίση πιθανότητα με τις άλλες τότε τοποθέτησε το x στην κλάση j ανν j = arg max f i (x) i Bayesian rule: αν ξέρουμε την εκ των προτέρων πιθανότητα της κλάσης π τότε θα τοποθετήσουμε το x στην j με βάση αυτή

31 j = arg max [π ι f i (x)] i Figure 17 LDA vs QDA Έστω ότι τα δεδομένα προέρχονται από μία Gaussian κατανομή δηλαδή η κατανομή μπορεί να χαρακτηριστεί από την μέση τιμή μ (mean) και από την covariance. Διαφορετικές μορφές των παραπάνω κανόνων μπορούν να δημιουργηθούν και να καταλήξουν στην συνάρτηση της διακριτότητας. Η συνάρτηση αυτή αποτυπώνει ποσό πιθανό είναι το χ να ανήκει σε κάθε μια από τις κλάσεις. Η LDA δουλεύει πολύ καλά αν θεωρηθεί ότι όλες οι κλάσεις έχουν την ιδιά covariance. Η συνάρτηση διακριτότητας είναι γραμμική συνάρτηση ως προς το χ και για αυτό και η μέθοδος ονομάστηκε γραμμική ανάλυση διακριτότητας. Αν οι κλάσεις δεν έχουν την ίδια covariance τότε η συνάρτηση διακριτότητας είναι τετραγωνική (quadratic) και όχι γραμμική και ονομάζεται Quadric discriminant analysis (QDA). [16], [17] 1.5 Διαδικασία κατηγοριοποίησης δεδομένων Αφού αναλύθηκαν οι αλγόριθμοι και οι τεχνικές αξιολόγησης τους στο υποκεφαλαιο αυτό θα παρουσιαστεί η διαδικασία που ακολουθείται για να επιτευχθεί η κατηγοριοποίηση των δεδομένων. Το διάγραμμα που ακολουθεί παρουσιάζει βήμα βήμα τα στάδια που ακολουθούμε σχεδόν σε κάθε πρόβλημα κατηγοριοποίησης. Οι τεχνικές που εφαρμόζουμε σε κάθε στάδιο μπορεί να διαφέρουν από πρόβλημα σε πρόβλημα

32 Figure 18 Διαδικασία κατηγοριοποίησης Το πρώτο στάδιο αφορά την προεπεξεργασία των δεδομένων. Εδώ επιλέγονται τα δεδομένα που πρέπει να χρησιμοποιηθούν (μέρος από αυτά ή όλα). Στην συνέχεια καθαρίζονται από τυχόν θόρυβο ή ελλειπή δεδομένα, μετασχηματίζονται σε μορφή επεξεργάσιμη από τους αλγορίθμους και τέλος εκτελούνται τεχνικές διαστατικής μείωσης αν αυτό είναι απαραίτητο. Όταν αυτά τα βήματα ολοκληρωθούν τα δεδομένα είναι έτοιμα να δοθούν σαν είσοδο σε κάποιο αλγόριθμο. Για να επιτευχθεί η αξιολόγηση του αλγορίθμου αργότερα σε είσοδο που δεν έχει εκπαιδευτεί πάνω, τα δεδομένα χωρίζονται σε δεδομένα εκπαίδευσης (training data) και δεδομένα ελέγχου (test data). Με τον τρόπο αυτό επιτυγχάνεται καλύτερος έλεγχος απόδοσης του αλγορίθμου καθώς τα δεδομένα αυτά είναι τελείως άγνωστα σε αυτούς. Κατά την εκπαίδευση τα δεδομένα εκπαίδευσης δίνονται ως είσοδο σε κάποιον από τους αλγορίθμους που έχει αναφερθεί οι οποίοι με την σειρά τους δημιουργούν ένα μοντέλο πρόβλεψης. Το μοντέλο αυτό αξιολογείται στο τελευταίο στάδιο βάση κάποιας μετρικής απόδοσης. Η διαδικασία αυτή επαναλαμβάνεται για διαφορετικούς αλγορίθμους και για διαφορετικές μετρικές έως ότου επιτευχθεί το αποτέλεσμα που κριθεί επαρκές. [18] 1.6 Διάφορες μηχανικής μάθησης με βαθιά μάθηση Μία υποκατηγορία της μηχανικής μάθησης είναι η μάθηση σε βάθος. Αν και οι δύο μέθοδοι μοιάζουν καθώς μπορούν να επεξεργαστούν ιδίας φύσης δεδομένα μέσω έξυπνων αλγορίθμων διαφέρουν σημαντικά στον τρόπο που αντιμετωπίζουν την μάθηση. Η βαθιά μάθηση βασίζεται στην χρήση νευρωνικών δικτυών τα οποία έχουν πάρει το όνομα τους για το γεγονός ότι προσπαθούν να συμπεριφερθούν όπως οι

33 νευρώνες του ανθρωπίνου εγκέφαλου. Η κύρια διαφορά των δύο κατηγοριών είναι στα δεδομένα εισόδου και την μορφή που αυτά πρέπει να έχουν. Στην μηχανική μάθηση τα δεδομένα πρέπει να είναι δομημένα και με της ετικέτες τους. Δηλαδή δεν γίνεται να χρησιμοποιηθούν raw δεδομένα που δεν έχουν επεξεργαστεί πριν και που δεν έχουν ανακτηθεί από αυτά διαφορά feature. Αντίθετα, στην μάθηση σε βάθος τα δεδομένα δεν χρειάζονται καμία επεξεργασία και ακόμα δεν είναι απαραίτητο να έχουν ετικέτες. Figure 19 Διαφορά μηχανικής μάθησης από βαθιά μάθηση Οι αλγόριθμοι βαθιάς μάθησης αναλαμβάνουν μέσο της επεξεργασίας των δεδομένων από πολλά διαφορετικά στρώματα (layers) και νευρώνες να εξάγουν μόνοι τους πολλά και πολύπλοκα χαρακτηριστικά για τα δεδομένα ώστε να κάνουν στην συνέχεια την κατηγοριοποίηση. Με αυτό τον τρόπο δεν απαιτείται η ανθρώπινη παρέμβαση στην εξαγωγή χαρακτηριστικών με αποτέλεσμα να έχουν καλύτερα συνήθως αποτελέσματα και απλούστερη προ επεξεργασία των δεδομένων. Αν και σαν θεωρία τα νευρωνικά δίκτυα υπάρχουν από πολύ παλιά τώρα είναι που βρίσκουν πολύ μεγάλη εφαρμογή και αυτό γιατί για να πέτυχουν καλά αποτελέσματα απαιτούν μεγάλο όγκο δεδομένων και μεγάλες απαιτήσεις σε υπολογιστική δύναμη. Αρά, σε μικρά σύνολα δεδομένων συνήθως δεν είναι αποτελεσματικά και προτιμώνται τεχνικές ML ενώ αντίθετα σε πολύ μεγάλα και πολύπλοκα σύνολα τα αποτελέσματα τους είναι καλυτέρα. [19] 1.7 Σύγκριση αλγορίθμων επιβλεπόμενης μηχανικής μάθησης Στα παραπάνω κεφάλαια έγινε μία προσπάθεια να παρουσιαστούν οι βασικότεροι ίσως αλγόριθμοι μηχανικής μάθησης που είναι ευρέως γνωστοί και σε χρήση. Όπως μπορεί να γίνει αντιληπτό δεν υπάρχει ένας αλγόριθμος που να ταιριάζει τέλεια σε ένα πρόβλημα. Λόγω του ότι τα δεδομένα και οι σχέσεις μεταξύ τους είναι πολύ διαφορετικές ο μόνος τρόπος για να βεβαιωθεί κάποιος ότι κάτι δεν λειτουργεί ή λειτουργεί πολύ καλά είναι να το δοκιμάσει. Πολλές φορές ακόμα και σε προβλήματα

34 που μοιάζουν αρκετά όμοια μπορεί η μέθοδος με την καλύτερη επιτυχία να διαφέρει. Επειδή, λοιπόν υπάρχει αυτή η τεράστια αστάθεια στην απόδοση των μοντέλων μηχανικής μάθησης δεν είναι δυνατό να πούμε ότι κάποιος αλγόριθμος είναι καλύτερος σε σχέση με κάποιον άλλο. Η σύγκριση που θα γίνει σε αυτό το κεφάλαιο είναι πάνω σε κάποια μεγέθη που είναι μετρήσιμα και ανεξάρτητα από την φύση των δεδομένων ώστε να παρατεθεί μια πιο ολοκληρωμένη άποψη για τους αλγορίθμους που αναφέρθηκαν. Σε αυτό το σημείο πρέπει να υποθεί ότι υπάρχουν πολλές διαφορετικές παραλλαγές καθώς επίσης και αλγόριθμοι που μπορεί να μην αναλύθηκαν οπότε και δεν θα συμπεριληφθούν στην σύγκριση. Μια ανάλυση σε μεγαλύτερο βάθος θα ξέφευγε από το θέμα αυτής της διπλωματικής εργασίας. Τα χαρακτηριστικά που θα παρατεθούν αφορούν την ταχύτητα εκπαίδευσης, την ταχύτητα πρόβλεψης, την απαίτηση σε μνήμη και την δυνατότητα τροποποίησης παραμέτρων στους αλγορίθμους. Η συλλογή αυτών των χαρακτηριστικών φαίνεται στον παρακάτω πίνακα. Table 1 Σύγκριση αλγορίθμων μηχανικής μάθησης Όνομα αλγορίθμου Ταχύτητα πρόβλεψης Ταχύτητα εκπαίδευσης Απαίτηση σε μνήμη Ρύθμιση παραμέτρων Linear discriminant analysis Fast Fast Small Min Decision trees Fast Fast Small Some Support vector machines Slow Slow Medium Some Nearest Neighbor Moderate Minimal Medium Min Naïve Bayes Fast Fast Medium Some Neural network Moderate Slow Large Max

35 1.8 Μάθηση πολλαπλών στιγμιότυπων (MIL) Στα παραπάνω κεφάλαια αναλύθηκαν διεξοδικά οι βασικότερες αρχές της μηχανικής μαθήσης και μια σειρά από τους βασικότερους αλγορίθμους που την αντιπροσωπεύουν. Έχοντας γνωστά όλα αυτά στο κεφάλαιο αυτό θα αναλυθεί μία κατηγορία επιβλεπόμενης μάθησης που αντιμετωπίζει διαφορετικά τα δεδομένα εισόδου σε σχέση με τις κλασσικές τεχνικές. Στις τεχνικές που ειπώθηκαν έως τώρα και αφορούσαν την επιβλεπόμενη μάθηση ένας αλγόριθμος ταξινόμησης βασιζόταν σε ένα σετ εκπαίδευσης οπού κάθε γραμμή ήταν ένα στιγμιότυπο και κάθε στήλη κάποιο χαρακτηριστικό αυτού του στιγμιότυπου. Ακόμα κάθε στιγμιότυπο ήταν δεσμευμένο με μια κλάση. Στην μάθηση πολλαπλών στιγμιότυπων (MIL) εκπαιδεύεται ένας ταξινομητής με βάση ένα σετ εκπαίδευσης που αποτελείται από σύνολα (bags) στιγμιότυπων. Κάθε σύνολο περιέχει ένα ή περισσότερα στιγμιότυπα και μια κλάση στην οποία ανήκει. Δεν είναι απαραίτητο να είναι γνωστή η κλάση κάθε στιγμιότυπου ενός συνόλου καθώς δεν είναι σημαντικό. Τα στιγμιότυπα δεν είναι απαραίτητο να φέρουν σημαντική πληροφορία για την κλάση στην οποία ανήκει το σύνολο, μπορεί ένα στιγμιότυπο να μην προσφέρει και καμία πληροφορία η ακόμα και να προσφέρει πληροφορία σχετική με κάποια άλλη κλάση. Η μάθηση πολλαπλών στιγμιότυπων βρίσκει μεγάλη εφαρμογή σήμερα σε τομείς όπως η φαρμακευτική, κατηγοριοποίηση κειμένου, όραση υπολογιστών και ανάλυση σημάτων. Αν και μπορεί να εφαρμοστεί σε πολλούς τομείς του ML σε αυτό το κεφάλαιο θα αναλυθεί η κατηγοριοποίηση πολλαπλών στιγμιότυπων (MIC).[20] Στη συνέχεια, παρατίθεται ένα παράδειγμα για να γίνει κατανοητό πως λειτουργεί το MIC καθώς και γιατί είναι αναγκαία αυτή η λογική σε κάποια σετ από δεδομένα. Το παράδειγμα αναφέρεται σε κατηγοριοποίηση εικόνας βάση του περιεχομένου της. Έστω ότι η κλάση που στοχεύεται είναι αν η εικόνα είναι παραλία. Δηλαδή η απάντηση του classifier πρέπει να είναι θετική αν η εικόνα περιέχει παραλία και αρνητική σε κάθε άλλη περίπτωση. Figure 20 Παράδειγμα στιγμιότυπων εικόνας

36 Όπως φαίνεται και στην εικόνα παραπάνω οι δύο πρώτες είναι θετικές ενώ οι άλλες δύο αρνητικές. Αν παρατηρήσει κανείς τις εικόνες θα δει ότι περιέχουν περιοχές που φέρουν πληροφορία για το αποτέλεσμα όπως η θάλασσα και η άμμος και περιοχές που δε φέρουν όπως ο ουρανός, τα δέντρα, η ομπρέλα. Για να κατατάξουμε μία εικόνα σε θετική κλάση χρειαζόμαστε τις περιοχές θάλασσα και άμμος, οι άλλες είναι αδιάφορες. Έτσι, το πρώτο πράγμα που χρειάζεται να κάνουμε είναι να χωρίσουμε τις εικόνες σε περιοχές και να τις κατατάξουμε σε μια περιγραφή. Αυτή η περιγραφή είναι μια σειρά από χαρακτηριστικά που έχει αυτή η περιοχή. Ως αποτέλεσμα η κάθε εικόνα αποτελείται από ένα σύνολο περιοχών Χ = {χ 1,, χ ν } όπου ν είναι το σύνολο των περιοχών, χ είναι τα στιγμιότυπα και Χ το σύνολο(bag). Βλέπουμε λοιπόν ότι στο συγκεκριμένο παράδειγμα η αντιμετώπιση του ως πρόβλημα MIL μας βοηθάει στην καλύτερη κατανόηση και επίλυσή του. Αρά, όπως και σε ένα κλασικό πρόβλημα ML για να λειτουργήσει σωστά ένας αλγόριθμος πολλαπλών στιγμιότυπων χρειάζεται ένα σετ εκπαίδευσης από διαφορετικά σύνολα (bags) δεδομένων καθώς και τις κλάσεις στις οποίες αυτά ανήκουν. Ως αποτέλεσμα θα έχουμε έναν κατηγοριοποίητή που θα μπορεί να προβλέπει την κλάση ενός μελλοντικού σύνολού από στιγμιότυπα. [20] Υπάρχουν δύο βασικοί τρόποι που ένας κατηγοριοποιητής MIC παίρνει αποφάσεις. Στον πρώτο τρόπο δρα στα στιγμιότυπα του κάθε συνόλου (instance space) ξεχωριστά χωρίς να επηρεάζεται από τα γύρω σύνολα και τις σχέσεις που έχει το δικό του με αυτά. Από τα στιγμιότυπα λοιπόν του κάθε συνόλου και μόνο ο ταξινομητής αποφασίζει για την κλάση του συνόλου τους. Figure 21 Instance space classifier Ο άλλος τρόπος βασίζεται στο χώρο των συνόλων (Bag space) και στις σχέσεις που υπάρχουν μεταξύ τους στο χώρο αυτό. Σε αυτή τη λογική κάθε σύνολο αντιμετωπίζεται σα μία μεμονωμένη οντότητα. Κάθε κατηγοριοποιητής λαμβάνει πληροφορία από όλα τα σύνολα για να αποφασίσει την κλάση του κάθε νέου. Επειδή ο χώρος που υπάρχουν τα σύνολα δεν αποτελεί χώρο διανυσμάτων οι μόνες γνωστές τεχνικές για μάθηση σε τέτοιους χώρους βασίζονται σε συναρτήσεις αποστάσεις D(X,Y). Άρα για να γίνει η κατηγοριοποιήση πρέπει πρώτα να υπολογιστούν τα μητρώα απόστασης βάσει της

37 μετρικής που χρησιμοποιείται. Παράδειγμα του bag space classification φαίνεται παρακάτω. Figure 22 Bag space classification Πολλοί από τους αλγορίθμους που έχουν αναφερθεί σε κλασσικά προβλήματα ML έχουν τροποποιηθεί και χρησιμοποιούνται και για πρόβλημα MIL. Ακόμα αξίζει να αναφέρουμε ότι αλγόριθμοι MIL έχουν δημιουργηθεί και για προβλήματα clustering και regression. Ένα θέμα που αξίζει προσοχή είναι ότι οι αλγόριθμοι MIL έχουν πολύ μεγάλο υπολογιστικό κόστος. Αυτό συμβαίνει γιατί στο παράδειγμα με τους instance-space ταξινομητές το πλήθος τον στιγμιότυπων συχνά είναι πάρα πολύ μεγάλο. Ακόμα όμως και στην περίπτωση των bag-space μεθόδων, παρόλο που το σετ εκπαίδευσης είναι πολύ πιο μικρό, καθώς τα σύνολα είναι πολύ λιγότερα από τα στιγμιότυπα, το υπολογιστικό κόστος είναι εξίσου πολύ μεγάλο. Η εξήγηση είναι ότι απαιτείται ο υπολογισμός αποστάσεων μεταξύ των συνόλων. Έστω ότι Μ τα σύνολα με μέσο ορό στιγμιότυπων Ν και D η διάσταση αυτών των στιγμιότυπων. Ο υπολογισμός της απόστασης κοστίζει Ο(M 2 N 2 D) και αυτό πρέπει να υπολογιστεί για κάθε σύνολο με κάθε άλλο που υπάρχει. Για μεγάλες τιμές στο Μ και το Ν γίνεται κατανοητό ότι το κόστος μπορεί εύκολα να γίνει απαγορευτικό.[20], [21]

38 1.8.1 Ο αλγόριθμος MILBoost Μετά την εισαγωγή που έγινε στην μάθηση πολλαπλών στιγμιότυπων θα γίνει μια αναφορά σε έναν από τους αλγορίθμους που θα χρησιμοποιηθεί μετά και στην πειραματική διαδικασία. Αν και πολλοί είναι οι αλγόριθμοι μηχανικής μάθησης που έχουν μεταφραστεί και σε MIL μορφή όπως οι αλγόριθμοι MILES, MI-SVM, MI-ELM και άλλοι ο MILBoost διαφέρει λίγο από αυτούς. Η βασική διαφορά είναι ότι ο αλγόριθμος αυτός προσφέρει μια boosting εκδοχή. Δηλαδή βασίζεται στην εκπαίδευση πολλών «αδυνάμων» ταξινομητών για την δημιουργία ενός ισχυρού. Επίσης εκτός αυτού προσφέρει και μια δεύτερη εκδοχή του MCILBoost η οποία θα αναλυθεί στην συνέχεια. Η διαδικασία που ακολουθεί ένας ταξινομητης MIL αποτελείται από δυο βήματα. Πρώτα την δημιουργία ενός instance base ταξινομητή για την ταξινόμηση των instances το κάθε bag και στην συνέχει έναν bag space ταξινομητή για την ταξινόμηση των bags. Η όλη ταξινόμηση βασίζεται σε μια συνάρτηση κόστους που υπολογίζει βάρη και πιθανότητες και μια συνάρτηση sofmax για την ταξινόμηση των bags. Η συνάρτηση αυτή μπορεί να είναι είτε η Generalized mean (GM) log-sum είτε η exponential (LSE). Ο αλγόριθμος MCIL που επίσης προσφέρεται προς χρήση ακολουθεί μια λίγο διαφορετική προσέγγιση στα δεδομένα. Το κάθε bag χωρίζεται σε κάποια cluster. Για να θεωρηθεί ένα δεδομένα ως θετικό θα πρέπει να ανήκει σε ένα από αυτά τα cluster. Ο στόχος του MCIL είναι να κατασκευάσει K (όσο ο αριθμός των cluster) instance-level ταξινομητές. Σε επίπεδο bag δεν αλλάζει κάτι ως προς την ταξινόμηση. Στην παρακάτω εικόνα φαίνεται σε ψευδοκώδικα η λειτουργία του MCIL. Σε περίπτωση που το Κ=1 τότε προφανώς τρέχει ο αλγόριθμος MIL που αναφέρθηκε παραπάνω. [22] Figure 23 Ψευδοκώδικας αλγορίθμου MCILBoost

39 Κ Ε Φ Α Λ Α Ι Ο 2: Ε Φ Α Ρ Μ Ο Γ Ε Σ Μ Η Χ Α Ν Ι Κ Η Σ Μ Α Θ Η Σ Η Σ Σ Ε Β ΙΟΪ Α Τ Ρ Ι Κ Α Δ Ε Δ Ο Μ Ε Ν Α 2.1 Εισαγωγή Ο τομέας της υγείας αποτελεί εδώ και χρόνια βασικό πυλώνα της κοινωνίας και αποτελεί αδιαμφισβήτητα μία από τις σημαντικότερες υπηρεσίες που μας προσφέρονται. Ανά τα χρόνια η εξέλιξη και η βελτίωσή του αποτελούν μείζον θέμα και απασχολεί πολλούς σημαντικούς επιστήμονες και ειδήμονες του χώρου, πράγμα το οποίο φαίνεται και από τα υπέρογκα ποσά που επενδύονται κάθε χρόνο για αυτό τον σκοπό. Η τεχνολογική ανάπτυξη που βιώνουμε τα τελευταία χρόνια έχει επηρεάσει και τον τομέα της υγείας. Ένα «έξυπνο» σύστημα υγείας δεν αποτελεί πια μία ουτοπία αλλά είναι κάτι το οποίο έχει αρχίσει να υλοποιείται. Παίζοντας σημαντικό ρολό η τεχνολογία ήρθε να αλλάξει τον τρόπο θεραπείας των ασθενών, διαχείρισης των αρχείων, καθώς και όλου του συστήματος. Η μηχανική μάθηση είναι μία από αυτές τις τεχνολογίες που έχουν παίξει και θα παίξουν καθοριστικό ρολό σε ολόκληρο τον βιοϊατρικό τομέα. Λόγω του τεράστιου όγκου βιοϊατρικών δεδομένων που διαθέτουμε τα μοντέλα ML μπορούν να είναι πολύ αποτελεσματικά και να βελτιώσουν τον τρόπο που το ιατροφαρμακευτικό προσωπικό χειρίζεται την καθημερινότητά του. Σεβόμενοι πάντα τις γνώσεις και τη σημαντικότητα του προσωπικού αυτού η μηχανική μάθηση δεν ήρθε να αντικαταστήσει την ανθρώπινη δραστηριότητα, αλλά να βελτιώσει το αποτέλεσμά της παρέχοντας ισχυρή βοήθεια σε θέματα που αφορούν την πρόβλεψη ασθενειών, τα φάρμακα και φυσικά τη διάγνωση. Ο άνθρωπος παραμένει φυσικά ο κυρίαρχος και αυτός που καλείται να πάρει τις τελικές αποφάσεις έχοντα όμως μία πολύ πιο σαφή άποψη στα δεδομένα κάθε περίπτωσης. Η αξία της μηχανικής μάθησης στον τομέα της υγείας φαίνεται από την ικανότητα της να αναλύει και να επεξεργάζεται τεράστια σύνολα δεδομένων, που από την ανθρώπινη σκοπιά θα ήταν αδύνατο να πραγματοποιηθεί, και να παρέχει αξιόπιστη ανάλυση των δεδομένων με σκοπό την λήψη πιο σωστών αποφάσεων μειώνοντας τον κόπο, τον χρόνο και το κόστος του προσωπικού. Σε αυτό το κεφάλαιο θα αναλυθεί η σημασία και οι εφαρμογές της ML σε Βιοϊατρικα δεδομένα με σκοπό να συνειδητοποιήσουμε την χρησιμότητά της.[23]

40 2.2 Εφαρμογές της μηχανικής μάθησης σε Βιοϊατρικα δεδομένα Μέρα με τη μέρα πληθαίνουν όλο και περισσότερο οι εφαρμογές της μηχανικής μάθησης στον τομέα της υγείας κάνοντας εφικτό ένα σύστημα υγείας σε λίγα χρονιά το οποίο θα συμβαδίζει με την ML και τις τεχνικές της. Παρακάτω παρατίθενται κάποιοι από τους βασικούς τομείς εφαρμογής : Αναγνώριση ασθενειών και διάγνωση : η κύρια και πιο ξεκάθαρη ίσως εφαρμογή της ML σε Βιοϊατρικα δεδομένα είναι η αναγνώριση και η διάγνωση ασθενειών που έχουν προσβάλει κάποιον ασθενή. Οι ασθένειες αυτές συνήθως είναι δύσκολο να διαγνωστούν και θέλουν πλήθος εξετάσεων και καλή ιατρική κρίση. Η πιο γνωστή εφαρμογή σε αυτή την κατηγορία είναι η εύρεση καρκίνου σε πρώιμα στάδια και η αντιμέτωπή καρδιοαναπνευστικών ασθενειών. Οι ασθένειες αυτές είναι αρκετά συχνές και για να αντιμετωπιστούν αποτελεσματικά η έγκαιρη διάγνωση τους αποτελεί μονόδρομο. Εκεί είναι και το σημείο που η ML βρίσκει εφαρμογή. Η διάγνωση αυτών των ασθενειών σε πολύ πρώιμο στάδιο είναι πάρα πολύ δύσκολη για τους γιατρούς με τα δεδομένα που έχουν. Ένα μοντέλο μηχανικής μάθησης είναι σήμερα σε θέση με τεράστια επιτυχία να προβλέψει και να βρει τέτοιες ασθένειες σε στάδια που ο άνθρωπος θα αδυνατούσε. Βιομηχανία φαρμάκων : τεχνικές μηχανικής μάθησης είναι ικανές να βοηθήσουν στα αρχικά στάδια ανακάλυψης ενός νέου φαρμάκου. Χρησιμοποιούνται κυρίως τεχνικές μη επιβλεπομένης μάθησης ώστε να ανακαλυφθούν συσχετίσεις χρήσιμες αναμεσά στα δεδομένα. Διάγνωση μέσω εικόνων : οι τεχνολογίες ML και DL έχουν οδηγήσει στη δημιουργία μίας καινούργιας επιστήμης που ονομάζεται όραση υπολογιστών (computer vision). Η συγκεκριμένη επιστήμη αφορά τη χρήση δεδομένων αποκλειστικά από εικόνες και βίντεο. Πολλά Βιοϊατρικα δεδομένα έχουν τη μορφή εικόνων. Χαρακτηριστικό παράδειγμα αποτελούν οι εικόνες Magnetic resonance imaging (MRI). Από αυτές τις εικόνες μπορούν να εξαχθούν πολλά συμπεράσματα που αφορούν στη διάγνωση και τη θεραπεία. Φαρμακευτική αγωγή : η προσωπική φαρμακευτική αγωγή κάθε ασθενούς γίνεται μέχρι τώρα με την προσπάθεια του γιατρού να ταιριάξει ένα φάρμακο βάσει του ιστορικού του ασθενούς, του ιστορικού προηγούμενων ασθενών που

41 χορηγήθηκε το φάρμακο και τέλος βάση της ασθένειας. Με χρήση τεχνολογιών ML είναι δυνατό να δημιουργήσουμε πολλαπλές και διαφορετικές θεραπείες για κάθε ασθενή βάσει των χαρακτηριστικών του αυξάνοντας την πιθανότητα κάποια από αυτές να είναι λειτουργική. Έξυπνα συστήματα ιστορικού : ακόμα και σήμερα η κατηγοριοποίηση του ιστορικού ενός ασθενή παίρνει πολύ χρόνο και κόπο. Έξυπνες τεχνικές κατηγοριοποίησης και ανάλυσης αυτών των δεδομένων χρησιμοποιούνται και επιτυγχάνουν σημαντικά αποτελέσματα πέρα από χρόνο και κόπο αλλά και στο κόστος. Πρόβλεψη επιδημιών : τέλος έξυπνα συστήματα βασισμένα σε τεχνολογίες ML χρησιμοποιούνται για να ελέγξουν και να προβλέψουν ενδεχόμενη εξάπλωση κάποιας επιδημίας. Τέτοιες προβλέψεις είναι πολύ σημαντικές ειδικά σε χώρες υποανάπτυκτες οπού οι συνέπειες μίας επιδημίας θα ήταν καταστροφικές. Αναφέρθηκαν κάποιες από τις βασικές εφαρμογές που συναντώνται σήμερα στον τομέα της βιοϊατρηκής. Αν και υπάρχουν κι άλλες και θα υπάρξουν και καινούριες λόγω της ανάπτυξης που έχει ο τομέας. Στην παρούσα φάση, παρατέθηκαν οι πιο βασικές και σημαντικές.[24], [25] 2.3 Κατηγορίες βιοϊατρικών δεδομένων Με την εξέλιξη της ιατρικής σήμερα οι γιατροί και οι ειδικοί του χώρου αποκτούν πρόσβαση σε περισσότερα δεδομένα για τους ασθενείς τους τα οποία καλούνται να αναλύσουν. Τα δεδομένα αυτά προκύπτουν από μηχανήματα, εξετάσεις, σένσορες ή και στοιχεία που ο ίδιος ο γιατρός ανακτά. Στο κεφάλαιο αυτό θα γίνει προσπάθεια να χωριστούν τα δεδομένα αυτά σε τρεις μεγάλες κατηγορίες ανάλογα με τη φύση τους και τα χαρακτηριστικά τους. Συνήθως αυτές οι κατηγορίες χαίρουν διαφορετικής αντιμετώπισης η κάθε μία για την ανάλυση τους αλλά όλες έχουν τον ίδιο σκοπό τη διάγνωση, τη θεραπεία και όσα αναφέραμε και πιο πάνω. Βιοϊατρικές εικόνες : συνήθως οι εικόνες σχετίζονται με τη χρήση κάποιας ακτινοβολίας, με τη βοήθεια της οποίας μηχανήματα αποτυπώνουν σε μορφή εικόνας χαρακτηριστικά του ασθενή. Πρόκειται για πολύ γνώστες και συχνές εξετάσεις, από τις πιο απλές, που είναι μία ακτινογραφία στήθους μέχρι και πιο συνθέτες, όπως μαγνητικές (MRI). Οι βασικές εικόνες που χρησιμοποιούνται

42 συχνότερα φαίνονται παρακάτω μαζί με τα κύρια σημεία του ανθρωπίνου σώματος που εφαρμόζονται Table 2 Βασικές κατηγορίες βιοϊατρικών εικόνων Βιοιατρικές εικόνες X-rays γ-rays μαγνητικές υπέρηχος Σημείο χρήσης Στήθος, πνεύμονας, κοκάλα Εγκέφαλος, όργανα, καρδιά Ιστός, εγκέφαλος Έμβρυα, εσωτερικά όργανα Λόγω του μεγάλου όγκου δεδομένων που έχουν οι εικόνες αλλά και λόγω του ότι είναι αρκετά δύσκολη η διαδικασία εξαγωγής χαρακτηριστικών οι αλγόριθμοι μηχανικής μάθησης που συνήθως χρησιμοποιούνται είναι νευρωνικά δίκτυα.[26] Βιοϊατρικά σήματα : με τη χρήση ειδικών μηχανήματων που συχνά σχετίζονται με βιο-σένσορες είναι πλέον δυνατό να εξάγουμε με την μορφή σήματος πληροφορίες όπως καρδιακός ρυθμός, αρτηριακή πίεση, επίπεδα κορεσμού οξυγόνου, γλυκόζη αίματος, αγωγιμότητα νεύρων, εγκεφαλική δραστηριότητα και άλλα. Παρακάτω φαίνονται τα κύρια αυτά σήματα με την επιστημονική τους ονομασία. Table 3 Βασικές κατηγορίες βιοϊατρικών σημάτων Σήματα Electroencephalogram (EEG) επεξήγηση Μέθοδος παρακολούθησης και καταγραφής της ηλεκτρικής δραστηριότητας του εγκέφαλου γνωστή και ως εγκεφαλογράφημα Electrocardiogram (ECG) Καρδιογράφημα είναι ένα γράφημα της τάσης έναντι του χρόνου της ηλεκτρικής δραστηριότητας της καρδιάς. Electromyogram (EMG) Η ηλεκτρομυογραφία είναι μία τεχνική για την αξιολόγηση και καταγραφή της ηλεκτρικής

43 δραστηριότητας που παράγεται από τους σκελετικούς μύες. Mechanomyogram (MMG) Το μηχανιογράφημα (MMG) είναι το μηχανικό σήμα που παρατηρείται από την επιφάνεια ενός μυός όταν ο μυς συστέλλεται Electrooculography (EOG) Είναι μία τεχνική για τη μέτρηση του δυναμικού του κερατοαμφιβληστροειδούς που υπάρχει μεταξύ του εμπρός και του πίσω μέρους του ανθρώπινου ματιού. Breathing rate (BR) Ο αριθμός των αναπνοών που παίρνει κάποιος σε μία χρονική περίοδο Πέρα από το γεγονός ότι η ανάλυση τέτοιων σημάτων μπορεί να εξάγει πολύ χρήσιμα αποτελέσματα για έναν ασθενή, ένας ακόμα λόγος που μεγαλώνει πολύ την αξία τους είναι ότι επιτρέπουν να παρακολουθούμε την πορεία ενός ασθενή σε πραγματικό χρόνο. Με τον τρόπο αυτό γίνεται δυνατή η πρόβλεψη πολύ νωρίς τυχόν ανωμαλιών στην υγειά κάποιου. Η τεχνολογική πρόοδος με την χρήση των βιο-ανιχνευτών (biosensors) κατάφερε μάλιστα να δημιουργήσει διαφορά wearables τα οποία ο ασθενής μπορεί να έχει πάντα πάνω του και να γίνονται σε πραγματικό χρόνο μετρήσεις, οι οποίες ή στέλνονται σε κάποιο διαγνωστικό κέντρο ή χρησιμοποιούνται για τη λήψη αποφάσεων ανάλογα με το τι διαβάζουν οι ανιχνευτές. Τέτοια wearable μπορεί να έχουν τη μορφή ρολογιού, γιλέκου, ζώνης ή και άλλη εφαρμόσιμη στο σώμα μορφή. Γενικής φύσεως δεδομένα : σε αυτή την κατηγορία ανήκουν δεδομένα που μπορεί ο ίδιος ο γιατρός να έχει εντοπίσει και να έχει σημειώσει. Ακόμα ανήκουν δεδομένα του ιστορικού του ασθενή. Όλα αυτά μπορούν να αποτελέσουν βασικά χαρακτηριστικά σε αλγορίθμους μηχανικής μάθησης και να προσθέσουν σημαντικές πληροφορίες για τον ασθενή και τη διάγνωση

44 Κ Ε Φ Α Λ Α Ι Ο 3 : Μ Ε ΓΑ Λ Ο Υ Ό Γ Κ Ο Υ Δ Ε Δ Ο Μ Ε Ν Α 3.1 Εισαγωγή Με τον όρο μεγάλου όγκου δεδομένα νοούνται data sets τα οποία έχουν μεταβλητές πολλαπλών επίπεδων και των οποίων ο όγκος μεγαλώνει πολύ γρήγορα. Με την τεχνολογική εξέλιξη που βιώνουμε ο όγκος των δεδομένων που καλείται να αναλυθεί μεγαλώνει τόσο σε αριθμό εγγράφων σε ένα data set όσο και διαστατικά. Γίνεται λοιπόν αναγκαία η διαχείριση πολυδιάστατων δεδομένων. Το γεγονός αυτό έχει δημιουργήσει μία σειρά από προβλήματα κυρίως απόδοσης. Oι τεχνικές και οι αλγόριθμοι που ήταν γνωστοί από παλιά συνεχίζουν προφανώς να έχουν εφαρμογή, όμως ο χρόνος και το υπολογιστικό κόστος τους έχει μεγαλώσει σε σημείο που σε ορισμένες περιπτώσεις δεν είναι βιώσιμο. Η Oracle δίνει τον παρακάτω ορισμό για το τι είναι big data που ίσως κάνει ακόμα πιο κατανοητά όσα αναφέρθηκαν : Τα μεγάλα δεδομένα είναι δεδομένα που περιέχουν μεγαλύτερη ποικιλία (variety) που φθάνει σε αυξανόμενους όγκους (volumes) και με όλο και μεγαλύτερη ταχύτητα(velocity). Αυτό είναι γνωστό ως τα τρία Vs. [27] Volume: Η ποσότητα των δεδομένων έχει σημασία. Συχνά απαιτείται να γίνει επεξεργασία δεδομένων υψηλού όγκου και ταυτόχρονα χαμηλής πυκνότητας σε πληροφορία και μη δομημένα. Αυτά μπορεί να είναι δεδομένα που προέρχονται από ιστοσελίδες, μία εφαρμογή για κινητά ή εξοπλισμό με αισθητήρες. Για ορισμένους, αυτά μπορεί να είναι δεκάδες terabyte δεδομένων. Για άλλους, μπορεί να είναι εκατοντάδες petabytes. Velocity: Η ταχύτητα είναι ο ρυθμός με τον οποίο λαμβάνονται τα δεδομένα και επεξεργάζονται. Συχνά αυτή η επεξεργασία γίνεται απευθείας στη μνήμη έναντι της εγγραφής της πληροφορίας πρώτα στο δίσκο. Ορισμένα έξυπνα προϊόντα με δυνατότητα διαδικτύου λειτουργούν σε πραγματικό χρόνο

45 Variety: Η ποικιλία αναφέρεται στους πολλούς τύπους δεδομένων που είναι διαθέσιμοι. Οι παραδοσιακοί τύποι δεδομένων ήταν δομημένοι και ταίριαζαν απολυτά σε σχεσιακές βάσεις δεδομένων. Με την αύξηση των μεγάλων δεδομένων, τα δεδομένα έρχονται σε νέους τύπους χωρίς δομή. Οι μη δομημένοι και ημιδομημένοι τύποι δεδομένων, όπως κείμενο, ήχος και βίντεο, απαιτούν πρόσθετη προεπεξεργασία για να μπορέσουμε τόσο να τα αποθηκεύσουμε όσο και να εξάγουμε πληροφορία από αυτά. Η τεράστια αυτή ροή δεδομένων που υπάρχει σήμερα γεννά πλέον και νέα ερωτήματα γύρω από αυτά. Πέρα από την επεξεργασία και την αποθήκευση πλέον απασχολεί σε μεγάλο βαθμό αν τα δεδομένα έχουν αξία και κατά ποσό είναι ακριβής και όχι ψεύτικα. Τα δύο αυτά ζητήματα έρχονται να προστεθούν στην ανάλυση των δεδομένων και να αυξήσουν κι άλλο το υπολογιστικό κόστος σε ορισμένες περιπτώσεις. Για όλα αυτά που αναφέρθηκαν παραπάνω έχουν αναπτυχθεί μια σειρά από τεχνικές με σκοπό την μείωση του όγκου αυτού, χωρίς να έχουμε απώλεια σε πληροφορία, καθώς και στην διαστατική μείωση των δεδομένων που περιέχουν. Η διαστατική μείωση των δεδομένων μας, ως μέρος ενός βήματος προ-επεξεργασίας των δεδομένων, είναι εξαιρετικά σημαντική σε πολλές πραγματικές εφαρμογές. Πρακτικά αυτό σημαίνει ότι σε ένα σύνολο δεδομένων με εκατοντάδες χαρακτηριστικά γίνεται προσπάθεια να μειωθούν συγχωνεύοντας τα ή συνδυάζοντας τα με τρόπο τέτοιο ώστε να μην χαθούν τα σημαντικότερα από αυτά. Η διαστατική μείωση επιτυγχάνεται συνήθως με δύο τρόπους επιλογή δεδομένων (feature selection) ή εξαγωγή δεδομένων (feature extraction). Με την επιλογή δεδομένων ουσιαστικά διαλέγονται αυτά τα χαρακτηριστικά που έχουν νόημα και προσδίδουν μεγαλύτερη πληροφορία στο πρόβλημα και αγνοούνται όλα τα υπόλοιπα. Με την εξαγωγή δεδομένων θεωρείται όλη η πληροφορία σαν μια οντότητα που αναπαρίσταται σε χαμηλότερες διαστάσεις.[28] Figure 24 Διαφορά αναμεσά σε επιλογή και εξαγωγή δεδομένων Στη συνέχεια του κεφαλαίου θα αναφερθούν βασικές τεχνικές διαστατικής μείωσης μερικές από τις οποίες θα χρησιμοποιηθούν και στην πειραματική υλοποίηση της εργασίας

46 3.2 Τεχνικές επιλογής χαρακτηριστικών Παρακάτω αναφέρονται τεχνικές επιλογής χαρακτηριστικών που αποδίδουν χρήσιμες πληροφορίες στο πρόβλημα μας. Η χρήση τους βοηθάει σε περιπτώσεις που τα σετ δεδομένων περιέχουν χαρακτηριστικά χωρίς ιδιαίτερη σημασία ή χαρακτηριστικά που προσδίδουν ακριβώς την ιδιά πληροφορία με κάποιο που ήδη υπάρχει αρά δεν υπάρχει νόημα να χρησιμοποιήσουμε και τα δύο.[28] Variance και Correlation thresholds Οι δύο αυτές τεχνικές αν και απλές σε υλοποίηση και λογική μπορούν να αποτελέσουν χρήσιμα εργαλεία στην ανάπτυξη μοντέλων ML. Η τεχνική variance threshold αναζητά τη διακύμανση στην τιμή ενός χαρακτηριστικού. Στη συνέχεια, εάν η διακύμανση δεν είναι διαφορετική σε κάθε παρατήρηση σύμφωνα με το δεδομένο όριο που εμείς έχουμε θέσει, αφαιρείται το χαρακτηριστικό που είναι υπεύθυνο για αυτήν την παρατήρηση. Τα χαρακτηριστικά των οποίων η τιμή δεν αλλάζει κατά πολύ δεν προσθέτουν χρήσιμη στο πρόβλημα πληροφορία. Η χρήση ορίων διακύμανσης είναι ένας εύκολος και σχετικά ασφαλής τρόπος για να μειωθεί η διάσταση ενός συνόλου δεδομένων. Το όριο ορίζεται από τον χρήστη και γίνεται αντιληπτό ότι αλλαγή στην τιμή του επηρεάζει κατά πολύ το τελικό αποτέλεσμα. Η τεχνική του ορίου συγκρίνει δύο διαφορετικά χαρακτηριστικά μεταξύ τους και βλέπει κατά ποσό συσχετίζονται. Αν υπάρχει συσχέτιση και μάλιστα μεγάλη, το τελικό αποτέλεσμα θα είναι το ίδιο είτε χρησιμοποιήσουμε ένα είτε και τα δύο αυτά χαρακτηριστικά. Η συσχέτιση υπολογίζεται για κάθε ζεύγος χαρακτηριστικών και στο τέλος για κάθε ζευγάρι που η συσχέτιση του είναι πάνω από ένα προκαθορισμένο όριο καταργείται αυτό το χαρακτηριστικό που έχει μεγαλύτερο μέσο απολυτό συσχετισμό με τα αλλά χαρακτηριστικά. Όπως αναφέρθηκε και πριν και αυτή η τεχνική βασίζεται στην διαίσθηση του χρήστη για το ποιο είναι το σωστό όριο ώστε να μη χαθούν χρήσιμες πληροφορίες Stepwise Regression Αν και η τεχνική αυτή χαρακτηρίζεται αφελής χρησιμοποιείται σε αρκετές περιπτώσεις λόγω της απλότητας της, ειδικά όταν τα χαρακτηριστικά που καλούνται να διαχειριστούν δεν είναι πάρα πολλά. Για να επιτευχθεί μείωση στο σύνολο των χαρακτηριστικών η τεχνική αυτή προτείνει δύο διαφορετικούς τρόπους, την εμπρός και την πίσω οπισθοδρόμηση. Κατά την εμπρός οπισθοδρόμηση επιλέγεται ένα μόνο χαρακτηριστικό και γίνεται εκπαίδευση σε ένα μοντέλο. Στην συνέχεια επιλέγεται ένα δεύτερο χαρακτηριστικό και προστίθεται και ξανά εκπαιδεύεται το μοντέλο. Αν υπάρχει βελτίωση το χαρακτηριστικό κρατιέται. Αυτό συνεχίζεται μέχρι να μην υπάρχει κάποιο χαρακτηριστικό που να αυξάνει την απόδοση. Αντίστοιχα η πίσω οπισθοδρόμηση ξενικά με όλα τα χαρακτηριστικά και αφαιρεί ένα την φορά κρατώντας κάθε φορά αυτά με την καλύτερη απόδοση συνολικά. Γίνεται ευκολά αντιληπτό γιατί η μέθοδος είναι αφελής και τις δυσκολείες που μπορεί να έχει η εφαρμογή της σε μεγάλα σετ δεδομένων

47 3.3 Τεχνικές εξαγωγής χαρακτηριστικών Είναι σημαντικό να γίνει αντιληπτό ότι οι τεχνικές που αναφέρονται στην συνέχεια δημιουργούν ένα καινούργιο μικρότερο σετ δεδομένων το οποίο όμως περιέχει σε μεγάλο βαθμό την πληροφορία που είχε το αρχικό. Figure 25 Feature extraction process Διαστατική μείωση μέσω LDA Όπως είχε αναφερθεί και σε παραπάνω κεφάλαιο που αναλύθηκε ο αλγόριθμος LDA πέρα από κατηγοριοποίηση είναι ικανός να επιτύχει και διαστατική μείωση. Ο αλγόριθμος χρησιμοποιεί πληροφορία από πολλαπλά χαρακτηριστικά με σκοπό να δημιουργήσει έναν άξονα πάνω στον οποίο προβάλει τα δεδομένα με τέτοιον τρόπο ώστε να ελαχιστοποιεί τη διακύμανση και να μεγιστοποιεί την απόσταση μεταξύ των μέσων των κλάσεων. Τα δεδομένα από ένα δυσδιάστατο πρόβλημα προβάλλονται σε μία γραμμή, από ένα τρισδιάστατο σε ένα 2d plane και όμοια ένα πρόβλημα Κ κλάσεων προβάλλεται σε ένα υπερεπίπεδο με αριθμό διαστάσεων (Κ-1). Όταν υπολογίζονται αποστάσεις σε αυτούς τους χώρους και αυτές είναι ορθογώνιες ως προς το επίπεδο δεν συνεισφέρουν πληροφοριακά αφού η συνεισφορά τους σε κάθε κλάση είναι ίση. Αυτό πρακτικά σημαίνει ότι είναι ασφαλές να μεταφερθούμε από έναν χώρο N διαστάσεων σε έναν χώρο (Κ-1) κάνοντας ορθογώνια προβολή τον δεδομένων σε αυτόν. Το βασικό μειονέκτημα της μεθόδου είναι ότι αφορά σύνολα δεδομένων με ετικέτες. Δηλαδή μπορεί να χρησιμοποιηθεί μόνο για επιβλεπόμενη μάθηση.[17] Μέθοδοι PCA και SVD Με τη μέθοδο Principal Component Analysis (PCA) είναι δυνατό να επιτευχθεί διαστατική μείωση, η οποία βασίζεται σε σχέσεις που έχουν τα δεδομένα μεταξύ τους. Βάσει αυτών των σχέσεων μετατρέπει το υπάρχον σύνολο δεδομένων και δημιουργεί ένα νέο που περιέχει αυτές τις σχέσεις. Για να γίνει κάτι τέτοιο αρκεί να εφαρμοστούν κάποια συγκεκριμένα βήματα που απαιτούνται. Αρχικά έστω ότι ένα μητρώο με δεδομένα Χ(n,m) το οποίο αποτελείται από n δείγματα και m τιμές για αυτά τα δείγματα. Οι σχέσεις μεταξύ των δεδομένων αντιπροσωπεύονται από ένα μητρώο συσχέτισης(covariance matrix) του παραπάνω μητρώου Χ. Μέσω γραμμικού μετασχηματισμού ή eigen decomposition του μητρώου αυτού είναι : eig(x τ X). W, λ

48 Οπού W(m,n) είναι το μητρώο eigenvalues και λ eigenvectors. Κάθε στήλη του W αποτελεί ένα principal component (PC1,PC2,,PCn) σε σειρά από το πιο σημαντικό στο λιγότερο. Το τελευταίο βήμα είναι να πολλαπλασιαστεί το μητρώο W που ονομάζεται και loadings με το μητρώο Χ που έχει τα δεδομένα. Το αποτέλεσμα είναι μητρώο Τ = Χ*W. Το μητρώο Τ ονομάζεται scores και είναι αυτό που κρατά την πληροφορία του Χ αλλά την προβάλει διαφορετικά ανάλογα με το πως το ορίζει το W. Συνήθως, το σύνολο της πληροφορίας μπορεί να αποδοθεί μόνο από τα πρώτα principal components και όχι από όλα. Έτσι δεν πολλαπλασιάζεται το Χ με ολόκληρο το W αλλά μόνο με τις στήλες του W που καλύπτουν το εκάστοτε πρόβλημα. Με τον τρόπο αυτό μειώνονται οι διαστάσεις του Τ κατά το πως το επιλέξει ο καθένας ανάλογα με το αριθμό τον PC που θα χρησιμοποιηθεί. Αν για παράδειγμα επιλεχθούν μόνο οι δύο πρώτες PC τότε το μητρώο Τ από διαστάσεις n*n θα έχει μόνο n*2 μειώνοντας τις διαστάσεις του αρχικού προβλήματος κατά πολύ. Το καινούργιο μητρώο που δημιούργησε η μέθοδος PCA έχει στοιχεία ορθογώνια μεταξύ τους πράγμα που σημαίνει ότι δεν υπάρχει συσχέτιση μεταξύ τους. Συνοψίζοντας η μέθοδος αυτή βρίσκει γραμμικούς συσχετισμούς μεταξύ των δεδομένων πράγμα που σημαίνει ότι αν δεν υπάρχουν και τα δεδομένα είναι εξαρχής ασυσχέτιστα τότε δεν θα είναι και πολύ χρήσιμη. Όμοια με την μέθοδο PCA υπάρχει και η μέθοδος singular value decomposition (SVD). Οπού πρόκειται απλά για έναν πιο γρήγορο και πιο απλό τρόπο υπολογισμού του μητρώου W που υπήρχε και στην PCA κι αρά της ιδίας της μεθόδου. Είναι αρκετά πιο γρήγορη και πιο αποδοτική μέθοδος ειδικά σε μεγάλα δεδομένα και αυτό γιατί δεν απαιτεί τον υπολογισμό Χ τ *Χ όπου από τη θεωρία της γραμμικής άλγεβρας γνωρίζουμε ότι είναι «ακριβώς» υπολογισμός. Η μέθοδος SVD,ουσιαστικά, είναι μία παραγοντοποίηση του μητρώου Χ. Το μητρώο αυτό μπορεί να πάρει την μορφή : X = U Σ V Όπου Χ είναι το μητρώο με τα δεδομένα όπως πριν U είναι το αριστερό singular vector V το δεξί singular vector και το Σ είναι ένα μητρώο με τα singular values στη διαγώνιο του με σειρά σημαντικότητας. Για τα μητρώα αυτά ισχύει ότι U U = I οπου Ι το ταυτοτικό μητρώο και V V = I. Ο δείκτης * ονομάζεται conjugate transpose, αν το μητρώο δεν περιέχει μιγαδικούς αριθμούς λειτουργεί σαν κανονικό transpose. Το W που υπήρχε στην μέθοδο PCA είναι σχεδόν ίσο με το V και έτσι από τη σχέση υπολογισμού του Τ έχουμε : T = X W = U Σ V V V V=I T = U Σ

49 Figure 26 Singular Value Decomposition Έτσι υπολογίζεται πιο εύκολα και πιο γρήγορα το μητρώο Τ. Και εδώ προφανώς ισχύει ότι κρατάμε από το Σ μόνο όσες τιμές θέλουμε μειώνοντας τις διαστάσεις του μητρώου Τ κατά το πως επιθυμούμε. Η μέθοδος SVD είναι λόγω της ταχύτητάς της και ο τρόπος που οι περισσότεροι αλγόριθμοι υλοποιούν την PCA έχοντας καλυτέρα αποτελέσματα. 3.4 Τανυστική αποδόμηση Βασικοί ορισμοί και έννοιες τανυστών Με τον ορό τανυστής ορίζεται ένα πολυδιάστατο διάνυσμα μία γενίκευση ουσιαστικά των πινάκων σε μεγαλύτερες διαστάσεις. Ειδικότερα, ένας τανυστής τάξης N (N-order) αποτελεί ένα στοιχείο του τανυστικού γινομένου N διανυσματικών χώρων, ο καθένας από τους οποίους έχει το δικό του σύστημα συντεταγμένων. [21] Figure 27 Αναπαράσταση τανυστή τάξης 3 Οι τανυστές αρχικά εμφανιστήκαν από το 1927 αλλά δεν χρησιμοποιήθηκαν από την επιστήμη των υπολογιστών μέχρι τα τέλη του 20 ου αιώνα. Οι τομείς της ψυχομετρίας (Psychometrics) και της χημειομετρικης (Chemometrics) ήταν ιστορικά οι πρώτοι που οι τανυστές βρήκαν εφαρμογή. Ακολούθησε η επεξεργασία σημάτων τη δεκαετία του 90 αλλά η μεγαλύτερη καταξίωση ήρθε όταν η επιστήμη των υπολογιστών ανακάλυψε την δύναμη και τις προοπτικές των μεθόδων αυτών. Η

50 αυξανομένη υπολογιστική και αποθηκευτική δύναμη σε συνδυασμό με την καλύτερη κατανόηση των εννοιών έκανε πιο ευνοϊκή την χρήση τανυστών σε πρόβλημα μηχανικής μάθησης, στατιστικής και επιστήμης των δεδομένων. Εφαρμογές περιλαμβάνουν αναγνώριση προτύπων από εικόνες, εύρεση «κλίκας» σε δίκτυα κοινωνικής δικτύωσης καθώς και ανάλυση και επεξεργασία βιοϊατρικών και άλλων σημάτων. Η ευελιξία που παρέχεται από τους τανυστές στη διαχείριση μεγάλων δεδομένων είναι και ο λόγος που βρίσκουν εφαρμογή σε πολλά σημερινά προβλήματα. Συνήθως μαζί με την έννοια του τανυστή πάει και ο ορός τάξη(rank) για παράδειγμα τανυστής τάξης τρία. Η τάξη ενός τανυστή αναφέρεται στον αριθμό των διαστάσεων του. Ένας βαθμωτός αποτελεί έναν τανυστή τάξης μηδέν, ένα διάνυσμα είναι τανυστής τάξης ένα, ένα μητρώο τανυστής τάξης δύο και αντίστοιχα για μεγαλύτερες τάξεις. [29] Figure 28 Τάξεις ενός τανυστή Ένας τανυστής τάξης τρία μπορεί να χωριστεί σε υπο-τανυστές τάξης ένα καθώς και σε υπο-τανυστές τάξης δύο. Όμοια κάθε τανυστής τάξης Ν μπορεί να χωριστεί σε υπο-τανυστές τάξης Ν-1. Οι υπο-τανυστές τάξης ένα ονομάζονται ίνες (fibers) και έχουμε τρία διαφορετικά είδη ίνας, κατά στήλες, γραμμές και τους σωλήνες (tubes) όπως φαίνεται στην εικόνα παρακάτω. Figure 29 Ίνες υπο-τανυστή τάξης τρία Εάν τώρα ο τανυστής χωριστεί σε υπο-τανυστές τάξης δύο τότε αυτοί ονομάζονται κομμάτια (slices). Αντίστοιχα με πριν υπάρχουν τριών ειδών κομμάτια οριζόντια, πλευρικά και μπροστινά τα οποία φαίνονται και από κάτω

51 Figure 30 Κομμάτια υπο-τανυστή τάξης τρία Πέρα από την τάξη ενός τανυστή ορίζεται και ο ορός βαθμός (rank). Δοθέντος ενός τανυστή Τ ο βαθμός του είναι ο μικρότερος αριθμός τανυστών πρώτου βαθμού με άθροισμα ίσο με Τ. Ένας τανυστής χαρακτηρίζεται πρώτου βαθμού αν και μόνο αν υπάρχουν διανύσματα z τέτοια ώστε να ισχύει : T = z 1 z 2 z N Δηλαδή ο τανυστής Τ να μπορεί να γραφτεί σαν εξωτερικό γινόμενο Ν διανυσμάτων οπού Ν η τάξη του τανυστή. Figure 31 Τανυστής βαθμού ένα σαν εξωτερικό γινόμενο Με τους τανυστές είναι δυνατό να υλοποιηθούν σχεδόν όλες τις γνωστές πράξεις και μετατροπές που ισχύουν στην γραμμική άλγεβρα. Ορισμένες από αυτές παραμένουν ιδίες και άλλες γίνονται με άλλους τρόπους. Πράξεις πρόσθεσης, πολλαπλασιασμού εσωτερικού και εξωτερικού γινομένου υποστηρίζονται κανονικά από τους τανυστές. Ακόμα υπάρχει η δυνατότητα να αναπαραστήσουμε έναν τανυστή μέσω ενός μητρώου με διάφορους τρόπους. [21], [29] [31]

52 3.4.2 Η Τανυστική αποδόμηση CPD (CANDECOM/PARAFAC) Αφού αναλύθηκαν οι βασικές έννοιες που υπάρχουν γύρω από τους τανυστές θα αναλυθεί στην συνέχεια ένας από τους πιο γνωστούς αλγορίθμους τανυστικής αποδόμησης. Αξίζει να αναφερθεί ότι υπάρχουν κι άλλοι αλγόριθμοι όπως για παράδειγμα η αποδόμηση Tucker αλλά η ανάλυση τους ξεφεύγει από τους σκοπούς αυτής της διπλωματικής. Η αποδόμηση CPD θεωρείται μία αποδόμηση βαθμού. Η όλη προσπάθεια βρίσκεται δηλαδή στο να επιτευχθεί να εκφραστεί ένας τανυστής ως άθροισμα πεπερασμένων βαθμού ένα (Rank-1) τανυστών. Υπήρξαν δυο αποδοτικές τεχνικές που έκαναν κάτι τέτοιο η CANonical DECOMPosition (CANDECOMP) και η PARAllel FACtors (PARAFAC) decomposition. Τόσο η μια όσο και η άλλη αν και βγήκαν από διαφορετικά γνωστικά πεδία έχουν στις βάσεις τους τις ιδίες αρχές και για το λόγο αυτό αναφέρονται πια ως CANDECOMP/PARAFAC ή canonical polyadic decomposition (CPD).[21], [30] Για παράδειγμα μία αποδόμηση αυτής της μορφής σε έναν τανυστή τρίτης τάξης φαίνεται παρακάτω : min Χ Χ Χ οπου Χ = α r b r c r Όπου τα α,b,c αποτελούν μητρώα που έχουν ως στήλες τα διανύσματα των απλών τανυστών βαθμού ένα και το R είναι ένας ακαριαίος που καθορίζει τον βαθμό της αποδόμησης. Μία γραφική αναπαράσταση της αποδόμησης αυτής φαίνεται στην εικόνα παρακάτω R r=1 Figure 32 Τανυστική αποδόμηση τανυστή βαθμού τρία Αξίζει να σημειωθεί ότι αν ισχύει ότι min Χ Χ = 0 τότε αναφερόμαστε στο Χ ως Χ την ακριβή χαμηλού βαθμού προσέγγιση του Χ. Σε γενικές γραμμές μία αποδόμηση CPD ενός τανυστή οποιουδήποτε βαθμού δίνεται από τον τύπο : R X = λ r a 1 r a 2 n r a r = λ; A 1 A 2,, A n r=1-45 -

53 Υπάρχον αρκετοί διαφορετικοί αλγόριθμοι για τον υπολογισμό μιας αποδόμησης CPD στην συνέχεια θα αναλυθεί ο αλγόριθμος ALS.[21], [30] Alternating Least Squares (ALS) Algorithm Στο υποκεφάλαιο αυτό, θα γίνει μια σύντομη παρουσίαση του αλγορίθμου Εναλλασσόμενων Ελάχιστων Τετράγωνων (ALS) ο οποίος έχει αποδειχθεί αποδοτικός και με καλά αποτελέσματα κυρίως για προβλήματα μικρά σε όγκο. Η κύρια ιδέα του αλγορίθμου είναι σε κάθε επανάληψη να σταθεροποιεί όλους τους παράγοντες εκτός από έναν με σκοπό να τον βελτιστοποιήσει και μετά να επαναλάβει αυτό το βήμα για κάθε άλλο παράγοντα που υπάρχει έως ότου να ικανοποιηθεί κάποιο κριτήριο. Το κριτήριο αυτό μπορεί να είναι κάποιος μέγιστος αριθμός επαναλήψεων ή κάποιο κριτήριο σύγκλισης του αλγορίθμου. Τα βήματα του αλγορίθμου για έναν Ν βαθμού τανυστή φαίνονται παρακάτω. Αξίζει να αναφερθεί ότι ο βαθμός της αποδόμησης R πρέπει να δοθεί σαν είσοδος στον αλγόριθμο από πριν. Figure 33 Αλγόριθμος ALS Στο πρώτο βήμα του αλγορίθμου γίνεται αρχικοποίηση των πινάκων παραγόντων. Η αρχικοποίηση αυτή μπορεί να γίνει με πολλούς τρόπους όπως και τυχαία. Αν και γενικά ο αλγόριθμος είναι αποδοτικός δεν είναι σίγουρο ότι θα συγκλίνει πάντα σε ένα ολικό ελάχιστο. Σε μεγάλο βαθμό αυτό εξαρτάται από τις αρχικοποιήσεις στο πρώτο βήμα του αλγορίθμου οι οποίες επηρεάζουν την απόδοσή του. [21], [30] Η μέθοδος της CP αποδόμησης είναι χρήσιμη στο πρόβλημα καθώς αποτελεί και αυτή με την σειρά της μια τεχνική διαστατικής μείωσης των δεδομένων και μπορεί να χρησιμοποιηθεί. Είναι ουσιαστικά μια τεχνική ανάλογη της SVD για μητρώα αλλά που βρίσκει χρήση σε τανυστές. Για αυτό και γίνεται αναφορά της διεξοδικά σε αυτό το κεφάλαιο

54 Κ Ε Φ Α Λ Α Ι Ο 4 : Ε Ξ Α Γ Ω Γ Η Χ Α ΡΑ Κ Τ Η Ρ Ι Σ Τ Ι Κ Ω Ν Σ Ε Χ Ρ Ο Ν Ο Σ Ε Ι Ρ Ε Σ Ένας από τους πιο συνηθισμένους τρόπους επεξεργασίας χρονοσειρών είναι η εξαγωγή από αυτές μιας σειράς χαρακτηριστικών. Αυτό γίνεται γιατί απαιτείται πολύ μεγάλο υπολογιστικό κόστος ώστε να επεξεργαστούν τα σήματα σε «ωμή» (raw) μορφή λόγω κυρίως του μεγέθους τους. Ακόμα πολλές φορές τα χαρακτηριστικά που εξάγονται περιέχουν πολύ σημαντικές πληροφορίες για τα δεδομένα και έτσι η επεξεργασία έχει καλύτερα αποτελέσματα. Με λίγα λόγια η διαδικασία αυτή απλοποιεί την εκπαίδευση για τους αλγορίθμους μηχανικής μάθησης και κάνει πιο εύκολη την εξαγωγή συμπερασμάτων. Γενικότερα η διαδικασία εξαγωγής χαρακτηριστικών συμβαδίζει με την μηχανική μάθηση και στην αντιμετώπιση άλλων προβλημάτων. 4.1 Εξαγωγή χαρακτηριστικών Συνήθως στα προβλήματα μηχανικής μάθησης οι χρονοσειρές αναπαριστούν καταστάσεις που εξελίσσονται στο χρόνο. Τιμές θερμοκρασίας, ιατρικές μετρήσεις η και μεμονωμένα γεγονότα που εξελίσσονται με την μέρα ή με άλλη χρονική συνέπεια είναι τα πιο συνηθισμένα παραδείγματα. Σε πολλά πρόβλημα ανάλυσης χρονοσειρών αυτό που συνήθως ζητείται δεν είναι η κατηγοριοποίηση σε μία κλάση αλλά η πρόβλεψη του πως θα εξελιχθεί η χρονοσειρά μέσα στο χρόνο. Τέτοιες περιπτώσεις ανάλυσης δεν συμπεριλήφθηκαν στην πειραματική διαδικασία και επειδή χρήζουν διαφορετικής αντιμετώπισης δεν θα αναλυθούν. Η πιο απλή μέθοδος επεξεργασίας χρονοσειρών θα ήταν να χρησιμοποιηθούν τα σήματα όπως ακριβώς είναι σε «ωμή» μορφή (raw form). Κάτι τέτοιο αν και μπορεί να γίνει θα χρειαζόταν μεγάλες ποσότητες υπολογιστικής ισχύς καθώς ακόμα και πάρα πολύ μεγάλο χρόνο εκπαίδευσης και πρόβλεψης όπως αναφέρθηκε και παραπάνω. Επιπλέον, οι αλγόριθμοι ML δεν έχουν καλά αποτελέσματα όταν επεξεργάζονται τα δεδομένα με αυτό τον τρόπο, πόσο μάλλον όταν το μέγεθος αυτών είναι αχανές. Τεχνικές που ίσως να δουλεύαν καλυτέρα σε row δεδομένα παρέχονται κυρίως στον τομέα της βαθιάς μάθησης. Παράδειγμα αποτελεί η χρήση CNN δικτύων για εξαγωγή χαρακτηριστικών αυτόματα, χρήση δικτύων LSTM που έχουν πολύ καλές επιδόσεις με δεδομένα χρονοσειρών καθώς και συνδυασμός των δύο όπως φαίνεται στην εικόνα παρακάτω. Αν και σε αυτή την περίπτωση εξάγονται χαρακτηριστικά, αυτό γίνεται αυτόματα χωρίς την επέμβαση του ανθρωπίνου παράγοντα

55 Figure 34 Χρήση νευρωνικων δικτύων για κατηγοριοποίηση χρονοσειρών Για να γίνει λοιπόν χρήση τεχνικών ML η αξιοποίηση των δεδομένων σε raw μορφή δεν αποτελεί καλή ιδέα. Για το λόγο αυτό συνήθως χρησιμοποιούνται τεχνικές εξαγωγής χαρακτηριστικών από τα δεδομένα με σκοπό τόσο την μείωση του όγκου τους αλλά και την καλύτερη εφαρμογή των αλγορίθμων σε αυτά. Τα χαρακτηριστικά αυτά έχουν σκοπό να αναδείξουν τα κοινά γνωρίσματα των σημάτων που ανήκουν στην ίδια κλάση ενώ παράλληλα να κάνουν το ίδιο με τις διαφορές που έχουν από σήματα που ανήκουν σε άλλες κλάσεις. Τα χαρακτηριστικά μπορούν να παραχθούν τόσο στο πεδίο του χρόνου όσο και της συχνότητας. Figure 35 Εξαγωγή χαρακτηριστικών από σήματα Γενικά υπάρχουν τρεις μεγάλες κατηγορίες που μπορούν να χωριστούν : Temporal domain: Η χρονικότητα περιγράφεται ως οι αναλογίες ή τα σχετικά διαστήματα μεταξύ γεγονότων. Οι χρονικοί τομείς δεν φέρουν πληροφορίες σχετικά με τη συχνότητα ή την ακολουθία. Οι μόνες πληροφορίες που μεταφέρονται είναι οι αποστάσεις μεταξύ γεγονότων που σχετίζονται με τις αποστάσεις μεταξύ άλλων γεγονότων. Παραδείγματα χαρακτηριστικών που ανήκουν σε αυτόν τον τομέα είναι: αυτοσυσχέτιση (autocorrelation), συνολική ενέργεια, εντροπία, peak to peak αποστάσεις κ.α.[34] Statistical domain: το πεδίο αυτό περιέχει χαρακτηριστικά που ανήκουν σε στατιστικές αναλύσεις του σήματος από τις οποίες μπορούμε πολύ γρήγορα να

56 εξάγουμε σημαντικές πληροφορίες για ένα σήμα. Χαρακτηριστικά παραδείγματα αποτελούν : ιστόγραμμα, τυπική απόκλιση, μέσος ορός, μέση απόκλιση κ.α.[34] Spectral domain: αφορά χαρακτηριστικά που εξάγονται από τον τομέα της συχνότητας ενός σήματος. Για ανάλυση σε αυτόν τον τομέα είναι απαραίτητη η μετατροπή του σήματος μέσω κάποιου γνωστού μετασχηματισμού όπως πχ FFT (Fast Fourier Transform). Σε αρκετές περιπτώσεις διάφορα χαρακτηριστικά των σημάτων αποτυπώνονται καλύτερα στο πεδίο της συχνότητας με αποτέλεσμα τέτοιες αναλύσεις να έχουν μεγάλη βάση. Τυπικά παραδείγματα χαρακτηριστικών στον τομέα την συχνότητας είναι : FFT mean coefficient, Wavelet standard deviation, μέγιστες συχνότητες, μέσες συχνότητες καθώς επίσης και πολλά από τα στατιστικά χαρακτηριστικά μπορούν να εφαρμοστούν και εδώ. [34] Figure 36 Διαφορετικοί τομείς εξαγωγής χαρακτηριστικών Πέρα από τις κατηγορίες που αναφέρθηκαν υπάρχει κι άλλος διαχωρισμός που μπορεί να γίνει στην εξαγωγή δεδομένων και αυτός έχει να κάνει με το σύνολο στο οποίο θα εξαχθούν αυτά. Απλούστερη τεχνική αποτελεί να εξάγει κανείς τα χαρακτηριστικά από όλο το σήμα. Για παράδειγμα να βρεθεί η τυπική απόκλιση από όλες τις τιμές του σήματος. Αν και κάτι τέτοιο λειτουργεί με μεγάλη ταχύτητα μια πιο αποδοτική λύση έχει επικρατήσει να είναι η τεχνική της παραθυροποίησης που θα αναλυθεί στην συνέχεια

57 4.1.1 Εξαγωγή χαρακτηριστικών με τεχνικές παραθύρων Η χρήση παραθύρων έχει ως σκοπό η εξαγωγή χαρακτηριστικών να μην γίνεται από όλο το σήμα αλλά από μικρότερα κομμάτια αυτού του σήματος τα οποία ονομάζονται παράθυρα. Επιλέγεται ένα μήκος παραθύρου σχετικά μικρότερο από αυτό του σήματος και το αρχικό σήμα σπάει σε όσα παράθυρα αντιστοιχούν σε αυτό το μήκος. Στην συνέχεια για το κάθε παράθυρο εξάγονται τα ίδια προεπιλεγμένα χαρακτηριστικά και συγκεντρώνονται όλα μαζί σε ένα τελικό διάνυσμα που αποτελεί τα χαρακτηριστικά όλου του σήματος. Με αυτό τον τρόπο εντοπίζονται και γίνονται πιο εμφανή τα ιδιαίτερα σημεία κάθε σήματος με αποτέλεσμα το τελικό διάνυσμα να περιέχει μαζεμένη περισσότερη πληροφορία για το σήμα. Προφανώς η τεχνική αυτή επηρεάζει το χρόνο προσπέλασης κάθε σήματος αυξάνοντάς τον αλλά ταυτόχρονα αυξάνει και τις αποδόσεις των μοντέλων οπότε είναι ένα καλό trade off. Υπάρχουν τρεις διαφορετικές βασικές τεχνικές για να μοντελοποιηθεί η θεωρία των παραθύρων στην πράξη και οι τρεις με καλά αποτέλεσμα. Τεχνική παραθύρου σταθερού μήκους: αποτελεί την απλούστερη από τις τρεις τεχνικές. Ορίζεται από την αρχή ένα σταθερού μήκους παράθυρο το οποίο διατρέχει το σήμα χωρίς να αλλάζει το μέγεθός του και χωρίς να υπάρχει επικάλυψη τιμών. Αν για παράδειγμα οριστεί παράθυρο μεγέθους τρία θα επεξεργαστούν οι τρεις πρώτες τιμές το σήματος μετά η τέταρτη μέχρι την έκτη και όμοια έως το τέλος. Στην εικόνα παρακάτω φαίνεται η τεχνική του σταθερού παραθύρου για μια σειρά σημάτων. Αν και τα σημεία είναι διαφορετικά πρέπει να χρησιμοποιηθεί σταθερό μήκος παραθύρου για όλα ώστε τα αποτελέσματα να κρατήσουν την χρονική συνοχή του σήματος. Figure 37 Εξαγωγή χαρακτηριστικών με σταθερού μήκους παράθυρο

58 Τεχνική κυλιόμενου παραθύρου: μοιάζει με την προηγουμένη τεχνική μόνο που εδώ το παράθυρο αν και μένει σταθερό σε μήκος επαναλαμβάνει τιμές τους σήματος που εξετάστηκαν από το προηγούμενο παράθυρο. Υπάρχει δηλαδή μία τιμή overlap που ορίζεται εξ αρχής για όλα τα παράθυρα και μένει σταθερή. Η τεχνική αυτή ανακαλύπτει καλυτέρα συσχετίσεις αλλά ταυτόχρονα αυξάνει το υπολογιστικό κόστος και τον χρόνο εκτέλεσης καθώς δημιουργούνται περισσότερα παράθυρα. Figure 38 Εξαγωγή χαρακτηριστικών με τεχνική κυλιόμενου παραθύρου Τεχνική επεκτανόμενου παραθύρου: τέλος η τεχνική του επεκτανόμενου παραθύρου διαφέρει αρκετά από τις προηγούμενες δύο και συχνά βρίσκει εφαρμογή σε προβλήματα πρόβλεψης μελλοντικών τιμών του σήματος και όχι τόσο κατηγοριοποίησης του χωρίς αυτό βέβαια να είναι υποχρεωτικό. Εδώ αν και αρχίζουμε με σταθερό παράθυρο σε κάθε επανάληψη προσθέτουμε στο αρχικό κάποιες ακόμα τιμές. Αρά η εξαγωγή γίνεται βάση όλων τον προηγουμένων τιμών και όσων προστέθηκαν σε κάθε επανάληψη. Γίνεται αντιληπτό ότι η τελευταία επανάληψη θα περιέχει όλο το αρχικό σήμα. Παρακάτω απεικονίζεται με μπλε χρώμα οι τιμές του σήματος που επεξεργάζονται και με πράσινο οι ανεξερεύνητες. Σε κάθε επανάληψη ένα

59 σύνολο τιμών από τις πράσινες προστίθεται στις μπλε και επεξεργάζεται μαζί και με όλες τις προηγούμενες. Figure 39 Εξαγωγή χαρακτηριστικών με τεχνική επεκτανόμενου παραθύρου

60 Κ Ε Φ Α Λ Α Ι Ο 5 : Π Ε Ι ΡΑ Μ Α Τ Ι Κ Η Υ Λ Ο Π Ο Ι Η Σ Η Στο κεφάλαιο αυτό θα παρουσιαστεί διεξοδικά όλη η πειραματική διαδικασία που πραγματοποιήθηκε στα πλαίσια αυτής της διπλωματικής εργασίας. Αρχικά θα γίνει γνωστό το πρόβλημα που κλήθηκε να αντιμετωπιστεί, στην συνέχεια οι μέθοδοι και οι τεχνικές και τέλος τα αποτελέσματα και τα συμπεράσματα που προέκυψαν από την όλη διαδικασία. 5.1 Ορισμός προβλήματος Τα τελευταία χρόνια υπάρχει μεγάλο ενδιαφέρον για την ανάπτυξη διακριτικών συστημάτων παρακολούθησης της υγείας και έγκαιρης πρόβλεψης τυχόντων προβλημάτων, με στόχο την αναγνώριση ασθενειών και δυσλειτουργιών σε μία προσπάθεια να βοηθηθούν οι κλινικοί ιατροί να κάνουν πρώιμες παρεμβάσεις και διαγνώσεις. Η ανάγκη ενός τέτοιου συστήματος γίνεται ακόμα πιο επιτακτική στις μέρες μας καθώς λόγω της αύξησης του προσδόκιμου ζωής παρατηρείται σημαντική αύξηση του αριθμού των ηλικιωμένων και γενικά ασθενών που χρήζουν μόνιμης και συνεχούς παρακολούθησης. Ο στόχος αυτής της εργασίας είναι να διερευνηθεί εάν μπορεί να δημιουργηθεί ένα αξιόπιστο μοντέλο μηχανικής μάθησης το οποίο θα έχει ως είσοδο ζωτικά σήματα από πολλούς αισθητήρες και θα προβλέπει με βάση αυτά την κλινική εικόνα του χρήστη. Το μοντέλο αυτό απευθύνεται σε άτομα μεγάλης ηλικίας, τα ζωτικά σήματα λαμβάνονται με την χρήση ενός γιλέκου με τοποθετημένους σένσορες και η πρόβλεψη χωρίζεται σε τρεις διαφορετικές κλάσεις, ευπαθής, μη ευπαθής καθώς και μια ενδιάμεση σε αυτές κλάση. Η ευπάθεια συνδέεται με την τρίτη ηλικία με πολλές διαφορετικές αιτίες. Οι βασικότερες από αυτές είναι η έλλειψη αντοχής και η μειωμένη φυσιολογική λειτουργία του οργανισμού και των οργάνων. Οι επιπτώσεις μίας ευθραυστότητας σαν αυτή που προσπαθεί το μοντέλο να προβλέψει μπορεί να είναι από μείωση της κινητικότητας και της όρεξης του ασθενή μέχρι νοσηλεία η ακόμα και θνησιμότητα. Γίνεται αντιληπτό ότι μία έγκαιρη και γρήγορη γνωμάτευση μπορεί να παίξει καθοριστικό ρόλο στην πορεία της υγείας του ασθενούς. Τέλος, η σημασία ενός τέτοιου οργάνου παρακολούθησης γίνεται αντιληπτή και από το γεγονός ότι πολλά ηλικιωμένα άτομα ζουν σε απομακρυσμένες περιοχές και συχνά ακόμα και μόνοι με αποτέλεσμα οποιαδήποτε έκτακτη παρέμβαση σε κατάσταση ανάγκης να είναι δύσκολη. [32], [33]

61 5.2 Παρουσίαση δεδομένων Όπως αναφέρθηκε και παραπάνω η πειραματική διαδικασία επικεντρώνεται στην δημιουργία ενός αξιόπιστου ML μοντέλου. Η συλλογή των δεδομένων προς επεξεργασία (data set) έγινε με τη χρήση ενός γιλέκου. Το γιλέκο είναι εξοπλισμένο με μία σειρά από σένσορες οι οποίοι παράγουν τα προς ανάλυση σήματα. Οι κλινικές αυτές μετρήσεις χωρίζονται σε τέσσερεις μεγάλες κατηγορίες : ECG μετρήσεις: όπως αναφέρθηκε και στο κεφάλαιο 3 τα σήματα ECG αφορούν μετρήσεις για την καρδιά. Οι μετρήσεις που προκύπτουν σε αυτή την κατηγορία είναι τρεις, καρδιακός ρυθμός (Heart Rate), μεταβλητότητα καρδιακού ρυθμού (Heart Rate Variability), και η απόσταση διαστήματος R-R. Ο καρδιακός ρυθμός αναφέρεται στους χτύπους της καρδιάς ανά λεπτό, υψηλές τιμές έχει το σήμα όταν ο ασθενής κάνει κάποια σωματική άσκηση ενώ χαμηλές τιμές όταν είναι ξαπλωμένος. Η μεταβλητότητα αναφέρεται στην διαφορά μεταξύ των χτύπων της καρδιάς και το διάστημα R-R στον αριθμό των δειγμάτων αναμεσά σε δύο R-R peaks, μεγάλη απόσταση μεταξύ δύο κορυφών R-R παρατηρείται όταν ο ασθενής ξεκουράζεται, ενώ μικρές όταν υπάρχει έντονη σωματική άσκηση. IMU μετρήσεις: το γιλέκο είναι εξοπλισμένο με σύστημα IMU (Inertial Measurement Unit) με σκοπό να μετρηθεί η επιτάχυνση του ασθενή (acceleration) σε τρεις άξονες X-Y-Z. Το αξελερόμετρο παράγει δηλαδή τρία διαφορετικά σήματα ένα για κάθε άξονα. Μετρήσεις επιτάχυνσης είναι πολύ χρήσιμες για προβλήματα χαρακτηρισμό της κίνησης κάποιου καθώς και fall detection συστήματα. Respiration μετρήσεις: πάνω στο γιλέκο υπάρχει ακόμα ενσωματωμένο ένα piezoresistive σημείο στον θώρακα. Αυτό χρησιμοποιείται για να μετρηθεί η πίεση στον θώρακα που προκαλείται από την αναπνοή του συμμετέχοντα. Από αυτές τις μετρήσεις προκύπτουν τρία σήματα ο ρυθμός αναπνοής (Breathing Rate), το αναπνευστικό πλάτος (Breathing Amplitude) και το respieazo δηλαδή το ηλεκτρικό σήμα μέτρησης της πίεσης στο στήθος. Από όλα τα παραπάνω προκύπτουν εννιά διαφορετικά σήματα προς επεξεργασία. Πέρα από τα ιατρικά σήματα το σύνολο δεδομένων ακόμα περιέχει πληροφορίες σχετικά με την ημερομηνία, την ώρα το id του κάθε ασθενή καθώς και τον χαρακτηρισμό της κλάσης του. Δηλαδή αν ανήκει στην κατηγορία frail, pre-frail, no-frail. Όλα τα σήματα είναι χρονικά συγχρονισμένα και η συχνότητά τους στα 25Hz. Η συχνότητα αυτή επιλέχθηκε γιατί τα περισσότερα σήματα ήταν δειγματοληπτημένα με αυτή. Σε μερικά από τα σήματα ECG μειώθηκε η αρχική συχνότητα τους από τα 250Hz ενώ σε αλλά χρειάστηκε να αυξηθεί. Συνολικά υπάρχουν στο σύνολο 308 διαφορετικοί ασθενείς που ο καθένας μετρήθηκε παραπάνω από μία φορά με διαφορετικά μπορεί κάθε φορά αποτελέσματα. Αποτέλεσμα αυτού είναι να έχουμε ένα τελικό σύνολο από 1011 διαφορετικά στιγμιότυπα από τα οποία 4,5% ανήκει στην κλάση Frail, το 42,05% στην

62 κλάση No-Frail και το υπόλοιπο 53,45% στην κλάση Pre-Frail, αποθηκευτικά ο χώρος που καταλαμβάνουν τα παραπάνω δεδομένα ανέρχεται περίπου στα 80Gb. Γίνεται αντιληπτό ότι ο όγκος τους είναι μεγάλος και ότι απαιτείται ειδική μεταχείριση τους. Από αυτό το σύνολο δεδομένων έγινε προσπάθεια να δημιουργηθεί μοντέλο πρόβλεψής των τριών κατηγοριών που είναι χωρισμένα τα δεδομένα. 5.3 Προεπεξεργασία δεδομένων Στο υπο-κεφάλαιο αυτό θα αναφερθούν όλες οι μέθοδοι που εφαρμόστηκαν στα δεδομένα πριν αυτά χρησιμοποιηθούν σε αλγορίθμους ML. Το στάδιο αυτό αποτελεί ίσως το σημαντικότερο σημείο στην δημιουργία ενός μοντέλου μηχανικής μάθησης. Εδώ τα δεδομένα προβάλλονται μέσω διαγραμμάτων ώστε να γίνει κατανοητό το σύνολο και οι συσχετίσεις τους, καθαρίζονται (data cleaning) και επεξεργάζονται ώστε να έρθουν σε μορφή τέτοια που να μπορούν να αποτελέσουν είσοδο σε ένα μοντέλο. Σε ένα μεγάλο ποσοστό η απόδοση των αλγορίθμων ML καθορίζεται λίγο πολύ από αυτό το στάδιο. Καλή κατανόηση των δεδομένων οδηγεί σε καλή προεπεξεργασία και κατά συνέπεια σε καλύτερες συνολικές αποδόσεις. Είναι συχνό το φαινόμενο ο σχεδιαστής να επιστρέψει σε αυτό το στάδιο πολλές φορές και να αλλάξει τα δεδομένα με σκοπό να πέτυχει καλύτερη απόδοση. Figure 40 Διαδικασία δημιουργίας μοντέλου ML Όπως φαίνεται και στην εικόνα 33 μπορεί να χρειαστεί παρέμβαση και επαναπροσδιορισμός των δεδομένων και του προβλήματος και η διαδικασία να γυρίσει πίσω πολλά στάδια μέχρι το τελικό μοντέλο να ικανοποιεί απόλυτα το πρόβλημα Data cleaning Από την παρατήρηση του συνόλου δεδομένων της πειραματικής διαδικασίας φάνηκαν από την αρχή κάποια προβλήματα. Βασικό και μεγάλο πρόβλημα καθ όλη την διάρκεια της πειραματικής διαδικασίας υπήρξε το γεγονός ότι κάθε δείγμα είχε δειγματοληπτημένα σήματα διαφορετικής διαρκείας. Κάποια είχαν σήματα μήκους δειγμάτων και αλλά μήκους

63 Figure 41 Ιστόγραμμα μήκους δειγματοληψίας των σημάτων Ο καθαρισμός των δεδομένων χωρίστηκε σε δύο φάσεις. Κατά την πρώτη φάση παρατηρήθηκε ότι υπήρχαν πολλά δείγματα τα οποία δεν είχαν όλα τους τα σήματα σωστά μετρημένα όλες τις χρονικές στιγμές. Πιο συγκεκριμένα, μπορεί μια χρονική στιγμή ο αισθητήρας της καρδίας να είχε σωστή μέτρηση σε αντίθεση με τον αισθητήρα του πνεύμονα ο οποίος λόγω κακής επαφής να μην είχε καθόλου. Αποτέλεσμα ήταν οι μετρήσεις αυτές να θεωρηθούν άκυρες σε κάθε κανάλι μέτρησης ανεξάρτητα από το που ήταν το πρόβλημα. Πιο συγκεκριμένα υπήρχαν 73 σήματα breathing amplitude με τιμή μηδέν καθ όλη την δειγματοληψία, 106 σήματα breathing rate, 2 σήματα heart rate και 15 σήματα heart rate variability. Είναι αναγκαίο όλα τα στιγμιότυπα να έχουν όλες τις τιμές από κάθε σήμα σε κάθε χρονική στιγμή. Αυτό είχε σαν αποτέλεσμα 117 δείγματα από τα αρχικά 1011 να αφαιρεθούν τελείως, σε κάθε κανάλι τους όχι μόνο σε όσα δεν είχαν μέτρηση. Στην συνέχεια παρατηρήθηκε ότι το dataset είχε ορισμένες λανθασμένες τιμές. Το σήμα breathing amplitude πρέπει να έχει τιμές στο διάστημα [8,50]. Κάθε άλλη τιμή χαρακτηρίζεται σαν λάθος μέτρηση του αισθητήρα αφού δεν έχουν νόημα τιμές έξω από αυτό το διάστημα. Αυτό συμβαίνει γιατί δεν γίνεται να υπάρξουν τέτοιες μετρήσεις σε ζωντανό άνθρωπο. Όμοια το σήμα heart rate πρέπει να έχει τιμές στο διάστημα [40,200]. Έχοντας αυτά υπόψιν αφαιρέθηκαν κατακόρυφα σε όλα τα σήματα κάθε δείγματος οπού βρέθηκαν τιμές έξω από αυτά τα διαστήματα ώστε οι τιμές αυτές να μην επηρεάσουν αρνητικά την εκπαίδευση. Στη δεύτερη φάση, αφαιρέθηκαν ορισμένα δείγματα τα οποία είχαν πολύ μικρή διάρκεια δειγματοληψίας σε σχέση με τα υπόλοιπα. Για την ακριβά αφαιρέθηκαν όλα τα δείγματα οπού τα κανάλια τους ήταν μικρότερα από Μετά λοιπόν από την αφαίρεση των αρχικών 117 δειγμάτων αφαιρέθηκαν ακόμα 53 δείγματα για τους λόγους που αναφέρθηκαν και έτσι απέμειναν 841 σήματα προς περεταίρω επεξεργασία. Όπως ειπώθηκε παραπάνω το αξελερόμετρο παράγει τρία σήματα ένα για κάθε άξονα του τρισδιάστατου χώρου acc_x, acc_y, acc_z. Για να διευκολύνουμε την εξεργασία αυτών τον σημάτων συνήθως δεν τα αντιμετωπίζουμε σαν ξεχωριστά αλλά

64 φτιάχνουμε ένα ενιαίο σήμα μα βάση τον τύπο acc = acc x 2 + acc y 2 + acc z 2 αρά καταλήγουμε σε 7 κανάλια για κάθε δείγμα των δεδομένων Εξαγωγή χαρακτηριστικών στην πειραματική διαδικασία Κατά την πειραματική διαδικασία έγινε εξαγωγή 24 διαφορετικών στατιστικών χαρακτηριστικών με χρήση της τεχνικής των κυλιόμενων παραθύρων. Τα χαρακτηριστικά μετά την εξαγωγή τους αποθηκεύτηκαν σε έναν τανυστή βαθμού τέσσερα. Στην πρώτη διάσταση αναπαρίσταται το στιγμιότυπο ποιος ασθενής είναι δηλαδή, στην δεύτερη διάσταση ο αριθμός του παραθύρου, στην τρίτη διάσταση το χαρακτηριστικό και στην τέταρτη το κανάλι. Άρα, δημιουργήθηκε ένας τανυστής Τ(στιγμιότυπο, παράθυρο, χαρακτηριστικό, κανάλι). Ο αριθμός των παραθύρων εξαρτάται από το μέγεθος που θα επιλεχθεί από πριν και από το μήκος του σήματος. Συνεπώς, γίνεται αντιληπτό ότι για κάθε στιγμιότυπο είναι μεταβλητός αυτός ο αριθμός. Για να λυθεί αυτό το πρόβλημα τα αρχικά μας σήματα χωρίστηκαν σε ξεχωριστά στιγμιότυπα με βάση το μικρότερο σε μέγεθος σήμα. Έτσι επιτεύχθηκε κάθε στιγμιότυπο να έχει ίσου μεγέθους κανάλια και το παράθυρο να είναι σταθερός αριθμός για όλα τα στιγμιότυπα και να εξαρτάται μόνο από το μέγεθος του. Τα χαρακτηριστικά είναι 24 σταθερά για όλα τα στιγμιότυπα και για κάθε κανάλι. Και τα κανάλια κάθε στιγμιότυπου είναι επίσης σταθερά και ίσα με 7. Αυτό έχει σαν αποτέλεσμα, το τελικό μέγεθος του τανυστή είναι Τ(35652xWx24x7). Θα εξεταστεί λοιπόν στην συνέχεια και μέσω της απόδοσης του μοντέλου ποια τιμή για το W είναι η καλύτερη και με την μεγαλύτερη απόδοση. Figure 42 Διαδικασία εισαγωγής χαρακτηριστικών σε τανυστή Αναφέρθηκε παραπάνω ότι έγινε χρήση 24 διαφορετικών χαρακτηριστικών τα οποία επιλεχθήκαν από τον στατιστικό τομέα. Πριν αναλυθούν ένα ένα τα χαρακτηριστικά αυτά αξίζει εδώ να αναφερθεί ότι υπάρχει μία σειρά εργαλείων που εξάγουν αυτόματα από χρονοσειρές πάρα πολλά διαφορετικά χαρακτηριστικά σε χρόνο και συχνότητα όπως για παράδειγμα το εργαλείο hctsa [35] που παράγει πάνω από 7,700 διαφορετικά χαρακτηριστικά. Αν και αποτελούν σπουδαία εργαλεία, λόγω του μεγέθους του data set για να τρέξει σε όλο το σύνολο των δεδομένων θα χρειαζόταν ανυπολόγιστα πολύ χρόνο πράγμα που καθιστά αδύνατη την εφαρμογή τους. Για το λόγο αυτό επιλέχθηκαν γρήγορα υπολογίσιμα χαρακτηριστικά που φαίνονται παρακάτω :

65 Mean value: είναι η κεντρική τιμή ενός διακριτού συνόλου αριθμών συγκεκριμένα, το άθροισμα των τιμών διαιρούμενο με τον πλήθος των τιμών Median value: στη στατιστική και τη θεωρία πιθανότητας, ένας διάμεσος είναι μία τιμή που διαχωρίζει το υψηλότερο μισό από το κάτω μισό ενός δείγματος δεδομένων. Πιο απλά είναι μία τιμή που το 50% του συνόλου είναι μεγαλύτερη από αυτή και το άλλο μισό μικρότερο. Standard deviation: η τυπική απόκλιση είναι ένα μέτρο που μετρά το ποσό αλλάζουν τα δεδομένα το ένα από το άλλο. Μία χαμηλή τυπική απόκλιση δείχνει ότι οι τιμές τείνουν να είναι κοντά στο μέσο όρο (ονομάζεται επίσης αναμενόμενη τιμή) του συνόλου, ενώ μία υψηλή τυπική απόκλιση δείχνει ότι οι τιμές κατανέμονται σε ευρύτερο εύρος. Mean absolute deviation: γενικά είναι ο μέσος όρος των απόλυτων αποκλίσεων από ένα κεντρικό σημείο στην περίπτωση αυτή το κεντρικό σημείο είναι η μέση τιμή. Οι απόλυτες τιμές των διαφορών μεταξύ των σημείων και του κέντρου τους αθροίζονται και διαιρούνται με το πλήθος των σημείων. Signal percentile: Για να δώσουμε μια καλύτερη ιδέα για την κατανομή των τιμών, χρησιμοποιούμε τα percentile. Τα εκατοστημόρια είναι παρόμοια με τ διάμεσο με την μόνη διαφορά ότι μπορεί να επιλεχθεί το ποσοστό που θέλουμε να βρούμε. Για παράδειγμα το 20 ο εκατοστημόριο σημαίνει ότι το 20% των αριθμών στο σύνολο δεδομένων είναι κάτω από αυτόν τον αριθμό. Για το λόγο αυτό χρησιμοποιήθηκαν έξι διαφορετικές τιμές από αυτό το feature. Variance: Στη θεωρία τις στατιστικής, η διακύμανση είναι η τιμή της τετραγωνικής απόκλισης μιας τυχαίας μεταβλητής από τη μέση τιμή της. Απλούστερα, μετρά πόσο μακριά απλώνεται ένα σύνολο αριθμών από τη μέση τιμή τους. Range: το εύρος ενός συνόλου δεδομένων είναι η διαφορά μεταξύ των μεγαλύτερων και των μικρότερων τιμών. Interquartile range: το εύρος μεταξύ των τεταρτημόριων είναι ένα μέτρο στατιστικής διασποράς, που ισούται με τη διαφορά μεταξύ 75ου και 25ου εκατοστημορίου, ή μεταξύ άνω και κάτω τεταρτημόριων

66 Trimmed mean: Ένας περικομμένος μέσος όρος είναι μία μέθοδος υπολογισμού του μέσου όρου που αφαιρεί ένα μικρό καθορισμένο ποσοστό από τις μεγαλύτερες και μικρότερες τιμές πριν από τον υπολογισμό του μέσου όρου. Η χρήση ενός περικομμένου μέσου βοηθά στην εξάλειψη της επιρροής των ακραίων τιμών μπορεί να επηρεάσουν τον κανονικό μέσο όρο. Το ποσοστό που θα αφαιρεθεί μπορεί να επιλεχθεί. Harmonic mean: Στα μαθηματικά, ο αρμονικός μέσος όρος (μερικές φορές ονομάζεται μέσος όρος της αντίθεσης) είναι ένα από τα διάφορα είδη μέσου όρου που μπορεί κάνεις να υπολογίσει. Ο αρμονικός μέσος μπορεί να εκφραστεί ως το αντίστροφο του αριθμητικού μέσου των αντίστροφων των τιμών των δεδομένων. Για να γίνει απόλυτα κατανοητό παρατίθεται και ο τύπος υπολογισμού του : ( n 1 x 1 n ) 1 οπού χ οι τιμές και n το πλήθος τους. Root sum of squares: Η μέθοδος root sum squared (RSS) είναι μια μέθοδος ανάλυσης στατιστικής ανοχής. Υπολογίζει τη συνολική διακύμανση πολλών μη συσχετισμένων επιρροών για ανάλυση αβεβαιότητας ή ανοχής. Υπολογίζεται από τον τύπο: RSS = ν 1 σ 2 Root mean square: ορίζεται ως η τετραγωνική ρίζα του μέσου τετραγώνου (ο αριθμητικός μέσος όρος των τετραγώνων ενός συνόλου αριθμών). Υπολογίζεται από τον τύπο RMS = n το πλήθος τους. n 1 x2 n όπου χ οι τιμές των δειγμάτων και Kurtosis: είναι ένα μέτρο του κατά πόσον τα δεδομένα έχουν μακριά ή κοντή «ουρά» σε σχέση με μια κανονική κατανομή. Δηλαδή, σύνολα δεδομένων με υψηλή κύρτωση τείνουν να έχουν μακριές ουρές ή ακραίες τιμές. Τα σύνολα δεδομένων με χαμηλή κύρτωση τείνουν να έχουν ελαφρές ουρές ή έλλειψη ακραίων τιμών. Στην εικόνα 42 βλέπουμε τρία διαφορετικά παραδείγματα κύρτωσης οπού το πορτοκαλί διάγραμμα περιγράφει μια κανονική κατανομή

67 Figure 43 Διαφορετικοί τύποι κύρτωσης Skewness: είναι ένα μέτρο συμμετρίας, ή πιο συγκεκριμένα, η έλλειψη συμμετρίας. Μία κατανομή, ή ένα σύνολο δεδομένων, είναι συμμετρικό εάν μοιάζει η αριστερή με την δεξιά του μεριά βάση κάποιου κεντρικού σημείου. Παρακάτω φαίνεται στην εικόνα ότι ένα απόλυτα συμμετρικό σύνολο τιμών δεν έχει καθόλου skewness, ενώ αντίστοιχα μπορεί να υπάρξει αρνητικό και θετικό skewness ανάλογα με το που γέρνει η συμμετρία των τιμών αυτών. Figure 44 Παράδειγμα διαφορετικών τιμών στο skewness Signal quartile: Ένα τεταρτημόριο είναι ένας τύπος quantile που διαιρεί τον αριθμό των σημείων των δεδομένων σε τέσσερα περίπου ίσα μέρη. Το πρώτο τεταρτημόριο (Q1) ορίζεται ως ο μεσαίος αριθμός μεταξύ του μικρότερου αριθμού και του μέσου όρου του συνόλου δεδομένων

68 5.4 Εκπαίδευση δεδομένων Στο υποκεφάλαιο αυτό θα γίνουν αναφορές στους αλγορίθμους που χρησιμοποιήθηκαν κατά την πειραματική διαδικασία και στην τανυστική αποδόμηση που χρησιμοποιήθηκε. Αναφέρθηκε και παραπάνω ότι μετά την διαδικασία εξαγωγής χαρακτηριστικών τα δεδομένα αποθηκεύτηκαν σε ένα τανυστή τεσσάρων διαστάσεων. Μετά και τον χωρισμό του ασθενή σε στιγμιότυπα, με μήκος ίσο με το ελάχιστο οι διαστάσεις του τανυστή κατέληξαν να είναι ίσες με Τ(35652xWx24x7). Figure 45 Αποθήκευση δεδομένων σε τανυστή Ο τανυστής αυτός περιέχει πλέον για κάθε στιγμιότυπο και για κάθε κανάλι του παράθυρα με χαρακτηριστικά που έχουν εξαχθεί από αυτά. Για να αξιοποιηθούν τα δεδομένα σε αυτή τη μορφή χρησιμοποιήθηκαν τεχνικές από το κεφάλαιο Πιο συγκεκριμένα έγινε χρήση του πακέτου Tensor Toolbox for MATLAB που περιέχει μια σειρά από διαφορετικές συναρτήσεις για τανυστές. Από αυτές έγινε χρήση της τανυστικής αποδόμησης CPD (CANDECOM/PARAFAC) και του αλγορίθμου ελαχίστων τετραγώνων για την υλοποίηση της. Το αποτέλεσμα ήταν ένας πίνακας δύο διαστάσεων ο οποίος χρησιμοποιήθηκε σαν όρισμα στους αλγορίθμους μηχανικής μάθησης και μάθησης πολλαπλών στιγμιοτύπων Αλγόριθμοι ML και MIL στην πειραματική διαδικασία Από όλο το σύνολο των αλγορίθμων για μηχανική μάθηση το οποίο υπάρχει επιλέχθηκε να χρησιμοποιηθούν κάποιοι από τους πιο αντιπροσωπευτικούς που θα είχαν και τα καλυτέρα αποτελέσματα πάνω σε δεδομένα τέτοιου τύπου. Οι αλγόριθμοι αυτοί είναι απλά δέντρα απόφασης, τυχαία δάση, bagged δέντρα, κ-κοντινότεροι γείτονες, αλγόριθμοι διακριτής ανάλυσης και αλγόριθμοι svm. Η ανάλυση των αλγορίθμων αυτών έχει γίνει σε παραπάνω κεφάλαια και δεν θα επαναληφθεί. Η επιλογή τους έγινε με γνώμονα δύο κυρίως πράγματα, την ταχύτητα εκπαίδευσής τους λόγω του μεγάλου όγκου δεδομένων που έχει το data set και την απόδοση τους

69 Όσο αφορά τώρα τη μάθηση πολλαπλών στιγμιοτύπων έγινε χρήση του αλγορίθμου MCILBoost. Ο αλγόριθμος αυτός αποτελεί έναν αλγόριθμο μάθησης πολλαπλών στιγμιότυπων με ανοιχτό προς επεξεργασία κώδικα. [36] Τόσο για τους αλγορίθμους ML όσο και για τον αλγόριθμο MIL έγιναν τα ιδιά ακριβώς πειράματα με σκοπό να υπάρξει στο τέλος μία σύγκριση των δύο τεχνικών. Τα αποτελέσματα και τα συμπεράσματα από την πειραματική διαδικασία θα αναλυθούν διεξοδικά στο κεφάλαιο που ακολουθεί. Figure 46 Διάγραμμα πειραματικής διαδικασίας

70 Κ Ε Φ Α Λ Α Ι Ο 6 : Α Π Ο Τ Ε Λ Ε Σ Μ Α Τ Α Κ Α Ι Σ Υ Μ Π Ε ΡΑ Σ Μ Α Τ Α Στο κεφάλαιο αυτό θα γίνει αναφορά σε όλα τα αποτελέσματα της πειραματικής διαδικασίας τα οποία θα παρουσιαστούν με μορφή πινάκων και διαγραμμάτων. Στην συνέχεια θα σχολιαστούν οι επιδόσεις των αλγορίθμων με σκοπό να εξαχθούν συμπεράσματα και να προταθούν μελλοντικές βελτιώσεις. 6.1 Προγραμματιστικά εργαλεία Πριν παρουσιαστούν τα αποτελέσματα κρίνεται σκόπιμο να αναφερθούν τα εργαλεία που χρησιμοποιήθηκαν για να υπολογιστούν καθώς και το σύστημα στο οποίο έγιναν. Αρχικά όλος ο κώδικα γράφτηκε και εκτελέστηκε στο περιβάλλον της MATLAB2018b μια πλατφόρμα υψηλών προδιαγραφών με πολλά χρήσιμα εργαλεία. Μέσα στο περιβάλλον αυτό έγινε χρήση των πακέτων Tensor Toolbox for MATLAB για ότι διαδικασία είχε να κάνει με ανάλυση τανυστών. Για την εφαρμογή της μάθησης πολλαπλών στιγμιότυπων έγινε χρήση του κώδικα mcilboost του Jun-Yan Zhu. [37] Τα χαρακτηριστικά του υπολογιστικού συστήματος που υλοποιήθηκαν τα πειράματα φαίνονται παρακάτω. Table 4 Χαρακτηριστικά υπολογιστικού συστήματος Manufacturer Model Processor Dell Precision T3600 Intel(R) Xeon CPU E GHz Cores 4 Memory Operating system 16 GB s 64-bit

71 6.2 Αποτελέσματα διαχείρισης μεγάλου όγκου δεδομένων Πριν αναφερθούν τα αποτελέσματα των αλγορίθμων και τα ποσοστά απόδοσης τους αξίζει να αναφερθούν σε αυτό το κεφάλαιο η σημασία που είχαν οι τεχνικές διαχείρισης των δεδομένων που χρησιμοποιήθηκαν. Η αναφορά αυτή γίνεται για την διαδικασία εξαγωγής χαρακτηριστικών και για την τανυστική αποδόμηση. Όπως έχει αναφερθεί ξανά παραπάνω το συνολικό μέγεθος των αρχείων των ασθενών που αναλύθηκε ήταν περίπου 80 GB. Το αρχείο περιείχε για κάθε ασθενή δεκαέξι διαφορετικά κανάλια τα οποία προφανώς δεν ήταν όλα χρήσιμα για την δημιουργία ενός ML μοντέλου. Μετά την επιλογή των καναλιών που ήταν απαραίτητα και μετά τον καθαρισμό τους από λάθος μετρήσεις το μέγεθος του συνόλου δεδομένων έφτασε στα 19 GB. Ένα νούμερο που παραμένει ακόμα αρκετά μεγάλο αν σκεφτεί κάνεις ότι η μέση μνήμη σε ένα υπολογιστικό σύστημα είναι συνήθως τα 8 GB. Στην συνέχει μετά και το δεύτερο βήμα καθαρισμού που έχει αναφερθεί παραπάνω το μέγεθος των δεδομένων μειώθηκε περαιτέρω στα 8 GB. Παρατηρούμε ότι πρόκειται για μια μεγάλη μείωση από τα αρχικά μεγέθη πράγμα που κατέστησε τα δεδομένα πιο ευκολά στην διαχείρισή τους. Αμέσως μετά ακολούθησε η εξαγωγή χαρακτηριστικών από τα βιολογικά σήματα των ασθενών τα οποία αποθηκεύτηκαν σε ένα τανυστή. Το μέγεθος αυτού του τανυστή δεν ξεπερνάει τα 3.5 GB. Το μέγεθος του εξαρτάται και από αυτό των παράθυρων που χρησιμοποιήθηκαν. Τέλος χρησιμοποιήθηκαν τεχνικές τανυστικής αποδόμησης οι οποίες οδήγησαν στα τελικά δεδομένα προς εισαγωγή στους αλγορίθμους μεγέθους GB και αναπαράσταση τους σε δυο διαστάσεις. Γίνεται αντιληπτό ότι η μείωση των μεγεθών είναι τεράστια με το αποτέλεσμα αυτό να φαίνεται και στους χρόνους εκπαίδευσης και πρόβλεψης των μοντέλων που σε κάθε άλλη περίπτωση θα ήταν τεράστιοι. Συγκεντρωτικά η μείωση αυτή φαίνεται και στο παρακάτω διάγραμμά. Figure 47 Data set size through preprocessing stage

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία Αντικείμενο Μελέτη και ανάπτυξη μεθόδων από τον χώρο της μηχανικής μάθησης για

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ

ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ ΠΡΟΓΝΩΣΤΙΚA ΣΥΣTHΜΑΤΑ Ιωάννα Τζουλάκη Κώστας Τσιλίδης Ιωαννίδης: κεφάλαιο 2 Guyatt: κεφάλαιο 18 ΕΠΙςΤΗΜΟΝΙΚΗ ΙΑΤΡΙΚΗ Επιστήμη (θεωρία) Πράξη (φροντίδα υγείας) Γνωστικό μέρος Αιτιό-γνωση Διά-γνωση Πρό-γνωση

Διαβάστε περισσότερα

Κατηγοριοποίηση. 3 ο Φροντιστήριο. Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς. Σκούρα Αγγελική

Κατηγοριοποίηση. 3 ο Φροντιστήριο. Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς. Σκούρα Αγγελική Κατηγοριοποίηση Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς 3 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Κατηγοριοποίηση (Classification) Σκοπός: Learn a method for

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Εργασία 1η Classification

Αναγνώριση Προτύπων Εργασία 1η Classification ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Αναγνώριση Προτύπων Εργασία 1η Classification Κιντσάκης Αθανάσιος 6667 Μόσχογλου Στυλιανός 6978 30 Νοεμβρίου,

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες Χρήσης Το

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Bayesian decision Minimum misclassificaxon rate decision: διαλέγουμε την κατηγορία Ck για

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Πολυτεχνείο Κρήτης Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Ηλεκτρονικών Υπολογιστών Τομέας Τηλεπικοινωνιών Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην

Διαβάστε περισσότερα

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης Εξόρυξη Δεδομένων Δειγματοληψία Πίνακες συνάφειας Καμπύλες ROC και AUC Σύγκριση Μεθόδων Εξόρυξης Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr LOGO Συμπερισματολογία - Τι σημαίνει ; Πληθυσμός

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων Θεωρία Αποφάσεων ο Φροντιστήριο Λύσεις των Ασκήσεων Άσκηση Έστω ένα πρόβλημα ταξινόμησης μιας διάστασης με δύο κατηγορίες, όπου για κάθε κατηγορία έχουν συλλεχθεί τα παρακάτω δεδομένα: D = {, 2,,,,7 }

Διαβάστε περισσότερα

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική Κατηγοριοποίηση Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 ο Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη 6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη Σάββας Νικολαΐδης 1 ο

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 5 Κατανομές πιθανότητας και εκτίμηση παραμέτρων Κατανομές πιθανότητας και εκτίμηση παραμέτρων δυαδικές τυχαίες μεταβλητές Διαχωριστικές συναρτήσεις Ταξινόμηση κανονικών

Διαβάστε περισσότερα

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016 Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος Η παρούσα εργασία έγινε στα πλαίσια της εκπόνησης της διπλωματικής διατριβής

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΑΕΠΠ Ερωτήσεις θεωρίας

ΑΕΠΠ Ερωτήσεις θεωρίας ΑΕΠΠ Ερωτήσεις θεωρίας Κεφάλαιο 1 1. Τα δεδομένα μπορούν να παρέχουν πληροφορίες όταν υποβάλλονται σε 2. Το πρόβλημα μεγιστοποίησης των κερδών μιας επιχείρησης είναι πρόβλημα 3. Για την επίλυση ενός προβλήματος

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα «Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα Σεμινάριο 8: Χρήση Μηχανικής Μάθησης στην Εξαγωγή Πληροφορίας Ευάγγελος Καρκαλέτσης, Γεώργιος Πετάσης Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού, Ινστιτούτο

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Δίκαρος Νίκος Δ/νση Μηχανογράνωσης κ Η.Ε.Σ. Υπουργείο Εσωτερικών. Τελική εργασία Κ Εκπαιδευτικής Σειράς Ε.Σ.Δ.Δ. Επιβλέπων: Ηρακλής Βαρλάμης Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο Κεντρική ιδέα Προβληματισμοί

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition)

Εισαγωγικά για την αναγνώριση έκφρασης προσώπου (Facial Expression Recognition) Ο στόχος της διπλωματικής είναι η αναγνώριση του συναισθήματος ενός συγκεκριμένου ανθρώπου από μια αλληλουχία εικόνων στις οποίες παίρνει διάφορες εκφράσεις. Αυτό θα γίνει κάνοντας χρήση τεχνικών βαθιάς

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems Ημερομηνία Παράδοσης: 0/1/017 την ώρα του μαθήματος ή με email: mkarabin@csd.uoc.gr Γενικές Οδηγίες α) Επιτρέπεται η αναζήτηση στο Internet και στην βιβλιοθήκη

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 15η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο 2014-2015 Πρώτη Σειρά Ασκήσεων (Υποχρεωτική, 25% του συνολικού βαθμού στο μάθημα) Ημερομηνία Ανακοίνωσης: 22/10/2014 Ημερομηνία Παράδοσης: Μέχρι 14/11/2014 23:59

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 M = 1 N = N prob k N k { k n ω wrongly classfed} = (1 ) N k 2 Η συνάρτηση πιθανοφάνειας L(p) μεγιστοποιείται όταν =k/n. 3 Αφού τα s είναι άγνωστα,

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι Συστήματα Υποστήριξης Αποφάσεων Τα Συστήματα Υποστήριξης Αποφάσεων (Σ.Υ.Α. - Decision Support Systems, D.S.S.) ορίζονται ως συστήματα

Διαβάστε περισσότερα

ΤΟ ΜΟΝΤΕΛΟ Οι Υποθέσεις Η Απλή Περίπτωση για λi = μi 25 = Η Γενική Περίπτωση για λi μi..35

ΤΟ ΜΟΝΤΕΛΟ Οι Υποθέσεις Η Απλή Περίπτωση για λi = μi 25 = Η Γενική Περίπτωση για λi μi..35 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΟΜΕΑΣ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΕΠΙΧΕΙΡΗΣΙΑΚΗΣ ΕΡΕΥΝΑΣ ΑΝΑΛΥΣΗ ΤΩΝ ΣΥΣΧΕΤΙΣΕΩΝ ΧΡΕΟΚΟΠΙΑΣ ΚΑΙ ΤΩΝ

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Β http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΔΟΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΛΙΚΩΝ Εξαγωγή χαρακτηριστικών μαστογραφικών μαζών και σύγκριση

Διαβάστε περισσότερα

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2011-2012 Ημερομηνία Παράδοσης: Στην εξέταση του μαθήματος ΑΣΚΗΣΗ Δημιουργία Ευρετηρίων Συλλογής Κειμένων Σκοπός της άσκησης είναι η υλοποίηση ενός συστήματος επεξεργασίας

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Λήψη αποφάσεων κατά Bayes

Λήψη αποφάσεων κατά Bayes Λήψη αποφάσεων κατά Bayes Σημειώσεις μαθήματος Thomas Bayes (1701 1761) Στυλιανός Χατζηδάκης ECE 662 Άνοιξη 2014 1. Εισαγωγή Οι σημειώσεις αυτές βασίζονται στο μάθημα ECE662 του Πανεπιστημίου Purdue και

Διαβάστε περισσότερα

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques)

Αναγνώριση Προτύπων. Μη παραμετρικές τεχνικές Αριθμητικά. (Non Parametric Techniques) Αναγνώριση Προτύπων Μη παραμετρικές τεχνικές Αριθμητικά Παραδείγματα (Non Parametric Techniques) Καθηγητής Χριστόδουλος Χαμζάς Τα περιεχόμενο της παρουσίασης βασίζεται στο βιβλίο: Introduction to Pattern

Διαβάστε περισσότερα

στη Συμπεριφορά του Οδηγού Αξιοποιώντας Λεπτομερή Δεδομένα

στη Συμπεριφορά του Οδηγού Αξιοποιώντας Λεπτομερή Δεδομένα Προτυποποίηση της επιρροής της Χρήσης Κινητού Τηλεφώνου στη Συμπεριφορά του Οδηγού Αξιοποιώντας Λεπτομερή Δεδομένα από Αισθητήρες Έξυπνων Κινητών Τηλεφώνων Αναστασία Αργυροπούλου Επιβλέπων: Γιώργος Γιαννής,

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Δ.Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΧΟΥΧΟΥΜΗΣ ΙΩΑΝΝΗΣ Το σύνολο των

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διδάσκων: Γεώργιος Μήτσης, Λέκτορας, Τμήμα ΗΜΜΥ Γραφείο: GP401 Ώρες γραφείου: Οποτεδήποτε (κατόπιν επικοινωνίας) Τηλ: 22892239 Ηλ. Ταχ.: gmitsis@ucy.ac.cy Βιβλιογραφία C. M.

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

Επιλογή παραμέτρων και χαρακτηριστικών ταξινομητή με χρήση της καμπύλης λειτουργίας δείκτη (ROC Curve)

Επιλογή παραμέτρων και χαρακτηριστικών ταξινομητή με χρήση της καμπύλης λειτουργίας δείκτη (ROC Curve) ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Διπλωματική εργασία Τίτλος: Επιλογή παραμέτρων και χαρακτηριστικών ταξινομητή με χρήση της καμπύλης λειτουργίας δείκτη (ROC Curve)

Διαβάστε περισσότερα

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ

ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ ΕΚΤΑΣΕΩΝ Σχολή Μηχανικής & Τεχνολογίας Τμήμα Πολιτικών & Μηχανικών Γεωπληροφορικής Μεταπτυχιακή διατριβή ΠΙΛΟΤΙΚΗ ΕΦΑΡΜΟΓΗ ΑΥΤΟΝΟΜΩΝ ΣΥΣΤΗΜΑΤΩΝ ΠΛΟΗΓΗΣΗΣ ΓΙΑ ΤΗΝ ΠΑΡΑΓΩΓΗ ΥΨΗΛΗΣ ΑΝΑΛΥΣΗΣ ΟΡΘΟΦΩΤΟΓΡΑΦΙΩΝ ΓΕΩΡΓΙΚΩΝ

Διαβάστε περισσότερα

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ

ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ Σχολή Μηχανικής και Τεχνολογίας Πτυχιακή εργασία ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΧΡΟΝΟΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΕΡΓΑΣΙΩΝ & ΑΝΑΘΕΣΗΣ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ ΣΕ ΠΟΛΛΑΠΛΑ ΕΡΓΑ ΠΑΡΑΓΩΓΗΣ ΛΟΓΙΣΜΙΚΟΥ ΜΕ ΠΟΛΛΑΠΛΕΣ ΟΜΑΔΕΣ Ηλίας Κωνσταντίνου Λεμεσός,

Διαβάστε περισσότερα

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά.

Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά. Μάθηση Λανθανόντων Μοντέλων με Μερικώς Επισημειωμένα Δεδομένα (Learning Aspect Models with Partially Labeled Data) Αναστασία Κριθαρά Xerox Research Centre Europe LIP6 - Université Pierre et Marie Curie

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

substructure similarity search using features in graph databases

substructure similarity search using features in graph databases substructure similarity search using features in graph databases Aleksandros Gkogkas Distributed Management of Data Laboratory intro Θα ενασχοληθούμε με το πρόβλημα των ερωτήσεων σε βάσεις γραφημάτων.

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 17η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Artificia Inteigence A Modern Approach των S. Russe και

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Διερεύνηση χαρτογράφησης Ποσειδωνίας με χρήση επιβλεπόμενης ταξινόμησης οπτικών δορυφορικών εικόνων

Διερεύνηση χαρτογράφησης Ποσειδωνίας με χρήση επιβλεπόμενης ταξινόμησης οπτικών δορυφορικών εικόνων Σχολή Μηχανικής και Τεχνολογίας Μεταπτυχιακή διατριβή Διερεύνηση χαρτογράφησης Ποσειδωνίας με χρήση επιβλεπόμενης ταξινόμησης οπτικών δορυφορικών εικόνων Αναστασία Υφαντίδου Λεμεσός, Νοέμβριος 2017 ΤΕΧΝΟΛΟΓΙΚΟ

Διαβάστε περισσότερα

Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη

Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη 01 Εισαγωγή Μια απλή και γρήγορη εισαγωγή Το Splunk > είναι ένα πρόγραμμα το οποίο πρωτοεμφανίστηκε στην αγορά το 2003 και αποτελεί ένα πρόγραμμα εξόρυξης

Διαβάστε περισσότερα

Προσδιορισμός Σημαντικών Χαρακτηριστικών της Αυθόρμητης Δραστηριότητας Απομονωμένου Εγκεφαλικού Φλοιού in vitro

Προσδιορισμός Σημαντικών Χαρακτηριστικών της Αυθόρμητης Δραστηριότητας Απομονωμένου Εγκεφαλικού Φλοιού in vitro ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ "ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΚΑΙ ΤΗ ΒΙΟΛΟΓΙΑ"

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Συναίνεση χωρίς την παρουσία σφαλμάτων Κατανεμημένα Συστήματα Ι 4η Διάλεξη 27 Οκτωβρίου 2016 Παναγιώτα Παναγοπούλου Κατανεμημένα Συστήματα Ι 4η Διάλεξη 1 Συναίνεση χωρίς την παρουσία σφαλμάτων Προηγούμενη

Διαβάστε περισσότερα

Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ

Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ Α ΡΙΣΤΟΤΕΛΕΙΟ Π ΑΝΕΠΙΣΤΗΜΙΟ Θ ΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Π ΤΥΧΙΑΚΗ/ Δ ΙΠΛΩΜΑΤΙΚΗ Ε ΡΓΑΣΙΑ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΠΡΟΒΛΕΨΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΑΓΩΝΩΝ ΠΟΔΟΣΦΑΙΡΟΥ ΠΑΥΛΟΣ ΠΟΛΙΑΝΙΔΗΣ

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή διατριβή ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Πτυχιακή διατριβή ΜΕΘΟΔΟΙ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑΣ ΤΩΝ ΛΙΠΩΝ ΚΑΙ ΕΛΕΩΝ ΠΡΟΣ ΠΑΡΑΓΩΓΗ ΒΙΟΑΕΡΙΟΥ Ανδρέας Φράγκου Λεμεσός 2015

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΟΛΙΣΘΗΡΟΤΗΤΑ ΚΑΙ ΜΑΚΡΟΥΦΗ ΤΩΝ ΟΔΟΔΤΡΩΜΑΤΩΝ ΚΥΚΛΟΦΟΡΙΑΣ Χριστοδούλου Αντρέας Λεμεσός 2014 2 ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ

Διαβάστε περισσότερα

Αλγόριθμος Ομαδοποίησης

Αλγόριθμος Ομαδοποίησης Αλγόριθμος Ομαδοποίησης Εμπειρίες από τη μελέτη αναλλοίωτων χαρακτηριστικών και ταξινομητών για συστήματα OCR Μορφονιός Κωνσταντίνος Αθήνα, Ιανουάριος 2002 Γενικά Ένα σύστημα OCR χρησιμοποιείται για την

Διαβάστε περισσότερα

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής Εξόρυξη γνώσης από σχόλια σε τουριστικές ιστοσελίδες και παραγοντική ανάλυση του αισθήματος ικανοποίησης των πελατών για το ξενοδοχείο τους Γιώργος ταλίδης 1, Παναγιώτης ταλίδης 2, Κώστας Διαμαντάρας 2

Διαβάστε περισσότερα

ιαµέριση - Partitioning

ιαµέριση - Partitioning ιαµέριση - Partitioning ιαµέριση ιαµέριση είναι η διαµοίραση αντικειµένων σε οµάδες µε στόχο την βελτιστοποίηση κάποιας συνάρτησης. Στην σύνθεση η διαµέριση χρησιµοποιείται ως εξής: Οµαδοποίηση µεταβλητών

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ Πτυχιακή εργασία ΑΝΑΠΤΥΞΗ ΕΙΚΟΝΙΚΗΣ ΠΛΑΤΦΟΡΜΑΣ ΠΡΟΣΟΜΟΙΩΣΗΣ ΤΗΣ ΠΑΡΑΜΟΡΦΩΣΗΣ ΑΝΘΡΩΠΙΝΟΥ ΗΠΑΤΟΣ ΜΕ ΤΗ ΧΡΗΣΗ ΑΠΤΙΚΟΥ ΜΕΣΟΥ Δηµήτρης Δούνας

Διαβάστε περισσότερα

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 -

Κεφάλαιο 18. Μηχανική Μάθηση (Machine Learning) - 1 - Κεφάλαιο 18 Μηχανική Μάθηση (Machine Learning) - 1 - Εισαγωγή Η μάθηση σε ένα γνωστικό σύστημα, όπως γίνεται αντιληπτή στην καθημερινή ζωή, μπορεί να συνδεθεί με δύο βασικές ιδιότητες: την ικανότητά στην

Διαβάστε περισσότερα

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α

Π Τ Υ Χ Ι Α Κ Η Ε Ρ Γ Α Σ Ι Α ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΠΕΙΡΑΙΑ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΟΜΕΑΣ ΑΡΧΙΤΕΚΤΟΝΙΚΗΣ Η/Υ, ΠΛΗΡΟΦΟΡΙΚΗΣ & ΔΙΚΤΥΩΝ Εργ. Τεχνολογίας Λογισμικού & Υπηρεσιών S 2 E Lab Π Τ Υ Χ Ι

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP Σχεδιαστικά Θέματα Natural Language Processing Επεξεργασία δεδομένων σε φυσική γλώσσα Κατανόηση φυσικής γλώσσας από τη μηχανή

Διαβάστε περισσότερα

Medium Data on Big Data

Medium Data on Big Data IT 17081 Examensarbete 15 hp November 2017 Medium Data on Big Data Predicting Disk Failures in CERNs NetApp-based Data Storage System Albin Stjerna Institutionen för informationsteknologi Department of

Διαβάστε περισσότερα

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης

Πιθανότητες & Τυχαία Σήματα. Διγαλάκης Βασίλης Πιθανότητες & Τυχαία Σήματα Διγαλάκης Βασίλης Τυχαία Σήματα Γενίκευση τυχαίων διανυσμάτων Άπειρο σύνολο πιθανά αριθμήσιμο από τυχαίες μεταβλητές Παραδείγματα τυχαίων σημάτων: Τηλεπικοινωνίες: Σήμα πληροφορίας

Διαβάστε περισσότερα

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016

Τηλεπισκόπηση. Κ. Ποϊραζίδης ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ 18/6/2016 ΨΗΦΙΑΚΗ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Κ. Ποϊραζίδης Ψηφιακή Ανάλυση Εικόνας Η ψηφιακή ανάλυση εικόνας ασχολείται κυρίως με τέσσερις βασικές λειτουργίες: διόρθωση, βελτίωση, ταξινόμηση Με τον όρο ταξινόμηση εννοείται

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων Διδάσκων: HMY 795: Αναγνώριση Προτύπων Γεώργιος Μήτσης Γραφείο: GP401 Ωρες γραφείου: Οποτεδήποτε (κατόπιν επικοινωνίας) Τηλ: 22892239 Ηλ. Ταχ.: gmitsis@ucy.ac.cy Βιβλιογραφία C. M. Bishop Pa#ern Recogni-on

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης. Ένα από τα γνωστότερα παραδείγματα των ΕΑ είναι ο Γενετικός

Διαβάστε περισσότερα