ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΗΣ ΠΟΛΛΑΠΛΩΝ ΜΕΤΑΒΛΗΤΩΝ ΕΞΟΔΟΥ Συγγραφέας: Αικατερίνη Βρέκου Επιβλέπων: Δρ. Γρηγόριος Τσουμάκας, Λέκτορας ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ως μέρος των υποχρεώσεων για τη λήψη του ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ στην ΠΛΗΡΟΦΟΡΙΚΗ με εξειδίκευση στα ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ Τμήμα Πληροφορικής, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Θεσσαλονίκη Φεβρουάριος 2013
ii ΠΕΡΙΛΗΨΗ Αικατερίνη Βρέκου του Γεωργίου και της Δήμητρας. MSc, Τμήμα Πληροφορικής, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Φεβρουάριος, 2013. Τίτλος: Τεχνικές Πρόβλεψης Πολλαπλών Μεταβλητών Εξόδου. Επιβλέπων: Γρηγόριος Τσουμάκας. Η παρούσα διατριβή πραγματεύεται το πρόβλημα της ταυτόχρονης πρόβλεψης πολλαπλών αριθμητικών μεταβλητών εξόδου (στόχων). Αρχικά περιγράφονται γνωστές μέθοδοι τόσο απλής παλινδρόμησης, όσο και παλινδρόμησης πολλαπλών στόχων, ενώ παρουσιάζονται και οι μετρικές αξιολόγησης μοντέλων παλινδρόμησης. Στη διατριβή προτείνεται μία νέα μέθοδος παλινδρόμησης πολλαπλών στόχων, που προσεγγίζει το πρόβλημα των πολλαπλών μεταβλητών εξόδου, μετασχηματίζοντας το σε πρόβλημα με μία μεταβλητή εξόδου. Υποθέτει πως οι μεταβλητές εξόδου εμφανίζουν γραμμική συσχέτιση μεταξύ τους και χρησιμοποιεί τυχαίους γραμμικούς συνδυασμούς των μεταβλητών αυτών κατά το μετασχηματισμό των δεδομένων. Τέλος χρησιμοποιεί μία ομάδα από τέτοιου είδους μοντέλα πρόβλεψης για να αυξήσει τη συνολική ακρίβεια. Σκοπός αυτής της τεχνικής είναι να εκμεταλλευτεί την πληροφορία που μπορεί να αποφέρουν οι συσχετίσεις των μεταβλητών εξόδου για την επίλυση του προβλήματος.
iii EXTENDED ABSTRACT IN ENGLISH Vrekou Aikaterini, G. MSc, Computer Science Department, Aristotle University of Thessaloniki, Greece. February, 2013. Title: Multi-Output Prediction Techniques. Supervisor: Grigorios Tsoumakas. In this dissertation we studied the problem of predictive learning and more specifically the problem of predicting multiple attributes at once. We mostly focused on regression, where the output variables are numeric. At first, we present some known regression and multi-target regression techniques and also the metrics that can be used for evaluating regression models. The next chapters include a presentation of a proposed method for multi-target regression. This method transforms the multi-target problem into a single-target one, by making the assumption that the target attributes are correlated linearly and thus using random linear combinations of these target attributes during the transformation process. Finally it uses an ensemble of models of that kind to increase the predictive performance of the system. The goal of this technique is to take advantage of any information that can be provided from the fact that the output attributes may be related. The dissertation is organized as follows: In Chapter 2 we present the background knowledge necessary to understand the notions that are used in the following chapters. We describe the Machine Learning field and its categorization. In addition, we analyze regression and the metrics that can be used in this domain. Finally, ensembles are presented, along with their creation methodology. Chapter 3 is dedicated to multi-target regression, that is the prediction of multiple numeric attributes at once. We mention the most popular methods that are able to address this task. In Chapter 4 the proposed method that we mentioned above is presented, which is applied in
multi-target regression tasks. We analyze the methodology of the algorithm and make some important notes. iv In Chapter 5 the experimental framework that was used for the evaluation of our method is discussed. We describe the datasets that were used for the evaluation and present the calculated results. Finally Chapter 6 consist of the conclusions of this project and some proposals for future work.
v ΕΥΧΑΡΙΣΤΙΕΣ Η διατριβή αυτή εκπονήθηκε κατά τη διάρκεια του 3ου εξαμήνου των μεταπτυχιακών σπουδών στο Τμήμα Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, στα πλαίσια των υποχρεώσεων για τη λήψη του Μεταπτυχιακού Διπλώματος στην Πληροφορική με εξειδίκευση στα Πληροφοριακά Συστήματα. Θα ήθελα να ευχαριστήσω καταρχήν τον κ. Γρηγόριο Τσουμάκα, επιβλέποντα καθηγητή της διατριβής μου και καθηγητή μου από το δεύτερο εξάμηνο εισαγωγής μου στο μεταπτυχιακό πρόγραμμα σπουδών του τμήματος Πληροφορικής, ο οποίος επέλεξε και το συγκεκριμένο θέμα της εργασίας, ένα θέμα που κράτησε το ενδιαφέρον μου από την πρώτη μέρα της ενασχόλησης μου μαζί του. Τον ευχαριστώ για την άψογη συνεργασία μας, για το γεγονός πως ήταν πάντα πρόθυμος να με καθοδηγεί και συμβουλεύει αλλά και την εμπιστοσύνη που μου έδειξε. Επίσης, ευχαριστώ θερμά τους γονείς μου, Δήμητρα και Γιώργο, για τη συμπαράσταση και την αγάπη τους που μου έδειξαν σε όλα τα χρόνια των σπουδών μου και για την εμπιστοσύνη και υποστήριξη σε όλα τα σχέδιά μου. Τέλος, ένα μεγάλο ευχαριστώ στους φίλους μου και στον αδερφό μου για τη συμπαράσταση τους όταν τη χρειαζόμουν και για την σημαντική ενθάρρυνση που μου προσφέρουν απλόχερα. Στον Αχιλλέα, τον Νίκο, την Αγγελική, την Κατερίνα, τον Γιώργο, την Κωνσταντίνα. Τους ευχαριστώ ιδιαίτερα που με στηρίζουν και πιστεύουν σε μένα.
vi ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΛΗΨΗ...ii EXTENDED ABSTRACT IN ENGLISH...iii ΕΥΧΑΡΙΣΤΙΕΣ...v ΠΕΡΙΕΧΟΜΕΝΑ...vi ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ...viii ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ...ix ΣΥΝΤΟΜΟΓΡΑΦΙΕΣ...x ΚΕΦΑΛΑΙΟ 1.ΕΙΣΑΓΩΓΗ...1 1.1 Περιγραφή του προβλήματος...1 1.2 Δομή Διατριβής...2 ΚΕΦΑΛΑΙΟ 2.ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ...4 2.1 Μηχανική Μάθηση...4 2.2 Κατηγορίες Μηχανικής Μάθησης...5 Μάθηση με επίβλεψη...6 Μάθηση χωρίς επίβλεψη...7 2.3 Παλινδρόμηση (regression)...7 Γραμμική Παλινδρόμηση...9 Παλινδρόμηση Ridge (ridge regression)...9 Νευρωνικά Δίκτυα...10 Παλινδρόμηση Διανυσμάτων Υποστήριξης...12 Regression trees και model trees...12 2.4 Μετρικές Αξιολόγησης Παλινδρόμησης...14 Mean Squared Error (MSE)...14 Root Mean Squared Error (RMSE)...14 Mean Absolute Error (MAE)...15 Ο συντελεστής R2...15 Relative Squared Error (RSE), Root Relative Squared Error (RRSE) και Relative Absolute Error (RAE)...15 Συντελεστής Συσχέτισης (Correlation Coefficient CC)...16 2.5 Ομάδες Μοντέλων...16 ΚΕΦΑΛΑΙΟ 3.ΠΑΛΙΝΔΡOΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΣΤΟΧΩΝ MULTI-TARGET REGRESSION...19 3.1 Περιγραφή Παλινδρόμησης Πολλαπλών Στόχων...19 3.2 Δημοφιλέστερες μέθοδοι...20 Single Target method (ST)...21 Multi-Target Rules...21 Multi Target Regression Trees (MTRT)...22 Stacked Regression...23 Classifier Chains...24 ΚΕΦΑΛΑΙΟ 4.Ο ΑΛΓΟΡΙΘΜΟΣ RANDOM LINEAR COMBINATIONS...25
4.1 Περιγραφή του αλγορίθμου RLC...25 4.2 Παρατηρήσεις σχετικά με τον αλγόριθμο RLC...28 ΚΕΦΑΛΑΙΟ 5.ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ...29 5.1 Πειραματική διαδικασία...29 5.2 Περιγραφή των συνόλων δεδομένων...31 5.3 Αποτελέσματα...33 ΚΕΦΑΛΑΙΟ 6.ΣΥΜΠΕΡΑΣΜΑΤΑ...40 ΒΙΒΛΙΟΓΡΑΦΙΑ...42 vii
viii ΕΥΡΕΤΗΡΙΟ ΠΙΝΑΚΩΝ Πίνακας 5.1: Στατιστικά των συνόλων δεδομένων που χρησιμοποιήθηκαν κατά την αξιολόγηση.. 31 Πίνακας 5.2: Συγκεντρωτικά αποτελέσματα των μεθόδων RLC και ST στα αρχικά σύνολα δεδομένων...39 Πίνακας 5.3: Συγκεντρωτικά αποτελέσματα των μεθόδων RLC και ST στα σύνολα δεδομένων μετά την κανονικοποίηση...39
ix ΕΥΡΕΤΗΡΙΟ ΕΙΚΟΝΩΝ Εικόνα 2.1: Παράδειγμα τεχνητού νευρωνικού δικτύου...11 Εικόνα 2.2: Το υπερεπίπεδο μέγιστου περιθωρίου...12 Εικόνα 2.3: Παράδειγμα Regression Tree...13 Εικόνα 2.4: Παράδειγμα Model Tree...13 Εικόνα 3.1: Παράδειγμα Multi Target Regression Tree...23 Εικόνα 5.1: Αποτελέσματα στο κανονικοποιημένο σύνολο δεδομένων Solar Flare1...33 Εικόνα 5.2: Αποτελέσματα στο σύνολο δεδομένων Solar Flare1...33 Εικόνα 5.3: Αποτελέσματα στο σύνολο δεδομένων Solar Flare2...34 Εικόνα 5.4: Αποτελέσματα στο κανονικοποιημένο σύνολο δεδομένων Solar Flare2...34 Εικόνα 5.5: Αποτελέσματα στο σύνολο κανονικοποιημένο δεδομένων Water Quality...34 Εικόνα 5.6: Αποτελέσματα στο σύνολο δεδομένων Water Quality...34 Εικόνα 5.7: Αποτελέσματα στο σύνολο δεδομένων River Flow...35 Εικόνα 5.8: Αποτελέσματα στο κανονικοποιημένο σύνολο δεδομένων River Flow...35 Εικόνα 5.9: Αποτελέσματα στο κανονικοποιημένο σύνολο δεδομένων ATP1d...36 Εικόνα 5.10: Αποτελέσματα στο σύνολο δεδομένων ATP1d...36 Εικόνα 5.11: Αποτελέσματα στο σύνολο δεδομένων ATP7d...36 Εικόνα 5.12: Αποτελέσματα στο κανονικοποιημένο σύνολο δεδομένων ATP7d...36 Εικόνα 5.13: Αποτελέσματα στο κανονικοποιημένο σύνολο δεδομένων SCM1d...37 Εικόνα 5.14: Αποτελέσματα στο σύνολο δεδομένων SCM1d...37 Εικόνα 5.15: Αποτελέσματα στο σύνολο δεδομένων SCM20d...38 Εικόνα 5.16: Αποτελέσματα στο κανονικοποιημένο σύνολο δεδομένων SCM20d...38
x ΣΥΝΤΟΜΟΓΡΑΦΙΕΣ ΜΜ Μηχανική Μάθηση ΤΝ Τεχνητή Νοημοσύνη SSR Sum of Squared Residuals BLUE Best Linear Unbiased Estimator SVM Support Vector Machines MSE Mean Squared Error RMSE Root Mean Squared Error MAE Mean Absolute Error CC Correlation Coefficient MTR Multi-Target Regression ST Single Target MTRT Multi Target Regression Tree PCT Predictive Clustering Tree RLC Random Linear Combinations
1 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ 1.1 Περιγραφή του προβλήματος 1.2 Δομή Διατριβής Πολύ συχνά οι επιστήμονες της Πληροφορικής βρίσκονται αντιμέτωποι με ένα πολύπλοκο πρόβλημα: αυτό της τεράστιας αύξησης του όγκου δεδομένων. Δεδομένα παράγονται σε διάφορες δραστηριότητες της καθημερινής ζωής και με πολλούς τρόπους. Στην εργασία, στο σπίτι, στο πανεπιστήμιο, μέσω υπολογιστών, έξυπνων κινητών τηλεφώνων ή tablets η παραγωγή νέων δεδομένων γίνεται ασταμάτητα με γοργούς ρυθμούς. Όμως αυτά δεν αποτελούν από μόνα τους πληροφορία. Χρειάζεται κάποιο είδος οργάνωσης τους που θα βοηθά στην παραγωγή χρήσιμων συμπερασμάτων και θα συμβάλλει κατά συνέπεια στην αύξηση της γνώσης. 1.1 Περιγραφή του προβλήματος Ο τεράστιος διαθέσιμος όγκος δεδομένων δεν είναι δυνατόν να επεξεργαστεί χειροκίνητα. Είναι απαραίτητη, επομένως, η ανάπτυξη αυτοματοποιημένων τεχνικών επεξεργασίας δεδομένων που θα έχουν υποβοηθητικό ρόλο στη διαδικασία ανακάλυψης γνώσης. Ένας τρόπος οργάνωσης της γνώσης είναι η εύρεση προτύπων και η δημιουργία μοντέλων από τα δεδομένα, πράγμα που αποτελεί και το αντικείμενο της Μηχανικής Μάθησης. Η Μηχανική Μάθηση είναι ένας γενικός όρος που περιλαμβάνει αρκετές τεχνικές και μεθόδους μάθησης από δεδομένα. Μία δημοφιλής κατηγορία προβλημάτων Μηχανικής Μάθησης είναι τα προβλήματα πρόβλεψης. Στη πρόβλεψη, προσπαθούμε να εξάγουμε χρήσιμες πληροφορίες παρατηρώντας τη φύση των δεδομένων. Πιο συγκεκριμένα, προσπαθούμε να προβλέψουμε την τιμή κάποιων άγνωστων χαρακτηριστικών με βάση την προγενέστερη γνώση που διαθέτουμε επάνω στο πρόβλημα. Η τιμή των χαρακτηριστικών μπορεί να είναι είτε δυαδική (0/1, υπάρχει/δεν υπάρχει), είτε αριθμητική. Παραδείγματος χάρη, μία τράπεζα θα μπορούσε να αποφασίζει αν θα πρέπει να δοθεί δάνειο σε έναν πελάτη ή όχι (δυαδικό χαρακτηριστικό) με βάση χαρακτηριστικά όπως το μηνιαίο εισόδημά του, την ηλικία του, την οικογενειακή του κατάσταση και την
2 περιουσιακή του κατάσταση. Επίσης, μία ομάδα δασολόγων θα μπορούσε να προβλέψει το ύψος που θα φτάσει ένα δέντρο (αριθμητικό χαρακτηριστικό) με βάση το είδος του δέντρου, τα συστατικά του χώματος, το υψόμετρο κλπ. Η διαδικασία της μάθησης για την πρόβλεψη περιλαμβάνει λειτουργίες όπως η επιλογή της κατάλληλης μεθόδου για το πρόβλημα και η ρύθμιση των παραμέτρων της μεθόδου. Η επιλογή αυτή επηρεάζει την ακρίβεια του μοντέλου πρόβλεψης που προκύπτει. Εκτός από την ίδια την πρόβλεψη, και η μορφή του μοντέλου πρόβλεψης μπορεί με τη σειρά της να αποτελεί χρήσιμη πληροφορία για το πρόβλημα. Αυτό όμως σημαίνει πως θα πρέπει να είναι απλό και εύκολα ερμηνεύσιμο από τον άνθρωπο. Στην πράξη βέβαια, όσο πιο ακριβές είναι ένα μοντέλο, τόσο μεγαλύτερη πολυπλοκότητα εμφανίζει. Συνεπώς η επιλογή του μοντέλου θα πρέπει να είναι βασισμένη στις ανάγκες του προβλήματος και σε τι αυτό στοχεύει: απλότητα ή μεγάλη ακρίβεια. 1.2 Δομή Διατριβής Η εργασία ασχολείται με αυτό ακριβώς το αντικείμενο, την πρόβλεψη. Εξετάζονται οι τεχνικές μάθησης που βοηθούν στην πρόβλεψη αριθμητικών συγκεκριμένα χαρακτηριστικών και μάλιστα δίνεται ιδιαίτερα βάση σε αυτές που μπορούν να προβλέπουν περισσότερα του ενός χαρακτηριστικά. Επίσης προτείνεται ένας αλγόριθμος πρόβλεψης πολλαπλών αριθμητικών μεταβλητών που εκμεταλλεύεται τις συσχετίσεις μεταξύ των μεταβλητών αυτών. Παρουσιάζεται η πειραματική αξιολόγηση του αλγορίθμου, ενώ τέλος αναφέρονται τα συμπεράσματα που προέκυψαν από την αξιολόγηση καθώς και προτάσεις για μελλοντική έρευνα. Αναλυτικά, η δομή της εργασίας είναι η ακόλουθη: Στο κεφάλαιο 2 παρουσιάζεται το υπόβαθρο που είναι απαραίτητο για την κατανόηση της ορολογίας που χρησιμοποιείται στη συνέχεια. Αναλύεται εκτενέστερα το πεδίο της Μηχανικής Μάθησης και αναφέρονται οι κατηγορίες στις οποίες αυτή διακρίνεται. Επίσης, γίνεται ιδιαίτερη αναφορά στην παλινδρόμηση, που είναι γενικά η πρόβλεψη ενός αριθμητικού χαρακτηριστικού, αλλά και στις κυριότερες μετρικές αξιολόγησης των μοντέλων παλινδρόμησης. Τέλος περιγράφουμε την μέθοδο των ομάδων μοντέλων, πως αυτές δημιουργούνται και που μπορούν να εφαρμοστούν. Το κεφάλαιο 3 είναι αφιερωμένο στην παλινδρόμηση πολλαπλών στόχων, η οποία είναι υποκατηγορία της παλινδρόμησης και στοχεύει στην πρόβλεψη πολλαπλών αριθμητικών
χαρακτηριστικών ταυτόχρονα. Ακόμη αναφέρονται οι δημοφιλέστερες μέθοδοι με τις οποίες επιλύονται αυτού του είδους τα προβλήματα μάθησης. 3 Στο κεφάλαιο 4 γίνεται η παρουσίαση του αλγορίθμου που προτείνει η συγκεκριμένη εργασία και ο οποίος εφαρμόζεται σε προβλήματα παλινδρόμησης πολλαπλών στόχων. Πραγματοποιείται η περιγραφή του ενώ ακολουθούν μερικές παρατηρήσεις και σημεία άξια προσοχής στον αλγόριθμο αυτό. Το κεφάλαιο 5 αποτελεί την πειραματική αξιολόγηση του αλγορίθμου που προτείνεται. Αναφέρονται τα σύνολα δεδομένων που χρησιμοποιήθηκαν, καθώς και η συγκεκριμένη μέθοδος αξιολόγησης που εφαρμόστηκε. Φυσικά παρουσιάζονται τα αποτελέσματα που προέκυψαν από την αξιολόγηση. Τέλος στο κεφάλαιο 6 αναφέρονται τα συμπεράσματα που μπόρεσαν να εξαχθούν από αυτήν την εργασία με βάση τα αποτελέσματα του κεφαλαίου 5, ενώ αναλύονται και τα σημεία που θα μπορούσαν να αποτελέσουν το έναυσμα περαιτέρω μελέτης.
4 ΚΕΦΑΛΑΙΟ 2. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ 2.1 Μηχανική Μάθηση 2.2 Κατηγορίες Μηχανικής Μάθησης 2.3 Παλινδρόμηση (regression) 2.4 Μετρικές Αξιολόγησης Παλινδρόμησης 2.5 Ομάδες Μοντέλων Στο συγκεκριμένο κεφάλαιο αναλύονται οι βασικές έννοιες που χρησιμοποιούνται στην παρούσα εργασία και είναι απαραίτητες ως υπόβαθρο για την κατανόηση όσων ακολουθούν στη συνέχεια. Αρχικά αναφέρουμε συνοπτικά τι ακριβώς είναι η μηχανική μάθηση και με τι ασχολείται. Παρουσιάζουμε τα είδη στα οποία μπορούμε να διακρίνουμε τη μηχανική μάθηση και περιγράφουμε αναλυτικά τα προβλήματα παλινδρόμησης καθώς και κάποιες από τις βασικές μεθόδους επίλυσης τέτοιων προβλημάτων. Στη συνέχεια αναφέρουμε τις κυριότερες μετρικές και μεθόδους που χρησιμοποιούνται για την αξιολόγηση των διαφόρων τεχνικών και αλγορίθμων παλινδρόμησης και πως αυτές μπορούν να εφαρμοστούν. Τέλος εξηγούμε τι είναι οι ομάδες μοντέλων, με ποιο τρόπο δημιουργούνται και τι πλεονεκτήματα μπορούν να επιφέρουν στα προβλήματα μάθησης. 2.1 Μηχανική Μάθηση Η Μηχανική Μάθηση (ΜΜ) έχει της ρίζες της στην Τεχνητή Νοημοσύνη και αποτελεί εξέλιξη της. Αφορά στην κατασκευή αλγορίθμων και στην ανάπτυξη τεχνικών για την εξαγωγή νέας γνώσης από δεδομένα. Επίσης στοχεύει στη δημιουργία μοντέλων και προτύπων για την οργάνωση της ήδη υπάρχουσας γνώσης. Οι αλγόριθμοι και τα μοντέλα ΜΜ έχουν τη δυνατότητα να βελτιώνονται αυτόματα με την εμπειρία. Η Μηχανική Μάθηση μπορεί να συσχετιστεί άμεσα τόσο με την Εξόρυξη Δεδομένων (Data Mining) όσο και με την Ανακάλυψη Γνώσης από Βάσεις Δεδομένων (Knowledge Discovery in Databases) καθώς και τα δύο αυτά πεδία δανείζονται τις τεχνικές και τους αλγορίθμους από τη ΜΜ
5 για τη διαδικασία της ανακάλυψης γνώσης. Επίσης αλγόριθμοι Μηχανικής Μάθησης μπορούν να εφαρμοστούν και για την Αναγνώριση Προτύπων (Pattern Recognition), και μάλιστα κυρίως όσοι υποστηρίζουν τον χειρισμό αριθμητικών δεδομένων. Ακόμη, μπορούμε να πούμε ότι η ΜΜ σχετίζεται σημαντικά και με το πεδίο της Στατιστικής, ειδικά στο κομμάτι της ανάλυσης δεδομένων αλλά και των μετρικών αξιολόγησης, μερικές από τις οποίες θα αναφερθούν και στη συνέχεια. Υπάρχουν διάφοροι ορισμοί για τη Μηχανική Μάθηση. Ενδεικτικά αναφέρουμε τον ορισμό του (Mitchell, 1997): Ένα πρόγραμμα υπολογιστή θεωρείται ότι μαθαίνει από την εμπειρία Ε σε σχέση με μία κατηγορία εργασιών Τ και μία μετρική απόδοσης P, αν η απόδοση του σε εργασίες της Τ, όπως μετριούνται από την P, βελτιώνονται με την εμπειρία Ε. και τον ορισμό του (Carbonell, 1987): Μηχανική Μάθηση είναι η μελέτη υπολογιστικών μεθόδων για την απόκτηση νέας γνώσης, νέων δεξιοτήτων και νέων τρόπων οργάνωσης της υπάρχουσας γνώσης.. Οι εφαρμογές της καλύπτουν ένα ευρύ φάσμα αναγκών. Για παράδειγμα, η ΜΜ εφαρμόζεται στην Βιοπληροφορική (στοίχιση ακολουθιών, ανάλυση δεδομένων από μικροσυστοιχίες), στην Μηχανική Όραση (αναγνώριση αντικειμένων, τμηματοποίηση εικόνας), στην Ρομποτική (υπολογισμός κατάστασης, λήψη απόφασης), στην Ομιλία (αναγνώριση, εξακρίβωση ομιλητή), στην Οικονομία (πρόβλεψη τιμής μετοχών), στην Φαρμακευτική (διάγνωση, θεραπεία, σχεδίαση φαρμάκων), στα Παιχνίδια (σχεδιασμός ικανών και προσαρμόσιμων αντιπάλων) και στα Πολυμέσα (ανάκτηση με βάση το περιεχόμενο). Σε όλες αυτές τις εφαρμογές μπορούμε να διακρίνουμε ορισμένα χαρακτηριστικά, τα οποία είναι ενδεικτικά των περιπτώσεων στις οποίες η Μηχανική Μάθηση μπορεί να δώσει λύση. Τέτοια χαρακτηριστικά είναι τα εξής: δεν υπάρχει άνθρωπος ειδικός (πχ. ανάλυση DNA), υπάρχει συχνή αλλαγή συμπεριφοράς (πχ. πρόβλεψη τιμής μετοχών) και υπάρχει τεράστιος όγκος δεδομένων που απαιτούνται για την αντιμετώπιση του προβλήματος (αναγνώριση προτύπων σε κείμενο). Σε τέτοιες περιπτώσεις που φαίνονται απρόσιτες για την επίλυση τους από τον ανθρώπινο νου, οδηγούμαστε σε λύσεις που παρέχονται από τς μεθόδους της Μηχανικής Μάθησης. 2.2 Κατηγορίες Μηχανικής Μάθησης Έως σήμερα έχουν αναπτυχθεί διάφοροι αλγόριθμοι ΜΜ, αρκετά διαφορετικοί μεταξύ τους, τους οποίους όμως μπορούμε να εντάξουμε σε δύο κατηγορίες της Μηχανικής Μάθησης: την μάθηση με επίβλεψη (Supervised Learning) και την μάθηση χωρίς επίβλεψη (Unsupervised Learning).
6 Μάθηση με επίβλεψη Στην μάθηση με επίβλεψη ο στόχος είναι η δημιουργία ενός μοντέλου που θα μάθει μία έννοια ή μία συνάρτηση από παραδείγματα τα οποία περιγράφουν το μοντέλο αυτό. Ονομάζεται έτσι από το γεγονός ότι θεωρούμε πως υπάρχει κάποιος επιβλέπων που γνωρίζει και παρέχει την τιμή εξόδου της συνάρτησης για τα παραδείγματα που εξετάζονται. Επομένως, πριν από την κατασκευή του μοντέλου υπάρχει κάποια επιπρόσθετη πληροφορία, η οποία είναι η τιμή εξόδου για ένα σύνολο από γνωστά παραδείγματα, τα οποία ανήκουν στο σύνολο εκπαίδευσης (training set). Μετά την κατασκευή του, το μοντέλο είναι δυνατό να γενικευτεί και να προβλέψει την έξοδο για παραδείγματα για τα οποία αυτή δεν είναι γνωστή. Ο (Vapnik, 1999) ορίζει τη μάθηση με επίβλεψη ως εξής: Η μάθηση με επίβλεψη αποτελείται από τρία συστατικά: 1) τυχαία διανύσματα x ανεξάρτητα μεταξύ τους που ακολουθούν μία καθορισμένη, αλλά άγνωστη κατανομή D(x), 2) έναν υποθετικό επιβλέποντα που επιστρέφει ένα διάνυσμα y για κάθε x, σύμφωνα με μία καθορισμένη, αλλά άγνωστη κατανομή υπό συνθήκη D(y, x), και 3) ένα σύνολο από συναρτήσεις μοντελοποίησης f(x, β), όπου β = (β 1, β 2,...) είναι μία μετά-παράμετρος που καθορίζει τη συνάρτηση μέσα στο σύνολο. Ο στόχος είναι η εύρεση του β έτσι ώστε η συνάρτηση f(x, β) να προσεγγίζει με όσο το δυνατόν μεγαλύτερη ακρίβεια τις απαντήσεις του επιβλέποντα. Για την αξιολόγηση της ακρίβειας του μοντέλου χρειαζόμαστε ένα νέο σύνολο παραδειγμάτων για τα οποία είναι γνωστή η έξοδος τους σε μας, αλλά στο μοντέλο θεωρούνται άγνωστα καθώς δε συμπεριλαμβάνονται στο σύνολο εκπαίδευσης, και που ονομάζεται σύνολο ελέγχου (test set). Σε πολλές περιπτώσεις όμως τα δεδομένα δεν είναι αρκετά έτσι ώστε να χωριστούν σε δύο διαφορετικά σύνολα (τα σύνολα εκπαίδευσης και ελέγχου) και να κατασκευαστεί ένα αξιόπιστο μοντέλο. Για το λόγο αυτό είναι διαδεδομένη η τεχνική της διασταύρωσης (cross-validation). Σύμφωνα με την τεχνική αυτή: 1) τα δεδομένα χωρίζονται σε k υποσύνολα ίσου μεγέθους και 2) χρησιμοποιούμε τα k-1 υποσύνολα για την εκπαίδευση του μοντέλου και αυτό που απομένει για τον έλεγχο του. Επαναλαμβάνουμε το βήμα 2 k φορές, διαλέγοντας διαφορετικό υποσύνολο
7 ελέγχου κάθε φορά. Το τελικό ποσοστό σφάλματος είναι αυτό που προκύπτει από το μέσο όρο των ποσοστών των k επαναλήψεων και αποτελεί εκτίμηση της απόδοσης του μοντέλου. Έχει αποδειχθεί πειραματικά πως μια καλή επιλογή για το k είναι η τιμή 10. Μάθηση χωρίς επίβλεψη Στην μάθηση χωρίς επίβλεψη δεν έχουμε καμία γνώση εκ των προτέρων για την έξοδο των παραδειγμάτων. Με άλλα λόγια το διάνυσμα y είναι άγνωστο, καθώς δεν υπάρχει κανένας επιβλέπων που να το παρέχει. Το σύστημα καλείται να ανακαλύψει από μόνο του συσχετίσεις ή ομάδες στα παραδείγματα εισόδου βασισμένο αποκλειστικά στα χαρακτηριστικά τους, χωρίς να είναι γνωστό αν υπάρχουν ομάδες, ποιες είναι και πόσες είναι αυτές. Γι' αυτό το λόγο τα προβλήματα μάθησης χωρίς επίβλεψη θεωρούνται δυσκολότερα. Ως αποτέλεσμα προκύπτουν διαφορετικά μοντέλα και πρότυπα, το καθένα από τα οποία περιγράφει ένα μέρος μόνο από τα δεδομένα. Παραδείγματα τέτοιων προτύπων είναι οι κανόνες συσχέτισης (association rules) και οι ομάδες (clusters). Οι τεχνικές που χρησιμοποιούνται συνήθως είναι αυτές της ομαδοποίησης (Berkhin, 2006; Xu and Wunsch II, 2005) και της ανάλυσης ανεξάρτητων συνιστωσών (independent component analysis)(hyvärinen and Oja, 2000). Στην κατηγορία της μάθησης χωρίς επίβλεψη μπορούμε να εντάξουμε και την ήμι-επιβλεπόμενη μάθηση (Chapelle et al., 2010) αλλά και τα προβλήματα ενισχυτικής μάθησης (Buşoniu et al., 2008) καθώς το περιβάλλον αποτελεί κάτι άγνωστο για τον πράκτορα που πρέπει να το ανακαλύψει. Στην ήμι-επιβλεπόμενη μάθηση έχουμε λίγα παραδείγματα με γνωστή έξοδο και ένα μεγάλο σύνολο άγνωστων παραδειγμάτων. Στην ενισχυτική μάθηση ένας πράκτορας καλείται να μάθει μία συμπεριφορά αλληλεπιδρώντας με ένα δυναμικό περιβάλλον και να επιλέξει μία σειρά αποφάσεων μέσω της δοκιμής και του σφάλματος. Λόγω της ιδιαίτερης φύσης της, η ενισχυτική μάθηση θα μπορούσε να θεωρηθεί και ως μία ξεχωριστή κατηγορία Μηχανικής Μάθησης. Ο αλγόριθμος που προτείνουμε στη συνέχεια ανήκει στην κατηγορία της μάθησης με επίβλεψη. Χρησιμοποιεί δηλαδή ένα σύνολο από δεδομένα εκπαίδευσης για να εκπαιδεύσει το μοντέλο πρόβλεψης και το αξιολογεί με ένα σύνολο ελέγχου όπου αυτό είναι δυνατόν. Για σύνολα δεδομένων που τα παραδείγματα δεν είναι αρκετά, η εκπαίδευση γίνεται με τη μέθοδο του crossvalidation επιλέγοντας k=10. 2.3 Παλινδρόμηση (regression) Στην μάθηση με επίβλεψη διακρίνονται δύο είδη προβλημάτων, τα προβλήματα ταξινόμησης
8 και τα προβλήματα παλινδρόμησης. Η ταξινόμηση αφορά στη δημιουργία μοντέλων πρόβλεψης διακριτών τάξεων (κλάσεων / κατηγοριών, πχ. ομάδα αίματος). Η παλινδρόμηση (regression) αφορά στη δημιουργία μοντέλων πρόβλεψης αριθμητικών τιμών (πχ. πρόβλεψη αυριανής μέσης θερμοκρασίας). Και στις δύο περιπτώσεις χρησιμοποιείται ένα σύνολο δεδομένων εισόδου για την παραγωγή ενός μοντέλου που θα προβλέπει την έξοδο σε άγνωστα δεδομένα. Η συγκεκριμένη εργασία πραγματεύεται προβλήματα παλινδρόμησης. Για το λόγο αυτό στη συνέχεια αναλύεται εκτενέστερα η έννοια αυτή. Η παλινδρόμηση αναφέρεται στη μοντελοποίηση της συσχέτισης μια εξαρτημένης μεταβλητής y (έξοδος), η οποία είναι αριθμητική, από μία ή περισσότερες ανεξάρτητες μεταβλητές Χ=(x 1, x 2,..., x n ) (είσοδοι). Στόχος είναι η πρόβλεψη της τιμής της εξόδου όταν είναι γνωστές οι τιμές των εισόδων. Ως εφαρμογές μπορούμε να αναφέρουμε την πρόβλεψη της ζήτησης για ένα νέο προϊόν με βάση τις δαπάνες διαφήμισης, της ταχύτητας των ανέμων με βάση την θερμοκρασία, την υγρασία και την ατμοσφαιρική πίεση του περιβάλλοντος ή της αξίας ακινήτων με βάση την τοποθεσία, τον αριθμό των δωματίων και την έκταση του οικοπέδου. Η παλινδρόμηση περιγράφεται με τη μορφή εξίσωσης ως εξής: y = f(x, β) + ε όπου y είναι η εξαρτημένη μεταβλητή, X είναι το διάνυσμα των ανεξάρτητων μεταβλητών, β είναι το διάνυσμα των άγνωστων παραμέτρων συσχέτισης και ε το τυχαίο σφάλμα που προκύπτει κατά την πρόβλεψη από την ύπαρξη μη ελεγχόμενων τυχαίων παραγόντων. Η συνάρτηση f είναι η συνάρτηση παλινδρόμησης. Για την επιτυχία του μοντέλου είναι απαραίτητη η ελαχιστοποίηση του σφάλματος μεταξύ πραγματικής και προβλεπόμενης τιμής της εξαρτημένης μεταβλητής d = y f(x, β). Επειδή η ελαχιστοποίηση του σφάλματος απαιτεί δύσκολους και περίπλοκους υπολογισμούς, χρησιμοποιούνται συνήθως συγκεκριμένες μορφές για τη συνάρτηση παλινδρόμησης (γραμμική,...) που προέρχονται από το πεδίο της στατιστικής Ταυτόχρονα το ίδιο πρόβλημα προσπαθούν να επιλύσουν και διαφορετικές προσεγγίσεις που προέρχονται αποκλειστικά από το πεδίο της ΜΜ. Υπάρχουν επομένως αρκετές τεχνικές για την εύρεση της κατάλληλης συνάρτησης παλινδρόμησης, όπως επίσης και αρκετές μετρικές του σφάλματος. Στη συνέχεια θα αναφερθούν οι κυριότερες από αυτές τις τεχνικές, ενώ στην επόμενη υποενότητα γίνεται αναφορά σε μερικές από τις μετρικές που χρησιμοποιούνται για τον προσδιορισμό του σφάλματος.
9 Γραμμική Παλινδρόμηση Η πιο απλή μορφή της συνάρτησης παλινδρόμησης είναι η γραμμική συνάρτηση παλινδρόμησης, στην οποία η εξαρτημένη μεταβλητή είναι γραμμικός συνδυασμός των ανεξάρτητων μεταβλητών. Χρησιμοποιείται όταν η συσχέτιση μεταξύ εξαρτημένης και ανεξάρτητων μεταβλητών μπορεί να προσομοιωθεί από μία ευθεία γραμμή. Για κάθε παράδειγμα εισόδου η συνάρτηση γράφεται με τη μορφή εξίσωσης ως εξής: y = Χβ+ ε Το σφάλμα ε είναι μια τυχαία μεταβλητή με την ιδιότητα: μ=0. Συνήθως υποθέτουμε πως το διάνυσμα σφάλματος ε ακολουθεί κανονική κατανομή. Σκοπός είναι η εύρεση του διανύσματος άγνωστων παραμέτρων συσχέτισης β, η τιμή του καθενός αποτελεί έναν δείκτη της επίδρασης που έχει η συγκεκριμένη ανεξάρτητη μεταβλητή επάνω στην εξαρτημένη. Συχνά ως μέθοδος επίλυσης της γραμμικής παλινδρόμησης επιλέγεται η μέθοδος των ελαχίστων τετραγώνων (sum of squared residuals SSR). Στη μέθοδο αυτή, η τιμή του β που αναζητούμε είναι αυτή που ελαχιστοποιεί την ποσότητα: SSR = Σ y-xβ 2. Η τιμή αυτή, όταν το σφάλμα ε είναι τυχαίο, είναι σύμφωνα με το θεώρημα Gauss-Markov ο καλύτερος γραμμικός αμερόληπτος εκτιμητής (best linear unbiased estimator BLUE). Αυτός είναι και ο λόγος που η συγκεκριμένη μέθοδος είναι τόσο διαδεδομένη. Παρόλο που το αποτέλεσμα είναι ένα καθολικό μοντέλο που καλύπτει όλα τα παραδείγματα εισόδου, αυτή η μέθοδος δέχεται κριτική πως είναι υπεραπλουστευμένη διότι πραγματοποιεί προφανώς την υπόθεση της γραμμικότητας, ενώ ο υπολογισμός των παραμέτρων συσχέτισης είναι εφικτός και αξιόπιστος μόνο όταν ο αριθμός των παραδειγμάτων είναι κατά πολύ μεγαλύτερος από τον αριθμό των χαρακτηριστικών. Παλινδρόμηση Ridge (ridge regression) Όπως αναφέρθηκε προηγουμένως, η γραμμική παλινδρόμηση μπορεί και επιστρέφει αμερόληπτες εκτιμήσεις. Υπάρχουν όμως περιπτώσεις στις οποίες αυτοί οι αμερόληπτοι εκτιμητές δεν είναι οι πιο κατάλληλοι. Μία τέτοια περίπτωση αποτελεί όταν δύο ή περισσότερες ανεξάρτητες μεταβλητές εμφανίζουν ισχυρή συσχέτιση μεταξύ τους. Εξαιτίας αυτού του γεγονότος, οι εκτιμήσεις που υπολογίζει η μέθοδος των ελαχίστων τετραγώνων παρουσιάζουν υψηλές διακυμάνσεις. Η παλινδρόμηση Ridge (Hoerl και Kennard, 1970) αντιμετωπίζει αυτό το γεγονός με τη χρήση
10 εκτιμητών που δεν είναι πλέον αμερόληπτοι, έχουν όμως μικρότερη διακύμανση από τους εκτιμητές των ελαχίστων τετραγώνων. Βασίζεται στην συστηματοποίηση Tikhonov (Tikhonov, 1963). Συγκεκριμένα προσθέτουμε στον υπολογισμό των ελαχίστων τετραγώνων έναν επιπλέον πίνακα Γ, οποίος είναι συνήθως πολλαπλάσιος του μοναδιαίου πίνακα Ι, δηλαδή: Γ = λι. Η ποσότητα που θέλουμε να ελαχιστοποιήσουμε είναι η: Σ y-xβ 2 + Σ ΓΧ 2. Ο Γ δεν είναι απαραίτητος να είναι πολλαπλάσιος του Ι, αλλά αυτή είναι η απλούστερη περίπτωση. Η παλινδρόμηση Ridge υπολογίζει εκτιμητές που παρουσιάζουν μικρή διακύμανση, αυτό όμως έχει κόστος. Οι εκτιμήσεις δεν είναι πλέον αμερόληπτες, δηλαδή οι αναμενόμενη τιμή τους δεν είναι ίση με την πραγματική τους τιμή. Συνήθως τείνουν να υποεκτιμούν τις πραγματικές τιμές. Όμως εξαιτίας της μικρής διακύμανσης, που είναι τις περισσότερες φορές πολύ μικρότερη από τη διακύμανση του γραμμικού μοντέλου, το συνολικό μέσο τετραγωνικό σφάλμα είναι επίσης πολύ μικρότερο, πράγμα που δείχνει πως οι συγκεκριμένοι εκτιμητές έχουν καλύτερη συμπεριφορά. Νευρωνικά Δίκτυα Τα προβλήματα παλινδρόμησης μπορούν να επιλυθούν και με την εφαρμογή τεχνητών νευρωνικών δικτύων. Το βασικό δομικό στοιχείο στα νευρωνικά δίκτυα είναι ασφαλώς ο νευρώνας, ο οποίος δέχεται ως σήματα εισόδου συνεχείς μεταβλητές και παράγει την έξοδο, η οποία είναι μία αριθμητική τιμή. Η έξοδος εξαρτάται από το σώμα του τεχνητού νευρώνα, το οποίο αποτελείται από τον αθροιστή και μία συνάρτηση ενεργοποίησης. Ένα τεχνητό νευρωνικό δίκτυο στη γενική του μορφή αποτελείται από ένα σύνολο διαφορετικών επιπέδων νευρώνων. Συγκεκριμένα αποτελείται από ένα επίπεδο εισόδου (input layer) που περιέχει νευρώνες (input nodes) χωρίς συνάρτηση ενεργοποίησης οι οποίοι απλά προωθούν την είσοδο στο επόμενο επίπεδο, από ένα επίπεδο εξόδου (output layer) που αποτελείται από μονάδες εξόδου (output nodes) και μεταξύ αυτών ένα ή περισσότερα ενδιάμεσα (κρυφά) επίπεδα (hidden layers) που αποτελούνται από εσωτερικές (κρυφές) μονάδες (hidden nodes) οι οποίες δεν είναι ορατές αλλά αποτελούν εσωτερικό τμήμα του τεχνητού νευρωνικού δικτύου. Τα ενδιάμεσα επίπεδα είναι προαιρετικά, ενώ ο ακριβής αριθμός τους δεν είναι καθορισμένος αλλά αποτελεί θέμα πειραματισμού. Οι νευρώνες συνδέονται μεταξύ τους με κανάλια επικοινωνίας που μεταφέρουν κωδικοποιημένα τα αριθμητικά δεδομένα που δίνονται στην είσοδο (input layer) του συστήματος. Κάθε τεχνητός νευρώνας δέχεται εισόδους από νευρώνες με τους οποίους συνδέεται και υπολογίζει μια τιμή εξόδου σαν συνάρτηση των εισόδων του την οποία διοχετεύει σε επόμενους νευρώνες με τους οποίους και επικοινωνεί.
11 Εικόνα 2.1: Παράδειγμα τεχνητού νευρωνικού δικτύου. Για την εκπαίδευση του νευρωνικού δικτύου μπορεί να χρησιμοποιηθεί είτε μάθηση με επίβλεψη, είτε μάθηση χωρίς επίβλεψη, όπου το δίκτυο αυτό-οργανώνεται με βάση τα διανύσματα εισόδου. Στη μάθηση με επίβλεψη έχουμε τα δίκτυα πρόσθιας τροφοδότησης (feedforward), στα οποία η ροή πληροφορίας είναι προς μία κατεύθυνση και δεν υπάρχουν συνδέσεις από νευρώνες ενός επιπέδου προς νευρώνες προηγούμενου επιπέδου. Αντίθετα στη μάθηση χωρίς επίβλεψη συναντούμε τα δίκτυα με ανατροφοδότηση (feedback ή recurrent), στα οποία υπάρχουν συνδέσεις από νευρώνες ενός επιπέδου προς νευρώνες προηγούμενου επιπέδου ή/και νευρώνες του ίδιου επιπέδου και οι υπολογισμοί γίνονται σε δύο στάδια. Το πρώτο στάδιο είναι ίδιο με αυτό του δικτύου πρόσθιας τροφοδότησης; ενώ στο δεύτερο στάδιο γίνονται οι υπολογισμοί για τις συνδέσεις ανατροφοδότησης. H εκπαίδευση αναφέρεται στην εκμάθηση τόσο της δομής του νευρωνικού δικτύου όσο των βαρών (weights) σύνδεσης που αποθηκεύονται στους νευρώνες του δικτύου και μεταβάλλουν τα σήματα εισόδου. Μετά το τέλος της εκπαίδευσης του, το νευρωνικό δίκτυο μπορεί να γενικευτεί και να παράγει προβλέψεις για άγνωστα δεδομένα. Σύμφωνα με τους (Bailey και Thompson, 1990) τα νευρωνικά δίκτυα μπορούν να εφαρμοστούν όταν α. η εφαρμογή γίνεται σε δεδομένα που εξαρτώνται από πολλαπλές και αλληλοεξαρτώμενες παραμέτρους, β. υπάρχει επαρκής αριθμός δεδομένων ή παραδειγμάτων, γ. τα διαθέσιμα δεδομένα δεν είναι πλήρη, περιέχουν σφάλματα και περιγράφουν συγκεκριμένα παραδείγματα και δ. η σχέση που αποτελεί τη λύση στο πρόβλημα είναι ή άγνωστη ή ο προσδιορισμός της είναι επίπονος (απαιτεί χρόνο, έμπειρο προσωπικό, καταστροφή του πρωτογενούς υλικού που είναι η πηγή πληροφόρησης κλπ.). Τα πλεονεκτήματα τους είναι ότι αναδεικνύουν συσχετίσεις ανάμεσα στα δεδομένα ακόμη και όταν αυτές δεν είναι αντιληπτές με συνήθεις στατιστικές μεθόδους. Η δυνατότητα αυτό-οργάνωσης που τα χαρακτηρίζει επιτρέπει την χρήση μεγάλης ποσότητας
12 πληροφορίας στα δεδομένα εισαγωγής, αυξάνοντας έτσι την ακρίβεια των προβλέψεων. Επίσης σε σχέση με τη γραμμική παλινδρόμηση, έχουν το πλεονέκτημα της δυνατότητάς τους να μοντελοποιούν μη γραμμικά δεδομένα. Παλινδρόμηση Διανυσμάτων Υποστήριξης Η Παλινδρόμηση Διανυσμάτων Υποστήριξης (Support Vector Regression) βασίζεται στις γνωστές από τη ΜΜ Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines - SVM). Στα SVM το πρόβλημα έγκειται στην εύρεση της εξίσωσης που περιγράφει το υπερεπίπεδο μέγιστου περιθωρίου (maximum margin hyperplane), το οποίο διαχωρίζει τα θετικά από τα αρνητικά παραδείγματα. Προϋπόθεση είναι το πρόβλημα να είναι γραμμικά διαχωρίσιμο. Τα παραδείγματα με την μικρότερη απόσταση από το υπερεπίπεδο μέγιστου περιθωρίου είναι τα διανύσματα υποστήριξης (support vectors). Όσο περισσότερο απέχουν τα διανύσματα υποστήριξης που αναφέρονται στα θετικά παραδείγματα από αυτά που αναφέρονται στα αρνητικά, τόσο μεγαλύτερη επιτυχία έχει το μοντέλο στην ταξινόμηση παραδειγμάτων. Εικόνα 2.2: Το υπερεπίπεδο μέγιστου περιθωρίου. Σε ότι αφορά την παλινδρόμηση, η διαδικασία είναι παρόμοια. Βασική ιδέα είναι η εύρεση μιας συνάρτησης που προσεγγίζει τα παραδείγματα εκπαίδευσης μέσω της ελαχιστοποίησης του σφάλματος πρόβλεψης. Η διαφορά είναι πως το σύνολο των σημείων με απόσταση μεγαλύτερη από μία καθορισμένη από το χρήστη παράμετρο ε, αποβάλλονται. Τα διανύσματα υποστήριξης είναι όλα εκείνα τα σημεία που βρίσκονται κοντά στην επιφάνεια της συνάρτησης. Regression trees και model trees Τα δέντρα απόφασης της ΜΜ που χρησιμοποιούνται για την ταξινόμηση παραδειγμάτων σε
13 διακριτές κλάσεις μπορούν να χρησιμοποιηθούν με ορισμένες τροποποιήσεις και για την πρόβλεψη αριθμητικών τιμών. Τα καταληκτικά φύλλα, δηλαδή περιέχουν πλέον αριθμούς αντί για κατηγορίες/κλάσεις. Σε αυτήν την περίπτωση τα δέντρα ονομάζονται regression trees. Οι διαφορές των regression trees σε σχέση με τα δέντρα απόφασης είναι πως οι κόμβοι του δέντρου περιέχουν τώρα αριθμητική ποσότητα, η οποία αντιστοιχεί στη μέση τιμή όλων των παραδειγμάτων που καταλήγουν στα φύλλα που ακολουθούν και πως τα συμπεράσματα των κανόνων που προκύπτουν από το δέντρο αναφέρουν τη μέση τιμή των παραδειγμάτων στα οποία εφαρμόζεται ο κανόνας. Σε σχέση με τη γραμμική παλινδρόμηση το δέντρο παρέχει μεγαλύτερη ακρίβεια προβλέψεων. Ωστόσο παραμένει ογκώδες και δυσνόητο ενώ ορισμένες φορές πραγματοποιείται υπερμοντελοποίηση των δεδομένων. Εκτός από τα regression trees, υπάρχει και μία άλλη κατηγορία δέντρων που χρησιμοποιούνται για πρόβλεψη αριθμητικών τιμών, τα model trees. Τα model trees συνδυάζουν τα δέντρα απόφασης με τη γραμμική παλινδρόμηση. Τα φύλλα τους δεν περιέχουν αριθμητικές τιμές αλλά εξισώσεις γραμμικής παλινδρόμησης που χρησιμοποιούνται για να προβλέψουν την εξαρτημένη μεταβλητή των παραδειγμάτων που φτάνουν σε αυτά. Τα model trees υπερέχουν έναντι των regression trees τόσο σε ότι αφορά τη μορφή τους η οποία είναι συνήθως πιο συμπαγής, όσο και σε προβλεπτική ικανότητα, διότι εκμεταλλεύονται την τοπική γραμμικότητα που μπορεί να εμφανίζεται στα δεδομένα. Μία ακόμη διαφορά είναι πως τα regression trees δε θα προβλέψουν ποτέ μία τιμή εκτός του εύρους τιμών που συνάντησαν κατά την εκπαίδευση τους από τα δεδομένα. Αντίθετα, τα model trees μπορούν να επεκταθούν και εκτός του εύρους τιμών της εκπαίδευσης. Εικόνα 2.3: Παράδειγμα Regression Tree. Εικόνα 2.4: Παράδειγμα Model Tree.
14 2.4 Μετρικές Αξιολόγησης Παλινδρόμησης Στην προηγούμενη υποενότητα παρουσιάσαμε κάποιες βασικές μεθόδους που χρησιμοποιούμε για την επίλυση των προβλημάτων παλινδρόμησης. Σε αυτήν αναλύουμε τις κυριότερες μετρικές που εφαρμόζονται στην παλινδρόμηση και ουσιαστικά αποτιμούν και αξιολογούν το μοντέλο που έχει παραχθεί κατά τη διαδικασία της εκπαίδευσης με τις παραπάνω μεθόδους. Συνήθως ο έλεγχος ενός μοντέλου γίνεται με τον υπολογισμό και την εκτίμηση του σφάλματος πρόβλεψης ανάμεσα στην πραγματική τιμή εξόδου και την προβλεπόμενη τιμή εξόδου, το οποίο εξαρτάται άμεσα από τις παραμέτρους συσχέτισης μεταξύ των μεταβλητών που έχουν υπολογιστεί. Υπάρχουν πολλά στατιστικά μέτρα τα οποία είναι διαθέσιμα για την εκτίμηση της ποιότητας προσαρμογής των δεδομένων στα παραγόμενα μοντέλα. Παρακάτω αναφέρονται τα βασικότερα από αυτά, που έχουν και την πιο ευρεία περιοχή χρήσης. Για λόγους συμβολισμού ορίζουμε ως n τον αριθμό των παραδειγμάτων στο σύνολο ελέγχου, y την πραγματική τιμή εξόδου της εξαρτημένης μεταβλητής και p την προβλεπόμενη τιμή του μοντέλου για την εξαρτημένη μεταβλητή. Mean Squared Error (MSE) Το μέσο τετραγωνισμένο σφάλμα για ένα σύνολο δεδομένων είναι η μέση τιμή του τετραγώνου του σφάλματος πρόβλεψης σε όλα τα παραδείγματα του συνόλου δεδομένων: n 1 MSE ( y, p)= 1 ( y n i p i ) 2 i=0 Το MSE είναι ένα από τα πιο δημοφιλή μέτρα αξιολόγησης. Το καλύτερο αποτέλεσμα είναι το 0.0, ενώ οι μεγαλύτερες τιμές αποτελούν χειρότερα σκορ. Root Mean Squared Error (RMSE) MSE : Το μέσο τετραγωνικό σφάλμα είναι η ρίζα του αντίστοιχου μέσου τετραγωνισμένου σφάλματος n 1 RMSE ( y, p)= 1 ( y n i p i ) 2 i=0 Το πλεονέκτημα του RMSE είναι ότι βρίσκεται στην ίδια διάσταση με την προβλεπόμενη τιμή.
15 Το καλύτερο αποτέλεσμα είναι το 0.0, ενώ οι μεγαλύτερες τιμές αποτελούν χειρότερα σκορ. Mean Absolute Error (MAE) Το μέσο απόλυτο σφάλμα για ένα σύνολο δεδομένων είναι η μέση τιμή της απόλυτης τιμής του σφάλματος πρόβλεψης σε όλα τα παραδείγματα του συνόλου δεδομένων: n 1 MAE ( y, p)= 1 y n i p i i =0 Το ΜΑΕ είναι λιγότερο ευαίσθητο σε τιμές προς εξαίρεση (outliers) από τα MSE και RMSE, επηρεάζεται δηλαδή σε από μεγαλύτερα σφάλματα. Το καλύτερο αποτέλεσμα είναι το 0.0, ενώ οι μεγαλύτερες τιμές αποτελούν χειρότερα σκορ. Ο συντελεστής R 2 Ο συντελεστής R 2 αποτελεί ένα μέτρο της ακρίβειας πρόβλεψης των μελλοντικών παραδειγμάτων από το μοντέλο. R 2 ( y, p)=1 n 1 i=0 n 1 i =0 ( y i p i ) 2 1, όπου y= n 1 n ( y i y) 2 i =0 y i Το καλύτερο αποτέλεσμα είναι το 1.0, ενώ οι μικρότερες τιμές αποτελούν χειρότερα σκορ. Relative Squared Error (RSE), Root Relative Squared Error (RRSE) και Relative Absolute Error (RAE) Οι τρεις αυτές μετρικές αντιστοιχούν στη λογική των MSE, RMSE και MAE. Η πρώτη από τις τρεις μάλιστα είναι ίση με τον όρο του κλάσματος στο συντελεστή R 2. RSE ( y, p)= n 1 i =0 n 1 i =0 n 1 ( y i p i ) 2 ( y i p i ) i=0, RRSE( y, ( y i y) p)= 2, RAE( y, p)= n 1 2 ( y i y) 2 i=0 n 1 i=0 n 1 i=0 y i p i y i y, όπου
16 n 1 y= 1 n i =0 y i Αποτελούν τις τιμές σφάλματος σε σύγκριση με το σφάλμα που θα προέκυπτε αν κάθε πρόβλεψη ήταν ίση με τη μέση τιμή. Το καλύτερο αποτέλεσμα είναι το 0.0, ενώ οι μεγαλύτερες τιμές αποτελούν χειρότερα σκορ. Συντελεστής Συσχέτισης (Correlation Coefficient CC) Ο συντελεστής συσχέτισης αποτιμά τη συσχέτιση που υπάρχει μεταξύ των πραγματικών τιμών εξόδου και της προβλέψεων. n 1 CC ( y, p)= S ( p i p)( y i y) py i=0, όπου S S p S py = y n 1, S p = n 1 i =0 ( p i p) n 1, S y = n 1 i=0 ( y i y) n 1 Κυμαίνεται από 1 για απολύτως συσχετιζόμενα αποτελέσματα, μέχρι 0 όταν δεν υπάρχει καμία συσχέτιση και -1 όταν τα αποτελέσματα έχουν πλήρως αρνητική συσχέτιση. Ζητούμενο για τη συγκεκριμένη μετρική είναι η μεγιστοποίηση της τιμής της. 2.5 Ομάδες Μοντέλων Το ζητούμενο στη ΜΜ είναι η παραγωγή αντιπροσωπευτικών προβλέψεων που είναι όσο το δυνατόν πιο κοντά στην πραγματικότητα. Μία μέθοδος που μπορεί να βελτιώσει την προβλεπτική ικανότητα ενός συστήματος, είναι αντί να εκπαιδεύσουμε ένα μόνο μοντέλο, να εκπαιδεύσουμε μία ομάδα μοντέλων (ensemble), και να τα χρησιμοποιήσουμε όλα για την πρόβλεψη. Τα ensembles τα συναντούμε στη βιβλιογραφία και με τους όρους multiple classifier systems, committees of classifiers, classifier fusion, classifier combination και classifier aggregation (Džeroski et al., 2008). Η μέθοδος αυτή βασίζεται στην ιδέα πως και οι άνθρωποι, όταν βρίσκονται μπροστά στη λήψη μίας σημαντικής απόφασης συμβουλεύονται πολλές διαφορετικές πηγές. Έτσι και στη ΜΜ μπορούμε να συμβουλευτούμε μία πληθώρα μοντέλων που αφορούν το ίδιο πρόβλημα και να συνδυάσουμε τις αποφάσεις τους ώστε να παράγουμε ακριβέστερες προβλέψεις. Αυτό φυσικά δεν έρχεται δωρεάν χωρίς κόστος. Η εκπαίδευση μίας ομάδας μοντέλων και ο συνδυασμός των αποτελεσμάτων τους έχει μεγαλύτερο υπολογιστικό κόστος από την εκπαίδευση ενός μόνο μοντέλου. Επίσης τα ensembles έχουν πλεονεκτήματα σε σχέση με ένα απλό μοντέλο και σε ότι αφορά τα
17 άγνωστα δεδομένα. Ένα μοντέλο μπορεί να έχει μεγάλη ακρίβεια πρόβλεψης στα δεδομένα εκπαίδευσης, αλλά δεν υπάρχει καμιά εγγύηση ότι η πρόβλεψη σε άγνωστα για το μοντέλο δεδομένα θα εμφανίζει την ίδια ακρίβεια. Οπότε όταν εκπαιδεύουμε ένα μόνο μοντέλο μπορεί εύκολα να καταλήξουμε με ένα κακό μοντέλο (βέβαια με τις μετρικές αξιολόγησης μοντέλων, μπορούμε να ελαχιστοποιήσουμε αυτό το ρίσκο). Από την άλλη, όταν χρησιμοποιούμε ομάδες μοντέλων για την πρόβλεψη, το ρίσκο αυτό είναι μειωμένο. Ας αναφέρουμε όμως πιο συγκεκριμένα τι είναι τα ensembles. Ένα ensemble είναι ένα σύνολο μοντέλων, που εκπαιδεύονται με βάση έναν συγκεκριμένο αλγόριθμο. Η διαδικασία της δημιουργίας της ομάδας μοντέλων αποτελείται από δύο βήματα. Στο πρώτο πραγματοποιείται η εκπαίδευση κάθε μοντέλου που περιλαμβάνεται στην ομάδα μοντέλων. Μπορούμε να χρησιμοποιήσουμε για το καθένα είτε τον ίδιο αλγόριθμο, με ίδιες ή διαφορετικές ρυθμίσεις των παραμέτρων του, είτε διαφορετικό αλγόριθμο και να τα εκπαιδεύσουμε είτε παράλληλα είτε σε σειρά. Στο δεύτερο βήμα τα μοντέλα ή οι προβλέψεις τους πρέπει να συνδυαστούν για την παραγωγή ενός τελικού μοντέλου ή μίας τελικής πρόβλεψης. Υπάρχουν γενικά δύο προσεγγίσεις για το συνδυασμό των μοντέλων μέσα σε μία ομάδα μοντέλων: η επιλογή μοντέλου (model selection) και ο συνδυασμός όλων των μοντέλων (model fusion). Στην πρώτη περίπτωση, αξιολογούμε την ικανότητα πρόβλεψης των μοντέλων της ομάδας με βάση κάποιες μετρικές αξιολόγησης και χρησιμοποιούμε τις προβλέψεις μόνο του καλύτερου μοντέλου ως προβλέψεις όλης της ομάδας. Στην δεύτερη περίπτωση, λαμβάνονται υπόψη οι προβλέψεις όλων των μοντέλων για την πραγματοποίηση μιας πρόβλεψης από την ομάδα. Αυτό μπορεί να γίνει είτε παίρνοντας το μέσο όρο των προβλέψεων για προβλήματα παλινδρόμησης, είτε προβλέποντας ως έξοδο την κλάση που είχε τις περισσότερες ψήφους για προβλήματα ταξινόμησης, όπως περιγράφεται στο (Breiman, 1996) ή με πιο περίπλοκους υπολογισμούς (Ho et al., 1994; Kittler et al., 1998). Επιπλέον, για να είναι επιτυχημένη μία ομάδα μοντέλων, χρειάζεται τα μοντέλα που την αποτελούν να χαρακτηρίζονται από ποικιλομορφία. Ο συνδυασμός όμοιων μοντέλων, όχι μόνο δεν βελτιώνει την προβλεπτική ικανότητα του συστήματος, αλλά ίσα ίσα αυξάνει το υπολογιστικό κόστος του τελικού μοντέλου. Δύο μοντέλα είναι διαφορετικά όταν πραγματοποιούν διαφορετικά σφάλματα για νέα παραδείγματα. Αν αυτά συνδυαστούν με έναν έξυπνο τρόπο, μπορεί να παραχθεί ένα πιο ακριβές μοντέλο. Η ποικιλομορφία μπορεί να επιτευχθεί με διάφορους τρόπους. Για παράδειγμα, μπορούμε να τροποποιήσουμε το σύνολο εκπαίδευσης εισάγοντας βάρη στα παραδείγματα (Breiman, 1996; Freund και Schapire, 1996) ή αλλάζοντας τις τιμές κάποιων
18 χαρακτηριστικών των παραδειγμάτων (Breiman, 1999). Ένας άλλος τρόπος είναι και αυτός που αναφέρθηκε προηγουμένως, δηλαδή η τροποποίηση του αλγορίθμου, χρησιμοποιώντας διαφορετικούς αλγορίθμους για κάθε μοντέλο ή τον ίδιο αλγόριθμο με διαφορετικές παραμέτρους (Dietterich, 2000). Οι ομάδες μοντέλων μπορούν να χρησιμοποιηθούν και ως διαγνωστικό τεστ συμβατικών μοντέλων (Berk, 2006). Αυτό μπορεί να γίνει συγκρίνοντας την ποιότητα πρόβλεψης της καλύτερης ομάδας μοντέλων με αυτήν του στατιστικού μοντέλου. Όσο μεγαλύτερη είναι η διαφορά, τόσο περισσότερη πληροφορία λείπει από το μοντέλο. Έτσι μπορούν να αναδειχθούν ποια μοντέλα χρειάζονται ίσως τροποποίηση έτσι ώστε να περιγραφούν με καλύτερο τρόπο. Επίσης οι ομάδες μοντέλων μπορούν να χρησιμοποιηθούν για να διερευνήσουν την σχέση ανάμεσα στις εξαρτημένες και τις ανεξάρτητες μεταβλητές. Χαρακτηριστικά ή συναρτήσεις που παραβλέπονται στα συμβατικά μοντέλα, μπορούν να αναδειχθούν με τη μέθοδο των ομάδων. Αντίθετα τα χαρακτηριστικά που μπορεί να θεωρηθούν σημαντικά στο συμβατικό μοντέλο, μπορεί με τη μέθοδο των ομάδων να αποδειχθούν ασήμαντα. Αυτό δε σημαίνει απαραίτητα ότι η συγκεκριμένη μέθοδος είναι ανώτερη, μπορεί όμως η ανάλυση της αιτίας του γιατί διαφέρουν τα αποτελέσματα στις δύο μεθόδους να αποδειχθεί διαφωτιστική. Τα ensembles έχουν προσελκύσει το ενδιαφέρον της επιστημονικής κοινότητας της ΜΜ (Dietterich, 1997) επειδή συνήθως μπορούν να προβλέπουν αποτελέσματα με μεγαλύτερη ακρίβεια απ' ότι ένα απλό μοντέλο. Το γεγονός αυτό αποδεικνύεται και από εμπειρικές μελέτες (Dietterich, 2000; Breiman, 2001) που έχουν διεξαχθεί, τόσο σε προβλήματα ταξινόμησης όσο και παλινδρόμησης. Επιπλέον, έχουν προταθεί αρκετές θεωρητικές μελέτες που δικαιολογούν την αποτελεσματικότητα μερικών δημοφιλών μεθόδων ομάδων (Kittler et al., 1998; Schapire, 1999).
19 ΚΕΦΑΛΑΙΟ 3. ΠΑΛΙΝΔΡOΜΗΣΗ ΠΟΛΛΑΠΛΩΝ ΣΤΟΧΩΝ MULTI-TARGET REGRESSION 3.1 Περιγραφή Παλινδρόμησης Πολλαπλών Στόχων 3.2 Δημοφιλέστερες Μέθοδοι Στο παρακάτω κεφάλαιο αναλύεται η έννοια της παλινδρόμησης πολλαπλών στόχων, η οποία αποτελεί και το πεδίο που απευθύνεται ο αλγόριθμος που προτείνουμε σε επόμενη ενότητα. Περιγράφουμε τι είναι η παλινδρόμηση πολλαπλών στόχων με τυπικό τρόπο και αναφέρουμε τα προβλήματα στα οποία αυτή βρίσκει εφαρμογή. Τέλος γίνεται αναφορά σε δημοφιλείς τεχνικές και μεθόδους που επιχειρούν να αντιμετωπίσουν τέτοιου είδους προβλήματα. 3.1 Περιγραφή Παλινδρόμησης Πολλαπλών Στόχων Ήδη σε προηγούμενη ενότητα εξηγήσαμε τον όρο παλινδρόμηση, που είναι γνωστός τόσο από τη ΜΜ όσο και από τη Στατιστική. Αναφέρουμε και πάλι πως ως παλινδρόμηση (regression) ορίζεται η διαδικασία εκμάθησης ενός μοντέλου που προβλέπει μία αριθμητική μεταβλητή εξόδου (στόχος) από μία ή περισσότερες μεταβλητές εισόδου (χαρακτηριστικά). Η παλινδρόμηση πολλαπλών στόχων (multi-target regression - MTR) πραγματοποιεί την ίδια διαδικασία, μόνο που αυτήν τη φορά το μοντέλο προβλέπει περισσότερες της μίας μεταβλητές εξόδου από τα ίδια χαρακτηριστικά για κάθε παράδειγμα που του δίνεται ως είσοδος. Στη βιβλιογραφία μπορούμε να τη συναντήσουμε και με τις ονομασίες multi-output regression και multivariate regression. Στη συνέχεια θα περιγράψουμε τη διαδικασία του MTR με περισσότερο τυπικό τρόπο. Συμβολίζουμε με Χ και Υ δύο τυχαία διανύσματα, όπου το Χ αποτελείται από d μεταβλητές εισόδου X 1, X 2,..., X d και το Υ από m μεταβλητές εξόδου Υ 1, Υ 2,..., Υ m. Έστω ότι έχουν δημιουργηθεί παραδείγματα της μορφής (x, y) στο χώρο X Y σύμφωνα με μία κατανομή πιθανοτήτων Ρ(Χ, Υ), όπου X = R d και Y = R m αντίστοιχα είναι τα πεδία ορισμού των Χ και Υ. Στα παραδείγματα (x, y), το x=[x 1,..., x d ] είναι το διάνυσμα εισόδου και το y=[y 1,..., y m ]
20 είναι το διάνυσμα εξόδου, τα οποία είναι στιγμιότυπα των X και Υ αντίστοιχα. Για ένα σύνολο D={(x 1, y 1 ), (x 2, y 2 ),..., (x n, y n )} που αποτελείται από n παραδείγματα εκπαίδευσης, ο στόχος στο MTR είναι η εκμάθηση ενός μοντέλου h: X Y το οποίο όταν θα του δοθεί ένα διάνυσμα εισόδου x q, θα προβλέπει ένα διάνυσμα εξόδου ŷ q = h(x q ) που προσεγγίζει όσο το δυνατόν περισσότερο το πραγματικό διάνυσμα εξόδου y q. Το MTR μπορεί να βρει εφαρμογή σε δραστηριότητες όπως τη πρόβλεψη τιμών μετοχών, την πρόβλεψη της κατανομής των ειδών ή της δομής των κοινοτήτων (Demšar et al.,2006), όπου η πρόβλεψη αφορά το πλήθος των διαφορετικών ειδών που ζουν στο ίδιο περιβάλλον, την επεξεργασία φυσικής γλώσσας (Jeong και Lee, 2009), την βιοπληροφορική (Liu et al., 2010), τη φαρμακευτική (Bickel et al., 2008) κ.α.. 3.2 Δημοφιλέστερες μέθοδοι Οι μέθοδοι που χρησιμοποιούνται για την πρόβλεψη πολλαπλών στόχων είτε στην ταξινόμηση είτε στην παλινδρόμηση μπορούν να χωριστούν γενικά σε δύο κατηγορίες. Η πρώτη κατηγορία αφορά μεθόδους που κατασκευάζουν πολλαπλά μοντέλα, μετασχηματίζοντας το multi-target πρόβλημά σε ένα σύνολο από προβλήματα single-target, έτσι ώστε να εφαρμόσουν τους κλασικούς αλγόριθμους μάθησης που χρησιμοποιούνται και στην απλή παλινδρόμηση. Η δεύτερη κατηγορία αντίθετα αφορά την κατασκευή ενός μόνο μοντέλου που προβλέπει απευθείας όλες τις μεταβλητές στόχους και συνήθως περιλαμβάνει το μετασχηματισμό ενός γνωστού αλγορίθμου μάθησης ώστε να διαχειρίζεται τα παραδείγματα με πολλαπλές μεταβλητές εξόδου. Τα πλεονεκτήματα της δεύτερης κατηγορίας είναι πως παράγει μοντέλα που είναι πιο εύκολα ερμηνεύσιμα από το χρήστη, είναι μικρότερα σε μέγεθος από ένα σύνολο μοντέλων, υπάρχει μικρότερος κίνδυνος υπερμοντελοποίησης 1, ενώ εκτός από τις συσχετίσεις ανάμεσα στις μεταβλητές εισόδου και τις μεταβλητές εξόδου, μπορεί να εκμεταλλευτεί και συσχετίσεις μεταξύ των ίδιων των μεταβλητών εξόδου. Σε ότι αφορά το τελευταίο κομμάτι πρέπει να αναφερθεί πως εάν το σύνολο δεδομένων είναι μεγάλο, ο αριθμός των πιθανών συσχετίσεων αυξάνει εκθετικά, οπότε οι μέθοδοι αυτές είναι περισσότερο ακριβείς σε μικρά παρά σε μεγάλα σύνολα δεδομένων. Επίσης δεν υπάρχουν εγγυήσεις πως η κατασκευή ενός μοντέλου για όλο το πρόβλημα θα δίνει πάντα καλύτερες προβλέψεις, αλλά μπορεί, για μία συγκεκριμένη μεταβλητή στόχο, το μοντέλο 1 Υπερμοντελοποίηση: το φαινόμενο στο οποίο το μοντέλο της ΜΜ εμφανίζει υψηλή ακρίβεια στα δεδομένα εκπαίδευσης, αλλά όχι και σε άγνωστα δεδομένα που καλείται να προβλέψει στο μέλλον.
21 single-target που απευθύνεται σε αυτήν να είναι ακριβέστερο. Ακολουθούν μερικές δημοφιλείς τεχνικές που εφαρμόζονται στο πρόβλημα του Multi-Target Regression, οι οποίες είναι αντιπροσωπευτικές και των δύο κατηγοριών. Μόνο τα Multi-Target Rules και τα Multi-Target Decision Trees ανήκουν στη δεύτερη κατηγορία. Αυτό οφείλεται στο γεγονός πως ο μετασχηματισμός του προβλήματος σε single-target και στη συνέχεια η επίλυση του είναι συνήθως απλούστερος στην υλοποίηση του. Single Target method (ST) Στη μέθοδο Single Target το multi-target μοντέλο h αποτελείται από m single-target μοντέλα h j : X R, όπου η εκπαίδευση του καθενός γίνεται σε ένα μετασχηματισμένο σύνολο δεδομένων εκπαίδευσης D={(x 1, y 1 j), (x 2, y 2 j),..., (x n, y n j)} για την πρόβλεψη μίας μόνο μεταβλητής στόχου Y j. Με αυτόν τον τρόπο οι μεταβλητές στόχοι προβλέπονται ανεξάρτητα και οι πιθανές συσχετίσεις μεταξύ τους αγνοούνται. Ουσιαστικά πρόκειται για μία ομάδα μοντέλων (ensemble), που η τελική πρόβλεψη παράγεται με τη συγκέντρωση των προβλέψεων από τα m μοντέλα. Η μέθοδος αυτή όταν αφορά προβλήματα ταξινόμησης είναι γνωστή και ως Binary Relevance BM (Tsoumakas και Katakis, 2007; Godbole και Sarawagi, 2004). Η κριτική που δέχεται είναι ως προς το γεγονός της υπόθεσης ανεξαρτησίας. Η υπόθεση αυτή οδηγεί σε απώλεια πληροφορίας από τις πιθανές συσχετίσεις που μπορεί να υπήρχαν, με αποτέλεσμα να προβλέπονται στην έξοδο είτε πολύ λίγες, είτε πολλές ετικέτες, είτε ετικέτες που δεν μπορούν να συνυπάρξουν μαζί σε ένα πρόβλημα ταξινόμησης ή απλά λανθασμένες προβλέψεις σε ένα πρόβλημα παλινδρόμησης. Multi-Target Rules Μία επιπλέον μέθοδος είναι και αυτή της εκμάθησης κανόνων πολλαπλών στόχων (multi-target rules) (Ženko, 2007; Ženko και Džeroski, 2008). Η εκμάθηση κανόνων είναι χρήσιμη εφόσον αυτή η αναπαράσταση μοντέλου είναι και η πιο κατανοητή στον άνθρωπο. Εφαρμόζει τον κλασικό αλγόριθμο σειριακής κάλυψης (Michalski, 1969), και μαθαίνει διατεταγμένα ή μη διατεταγμένα σύνολα κανόνων, τόσο σε προβλήματα παλινδρόμησης όσο και σε προβλήματα ταξινόμησης. Η συγκεκριμένη μέθοδος δείχνει να τα πηγαίνει καλύτερα στην ταξινόμηση, όπου τα αποτελέσματα είναι σχετικά συγκρίσιμα με τις εναλλακτικές μεθόδους, ενώ στην παλινδρόμηση οι εναλλακτικές προσεγγίσεις είναι καλύτερες από τη μέθοδο των multi-target rules (Ženko, 2007).