4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές Σε αυτή την ενότητα θα παρουσιάσουμε μερικά παραδείγματα με βάσεις δεδομένων που έχουν μονοδιάστατη έξοδο και πολυδιάστατη είσοδο. Οι βάσεις δεδομένων προέρχονται από την ιστοσελίδα του UCI (University of California, Irvine) [18]. Διαβάθμιση Τιμών (Scaling) Σε αυτό το σημείο πρέπει να σημειώσουμε ότι οι μεταβλητές των παρακάτω μοντέλων διαφέρουν πολύ ως προς το εύρος των τιμών τους. Για να μην επικρατήσουν λοιπόν οι είσοδοι με μεγάλο εύρος τιμών έναντι των εισόδων με μικρό εύρος τιμών, θα πρέπει να διαβαθμίσουμε τα δεδομένα πριν τα εισάγουμε στο σύστημα. Η διαβάθμιση γίνεται συσχετίζοντας κάθε μεταβλητή με μία τυπική κανονική κατανομή. Όπως είναι γνωστό, η τυπική κανονική κατανομή 2 έχει τυπική απόκλιση 1 και μέση τιμή 0. Το 99.7% των τιμών της μεταβλητής που ακολουθεί τυπική κανονική κατανομή βρίσκονται στο διάστημα 3, 3 ή αλλιώς στο 3, 3 2, εφόσον 1. Σχήμα 4.25 Κανονική Κατανομή. Για την Τυπική Κανονική Κατανομή ισχύει: σ=1, μ=0. Το 99,7% των τιμών της μεταβλητής βρίσκεται στο [-3σ,+3σ] Οι βάσεις δεδομένων που θα επεξεργαστούμε είναι πίνακες των οποίων οι στήλες περιέχουν όλες τις τιμές της εκάστοτε μεταβλητής. Η πρώτη στήλη είναι πάντα η μεταβλητή εξόδου. Σύμφωνα με τα όσα είπαμε παραπάνω, θα μετασχηματίσουμε κάθε μεταβλητή ως εξής: Z X j j j (4.7) j 54
Όπου: X είναι η j μεταβλητή του πίνακα j Z j είναι η αντίστοιχη διαβαθμισμένη μεταβλητή που ακολουθεί Τυπική Κανονική Κατανομή. είναι η απόκλιση και η μέση τιμή της j μεταβλητής, j j Αφού υπολογίσουμε την εκτιμώμενη απόκριση Y των διαβαθμισμένων δεδομένων, την επαναφέρουμε στο εύρος τιμών της μεταβλητής εξόδου σύμφωνα με την παρακάτω σχέση: y Y (4.8) 1 1 Όπου 1, 1 είναι η απόκλιση και η μέση τιμή της εξόδου που είναι πάντα η 1 η στήλη του πίνακα. 5-Fold-Cross Validation Θα χρησιμοποιήσουμε επίσης τη μέθοδο του 5-Fold-Cross Validation για τον υπολογισμό του μοντέλου. Το σύνολο των δεδομένων θα χωριστεί σε 5 ομάδες (folds) ίσου μεγέθους και θα τρέξουμε τον αλγόριθμο παλινδρόμησης 5 φορές. Κάθε φορά μια διαφορετική ομάδα επιλέγεται ως σύνολο ελέγχου (testing set) ενώ όλες οι υπόλοιπες ομάδες χρησιμοποιούνται ως σύνολο εκπαίδευσης (training set). Η χρησιμότητα αυτής της μεθόδου έγκειται στο ότι αποτρέπει την ύπαρξη ακραίων περιπτώσεων στις οποίες το σύνολο εκπαίδευσης δεν είναι αντιπροσωπευτικό του συνόλου των δειγμάτων. Mean Absolute Error Ως συνάρτηση σφάλματος θα χρησιμοποιήσουμε το μέσο απόλυτο σφάλμα ΜΑΕ της σχέσης 4.2. Στους πίνακες που θα παραθέσουμε παρακάτω θα καταγράφεται η μέση τιμή και η τυπική απόκλιση αυτού του σφάλματος για τα διάφορα folds. 55
4.4.1 Auto-MPG Το σύγκεκριμένο σύνολο δεδομένων αναφέρεται στην κατανάλωση καυσίμου για αυτοκίνητα που έχουν διαφορετικά χαρακτηριστικά. Έχει 7 μεταβλητές εισόδου και μία μεταβλητή εξόδου. Έξοδος: Είσοδος: Κατανάλωση Καυσίμου (miles/gallon) Αριθμός Κυλίνδρων (διακριτή μεταβλητή) Μετατόπιση (συνεχής μεταβλητή) Ιπποδύναμη (συνεχής μεταβλητή) Βάρος Αυτοκινήτου (συνεχής μεταβλητή) Επιτάχυνση (συνεχής μεταβλητή) Έτος του Μοντέλου (Διακριτή Μεταβήτή) Προέλευση (Διακριτή Μεταβλητή) Συνολικά έχουμε 392 δεδομένα. Όπως αναφέρθηκε και παραπάνω, με 5-Fold- Cross Validation θα χωρίσουμε τα δεδομένα σε 5 ομάδες, από τις οποίες οι 4 θα συνθέτουν το σύνολο εκπαίδευσης, ενώ η μία που απομένει θα είναι το σύνολο ελέγχου. Ο αλγόριθμος παλινδρόμησης θα υπολογίσει 5 φορές την εκτιμώμενη απόκριση, με διαφορετικό σύνολο ελέγχου κάθε φορά. Σε κάθε περίπτωση πάντως, θα έχουμε 312 δεδομένα εκπαίδευσης και 80 δεδομένα ελέγχου. Το εύρος τιμών της μεταβλητής εξόδου είναι 9, 46.6 Θα επιλέξουμε το ακόλουθο σετ SVR-παραμέτρων:,, 1, 1, 0.3 Και θα εφαρμόσουμε τις συγκρινόμενες μεθόδους. Για τη προτεινόμενη μέθοδο θα έχουμε 2.5. Τα αποτελέσματα της προσομοίωσης φαίνονται στον πίνακα 4.4. Παρατηρείται ότι με FWSVR περιορίζουμε σημαντικά τα σφάλματα εκπαίδευσης και ελέγχου. Συγκεκριμένα, για C 7 έχουμε τη βέλτιστη απόδοση της προτεινόμενης μεθόδου. Αντίθετα, για τιμές του C μεγαλύτερες του 7 ο αλγόριθμος δεν αποδίδει καλά, καθώς τα τοπικά μοντέλα παλινδρόμησης εξειδικεύονται σε πολύ μικρές περιοχές του χώρου της εισόδου. Όλα αυτά παρουσιάζονται γραφικά στο σχήμα 4.26. 56
Πίνακας 4.4 Αποτελέσματα των μεθόδων Global SVR και FWSVR with fuzzy partition με {σ,γ,ε}={1,1,0.3} και η=2.5 για τα δεδομένα της βάσης Auto-MPG Μέθοδοι LRMs Εκπαίδευσης MAE ± STD Ελέγχου Συνολικός Χρόνος Υπολογισμού (sec) Global SVR 1.713 ± 0.026 2.105 ± 0.197 2.012 Fuzzy Weighted SVR Χρόνος Κατασκευής των LRMs (sec) 3 1.643 ± 0.046 1.966 ± 0.191 1.362 0.889 4 1.626 ± 0.043 1.953 ± 0.189 1.695 1.031 5 1.608 ± 0.042 1.891 ± 0.225 1.500 0.709 6 1.599 ± 0.068 1.960 ± 0.373 1.796 0.857 7 1.565 ± 0.049 1.899 ± 0.229 2.203 1.043 8 1.589 ± 0.065 1.942 ± 0.139 2.091 0.767 9 1.610 ± 0.021 1.915 ± 0.104 2.222 0.698 Σχήμα 4.26 Επίδραση του πλήθους των LRMs (μεταβλητή C) στη συνάρτηση σφάλματος ΜΑΕ εκπαίδευσης και ελέγχου. Δεδομένα από τον πίνακα 4.4 57
Όσον αφορά τον συνολικό χρόνο υπολογισμού, βλέπουμε ότι αυξάνεται καθώς αυξάνεται η C, ενώ ο χρόνος κατασκευής των LRMs παραμένει σχεδόν σταθερός. Επομένως οδηγούμαστε στο συμπέρασμα ότι μεγαλώνει ο χρόνος της σύνθεσης των αποκρίσεων των επιμέρους LRMs. Σχήμα 4.27 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο συνολικό χρόνο υπολογισμού. Δεδομένα από τον πίνακα 4.4. Σχήμα 4.28 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο χρόνο κατασκευής τους. Δεδομένα από τον πίνακα 4.4. 58
4.4.2 Concrete Compressive Strength Data Set Το συγκεκριμένο σύνολο δεδομένων επικεντρώνεται στην αντοχή θλίψης του σκυροδέματος. Έχει 8 μεταβλητές εισόδου και μία μεταβλητή εξόδου. Έξοδος: Είσοδος: Αντοχή Θλίψης Σκυροδέματος (MPascal) Οξείδωση Υψικάμινου (kg σε m 3 του μίγματος) Αιωρούμενη Τέφρα (kg σε m 3 του μίγματος) Νερό (kg σε m 3 του μίγματος) Υπερρευστοποιητής (kg σε m 3 του μίγματος) Χοντρό Πρόσμιγμα (kg σε m 3 του μίγματος) Λεπτό Πρόσμιγμα (kg σε m 3 του μίγματος) Ηλικία (μέρες) Ποσότητα Σκυροδέματος (kg σε m 3 του μίγματος) Υπάρχουν συνολικά 1031 δεδομένα, άρα με 5-Fold-Cross Validation θα έχουμε 825 δεδομένα εκπαίδευσης και 206 δεδομένα ελέγχου κάθε φορά. Σημειώνουμε επίσης ότι το εύρος τιμών της μεταβλητής εξόδου είναι το 2.332, 82.599 και 2.5 Επιλέγουμε,, 7, 10, 0.2 Πίνακας 4.5 Αποτελέσματα των μεθόδων Global SVR και FWSVR with fuzzy partition με {σ,γ,ε}={7, 10, 0.2} και η=2.5 για τα δεδομένα της βάσης Concrete Compressive Strength Μέθοδοι LRMs Εκπαίδευσης MAE ± STD Ελέγχου Συνολικός Χρόνος Υπολογισμού (sec) Χρόνος Κατασκευής των LRMs (sec) Global SVR - 5.587 ± 0.075 5.835 ± 0.293 5.236 - Fuzzy Weighted SVR 3 5.327 ± 0.067 5.558 ± 0.296 11.364 10.983 5 5.359 ± 0.068 5.562 ± 0.203 18.773 18.146 7 5.322 ± 0.070 5.600 ± 0.256 26.158 25.249 9 5.326 ± 0.081 5.568 ± 0.279 37.094 35.859 11 5.318 ± 0.083 5.591 ± 0.217 46.369 44.944 13 5.343 ± 0.093 5.508 ± 0.403 53.966 52.334 15 5.306 ± 0.029 5.546 ± 0.087 62.173 60.183 59
Από τα αποτελέσματα συμπεραίνουμε ότι η προτεινόμενη μέθοδος υπερτερεί ξεκάθαρα έναντι της Global SVR καθώς μπορεί να μειώσει την τιμή του σφάλματος ελέγχου. Αντίθετα, ο συνολικός χρόνος υπολογισμού και ο χρόνος κατασκευής των LRMs αυξάνονται σχεδόν γραμμικά σε σχέση με τη μεταβλητή C, όπως φαίνεται στα σχήματα 4.31 και 4.32. Σχήμα 4.29 Επίδραση του πλήθους των LRMs (μεταβλητή C) στη συνάρτηση σφάλματος ΜΑΕ εκπαίδευσης. Δεδομένα από τον πίνακα 4.5 Σχήμα 4.30 Επίδραση του πλήθους των LRMs (μεταβλητή C) στη συνάρτηση σφάλματος ΜΑΕ ελέγχου. Δεδομένα από τον πίνακα 4.5 60
Σχήμα 4.31 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο συνολικό χρόνο υπολογισμού. Δεδομένα από τον πίνακα 4.5 Σχήμα 4.32 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο χρόνο κατασκευής τους. Δεδομένα από τον πίνακα 4.5 61
4.4.3 Boston Housing Το Boston Housing περιέχει δεδομένα που αφορούν την αξία των κατοικιών στα προάστια της Βοστώνης και χρησιμοποιεί ως είσοδο 13 χαρακτηριστικά. Έξοδος: Μέση τιμή της αξίας των κατοικιών σε $1000 Είσοδος: Ποσοστό εγκληματικότητας του προαστίου Ποσοστό κατοικημένης γης (ζώνες των 25000 τ.μ.) Αναλογία επιχειρήσεων/έκτασης ανά πόλη Μεταβλητή ποταμού Charles (διακριτή: 1= ο ποταμός περνά μέσα από το προάστιο, 2= ο ποταμός δεν περνά από το προάστιο ) Συγκέντωση οξειδίων του αζώτου Μέσος αριθμός δωματίων ανά κατοικία Ποσοστό κτιρίων που κατοικούνται και είναι χτισμένα πριν το 1940 Αποστάση από τα κέντρα απασχόλησης της Βοστώνης Δείκτης προσβασιμότητας στους αυτοκινητόδρομους Πλήρης αξία ιδιοκτησίας Αναλογία μαθητών-καθηγητών ανά πόλη Ποσοστό έγχρωμων αφρικανικής καταγωγής ανά πόλη Ποσοστό κατώτερης κοινωνικής τάξης Και εδώ θα κάνουμε χρήση 5-Fold-Cross Validation. Επομένως, από το σύνολο των 506 δειγμάτων, σε καθεμιά από τις πέντε περιπτώσεις, θα έχουμε 404 δεδομένα εκπαίδευσης και 102 δεδομένα ελέγχου. Το εύρος τιμών της εξόδου είναι 0.00632, 88.9762 και 2.5 και παίρνουμε τα αποτελέσματα του πίνακα 4.6. Φαίνεται ξεκάθαρα ότι η προτεινόμενη μέθοδος περιορίζει κατά πολύ το σφάλμα ελέγχου, το οποίο παίρνει την μικρότερη τιμή του για C 4. Επιλέγουμε,, 0.4, Επίσης, ο συνολικός χρόνος υπολογισμού της FWSVR είναι πολύ μικρότερος σε σχέση με το χρόνο που απαιτεί η Global SVR για να τερματίσει. 62
Πίνακας 4.6 Αποτελέσματα των μεθόδων Global SVR και FWSVR with fuzzy partition με {σ,γ,ε}={0.4, 10, 0.03} και η=2.5 για τα δεδομένα της βάσης Boston Housing Μέθοδοι LRMs Εκπαίδευσης MAE ± STD Ελέγχου Συνολικός Χρόνος Υπολογισμού (sec) Χρόνος Κατασκευής των LRMs (sec) Global SVR - 0.258 ± 0.002 3.744 ± 0.576 4,000-3 0.233 ± 0.002 1.912 ± 0.772 0,597 0,380 Fuzzy Weighted SVR 4 0.233 ± 0.002 1.771 ± 0.403 0,712 0,432 5 0.228 ± 0.005 2.157 ± 0.872 1,134 0,755 6 0.234 ± 0.002 2.264 ± 0.431 0,926 0,468 7 0.233 ± 0.002 2.193 ± 0.714 1,133 0,575 Σχήμα 4.33 Επίδραση του πλήθους των LRMs (μεταβλητή C) στη συνάρτηση σφάλματος ΜΑΕ εκπαίδευσης. Δεδομένα από τον πίνακα 4.6. Ουσιαστικά μένει σχεδόν σταθερό και προσεγγίζει την τιμή 0.231 63
Σχήμα 4.34 Επίδραση του πλήθους των LRMs (μεταβλητή C) στη συνάρτηση σφάλματος ΜΑΕ ελέγχου. Δεδομένα από τον πίνακα 4.6 Σχήμα 4.35 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο συνολικό χρόνο υπολογισμού. Δεδομένα από τον πίνακα 4.6 64
Σχήμα 4.36 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο χρόνο κατασκεύης τους. Δεδομένα από τον πίνακα 4.6 65