4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές

Σχετικά έγγραφα
ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

ΚΕΦΑΛΑΙΟ 5. Matlab GUI για FWSVM και Global SVM

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Διαστήματα Εμπιστοσύνης

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΙΣΗ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

i Σύνολα w = = = i v v i=

Κεφάλαιο 5 Κριτήρια απόρριψης απόμακρων τιμών

Στατιστική, Άσκηση 2. (Κανονική κατανομή)

F x h F x f x h f x g x h g x h h h. lim lim lim f x

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017

Μ Ε Τ Ρ Α Δ Ι Α Σ Π Ο Ρ Α Σ.

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Στατιστική Ι. Ενότητα 8: Επαγωγική Στατιστική. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

1.2 Απλός Κινητός Μέσος (Simple -equally-weighted- Moving Average)

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ: ΣΤΑΤΙΣΤΙΚΗ ΕΝΟΤΗΤΑ: Πιθανότητες - Κατανομές ΟΝΟΜΑ ΚΑΘΗΓΗΤΗ: ΦΡ. ΚΟΥΤΕΛΙΕΡΗΣ ΤΜΗΜΑ: Τμήμα Διαχείρισης Περιβάλλοντος και Φυσικών

9. Παλινδρόμηση και Συσχέτιση

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Ονοματεπώνυμο: Επιμέλεια διαγωνίσματος: Αξιολόγηση :

Η ΘΕΩΡΙΑ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΣΥΝΑΡΤΗΣΕΙΣ ΓΝΗΣΙΩΣ ΑΥΞΟΥΣΑ ΣΥΝΑΡΤΗΣΗ ΓΝΗΣΙΩΣ ΦΘΙΝΟΥΣΑΣΥΝΑΡΤΗΣΗ ΤΟΠΙΚΟ ΜΕΓΙΣΤΟ ΤΟΠΙΚΟ ΕΛΑΧΙΣΤΟ

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

ΚΕΦΑΛΑΙΟ 6 ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΧΡΟΝΟΣΕΙΡΩΝ

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις στο μάθημα ΠΙΘΑΝΟΤΗΤΕΣ Ι

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΟΜΑΔΟΠΟΙΗΣΗ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

Εισόδημα Κατανάλωση

Υπερπροσαρμογή (Overfitting) (1)

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Ανάλυση διακύμανσης (Μονοδιάστατη) One-Way ANOVA

Γεώργιος Δ. Παλτεζανάκης

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Το Κεντρικό Οριακό Θεώρημα

Το Κεντρικό Οριακό Θεώρημα

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Τυχαία μεταβλητή (τ.μ.)

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Δειγματοληψία. Πρέπει να γνωρίζουμε πως πήραμε το δείγμα Το πλήθος n ij των παρατηρήσεων σε κάθε κελί είναι τ.μ. με μ ij συμβολίζουμε την μέση τιμή:

Στατιστικός έλεγχος υποθέσεων (Μέρος 2 ο ) 3/3/2017

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 3ο 2 + +


Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΕΛΕΓΧΟΣ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ. Επαγωγική στατιστική (Στατιστική Συμπερασματολογία) Εκτιμητική Έλεγχος Στατιστικών Υποθέσεων

Το Κεντρικό Οριακό Θεώρημα

( ) ΘΕΜΑ 1 κανονική κατανομή

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Εισαγωγή στην Ανάλυση Δεδομένων

ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ

Στατιστικός έλεγχος υποθέσεων (Μέρος 3 ο ) 10/3/2017

Θεωρητικές Κατανομές Πιθανότητας

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Η παρουσίαση που ακολουθεί, αφορά την κανονική κατανομή και σκοπό έχει τη διευκόλυνση των φοιτητών του τμήματος Ηλεκτρολόγων Μηχανικών & Μηχανικών

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ Γ' ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2006 ΕΚΦΩΝΗΣΕΙΣ

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

ΕΝΔΕΙΚΤΙΚΕΣ ΛΥΣΕΙΣ ΔΙΑΓΩΝΙΣΜΑΤΟΣ ΜΑΪΟΣ 2018 ΜΑΘΗΜΑΤΙΚΑ (ΑΛΓΕΒΡΑ) Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΕΠΑΛ

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

HMY 429: Εισαγωγή στην Επεξεργασία Ψηφιακών. Χρόνου (Ι)

Transcript:

4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές Σε αυτή την ενότητα θα παρουσιάσουμε μερικά παραδείγματα με βάσεις δεδομένων που έχουν μονοδιάστατη έξοδο και πολυδιάστατη είσοδο. Οι βάσεις δεδομένων προέρχονται από την ιστοσελίδα του UCI (University of California, Irvine) [18]. Διαβάθμιση Τιμών (Scaling) Σε αυτό το σημείο πρέπει να σημειώσουμε ότι οι μεταβλητές των παρακάτω μοντέλων διαφέρουν πολύ ως προς το εύρος των τιμών τους. Για να μην επικρατήσουν λοιπόν οι είσοδοι με μεγάλο εύρος τιμών έναντι των εισόδων με μικρό εύρος τιμών, θα πρέπει να διαβαθμίσουμε τα δεδομένα πριν τα εισάγουμε στο σύστημα. Η διαβάθμιση γίνεται συσχετίζοντας κάθε μεταβλητή με μία τυπική κανονική κατανομή. Όπως είναι γνωστό, η τυπική κανονική κατανομή 2 έχει τυπική απόκλιση 1 και μέση τιμή 0. Το 99.7% των τιμών της μεταβλητής που ακολουθεί τυπική κανονική κατανομή βρίσκονται στο διάστημα 3, 3 ή αλλιώς στο 3, 3 2, εφόσον 1. Σχήμα 4.25 Κανονική Κατανομή. Για την Τυπική Κανονική Κατανομή ισχύει: σ=1, μ=0. Το 99,7% των τιμών της μεταβλητής βρίσκεται στο [-3σ,+3σ] Οι βάσεις δεδομένων που θα επεξεργαστούμε είναι πίνακες των οποίων οι στήλες περιέχουν όλες τις τιμές της εκάστοτε μεταβλητής. Η πρώτη στήλη είναι πάντα η μεταβλητή εξόδου. Σύμφωνα με τα όσα είπαμε παραπάνω, θα μετασχηματίσουμε κάθε μεταβλητή ως εξής: Z X j j j (4.7) j 54

Όπου: X είναι η j μεταβλητή του πίνακα j Z j είναι η αντίστοιχη διαβαθμισμένη μεταβλητή που ακολουθεί Τυπική Κανονική Κατανομή. είναι η απόκλιση και η μέση τιμή της j μεταβλητής, j j Αφού υπολογίσουμε την εκτιμώμενη απόκριση Y των διαβαθμισμένων δεδομένων, την επαναφέρουμε στο εύρος τιμών της μεταβλητής εξόδου σύμφωνα με την παρακάτω σχέση: y Y (4.8) 1 1 Όπου 1, 1 είναι η απόκλιση και η μέση τιμή της εξόδου που είναι πάντα η 1 η στήλη του πίνακα. 5-Fold-Cross Validation Θα χρησιμοποιήσουμε επίσης τη μέθοδο του 5-Fold-Cross Validation για τον υπολογισμό του μοντέλου. Το σύνολο των δεδομένων θα χωριστεί σε 5 ομάδες (folds) ίσου μεγέθους και θα τρέξουμε τον αλγόριθμο παλινδρόμησης 5 φορές. Κάθε φορά μια διαφορετική ομάδα επιλέγεται ως σύνολο ελέγχου (testing set) ενώ όλες οι υπόλοιπες ομάδες χρησιμοποιούνται ως σύνολο εκπαίδευσης (training set). Η χρησιμότητα αυτής της μεθόδου έγκειται στο ότι αποτρέπει την ύπαρξη ακραίων περιπτώσεων στις οποίες το σύνολο εκπαίδευσης δεν είναι αντιπροσωπευτικό του συνόλου των δειγμάτων. Mean Absolute Error Ως συνάρτηση σφάλματος θα χρησιμοποιήσουμε το μέσο απόλυτο σφάλμα ΜΑΕ της σχέσης 4.2. Στους πίνακες που θα παραθέσουμε παρακάτω θα καταγράφεται η μέση τιμή και η τυπική απόκλιση αυτού του σφάλματος για τα διάφορα folds. 55

4.4.1 Auto-MPG Το σύγκεκριμένο σύνολο δεδομένων αναφέρεται στην κατανάλωση καυσίμου για αυτοκίνητα που έχουν διαφορετικά χαρακτηριστικά. Έχει 7 μεταβλητές εισόδου και μία μεταβλητή εξόδου. Έξοδος: Είσοδος: Κατανάλωση Καυσίμου (miles/gallon) Αριθμός Κυλίνδρων (διακριτή μεταβλητή) Μετατόπιση (συνεχής μεταβλητή) Ιπποδύναμη (συνεχής μεταβλητή) Βάρος Αυτοκινήτου (συνεχής μεταβλητή) Επιτάχυνση (συνεχής μεταβλητή) Έτος του Μοντέλου (Διακριτή Μεταβήτή) Προέλευση (Διακριτή Μεταβλητή) Συνολικά έχουμε 392 δεδομένα. Όπως αναφέρθηκε και παραπάνω, με 5-Fold- Cross Validation θα χωρίσουμε τα δεδομένα σε 5 ομάδες, από τις οποίες οι 4 θα συνθέτουν το σύνολο εκπαίδευσης, ενώ η μία που απομένει θα είναι το σύνολο ελέγχου. Ο αλγόριθμος παλινδρόμησης θα υπολογίσει 5 φορές την εκτιμώμενη απόκριση, με διαφορετικό σύνολο ελέγχου κάθε φορά. Σε κάθε περίπτωση πάντως, θα έχουμε 312 δεδομένα εκπαίδευσης και 80 δεδομένα ελέγχου. Το εύρος τιμών της μεταβλητής εξόδου είναι 9, 46.6 Θα επιλέξουμε το ακόλουθο σετ SVR-παραμέτρων:,, 1, 1, 0.3 Και θα εφαρμόσουμε τις συγκρινόμενες μεθόδους. Για τη προτεινόμενη μέθοδο θα έχουμε 2.5. Τα αποτελέσματα της προσομοίωσης φαίνονται στον πίνακα 4.4. Παρατηρείται ότι με FWSVR περιορίζουμε σημαντικά τα σφάλματα εκπαίδευσης και ελέγχου. Συγκεκριμένα, για C 7 έχουμε τη βέλτιστη απόδοση της προτεινόμενης μεθόδου. Αντίθετα, για τιμές του C μεγαλύτερες του 7 ο αλγόριθμος δεν αποδίδει καλά, καθώς τα τοπικά μοντέλα παλινδρόμησης εξειδικεύονται σε πολύ μικρές περιοχές του χώρου της εισόδου. Όλα αυτά παρουσιάζονται γραφικά στο σχήμα 4.26. 56

Πίνακας 4.4 Αποτελέσματα των μεθόδων Global SVR και FWSVR with fuzzy partition με {σ,γ,ε}={1,1,0.3} και η=2.5 για τα δεδομένα της βάσης Auto-MPG Μέθοδοι LRMs Εκπαίδευσης MAE ± STD Ελέγχου Συνολικός Χρόνος Υπολογισμού (sec) Global SVR 1.713 ± 0.026 2.105 ± 0.197 2.012 Fuzzy Weighted SVR Χρόνος Κατασκευής των LRMs (sec) 3 1.643 ± 0.046 1.966 ± 0.191 1.362 0.889 4 1.626 ± 0.043 1.953 ± 0.189 1.695 1.031 5 1.608 ± 0.042 1.891 ± 0.225 1.500 0.709 6 1.599 ± 0.068 1.960 ± 0.373 1.796 0.857 7 1.565 ± 0.049 1.899 ± 0.229 2.203 1.043 8 1.589 ± 0.065 1.942 ± 0.139 2.091 0.767 9 1.610 ± 0.021 1.915 ± 0.104 2.222 0.698 Σχήμα 4.26 Επίδραση του πλήθους των LRMs (μεταβλητή C) στη συνάρτηση σφάλματος ΜΑΕ εκπαίδευσης και ελέγχου. Δεδομένα από τον πίνακα 4.4 57

Όσον αφορά τον συνολικό χρόνο υπολογισμού, βλέπουμε ότι αυξάνεται καθώς αυξάνεται η C, ενώ ο χρόνος κατασκευής των LRMs παραμένει σχεδόν σταθερός. Επομένως οδηγούμαστε στο συμπέρασμα ότι μεγαλώνει ο χρόνος της σύνθεσης των αποκρίσεων των επιμέρους LRMs. Σχήμα 4.27 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο συνολικό χρόνο υπολογισμού. Δεδομένα από τον πίνακα 4.4. Σχήμα 4.28 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο χρόνο κατασκευής τους. Δεδομένα από τον πίνακα 4.4. 58

4.4.2 Concrete Compressive Strength Data Set Το συγκεκριμένο σύνολο δεδομένων επικεντρώνεται στην αντοχή θλίψης του σκυροδέματος. Έχει 8 μεταβλητές εισόδου και μία μεταβλητή εξόδου. Έξοδος: Είσοδος: Αντοχή Θλίψης Σκυροδέματος (MPascal) Οξείδωση Υψικάμινου (kg σε m 3 του μίγματος) Αιωρούμενη Τέφρα (kg σε m 3 του μίγματος) Νερό (kg σε m 3 του μίγματος) Υπερρευστοποιητής (kg σε m 3 του μίγματος) Χοντρό Πρόσμιγμα (kg σε m 3 του μίγματος) Λεπτό Πρόσμιγμα (kg σε m 3 του μίγματος) Ηλικία (μέρες) Ποσότητα Σκυροδέματος (kg σε m 3 του μίγματος) Υπάρχουν συνολικά 1031 δεδομένα, άρα με 5-Fold-Cross Validation θα έχουμε 825 δεδομένα εκπαίδευσης και 206 δεδομένα ελέγχου κάθε φορά. Σημειώνουμε επίσης ότι το εύρος τιμών της μεταβλητής εξόδου είναι το 2.332, 82.599 και 2.5 Επιλέγουμε,, 7, 10, 0.2 Πίνακας 4.5 Αποτελέσματα των μεθόδων Global SVR και FWSVR with fuzzy partition με {σ,γ,ε}={7, 10, 0.2} και η=2.5 για τα δεδομένα της βάσης Concrete Compressive Strength Μέθοδοι LRMs Εκπαίδευσης MAE ± STD Ελέγχου Συνολικός Χρόνος Υπολογισμού (sec) Χρόνος Κατασκευής των LRMs (sec) Global SVR - 5.587 ± 0.075 5.835 ± 0.293 5.236 - Fuzzy Weighted SVR 3 5.327 ± 0.067 5.558 ± 0.296 11.364 10.983 5 5.359 ± 0.068 5.562 ± 0.203 18.773 18.146 7 5.322 ± 0.070 5.600 ± 0.256 26.158 25.249 9 5.326 ± 0.081 5.568 ± 0.279 37.094 35.859 11 5.318 ± 0.083 5.591 ± 0.217 46.369 44.944 13 5.343 ± 0.093 5.508 ± 0.403 53.966 52.334 15 5.306 ± 0.029 5.546 ± 0.087 62.173 60.183 59

Από τα αποτελέσματα συμπεραίνουμε ότι η προτεινόμενη μέθοδος υπερτερεί ξεκάθαρα έναντι της Global SVR καθώς μπορεί να μειώσει την τιμή του σφάλματος ελέγχου. Αντίθετα, ο συνολικός χρόνος υπολογισμού και ο χρόνος κατασκευής των LRMs αυξάνονται σχεδόν γραμμικά σε σχέση με τη μεταβλητή C, όπως φαίνεται στα σχήματα 4.31 και 4.32. Σχήμα 4.29 Επίδραση του πλήθους των LRMs (μεταβλητή C) στη συνάρτηση σφάλματος ΜΑΕ εκπαίδευσης. Δεδομένα από τον πίνακα 4.5 Σχήμα 4.30 Επίδραση του πλήθους των LRMs (μεταβλητή C) στη συνάρτηση σφάλματος ΜΑΕ ελέγχου. Δεδομένα από τον πίνακα 4.5 60

Σχήμα 4.31 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο συνολικό χρόνο υπολογισμού. Δεδομένα από τον πίνακα 4.5 Σχήμα 4.32 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο χρόνο κατασκευής τους. Δεδομένα από τον πίνακα 4.5 61

4.4.3 Boston Housing Το Boston Housing περιέχει δεδομένα που αφορούν την αξία των κατοικιών στα προάστια της Βοστώνης και χρησιμοποιεί ως είσοδο 13 χαρακτηριστικά. Έξοδος: Μέση τιμή της αξίας των κατοικιών σε $1000 Είσοδος: Ποσοστό εγκληματικότητας του προαστίου Ποσοστό κατοικημένης γης (ζώνες των 25000 τ.μ.) Αναλογία επιχειρήσεων/έκτασης ανά πόλη Μεταβλητή ποταμού Charles (διακριτή: 1= ο ποταμός περνά μέσα από το προάστιο, 2= ο ποταμός δεν περνά από το προάστιο ) Συγκέντωση οξειδίων του αζώτου Μέσος αριθμός δωματίων ανά κατοικία Ποσοστό κτιρίων που κατοικούνται και είναι χτισμένα πριν το 1940 Αποστάση από τα κέντρα απασχόλησης της Βοστώνης Δείκτης προσβασιμότητας στους αυτοκινητόδρομους Πλήρης αξία ιδιοκτησίας Αναλογία μαθητών-καθηγητών ανά πόλη Ποσοστό έγχρωμων αφρικανικής καταγωγής ανά πόλη Ποσοστό κατώτερης κοινωνικής τάξης Και εδώ θα κάνουμε χρήση 5-Fold-Cross Validation. Επομένως, από το σύνολο των 506 δειγμάτων, σε καθεμιά από τις πέντε περιπτώσεις, θα έχουμε 404 δεδομένα εκπαίδευσης και 102 δεδομένα ελέγχου. Το εύρος τιμών της εξόδου είναι 0.00632, 88.9762 και 2.5 και παίρνουμε τα αποτελέσματα του πίνακα 4.6. Φαίνεται ξεκάθαρα ότι η προτεινόμενη μέθοδος περιορίζει κατά πολύ το σφάλμα ελέγχου, το οποίο παίρνει την μικρότερη τιμή του για C 4. Επιλέγουμε,, 0.4, Επίσης, ο συνολικός χρόνος υπολογισμού της FWSVR είναι πολύ μικρότερος σε σχέση με το χρόνο που απαιτεί η Global SVR για να τερματίσει. 62

Πίνακας 4.6 Αποτελέσματα των μεθόδων Global SVR και FWSVR with fuzzy partition με {σ,γ,ε}={0.4, 10, 0.03} και η=2.5 για τα δεδομένα της βάσης Boston Housing Μέθοδοι LRMs Εκπαίδευσης MAE ± STD Ελέγχου Συνολικός Χρόνος Υπολογισμού (sec) Χρόνος Κατασκευής των LRMs (sec) Global SVR - 0.258 ± 0.002 3.744 ± 0.576 4,000-3 0.233 ± 0.002 1.912 ± 0.772 0,597 0,380 Fuzzy Weighted SVR 4 0.233 ± 0.002 1.771 ± 0.403 0,712 0,432 5 0.228 ± 0.005 2.157 ± 0.872 1,134 0,755 6 0.234 ± 0.002 2.264 ± 0.431 0,926 0,468 7 0.233 ± 0.002 2.193 ± 0.714 1,133 0,575 Σχήμα 4.33 Επίδραση του πλήθους των LRMs (μεταβλητή C) στη συνάρτηση σφάλματος ΜΑΕ εκπαίδευσης. Δεδομένα από τον πίνακα 4.6. Ουσιαστικά μένει σχεδόν σταθερό και προσεγγίζει την τιμή 0.231 63

Σχήμα 4.34 Επίδραση του πλήθους των LRMs (μεταβλητή C) στη συνάρτηση σφάλματος ΜΑΕ ελέγχου. Δεδομένα από τον πίνακα 4.6 Σχήμα 4.35 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο συνολικό χρόνο υπολογισμού. Δεδομένα από τον πίνακα 4.6 64

Σχήμα 4.36 Επίδραση του πλήθους των LRMs (μεταβλητή C) στο χρόνο κατασκεύης τους. Δεδομένα από τον πίνακα 4.6 65