Διερεύνηση περιβαλλοντικών χρονοσειρών με τεχνικές υπολογιστικής νοημοσύνης

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Διερεύνηση περιβαλλοντικών χρονοσειρών με τεχνικές υπολογιστικής νοημοσύνης"

Transcript

1 Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης-Τμήμα Φυσικής Π.Μ.Σ. Υπολογιστικής Φυσικής Διερεύνηση περιβαλλοντικών χρονοσειρών με τεχνικές υπολογιστικής νοημοσύνης Σταμούλης Καλτσάτος Επιβλέπων Κωνσταντίνος Δ. Καρατζάς Επίκουρος Καθηγητής Α.Π.Θ. Θεσσαλονίκη 27

2 Περιεχόμενα 1. Εισαγωγή Δίκτυο μετρήσεων ποιότητας αέρα στην Θεσσαλονίκη Περιοδογράμματα Εισαγωγή Μετασχηματισμός Fourier-Περιοδογράμματα Εφαρμογή σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Σταθμός Α.Π.Θ Σταθμός Σίνδου Σταθμός Κορδελιού Συμπεράσματα Principal Component Analysis (PCA) Εισαγωγή Μεθοδολογία Εφαρμογή της μεθόδου PCA σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Σταθμός Α.Π.Θ Σταθμός Καλαμαριάς Σταθμός Σίνδου Σταθμός Κορδελιού Συμπεράσματα Παλινδρόμηση Εισαγωγή Γραμμική Παλινδρόμηση Σύγκριση μοντέλων-ανάλυση μεταβλητότητας (ANOVA) Πολλαπλή παλινδρόμηση Μοντέλα παλινδρόμησης για την Θεσσαλονίκη Σταθμός Α.Π.Θ Σταθμός Καλαμαριάς Σταθμός Σίνδου Σταθμός Κορδελιού Συμπεράσματα Τεχνητά Νευρωνικά Δίκτυα (ΤΝΔ) Εισαγωγή Δομές νευρωνικών δικτύων Εκπαίδευση ενός τεχνητού νευρωνικού δικτύου Νευρωνικά δίκτυα ενός επιπέδου (perceptrons) Νευρωνικά δίκτυα πολλών επιπέδων με προς τα εμπρός τροφοδότηση σήματος (Multi-layer feed-forward networks) Εφαρμογή των ΤΝΔ σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Σταθμός Α.Π.Θ Σταθμός Καλαμαριάς Σταθμός Σίνδου Σταθμός Κορδελιού Συμπεράσματα Δέντρα αποφάσεων Εισαγωγή

3 7.2. Εφαρμογή των δέντρων αποφάσεων σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Σταθμός Α.Π.Θ Σταθμός Καλαμαριάς Σταθμός Σίνδου Σταθμός Κορδελιού Συμπεράσματα Επίλογος Παράρτημα Α: Δείκτες αξιολόγησης της επίδοσης των μοντέλων Παράρτημα Β: Η μέθοδος Bayesian Principal Component Analysis (BPCA) Παράρτημα Γ: Επιλογή της δομής των ΤΝΔ Βιβλιογραφία

4 1. Εισαγωγή Το όζον (Ο 3 ) αποτελεί στοιχείο της ατμόσφαιρας, ανώτερης και κατώτερης. Ενώ στην πρώτη περίπτωση λειτουργεί προστατευτικά για τον άνθρωπο, φιλτράροντας της ηλιακή ακτινοβολία, στην δεύτερη αποτελεί ρύπο. Ο σχηματισμός του Ο 3 στην ατμόσφαιρα οφείλεται κυρίως στις φωτοχημικές αντιδράσεις μεταξύ ρύπων (οξείδια του αζώτου και υδρογονάνθρακες) και επηρεάζεται από τις μετεωρολογικές συνθήκες (θερμοκρασία, υγρασία, ταχύτητα και διεύθυνση ανέμου), ενώ η ηλιακή ακτινοβολία παίζει τον ρόλο του καταλύτη. Οι υψηλές συγκεντρώσεις όζοντος (Ο 3 ) αποτελούν κίνδυνο για την υγεία αλλά και για το περιβάλλον (χλωρίδα και πανίδα). Μετά από σχετικές νομοθετικές πρωτοβουλίες της Ευρωπαϊκής Ένωσης, όπως η οδηγία - πλαίσιο 96/62 σχετικά με την διαχείριση ποιότητας αέρα, η ανάγκη παρακολούθησης των επιπέδων των συγκεντρώσεων Ο 3 στην ατμόσφαιρα (αλλά και άλλων ρύπων), έχει γίνει επιτακτική, έτσι ώστε να υπάρχει η δυνατότητα προειδοποίησης του κοινού και κυρίως των ευπαθών ομάδων του πληθυσμού όπως οι ηλικιωμένοι, τα παιδιά και όσοι αντιμετωπίζουν αναπνευστικά προβλήματα. Για τον λόγο αυτό έχουν δημιουργηθεί σταθμοί παρακολούθησης ατμοσφαιρικής ρύπανσης σε διάφορα σημεία μεγάλων πόλεων, οι οποίοι παρακολουθούν και καταγράφουν τις ημερήσιες συγκεντρώσεις ρύπων όπως π.χ. όζον, οξείδια του αζώτου, αιωρούμενα σωματίδια κ.α.. Σκοπός της παρούσας εργασίας είναι να παρουσιάσει και να εφαρμόσει μεθόδους υπολογιστικής νοημοσύνης, με τις οποίες μπορούμε να μελετήσουμε χρονοσειρές συγκεντρώσεων Ο 3 και να προχωρήσουμε στην μοντελοποίηση του σχηματισμού του Ο 3 με σκοπό να μπορούμε προβούμε σε προβλέψεις. Η κατασκευή των μοντέλων αφορά σταθμούς παρακολούθησης αέρα οι οποίοι είναι τοποθετημένοι σε διάφορα σημεία της πόλης της Θεσσαλονίκης (Αριστοτέλειο Πανεπιστήμιο, Καλαμαριά, Σίνδος, Κορδελιό). Σημειώνεται ότι η πόλη της Θεσσαλονίκης είναι η δεύτερη μεγαλύτερη πόλη της Ελλάδας και μία από τις μεγαλύτερες των Βαλκανίων, όπου ο σχηματισμός και η μεταφορά των ρύπων στην ατμόσφαιρα επηρεάζονται άμεσα από τις μετεωρολογικές συνθήκες και τα τοπογραφικά χαρακτηριστικά της πόλης. Αρχικά, με την βοήθεια των περιοδογραμμάτων, εξετάστηκε κάθε μία από τις μεταβλητές με σκοπό την αναγνώριση περιοδικοτήτων που μπορεί να παρουσιάζουν. Κατόπιν, έπρεπε να διερευνηθεί η εξάρτηση του Ο 3 από τις μετεωρολογικές συνθήκες αλλά και από τη συγκέντρωση άλλων ρύπων. Η διερεύνηση αυτή έγινε με την εφαρμογή της μεθόδου Principal Component Analysis, μίας μεθόδου ανάλυσης πολυδιάστατων δεδομένων, η οποία μπορεί να μας βοηθήσει στην αναγνώριση των παραγόντων που ευνοούν τον σχηματισμό του υπό εξέταση ρύπου. Τα αποτελέσματα της μεθόδου υπέδειξαν την συγκέντρωση ΝΟ 2, την θερμοκρασία και την υγρασία ως τους σημαντικότερους παράγοντες που επηρεάζουν τα επίπεδα των συγκεντρώσεων Ο 3 στην ατμόσφαιρα. Για την πρόβλεψη των συγκεντρώσεων Ο 3 χρησιμοποιήθηκαν μέθοδοι υπολογιστικής νοημοσύνης περιβαλλοντικής πληροφορικής, που περιλαμβάνουν τόσο κλασικές στατιστικές μεθόδους (γραμμική παλινδρόμηση), όσο και μεθόδους τεχνητής νοημοσύνης όπως αυτή των 4

5 τεχνητών νευρωνικών δικτύων και των δέντρων αποφάσεων. Η εφαρμογή μεθόδων τεχνητής νοημοσύνης (Τ.Ν.) στα θέματα ποιότητας αέρα έχει προσελκύσει το ενδιαφέρον της επιστημονικής κοινότητας και αυτό οφείλεται κυρίως στο ότι η σχέση μεταξύ ρύπων και μετεωρολογικών παραγόντων είναι μη γραμμική, γεγονός που καθιστά την επίδοση των «κλασικών» στατιστικών μεθόδων χαμηλότερη από αυτή των μεθόδων Τ.Ν., όπως φαίνεται και από τα αποτελέσματα της παρούσας εργασίας. Η μέθοδος της γραμμικής παλινδρόμησης έκανε χρήση των αποτελεσμάτων της ανάλυσης μέσω PCA και κατέληξε σε γραμμικές σχέσεις, που παρέχουν ικανοποιητική πρόγνωση του ρύπου ενδιαφέροντος (Ο 3 ). Τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ) τα οποία αναπτύχθηκαν κάνουν χρήση του «αισθητήρα πολλών επιπέδων» (multi-layer perceptron), που έχει βρεθεί ότι είναι και η καταλληλότερη επιλογή για το πρόβλημα της μοντελοποίησης και πρόβλεψης της ποιότητας αέρα από παρόμοιες εργασίες στο συγκεκριμένο θέμα. Τα δέντρα αποφάσεων τα οποία αναπτύχθηκαν βασίστηκαν στην αρχή του «κέρδους πληροφορίας» (information gain) και διαχώρισαν-κατηγοριοποίησαν τα δεδομένα σε περιοχές τιμών, με υψηλή επιτυχία. Τα αποτελέσματα των μεθόδων, τα οποία παρουσιάζονται στα αντίστοιχα κεφάλαια, ήταν αρκετά ικανοποιητικά. Παρόλα αυτά και κυρίως στα μοντέλα γραμμικής παλινδρόμησης, παρουσιάστηκε η αδυναμία πρόβλεψης ημερών επεισοδίων, πρόβλημα το οποίο ξεπεράστηκε σε μικρό βαθμό με την εφαρμογή των νευρωνικών δικτύων λόγω της ικανότητας τους να εκφράζουν μη γραμμικές σχέσεις. Σε αντίθεση με τα μοντέλα γραμμικής παλινδρόμησης και τα μοντέλα νευρωνικών δικτύων τα οποία χρησιμοποιήθηκαν για πρόβλεψη των ωριαίων συγκεντρώσεων, η εφαρμογή των δέντρων αποφάσεων έγινε με σκοπό την κατηγοριοποίηση (classification) των αποτελεσμάτων σε επίπεδα συγκεντρώσεων (πολύ χαμηλό, χαμηλό, μέτριο, υψηλό) ανάλογα με τις τιμές της συγκέντρωσης του ρύπου. Τα αποτελέσματα ήταν αρκετά ικανοποιητικά με ένα μεγάλο ποσοστό ορθών κατηγοριοποιήσεων, παρόλα αυτά όμως παρουσιάστηκε και πάλι η αδυναμία στην πρόβλεψη των υψηλών συγκεντρώσεων. Συνολικά η παρούσα εργασία διερεύνησε, εφάρμοσε και αποτίμησε μεθόδους υπολογιστικής νοημοσύνης σε σχέση με την δυνατότητα τους να μοντελοποιήσουν μη γραμμικά φαινόμενα όπως αυτά που λαμβάνουν χώρα εντός της ατμόσφαιρας, και την δυνατότητα τους να προβλέψουν τις αριθμητικές τιμές παραμέτρων ενδιαφέροντος. Σημειώνεται στη βάση των εδώ παρουσιαζομένων αποτελεσμάτων, ότι έχει ήδη προκύψει μία εργασία η οποία έχει γίνει αποδεκτή σε διεθνές επιστημονικό συνέδριο, και έχουν επίσης υποβληθεί άλλες δύο σε ένα συνέδριο και ένα επιστημονικό περιοδικό αντίστοιχα. 5

6 2. Δίκτυο μετρήσεων ποιότητας αέρα στην Θεσσαλονίκη Στην παρούσα εργασία θα αναλυθούν δεδομένα (ωριαίες συγκεντρώσεις ρύπων και μετεωρολογικών παραμέτρων) όπως αυτά μετρήθηκαν και καταγράφηκαν από το δίκτυο παρακολούθησης ποιότητας αέρα της Θεσσαλονίκης το οποίο λειτουργεί η Περιφέρεια Κεντρικής Μακεδονίας (Π.Κ.Μ.), ( Το δίκτυο αποτελείται από σταθμούς μέτρησης τοποθετημένους σε ενδεικτικά σημεία της πόλης όπως φαίνεται και στο Σχήμα 2.1 που ακολουθεί. Για τους σκοπούς της εργασίας θα χρησιμοποιηθούν δεδομένα των σταθμών: Α.Π.Θ., Καλαμαριάς, Σίνδου και Ελ. Κορδελιού και για τις χρονικές περιόδους για τους σταθμούς Α.Π.Θ., Σίνδου και Ελ. Κορδελιού, ενώ για τον σταθμό της Καλαμαριάς χρησιμοποιήθηκαν δεδομένα από την χρονική περίοδο Κωδικός Σ1 Σ2 Σ3 Σ4 Σ5 Σ6 Σ7 Σ8 Σταθμός ΤΕΙ Σίνδου Νεοχωρούδα Ελ.Κορδελιό Πλ. Δημοκρατίας Πλ. Αγ. Σοφίας ΑΠΘ Πανόραμα Καλαμαριά Σχήμα 2.1: Το δίκτυο των σταθμών μέτρησης της αέριας ρύπανσης της Περιφέρειας Κεντρικής Μακεδονίας. 6

7 3. Περιοδογράμματα 3.1 Εισαγωγή Στο κεφάλαιο αυτό παρουσιάζονται τα περιοδογράμματα των χρονοσειρών που έγιναν διαθέσιμες από τους σταθμούς παρακολούθησης ποιότητας αέρα της πόλης της Θεσσαλονίκης. Ως χρονοσειρά ορίζεται μία ακολουθία (σειρά) διανυσμάτων τιμών, συνεχών ή διακριτών μεγεθών, που διατάσσονται με τον χρόνο (Chatfield C., 1995). Παραδείγματος χάριν η χρονοσειρά μεταβολής της συγκέντρωσης Ο 3, όπως μετρήθηκε στον σταθμό του Α.Π.Θ. το έτος 23 έχει την μορφή του παρακάτω σχήματος. 25 ΟΖΟΝ - ΑΠΘ 23 2 Συγκέντρωση (μg/m 3 ) /1/23 1/2/23 1/3/23 1/4/23 1/5/23 1/6/23 1/7/23 1/8/23 1/9/23 1/1/23 1/11/23 1/12/23 Σχήμα 3.1. Τυπική μορφή χρονοσειράς ετήσιας διάρκειας για την ωριαία συγκέντρωση Ο 3 Ένα από τα βασικότερα ερωτήματα που προκύπτουν κατά την ανάλυση μίας χρονοσειράς είναι το αν παρουσιάζει μία περιοδικότητα με τον χρόνο και αν μπορούμε να εξάγουμε κάποια μοτίβα (patterns) από αυτή. Μία μέθοδος ανάλυσης χρονοσειρών είναι ο μετασχηματισμός Fourier, βάσει της οποίας είναι δυνατή η διερεύνηση της ύπαρξης περιοδικοτήτων. 3.2 Μετασχηματισμός Fourier Περιοδογράμματα Ο μετασχηματισμός Fourier αναλύει μία συνάρτηση σε άθροισμα τριγωνομετρικών συναρτήσεων. Μία υποκατηγορία του μετασχηματισμού Fourier είναι o διακριτός μετασχηματισμός Fourier ο οποίος πραγματοποιείται με χρήση του αλγόριθμου FFT. Για μία δεδομένη χρονοσειρά η οποία αποτελείται από Ν στοιχεία ο FFT μας δίνει ένα Ν διάστατο διάνυσμα με βάση την σχέση 7

8 ( k )( n ) π ( k )( n ) N 1 2π xn ( ) = ak ( )cos + bk ( )sin N k = 1 N N Όσον αφορά το ερώτημα για το ποιες συχνότητες είναι σημαντικές για την υπό μελέτη χρονοσειρά εισάγεται η χρήση των περιοδογραμμάτων. Τα περιοδογράμματα ορίστηκαν το 1898 από τον Schuster (Mandic D.) σαν μια μέθοδος με την οποία μπορούμε να ανακαλύψουμε τις «κρυμμένες» αρμονικές συναρτήσεις σε μία συνάρτηση. Το περιοδόγραμμα εξετάζει όλες τις δυνατές συχνότητες και ποσοτικοποιεί την σπουδαιότητα της καθεμίας για την χρονοσειρά που μελετάμε. Εφαρμόζοντας τον FFT σε μία χρονοσειρά παίρνουμε σαν αποτέλεσμα την συνάρτηση Υ. Το μέγεθος του τετραγώνου του Υ ονομάζεται ισχύς (συμβολίζεται και ως r 2 ) και το διάγραμμα της ισχύος ως προς την συχνότητα αποτελεί το περιοδόγραμμα. Τα σημεία εμφάνισης μεγίστων στο σχετικό διάγραμμα αποτελούν ένδειξη περιοδικότητας Εφαρμογή σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Σταθμός Α.Π.Θ. Ο υπολογισμός των περιοδογραμμάτων έγινε με την βοήθεια του λογισμικού MATLAB ( το οποίο παρέχει βιβλιοθήκη έτοιμων σχετικών συναρτήσεων. Στη βάση αυτού το περιοδόγραμμα για την ωριαία συγκέντρωση Ο 3,όπως αυτή μετρήθηκε στον σταθμό του Α.Π.Θ. κατά την περίοδο 21-25, έχει την μορφή που αποδίδεται στο Σχήμα 3.2 8

9 1 x 111 Periodogram power cycles/hour Σχήμα 3.2: Περιοδόγραμμα Ο 3 Α.Π.Θ Η υψηλότερη κορυφή του περιοδογράμματος αντιστοιχεί σε.1141 κύκλους ανά ώρα δηλαδή σε μία περιοδικότητα περίπου 8764 ωρών οι οποίες αντιστοιχούν περίπου σε ένα έτος. Η δεύτερη υψηλότερη κορυφή αντιστοιχεί σε.4167 κύκλους ανά ώρα ή σε μία επανάληψη ανά 24 ώρες. Αμφότερα τα αποτελέσματα επιβεβαιώνουν την βασική περιοδικότητα του υπό μελέτη ρύπου (ετήσιος αλλά και ημερήσιος κύκλος). Για την θερμοκρασία κατά το ίδιο χρονικό διάστημα όπως φαίνεται και στο Σχήμα 3.3, προκύπτουν.1141 κύκλοι ανά ώρα δηλαδή έχουμε μία περιοδικότητα 365 περίπου ημερών, γεγονός αναμενόμενο. 9

10 1 x 11 Periodogram power cycles/hour Σχήμα 3.3: Περιοδόγραμμα θερμοκρασίας Α.Π.Θ Ακολούθως υπολογίζεται το περιοδόγραμμα για τις ωριαίες συγκεντρώσεις ΝΟ 2 (Σχήμα 3.4) από όπου και προκύπτει μία βασική περιοδικότητα 12 ωρών γεγονός που δύναται να ερμηνευθεί ως ένδειξη ανθρωπογενούς επίδρασης στα επίπεδα αυτού του ρύπου (φάση λειτουργίας και φάση ανάπαυσης εντός της πόλης). 1

11 2 x 11 Periodogram power cycles/hour Σχήμα 3.4: Περιοδόγραμμα ΝΟ 2 Α.Π.Θ Σταθμός Σίνδου Ακολούθως παρουσιάζονται τα περιοδογράμματα ορισμένων από τις μετρήσεις του σταθμού παρακολούθησης ποιότητας αέρα της περιοχής της Σίνδου. 11

12 6 x 111 Periodogram 5 4 power cycles/hour Σχήμα 3.5: Περιοδόγραμμα Ο 3 Σίνδος Στο Σχήμα 3.5 παρουσιάζεται το περιοδόγραμμα της ωριαίας συγκέντρωσης Ο 3. Η πρώτη και υψηλότερη κορυφή αντιστοιχεί σε.1141 κύκλους ανά ώρα δηλαδή σε μία επανάληψη ανά ένα περίπου έτος. Η δεύτερη υψηλότερη κορυφή αντιστοιχεί σε.4167 κύκλους ανά ώρα δηλαδή σε μία επανάληψη ανά μία ημέρα, αποτελέσματα όμοια με αυτά του Α.Π.Θ.. Παρουσιάζεται επίσης το περιοδόγραμμα μεταβολής της υγρασίας (Σχήμα 3.6) για την περίοδο

13 3 x 111 Periodogram power cycles/hour Σχήμα 3.6: Περιοδόγραμμα υγρασίας Σίνδος Η υψηλότερη τιμή αντιστοιχεί σε περιοδικότητα 1.2 ετών. κύκλους ανά ώρα, δηλαδή σε Στο Σχήμα 3.7 που ακολουθεί παρουσιάζεται το περιοδόγραμμα της ταχύτητας του ανέμου. Προκύπτουν.4167 κύκλοι ανά ώρα οι οποίοι αντιστοιχούν σε μία περιοδικότητα 24 περίπου ωρών. 13

14 1 x 18 Periodogram power cycles/hour Σχήμα 3.7: Περιοδόγραμμα ταχύτητας ανέμου Σίνδος Σταθμός Κορδελιού Για τον σταθμό του Κορδελιού με την ίδια διαδικασία που ακολουθήθηκε παραπάνω παρουσιάζεται το περιοδόγραμμα για την μεταβολή της συγκέντρωσης Ο 3 (Σχήμα 3.8) για την περίοδο Από το περιοδόγραμμα παρατηρούμε ότι η υψηλότερη κορυφή του διαγράμματος αντιστοιχεί σε.4167 κύκλους ανά ώρα δηλαδή σε μία περιοδικότητα της τάξης της μίας ημέρας. 14

15 x 1 1 Periodogram power cycles/hour Σχήμα 3.8: Περιοδόγραμμα Ο 3 Κορδελιό x 11 Periodogram power cycles/hour Σχήμα 3.9: Περιοδόγραμμα θερμοκρασίας Κορδελιό

16 Στο Σχήμα 3.9 παρουσιάζεται το περιοδόγραμμα της μεταβολής της θερμοκρασίας για την περίοδο Από το διάγραμμα προκύπτει ότι έχουμε.1138 κύκλους ανά ώρα δηλαδή ότι έχουμε μία περιοδικότητα 366 περίπου ημερών (ετήσια). 3.4 Συμπεράσματα Με την βοήθεια των περιοδογραμμάτων επιχειρήθηκε η εύρεση των περιοδικοτήτων στις χρονοσειρές των ωριαίων συγκεντρώσεων των περιβαλλοντικών ρύπων όσο και σε αυτές των μετεωρολογικών παραμέτρων. Για το Ο 3 και για όλους τους σταθμούς παρακολούθησης ποιότητας αέρα, επιβεβαιώθηκε η βασική περιοδικότητα ανά έτος και ημέρα που θα έπρεπε να παρουσιάζει ο ρύπος. Η περιοδικότητα ανά 12 ώρες που εμφανίστηκε από τα περιοδογράμματα των ωριαίων συγκεντρώσεων ΝΟ 2 είναι ενδεικτική της επίδρασης των ανθρωπίνων δραστηριοτήτων στα επίπεδα αυτού του ρύπου. Η υγρασία και η θερμοκρασία παρουσίασαν ισχυρή περιοδικότητα ανά έτος ενώ η ισχυρότερη περιοδικότητα που παρουσίασε η ωριαία ταχύτητα του ανέμου ήταν ανά μία ημέρα. 16

17 4. Principal Component Analysis (PCA) 4.1 Εισαγωγή Ένα από τα τυπικά προβλήματα της ανάλυσης δεδομένων είναι η πολυδιάστατη φύση τους, γεγονός που καθιστά δύσκολη την μελέτη τους και την εύρεση μοτίβων σε αυτά. H μέθοδος ανάλυσης πρωτευόντων όρων (PCA) είναι μία μέθοδος που χρησιμοποιείται για την απλοποίηση ενός πολυδιάστατου σετ δεδομένων, με στόχο α) την μείωση των διαστάσεων του και άρα την συμπίεση του σετ, β) τον εντοπισμό των «κυρίαρχων» παραμέτρων που χαρακτηρίζουν το σύνολο των εξεταζόμενων δεδομένων. Το αποτέλεσμα της μεθόδου είναι ένα νέο σετ μεταβλητών, τα principal components (PC s), τα οποία είναι ασυσχέτιστα μεταξύ τους και στην ουσία αποτελούν έναν γραμμικό συνδυασμό των αρχικών δεδομένων. Επίσης κάθε ένα από αυτά είναι ορθογώνια μεταξύ τους ώστε να μην υπάρχουν περιττές πληροφορίες στον νέο πίνακα δεδομένων. Κρατώντας μόνο τα PC s που ερμηνεύουν το μεγαλύτερο ποσοστό της μεταβλητότητας του αρχικού σετ δεδομένων, επιτυγχάνουμε την μείωση των διαστάσεων γεγονός που καθιστά πιο εύκολη την ανάλυση και επεξεργασία του αρχικού σετ δεδομένων. 4.2 Μεθοδολογία Για μια καλύτερη εποπτεία της μεθόδου θα παρουσιαστούν ένα προς ένα τα βήματα για την εφαρμογή της σε ένα πίνακα δεδομένων δύο διαστάσεων για να διατηρείται και το πλεονέκτημα της γραφικής απεικόνισης. Για μια αναλυτικότερη εισαγωγή στην μέθοδο PCA υπάρχουν αρκετές εργασίες στις οποίες μπορεί να ανατρέξει κανείς (I.T. Jolliffe: Principal Component Analysis, Springer 22, Lindsay I. Smith: A tutorial on Principal Component Analysis). Βήμα 1: Συγκέντρωση δεδομένων Από τον σταθμό μετρήσεων του ΑΠΘ για το έτος 21, λαμβάνεται ενδεικτικά ένα δείγμα μετρήσεων για το Ο 3 και την θερμοκρασία. Βήμα 2: Αφαίρεση της μέσης τιμής Κάθε στήλη του πίνακα των δεδομένων μας αντιστοιχεί σε μετρήσεις του ίδιου μεγέθους. Ένα κύριο σημείο για την εφαρμογή της PCA είναι να αφαιρεθεί από κάθε στήλη των δεδομένων μας, η μέση της τιμή. Έτσι το αποτέλεσμά μας θα είναι ένα σετ δεδομένων με μηδενική μέση τιμή. Βήμα 3: Υπολογισμός του πίνακα συνδιασποράς ή συμμεταβλητότητας Η διασπορά ή μεταβλητότητα μίας μεταβλητής X αποτελεί ένα μέτρο της απόκλισης της από την μέση τιμή X και ορίζεται από την σχέση (1) 17

18 s = n 2 i= 1 ( X ) 2 i X n 1 (1) Αντίστοιχα αν έχουμε δύο μεταβλητές X και Y (δύο διαστάσεις) τότε μπορούμε να δούμε με την χρήση του μεγέθους της συνδιασποράς ή συμμεταβλητότητας το πώς καθεμία από αυτές μεταβάλλεται σε σχέση με την άλλη. Ο υπολογισμός της γίνεται με χρήση της σχέσης (2) cov( XY, ) = n i= 1 ( X X)( Y Y) i ( n 1) i (2) Βήμα 4: Υπολογισμός των ιδιοτιμών και ιδιοδιανυσμάτων του πίνακα συμμεταβλητότητας Δεδομένου ενός τετραγωνικού πίνακα Α διαστάσεων (n x n) αν υπάρχουν μη μηδενικά διανύσματα x τέτοια ώστε Ax = λx (3), όπου λ ένα βαθμωτό μέγεθος, τότε το λ καλείται ιδιοτιμή του πίνακα Α ενώ το x το αντίστοιχο ιδιοδιάνυσμα του. Στο βήμα αυτό απαιτείται ο υπολογισμός των ιδιοτιμών και των ιδιοδιανυσμάτων του πίνακα συμμεταβλητότητας. Βήμα 5: Επιλογή του πρωτεύοντος διανύσματος Το ιδιοδιάνυσμα που περιγράφει καλύτερα τα δεδομένα μας είναι και αυτό στο οποίο αντιστοιχεί η μεγαλύτερη ιδιοτιμή. Το ιδιοδιάνυσμα αυτό αποτελεί και το principal component του σετ των δεδομένων. Γενικά αφού στην PCA υπολογιστούν τα ιδιοδιανύσματα τότε αυτά κατατάσσονται κατά φθίνουσα ιδιοτιμή. Έτσι δίνεται η δυνατότητα να απορριφθούν τα λιγότερο σημαντικά ιδιοδιανύσματα. Στην συνέχεια, με τα ιδιοδιανύσματα τα οποία αποφασίστηκε ότι είναι και τα σημαντικότερα, σχηματίζεται ένας πίνακας διανυσμάτων ο οποίος ονομάζεται Feature Vector και έχει την μορφή FeatureVector = ( eig1, eig2,..., eig n ) Βήμα 5: Κατασκευή του νέου πίνακα δεδομένων Στο τελευταίο στάδιο αυτό στάδιο της μεθόδου, ο ανάστροφος πίνακας των ιδιοδιανυσμάτων, πολλαπλασιάζεται αριστερά από τον ανάστροφο πίνακα των δεδομένων μας. Αν δηλαδή Α είναι ο πίνακας των δεδομένων, Β ο πίνακας των ιδιοδιανυσμάτων και Χ ο πίνακας με τα μετασχηματισμένα τελικά δεδομένα τότε X = T T B A 18

19 Με τον τρόπο αυτό τα αρχικά δεδομένα μετασχηματίζονται σε ένα νέο σύστημα αξόνων, αυτό των κάθετων μεταξύ τους ιδιοδιανυσμάτων του πίνακα συνδιασποράς. 4.3 Εφαρμογή της μεθόδου PCA σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Με βάση τα όσα αναφέρθηκαν παραπάνω, θα εφαρμοστεί η μέθοδος σε πίνακες μετρήσεων ρύπων και μετεωρολογικών παραμέτρων από σταθμούς μέτρησης ποιότητας αέρα της Θεσσαλονίκης. Η εφαρμογή της PCA λόγω της πολυπλοκότητας των πράξεων για πολύ μεγάλους πίνακες έγινε με χρήση του πακέτου λογισμικού MATLAB ( Σταθμός Α.Π.Θ. Εφαρμόσθηκε η PCA για τα δεδομένα του σταθμού του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης για την περίοδο Ο πίνακας των δεδομένων αποτελείται από μετρήσεις για το Ο 3, ΝΟ 2, θερμοκρασία (temp), υγρασία (hum), ταχύτητα ανέμου (ws), διεύθυνση ανέμου (wd). Η παράμετρος της διεύθυνσης ανέμου λόγω της κυκλικής της φύσης μετασχηματίζεται σε δύο νέες γραμμικές παραμέτρους (sinwd, coswd) με βάση τους παρακάτω μετασχηματισμούς: v1= sin(2 π ( v min( v))/(max( v) min( v))) v2 = cos(2 π ( v min( v)) /(max( v) min( v))) Τα αποτελέσματα της μεθόδου καθώς και ο πίνακας συμμεταβλητότητας παρουσιάζονται αμέσως παρακάτω Πίνακας 4.1: Πίνακας συμμεταβλητότητας Α.Π.Θ NO 2 O 3 Temp Hum WS SinWD CosWD NO O Temp Hum WS SinWD CosWD Πίνακας 4.2: Αποτελέσματα PCA Α.Π.Θ PC1 PC2 PC3 PC4 PC5 PC6 PC7 NO O Temp Hum WS SinWD CosWD

20 %Var Cumulative %Var Ένα από τα πιο απλά και ευρέως χρησιμοποιούμενα κριτήρια επιλογής των πρωτευόντων PC είναι αυτό της συμμετοχής τους στην συνολική μεταβλητότητα των μετασχηματισμένων δεδομένων (που προκύπτουν από το Βήμα 5 της μεθοδολογίας). Έτσι τα PCs τοποθετούνται ιεραρχικά και επιλέγονται αυτά που αθροίζουν μεταβλητότητα τουλάχιστον 9%. Τα δύο πρώτα Principal Components ερμηνεύουν το 92,6% της μεταβλητότητας των δεδομένων συνολικά και άρα «περιέχουν» το μεγαλύτερο ποσοστό πληροφορίας. Η χρήση τους είναι επαρκής για μία ικανοποιητική αναπαράσταση των δεδομένων. Το PC1 συνδέει το ΝΟ 2 με το Ο 3 και την υγρασία ενώ το PC2 το ΝΟ 2 και το Ο 3 (αυτές οι παράμετροι συμμετέχουν στα αντίστοιχα PC με το μεγαλύτερο απόλυτο μέτρο) Σταθμός Καλαμαριάς Ακριβώς όπως και στην περίπτωση του σταθμού του Α.Π.Θ. η PCA εφαρμόστηκε στα δεδομένα του σταθμού της περιοχής της Καλαμαριάς για την χρονική περίοδο Πίνακας 4.3: Πίνακας συμμεταβλητότητας Καλαμαριά NO 2 O 3 Temp Hum WS SinWD CosWD NO O Temp Hum WS SinWD CosWD Πίνακας 4.4: Αποτελέσματα PCA Καλαμαριά PC1 PC2 PC3 PC4 PC5 PC6 PC7 NO O Temp Hum WS SinWD CosWD %Var Cumulative %Var Τα τρία πρώτα principal components ερμηνεύουν συνολικά το 97.75% της μεταβλητότητας. Όπως φαίνεται και από του συντελεστές του καθενός το PC1 2

21 συνδέει το ΝΟ 2 με το Ο 3 και την υγρασία, το PC2 το ΝΟ 2 με το Ο 3 και την υγρασία πάλι ενώ το PC3 το Ο 3 με την υγρασία Σταθμός Σίνδου Παρουσιάζονται τα αποτελέσματα του σταθμού της Σίνδου για τα έτη μετά από την εφαρμογή της PCA. Πίνακας 4.5: Πίνακας συμμεταβλητότητας Σίνδος NO 2 O 3 Temp Hum WS SinWD CosWD NO O Temp Hum WS SinWD CosWD Πίνακας 4.6: Αποτελέσματα PCA Σίνδος PC1 PC2 PC3 PC4 PC5 PC6 PC7 NO O Temp Hum WS SinWD CosWD %Var Cumulative %Var Τα δύο πρώτα principal components εκφράζουν το 92% της συνολικής διακύμανσης. Το πρώτο (PC1) συνδέει τα ΝΟ 2, Ο 3, θερμοκρασία και υγρασία. Το δεύτερο (PC2) συνδέει τα ΝΟ 2, Ο 3 και υγρασία Σταθμός Κορδελιού Για τον σταθμό του Κορδελιού και την περίοδο η PCA έδωσε τα αποτελέσματα του παρακάτω πίνακα. Πίνακας 4.7: Πίνακας συμμεταβλητότητας Κορδελιό NO 2 O 3 Temp Hum WS SinWD CosWD NO O Temp Hum

22 WS SinWD CosWD Πίνακας 4.8: Αποτελέσματα PCA Κορδελιό PC1 PC2 PC3 PC4 PC5 PC6 PC7 NO O Temp Hum WS SinWD CosWD %Var Cumulative %Var Τα δύο πρώτα PC s εκφράζουν το 91,3% της διακύμανσης με το πρώτο να συνδέει τα ΝΟ 2 και Ο 3 ενώ το δεύτερο το ΝΟ 2 με την υγρασία. 4.4 Συμπεράσματα Εφαρμόστηκε η μέθοδος PCA σε πίνακες μετρήσεων ωριαίων συγκεντρώσεων ρύπων και μετρολογικών παραμέτρων από σταθμούς παρακολούθησης ποιότητας αέρα της πόλης της Θεσσαλονίκης. Τα αποτελέσματα κατέδειξαν την ισχυρή συσχέτιση (αλλά και επίδραση στο σύνολο των δεδομένων) των παραμέτρων NO 2, Ο 3 και υγρασίας. Επίσης επιβεβαιώθηκε η συσχέτιση που υπάρχεί μεταξύ Ο 3 και υγρασίας (τα υψηλά επίπεδα υγρασίας εμποδίζουν τον σχηματισμό του Ο 3 ). Για τον σταθμό της Σίνδου παρουσιάστηκε υψηλή συσχέτιση μεταξύ ΝΟ 2, Ο 3, υγρασίας και θερμοκρασίας ενώ για τον σταθμό του Κορδελιού η μέθοδος παρουσίασε συσχέτιση μεταξύ ΝΟ 2 και υγρασίας. Σημαντική είναι η μικρή επίδραση των παραμέτρων της ταχύτητας και διεύθυνσης του αέρα στα επίπεδα των συγκεντρώσεων Ο 3, που παρατηρείται τόσο από τους πίνακες συμμεταβλητότητας όσο και από τα αποτελέσματα της PCA. 22

23 5. Παλινδρόμηση 5.1 Εισαγωγή Στην παράγραφο αυτή θα αναλυθούν οι τεχνικές πολλαπλής παλινδρόμησης που εφαρμόστηκαν σε περιβαλλοντικές και μετεωρολογικές χρονοσειρές για την εξαγωγή σχέσεων με σκοπό την πρόβλεψη των συγκεντρώσεων Ο 3 για την πόλη της Θεσσαλονίκης. 5.2 Γραμμική παλινδρόμηση Παρατηρώντας το Σχήμα 5.1 το οποίο παρουσιάζει την συγκέντρωση Ο 3 σαν συνάρτηση της θερμοκρασίας (σταθμός Α.Π.Θ., 23) βλέπουμε ότι υπάρχει μία γραμμική σχέση ανάμεσα στα δύο μεγέθη οπότε μπορούμε να επιχειρήσουμε να προσαρμόσουμε μία ευθεία Y = a+ bx (1) στα δεδομένα μας O 3 (μg/m 3 ) Θερμοκρασία ( ο C) Σχήμα 5.1: Εξάρτηση Ο 3 με θερμοκρασία Η διαφορά της πραγματικής τιμής Y ' από την προβλεπόμενη Y καλείται σφάλμα ή υπόλοιπο Ε δηλαδή ισχύει: Πραγματική τιμή (Υ ) = Προβλεπόμενη τιμή (Υ) + Υπόλοιπο (Ε) ή E = Y' Y = Y' a bx Ο υπολογισμός των σταθερών της εξίσωσης (1) γίνεται με χρήση των σχέσεων 23

24 SXY b = SXX a= Y bx 2 ( i ) i ( )( ) SXX = x x = x nx SXY = x x y y = x y nxy i i i i Στην βάση των παραπάνω, και εφαρμόζοντας την σχέση 1, προκύπτει η ακόλουθη ευθεία παλινδρόμησης για τα δεδομένα 2 Y = X Είναι λογικό η επιλογή της ευθείας που προσαρμόστηκε στα δεδομένα μας να έγινε με βάση κάποιους περιορισμούς. Αυτοί προκύπτουν από τις τιμές του σφάλματος Ε για κάθε μία από τις ευθείες που μπορούν να περιγράψουν την γραμμική τάση των δεδομένων. Από όλες τις ευθείες τις οποίες μπορούμε να σχεδιάσουμε για να κατασκευάσουμε ένα μοντέλο γραμμικής παλινδρόμησης, επιλέγουμε αυτήν για την οποία ελαχιστοποιούνται οι τιμές του σφάλματος Ε για κάθε ένα από τα σημεία και για την οποία το άθροισμα: ( a bx) Ε = Υ' = Γενικότερα για τις τιμές του Ε του μοντέλου μας θα πρέπει να ισχύουν τα παρακάτω: Το άθροισμά τους να είναι μηδέν Να προέρχονται από κανονική κατανομή, το οποίο στην ουσία σημαίνει ότι πρέπει να έχουν τυχαίες τιμές, έτσι ώστε να μην έχουμε την εμφάνιση συστηματικού σφάλματος. Αν τα υπόλοιπα Ε δεν προέρχονται από κανονική κατανομή τότε το μοντέλο μας είναι ακατάλληλο για πρόβλεψη. Να είναι ανεξάρτητα μεταξύ τους. Αν τα υπόλοιπα Ε δεν είναι ανεξάρτητα μεταξύ τους, τότε υπάρχει μια συσχέτιση στα δεδομένα μας η οποία δεν εκφράζεται από το μοντέλο. Αν όμως είναι ανεξάρτητα μεταξύ τους το σφάλμα που προκύπτει με την εφαρμογή του μοντέλου μας είναι τυχαίο και έτσι δεν μένει κάποια συστηματική μεταβολή στα δεδομένα μας η οποία να μένει αδικαιολόγητη από το μοντέλο. 5.3 Σύγκριση μοντέλων Ανάλυση μεταβλητότητας (ANOVA) Ένας τρόπος να αξιολογηθεί η απόδοση ενός μοντέλου αλλά και το κατά πόσο μπορεί να ερμηνεύσει την διασπορά των δεδομένων, είναι η ανάλυση της μεταβλητότητας (ANOVA). Στο συγκεκριμένο παράδειγμά, για κάθε μία από τις μετρούμενες τιμές Ο 3 υπολογίζεται η αντίστοιχη μεταβλητότητα που προβλέπεται από την εξίσωση γραμμικής παλινδρόμησης. Αφαιρώντας από τις προβλεπόμενες τιμές την μέση τιμή της κάθε συγκέντρωσης και αθροίζοντας τα τετράγωνά τους, προκύπτει το μέγεθος SS (Sums of Squares) το οποίο και εκφράζει το ποσό 24

25 της διασποράς στις μετρήσεις το οποίο και ερμηνεύεται από το μοντέλο μας. Τα παραπάνω συνοψίζονται στην σχέση: ( SXY ) ( SXY ) SS = SYY RSS = SYY SYY = SXX 2 2 SXX (2) ( SXY ) 2 όπου: SYY = ( y y) 2 και RSS = SYY (3) μέγεθος το οποίο εκφράζει την διασπορά στα SXX δεδομένα μας η οποία δεν ερμηνεύεται από το μοντέλο μας (Residual Sum of Squares). Τα αποτελέσματα της ανάλυσης της μεταβλητότητας του παραδείγματος, εμφανίζονται στον πίνακα που ακολουθεί i Μοντέλο γραμμικής παλινδρόμησης Υπόλοιπο (residual) Βαθμοί ελευθερίας Άθροισμα τετραγώνων (Sum of squares) Μέση τιμή των τετραγώνων Σύνολο Ο όρος βαθμός ελευθερίας αναφέρεται στο σύνολο των ανεξάρτητων τμημάτων πληροφορίας που χρησιμοποιούνται για την πρόβλεψη μιας παραμέτρου. Από τα αποτελέσματα της ANOVA παρατηρούμε ότι η τιμή του μεγέθους Sum of Squares (171.54), το οποίο όπως αναφέρθηκε αντιστοιχεί στο ποσό της διασποράς των μετρήσεων το οποίο ερμηνεύεται από το μοντέλο μας, δεν είναι ικανοποιητική. Η τιμή του SS για τα υπόλοιπα (9.44) η οποία και αντιστοιχεί στο ποσοστό της διασποράς η οποία δεν δύναται να ερμηνευθεί από το μοντέλο είναι αρκετά υψηλή. Η κυριότερες αιτίες είναι η εξάρτηση του Ο 3 από περισσότερους παράγοντες, καθώς και ο μικρός αριθμός δεδομένων που χρησιμοποιήθηκε για το παράδειγμα. 5.4 Πολλαπλή παλινδρόμηση Στην μελέτη περιβαλλοντικών χρονοσειρών είναι αναγκαίο να συμπεριληφθούν στην ανάλυση περισσότερες από μία παράμετροι όπως συγκεντρώσεις διάφορων ρύπων άλλα και μετεωρολογικά δεδομένα. Στη περίπτωση αυτή χρησιμοποιούμε την πολλαπλή παλινδρόμηση όπου η εξαρτημένη μεταβλητή Y αναλύεται συναρτήσει των ανεξάρτητων μεταβλητών X1, X2, X3... X k. Η εξίσωση παλινδρόμησης θα έχει την μορφή 25

26 Y = b + b1x1+ b2x bpx p (4) Η σχέση (4) μπορεί να εκφραστεί και με την βοήθεια πινάκων. Έτσι αν έχουμε n μετρήσεις από τις οποίες θέλουμε να κατασκευαστεί η εξίσωση παλινδρόμησης p+1 όρων, ορίζουμε τους πίνακες Y y1 y y n 2 = X 1 x11 x1 p 1 x21 x 1p = 1 xn 1 xnp b b 1 B = bp E e1 e e n 2 = όπου Y ο n x 1 πίνακας των μετρήσεων της εξαρτημένης μεταβλητής, Χ o n x (p+1) πίνακας των μετρήσεων για τις ανεξάρτητες μεταβλητές, Β ο (p+1) x 1 πίνακας των συντελεστών παλινδρόμησης και Ε ο n x 1 πίνακας των σφαλμάτων ή υπολοίπων. Άρα υπό την μορφή πινάκων η εξίσωση πολλαπλής παλινδρόμησης γράφεται: Y = XB+ E (5) Τα στοιχεία του πίνακα των συντελεστών της (4) πρέπει να ελαχιστοποιούν την συνάρτηση του αθροίσματος των τετραγώνων των υπολοίπων: T ( ) ( ) RSS( B) = Y XB Y XB (6) από την άλγεβρα πινάκων χρησιμοποιούμε την σχέση T T T T ( A B) ( A B) = A A+ B B 2A B οπότε η (6) γίνεται T T T T RSS( B) = Y Y + B ( X X ) B 2Y XB (7) παραγωγίζοντας την (7) ως προς Β και θέτοντας το αποτέλεσμα ίσο με μηδέν λαμβάνουμε: 1 ( T T B X X) X Y = (8) από όπου και υπολογίζουμε τον πίνακα των συντελεστών εφ όσον βέβαια T ορίζεται ο ( X X ) Μοντέλα παλινδρόμησης για την Θεσσαλονίκη Σαν εφαρμογή των όσων αναφέρθηκαν, θα χρησιμοποιηθούν δεδομένα από σταθμούς παρακολούθησης ποιότητας αέρα για την πόλη της Θεσσαλονίκης, για να κατασκευαστεί ένα μοντέλο πολλαπλής παλινδρόμησης για την πρόβλεψη των ωριαίων συγκεντρώσεων Ο 3 (Comrie, 1997; Chaloulakou et al, 22; Sousa et al, 25;). Με την εφαρμογή της μεθόδου Principal Component Analysis, η οποία παρουσιάζεται στο αντίστοιχο κεφάλαιο, βρέθηκε ότι οι ανεξάρτητες μεταβλητές που συμβάλλουν στην διακύμανση 26

27 της ημερήσιας συγκέντρωσης Ο 3, είναι κυρίως οι ωριαίες τιμές της συγκέντρωσης ΝΟ 2, της θερμοκρασίας, της υγρασίας, της ταχύτητας ανέμου, και της μετασχηματισμένης διεύθυνσης ανέμου. Η διεύθυνση ανέμου, η οποία μετριέται σε μοίρες, μετασχηματίζεται σύμφωνα με τις σχέσεις v1= sin(2 π ( v min( v))/(max( v) min( v))) v2 = cos(2 π ( v min( v)) /(max( v) min( v))) έτσι ώστε οι τιμές της παραμέτρου να κυμαίνονται από -1 μέχρι 1. Η κατασκευή του μοντέλου γίνεται υπολογιστικά και όχι με άμεση χρήση των εξισώσεων που παρουσιάσαμε, με την βοήθεια του υπολογιστικού περιβάλλοντος μηχανικής μάθησης, εξόρυξης δεδομένων και τεχνητής νοημοσύνης WEKA 3.4 ( Σταθμός ΑΠΘ Η πρώτη εξίσωση που θα υπολογιστεί αναφέρεται στον σταθμό του Α.Π.Θ. για τις χρονιές ενώ τα διαθέσιμα δεδομένα για το έτος 23 θα χρησιμοποιηθούν για την αξιολόγηση του μοντέλου. Τα δεδομένα αναφέρονται σε ωριαίες συγκεντρώσεις. Η εξίσωση γραμμικής παλινδρόμησης που προκύπτει για την περιοχή του Α.Π.Θ είναι: O3 = * NO * temp.65* hum * ws *sin wd *cos wd (μοντέλο Α) Μία δεύτερη εξίσωση γραμμικής παλινδρόμησης θα κατασκευαστεί με την εισαγωγή μίας νέας παραμέτρου, της τιμής της συγκέντρωσης Ο 3 της προηγούμενης ώρας (Ο 3 lagged). Θα αναφερόμαστε στο μοντέλο χωρίς την συγκέντρωση της προηγούμενης ώρας ως μοντέλο Α και στο δεύτερο ως μοντέλο Β. Ο 3[1 h] = * NO * temp.2579* hum * ws *sin wd *cos wd * O3lagged (μοντέλο Β) Όσον αφορά την αξιολόγηση της απόδοσης του μοντέλου που κατασκευάστηκε, αυτή θα γίνεται με την χρήση δύο μεθόδων. Στην μία περίπτωση χρησιμοποιείται ένα τμήμα των διαθέσιμων δεδομένων για την κατασκευή του μοντέλου, το οποίο συνήθως αποτελεί τα 2/3 του συνόλου των συνολικών δεδομένων, και στη συνέχεια με χρήση του μοντέλου μας πραγματοποιείται μία πρόβλεψη του τελικού 1/3 των δεδομένων για να μπορέσει να υπολογιστεί το σφάλμα της μεθόδου. Η δεύτερη μέθοδος ονομάζεται διασταυρωμένη επικύρωση (cross validation) σύμφωνα με την οποία το σύνολο των δεδομένων χωρίζεται σε k τμήματα και διεξάγονται k πειράματα πρόβλεψης, αφήνοντας κάθε φορά στην άκρη ένα διαφορετικό κλάσμα 1/k των δεδομένων μας το οποίο χρησιμοποιείται για την επαλήθευση των προβλέψεων. Το τελικό σφάλμα αποτελείται από την μέση τιμή των σφαλμάτων των k διαφορετικών πειραμάτων πρόβλεψης ενώ το 27

28 τελικό μοντέλο αναπτύσσεται κάνοντας χρήση όλων των k τμημάτων των δεδομένων. Έχει αποδειχθεί πειραματικά αλλά και θεωρητικά ότι η επιλογή k = 1 είναι και η καταλληλότερη για τον ορθότερο υπολογισμό του σφάλματος της μεθόδου (Witten & Frank, 25). Η μέθοδος της διασταυρωμένης επικύρωσης παρουσιάζει το μειονέκτημα του ότι ο αλγόριθμος κατασκευής του μοντέλου χρησιμοποιεί τα δεδομένα ελέγχου αλλά μπορεί να φανεί χρήσιμη σε περίπτωση όπου ο αριθμός των δεδομένων είναι περιορισμένος. Η αξιολόγηση του μοντέλου γίνεται με την χρήση των μεγεθών που παρουσιάζονται στο Παράρτημα Α. Για τις εξισώσεις που υπολογίστηκαν για τον συγκεκριμένο σταθμό, τα παραπάνω στατιστικά μεγέθη τα οποία προκύπτουν από την επαλήθευση του WEKA (cross validation) αλλά και από την χρονοσειρά του έτους που δεν χρησιμοποιήθηκε για την κατασκευή του μοντέλου έχουν ως εξής: Πίνακας 5.1: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό του ΑΠΘ Σύγκριση με δεδομένα του έτους 23 Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r MAE RMSE RAE 7.48% 39.4% RRSE 72.93% 42.33% IA CSI A=, B=14, C= A=, B=14, C= Cross validation Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r MAE RMSE RAE 4.194% 27.25% RRSE % 3.563% IA CSI A=, B=6, C=.167 A=1, B=5, C= Παρατηρούμενες Μοντέλο Α Μοντέλο Β τιμές Μέση τιμή Τυπική απόκλιση Από τις τιμές των δεικτών του Πίνακα 5.1 παρατηρείται βελτίωση στην απόδοση της εξίσωσης παλινδρόμησης με την εισαγωγή της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Τα αποτελέσματα που προκύπτουν από το cross validation είναι πιο ικανοποιητικά, μια και η επαλήθευση έγινε σε σύνολο δεδομένων το οποίο έχει «συμμετάσχει» στον υπολογισμό της ευθείας παλινδρόμησης. Στο Σχήμα 5.2 που ακολουθεί συγκρίνεται η 28

29 μεταβολή στην συγκέντρωση Ο 3 για το έτος 23 με αυτές που προκύπτουν από τις εξισώσεις γραμμικής παλινδρόμησης που υπολογίστηκαν. O 3 (μg/m 3 ) Γραμμική Παλινδρόμηση - Μοντέλο Β Γραμμική Παλινδρόμηση - Μοντέλο Α Πραγματικές Τιμές 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 5.2: Σταθμός ΑΠΘ 23 Από το Σχήμα 5.2 είναι σαφής η βελτίωση των αποτελεσμάτων της εξίσωσης γραμμικής παλινδρόμησης μετά την εισαγωγή της συγκέντρωσης Ο 3 της προηγούμενης ώρας και κυρίως για την πρόβλεψη των μέγιστων τιμών. Σημειώνεται ότι η ακριβής πρόβλεψη επεισοδίων, κυρίως κατά τους θερινούς μήνες όπου λόγω των μετεωρολογικών συνθηκών αυξάνονται τα επίπεδα Ο 3, δεν ήταν δυνατή από κανένα από τα δύο μοντέλα (δείκτης CSI). Για μία περισσότερο εποπτική εικόνα, στο Σχήμα 5.3 γίνεται σύγκριση των αποτελεσμάτων του μοντέλου Β για έναν μόνο μήνα (Μάρτιος 23) με τις πραγματικές τιμές, όπου και παρατηρείται ότι οι διακυμάνσεις της πραγματικής χρονοσειράς ακολουθούνται από αυτές της προβλεπόμενης. Η ικανοποιητική σύγκλιση μεταξύ μοντέλου και μετρούμενων συγκεντρώσεων, ενισχύει την άποψη πως η γραμμική παλινδρόμηση δύναται να χρησιμοποιηθεί για την επιτυχή βραχυχρόνια πρόγνωση επιπέδων συγκεντρώσεων όζοντος. 29

30 Μάρτιος 23 ΑΠΘ 14 Πραγματικές Τιμές Μοντέλο Β 12 O 3 (μg/m 3 ) Ώρες Σχήμα 5.3: Μάρτιος 23 ΑΠΘ 3

31 5.5.2 Σταθμός Καλαμαριάς Η ίδια διαδικασία που εφαρμόσθηκε στα δεδομένα του σταθμού του Α.Π.Θ. εφαρμόζεται για την κατασκευή ενός μοντέλου γραμμικής παλινδρόμησης για τον σταθμό της Καλαμαριάς. Δεδομένα για την χρονική περίοδο θα χρησιμοποιηθούν για την εξαγωγή της γραμμικής σχέσης ενώ η σύγκριση θα γίνει με τα δεδομένα της χρονιάς 24. Οι εξισώσεις που εξήγαγε το WEKA και για τα δύο μοντέλα, έχουν την μορφή: O3 = * NO * temp.4716* hum * ws *sin wd *cos wd (μοντέλο Α) O3[1 h] = * NO * temp.12* hum * ws 4.139*sin wd *cos wd * O3lagged (μοντέλο Β) Οι τιμές που υπολογίστηκαν για τους στατιστικούς δείκτες εμφανίζονται στους πίνακες που ακολουθούν: Παρατηρούμενες Μοντέλο Α Μοντέλο Β τιμές Μέση τιμή Τυπική απόκλιση Πίνακας 5.2: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Καλαμαριάς Σύγκριση με δεδομένα του έτους 24 Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r MAE RMSE RAE 87.14% 33.23% RRSE 93.39% 35.97% IA CSI A=, B=8, C= A=, B=8, C= Cross validation Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r MAE RMSE RAE % 29.67% RRSE % % IA CSI A=, B=2, C= A=, B=2, C= 31

32 Από τις τιμές του Πίνακα 5.2 είναι εμφανές ότι η απόδοση της εξίσωσης παλινδρόμησης που κάνει χρήση της συγκέντρωσης Ο 3 της προηγούμενης ώρας, είναι σαφώς πιο ικανοποιητική. Παρόλα αυτά οι εξισώσεις και των δύο γραμμικών μοντέλων παρουσιάζουν πλήρη αδυναμία στην πρόβλεψη έστω και μίας περίπτωσης συναγερμού από όσες παρατηρήθηκαν κατά το χρονικό διάστημα (μηδενικός δείκτης CSI). Στο Σχήμα 5.4 συγκρίνονται γραφικά τα αποτελέσματα των εξισώσεων παλινδρόμησης με τις πραγματικές τιμές για το έτος Γρμμική Παλινδρόμηση - Μοντέλο Α Ο 3 (μg/m 3 ) 2 Γρμμική Παλινδρόμηση - Μοντέλο Β Πραγματικές Τιμές /1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 5.4: Σταθμός Καλαμαριάς 24 Στη χρονοσειρά του 24 εμφανίζεται ένα μεγάλο κενό στις μετρήσεις (Μάιος- Ιούνιος και Δεκέμβριος). Το συγκεκριμένο χρονικό διάστημα δεν χρησιμοποιήθηκε στην αξιολόγηση της απόδοσης των μοντέλων. Επίσης ένα μεγάλο κενό στην χρονοσειρά του ΝΟ 2 από τον μήνα Ιούνιο και μετά επηρέασε τα αποτελέσματα της εξίσωσης παλινδρόμησης του μοντέλου Α, το οποίο και εμφάνισε χαμηλό συντελεστή συσχέτισης και χαμηλό ΙΑ. Για το μοντέλο Β αντίθετα η προβλεπόμενη χρονοσειρά φαίνεται να ακολουθεί ικανοποιητικά την πραγματική λόγω της εισαγωγής της επιπλέον παραμέτρου (συγκέντρωσης Ο 3 της προηγούμενης ώρας). Παρατηρείται μία ικανοποιητική σύγκλιση μεταξύ μοντέλου και μετρούμενων συγκεντρώσεων, γεγονός που ενισχύει την άποψη πως και εδώ η γραμμική παλινδρόμηση δύναται να χρησιμοποιηθεί για την επιτυχή βραχυχρόνια πρόγνωση επιπέδων συγκεντρώσεων όζοντος. 32

33 5.5.3 Σταθμός Σίνδου Μια ακόμα εφαρμογή της μεθόδου της γραμμικής παλινδρόμησης θα παρουσιαστεί για τον σταθμό της περιοχής της Σίνδου. Τα δεδομένα για την ανάπτυξη του μοντέλου, αναφέρονται στην χρονική περίοδο ενώ θα χρησιμοποιηθούν για αποτίμηση της απόδοσης τους, δεδομένα του έτους 23. Με χρήση του WEKA οι εξισώσεις γραμμικής παλινδρόμησης και για τα δύο σετ μεταβλητών που χρησιμοποιούμε είναι οι : O3 = * NO * temp.5953* hum * ws *sin wd *cos wd (μοντέλο Α) O3[1 h] = * NO * temp.1954* hum+.5339* ws *sin wd *cos wd +.726* O3lagged (μοντέλο Β) Σε αναλογία και με τις προηγούμενες εφαρμογές έχουμε Παρατηρούμενες Μοντέλο Α Μοντέλο Β τιμές Μέση τιμή Τυπική απόκλιση Πίνακας 5.3: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Σίνδου Σύγκριση με δεδομένα του έτους 23 Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r MAE RMSE RAE 63.7% 32.91% RRSE 66.31% 36.3% IA CSI A=, B=, C= A=, B=, C= Cross validation Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r MAE RMSE RAE % % RRSE % 3.786% IA CSI A=, B=, C= A=, B=, C= 33

34 Παρουσιάζονται και υπό μορφή διαγράμματος η προβλεπόμενη αλλά και η πραγματική μεταβολή της συγκέντρωσης Ο 3, και για τα δύο μοντέλα, στον σταθμό της Σίνδου (έτος 23) για μία οπτική αξιολόγηση των εξισώσεων παλινδρόμησης Γραμμική Παλινδρόμηση - Μοντέλο Α 1 5 O 3 (μg/m 3 ) Γραμμική Παλινδρόμηση - Μοντέλο Β Πραγματικές Τιμές 1 5 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 5.5: Σταθμός Σίνδου 23 Σημειώνεται ότι οι προβλέψεις των τελευταίων ημερών του μήνα Δεκεμβρίου δεν μπορούν να θεωρηθούν αξιόπιστες λόγω κενών σε όλες τις χρονοσειρές των μεταβλητών, τα οποία συμπληρώθηκαν αναγκαστικά με τις μέσες τιμές αφού ο αλγόριθμος BPCA, που επιλέχθηκε για τον υπολογισμό ελλειπόντων δεδομένων (Παράρτημα Β) δεν μπορεί να εφαρμοστεί σε περιπτώσεις όπου λείπουν όλες οι τιμές των μεταβλητών για την ίδια ώρα. Μία πιο αναλυτική εικόνα της σχέσης προβλέψεων και παρατηρήσεων (μοντέλο Β) παρουσιάζεται στο Σχήμα 5.6 για τον μήνα Ιούνιο του 23. Παρατηρείται μία ικανοποιητική σύγκλιση μεταξύ μοντέλου και μετρούμενων συγκεντρώσεων, γεγονός που ενισχύει την άποψη πως η γραμμική παλινδρόμηση μπορεί να χρησιμοποιηθεί για την επιτυχή βραχυχρόνια πρόγνωση επιπέδων συγκεντρώσεων όζοντος. 34

35 16 14 Ιούνιος 23 Σίνδος Πραγματικές Τιμές Μοντέλο Β Ο 3 (μg/m 3 ) Ώρες Σχήμα 5.6: Σταθμός Σίνδου Ιούνιος 23 35

36 Η αδυναμία του μοντέλου παλινδρόμησης να προβλέψει τις ελάχιστες τιμές Ο 3, δεν επηρεάζει την μελέτη μας καθώς είναι οι μέγιστες συγκεντρώσεις αυτές που μας ενδιαφέρουν, και οι οποίες ακολουθούνται αρκετά ικανοποιητικά από το μοντέλο πρόβλεψης Σταθμός Κορδελιού Ακολουθώντας την ίδια διαδικασία μελετάμε τις μετρήσεις που προέρχονται από τον σταθμό του Κορδελιού. Το τμήμα των μετρήσεων που αναφέρονται στην χρονική περίοδο θα χρησιμοποιηθεί για την ανάπτυξη του μοντέλου γραμμικής παλινδρόμησης ενώ η σύγκριση θα γίνει με τα δεδομένα του έτους 23. Οι ευθείες παλινδρόμησης είναι οι παρακάτω: O3 = * NO * temp.599* hum * ws *sin wd *cos wd (μοντέλο Α) O3[1 h] = * NO * temp.237* hum * ws *sin wd *cos wd * O3lagged (μοντέλο Β) με τις ακόλουθες τιμές σφαλμάτων Παρατηρούμενες Μοντέλο Α Μοντέλο Β τιμές Μέση τιμή Τυπική απόκλιση Πίνακας 5.4: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Κορδελίου Σύγκριση με δεδομένα του έτους 23 Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r MAE RMSE RAE 17.5% 47.16% RRSE 17.85% 48.7% IA CSI A=, B=2, C= A=, B=2, C= Cross - validation Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r MAE RMSE

37 RAE % % RRSE % % IA CSI A=, B=14, C=.133 A=2, B=12, C=1 Παρατηρείται ότι για το μοντέλο Α παρουσιάζονται πολύ υψηλές τιμές σφαλμάτων οι οποίες ελαττώνονται σημαντικά με την είσοδο της παραμέτρου για το Ο 3 της προηγούμενης ώρας. Η βελτίωση φαίνεται και στην περίπτωση που κάνουμε επαλήθευση με cross validation όπου έχουμε και πρόβλεψη δύο επεισοδίων υψηλής συγκέντρωσης Ο 3. Στο Σχήμα 5.7 παρουσιάζονται οι προβλεπόμενες από την εξίσωση γραμμικής παλινδρόμησης τιμές για την συγκέντρωση Ο 3 με τις πραγματικές τιμές που μετρήθηκαν από τον σταθμό για το έτος Γραμμική Παλινδρόμηση - Μοντέλο Α Ο 3 (μg/m 3 ) 2 Γραμμική Παλινδρόμηση - Μοντέλο Β Πραγματικές Τιμές /1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 5.7: Σταθμός Κορδελιού 23 Είναι εμφανής η αδυναμία του μοντέλου Α να προβλέψει τις μέγιστες τιμές κατά τους θερινούς μήνες, ενώ καταφέρνει να περιγράψει ικανοποιητικά την τάση της χρονοσειράς του Ο 3 καθ όλη την διάρκεια του έτους εκτός από το τμήμα από τα μέσα Ιουλίου και μετά. Παρόλα αυτά η κατάσταση φαίνεται να διορθώνεται σημαντικά στην περίπτωση του μοντέλου Β. Σημειώνουμε ότι αυτό μπορεί να οφείλεται στο γεγονός ότι η χρονοσειρά του ΝΟ 2 παρουσίαζε ένα μεγάλο κενό το οποίο και συμπληρώσαμε με εκτιμώμενες τιμές με την 37

38 χρήση της μεθόδου BPCA (Παράρτημα Β) για την κάλυψη των κενών σε χρονοσειρές. Μία πιο αναλυτική εικόνα της σχέσης προβλέψεων και παρατηρήσεων (μοντέλο Β) παρουσιάζεται στο Σχήμα 5.8 για τον μήνα Μάιο του 23. Η ικανοποιητική σύγκλιση μεταξύ μοντέλου και μετρούμενων συγκεντρώσεων, ενισχύει την άποψη πως η γραμμική παλινδρόμηση μπορεί να χρησιμοποιηθεί για την επιτυχή βραχυχρόνια πρόγνωση επιπέδων συγκεντρώσεων όζοντος. 38

39 Μάιος 23 Κορδελιό Πραγματικές Τιμές Μοντέλο Β 14 Ο 3 (μg/m 3 ) Ώρες Σχήμα 5.8: Σταθμός Κορδελιού Μάιος 23 39

40 5.6 Συμπεράσματα Στο παρόν κεφάλαιο παρουσιάστηκε η μέθοδος και τα αποτελέσματα της εφαρμογής της πολλαπλής γραμμικής παλινδρόμησης για την πρόβλεψη των ωριαίων συγκεντρώσεων Ο 3 για την πόλη της Θεσσαλονίκης και για τις περιοχές των σταθμών παρακολούθησης ποιότητας (ΑΠΘ, Σίνδος, Καλαμαριά, Κορδελιό). Τα μοντέλα πρόβλεψης μπόρεσαν να αποδώσουν σωστά την τάση μεταβολής της συγκέντρωσης του Ο 3 κατά την διάρκεια του έτους, αλλά γενικά παρουσίασαν σημαντική αδυναμία στην πρόβλεψη των μέγιστων τιμών. Τα αποτελέσματα των εξισώσεων γραμμικής παλινδρόμησης βελτιώθηκαν σημαντικά με την χρήση της συγκέντρωσης Ο 3 της προηγούμενης ώρας σαν μεταβλητή πρόβλεψης αλλά και με την συμμετοχή του συνόλου των δεδομένων στην αξιολόγηση του μοντέλου (crossvalidation). Ένας σημαντικός παράγοντας για την μη πρόβλεψη των μεγίστων τιμών, είναι η μη γραμμική (από φυσικής άποψης) σχέση μεταξύ της εξαρτημένης μεταβλητής (Ο 3 ) και των ανεξάρτητων μεταβλητών (ΝΟ 2, μετεωρολογικοί παράγοντες) η οποία δεν μπορεί να εκφραστεί από τα μοντέλα γραμμικής παλινδρόμησης. Ένας δεύτερος παράγοντας είναι το γεγονός ότι σε πολλούς σταθμούς παρουσιάζονται μεγάλα κενά στα δεδομένα εισόδου των μοντέλων, τα οποία και συμπληρώσαμε με την μέθοδο της Bayesian Principal Component Analysis. Συνολικά, η μέθοδος της πολλαπλής γραμμικής παλινδρόμησης εμφανίζεται ικανή να υποστηρίξει την επιχειρησιακή βραχυχρόνια πρόγνωση επιπέδων συγκεντρώσεως όζοντος σε περιοχές της Θεσσαλονίκης. 4

41 6. Τεχνητά Νευρωνικά Δίκτυα (ΤΝΔ) 6.1 Εισαγωγή Τα τεχνητά νευρωνικά δίκτυα (Artificial Neural Networks) είναι μαθηματικά μοντέλα για την επεξεργασία πληροφορίας που προσεγγίζει την υπολογιστική και αναπαραστατική δυνατότητα του ανθρώπινου εγκεφάλου μέσω συνάψεων. Τα μοντέλα αυτά είναι εμπνευσμένα από τα βιοηλεκτρικά δίκτυα που δημιουργούνται στον εγκέφαλο ανάμεσα στους νευρώνες (νευρικά κύτταρα) και στις συνάψεις (σημεία επαφής των νευρικών απολήξεων). Στο μαθηματικό μοντέλο των νευρωνικών δικτύων υπάρχουν κομβικά σημεία (nodes) στα οποία καταλήγουν συνδέσεις από άλλους κόμβους του δικτύου, στις οποίες συνήθως αποδίδεται κάποιο βάρος. Τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ), ως μαθηματικό μοντέλο, προέκυψαν από τον τομέα της Τεχνητής Νοημοσύνης. Η εισαγωγή για την χρήση τεχνητών νευρωνικών δικτύων έγινε από τους McCulloch και Pitts (1943) οι οποίοι πρότειναν ένα μαθηματικό μοντέλο του νευρώνα όπως αυτό που φαίνεται στο Σχήμα 6.1. Έκτοτε η περιοχή των ΤΝΔ έχει αναπτυχθεί πάρα πολύ και η σχετική βιβλιογραφία έχει εμπλουτισθεί με ένα σύνολο από (διαρκώς ανανεούμενα) βιβλία αναφοράς αλλά και ερευνητικές εργασίες άρθρα. Τα ΤΝΔ έχουν με επιτυχία εφαρμοσθεί στην ανάλυση και πρόβλεψη χρονοσειρών, στα χρηματοοικονομικά, στις ιατρικές επιστήμες, στην εξόρυξη δεδομένων και σε πολλά άλλα επιστημονικά πεδία. Υπάρχει πλέον μεγάλος αριθμός εργασιών στις οποίες μπορεί κανείς να ανατρέξει για ενημέρωση σχετικά με τα νευρωνικά δίκτυα και τις εφαρμογές τους (Hertz et al. 1991; Ritter et al. 199; Kohonen 1995; Anderson et al. 1988) Σχήμα 6.1: Μαθηματικό μοντέλο νευρώνα Το μοντέλο του σχήματος 6.1 παρουσιάζει την δομή ενός τεχνητού νευρώνα ο οποίος ενεργοποιείται όταν ένας γραμμικός συνδυασμός των εισόδων του υπερβεί μια καθορισμένη τιμή κατωφλίου. Ο γραμμικός συνδυασμός 41

42 προκύπτει με πολλαπλασιασμό της «εισόδου» που δέχεται ο κάθε νευρώνας με το αντίστοιχο συναπτικό βάρος. Τα τρία βασικά χαρακτηριστικά του τεχνητού νευρώνα είναι τα ακόλουθα Το σύνολο των συνδέσμων εισόδου x j (συνάψεις), κάθε ένας από τους οποίους χαρακτηρίζεται από ένα συναπτικό βάρος W kj. Συγκεκριμένα το σήμα εισόδου x j της σύναψης j του νευρώνα k πολλαπλασιάζεται με το βάρος W kj. Ο δείκτης k του βάρους W αναφέρεται στον νευρώνα τον οποίο εξετάζουμε ενώ ο δείκτης j στην είσοδο στην οποία αντιστοιχεί το συγκεκριμένο βάρος. Ο αθροιστής, ο οποίος αθροίζει τα σήματα εισόδου πολλαπλασιασμένα με το αντίστοιχο βάρος τους δηλαδή u k m = wkjx j= 1 j Η συνάρτηση ενεργοποίησης, η οποία εφαρμόζεται στο παραπάνω άθροισμα για να παράγει την έξοδο η τιμή της οποίας δίνεται από την συνάρτηση ( ) y = ϕ u + b k k k Το βάρος πόλωσης b k έχει την ιδιότητα να αυξομειώνει την «πραγματική» είσοδο του νευρώνα ανάλογα με το πρόσημό της, σύμφωνα με την υ = u + b k k k Συναρτήσεις Ενεργοποίησης ή Μεταφοράς Η συνάρτηση ενεργοποίησης πρέπει να είναι τέτοια ώστε να μας δίνει δύο δυνατές τιμές. Θέλουμε η τιμή της να είναι +1 όταν δίνονται οι σωστές είσοδοι και όταν δίνονται οι λανθασμένες. Επίσης πρέπει να είναι μη γραμμική έτσι ώστε το νευρωνικό δίκτυο να μην εκφυλίζεται σε μία απλή γραμμική συνάρτηση. Δύο συναρτήσεις οι οποίες μπορούν να χρησιμοποιηθούν είναι η βηματική συνάρτηση και η σιγμοειδής συνάρτηση. 42

43 1, x φ( x) =, x < Βηματική συνάρτηση 1 φ ( x) = x 1 + e Σιγμοειδής συνάρτηση Άλλες συναρτήσεις που χρησιμοποιούνται με επιτυχία ως συναρτήσεις ενεργοποίησης είναι η υπερβολική εφαπτομένη, η συνάρτηση ράμπας (ramp function) κ.α Δομές νευρωνικών δικτύων Από το σύνολο αρχιτεκτονικών τοπολογιών των ΤΝΔ παρουσιάζονται εδώ τρεις βασικές δομές τεχνητών νευρωνικών δικτύων. Νευρωνικά δίκτυα ενός επιπέδου με προς τα εμπρός τροφοδότηση σήματος (Single Layer Feedforward Networks) όπου οι νευρώνες οργανώνονται σε επίπεδα. Σε αυτή την απλή μορφή έχουμε ένα επίπεδο εισόδου το οποίο επικοινωνεί μονόδρομα με ένα επίπεδο εξόδου. Η γραφική αναπαράσταση του Σχήματος 6.2 μας δίνει την μορφή ενός δικτύου ενός επιπέδου όπου ο όρος «επίπεδο» αναφέρεται στο επίπεδο των νευρώνων εξόδου. 43

44 Σχήμα 6.2: Νευρωνικό δίκτυο ενός επιπέδου με προς τα εμπρός τροφοδότηση Νευρωνικά δίκτυα πολλών επιπέδων με προς τα εμπρός τροφοδότηση του σήματος (Multilayer Feedforward Networks) τα οποία χαρακτηρίζονται από την παρουσία ενός η περισσοτέρων «κρυφών» επιπέδων νευρώνων. Το πλεονέκτημα της προσθήκης κρυφών επιπέδων είναι ότι μεγαλώνει ο «χώρος υποθέσεων» που μπορεί να αναπαρασταθεί από το δίκτυο. Με την προσθήκη ενός και μόνο επαρκώς μεγάλου κρυφού επιπέδου, είναι δυνατό να αναπαραστήσουμε οποιαδήποτε συνεχή συνάρτηση των εισόδων με αυθαίρετη ακρίβεια. Στο Σχήμα 6.3 παρουσιάζουμε την δομή ενός δικτύου πολλών επιπέδων 44

45 Σχήμα 6.3: Νευρωνικό δίκτυο με δύο κρυφά επίπεδα Αναδρομικά δίκτυα (Recurrent networks) τα οποία διαχωρίζονται από τις δύο προηγούμενες δομές επειδή ανατροφοδοτούν τις εισόδους τους με αποτελέσματα των εξόδων τους. Αυτό σημαίνει ότι τα επίπεδα ενεργοποίησης του δικτύου σχηματίζουν ένα δυναμικό σύστημα το οποίο μπορεί να φτάσει σε μία σταθερή κατάσταση ή να παρουσιάσει ταλαντώσεις ή ακόμα και χαοτική συμπεριφορά. Επίσης η απόκριση του δικτύου σε μία συγκεκριμένη είσοδο εξαρτάται από την αρχική του κατάσταση η οποία μπορεί να εξαρτάται από τις προηγούμενες εισόδους του. 6.3 Εκπαίδευση ενός τεχνητού νευρωνικού δικτύου Ένα νευρωνικό δίκτυο πρέπει να είναι έτσι ρυθμισμένο ώστε από τα δεδομένα εισόδου που του παρέχουμε να παράγονται οι επιθυμητές τιμές εξόδου. Αυτό μπορεί να γίνει είτε με δοκιμές επί των βαρών των συνάψεων αλλά και επί των συναρτήσεων ενεργοποίησης, ή «εκπαιδεύοντας» το δίκτυο: παρέχοντας του δεδομένα και αφήνοντας το να αλλάζει από μόνο του τις τιμές των βαρών με την χρήση κανόνων μάθησης. Όσον αφορά την διαδικασία της μάθησης, αυτή μπορεί να χωριστεί σε δύο κατηγορίες. Επιβλεπόμενη μάθηση (supervised learning) στην οποία το δίκτυο εκπαιδεύεται παρέχοντας του παραδείγματα εισόδων με τις αντίστοιχες εξόδους τους. 45

46 Μη επιβλεπόμενη μάθηση (unsupervised learning) η οποία περιλαμβάνει την μάθηση προτύπων εισόδου χωρίς να παρέχονται συγκεκριμένες τιμές εισόδου. Δηλαδή το δίκτυο πρέπει να ανακαλύψει από μόνο του μοτίβα μέσα στο πλήθος των δεδομένων εισόδου. 6.4 Νευρωνικά δίκτυα ενός επιπέδου (perceptrons) Ένα δίκτυο του οποίου οι είσοδοι είναι άμεσα συνδεδεμένες με τις εξόδους του ονομάζεται νευρωνικό δίκτυο ενός επιπέδου (single layer neural network) ή δίκτυο αισθητήρα (perceptron) η χρήση του οποίου προτάθηκε από τον Rosenblatt (1958). Στην απλούστερη του μορφή αποτελείται από δύο εισόδους και μία έξοδο όπως φαίνεται και στο Σχήμα 6.4 που ακολουθεί. Σχήμα 6.4: Δίκτυο ενός επιπέδου με δύο εισόδους και μία έξοδο Η είσοδος του νευρώνα είναι το σταθμισμένο άθροισμα των εισόδων της συν τον όρο πόλωσης θ. Ακολούθως στο άθροισμα αυτό εφαρμόζεται η συνάρτηση ενεργοποίησης για «παραχθεί» η έξοδος: y= F wx + θ 2 i i (1) i= 1 Αν ως συνάρτηση ενεργοποίησης χρησιμοποιηθεί η βηματική συνάρτηση: 1 s > Fs () = 1 s (2) τότε μπορούμε να θεωρήσουμε ότι ο αισθητήρας αναπαριστά μια Boolean συνάρτηση. Η έξοδος του δικτύου μπορεί πλέον να πάρει δύο δυνατές τιμές και το δίκτυο μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση κατανομή των εισόδων του σε δύο ξεχωριστές ομάδες (ανάλογα με την τιμή της εξόδου) οι οποίες ονομάζονται κλάσεις. Αν η συνολική είσοδος είναι θετική τότε η περίπτωση που θέλουμε να κατηγοριοποιήσουμε θα ανατεθεί στην κλάση +1, ενώ αν είναι αρνητική θα ανατεθεί στην κλάση -1. Ο διαχωρισμός των δύο κλάσεων γίνεται από την ευθεία με εξίσωση wx 1 1+ wx 2 2+ θ = (3) 46

47 Γι αυτό το λόγο ο αισθητήρας κατωφλίου ονομάζεται γραμμικός διαχωριστής, διότι δύναται να αναπαραστήσει μόνο γραμμικά διαχωρίσιμες συναρτήσεις. Ο αλγόριθμος για την μάθηση ενός νευρωνικού δικτύου στηρίζεται στην προσαρμογή των βαρών του δικτύου έτσι ώστε το μέτρο του σφάλματος να ελαχιστοποιείται. Η συνάρτηση σφάλματος που χρησιμοποιείται συνήθως είναι το άθροισμα των τετραγώνων των σφαλμάτων (sum of squared errors). Το τετράγωνο του σφάλματος για ένα παράδειγμα εκπαίδευσης εισόδου x και «αληθούς» εξόδου y δίνεται από τη σχέση: 1 1 = = ( ( )) 2 w (4) E Err y h x όπου hw ( x ) η έξοδος του αισθητήρα. Η συνάρτηση του σφάλματος μπορεί να ελαχιστοποιηθεί με την χρήση μίας μεθόδου η οποία καλείται κατάβαση πλαγίας (gradient descent),η οποία κάνει χρήση της μερικής παραγώγου του Ε ως προς κάθε συναπτικό βάρος δηλαδή: n E Err = Err = Err y g W jx j = Err g '( in) x j Wj Wj W (5) j j= όπου ο δείκτης j αναφέρεται στον κόμβο στον οποίο αντιστοιχεί το συναπτικό βάρος W, το εξωτερικό γινόμενο, g η συνάρτηση εισόδου και g η j παράγωγος της και επίσης με τον όρο in αναφερόμαστε στο σταθμισμένο άθροισμα των εισόδων συμπεριλαμβανομένου και του βάρους πολώσεως. Η ενημέρωση των βαρών που προκύπτουν βάση της συνάρτησης σφάλματος τελικά γίνεται σύμφωνα με τη σχέση: W = W + α Err g'( in) x (6) j j j όπου α η τιμή του ρυθμού μάθησης (learning rate). 6.5 Νευρωνικά δίκτυα πολλών επιπέδων με προς τα εμπρός τροφοδότηση σήματος (Multi layer feed forward networks) Όπως είδαμε και προηγουμένως τα ΤΝΔ ενός επιπέδου παρουσιάζουν το περιορισμό του ότι μπορούν να αναπαραστήσουν μόνο γραμμικά διαχωρίσιμες συναρτήσεις. Οι Minsky & Papert (1969) έδειξαν ότι πολλοί από τους περιορισμούς των δικτύων ενός επιπέδου μπορούν να αρθούν με την εισαγωγή ενός κρυφού επιπέδου, αλλά δεν παρουσίασαν μία μέθοδο για την διόρθωση των βαρών από το επίπεδο εισόδου προς το κρυφό επίπεδο. Η λύση παρουσιάστηκε από τους Rumelhart, Hinton και Williams (1986) αλλά και από μεταγενέστερες εργασίες. Η κεντρική ιδέα της λύσης που παρουσιάστηκε στηρίζεται στην οπισθοδιάδωση (back - propagation) του σφάλματος από το επίπεδο εξόδου προς τα κρυφά επίπεδα. Παρά το γεγονός ότι η οπισθοδιάδωση του σφάλματος μπορεί να εφαρμοστεί σε ΤΝΔ με 47

48 οποιοδήποτε αριθμό επιπέδων, έχει αποδειχθεί (Hornik, Stinchcomble & White 1989; Funahashi 1989; Cybenko 1989; Hartman, Keeler & Kowaski 199) ότι μόνο ένα επίπεδο κρυφών μονάδων επαρκεί για την προσέγγιση συναρτήσεων με μεγάλο αριθμό ασυνεχειών, δεδομένου ότι οι συναρτήσεις ενεργοποίησης των κρυφών μονάδων είναι μη γραμμικές. Η πιο συνηθισμένη περίπτωση αυτής της κατηγορίας νευρωνικών δικτύων, περιλαμβάνει ένα κρυφό επίπεδο όπως αυτό που φαίνεται στο Σχήμα 6.5, όπου το σήμα εισόδου διαδίδεται προς τα εμπρός μέσω του κρυφού επιπέδου νευρώνων. Αυτή η κατηγορία δικτύων ονομάζεται συνήθως και «αισθητήρας πολλών επιπέδων» (Multi - Layer Perceptron). Σχήμα 6.5: Νευρωνικό δίκτυο με ένα κρυφό επίπεδο Η μέθοδος της διόρθωσης των βαρών χρησιμοποιώντας την οπισθοδιάδωση του σφάλματος έχει ως ακολούθως: Στο επίπεδο εξόδου όπως περιγράψαμε και στην προηγούμενη έξοδο τα βάρη ενημερώνονται βάσει της σχέσης W = W + α Err g'( in) x (7) j j j Για πολλές μονάδες εξόδου ορίζουμε ως Err i την i-οστή συνιστώσα του διανύσματος σφάλματος. Αν στην συνέχεια ορίσουμε το μέγεθος Δ = Err g '( in ) η σχέση (7) θα πάρει την μορφή: i i i W = W + a a Δ (8) j, i j, i j i Όπου j ο κόμβος στον οποίο αντιστοιχεί το συναπτικό βάρος W ji, και ο δείκτης i αναφέρεται στον κόμβο εξόδου με τον οποίο συνδέεται ο κόμβος j μέσω του W. ji, 48

49 Η ιδέα στην οποία στηρίζεται η οπισθοδιάδωση σφάλματος είναι ότι ο κρυφός κόμβος j ευθύνεται για κλάσμα του σφάλματος Δ δηλαδή για το σφάλμα σε κάθε έναν από τους κόμβους εξόδου με τους οποίους συνδέεται. Οι τιμές στην συνέχεια διαιρούνται ανάλογα με το συναπτικό βάρος της σύνδεσης μεταξύ του κρυφού κόμβου και του κόμβου εξόδου, και διαδίδονται προς τα πίσω για να πάρουμε τις τιμές Δ για το κρυφό επίπεδο με χρήση της εξίσωσης: j Δ = g'( in ) W Δ (9) j j j, i i i Όπου Δ j το τροποποιημένο σφάλμα του j κόμβου του κρυφού επιπέδου και Δ i το τροποποιημένο σφάλμα του i κόμβου εξόδου. Επίσης η σχέση για την ενημέρωση των βαρών μεταξύ των εισόδων και του κρυφού επιπέδου είναι η Wkj = Wkj + a ak Δ j (1) i Δ i Η διαδικασία της μεθόδου οπισθοδιάδωσης του σφάλματος μπορεί να αναλυθεί στα παρακάτω βήματα Υπολογίζουμε τις τιμές του Δ για τις μονάδες εξόδου με χρήση του παρατηρηθέντος σφάλματος. Ξεκινώντας από το επίπεδο εξόδου, επαναλαμβάνουμε τα παρακάτω βήματα για κάθε επίπεδο του δικτύου μέχρι να φτάσουμε στο πρώτο κρυφό επίπεδο - Διαδίδουμε τις τιμές του Δ πίσω στο προηγούμενο επίπεδο - Ενημερώνουμε τα βάρη μεταξύ των δύο επιπέδων Το πλεονέκτημα της μεθόδου των ΤΝΔ με χρήση πολλαπλών επιπέδων έγκειται στην δυνατότητα τους να προσεγγίζουν ικανοποιητικά την συμπεριφορά μη γραμμικών συστημάτων όπως αυτό της αέριας ρύπανσης, γεγονός που τα καθιστά κατάλληλα για το πρόβλημα της ατμοσφαιρικής μοντελοποίησης και προσομοίωσης. 6.6 Εφαρμογή των ΤΝΔ σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Μετά την θεωρητική εισαγωγή στα νευρωνικά δίκτυα, θα προχωρήσουμε στην πειραματική εφαρμογή τους για την κατασκευή μοντέλων πρόγνωσης της ωριαίας συγκέντρωσης Ο 3 για την πόλη της Θεσσαλονίκης. Τα δεδομένα που θα χρησιμοποιηθούν για την ανάπτυξη των μοντέλων νευρωνικών δικτύων προέρχονται από τους σταθμούς παρακολούθησης ποιότητας αέρα της πόλης και περιλαμβάνουν τις παραμέτρους: ΝΟ 2, θερμοκρασία, υγρασία, ταχύτητα ανέμου, διεύθυνση ανέμου. Η αρχιτεκτονική των νευρωνικών δικτύων που θα χρησιμοποιήσουμε είναι η Multi Layer Perceptron (MLP) με ένα κρυφό επίπεδο, δηλαδή το δίκτυο θα αποτελείται από ένα επίπεδο εισόδου, ένα κρυφό επίπεδο και το επίπεδο εξόδου. Τα MLP νευρωνικά δίκτυα έχουν χαρακτηριστεί ως καταλληλότερα για την πρόβλεψη των συγκεντρώσεων 49

50 ατμοσφαιρικών ρύπων καθότι μπορούν να περιγράψουν την μη-γραμμική σχέση μεταξύ των μεταβλητών του μοντέλου (Yi & Prybutok, 1996; Gardner & Dorling, 1999, 2; Kolehmainen et al., 21; Viotti et al.,22; Kukkonen et al., 23). Όπως θα φανεί και στις εφαρμογές ανά σταθμό που θα παρουσιαστούν στο παρόν κεφάλαιο, η επιλογή ενός κρυφού επιπέδου κρίθηκε καταλληλότερη μετά από δοκιμές με αρχιτεκτονικές περισσότερων επιπέδων (Παράρτημα Α) καθότι παρουσίαζε μικρότερα σφάλματα. Η επιλογή του αριθμού τόσο των κρυφών επιπέδων όσο και του αριθμού των νευρώνων, γίνεται με την κατασκευή διαφορετικών μοντέλων και με την αξιολόγηση της επίδοσης τους επιλέγεται το καταλληλότερο (Pellccioni & Tirabassi, 23; Norgaard et al., 2; Corani 24; Jiang & Zhang & Hu & Zeng & Tan & Shao, 23). Το υπολογιστικό περιβάλλον που χρησιμοποιήθηκε για την κατασκευή των δικτύων είναι το WEKA 3.4 ( ). Η αξιολόγηση των μοντέλων γίνεται με τον υπολογισμό των στατιστικών δεικτών που χρησιμοποιήθηκαν και στην περίπτωση της γραμμικής παλινδρόμησης (Παράρτημα Α) Σταθμός Α.Π.Θ. Με χρήση δεδομένων από την χρονική περίοδο κατασκευάστηκε ένα ΤΝΔ για την πρόγνωση των ωριαίων συγκεντρώσεων Ο 3 στην περιοχή του Α.Π.Θ.. Η δομή του δικτύου περιλαμβάνει ένα κρυφό επίπεδο 1 κόμβων. Η επιλογή του αριθμού των κόμβων του κρυφού επιπέδου έγινε μετά από δοκιμές με διάφορους συνδυασμούς ώστε να επιλεχθεί η δομή με την καλύτερη απόδοση (Παράρτημα Γ). Κατασκευάστηκαν δύο μοντέλα εκ των οποίων το πρώτο (μοντέλο Γ) χρησιμοποιεί τις μεταβλητές ΝΟ 2, θερμοκρασία, υγρασία, ταχύτητα αέρα, μετασχηματισμένη διεύθυνση αέρα (σχέσεις 11), ενώ στο δεύτερο (μοντέλο Δ), εισάγουμε την συγκέντρωση Ο 3 της προηγούμενης ώρας σαν μια επιπλέον μεταβλητή πρόβλεψης. v1 = sin(2 π ( v min( v)) /(max( v) min( v))) v2 = cos(2 π ( v min( v)) /(max( v) min( v))) (11) Σχήμα 6.6: Νευρωνικό δίκτυο ενός κρυφού επιπέδου με 1 κρυφούς κόμβους για τον σταθμό του Α.Π.Θ. 5

51 Η αξιολόγηση της επίδοσης του νευρωνικού δικτύου θα γίνει με επαλήθευση του μοντέλου στα δεδομένα του έτους 23 αλλά και με διασταυρωμένη επικύρωση (cross validation) στο σετ δεδομένων με το οποίο εκπαιδεύτηκε το δίκτυο. Τα αποτελέσματα παρουσιάζονται στον Πίνακα 6.1 Πίνακας 6.1: Σύγκριση των δύο μοντέλων για τον σταθμό του ΑΠΘ Σύγκριση με δεδομένα του έτους 23 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE % % RRSE % % IA CSI A=, B=14, C=.71 A=1, B=11, C=2 Cross validation Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE % 26.1% RRSE % 29.74% IA CSI A=, B=6, C=.33 A=2, B=4, C= Παρατηρούμενες Μοντέλο Γ Μοντέλο Δ τιμές Μέση τιμή Τυπική απόκλιση Παρατηρούμε ότι η απόδοση του νευρωνικού δικτύου βελτιώνεται σημαντικά με την εισαγωγή της παραμέτρου της συγκέντρωσης του Ο 3 της προηγούμενης ώρας, Επίσης πολύ σημαντικό είναι το γεγονός ότι μπορούμε και έχουμε πρόβλεψη ημέρας επεισοδίου (μία σωστή και δύο λανθασμένες) όταν το μοντέλο εφαρμόζεται σε δεδομένα που δεν έχει «δει», ικανότητα που γίνεται ακόμα υψηλότερη (2 στις 6) στην περίπτωση του cross-validation. Σε σχέση με τα στατιστικά της επίδοσης του ΤΝΔ ως προς την παλινδρόμηση, και για το μοντέλο που περιλαμβάνει το Ο 3 της προηγούμενης ώρας ισχύει ότι: βάσει των δεδομένων για το έτος 23, το ΤΝΔ υστερεί ελάχιστα ως προς τον συντελεστή συσχέτισης (.919) έναντι του μοντέλου παλινδρόμησης (.927), εμφανίζει όμως ελαφρά μικρότερο ΜΑΕ και μεγαλύτερο ΙΑ (.948 έναντι.946). Το ΤΝΔ εμφανίζει επίσης καλύτερο CSI (.71) έναντι του 51

52 μοντέλου παλινδρόμησης (). Συνολικά το ΤΝΔ εμφανίζει ελαφρά καλύτερες επιδόσεις σε σχέση με το μοντέλο παλινδρόμησης. Ο 3 (μg/m 3 ) ΝΔ - Μοντέλο Γ ΝΔ - Μοντέλο Δ Πραγματικές τιμές 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 6.7: Σταθμός ΑΠΘ 23 Στο Σχήμα 6.7 συγκρίνουμε τα αποτελέσματα των δύο νευρωνικών δικτύων για την πρόβλεψη της χρονοσειράς του 23 για τον σταθμό του ΑΠΘ. Σημαντική είναι η βελτίωση που παρουσιάζεται με την εισαγωγή της συγκέντρωσης Ο 3 της προηγούμενης ώρας, κυρίως όσον αφορά την πρόβλεψη των μέγιστων τιμών. 52

53 14 Πραγματικές Τιμές Μοντέλο Δ 12 1 Ο 3 (μg/m 3 ) Ώρες Σχήμα 6.8: Μάρτιος 23 ΑΠΘ 53

54 Στο Σχήμα 6.8 συγκρίνουμε το μοντέλο Δ για ένα μόνο μήνα με τις πραγματικές τιμές, με τι οποίες παρατηρούμε ότι υπάρχει πολύ καλή συμφωνία Σταθμός Καλαμαριάς Η ίδια μεθοδολογία εφαρμόστηκε για το σταθμό παρακολούθησης ποιότητας αέρα της περιοχής της Καλαμαριάς. Το ΤΝΔ που εκπαιδεύτηκε αποτελείται από ένα κρυφό επίπεδο 1 κόμβων. Ο Πίνακας 6.2 παρουσιάζει τις τιμές των στατιστικών δεικτών που προέκυψαν από την εκπαίδευση των νευρωνικών δικτύων με δεδομένα της περιόδου Η επαλήθευση γίνεται με χρήση των μετρούμενων ωριαίων συγκεντρώσεων Ο 3 του έτους 24. Υπενθυμίζεται ότι ως μοντέλο Γ ονομάζεται το μοντέλο που χρησιμοποιεί τις μεταβλητές ΝΟ 2, θερμοκρασία, υγρασία, ταχύτητα ανέμου και διεύθυνση ανέμου, ενώ το μοντέλο Δ χρησιμοποιεί επιπλέον την συγκέντρωση Ο 3 της προηγούμενης ώρας. Πίνακας 6.2: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Καλαμαριάς Σύγκριση με δεδομένα του έτους 24 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE % % RRSE % 35.83% IA CSI A=, B=8, C= A=, B=8, C=1 Cross validation Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE 49.58% % RRSE % 33.77% IA CSI A=, B=2, C= A=, B=2, C=1 Παρατηρούμενες Μοντέλο Γ Μοντέλο Δ τιμές Μέση τιμή Τυπική απόκλιση Παρατηρούμε ότι η απόδοση του ΤΝΔ βελτιώνεται σημαντικά με την εισαγωγή της παραμέτρου της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Όσον αφορά τα στατιστικά της επίδοσης του ΤΝΔ ως προς το μοντέλο παλινδρόμησης, για το μοντέλο που περιλαμβάνει το Ο 3 της προηγούμενης ώρας ισχύει ότι: βάσει 54

55 των δεδομένων για το έτος 24 το ΤΝΔ παρουσίασε ελάχιστα καλύτερο συντελεστή συσχέτισης (.942) έναντι του μοντέλου παλινδρόμησης (.941) και επίσης εμφάνισε μικρότερο ΜΑΕ (8.378 έναντι 9.544) και μεγαλύτερο ΙΑ (.966 έναντι.961). Το ΤΝΔ και το μοντέλο παλινδρόμησης εμφανίζουν CSI=. Στην συνέχεια τα δύο μοντέλα συγκρίνονται γραφικά (Σχήμα 6.9) με την πραγματική χρονοσειρά του Ο 3 για το έτος ΝΔ - Μοντέλο Γ O 3 (μg/m 3 ) 2 ΝΔ - Μοντέλο Δ Πραγματικές Τιμές /1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 6.9: Σταθμός Καλαμαριάς 24 Η γραφική αναπαράσταση των αποτελεσμάτων μας δείχνει ξεκάθαρα ότι το μοντέλο που χρησιμοποιεί την συγκέντρωση Ο 3 της προηγούμενης ώρας υπερτερεί του μοντέλου Γ, αφού προβλέπει με μεγάλη επιτυχία τις διακυμάνσεις της πραγματικής χρονοσειράς. Μια σημαντική αδυναμία και των δύο μοντέλων είναι η μη-πρόβλεψη των 8 ημερών επεισοδίων που σημειώθηκαν κατά την περίοδο του έτους Σταθμός Σίνδου Τα επόμενα μοντέλα ΤΝΔ αναφέρονται στον σταθμό της περιοχής της Σίνδου. Τα δεδομένα που θα χρησιμοποιηθούν για την εκπαίδευση των δικτύων αναφέρονται στην χρονική περίοδο 21-22, ενώ για σύγκριση θα χρησιμοποιηθούν δεδομένα του έτους 23. Τα ΤΝΔ που αναπτύχθηκαν, 55

56 αποτελούνται από ένα κρυφό επίπεδο με 1 κόμβους, και η απόδοση τους βάσει των στατιστικών δεικτών παρουσιάζεται στον Πίνακα 6.3. Παρατηρούμενες Μοντέλο Γ Μοντέλο Δ τιμές Μέση τιμή Τυπική απόκλιση Πίνακας 6.3: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Σίνδου Σύγκριση με δεδομένα του έτους 23 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE 69.17% 3.346% RRSE 71.19% % IA CSI A=, B=, C= A=, B=, C= Cross validation Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE 42.12% % RRSE % % IA CSI A=, B=, C= A=, B=, C= Παρατηρούμε ότι η απόδοση του ΤΝΔ βελτιώνεται σημαντικά με την εισαγωγή της παραμέτρου της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Σε σχέση με τα στατιστικά της επίδοσης του ΤΝΔ ως προς την παλινδρόμηση, και για το μοντέλο που περιλαμβάνει το Ο 3 της προηγούμενης ώρας, ισχύει ότι: βάσει των δεδομένων για το έτος 23 το ΤΝΔ υπερτερεί ως προς τον συντελεστή συσχέτισης (.945) έναντι του μοντέλου παλινδρόμησης (.936). Επίσης το ΤΝΔ εμφανίζει μικρότερο ΜΑΕ (9.977) σε σχέση με το μοντέλο παλινδρόμησης (1.82) και ελαφρά μεγαλύτερο ΙΑ (.969 έναντι.963). 56

57 2 15 ΝΔ - Μοντέλο Γ 1 5 O 3 (μg/m 3 ) ΝΔ - Μοντέλο Δ Πραγματικές Τιμές 1 5 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 6.1: Σταθμός Σίνδου 24 Το Σχήμα 6.1 απεικονίζει την βελτίωση που έχουμε με την εισαγωγή της συγκέντρωσης Ο 3 της προηγούμενης ώρας κυρίως στις μέγιστες τιμές συγκεντρώσεων, τις οποίες το μοντέλο Γ αδυνατεί να απεικονίσει. Σημειώνεται ότι οι προβλέψεις των τελευταίων ημερών του μήνα Δεκεμβρίου δεν μπορούν να θεωρηθούν αξιόπιστες λόγω κενών σε όλες τις χρονοσειρές των μεταβλητών, τα οποία συμπληρώθηκαν αναγκαστικά με τις μέσες τιμές αφού ο αλγόριθμος BPCA δεν μπορούσε να εφαρμοστεί σε περιπτώσεις όπου λείπουν όλες οι τιμές των μεταβλητών για την ίδια ώρα. Επίσης στα Σχήματα 6.11 και 6.12 που ακολουθούν συγκρίνονται τα δύο μοντέλα για τον μήνα Ιούνιο του έτους 23 για μία πιο αναλυτική σύγκριση των δύο μοντέλων. 57

58 18 16 Πραγματικές Τιμές Μοντέλο Δ O 3 (μg/m 3 ) Ώρες Σχήμα 6.11: Σταθμός Σίνδου Ιούνιος 23. Σύγκριση μοντέλου Δ με πραγματικές τιμές. 58

59 16 Πραγματικές Τιμές Μοντέλο Γ Ο 3 (μg/m 3 ) Ώρες Σχήμα 6.12: Σταθμός Σίνδου Ιούνιος 23. Σύγκριση μοντέλου Γ με τις πραγματικές τιμές. 59

60 6.6.4 Σταθμός Κορδελιού Με χρήση των δεδομένων από την χρονική περίοδο κατασκευάστηκαν δύο ΤΝΔ για την πρόγνωση των ωριαίων συγκεντρώσεων Ο 3 στην περιοχή του σταθμού παρακολούθησης ποιότητας αέρα στην περιοχή του Κορδελιού. Οι μετρήσεις του έτους 23 θα χρησιμοποιηθούν για την επαλήθευση του ΤΝΔ. Η δομή του ΤΝΔ αποτελείται από ένα κρυφό επίπεδο 1 υπολογιστικών κόμβων. Οι τιμές των στατιστικών δεικτών παρουσιάζονται στον Πίνακα 6.4. Παρατηρούμενες Μοντέλο Γ Μοντέλο Δ τιμές Μέση τιμή Τυπική απόκλιση Πίνακας 6.4: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Κορδελιού Σύγκριση με δεδομένα του έτους 23 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE % 45.31% RRSE % % IA CSI A=, B=2, C= A=, B=2, C= Cross validation Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE 45.95% 32.92% RRSE 5.454% % IA CSI A=, B=14, C=.111 A=2, B=12, C=4 Για το μοντέλο Γ οι τιμές των σφαλμάτων είναι αρκετά υψηλές όμως βελτιώνονται σημαντικά στην περίπτωση του μοντέλου Δ. Στην επαλήθευση με διασταυρωμένη επικύρωση (cross - validation) όπου και είχαμε μεγαλύτερο αριθμό ημερών επεισοδίων υψηλής συγκέντρωσης Ο 3, το μοντέλο Δ μπόρεσε και πρόβλεψε τις 2 από τις συνολικές 14, σημείωσε όμως και 4 λανθασμένες προβλέψεις. Σε σχέση με τα στατιστικά της επίδοσης του ΤΝΔ ως προς την παλινδρόμηση, και για το μοντέλο που περιλαμβάνει το Ο 3 της προηγούμενης ώρας, ισχύει 6

61 ότι: βάσει των δεδομένων για το έτος 23 το ΤΝΔ εμφανίζει σχεδόν ίδιο συντελεστή συσχέτισης (.93) με το μοντέλο παλινδρόμησης (.92), αλλά εμφανίζει όμως μικρότερο ΜΑΕ (13.19 έναντι 14.53) και ελαφρώς μεγαλύτερο ΙΑ (.9312 έναντι.9278). Τόσο το ΤΝΔ όσο και το μοντέλο παλινδρόμησης εμφανίζουν CSI=. Η γραφική σύγκριση των δύο μοντέλων με την παρατηρούμενη χρονοσειρά Ο 3 του έτους 23 παρουσιάζεται στο Σχήμα ΝΔ - Μοντέλο Γ Ο 3 (μg/m 3 ) 2 ΝΔ - Μοντέλο Δ Πραγματικές Τιμές /1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 6.13: Σταθμός Κορδελιού 23 Η ικανότητα του μοντέλου Γ κυρίως στο να προβλέψει τις μέγιστες τιμές είναι αρκετά περιορισμένη. Παρόλα αυτά στην περίπτωση του μοντέλου Δ τα αποτελέσματα είναι σαφώς πιο ικανοποιητικά. Παρακάτω παρουσιάζεται ένα διαγράμματα σύγκρισης για τον μήνα Απρίλιο του 23 για κάθε ένα από τα δύο μοντέλα που αναπτύχθηκαν. 61

62 16 14 Πραγματικές Τιμές Μοντέλο Δ 12 Ο 3 (μg/m 3 ) Ώρες Σχήμα 6.14: Σταθμός Κορδελιού Απρίλιος 23 62

63 16 14 Πραγματικές Τιμές Μοντέλο Γ 12 1 Ο 3 (μg/m 3 ) Ώρες Σχήμα 6.15: Σταθμός Κορδελιού Απρίλιος 23 63

64 6.7 Συμπεράσματα Στο κεφάλαιο αυτό παρουσιάστηκε η εφαρμογή των τεχνητών νευρωνικών δικτύων (ΤΝΔ) για την πρόβλεψη των ωριαίων συγκεντρώσεων Ο 3 για την πόλη της Θεσσαλονίκης. Όλα τα μοντέλα ΤΝΔ που κατασκευάστηκαν προέβλεψαν σε ικανοποιητικό βαθμό την τάση μεταβολής της συγκέντρωσης Ο 3. Τόσο οι συντελεστές συσχέτισης όσο και οι τιμές των σφαλμάτων που υπολογίστηκαν και για τα δύο μοντέλα (με και χωρίς το Ο 3 της προηγούμενης ώρας) που αναπτύχθηκαν για κάθε ένα σταθμό παρουσίασαν βελτίωση για την περίπτωση του μοντέλου το οποίο έχει μνήμη της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Σημαντικό είναι να τονίσουμε ότι σε ορισμένες περιπτώσεις είχαμε και την επιτυχή πρόβλεψη ημερών επεισοδίων 3 ( O3 18 μg/ m ) πράγμα το οποίο δεν επιτεύχθηκε με τα μοντέλα γραμμικής παλινδρόμησης. Η δομή των νευρωνικών δικτύων που αναπτύχθηκε ήταν η MLP (Multi layer Perceptron) με ένα κρυφό επίπεδο 1 κόμβων στην οποία και καταλήξαμε μετά από δοκιμές τόσο με δίκτυα δύο κρυφών επιπέδων όσο και με δίκτυα ενός κρυφού επιπέδου αλλά περισσότερων κόμβων, τα οποία δεν παρουσίασαν σημαντικές βελτιώσεις στους στατιστικούς δείκτες (Παράρτημα Α). Έχει δε σημασία να αναφερθεί πως, όπως παρουσιάστηκε και στην ανάλυση μας για τον σταθμό της Σίνδου, είχαμε μία ελαφρά αύξηση των τιμών των σφαλμάτων όταν χρησιμοποιήσαμε ένα νευρωνικό δίκτυο δύο κρυφών επιπέδων με 2 κόμβους στο καθένα. 64

65 7.Δέντρα Αποφάσεων 7.1 Εισαγωγή Τα δέντρα αποφάσεων αποτελούν μία από τις υπολογιστικές μεθόδους της μηχανικής μάθησης (machine learning). Η λειτουργία τους αποσκοπεί στην πρόβλεψη για την τιμή μίας συγκεκριμένης μεταβλητής (μεταβλητή εισόδου), με βάση ένα σύνολο χαρακτηριστικών (attributes) που την περιγράφουν. Οι τιμές της μεταβλητής εισόδου μπορούν να είναι είτε συνεχείς είτε διακριτές. Η μάθηση μιας συνάρτησης διακριτών τιμών ονομάζεται ταξινόμηση (classification), ενώ η μάθηση μιας συνεχούς συνάρτησης ονομάζεται παλινδρόμηση (regression). Τα δέντρα αποφάσεων εκτελούν μία ακολουθία ελέγχων για να μπορέσουν να εξάγουν τα τελικά συμπεράσματα τους. Κάθε ένας από τους κόμβους (nodes) τους αναλαμβάνει στο να ελέγξει την τιμή ενός συγκεκριμένου χαρακτηριστικού, ενώ τα οι κόμβοι φύλλου (leaf nodes) καθορίζουν την τιμή που επιστρέφεται από το δέντρο όταν προσπελαστεί το συγκεκριμένο φύλλο. Για το δέντρο αποφάσεων του Σχήματος 7.1 οι κόμβοι σχεδιάζονται με κύκλο ενώ οι κόμβοι φύλλου με τετράγωνο και η λειτουργία τους αναλύεται στο παρακάτω παράδειγμα. Για να γίνει πιο κατανοητή η λειτουργία των δέντρων αποφάσεων θα παρουσιάσουμε αρχικά ένα απλό παράδειγμα ταξινόμησης, στο οποίο με βάση τις καιρικές συνθήκες (ηλιοφάνεια, θερμοκρασία, υγρασία, αέρας) της ημέρας θα αποφασίζουμε αν η μεταβλητή παιχνίδι θα παίρνει την τιμή ναι ή όχι (Πίνακας 7.1). Πίνακας 7.1 Όψη Θερμοκρασία Υγρασία Αέρας Παιχνίδι ηλιοφάνεια ζεστή υψηλή ψευδές όχι ηλιοφάνεια ζεστή υψηλή αληθές όχι νεφώδης ζεστή υψηλή ψευδές ναι βροχερή ήπια υψηλή ψευδές ναι βροχερή ψυχρή κανονική ψευδές ναι βροχερή ψυχρή κανονική αληθές όχι νεφώδης ψυχρή κανονική αληθές ναι ηλιοφάνεια ήπια υψηλή ψευδές όχι ηλιοφάνεια ψυχρή κανονική ψευδές ναι βροχερή ήπια κανονική ψευδές ναι ηλιοφάνεια ήπια κανονική αληθές ναι νεφώδης ήπια υψηλή αληθές ναι νεφώδης ζεστή κανονική ψευδές ναι βροχερή ήπια υψηλή αληθές όχι Η μορφή του δέντρου αποφάσεων για το παράδειγμα μας παρουσιάζεται στο Σχήμα 7.1 όπου και παρατηρούμε την ακολουθία των ελέγχων που πρέπει να γίνουν για να παρθεί η τελική απόφαση. Σε κάθε ένα από τους κόμβους, οι οποίοι σχεδιάζονται με κύκλο, γίνεται ο έλεγχος της τιμής που παίρνει η συγκεκριμένη μεταβλητή (π.χ. υγρασία: υψηλή ή κανονική) έτσι ώστε να οδηγηθούμε στον ανάλογο κόμβο φύλλου ο οποίος και δίνει την τιμή που θα επιστραφεί από το δέντρο (ναι ή όχι). 65

66 Σχήμα 7.1: Δέντρο αποφάσεων Στην κατασκευή των δέντρων αποφάσεων αυτό που μας ενδιαφέρει περισσότερο είναι η κατασκευή ενός όσο το δυνατόν μικρότερου δέντρου που να οδηγεί σε όσο το δυνατόν πιο σωστή ταξινόμηση. Το βασικότερο ερώτημα είναι από ποιο χαρακτηριστικό θα πρέπει να ξεκινήσει η κατασκευή του δέντρου ώστε να επιτευχθούν τα παραπάνω. Με αυτόν τον τρόπο θα έχουμε και σωστή ταξινόμηση αλλά και το δέντρο στο σύνολο του θα είναι επαρκώς μικρό. Χρησιμοποιώντας τα δεδομένα του Πίνακα 7.1 ξανά, βλέπουμε στο Σχήμα 7.2 τους τέσσερις διαφορετικούς τρόπους με τους οποίους μπορούμε να ξεκινήσουμε το δέντρο αποφάσεων. 66

67 Σχήμα 7.2 Για να μπορέσουμε να αξιολογήσουμε κάθε μία από τις διαφορετικές δομές του Σχήματος 7.2, εισάγουμε την έννοια της πληροφορίας (information) η οποία μετριέται σε δυαδικά ψηφία (bits). Ένα δυαδικό ψηφίο αρκεί για να απαντηθεί μια ερώτηση ναι/όχι. Γενικά αν έχουμε υ i δυνατές απαντήσεις με πιθανότητες P( υ i ) τότε το περιεχόμενο πληροφορίας I ή αλλιώς η εντροπία, της πραγματικής απάντησης δίνεται από τον τύπο 1 n IP ( ( υ,..., P( υ )) = P( υ )log P( υ ) (1) 1 n i 2 i i= 1 Για το παράδειγμα που παρουσιάζεται, και συγκεκριμένα για το δέντρο a, ανάλογα με την τιμή της μεταβλητής «όψη», οδηγούμαστε σε μία αντίστοιχη ομάδα αποτελεσμάτων για την τιμή της μεταβλητής «παιχνίδι» (ναι ή όχι). Η ομάδα αυτή ονομάζεται κλάση. Κάθε μία από τις κλάσεις αυτές συμβολίζεται με την παράσταση [αριθμός ναι, αριθμός όχι]. Άρα για το δέντρο a έχουμε τρεις κλάσεις αποτελεσμάτων, τις [2,3], [4,] και [3,2] βάσει της τιμής της 67

68 μεταβλητής «όψη». Η τιμή της πληροφορίας για κάθε μία από αυτές τις κλάσεις σύμφωνα με την εξίσωση 1 θα είναι: I([2,3]) = 2 / 5log22 / 5 3/ 5log23/ 5 =.971bits I([4,]) = 4/4log24/4 /4log2/4= bits I([3, 2]) = 3/ 5log 3/ 5 2 / 5log 2 / 5 =.971bits 2 2 Μπορούμε επίσης να υπολογίσουμε την μέση πληροφορία λαμβάνοντας υπόψη τον αριθμό των «γεγονότων» κάθε κλάδου δηλαδή I([2,3],[4, ],[3, 2]) = (5/14) (4 /14) + (5/14).971 =.693bits Η τιμή αυτή αναπαριστά το ποσό πληροφορίας που αναμένεται ότι είναι αναγκαίο για την ταξινόμηση ενός νέου περιστατικού (instance) δεδομένης της δομής του Σχήματος 7.2(a). Το κέρδος πληροφορίας (information gain) που θα έχουμε αν ξεκινήσουμε την κατασκευή σύμφωνα με το δέντρο του Σχήματος 7.2(a) θα είναι ίσο με gain( οψη ) = I([9,5]) I([2,3],[4,],[3,2]) = =.247bits Ακολούθως υπολογίζουμε το κέρδος πληροφορίας για κάθε ένα δέντρο του Σχήματος 7.2 και οδηγούμαστε στις τιμές gain(όψη)=.247 bits gain(θερμοκρασία)=.29 bits gain(υγρασία)=.152 bits gain(αέρας)=.48 bits άρα προκύπτει ότι η μεταβλητή «όψη» είναι και η καταλληλότερη για να ξεκινήσουμε την κατασκευή του δέντρου. Οι δυνατές μορφές στις οποίες οδηγούμαστε τώρα φαίνονται στο Σχήμα

69 Σχήμα 7.3 Ακολούθως υπολογίζουμε ξανά το κέρδος πληροφορίας για τρεις όμως τώρα μεταβλητές gain(θερμοκρασία)=.571 bits gain(υγρασία)=.971 bits gain(αέρας)=.2 bits Συνεχίζοντας την ίδια διαδικασία οδηγούμαστε τελικά στο δέντρο αποφάσεων του Σχήματος

70 7.2 Εφαρμογή των δέντρων αποφάσεων σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Στο κεφάλαιο αυτό θα παρουσιάσουμε την ανάπτυξη δέντρων αποφάσεων με στόχο την πρόβλεψη της ωριαίας συγκέντρωσης Ο 3 σε διάφορες περιοχές της πόλης της Θεσσαλονίκης. Θα χρησιμοποιήσουμε διακριτές τιμές όσον αφορά τις συγκεντρώσεις Ο 3 και ΝΟ 2 με βάση κάποια όρια που έχουν τεθεί για τα επίπεδα των τιμών τους. Τα όρια αυτά παρουσιάζονται αναλυτικά στον Πίνακα 7.2. Πίνακας 7.2: Χαρακτηρισμός των επιπέδων ρύπου ανάλογα με την τιμή του Επίπεδο Ρύπου Συγκέντρωση Ο 3 (μg/m 3 ) Συγκέντρωση ΝΟ 2 (μg/m 3 ) Πολύ χαμηλό O 3 < 6 NO 2 < 1 Χαμηλό 6 O3 < 11 1 NO2 < 2 Μέτριο 11 O3 < 18 2 NO2 < 25 Άνω του μετρίου 18 O 3< NO2 < 28 Υψηλό 24 O3 < NO2 < 36 Εξαιρετικά υψηλό O3 36 NO2 36 Η αναπαράσταση των τιμών των συγκεντρώσεων ενός ρύπου με δείκτες βαθμού επικινδυνότητας μπορεί να φανεί χρήσιμη στην περίπτωση όπου η χρήση του μοντέλου γίνεται για την ενημέρωση του κοινού. Στην περίπτωση αυτή η παρουσίαση μίας τιμής συγκεντρώσεως θα ήταν δυσνόητη και δεν θα εξυπηρετούσε το σκοπό λειτουργίας ενός μοντέλου πρόγνωσης σε επιχειρησιακό επίπεδο. Το πακέτο λογισμικού που θα χρησιμοποιήσουμε είναι το WEKA 3.4 ενώ ο αλγόριθμος για την κατασκευή των δέντρων αποφάσεων είναι ο J4.8 ο οποίος αποτελεί μία νεότερη και ελαφρώς βελτιωμένη έκδοση του αλγόριθμου C4.5 (Witten & Frank, 25) Σταθμός Α.Π.Θ Χρησιμοποιούνται δεδομένα της περιόδου για να κατασκευαστεί ένα δέντρο αποφάσεων με σκοπό την πρόγνωση των ωριαίων συγκεντρώσεων Ο 3 και συγκεκριμένα των ορίων μέσα στα οποία θα κινηθούν, όπως αυτά ορίζονται στον πίνακα 2. Τα δεδομένα του έτους 23 θα χρησιμοποιηθούν για την επαλήθευση. Όπως και στην περίπτωση των νευρωνικών δικτύων και της γραμμικής παλινδρόμησης θα κατασκευαστούν δύο μοντέλα ανά σταθμό. Το πρώτο θα χρησιμοποιεί τις μεταβλητές ΝΟ 2, θερμοκρασία, υγρασία, ταχύτητα ανέμου και την μετασχηματισμένη διεύθυνση ανέμου (μοντέλο Ε), ενώ το δεύτερο θα χρησιμοποιεί τις ίδιες μεταβλητές συν την συγκέντρωση Ο 3 της προηγούμενης ώρας (μοντέλο Ζ). Η αξιολόγηση της επίδοσης των μοντέλων δέντρων αποφάσεων θα γίνει με βάση τον αριθμό των ορθών και λανθασμένων προβλέψεων για κάθε ένα από τα προκαθορισμένα επίπεδα τιμών όπως αυτά παρουσιάζονται στον Πίνακα

71 Πίνακας 7.3: Σύγκριση των δύο μοντέλων για τον σταθμό του ΑΠΘ Σύγκριση με δεδομένα του 23 Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες περιπτώσεις 73.95% (6478/876) % (7523/876) Λανθασμένα ταξινομημένες 26.5% (2282/876) % (1237/876) περιπτώσεις RAE % 37.25% RRSE 84.56% % Cross - validation Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες 8.212% % περιπτώσεις Λανθασμένα ταξινομημένες περιπτώσεις (1453/1752) % (3467/1752) (15291/1752) % (2229/1752) RAE 5.431% 35.81% RRSE % 61.49% Παρατηρείται ότι το ποσοστό των ορθά ταξινομημένων περιπτώσεων αυξάνει στην περίπτωση του μοντέλου Ζ όπου εισάγεται η συγκέντρωση Ο 3 της προηγούμενης ώρας. Επίσης σαν ένα δεύτερο μέσο σύγκρισης θα παρουσιάσουμε και τον «πίνακα σύγχυσης» (confusion matrix). Κάθε γραμμή και κάθε στήλη του πίνακα σύγχυσης αντιστοιχεί σε κάθε μία από τις κλάσεις στις οποίες έχουν χωριστεί τα δεδομένα μας. Για κάθε στοιχείο του πίνακα η γραμμή του αντιστοιχεί στην κλάση στην οποία ανήκει ενώ η στήλη του αντιστοιχεί στην κλάση στην οποία προβλέφθηκε ότι ανήκει. Οι μεγάλες τιμές κατά μήκος της διαγωνίου του πίνακα σε συνδυασμό με μικρά ή μηδενικά μη διαγώνια στοιχεία είναι ενδεικτικά αποτελεσμάτων μεγάλης ακρίβειας. Επίσης από τον πίνακα σύγχυσης μπορούμε εύκολα να παρατηρήσουμε τις ημέρες επεισοδίων που παρατηρήθηκαν και το κατά πόσο αυτές προβλέπονται σωστά από το δέντρο αποφάσεων. Πίνακας 7.4: Πίνακας σύγχυσης ΑΠΘ, διασταυρωμένη επικύρωση Cross-validation Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 92.64% 7.26%.1% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 33.65% 55.99% 1.36% Μέτριο 2.27% 25.97% 71.75% Άνω του μετρίου 1% Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ 71

72 Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 93.39% 6.58%.3% Χαμηλό 17.97% 77.25% 4.78% Μέτριο.33% 21.48% 78.8%.11% Άνω του μετρίου 33.33% 66.67% Υψηλό Εξαιρετικά υψηλό Πίνακας 7.5: Πίνακας σύγχυσης ΑΠΘ, επαλήθευση με δεδομένα του 23 Σύγκριση με δεδομένα του 23 Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 9.57% 9.27%.16% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 45.79% 45.79% 8.42% Μέτριο 1.56% 37.54% 6.9% Άνω του μετρίου 7.14% 92.86% Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 92.64% 7.33%.4% Χαμηλό 18.19% 77.33% 4.48% Μέτριο.43% 24.5% 74.91%.61% Άνω του μετρίου 14.29% 71.43% 14.29% Υψηλό Εξαιρετικά υψηλό Ο Πίνακας 7.5 παρουσιάζει την έστω και φτωχή ικανότητα του δέντρου αποφάσεων να προβλέψει σωστά 2 (14.29%) από τις συνολικά 14 περιπτώσεις συναγερμού που παρατηρήθηκαν κατά το έτος 23 ενώ είναι εμφανής η τάση υποεκτίμησης των τιμών. Αντίθετα η ανάλυση με νευρωνικά δίκτυα μπόρεσε να προβλέψει ορθά μόνο μία από τις ημέρες επεισοδίου Σταθμός Καλαμαριάς Κατασκευάζεται και εκπαιδεύεται ένα δέντρο αποφάσεων για τον σταθμό της περιοχής της Καλαμαριάς. Τα δεδομένα από την περίοδο θα χρησιμοποιηθούν για την εκπαίδευση ενώ αυτά του έτους 24 για επαλήθευση. Τα αποτελέσματα παρουσιάζονται στον πίνακα 6. 72

73 Πίνακας 7.6: Σύγκριση των δύο μοντέλων για τον σταθμό Καλαμαριάς Σύγκριση με δεδομένα του 24 Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες περιπτώσεις 73,1% (6413/8784) % (7443/8784) Λανθασμένα ταξινομημένες % (2371/8784) % (1341/8784) περιπτώσεις RAE % 4.492% RRSE 99.63% % Cross - validation Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες 85.92% 9.993% περιπτώσεις Λανθασμένα ταξινομημένες περιπτώσεις (22575/2628) 14.98% (375/2628) (23913/2628) 9.7% (2367/2628) RAE % % RRSE % % Παρατηρείται για ακόμα μία φορά (Πίνακας 7.6) η βελτίωση που παρουσιάζεται με την εισαγωγή της συγκέντρωσης Ο 3 της προηγούμενης ώρας και η αύξηση του ποσοστού των περιπτώσεων που ταξινομούνται ορθά. Πίνακας 7.7: Πίνακας σύγχυσης σταθμός Καλαμαριάς, διασταυρωμένη επικύρωση Cross-validation Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 93.22% 6.71%.7% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 26.36% 71.28% 2.36% Μέτριο 1.66% 64.24% 33.97%.13% Άνω του μετρίου 5% 5% Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 95.39% 4.6%.1% Χαμηλό 16.87% 81.3% 1.84% Μέτριο.13% 32.18% 67.56%.13% Άνω του μετρίου 1% Υψηλό Εξαιρετικά υψηλό 73

74 Πίνακας 7.8: Πίνακας σύγχυσης σταθμού Καλαμαριάς, επαλήθευση με δεδομένα του 24 Σύγκριση με δεδομένα του 24 Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 85.2% 14.55%.26% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 45.79% 52.52% 1.69% Μέτριο 58.24% 39.95% 1.81% Άνω του μετρίου 1% Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 94.44% 5.56% Χαμηλό 28.99% 7.49%.52% Μέτριο 6.32% 75.17% 18.51% Άνω του μετρίου 62.5% 37.5% Υψηλό Εξαιρετικά υψηλό Στον Πίνακα 7.8 φαίνεται ότι τα δέντρα αποφάσεων αποτυγχάνουν να κατηγοριοποιήσουν σωστά όλες τις ημέρες επεισοδίων που σημειώθηκαν κατά το έτος δοκιμής. Η αποτυχία σημειώθηκε και για τα δύο μοντέλα που αναπτύξαμε όπως επίσης συνέβη και στην περίπτωση των νευρωνικών δικτύων Σταθμός Σίνδου Κατασκευάζονται δύο μοντέλα δέντρων αποφάσεων για δεδομένα από τον σταθμό παρακολούθησης ποιότητας αέρα της περιοχής της Σίνδου για την χρονική περίοδο Οι στατιστικοί δείκτες που προκύπτουν τόσο από την διασταυρωμένη επικύρωση (cross-validation) όσο και από την επαλήθευση των μοντέλων με τα δεδομένα του έτους 23 παρουσιάζονται στον Πίνακα 7.9. Πίνακας 7.9: Σύγκριση των δύο μοντέλων για τον σταθμό Σίνδου Σύγκριση με δεδομένα του 23 Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες περιπτώσεις 71.21% (6238/876) 87.89% (7629/876) Λανθασμένα 28.79% % 74

75 ταξινομημένες (2522/876) (1131/876) περιπτώσεις RAE % % RRSE % % Cross - validation Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες περιπτώσεις % (13581/1752) % (1513/1752) Λανθασμένα ταξινομημένες % (3939/1752) % (239/1752) περιπτώσεις RAE 5.43% % RRSE 75.99% 6.976% Όπως επίσης μπορούμε να παρατηρήσουμε από τους πίνακες σύγχυσης για τον σταθμό Σίνδου (Πίνακες 7.1 & 7.11) ο αριθμός των λανθασμένα ταξινομημένων περιπτώσεων μειώνεται σημαντικά. «Δυστυχώς» δεν είχαν σημειωθεί ημέρες υψηλής συγκέντρωσης στον συγκεκριμένο σταθμό για την συγκεκριμένη περίοδο για να μπορέσουμε να αξιολογήσουμε την ικανότητα του μοντέλου να τις προβλέψει. Πίνακας 7.1: Πίνακας σύγχυσης σταθμός Σίνδου, διασταυρωμένη επικύρωση Cross-validation Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 87.29% 12.58%.13% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 24.77% 67.16% 8.7% Μέτριο 2.3% 32.88% 64.82% Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 9.35% 9.63%.2% Χαμηλό 11.51% 82.59% 5.9% Μέτριο.24% 19.9% 79.87% Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό 75

76 Πίνακας 7.11: Πίνακας σύγχυσης σταθμού Σίνδου, επαλήθευση με δεδομένα του 23 Σύγκριση με δεδομένα του 23 Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 88.1% 11.69%.21% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 42.7% 54.3% 3.89% Μέτριο 1.43% 39.67% 58.91% Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 9.25% 9.73%.2% Χαμηλό 9.81% 85.68% 4.51% Μέτριο 19.87% 8.13% Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Σταθμός Κορδελιού Κατασκευάστηκε δέντρο αποφάσεων για τον σταθμό της περιοχής του Κορδελιού. Τα δεδομένα που χρησιμοποιήθηκαν για την κατασκευή των δέντρων αποφάσεων αναφέρονται στην χρονική περίοδο ενώ τα δεδομένα του έτους 23 χρησιμοποιήθηκαν για την αξιολόγηση του μοντέλου. Οι στατιστικοί δείκτες παρουσιάζονται στον Πίνακα Πίνακας 7.12: Σύγκριση των δύο μοντέλων για τον σταθμό Κορδελιού Σύγκριση με δεδομένα του 23 Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες περιπτώσεις % (5768/876) % (76/876) Λανθασμένα ταξινομημένες % (2992/876) % (116/876) περιπτώσεις RAE % % RRSE % 6.512% Cross - validation Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες 76.96% % περιπτώσεις Λανθασμένα ταξινομημένες (13332/1752) 23.94% (4188/1752) (1532/1752) 14.2% (2488/1752) 76

77 περιπτώσεις RAE 55.21% % RRSE 8.788% % Από τους πίνακες σύγχυσης που ακολουθούν (Πίνακες 7.13 & 7.14) φαίνεται η βελτίωση που παρουσιάζεται στα αποτελέσματα μας όταν εισάγουμε την μεταβλητή της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Ωστόσο δεν μπορούμε να πούμε ότι η επίδοση των δέντρων που κατασκευάσαμε είναι αρκετά ικανοποιητική όσον αφορά την πρόβλεψη των ημερών επεισοδίων. Πίνακας 7.13: Πίνακας σύγχυσης σταθμός Κορδελιού, διασταυρωμένη επικύρωση Cross-validation Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 88.76% 1.6%.64% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 3.79% 59.5% 9.71% Μέτριο 5.46% 36.3% 58.18%.5% Άνω του μετρίου 8.33% 33.33% 41.67% 16.67% Υψηλό 5% 5% Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 92.8% 7.9%.1%.1% Χαμηλό 17.57% 77.23% 5.2% Μέτριο.22% 21.5% 78.23%.5% Άνω του μετρίου 8.33% 75% 16.67% Υψηλό 1% Εξαιρετικά υψηλό Πίνακας 7.14: Πίνακας σύγχυσης σταθμού Κορδελιού, επαλήθευση με δεδομένα του 23 Σύγκριση με δεδομένα του 23 Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 75.33% 2.45% 4.22% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 48.2% 45.28% 6.7% Μέτριο 3.39% 55.97% 4.65% Άνω του μετρίου 1% Υψηλό Εξαιρετικά υψηλό 77

78 Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 89.3% 9.34% 1.36% Χαμηλό 18.83% 77.2% 4.16% Μέτριο.16% 16.45% 83.39% Άνω του μετρίου 5% 5% Υψηλό Εξαιρετικά υψηλό 7.3 Συμπεράσματα Παρουσιάστηκε η εφαρμογή των δέντρων αποφάσεων με σκοπό την ταξινόμηση (classification) των τιμών συγκέντρωσης Ο 3 για διάφορους σταθμούς μέτρησης παρακολούθησης αέρα της πόλης της Θεσσαλονίκης. Ένα αρκετά ικανοποιητικό ποσοστό ταξινομήθηκε στις κατηγορίες στις οποίες πραγματικά ανήκε σύμφωνα με τις παρατηρούμενες χρονοσειρές. Παρόλα αυτά οι ημέρες επεισοδίων σε πολλές περιπτώσεις προβλέφθηκαν λανθασμένα και σε πολύ λίγες ορθά. Σε πολλές περιπτώσεις τα δέντρα αποφάσεων παρουσίασαν το πρόβλημα υποεκτίμησης των τιμών. 78

79 8. Επίλογος Στην παρούσα εργασία παρουσιάστηκε η εφαρμογή στατιστικών μεθόδων και μεθόδων υπολογιστικής νοημοσύνης με σκοπό την πρόβλεψη των ωριαίων συγκεντρώσεων Ο 3 για τις περιοχές ορισμένων από τους σταθμούς του δικτύου παρακολούθησης ποιότητας αέρα της πόλης της Θεσσαλονίκης (Α.Π.Θ., Καλαμαριά, Σίνδος, Κορδελιό). Τα δεδομένα τα οποία χρησιμοποιήθηκαν αναφέρονται στην χρονική περίοδο για τους σταθμούς του Α.Π.Θ., της Σίνδου και του Κορδελιού και στην περίοδο για τον σταθμό της Καλαμαριάς, και η ανάλυση τους ξεκίνησε με τους υπολογισμούς περιοδικοτήτων μέσω περιοδογραμμάτων. Κατόπιν έγινε η επιλογή των παραμέτρων οι οποίες συμβάλουν στον σχηματισμό του Ο 3, με χρήση της μεθόδου Principal Component Analysis (PCA). Οι παράμετροι που επιλέχθηκαν βάσει της PCA είναι η ωριαία συγκέντρωση ΝΟ 2, η θερμοκρασία, η υγρασία, η ταχύτητα ανέμου και η διεύθυνση ανέμου. Ακολούθως κατασκευάστηκαν μοντέλα γραμμικής παλινδρόμησης και μοντέλα τεχνητών νευρωνικών δικτύων (ΤΝΔ) για την πρόβλεψη των ωριαίων συγκεντρώσεων Ο 3 και επίσης μοντέλα δέντρων αποφάσεων για την πρόβλεψη των επιπέδων μέσα στα οποία θα κινηθούν οι μελλοντικές συγκεντρώσεις Ο 3. Τα μοντέλα παλινδρόμησης φάνηκε να υστερούν σε σχέση με αυτά των ΤΝΔ και κυρίως όσον αφορά την πρόβλεψη των μέγιστων ωριαίων συγκεντρώσεων. Αυτό οφείλεται στο γεγονός ότι τα ΤΝΔ μπορούν να μοντελοποιήσουν μη γραμμικά φαινόμενα όπως αυτό του σχηματισμού του Ο 3 στην ατμόσφαιρα. Μία σημαντική βελτίωση στα αποτελέσματα των μοντέλων σημειώθηκε με την χρήση της παραμέτρου της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Στους πίνακες που ακολουθούν παρουσιάζονται τα συνολικά αποτελέσματα όλων των μεθόδων για τα μοντέλα τα οποία χρησιμοποιούν την συγκέντρωση Ο 3 της προηγούμενης ώρας. Πίνακας 8.1: Σταθμός ΑΠΘ. Αποτελέσματα όλων των μεθόδων για το έτος 23 Σταθμός ΑΠΘ. Σύγκριση με δεδομένα του έτους 23 Παλινδρόμηση ΤΝΔ Συντελεστής συσχέτισης r MAE RMSE RAE 39.4% % RRSE 42.33% % IA CSI A=, B=14, C=.71 A=1, B=11, C=2 Τα δέντρα αποφάσεων δεν χρησιμοποιούν μεταβλητές τις ίδιας φύσης με τα ΤΝΔ και τα μοντέλα παλινδρόμησης οπότε δεν μπορεί να γίνει άμεση σύγκριση των αποτελεσμάτων τους με αυτά των ΤΝΔ και των μοντέλων παλινδρόμησης. Για λόγους εποπτείας αναφέρουμε ότι για τον σταθμό του 79

80 Α.Π.Θ. τα δέντρα αποφάσεων εμφάνισαν RAE = 37.25% και RRSE = %. Πίνακας 8.2: Σταθμός Καλαμαριάς. Αποτελέσματα όλων των μεθόδων για το έτος 24 Σταθμός Καλαμαριάς. Σύγκριση με δεδομένα του έτους 24 Παλινδρόμηση ΤΝΔ Συντελεστής συσχέτισης r MAE RMSE RAE 33.23% % RRSE 35.97% 35.83% IA CSI A=, B=8, C= A=, B=8, C=1 Τα δέντρα αποφάσεων για τον σταθμό Καλαμαριάς εμφάνισαν RAE = 4.492% και RRSE = %. Πίνακας 8.3: Σταθμός Σίνδου. Αποτελέσματα όλων των μεθόδων για το έτος 23 Σταθμός Σίνδου. Σύγκριση με δεδομένα του έτους 23 Παλινδρόμηση ΤΝΔ Συντελεστής συσχέτισης r MAE RMSE RAE 33.88% 3.346% RRSE 37.81% % IA CSI A=, B=, C= A=, B=, C= Τα δέντρα αποφάσεων για τον σταθμό της Σίνδου εμφάνισαν RAE = % και RRSE = %. Πίνακας 8.4: Σταθμός Κορδελιού. Αποτελέσματα όλων των μεθόδων για το έτος 23 Σταθμός Κορδελιού. Σύγκριση με δεδομένα του έτους 23 Παλινδρόμηση ΤΝΔ Συντελεστής συσχέτισης r MAE RMSE RAE 47.16% 45.31% RRSE 48.7% % IA CSI 8

81 A=, B=2, C= A=, B=2, C= Τα δέντρα αποφάσεων για τον σταθμό του Κορδελιού εμφάνισαν RAE = % και RRSE = 6.512%. Τα ΤΝΔ εμφανίζουν γενικά χαμηλές τιμές σφαλμάτων σε σχέση με τα μοντέλα παλινδρόμησης τα οποία παρουσιάζουν στις περισσότερες περιπτώσεις ελαφρά χαμηλότερη απόδοση. Οι τιμές των στατιστικών δεικτών εμφανίζουν ικανοποιητική σύγκλιση μεταξύ μοντέλου και μετρούμενων συγκεντρώσεων γεγονός που ενισχύει την άποψη ότι τόσο τα μοντέλα παλινδρόμησης όσο και τα ΤΝΔ μπορούν να χρησιμοποιηθούν για την επιτυχή βραχυχρόνια πρόγνωση επιπέδων συγκέντρωσης Ο 3. Παράλληλα ικανοποιητικά αποτελέσματα παρουσίασαν και τα μοντέλα δέντρων αποφάσεων, τα οποία αν και εμφάνισαν γενικά υψηλότερο RRSE από τις άλλες δύο μεθόδους, κατηγοριοποίησαν τα αποτελέσματά τους ορθά σε ένα μεγάλο ποσοστό (μεγαλύτερο το 85% για την περίπτωση όπου χρησιμοποιείται το Ο 3 της προηγούμενης ώρας). Πρέπει να σημειωθεί ότι η εφαρμογή των ΤΝΔ για την πρόγνωση των συγκεντρώσεων Ο 3 έχει γίνει σε αρκετές εργασίες. Έτσι για παράδειγμα οι Dutot et al 25, Chaloulakou et al 22 και Wang et al 25 ανέπτυξαν μοντέλα ΤΝΔ για την πρόγνωση των μέγιστων συγκεντρώσεων Ο 3 της επόμενης ημέρας. Οι Sousa et al 25 σε σχετική εργασία ανέπτυξαν μοντέλα παλινδρόμησης και ΤΝΔ για την πρόγνωση ωριαίων συγκεντρώσεων Ο 3 της επόμενης ημέρας. Τα αποτελέσματα βρίσκονται αρκετά κοντά στα αποτελέσματα της παρούσας εργασίας γεγονός που επιβεβαιώνει την αποτελεσματικότητα των μεθόδων. Σημαντικό είναι επίσης να σημειωθεί ότι η παρούσα εργασία αποτελεί μία από τις πρώτες προσπάθειες εφαρμογής των μεθόδων που παρουσιάστηκαν για την πόλη της Θεσσαλονίκης. 81

82 9. Παράρτημα Α: Δείκτες αξιολόγησης της επίδοσης των μοντέλων Παρουσιάζονται οι δείκτες που χρησιμοποιήθηκαν για την αξιολόγηση των προβλέψεων των μοντέλων που αναπτύχθηκαν στην παρούσα εργασία. Αναλυτικοί ορισμοί τους μπορούν να βρεθούν σε πολλές εργασίες (Willmott, 1982, Kolehmainen et al. 21): -Συντελεστής συσχέτισης μεταξύ προβλεπόμενων και πραγματικών τιμών r S PA = όπου SS p A ( a ) 2 i a S PA = ( pi p)( ai a) ( p ) 2 i p i n 1 S p = i n 1 i S A = n 1 οι δείκτες P και p αναφέρονται στις προβλεπόμενες τιμές ενώ οι δείκτες Α και α στις πραγματικές. Τα μεγέθη p i και p αντιστοιχούν στις προβλέψεις και στην μέση τους τιμή αντίστοιχα ενώ τα μεγέθη a i και a στις πραγματικές τιμές και στην μέση τους τιμή αντίστοιχα. p1 a pn an -Mean Absolute Error (MAE): n ( p1 a1) ( pn an) -Root Mean Squared Error (RMSE): n p1 a pn an -Relative Absolute Error (RAE): a a a a -Root Relative Squared Error (RRSE): -Index of Agreement (IA): IA = 1 i 1 i 2 2 n ( p a ) ( p a ) ( )... ( ) p n n 2 2 a1 a + + an a 2 i ai ( pi a + ai a) με τιμή που μεταβάλλεται μεταξύ του διαστήματος και 1. Όσο πιο κοντά στην μονάδα βρίσκεται η τιμή του τόσο καλύτερη είναι και η απόδοση του μοντέλου. A -Critical Success Index (CSI): CSI = A+ B+ C όπου Α οι περιπτώσεις όπου έχουμε υπέρβαση των επιτρεπτών ορίων για την συγκέντρωση του ρύπου (Ο 3 = 18μg/m 3 ) οι οποίες έχουν προβλεφθεί από το μοντέλο μας, Β οι περιπτώσεις όπου η υπέρβαση έλαβε χώρα αλλά δεν προβλέφθηκε και C οι περιπτώσεις η υπέρβαση προβλέφθηκε αλλά δεν παρατηρήθηκε. 2 και 82

83 1. Παράρτημα Β: Η μέθοδος Bayesian Principal Component Analysis (BPCA) Στην ανάλυση χρονοσειρών συναντάται συχνά το πρόβλημα των κενών στις μετρήσεις η οποία θα μπορούσε π.χ. να οφείλεται στην βλάβη του εξοπλισμού μετρήσεων. Το να αγνοηθούν τα κενά είναι μία μέθοδος η οποία εφαρμόζεται συχνά αλλά παρουσιάζει το μειονέκτημα της μείωσης του όγκου των διαθέσιμων για μελέτη δεδομένων. Υπάρχουν πολλές μέθοδοι οι οποίες μπορούν να χρησιμοποιηθούν για την κάλυψη των κενών σε ένα σετ δεδομένων (ΚΝΝ-impute, SVDimpute κ.α.). Στην παρούσα εργασία χρησιμοποιούμε τον αλγόριθμο BPCA ο οποίος εφαρμόζει την κατά Bayes PCA με σκοπό την συμπλήρωση των κενών σε ένα σετ δεδομένων. Ο αλγόριθμος υλοποιήθηκε με χρήση του λογισμικού MATLAB ( ). 83

84 11. Παράρτημα Γ: Επιλογή της δομής των ΤΝΔ Η επιλογή της δομής των ΤΝΔ γίνεται με την κατασκευή διαφορετικών μοντέλων και με την αξιολόγηση της επίδοσης τους (Pellccioni & Tirabassi, 23; Norgaard et al., 2; Corani 24; Jiang & Zhang & Hu & Zeng & Tan & Shao, 23). Στο παράρτημα αυτό παρουσιάζονται ορισμένες από τις εναλλακτικές δομές ΤΝΔ που αναπτύχθηκαν για κάποιους από τους σταθμούς που μελετήσαμε. Για τον σταθμό του ΑΠΘ, και σαν ένα μέτρο σύγκρισης της δομής που επιλέχθηκε για το ΤΝΔ, κατασκευάστηκε ένα ΤΝΔ που αποτελείται από δύο κρυφά επίπεδα με 15 και 1 κρυφούς κόμβους το καθένα και βάσει των στατιστικών δεικτών θα εξεταστεί το κατά πόσο υπήρξε βελτίωση στα αποτελέσματα. Σχήμα 11.1: Νευρωνικό δίκτυο δύο κρυφών επιπέδων με 15 και 1 κόμβους αντίστοιχα Πίνακας 11.1: Σύγκριση των δύο μοντέλων για τον σταθμό του ΑΠΘ με χρήση νευρωνικού δικτύου δύο κρυφών επιπέδων Σύγκριση με δεδομένα του έτους 23 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE % 4.44% RRSE % % IA CSI A=, B=14, C= Cross validation Μοντέλο Γ A=, B=14, C= Μοντέλο Δ 84

85 Συντελεστής συσχέτισης r MAE RMSE RAE 33.42% 25.61% RRSE 36.15% % IA CSI A=, B=6, C= A=, B=6, C= Η βελτίωση που παρουσιάζεται με την πιο πολύπλοκη δομή είναι πολύ μικρή όποτε και δεχόμαστε την εφαρμογή του νευρωνικού δικτύου με ένα επίπεδο, για το οποίο απαιτείται σημαντικά μικρότερος υπολογιστικός χρόνος για την εκπαίδευση του. Επίσης η πιο απλή μορφή νευρωνικού δικτύου παρουσίασε το πλεονέκτημα της επιτυχούς πρόβλεψης μίας ημέρας επεισοδίου για το έτος 23 όπώς φαίνεται από τον δείκτη Critical Success Index (CSI). Αναλυτικότερα, για το έτος 23 και για το μοντέλο που χρησιμοποιεί το Ο 3 της προηγούμενης ώρας, η πολύπλοκη δομή εμφανίζει μικρότερο συντελεστή συσχέτισης (.93 έναντι.919), μεγαλύτερο ΜΑΕ (14.63 έναντι ) και μικρότερο ΙΑ (.936 έναντι.948). Άρα η επιλογή πολύπλοκων δομών ΤΝΔ μπορεί να μας οδηγήσει σε λιγότερο ικανοποιητικά αποτελέσματα σε σχέση με μία απλούστερη. Για τον σταθμό της Καλαμαριάς, και σαν μία δεύτερη προσέγγιση αναπτύσσεται ένα ΤΝΔ για τα ίδια δεδομένα τα οποία έχουν κανονικοποιηθεί έτσι ώστε να έχουν μηδενική μέση τιμή και διασπορά ίση με τη μονάδα. Οι τιμές των στατιστικών δεικτών παρουσιάζονται στον Πίνακα 2 που ακολουθεί Πίνακας 11.2: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Καλαμαριάς Σύγκριση με δεδομένα του έτους 24 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE 93.44% 31.5% RRSE 95.18% 33.54% IA CSI A=, B=8, C= A=, B=8, C=1 Cross validation Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE 49.52% 31.48% RRSE 54.42% 33.77% IA CSI 85

86 A=, B=2, C= A=, B=2, C=1 Τα κανονικοποιημένα δεδομένα επιστρέφουν αποτελέσματα με πολύ μικρές αποκλίσεις σε σύγκριση με το ΤΝΔ που επιλέχθηκε. Για το έτος 24 και για το μοντέλο που χρησιμοποιεί το Ο 3 της προηγούμενης ώρας (μοντέλο Δ) μετά την κανονικοποίηση παίρνουμε συντελεστή συσχέτισης.945 (έναντι.942), ΜΑΕ (έναντι 8.378) και ΙΑ.971 (έναντι.966). Για τον σταθμό της Σίνδου, και για να διαπιστωθεί αν η επιλογή ενός επιπέδου οδηγεί σε ικανοποιητικά αποτελέσματα αναπτύχθηκε ένα ΤΝΔ δύο κρυφών επιπέδων με 2 κόμβους στο καθένα, η μορφή του οποίου φαίνεται στο Σχήμα 11.2, και αξιολογήθηκε η επίδοση του πραγματοποιώντας προγνώσεις για το έτος 23. Σχήμα 11.2: Νευρωνικό δίκτυο 2 κρυφών επιπέδων Πίνακας 11.3: Σύγκριση των δύο μοντέλων για τον σταθμό της Σίνδου με χρήση νευρωνικού δικτύου δύο επιπέδων Σύγκριση με δεδομένα του έτους 23 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r MAE RMSE RAE 7.168% 3.434% RRSE 75.36% % IA CSI A=, B=, C= A=, B=, C= 86

Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων

Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης - Τμήμα Φυσικής Π.Μ.Σ. Υπολογιστικής Φυσικής Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων Σταματέρης Γεώργιος Επιβλέπων

Διαβάστε περισσότερα

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η μέθοδος PCA (Ανάλυση Κύριων Συνιστωσών), αποτελεί μία γραμμική μέθοδο συμπίεσης Δεδομένων η οποία συνίσταται από τον επαναπροσδιορισμό των συντεταγμένων ενός

Διαβάστε περισσότερα

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών Διπλωματική Εργασία Παναγιώτης Γεώργας (Μ1040) Επιβλέπωντες: Επικ. Καθηγητής

Διαβάστε περισσότερα

Διάστημα εμπιστοσύνης της μέσης τιμής

Διάστημα εμπιστοσύνης της μέσης τιμής Διάστημα εμπιστοσύνης της μέσης τιμής Συντελεστής εμπιστοσύνης Όταν : x z c s < μ < x +z s c Ν>30 Στον πίνακα δίνονται κρίσιμες τιμές z c και η αντιστοίχισή τους σε διάφορους συντελεστές εμπιστοσύνης:

Διαβάστε περισσότερα

Βραχυπρόθεσμη τοπική μετεωρολογική πρόγνωση με αναζήτηση ανάλογων καταστάσεων

Βραχυπρόθεσμη τοπική μετεωρολογική πρόγνωση με αναζήτηση ανάλογων καταστάσεων ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΟΣ Βραχυπρόθεσμη τοπική μετεωρολογική πρόγνωση με αναζήτηση ανάλογων καταστάσεων Γεώργιος Θεοδωρόπουλος Επιβλέπων

Διαβάστε περισσότερα

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης Γραμμική Παλινδρόμηση και Συσχέτιση Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών Εξίσωση παλινδρόμησης Πρόβλεψη εξέλιξης Διμεταβλητές συσχετίσεις Πολλές φορές χρειάζεται να

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

9. Παλινδρόμηση και Συσχέτιση

9. Παλινδρόμηση και Συσχέτιση 9. Παλινδρόμηση και Συσχέτιση Παλινδρόμηση και Συσχέτιση Υπάρχει σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές; Αν ναι, ποια είναι αυτή η σχέση; Πως μπορεί αυτή η σχέση να χρησιμοποιηθεί για να προβλέψουμε

Διαβάστε περισσότερα

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Στατιστική Ι. Ανάλυση Παλινδρόμησης Στατιστική Ι Ανάλυση Παλινδρόμησης Ανάλυση παλινδρόμησης Η πρόβλεψη πωλήσεων, εσόδων, κόστους, παραγωγής, κτλ. είναι η βάση του επιχειρηματικού σχεδιασμού. Η ανάλυση παλινδρόμησης και συσχέτισης είναι

Διαβάστε περισσότερα

Γ. Πειραματισμός Βιομετρία

Γ. Πειραματισμός Βιομετρία Γενικά Συσχέτιση και Συμμεταβολή Όταν σε ένα πείραμα παραλλάσουν ταυτόχρονα δύο μεταβλητές, τότε ενδιαφέρει να διερευνηθεί εάν και πως οι αλλαγές στη μία μεταβλητή σχετίζονται με τις αλλαγές στην άλλη.

Διαβάστε περισσότερα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα Ανάλυση Διασποράς Έστω ότι μας δίνονται δείγματα που προέρχονται από άγνωστους πληθυσμούς. Πόσο διαφέρουν οι μέσες τιμές τους; Με άλλα λόγια: πόσο πιθανό είναι να προέρχονται από πληθυσμούς με την ίδια

Διαβάστε περισσότερα

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι: Άσκηση 1: Δύο τυχαίες μεταβλητές Χ και Υ έχουν στατιστικές μέσες τιμές 0 και διασπορές 25 και 36 αντίστοιχα. Ο συντελεστής συσχέτισης των 2 τυχαίων μεταβλητών είναι 0.4. Να υπολογισθούν η διασπορά του

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 2: Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 2: Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Διασπορά ατμοσφαιρικών ρύπων

Διασπορά ατμοσφαιρικών ρύπων Διασπορά ατμοσφαιρικών ρύπων Καθηγητής Δημοσθένης A. Σαρηγιάννης Εργαστήριο Περιβαλλοντικής Μηχανικής Τμήμα Χημικών Μηχανικών Πολυτεχνική Σχολή Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Βασικές ατμοσφαιρικές

Διαβάστε περισσότερα

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis) Μέρος V. Ανάλυση Παλινδρόμηση (Regresso Aalss) Βασικές έννοιες Απλή Γραμμική Παλινδρόμηση Πολλαπλή Παλινδρόμηση Εφαρμοσμένη Στατιστική Μέρος 5 ο - Κ. Μπλέκας () Βασικές έννοιες Έστω τ.μ. Χ,Υ όπου υπάρχει

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές Εαρινό εξάμηνο 2018-2019 μήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό μήμα, Πανεπιστήμιο

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες Χρήσης Το

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5 o ΣΥΜΠΕΡΑΣΜΑΤΑ

ΚΕΦΑΛΑΙΟ 5 o ΣΥΜΠΕΡΑΣΜΑΤΑ ΚΕΦΑΛΑΙΟ 5 o ΣΥΜΠΕΡΑΣΜΑΤΑ Εισαγωγή Η προσέγγιση του προβλήµατος της ατµοσφαιρικής ρύπανσης έγινε µε βάση την εµπειρία από χώρες που µελετούν το πρόβληµα αυτό συστηµατικά επί χρόνια. Τα συµπεράσµατα που

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕΡΟΣ B Δημήτρης Κουγιουμτζής e-mal: dkugu@auth.gr Ιστοσελίδα αυτού του τμήματος του μαθήματος: http://uer.auth.gr/~dkugu/teach/cvltraport/dex.html Εφαρμοσμένη Στατιστική:

Διαβάστε περισσότερα

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ Οικονομετρία 4.1 Πολλαπλό Γραμμικό Υπόδειγμα Παλινδρόμησης Γενικεύοντας τη διμεταβλητή (Y, X) συνάρτηση

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων Ι

Στατιστική Επιχειρήσεων Ι ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Στατιστική Επιχειρήσεων Ι Ενότητα 5: Παλινδρόμηση Συσχέτιση θεωρητική προσέγγιση Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 4 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1) Σημειώσεις Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου Αθήνα -3-7 Εκτίμηση των Παραμέτρων β & β Απλό γραμμικό υπόδειγμα: Y X () Η αναμενόμενη τιμή του Υ, δηλαδή, μέση τιμή του Υ, δίνεται παρακάτω: EY ( ) X EY

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς ) Πληθυσμός (populaton) ονομάζεται ένα σύνολο, τα στοιχεία του οποίου εξετάζουμε ως προς τα χαρακτηριστικά τους. Μεταβλητές (varables ) ονομάζονται τα χαρακτηριστικά ως προς τα οποία εξετάζουμε έναν πληθυσμό.

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Συσχέτιση μεταξύ δύο συνόλων δεδομένων Διαγράμματα διασποράς (scattergrams) Συσχέτιση μεταξύ δύο συνόλων δεδομένων Η οπτική απεικόνιση δύο συνόλων δεδομένων μπορεί να αποκαλύψει με παραστατικό τρόπο πιθανές τάσεις και μεταξύ τους συσχετίσεις,

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 13: Επανάληψη Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana 1 Γιατί μελετούμε την Οικονομετρία;

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Επικ Καθ Στέλιος Ζήμερας Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά 5 Έστω για την σύγκριση δειγμάτων συλλέγουμε παρατηρήσεις Υ =,,, από

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : , Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική

Εφαρμοσμένη Στατιστική ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εφαρμοσμένη Στατιστική Παλινδρόμηση Διδάσκων: Επίκουρος Καθηγητής Κωνσταντίνος Μπλέκας Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΚΑΙ ΑΕΡΟΝΑΥΠΗΓΩΝ ΜΗΧΑΝΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΜΗΧΑΝΙΚΗΣ ΤΩΝ ΡΕΥΣΤΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΑΥΤΗΣ

ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΚΑΙ ΑΕΡΟΝΑΥΠΗΓΩΝ ΜΗΧΑΝΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΜΗΧΑΝΙΚΗΣ ΤΩΝ ΡΕΥΣΤΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΑΥΤΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΚΑΙ ΑΕΡΟΝΑΥΠΗΓΩΝ ΜΗΧΑΝΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΜΗΧΑΝΙΚΗΣ ΤΩΝ ΡΕΥΣΤΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΑΥΤΗΣ Διευθυντής: Διονύσιος-Ελευθ. Π. Μάργαρης, Αναπλ. Καθηγητής ΕΡΓΑΣΤΗΡΙΑΚΗ

Διαβάστε περισσότερα

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α) Τμήμα Διοίκησης Επιχειρήσεων (Αγ. Νικόλαος), Τ.Ε.Ι. Κρήτης Σελίδα 1 από 13 5η Εργαστηριακή Άσκηση Σκοπός: Η παρούσα εργαστηριακή άσκηση στοχεύει στην εκμάθηση κατασκευής γραφημάτων που θα παρουσιάζουν

Διαβάστε περισσότερα

E[ (x- ) ]= trace[(x-x)(x- ) ]

E[ (x- ) ]= trace[(x-x)(x- ) ] 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

Εργασία στο µάθηµα Ανάλυση εδοµένων

Εργασία στο µάθηµα Ανάλυση εδοµένων Μεταπτυχιακό Υπολογιστικής Φυσικής Εργασία στο µάθηµα Ανάλυση εδοµένων ηµήτρης Κουγιουµτζής E-mail: dkugiu@gen.auth.gr 31 Ιανουαρίου 2017 Οδηγίες : Σχετικά µε την παράδοση της εργασίας ϑα πρέπει : Το κείµενο

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο Εφαρμογές Ανάλυσης Σήματος στη Γεωδαισία Παρουσίαση η : Αρχές εκτίμησης παραμέτρων Μέρος ο Βασίλειος Δ. Ανδριτσάνος Αναπληρωτής Καθηγητής Γεώργιος Χλούπης Επίκουρος Καθηγητής Τμήμα Μηχανικών Τοπογραφίας

Διαβάστε περισσότερα

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής Υποθέσεις του Απλού γραμμικού υποδείγματος της Παλινδρόμησης Η μεταβλητή ε t (διαταρακτικός όρος) είναι τυχαία μεταβλητή με μέσο όρο

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο Ασκήσεις Φροντιστηρίου 4 o Φροντιστήριο Πρόβλημα 1 ο Ο πίνακας συσχέτισης R x του διανύσματος εισόδου x( στον LMS αλγόριθμο 1 0.5 R x = ορίζεται ως: 0.5 1. Ορίστε το διάστημα των τιμών της παραμέτρου μάθησης

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση Διδάσκουσα: Κοντογιάννη Αριστούλα Πώς συσχετίζονται δυο μεταβλητές; Ένας απλός τρόπος για να αποκτήσουμε

Διαβάστε περισσότερα

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α) Τμήμα Διοίκησης Επιχειρήσεων (Αγ. Νικόλαος), Τ.Ε.Ι. Κρήτης Σελίδα 1 από 13 5η Εργαστηριακή Άσκηση Σκοπός: Η παρούσα εργαστηριακή άσκηση στοχεύει στην εκμάθηση κατασκευής γραφημάτων που θα παρουσιάζουν

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

3η Ενότητα Προβλέψεις

3η Ενότητα Προβλέψεις ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων 3η Ενότητα Προβλέψεις (Μέρος 4 ο ) http://www.fsu.gr

Διαβάστε περισσότερα

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Αλεξάνδρειο Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλονίκης Τμήμα Πληροφορικής Εργαστήριο «Θεωρία Πιθανοτήτων και Στατιστική» ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Περιεχόμενα 1. Συσχέτιση μεταξύ δύο ποσοτικών

Διαβάστε περισσότερα

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116) Σελίδα 1 ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΜΑΘΗΜΑ: ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙΙ (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116) ΠΑΝΕΠΙΣΤΗΜΙΑΚΟΣ ΥΠΟΤΡΟΦΟΣ ΠΑΝΑΓΙΩΤΗΣ

Διαβάστε περισσότερα

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7o Μάθημα: Απλή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7ο μάθημα: Πολυμεταβλητή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR

Διαβάστε περισσότερα

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β Κουγιουμτζής Δημήτρης Τμήμα Πολιτικών Μηχανικών Α.Π.Θ. Θεσσαλονίκη, Μάρτιος 4 Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 2 Επισκόπηση θεωρίας πιθανοτήτων Τυχαίες μεταβλητές: Βασικές έννοιες Τυχαία μεταβλητή: Μεταβλητή της οποίας δε γνωρίζουμε με βεβαιότητα την τιμή (σε αντίθεση με τις

Διαβάστε περισσότερα

E [ -x ^2 z] = E[x z]

E [ -x ^2 z] = E[x z] 1 1.ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτήν την διάλεξη θα πάμε στο φίλτρο με περισσότερες λεπτομέρειες, και θα παράσχουμε μια νέα παραγωγή για το φίλτρο Kalman, αυτή τη φορά βασισμένο στην ιδέα της γραμμικής

Διαβάστε περισσότερα

Απλή Παλινδρόμηση και Συσχέτιση

Απλή Παλινδρόμηση και Συσχέτιση Απλή Παλινδρόμηση και Συσχέτιση Πωλήσεις, Δαπάνες Διαφήμισης και Αριθμός Πωλητών Έτος Πωλήσεις (χιλ ) Διαφήμιση (χιλ ) Πωλητές (Άτομα) Έτος Πωλήσεις (χιλ ) Διαφήμιση (χιλ ) Πωλητές (Άτομα) 98 050 6 3 989

Διαβάστε περισσότερα

Μαθηματική Εισαγωγή Συναρτήσεις

Μαθηματική Εισαγωγή Συναρτήσεις Φυσικός Ραδιοηλεκτρολόγος (MSc) ο Γενικό Λύκειο Καστοριάς A. Μαθηματική Εισαγωγή Πράξεις με αριθμούς σε εκθετική μορφή Επίλυση βασικών μορφών εξισώσεων Συναρτήσεις Στοιχεία τριγωνομετρίας Διανύσματα Καστοριά,

Διαβάστε περισσότερα

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ Οικονομετρία 6.1 Ετεροσκεδαστικότητα: Εισαγωγή Συχνά, η υπόθεση της σταθερής διακύμανσης των όρων σφάλματος,

Διαβάστε περισσότερα

Θέμα: Ενδεικτικό Θέμα εξετάσεων: Μέτρα θέσης Παλινδρόμηση

Θέμα: Ενδεικτικό Θέμα εξετάσεων: Μέτρα θέσης Παλινδρόμηση ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ: ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ (Πάτρας) Διεύθυνση: Μεγάλου Αλεξάνδρου 1, 263 34 ΠΑΤΡΑ Τηλ.: 2610 369051, Φαξ: 2610 396184, email: mitro@teipat.gr TECHNOLOGICAL

Διαβάστε περισσότερα

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική Ενότητα 2: Βασίλης Γιαλαμάς Σχολή Επιστημών της Αγωγής Τμήμα Εκπαίδευσης και Αγωγής στην Προσχολική Ηλικία Περιεχόμενα ενότητας Παρουσιάζονται οι βασικές

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ Συντελεστής συσχέτισης (εκτιμητής Person: r, Y ( ( Y Y xy ( ( Y Y x y, όπου r, Y (ισχυρή θετική γραμμική συσχέτιση όταν, ισχυρή αρνητική

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση II

Απλή Γραμμική Παλινδρόμηση II . Ο Συντελεστής Προσδιορισμού Η γραμμή Παλινδρόμησης στο δείγμα, αποτελεί μία εκτίμηση της γραμμής παλινδρόμησης στον πληθυσμό. Αν και από τη μέθοδο των ελαχίστων τετραγώνων προκύπτουν εκτιμητές που έχουν

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΕΝΟΤΗΤΕΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ (One-Way Analyss of Varance) Η ανάλυση

Διαβάστε περισσότερα

Πολλαπλή παλινδρόμηση (Multivariate regression)

Πολλαπλή παλινδρόμηση (Multivariate regression) ΜΑΘΗΜΑ 3 ο 1 Πολλαπλή παλινδρόμηση (Multivariate regression) Η συμπεριφορά των περισσότερων οικονομικών μεταβλητών είναι συνάρτηση όχι μιας αλλά πολλών μεταβλητών Υ = f ( X 1, X 2,... X n ) δηλαδή η Υ

Διαβάστε περισσότερα

Ιδιότητες της ευθείας παλινδρόµησης

Ιδιότητες της ευθείας παλινδρόµησης Ιδιότητες της ευθείας παλινδρόµησης Ηευθεία παλινδρόµησης περνάει από το σηµείο αφού a b, a b ( b ) b b ( + + + ) ( ) + b u u a b a b Αυτό όµως προϋποθέτει την ύπαρξη του a. Αν δηλαδή υποχρεώσουµε την

Διαβάστε περισσότερα

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων Περίληψη ιδακτορικής ιατριβής Τριχακης Ιωάννης Εργαστήριο

Διαβάστε περισσότερα

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Ελλιπή δεδομένα. Εδώ έχουμε 1275. Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων Ελλιπή δεδομένα Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 75 ατόμων Εδώ έχουμε δ 75,0 75 5 Ηλικία Συχνότητες f 5-4 70 5-34 50 35-44 30 45-54 465 55-64 335 Δεν δήλωσαν 5 Σύνολο 75 Μπορεί

Διαβάστε περισσότερα

Διαχείριση Υδατικών Πόρων

Διαχείριση Υδατικών Πόρων Εθνικό Μετσόβιο Πολυτεχνείο Διαχείριση Υδατικών Πόρων Γ.. Τσακίρης Μάθημα 3 ο Λεκάνη απορροής Υπάρχουσα κατάσταση Σενάριο 1: Μέσες υδρολογικές συνθήκες Σενάριο : Δυσμενείς υδρολογικές συνθήκες Μελλοντική

Διαβάστε περισσότερα

Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ

Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο 2018-2019 Τμήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16 HMY 795: Αναγνώριση Προτύπων Διαλέξεις 15-16 Νευρωνικά Δίκτυα(Neural Networks) Fisher s linear discriminant: Μείωση διαστάσεων (dimensionality reduction) y Τ =w x s + s =w S w 2 2 Τ 1 2 W ( ) 2 2 ( ) m2

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο Πρόβλημα ο Ασκήσεις Φροντιστηρίου 5 o Φροντιστήριο Δίνεται το παρακάτω σύνολο εκπαίδευσης: # Είσοδος Κατηγορία 0 0 0 Α 2 0 0 Α 0 Β 4 0 0 Α 5 0 Β 6 0 0 Α 7 0 Β 8 Β α) Στον παρακάτω κύβο τοποθετείστε τα

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2 013 [Κεφάλαιο ] ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο Μάθημα Εαρινού Εξάμηνου 01-013 M.E. OE0300 Πανεπιστήμιο Θεσσαλίας Τμήμα Μηχανικών Χωροταξίας, Πολεοδομίας και Περιφερειακής Ανάπτυξης [Οικονομετρία 01-013] Μαρί-Νοέλ

Διαβάστε περισσότερα

Μαθηματική Εισαγωγή Συναρτήσεις

Μαθηματική Εισαγωγή Συναρτήσεις Φυσικός Ραδιοηλεκτρολόγος (MSc) ο Γενικό Λύκειο Καστοριάς Καστοριά, Ιούλιος 14 A. Μαθηματική Εισαγωγή Πράξεις με αριθμούς σε εκθετική μορφή Επίλυση βασικών μορφών εξισώσεων Συναρτήσεις Στοιχεία τριγωνομετρίας

Διαβάστε περισσότερα

Ενδεικτικές ασκήσεις ΔΙΠ 50

Ενδεικτικές ασκήσεις ΔΙΠ 50 Ενδεικτικές ασκήσεις ΔΙΠ 50 Άσκηση 1 (άσκηση 1 1 ης εργασίας 2009-10) Σε ένα ράφι μιας βιβλιοθήκης τοποθετούνται με τυχαία σειρά 11 διαφορετικά βιβλία τεσσάρων θεματικών ενοτήτων. Πιο συγκεκριμένα, υπάρχουν

Διαβάστε περισσότερα

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση Copyright 2009 Cengage Learning 16.1 Ανάλυση Παλινδρόμησης Σκοπός του προβλήματος είναι η ανάλυση της σχέσης μεταξύ συνεχών μεταβλητών. Η ανάλυση παλινδρόμησης

Διαβάστε περισσότερα

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Αριάδνη Αργυράκη ΣΤΑΔΙΑ ΕΚΤΕΛΕΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΙΚΩΝ ΓΕΩΧΗΜΙΚΩΝ ΕΡΕΥΝΩΝ 1.ΣΧΕΔΙΑΣΜΟΣ: - Καθορισμός στόχων έρευνας - Ιστορικό περιοχής 2 4.

Διαβάστε περισσότερα

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής Copyright 2009 Cengage Learning 4.1 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής Δείκτες Κεντρικής Θέσης [Αριθμητικός] Μέσος, Διάμεσος, Επικρατούσα

Διαβάστε περισσότερα

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής Οικονομετρία Ι Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Y Y ... y nx1. nx1

Y Y ... y nx1. nx1 6 ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΤΗ ΧΡΗΣΗ ΠΙΚΑΚΩΝ Η χρησιμοποίηση και ο συμβολισμός πινάκων απλοποιεί σημαντικά τα αποτελέσματα της γραμμικής παλινδρόμησης, ιδίως στην περίπτωση της πολλαπλής παλινδρόμησης Γενικά,

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

Στατιστική Επιχειρήσεων Ι

Στατιστική Επιχειρήσεων Ι ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Στατιστική Επιχειρήσεων Ι Ενότητα 4: Πολυδιάστατες Τυχαίες Μεταβλητές Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων Άδειες

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Στατιστική, Άσκηση 2. (Κανονική κατανομή)

Στατιστική, Άσκηση 2. (Κανονική κατανομή) Στατιστική, Άσκηση 2 (Κανονική κατανομή) Στον πίνακα που ακολουθεί δίνονται οι μέσες παροχές όπως προέκυψαν από μετρήσεις πεδίου σε μια διατομή ενός ποταμού. Ζητείται: 1. Να αποδειχθεί ότι το δείγμα προσαρμόζεται

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο Φίλτρα Kalman Εξαγωγή των εξισώσεων τους με βάση το κριτήριο ελαχιστοποίησης της Μεθόδου των Ελαχίστων Τετραγώνων. Αναλυτικές Μέθοδοι στη Γεωπληροφορική Μεταπτυχιακό Πρόγραμμα ΓΕΩΠΛΗΡΟΦΟΡΙΚΗ ιατύπωση του

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 4: Στατιστική Ι (4/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)

Στατιστική Ι. Ενότητα 4: Στατιστική Ι (4/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη) Στατιστική Ι Ενότητα 4: Στατιστική Ι (4/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη) Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ 0. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ 0. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ Συχνά στην πράξη το μοντέλο της απλής γραμμικής παλινδρόμησης είναι ανεπαρκές για την περιγραφή της μεταβλητότητας που υπάρχει στην εξαρτημένη

Διαβάστε περισσότερα