Διερεύνηση περιβαλλοντικών χρονοσειρών με τεχνικές υπολογιστικής νοημοσύνης

Σχετικά έγγραφα
Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών

Διάστημα εμπιστοσύνης της μέσης τιμής

Βραχυπρόθεσμη τοπική μετεωρολογική πρόγνωση με αναζήτηση ανάλογων καταστάσεων

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εισόδημα Κατανάλωση

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

9. Παλινδρόμηση και Συσχέτιση

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Γ. Πειραματισμός Βιομετρία

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 2: Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Διασπορά ατμοσφαιρικών ρύπων

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΚΕΦΑΛΑΙΟ 5 o ΣΥΜΠΕΡΑΣΜΑΤΑ

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Επιχειρήσεων Ι

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Εφαρμοσμένη Στατιστική

ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΚΑΙ ΑΕΡΟΝΑΥΠΗΓΩΝ ΜΗΧΑΝΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΜΗΧΑΝΙΚΗΣ ΤΩΝ ΡΕΥΣΤΩΝ ΚΑΙ ΕΦΑΡΜΟΓΩΝ ΑΥΤΗΣ

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

E[ (x- ) ]= trace[(x-x)(x- ) ]

Εργασία στο µάθηµα Ανάλυση εδοµένων

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Περιεχόμενα. Πρόλογος... 15

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Αναγνώριση Προτύπων Ι

3η Ενότητα Προβλέψεις

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

HMY 795: Αναγνώριση Προτύπων

E [ -x ^2 z] = E[x z]

Απλή Παλινδρόμηση και Συσχέτιση

Μαθηματική Εισαγωγή Συναρτήσεις

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Θέμα: Ενδεικτικό Θέμα εξετάσεων: Μέτρα θέσης Παλινδρόμηση

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Απλή Γραμμική Παλινδρόμηση II

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

Πολλαπλή παλινδρόμηση (Multivariate regression)

Ιδιότητες της ευθείας παλινδρόµησης

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων

Ελλιπή δεδομένα. Εδώ έχουμε Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 1275 ατόμων

Διαχείριση Υδατικών Πόρων

Χρονικές σειρές 5 Ο μάθημα: Γραμμικά στοχαστικά μοντέλα (1) Αυτοπαλίνδρομα μοντέλα Εαρινό εξάμηνο Τμήμα Μαθηματικών ΑΠΘ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ζητήματα ηήμ με τα δεδομένα

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

Μαθηματική Εισαγωγή Συναρτήσεις

Ενδεικτικές ασκήσεις ΔΙΠ 50

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Y Y ... y nx1. nx1

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 4 Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Στατιστική Επιχειρήσεων Ι

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Στατιστική, Άσκηση 2. (Κανονική κατανομή)

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο

Στατιστική Ι. Ενότητα 4: Στατιστική Ι (4/4) Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Transcript:

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης-Τμήμα Φυσικής Π.Μ.Σ. Υπολογιστικής Φυσικής Διερεύνηση περιβαλλοντικών χρονοσειρών με τεχνικές υπολογιστικής νοημοσύνης Σταμούλης Καλτσάτος Επιβλέπων Κωνσταντίνος Δ. Καρατζάς Επίκουρος Καθηγητής Α.Π.Θ. Θεσσαλονίκη 27

Περιεχόμενα 1. Εισαγωγή...4 2. Δίκτυο μετρήσεων ποιότητας αέρα στην Θεσσαλονίκη...6 3. Περιοδογράμματα...7 3.1. Εισαγωγή...7 3.2. Μετασχηματισμός Fourier-Περιοδογράμματα...7 3.3. Εφαρμογή σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης...8 3.3.1. Σταθμός Α.Π.Θ...8 3.3.2. Σταθμός Σίνδου...11 3.3.3. Σταθμός Κορδελιού...14 3.4. Συμπεράσματα...16 4. Principal Component Analysis (PCA)......17 4.1. Εισαγωγή...17 4.2. Μεθοδολογία...17 4.3. Εφαρμογή της μεθόδου PCA σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης...19 4.3.1. Σταθμός Α.Π.Θ...19 4.3.2. Σταθμός Καλαμαριάς...2 4.3.3. Σταθμός Σίνδου...21 4.3.4. Σταθμός Κορδελιού...21 4.4. Συμπεράσματα...22 5. Παλινδρόμηση...23 5.1. Εισαγωγή...23 5.2. Γραμμική Παλινδρόμηση...23 5.3. Σύγκριση μοντέλων-ανάλυση μεταβλητότητας (ANOVA)...24 5.4. Πολλαπλή παλινδρόμηση...25 5.5. Μοντέλα παλινδρόμησης για την Θεσσαλονίκη...26 5.5.1. Σταθμός Α.Π.Θ...27 5.5.2. Σταθμός Καλαμαριάς...31 5.5.3. Σταθμός Σίνδου...33 5.5.4. Σταθμός Κορδελιού...36 5.6. Συμπεράσματα...4 6. Τεχνητά Νευρωνικά Δίκτυα (ΤΝΔ)...41 6.1. Εισαγωγή...41 6.2. Δομές νευρωνικών δικτύων...43 6.3. Εκπαίδευση ενός τεχνητού νευρωνικού δικτύου...45 6.4. Νευρωνικά δίκτυα ενός επιπέδου (perceptrons)...46 6.5. Νευρωνικά δίκτυα πολλών επιπέδων με προς τα εμπρός τροφοδότηση σήματος (Multi-layer feed-forward networks)...47 6.6. Εφαρμογή των ΤΝΔ σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης...49 6.6.1. Σταθμός Α.Π.Θ...5 6.6.2. Σταθμός Καλαμαριάς...54 6.6.3. Σταθμός Σίνδου...55 6.6.4. Σταθμός Κορδελιού...6 6.7. Συμπεράσματα...64 7. Δέντρα αποφάσεων...65 7.1. Εισαγωγή...65 2

7.2. Εφαρμογή των δέντρων αποφάσεων σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης...7 7.2.1. Σταθμός Α.Π.Θ...7 7.2.2. Σταθμός Καλαμαριάς...72 7.2.3. Σταθμός Σίνδου...74 7.2.4. Σταθμός Κορδελιού...76 7.3. Συμπεράσματα...78 8. Επίλογος...79 9. Παράρτημα Α: Δείκτες αξιολόγησης της επίδοσης των μοντέλων...82 1. Παράρτημα Β: Η μέθοδος Bayesian Principal Component Analysis (BPCA)...83 11. Παράρτημα Γ: Επιλογή της δομής των ΤΝΔ...84 12. Βιβλιογραφία...88 3

1. Εισαγωγή Το όζον (Ο 3 ) αποτελεί στοιχείο της ατμόσφαιρας, ανώτερης και κατώτερης. Ενώ στην πρώτη περίπτωση λειτουργεί προστατευτικά για τον άνθρωπο, φιλτράροντας της ηλιακή ακτινοβολία, στην δεύτερη αποτελεί ρύπο. Ο σχηματισμός του Ο 3 στην ατμόσφαιρα οφείλεται κυρίως στις φωτοχημικές αντιδράσεις μεταξύ ρύπων (οξείδια του αζώτου και υδρογονάνθρακες) και επηρεάζεται από τις μετεωρολογικές συνθήκες (θερμοκρασία, υγρασία, ταχύτητα και διεύθυνση ανέμου), ενώ η ηλιακή ακτινοβολία παίζει τον ρόλο του καταλύτη. Οι υψηλές συγκεντρώσεις όζοντος (Ο 3 ) αποτελούν κίνδυνο για την υγεία αλλά και για το περιβάλλον (χλωρίδα και πανίδα). Μετά από σχετικές νομοθετικές πρωτοβουλίες της Ευρωπαϊκής Ένωσης, όπως η οδηγία - πλαίσιο 96/62 σχετικά με την διαχείριση ποιότητας αέρα, η ανάγκη παρακολούθησης των επιπέδων των συγκεντρώσεων Ο 3 στην ατμόσφαιρα (αλλά και άλλων ρύπων), έχει γίνει επιτακτική, έτσι ώστε να υπάρχει η δυνατότητα προειδοποίησης του κοινού και κυρίως των ευπαθών ομάδων του πληθυσμού όπως οι ηλικιωμένοι, τα παιδιά και όσοι αντιμετωπίζουν αναπνευστικά προβλήματα. Για τον λόγο αυτό έχουν δημιουργηθεί σταθμοί παρακολούθησης ατμοσφαιρικής ρύπανσης σε διάφορα σημεία μεγάλων πόλεων, οι οποίοι παρακολουθούν και καταγράφουν τις ημερήσιες συγκεντρώσεις ρύπων όπως π.χ. όζον, οξείδια του αζώτου, αιωρούμενα σωματίδια κ.α.. Σκοπός της παρούσας εργασίας είναι να παρουσιάσει και να εφαρμόσει μεθόδους υπολογιστικής νοημοσύνης, με τις οποίες μπορούμε να μελετήσουμε χρονοσειρές συγκεντρώσεων Ο 3 και να προχωρήσουμε στην μοντελοποίηση του σχηματισμού του Ο 3 με σκοπό να μπορούμε προβούμε σε προβλέψεις. Η κατασκευή των μοντέλων αφορά σταθμούς παρακολούθησης αέρα οι οποίοι είναι τοποθετημένοι σε διάφορα σημεία της πόλης της Θεσσαλονίκης (Αριστοτέλειο Πανεπιστήμιο, Καλαμαριά, Σίνδος, Κορδελιό). Σημειώνεται ότι η πόλη της Θεσσαλονίκης είναι η δεύτερη μεγαλύτερη πόλη της Ελλάδας και μία από τις μεγαλύτερες των Βαλκανίων, όπου ο σχηματισμός και η μεταφορά των ρύπων στην ατμόσφαιρα επηρεάζονται άμεσα από τις μετεωρολογικές συνθήκες και τα τοπογραφικά χαρακτηριστικά της πόλης. Αρχικά, με την βοήθεια των περιοδογραμμάτων, εξετάστηκε κάθε μία από τις μεταβλητές με σκοπό την αναγνώριση περιοδικοτήτων που μπορεί να παρουσιάζουν. Κατόπιν, έπρεπε να διερευνηθεί η εξάρτηση του Ο 3 από τις μετεωρολογικές συνθήκες αλλά και από τη συγκέντρωση άλλων ρύπων. Η διερεύνηση αυτή έγινε με την εφαρμογή της μεθόδου Principal Component Analysis, μίας μεθόδου ανάλυσης πολυδιάστατων δεδομένων, η οποία μπορεί να μας βοηθήσει στην αναγνώριση των παραγόντων που ευνοούν τον σχηματισμό του υπό εξέταση ρύπου. Τα αποτελέσματα της μεθόδου υπέδειξαν την συγκέντρωση ΝΟ 2, την θερμοκρασία και την υγρασία ως τους σημαντικότερους παράγοντες που επηρεάζουν τα επίπεδα των συγκεντρώσεων Ο 3 στην ατμόσφαιρα. Για την πρόβλεψη των συγκεντρώσεων Ο 3 χρησιμοποιήθηκαν μέθοδοι υπολογιστικής νοημοσύνης περιβαλλοντικής πληροφορικής, που περιλαμβάνουν τόσο κλασικές στατιστικές μεθόδους (γραμμική παλινδρόμηση), όσο και μεθόδους τεχνητής νοημοσύνης όπως αυτή των 4

τεχνητών νευρωνικών δικτύων και των δέντρων αποφάσεων. Η εφαρμογή μεθόδων τεχνητής νοημοσύνης (Τ.Ν.) στα θέματα ποιότητας αέρα έχει προσελκύσει το ενδιαφέρον της επιστημονικής κοινότητας και αυτό οφείλεται κυρίως στο ότι η σχέση μεταξύ ρύπων και μετεωρολογικών παραγόντων είναι μη γραμμική, γεγονός που καθιστά την επίδοση των «κλασικών» στατιστικών μεθόδων χαμηλότερη από αυτή των μεθόδων Τ.Ν., όπως φαίνεται και από τα αποτελέσματα της παρούσας εργασίας. Η μέθοδος της γραμμικής παλινδρόμησης έκανε χρήση των αποτελεσμάτων της ανάλυσης μέσω PCA και κατέληξε σε γραμμικές σχέσεις, που παρέχουν ικανοποιητική πρόγνωση του ρύπου ενδιαφέροντος (Ο 3 ). Τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ) τα οποία αναπτύχθηκαν κάνουν χρήση του «αισθητήρα πολλών επιπέδων» (multi-layer perceptron), που έχει βρεθεί ότι είναι και η καταλληλότερη επιλογή για το πρόβλημα της μοντελοποίησης και πρόβλεψης της ποιότητας αέρα από παρόμοιες εργασίες στο συγκεκριμένο θέμα. Τα δέντρα αποφάσεων τα οποία αναπτύχθηκαν βασίστηκαν στην αρχή του «κέρδους πληροφορίας» (information gain) και διαχώρισαν-κατηγοριοποίησαν τα δεδομένα σε περιοχές τιμών, με υψηλή επιτυχία. Τα αποτελέσματα των μεθόδων, τα οποία παρουσιάζονται στα αντίστοιχα κεφάλαια, ήταν αρκετά ικανοποιητικά. Παρόλα αυτά και κυρίως στα μοντέλα γραμμικής παλινδρόμησης, παρουσιάστηκε η αδυναμία πρόβλεψης ημερών επεισοδίων, πρόβλημα το οποίο ξεπεράστηκε σε μικρό βαθμό με την εφαρμογή των νευρωνικών δικτύων λόγω της ικανότητας τους να εκφράζουν μη γραμμικές σχέσεις. Σε αντίθεση με τα μοντέλα γραμμικής παλινδρόμησης και τα μοντέλα νευρωνικών δικτύων τα οποία χρησιμοποιήθηκαν για πρόβλεψη των ωριαίων συγκεντρώσεων, η εφαρμογή των δέντρων αποφάσεων έγινε με σκοπό την κατηγοριοποίηση (classification) των αποτελεσμάτων σε επίπεδα συγκεντρώσεων (πολύ χαμηλό, χαμηλό, μέτριο, υψηλό) ανάλογα με τις τιμές της συγκέντρωσης του ρύπου. Τα αποτελέσματα ήταν αρκετά ικανοποιητικά με ένα μεγάλο ποσοστό ορθών κατηγοριοποιήσεων, παρόλα αυτά όμως παρουσιάστηκε και πάλι η αδυναμία στην πρόβλεψη των υψηλών συγκεντρώσεων. Συνολικά η παρούσα εργασία διερεύνησε, εφάρμοσε και αποτίμησε μεθόδους υπολογιστικής νοημοσύνης σε σχέση με την δυνατότητα τους να μοντελοποιήσουν μη γραμμικά φαινόμενα όπως αυτά που λαμβάνουν χώρα εντός της ατμόσφαιρας, και την δυνατότητα τους να προβλέψουν τις αριθμητικές τιμές παραμέτρων ενδιαφέροντος. Σημειώνεται στη βάση των εδώ παρουσιαζομένων αποτελεσμάτων, ότι έχει ήδη προκύψει μία εργασία η οποία έχει γίνει αποδεκτή σε διεθνές επιστημονικό συνέδριο, και έχουν επίσης υποβληθεί άλλες δύο σε ένα συνέδριο και ένα επιστημονικό περιοδικό αντίστοιχα. 5

2. Δίκτυο μετρήσεων ποιότητας αέρα στην Θεσσαλονίκη Στην παρούσα εργασία θα αναλυθούν δεδομένα (ωριαίες συγκεντρώσεις ρύπων και μετεωρολογικών παραμέτρων) όπως αυτά μετρήθηκαν και καταγράφηκαν από το δίκτυο παρακολούθησης ποιότητας αέρα της Θεσσαλονίκης το οποίο λειτουργεί η Περιφέρεια Κεντρικής Μακεδονίας (Π.Κ.Μ.), (http://www.rcm.gr). Το δίκτυο αποτελείται από σταθμούς μέτρησης τοποθετημένους σε ενδεικτικά σημεία της πόλης όπως φαίνεται και στο Σχήμα 2.1 που ακολουθεί. Για τους σκοπούς της εργασίας θα χρησιμοποιηθούν δεδομένα των σταθμών: Α.Π.Θ., Καλαμαριάς, Σίνδου και Ελ. Κορδελιού και για τις χρονικές περιόδους 21-23 για τους σταθμούς Α.Π.Θ., Σίνδου και Ελ. Κορδελιού, ενώ για τον σταθμό της Καλαμαριάς χρησιμοποιήθηκαν δεδομένα από την χρονική περίοδο 21-24. Κωδικός Σ1 Σ2 Σ3 Σ4 Σ5 Σ6 Σ7 Σ8 Σταθμός ΤΕΙ Σίνδου Νεοχωρούδα Ελ.Κορδελιό Πλ. Δημοκρατίας Πλ. Αγ. Σοφίας ΑΠΘ Πανόραμα Καλαμαριά Σχήμα 2.1: Το δίκτυο των σταθμών μέτρησης της αέριας ρύπανσης της Περιφέρειας Κεντρικής Μακεδονίας. 6

3. Περιοδογράμματα 3.1 Εισαγωγή Στο κεφάλαιο αυτό παρουσιάζονται τα περιοδογράμματα των χρονοσειρών που έγιναν διαθέσιμες από τους σταθμούς παρακολούθησης ποιότητας αέρα της πόλης της Θεσσαλονίκης. Ως χρονοσειρά ορίζεται μία ακολουθία (σειρά) διανυσμάτων τιμών, συνεχών ή διακριτών μεγεθών, που διατάσσονται με τον χρόνο (Chatfield C., 1995). Παραδείγματος χάριν η χρονοσειρά μεταβολής της συγκέντρωσης Ο 3, όπως μετρήθηκε στον σταθμό του Α.Π.Θ. το έτος 23 έχει την μορφή του παρακάτω σχήματος. 25 ΟΖΟΝ - ΑΠΘ 23 2 Συγκέντρωση (μg/m 3 ) 15 1 5 1/1/23 1/2/23 1/3/23 1/4/23 1/5/23 1/6/23 1/7/23 1/8/23 1/9/23 1/1/23 1/11/23 1/12/23 Σχήμα 3.1. Τυπική μορφή χρονοσειράς ετήσιας διάρκειας για την ωριαία συγκέντρωση Ο 3 Ένα από τα βασικότερα ερωτήματα που προκύπτουν κατά την ανάλυση μίας χρονοσειράς είναι το αν παρουσιάζει μία περιοδικότητα με τον χρόνο και αν μπορούμε να εξάγουμε κάποια μοτίβα (patterns) από αυτή. Μία μέθοδος ανάλυσης χρονοσειρών είναι ο μετασχηματισμός Fourier, βάσει της οποίας είναι δυνατή η διερεύνηση της ύπαρξης περιοδικοτήτων. 3.2 Μετασχηματισμός Fourier Περιοδογράμματα Ο μετασχηματισμός Fourier αναλύει μία συνάρτηση σε άθροισμα τριγωνομετρικών συναρτήσεων. Μία υποκατηγορία του μετασχηματισμού Fourier είναι o διακριτός μετασχηματισμός Fourier ο οποίος πραγματοποιείται με χρήση του αλγόριθμου FFT. Για μία δεδομένη χρονοσειρά η οποία αποτελείται από Ν στοιχεία ο FFT μας δίνει ένα Ν διάστατο διάνυσμα με βάση την σχέση 7

( k )( n ) π ( k )( n ) N 1 2π 1 1 2 1 1 xn ( ) = ak ( )cos + bk ( )sin N k = 1 N N Όσον αφορά το ερώτημα για το ποιες συχνότητες είναι σημαντικές για την υπό μελέτη χρονοσειρά εισάγεται η χρήση των περιοδογραμμάτων. Τα περιοδογράμματα ορίστηκαν το 1898 από τον Schuster (Mandic D.) σαν μια μέθοδος με την οποία μπορούμε να ανακαλύψουμε τις «κρυμμένες» αρμονικές συναρτήσεις σε μία συνάρτηση. Το περιοδόγραμμα εξετάζει όλες τις δυνατές συχνότητες και ποσοτικοποιεί την σπουδαιότητα της καθεμίας για την χρονοσειρά που μελετάμε. Εφαρμόζοντας τον FFT σε μία χρονοσειρά παίρνουμε σαν αποτέλεσμα την συνάρτηση Υ. Το μέγεθος του τετραγώνου του Υ ονομάζεται ισχύς (συμβολίζεται και ως r 2 ) και το διάγραμμα της ισχύος ως προς την συχνότητα αποτελεί το περιοδόγραμμα. Τα σημεία εμφάνισης μεγίστων στο σχετικό διάγραμμα αποτελούν ένδειξη περιοδικότητας. 3.3. Εφαρμογή σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης 3.3.1 Σταθμός Α.Π.Θ. Ο υπολογισμός των περιοδογραμμάτων έγινε με την βοήθεια του λογισμικού MATLAB (http://www.mathworks.com), το οποίο παρέχει βιβλιοθήκη έτοιμων σχετικών συναρτήσεων. Στη βάση αυτού το περιοδόγραμμα για την ωριαία συγκέντρωση Ο 3,όπως αυτή μετρήθηκε στον σταθμό του Α.Π.Θ. κατά την περίοδο 21-25, έχει την μορφή που αποδίδεται στο Σχήμα 3.2 8

1 x 111 Periodogram 9 8 7 6 power 5 4 3 2 1.5.1.15.2.25.3.35.4.45.5 cycles/hour Σχήμα 3.2: Περιοδόγραμμα Ο 3 Α.Π.Θ. 21-25 Η υψηλότερη κορυφή του περιοδογράμματος αντιστοιχεί σε.1141 κύκλους ανά ώρα δηλαδή σε μία περιοδικότητα περίπου 8764 ωρών οι οποίες αντιστοιχούν περίπου σε ένα έτος. Η δεύτερη υψηλότερη κορυφή αντιστοιχεί σε.4167 κύκλους ανά ώρα ή σε μία επανάληψη ανά 24 ώρες. Αμφότερα τα αποτελέσματα επιβεβαιώνουν την βασική περιοδικότητα του υπό μελέτη ρύπου (ετήσιος αλλά και ημερήσιος κύκλος). Για την θερμοκρασία κατά το ίδιο χρονικό διάστημα όπως φαίνεται και στο Σχήμα 3.3, προκύπτουν.1141 κύκλοι ανά ώρα δηλαδή έχουμε μία περιοδικότητα 365 περίπου ημερών, γεγονός αναμενόμενο. 9

1 x 11 Periodogram 9 8 7 6 power 5 4 3 2 1.5.1.15.2.25.3.35.4.45.5 cycles/hour Σχήμα 3.3: Περιοδόγραμμα θερμοκρασίας Α.Π.Θ 21-25 Ακολούθως υπολογίζεται το περιοδόγραμμα για τις ωριαίες συγκεντρώσεις ΝΟ 2 (Σχήμα 3.4) από όπου και προκύπτει μία βασική περιοδικότητα 12 ωρών γεγονός που δύναται να ερμηνευθεί ως ένδειξη ανθρωπογενούς επίδρασης στα επίπεδα αυτού του ρύπου (φάση λειτουργίας και φάση ανάπαυσης εντός της πόλης). 1

2 x 11 Periodogram 1.8 1.6 1.4 1.2 power 1.8.6.4.2.5.1.15.2.25.3.35.4.45.5 cycles/hour Σχήμα 3.4: Περιοδόγραμμα ΝΟ 2 Α.Π.Θ 21-23 3.3.2 Σταθμός Σίνδου Ακολούθως παρουσιάζονται τα περιοδογράμματα ορισμένων από τις μετρήσεις του σταθμού παρακολούθησης ποιότητας αέρα της περιοχής της Σίνδου. 11

6 x 111 Periodogram 5 4 power 3 2 1.5.1.15.2.25.3.35.4.45.5 cycles/hour Σχήμα 3.5: Περιοδόγραμμα Ο 3 Σίνδος 21-25 Στο Σχήμα 3.5 παρουσιάζεται το περιοδόγραμμα της ωριαίας συγκέντρωσης Ο 3. Η πρώτη και υψηλότερη κορυφή αντιστοιχεί σε.1141 κύκλους ανά ώρα δηλαδή σε μία επανάληψη ανά ένα περίπου έτος. Η δεύτερη υψηλότερη κορυφή αντιστοιχεί σε.4167 κύκλους ανά ώρα δηλαδή σε μία επανάληψη ανά μία ημέρα, αποτελέσματα όμοια με αυτά του Α.Π.Θ.. Παρουσιάζεται επίσης το περιοδόγραμμα μεταβολής της υγρασίας (Σχήμα 3.6) για την περίοδο 21-25 12

3 x 111 Periodogram 2.5 2 power 1.5 1.5.5.1.15.2.25.3.35.4.45.5 cycles/hour Σχήμα 3.6: Περιοδόγραμμα υγρασίας Σίνδος 21-25 Η υψηλότερη τιμή αντιστοιχεί σε 9.127-5 περιοδικότητα 1.2 ετών. κύκλους ανά ώρα, δηλαδή σε Στο Σχήμα 3.7 που ακολουθεί παρουσιάζεται το περιοδόγραμμα της ταχύτητας του ανέμου. Προκύπτουν.4167 κύκλοι ανά ώρα οι οποίοι αντιστοιχούν σε μία περιοδικότητα 24 περίπου ωρών. 13

1 x 18 Periodogram 9 8 7 6 power 5 4 3 2 1.5.1.15.2.25.3.35.4.45.5 cycles/hour Σχήμα 3.7: Περιοδόγραμμα ταχύτητας ανέμου Σίνδος 21-25 3.3.3 Σταθμός Κορδελιού Για τον σταθμό του Κορδελιού με την ίδια διαδικασία που ακολουθήθηκε παραπάνω παρουσιάζεται το περιοδόγραμμα για την μεταβολή της συγκέντρωσης Ο 3 (Σχήμα 3.8) για την περίοδο 2-23. Από το περιοδόγραμμα παρατηρούμε ότι η υψηλότερη κορυφή του διαγράμματος αντιστοιχεί σε.4167 κύκλους ανά ώρα δηλαδή σε μία περιοδικότητα της τάξης της μίας ημέρας. 14

x 1 1 Periodogram 9 8 7 6 power 5 4 3 2 1.5.1.15.2.25.3.35.4.45.5 cycles/hour Σχήμα 3.8: Περιοδόγραμμα Ο 3 Κορδελιό 2-23 5 x 11 Periodogram 4.5 4 3.5 3 power 2.5 2 1.5 1.5.5.1.15.2.25.3.35.4.45.5 cycles/hour Σχήμα 3.9: Περιοδόγραμμα θερμοκρασίας Κορδελιό 2-23 15

Στο Σχήμα 3.9 παρουσιάζεται το περιοδόγραμμα της μεταβολής της θερμοκρασίας για την περίοδο 2-23. Από το διάγραμμα προκύπτει ότι έχουμε.1138 κύκλους ανά ώρα δηλαδή ότι έχουμε μία περιοδικότητα 366 περίπου ημερών (ετήσια). 3.4 Συμπεράσματα Με την βοήθεια των περιοδογραμμάτων επιχειρήθηκε η εύρεση των περιοδικοτήτων στις χρονοσειρές των ωριαίων συγκεντρώσεων των περιβαλλοντικών ρύπων όσο και σε αυτές των μετεωρολογικών παραμέτρων. Για το Ο 3 και για όλους τους σταθμούς παρακολούθησης ποιότητας αέρα, επιβεβαιώθηκε η βασική περιοδικότητα ανά έτος και ημέρα που θα έπρεπε να παρουσιάζει ο ρύπος. Η περιοδικότητα ανά 12 ώρες που εμφανίστηκε από τα περιοδογράμματα των ωριαίων συγκεντρώσεων ΝΟ 2 είναι ενδεικτική της επίδρασης των ανθρωπίνων δραστηριοτήτων στα επίπεδα αυτού του ρύπου. Η υγρασία και η θερμοκρασία παρουσίασαν ισχυρή περιοδικότητα ανά έτος ενώ η ισχυρότερη περιοδικότητα που παρουσίασε η ωριαία ταχύτητα του ανέμου ήταν ανά μία ημέρα. 16

4. Principal Component Analysis (PCA) 4.1 Εισαγωγή Ένα από τα τυπικά προβλήματα της ανάλυσης δεδομένων είναι η πολυδιάστατη φύση τους, γεγονός που καθιστά δύσκολη την μελέτη τους και την εύρεση μοτίβων σε αυτά. H μέθοδος ανάλυσης πρωτευόντων όρων (PCA) είναι μία μέθοδος που χρησιμοποιείται για την απλοποίηση ενός πολυδιάστατου σετ δεδομένων, με στόχο α) την μείωση των διαστάσεων του και άρα την συμπίεση του σετ, β) τον εντοπισμό των «κυρίαρχων» παραμέτρων που χαρακτηρίζουν το σύνολο των εξεταζόμενων δεδομένων. Το αποτέλεσμα της μεθόδου είναι ένα νέο σετ μεταβλητών, τα principal components (PC s), τα οποία είναι ασυσχέτιστα μεταξύ τους και στην ουσία αποτελούν έναν γραμμικό συνδυασμό των αρχικών δεδομένων. Επίσης κάθε ένα από αυτά είναι ορθογώνια μεταξύ τους ώστε να μην υπάρχουν περιττές πληροφορίες στον νέο πίνακα δεδομένων. Κρατώντας μόνο τα PC s που ερμηνεύουν το μεγαλύτερο ποσοστό της μεταβλητότητας του αρχικού σετ δεδομένων, επιτυγχάνουμε την μείωση των διαστάσεων γεγονός που καθιστά πιο εύκολη την ανάλυση και επεξεργασία του αρχικού σετ δεδομένων. 4.2 Μεθοδολογία Για μια καλύτερη εποπτεία της μεθόδου θα παρουσιαστούν ένα προς ένα τα βήματα για την εφαρμογή της σε ένα πίνακα δεδομένων δύο διαστάσεων για να διατηρείται και το πλεονέκτημα της γραφικής απεικόνισης. Για μια αναλυτικότερη εισαγωγή στην μέθοδο PCA υπάρχουν αρκετές εργασίες στις οποίες μπορεί να ανατρέξει κανείς (I.T. Jolliffe: Principal Component Analysis, Springer 22, Lindsay I. Smith: A tutorial on Principal Component Analysis). Βήμα 1: Συγκέντρωση δεδομένων Από τον σταθμό μετρήσεων του ΑΠΘ για το έτος 21, λαμβάνεται ενδεικτικά ένα δείγμα μετρήσεων για το Ο 3 και την θερμοκρασία. Βήμα 2: Αφαίρεση της μέσης τιμής Κάθε στήλη του πίνακα των δεδομένων μας αντιστοιχεί σε μετρήσεις του ίδιου μεγέθους. Ένα κύριο σημείο για την εφαρμογή της PCA είναι να αφαιρεθεί από κάθε στήλη των δεδομένων μας, η μέση της τιμή. Έτσι το αποτέλεσμά μας θα είναι ένα σετ δεδομένων με μηδενική μέση τιμή. Βήμα 3: Υπολογισμός του πίνακα συνδιασποράς ή συμμεταβλητότητας Η διασπορά ή μεταβλητότητα μίας μεταβλητής X αποτελεί ένα μέτρο της απόκλισης της από την μέση τιμή X και ορίζεται από την σχέση (1) 17

s = n 2 i= 1 ( X ) 2 i X n 1 (1) Αντίστοιχα αν έχουμε δύο μεταβλητές X και Y (δύο διαστάσεις) τότε μπορούμε να δούμε με την χρήση του μεγέθους της συνδιασποράς ή συμμεταβλητότητας το πώς καθεμία από αυτές μεταβάλλεται σε σχέση με την άλλη. Ο υπολογισμός της γίνεται με χρήση της σχέσης (2) cov( XY, ) = n i= 1 ( X X)( Y Y) i ( n 1) i (2) Βήμα 4: Υπολογισμός των ιδιοτιμών και ιδιοδιανυσμάτων του πίνακα συμμεταβλητότητας Δεδομένου ενός τετραγωνικού πίνακα Α διαστάσεων (n x n) αν υπάρχουν μη μηδενικά διανύσματα x τέτοια ώστε Ax = λx (3), όπου λ ένα βαθμωτό μέγεθος, τότε το λ καλείται ιδιοτιμή του πίνακα Α ενώ το x το αντίστοιχο ιδιοδιάνυσμα του. Στο βήμα αυτό απαιτείται ο υπολογισμός των ιδιοτιμών και των ιδιοδιανυσμάτων του πίνακα συμμεταβλητότητας. Βήμα 5: Επιλογή του πρωτεύοντος διανύσματος Το ιδιοδιάνυσμα που περιγράφει καλύτερα τα δεδομένα μας είναι και αυτό στο οποίο αντιστοιχεί η μεγαλύτερη ιδιοτιμή. Το ιδιοδιάνυσμα αυτό αποτελεί και το principal component του σετ των δεδομένων. Γενικά αφού στην PCA υπολογιστούν τα ιδιοδιανύσματα τότε αυτά κατατάσσονται κατά φθίνουσα ιδιοτιμή. Έτσι δίνεται η δυνατότητα να απορριφθούν τα λιγότερο σημαντικά ιδιοδιανύσματα. Στην συνέχεια, με τα ιδιοδιανύσματα τα οποία αποφασίστηκε ότι είναι και τα σημαντικότερα, σχηματίζεται ένας πίνακας διανυσμάτων ο οποίος ονομάζεται Feature Vector και έχει την μορφή FeatureVector = ( eig1, eig2,..., eig n ) Βήμα 5: Κατασκευή του νέου πίνακα δεδομένων Στο τελευταίο στάδιο αυτό στάδιο της μεθόδου, ο ανάστροφος πίνακας των ιδιοδιανυσμάτων, πολλαπλασιάζεται αριστερά από τον ανάστροφο πίνακα των δεδομένων μας. Αν δηλαδή Α είναι ο πίνακας των δεδομένων, Β ο πίνακας των ιδιοδιανυσμάτων και Χ ο πίνακας με τα μετασχηματισμένα τελικά δεδομένα τότε X = T T B A 18

Με τον τρόπο αυτό τα αρχικά δεδομένα μετασχηματίζονται σε ένα νέο σύστημα αξόνων, αυτό των κάθετων μεταξύ τους ιδιοδιανυσμάτων του πίνακα συνδιασποράς. 4.3 Εφαρμογή της μεθόδου PCA σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Με βάση τα όσα αναφέρθηκαν παραπάνω, θα εφαρμοστεί η μέθοδος σε πίνακες μετρήσεων ρύπων και μετεωρολογικών παραμέτρων από σταθμούς μέτρησης ποιότητας αέρα της Θεσσαλονίκης. Η εφαρμογή της PCA λόγω της πολυπλοκότητας των πράξεων για πολύ μεγάλους πίνακες έγινε με χρήση του πακέτου λογισμικού MATLAB (http://www.mathworks.com) 4.3.1 Σταθμός Α.Π.Θ. Εφαρμόσθηκε η PCA για τα δεδομένα του σταθμού του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης για την περίοδο 21-23. Ο πίνακας των δεδομένων αποτελείται από μετρήσεις για το Ο 3, ΝΟ 2, θερμοκρασία (temp), υγρασία (hum), ταχύτητα ανέμου (ws), διεύθυνση ανέμου (wd). Η παράμετρος της διεύθυνσης ανέμου λόγω της κυκλικής της φύσης μετασχηματίζεται σε δύο νέες γραμμικές παραμέτρους (sinwd, coswd) με βάση τους παρακάτω μετασχηματισμούς: v1= sin(2 π ( v min( v))/(max( v) min( v))) v2 = cos(2 π ( v min( v)) /(max( v) min( v))) Τα αποτελέσματα της μεθόδου καθώς και ο πίνακας συμμεταβλητότητας παρουσιάζονται αμέσως παρακάτω Πίνακας 4.1: Πίνακας συμμεταβλητότητας Α.Π.Θ. 21-23 NO 2 O 3 Temp Hum WS SinWD CosWD NO 2 718.467-558.732-41.446 92.787-15.846 1.287-2 O 3-558.732 168.323 22.839-439.58 3.35-9.131-9.312 Temp -41.446 22.839 7.2-65.773.52-1.149-2.112 Hum 92.787-439.588-65.773 298.817-1.312 2.654 -.59 WS -15.845 3.349.52-1.312 2.21 -.255.14 SinWD 1.287-9.131-1.149 2.654 -.255.279.211 CosWD -2.4-9.312-2.112 -.59.14.211.699 Πίνακας 4.2: Αποτελέσματα PCA Α.Π.Θ. 21-23 PC1 PC2 PC3 PC4 PC5 PC6 PC7 NO 2 -.3854.937.179.57 -.1 -.1.3 O 3.8836.339.33386.1226.17 -.15 -.1 Temp.156.15 -.56 -.987 -.73 -.12.4 Hum -.2435 -.2842.9257 -.59 -.2 -.14 -.5 WS.172 -.43 -.143.733 -.983.93.135 SinWD -.45 -.5 -.22 -.2.87 -.398.913 CosWD -.37 -.97 -.222.21 -.137 -.91 -.385 19

%Var 74.716 17.935 5.727 1.554.42.21.53 Cumulative 74.716 92.65 98.38 99.93 99.97 99.99 1 %Var Ένα από τα πιο απλά και ευρέως χρησιμοποιούμενα κριτήρια επιλογής των πρωτευόντων PC είναι αυτό της συμμετοχής τους στην συνολική μεταβλητότητα των μετασχηματισμένων δεδομένων (που προκύπτουν από το Βήμα 5 της μεθοδολογίας). Έτσι τα PCs τοποθετούνται ιεραρχικά και επιλέγονται αυτά που αθροίζουν μεταβλητότητα τουλάχιστον 9%. Τα δύο πρώτα Principal Components ερμηνεύουν το 92,6% της μεταβλητότητας των δεδομένων συνολικά και άρα «περιέχουν» το μεγαλύτερο ποσοστό πληροφορίας. Η χρήση τους είναι επαρκής για μία ικανοποιητική αναπαράσταση των δεδομένων. Το PC1 συνδέει το ΝΟ 2 με το Ο 3 και την υγρασία ενώ το PC2 το ΝΟ 2 και το Ο 3 (αυτές οι παράμετροι συμμετέχουν στα αντίστοιχα PC με το μεγαλύτερο απόλυτο μέτρο). 4.3.2 Σταθμός Καλαμαριάς Ακριβώς όπως και στην περίπτωση του σταθμού του Α.Π.Θ. η PCA εφαρμόστηκε στα δεδομένα του σταθμού της περιοχής της Καλαμαριάς για την χρονική περίοδο 21-23 Πίνακας 4.3: Πίνακας συμμεταβλητότητας Καλαμαριά 21-23 NO 2 O 3 Temp Hum WS SinWD CosWD NO 2 442.925-3.556-55.736 89.759-4.753 1.766.759 O 3-3.556 967.742 157.786-367.522 1.13-7.733-3.59 Temp -55.736 157.786 67.691-75.35.13-1.176-1.16 Hum 89.759-367.522-75.35 343.59-5.575 2.319 -.36 WS -4.753 1.13.13-5.575.495 -.133.124 SinWD 1.766-7.733-1.176 2.319 -.133.591 -.1 CosWD.759-3.59-1.16 -.36.124 -.1.344 Πίνακας 4.4: Αποτελέσματα PCA Καλαμαριά 21-23 PC1 PC2 PC3 PC4 PC5 PC6 PC7 NO 2.3517 -.951.2377.227.8 -.6.34 O 3 -.8445 -.259.4776 -.127 -.11 -.1 -.11 Temp -.1489 -.37 -.16.987.194 -.37.18 Hum.3753.371.845.84.4 -.15.3 WS -.1.5 -.6 -.44.3234 -.599.731 SinWD.64.27 -.8.15 -.91 -.43.45 CosWD.26 -.1 -.11 -.18.2877 -.673 -.68 %Var 7.452 18.41 8.9 2.18.3.21.1 Cumulative %Var 7.452 88.853 97.75 99.93 99.96 99.99 1 Τα τρία πρώτα principal components ερμηνεύουν συνολικά το 97.75% της μεταβλητότητας. Όπως φαίνεται και από του συντελεστές του καθενός το PC1 2

συνδέει το ΝΟ 2 με το Ο 3 και την υγρασία, το PC2 το ΝΟ 2 με το Ο 3 και την υγρασία πάλι ενώ το PC3 το Ο 3 με την υγρασία. 4.3.3 Σταθμός Σίνδου Παρουσιάζονται τα αποτελέσματα του σταθμού της Σίνδου για τα έτη 21-22 μετά από την εφαρμογή της PCA. Πίνακας 4.5: Πίνακας συμμεταβλητότητας Σίνδος 21-22 NO 2 O 3 Temp Hum WS SinWD CosWD NO 2 223.968-33.213-21.464 119.72-14.874 1.568.178 O 3-33.212 1489.64 199.818-595.275 31.15 3.319-9.944 Temp -21.464 199.818 73.381-93.92.6.583-2.359 Hum 119.72-595.275-93.92 54.146-2.1.189 1.964 WS -14.874 31.15.6-2.2 3.226 -.97.191 SinWD 1.568 3.319.582.189 -.97.42 -.5 CosWD.178-9.944-2.359 1.964.191 -.5.486 Πίνακας 4.6: Αποτελέσματα PCA Σίνδος 21-22 PC1 PC2 PC3 PC4 PC5 PC6 PC7 NO 2.277 -.3431.8897 -.212.47 -.1.14 O 3 -.8798.334.2947 -.166 -.5 -.1.14 Temp -.1215 -.53.2346.961.69.9.8 Hum.41.8764.2487.34.351 -.3.8 WS -.27 -.9 -.63 -.57.989 -.71 -.1 SinWD -.14.3.179 -.7.24.824 -.566 CosWD.53 -.66 -.19 -.15.121.562.818 %Var 81.6 1.28 6.25 1.76.75.16.14 Cumulative %Var 81.6 91.88 98.13 99.89 99.96 99.9 1 Τα δύο πρώτα principal components εκφράζουν το 92% της συνολικής διακύμανσης. Το πρώτο (PC1) συνδέει τα ΝΟ 2, Ο 3, θερμοκρασία και υγρασία. Το δεύτερο (PC2) συνδέει τα ΝΟ 2, Ο 3 και υγρασία. 4.3.4 Σταθμός Κορδελιού Για τον σταθμό του Κορδελιού και την περίοδο 21-22 η PCA έδωσε τα αποτελέσματα του παρακάτω πίνακα. Πίνακας 4.7: Πίνακας συμμεταβλητότητας Κορδελιό 21-22 NO 2 O 3 Temp Hum WS SinWD CosWD NO 2 612.688-61.174-35.866 123.458-12.27 -.457 -.611 O 3-61.174 1491.958 186.925-463.697 17.776 1.269-6.315 Temp -35.866 186.925 72.23-86.491.79.164-1.636 Hum 123.458-463.697-86.491 41.81-7.383.951 2.113 21

WS -12.27 17.776.79-7.383.837 -.1 -.16 SinWD -.457 1.269.164.951 -.1.529.59 CosWD -.611-6.315-1.636 2.113 -.2.59.452 Πίνακας 4.8: Αποτελέσματα PCA Κορδελιό 21-22 PC1 PC2 PC3 PC4 PC5 PC6 PC7 NO 2.414 -.781.4522 -.114.1 -.13.8 O 3 -.855 -.16.47 -.15.1.6.7 Temp -.11 -.165.57.979 -.1 -.29.13 Hum.292.58.756.845 -.1 -.13.5 WS -.11.6 -.15 -.29 -.1 -.994.18 SinWD -.5.17.6.3.913 -.99 -.395 CosWD.3.7 -.1 -.11.395 -.22.918 %Var 76.3 15.5 7.2 1.58.21.19.14 Cumulative %Var 76.3 91.35 98.37 99.95 99.97 99.99 1 Τα δύο πρώτα PC s εκφράζουν το 91,3% της διακύμανσης με το πρώτο να συνδέει τα ΝΟ 2 και Ο 3 ενώ το δεύτερο το ΝΟ 2 με την υγρασία. 4.4 Συμπεράσματα Εφαρμόστηκε η μέθοδος PCA σε πίνακες μετρήσεων ωριαίων συγκεντρώσεων ρύπων και μετρολογικών παραμέτρων από σταθμούς παρακολούθησης ποιότητας αέρα της πόλης της Θεσσαλονίκης. Τα αποτελέσματα κατέδειξαν την ισχυρή συσχέτιση (αλλά και επίδραση στο σύνολο των δεδομένων) των παραμέτρων NO 2, Ο 3 και υγρασίας. Επίσης επιβεβαιώθηκε η συσχέτιση που υπάρχεί μεταξύ Ο 3 και υγρασίας (τα υψηλά επίπεδα υγρασίας εμποδίζουν τον σχηματισμό του Ο 3 ). Για τον σταθμό της Σίνδου παρουσιάστηκε υψηλή συσχέτιση μεταξύ ΝΟ 2, Ο 3, υγρασίας και θερμοκρασίας ενώ για τον σταθμό του Κορδελιού η μέθοδος παρουσίασε συσχέτιση μεταξύ ΝΟ 2 και υγρασίας. Σημαντική είναι η μικρή επίδραση των παραμέτρων της ταχύτητας και διεύθυνσης του αέρα στα επίπεδα των συγκεντρώσεων Ο 3, που παρατηρείται τόσο από τους πίνακες συμμεταβλητότητας όσο και από τα αποτελέσματα της PCA. 22

5. Παλινδρόμηση 5.1 Εισαγωγή Στην παράγραφο αυτή θα αναλυθούν οι τεχνικές πολλαπλής παλινδρόμησης που εφαρμόστηκαν σε περιβαλλοντικές και μετεωρολογικές χρονοσειρές για την εξαγωγή σχέσεων με σκοπό την πρόβλεψη των συγκεντρώσεων Ο 3 για την πόλη της Θεσσαλονίκης. 5.2 Γραμμική παλινδρόμηση Παρατηρώντας το Σχήμα 5.1 το οποίο παρουσιάζει την συγκέντρωση Ο 3 σαν συνάρτηση της θερμοκρασίας (σταθμός Α.Π.Θ., 23) βλέπουμε ότι υπάρχει μία γραμμική σχέση ανάμεσα στα δύο μεγέθη οπότε μπορούμε να επιχειρήσουμε να προσαρμόσουμε μία ευθεία Y = a+ bx (1) στα δεδομένα μας. 16 14 12 1 O 3 (μg/m 3 ) 8 6 4 2 22 24 26 28 3 32 Θερμοκρασία ( ο C) Σχήμα 5.1: Εξάρτηση Ο 3 με θερμοκρασία Η διαφορά της πραγματικής τιμής Y ' από την προβλεπόμενη Y καλείται σφάλμα ή υπόλοιπο Ε δηλαδή ισχύει: Πραγματική τιμή (Υ ) = Προβλεπόμενη τιμή (Υ) + Υπόλοιπο (Ε) ή E = Y' Y = Y' a bx Ο υπολογισμός των σταθερών της εξίσωσης (1) γίνεται με χρήση των σχέσεων 23

SXY b = SXX a= Y bx 2 ( i ) i ( )( ) SXX = x x = x nx SXY = x x y y = x y nxy i i i i Στην βάση των παραπάνω, και εφαρμόζοντας την σχέση 1, προκύπτει η ακόλουθη ευθεία παλινδρόμησης για τα δεδομένα 2 Y = 22.92381+.4452X Είναι λογικό η επιλογή της ευθείας που προσαρμόστηκε στα δεδομένα μας να έγινε με βάση κάποιους περιορισμούς. Αυτοί προκύπτουν από τις τιμές του σφάλματος Ε για κάθε μία από τις ευθείες που μπορούν να περιγράψουν την γραμμική τάση των δεδομένων. Από όλες τις ευθείες τις οποίες μπορούμε να σχεδιάσουμε για να κατασκευάσουμε ένα μοντέλο γραμμικής παλινδρόμησης, επιλέγουμε αυτήν για την οποία ελαχιστοποιούνται οι τιμές του σφάλματος Ε για κάθε ένα από τα σημεία και για την οποία το άθροισμα: ( a bx) Ε = Υ' = Γενικότερα για τις τιμές του Ε του μοντέλου μας θα πρέπει να ισχύουν τα παρακάτω: Το άθροισμά τους να είναι μηδέν Να προέρχονται από κανονική κατανομή, το οποίο στην ουσία σημαίνει ότι πρέπει να έχουν τυχαίες τιμές, έτσι ώστε να μην έχουμε την εμφάνιση συστηματικού σφάλματος. Αν τα υπόλοιπα Ε δεν προέρχονται από κανονική κατανομή τότε το μοντέλο μας είναι ακατάλληλο για πρόβλεψη. Να είναι ανεξάρτητα μεταξύ τους. Αν τα υπόλοιπα Ε δεν είναι ανεξάρτητα μεταξύ τους, τότε υπάρχει μια συσχέτιση στα δεδομένα μας η οποία δεν εκφράζεται από το μοντέλο. Αν όμως είναι ανεξάρτητα μεταξύ τους το σφάλμα που προκύπτει με την εφαρμογή του μοντέλου μας είναι τυχαίο και έτσι δεν μένει κάποια συστηματική μεταβολή στα δεδομένα μας η οποία να μένει αδικαιολόγητη από το μοντέλο. 5.3 Σύγκριση μοντέλων Ανάλυση μεταβλητότητας (ANOVA) Ένας τρόπος να αξιολογηθεί η απόδοση ενός μοντέλου αλλά και το κατά πόσο μπορεί να ερμηνεύσει την διασπορά των δεδομένων, είναι η ανάλυση της μεταβλητότητας (ANOVA). Στο συγκεκριμένο παράδειγμά, για κάθε μία από τις μετρούμενες τιμές Ο 3 υπολογίζεται η αντίστοιχη μεταβλητότητα που προβλέπεται από την εξίσωση γραμμικής παλινδρόμησης. Αφαιρώντας από τις προβλεπόμενες τιμές την μέση τιμή της κάθε συγκέντρωσης και αθροίζοντας τα τετράγωνά τους, προκύπτει το μέγεθος SS (Sums of Squares) το οποίο και εκφράζει το ποσό 24

της διασποράς στις μετρήσεις το οποίο και ερμηνεύεται από το μοντέλο μας. Τα παραπάνω συνοψίζονται στην σχέση: ( SXY ) ( SXY ) SS = SYY RSS = SYY SYY = SXX 2 2 SXX (2) ( SXY ) 2 όπου: SYY = ( y y) 2 και RSS = SYY (3) μέγεθος το οποίο εκφράζει την διασπορά στα SXX δεδομένα μας η οποία δεν ερμηνεύεται από το μοντέλο μας (Residual Sum of Squares). Τα αποτελέσματα της ανάλυσης της μεταβλητότητας του παραδείγματος, εμφανίζονται στον πίνακα που ακολουθεί i Μοντέλο γραμμικής παλινδρόμησης Υπόλοιπο (residual) Βαθμοί ελευθερίας Άθροισμα τετραγώνων (Sum of squares) Μέση τιμή των τετραγώνων 1 171.54 171.54 65 9.44 1.39 Σύνολο 66 261.99 Ο όρος βαθμός ελευθερίας αναφέρεται στο σύνολο των ανεξάρτητων τμημάτων πληροφορίας που χρησιμοποιούνται για την πρόβλεψη μιας παραμέτρου. Από τα αποτελέσματα της ANOVA παρατηρούμε ότι η τιμή του μεγέθους Sum of Squares (171.54), το οποίο όπως αναφέρθηκε αντιστοιχεί στο ποσό της διασποράς των μετρήσεων το οποίο ερμηνεύεται από το μοντέλο μας, δεν είναι ικανοποιητική. Η τιμή του SS για τα υπόλοιπα (9.44) η οποία και αντιστοιχεί στο ποσοστό της διασποράς η οποία δεν δύναται να ερμηνευθεί από το μοντέλο είναι αρκετά υψηλή. Η κυριότερες αιτίες είναι η εξάρτηση του Ο 3 από περισσότερους παράγοντες, καθώς και ο μικρός αριθμός δεδομένων που χρησιμοποιήθηκε για το παράδειγμα. 5.4 Πολλαπλή παλινδρόμηση Στην μελέτη περιβαλλοντικών χρονοσειρών είναι αναγκαίο να συμπεριληφθούν στην ανάλυση περισσότερες από μία παράμετροι όπως συγκεντρώσεις διάφορων ρύπων άλλα και μετεωρολογικά δεδομένα. Στη περίπτωση αυτή χρησιμοποιούμε την πολλαπλή παλινδρόμηση όπου η εξαρτημένη μεταβλητή Y αναλύεται συναρτήσει των ανεξάρτητων μεταβλητών X1, X2, X3... X k. Η εξίσωση παλινδρόμησης θα έχει την μορφή 25

Y = b + b1x1+ b2x2 +... + bpx p (4) Η σχέση (4) μπορεί να εκφραστεί και με την βοήθεια πινάκων. Έτσι αν έχουμε n μετρήσεις από τις οποίες θέλουμε να κατασκευαστεί η εξίσωση παλινδρόμησης p+1 όρων, ορίζουμε τους πίνακες Y y1 y y n 2 = X 1 x11 x1 p 1 x21 x 1p = 1 xn 1 xnp b b 1 B = bp E e1 e e n 2 = όπου Y ο n x 1 πίνακας των μετρήσεων της εξαρτημένης μεταβλητής, Χ o n x (p+1) πίνακας των μετρήσεων για τις ανεξάρτητες μεταβλητές, Β ο (p+1) x 1 πίνακας των συντελεστών παλινδρόμησης και Ε ο n x 1 πίνακας των σφαλμάτων ή υπολοίπων. Άρα υπό την μορφή πινάκων η εξίσωση πολλαπλής παλινδρόμησης γράφεται: Y = XB+ E (5) Τα στοιχεία του πίνακα των συντελεστών της (4) πρέπει να ελαχιστοποιούν την συνάρτηση του αθροίσματος των τετραγώνων των υπολοίπων: T ( ) ( ) RSS( B) = Y XB Y XB (6) από την άλγεβρα πινάκων χρησιμοποιούμε την σχέση T T T T ( A B) ( A B) = A A+ B B 2A B οπότε η (6) γίνεται T T T T RSS( B) = Y Y + B ( X X ) B 2Y XB (7) παραγωγίζοντας την (7) ως προς Β και θέτοντας το αποτέλεσμα ίσο με μηδέν λαμβάνουμε: 1 ( T T B X X) X Y = (8) από όπου και υπολογίζουμε τον πίνακα των συντελεστών εφ όσον βέβαια T ορίζεται ο ( X X ) 1. 5.5 Μοντέλα παλινδρόμησης για την Θεσσαλονίκη Σαν εφαρμογή των όσων αναφέρθηκαν, θα χρησιμοποιηθούν δεδομένα από σταθμούς παρακολούθησης ποιότητας αέρα για την πόλη της Θεσσαλονίκης, για να κατασκευαστεί ένα μοντέλο πολλαπλής παλινδρόμησης για την πρόβλεψη των ωριαίων συγκεντρώσεων Ο 3 (Comrie, 1997; Chaloulakou et al, 22; Sousa et al, 25;). Με την εφαρμογή της μεθόδου Principal Component Analysis, η οποία παρουσιάζεται στο αντίστοιχο κεφάλαιο, βρέθηκε ότι οι ανεξάρτητες μεταβλητές που συμβάλλουν στην διακύμανση 26

της ημερήσιας συγκέντρωσης Ο 3, είναι κυρίως οι ωριαίες τιμές της συγκέντρωσης ΝΟ 2, της θερμοκρασίας, της υγρασίας, της ταχύτητας ανέμου, και της μετασχηματισμένης διεύθυνσης ανέμου. Η διεύθυνση ανέμου, η οποία μετριέται σε μοίρες, μετασχηματίζεται σύμφωνα με τις σχέσεις v1= sin(2 π ( v min( v))/(max( v) min( v))) v2 = cos(2 π ( v min( v)) /(max( v) min( v))) έτσι ώστε οι τιμές της παραμέτρου να κυμαίνονται από -1 μέχρι 1. Η κατασκευή του μοντέλου γίνεται υπολογιστικά και όχι με άμεση χρήση των εξισώσεων που παρουσιάσαμε, με την βοήθεια του υπολογιστικού περιβάλλοντος μηχανικής μάθησης, εξόρυξης δεδομένων και τεχνητής νοημοσύνης WEKA 3.4 (http://www.cs.waikato.ac.nz/ml/weka/). 5.5.1 Σταθμός ΑΠΘ Η πρώτη εξίσωση που θα υπολογιστεί αναφέρεται στον σταθμό του Α.Π.Θ. για τις χρονιές 21-22 ενώ τα διαθέσιμα δεδομένα για το έτος 23 θα χρησιμοποιηθούν για την αξιολόγηση του μοντέλου. Τα δεδομένα αναφέρονται σε ωριαίες συγκεντρώσεις. Η εξίσωση γραμμικής παλινδρόμησης που προκύπτει για την περιοχή του Α.Π.Θ είναι: O3 = 84.9935.6891* NO2 + 1.6383* temp.65* hum + 3.6611* ws 2.6651*sin wd 1.4187*cos wd (μοντέλο Α) Μία δεύτερη εξίσωση γραμμικής παλινδρόμησης θα κατασκευαστεί με την εισαγωγή μίας νέας παραμέτρου, της τιμής της συγκέντρωσης Ο 3 της προηγούμενης ώρας (Ο 3 lagged). Θα αναφερόμαστε στο μοντέλο χωρίς την συγκέντρωση της προηγούμενης ώρας ως μοντέλο Α και στο δεύτερο ως μοντέλο Β. Ο 3[1 h] = 38.6413.3368* NO2 +.6595* temp.2579* hum+ 1.8992* ws 2.9592*sin wd 5.3464*cos wd +.5669* O3lagged (μοντέλο Β) Όσον αφορά την αξιολόγηση της απόδοσης του μοντέλου που κατασκευάστηκε, αυτή θα γίνεται με την χρήση δύο μεθόδων. Στην μία περίπτωση χρησιμοποιείται ένα τμήμα των διαθέσιμων δεδομένων για την κατασκευή του μοντέλου, το οποίο συνήθως αποτελεί τα 2/3 του συνόλου των συνολικών δεδομένων, και στη συνέχεια με χρήση του μοντέλου μας πραγματοποιείται μία πρόβλεψη του τελικού 1/3 των δεδομένων για να μπορέσει να υπολογιστεί το σφάλμα της μεθόδου. Η δεύτερη μέθοδος ονομάζεται διασταυρωμένη επικύρωση (cross validation) σύμφωνα με την οποία το σύνολο των δεδομένων χωρίζεται σε k τμήματα και διεξάγονται k πειράματα πρόβλεψης, αφήνοντας κάθε φορά στην άκρη ένα διαφορετικό κλάσμα 1/k των δεδομένων μας το οποίο χρησιμοποιείται για την επαλήθευση των προβλέψεων. Το τελικό σφάλμα αποτελείται από την μέση τιμή των σφαλμάτων των k διαφορετικών πειραμάτων πρόβλεψης ενώ το 27

τελικό μοντέλο αναπτύσσεται κάνοντας χρήση όλων των k τμημάτων των δεδομένων. Έχει αποδειχθεί πειραματικά αλλά και θεωρητικά ότι η επιλογή k = 1 είναι και η καταλληλότερη για τον ορθότερο υπολογισμό του σφάλματος της μεθόδου (Witten & Frank, 25). Η μέθοδος της διασταυρωμένης επικύρωσης παρουσιάζει το μειονέκτημα του ότι ο αλγόριθμος κατασκευής του μοντέλου χρησιμοποιεί τα δεδομένα ελέγχου αλλά μπορεί να φανεί χρήσιμη σε περίπτωση όπου ο αριθμός των δεδομένων είναι περιορισμένος. Η αξιολόγηση του μοντέλου γίνεται με την χρήση των μεγεθών που παρουσιάζονται στο Παράρτημα Α. Για τις εξισώσεις που υπολογίστηκαν για τον συγκεκριμένο σταθμό, τα παραπάνω στατιστικά μεγέθη τα οποία προκύπτουν από την επαλήθευση του WEKA (cross validation) αλλά και από την χρονοσειρά του έτους που δεν χρησιμοποιήθηκε για την κατασκευή του μοντέλου έχουν ως εξής: Πίνακας 5.1: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό του ΑΠΘ Σύγκριση με δεδομένα του έτους 23 Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r.77.927 MAE 25.747 14.39 RMSE 31.713 18.44 RAE 7.48% 39.4% RRSE 72.93% 42.33% IA.821.946 CSI A=, B=14, C= A=, B=14, C= Cross validation Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r.93.952 MAE 13.35 9.36 RMSE 17.64 12.143 RAE 4.194% 27.25% RRSE 42.945% 3.563% IA.947.975 CSI A=, B=6, C=.167 A=1, B=5, C= Παρατηρούμενες Μοντέλο Α Μοντέλο Β τιμές Μέση τιμή 54.732 7.175 62.61 Τυπική απόκλιση 43.28 31.1 36.648 Από τις τιμές των δεικτών του Πίνακα 5.1 παρατηρείται βελτίωση στην απόδοση της εξίσωσης παλινδρόμησης με την εισαγωγή της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Τα αποτελέσματα που προκύπτουν από το cross validation είναι πιο ικανοποιητικά, μια και η επαλήθευση έγινε σε σύνολο δεδομένων το οποίο έχει «συμμετάσχει» στον υπολογισμό της ευθείας παλινδρόμησης. Στο Σχήμα 5.2 που ακολουθεί συγκρίνεται η 28

μεταβολή στην συγκέντρωση Ο 3 για το έτος 23 με αυτές που προκύπτουν από τις εξισώσεις γραμμικής παλινδρόμησης που υπολογίστηκαν. O 3 (μg/m 3 ) 25 2 15 1 5 25 2 15 1 5 25 2 15 1 5 Γραμμική Παλινδρόμηση - Μοντέλο Β Γραμμική Παλινδρόμηση - Μοντέλο Α Πραγματικές Τιμές 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 5.2: Σταθμός ΑΠΘ 23 Από το Σχήμα 5.2 είναι σαφής η βελτίωση των αποτελεσμάτων της εξίσωσης γραμμικής παλινδρόμησης μετά την εισαγωγή της συγκέντρωσης Ο 3 της προηγούμενης ώρας και κυρίως για την πρόβλεψη των μέγιστων τιμών. Σημειώνεται ότι η ακριβής πρόβλεψη επεισοδίων, κυρίως κατά τους θερινούς μήνες όπου λόγω των μετεωρολογικών συνθηκών αυξάνονται τα επίπεδα Ο 3, δεν ήταν δυνατή από κανένα από τα δύο μοντέλα (δείκτης CSI). Για μία περισσότερο εποπτική εικόνα, στο Σχήμα 5.3 γίνεται σύγκριση των αποτελεσμάτων του μοντέλου Β για έναν μόνο μήνα (Μάρτιος 23) με τις πραγματικές τιμές, όπου και παρατηρείται ότι οι διακυμάνσεις της πραγματικής χρονοσειράς ακολουθούνται από αυτές της προβλεπόμενης. Η ικανοποιητική σύγκλιση μεταξύ μοντέλου και μετρούμενων συγκεντρώσεων, ενισχύει την άποψη πως η γραμμική παλινδρόμηση δύναται να χρησιμοποιηθεί για την επιτυχή βραχυχρόνια πρόγνωση επιπέδων συγκεντρώσεων όζοντος. 29

Μάρτιος 23 ΑΠΘ 14 Πραγματικές Τιμές Μοντέλο Β 12 O 3 (μg/m 3 ) 1 8 6 4 2 1 2 3 4 5 6 7 8 Ώρες Σχήμα 5.3: Μάρτιος 23 ΑΠΘ 3

5.5.2 Σταθμός Καλαμαριάς Η ίδια διαδικασία που εφαρμόσθηκε στα δεδομένα του σταθμού του Α.Π.Θ. εφαρμόζεται για την κατασκευή ενός μοντέλου γραμμικής παλινδρόμησης για τον σταθμό της Καλαμαριάς. Δεδομένα για την χρονική περίοδο 21-23 θα χρησιμοποιηθούν για την εξαγωγή της γραμμικής σχέσης ενώ η σύγκριση θα γίνει με τα δεδομένα της χρονιάς 24. Οι εξισώσεις που εξήγαγε το WEKA και για τα δύο μοντέλα, έχουν την μορφή: O3 = 46.8594.2293* NO2 + 1.3184* temp.4716* hum + 13.948* ws 4.9383*sin wd 1.7921*cos wd (μοντέλο Α) O3[1 h] = 1.2392.698* NO2 +.3133* temp.12* hum + 5.2717* ws 4.139*sin wd 4.2788*cos wd +.7323* O3lagged (μοντέλο Β) Οι τιμές που υπολογίστηκαν για τους στατιστικούς δείκτες εμφανίζονται στους πίνακες που ακολουθούν: Παρατηρούμενες Μοντέλο Α Μοντέλο Β τιμές Μέση τιμή 47.534 44.182 45.482 Τυπική απόκλιση 36.12 25.22 3.77 Πίνακας 5.2: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Καλαμαριάς Σύγκριση με δεδομένα του έτους 24 Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r.447.941 MAE 24.977 9.544 RMSE 33.628 12.953 RAE 87.14% 33.23% RRSE 93.39% 35.97% IA.649.961 CSI A=, B=8, C= A=, B=8, C= Cross validation Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r.83.945 MAE 12.1 7.3 RMSE 17.342 1.141 RAE 48.185% 29.67% RRSE 55.745% 32.599% IA.92.971 CSI A=, B=2, C= A=, B=2, C= 31

Από τις τιμές του Πίνακα 5.2 είναι εμφανές ότι η απόδοση της εξίσωσης παλινδρόμησης που κάνει χρήση της συγκέντρωσης Ο 3 της προηγούμενης ώρας, είναι σαφώς πιο ικανοποιητική. Παρόλα αυτά οι εξισώσεις και των δύο γραμμικών μοντέλων παρουσιάζουν πλήρη αδυναμία στην πρόβλεψη έστω και μίας περίπτωσης συναγερμού από όσες παρατηρήθηκαν κατά το χρονικό διάστημα 21-24 (μηδενικός δείκτης CSI). Στο Σχήμα 5.4 συγκρίνονται γραφικά τα αποτελέσματα των εξισώσεων παλινδρόμησης με τις πραγματικές τιμές για το έτος 24. 2 Γρμμική Παλινδρόμηση - Μοντέλο Α 15 1 5 Ο 3 (μg/m 3 ) 2 Γρμμική Παλινδρόμηση - Μοντέλο Β 15 1 5 2 Πραγματικές Τιμές 15 1 5 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 5.4: Σταθμός Καλαμαριάς 24 Στη χρονοσειρά του 24 εμφανίζεται ένα μεγάλο κενό στις μετρήσεις (Μάιος- Ιούνιος και Δεκέμβριος). Το συγκεκριμένο χρονικό διάστημα δεν χρησιμοποιήθηκε στην αξιολόγηση της απόδοσης των μοντέλων. Επίσης ένα μεγάλο κενό στην χρονοσειρά του ΝΟ 2 από τον μήνα Ιούνιο και μετά επηρέασε τα αποτελέσματα της εξίσωσης παλινδρόμησης του μοντέλου Α, το οποίο και εμφάνισε χαμηλό συντελεστή συσχέτισης και χαμηλό ΙΑ. Για το μοντέλο Β αντίθετα η προβλεπόμενη χρονοσειρά φαίνεται να ακολουθεί ικανοποιητικά την πραγματική λόγω της εισαγωγής της επιπλέον παραμέτρου (συγκέντρωσης Ο 3 της προηγούμενης ώρας). Παρατηρείται μία ικανοποιητική σύγκλιση μεταξύ μοντέλου και μετρούμενων συγκεντρώσεων, γεγονός που ενισχύει την άποψη πως και εδώ η γραμμική παλινδρόμηση δύναται να χρησιμοποιηθεί για την επιτυχή βραχυχρόνια πρόγνωση επιπέδων συγκεντρώσεων όζοντος. 32

5.5.3 Σταθμός Σίνδου Μια ακόμα εφαρμογή της μεθόδου της γραμμικής παλινδρόμησης θα παρουσιαστεί για τον σταθμό της περιοχής της Σίνδου. Τα δεδομένα για την ανάπτυξη του μοντέλου, αναφέρονται στην χρονική περίοδο 21-22 ενώ θα χρησιμοποιηθούν για αποτίμηση της απόδοσης τους, δεδομένα του έτους 23. Με χρήση του WEKA οι εξισώσεις γραμμικής παλινδρόμησης και για τα δύο σετ μεταβλητών που χρησιμοποιούμε είναι οι : O3 = 14.767.94* NO2 + 1.2121* temp.5953* hum + 2.372* ws + + 9.54*sin wd 11.798*cos wd (μοντέλο Α) O3[1 h] = 34.461.374* NO2 +.375* temp.1954* hum+.5339* ws+ + 1.3147*sin wd 3.3268*cos wd +.726* O3lagged (μοντέλο Β) Σε αναλογία και με τις προηγούμενες εφαρμογές έχουμε Παρατηρούμενες Μοντέλο Α Μοντέλο Β τιμές Μέση τιμή 6.938 68.65 64.25 Τυπική απόκλιση 4.511 3.945 35.67 Πίνακας 5.3: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Σίνδου Σύγκριση με δεδομένα του έτους 23 Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r.775.936 MAE 2.736 1.82 RMSE 26.165 14.326 RAE 63.7% 32.91% RRSE 66.31% 36.3% IA.854.963 CSI A=, B=, C= A=, B=, C= Cross validation Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r.871.951 MAE 14.721 8.677 RMSE 18.983 11.882 RAE 44.846% 26.433% RRSE 49.185% 3.786% IA.928.975 CSI A=, B=, C= A=, B=, C= 33

Παρουσιάζονται και υπό μορφή διαγράμματος η προβλεπόμενη αλλά και η πραγματική μεταβολή της συγκέντρωσης Ο 3, και για τα δύο μοντέλα, στον σταθμό της Σίνδου (έτος 23) για μία οπτική αξιολόγηση των εξισώσεων παλινδρόμησης. 2 15 Γραμμική Παλινδρόμηση - Μοντέλο Α 1 5 O 3 (μg/m 3 ) 2 15 1 5 2 15 Γραμμική Παλινδρόμηση - Μοντέλο Β Πραγματικές Τιμές 1 5 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 5.5: Σταθμός Σίνδου 23 Σημειώνεται ότι οι προβλέψεις των τελευταίων ημερών του μήνα Δεκεμβρίου δεν μπορούν να θεωρηθούν αξιόπιστες λόγω κενών σε όλες τις χρονοσειρές των μεταβλητών, τα οποία συμπληρώθηκαν αναγκαστικά με τις μέσες τιμές αφού ο αλγόριθμος BPCA, που επιλέχθηκε για τον υπολογισμό ελλειπόντων δεδομένων (Παράρτημα Β) δεν μπορεί να εφαρμοστεί σε περιπτώσεις όπου λείπουν όλες οι τιμές των μεταβλητών για την ίδια ώρα. Μία πιο αναλυτική εικόνα της σχέσης προβλέψεων και παρατηρήσεων (μοντέλο Β) παρουσιάζεται στο Σχήμα 5.6 για τον μήνα Ιούνιο του 23. Παρατηρείται μία ικανοποιητική σύγκλιση μεταξύ μοντέλου και μετρούμενων συγκεντρώσεων, γεγονός που ενισχύει την άποψη πως η γραμμική παλινδρόμηση μπορεί να χρησιμοποιηθεί για την επιτυχή βραχυχρόνια πρόγνωση επιπέδων συγκεντρώσεων όζοντος. 34

16 14 Ιούνιος 23 Σίνδος Πραγματικές Τιμές Μοντέλο Β Ο 3 (μg/m 3 ) 12 1 8 6 4 2 1 2 3 4 5 6 7 8 Ώρες Σχήμα 5.6: Σταθμός Σίνδου Ιούνιος 23 35

Η αδυναμία του μοντέλου παλινδρόμησης να προβλέψει τις ελάχιστες τιμές Ο 3, δεν επηρεάζει την μελέτη μας καθώς είναι οι μέγιστες συγκεντρώσεις αυτές που μας ενδιαφέρουν, και οι οποίες ακολουθούνται αρκετά ικανοποιητικά από το μοντέλο πρόβλεψης. 5.5.4 Σταθμός Κορδελιού Ακολουθώντας την ίδια διαδικασία μελετάμε τις μετρήσεις που προέρχονται από τον σταθμό του Κορδελιού. Το τμήμα των μετρήσεων που αναφέρονται στην χρονική περίοδο 21-22 θα χρησιμοποιηθεί για την ανάπτυξη του μοντέλου γραμμικής παλινδρόμησης ενώ η σύγκριση θα γίνει με τα δεδομένα του έτους 23. Οι ευθείες παλινδρόμησης είναι οι παρακάτω: O3 = 88.9311.7186* NO2 + 1.3932* temp.599* hum + 4.9114* ws + + 3.2119*sin wd 7.7645*cos wd (μοντέλο Α) O3[1 h] = 33.17.2764* NO2 +.4582* temp.237* hum+ 2.3736* ws+ + 1.5639*sin wd 2.9493*cos wd +.6581* O3lagged (μοντέλο Β) με τις ακόλουθες τιμές σφαλμάτων Παρατηρούμενες Μοντέλο Α Μοντέλο Β τιμές Μέση τιμή 47.527 68.982 55.49 Τυπική απόκλιση 37.545 27.819 31.38 Πίνακας 5.4: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Κορδελίου Σύγκριση με δεδομένα του έτους 23 Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r.481.92 MAE 33.125 14.53 RMSE 4.489 18.285 RAE 17.5% 47.16% RRSE 17.85% 48.7% IA.647.9278 CSI A=, B=2, C= A=, B=2, C= Cross - validation Μοντέλο Α Μοντέλο Β Συντελεστής συσχέτισης r.849.937 MAE 15.543 9.599 RMSE 2.411 13.455 36

RAE 48.341% 29.855% RRSE 52.843% 34.833% IA.913.967 CSI A=, B=14, C=.133 A=2, B=12, C=1 Παρατηρείται ότι για το μοντέλο Α παρουσιάζονται πολύ υψηλές τιμές σφαλμάτων οι οποίες ελαττώνονται σημαντικά με την είσοδο της παραμέτρου για το Ο 3 της προηγούμενης ώρας. Η βελτίωση φαίνεται και στην περίπτωση που κάνουμε επαλήθευση με cross validation όπου έχουμε και πρόβλεψη δύο επεισοδίων υψηλής συγκέντρωσης Ο 3. Στο Σχήμα 5.7 παρουσιάζονται οι προβλεπόμενες από την εξίσωση γραμμικής παλινδρόμησης τιμές για την συγκέντρωση Ο 3 με τις πραγματικές τιμές που μετρήθηκαν από τον σταθμό για το έτος 23. 2 Γραμμική Παλινδρόμηση - Μοντέλο Α 15 1 5 Ο 3 (μg/m 3 ) 2 Γραμμική Παλινδρόμηση - Μοντέλο Β 15 1 5 2 Πραγματικές Τιμές 15 1 5 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 5.7: Σταθμός Κορδελιού 23 Είναι εμφανής η αδυναμία του μοντέλου Α να προβλέψει τις μέγιστες τιμές κατά τους θερινούς μήνες, ενώ καταφέρνει να περιγράψει ικανοποιητικά την τάση της χρονοσειράς του Ο 3 καθ όλη την διάρκεια του έτους εκτός από το τμήμα από τα μέσα Ιουλίου και μετά. Παρόλα αυτά η κατάσταση φαίνεται να διορθώνεται σημαντικά στην περίπτωση του μοντέλου Β. Σημειώνουμε ότι αυτό μπορεί να οφείλεται στο γεγονός ότι η χρονοσειρά του ΝΟ 2 παρουσίαζε ένα μεγάλο κενό το οποίο και συμπληρώσαμε με εκτιμώμενες τιμές με την 37

χρήση της μεθόδου BPCA (Παράρτημα Β) για την κάλυψη των κενών σε χρονοσειρές. Μία πιο αναλυτική εικόνα της σχέσης προβλέψεων και παρατηρήσεων (μοντέλο Β) παρουσιάζεται στο Σχήμα 5.8 για τον μήνα Μάιο του 23. Η ικανοποιητική σύγκλιση μεταξύ μοντέλου και μετρούμενων συγκεντρώσεων, ενισχύει την άποψη πως η γραμμική παλινδρόμηση μπορεί να χρησιμοποιηθεί για την επιτυχή βραχυχρόνια πρόγνωση επιπέδων συγκεντρώσεων όζοντος. 38

Μάιος 23 Κορδελιό 18 16 Πραγματικές Τιμές Μοντέλο Β 14 Ο 3 (μg/m 3 ) 12 1 8 6 4 2 1 2 3 4 5 6 7 8 Ώρες Σχήμα 5.8: Σταθμός Κορδελιού Μάιος 23 39

5.6 Συμπεράσματα Στο παρόν κεφάλαιο παρουσιάστηκε η μέθοδος και τα αποτελέσματα της εφαρμογής της πολλαπλής γραμμικής παλινδρόμησης για την πρόβλεψη των ωριαίων συγκεντρώσεων Ο 3 για την πόλη της Θεσσαλονίκης και για τις περιοχές των σταθμών παρακολούθησης ποιότητας (ΑΠΘ, Σίνδος, Καλαμαριά, Κορδελιό). Τα μοντέλα πρόβλεψης μπόρεσαν να αποδώσουν σωστά την τάση μεταβολής της συγκέντρωσης του Ο 3 κατά την διάρκεια του έτους, αλλά γενικά παρουσίασαν σημαντική αδυναμία στην πρόβλεψη των μέγιστων τιμών. Τα αποτελέσματα των εξισώσεων γραμμικής παλινδρόμησης βελτιώθηκαν σημαντικά με την χρήση της συγκέντρωσης Ο 3 της προηγούμενης ώρας σαν μεταβλητή πρόβλεψης αλλά και με την συμμετοχή του συνόλου των δεδομένων στην αξιολόγηση του μοντέλου (crossvalidation). Ένας σημαντικός παράγοντας για την μη πρόβλεψη των μεγίστων τιμών, είναι η μη γραμμική (από φυσικής άποψης) σχέση μεταξύ της εξαρτημένης μεταβλητής (Ο 3 ) και των ανεξάρτητων μεταβλητών (ΝΟ 2, μετεωρολογικοί παράγοντες) η οποία δεν μπορεί να εκφραστεί από τα μοντέλα γραμμικής παλινδρόμησης. Ένας δεύτερος παράγοντας είναι το γεγονός ότι σε πολλούς σταθμούς παρουσιάζονται μεγάλα κενά στα δεδομένα εισόδου των μοντέλων, τα οποία και συμπληρώσαμε με την μέθοδο της Bayesian Principal Component Analysis. Συνολικά, η μέθοδος της πολλαπλής γραμμικής παλινδρόμησης εμφανίζεται ικανή να υποστηρίξει την επιχειρησιακή βραχυχρόνια πρόγνωση επιπέδων συγκεντρώσεως όζοντος σε περιοχές της Θεσσαλονίκης. 4

6. Τεχνητά Νευρωνικά Δίκτυα (ΤΝΔ) 6.1 Εισαγωγή Τα τεχνητά νευρωνικά δίκτυα (Artificial Neural Networks) είναι μαθηματικά μοντέλα για την επεξεργασία πληροφορίας που προσεγγίζει την υπολογιστική και αναπαραστατική δυνατότητα του ανθρώπινου εγκεφάλου μέσω συνάψεων. Τα μοντέλα αυτά είναι εμπνευσμένα από τα βιοηλεκτρικά δίκτυα που δημιουργούνται στον εγκέφαλο ανάμεσα στους νευρώνες (νευρικά κύτταρα) και στις συνάψεις (σημεία επαφής των νευρικών απολήξεων). Στο μαθηματικό μοντέλο των νευρωνικών δικτύων υπάρχουν κομβικά σημεία (nodes) στα οποία καταλήγουν συνδέσεις από άλλους κόμβους του δικτύου, στις οποίες συνήθως αποδίδεται κάποιο βάρος. Τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ), ως μαθηματικό μοντέλο, προέκυψαν από τον τομέα της Τεχνητής Νοημοσύνης. Η εισαγωγή για την χρήση τεχνητών νευρωνικών δικτύων έγινε από τους McCulloch και Pitts (1943) οι οποίοι πρότειναν ένα μαθηματικό μοντέλο του νευρώνα όπως αυτό που φαίνεται στο Σχήμα 6.1. Έκτοτε η περιοχή των ΤΝΔ έχει αναπτυχθεί πάρα πολύ και η σχετική βιβλιογραφία έχει εμπλουτισθεί με ένα σύνολο από (διαρκώς ανανεούμενα) βιβλία αναφοράς αλλά και ερευνητικές εργασίες άρθρα. Τα ΤΝΔ έχουν με επιτυχία εφαρμοσθεί στην ανάλυση και πρόβλεψη χρονοσειρών, στα χρηματοοικονομικά, στις ιατρικές επιστήμες, στην εξόρυξη δεδομένων και σε πολλά άλλα επιστημονικά πεδία. Υπάρχει πλέον μεγάλος αριθμός εργασιών στις οποίες μπορεί κανείς να ανατρέξει για ενημέρωση σχετικά με τα νευρωνικά δίκτυα και τις εφαρμογές τους (Hertz et al. 1991; Ritter et al. 199; Kohonen 1995; Anderson et al. 1988) Σχήμα 6.1: Μαθηματικό μοντέλο νευρώνα Το μοντέλο του σχήματος 6.1 παρουσιάζει την δομή ενός τεχνητού νευρώνα ο οποίος ενεργοποιείται όταν ένας γραμμικός συνδυασμός των εισόδων του υπερβεί μια καθορισμένη τιμή κατωφλίου. Ο γραμμικός συνδυασμός 41

προκύπτει με πολλαπλασιασμό της «εισόδου» που δέχεται ο κάθε νευρώνας με το αντίστοιχο συναπτικό βάρος. Τα τρία βασικά χαρακτηριστικά του τεχνητού νευρώνα είναι τα ακόλουθα Το σύνολο των συνδέσμων εισόδου x j (συνάψεις), κάθε ένας από τους οποίους χαρακτηρίζεται από ένα συναπτικό βάρος W kj. Συγκεκριμένα το σήμα εισόδου x j της σύναψης j του νευρώνα k πολλαπλασιάζεται με το βάρος W kj. Ο δείκτης k του βάρους W αναφέρεται στον νευρώνα τον οποίο εξετάζουμε ενώ ο δείκτης j στην είσοδο στην οποία αντιστοιχεί το συγκεκριμένο βάρος. Ο αθροιστής, ο οποίος αθροίζει τα σήματα εισόδου πολλαπλασιασμένα με το αντίστοιχο βάρος τους δηλαδή u k m = wkjx j= 1 j Η συνάρτηση ενεργοποίησης, η οποία εφαρμόζεται στο παραπάνω άθροισμα για να παράγει την έξοδο η τιμή της οποίας δίνεται από την συνάρτηση ( ) y = ϕ u + b k k k Το βάρος πόλωσης b k έχει την ιδιότητα να αυξομειώνει την «πραγματική» είσοδο του νευρώνα ανάλογα με το πρόσημό της, σύμφωνα με την υ = u + b k k k Συναρτήσεις Ενεργοποίησης ή Μεταφοράς Η συνάρτηση ενεργοποίησης πρέπει να είναι τέτοια ώστε να μας δίνει δύο δυνατές τιμές. Θέλουμε η τιμή της να είναι +1 όταν δίνονται οι σωστές είσοδοι και όταν δίνονται οι λανθασμένες. Επίσης πρέπει να είναι μη γραμμική έτσι ώστε το νευρωνικό δίκτυο να μην εκφυλίζεται σε μία απλή γραμμική συνάρτηση. Δύο συναρτήσεις οι οποίες μπορούν να χρησιμοποιηθούν είναι η βηματική συνάρτηση και η σιγμοειδής συνάρτηση. 42

1, x φ( x) =, x < Βηματική συνάρτηση 1 φ ( x) = x 1 + e Σιγμοειδής συνάρτηση Άλλες συναρτήσεις που χρησιμοποιούνται με επιτυχία ως συναρτήσεις ενεργοποίησης είναι η υπερβολική εφαπτομένη, η συνάρτηση ράμπας (ramp function) κ.α.. 6.2 Δομές νευρωνικών δικτύων Από το σύνολο αρχιτεκτονικών τοπολογιών των ΤΝΔ παρουσιάζονται εδώ τρεις βασικές δομές τεχνητών νευρωνικών δικτύων. Νευρωνικά δίκτυα ενός επιπέδου με προς τα εμπρός τροφοδότηση σήματος (Single Layer Feedforward Networks) όπου οι νευρώνες οργανώνονται σε επίπεδα. Σε αυτή την απλή μορφή έχουμε ένα επίπεδο εισόδου το οποίο επικοινωνεί μονόδρομα με ένα επίπεδο εξόδου. Η γραφική αναπαράσταση του Σχήματος 6.2 μας δίνει την μορφή ενός δικτύου ενός επιπέδου όπου ο όρος «επίπεδο» αναφέρεται στο επίπεδο των νευρώνων εξόδου. 43

Σχήμα 6.2: Νευρωνικό δίκτυο ενός επιπέδου με προς τα εμπρός τροφοδότηση Νευρωνικά δίκτυα πολλών επιπέδων με προς τα εμπρός τροφοδότηση του σήματος (Multilayer Feedforward Networks) τα οποία χαρακτηρίζονται από την παρουσία ενός η περισσοτέρων «κρυφών» επιπέδων νευρώνων. Το πλεονέκτημα της προσθήκης κρυφών επιπέδων είναι ότι μεγαλώνει ο «χώρος υποθέσεων» που μπορεί να αναπαρασταθεί από το δίκτυο. Με την προσθήκη ενός και μόνο επαρκώς μεγάλου κρυφού επιπέδου, είναι δυνατό να αναπαραστήσουμε οποιαδήποτε συνεχή συνάρτηση των εισόδων με αυθαίρετη ακρίβεια. Στο Σχήμα 6.3 παρουσιάζουμε την δομή ενός δικτύου πολλών επιπέδων 44

Σχήμα 6.3: Νευρωνικό δίκτυο με δύο κρυφά επίπεδα Αναδρομικά δίκτυα (Recurrent networks) τα οποία διαχωρίζονται από τις δύο προηγούμενες δομές επειδή ανατροφοδοτούν τις εισόδους τους με αποτελέσματα των εξόδων τους. Αυτό σημαίνει ότι τα επίπεδα ενεργοποίησης του δικτύου σχηματίζουν ένα δυναμικό σύστημα το οποίο μπορεί να φτάσει σε μία σταθερή κατάσταση ή να παρουσιάσει ταλαντώσεις ή ακόμα και χαοτική συμπεριφορά. Επίσης η απόκριση του δικτύου σε μία συγκεκριμένη είσοδο εξαρτάται από την αρχική του κατάσταση η οποία μπορεί να εξαρτάται από τις προηγούμενες εισόδους του. 6.3 Εκπαίδευση ενός τεχνητού νευρωνικού δικτύου Ένα νευρωνικό δίκτυο πρέπει να είναι έτσι ρυθμισμένο ώστε από τα δεδομένα εισόδου που του παρέχουμε να παράγονται οι επιθυμητές τιμές εξόδου. Αυτό μπορεί να γίνει είτε με δοκιμές επί των βαρών των συνάψεων αλλά και επί των συναρτήσεων ενεργοποίησης, ή «εκπαιδεύοντας» το δίκτυο: παρέχοντας του δεδομένα και αφήνοντας το να αλλάζει από μόνο του τις τιμές των βαρών με την χρήση κανόνων μάθησης. Όσον αφορά την διαδικασία της μάθησης, αυτή μπορεί να χωριστεί σε δύο κατηγορίες. Επιβλεπόμενη μάθηση (supervised learning) στην οποία το δίκτυο εκπαιδεύεται παρέχοντας του παραδείγματα εισόδων με τις αντίστοιχες εξόδους τους. 45

Μη επιβλεπόμενη μάθηση (unsupervised learning) η οποία περιλαμβάνει την μάθηση προτύπων εισόδου χωρίς να παρέχονται συγκεκριμένες τιμές εισόδου. Δηλαδή το δίκτυο πρέπει να ανακαλύψει από μόνο του μοτίβα μέσα στο πλήθος των δεδομένων εισόδου. 6.4 Νευρωνικά δίκτυα ενός επιπέδου (perceptrons) Ένα δίκτυο του οποίου οι είσοδοι είναι άμεσα συνδεδεμένες με τις εξόδους του ονομάζεται νευρωνικό δίκτυο ενός επιπέδου (single layer neural network) ή δίκτυο αισθητήρα (perceptron) η χρήση του οποίου προτάθηκε από τον Rosenblatt (1958). Στην απλούστερη του μορφή αποτελείται από δύο εισόδους και μία έξοδο όπως φαίνεται και στο Σχήμα 6.4 που ακολουθεί. Σχήμα 6.4: Δίκτυο ενός επιπέδου με δύο εισόδους και μία έξοδο Η είσοδος του νευρώνα είναι το σταθμισμένο άθροισμα των εισόδων της συν τον όρο πόλωσης θ. Ακολούθως στο άθροισμα αυτό εφαρμόζεται η συνάρτηση ενεργοποίησης για «παραχθεί» η έξοδος: y= F wx + θ 2 i i (1) i= 1 Αν ως συνάρτηση ενεργοποίησης χρησιμοποιηθεί η βηματική συνάρτηση: 1 s > Fs () = 1 s (2) τότε μπορούμε να θεωρήσουμε ότι ο αισθητήρας αναπαριστά μια Boolean συνάρτηση. Η έξοδος του δικτύου μπορεί πλέον να πάρει δύο δυνατές τιμές και το δίκτυο μπορεί να χρησιμοποιηθεί για την κατηγοριοποίηση κατανομή των εισόδων του σε δύο ξεχωριστές ομάδες (ανάλογα με την τιμή της εξόδου) οι οποίες ονομάζονται κλάσεις. Αν η συνολική είσοδος είναι θετική τότε η περίπτωση που θέλουμε να κατηγοριοποιήσουμε θα ανατεθεί στην κλάση +1, ενώ αν είναι αρνητική θα ανατεθεί στην κλάση -1. Ο διαχωρισμός των δύο κλάσεων γίνεται από την ευθεία με εξίσωση wx 1 1+ wx 2 2+ θ = (3) 46

Γι αυτό το λόγο ο αισθητήρας κατωφλίου ονομάζεται γραμμικός διαχωριστής, διότι δύναται να αναπαραστήσει μόνο γραμμικά διαχωρίσιμες συναρτήσεις. Ο αλγόριθμος για την μάθηση ενός νευρωνικού δικτύου στηρίζεται στην προσαρμογή των βαρών του δικτύου έτσι ώστε το μέτρο του σφάλματος να ελαχιστοποιείται. Η συνάρτηση σφάλματος που χρησιμοποιείται συνήθως είναι το άθροισμα των τετραγώνων των σφαλμάτων (sum of squared errors). Το τετράγωνο του σφάλματος για ένα παράδειγμα εκπαίδευσης εισόδου x και «αληθούς» εξόδου y δίνεται από τη σχέση: 1 1 = = ( ( )) 2 w (4) 2 2 2 E Err y h x όπου hw ( x ) η έξοδος του αισθητήρα. Η συνάρτηση του σφάλματος μπορεί να ελαχιστοποιηθεί με την χρήση μίας μεθόδου η οποία καλείται κατάβαση πλαγίας (gradient descent),η οποία κάνει χρήση της μερικής παραγώγου του Ε ως προς κάθε συναπτικό βάρος δηλαδή: n E Err = Err = Err y g W jx j = Err g '( in) x j Wj Wj W (5) j j= όπου ο δείκτης j αναφέρεται στον κόμβο στον οποίο αντιστοιχεί το συναπτικό βάρος W, το εξωτερικό γινόμενο, g η συνάρτηση εισόδου και g η j παράγωγος της και επίσης με τον όρο in αναφερόμαστε στο σταθμισμένο άθροισμα των εισόδων συμπεριλαμβανομένου και του βάρους πολώσεως. Η ενημέρωση των βαρών που προκύπτουν βάση της συνάρτησης σφάλματος τελικά γίνεται σύμφωνα με τη σχέση: W = W + α Err g'( in) x (6) j j j όπου α η τιμή του ρυθμού μάθησης (learning rate). 6.5 Νευρωνικά δίκτυα πολλών επιπέδων με προς τα εμπρός τροφοδότηση σήματος (Multi layer feed forward networks) Όπως είδαμε και προηγουμένως τα ΤΝΔ ενός επιπέδου παρουσιάζουν το περιορισμό του ότι μπορούν να αναπαραστήσουν μόνο γραμμικά διαχωρίσιμες συναρτήσεις. Οι Minsky & Papert (1969) έδειξαν ότι πολλοί από τους περιορισμούς των δικτύων ενός επιπέδου μπορούν να αρθούν με την εισαγωγή ενός κρυφού επιπέδου, αλλά δεν παρουσίασαν μία μέθοδο για την διόρθωση των βαρών από το επίπεδο εισόδου προς το κρυφό επίπεδο. Η λύση παρουσιάστηκε από τους Rumelhart, Hinton και Williams (1986) αλλά και από μεταγενέστερες εργασίες. Η κεντρική ιδέα της λύσης που παρουσιάστηκε στηρίζεται στην οπισθοδιάδωση (back - propagation) του σφάλματος από το επίπεδο εξόδου προς τα κρυφά επίπεδα. Παρά το γεγονός ότι η οπισθοδιάδωση του σφάλματος μπορεί να εφαρμοστεί σε ΤΝΔ με 47

οποιοδήποτε αριθμό επιπέδων, έχει αποδειχθεί (Hornik, Stinchcomble & White 1989; Funahashi 1989; Cybenko 1989; Hartman, Keeler & Kowaski 199) ότι μόνο ένα επίπεδο κρυφών μονάδων επαρκεί για την προσέγγιση συναρτήσεων με μεγάλο αριθμό ασυνεχειών, δεδομένου ότι οι συναρτήσεις ενεργοποίησης των κρυφών μονάδων είναι μη γραμμικές. Η πιο συνηθισμένη περίπτωση αυτής της κατηγορίας νευρωνικών δικτύων, περιλαμβάνει ένα κρυφό επίπεδο όπως αυτό που φαίνεται στο Σχήμα 6.5, όπου το σήμα εισόδου διαδίδεται προς τα εμπρός μέσω του κρυφού επιπέδου νευρώνων. Αυτή η κατηγορία δικτύων ονομάζεται συνήθως και «αισθητήρας πολλών επιπέδων» (Multi - Layer Perceptron). Σχήμα 6.5: Νευρωνικό δίκτυο με ένα κρυφό επίπεδο Η μέθοδος της διόρθωσης των βαρών χρησιμοποιώντας την οπισθοδιάδωση του σφάλματος έχει ως ακολούθως: Στο επίπεδο εξόδου όπως περιγράψαμε και στην προηγούμενη έξοδο τα βάρη ενημερώνονται βάσει της σχέσης W = W + α Err g'( in) x (7) j j j Για πολλές μονάδες εξόδου ορίζουμε ως Err i την i-οστή συνιστώσα του διανύσματος σφάλματος. Αν στην συνέχεια ορίσουμε το μέγεθος Δ = Err g '( in ) η σχέση (7) θα πάρει την μορφή: i i i W = W + a a Δ (8) j, i j, i j i Όπου j ο κόμβος στον οποίο αντιστοιχεί το συναπτικό βάρος W ji, και ο δείκτης i αναφέρεται στον κόμβο εξόδου με τον οποίο συνδέεται ο κόμβος j μέσω του W. ji, 48

Η ιδέα στην οποία στηρίζεται η οπισθοδιάδωση σφάλματος είναι ότι ο κρυφός κόμβος j ευθύνεται για κλάσμα του σφάλματος Δ δηλαδή για το σφάλμα σε κάθε έναν από τους κόμβους εξόδου με τους οποίους συνδέεται. Οι τιμές στην συνέχεια διαιρούνται ανάλογα με το συναπτικό βάρος της σύνδεσης μεταξύ του κρυφού κόμβου και του κόμβου εξόδου, και διαδίδονται προς τα πίσω για να πάρουμε τις τιμές Δ για το κρυφό επίπεδο με χρήση της εξίσωσης: j Δ = g'( in ) W Δ (9) j j j, i i i Όπου Δ j το τροποποιημένο σφάλμα του j κόμβου του κρυφού επιπέδου και Δ i το τροποποιημένο σφάλμα του i κόμβου εξόδου. Επίσης η σχέση για την ενημέρωση των βαρών μεταξύ των εισόδων και του κρυφού επιπέδου είναι η Wkj = Wkj + a ak Δ j (1) i Δ i Η διαδικασία της μεθόδου οπισθοδιάδωσης του σφάλματος μπορεί να αναλυθεί στα παρακάτω βήματα Υπολογίζουμε τις τιμές του Δ για τις μονάδες εξόδου με χρήση του παρατηρηθέντος σφάλματος. Ξεκινώντας από το επίπεδο εξόδου, επαναλαμβάνουμε τα παρακάτω βήματα για κάθε επίπεδο του δικτύου μέχρι να φτάσουμε στο πρώτο κρυφό επίπεδο - Διαδίδουμε τις τιμές του Δ πίσω στο προηγούμενο επίπεδο - Ενημερώνουμε τα βάρη μεταξύ των δύο επιπέδων Το πλεονέκτημα της μεθόδου των ΤΝΔ με χρήση πολλαπλών επιπέδων έγκειται στην δυνατότητα τους να προσεγγίζουν ικανοποιητικά την συμπεριφορά μη γραμμικών συστημάτων όπως αυτό της αέριας ρύπανσης, γεγονός που τα καθιστά κατάλληλα για το πρόβλημα της ατμοσφαιρικής μοντελοποίησης και προσομοίωσης. 6.6 Εφαρμογή των ΤΝΔ σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Μετά την θεωρητική εισαγωγή στα νευρωνικά δίκτυα, θα προχωρήσουμε στην πειραματική εφαρμογή τους για την κατασκευή μοντέλων πρόγνωσης της ωριαίας συγκέντρωσης Ο 3 για την πόλη της Θεσσαλονίκης. Τα δεδομένα που θα χρησιμοποιηθούν για την ανάπτυξη των μοντέλων νευρωνικών δικτύων προέρχονται από τους σταθμούς παρακολούθησης ποιότητας αέρα της πόλης και περιλαμβάνουν τις παραμέτρους: ΝΟ 2, θερμοκρασία, υγρασία, ταχύτητα ανέμου, διεύθυνση ανέμου. Η αρχιτεκτονική των νευρωνικών δικτύων που θα χρησιμοποιήσουμε είναι η Multi Layer Perceptron (MLP) με ένα κρυφό επίπεδο, δηλαδή το δίκτυο θα αποτελείται από ένα επίπεδο εισόδου, ένα κρυφό επίπεδο και το επίπεδο εξόδου. Τα MLP νευρωνικά δίκτυα έχουν χαρακτηριστεί ως καταλληλότερα για την πρόβλεψη των συγκεντρώσεων 49

ατμοσφαιρικών ρύπων καθότι μπορούν να περιγράψουν την μη-γραμμική σχέση μεταξύ των μεταβλητών του μοντέλου (Yi & Prybutok, 1996; Gardner & Dorling, 1999, 2; Kolehmainen et al., 21; Viotti et al.,22; Kukkonen et al., 23). Όπως θα φανεί και στις εφαρμογές ανά σταθμό που θα παρουσιαστούν στο παρόν κεφάλαιο, η επιλογή ενός κρυφού επιπέδου κρίθηκε καταλληλότερη μετά από δοκιμές με αρχιτεκτονικές περισσότερων επιπέδων (Παράρτημα Α) καθότι παρουσίαζε μικρότερα σφάλματα. Η επιλογή του αριθμού τόσο των κρυφών επιπέδων όσο και του αριθμού των νευρώνων, γίνεται με την κατασκευή διαφορετικών μοντέλων και με την αξιολόγηση της επίδοσης τους επιλέγεται το καταλληλότερο (Pellccioni & Tirabassi, 23; Norgaard et al., 2; Corani 24; Jiang & Zhang & Hu & Zeng & Tan & Shao, 23). Το υπολογιστικό περιβάλλον που χρησιμοποιήθηκε για την κατασκευή των δικτύων είναι το WEKA 3.4 (http://www.cs.waikato.ac.nz/ml/weka/ ). Η αξιολόγηση των μοντέλων γίνεται με τον υπολογισμό των στατιστικών δεικτών που χρησιμοποιήθηκαν και στην περίπτωση της γραμμικής παλινδρόμησης (Παράρτημα Α). 6.6.1 Σταθμός Α.Π.Θ. Με χρήση δεδομένων από την χρονική περίοδο 21-22 κατασκευάστηκε ένα ΤΝΔ για την πρόγνωση των ωριαίων συγκεντρώσεων Ο 3 στην περιοχή του Α.Π.Θ.. Η δομή του δικτύου περιλαμβάνει ένα κρυφό επίπεδο 1 κόμβων. Η επιλογή του αριθμού των κόμβων του κρυφού επιπέδου έγινε μετά από δοκιμές με διάφορους συνδυασμούς ώστε να επιλεχθεί η δομή με την καλύτερη απόδοση (Παράρτημα Γ). Κατασκευάστηκαν δύο μοντέλα εκ των οποίων το πρώτο (μοντέλο Γ) χρησιμοποιεί τις μεταβλητές ΝΟ 2, θερμοκρασία, υγρασία, ταχύτητα αέρα, μετασχηματισμένη διεύθυνση αέρα (σχέσεις 11), ενώ στο δεύτερο (μοντέλο Δ), εισάγουμε την συγκέντρωση Ο 3 της προηγούμενης ώρας σαν μια επιπλέον μεταβλητή πρόβλεψης. v1 = sin(2 π ( v min( v)) /(max( v) min( v))) v2 = cos(2 π ( v min( v)) /(max( v) min( v))) (11) Σχήμα 6.6: Νευρωνικό δίκτυο ενός κρυφού επιπέδου με 1 κρυφούς κόμβους για τον σταθμό του Α.Π.Θ. 5

Η αξιολόγηση της επίδοσης του νευρωνικού δικτύου θα γίνει με επαλήθευση του μοντέλου στα δεδομένα του έτους 23 αλλά και με διασταυρωμένη επικύρωση (cross validation) στο σετ δεδομένων με το οποίο εκπαιδεύτηκε το δίκτυο. Τα αποτελέσματα παρουσιάζονται στον Πίνακα 6.1 Πίνακας 6.1: Σύγκριση των δύο μοντέλων για τον σταθμό του ΑΠΘ Σύγκριση με δεδομένα του έτους 23 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.741.919 MAE 27.326 13.532 RMSE 34.19 18.476 RAE 75.672% 37.473% RRSE 79.133% 42.763% IA.814.948 CSI A=, B=14, C=.71 A=1, B=11, C=2 Cross validation Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.926.959 MAE 11.778 8.669 RMSE 15.177 11.552 RAE 35.461% 26.1% RRSE 38.197% 29.74% IA.96.978 CSI A=, B=6, C=.33 A=2, B=4, C= Παρατηρούμενες Μοντέλο Γ Μοντέλο Δ τιμές Μέση τιμή 54.732 72.521 61.844 Τυπική απόκλιση 43.28 35.18 38.38 Παρατηρούμε ότι η απόδοση του νευρωνικού δικτύου βελτιώνεται σημαντικά με την εισαγωγή της παραμέτρου της συγκέντρωσης του Ο 3 της προηγούμενης ώρας, Επίσης πολύ σημαντικό είναι το γεγονός ότι μπορούμε και έχουμε πρόβλεψη ημέρας επεισοδίου (μία σωστή και δύο λανθασμένες) όταν το μοντέλο εφαρμόζεται σε δεδομένα που δεν έχει «δει», ικανότητα που γίνεται ακόμα υψηλότερη (2 στις 6) στην περίπτωση του cross-validation. Σε σχέση με τα στατιστικά της επίδοσης του ΤΝΔ ως προς την παλινδρόμηση, και για το μοντέλο που περιλαμβάνει το Ο 3 της προηγούμενης ώρας ισχύει ότι: βάσει των δεδομένων για το έτος 23, το ΤΝΔ υστερεί ελάχιστα ως προς τον συντελεστή συσχέτισης (.919) έναντι του μοντέλου παλινδρόμησης (.927), εμφανίζει όμως ελαφρά μικρότερο ΜΑΕ και μεγαλύτερο ΙΑ (.948 έναντι.946). Το ΤΝΔ εμφανίζει επίσης καλύτερο CSI (.71) έναντι του 51

μοντέλου παλινδρόμησης (). Συνολικά το ΤΝΔ εμφανίζει ελαφρά καλύτερες επιδόσεις σε σχέση με το μοντέλο παλινδρόμησης. Ο 3 (μg/m 3 ) 25 2 15 1 5 25 2 15 1 5 25 2 15 1 5 ΝΔ - Μοντέλο Γ ΝΔ - Μοντέλο Δ Πραγματικές τιμές 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 6.7: Σταθμός ΑΠΘ 23 Στο Σχήμα 6.7 συγκρίνουμε τα αποτελέσματα των δύο νευρωνικών δικτύων για την πρόβλεψη της χρονοσειράς του 23 για τον σταθμό του ΑΠΘ. Σημαντική είναι η βελτίωση που παρουσιάζεται με την εισαγωγή της συγκέντρωσης Ο 3 της προηγούμενης ώρας, κυρίως όσον αφορά την πρόβλεψη των μέγιστων τιμών. 52

14 Πραγματικές Τιμές Μοντέλο Δ 12 1 Ο 3 (μg/m 3 ) 8 6 4 2 1 2 3 4 5 6 7 8 Ώρες Σχήμα 6.8: Μάρτιος 23 ΑΠΘ 53

Στο Σχήμα 6.8 συγκρίνουμε το μοντέλο Δ για ένα μόνο μήνα με τις πραγματικές τιμές, με τι οποίες παρατηρούμε ότι υπάρχει πολύ καλή συμφωνία. 6.6.2 Σταθμός Καλαμαριάς Η ίδια μεθοδολογία εφαρμόστηκε για το σταθμό παρακολούθησης ποιότητας αέρα της περιοχής της Καλαμαριάς. Το ΤΝΔ που εκπαιδεύτηκε αποτελείται από ένα κρυφό επίπεδο 1 κόμβων. Ο Πίνακας 6.2 παρουσιάζει τις τιμές των στατιστικών δεικτών που προέκυψαν από την εκπαίδευση των νευρωνικών δικτύων με δεδομένα της περιόδου 21-23. Η επαλήθευση γίνεται με χρήση των μετρούμενων ωριαίων συγκεντρώσεων Ο 3 του έτους 24. Υπενθυμίζεται ότι ως μοντέλο Γ ονομάζεται το μοντέλο που χρησιμοποιεί τις μεταβλητές ΝΟ 2, θερμοκρασία, υγρασία, ταχύτητα ανέμου και διεύθυνση ανέμου, ενώ το μοντέλο Δ χρησιμοποιεί επιπλέον την συγκέντρωση Ο 3 της προηγούμενης ώρας. Πίνακας 6.2: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Καλαμαριάς Σύγκριση με δεδομένα του έτους 24 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.477.942 MAE 21.269 8.378 RMSE 29.539 11.348 RAE 87.755% 34.567% RRSE 93.269% 35.83% IA.677.966 CSI A=, B=8, C= A=, B=8, C=1 Cross validation Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.845.946 MAE 12.433 7.96 RMSE 16.928 1.56 RAE 49.58% 31.481% RRSE 54.415% 33.77% IA.913.97 CSI A=, B=2, C= A=, B=2, C=1 Παρατηρούμενες Μοντέλο Γ Μοντέλο Δ τιμές Μέση τιμή 47.534 44.221 44.83 Τυπική απόκλιση 36.12 24.268 3.51 Παρατηρούμε ότι η απόδοση του ΤΝΔ βελτιώνεται σημαντικά με την εισαγωγή της παραμέτρου της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Όσον αφορά τα στατιστικά της επίδοσης του ΤΝΔ ως προς το μοντέλο παλινδρόμησης, για το μοντέλο που περιλαμβάνει το Ο 3 της προηγούμενης ώρας ισχύει ότι: βάσει 54

των δεδομένων για το έτος 24 το ΤΝΔ παρουσίασε ελάχιστα καλύτερο συντελεστή συσχέτισης (.942) έναντι του μοντέλου παλινδρόμησης (.941) και επίσης εμφάνισε μικρότερο ΜΑΕ (8.378 έναντι 9.544) και μεγαλύτερο ΙΑ (.966 έναντι.961). Το ΤΝΔ και το μοντέλο παλινδρόμησης εμφανίζουν CSI=. Στην συνέχεια τα δύο μοντέλα συγκρίνονται γραφικά (Σχήμα 6.9) με την πραγματική χρονοσειρά του Ο 3 για το έτος 24. 2 ΝΔ - Μοντέλο Γ 15 1 5 O 3 (μg/m 3 ) 2 ΝΔ - Μοντέλο Δ 15 1 5 2 Πραγματικές Τιμές 15 1 5 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 6.9: Σταθμός Καλαμαριάς 24 Η γραφική αναπαράσταση των αποτελεσμάτων μας δείχνει ξεκάθαρα ότι το μοντέλο που χρησιμοποιεί την συγκέντρωση Ο 3 της προηγούμενης ώρας υπερτερεί του μοντέλου Γ, αφού προβλέπει με μεγάλη επιτυχία τις διακυμάνσεις της πραγματικής χρονοσειράς. Μια σημαντική αδυναμία και των δύο μοντέλων είναι η μη-πρόβλεψη των 8 ημερών επεισοδίων που σημειώθηκαν κατά την περίοδο του έτους 24. 6.6.3 Σταθμός Σίνδου Τα επόμενα μοντέλα ΤΝΔ αναφέρονται στον σταθμό της περιοχής της Σίνδου. Τα δεδομένα που θα χρησιμοποιηθούν για την εκπαίδευση των δικτύων αναφέρονται στην χρονική περίοδο 21-22, ενώ για σύγκριση θα χρησιμοποιηθούν δεδομένα του έτους 23. Τα ΤΝΔ που αναπτύχθηκαν, 55

αποτελούνται από ένα κρυφό επίπεδο με 1 κόμβους, και η απόδοση τους βάσει των στατιστικών δεικτών παρουσιάζεται στον Πίνακα 6.3. Παρατηρούμενες Μοντέλο Γ Μοντέλο Δ τιμές Μέση τιμή 6.938 76.91 65.43 Τυπική απόκλιση 4.511 35.234 39.826 Πίνακας 6.3: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Σίνδου Σύγκριση με δεδομένα του έτους 23 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.818.945 MAE 22.742 9.977 RMSE 28.27 13.94 RAE 69.17% 3.346% RRSE 71.19% 35.321% IA.86.969 CSI A=, B=, C= A=, B=, C= Cross validation Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.883.95 MAE 13.82 9.69 RMSE 18.246 12.63 RAE 42.12% 27.629% RRSE 47.274% 31.254% IA.936.974 CSI A=, B=, C= A=, B=, C= Παρατηρούμε ότι η απόδοση του ΤΝΔ βελτιώνεται σημαντικά με την εισαγωγή της παραμέτρου της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Σε σχέση με τα στατιστικά της επίδοσης του ΤΝΔ ως προς την παλινδρόμηση, και για το μοντέλο που περιλαμβάνει το Ο 3 της προηγούμενης ώρας, ισχύει ότι: βάσει των δεδομένων για το έτος 23 το ΤΝΔ υπερτερεί ως προς τον συντελεστή συσχέτισης (.945) έναντι του μοντέλου παλινδρόμησης (.936). Επίσης το ΤΝΔ εμφανίζει μικρότερο ΜΑΕ (9.977) σε σχέση με το μοντέλο παλινδρόμησης (1.82) και ελαφρά μεγαλύτερο ΙΑ (.969 έναντι.963). 56

2 15 ΝΔ - Μοντέλο Γ 1 5 O 3 (μg/m 3 ) 2 15 1 5 2 15 ΝΔ - Μοντέλο Δ Πραγματικές Τιμές 1 5 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 6.1: Σταθμός Σίνδου 24 Το Σχήμα 6.1 απεικονίζει την βελτίωση που έχουμε με την εισαγωγή της συγκέντρωσης Ο 3 της προηγούμενης ώρας κυρίως στις μέγιστες τιμές συγκεντρώσεων, τις οποίες το μοντέλο Γ αδυνατεί να απεικονίσει. Σημειώνεται ότι οι προβλέψεις των τελευταίων ημερών του μήνα Δεκεμβρίου δεν μπορούν να θεωρηθούν αξιόπιστες λόγω κενών σε όλες τις χρονοσειρές των μεταβλητών, τα οποία συμπληρώθηκαν αναγκαστικά με τις μέσες τιμές αφού ο αλγόριθμος BPCA δεν μπορούσε να εφαρμοστεί σε περιπτώσεις όπου λείπουν όλες οι τιμές των μεταβλητών για την ίδια ώρα. Επίσης στα Σχήματα 6.11 και 6.12 που ακολουθούν συγκρίνονται τα δύο μοντέλα για τον μήνα Ιούνιο του έτους 23 για μία πιο αναλυτική σύγκριση των δύο μοντέλων. 57

18 16 Πραγματικές Τιμές Μοντέλο Δ 14 12 O 3 (μg/m 3 ) 1 8 6 4 2 1 2 3 4 5 6 7 Ώρες Σχήμα 6.11: Σταθμός Σίνδου Ιούνιος 23. Σύγκριση μοντέλου Δ με πραγματικές τιμές. 58

16 Πραγματικές Τιμές Μοντέλο Γ 14 12 Ο 3 (μg/m 3 ) 1 8 6 4 2 1 2 3 4 5 6 7 Ώρες Σχήμα 6.12: Σταθμός Σίνδου Ιούνιος 23. Σύγκριση μοντέλου Γ με τις πραγματικές τιμές. 59

6.6.4 Σταθμός Κορδελιού Με χρήση των δεδομένων από την χρονική περίοδο 21-22 κατασκευάστηκαν δύο ΤΝΔ για την πρόγνωση των ωριαίων συγκεντρώσεων Ο 3 στην περιοχή του σταθμού παρακολούθησης ποιότητας αέρα στην περιοχή του Κορδελιού. Οι μετρήσεις του έτους 23 θα χρησιμοποιηθούν για την επαλήθευση του ΤΝΔ. Η δομή του ΤΝΔ αποτελείται από ένα κρυφό επίπεδο 1 υπολογιστικών κόμβων. Οι τιμές των στατιστικών δεικτών παρουσιάζονται στον Πίνακα 6.4. Παρατηρούμενες Μοντέλο Γ Μοντέλο Δ τιμές Μέση τιμή 47.527 65.171 52.267 Τυπική απόκλιση 37.545 26.326 29.751 Πίνακας 6.4: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Κορδελιού Σύγκριση με δεδομένα του έτους 23 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.536.93 MAE 29.635 13.19 RMSE 36.841 17.7 RAE 11.782% 45.31% RRSE 12.181% 47.346% IA.675.9312 CSI A=, B=2, C= A=, B=2, C= Cross validation Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.865.932 MAE 14.774 1.318 RMSE 19.489 14.143 RAE 45.95% 32.92% RRSE 5.454% 36.615% IA.927.964 CSI A=, B=14, C=.111 A=2, B=12, C=4 Για το μοντέλο Γ οι τιμές των σφαλμάτων είναι αρκετά υψηλές όμως βελτιώνονται σημαντικά στην περίπτωση του μοντέλου Δ. Στην επαλήθευση με διασταυρωμένη επικύρωση (cross - validation) όπου και είχαμε μεγαλύτερο αριθμό ημερών επεισοδίων υψηλής συγκέντρωσης Ο 3, το μοντέλο Δ μπόρεσε και πρόβλεψε τις 2 από τις συνολικές 14, σημείωσε όμως και 4 λανθασμένες προβλέψεις. Σε σχέση με τα στατιστικά της επίδοσης του ΤΝΔ ως προς την παλινδρόμηση, και για το μοντέλο που περιλαμβάνει το Ο 3 της προηγούμενης ώρας, ισχύει 6

ότι: βάσει των δεδομένων για το έτος 23 το ΤΝΔ εμφανίζει σχεδόν ίδιο συντελεστή συσχέτισης (.93) με το μοντέλο παλινδρόμησης (.92), αλλά εμφανίζει όμως μικρότερο ΜΑΕ (13.19 έναντι 14.53) και ελαφρώς μεγαλύτερο ΙΑ (.9312 έναντι.9278). Τόσο το ΤΝΔ όσο και το μοντέλο παλινδρόμησης εμφανίζουν CSI=. Η γραφική σύγκριση των δύο μοντέλων με την παρατηρούμενη χρονοσειρά Ο 3 του έτους 23 παρουσιάζεται στο Σχήμα 6.13. 2 ΝΔ - Μοντέλο Γ 15 1 5 Ο 3 (μg/m 3 ) 2 ΝΔ - Μοντέλο Δ 15 1 5 2 Πραγματικές Τιμές 15 1 5 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 1/9 1/1 1/11 1/12 Σχήμα 6.13: Σταθμός Κορδελιού 23 Η ικανότητα του μοντέλου Γ κυρίως στο να προβλέψει τις μέγιστες τιμές είναι αρκετά περιορισμένη. Παρόλα αυτά στην περίπτωση του μοντέλου Δ τα αποτελέσματα είναι σαφώς πιο ικανοποιητικά. Παρακάτω παρουσιάζεται ένα διαγράμματα σύγκρισης για τον μήνα Απρίλιο του 23 για κάθε ένα από τα δύο μοντέλα που αναπτύχθηκαν. 61

16 14 Πραγματικές Τιμές Μοντέλο Δ 12 Ο 3 (μg/m 3 ) 1 8 6 4 2 1 2 3 4 5 6 7 Ώρες Σχήμα 6.14: Σταθμός Κορδελιού Απρίλιος 23 62

16 14 Πραγματικές Τιμές Μοντέλο Γ 12 1 Ο 3 (μg/m 3 ) 8 6 4 2 1 2 3 4 5 6 7 Ώρες Σχήμα 6.15: Σταθμός Κορδελιού Απρίλιος 23 63

6.7 Συμπεράσματα Στο κεφάλαιο αυτό παρουσιάστηκε η εφαρμογή των τεχνητών νευρωνικών δικτύων (ΤΝΔ) για την πρόβλεψη των ωριαίων συγκεντρώσεων Ο 3 για την πόλη της Θεσσαλονίκης. Όλα τα μοντέλα ΤΝΔ που κατασκευάστηκαν προέβλεψαν σε ικανοποιητικό βαθμό την τάση μεταβολής της συγκέντρωσης Ο 3. Τόσο οι συντελεστές συσχέτισης όσο και οι τιμές των σφαλμάτων που υπολογίστηκαν και για τα δύο μοντέλα (με και χωρίς το Ο 3 της προηγούμενης ώρας) που αναπτύχθηκαν για κάθε ένα σταθμό παρουσίασαν βελτίωση για την περίπτωση του μοντέλου το οποίο έχει μνήμη της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Σημαντικό είναι να τονίσουμε ότι σε ορισμένες περιπτώσεις είχαμε και την επιτυχή πρόβλεψη ημερών επεισοδίων 3 ( O3 18 μg/ m ) πράγμα το οποίο δεν επιτεύχθηκε με τα μοντέλα γραμμικής παλινδρόμησης. Η δομή των νευρωνικών δικτύων που αναπτύχθηκε ήταν η MLP (Multi layer Perceptron) με ένα κρυφό επίπεδο 1 κόμβων στην οποία και καταλήξαμε μετά από δοκιμές τόσο με δίκτυα δύο κρυφών επιπέδων όσο και με δίκτυα ενός κρυφού επιπέδου αλλά περισσότερων κόμβων, τα οποία δεν παρουσίασαν σημαντικές βελτιώσεις στους στατιστικούς δείκτες (Παράρτημα Α). Έχει δε σημασία να αναφερθεί πως, όπως παρουσιάστηκε και στην ανάλυση μας για τον σταθμό της Σίνδου, είχαμε μία ελαφρά αύξηση των τιμών των σφαλμάτων όταν χρησιμοποιήσαμε ένα νευρωνικό δίκτυο δύο κρυφών επιπέδων με 2 κόμβους στο καθένα. 64

7.Δέντρα Αποφάσεων 7.1 Εισαγωγή Τα δέντρα αποφάσεων αποτελούν μία από τις υπολογιστικές μεθόδους της μηχανικής μάθησης (machine learning). Η λειτουργία τους αποσκοπεί στην πρόβλεψη για την τιμή μίας συγκεκριμένης μεταβλητής (μεταβλητή εισόδου), με βάση ένα σύνολο χαρακτηριστικών (attributes) που την περιγράφουν. Οι τιμές της μεταβλητής εισόδου μπορούν να είναι είτε συνεχείς είτε διακριτές. Η μάθηση μιας συνάρτησης διακριτών τιμών ονομάζεται ταξινόμηση (classification), ενώ η μάθηση μιας συνεχούς συνάρτησης ονομάζεται παλινδρόμηση (regression). Τα δέντρα αποφάσεων εκτελούν μία ακολουθία ελέγχων για να μπορέσουν να εξάγουν τα τελικά συμπεράσματα τους. Κάθε ένας από τους κόμβους (nodes) τους αναλαμβάνει στο να ελέγξει την τιμή ενός συγκεκριμένου χαρακτηριστικού, ενώ τα οι κόμβοι φύλλου (leaf nodes) καθορίζουν την τιμή που επιστρέφεται από το δέντρο όταν προσπελαστεί το συγκεκριμένο φύλλο. Για το δέντρο αποφάσεων του Σχήματος 7.1 οι κόμβοι σχεδιάζονται με κύκλο ενώ οι κόμβοι φύλλου με τετράγωνο και η λειτουργία τους αναλύεται στο παρακάτω παράδειγμα. Για να γίνει πιο κατανοητή η λειτουργία των δέντρων αποφάσεων θα παρουσιάσουμε αρχικά ένα απλό παράδειγμα ταξινόμησης, στο οποίο με βάση τις καιρικές συνθήκες (ηλιοφάνεια, θερμοκρασία, υγρασία, αέρας) της ημέρας θα αποφασίζουμε αν η μεταβλητή παιχνίδι θα παίρνει την τιμή ναι ή όχι (Πίνακας 7.1). Πίνακας 7.1 Όψη Θερμοκρασία Υγρασία Αέρας Παιχνίδι ηλιοφάνεια ζεστή υψηλή ψευδές όχι ηλιοφάνεια ζεστή υψηλή αληθές όχι νεφώδης ζεστή υψηλή ψευδές ναι βροχερή ήπια υψηλή ψευδές ναι βροχερή ψυχρή κανονική ψευδές ναι βροχερή ψυχρή κανονική αληθές όχι νεφώδης ψυχρή κανονική αληθές ναι ηλιοφάνεια ήπια υψηλή ψευδές όχι ηλιοφάνεια ψυχρή κανονική ψευδές ναι βροχερή ήπια κανονική ψευδές ναι ηλιοφάνεια ήπια κανονική αληθές ναι νεφώδης ήπια υψηλή αληθές ναι νεφώδης ζεστή κανονική ψευδές ναι βροχερή ήπια υψηλή αληθές όχι Η μορφή του δέντρου αποφάσεων για το παράδειγμα μας παρουσιάζεται στο Σχήμα 7.1 όπου και παρατηρούμε την ακολουθία των ελέγχων που πρέπει να γίνουν για να παρθεί η τελική απόφαση. Σε κάθε ένα από τους κόμβους, οι οποίοι σχεδιάζονται με κύκλο, γίνεται ο έλεγχος της τιμής που παίρνει η συγκεκριμένη μεταβλητή (π.χ. υγρασία: υψηλή ή κανονική) έτσι ώστε να οδηγηθούμε στον ανάλογο κόμβο φύλλου ο οποίος και δίνει την τιμή που θα επιστραφεί από το δέντρο (ναι ή όχι). 65

Σχήμα 7.1: Δέντρο αποφάσεων Στην κατασκευή των δέντρων αποφάσεων αυτό που μας ενδιαφέρει περισσότερο είναι η κατασκευή ενός όσο το δυνατόν μικρότερου δέντρου που να οδηγεί σε όσο το δυνατόν πιο σωστή ταξινόμηση. Το βασικότερο ερώτημα είναι από ποιο χαρακτηριστικό θα πρέπει να ξεκινήσει η κατασκευή του δέντρου ώστε να επιτευχθούν τα παραπάνω. Με αυτόν τον τρόπο θα έχουμε και σωστή ταξινόμηση αλλά και το δέντρο στο σύνολο του θα είναι επαρκώς μικρό. Χρησιμοποιώντας τα δεδομένα του Πίνακα 7.1 ξανά, βλέπουμε στο Σχήμα 7.2 τους τέσσερις διαφορετικούς τρόπους με τους οποίους μπορούμε να ξεκινήσουμε το δέντρο αποφάσεων. 66

Σχήμα 7.2 Για να μπορέσουμε να αξιολογήσουμε κάθε μία από τις διαφορετικές δομές του Σχήματος 7.2, εισάγουμε την έννοια της πληροφορίας (information) η οποία μετριέται σε δυαδικά ψηφία (bits). Ένα δυαδικό ψηφίο αρκεί για να απαντηθεί μια ερώτηση ναι/όχι. Γενικά αν έχουμε υ i δυνατές απαντήσεις με πιθανότητες P( υ i ) τότε το περιεχόμενο πληροφορίας I ή αλλιώς η εντροπία, της πραγματικής απάντησης δίνεται από τον τύπο 1 n IP ( ( υ,..., P( υ )) = P( υ )log P( υ ) (1) 1 n i 2 i i= 1 Για το παράδειγμα που παρουσιάζεται, και συγκεκριμένα για το δέντρο a, ανάλογα με την τιμή της μεταβλητής «όψη», οδηγούμαστε σε μία αντίστοιχη ομάδα αποτελεσμάτων για την τιμή της μεταβλητής «παιχνίδι» (ναι ή όχι). Η ομάδα αυτή ονομάζεται κλάση. Κάθε μία από τις κλάσεις αυτές συμβολίζεται με την παράσταση [αριθμός ναι, αριθμός όχι]. Άρα για το δέντρο a έχουμε τρεις κλάσεις αποτελεσμάτων, τις [2,3], [4,] και [3,2] βάσει της τιμής της 67

μεταβλητής «όψη». Η τιμή της πληροφορίας για κάθε μία από αυτές τις κλάσεις σύμφωνα με την εξίσωση 1 θα είναι: I([2,3]) = 2 / 5log22 / 5 3/ 5log23/ 5 =.971bits I([4,]) = 4/4log24/4 /4log2/4= bits I([3, 2]) = 3/ 5log 3/ 5 2 / 5log 2 / 5 =.971bits 2 2 Μπορούμε επίσης να υπολογίσουμε την μέση πληροφορία λαμβάνοντας υπόψη τον αριθμό των «γεγονότων» κάθε κλάδου δηλαδή I([2,3],[4, ],[3, 2]) = (5/14).971 + (4 /14) + (5/14).971 =.693bits Η τιμή αυτή αναπαριστά το ποσό πληροφορίας που αναμένεται ότι είναι αναγκαίο για την ταξινόμηση ενός νέου περιστατικού (instance) δεδομένης της δομής του Σχήματος 7.2(a). Το κέρδος πληροφορίας (information gain) που θα έχουμε αν ξεκινήσουμε την κατασκευή σύμφωνα με το δέντρο του Σχήματος 7.2(a) θα είναι ίσο με gain( οψη ) = I([9,5]) I([2,3],[4,],[3,2]) =.94.693 =.247bits Ακολούθως υπολογίζουμε το κέρδος πληροφορίας για κάθε ένα δέντρο του Σχήματος 7.2 και οδηγούμαστε στις τιμές gain(όψη)=.247 bits gain(θερμοκρασία)=.29 bits gain(υγρασία)=.152 bits gain(αέρας)=.48 bits άρα προκύπτει ότι η μεταβλητή «όψη» είναι και η καταλληλότερη για να ξεκινήσουμε την κατασκευή του δέντρου. Οι δυνατές μορφές στις οποίες οδηγούμαστε τώρα φαίνονται στο Σχήμα 7.3. 68

Σχήμα 7.3 Ακολούθως υπολογίζουμε ξανά το κέρδος πληροφορίας για τρεις όμως τώρα μεταβλητές gain(θερμοκρασία)=.571 bits gain(υγρασία)=.971 bits gain(αέρας)=.2 bits Συνεχίζοντας την ίδια διαδικασία οδηγούμαστε τελικά στο δέντρο αποφάσεων του Σχήματος 7.1. 69

7.2 Εφαρμογή των δέντρων αποφάσεων σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Στο κεφάλαιο αυτό θα παρουσιάσουμε την ανάπτυξη δέντρων αποφάσεων με στόχο την πρόβλεψη της ωριαίας συγκέντρωσης Ο 3 σε διάφορες περιοχές της πόλης της Θεσσαλονίκης. Θα χρησιμοποιήσουμε διακριτές τιμές όσον αφορά τις συγκεντρώσεις Ο 3 και ΝΟ 2 με βάση κάποια όρια που έχουν τεθεί για τα επίπεδα των τιμών τους. Τα όρια αυτά παρουσιάζονται αναλυτικά στον Πίνακα 7.2. Πίνακας 7.2: Χαρακτηρισμός των επιπέδων ρύπου ανάλογα με την τιμή του Επίπεδο Ρύπου Συγκέντρωση Ο 3 (μg/m 3 ) Συγκέντρωση ΝΟ 2 (μg/m 3 ) Πολύ χαμηλό O 3 < 6 NO 2 < 1 Χαμηλό 6 O3 < 11 1 NO2 < 2 Μέτριο 11 O3 < 18 2 NO2 < 25 Άνω του μετρίου 18 O 3< 24 25 NO2 < 28 Υψηλό 24 O3 < 36 28 NO2 < 36 Εξαιρετικά υψηλό O3 36 NO2 36 Η αναπαράσταση των τιμών των συγκεντρώσεων ενός ρύπου με δείκτες βαθμού επικινδυνότητας μπορεί να φανεί χρήσιμη στην περίπτωση όπου η χρήση του μοντέλου γίνεται για την ενημέρωση του κοινού. Στην περίπτωση αυτή η παρουσίαση μίας τιμής συγκεντρώσεως θα ήταν δυσνόητη και δεν θα εξυπηρετούσε το σκοπό λειτουργίας ενός μοντέλου πρόγνωσης σε επιχειρησιακό επίπεδο. Το πακέτο λογισμικού που θα χρησιμοποιήσουμε είναι το WEKA 3.4 ενώ ο αλγόριθμος για την κατασκευή των δέντρων αποφάσεων είναι ο J4.8 ο οποίος αποτελεί μία νεότερη και ελαφρώς βελτιωμένη έκδοση του αλγόριθμου C4.5 (Witten & Frank, 25). 7.2.1 Σταθμός Α.Π.Θ Χρησιμοποιούνται δεδομένα της περιόδου 21-22 για να κατασκευαστεί ένα δέντρο αποφάσεων με σκοπό την πρόγνωση των ωριαίων συγκεντρώσεων Ο 3 και συγκεκριμένα των ορίων μέσα στα οποία θα κινηθούν, όπως αυτά ορίζονται στον πίνακα 2. Τα δεδομένα του έτους 23 θα χρησιμοποιηθούν για την επαλήθευση. Όπως και στην περίπτωση των νευρωνικών δικτύων και της γραμμικής παλινδρόμησης θα κατασκευαστούν δύο μοντέλα ανά σταθμό. Το πρώτο θα χρησιμοποιεί τις μεταβλητές ΝΟ 2, θερμοκρασία, υγρασία, ταχύτητα ανέμου και την μετασχηματισμένη διεύθυνση ανέμου (μοντέλο Ε), ενώ το δεύτερο θα χρησιμοποιεί τις ίδιες μεταβλητές συν την συγκέντρωση Ο 3 της προηγούμενης ώρας (μοντέλο Ζ). Η αξιολόγηση της επίδοσης των μοντέλων δέντρων αποφάσεων θα γίνει με βάση τον αριθμό των ορθών και λανθασμένων προβλέψεων για κάθε ένα από τα προκαθορισμένα επίπεδα τιμών όπως αυτά παρουσιάζονται στον Πίνακα 7.2. 7

Πίνακας 7.3: Σύγκριση των δύο μοντέλων για τον σταθμό του ΑΠΘ Σύγκριση με δεδομένα του 23 Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες περιπτώσεις 73.95% (6478/876) 85.879% (7523/876) Λανθασμένα ταξινομημένες 26.5% (2282/876) 14.121% (1237/876) περιπτώσεις RAE 55.954% 37.25% RRSE 84.56% 63.886% Cross - validation Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες 8.212% 87.277% περιπτώσεις Λανθασμένα ταξινομημένες περιπτώσεις (1453/1752) 19.789% (3467/1752) (15291/1752) 12.723% (2229/1752) RAE 5.431% 35.81% RRSE 75.321% 61.49% Παρατηρείται ότι το ποσοστό των ορθά ταξινομημένων περιπτώσεων αυξάνει στην περίπτωση του μοντέλου Ζ όπου εισάγεται η συγκέντρωση Ο 3 της προηγούμενης ώρας. Επίσης σαν ένα δεύτερο μέσο σύγκρισης θα παρουσιάσουμε και τον «πίνακα σύγχυσης» (confusion matrix). Κάθε γραμμή και κάθε στήλη του πίνακα σύγχυσης αντιστοιχεί σε κάθε μία από τις κλάσεις στις οποίες έχουν χωριστεί τα δεδομένα μας. Για κάθε στοιχείο του πίνακα η γραμμή του αντιστοιχεί στην κλάση στην οποία ανήκει ενώ η στήλη του αντιστοιχεί στην κλάση στην οποία προβλέφθηκε ότι ανήκει. Οι μεγάλες τιμές κατά μήκος της διαγωνίου του πίνακα σε συνδυασμό με μικρά ή μηδενικά μη διαγώνια στοιχεία είναι ενδεικτικά αποτελεσμάτων μεγάλης ακρίβειας. Επίσης από τον πίνακα σύγχυσης μπορούμε εύκολα να παρατηρήσουμε τις ημέρες επεισοδίων που παρατηρήθηκαν και το κατά πόσο αυτές προβλέπονται σωστά από το δέντρο αποφάσεων. Πίνακας 7.4: Πίνακας σύγχυσης ΑΠΘ, διασταυρωμένη επικύρωση Cross-validation Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 92.64% 7.26%.1% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 33.65% 55.99% 1.36% Μέτριο 2.27% 25.97% 71.75% Άνω του μετρίου 1% Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ 71

Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 93.39% 6.58%.3% Χαμηλό 17.97% 77.25% 4.78% Μέτριο.33% 21.48% 78.8%.11% Άνω του μετρίου 33.33% 66.67% Υψηλό Εξαιρετικά υψηλό Πίνακας 7.5: Πίνακας σύγχυσης ΑΠΘ, επαλήθευση με δεδομένα του 23 Σύγκριση με δεδομένα του 23 Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 9.57% 9.27%.16% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 45.79% 45.79% 8.42% Μέτριο 1.56% 37.54% 6.9% Άνω του μετρίου 7.14% 92.86% Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 92.64% 7.33%.4% Χαμηλό 18.19% 77.33% 4.48% Μέτριο.43% 24.5% 74.91%.61% Άνω του μετρίου 14.29% 71.43% 14.29% Υψηλό Εξαιρετικά υψηλό Ο Πίνακας 7.5 παρουσιάζει την έστω και φτωχή ικανότητα του δέντρου αποφάσεων να προβλέψει σωστά 2 (14.29%) από τις συνολικά 14 περιπτώσεις συναγερμού που παρατηρήθηκαν κατά το έτος 23 ενώ είναι εμφανής η τάση υποεκτίμησης των τιμών. Αντίθετα η ανάλυση με νευρωνικά δίκτυα μπόρεσε να προβλέψει ορθά μόνο μία από τις ημέρες επεισοδίου. 7.2.2 Σταθμός Καλαμαριάς Κατασκευάζεται και εκπαιδεύεται ένα δέντρο αποφάσεων για τον σταθμό της περιοχής της Καλαμαριάς. Τα δεδομένα από την περίοδο 21-23 θα χρησιμοποιηθούν για την εκπαίδευση ενώ αυτά του έτους 24 για επαλήθευση. Τα αποτελέσματα παρουσιάζονται στον πίνακα 6. 72

Πίνακας 7.6: Σύγκριση των δύο μοντέλων για τον σταθμό Καλαμαριάς Σύγκριση με δεδομένα του 24 Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες περιπτώσεις 73,1% (6413/8784) 84.734% (7443/8784) Λανθασμένα ταξινομημένες 26.992% (2371/8784) 15.266% (1341/8784) περιπτώσεις RAE 69.477% 4.492% RRSE 99.63% 68.147% Cross - validation Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες 85.92% 9.993% περιπτώσεις Λανθασμένα ταξινομημένες περιπτώσεις (22575/2628) 14.98% (375/2628) (23913/2628) 9.7% (2367/2628) RAE 47.349% 31.599% RRSE 72.273% 58.427% Παρατηρείται για ακόμα μία φορά (Πίνακας 7.6) η βελτίωση που παρουσιάζεται με την εισαγωγή της συγκέντρωσης Ο 3 της προηγούμενης ώρας και η αύξηση του ποσοστού των περιπτώσεων που ταξινομούνται ορθά. Πίνακας 7.7: Πίνακας σύγχυσης σταθμός Καλαμαριάς, διασταυρωμένη επικύρωση Cross-validation Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 93.22% 6.71%.7% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 26.36% 71.28% 2.36% Μέτριο 1.66% 64.24% 33.97%.13% Άνω του μετρίου 5% 5% Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 95.39% 4.6%.1% Χαμηλό 16.87% 81.3% 1.84% Μέτριο.13% 32.18% 67.56%.13% Άνω του μετρίου 1% Υψηλό Εξαιρετικά υψηλό 73

Πίνακας 7.8: Πίνακας σύγχυσης σταθμού Καλαμαριάς, επαλήθευση με δεδομένα του 24 Σύγκριση με δεδομένα του 24 Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 85.2% 14.55%.26% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 45.79% 52.52% 1.69% Μέτριο 58.24% 39.95% 1.81% Άνω του μετρίου 1% Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 94.44% 5.56% Χαμηλό 28.99% 7.49%.52% Μέτριο 6.32% 75.17% 18.51% Άνω του μετρίου 62.5% 37.5% Υψηλό Εξαιρετικά υψηλό Στον Πίνακα 7.8 φαίνεται ότι τα δέντρα αποφάσεων αποτυγχάνουν να κατηγοριοποιήσουν σωστά όλες τις ημέρες επεισοδίων που σημειώθηκαν κατά το έτος δοκιμής. Η αποτυχία σημειώθηκε και για τα δύο μοντέλα που αναπτύξαμε όπως επίσης συνέβη και στην περίπτωση των νευρωνικών δικτύων. 7.2.3 Σταθμός Σίνδου Κατασκευάζονται δύο μοντέλα δέντρων αποφάσεων για δεδομένα από τον σταθμό παρακολούθησης ποιότητας αέρα της περιοχής της Σίνδου για την χρονική περίοδο 21-22. Οι στατιστικοί δείκτες που προκύπτουν τόσο από την διασταυρωμένη επικύρωση (cross-validation) όσο και από την επαλήθευση των μοντέλων με τα δεδομένα του έτους 23 παρουσιάζονται στον Πίνακα 7.9. Πίνακας 7.9: Σύγκριση των δύο μοντέλων για τον σταθμό Σίνδου Σύγκριση με δεδομένα του 23 Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες περιπτώσεις 71.21% (6238/876) 87.89% (7629/876) Λανθασμένα 28.79% 12.911% 74

ταξινομημένες (2522/876) (1131/876) περιπτώσεις RAE 56.544% 32.141% RRSE 86.943% 58.364% Cross - validation Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες περιπτώσεις 77.517% (13581/1752) 86.358% (1513/1752) Λανθασμένα ταξινομημένες 22.483% (3939/1752) 13.642% (239/1752) περιπτώσεις RAE 5.43% 34.916% RRSE 75.99% 6.976% Όπως επίσης μπορούμε να παρατηρήσουμε από τους πίνακες σύγχυσης για τον σταθμό Σίνδου (Πίνακες 7.1 & 7.11) ο αριθμός των λανθασμένα ταξινομημένων περιπτώσεων μειώνεται σημαντικά. «Δυστυχώς» δεν είχαν σημειωθεί ημέρες υψηλής συγκέντρωσης στον συγκεκριμένο σταθμό για την συγκεκριμένη περίοδο για να μπορέσουμε να αξιολογήσουμε την ικανότητα του μοντέλου να τις προβλέψει. Πίνακας 7.1: Πίνακας σύγχυσης σταθμός Σίνδου, διασταυρωμένη επικύρωση Cross-validation Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 87.29% 12.58%.13% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 24.77% 67.16% 8.7% Μέτριο 2.3% 32.88% 64.82% Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 9.35% 9.63%.2% Χαμηλό 11.51% 82.59% 5.9% Μέτριο.24% 19.9% 79.87% Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό 75

Πίνακας 7.11: Πίνακας σύγχυσης σταθμού Σίνδου, επαλήθευση με δεδομένα του 23 Σύγκριση με δεδομένα του 23 Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 88.1% 11.69%.21% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 42.7% 54.3% 3.89% Μέτριο 1.43% 39.67% 58.91% Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 9.25% 9.73%.2% Χαμηλό 9.81% 85.68% 4.51% Μέτριο 19.87% 8.13% Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό 7.2.4 Σταθμός Κορδελιού Κατασκευάστηκε δέντρο αποφάσεων για τον σταθμό της περιοχής του Κορδελιού. Τα δεδομένα που χρησιμοποιήθηκαν για την κατασκευή των δέντρων αποφάσεων αναφέρονται στην χρονική περίοδο 21-22 ενώ τα δεδομένα του έτους 23 χρησιμοποιήθηκαν για την αξιολόγηση του μοντέλου. Οι στατιστικοί δείκτες παρουσιάζονται στον Πίνακα 7.12. Πίνακας 7.12: Σύγκριση των δύο μοντέλων για τον σταθμό Κορδελιού Σύγκριση με δεδομένα του 23 Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες περιπτώσεις 65.845% (5768/876) 86.758% (76/876) Λανθασμένα ταξινομημένες 34.155% (2992/876) 13.242% (116/876) περιπτώσεις RAE 85.263% 35.691% RRSE 15.984% 6.512% Cross - validation Μοντέλο Ε Μοντέλο Ζ Ορθά ταξινομημένες 76.96% 85.799% περιπτώσεις Λανθασμένα ταξινομημένες (13332/1752) 23.94% (4188/1752) (1532/1752) 14.2% (2488/1752) 76

περιπτώσεις RAE 55.21% 38.524% RRSE 8.788% 68.534% Από τους πίνακες σύγχυσης που ακολουθούν (Πίνακες 7.13 & 7.14) φαίνεται η βελτίωση που παρουσιάζεται στα αποτελέσματα μας όταν εισάγουμε την μεταβλητή της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Ωστόσο δεν μπορούμε να πούμε ότι η επίδοση των δέντρων που κατασκευάσαμε είναι αρκετά ικανοποιητική όσον αφορά την πρόβλεψη των ημερών επεισοδίων. Πίνακας 7.13: Πίνακας σύγχυσης σταθμός Κορδελιού, διασταυρωμένη επικύρωση Cross-validation Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 88.76% 1.6%.64% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 3.79% 59.5% 9.71% Μέτριο 5.46% 36.3% 58.18%.5% Άνω του μετρίου 8.33% 33.33% 41.67% 16.67% Υψηλό 5% 5% Εξαιρετικά υψηλό Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 92.8% 7.9%.1%.1% Χαμηλό 17.57% 77.23% 5.2% Μέτριο.22% 21.5% 78.23%.5% Άνω του μετρίου 8.33% 75% 16.67% Υψηλό 1% Εξαιρετικά υψηλό Πίνακας 7.14: Πίνακας σύγχυσης σταθμού Κορδελιού, επαλήθευση με δεδομένα του 23 Σύγκριση με δεδομένα του 23 Μοντέλο Ε Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό 75.33% 2.45% 4.22% Εξαιρετικά υψηλό Πολύ χαμηλό Χαμηλό 48.2% 45.28% 6.7% Μέτριο 3.39% 55.97% 4.65% Άνω του μετρίου 1% Υψηλό Εξαιρετικά υψηλό 77

Μοντέλο Ζ Πολύ χαμηλό Χαμηλό Μέτριο Άνω του μετρίου Υψηλό Εξαιρετικά υψηλό Πολύ χαμηλό 89.3% 9.34% 1.36% Χαμηλό 18.83% 77.2% 4.16% Μέτριο.16% 16.45% 83.39% Άνω του μετρίου 5% 5% Υψηλό Εξαιρετικά υψηλό 7.3 Συμπεράσματα Παρουσιάστηκε η εφαρμογή των δέντρων αποφάσεων με σκοπό την ταξινόμηση (classification) των τιμών συγκέντρωσης Ο 3 για διάφορους σταθμούς μέτρησης παρακολούθησης αέρα της πόλης της Θεσσαλονίκης. Ένα αρκετά ικανοποιητικό ποσοστό ταξινομήθηκε στις κατηγορίες στις οποίες πραγματικά ανήκε σύμφωνα με τις παρατηρούμενες χρονοσειρές. Παρόλα αυτά οι ημέρες επεισοδίων σε πολλές περιπτώσεις προβλέφθηκαν λανθασμένα και σε πολύ λίγες ορθά. Σε πολλές περιπτώσεις τα δέντρα αποφάσεων παρουσίασαν το πρόβλημα υποεκτίμησης των τιμών. 78

8. Επίλογος Στην παρούσα εργασία παρουσιάστηκε η εφαρμογή στατιστικών μεθόδων και μεθόδων υπολογιστικής νοημοσύνης με σκοπό την πρόβλεψη των ωριαίων συγκεντρώσεων Ο 3 για τις περιοχές ορισμένων από τους σταθμούς του δικτύου παρακολούθησης ποιότητας αέρα της πόλης της Θεσσαλονίκης (Α.Π.Θ., Καλαμαριά, Σίνδος, Κορδελιό). Τα δεδομένα τα οποία χρησιμοποιήθηκαν αναφέρονται στην χρονική περίοδο 21-23 για τους σταθμούς του Α.Π.Θ., της Σίνδου και του Κορδελιού και στην περίοδο 21-24 για τον σταθμό της Καλαμαριάς, και η ανάλυση τους ξεκίνησε με τους υπολογισμούς περιοδικοτήτων μέσω περιοδογραμμάτων. Κατόπιν έγινε η επιλογή των παραμέτρων οι οποίες συμβάλουν στον σχηματισμό του Ο 3, με χρήση της μεθόδου Principal Component Analysis (PCA). Οι παράμετροι που επιλέχθηκαν βάσει της PCA είναι η ωριαία συγκέντρωση ΝΟ 2, η θερμοκρασία, η υγρασία, η ταχύτητα ανέμου και η διεύθυνση ανέμου. Ακολούθως κατασκευάστηκαν μοντέλα γραμμικής παλινδρόμησης και μοντέλα τεχνητών νευρωνικών δικτύων (ΤΝΔ) για την πρόβλεψη των ωριαίων συγκεντρώσεων Ο 3 και επίσης μοντέλα δέντρων αποφάσεων για την πρόβλεψη των επιπέδων μέσα στα οποία θα κινηθούν οι μελλοντικές συγκεντρώσεις Ο 3. Τα μοντέλα παλινδρόμησης φάνηκε να υστερούν σε σχέση με αυτά των ΤΝΔ και κυρίως όσον αφορά την πρόβλεψη των μέγιστων ωριαίων συγκεντρώσεων. Αυτό οφείλεται στο γεγονός ότι τα ΤΝΔ μπορούν να μοντελοποιήσουν μη γραμμικά φαινόμενα όπως αυτό του σχηματισμού του Ο 3 στην ατμόσφαιρα. Μία σημαντική βελτίωση στα αποτελέσματα των μοντέλων σημειώθηκε με την χρήση της παραμέτρου της συγκέντρωσης Ο 3 της προηγούμενης ώρας. Στους πίνακες που ακολουθούν παρουσιάζονται τα συνολικά αποτελέσματα όλων των μεθόδων για τα μοντέλα τα οποία χρησιμοποιούν την συγκέντρωση Ο 3 της προηγούμενης ώρας. Πίνακας 8.1: Σταθμός ΑΠΘ. Αποτελέσματα όλων των μεθόδων για το έτος 23 Σταθμός ΑΠΘ. Σύγκριση με δεδομένα του έτους 23 Παλινδρόμηση ΤΝΔ Συντελεστής.927.919 συσχέτισης r MAE 14.39 13.532 RMSE 18.44 18.476 RAE 39.4% 37.473% RRSE 42.33% 42.763% IA.946.948 CSI A=, B=14, C=.71 A=1, B=11, C=2 Τα δέντρα αποφάσεων δεν χρησιμοποιούν μεταβλητές τις ίδιας φύσης με τα ΤΝΔ και τα μοντέλα παλινδρόμησης οπότε δεν μπορεί να γίνει άμεση σύγκριση των αποτελεσμάτων τους με αυτά των ΤΝΔ και των μοντέλων παλινδρόμησης. Για λόγους εποπτείας αναφέρουμε ότι για τον σταθμό του 79

Α.Π.Θ. τα δέντρα αποφάσεων εμφάνισαν RAE = 37.25% και RRSE = 63.886%. Πίνακας 8.2: Σταθμός Καλαμαριάς. Αποτελέσματα όλων των μεθόδων για το έτος 24 Σταθμός Καλαμαριάς. Σύγκριση με δεδομένα του έτους 24 Παλινδρόμηση ΤΝΔ Συντελεστής.941.942 συσχέτισης r MAE 9.544 8.378 RMSE 12.953 11.348 RAE 33.23% 34.567% RRSE 35.97% 35.83% IA.961.966 CSI A=, B=8, C= A=, B=8, C=1 Τα δέντρα αποφάσεων για τον σταθμό Καλαμαριάς εμφάνισαν RAE = 4.492% και RRSE = 68.147%. Πίνακας 8.3: Σταθμός Σίνδου. Αποτελέσματα όλων των μεθόδων για το έτος 23 Σταθμός Σίνδου. Σύγκριση με δεδομένα του έτους 23 Παλινδρόμηση ΤΝΔ Συντελεστής.929.945 συσχέτισης r MAE 11.291 9.977 RMSE 14.915 13.94 RAE 33.88% 3.346% RRSE 37.81% 35.321% IA.96.969 CSI A=, B=, C= A=, B=, C= Τα δέντρα αποφάσεων για τον σταθμό της Σίνδου εμφάνισαν RAE = 32.141% και RRSE = 58.364%. Πίνακας 8.4: Σταθμός Κορδελιού. Αποτελέσματα όλων των μεθόδων για το έτος 23 Σταθμός Κορδελιού. Σύγκριση με δεδομένα του έτους 23 Παλινδρόμηση ΤΝΔ Συντελεστής.92.93 συσχέτισης r MAE 14.53 13.19 RMSE 18.285 17.7 RAE 47.16% 45.31% RRSE 48.7% 47.346% IA.9278.9312 CSI 8

A=, B=2, C= A=, B=2, C= Τα δέντρα αποφάσεων για τον σταθμό του Κορδελιού εμφάνισαν RAE = 35.691% και RRSE = 6.512%. Τα ΤΝΔ εμφανίζουν γενικά χαμηλές τιμές σφαλμάτων σε σχέση με τα μοντέλα παλινδρόμησης τα οποία παρουσιάζουν στις περισσότερες περιπτώσεις ελαφρά χαμηλότερη απόδοση. Οι τιμές των στατιστικών δεικτών εμφανίζουν ικανοποιητική σύγκλιση μεταξύ μοντέλου και μετρούμενων συγκεντρώσεων γεγονός που ενισχύει την άποψη ότι τόσο τα μοντέλα παλινδρόμησης όσο και τα ΤΝΔ μπορούν να χρησιμοποιηθούν για την επιτυχή βραχυχρόνια πρόγνωση επιπέδων συγκέντρωσης Ο 3. Παράλληλα ικανοποιητικά αποτελέσματα παρουσίασαν και τα μοντέλα δέντρων αποφάσεων, τα οποία αν και εμφάνισαν γενικά υψηλότερο RRSE από τις άλλες δύο μεθόδους, κατηγοριοποίησαν τα αποτελέσματά τους ορθά σε ένα μεγάλο ποσοστό (μεγαλύτερο το 85% για την περίπτωση όπου χρησιμοποιείται το Ο 3 της προηγούμενης ώρας). Πρέπει να σημειωθεί ότι η εφαρμογή των ΤΝΔ για την πρόγνωση των συγκεντρώσεων Ο 3 έχει γίνει σε αρκετές εργασίες. Έτσι για παράδειγμα οι Dutot et al 25, Chaloulakou et al 22 και Wang et al 25 ανέπτυξαν μοντέλα ΤΝΔ για την πρόγνωση των μέγιστων συγκεντρώσεων Ο 3 της επόμενης ημέρας. Οι Sousa et al 25 σε σχετική εργασία ανέπτυξαν μοντέλα παλινδρόμησης και ΤΝΔ για την πρόγνωση ωριαίων συγκεντρώσεων Ο 3 της επόμενης ημέρας. Τα αποτελέσματα βρίσκονται αρκετά κοντά στα αποτελέσματα της παρούσας εργασίας γεγονός που επιβεβαιώνει την αποτελεσματικότητα των μεθόδων. Σημαντικό είναι επίσης να σημειωθεί ότι η παρούσα εργασία αποτελεί μία από τις πρώτες προσπάθειες εφαρμογής των μεθόδων που παρουσιάστηκαν για την πόλη της Θεσσαλονίκης. 81

9. Παράρτημα Α: Δείκτες αξιολόγησης της επίδοσης των μοντέλων Παρουσιάζονται οι δείκτες που χρησιμοποιήθηκαν για την αξιολόγηση των προβλέψεων των μοντέλων που αναπτύχθηκαν στην παρούσα εργασία. Αναλυτικοί ορισμοί τους μπορούν να βρεθούν σε πολλές εργασίες (Willmott, 1982, Kolehmainen et al. 21): -Συντελεστής συσχέτισης μεταξύ προβλεπόμενων και πραγματικών τιμών r S PA = όπου SS p A ( a ) 2 i a S PA = ( pi p)( ai a) ( p ) 2 i p i n 1 S p = i n 1 i S A = n 1 οι δείκτες P και p αναφέρονται στις προβλεπόμενες τιμές ενώ οι δείκτες Α και α στις πραγματικές. Τα μεγέθη p i και p αντιστοιχούν στις προβλέψεις και στην μέση τους τιμή αντίστοιχα ενώ τα μεγέθη a i και a στις πραγματικές τιμές και στην μέση τους τιμή αντίστοιχα. p1 a1 +... pn an -Mean Absolute Error (MAE): n ( p1 a1) +... + ( pn an) -Root Mean Squared Error (RMSE): n p1 a1 +... + pn an -Relative Absolute Error (RAE): a a +... + a a -Root Relative Squared Error (RRSE): -Index of Agreement (IA): IA = 1 i 1 i 2 2 n ( p a ) +... + ( p a ) ( )... ( ) p 2 2 1 1 n n 2 2 a1 a + + an a 2 i ai ( pi a + ai a) με τιμή που μεταβάλλεται μεταξύ του διαστήματος και 1. Όσο πιο κοντά στην μονάδα βρίσκεται η τιμή του τόσο καλύτερη είναι και η απόδοση του μοντέλου. A -Critical Success Index (CSI): CSI = A+ B+ C όπου Α οι περιπτώσεις όπου έχουμε υπέρβαση των επιτρεπτών ορίων για την συγκέντρωση του ρύπου (Ο 3 = 18μg/m 3 ) οι οποίες έχουν προβλεφθεί από το μοντέλο μας, Β οι περιπτώσεις όπου η υπέρβαση έλαβε χώρα αλλά δεν προβλέφθηκε και C οι περιπτώσεις η υπέρβαση προβλέφθηκε αλλά δεν παρατηρήθηκε. 2 και 82

1. Παράρτημα Β: Η μέθοδος Bayesian Principal Component Analysis (BPCA) Στην ανάλυση χρονοσειρών συναντάται συχνά το πρόβλημα των κενών στις μετρήσεις η οποία θα μπορούσε π.χ. να οφείλεται στην βλάβη του εξοπλισμού μετρήσεων. Το να αγνοηθούν τα κενά είναι μία μέθοδος η οποία εφαρμόζεται συχνά αλλά παρουσιάζει το μειονέκτημα της μείωσης του όγκου των διαθέσιμων για μελέτη δεδομένων. Υπάρχουν πολλές μέθοδοι οι οποίες μπορούν να χρησιμοποιηθούν για την κάλυψη των κενών σε ένα σετ δεδομένων (ΚΝΝ-impute, SVDimpute κ.α.). Στην παρούσα εργασία χρησιμοποιούμε τον αλγόριθμο BPCA ο οποίος εφαρμόζει την κατά Bayes PCA με σκοπό την συμπλήρωση των κενών σε ένα σετ δεδομένων. Ο αλγόριθμος υλοποιήθηκε με χρήση του λογισμικού MATLAB (http://www.mathworks.com/ ). 83

11. Παράρτημα Γ: Επιλογή της δομής των ΤΝΔ Η επιλογή της δομής των ΤΝΔ γίνεται με την κατασκευή διαφορετικών μοντέλων και με την αξιολόγηση της επίδοσης τους (Pellccioni & Tirabassi, 23; Norgaard et al., 2; Corani 24; Jiang & Zhang & Hu & Zeng & Tan & Shao, 23). Στο παράρτημα αυτό παρουσιάζονται ορισμένες από τις εναλλακτικές δομές ΤΝΔ που αναπτύχθηκαν για κάποιους από τους σταθμούς που μελετήσαμε. Για τον σταθμό του ΑΠΘ, και σαν ένα μέτρο σύγκρισης της δομής που επιλέχθηκε για το ΤΝΔ, κατασκευάστηκε ένα ΤΝΔ που αποτελείται από δύο κρυφά επίπεδα με 15 και 1 κρυφούς κόμβους το καθένα και βάσει των στατιστικών δεικτών θα εξεταστεί το κατά πόσο υπήρξε βελτίωση στα αποτελέσματα. Σχήμα 11.1: Νευρωνικό δίκτυο δύο κρυφών επιπέδων με 15 και 1 κόμβους αντίστοιχα Πίνακας 11.1: Σύγκριση των δύο μοντέλων για τον σταθμό του ΑΠΘ με χρήση νευρωνικού δικτύου δύο κρυφών επιπέδων Σύγκριση με δεδομένα του έτους 23 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.74.93 MAE 26.913 14.63 RMSE 33.892 2.235 RAE 74.529% 4.44% RRSE 78.445% 46.836% IA.84.936 CSI A=, B=14, C= Cross validation Μοντέλο Γ A=, B=14, C= Μοντέλο Δ 84

Συντελεστής συσχέτισης r.935.96 MAE 11.94 8.51 RMSE 14.31 11.471 RAE 33.42% 25.61% RRSE 36.15% 28.871% IA.965.978 CSI A=, B=6, C= A=, B=6, C= Η βελτίωση που παρουσιάζεται με την πιο πολύπλοκη δομή είναι πολύ μικρή όποτε και δεχόμαστε την εφαρμογή του νευρωνικού δικτύου με ένα επίπεδο, για το οποίο απαιτείται σημαντικά μικρότερος υπολογιστικός χρόνος για την εκπαίδευση του. Επίσης η πιο απλή μορφή νευρωνικού δικτύου παρουσίασε το πλεονέκτημα της επιτυχούς πρόβλεψης μίας ημέρας επεισοδίου για το έτος 23 όπώς φαίνεται από τον δείκτη Critical Success Index (CSI). Αναλυτικότερα, για το έτος 23 και για το μοντέλο που χρησιμοποιεί το Ο 3 της προηγούμενης ώρας, η πολύπλοκη δομή εμφανίζει μικρότερο συντελεστή συσχέτισης (.93 έναντι.919), μεγαλύτερο ΜΑΕ (14.63 έναντι 13.532) και μικρότερο ΙΑ (.936 έναντι.948). Άρα η επιλογή πολύπλοκων δομών ΤΝΔ μπορεί να μας οδηγήσει σε λιγότερο ικανοποιητικά αποτελέσματα σε σχέση με μία απλούστερη. Για τον σταθμό της Καλαμαριάς, και σαν μία δεύτερη προσέγγιση αναπτύσσεται ένα ΤΝΔ για τα ίδια δεδομένα τα οποία έχουν κανονικοποιηθεί έτσι ώστε να έχουν μηδενική μέση τιμή και διασπορά ίση με τη μονάδα. Οι τιμές των στατιστικών δεικτών παρουσιάζονται στον Πίνακα 2 που ακολουθεί Πίνακας 11.2: Σύγκριση της απόδοσης των δύο μοντέλων για τον σταθμό Καλαμαριάς Σύγκριση με δεδομένα του έτους 24 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.4849.945 MAE 22.645 7.634 RMSE 3.142 1.621 RAE 93.44% 31.5% RRSE 95.18% 33.54% IA.6817.971 CSI A=, B=8, C= A=, B=8, C=1 Cross validation Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.845.946 MAE 12.433 7.91 RMSE 16.929 1.51 RAE 49.52% 31.48% RRSE 54.42% 33.77% IA.913.97 CSI 85

A=, B=2, C= A=, B=2, C=1 Τα κανονικοποιημένα δεδομένα επιστρέφουν αποτελέσματα με πολύ μικρές αποκλίσεις σε σύγκριση με το ΤΝΔ που επιλέχθηκε. Για το έτος 24 και για το μοντέλο που χρησιμοποιεί το Ο 3 της προηγούμενης ώρας (μοντέλο Δ) μετά την κανονικοποίηση παίρνουμε συντελεστή συσχέτισης.945 (έναντι.942), ΜΑΕ 7.634 (έναντι 8.378) και ΙΑ.971 (έναντι.966). Για τον σταθμό της Σίνδου, και για να διαπιστωθεί αν η επιλογή ενός επιπέδου οδηγεί σε ικανοποιητικά αποτελέσματα αναπτύχθηκε ένα ΤΝΔ δύο κρυφών επιπέδων με 2 κόμβους στο καθένα, η μορφή του οποίου φαίνεται στο Σχήμα 11.2, και αξιολογήθηκε η επίδοση του πραγματοποιώντας προγνώσεις για το έτος 23. Σχήμα 11.2: Νευρωνικό δίκτυο 2 κρυφών επιπέδων Πίνακας 11.3: Σύγκριση των δύο μοντέλων για τον σταθμό της Σίνδου με χρήση νευρωνικού δικτύου δύο επιπέδων Σύγκριση με δεδομένα του έτους 23 Μοντέλο Γ Μοντέλο Δ Συντελεστής συσχέτισης r.78.939 MAE 23.7 1.1 RMSE 29.74 14.3 RAE 7.168% 3.434% RRSE 75.36% 36.236% IA.831.695 CSI A=, B=, C= A=, B=, C= 86