Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων

Σχετικά έγγραφα
Διερεύνηση περιβαλλοντικών χρονοσειρών με τεχνικές υπολογιστικής νοημοσύνης

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Γ. Πειραματισμός Βιομετρία

HMY 795: Αναγνώριση Προτύπων

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Project 1: Principle Component Analysis

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Εισόδημα Κατανάλωση

Βραχυπρόθεσμη τοπική μετεωρολογική πρόγνωση με αναζήτηση ανάλογων καταστάσεων

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Συμπίεση Πληροφορίας Πλαισίου με Ανάλυση Κύριων Συνιστωσών

9. Παλινδρόμηση και Συσχέτιση

Y Y ... y nx1. nx1

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

Κεφάλαιο Τέσσερα Αριθμητικές Μέθοδοι Περιγραφικής Στατιστικής

Εργασία στο µάθηµα Ανάλυση εδοµένων

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

HMY 795: Αναγνώριση Προτύπων

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Άσκηση 1: Λύση: Για το άθροισμα ισχύει: κι επειδή οι μέσες τιμές των Χ και Υ είναι 0: Έτσι η διασπορά της Ζ=Χ+Υ είναι:

ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ

Μαθηματική Εισαγωγή Συναρτήσεις

ΑΝΑΛΥΣΗ ΣΕ ΚΥΡΙΕΣ ΣΥΝΙΣΤΩΣΕΣ Α.Κ.Σ.

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Πολλαπλή παλινδρόμηση (Multivariate regression)

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ Τμήμα Επιστήμης Φυσικής Αγωγής και Αθλητισμού Πρόγραμμα Διδακτορικών Σπουδών ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Διασπορά ατμοσφαιρικών ρύπων

Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες

Μαθηματική Εισαγωγή Συναρτήσεις

Ομαδοποίηση ΙΙ (Clustering)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

Διάστημα εμπιστοσύνης της μέσης τιμής

Αναπλ. Καθηγήτρια, Ελένη Κανδηλώρου. Αθήνα Σημειώσεις. Εκτίμηση των Παραμέτρων β 0 & β 1. Απλό γραμμικό υπόδειγμα: (1)

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Στατιστική Επιχειρήσεων Ι

3.7 Παραδείγματα Μεθόδου Simplex

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Προσαρμογή καμπύλης με τη μέθοδο των ελαχίστων τετραγώνων

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Το στατιστικό κριτήριο που μας επιτρέπει να. μιας ή πολλών άλλων γνωστών μεταβλητών. Η σχέση ανάμεσα στις μεταβλητές που μελετώνται

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

ΚΕΦΑΛΑΙΟ ΙΙΙ ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Οικονομετρία Ι. Ενότητα 4: Διάστημα Εμπιστοσύνης - Έλεγχος Υποθέσεων. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

Το μοντέλο Perceptron

Αναγνώριση Προτύπων Ι

Ζητήματα ηήμ με τα δεδομένα

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

ΛΥΣΕΙΣ AΣΚΗΣΕΩΝ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΑΠΟΤΥΠΩΣΕΙΣ - ΧΑΡΑΞΕΙΣ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΣΦΑΛΜΑΤΩΝ

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Στατιστική Επιχειρήσεων Ι

3η Ενότητα Προβλέψεις

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Φίλτρα Kalman. Αναλυτικές μέθοδοι στη Γεωπληροφορική. ιατύπωση του βασικού προβλήματος. προβλήματος. μοντέλο. Πρωτεύων μοντέλο

Εφαρμοσμένη Στατιστική

Αναγνώριση Προτύπων Ι

ΠΕΡΙΕΧΟΜΕΝΑ. ΠΡΟΛΟΓΟΣ... vii ΠΕΡΙΕΧΟΜΕΝΑ... ix ΓΕΝΙΚΗ ΒΙΒΛΙΟΓΡΑΦΙΑ... xv. Κεφάλαιο 1 ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ ΑΠΟ ΤΗ ΣΤΑΤΙΣΤΙΚΗ

Μια από τις σημαντικότερες δυσκολίες που συναντά ο φυσικός στη διάρκεια ενός πειράματος, είναι τα σφάλματα.

E [ -x ^2 z] = E[x z]

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Transcript:

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης - Τμήμα Φυσικής Π.Μ.Σ. Υπολογιστικής Φυσικής Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων Σταματέρης Γεώργιος Επιβλέπων Κωνσταντίνος Δ. Καρατζάς Επίκουρος Καθηγητής Α.Π.Θ. Θεσσαλονίκη 2009

Περιεχόμενα 1 Εισαγωγή... 3 2 Δίκτυο μετρήσεων ποιότητας αέρα στην Θεσσαλονίκη... 4 3 Περιοδογράμματα... 5 3.1 Εισαγωγή... 5 3.2 Μετασχηματισμός Fourier Περιοδογράμματα... 5 3.3 Εφαρμογή σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης... 6 3.3.1 Σταθμός Α.Π.Θ.... 6 3.3.2 Σταθμός Καλαμαριάς... 7 3.3.3 Σταθμός Κορδελιού... 7 3.3.4 Σταθμός Σίνδου... 8 3.4 Συμπεράσματα... 8 4 Principal Component Analysis (PCA)... 9 4.1 Εισαγωγή... 9 4.2 Μεθοδολογία... 9 4.3 Εφαρμογή της μεθόδου PCA σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης... 10 4.3.1 Σταθμός Α.Π.Θ.... 10 4.3.2 Σταθμός Καλαμαριάς... 12 4.3.3 Σταθμός Κορδελιού... 13 4.3.4 Σταθμός Σίνδου... 15 4.4 Συμπεράσματα... 16 5 Παλινδρόμηση... 17 5.1 Εισαγωγή... 17 5.2 Γραμμική παλινδρόμηση... 17 5.3 Σύγκριση μοντέλων - Ανάλυση μεταβλητότητας (ANOVA)... 18 5.4 Πολλαπλή παλινδρόμηση... 19 5.5 Μοντέλα παλινδρόμησης για την Θεσσαλονίκη... 19 5.5.1 Σταθμός Α.Π.Θ.... 20 5.5.2 Σταθμός Καλαμαριάς... 22 5.5.3 Σταθμός Κορδελιού... 25 5.5.4 Σταθμός Σίνδου... 27 5.6 Συμπεράσματα... 29 6 Clustering... 30 6.1 Εισαγωγή... 30 6.2 Μέθοδοι αθροίσματος τετραγώνων... 30 1

6.3 Αλγόριθμοι clustering... 32 6.4 Εφαρμογή του αλγόριθμου k-means σε περιβαλλοντικές χρονοσειρές της πόλης της Θεσσαλονίκης... 33 6.4.1 Σταθμός Α.Π.Θ.... 33 6.4.2 Σταθμός Καλαμαριάς... 37 6.4.3 Σταθμός Κορδελιού... 41 6.4.4 Σταθμός Σίνδου... 46 6.5 Συμπεράσματα... 49 7 Επίλογος... 50 8 Παράρτημα Α - Δείκτες αξιολόγησης της επίδοσης των μοντέλων... 51 9 Παράρτημα Β - Η μέθοδος Bayesian Principal Component Analysis (BPCA).. 53 10 Βιβλιογραφία... 54 2

1 Εισαγωγή Το ΝΟ 2 αποτελεί μέλος της οικογένειας των οξειδίων του αζώτου (ΝΟ x ), μια ομάδα αέριων ρύπων που δημιουργείται κυρίως από διεργασίες καύσης. Κύρια πηγή παραγωγής ΝΟ 2 στις πόλεις, είναι τα οχήματα. Το ΝΟ που παράγεται από τις μηχανές των μηχανοκίνητων οχημάτων, αντιδρά με το οξυγόνο του αέρα παράγοντας ΝΟ 2. Στη συνέχεια το ΝΟ 2 μετασχηματίζεται σε όζον καθώς και σε αιωρούμενα σωματίδια (ΡΜ), με ενδιάμεσο στάδιο τη μετατροπή του σε νιτρικό οξύ (ΗΝΟ 3 ). Ως ρύπος, το ΝΟ 2 είναι τοξικός και μπορεί να προκαλέσει προβλήματα στο αναπνευστικό σύστημα του ανθρώπου. Το γεγονός αυτό, σε συνδυασμό με το ότι το ΝΟ 2 αποτελεί ενδιάμεσο στάδιο παραγωγής άλλων ρύπων, τον καθιστά αρκετά επικίνδυνο. Σκοπός της εργασίας είναι να εφαρμόσει στατιστικές μεθόδους και μεθόδους εξόρυξης δεδομένων, ώστε να προκύψουν μοντέλα που θα μας βοηθήσουν να αναλύσουμε το σχηματισμό του ΝΟ 2 και να προβούμε σε προβλέψεις. Η κατασκευή των μοντέλων αφορά σταθμούς παρακολούθησης αέρα οι οποίοι είναι τοποθετημένοι σε διάφορα σημεία της πόλης της Θεσσαλονίκης (Α.Π.Θ., Καλαμαριά, Σίνδος, Κορδελιό). Σημειώνεται ότι η πόλη της Θεσσαλονίκης είναι η δεύτερη μεγαλύτερη πόλη της Ελλάδας και μία από τις μεγαλύτερες των Βαλκανίων, όπου ο σχηματισμός και η μεταφορά των ρύπων στην ατμόσφαιρα επηρεάζονται άμεσα από τις μετεωρολογικές συνθήκες και τα τοπογραφικά χαρακτηριστικά της πόλης. Αρχικά γίνεται μια ανάλυση των χρονοσειρών ως προς το ΝΟ 2, με τη βοήθεια περιοδογραμμάτων, με σκοπό να βρεθούν τυχόν περιοδικότητες στην εμφάνιση υψηλών τιμών του ρύπου. Στη συνέχεια, με τη βοήθεια της Principal Component Analysis, μιας μεθόδου ανάλυσης πολυδιάστατων δεδομένων, αναζητούμε τους παράγοντες που ευνοούν το σχηματισμό του ΝΟ 2. Για τη πρόβλεψη συγκεντρώσεων ΝΟ 2 χρησιμοποιήσαμε μια κλασική στατιστική μέθοδο, τη γραμμική παλινδρόμηση. Τέλος, χρησιμοποιώντας τη μέθοδο clustering, μια μέθοδο εξόρυξης δεδομένων, αναζητήσαμε διάφορες δομές στα δεδομένα ώστε να μπορέσουμε να αναλύσουμε καλύτερα της προϋποθέσεις εμφάνισης του ΝΟ 2 στην ατμόσφαιρα. 3

2 Δίκτυο μετρήσεων ποιότητας αέρα στην Θεσσαλονίκη Στην παρούσα εργασία θα αναλυθούν δεδομένα (ωριαίες συγκεντρώσεις ρύπων και μετεωρολογικών παραμέτρων) όπως αυτά μετρήθηκαν και καταγράφηκαν από το δίκτυο παρακολούθησης ποιότητας αέρα της Θεσσαλονίκης το οποίο λειτουργεί η Περιφέρεια Κεντρικής Μακεδονίας (Π.Κ.Μ.), (http://www.rcm.gr). Το δίκτυο αποτελείται από σταθμούς μέτρησης τοποθετημένους σε ενδεικτικά σημεία της πόλης όπως φαίνεται και στο Σχήμα 2.1 που ακολουθεί. Για τους σκοπούς της εργασίας θα χρησιμοποιηθούν δεδομένα των σταθμών: Α.Π.Θ., Καλαμαριάς, Σίνδου και Ελ. Κορδελιού και για τις χρονικές περιόδους 2001-2003 για τους σταθμούς Α.Π.Θ., Σίνδου και Ελ. Κορδελιού, ενώ για τον σταθμό της Καλαμαριάς χρησιμοποιήθηκαν δεδομένα από την χρονική περίοδο 2001-2004. Κωδικός Σ1 Σ2 Σ3 Σ4 Σ5 Σ6 Σ7 Σ8 Σταθμός ΤΕΙ Σίνδου Νεοχωρούδα Ελ.Κορδελιό Πλ. Δημοκρατίας Πλ. Αγ. Σοφίας ΑΠΘ Πανόραμα Καλαμαριά 4

3 Περιοδογράμματα 3.1 Εισαγωγή Στο κεφάλαιο αυτό παρουσιάζονται τα περιοδογράμματα των χρονοσειρών που έγιναν διαθέσιμες από τους σταθμούς παρακολούθησης ποιότητας αέρα της πόλης της Θεσσαλονίκης. Ως χρονοσειρά ορίζεται μία ακολουθία (σειρά) διανυσμάτων τιμών, συνεχών ή διακριτών μεγεθών, που διατάσσονται με τον χρόνο. Παραδείγματος χάριν η χρονοσειρά μεταβολής της συγκέντρωσης ΝΟ 2, όπως μετρήθηκε στον σταθμό του Α.Π.Θ. το έτος 2003 έχει την μορφή του παρακάτω σχήματος. 200 AUTH 2003 180 160 140 NO 2 (μg/m 3 ) 120 100 80 60 40 20 0 0 1000 2000 3000 4000 5000 6000 7000 8000 hours Ένα από τα βασικότερα ερωτήματα που προκύπτουν κατά την ανάλυση μίας χρονοσειράς είναι το αν παρουσιάζει μία περιοδικότητα με τον χρόνο και αν μπορούμε να εξάγουμε κάποια μοτίβα από αυτή. Μία μέθοδος ανάλυσης χρονοσειρών είναι ο μετασχηματισμός Fourier, βάσει της οποίας είναι δυνατή η διερεύνηση της ύπαρξης περιοδικοτήτων. 3.2 Μετασχηματισμός Fourier Περιοδογράμματα Ο μετασχηματισμός Fourier αναλύει μία συνάρτηση σε άθροισμα τριγωνομετρικών συναρτήσεων. Μία υποκατηγορία του μετασχηματισμού Fourier είναι o διακριτός μετασχηματισμός Fourier ο οποίος πραγματοποιείται με χρήση του αλγόριθμου FFT. Για μία δεδομένη χρονοσειρά η οποία αποτελείται από Ν στοιχεία ο FFT μας δίνει ένα Ν διάστατο διάνυσμα με βάση την σχέση: 5

k n k n N 1 2 1 1 2 1 1 x( n) a( k)cos b( k)sin N k 1 N N Όσον αφορά το ερώτημα για το ποιες συχνότητες είναι σημαντικές για την υπό μελέτη χρονοσειρά εισάγεται η χρήση των περιοδογραμμάτων. Τα περιοδογράμματα ορίστηκαν σαν μια μέθοδος με την οποία μπορούμε να ανακαλύψουμε τις «κρυμμένες» αρμονικές συναρτήσεις σε μία συνάρτηση. Το περιοδόγραμμα εξετάζει όλες τις δυνατές συχνότητες και ποσοτικοποιεί την σπουδαιότητα της καθεμίας για την χρονοσειρά που μελετάμε. Εφαρμόζοντας τον FFT σε μία χρονοσειρά παίρνουμε σαν αποτέλεσμα την συνάρτηση Υ. Το μέγεθος του τετραγώνου του Υ ονομάζεται ισχύς (συμβολίζεται και ως r2) και το διάγραμμα της ισχύος ως προς την συχνότητα αποτελεί το περιοδόγραμμα. Τα σημεία εμφάνισης μεγίστων στο σχετικό διάγραμμα αποτελούν ένδειξη περιοδικότητας. 3.3 Εφαρμογή σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Ο υπολογισμός των περιοδογραμμάτων έγινε με την βοήθεια του λογισμικού MATLAB (http://www.mathworks.com), το οποίο παρέχει βιβλιοθήκη έτοιμων σχετικών συναρτήσεων. 3.3.1 Σταθμός Α.Π.Θ. Στη βάση αυτού το περιοδόγραμμα για την ωριαία συγκέντρωση NO 2 όπως αυτή μετρήθηκε στον αστικό σταθμό του Α.Π.Θ. κατά την περίοδο 2001-2005, έχει την μορφή: 5 x 1010 Periodogram for AUTH 4.5 4 3.5 3 power 2.5 2 1.5 1 0.5 0 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 cycles/hour Από το περιοδόγραμμα προκύπτουν δύο περιοδικότητες, μία των 12 ωρών και μία των 24 ωρών με πιο έντονη αυτή των 12 ωρών. 6

3.3.2 Σταθμός Καλαμαριάς Παρακάτω παρουσιάζονται τα περιοδογράμματα ορισμένων από τις μετρήσεις του σταθμού παρακολούθησης ποιότητας αέρα της περιοχής της Καλαμαριάς: 10 x 1010 Periodogram for Kalamaria 9 8 7 6 power 5 4 3 2 1 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 cycles/hour Για τον αστικό σταθμό της Καλαμαριάς οι περιοδικότητες είναι 12 ωρών, που είναι εντονότερη, και 24 ωρών. Στο διάγραμμα εμφανίζονται και δυο μικρότερες αλλά αρκετά εμφανείς περιοδικότητες σχεδόν ίδιας ισχύος. Μία 8 ωρών και μία μιας εβδομάδας. 3.3.3 Σταθμός Κορδελιού Το περιοδόγραμμα για τον σταθμό παρακολούθησης στο Κορδελιό είναι: 2 x 1011 Periodogram for Kordelio 1.8 1.6 1.4 1.2 power 1 0.8 0.6 0.4 0.2 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 cycles/hour 7

Για τον σταθμό του Κορδελιού έχουμε 3 περιοδικότητες. Μία έντονη 12 ωρών και δύο με σχεδόν την ίδια ισχύ. Μία 24 ωρών και μία περιοδικότητα μιας εβδομάδας. 3.3.4 Σταθμός Σίνδου Το περιοδόγραμμα στο σταθμό παρακολούθησης της Σίνδου: 5 x 109 Periodogram for Sindos 4.5 4 3.5 3 power 2.5 2 1.5 1 0.5 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 cycles/hour Στον περιαστικό σταθμό της Σίνδου έχουμε τρεις έντονες περιοδικότητες. Κατά σειρά ισχύος αυτές είναι 12 ωρών, 24 ωρών και μίας εβδομάδας. Στο σταθμό αυτόν εμφανίζεται κι ένας σχετικά έντονος θόρυβος. 3.4 Συμπεράσματα Είδαμε σε όλους τους σταθμούς να εμφανίζονται οι ίδιες περιοδικότητες των 12 και των 24 ωρών, που δείχνει την επίδραση της ανθρωπογενούς δραστηριότητας στα επίπεδα συγκέντρωσης του ρύπου. Στους περισσότερους σταθμούς εμφανίστηκε και μια περιοδικότητα της μιας εβδομάδας. Είδαμε και στον περιαστικό σταθμό της Σίνδου ότι υπήρχε αρκετά έντονη η παρουσία θορύβου, πράγμα που οφείλεται στις χαμηλές ισχύς των έντονων περιοδικοτήτων. 8

4 Principal Component Analysis (PCA) 4.1 Εισαγωγή Η ανάλυση ενός μεγάλου σετ δεδομένων, πολλών διαστάσεων, είναι συνήθως δύσκολη κι επίπονη. Γι αυτό έχουν αναπτυχθεί μέθοδοι ανάλυσης οι οποίες διευκολύνουν στην εξαγωγή συμπερασμάτων για τα δεδομένα που έχουν συλλεχθεί. Μία τέτοια μέθοδος είναι η μέθοδος ανάλυσης πρωτευόντων όρων (Principal Components Analysis, PCA), η οποία χρησιμοποιείται για την απλοποίηση ενός πολυδιάστατου σετ δεδομένων. Η μέθοδος αυτή αποτελεί έναν ορθογώνιο γραμμικό μετασχηματισμό πάνω στα δεδομένα, τα οποία μετασχηματίζονται σε ένα νέο σύστημα συντεταγμένων, στο οποίο η προβολή των δεδομένων με τη μεγαλύτερη μεταβλητότητα βρίσκονται πάνω στο πρώτο principal component, με τη δεύτερη μεγαλύτερη μεταβλητότητα στο δεύτερο, κ.ο.κ.. Επιλέγοντας τα principal components που ερμηνεύουν το μεγαλύτερο μέρος της μεταβλητότητας των αρχικών δεδομένων, μειώνονται οι διαστάσεις του σετ και γίνεται ευκολότερη η επεξεργασία τους. 4.2 Μεθοδολογία Συγκεντρώνουμε τα δεδομένα στα οποία θέλουμε να εφαρμόσουμε τη μέθοδο και τα τοποθετούμε σε πίνακα έτσι ώστε κάθε στήλη να περιέχει μετρήσεις της ίδιας παραμέτρου. Από κάθε στήλη αφαιρούμε τη μέση της τιμή έτσι ώστε να καταλήξουμε σε ένα σετ δεδομένων με μηδενική μέση τιμή. Υπολογίζουμε τη μεταβλητότητα διασπορά (ή μεταβλητότητα) κάθε στήλης. Η διασπορά μιας μεταβλητής αποτελεί μέτρο της απόκλισής της από τη μέση τιμή της, και ορίζεται από τη σχέση: Στη συνέχεια υπολογίζουμε τη συνδιασπορά (ή συμμεταβλητότητα) μεταξύ δύο παραμέτρων Χ και Υ, η οποία είναι ένα μέτρο του πως μεταβάλλεται η μία παράμετρος σε σχέση με την άλλη: Τις συνδιασπορές που υπολογίσαμε τις τοποθετούμε σε πίνακα, του οποίου υπολογίζουμε τις ιδιοτιμές και τα ιδιοδιανύσματα. Το ιδιοδιάνυσμα που περιγράφει καλύτερα το σετ δεδομένων είναι αυτό στο οποίο αντιστοιχεί η μεγαλύτερη ιδιοτιμή κι αυτό αποτελεί το principal component. Τοποθετούμε τα ιδιοδιανύσματα κατά φθίνουσα ιδιοτιμή, έτσι ώστε να μπορέσουμε να δούμε ποια είναι τα πιο σημαντικά, με τα οποία θα σχηματίσουμε το Feature Vector της μορφής: 9

Το μόνο που μένει πλέον είναι να μετασχηματίσουμε το αρχικό σετ δεδομένων μας Α. Αυτό θα συμβεί πολλαπλασιάζοντας τον ανάστροφο πίνακά του σετ από αριστερά με τον ανάστροφο πίνακα των ιδιοδιανυσμάτων Β, με αποτέλεσμα το παρακάτω: 4.3 Εφαρμογή της μεθόδου PCA σε περιβαλλοντικές χρονοσειρές για την πόλη της Θεσσαλονίκης Με βάση τα όσα αναφέρθηκαν παραπάνω, θα εφαρμοστεί η μέθοδος σε πίνακες μετρήσεων ρύπων και μετεωρολογικών παραμέτρων από σταθμούς μέτρησης ποιότητας αέρα της Θεσσαλονίκης. Η εφαρμογή της PCA λόγω της πολυπλοκότητας των πράξεων για πολύ μεγάλους πίνακες έγινε με χρήση του πακέτου λογισμικού MATLAB (http://www.mathworks.com) 4.3.1 Σταθμός Α.Π.Θ. Εφαρμόσθηκε η PCA για τα δεδομένα του σταθμού του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης για την περίοδο 2001-2003. Ο πίνακας των δεδομένων αποτελείται από μετρήσεις για το ΝΟ 2, Ο 3, θερμοκρασία (temp), υγρασία (hum), ταχύτητα ανέμου (ws), διεύθυνση ανέμου (wd). Τα αποτελέσματα της μεθόδου καθώς και ο πίνακας συντελεστών συσχέτισης παρουσιάζονται αμέσως παρακάτω: Correlation Coefficients ΝΟ 2 Ο 3 Temp Hum WS sinwd coswd ΝΟ 2 1-0.5049-0. 1835 0.2017-0.4136 0.0902-0.0891 Ο 3-0.5049 1 0.5906-0.6182 0.5194-0.4222-0.2723 Temp -0. 1835 0.5906 1-0.4547 0.0436-0.2599-0.3021 Hum 0.2017-0.6182-0.4547 1-0.4196 0.2907-0.0040 WS -0.4136 0.5194 0.0436-0.4196 1-0.3393 0.0874 sinwd 0.0902-0.4222-0.2599 0.2907-0.3393 1 0.4768 coswd -0.0891-0.2723-0.3021-0.0040 0.0874 0.4768 1 Από τους συντελεστές συσχέτισης, βλέπουμε ισχυρή συσχέτιση του ΝΟ 2 με το Ο 3, όπως και με την ένταση του ανέμου. Principal Components PC1 PC2 PC3 PC4 PC5 PC6 PC7 ΝΟ 2-0.3059 0.4231-0.0569 0.7197-0.2166-0.3061 0.2561 Ο 3 0.5346-0.0401-0.1065-0.1157-0.2401-0.0082 0.7938 Temp 0.3787 0.2556-0.6081-0.1031 0.2078-0.5371-0.2814 Hum -0.4247 0.1331 0.2939-0.5567 0.0589-0.5770 0.2629 WS 0.3642-0.3960 0.4676 0.2103-0.3557-0.4901-0.2845 sinwd -0.3572-0.3520-0.5178-0.1693-0.6677-0.0204-0.0735 coswd -0.1913-0.6750-0.2060 0.2741 0.5257-0.2103 0.2639 % var 41.88 20.78 13.56 11.08 5.38 4.68 2.64 10

Για να αποφασίσουμε ποιο από τα εφτά PCs θα κρατήσουμε θα εφαρμόσουμε τη μέθοδο των Humphrey και Ilgen. Κατά τη μέθοδο αυτή δημιουργούμε ένα σετ τυχαίων δεδομένων ίδιου μεγέθους με το σετ που μελετάμε και εφαρμόζουμε πάνω του το PCA. Από τα PCs που προκύπτουν παίρνουμε τα ποσοστά της variance του καθενός και τα βάζουμε στο ίδιο σχήμα με τις variance των υπό μελέτη διανυσμάτων. Με διακεκομμένη γραμμή οι variance των διανυσμάτων του τυχαίου σετ. Τελικά κρατάμε τα PCs που βρίσκονται πάνω από τη διακεκομμένη γραμμή. Δηλαδή, για το Α.Π.Θ. το σετ δεδομένων μας μπορεί να παρασταθεί από τα PC1 και PC2. Πραγματοποιώντας μια varimax στροφή σε αυτά τα δύο διανύσματα (στροφή που μεγιστοποιεί τη διασπορά), αυτά μετασχηματίζονται σε: PC1 PC2-0.4568 0.2528 0.5009 0.1911 0.2340 0.3924-0.4410-0.0602 0.4981-0.2034-0.1735-0.4705 0.1140-0.6923 Το πρώτο διάνυσμα αναπαριστά πιο έντονα το Ο 3 το ΝΟ 2, την υγρασία και την ένταση του ανέμου ενώ το δεύτερο αναπαριστά πιο έντονα τη θερμοκρασία και τη διεύθυνση του ανέμου. 11

4.3.2 Σταθμός Καλαμαριάς Για το σταθμό της Καλαμαριάς έχουμε: Correlation Coefficients ΝΟ 2 Ο 3 Temp Hum WS sinwd coswd ΝΟ 2 1-0.4527-0.3398 0.2321-0.3303 0.1075 0.0667 Ο 3-0.4527 1 0.5901-0.5176 0.3766-0.2703-0.1780 Temp -0.3398 0.5901 1-0.4549 0.0109-0.1782-0.2426 Hum 0.2321-0.5176-0.4549 1-0.4502 0.1672-0.0497 WS -0.3303 0.3766 0.0109-0.4502 1-0.2423 0.2960 sinwd 0.1075-0.2703-0.1782 0.1672-0.2423 1-0.0323 coswd 0.0667-0.1780-0.2426-0.0497 0.2960-0.0323 1 Από τους συντελεστές συσχέτισης βλέπουμε ισχυρότερη συσχέτιση του ΝΟ 2 κατά πρώτο λόγο με το Ο 3 και κατά δεύτερο με τη θερμοκρασία και την ένταση του ανέμου. Principal Components PC1 PC2 PC3 PC4 PC5 PC6 PC7 ΝΟ 2 0.3830-0.0315 0.3572-0.7157 0.2537 0.3567-0.1447 Ο 3-0.5252 0.1336-0.0119-0.0076 0.0739 0.7037 0.4533 Temp -0.4276 0.3944 0.0168-0.2734-0.4863 0.0349-0.5907 Hum 0.4540 0.1238 0.1283 0.5706-0.1914 0.5475-0.3165 WS -0.3493-0.5505-0.1184 0.1297 0.4653 0.1502-0.5523 sinwd 0.2524 0.1568-0.9121-0.2034 0.0731 0.1719-0.0598 coswd 0.0535-0.6947-0.0981-0.1711-0.6597 0.1564 0.1262 % var 37.95 20.37 12.85 11.24 8.51 5.31 3.77 Η μέθοδος Humphrey Ilgen μας δίνει το παρακάτω σχήμα: 12

Τα σημαντικά διανύσματα είναι τα PC1 και PC2. Με varimax rotation παίρνουμε: PC1 PC2 0.3796 0.0597-0.5419 0.0060-0.5086 0.2824 0.4120 0.2274-0.2096-0.6174 0.2083 0.2119 0.2158-0.6625 Το πρώτο διάνυσμα αναπαριστά κυρίως ΝΟ 2, Ο 3, θερμοκρασία και υγρασία ενώ το δεύτερο διάνυσμα αναπαριστά τη ταχύτητα και τη διεύθυνση του ανέμου. 4.3.3 Σταθμός Κορδελιού Για το σταθμό του Κορδελιού η μέθοδος PCA μας δίνει: Correlation Coefficients ΝΟ 2 Ο 3 Temp Hum WS sinwd coswd ΝΟ 2 1-0.4224-0.1796 0.1257-0.4135-0.0479-0.0450 Ο 3-0.4224 1 0.4587-0.5901 0.5110-0.0401-0.2680 Temp -0.1796 0.4587 1-0.4843 0.0754-0.0549-0.3260 Hum 0.1257-0.5901-0.4843 1-0.4125 0.1268 0.1581 WS -0.4135 0.5110 0.0754-0.4125 1-0.0529-0.0123 sinwd -0.0479-0.0401-0.0549 0.1268-0.0529 1 0.1361 coswd -0.0450-0.2680-0.3260 0.1581-0.0123 0.1361 1 Οι συντελεστές συσχέτισης μα δείχνουν υψηλή συσχέτιση του ΝΟ 2 με το Ο 3 και τη ταχύτητα του ανέμου. Principal Components PC1 PC2 PC3 PC4 PC5 PC6 PC7 ΝΟ 2 0,3193-0,4931 0,0268-0,5472 0,4417 0,0824-0,3906 Ο 3-0,5410 0,0598-0,0658 0,0184 0,0930-0,6041-0,5704 Temp -0,4011-0,3560-0,3394-0,1082-0,5257 0,5019-0,2385 Hum 0,4769 0,1195-0,0469 0,5757-0,0781 0,1815-0,6208 WS -0,4008 0,4125 0,2871-0,0146 0,4710 0,5842-0,1522 sinwd 0,0873 0,3456-0,8783-0,1141 0,2881 0,0297 0,0666 coswd 0,2204 0,5678 0,1533-0,5862-0,4569-0,0308-0,2280 % var 37.2 18.89 13.96 11.1 9.67 4.97 4.2 13

Με τη μέθοδο Humphrey Ilgen παίρνουμε το παρακάτω σχήμα: Τα σημαντικά διανύσματα είναι το PC1 και το PC2 που μετά από το μετασχηματισμό varimax γίνονται: PC1 PC2 0.5684-0.1486-0.4397-0.3208-0.0559-0.5334 0.2714 0.4099-0.5741 0.0341-0.1687 0.3140-0.2204 0.5678 Το πρώτο διάνυσμα αναπαριστά κυρίως ΝΟ 2, Ο 3 και ταχύτητα ανέμου ενώ το δεύτερο Ο 3, θερμοκρασία, υγρασία και διεύθυνση ανέμου. 14

4.3.4 Σταθμός Σίνδου Τέλος, για το σταθμό της Σίνδου έχουμε: Correlation Coefficients ΝΟ 2 Ο 3 Temp Hum WS sinwd coswd ΝΟ 2 1-0,4332-0,1967 0,21347-0,3931 0,1160 0,0615 Ο 3-0,4332 1 0,5913-0,6962 0,4621 0,1397-0,3785 Temp -0,1967 0,5913 1-0,4682 0,0232 0,1051-0,4209 Hum 0,2134-0,6962-0,4682 1-0,4974 0,0110 0,1376 WS -0,3931 0,4621 0,0232-0,4974 1-0,1004 0,1420 sinwd 0,1160 0,1397 0,1051 0,0110-0,1004 1-0,1140 coswd 0,0615-0,3785-0,4209 0,1376 0,1420-0,1140 1 Οι συντελεστές συσχέτισης μας δείχνουν πιο έντονη συσχέτιση του ΝΟ 2 με το Ο 3 και τη ταχύτητα του ανέμου. Principal Components PC1 PC2 PC3 PC4 PC5 PC6 PC7 ΝΟ 2 0.3239-0.3111 0.2338-0.7683 0.2385 0.2232 0.2157 Ο 3-0.5564-0.0532 0.0798 0.0173 0.0557-0.1352 0.8120 Temp -0.4173-0.3704-0.1739-0.1533-0.5799 0.5213-0.1632 Hum 0.4849-0.1066-0.1508 0.4889 0.0198 0.5599 0.4215 WS -0.3389 0.5356 0.2543-0.0283 0.4045 0.5883-0.1513 sinwd -0.0411-0.4100 0.8285 0.3492-0.0214-0.0143-0.1450 coswd 0.2440 0.5447 0.3671-0.1549-0.6626-0.0108 0.2137 % var 39.43 21.24 13.44 11.14 7.81 4.17 2.77 Με τη μέθοδο Humphrey Ilgen παίρνουμε: 15

Και σε αυτή τη περίπτωση αυτή έχουμε δύο σημαντικά διανύσματα τα οποία με εφαρμογή της στροφής varimax γίνονται: PC1 PC2 0.4491 0.0058-0.3590-0.4284-0.0373-0.5567 0.4202 0.2644-0.6173 0.1436 0.2585-0.3209-0.2085 0.5592 Το πρώτο διάνυσμα αναπαριστά κυρίως ΝΟ 2, Ο 3, υγρασία και ταχύτητα ανέμου ενώ το δεύτερο αναπαριστά Ο 3, θερμοκρασία και διεύθυνση ανέμου. 4.4 Συμπεράσματα Εφαρμόζοντας τη μέθοδο PCA στις μετρήσεις συγκεντρώσεων ρύπων και μετεωρολογικών δεδομένων σε περιοχές της πόλης της Θεσσαλονίκης, συμπεράναμε ότι υπάρχει ισχυρή συσχέτιση του ΝΟ 2 με το Ο 3 και την ένταση του ανέμου. Αντίθετα η θερμοκρασία (εκτός του σταθμού της Καλαμαριάς), η υγρασία και η διεύθυνση του ανέμου έχουν μικρή επίδραση στις συγκεντρώσεις ΝΟ 2. Υψηλές τιμές έντασης ανέμου δεν ευνοούν το σχηματισμό υψηλών συγκεντρώσεων ΝΟ 2. Στη περίπτωση της Καλαμαριάς, όπου σημαντική συσχέτιση έχει και η θερμοκρασία, υψηλές τιμές συγκέντρωσης του ρύπου ευνοούν οι χαμηλές θερμοκρασίες. 16

5 Παλινδρόμηση 5.1 Εισαγωγή Στην παράγραφο αυτή θα αναλυθούν οι τεχνικές πολλαπλής παλινδρόμησης που εφαρμόστηκαν σε περιβαλλοντικές και μετεωρολογικές χρονοσειρές για την εξαγωγή σχέσεων με σκοπό την πρόβλεψη των συγκεντρώσεων Ο 3 για την πόλη της Θεσσαλονίκης. 5.2 Γραμμική παλινδρόμηση Στο παρακάτω διάγραμμα μεταξύ συγκέντρωσης ΝΟ 2 και θερμοκρασίας, για το σταθμό του Α.Π.Θ., μπορούμε να διακρίνουμε μια γραμμική σχέση μεταξύ των δύο μεγεθών. Υπάρχει λοιπόν μια ευθεία της μορφής η οποία μπορεί να προσαρμοστεί στα δεδομένα. Η προσαρμοσμένη ευθεία αποτελεί μία πρώτη προσέγγιση πρόβλεψης της συγκέντρωσης ΝΟ 2 με βάση τη θερμοκρασία. Η διαφορά της πραγματικής τιμής από τη προβλεπόμενη είναι το σφάλμα ή υπόλοιπο. Ο υπολογισμός των σταθερών της προσαρμοσμένης ευθείας γίνεται με τις παρακάτω σχέσεις: 17

Εφαρμόζουμε τις παραπάνω σχέσεις στα δεδομένα του σχήματος και έτσι υπολογίζουμε την προσαρμοσμένη ευθεία η οποία είναι: Η επιλογή της ευθείας που προσαρμόζεται στα δεδομένα μας γίνεται με βάση κάποιους περιορισμούς που προκύπτουν από τις τιμές σφάλματος για κάθε μία από τις ευθείες που μπορεί να περιγράψει τη τάση των δεδομένων. Το κατάλληλο μοντέλο γραμμικής παλινδρόμησης είναι αυτό για το οποίο οι τιμές του σφάλματος ελαχιστοποιούνται και το άθροισμα των σφαλμάτων για κάθε ένα σημείο είναι μηδέν. Συνοπτικά για τις τιμές ισχύουν: του μοντέλου γραμμικής παλινδρόμησης θα πρέπει να - Το άθροισμα τους για όλα τα σημεία να είναι μηδέν. - Η κατανομή να είναι κανονική, δηλαδή πρέπει να έχουν τυχαίες τιμές ώστε να μην υπάρχει συστηματικό σφάλμα. Αν τα υπόλοιπα δε προέρχονται από κανονική κατανομή τότε έχουμε ακατάλληλο για πρόβλεψη μοντέλο. - Τα υπόλοιπα πρέπει να είναι ανεξάρτητα μεταξύ τους. Αν δεν είναι σημαίνει ότι έχουμε μία συσχέτιση στα δεδομένα μας που δεν εκφράζονται από το μοντέλο. Έτσι, αν έχουμε ανεξάρτητα υπόλοιπα σημαίνει ότι το σφάλμα που προκύπτει είναι τυχαίο και το μοντέλο δεν αφήνει κάποια συστηματική μεταβολή αδικαιολόγητη. 5.3 Σύγκριση μοντέλων - Ανάλυση μεταβλητότητας (ANOVA) Για να δούμε κατά πόσο είναι ικανοποιητικό το μοντέλο γραμμικής παλινδρόμησης που υπολογίσαμε παραπάνω θα χρησιμοποιήσουμε τη μέθοδο της ανάλυσης μεταβλητότητας (ANOVA). Η μέθοδος αυτή υπολογίζει τη μεταβλητότητα για κάθε μία τιμή ΝΟ 2 που προβλέπεται από το μοντέλο γραμμικής παλινδρόμησης. Αφαιρώντας από τις προβλεπόμενες τιμές τη μέση τιμή κάθε συγκέντρωσης και αθροίζοντας τα τετράγωνά τους προκύπτει το μέγεθος SS (Sum of squares) που εκφράζει το ποσό της διασποράς που ερμηνεύει το μοντέλο μας και υπολογίζεται από τη σχέση: Όπου και το Residual Sum of Squares, μέγεθος που εκφράζει τη διασπορά των δεδομένων που δεν εκφράζονται από το μοντέλο μας. 18

Βαθμοί Άθροισμα ελευθερίας τετραγώνων Μέση τιμή τετραγώνων Μοντέλο 1 15006.2 187.59 Υπόλοιπο 80 8983.2 10.53 Σύνολο 81 23989.4 Με τον όρο βαθμοί ελευθερίας εννοούμε το σύνολο των ανεξάρτητων τμημάτων πληροφορίας που χρησιμοποιούνται για την πρόβλεψη μιας παραμέτρου. Βλέπουμε πολύ μεγάλες τιμές για το άθροισμα των τετραγώνων τόσο για το μοντέλο αλλά και για τα υπόλοιπα. Αυτό οφείλεται τόσο στο μικρό δείγμα το οποίο χρησιμοποιήσαμε, όσο και στο γεγονός ότι η συγκέντρωση NO 2 δεν εξαρτάται μόνο από τη θερμοκρασία αλλά και από άλλους παράγοντες. 5.4 Πολλαπλή παλινδρόμηση Όπως είδαμε παραπάνω, το άθροισμα των τετραγώνων του υπόλοιπου είναι πολύ μεγάλο, πράγμα που σημαίνει ότι υπάρχουν επιπλέον παράγοντες που συμμετέχουν στη διασπορά των δεδομένων. Θα προσθέσουμε λοιπόν στη μελέτη μας για τη πρόβλεψη του ΝΟ 2, πέρα από τη θερμοκρασία, την ωριαία συγκέντρωση του Ο 3, την υγρασία, τη ταχύτητα του ανέμου, καθώς και η μετασχηματισμένη διεύθυνση του ανέμου η οποία είναι: Έχοντας τόσες μεταβλητές θα χρησιμοποιήσουμε τη πολλαπλή παλινδρόμηση, όπου έχουμε την εξαρτημένη μεταβλητή και τις ανεξάρτητες μεταβλητές. Η εξίσωση θα έχει τη μορφή: 5.5 Μοντέλα παλινδρόμησης για την Θεσσαλονίκη Σαν εφαρμογή των όσων αναφέρθηκαν, θα χρησιμοποιηθούν δεδομένα από σταθμούς παρακολούθησης ποιότητας αέρα για την πόλη της Θεσσαλονίκης, για να κατασκευαστεί ένα μοντέλο πολλαπλής παλινδρόμησης για την πρόβλεψη των ωριαίων συγκεντρώσεων NO 2. Με την εφαρμογή της μεθόδου Principal Component Analysis, η οποία παρουσιάζεται στο αντίστοιχο κεφάλαιο, βρέθηκε ότι οι ανεξάρτητες μεταβλητές που συμβάλλουν στην διακύμανση της ημερήσιας συγκέντρωσης NO 2, είναι κυρίως οι ωριαίες τιμές της συγκέντρωσης O 3, της θερμοκρασίας, της υγρασίας, της ταχύτητας ανέμου, και της μετασχηματισμένης διεύθυνσης ανέμου. 19

Η κατασκευή του μοντέλου γίνεται υπολογιστικά και όχι με άμεση χρήση των εξισώσεων που παρουσιάσαμε, με την βοήθεια του υπολογιστικού περιβάλλοντος μηχανικής μάθησης, εξόρυξης δεδομένων και τεχνητής νοημοσύνης WEKA 3.4 (http://www.cs.waikato.ac.nz/ml/weka/). 5.5.1 Σταθμός Α.Π.Θ. Θα δημιουργήσουμε το μοντέλο πολλαπλής παλινδρόμησης για τον σταθμό του Α.Π.Θ. με βάση δεδομένα για το διάστημα 2001-2002 και θα αξιολογήσουμε το μοντέλο με βάση τα δεδομένα του έτους 2003. Αφού μιλάμε για συγκέντρωση ρύπου, φαίνεται λογικό να εξαρτάται κι από τη συγκέντρωση τις αμέσως προηγούμενης ώρας. Για αυτό το λόγο, εκτός των περιβαλλοντικών παραμέτρων, εισάγουμε τη συγκέντρωση του ΝΟ 2 της προηγούμενης ώρας, καθώς και την αντίστοιχη του Ο 3. Η εξίσωση γραμμικής παλινδρόμησης που προκύπτει είναι: όπου Temp η θερμοκρασία, Hum η υγρασία, WS η ταχύτητα του ανέμου και WD η διεύθυνση του ανέμου. Παρακάτω βλέπουμε τη συγκέντρωση του ρύπου για το έτος 2003, καθώς και τη συγκέντρωση που πρόβλεψε το παραπάνω μοντέλο. Με μια πρώτη ματιά διαπιστώνουμε ότι η μορφή της προβλεπόμενης χρονοσειράς παρομοιάζει αρκετά αυτή της πραγματικής. Οι στατιστικοί δείκτες που προέκυψαν είναι: 20

Συντελεστής συσχέτισης 0.8335 Mean Absolute Error 8.855 Root Mean Squared Error 10.861 Index Οf Agreement 0.84208 Relative Absolute Error 0.64392 Root Relative Squared Error 0.64806 Πραγματικές τιμές Προβλεπόμενες τιμές Μέση τιμή 15.9854 22.7141 Τυπική απόκλιση 15.3499 13.6662 Η συσχέτιση μεταξύ πραγματικών και προβλεπόμενων είναι πολύ καλή, όπως και το ΙΑ. Όμως τα σφάλματα, κυρίως τα σχετικά, είναι αρκετά υψηλά, ενώ υπάρχει και μια σημαντική διαφορά στις μέσες τιμές. Μια καλή εποπτική εικόνα μπορούμε να λάβουμε από το παρακάτω διάγραμμα διασποράς. Παρατηρούμε ότι για χαμηλές συγκεντρώσεις οι προβλεπόμενες τιμές είναι κατά κύριο λόγο υψηλότερες τον πραγματικών, όμως υπάρχει μια αδυναμία του μοντέλου να προβλέψει υψηλές συγκεντρώσεις ΝΟ 2 (εκτός από μία μέτρηση που μετρήθηκε με μεγάλη ακρίβεια). Επίσης βλέπουμε ότι υπάρχουν αρκετές λάθος προβλέψεις υψηλών συγκεντρώσεων. Μπορούμε να υποπτευθούμε ότι οι λάθος προβλέψεις για υψηλές συγκεντρώσεις οφείλονται στη χρήση της παραμέτρου. Λόγω του ότι το μοντέλο είναι γραμμικό, μετά από κάθε επεισόδιο υψηλής συγκέντρωσης του ρύπου, η χρήση της συγκεκριμένης παραμέτρου οδηγεί σε πρόβλεψη για υψηλή συγκέντρωση την αμέσως επόμενη ώρα. Αποτέλεσμα αυτού είναι να έχουμε μια μετακίνηση των μεγίστων της χρονοσειράς δεξιά. Αυτό φαίνεται παρακάτω, όπου 21

έχουμε σχεδιάσει τις πραγματικές (με μπλε) και τις προβλεπόμενες (με κόκκινη διακεκομμένη) τιμές γύρω από τη περιοχή μέγιστης συγκέντρωσης. 5.5.2 Σταθμός Καλαμαριάς Ακολουθούμε την ίδια διαδικασία παίρνοντας μετρήσεις από το σταθμό της Καλαμαριάς. Τα δεδομένα που χρησιμοποιήσαμε για την εξαγωγή της εξίσωσης γραμμικής παλινδρόμησης ήταν της περιόδου 2001 2003 και αξιολόγηση του μοντέλου έγινε με δεδομένα του έτους 2004. Η εξίσωση έχει τη μορφή: Παρακάτω συγκρίνεται η εξίσωση παλινδρόμησης με τις πραγματικές τιμές: 22

Βλέπουμε και πάλι σημαντική ομοιότητα στη μορφή των δύο χρονοσειρών. Τα στατιστικά αποτελέσματα των παραπάνω εξισώσεων φαίνονται στη συνέχεια: Συντελεστής συσχέτισης 0.8867 Mean Absolute Error 3.8595 Root Mean Squared Error 6.0793 Index Οf Agreement 0.93986 Relative Absolute Error 0.38703 Root Relative Squared Error 0.46726 Πραγματικές τιμές Προβλεπόμενες τιμές Μέση τιμή 34.6473 34.4295 Τυπική απόκλιση 13.0095 12.3956 Η χρήση ενός επιπλέον έτους για την παραγωγή του μοντέλου παλινδρόμησης οδήγησε σε μεγάλη βελτίωση των αποτελεσμάτων. Σε σχέση με τα αποτελέσματα για το σταθμό του Α.Π.Θ., βλέπουμε σημαντική βελτίωση του συντελεστή συσχέτισης και του IA, ενώ υπάρχει και σημαντική πτώση στους συντελεστές των σφαλμάτων. Επίσης, παρατηρούμε ότι η μέση τιμή πραγματικών και προβλεπόμενων τιμών είναι πάρα πολύ κοντά. 23

Στο διάγραμμα διασποράς παρατηρούμε ότι οι τιμές είναι όλες πολύ κοντά στην ευθεία x=y, με μικρές αποκλίσεις. Στις υψηλότερες τιμές συγκεντρώσεων του ρύπου, το μοντέλο προέβλεψε σχετικά χαμηλότερες τιμές, ενώ απέτυχε να προβλέψει το ένα και μοναδικό επεισόδιο υψηλής συγκέντρωσης του ρύπου. Με βάση τα όσα είδαμε και στο σταθμό του Α.Π.Θ., μπορούμε να συμπεράνουμε ότι η λανθασμένη πρόβλεψη υψηλής συγκέντρωσης ΝΟ 2 αντιστοιχεί στην επόμενη ώρα του πραγματικού επεισοδίου. Πράγματι, αυτό φαίνεται στο παρακάτω σχήμα: 24

5.5.3 Σταθμός Κορδελιού Για το σταθμό του Κορδελιού η εξαγωγή των εξισώσεων γραμμικής παλινδρόμησης έγινε με δεδομένα των ετών 2001 2002 και η αξιολόγηση του μοντέλου με μετρήσεις του έτους 2003. Το μοντέλο γραμμικής παλινδρόμησης που υπολογίστηκε είναι: Το μοντέλο που δημιουργήθηκε δε λαμβάνει υπ όψη τις παραμέτρους της υγρασίας και της συγκέντρωσης όζοντος της προηγούμενης ώρας. Οι χρονοσειρές πραγματικών και προβλεπόμενων τιμών είναι: Η σημαντική διαφορά στη μορφή των χρονοσειρών από το καλοκαίρι και μετά σε σχέση με πριν, οφείλεται στο ότι δεν είχαμε δεδομένα για εκείνη τη περίοδο και έχουν συμπληρωθεί με τον αλγόριθμο της Bayesian Principal Component Analysis. Οι στατιστικοί δείκτες είναι: Συντελεστής συσχέτισης 0.7674 Mean Absolute Error 7.892 Root Mean Squared Error 11.5203 Index of agreement 0.82484 Relative Absolute Error 0.65833 Root Relative Squared Error 0.68291 Πραγματικές τιμές Προβλεπόμενες τιμές Μέση τιμή 17.7846 22.638 Τυπική απόκλιση 16.1573 13.7638 25

Οι στατιστικοί δείκτες είναι πολύ κοντά με αυτούς του σταθμού του Α.Π.Θ., με ικανοποιητικό συντελεστή συσχέτισης και ΙΑ αλλά και αρκετά υψηλά σφάλματα. Το διάγραμμα διασποράς είναι: Βλέπουμε ότι για χαμηλές τιμές συγκέντρωσης του ρύπου, οι προβλεπόμενες τιμές είναι μεγαλύτερες από ότι οι αντίστοιχες πραγματικές. Όσο μεγαλώνουν οι συγκεντρώσεις, αυξάνει και η διαφορά μεταξύ πραγματικών και προβλεπόμενων τιμών, με τις προβλεπόμενες τιμές να είναι μικρότερες από τις πραγματικές. Και πάλι τα επεισόδια μέγιστης συγκέντρωσης έχουν προβλεφθεί σε διαφορετικές χρονικές στιγμές, κι όπως είδαμε και πριν, έχουν προβλεφθεί μία ώρα αργότερα από τη πραγματική μέγιστη τιμή. Αυτό φαίνεται στο παρακάτω σχήμα. 26

5.5.4 Σταθμός Σίνδου Τέλος, έχουμε τον σταθμό της Σίνδου, για τον οποίο η εξαγωγή των εξισώσεων γραμμικής παλινδρόμησης έγινε με δεδομένα των ετών 2001 2002 και η αξιολόγηση του μοντέλου με μετρήσεις του έτους 2003. Η εξίσωση γραμμικής παλινδρόμησης είναι η παρακάτω: Η πραγματική χρονοσειρά κι αυτή που προκύπτει από το μοντέλο είναι: 27

Βλέπουμε για άλλη μια φορά αρκετή ομοιότητα στις μορφές των χρονοσειρών. Τα στατιστικά αποτελέσματα των παραπάνω εξισώσεων φαίνονται στη συνέχεια: Συντελεστής συσχέτισης 0.7622 Mean Absolute Error 5.4068 Root Mean Squared Error 7.7626 Index of agreement 0.82484 Relative Absolute Error 0.67088 Root Relative Squared Error 0.68511 Πραγματικές τιμές Προβλεπόμενες τιμές Μέση τιμή 9.3964 12.5726 Τυπική απόκλιση 10.8768 9.0586 Βλέπουμε ότι ο σταθμός της Σίνδου καταγράφει κατά μέσο όρο πολύ χαμηλές τιμές για το ΝΟ 2. Ο συντελεστής συσχέτισης είναι αρκετά καλός όπως και το ΙΑ, όμως τα σφάλματα είναι αρκετά υψηλά αν λάβουμε υπ όψη και το χαμηλό μέσο όρο συγκεντρώσεων του ρύπου. Στο διάγραμμα διασποράς βλέπουμε ότι οι τιμές απλώνονται αρκετά γύρω από την ευθεία x=y, και όσο παρατηρούνται μεγαλύτερες τιμές τόσο το μοντέλο αποκλίνει στις προβλέψεις του. Και πάλι βλέπουμε ότι το επεισόδιο μέγιστης συγκέντρωσης του ΝΟ 2 για τον σταθμό της Σίνδου προβλέφθηκε σε λάθος στιγμή και όπως είδαμε και στους υπόλοιπους σταθμούς, αυτή η πρόβλεψη έγινε για την επόμενη ώρα του πραγματικού επεισοδίου. 28

5.6 Συμπεράσματα Μελετήσαμε την εφαρμογή πολλαπλής παλινδρόμησης για τη πρόβλεψη ωριαίων συγκεντρώσεων ΝΟ 2. Τα μοντέλα εμφάνισαν μια ικανοποιητική συσχέτιση με τις πραγματικές τιμές και απέδωσαν σωστά τη τάση μεταβολής της συγκέντρωσης όμως απέτυχαν στη πρόβλεψη επεισοδίων υψηλής συγκέντρωσης ΝΟ 2. Καλύτερη απόδοση παρουσίασε το μοντέλο του σταθμού της Καλαμαριάς, το οποίο κατασκευάστηκε με τη χρήση δεδομένων δύο ετών, σε αντίθεση με τα δεδομένων ενός έτους των υπόλοιπων σταθμών μέτρησης. Η αποτυχία πρόβλεψης επεισοδίων οφείλεται κυρίως στη μη γραμμική σχέση της συγκέντρωσης ΝΟ 2 με τις υπόλοιπες παραμέτρους αλλά και στο ότι στους σταθμούς παρουσιάζονται πολλές φορές μεγάλα κενά στις μετρήσεις που συμπληρώθηκαν με τον αλγόριθμο της Bayesian Principal Component Analysis. 29

6 Clustering 6.1 Εισαγωγή Ένα μεγάλο σετ δεδομένων μπορούμε να το χωρίσουμε σε ομάδες, έτσι ώστε τα μέλη της κάθε ομάδας να έχουν παρόμοιες ιδιότητες, ενώ τα μέλη διαφορετικών ομάδων να είναι διαφορετικά. Η μέθοδος που χρησιμοποιούμε για το διαχωρισμό στις διάφορες ομάδες ονομάζεται clustering. Η μέθοδος αυτή μας βοηθάει να δούμε τις φυσικές ομαδοποιήσεις ή τις δομές που υπάρχουν στα δεδομένα μας. Κάθε ομάδα (ή cluster) είναι μια συλλογή από τα δεδομένα που έχουν παρόμοιες ιδιότητες. Έτσι, έχουμε μια κατηγοριοποίηση των δεδομένων από την οποία μπορούμε να βγάλουμε χρήσιμα συμπεράσματα για τυχόν υπάρχουσες δομές στα δεδομένα καθώς και να κατατάξουμε στις ομάδες που δημιουργήθηκαν, μελλοντικές μετρήσεις. Παρακάτω βλέπουμε ένα παράδειγμα για δισδιάστατα δεδομένα. Παρατηρούμε ότι τα σημεία μπορούν να χωριστούν σε τέσσερις ξεχωριστές και ανεξάρτητες ομάδες, χρησιμοποιώντας σαν κριτήριο κατηγοριοποίησης την απόσταση. Δηλαδή όσες μετρήσεις βρίσκονται κοντά μεταξύ τους ανήκουν σε μία ομάδα και είναι ανεξάρτητες από τις υπόλοιπες ομάδες. 6.2 Μέθοδοι αθροίσματος τετραγώνων Αυτές οι μέθοδοι βρίσκουν ένα μέρος των δεδομένων που μεγιστοποιεί ένα προκαθορισμένο κριτήριο clustering, βασιζόμενες στους πίνακες διασποράς εντός της κλάσης και μεταξύ διαφορετικών κλάσεων. Οι μέθοδοι διαφέρουν, ανάλογα με την επιλογή του κριτηρίου κατηγοριοποίησης. Το πρόβλημα όμως που όλες οι μέθοδοι προσπαθούν να λύσουν, είναι όταν έχουμε ένα σετ δεδομένων με n μέλη, να χωριστεί σε g ομάδες ώστε το κριτήριο κατηγοριοποίησης να είναι βέλτιστο. Οι περισσότερες μέθοδοι δεν είναι βέλτιστες. Οι υπολογιστικές απαιτήσεις απαγορεύουν βέλτιστα σχήματα, ακόμη και για μέσες τιμές του n. Γι αυτό χρειαζόμαστε μεθόδους οι οποίες, ενώ υπολογίζουν μια μη βέλτιστη ομάδα, δίνουν μια τιμή στο κριτήριο κατηγοριοποίησης που δεν είναι πολύ μεγαλύτερη από τη βέλτιστη. 30

Κριτήρια ομαδοποίησης Έστω σετ δεδομένων με n στοιχεία x 1,, x n. Ο πίνακας συμμεταβλητότητας είναι: όπου, η μέση τιμή του σετ δεδομένων. Έστω ότι υπάρχουν g ομάδες. Ο πίνακας διασποράς εντός της κλάσης είναι: που είναι των αθροισμάτων των τετραγώνων και των πινάκων διασποράς των g ομάδων, με z ij = 1 όταν το x i ανήκει στην ομάδα j ή 0 όταν δεν ανήκει, είναι η μέση τιμή της ομάδας j και ο αριθμός της ομάδας j. Ο πίνακας διασποράς μεταξύ των κλάσεων είναι: ο οποίος περιγράφει τη διασπορά των μέσων τιμών των ομάδων γύρω από τη συνολική μέση τιμή του σετ δεδομένων. Τα πιο δημοφιλή κριτήρια βελτιστοποίησης βασίζονται σε μονοπαραμετρικές συναρτήσεις των παραπάνω πινάκων. Παρακάτω φαίνονται κάποια από αυτά τα κριτήρια. 1. Ελαχιστοποίηση του Το ίχνος του πίνακα S w είναι το εύρος των διαγώνιων στοιχείων του: όπου, το άθροισμα των τετραγώνων των στοιχείων εντός της ομάδας j. Επομένως, η ελαχιστοποίηση του είναι ισοδύναμη με την ελαχιστοποίηση το συνολικό άθροισμα ελαχίστων τετραγώνων γύρω από τα g κέντρα. Οι μέθοδοι που ελαχιστοποιούν αυτή τη ποσότητα ονομάζονται αθροίσματος τετραγώνων ή ελάχιστης διασποράς. Οι ομάδες που δημιουργούν συνήθως έχουν υπερελλειψοειδές σχήμα. Το κριτήριο αυτό δεν είναι ανεξάρτητο από τη κλίμακα των αξόνων γι αυτό συνήθως πριν να εφαρμοστεί η μέθοδος πραγματοποιείται μια κανονικοποίηση στο σετ των δεδομένων. Εναλλακτικά, μπορούν να χρησιμοποιηθούν κριτήρια που είναι ανεξάρτητα σε γραμμικούς μετασχηματισμούς των δεδομένων. 31

2. Ελαχιστοποίηση του Το κριτήριο αυτό είναι ανεξάρτητο από συνεχείς γραμμικούς μετασχηματισμούς των δεδομένων. Για δοσμένο σετ δεδομένων, είναι ισοδύναμο με την εύρεση της διάτμησης των δεδομένων που ελαχιστοποιεί το (ο πίνακας είναι ανεξάρτητος της διάτμησης των δεδομένων). 3. Μεγιστοποίηση του Αυτό το κριτήριο είναι ισοδύναμο με το την ελαχιστοποίηση του αθροίσματος τετραγώνων υπό τη μετρική του Mahalanobis. Είναι ανεξάρτητο από συνεχείς γραμμικούς μετασχηματισμούς των δεδομένων. 4. Ελαχιστοποίηση του Είναι ισοδύναμο με την ελαχιστοποίηση του αθροίσματος τετραγώνων για δεδομένα τα οποία έχουν κανονικοποιηθεί έτσι ώστε ο συνολικός πίνακας διασποράς να είναι μοναδιαίος. 6.3 Αλγόριθμοι clustering Αναζητούμε μία σημαντική διάτμηση n δεδομένων σε g ομάδες για τις οποίες το επιλεγμένο κριτήριο είναι το βέλτιστο. Για να βρούμε τη βέλτιστη διάτμηση, χρειάζεται ο έλεγχος όλων των δυνατών διατμήσεων. Ο αριθμός των σημαντικών διατμήσεων n δεδομένων σε g ομάδες είναι: με τον τελευταίο όρο του αθροίσματος να είναι ο πιο σημαντικός για n >> g. Το άθροισμα γίνεται ραγδαία μεγαλύτερο όσο αυξάνει ο αριθμός των μετρήσεων. Για παράδειγμα, αν θέλουμε να χωρίσουμε 60 μετρήσεις σε 2 ομάδες, έχουμε πιθανές διατμήσεις, που κάνει πρακτικά αδύνατο τον έλεγχο όλων. Γι αυτό και καταλήγουμε σε μη βέλτιστες λύσεις, κάποιες από τις οποίες περιγράφονται παρακάτω. k-means Σκοπός του k-means αλγόριθμου είναι η διάτμηση των δεδομένων σε k ομάδες, έτσι ώστε το άθροισμα των τετραγώνων εντός της ομάδας να είναι ελάχιστο. Πρέπει, δηλαδή, να ικανοποιεί το πρώτο από τα προαναφερθέντα κριτήρια. Η απλούστερη μορφή του αλγόριθμου αποτελεί εναλλαγή δύο διαδικασιών. Η πρώτη είναι η αντιστοίχιση μετρήσεων σε ομάδες. Μια μέτρηση τοποθετείται στην ομάδα στης οποίας βρίσκεται πλησιέστερα στη μέση τιμή της, στον Ευκλείδειο χώρο. Η δεύτερη διαδικασία είναι ο υπολογισμός νέων μέσων τιμών στις ομάδες βασισμένοι στις καινούριες αντιστοιχίσεις. Ο αλγόριθμος τερματίζει όταν δεν έχουμε μετακινήσεις μετρήσεων σε νέες ομάδες που να μειώνουν το άθροισμα των τετραγώνων εντός των ομάδων. Ας δούμε ένα απλό παράδειγμα. 32

Έχουμε τα δισδιάστατα δεδομένα του σχήματος. Ας θέσουμε k = 2 και να επιλέξουμε δύο διανύσματα από το σετ δεδομένων ως αρχικά διανύσματα της μέσης τιμής των δύο ομάδων. Αρχικά χωρίζουμε το σετ δεδομένων σε δύο ομάδες Α και Β που τα κέντρα τους αντιστοιχούν από τα διανύσματα 5 και 6 αντίστοιχα. Στην ομάδα Α ανήκουν οι μετρήσεις 1, 2, 3, 4 και 5 και στην ομάδα Β ανήκει μόνο η 6. Υπολογίζουμε τις νέες μέσες τιμές των ομάδων και υπολογίζουμε το εντός των ομάδων άθροισμα των τετραγώνων που είναι 6.4. Επαναλαμβάνουμε τη διαδικασία χρησιμοποιώντας τα νέα διανύσματα μέσης τιμής ως διανύσματα αναφοράς. Αυτή τη φορά, οι μετρήσεις 1, 2, 3 και 4 μπαίνουν στην ομάδα Α και οι μετρήσεις 5 και 6 στην ομάδα Β. Το άθροισμα τετραγώνων μειώνεται σε 4. Μια τρίτη επανάληψη δε μειώνει το άθροισμα των τετραγώνων, άρα ο αλγόριθμος τερματίζεται και έχουμε τον τελικό χωρισμό των δεδομένων σε ομάδες. Βλέπουμε ότι ο αλγόριθμος αυτός είναι απλός και γρήγορος με ικανοποιητικά αποτελέσματα. Όμως το βασικό του μειονέκτημα είναι ότι πρέπει εμείς να καθορίσουμε τον αριθμό των ομάδων ενώ τα αποτελέσματα εξαρτώνται από την αρχική επιλογή των ομάδων. 6.4 Εφαρμογή του αλγόριθμου k-means σε περιβαλλοντικές χρονοσειρές της πόλης της Θεσσαλονίκης Παρακάτω εφαρμόζουμε τον αλγόριθμο clustering, k-means σε πίνακες μετρήσεων ρύπων και μετεωρολογικών παραμέτρων από σταθμούς μέτρησης ποιότητας αέρα της Θεσσαλονίκης. Η εφαρμογή του αλγόριθμου έγινε με χρήση του πακέτου λογισμικού MATLAB (http://www.mathworks.com) 6.4.1 Σταθμός Α.Π.Θ. Εφαρμόζουμε τη μέθοδο k-means στις μετρήσεις για τα έτη 2001-2003 στο Α.Π.Θ. με τη βοήθεια της συνάρτησης kmeans του υπολογιστικού πακέτου MATLAB. Μία παράμετρος στη συνάρτηση είναι η distance (καθορίζει με ποιο τρόπο θα υπολογίζει τις αποστάσεις στο χώρο του προβλήματός) και τις δώσαμε τη τιμή cityblock, δηλαδή οι αποστάσεις να υπολογίζονται ως το άθροισμα των απόλυτων 33

διαφορών. Επίσης, ορίσαμε τη παράμετρο replicates στη τιμή 100. Η παράμετρος αυτή ορίζει το πόσες φορές θα επαναληφθεί το clustering με διαφορετικές αρχικές τιμές για τις ομάδες, και στο τέλος κρατάει αυτή που έχει το μικρότερο άθροισμα τετραγώνων των αποστάσεων. Όπως προαναφέρθηκε, το βασικό μειονέκτημα της μεθόδου k-means είναι ότι δε γνωρίζουμε πόσες ομάδες υπάρχουν στο σετ δεδομένων. Γι αυτό το λόγο τρέχουμε τον αλγόριθμο για διάφορες τιμές αριθμού ομάδων μέχρι να καταλήξουμε στο βέλτιστο αποτέλεσμα. Σε αυτό το σημείο μπορεί να μας βοηθήσει η συνάρτηση του MATLAB, silhouette η οποία για κάθε σημείο μιας ομάδας υπολογίζει πόσο μοιάζει με τα υπόλοιπα σημεία της ομάδας του και πόσο απομακρυσμένο είναι από τις υπόλοιπες ομάδες. Οι τιμές που λαμβάνει είναι στο διάστημα [-1,1]. Για θετικές τιμές το σημείο πιθανότατα ανήκει στο cluster για το οποίο έχει υπολογιστεί, με όσο μεγαλύτερη τιμή τόσο περισσότερο να είναι απομακρυσμένο από τις υπόλοιπες ομάδες. Αντίθετα για αρνητικές τιμές, το σημείο μάλλον έχει υπολογιστεί σε λάθος ομάδα. Ένας τρόπος να επιλέξουμε το σωστό αριθμό ομάδων είναι ο μέσος όρος της τιμής silhouette για διάφορες ομάδες. Όσο υψηλότερος είναι τόσο καλύτερα ορισμένες είναι οι ομάδες που υπολογίστηκαν. Για να έχουν κάποιο νόημα τα περιεχόμενα των ομάδων ξεκινάμε την αναζήτηση για αριθμό ομάδων από 5 και πάνω. Για το Α.Π.Θ. οι μέσοι όροι των τιμών silhouette για διάφορους αριθμούς ομάδων είναι: No. of clusters Mean of silhouette 5 6 7 8 9 10 11 12 0.26197 0.24274 0.22896 0.21293 0.21081 0.20909 0.20273 0.19875 Άρα ο καλύτερος αριθμός ομάδων για τα δεδομένα του Α.Π.Θ. είναι 5. Το διάγραμμα silhouette είναι παρακάτω: 34

Βλέπουμε ότι υπάρχουν κάποια λίγα σημεία με αρνητικές τιμές, τα οποία είναι αναμενόμενο να υπάρχουν λόγω της πολυπλοκότητας του προβλήματός μας. Παρ όλα αυτά όμως οι ομάδες φαίνεται να είναι πολύ διακριτές μεταξύ τους. Η πιο καλά ορισμένη ομάδα είναι η 4. Οι μέσες τιμές των στοιχείων για κάθε ομάδα είναι στο παρακάτω πίνακα. Cluster NO 2 O 3 Temp Hum WS Mean Std. Std. Std. Std. Std. Mean Mean Mean Mean Dev. Dev. Dev. Dev. Dev. 1 46.3966 17.8986 42.769 12.7206 16.0565 7.1309 60.2899 12.6399 1.7865 1.1891 2 18.0804 11.1721 20.5199 15.9062 12.2815 6.7212 76.5376 13.36 1.6068 1.6068 3 71.3543 21.1475 8.9983 7.9838 12.8311 6.13 73.8141 13.7275 0.89551 0.45767 4 16.74 12.1101 117.225 18.8959 26.7044 4.8474 45.2567 11.0973 3.0008 1.0496 5 18.9815 13.2891 70.5771 13.8478 16.6717 7.8029 55.0754 13.468 2.6368 1.515 Παρακάτω υπάρχουν τα ιστογράμματα της κατανομής των ωρών της ημέρας για τις μετρήσεις κάθε ομάδας. 35

Τέλος, έχουν υπολογισθεί και τα ακτινικά ιστογράμματα των κατευθύνσεων του ανέμου για κάθε ομάδα. Rose diagram Cluster 1 Rose diagram Cluster 2 Rose diagram Cluster 3 Rose diagram Cluster 4 36

Rose diagram Cluster 5 Η ομαδοποίηση των μετρήσεων χρησιμεύει πολύ στο να εντοπίσουμε μοτίβα μέσα στα δεδομένα. Συγκεντρωτικά τα συμπεράσματα για κάθε ομάδα είναι τα εξής: 1 η ομάδα: Υπάρχουν κυρίως νότιοι νοτιοδυτικοί, αλλά και αρκετοί βόρειοι, άνεμοι μέτριας έντασης. Δεν υπάρχει κάποια ισχυρή προτίμηση σε κάποια ώρα της ημέρας. Η συγκέντρωση του ΝΟ 2 είναι μέση προς σχετικά υψηλή, ενώ του όζοντος μέση προς χαμηλή, με μέσες θερμοκρασίες και σχετικά υψηλή υγρασία. 2 η ομάδα: Σχετικά χαμηλές μετρήσεις ΝΟ 2 και όζοντος, με βορειοανατολικούς ανέμους σχετικά υψηλής έντασης, μέση προς χαμηλή θερμοκρασία και υψηλές τιμές υγρασίας. Οι μετρήσεις της ομάδας εμφανίζονται κυρίως τις νυχτερινές ώρες (22 09). 3 η ομάδα: Πολύ υψηλές μετρήσεις ΝΟ 2 και πολύ χαμηλές μετρήσεις όζοντος, με βορειοανατολικούς ανέμους χαμηλής έντασης. Υψηλές τιμές υγρασίας και μέσες προς χαμηλές τιμές θερμοκρασίας. Οι μετρήσεις τις ομάδας εμφανίζονται κυρίως στα διαστήματα 6-10 το πρωί και 21-1 το βράδυ. 4 η ομάδα: Η πιο καλά ορισμένη ομάδα, της οποίας η μετρήσεις εμφανίζονται από το μεσημέρι έως αργά το απόγευμα (12 20). Πολύ ισχυροί νοτιοδυτικοί άνεμοι, με υψηλή έως πολύ υψηλή θερμοκρασία και χαμηλή υγρασία. Το ΝΟ 2 παρουσιάζεται πολύ χαμηλό ενώ το όζον είναι πολύ υψηλό. 5 η ομάδα: Νοτιοδυτικοί αλλά και βόρειοι ισχυροί άνεμοι, μέσες θερμοκρασίες και χαμηλή υγρασία. Υπάρχει μια μικρή προτίμηση στις ώρες 3-5. Το ΝΟ 2 είναι σχετικά χαμηλό ενώ το όζον εμφανίζει υψηλές τιμές. 6.4.2 Σταθμός Καλαμαριάς Εφαρμόζουμε τη παραπάνω μέθοδο για τις μετρήσεις στο σταθμό της Καλαμαριάς, για τα έτη 2001-2004. Οι μέσες τιμές silhouette μας δείχνουν ότι υπάρχουν 6 ομάδες. 37

No. of clusters Mean of silhouette 5 6 7 8 9 10 11 12 0.20244 0.20634 0.18945 0.19705 0.19977 0.18089 0.17177 0.19657 Το διάγραμμα silhouette είναι το παρακάτω. Οι ομάδες που έχουν υπολογιστεί είναι σε μεγάλο βαθμό διακριτές μεταξύ τους. Πιο «προβληματική» φαίνεται να είναι η ομάδα 1, ενώ η πιο καλά ορισμένη ομάδα φαίνεται να είναι η 4. Οι μέσες τιμές των στοιχείων για κάθε ομάδα είναι στο παρακάτω πίνακα. Cluster NO 2 O 3 Temp Hum WS Mean Std. Std. Std. Std. Std. Mean Mean Mean Mean Dev. Dev. Dev. Dev. Dev. 1 59.4812 16.137 21.4875 11.7199 12.0183 6.9156 66.998 12.9887 0.64483 0.50162 2 19.8849 11.6745 65.9383 10.5274 20.4337 7.008 51.2111 13.136 1.3085 0.69497 3 39.0906 16.4374 10.6841 11.1151 9.0881 4.6518 89.6509 9.9624 0.54437 0.44647 4 14.8005 8.2292 102.841 16.5087 26.2869 4.9391 49.0146 15.9407 1.3566 0.62403 5 12.0965 7.3592 26.9357 14.1943 15.8997 6.8729 71.5886 14.4818 0.87344 0.85865 6 32.8719 9.8066 45.1256 11.3841 15.5013 6.577 65.5874 14.2639 0.9732 0.65346 Παρακάτω υπάρχουν τα ιστογράμματα της κατανομής των ωρών της ημέρας για τις μετρήσεις κάθε ομάδας. 38

Τέλος, έχουν υπολογισθεί και τα ακτινικά ιστογράμματα των κατευθύνσεων του ανέμου για κάθε ομάδα. 39

Rose diagram Cluster 1 Rose diagram Cluster 2 Rose diagram Cluster 3 Rose diagram Cluster 4 Rose diagram Cluster 5 Rose diagram Cluster 6 Συγκεντρωτικά τα αποτελέσματα για κάθε ομάδα: 1 η ομάδα: Υψηλές μετρήσεις ΝΟ 2 και χαμηλές μετρήσεις Ο 3. Μέσες προς χαμηλές θερμοκρασίες, σχετικά υψηλή υγρασία και χαμηλή ένταση ανέμων οι οποίοι έχουν διάφορες κατευθύνσεις με μια μικρή έφεση προς τους ανατολικούς. Οι μετρήσεις εμφανίζονται κυρίως στα χρονικά διαστήματα 7 9 το πρωί και 21 3 το βράδυ. 40

2 η ομάδα: Έντονοι δυτικοί άνεμοι, με χαμηλές συγκεντρώσεις ΝΟ 2 και υψηλές συγκεντρώσεις όζοντος. Υψηλή θερμοκρασία, χαμηλή υγρασία από νωρίς το μεσημέρι μέχρι αργά το απόγευμα (11 19). 3 η ομάδα: Μέσες προς υψηλές συγκεντρώσεις ΝΟ 2 και χαμηλές συγκεντρώσεις όζοντος, χαμηλές θερμοκρασίες, πολύ υψηλές τιμές υγρασίας και χαμηλές ταχύτητες ανέμων κυρίως ανατολικής διεύθυνσης. Οι μετρήσεις της ομάδας εμφανίζονται από αργά το βράδυ έως νωρίς το πρωί, με μεγαλύτερη προτίμηση στις πρωινές ώρες. 4 η ομάδα: Πολύ υψηλές συγκεντρώσεις όζοντος, και χαμηλές συγκεντρώσεις ΝΟ 2 με δυνατούς δυτικούς ανέμους, πολύ υψηλή θερμοκρασία και χαμηλές τιμές υγρασίας. Οι τιμές αυτές εμφανίζονται νωρίς το μεσημέρι έως αργά το απόγευμα. 5 η ομάδα: Πολύ χαμηλές συγκεντρώσεις ΝΟ 2 και χαμηλές συγκεντρώσεις όζοντος, μέτριες τιμές θερμοκρασίας, υψηλή υγρασία, μέτριοι άνεμοι, κυρίως ανατολικοί και κατά κύριο λόγο αργά το βράδυ. 6 η ομάδα: Χωρίς κάποια προτίμηση σε κάποια ώρα της ημέρας, έχουμε μέσες συγκεντρώσεις ΝΟ 2 και όζοντος, μέτριες τιμές θερμοκρασίας και σχετικά υψηλές τιμές υγρασίας. Μέτριοι προς ισχυροί, κυρίως βόρειοι άνεμοι. 6.4.3 Σταθμός Κορδελιού Εφαρμόζουμε τη παραπάνω μέθοδο για τις μετρήσεις στο σταθμό του Κορδελιού, για τα έτη 2001-2003. Οι μέσες τιμές silhouette μας δείχνουν ότι υπάρχουν 7 ομάδες. \ No. of clusters Mean of silhouette 5 6 7 8 9 10 11 12 0.23162 0.225 0.2321 0.22169 0.20442 0.20307 0.20541 0.19677 Το διάγραμμα silhouette είναι το παρακάτω. 41

Πιο «προβληματική» φαίνεται να είναι η ομάδα 4, ενώ η πιο καλά ορισμένες ομάδες φαίνεται να είναι η 1 και η 3. Οι μέσες τιμές των στοιχείων για κάθε ομάδα είναι στο παρακάτω πίνακα. Cluster NO 2 O 3 Temp Hum WS Mean Std. Std. Std. Std. Std. Mean Mean Mean Mean Dev. Dev. Dev. Dev. Dev. 1 16.3576 11.015 120.598 17.0325 26.219 5.518 47.081 13.5927 1.8869 0.63165 2 12.3943 8.5128 24.9147 14.4451 21.9326 7.1064 63.0713 13.4228 1.1325 0.71598 3 24.1328 11.5639 17.7755 12.3158 10.6688 5.2198 95.1526 7.0134 0.84409 0.60322 4 48.843 17.3721 44.1411 12.7435 15.9731 7.0694 62.9484 13.9245 1.0171 0.56476 5 23.089 13.754 80.3104 11.7147 19.2071 8.0047 53 14.0142 1.7841 0.94277 6 70.2909 20.4156 11.3638 8.5576 12.2331 6.5232 79.7064 13.8943 0.58617 0.34891 7 18.2334 8.9995 57.0386 12.7856 11.1656 6.8534 78.3809 13.5706 1.6244 0.9682 Παρακάτω υπάρχουν τα ιστογράμματα της κατανομής των ωρών της ημέρας για τις μετρήσεις κάθε ομάδας. 42

43

Τέλος, έχουν υπολογισθεί και τα ακτινικά ιστογράμματα των κατευθύνσεων του ανέμου για κάθε ομάδα. Rose diagram Cluster 1 Rose diagram Cluster 2 Rose diagram Cluster 3 Rose diagram Cluster 4 Rose diagram Cluster 5 Rose diagram Cluster 6 44

Rose diagram Cluster 7 Συγκεντρωτικά τα αποτελέσματα για κάθε ομάδα: 1 η ομάδα: Πολύ υψηλές συγκεντρώσεις όζοντος και σχετικά χαμηλές συγκεντρώσεις ΝΟ 2. Πολύ υψηλές θερμοκρασίες, χαμηλές τιμές υγρασίας και νοτιοδυτικοί άνεμοι υψηλής ταχύτητας. Οι μετρήσεις εμφανίζονται σχεδόν αποκλειστικά στο διάστημα από το μεσημέρι έως αργά το απόγευμα. 2 η ομάδα: Χαμηλές συγκεντρώσεις όζοντος και ΝΟ 2, υψηλές θερμοκρασίες και σχετικά υψηλή υγρασία. Μέση ταχύτητα ανέμων που είναι βόρειοι, βορειοανατολικοί και βορειοδυτικοί. Δεν φαίνεται κάποια προτίμηση σε κάποια ώρα της ημέρας. 3 η ομάδα: Μέσες συγκεντρώσεις ΝΟ 2 και πολύ χαμηλές συγκεντρώσεις όζοντος, χαμηλές θερμοκρασίες και πολύ υψηλή υγρασία. Μέτριας προς χαμηλής έντασης άνεμοι ανατολικοί άνεμοι. Εμφανίζονται κυρίως τις πρώτες πρωινές ώρες. 4 η ομάδα: Μέσες προς υψηλές τιμές ΝΟ 2 και μέσες τιμές όζοντος. Μέσες τιμές θερμοκρασίας, μέσες προς υψηλές τιμές υγρασίας και μέση ταχύτητα ανέμων που δεν έχουν κάποια προτίμηση στη κατεύθυνση. 5 η ομάδα: Μέσες συγκεντρώσεις ΝΟ 2 και υψηλές συγκεντρώσεις όζοντος, σχετικά υψηλές θερμοκρασίες, χαμηλή υγρασία, υψηλή ταχύτητα κυρίως νοτιοδυτικών ανέμων. Οι μετρήσεις έχουν μια μικρή προτίμηση από αργά το πρωί έως αργά το απόγευμα. 6 η ομάδα: Υψηλές συγκεντρώσεις ΝΟ 2 και χαμηλές συγκεντρώσεις όζοντος. Μέση προς χαμηλή θερμοκρασία, σχετικά υψηλές τιμές υγρασίας και χαμηλές ταχύτητες ανατολικών ανέμων. Οι μετρήσεις της ομάδας έχουν μια έντονη παρουσία τις πρωινές ώρες. 7 η ομάδα: Σχετικά χαμηλές συγκεντρώσεις ΝΟ 2 και μέσες συγκεντρώσεις όζοντος. Σχετικά χαμηλές θερμοκρασίες, υψηλή υγρασία και βορειοανατολικοί άνεμοι υψηλής ταχύτητας. Οι μετρήσεις της ομάδας εμφανίζονται κυρίως μετά τα μεσάνυχτα μέχρι τις πρώτες πρωινές ώρες. 45

6.4.4 Σταθμός Σίνδου Εφαρμόζουμε τη παραπάνω μέθοδο για τις μετρήσεις στο σταθμό της Σίνδου, για τα έτη 2001-2003. Οι μέσες τιμές silhouette μας δείχνουν ότι υπάρχουν 5 ομάδες. No. of clusters Mean of silhouette 5 6 7 8 9 10 11 12 0.26249 0.22982 0.22778 0.20983 0.20949 0.19405 0.20211 0.18989 Το διάγραμμα silhouette είναι το παρακάτω. Πιο «προβληματική» φαίνεται να είναι η ομάδα 1, ενώ η πιο καλά ορισμένη ομάδα φαίνεται να είναι η 3 μαζί με τη 4. Οι μέσες τιμές των στοιχείων για κάθε ομάδα είναι στο παρακάτω πίνακα. Cluster NO 2 O 3 Temp Hum WS Mean Std. Std. Std. Std. Std. Mean Mean Mean Mean Dev. Dev. Dev. Dev. Dev. 1 36.9767 16.69 30.7469 14.0017 13.436 7.304 78.0525 13.2773 1.348 0.91579 2 12.4656 9.4808 60.78 15.6675 13.0164 7.03 89.9556 10.2663 2.3636 1.6797 3 9.1734 6.8647 116.128 14.3861 25.5343 5.0161 48.782 14.8648 3.2663 1.4364 4 22.2624 15.4921 12.9498 9.8133 10.076 5.7226 98.7215 5.7357 1.0672 0.66135 5 14.8899 9.7505 75.7819 14.2111 15.1196 7.9378 57.0246 13.0294 3.2611 2.1497 Παρακάτω υπάρχουν τα ιστογράμματα της κατανομής των ωρών της ημέρας για τις μετρήσεις κάθε ομάδας. 46

47