Περιβαλλοντική Στατιστική ηµήτρης Λέκκας Τµήµα Στατιστικής και Αναλογιστικών Χρηµατοοικονοµικών Μαθηµατικών Περιγραφή Παρουσιάζονται τα κύρια θέµατα του µαθήµατος και αναλύονται τα προβλήµατα κατά την εφαρµογή στατιστικών µεθόδων και εργαλείων για την επίλυση περιβαλλοντικών προβληµάτων. Παρουσιάζονται προβλήµατα προσέγγισης πολυπαραµετρικών σχέσεων µε περιορισµένα και αµφιβόλου ποιότητας δεδοµένα missing values 2
Ενότητες Πολυδιάστατη Στατιστική ανάλυση Πολυµεταβλητά Πολυπαραµετρικά Πίνακας Συσχετίσεων R Η έννοια της απόστασης Ανάλυση κυρίων συνιστωσών Ανάλυση κατά συστάδες ιαχωριστική ανάλυση Χρονοσειρές Εφαρµογές στατιστικών µεθόδων 3 Πολυδιάστατη Στατιστική ανάλυση 4
Τύποι Κλιµάκων Μέτρησης Μη µετρικές (nonmetric) µεταβλητές Ονοµαστική Κλίµακα (Nominal) Π.χ. Μεταβλητή «φύλο»: 1 για αρσενικό, 2, για θηλυκό ιατεταγµένη Κλίµακα (Ordinal) Π.χ. Μέτρηση προτίµησης για µάρκες αυτοκινήτων Κατάταξη 1 2 3 4 Μάρκα Α Β Γ 5 Μετρικές (metric) µεταβλητές Π.χ. Βαθµολογείστε τη µάρκα που προτιµάτε µε µια κλίµακα πέντε σηµείων: ΚΛΙΜΑΚΑ ΠΡΟΤΙΜΗΣΗ ΚΛΙΜΑΚΑ ΠΡΟΤΙΜΗΣΗ 1 ΠΟΛΥ ΥΨΗΛΗ 12 ΠΟΛΥ ΥΨΗΛΗ 2 ΥΨΗΛΗ 14 ΥΨΗΛΗ 3 ΜΕΤΡΙΑ 16 ΜΕΤΡΙΑ 4 ΧΑΜΗΛΗ 18 ΧΑΜΗΛΗ 5 ΠΟΛΥ ΧΑΜΗΛΗ 205 ΠΟΛΥ ΧΑΜΗΛΗ Οι ιδιότητες της αρχικής κλίµακας διατηρούνται µε τον µετασχηµατισµό: Yt = a + byo. Κλίµακα Λόγου (Ratio) Οπως προηγουµένως αλλά εδώ υπάρχει µια φυσική βάση που δεν αλλάζει. 6 Π.χ. Ηηλικίαέχειτιµή φυσικήςβάσηςµηδέν.
Γιατί είναι ιδιαίτερα χρήσιµες οι πολυµεταβλητές τεχνικές: Έχουµε περισσότερη πληροφορία (περισσότερες µεταβλητές ερµηνεύουν καλύτερα το φαινόµενο). Μελετάµε συσχετισµούς (µεταξύ µεταβλητών και µεταξύ υποκειµένων). 7 Πού χρησιµοποιούνται οι πολυµεταβλητές τεχνικές; Για την εύρεση και ερµηνεία συσχετίσεων µεταξύ των µεταβλητών. Για τη δηµιουργία οµάδων είτε από παρατηρήσεις είτε από µεταβλητές σύµφωνα µε κάποια χαρακτηριστικά. Τη µείωση των διαστάσεων του προβλήµατος (συµπύκνωση της πληροφορίας που περιέχουν πολλές µεταβλητές σε λιγότερες). Την πρόβλεψη νέων τιµών. 8
Πού χρησιµοποιούνται οι πολυµεταβλητές τεχνικές; Μοντελοποίηση σε πολλές διαστάσεις (για την ερµηνεία πολλών µεταβλητών σε σχέση µε άλλες). Ποσοτικοποίηση µη παρατηρήσιµων ποσοτήτων. 9 Κατηγοριοποίηση Μεθόδων Ανάλυσης εδοµένων Θεωρούµε ενα σύνολο δεδοµένων που περιλαµβάνει n παρατηρήσεις σε p µεταβλητές. Επίσης θεωρούµε ότιοιp µεταβλητές µπορούν να χωρισθούν σε δύο οµάδες ή υποσύνολα. Στατιστικές µέθοδοι για την ανάλυση τέτοιων δεδοµένων καλούνται µέθοδοι εξάρτησης (dependence). Εξετάζουν για την παρουσία ή απουσία σχέσεων µεταξύ των δύο συνόλων των µεταβλητών. Ο ερευνητής καθορίζει ποιες είναι οι ανεξάρτητες και ποιες οι εξαρτηµένες µεταβλητές. Αν δε µπορούµε να καθορίσουµε ποιες είναι οι ανεξάρτητες και ποιες οι εξαρτηµένες µεταβλητές τότε χρησιµοποιούµε µεθόδους για το πως και γιατί οι µεταβλητές σχετίζονται. Οι στατιστικές µέθοδοι για την ανάλυση αυτών των τύπων δεδοµένων καλούνται µέθοδοι διεξάρτησης (interdependence). 10
Στατιστικές Μέθοδοι Εξάρτησης 11 Στατιστικές Μέθοδοι ιεξάρτησης 12
Γραφήµατα 13 Περιγραφή µεταβλητών 14
Matrix plot 15 Πρόσωπα του Chernoff 1. Περιοχή προσώπου = βαθµός SAT 2. Σχήµα προσώπου= Ποσοστό φοιτητών που έγιναν δεκτοί 3. Μήκος µύτης = Ποσό που ξοδεύει κάθε φοιτητής 4. Τοποθεσία στόµατος = Ποσοστότελειόφοιτων µε µεγάλο βαθµό 5. Καµπύλη χαµόγελου = Ποσοστό διδασκόντων µε διδακτορικό 6. Μήκος στόµατος = Ποσοστόφοιτητών που αποφοιτούν 16
17 18
19 20
Πολυµεταβλητά Περιγραφικά Μέτρα 21 Πολυµεταβλητά δεδοµένα : n Αριθµός παρατηρήσεων / αντικειµένων προς µελέτη (Objects or Items) : p Αριθµός χαρακτηριστικών / µεταβλητών προς µελέτη (Variables) : xij Τιµή τουi αντικειµένου στο j χαρακτηριστικό / µεταβλητή 22
23 Παράδειγµα Χρησιµοποιώντας την προηγούµενη ορολογία έχουµε: n = 4 (αριθµός παρατηρήσεων) p = 3 (µεταβλητές-χαρακτηριστικά) 24
25 26
27 28
29 30
31 32
33 34
35 36
Πίνακας Συσχετίσεων R 37 Πίνακας Συσχετίσεων R Ο πίνακας συσχετίσεων είναι ο πίνακας που περιέχει σαν στοιχεία του τους συντελεστές συσχέτισης του Pearson για κάθε ζευγάρι µεταβλητών. Ο συντελεστής συσχέτισης του Pearson µετράει µόνο γραµµική συσχέτιση ανάµεσα στις µεταβλητές και εποµένως δεν µπορεί να µας δώσει πληροφορία για άλλης µορφής συσχέτιση. Ο συντελεστής συσχέτισης του Pearson είναι κατάλληλος µόνο για ζεύγη ποσοτικών µεταβλητών. 38
39 Πίνακας Συσχετίσεων R Ο πίνακας έχει απαραίτητα τιµές ίσες µε τηµονάδα στη διαγώνιο, είναι συµµετρικός και κανένα στοιχείο του δεν µπορεί να πάρει τιµή µεγαλύτερη σε απόλυτη τιµή από το 1. Τιµές 1 και 1 σηµαίνουν απόλυτα γραµµική σχέση των δύο µεταβλητών, το πρόσηµο υποδηλώνει την ύπαρξη θετικής ή αρνητικής σχέσης. Η θετική σχέση ερµηνεύεται πως όσο αυξάνει η τιµή της µιας µεταβλητής τόσο αυξάνει και η τιµή της άλλης ενώ η αρνητική σχέση ερµηνεύεται πως όσο αυξάνει η τιµή τηςµιας µεταβλητής µειώνεται η τιµής της άλλης. 40
Ο πίνακας διακυµάνσεων-συνδιακυµάνσεων S τυποποιηµένων µεταβλητών ταυτίζεται µε τον πίνακα συσχετίσεων R των αρχικών µεταβλητών πριν την τυποποίηση τους. όπου Χ* j, X* k, είναι οι τυποποιηµένες µεταβλητές. 41