Μεταπτυχιακό Υπολογιστικής Φυσικής Εργασία στο µάθηµα Ανάλυση εδοµένων ηµήτρης Κουγιουµτζής E-mail: dkugiu@gen.auth.gr 31 Ιανουαρίου 2017 Οδηγίες : Σχετικά µε την παράδοση της εργασίας ϑα πρέπει : Το κείµενο της αναφοράς της ανάλυσης που Ϲητείται να είναι γραµµένο σε κάποιο πρόγραµµα επεξεργασίας κειµένου (π.χ. Word, LaTeX). Τα προγράµµατα που χρησιµοποιήθηκαν, καθώς και τα γραφήµατα και οι πίνακες, να παρουσιάζονται στο σηµείο του κειµένου που ανα- ϕέρονται. Επίσης τα προγράµµατα ϑα πρέπει να παραδοθούν µαζί µε την εργασία. Η εργασία και τα προγράµµατα ϑα πρέπει να αποσταλούν στο διδάσκοντα µε το ηλεκτρονικό ταχυδροµείο (e-mail: dkugiu@gen.auth.gr) τουλάχιστον µια µέρα πριν την εξέταση στο µάθηµα, καλύτερα σε ένα συµπιεσµένο αρχείο. Για την απάντηση στα Ϲητήµατα της εργασίας ϑα χρειαστεί να αναπτύξετε κάποιους αλγόριθµους (σε µορφή συνάρτησης), ενώ άλλοι αλγόριθµοι δίνονται (κάποιοι σε µορφή συνάρτησης Matlab) στην ιστοσελίδα του µαθήµατος (στα πλαίσια των ασκήσεων στο µάθηµα). Επίσης ϑα πρέπει να κάνετε και τα κατάλληλα προγράµµατα που καλούν τις συναρτήσεις, τα οποία και πρέπει να αντιγράψετε στην εργασία. Για τη µεταφορά σχήµατος από το Matlab στο πρόγραµµα επεξεργασίας κειµένου ϑα πρέπει να αποθηκεύσετε το σχήµα σε αρχείο χρησιµοποιώντας είτε το παράθυρο εντολών (δες εντολή print του Matlab) ή το µενού στο πα- ϱάθυρο του σχήµατος (File Export). Για µεταφορά στο Word υπάρχουν 1
διάφορες κατάλληλες µορφές αρχείου εικόνας, η πιο απλή είναι "Enhanced Metafile" (*.emf). Για µεταφορά στο LaTeX η πιο κατάλληλη µορφή είναι "Encapsulated Postscript" (*.eps). Περιγραφή εργασίας και δεδοµένα Στο αρχείο WindWeather.txt που υπάρχει στην ιστοσελίδα του µαθήµατος, δίνονται τα δεδοµένα δεικτών για τον καιρό και τον άνεµο στην περιοχή Wilson s Promontory, Victoria (το νοτιότερο σηµείο της ηπειρωτικής Αυστραλίας) για το έτος 1989 σε χρονικά διαστήµατα 3 ωρών (κάθε µέρα έγιναν 7 παρατηρήσεις µε 3 ώρες διαφορά). Υπάρχει ένα διάστηµα 6 ωρών από την τελευταία παρατήρηση στις 20:00 της µιας ηµέρας στις 2:00 της επόµενης µέρας. Η πρώτη γραµµή του πίνακα του αρχείου έχει τα ονόµατα των δεικτών σε κάθε στήλη δεδοµένων και δίνονται στον παρακάτω πίνακα (ϑα πρέπει να την αφαίρεσετε αν ϑα εισάγετε τα δεδοµένα στο Matlab µε την εντολή load). Για κάθε δείκτη έγιναν συνολικά N = 2555 µετρήσεις. Α/Α Ονοµα Περιγραφή 1 Year 89 2 Month 01-12 3 Day ηµέρα του µήνα 4 Hour ώρα της ηµέρας 5 Pressure πίεση ϐαροµέτρου 6 WetTemp ϑερµοκρασία υγρού ϐολβού 7 DryTemp ϑερµοκρασία ξηρού ϐολβού 8 Humidity σχετική υγρασία σε ποσοστά 9 Direction διεύθυνση ανέµου σε κλίµακα 0-16, (ϐόρεια είναι 16 ή 1) 10 Speed ταχύτητα ανέµου σε κόµβους 11 Rainfall ϐροχόπτωση σε mm από την τελευταία µέτρηση Ζητήµατα εργασίας 1. Φτιάξε µια συνάρτηση που να κάνει τα παρακάτω : (αʹ) (ϐʹ) να επιλέγει τυχαία n παρατηρήσεις από το σύνολο των N παρατη- ϱήσεων (όπου N = 2555 και οι παρατηρήσεις είναι από κάποιον από τους δείκτες) και να υπολογίζει την εµπειρική συνάρτηση πυκνότητας πιθανότητας (σππ) µε τη µέθοδο του ιστογράµµατος για κατάλληλη ισοµερή διαµέριση. 2
Φτιάξε ένα πρόγραµµα που για κάποιον από τους δείκτες να καλεί αυτή τη συνάρτηση M = 50 ϕορές για n = 100 και στη συνέχεια να σχηµατίζει M καµπύλες για τα M ιστογράµµατα σε ένα σχήµα. Επιπλέον στο ίδιο σχήµα να σχηµατίζει επίσης και την εµπειρική σππ από όλα τα N = 2555 δεδοµένα για το δείκτη (µε άλλο χρώµα ή µορφή καµπύλης για να ξεχωρίζει). Εφάρµοσε αυτή τη διαδικασία για τους δείκτες Pressure, WetTemp και Humidity. Σχολίασε κατά πόσο οι σππ από τα M δείγµατα των 100 πα- ϱατηρήσεων συµφωνούν µε την σππ από το σύνολο των παρατηρήσεων. Φαίνεται η σππ για τον κάθε ένα από τους τρεις δείκτες να προσεγγίζει κάποια γνωστή κατανοµή ; 2. Φτιάξε µια συνάρτηση που να κάνει τα παρακάτω : (αʹ) (ϐʹ) να επιλέγει τυχαία n παρατηρήσεις από το σύνολο των N παρατη- ϱήσεων (όπου N = 2555 και οι παρατηρήσεις είναι από κάποιον από τους δείκτες) και να κάνει έλεγχο X 2 καλής προσαρµογής σε κανονική κατανοµή. Η συνάρτηση ϑα πρέπει να δίνει στην έξοδο την p-τιµή του ελέγχου. Φτιάξε ένα πρόγραµµα που για κάποιον από τους δείκτες να καλεί αυτή τη συνάρτηση M = 100 ϕορές για n = 10, 20, 40, 80, 160 και να µετρά το ποσοστό που η υπόθεση της κανονικής κατανοµής µπορεί να γίνει αποδεκτή για κάθε µέγεθος δείγµατος n. Εφάρµοσε αυτή τη διαδικασία για τους δείκτες Pressure, WetTemp και Humidity. Σχολίασε αν η απόφαση για κανονική κατανοµή του κάθε δείκτη εξαρτάται από το µέγεθος του δείγµατος n. 3. Επανέλαβε το ίδιο πρόγραµµα (και συνάρτηση) αλλά για να ελέγξεις αν η κατανοµή του δείγµατος (για κάθε n) είναι αυτή του µεγάλου δείγµατος των N = 2555 παρατηρήσεων. Εφάρµοσε αυτή τη διαδικασία για τους δείκτες Pressure, WetTemp και Humidity. Σχολίασε αν η κατανοµή του δείκτη µε ϐάση το δείγµα µπορεί να διαφέρει από αυτήν του µεγάλου δείγµατος των N = 2555 παρατηρήσεων. 4. Για κάποιο δείκτη, επέλεξε τυχαία M = 100 δείγµατα των n = 15 παρατηρήσεων το καθένα, και υπολόγισε µε ϐάση το κάθε δείγµα το 95% διάστηµα εµπιστοσύνης για τη µέση τιµή. Υπολόγισε επίσης τη µέση τιµή του δείκτη στο σύνολο των δεδοµένων. Σε τι ποσοστό τα M διαστήµατα εµπιστοσύνης της µέσης τιµής του δείκτη περιλαµβάνουν τη 3
µέση τιµή του δείκτη υπολογισµένη στο σύνολο των δεδοµένων ; Είναι το ποσοστό αυτό αναµενόµενο ; Εφάρµοσε αυτή τη διαδικασία στους δείκτες Pressure, WetTemp και Direction. 5. Με ϐάση τα M δείγµατα στο Ερώτηµα 4 για τους δείκτες WetTemp και Humidity υπολόγισε M παραµετρικά 95% διαστήµατα εµπιστοσύνης για το συντελεστή συσχέτισης µεταξύ αυτών των δεικτών κάνοντας χρήση του µετασχηµατισµού Fisher. Υπολόγισε επίσης τον ίδιο συντελεστή συσχέτισης στο σύνολο των δεδοµένων. Σε τι ποσοστό τα M διαστήµατα εµπιστοσύνης του συντελεστή συσχέτισης περιλαµβάνουν το συντελεστή συσχέτισης υπολογισµένο στο σύνολο των δεδοµένων ; Είναι το ποσοστό αυτό αναµενόµενο ; 6. Κάνε παραµετρικό έλεγχο της υπόθεσης σε επίπεδο σηµαντικότητας 5% για µηδενική συσχέτιση των δεικτών Pressure και WetTemp, χρησιµοποιώντας το στατιστικό της κατανοµής Student σε κάθε ένα από τα M δείγµατα στο Ερώτηµα 4 καθώς και στο σύνολο των δεδοµένων. Συµ- ϕωνεί η απόφαση ελέγχου στο σύνολο των δεδοµένων µε τις αποφάσεις στα M δείγµατα των 20 παρατηρήσεων ; 7. Επέλεξε τυχαία 60 από τις N = 2555 καταγραφές. Σε αυτό το δείγµα, υπολόγισε µοντέλο πολυωνυµικής παλινδρόµησης για κατάλληλο ϐαθ- µό πολυωνύµου που να αποδίδει καλύτερα την εξάρτηση της υγρασίας (δείκτης Humidity) από τη ϑερµοκρασία (δείκτης WetTemp). Για την επιλογή του κατάλληλου πολυωνυµικού µοντέλου παλινδρόµησης κάνε διαγνωστικό έλεγχο µε το διάγραµµα διασποράς των τυποποιηµένων υ- πολοίπων για κάθε µοντέλο που δοκιµάζεις (πρώτου ϐαθµού, δευτέρου ϐαθµού κτλ) και υπολόγισε το συντελεστή προσδιορισµού καθώς και τον προσαρµοσµένο συντελεστή προσδιορισµού. Εφάρµοσε τη διαδικασία προσαρµογής πολυωνυµικού µοντέλου και στο σύνολο των n = 2555 δεδοµένων. ιαφέρουν τα δύο µοντέλα που κατέληξες ; Φαίνεται κάποιο από τα δύο µοντέλα να είναι πιο ακριβές ; 8. Για κάθε ένα από τα δύο σύνολα δεδοµένων στο Ερώτηµα 7 (των 60 και των 2555 παρατηρήσεων), διερεύνησε το κατάλληλο µοντέλο πολλαπλής γραµµικής παλινδρόµησης για την ταχύτητα του ανέµου (δείκτης Speed). οκίµασε το µοντέλο µε τις υπόλοιπες 6 ανεξάρτητες µετα- ϐλητές και σύγκρινε το µε το µοντέλο που δίνει κάποια µέθοδος ϐη- µατικής παλινδρόµησης. Υπολόγισε για το κάθε µοντέλο τη διασπορά των σφαλµάτων και το συντελεστή προσδιορισµού καθώς και τον προσαρµοσµένο συντελεστή προσδιορισµού. Είναι τα δύο µοντέλα από τη 4
ϐηµατική παλινδρόµηση ίδια για τα δύο δείγµατα (για τις 60 και 2555 παρατηρήσεις); 9. Σε συνέχεια της διερεύνησης µοντέλου ϐηµατικής παλινδρόµησης στο Ερώτηµα 8, πρόσθεσε στις 6 ανεξάρτητες µεταβλητές και άλλες 18 µεταβλητές ως εξής. Για κάθε µια από τις 6 µεταβλητές, δηµιούργησε 3 νέα δείγµατα µε τυχαία αντιµετάθεση του αρχικού δείγµατος. Οι 18 νέες µεταβλητές είναι ϕυσικά ασυσχέτιστες µε την εξαρτηµένη µεταβλητή (ταχύτητα του ανέµου (δείκτης Speed)). Θα πρέπει να ϕτιάξεις µια συνάρτηση που δηµιουργεί τα 18 νέα δείγ- µατα και υπολογίζει το µοντέλο παλινδρόµησης για την ταχύτητα του ανέµου µε ϐάση τις 24 ανεξάρτητες µεταβλητές (τις 6 ϕυσικές και τις 18 τεχνητές) µε τη µέθοδο ϐηµατικής παλινδρόµησης. Η συνάρτηση ϑα δίνει στην έξοδο τις ανεξάρτητες µεταβλητές (δηλαδή τους αντίστοιχους δείκτες από 1 ως 24) που έχουν επιλεγεί στο µοντέλο παλινδρόµησης. Θα ϕτιάξεις ένα πρόγραµµα που ϑα καλεί την παραπάνω συνάρτηση 100 ϕορές για δείγµατα των 30 παρατηρήσεων από τους 7 δείκτες και ϑα µετράει το ποσοστό εµφάνισης κάθε µιας από τις 24 µεταβλητές στο µοντέλο. Παρουσιάζονται στο µοντέλο ασυσχέτιστες µεταβλητές (οι 18 τεχνητές µεταβλητές) και σε τι ποσοστό ; 10. Για το δείκτη WetTemp διώξε την τάση χρησιµοποιώντας κατάλληλη πολυωνυµική συνάρτηση του χρόνου. Στη χρονοσειρά απαλλαγµένη από την τάση υπολόγισε και σχηµάτισε τη συνάρτηση αυτοσυσχέτισης. Φαίνεται να υπάρχει κάποια περιοδικότητα ; Σε αυτήν την περίπτωση εντόπισε την περίοδο και αφού εκτιµήσεις κατάλληλη περιοδική συνάρτηση αφαίρεσε την από τη χρονοσειρά. Υπολόγισε και πάλι τη συνάρτηση αυτοσυσχέτισης. Φαίνεται η χρονοσειρά των υπολοίπων να είναι λευκός ϑόρυβος ; 5