Εισαγωγή στη θεωρία ακραίων τιμών Αντικείμενο της θεωρίας ακραίων τιμών αποτελεί: Η ανάπτυξη και μελέτη στοχαστικών μοντέλων με σκοπό την επίλυση προβλημάτων που σχετίζονται με την εμφάνιση «πολύ μεγάλων» ή «πολύ μικρών» τιμών σε τυχαία πειράματα. Η θεωρία αυτή μπορεί χοντρικά να χωριστεί σε δύο μέρη: - το πιθανοθεωρητικό μέρος που αφορά τη μελέτη της στοχαστικής συμπεριφοράς ακραίων παρατηρήσεων και - το στατιστικό μέρος που αποτελείται από μοντέλα ερμηνείας εκτιμήσεων και προβλέψεων ακραίων συμβάντων με βάση πραγματικά δεδομένα. Etreme Value Theory sles 008-4 Boutskas Mhael
Γενικό Πρόβλημα: Έχουμε τ.μ. Χ Χ Χ m ~ F άγνωστη και θέλουμε να μελετήσουμε τη μορφή της δεξιάς ουράς της F. Π.χ. Etreme Value Theory sles 008-4 Boutskas Mhael
Επειδή δεν γνωρίζουμε την κατανομή F από την οποία προέρχονται οι παρατηρήσεις X X θα βασιστούμε στην οριακή κατανομή G της μέγιστης παρατήρησης των Χ Χ Χ η οποία δεν εξαρτάται από την άγνωστη F. Συγκεκριμένα θέτουμε M ma X X... X η οποία όμως συγκλίνει για στο F = δεξιό άκρο του στηρίγματος της F. Για να αποφύγουμε το παραπάνω εκφυλισμένο όριο θεωρούμε την κανονικοποίηση M για κατάλληλα επιλεγμένες ακολουθίες. Το ερωτήματα που προκύπτουν τώρα είναι : - πότε η παραπάνω τ.μ. συγκλίνει σε μια οριακή κατανομή G - ποιά μπορεί να είναι αυτή η οριακή κατανομή G Την απάντηση στο δεύτερο ερώτημα δίνει το ακόλουθο θεώρημα: Etreme Value Theory sles 008-4 Boutskas Mhael 3
Το Θεμελιώδες Θεώρημα των Fsher-Tppett Έστω Χ Χ... μια ακολουθία από τ.μ. Αν υπάρχουν ακολουθίες > 0 R και μια μη-εκφυλισμένη κατανομή G ώστε M ma{ X X... } G τότε η G θα είναι του ιδίου τύπου με μια από τις τρείς ακόλουθες κατανομές: Frehet: 0 0 a a a > 0 e 0 Webull: Gumbel: a e 0 a a > 0 0 e e R. Οι κατανομές Φ α Ψ α Λ καλούνται τυπικές κατανομές ακροτάτων ενώ κατανομές που είναι του ιδίου τύπου με αυτές καλούνται κατανομές ακροτάτων. Δηλαδή G = Λ / ή Φ α / ή Ψ α / για κάποια. Etreme Value Theory sles 008-4 Boutskas Mhael 4
0.8 a = 3 a = 3 a =. 0.8 0.6 0.4 a = a = a = 0.6 0.4 0. 0. 0.5.5.5 3 3.5-3 -.5 - -.5 - -0.5 Frehet Φ a Webull Ψ a 0.5 0.4 0.3 0. 0. - 4 6 Gumbel Λ Οι κατανομές Φ a και Λ έχουν F = ενώ η Ψ a έχει F = 0. Etreme Value Theory sles 008-4 Boutskas Mhael 5
- Για τα πρώτο ερώτημα: πότε η M / συγκλίνει σε μια οριακή κατανομή G Αν X ~ F F τότε προκύπτουν τα παρακάτω a Αν F = και F L τότε G = a Frehet π.χ. Pareto Cauhy Loggamma MDAΦ a L : συνάρτηση βραδείας κύμανσης δηλαδή L t / L για κάθε t > 0 a a Αν F < και F L ισοδύναμα F y y L G = F a Webull π.χ. Uform Beta MDA a F y F Αν g t t z a t F e 0 g a 0 για F π.χ. F e τότε G = Λ Gumbel π.χ. Gamma Normal Logormal EpoetalMDAΛ Etreme Value Theory sles 008-4 Boutskas Mhael 6
ΚΕΦ. Στατιστική ανάλυση ακραίων παρατηρήσεων μοντέλα ερμηνείας εκτιμήσεων - προβλέψεων ακραίων συμβάντων με βάση πραγματικά δεδομένα Θα προσπαθήσουμε με βάση ιστορικά δεδομένα και μόνο να δώσουμε απαντήσεις σε ερωτήσεις της μορφής: - Ποια είναι η πιθανότητα τα επόμενα a χρονικά διαστήματα οι παρατηρήσεις να μην υπερβούν ένα προκαθορισμένο υψηλό κατώφλι u; - Ποια είναι η πρόβλεψη για την μεγαλύτερη παρατήρηση στα επόμενα a χρονικά διαστήματα; - Ποια είναι η στάθμη u την οποία δεν θα υπερβεί καμία παρατήρηση στα επόμενα a χρονικά διαστήματα με πιθανότητα p; κ.ο.κ. Οι βασικές μέθοδοι είναι:. Μέθοδος Blok Mama βασιζόμαστε στις μέγιστες τιμές ανά χρονικές περιόδους. Μέθοδος POT βασιζόμαστε στις τιμές πάνω από ένα κατώφλι Etreme Value Theory sles 008-4 Boutskas Mhael 7
. Η Mέθοδος Blok Mama Έστω παρατηρήσεις Χ Χ Χ m ~ F άγνωστη - Μπορούμε να θεωρήσουμε ότι οι Χ Χ Χ m m = k χωρίζονται σε k το πλήθος υποσύνολα bloks από παρατηρήσεις το καθένα. X X... X X X... X... X k X k... X k Συμβολίζουμε με Υ Υ.. Υ k τις μέγιστες τιμές σε καθένα από αυτά τα k υποσύνολα οι οποίες καλούνται blok mama = 50 k = 00 Etreme Value Theory sles 008-4 Boutskas Mhael 8
Από το Θ. Fsher-Tppett εάν το είναι αρκετά μεγάλο τότε κανονικοποιημένα blok mama ~ Λ / ή Φ α / ή Ψ α / ανάλογα με το αν FMDAΛ ή MDAΦ a ή MDAΨ a αντίστοιχα. Ι Αν FMDAΛ τότε F < ή F = και η F έχει λεπτή ή μέτρια βαριά ουρά η ουρά της ίδιας της Λ μειώνεται εκθετικά. ΙΙ Αν FMDAΦ a τότε F = και η F έχει βαριά ουρά. Μάλιστα F L a ΙΙΙ Αν FMDAΨ a τότε F < με ουρά F L. F F a Etreme Value Theory sles 008-4 Boutskas Mhael 9
Μια πρώτη προσέγγιση: Προσδιορίζουμε από ποια από τις τρείς κατανομές ακροτάτων προέρχονται τα blok mama Υ Υ.. Υ k ανάλογα με το MDA που ανήκουν τα Χ Εκτιμούμε τις παραμέτρους a σχήματος θέσης και κλίμακας. ΠΑΡΑΤΗΡΗΣΗ: Η παραπάνω διαδικασία ακολουθείται όταν υπάρχει βεβαιότητα για τον τύπο της οριακής κατανομής Λ Φ ή Ψ των Χ. Διαφορετικά χρειάζεται μια μέθοδος για την επιλογή της κατάλληλου τύπου της οριακής κατανομής ακροτάτων. MEIONEKTHMA: Mια λανθασμένη επιλογή του τύπου της οριακής κατανομής α- κροτάτων μπορεί να οδηγήσει στη συνέχεια σε εντελώς εσφαλμένα αποτελέσματα. Etreme Value Theory sles 008-4 Boutskas Mhael 0
Συνήθως ακολουθείται μια ασφαλέστερη διαδικασία: - Οι τρεις οικογένειες κατανομών ακροτάτων ενοποιούνται σε μία οικογένεια κατανομών η οποία καλείται κατανομή GEV - Αν το είναι αρκετά μεγάλο μπορούμε να θεωρήσουμε ότι τα blok mama Υ Υ.. Υ k ~ GEV και να εκτιμήσουμε τις παραμέτρους της. ΠΛΕΟΝΕΚΤΗΜΑΤΑ: Δεν είμαστε αναγκασμένοι να επιλέξουμε a-pror κάποιον από τους τρεις τύπους Λ Φ Ψ και να παραμείνουμε σε αυτόν. Η αβεβαιότητα που ενδεχομένως θα υπάρχει για τον τύπο της οριακής κατανομής ακροτάτων θα εκφράζεται φυσιολογικά μέσα από την αβεβαιότητα της εκτίμησης της παραμέτρου σχήματος ξ π.χ. από το εύρος διαστήματος εμπιστοσύνης για το ξ. Etreme Value Theory sles 008-4 Boutskas Mhael
Etreme Value Theory sles 008-4 Boutskas Mhael Θεώρημα Fsher-Tppett ενοποιώντας τους τρείς τύπους κατανομών ακροτάτων Έστω Χ Χ... μια ακολουθία από ανεξ. ισον. τ.μ. Αν υπάρχουν ακολουθίες > 0 R και μια μη-εκφυλισμένη κατανομή G ώστε G X X M }... ma{ τότε η G θα είναι της μορφής ; e G 0 : όπου μ ξ R σ > 0. Για ξ = 0 θεωρούμε ως G το όριό της για ξ 0 δηλαδή e e G 0 R.
Η συγκεκριμένη παραμετρική οικογένεια κατανομών με σ.κ. G καλείται κατανομή GEV Geeralze Etreme Value Dstrbuto με παραμέτρους μ ξ R σ > 0. ξ = 0.5 σ.π.π. της κατανομής GEV μ = 0 σ = 0.4 ξ = 0.5 0.3 0. 0. ξ = 0 ξ = -4-0 4 6 Etreme Value Theory sles 008-4 Boutskas Mhael 3
Etreme Value Theory sles 008-4 Boutskas Mhael 4 Για κατάλληλες τιμές των παραμέτρων μ σ ξ προκύπτουν και πάλι οι τρείς τύποι κατανομών ακροτάτων: Ι Frehet Αν ξ > 0 και θέσουμε ξ = /a σ = /a μ = + τότε 0 0 e e G a a ΙΙ Webull Αν ξ < 0 και θέσουμε ξ = /a σ = /a μ = + τότε 0 0 e e G a a ΙII Gumbel Αν ξ = 0 δηλ. θεωρήσουμε ότι ξ 0 και θέσουμε σ = μ = τότε R e e G e 0
Επομένως η κατανομή GEV: / για ξ > 0 έχει F = με βαριά ουρά: G L αν ξ γίνεται βαρύτερη L - Αν π.χ. ξ = 0.5 τότε G όπου L 0 π.χ. σταθερή L - Αν π.χ. ξ = τότε G όπου L 0 π.χ. σταθερή για ξ = 0 έχει F = με λεπτή ουρά: G e όπου για για ξ < 0 έχει F = μ σ/ξ < με ουρά: / G F / L G y y L - Αν π.χ. ξ = 0.5 τότε G y y L όπου L 0 F F y - Αν π.χ. ξ = τότε G y yl όπου L 0 F y F F F y Etreme Value Theory sles 008-4 Boutskas Mhael 5
Etreme Value Theory sles 008-4 Boutskas Mhael 6 Από το Θεώρημα Fsher-Tppett: Τα κανονικοποιημένα blok mama k Y Y Y... ~ GEV Δηλαδή ; 0 0 G M P Y P Από την παραπάνω σχέση θέτοντας y = + προκύπτει ότι ; ; 0 0 0 0 y y G e y G y Y P όπου 0 0 και άρα και τα μη-κανονικοποιημένα blok mama Υ Υ.. Υ k ~ GEV.
Συνοψίζουμε: Προκειμένου να μελετήσουμε την κατανομή της μέγιστης παρατήρησης Μ = ma{x X X m } πράττουμε τα εξής: Χωρίζουμε τα X X X k σε k ομάδες bloks και λαμβάνουμε τις μέγιστες παρατηρήσεις Y M = k μέσα σε κάθε ομάδα blok mama. X X... X X X... X... X k X k... X k Υ Υ... Υ k Αν το είναι αρκετά μεγάλο τα blok mama Y Y Y k ~ GEVμ σ ξ Εκτιμούμε τις παραμέτρους μ σ ξ της GEV οι οποίες όπως είδαμε «περιέχουν» και τις σταθερές κανονικοποίησης. Όταν έχουμε ένα συγκεκριμένο σύνολο δεδομένων το θεωρείται σταθερό. Για το λόγο αυτό στη συνέχεια θα γράφουμε τις παραμέτρους μ σ χωρίς τον δείκτη. Etreme Value Theory sles 008-4 Boutskas Mhael 7
Εκτίμηση των παραμέτρων της GEV Έχουν προταθεί αρκετές μέθοδοι για αυτό το σκοπό: - μέσω κατάλληλων γραφημάτων παραλλαγές των Q-Q plots - με τη μέθοδο των ροπών - μέσω κατάλληλων συναρτήσεων διατεταγμένων παρατηρήσεων orer statsts - μέσω εκτιμητριών μεγίστης πιθανοφάνειας. Θα βασιστούμε κυρίως στη μέθοδο μέγιστης πιθανοφάνειας που ασυμπτωτικά δίνει τις καλύτερες δυνατές εκτιμήτριες ελαχίστης διασποράς που ακολουθούν γνωστή κατανομή πολυδιάστατη κανονική. Οι έλεγχοι υποθέσεων και τα δ.ε. για τις παραμέτρους μπορούν σχετικά εύκολα να γίνουν χρησιμοποιώντας τη γνωστή profle Devae Futo. Etreme Value Theory sles 008-4 Boutskas Mhael 8
Etreme Value Theory sles 008-4 Boutskas Mhael 9 Ε.Μ.Π. των μ σ ξ της κατανομής GEV. Έστω τα blok mama Υ Υ Υ k ~ GEV. H log-lkelhoo των Υ θα είναι ξ 0 k k Y G Y G l ; l ; l k k Y k Y k Y I l l l Το άθροισμα των liy μσξ είναι ίσο με 0 αν τα μ σ ξ ικανοποιούν την + ξυ μ/σ > 0 για όλα τα όλα τα Y και διαφορετικά. Στην περίπτωση που ξ = 0 αντίστοιχα θα είναι k Y k e Y k l l 0. Οι ε.μ.π. ˆ ˆ ˆ είναι οι τιμές των μ σ ξ που μεγιστοποιούν την lμ σ ξ. Δυστυχώς δεν υπάρχουν αναλυτικές εκφράσεις για τις ε.μ.π. Δεδομένου όμως ενός συγκεκριμένου τυχαίου δείγματος y y k μπορούμε να βρούμε τις τιμές που μεγιστοποιούν την lμσξ με αριθμητικές μεθόδους βελτιστοποίησηςπ.χ. Newto-Raphso
Ιδιότητες των ε.μ.π. Οι ˆ ˆ ˆ θα ακολουθούν ασυμπτωτικά μία πολυδιάστατη κανονική με μέση τιμή μ σ ξ Τ και πίνακα διασποράς τον αντίστροφο του πίνακα πληροφορίας ο οποίος εκτιμάται από τον I l ˆ ˆ ˆ l ˆ ˆ ˆ l ˆ ˆ ˆ l ˆ ˆ ˆ l ˆ ˆ ˆ l ˆ ˆ ˆ l ˆ ˆ ˆ l ˆ ˆ ˆ l ˆ ˆ ˆ Αν s είναι το -διαγωνιο στοιχείο του I προσεγγιστικά ισχύει ότι και άρα τα ˆ ~ N s ˆ ~ ˆ N s ~ N s3 3 s z ˆ s z ˆ s z ˆ a / a / 33 a / είναι προσεγγιστικά διαστήματα εμπιστοσύνης συντελεστού a για τις παραμέτρους μ σ ξ αντίστοιχα. Etreme Value Theory sles 008-4 Boutskas Mhael 0
Profle Devae Futo Για την κατασκευή δ.ε. μπορούμε εναλλακτικά να χρησιμοποιήσουμε τις profle Devae Futos D p μ D p σ D p ξ. Αν θέλουμε δ.ε. για το ξ αποδεικνύεται ότι ασυμπτωτικά D p και επομένως το σύνολο { : D p l ˆ ˆ ˆ ma l ~. a} { : ma l l ˆ ˆ ˆ a / } είναι ένα δ.ε. συντελεστού a για το ξ. Το παραπάνω δεν λύνεται ως προς ξ και για αυτό κατασκευάζεται το γράφημα της συνάρτησης ma μσ lμσξ για διάφορες τιμές του ξ σε ένα διάστημα γύρω από το ˆ και προστίθεται στο η οριζόντια γραμμή με τεταγμένη l ˆ ˆ ˆ a /. Etreme Value Theory sles 008-4 Boutskas Mhael
ΣΤΑΘΜΗ ΑΠΟΔΟΣΗΣ Στάθμη απόδοσης z p για /p χρονικές περιόδους απόδοσης: το κατώφλι z p το ο- ποίο υπερβαίνει ένα blok mamum με πιθανότητα p. z p G l p 0 p l l p 0 Ισοδύναμα: Το κατώφλι z p το οποίο υπερβαίνουν τα blok mama κατά μέσο όρο κάθε /p bloks. ΕΚΤΙΜΗΣΗ ΤΗΣ ΣΤΑΘΜΗΣ ΑΠΟΔΟΣΗΣ Σημειακή Εκτίμηση. Ισχύει ότι z p = G p; μ σ ξ := g. Επομένως ˆ ˆ wp ˆ e ˆ 0 zˆ ˆ ˆ ˆ ˆ p g w p = l l p. ˆ ˆ w ˆ p 0 Etreme Value Theory sles 008-4 Boutskas Mhael
Δ.Ε. ΓΙΑ ΤΟ z p ΜΕΣΩ ΤΗΣ PROFILE DEVIANCE FUNCTION Πραγματοποιούμε νέα παραμετροποίηση ώστε η z p να είναι μια από τις παραμέτρους της GEV π.χ. θέτουμε z p l p. Αν l η πιθανοφάνεια των blok mama ως προς την νέα παραμετροποίηση τότε z p Συνεπώς το σύνολο { z p : D z p p D z l zˆ ˆ ˆ ma l z ~ p p p a} { z p : ma l z p l zˆ p ˆ ˆ a / } είναι ένα δ.ε. συντελεστού a για το z p. Συνήθως κατασκευάζεται το γράφημα της ma l και προστίθεται η οριζόντια γραμμή με τεταγμένη l z ˆp ˆ ˆ /. a p z p Etreme Value Theory sles 008-4 Boutskas Mhael 3
ΈΛΕΓΧΟΣ ΚΑΛΗΣ ΠΡΟΣΑΡΜΟΓΗΣ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΣΤΗΝ GEV Θα πρέπει να βεβαιωθούμε ότι τα blok mama προσαρμόζονται ικανοποιητικά σε κάποια GEV ώστε να έχει νόημα η εκτίμηση των παραμέτρων μ σ ξ. Χρησιμοποιούμε Q-Q plot ή P-P plot των blok mama ως προς την GEV ˆ ˆ ˆ το οποίο αποτελείται από τα σημεία Y G k ; ˆ ˆ ˆ Y ˆ ˆ l ˆ ˆ k όπου Υ <Y < <Y k είναι τα διατεταγμένα blok mama. = k - Εάν τα blok mama ακολουθούν μία GEV θα πρέπει τα k σημεία του Q-Q plot να βρίσκονται κοντά στην διαγώνιο. Etreme Value Theory sles 008-4 Boutskas Mhael 4
ΕΚΤΙΜΗΣΗ ΤΩΝ μ σ ξ ΜΕΣΩ Q-Q PLOT Το Q-Q plot των blok mama ως προς την GEV 0 ˆ αποτελείται από τα σημεία ˆ Y l = k ˆ k - Εάν τα blok mama ακολουθούν μία GEV θα πρέπει τα k σημεία του παραπάνω Q-Q plot να βρίσκονται «κοντά» στην ευθεία: y = μ/σ. - Δηλαδή τα μ σ μπορούν πρόχειρα να εκτιμηθούν από το γράφημα Πρόχειρη εκτίμηση του ξ: Δοκιμάζουμε διάφορες τιμές του ξ μέχρι να δούμε για ποια τιμή τα k σημεία περίπου ευθυγραμμίζονται. - Συνήθως ξεκινάμε από το ξ = 0 Q-Q plot των blok mama ως προς την Λ0: Y l l = k k - Εάν το γράφημα των σημείων είναι κοίλο oave τότε δοκιμάζουμε ξ > 0 - Εάν το γράφημα των σημείων είναι κυρτό ove τότε δοκιμάζουμε ξ < 0 Etreme Value Theory sles 008-4 Boutskas Mhael 5
Παράδειγμα. Θεωρούμε το παράδειγμα με τις k = 0000 τιμές των Χ που έχουμε χρησιμοποιήσει παραπάνω. Κρατάμε τα blok mama Υ Υ Υ k με k = 00 = 50: Etreme Value Theory sles 008-4 Boutskas Mhael 6
Το γράφημα των σημείων στο Gumbel Q-Q plot φαίνεται να είναι κοίλο και υποπτευόμαστε ότι το ξ πιθανόν να είναι θετικό. Mπορούμε φτιάξουμε το Q-Q plot της GEV με μ = 0 σ = δοκιμάζοντας διάφορες τιμές του ξ έως ότου τα σημεία περίπου ευθυγραμμιστούν: GEV Q-Q plot ξ = 0. GEV Q-Q plot ξ = 0.3 GEV Q-Q plot ξ = 0.4 Μάλλον ξ 0.3. Επίσης τα σημεία θα βρίσκονται πάνω στην ευθεία y = μ/σ. Από εδώ προκύπτει εύκολα από το μεσαίο παραπάνω σχήμα ότι το μ 6 σ 7. Etreme Value Theory sles 008-4 Boutskas Mhael 7
Μέθοδος μέγιστης πιθανοφάνειας. Η εκτίμηση των παραμέτρων μ σ και ξ από τα blok mama μέσω της μεθόδου μέγιστης πιθανοφάνειας είναι από το πακέτο EtRemes του R: ˆ = 5.940659 ˆ = 6.67598 ˆ = 0.55953 με εκτιμήσεις των τυπικών αποκλίσεών τους αντίστοιχα. 0.5065504 0.4630444 και 0.063748 Μπορούμε τώρα να κατασκευάσουμε και τα αντίστοιχα προσεγγιστικά δ.ε. συντελεστού a: s z ˆ s z ˆ s z. ˆ a / a / 33 a / Π.χ. για το ξ το δ.ε. 95% θα είναι το 0.33966 0.377937. Etreme Value Theory sles 008-4 Boutskas Mhael 8
Δ.Ε. μέσω της profle Devae Futo Ένα δ.ε. 95% για το ξ μέσω της profle Devae Futo θα είναι το { : D p a } όπου D p l ˆ ˆ ˆ ma l ~ - Κατασκευάζουμε το γράφημα της συνάρτησης Profle log-lkelhoo ma μσ lμσξ για ξ0.0.5 κατασκευάζεται αριθμητικά π.χ. λαμβάνοντας 00 τιμές του ξ μέσα στο 0 0.5 - προσθέτουμε την οριζόντια γραμμή με τεταγμένη l ˆ ˆ ˆ a / : Etreme Value Theory sles 008-4 Boutskas Mhael 9
Eκτίμηση της στάθμης απόδοσης z p για /p χρονικές περιόδους blok = μία χρονική περίοδος zˆ p ˆ ˆ e ˆ 6.67 5.94 e 0.56 ˆ w p 0.56w p όπου w p = l l p. Επίσης μπορούμε να εκτιμήσουμε την στάθμη απόδοσης από την profle log-lkelhoo: για /p = 0 και 00 αντίστοιχα: - ένα blok mamum υπερβαίνει την τιμή 7 με πιθ. p = /00 ή ισοδύναμα - ένα blok mamum υπεβαίνει την τιμή 7 κατά μέσο όρο κάθε 00 χρονικές περιόδους. Etreme Value Theory sles 008-4 Boutskas Mhael 30
Διαγνωστικά γραφήματα καλή προσαρμογή των blok mama στην GEV Etreme Value Theory sles 008-4 Boutskas Mhael 3