ΕΙΣΗΓΗΤΗΣ Κωνσταντινος Πετροπουλος Επικουρος Καθηγητης Τμημα Μαθηματικων Πανεπιστημιου Πατρων ΕΠΙΤΡΟΠΗ Σταυρος Κουρουκλης Καθηγητης Τμημα Μαθηματικων

Σχετικά έγγραφα
ΕΚΤΙΜΗΣΗ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΓΙΑ ΕΠΙΛΕΓΜΕΝΟ ΕΚΘΕΤΙΚΟ ΠΛΗΘΥΣΜΟ ΑΠΟ k ΠΛΗΘΥΣΜΟΥΣ

ΙΔΙΟΤΗΤΕΣ ΚΑΙ ΕΚΤΙΜΗΣΗ ΓΙΑ ΤΟ ΜΟΝΤΕΛΟ ΤΗΣ ΕΚΘΕΤΙΚΟΠΟΙΗΜΕΝΗΣ ΓΑΜΜΑ ΚΑΤΑΝΟΜΗΣ

Μέρος II. Στατιστική Συμπερασματολογία (Inferential Statistics)

ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΣΤΑΤΙΣΤΙΚΗ Ι ΜΕΡΟΣ Α (Σ. ΧΑΤΖΗΣΠΥΡΟΣ) . Δείξτε ότι η στατιστική συνάρτηση T = X( n)

CRAMER-RAO ΚΑΤΩ ΦΡΑΓΜΑ - ΑΠΟ ΟΤΙΚΟΙ ΕΚΤΙΜΗΤΕΣ

Εφαρμοσμένη Στατιστική

Στατιστική. Εκτιμητική

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 13 Μαρτίου /31

Εισαγωγή-Αµερόληπτοι Εκτιµητές

A(θ) = n log θ B(x ) = 0. T (x ) = x i. Γ(n)θ n =

Στατιστική Συμπερασματολογία

Γιατί μετράμε την διασπορά;

X = = 81 9 = 9

ΕΝΟΤΗΤΑ 1: ΟΡΙΣΜΟΣ ΠΕΔΙΟ ΟΡΙΣΜΟΥ ΠΡΑΞΕΙΣ ΣΥΝΑΡΤΗΣΕΩΝ ΓΡΑΦΙΚΕΣ ΠΑΡΑΣΤΑΣΕΙΣ ΒΑΣΙΚΩΝ ΣΥΝΑΡΤΗΣΕΩΝ ΛΥΜΕΝΑ ΘΕΜΑΤΑ ΘΕΜΑ Α

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις, σημειακή εκτίμηση παραμέτρων και γραμμική παλινδρόμηση Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Εισόδημα Κατανάλωση

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Στατιστική Συμπερασματολογία

Σημερινό μάθημα: Εκτιμήτριες συναρτήσεις και σημειακή εκτίμηση παραμέτρων Στατιστική συμπερασματολογία (ή εκτιμητική ): εξαγωγή συμπερασμάτων για το σ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

9. Παλινδρόμηση και Συσχέτιση

Στατιστική Συμπερασματολογία

(X1 X 2 ) 2}. ( ) f 1 (x i ; θ) = θ x i. (1 θ) n x i. x i log. i=1. i=1 t2 i

ΚΑΤΑΝΟΜΕΣ Ι ΙΑΣΤΑΤΩΝ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ (Συνέχεια)

Στατιστική Συμπερασματολογία

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

1. ΣΤΑΤΙΚΗ ΑΡΙΣΤΟΠΟΙΗΣΗ


ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Κεφάλαιο 3 ΠΑΡΑΓΩΓΟΣ. 3.1 Η έννοια της παραγώγου. y = f(x) f(x 0 ), = f(x 0 + x) f(x 0 )

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΟΙΚΟΝΟΜΙΚΑ ΜΑΘΗΜΑΤΙΚΑ

Για να εκφράσουμε τη διαδικασία αυτή, γράφουμε: :

(a) = lim. f y (a, b) = lim. (b) = lim. f y (x, y) = lim. g g(a + h) g(a) h g(b + h) g(b)

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΘΕΩΡΙΑ ΑΠΟΦΑΣΕΩΝ 3 ο ΦΡΟΝΤΙΣΤΗΡΙΟ ΛΥΣΕΙΣ ΤΩΝ ΑΣΚΗΣΕΩΝ

Είδη Μεταβλητών. κλίµακα µέτρησης

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

n + 1 X(1 + X). ) = X i i=1 i=1

Περιεχόμενα. Κεφάλαιο 1 ΣΥΣΤΗΜΑΤΑ ΣΥΝΤΕΤΑΓΜΕΝΩΝ ΣΕ ΜΙΑ ΕΥΘΕΙΑ Οι συντεταγμένες ενός σημείου Απόλυτη τιμή...14

f(y) dy = b a dy = b a x f(x) dx = b a dx = x 2 = b2 a 2 2(b a) b a dx = = (a2 + ab + b 2 )(b a) 3(b a)

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

dy df(x) y= f(x) y = f (x), = dx dx θ x m= 1

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Χ. Εμμανουηλίδης, 1

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Η Θεωρία στα Μαθηματικά κατεύθυνσης της Γ Λυκείου

ΑΠΟ ΤΟ ΔΕΙΓΜΑ ΣΤΟΝ ΠΛΗΘΥΣΜΟ

Γ. Ν. Π Α Π Α Δ Α Κ Η Σ Μ Α Θ Η Μ Α Τ Ι Κ Ο Σ ( M S C ) ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ. ΠΡΟΓΡΑΜΜΑ: Σπουδές στις Φυσικές Επιστήμες

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Θεωρία Πιθανοτήτων & Στατιστική

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Ανασκόπηση θεωρίας ελαχίστων τετραγώνων και βέλτιστης εκτίμησης παραμέτρων

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

5o Επαναληπτικό Διαγώνισμα 2016

ΚΕΦΑΛΑΙΟ 1 ο : ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

Εισαγωγή στη θεωρία ακραίων τιμών

Μέθοδος μέγιστης πιθανοφάνειας

Λ. Ζαχείλας. Επίκουρος Καθηγητής Εφαρμοσμένων Μαθηματικών Τμήμα Οικονομικών Επιστημών Πανεπιστήμιο Θεσσαλίας. Οικονομική Δυναμική 29/6/14

ΚΕΦΑΛΑΙΟ 4ο: ΟΛΟΚΛΗΡΩΤΙΚΟΣ ΛΟΓΙΣΜΟΣ ΕΝΟΤΗΤΑ 4: ΕΜΒΑΔΟΝ ΕΠΙΠΕΔΟΥ ΧΩΡΙΟΥ [Κεφ.3.7 Μέρος Β του σχολικού βιβλίου]. ΑΣΚΗΣΕΙΣ

ΠΑΝΕΛΛΑΔΙΚΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ ΘΕΜΑΤΩΝ

3. ΠΑΡΑΜΕΤΡΟΙ ΚΑΤΑΝΟΜΩΝ

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Ανισότητα Cramér Rao

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Εφαρμοσμένη Στατιστική

Μέθοδος μέγιστης πιθανοφάνειας

1. Τετραγωνικές μορφές. x y 0. 0x y 0 1α 1β 2α 2β 3. 0x + y 0

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 2. Σταύρος Παπαϊωάννου

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014

Pr(10 X 15) = Pr(15 X 20) = 1/2, (10.2)

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Στατιστική Συμπερασματολογία

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Μαθηματικά. Ενότητα 3: Ολοκληρωτικός Λογισμός Σαριαννίδης Νικόλαος Τμήμα Διοίκησης Επιχειρήσεων (Κοζάνη)

Μαθηματική Εισαγωγή Συναρτήσεις

Transcript:

ΓΡΗΓΟΡΙΑ ΑΓΓΕΛΟΥ ΕΚΤΙΜΗΣΗ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΜΗ PARETO Μεταπτυχιακη Διατριβη ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ

ΕΙΣΗΓΗΤΗΣ Κωνσταντινος Πετροπουλος Επικουρος Καθηγητης Τμημα Μαθηματικων Πανεπιστημιου Πατρων ΕΠΙΤΡΟΠΗ Σταυρος Κουρουκλης Καθηγητης Τμημα Μαθηματικων Πανεπιστημιου Πατρων Νικολαος Τσαντας Αναπληρωτης Καθηγητης Τμημα Μαθηματικων Πανεπιστημιου Πατρων

Περιεχόμενα Εισαγωγή 6 1 Βασικοί Ορισμοί και Θεωρήματα 7 1.1 Εισαγωγή-Αμερόληπτοι Εκτιμητές.................... 7 1.2 Συνάρτηση Ζημίας (Loss Function)- Συνάρτηση Κινδύνου (Risk Function).................................. 9 1.3 Ασύμμετρη συνάρτηση ζημίας LINEX.................. 1 1.4 ΑΟΕΔ Εκτιμητές............................. 11 1.5 Επάρκεια.................................. 14 1.6 Πληρότητα................................. 16 1.7 Συνέπεια.................................. 17 1.8 Εκτίμηση με την μέθοδο Μέγιστης Πιθανοφάνειας........... 18 1.9 Εκτιμητές Bayes.............................. 19 1.1 Αναλλοίωτο Πρόβλημα Εκτίμησης.................... 22 1.11 Μετασχηματισμοί Τυχαίων Μεταβλητών................. 25 1.12 Power Function Κατανομή........................ 25 1.13 Feller-Pareto Κατανομή.......................... 26 2 Εισαγωγή στην κατανομή Pareto 27 2.1 Κατανομή Pareto τύπου Ι......................... 27 2.2 Κατανομή Pareto και άλλες γνωστές κατανομές............. 31 2.3 Δείκτες ανισότητας............................ 32 3

ΠΕΡΙΕΧ ΟΜΕΝΑ 2.4 Μέθοδος επαλήθευσης για την κατανομή Pareto............. 36 3 Εκτίμηση των παραμέτρων της κατανομής Pareto ως προς το τετραγωνικό σφάλμα 39 3.1 Μέθοδος των Ροπών........................... 39 3.2 Μέθοδος της Μέγιστης Πιθανοφάνειας.................. 41 3.3 Μέθοδος των ποσοστιαίων σημείων................... 42 3.4 Μέθοδος των ελαχίστων τετραγώνων.................. 44 3.5 ΑΟΕΔ εκτιμητής για το α......................... 46 3.6 Εκτίμηση κατά Bayes........................... 46 3.6.1 Εκτίμηση του α, όταν το σ είναι γνωστό............. 47 3.6.2 Εκτίμηση του σ, όταν το α είναι γνωστό............. 48 3.6.3 Εκτίμηση κατά Bayes, όταν και οι δύο παράμετροι είναι άγνωστες 49 3.6.4 Εκτίμηση των α, τ (α, τ ανεξάρτητα)............... 51 3.6.5 Εκτίμηση των α, τ (α, τ εξαρτημένα)............... 53 3.7 Συγκρίσεις εκτιμητών........................... 54 3.8 Σύκριση των εκτιμητών ΑΟΕΔ και ΕΜΠ για το α............ 57 4 Εκτίμηση της παραμέτρου a της κατανομής Pareto με συνάρτηση ζημίας LINEX 58 4.1 Εκτίμηση του α όταν σ γνωστό...................... 58 4.2 Εκτίμηση του α με σ άγνωστο (α,σ εξαρτημένα)............. 6 4.3 Εκτίμηση του α με σ άγνωστο (α,σ ανεξάρτητα)............. 61 4.4 Σύγκριση των εκτιμητών Bayes του α με τετραγωνικό σφάλμα και με σφάλμα LINEX.............................. 62 5 Εκτίμηση της συνάρτησης επιβίωσης 73 5.1 ΑΟΕΔ εκτιμητές............................. 74 5.2 Σύγκριση ΕΜΠ και ΑΟΕΔ εκτιμητών.................. 76 4

ΠΕΡΙΕΧ ΟΜΕΝΑ 6 Προσέγγιση των κατανομών πιθανότητας του πλούτου και του εισοδήματος με εκθετική και Pareto κατανομή για το Ηνωμένο Βασίλειο και τις Ηνωμένες Πολιτείες 81 6.1 Κατανομή του πλούτου στο Ηνωμένο Βασίλειο............. 82 6.2 Κατανομή εισοδήματος στο Ηνωμένο Βασίλειο.............. 84 6.3 Κατανομή εισοδήματος για τις ΗΠΑ................... 85 Βιβλιογραφία 87 5

Εισαγωγή Γ. Αγγέλου, Πάτρα 214 Η παρούσα μεταπτυχιακή διατριβή διαπραγματεύεται τη μελέτη της κατανομής Pareto, την εκτίμηση και την σύγκριση των εκτιμητών των παραμέτρων της καθώς και την εκτίμηση της συνάρτησης επιβίωσης της δεδομένου ότι η κατανομή Pareto χρησιμοποιείται ως μοντέλο για την εκτίμηση μεγάλων εισοδημάτων. Στο Κεφάλαιο 1, παραθέτουμε μερικούς βασικούς ορισμούς και θεωρήματα της Μαθηματικής Στατιστικής όπου είναι αναγκαία για την ανάπτυξη της εργασίας μας. Στο Κεφάλαιο 2, αναφερόμαστε στη κατανομή Pareto, στα γενικά χαρακτηριστικά της και τη συσχέτισή της με άλλες γνωστές κατανομές. Στο Κεφάλαιο 3, μελετάμε τους εκτιμητές των παραμέτρων της κατανομή Pareto ως προς το τετραγωνικό σφάλμα κάνοντας και κάποιες συγκρίσεις μεταξύ των εκτιμητών. Στο Κεφάλαιο 4, μελετάμε τους εκτιμητές Bayes των παραμέτρων της κατανομή Pareto με συνάρτηση σφάλματος LINEX και τους συγκρίνουμε με τους εκτιμητές Bayes με τετραγωνικό σφάλμα. Στο Κεφάλαιο 5, εκτιμάμε της συνάρτηση επιβίωσης και μελετάμε τους αμερόληπτους εκτιμητές ελάχιστης διασποράς της πυκνότητας πιθανότητας και της συνάρτησης κατανομής συγκρινόντας τους, στη συνέχεια, με τους αντίστοιχους εκτιμητές μέγιστης πιθανοφάνειας. Στο Κεφάλαιο 6, παρουσιάζουμε ένα παράδειγμα για την καλύτερη κατανόηση των εκτιμήσεων μας. 6

Κεφάλαιο 1 Βασικοί Ορισμοί και Θεωρήματα Σε αυτό το κεφάλαιο θα αναφερθούμε σε ορισμένους βασικούς ορισμούς και Θεωρήματα της Μαθηματικής Στατιστικής χωρίς τις αποδείξεις τους, οι οποίες εμπεριέχονται σε βιβλία Μαθηματικής Στατιστικής. 1.1 Εισαγωγή-Αμερόληπτοι Εκτιμητές Εστω τυχαίο δείγμα X = (X 1, X 2,..., X n ) που αποτελείται από ανεξάρτητες και ισόνομες τυχαίες μεταβλητές X i, i = 1, 2,..., n, με από κοινού συνάρτηση πυκνότητας πιθανότητας f X (x; θ) που εξαρτάται από μια άγνωστη αριθμητική παράμετρο θ, η οποία ανήκει σε κάποιο σύνολο Θ. Τότε το θ λέγεται άγνωστη παράμετρος και το Θ καλείται παραμετρικός χώρος. Δύο από τα πιο συχνά εμφανιζόμενα είδη παραμέτρων είναι η παράμετρος θέσης (location parameter) και κλίμακος (scale parameter). Σκοπός μας είναι να εκτιμήσουμε μια συνάρτηση του θ, έστω g ( ) : Θ R k, με k 1 η οποία ονομάζεται παραμετρική συνάρτηση. Ο προσδιορισμός των παραμέτρων μας παρέχει πλήρη γνώση για τον τύπο της συνάρτησης για αυτό και αποτελεί έναν από τους βασικούς στόχους μας κατά την εκτέλεση μιας στατιστικής μελέτης. Ορισμός 1.1.1. Μια συνάρτηση του δείγματος με πραγματικές τιμές ή με τιμές που δεν περιέχουν την άγνωστη παράμετρο θ καλείται στατιστική συνάρτηση. 7

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ Ορισμός 1.1.2. Μια στατιστική συνάρτηση δ(x) που χρησιμοποιείται για την ε- κτίμηση της τιμής της άγνωστης παραμέτρου θ ή γενικότερα για την εκτίμηση της παραμετρικής συνάρτησης g (θ), όπου g ( ) : Θ R k, με k 1 αναφέρεται σαν εκτιμητής του θ. Ορισμός 1.1.3. Αν η τυχαία μεταβλητή Χ είναι απολύτως συνεχής και έχει πυκνότητα πιθανότητας της μορφής, f (x µ), τότε η παράμετρος μ καλείται παράμετρος θέσης. Η τιμή της καθορίζει την μετατόπιση της κατανομής. Ορισμός 1.1.4. Αν η τυχαία μεταβλητή Χ είναι απολύτως συνεχής και έχει πυκνότητα πιθανότητας της μορφής, σ 1 f ( ) x σ με σ >, τότε η παράμετρος σ καλείται παράμετρος κλίμακος. Η τιμή της καθορίζει την κλίμακα της κατανομής δηλαδή την εξάπλωση των ουρών της κατανομής. Ορισμός 1.1.5. Ο εκτιμητής T (X) ονομάζεται αμερόληπτος εκτιμητής της παραμετρικής συνάρτησης g (θ) αν και μόνο αν, E θ (T (X)) = g (θ), θ Θ. Ενα από τα πιο συνηθισμένα κριτήρια επιλογής εκτιμητών που λαμβάνεται είναι το Μέσο Τετραγωνικό Σφάλμα. Ορισμός 1.1.6. Το Μέσο Τετραγωνικό Σφάλμα (ΜΤΣ) του εκτιμητή T (X) ορίζεται από την ακόλουθη σχέση, MT Σ(T, θ) = E θ (T (X) g(θ)) 2 Πρόταση 1.1.1. Για το Μέσο Τετραγωνικό Σφάλμα του εκτιμητή T (X) ισχύει η ακόλουθη σχέση, MT Σ(T, θ) = V ar(t (X)) + E θ (T (X) g(θ)) 2 όπου E θ (T (X) g(θ)) καλείται μεροληψία (bias) του εκτιμητή T (X). Παρατήρηση 1.1.1. Αν T (X) είναι αμερόληπτος εκτιμητής της παραμετρικής συνάρτησης g(θ), δηλαδή bias(t (X)) = τότε θα ισχύει, MT Σ (T, θ) = V ar(t (X)) 8

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ Ορισμός 1.1.7. Ο εκτιμητής T 1 ονομάζεται καλύτερος από τον T 2 (ως προς το Μέσο Τετραγωνικό Σφάλμα) για την εκτίμηση της g (θ) όταν θα ισχύει η σχέση, και επιπλέον, MT Σ (T 1, θ) MT Σ (T 2, θ), θ Θ MT Σ (T 1, θ ) < MT Σ (T 2, θ ), για κάποιο θ Θ. Παρατήρηση 1.1.2. Αν ο εκτιμητής T 1 είναι καλύτερος από τον εκτιμητή T 2 (ως προς το Μέσο Τετραγωνικό Σφάλμα) για την g (θ), τότε ο εκτιμητής T 2 λέγεται μη αποδεκτός για την εκτίμηση της παραμετρικής συνάρτησης g (θ). Ορισμός 1.1.8. Ο εκτιμητής T (X ) ονομάζεται βέλτιστος εκτιμητής της g(θ) ως προς το Μέσο Τετραγωνικό Σφάλμα αν είναι καλύτερος σε σύγκριση με οποιονδήποτε άλλον εκτιμητή της παραμετρικής συνάρτησης g(θ). Πρόταση 1.1.2. Εστω X 1, X 2,..., X n τυχαίο δείγμα από μια κατανομή με συνάρτηση πυκνότητας πιθανότητας f 1 (x; θ) με θ Θ και g (θ) = µ, η μέση τιμή της n κατανομής, τότε ο δειγματικός μέσος X = n 1 X i αποτελεί αμερόληπτο εκτιμητή της μέσης τιμής μ. Πρόταση 1.1.3. Εστω X 1, X 2,..., X n τυχαίο δείγμα από μια κατανομή με συνάρτηση πυκνότητας πιθανότητας f 1 (x; θ) με θ Θ και g (θ) = σ 2, η διασπορά της n ( κατανομής τότε ο δειγματική διασπορά S 2 = n 1 1 Xi X ) 2 αποτελεί αμερόληπτο εκτιμητή της διασποράς σ 2. i=1 i=1 1.2 Συνάρτηση Ζημίας (Loss Function)- Συνάρτηση Κινδύνου (Risk Function) Γενικά η εκτίμηση της παραμετρικής παράστασης g (θ) από μια τιμή d μετριέται από την συνάρτηση ζημίας (Loss Function) L (d, θ) για την οποία ισχύουν, L (d, θ), για όλα τα θ, d και L [g (θ), θ] =, για όλα τα θ 9

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ έτσι ώστε η ζημιά να είναι μηδέν, όταν η παράμετρος εκτιμάται από τη σωστή τιμή. Ορισμός 1.2.1. Η ακρίβεια ή η μη ακρίβεια ενός εκτιμητή δ, μετριέται από την συνάρτηση κινδύνου (Risk Function) που ορίζεται ως R (δ, θ) = E θ { L [δ(x), θ]} Το Μέσο Τετραγωνικό Σφάλμα είναι μια συνάρτηση κινδύνου. Συνεπώς μπορούμε να επαναδιατυπώσουμε τους παραπάνω ορισμούς, αντικαθιστώντας το Μέσο Τετραγωνικό Σφάλμα με οποιαδήποτε συνάρτηση κινδύνου (Rick Function) R (δ, θ). Παρατήρηση 1.2.1. Υπάρχουν διάφορες συναρτήσεις ζημίας (Loss Function), οι οποίες μπορούν να χρησιμοποιηθούν ανάλογα με το περιεχόμενο κάθε προβλήματος. Ορισμένες απο αυτές είναι οι παρακάτω: Τετραγωνική συνάρτηση ζημίας (squared error loss) L (d, θ) = (d θ) 2 Συνάρτηση ζημίας απολύτου σφάλματος (Absolute error loss) L (d, θ) = d θ Συνάρτηση ζημίας LINEX (LINear EXponential) L (d, θ) = b(e α(d θ) α(d θ) 1) όπου α, b > σταθερές. 1.3 Ασύμμετρη συνάρτηση ζημίας LINEX Σε ορισμένα προβλήματα εκτιμητικής η χρήση συμμετρικής συνάρτησης ζημίας μπορεί να είναι ακατάλληλη. Υπερεκτίμηση της παραμέτρου μπορεί να οδηγήσει σε περισσότερο ή λιγότερο σοβαρές συνέπειες από την υποεκτίμηση ή το αντίστροφο. Ο Varian (1975) εισήγαγε μια πολύ χρήσιμη ασύμμετρη συνάρτηση ζημίας, την LINEX (LINear EXponential). Πρόκειται για μια κυρτή συνάρτηση η οποία αυξάνεται περίπου εκθετικά από την μία πλευρά του μηδενός και περίπου γραμμικά από την άλλη. Εστω = d θ είναι το σφάλμα εκτίμησης, όπου d ο εκτιμητής του θ. Τότε η συνάρτηση ζημίας LINEX ορίζεται ως εξής: 1

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ L( ) = b(e α α 1) όπου α, b >. Η παράμετρος α είναι αυτή που καθορίζει το σχήμα της συνάρτησης. Για α=1 η συνάρτηση είναι αρκετά ασύμμετρη με την υπερεκτίμηση να είναι πιο δαπανηρή απο την υποεκτίμηση. Από την άλλη για α=-1 η συνάρτηση παραμένει έντονα ασύμμετρη με την διαφοροποίηση ότι η υποεκτίμηση είναι πιο δαπανηρή από την υπερεκτίμηση. Οταν α < και < η συνάρτηση, αυξάνεται σχεδόν εκθετικά ενώ αν > αυξάνεται σχεδόν γραμμικά. Στην περίπτωση που α λαμβάνει πολύ μικρές τιμές η συνάρτηση ζημίας είναι σχεδόν συμμετρική και δεν διαφέρει πολύ από την τετραγωνική συνάρτηση ζημίας. Ωστόσο όταν η παράμετρος α λαμβάνει αξιόλογες τιμές, η βέλτιστη σημειακή εκτίμηση θα διαφέρει αρκετά από την εκτίμηση που θα λάβουμε με την χρήση συνάρτησης ζημίας του τετραγωνικού σφάλματος. 1.4 ΑΟΕΔ Εκτιμητές Εξαιτίας της δυσκολίας προσδιορισμού του βέλτιστου εκτιμητή στην κλάση όλων των εκτιμητών, περιοριζόμαστε αρχικά, σε αυτή των αμερόληπτων εκτιμητών. Ορισμός 1.4.1. Η στατιστική συνάρτηση T (X) θα καλείται Αμερόληπτος Εκτιμητής Ελάχιστης Διασποράς (ΑΟΕΔ) για την g(θ) εάν, Α. T (X) είναι αμερόληπτος, δηλαδή E θ T (X) = g(θ), θ Θ Β. V ar θ T (X) V ar θ (T 1 ), θ Θ και κάθε άλλο αμερόληπτο εκτιμητή του g (θ) Από τον παραπάνω ορισμό, γίνεται αντιληπτό ότι ο προσδιορισμός ΑΟΕΔ εκτιμητών έγκειται στο να ελαττώσουμε όσον το δυνατόν τη διασπορά μίας στατιστικής συνάρτησης σε σχέση με την προς εκτίμηση ποσότητα, δηλαδή είναι επιθυμητό να βρούμε ένα κάτω φράγμα για τη διασπορά των αμερόληπτων εκτιμητών αυτής της ποσότητας. Αυτό το κάτω φράγμα μας προσφέρει το Θεώρημα Cramer-Rao το οποίο ισχύει όταν επαληθεύονται οι παρακάτω συνθήκες, 11

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ Ι1. Ο παραμετρικός χώρος Θ είναι ανοικτό υποσύνολο του R Ι2. Το συνόλο S = {x ; f X (x ; ϑ) > } δεν εξαρτάται από το θ. Ι3. R n ϑ f X(x; θ)dx = ϑ f(x; θ)dx R n Ι4. T (x) R n ϑ f X(x; θ)dx = ϑ T (x)f(x; θ)dx, θ Θ, T (x) R n Ι5. Αν I(θ) = E θ ( θ lnf X (x ; θ)) 2 τότε < I(θ) <, θ Θ Η ποσότητα I(θ) ονομάζεται αριθμός ή μέτρο πληροφορίας Fisher. Θεώρημα 1.4.1. (Θεώρημα Cramer-Rao) Εστω ένα δείγμα X 1, X 2,..., X n με από κοινού συνάρτηση πυκνότητας πιθανότητας f X (x ; θ) για κάθε θ Θ. Εάν T (X ) στατιστική συνάρτηση με E θ (T (X)) = g(θ) και ισχύουν οι παραπάνω συνθήκες I1 I5 τότε η διασπορά του εκτιμητή θα παρουσιάζει το ακόλουθο κάτω φράγμα, V ar(t (X)) g (θ), θ Θ. I (θ) Το κάτω φράγμα για την διασπορά των αμερόληπτων εκτιμητών του g (θ) ονομάζεται Cramer-Rao Κάτω Φράγμα (C.R.-Κ.Φ.), ενώ για τον υπολογισμό του αριθμού πληροφορίας Fisher χρησιμοποιούμε συνήθως κάποιες βοηθητικές ιδιότητες, Α. I(θ) = E θ ( θ lnf X (x ; θ)) 2. Β. Αν το δείγμα X 1, X 2,..., X n αποτελείται από n ανεξάρτητες και τυχαίες μεταβλητές όπου η κάθε μία από τις X i ακολουθεί μια κατανομή με πυκνότητα πιθανότητας f Xi (x i ; θ) με i = 1, 2,..., n τότε I (θ) = n I i (θ) i=1 ( όπου I i (θ) = E θ θ lnf Xi (x i ; θ) ) 2. Γ. Αν το δείγμα X 1, X 2,..., X n είναι τυχαίο και με I I (θ) συμβολίσω τον αριθμό πληροφορίας του Fisher για κάθε μια από αυτές τότε, I (θ) = n I I (θ) Η δυσκολία του Θεωρήματος Cramer-Rao έγκειται στην επαλήθευση των συνθηκών 12

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ Ι1-Ι5, η οποία άρεται όταν η οικογένεια του τυχαίου διανύσματος X, ανήκει στην Μονοπαραμετρική Εκθετική Οικογένεια Κατανομών (ΜΕΟΚ). Ορισμός 1.4.2. Η οικογένεια κατανομών {f X (x; θ), θ Θ} ανήκει στη Μονοπαραμετρική Εκθετική Οικογένεια Κατανομών (ΜΕΟΚ) αν: 1. Το σύνολο S = {x; f X (x; θ) > } δεν εξαρτάται απο το Θ. 2.f X (x; θ) = e A(θ)+B(x)+c(θ)D(x) x S, θ Θ Θεώρημα 1.4.2. Αν το δείγμα X = (X 1, X 2,..., X n ) έχει κατανομή με πυκνότητα πιθανότητας f X (x; θ) η οποία ανήκει στην ΜΕΟΚ και η c(θ) (που εμφανίζεται στον τύπο της f X (x; θ)) έχει συνεχή και μη μηδενική παράγωγο θ Θ, τότε οι συνθήκες (Ι2), (Ι3) και (Ι4) του Θεωρήματος Cramer-Rao ισχύουν και η (Ι4) ισχύει για κάθε στατιστική συνάρτηση T = T (X). Η παρακάτω πρόταση δίνει ένα τρόπο εύρεσης του ΑΟΕΔ εκτιμητή, για μια παραμετρική συνάρτηση g(θ) και γραμμικούς συνδυασμούς αυτής. Πρόταση 1.4.1. Αν το δείγμα X = (X 1, X 2,..., X n ) έχει κατανομή με πυκνότητα πιθανότητας f X (x θ) η οποία ανήκει στην ΜΕΟΚ (f X (x; θ) = e A(θ)+B(x)+c(θ)D(x) ) και ισχύουν: α) Το σύνολο Θ είναι ανοιχτό υποσύνολο του R β) Το c(θ) έχει συνεχή και μη μηδενική παράγωγο θ Θ γ) < I (θ) < Τότε: 1. Η στατιστική συνάρτηση D(X) είναι ΑΟΕΔ εκτιμητής της g(θ) = E θ (D(X)) 2. Η στατιστική συνάρτηση c 1 D(X) + c 2, με c 1, c 2 σταθερές και c 1 είναι ΑΟΕΔ εκτιμητής της c 1 g(θ) + c 2 Ισχύει επίσης η παρακάτω πρόταση: Πρόταση 1.4.2. Εστω ότι ισχύουν οι συνθήκες (Ι1), (Ι2), (Ι3) και (Ι5) του Θεωρήματος Cramer-Rao και η (Ι4) ισχύει για κάποια στατιστική συνάρτηση T (X), αμερόληπτο εκτιμητή του g(θ). Εστω ακόμα, η g(θ) να μην είναι σταθερά (σαν συ- 13

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ νάρτηση του θ) και η T (X ) επιτυγχάνει το C-R.- Κ.Φ., δηλαδή V ar θ (T (X )) = g (θ) I (θ), θ Θ τότε, f X (x; θ) = e A(θ)+B(x)+c(θ)T (x) x S, θ Θ, δηλαδή η κατανομή του δείγματος X ανήκει στην ΜΕΟΚ. Παρατήρηση 1.4.1. Οι Προτάσεις 1.4.1 και 1.4.2. συνεπάγονται το γεγονός ότι η εύρεση του εκτιμητή για κάποια παραμετρική συνάρτηση g(θ) είναι δυνατή με τη χρήση του Θεωρήματος Cramer-Rao αν και μόνο αν η κατανομή του δείγματος X = (X 1, X 2,..., X n ) ανήκει στη ΜΕΟΚ και η g(θ) έχει μια συγκεκριμένη μορφή g(θ) = E θ (D(X)) ή κάποιος γραμμικός μετασχηματισμός της E θ (D(X)) Απο την παραπάνω παρατήρηση γίνεται αντιληπτό ότι η μέθοδος εύρεσης ΑΟΕΔ εκτιμητή με την χρήση του Θεωρήματος Cramer-Rao μας περιορίζει τόσο ως προς την οικογένεια του δείγματος, όσο και ως προς την μορφή των παραμετρικών συναρτήσεων για τις οποίες βρίσκουμε ΑΟΕΔ εκτιμητές, συνεπώς απαιτείται μια μέθοδος διαφορετική απο την προηγούμενη η οποία να μην παρουσιάζει τέτοιου είδους προβλήματα. Αρχικά εισάγουμε τις έννοιες της επάρκειας και της πληρότητας προς αυτή την κατεύθυνση. 1.5 Επάρκεια Ορισμός 1.5.1. Εστω το δείγμα X = (X 1, X 2,..., X n ) έχει κατανομή με πυκνότητα πιθανότητας f X (x; θ), θ Θ, τότε η στατιστική συνάρτηση T = T (X) θα καλείται επαρκής αν η δεσμευμένη κατανομή του X δοθέντος ότι T = t δεν εξαρτάται από το θ, για κάθε δυνατή τιμή t του T για την οποία μπορεί να οριστεί η δεσμευμένη κατανομή. Ενας τρόπος εύρεσης μιας επαρκούς στατιστικής συνάρτησης, εκτός του ορισμού, δίνεται από την παρακάτω πρόταση, η οποία αναφέρεται και ως παραγοντικό κριτήριο των Neyman-Fisher. 14

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ Θεώρημα 1.5.1. (Παραγοντικό Κριτήριο Neyman-Fisher). Η στατιστική συνάρτηση T = T (X ) είναι επαρκής αν και μόνο αν f X (x ; θ) = q(t (X ); θ)h(x ) x και θ Θ όπου q και h είναι συναρτήσεις. Παρατήρηση 1.5.1. Ισχύουν οι παρακάτω ιδιότητες για τις επαρκείς στατιστικές συναρτήσεις: 1) Το δείγμα X = (X 1, X 2,..., X n ) είναι τετριμμένα επαρκής στατιστική συνάρτηση. 2) Η στατιστική συνάρτηση T (X) = (X (1), X (2),..., X (n) ), είναι επαρκής, όπου X (i), i = 1, 2,..., n είναι οι διατεταγμένες παρατηρήσεις. 3) Εστω T 1 = T 1 (X) έιναι επαρκής στατιστική συνάρτηση και T 2 = K(T 1 (X)), όπου K(.) είναι 1 1 συνάρτηση, τότε η T 2 (X) έιναι επαρκής. Συνήθως όταν μιλάμε για επαρκή στατιστική συνάρτηση αναφερόμαστε στην ελάχιστη επαρκή. Ορισμός 1.5.2. Ελάχιστη επαρκής στατιστική συνάρτηση είναι μια επαρκής στατιστική συνάρτηση, η οποία προέρχεται από την μεγαλύτερη δυνατή σύμπτηξη (δηλαδή έχει την μικρότερη δυνατή διάσταση). Παρατήρηση 1.5.2. Σχεδόν πάντα, η διάσταση της παραμετρικής συνάρτησης g(θ) συμπίπτει με την διάσταση της ελάχιστης επαρκούς στατιστικής συνάρτησης. Θεώρημα 1.5.2. (Rao-Blackwell) Εστω T = T (X) μια επαρκής στατιστική συνάρτηση και S = S(X) είναι εκτιμητής της παραμετρικής συνάρτησης g(θ). Θέτουμε S = E θ (S T ). Τότε 1) Η S είναι στατιστική συνάρτηση. 2) E θ (S ) = E θ (S), θ Θ, έτσι αν S είναι αμερόληπτος εκτιμητής για την g(θ), τότε S είναι αμερόληπτος εκτιμητής για την g(θ). 3) V ar θ (S ) V ar θ (S), θ Θ και ισχύει αυστηρή ανισότητα, εκτός αν S είναι συνάρτηση της στατιστικής συνάρτησης T, οπότε S = S. 4) MT Σ(S, θ) MT Σ(S, θ), θ Θ και ισχύει αυστηρή ανισότητα, εκτός αν S είναι συνάρτηση της στατιστικής συνάρτησης T, οπότε S = S. 15

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ Επομένως, αν S είναι ένας εκτιμητής της g(θ) ο οποίος δεν είναι συνάρτηση της ε- παρκούς στατιστικής συνάρτησης T, τότε ο S είναι μη αποδεκτός και βελτιώνεται από τον S = E θ (S T ) που ονομάζεται βελτίωση του S κατα Rao-Blackwell ή Rao- Blackwell βελτίωση του S. Παρατήρηση 1.5.3. Εστω T 1, T 2 είναι επαρκείς στατιστικές συναρτήσεις και S είναι αμερόληπτος εκτιμητής της g(θ). Τότε S1 = E θ(s T 1 ) είναι η Rao-Blackwell βελτίωση του S μέσω της T 1 και S2 = E θ(s T 2 ) είναι η Rao-Blackwell βελτίωση του S μέσω της T 2. Ομως μέσω του Θεωρήματος 1.4.2. δεν μπορούμε να συγκρίνουμε αυτές τις δύο βελτιώσεις. Η έννοια της πληρότητας θα βοηθήσει σε αυτή την σύγκριση. 1.6 Πληρότητα Ορισμός 1.6.1. Η στατιστική συνάρτηση T = T (X) θα καλείται πλήρης αν για κάθε θ Θ ισχύει η ακόλουθη σχέση, E θ (φ(t )) = φ(t) = για κάθε δυνατή τιμή t της T δηλαδή φ(t ) = Θεώρημα 1.6.1. (Lehmann-Scheffe) Εστω T = T (X) είναι επαρκής και πλήρης στατιστική συνάρτηση και S είναι ένας αμερόληπτος εκτιμητής του g(θ). Τότε S = E θ (S T ) είναι μοναδικός ΑΟΕΔ εκτιμητής της g(θ). Άρα με την βοήθεια του Θεωρήματος Lehmann-Scheffe μπορούμε να βρούμε ΑΟΕΔ εκτιμητή με την χρήση επαρκούς και πλήρους στατιστικής συνάρτησης, και μάλιστα αν υπάρχει αυτός ο ΑΟΕΔ εκτιμητής, είναι μοναδικός. Πόρισμα 1.6.1. (Lehmann-Scheffe) Εστω T = T (X) είναι επαρκής και πλήρης στατιστική συνάρτηση και S είναι ένας αμερόληπτος εκτιμητής της g(θ), ο οποίος είναι συνάρτηση της επαρκούς και πλήρους T. Τότε S είναι ο μοναδικός ΑΟΕΔ εκτιμητής της g(θ). Οπως καταλαβαίνουμε, σε αυτή την μεθοδολογία είναι σημαντική η εύρεση μιας ε- παρκούς και πλήρους στατιστικής συνάρτησης και μέσω του ορισμού δεν είναι πάντα 16

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ εύκολο, αλλά αν η κατανομή του δείγματος X ανήκει στην Πολυπαραμετρική Εκθετική Οικογένεια Κατανομών (ΠΕΟΚ) τα πράγματα απλοποιούνται. Ορισμός 1.6.2. Η οικογένεια κατανομών {f X (x ; θ), θ Θ} ανήκει στη Πολυπαραμετρική Εκθετική Οικογένεια Κατανομών (ΠΕΟΚ) διάστασης k αν: 1. Το σύνολο S = {x; f X (x ; θ) > } δεν εξαρτάται απο το θ. 2. f X (x ; θ) = e A(θ)+B(x )+ k j=1 c jd j (x ) x S, θ Θ. Παρατήρηση 1.6.1. Η ΠΕΟΚ διάστασης 1 συμπίπτει με την ΜΕΟΚ. Πρόταση 1.6.1. Εστω ότι το δείγμα X = (X 1, X 2,..., X n ) έχει κατανομή η οποία ανήκει στην ΠΕΟΚ διάστασης k, τότε ισχύουν τα εξής: 1. Η στατιστική συνάρτηση T (X ) = (D 1 (X ), D 2 (X ),..., D k (X )) είναι επαρκής. 2. Αν το πεδίο τιμών του διανύσματος (c 1 (θ), c 2 (θ),..., c k (θ)) περιέχει ανοιχτό υποσύνολο του R k, τότε T (X ) είναι πλήρης. Το παρακάτω θεώρημα, γνωστό και ως Θεώρημα Basu, πιστοποιεί και άλλη μια χρήση της επάρκειας και της πληρότητας, αυτής της απόδειξης ανεξαρτησίας μεταξύ στατιστικών συναρτήσεων (δηλαδή τυχαίων μεταβλητών). Θεώρημα 1.6.2. (Basu) Εστω T (X) επαρκής και πλήρης στατιστική συνάρτηση και S(X) είναι μια άλλη στατιστική συνάρτηση, η κατανομή της οποίας δεν εξαρτάται απο το θ, τότε οι στατιστικές συναρτήσεις T (X) και S(X) είναι ανεξάρτητες. 1.7 Συνέπεια Ορισμός 1.7.1. Εστω T n = T (X 1, X 2,..., X n ), n = 1, 2,... ένας εκτιμητής της παραμετρικής συνάρτησης g(θ). Τότε ο εκτιμητής T n ονομάζεται συνεπής αν: lim P ( T n g(θ) > ε) =, ε >. n Η παρακάτω πρόταση δίνει ικανές συνθήκες έτσι ώστε ένας εκτιμητής για την g(θ) να είναι συνεπής. 17

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ Πρόταση 1.7.1. Εστω ότι ο εκτιμητής T n ικανοποιεί τις παρακάτω συνθήκες: 1. V ar θ T n, n 2. b(t n, θ) = E θ T n g(θ), n Τότε ο T n είναι συνεπής εκτιμητής της παραμετρικής συνάρτησης g(θ). 1.8 Εκτίμηση με την μέθοδο Μέγιστης Πιθανοφάνειας Ορισμός 1.8.1. Θεωρούμε το δείγμα X = (X 1, X 2,..., X n ) με συνάρτηση πυκνότητας πιθανότητας f X (x; θ) τότε η συνάρτηση πιθανοφάνειας (ή απλά πιθανοφάνεια) του θ ορίζεται από τη σχέση, L (θ) = L(θ x) = f X (x; θ) Ορισμός 1.8.2. Ο εκτιμητής θ = θ(x ) που ικανοποιεί τη σχέση, L( θ) = supθ Θ L (θ) ονομάζεται Εκτιμητής Μεγίστης Πιθανοφάνειας (Ε.Μ.Π.) του θ. Παρατήρηση 1.8.1. Από τον παραπάνω ορισμό φαίνεται ότι ο ΕΜΠ του θ είναι εκείνη η τιμή του θ η οποία μεγιστοποιεί τη συνάρτηση πιθανοφάνειας. Επειδή η συνάρτηση ln x είναι γνησίως αύξουσα συνάρτηση του x, η τιμή του θ που μεγιστοποιεί την L (θ) είναι η ίδια με αυτήν που μεγιστοποιεί την lnl (θ). Συνήθως ακολουθούμε αυτήν την διαδικασία όταν το μέγιστο μπορεί να βρεθεί με παραγώγιση. Παρατήρηση 1.8.2. 1. Η μέθοδος Μέγιστης Πιθανοφάνειας ισχύει και για το διάνυσμα θ = (θ 1, θ 2,..., θ k ) 2. Είναι δυνατόν ο εκτιμητής θ να μην μπορεί να βρεθεί σε αναλυτική μορφή, τότε η τιμή του θ για την οποία επιτυγχάνεται η μεγιστοποίηση της L (θ) βρίσκεται με μεθόδους αριθμητικής ανάλυσης. 3. Ορισμένες φορές υπάρχουν παθολογικές καταστάσεις με την έννοια ότι είτε δεν υπάρχει τιμή του θ η οποία να μεγιστοποιεί τη συνάρτηση πιθανοφάνειας, είτε υπάρχουν περισσότερα μέγιστα για την L (θ) και συνεπώς περισσότεροι του ενός Ε.Μ.Π. Παρατήρηση 1.8.3. Σε αυτό το σημείο θα αναφέρουμε ορισμένες ιδιότητες των Ε.Μ.Π. 18

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ 1. Από τον ορισμό 1.7.2. προκύπτει ότι ο Ε.Μ.Π. (αν υπάρχει) παίρνει τιμές μέσα στον παραμετρικό χώρο Θ. 2. Αν ο Ε.Μ.Π. του θ είναι μοναδικός, τότε είναι συνάρτηση της επαρκούς στατιστικής συνάρτησης. 3. Αν θ = θ (X) είναι Ε.Μ.Π. του θ, τότε ο Ε.Μ.Π. της παραμετρικής συνάρτησης g(θ) είναι ο g( θ) 4. Οι Ε.Μ.Π. είναι (υπό ορισμένες συνθήκες) συνεπείς εκτιμητές. Παρατήρηση 1.8.4. Οι Ε.Μ.Π. έχουν (υπο ορισμένες συνθήκες) κάποιες ασυμπτωτικές ιδιότητες. Αν X 1, X 2,...X n ένα τυχαίο δείγμα απο κατανομή με πυκνότητα πιθανότητας f 1 (x; θ) και συμβολίζουμε με θ τον Ε.Μ.Π. του θ, τότε 1. Η κατανομή του θ είναι κατά προσέγγιση (n ) κανονική κατανομή, δηλαδή θ N ( θ, ) 1 I (θ) όπου I (θ) ο αριθμός πληροφορίας του Fisher. 2. Ο θ είναι ασυμπτωτικά αποτελεσματικός εκτιμητής, αν κάποιος άλλος εκτιμητής του θ, έστω s n, έχει κατά προσέγγιση κανονική κατανομή N(θ 2, σ 2 (θ)), τότε σ 2 θ (θ) 1 I(θ). Οι παραπάνω ιδιότητες των Ε.Μ.Π. συνεπάγονται ότι θ είναι ασυμπτωτικά ΑΟΕΔ για το θ, δηλαδή αν υπάρχουν ΑΟΕΔ και Ε.Μ.Π. για κάποια g(θ), τότε αυτοί δεν διαφέρουν ασυμπτωτικά. 1.9 Εκτιμητές Bayes Η εκτίμηση κατά Bayes γίνεται από μια διαφορετική σκοπιά σε σχέση με το τι έχουμε αντιμετωπίσει μέχρι τώρα, που αντιλαμβανόμασταν το θ απλά σαν ένα πραγματικό αριθμό χωρίς καμία ιδιότητα. Αν π.χ. θεωρήσουμε μια βιομηχανία η οποία παράγει ηλεκτρικούς λαμπτήρες, τότε ο χρόνος αυτών των λαμπτήρων ακολουθεί εκθετική κατανομή με άγνωστη παράμετρο θ που εκφράζει τον μέσο χρόνο ζωής των λαμπτήρων. Επομένως, δεν πρέπει να αναμένουμε μεγάλες τιμές για το θ αλλά ούτε και μικρές. 19

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ Δηλαδή σε σχέση με το πρόβλημα και την εμπειρία που διαθέτουμε πρέπει να δώσουμε διαφορετική βαρύτητα στις διάφορες τιμές του θ για να εκμεταλλευτούμε αυτή την εμπειρία ώστε να δώσουμε καλύτερη εκτίμηση για το θ. Οπότε θεωρούμε το θ σαν μια τυχαία μεταβλητή με πυκνότητα πιθανότητας π(θ), θ Θ και τις εξής ιδιότητες (i)π(θ), θ Θ και (ii) π(θ)dθ = 1 ή ( π(θ) = 1). Θ Η συνάρτηση π(θ) ονομάζεται εκ των προτέρων κατανομή του θ και εκφράζει είτε την προσωπική μας αντίληψη για την πιθανή τιμή του θ είτε συνοψίζει κάποιες εκ των προτέρων (δηλαδή πριν την συλλογή των δεδομένων) πληροφορίες για το θ. Θεωρούμε μια συνάρτηση ζημίας L(t, θ) και προσπαθούμε να ελαχιστοποιήσουμε την συνάρτηση κινδύνου R(T, θ) = E θ (L(T (X ), θ)). Επειδή έχουμε θεωρήσει ότι το θ είναι μια τυχαία μεταβλητή, προφανώς, η συνάρτηση κινδύνου είναι και αυτή μια τυχαία μεταβλητή, επομένως είναι λογικό σε αυτή την περίπτωση, να προσπαθούμε να ελαχιστοποιήσουμε την μέση τιμή της, δηλαδή BR(T ) = E(R(T, θ)) = θ R(T, θ)π(θ)dθ Θ η οποία ονομάζεται κίνδυνος Bayes του εκτιμητή T. Συνεπώς, βέλτιστος εκτιμητής είναι αυτός που ελαχιστοποιεί τον κίνδυνο Bayes, οπότε καταλήγουμε στον εξής ορισμό για τον εκτιμητή Bayes. Ορισμός 1.9.1. Ο εκτιμητής T = T (X ) ονομάζεται εκτιμητής Bayes του g(θ), ως προς την συνάρτηση ζημίας L(t, θ) και την εκ των προτέρων κατανομη π(θ), αν R(T, θ)π(θ)dθ Θ R(T, θ)π(θ)dθ Θ για κάθε εκτιμητή T = T (X ). Συνήθως, για να υπολογίσουμε αυτό τον εκτιμητή Bayes πρέπει να βρούμε πρώτα την εκ των υστέρων κατανομή του θ 2

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ π(θ x ) = f(x ; θ)π(θ) f(x ) όπου f(x) = Θ f(x ; θ)π(θ)dθ. Η εκ των υστέρων κατανομή συνοψίζει την πληροφορία για το θ μετά την συλλογή των δεδομένων και έχει τις ιδιότητες της συνάρτησης πυκνότητας πιθανότητας. Παρατήρηση 1.9.1. Είναι σημαντικό να τονίσουμε σε αυτό το σημείο ότι δεν μας ενδιαφέρει ιδιαίτερα η ακριβής συνάρτηση π(θ x ), αλλά η μορφή της εκ των υστέρων κατανομής, για την οποία διαπιστώνουμε, συνήθως, ότι ακολουθεί κάποια απο τις γνωστές κατανομές. Στο επόμενο θεώρημα δίνεται ένας διαφορετικός τρόπος υπολογισμού του εκτιμητή Bayes. Θεώρημα 1.9.1. Για X = x ο εκτιμητής Bayes T = T (X ) της παραμετρικής συνάρτησης g(θ) ως προς την συνάρτηση ζημίας L(t, θ) και την εκ των προτέρων κατανομή π(θ) έχει τιμή T (x ) = t, όπου t είναι η τιμή του t που ελαχιστοποιεί την συνάρτηση h (t) = L(t, θ)π(θ x)dθ. Θ Αν επιπλέον, η συνάρτηση ζημίας είναι το τετραγωνικό σφάλμα, δηλαδή L(t, θ) = (t g(θ)) 2 τότε η εύρεση του εκτιμητή Bayes, γίνεται πιο απλά όπως φαίνεται στο παρακάτω Θεώρημα. Θεώρημα 1.9.2. Εστω ότι η συνάρτηση ζημίας για την εκτίμηση του g(θ) είναι το τετραγωνικό σφάλμα L(t, θ) = (t g(θ)) 2. Τότε για X = x ο εκτιμητής Bayes T = T (X ) της παραμετρικής συνάρτησης g(θ) έχει τιμή T (x ) = E θ (g(y )), όπου U είναι μια τυχαία μεταβλητή με κατανομή την εκ των υστέρων π(θ x ). Θεώρημα 1.9.3. Εστω ότι η συνάρτηση ζημίας για την εκτίμηση του g(θ) είναι η συνάρτηση ζημίας LINEX L(t, θ) = b{e α(t g(θ)) α(t g(θ)) 1}.Τότε για X = x ο εκτιμητής Bayes T = T (X ) της παραμετρικής συνάρτησης g(θ) έχει τιμή T (x ) = 21

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ 1 α ln Ee αg(y ), όπου U είναι μια τυχαία μεταβλητή με κατανομή την εκ των υστέρων π(θ x ). Απόδειξη. Η τιμή t του Bayes ελαχιστοποιεί την h(t), όπου h(t) = L(t, θ)π(θ x)dθ = (e α(t g(θ)) α(t g(θ)) 1)π(θ x)dθ h (t ) = t = 1 α ln e αg(θ) π(θ x )dθ = 1 α ln Ee αg(y ) όπου U είναι μια τυχαία μεταβλητή με κατανομή την εκ των υστέρων π(θ x ). Ορισμός 1.9.2. Εστω ένα τυχαίο δείγμα X 1, X 2,..., X n N(θ, σ 2 ) με Θ = (, + ). Αν π(θ) = c (δηλαδή δίνουμε ίση πιθανότητα για όλες τις τιμές του θ να συμβούν), τότε π(θ)dθ = cdθ = + Η π(θ) ονομάζεται improper prior και έχει τις ακόλουθες ιδιότητες (i)π(θ), θ Θ και (ii) π(θ)dθ = + ή ( π(θ) = + ) Θ θ Οι εκτιμητές Bayes που βασίζονται στις improper priors (ή non-informative priors) ονομάζονται γενικευμένοι εκτιμητές Bayes. 1.1 Αναλλοίωτο Πρόβλημα Εκτίμησης Θεωρούμε μια τυχαία μεταβλητή X η οποία παίρνει τιμές σε ένα δειγματικό χώρο X, σύμφωνα με μια πυκνότητα πιθανότητας απο την οικογένεια κατανομών P = {P θ, Θ} (1.1) Ορίζουμε σαν E μια κλάση 1-1 μετασχηματισμών g : X X. 22

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ Ορισμός 1.1.1. (i) Εστω g : X X είναι 1-1 μετασχηματισμός. Αν επίσης για κάθε θ Θ, η κατανομή της τυχαίας μεταβλητής X = g(x) είναι μέλος της κλάσης P, έστω P θ, όπου θ Θ, τότε η οικογένεια κατανομών της Σχέσης (1.1) ονομάζεται αναλλοίωτη ως προς τον μετασχηματισμο g. (ii) Αν η (i) ισχύει για κάθε μέλος της κλάσης των μετασχηματισμών E, τότε η οικογένεια κατανομών P είναι αναλλοίωτη ως προς την E. Παρατήρηση 1.1.1. Μια κλάση μετασχηματισμών, η οποία αφήνει μια οικογένεια κατανομών αναλλοίωτη μπορεί πάντα να θεωρηθεί ότι είναι μια ομάδα G = G(E) η οποία γεννιέται απο την κλάση E. Εστω {g(x), g G} είναι μια ομάδα μετασχηματισμών του δειγματικού χώρου, η οποία αφήνει την οικογένεια κατανομών αναλλλοίωτη. Αν η τ.μ. g(x) έχει κατανομή P θ, τότε θ = ḡ(θ) είναι μια συνάρτηση ḡ : Θ Θ και ο μετασχηματισμός ḡ(θ) είναι 1-1, δεδομένου ότι οι κατανομές P θ, θ Θ είναι διαφορετικές. Επιπλέον οι μετασχηματισμοί ḡ δημιουργούν μια ομάδα μετασχηματισμών, η οποία θα αναφέρεται ως τον ορισμό της ḡ(θ), έπεται ότι, Ḡ. Απο P θ (g(x) A) = Pḡ(θ) (g(x) A) (1.2) Θεωρούμε το γενικό πρόβλημα εκτίμησης μιας παραμετρικής συνάρτησης τ(θ) στην οικογένεια κατανομών (1.1), η οποία θεωρείται αναλλοίωτη ως προς τους μετασχηματισμούς, X = g(x), θ = ḡ(θ), g G Μια επιπλέον συνθήκη που απαιτείται είναι ότι για κάθε ḡ, η τ(ḡ(θ)) εξαρτάται απο το Θ, μόνο μέσω της τ(θ), δηλαδή ισχύει ότι, τ(θ 1 ) = τ(θ 2 ) τ(ḡ(θ 1 )) = τ(ḡ(θ 2 )). (1.3) Η κοινή τιμή του τ(ḡ(θ)), για όλα τα θ για τα οποία η τ(.) παίρνει την ίδια τιμή θα 23

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ ορίζεται απο την σχέση, g(τ(θ)) = τ(ḡ(θ)). (1.4) Αν H είναι το σύνολο των τιμών της τ(θ), θ Θ, οι μετασχηματισμοί g : H H δημιουργούν μια ομάδα μετασχηματισμών G. Η εκτιμώμενη τιμή d της τ(θ), όταν εκφραστεί στις καινούργιες συντεταγμένες γίνεται, d = g(d). (1.5) Αφού τα προβλήματα εκτίμησης είτε της τ(θ) σε σχέση με την τριάδα (X, θ, d), είτε της τ(θ ) σε σχέση με την τριάδα (X, θ, d ), αναπαριστά την ίδια φυσική κατάσταση εκφρασμένη σε καινούργιο σύστημα συντεταγμένων, η συνάρτηση ζημίας θα πρέπει να ικανοποιεί την σχέση L(d, θ ) = L(d, θ). Ορισμός 1.1.2. Αν η οικογένεια κατανομών (1.1) είναι αναλλοίωτη ως προς την g, η συνάρτηση ζημίας L(.,.) ικανοποιεί την σχέση L( g(d), ḡ(θ)) = L(d, θ) (1.6) και η τ(θ) ικανοποιεί την Σχέση (1.3), τότε το πρόβλημα εκτίμησης της τ(θ) με συνάρτηση ζημίας L(.,.) είναι αναλλοίωτο ως προς την g. Ορισμός 1.1.3. Σε ένα αναλλοίωτο πρόβλημα εκτίμησης ένας εκτιμητής δ(x) ονομάζεται αναλλοίωτος (equivariant) αν δ(g(x)) = g(δ(x)), g G 24

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ 1.11 Μετασχηματισμοί Τυχαίων Μεταβλητών Πρόταση 1.11.1. Εστω Q και U δύο τυχαίες μεταβλητές με από κοινού συνάρτηση πυκνότητας f(x, y) και g(x, y),h(x, y) δύο πραγματικές συναρτήσεις δύο μεταβλητών, τέτοιες ώστε, α) Για κάθε u,v, το σύστημα δύο εξισώσεων με δύο αγνώστους g(x, y) = u h(x, y) = v έχει μοναδική λύση ως προς x, y, την οποία συμβολίζουμε με x = g (u, v) y = h (u, v) β) Οι συναρτήσεις g (u, v), y = h (u, v) έχουν συνεχείς μερικές παραγώγους ως προς u,v και για την ορίζουσα του μετασχηματισμού g (u,v) J = u h (u,v) u g (u,v) v h (u,v) v ισχύει ότι η J είναι διάφορη του μηδενός για κάθε u,v. Τότε η από κοινού συνάρτηση πυκνότητας των τυχαίων μεταβλητών U,V θα δίνεται από τον τύπο, f U,V (u, v) = f(g (u, v), h (u, v)) J. 1.12 Power Function Κατανομή Ορισμός 1.12.1. Η τυχαία μεταβλητή Χ ακολουθεί την Power Function κατανομή, συμβολικά X P F (c, b), αν η συνάρτηση πυκνότητας της δίνεται από τη σχέση, c b f X (x) = c x c 1, αν < x b, b >, c >, διαφορετικά Παρατήρηση 1.12.1. Αν η τυχαία μεταβλητή X P F (c, b) τότε, E(X) = cb c+1 25

ΚΕΦ ΑΛΑΙΟ 1. ΒΑΣΙΚΟ Ι ΟΡΙΣΜΟ Ι ΚΑΙ ΘΕΩΡ ΗΜΑΤΑ 1.13 Feller-Pareto Κατανομή Ορισμός 1.13.1. Η τυχαία μεταβλητή Χ ακολουθεί την Feller-Pareto κατανομή, συμβολικά X F P (µ, σ, γ, γ 1, γ 2 ), αν η συνάρτηση πυκνότητας της δίνεται από τη σχέση, f X (x) = Γ(γ 1 + γ 2 ) Γ(γ 1 )Γ(γ 2 ) όπου x > µ,γ 1, γ 2 >,µ R.σ >,γ >. ( x µ σ ) γ 2 γ 1 γσ[1 + ( x µ σ ) 1 γ ] γ 1+γ 2 26

Κεφάλαιο 2 Εισαγωγή στην κατανομή Pareto 2.1 Κατανομή Pareto τύπου Ι Η κατανομή Pareto, που πρώτος την εισήγαγε ο Pareto το 1897 (όπως αναφέρεται στο Arnold, 28) χρησιμοποιείται ως μοντέλο για την κατανομή του εισοδήματος. Πιο συγκεκριμένα ο Pareto παρατήρησε ότι η κατανομή αυτή έδειχνε να είναι πιο κατάλληλη για μεγάλα εισοδήματα, δηλαδή για x μεγαλύτερα από ένα δεδομένο κατώφλι. Ορισμός 2.1.1. Η τυχαία μεταβλητή X ακολουθεί την κατανομή Pareto τύπου Ι, συμβολίκα X P (I)(a, σ),αν η συνάρτηση επιβίωσης (survival function) της δίνεται από τη σχέση, 1 ( ) x a σ, αν x > σ F X (x) = 1 F X (x) =, διαφορετικά και η συνάρτηση πυκνότητας πιθανότητας της είναι, aσ a, αν x > σ x f X (x) = a+1, διαφορετικά όπου a >, σ >. 27

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO Παρατήρηση 2.1.1. Η παράμετρος α περιγράφει το βαθμό συμπύκνωσης της κατανομής.δηλαδή, όσο πιο μικρό το α τόσο βαρύτερη η ουρά της κατανομής. Η παράμετρος α είναι παράμετρος σχήματος (shape parameter) και η σ είναι παράμετρος κλίμακας (scale parameter). (α) (β) Σχήμα 2.1: (α)η συνάρτηση κατανομής της Pareto(Ι) για διάφορες τιμές του σ (β)η πυκνότητα πιθανότητας της κατανομής Pareto(Ι) για διάφορες τιμές του σ. Παρατήρηση 2.1.2. Αν η τυχαία μεταβλητή X P (I)(a, σ) τότε, E(X) = aσ a 1 και V ar(x) = ( ) σ 2 a a 1 a 2. Πρόταση 2.1.1. Αν X 1, X 2,..., X n ανεξάρτητες και ισόνομες τυχαίες μεταβλητές που ακολουθούν P (I)(a, σ i ) και Y = n i=1 X i, τότε η πυκνότητα πιθανότητας της τυχαία μεταβλητής Y είναι, f Y (y) = an (log y σ )n 1 ( y σ ) a 1 y Γ(n) I(y > σ), όπου σ = n i=1 σ i. Απόδειξη. θέτουμε u i = log x i σ x i = e u i+log σ, i = 1,..., n γνωρίζουμε ότι U i E( a 1) U i Gamma(1, a 1 ), i = 1,..., n οπότε η τυχαία μεταβλητή Z = n i=1 U i Gamma(n, a 1 ), από αναπαραγωγικές ιδιότητες, άρα f Z (z) = zn 1 e az Γ(n)(. a 1 )n Παρατηρούμε ότι αν Y = n i=1 X i = e n i=1 Ui+nlogσ = e Z+nlogσ, δηλαδή η τυχαία 28

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO μεταβλητή Z = log Y σ n, συνεπώς από το θεώρημα του αντίστροφου μετασχηματισμού f Y (y) = f Z (g 1 (y)) g 1 (y) y = an (log y σ )n 1 ( y σ ) a 1 y Γ(n) και αφού i = 1,..., n x i > σ έπεται ότι y = n i=1 x i > n i=1 σ i = σ. Θεώρημα 2.1.1. Εστω X 1, X 2,..., X n ανεξάρτητες και ισόνομες τυχαίες μεταβλητές που ακολουθούν κατανομή P (I)(a, σ). Τότε ο δειγματικός γεωμετρικός μέσος g είναι επαρκές στατιστικό για το α, με σ άγνωστό. Απόδειξη. Θέτουμε U = logx 1 + logx 2 +... + logx n = log n i=1 X i = logy όπου Y = n i=1 X i Από Πρόταση 2.1.1 και από το θεώρημα του αντίστροφου μετασχηματισμού έχουμε ότι, f U (u) = f Y (g 1 (u)) g 1 (u) u = an (u nlogσ) n 1 ( eu a Γ(n) σ ) 1 n e u e u = a n Γ(n) (u nlogσ)n 1 e a(u nlogσ) όπου u nlogσ > Τότε η από κοινού πυκνότητα πιθανότητας των X 1, X 2,..., X n είναι, f X (x; a) = a n σ na x a 1 1...x a 1 n = [ an Γ(n) (u nlogσ)n 1 e a(u nlogσ) [ = q(u; a)h(x 1,..., x n ) συνεπώς από το παραγοντικό κριτήριο Neyman-Fisher έχουμε ότι το Γ(n) (u nlogσ) n 1 x 1...x n ] U = logx 1 + logx 2 +... + logx n είναι επαρκές στατιστικό για το α με σ άγνωστο και αφού ο δειγματικός γεωμετρικός μέσος είναι συνάρτηση του U τότε είναι και αυτός επαρκές στατιστικό για το α με σ άγνωστο. Θεώρημα 2.1.2. Εστω X 1, X 2,..., X n ανεξάρτητες και ισόνομες τυχαίες μεταβλητές που ακολουθούν κατανομή P (I)(a, σ). Τότε το X (1) = min{x 1,..., X n } είναι επαρκές στατιστικό για το σ, με α άγνωστο. Απόδειξη. Η πυκνότητα πιθανότητας για το X (1) είναι f X(1) (x (1) ) = naσ an x an 1 (1) Τότε η από κοινού πυκνότητα πιθανότητας των X 1, X 2,..., X n είναι, f X (x; σ) = a n σ na x a 1 1...x a 1 n = [naσ na x na 1 ][ 1 (1) n an 1 (x 1 x 2...x n ) a 1 x na+1 ] (1) = q(x (1) ; σ)h(x 1,..., x n ) Συνεπώς από το παραγοντικό κριτήριο Neyman-Fisher έχουμε ότι το X (1) είναι επαρκές στατιστικό του σ, με α άγνωστο. 29

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO Θεώρημα 2.1.3. Εστω X 1, X 2,..., X n ανεξάρτητες και ισόνομες τυχαίες μεταβλητές που ακολουθούν κατανομή P (I)(a, σ). κοινού επαρκές στατιστικό για το (a, σ). Τότε το ( n i=1 log X (i) X (1), X (1) ) είναι από Απόδειξη. Η πυκνότητα πιθανότητας για το Z = n i=1 log X (i) X (1) f Z (z) = an 1 Γ(n 1) zn 2 e az, z > Τότε η πιθανοφάνεια του δείγματος μπορεί να γραφεί ως, είναι, L = a n σ na x a 1...x a 1 = [ an 1 (1) (n) Γ(n 1) zn 2 e az ][naσ na x na 1 ]h(x (1) (1),..., x (1) ) = q(z, x (1) ; a, σ)h(x 1,..., x n ) Συνεπώς από το παραγοντικό κριτήριο Neyman-Fisher έχουμε ότι το ( n i=1 log X (i) X (1), X (1) ) είναι από κοινού επαρκές στατιστικό για το (a, σ). Θεώρημα 2.1.4. Εστω X 1, X 2,..., X n ανεξάρτητες και ισόνομες τυχαίες μεταβλητές που ακολουθούν κατανομή P (I)(a, σ). Εστω X (i), i = 1,..., n οι ταξινομημένες μεταβλητές του τυχαίου δείγματος. Τότε η Z = n i=1 log X (i) X (1) είναι στοχαστικά ανεξάρτητη του επαρκούς στατιστικού X (1). Απόδειξη. Η Z είναι μοναδικά ορισμένη από τις ροπές που παράγονται από τη συνάρτηση M z (t). Για να καθιερώσουμε την ανεξαρτησία των Z και X (1) πρέπει να δείξουμε ότι η M z (t) δεν εξαρτάται από το σ. M z (t) = E(e tz ) = σ σ x(n)... x (2) σ σ x(n)... x (2) σ σ Θέτουμε w 1 = M z (t) = 1 1 σ e t e t x(n)... x (2) e t n i=1 log X (i) X (1) f σ σ X(1),...,X (n) (x (1),..., x (n) )dx (n)...dx (1) = n i=1 log X (i) X (1) n! n n i=1 log X (i) X (1) n!a n σ na n i=1 f X i (x (i) )dx (i) = i=1 x a 1 (i) x σ, w (1) 2 = x σ,...,w (2) n = x σ (n) w1... w n 1 e t n i=1 log w 1 w i n!a n σ na n w1... w n 1 e t n i=1 log w 1 w i n!a n n i=1 wa+1 i dx(i) τότε έχουμε ότι J = σ n και dw i i=1 ( σ w i ) a 1 dw i J = Άρα παρατηρούμε ότι το M z (t) δεν εξαρτάται από το σ. Τότε από το Κριτήριο των Hoog-Craig(όπως αναφέρεται στο Malik, 1966) έχουμε ότι η κατανομή του Z δεν ε- ξαρτάται από το σ, συνεπώς η Z = n i=1 log X (i) X είναι στοχαστικά ανεξάρτητη από (1) την X (1), όπου είναι το επαρκές στατιστικό για το σ. 3

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO 2.2 Κατανομή Pareto και άλλες γνωστές κατανομές Σε αυτή την ενότητα αναφέρουμε τη σχέση που έχει η κατανομή Pareto (τύπου Ι) με άλλες γνωστές κατανομές. Πρόταση 2.2.1. Εστω X P (I)(a, σ) τότε Y = log X σ E( 1 a ) Απόδειξη. y = log x σ x = ey+log σ γνωρίζουμε ότι f Y (y) = f X (g 1 (y)) g 1 (y) y συνεπώς f Y (y) = aσ a e (y+logσ)(a+1) ey+logσ = δηλαδή η τυχαία μεταβλητή Y E( 1 a ). aσa e (y+logσ)a = ae ay Πρόταση 2.2.2. Εστω U 1, U 2 ανεξάρτητες τυχαίες μεταβλητές, όπου U 1 G(δ 1, 1) και U 2 G(δ 2, 1), τότε η τυχαία μεταβλητή W = µ + σ( U 1 U 2 ) γ ακολουθεί μια Feller- Pareto κατανομή, W F P (µ, σ, γ, δ 1, δ 2 ). W = µ + σ( U 1 U Απόδειξη. 2 ) γ U 1 = U 2 ( W µ σ ) γ 1 U 2 = U 2 U 2 = U 2 Χρησιμοποιώντας το θεώρημα του αντίστροφου μετασχηματισμού έχουμε ότι, f W,U2 (w, u 2 ) = f U1 (u 2 ( w µ σ ) U 1 U 2 γ 1 )f U2 (u 2 ) J, όπου J = U 2 U 2 U 1 Γνωρίζουμε ότι f U1 (u 1 ) = 1 1 e u 1 και f U2 (u 2 ) = 1 ( άρα J = w µ σ ) 1 γ 1 1 u 2 γ ( w µ σ ) γ 1 1 = u 2 γ ( w µ σ ) γ 1 1, συνεπώς Γ(δ 1 ) uδ 1 1 f W,U2 (w, u 2 ) = 1 γγ(δ 1 )Γ(δ 2 ) uδ 1+δ 2 1 2 e u 2(1+( w µ σ W ) 1γ ) ( w µ σ ) δ 1 γ 1 U 2 W Γ(δ 2 ) uδ 1 1 2 e u 2 Ομως, f W (w) = f W,U2 (w, u 2 )du 2 = 1 γγ(δ 1 )Γ(δ 2 ) ( w µ σ ) δ 1 γ 1 u δ 1+δ 2 1 2 e u 2(1+( w µ σ ) 1γ ) du 2 1 = γγ(δ 1 )Γ(δ 2 ) ( w µ σ ) δ 1 γ 1 Γ(δ 1 + δ 2 )(1 + ( w µ σ ) 1 γ ) (δ 1+δ 2 ). Παρατήρηση 2.2.1. Θέτοντας µ = σ, σ = σ, γ = 1, δ 1 = 1 και δ 2 = a τότε ισχύει ότι P (I)(a, σ) = F P (µ, σ, γ, δ 1, δ 2 ). 31

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO 2.3 Δείκτες ανισότητας Με βάση τον ορισμό του Cowell(όπως αναφέρεται στο Arnold, 28), δείκτης ανισότητας είναι ένα μέτρο συνοπτικής απεικόνισης των διαφορών που παρατηρούνται στα εισοδήματα των μελών ενός πληθυσμού. Οι δείκτες αυτοί δε δίνουν πάντα την ίδια ιεράρχηση στις διάφορες κατανομές εισοδήματος από πλευράς ανισότητας. Παρ όλα αυτά τέτοιοι δείκτες χρησιμοποιούνται συχνά για την απόλυτη μέτρηση του βαθμού ανισότητας ή για τη διατύπωση γενικότερων συμπερασμάτων σχετικά με το επίπεδο ανισότητας ενός πληθυσμού. Παρατήρηση 2.3.1. Οι επιθυμητές ιδιότητες των δεικτών ανισότητας αναφέρονται παρακάτω, α) Ανεξαρτησία ως προς τα προσωπικά χαρακτηριστικά ή συμμετρία. Δηλαδή, ο δείκτης ανισότητας μένει ανεπηρέαστος από αντιμεταθέσεις εισοδημάτων μεταξύ των μελών του πληθυσμού. β) Ανεξαρτησία ως προς το μέγεθος του πληθυσμού. Δηλαδή, ο δείκτης πρέπει να παραμείνει αμετάβλητος αν ο αριθμός των ατόμων σε κάθε επίπεδο εισοδήματος μεταβάλλεται κατά την ίδια αναλογία. γ) Ανεξαρτησία ως προς το μέσο ή τις μονάδες μέτρησης. Αν τα εισοδήματα όλων των μελών ενός πληθυσμού μεταβληθούν κατά την ίδια αναλογία, η τιμή του δείκτη δε θα πρέπει να αλλάξει. δ) Να ισχύει η αρχή των Pigou-Dalton ή διαφορετικά αρχή των μεταβιβάσεων.(βλ. για παράδειγμα Sen (1997) ) Δηλαδή, παραδείγματος χάριν μια μεταβίβαση εισοδήματος από ένα φτωχό άτομο σε ένα πλούσιο, θα πρέπει να αυξήσει τον δείκτη ανισότητας. Ο Pareto (όπως αναφέρεται στο Arnold, 28) υπέδειξε ότι η (αρνητική) κλίση ενός Pareto γραφήματος (logf X (x)v.s.logx) θα μπορούσε να χρησιμοποιηθεί ως κατάλληλη ένδειξη ανισότητας σε έναν πληθυσμό. Στην πραγματικότητα για μια κατανομή Pareto τύπου Ι, η κλίση θα είναι -α και μικρές τιμές του α θα συνδέονται με μεγάλο ποσό ανισότητας. Ορισμός 2.3.1. Μερικά μέτρα ανισότητας που χρησιμοποιούνται συχνά στην κατανομή Pareto είναι τα εξής, 32

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO 1.Καμπύλη Lorenz (Lorenz Curve), L F (u) = 2.Δείκτης Gini (Gini Index), G(F ) = E X 1 X 2 2E(X 1 ). u F 1 (y)dy 1 F 1 (y)dy. 3.Συντελεστής μεταβλητότητας (Coefficient of variation), CV (F ) = 4.Δείκτης Pietra (Pietra index), P = E( X EX ) 2E(X). E[(X1 X 2 ) 2 ] 2E(X1. ) 1.Καμπύλη Lorenz Γραφικά παριστάνεται ως μια καμπύλη με x-άξονα τον πληθυσμό και y-άξονα το εισόδημα. Στο γράφημα μια ευθεία γραμμή αναπαριστά την τέλεια ισότητα της κατανομής του εισοδήματος. Η διαφορά μεταξύ της καμπύλης και της ευθείας είναι το ποσό της ανισότητας της κατανομής του εισοδήματος. Πρόταση 2.3.1. Εστω Y P (I)(a, σ) τότε L F (u) = 1 (1 u) a 1 a, όπου u 1. Απόδειξη. u F 1 (y)dy = u 1 F 1 (y)dy = a 1 aσ(1 y) a a 1 άρα L(u) = 1 (1 u) a 1 σ(1 y) 1/a dy = σ 1 = aσ a 1 a. a 1 (1 y) a a 1 a u = a 1 aσ(1 u) a a 1 aσ a 1 2.Δείκτης Gini Παίρνει τιμές μεταξύ του και του 1. Με αναπαριστούμε την τέλεια ισότητα του εισοδήματος και με 1 την τέλεια ανισότητα. Για να υπάρχει αυτός ο δείκτης, πρέπει E X < +. Πρόταση 2.3.2. Εστω (X 1,X 2 ) P (I)(a, σ), τότε G(F ) = (2a 1) 1. Απόδειξη. E( X 1 X 2 ) = x σ σ 1 x 2 f X1 (x 1 )f X2 (x 2 )dx 1 dx 2 = x1 σ σ (x 1 x 2 )f X1 (x 1 )f X2 (x 2 )dx 2 dx 1 + x2 σ σ ( x 1 + x 2 )f X1 (x 1 )f X2 (x 2 )dx 1 dx 2 x1 σ σ σ (x 1 x 2 )f X1 (x 1 )f X2 (x 2 )dx 2 dx 1 = σ (aσ) 2 x a+1 ( x a 1x 2 1 a + x 2 (a 1) a 1 ) x 1 dx 1 = ( a(a 1)σ2a +a 2 σ 2a σ (a 1)x 2a + aσa 1 x a 1 a2 σ a+1 (a 1)x a+1 )dx 1 1 = σ (aσ) 2 x1 x a+1 1 σ ( x 1 x a+1 1 2 x a 2 )dx 2 dx 1 = 33

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO ( ( a(a 1)σ2a +a 2 σ 2a )x 1 (2a 1) (a 1)(2a 1) άρα ομοίως x1 σ σ aσa x 1 (a 1) a 1 + a2 σ a+1 a x 1 ) (a 1)a + σ (x 1 x 2 )f X1 (x 1 )f X2 (x 2 )dx 2 dx 1 = aσ (a 1)(2a 1) (2.1) x2 σ σ ( x 1 + x 2 )f X1 (x 1 )f X2 (x 2 )dx 1 dx 2 = aσ (a 1)(2a 1) (2.2) άρα από τις Σχέσεις (2.1) και (2.2) συμπεραίνουμε ότι, G(F ) = (2a 1) 1. 3.Συντελεστής μεταβλητότητας Είναι από τους πιο απλούς δείκτες ανισότητας, όμως η χρήση του έχει περιοριστεί, και αυτό οφείλεται στο ότι ο συντελεστής μεταβλητότητας δεν έχει άνω άκρο, σε αντίθεση με το δείκτη Gini, κάνοντας την ερμηνεία του πιο δύσκολη και επίσης μπορεί εύκολα να επηρρεαστεί από ανωμαλίες τιμών χαμηλού εισοδήματος και αυτό διότι δύο συνιστώσες του, η μέση τιμή και η τυπική απόκλιση, επηρεάζονται πολύ. Πρόταση 2.3.3. Εστω (X 1,X 2 ) P (I)(a, σ), τότε CV (F ) = (a 2 2a) 1/2 εφ οσον E(X 2 1 ) < +. Απόδειξη. E[(X 1 X 2 ) 2 ] = (x σ σ 1 x 2 )f X1 (x 1 )f X2 (x 2 )dx 1 dx 2 = (x 2 σ σ 1 2x 1 x 2 + x 2 2 ) aσa aσ a x a+1 1 x a+1 dx 2 1 dx 2 = [ (aσ)2 σ x a+1 ( x 1 (a 2) 2 a 2 + 2x (a 1) 2x 1 a 1 x 2 2 a x 1 a )] + dx 1 = σ + a ( 2 σ a+2 σ (a 2)x a+1 2a2 σ a+1 2 (a 1)x a 2 + aσa x a 1 )dx 2 2 = [ σa+2 x 2 a a 2 άρα + 2a2 σ a+1 x 2 (a 1) (a 1) 2 aσa (a 2) x 2 a 2 )] + σ E[(X 1 X 2 ) 2 ] = 2aσ 2 1 ( a 2 a (a 1) 2 ) (2.3) Επίσης από την Παρατήρηση 2.1.2, E(X 1 ) = aσ a 1 (2.4) 34

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO άρα από τις Σχέσεις (2.3) και (2.4) συμπεραίνουμε ότι CV (F ) = (a 2 2a) 1/2. 4.Δείκτης Pietra Μπορεί να θεωρηθεί ως η μέγιστη κάθετη απόσταση από την καμπύλη Lorenz και τη γραμμή ισότητας ή ως τη διπλάσια περιοχή του μέγιστου τριγώνου που δημιουργείται από την καμπύλη Lorenz και τη γραμμή ισότητας. Πρόταση 2.3.4. Εστω X P (I)(a, σ), τότε P = (a 1)a 1 a a. Απόδειξη. E( X EX ) = x E(x) f σ X (x)dx = E(x) (x E(x))f X(x)dx + E(x) ( x + E(x))f σ X (x)dx E(x) (x E(x))f X(x)dx = aσ a 1 E(x) (x a 1 aσ ) aσa dx = aσ a [ x (a 1) x a+1 a 1 + aσx a (a 1)a ] + aσ a 1 (x E(x))f X (x)dx = a a+1 σ (a 1) a+2 (2.5) E(x) σ ( x + E(x))f X (x)dx = a 1 aσ aσ ( x + aσ σ a 1 ) aσa dx = aσ a [ x (a 1) x a+1 a 1 aσx a (a 1)a ] a 1 σ E(x) σ ( x + E(x))f X (x)dx = a a+1 σ (a 1) a+2 (2.6) άρα από τις Σχέσεις (2.5) και (2.6) συμπεραίνουμε ότι P = (a 1)a 1 a a. Πρόταση 2.3.5. Η σχέση που συνδέει τον δείκτη Gini και την καμπύλη Lorenz είναι η εξής, G(F ) = 2. 1 u L F (u)du Δηλαδή ο δείκτης Gini είναι ίσος με τη διπλάσια περιοχή μεταξύ της καμπύλης Lorenz και της γραμμής της ισότητας.(βλ. Σχήμα 2.2) 35

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO Απόδειξη. γνωρίζουμε από την Πρόταση 2.3.1 ότι L F (u) = 1 (1 u) a 1 a συνεπώς 1 u L F (u)du = 1 1 2 + 2a 1 a άρα G(F ) = 2( 2 1 + 2a 1 a ) = 2a 1 1. a 1 (u 1 (1 u) a )du = u2 2 2a 1 (1 u) a u 2a 1 a 1 = Σχήμα 2.2: Αναπαράσταση καμπύλης Lorenz και Gini index. 2.4 Μέθοδος επαλήθευσης για την κατανομή Pareto Ενας ποιοτικός τρόπος για να επαληθεύσουμε ότι το δείγμα μας προέρχεται από την κατανομή Pareto, ο οποίος προτάθηκε από τον Quandt (όπως αναφέρεται στο Arnold, 28) είναι να εξετάσουμε την καμπύλη Lorenz του δείγματος. Μπορούμε να ορίσουμε την καμπύλη Lorenz ως εξής, έστω F (x) η κατανομή της τυχαίας μεταβλητής X τότε έχουμε ως τετμημένη την F (x) x σ ξdf (ξ) και τεταγμένη την F 1 (x) = σ xdf (x) όπου F 1 (x) είναι η ροπή 1ης τάξης της συνάρτησης κατανομής F (x), και σ το κάτω όριο των τυχαίων μεταβλητών X. 36

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO Ως μέτρο ανισότητας χρησιμοποιούμε το μέτρο Lorenz, L = 1 σ F 1 (x)df (x) δηλαδή, L=1-την περιοχή κάτω από την καμπύλη Lorenz. Προφανώς το μέτρο και η καμπύλη Lorenz δεν ορίζονται όταν δεν υπάρχει η E(X), συνεπώς περιοριζόμαστε στην περίπτωση όπου a > 1. Πρόταση 2.4.1. Το μέτρο Lorenz για την κατανομή Pareto ισούται με a 2a 1. Απόδειξη. Η πρώτη ροπή της κατανομής Pareto είναι, F 1 (x) = x σ ξ aσa σ Ομως, x σ ξ aσa και x aσa σ ξa+1 dξ x aσa xa+1 dx ξ a+1 dξ = aσ a ( x a+1 dx = aσ a ( άρα F 1 (x) = 1 ( σ x )a 1, 1 ) (a 1)ξ x a 1 σ 1 ) (a 1)x + a 1 σ συνεπώς L = 1 (1 σa 1 ) aσa dx = σ x a 1 x a+1 = aσ a 1 = aσ a 1 a 2a 1. aσa (a 1)x a 1 Οπότε μπορούμε να διαπιστώσουμε αν το δείγμα μας έχει παραχθεί από την κατανομή Pareto εξετάζοντας την συμμετρία της καμπύλης Lorenz. Η καμπύλη Lorenz για την κατανομή Pareto δεν είναι συμμετρική γύρω από την κάθετη γραμμή στην γραμμή ισότητας και το σημείο στο οποίο η κλίση της καμπύλης ισούται με ένα, βρίσκεται δε πάνω από την γραμμή που είναι κάθετη στη γραμμή ισότητας. Παρακάτω θα αναφέρουμε την κάθετη γραμμή της γραμμής ισότητας ως εναλλακτική διαγώνιο (alternate diagonal). Πρόταση 2.4.2. Η κλίση της καμπύλης Lorenz ισούται με την μονάδα στην τιμή x = E(X). Απόδειξη. Η καμπύλη Lorenz έχει τη μορφή, τετμημένη: z = F (x) = 1 ( σ x )a τεταγμένη: y = F 1 (x) = 1 ( σ x )a 1 κλίση: dy dz = dy/dx dz/dx = (a 1)x aσ x = a 1 aσ = E(X). 37

ΚΕΦ ΑΛΑΙΟ 2. ΕΙΣΑΓΩΓ Η ΣΤΗΝ ΚΑΤΑΝΟΜ Η PARETO Πρόταση 2.4.3. Το σημείο x = a 1 aσ στο οποίο η κλίση της καμπύλης Lorenz ισούται με τη μονάδα είναι πάνω από την εναλλακτική διαγώνιο. Απόδειξη. Από τον ορισμό της καμπύλης Lorenz, η τομή της εναλλακτική διαγωνίου με την καμπύλη είναι στο σημείο, F (x) = 1 F (x) 1 ( σ x )a = ( σ x )a 1 1 = σa 1 (σ+x) x a Θεωρώντας το δεξί μέρος της παραπάνω εξίσωσης ως μια συνάρτηση του x έχουμε φ = σa 1 (σ+x) x a και απομονώνοντας το φ στο σημείο x = a 1 aσ έχουμε φ = 1+ a 1 a a a = ( a 1 (a 1) a a )a 1 ( 2a 1 a ) = (a 1)a 1 ( a 1)a (2a 1). Παρατηρούμε ότι καθώς a 1 τότε φ 1. Ακόμη για τιμές του α κοντά στη μονάδα έχουμε 1 dφ φ da = log(1 a 1) + 2a 1 2 < Ακόμη όταν a τότε φ 2e 1 το οποίο είναι μικρότερο από μονάδα. Αφού η φ είναι συνεχής και παραγωγίζεται για a > 1, μπορεί να γίνει μεγαλύτερη του 1 μόνο αν έχει τουλάχιστον δύο ακραία σημεία στο εύρος του a > 1, όπου το ένα πρέπει να είναι μέγιστο. Ωστόσο φ 1 d 2 φ = 1 da 2 φ ( dφ da )2 1 + a(a 1)(2a 1) 2 και αφού φ > για a > 1 τότε d2 φ > για όλα τα a > 1 και συνεπώς το φ δεν έχει da 2 μέγιστο. Άρα φ < 1 για όλα τα a > 1 και η τιμή E(x) δεν ικανοποιεί την τομή της εναλλακτικής διαγωνίου με την καμπύλη Lorenz. Ακόμη όταν το x αυξάνεται, το φ μειώνεται. Ετσι η τιμή του x στην οποία η καμπύλη Lorenz ισούται με 1 είναι μεγαλύτερη από την τιμή στην οποία η εναλλακτική διαγώνιος τέμνει την καμπύλη και επομένως το σημείο αυτό είναι πάνω από την εναλλακτική διαγώνιο. 38