ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana 1
Εισαγωγικές έννοιες Πληθυσμός είναι το σύνολο των ατόμων ή αντικειμένων για τα οποία ενδιαφερόμαστε να βγάλουμε συμπεράσματα σε σχέση με κάποιες ιδιότητες που αφορούν τα στοιχεία του. Όταν ένας πληθυσμός είναι πρακτικά άπειρος ή μεταβάλλεται κατά την διάρκεια πραγματοποίησης μιας έρευνας, τότε μελετάτε κάποιο υποσύνολο του πληθυσμού, το οποίο ονομάζεται δείγμα. Από την μελέτη του δείγματος θέλουμε να εξάγουμε συμπεράσματα για τον πληθυσμό. Το δείγμα που επιλέγεται πρέπει να είναι αντιπροσωπευτικό, δηλαδή πρέπει να είναι τυχαίο και να μην υπάρχει μεροληψία στην επιλογή των υποκειμένων του πληθυσμού. Τα χαρακτηριστικά ενός πληθυσμού τα οποία μελετάμε αναφέρονται με τον όρο μεταβλητή. 2
Πείραμα τύχης λέγεται ένα πείραμα κατά το οποίο δεν μπορούμε εκ των προτέρων να προβλέψουμε το αποτέλεσμα, παρότι φαινομενικά τουλάχιστον φαίνεται να επαναλαμβάνεται υπό τις ίδιες συνθήκες. Δειγματικός χώρος. Αν ω 1, ω 2,..., ω κ είναι τα δυνατά αποτελέσματα ενός πειράματος τύχης, τότε το σύνολο Ω = {ω 1, ω 2,..., ω κ } λέγεται δειγματικός χώρος του πειράματος. Τυχαία μεταβλητή είναι μια μεταβλητή που η τιμή της υπόκειται σε διακυμάνσεις λόγω τύχης. Μια τυχαία μεταβλητή μπορεί να πάρει ένα σύνολο δυνατών τιμών, σε κάθε μία από τις οποίες αντιστοιχεί μια πιθανότητα (για διακριτές τυχαίες μεταβλητές) ή μια πυκνότητα πιθανότητας (για συνεχείς τυχαίες μεταβλητές). 3
π.χ. Ρίχνω ένα ζάρι 10 φορές και καταγράφω το αποτέλεσμα της κάθε ρίψης. Τυχαία μεταβλητή X = αποτέλεσμα της ρίψης του ζαριού Τιμές της μεταβλητής: x i = 1,2,3,4,5,6 Συχνότητες: f i = 1,2,3,4,5,6 Σχετικές συχνότητες: p i = f i /Ν x i f i p i = f i /Ν 1 2 0,2 2 3 0,3 3 1 0,1 4 1 0,1 5 1 0,1 6 2 0,2 Σύνολο N=10 1 Frequency 4 3 2 1 0 Ραβδόγραμμα συχνοτήτων X 1 2 3 4 5 6 1 2 3 4 5 6 7 4
Πιθανότητα Μπορούμε να καταλάβουμε την έννοια της πιθανότητας από τη σχετική συχνότητα εμφάνισης κάποιας τιμής x i μιας διακριτής τυχαίας μεταβλητής X. Αν είχαμε τη δυνατότητα να συλλέξουμε αυθαίρετα Ν παρατηρήσεις, όπου Ν, τότε το όριο της σχετικής συχνότητας είναι η πιθανότητα η τυχαίας μεταβλητή X να πάρει την τιμή x i : P x i = P X = x i = lim N Για να είναι έγκυρος αυτός ο ορισμός πρέπει επίσης να υποθέσουμε ότι οι συνθήκες για την τυχαία μεταβλητή X σε κάθε επανάληψη της παρατήρησης παραμένουν οι ίδιες, και αυτή η ιδιότητα ονομάζεται στατιστική ομαλότητα. f i N 5
π.χ. Ρίχνω το ζάρι 50 φορές και έπειτα 100 φορές καταγράφω το αποτέλεσμα της κάθε ρίψης. Καθώς αυξάνει το Ν, οι πιθανότητες p i για κάθε x i τείνουν προς το 1/6. X X 14 12 N=50 20 16 N=100 10 Frequency 8 6 Frequency 12 8 4 2 4 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 1 2 3 4 5 6 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 1 2 3 4 5 6 6
Κατανομή πιθανότητας της διακριτής μεταβλητής Είναι η συνάρτηση P η οποία σε κάθε τιμή x i της Χ, αντιστοιχεί την πιθανότητα P x i = P(X = x i ) και ικανοποιεί τις συνθήκες: (1) P x i > 0 για κάθε P x i (2) P x i = 1 Συνάρτηση πυκνότητας πιθανότητας μιας συνεχούς μεταβλητής Είναι η συνάρτηση f(x) για την οποία ισχύουν οι σχέσεις (1) f x 0 για κάθε x R x (R x : πεδίο τιμών της Χ) (2) Rx f x dx = 1 (3) P x 1 < X < x 2 = x1 x 2 f x dx 7
π.χ. Το ύψος 100 Ελλήνων. Ιστόγραμμα συχνοτήτων X 10.10 Ιστόγραμμα και πολύγωνο σχετικών συχνοτήτων X 8.08 Frequency 6 4 Relative Frequency.06.04 2.02 0 160 164 168 172 176 180 184 188 192.00 160 164 168 172 176 180 184 188 192 Histogram Hist. Polygon 8
Κανονική κατανομή Η συνάρτηση πυκνότητας πιθανότητας είναι συμμετρική και έχει το σχήμα της καμπάνας. 9
Στατιστικά μέτρα Τα στατιστικά μέτρα είναι αριθμοί που υπολογίζονται από τα δεδομένα και η τιμή τους αντιπροσωπεύει κάποια τάση ή συμπεριφορά του δείγματος. Τα στατιστικά μέτρα διακρίνονται στα μέτρα κεντρικής τάσης (measures of central tendency), στα μέτρα μεταβλητότητας (measures of dispersion) και στα μέτρα σχήματος (measures of shape). Μέτρα κεντρικής τάσης Χρησιμοποιούνται για να περιγράψουν τη θέση του συνόλου των δεδομένων. Δηλαδή, η τιμή τους είναι η πιο αντιπροσωπευτική για να σχηματίσει κάποιος μία πρώτη εικόνα για το ύψος των τιμών των παρατηρήσεων μίας μεταβλητής. 10
Μέτρα κεντρικής τάσης Μέση τιμή (mean) Είναι το άθροισμα των τιμών όλων των παρατηρήσεων διαιρεμένο με το πλήθος των παρατηρήσεων. Η μέση τιμή υπολογίζεται και ερμηνεύεται στατιστικά στις ποσοτικές μεταβλητές. Διάμεσος (median) Είναι η τιμή της μεταβλητής για την οποία το 50% των τιμών είναι μεγαλύτερο από αυτή και το υπόλοιπο 50% μικρότερο. Αν το πλήθος των παρατηρήσεων είναι περιττό, η διάμεσος είναι η μεσαία παρατήρηση, όταν αυτές διαταχθούν σε αύξουσα σειρά. Στην περίπτωση που το πλήθος είναι άρτιο, η διάμεσος υπολογίζεται από τη μέση τιμή των δύο μεσαίων παρατηρήσεων. Επικρατούσα τιμή (mode) Είναι η πιο συχνά εμφανιζόμενη τιμή στο δείγμα. Είναι δυνατόν να υπάρχουν περισσότερες από μία επικρατούσες τιμές. 11
Μέτρα μεταβλητότητας / διασποράς Χρησιμοποιούνται για να περιγράψουν τις διαφορές που υπάρχουν ανάμεσα στις τιμές μίας μεταβλητής. Δηλαδή, προσδιορίζουν αν οι παρατηρήσεις είναι συγκεντρωμένες γύρω από μία αντιπροσωπευτική τιμή ή παρουσιάζουν μεγάλη διασπορά. Εύρος (range) Είναι η διαφορά ανάμεσα στη μέγιστη και στην ελάχιστη από τις παρατηρούμενες τιμές. Διακύμανση ή διασπορά (variance) Είναι το πλέον συνηθισμένο μέτρο μεταβλητότητας. Υπολογίζεται αθροίζοντας τα τετράγωνα των διαφορών από τη μέση τιμή όλων των παρατηρήσεων και στη συνέχεια διαιρώντας το άθροισμα με το πλήθος των παρατηρήσεων ελαττωμένο κατά ένα. 12
Τυπική απόκλιση (standard deviation) Μέτρα μεταβλητότητας / διασποράς Είναι η τετραγωνική ρίζα της διακύμανσης. Εκφράζεται σε μονάδες μέτρησης ίδιες με αυτές των παρατηρήσεων. Tεταρτημόρια (quartiles) Τα σημεία που χωρίζουν την κατανομή σε τέσσερα ίσα μέρη: 1 ο τεταρτημόριο (Q1 ή Q25), 2 ο τεταρτημόριο (Q3 ή Q75), 3 ο τεταρτημόριοή (Q3 ή Q75) Ενδοτεταρτημοριακό εύρος (interquartile range) Το ενδοτεταρτημοριακό εύρος ισούται με τη διαφορά μεταξύ του 1ου και του 3ου τεταρτημορίου. 13
Μέτρα σχήματος Είναι μέτρα που περιγράφουν το σχήμα της μεταβλητής όταν αυτή παρασταθεί με ιστόγραμμα ή ραβδόγραμμα. Λοξότητα (skewness) Για πολλές μεταβλητές το μεγαλύτερο πλήθος των παρατηρήσεων συγκεντρώνεται γύρω από μία κεντρική τιμή. Όσο αυξάνει η απόσταση από την κεντρική αυτή τιμή, μειώνεται η συχνότητα των παρατηρήσεων. Αν αυτή η συμπεριφορά είναι ίδια για τις μεγάλες και για τις μικρές τιμές, η μεταβλητή παρουσιάζει στο σχήμα της μία συμμετρία ως προς την κεντρική τιμή, διαφορετικά εμφανίζουν μία "ουρά" προς τη μία μόνο κατεύθυνση. Κυρτότητα (kurtosis) Είναι ο βαθμός στον οποίο οι παρατηρήσεις συνωστίζονται γύρω από μία κεντρική τιμή. 14
Έστω δείγμα N παρατηρήσεων, όπου η μεταβλητή παίρνει τις τιμές x i, i = 1,.., k. Δειγματική μέση τιμή x = 1 N i=1 k Δειγματική διακύμανση s 2 = 1 Δειγματική συνδιακύμανση N 1 x i p i k i=1 x i x 2 p i s XY = cov X, Y = Ε Χ μ X Y μ Y = 1 N 1 Ν i=1 x i x y i y Ένα μέτρο της έκτασης στην οποία κινούνται μαζί δύο τυχαίες μεταβλητές, δηλαδή δείχνει πόσο ισχυρά συσχετίζεται η μια μεταβλητή µε την άλλη. Η τιμή της εξαρτάται από τις μονάδες μέτρησης των X και Y. Συντελεστής συσχέτισης r = s ΧΥ s Χ s Υ 15