Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα
Σκοπός του μαθήματος Η παρουσίαση προχωρημένων εννοιών και εργαλείων της στατιστικής πέραν του εισαγωγικού επιπέδου. Η εξοικείωση με εφαρμογές της στατιστικής στη διοίκηση επιχειρήσεων και στα χρηματοοικονομικά. Η στατιστική ανάλυση και αξιολόγηση δεδομένων μέσω του οικονομετρικού πακέτου λογισμικού gretl.
Προαπαιτούμενα Γνώσεις μαθήματος Στατιστικής Ι. Εγκατάσταση gretl: http://gretl.sourceforge.net
Υλικό Μαθήματος Βιβλίο: Σαριαννίδης, Ν., Κοντέος, Γ., Λαζαρίδης, Θ. (013). Στατιστική και Οικονομετρία, Εκδόσεις Αλέξανδρος. Ι.Κ.Ε. Οι διαλέξεις του μαθήματος σε pdf από το e-class.
Διάρθρωση της κάθε διάλεξης Θεωρία Παραδείγματα-Ασκήσεις Εφαρμογή των παραπάνω με το gretl
Στατιστική ΙΙ Τι είναι Στατιστική; Στατιστική είναι η συλλογή, οργάνωση, ανάλυση, παρουσίαση και ερμηνεία δεδομένων, μέσω της διεξαγωγής ερευνών και πειραμάτων. Είδη Στατιστικής Περιγραφική (Πίνακες-Διαγράμματα, Στατιστικά μέτρα) Επαγωγική Στατιστική Συμπερασματολογία (Έλεγχος ερευνητικών υποθέσεων βάσει μιας στατιστικής διαδικασίας)
Επανάληψη βασικών εννοιών Πληθυσμός: Κάθε σύνολο αντικειμένων ή ατόμων που έχουν κάποιο κοινό μετρήσιμο χαρακτηριστικό. Δείγμα: Κάθε υποσύνολο του πληθυσμού. Δεδομένα: Τα στοιχεία που συλλέγουμε από το δείγμα μας. Ποια είδη δεδομένων γνωρίζετε;
Επανάληψη βασικών εννοιών Δεδομένα Ποιοτικά Ποσοτικά Ονομαστικά Ιεραρχικά Διακριτά Συνεχή
Επανάληψη βασικών εννοιών Παρουσίαση Ποιοτικών Δεδομένων Πίνακες Γραφήματα (Ραβδόγραμμα, Κυκλικό Διάγραμμα)
Επανάληψη βασικών εννοιών Παρουσίαση Αριθμητικών Δεδομένων Πίνακες Γραφήματα (Ιστόγραμμα, γραμμικό γράφημα, φυλλόγραμμα, θηκόγραμμα, κ.λπ.)
Επανάληψη βασικών εννοιών Υπενθύμιση- Αθροίσματα 1 1 1 1 1 1... )... (... n n i i n n i i n n i i x x x x x x x c cx x x x x
Επανάληψη βασικών εννοιών Μέσος Όρος/Μέση Τιμή Μέτρα Θέσης Διάμεσος Επικρατούσα Τιμή
Επανάληψη βασικών εννοιών Απλός αριθμητικός μέσος 1 x n n i1 x i Αριθμητικός μέσος τιμών με συχνότητες x 1 n k i1 x i f i Σε ομαδοποιημένα δεδομένα το k ισούται με τον αριθμό των κλάσεων και τα κέντρα των κλάσεων x i
x Επανάληψη βασικών εννοιών Μέσος όρος-παράδειγμα 1 ο Σε 00 επιχειρήσεις το ύψος των μηνιαίων πωλήσεων σε προϊόντα δίνονται στον πίνακα που ακολουθεί. Να βρεθεί ο μέσος όρος αφού συμπληρωθεί ο πίνακας. Αξία πωλήσεων x i (κεντρική τιμή) v i N i x i v i [4,6) 10 [6,8) 0 [8,10) 30 [10,1) 80 [1,14) 30 [14,16) 0 [16,18) 10 Άθροισμα 00
Επανάληψη βασικών εννοιών Διάμεσος: Θεωρείται το πιο αξιόπιστο μέτρο θέσης καθώς δεν επηρεάζεται από τις ακραίες παρατηρήσεις του δείγματος. Είναι η τιμή που βρίσκεται στο μέσο των παρατηρήσεων όταν αυτές διαταχθούν σε αύξουσα ή φθίνουσα σειρά. Αν το πλήθος των παρατηρήσεων είναι περιττός αριθμός η διάμεσος ισούται με την μεσαία παρατήρηση ενώ αν είναι άρτιος ισούται με το ημιάθροισμα των δύο μεσαίων παρατηρήσεων. Η θέση της διαμέσου είναι τέτοια ώστε το πολύ το 50% των παρατηρήσεων να είναι πάνω από αυτήν και το πολύ το 50% των παρατηρήσεων να είναι κάτω από αυτήν. Π.χ. Να βρεθεί η διάμεσος στα δύο επόμενα σύνολα δεδομένων: Α:,3,5,7,8,10,11,13,15 Β:,3,5,8,9,10,11,13
Επανάληψη βασικών εννοιών Επικρατούσα τιμή: Η τιμή η οποία εμφανίζεται πιο συχνά στα δεδομένα. Έχει την μεγαλύτερη συχνότητα. 35 41 44 45 Παράδειγμα Στον διπλανό πίνακα ποιά παρατήρηση είναι η επικρατούσα τιμή; 37 37 39 40 41 43 43 43 44 44 44 44 46 46 46 46 40 43 45 48
Επανάληψη βασικών εννοιών Μέση τιμή-παράδειγμα Ρωτήθηκαν 50 φοιτητές πόσα χρήματα (σε ) χάλασαν μία συγκεκριμένη μέρα και προέκυψαν τα ακόλουθα αποτελέσματα. Να υπολογισθεί η μέση ημερήσια κατανάλωση των φοιτητών 46 104 94 114 45 14 15 7 118 193 16 64 5 57 56 57 56 36 7 46 53 85 1 43 159 10 64 73 17 314 10 8 146 117 35 14 63 4 64 113 48 97 73 38 143 9 5 171 37 184
Επανάληψη βασικών εννοιών Στο gretl: Κατανομή συχνότητας, παρατηρήσεις: 1-50 αριθμός κλάσεων: 7, μέσος = 94,6 διάστημα κεντρ. τιμή συχνότητα σχετ. αθροιστ. < 51,667 5,833 16 3,00% 3,00% 51,667-103,33 77,500 15 30,00% 6,00% 103,33-155,00 19,17 10 0,00% 8,00% 155,00-06,67 180,83 4 8,00% 90,00% 06,67-58,33 3,50 4,00% 94,00% 58,33-310,00 84,17 4,00% 98,00% >= 310,00 335,83 1,00% 100,00%
Επανάληψη βασικών εννοιών Εύρος Μέτρα Διασποράς Διασπορά ή διακύμανση/ Τυπική απόκλιση Συντελεστής μεταβλητότητας
Επανάληψη βασικών εννοιών Εύρος Προσδιορίζεται ως η διαφορά της μεγαλύτερης από την μικρότερη παρατήρηση. R= x max -x min
Επανάληψη βασικών εννοιών Διακύμανση Η διακύμανση είναι ο μέσος όρος των τετραγώνων των διαφορών των τιμών μιας μεταβλητής από το μέσο όρο της. Ο παραπάνω τύπος προσαρμόζεται ανάλογα με τις συχνότητες των παρατηρήσεων.
Επανάληψη βασικών εννοιών Τυπική απόκλιση Επειδή η διακύμανση εκφράζεται μέσω του τετραγώνου της μεταβλητής, γι αυτό παίρνουμε τη θετική τετραγωνική ρίζα της διακύμανσης που ονομάζεται τυπική απόκλιση και η οποία εκφράζεται με τις ίδιες μονάδες μέτρησης με τη μονάδα μέτρησης της μεταβλητής. Η τυπική απόκλιση ορίζεται: s s Όσο μικρότερες είναι οι τιμές της διασποράς και της τυπικής απόκλισης, τόσο πιο συγκεντρωμένες γύρω από τον μέσο όρο βρίσκονται οι τιμές της μεταβλητής.
Επανάληψη βασικών εννοιών Συντελεστής μεταβλητότητας (CV) Είναι καθαρός αριθμός, απαλλαγμένος από τις μονάδες μέτρησης της μεταβλητής. Μέτρο σχετικής διασποράς καθώς γίνεται αναφορά στην απόκλιση από τον μέσο όρο. Εκφράζει το «άπλωμα» των τιμών σε σχέση με τον μέσο όρο. Χρησιμοποιείται για συγκρίσεις ομάδων μεταξύ τους (είτε οι ομάδες εκφράζονται με ίδιες μονάδες μέτρησης είτε όχι). Επιπλέον χρησιμοποιείται για την εξέταση της ομοιογένειας μέσα στη ίδια ομάδα καθώς όταν ο CV δεν ξεπερνά το 10%, θα λέμε ότι το δείγμα είναι ομοιογενές. Δίνεται από τον τύπο: s CV 100% x
x Επανάληψη βασικών εννοιών Σε 00 επιχειρήσεις το ύψος των μηνιαίων πωλήσεων σε προϊόντα δίνονται στον πίνακα που ακολουθεί. Να υπολογιστούν η διακύμανση, η τυπική απόκλιση και ο συντελεστής μεταβλητότητας αφού συμπληρωθεί ο πίνακας. Είναι το δείγμα ομοιογενές; Αξία x i (κεντρική v i N i x i v i (x i - ) (x i - ) (x i - ) v i πωλήσεων τιμή) [4,6) 10 [6,8) 0 [8,10) 30 [10,1) 80 [1,14) 30 [14,16) 0 [16,18) 10 Άθροισμα 00 x x x
Επανάληψη βασικών εννοιών Τα μέτρα θέσης/διασποράς στο gretl Summary Statistics, using the observations 001 010 για τη μεταβλητή Unem (10 έγκυρες παρατηρήσεις) Μέσος 9,75000 Διάμεσος 9,80000 Ελάχιστο 7,70000 Μέγιστο 1,5000 Τυπική Απόκλιση 1,367 C.V. 0,135658
Επανάληψη βασικών εννοιών Μεταβλητές Τα χαρακτηριστικά ή οι ιδιότητες των στατιστικών μονάδων ως προς τα οποία εξετάζουμε έναν πληθυσμό ονομάζονται μεταβλητές (variables), συμβολίζονται με κεφαλαία γράμματα και οι τιμές τους με τα αντίστοιχα μικρά.
Επανάληψη βασικών εννοιών Μεταβλητές Ποιοτικές Ποσοτικές Συνεχείς Διακριτές
Επανάληψη βασικών εννοιών Οι τιμές που παίρνει μία τυχαία μεταβλητή συνδέονται με πιθανότητες δημιουργώντας κατανομές πιθανοτήτων. Διακριτές καλούνται οι τ.μ. που έχουν ως πεδίο τιμών κάποιο υποσύνολο του Ζ ή του Ν ή γενικότερα έχουν αριθμήσιμο πεδίο τιμών. Οι αντίστοιχες κατανομές τους θα καλούνται διακριτές κατανομές. Ένα σύνολο καλείται αριθμήσιμο αν μπορεί να γραφεί στη μορφή, Α={α1,α,...,ακ} (π.χ. {1,,3,5}).Τα σύνολα {0,1,,...,n}, N, Z είναι αριθμήσιμα ενώ π.χ. ένα διάστημα (α,β) δεν είναι. Συνεχείς καλούνται οι τ.μ. που έχουν ως πεδίο τιμών ένα διάστημα του R, ή όλο το R ενώ επιπλέον έχουν παραγωγίσιμες συναρτήσεις κατανομής. Οι αντίστοιχες κατανομές τους θα καλούνται συνεχείς κατανομές. Παραδείγματα;;
Επανάληψη βασικών εννοιών Οι διακριτές τ.μ. συνδέονται με την συνάρτηση πιθανότητας. Πιο σημαντικές διακριτές κατανομές πιθανοτήτων:bernoulli, Διωνυμική, Poisson. Οι συνεχείς τ.μ. συνδέονται με την συνάρτηση πιθανότητας. Πιο σημαντικές συνεχείς κατανομές: Κανονική, Τυπική κανονική, Εκθετική, X, t-student.
Κανονική Κατανομή H κανονική κατανομή (normal distribution) θεωρείται η σπουδαιότερη κατανομή της Θεωρίας Πιθανοτήτων και της Στατιστικής. Οι λόγοι είναι βασικά δύο: i) Πολλές τυχαίες μεταβλητές περιγράφονται ικανοποιητικά από την κανονική κατανομή ή περιγράφονται από κατανομές που μπορούν να προσεγγισθούν από την κανονική κατανομή. ii) Οι ιδιότητες της κανονικής κατανομής αξιοποιούνται στην Επαγωγική Στατιστική
Κανονική Κατανομή Έστω Χ μια συνεχής τυχαία μεταβλητή. Το Χ ακολουθεί την κανονική κατανομή (normal distribution) με παραμέτρους μ και σ, σ>0 (συμβολικά Χ ~ Ν(μ,σ )) αν η σ.π.π. δίνεται: f ( x) 1 e 1 x, x, 0
Κανονική Κατανομή Οι σημαντικότερες ιδιότητες της κανονικής κατανομής είναι οι εξής: Είναι συμμετρική ως προς το μέσο μ. Ο μέσος, η διάμεσος και η επικρατούσα τιμή συμπίπτουν Η επιφάνεια που περικλείεται από την καμπύλη του Gauss και τον άξονα των x έχει εμβαδόν ίσο με τη μονάδα Λόγω της συμμετρίας το 50% της επιφάνειας βρίσκεται αριστερά του μέσου και 50% δεξιά του.
Κανονική Κατανομή
Κανονική Κατανομή Σε μία κανονική το 68% των τιμών απέχει το πολύ κατά σ από τη μέση τιμή, βρίσκεται δηλαδή στο διάστημα (μ σ, μ + σ). Το 95% των τιμών βρίσκεται στο (μ σ,μ + σ) και το 99,7% στο (μ 3σ,μ + 3σ).
Τυπική Κανονική Κατανομή Η απλούστερη μορφή της κανονικής κατανομής, η οποία συνήθως χρησιμοποιείται σε πρακτικές εφαρμογές με μετασχηματισμό, είναι εκείνη που αναφέρεται στην περίπτωση όπου μ=0 και σ =1. Η κατανομή αυτή ονομάζεται τυποποιημένη κανονική κατανομή, συμβολίζεται Χ ~ Ν(0,1)και έχει την μορφή
Μετασχηματισμός Εάν έχουμε μία τ.μ. Χ ~ Ν(μ,σ ) τότε η τ.μ. Ζ με Z X ακολουθεί την τυπική κανονική κατανομή. Η αθροιστική συνάρτηση πυκνότητας πιθανότητας της τυπικής κανονικής κατανομής Ζ, που δίνει τις πιθανότητες P(Z z)=φ(z) δίνεται από πίνακες.
Τυπική κανονική κατανομή Ισχύει: Φ(z)=P(Z z) P(Z z o )=1- P(Z z o )=1-Φ(z o ) P(z 1 Z z )=P(Z z )-P(Z z 1 )=Φ(z )- Φ(z 1 ) Επειδή η τυπική κανονική κατανομή είναι συμμετρική γύρω από το z=0 ισχύει η σχέση: Φ(-z o )=1- Φ(z o ) ή P(Z -z ο )=1- P(Z z ο )
38 Πίνακας Τυπικής Κανονικής Κατανομής
Πίνακας Τυπικής κανονικής Κατανομής
Τυπική κανονική-παράδειγμα Αν Ζ ακολουθεί Τυποποιημένη κανονική κατανομή να υπολογίσετε τις πιθανότητες: a) P(Z<1) b) P(-<Z<) c) P(Z>1.58) d) P(-1 Z 1) e) Να βρεθεί η τιμή x έτσι ώστε P(Z<x) = 0.3.
Κανονική κατανομή-παράδειγμα Οι εβδομαδιαίες πωλήσεις ενός προϊόντος, σε κιλά, από ένα κατάστημα περιγράφεται από την κανονική κατανομή με μέση τιμή ίση με 60 κιλά και τυπική απόκλιση ίση με 3 κιλά. Να βρεθεί η πιθανότητα το βάρος του προϊόντος να: i. ξεπερνά τα 57 κιλά; ii. είναι μεταξύ 55 και 65 κιλών;
Κανονική κατανομή-παράδειγμα Θεωρούμε ότι ο χρόνος X που απαιτείται για να συμπληρώσουν το έντυπο Ε9 οι φορολογούμενοι της χώρας μέσω του taxisnet ακολουθεί την κανονική κατανομή με μέσο χρόνο 100 λεπτά και τυπική απόκλιση 30 λεπτά. (i) Ποια η πιθανότητα ένας τυχαία επιλεγόμενος φορολογούμενος να χρειαστεί το πολύ 85 λεπτά για την συμπλήρωση του Ε9 ; (ii) Ποια η πιθανότητα ένας τυχαία επιλεγόμενος φορολογούμενος να χρειαστεί τουλάχιστον 70 λεπτά και το πολύ 130 λεπτά για την συμπλήρωση του Ε9;
Βαθμοί ελευθερίας Ο αριθμός των ανεξάρτητων πληροφοριώνδεδομένων που χρησιμοποιούνται για να γίνει ένας υπολογισμός. Αποτελούν ένδειξη αντιπροσωπευτικότητας του δείγματος. Η εκτίμηση μίας παραμέτρου αφαιρεί έναν βαθμό ελευθερίας.
Βαθμοί ελευθερίας Παράδειγμα 1 ο Τρείς παρατηρήσεις (10,8,x) με μέση τιμή με τι ισούται το x; Αν είχαμε δύο άγνωστες τιμές πόσοι είναι οι βαθμοί ελευθερίας; x 7 Παράδειγμα ο Σε δείγμα 50 παρατηρήσεων με μέση τιμή πόσοι είναι οι βαθμοί ελευθερίας; x 30
Βαθμοί ελευθερίας Ένα μόνο δείγμα Δύο δείγματα-εκτίμηση διαφοράς μέσων δυο δειγμάτων μεγέθους n 1 και n. 1 ) ( 1 1 x x n s n i i 1) ( 1) ( 1 1 1 n n s n s n s
Κατανομή Χ Θεωρούμε τις τ.μ. X 1, X,... X n οι οποίες είναι ανεξάρτητες μεταξύ τους και η κάθε μία ακολουθεί την τυπική κανονική κατανομή Ν(0,1). Δημιουργούμε την τ.μ.: Y X1 X... X n Αυτή η τ.μ. ακολουθεί μία κατανομή που ονομάζεται Χ τετράγωνο και συμβολίζεται Χ. Ειδικοί πίνακες δίνουν τις τιμές x n,a της Χ για τις οποίες έχουμε την πιθανότητα: P X x n, a a όπου α δεδομένη πιθανότητα και n γνωστοί βαθμοί ελευθερίας.
X με το gretl
Ιδιότητες της X n Πρόκειται για οικογένεια κατανομών. Για κάθε τιμή του n παίρνουμε και μια άλλη κατανομή χι-τετράγωνο. Mια τυχαία μεταβλητή Χ που ακολουθεί μια κατανομή δεν παίρνει αρνητικές τιμές. X n Όσο το n αυξάνεται τόσο η γραφική παράσταση της συνάρτησης πυκνότητας της X n γίνεται πιο συμμετρική.
Τιμές της X n Αν μια τυχαία μεταβλητή Χ ακολουθεί την κατανομή τότε το n,a είναι η τιμή για την όποια ισχύει ή ισοδύναμα X n
Κατανομή t-student Έστω Ζ μια τυχαία μεταβλητή η οποία ακολουθεί την τυπική κανονική κατανομή, δηλαδή Z ~ N(0, 1), και n μια τυχαία μεταβλητή ανεξάρτητη από την Ζ η οποία ακολουθεί την κατανομή X n δηλαδή S n Τότε η τυχαία κατανομή της ονομάζεται κατανομή t ή κατανομή Student με n βαθμούς ελευθερίας και συμβολίζεται με t n
Κατανομή t-student
Τιμές της t n t n, a Αν τότε είναι εκείνη η τιμή της Τ για την οποία ισχύει Λόγω συμμετρίας:
Βιβλιογραφία Σαριαννίδης, Ν., Κοντέος, Γ. (01). Στατιστική. Σαριαννίδης, Ν., Κοντέος, Γ., Λαζαρίδης, Θ. (013). Στατιστική και Οικονομετρία, Εκδόσεις Αλέξανδρος. Ι.Κ.Ε.