Έτος 2017-2018: Διάλεξη 2 η Διδάσκουσα: Κοντογιάννη Αριστούλα Τμήμα Τεχνολόγων Γεωπόνων-Κατεύθυνση Αγροτικής Οικονομίας Εφαρμοσμένη Στατιστική Επανάληψη βασικών εννοιών Στατιστικής- Χρήση gretl/excel 1
2 Βασικές έννοιες Στατιστικής Μια εταιρεία γεωργικών προϊόντων πουλάει ένα φυτοφάρμακο στους πελάτες της σε παρτίδες των 5 λίτρων. Η εταιρεία ϑέλει να μελετήσει την ποσότητα του προϊόντος σε κάθε παραγγελία. Από τα αρχεία της εταιρείας ϐρέθηκαν 120 πρόσφατες παραγγελίες αυτού του προϊόντος και ο αριθμός των παρτίδων σε κάθε παραγγελία δίνεται στον Πίνακα. Πώς μπορούμε να οργανώσουμε τα δεδομένα μας;
3 Βασικές έννοιες Στατιστικής Με έναν πίνακα συχνοτήτων και το ραβδόγραμμα που προκύπτει από τα δεδομένα Σχόλιο σχετικά με τον συμβολισμό: vi, fi κ.λπ.
4 Βασικές έννοιες Στατιστικής Μελετάμε ένα δείγμα 20 αγροτικών οικογενειών ως προς την μεταβλητή Χ «ετήσιο εισόδημα σε χιλιάδες ευρώ» και τα αποτελέσματα δίνονται ως εξής: 2 3 2 3 3 2 4 4 2 3 5 5 4 3 5 6 3 2 4 3 Ποιες οι τιμές της μεταβλητής και ποιες οι συχνότητες τους;
5 Βασικές έννοιες Στατιστικής Απόλυτη συχνότητα: v i με v 1 +v 2 +..+v k =v Σχετική συχνότητα: vi f i, i 1,2,... k Σχετική συχνότητα επί τοις v %: Για την σχετική συχνότητα ισχύουν f i % οι f i 100 σχέσεις: 0 f i 1, i 1,2,... k fαθροιστική... συχνότητα, 1 αθροιστική σχετική 1 f 2 f k συχνότητα: N j, F j
6 Βασικές έννοιες Στατιστικής Παράδειγμα 1 ο Να κατασκευαστεί ο πίνακας συχνοτήτων, σχετικών συχνοτήτων, αθροιστικών συχνοτήτων και αθροιστικών σχετικών συχνοτήτων για τα δεδομένα των 20 αγροτικών οικογενειών.
7 Βασικές έννοιες Στατιστικής x i v i N i f i f i % F j F j % Σύνολο Τι παρατηρείτε;
8 Βασικές έννοιες Στατιστικής Εφαρμογή του 1 ου παραδείγματος στο gretl Κατεβάζουμε από το: htpp://gretl.sourceforge.net/win32/
9 Βασικές έννοιες Στατιστικής Output gretl Κατανομή συχνότητας για annualincome, παρατ. 1-21 μετ. συχν. σχετ.συχν. αθρ.συχν. 2 5 25,00% 25,00% 3 7 35,00% 60,00% 4 4 20,00% 80,00% 5 3 15,00% 95,00% 6 1 5,00% 100,00%
10 Βασικές έννοιες Στατιστικής Ραβδόγραμμα στο Excel 8 Ετήσιο εισόδημα 7 6 5 4 Συχνότητα 3 2 1 0 2 3 4 5 6
11 Βασικές έννοιες Στατιστικής Ομαδοποίηση Όταν τα δεδομένα είναι αριθμητικά και είτε ο αριθμός των διακεκριμένων τιμών που παίρνει η τ.μ. X είναι μεγάλος, ή η X είναι συνεχής οι πίνακες και τα γραφήματα συχνοτήτων των τιμών δεν προσφέρονται για την απεικόνιση των δεδομένων. Σε τέτοιες περιπτώσεις πρώτα χωρίζουμε τα δεδομένα σε k ομάδες (groups), ή κλάσεις διαστημάτων, και μετά παρουσιάζουμε σε πίνακα ή σε γράφημα τη συχνότητα της κάθε ομάδας, δηλαδή τον αριθμό των παρατηρήσεων που ανήκουν σε κάθε ομάδα. Οι κλάσεις είναι διαστήματα της μορφής [, ). Το κέντρο της κλάσης και οι παρατηρήσεις της θεωρούνται όμοιες. Αναφερόμαστε σε κλάσεις σταθερού πλάτους. Κάθε κλάση αντιπροσωπεύεται από την κεντρική τιμή Για το χωρισμό των δεδομένων σε ομάδες ϐρίσκουμε πρώτα την ελάχιστη τιμή xmin και την μέγιστη τιμή xmax και υπολογίζουμε το εύρος των δεδομένων R = xmax xmin. Το πλάτος της κλάσης το βρίσκουμε διαιρώντας το εύρος του δείγματος R με τον αριθμό των κλάσεων k.
12 Βασικές έννοιες Στατιστικής Ο αριθμός k βρίσκεται από τον επόμενο πίνακα: Μέγεθος δείγματος v Αριθμός k <20 5 20-50 6 50-100 7 100-200 8 200-400 9 400-700 10 700-1000 11 1000 12 ή από τον τύπο k=1+3,32logv (Κανόνας Sturges) όπου ν το μέγεθος του δείγματος
13 Βασικές έννοιες Στατιστικής Παράδειγμα 2 ο Ένας αγρότης σημείωσε τον αριθμό των αυγών που συγκέντρωσε σε 40 ημέρες και πήρε τα αποτελέσματα που δίνονται στον επόμενο πίνακα. Να ομαδοποιηθούν τα δεδομένα και να γίνει ο πίνακας συχνοτήτων, σχετικών συχνοτήτων, αθροιστικών συχνοτήτων και αθροιστικών σχετικών συχνοτήτων.
14 Βασικές έννοιες Στατιστικής 15 16 16 18 18 18 20 20 20 23 23 23 25 25 25 30 30 30 35 35 38 38 38 39 43 43 43 44 44 44 44 49 49 49 49 50 50 50 50 50 [, ) x i v i f i f i % N i F i F i %
Βασικές έννοιες Στατιστικής Εφαρμογή του 2 ου παραδείγματος με gretl 15
16 Βασικές έννοιες Στατιστικής Στον πίνακα που ακολουθεί φαίνεται για κάθε μια από 50 τυχαία επιλεγμένες γαλακτοπαραγωγές αγελάδες, ο χρόνος Χ (σε μήνες), από την πρώτη εκδήλωση μιας συγκεκριμένης ασθένειας, από την οποία είχαν προσβληθεί, μέχρι την επανεμφάνισή της. (Πρόκειται για μια δύσκολα αντιμετωπίσιμη ασθένεια η οποία ενώ θεραπεύεται, μετά από κάποιο χρονικό διάστημα επανεμφανίζεται).
Βασικές έννοιες Στατιστικής Πίνακας συχνοτήτων. Πώς προέκυψε;; 17
Κατανομή του τυχαίου δείγματος στο προηγούμενο παράδειγμα 18 Σχ. 6: Ιστόγραμμα/πολύγωνο συχνοτήτων, Σχ. 7: Ιστόγραμμα/πολύγωνο σχετικών συχνοτήτων Σχ. 8: Ιστόγραμμα/πολύγωνο αθροιστικών συχνοτήτων, Σχ. 9: Ιστόγραμμα/πολύγωνο αθροιστικών σχετικών συχνοτήτων
19 Βασικές έννοιες Στατιστικής Μέτρα Θέσης Μέσος Όρος/Μέση Τιμή Μέτρα Θέσης Διάμεσος Επικρατούσα Τιμή
20 Μέτρα Θέσης Μέση τιμή ή μέσος όρος Η μέση τιμή επηρεάζεται πολύ από τις ακραίες τιμές της μεταβλητής Χ και για αυτόν τον λόγο μειονεκτεί ως στατιστικό μέτρο θέσης.
21 Μέση τιμή-παράδειγμα Δέκα γεωργοί της περιοχής της Ροδόπης που καλλιέργησαν καλαμπόκι κατά την διάρκεια του έτους 2010 είχαν τις επιδόσεις ανά στρέμμα που δίνονται στον παρακάτω πίνακα. Να βρεθεί η μέση απόδοση ανά στρέμμα για τους δέκα εν λόγω γεωργούς. Αριθμός γεωργών 1 930 2 1235 3 1100 4 950 5 1230 6 1120 7 1210 8 1150 9 1180 10 1030 Στρεμ.Απόδ. (Kgr/στρέμμα)
22 Μέση τιμή-ομαδοποιημένα δεδομένα 1 v v x v i 1 x i v i i 1 x i f i Στα ομαδοποιημένα όπου x i το κέντρο της κλάσης.
23 Μέση τιμή-παράδειγμα σε ομαδοποιημένα δεδομένα Μετρήθηκαν τα ύψη (cm) δείγματος 50 φυτών και πήραμε τα ακόλουθα αποτελέσματα. Να υπολογισθεί το μέσο αριθμητικό ύψος του δείγματος των φυτών. 46 104 94 114 45 214 15 272 118 193 126 64 5 57 56 57 56 236 72 46 53 85 122 43 159 102 64 73 17 314 120 8 146 117 35 14 263 4 64 113 48 97 73 38 143 9 25 171 37 184
24 Παράδειγμα σε ομαδοποιημένα δεδομένα Ύψος φυτού x i v i x i v i N i [0-47,5) 23,75 15 15 14 29 10 5 3 2 1 Σύνολο 50 4845
25 Μέσος όρος-εφαρμογή gretl Κατανομή συχνότητας για hight, παρατ. 1-50 αριθμός κλάσεων = 7, μέσος = 94,62 διάστημα κεντρ. τιμή συχνότητα σχετ. αθροιστ. < 51,667 25,833 16 32,00% 32,00% 51,667-103,33 77,500 15 30,00% 62,00% 103,33-155,00 129,17 10 20,00% 82,00% 155,00-206,67 180,83 4 8,00% 90,00% 206,67-258,33 232,50 2 4,00% 94,00% 258,33-310,00 284,17 2 4,00% 98,00% >= 310,00 335,83 1 2,00% 100,00%
26 Σταθμικός ή σταθμισμένος μέσος όρος Κάποιες φορές οι παρατηρήσεις x 1, x 2,,..,x v δεν έχουν ίση σημασία-βαρύτητα για την μεταβλητή Χ που εξετάζουμε. Για αυτόν τον λόγο δίνουμε σε κάθε μία παρατήρηση-τιμή x i και έναν συντελεστή βάρους-στάθμισης w i. Ο σταθμικός/σταθμισμένος μέσος όρος των παρατηρήσεων ορίζεται ως εξής: x w w x 1 1 w 1 w 2 x 2 w 2...... w v w v x v w x i w i i
27 Σταθμικός μέσος όρος-παράδειγμα Στον πίνακα που ακολουθεί δίνεται ο αριθμό των γεωργών και τις διαφορετικές καλλιέργειες κατ έτος της περιοχής. Να υπολογισθεί ο σταθμικός μέσος αριθμός των γεωργών με βάση τον αριθμό των διαφορετικών καλλιεργειών. Έτος Αριθμός γεωργών x i Αριθμός διαφορετικών καλλιεργειών w i 1991 900 3 1992 1000 2 1993 1100 3 1994 1200 2 Σύνολο 4200 10
28 Διάμεσος Η διάμεσος (Μ) θεωρείται το πιο αξιόπιστο μέτρο θέσης καθώς δεν επηρεάζεται από τις ακραίες παρατηρήσεις του δείγματος. Είναι η τιμή που βρίσκεται στο μέσο των παρατηρήσεων όταν αυτές διαταχθούν σε αύξουσα ή φθίνουσα σειρά. Αν το πλήθος των παρατηρήσεων είναι περιττός αριθμός η διάμεσος ισούται με την μεσαία παρατήρηση ενώ αν είναι άρτιος ισούται με το ημιάθροισμα των δύο μεσαίων παρατηρήσεων. Η θέση της διαμέσου είναι τέτοια ώστε το πολύ το 50% των παρατηρήσεων να είναι πάνω από αυτήν και το πολύ το 50% των παρατηρήσεων να είναι κάτω από αυτήν. Π.χ. Να βρεθεί η διάμεσος στα δύο επόμενα σύνολα δεδομένων: Α: 2,3,5,7,8,10,11,13,15 Β: 2,3,5,8,9,10,11,13
Διάμεσος-Τύπος 29
30 Διάμεσος σε ομαδοποιημένα δεδομένα Υπολογίζεται από το πολύγωνο των αθροιστικών σχετικών συχνοτήτων ή από συγκεκριμένο τύπο. Ή από gretl π.χ. σε προηγούμενο παράδειγμα Summary Statistics, using the observations 1-40 για τη μεταβλ. numbereggs (40 έγκυρες παρατηρ.) Μέσος Διάμεσος Ελάχιστο Μέγιστο 34,2250 36,5000 15,0000 50,0000
31 Τύπος διαμέσου σε ομαδοποιημένα δεδομένα M L i ( v / 2 v i N Όπου: L i το κάτω όριο της κλάσης στην οποία βρίσκεται η διάμεσος V i η συχνότητα της κλάσης στην οποία ανήκει η διάμεσος V ο αριθμός των παρατηρήσεων του δείγματος C το πλάτος των κλάσεων N a το άθροισμα συχνοτήτων μέχρι και την προηγούμενη κλάση από αυτήν που ανήκει η διάμεσος Ποια είναι η διάμεσος στο παράδειγμα της διαφάνειας 24;; a ) c
Επικρατούσα τιμή Η παρατήρηση με την μεγαλύτερη συχνότητα. Σε προηγούμενο πίνακα ποια είναι η επικρατούσα τιμή; 32
33 1 ο Παράδειγμα Μέτρα Θέσης Στο ραβδόγραμμα δίνονται τα αποτελέσματα από την ρίψη δύο ζαριών 100 φορές. Καταγραφόταν η διαφορά μεταξύ των αποτελεσμάτων που ερχόταν. Για παράδειγμα αν ερχόταν 4 και 5 η διαφορά που καταγραφόταν ήταν το 1. Να υπολογιστεί η διάμεσος, η μέση τιμή και η επικρατούσα τιμή-κορυφή για αυτό το σύνολο δεδομένων. Differences in 100 Rolls O c c u r e n c e s 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 Difference between Numbers Rolled
34 2 ο Παράδειγμα Μέτρα Θέσης Θέλουμε να εκτιμήσουμε την περιεκτικότητα μίας χημικής ουσίας στο λίπασμα που παράγουν δύο εργοστάσια. Για αυτό και πήραμε μονάδες προϊόντος από το κάθε εργοστάσιο και μετρήσαμε την περιεκτικότητα αυτής της ουσίας. Υπολογίστε την μέση τιμή και τη διάμεσο για το κάθε εργοστάσιο. Τι συμπέρασμα βγάζετε;
35 3 ο Παράδειγμα- Μέτρα Θέσης Για τα δείγματα που δίνονται στον παρακάτω πίνακα να υπολογιστούν η μέση τιμή και η διάμεσος. Τι συμπέρασμα μπορούμε να βγάλουμε;
36 Μέτρα Διασποράς Εύρος Μέτρα Διασποράς Διασπορά ή διακύμανση/ Τυπική απόκλιση Συντελεστής μεταβλητότητας
37 Εύρος R Προσδιορίζεται ως η διαφορά της μεγαλύτερης από την μικρότερη παρατήρηση. R= x max -x min
38 Διασπορά ή διακύμανση Τα πλέον συχνά χρησιμοποιούμενα μέτρα διασποράς είναι η διακύμανση ή διασπορά (variance) και η τυπική απόκλιση (standard deviation). Η διακύμανση είναι ο μέσος όρος των τετραγώνων των διαφορών των τιμών μιας μεταβλητής από το μέσο όρο της. Η διακύμανση δίνεται από τον τύπο:
39 Τυπική απόκλιση Επειδή η διακύμανση εκφράζεται μέσω του τετραγώνου της μεταβλητής, γι αυτό παίρνουμε τη θετική τετραγωνική ρίζα της διακύμανσης που ονομάζεται τυπική απόκλιση και η οποία εκφράζεται με τις ίδιες μονάδες μέτρησης με τη μονάδα μέτρησης της μεταβλητής. Η τυπική απόκλιση ορίζεται: s 2 s Όσο μικρότερες είναι οι τιμές της διασποράς και της τυπικής απόκλισης, τόσο πιο συγκεντρωμένες γύρω από τον μέσο όρο βρίσκονται οι τιμές της μεταβλητής.
40 Συντελεστής μεταβλητότητας Ένα άλλο μέτρο μεταβλητότητας είναι ο συντελεστής μεταβλητότητας (coefficient of variation). Είναι καθαρός αριθμός, απαλλαγμένος από τις μονάδες μέτρησης της μεταβλητής. Μέτρο σχετικής διασποράς καθώς γίνεται αναφορά στην απόκλιση από τον μέσο όρο. Εκφράζει το «άπλωμα» των τιμών σε σχέση με τον μέσο όρο. Χρησιμοποιείται για συγκρίσεις ομάδων μεταξύ τους (είτε οι ομάδες εκφράζονται με ίδιες μονάδες μέτρησης είτε όχι). Επιπλέον χρησιμοποιείται για την εξέταση της ομοιογένειας μέσα στη ίδια ομάδα καθώς όταν ο CV δεν ξεπερνά το 10%, θα λέμε ότι το δείγμα είναι ομοιογενές. Δίνεται από τον τύπο: CV s x 100%
41 Παραδείγματα στα μέτρα διασποράς Παράδειγμα 1 ο Οι τιμές 2,3,5,7 έχουν αντίστοιχα συχνότητες 1,x, y, 3. Αν το μέγεθος του δείγματος είναι 15 και ο μέσος όρος 4 να βρεθεί η τυπική απόκλιση των τιμών του δείγματος.
42 Παραδείγματα στα μέτρα διασποράς Παράδειγμα 2 ο Έχουμε μία ομάδα αγροτικών νοικοκυριών στην Ελλάδα με μέση τιμή εισοδημάτων 10.000 και τυπική απόκλιση 500 και μία ανάλογη ομάδα στις Η.Π.Α. με μέση τιμή εισοδημάτων 30.000$ και τυπική απόκλιση 700$. Πώς θα μπορούσαμε να συγκρίνουμε αυτές τις δύο ομάδες ως προς την διασπορά που παρουσιάζουν;
43 Παραδείγματα στα μέτρα διασποράς Παράδειγμα 3 ο Σε 200 επιχειρήσεις το ύψος των μηνιαίων πωλήσεων δίνονται από τον πίνακα που ακολουθεί. Να βρεθεί η διασπορά των μηνιαίων πωλήσεων. Αξία πωλήσεων xi vi xi vi xi 2 xi 2 vi [4,6) 5 10 50 25 250 [6,8) 7 20 140 49 980 [8,10) 9 30 270 81 2430 [10,12) 11 80 880 121 9680 [12,14) 13 30 390 169 5070 [14,16) 15 20 300 225 4500 [16,18) 17 10 170 289 2890 Σύνολο 200 2200 25800
44 Παραδείγματα στα μέτρα διασποράς Παράδειγμα 4 ο Έχουμε τις στρεμματικές αποδόσεις του βαμβακιού στη Θράκη, Μακεδονία και του καλαμποκιού στη Θεσσαλία που είναι οι ακόλουθές: x x x M 300kgr s 350kgr s M 1150kgr s 58kgr 65kgr 210kgr Να εξεταστούν ως προς την ομοιογένεια τους οι στρεμματικές αποδόσεις των τριών περιοχών της Ελλάδας.
45 Παραδείγματα στα μέτρα διασποράς Παράδειγμα 5 ο Σε ένα δείγμα ο συντελεστής μεταβλητότητας είναι 50%. Η μέση δειγματική τιμή είναι 14,6 και x i i Να βρεθεί το μέγεθος του δείγματος. 2 2218. Παράδειγμα 6 ο 100 Η μέση δειγματική τιμή είναι 4 και i 1 Να βρεθεί η τυπική απόκλιση και ο συντελεστής μεταβλητότητας. 5 x 2 i
46 Βιβλιογραφία 1. Σαριαννίδης, Ν., Κοντέος, Γ., Λαζαρίδης, Θ. (2013). Στατιστική και Οικονομετρία, Εκδόσεις Αλέξανδρος. Ι.Κ.Ε. 2. Κουτρουμανίδης, Θ., Ζαφειρίου, Ε., Μαλέσιος, Χ. (2015). Στατιστική Ι: Θεωρία και Εφαρμογές στην Αγροτική Οικονομία, Εκδόσεις Τζιόλλα.