ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436 A εξάμηνο 2009-2010
Περιγραφική Στατιστική Ι users.att.sch.gr/abouras abouras@sch.gr sch.gr abouras@uth.gr
Μέτρα θέσης Η θέση αντιπροσωπεύει τη θέση της κατανομής κατά μήκος του άξονα των τιμών της μεταβλητής. Μέση Τιμή (Mean) Διάμεσος (Median) Επικρατούσα Τιμή (Mode)
Μέτρα θέσης Μέσος
Μέτρα θέσης Μέσος
Μέτρα θέσης Διάμεσος Η μέση τιμή μιας λίστας τιμών που έχουν διευθετηθεί κατά σειρά μεγέθους. Με άλλα λόγια, η διάμεσος χωρίζει το σύνολο των διατεταγμένων δεδομένων σε δύο ισοπληθή υποσύνολα..
Διάμεσος Μέτρα θέσης Έστω το βάρος επτά ατόμων σε κιλά (n=7) n=7): 80 65 60 70 67 78 68 Το διατεταγμένο δείγμα είναι: 60 65 67 68 70 78 80 Η θέση της διαμέσου είναι: 4 Η τέταρτη παρατήρηση έχει τιμή 68. Άρα, η τιμή της διαμέσου είναι m=68 7+ 1 8 = 2 2
Επικρατούσα τιμή Μέτρα θέσης Η τιμή με τη μεγαλύτερη συχνότητα εμφάνισης, δηλαδή η τιμή αυτή συναντάται συχνότερα από κάθε άλλη στα δεδο- μένα μας. Σημειώσεις: Τα δεδομένα δεν εμφανίζουν πάντα επικρατούσα τιμή. Υπάρχουν περιπτώσεις στις οποίες εντοπίζονται περισσότερες τις μίας επικρατούσες τιμές.
Μέτρα θέσης Επικρατούσα τιμή Παραδείγματα: 1. Τα δεδομένα 3, 5, 1, 7, 5, 7, 9, 2, 7 έχουν επικρατούσα τιμή το 7 με συχνότητα εμφάνισης 3. 2. Τα δεδομένα 10, 11, 14, 20, 14, 11, 7, 18, 14, 11 παρουσιάζουν δύο επικρατούσες τιμές, την τιμή 11 με συχνότητα 3 και την τιμή 14 με την ίδια συχνότητα. 3. Τα δεδομένα 4, 7, 1, 9, 2, 10 δεν εμφανίζουν καμία επικρατούσα τιμή.
Μέτρα διασποράς Μετρούν τη μεταβλητότητα (variability)( των στατιστικών δεδομένων, δηλ. τη διαφοροποίηση των τιμών μιας μεταβλητής μεταξύ των στατιστικών μονάδων. Μικρός βαθμός διαφοροποίησης χαρακτηρίζει ομοιογενή δεδομένα. Στην περίπτωση των πλήρως ομοιογενών δεδομένων, η μεταβλητότητα είναι 0 και ο μέσος όρος αποτελεί το πληρέστερο μέτρο περιγραφής τους. Εύρος (range) Διακύμανση (variance)( Τυπική Απόκλιση (standard deviation)
εύρος Μέτρα διασποράς ενδοτεταρτημοριακό εύρος 50% των παρατηρήσεων
Μέτρα διασποράς Παράδειγμα: Έστω η ηλικία 10 ατόμων του προς ανάλυση δείγματος μας: 60, 27, 36, 21, 5, 33, 43, 29, 39, 45 Εύρος Δείγματος = 60 5 = 55 Έστω η ηλικία 11 ατόμων του προς ανάλυση δείγματος μας: 60, 27, 36, 21, 5, 33, 43, 29, 39, 45, 25 Εύρος Δείγματος = 60 5 = 55 Το εύρος δείγματος μπορεί να μείνει ίδιο ακόμα και αν το πλήθος ή και οι τιμές των δεδομένων αλλάζουν!
Διακύμανση (s 2 ) Μέτρα διασποράς Ο αριθμητικός μέσος των τετραγώνων των αποκλίσεων των τιμών μιας μεταβλητής από τον αριθμητικό τους μέσο.
Μέτρα διασποράς Διακύμανση (s 2 )
Μέτρα διασποράς Διακύμανση (s 2 )
Διακύμανση (s 2 ) Μέτρα διασποράς
Διακύμανση (s 2 ) Μέτρα διασποράς
Τυπική απόκλιση (s)( Μέτρα διασποράς
Τυπική απόκλιση (s)( Μέτρα διασποράς
Μέτρα διασποράς Συντελεστής Μεταβολής (CV( coefficient of variation ) Είναι ανεξάρτητος από τις μονάδες μέτρησης και εκφράζει τη μεταβλητότητα των δεδομένων απαλλαγμένη από την επίδραση της μέσης τιμής
Καμπύλες συχνοτήτων
Καμπύλες συχνοτήτων Ομοιόμορφη κατανομή
Καμπύλες συχνοτήτων Κανονική κατανομή
Καμπύλες συχνοτήτων 80 60 Frequency 40 20 Mean =81,51 Std. Dev. =8,612 N =1.609 0 50,00 60,00 70,00 80,00 marks 90,00 100,00 110,00 Κανονική κατανομή
Συμμετρικά και ασύμμετρα δεδομένα
Συμμετρικά και ασύμμετρα δεδομένα Δείκτης ασυμμετρίας
Καμπύλες συχνοτήτων 60 Frequency 40 20 Mean =18,99 Std. Dev. =20, 725 N =216 0 0 20 40 60 80 100 πόσες φορές εκπαιδευτής 120 Ασύμμετρη θετικά η αριστερά ασυμμετρία
Καμπύλες συχνοτήτων 100 80 Frequency 60 40 20 Mean =8,64 Std. Dev. =1,333 N =343 0 5,00 6,00 7,00 maths 8,00 9,00 10,00 Ασύμμετρη αρνητικά η δεξιά ασυμμετρία
Συμμετρικά και ασύμμετρα δεδομένα Κύρτωση
Συμμετρικά και ασύμμετρα δεδομένα Δείκτης κύρτωσης
Καμπύλες συχνοτήτων
Πίνακες κατανομής συχνοτήτων Παιδιά στην οικογένεια 1 2 3 4 5 Σύνολο Σχετική Αθροιστική σχετική Συχνότητα συχνότητα συχνότητα 52 15,2 15,2 208 60,6 75,8 58 16,9 92,7 20 5,8 98,5 5 1,5 100,0 343 100,0
Ομαδοποίηση των παρατηρήσεων Κλάσεις
Κλάσεις Ύψος μαθητών Γ Λυκείου σε cm Παρατηρούμε ότι το εύρος του δείγματος είναι R= 191-156=35 156=35 Επειδή έχουμε ν=40 παρατηρήσεις, χρησιμοποιούμε κ=6 κλάσεις. Το πλάτος των κλάσεων είναι c=r/k=35/6=5,83 6
Κλάσεις
Κλάσεις ίσου πλάτους Ιστόγραμμα συχνοτήτων
Κλάσεις άνισου πλάτους Ιστόγραμμα συχνοτήτων
Κλάσεις άνισου πλάτους Ιστόγραμμα συχνοτήτων
Γραφική Απεικόνιση Δεδομένων Διαγράμματα για Ποιοτικά Δεδομένα: Κυκλικό Διάγραμμα ή Πίτα (Pie( chart) Ραβδόγραμμα ή Ακιδωτό Διάγραμμα (Bar chart) Διαγράμματα για Ποσοτικά Δεδομένα: Ιστόγραμμα (Histogram) Διάγραμμα Μίσχου-Φύλλου (Stem-and and-leaf Diagram)
Κυκλικό Διάγραμμα ή Πίτα (Pie chart) 23,4% 3,3% 47,5% 15,8% 10% 40
Ραβδόγραμμα ή Ακιδωτό Διάγραμμα (Bar chart) 41
Ιστόγραμμα (Histogram) 42
Επιλογή Πληθυσμού/ Δείγματος Πληθυσμός: : ομάδα που περιλαμβάνει όλες τις ομοειδείς περιπτώσεις ή όλα τα υποκείμενα για τα οποία θέλουμε να εξάγουμε συμπεράσματα από την έρευνά μας. Δείγμα: υπο-σύνολο του πληθυσμού το οποίο επιλέγουμε με μια μέθοδο δειγματοληψίας. Ζητούμενο αποτελεί η αντιπροσωπευτικότητα του επιλεγόμενου δείγματος, προκειμένου να είναι δυνατή η γενίκευση ενός φαινομένου σε ολόκληρο τον πληθυσμό. Η αντιπροσωπευτικότητα καθορίζεται κυρίως από: Μέγεθος δείγματος, Τρόπο επιλογής, δηλ. μέθοδο δειγματοληψίας. Υπάρχουν δύο (2) γενικοί μέθοδοι δειγματοληψίας. 1) Πιθανοθεωρητική Δειγματοληψία, 2) Μη-πιθανοθεωρητική Δειγματοληψία.
Πιθανοθεωρητική Δειγματοληψία 1. Απλή τυχαία δειγματοληψία (simple random sampling): Κάθε μέλος του πληθυσμού έχει την ίδια πιθανότητα να συμπεριληφθεί στο δείγμα. 2. Στρωματοποιημένη τυχαία δειγματοληψία (stratified random sampling): διαιρούμε τον πληθυσμό σε έναν αριθμό (αμοιβαίως αποκλειόμενων) υπο-πληθυσμών πληθυσμών (π.χ. γεωγραφικά διαμερίσματα) και επιλέγουμε ένα τυχαίο δείγμα από κάθε πληθυσμό. 3. Συστηματική δειγματοληψία (systematic sampling): Γίνεται βάσει κάποιου συστήματος που ορίζουμε εμείς (π.χ. από μια λίστα 5000 ατόμων που πρέπει να επιλέξουμε τα 500, χωρίζουμε τα 5000 άτομα σε ομάδες των 10 ατόμων και επιλέγουμε από κάθε ομάδα το 7ο άτομο στη σ σειρά). 4. Δειγματοληψία κατά συστάδες (cluster( sampling): Διαιρούμε τον πληθυσμό σε ομάδες (όχι αναγκαστικά ομοιογενείς) που ονομάζονται συστάδες, από το σύνολο των οποίων διαλέγουμε ένα απλό τυχαίο δείγμα συστάδων. (π.χ. Αν οι γονείς μαθητών δημοτικού είναι ο πληθυσμός και δεν διαθέτουμε ένα κατάλογο με όλους τους γονείς ώστε ώ να κάνουμε τυχαία δειγματοληψία, μπορούμε να θεωρήσουμε ως συστάδες τις ομάδες των γονέων που αντιστοιχούν σε κάθε δημοτικό σχολείο. Επιλέγουμε ένα απλό τυχαίο δείγμα σχολείων και έτσι προκύπτει ένα δείγμα κατά συστάδες (ομάδων γονέων)).
Μη-Πιθανοθεωρητική Δειγματοληψία 1. Συμπτωματικό Δείγμα: Σε αυτή την περίπτωση επιλέγουμε ένα δείγμα που είναι άμεσα διαθέσιμο να συμπεριλάβουμε στην έρευνά μας. 2. Εθελοντές. 3. Επιλογή στην τύχη. 4. Μέσου όρου: επιλογή υποκειμένων ή περιπτώσεων που θεωρούμε ως τα πιο «τυπικά» του πληθυσμού. Τα συμπεράσματα της ανάλυσης που προκύπτουν από ένα δείγμα που επιλέχθηκε από μια μη-πιθανοθεωρητική δειγματοληψία γενικεύονται σε πληθυσμό με χαρακτηριστικά όμοια με το δείγμα.
Κανονική κατανομή τυποποιημένες τιμές standardized values Ως Ζ τιμή ή τυποποιημένη τιμή μιας παρατήρησης (μέτρη( μέτρη- σης) ορίζεται η απόσταση της παρατήρησης αυτής από το μέσο του συνόλου των παρατηρήσεων εκφρασμένη σε μο- νάδες τυπικής απόκλισης. Εναλλακτικά η Ζ-τιμή Ζ ορίζεται ως ο αριθμός των τυπικών α-α ποκλίσεων κατά τις οποίες μια παρατήρηση βρίσκεται πάνω ή κάτω από το μέσο. Z = Χ σ μ
Κανονική κατανομή τυποποιημένες τιμές standardized values Αγόρι 14 ετών: Ύψος 163, μέσος ύψους ηλικίας 155, τυπική απόκλιση κατανομής 9 Κορίτσι 11 ετών: Ύψος 130, μέσος ύψους ηλικίας 128, τυπική απόκλιση κατανομής 7 Είναι τα παιδιά ψηλά; Ποιο θεωρείται ψηλότερο; ( Χ Χ) 163 155 0,89 s 9 Ζ= = = ( Χ Χ ) 130 128 0,29 s 7 Ζ= = =
Κανονική κατανομή Χρησιμότητα και ερμηνεία του πίνακα κανονικής κατανομής
Κανονική κατανομή τυποποιημένες τιμές standardized values Αγόρι: : ύψος 163, μέσος ηλικιακό ύψος 155 Ζ=0,89 Το αγόρι είναι ψηλότερο από το 50+31,33=81,33% των συνομηλίκων του
Κανονική κατανομή τυποποιημένες τιμές standardized values Κορίτσι: : ύψος 130, μέσος ηλικιακό ύψος 128 Ζ=0,29 Το κορίτσι είναι ψηλότερο από το 50+11,41=61,41% των συνομηλίκων της
Κανονική κατανομή τυποποιημένες τιμές standardized values
Κανονική κατανομή τυποποιημένες τιμές standardized values +2,13 = 0,4834 +2,53 = 0,4943
Κανονική κατανομή τυποποιημένες τιμές standardized values
Κανονική κατανομή τυποποιημένες τιμές standardized values
Διαστήματα εμπιστοσύνης για μέσες τιμές X ± a Z1 2 σ n Μέσος = 26 Δείγμα = 100 Τυπική απόκλιση = 8 α = 0,01 8 26 ± 2,58 100 (23,94,28,06) α=0,05 Ζ= 1,96 α=0,01 Ζ= 2,58