ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436 Χειμερινό εξάμηνο 2009-2010
Περιγραφική Στατιστική Ι users.att.sch.gr/abouras abouras@sch.gr sch.gr abouras@uth.gr ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Χειμερινό Εξάμηνο 2009-2010
Μέτρα θέσης Η θέση αντιπροσωπεύει τη θέση της κατανομής κατά μήκος του άξονα των τιμών της μεταβλητής. Μέση Τιμή (Mean) Διάμεσος (Median) Επικρατούσα Τιμή (Mode)
Μέτρα θέσης Μέσος
Μέτρα θέσης Μέσος
Μέτρα θέσης Διάμεσος Η μέση τιμή μιας λίστας τιμών που έχουν διευθετηθεί κατά σειρά μεγέθους. Με άλλα λόγια, η διάμεσος χωρίζει το σύνολο των διατεταγμένων δεδομένων σε δύο ισοπληθή υποσύνολα..
Διάμεσος Μέτρα θέσης Έστω το βάρος επτά ατόμων σε κιλά (n=7) n=7): 80 65 60 70 67 78 68 Το διατεταγμένο δείγμα είναι: 60 65 67 68 70 78 80 Η θέση της διαμέσου είναι: 4 Η τέταρτη παρατήρηση έχει τιμή 68. Άρα, η τιμή της διαμέσου είναι m=68 7+ 1 8 = 2 2
Επικρατούσα τιμή Μέτρα θέσης Η τιμή με τη μεγαλύτερη συχνότητα εμφάνισης, δηλαδή η τιμή αυτή συναντάται συχνότερα από κάθε άλλη στα δεδο- μένα μας. Σημειώσεις: Τα δεδομένα δεν εμφανίζουν πάντα επικρατούσα τιμή. Υπάρχουν περιπτώσεις στις οποίες εντοπίζονται περισσότερες τις μίας επικρατούσες τιμές.
Μέτρα θέσης Επικρατούσα τιμή Παραδείγματα: 1. Τα δεδομένα 3, 5, 1, 7, 5, 7, 9, 2, 7 έχουν επικρατούσα τιμή το 7 με συχνότητα εμφάνισης 3. 2. Τα δεδομένα 10, 11, 14, 20, 14, 11, 7, 18, 14, 11 παρουσιάζουν δύο επικρατούσες τιμές, την τιμή 11 με συχνότητα 3 και την τιμή 14 με την ίδια συχνότητα. 3. Τα δεδομένα 4, 7, 1, 9, 2, 10 δεν εμφανίζουν καμία επικρατούσα τιμή.
Μέτρα διασποράς Μετρούν τη μεταβλητότητα (variability)( των στατιστικών δεδομένων, δηλ. τη διαφοροποίηση των τιμών μιας μεταβλητής μεταξύ των στατιστικών μονάδων. Μικρός βαθμός διαφοροποίησης χαρακτηρίζει ομοιογενή δεδομένα. Στην περίπτωση των πλήρως ομοιογενών δεδομένων, η μεταβλητότητα είναι 0 και ο μέσος όρος αποτελεί το πληρέστερο μέτρο περιγραφής τους. Εύρος (range) Διακύμανση (variance)( Τυπική Απόκλιση (standard deviation)
Εύρος ή έκταση (Range)( Μέτρα διασποράς To σημαντικότερο πλεονέκτημα της έννοιας του εύρους εί- ναι η απλότητά της και η ευκολία στον υπολογισμό της. Το μεγαλύτερο μειονέκτημά της είναι ότι εξαρτάται από δύο μόνο τιμές του συνόλου των παρατηρήσεων. Είναι δη- λαδή απόλυτα εξαρτημένη (και επομένως ευαίσθητη) από τις δυο ακραίες τιμές των παρατηρήσεων χωρίς να λαβαίνει καθόλου υπόψη τις άλλες τιμές.
Εύρος ή έκταση (Range)( Μέτρα διασποράς Παράδειγμα 1ο: Το εύρος του συνόλου των τιμών 1, 2, 3, 7, 12 είναι: 12-1=11 (μέσος-5) Το εύρος του συνόλου των δεδομένων 1, 1, 1, 12, 12 είναι: 12-1=11 (μέσος=5,4) Το δεύτερο σύνολο δεδομένων εμφανίζει πολύ μεγαλύτερη μεταβλητότητα από ότι το πρώτο.
Εύρος ή έκταση (Range)( Μέτρα διασποράς Παράδειγμα 2ο: Βαθμολογία Τμήμα Α: 13, 13, 14, 15, 15, 15, 15, 16, 16, 18 (μέσος=15) Τμήμα Β: 10, 13, 14, 14, 15, 15, 15, 16, 18, 20 (μέσος=15) R A = 18-13=5 και R B = 20-10=10 Στο τμήμα Β έχουμε μεγαλύτερη διασπορά βαθμολογίας παρά στο τμήμα Α.
Εύρος ή έκταση (Range)( Μέτρα διασποράς Όταν έχουμε ομαδοποιημένα δεδομένα, το εύρος δίνεται από τη διαφορά του κατώτερου ορίου της πρώτης κλάσης από το ανώτερο όριο της τελευταίας κλάσης. Το εύρος σε ομαδοποιημένα δεδομένα μπορεί να διαφέρει ελαφρώς από τα αντίστοιχα δεδομένα πριν αυτά ομαδοποιηθούν.
Εύρος ή έκταση (Range)( Μέτρα διασποράς R=191-156=35, ενώ ομαδοποιημένα R=192-156=36
Εύρος ή έκταση (Range)( Μέτρα διασποράς
ενδοτεταρτημοριακό εύρος Μέτρα διασποράς Προκειμένου να παρακαμφθούν τα μειονεκτήματα του εύρους, συχνά χρησιμοποιείται το ενδοτεταρτομοριακό εύρος (interquartile range). Πρόκειται για το εύρος ενός μόνο κεντρικού τμήματος της κατανομής. Το εύρος αυτό χρησιμοποιεί ιεραρχικά ταξινομημένες τιμές και μετρά τη διασπορά του μεσαίου 50% των τιμών, δηλαδή εκείνων που είναι αρκετά αντιπροσωπευτικές του συνολικού δείγματος. Το υπόλοιπο 50% των τιμών (το ανώτερο 25% και το κατώτερο 25% των τιμών) δεν λαμβάνεται υπόψη.
ενδοτεταρτημοριακό εύρος Μέτρα διασποράς Τα σημεία που χωρίζουν την κατανομή σε τέσσερα ίσα τμήματα ονομάζονται τεταρτημόρια (quartiles). Κάθε ομάδα τιμών έχει τρια τεταρτημόρια: 1ο τεταρτημόριο: το σημείο της κατανομής κάτω από το ο- ποίο βρίσκεται το 25% των τιμών της (ή 25ο εκατοστημόριο) 2ο τεταρτημόριο: είναι η διάμεσος της κατανομής (50ο ε- κατοστημόριο) 3ο τεταρτημόριο: είναι το σημείο της κατανομής κάτω από το οποίο βρίσκεται το 75% των τιμών (75ο εκατοστημόριο)
ενδοτεταρτημοριακό εύρος Μέτρα διασποράς Παράδειγμα: (περιττός αριθμός) 7, 18, 12, 17, 29, 18, 4, 27, 30, 2, 4, 10, 21, 5, 8 2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30 1ο τεταρτημόριο: Ν+1/4=(15+1)/4=4 θέση, δηλαδή το 5 2ο τεταρτημόριο: (Ν+1)/2=(15+1)/2=8 θέση, δηλαδή 12 3ο τεταρτημόριο: 3(Ν+1)/4=3(15+1)/4=12 θέση, άρα 21
Μέτρα διασποράς Παράδειγμα: (άρτιος αριθμός) 16, 25, 4, 18, 11, 13, 20, 8, 11, 9 4, 8, 9, 11, 11, 13, 16, 18, 20, 25 1ο τεταρτημόριο: (Ν+1)/4=(10+1)/4=2,75 θέση Άρα 8 + 0,75 (9-8)=8,75 2ο τεταρτημόριο: ((Ν+1)/2=(10+1)/2=5,5 θέση Άρα 11+0,5(13-11)=12
ενδοτεταρτημοριακό εύρος Μέτρα διασποράς Παράδειγμα: (άρτιος αριθμός) 16, 25, 4, 18, 11, 13, 20, 8, 11, 9 4, 8, 9, 11, 11, 13, 16, 18, 20, 25 3ο τεταρτημόριο: 3(Ν+1)/4=3(10+1)/4=8,25 θέση Άρα 18 + 0,25 (20-18)=18,5
Μέτρα διασποράς Παράδειγμα: Έστω η ηλικία 10 ατόμων του προς ανάλυση δείγματος μας: 60, 27, 36, 21, 5, 33, 43, 29, 39, 45 Εύρος Δείγματος = 60 5 = 55 Έστω η ηλικία 11 ατόμων του προς ανάλυση δείγματος μας: 60, 27, 36, 21, 5, 33, 43, 29, 39, 45, 25 Εύρος Δείγματος = 60 5 = 55 Το εύρος δείγματος μπορεί να μείνει ίδιο ακόμα και αν το πλήθος ή και οι τιμές των δεδομένων αλλάζουν!
Διακύμανση (s 2 ) Μέτρα διασποράς Ο αριθμητικός μέσος των τετραγώνων των αποκλίσεων των τιμών μιας μεταβλητής από τον αριθμητικό τους μέσο.
Μέτρα διασποράς Διακύμανση (s 2 )
Μέτρα διασποράς Διακύμανση (s 2 )
Διακύμανση (s 2 ) Μέτρα διασποράς
Διακύμανση (s 2 ) Μέτρα διασποράς
Τυπική απόκλιση (s)( Μέτρα διασποράς
Τυπική απόκλιση (s)( Μέτρα διασποράς
Μέτρα διασποράς Συντελεστής Μεταβολής (CV( coefficient of variation ) Είναι ανεξάρτητος από τις μονάδες μέτρησης και εκφράζει τη μεταβλητότητα των δεδομένων απαλλαγμένη από την επίδραση της μέσης τιμής
Καμπύλες συχνοτήτων
Καμπύλες συχνοτήτων Ομοιόμορφη κατανομή
Καμπύλες συχνοτήτων Κανονική κατανομή
Καμπύλες συχνοτήτων 80 60 Frequency 40 20 Mean =81,51 Std. Dev. =8,612 N =1.609 0 50,00 60,00 70,00 80,00 marks 90,00 100,00 110,00 Κανονική κατανομή
Συμμετρικά και ασύμμετρα δεδομένα
Συμμετρικά και ασύμμετρα δεδομένα Δείκτης ασυμμετρίας
Καμπύλες συχνοτήτων 60 Frequency 40 20 Mean =18,99 Std. Dev. =20, 725 N =216 0 0 20 40 60 80 100 πόσες φορές εκπαιδευτής 120 Ασύμμετρη θετικά η αριστερά ασυμμετρία
Καμπύλες συχνοτήτων 100 80 Frequency 60 40 20 Mean =8,64 Std. Dev. =1,333 N =343 0 5,00 6,00 7,00 maths 8,00 9,00 10,00 Ασύμμετρη αρνητικά η δεξιά ασυμμετρία
Συμμετρικά και ασύμμετρα δεδομένα Κύρτωση
Συμμετρικά και ασύμμετρα δεδομένα Δείκτης κύρτωσης
Καμπύλες συχνοτήτων
Πίνακες κατανομής συχνοτήτων Παιδιά στην οικογένεια 1 2 3 4 5 Σύνολο Σχετική Αθροιστική σχετική Συχνότητα συχνότητα συχνότητα 52 15,2 15,2 208 60,6 75,8 58 16,9 92,7 20 5,8 98,5 5 1,5 100,0 343 100,0
Ομαδοποίηση των παρατηρήσεων Κλάσεις
Κλάσεις Ύψος μαθητών Γ Λυκείου σε cm Παρατηρούμε ότι το εύρος του δείγματος είναι R= 191-156=35 156=35 Επειδή έχουμε ν=40 παρατηρήσεις, χρησιμοποιούμε κ=6 κλάσεις. Το πλάτος των κλάσεων είναι c=r/k=35/6=5,83 6
Κλάσεις
Κλάσεις ίσου πλάτους Ιστόγραμμα συχνοτήτων
Κλάσεις άνισου πλάτους Ιστόγραμμα συχνοτήτων
Κλάσεις άνισου πλάτους Ιστόγραμμα συχνοτήτων
Γραφική Απεικόνιση Δεδομένων Διαγράμματα για Ποιοτικά Δεδομένα: Κυκλικό Διάγραμμα ή Πίτα (Pie( chart) Ραβδόγραμμα ή Ακιδωτό Διάγραμμα (Bar chart) Διαγράμματα για Ποσοτικά Δεδομένα: Ιστόγραμμα (Histogram) Διάγραμμα Μίσχου-Φύλλου (Stem-and and-leaf Diagram)
Κυκλικό Διάγραμμα ή Πίτα (Pie chart) 23,4% 3,3% 47,5% 15,8% 10% 50
Ραβδόγραμμα ή Ακιδωτό Διάγραμμα (Bar chart) 51
Ιστόγραμμα (Histogram) 52