Στατιστικοί πίνακες Δημιουργία κλάσεων
Τι είναι οι κλάσεις; Κλάσεις είναι ημιανοικτά διαστήματα της μορφής [α i, b i ), τα οποία είναι ταυτόχρονα και διαδοχικά, έτσι ώστε να μην υπάρχει κάποια τιμή του διαστήματος εντός του οποίου ορίζεται η μεταβλητή, που να μην ανήκει σε κάποια κλάση. Αντί για κλάσεις σε κάποιες βιβλιογραφίες χρησιμοποιείται η λέξη τάξεις.
Παρατηρήσεις Λόγω της μορφής των κλάσεων (διαστήματα), θα πρέπει να αφορούν περιπτώσεις ποσοτικών, συνεχών μεταβλητών, χωρίς αυτό να αποκλείει δημιουργία κλάσεων και για διακριτά (ασυνεχή) δεδομένα, τα οποία όμως εμφανίζουν μεγάλος εύρος τιμών. Θα πρέπει όλες οι παρατηρήσεις (δεδομένα) να ενταχθούν στις κλάσεις που δημιουργούνται.
.Συνέχεια παρατηρήσεων Θα πρέπει η πρώτη και η τελευταία κλάση να έχουν τουλάχιστον μία παρατήρηση (ένα δεδομένο), που να ανήκει σε αυτές. Μόνο η τελευταία κλάση μπορούμε να θεωρήσουμε ότι είναι ένα κλειστό διάστημα της μορφής [α k, b k ], όπου k το πλήθος των κλάσεων που θα χρησιμοποιηθούν.
Εύρος τιμών δείγματος Ως εύρος τιμών δείγματος αναφέρεται η διαφορά της ελάχιστης από τη μέγιστη παρατήρηση του δείγματος. Συμβολίζεται με το γράμμα R (Range) R=x max -x min
Ιδανικό πλήθος κλάσεων Σε κάθε πρόβλημα, στο οποίο καλούμαστε να χρησιμοποιήσουμε κλάσεις θα πρέπει να βρούμε το πλήθος τους. Αν το πρόβλημα δεν αναφέρει πόσες κλάσεις πρέπει να δημιουργήσουμε, θα πρέπει εμείς να αποφασίσουμε για το πλήθος τους.
συνέχεια Το πλήθος θα πρέπει να μην είναι μικρό, αλλά ούτε και μεγάλο. Σίγουρα δεν έχει νόημα να έχουμε 1 κλάση σε ένα πρόβλημα, όπως και επίσης αν θέλουμε να δημιουργήσουμε 30 κλάσεις αυτό είναι υπερβολικό.
Κανόνας Sturges Ένας εμπειρικός κανόνας για τον καλύτερο αριθμό κλάσεων (κανόνας του Sturges) Ο ιδανικός αριθμός κλάσεων για Ν μετρήσεις είναι ο πλησιέστερος ακέραιος αριθμός προς τον αριθμό k, που παρέχεται από τη σχέση: k = 1 + 3,322 log 10 N
Πλάτος κλάσης Πλάτος κλάσης [α i,b i ] είναι η διαφορά του αριστερού άκρου της από το δεξί της άκρο. Συμβολίζουμε με c και είναι: c=b i -α i
Σύνδεση Εύρους R, πλάτους c και πλήθους k Η σχέση που συνδέει R, c και k είναι η : k R c
Άσκηση Σε μία στατιστική έρευνα καταγράφησαν οι βαθμοί 50 φοιτητών με βαθμούς στην κλίμακα 0-100. 35 56 98 45 100 95 20 50 91 93 85 100 64 99 90 87 72 51 90 52 86 84 45 65 98 75 97 50 62 55 60 15 60 62 80 78 75 60 92 80 65 90 55 70 82 70 96 95 94 78
Διερεύνηση προβλήματος Το ιδανικό θα ήταν να ταξινομηθούν οι παρατηρήσεις σε αύξουσα σειρά. Η ταξινόμηση είναι εύκολη στον υπολογιστή, αλλά αρκετά δύσκολη στο χαρτί. X min =15 και x max =100 R=100-15=85
συνέχεια λύσης Σύμφωνα με τον κανόνα που μάθαμε: k = 1 + 3,322 log 10 N Άρα k=1+3,322log 10 50 k 6,643978 k 7 κλάσεις
συνέχεια διερεύνησης c k R 85 7 12,14286 Αν το πλάτος των κλάσεων στρογγυλοποιηθεί στο 12, τότε για να δημιουργήσουμε 7 ίσου πλάτους κλάσεις
συνέχεια διερεύνησης Συνήθως η πρώτη κλάση πρέπει να ξεκινάει από την ελάχιστη παρατήρηση και να έχει πλάτος το 12 που υπολογίσαμε προηγουμένως. Κλάσεις: [15, 27) [27, 39) [39, 51) [51, 63) [63, 75) [75, 87) [87,99)
Τι παρατηρείτε από την επιλογή των κλάσεων; Κάποιες παρατηρήσεις βρίσκονται εκτός της τελευταίας κλάσης ακόμα και αν αυτή πάρει την μορφή: [87,99] Οι δύο παρατηρήσεις 100 και 100 δεν ανήκουν σε καμία κλάση.
Τι θα πρέπει να προσέξουμε στην δημιουργία των κλάσεων; Όλες οι παρατηρήσεις θα πρέπει να εντάσσονται στις κλάσεις, επομένως οι στρογγυλοποιήσεις θα είναι καλό να γίνονται προς τον επόμενο ακέραιο. Άρα καλύτερα c=13, ακόμα και c=15
Για c=13 οι κλάσεις γίνονται: [15, 28) [28, 41) [41, 54) [54, 67) [67, 80) [80,93) [93,106)
Συχνότητα (ν i ) Είναι το πλήθος των εμφανίσεων μιας συγκεκριμένης παρατήρησης στο σύνολο του δείγματος, δηλ. πιο μαθηματικά αν x 1, x 2, x 3,, x κ οι τιμές μιας μεταβλητής Χ ενός δείγματος μεγέθους ν, τότε συχνότητα της τιμής x i, i = 1, 2, 3,, κ λέγεται ο φυσικός αριθμός ν i που δείχνει πόσες φορές η μεταβλητή Χ παίρνει την τιμή x i.
Δημιουργούμε πίνακα Κλάσεις Συχνότητα ν i [15, 28) 2 [28, 41) 1 [41, 54) 6 [54, 67) 11 [67,80) 7 [80,93) 12 [93, 106) 11 Σύνολο 50
Σχετική συχνότητα ( f i ) Είναι το ποσοστό των εμφανίσεων μιας συγκεκριμένης τιμής στο σύνολο του δείγματος. Αν x 1, x 2, x 3,, x κ οι τιμές μιας μεταβλητής Χ ενός δείγματος μεγέθους ν και ν 1, ν 2, ν 3,, ν κ οι αντίστοιχες συχνότητές τους, τότε σχετική συχνότητα της τιμής x i, i = 1, 2, 3,, κ λέγεται αριθμός vi f, i = 1, 2, 3,, κ. i v Η σχετική συχνότητα μπορεί να εκφραστεί σε vi ποσοστό % f % 100% v i
Αθροιστική συχνότητα ( Ν i ) Είναι το πλήθος των παρατηρήσεων που βρίσκονται κάτω από μια συγκεκριμένη τιμή μέσα στο δείγμα μας. Αν οι τιμές x 1, x 2, x 3,, x κ μιας ποσοτικής μεταβλητής Χ, ενός δείγματος μεγέθους ν, είναι σε αύξουσα διάταξη και ν1, ν2, ν3,, ν κ οι αντίστοιχες συχνότητές τους, τότε αθροιστική συχνότητα της τιμής x i, i = 1, 2, 3,, κ λέγεται ο φυσικός αριθμός Ν i = ν 1 + ν 2 + ν 3 + + ν i που δείχνει πόσες παρατηρήσεις είναι μικρότερες ή ίσες της τιμής x i.
Αθροιστική σχετική συχνότητα ( F i ) Είναι το ποσοστό των παρατηρήσεων που βρίσκονται κάτω από μια συγκεκριμένη τιμή μέσα στο δείγμα μας. Αν οι τιμές x 1, x 2, x 3,, x κ μιας ποσοτικής μεταβλητής Χ, ενός δείγματος μεγέθους ν, είναι σε αύξουσα διάταξη και f 1, f 2, f 3,,f κ οι αντίστοιχες σχετικές συχνότητές τους, τότε αθροιστική σχετική συχνότητα της τιμής x i, i = 1, 2, 3,, κ λέγεται ο αριθμός F i = f 1 + f 2 + f 3 + +f κ