Μέτρα θέσης και διασποράς
Η επικρατούσα τιμή ως μέτρο κεντρικής τάσης Εύκολο στον υπολογισμό Επικρατούσα τιμή Η πιο συχνή ή η πιο συχνά εμφανιζόμενη τιμή σε ένα σύνολο τιμών 11, 3, 8, 2, 1, 5, 3, 7 Επικρατούσα τιμή= 3 Μπορούμε να έχουμε πάνω από μια επικ.τιμή 11, 3, 8, 2, 1, 5, 3, 7, 8 Επικρατούσα τιμή= 3 και 8 Αν έχουμε 2 επικρατούσες τιμές τότε η κατανομή είναι δικόρυφη
Η διάμεσος ως μέτρο κεντρικής τάσης Διάμεσος Το μέσο των δεδομένων όταν τα δεδομένα είναι σε αύξουσα σειρά (ή φθίνουσα σειρά). 11, 8, 2, 1, 5, 3, 7 Τοποθετήστε τα δεδομένα σε αύξουσα σειρά (ή φθίνουσα σειρά) 1, 2, 3, 5, 7, 8, 11 Σε περίπτωση που έχουμε μονό αριθμό δεδομένων τότε η διάμεσος είναι απλά η μεσαία παρατήρηση. 1, 2, 3, 5, 7, 8, 11
Η διάμεσος ως μέτρο κεντρικής τάσης Αν έχετε ζυγό αριθμό δεδομένων 1, 2, 3, 5, 7, 8, 11, 14 Εντοπίστε τις 2 μεσαίες τιμές 1, 2, 3, 5, 7, 8, 11, 14 Προσθέστε τις και διαιρέστε τις δια δύο (5 + 7)/2 = 6 Διάμεσος= 6
Ο μέσος ως μέτρο κεντρικής τάσης Ο μέσος χρειάζεται λίγο περισσότερους υπολογισμούς Αθροίζουμε ένα σύνολο δεδομένων και τα διαιρούμε με το πλήθος των δεδομένων Στατιστικά σύμβολα: Σύμβολο για τιμές είναι X Σύμβολο για μέσο είναι Σύμβολο για άθροισμα Σύμβολο για άθροισμα τιμών είναι X Σύμβολο για πλήθος δεδομένων είναι N x
Άρα ο τύπος για το μέσο είναι:
Παραδείγμα Δευτερόλεπτα που χρειάζεται ένα πρόγραμμα στον υπολογιστή για να λύσει τον κύβο του Ρούμπικ 5, 7, 3, 6, 1, 2, 7, 4, 7 Επικρατούσα τιμή 5, 7, 3, 6, 1, 2, 7, 4, 7, = 7 Διάμεσος 1, 2, 3, 4, 5, 6, 7, 7, 7 = 5 Μέσος 5 + 7 + 3 + 6 + 1 + 2 + 7 + 4 + 7 = 42/9 = 4.66
Διασπορά Εύρος Διακύμανση & Τυπική απόκλιση Μέτρα κεντρικής τάσης πρέπει πάντοτε να παρουσιάζονται με τα κατάλληλα μέτρα διασποράς Εύρος χαρακτηρίζεται η απόσταση της μεγαλύτερης από την μικρότερη τιμή 2, 7, 9, 3, 7, 9, 1, 2, 3, 7 Εύρος= 9-1 = 8
Υπολογίζοντας την τυπική απόκλιση [Μέρος 1] Το πόσο διαφέρει μια τιμή από το μέσο υπολογίζεται πολύ εύκολα αφαιρώντας από την τιμή αυτή το μέσο Κάποιες τιμές θα είναι μικρότερες από το μέσο και κάποιες μεγαλύτερες, για το λόγο αυτό κάποιες αποκλίσεις θα είναι αρνητικές Πχ. Η τιμή 65 και ο μέσος 80: η τιμή της απόκλισης είναι -15 (65-80)
Υπολογίζοντας την τυπική απόκλιση [Μέρος 1] Η απόκλιση μας υποδεικνύει πόσο μακριά βρίσκεται μια τιμή από το μέσο Κάποιες τιμές θα αποκλίνουν από το μέσο περισσότερο από άλλες Θέλουμε να αθροίσουμε τη διακύμανση πολλών δεδομένων τα οποία αποκλίνουν από το μέσο, με διαφορετικό τρόπο, θα πρέπει να υπολογίσουμε τη μέση απόκλιση από το μέσο
Υπολογίζοντας την τυπική απόκλιση [Μέρος 1] Αυτό που θέλουμε είναι ένα στατιστικό μέτρο το οποίο είναι σαν το μέσο όλων των αποκλίσεων έτσι ώστε να γνωρίζουμε το μέσο αριθμό των τιμών που βρίσκονται απλωμένα γύρω από το μέσο Αυτό γίνεται ως εξής:..
Υπολογίζοντας την τυπική απόκλιση [Μέρος 1] Υπολογίζουμε την απόκλιση για κάθε τιμή (τιμή - μέσος) Κάποιες τιμές θα είναι αρνητικές Πχ., 65-80 = -15 Κάποιες τιμές θα είναι θετικές Πχ.., 95-80 = 15 Θα μπορούσαμε, ενδεχομένως Να αθροίσουμε όλες τις αποκλίσεις Να τις διαιρέσουμε με το πλήθος των αποκλίσεων Δυστυχώς, αυτό θα μας έδινε μια τιμή ίση με μηδέν (οι αρνητικές αποκλίσεις θα ακύρωναν τις θετικές αποκλίσεις) Οπότε ας μην το κάνουμε αυτό.
Υπολογίζοντας την τυπική απόκλιση [Μέρος 2] Μια καλύτερη μέθοδος είναι η εξής Υπολογίστε την απόκλιση για κάθε τιμή (Τιμή Μέσο) X - Βάλτε στο τετράγωνο την κάθε απόκλιση x (X - ) 2 Αθροίστε όλες τις τετραγωνισμένες αποκλίσεις x (X - ) 2 Διαιρέστε με τον αριθμό των τετραγωνισμένων αποκλίσεων (X - ) 2 N x x = διακύμανση
Υπολογίζοντας την τυπική απόκλιση [Μέρος 3] Αυτή η διαδικασία μας δίνει έναν αριθμό γνωστό ως διακύμανση δείγματος Καθώς όμως συνήθως μας ενδιαφέρει ο πληθυσμός και όχι το δείγμα, συνήθως χρησιμοποιούμε έναν αριθμό που τον λέμε Πληθυσμιακή διακύμανση x (X - ) 2 N - 1 (χρησιμοποιούμε N 1 αντί N)
Υπολογίζοντας την τυπική απόκλιση [Μέρος 3] Οι Στατιστικοί ανακάλυψαν ότι χρησιμοποιώντας το N - 1 στον τύπο (και όχι N), παίρνουμε μια καλή εκτίμηση του πως θα ήταν η διακύμανση αν ήμασταν σε θέση να ερευνήσουμε όλο τον πληθυσμό Είναι μια διόρθωση η οποία αναγνωρίζει ότι χρησιμοποιούμε ένα δείγμα για να πούμε κάτι το οποίο αναφέρεται στον πληθυσμό Αν και αυτός ο τύπος μπορεί να δείχνει κάπως τρομακτικός, όπως είδαμε, χρησιμοποιούμε απλές ποσότητες για μια σειρά από απλές διαδικασίες.
Παράδειγμα Έστω οι παρακάτω χρόνοι παρακολούθησης τηλεόρασης σε μια εβδομάδα: 2, 7, 9, 3, 7, 9, 1, 2, 3, 7 Φτιάχνουμε ένα πίνακα με τρείς στήλες και τοποθετούμε τις τιμές μας στην αριστερή στήλη
Παράδειγμα 1) Φτιάχνουμε ένα πίνακα με τρείς στήλες και τοποθετούμε τις τιμές μας στην αριστερή στήλη 2) Υπολογίζουμε το μέσο: 5 3)Υπολογίζουμε την απόκλιση κάθε τιμής και τα γράφουμε στη μεσαία 4) Βρίσκουμε το τετράγωνο της κάθε απόκλισης και γράφουμε τα αποτελέσματα στη δεξιά στήλη 5) Υπολογίζουμε το άθροισμα των τετραγώνων των αποκλίσεων (άθροισμα της δεξιάς στήλης) Τιμές Αποκλίσεις ( τιμή -μέσο ) Απόκλιση στο τετράγωνο 2-3 9 7 2 4 9 4 16 3-2 4 7 2 4 9 4 16 1-4 16 2-3 9 3-2 4 7 2 4 = 50 = 86 N = 10 N - 1 = 9 x = 5 Διακύμανση = 9.6 6) Διαιρούμε το άθροισμα των τετραγώνων με N 1
Υπολογίζοντας την τυπική απόκλιση [Μέρος 4] Που χρησιμοποιείται η διακύμανση; Σε στατιστικά τεστ όπως το t-test Περιγράφει τα δεδομένα σε ένα δείγμα Χρησιμοποιείται για να υπολογιστεί η τυπική απόκλιση! Ερ: Πως υπολογίζεται η τυπική απόκλιση; Aπ: Η τυπική απόκλιση είναι η τετραγωνική ρίζα της διασποράς Παράδειγμα Τετραγωνική ρίζα του 9.6 είναι 3.1 (3.0983866) Οπότε, η τυπική απόκλιση είναι 3.1
Τύπος για την τυπική απόκλιση ( x x ) 2 N 1
Ερμηνεύοντας την τυπική απόκλιση (ή SD) Η τυπική απόκλιση, SD είναι (λίγο ή πολύ) ο μέσος των αποκλίσεων Γι αυτό,στο παράδειγμα με τις ώρες παρακολούθησης οι τιμές διαφέρουν ή αποκλίνουν από τη μέση τιμή κατά «μέσο όρο» 3.1 Μετρά το κατά πόσο οι τιμές είναι υπολογισμένες με ακρίβεια από το μέσο Αν η τυπική απόκλιση είναι μεγάλη, τότε γνωρίζουμε ότι ένας μεγάλος αριθμός των τιμών είναι μεγαλύτερος ή μικρότερος από το μέσο, και μόνο ένας μικρός αριθμός δεδομένων είναι κοντά στο μέσο
Ερμηνεύοντας την τυπική απόκλιση (ή SD) Για το λόγο αυτό όταν η τυπική απόκλιση είναι πολύ μεγάλη, ο μέσος δεν είναι μια καλή εκτίμηση των δεδομένων. Θα πρέπει πάντα να υπολογίζετε την τυπική απόκλιση όταν υπολογίζετε το μέσο! Χωρίς την τυπική απόκλιση (συχνά τη βλέπουμε ως SD.) δεν δίνετε μια πλήρη εικόνα!
Ερμηνεύοντας την τυπική απόκλιση (ή SD) Η τυπική απόκλιση μας λέει ότι τα περισσότερα δεδομένα μας βρίσκονται μεταξύ του -1 τυπική απόκλιση από το μέσο και +1 τυπική απόκλιση από το μέσο Αν το γνωρίζουμε ότι η μέση τιμή είναι 5 και η τυπική απόκλιση είναι 3.1, μπορούμε να πούμε ότι τα περισσότερα δεδομένα μας θα είναι μεταξύ1.9 και 8.1