I. Αριθμητικά περιγραφικά μέτρα Μέτρα θέσης ή κεντρικής τάσης (cetral tedecy) Χρήσιμα για την περιγραφή της θέσης της κατανομής από την οποία προέρχονται. Δημοφιλέστερα: Μέση τιμή, κορυφή και διάμεσος. Η δειγματική μέση τιμή (mea) είναι ο μέσος όρος των παρατηρήσεων Συμβολισμοί: αριθμός παρατηρήσεων ενός πληθυσμού, N αριθμός παρατηρήσεων ενός δείγματος, μέση τιμή του πληθυσμού, μ μέση τιμή του δείγματος, k i ja j k Υπολογισμός δειγματικού μέσου i 1 j1 ή j1 f j a j Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (1)
Η κορυφή (mode) είναι η επικρατέστερη τιμή του δείγματος, δηλ. αυτή με την μέγιστη συχνότητα Η διάμεσος (media) δ είναι η τιμή που βρίσκεται στην μέση των δεδομένων αν διατάξουμε τα δεδομένα. Όταν το σύνολο δεδομένων έχει άρτιο αριθμό παρατηρήσεων τότε η κορυφή είναι ο μέσος των δύο μεσαίων δεδομένων. Διατάσσουμε τα δεδομένα { 1,,, } και συμβολίζουμε το διατεταγμένο σύνολο ως { (1), (),, () }. Τότε ( r) ( r) ( r1) r 1 Παρατήρηση: Αν η κατανομή είναι συμμετρική, τότε ο μέσος, η κορυφή και η διάμεσος συμπίπτουν. r Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας ()
Ποσοστημόριο (quatiles): μέτρο σχετικής θέσης το a-οστό ποσοστημόριο είναι η τιμή από την οποία το a% των τιμών είναι μικρότερο από την τιμή αυτή και (100- a)% είναι μεγαλύτερο από την τιμή αυτή Όταν a={5, 50, 75} τότε έχουμε τεταρτημόρια (quartiles) a=5 : Q 1 πρώτο τεταρτημόριο a=75 : Q 3 τρίτο τεταρτημόριο a=50 : Q = δ, δηλ. το δεύτερο τεταρτημόριο είναι η διάμεσος Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (3)
Μέτρα διασποράς Εκφράζουν αποκλίσεις των τιμών μιας μεταβλητής γύρω από τα μέτρα κεντρικής τάσης Εύρος (rage) ή κύμανση = ma τιμή mi τιμή Ενδοτεταρτημοριακή απόκλιση = Q 3 Q 1 Μετράει το άπλωμα του 50% των μεσαίων παρατηρήσεων. Μεγάλες τιμές αυτής της στατιστικής σημαίνουν ότι το 1ο και 3ο τεταρτημόριο απέχουν υποδεικνύοντας υψηλό επίπεδο μεταβλητότητας. Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (4)
Μέση απόκλιση (mea deviatio) Το μέσο της απόκλισης των τιμών από το μέσο τους Δειγματική διασπορά ή διακύμανση (variace) Τυπική απόκλιση (stadard deviatio) Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (5) MO i i 1 1 1 s i i 1 1 s i i
Αν το ιστόγραμμα είναι προσεγγιστικά σαν τη σ.π.π. της κανονικής κατανομής, τότε ισχύουν οι εμπειρικοί κανόνες To 68% των τιμών βρίσκονται στο διάστημα s Το 95% των τιμών βρίσκονται στο διάστημα s Το 99% των τιμών βρίσκονται στο διάστημα 99% 3s 95% Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (6)
Για μη-συμμετρικές κατανομές ισχύει η ανισότητα του Chebyshev: P 1 k 1 k δηλ. το ποσοστό των δεδομένων που βρίσκονται με απόκλιση k φορές γύρω από το μέσο είναι τουλάχιστον 1-1/k Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (7)
Θηκογράμματα (bo plots) Βήματα κατασκευής Βρίσκουμε τα δύο τεταρτημόρια Q1, Q3 και την διάμεσο δ. Κατασκευάζουμε ένα ορθογώνιο με την κάτω πλευρά στο Q1, την πάνω πλευρά στο Q3 και τη διάμεσος να παριστάνεται ως ευθύγραμμο τμήμα μέσα στο ορθογώνιο παράλληλο με τις βάσεις. Φέρουμε γραμμές από τα μέσα των βάσεων του ορθογωνίου μέχρι τις οριακές (adjacet) τιμές που προκύπτουν: Άνω οριακή: η μεγαλύτερη παρατήρηση που είναι του Q3+1.5(Q3-Q1)=Q3+3Q Κάτω οριακή: η μικρότερη παρατήρηση που είναι του Q1-1.5(Q3-Q1)=Q1-3Q Οι προεκτεινόμενες γραμμές ονομάζονται μύστακες (whiskers). Κάθε σημείο που πέφτει έξω από τους μύστακες καλείται ακραία τιμή (outlier) Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (8)
Θηκογράμματα (bo plots) Τα θηκογράμματα μας δίνουν το κεντρικό διάστημα με το 50% των παρατηρήσεων μεταξύ του 1 ου και 3 ου τεταρτημορίου. Οι επεκτεινόμενες γραμμές και η θέση της διαμέσου μας δίνουν μια εικόνα της συμμετρικότητας της κατανομής. Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (9)
Συντελεστής μεταβλητότητας (coefficiet of variatio) v s τυπική απόκλιση μέση ττιμ Μέτρο σχετικής μεταβλητότητας τιμών, για συγκρίσεις συνόλων τιμών. Δεχόμαστε ότι δύο δείγματα τιμών θα είναι ομοιογενή αν ο συντελεστής μεταβλητότητας τους διαφέρει το πολύ 10%. 100% Z-score z Ο αριθμός των τυπικών αποκλίσεων που μια τιμή διαφέρει από το μέσον της, μ Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (10)
Μέτρα συσχέτισης δύο μεταβλητών Συνδιακύμανση (covariace): μέτρο κατευθυντικότητας δύο μεταβλητών Αν οι τ.μ. κινούνται προς την ίδια κατεύθυνση τότε συνδιακύμανση μεγάλη θετική Αν κατεύθυνση αντίθετη τότε μεγάλη αρνητική, ενώ αν όχι σχέση τείνει στο μηδέν. Συντελεστής συσχέτισης (correlatio coefficiet): μέτρο γραμμικότητας μεταξύ των δύο μεταβλητών [-1, 1] r -> 1 r -> 0 r -> -1 Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (11)
Μέτρα ασυμμετρίας M 0 Συμμετρική κατανομή Η κορυφή, ο μέσος και η διάμεσος συμπίπτουν Συντελεστής ασυμμετρίας Pearso Συντελεστής του Bowley M Λοξή προς τα δεξιά Οι περισσότερες παρατηρήσεις είναι δεξιά της κορυφής (M0). Συντελεστής ασυμμετρίας με βάση τις ροπές S A M 0 0 Λοξή προς τα αριστερά Οι περισσότερες παρατηρήσεις είναι αριστερά της κορυφής (M0). M 0 Y1 Y 3 s s Q1 Q3 Q3 Q1 1, 1 Q3 Q1 Q3 Q1 m3 3η ροπή στο ττετραγων 1 m η ροπή στο ττετραγων Εφαρμοσμένη Στατιστική Μέρος 1 ο Κ. Μπλέκας (1)