ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ
Στατιστικά περιγραφικά μέτρα Τα στατιστικά περιγραφικά μέτρα είναι αντιπροσωπευτικές τιμές οι οποίες περιγράφουν με τρόπο ποσοτικό την κατανομή μιας μεταβλητής. Λειτουργούν συμπληρωματικά με τους πίνακες και τα διαγράμματα στην περιγραφή αριθμητικών δεδομένων Τα μέτρα αυτά διακρίνονται σε μέτρα κεντρικής τάσης (ή θέσης) μέτρα διασποράς μέτρα ασυμμετρίας και κύρτωσης
Αριθμητικά Περιγραφικά Μέτρα Μέτρα Κεντρικής Τάσεως Μέτρα Διασποράς Μέτρα Μεταβλητότητας Μέτρα Ισοκατανομής
Μέτρα Κεντρικής Τάσεως i. Αριθμητικός Μέσος ii. iii. Διάμεσος Επικρατούσα Τιμή
Μέση τιμή Το πλέον γνωστό και ευρύτερα χρησιμοποιούμενο μέτρο κεντρικής τάσης είναι η αριθμητική μέση τιμή ή απλά μέση τιμή (mean value). Η μέση τιμή ενός συνόλου αριθμητικών μετρήσεων είναι το πηλίκο του αθροίσματος των μετρήσεων διαιρούμενο δια του πλήθους τους. x = 1 n n i= 1 x i
Τιμές ημερήσιας θερμιδικής πρόσληψης 15 ατόμων Άτομα Θερμίδες 1 2189 2 2050 3 1869 4 2364 5 1995 6 1883 7 2010 8 2418 9 2100 10 2580 11 2250 12 2080 13 2360 14 1950 15 2180 n 1 x = 15 i= 1 1 = (2189 + 2050 + 1869 + 2364 + 1995 + 1883+ 2010 + 2418 15 + 2100 + 2580 + 2250 + 2080 + 2360 + 1950 + 2180) = 32278 15 x i = 2151,9.
Βασικά χαρακτηριστικά: Ορίζεται μονοσήμαντα Αριθμητικός Μέσος Έχει απλή ερμηνεία, ως ο μέσος όλων των παρατηρήσεων Υπολογίζεται εύκολα Είναι αντιπροσωπευτικός του συνόλου των παρατηρήσεων Αποτελεί βάση πολλών στατιστικών ελέγχων Επηρεάζεται πολύ από τις ακραίες παρατηρήσεις (ιδιαίτερα σε μικρά δείγματα) Είναι η καλύτερη εκτιμήτρια του μέσου μ της Χ στον πληθυσμό, όταν η κατανομή των τιμών της Χ στον πληθυσμό είναι κανονική. Είναι ακατάλληλος ως μέτρο κεντρικής τάσεως όταν η κατανομή των τιμών της Χ στον πληθυσμό απέχει πολύ από την κανονική.
Μέσος για Ομαδοποιημένα Στοιχεία Δείγμα x = f i M f i i Πληθυσμός µ = f i N M i όπου: f i = η συχνότητα του διαστήματος i M i = ο Κεντρικός Όρος του Διαστήματος i
Ο πίνακας περιλαμβάνει τις τιμές ομαδοποιημένες σε κατανομή συχνοτήτων Ενοίκιο Συχνότητα 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6
Μέσος Ενοίκιο f i M i f i M i 420-439 8 429.5 3436.0 440-459 17 449.5 7641.5 460-479 12 469.5 5634.0 480-499 8 489.5 3916.0 500-519 7 509.5 3566.5 520-539 4 529.5 2118.0 540-559 2 549.5 1099.0 560-579 4 569.5 2278.0 580-599 2 589.5 1179.0 600-619 6 609.5 3657.0 Total 70 34525.0 34, 525 x = = 493. 21 70 Η διαφορά του Σταθμικού από τον απλό Μέσο είναι μόλις 2.41 Ευρώ
Διάμεσος Η διάµεσος (median) δ ενός δείγµατος είναι η τιµή που χωρίζει το δείγµα σε δύο ίσα µέρη: ο αριθµός των παρατηρήσεων που είναι µικρότερες ή ίσες από το δ να είναι ίσος µε τον αριθµό των παρατηρήσεων που είναι µεγαλύτερες ή ίσες από το δ.
Διάμεσος Η διάμεσος ενός συνόλου στοιχείων είναι η τιμή στο μέσον αυτού του συνόλου αφού τα δεδομένα ταξινομηθούν με αύξουσα σειρά Αν ο αριθμός των παρατηρήσεων είναι περιττός, η διάμεσος είναι η τιμή της παρατήρησης που βρίσκεται ακριβώς στη μέση Αν ο αριθμός των παρατηρήσεων είναι άρτιος, η διάμεσος είναι ο μέσος όρος των δύο μεσαίων παρατηρήσεων
Βρίσκουμε το μέσο όρο της 35 ης και της 36 ης παρατήρησης Διάμεσος = (475 + 475)/2 = 475 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615
Βασικά χαρακτηριστικά: Ορίζεται μονοσήμαντα Έχει απλή ερμηνεία Υπολογίζεται εύκολα Διάμεσος Δεν επηρεάζεται από ακραίες τιμές Είναι η καλύτερη εκτιμήτρια της διαμέσου στον πληθυσμό. Σε συμμετρική κατανομή η διάμεσος τυχαίου δείγματος είναι και αμερόληπτη εκτιμήτρια του μέσου μ, αλλά όχι τόσο αποτελεσματική όσο ο αριθμητικός μέσος Οι περισσότεροι στατιστικοί έλεγχοι βασίζονται στον αριθμητικό μέσο και δε χρησιμοποιούν τη διάμεσο
Επικρατούσα Τιμή Η Επικρατούσα Τιμή ενός δείγµατος είναι η τιµή που εμφανίζεται με την μεγαλύτερη συχνότητα από όλες τις άλλες.
Επικρατούσα Τιμή Η Επικρατούσα Τιμή ενός συνόλου παρατηρήσεων είναι η τιμή που εμφανίζεται με τη μεγαλύτερη συχνότητα Η τιμή 450 εμφανίζεται πιο συχνά (7 φορές) Επικρατούσα Τιμή = 450 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615
Επικρατούσα Τιμή Βασικά χαρακτηριστικά: Δεν ορίζεται μονοσήμαντα Η επικρατούσα τιμή σε ένα τυχαίο δείγμα είναι η καλύτερη εκτιμήτρια της επικρατούσας τιμής στον πληθυσμό Όταν το τυχαίο δείγμα λαμβάνεται από ένα συμμετρικό πληθυσμό με μια κορυφή, τότε η επικρατούσα τιμή είναι αμερόληπτη εκτιμήτρια του μέσου και της διαμέσου του πληθυσμού αλλά όχι τόσο αποτελεσματική Ως μέτρο κεντρικής τάσεως, η επικρατούσα τιμή επηρεάζεται από την ασυμμετρία λιγότερο από τον μέσο και τη διάμεσο Επηρεάζεται από τον τρόπο δειγματοληψίας και από τον τρόπο ομαδοποίησης των στοιχείων Σε μια συμμετρική κατανομή με μια κορυφή, η διάμεσος βρίσκεται ανάμεσα στο μέσο και στην επικρατούσα τιμή και χωρίζει την απόστασή τους σε δύο τμήματα που έχουν λόγο 1:2
Σχετικές Θέσεις ΜΚΤ
Μονοκόρυφη συμμετρική κατανομή Δικόρυφη κατανομή
Σχετικές θέσεις των μέτρων κεντρικής τάσης σε ασύμμετρες κατανομές
Μέτρα Διασποράς και Μεταβλητότητας
Μέτρα Διασποράς και Μεταβλητότητας i. Εύρος Μεταβολής ii. Τεταρτημοριακή Απόκλιση iii. Διακύμανση / Τυπική Απόκλιση iv. Συντελεστής Μεταβλητότητας
Εύρος Μεταβολής Το εύρος μεταβολής των τιμών μιας μεταβλητής Χ ισούται με τη διαφορά της μικρότερης τιμής της Χ από τη μεγαλύτερη τιμή της
Εύρος = Μεγαλύτερη Τιμή Μικρότερη Τιμή Εύρος = 615-425 = 190 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615
Εύρος Μεταβολής Εύκολο στον προσδιορισμό του Η χρηστικότητά του είναι περιορισμένη Στον υπολογισμό του υπεισέρχονται δύο μόνο τιμές, οι πλέον ακραίες. Είναι εξαιρετικά ευαίσθητο στην ύπαρξη τιμών που διαφοροποιούνται πολύ των υπολοίπων
Εκατοστημόρια (ή εκατοστιαίες θέσεις) Τα εκατοστημόρια (percentiles) αποτελούν γενίκευση της έννοιας της διαμέσου. Το k-εκατοστημόριο ενός συνόλου μετρήσεων είναι εκείνη η τιμή, η οποία, όταν οι τιμές διαταχθούν κατ αύξουσα σειρά, έχει από αριστερά της το k% του συνόλου των μετρήσεων και από δεξιά της το υπόλοιπο (100-k)%
Προσδιορισμός του k- εκατοστημορίου
Εκατοστημόρια Το p th εκατοστημόριο ενός συνόλου στοιχείων είναι μία τιμή τέτοια ώστε τουλάχιστον το p% των παρατηρήσεων είναι ίσα ή μικρότερα με την τιμή αυτή και τουλάχιστον (100-p)% είναι ίσα ή μεγαλύτερα. Ταξινομούμε τα στοιχεία σε αύξουσα σειρά. Υπολογίζουμε τη θέση i που είναι η θέση του p th εκατοστημορίου i = (p/100)n Αν το i δεν είναι ακέραιος, στρογγυλοποιούμε προς τα πάνω. Το p th εκατοστημόριο είναι η τιμή στη θέση i. Αν το ι είναι ακέραιος το p th εκατοστημόριο είναι ο μέσος όρος των θέσεων i και i+1.
Ενενηκοστό εκατοστημόριο: i = (p/100)n = (90/100)70 = 63 Παίρνουμε το μέσο όρο της 63 ης και της 64 ης θέσης: 90ο εκατοστημόριο = (580 + 590)/2 = 585 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615
Τεταρτημόρια Τα τεταρτημόρια είναι συγκεκριμένα εκατοστημόρια 1ο Τεταρτημόριο = 25ο Εκατοστημόριο 2ο Τεταρτημόριο = 50ο Εκατοστημόριο = Διάμεσος 3ο Τεταρτημόριο = 75ο Εκατοστημόριο
Τρίτο Τεταρτημόριο Τρίτο Τεταρτημόριο = 75ο εκατοστημόριο i = (p/100)n = (75/100)70 = 52.5 = 53 Τρίτο τεταρτημόριο = 525 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615
Ενδοτεταρτημοριακό εύρος Το 25 ο, το 50 ο και το 75 ο -εκατοστημόριο μιας κατανομής μετρήσεων ονομάζονται πρώτο, δεύτερο και τρίτο τεταρτημόριο αντίστοιχα και συμβολίζονται Q 1, Q 2, Q 3. Η διαφορά τρίτου και πρώτου τεταρτημορίου Q 3 -Q 1 ονομάζεται ενδοτεταρτημοριακό εύρος (interquartile range).
Τεταρτημοριακή Απόκλιση Η Τεταρτημοριακή Απόκλιση ορίζει ένα μέτρο διασποράς γύρω από τη διάμεσο
Διακύμανση
Τυπική Απόκλιση
Διακύμανση για Ομαδοποιημένα Δεδομένα Δείγμα s 2 = fi ( Mi x ) n 1 2 Πληθυσμός 2 σ = f i ( Mi µ ) N 2
Διακύμανση Τεταρτημοριακή Απόκλιση Η διακύμανση καθώς και η τυπική απόκλιση ενός συνόλου τιμών ή ενός δείγματος είναι μέτρα διασποράς γύρω από τον μέσο των τιμών αυτών, ενώ η τεταρτημοριακή απόκλιση είναι μέτρο διασποράς γύρω από τη διάμεσο
Διακύμανση και Τυπική Απόκλιση Σε περίπτωση που οι τιμές της Χ προέρχονται από έναν πληθυσμό του οποίου οι συχνότητες ακολουθούν την κανονική κατανομή αποδεικνύεται ότι: Στο διάστημα [μ-σ, μ+σ] περιλαμβάνεται το 68% των τιμών της Χ Στο διάστημα [μ-2σ, μ+2σ] περιλαμβάνεται το 95% των τιμών της Χ Στο διάστημα [μ-3σ, μ+3σ] περιλαμβάνεται το 99% των τιμών της Χ
Διακύμανση και Τυπική Απόκλιση
Μορφές και Χαρακτηριστικά Κατανομών Συχνοτήτων Ποσοτικών Μεταβλητών
Συμμετρική κατανομή Ασύμμετρη κατανομή
Μορφές και Χαρακτηριστικά Κατανομών Συχνοτήτων Ποσοτικών Μεταβλητών
Μορφές και Χαρακτηριστικά Κατανομών Συχνοτήτων Ποσοτικών Μεταβλητών
Συντελεστής μεταβλητότητας Ο συντελεστής μεταβλητότητας (coefficient of variation). είναι ένα σχετικό μέτρο διασποράς και εκφράζει την τυπική απόκλιση ενός συνόλου μετρήσεων ως ποσοστό (%) επί της μέσης τιμής τους : CV = s 100 x
Μέτρα ασυμμετρίας Η ασυμμετρία (skewness) μιας κατανομής έχει να κάνει με την εκτροπή της κατανομής από την κανονικότητα. Στις ασύμμετρες κατανομές η εκτροπή μπορεί να εμφανίζεται είτε από τη δεξιά πλευρά τους, να έχουμε δηλαδή παρατεταμένη ανάπτυξη του δεξιού κλάδου της κατανομής (θετική ασυμμετρία), είτε από την αριστερή πλευρά με εκτεταμένη ανάπτυξη του αριστερού κλάδου (αρνητική ασυμμετρία).
Θετική ασυμμετρία Αρνητική ασυμμετρία
Μέτρα θέσης και ασυμμετρία Μέση = Διάμεσος = Επικρατούσα η κατανομή είναι συμμετρική, Μέση > Διάμεσος > Επικρατούσα η κατανομή είναι θετικά ασύμμετρη, Μέση < Διάμεσος < Επικρατούσα η κατανομή είναι αρνητικά ασύμμετρη
O συντελεστής ασυμμετρίας εκτιμάται από την ποσότητα g όταν g = 0, η κατανομή είναι συμμετρική όταν g > 0, η κατανομή είναι θετικά ασύμμετρη όταν g < 0, η κατανομή είναι αρνητικά ασύμμετρη
Μέτρα κύρτωσης Η κύρτωση (kurtosis) μιας κατανομής έχει να κάνει με το βαθμό συγκέντρωσης των τιμών της κατανομής περί το μέσο της.
Ο προσδιορισμός της κύρτωσης γίνεται, όπως και στην ασυμμετρία, σε σχέση με την κανονική κατανομή. Αν το ποσοστό των παρατηρήσεων της κατανομής που βρίσκονται στο κέντρο της, είναι μεγαλύτερο του αντίστοιχου της κανονικής κατανομής, η κύρτωση της κατανομής είναι θετική και η κατανομή χαρακτηρίζεται ως λεπτόκυρτη. Σε αντίθετη περίπτωση, η κύρτωση της κατανομής είναι αρνητική και η κατανομή χαρακτηρίζεται ως πλατύκυρτη.
(α) Λεπτόκυρτη κατανομή, (β) κανονική κατανομή, (γ) πλατύκυρτη κατανομή
Ο συντελεστής κύρτωσης εκτιμάται από την ποσότητα d Ο συντελεστής κύρτωσης d είναι καθαρός αριθμός και ανάλογα με τις τιμές που παίρνει, μια κατανομή μπορεί να χαρακτηρίζεται ως κανονική, όταν d = 0 λεπτόκυρτη, όταν d > 0 πλατύκυρτη, όταν d < 0
Περιγραφικά Μέτρα
Περιγραφικά Μέτρα