Ελλιπή δεδομένα Στον πίνακα που ακολουθεί δίνεται η κατά ηλικία κατανομή 75 ατόμων Εδώ έχουμε δ 75,0 75 5 Ηλικία Συχνότητες f 5-4 70 5-34 50 35-44 30 45-54 465 55-64 335 Δεν δήλωσαν 5 Σύνολο 75 Μπορεί να γίνει αναλογική ανακατανομή της συχνότητας για αυτούς που δεν δήλωσαν (ΔΔ) Ο διορθωτικός συντελεστής είναι δ f ΔΔ Βρίσκουμε τις διορθωμένες συχνότητες πολλαπλασιάζοντας καθεμία από τις συχνότητες του πίνακα επί,0 Ηλικία Διορθωμένες συχνότητες f* 5-4 7 70,0 5-34 5350,0 35-44 3530,0 45-54 474465,0 55-64 34335,0 Δεν δήλωσαν Σύνολο 75
Ιστογράμματα με άνισο πλάτος διαστημάτων Θεωρούμε και πάλι το παράδειγμα με το βάρος 30 ατόμων 65, 66,8 67,3 67,9 70,0 7,3 7,3 73,0 73,0 74, 75,0 76, 76,5 76,5 76,7 77, 78,0 78,3 78,6 79,6 79,6 79,6 80, 80,8 8,4 8,8 83,9 85,8 86, 89,9 Μέγιστη τιμή 89,9 κιλά Ελάχιστη τιμή 65, κιλά Έστω ότι έχουμε δύο επιπλέον τιμές στα δεδομένα, που αντιστοιχούν σε βάρος ατόμων 08,9 και 3,7 κιλά. Πριν χρησιμοποιήσαμε διαστήματα πλάτους 5 για να κατασκευάσουμε το ιστόγραμμα. Αν χρησιμοποιήσουμε το ίδιο πλάτος για το νέο διευρυμένο δείγμα παρατηρήσεων, θα έχουμε πάρα πολλά διαστήματα, κάποια από τα οποία θα είναι κενά. Αντί για αυτό, θεωρούμε ένα νέο διάστημα [90,5], το οποίο περιλαμβάνει τις δύο καινούριες παρατηρήσεις. Τάξη Απόλυτες συχνότητες Σχετικές συχνότητες Κεντρική τιμή τάξης 65-69 4 0,3 67,5 70-74 6 0,9 7,5 75-79 0,38 77,5 80-84 5 0,6 8,5 85-89 3 0,09 87,5 90-4 0,06 0,5 Για τις σχετικές συχνότητες, διαιρούμε την απόλυτη συχνότητα κάθε τάξης με το 3, που είναι το νέο μέγεθος του δείγματος. Για να κατασκευάσουμε το ιστόγραμμα, προσαρμόζουμε τις συχνότητες έτσι ώστε το εμβαδό κάθε ορθογωνίου να είναι ανάλογο με τη συχνότητα του αντίστοιχου διαστήματος. 3 4
Στο παράδειγμά μας, το τελευταίο διάστημα έχει πλάτος πενταπλάσιο από τα υπόλοιπα. Συνεπώς, για να βρούμε την προσαρμοσμένη συχνότητα που αντιστοιχεί στο διάστημα αυτό, διαιρούμε την απόλυτη συχνότητα με το 5. Αθροιστικές συχνότητες Έστω ότι μας ενδιαφέρει το ενδεχόμενο το βάρος κάποιου να είναι μικρότερο ή ίσο από 75 κιλά. Η αντίστοιχη συχνότητα είναι το άθροισμα των συχνοτήτων για τις κλάσεις [65,70) και [70,75). Τάξη Προσαρμοσμένες συχνότητες 65-69 4 70-74 6 75-79 80-84 5 85-89 3 90-4 /5 0,4 Τάξη Απόλυτες συχνότητες Σχετικές συχνότητες Αθροιστικές συχνότητες 65-69 4 0,3 4 70-74 6 0,0 0 75-79 0,40 80-84 5 0,7 7 85-89 3 0,0 30 Μπορούμε να απεικονίσουμε τη σχετική συχνότητα με ένα ιστόγραμμα. 5 6
Ακριβώς όπως κάναμε πριν, μόνο που τώρα στον άξονα των Υ παριστάνουμε τις αθροιστικές συχνότητες (ή, συχνότερα, αθροιστικές σχετικές συχνότητες). Γενικά σε ένα δείγμα ατόμων, η αθροιστική σχετική συχνότητα του ενδεχομένου κάποιος να έχει βάρος το πολύ 75 κιλά είναι πλήθος ατόμων με βάρος 75 κιλά συνολικό πλήθος ατόμων () Πιο συχνά χρησιμοποιούμε ένα πολύγωνο αθροιστικών συχνοτήτων. Στον άξονα των Υ απεικονίζουμε την (απόλυτη ή σχετική) αθροιστική συχνότητα και στον άξονα των Χ τα διαστήματα τάξεων της μεταβλητής Το πολύγωνο ξεκινά από το κατώτερο όριο της ης τάξης Οι κορυφές του πολυγώνου έχουν τετμημένη το ανώτερο όριο κάθε τάξης και τεταγμένη την αντίστοιχη αθροιστική συχνότητα. 7 8
Χρονολογικά δεδομένα Ένα διάγραμμα που παριστάνει την εξέλιξη των τιμών μιας μεταβλητής στο χρόνο χρονόγραμμα (ή χρονοδιάγραμμα). Κύρια μέθοδος παρουσίασης χρονολογικών δεδομένων είναι η πολυγωνική γραμμή Ο άξονας των Χ παριστάνει τις χρονικές στιγμές όπου παίρνονται οι παρατηρήσεις (π.χ. ετήσια, μηνιαία, τριμηνιαία κλπ). Ο άξονας των Y παριστάνει τις τιμές της μεταβλητής στα αντίστοιχα χρονικά σημεία Παράδειγμα Οι πωλήσεις μιας εταιρείας ανά έτος για το διάστημα 98-00 (σε χιλιάδες $) 5 7 3 5 9 3 3 33 39 44 55 66 69 58 67 75 8 0 95 Το διάγραμμα των τιμών (πολυγωνική γραμμή) δίνεται παρακάτω. 00 80 Άλλη γραφική μέθοδος είναι το ραβδόγραμμα. sales 60 40 0 3 8 3 8 tme 9 0
Είναι φανερό ότι οι πωλήσεις της εταιρείας έχουν ανοδική τάση Το παρακάτω διάγραμμα αφορά τριμηνιαία δεδομένα. 0 40 df.sales 0 0 df.hotel.come -0-60 -0-0 3 8 3 8 tme 3 8 3 8 tme Στο διάγραμμα οι τιμές δεν παρουσιάζουν τάση, ωστόσο είναι σαφές ότι η μεταβλητότητα των τιμών αυξάνεται με το πέρασμα του χρόνου. Το κύριο χαρακτηριστικό εδώ είναι η εποχικότητα, δηλαδή η μεταβολή των τιμών κατά τη διάρκεια ενός έτους, η οποία επαναλαμβάνεται με τον ίδιο τρόπο (π.χ. η ελάχιστη τιμή κάθε έτους αντιστοιχεί στο 3 ο τρίμηνο)
Παράδειγμα διαγράμματος το οποίο παρουσιάζει και τάση και εποχικότητα Δύο κύρια χαρακτηριστικά που παρουσιάζουν συχνά τα χρονολογικά δεδομένα hotel.come 00 50 00 50 3 8 3 8 tme. Τάση: η μακροχρόνια μεταβολή των τιμών της μεταβλητής ως προς το χρόνο Π.χ. αν παρατηρούμε την τιμή πώλησης ενός προϊόντος σε ένα διάστημα 0 ετών, περιμένουμε η τιμή αυτή να παρουσιάζει ανοδική τάση. Εποχικότητα: η μεταβολή των τιμών της μεταβλητής μέσα σε ένα μικρό χρονικό διάστημα (π.χ. ένα έτος), σε περιπτώσεις όπου η μεταβολή αυτή παρουσιάζει μία επαναληπτικότητα (περιοδικότητα) Π.χ. αν παρατηρούμε τις αφίξεις τουριστών στην Ελλάδα σε μηνιαία βάση, αναμένουμε οι αφίξεις αυτές να είναι πολύ περισσότερες το καλοκαίρι από ότι τις άλλες εποχές 3 4
Στατιστικά περιγραφικά μέτρα Χρησιμοποιούνται για ποσοτικά δεδομένα Ένα περιγραφικό μέτρο είναι ένας αριθμός ο οποίος μας δίνει κάποια πληροφορία για τη μορφή και τη δομή των δεδομένων Χρησιμοποιούνται ως βάση για τη στατιστική συμπερασματολογία (εκτιμητική, έλεγχος υποθέσεων) Π.χ. ο δειγματικός μέσος είναι μία εκτίμηση του πληθυσμιακού μέσου. Είδη στατιστικών περιγραφικών μέτρων. Μέτρα κεντρικής τάσης (αριθμητικός, γεωμετρικός, αρμονικός μέσος). Μέτρα θέσης (διάμεσος, επικρατούσα τιμή, ποσοστημόρια) 3. Μέτρα διασποράς (διακύμανση, τυπική απόκλιση) 4. Μέτρα λοξότητας ή ασυμμετρίας (συντελεστής ασυμμετρίας του Pearso) 5. Μέτρα κύρτωσης (συντελεστής κύρτωσης) 5 6
Αριθμητικός μέσος Συμβολισμός Α. Πληθυσμιακός μέσος Έστω ένας πληθυσμός με Ν μονάδες x, x,..., x. Ο πληθυσμιακός μέσος είναι μ x + x +... + x x Β. Αν επιλέξουμε ένα δείγμα x, x,..., x μεγέθους, ο δειγματικός μέσος είναι x x + x +... + x x Ιδιότητες. Αν x a για όλα τα,,,, τότε x a. Η τιμή του αριθμητικού μέσου βρίσκεται πάντα μεταξύ της ελάχιστης και της μέγιστης τιμής της μεταβλητής, x x m x max Πράγματι, ισχύει για κάθε, δηλαδή x xm x, m x m x, x,..., x x m, Προσθέτοντας όλες αυτές τις ανισότητες κατά μέλη παίρνω x m x και διαιρώντας δια προκύπτει ότι xm x. Παρόμοια αποδεικνύεται ότι x x max. 7 8
3. Το άθροισμα των αποκλίσεων των τιμών της μεταβλητής από τον αριθμητικό μέσο είναι πάντα ίσο με μηδέν, δηλαδή ( x x) 0 Πράγματι, με βάση τις ιδότητες των αθροισμάτων έχουμε ( x x) x x x x από τον ορισμό του αριθμητικού μέσου. 4. Το άθροισμα των τετραγώνων των αποκλίσεων των τιμών της μεταβλητής από μια ποσότητα a, δηλαδή το ( x a) γίνεται ελάχιστο (ως προς a) όταν a x. 0, Για την απόδειξη, θεωρούμε τη συνάρτηση f ( a) ( x a) Για να είναι ένα σημείο ακρότατο της f, πρέπει να μηδενίζει την παράγωγό της, δηλαδή να ισχύει f ( a) Αλλά για την παράγωγο έχουμε f ( a) 0 ( x a) x + a Θέτοντας την ποσότητα αυτή ίση με μηδέν, παίρνουμε x a x Για να αποδείξουμε ότι πρόκειται για ελάχιστο, βρίσκουμε το πρόσημο της ης παραγώγου f ( a) > 0, άρα πράγματι η συγκεκριμένη τιμή ελαχιστοποιεί τη συνάρτηση. 9 0
5. Αν σε όλες τις τιμές ενός συνόλου δεδομένων προσθέσουμε μία ποσότητα a, ο νέος αριθμητικός μέσος αυξάνεται κατά a. Δηλαδή, αν οι τιμές x, x,..., x. έχουν μέσο x, τότε οι τιμές x + a, x + a,..., x. + a έχουν μέσο x +a. Αυτό προκύπτει επειδή ( x a) + x x + x + + x + a... + a x + a 6. Αν πολλαπλασιάσουμε όλες τις τιμές ενός συνόλου δεδομένων με a, ο αριθμητικός μέσος πολλαπλασιάζεται επίσης επί a. Για την απόδειξη, έστω ότι τα αρχικά δεδομένα είναι x,...,, x x. Πολλαπλασιάζοντας επί α, τα νέα δεδομένα είναι ax, ax,..., ax και ο αριθμητικός μέσος για τα δεδομένα αυτά θα είναι ( a x ) a x x a
x 7. Αν έχουμε k σύνολα δεδομένων x, x,..., x με μέσο x + με μέσο x x, x +,..., x +. x +, x + +,..., x + + 3 κοκ. + με μέσο x 3,,..., x x k x + +... + + + +... + k + + +... + k +... + k με μέσο x k τότε για τον αριθμητικό μέσο όλων των x + x παρατηρήσεων ισχύει ότι +... + x +... + x + + + 3 + +... k x + x +... + k x + +... + k k + +... + x +... + k +... + x Παράδειγμα Έστω ότι σε ένα δείγμα 50 ατόμων υπάρχουν 0 άντρες και 30 γυναίκες. Το μέσο ύψος των αντρών στο δείγμα είναι 74cm, ενώ το μέσο ύψος των γυναικών στο δείγμα είναι 67cm. Ζητάμε το μέσο ύψος των 50 ατόμων συνολικά. Λύση Εφαρμόζοντας την τελευταία ιδιότητα με 0, 30, x 74, x 67, παίρνουμε x + x 0 74 + 30 67 x 69,8. + 50 ή, για συντομία, k x x k 3 4
Γεωμετρικός μέσος Συμβολισμός Α. Πληθυσμιακός μέσος Έστω ένας πληθυσμός με Ν μονάδες x, x,..., x. Ο πληθυσμιακός μέσος είναι G / / ( x x x ) ( ) Π x... Β. Αν επιλέξουμε ένα δείγμα x, x,..., x μεγέθους, ο γεωμετρικός μέσος του δείγματος είναι g / / ( x x x ) ( ) Π x... Αρμονικός μέσος Ο αρμονικός μέσος Η για τον πληθυσμό ορίζεται από τη σχέση H ή, ισοδύναμα, x + x H +... + x x x δηλαδή ο αντίστροφος του αρμονικού μέσου είναι ο αριθμητικός μέσος των αντιστρόφων των τιμών της μεταβλητής. Αντίστοιχα, για ένα δείγμα μεγέθους o αρμονικός μέσος είναι h, x ο αντίστροφος του αριθμητικού μέσου των αντιστρόφων των τιμών στο δείγμα. 5 6
Ιδιότητες του γεωμετρικού μέσου. Αν πάρουμε λογαρίθμους στη σχέση G βλέπουμε ότι / / ( x x x ) ( ) Π x... logg log / ( Π x ) ( Π x ) log log ( x ) δηλαδή ο λογάριθμος του γεωμετρικού μέσου είναι ο αριθμητικός μέσος των λογαρίθμων των τιμών της μεταβλητής. x. Αν θέσουμε u, τότε ισχύει πάντα G Π u uu... u Η απόδειξη είναι απλή, εφόσον 3. Το άθροισμα τετραγώνων x log a γίνεται ελάχιστο (ως προς a) όταν a G. Για την απόδειξη, ορίζω τη συνάρτηση x f ( a) log a [ ( log x log a) ] Παίρνοντας το ανάπτυγμα, έχουμε f ( a) [( log x ) + (log a) log x log a] ( log x ) + (log a) log x log a Π x x x... x Π u G / [( x x... x ) ] χρησιμοποιώντας τον ορισμό του γεωμετρικού μέσου., 7 8
Η παράγωγος της συνάρτησης είναι log x log a f ( a) a a Η παράγωγος μηδενίζεται όταν ισχύει δηλαδή log a log, log x log a το οποίο, σύμφωνα με την ιδιότητα συμβαίνει όταν το a συμπίπτει με το γεωμετρικό μέσο, δηλαδή όταν a G. x, Ιδιότητες του αρμονικού μέσου. Αν θέσω u, τότε ισχύει πάντα x H u 0 Αυτό προκύπτει εύκολα επειδή u x H x, H με βάση τις ιδιότητες των αθροισμάτων. Το παραπάνω ισούται με μηδέν αφού από τον ορισμό του Η έχουμε x H H x Οι παραπάνω ιδιότητες αναφέρονται στον πληθυσμό, επειδή χρησιμοποιούν το G. Ακριβώς οι ίδιες ισχύουν και για το δειγματικό μέσο g. 9 30
. Το άθροισμα τετραγώνων x a γίνεται ελάχιστο (ως προς a) όταν a Η. Η απόδειξη είναι παρόμοια με αντίστοιχες ιδιότητες για τον αριθμητικό και το γεωμετρικό μέσο (βλ. βιβλίο, σελ. 8). Παράδειγμα Έστω τα αριθμητικά δεδομένα 8, 7, 0, 4, Οι τιμές των τριών μέσων είναι 8 + 7 + 0 + 4 + x 0 5 g h / 5 ( 8 7 0 4 ) 9, 708 8 + 7 5 + + 0 4 + 9,430 Παρατηρούμε ότι ισχύει x g h, το οποίο είναι κάτι που ισχύει γενικά. (ισότητα μεταξύ των μέσων ισχύει μόνο όταν όλες οι τιμές στο δείγμα είναι ίδιες). 3 3
Έστω τώρα ότι στα προηγούμενα δεδομένα η τελευταία τιμή αλλάζει από σε 0. Πώς μεταβάλλονται οι μέσες τιμές; Ο αριθμητικός μέσος από 0 γίνεται 9,8 (αύξηση 98%) Ο γεωμετρικός μέσος από 9,708 γίνεται 5,86 (αύξηση 57%) Ο αρμονικός μέσος από 9,43 γίνεται,5 (αύξηση 8%) Αυτό δείχνει ότι ο αριθμητικός μέσος είναι πολύ πιο ευαίσθητος σε ακραίες τιμές (έκτροπες παρατηρήσεις) σε σχέση με τους άλλους δύο, ενώ ο αρμονικός μέσος έχει τη μικρότερη μεταβολή, άρα είναι ο λιγότερο ευαίσθητος σε τέτοιες τιμές. Mέσοι για ομαδοποιημένα δεδομένα Στην περίπτωση αυτή χρησιμοποιούμε σταθμικούς μέσους (αριθμητικό, γεωμετρικό, αρμονικό). Συμβολισμός Έχουμε κ ομάδες, f είναι η απόλυτη συχνότητα της ομάδας και w είναι η κεντρική τιμή για την ομάδα (διάστημα). Παράδειγμα Ηλικία Αριθμός Κεντρική Αθροιστικές εργαζομένων τιμή w συχνότητες f 0-30 5 30-40 4 35 6 40-50 3 45 9 50-60 55 0 ΣΥΝΟΛΟ 0 33 34
Α. Σταθμικός αριθμητικός μέσος Β. Σταθμικός γεωμετρικός μέσος Βρίσκω την κεντρική τιμή του κάθε διαστήματος Π.χ. για το πρώτο διάστημα (0+30)/5 Θεωρώ ότι όλες οι τιμές μέσα σε κάθε διάστημα είναι ίσες με την κεντρική τιμή (5 + 5) + (35 + 35 + 35 + 35) + (45 + 45 + 45) + 55 x 0 5 + 4 35 + 3 45 + 55 4 + + 3 + 38 Ο γενικός τύπος είναι x k f w f k f w. k Για μη ομαδοποιημένα δεδομένα, ο τύπος είναι g / / ( x x x ) ( ) Π x... Σε ομαδοποιημένα δεδομένα όπως εδώ, έχουμε g / ( w w... w w w... w... ) w k... w k f φορές f φορές f κ φορές οπότε για συντομία μπορούμε να γράψουμε g f ( f fk w w... wk ) k f / ( w ) Π ι Στο παράδειγμα έχουμε g 4 3 ( 5 35 45 55) 36,9 / /0 35 36
Παρατήρηση Για το λογάριθμο του σταθμικού γεωμετρικού μέσου, ισχύει και πάλι log( g) log log k log k f / ( Πι w ) k f ( Π w ) ι f ( w ) οπότε παίρνουμε τη σχέση k log( g) f log w Γ. Σταθμικός αρμονικός μέσος Για μη ομαδοποιημένα δεδομένα, ο τύπος είναι h, x Για ομαδοποιημένα δεδομένα, έχουμε f τιμές ίσες με w, f τιμές ίσες με w,, f k τιμές ίσες με w κ h w + w +... w + w +... + w +... + +... + w k w k f φορές f φορές f κ φορές Συνεπώς, παίρνουμε τον τύπο h f w k 37 38
Παρατηρήσεις Για τα δεδομένα του προηγούμενου πίνακα παίρνουμε ότι h 5 Ισχύει και πάλι ότι 0 4 + + 35 3 45 + x > g > h 55 35,97. όπως και σε μη ομαδοποιημένα δεδομένα.. Όλες οι ιδιότητες για τους τρεις μέσους όρους που είχαμε για μη ομαδοποιημένα δεδομένα, ισχύουν όταν τα δεδομένα είναι σε ομάδες. Ο τύπος x k fw k f k f w δείχνει ότι ο σταθμικός αριθμητικός μέσος είναι το άθροισμα των σχετικών συχνοτήτων κάθε κλάσης επί την κεντρική τιμή αυτής της κλάσης. 39 40
3. Όταν αλλάξει η ομαδοποίηση, αλλάζουν και οι τρεις τιμές των μέσων. 4. Οι μέσοι όροι δεν μπορούν να υπολογιστούν όταν η ομαδοποίηση είναι ανοικτή προς τα πάνω ή προς τα κάτω. 5. Στα δεδομένα του παραδείγματος είχαμε 4 ομάδες με ίσο πλάτος. Οι παραπάνω τύποι για τους μέσους όρους ισχύουν και όταν τα διαστήματα δεν έχουν ίσο πλάτος (το μόνο που χρειάζεται να βρούμε είναι και πάλι η κεντρική τιμή κάθε διαστήματος). Διάμεσος Για μη ομαδοποιημένα, διατεταγμένα δεδομένα, η διάμεσος είναι η παρατήρηση που βρίσκεται στη θέση +. Για ομαδοποιημένα δεδομένα, χρησιμοποιούμε συνήθως (αντί για + ) (το είναι έτσι κι αλλιώς αρκετά μεγάλο, οπότε η διαφορά είναι ελάχιστη). Πώς βρίσκουμε τη διάμεσο σε ομαδοποιημένα δεδομένα; Πρώτα εντοπίζουμε το διάστημα στο οποίο ανήκει η διάμεσος, χρησιμοποιώντας τις αθροιστικές συχνότητες. Π.χ. θεωρούμε και πάλι το προηγούμενο παράδειγμα με τις ηλικίες 4 4
Έστω L το κατώτερο όριο στο οποίο ανήκει η Παράδειγμα διάμεσος, δ το πλάτος αυτού του διαστήματος, Ηλικία Αριθμός Κεντρική Αθροιστικές και f η συχνότητα του διαστήματος. Τότε η εργαζομένων τιμή w συχνότητες διάμεσος είναι f 0-30 5 30-40 4 35 6 40-50 3 45 9 50-60 55 0 ΣΥΝΟΛΟ 0 Στο παράδειγμά μας, το διάστημα στο οποίο βρίσκεται η διάμεσος είναι το δεύτερο στον πίνακα, δηλαδή η κλάση [30,40) Υποθέτουμε ότι οι τιμές που ανήκουν στο διάστημα αυτό κατανέμονται ομοιόμορφα 30 3,5 35 37,5 40 m δ L + F f όπου F - η αθροιστική συχνότητα της προηγούμενης κλάσης. Αντίστοιχα, για τη διάμεσο ενός πληθυσμού έχουμε M δ L + F f, Στο παράδειγμα, βλέπουμε ότι, f 4, δ 0, οπότε παίρνουμε 0 m 30 + ( 5 ) 37, 5. 4 43 44