ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΜΑΘΗΜΑ 3 Ηλίας Αθανασιάδης Αναπληρωτής καθηγητής Π.Τ..Ε. Παν. Αιγαίου 1.8. Αθροιστική κα τα νο μή Σε ορισμένες κατανομές παρουσιάζει ενδιαφέρον να παρακολουθούμε πώς διαμορφώνεται η συχνότητα όταν στην αρχική τιμή της μεταβλητής προστίθεται συνεχώς το δυναμικό των επομένων τιμών. Στους επόμενους δύο πίνακες διαφωτίζουμε το θέμα αυτό με ένα υποθετικό παράδειγμα κατανομής οικογενειών που έχουν έως πέντε παιδιά. Πίνακας 3. Κατανομή οικογενειών με 5 το πολύ παιδιά Πίνακας 4. Αθροιστική κατανομή οικογενειών με 5 το πολύ παιδιά Αριθμός Αριθμός % Αριθμός Αριθμός % παιδιών οικογενειών παιδιών οικογενειών 0 400 9,3 Κανένα 400 9,3 1 900 20,9 Το πολύ 1 1300 30,2 2 2000 46,5 Το πολύ 2 3300 76,7 3 700 16,3 Το πολύ 3 4000 93,0 4 200 4,7 Το πολύ 4 4200 97,7 5 100 2,3 Το πολύ 5 4300 100,0 Σύνολο 4300 100,0 Στον Πίνακα 4 παρατηρούμε ότι η τελευταία τιμή της μεταβλητής συμπίπτει αναγκαστικά με το σύνολο του εξεταζόμενου πληθυσμού και ότι κάθε τιμή της αθροιστικής συχνότητας είναι τουλάχιστο ίση με την προηγούμενη τιμή. Στην ακραία περίπτωση που δύο διαδοχικές τιμές αθροιστικής συχνότητας ήσαν ίσες αυτό θα σήμαινε ότι στον αρχικό πίνακα κατανομής συχνότητας μια τιμή της μεταβλητής θα είχε μηδενική συχνότητα. Κατανομές αθροιστικής συχνότητας μπορούμε βέβαια να καταρτίσουμε και για συνεχείς (ποσοτικές) μεταβλητές και υπό ορισμένες προϋποθέσεις και για ποιοτικές μεταβλητές.
1.9. Ο ρόλο ς τ ων δεικτ ών Συχνά, στη χρονολογική εξέλιξη των τιμών μιας μεταβλητής, αντιστοιχείται δείκτης ίσος με 100 στη συχνότητα μιας χρονολογίας, η οποία επιλέγεται ως βάση σύγκρισης, οπότε, (με την απλή μέθοδο των τριών) αντιστοιχούνται δείκτες και στις υπόλοιπες χρονολογίες. Πίνακας 5. Εξέλιξη του πληθυσμού της Ελλάδας Έτος απογραφής Πληθυσμός είκτης 100 είκτης 100 είκτης 100 για το 1920 για το 1940 για το 2001 1920 5.016.889 100 68 46 1928 6.204.684 124 84 57 1940 7.344.860 146 100 67 1946 7.257.000 145 99 66 1951 7.632.801 152 104 70 1961 8.388.553 167 114 77 1971 8.768.372 175 119 80 1981 9.739.589 194 133 89 1991 10.259.900 205 140 94 2001 10.962.020 219 149 100 1.10 Γρα φικές παραστάσεις κατανο μ ών Μια κατανομή συχνοτήτων πολύ συχνά αναπαρίσταται γραφικά. Ο συνηθέστερος τρόπος γραφικής παράστασης ακολουθεί τη λογική ενός καρτεσιανού διαγράμματος. Στον οριζόντιο άξονα τοποθετούνται συνήθως οι τιμές της μεταβλητής οπότε, ο κατακόρυφος άξονας είναι άξονας των συχνοτήτων. Στην περίπτωση της γραφικής παράστασης μιας κατανομής ποιοτικής μεταβλητής ο άξονας των μεταβλητών δεν λειτουργεί ως άξονας υπό μαθηματική έννοια αφού δεν υπάρχει αντιστοίχηση των τιμών της μεταβλητής με τιμές του άξονα. Η λειτουργικότητα ενός διαγράμματος μερικές φορές επιβάλλει να «κόβουμε» και να «συγκολλούμε» ένα άξονα, ώστε η πρώτη εμφανιζόμενη τιμή στον άξονα να μην είναι πολύ απομακρυσμένη από την αρχή των αξόνων. 1.10.1 Ραβδόγρα μμα Το ραβδόγραμμα είναι η ενδεικνυόμενη γραφική παράσταση για την αναπαράσταση μιας κατανομής ποσοτικής διακριτής μεταβλητής. Το «πάχος» της ράβδου δεν είναι καθορισμένο, συνήθως όμως δεν έχει πλάτος όπως αυτό που συναντάμε στο επόμενο τύπο διαγράμματος.
Συχνά, η κορυφή των ράβδων συνδέεται με τεθλασμένη γραμμή προσδίδοντας στο άνω μέρος του γραφήματος τη μορφή καμπύλης. Πίνακας 6. Κατανομή βαθμολογίας μαθητών Βαθμός Αριθμός μαθητών 10 2 11 4 12 6 13 9 14 13 15 20 16 15 17 10 18 5 19 3 20 1
1.10.2 Ιστόγρα μμα Το διάγραμμα μιας κατανομής ποσοτικής συνεχούς μεταβλητής αποτελείται συνήθως από εφαπτόμενες «λωρίδες» ή «ιστούς» η βάση των οποίων παριστάνει το εύρος των επιλεγμένων κλάσεων. Τα μέσα των άνω βάσεων των ιστών δύνανται, όπως και στην προηγούμενη περίπτωση, να συνδέονται με τεθλασμένη γραμμή. μπορεί επίσης να απουσιάζει από το διάγραμμα ο κατακόρυφος άξονας οπότε στην άνω βάση κάθε ιστού αναγράφεται η συχνότητα. Σε ένα ιστόγραμμα υπάρχουν αριθμητικές τιμές τα άκρα μιας κλάσης και στις δύο κορυφές της κάτω βάσης του ιστού. Πίνακας 7. Κατανομή ηλικίας υπαλλήλων Ηλικία υπαλλήλων Αριθμός υπαλλήλων [20,25) 5 [25,30) 10 [30,35) 15 [35,40) 25 [40,45) 35 [45,50) 20 [50,55) 12 [55,60) 8 [60,65) 4 Κάθε κλάση ηλικιών περιλαμβάνει όλο το χρονικό διάστημα μιας πενταετίας εκτός από εκείνη την ελάχιστη τιμή - στην περίπτωσή μας μια ημέρα που θα έδινε σε μια κλάση την τιμή εκείνη από την οποία αρχίζει η επόμενη κλάση. Γι αυτό πριν από την πρώτη τιμή κάθε κλάσης θέτουμε μια αγκύλη που ανοίγει και μετά από τη δεύτερη τιμή μια παρένθεση που κλείνει.
1.10.3 Κυκλικά διαγράμμα τα Ένας συνηθισμένος τρόπος αναπαράστασης μιας κατανομής ποιοτικής μεταβλητής είναι τα κυκλικά διαγράμματα χωρισμένα σε κυκλικούς τομείς, το εμβαδόν των οποίων είναι ανάλογο του μεγέθους των μεταβλητών. Τα κυκλικά διαγράμματα προσφέρονται ασφαλώς και για την αναπαράσταση κατανομών ποσοτικών μεταβλητών. Πίνακας 8. Ποσοστιαία κατανομή της επιφάνειας των πέντε ηπείρων Ήπειρος % Αμερική 20,8 Ασία 44,0 Αφρική 30,5 Ευρώπη 10,5 Ωκεανία 9,0