ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΛΗΘΥΣΜΟΙ ΔΕΙΓΜΑΤΑ ΠΑΡΟΥΣΙΑΣΗ ΔΕΔΟΜΕΝΩΝ
Περιγραφική Στατιστική Με τις στατιστικές μεθόδους επιδιώκεται: - η συνοπτική αλλά πλήρης και κατατοπιστική παρουσίαση των ευρημάτων μιας μελέτης (περιγραφική στατιστική) - η εξαγωγή συμπερασμάτων που βασίζονται στα ευρήματα αυτά (συμπερασματολογική στατιστική / επαγωγική στατιστική)
Στατιστική Ο συνήθης ορισμός της Στατιστικής, την αναφέρει ως τον κλάδο των εφαρμοσμένων Μαθηματικών, ο οποίος ασχολείται με τη συλλογή, οργάνωση, ανάλυση και ερμηνεία αριθμητικών δεδομένων με απώτερο σκοπό την εξαγωγή συμπερασμάτων. Με τον όρο πληθυσμό στη Στατιστική εννοούμε ένα σύνολο υποκειμένων ή αντικειμένων ή δυνατών εκβάσεων ενός φαινομένου ή μίας πειραματικής διαδικασίας. Δείγμα ενός πληθυσμού είναι ένα υποσύνολο αυτού.
Πληθυσμός και Δείγμα Πληθυσμός Δείγμα
Περιγραφική Στατιστική Στοχεύει στη σύνοψη και την εμπεριστατωμένη περιγραφή αριθμητικών δεδομένων, με απώτερο σκοπό την απλούστερη παρουσίαση και την ευκολότερη κατανόηση τους. Τα δεδομένα αυτά μπορεί να προέρχονται είτε από το πλήρες σύνολο των στοιχείων ενός πληθυσμού είτε από ένα δείγμα αυτού.
Επαγωγική Στατιστική Αν τα δεδομένα προέρχονται από ένα δείγμα του πληθυσμού, η εγκυρότητα των συμπερασμάτων της περιγραφικής στατιστικής περιορίζεται μόνο στα στοιχεία του δείγματος Eναπομένει πάντα προς διερεύνηση, το ενδεχόμενο να μπορούν να γενικευθούν και για το σύνολο του πληθυσμού. H επαγωγή των συμπερασμάτων που αφορούν το δείγμα στον πληθυσμό, αποτελεί το αντικείμενο της επαγωγικής στατιστικής.
Μεταβλητές Ποιοτική ονομάζεται η μεταβλητή που περιγράφει κάποιο ποιοτικό χαρακτηριστικό ενός ατόμου ή μιας ομάδας Ποσοτική ονομάζεται η μεταβλητή που μπορεί να μετρηθεί με τη συνήθη έννοια του όρου Συνεχής Ασυνεχής
Διάταξη Παρατηρήσεων Μια πρώτη χρήσιμη μορφή οργάνωσης είναι η διάταξη των παρατηρήσεων κατά τάξη αύξοντος ή φθίνοντος μεγέθους
Τεχνικές σύνοψης και περιγραφής δεδομένων Πίνακες συχνοτήτων (κατανομές συχνοτήτων) Χρησιμοποιούνται για την παρουσίαση κατανομών συχνοτήτων μεταβλητών
Κατανομή του ελληνικού πληθυσμού, σε αστικές, ημιαστικές και αγροτικές περιοχές, σύμφωνα με την απογραφή του 1991 Περιοχές Πληθυσμός Αστικές 6.036.660 Ημιαστικές 1.312.774 Αγροτικές 2.910.466
Κατανομή του ελληνικού πληθυσμού κατά φύλο, σύμφωνα με τις απογραφές της περιόδου 1870-2001 Χρονιές απογραφής Άνδρες Γυναίκες 1870 754.186 703.718 1879 880.952 798.518 1889 1.133.625 1.053.583 1896 1.266.816 1.166.990 1907 1.324.942 1.307.010 1920 2.495.316 2.521.573 1928 3.076.235 3.128.449 1940 3.658.393 3.686.467 1951 3.721.648 3.911.153 1961 4.091.894 4.296.659 1971 4.286.748 4.481.624 1981 4.779.571 4.960.018 1991 5.055.408 5.204.492 2001 5.424.089 5.515.516
Κατανομή του μεγέθους των ελληνικών νοικοκυριών σύμφωνα με την απογραφή του 1991 Μέγεθος Αριθμός Μέγεθος Αριθμός νοικοκυριού νοικοκυριών νοικοκυριού νοικοκυριών 1 μέλος 520.261 6 μέλη 109.675 2 μέλη 854.863 7 μέλη 27.419 3 μέλη 657.343 8 μέλη 8.620 4 μέλη 746.728 9 μέλη 2.881 5 μέλη 273.217 10 και άνω μέλη 2.827
Στην περίπτωση συνεχούς μεταβλητής, η αναλυτική αναφορά όλων των τιμών της, δεν εξυπηρετεί ούτε για την παρουσίαση των δεδομένων, άλλα ούτε και για την εξαγωγή συμπερασμάτων. Σε αυτού του είδους τις μεταβλητές, είναι επιβεβλημένη η σύμπτυξη των τιμών τους, σε διαστήματα σαφώς διαφοροποιημένα και μη επικαλυπτόμενα μεταξύ τους.
Κατανομή του βάρους 895 ενηλίκων ατόμων Βάρος σε Kg Αριθμός ατόμων 40-49,9 12 50-59,9 102 60-69,9 233 70-79,9 265 80-89,9 176 90-99,9 71 100-109,9 27 110-119,9 9 Σύνολο 895
Σχετικές συχνότητες Σε ορισμένες περιπτώσεις, στους πίνακες συχνοτήτων, είναι αναγκαίο μαζί με τις απόλυτες συχνότητες (δηλαδή με τον αριθμό των παρατηρήσεων) μιας μεταβλητής, να αναφέρονται και οι αντίστοιχες σχετικές συχνότητες. Όταν λέμε σχετική συχνότητα μίας μεταβλητής, εννοούμε το ποσοστό (%) των παρατηρήσεων που αντιστοιχεί σε κάθε κατηγορία ή διάστημα τιμών της μεταβλητής.
Κατανομή του βάρους 895 ενηλίκων ατόμων Βάρος σε Kg Αριθμός ατόμων Σχετική συχνότητα (%) 40-49,9 12 1,3 50-59,9 102 11,4 60-69,9 233 26,0 70-79,9 265 29,7 80-89,9 176 19,7 90-99,9 71 7,9 100-109,9 27 3,0 110-119,9 9 1,0 Σύνολο 895 100,0
Κατανομή του βάρους δύο ομάδων ατόμων διαφορετικής ηλικίας Βάρος σε Kg Αριθμός ατόμων Ηλικία 30-39 Ηλικία 50-59 Σχετική συχνότητα (%) Αριθμός ατόμων Σχετική συχνότητα (%) 40-49,9 1 0,5 2 1,0 50-59,9 37 17,9 12 6,3 60-69,9 67 32,4 41 21,5 70-79,9 45 21,7 62 32,5 80-89,9 36 17,4 49 25,7 90-99,9 11 5,3 19 9,9 100-109,9 5 2,4 6 3,1 110-119,9 5 2,4 0 0,0 Σύνολο 207 100,0 191 100,0
Κατανομή Συχνοτήτων για Ποσοτικές Μεταβλητές Κατανομή Συχνοτήτων: Υπολογισμός του πλήθους των παρατηρήσεων
Ραβδογράμματα - Ιστογράμματα Τύποι διαγραμμάτων, που χρησιμοποιούνται την απεικόνιση κατανομών συχνοτήτων για
Ραβδόγραμμα εξέλιξης του ελληνικού πληθυσμού την περίοδο 1870-2001 12000000 10000000 8000000 Πληθυσμός 6000000 4000000 2000000 0 1870 1889 1907 1928 1951 1971 1991 1879 1896 1920 1940 1961 1981 2001 Χρονιές
Ραβδόγραμμα εξέλιξης του ελληνικού πληθυσμού κατά φύλο την περίοδο 1870-2001 6000000 5000000 4000000 3000000 2000000 1000000 Άνδρες 0 1870 1889 1907 1928 1951 1971 1991 1879 1896 1920 1940 1961 1981 2001 Γυναίκες Χρονιές
Ιστόγραμμα κατανομής συχνοτήτων του βάρους 895 ενηλίκων 300 200 100 0 39,95 49,95 59,95 69,95 79,95 89,95 99,95 109,95 119,95 Βάρος σε Kg
ΟΜΑΔΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ Μη ομαδοποιημένα δεδομένα (Raw data): μη οργανωμένα δεδομένα Ομαδοποιημένα δεδομένα (Grouped data): δεδομένα οργανωμένα και παρουσιαζόμενα σε τάξεις (ή κλάσεις) Διάστημα τάξης (Class interval): το διάστημα που επιλέγεται να απέχουν μεταξύ τους τα δεδομένα Συχνότητα τάξης (class frequency): αριθμός μετρήσεων που υπάγονται σε συγκεκριμένη τάξη Όρια τάξης (Class limits): τα αρχικά και τελικά νούμερα κάθε τάξης (ανώτερο, κατώτερο όριο)
ΟΜΑΔΟΠΟΙΗΣΗ ΔΕΔΟΜΕΝΩΝ Εύρος διαστήματος (Class width or class size): διαφορά μεταξύ ανώτερου και κατώτερου ορίου π.χ. 62-60=2 (+1) (όταν τα όρια είναι ακέραιοι) 62.9-60.9=2 (όταν τα όρια είναι δεκαδικοί) Αντιπροσωπευτική τιμή τάξης (class midpoint): (ανώτερο+κατώτερο όριο)/2 Π.χ. (60+62) / 2=61
Γενικοί κανόνες για ομαδοποίηση - Ταξινόμηση των δεδομένων κατά αύξουσα σειρά. - Προσδιόρισε το εύρος των μετρήσεων (max-min) - Προσδιόρισε τον πιθανό αριθμό διαστημάτων Α=5logN (Ν=σύνολο μετρήσεων ή μέγεθος του δείγματος) - Προσδιόρισε το εύρος του διαστήματος:
Γενικοί κανόνες για ομαδοποίηση Το πρώτο βήµα της οµαδοποίησης είναι η επιλογή του αριθµού q των διαστηµάτων ή κλάσεων. Ο αριθµός αυτός συνήθως ορίζεται αυθαίρετα από τον ερευνητή σύµφωνα µε την πείρα του και το συγκεκριμένο δείγμα που αναλύει Mπορεί να χρησιµοποιηθεί ως οδηγός ο τύπος του Sturges: q = 1 + 3.32 log 10 ν όπου q είναι ο αριθµός των κλάσεων και ν το µέγεθος του δείγµατος.
Ομαδοποίηση Παρατηρήσεων k: αριθμός διαστημάτων n: αριθμός παρατηρήσεων w: εύρος του διαστήματος R: Συνολικό εύρος διακύμανσης παρατηρήσεων
Γενικοί κανόνες για ομαδοποίηση Προτιμάμε: - Ο αριθμός διαστημάτων να κυμαίνεται μεταξύ 520 - Τα διαστήματα να έχουν το ίδιο εύρος - Το εύρος να είναι 2, 3, 5 ή πολλαπλάσια του 5 - Η επιλογή των τάξεων να γίνεται κατά τρόπο - ώστε να μη συγκεντρώνεται μεγάλος αριθμός δεδομένων σε μια από τις πρώτες ή τελευταίες τάξεις
Πολύγωνο συχνοτήτων Το πολύγωνο συχνοτήτων (frequency polygon) είναι ένα παράγωγο διάγραμμα που απορρέει από την κατασκευή ενός ιστογράμματος. Κατασκευάζεται, αν σε ένα ιστόγραμμα ενώσουμε τα κέντρα των κορυφών των στηλών του. Η πολυγωνική γραμμή που θα προκύψει, ορίζει το αντίστοιχο πολύγωνο συχνοτήτων
Ιστόγραμμα και πολύγωνο κατανομής συχνοτήτων του βάρους των 895 ενηλίκων
Πολύγωνα κατανομής συχνοτήτων του βάρους δύο ομάδων ατόμων διαφορετικής ηλικίας 40 30 20 10 Ομάδες ηλικιών 30-39 0 50-59 44,95 54,95 64,95 74,95 84,95 94,95 104,95 114,95 Βάρος σε Kg
Σε ένα πολύγωνο συχνοτήτων όταν -> ο αριθμός των παρατηρήσεων αυξάνει απεριόριστα και -> το εύρος των διαστημάτων ελαττώνεται, τότε το ιστόγραμμα και το πολύγωνο συχνοτήτων, τείνουν να συμπέσουν σε μία συνεχή καμπύλη η οποία ονομάζεται καμπύλη συχνοτήτων (frequency curve).
Καμπύλη κατανομής συχνοτήτων στην οποία προσεγγίζει το πολύγωνο των συχνοτήτων όταν το πλήθος των παρατηρήσεων τείνει στο άπειρο
Ιστόγραμμα και Πολύγωνο Συχνοτήτων
Ιστόγραμμα και Πολύγωνο Συχνοτήτων
Ιστόγραμμα και Πολύγωνο Συχνοτήτων
Μορφές και Χαρακτηριστικά Κατανομών Συχνοτήτων Ποσοτικών Μεταβλητών
Κυκλικά Διαγράμματα
Κυκλικά Διαγράμματα
Διάγραμμα Αθροιστικών Σχετικών Συχνοτήτων Η Αθροιστική Σχετική Συχνότητα ενός διαστήματος ορίζεται ως το ποσοστό των παρατηρήσεων των οποίων η τιμή είναι μικρότερη ή ίση από το άνω όριο του διαστήματος αυτού Η πολυγωνική γραμμή που προκύπτει ονομάζεται διάγραμμα των αθροιστικών συχνοτήτων
Διάγραμμα Αθροιστικών Σχετικών Συχνοτήτων
Πίνακας Κατανομής Συχνοτήτων
Boxplots