Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε «ποιο είδος βιβλίων προτιμάτε να διαβάζετε στον ελεύθερο χρόνο σας;» Λογοτεχνικά (Λ) Αστυνομικά (Α) Επιστημονικά / Ιστορικά (Ε) Κανένα ή άλλο (Κ) Η περιγραφή των δεδομένων γίνεται με βάση τις συχνότητες Πόσα άτομα από το δείγμα μας βρίσκονται σε κάθε κατηγορία (ομάδα) της μεταβλητής που εξετάζουμε ; Δεν μας ενδιαφέρει η απάντηση του κάθε ατόμου ξεχωριστά, αλλά πόσα άτομα βρίσκονται σε καθεμία από τις 4 κατηγορίες Έστω ότι βρήκαμε τις συχνότητες 8 Λ 11 Α 4 Ε 2 Κ 1 2
Κατασκευάζουμε τον πίνακα με τις συχνότητες και τις σχετικές συχνότητες Είδος Απόλυτες Σχετικές Ποσοστά βιβλίων συχνότητες συχνότητες (%) f i f i /n f i *100/n Λογοτεχνικά 8 0,32 32 Αστυνομικά 11 0,44 44 Επιστημονικά 4 0,16 16 Κανένα 2 0,08 8 Σύνολο 25 1,00 100 Κάποιοι βασικοί κανόνες κατάρτισης στατιστικών πινάκων Να είναι ξεκάθαρο τι περιέχει κάθε γραμμή στήλη Για δεδομένα μιας μεταβλητής, οι γραμμές συνήθως παριστάνουν τις τιμές (κατηγορίες) της μεταβλητής που εξετάζουμε Να αποφεύγονται, κατά το δυνατόν, κενά πεδία Να αποφεύγονται τα πολλά δεκαδικά ψηφία 3 4
Σε περίπτωση παρουσίασης πολλών πινάκων, να υπάρχει σαφής αρίθμηση Στο τέλος του πίνακα αναφέρουμε την πηγή των στατιστικών στοιχείων Υποσημειώσεις χρησιμοποιούνται όταν είναι απαραίτητη κάποια επεξήγηση για τα στοιχεία του πίνακα ή για τον τρόπο της έρευνας o Π.χ. μονάδες μέτρησης o Τρόπος δειγματοληψίας Παράδειγμα (από το βιβλίο) ΠΙΝΑΚΑΣ Απασχολούμενοι ανά φύλο και περιοχή συνήθους διαμονής (1989) Περιοχές Άνδρες Γυναίκες Άνδρες (%) Γυναίκες (%) Αστικές 1437800 723700 60,27 56,30 Ημιαστικές 275500 132200 11,55 10,28 Αγροτικές 672200 429600 28,18 33,42 Σύνολο 2385500 1285500 100,00 100,00 Παράδειγμα ενός πίνακα που δίνει στοιχεία για δύο μεταβλητές (περιοχή φύλο) Οι περιοχές (αστικές/ημιαστικές/αγροτικές) παριστάνουν τις γραμμές του πίνακα, το φύλο τις στήλες του πίνακα. 5 6
Κάποιοι κανόνες για την παρουσίαση στατιστικών στοιχείων με διαγράμματα Πριν επιλέξουμε το είδος του διαγράμματος, καλό θα είναι να σκεφτούμε: Τι από τα παραπάνω δεν είναι το διάγραμμα αυτό, που αναφέρεται στα δεδομένα του παραδείγματος (είδος βιβλίων που διαβάζει το δείγμα των 25 ατόμων); 1. Τι ακριβώς θέλουμε να παρουσιάσουμε με το διάγραμμα; 2. Τι είδους είναι η μεταβλητή που εξετάζουμε; 3. Τι είδους είναι τα δεδομένα μας (π.χ. χρονολογικά, διαστρωμματικά, μεικτά); Ένα διάγραμμα θα πρέπει να είναι παραστατικό να διευκολύνει την κατανόηση και να παρουσιάζει τα βασικά χαρακτηριστικά της μεταβλητής σαφές να μη δημιουργεί σύγχυση ακριβές να μην παραπλανά τον αναγνώστη 1 2 3 4 7 8
Μία άλλη μορφή κυκλικού διαγράμματος Όταν τα δεδομένα που μελετάμε είναι ποιοτικά (ονομαστικά) δεδομένα, ή διακριτά δεδομένα, 1 2 3 4 τότε τα δύο κυριότερα είδη διαγραμμάτων που χρησιμοποιούμε είναι κυκλικά διαγράμματα ραβδογράμματα Και τα δύο απεικονίζουν συχνότητες (ή σχετικές συχνότητες) που αντιστοιχούν στις τιμές (κατηγορίες) της μεταβλητής Τρισδιάστατα διαγράμματα είναι στα αλήθεια χρήσιμα ; ιδιαίτερα για μονοδιάστατα δεδομένα ; ικανοποιούν τα παραπάνω χαρακτηριστικά (σαφήνεια, ακρίβεια κλπ) ; o Στην πρώτη περίπτωση οι συχνότητες παριστάνονται με κυκλικούς τομείς o Στη δεύτερη με κατακόρυφες γραμμές (ή ορθογώνια) 9 10
Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος Χρησιμοποιείται μόνο όταν οι τιμές της μεταβλητής έχουν ένα σταθερό άθροισμα (συνήθως 100%, όταν μιλάμε για σχετικές συχνότητες) Είναι χρήσιμο μόνο όταν υπάρχουν αποκλίσεις στις συχνότητες της μεταβλητής από τη μία κατηγορία στην άλλη o ένα κυκλικό διάγραμμα με 7 κατηγορίες που έχουν περίπου την ίδια συχνότητα δε μας είναι χρήσιμο ο αριθμός των κατηγοριών δε θα πρέπει να είναι πολύ μεγάλος Επίσης, σε ένα κυκλικό διάγραμμα καλό είναι να αναφέρονται και οι σχετικές συχνότητες μαζί με τα ονόματα των κατηγοριών Διαφορετικά το διάγραμμα παρέχει πληροφορίες μόνο για την ποιοτική (όχι την ποσοτική) σχέση μεταξύ των κατηγοριών Όταν τα δεδομένα μας είναι διατάξιμα, καλό είναι οι γειτονικές κατηγορίες να εμφανίζονται συνεχόμενα Όταν θέλουμε να δώσουμε έμφαση σε κάποια κατηγορία, μπορούμε να αποκόψουμε τον αντίστοιχο τομέα από το διάγραμμα (υπάρχει τέτοια επιλογή στο Excel) 11 12
Οδηγίες κατασκευής ραβδογραμμάτων 1. Σε ένα σύστημα ορθογωνίων συντεταγμένων, εργαζόμαστε στο πρώτο τεταρτημόριο. 2. Στον άξονα των Χ απεικονίζουμε τις κατηγορίες της μεταβλητής Τα διαστήματα που αντιστοιχούν σε κάθε κατηγορία έχουν ίσο μήκος και ισαπέχουν μεταξύ τους. 3. Στον άξονα των Y απεικονίζουμε τις συχνότητες. 4. Για κάθε κατηγορία, σχεδιάζουμε ένα παραλληλόγραμμο με ύψος ανάλογο με τη συχνότητα της αντίστοιχης κατηγορίας. Πλεονεκτήματα ενός ραβδογράμματος έναντι ενός κυκλικού διαγράμματος 1. Το ραβδόγραμμα κατασκευάζεται εύκολα με το χέρι 2. Με ένα ραβδόγραμμα μπορούμε να διακρίνουμε εύκολα και μικρές διαφορές μεταξύ συχνοτήτων o σε ένα κυκλικό διάγραμμα, ανάμεσα σε δύο κατηγορίες με σχ. συχνότητες 15,1% και 14,9% δεν είναι εύκολο να εντοπίσουμε τη μεγαλύτερη 3. Το ραβδόγραμμα μπορεί να χρησιμοποιηθεί όταν έχουμε πολλές κατηγορίες της μεταβλητής 13 14
4. Με το ραβδόγραμμα μπορούμε εύκολα να μελετήσουμε περισσότερα από ένα χαρακτηριστικά του πληθυσμού ταυτόχρονα 5. Με το ραβδόγραμμα είναι ευκολότερο να κάνουμε συγκρίσεις ανάμεσα σε δύο ή περισσότερα διαγράμματα. Ένα πλεονέκτημα που έχει το κυκλικό διάγραμμα είναι ότι μας δίνει μια καλύτερη εικόνα για τη σχέση που έχει μία συχνότητα με το άθροισμα όλων των συχνοτήτων στο δείγμα Π.χ. είναι εύκολο να διακρίνουμε αν σε μια κατηγορία αντιστοιχεί περισσότερο από το 50% των συχνοτήτων. 15 16
Μέθοδοι για συνεχή δεδομένα Παραδείγματα συνεχών μεταβλητών: o Ύψος, βάρος, μήκος, θερμοκρασία, μηνιαίος μισθός, μηνιαία έξοδα (μιας οικογένειας) κλπ. Πώς θα απεικονίσουμε γραφικά τα δεδομένα, π.χ. το βάρος που αντιστοιχεί σε ένα δείγμα 30 ατόμων; Το πιθανότερο είναι πως στο δείγμα υπάρχουν 30 διαφορετικές τιμές Παράδειγμα (από το βιβλίο Κ. Τσίμπου Φ. Γεωργιακώδη, Πίνακας 4.1) Βάρος 30 ατόμων σε κιλά 79,6 72,3 86,1 75,0 67,3 74,1 76,7 79,9 89,9 76,2 78,6 73,0 85,8 78,0 80,8 81,4 65,1 81,8 76,5 66,8 79,6 77,1 80,1 72,3 78,3 67,9 76,5 73,0 83,9 70,0 Αναζητάμε τη μέγιστη και ελάχιστη τιμή διατάσσουμε τα δεδομένα Άρα δεν έχει νόημα να χρησιμοποιήσουμε συχνότητες για τα ακατέργαστα δεδομένα Αντί γι αυτό, χωρίζουμε τα δεδομένα σε ομάδες και απεικονίζουμε γραφικά τις συχνότητες αυτών των ομάδων 65,1 66,8 67,3 67,9 70,0 72,3 72,3 73,0 73,0 74,1 75,0 76,2 76,5 76,5 76,7 77,1 78,0 78,3 78,6 79,6 79,6 79,6 80,1 80,8 81,4 81,8 83,9 85,8 86,1 89,9 Μέγιστη τιμή 89,9 κιλά Ελάχιστη τιμή 65,1 κιλά Το εύρος των τιμών στο δείγμα = 24,8 κιλά = R 17 18
Στρογγυλοποιούμε (προς τα κάτω) την ελάχιστη τιμή 65,1 65 κιλά Στρογγυλοποιούμε (προς τα πάνω) τη μέγιστη τιμή 89,9 90 κιλά Οπότε το αντίστοιχο εύρος είναι 90-65 = 25 κιλά Χωρίζουμε το εύρος αυτό σε κλάσεις ή διαστήματα Πόσα διαστήματα επιλέγουμε; o Σπάνια λιγότερα από 5 ή περισσότερα από 15 Πολύ λίγα διαστήματα ελάχιστη πληροφορία για την κατανομή των τιμών του δείγματος (άρα και του πληθυσμού) Π.χ. είναι αυτή η κατανομή συμμετρική; Πόσο συγκεντρωμένες είναι οι τιμές του δείγματος γύρω από τη μέση τους τιμή; Πάρα πολλά διαστήματα πιθανόν κάποια, ή και πολλά, από αυτά, να είναι κενά (χωρίς παρατηρήσεις) Το διάγραμμα που προκύπτει είναι συνήθως ασαφές και προκαλεί σύγχυση Πλάτος διαστήματος τάξεων δ = R k επιθυμητό πλήθος διαστημάτων Ένας τρόπος επιλογής του k είναι ο εμπειρικός τύπος του Sturges k = ο μικρότερος ακέραιος που είναι μεγαλύτερος ή ίσος από 1 + log(n) / log (2) = 1 + 3,322 log(n) o Ο λογάριθμος εδώ είναι με βάση το 10, και o n είναι το πλήθος των παρατηρήσεων 19 20
Ο τύπος δίνει n k 30 6 50 7 100 8 200 9 500 10 1000 11 2000 12 Επιλέγοντας k = 5 στο παράδειγμα, έχουμε Κλάση Απόλυτες συχνότητες Σχετικές συχνότητες Κεντρική τιμή τάξης 65-69 4 0,13 67,5 70-74 6 0,20 72,5 75-79 12 0,40 77,5 80-84 5 0,17 82,5 85-89 3 0,10 87,5 Για τα δεδομένα του παραδείγματος (n = 30), αν επιλέξουμε 6 κλάσεις, τότε το πλάτος κάθε κλάσης θα είναι R 25 δ = = = k 6 4,167, δηλαδή δεκαδικός αριθμός (καλύτερα να αποφεύγεται). 21 22
Παρατηρήσεις Επιλογή διαστάσεων στο σχεδιάγραμμα 1. Η 1 η κλάση περιλαμβάνει όλες τις τιμές στο διάστημα [65,70), η 2 η στο διάστημα [70,75) κοκ. Οπότε αντί του συμβολισμού 65-69, 70-74 κλπ, θα μπορούσαμε να είχαμε χρησιμοποιήσει το συμβολισμό 65-70, 70-75 κλπ, με τη σύμβαση ότι τα διαστήματα είναι ανοιχτά προς τα πάνω. Αν a,b είναι τα μήκη των αξόνων x,y αντίστοιχα που απεικονίζονται στο διάγραμμα, τότε επιλέγουμε τα a,b έτσι ώστε 1 2 b a 3 4 2. Στην ουσία για ομαδοποιημένα δεδομένα θεωρούμε ότι όλες οι παρατηρήσεις που ανήκουν σε ένα διάστημα είναι συγκεντρωμένες στην κεντρική τιμή αυτού του διαστήματος. Αυτό δημιουργεί πρόβλημα όταν το πλάτος κάθε διαστήματος είναι μεγάλο. Συνήθως το ανώτερο σημείο του κατακόρυφου άξονα είναι μία τιμή λίγο μεγαλύτερη από τη μέγιστη συχνότητα των κλάσεων 23 24
Εδώ ο άξονας των x έχει μήκος μικρότερο από αυτό του άξονα των συχνοτήτων Ένα καλύτερο διάγραμμα είναι το παρακάτω 25 26
Πολύγωνο συχνοτήτων Το πολύγωνο συχνοτήτων για το παράδειγμα με Χρήσιμο για συγκρίσεις δύο ή περισσοτέρων τα βάρη 30 ατόμων κατανομών Προκύπτει από το ιστόγραμμα ενώνοντας τα μέσα των άνω πλευρών των ορθογωνίων Κλείνουμε την πολυγωνική γραμμή ξεκινώντας από το μέσο του διαστήματος αριστερά από το πρώτο ορθογώνιο και καταλήγοντας στο μέσο του διαστήματος δεξιά από το τελευταίο ορθογώνιο Για να μπορούν να γίνουν συγκρίσεις θα πρέπει τα ιστογράμματα να αναφέρονται σε σχετικές συχνότητες Συχνότητα Histogram 14 12 10 8 6 4 2 0 67,5 72,5 77,5 82,5 87,5 Βάρος Frequency 27 28
Καμπύλη συχνοτήτων Είδη κατανομών Τι γίνεται όταν το πλήθος των παρατηρήσεων είναι πολύ μεγάλο; Γενικά έχουμε 4 είδη κατανομών ανάλογα με το σχήμα τους : Καθώς το μέγεθος του δείγματος αυξάνει, μεγαλώνει και ο αριθμός των διαστημάτων στη γραφική παράσταση (ιστόγραμμα, αντίστοιχα πολύγωνο συχνοτήτων) Για πολύ μεγάλο πλήθος διαστημάτων, το πολύγωνο συχνοτήτων προσεγγίζει μία ομαλή καμπύλη, την καμπύλη συχνοτήτων. Αυτή με τη σειρά της προσεγγίζει τη θεωρητική κατανομή του πληθυσμού από τον οποίο προήλθε το δείγμα. o Μονοκόρυφες κατανομές o Κατανομές σχήματος U o Κατανομές σχήματος J o Άλλες κατανομές Οι μονοκόρυφες κατανομές διακρίνονται σε : Συμμετρικές κατανομές Κατανομές με θετική ασυμμετρία Κατανομές με αρνητική ασυμμετρία (βλ. Σχήμα 4.5 στο βιβλίο) Παράδειγμα συμμετρικής κατανομής είναι η κανονική κατανομή 29 30
Μία γραφική παράσταση, αντίστοιχη με το ιστόγραμμα, που χρησιμοποιείται (κυρίως) για διακριτά δεδομένα, είναι το φυλλογράφημα (stem and leaf diagram) Παράδειγμα καμπύλης συχνοτήτων από συμμετρική κατανομή Παράδειγμα Έστω ότι έχουμε τα παρακάτω δεδομένα, τα οποία έχουν διαταχθεί κατ αύξουσα τιμή : 8, 13, 16, 25, 26, 29, 30, 32, 37, 38, 40, 41, 44, 47, 49, 51, 54, 55, 58, 61, 63, 67, 75, 78, 82, 86, 95 Εδώ τα διακριτά δεδομένα είναι διψήφιοι αριθμοί. Το ψηφίο των δεκάδων είναι ο μίσχος (ή κορμός) Το ψηφίο των μονάδων είναι το φύλλο Παράδειγμα καμπύλης συχνοτήτων από θετικά ασύμμετρη (αριστερά στο σχήμα) και αρνητικά ασύμμετρη (δεξιά στο σχήμα) κατανομή 31 32
0 8 1 3 6 2 5 6 9 3 0 2 7 8 4 0 1 4 7 9 5 1 4 5 8 6 1 3 7 7 5 8 8 2 6 9 5 Το σχήμα μοιάζει με ένα ιστόγραμμα που έχει περιστραφεί κατά 90 ο. Εδώ π.χ. υπάρχει ένδειξη ότι η κατανομή είναι συμμετρική. Πλεονεκτήματα Μπορεί πολύ εύκολα να κατασκευαστεί με το χέρι Σε αντίθεση με το ιστόγραμμα, το φυλλογράφημα χρησιμοποιεί τις ακριβείς τιμές όλων των παρατηρήσεων Μας δείχνει τη μορφή της κατανομής (π.χ. αν είναι μονοκόρυφη, αν έχει θετική ή αρνητική ασυμμετρία κλπ) Μπορούν εύκολα να εντοπιστούν ακραίες (έκτροπες) παρατηρήσεις Τι γίνεται όταν τα δεδομένα έχουν περισσότερα από δύο ψηφία; 33 34
Παράδειγμα (από το βιβλίο Κ. Τσίμπου - Φ. Γεωργιακώδη) Τα δεδομένα αφορούν την επίδοση 20 ατόμων σε ένα ψυχολογικό τεστ 700 709 755 764 841 855 855 872 872 873 873 879 920 928 928 946 1000 1070 1105 1117 Επιλέγω το ψηφίο των εκατοντάδων σαν μίσχο, τα άλλα δύο ψηφία είναι τα φύλλα στο διάγραμμα Εύκολα διαπιστώνουμε ότι οι τιμές 855, 872, 873, 928 εμφανίζονται δύο φορές (επικρατούσα τιμή) υπάρχει ένδειξη για θετική ασυμμετρία στην κατανομή Το φυλλογράφημα μπορεί να χρησιμοποιηθεί και για συνεχή δεδομένα Αυτό μπορεί να γίνει είτε απευθείας (π.χ. όταν υπάρχει ένα ακέραιο και ένα δεκαδικό ψηφίο) είτε με αποκοπή των δεκαδικών ψηφίων 7 00 09 55 64 8 41 55 55 72 72 73 73 79 9 20 28 28 46 10 00 70 11 05 17 35 36
Παράδειγμα Χρησιμοποιούμε τα δεδομένα από προηγούμενο παράδειγμα (βάρος 30 ατόμων σε κιλά) διατεταγμένο δείγμα 65,1 66,8 67,3 67,9 70,0 72,3 72,3 73,0 73,0 74,1 75,0 76,2 76,5 76,5 76,7 77,1 78,0 78,3 78,6 79,6 79,6 79,6 80,1 80,8 81,4 81,8 83,9 85,8 86,1 89,9 Εδώ ο μίσχος αντιστοιχεί σε μία πεντάδα (όχι δεκάδα) 6* 5 6 7 7 7 0 2 2 3 3 4 7* 5 6 6 6 6 7 8 8 8 9 9 9 8 0 0 1 1 3 8* 5 6 9 (πρβλ. το ιστόγραμμα προηγουμένως) Διώχνουμε τα δεκαδικά ψηφία, οπότε ο πίνακας γίνεται 65 66 67 67 70 72 72 73 73 74 75 76 76 76 76 77 78 78 78 79 79 79 80 80 81 81 83 85 86 89 Εδώ Η επικρατούσα τιμή είναι 76 Η διάμεσος είναι 76,5 (ο μέσος όρος της 15 ης και 16 ης παρατήρησης) Υπάρχει ένδειξη για τη συμμετρία της κατανομής. 37 38