Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος Χρησιμοποιείται μόνο όταν οι τιμές της μεταβλητής έχουν ένα σταθερό άθροισμα (συνήθως 100%, όταν μιλάμε για σχετικές συχνότητες) Είναι χρήσιμο μόνο όταν υπάρχουν αποκλίσεις στις συχνότητες της μεταβλητής από τη μία κατηγορία στην άλλη o ένα κυκλικό διάγραμμα με 7 κατηγορίες που έχουν περίπου την ίδια συχνότητα δε μας είναι χρήσιμο ο αριθμός των κατηγοριών δε θα πρέπει να είναι πολύ μεγάλος Επίσης, σε ένα κυκλικό διάγραμμα καλό είναι να αναφέρονται και οι σχετικές συχνότητες μαζί με τα ονόματα των κατηγοριών Διαφορετικά το διάγραμμα παρέχει πληροφορίες μόνο για την ποιοτική (όχι την ποσοτική) σχέση μεταξύ των κατηγοριών Όταν τα δεδομένα μας είναι διατάξιμα, καλό είναι οι γειτονικές κατηγορίες να εμφανίζονται συνεχόμενα Όταν θέλουμε να δώσουμε έμφαση σε κάποια κατηγορία, μπορούμε να αποκόψουμε τον αντίστοιχο τομέα από το διάγραμμα (υπάρχει τέτοια επιλογή στο Excel) 1 2
Οδηγίες κατασκευής ραβδογραμμάτων 1. Σε ένα σύστημα ορθογωνίων συντεταγμένων, εργαζόμαστε στο πρώτο τεταρτημόριο. 2. Στον άξονα των Χ απεικονίζουμε τις κατηγορίες της μεταβλητής Τα διαστήματα που αντιστοιχούν σε κάθε κατηγορία έχουν ίσο μήκος και ισαπέχουν μεταξύ τους. 3. Στον άξονα των Y απεικονίζουμε τις συχνότητες. 4. Για κάθε κατηγορία, σχεδιάζουμε ένα παραλληλόγραμμο με ύψος ανάλογο με τη συχνότητα της αντίστοιχης κατηγορίας. Πλεονεκτήματα ενός ραβδογράμματος έναντι ενός κυκλικού διαγράμματος 1. Το ραβδόγραμμα κατασκευάζεται εύκολα με το χέρι 2. Με ένα ραβδόγραμμα μπορούμε να διακρίνουμε εύκολα και μικρές διαφορές μεταξύ συχνοτήτων o σε ένα κυκλικό διάγραμμα, ανάμεσα σε δύο κατηγορίες με σχ. συχνότητες 15,1% και 14,9% δεν είναι εύκολο να εντοπίσουμε τη μεγαλύτερη 3. Το ραβδόγραμμα μπορεί να χρησιμοποιηθεί όταν έχουμε πολλές κατηγορίες της μεταβλητής 3 4
4. Με το ραβδόγραμμα μπορούμε εύκολα να μελετήσουμε περισσότερα από ένα χαρακτηριστικά του πληθυσμού ταυτόχρονα 5. Με το ραβδόγραμμα είναι ευκολότερο να κάνουμε συγκρίσεις ανάμεσα σε δύο ή περισσότερα διαγράμματα. Ένα πλεονέκτημα που έχει το κυκλικό διάγραμμα είναι ότι μας δίνει μια καλύτερη εικόνα για τη σχέση που έχει μία συχνότητα με το άθροισμα όλων των συχνοτήτων στο δείγμα Π.χ. είναι εύκολο να διακρίνουμε αν σε μια κατηγορία αντιστοιχεί περισσότερο από το 50% των συχνοτήτων. 5 6
Μέθοδοι για συνεχή δεδομένα Παραδείγματα συνεχών μεταβλητών: o Ύψος, βάρος, μήκος, θερμοκρασία, μηνιαίος μισθός, μηνιαία έξοδα (μιας οικογένειας) κλπ. Πώς θα απεικονίσουμε γραφικά τα δεδομένα, π.χ. το βάρος που αντιστοιχεί σε ένα δείγμα 30 ατόμων; Το πιθανότερο είναι πως στο δείγμα υπάρχουν 30 διαφορετικές τιμές Παράδειγμα (από το βιβλίο Κ. Τσίμπου Φ. Γεωργιακώδη, Πίνακας 4.1) Βάρος 30 ατόμων σε κιλά 79,6 72,3 86,1 75,0 67,3 74,1 76,7 79,9 89,9 76,2 78,6 73,0 85,8 78,0 80,8 81,4 65,1 81,8 76,5 66,8 79,6 77,1 80,1 72,3 78,3 67,9 76,5 73,0 83,9 70,0 Αναζητάμε τη μέγιστη και ελάχιστη τιμή διατάσσουμε τα δεδομένα Άρα δεν έχει νόημα να χρησιμοποιήσουμε συχνότητες για τα ακατέργαστα δεδομένα Αντί γι αυτό, χωρίζουμε τα δεδομένα σε ομάδες και απεικονίζουμε γραφικά τις συχνότητες αυτών των ομάδων 65,1 66,8 67,3 67,9 70,0 72,3 72,3 73,0 73,0 74,1 75,0 76,2 76,5 76,5 76,7 77,1 78,0 78,3 78,6 79,6 79,6 79,6 80,1 80,8 81,4 81,8 83,9 85,8 86,1 89,9 Μέγιστη τιμή 89,9 κιλά Ελάχιστη τιμή 65,1 κιλά Το εύρος των τιμών στο δείγμα = 24,8 κιλά = R 7 8
Στρογγυλοποιούμε (προς τα κάτω) την ελάχιστη τιμή 65,1 65 κιλά Στρογγυλοποιούμε (προς τα πάνω) τη μέγιστη τιμή 89,9 90 κιλά Οπότε το αντίστοιχο εύρος είναι 90-65 = 25 κιλά Χωρίζουμε το εύρος αυτό σε κλάσεις ή διαστήματα Πόσα διαστήματα επιλέγουμε; Σπάνια λιγότερα από 5 ή περισσότερα από 15 Πολύ λίγα διαστήματα ελάχιστη πληροφορία για την κατανομή των τιμών του δείγματος (άρα και του πληθυσμού) Π.χ. είναι αυτή η κατανομή συμμετρική; Πόσο συγκεντρωμένες είναι οι τιμές του δείγματος γύρω από τη μέση τους τιμή; Πάρα πολλά διαστήματα πιθανόν κάποια, ή και πολλά, από αυτά, να είναι κενά (χωρίς παρατηρήσεις) Το διάγραμμα που προκύπτει είναι συνήθως ασαφές και προκαλεί σύγχυση Πλάτος διαστήματος τάξεων δ = R k επιθυμητό πλήθος διαστημάτων Ένας τρόπος επιλογής του k είναι ο εμπειρικός τύπος του Sturges k = ο μικρότερος ακέραιος που είναι μεγαλύτερος ή ίσος από 1 + log(n) / log (2) = 1 + 3,322 log(n) o Ο λογάριθμος εδώ είναι με βάση το 10, και o n είναι το πλήθος των παρατηρήσεων 9 10
Ο τύπος δίνει n k 30 6 50 7 100 8 200 9 500 10 1000 11 2000 12 Επιλέγοντας k = 5 στο παράδειγμα, έχουμε Κλάση Απόλυτες συχνότητες Σχετικές συχνότητες Κεντρική τιμή τάξης 65-69 4 0,13 67,5 70-74 6 0,20 72,5 75-79 12 0,40 77,5 80-84 5 0,17 82,5 85-89 3 0,10 87,5 Για τα δεδομένα του παραδείγματος (n = 30), αν επιλέξουμε 6 κλάσεις, τότε το πλάτος κάθε κλάσης θα είναι R 25 δ = = = k 6 4,167, δηλαδή δεκαδικός αριθμός (καλύτερα να αποφεύγεται). 11 12
Παρατηρήσεις Επιλογή διαστάσεων στο σχεδιάγραμμα 1. Η 1 η κλάση περιλαμβάνει όλες τις τιμές στο διάστημα [65,70), η 2 η στο διάστημα [70,75) κοκ. Οπότε αντί του συμβολισμού 65-69, 70-74 κλπ, θα μπορούσαμε να είχαμε χρησιμοποιήσει το συμβολισμό 65-70, 70-75 κλπ, με τη σύμβαση ότι τα διαστήματα είναι ανοιχτά προς τα πάνω. Αν a,b είναι τα μήκη των αξόνων x,y αντίστοιχα που απεικονίζονται στο διάγραμμα, τότε επιλέγουμε τα a,b έτσι ώστε 1 2 b a 3 4 2. Στην ουσία για ομαδοποιημένα δεδομένα θεωρούμε ότι όλες οι παρατηρήσεις που ανήκουν σε ένα διάστημα είναι συγκεντρωμένες στην κεντρική τιμή αυτού του διαστήματος. Αυτό δημιουργεί πρόβλημα όταν το πλάτος κάθε διαστήματος είναι μεγάλο. Συνήθως το ανώτερο σημείο του κατακόρυφου άξονα είναι μία τιμή λίγο μεγαλύτερη από τη μέγιστη συχνότητα των κλάσεων 13 14
Εδώ ο άξονας των x έχει μήκος μικρότερο από αυτό του άξονα των συχνοτήτων Ένα καλύτερο διάγραμμα είναι το παρακάτω 15 16
Πολύγωνο συχνοτήτων Το πολύγωνο συχνοτήτων για το παράδειγμα με Χρήσιμο για συγκρίσεις δύο ή περισσοτέρων τα βάρη 30 ατόμων κατανομών Προκύπτει από το ιστόγραμμα ενώνοντας τα μέσα των άνω πλευρών των ορθογωνίων Κλείνουμε την πολυγωνική γραμμή ξεκινώντας από το μέσο του διαστήματος αριστερά από το πρώτο ορθογώνιο και καταλήγοντας στο μέσο του διαστήματος δεξιά από το τελευταίο ορθογώνιο Για να μπορούν να γίνουν συγκρίσεις θα πρέπει τα ιστογράμματα να αναφέρονται σε σχετικές συχνότητες Συχνότητα Histogram 14 12 10 8 6 4 2 0 67,5 72,5 77,5 82,5 87,5 Βάρος Frequency 17 18
Καμπύλη συχνοτήτων Είδη κατανομών Τι γίνεται όταν το πλήθος των παρατηρήσεων είναι πολύ μεγάλο; Γενικά έχουμε 4 είδη κατανομών ανάλογα με το σχήμα τους : Καθώς το μέγεθος του δείγματος αυξάνει, μεγαλώνει και ο αριθμός των διαστημάτων στη γραφική παράσταση (ιστόγραμμα, αντίστοιχα πολύγωνο συχνοτήτων) Για πολύ μεγάλο πλήθος διαστημάτων, το πολύγωνο συχνοτήτων προσεγγίζει μία ομαλή καμπύλη, την καμπύλη συχνοτήτων. Αυτή με τη σειρά της προσεγγίζει τη θεωρητική κατανομή του πληθυσμού από τον οποίο προήλθε το δείγμα. o Μονοκόρυφες κατανομές o Κατανομές σχήματος U o Κατανομές σχήματος J o Άλλες κατανομές Οι μονοκόρυφες κατανομές διακρίνονται σε : Συμμετρικές κατανομές Κατανομές με θετική ασυμμετρία Κατανομές με αρνητική ασυμμετρία (βλ. Σχήμα 4.5 στο βιβλίο) Παράδειγμα συμμετρικής κατανομής είναι η κανονική κατανομή 19 20
Παράδειγμα καμπύλης συχνοτήτων από συμμετρική κατανομή Παράδειγμα καμπύλης συχνοτήτων από θετικά ασύμμετρη (αριστερά στο σχήμα) και αρνητικά ασύμμετρη (δεξιά στο σχήμα) κατανομή 21