1 ο ΜΑΘΗΜΑ Εισαγωγή στη Στατιστική Α ΜΕΡΟΣ ΤΟ ΒΑΣΙΚΟ ΜΑΣ ΛΕΞΙΛΟΓΙΟ Στατιστική είναι ο κλάδος των μαθηματικών που ασχολείται με τη συλλογή, την οργάνωση, την παρουσίαση και την ανάλυση αριθμητικών δεδομένων ή ποιοτικών χαρακτηριστικών, που λαμβάνονται από ένα σύνολο αντικειμένων τα οποία συνθέτουν τον υπό μελέτη πληθυσμό. Κύριος στόχος της Στατιστικής είναι η εξαγωγή συμπερασμάτων για τον πληθυσμό με τη χρήση και την επεξεργασία ενός μοναδικού δείγματος, δηλαδή ενός μικρού μέρους (υποσυνόλου) του πληθυσμού. Η Περιγραφική Στατιστική (Descrptve Statstcs) είναι το σύνολο των μεθόδων που χρησιμοποιούνται για την οργάνωση και την παρουσίαση των δεδομένων. Εδώ θα συναντήσουμε τους στατιστικούς πίνακες (οργάνωση των δεδομένων) και διάφορους τύπους γραφημάτων (παρουσίαση των δεδομένων). Ακόμα, στην Περιγραφική Στατιστική συμπεριλαμβάνονται ο υπολογισμός και η ερμηνεία αριθμητικών μέτρων (δεικτών), όπως ο αριθμητικός μέσος, η διάμεσος, κ.α. Η Επαγωγική Στατιστική (Inferental Statstcs) είναι το σύνολο των μεθόδων που χρησιμοποιούνται για την εξαγωγή των συμπερασμάτων και τη λήψη αποφάσεων. 1.1 Πληθυσμός Δείγμα Πληθυσμός (populaton) μιας στατιστικής έρευνας είναι το σύνολο των οντοτήτων που πρόκειται να μελετήσουμε, ως προς ένα ή περισσότερα χαρακτηριστικά του. Ο πληθυσμός μπορεί να είναι ένα σύνολο ανθρώπων (για παράδειγμα το σύνολο των κατοίκων της Ελλάδας, το σύνολο των μεταναστών στην Ελλάδα, το σύνολο των τουριστών που επισκέφτηκαν τη χώρα μια συγκεκριμένη χρονιά, κ.λπ.) Μπορεί να είναι ένα σύνολο αντικειμένων (για παράδειγμα, το σύνολο των ταξί μιας πόλης, το σύνολο των κινητών τηλεφώνων που παράγει μια εταιρεία, το σύνολο των ενοικιαζόμενων για διακοπές δωματίων που διαθέτει η χώρα ή το σύνολο των μεγάλων ξενοδοχειακών μονάδων, κ.λπ.) Μπορεί να είναι το σύνολο των μετρήσεων ενός φυσικού μεγέθους (τιμές θερμοκρασίας τον μήνα Ιούλιο), ενός οικονομικού μεγέθους (το Α.Ε.Π. μιας χώρας), κ.α. Τις περισσότερες φορές ο πληθυσμός που πρόκειται να μελετήσουμε είναι πολύ μεγάλος. Χρονικοί αλλά και οικονομικοί λόγοι καθιστούν την απογραφή ολόκληρου του πληθυσμού σχεδόν αδύνατη. Έτσι, η συλλογή των δεδομένων περιορίζεται στην καταγραφή ενός μικρού σχετικά υποσυνόλου που επιλέγεται κατάλληλα από τον πληθυσμό. Το υποσύνολο αυτό ονομάζεται δείγμα (sample) της στατιστικής έρευνας. Θα πρέπει εδώ να αναφέρουμε ότι η επιλογή του κατάλληλου δείγματος (δειγματοληψία - samplng), αποτελεί το πρώτο και, φυσικά, καθοριστικό βήμα για μια ορθή και αξιόπιστη
2 1 ο Μάθημα στατιστική έρευνα. Σε μια δειγματοληψία, οφείλουμε να ακολουθούμε τους κανόνες που ορίζονται από την Στατιστική και να χρησιμοποιούμε τις ενδεδειγμένες μεθόδους (τεχνικές δειγματοληψίας) 1.2 Μεταβλητές Είδη Μεταβλητών Δεδομένα Μεταβλητή (varable) είναι κάθε χαρακτηριστικό του πληθυσμού το οποίο διαφοροποιείται από αντικείμενο σε αντικείμενο, από περιοχή σε περιοχή ή αλλάζει με το πέρασμα του χρόνου. Το ύψος, το βάρος, το χρώμα των ματιών ενός εφήβου είναι μεταβλητές του πληθυσμού των εφήβων στην Ελλάδα. Ο αριθμός των εργαζομένων, τα έσοδα, τα έξοδα είναι μεταβλητές του πληθυσμού των επιχειρήσεων. Συνηθίζουμε να συμβολίζουμε τις μεταβλητές με κεφαλαία γράμματα, όπως X, Y, Z. Ποσοτική (quanttatve) είναι κάθε μεταβλητή που μπορεί να μετρηθεί, με την κοινή έννοια του όρου. Ο χρόνος (σε mn) που ξοδεύει καθημερινά στο Internet ο φοιτητής, η αξία (σε ) μιας μετοχής, ο αριθμός των μελών της οικογένειας είναι ποσοτικές μεταβλητές. Ποιοτική (qualtatve) είναι η μεταβλητή που καταγράφει κάποιο ποιοτικό (μη μετρήσιμο) χαρακτηριστικό. Για παράδειγμα, το χρώμα των ματιών ενός ατόμου, το επίπεδο μόρφωσης, η οικογενειακή κατάσταση, ο τόπος καταγωγής είναι ποιοτικές μεταβλητές. Τιμή μιας μεταβλητής είναι το αποτέλεσμα που προκύπτει από τη μέτρηση ή την καταγραφή της. Οι ποσοτικές μεταβλητές παίρνουν σαν τιμές πραγματικούς αριθμούς και χωρίζονται σε διακριτές (dscrete) και συνεχείς (contnuous). Διακριτή, είναι η ποσοτική μεταβλητή που παίρνει τις τιμές της από ένα αριθμήσιμο σύνολο, δηλαδή ένα σύνολο αριθμών που μπορούμε να το απαριθμήσουμε στοιχείο προς στοιχείο. Για παράδειγμα, το πλήθος των μαθημάτων που μπορεί να δηλώσει ο φοιτητής σε ένα εξάμηνο είναι διακριτή μεταβλητή που παίρνει τιμές από το σύνολο {1, 2, 3, 4, 5, 6, 7, 8}. Το πλήθος των πελατών που καταφθάνουν σε ένα ΑΤΜ σε ένα χρόνο είναι μία διακριτή μεταβλητή που παίρνει τιμές από το σύνολο {, 1, 2, 3, 4,. }. Ο βαθμός ενός φοιτητή στο μάθημα της Στατιστικής είναι διακριτή μεταβλητή που παίρνει τιμές από το σύνολο {,.5, 1, 1.5, 2, 2.5,, 9, 9.5, } Συνεχής είναι η ποσοτική μεταβλητή που παίρνει τιμές σε ένα διάστημα πραγματικών αριθμών. Για παράδειγμα, ο χρόνος σε mn που ξοδεύει καθημερινά στο Internet ένας φοιτητής είναι συνεχής μεταβλητή, που παίρνει τιμές στο διάστημα 15 mn 3 mn. Θα πρέπει εδώ να επισημάνουμε ότι η τιμή που καταγράφουμε όταν μετράμε μία συνεχή μεταβλητή είναι, τις περισσότερες φορές, μία προσέγγιση της πραγματικής τιμής η οποία εξαρτάται από την ακρίβεια του οργάνου μέτρησης. Οι ποιοτικές μεταβλητές παίρνουν σαν τιμές τους λέξεις («χαρακτηρισμούς» ή «ετικέτες») και διακρίνονται σε ονομαστικές (nomnal) και διατακτικές (ordnal). Μια ποιοτική μεταβλητή είναι ονομαστική όταν μεταξύ των τιμών της δεν υπάρχει σχέση ιεραρχίας. Μαρίνα Σύρπη
Εισαγωγή στη Στατιστική 3 Για παράδειγμα, το χρώμα των μαλλιών είναι μία ποιοτική μεταβλητή που παίρνει τιμές από το σύνολο {ξανθό, καστανό, μαύρο} και είναι ονομαστική, καθώς μεταξύ των χρωμάτων δεν έχει νόημα να θεωρήσουμε κάποια ιεραρχία. Ο χαρακτηρισμός που ακολουθεί τον βαθμό του πτυχίου είναι μία ποιοτική μεταβλητή που παίρνει τιμές από το σύνολο {Καλώς, Λίαν Καλώς, Άριστα} και είναι διατακτική, καθώς ανάμεσα στις κατηγορίες υπάρχει ιεραρχία. Δεδομένα (data) είναι το σύνολο των καταγεγραμμένων τιμών μιας μεταβλητής, που λαμβάνονται από τη δειγματοληψία. Για τις ποσοτικές μεταβλητές, τα δεδομένα είναι πραγματικοί αριθμοί. Για τις ποιοτικές μεταβλητές τα δεδομένα είναι «ετικέτες». Έτσι μιλάμε για ποσοτικά ή αριθμητικά δεδομένα και για ονομαστικά ή κατηγορικά δεδομένα. Πολλές φορές για την αποθήκευση των ονομαστικών δεδομένων χρησιμοποιούμε αριθμούς, για παράδειγμα {Καλώς = 1, Λίαν Καλώς = 2, Άριστα = 3}, χωρίς αυτό να σημαίνει ότι είναι δυνατή η εκτέλεση αριθμητικών πράξεων μεταξύ των δεδομένων. 1.3 Παράμετρος Στατιστικό Παράμετρος ενός πληθυσμού (parameter) είναι κάθε αριθμός που συνοψίζει κάποιο χαρακτηριστικό του πληθυσμού. Ο υπολογισμός μιας παραμέτρου μπορεί να γίνει με τη χρήση του κατάλληλου μαθηματικού τύπου που υποδεικνύει η Στατιστική. Για παράδειγμα, το μέσο ύψος των εφήβων στην Ελλάδα είναι μία παράμετρος του πληθυσμού των Ελλήνων εφήβων. Η τιμή μιας παραμέτρου στον πληθυσμό είναι μοναδική. Και για να υπολογιστεί αυτή η τιμή, θα πρέπει να γίνει απογραφή ολόκληρου του πληθυσμού. Καθώς αυτό είναι τις περισσότερες φορές αδύνατο, η τιμή της παραμέτρου στον πληθυσμό παραμένει άγνωστη. Στατιστικό ή στατιστική ενός δείγματος (statstc) είναι κάθε αριθμός που συνοψίζει κάποιο χαρακτηριστικό του δείγματος. Για παράδειγμα, ο αριθμητικός μέσος του ύψους 5 εφήβων που επιλέγονται τυχαία από τον πληθυσμό των εφήβων στην Ελλάδα, είναι ένα στατιστικό του δείγματος. Η τιμή ενός στατιστικού υπολογίζεται, όπως και στην περίπτωση της παραμέτρου, από κάποιον τύπο και χρησιμοποιείται για την εκτίμηση της αντίστοιχης παραμέτρου του πληθυσμού. Η τιμή ενός στατιστικού μεταβάλλεται από δείγμα σε δείγμα. Δηλαδή, διαφορετικά δείγματα εφήβων παρμένα τυχαία από τον πληθυσμό θα δώσουν διαφορετικούς αριθμητικούς μέσους. Ωστόσο, η Στατιστική μας εγγυάται ότι καμία από αυτές τις τιμές δεν θα είναι απομακρυσμένη από την αντίστοιχη τιμή της παραμέτρου στον πληθυσμό. Με άλλα λόγια, η τιμή της στατιστικής ενός δείγματος είναι πάντα μια βέλτιστη εκτίμηση της πραγματικής αλλά άγνωστης τιμής της αντίστοιχης παραμέτρου στον πληθυσμό. Σημειώσεις Στατιστικής
4 1 ο Μάθημα Παράδειγμα 1 Σε μία έρευνα για το είδος εξοχικής κατοικίας των κατοίκων της Θεσσαλονίκης, ο πληθυσμός μας είναι οι κάτοικοι της Θεσσαλονίκης που κατέχουν εξοχική κατοικία. Μεταβλητές που μπορούμε να χρησιμοποιήσουμε στην έρευνα είναι οι παρακάτω: Το μέγεθος της κατοικίας σε m 2, που είναι μία ποσοτική συνεχής μεταβλητή. Οι ημέρες διαμονής ανά έτος στην εξοχική κατοικία, που είναι μία ποσοτική διακριτή μεταβλητή. Το είδος της κατοικίας (συγκρότημα ή μονοκατοικία), που είναι μία ποιοτική ονομαστική μεταβλητή. Η ποιότητα διαμονής στην εξοχική κατοικία (Άριστη, Πολύ Καλή, Μέτρια) που είναι μία ονομαστική διατακτική μεταβλητή. Κατονομάστε και χαρακτηρίστε και άλλες μεταβλητές που θα σας ενδιέφεραν σε μια τέτοια έρευνα. Αναφέρετε τους λόγους για τις οποίους τις επιλέξατε. Παράδειγμα 2 Το τμήμα Διοίκησης Επιχειρήσεων διεξάγει έρευνα για την επαγγελματική αποκατάσταση των πτυχιούχων του, κατά την τελευταία πενταετία. Ο πληθυσμός είναι το σύνολο των φοιτητών που αποφοίτησαν από το τμήμα τα τελευταία πέντε χρόνια. Μεταβλητές που μπορούμε να χρησιμοποιήσουμε στην έρευνα είναι οι παρακάτω: Εργασία (Ναι ή Όχι) που είναι μία ποιοτική ονομαστική μεταβλητή. Φύλο (Άνδρας Γυναίκα) που είναι μια ποιοτική ονομαστική μεταβλητή. Εισόδημα από την εργασία, που είναι μία ποσοτική συνεχής μεταβλητή. Συνθήκες εργασίας (Άριστες, Καλές, Μέτριες, Κακές), που είναι μία ποσοτική διατακτική μεταβλητή. Κατονομάστε και χαρακτηρίστε και άλλες μεταβλητές που θα σας ενδιέφεραν σε μια τέτοια έρευνα. Αναφέρετε τους λόγους για τις οποίους τις επιλέξατε. Μαρίνα Σύρπη
Εισαγωγή στη Στατιστική 5 Β ΜΕΡΟΣ ΟΡΓΑΝΩΣΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΔΕΔΟΜΕΩΝ Η ΧΡΗΣΗ ΤΩΝ ΙΣΤΟΓΡΑΜΜΑΤΩΝ Για την οργάνωση των δεδομένων χρησιμοποιούμε κυρίως τους πίνακες, τόσο για τα ποιοτικά όσο και για τα ποσοτικά δεδομένα. Η παρουσίαση των αποτελεσμάτων που προκύπτουν από τους υπολογισμούς γίνεται με τη χρήση διαφόρων διαγραμμάτων, δημοφιλέστερα εκ των οποίων εξακολουθούν να είναι τα ραβδογράμματα (bar charts) και τα κυκλικά διαγράμματα (pe charts) για τα ποιοτικά δεδομένα, τα ιστογράμματα (hstograms) για τα ποσοτικά και γραμμικά διαγράμματα (lne charts) για αριθμητικά δεδομένα που συλλέγονται στο χρόνο. 1.4 Οργάνωση και Παρουσίαση Ποιοτικών Δεδομένων Στην περίπτωση των ποιοτικών δεδομένων έχουμε κατηγορίες. Η μόνη αριθμητική πράξη που μπορούμε να εκτελέσουμε είναι ο υπολογισμός της συχνότητας κάθε κατηγορίας. μιας κατηγορίας είναι το πλήθος των παρατηρήσεων του δείγματος που ανήκουν στην κατηγορία αυτή. Ο υπολογισμός της συχνότητας γίνεται από τη διαλογή του δείγματος. Παράδειγμα Ρωτήσαμε 5 φοιτητές που δεν μένουν με τις οικογένειές τους στη Θεσσαλονίκη, για τον τρόπο που επιλέγουν το καθημερινό τους γεύμα, με τις απαντήσεις να έχουν κωδικοποιηθεί ως εξής: Δωρεάν από το ΤΕΙ (1), Fast Food (2), Μαγειρεύω στο σπίτι (3). Οι απαντήσεις που πήραμε εμφανίζονται στον παρακάτω πίνακα Επιλογή Καθημερινού Γεύματος 1 1 2 3 2 1 1 2 1 2 3 1 1 1 2 2 3 1 1 1 1 1 2 1 3 2 2 1 3 1 1 2 1 1 1 1 2 2 2 2 1 3 2 1 2 1 2 2 1 1 Η κατανομή των συχνοτήτων δίνεται στον παρακάτω πίνακα α/α Γεύμα 1 Δωρεάν Σίτιση 26 2 Fast Food 18 3 Στο σπίτι 6 ΣΥΝΟΛΟ 5 Τις περισσότερες φορές ο παραπάνω πίνακας συμπληρώνεται από τον υπολογισμό των σχετικών συχνοτήτων των κατηγοριών. = Σύνολο Σημειώσεις Στατιστικής
6 1 ο Μάθημα Έτσι παίρνουμε το παρακάτω πίνακα της κατανομής των συχνοτήτων και σχετικών συχνοτήτων: α/α Γεύμα Ποσοστό 1 Δωρεάν Σίτιση 26 2 Fast Food 18 26 5 =.52 52 % 18 =. 36 36 % 5 3 Στο σπίτι 6 6 =. 12 12 % 5 ΣΥΝΟΛΟ 5 1 % Από τον παραπάνω πίνακα βλέπουμε ότι το 52 % των φοιτητών επιλέγουν την Δωρεάν σίτιση, 36% Fast Food και μόλις 12% μαγειρεύουν στο σπίτι τους. Για την οπτική παρουσίαση των συχνοτήτων στην περίπτωση ποιοτικών δεδομένων χρησιμοποιούμε κυρίως τα ραβδογράμματα (bar charts) και τα κυκλικά διαγράμματα (pe charts) 3 25 26 6% 5% 52% 18 4% 36% 15 3% 5 6 % % 12% Δωρεάν Σίτιση Fast Food Σπίτι % Δωρεάν Σίτιση Fast Food Σπίτι Ραβδόγραμμα Συχνοτήτων Ραβδόγραμμα Σχετικών Συχνοτήτων Σπίτι 12% Fast Food 36% Δωρεάν Σίτιση 52% Κυκλικό Διάγραμμα Σχετικών Συχνοτήτων Μαρίνα Σύρπη
Εισαγωγή στη Στατιστική 7 1.5 Οργάνωση και Παρουσίαση Ποσοτικών Δεδομένων - Ομαδοποίηση Όταν τα αριθμητικά δεδομένα που συλλέγουμε είναι συνεχή ή όταν είναι πολλά τότε καταφεύγουμε σε ομαδοποίηση, χωρίζοντας το εύρος των τιμών σε μια σειρά ξεχωριστών μή επικαλυπτόμενων διαστημάτων. Τα διαστήματα αυτά ονομάζονται συνήθως κλάσεις ή διαστήματα κλάσεων. Το πλήθος των κλάσεων Το πλήθος των κλάσεων καθορίζεται από εμπειρικούς τύπους, πίνακες ή προϋπάρχουσα βιβλιογραφική αναφορά. Πολλές φορές χρησιμοποιούμε τον τύπο του Sturges, σύμφωνα με τον οποίο A 1 3. 3 log n όπου, A είναι ο αριθμός των διαστημάτων και n το πλήθος των παρατηρήσεων. Το πλάτος ή εύρος των κλάσεων υπολογίζεται από τη σχέση r Εύρος δείγματος A Πλήθος κλάσεων max mn A Στο παραπάνω αποτέλεσμα γίνεται πάντοτε στρογγυλοποίηση στον μεγαλύτερο ακέραιο Τα κέντρα των κλάσεων m δίνονται από τον τύπο x Άνω άκρο Κάτω άκρο 2 Συχνότητες Ονομάζουμε συχνότητα (ή απόλυτη συχνότητα) κλάσης, το πλήθος των παρατηρήσεων του δείγματος που ανήκουν στην κλάση αυτή. Η συχνότητα βρίσκεται με τη διαλογή του δείγματος και θα τη συμβολίζουμε με f Ονομάζουμε σχετική συχνότητα κλάσης την αναλογία (πηλίκο) που προκύπτει αν διαιρέσουμε τη συχνότητα της κλάσης με το πλήθος των παρατηρήσεων (μέγεθος του δείγματος). Θα συμβολίζουμε την σχετική συχνότητα με p. Πλήθος Παρατηρήσεων όπου, p ή f n f η συχνότητα της κλάσης, και n το μέγεθος του δείγματος. Σημειώσεις Στατιστικής
8 1 ο Μάθημα Η μιας κλάσης είναι το άθροισμα των συχνοτήτων της κλάσης αυτής και όλων των προηγούμενών της κλάσεων. Η μιας κλάσης είναι το άθροισμα των σχετικών συχνοτήτων της κλάσης αυτής και όλων των προηγούμενών της κλάσεων. Θα συμβολίζουμε την μιας κλάσης με F. Συχνά, τόσο η σχετική όσο και η σχετική αθροιστική συχνότητα πολλαπλασιάζονται με το, ώστε να παίρνουμε τα ποσοστιαία αποτελέσματα. Παράδειγμα Ομαδοποίηση Δεδομένων Ύψος ατομικής δαπάνης (έξοδα μετακίνησης, καφέδες, τσιγάρα, κ.λπ.) των εργαζομένων : 3,7 6,7 4,4 6,2 4,1 6, 5,1 5,3 2,8 5,3 5,3 1,4 5,4 7,5 3, 6,6 1,1 4,7 1,6 1,7 4,4 5,5 3, 9,4 6,5 1,4 5,5 5,4 5,8 6,8 4,2 6, 2,4 6,1 5,6 6,8 5,6 5,8 6, 7,4 2,5 6,2 3,9 4,7 3,1 n A 1 3.3 log 1 3.33 log5 6.6 7 Το εύρος του δείγματος είναι: max mn = 9.4 1.1 = 8.3. Εύρος δείγματος. Συνεπώς, το πλάτος των κλάσεων θα είναι 83 1. 186 1. 2 Πλήθος κλάσεων 7 Ατομική Δαπάνη / ημέρα Έτσι παίρνουμε το παρακάτω πίνακα της κατανομής των συχνοτήτων και σχετικών συχνοτήτων: Κέντρο x f p F % 1.1 2.3 1.7 5 5.11.11 11 11 2.3 3.5 2.9 6 11.13.24 13 24 3.5 4.7 4.1 6 17.13.37 13 37 4.7 5.9 5.3 14 31.31.68 31 68 5.9 7.1 6.5 11 42.25.93 25 93 7.1 8.3 7.7 2 44.5.98 5 98 8.3 9.5 8.9 1 45.2 1 2 ΣΥΝΟΛΑ 45 1 % Μαρίνα Σύρπη
Εισαγωγή στη Στατιστική 9 Η διαδικασία που περιγράφηκε παραπάνω για την ομαδοποίηση των δεδομένων δεν είναι απόλυτη, με την έννοια ότι απλώς μας δίνει τις κατευθυντήριες γραμμές για την ομαδοποίηση των δεδομένων, επιτρέποντάς μας στη συνέχεια να κάνουμε μικρές διορθωτικές παρεμβάσεις ώστε να είναι η παρουσίαση των δεδομένων περισσότερο «ευανάγνωστη». Έτσι, στο παραπάνω παράδειγμα μπορούμε αντί για 1.2 να επιλέξουμε ως πλάτος των κλάσεων 1.5 και να ορίσουμε ως πρώτη κλάση την [ 1, 2.5 ) αντί της [ 1.2, 2.3 ). Αυτή η επιλογή μας οδηγεί τελικά σε μια ομαδοποίηση με 6 κλάσεις αντί των 7 που πρόκυψε από τον τύπο του Sturges. Ο πίνακας κατανομής συχνοτήτων και σχετικών συχνοτήτων θα είναι ο παρακάτω: Ατομική Δαπάνη / ημέρα Κέντρο x f % % F 1. 2.5 1.75 6 6 13,33 13,33 2.5 4. 3.25 7 13 15,56 28,89 4. 5.5 4.75 12 25 26,67 55,56 5.5 7. 6.25 17 42 37,78 93,33 7. 8.5 7.75 2 44 4,44 97,78 8.5 9.25 1 45 2,22, ΣΥΝΟΛΑ 45, Τα γραφήματα που χρησιμοποιούμε κυρίως για την παρουσίαση των ομαδοποιημένων δεδομένων είναι τα ιστογράμματα. Ενώνοντας τα κέντρα των κλάσεων στα ιστογράμματα των σχετικών συχνοτήτων σχηματίζουμε μια πολυγωνική γραμμή που ονομάζεται πολύγωνο σχετικών συχνοτήτων. Αντίστοιχα, ενώνοντας τα άκρα των κλάσεων σε ένα ιστόγραμμα σχετικών αθροιστικών συχνοτήτων σχηματίζουμε το πολύγωνο των σχετικών αθροιστικών συχνοτήτων. 4, 37,78, 93,33 97,78, 35, 9, 3, 25, 26,67 8, 7, 6, 55,56, 15,, 5, 13,33 15,56 4,44 2,22 5, 4, 3,,, 13,33 28,89, 1. 2.5 2.5 4. 4. 5.5 5.5 7. 7. 8.5 8.5, 1. 2.5 2.5 4. 4. 5.5 5.5 7. 7. 8.5 8.5 Ιστόγραμμα και Πολύγωνο Σχετικών Συχνοτήτων ( % ) Ιστόγραμμα και Πολύγωνο Σχετικών Αθροιστικών Συχνοτήτων ( % ) Σημειώσεις Στατιστικής
1 ο Μάθημα 1.6 Παρουσίαση Χρονολογικών Σειρών Δεδομένα που καταγράφονται σε μια ακολουθία σημείων στο χρόνο, ονομάζονται χρονολογικές σειρές (tme seres). Για παράδειγμα το ετήσιο Α.Ε.Π. μιας χώρας, από το έως το 11, οι μηνιαίες πωλήσεις μιας επιχείρησης από το 199 έως το, κ.λπ. Τα δεδομένα που δεν συλλέγονται με τον παραπάνω τρόπο, αλλά παίρνονται με μετρήσεις που γίνονται στην ίδια χρονική περίοδο, ονομάζονται διαστρωματικά (cross sectonal data). Για παράδειγμα το Α.Ε.Π. των χωρών της Ευρωπαϊκής Ένωσης το έτος 11. Για τη γραφική παράσταση των χρονολογικών τιμών χρησιμοποιούμε κυρίως τα γραμμικά διαγράμματα, που είναι σημεία (οι μετρήσεις στον κατακόρυφο άξονα ) και ενώνονται με ευθύγραμμα τμήματα δημιουργώντας μία τεθλασμένη γραμμή που παρουσιάζει την πορεία της μεταβλητής στο χρόνο (οριζόντιος άξονας). Παρακάτω εμφανίζονται τρεις χρονολογικές σειρές y log NNI, όπου NNI το Καθαρό Εθνικό Εισόδημα σε σταθερές (197) τιμές αγοράς. cp log PC, όπου PC η Ιδιωτική Κατανάλωση σε σταθερές (197) τιμές αγοράς. log GI,όπου GI οι Ακαθάριστες Επενδύσεις σε σταθερές (197) τιμές αγοράς. ΠΗΓΗ: ΕΣΥΕ, Εθνικοί Λογαριασμοί, 1961-1991. 14 13 y 12 cp 11 1961 1966 1971 1976 1981 1986 1991991 Μαρίνα Σύρπη
Εισαγωγή στη Στατιστική 11 1.7 Η Χρήση των Ιστογραμμάτων στη Στατιστική 1.7.1 Χαρακτηριστικά των Ιστογραμμάτων Σχετικών Συχνοτήτων Τα ιστογράμματα των σχετικών συχνοτήτων συνθέτουν την πρώτη εικόνα για την κατανομή των τιμών μιας μεταβλητής στον πληθυσμό. Δεν μπορούμε, βέβαια, να τα χρησιμοποιήσουμε για την εξαγωγή συμπερασμάτων, μπορούμε όμως να αποσπάσουμε χρήσιμες πληροφορίες, να «προσανατολιστούμε» κατά κάποιον τρόπο μέσα στον όγκο των δεδομένων. Μας παρέχουν ισχυρές ενδείξεις και δίνουν ένα πρώτο περίγραμμα του φαινομένου που πρόκειται να ερευνήσουμε. Η εικόνα αυτή θα συμπληρωθεί αργότερα από τον υπολογισμό των ονομαζόμενων αριθμητικών μέτρων, προτού περάσουμε στο τελικό στάδιο που είναι ο έλεγχος υποθέσεων και η εξαγωγή συμπερασμάτων. Συμμετρία Ένα ιστόγραμμα που εμφανίζει συμμετρία ως προς έναν κατακόρυφο άξονα ονομάζεται συμμετρικό ιστόγραμμα. Συμμετρικά Ιστογράμματα Θετική Ασυμμετρία Λέμε ότι μια κατανομή τιμών παρουσιάζει θετική ασυμμετρία όταν το ιστόγραμμα των σχετικών συχνοτήτων εμφανίζεται εκτεταμένο στο δεξιό του σκέλος. Ο λόγος που εμφανίζεται θετική ασυμμετρία σε μία κατανομή, είναι ότι υπάρχουν κάποιες πολύ μεγάλες τιμές της μεταβλητής. Θετική Ασυμμετρία Σημειώσεις Στατιστικής
12 1 ο Μάθημα Αρνητική Ασυμμετρία Λέμε ότι μια κατανομή τιμών παρουσιάζει αρνητική ασυμμετρία όταν το ιστόγραμμα των σχετικών συχνοτήτων εμφανίζεται εκτεταμένο στο αριστερό του σκέλος. Ο λόγος που εμφανίζεται αρνητική ασυμμετρία σε μία κατανομή, είναι ότι υπάρχουν κάποιες πολύ μικρές τιμές της μεταβλητής. Αρνητική Ασυμμετρία Κορυφές Όταν στο ιστόγραμμα συχνοτήτων εμφανίζεται μία επικρατούσα, όπως ονομάζεται κλάση, δηλαδή μια κλάση με μεγαλύτερη από όλες τις άλλες κλάσεις συχνότητα, τότε λέμε ότι έχουμε μία μονοκόρυφη (unmodal) κατανομή. Μονοκόρυφη Κατανομή Σε κάποιες περιπτώσεις εμφανίζονται δύο κυρίαρχες κλάσεις, με την έννοια ότι και η δεύτερη κλάση ξεχωρίζει από τις γειτονικές της, δίνοντας την εικόνα του σχηματισμού δύο ομάδων στο ιστόγραμμα των συχνοτήτων. Μια τέτοια κατανομή ονομάζεται δικόρυφη (bmodal). Δικόρυφη Κατανομή Μαρίνα Σύρπη
% Εισαγωγή στη Στατιστική 13 1.7.2 Τί παρατηρούμε όταν κοιτάζουμε ένα ιστόγραμμα σχετικών συχνοτήτων; Σε μία έρευνα, ρωτήσαμε 1214 εργαζόμενους «πόσες ώρες κοιμηθήκατε χθες το βράδυ;». Τα δεδομένα ομαδοποιήθηκαν σε οκτώ κλάσεις και παρακάτω παρουσιάζεται το ιστόγραμμα των σχετικών συχνοτήτων. 35, % 3, 25,, 15,, 5,, 29,8 21,17 18,95,3 11,29 4,37 4,45,41 5. - 5.5 5.5-6. 6. - 6.5 6.5-7. 7. - 7.5 7.5-8. 8.5-9. 9. - 9.5 Ώρες ύπνου Κατανομή ωρών ύπνου των εργαζομένων Το ιστόγραμμα μας δίνει την εικόνα της κατανομής των ωρών ύπνου για τους εργαζόμενους. Είναι σχεδόν συμμετρικό και μονοκόρυφο ιστόγραμμα, φαίνεται να έχουμε μια «κανονικότητα» στην κατανομή των τιμών γύρω από την κυρίαρχη κλάση (7., 7.5) και δεν υπάρχει σχηματισμός ομάδων μέσα στον πληθυσμό. Στην κλάση αυτή και γύρω από αυτήν παρατηρούμε να συγκεντρώνεται το μεγαλύτερο ποσοστό των τιμών (18.95 + 29.8 +21.17 = 69.19). Δηλαδή το 69.19% των εργαζομένων φαίνεται ότι κοιμούνται από 6.5 έως 8. ώρες. Η ίδια ερώτηση έγινε και σε 1234 φοιτητές, και η ομαδοποίηση των δεδομένων μας έδωσε το παρακάτω ιστόγραμμα. 3, 25, 25,93, 15, 14,42 19,45 15,64, 5, 7,54 8,91 5,27 2,84, 5. - 5.5 5.5-6. 6. - 6.5 6.5-7. 7. - 7.5 7.5-8. 8.5-9. 9. - 9.5 Ώρες ύπνου Κατανομή ωρών ύπνου των φοιτητών Σημειώσεις Στατιστικής
14 1 ο Μάθημα Το ιστόγραμμα είναι και πάλι μονοκόρυφο, δεν είναι όμως συμμετρικό και εμφανίζει μια θετική ασυμμετρία. Η επικρατούσα κλάση εδώ είναι η (6.5, 7.). Στην κλάση αυτή και γύρω από αυτήν παρατηρούμε να συγκεντρώνεται το μεγαλύτερο ποσοστό των τιμών (1.45 + 25.93 +15.64 = 61.2). Δηλαδή το 61.2 % των φοιτητών φαίνεται ότι κοιμούνται από 6. έως 7 ώρες. Η παρουσία ασυμμετρίας υποδεικνύει ότι οι ώρες που κοιμούνται οι φοιτητές δεν κατανέμονται κανονικά γύρω από την επικρατούσα κλάση. Για την ακρίβεια, εξαιτίας της θετικής ασυμμετρίας μπορούμε να πούμε ότι ένα μικρό μόνον ποσοστό των φοιτητών φαίνεται να κοιμάται αρκετές ώρες. 1.7.3 Σύγκριση δύο Ιστογραμμάτων Σχετικών Συχνοτήτων Η διαφορετική μορφή των δύο ιστογραμμάτων μας φανερώνει, κατ αρχήν, ότι οι δύο πληθυσμοί (εργαζόμενοι και φοιτητές) διαφέρουν ως προς τον τρόπο που κοιμούνται, με τους φοιτητές να είναι κάπως περισσότερο «ακατάστατοι» στο θέμα του ύπνου. Παρατηρούμε επίσης ότι οι κορυφές των δύο ιστογραμμάτων δεν βρίσκονται στην ίδια κλάση. Για τους εργαζόμενους η κορυφή είναι στην κλάση (7. 7.5) ενώ για τους φοιτητές είναι στην κλάση (6.5, 7.). Αυτό είναι μία ένδειξη ότι οι φοιτητές κοιμούνται λιγότερο από τους εργαζόμενους. 35, 3, 25,, 15,, 5,, 29,8 21,17 18,95,3 11,29 4,37 4,45,41 5. - 5.5 5.5-6. 6. - 6.5 6.5-7. 7. - 7.5 7.5-8. 8.5-9. 9. - 9.5 3, 25,, 15,, 5,, 25,93 19,45 15,64 14,42 8,91 7,54 5,27 2,84 5. - 5.5 5.5-6. 6. - 6.5 6.5-7. 7. - 7.5 7.5-8. 8.5-9. 9. - 9.5 Εργαζόμενοι Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) Φοιτητές Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) Τα ιστογράμματα των σχετικών συχνοτήτων μας δείχνουν πώς κατανέμονται οι τιμές της μεταβλητής μέσα σε έναν πληθυσμό. Η εικόνα αυτή ολοκληρώνεται αργότερα με των υπολογισμό κάποιων αριθμητικών μέτρων. Όπως είδαμε, από τη σύγκριση δύο ιστογραμμάτων σχετικών συχνοτήτων φαίνεται οι φοιτητές να κοιμούνται λιγότερο από τους εργαζόμενους. Τα ιστογράμματα των σχετικών αθροιστικών συχνοτήτων θα μας φανερώσουν περισσότερα πράγματα σε σχέση με το ερώτημα αυτό. Μαρίνα Σύρπη
Εισαγωγή στη Στατιστική 15 1.8 Ιστογράμματα σχετικών αθροιστικών συχνοτήτων 1.8.1 Τί παρατηρούμε όταν κοιτάζουμε ένα ιστόγραμμα σχετικών αθροιστικών συχνοτήτων; Τα ιστογράμματα των σχετικών αθροιστικών συχνοτήτων μας δείχνουν την «ταχύτητα» με την οποία συγκεντρώνονται στις κλάσεις οι τιμές μίας μεταβλητής. Έτσι, στο παρακάτω ιστόγραμμα σχετικών αθροιστικών συχνοτήτων, βλέπουμε ότι το 52.5% των μετρήσεων της μεταβλητής συγκεντρώνεται μέχρι τη δεύτερη κλάση, και το 8.9% μέχρι και την τέταρτη κλάση. Παρατηρούμε επομένως μια «ταχεία» συγκέντρωση των τιμών της μεταβλητής ή, διαφορετικά, μια μεγάλη συσσώρευση των τιμών της στις χαμηλές κλάσεις. 9 8 7 65,6 8,9 91,4 98,2 99,6 6 5 4 37,8 52,5 3 Αντίθετα, στο παρακάτω διάγραμμα βλέπουμε ότι μόλις 23,6% των τιμών της μεταβλητής συγκεντρώνονται μέχρι και τη δεύτερη κλάση, και το 52,9% μέχρι και την τέταρτη. Θα μπορούσαμε ακόμα να πούμε ότι οι τιμές κατανέμονται ομαλά στις κλάσεις, καθώς δεν υπάρχουν απότομες μεταβολές στα ύψη των κλάσεων. Συγκρίνοντας τα δύο ιστογράμματα, μπορούμε να πούμε ότι η μεταβλητή που παρουσιάζεται από το πρώτο διάγραμμα (επάνω) τείνει να έχει χαμηλότερες τιμές. 9 8 7 69,4 82,2 9,6 6 5 4 37,5 52,9 3 11,5 23,6 Σημειώσεις Στατιστικής
% % 16 1 ο Μάθημα 1.8.2 Σύγκριση δύο Ιστογραμμάτων Σχετικών Συχνοτήτων Ας συγκρίνουμε τώρα τα ιστογράμματα των σχετικών αθροιστικών συχνοτήτων, για τις ώρες που κοιμούνται οι εργαζόμενοι και οι φοιτητές., 95,55, 9, 84,27 8, 7, 6, 5, 63, 4, 34,2 3,,,, 15,7 4,78,41 5. - 5.5 5.5-6. 6. - 6.5 6.5-7. 7. - 7.5 7.5-8. 8.5-9. 9. - 9.5 Ώρες ύπνου Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων - Εργαζόμενοι, 9, 8, 7, 6, 5, 4, 3,,,, 97,16, 91,9 82,98 67,34 41,41 21,96 7,54 5. - 5.5 5.5-6. 6. - 6.5 6.5-7. 7. - 7.5 7.5-8. 8.5-9. 9. - 9.5 Ώρες ύπνου Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων - Φοιτητές Από τα ιστογράμματα των σχετικών αθροιστικών συχνοτήτων παρατηρούμε ότι: 34,2 % των εργαζομένων δήλωσαν ότι το προηγούμενο βράδυ κοιμήθηκαν λιγότερο από 7 ώρες, ενώ για τους φοιτητές το ποσοστό φτάνει στο 67,34 %, σχεδόν διπλάσιο από αυτό των εργαζομένων. Η σύγκριση των ιστογραμμάτων μας δείχνει ότι οι φοιτητές φαίνεται να κοιμούνται λιγότερο από τους εργαζόμενους. Μαρίνα Σύρπη
Εισαγωγή στη Στατιστική 17 Ασκήσεις 1. Από τα δεδομένα μιας σωματομετρικής και ιατρικής έρευνας σε κορίτσια ηλικίας 7 χρόνων Βάρος (Kgr) της Ελληνικής υπαίθρου, προέκυψαν ο παρακάτω πίνακας συχνοτήτων και τα αντίστοιχα διαγράμματα. Πεδινά χωριά f % % f Ορεινά χωριά % 16-18 4 4 13,33 13,33 4 18-8 12 26,67 4, 9 13 45 65-22 7 23,33 63,33 4 17 85 22-24 4 23 13,33 76,67 2 19 95 24-26 4 27 13,33 26-28 2 29 6,67 96,67 1 5 28-3 1 3 3,33, % ΣΥΝΟΛΑ 3 25 15 5 26,67 23,33 13,33 13,33 13,33 6,67 3,33 16-18 18 - - 22 22-24 24-26 26-28 28-3 5 45 4 35 3 25 15 5 45 5 16-18 18 - - 22 22-24 24-26 26-28 28-3 Πεδινά Χωριά Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) Ορεινά Χωριά Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) 9 8 7 6 5 4 3 96,67, 9, 76,67 63,33 4, 13,33 16-18 18 - - 22 22-24 24-26 26-28 28-3 9 8 7 6 5 4 3 95 95 85 65 16-18 18 - - 22 22-24 24-26 26-28 28-3 Πεδινά Χωριά Ιστόγραμμα Σχετικών Αθροιστικών Ορεινά Χωριά Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( % ) Συχνοτήτων ( % ) ( α ) Να συμπληρώσετε τον πίνακα των συχνοτήτων εκτελώντας τις κατάλληλες πράξεις. ( β ) Περιγράψτε τα ιστογράμματα των σχετικών συχνοτήτων για τις δύο ομάδες και εντοπίστε ομοιότητες και διαφορές. ( γ ) Σε ποιά από τις δύο ομάδες τείνει το βάρος των παιδιών να είναι μικρότερο; Σημειώσεις Στατιστικής
18 1 ο Μάθημα 2. Στον παρακάτω πίνακα δίνονται οι κατανομές των συγκεντρώσεων μολύβδου στο αίμα για δύο ομάδες εργαζομένων στον Καναδά, από τις οποίες η μία εξετάστηκε το 1979 και η άλλη το 1987 και τα αντίστοιχα διαγράμματα. 1979 1987 Μόλυβδος στο αίμα (mg/dl) (%) (%) ( % ) (%) < 11.5 37.8 37.8 3 12.1 23.6 14.7 52.5 3 4 13.9 37.5 13.1 4 5 15.4 15.3 5 6 16.5 69.4.5 91.4 6 7 12.8 82.2 6.8 7 8 8.4 9.6 1.4 99.6 >= 8 9.4.4 ΣΥΝΟΛΑ 18 16 14 12 8 6 4 2 15,4 16,5 13,9 11,5 12,1 12,8 8,4 9,4 < 3 3 4 4 5 5 6 6 7 7 8 >= 8 4 35 3 25 15 5 37,8 14,7 15,3 13,1,5 6,8 1,4,4 < 3 3 4 4 5 5 6 6 7 7 8 >= 8 1979 Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) 1987 Ιστόγραμμα Σχετικών Συχνοτήτων ( % ) 9 8 7 6 5 4 3 9,6 82,2 69,4 52,9 37,5 23,6 11,5 < 3 3 4 4 5 5 6 6 7 7 8 >= 8 9 8 7 6 5 4 3 98,2 99,6 91,4 8,9 65,6 52,5 37,8 < 3 3 4 4 5 5 6 6 7 7 8 >= 8 1979 Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( % ) 1987 Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( α ) Να συμπληρώσετε τον πίνακα των συχνοτήτων εκτελώντας τις κατάλληλες πράξεις. ( β ) Περιγράψτε τα ιστογράμματα των σχετικών συχνοτήτων για τις δύο χρονιές και εντοπίστε ομοιότητες και διαφορές. ( γ ) Σε ποιά από τις δύο χρονιές η συγκέντρωση μολύβδου τείνει να είναι μεγαλύτερη; Μαρίνα Σύρπη
Εισαγωγή στη Στατιστική 19 3. Παρακάτω βλέπετε τους πίνακες συχνοτήτων, και τα αντίστοιχα διαγράμματα για τις αμοιβές των εργαζομένων σε δύο επιχειρήσεις Α και Β. ΕΠΙΧΕΙΡΗΣΗ Α ΕΠΙΧΕΙΡΗΣΗ Β Αμοιβές σε f f 6-7 7 23,33 23,33 5 16,67 16,67 7-8 14 46,67 7, 7 23,33 4, 8-9 5 16,67 86,67 11 36,67 76,67 9-3, 96,67 4 13,33 9, - 1 1 3,33, 3, 3 3 5, 45, 4, 35, 3, 25,, 15,, 5,, 46,67 23,33 16,67, 3,33 6-7 7-8 8-9 9 - - 1, 9, 8, 7, 6, 5, 4, 3,,,, 96,67, 86,67 7, 23,33 6-7 7-8 8-9 9 - - 1 Επιχείρηση Α Ιστόγραμμα Σχετικών Συχνοτήτων 4, 36,67 35, 3, 23,33 25,, 16,67 13,33 15,,, 5,, 6-7 7-8 8-9 9 - - 1 Επιχείρηση Α Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων, 9, 8, 7, 6, 5, 4, 3,,,, 16,67 4, 76,67 9,, 6-7 7-8 8-9 9 - - 1 Επιχείρηση Β Ιστόγραμμα Σχετικών Συχνοτήτων Επιχείρηση Β Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( α ) Να συμπληρώσετε τον πίνακα των συχνοτήτων εκτελώντας τις κατάλληλες πράξεις. ( β ) Περιγράψτε τα ιστογράμματα των σχετικών συχνοτήτων για τις δύο επιχειρήσεις και εντοπίστε ομοιότητες και διαφορές. ( γ ) Σε ποιά από τις δύο επιχειρήσεις οι μισθοί τείνουν να είναι μικρότεροι; Σημειώσεις Στατιστικής
1 ο Μάθημα 4. Παρακάτω βλέπετε τους πίνακες συχνοτήτων και τα αντίστοιχα ιστογράμματα, για τις ηλικίες των εργαζομένων σε δύο επιχειρήσεις Α και Β. Ηλικία σε ΕΠΙΧΕΙΡΗΣΗ Α έτη F (%) f ΕΠΙΧΕΙΡΗΣΗ Β p (%) F (%) 28 4,, 5 12,5 12,5 28 36 6 15, 25, 8, 32,5 36 44 8, 45, 25, 57,5 44 52 12 3, 75, 9 22,5 8, 52 6 25,, 8,, 4 4 35, 3, 25,, 15,, 5,, 3, 25,, 15,, - 28 28-36 36-44 44-52 52-6, 9, 8, 7, 6, 5, 4, 3,,,,, 75, 45, 25,, - 28 28-36 36-44 44-52 52-6 Επιχείρηση Α Ιστόγραμμα Σχετικών Συχνοτήτων 3, 25, 25, 22,5,,, 15, 12,5, 5,, - 28 28-36 36-44 44-52 52-6 Επιχείρηση Β Ιστόγραμμα Σχετικών Συχνοτήτων Επιχείρηση Α Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων,, 9, 8, 7, 6, 5, 4, 3,,,, 12,5 32,5 57,5 8, - 28 28-36 36-44 44-52 52-6 Επιχείρηση Β Ιστόγραμμα Σχετικών Αθροιστικών Συχνοτήτων ( α ) Να συμπληρώσετε τον πίνακα των συχνοτήτων εκτελώντας τις κατάλληλες πράξεις. ( β ) Περιγράψτε τα ιστογράμματα των σχετικών συχνοτήτων για τις δύο επιχειρήσεις και εντοπίστε ομοιότητες και διαφορές. ( γ ) Σε ποιά από τις δύο επιχειρήσεις η ηλικία των εργαζομένων τείνει να είναι μικρότερη; Μαρίνα Σύρπη