ΤΡ Ο 1 ΙΚ ΕΝ Τι είναι η στατιστική; Βασικές έννοιες της στατιστικής 1.2 Εφαρμογές της στατιστικής στις επιχειρήσεις 1.3 Στατιστική και υπολογιστής 1.4 Διαδίκτυο και Κέντρα Ηλεκτρονικής Μάθησης 2 ΕΠ 1.1 1.A Οδηγίες για τη χρήση του CD-ROM Η στατιστική είναι ένας τρόπος για την αναζήτηση πληροφοριών μέσα σε δεδομένα. Αυτό είναι όλο! Το μεγαλύτερο μέρος του παρόντος βιβλίου είναι αφιερωμένο στην περιγραφή του πότε, πώς και γιατί τα στελέχη διοίκησης και οι στατιστικοί* χρησιμοποιούν τις διάφορες στατιστικές τεχνικές. Εκ δό σ εις Εισαγωγή Είναι πιθανό να αναρωτηθεί κανείς: αν η στατιστική είναι κάτι τόσο απλό, τότε γιατί αυτό το βιβλίο (όπως και τα περισσότερα βιβλία στατιστικής) είναι τόσο μεγάλο; Η απάντηση ότι υπάρχουν πολλά διαφορετικά είδη πληροφοριών και δεδομένων στα οποία μπορούν να εφαρμοστούν οι μέθοδοι της στατιστικής. Θα δούμε μερικά από τα είδη αυτά μέσα από κάποια παραδείγματα με ιδιαίτερο ενδιαφέρον, που περιλαμβάνονται στο βιβλίο. * Ο όρος «στατιστικός» έχει χρησιμοποιηθεί για να περιγράψει τόσο πολλές διαφορετικές δραστηριότητες, ώστε δεν έχει πια συγκεκριμένο νόημα. Για παράδειγμα, στατιστικός μπορεί να είναι κάποιος που καταγράφει τις επιτυχημένες και αποτυχημένες προσπάθειες των παικτών μιας ομάδας μπάσκετ, όπως και ένας επιστήμονας που ασχολείται με τις θεωρητικές αρχές της στατιστικής. Στο βιβλίο αυτό, θα διακρίνουμε ανάμεσα στον πρακτικό στατιστικό (statistics practitioner), και τον θεωρητικό στατιστικό (statistician). Ο πρακτικός στατιστικός είναι αυτός που μπορεί να χρησιμοποιεί σωστά τις στατιστικές μεθόδους, όπως: 1. 2. 3. Ένας οικονομικός αναλυτής που μελετά χαρτοφυλάκια μετοχών με βάση το ιστορικό των αποδόσεών τους. Ένας οικονομολόγος που χρησιμοποιεί στατιστικά μοντέλα για την πρόβλεψη παραμέτρων όπως το ποσοστό πληθωρισμού, το ποσοστό ανεργίας και η αύξηση του ΑΕΠ. Ένας ερευνητής αγοράς που μελετά τις απαντήσεις των καταναλωτών και εξάγει χρήσιμες πληροφορίες. Ο σκοπός του παρόντος βιβλίου είναι να βοηθήσει τον αναγνώστη να αποκτήσει όλες αυτές τις ικανότητες του πρακτικού στατιστικού. Ο όρος θεωρητικός στατιστικός αναφέρεται σε έναν επιστήμονα που ασχολείται με τα μαθηματικά των στατιστικών μεθόδων, ερευνά και αναπτύσσει μεθόδους που μελλοντικά θα χρησιμοποιηθούν από πρακτικούς στατιστικούς. Ένας θεωρητικός στατιστικός είναι και πρακτικός στατιστικός, που μπορεί να εφαρμόζει στατιστικές μεθόδους στα πλαίσια των ερευνών του. Ο συγγραφέας αυτού του βιβλίου είναι θεωρητικός στατιστικός. Αν χρησιμοποιείτε το βιβλίο ως διδακτικό βοήθημα, ο εισηγητής του μαθήματος είναι κατά πάσα πιθανότητα επίσης θεωρητικός στατιστικός. 25
26 Κεφάλαιο 1 Παράδειγμα 2.6 (κεφάλαιο 2) Περιγραφική στατιστική Ένας φοιτητής διοίκησης επιχειρήσεων παρακολουθεί τα πρώτα του μαθήματα στο προαπαιτούμενο μάθημα της στατιστικής και είναι λίγο φοβισμένος επειδή πιστεύει ότι η στατιστική είναι δύσκολη. Για να διασκεδάσει τους φόβους του, βρίσκει την ευκαιρία και ρωτά τον καθηγητή για τους βαθμούς του προηγούμενου έτους. Ο καθηγητής, όπως όλοι οι στατιστικοί, είναι φιλικός και πρόθυμος να βοηθήσει, και αμέσως δίνει στον φοιτητή μια ανώνυμη κατάσταση με όλους τους βαθμούς των εργασιών και των τελικών εξετάσεων του προηγούμενου έτους. Ποιες πληροφορίες μπορεί να εξάγει ο φοιτητής από αυτή την κατάσταση; Το παράδειγμα 2.6 είναι ένα τυπικό πρόβλημα στατιστικής. Ο φοιτητής έχει στη διάθεσή του αριθμητικά δεδομένα (βαθμούς) και πρέπει να ε- φαρμόσει στατιστικές μεθόδους για να εξάγει χρήσιμες πληροφορίες. Αυτό γίνεται με τη βοήθεια της περιγραφικής στατιστικής. Η περιγραφική στατιστική (descriptive statistics) ασχολείται με τις μεθόδους οργάνωσης, σύνοψης και παρουσίασης των δεδομένων με τρόπο εύχρηστο και κατανοητό. Μια μορφή παρουσίασης που χρησιμοποιείται συχνά από την περιγραφική στατιστική είναι τα γραφήματα, που επιτρέπουν στους στατιστικούς να οπτικοποιούν τα δεδομένα διευκολύνοντας την αναγνώριση χρήσιμων πληροφοριών. Στο δεύτερο κεφάλαιο θα γνωρίσουμε μια μεγάλη ποικιλία γραφημάτων. Μια άλλη τεχνική της περιγραφικής στατιστικής είναι ο υπολογισμός α- ριθμητικών δεικτών που αντιπροσωπεύουν κάποια ιδιότητα των δεδομένων, όπως ο αριθμητικός μέσος, ή απλά μέσος, και η διάμεσος. Για παράδειγμα, με τον ίδιο τρόπο που υπολογίζεται ο μέσος όρος ηλικίας των υπαλλήλων μιας επιχείρησης, μπορεί να υπολογιστεί ο μέσος όρος των βαθμών όλων των σπουδαστών για το μάθημα της στατιστικής του προηγούμενου έτους. Στο τέταρτο κεφάλαιο θα γνωρίσουμε μια μεγάλη ποικιλία στατιστικών δεικτών που αντιπροσωπεύουν διάφορες ιδιότητες των δεδομένων. Η τεχνική που επιλέγεται κάθε φορά εξαρτάται από το είδος των πληροφοριών που επιθυμούμε να εξάγουμε από τα δεδομένα. Στο παραπάνω παράδειγμα, μπορούμε να εξετάσουμε τρεις διαφορετικές πληροφορίες. Η πρώτη είναι ο «τυπικός βαθμός», δηλαδή ο δείκτης της κεντρικής θέσης της βαθμολογίας. Ένας τέτοιος δείκτης είναι ο μέσος, ενώ στο τέταρτο κεφάλαιο θα γνωρίσουμε έναν εξίσου σημαντικό δείκτη, που είναι η διάμεσος. Αν υποθέσουμε ότι ο φοιτητής του παραπάνω παραδείγματος γνωρίζει πως ο μέσος των βαθμών του προηγούμενου έτους είναι 6,7. Είναι αυτό αρκετό για να μειώσει το άγχος του; Πιθανότατα όχι, επειδή αυτή η τιμή θα μπορούσε να σημαίνει είτε ότι όλοι οι βαθμοί είναι πολύ κοντά στο 6,7 είτε ότι λίγοι βαθμοί είναι πολύ υψηλοί ενώ οι περισσότεροι είναι κάτω από τον αριθμητικό μέσο και ίσως κάτω από τη βάση. Για να το ελέγξει αυτό ο φοιτητής χρειάζεται ένα δείκτη μεταβλητότητας των βαθμών. Ο απλούστερος τέτοιος δείκτης είναι το εύρος, δηλαδή η διαφορά ανάμεσα στον μεγαλύτερο και τον μικρότερο βαθμό του δείγματος. Αν υποθέσουμε ότι ο μεγαλύτερος βαθμός του προηγούμενου έτους είναι
Τι είναι η στατιστική 27 9,6 και ο μικρότερος 2,4 ο φοιτητής και πάλι δεν έχει αρκετές πληροφορίες για να κατευνάσει τους φόβους του. Θα χρειαστεί και άλλους δείκτες από το τέταρτο κεφάλαιο, και ιδιαίτερα τους δείκτες κατανομής των βαθμών. Στο δεύτερο κεφάλαιο θα γνωρίσουμε μια μορφή γραφήματος, το ιστόγραμμα, που αποτελεί τον καλύτερο τρόπο για την οπτικοποίηση μιας κατανομής. Μελέτη 12.1 Αποκλειστική διάθεση αναψυκτικών (κεφάλαιο 12) Τα τελευταία χρόνια πολλά κολέγια και πανεπιστήμια έχουν υπογράψει συμφωνίες αποκλειστικής διάθεσης προϊόντων στις πανεπιστημιακές τους εγκαταστάσεις. Πολλές από τις συμφωνίες αυτές αφορούν φαγητά ή αναψυκτικά. Ένα μεγάλο πανεπιστήμιο με περίπου 50000 εγγεγραμμένους φοιτητές, προσέφερε μια τέτοια συμφωνία αποκλειστικής διάθεσης σε μια εταιρία αναψυκτικών. Η συμφωνία είχε διάρκεια ένα χρόνο με δυνατότητα ανανέωσης και το πανεπιστήμιο ζητούσε από την εταιρία 200.000 δολάρια και 35% επί των πωλήσεων. Η εταιρία έπρεπε να απαντήσει μέσα σε 2 εβδομάδες αν δέχεται τη συμφωνία. Η διοίκηση της εταιρίας έπρεπε να εξετάσει αν η προσφερόμενη συμφωνία ήταν συμφέρουσα. Οι πωλήσεις των αναψυκτικών υπολογίζονται σε μεταλλικά κουτιά των 330 ml και οι τρέχουσες πωλήσεις της εταιρίας στο πανεπιστήμιο είναι περίπου 22.000 κουτιά ανά εβδομάδα (υπολογίζοντας το ακαδημαϊκό έτος σε 40 ε- βδομάδες) προς 0,75 δολάρια ανά κουτί, ενώ το κόστος παραγωγής είναι περίπου 0,20 δολάρια ανά κουτί. Το κρίσιμο μέγεθος για την αξιολόγηση της προσφοράς του πανεπιστημίου είναι το μερίδιο αγοράς που έχει η εταιρία στην πανεπιστημιούπολη. Ξεκινώντας από την υπόθεση ότι το τρέχον μερίδιο αγοράς είναι 25% η συμφωνία αποκλειστικότητας θα τετραπλασίαζε τις πωλήσεις, που θα έφταναν σε περίπου 88.000 κουτιά ανά εβδομάδα, δηλαδή 3.520.000 κουτιά για όλο το ακαδημαϊκό έτος. Τα ακαθάριστα έσοδα από τις πωλήσεις αυτές θα ήταν * : Ακαθάριστα έσοδα = 3.520.000 x 0,75 = $ 2.640.000 Από το ποσό αυτό πρέπει να αφαιρεθεί το 35% των δικαιωμάτων του πανεπιστημίου, οπότε θα έμεναν: Καθαρά έσοδα = $ 2.640.000 x 65% = $ 1.716.000 Το συνολικό κόστος είναι το κόστος παραγωγής, δηλαδή 0,20 δολάρια ανά κουτί αναψυκτικού, συν 200.000 για τη συμφωνία αποκλειστικότητας, άρα το καθαρό κέρδος θα ήταν: Κόστος παραγωγής = $ 0,20 x 3.520.000 = $ 704.000 Κέρδος = $ 1.716.000 $ 704.000 $ 200.000 = $ 812.000 Το καθαρό κέρδος χωρίς τη συμφωνία είναι: 40 εβδομάδες x 22.000 κουτιά x $ 0,55 = $ 484.000 Άρα, η πρώτη ανάλυση δείχνει αύξηση του ετήσιου κέρδους χάρη στη συμφωνία αποκλειστικής διάθεσης, από 484 σε 812 χιλιάδες δολάρια. Το μόνο αδύνατο σημείο είναι η αξιοπιστία της εκτίμησης του μεριδίου αγοράς σε 25%. Η εταιρία δεν μπορεί να ζητήσει πληροφορίες για την επιβεβαίωση του ποσοστού αυτού από την ανταγωνίστρια εταιρία αναψυκτικών, και έτσι αποφάσισε να πραγματοποιήσει μια στατιστική έρευνα μεταξύ των φοιτητών. Την έρευνα ανέλαβε μια πρόσφατη απόφοιτος του πανεπιστημίου, που οργάνωσε ένα ερωτηματολόγιο * Όλοι οι παρακάτω υπολογισμοί βρίσκονται σε ένα φύλλο εργασίας του λογισμικού Excel, που μπορείτε να βρείτε στο CD που συνοδεύει το βιβλίο, στον φάκελο Excel Workbooks, με την ένδειξη Case 12.1. Το μόνο κελί με το οποίο μπορείτε να πειραματιστείτε είναι το C3, όπου βρίσκεται ο μέσος όρος αναψυκτικών που καταναλώνει ένας φοιτητής ανά εβδομάδα.
28 Κεφάλαιο 1 και απευθύνθηκε σε ένα δείγμα 500 σπουδαστών ζητώντας τους να μετρήσουν τα αναψυκτικά που θα αγοράσουν τις επόμενες 7 ημέρες. Οι απαντήσεις είναι αποθηκευμένες στο CD που συνοδεύει το βιβλίο. Επαγωγική στατιστική Η πληροφορία που απαιτείται για τη λήψη μιας απόφασης στο παραπάνω παράδειγμα 12.1 είναι η εκτίμηση των ετήσιων κερδών που θα προκύψουν από τη συμφωνία αποκλειστικής διάθεσης που προσφέρει το πανεπιστήμιο. Τα δεδομένα είναι οι αριθμοί των αναψυκτικών που καταναλώθηκαν μέσα σε 7 ημέρες από τους 500 σπουδαστές του δείγματος. Μπορούμε να χρησιμοποιήσουμε περιγραφικές μεθόδους για να μάθουμε περισσότερα από τα δεδομένα αυτά, στην περίπτωσή μας όμως αυτό που ενδιαφέρει δεν είναι η συμπεριφορά των σπουδαστών αλλά το συνολικό πλήθος των αναψυκτικών που καταναλώνονται από τους 50.000 σπουδαστές του πανεπιστημίου. Η ζητούμενη πληροφορία δεν περιέχεται στα δεδομένα, αλλά πρέπει να υπολογιστεί ως πρόβλεψη, με την προϋπόθεση ότι τα δεδομένα είναι αντιπροσωπευτικά του συνόλου των σπουδαστών. Ο υπολογισμός αυτός μπορεί να γίνει με τη βοήθεια της επαγωγικής στατιστικής. Η επαγωγική στατιστική (inferential statistics) είναι ένα σύνολο μεθόδων που επιτρέπουν την προβολή δεικτών από ένα μικρό δείγμα σε ένα ευρύτερο σύνολο πληθυσμού. Στο παραπάνω παράδειγμα ο πληθυσμός έχει μέγεθος 50.000 και το οικονομικό και χρονικό κόστος ενός ερωτηματολογίου που θα κάλυπτε το σύνολο του πληθυσμού είναι απαγορευτικό. Υπάρχουν στατιστικές τεχνικές που κάνουν μια τέτοια γιγάντια έρευνα περιττή. Αντί για το σύνολο του πληθυσμού μπορεί να χρησιμοποιηθεί ένα πολύ μικρότερο δείγμα (500 ατόμων στο παράδειγμα 12.1) και από τα δεδομένα του δείγματος να γίνει μια εκτίμηση για τη ζητούμενη παράμετρο του πληθυσμού, δηλαδή τη μέση εβδομαδιαία κατανάλωση αναψυκτικών, ώστε η εταιρία αναψυκτικών να κρίνει αν η πρόταση του πανεπιστημίου είναι συμφέρουσα. Παράδειγμα 12.5 Δημοσκοπήσεις εξόδου (κεφάλαιο 12) Κάθε φορά που γίνονται εκλογές τα τηλεοπτικά δίκτυα δεν εκπέμπουν το κανονικό τους πρόγραμμα αλλά καλύπτουν με συνεχή ροή την έκδοση των αποτελεσμάτων από τη στιγμή που ανοίγουν οι κάλπες και αρχίζει η διαδικασία της καταμέτρησης. Παράλληλα τα τηλεοπτικά δίκτυα ανταγωνίζονται μεταξύ τους για την πρόβλεψη του κεντρικού εκλογικού αποτελέσματος, όπως η εκλογή προέδρου ή η συνολική κατανομή των βουλευτικών εδρών, με την τεχνική των δημοσκοπήσεων εξόδου (exit poll), που χρησιμοποιούν τις απαντήσεις ενός τυχαίου δείγματος ψηφοφόρων αμέσως μετά την έξοδό τους από τα εκλογικά τμήματα. Στα δεδομένα του τυχαίου αυτού δείγματος εφαρμόζονται κάποιες στατιστικές τεχνικές για τον έλεγχο του βαθμού αντιπροσωπευτικότητας των απαντήσεων και την εξαγωγή ενός αξιόπιστου συμπεράσματος. Για παράδειγμα, στις εκλογές των ΗΠΑ το 2000 στην Πολιτεία της Florida υπήρχε ένας μεγάλος αριθμός υποψηφίων για την προεδρία, αλλά οι δημοσκοπήσεις εξόδου ενδιαφέρονταν μόνο για δυο από αυτούς, τον Ρεπουμπλικανό George W. Bush και τον Δημοκρατικό Albert Gore. Από το σύνολο των ερωτηθέντων της δημοσκόπησης εξόδου, 765 είχαν απαντήσει ότι ψήφισαν είτε Bush είτε Gore. Οι στατιστικοί των τηλεοπτικών δικτύων ήθελαν να γνωρίζουν
Τι είναι η στατιστική 29 σε ποιο βαθμό αυτές οι 765 απαντήσεις τους επέτρεπαν να προβλέψουν τη νίκη ενός από τους δυο υποψηφίους στη Florida. Το παράδειγμα 12.5 περιγράφει μια πολύ συνηθισμένη εφαρμογή της επαγωγικής στατιστικής. Ο συνολικός πληθυσμός των ψηφοφόρων στη Florida είναι περίπου 5 εκατομμύρια, ενώ το στατιστικό δείγμα αποτελούνταν μόνο από 765 άτομα, που είχαν επιλεγεί με τυχαίο τρόπο από την εταιρία που είχε πραγματοποιήσει τη δημοσκόπηση εξόδου. Το ερώτημα ήταν αν το ποσοστό αυτών που ψήφισαν Bush (στο σύνολο του πληθυσμού) ήταν μεγαλύτερο ή μικρότερο από το ποσοστό αυτών που ψήφισαν Gore. Είναι σαφές ότι επειδή δεν είναι τεχνικά και οικονομικά εφικτό για ένα τηλεοπτικό δίκτυο να ρωτήσει και τα 5 εκατομμύρια των ψηφοφόρων τη στιγμή που βγαίνουν από τα εκλογικά τμήματα, η πρόβλεψη δεν μπορεί ποτέ να έχει 100% βεβαιότητα. Αυτό είναι ένα γεγονός που κάθε στατιστικός και κάθε φοιτητής πρέπει να συνειδητοποιήσει. Ένα στατιστικό δείγμα που αποτελεί μόνο ένα πολύ μικρό ποσοστό του συνολικού πληθυσμού, δεν μπορεί να δώσει απόλυτα ορθές προβλέψεις, αλλά μόνο προβλέψεις με μια δεδομένη πιθανότητα επιτυχίας. Όπως θα δούμε, ένας καλός στατιστικός μπορεί να κρατήσει αυτή την πιθανότητα μεταξύ 90% και 99%. Τη νύχτα των εκλογών του 2000 στις ΗΠΑ οι προβλέψεις των τηλεοπτικών δικτύων έπεσαν θεαματικά έξω. Χρησιμοποιώντας δημοσκοπήσεις εξόδου και συγκρίνοντας με τα αποτελέσματα προηγούμενων εκλογών, τα 4 μεγαλύτερα τηλεοπτικά δίκτυα ανακοίνωσαν στις 8 μ.μ. την κοινή πρόβλεψη για νίκη του Al Gore στην πολιτεία της Florida. Δυο ώρες αργότερα, και αφού ένα μεγάλο ποσοστό ψήφων είχε ήδη καταμετρηθεί, η πρόγνωση αντιστράφηκε και ως νικητής εμφανιζόταν ο George Bush. Γύρω στις 2 μετά τα μεσάνυχτα οι προβλέψεις κλονίστηκαν για μια ακόμη φορά και τα τηλεοπτικά δίκτυα ανακοίνωσαν ότι η διαφορά μεταξύ των δυο υποψηφίων ήταν τόσο μικρή ώστε δεν ξεπερνούσε το ποσοστό του στατιστικού σφάλματος. Στο μέλλον η ιστορία των εκλογών του 2000 στη Florida θα αναφέρεται στο μάθημα της στατιστικής ως τυπικό παράδειγμα για τον τρόπο που δεν πρέπει να χρησιμοποιείται η στατιστική. Παρατηρήστε ότι σε αντίθεση με αυτό που οι περισσότεροι άνθρωποι πιστεύουν, τα στατιστικά δεδομένα δεν είναι απαραίτητα αριθμοί. Ασφαλώς οι βαθμοί του παραδείγματος 2.6 και τα αναψυκτικά του παραδείγματος 12.1 εκφράζονται με αριθμούς, αλλά η προτίμηση ενός ψηφοφόρου δεν είναι αριθμός. Στο δεύτερο κεφάλαιο θα γνωρίσουμε τους διαφορετικούς τύπους δεδομένων που συναντώνται σε στατιστικές εφαρμογές, και τον τρόπο χρήσης τους. 1.1 Βασικές έννοιες της στατιστικής Πληθυσμός Τα προβλήματα επαγωγικής στατιστικής περιλαμβάνουν τρεις βασικές έννοιες: τον πληθυσμό, το δείγμα και την επαγωγή. Στη συνέχεια θα δούμε τις έννοιες αυτές. Ο πληθυσμός (population) μιας στατιστικής έρευνας είναι το σύνολο των στοιχείων που ενδιαφέρουν τον στατιστικό. Συχνά ο πληθυσμός είναι πολύ μεγάλος και ίσως είναι απροσδιόριστος. Στη γλώσσα της στατιστικής, πληθυσμός δεν σημαίνει απαραίτητα ένα σύνολο ανθρώπων. Για παράδειγμα, ο πληθυσμός μιας έρευνας θα μπορούσε να είναι το σύνολο των διαμέτρων των ρουλεμάν που κατασκευάζονται από ένα εργοστάσιο. Στο παράδειγμα 12.1 ο πληθυσμός ήταν οι 50.000 περίπου φοιτητές ενός
30 Κεφάλαιο 1 Δείγμα Επαγωγή πανεπιστημίου, ενώ στο παράδειγμα 12.5 ο πληθυσμός ήταν το σύνολο των ψηφοφόρων στην πολιτεία της Florida που ψήφισαν είτε Bush είτε Gore. Κάθε περιγραφικό μέτρο ενός πληθυσμού ονομάζεται παράμετρος (parameter). Στο παράδειγμα 12.1 η παράμετρος που ενδιέφερε την έρευνα ήταν ο μέσος αριθμός αναψυκτικών που καταναλώνονται από τους φοιτητές στην πανεπιστημιούπολη. Στο παράδειγμα 12.5 η παράμετρος που ενδιέφερε την έρευνα ήταν το ποσοστό των ψηφοφόρων που ψήφισαν Bush. Στις περισσότερες εφαρμογές της επαγωγικής στατιστικής υπάρχει μια παράμετρος που αντιπροσωπεύει τη ζητούμενη πληροφορία. Το δείγμα (sample) μιας στατιστικής έρευνας είναι το σύνολο των δεδομένων που συλλέγονται από τον πληθυσμό. Κάθε περιγραφικό μέτρο του δείγματος ονομάζεται στατιστικό μέγεθος (statistic). Τα στατιστικά μεγέθη χρησιμοποιούνται ως βάση για την επαγωγική εκτίμηση των παραμέτρων του πληθυσμού. Στο παράδειγμα 12.1 το στατιστικό μέγεθος ήταν ο μέσος των αναψυκτικών που καταναλώθηκαν σε 7 ημέρες από τους 500 φοιτητές του δείγματος. Από το στατιστικό μέγεθος του δείγματος πρέπει να εκτιμηθεί με κάποιο τρόπο η αντίστοιχη παράμετρος του συνολικού πληθυσμού. Στο παράδειγμα 12.5 το στατιστικό μέγεθος ήταν το ποσοστό των ψηφοφόρων που ψήφισαν Bush από τους 765 του δείγματος, που είχαν ψηφίσει έναν από τους δυο κύριους υποψήφιους. Όμοια, το στατιστικό μέγεθος του δείγματος χρησιμοποιήθηκε για την εκτίμηση της αντίστοιχης παραμέτρου του συνολικού πληθυσμού των 5 εκατομμυρίων ψηφοφόρων. Με αυτό τον τρόπο τα τηλεοπτικά δίκτυα είχαν μια πρόβλεψη του εκλογικού αποτελέσματος πριν ξεκινήσει η καταμέτρηση των ψήφων. Στατιστική επαγωγή (statistical inference) είναι η διαδικασία της εκτίμησης, ή πρόβλεψης, μιας παραμέτρου του πληθυσμού με βάση τα δεδομένα ενός δείγματος. Επειδή οι πληθυσμοί είναι σχεδόν πάντοτε πολύ μεγάλοι, η άμεση καταγραφή των δεδομένων για το σύνολο του πληθυσμού είτε είναι ανέφικτη είτε έχει πολύ μεγάλο κόστος. Είναι πολύ ευκολότερο και πιο οικονομικό να ερευνηθεί ένα μικρό δείγμα του πληθυσμού και από τα στατιστικά μεγέθη του δείγματος να γίνουν εκτιμήσεις για τις παραμέτρους του πληθυσμού. Βέβαια, οι εκτιμήσεις αυτές δεν είναι πάντοτε ακριβείς, και για τον λόγο αυτό η στατιστική επαγωγή συνοδεύεται πάντοτε από ένα μέτρο του βαθμού ακρίβειας των προβλέψεων. Υπάρχουν δυο δείκτες ακρίβειας: η στάθμη εμπιστοσύνης (confidence level) και η στάθμη σημαντικότητας (significance level). Η στάθμη ε- μπιστοσύνης είναι το ποσοστό επιβεβαίωσης των προβλέψεων στην πράξη. Στο παράδειγμα 12.1, αν η πρόβλεψη του μέσου των αναψυκτικών που καταναλώνονται από τους φοιτητές έχει στάθμη εμπιστοσύνης 95%, αυτό σημαίνει ότι αν η στατιστική μέτρηση πραγματοποιηθεί σε μεγάλο
Τι είναι η στατιστική 31 αριθμό επαναλαμβανόμενων δειγμάτων, το 95% των εκτιμήσεων θα δώσουν το σωστό αποτέλεσμα. Αντίθετα, η στάθμη σημαντικότητας είναι το ποσοστό των εκτιμήσεων που θα αποδειχθούν εσφαλμένες. Στο παράδειγμα 12.5, αν οι προβλέψεις των δημοσκοπήσεων εξόδου έχουν στάθμη σημαντικότητας 5%, αυτό σημαίνει ότι αν η στατιστική μέτρηση πραγματοποιηθεί σε μεγάλο αριθμό επαναλαμβανόμενων δειγμάτων, το 5% των εκτιμήσεων θα αποδειχθούν εσφαλμένες. 1.2 Εφαρμογές της στατιστικής στις επιχειρήσεις Ενότητες εφαρμογών Πλαίσια κειμένου Μια σημαντική αποστολή του μαθήματος της στατιστικής σε προγράμματα σπουδών οικονομίας και διοίκησης είναι να αναδείξει τον ρόλο της στατιστικής ανάλυσης σε όλες τις πλευρές της λειτουργίας μιας επιχείρησης. Στο παρόν βιβλίο αυτό γίνεται μέσα από παραδείγματα, ασκήσεις και μελέτες περιπτώσεων. Δυστυχώς οι περισσότεροι φοιτητές που παρακολουθούν για πρώτη φορά το μάθημα της στατιστικής δεν έχουν παρακολουθήσει ακόμη αρκετά μαθήματα οικονομίας και διοίκησης. Για τον λόγο αυτό, όπου χρειάζεται τα παραδείγματα συνοδεύονται από εισαγωγικές γνώσεις και πληροφορίες σχετικά με το αντικείμενο κάθε παραδείγματος, ώστε οι φοιτητές να μπορούν να κατανοήσουν τόσο το περιβάλλον του προβλήματος όσο και τη στατιστική εφαρμογή. Στο παρόν βιβλίο υπάρχουν έξι ενότητες που περιγράφουν στατιστικές εφαρμογές σε επιχειρήσεις και συγκεκριμένα στις δραστηριότητες στους τομείς της οικονομίας, μάρκετινγκ, ανθρώπινων πόρων, παραγωγής και λογιστικής. Για παράδειγμα, στην ενότητα 7.3 παρουσιάζεται μια οικονομική εφαρμογή, όπου ο οικονομικός αναλυτής μιας επιχείρησης χρησιμοποιεί τεχνικές στατιστικής και πιθανοτήτων για να συνθέσει ένα χαρτοφυλάκιο με μειωμένους συντελεστές κινδύνου. Όμοια, στην ενότητα 12.5 περιγράφεται μια λογιστική εφαρμογή, όπου χρησιμοποιούνται στατιστικές τεχνικές ελέγχου για την εξαγωγή χρήσιμων πληροφοριών. Σε τρεις άλλες ενότητες παρουσιάζονται εφαρμογές της στατιστικής σε συγκεκριμένους κλάδους: επαγγελματικό μπέιζ-μπολ (4.5), ιατρική α- σφάλιση (6.4) και τράπεζες (19.4). Αν κάποιο παράδειγμα δεν απαιτεί τόσο λεπτομερείς πληροφορίες, το γνωστικό υπόβαθρο μιας εφαρμογής δίνεται σε ένα σύντομο πλαίσιο κειμένου που συνοδεύει την εφαρμογή. Για παράδειγμα, στο κεφάλαιο 2 περιγράφεται μια στατιστική εφαρμογή που βοηθά ένα διευθυντή μάρκετινγκ να καθορίσει την καταλληλότερη τιμή για ένα προϊόν. Οι απαραίτητες γνώσεις σχετικά με τον ρόλο και τα καθήκοντα του διευθυντή μάρκετινγκ παρουσιάζονται σε ένα πλαίσιο κείμενου που συνοδεύει την ε- φαρμογή.
32 Κεφάλαιο 1 1.3 Στατιστική και υπολογιστής Σε όλες σχεδόν τις εφαρμογές της στατιστικής, ο στατιστικός έχει να α- ντιμετωπίσει μεγάλες ποσότητες δεδομένων. Το παράδειγμα 12.1 (αποκλειστική διάθεση αναψυκτικών) περιλαμβάνει τις απαντήσεις ενός δείγματος 500 ατόμων, από τις οποίες πρέπει να υπολογιστεί ο μέσος, και στη συνέχεια να χρησιμοποιηθεί για την εκτίμηση του αναμενόμενου κέρδους από τη συμφωνία αποκλειστικότητας. Αν και οι υπολογισμοί δεν απαιτούν ιδιαίτερες μαθηματικές ικανότητες, ο όγκος των αριθμητικών πράξεων σημαίνει μεγάλο κόστος σε χρόνο και υψηλή πιθανότητα ανθρώπινου σφάλματος. Ευτυχώς υπάρχουν πολλά προγράμματα υπολογιστών που μπορούν να βοηθήσουν στην εκτέλεση των αριθμητικών πράξεων. Για το παρόν βιβλίο έχουμε επιλέξει το λογισμικό Microsoft Excel, που ανήκει στην κατηγορία των λογιστικών φύλλων (spreadsheet) και το Minitab, που είναι ένα πακέτο εργαλείων στατιστικής. Επιλέξαμε το Excel επειδή πιστεύουμε ότι είναι και θα συνεχίσει να είναι το πιο δημοφιλές στην κατηγορία του. Ένα από τα μειονεκτήματά του είναι ότι προσφέρει μόνο ελάχιστες από τις στατιστικές μεθόδους που παρουσιάζονται στο παρόν βιβλίο, και έτσι δημιουργήσαμε ένα σύνολο από πρόσθετα εργαλεία, που αν φορτώσετε στον υπολογιστή σας θα σας επιτρέψουν να χρησιμοποιήσετε όλες τις στατιστικές τεχνικές του βιβλίου μέσα από το Excel. Τα πρόσθετα εργαλεία βρίσκονται στο CD που συνοδεύει το βιβλίο και αν εγκατασταθούν στο Excel εμφανίζονται στο μενού «Εργαλεία» με την ένδειξη «Data Analysis Plus». Το CD που συνοδεύει το βιβλίο περιλαμβάνει επίσης μια εισαγωγή και λεπτομερείς οδηγίες για τη χρήση του λογισμικού Excel και Minitab. Στο παράρτημα αυτού του κεφαλαίου θα βρείτε μια περιγραφή και οδηγίες για τη χρήση του CD που συνοδεύει το βιβλίο. Στο CD υπάρχει επίσης ένα αρχείο που ονομάζεται README και περιέχει περισσότερες οδηγίες. Το μεγαλύτερο μέρος των παραδειγμάτων και ασκήσεων του βιβλίου περιλαμβάνουν μεγάλα σύνολα δεδομένων που επίσης είναι αποθηκευμένα στο CD. Το σχετικό όνομα αρχείου, όπου υπάρχει, αναφέρεται στην αρχή κάθε παραδείγματος ή άσκησης. Η λύση κάθε παραδείγματος παρουσιάζεται με τρεις τρόπους: με χειρόγραφους υπολογισμούς, στο λογισμικό Excel και στο λογισμικό Minitab. Επιπλέον δίνεται αναλυτική περιγραφή κάθε νέας τεχνικής που χρησιμοποιείται. Τα αρχεία που αναφέρονται σε παραδείγματα και ασκήσεις περιέχουν τα απαραίτητα δεδομένα για τον υπολογισμό των λύσεων, αλλά συχνά σε μια στατιστική έρευνα συλλέγονται περισσότερα δεδομένα από αυτά που είναι απολύτως απαραίτητα. Έτσι, στη δημοσκόπηση εξόδου του παραδείγματος 12.5 εκτός από την ψήφο καταγράφονται πολλές ακόμη πληροφορίες, όπως η φυλή, η θρησκεία, η μόρφωση και το εισόδημα του ψηφοφόρου, κτλ. Πολλά άλλα σύνολα δεδομένων περιέχουν παρόμοια πρόσθετα στοιχεία. Σε επόμενα κεφάλαια θα επιστρέψουμε στα δεδομένα αυτά και θα χρησιμοποιήσουμε στατιστικές τεχνικές για την εξαγωγή
Τι είναι η στατιστική 33 πρόσθετων πληροφοριών. Τα αρχεία που περιέχουν πρόσθετα δεδομένα σημειώνονται με έναν αστερίσκο στο όνομα αρχείου. Η προσέγγιση που έχει επιλεγεί για το παρόν βιβλίο είναι η ελαχιστοποίηση του χρόνου που αφιερώνεται στην εκτέλεση χειρόγραφων υπολογισμών, ώστε το ενδιαφέρον να εστιάζεται στην επιλογή της καταλληλότερης μεθόδου και στην ερμηνεία των αποτελεσμάτων, αφού ο υπολογιστής έχει πραγματοποιήσει τους απαιτούμενους υπολογισμούς. Με τον τρόπο αυτό ελπίζουμε να δείξουμε ότι η στατιστική μπορεί να είναι ενδιαφέρουσα και χρήσιμη όσο κάθε άλλο μάθημα οικονομίας και διοίκησης. Εφαρμογές και λογιστικά φύλλα Τα βιβλία που χρησιμοποιούνται για το μάθημα της στατιστικής σε προγράμματα σπουδών μαθηματικών ή στατιστικής διαφέρουν σημαντικά από το παρόν βιβλίο, κάτι που είναι αναμενόμενο αφού στους κλάδους αυτούς το κύριο ενδιαφέρον είναι η μαθηματική απόδειξη των θεωρημάτων και της ορθότητας των μεθόδων. Όταν η ύλη καλύπτεται από αυτή την οπτική γωνία, οι έννοιες που αποτελούν τη βάση της επαγωγικής στατιστικής είναι εύκολα αναγνωρίσιμες. Το παρόν βιβλίο προορίζεται για το μάθημα της εφαρμοσμένης στατιστικής, κατά συνέπεια δεν ασχολείται άμεσα με τις μαθηματικές αρχές της στατιστικής, αντίθετα εστιάζει στην επιλογή των μεθόδων και στην ερμηνεία των αποτελεσμάτων, είτε αυτά παράγονται χειρόγραφα είτε από υπολογιστή. Βέβαια, για να μπορεί κάποιος να ερμηνεύσει τα αποτελέσματα μιας στατιστικής τεχνικής πρέπει να κατανοεί τις βασικές αρχές αυτής της τεχνικής. Για να βοηθήσουμε τους φοιτητές να αποκτήσουν αυτή την κατανόηση των βασικών εννοιών, έχουμε επιλέξει δυο προσεγγίσεις. Πρώτον, έχουμε δημιουργήσει διάφορα φύλλα εργασίας στο λογισμικό Excel που επιτρέπουν την ανάλυση υποθετικών μεταβολών ( what if analysis): οι φοιτητές μπορούν να εξετάσουν τις συνέπειες υποθετικών αλλαγών στα δεδομένα. Δεύτερον, έχουμε δημιουργήσει μικροεφαρμογές, δηλαδή προγράμματα υπολογιστή, που εκτελούν παρόμοιες αναλύσεις ή προσομοιώσεις. Οι μικροεφαρμογές και τα φύλλα εργασίες περιγράφονται αναλυτικά στα κεφάλαια όπου χρησιμοποιούνται. 1.4 Διαδίκτυο και Κέντρα Ηλεκτρονικής Μάθησης Το παρόν βιβλίο συνοδεύεται επίσης από μια ιστοσελίδα στο διαδίκτυο, που έχει ως σκοπό να βοηθήσει τους φοιτητές σε όλα τα θέματα που συνδέονται με τη χρήση υπολογιστή στη στατιστική. Η ιστοσελίδα περιέχει πρόσθετες ασκήσεις και παραδείγματα, όπως επίσης διορθώσεις και ενημερώσεις των δεδομένων και των μακροεντολών των ασκήσεων του βιβλίου.
34 Κεφάλαιο 1 Σημαντικοί όροι Ασφαλώς μπορείτε να επικοινωνήσετε ηλεκτρονικά με τον συγγραφέα του βιβλίου και να γράψετε τη γνώμη σας ή να ζητήσετε οδηγίες για τη χρήση του ηλεκτρονικού υλικού που συνοδεύει το βιβλίο. Η ιστοσελίδα του βιβλίου είναι προσβάσιμη από την ιστοσελίδα του εκδότη στη διεύθυνση: Δείγμα (sample) Επαγωγική στατιστική (inferential statistics) Παράμετρος (parameter) Περιγραφική στατιστική (descriptive statistics) Πληθυσμός (population) Στάθμη εμπιστοσύνης (confidence level) Στάθμη σημαντικότητας (significance level) Στατιστικό μέγεθος (statistic) Ασκήσεις κεφαλαίου http://www.academic.cengage.com 1.1. Ας υποθέσουμε ότι πιστεύετε πως οι πτυχιούχοι του δικού σας κλάδου πετυχαίνουν υψηλότερους μισθούς αμέσως μετά την αποφοίτησή τους, σε σύγκριση με τους πτυχιούχους άλλων κλάδων. Να σχεδιάσετε ένα στατιστικό πείραμα για τον έλεγχο αυτής της υπόθεσης. 1.2. Ένας υποψήφιος δήμαρχος σε μια πόλη με 25.000 εγγεγραμμένους ε- κλογείς πραγματοποίησε μια δημοσκόπηση σε 200 εγγεγραμμένους ε- κλογείς, από τους οποίους 48% δήλωσαν ότι πρόκειται να ψηφίσουν τον συγκεκριμένο υποψήφιο. 1. Ποιος είναι ο πληθυσμός; 2. Ποιο είναι το δείγμα; 3. Το 48% είναι παράμετρος ή στατιστικό μέγεθος; Εξηγήστε. 1.3. Ένας παραγωγός ολοκληρωμένων κυκλωμάτων υποστηρίζει ότι το ποσοστό ελαττωματικών στο σύνολο της παραγωγής του είναι μικρότερο από 10%. Όταν επιλέχθηκαν τυχαία 1.000 ολοκληρωμένα κυκλώματα από ένα μεγάλο σύνολο παραγωγής, βρέθηκε ότι το 7,5% από αυτά ήταν ελαττωματικά. 1. Ποιος είναι ο πληθυσμός; 2. Ποιο είναι το δείγμα; 3. Ποια είναι η παράμετρος; 4. Ποιο είναι το στατιστικό μέγεθος; 5. Εξηγήστε σύντομα πώς θα μπορούσε να χρησιμοποιηθεί το στατιστικό μέγεθος σε σχέση με την παράμετρο, για τον έλεγχο του ισχυρισμού του παραγωγού. 1.4. Εξηγήστε σύντομα τη διαφορά μεταξύ περιγραφικής και επαγωγικής στατιστικής.
3 Επιστήμη και τέχνη των διαγραμματικών παρουσιάσεων 3.1 Διαγραμματική τελειότητα 3.2 Διαγραμματική παραπλάνηση 3.32 Περιγραφική στατιστική: γραπτές εκθέσεις και προφορικές παρουσιάσεις Εισβολή και συντριβή του Ναπολέοντα στη Ρωσία Στις 21 Ιουνίου 1812 ο Γαλλικός στρατός οδηγούμενος από τον Ναπολέοντα εισέβαλλε στη Ρωσία. Η εκστρατεία ήταν μια καταστροφή, καθώς ο Γαλλικός στρατός παγιδεύτηκε στον Ρωσικό χειμώνα και α- ποδεκατίστηκε. Ένας Γάλλος μηχανικός που συμμετείχε στην εκστρατεία, ο Charles Joseph Minard (1781-1870) αποτύπωσε την πορεία της εκστρατείας σε ένα εκπληκτικό χρονολογικό διάγραμμα, που απεικονίζει με ακρίβεια και σαφήνεια πέντε διαφορετικές μεταβλητές: 1. Μέγεθος του στρατού κατά την προέλαση 2. Μέγεθος του στρατού κατά την οπισθοχώρηση 3. Πορεία του στρατού στον χάρτη 4. Θερμοκρασίες 5. Ημερομηνίες 119
Επιστήμη και τέχνη των γραφικών παρουσιάσεων 131 3.10. XR03-10. Στη διάρκεια του 2002 στην πολιτεία της Florida ο αριθμός των οδηγών που είχαν εμπλοκή σε τροχαία ατυχήματα ήταν 365.474. Στον πίνακα που ακολουθεί φαίνονται οι αριθμοί των ατυχημάτων και οι αριθμοί των οδηγών που τραυματίστηκαν και σκοτώθηκαν στα ατυχήματα αυτά για διάφορες ηλικιακές ομάδες. (Σημειώστε ότι ο συνολικός αριθμός των ατυχημάτων ήταν 371.877 αλλά σε 6413 ατυχήματα δεν καταγράφηκε η ηλικία του οδηγού.) Ηλικία Ατυχήματα Τραυματισμοί Θάνατοι οδηγού οδηγού < 20 52.313 21.762 217 20 24 38.449 16.016 185 25 34 78.703 31.503 324 35 44 76.152 30.542 389 45 54 54.699 22.638 260 55 64 31.985 13.210 167 65 74 18.896 7.892 133 75 85 11.526 5.106 138 85+ 2.751 1.223 65 ΣΥΝΟΛΟ 365.474 149.892 1.878 Πηγή: Florida Department of Highway Safety and Motor Vehicles 1. Να υπολογίσετε την αναλογία τραυματισμών ανά 100 ατυχήματα και θανάτων ανά ατύχημα για κάθε ηλικιακή ομάδα. 2. Να απεικονίσετε σε ένα γράφημα τη σχέση μεταξύ της ηλικίας και της αναλογίας τραυματισμών και θανάτων. 3. Να περιγράψετε με συντομία τα συμπεράσματά σας. 3.2 Διαγραμματική παραπλάνηση Η χρήση γραφημάτων και διαγραμμάτων σε εφημερίδες, περιοδικά, εκθέσεις και σεμινάρια είναι πολύ συχνή, κυρίως επειδή η χρήση υπολογιστών και του κατάλληλου λογισμικού επιτρέπει την εύκολη αποθήκευση και παρουσίαση μεγάλου όγκου δεδομένων. Για τον λόγο αυτό, είναι πολύ σημαντικό να μπορεί κανείς να εκτιμήσει την αξιοπιστία πληροφοριών που παρουσιάζονται μέσα από τέτοια εργαλεία. Σε τελική ανάλυση, ένα γράφημα είναι ένα μέσο που δημιουργεί οπτικές εντυπώσεις, και είναι πολύ εύκολο να χρησιμοποιηθεί για τη δημιουργία εσφαλμένων ε- ντυπώσεων. Στην πραγματικότητα η παραπλάνηση με τη χρήση γραφημάτων είναι τόσο εύκολη και τόσο συχνή, ώστε το 1992 το Επαγγελματικό Ινστιτούτο Λογιστών του Καναδά καθιέρωσε προϋποθέσεις για την κατασκευή γραφημάτων οικονομικού περιεχομένου, αφού πρώτα είχε πραγματοποιήσει μια έρευνα και είχε διαπιστώσει ότι το 8% των επίσημων οικονομικών εκθέσεων μεγάλων επιχειρήσεων περιείχε τουλάχιστον ένα παραπλανητικό γράφημα που έκρυβε αρνητικά αποτελέσματα. Αν και συνήθως η παραπλάνηση κρύβει πρόθεση, είναι εξίσου εύκολο για έναν άπειρο στατιστικό να κατασκευάσει από λάθος γραφήματα που δημιουργούν εσφαλμένες εντυπώσεις. Σε κάθε περίπτωση θα πρέπει να γνωρίζουμε τις μεθόδους διαγραμματικής παραπλάνησης ώστε να αποφεύγουμε ή να αναγνωρίζουμε ένα παραπλανητικό γράφημα.
132 Κεφάλαιο 3 Η πρώτη ένδειξη ότι ένα γράφημα μπορεί να είναι παραπλανητικό, είναι η απουσία αρίθμησης σε έναν από τους δυο άξονες. Για παράδειγμα, το διάγραμμα της εικόνας 3.10 μπορεί να απεικονίζει μια αύξηση της τάξης του 500% (αν ο κάθετος άξονας έχει υποδιαιρέσεις ανά 10 μονάδες από 0 50) ή μια αύξηση κατά μόνο 1% (αν ο κάθετος άξονας έχει υποδιαιρέσεις ανά 0,1 από 100 101). Η καλύτερη αντίδραση όταν σε έναν άξονα δεν υπάρχουν ενδείξεις, είναι απλά να αγνοήσουμε το γράφημα. Εικόνα 3.10 Ένα δεύτερο μέσο παραπλάνησης είναι η λεζάντα που συνοδεύει το γράφημα. Για παράδειγμα, οι δυο λεζάντες στις εικόνες 3.11α και 3.11β δημιουργούν εντελώς διαφορετικές εντυπώσεις για το ίδιο ακριβώς γράφημα. Εικόνα 3.11 Μια τρίτη ένδειξη πιθανής παραπλάνησης είναι η ύπαρξη απόλυτων και όχι σχετικών τιμών (ή ποσοστών) στον κάθετο άξονα. Αν η τιμή μιας μετοχής είναι 100 δολάρια και πέσει κατά 1, αυτό είναι μια φυσιολογική ημερήσια μεταβολή. Αντίθετα αν η τιμή της μετοχής είναι 2 δολάρια και πέσει κατά 1, αυτό θα έχει καταστροφικές συνέπειες για τους κατόχους της μετοχής. Για παράδειγμα, στις 9 Ιανουαρίου 1986 πολλές εφημερίδες δημοσίευαν το γράφημα της εικόνας 3.12 με τον τίτλο ότι ο χρηματιστηριακός δείκτης Dow-Jones είχε την μεγαλύτερη ημερήσια πτώση της ι- στορίας του (39 μονάδες), μεγαλύτερη ακόμη και από την ιστορική «μαύρη Τρίτη» του «κραχ», στις 28-10-1929. Παρότι σε απόλυτους α- ριθμούς αυτό ήταν αλήθεια, οι 39 μονάδες του 1986 αντιπροσώπευαν μια πτώση μόλις 2,5% ενώ τη «μαύρη Τρίτη» η πτώση ήταν 12,8%. Είναι ενδιαφέρον να σημειώσουμε ότι τους επόμενους 2 μήνες μετά τον Ιανουάριο του 1986 ο δείκτης Dow-Jones κέρδισε 12% και ένα χρόνο αργότερα
Επιστήμη και τέχνη των γραφικών παρουσιάσεων 133 είχε κερδίσει 40%, για να γνωρίσει την πραγματικά μεγαλύτερη ημερήσια πτώση της ιστορίας του με 22% στις 19 Οκτωβρίου 1987. Εικόνα 3.12 Εκτός από τους παραπάνω τρόπους, υπάρχουν και μερικές λεπτότερες μέθοδοι δημιουργίας εσφαλμένων εντυπώσεων μέσα από γραφήματα. Για παράδειγμα, το γράφημα της εικόνας 3.13 παρουσιάζει τις πωλήσεις μιας εταιρίας ανά τρίμηνο με συνολική ετήσια αύξηση από 100 σε 110 εκατομμύρια δολάρια. Εικόνα 3.13 Η αύξηση αυτή μπορεί να εμφανιστεί πολύ πιο δραματικά αν αλλάξει η κλίμακα του κάθετου άξονα, ώστε η κλίση της γραμμής να είναι μεγαλύτερη, αν και οι αριθμοί μένουν οι ίδιοι. Η κλίμακα του κάθετου άξονα αλλάζει είτε αν στην αρχή του άξονα υπάρχει ένα «σπάσιμο», όπως στην εικόνα 3.14α, είτε αν ο άξονας απλά δεν ξεκινά από το μηδέν αλλά από μια αυθαίρετη τιμή, όπως στην εικόνα 3.14β. Το ίδιο αποτέλεσμα, να εμφανίζεται μια άνοδος ή μια πτώση οπτικά μεγαλύτερη από ό,τι είναι, επιτυγχάνεται αν πυκνώσουν οι υποδιαιρέσεις του οριζόντιου άξονα, δηλαδή αν ο οριζόντιος άξονας γίνει μικρότερος σε μήκος ώστε οι ενδείξεις του να πλησιάσουν μεταξύ τους.
134 Κεφάλαιο 3 Εικόνα 3.14 Το αντίστροφο αποτέλεσμα, δηλαδή μια άνοδος ή μια πτώση να εμφανίζεται λιγότερο απότομη από ό,τι πραγματικά είναι, επιτυγχάνεται αν α- ραιώσουν οι υποδιαιρέσεις του οριζόντιου άξονα, δηλαδή αν ο οριζόντιος άξονας γίνει μεγαλύτερος σε μήκος ώστε οι ενδείξεις να απομακρυνθούν μεταξύ τους. Για παράδειγμα, στην εικόνα 3.15α φαίνονται τα κέρδη μιας επιχείρησης στη διάρκεια 8 τριμήνων, με σημαντικές αυξομειώσεις από τρίμηνο σε τρίμηνο. Στην εικόνα 3.15β φαίνονται τα ίδια αποτελέσματα αλλά ο οριζόντιος άξονας είναι μεγαλύτερος και οι ενδείξεις των τριμήνων έχουν αραιώσει, και έτσι η οικονομική πορεία της εταιρίας εμφανίζει την επιθυμητή σταθερότητα. Εικόνα 3.15 Παρόμοιες εντυπώσεις μπορούν να δημιουργηθούν και σε ραβδογράμματα με την αλλαγή της κλίμακας των αξόνων. Μια δημοφιλής μέθοδος παραπλάνησης μέσα από ραβδογράμματα είναι η σχεδίαση των ράβδων με πλάτος ανάλογο προς το ύψος τους. Για παράδειγμα, το ραβδόγραμμα της εικόνας 3.16α απεικονίζει σωστά τη μέση εβδομαδιαία δαπάνη για διατροφή μιας Καναδικής οικογένειας στη διάρκεια μιας δεκαετίας. Αντίθετα το ραβδόγραμμα της εικόνας 3.16β διογκώνει την εντύπωση της αύξησης παρουσιάζοντας τις ράβδους με πλάτος ανάλογο προς το ύψος τους. Αν και η δαπάνη του 1995 είναι διπλάσια από αυτήν του 1985, η εικόνα την παρουσιάζει ως τετραπλάσια.
Επιστήμη και τέχνη των γραφικών παρουσιάσεων 135 Εικόνα 3.16 Η παραμόρφωση του πλάτους των ράβδων συμβαίνει κυρίως σε εικονογράμματα, όπου οι ράβδοι αντικαθίστανται από εικόνες με σκοπό να κάνουν το γράφημα πιο ελκυστικό ή πιο διασκεδαστικό. Για παράδειγμα, στην εικόνα 3.17 η ετήσια χιονόπτωση αντιπροσωπεύεται από το μέγεθος ενός χιονάνθρωπου, αλλά η εικόνα του χιονάνθρωπου μεγαλώνει σε δυο διαστάσεις (πλάτος και ύψος). Αντίθετα, το εικονόγραμμα της εικόνας 3.18 είναι σωστό, καθώς τα μπουκάλια που αντικαθιστούν τις ράβδους διατηρούν σταθερό πλάτος και μεγαλώνουν μόνο σε μια διάσταση (ύψος). Εικόνα 3.17 Εικόνα 3.18
136 Κεφάλαιο 3 Ασκήσεις Τα παραπάνω παραδείγματα δεν εξαντλούν την επινοητικότητα αυτών που θα θελήσουν να δημιουργήσουν παραπλανητικές εντυπώσεις μέσα από ένα γράφημα, αλλά καλύπτουν τις πιο συνηθισμένες μεθόδους. Το σημαντικό είναι ότι ένα γράφημα είναι ένα μέσο για τη δημιουργία οπτικών εντυπώσεων, και ο θεατής; θα πρέπει να εξετάσει προσεκτικά τους αριθμούς που αντιπροσωπεύουν τα οπτικά στοιχεία, ώστε να μην παρασυρθεί σε εσφαλμένες εντυπώσεις. Σε κάθε περίπτωση ξεκινήστε την ε- ξέταση ενός γραφήματος από τους άξονες: αν δεν υπάρχουν ενδείξεις για τις μονάδες του άξονα αγνοήστε αμέσως το γράφημα. 3.11. XR03-11. Στον πίνακα που ακολουθεί καταγράφονται οι κατώτατοι μισθοί ανά ώρα στις ΗΠΑ από το 1975 ως το 2000 σε τρέχουσες και σε ι- σοδύναμες σταθερές τιμές (δολάρια 1998). Έτος Κατώτατος ωριαίος μισθός Έτος Κατώτατος ωριαίος μισθός Τρέχουσες τιμές Δολάρια 1998 Τρέχουσες τιμές Δολάρια 1998 1975 2,10 6,36 1988 3,35 4,62 1976 2,30 6,59 1989 3,35 4,40 1977 2,30 6,19 1990 3,80 4,74 1978 2,65 6,63 1991 4,25 5,09 1979 2,90 6,51 1992 4,25 4,94 1980 3,10 6,13 1993 4,25 4,79 1981 3,35 3,01 1994 4,25 4,67 1982 3,35 5,66 1995 4,25 4,55 1983 3,35 5,48 1996 4,25 4,93 1984 3,35 5,26 1997 5,15 5,23 1985 3,35 5,07 1998 5,15 5,15 1986 3,35 4,98 1999 5,15 5,15 1987 3,35 4,81 2000 5,15 5,15 Πηγή: U.S. Employment Standards Administration 1. Να σχεδιάσετε ένα γράφημα που να δείχνει μια σημαντική αύξηση των κατώτατων μισθών. 2. Να σχεδιάσετε ένα γράφημα που απεικονίζει τις πραγματικές μεταβολές των κατώτατων μισθών. 3.12. XR03-12. Στον πίνακα που ακολουθεί καταγράφονται οι αριθμοί των μαθητών (σε χιλιάδες) στα δημόσια και ιδιωτικά σχολεία στις ΗΠΑ από το 1990 ως το 2005. Έτος Νηπιαγωγείο Τάξη 8 Τάξεις 9 12 Κολέγια Δημόσια Ιδιωτικά Δημόσια Ιδιωτικά Δημόσια Ιδιωτικά 1990 29.878 4.095 11.338 1.137 10.845 2.974 1991 30.506 4.074 11.541 1.125 11.310 3.049 1992 31.088 4.212 11.735 1.163 11.385 3.103 1993 31.504 4.280 11.961 1.191 11.189 3.116 1994 31.898 4.360 12.213 1.236 11.134 3.145 1995 32.341 4.465 12.500 1.197 11.092 3.169 1996 32.764 4.551 12.847 1.213 11.102 3.247
ΤΡ Ο 11 ΙΚ ΕΝ Έλεγχος υποθέσεων 11.1 Η έννοια του ελέγχου υποθέσεων 11.2 Έλεγχος του μέσου ενός πληθυσμού όταν η τυπική απόκλιση είναι γνωστή ΕΠ 11.3 Υπολογισμός της πιθανότητας ενός σφάλματος τύπου ΙΙ Εκ δό σ εις 2 Τα επόμενα βήματα 11.4 Απαντητικοί φάκελοι XM11-00. Η εταιρία ταχυδρομικών αποστολών Federal Express (FedEx) στέλνει τα τιμολόγια ταχυδρομικά στους πελάτες της και περιμένει την εξόφληση μέσα σε προθεσμία 30 ημερών. Σε κάθε τιμολόγιο υπάρχει τυπωμένη η διεύθυνση της FedEx και οι πελάτες χρησιμοποιούν δικούς τους φακέλους πάνω στους οποίους γράφουν τη διεύθυνση και στέλνουν την πληρωμή. Ο μέσος χρόνος εξόφλησης των τιμολογίων με τον τρόπο αυτό είναι 24 ημέρες και η τυπική απόκλιση 6 ημέρες. Ο διευθυντής του οικονομικού τμήματος της FedEx πιστεύει ότι αν το τιμολόγιο συνοδευόταν από έναν απαντητικό φάκελο με προτυπωμένη διεύθυνση ο μέσος χρόνος εξόφλησης θα μειωνόταν κατά 2 ημέρες και η αυξημένη ταμειακή ροή από τη μείωση αυτή θα κάλυπτε το κόστος των απαντητικών φακέλων, ενώ αν ο μέσος χρόνος εξόφλησης μειωνόταν περισσότερο από τις 2 ημέρες η εταιρία θα είχε και οικονομικό όφελος. Για να ελέγξει την υπόθεση αυτή ο διευθυντής του οικονομικού τμήματος επέλεξε ένα τυχαίο δείγμα 220 πελατών και συμπεριέλαβε απαντητικούς φακέλους στα τιμολόγιά τους, καταγράφοντας τον χρόνο εξόφλησης. Επιβεβαιώνεται η υπόθεση ότι η αποστολή απαντητικών φακέλων θα είναι κερδοφόρα; Αφού γνωρίσουμε τα απαραίτητα εργαλεία, θα επιστρέψουμε στο πρόβλημα αυτό και θα δούμε την απάντηση. 459
460 Κεφάλαιο 11 Εισαγωγή Στο κεφάλαιο 10 γνωρίσαμε την έννοια της εκτίμησης και την εφαρμογή της. Τώρα θα προχωρήσουμε στη δεύτερη κύρια μέθοδο της επαγωγικής στατιστικής, τον έλεγχο υποθέσεων. Ο σκοπός αυτής της μεθόδου είναι να ελέγξουμε αν υπάρχουν επαρκή στατιστικά στοιχεία που να μας επιτρέπουν να επιβεβαιώσουμε αν μια πεποίθηση, ή αλλιώς υπόθεση, για μια παράμετρο ενός πληθυσμού υποστηρίζεται από τα δεδομένα. Θα ανακαλύψουμε ότι ο έλεγχος υποθέσεων έχει μεγάλη ποικιλία εφαρμογών στην οικονομία, τη διοίκηση επιχειρήσεων και άλλους τομείς. Το παρόν κεφάλαιο θα αποτελέσει το θεμέλιο πάνω στο οποίο θα βασιστεί όλο το υπόλοιπο βιβλίο, και από την άποψη αυτή αποτελεί μια κρίσιμη συνιστώσα για τη δική σας ανάπτυξη ως στατιστικού. Αρχικά θα παρουσιάσουμε τη θεωρητική έννοια του ελέγχου υποθέσεων και στη συνέχεια θα αναπτύξουμε μια μέθοδο για τον έλεγχο μιας υπόθεσης σχετικά με τον μέσο ενός πληθυσμού όταν η τυπική απόκλιση είναι γνωστή. 11.1 Η έννοια του ελέγχου υποθέσεων Ο όρος έλεγχος υποθέσεων (hypothesis testing) είναι σχετικά νέος, αλλά η έννοια του ελέγχου υποθέσεων είναι αρκετά γνωστή και χρησιμοποιείται συχνά εκτός του πεδίου της στατιστικής. Το πιο συνηθισμένο παράδειγμα είναι από τον χώρο της δικαιοσύνης. Όταν κάποιος αντιμετωπίζει μια σοβαρή κατηγορία οδηγείται στο δικαστήριο, όπου ο δημόσιος κατήγορος και ο συνήγορος υπεράσπισης παρουσιάζουν αποδείξεις και αναπτύσσουν επιχειρήματα, και τελικά οι έ- νορκοι αποφασίζουν αν ο κατηγορούμενος είναι ένοχος ή αθώος. Αυτό που κάνουν οι ένορκοι είναι ένας έλεγχος υποθέσεων. Σε μια δίκη υπάρχουν δυο υποθέσεις: η μηδενική υπόθεση (null hypothesis) που συμβολίζεται H 0 και η εναλλακτική υπόθεση (alternative hypothesis) ή υπόθεση έρευνας (research hypothesis), που συμβολίζεται H 1. H 0 : ο κατηγορούμενος είναι αθώος H 1 : ο κατηγορούμενος είναι ένοχος Οι ένορκοι δεν γνωρίζουν άμεσα ποια από τις δυο υποθέσεις είναι σωστή, και πρέπει να αποφασίσουν με βάση αυτά που θα παρουσιαστούν στο δικαστήριο. Οι επιλογές είναι μόνο δυο: αθώος ή ένοχος. Σε στατιστική ορολογία η καταδικαστική απόφαση ισοδυναμεί με απόρριψη της μηδενικής υπόθεσης υπέρ της εναλλακτικής. Στην περίπτωση αυτή οι έ- νορκοι έχουν πεισθεί ότι υπάρχουν αρκετά στοιχεία που στηρίζουν την ενοχή του κατηγορουμένου. Όμοια, η αθωωτική απόφαση ισοδυναμεί με μη απόρριψη της μηδενικής υπόθεσης υπέρ της εναλλακτικής, που σημαίνει ότι οι ένορκοι δεν έχουν πεισθεί ότι υπάρχουν αρκετά στοιχεία που να
466 Κεφάλαιο 11 Περιοχή απόρριψης Περιοχή απόρριψης (rejection region) ονομάζεται το διάστημα τιμών για το οποίο θεωρούμε ότι, αν ο στατιστικός δείκτης του δείγματος βρεθεί εκεί, τότε η μηδενική υπόθεση πρέπει να απορριφθεί. Ας υποθέσουμε ότι ονομάζουμε x L την οριακή τιμή, πάνω από την οποία αν βρεθεί ο μέσος του δείγματος απορρίπτουμε τη μηδενική απόθεση. Τότε η περιοχή απόρριψης είναι το σύνολο τιμών: x > xl Στην εικόνα 11.1 φαίνεται η περιοχή απόρριψης και η πιθανότητα α του σφάλματος τύπου I στην κατανομή του δειγματικού μέσου. Εικόνα 11.1 Κατανομή δειγματοληψίας και περιοχή απόρριψης Η πιθανότητα του σφάλματος τύπου I είναι: α = P( x > xl δεδομένου μ=170 ) Από την ενότητα 9.1 γνωρίζουμε ότι η κατανομή του δειγματικού μέσου είναι κατά προσέγγιση κανονική, με μέσο μ και τυπική απόκλιση σ / n. Κατά συνέπεια μπορούμε να ανάγουμε την περιοχή απόρριψης στην τυποποιημένη κανονική κατανομή και να βρούμε: x μ xl μ xl μ P > = P Z > = α σ / n σ / n σ / n Στην ενότητα 8.2 είδαμε ότι z α είναι η τιμή της τυποποιημένης κανονικής τυχαίας μεταβλητής για την οποία ισχύει: ( ) P Z > z = α α Από τις δυο αυτές ισότητες διαπιστώνουμε ότι είναι: xl μ = z σ / n α Επειδή η πιθανότητα α είναι δεσμευμένη πιθανότητα και προϋποθέτει την αλήθεια της μηδενικής υπόθεσης, μπορούμε να αντικαταστήσουμε μ=170, ενώ γνωρίζουμε επίσης ότι σ=65 και n=400.
Τυποποιημένος έλεγχος Έλεγχος υποθέσεων 467 Για να υπολογίσουμε την περιοχή απόρριψης χρειαζόμαστε επίσης μια τιμή για την πιθανότητα α, που είναι η στάθμη σημαντικότητας. Αν υποθέσουμε ότι ο διευθυντής που εξετάζει την προοπτική να εφαρμόσει το νέο σύστημα τιμολόγησης επιθυμεί μια στάθμη σημαντικότητας 5%, ο- πότε: z α =z 0,05 =1,645. Με τα δεδομένα αυτά μπορούμε να υπολογίσουμε την περιοχή απόρριψης: ή xl 170 = 1, 645 65 / 400 = xl 175,35 δηλαδή η περιοχή απόρριψης είναι το διάστημα τιμών: x > 175,35 Εφόσον στο παράδειγμα 11.1 ο μέσος του δείγματος είναι 178, η τιμή αυτή βρίσκεται στο διάστημα απόρριψης (είναι μεγαλύτερη από 175,35) και έτσι πρέπει να απορρίψουμε τη μηδενική υπόθεση. Ο διευθυντής μπορεί να συμπεράνει ότι τα στατιστικά στοιχεία στηρίζουν την υπόθεση πως ο μέσος μηνιαίος λογαριασμός των πελατών είναι πάνω από 170 δολάρια και να αποφασίσει την εφαρμογή του νέου συστήματος τιμολόγησης. Με τους παραπάνω υπολογισμούς ουσιαστικά βρήκαμε ότι για ένα πληθυσμό με μέσο 170 και τυπική απόκλιση 65 είναι αρκετά απίθανο ένα δείγμα μεγέθους 400 να έχει μέσο πάνω από 175,35. Αυτό σημαίνει ότι η μηδενική υπόθεση δεν είναι αληθής, άρα πρέπει να απορρίψουμε τη μηδενική υπόθεση υπέρ της εναλλακτικής. Στο παράδειγμα 11.1 χρησιμοποιήσαμε ως έλεγχο (test statistic) τον μέσο του δείγματος. Κατά συνέπεια η περιοχή απόρριψης έπρεπε να οριστεί με τη μορφή μιας οριακής τιμής για τον μέσο του δείγματος. Μια ευκολότερη μέθοδος ανάγει τον έλεγχο στην τυποποιημένη κανονική κατανομή, δηλαδή υπολογίζει έναν τυποποιημένο έλεγχο (standardized test statistic): x μ z = σ / n Στην περίπτωση αυτή η περιοχή απόρριψης ορίζεται απευθείας ως εξής: z > z α Αν επαναλάβουμε το παράδειγμα 11.1 χρησιμοποιώντας τον τυποποιημένο έλεγχο θα έχουμε:
468 Κεφάλαιο 11 και x μ 178 170 z = = = 2,46 σ / n 65 / 400 z = z = 1,645 α 0,05 Επειδή η τιμή z=2,46 είναι μεγαλύτερη από την z α =1,645 πρέπει να α- πορρίψουμε τη μηδενική υπόθεση και να συμπεράνουμε ότι υπάρχουν αρκετά στατιστικά στοιχεία που στηρίζουν την εναλλακτική υπόθεση, ότι ο μέσος του πληθυσμού είναι μεγαλύτερος από 170. Είτε με τη μια είτε με την άλλη μέθοδο το αποτέλεσμα του ελέγχου είναι το ίδιο. Στις εικόνες 11.2 και 11.3 μπορείτε να δείτε την περιοχή απόρριψης για την κατανομή δειγματοληψίας και για την κανονική κατανομή αντίστοιχα. Εικόνα 11.2 Εικόνα 11.3 Περιοχή απόρριψης στην κατανομή δειγματοληψίας και στην τυποποιημένη κανονική κατανομή Στη συνέχεια του βιβλίου θα χρησιμοποιούμε πάντοτε τον τυποποιημένο έλεγχο, καθώς οι υπολογισμοί είναι απλούστεροι και είναι διαθέσιμοι σε κάθε λογισμικό στατιστικής, αλλά θα τον αναφέρουμε απλά ως έλεγχο (παραλείποντας τον όρο «τυποποιημένος»). Όταν η μηδενική υπόθεση απορρίπτεται, ο έλεγχος λέγεται ότι είναι στατιστικά σημαντικός (statistically significant). Έτσι, συνοψίζοντας το παράδειγμα 11.1 θα λέγαμε ότι: ο έλεγχος [της υπόθεσης ότι ο μέσος μηνιαίος λογαριασμός των πελατών είναι μεγαλύτερος από 170 δολάρια] ή- ταν στατιστικά σημαντικός με στάθμη σημαντικότητας 5%.
ΤΡ Ο 14 ΙΚ ΕΝ Ανάλυση διασποράς 14.1 Ανάλυση διασποράς (ανεξάρτητα δείγματα) 14.2 Πολλαπλές συγκρίσεις 14.3 Πειραματικός σχεδιασμός της ανάλυσης 2 ΕΠ 14.4 Δισδιάστατη ανάλυση διασποράς (σύγκριση κατά ομάδες) 14.5 Ανάλυση διασποράς δυο παραγόντων 14.6 Εύρεση και μείωση της μεταβλητότητας Εκ δό σ εις 14.Α Ανασκόπηση των κεφαλαίων 12 14 Αιτίες της μεταβλητότητας XM14-00. Μια σημαντική συνιστώσα στους κινητήρες των αεροσκαφών είναι μια ατσάλινη ράβδος που πρέπει να έχει μήκος ακριβώς 41,387 εκατοστά. Σε ένα εργοστάσιο που κατασκευάζει κινητήρες ο διευθυντής παρατήρησε ότι ένα μεγάλο ποσοστό των παραγόμενων ράβδων απορρίπτεται στον ποιοτικό έλεγχο, επειδή το μήκος τους είναι είτε πολύ μικρό είτε πολύ μεγάλο. Ο διευθυντής πιστεύει ότι ένα μέρος αυτής της μεταβλητότητας οφείλεται σε διαφορές των μηχανών παραγωγής και ένα μέρος σε διαφορές μεταξύ των χειριστών, και για να βρει την αλήθεια οργάνωσε ένα πείραμα: καθένας από τους τρεις χειριστές κατασκεύασε πέντε ράβδους σε καθεμιά από τις τέσσερις μηχανές, και τα μήκη όλων των ράβδων καταγράφηκαν. Να ελέγξετε αν οι μηχανές ή/και οι χειριστές αποτελούν πηγές της μεταβλητότητας. Αφού γνωρίσουμε τα απαραίτητα εργαλεία, θα επιστρέψουμε στο πρόβλημα αυτό και θα δούμε την απάντηση. 675
Ανάλυση διασποράς 683 Το δεύτερο άθροισμα, αμέσως μετά το ίσον, είναι η τιμή SST, ενώ το τρίτο διπλό άθροισμα είναι η τιμή SSE. Έτσι έχουμε: SS(total) = SST + SSE Ο έλεγχος βασίζεται όπως είπαμε στον έλεγχο του λόγου δυο διασπορών. Θυμηθείτε ότι στην ενότητα 13.3, συζητώντας τη μέθοδο της επιλογής δειγμάτων κατά ζεύγη, αναφέραμε ότι η στατιστική συχνά αναζητά τρόπους για να εξηγήσει ή να περιορίσει τη διασπορά μιας τυχαίας μεταβλητής. Στην ανάλυση διασποράς που είδαμε παραπάνω, η τιμή SST αντιπροσωπεύει τη μεταβλητότητα που οφείλεται σε διαφορές μεταξύ των πληθυσμών, ενώ η τιμή SSE αντιπροσωπεύει τη μεταβλητότητα που ο- φείλεται σε άλλους παράγοντες. Έτσι, αν η τιμή SST αποτελεί σημαντικό μέρος της συνολικής μεταβλητότητας μπορούμε να συμπεράνουμε ότι υπάρχουν διαφορές μεταξύ των πληθυσμών. Αργότερα (στις ενότητες 14.4 και 14.5) θα εισάγουμε πειραματικές μεθόδους που προσπαθούν να απομονώσουν ή να περιορίσουν περισσότερες πηγές μεταβλητότητας. Αν στα προηγούμενα κεφάλαια είχατε σχηματίσει μια θετική εικόνα ως προς τη χρησιμότητα του υπολογιστή και του λογισμικού για την εκτέλεση στατιστικών υπολογισμών, στο παρόν κεφάλαιο θα διαπιστώσετε ότι καθώς οι στατιστικές μέθοδοι γίνονται πιο πολύπλοκες, ο υπολογιστής δεν είναι απλά ένα χρήσιμο εργαλείο αλλά το μοναδικό μέσον που επιτρέπει να ξεπεράσουμε τον απαγορευτικό όγκο των αριθμητικών πράξεων και να αξιοποιήσουμε τις μεθόδους. Excel 1. Πληκτρολογήστε ή εισάγετε τα δεδομένα σε δυο στήλες (εναλλακτικά ανοίξτε το αρχείο XM14-01). 2. Εργαλεία Data Analysis Plus Anova: Single Factor. 3. Στο πεδίο Input Range επιλέξτε τα κελιά όπου έχετε εισάγει τις τρεις στήλες των δεδομένων και στο πεδίο α πληκτρολογήστε τη στάθμη σημαντικότητας 0,05.
684 Κεφάλαιο 14 Minitab Αν τα δεδομένα είναι μη στοιβαγμένα: 1. Πληκτρολογήστε ή εισάγετε τα δεδομένα του δείγματος σε τρεις στήλες (εναλλακτικά ανοίξτε το αρχείο XM14-01). 2. Επιλέξτε Stat ANOVA Oneway (Unstacked) 3. Στο πεδίο Responses (in separate columns) επιλέξτε τις μεταβλητές Convenience, Quality και Price. Αν τα δεδομένα είναι στοιβαγμένα: 1. Πληκτρολογήστε ή εισάγετε τα δεδομένα σε δυο στήλες. 2. Επιλέξτε Stat ANOVA Oneway (Unstacked) 3. Επιλέξτε τη στήλη που περιέχει τις τιμές των δεδομένων (response variable) και τη στήλη που περιέχει τους κωδικούς των πληθυσμών (factor variable). Ερμηνεία Η τιμή του ελέγχου είναι F=2,79. Η τιμή p=0,0405 είναι μικρή και ο έλεγχος βρίσκεται στην περιοχή απόρριψης. Έτσι, τα δεδομένα μπορούν να στηρίξουν την υπόθεση ότι το ποσοστό των αποταμιεύσεων που επενδύεται στο χρηματιστήριο είναι διαφορετικό σε δυο τουλάχιστον ηλικιακές ομάδες. Σημειώστε ότι τα δεδομένα είναι παρατηρούμενα. Η φύση του προβλήματος δεν επιτρέπει την πραγματοποίηση ενός σχεδιασμένου πειράματος. Όταν τα δεδομένα για μια ανάλυση διασποράς ενός παράγοντα συλλέγονται μέσα από ένα ελεγχόμενο πείραμα, ονομάζεται πλήρως τυχαιοποιημένο πειραματικό σχέδιο της ανάλυσης διασποράς (completely randomized design of the analysis of variance).