Κεφάλαιο Δύο Γραφήματα και Πίνακες Περιγραφικές Τεχνικές Copyright 2009 Cengage Learning 2.1
Εισαγωγή & Ανασκόπηση Η περιγραφική στατιστική ασχολείται με την αναδιάταξη, τη σύνοψη, και την παρουσίαση ενός συνόλου δεδομένων με τρόπο ώστε να παράγονται χρήσιμες πληροφορίες. Στατιστική Δεδομένα Πληροφορίες Στις μεθόδους της περιλαμβάνονται τα γραφήματα και οι αριθμητικοί δείκτες (όπως οι μέσοι όροι) που επιτρέπουν τη σύνοψη και την παρουσίαση των δεδομένων. Copyright 2009 Cengage Learning 2.2
Πληθυσμοί & Δείγματα.. Πληθυσμός Δείγμα Υποσύνολο Οι μέθοδοι γραφικών και πινάκων που παρουσιάζονται εδώ βρίσκουν εφαρμογή τόσο σε συνολικούς πληθυσμούς όσο και σε δείγματα εξαγόμενα από πληθυσμούς. Copyright 2009 Cengage Learning 2.3
Ορισμοί Μεταβλητή είναι κάποιο χαρακτηριστικό ενός πληθυσμού ή ενός δείγματος. Π.χ. βαθμοί φοιτητών Συνήθως συμβολίζονται με κεφαλαία γράμματα: X, Y, Z Τιμές της μεταβλητής είναι το εύρος των πιθανών τιμών μιας μεταβλητής. Π.χ. βαθμοί φοιτητών (0 100) Δεδομένα είναι οι τιμές μιας μεταβλητής που παρατηρήθηκαν. Π.χ. βαθμοί φοιτητών: {67, 74, 71, 83, 93, 55, 48} Copyright 2009 Cengage Learning 2.4
Τύποι Δεδομένων & Πληροφοριών Τα δεδομένα (τουλάχιστον στην περίπτωση της Στατιστικής) εμπίπτουν σε τρεις κατηγορίες: Συνεχή Δεδομένα Ονομαστικά Δεδομένα Διατακτικά δεδομένα Copyright 2009 Cengage Learning 2.5
Συνεχή Δεδομένα Συνεχή δεδομένα Πραγματικοί αριθμοί, π.χ. ύψος, βάρος, τιμές, κ.λπ. Ονομάζονται επίσης και ποσοτικά ή αριθμητικά. Στα Συνεχή Δεδομένα μπορούν να εκτελούνται αριθμητικές λειτουργίες, έτσι ώστε έχει νόημα να μιλάμε για 2*Ύψος, ή Τιμή + $1, και ούτω καθ εξής. Copyright 2009 Cengage Learning 2.6
Ονομαστικά Δεδομένα Ονομαστικά Δεδομένα Οι τιμές των ονομαστικών δεδομένων είναι κατηγορίες. Π.χ. απαντήσεις σε ερωτήσεις σχετικά με την οικογενειακή κατάσταση, κωδικοποιούνται ως εξής: Άγαμος = 1, Έγγαμος = 2, Διαζευγμένος = 3, Χήρος = 4 Τα δεδομένα αυτά είναι κατηγορικά από τη φύση τους. Οι αριθμητικές λειτουργίες δεν έχουν κανένα νόημα (π.χ. ο χήρος 2 = Έγγαμος;!) Τα ονομαστικά δεδομένα αποκαλούνται επίσης ποιοτικά ή κατηγορικά. Copyright 2009 Cengage Learning 2.7
Διατακτικά Δεδομένα Τα Διατακτικά Δεδομένα εμφανίζονται να είναι κατηγορικά από τη φύση τους, αλλά οι τιμές τους έχουν μια διάταξη, μια ταξινόμηση: Π.χ. Το σύστημα αξιολόγησης των μαθημάτων: ανεπαρκώς= 1, μετρίως = 2, καλώς = 3, λίαν καλώς = 4, άριστα = 5 Ενώ συνεχίζει να μην έχει νόημα να κάνουμε αριθμητικές πράξεις με αυτά τα δεδομένα (π.χ. κάνει 2*μετρίως = λίαν καλώς;!), μπορούμε να πούμε πράγματα, όπως: άριστα > ανεπαρκώς ή μετρίως < λίαν καλώς Δηλαδή, η διάταξη διατηρείται ανεξαρτήτως του ποιες αριθμητικές τιμές αντιστοιχούν σε κάθε κατηγορία. Copyright 2009 Cengage Learning 2.8
Υπολογισμοί Όπως προαναφέρθηκε, Στα συνεχή [ποσοτικά] δεδομένα επιτρέπονται όλοι οι υπολογισμοί. Στα διατακτικά δεδομένα επιτρέπονται υπολογισμοί που εμπεριέχουν μια διαδικασία ταξινόμησης [αξιολόγησης]. Στα ονομαστικά δεδομένα δεν επιτρέπονται υπολογισμοί, αποφεύγοντας την καταμέτρηση του αριθμού των παρατηρήσεων σε κάθε κατηγορία. Αυτό προσφέρεται για την παρακάτω «ιεράρχηση των δεδομένων». Copyright 2009 Cengage Learning 2.9
Ιεράρχηση των Δεδομένων Συνεχή [Ποσοτικά] Οι τιμές είναι πραγματικοί αριθμοί. Όλοι οι αριθμητικοί υπολογισμοί επιτρέπονται Τα δεδομένα μπορούν να χρησιμοποιηθούν και ως διατακτικά ή ονομαστικά Διατακτικά Οι τιμές πρέπει να αντιπροσωπεύουν τη διάταξη και όχι το μέγεθος των δεδομένων. Επιτρέπονται μόνο υπολογισμοί σε σχέση με τη διαδικασία διάταξης Μπορούν να χρησιμοποιηθούν και ως ονομαστικά αλλά όχι συνεχή [ποσοτικά] Ονομαστικά Οι τιμές αντιπροσωπεύουν μη συγκρίσιμες κατηγορίες. Επιτρέπονται μόνο υπολογισμοί των συχνοτήτων εμφάνισης. Δεν μπορούν να χρησιμοποιηθούν ως διατακτικά ή συνεχή [ποσοτικά]. Copyright 2009 Cengage Learning 2.10
Γραφήματα και Πίνακες για Ονομαστικά Δεδομένα Ο μόνος επιτρεπόμενος υπολογισμός πάνω σε ονομαστικά δεδομένα είναι η μέτρηση της συχνότητας κάθε τιμής της μεταβλητής. Μπορούμε να συνοψίσουμε τα δεδομένα σε ένα πίνακα που περιέχει τις τιμές και τις αριθμητικές συχνότητες, και ονομάζεται κατανομή συχνοτήτων. Μια σχετική κατανομή συχνοτήτων περιλαμβάνει τις κατηγορίες και την αναλογία [ποσοστό] με την οποία εμφανίζεται κάθε μία από αυτές. Copyright 2009 Cengage Learning 2.11
Παράδειγμα 2.1 Έρευνα Προτίμησης Ελαφριάς Μπύρας Το 2006 η συνολική κατανάλωση ελαφριάς μπύρας στις ΗΠΑ ήταν περίπου 3 εκατομμύρια γαλόνια. Σε μια τόσο μεγάλη αγορά, οι ζυθοποιίες συχνά χρειάζεται να γνωρίζουν περισσότερα γύρω από το ποιος αγοράζει το προϊόν τους. Ο διευθυντής μάρκετινγκ μιας μεγάλης ζυθοποιίας θέλησε να αναλύσει τις πωλήσεις ελαφριάς μπύρας μεταξύ φοιτητών κολλεγίων και πανεπιστημίων. Ένα τυχαίο δείγμα 285 τελειόφοιτων φοιτητών ρωτήθηκε να απαντήσει ποια από τις παρακάτω μάρκες είναι η αγαπημένη τους ελαφριά μπύρα. Copyright 2009 Cengage Learning 2.12
Παράδειγμα 2.1 1. Budweiser Light 2. Busch Light 3. Coors Light 4. Michelob Light 5. Miller Lite 6. Natural Light 7. Άλλη μάρκα Οι απαντήσεις καταγράφηκαν με τη χρήση κωδικών. Κάντε την κατανομή συχνοτήτων και σχετικών συχνοτήτων για τα δεδομένα αυτά και συνοψίστε τα δεδομένα γραφικά δημιουργώντας ένα ραβδόγραμμα και ένα κυκλικό διάγραμμα. Copyright 2009 Cengage Learning 2.13
Παράδειγμα 2.1 1 1 1 1 2 4 3 5 1 3 1 3 7 5 1 1 5 2 1 5 1 3 3 3 1 1 5 3 1 5 5 1 1 3 3 5 5 6 3 5 3 5 5 5 1 1 2 1 1 5 5 3 2 1 6 1 1 4 5 1 3 3 5 4 7 6 6 4 4 6 5 2 1 1 5 3 3 1 3 5 3 3 7 3 7 2 1 5 7 3 6 2 6 3 6 6 6 5 6 1 1 6 3 7 1 1 1 5 1 3 1 3 7 7 2 1 1 2 5 3 1 1 3 1 1 7 5 3 2 1 1 6 5 7 1 3 2 1 3 1 1 7 5 5 6 1 4 6 1 3 1 1 5 5 5 5 1 5 5 6 1 3 3 1 3 7 1 1 1 2 4 1 1 3 3 7 5 5 1 1 3 5 1 5 4 5 3 4 1 4 5 3 1 5 3 3 3 1 1 5 3 5 6 4 3 5 6 4 6 5 5 5 5 3 1 2 3 2 7 5 1 6 6 2 3 3 3 1 1 5 1 4 6 3 5 1 1 2 1 5 6 1 1 5 1 3 5 1 1 1 3 7 3 1 6 3 1 2 2 5 1 3 5 5 2 3 1 1 3 6 1 1 1 1 7 3 1 5 3 3 3 5 3 1 7 Copyright 2009 Cengage Learning 2.14
Κατανομή Συχνοτήτων και Σχετικών Συχνοτήτων Light Beer Brand Frequency Relative Frequency Budweiser Light 90 31.6% Busch Light 19 6.7 Coors Light 62 21.8 Michelob Light 13 4.6 Miller Lite 59 20.7 Natural Light 25 8.8 Other brands 17 6.0 Total 285 100 Copyright 2009 Cengage Learning 2.15
Ονομαστικά Δεδομένα (Συχνότητα) 100 90 80 70 60 50 40 30 20 10 0 90 62 59 25 19 13 17 1 2 3 4 5 6 7 Τα ραβδογράμματα συχνά χρησιμοποιούνται στην οπτικοποίηση συχνοτήτων.. Copyright 2009 Cengage Learning 2.16
Ονομαστικά Δεδομένα (Σχετική Συχνότητα) 6 9% 7 6% 1 31% 5 21% 4 4% 3 22% Τα κυκλικά διαγράμματα δείχνουν σχετικές συχνότητες 2 7% Copyright 2009 Cengage Learning 2.17
Ονομαστικά Δεδομένα Light Beer Brand Frequency Relative Frequency Budweiser Light 90 31.6% Busch Light 19 6.7 Coors Light 62 21.8 Michelob Light 13 4.6 Miller Lite 59 20.7 Είναι οι ίδιες πληροφορίες, (βασισμένες στα ίδια δεδομένα). Απλώς διαφορετική παρουσίαση. Natural Light 25 8.8 Other brands 17 6.0 100 90 90 6 9% 7 6% 1 31% 80 70 60 50 40 62 59 5 21% 30 20 10 19 13 25 17 4 4% 3 22% 2 7% 0 1 2 3 4 5 6 7 Copyright 2009 Cengage Learning 2.18
Παράδειγμα 2.2 Ο Πίνακας 2.3 απαριθμεί τη συνολική κατανάλωση ενέργειας στις ΗΠΑ από όλες τις πηγές το 2005. Για τη διευκόλυνση της σύγκρισης όλες οι τιμές έχουν υπολογιστεί σε θερμικά ισοδύναμα μετρικών τόνων (1,000 kg) πετρελαίου. Για παράδειγμα, οι ΗΠΑ κατανάλωσαν άνθρακα και προϊόντα άνθρακα ισοδύναμα με 545,259 μετρικούς τόνους πετρελαίου. Χρησιμοποιείστε μια κατάλληλη τεχνική γραφικών για να απεικονίσετε αυτές τις τιμές. Copyright 2009 Cengage Learning 2.19
Πίνακας 2.3 Μη Ανανεώσιμες Πηγές Ενέργειας Κατανάλωση Άνθρακας & προϊόντα άνθρακα 545,258 Πετρέλαιο 903,440 Φυσικό αέριο 517,881 Πυρηνική ενέργεια 209.,890 Ανανεώσιμες πηγές ενέργειας Υδροηλεκτρική ενέργεια 18,251 Στερεά βιομάζα 52,473 Άλλες πηγές (υγρή βιομάζα, γεω- 20,533 θερμική, ηλιακή, αιολική, θαλάσσια ενέργεια) Σύνολο 2,267,726 Copyright 2009 Cengage Learning 2.20
Παράδειγμα 2.2 Hydroelectric 1% Biomass 2% Other 1% Nuclear 9% Coal 24% Natural gas 23% Oil 40% Copyright 2009 Cengage Learning 2.21
Γραφήματα για Συνεχή [Ποσοτικά] Δεδομένα Υπάρχουν αρκετές μέθοδοι απεικόνισης που χρησιμοποιούνται όταν τα δεδομένα είναι συνεχή [ποσοτικά] (π.χ. αριθμητικά, μη-κατηγορικά). Το πιο σημαντικό από τα γραφήματα αυτά είναι το ιστόγραμμα. Το ιστόγραμμα δεν αποτελεί μόνο ισχυρή τεχνική για την οπτικοποίηση συνεχών δεδομένων αλλά κι ένα πολύ χρήσιμο μέσο για την κατανόηση των πιθανοτήτων. Copyright 2009 Cengage Learning 2.22
Παράδειγμα 2.3 Μετά την απελευθέρωση των τηλεπικοινωνιών, εμφανίστηκαν πολλές νέες εταιρίες τηλεφωνίας που ανταγωνίζονται στο πεδίο της παροχής υπηρεσιών υπεραστικών τηλεφωνημάτων. Πεδίο ανταγωνισμού είναι σχεδόν πάντα οι φθηνότερες τιμές επειδή οι παρεχόμενες υπηρεσίες δεν έχουν διαφοροποίηση. Η τιμολόγηση μιας υπηρεσίας ή ενός προϊόντος απέναντι σε τόσο σκληρό ανταγωνισμό είναι πολύ δύσκολη. Εξαρτάται από παράγοντες όπως προσφορά, ζήτηση, ελαστικότητα τιμών και ενέργειες των ανταγωνιστών. Τα πακέτα υπεραστικών τηλεφωνημάτων μπορεί να περιλαμβάνουν χρεώσεις ανά λεπτό, ένα σταθερό μηνιαίο πάγιο, ή κάποιο συνδυασμό των δύο. Η επιλογή της κατάλληλης στρατηγικής διευκολύνεται από τη γνώση της συμπεριφοράς των καταναλωτών, και ιδιαίτερα από το ύψος των μηνιαίων λογαριασμών. Copyright 2009 Cengage Learning 2.23
Παράδειγμα 2.3 Στα πλαίσια μιας ευρύτερης έρευνας, μια εταιρεία τηλεφωνίας θέλησε να μάθει το ύψος των μηνιαίων λογαριασμών νέων συνδρομητών κατά τον πρώτο μήνα μετά την εγγραφή τους. Ο διευθυντής μάρκετινγκ της εταιρείας κατέγραψε τα ποσά του πρώτου μηνιαίου λογαριασμού ενός δείγματος 200 νέων συνδρομητών. Ο γενικός διευθυντής σχεδίασε να παρουσιάσει τα ευρήματά του σε ανώτατα στελέχη της εταιρίας. Ποιες πληροφορίες μπορούν να εξαχθούν από τα δεδομένα αυτά; Copyright 2009 Cengage Learning 2.24
Παράδειγμα 2.3 Στο Παράδειγμα 2.1 δημιουργήσαμε μια κατανομή συχνοτήτων των 5 κατηγοριών. Στο παρόν παράδειγμα θα δημιουργήσουμε επίσης μια κατανομή συχνοτήτων υπολογίζοντας τον αριθμό παρατηρήσεων που εμπίπτουν σε μια σειρά από διαδοχικές ζώνες, που ονομάζονται κλάσεις. Θα εξηγήσω αργότερα γιατί επέλεξα τις κλάσεις που χρησιμοποιώ παρακάτω. Copyright 2009 Cengage Learning 2.25
Παράδειγμα 2.3 Έχουμε επιλέξει οκτώ κλάσεις, οριζόμενες με τέτοιο τρόπο ώστε κάθε παρατήρηση να εμπίπτει σε μία και μόνο σε μία κλάση. Οι κλάσεις αυτές ορίζονται ως εξής: Κλάσεις Ποσά που είναι μικρότερα ή ίσα με 15 Ποσά που είναι μεγαλύτερα του 15 αλλά μικρότερα ή ίσα με 30 Ποσά που είναι μεγαλύτερα του 30 αλλά μικρότερα ή ίσα με 45 Ποσά που είναι μεγαλύτερα του 45 αλλά μικρότερα ή ίσα με 60 Ποσά που είναι μεγαλύτερα του 60 αλλά μικρότερα ή ίσα με 75 Ποσά που είναι μεγαλύτερα του 75 αλλά μικρότερα ή ίσα με 90 Ποσά που είναι μεγαλύτερα του 90 αλλά μικρότερα ή ίσα με 105 Ποσά που είναι μεγαλύτερα του 105 αλλά μικρότερα ή ίσα με 120 Copyright 2009 Cengage Learning 2.26
Συχνότητες Παράδειγμα 2.3 Ιστόγραμμα 80 70 60 50 40 30 20 10 0 15 30 45 60 75 90 105 120 Λογαριασμοί Copyright 2009 Cengage Learning 2.27
Ερμηνεία περίπου οι μισοί (71+37=108) από τους λογαριασμούς είναι «μικροί» π.χ. μικρότεροι από $30 (18+28+14=60) 200 = 30% π.χ. περίπου το ένα τρίτο των λογαριασμών είναι $90 ή μεγαλύτεροι. Υπάρχουν μόνο λίγοι λογαριασμοί στο μεσαίο πλάτος Copyright 2009 Cengage Learning 2.28
Δημιουργία Ιστογράμματος 1) Συλλογή δεδομένων 2) Δημιουργία μιας κατανομής συχνοτήτων για τα δεδομένα Πώς; α) Καθορισμός ενός αριθμού κλάσεων προς χρήση. Πώς; Αναφορά στον Πίνακα 2.6: Με 200 παρατηρήσεις, θα πρέπει να έχουμε μεταξύ 7 και 10 κλάσεων Εναλλακτικά, θα μπορούσαμε να χρησιμοποιήσουμε τον τύπο του Sturges: Αριθμός κλάσεων = 1 + 3.3 log (n) Copyright 2009 Cengage Learning 2.29
Δημιουργία Ιστογράμματος 1) Συλλογή δεδομένων 2) Δημιουργία κατανομής συχνοτήτων για τα δεδομένα. Πώς; α) Καθορισμός αριθμού κλάσεων προς χρήση [8] β) Καθορισμός του μεγέθους κάθε κλάσης Πώς; Εξετάζουμε το εύρος των δεδομένων, δηλαδή, Εύρος = Μέγιστη Παρατήρηση Ελάχιστη Παρατήρηση Πλάτος = $119,63 $0 = $119,63 Τότε το πλάτος κάθε κλάσης γίνεται: Πλάτος (# κλάσεων) = 119,63 8 15 Copyright 2009 Cengage Learning 2.30
Δημιουργία Ιστογράμματος Copyright 2009 Cengage Learning 2.31
Δημιουργία Ιστογράμματος Copyright 2009 Cengage Learning 2.32
Συχνότητα Συχνότητα Συχνότητα Σχήματα Ιστογραμμάτων Συμμετρία Ένα ιστόγραμμα ονομάζεται συμμετρικό εάν μπορούμε να σχεδιάσουμε μια κάθετη γραμμή στο μέσον του ιστογράμματος, ώστε οι δύο προκύπτουσες πλευρές να είναι ίσες ως προς το σχήμα και το μέγεθος: Μεταβλητή Μεταβλητή Μεταβλητή Copyright 2009 Cengage Learning 2.33
Συχνότητα Συχνότητα Σχήματα Ιστογραμμάτων Ασυμμετρία Ασύμμετρο ιστόγραμμα είναι ένα ιστόγραμμα με μια μακριά «ουρά» που εκτείνεται είτε στα δεξιά είτε στα αριστερά: Μεταβλητή Θετικά ασύμμετρο Μεταβλητή Αρνητικά ασύμμετρο Copyright 2009 Cengage Learning 2.34
Συχνότητα Συχνότητα Σχήματα Ιστογραμμάτων Αριθμός Κορυφών Ένα μονοκόρυφο ιστόγραμμα είναι ένα ιστόγραμμα με μόνο μια κορυφή, ενώ ένα δικόρυφο ιστόγραμμα με δύο κορυφές: Δικόρυφο Μονοκόρυφο Μεταβλητή Μεταβλητή Επικρατούσα κλάση είναι η κλάση με τον μεγαλύτερο αριθμό παρατηρήσεων (μέγιστη συχνότητα) Copyright 2009 Cengage Learning 2.35
Συχνότητα Σχήματα Ιστογραμμάτων Καμπάνα Ένας ειδικό τύπος ιστογράμματος είναι ένα συμμετρικό μονοκόρυφο ιστόγραμμα που έχει τη μορφή καμπάνας: Πολλές στατιστικές τεχνικές απαιτούν ο πληθυσμός να έχει τη μορφή καμπάνας. Ο σχεδιασμός του ιστογράμματος βοηθάει στην επιβεβαίωση της μορφής του εν λόγω πληθυσμού. Μεταβλητή Καμπάνα Copyright 2009 Cengage Learning 2.36