ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Τεχνολογικό Εκπαιδευτικό Ίδρυμα Πειραιά Στατιστική Επιχειρήσεων Ι Ενότητα 7: Παρουσίαση δεδομένων-περιγραφική στατιστική Μιλτιάδης Χαλικιάς, Επίκουρος Καθηγητής Τμήμα Διοίκησης Επιχειρήσεων
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο τη αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Σκοποί ενότητας Κατανόηση της έννοιας του συντελεστή συσχέτισης και δυνατότητα υπολογισμού του με τύπους και στατιστικά πακέτα. Η κατανόηση της έννοιας της απλής παλινδρόμησης, η εύρεση της ευθείας ελαχίστων τετραγώνων μέσω τύπων και μέσω στατιστικών πακέτων. 4
Περιεχόμενα ενότητας Στοιχεία δειγματοληψίας Στατιστικοί πίνακες Πρωτογενή και ομαδοποιημένα δεδομένα Περιγραφικά στατιστικά σε πρωτογενή δεδομένα Περιγραφικά στατιστικά σε ομαδοποιημένα δεδομένα Εφαρμογές Άλυτες Ασκήσεις 5
ΔΕΙΓΜΑΤΟΛΗΨΙΑ 1 Εισαγωγή Πολλές φορές η επεξεργασία των δεδομένων και η εξαγωγή συμπερασμάτων δεν γίνεται μέσω επαγωγικής στατιστικής και των μεθόδων που αναπτύχθηκαν, αλλά μέσω παρουσίασης αριθμητικών μέτρων και διαγραμμάτων. 2 ΔΕΙΓΜΑΤΟΛΗΨΙΑ Η συλλογή των στατιστικών δεδομένων γίνεται με δύο κυρίως μεθόδους, τη δειγματοληψία και την απογραφή. Τις περισσότερες φορές η απογραφή είναι αδύνατο να πραγματοποιηθεί ή έχει μεγάλο κόστος. Για το λόγο αυτό επιδιώκεται η εύρεση ενός κατάλληλου δείγματος, τα συμπεράσματα από το οποίο να μπορούν να γενικευτούν για το σύνολο του πληθυσμού. Για την αντιπροσωπευτικότητα του δείγματος μεγάλο ρόλο παίζει το μέγεθος καθώς και ο τρόπος επιλογής του. Ο τρόπος επιλογής του δείγματος επηρρεάζεται από τη μορφή των δεδομένων που επιδιώκεται. Έτσι προκύπτουν διαφορετικοί τρόποι δειγματοληψίας.
1 Απλή τυχαία δειγματοληψία: 2 Στρωματοποιημένη δειγματοληψία (stratified sampling): 3 Δειγματοληψία κατά συστάδες (cluster sampling):
Στατιστικοί πίνακες (1) Βασικές έννοιες α) Τίτλο. β) Κύριο σώμα. γ) Πηγή. Κατανομή συχνοτήτων Αθροιστικές συχνότητες
Στατιστικοί πίνακες (2)
Στατιστικοί πίνακες (2)
Ομαδοποίηση δεδομένων α) Κατατάσσουμε τις παρατηρήσεις κατά σειρά. Από τη μικρότερη προς τη μεγαλύτερη. β) Βρίσκουμε το εύρος (τη διαφορά μεταξύ μεγαλύτερης και μικρότερης παρατήρησης R= Χmax- Xmin γ) Διαιρούμε το R με το πλήθος των κλάσεων που επιθυμούμε να έχουμε και βρίσκουμε το πλάτος c κάθε κλάσης. δ) Εντάσσουμε κάθε παρατήρηση στην κλάση που ανήκει (συχνότητες των κλάσεων).
ΓΡΑΦΙΚΕΣ ΠΑΡΑΣΤΑΣΕΙΣ α) ιστόγραμμα (histogram), β) πολύγωνο συχνοτήτων (frequency polygon) γ) ραβδόγραμμα (bar chart), δ) πίτα συχνοτήτων ή κυκλικό διάγραμμα (pie chart) ε) διάγραμμα μίσχου-φύλλου ή φυλλογράφημα ( stem and leaf plot).
Ιστόγραμμα
Πολύγωνο
Πίττα συχνοτήτων
Μέτρα Θέσης Μέση τιμή, αριθμητικός μέσος (Mean) Το άθροισμα του συνόλου των τιμών της ποσοτικής μεταβλητής διαιρημένου δια του πλήθους τους. Διάμεση τιμή (Median) Η τιμή που διαιρεί το δείγμα (σε διατεταγμένες τιμές) σε δύο ακριβώς ίσα τμήματα. Επικρατούσα τιμή (Mode) Τιμή με την μεγαλύτερη συχνότητα εμφάνισης
Statistics Παράδειγμα Περιγραφικά Στατιστικά Μέτρα (Summary Statistics) Body Mass Index (kg/m2) N Valid Mean Std. Error of Mean Median Mode Std. Deviation Variance Range Minimum Maximum Sum Percentiles Missing 10 20 25 30 40 50 60 70 75 80 90 2994 48 26,3347,08250 25,8841 22,04 a 4,51400 20,376 54,97 11,69 66,67 78846,09 20,9572 22,5896 23,2315 23,8472 24,8971 25,8841 26,9896 28,2828 28,9811 29,5525 32,0501 a. Multiple modes exist. The smallest value is shown
Παράδειγμα
Από τον παραπάνω πίνακα έχουμε ότι η ασυμμετρία (skewness)είναι -1,263. Προκειμένου να την αξιολογήσουμε παίρνουμε το πηλίκο: Skewness /std.error of Skewness = -1,263/0,580=-2,17 αν είναι μεγαλύτερο του 2 η μεταβλητή είναι ασύμμετρη θετικά και αν είναι μικρότερη του -2 ασύμμετρη αρνητικά. Ο βαθμός κύρτωσης αξιολογείται (στη συγκεκριμένη περίπτωση 1,66) ως εξής: υπολογίζουμε το διάστημα: (kurtosis 2 * Std.error of Kurtosis, kurtosis + 2 * Std.error of Kurtosis) αν περιλαμβάνει το μηδέν τότε η κύρτωση δεν είναι σημαντική. Σε άλλη περίπτωση η κατανομή της μεταβλητής είναι ή πλατήκυρτη ή λεπτόκυρτη.
Κυρτότητα
Παράδειγμα Να βρεθούν τα κυριότερα μέτρα θέσεως και διασποράς για τα δεδομένα των θερμοκρασιών της μεσογειακής πόλης του παραπάνω παραδείγματος Μετά να βρεθούν τα ίδια μέτρα αφού γίνει ομαδοποίηση των δεδομένων σε έξι κλάσεις
ο
ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ
Άλυτες Ασκήσεις
Τέλος Ενότητας