Σ Τ Α Τ Ι Σ Τ Ι Κ Η Στατιστική έρευνα : Πρόκειται για ένα σύνολο αρχών και μεθοδολογιών με αντικείμενο : 1) το σχεδιασμό της διαδικασίας συλλογής δεδομένων. Κλάδος της στατιστικής που ασχολείται : Σχεδιασμός πειραμάτων. (Experimental design) 2) τη συνοπτική, περιγραφική και αποτελεσματική παρουσίασή τους. Κλάδος : Περιγραφική στατιστική. (Descriptive statistics) 3) την ανάλυση και εξαγωγή αντίστοιχων συμπερασμάτων. Κλάδος : Στατιστική συμπερασματολογία ή επαγωγική στατιστική. (Inferential statistics) π.χ Σχολείο. Σε δείγμα 100 απουσιών από το σύνολο όλων των απουσιών του τετραμήνου, 20 ήταν αδικαιολόγητες. Διευθυντής : "20 από τις 100 ήταν αδικαιολόγητες" : "το 20% των απουσιών είναι αδικαιολόγητες" : Δημοσκοπήσεις : Ερευνες στον ανθρώπινο πληθυσμό. Πληθυσμός Μεταβλητές. 2. 1. Β Α Σ Ι Κ Ε Σ Ε Ν Ν Ο Ι Ε Σ. Στόχος : Μας ενδιαφέρει να εξετάσουμε τα στοιχεία ενός συνόλου ως προς ένα ή περισσότερα χαρακτηριστικά τους. Πληθυσμός : Ενα σύνολο στοιχείων (μονάδες ή άτομα) το οποίο εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά (μεταβλητές). Mεταβλητή : Κάθε χαρακτηριστικό ως προς το οποίο εξετάζουμε τα στοιχεία του πληθυσμού. Συμβολίζονται με : X. Oι δυνατές τιμές που μπορούν να πάρουν λέγονται τιμές της μεταβλητής και συμβολίζονται με x i. Oι μεταβλητές διακρίνονται σε : (i) Ποσοτικές : αν οι τιμές τους είναι αριθμοί. (Quantitative data) Αυτές, διακρίνονται σε : a) Διακριτές : αν οι τιμές τους είναι διακεκριμένες. b) Συνεχείς : αν οι τιμές τους μπορούν να είναι οποιοιδήποτε αριθμοί ενός διαστήματος (α, β). (ii) Ποιοτικές ή κατηγορικές : αν οι τιμές τους δεν είναι αριθμοί. (Qualitative data) 1
Παραδείγματα. 1) Χρώμα ματιών. Πληθυσμός : Μεταβλητή : Tιμές της μεταβλητής : Aρα είναι Αλλες 2) Βαθμός. Πληθυσμός : Μεταβλητή : Tιμές των μεταβλητών : Aρα είναι Αλλες 3) Χρόνος λεωφορείου. Πληθυσμός : Μεταβλητή : Tιμές της μεταβλητής : Aρα είναι Αλλες Συλλογή Στατιστικών δεδομένων. Εφ όσον έχουμε καθορίσει ποιός είναι ο πληθυσμός και ποιές είναι οι μεταβλητές, χρησιμοποιούμε τις μεθόδους της στατιστικής για να συλλέξουμε καταρχήν τις απαραίτητες πληροφορίες από τον πληθυσμό. Τρόποι : 1) Εξετάζουμε όλες τις μονάδες του πληθυσμού : Απογραφή (census) π.χ. Προβλήματα : Δύσκολη. Αδύνατη. Αρα, στην περίπτωση που δεν είναι δυνατή η εξέταση όλων των μονάδων του πληθυσμού, επιλέγουμε ένα υποσύνολό του, το οποίο καλείται δείγμα. 2) Εξαγωγή συμπερασμάτων ελέγχοντας ένα μέρος του πληθυσμού, το δείγμα. Δειγματοληψία : Η διαδικασία επιλογής του δείγματος. (sampling) Για να έχουμε ικανοποιητικά αποτελέσματα πρέπει το δείγμα να είναι αντιπροσωπευτικό. Στην πράξη, ένα δείγμα θα θεωρείται αντιπροσωπευτικό, όταν κάθε μονάδα του πληθυσμού έχει την ίδια δυνατότητα να επιλεγεί. Δηλαδή Το πλήθος των μονάδων του δείγματος καλείται μέγεθος του δείγματος και συμβολίζεται με ν. 2
2.2. Π Α Ρ Ο Υ Σ Ι Α Σ Η Σ Τ Α Τ Ι Σ Τ Ι Κ Ω Ν Δ Ε Δ Ο Μ Ε Ν Ω Ν. Τα στατιστικά δεδομένα που προέκυψαν από απογραφή ή δειγματοληψία παρουσιάζονται συνοπτικά με τη μορφή πινάκων ή γραφικών παραστάσεων, ώστε να είναι εύκολη η κατανόησή τους και η εξαγωγή συμπερασμάτων. Πίνακες. α) Γενικοί πίνακες : Περιέχουν πλήρη και λεπτομερή στοιχεία της στατιστικής έρευνας. Χρησιμοποιούνται ως δεξαμενές δεδομένων απ όπου λαμβάνονται στοιχεία για παραπέρα στατιστική μελέτη. β) Ειδικοί πίνακες : Τα στοιχεία τους λαμβάνονται από τους γενικούς πίνακες. Είναι πιό συνοπτικοί, σαφείς και με λιγότερες λεπτομέρειες. Ολοι οι πίνακες δεν είναι ίδιοι. Κάθε πίνακας προσαρμόζεται στα δεδομένα που προορίζεται να παρουσιάσει. Ομως, όλοι οι πίνακες έχουν κάποια κοινά χαρακτηριστικά : 1. Tίτλος : Στην κορυφή του πίνακα. Εξηγεί με μιά φράση τι περιέχει ο πίνακας. 2. Επικεφαλίδες των γραμμών και στηλών : Περιγράφουν το είδος των στοιχείων που περιέχει κάθε γραμμή ή στήλη. 3. Ο κορμός (ή κύριο σώμα) : Οι γραμμές και οι στήλες που περιέχουν τα στατιστικά στοιχεία. 4. Η πηγή : Στο κάτω μέρος του πίνακα. Δείχνει την προέλευση των στατιστικών στοιχείων. Το μέγεθος του πληθυσμού παριστάνεται με : N. Το μέγεθος του δείγματος παριστάνεται με : ν. Εστω Χ μια μεταβλητή που αφορά τα άτομα του δείγματος. x 1, x 2,.., x κ : οι τιμές της μεταβλητής Χ. O αριθμός που δείχνει πόσες φορές εμφανίζεται η τιμή x i ονομάζεται συχνότητα ή απόλυτη συχνότητα (frequency). Συμβολικά : ν i. στο σύνολο των παρατηρήσεων, O υπολογισμός των συχνοτήτων γίνεται με τη διαλογή των παρατηρήσεων. Παρατήρηση 1 : Tο άθροισμα των συχνοτήτων δίνει πάντα Παρατήρηση 2 : Η συχνότητα μιάς παρατήρησης δεν είναι ιδιαίτερα "ουσιαστική" πληροφορία. π.χ. 3
Γι αυτό χρησιμοποιούμε τη σχετική συχνότητα f i της τιμής x i. (relative frequency) όπου Παρατήρηση : Συνήθως τις σχετικές συχνότητες f i, τις εκφράζουμε επί τοις εκατό και συμβολίζονται : f i % δηλαδή Παρατήρηση : Ονομασίες : Πίνακας (κατανομής) συχνοτήτων : ο πίνακας που περιέχει τις ποσότητες x i, ν i, f i. Για μια μεταβλητή τα ζεύγη : (x i, ν i ) αποτελούν την κατανομή συχνοτήτων. (x i, f i %) αποτελούν την κατανομή των σχετικών συχνοτήτων. Σε περίπτωση ποσοτικών μεταβλητών. 1) Αθροιστική συχνότητα Ν i της τιμής x i : ο αριθμός που δείχνει πόσες φορές εμφανίστηκαν στο δείγμα τιμές μικρότερες ή ίσες από την τιμή x i. Αρα, αν οι τιμές x 1, x 2,, x κ μιάς μεταβλητής είναι σε αύξουσα διάταξη, δηλαδή τότε : π.χ. Παρατήρηση 1 : Παρατήρηση 2 : 4
2) Αθροιστική σχετική συχνότητα F i της τιμής x i : Αρα, εκφράζει το ποσοστό των παρατηρήσεων που είναι μικρότερες ή ίσες της τιμής x i. Συνήθως εκφράζεται επί τοις εκατό, δηλαδή : π.χ. Παρατήρηση 1 : Παρατήρηση 2 : N i, F i : ΜΟΝΟ σε περίπτωση ποσοτικών μεταβλητών. ή σε περίπτωση ποιοτικής μεταβλητής όπου όμως οι τιμές της είναι με προφανή τρόπο διατεταγμένες σε σειρά. π.χ. Επίπεδο εκπαίδευσης : Bασική, Μέση, Ανώτερη, Ανώτατη. Γ Ρ ΑΦΙ Κ Η Π ΑΡ ΑΣ Τ ΑΣ Η Κ ΑΤ ΑΝ Ο Μ Η Σ Σ ΥΧ Ν Ο Τ Η Τ Ω Ν. Εκτός από τους στατιστικούς πίνακες, τα στατιστικά δεδομένα μπορούν να παρουσιαστούν και υπό μορφή παραστάσεων ή διαγραμμάτων. + : Παρέχουν πληροφορίες με τρόπο άμεσο, σαφή και εποπτικό. Τα στοιχεία (φυσικά) λαμβάνονται από τους στατιστικούς πίνακες. Τα διαγράμματα πρέπει να έχουν : i) Toν τίτλο. ii) Tην κλίμακα με τις τιμές των μεγεθών που απεικονίζονται. iii) To υπόμνημα που επεξηγεί τις τιμές της μεταβλητής. iv) Την πηγή των δεδομένων. 5
Α. Ραβδόγραμμα. (Barchart) Χρησιμοποιείται για ποιοτικές μεταβλητές. Αποτελείται από επιμήκη ορθογώνια παραλληλόγραμμα (μοιάζουν με ράβδους), τα οποία παριστάνουν τις συχνότητες ν i (ραβδόγραμμα συχνοτήτων) ή τις σχετικές συχνότητες f i (ραβδόγραμμα σχετικών συχνοτήτων) των τιμών της ποιοτικής μεταβλητής. Η απόσταση μεταξύ των στηλών και το μήκος των βάσεών τους είναι αυθαίρετα. Σε ένα ραβδόγραμμα ο ρόλος των δύο αξόνων μπορεί να αντιστραφεί. Το ραβδόγραμμα συχνοτήτων και το ραβδόγραμμα σχετικών συχνοτήτων μιάς μεταβλητής έχουν ΑΚΡΙΒΩΣ την ίδια μορφή. Η μόνη διαφορά τους είναι οι αναγραφόμενες μονάδες στον άξονα που μετράει τα ύψη των ράβδων. Β. Διάγραμμα συχνοτήτων. (Line diagram) Χρησιμοποιείται όταν έχουμε ποσοτική μεταβλητή. Περιέχει κατακόρυφες γραμμές (αντί για τις ράβδους του ραβδογράμματος), οι οποίες έχουν ύψος ίσο με τη συχνότητα ή τη σχετική συχνότητα ανάλογα. Στον οριζόντιο άξονα τοποθετούμε τις τιμές της x i (x 1 <x 2 < <x κ ). Αν ενώσουμε τα σημεία (x i, ν i ) ή (x i, f i ) έχουμε το πολύγωνο συχνοτήτων ή το πολύγωνο σχετικών συχνοτήτων αντίστοιχα. Τα πολύγωνα αυτά, μας δίνουν μια εικόνα για το πως μεταβάλλεται η συχνότητα (ή η σχετική συχνότητα) όσο αυξάνουν οι τιμές της μεταβλητής x i. Γ. Σημειόγραμμα. (Dot diagram) Χρησιμοποιείται όταν έχουμε λίγες παρατηρήσεις. Είναι το ίδιο με το διάγραμμα συχνοτήτων, απλώς αντί για κατακόρυφες γραμμές βάζουμε στήλες από τελείες. Το πλήθος των τελειών κάθε στήλης παριστάνει και την αντίστοιχη συχνότητα. Προφανώς με το σημειόγραμμα δεν είναι δυνατό να παρασταθούν οι σχετικές συχνότητες. Δ. Χρονόγραμμα. Χρησιμοποιείται για την απεικόνιση της διαχρονικής εξέλιξης ενός ή περισσοτέρων μεγεθών. Στον οριζόντιο άξονα τοποθετούμε τις χρονολογίες και στον κατακόρυφο τις τιμές της μεταβλητής που εξετάζουμε. 6
Ε. Κυκλικό διάγραμμα. (Piechart) Χρησιμοποιείται και για ποιοτικές και για ποσοτικές μεταβλητές, όταν οι τιμές της μεταβλητής είναι λίγες. Ο κυκλικός δίσκος χωρίζεται σε κυκλικούς τομείς, τα εμβαδα αλλά και τα τόξα των οποίων είναι ανάλογα προς τις αντίστοιχες συχνότητες ν i ή τις αντίστοιχες σχετικές συχνότητες f i των τιμών x i της μεταβλητής. Αρα, αν α i το αντίστοιχο τόξο της τιμής x i, έχω : Aπό ένα κυκλικό διάγραμμα βλέπουμε μόνο το μέγεθος ενός κομματιού σε σχέση με τα υπόλοιπα και σε σχέση με ολόκληρη την πίτα. Η μετατροπή κυκλικού διαγράμματος σε ραβδόγραμμα γίνεται αν υπολογίσουμε τις σχετικές συχνότητες από τους κυκλικούς τομείς. Οι σχέσεις των κυκλικών τομέων είναι και σχέσεις ανάμεσα στις συχνότητες (αντίστοιχα στις σχετικές συχνότητες) των παρατηρήσεων. Α 7. Συγκρότημα ν i f i % α i N i F i % 1 Metallica 2 Iron Maiden 3 Scorpions 4 Rolling Stones 5 Oasis 6 Aλλο Σύνολο 30 25 20 15 10 fi% Ραβδόγραμμα σχετικών συχνοτήτων. 5 Κυκλικό διάγραμμα σχετικών συχνοτήτων. Metallica Iron Maiden Scorpions Rolling Stones Oasis Aλλο 0 1 2 3 4 Κυκλικό διάγραμμα συχνοτήτων. Metallica 5 6 Iron Maiden Scorpions Rolling Stones Oasis Aλλο Παρατηρήσεις : 7
Π Α Ρ Α Δ Ε Ι Γ Μ Α Τ Α Π Α Ρ Α Π Ο Ι Η Μ Ε Ν Ω Ν Δ Ι Α Γ Ρ Α Μ Μ Α Τ Ω Ν 1. Ποσοστό εργαζόμενων γυναικών στο σύνολο του γυναικείου πληθυσμού της Ελλάδας, άνω των 18 ετών. % 50 Ποσοστό εργαζόμενων γυναικών. % 60 Ποσοστό εργαζόμενων γυναικών. Είναι το ίδιο διάγραμμα αλλά η εικόνα είναι τελείως διαφορετική. Γιατί; 50 40 40 30 20 10 30 έτος 1980 1985 1990 1995 2000 2005 0 1980 1985 1990 1995 2000 2005 έτος 2. Προτίμηση ομάδας. Προτίμηση ομάδας (%) Η απεικόνιση είναι παραπλανητική υπέρ του Ολυμπιακού. Γιατί; fi% 35 30 25 20 15 10 5 0 ΠΑΟΚ ΑΕΚ ΠΑΟ ΟΣΦΠ 3. Γκάλοπ : Ποιό κόμμα θα ψηφίσετε; Πρόθεση ψήφου Πρόθεση ψήφου Πρόθεση ψήφου 43,4 43,4 39,5 43,4 39,5 39,5 9,6 7,5 9,6 7,5 9,6 7,5 Ν.Δ. ΠΑΣΟΚ Αλλο Δ.Γ./Δ.Α. Τα τρία παραπάνω ραβδογράμματα προέρχονται από τον εξής στατιστικό πίνακα : Ν.Δ. 43,4% ΠΑΣΟΚ 39,5% Αλλο 9,6% Δ.Γ/Δ.Α. 7,5% Σύνολο 100% Ν.Δ. ΠΑΣΟΚ Αλλο Δ.Γ./Δ.Α. Ν.Δ. ΠΑΣΟΚ Αλλο Δ.Γ./Δ.Α. Ποιό διάγραμμα δημοσιεύτηκε σε φιλοκυβερνητική εφημερίδα, ποιό σε εφημερίδα προσκείμενη στην αντιπολίτευση και ποιό δείχνει την πραγματική εικόνα; 8