ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 09-10-2015 Εισαγωγή στην Ανάλυση Δεδομένων Βασικές έννοιες Αν. Καθ. Μαρί-Νοέλ Ντυκέν
ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΔΙΑΛΕΞΗ 30-10-2015 1. Στατιστικοί παράμετροι - Διάστημα εμπιστοσύνης
Υπολογισμός του 95% Δ.Ε. Τα δεδομένα Το δείγμα αποτελείται από 15 άτομα για τα οποία γνωρίζουμε το μηνιαίο τους εισόδημα (ευρώ). Χρησιμοποιώντας τις εντολές του excel, μπορούμε να υπολογίσουμε την μέση τιμή, την τυπική απόκλιση, το τυπικό σφάλμα και κατά συνέπεια το 95% Δ.Ε. 95%. Ε. = Χ ± t (0,05; n 1) s = τυπικό σφάλµα n s n t (0,05; n 1) s n = ακριβές σφάλµα
Υπολογισμός του 95% Δ.Ε. Αποτελέσματα s F4 Τυπικό Σφάλµα = = n sqrt( F2) Ακριβές Σφάλµα = t(0,05;14) Ακριβές Σφάλµα = F8 F4 s n Διάστημα εμπιστοσύνης: Κάτω όριο = μέση τιμή Ακριβές Σφάλμα Άνω όριο = μέση τιμή + Ακριβές Σφάλμα
Αποτελέσματα με SPSS Analyze > Descriptive Statistics > Explore Επιλογή της μεταβλητής για ανάλυση: Income Το 95% Δ.Ε. : Κάτω όριο = 1037,87 Άνω όριο = 1922,13
Έλεγχος Υποθέσεων για την Μέση τιμή Υποθέσεις: H H 0 1 : X : X = µ µ ( µ = θεωρητική τιµ ή) Στατιστική Παράμετρος: X µ t = σ / n όταν σ είναι άγνωστη, παίρνουμε την τυπική απόκλιση s που υπολογίζουμε με βάση τα δεδομένα του δείγματος Η Στατιστική t ακολουθεί την κατανομή του t-student Απόφαση: Αν t t(0,05;n-1) Δεχόμαστε την υπόθεση Ηο Αν t > t(0,05;n-1) Η υπόθεση Ηο απορρίπτεται και επιλέγουμε Η1 Ισχύς του ελέγχου: p-value Η p-value μας δίνει το σφάλμα που κάνουμε για να απορρίψουμε την υπόθεση Ηο δηλαδή για να επιλέγουμε την υπόθεση Η1. Όταν p-value < 0,05 : το σφάλμα απόρριψης της Ηο είναι μικρό και αποδεκτό, κατά συνέπεια, επιλεγούμε την υπόθεση Η1.
Αποτελέσματα με SPSS Analyze > Compare Means > One-Sample T Test Επιλογή της μεταβλητής για ανάλυση (Test Variable): Income Επιλογή της τιμής για ελέγχου (Test Value) = 2000 Στατιστική παράμετρος: t = -2,523 P-value = 0,024 < 0,05 Ισχύει η Η1: η μέση τιμή του δείγματος διαφέρει από τα 2000 ευρώ
Στατιστικοί έλεγχοι Συνοπτική παρουσίαση
1. Διαδικασία εφαρμογής στατιστικού ελέγχου: Ο έλεγχος συγκρίνει δύο υποθέσεις: Ηο έναντι Η1 (εναλλακτική) Κάθε έλεγχος βασίζεται σε μια στατιστική παράμετρο η οποία προκύπτει από μια συγκεκριμένη θεωρητική κατανομή (Π.χ. ο έλεγχος της μέσης τιμής βασίζεται στην κατανομή του Student). Με βάση τα δεδομένα που εξετάζουμε, υπολογίζουμε την στατιστική παράμετρο σύμφωνα με τον ορισμό της. Η απόφαση - σχετικά με ποια από τις 2 υποθέσεις ισχύει (ποια υπόθεση επιλέγουμε) - εξαρτάται από: το (τους) βαθμό (ούς) ελευθερίας: ορισμένοι έλεγχοι όπως ο έλεγχος Fisher βασίζονται σε δυο βαθμούς ελευθέριας. Το επίπεδο σημαντικότητας (significance level): συνήθως παίρνουμε επίπεδο σημαντικότητας 5% που αντιστοιχεί στον μέγιστο σφάλμα που δεχόμαστε να κάνουμε. Αποτελεί «όριο». Σημαίνει ότι, θέλουμε η απόφαση μας να είναι τουλάχιστον βέβαιη κατά 95%. Ακόμα καλύτερα αν μπορούμε να έχουμε 99% βεβαιότητα (δηλαδή 1% σφάλματος). Η σύγκριση της τιμής της παραμέτρου που έχουμε υπολογίσει με την θεωρητική τιμή (σύμφωνα με τον πίνακα) μας επιτρέπει να επιλέξουμε ποια από τις δύο υποθέσεις ισχύει. Όμως αυτό σημαίνει ότι, πρέπει να έχουμε τους σχετικούς πίνακες. Ευτυχώς, όλα τα σύγχρονα λογισμικά υπολογίζουν έκτος από τη τιμή της παραμέτρου την p-value δηλαδή την ισχύ του ελέγχου. Η ισχύς του στατιστικού ελέγχου δεν είναι τίποτα άλλο από τον ελάχιστο σφάλμα που πρέπει να δεχόμαστε έτσι ώστε να επιλέξουμε την υπόθεση Η1 και κατά συνέπεια να απορρίψουμε την υπόθεση Ηο. Πρακτικά και αυτό ισχύει για οποιοδήποτε στατιστικό έλεγχο: όταν p-value 0.05 (5%) Δεχόμαστε την υπόθεση Η1: το σφάλμα για την επιλογή της υπόθεσης Η1 είναι μικρό. όταν p-value > 0.05 (5%) Δεχόμαστε την υπόθεση Ηο: το σφάλμα για την επιλογή της υπόθεσης Η1 θεωρείται μεγάλο.
2. Ορισμένοι συνηθισμένοι στατιστικοί έλεγχοι Έλεγχος της μέσης τιμής: σύγκριση της μέσης τιμής μιας μεταβλητής με μια γνωστή θεωρητική τιμή. Έλεγχοςδιαφοράς δύο μέσων τιμών: (α) Η H 0 1 : X = µ : X µ μ = θεωρητική τιμή σύγκριση της μέσης τιμής μιας μεταβλητής για δύο ανεξάρτητα δείγματα ή δύο ανεξάρτητες ομάδες πληθυσμού (π.χ. χώρες της ευρώ ζώνης και υπόλοιπες χώρες της Ε.Ε.) (β) Η H 0 1 : X : X a a = X X b b Δύο ομάδες πληθυσμού α και β για τις οποίες υπολογίσαμε την μέση τιμή σύγκριση της μέσης τιμής δύο μεταβλητών για ένα πληθυσμό: εξετάζουμε ζεύγη παρατηρήσεων Η H 0 1 : X : X 1 1 = X X 2 2 Χ1: πρώτη μεταβλητή, Χ2: δεύτερη μεταβλητή (Πχ. ΑΕΠκκ των 28 χώρων της Ε.Ε. το 2008 και ΑΕΠκκ των 28 χωρών της Ε.Ε. για το 2013) Έλεγχος συντελεστής συσχέτισης μεταξύ δύο μεταβλητών: ο συντελεστής είναι ή δεν είναι με στατιστικούς όρους διαφορετικός από μηδέν; Η H 0 1 : r : r X 1, X 2 X 1, X 2 = 0 0 Σε όλες τις περιπτώσεις, ισχύει ο ακόλουθος κανόνας: Όταν η p-value είναι μικρότερη από 5% (0,05), η υπόθεση Η ο απορρίπτεται και δεχόμαστε την Υπόθεση Η 1. Θεωρούμε ότι το μέγιστο αποδεκτό σφάλμα είναι 5%. Πρόκειται για προσωπική επιλογή του ερευνητή.
3. Πρώτο παράδειγμα [01]: One-Sample T Test Τα δεδομένα αφορούν τον αριθμό εργατικών ατυχημάτων. Πιο συγκεκριμένα, η μεταβλητή «ΑΤΥΧΗΜΑΤΑ» μας δίνει τον αριθμό ατυχημάτων στην Ελλάδα για 1000 απασχολουμένους ανά κατηγορία επαγγέλματος, κατά το έτος 2013 (Πηγή: ΕΛΣΤΑΤ, Ειδική έρευνα για τα εργατικά ατυχήματα, [Ad hoc, 2013]) Για 1000 υπάλληλους γραφείου, καταγράφτηκαν, περίπου 5 ατυχήματα, ενώ στους ειδικευμένους τεχνίτες, έχουμε πάνω από 49. Επίσης, σύμφωνα με την ΕΛΣΤΑΤ, για το σύνολο των απασχολουμένων, ανεξαρτήτως επαγγέλματος, ο αριθμός ατυχημάτων ανέρχεται σε 17,5 για 1000 απασχολουμένους. Η ερώτηση είναι επομένως η ακόλουθα: μπορούμε να θεωρήσουμε ότι, η μέση τιμή του δείκτη «αριθμός ατυχημάτων για 1000 εργαζομένους» δεν διαφέρει από τον μέσο αριθμό για το σύνολο των απασχολουμένων; Πρόκειται για έλεγχο μιας μέσης τιμής που συγκρίνουμε με τον μέσο αριθμό = 17,5. Η εφαρμογή με το SPSS είναι ιδιαίτερα απλή: Analyze > Compare Means > One-Sample T Test, επιλέγουμε την μεταβλητή ΑΤΥΧΗΜΑΤΑ ως Test Variable (s), και δίνουμε την τιμή για σύγκριση (test Value = 17,5).
3. Πρώτο παράδειγμα [02]: One-Sample T Test Εξετάζοντας τα αποτελέσματα του ελέγχου, παρατηρούμε ότι, η μέση τιμή της μεταβλητής ΑΤΥΧΗΜΑΤΑ_2013 = 20,52 με τυπική απόκλιση = 14,548. Η υπολογισμένη τιμή του t-student = 0,548 ενώ η p-value = 0,597 > 0,05 Κατά συνέπεια, το σφάλμα ξεπερνά κατά πολύ τον αποδεκτό όριο των 5% για να δεχόμαστε ότι, ισχύει η υπόθεση Η 1. Η διαφορά μεταξύ της μέσης τιμής (=20,52) και της τιμής ελέγχου (=18,0) που ανέρχεται σε 2,520 δεν είναι στατιστικά σημαντική (Ηο ισχύει). Τι ίδιο συμπέρασμα προκύπτει από το 95% Διάστημα εμπιστοσύνης. Όπως διαβάζουμε στο 2 ο πίνακα, με 95% επίπεδο εμπιστοσύνης, η διαφορά (Mean Difference) βρίσκεται μεταξύ -7,887 και +12,927. Το Δ.Ε. περιλαμβάνει την μηδενική τιμή και αυτό μας οδηγεί στο συμπέρασμα ότι, με στατιστικούς όρους, η διαφορά = 0.
4. Δεύτερο παράδειγμα [01]: Paired-Samples T Test Τα δεδομένα αφορούν τον ποσοστό ανεργίας κατά φύλο στην Ελλάδα για την περίοδο 2001-2014. Πρόκειται για το ετήσιο ποσοστό ανεργίας (Πηγή: ΕΛΣΤΑΤ, Έρευνα εργατικού δυναμικού) ΑΝΕΡΓΙΑ_Σ: Ποσοστό ανεργίας (σύνολο) ΑΝΕΓΡΙΑ_Α: Ποσοστό ανεργίας (άνδρες) ΑΝΕΡΓΙΑ_Γ: Ποσοστό ανεργίας (γυναίκες) Η ερώτηση είναι επομένως η ακόλουθα: μπορούμε να θεωρήσουμε ότι, το ποσοστό ανεργίας των ανδρών διαφέρει από τον αντίστοιχό ποσοστό για τις γυναίκες; Πρόκειται για έλεγχο δύο μέσων τιμών (ζεύγη παρατηρήσεων ανά έτος). Έχουμε δύο μεταβλητές που αναφέρονται στον ίδιο φαινόμενο (η ανεργία). Analyze > Compare Means > Paired-Samples T Test, επιλέγουμε τις μεταβλητές ΑΝΕΡΓΙΑ_Α & ΑΝΕΡΓΙΑ_Γ (Paired Variables). Με την ιδιά εντολή, μπορούμε να επιλέξουμε πάνω από ένα ζεύγος μεταβλητών.
4. Δεύτερο παράδειγμα [02]: Paired-Samples T Test Κατά μέσο όρο, το ποσοστό ανεργίας για τους άνδρες (για όλη την περίοδο ανάλυσης) ανέρχεται σε 10,8% (στρογγυλοποίηση) έναντι 18,4% για τις Γυναίκες, μια διαφορά της τάξης του 7,6. Η υπολογισμένη τιμή του t-student = -22,239 ενώ η p-value = 0,000 < 0,05. Η διαφορά που παρατηρήσαμε, επιβεβαιώνεται απόλυτα εφόσον η ισχύς του ελέγχου είναι ιδιαίτερα μεγάλη (μηδενικό σφάλμα, 100% βεβαιότητας). Αυτό σημαίνει ότι, η ανεργία πλήττει περισσότερο τις γυναίκες σε όλη την εξεταζόμενη περίοδο. Η διαφορά ΑΝΕΡΓΙΑ_Α ΑΝΕΡΓΙΑ_Γ = -7,65 με 95% Διάστημα Εμπιστοσύνης: (-8,39, - 6,91). Το Δ.Ε. δεν περιλαμβάνει την μηδενική τιμή και σύμφωνα με το Δ.Ε., η διαφορά είναι συστηματικά αρνητική, επιβεβαιώνοντας τον παραπάνω αποτέλεσμα. Το SPSS μας προσφέρει μια επιπρόσθετη πληροφορία σχετικά με τις δύο εξεταζόμενες μεταβλητές (η οποία όμως δεν αφορά τον έλεγχο των μέσων τιμών). Υπολογίζει τον συντελεστή συσχέτισης μεταξύ των δύο μεταβλητών (r= 0,986 με p- value=0,000). Διαχρονικά, έχουμε παρόμοια εξέλιξη του ποσοστού ανεργίας μεταξύ των ανδρών και των γυναικών.