Τμήμα Λογιστικής και Χρηματοοικονομικής. Δρ. Αγγελίδης Π. Βασίλειος

Τμήμα Λογιστικής και Χρηματοοικονομικής 1 Δρ. Αγγελίδης Π. Βασίλειος

Τμήμα Λογιστικής και Χρηματοοικονομικής Εφαρμοσμένη Στατιστική 2 Περιεχόμενα Εισαγωγή Επαγωγική Στατιστική Έλεγχος κανονικότητας Έλεγχος Ανεξαρτησίας Έλεγχοι Υποθέσεων Τ-Test Έλεγχος F Έλεγχος χ 2

3 Ξέρω στατιστική σημαίνει ότι γνωρίζω.. ποιο στατιστικό είναι κατάλληλο για κάθε ερευνητική ερώτηση, πώς να υπολογίσω το στατιστικό αυτό και πώςνατοερμηνεύσω H επιλογή του κατάλληλου στατιστικού είναι ένα από τα σημαντικότερα βήματα στην διαδικασία της εκπαιδευτικής έρευνας και της στατιστικής ανάλυσης Για την επιλογή του κατάλληλου στατιστικού χρησιμοποιούμε δύο γενικά κριτήρια: Το λόγο (σκοπό) για τον οποίο χρειαζόμαστε το στατιστικό η περιγραφή μεταβλητών ή σχέσεων μεταξύ μεταβλητών, με τα οποία ασχολείται η Περιγραφική Στατιστική και η γενίκευση από το δείγμα στον πληθυσμό, με την οποία ασχολείται η επαγωγική Την κλίμακα (επίπεδο) μέτρησης των μεταβλητών Ονομαστική, Τακτική, Ισοδιαστημική, Αναλογική

4 Στατιστική Επαγωγή Οαπώτεροςσκοπόςτηςστατιστικήςανάλυσηςείναιναμαςβοηθήσειναπεριγράψομε τον πληθυσμό. Όταν όμως τα μόνα διαθέσιμα στοιχεία είναι από ένα δείγμα, ο πληθυσμός δεν μπορεί να περιγραφεί άμεσα. Αυτό που μπορούμε να κάνομε σε τέτοιες περιπτώσεις είναι να υπολογίσομε τα στατιστικά του δείγματος (περιγραφικά ή εξηγητικά) και από αυτά δι' επαγωγής να βγάλομε συμπεράσματα για τον πληθυσμό ή να προσεγγίσομε τις παραμέτρους του. Τα στατιστικά και οι τεχνικές που χρησιμοποιούνται για να κάνομε γενικεύσεις από το δείγμα στον πληθυσμό λέγονται Επαγωγικά Στατιστικά. Οι επαγωγές που ενδιαφέρουν τους ερευνητές στις κοινωνικές επιστήμες και την εκπαίδευση είναι δύο ειδών. Τα Διαστήματα Εμπιστοσύνης (Confidence Intervals) και Ο Έλεγχος Υποθέσεων (Hypothesis Testing)

5 Ο έλεγχος υποθέσεων Oι έλεγχοι υποθέσεων προσπαθούν να απαντήσουν σε ερωτήσεις του τύπου «υπάρχει διαφορά;», «υπάρχει σχέση;», «υπάρχει επίδραση;» κ.τ.λ.. Όλοι οι έλεγχοι ακολουθούν περίπου την ίδια διαδικασία και λογική. Όλοι αρχίζουν με μιαν υπόθεση, ότι στον πληθυσμό δεν υπάρχει σχέση, διαφορά, επίδραση κ.τ.λ.. Η υπόθεση αυτή είναι γνωστή ως μηδενική υπόθεση, γιατί συνήθως υποθέτομε ότι οι σχέσεις, οι διαφορές και επιδράσεις είναι μηδενικές. Για να ελέγξομε τις υποθέσεις αυτές, συλλέγομε δεδομένα από ένα δείγμα πιθανοτήτων και υπολογίζομε τη διαφορά, σχέση επίδραση κ.τ.λ.. Αν στο δείγμα βρούμε ότι μας υπάρχει διαφορά, επίδραση ή σχέση (και συνήθως κάτι υπάρχει), δύο τινα μπορεί να συμβαίνουν: Είτε ισχύει η μηδενική μας υπόθεση και βρήκαμε τη διαφορά κατά τύχη (κατά σύμπτωση, κατά λάθος), Είτε δεν τη βρήκαμε κατά τύχη και άρα δεν ισχύει η μηδενική μας υπόθεση.

6 Ο έλεγχος υποθέσεων Για να αποφανθούμε περί του τι ισχύει εξετάζομε την πιθανότητα να έχομε βρει τη διαφορά αυτή κατά τύχη. Υπολογίζομε, δηλαδή, την πιθανότητα να προέρχεται το δείγμα από έναν πληθυσμό όπου ισχύει η μηδενική υπόθεση (η πιθανότητα αυτή συμβολίζεται με ένα p). Αν η πιθανότητα αυτή είναι μικρή, συμπεραίνομε ότι το δείγμα μας δεν προέρχεται από τέτοιο πληθυσμό, αλλά από έναν άλλο, στον οποίο δεν ισχύει η μηδενική υπόθεση. Αν, με άλλα λόγια, με βάση τα δεδομένα, η μηδενική υπόθεση φαντάζει απίθανη, την απορρίπτομε και συμπεραίνομε ότι υπάρχει σχέση, διαφορά ή επίδραση στον πληθυσμό.

7 Ο έλεγχος υποθέσεων Για να αποφασίσομε αν απορρίπτεται η μηδενική υπόθεση πρέπει : να γνωρίζομε πώς να υπολογίσομε το p (την πιθανότητα να έχομε βρει κάτι κατά λάθος) και να αποφασίσομε πότε θα λέμε η πιθανότητα αυτή είναι πολύ μικρή (ώστε να λέμε ότι αυτό που βρήκαμε δεν είναι κατά λάθος και άρα δεν ισχύει η μηδενική υπόθεση). Τοπρώτοθατοδούμεπαρακάτωγιαδιάφορεςπεριπτώσεις. Τοδεύτεροκαθορίζεται a priori, μάλλον «αυθαίρετα», και είναι γνωστό ως επίπεδο στατιστικής σημαντικότητας (συμβολίζεται με ένα α - άλφα). Η λογική τελειώνει κάπως έτσι: Αν p α απορρίπτομε τη μηδενική υπόθεση και αποφαινόμαστε ότι υπάρχει στατιστικά σημαντική διαφορά. Αν p > α αποτυγχάνομε να απορρίψομε τη μηδενική υπόθεση και αποφαινόμαστε ότι δεν υπάρχει στατιστικά σημαντική διαφορά.

8 Ο έλεγχος υποθέσεων Απορρίπτουμε την Η 0 όταν p τιμή < α. Για να είμαστε σε θέση να αξιολογήσουμε πόσο αξιόπιστη είναι η p-τιμή που θα βρούμε, πρώτα πρέπει να ελέγξουμε αν ο πληθυσμός μας είναι κανονικός. Σε περίπτωση που δεν είναι, θα πρέπει να αξιολογήσουμε αν απέχει πολύ ή όχι. Επίσης, θα λάβουμε υπ όψιν και το μέγεθος του δείγματος.

9 Ο έλεγχος υποθέσεων Γενικά, τις πιθανότητες p μπορούμε να τις βρούμε, αν γνωρίζομε: Τη δειγματoληπτική κατανομή (sampling distribution) ενός στατιστικού (ενός οποιουδήποτε στατιστικού, και τις πιθανότητες που αντιστοιχούν στις διάφορες τιμές αυτής της κατανομής. Κάτω από ορισμένες προϋποθέσεις, οι πληροφορίες αυτές υπάρχουν σε πίνακες για τα περισσότερα στατιστικά. Η κατανομή και ο πίνακας που χρησιμοποιούμε εξαρτάται από το στατιστικό που θέλομε να ελέγξομε. Έτσι, χρησιμοποιούμε άλλη κατανομή (και άλλο πίνακα) όταν θέλομε να ελέγξομε τη διαφορά μεταξύ πολλών μέσων όρων και άλλη όταν θέλομε να ελέγξομε το συντελεστή παλινδρόμησης.

10 Ο έλεγχος υποθέσεων Τα κυριότερα στατιστικά που χρησιμοποιούνται στην εκπαίδευση και τις κοινωνικές επιστήμες ακολουθούν, εκτός από την κανονική (z), και τις παρακάτω κατανομές: Κατανομή t (t Distribution) Κατανομή F (F Distribution) Κατανομή χ 2 (CHI SQUARE Distribution ) Από την κατανομή που ακολουθούν τα διάφορα στατιστικά, παίρνουν την ονομασία τους και οι έλεγχοι στατιστικής σημαντικότητας που χρησιμοποιούνται για τα στατιστικά αυτά.

Τμήμα Λογιστικής και Χρηματοοικονομικής Εφαρμοσμένη Στατιστική 11 Έλεγχος Κανονικότητας Ι Γιαναελέγξουμεανηκατανομή μιας μεταβλητής είναι συμβατή µε την κανονική εφαρμόζουμε το test Kolmogorov-Smirnov (αρχείο test2.sav) H 0 (Μηδενική υπόθεση): Η υπό έλεγχο κατανομή, δε διαφέρει από την κανονική κατανομή έναντι της H 1 (Εναλλακτικής υπόθεσης): Η υπό έλεγχο κατανομή διαφέρει από την κανονική κατανομή. Για την εκτέλεση του τεστ κανονικότητας με το SPSS : πατάμε Analyze Non parametric tests One sample K-S Βάζουμε στο test variable list τις μεταβλητές που θέλουμε να ελέγξουμε την κανονικότητα τους, Τσεκάρουμε Normal και ΟΚ

Τμήμα Λογιστικής και Χρηματοοικονομικής Εφαρμοσμένη Στατιστική 12 Έλεγχος Κανονικότητας Ι One-Sample Kolmogorov-Smirnov Test chol N 60 Normal Parameters a Mean 240,0833 Std. Deviation 48,72729 Most Extreme Differences Absolute,099 Positive,083 Negative -,099 Kolmogorov-Smirnov Z,770 Asymp. Sig. (2-tailed),593 a. Test distribution is Normal. Η υπόθεση την οποία θέλουμε να ελέγξουμε είναι ότι οι μεταβλητές ακολουθούν την κανονική κατανομή. Από ότι φαίνεται για δεν έχουμε εκλιπούσες τιμές. Εμφανίζονται επίσης ο μέσος και η τυπική απόκλιση για κάθε μεταβλητή. Για τον έλεγχο της κανονικότητας μας ενδιαφέρουν η τιμή της Asymp. Sig. (2-tailed). Το τεστ των Kolmogorov-Smirnov είναι ένα απλά μία τιμή p-value που υπολογίζεται με μία ελαχιστοσυνάρτηση. Παρατηρούμε ότι η τιμή p-value είναι 0,593 και όπως αναφέραμε προηγουμένως αν η p-value είναι μεγαλύτερη από το 0,05, τότε δεν απορρίπτουμε την υπόθεση της κανονικότητας των δεδομένων. Άρα η υπόθεση ότι οι μετρήσεις που αφορούν την μέτρηση της χοληστερίνης κατανέμονται κανονικά δεν απορρίπτεται σε επίπεδο στατιστικής σημαντικότητας α=0,05 ή α=5%. Ειδάλλως, μπορούμε να πούμε ότι υπάρχουν ενδείξεις ότι αυτές οι μετρήσεις ακολουθούν την κανονική κατανομή.

13 Έλεγχος Κανονικότητας ΙΙ Υπόθεση στον έλεγχο Κανονικότητας Η0: Η μεταβλητή ακολουθεί την κανονική κατανομή. Η1: Η μεταβλητή δεν ακολουθεί την κανονική κατανομή. Αρχείο: Emploee data.sav Εντολή: Analyze Descriptive Statistics Explore Dependent list: current salary (ποσοτική μεταβλητή) Factor list: minority classification (ποιοτική μεταβλητή) Στην επιλογή Plots επιλέγουμε το Normality plots with tests

14 Έλεγχος Κανονικότητας ΙΙ Tests of Normality Minority Kolmogorov-Smirnov a Shapiro-Wilk Classification Statistic df Sig. Statistic df Sig. Current Salary No,195 370,000,802 370,000 Yes,244 104,000,634 104,000 κοιτάζουμε το Kolmogorov-Smirnov Test για Ν > 50 κοιτάζουμε το Shapiro-Wilk για Ν 50 το Ν φαίνεται από τη στήλη df και στα δύο αυτά τεστ και για τις δύο κατηγορίες της ποιοτικής μεταβλητής μας ενδιαφέρει το Significance αν p > 0,05 δεν μπορούμε να απορρίψουμε την Η0 αν p < 0,05 απορρίπτουμε την Η0 και δεχόμαστε την Η1

15 Έλεγχος Κανονικότητας ΙΙ Tests of Normality Minority Kolmogorov-Smirnov a Shapiro-Wilk Classification Statistic df Sig. Statistic df Sig. Current Salary No,195 370,000,802 370,000 Yes,244 104,000,634 104,000 Εάν υπάρχει κανονικότητα συνεχίζουμε το T-Test. Αν δεν υπάρχει κανονικότητα κάνουμε μη παραμετρικούς ελέγχους (Non-Parametric Statistics) εναλλακτικά στο TTest. Στην περίπτωσή μας: No: p = 0,000 στο Kolmogorov-Smirnov Test, δηλαδή p < 0,05 άρα απορρίπτουμε την Η0 και δεχόμαστε την Η1 (δεν υπάρχει κανονικότητα) Yes: p = 0,000 στο Kolmogorov-Smirnov Test, δηλαδή p < 0,05 άρα απορρίπτουμε την Η0 και δεχόμαστε την Η1 (δεν υπάρχει κανονικότητα)

16 Έλεγχος της μέσης τιμής Παραμετρικό Τεστ Έλεγχος της μέσης τιμής μίας ποσοτικής μεταβλητής (έλεγχος µ=µ 0 ) Πολλές φορές θέλουμε να ελέγξουμε, αν η μέση τιμή μίας μεταβλητής είναι (στατιστικά) ίση µε έναν συγκεκριμένο αριθμό. Για παράδειγμα, αν ο μέσος όρος του ύψους ενός τυχαίου δείγματος 60 ανδρών μ είναι ίσος με μ 0 =174 εκατοστά (test2) Η 0 : Μηδενική υπόθεση µ=µ 0 έναντι της Η α : Εναλλακτικής υπόθεσης µ µ 0 Η κατάλληλη δοκιμασία σε αυτή την περίπτωση είναι το One sample t-test, όταν ισχύει η προϋπόθεση της κανονικότητας της μεταβλητής µας. SPSS: Analyze Compare Means Onesamplettestκαι δηλώνουμε την τιμή ελέγχου µ 0 (test value).

17 Έλεγχος της μέσης τιμής Παραμετρικό Τεστ One-Sample Statistics N Mean Std. Deviation Std. Error Mean ypsos 60 174,6683 3,01749,38956 Ο πρώτος πίνακας περιέχει την τιμή του μέσου, της τυπικής απόκλισης, της τυπικής απόκλισης του μέσου (τυπικό σφάλμα του μέσου) και το μέγεθος του δείγματος One-Sample Test Test Value = 174 t df Sig. (2-tailed) Mean Difference 95% Confidence Interval of the Difference Lower Upper Η πρώτη στήλη του πίνακα περιέχει την ονομασία της μεταβλητής, ypsos 1,716 59,091,66833 -,1112 1,4478 Η δεύτερη στήλη περιέχει την τιμή του t (1,716) τεστ για αυτή τη μεταβλητή, η οποία χρησιμοποιήθηκε για να υπολογιστεί η p-value (0,091) (Sig. (2-tailed)). Η στήλη δίπλα από την p- value περιέχει τη διαφορά ανάμεσα στην τιμή της μηδενικής υπόθεσης (174) καιστημέσητιμήτης μεταβλητής. Οι επόμενες δύο στήλες περιέχουν ένα 95% διάστημα εμπιστοσύνης για αυτή τη διαφορά. Το επίπεδο στατιστικής σημαντικότητας είναι ίσο με 0,091. Εφόσονείναιμεγαλύτερο του 0,05, καταλήγουμε στο συμπέρασμα ότι δεν μπορούμε να απορρίψουμε τη μηδενική υπόθεση ότι ο πραγματικός μέσος είναι ίσος με 174.

18 Έλεγχος της μέσης τιμής Άσκηση Ένας παραγωγός σταφυλιών ισχυρίζεται ότι τα κιβώτια σταφυλιών που συσκευάζει έχουν βάρος 19 κιλά κατά μέσο όρο. Για να ελεγχθεί ο ισχυρισμός του, λαμβάνουμε ένα τυχαίο δείγμα από 10 κιβώτια. Οι μετρήσεις δίδονται στον πίνακα που ακολουθεί. Βάρος κιβωτίων του δείγματος (σε κιλά) 12,0 20,0 18,5 17,6 15,0 14,8 16,7 21,6 15,2 16,0 Ερώτηση: Βάσει των πληροφοριών του δείγματος, μπορεί ο ισχυρισμός του να θεωρηθεί εύλογος σε α=5%; (σε όλες τις ασκήσεις υποθέτουμε κανονικότητα, όπου αυτή απαιτείται)

19 Έλεγχος της μέσης τιμής Άσκηση Απαιτείται να ελεγχθεί το ζεύγος υποθέσεων Η 0 :μ=19versus Η α :μ 19 Εφόσον έχουμε άγνωστη την πληθυσμιακή διακύμανση και μικρό μέγεθος δείγματος, θα χρησιμοποιήσουμε το one sample t test. Τα αποτελέσματα του SPSS δίδονται στους παρακάτω πίνακες. One-Sample Statistics N Mean Std. Deviation Std. Error Mean varos 10 16,7400 2,79412,88358 One-Sample Test Test Value = 19 95% Confidence Interval of Sig. (2- Mean the Difference t df tailed) Difference Lower Upper varos -2,558 9,031-2,26000-4,2588 -,2612 Απάντηση: Το p-value (0,031) είναι μικρότερο του προκαθορισμένου επιπέδου σημαντικότητας (0,031<0.05) και, κατά συνέπεια, η αρχική υπόθεση απορρίπτεται. Επομένως, το βάρος του πληθυσμού των κιβωτίων δεν μπορεί να είναι ίσο με 19 κιλά

20 Έλεγχος της μέσης τιμής Παραμετρικό Τεστ Επανάληψη Ερευνητικό ερώτημα: «Ο μέσος όρος του ύψους ενός δείγματος 60 ανδρών διαφέρει από 174 εκατοστά (μ 0)» ΒΗΜΑ 1 ο : Γράφουμε τη μηδενική υπόθεση, η οποία είναι αντίθετη με το ερευνητικό ερώτημα: Η 0 :μ= μ 0 ή Η 0 :μ- μ 0 =0 Όπου μ, ο μέσος όρος του δείγματος και μ 0 ο αριθμός που θέλουμε να ερευνήσουμε αν διαφέρει από τον μέσο όρο. ΒΗΜΑ 2 ο : Γράφουμε την εναλλακτική υπόθεση, η οποία είναι αντίθετη με τη μηδενική και περίπου ίδια με το ερευνητικό ερώτημα: Η a :μ μ 0 ή Η a :μ- μ 0 0 ΒΗΜΑ 3ο: Ορίζουμε το επίπεδο στατιστικής σημαντικότητας (α): α = 0,05 ΒΗΜΑ 4 ο : Βρίσκουμε την πιθανότητα (p) να είναι ο μέσος του δείγματος να είναι διαφορετικός από την ελεγχόμενη τιμή, «κατά λάθος» ΒΗΜΑ 5 ο : Συγκρίνομε την πιθανότητα p με το α. Αν p > α αποτυγχάνομε να απορρίψομε τη μηδενική υπόθεση και συμπεραίνομε ότι δεν υπάρχει στατιστικά σημαντική διαφορά μεταξύ του μέσου όρου και της συγκρινόμενης τιμής

21 Έλεγχος της μέσης τιμής - Μη παραμετρικό Τεστ Το αντίστοιχο μη παραμετρικό τεστ καλείται έλεγχος των προσημασμένων τάξεων μεγέθους του Wilcoxon για τη διάμεσο ενός πληθυσμού. Επειδή βασίζεται στις τάξεις μεγέθους των παρατηρήσεων και όχι στις παρατηρήσεις αυτές κάθε αυτές δε χρειάζεται καμία προϋπόθεση ως προς την κατανομή των παρατηρήσεων. Αυτό ισχύει για όλα τα μη παραμετρικά τεστ που θα δούμε. Ο έλεγχος όμως εδώ βασίζεται στη διάμεσο και όχι στο μέσο του δείγματος. Αυτό βέβαια δε σημαίνει ότι αυτού του είδους τα τεστ είναι χαμηλότερης αξιοπιστίας σε σύγκριση με τα παραμετρικά. Απεναντίας, σε πολλές περιπτώσεις είναι πιο ισχυρά. Γενικά όμως η ισχύς τους πλησιάζει πάρα πολύ των ισχύ των κλασικών παραμετρικών τεστ. Αυτός είναι και ο λόγος που η μόνη προϋπόθεση που χρειάζεται είναι η συμμετρία της κατανομής. Ένα πλεονέκτημα όμως των μη παραμετρικών ελέγχων που θα εξεταστούν είναι ότι εφαρμόζονται και στις περιπτώσεις που οι μεταβλητές είναι ποιοτικές διατεταγμένης κλίμακας (καλό, καλύτερο, πολύ καλό). Σε αυτήν την περίπτωση οι μέθοδοι ελέγχων υποθέσεων που θα δούμε είναι από τις πιο ισχυρές μεθόδους που υπάρχουν

22 Έλεγχος της μέσης τιμής - Μη παραμετρικό Τεστ Ο έλεγχος όμως αυτός δεν προσφέρεται από το SPSS μέσω του μενού επιλογών, για αυτό θα πρέπει να γίνει μία διεργασία πρώτα. Η διεργασία έχει ως εξής: θα περάσουμε σε μία νέα στήλη την τιμή την οποία θέλουμε να ελέγξουμε τόσες φορές, όσες και οι παρατηρήσεις της μεταβλητής στην οποία θέλουμε να κάνουμε τον έλεγχουπόθεσης. Επομένως θέλοντας να ελέγξουμε με ένα μη παραμετρικό τεστ αν ο μέσος όρος του ύψους ενός τυχαίου δείγματος 60 ανδρών μ είναι ίσος με μ 0 =174 εκατοστά στο αρχείο test2 θα προσθέσουμε μια νέα μεταβλητή (π.χ. Diam) που θα περιέχει την τιμή 174 φορές, όσες δηλαδή είναι και οι παρατηρήσεις του δείγματος υπό εξέταση Επιλέγουμεαπότομενούεντολώνταεξής:Analyze Nonparamteric Tests 2 Related Samples

23 Έλεγχος της μέσης τιμής Παραμετρικό Τεστ -Αποτελέσματα Η επιλογή Options μας επιτρέπει να εμφανίσουμε και κάποια περιγραφικά μέτρα. Η μία μεταβλητή θα είναι η στήλη της οποίας τη διάμεσο ελέγχουμε και η άλλη μεταβλητή η στήλη με την τιμή την οποία ελέγχουμε (174 για το παράδειγμα) Test Statistics b diam - ypsos Z -1,684 a Asymp. Sig. (2-tailed),092 a. Based on positive ranks. b. Wilcoxon Signed Ranks Test Από τα αποτελέσματα του ελέγχου μας ενδιαφέρει κυρίως η γραμμή της Asymp. Sig. (2-tailed). Η τιμή p-value που υπολογίζεται μέσω του τεστ είναι 0,092. Αφού είναι μεγαλύτερη του 0,05, οδηγούμαστε στο συμπέρασμα ότι δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση. Δηλαδή η διάμεσος του δείγματος δεν διαφέρει στατιστικά σημαντικά από την τιμή που ελέγξαμε (174).

24 Έλεγχος μέσων τιμών δύο Δειγμάτων Τ-test Ο έλεγχος αυτός μας επιτρέπει να διαπιστώσουμε αν οι διαφορές στις μέσες τιμές δύο δειγμάτων είναι στατιστικά ίσες ή όχι. Στηρίζεται στην κατανομή student και γι αυτό το λόγο ο έλεγχος ονομάζεται και εδώ έλεγχος t(t-test). Υπάρχουν δύο τέτοιοι έλεγχοι ανάλογα με το αν τα δείγματα προέρχονται από πληθυσμούς με ίσες ή διαφορετικές τυπικές αποκλίσεις. Και στις δύο περιπτώσεις η μηδενική υπόθεση και η εναλλακτική της διατυπώνονται ως H0: μ1= μ2 και H1: μ1<>μ2

25 T-Test Σύγκριση Μέσων Ανεξάρτητων Δειγμάτων Προϋποθέσεις: Δύο μεταβλητές: μίαποσοτική και μία ποιοτική με μόνο δύο κατηγορίες (αναλύουμε την ποσοτική μεταβλητή με βάση την ποιοτική, η οποία απλά ορίζει ομάδες). Κανονικότητα της ποσοτικής μεταβλητής για κάθε τιμή της ποιοτικής μεταβλητής (κανονική κατανομή).

26 Σύγκριση των μέσων τιμών ανεξάρτητων Δειγμάτων Παραμετρικό Τεστ Παράδειγμα Ι Σύγκριση των μέσων τιμών μίας μεταβλητής σε δύο ανεξάρτητα δείγματα (έλεγχος µ 1 =µ 2 ) Πολλές φορές θέλουμε να ελέγξουμε, αν η μέση τιμή μιας ποσοτικής μεταβλητής διαφέρεισεδύο ανεξάρτητα δείγματα. Για παράδειγμα, αν το μέσο ύψος του δείγματος των 60 ανδρών (test2) του προηγούμενου παραδείγματος διαφέρει από το μέσο ύψος ενός νέου δείγματος 40 γυναικών (test 4). Μηδενική υπόθεση: µ 1 =µ 2 έναντι της Εναλλακτικής υπόθεσης: µ 1 µ 2 Η κατάλληλη δοκιμασία σε αυτή την περίπτωση είναι το Independent Samples t-test, αρκείνα ισχύουν οι προϋποθέσεις: Α) και οι δυο να κατανέμονται κανονικά Β) οι διασπορές τους να µην απέχουν πολύ. Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουμε σε µη παραμετρικό τεστ. SPSS: Analyze Compare Means Independent Samples t-test και δηλώνουμε την μεταβλητή που ξεχωρίζει τα δύο ανεξάρτητα δείγματα (grouping variable)

27 Παράδειγμα Ι

28 Παράδειγμα Ι Group Statistics sex N Mean Std. Deviation Std. Error Mean ypsos man 60 174,6683 3,01749,38956 woman 40 176,3200 3,38179,53471 Ο πρώτος πίνακας περιέχει κάποια περιγραφικά μέτρα για τα δύο δείγματα. Ο δεύτερος πίνακας είναι αυτός που μας ενδιαφέρει. Το t τεστ έχει δύο κατευθύνσεις. Η μία κατεύθυνση είναι αυτή που δεν μπορούμε να υποθέσουμε ότι οι διακυμάνσεις των δύο δειγμάτων είναι περίπου ίσες και αυτή που μπορούμε να υποθέσουμε ότι είναι ίσες. Independent Samples Test ypsos Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2- tailed) t-test for Equality of Means Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper,320,573-2,555 98,012-1,65167,64656-2,93475 -,36859-2,497 77,041,015-1,65167,66156-2,96900 -,33434

29 Παράδειγμα Ι ypsos Equal variances assumed Equal variances not assumed Independent Samples Test Levene's Test for Equality of Variances F Sig. t df Sig. (2- tailed) t-test for Equality of Means Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper,320,573-2,555 98,012-1,65167,64656-2,93475 -,36859-2,497 77,041,015-1,65167,66156-2,96900 -,33434 Το τεστ του Levene ελέγχει την υπόθεση της ισότητας των δύο διακυμάνσεων και υπολογίζει μία p-value. Αν η p-value είναι μικρότερη του 0,05, απορρίπτεται η υπόθεση της ισότητας των διακυμάνσεων. Στην αντίθετη περίπτωση δεν απορρίπτεται. Επομένως, ανάλογα με την p-value (Sig.) του τεστ του Levene, κοιτάζουμε την πρώτη ή τη δεύτερη γραμμή αποτελεσμάτων. Στην προκειμένη περίπτωση η p-value είναι μεγαλύτερη του 0,05, άρα μπορούμε να υποθέσουμε ισότητα των δύο διακυμάνσεων. Επομένως θα κοιτάξω τη πρώτη γραμμή αποτελεσμάτων του πίνακα. Συνεχίζουμε λοιπόν με την πρώτη γραμμή της ανάλυσης που αφορά equal variances και έχουμε σύμφωνα με το p-value την απόρριψη της Η 0 :μ1 μ2=0σε ε.σ. a = 0,05 (0,012 < 0,05). Δηλαδή φαίνεται ότι υπάρχει στατιστικά σημαντική διαφορά στα μέσα ύψη των δυο πληθυσμών.

30 Παράδειγμα Ι Ερευνητικό ερώτημα: «Υπάρχει διαφορά στο ύψος μεταξύ των ανδρών και των γυναικών του δείγματος» ΒΗΜΑ 1 ο : Γράφουμε τη μηδενική υπόθεση, η οποία είναι αντίθετη με το ερευνητικό ερώτημα: Η 0 :μ α =μ γ ή Η 0 :μ α -μ γ =0 Όπου μ α, ο μέσος όρος του ύψους των ανδρών και μ γ ο μέσος όρος του ύψους των γυναικών ΒΗΜΑ 2 ο : Γράφουμε την εναλλακτική υπόθεση, η οποία είναι αντίθετη με τη μηδενική και περίπου ίδια με το ερευνητικό ερώτημα: Η a :μ α μ γ ή Η a :μ α -μ γ 0 ΒΗΜΑ 3ο: Ορίζουμε το επίπεδο στατιστικής σημαντικότητας (α): α = 0,05 ΒΗΜΑ 4 ο : Βρίσκουμε την πιθανότητα (p) να είναι ο μέσος του δείγματος να είναι διαφορετικός από την ελεγχόμενη τιμή, «κατά λάθος» ΒΗΜΑ 5 ο : Συγκρίνομε την πιθανότητα p με το α. Αν p > α αποτυγχάνομε να απορρίψομε τη μηδενική υπόθεση και συμπεραίνομε ότι δεν υπάρχει στατιστικά σημαντική διαφορά μεταξύ των συγκρινόμενων μέσων όρων.

31 Παράδειγμα ΙΙ Ερώτημα: Αρχείο Emploee data.sav Να δημιουργηθεί ο πίνακας συνάφειας με μεταβλητές το φύλο και τη θέση εργασίας. Σύμφωνα με τον πίνακα, οι άντρες ή οι γυναίκες βρίσκονται ψηλότερα στην ιεραρχία; Παίζει ρόλο το φύλο στη θέση εργασίας που κατέχει κάποιος εργαζόμενος; (Ή αλλιώς: Επηρεάζει το φύλο τη θέση εργασίας; (Είναι το φύλο και η θέση εργασίας εξαρτημένα ή ανεξάρτητα;) Εντολή: Analyze Descriptive Statistics Crosstabs -- Rows: gender Columns: employment category Gender * Employment Category Crosstabulation Employment Category Clerical Custodial Manager Total Gender Female 206 0 10 216 Male 157 27 74 258 Total 363 27 84 474 Απάντηση: Οι άντρες βρίσκονται υψηλότερα στην ιεραρχία από τις γυναίκες

32 Παράδειγμα ΙΙ Ερώτημα: Να ελεγχθεί αν υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στους μισθούς των λευκών και αυτών που ανήκουν σε μειονότητα Καταχρηστικά θα κάνουμε T-Test σαν να είχαμε κανονικότητα και στη συνέχεια θα δούμε και την σωστή επιλογή, τους μη παραμετρικούς ελέγχους. Η0: μ1 = μ2 Η1: μ1 μ2 όπου μ: μέση τιμή πληθυσμού μ1: μέση τιμή μισθού λευκών μ2: μέση τιμή μισθού μειονοτικών

33 Παράδειγμα ΙΙ Εντολή: Analyze Compare means Independent-Samples T-Test Test variable: current salary (ποσοτική μεταβλητή) Grouping variable: minority classification (ποιοτική μεταβλητή) Define groups Δηλώνουμε τους αριθμούς ανάλογα με την κωδικοποίηση στο Data View. Στην περίπτωσή μας: Group 1: 0 Group 2: 1

34 Παράδειγμα ΙΙ Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means Current Salary Equal variances assumed Equal variances not assumed F Sig. t df Sig. (2- tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper 28,487,000 3,915 472,000 7309,369 1867,111 3640,491 10978,246 5,003 262,188,000 7309,369 1460,936 4432,707 10186,030 Στον πίνακα «Independent Samples Test» μας ενδιαφέρουν τα εξής: Levene s Test for Equality of Variances: είναι τεστ για την ισότητα των διασπορών. αν p > 0,05 οι διασπορές είναι ίσες αν p < 0,05 οι διασπορές είναι άνισες Όταν οι διασπορές είναι ίσες, στην ανάγνωση του υπόλοιπου πίνακα (ttest for equality of means) κοιτάμε την πρώτη γραμμή (equal variances assumed). Όταν είναι άνισες, κοιτάμε τη δεύτερη γραμμή (equal variances not assumed). Στην περίπτωσή μας: p = 0,000, δηλαδή p < 0,05 άρα οι διασπορές είναι άνισες και επομένως από εδώ και πέρα θα κοιτάμε μόνο τη δεύτερη γραμμή

35 Παράδειγμα ΙΙ Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means Current Salary Equal variances assumed Equal variances not assumed F Sig. t df Sig. (2- tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper 28,487,000 3,915 472,000 7309,369 1867,111 3640,491 10978,246 5,003 262,188,000 7309,369 1460,936 4432,707 10186,030 T-Test for Equality of Means - Significance (2-tailed): δηλώνουμε πόσο είναι το p (p = 0,000) και με βάση αυτό τον αριθμό δεχόμαστε ή απορρίπτουμε την Η0. αν p > 0,05 δεν μπορούμε να απορρίψουμε την Η0 αν p < 0,05 απορρίπτουμε την Η0 και δεχόμαστε την Η1 Στην περίπτωσή μας p < 0,05 άρα απορρίπτουμε την Η0 (μ1 = μ2) και δεχόμαστε την Η1 (μ1 μ2). Απάντηση: Υπάρχει στατιστικά σημαντική διαφορά του μισθού των λευκών και των μειονοτικών

36 T-Test Έλεγχος Υποθέσεων Για να απαντήσουμε στο τελευταίο ερώτημα Είναιτοφύλοκαιηθέσηεργασίαςεξαρτημέναή ανεξάρτητα;) θα χρησιμοποιήσουμε επαγωγική στατιστική. Η διαδικασία που θα ακολουθήσουμε λέγεται Έλεγχος Υποθέσεων. Η0: Είναι η μηδενική υπόθεση, η κύρια υπόθεσή μας. Είναι πάντα η υπόθεση της μη διαφοροποίησης ή της ισότητας. Η1: Είναι η εναλλακτική υπόθεση. Προκειμένου να πραγματοποιηθεί ο έλεγχος υποθέσεων, υπολογίζουμε το Χ 2.ΤοΧ 2 είναι ένα στατιστικό που παράγεται λαμβάνοντας υπόψη τις αποστάσεις των παρατηρούμενων από τις αναμενόμενες συχνότητες και αφορά το σύνολο των κελιών του πίνακα. Για να υπολογίσουμε το Χ 2 στο SPSS, στην επιλογή Statistics επιλέγουμε το Chisquare. Chi-Square Tests Value df Asymptotic Significance (2-sided) Pearson Chi-Square 79,277 a 2,000 Likelihood Ratio 95,463 2,000 N of Valid Cases 474 αν p > 0,05 δεν μπορούμε να απορρίψουμε την Η0 αν p < 0,05 απορρίπτουμε την Η0 και δεχόμαστε την Η1 Απάντηση: Το φύλο και η θέση εργασίας είναι εξαρτημένα.

37 T-Test Άσκηση Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means Sig. (2- Mean Std. Error 95% Con. Interval F Sig. t df tailed) Difference Difference Lower Upper Equal variances assumed,641,435,545 16,593,54444,99900-1,57333 2,66222 Equal variances not assumed,545 14,981,594,54444,99900-1,58511 2,67400 Ο έλεγχος που θα πρέπει να χρησιμοποιηθεί είναι ο 2 independent samples t-test για ισότητα των μέσων δυο ανεξάρτητων δειγμάτων: Απαιτείται να ελεγχθεί το ζεύγος υποθέσεων Η 0 :μ f =μ p versus Η α :μ f μ p Για να διεξαχθεί ο έλεγχος, εκτός της κανονικότητας της κατανομής των μεταβλητών θα πρέπει να γνωρίζουμε αν οι διακυμάνσεις των δυο πληθυσμών μπορούν να θεωρηθούν ίσες ή όχι (έτσι ώστε να χρησιμοποιηθεί ο κατάλληλος τύπος της ελεγχοσυνάρτησης). Το SPSS δίνει τον παρακάτω πίνακα αποτελεσμάτων

38 T-Test Άσκηση Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means Sig. (2- Mean Std. Error 95% Con. Interval F Sig. t df tailed) Difference Difference Lower Upper Equal variances assumed,641,435,545 16,593,54444,99900-1,57333 2,66222 Equal variances not assumed,545 14,981,594,54444,99900-1,58511 2,67400 Παρατηρούμε ότι ο έλεγχος των διακυμάνσεων δίνει p-value 0,435, μεγαλύτερο από κάθε σύνηθες επίπεδο σημαντικότητας. Άρα, τα στοιχεία δεν παρέχουν ενδείξεις για να απορρίψουμε την ισότητα των διακυμάνσεων στους δυο πληθυσμούς. Συνεχίζουμε λοιπόν, εξετάζοντας μόνο την πρώτη γραμμή του πίνακα αποτελεσμάτων (όπου δίδεται ο έλεγχος κάτω από την υπόθεση της ισότητας των διακυμάνσεων). Το p-value του ελέγχου για την ισότητα των μέσων είναι 0,593 και, επομένως, τα στοιχεία δεν παρέχουν επαρκείς ενδείξεις ώστε να θεωρήσουμε τους μέσους των δυο πληθυσμών άνισους. Κατά συνέπεια, ο ισχυρισμός του παραγωγού δεν ευσταθεί: οι μέσες τιμές των βαρών των κιβωτίων μπορούν να θεωρηθούν ίσες στις δυο υπό εξέταση χρονιές.

39 T-Test Άσκηση Ένας παραγωγός σταφυλιών ισχυρίζεται ότι τα κιβώτια σταφυλιών που συσκευάζει είναι βαρύτερα από τα κιβώτια που συσκεύασε την προηγούμενη χρονιά. Για να ελεγχθεί ο ισχυρισμός του, λαμβάνουμε ένα τυχαίο δείγμα από 9 κιβώτια της φετινής χρονιάς και 9 κιβώτια της προηγούμενης χρονιάς που είχαμε καταγράψει το βάρος τους. Οι μετρήσεις δίδονται στον πίνακα που ακολουθεί. Βάρος κιβωτίων του δείγματος (σε κιλά) Φέτος 20,0 18,5 17,6 15,0 14,8 16,7 21,6 15,2 16,0 Πέρυσι 19,0 16,0 18,0 15,5 15,0 16,0 20,0 16,0 15,0 Ερώτηση: Βάσει των πληροφοριών του δείγματος, μπορεί ο ισχυρισμός του να θεωρηθεί εύλογος;

40 Σύγκριση των μέσων τιμών μίας μεταβλητής Μη Παραμετρικό Τεστ Στους μη παραμετρικούς ελέγχους (Non-Parametric Statistics) δεν υπάρχει η προϋπόθεση της κανονικότητας. Ελέγχουν την ομοιογένεια (και όχι την ισότητα των μέσων τιμών) και χρησιμοποιούν βαθμούς διατακτικότητας (ranks). Η0:Υπάρχει ομοιογένεια στο ύψος των ανδρών και των γυναικών. Η1: Δεν υπάρχει ομοιογένεια στο ύψος των ανδρών και των γυναικών.. Εντολή: Analyze Nonparametric tests 2 Independent Samples Καρτέλα Fields: Test fields: current salary (ποσοτική μεταβλητή) Groups: minority classification (ποιοτική μεταβλητή) Καρτέλα Settings: επιλέγουμε το Customize Tests και στη συνέχεια το Mann-Whitney U (2 samples) Run

41 Σύγκριση των μέσων τιμών μίας μεταβλητής Μη Παραμετρικό Τεστ Το αντίστοιχο μη παραμετρικό ανάλογο του tτεστείναι το τεστ των Mann-Whitney-Wilcoxon. Η διαδικασία την οποία πρέπει να κάνουμε για εκτελέσουμε αυτό το μη παραμετρικό τεστ είναι ίδια με προηγουμένως (συνένωση των δύο μεταβλητών σε μία στήλη κ.λ.π.). Οι υποθέσεις σε αυτήν την περίπτωση ορίζονται ως εξής: Η 0 : Οι άνδρες και οι γυναίκες δεν διαφέρουν ως προς το ύψος τους Η1: Οι άνδρες και οι γυναίκες διαφέρουν ως προς το ύψος τους Εντολή: Analyze Nonparametric Tests 2 Independent Samples

42 Σύγκριση των μέσων τιμών μίας μεταβλητής Μη Παραμετρικό Τεστ Test Statistics a ypsos Mann-Whitney U 818,500 Wilcoxon W 2648,500 Z -2,685 Asymp. Sig. (2-tailed),007 a. Grouping Variable: sex Μας ενδιαφέρει κυρίως η γραμμή της Asymp. Sig. (2-tailed). Η τιμή p-value που υπολογίζεται μέσω του τεστ είναι 0,007. Αφού είναι μικρότερη του 0,05 οδηγούμαστε στο συμπέρασμα ότι μπορούμε να απορρίψουμε την μηδενική υπόθεση. Με βάση το Significance δεχόμαστε ή απορρίπτουμε την H0 αν p > 0,05 δεν μπορούμε να απορρίψουμε την Η0 αν p < 0,05 απορρίπτουμε την Η0 και δεχόμαστε την Η1 Στην περίπτωσή μας: p = 0,0070 δηλαδή p < 0,05 άρα απορρίπτουμε την Η0 και δεχόμαστε την Η1 Απάντηση: Δεν υπάρχει ομοιογένεια στο ύψος ανδρών και γυναικών. Άρα ο μέσος όρος του ύψους των ανδρών διαφέρει με στατιστικά σημαντικό τρόπο από τον μέσο όρο του ύψουςτων γυναικών

43 Ζευγαρωτό T-test Παραμετρικό (Παράδειγμα Ι) Είδαμε πως να κάνουμε έλεγχο υποθέσεων για δύο ανεξάρτητα δείγματα. Τι γίνεται όμως όταν τα δύο δείγματα δεν είναι, ή δεν μπορούμε να υποθέσουμε ότι είναι ανεξάρτητα; Τηναπάντησητηδίνουντοtτεστγια ζεύγη παρατηρήσεων και ο έλεγχος των προσημασμένων τάξεων μεγέθους του Wilcoxon για δείγμα ζευγών παρατηρήσεων. Κλασικό παράδειγμα εφαρμογής των δύο αυτών τεστ είναι στην ιατρική, όταν έχουμε μετρήσεις γιακάποιαάτομαπρινκαιμετάαπόμίαδίαιτακαιενδιαφερόμαστεναδούμεκατά πόσο ήταν αποτελεσματική η δίαιτα ή όχι. Και τις δύο φορές μετρήσαμε το βάρος των ίδιων ατόμων.άρα γίνεται σαφές ότι τα μεγέθη των δύο δειγμάτων πρέπει να είναι απαραίτητα ίσα.

44 Ζευγαρωτό T-test Παραμετρικό (Παράδειγμα Ι) Παράδειγμα : Για τον έλεγχο της αποτελεσματικότητας ενός σκευάσματος που καταπολεμά την παχυσαρκία, χορηγήθηκε συγκεκριμένη ποσότητά του σε 20 κατάλληλα πειραματόζωα. Σε καθένα από αυτά καταγράφηκε το βάρος του αμέσως πριν και μια εβδομάδα μετά την χορήγηση του σκευάσματος (test5). Για το t τεστ εργαζόμαστε ως εξής: επιλέγουμε Analyze Compare Means Paired - Samples T Test Paired Samples Statistics Mean N Std. Deviation Std. Error Mean Pair 1 prin 80,9700 20 5,50551 1,23107 meta 79,1850 20 5,01779 1,12201 Ο πρώτος πίνακας (Paired Samples Statistics) περιέχει το μέγεθος των δειγμάτων, τους μέσους, τις τυπικές αποκλίσεις των μέσων και τις τυπικές αποκλίσεις κάθε δείγματος.

45 Ζευγαρωτό T-test Παραμετρικό (Παράδειγμα Ι) Paired Samples Correlations N Correlation Sig. Pair 1 prin & meta 20,824,000 Τα δεδομένα που χρησιμοποιήθηκαν στο παράδειγμα προέρχονται από μέτρηση του βάρους 20 πειραματόζωων που χρησιμοποιήθηκαν για τον έλεγχο της αποτελεσματικότητας ενός σκευάσματος που καταπολεμά την παχυσαρκία πριν και μετά την χορήγηση του. Πρόκειται δηλαδή για τα ίδια πειραματόζωα γεγονός που είναι εύλογο να υποθέσουμε εξάρτηση μεταξύ των δύο μετρήσεων του βάρους. Ο πίνακας (Paired Samples Correlations) επιβεβαιώνει την υπόθεση αυτή. Ο συντελεστής γραμμικής συσχέτισης που υπολογίστηκε έχει υψηλή τιμή, φανερώνοντας υψηλή γραμμική συσχέτιση μεταξύ των δύο μετρήσεων. Το παρατηρηθέν επίπεδο στατιστικής σημαντικότητας για τον έλεγχο της υπόθεσης ότι δεν υπάρχει γραμμική συσχέτιση μεταξύ των δύο μετρήσεων βάρους είναι ίσο με 0, γεγονός που σημαίνει ότι ο συντελεστής γραμμικής συσχέτισης είναι στατιστικά σημαντικός

46 Ζευγαρωτό T-test Παραμετρικό (Παράδειγμα Ι) Paired Samples Test Paired Differences 95% Confidence Interval of Std. Std. Error the Difference Mean Deviation Mean Lower Upper t df Sig. (2-tailed) Pair 1 prin - meta 1,78 3,15,70548,30842 3,26158 2,530 19,020 Η τελευταία στήλη του παραπάνω πίνακα περιέχει το παρατηρηθέν επίπεδο στατιστικής σημαντικότητας, το οποίο είναι ίσο με 0,02 Αφού είναι μικρότερο του 0,05 συμπεραίνουμε ότι οι μέσοι των δύο μετρήσεων του βάρους πριν και μετά την χορήγηση του σκευάσματος διαφέρουν με στατιστικά σημαντικό τρόπο. Επομένων το σκεύασμα έφερε τα επιδιωκόμενα αποτελέσματα.

47 Ζευγαρωτό T-test Παραμετρικό (Παράδειγμα ΙΙ) Προϋποθέσεις: Δύο ποσοτικές μεταβλητές (που πρέπει να αναφέρονται στο ίδιο πράγμα) Κανονικότητα Ερώτημα: Αρχείο Emploee data.sav. Να ελεγχθεί αν υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στον αρχικό και τον τωρινό μισθό. Έλεγχος κανονικότητας Η0: Η μεταβλητή ακολουθεί την κανονική κατανομή. Η1: Η μεταβλητή δεν ακολουθεί την κανονική κατανομή. Εντολή: Analyze Descriptive Statistics Explore Dependent list: current salary & beginning salary (βάζουμε και τις δύο ποσοτικές μεταβλητές) Factor list: δεν βάζουμε τίποτα γιατί δεν έχουμε ποιοτική μεταβλητή (προσοχή!) Στην επιλογή Plots επιλέγουμε το Normality plots with tests

48 Ζευγαρωτό T-test Παραμετρικό (Παράδειγμα ΙΙ) Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. Current Salary,208 474,000,771 474,000 Beginning Salary,252 474,000,715 474,000 κοιτάζουμε το Kolmogorov-Smirnov Test για Ν > 50 κοιτάζουμε το Shapiro-Wilk για Ν 50 (το Ν φαίνεται από τη στήλη df) και στα δύο αυτά τεστ και για τις δύο μεταβλητές μας ενδιαφέρει το Significance αν p > 0,05 δεν μπορούμε να απορρίψουμε την Η0 αν p < 0,05 απορρίπτουμε την Η0 και δεχόμαστε την Η1 Εάν υπάρχει κανονικότητα συνεχίζουμε το ζευγαρωτό T-Test. Αν δεν υπάρχει κανονικότητα κάνουμε μη παραμετρικούς ελέγχους (Non-Parametric Statistics) εναλλακτικά στο ζευγαρωτό T-Test. Στην περίπτωσή μας: current salary: p = 0,000 στο Kolmogorov-Smirnov test, δηλαδή p < 0,05 άρα απορρίπτουμε την Η0 και δεχόμαστε την Η1(δεν υπάρχει κανονικότητα) beginning salary: p = 0,000 στο Kolmogorov-Smirnov test, δηλαδή p < 0,05 άρα απορρίπτουμε την Η0 και δεχόμαστε την Η1 (δεν υπάρχει κανονικότητα)

49 Ζευγαρωτό T-test Παραμετρικό (Παράδειγμα ΙΙ) Καταχρηστικά θα προχωρήσουμε στο ζευγαρωτό T-Test σαν να είχαμε κανονικότητα για χάρη του παραδείγματος. Υποθέσεις Η0: μ1 = μ2 Η1: μ1 μ2 όπου μ1: μέσος αρχικός μισθός και μ2: μέσος τωρινός μισθός Εντολή: Analyze Compare means Paired-Samples T-Test Pair 1 Current Salary & Beginning Salary Paired Samples Correlations N Correlation Sig. 474,880,000 στον πίνακα «Paired Samples Correlations» μας ενδιαφέρει το correlation, ο συντελεστής συσχέτισης. Παίρνει τιμές από -1 μέχρι 1 (- αρνητική συσχέτιση, + θετική συσχέτιση). Θέλουμε να έχει υψηλή θετική τιμή (πάνω από 0,4) αλλιώς δεν κάνουμε T-Test.

50 Ζευγαρωτό T-test Παραμετρικό (Παράδειγμα ΙΙ) στον πίνακα «Paired Samples Test» δηλώνουμε το t (t = 35,036) και το df (df = 473) και με βάση το Sig. (2-tailed) δεχόμαστε ή απορρίπτουμε την H0. Paired Samples Test Paired Differences t df Sig. (2- Mean Std. Deviation Std. Error Mean 95% Confidence Interval of the Difference tailed) Lower Upper Pair 1 Current Salary - Beginning Salary 17403,481 10814,620 496,732 16427,407 18379,555 35,036 473,000 Στην περίπτωσή μας: p = 0,000 δηλαδή p < 0,05 άρα απορρίπτουμε την Η0 (μ1 = μ2) και αποδεχόμαστε την Η1 (μ1 μ2) Απάντηση: Υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στον αρχικό και τον τωρινό μισθό.

51 Ζευγαρωτό T-test Μη Παραμετρικό (Παράδειγμα Ι) Το t τεστ όμως προϋποθέτει κανονικότητα των δεδομένων αν και αυτό το πρόβλημα μπορεί να ξεπεραστεί. Το αντίστοιχο μη παραμετρικό τεστ του Wilcoxon εκτελείται στο SPSS επιλέγοντας τα εξής: Analyze Nonparametric Tests 2 Related Samples Test Statistics b meta - prin Z -2,278 a Asymp. Sig. (2-tailed),023 a. Based on positive ranks. b. Wilcoxon Signed Ranks Test Μας ενδιαφέρει κυρίως η γραμμή της Asymp. Sig. (2-tailed). Η τιμή p-value που υπολογίζεται μέσω του τεστ είναι 0,023. Αφού είναι μικρότερητου 0,05, οδηγούμαστε στο συμπέρασμα ότι μπορούμε να απορρίψουμε την μηδενική υπόθεση. Δηλαδή συμπεραίνουμε ότι οι μέσοι των δύο μετρήσεων του βάρους πριν και μετά την χορήγηση του σκευάσματος διαφέρουν με στατιστικά σημαντικό τρόπο

52 Ζευγαρωτό T-test Μη Παραμετρικό (Παράδειγμα ΙΙ) Ερώτημα: Να ελεγχθεί αν υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στον αρχικό και τον τωρινό μισθό. Η0: Υπάρχει ομοιογένεια ανάμεσα στον αρχικό και τον τωρινό μισθό. Η1: Δεν υπάρχει ομοιογένεια ανάμεσα στον αρχικό και τον τωρινό μισθό. Εντολή: Analyze Nonparametric Tests Related Samples Στην καρτέλα Fields στο Test Fields περνάμε τα current & beginning salary Στην καρτέλα Settings επιλέγουμε το Customize Tests και στη συνέχεια το Wilcoxon matched-pair signedrank (2 samples)

53 Ζευγαρωτό T-test Μη Παραμετρικό (Παράδειγμα ΙΙ) Με βάση το Significance δεχόμαστε ή απορρίπτουμε την H0 αν p > 0,05 δεν μπορούμε να απορρίψουμε την Η0 αν p < 0,05 απορρίπτουμε την Η0 και δεχόμαστε την Η1 Στην περίπτωσή μας: p = 0,000 δηλαδή p < 0,05 άρα απορρίπτουμε την Η0 και δεχόμαστε την Η1 Απάντηση: Δεν υπάρχει ομοιογένεια ανάμεσα στον αρχικό και τον τωρινό μισθό και επομένως υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στον αρχικό και τον τωρινό μισθό.

54 Ζευγαρωτό T-test Άσκηση Ένας παραγωγός σταφυλιών ισχυρίζεται ότι μπορεί να υπολογίσει ικανοποιητικά το βάρος των κιβωτίων σταφυλιών που συσκευάζει χωρίς να χρησιμοποιεί ζυγαριά. Για να ελεγχθεί ο ισχυρισμός του, λαμβάνουμε ένα τυχαίο δείγμα από 9 κιβώτια τα οποία ζυγίζουμε και στη συνέχειατουταδίνουμεγιαναυπολογίσει το βάρος τους, χωρίς να γνωρίζει το πραγματικό βάρος που έδειξε η ζυγαριά. Οι μετρήσεις δίδονται στον πίνακα που ακολουθεί.. Βάρος κιβωτίων του δείγματος (σε κιλά) Ζυγαριά 20,0 18,5 17,6 15,0 14,8 16,7 21,6 15,2 16,0 Εκτίμηση 19,0 16,0 18,0 15,5 15,0 16,0 20,0 16,0 15,0 Ερώτηση: Βάσει των πληροφοριών του δείγματος, μπορεί ο ισχυρισμός του να θεωρηθεί εύλογος;

55 Ζευγαρωτό T-test Άσκηση Paired Samples Test Paired Differences zigaria - ektimisi Mean Std. Deviation Std. Error Mean 95% Confidence Interval of the Difference Lower Upper,54444 1,10240,36747 -,30293 1,39182 1,482 8,177 t df Sig. (2- tailed) Τα δείγματα προφανώς είναι εξαρτημένα και ο έλεγχος που θα πρέπει να χρησιμοποιηθεί είναι ο paired samples t-test για ισότητα των μέσων των δυο δειγμάτων: Απαιτείται να ελεγχθεί το ζεύγος υποθέσεων Η 0 :μ ζ =μ ε versus Η α :μ ζ μ ε άρα, ισοδύναμα, θα μπορούσαμε να δημιουργήσουμε τη διαφορά των δυο μεταβλητών και κατόπιν να ελέγξουμε αν η μεταβλητή αυτή μπορεί να έχει μέσο το 0 στον πληθυσμό ή όχι). Το SPSS δίνει τον παρακάτω πίνακα αποτελεσμάτων

56 Ζευγαρωτό T-test Άσκηση Paired Samples Test Paired Differences zigaria - ektimisi Mean Std. Deviation Std. Error Mean 95% Confidence Interval of the Difference Lower Upper,54444 1,10240,36747 -,30293 1,39182 1,482 8,177 t df Sig. (2- tailed) Το p-value 0,177 είναι μεγαλύτερο από τα συνήθη επίπεδα σημαντικότητας και, κατά, συνέπεια, η διαφορά του μέσου των βαρών (υπολογισμός ζυγαριάς-παραγωγού) δεν είναι στατιστικά σημαντική. Ο παραγωγός πράγματι εκτιμά μέσο βάρος όσο και η ζυγαριά. Παρατηρήστε ότι τα δείγματα είναι ακριβώς τα ίδια με την προηγούμενη άσκηση η πληροφορία όμως περί εξαρτημένων δειγμάτων, δίνει εντελώς διαφορετικά αποτελέσματα.

57 Συντελεστές γραμμικής συσχέτισης Οι συντελεστές που θα εξετάσουμε αναφέρονται στη γραμμικής φύσεως σχέση που μπορεί να συνδέει τις δύο μεταβλητές. Οι τιμές που μπορεί να πάρει ένας συντελεστής συσχέτισης είναι από -1 έως +1. Αρνητικές τιμές του συντελεστή γραμμικής συσχέτισης δύο μεταβλητών σημαίνει ότι έχουμε την ύπαρξη αρνητικής γραμμικής συσχέτισης. Δηλαδή, οι μεγαλύτερες τιμές της μίας μεταβλητής τείνουν να αντιστοιχούν στις μικρότερες τιμές της άλλης μεταβλητής. Θετικές τιμές του συντελεστή γραμμικής συσχέτισης είναι ένδειξη θετικής γραμμικής συσχέτισης μεταξύ των δύο μεταβλητών. Δηλαδή, οι μεγαλύτερες τιμές της μίας μεταβλητής τείνουν να αντιστοιχούν στις μεγαλύτερες τιμές της άλλη μεταβλητής. Τιμές κοντά στο μηδέν αποτελούν ένδειξη ότι δεν υπάρχει στατιστικά σημαντική γραμμική συσχέτιση μεταξύ των δύο μεταβλητών. Όσο πιο μεγάλες είναι οι τιμές του συντελεστή, ή όσο πιο κοντά βρίσκονται στη μονάδα (σε απόλυτη τιμή πάντα), τόσο πιο ισχυρή είναι η γραμμική συσχέτιση μεταξύ τους. Οι πιο γνωστοί συντελεστές γραμμικής συσχέτισης είναι οι συντελεστές του Pearson, του Spearman και του Kendall.

58 Συντελεστές Συσχέτισης Συσχέτιση δε σημαίνει σχέση ή αιτιότητα, αλλά εμφάνιση ταυτόχρονη ή με την ίδια ή αντίθετη φορά. θετική συσχέτιση: μεγαλώνει το ένα μεγαλώνει και το άλλο, μικραίνει το ένα μικραίνει και το άλλο (π.χ. ) αρνητική συσχέτιση: μεγαλώνει το ένα μικραίνει το άλλο Συντελεστής Συσχέτισης του PEARSON Ο συντελεστής του Pearson είναι συντελεστής γραμμικής συσχέτισης, συμβολίζεται με r και παίρνει τιμές από -1 έως 1 (-1 r 1). Χρησιμοποιείται σε ποσοτικές μεταβλητές. -1 έως -0,5 θεωρούμε ότι είναι υψηλός αρνητικός συντελεστής συσχέτισης -0,5 έως -0,2: θεωρούμε ότι είναι χαμηλός αρνητικός συντελεστής συσχέτισης -0,2 έως 0,2: θεωρούμε ότι ο συντελεστής συσχέτισης είναι μηδενικός 0,2 έως 0,5: θεωρούμε ότι είναι χαμηλός θετικός συντελεστής συσχέτισης 0,5 έως 1: θεωρούμε ότι είναι υψηλός θετικός συντελεστής συσχέτισης

59 Συντελεστές γραμμικής συσχέτισης Η μηδενική και η εναλλακτική υπόθεση εδώ είναι οι εξής: Η 0 : ρ=0 ή δεν υπάρχει γραμμική συσχέτιση μεταξύ των δύο μεταβλητών Η1: ρ 0 ή υπάρχει γραμμική συσχέτιση μεταξύ των δύο μεταβλητών Ο συντελεστής συσχέτισης του Pearson χρειάζεται την υπόθεση της κανονικότητας των δεδομένων, σε αντίθεση με τους άλλους δύο που δεν χρειάζονται την υπόθεση της κανονικότητας των δεδομένων. Βέβαια, για μεγάλα δείγματα, μεγέθους 30 παρατηρήσεων και πάνω και όσο το μέγεθος του δείγματος μεγαλώνει η θεωρία μας λέει ότι οι τιμές των συντελεστών πλησιάζουν ημία την άλλη. Η κύρια διαφορά των συντελεστών είναι ότι ο συντελεστής του Pearson υπολογίζεται με βάση τα δεδομένα, ενώ οι άλλοι δύο υπολογίζονται με βάση τις τάξεις μεγέθους των δεδομένων. Ειδικότερα, ο συντελεστής του Spearman είναι ο συντελεστής του Pearson στην ουσία υπολογισμένος για τις τάξεις μεγέθους των δεδομένων. Το γεγονός λοιπόν ότι οι συντελεστές του Spearman και του Kendall υπολογίζονται με βάση τις τάξεις μεγέθους των δεδομένων είναι που επιτρέπει την ελευθερία ως προς τη μη ικανοποίηση της κανονικότητας των μεταβλητών.

60 Συντελεστές γραμμικής συσχέτισης Για να υπολογίσουμε τους τρεις αυτούς συντελεστές συσχέτισης στο SPSS επιλέγουμε τα εξής: Analyze Correlate Bivariate Στο κουτάκι variables πρέπει να περάσουμε τουλάχιστον δύο μεταβλητές, διότι οι συντελεστές συσχέτιση υπολογίζονται για ζεύγη μεταβλητών. Οπότε αν περάσουμε περισσότερες από δύο μεταβλητές, θα υπολογιστούν οι συντελεστές γραμμικής συσχέτισης για όλα τα ζεύγη των μεταβλητών. Βλέπουμε ότι μόνο ο συντελεστής του Pearson είναι επιλεγμένος. Αν θέλουμε να εμφανιστούν και οι άλλοι δύο συντελεστές απλά τους επιλέγουμε. Η επιλογή Options μας δίνει τη δυνατότητα εμφάνισης των μέσων, των τυπικών αποκλίσεων και των πληθών των τιμών για κάθε μεταβλητή. Παρατηρήστε ότι στο κάτω αριστερό μέρος του παραθύρου είναι επιλεγμένη μία επιλογή (Flag significant correlations).

61 Συντελεστές γραμμικής συσχέτισης - Αποτελέσματα Correlations chol drug chol Pearson Correlation 1,000,354 ** Sig. (2-tailed),006 N 60 60 drug Pearson Correlation,354 ** 1,000 Sig. (2-tailed),006 N 60 60 **. Correlation is significant at the 0.01 level (2-tailed). Correlations chol drug Spearman's rho chol Correlation Coefficient 1,000,357 ** Sig. (2-tailed).,005 N 60 60 drug Correlation Coefficient,357 ** 1,000 Sig. (2-tailed),005. N 60 60 **. Correlation is significant at the 0.01 level (2-tailed). Βλέπουμε ότι για όλες τις τιμές των συντελεστών γραμμικής συσχέτισης υπάρχουν δύο αστεράκια. Αυτό γίνεται μέσω της επιλογής Flag significant correlations. Κάτω από κάθε τιμή του συντελεστή συσχέτισης εμφανίζεται μία p-value (Sig. (2-tailed)). Η p- value που έχει υπολογιστεί για κάθε συντελεστή ξεχωριστά και αναφέρεται στον έλεγχο της υπόθεσης ότι στο συγκεκριμένο ζεύγος μεταβλητών δεν υπάρχει γραμμική συσχέτιση. Αφού το παρατηρηθέν επίπεδο στατιστικής σημαντικότητας είναι μικρότερο του 0,05, συμπεραίνουμε ότι αυτή η υπόθεση απορρίπτεται σε α=0,05. Άρα υπάρχει στατιστικά σημαντική γραμμική συσχέτιση μεταξύ του ζεύγους. Στην περίπτωση που η p-value είναι μικρότερη του 0,01, τότε ο συντελεστής συσχέτισης εμφανίζεται με δύο αστεράκια αντί για μόνο ένα.

62 Συντελεστές γραμμικής συσχέτισης - Αποτελέσματα Σε αυτό το σημείο καλό θα ήταν να αναφέρουμε ότι ο συντελεστής του Kendall μπορεί να χρησιμοποιηθεί και στην περίπτωση που έχουμε κατηγορικές μεταβλητές οι οποίες όμως είναι υποχρεωτικά σε κλίμακα διάταξης. Είναι δηλαδή διατακτικές κατηγορικές μεταβλητές. Ακόμα να αναφέρουμε ότι με το συντελεστή γραμμικής συσχέτισης ελέγχουμε αν σεένα ζεύγος μεταβλητών υπάρχει γραμμική συσχέτιση μόνο. Δηλαδή μπορεί να υπάρχει συσχέτιση μεταξύ των δύο μεταβλητών, αλλά όχι γραμμικής φύσεως. Σε αυτήν την περίπτωση αυτή η σχέση που συνδέει τις δύο μεταβλητές δεν μπορεί να ανιχνευτεί με το συντελεστή γραμμικής συσχέτισης. Οπότε προσοχή στην ερμηνεία που δίνουμε στο συντελεστή συσχέτισης. Να υπενθυμίσουμε επίσης ότι η λογική με την οποία απορρίπτουμε ή όχι μία υπόθεση είναι πάντα η ίδια. Αν το παρατηρηθέν επίπεδο στατιστικής σημαντικότητας είναι μικρότερο του 0,05 η υπόθεση απορρίπτεται. Στην αντίθετη περίπτωση δεν απορρίπτεται

63 Συντελεστές Συσχέτισης Παράδειγμα ΙΙ Ερώτημα: Να βρεθούν οι συντελεστές συσχέτισης ανάμεσα στον αρχικό και τον τωρινό μισθό. Εντολή: Analyze Correlate Bivariate Variables: current salary & beginning salary (βάζουμε όλες τις μεταβλητές) Στο πλαίσιο Correlation Coefficients επιλέγουμε συντελεστές συσχέτισης (στην περίπτωσή μας το Pearson). Η0: Δεν υπάρχει συσχέτιση (ο συντελεστής συσχέτισης είναι μηδενικός). Η1: Υπάρχει συσχέτιση (ο συντελεστής συσχέτισης δεν είναι μηδενικός πληθυσμό). ΠΡΟΣΟΧΗ! Δεν δηλώνουμε τις υποθέσεις στις συσχετίσεις (είναι για δική μας ευκολία).

64 Συντελεστές Συσχέτισης Παράδειγμα ΙΙ Current Salary Beginning Salary Correlations Current Salary Beginning Salary Pearson Correlation 1,880 ** Sig. (2-tailed),000 N 474 474 Pearson Correlation,880 ** 1 Sig. (2-tailed),000 N 474 474 μας ενδιαφέρει το Pearson Correlation και δηλώνουμε το r στην περίπτωσή μας, r = 0,88 άρα έχουμε υψηλό θετικό συντελεστή συσχέτισης με βάση το Significance ελέγχουμε αν επαληθεύεται ή όχι το Η0 αν p > 0,05 δεν μπορούμε να απορρίψουμε την Η0 αν p < 0,05 απορρίπτουμε την Η0 και δεχόμαστε την Η1 Μέσα στα κελιά συχνά εμφανίζονται ένα ή δύο αστεράκια. Ένα αστεράκι * δηλώνει ότι η συσχέτιση είναι στατιστικά σημαντική σε επίπεδο 0,05. Δύο αστεράκια ** δηλώνουν ότι η συσχέτιση είναι στατιστικά σημαντική σε επίπεδο 0,01. Πάντα κοιτάζουμε μόνο το κάτω τρίγωνο που σχηματίζει η διαγώνιος με τις μονάδες Αυτό που εμείς πρέπει να δηλώνουμε είναι ότι η συσχέτιση (r = 0,88) είναι υψηλή θετική και στατιστικά σημαντική σε επίπεδο σημαντικότητας σε επίπεδο 0,01.

65 Ζευγαρωτό T-test Παράδειγμα ΙΙ