ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης
Άσκηση 1 η Ένας παραγωγός σταφυλιών ισχυρίζεται ότι τα κιβώτια σταφυλιών που συσκευάζει έχουν βάρος 19 κιλά κατά μέσο όρο. Για να ελεγχθεί ο ισχυρισμός του, λαμβάνουμε ένα τυχαίο δείγμα από 10 κιβώτια. Οι μετρήσεις δίδονται στον πίνακα που ακολουθεί. Βάρος κιβωτίων του δείγματος (σε κιλά) 12,0 20,0 18,5 17,6 15,0 14,8 16,7 21,6 15,2 16,0 Βάσει των πληροφοριών του δείγματος, μπορεί ο ισχυρισμός του να θεωρηθεί εύλογος σε α=5%; (σε όλες τις ασκήσεις υποθέτουμε κανονικότητα, όπου αυτή απαιτείται) Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 2
Άσκηση 1 η (απάντηση) Απαιτείται να ελεγχθεί το ζεύγος υποθέσεων Η 0 : μ=19 versus Η α : μ 19 Εφόσον έχουμε άγνωστη την πληθυσμιακή διακύμανση και μικρό μέγεθος δείγματος, θα χρησιμοποιήσουμε το one sample t test. Τα αποτελέσματα του SPSS δίδονται στους παρακάτω πίνακες. One-Sample Statistics N Mean Std. Deviation Std. Error Mean varos 10 16,7400 2,79412,88358 One-Sample Test Test Value = 19 95% Confidence Interval of the Difference t df Sig. (2-tailed) Mean Difference Lower Upper varos -2,558 9,031-2,26000-4,2588 -,2612 Το p-value (0,031) είναι μικρότερο του προκαθορισμένου επιπέδου σημαντικότητας (0,031<0.05) και, κατά συνέπεια, η αρχική υπόθεση απορρίπτεται. Επομένως, το βάρος του πληθυσμού των κιβωτίων δεν μπορεί να είναι ίσο με 19 κιλά Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 3
Άσκηση 2 η Ένας παραγωγός σταφυλιών ισχυρίζεται ότι τα κιβώτια σταφυλιών που συσκευάζει είναι βαρύτερα από τα κιβώτια που συσκεύασε την προηγούμενη χρονιά. Για να ελεγχθεί ο ισχυρισμός του, λαμβάνουμε ένα τυχαίο δείγμα από 9 κιβώτια της φετινής χρονιάς και 9 κιβώτια της προηγούμενης χρονιάς που είχαμε καταγράψει το βάρος τους. Οι μετρήσεις δίδονται στον πίνακα που ακολουθεί.. Βάρος κιβωτίων του δείγματος (σε κιλά) Φέτος 20,0 18,5 17,6 15,0 14,8 16,7 21,6 15,2 16,0 Πέρυσι 19,0 16,0 18,0 15,5 15,0 16,0 20,0 16,0 15,0 Βάσει των πληροφοριών του δείγματος, μπορεί ο ισχυρισμός του να θεωρηθεί εύλογος; Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 4
Άσκηση 2 η (απάντηση) Ο έλεγχος που θα πρέπει να χρησιμοποιηθεί είναι ο 2 independent samples t-test για ισότητα των μέσων δυο ανεξάρτητων δειγμάτων: Απαιτείται να ελεγχθεί το ζεύγος υποθέσεων Η 0 : μ f = μ p versus Η α : μ f μ p Για να διεξαχθεί ο έλεγχος, εκτός της κανονικότητας της κατανομής των μεταβλητών θα πρέπει να γνωρίζουμε αν οι διακυμάνσεις των δυο πληθυσμών μπορούν να θεωρηθούν ίσες ή όχι (έτσι ώστε να χρησιμοποιηθεί ο κατάλληλος τύπος της ελεγχοσυνάρτησης). παρακάτω πίνακα αποτελεσμάτων Levene's Test for Equality of Variances F Sig. t df Independent Samples Test t-test for Equality of Means Το SPSS δίνει τον Παρατηρούμε ότι ο έλεγχος των διακυμάνσεων δίνει p-value 0,435, μεγαλύτερο από κάθε σύνηθες επίπεδο σημαντικότητας. Άρα, τα στοιχεία δεν παρέχουν ενδείξεις για να απορρίψουμε την ισότητα των διακυμάνσεων στους δυο πληθυσμούς. Συνεχίζουμε λοιπόν, εξετάζοντας μόνο την πρώτη γραμμή του πίνακα αποτελεσμάτων (όπου δίδεται ο έλεγχος κάτω από την υπόθεση της ισότητας των διακυμάνσεων). Το p-value του ελέγχου για την ισότητα των μέσων είναι 0,593 και, επομένως, τα στοιχεία δεν παρέχουν επαρκείς ενδείξεις ώστε να θεωρήσουμε τους μέσους των δυο πληθυσμών άνισους. Κατά συνέπεια, ο ισχυρισμός του παραγωγού δεν ευσταθεί: οι μέσες τιμές των βαρών των κιβωτίων μπορούν να θεωρηθούν ίσες στις δυο υπό εξέταση χρονιές. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 5 Sig. (2- tailed) Mean Difference Std. Error Difference 95% Con. Interval Equal variances assumed,641,435,545 16,593,54444,99900-1,57333 2,66222 Equal variances not assumed,545 14,981,594,54444,99900-1,58511 2,67400 Lower Upper
Άσκηση 3 η Ένας παραγωγός σταφυλιών ισχυρίζεται ότι μπορεί να υπολογίσει ικανοποιητικά το βάρος των κιβωτίων σταφυλιών που συσκευάζει χωρίς να χρησιμοποιεί ζυγαριά. Για να ελεγχθεί ο ισχυρισμός του, λαμβάνουμε ένα τυχαίο δείγμα από 9 κιβώτια τα οποία ζυγίζουμε και στη συνέχεια του τα δίνουμε για να υπολογίσει το βάρος τους, χωρίς να γνωρίζει το πραγματικό βάρος που έδειξε η ζυγαριά. Οι μετρήσεις δίδονται στον πίνακα που ακολουθεί.. Βάρος κιβωτίων του δείγματος (σε κιλά) Ζυγαριά 20,0 18,5 17,6 15,0 14,8 16,7 21,6 15,2 16,0 Εκτίμηση 19,0 16,0 18,0 15,5 15,0 16,0 20,0 16,0 15,0 Βάσει των πληροφοριών του δείγματος, μπορεί ο ισχυρισμός του να θεωρηθεί εύλογος; Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 6
Άσκηση 3 η (απάντηση) Τα δείγματα προφανώς είναι εξαρτημένα και ο έλεγχος που θα πρέπει να χρησιμοποιηθεί είναι ο paired samples t-test για ισότητα των μέσων των δυο δειγμάτων: Απαιτείται να ελεγχθεί το ζεύγος υποθέσεων Η 0 : μ ζ = μ ε versus Η α : μ ζ μ ε άρα, ισοδύναμα, θα μπορούσαμε να δημιουργήσουμε τη διαφορά των δυο μεταβλητών και κατόπιν να ελέγξουμε αν η μεταβλητή αυτή μπορεί να έχει μέσο το 0 στον πληθυσμό ή όχι). Το SPSS δίνει τον παρακάτω πίνακα αποτελεσμάτων Paired Samples Test Paired Differences 95% Confidence Interval of the Std. Std. Error Difference Sig. (2- Mean Deviation Mean Lower Upper t df tailed) zigaria - ektimisi,54444 1,10240,36747 -,30293 1,39182 1,482 8,177 Το p-value 0,177 είναι μεγαλύτερο από τα συνήθη επίπεδα σημαντικότητας και, κατά, συνέπεια, η διαφορά του μέσου των βαρών (υπολογισμός ζυγαριάς-παραγωγού) δεν είναι στατιστικά σημαντική. Ο παραγωγός πράγματι εκτιμά μέσο βάρος όσο και η ζυγαριά. Παρατηρήστε ότι τα δείγματα είναι ακριβώς τα ίδια με την προηγούμενη άσκηση η πληροφορία όμως περί εξαρτημένων δειγμάτων, δίνει εντελώς διαφορετικά αποτελέσματα. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 7
Άσκηση 4 η Σε ένα τεστ δεξιοτήτων υπολογίζεται ο συνολικός χρόνος που απαιτείται για την πραγματοποίηση μιας σειράς από απλές χειρονακτικές διαδικασίες σε 8 παιδιά με μαθησιακές δυσκολίες και σε 7 χωρίς μαθησιακά προβλήματα. Υπάρχει διαφορά μεταξύ των χρόνων των δύο ομάδων; Παιδιά χωρίς μαθησιακά προβλήματα Παιδιά με μαθησιακά προβλήματα Χρόνος Θέση στην ενιαία διάταξη Χρόνος Θέση στην ενιαία διάταξη 183 1 202 4 191 2 220 7 197 3 228 9 204 5 239 11 218 6 242 12 227 8 243 13 233 10 261 14 343 15 Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 8
Άσκηση 4 η (απάντηση) Ο έλεγχος που θα πρέπει να χρησιμοποιηθεί είναι ο Non parametric Tests 2 Independent Samples για την ισότητα των μέσων δυο ανεξάρτητων δειγμάτων που δεν κατανέμονται σύμφωνα με την κανονική κατανομή : Απαιτείται να ελεγχθεί το ζεύγος υποθέσεων Η 0 : μ χμπ = μ μμπ versus Η α : μ χμπ μ μμπ Test Statistics b VAR00001 Mann-Whitney U 7,000 Wilcoxon W 35,000 Z -2,430 Asymp. Sig. (2-tailed),015 Exact Sig. [2*(1-tailed Sig.)],014 a a. Not corrected for ties. Μας ενδιαφέρει κυρίως η γραμμή της Asymp. Sig. (2- tailed). Η τιμή p-value που υπολογίζεται μέσω του τεστ είναι 0,015. Αφού είναι μικρότερη του 0,05 οδηγούμαστε στο συμπέρασμα ότι μπορούμε να απορρίψουμε την μηδενική υπόθεση. b. Grouping Variable: VAR00002 Δηλαδή ότι ο μέσος όρος του χρόνου των παιδιών χωρίς μαθησιακά προβλήματα διαφέρει στατιστικά σημαντικό τρόπο από τον μέσο όρο του χρόνου των παιδιών με μαθησιακά προβλήματα Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 9
Άσκηση 5 η Σε μια έρευνα που έγινε στο πανεπιστήμιο Μελβούρνης επελέγη τυχαία ένα δείγμα αντρών και γυναικών διαφόρων ηλικιών το οποίο και υποβλήθηκε σε ένα τεστ αντοχής στον (σωματικό) πόνο. Στον ακόλουθο πίνακα δίνεται για κάθε ένα άτομο του δείγματος ο δείκτης αντοχής στον πόνο ο οποίος εξήχθη με βάση το τεστ αυτό (μεγαλύτερος δείκτης σημαίνει μεγαλύτερη αντοχή). Σε κάθε άτομο του δείγματος καταγράφεται επίσης και το (φυσικό) χρώμα των μαλλιών: ανοιχτό ξανθό (1), σκούρο ξανθό (2), ανοιχτό μελαχρινό (3), σκούρο μελαχρινό (4). Έχει ενδιαφέρον να εξετάσουμε αν υπάρχουν διαφορές στην μέσο δείκτη αντοχής στον πόνο μεταξύ των ατόμων με διαφορετικό χρώμα μαλλιού. Χρώμα Δείκτης μαλλιών αντοχής 1 62 1 60 1 71 1 55 1 48 Χρώμα Δείκτης μαλλιών αντοχής 2 63 2 57 2 52 2 41 2 43 Χρώμα μαλλιών Χρώμα Δείκτης μαλλιών αντοχής 3 42 3 50 3 41 3 37 Δείκτης αντοχής 4 32 4 39 4 51 4 30 4 35 Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 10
Άσκηση 5 η (απάντηση) Θέλουμε να ελέγχουμε την ισότητα των μέσων όρων των τεσσάρων κατηγοριών. Επειδή τα δεδομένα κατανέμονται κανονικά χρησιμοποιούμε ανάλυση διακύμανσης (διασποράς) κατά ένα παράγοντα (analyze compare means One-Way ANOVA) Η 0 : μ 1 = μ 2 = μ 3 = μ 4 (δεν υπάρχει διαφορά) ANOVA VAR00002 Sum of Squares df Mean Square F Sig. Between Groups 1360,726 3 453,575 6,791,004 Within Groups 1001,800 15 66,787 Total 2362,526 18 Επειδή (p<0,05) απορρίπτουμε τη μηδενική υπόθεση και συμπεραίνομε ότι υπάρχει στατιστικά σημαντική διαφορά μεταξύ των μέσων ορών. Η ανάλυση αυτή μας δίνει μια γενική αλλά όχι πλήρη απάντηση. Η στατιστική σημαντικότητα μέχρι εδώ υποδηλώνει ότι υπάρχουν στατιστικά σημαντικές διαφορές αλλά δεν μας λέει ούτε πόσες ούτε ποιες διαφορές δεν είναι στατιστικά σημαντικές. Για να πάρουμε περισσότερες λεπτομέρειες πριν πατήσομε OK στο προηγούμενο πλαίσιο διαλόγου, πατούμε το κουμπί Post Hoc και στο πλαίσιο που ανοίγει επιλέγομε τον έλεγχο Bonferonni. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 11
Άσκηση 5 η (απάντηση) Multiple Comparisons VAR00002 Bonferroni Mean Difference 95% Confidence Interval (I) VAR00001 (J) VAR00001 (I-J) Std. Error Sig. Lower Bound Upper Bound ανοιχτό ξανθό σκούρο ξανθό 8,00000 5,16862,855-7,6934 23,6934 ανοιχτό μελαχρινό 16,70000 * 5,48215,049,0546 33,3454 σκούρο μελαχρινό 21,80000 * 5,16862,004 6,1066 37,4934 σκούρο ξανθό ανοιχτό ξανθό -8,00000 5,16862,855-23,6934 7,6934 ανοιχτό μελαχρινό 8,70000 5,48215,800-7,9454 25,3454 σκούρο μελαχρινό 13,80000 5,16862,105-1,8934 29,4934 ανοιχτό μελαχρινό ανοιχτό ξανθό -16,70000 * 5,48215,049-33,3454 -,0546 σκούρο ξανθό -8,70000 5,48215,800-25,3454 7,9454 σκούρο μελαχρινό 5,10000 5,48215 1,000-11,5454 21,7454 σκούρο μελαχρινό ανοιχτό ξανθό -21,80000 * 5,16862,004-37,4934-6,1066 σκούρο ξανθό -13,80000 5,16862,105-29,4934 1,8934 ανοιχτό μελαχρινό -5,10000 5,48215 1,000-21,7454 11,5454 *. The mean difference is significant at the 0.05 level. Όπως φαίνεται στον πίνακα (από τις τιμές των p) υπάρχουν στατιστικά σημαντικές διαφορές μεταξύ των ατόμων με ανοιχτά ξανθά μαλλιά και των ατόμων με μελαχρινά μαλλιά (ανοικτό και σκούρο χρώμα) ενώ δεν υπάρχουν σημαντικές στατιστικές διαφορές μεταξύ των άλλων ομάδων. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 12
Άσκηση 6 η Προκειμένου να διερευνηθεί η σχέση μεταξύ αντισυλληπτικών χαπιών και καρδιακών επεισοδίων ερωτήθηκαν 58 γυναίκες που υπέστησαν έμφραγμα (σε κάποια νοσοκομεία της Βρετανίας) αν έχουν χρησιμοποιήσει στο παρελθόν αντισυλληπτικά χάπια (retrospective design). Για κάθε μια από αυτές επελέγησαν άλλες 3 ασθενείς (από τα ίδια νοσοκομεία) οι οποίες δεν υπέστησαν έμφραγμα, και ερωτήθηκαν και αυτές σχετικά με την λήψη αντισυλληπτικών χαπιών (case - control study). Από τα στοιχεία που καταγράφηκαν κατασκευάστηκε ο ακόλουθος πίνακας: Χρήση αντισυλληπτικών Έμφραγμα του μυοκαρδίου ΝΑΙ (0) ΌΧΙ (1) ΝΑΙ (0) 23 34 ΌΧΙ (1) 35 132 Να διερευνηθεί αν υπάρχει σχέση μεταξύ του εμφράγματος του μυοκαρδίου και της χρήσης αντισυλληπτικών χαπιών Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 13
Άσκηση 6 η (απάντηση) Επειδή θέλουμε να ελέγξουμε την εξάρτηση δύο ονομαστικών μεταβλητών θα χρησιμοποιήσουμε έναν έλεγχο χ 2 (Chi Square). Όπως αναφέραμε ο Χ 2 έλεγχος ανεξαρτησίας χρησιμοποιείται για τον έλεγχο της υπόθεσης ότι δύο κατηγορικές μεταβλητές είναι ανεξάρτητες μεταξύ τους (Η 0 : χ 2 = 0 Δεν υπάρχει Σχέση). Εισάγουμε τα δεδομένα με προσοχή στο SPSS και στην συνέχεια δηλώνουμε ότι η τρίτη στήλη περιέχει τις συχνότητες των κελιών (Data Weight Cases). Χρήση αντισυλληπτικών Έμφραγμα του μυοκαρδίου ΝΑΙ (0) ΌΧΙ (1) ΝΑΙ (0) 23 34 ΌΧΙ (1) 35 132 Η εισαγωγή των δεδομένων στο SPSS λαμβάνει την παρακάτω μορφή : Var1 Var2 Var3 0 0 23 0 1 34 1 0 35 1 1 132 Επιλέγουμε Analyze Descriptive Statistics Crosstabs Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 14
Άσκηση 6 η (απάντηση) Chi-Square Tests Value df Asymp. Sig. (2- sided) Pearson Chi-Square 1,240E2 3,000 Likelihood Ratio 171,093 3,000 Linear-by-Linear Association 26,375 1,000 N of Valid Cases 124 a. 0 cells (,0%) have expected count less than 5. The minimum Αυτό που κοιτάζουμε είναι οι p-value για κάθε τεστ. Κοιτάζουμε το Asymp. Sig. (2 sided) και το Exact Sig. (2-sided) για τα Pearson Chi-Square και Fisher s Exact Test. Μπορούμε φυσικά να κοιτάξουμε και τις p- value για το Likelihood Ratio. expected count is 10,57.. Το μήνυμα μας πληροφορεί για το αν ικανοποιείται η προϋπόθεση ισχύος του χιτετράγωνο τεστ. Θέλουμε το πολύ το 25% των κελιών να έχουν τιμές μικρότερες από 5. Αν δεν ισχύει αυτό τότε δεν εμπιστευόμαστε τα αποτελέσματα του χι-τετράγωνο ελέγχου, παρά μόνο του Fisher για την περίπτωση δισδιάστατων πινάκων Η τιμή p value όπως φαίνεται από τον πίνακα είναι < 0,05 οπότε απορρίπτουμε τη μηδενική υπόθεση και συμπεραίνομε ότι υπάρχει στατιστικά σημαντική σχέση μεταξύ των δύο μεταβλητών. Δρ. Βασίλης Π. Αγγελίδης Ανάλυση Δεδομένων (Εργαστήριο) Διαφάνεια 15