ΑΣΚΗΣΗ 7 (ΛΥΣΗ) Στο αρχείο του SPSS θα υπάρχουν οι µεταβλητές,

Σχετικά έγγραφα
Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για ανεξάρτητα δείγματα)

1991 US Social Survey.sav

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ,

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Έλεγχος καλής προσαρμογής για μια ποιοτική μεταβλητή (Nonparametric Tests Chi-Square)

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Wilcoxon test)

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Mann Whitney U τεστ)

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα

Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι

PENGARUHKEPEMIMPINANINSTRUKSIONAL KEPALASEKOLAHDAN MOTIVASI BERPRESTASI GURU TERHADAP KINERJA MENGAJAR GURU SD NEGERI DI KOTA SUKABUMI

ΑΝΤΙΚΕΙΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Έλεγχος ανεξαρτησίας μεταξύ δύο ποιοτικών μεταβλητών (Crosstabs - Chi-Square Tests)

ΣΤΟΧΟΙ ΤΗΣ ΕΝΟΤΗΤΑΣ ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΜΗ ΠΑΡΑΜΕΤΡΙΚΩΝ ΕΛΕΓΧΩΝ

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ο),,),--,ο< $ι ιι!η ι ηι ι ιι ιι t (t-test): ι ι η ι ι. $ι ι η ι ι ι 2 x s ι ι η η ιη ι η η SE x

Στατιστική και Θεωρία Πιθανοτήτων (ΓΓ04) ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Εαρινό Εξάμηνο

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα)

519.22(07.07) 78 : ( ) /.. ; c (07.07) , , 2008

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

Επαγωγική Στατιστική

Ενότητα 5 η : Επαγωγική Στατιστική ΙΙ Ανάλυση ποσοτικών δεδομένων. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

Στατιστικό κριτήριο χ 2

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

τατιστική στην Εκπαίδευση II

Περιγραφή των εργαλείων ρουτινών του στατιστικού

Τμήμα Λογιστικής και Χρηματοοικονομικής. Δρ. Αγγελίδης Π. Βασίλειος

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΝ ΕΙΚΤΙΚΕΣ ΑΠΑΝΤΗΣΕΙΣ ΑΣΚΗΣΗΣ 2 (Εργαστήρια µαθήµατος «Στατιστικά Προγράµµατα», τµ. Στατ. & Ασφ. Επιστ., 04-05) (Επιµέλεια: Ελευθεράκη Αναστασία)

Λυμένες Ασκήσεις για το μάθημα:

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

UΟΙ ΑΠΟΦΟΙΤΟΙ ΤΟΥ ΤΜΗΜΑΤΟΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

Στατιστική. 9 ο Μάθημα: Εφαρμογές Στατιστικής ΙΙ: Στατιστικοί Έλεγχοι. Γεώργιος Μενεξές Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Ενότητα 4: Πίνακες συνάφειας (Contingency tables)

Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή. μεγέθους n από έναν πληθυσμό με μέση τιμή μ

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Α. Μπατσίδης Πρόχειρες βοηθητικές διδακτικές σημειώσεις

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Ενότητα 3: Έλεγχοι καλής προσαρµογής (Goodness of fit tests)

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕ ΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΙΣΟΤΗΤΑ ΔΥΟ ΚΑΤΑΝΟΜΩΝ

Κεφάλαιο 16. Σύγκριση συχνοτήτων κατηγοριών: το στατιστικό κριτήριο χ 2. Προϋποθέσεις για τη χρήση του τεστ. ιαφορές ή συσχέτιση.

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική


Εργαστήριο στατιστικής Στατιστικό πακέτο S.P.S.S.

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

ΗΥ-SPSS Statistical Package for Social Sciences 6 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

ΤΕΙ ΗΠΕΙΡΟΥ ΣΧΟΛΗ ΕΠΑΓΓΕΛΜΑΤΩΝ ΥΓΕΙΑΣ ΚΑΙ ΠΡΟΝΟΙΑΣ ΤΜΗΜΑ ΛΟΓΟΘΕΡΑΠΕΙΑΣ. Μεγγίσογλου Ευθυμία Ξενογιώργη Αικατερίνη Σβολιανίτη Χριστίνα

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 3. Στατιστική Συµπερασµατολογία για ποιοτικές µεταβλητές

Τµήµα Τυποποίησης και ιακίνησης Προϊόντων (Logistics) Εισαγωγή στο SPSS Βασικές έννοιες.

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 8. Ανάλυση διασποράς (ANOVA)

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Μη Παραµετρικά Κριτήρια. Παραµετρικά Κριτήρια

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

Λογαριθμικά Γραμμικά Μοντέλα Poisson Παλινδρόμηση Παράδειγμα στο SPSS

Σύντομο Εγχειρίδιο SPSS Πέτρος Ρούσσος & Γιώργος Ευσταθίου Πρόγραμμα Ψυχολογίας, Τμήμα ΦΠΨ, ΕΚΠΑ

Biostatistics for Health Sciences Review Sheet

η πιθανότητα επιτυχίας. Επομένως, η συνάρτηση πιθανοφάνειας είναι ίση με: ( ) 32 = p 18 1 p

ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. ΜΑΘΗΜΑ 12 Συµπερασµατολογία για την επίδραση πολλών µεταβλητών σε µια ποσοτική (Πολλαπλή Παλινδρόµηση) [µέρος 2ο]

Media Monitoring. Ενότητα 7: Εισαγωγή & Ανάλυση δεδομένων με το SPSS. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΑΝΤΙΚΕΙΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

Συνάφεια μεταξύ ποιοτικών μεταβλητών. Εκδ. #3,

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Α.Σ.ΠΑΙ.Τ.Ε. Π.Ε.ΣΥ.Π. ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΓΙΑ ΤΟΥΣ ΣΚΟΠΟΥΣ ΣΥΕΠ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕ ΤΟ SPSS

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Δρ Κορρές Κωνσταντίνος

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗΝ ΣΥΓΚΡΙΣΗ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΙ ΑΝΑΛΟΓΙΩΝ ΔΥΟ

Σύντοµο εγχειρίδιο του SPSS 13.0

1.α ιαγνωστικοί Έλεγχοι. 2.α Ευαισθησία και Ειδικότητα (εισαγωγικές έννοιες) ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. Πολύ σηµαντικό το θεώρηµα του Bayes:

Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

έρευνας και στατιστική» παραμετρικές συγκρίσεις»

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Transcript:

ΑΣΚΗΣΗ 7 (ΛΥΣΗ) Στο αρχείο του SPSS θα υπάρχουν οι µεταβλητές, Time: η ώρα γέννησης (4 ψηφία, τα δύο πρώτα είναι ώρες και τα άλλα δυο λεπτά), Sex: το φύλο (:κορίτσι, :αγόρι), Weight: το βάρος του νεογέννητου σε γραµµάρια 0. Αρχικά πρέπει να κατασκευάσουµε µια νέα µεταβλητή που θα περιέχει τους χρόνους γέννησης σε λεπτά, από την αρχή της ηµέρας. Αυτό γίνεται διότι το SPSS δεν µπορεί να «καταλάβει» ότι οι τιµές της στήλης TIME είναι ώρες και όχι αριθµοί. Η νέα µεταβλητή (minutes) που θα περιέχει τα λεπτά, κατασκευάζεται ως εξής Transform / compute: Target variable: minutes Numeric expression : Trunc(time/00) 60 +(time-trunc(time/00) 00) Στη συνέχεια, για να γίνει το Scatterplot Scatterplot /simple µε Y axis: weight X axis: minutes Set Markers:sex

Άσκηση 7(Λύση) Περνάµε ως Set markers by, το sex, για να έχουµε διαφορετικό χρώµα στα σηµεία, όταν αντιστοιχούν σε διαφορετικό φύλο. 5000 4000 3000 WEIGHT 000 000 0 600 400 00 000 800 600 400 00 SEX male female MINUTE (δε φαίνεται να υπάρχει σχέση µεταξύ ώρας γέννησης και βάρους δε θα ήταν και λογικό).

Άσκηση 7(Λύση) 3. Εδώ χρειάζεται να κάνουµε ένα t-test for independent samples, αφού ελέγξουµε και τις προϋποθέσεις του (κανονικότητα-που θα δούµε σε επόµενα ερωτήµατα, πως ελέγχεται- και ισότητα διασπορών). Για να κάνουµε t-test for independent samples πηγαίνουµε, Analyze/ compare means/ Independent-samples T test Test variables: weight Grouping variable: sex (define groups/ Group :,Group :) Continue/OK. (είτε βάλουµε ως Group : και Group :, είτε το αντίστροφο, δεν υπάρχει πρόβληµα) Group Statistics WEIGHT SEX female male Std. Error N Mean Std. Deviation Mean 8 33,4444 63,5853 48,86543 6 3375,3077 48,04605 83,94674

Άσκηση 7(Λύση) 4 Independent Samples Test WEIGHT Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper 4,355,043 -,53 4,35-4,863 59,47875-564,704 78,9779 -,4 7,63,66-4,863 70,90340-593,54 07,479 Για α=0.05, η ισότητα των διασπορών απορρίπτεται (pvalue=0.043<0.05), µε αποτέλεσµα, το pvalue για τον έλεγχο ισότητας µέσων τιµών, να είναι 0.66 (εάν δεν απορρίπταµε την ισότητα των διασπορών, ως pvalue για τον έλεγχο ισότητας των µέσων τιµών, θα χρησιµοποιούσαµε το 0.35). Εποµένως, η ισότητα των µέσων τιµών δεν µπορεί να απορριφθεί.. Στο ερώτηµα αυτό, που ουσιαστικά ελέγχουµε την υπόθεση, H : p F H : pf pm µπορούµε να απαντήσουµε µε δυο τρόπους, Analyze/non parametric tests/chi-square/test variable:sex, all categories equal ή 0 = p Analyze/non parametric tests/binomial/test variable: sex, test proportion: 0,50 (αφού έχουµε εξετάσει ότι οι προϋποθέσεις στα δυο παραπάνω τεστ, ικανοποιούνται) M

Άσκηση 7(Λύση) 5 Test Statistics Chi-Square a df Asymp. Sig. SEX,455,8 a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is,0. Binomial Test Category N Observed Prop. Test Prop. Asymp. Sig. (-tailed) SEX Group female 8,4,50,9 a Group male 6,59 Total 44,00 a. Based on Z Approximation. Το pvalue από το chi-square test, είναι 0.8 (>0.05) και από το Binomial test, 0.9(>0.05). Η ισότητα των πιθανοτήτων δεν µπορεί να απορριφθεί, χρησιµοποιώντας οποιαδήποτε από τα δυο τεστ. (για δίτιµες τ.µ. το chi-square test και το ασυµπτωτικό Binomial τεστ είναι ισοδύναµα - αν εξαιρέσει κανείς τη διόρθωση συνέχειας) 3. Επειδή δεν υπάρχει κάποιος λόγος να πιστεύουµε ότι σε κάποιο διάστηµα της ηµέρας, υπάρχει µεγαλύτερη πιθανότητα να γεννηθεί ένα παιδί, θα εξετάσουµε εάν οι χρόνοι γέννησης (σε λεπτά από την αρχή της ηµέρας), προέρχονται από µια οµοιόµορφη (συνεχή) κατανοµή. Ο έλεγχος της προσαρµογής κάποιων δεδοµένων σε µια κατανοµή, πραγµατοποιείται γραφικά, από τα Histogram, Q-Q plot ή P-P plot. Οπότε έχουµε, Histogram: Graphs/ Histogram: variable:minutes/ OK QQ Plot: Graphs/ QQ Plot: Variables: minutes, Test Distribution : Uniform Proportion estimation formula: Van der Waerdens PP Plot: Graphs/ PP Plot: Variables: minutes, Test Distribution : Uniform Proportion estimation formula:van der Waerdens

Άσκηση 7(Λύση) 6

Άσκηση 7(Λύση) 7 6 5 4 3 0 400,0 00,0 000,0 800,0 600,0 400,0 00,0 0,0 Std. Dev = 46,07 Mean = 788,7 N = 44,00 MINUTE,0 Uniform P-P Plot of MINUTE 600 400 Uniform Q-Q Plot of MINUT Expected Cum Prob,8,5,3 0,0 0,0,3,5,8,0 Expected Uniform Value 00 000 800 600 400 00 0-00 0 00 600 000 400 400 800 00 600 Observed Cum Prob Observed Value Το chi-square test δεν µπορεί να γίνει απευθείας στο SPSS (κάνει chi-square µόνο για κατηγορικά δεδοµένα). Οπότε θα πρέπει αρχικώς να κατηγοριοποιήσουµε τη minutes. Έτσι για να ελέγξουµε την υπόθεση, H 0 : minutes ~ Uniform(0,440) (διότι η minutes εκφράζει λεπτά,από την αρχή της ηµέρας, µε αποτέλεσµα να παίρνει τιµές από 0 έως 4*60=440), χωρίζουµε τη minutes σε k κατηγορίες (χρησιµοποιώντας k διαστήµατα ίδιου πλάτους). Τότε η H 0 ανάγεται στον έλεγχο, ' H p = p =... = pk / k 0 : =

Άσκηση 7(Λύση) 8 (γιατί εάν ισχύει η H 0, η πιθανότητα µια παρατήρηση να ανήκει σε κάποιο από τα k ' διαστήµατα, είναι ίδια και ίση µε /k, για κάθε διάστηµα). Απορρίπτοντας την, H 0 απορρίπτουµε και την. Εποµένως, τα επόµενο βήµα είναι να ορίσουµε πόσες κατηγορίες της minutes πρέπει να κατασκευάσουµε (να ορίσουµε δηλαδή, το k). Ξέρουµε µια προϋπόθεση για το chisquare είναι ότι οι Expected τιµές κάτω από τη µηδενική υπόθεση, πρέπει να είναι µεγαλύτερες ή ίσες του 5 (για παραπάνω από το 80% των κατηγοριών). Εάν ισχύει η ' H 0, τότε τα Expected είναι, Ei = npi, i =,..., k όπου n= 44, τα οποία είναι µεγαλύτερα ή ίσα του 5, όταν k 8. Έτσι εάν κατηγοριοποιήσουµε τη minutes, χρησιµοποιώντας 8 διαστήµατα (3 ωρών το κάθε ένα), η βασική προϋπόθεση του chi-square test θα ικανοποιείται. Η εντολή που θα δώσουµε για να δηµιουργήσουµε τη nminutes (η µεταβλητή που θα παίρνει τιµές από 0 έως 7, ανάλογα στο ποιο διάστηµα ανήκει κάθε παρατήρηση της minutes), είναι (υπάρχουν και άλλοι τρόποι) Transform/compute: Target Variable: nminutes Numeric Expression: Trunc(minutes/80) H 0 και για να εκτελέσουµε chi-square test µε test variable: nminutes, all categories equal

Άσκηση 7(Λύση) 9 NMINUTES Test Statistics NMINUTES Chi-Square a 5,455 df 7 Asymp. Sig.,605 a. 0 cells (,0%) have expected frequencies le 5. The minimum expected cell frequency is,00,00,00 3,00 4,00 5,00 6,00 7,00 Total Observed N Expected N Residual 5 5,5 -,5 4 5,5 -,5 4 5,5 -,5 5 5,5 -,5 7 5,5,5 4 5,5 -,5 0 5,5 4,5 5 5,5 -,5 44 Η ' H 0 δεν µπορεί να απορριφθεί (0.605>0.05), οπότε δεν µπορούµε να απορρίψουµε ότι τα δεδοµένα προέρχονται από µια οµοιόµορφη κατανοµή. Το Kolmogorov-Smirnov test (K-S test), για έλεγχο προσαρµογής στην οµοιόµορφη κατανοµή, γίνεται από (το K-S, χρησιµοποιείται ως τεστ για έλεγχο καλής προσαρµογής, για συνεχείς κατανοµές-οπότε µπορεί να εφαρµοστεί απευθείας στη minutes), Analyze/Non parametric/ sample K-S, test variable list: minutes, test distribution: Uniform

Άσκηση 7(Λύση) 0 One-Sample Kolmogorov-Smirnov Test N Uniform Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (-tailed) Minimum Maximum Absolute Positive Negative a. Test distribution is Uniform. b. Calculated from data. MINUTE 44 5,00 435,00,,038 -,,8,55 Η υπόθεση, H 0 : minutes ~ Uniform(0,440) πάλι δεν µπορεί να απορριφθεί (0.55>0.05). 4. Εδώ θα πρέπει να φτιάξουµε µια νέα µεταβλητή (την unboy) η οποία θα µετρά το πλήθος των γεννήσεων µέχρι και τη γέννηση αγοριού (θα παίρνει τιµές 3,,,3,,,,,3,3,,,,5,,,,,,,,,,,,). Προσοχή οι τρεις τελευταίες παρατηρήσεις θα πρέπει να αγνοηθούν (το τελευταίο παιδί, δεν είναι αγόρι). Αυτές οι παρατηρήσεις είναι λογικό να προέρχονται από τη γεωµετρική κατανοµή, µε p=0.5 (και αυτό θα εξετάσουµε). Κάνουµε το Barchart και chi-square test,

Άσκηση 7(Λύση) Barchart: Graphs/Bar/simple (summaries for group of cases), Bar represents: N of cases, Category axes: unboy 0 8 0 Count 4 3 0,00,00 3,00 5,00 UNBOY

Άσκηση 7(Λύση) Στο chi-square test, µπορούµε να χρησιµοποιήσουµε τις εξής 3 κλάσεις : {}, {}, {3,4, }. Ο λόγος που παίρνουµε αυτές τις 3 κλάσεις, είναι για να έχουµε Expected, µεγαλύτερα ή ίσα του 5, κάτω από την υπόθεση, H 0 : p = p, p = p( p), p3 = p p( p) i i ( E = np, i =,,3, όπου n=6- άρα E=3, E =6.5, E 3 =6.5). Εφαρµόζουµε το chisquare περνώντας τις τρεις αυτές πιθανότητες στο expected values (µε Add). Αναλυτικά, Analyze/Non parametric /Chi-square, test variable list : qunboy (η µεταβλητή µε τις τρεις προαναφερθείσες κατηγορίες ) Expected values: καταχωρώ τις τιµές p, pq και -p-pq (0.50, 0.5 και 0.5), (µια-µια ξεκινώντας από εκείνη που αντιστοιχεί στην κατηγορία για την οποία έχουµε χρησιµοποιήσει το µικρότερο αριθµό).

Άσκηση 7(Λύση) 3 Test Statistics,00,00 3,00 Total QUNBOY Observed N Expected N Residual 8 3,0 5,0 3 6,5-3,5 6 5 6,5 -,5 Chi-Square a df Asymp. Sig. QUNBOY 4,54,5 a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 6,5. Οπότε η υπόθεση ότι τα δεδοµένα προέρχονται από µια γεωµετρική κατανοµή µε παράµετρο p=0.5, δεν µπορεί να απορριφθεί (0.5>0.05). Εάν θέλαµε να εξετάσουµε εάν τα δεδοµένα προέρχονται γενικώς από µια γεωµετρική κατανοµή, χωρίς να προσδιορίζεται η παράµετρος p, τότε θα έπρεπε το p να εκτιµηθεί από τα δεδοµένα µας. Σαν εκτίµηση του p παίρνουµε την, p ˆ = / x όπου x η δειγµατική µέση τιµή της unboy (στην περίπτωση µας, pˆ = 0.634 ). Οι νέες πιθανότητες κάθε κατηγορίας είναι (και η νέα µηδενική υπόθεση), και, H = pˆ, p = pˆ( pˆ), p = pˆ pˆ( 0 : p 3 p ˆ)

Άσκηση 7(Λύση) 4 Test Statistics Chi-Square a df Asymp. Sig. QUNBOY,53,34 a. cells (33,3%) have expected frequencies less tha 5. The minimum expected cell frequency is 3,6.,00,00 3,00 Total QUNBOY Observed N Expected N Residual 8 6,4,6 3 6,0-3,0 5 3,6,4 6 Αυτό που πρέπει να προσέξουµε τώρα είναι το pvalue που δίνει το πακέτο, υπολογίστηκε µε το γεγονός ότι το στατιστικό Τ που χρησιµοποιούµε στο chi-square test, ακολουθεί τη X κατανοµή, µε βαθµούς ελευθερίας. Όµως αυτό δεν είναι σωστό, διότι για να υπολογίσουµε τις αναµενόµενες τιµές (Expected values)κάτω από την Η 0, εκτιµήσαµε το p, µε αποτέλεσµα να χάσουµε ένα ακόµη βαθµό ελευθερίας, κάτι που δεν υπολόγισε το πακέτο. Έτσι θα πρέπει να βρούµε εµείς το νέο pvalue, από τη σχέση, pvalue = P( T >.53T ~ X ) και από Transform/compute: είναι pvalue=0.4(>0.05), και πάλι δεν απορρίπτουµε (τώρα λιγότερο εύκολα, σε σχέση µε το λανθασµένο 0.34).

Άσκηση 7(Λύση) 5 5. Θα πρέπει να φτιάξουµε µια νέα µεταβλητή η οποία θα µετρά το πλήθος των γεννήσεων κάθε ώρα, είτε µόνοι µας είτε χρησιµοποιώντας π.χ. Transform/compute και µετά να ζητήσουµε τον πίνακα των frequencies της nh. NH Valid,00,00,00 4,00 7,00 8,00 9,00 0,00,00,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 0,00,00,00 3,00 Total Frequency 3 4 3 4 3 4 3 44

Άσκηση 7(Λύση) 6 Με copy της στήλης frequency (αφού κάνουµε διπλό κλικ πάνω στον πίνακα) και paste στα δεδοµένα (στο Data Editor), θα έχουµε τη µεταβλητή qnh, η οποία δίνει το πλήθος των γεννήσεων ανά ώρα (προσοχή κάποιες ώρες έχουν 0 γεννήσεις, µε αποτέλεσµα να πρέπει να προστεθούν ανάλογα µηδενικά στα δεδοµένα-συγκεκριµένα σε 3 ώρες δεν έχουµε γεννήσεις, 03:00, 05:00 και 06:00, οπότε θα προστεθούν 3 µηδενικά). Η κατανοµή που θα εξετάσουµε είναι η Poisson. Για να κάνουµε chi-square test, θα πρέπει πάλι να βρούµε τις αναµενόµενες συχνότητες σε κάθε κατηγορία, µέσα από τον τύπο της συνάρτησης πιθανότητας της Poisson, δηλαδή, P( X = x) = e Επιπλέον, επιβάλλεται να χρησιµοποιήσουµε τόσες κατηγορίες (κλάσεις) ώστε το αναµενόµενο πλήθος σε κάθε µια να είναι µεγαλύτερο του 5 (σύµφωνα µε τις προϋποθέσεις του chi-square). Το λ το εκτιµάµε µέσα από τα δεδοµένα και είναι λˆ = x =.83, όπου x η µέση τιµή της qnh. Οπότε, εάν χρησιµοποιήσουµε τις κλάσεις, η πιθανότητα κάθε κλάσης είναι, -λ x λ x! {0,}, {}, {3,4, } ˆ0 ˆ -λˆ λ -λˆ λ pˆ = e +e = 0.45, 0!! ˆ -λˆ λ pˆ = e = 0.7,.! pˆ 3 = p p = 0.8 και η υπόθεση που θα ελέγξουµε είναι, H 0 : p = 0.45, p = 0.7, p3 = 0.8, Κατασκευάζοντας και τη µεταβλητή, µε βάση τις 3 παραπάνω κλάσεις (την qqnh-η οποία θα παίρνει 3 διαφορετικές τιµές, ανάλογα σε ποια κατηγορία ανήκει κάθε τιµή της qnh), έχουµε,

Άσκηση 7(Λύση) 7 QQNH,00,00 3,00 Total Observed N Expected N Residual 0,8, 6 6,5 -,5 7 6,7,3 4 Test Statistics Chi-Square a df Asymp. Sig. QQNH,05,975 a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 6,5. Όµως και πάλι δεν µπορούµε να χρησιµοποιήσουµε το pvalue του πακέτου, για τον ίδιο λόγο µε την προηγούµενη άσκηση (θα πρέπει να αφαιρέσουµε ένα βαθµό ελευθερίας).το σωστό pvalue είναι, pvalue = P( T > 0.05T ~ X ) = 0.8 και δεν απορρίπτεται η µηδενική υπόθεση (ότι τα δεδοµένα προέρχονται από µια Poisson).

Άσκηση 7(Λύση) 8 6. Κατασκευάζουµε µια νέα µεταβλητή µε τους ενδιάµεσους χρόνους transform/create time series (περνάµε στο new variables τη minutes) Περιµένουµε αυτοί οι χρόνοι να ακολουθούν την εκθετική κατανοµή. Tο chi-square test πάλι έχει πρόβληµα. Μπορούµε να κάνουµε τα εξής: Εκτιµούµε την παράµετρο λ της εκθετικής από τα δεδοµένα ( λˆ = / x ) και µετά µετασχηµατίζουµε τους ενδιάµεσους χρόνους T,T,,T 43 λαµβάνοντας τους, Υ = F(T ), Υ = F(T ),, Υ n- = F(T 43 ) όπου F είναι η σ.κ. της εκθετικής( λˆ ). Υπό την Η 0 : Τ i ~ εκθετική ( λˆ ), τα Y i θα ακολουθούν την οµοιόµορφη κατανοµή (γνωστή πρόταση) και εποµένως προχωράµε στον έλεγχο µέσω chi-square αν τα Y i ~ Uniform (όπως σε προηγούµενο ερώτηµα). Εδώ έχουµε κάνει µια εκτίµηση, του λ, οπότε θα πρέπει να διορθώσουµε το pvalue του πακέτου, αφαιρώντας πάλι ένα βαθµό ελευθερίας από την κατανοµή του Τ.

Άσκηση 7(Λύση) 9 Με το Kolmogorov-smirnov test, για έλεγχο προσαρµογής στην εκθετική κατανοµή, κάνουµε τα εξής (όπως ξέρουµε, το K-S εφαρµόζεται σε συνεχείς κατανοµές), Analyze/Non parametric/ sample K-S, test variable list: η µεταβλητή µε τους ενδιάµεσους χρόνους test distribution: Exponential η µεταβλητή µε τους ενδιάµεσους χρόνους One-Sample Kolmogorov-Smirnov Test N Exponential parameter ạ,b Mean Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (-tailed) Absolute Positive Negative a. Test Distribution is Exponential. b. Calculated from data. DIFF(MIN UTE,) 43 33,558,38,058 -,38,90,390 Η υπόθεση ότι τα δεδοµένα προέρχονται από µια εκθετική κατανοµή, δεν απορρίπτεται (0.390>0.05).

Άσκηση 7(Λύση) 0 7. Ο έλεγχος εάν τα βάρη ακολουθούν την κανονική κατανοµή, γίνεται πολύ εύκολα (µε βάση ότι έχουµε αναφέρει σε προηγούµενα ερωτήµατα) είτε γραφικά (Histogram, QQ Plot, PP Plot) είτε από κάποιο τεστ (π.χ. Kolmogorov-Smirnov). Εάν επιθυµούµε όλα τα παρακάτω να γίνουν ξεχωριστά για κάθε φύλλο, το µόνο που πρέπει να γίνει, πριν από όλα, είναι ένα Split file, από και Data/ Split File, ενεργοποιώ Compare Groups ή Organized output by groups Groups Based on: Sex. Για να εφαρµόσουµε το chi-square test, θα πρέπει να ενεργήσουµε όπως στο ερώτηµα 6 (για την εκθετική), µόνο που στο τέλος από την κατανοµή του Τ, θα αφαιρέσουµε βαθµούς ελευθερίας, γιατί χρειάζεται να εκτιµήσουµε και τη µέση τιµή της κανονικής κατανοµής και τη διασπορά, για να πάρουµε τα Y i. 8. Για το ερώτηµα αυτό πρέπει να γίνει ένα Runs Test, από Analyze/Non parametric/ Runs, Test variable list: sex Cut point: custom (.5) Βάζουµε cut point.5 διότι έχουµε χρησιµοποιήσει τις τιµές και για να δηλώνουµε το φύλο, και έτσι το SPSS θα καταλάβει ότι τιµές κάτω του.5 είναι η µια κατηγορία και τιµές µεγαλύτερες του.5 η άλλη.

Άσκηση 7(Λύση) Runs Test Test Value a Total Cases Number of Runs Z Asymp. Sig. (-tailed) a. User-specified. SEX,5 44 7 -,507,3 Η υπόθεση της ανεξαρτησίας δεν µπορεί να απορριφθεί (προσοχή, τα δεδοµένα πρέπει να είναι διατεταγµένα µε βάση το χρόνο, για να ελέγξουµε την ανεξαρτησία-όπως δηλαδή εµφανίστηκαν στην πραγµατικότητα οι γεννήσεις). 9. Για το σκοπό αυτό πάµε, Analyze/Non parametric/ -Independent Samples Test, Test variable list: weight ενεργοποιούµε τα, Mann-Whitney U, Kolmogorov-Smirnov Z, Wald Wolfowitz Runs, και Grouping Variable: sex (Define Groups/ Group :, Group :).

Άσκηση 7(Λύση) WEIGHT Minimum Possible Maximum Possible Test Statistics b,c a. There are inter-group ties involving cases. b. Wald-Wolfowitz Test c. Grouping Variable: SEX Number Asymp. Sig. of Runs Z (-tailed) 0 a -,560,88 a,000,500 Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (-tailed) a. Grouping Variable: SEX Test Statistics a Absolute Positive Negative WEIGHT,39,038 -,39,780,576 Test Statistics a WEIGHT Mann-Whitney U 94,500 Wilcoxon W 365,500 Z -,943 Asymp. Sig. (-tailed),346 a. Grouping Variable: SEX Με κανένα τεστ δεν µπορούµε να απορρίψουµε την υπόθεση ότι η κατανοµή του βάρους στα δυο φύλα, είναι ίδια (από το Wald Wolfowitz Runs, κοιτάµε το maximum possible).