η πιθανότητα επιτυχίας. Επομένως, η συνάρτηση πιθανοφάνειας είναι ίση με: ( ) 32 = p 18 1 p

Σχετικά έγγραφα
= p 20 1 p p Το σημείο στο οποίο μηδενίζεται η παραπάνω μερική παράγωγος είναι

Ο παραπάνω κώδικας δημιουργεί ένα πλαίσιο δεδομένων (data frame) και δίνει ονόματα στην κάθε μεταβλητή που αυτό περιέχει (στην κάθε στήλη)

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση εδομένων με χρήση του Στατιστικού Πακέτου R

Στατιστική Συµπερασµατολογία

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Start Random numbers Distributions p-value Confidence interval.

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Biostatistics for Health Sciences Review Sheet

Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για ανεξάρτητα δείγματα)

Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή. μεγέθους n από έναν πληθυσμό με μέση τιμή μ

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

FORMULAS FOR STATISTICS 1

Εισαγωγή στη Στατιστική

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

Ηλεκτρονικοί Υπολογιστές I

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

Ιωάννης Ντζούφρας. Ενότητα 4 Συγκρίσεις για 1 & 2 είγματα. (II) Έλεγχοι υποθέσεων για 2 εξαρτημένα δείγματα. Ανάλυση εδομένων ιαφάνεια 4-30

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Wilcoxon test)

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 11 Μαρτίου /24

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

APPENDICES APPENDIX A. STATISTICAL TABLES AND CHARTS 651 APPENDIX B. BIBLIOGRAPHY 677 APPENDIX C. ANSWERS TO SELECTED EXERCISES 679

τατιστική στην Εκπαίδευση II

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Θέματα Στατιστικής στη γλώσσα R

(i) Περιγραφική ανάλυση των μεταβλητών PRICE

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 13. Συμπεράσματα για τη σύγκριση δύο πληθυσμών

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

ΕΚΤΙΜΗΤΙΚΗ: ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

ο),,),--,ο< $ι ιι!η ι ηι ι ιι ιι t (t-test): ι ι η ι ι. $ι ι η ι ι ι 2 x s ι ι η η ιη ι η η SE x

Κλωνάρης Στάθης. ΠΜΣ: Οργάνωση & Διοίκηση Επιχειρήσεων Τροφίμων και Γεωργίας

Άσκηση 10, σελ Για τη μεταβλητή x (άτυπος όγκος) έχουμε: x censored_x 1 F 3 F 3 F 4 F 10 F 13 F 13 F 16 F 16 F 24 F 26 F 27 F 28 F

Λογαριθμικά Γραμμικά Μοντέλα Poisson Παλινδρόμηση Παράδειγμα στο SPSS

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Mann Whitney U τεστ)

Repeated measures Επαναληπτικές μετρήσεις

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗΝ ΣΥΓΚΡΙΣΗ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΙ ΑΝΑΛΟΓΙΩΝ ΔΥΟ

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Έλεγχος υποθέσεων ΚΛΑΣΙΚΟΙ ΈΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ. Ημέσητιμήενόςπληθυσμούείναιίσημε δοθείσα γνωστή τιμή. Έλεγχος για τις μέσες τιμές δύο πληθυσμών.

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

Επαγωγική Στατιστική

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Οδηγίες χρήσης του R, μέρος 2 ο

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Κεφάλαιο 5. Βασικές έννοιες ελέγχων υποθέσεων και έλεγχοι κανονικότητας

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

Μηχανική Μάθηση Hypothesis Testing

Ενότητα 3 η : Περιγραφική Στατιστική Ι. Πίνακες και Γραφικές παραστάσεις. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test)

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης

Λυμένες Ασκήσεις για το μάθημα:

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

20/12/2016. Συνεχής Ασυνεχής

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

Εισαγωγή στην ανάλυση μεταβλητών με το IBM SPSS Statistics

ΣΤΟΧΟΙ ΤΗΣ ΕΝΟΤΗΤΑΣ ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΜΗ ΠΑΡΑΜΕΤΡΙΚΩΝ ΕΛΕΓΧΩΝ

Ενδεικτικές ασκήσεις ΔΙΠ 50

Μέθοδος Newton-Raphson

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

1991 US Social Survey.sav

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

PENGARUHKEPEMIMPINANINSTRUKSIONAL KEPALASEKOLAHDAN MOTIVASI BERPRESTASI GURU TERHADAP KINERJA MENGAJAR GURU SD NEGERI DI KOTA SUKABUMI

Περιγραφική στατιστική

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

( ) ( ) STAT 5031 Statistical Methods for Quality Improvement. Homework n = 8; x = 127 psi; σ = 2 psi (a) µ 0 = 125; α = 0.

Μέθοδος μέγιστης πιθανοφάνειας

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Εισαγωγή στην Ανάλυση Δεδομένων

Ανάλυση της ιακύµανσης

Λογιστική Παλινδρόµηση

Transcript:

ΑΣΚΗΣΗ 1 ΣΕΜΦΕ 14-15 i. Έστω yi ο αριθμός των προσπαθειών κάθε μαθητή μέχρι να πετύχει τρίποντο. Ο αριθμός των προσπαθειών πριν ο μαθητής να πετύχει τρίποντο θα είναι xi = yi - 1, i = 1,,18. 2 2 3 2 1 0 0 1 2 3 1 1 2 4 2 5 0 1 18 Είναι x i = 32. i=1 Οι τ.μ. Xi ακολουθούν την γεωμετρική κατανομή, με σ.π.π. f ( x i ) = p( 1 p) x i η πιθανότητα επιτυχίας. Επομένως, η συνάρτηση πιθανοφάνειας είναι ίση με:, όπου p ( ) = p( 1 p) x i L p 18 i=1 = p 18 18 x i=1 ( 1 p) i = p 18 1 p ( ) 32 Τότε l( p) = log L( p) = log p 18 ( 1 p) 32 Το σημείο μηδενισμού της παραγώγου της l(p) είναι Για να εξετάσουμε τη φύση του ακρότατου της l(p) εξετάζουμε το πρόσημο της δεύτερης παραγώγου ( ) = 18log p + 32log 1 p l( p) 32 32 = 0 = 0 = p 18ˆp 1 ˆp 18ˆp 1 ˆp 18 ( 1 ˆp ) = 32 ˆp 50 ˆp = 18 ˆp = 0.36 2 l( p) = 18 p 2 ( ) ( ) p 32 2 2 < 0, p 0,1 1 p Η δεύτερη παράγωγος είναι αρνητική, άρα το σημείο είναι μέγιστο και άρα για της συγκεκριμένες παρατηρήσεις η τιμή του εκτιμητή ισούται με ˆp = 0.36. ii. Ο παρακάτω κώδικας διμηουργεί μια ακολουθία ισαπέχουσων τιμών για το p και με τη συνάρτηση geo_likelihood υπολογίζει την πιθανοφάνεια της Γεωμετρικής κατανομής για κάθε τιμή του p εκχωρώντας τις τιμές στο διάνυσμα results. p<-seq(0.001, 0.999, length=10000) geo_likelihood<-function(data, p) { results<-rep(na, 10000) for(i in 1:10000) { results[i]<-sum(dgeom(data, p[i], log=t)) 2

return(results) Στη συνέχεια οι τιμές του xi από το παραπάνω υποερώτημα εκχωρούνται στο διάνυσμα x, υπολογίζεται την πιθανοφάνεια και γίνεται το γράφημά της με το p. x<-c(2,2,3,2,1,0,0,1,2,3,1,1,2,4,2,5,0,1) results<-geo_likelihood(x, p) plot(p, results, xlab="p", ylab="log Likelihood", main="the Likelihood of p", type= l ) The Likelihood of p Log Likelihood -200-150 -100-50 0.0 0.2 0.4 0.6 0.8 1.0 p Παρατηρούμε ότι το μέγιστο βρίσκεται κάπου στο 0.35. Τέλος, υπολογίζεται ποιά από τις 10000 τιμές του p μεγιστοποιεί την πιθανοφάνεια. p[order(results)[10000]] > p[order(results)[10000]] [1] 0.3600165 Παρατηρούμε ότι η τιμή του p είναι περίπου η ίδια με αυτή που βρέθηκε αναλυτικά. 3

ΑΣΚΗΣΗ 2 ΣΕΜΦΕ 14-15 i. data<-read.table("myopsy.txt", na.strings="*") names(data)<-c("id", "age", "gender", "comphr", "studyhr", "parentmy", "SER") data1<-na.omit(data) inc<-sample(1:nrow(data1), 45) d<-matrix(ncol=7, nrow=45) for (i in 1:45) { for (j in 1:7) { d[i,j]<-data1[inc[i],j] d<-as.data.frame(d) names(d)<-c("id", "age", "gender", "comphr", "studyhr", "parentmy", SER ) gender<-factor(d[["gender"]]) levels(gender)<-c("boy", "Girl") parentmy<-factor(d[["parentmy"]]) levels(parentmy)<-c("none of the parents", "At least one parent") O παραπάνω κώδικας δημιουργεί ένα πλαίδιο δεδομένων και δίνει ονόματα στην κάθε μεταβλητή (στλητη του). Έπειτα, κρατάει μόνο τα δεδομένα τα οποία δεν έχουν αγνοούμενες τιμές και από αυτά επιλέγει ένα δείγμα μεγέθους 45 ατόμων και δίνει ξανά ονόματα στις μεταβλητές. ii. totalhr<-apply(cbind(d[["comphr"]], d[["studyhr"]]), 1, sum) summary(totalhr) var(totalhr) hist(totalhr, ylim=c(0, 40), main="histogram of the summary of Studying and Computer Hours", xlab="total Hours") boxplot(totalhr, main="boxplot of the summary of Studying and Computer Hours", xlab="total Hours ) > summary(totalhr) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 1.000 2.000 4.111 5.000 31.000 > var(totalhr) [1] 34.82828 4

Histogram of the summary of Studying and Computer Hours Boxplot of the summary of Studying and Computer Hours Frequency 0 10 20 30 40 0 5 10 15 20 25 30 0 5 10 15 20 25 30 35 Total Hours Total Hours H μέση τιμή των συνολικών ορών στον υπολογιστή και διαβάσματος για κάθε παιδί είναι 4.11 ώρες και η τυπική απόκληση αρκετά μεγάλη, ίση με 34.83. Η διάμεσος είναι 2, συνεπώς το 50% των παιδιών διαβάζει και κάθεται στον υπολογιστή από δύο ώρες και κάτω εβδομαδιαία, ενώ το 75% λιγότερο από 5 ώρες. Επίσης, η μεγαλύτερη τιμή είναι 31 ώρες, πολύ μεγαλύτερη από τη μέση τιμή. Συνεπώς, όπως δείχνει και το θηκόγραμμα, υπάρχουν ακραίες τιμές της μεταβλητής. iii. qqnorm(totalhr) qqline(totalhr) wilcox.exact(totalhr, mu=5, alternative="less", conf.level=0.98) > wilcox.exact(totalhr, mu=5, alternative="less", conf.level=0.98) Exact Wilcoxon signed rank test data: totalhr V = 246, p-value = 0.004493 alternative hypothesis: true mu is less than 5 5

Normal Q-Q Plot ΣΕΜΦΕ 14-15 Sample Quantiles 0 5 10 15 20 25 30-2 -1 0 1 2 Theoretical Quantiles Όπως δείχνει και το διάγραμμα, υπάρχει απόκληση των δεδομένων από την Κανονική κατανομή. Γι αυτό το λόγο, και επειδή στα δεδομένα υπάρχουν πολλές ισοπαλίες και μηδενικές τιμές χρησιμοποιήθηκε η εντολή wilcox.exact(). Παρατηρούμε ότι p-value = 0.004493 < α = 0.02. Συνεπώς, η αρχική υπόθεση ότι η μέση τιμή είναι 5 ώρες απορρίπτεται, γεγονός που επιβεβαιώνει και η παραπάνω περιγραφική ανάλυση, στην οποία η μέση τιμή βρέθηκε 4.11 ώρες. iv. summary(totalhr[gender=="boy"]) summary(totalhr[gender=="girl"]) boxplot(totalhr ~ gender, xlab="gender", ylab="total Hours ) > summary(totalhr[gender=="boy"]) Min. 1st Qu. Median Mean 3rd Qu. Max. 0 1 3 5 5 31 > summary(totalhr[gender=="girl"]) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 1.000 1.000 3.261 4.000 22.000 6

Total Hours 0 5 10 15 20 25 30 Boy Girl Gender Παρατηρούμε ότι οι συνολικές ώρες υπολογιστή και διαβάσματος διαφοροποιούνται ανάλογα με το φύλο, με τα αγόρια να εμφανίζουν μεγαλύτερες τιμές. Συγκεκριμένα, η μέση τιμή για τα αγόρια είναι 5 ώρες ενώ για τα κορίτσια 3.26. Το 50% των αγοριών διαβάζει και κάθεται στον υπολογιστή λιγότερο από 3 ώρες ενώ των κοριτσιών λιγότερο από 1. Το 75% των αγοριών λιγότερο από 5 ώρες ενώ των κοριτσιών λιγότερο από 4. Τέλος, και στα δύο δείγματα, η μεγαλύτερη τιμή απέχει πολύ από τη μέση τιμή. v. totalhrboy<-totalhr[gender=="boy"] totalhrgirl<-totalhr[gender=="girl"] var.test(totalhrboy, totalhrgirl, conf.level=0.98) hist(totalhrboy) qqnorm(totalhrboy) qqline(totalhrboy) hist(totalhrgirl) qqnorm(totalhrgirl) qqline(totalhrgirl) wilcox.exact(totalhrboy, totalhrgirl, var.equal=t, alternative="two.sided", conf.level=0.98) > var.test(totalhrboy, totalhrgirl, conf.level=0.98) F test to compare two variances data: totalhrboy and totalhrgirl F = 2.0278, num df = 21, denom df = 22, p-value = 0.1072 alternative hypothesis: true ratio of variances is not equal to 1 7

98 percent confidence interval: 0.7228559 5.7528741 sample estimates: ratio of variances 2.027776 > wilcox.exact(totalhrboy, totalhrgirl, var.equal=t, alternative="two.sided", conf.level=0.98) Exact Wilcoxon rank sum test data: totalhrboy and totalhrgirl W = 310.5, p-value = 0.1886 alternative hypothesis: true mu is not equal to 0 Histogram of totalhrboy Normal Q-Q Plot Frequency 0 5 10 15 Sample Quantiles 0 5 10 15 20 25 30 0 5 10 15 20 25 30 35 totalhrboy Histogram of totalhrgirl -2-1 0 1 2 Theoretical Quantiles Normal Q-Q Plot Frequency 0 5 10 15 Sample Quantiles 0 5 10 15 20 0 5 10 15 20 25 totalhrgirl -2-1 0 1 2 Theoretical Quantiles 8

Όπως δείχνουν και τα διαγράμματα, υπάρχει απόκληση των δεδομένων από την Κανονική κατανομή. Γι αυτό το λόγο, και επειδή στα δεδομένα υπάρχουν πολλές ισοπαλίες και μηδενικές τιμές χρησιμοποιήθηκε η εντολή wilcox.exact(). Επίσης, ελέγχθηκε αρχικά αν τα δείγματα που μας ενδιαφέρουν έχουν ίδια τυπική απόκληση, γεγονός που επιβεβαιώθηκε, εφ όσον βρέθηκε ότι p- val=0.1072 > α = 0.02. Παρατηρούμε ότι p-val=0.1886 > α = 0.02. Συνεπώς, η αρχική υπόθεση ότι η μέση τιμή των ωρών στον υπολογιστή και διαβάσματος δεν διαφοροποιείται ανάλογα με το φύλο επιβεβαιώθηκε. vi. SERBoy<-d[["SER"]][gender=="Boy"] SERGirl<-d[["SER"]][gender=="Girl"] var.test(serboy, SERGirl, conf.level=0.90) hist(serboy) qqnorm(serboy) qqline(serboy) hist(sergirl) qqnorm(sergirl) qqline(sergirl) t.test(serboy, SERGirl, var.equal=t, alternative="less", conf.level=0.90) > var.test(serboy, SERGirl, conf.level=0.90) F test to compare two variances data: SERBoy and SERGirl F = 1.1049, num df = 21, denom df = 22, p-value = 0.8166 alternative hypothesis: true ratio of variances is not equal to 1 90 percent confidence interval: 0.5366743 2.2907302 sample estimates: ratio of variances 1.104867 > t.test(serboy, SERGirl, var.equal=t, alternative="less", conf.level=0.90) Welch Two Sample t-test data: SERBoy and SERGirl t = 0.9847, df = 43, p-value = 0.8349 alternative hypothesis: true difference in means is less than 0 90 percent confidence interval: -Inf 0.3352095 sample estimates: mean of x mean of y 9

0.9486364 0.8042609 Histogram of SERBoy Normal Q-Q Plot Frequency 0 2 4 6 8 10 Sample Quantiles 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0 2.5 SERBoy -2-1 0 1 2 Theoretical Quantiles Histogram of SERGirl Normal Q-Q Plot Frequency 0 2 4 6 8 10 Sample Quantiles 0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0 SERGirl -2-1 0 1 2 Theoretical Quantiles Όπως δείχνουν και τα διαγράμματα, υπάρχει κανονικότητα των δεδομένων. Επομένως, χρησιμοποιήθηκε η εντολή t.test(). Επίσης, ελέγχθηκε αρχικά αν τα δείγματα που μας ενδιαφέρουν έχουν ίδια τυπική απόκληση, γεγονός που επιβεβαιώθηκε, εφ όσον βρέθηκε ότι p- val=0.8166 > α = 0.10. 10

Παρατηρούμε ότι p-val=0.8349 > α = 0.10. Συνεπώς, η αρχική υπόθεση ότι η μέση τιμή του δείκτη SER δεν διαφοροποιείται ανάλογα με το φύλο επιβεβαιώθηκε. vii. q<-c(rep(0, times=45)) for(i in 1:45){ if (d[["ser"]][i]<=0){ q[i]<-0 else { if (d[["ser"]][i]<=1){ q[i]<-1 else { q[i]<-2 qual<-factor(q) levels(qual)<-c("low", "good", "very good") freq_table<-table(qual, parentmy) prop.table(freq_table, 1) barplot(freq_table, ylim=c(0,40), main="ser quality", xlab="has myopsy", legend=levels(qual), col=c("cadetblue1","deepskyblue","darkblue")) > prop.table(freq_table, 1) parentmy qual None of the parents At least one parent low 0.516129 0.483871 good 0.500000 0.500000 very good SER quality 0 10 20 30 40 very good good low 11 None of the parents At least one parent has myopsy

Παρατηρούμε ότι δεν υπάρχει μεγάλη διαφοροποίηση της ποιότητας του δείκτη SER ανάλογα με τη μυωπία ή όχι των γονέων. Συγκεκριμένα, από τα παιδιά με χαμηλό δείκτη SER το 51,6% δεν έχει μύωπες γονείς και από αυτά με καλό δείκτη SER, 50%. viii. n<-length(qual[qual=="good"]) prop.test(n, 45, p=0.5, conf.level=0.95, correct=true) prop.test(n, 45, p=0.5, conf.level=0.95, correct=false) > prop.test(n, 45, p=0.5, conf.level=0.95, correct=true) 1-sample proportions test with continuity correction data: n out of 45, null probability 0.5 X-squared = 5.6889, df = 1, p-value = 0.01707 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.1862534 0.4680100 sample estimates: p 0.3111111 > prop.test(n, 45, p=0.5, conf.level=0.95, correct=false) 1-sample proportions test without continuity correction data: n out of 45, null probability 0.5 X-squared = 6.4222, df = 1, p-value = 0.01127 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.1952870 0.4566481 sample estimates: p 0.3111111 Και στους δύο ελέγχους η αρχική υπόθεση ότι το 50% των παιδιών έχει καλή όραση απορρίφθηκε, εφ όσον βρέθηκε ότι p-value < α. Όμως, στον έλεγχο χωρίς διόρθωση το δ.ε. είναι λίγο μικρότερο. ix. g<-table(qual, parentmy) fisher.test(g, conf.level=0.95) > fisher.test(g, conf.level=0.95) 12

Fisher's Exact Test for Count Data data: g p-value = 1 alternative hypothesis: two.sided Δεν ικανοποιούνται οι υποθέσεις του ΚΟΘ, συνεπώς χρησιμοποιήθηκε η εντολή fisher.test(). Παρατηρούμε ότι, p-value = 1 > α = 0.05 επομένως η αρχική υπόθεση ότι η ποιότηατ όρασης εξαρτάται από την ύπαρξη ή όχι μύωπα γονέα, επιβαβαιώθηκε. (συγκεντρωτικά, ο κώδικας της άσκησης 2) data<-read.table("myopsy.txt", na.strings="*") names(data)<-c("id", "age", "gender", "comphr", "studyhr", "parentmy", "SER") data1<-na.omit(data) inc<-sample(1:nrow(data1), 45) d<-matrix(ncol=7, nrow=45) for (i in 1:45) { for (j in 1:7) { d[i,j]<-data1[inc[i],j] d<-as.data.frame(d) names(d)<-c("id", "age", "gender", "comphr", "studyhr", "parentmy", "SER") gender<-factor(d[["gender"]]) levels(gender)<-c("boy", "Girl") parentmy<-factor(d[["parentmy"]]) levels(parentmy)<-c("none of the parents", "At least one parent") totalhr<-apply(cbind(d[["comphr"]], d[["studyhr"]]), 1, sum) summary(totalhr) var(totalhr) hist(totalhr, ylim=c(0, 40), main="histogram of the summary of Studying and Computer Hours", xlab="total Hours") boxplot(totalhr, main="boxplot of the summary of Studying and Computer Hours", xlab="total Hours") qqnorm(totalhr) qqline(totalhr) wilcox.exact(totalhr, mu=5, alternative="less", conf.level=0.98) summary(totalhr[gender=="boy"]) summary(totalhr[gender=="girl"]) boxplot(totalhr ~ gender, xlab="gender", ylab="total Hours") 13

totalhrboy<-totalhr[gender=="boy"] totalhrgirl<-totalhr[gender=="girl"] var.test(totalhrboy, totalhrgirl, conf.level=0.98) hist(totalhrboy) qqnorm(totalhrboy) qqline(totalhrboy) hist(totalhrgirl) qqnorm(totalhrgirl) qqline(totalhrgirl) wilcox.exact(totalhrboy, totalhrgirl, var.equal=t, alternative="two.sided", conf.level=0.98) SERBoy<-d[["SER"]][gender=="Boy"] SERGirl<-d[["SER"]][gender=="Girl"] var.test(serboy, SERGirl, conf.level=0.90) hist(serboy) qqnorm(serboy) qqline(serboy) hist(sergirl) qqnorm(sergirl) qqline(sergirl) t.test(serboy, SERGirl, var.equal=t, alternative="less", conf.level=0.90) q<-c(rep(0, times=45)) for(i in 1:45){ if (d[["ser"]][i]<=0){ q[i]<-0 else { if (d[["ser"]][i]<=1){ q[i]<-1 else { q[i]<-2 qual<-factor(q) levels(qual)<-c("low", "good", "very good") freq_table<-table(qual, parentmy) prop.table(freq_table, 1) barplot(freq_table, ylim=c(0,40), main="ser quality", xlab="has myopsy", legend=levels(qual), col=c("cadetblue1","deepskyblue","darkblue")) n<-length(qual[qual=="good"]) prop.test(n, 45, p=0.5, conf.level=0.95, correct=true) prop.test(n, 45, p=0.5, conf.level=0.95, correct=false) g<-table(qual, parentmy) fisher.test(g, conf.level=0.95) 14