Ο παραπάνω κώδικας δημιουργεί ένα πλαίσιο δεδομένων (data frame) και δίνει ονόματα στην κάθε μεταβλητή που αυτό περιέχει (στην κάθε στήλη)

Σχετικά έγγραφα
η πιθανότητα επιτυχίας. Επομένως, η συνάρτηση πιθανοφάνειας είναι ίση με: ( ) 32 = p 18 1 p

Οδηγίες χρήσης του R, μέρος 2 ο

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ποιοτική & Ποσοτική Ανάλυση εδοµένων Εβδοµάδα 5 η 6 η είκτες Κεντρικής Τάσης και ιασποράς

Εισαγωγή στη Στατιστική

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

(i) Περιγραφική ανάλυση των μεταβλητών PRICE

ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΟΥ ΔΙΔΑΚΤΙΚΟΥ ΕΡΓΟΥ ΤΩΝ ΥΠΟΧΡΕΩΤΙΚΩΝ ΜΑΘΗΜΑΤΩΝ ΧΕΙΜΕΡΙΝΟΥ ΕΞΑΜΗΝΟΥ ΑΚΑΔΗΜΑΪΚΟΥ ΕΤΟΥΣ

ΕΡΓΑΣΙΑ ΤΕΧΝΟΛΟΓΙΑΣ. Αρμάου Ανδριάνα

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Στατιστική Επιχειρήσεων Ι. Περιγραφική Στατιστική 1

1) ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ - ΑΤΑΞΙΝΟΜΗΤΑ ΔΕΔΟΜΕΝΑ

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

Οδηγίες χρήσης του R, μέρος 1 ο. Κατεβάζουμε το λογισμικό από την ιστοσελίδα

28/11/2016. Στατιστική Ι. 9 η Διάλεξη (Περιγραφική Στατιστική)

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

ΜΑΘΗΜΑΤΙΚΑ Γ ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ. ν 1 + ν ν κ = v (1) Για τη σχετική συχνότητα ισχύουν οι ιδιότητες:

Η ψηφιακή τεχνολογία στην ερευνητική δραστηριότητα Θέματα κουίζ. Υψηλάντης Γεώργιος, Βαβούρας Θεόδωρος Τμήμα Ιταλικής Γλώσσας & Φιλολογίας

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

Περιγραφική στατιστική μεθοδολογία.

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Περιγραφική στατιστική

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Εφαρμοσμένη Στατιστική

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Τάση συγκέντρωσης. Μέτρα Κεντρικής Τάσης και Θέσης. Μέτρα Διασποράς. Τάση διασποράς. Σχήμα της κατανομής

= p 20 1 p p Το σημείο στο οποίο μηδενίζεται η παραπάνω μερική παράγωγος είναι

6 / 4 / Βιοστατιστικός, MSc, PhD

Start Random numbers Distributions p-value Confidence interval.

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

Περιγραφική Στατιστική

Θηκόγραμμα - Boxplot. Παράδειγμα 1: Δίνονται οι παρακάτω 20 παρατηρήσεις μιας μεταβλητής x:

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Ηλεκτρονικοί Υπολογιστές I

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

Statistics. hrs1 Number of hours worked last week. educ Highest year of school completed. sibs NUMBER OF BROTHERS AND SISTERS. N Valid

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

ΤΕΜ-101 Εισαγωγή στους Η/Υ Εξεταστική Ιανουαρίου 2011 Θέματα Β

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Κεφάλαιο 4: Συνοπτική Στατιστική και Οπτικοποίηση

Γνωριμία με τον προγραμματισμό μέσω της γλώσσας R Στοιχεία Περιγραφικής Στατιστικής

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

ΦΥΛΛΑΔΙΟ ΑΣΚΗΣΕΩΝ ΣΤΑΤΙΣΤΙΚΗΣ ΠΑΝΟΣ ΣΑΡΑΚΗΝΟΣ

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Περιγραφική Στατιστική

Ενδεικτικές ασκήσεις ΔΙΠ 50

ΟΝΟΜΑΤΕΠΩΝΥΜΟ : Αντικείμενο: Εισαγωγή στο στατιστικό πακέτο R και στις δυνατότητές του για δημιουργία γραφημάτων. Χρήση του λογισμικού RStudio.

Ενότητα 2 η : Περιγραφική Στατιστική Ι. Πίνακες και Γραφικές παραστάσεις. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

ΣΥΓΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ ΣΥΜΠΕΡΙΦΟΡΑΣ ΝΕΩΝ ΟΔΗΓΩΝ ΣΕ ΣΥΝΘΗΚΕΣ ΚΑΝΟΝΙΚΕΣ ΚΑΙ ΠΡΟΣΟΜΟΙΩΣΗΣ ΣΕ ΥΠΕΡΑΣΤΙΚΗ ΟΔΟ ΝΙΚΑΣ ΜΑΡΙΟΣ

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΚΕΦΑΛΑΙΟ 2 ΔΙΕΥΘΥΝΣΗ ΔΕΥΤΕΡΟΒΑΘΜΙΑΣ ΕΚΠΑΙΔΕΥΣΗΣ ΝΟΜΟΥ ΧΑΝΙΩΝ ΣΧΟΛΙΚΟ ΕΤΟΣ ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ ΜΕ ΑΡΙΘΜΗΤΙΚΕΣ ΚΑΙ ΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΥΣ

Το υπουργείο μας. Ατυχήματα - πρώτες βοήθειες στο σχολείο

Εξερευνώντας τα δεδομένα μας-περιγραφική Στατιστική

Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

University of Cyprus Optical Diagnostics Laboratory. ΗΜΥ 370 Εισαγωγή στη Βιοϊατρική Μηχανική. Κλινικές Μελέτες και Βιοστατιστική

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ: ΣΤΑΤΙΣΤΙΚΗ ΕΝΟΤΗΤΑ: Πιθανότητες - Κατανομές ΟΝΟΜΑ ΚΑΘΗΓΗΤΗ: ΦΡ. ΚΟΥΤΕΛΙΕΡΗΣ ΤΜΗΜΑ: Τμήμα Διαχείρισης Περιβάλλοντος και Φυσικών

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Στατιστικές Συναρτήσεις

ΣΤΑΤΙΣΤΙΚΗ ,05 Σύνολο. x i v i f i % N i F i , Άθροισμα 40

ΤΡΙΤΗ ΗΛΙΚΙΑ ΚΑΙ ΝΟΗΤΙΚΗ ΥΣΤΕΡΗΣΗ

Σ Υ Λ Λ Ο Γ Ι Σ Μ Ο Ι Π Ρ Ο Β Λ Η Μ Α Τ Ι Σ Μ Ο Ι. της απαντήσεις τους κατασκευάστηκε το παρακάτω ραβδόγραμμα. κανάλι α i. συχνότητα ν i.

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Λύσεις των ασκήσεων

ΣΕΜΙΝΑΡΙΟ: Β06Σ03 «Στατιστική περιγραφική εφαρμοσμένη στην ψυχοπαιδαγωγική» ΘΕΜΑ ΕΡΓΑΣΙΑΣ:

Εισαγωγή στην ανάλυση μεταβλητών με το IBM SPSS Statistics

ΣΥΓΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ ΣΥΜΠΕΡΙΦΟΡΑΣ ΝΕΩΝ ΟΔΗΓΩΝ ΣΕ ΣΥΝΘΗΚΕΣ ΚΑΝΟΝΙΚΕΣ ΚΑΙ ΠΡΟΣΟΜΟΙΩΣΗΣ ΣΕ ΑΣΤΙΚΗ ΟΔΟ. Δανάη Βουτσινά

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Στατιστική για Πολιτικούς Μηχανικούς

4.2 Μελέτη Επίδρασης Επεξηγηματικών Μεταβλητών

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι

ΖΗΤΗΜ Α 1 Ο. Α1. Τι είναι το ραβδόγραµµα και πότε χρησιµοποιείται; 5) Α2. Σε τι διακρίνονται οι µεταβλητές και τι είναι οι τιµές τους;

Ενότητα 3 Επιτηρούµενος διαχωρισµός

Οι δείκτες διασποράς. Ένα παράδειγµα εργασίας

ΘΕΜΑΤΑ Α : ΕΚΦΩΝΗΣΕΙΣ - ΛΥΣΕΙΣ

Αποτελέσματα προόδου

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Δείκτες υγείας αντιπροσωπευτικού δείγματος του πληθυσμού στην Ελλάδα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Transcript:

ΑΣΚΗΣΗ 1 i. d<-read.table("myopsy.txt", na.strings="*") names(d)<-c("id", "age", "gender", "comphr", "studyhr", "parentmy", SER") Ο παραπάνω κώδικας δημιουργεί ένα πλαίσιο δεδομένων (data frame) και δίνει ονόματα στην κάθε μεταβλητή που αυτό περιέχει (στην κάθε στήλη) ii. Gender gender<-factor(d[["gender"]]) levels(gender)<-c("boy", "Girl") gentable<-table(gender) prop.table(gentable) pie(gentable) > prop.table(gentable) gender Boy Girl 0.5113269 0.4886731 Παρατηρούμε ότι το 51% περίπου των παιδιών που συμμετείχαν στην έρευνα ήταν αγόρια, και το 49% κορίτσια. Gender Boy Girl Parent Myopsy parentmy<-factor(d[["parentmy"]]) levels(parentmy)<-c("none of the parents", "At least one parent") pamytable<-table(parentmy) prop.table(pamytable) pie(pamytable, main="parent Myopsy ) > prop.table(pamytable) parentmy None of the parents At least one parent 0.4943274 0.5056726 Parent Myopsy At least one parent None of the parents Παρατηρούμε ότι για το 51% των παιδιών, τουλάχιστον ο ένας γονέας είναι μύωπας, ενώ οι γονείς του 49% των παιδιών δεν έχουν μυωπία. 2

Age summary(d[["age"]], na.rm=true) var(d[["age"]], na.rm=true) hist(d[["age"]], ylim=c(0,500), main="histogram of Age", xlab="age") > summary(d[["age"]], na.rm=true) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 5.0 6.0 6.0 6.3 6.0 9.0 1 > var(d[["age"]], na.rm=true) [1] 0.5089772 Histogram of Age Frequency 0 100 200 300 400 500 5 6 7 8 9 Age Ο μέσος όρος ηλικίας, είναι 6.3 χρόνια και η τυπική της απόκληση 0.51. Από το παραπάνω ιστόγραμμα, παρατηρούμε ότι τα περισσότερα παιδιά που συμμετείχαν στην έρευνα ήταν 5.5 με 6 χρονών και τα λιγότερα 8.5 με 9. Πιο συγκεκριμένα, το 25% των παιδιών είχε ηλικία κάτω από 6 χρόνια και το 75% από 6 χρόνια και πάνω. 3

Computer Hours (comphr) summary(d[["comphr"]], na.rm=true) var(d[["comphr"]], na.rm=true) hist(d[["comphr"]], ylim=c(0,500), main="histogram of Computer Hours", xlab="computer Hours") boxplot(d[["comphr"]], main="boxplot of Computer Hours", xlab="computer Hours") > summary(d[["comphr"]], na.rm=true) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 0.000 0.000 1.000 2.107 3.000 30.000 1 > var(d[["comphr"]], na.rm=true) [1] 9.355422 Histogram of Computer Hours Boxplot of Computer Hours Frequency 0 100 200 300 400 500 0 5 10 15 20 25 30 0 5 10 15 20 25 30 Computer Hours Computer Hours Η μέση τιμή ορών στον υπολογιστή ανά βδομάδα είναι 2.11 ώρες ενώ η τυπική απόκλιση αρκετά μεγάλη, συγκεκριμένα 9.36. Η διάμεσος είναι 1, συνεπώς το 50% των παιδιών κάθεται από μία ώρα και κάτων στον υπολογιστή, ενώ το 75% λιγότερο από τρεις ώρες. Επίσης, η μεγαλύτερη τιμή της μεταβλητής ειναι 30 ώρες, πολύ μεγαλύτερη από τη μέση τιμή της. Συνεπώς, όπως δείχνει και το παρακάτω θηκόγραμμα, υπάρχουν αρκετές ακραίες τιμές την μεταβλητής. 4

Study Hours (studyhr) summary(d[["studyhr"]], na.rm=true) var(d[["studyhr"]]) hist(d[["studyhr"]], ylim=c(0,500), main="histogram of Study Hours", xlab="study Hours") boxplot(d[["studyhr"]], main="boxplot of Study Hours", xlab="study Hours") > summary(d[["studyhr"]], na.rm=true) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.00 0.00 1.00 1.49 2.00 15.00 > var(d[["studyhr"]]) [1] 4.911575 Histogram of Study Hours Boxplot of Study Hours Frequency 0 100 200 300 400 500 0 5 10 15 0 5 10 15 Study Hours Study Hours Η μέση τιμή ωρών διαβάσματος ανά βδομάδα είναι 1.49 ώρες και η τυπική απόκλιση 4.91. Το 50% των παιδιών διαβάζει το πολύ μια ώρα τη βδομάδα, και το 75% το πολύ 2. Η μεγαλύτερη, όμως τιμή είναι 15 ώρες, συνεπώς και αυτή τη μεταβλητή έχει ακραίες τιμές, όπως δείχνει και το θηκόγραμμα. 5

SER summary(d[["ser"]], na.rm=true) var(d[["ser"]], na.rm=true) hist(d[["ser"]], ylim=c(0,300), main="histogram of SER", xlab="ser") boxplot(d[[ SER"]], main="boxplot of SER, xlab="ser") > summary(d[["ser"]], na.rm=true) Min. 1st Qu. Median Mean 3rd Qu. Max. -0.6990 0.4562 0.7290 0.8010 1.0340 4.3720 > var(d[["ser"]], na.rm=true) [1] 0.3917738 Histogram of SER Boxplot of SER Frequency 0 50 100 150 200 250 300 0 1 2 3 4-1 0 1 2 3 4 SER SER Η μέση τιμή του δείκτη σφαιρικού ισοδύναμου διάθλασης είναι 0.801 και η τυπική απόκληση 0.392. Το 50% των παιδιών έχουν δείκτη SER το πολύ 0.729 και το 75% το πολύ 1.034. Η μικρότερη τιμή του δείκτη παρατηρούμε ότι είναι -0.699 και η μεγαλύτερη 4.372, συνεπώς υπάρχουν τιμές που απέχουν αρκετά από τη μέση τιμή, και απόσταση μεγαλύτερη της τυπικής απόκλισης. Επίσης, όπως φαίνεται και στο ιστόγραμμα, τα περισσότερα παιδιά έχουν δείκτη SER μεταξύ 0.500 και 1.000. Τέλος, όπως δείχνει και το παρακάτω θηκόγραμμα, παρατηρούμε ότι η κάτω οριακή τιμή, το 1ο τεταρτημόριο καθώς και η διάμεσος είναι ίσα και στις δύο 6

μεταβλητές. Διαφοροποίηση αρχίζει να υπάρχει από το 3ο τεταρτημόριο και πάνω (δηλαδή και στην άνω οριακή τιμή αλλά και στις ακραίες τιμές) όπου οι τιμές των ωρών διαβάσματος είναι πολύ μικρότερες από αυτές των ωρών απασχόλησης των παιδιών στον υπολογιστή για ψυχαγωγικούς λόγους. Computer Hours Study Hours iii. boxplot(d[["ser"]] ~ gender, ylab="ser") SER 0 1 2 3 4 0 5 10 15 20 25 30 Boy Girl 7

Από το παραπάνω θηκόγραμμα παρατηρούμε ότι ο δείκτης SER δεν διαφοροποιείται ιδιαίτερα ανάλογα με το φύλο. boxplot(d[["ser"]] ~ parentmy, xlab="has myopsy", ylab="ser") SER 0 1 2 3 4 None of the parents At least one parent has myopsy Από το παραπάνω θηκόγραμμα συμπεραίνουμε ότι ο δείκτης SER χαμηλώνει αν ένας τουλάχιστον από τους δύο γονείς είναι μύωπας. iv. a<-c(rep(0, times=618)) for(i in 1:618){ if (d[["ser"]][i]<=0){ a[i]<-0 else { if (d[["ser"]][i]<=1){ a[i]<-1 else { a[i]<-2 aa<-factor(a) levels(aa)<-c("low", "good", "very good") table(aa) prop.table(table(aa)) pie(table(aa)) 8

> table(aa) aa low good very good 34 414 170 > prop.table(table(aa)) aa low good very good 0.05501618 0.66990291 0.27508091 SER quality good low very good Παρατηρούμε ότι το μεγαλύτερο μέρος του δείγματος (67%) έχει καλό δείκτη SER και το μικρότερο (6%) έχει κακό δείκτη SER. summary(d[["comphr"]][aa=="low"]) summary(d[["comphr"]][aa=="good"]) summary(d[["comphr"]][aa=="very good"]) boxplot(d[["comphr"]] ~ aa, xlab="ser", ylab="computer Hours") > summary(d[["comphr"]][aa=="low"]) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 0.000 1.500 2.294 3.750 10.000 > summary(d[["comphr"]][aa=="good"]) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 0.000 0.000 1.000 2.271 3.000 30.000 1 > summary(d[["comphr"]][aa=="very good"]) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 0.000 1.000 1.671 2.000 10.000 9

Computer Hours 0 5 10 15 20 25 30 low good very good SER Παρατηρούμε ότι και στις τρεις κατηγορίες του δείκτη SER, το 50% των παιδιών απασχολείται λιγότερο από μιάμιση ώρα στον υπολογιστή για ψυχαγωγικούς λόγους. Τα παιδιά που έχουν χαμηλό δείκτη SER απασχολούνται κατά 75% 3.75 ώρες στον υπολογιστή, εκείνα που έχουν καλό δείκτη SER 3 ώρες και εκείνα που έχουν πολύ καλό δείκτη SER 2 ώρες. Τέλος, τα παιδιά που απασχολούνται τις περισσότερες ώρες, έχουν καλό δείκτη SER. Συνεπώς,κατά πλειοψηφία τα παιδιά με περισσότερη μυωπία κάθονται περισσότερς ώρες στον υπολογιστή. summary(d[["studyhr"]][aa=="low"]) summary(d[["studyhr"]][aa=="good"]) summary(d[["studyhr"]][aa=="very good"]) boxplot(d[["studyhr"]] ~ aa, xlab="ser", ylab="study Hours") > summary(d[["studyhr"]][aa=="low"]) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 0.000 2.000 1.971 3.000 7.000 > summary(d[["studyhr"]][aa=="good"]) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 0.000 1.000 1.522 2.000 15.000 > summary(d[["studyhr"]][aa=="very good"]) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 0.000 1.000 1.318 2.000 12.000 10

Study Hours 0 5 10 15 low good very good SER Παρατηρούμε ότι το 50% των παιδιών με χαμηλό δείκτη SER διαβάζουν 2 ώρες την βδομάδα, ενώ εκείνων με καλό και πολύ καλό, 1 ώρα. Επίσης, τα παιδιά με χαμηλό δείτη SER διαβάζουν κατά 75% 3 ώρες την βδομάδα, και το 75% των άλλων δύο κατηγοριών 2. Στην κατηγορία του χαμηλού δείκτη SER δεν υπάρχουν ακραίες τιμές, ενώ στις άλλες δύο παρατηρήθηκαν αρκετά μεγάλες τιμές της μεταβλητής των ωρών διαβάσματος, 15 και 12 ώρες αντίστοιχα. Συνεπώς, κατά πλειοψηφία τα παιδιά με περισσότερη μυωπία διαβάζουν περισσότερες ώρες. v. freq_table<-table(aa, parentmy) prop.table(freq_table) p1<-prop.table(freq_table, 1) p2<-prop.table(freq_table, 2) barplot(p1[1,], ylim=c(0, 0.7), main="children with low SER", xlab="has myopsy") > prop.table(freq_table) parentmy aa None of the parents At least one parent low 0.01782820 0.03727715 good 0.31118314 0.35818476 very good 0.16531605 0.11021070 > p1<-prop.table(freq_table, 1) 11

> p1 parentmy aa None of the parents At least one parent low 0.3235294 0.6764706 good 0.4648910 0.5351090 very good 0.6000000 0.4000000 > p2<-prop.table(freq_table, 2) > p2 parentmy aa None of the parents At least one parent low 0.03606557 0.07371795 good 0.62950820 0.70833333 very good 0.33442623 0.21794872 Children with low SER 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 None of the parents At least one parent has myopsy Από τα παραπάνω, παρατηρούμε ότι για την πλειοψηφία (68% και 54% αντίστοιχα) των παιδιών με χαμηλό και καλό δείκτη SER τουλάχιστον ένας γονέας είναι μύωπας, ενώ για τα παιδιά πολύ καλό δείκτη SER ισχύει το αντίθετο (τουλάχιστον ένας γονέας μύωπας του 40% των παιδιών). Συνεπώς, παρατηρούμε ότι όσο περισσότερη μυωπία έχει ένα παιδί, τόσο μεγαλύτερη η πιθανότητα τουλάχιστον ο ένας από τους γονείς του να είναι μύωπας. Όμως, η επιρροή αυτή ελαττώνεται όσο μειώνεται η μυωπία του κάθε παιδιού. Επίσης, από τα παιδιά τα οποία δεν έχουν μύωπες γονείς, το 4% έχει χαμηλό δείκτη SER, το 63% καλό και το 33% πολύ καλό. Αντίστοιχα, από τα παιδιά των 12

οποίων τουλάχιστον ο ένας γονέας είναι μύωπας, το 7% έχει χαμηλό δείκτη SER, το 71% καλό και το 21% πολύ καλό. Συνεπώς, η πλειοψηφία των παιδιών με μύωπα γονέα, έχει μυωπία αλλά όχι πολύ αυξημένη. Το ίδιο συμβαίνει και στην πλειοψηφία των παιδιών που δεν έχουν μύωπες γονείς. (συγκεντρωτικά, ο κώδικας της Άσκησης 1) d<-read.table("myopsy.txt", na.strings="*") names(d)<-c("id", "age", "gender", "comphr", "studyhr", "parentmy", "SER") gender<-factor(d[["gender"]]) levels(gender)<-c("boy", "Girl") gentable<-table(gender) prop.table(gentable) pie(gentable, main="gender") parentmy<-factor(d[["parentmy"]]) levels(parentmy)<-c("none of the parents", "At least one parent") pamytable<-table(parentmy) prop.table(pamytable) pie(pamytable, main="parent Myopsy") summary(d[["age"]], na.rm=true) var(d[["age"]], na.rm=true) hist(d[["age"]], ylim=c(0,500), main="histogram of Age", xlab="age") summary(d[["comphr"]], na.rm=true) var(d[["comphr"]], na.rm=true) hist(d[["comphr"]], ylim=c(0,500), main="histogram of Computer Hours", xlab="computer Hours") boxplot(d[["comphr"]], main="boxplot of Computer Hours", xlab="computer Hours") summary(d[["studyhr"]], na.rm=true) var(d[["studyhr"]]) hist(d[["studyhr"]], ylim=c(0,500), main="histogram of Study Hours", xlab="study Hours") boxplot(d[["studyhr"]], main="boxplot of Study Hours", xlab="study Hours") summary(d[["ser"]], na.rm=true) var(d[["ser"]], na.rm=true) hist(d[["ser"]], ylim=c(0,300), main="histogram of SER", xlab="ser") boxplot(d[["ser"]], main="boxplot of SER", xlab="ser") boxplot(d[["comphr"]], d[["studyhr"]], names=c("computer Hours", "Study Hours")) boxplot(d[["ser"]] ~ gender, ylab="ser") 13

boxplot(d[["ser"]] ~ parentmy, xlab="has myopsy", ylab="ser") a<-c(rep(0, times=618)) for(i in 1:618){ if (d[["ser"]][i]<=0){ a[i]<-0 else { if (d[["ser"]][i]<=1){ a[i]<-1 else { a[i]<-2 aa<-factor(a) levels(aa)<-c("low", "good", "very good") table(aa) prop.table(table(aa)) pie(table(aa), main="ser quality") summary(d[["comphr"]][aa=="low"]) summary(d[["comphr"]][aa=="good"]) summary(d[["comphr"]][aa=="very good"]) boxplot(d[["comphr"]] ~ aa, xlab="ser", ylab="computer Hours") summary(d[["studyhr"]][aa=="low"]) summary(d[["studyhr"]][aa=="good"]) summary(d[["studyhr"]][aa=="very good"]) boxplot(d[["studyhr"]] ~ aa, xlab="ser", ylab="study Hours") freq_table<-table(aa, parentmy) prop.table(freq_table) p1<-prop.table(freq_table, 1) p2<-prop.table(freq_table, 2) barplot(p1[1,], ylim=c(0, 0.7), main="children with low SER", xlab="has myopsy") 14

ΣΕΜΦΕ 14-15 ΑΣΚΗΣΗ 2 insertion<-function(x){ xsort<-c(x) swaps<-0 for(i in 2:length(x)){ k<-i while (k>1){ if (xsort[k]<xsort[k-1]) { temp<-xsort[k-1] xsort[k-1]<-xsort[k] xsort[k]<-temp swaps<-swaps+1 k<-k-1 return(list(original=c(x),sorted=c(xsort),swaps=swaps)) Παράδειγμα > x<-c(7,8,2,1,10,5) > x [1] 7 8 2 1 10 5 > insertion(x) $original [1] 7 8 2 1 10 5 $sorted [1] 1 2 5 7 8 10 $swaps [1] 8 15