Σεμινάριο Στατιστική με τη γλώσσα R. Dr. Nikolaos Mittas Dr. Theodosios Theodosiou



Σχετικά έγγραφα
ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Αναλυτική Στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

Ανάλυση ποσοτικών δεδομένων. ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος

Περιεχόμενα. Πρόλογος... 15

Είδη Μεταβλητών. κλίµακα µέτρησης

Βιοστατιστική ΒΙΟ-309

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Βιοστατιστική ΒΙΟ-309

Βιοστατιστική ΒΙΟ-309

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 8. Ανάλυση διασποράς (ANOVA)

2 ο Εξάμηνο του Ακαδημαϊκού Έτους ΟΔ 055 ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΙΣ ΚΟΙΝΩΝΙΚΕΣ ΕΠΙΣΤΗΜΕΣ Διδασκαλία: κάθε Τετάρτη 12:00-15:00 Ώρες διδασκαλίας (3)

Kruskal-Wallis H

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Τμήμα Οργάνωσης και Διαχείρισης Αθλητισμού

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Ποιοτική και ποσοτική ανάλυση ιατρικών δεδομένων

Εισαγωγή στην Ανάλυση Δεδομένων

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

R & R- Studio. Πασχάλης Θρήσκος PhD Λάρισα

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

Έλεγχος υποθέσεων ΚΛΑΣΙΚΟΙ ΈΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ. Ημέσητιμήενόςπληθυσμούείναιίσημε δοθείσα γνωστή τιμή. Έλεγχος για τις μέσες τιμές δύο πληθυσμών.

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

ΣΤΑΤΙΣΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

Κλωνάρης Στάθης. ΠΜΣ: Οργάνωση & Διοίκηση Επιχειρήσεων Τροφίμων και Γεωργίας

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Εισαγωγή στη Στατιστική

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

T-tests One Way Anova

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Οι στατιστικοί έλεγχοι x τετράγωνο, t- test, ANOVA & Correlation. Σταμάτης Πουλακιδάκος

Μέρος 1ο. Περιγραφική Στατιστική (Descriptive Statistics)

Ιωάννης Ντζούφρας. Ενότητα 4 Συγκρίσεις για 1 & 2 είγματα. (II) Έλεγχοι υποθέσεων για 2 εξαρτημένα δείγματα. Ανάλυση εδομένων ιαφάνεια 4-30

Κεφάλαιο 12. Σύγκριση μεταξύ δύο δειγμάτων: Το κριτήριο t

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Συνοπτικά περιεχόμενα

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

η πιθανότητα επιτυχίας. Επομένως, η συνάρτηση πιθανοφάνειας είναι ίση με: ( ) 32 = p 18 1 p

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Εισαγωγή στη Βιοστατιστική Βασικές έννοιες Στατιστικής. Μαρία Γκριζιώτη Μsc Ιατρικής Ερευνητικής Μεθοδολογίας

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Στατιστική ανάλυση αποτελεσμάτων

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Ποσοτική & Ποιοτική Ανάλυση εδομένων Βασικές Έννοιες. Παιδαγωγικό Τμήμα ημοτικής Εκπαίδευσης ημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΕΚΤΙΜΗΤΙΚΗ: ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

Στατιστικές Υποθέσεις

Στατιστικοί Έλεγχοι Υποθέσεων. Σαλαντή Γεωργία Εργαστήριο Υγιεινής και Επιδημιολογίας Ιατρική Σχολή

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Wilcoxon test)

= p 20 1 p p Το σημείο στο οποίο μηδενίζεται η παραπάνω μερική παράγωγος είναι

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Εισόδημα Κατανάλωση

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

Εισαγωγή στη Στατιστική

Εισαγωγή στην ανάλυση μεταβλητών με το IBM SPSS Statistics

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 11 Μαρτίου /24

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

Transcript:

Σεμινάριο Στατιστική με τη γλώσσα R Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Εισαγωγή στο περιβάλλον της R Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Η στατιστική γλώσσα προγραμματισμού R Επισκόπηση The R environment The R-studio environment Βοήθεια στη R Εγκατάσταση πακέτων Εισαγωγή στην διαχείριση δεδομένων στην R Τύποι δεδομένων στην R & Δομές δεδομένων Η δομή δεδομένων dataframe Εισαγωγή δεδομένων από αρχείο του EXCEL Δείκτες (Subscripts & indices) Λογικές συνθήκες για τις γραμμές (Logical Conditions for Rows) Επανακωδικοποίηση, Ποιοτικές μεταβλητές και Αριθμητικά διανύσματα 3

Η στατιστική γλώσσα προγραμματισμού R Το Περιβάλλον της R Ανοικτού κώδικα & Ελεύθερο Απλό Γραφικό περιβάλλον διεπαφής Γραμμή εντολών 4

Η στατιστική γλώσσα προγραμματισμού R Το Περιβάλλον R-studio Ανοικτό λογισμικό & ελεύθερο Εξελιγμένο Γραφικό περιβάλλον διεπαφής Χρειάζεται όμως και γραμμή εντολών 5

Η στατιστική γλώσσα προγραμματισμού R Βοήθεια στην R Εντολή βοήθειας: help(name of function), π.χ. help(plot) Συνώνυμο:?, π.χ.?plot Το R-studio έχει γραφικό περιβάλλον βοήθειας 6

Η στατιστική γλώσσα προγραμματισμού R Εγκατάσταση Πακέτων Εντολή για εγκατάσταση πακέτων: install.packages Το περιβάλλον της R και του R studio έχουν menu για την εγκατάσταση πακέτων Στο R studio είναι το menu Tools -> Install packages Τα πακέτα εγκαθίστανται από το διαδίκτυο (repositories) Υπάρχουν διάφορα repositories Καθένα είναι αντίγραφο του κύριου Διαλέγουμε αυτό που βρίσκεται ποιο κοντά σε εμάς 7

Η στατιστική γλώσσα προγραμματισμού R Εισαγωγή στην Διαχείριση Δεδομένων στην R Θα μάθουμε: 1. Πώς να διαχειριζόμαστε τα δεδομένα μας 2. Πώς να τα εισάγουμε στον Η/Υ και 3. Πώς να διαβάζουμε τα δεδομένα στην R Κύριοι τύποι δεδομένων στην R Numeric Νούμερα για ποσοτικά δεδομένα Factors Ποιοτικές/Κατηγορικές μεταβλητές Κύριοι τύποι δομών δεδομένων στην R Vector Matrices Arrays Data frames 8

Τύποι Μεταβλητών Η στατιστική γλώσσα προγραμματισμού R Μεταβλητές Ποιοτικές Ποσοτικές Ονομαστικές Διάταξης Διαστήματος Αναλογίας 9

Η στατιστική γλώσσα προγραμματισμού R Ποιοτικές Μεταβλητές Ονομαστικές (nominal): Τιμές διακριτές κατηγορίες χωρίς άλλη ιδιότητα, π.χ. επάγγελμα, φύλο, οικογ. κατ/ση, κλπ Διάταξης (ordinal): Τιμές διακριτές αλλά με σχέση διάταξης, π.χ. επίπεδο εκπαίδευσης, γνώμη για κάποιο θέμα πολύ θετική, θετική, αδιάφορη, αρνητική, πολύ αρνητική, κλπ Δεν έχει οριστεί μονάδα μέτρησης 10

Η στατιστική γλώσσα προγραμματισμού R Ποσοτικές Μεταβλητές (1/2) Διαστήματος (interval): Μετρήσεις σε κάποια μονάδα μέτρησης Το μηδέν (0) καθορίζεται αυθαίρετα, χωρίς πραγματικό νόημα Νόημα έχει η πρόσθεση και η αφαίρεση και όχι οι αναλογίες π.χ. θερμοκρασία, ηλικία, βαθμολογία σε test, κλπ 11

Η στατιστική γλώσσα προγραμματισμού R Ποσοτικές Μεταβλητές (2/2) Αναλογίας (ratio): Μετρήσεις σε κάποια μονάδα μέτρησης Το μηδέν (0) καθορίζεται αντικειμενικά και έχει νόημα Έχουν νόημα όλες οι πράξεις και οι αναλογίες Π.χ., απόσταση, βάρος, ποσοστό ανεργίας, αριθμός ατόμων, κλπ 12

Η στατιστική γλώσσα προγραμματισμού R Κύριες Δομές Δεδομένων στην R Vector (Διάνυσμα) a <- c(1,2,5.3,6,-2,4) # numeric vector b <- c("one","two","three") # character vector c <- c(true,true,true,false,true,false) #logical vector Matrices (Πίνακες δύο διστάσεων) mymatrix <- matrix(vector, nrow=r, ncol=c, byrow=false, dimnames=list(char_vector_rownames, char_vector_colnames)) byrow=true indicates that the matrix should be filled by rows. byrow=false indicates that the matrix should be filled by columns (the default). dimnames δίνει ετικέτες (labels) στις στήλες και γραμμές. y<-matrix(1:20, nrow=5,ncol=4) # generates 5 x 4 numeric matrix Arrays (Πίνακες πολλών διαστάσεων) Τα Arrays είναι παρόμοια με τα matrices αλλά μπορούν να έχουν περισσότερες από δύο διστάσεις. Δες help(array) για λεπτομέρειες. 13

Η στατιστική γλώσσα προγραμματισμού R R Data Frames Η R διαχειρίζεται τα δεδομένα σε αντικείμενα που λέγονται dataframes Ένα dataframe είναι ένα αντικείμενο με γραμμές (rows) και στήλες (columns). Κάτι σαν matrix. Η γραμμές περιέχουν τις παρατηρήσεις του πειράματος Οι στήλες τις τιμές για κάθε μεταβλητή. Οι τιμές στον matrix μπορούν να είναι μόνο αριθμοί Αντίθετα στο dataframe οι τιμές μπορεί να είναι αριθμοί, κείμενο (κατηγορίες), ημερομηνίες, λογικές τιμές, κτλ. 14

R Data Frames Παράδειγμα Η στατιστική γλώσσα προγραμματισμού R Light Concentration T0 T2 T4 T6 T8 Growth High Light A1 0.767 0.782 0.764 0.781 0.777 3.8 High Light A2 0.717 0.755 0.74 0.775 0.716 3.5 High Light A3 0.771 0.784 0.718 0.787 0.778 2.4 High Light A4 0.751 0.783 0.753 0.771 0.78 4 High Light A5 0.747 0.754 0.717 0.728 0.765 2.3 High Light A6 0.781 0.78 0.685 0.742 0.73 4.8 High Light B1 0.741 0.769 0.765 0.772 0.783 2.1 High Light B2 0.776 0.769 0.748 0.766 0.728 3.2 High Light B3 0.789 0.793 0.728 0.747 0.755 3.8 High Light B4 0.771 0.78 0.735 0.789 0.78 5.9 High Light B5 0.747 0.739 0.69 0.734 0.693 3.9 High Light B6 0.769 0.788 0.766 0.781 0.77 3.7 High Light C1 0.748 0.782 0.756 0.781 0.73 3.4 High Light C2 0.759 0.729 0.69 0.767 0.712 2.2 High Light C3 0.756 0.769 0.721 0.783 0.768 1.5 High Light C4 0.782 0.715 0.751 0.768 0.76 2.1 High Light C5 0.739 0.77 0.77 0.765 0.781 4.4 High Light C6 0.78 0.778 0.747 0.778 0.78 15

Αναπαράσταση Μεταβλητών (1/2) Η στατιστική γλώσσα προγραμματισμού R 16

Αναπαράσταση Μεταβλητών (2/2) Η στατιστική γλώσσα προγραμματισμού R 17

Η στατιστική γλώσσα προγραμματισμού R Εισαγωγή Δεδομένων σε dataframe (1/2) 18

Η στατιστική γλώσσα προγραμματισμού R Εισαγωγή Δεδομένων σε dataframe (2/2) 19

Διαχείριση dataframe (1/4) Η στατιστική γλώσσα προγραμματισμού R 20

Διαχείριση dataframe (2/4) Η στατιστική γλώσσα προγραμματισμού R 21

Διαχείριση dataframe (3/4) Η στατιστική γλώσσα προγραμματισμού R 22

Διαχείριση dataframe (4/4) Η στατιστική γλώσσα προγραμματισμού R 23

Παράδειγμα Δεικτών Η στατιστική γλώσσα προγραμματισμού R 24

Αρχή και Τέλος των Δεδομένων Η στατιστική γλώσσα προγραμματισμού R 25

Ταξινόμηση των Δεδομένων Η στατιστική γλώσσα προγραμματισμού R 26

Λογική Επιλογή Γραμμών (1/2) Η στατιστική γλώσσα προγραμματισμού R 27

Λογική Επιλογή Γραμμών (2/2) Η στατιστική γλώσσα προγραμματισμού R 28

Επανακωδικοποίηση Μεταβλητών Η στατιστική γλώσσα προγραμματισμού R 29

Υπολογιζόμενες Μεταβλητές (1/2) Η στατιστική γλώσσα προγραμματισμού R 30

Υπολογιζόμενες Μεταβλητές (2/2) Η στατιστική γλώσσα προγραμματισμού R 31

Δημιουργία Νέου dataframe Η στατιστική γλώσσα προγραμματισμού R 32

Πριν Τελειώσουμε Η στατιστική γλώσσα προγραμματισμού R 33

Περιγραφική Στατιστική Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Περιγραφική Στατιστική Επισκόπηση Περιγραφικά στατιστικά μέτρα Μέτρα κεντρικής θέσης/τάσης Μέτρα διασποράς/μεταβλητότητας Πίνακες συχνοτήτων Βασικά γραφήματα Ραβδογράμματα Ιστογράμματα Θηκογράμματα Διαγράμματα Διασποράς 35

Περιγραφική Στατιστική Βασικές Έννοιες (1/3) Στατιστικό μέτρο (statistic): Μέτρο που υπολογίζεται από δείγμα Παράμετρος (parameter): Μέτρο που υπολογίζεται από τον πληθυσμό Οι παράμετροι αντιπροσωπεύουν «αυτό που θέλουμε να μάθουμε» για έναν πληθυσμό. Τα στατιστικά χρησιμοποιούνται στην εκτίμηση των παραμέτρων του πληθυσμού 36

Περιγραφική Στατιστική Βασικές έννοιες (2/3) Πληθυσμός (Population) Σύνολο ατόμων - μονάδων (άνθρωποι, αντικείμενα, συναλλαγές, γεγονότα, κλπ) που μας ενδιαφέρει να μελετήσουμε Μεταβλητή (Variable): Ένα χαρακτηριστικό ή ιδιότητα των μονάδων του πληθυσμού Δείγμα (Sample): Υποσύνολο ατόμων του πληθυσμού 37

Περιγραφική Στατιστική Βασικές έννοιες (3/3) Εκτίμηση παραμέτρου η διαδικασία χρήσης πληροφοριών από το δείγμα για τον υπολογισμό ενός διαστήματος που περιγράφει το εύρος των τιμών που μπορεί να πάρει μια παράμετρος του πληθυσμού με κάποια πιθανότητα Διάστημα εμπιστοσύνης δ.ε. (Confidence interval) Ένα εύρος τιμών μέσα στο οποίο έχουμε εμπιστοσύνη ότι θα «πέσει» η άγνωστη παράμετρος. Η εμπιστοσύνη εκφράζεται με μια πιθανότητα (συνήθως 90%, 95%, 99%) 38

Περιγραφική Στατιστική Μέτρα κεντρικής θέσης/τάσης 1. Μέση τιμή (mean) 2. Διάμεσος (median) 3. Επικρατούσα τιμή (mode) 39

Μέση Τιμή Περιγραφική Στατιστική 40

Διάμεσος Περιγραφική Στατιστική 41

Επικρατούσα Τιμή Περιγραφική Στατιστική 42

Περιγραφική Στατιστική Μέτρα Μεταβλητότητας/Διασποράς 43

Διακύμανση Τυπική Απόκλιση Περιγραφική Στατιστική 44

Ποσοστιαία Σημεία Περιγραφική Στατιστική 45

Περιγραφική Στατιστική Εμπειρικός Κανόνας για Τυπική Απόκλιση 46

Μέτρα Ασυμμετρίας Περιγραφική Στατιστική 47

Λοξότητα Περιγραφική Στατιστική 48

Κύρτωση Περιγραφική Στατιστική 49

Περιγραφική Στατιστική Περιγραφή Μεταβλητών dataframe 50

Περιγραφική Στατιστική Μετατροπή Μεταβλητών dataframe 51

Περιγραφική Στατιστική Περιγραφική Στατιστική με την R mean(strokeass$age) median(strokeass$age) sd(strokeass$age) - var(strokeass$age) 52 quantile(strokeass$age)

Περιγραφική Στατιστική Περιγραφικά Στατιστικά Μέτρα ανά Ομάδα 53

Ασυμμετρία Κατανομής Τιμών Περιγραφική Στατιστική 54

Κανονικότητα Κατανομής Περιγραφική Στατιστική 55

Πίνακας Συχνοτήτων (1/2) Περιγραφική Στατιστική 56

Πίνακας Συχνοτήτων (2/2) Περιγραφική Στατιστική 57

Πίνακας Συνάφειας Περιγραφική Στατιστική 58

Γραφήματα στην R Περιγραφική Στατιστική 59

Plot() Συνάρτηση Περιγραφική Στατιστική 60

Περιγραφική Στατιστική Plot() Διάγραμμα διασποράς (scatter plot) 61

Plot() Θηκόγραμμα Περιγραφική Στατιστική 62

Ιστόγραμμα Περιγραφική Στατιστική 63

Ραβδόγραμμα Περιγραφική Στατιστική 64

Ραβδόγραμμα (2) Περιγραφική Στατιστική 65

pairs(strokeass[,4:8]) Περιγραφική Στατιστική Παράσταση Πολυμεταβλητών Δεδομένων (1/3) 66

Περιγραφική Στατιστική Παράσταση Πολυμεταβλητών Δεδομένων (2/3) coplot(age~arms Lapse,data=strokeass) 67

Περιγραφική Στατιστική Παράσταση Πολυμεταβλητών Δεδομένων (3/3) coplot(age~arms Sex,data=strokeass) 68

Έλεγχος ανεξαρτησίας ποιοτικών μεταβλητών Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Μη παραμετρικοί και παραμετρικοί έλεγχοι υποθέσεων Περιγραφική Στατιστική Επισκόπηση Σχέση μεταξύ δύο ποιοτικών μεταβλητών Διαδικασία δημιουργίας πίνακα συνάφειας Στατιστικός έλεγχος χ2 Έλεγχος ανεξαρτησίας δύο ποιοτικών μεταβλητών Ερμηνεία αποτελεσμάτων 70

Περιγραφική Στατιστική Σχέση Δύο Ποιοτικών Μεταβλητών (1/2) Παράδειγμα: Αρχείο abm.xls Περιέχει δεδομένα για ασθενείς με μηνιγγίτιδα Θέλουμε να διερευνήσουμε αν η φυλή και το αν η μηνιγγίτιδα οφείλεται σε ιό ή βακτήριο είναι ανεξάρτητες ή όχι μεταβλητές. Ή αλλιώς: Υπάρχει σχέση της φυλής με το είδος της μηνιγγίτιδας Είναι συστηματική η σχέση ή απλά έτυχε; 71

Περιγραφική Στατιστική Σχέση Δύο Ποιοτικών Μεταβλητών (2/2) Η μεταβλητή φυλή (race) έχει τιμές 0 και 1. Το 0 αντιστοιχεί σε black και το 1 σε white. Η μεταβλητή abm δείχνει το είδος της μηνιγγίτιδας και έχει τιμές 0 και 1. 0 για acute viral και 1 για acute bacterial. 72

Περιγραφική Στατιστική Πίνακες Συνάφειας Πίνακας συνάφειας αποτελείται από γραμμές και στήλες που ορίζονται από τις κατηγορίες των δύο μεταβλητών Σε κάθε κελί υπάρχουν Συχνότητα Ποσοστό γραμμής Ποσοστό στήλης Ποσοστό στο σύνολο 73

Περιγραφική Στατιστική Χρησιμότητα Οι πίνακες συνάφειας είναι ιδιαίτερα χρήσιμοι όταν έχουμε ονομαστικές μεταβλητές και θέλουμε να ελέγξουμε αν είναι συσχετισμένες Η ύπαρξη συστηματικής σχέσης ανιχνεύεται με τον έλεγχο χ 2 (Chi- Square test) 74

Περιγραφική Στατιστική Ο έλεγχος χ 2 (1/2) Βασίζεται στον υπολογισμό ενός μέτρου από τις συχνότητες του πίνακα συνάφειας Η αρχική (μηδενική H 0 ) υπόθεση είναι ότι οι δύο μεταβλητές δεν είναι συσχετισμένες (είναι ανεξάρτητες) Από τις παρατηρούμενες (Observed) συχνότητες υπολογίζονται οι αναμενόμενες (expected frequencies): 75

Περιγραφική Στατιστική Ο έλεγχος χ 2 (2/2) χ 2 : μέτρο απόστασης ανάμεσα στις παρατηρούμενες και τις αναμενόμενες συχνότητες Παρατηρούμενες (Observed): οι συχνότητες των κελιών Αναμενόμενες (Expected): Υπολογίζονται κάτω από την υπόθεση ότι δεν υπάρχει σχέση ανάμεσα στις δύο μεταβλητές 76

Υπολογισμός χ 2 Περιγραφική Στατιστική 77

Περιγραφική Στατιστική Κατανομή χ 2 Ακολουθεί την χ2 κατανομή της οποίας το σχήμα εξαρτάται από τους βαθμούς ελευθερίας Η τιμή του χ2 που υπολογίζεται συγκρίνεται με τιμή από πίνακα για να φανεί η στατιστική σημαντικότητα 78

Ερμηνεία του χ 2 ελέγχου Περιγραφική Στατιστική 79

Έλεγχος χ 2 Περιγραφική Στατιστική 80

Περιγραφική Στατιστική Προεπεξεργασία Δεδομένων Μετατροπή της μεταβλητής abm από αριθμητική σε ποιοτική με κατηγορίες «No» και «Yes» factor(abm$abm, labels=c("no","yes"))->abm$abm Προσοχή στην σειρά από τις ετικέτες labels. Πρώτα αυτές με που αντιστοιχούν στην χαμηλότερη τιμή Αντικατάσταση των κενών με NA (not available) abm$race[which(abm$race=="")]<-na Αναπροσαρμογή των levels (κατηγοριών) της μεταβλητής race factor(abm$race)->abm$race 81

Πίνακας Συχνοτήτων (1/2) Περιγραφική Στατιστική 82

Περιγραφική Στατιστική Πίνακας Συχνοτήτων (2/2) cbind: συνδυάζει ανά στήλη (column bind) cumsum: αθροιστική συχνότητα (cumulative sum) 83

Πίνακας Συνάφειας Περιγραφική Στατιστική 84

Στατιστικός Έλεγχος χ 2 (1/2) Περιγραφική Στατιστική 85

Στατιστικός Έλεγχος χ 2 (2/2) Περιγραφική Στατιστική 86

Συμπέρασμα Περιγραφική Στατιστική 87

Ανάλυση Συσχετίσεων Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Γενικά-Το κίνητρο Ανάλυση Συσχετίσεων Υπάρχει σχέση ανάμεσα σε δύο (ή περισσότερες) μεταβλητές; Αν υπάρχει σχέση ποια η φύση της σχέσης αυτής; Συσχέτιση: μέτρο σχέσης ανάμεσα σε μεταβλητές Θετικά συσχετισμένες Αρνητικά συσχετισμένες Ασυσχέτιστες 89

Ανάλυση Συσχετίσεων Μέτρηση Μεταβλητότητας Μεταβλητής Διασπορά Διασπορά ή διακύμανση (variance) μιας μεταβλητής: s 2 = ( xi n x) 1 2 = ( x i x)( x n 1 i x) Ερμηνεία: Tο μέσο ποσό μεταβλητότητας των παρατηρήσεων xi από τη μέση τιμή x 90

Ανάλυση Συσχετίσεων Μέτρηση Συμμεταβλητότητας-Συνδιασπορά Συνδιασπορά ή συνδιακύμανση (covariance) δύο μεταβλητών cov( x, y) ( xi x)( y = n 1 y) Ερμηνεία: Το μέσο ποσό της «ταυτόχρονης» μεταβλητότητας των x και y από τις μέσες τιμές τους i 91

Συντελεστής Συνδιασποράς Ανάλυση Συσχετίσεων 92

Τιμές Συντελεστή Συνδιασποράς Ανάλυση Συσχετίσεων 93

Συντελεστής Συσχέτισης Ανάλυση Συσχετίσεων Τυποποίηση (standardization) της συνδιασποράς Απαλλαγή του μέτρου από μονάδες μέτρησης διαίρεση με τυπικές αποκλίσεις των μεταβλητών Συντελεστής συσχέτισης του Pearson (Pearson correlation coefficient): r = cov( x, s s x y y) = ( xi x)( yi ( n 1) s s x y y) 94

Ανάλυση Συσχετίσεων Τιμές-Ερμηνεία Συντελεστή Συσχέτισης (1/2) Οι τιμές του r είναι πάντοτε στο διάστημα [-1,+1] r=+1: Οι μεταβλητές είναι θετικά συσχετισμένες (όταν η μια αυξάνει, η άλλη αυξάνει γραμμικά) r=-1: Οι μεταβλητές είναι αρνητικά συσχετισμένες (όταν η μια αυξάνει, η άλλη μειώνεται γραμμικά) r=0: Οι μεταβλητές είναι ασυσχέτιστες 95

Ανάλυση Συσχετίσεων Τιμές-Ερμηνεία Συντελεστή Συσχέτισης (2/2) 96

Ανάλυση Συσχετίσεων Παράδειγμα Μία έρευνα αφορά τον αριθμό τσιγάρων κατά κεφαλή που κάπνισαν οι πολίτες 43 πολιτειών (1960) και τους ρυθμούς θανάτων ανά 100 χιλιάδες του πληθυσμού από διάφορους τύπους καρκίνων Μεταβλητές (αρχείο Correlation Analysis Cancer.txt): state = state cigar= Αριθμός τσιγάρων που κάπνισαν (εκατοντάδες κατά κεφαλήν) bladder = Θάνατοι ανά 100 χιλιάδες από καρκίνο ουροδόχου κύστης lung = Θάνατοι ανά 100 χιλιάδες από καρκίνο των πνευμόνων kidney = Θάνατοι ανά 100 χιλιάδες από καρκίνο των νεφρών leukemia = Θάνατοι ανά 100 χιλιάδες από λευκαιμία area = 1 (Northwest), 2 (Midwest), 3 (South), 4(West) Ερευνητικό Ερώτημα: Υπάρχει συσχέτιση μεταξύ του αριθμού τσιγάρων και των διάφορων τύπων καρκίνων; 97

Επιλογή Working Directory Ανάλυση Συσχετίσεων 98

Εισαγωγή Αρχείου (1/2) Ανάλυση Συσχετίσεων 99

Εισαγωγή Αρχείου (2/2) Ανάλυση Συσχετίσεων 100

Ανάλυση Συσχετίσεων Προεργασία για το Σύνολο δεδομένων 101

Ανάλυση Συσχετίσεων Απλό Διάγραμμα Διασποράς (Simple Scatterplot) Κατασκευή Διαγράμματος Διασποράς 102

Ορίσματα Συνάρτησης plot Ανάλυση Συσχετίσεων x=dataset$cigar Συνεχής μεταβλητή (x-άξονας) y=dataset$bladder Συνεχής μεταβλητή (yάξονας) main Κύρια Επικεφαλίδα γραφήματος xlab Ετικέτα x-άξονα ylab Ετικέτα y-άξονα xlim Ελάχιστο & μέγιστο x-άξονα ylim Ελάχιστο & μέγιστο y-άξονα 103

Διάγραμμα Διασποράς Ανάλυση Συσχετίσεων Deaths per 100K population fro 2 3 4 5 6 7 Simple Scatter plot Υπάρχει ισχυρή θετική συσχέτιση 10 20 30 40 50 Number of cigarettes smoked (hds p 104

Ανάλυση Συσχετίσεων Πίνακας Διαγραμμάτων Διασποράς (Scatterplot Matrix ) 105

Ορίσματα Συνάρτησης pairs Ανάλυση Συσχετίσεων 106

Ανάλυση Συσχετίσεων Πίνακας Διαγραμμάτων Διασποράς Scatterplot Matrix 3 5 1.5 3.0 ciga 15 30 3 5 blad lung 15 25 1.5 3.5 kidne leuke 5.0 7.0 15 30 15 25 5.0 7.0 107

Ανάλυση Συσχετίσεων Βιβλιοθήκη scatterplot3d -Συνάρτηση scatterplot3d 108

Ανάλυση Συσχετίσεων 3-D Διαγράμματα Διασποράς (3-D Scatterplots) Deaths per 100K population fro 10 15 20 25 30 3D Scatterplot 2 10 15 20 25 30 35 40 45 Number of cigarettes smoked (hds per capita) 3 4 5 6 7 Deaths per 100K population fr 109

Ανάλυση Συσχετίσεων Βιβλιοθήκη Rmcdr -Συνάρτηση scatter3d 110

Ανάλυση Συσχετίσεων 3-D Διαγράμματα Διασποράς (3-D Scatterplots) 111

Ανάλυση Συσχετίσεων Βιβλιοθήκη Hmisc -Συνάρτηση rcorr 112

Ανάλυση Συσχετίσεων Συντελεστής Συσχέτισης του Pearson Υψηλές Θετικές Συσχετίσεις Στατιστικά Σημαντικές Συσχετίσεις Ο συντελεστής Pearson κυρίως για συνεχή, κανονικά κατανεμημένα δεδομένα 113

Ανάλυση Συσχετίσεων Συντελεστής Συσχέτισης Spearman (1/2) Μη-παραμετρικό στατιστικό μέτρο Τα δεδομένα δεν είναι ανάγκη να είναι κανονικά ούτε συνεχή Βασίζεται σε διάταξη των δεδομένων (ranking) και υπολογισμό του συντελεστή του Pearson στις διατάξεις (ranks) Ιδανικό για μεταβλητές διάταξης (ordinal) 114

Ανάλυση Συσχετίσεων Συντελεστής Συσχέτισης Spearman (2/2) Υψηλές Θετικές Συσχετίσεις Στατιστικά Σημαντικές Συσχετίσεις Ο συντελεστής Spearman κυρίως για μεταβλητές διάταξης ή μεταβλητές που δεν ακολουθούν την κανονική κατανομή 115

Ανάλυση Συσχετίσεων Βιβλιοθήκη corrgram -Συνάρτηση corrgram 116

corrgram Ανάλυση Συσχετίσεων cigar bladd lung kidne leuke 117

Ανάλυση Συσχετίσεων Συμπεράσματα Οι συντελεστές συσχέτισης και τα διαγράμματα διασποράς μας δείχνουν το μέγεθος και τη φύση της συσχέτισης Η μοντελοποίηση της συσχέτισης δεν είναι απλή Απαιτούνται έλεγχοι του μοντέλου, δυνατότητα ερμηνείας του, εισαγωγή νέων μεταβλητών κλπ 118

Μη Παραμετρικοί Έλεγχοι Υποθέσεων- Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Επισκόπηση Ενότητας Μη Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων Για ανεξάρτητα δείγματα (Independent Samples) Για εξαρτημένα δείγματα (Paired Samples) 120

Εισαγωγή Παραμετρικοί έλεγχοι υποθέσεων (t-tests) (ανεξάρτητα/εξαρτημένα δείγματα): Έλεγχος υπόθεσης Η 0 : μ 1 =μ 2 Η 1 : μ 1 μ 2 Σημαντική προϋπόθεση: Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Τα δεδομένα ακολουθούν την κανονική κατανομή 121

Παράδειγμα Αποτυχίας t-test (1/2) Παράδειγμα Σύγκριση 2 ανεξάρτητων δειγμάτων: Δείγμα 1: 1 2 3 4 5 6 7 8 9 10 Δείγμα 2: 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Δειγματικές Μέσες τιμές: 5.5 και 13.5 Shapiro-Wilk for normality p- value=0.698 t-test p-value=0.000019 Απόφαση: Υπάρχει στατιστικά σημαντική διαφορά Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Sample Quantiles 5 10 15 20 Normal Q-Q Plot -2-1 0 1 2 Theoretical Quantiles 122

Παράδειγμα Αποτυχίας t-test (2/2) Ύπαρξη Ακραίων Τιμών Σύγκριση 2 ανεξάρτητων δειγμάτων: Δείγμα 1: 1 2 3 4 5 6 7 8 9 10 Δείγμα 2: 7 8 9 10 11 12 13 14 15 16 17 18 19 200 Δειγματικές Μέσες τιμές: 5.5 και 26.36 t-test p-value=0.203 Shapiro-Wilk for normality p- value<0.001 Απόφαση: Δεν υπάρχει στατιστικά σημαντική διαφορά!!! Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Sample Quantiles 0 50 100 150 200 Normal Q-Q Plot -2-1 0 1 2 Theoretical Quantiles 123

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Μη-Παραμετρικοί Έλεγχοι Υποθέσεων Μη-Παραμετρικοί Έλεγχοι Υποθέσεων: Είναι ανεξάρτητοι από την κατανομή του δείγματος Δεν προϋποθέτουν την κανονική κατανομή Βασίζονται στα rankings (κατάταξη των μετρήσεων) και όχι στις αρχικές μετρήσεις του δείγματος Παράδειγμα: Αρχικές μετρήσεις: 105 120 120 121 Κατάταξη μετρήσεων: 1 2.5 2.5 4 124

Παραμετρικοί vs. Μη-παραμετρικοί Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 125

Βήματα Επιλογής Ελέγχου Υποθέσεων Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 126

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Παράδειγμα Πολλές χώρες εξετάζουν το ενδεχόμενο να μειώσουν τα επίπεδα αλκοόλ στο αίμα που επιτρέπονται για την οδήγηση Πείραμα με 20 συμμετέχοντες (αρχείο Mann Whitney Alcohol and driving.txt): 10 άτομα κατανάλωσαν μία προκαθορισμένη ποσότητα αλκοολούχου ποτού (Treatment Group) 10 άτομα κατανάλωσαν την ίδια ποσότητα μηαλκοολούχου ποτού/placebo (Control Group) Κατεγράφησαν οι χρόνοι αντίδρασης (reaction times in second) σε μία σειρά προσομοιωμένων καταστάσεων οδήγησης 127

Επιλογή Working Directory Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 128

Εισαγωγή Αρχείου (1/2) Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 129

Εισαγωγή Αρχείου (2/2) Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 130

Προεργασία για το Σύνολο δεδομένων Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 131

Ερευνητικό Ερώτημα Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 132

Μετασχηματισμός Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 133

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Έλεγχος Mann-Whitney για 2 ανεξάρτητα δείγματα Υποθέτουμε ότι δεν είναι δυνατή η διόρθωση της λοξότητας Επιλογή Mann-Whitney Test Έλεγχος υπόθεσης Η 0 : mean rank r 1 =mean rank r 2 Η 1 : mean rank r 1 mean rank r 2 Πρακτικά, ελέγχει αν διαφέρουν οι διάμεσοι των 2 δειγμάτων 134

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Βιβλιοθήκη psych -Συνάρτηση describeby 135

Ορίσματα Συνάρτησης describeby Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 136

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Διάμεσοι Χρόνων Αντίδρασης για τα 2 Groups 137

Γραφική Παράσταση-Boxplot Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 138

Mann-Whitney test Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Mann-Whitney test Έλεγχος Υποθέσεων για 2 Ανεξάρτητα Δείγματα 139

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Mann-Whitney test για 2 Ανεξάρτητα Δείγματα Mann-Whitney test Έλεγχος υποθέσεων για τις διαμέσους 2 ανεξάρτητων δειγμάτων formula numeric factor data Σύνολο δεδομένων 140

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Αποτελέσματα Mann-Whitney test για Ισότητα Διαμέσων sig. =0.003<0.05 Οι διάμεσοι παρουσιάζουν στατιστικά σημαντική διαφορά Συμπέρασμα: Οι διάμεσοι χρόνοι αντίδρασης μεταξύ των οδηγών που κατανάλωσαν αλκοολούχο ποτό είναι στατιστικά διαφορετικοί από εκείνους που κατανάλωσαν μη-αλκοολούχο ποτό 141

Έλεγχος Wilcoxon Ερευνητικό Πρόβλημα Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Για μια ποσοτική μεταβλητή (ή δύο παρόμοιες) που μετριέται στα ίδια ακριβώς άτομα μας ενδιαφέρει για τις (άγνωστες) διάμεσες τιμές τους Έλεγχος υπόθεσης Η 0 : mean rank r 1 =mean rank r 2 Η 1 : mean rank r 1 mean rank r 2 Εναλλακτικά Η 0 : διάμεσος 1 =διάμεσος 2 Η 1 : διάμεσος 1 διάμεσος 2 142

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Wilcoxon test για 2 εξαρτημένα δείγματα Στο προηγούμενο παράδειγμα με τις μετρήσεις των χρόνων αντίδρασης μετά την κατανάλωση αλκοολούχου ποτού (αρχείο Wilcoxon Alcohol and driving.txt) Καταγράψαμε τους χρόνους αντίδρασης των οδηγών πριν (pre) και μετά την κατανάλωση αλκοόλ (post) Ερευνητικό Ερώτημα Διαφέρουν οι διάμεσοι των μετρήσεων των χρόνων αντίδρασης μετά την κατανάλωση αλκοόλ; Οι μετρήσεις έχουν γίνει στα ίδια άτομα (επομένως αναφερόμαστε σε έναν πληθυσμό) Απαραίτητη η ύπαρξη των δύο μεταβλητών σε δύο διαφορετικές στήλες 143

Εισαγωγή Αρχείου (1/2) Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 144

Εισαγωγή Αρχείου (2/2) Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 145

Προεργασία για το Σύνολο δεδομένων Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα 146

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Έλεγχος Wilcoxon για 2 εξαρτημένα δείγματα 147

Συνάρτηση Summary Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Στατιστικά μέτρα δείγματος: Η διάμεσος για τους χρόνους αντίδρασης των 10 ατόμων πριν την κατανάλωση Αλκοόλ είναι 0.52 Η διάμεσος για τους χρόνους αντίδρασης των 10 ατόμων μετά την κατανάλωση Αλκοόλ είναι 1.425 Είναι λοιπόν, οι διάμεσοι των χρόνων αντίδρασης διαφορετικές πριν και μετά την κατανάλωση αλκοόλ; 148

Γραφική Παράσταση-Boxplot Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα x=dataset[,1], y=dataset[,2] data Σύνολο δεδομένων main Κύρια Επικεφαλίδα xlab Ετικέτα για x-άξονα Μεγάλη διαφορά στις Διαμέσους των χρόνων αντίδρασης πριν και μετά την κατανάλωση αλκοόλ Διαφορά και σε όλα τα άλλα μέτρα 0.5 1.0 1.5 2.0 2.5 3.0 Boxplots for Reaction Tim pre and post 149

Wilcoxon test Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Wilcoxon test Έλεγχος Υποθέσεων για 2 Εξαρτημένα Δείγματα 150

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Wilcoxon test για 2 Εξαρτημένα Δείγματα 151

Μη-παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Διαμέσων για Ανεξάρτητα/Εξαρτημένα Δείγματα Αποτελέσματα Mann-Whitney test για Ισότητα Διαμέσων sig. =0.002<0.05 Οι διάμεσοι παρουσιάζουν στατιστικά σημαντική διαφορά Συμπέρασμα: Οι διάμεσοι χρόνοι αντίδρασης πριν την κατανάλωση αλκοόλ διαφέρουν σημαντικά από εκείνους μετά την κατανάλωση αλκοόλ 152

Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα Γενικά-Το κίνητρο Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών Για ανεξάρτητα δείγματα (Independent Samples) Για εξαρτημένα δείγματα (Paired Samples) Εύρεση Διαστήματος Εμπιστοσύνης-ΔΕ (Confidence Interval-CI) για τη διαφορά των μέσων τιμών (90%, 95%, 99%) 154

Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα Σύγκριση Μέσων Τιμών 2 Ανεξάρτητων Δειγμάτων Μία έρευνα αφορά τα επίπεδα χοληστερίνης στο αίμα και τα περιστατικά καρδιακών επεισοδίων (αρχείο Independent Samples Cholesterol.txt) Κατεγράφησαν τα επίπεδα χοληστερίνης (cholesterol) 28 ασθενών (Treatment Group) 2 μέρες μετά από την εμφάνιση καρδιακού επεισοδίου Παράλληλα, μετρήθηκαν τα επίπεδα χοληστερίνης από 30 υγιείς ανθρώπους (Control Group) Οι μονάδες μέτρησης της χοληστερίνης είναι mg/dl αίματος 155

Επιλογή Working Directory Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα 156

Εισαγωγή Αρχείου (1/2) Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα 157

Εισαγωγή Αρχείου (2/2) Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα 158

Προεργασία για το Σύνολο δεδομένων Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα 159

Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα Βιβλιοθήκη psych -Συνάρτηση describeby Περιγραφική Στατιστική με τη συνάρτηση describeby 160

Ορίσματα Συνάρτησης describeby Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα 161

Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα Μέσες Τιμές Cholesterol για τα 2 Groups 162

Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα Ερευνητικό Ερώτημα Ερευνητικό Ερώτημα Για μια ποσοτική μεταβλητή σε δύο ανεξάρτητους πληθυσμούς μας ενδιαφέρει αν υπάρχει στατιστικά σημαντική διαφορά στις άγνωστες μέσες τιμές τους Η διαδικασία που ακολουθείται ονομάζεται στατιστικός έλεγχος υποθέσεως (statistical hypothesis test) Στατιστικός έλεγχος υπόθεσης είναι η διαδικασία κατά την οποία, τα δεδομένα του δείγματος χρησιμοποιούνται ώστε να ελέγξουμε μία υπόθεση για την άγνωστη τιμή μίας παραμέτρου (πληθυσμός) 163

Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα Στατιστικός Έλεγχος Υποθέσεων Τα στοιχεία ενός στατιστικού ελέγχου υποθέσεων είναι τα εξής: 1. Ορίζεται η μηδενική υπόθεση Η 0 (null hypothesis) 2. Ορίζεται η εναλλακτική υπόθεση Η 1 (alternative hypothesis) 3. Ορίζεται η στάθμη ή επίπεδο σημαντικότητας (level of significance) 4. Εξάγονται τα συμπεράσματα 164

Μηδενική/Εναλλακτική Υπόθεση Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα 165

Δίπλευρος/Μονόπλευρος Έλεγχος Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα 166

Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα Στατιστική Σημαντικότητα, Σφάλμα Τύπου Ι & ΙΙ 167

Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα Σφάλμα Τύπου Ι & ΙΙ Στην πράξη: Η Η 0 απορρίπτεται εάν η παρατηρούμενη στάθμη σημαντικότητας (p-value) είναι μικρότερη μίας προκαθορισμένης στάθμης σημαντικότητας α που επιλέγεται ανάλογα με τις ανάγκες της εκάστοτε έρευνας Π.χ. Εάν θέσουμε ως όριο αποδοχής το α=0.05 και πάρουμε p- value<0.05 δεχόμαστε την ύπαρξη διαφοράς ή εμφάνισης ενός φαινομένου 168

Παραμετρικοί Έλεγχοι Υποθέσεων Σύγκριση Μέσων Τιμών για Ανεξάρτητα/Εξαρτημένα Δείγματα Ερευνητικό Ερώτημα Από το δείγμα μας μπορούμε να ισχυριστούμε ότι οι μέσες τιμές χοληστερίνης των ανθρώπων με καρδιακό επεισόδιο (Treatment Group) διαφέρουν σε σχέση με τους υγιείς (Control Group); Προσοχή! Απαιτείται ύπαρξη 2 μεταβλητών (στηλών): Μια ποσοτική (αυτή που ενδιαφέρει να συγκρίνουμε) και Μια κατηγορική (αυτή που ορίζει τους πληθυσμούς) Στο παράδειγμα θα χρησιμοποιηθούν οι cholest και group 169