Εισαγωγή στη Στατιστική



Σχετικά έγγραφα
Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Εισαγωγή στη Στατιστική

Αναλυτική Στατιστική

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ONE WAY ANOVA. .Π.Μ.Σ. Μαθηµατικά των Υπολογιστών & των αποφάσεων. Πάτρα, 11 Ιανουαρίου 2011

9. Παλινδρόμηση και Συσχέτιση

Εισαγωγή στη Στατιστική

Ανάλυση ποσοτικών δεδομένων. ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Εισαγωγή στη Στατιστική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

Ανάλυση διακύμανσης (Μέρος 2 ο ) 31/3/2017

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Έλεγχος υποθέσεων ΙI ANOVA

Ανάλυση διακύμανσης (Μέρος 3 ο ) 7/4/2017

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Κλωνάρης Στάθης. ΠΜΣ: Οργάνωση & Διοίκηση Επιχειρήσεων Τροφίμων και Γεωργίας

ΚΕΦΑΛΑΙΟ II ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ 1. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΕΝΑ ΚΡΙΤΗΡΙΟ 2. ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Στατιστική: Δειγματοληψία X συλλογή δεδομένων. Περιγραφική στατιστική V πίνακες, γραφήματα, συνοπτικά μέτρα

Ποιοτική και ποσοτική ανάλυση ιατρικών δεδομένων

ΑΝΑΛΥΣΗ ΤΗΣ ΙΑΚΥΜΑΝΣΗΣ (ΑΝOVA)

Στατιστική ανάλυση αποτελεσμάτων

Εισόδημα Κατανάλωση

Για το δείγμα από την παραγωγή της εταιρείας τροφίμων δίνεται επίσης ότι, = 1.3 και για το δείγμα από το συνεταιρισμό ότι, x

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Εργαστήριο Μαθηματικών & Στατιστικής 2η Πρόοδος στο Μάθημα Στατιστική 28/01/2011 (Για τα Τμήματα Ε.Τ.Τ. και Γ.Β.) 1ο Θέμα [40] α) στ) 2ο Θέμα [40]

Εισαγωγή στην Ανάλυση Δεδομένων

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

Περιεχόμενα. Πρόλογος... 15

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ

Ανάλυση Διασποράς Ανάλυση Διασποράς διακύμανση κατά παράγοντες διακύμανση σφάλματος Παράδειγμα 1: Ισομεγέθη δείγματα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Γ. Πειραματισμός - Βιομετρία

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

ΚΕΦΑΛΑΙΟ 1 ο ΒΑΣΙΚΕΣ ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΚΑΙ ΑΝΑΛΥΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΩΝ ΜΕ ΧΡΗΣΗ ΕΛΕΓΧΩΝ (STUDENT S T).. 21

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Χ. Εμμανουηλίδης, 1

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο ) 24/2/2017

Εφαρμοσμένη Στατιστική: Συντελεστής συσχέτισης. Παλινδρόμηση απλή γραμμική, πολλαπλή γραμμική

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Ανάλυση Διακύμανσης με ένα Παράγοντα (One Way ANOVA)

σ = και σ = 4 αντιστοίχως. Τότε θα ισχύει

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Ανάλυση διακύμανσης (Μονοδιάστατη) One-Way ANOVA

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

Συνοπτικά περιεχόμενα

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

Οι παρατηρήσεις του δείγματος, μεγέθους n = 40, δίνονται ομαδοποιημένες κατά συνέπεια ο δειγματικός μέσος υπολογίζεται από τον τύπο:

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Πινάκες συνάφειας. Βαρύτητα συμπτωμάτων. Φύλο Χαμηλή Υψηλή. Άνδρες. Γυναίκες

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

Οι στατιστικοί έλεγχοι x τετράγωνο, t- test, ANOVA & Correlation. Σταμάτης Πουλακιδάκος

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

Γ. Πειραματισμός Βιομετρία

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Απαραμετρική Στατιστική. Έλεγχοι για k 2 ανεξάρτητους πληθυσμούς

Στατιστική Συμπερασματολογία

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

α) t-test µε ίσες διακυµάνσεις β) ανάλυση διακύµανσης µε έναν παράγοντα Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

X = = 81 9 = 9

Transcript:

Εισαγωγή στη Στατιστική Μετεκπαιδευτικό Σεμινάριο στην ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΑΠΟΚΑΤΑΣΤΑΣΗ ΨΥΧΟΚΟΙΝΩΝΙΚΕΣ ΘΕΡΑΠΕΥΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο.

Περιεχόμενα Εισαγωγή στη Στατιστική Επιδημιολογικές Μελέτες Περιγραφική Στατιστική Στατιστική Συμπερασματολογία Ένα Δείγμα Δύο Ανεξάρτητα Δείγματα Δείγματα κατά Ζεύγη Ποσοστά Έλεγχος Καλής Προσαρμογής Πίνακες Συνάφειας 2 2. Ανάλυση Παλινδρόμησης 2

Εισαγωγή Μέχρι τώρα έχουμε ασχοληθεί με τον έλεγχο της διαφοράς των μέσων της ίδιας ποσοτικής μεταβλητής σε δύο ομάδες ατόμων προερχόμενες είτε από δύο ανεξάρτητους πληθυσμούς (two sample t-test), είτε από δύο εξαρτημένους πληθυσμούς (paired two sample t-test). Αλλά τι γίνεται στις περιπτώσεις όπου οι υπό σύγκριση ομάδες είναι παραπάνω από δύο, έστω k; Στην εν λόγω περίπτωση, μπορούμε να εφαρμόσουμε πολλά διαφορετικά t-tests, ένα για κάθε πιθανό ζεύγος ομάδων, π.χ. αν είχαμε 3 ομάδες να εφαρμόζαμε 3 διαφορετικούς ελέγχους (ομάδα 1 εναντίον αμάδας 2, ομάδα 1 εναντίον ομάδας 3 και ομάδα 2 εναντίον ομάδας 3). Μετοντρόποόμωςαυτόναυξάνουμετηνπιθανότητασφάλματοςτύπου I (την πιθανότητα δηλαδή να προκύψουν στατιστικά σημαντικές διαφορές που στην πραγματικότητα δεν υπάρχουν). Για k = 10, π.χ., έχουμε 45 ( k!/[2!(k 2)!] ) πιθανά ζεύγη ομάδων υπό σύγκριση. Χρησιμοποιώντας ε.σ. 5% σε κάθε έναν από τους 45 ελέγχους καταλήγουμε στο ότι 05 45 2 συγκρίσεις ενδέχεται να μας δώσουν στατιστικά σημαντικές διαφορές στους μέσους εντελώς στην τύχη. Επομένως χρειαζόμαστε μια νέα μεθοδολογία. 3

Εισαγωγή Ας υποθέσουμε ότι έχουμε μια συνεχή τυχαία μεταβλητή Υ (εξαρτημένη μεταβλητή ή μεταβλητή απόκρισης) και μία κατηγορική μεταβλητή Χ (παράγοντας), η οποία έχει k επίπεδα τιμών (στάθμες/ομάδες). Σκοπός μας είναι να ελέγξουμε αν κατά μέσο όρο η εξαρτημένη μεταβλητή διαφοροποιείται στις k στάθμες της κατηγορικής μεταβλητής. Θεωρούμε καταρχήν ότι οι k ομάδες είναι μεταξύ τους ανεξάρτητες. Για παράδειγμα ας υποθέσουμε ότι η Υ εκφράζει την συστολική πίεση και ο παράγοντας Χ αποτελεί την μέθοδο θεραπείας με k= 3 διαφορετικές μεθόδους. Σκοπός μας είναι να δούμε αν διαφοροποιείται η μέση τιμή της συστολικής πίεσης σε σχέση με τις εφαρμοζόμενες θεραπευτικές αγωγές (στάθμες/ομάδες). Η μέθοδος που θα εφαρμόσουμε καλείται με έναν παράγοντα (one way ANOVA). Αν οι k στάθμες είναι προκαθορισμένες από τον σχεδιασμό της μελέτης η καλείται Σταθερών Επιδράσεων (οne-way fixed effects ANOVA). Αντίθετα αν δεν είναι προκαθορισμένες από τον σχεδιασμό της μελέτης αλλά αποτελούν ένα τυχαίο δείγμα από ένα μεγάλο αριθμό ομάδων (π.χ. έχουμε τους βαθμούς των φοιτητών σε ένα συγκεκριμένο μάθημα από 3 διαφορετικά πανεπιστημιακά ιδρύματα της χώρας, τα οποία τα έχουμε επιλέξει στην τύχη, από το πλήθος όλων των ιδρυμάτων) τότε η καλείται Τυχαίων Επιδράσεων (one-way random effects ANOVA). Στην περίπτωση συσχετισμένων ομάδων (π.χ. μετρήσεις ίδιων ατόμων σε k διαφορετικές χρονικές στιγμές) εφαρμόζουμε την Επαναλαμβανόμενων Μετρήσεων (repeated measurements ANOVA). Οι παραπάνω ιδέες μπορούν να επεκταθούν και στις περιπτώσεις που έχουμε παραπάνω από έναν παράγοντα, έστω m. Τότε εφαρμόζουμε την με m παράγοντες (mway ANOVA). Στις περιπτώσεις όπου οι στάθμες κάποιων παραγόντων είναι προκαθορισμένες από τον σχεδιασμό της μελέτης και κάποιων άλλων όχι η καλείται Μικτών Επιδράσεων (mixed effects ANOVA). 4

με έναν Παράγοντα Ας υποθέσουμε λοιπόν ότι έχουμε μια συνεχή τυχαία μεταβλητή Υ και θέλουμε να ελέγξουμε αν η μέση της τιμή διαφοροποιείται στις k στάθμες του παράγοντα Χ. Πιο συγκεκριμένα έστω Υ 1 ητιμήτηςυ όταν Χ = 1, Υ 2 ητιμήτηςυότανχ= 2,..., Υ k ητιμήτηςυότανχ = k. Θεωρούμε ότι οι Υ j (j=1,...,k) είναι ανεξάρτητες τ.μ. (δηλαδή η τιμή που παίρνει το υπό μελέτη χαρακτηριστικό στην 1 η π.χ. στάθμη του Χ δεν επηρεάζει την τιμή που παίρνει το ίδιο χαρακτηριστικό στην 5 η π.χ. στάθμη) με μέση τιμή μ j και τυπική απόκλιση σ j. Για να ελέγξουμε τότε πιθανή διαφοροποίηση του υπό μελέτη χαρακτηριστικού στις k στάθμες είναι λογικό να ελέγξουμε την υπόθεση Η 0 : μ 1 = μ 2 =...= μ k, με εναλλακτική ότι τουλάχιστον μία από τις ισότητες δεν ισχύει σε ε.σ. α, δηλαδή να ελέγξουμε αν το υπό μελέτη χαρακτηριστικό έχει την ίδια μέση τιμή στις k στάθμες του X. Έστω ότι διαθέτουμε τυχαίο δείγμα για κάθε στάθμη χωριστά. Πιο συγκεκριμένα έστω y ij ητιμήτηςi παρατήρησης στην j ομάδα (i = 1,2,...,n j, και j = 1,2,...,k). 5

με έναν Παράγοντα Ας συμβολίσουμε με n j y j = y i = 1 ij, το άθροισμα των παρατηρήσεων στην j ομάδα και με 1 n j y j y j = y ij =, i= 1 nj nj τον αντίστοιχο δειγματικό μέσο. Το άθροισμα όλων των παρατηρήσεων το συμβολίζουμε με k n j j= 1 i= 1 y y, = και τον δειγματικό μέσο όλων των παρατηρήσεων με 1 k n j y k y = y j= 1 i= 1 ij = όπου nt j n n = n. j = 1 T T ij 6

με έναν Παράγοντα Το μοντέλο ανάλυσης διασποράς με έναν παράγοντα έχει την μορφή Υ =μ+ a +ε Ε( Υ Χ ) =μ+ a ij j ij ij j = μ j άγνωστες σταθερές τυχαία σφάλματα ~ Ν(0,σ 2 ) 7

με έναν Παράγοντα Η άγνωστη σταθερά μ εκφράζει έναν γενικό μέσο ανεξαρτήτως στάθμης. Οι άγνωστες ποσότητες a j, j = 1,..,k καλούνται επίδραση αγωγής (treatment effect) και δηλώνουν την απόκλιση που ενδέχεται να έχει η μέση τιμή της τ.μ. Υ από τον γενικό μέσο όταν βρισκόμαστε στην j στάθμη. Στην περίπτωση αυτή έχουμε περισσότερες παραμέτρους από όσες χρειάζονται (k+1 αντί για k), οπότεσυνήθωςθέτουμετονπεριορισμό k a j 1 j = 0. = Εναλλακτικά μπορούμε να θέσουμε την συνθήκη Τα ε ij είναι ανεξάρτητες τ.μ. που ακολουθούν την Κανονική κατανομή N(0,σ 2 ) και εκφράζουν τα τυχαία σφάλματα. 1 k T j= 1 j j n n a = 0. 8

με έναν Παράγοντα Η ποσότητα σ 2 εκφράζει την διασπορά των σφαλμάτων, την οποία θεωρούμε σταθερή ανεξάρτητα της στάθμης της τ.μ. Χ (υπόθεση ομοσκεδαστικότητας). Επειδή η τυχαιότητα της Υ δεδομένης μιας στάθμης της Χ οφείλεται στα σφάλματα, το σ 2 εκφράζει και την διασπορά της δεσμευμένης κατανομής της τ.μ. Υ Χ. Επειδή τα ε ij ~ Ν(0,σ 2 ), έχουμε ότι η τ.μ. Υ j ~ Ν(μ+a j,σ 2 ), δηλαδή μια χαρακτηριστική παρατήρηση από την j στάθμη είναι κανονικά κατανεμημένη με μέσο μ + a i και διασπορά σ 2. Επιπλέον η διασπορά αυτή είναι κοινή σε όλες τις τ.μ. Y 1,,Y k. Επιπλέον λόγω της ανεξαρτησίας των σφαλμάτων έχουμε ότι και οι Y 1,,Y k είναι ανεξάρτητες τ.μ., δηλαδή η τιμή που θα πάρει η τ.μ. Υσεκάποιαομάδα j, δεν εξαρτάται από την τιμή που έχει πάρει στην ίδια ή σε κάποια άλλη ομάδα. Τους συντελεστές του μοντέλου διασποράς (τα μ j ) τα εκτιμούμε με την βοήθεια του δείγματος που διαθέτουμε, εφαρμόζοντας όπως και στο γραμμικό μοντέλο την μέθοδο ελαχίστων τετραγώνων, ελαχιστοποιώντας δηλαδή την ποσότητα k n j n1 n2 nκ 2 2 2 2 ij j i1 1 i2 2 ik k j= 1 i= 1 i= 1 i= 1 i= 1 Q = (y μ ) = (y μ ) + (y μ ) +... + (y μ ). 9

με έναν Παράγοντα Καταλήγουμε ότι ˆμ = y (j = 1,..., k). j j Οι παραπάνω τιμές αποτελούν τις προσαρμοσμένες τιμές (fitted values) του μοντέλου μας ŷ ij, δηλαδή την εκτίμηση της μέσης τιμής της τ.μ. Υ δεδομένης της στάθμης του Χ. 10

με έναν Παράγοντα Οι ποσότητες εˆ = y yˆ ij ij ij αποτελούν τις εκτιμήσεις των σφαλμάτων και καλούνται, όπως και στην ανάλυση παλινδρόμησης, υπόλοιπα (residuals). Μια σημαντική ιδιότητα των υπολοίπων είναι ότι μέσα σε κάθε ομάδα έχουν άθροισμα μηδέν n j i= 1 ˆε = 0, j = 1,...,k. ij 11

με έναν Παράγοντα Το σ 2 το εκτιμούμε από την ποσότητα n 1 j s = y y k 2 ( ˆ ) Εκτίμηση διασποράς των σφαλμάτων 2 y x ij ij nt k j = 1 i = 1 Η θετική τετραγωνική της ρίζα της παραπάνω εκτιμήτριας καλείται τυπικό σφάλμα του μοντέλου και όσο μικρότερη τιμή έχει τόσο καλύτερη προσαρμογή έχουμε για το μοντέλο διασποράς. 12

με έναν Παράγοντα Με βάση λοιπόν το μοντέλο που θεωρήσαμε για να ελέγξουμε την πιθανή διαφοροποίηση του υπό μελέτη χαρακτηριστικού στις k στάθμες είναι λογικό να ελέγξουμε την υπόθεση Η 0 : a 1 = a 2 =...= a k, με εναλλακτική ότι τουλάχιστον μία από τις ισότητες δεν ισχύει σε ε.σ. έστω α. 13

με έναν Παράγοντα Οι αποκλίσεις των παρατηρήσεων από τον ολικό μέσο y μπορούν να χωριστούν σε δύο συνιστώσες σύμφωνα με την παρακάτω σχέση: ( y y ) = ( y y ) + ( y y ) ij ij j j y ij Μεταβλητότητα εντός των ομάδων Μεταβλητότητα μεταξύ των ομάδων 14

με έναν Παράγοντα Αν η μεταξύ των ομάδων μεταβλητότητα είναι μεγάλη και η μεταβλητότητα εντός των ομάδων μικρή η μηδενική υπόθεση πρέπει να απορριφτεί. Αντίστοιχα αν η μεταξύ των ομάδων μεταβλητότητα είναι μικρή και η μεταβλητότητα εντός των ομάδων μεγάλη η μηδενική υπόθεση δεν πρέπει να απορριφτεί. 15

με έναν Παράγοντα 16

με έναν Παράγοντα Τις προηγούμενες αποκλίσεις προφανώς πρέπει να τις ελέγξουμε για κάθε παρατήρηση. Υψώνοντας στο τετράγωνο τα δύο μέλη της σχέσης και αθροίζοντας για όλα τα i και j καταλήγουμε στην παρακάτω έκφραση (τα διπλάσια γινόμενα δίνουν άθροισμα μηδέν): n n 2 2 2 k j k j k ( yij y ) = ( yij y j ) + n j ( y j y ) j= 1 i= 1 j= 1 i= 1 j= 1 Συνολικό Άθροισμα Άθροισμα Άθροισμα = Τετραγώνων Eντός + Τετραγώνων Mεταξύ Τετραγώνων oμάδων oμάδων (SST) (SSW) (SSB) 17

με έναν Παράγοντα Τετραγωνικός Μέσος Μεταξύ των Ομάδων (Mean Square Between): MSB = SSB/(k - 1). Τετραγωνικός μέσος εντός των Ομάδων (Within Mean Square): MSW = SSW/(n T -k). Ολικός Τετραγωνικός Μέσος (Total Mean Square): MST = SST/(n T -1). Θεωρούμε το στατιστικό ελέγχου F = MSB/MSW. Κάτω από την μηδενική υπόθεση αποδεικνύετε ότι το F ακολουθεί την F(k-1, n T k). Άρα σε ε.σ. α απορρίπτουμε την μηδενική υπόθεση και συμπεραίνουμε ότι ο μέσος της τ.μ. Υ διαφοροποιείται στις ομάδες του παράγοντα Χ (στατιστικά σημαντικός ο παράγοντας Χ), όταν F > Fk 1,nT k,α. Η P-τιμή του ελέγχου είναι η πιθανότητα είναι πιθανότητα της περιοχής της F(k-1, n T k). δεξιά από το F που παρατηρούμε. 18

με έναν Παράγοντα F (k-1,n T -k) F (k-1,n T -k) Περιοχή απόρριψης Η 0 Fk 1,nT k,α P-τιμή F k 1,n T k,α F 19

με έναν Παράγοντα Μεταβλητότητα Βαθμοί Ελευθερίας Άθροισμα Τετραγώνων (SS) Τετραγωνικοί Μέσοι (MS) Μεταξύ των Ομάδων k 1 k j= 1 j ( j ) n y y = SSB 2 k 1 2 nj( y j y ) = MSB k 1 j= 1 Εντός των Ομάδων nt k k n j j= 1 i= 1 ( ij j ) 2 y y = SSW n 1 k k n j T j= 1 i= 1 ( ij j ) 2 y y = ΜSW Ολική nt 1 k n j j= 1 i= 1 ( ) y y = SST ij 2 1 n 1 k n j T j= 1 i= 1 ( ) ij 2 y y = MST 20

με έναν Παράγοντα Προϋποθέσεις μοντέλου: 1. Η κατανομή που ακολουθεί η εξαρτημένη τ.μ. Υ στις διαφορετικές στάθμες είναι κανονική. Ισοδύναμα τα σφάλματα πρέπει να ακολουθούν κανονική κατανομή. 2. Η διασπορά της εξαρτημένης τ.μ. Υ είναι ίδια σε όλες τις ομάδες (ομοσκεδαστικότητα). 3. Τα σφάλματα είναι ανεξάρτητες τ.μ. Όταν δεν ισχύουν οι παραπάνω προϋποθέσεις, είτε μετασχηματίζουμε κατάλληλα την μεταβλητή απόκρισης Υ, είτε εφαρμόζουμε τον αντίστοιχο μη παραμετρικό έλεγχο που καλείται Kruskal - Wallis test. 21

με έναν Παράγοντα Υπάρχουν περιπτώσεις στις οποίες είναι χρήσιμο να προβούμε σε πολλαπλές συγκρίσεις (multiple comparisons), δηλαδή να ελέγξουμε ανά δύο κάποιους αν όχι όλους τους μέσους. Με δύο ομάδες η ερμηνεία μιας στατιστικά σημαντικής διαφοράς είναι προφανής, αλλά κάτι τέτοιο δεν συμβαίνει όταν το k > 2. Στην περίπτωση π.χ. που έχουμε τρεις ομάδες και απορρίπτεται η μηδενική υπόθεση, δηλαδή αποδεχόμαστε ότι υπάρχει στατιστικά σημαντική διαφορά μεταξύ των μέσων των τριών ομάδων, τότε περαιτέρω ανάλυση είναι απαραίτητη για να δούμε ποιες ακριβώς ομάδες έχουν διαφορετικούς μέσους. Ένα είδος τέτοιας ανάλυσης θα απαιτούσε πολλαπλές συγκρίσεις. Αλλά όπως είπαμε και στην αρχή της ενότητας με τον τρόπο αυτόν αυξάνεται η πιθανότητα σφάλματος τύπου I. Ένας τρόπος αντιμετώπισης του προβλήματος αυτού, αρκετά συντηρητικός ιδιαίτερα όταν το k είναι μεγάλο, είναι η χρήση της μεθόδου Bonferroni, κατά την οποία όταν πραγματοποιούμε Ν συνολικά τέτοιες συγκρίσεις αναπροσαρμόζουμε την P τιμή (έστω p) κάθε ελέγχου σε p = Np με την προϋπόθεση ότι p 1. 22

με έναν Παράγοντα H με έναν παράγοντα συνδέεται με το γενικό γραμμικό μοντέλο παλινδρόμησης στο οποίο οι διάφορες στάθμες εκφράζονται μέσω εικονικών μεταβλητών. Συγκεκριμένα, αν έχουμε k στάθμες, ορίζουμε τις ακόλουθες k 1 εικονικές μεταβλητές x j 1, αν η παρατήρηση αφορά την j στάθμη του παράγοντα με j k, = -1, αν η παρατήρηση αφορά την k στάθμη του παράγοντα, 0, διαφορετικά. Τότε μπορεί να δειχθεί ότι οι συντελεστές του γενικού γραμμικού μοντέλου EYx = a+ bx+ bx +... + b x, [ ] 1 1 2 2 k 1 k 1 αντιστοιχούν στις παραμέτρους του μοντέλου ανάλυσης διασποράς δηλαδή μ = b, α = b,...,α = b, 0 1 1 k 1 k 1 k ενώ το α προκύπτει από την σχέση α = 0. k j1 = j 23

με έναν Παράγοντα Αν ο παράγοντας Χ είναι μεταβλητή διάταξης (π.χ. ηλικιακή ομάδα, <10, 10 19, 20 29, 30 39, 40 49, 50 59, >59 χρονών), συνήθως ενδιαφερόμαστε να ελέγξουμε αν υπάρχει κάποια γραμμική τάση (linear trend), μεταξύ των μέσων της εξαρτημένης τ.μ. Υ στις διατάξιμες στάθμες του παράγοντα Χ, αντί να ελέγξουμε αν οι μέσοι γενικά διαφέρουν. Την ύπαρξη γραμμικής τάσης μπορούμε εύκολα να την ελέγξουμε με την βοήθεια ενός μοντέλου απλής γραμμικής παλινδρόμησης θεωρώντας τον παράγοντα Χ ως μια συνεχή επεξηγηματική μεταβλητή. 24

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα 22 ασθενείς που υποβάλλονται σε εγχείρηση καρδιάς χωρίζονται τυχαία σε τρεις ομάδες: Ομάδα I: Οι ασθενείς έλαβαν μίγμα 50% νιτρώδους οξειδίου και 50% οξυγόνο για 24 ώρες. Ομάδα II: Οι ασθενείς έλαβαν μίγμα 50% νιτρώδους οξειδίου και 50% οξυγόνο μόνο κατά την διάρκεια της εγχείρησης. Ομάδα III: Οι ασθενείς έλαβαν 35-50% οξυγόνο για 24 ώρες. Έχουν οι ασθενείς που υποβάλλονται σε εγχείρηση καρδιάς το ίδιο μέσο επίπεδο φολικού οξέος (μg/l) στα ερυθροκύτταρα στις 3 ομάδες; 25

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Ασθενής Ομάδα I (n=8) Ομάδα II (n=9) Ομάδα III (n=5) 1 243 206 241 2 251 210 258 3 275 226 270 4 291 249 293 5 347 255 328 6 354 273 7 380 285 8 392 295 9 309 Μέσος 316.6 256.4 278.0 SD 58.7 37.1 33.8 26

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Τα δεδομένα πρέπει να είναι σε μακρά μορφή (long format) 27

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα 28

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα 29

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Από το διπλανό γράφημα παρατηρούμε ότι στο δείγμα μας τα επίπεδα φολικού οξέος διαφοροποιούνται στις 3 ομάδες. Είναι όμως η παρατηρούμενη αυτή διαφορά στατιστικά σημαντική; Επίσης παρατηρήστε πως στην ομάδα 1 υπάρχει μεγαλύτερη μεταβλητότητα στις τιμές του φολικού οξέος σε σχέση με τις άλλες 2 ομάδες. Είναι όμως και πάλι αυτή η διαφορά στατιστικά σημαντική ή μπορούμε να θεωρήσουμε ότι έχουμε ισότητα διασπορών στις 3 ομάδες; Τέλος παρατηρήστε πως στην ομάδα 3 δεν φαίνεται να υπάρχει συμμετρικότητα στις τιμές του φολικού οξέος, γεγονός που δηλώνει ότι ίσως στην εν λόγω ομάδα δεν ικανοποιείται η υπόθεση της κανονικότητας. Στο συγκεκριμένο παράδειγμα πρέπει να είμαστε προσεκτικοί με τα συμπεράσματά μας μιας και έχουμε λίγες παρατηρήσεις, ειδικά στην 3 η ομάδα. 30

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Κανονικότητα σφαλμάτων. Ένας τρόπος για να ελέγξουμε την κανονικότητα των σφαλμάτων είναι με την βοήθεια ενός γενικού γραμμικού μοντέλου. Αποθηκεύουμε τα υπόλοιπα και ελέγχουμε την υπόθεση της κανονικότητας δημιουργώντας τα QQ- PLOTS τους. 31

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα 32

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα 33

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα 34

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Υπόθεση κανονικότητας σφαλμάτων λογική. 35

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Ανεξαρτησία σφαλμάτων. Κατασκευάζουμε ένα διάγραμμα υπολοίπων σε σχέση με την σειρά των δεδομένων, στο οποίο δεν πρέπει να παρουσιάζεται κάποια σχέση και τα υπόλοιπα να συμπεριφέρονται τυχαία. Η εικόνα όμως μπορεί να είναι και παραπλανητική (σκεφτείτε τα δεδομένα να μας έχουν δοθεί σε αύξουσα τάξη μεγέθους). Για τον λόγο αυτό συνήθως ο παραπάνω έλεγχος δεν πραγματοποιείται και με βάση τον σχεδιασμό της μελέτης δεχόμαστε ή όχι την προϋπόθεση της ανεξαρτησίας των σφαλμάτων. 36

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα 37

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Πιθανό πρόβλημα με ανεξαρτησία σφαλμάτων. 38

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Ομοσκεδαστικότητα. Ο έλεγχος της ισότητας των διασπορών της εξαρτημένης τ.μ. σε κάθε στάθμη χωριστά γίνεται με την βοήθεια ενός ελέγχου, ο οποίος αποτελεί γενίκευση του F test που είχαμε συναντήσει στον έλεγχο των μέσων δύο ανεξάρτητων πληθυσμών (two sample t-test), και καλείται Levene-test. Ο εν λόγω έλεγχος μπορεί να πραγματοποιηθεί στο SPSS τρέχοντας το μοντέλο ανάλυσης διασποράς. 39

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα 40

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Απορρίπτεται σε ε.σ. 5% η προϋπόθεση ισότητας διασπορών. Απορρίπτεται σε ε.σ. 5% η υπόθεση ισότητας μέσων. Συμπεραίνουμε δηλαδή ότι τα μέσα επίπεδα φολικού οξέος διαφοροποιούνται στις 3 ομάδες. 41

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Παρατηρούμε λοιπόν ότι στο εν λόγω παράδειγμα έχουμε κάποιες αμφιβολίες για τις προϋποθέσεις του μοντέλου διασποράς. Πιο συγκεκριμένα σε ε.σ. 5% απορρίπτουμε την μηδενική υπόθεση ισότητας διασπορών στις 3 στάθμες. Για να βεβαιωθούμε για την ορθότητα των τελικών συμπερασμάτων μας θα εφαρμόσουμε εν συνεχεία και τον μη παραμετρικό έλεγχο Kruskal - Wallis test. Παρατηρούμε ότι σε ε.σ. 5% έχουμε ενδείξεις εναντίον της μηδενικής υπόθεσης ισότητας των μέσων. Καταλήγουμε δηλαδή στο συμπέρασμα ότι τα μέσα επίπεδα φολικού οξέος διαφοροποιούνται στις 3 ομάδες. Από τα θηκογραφήματα που είχαμε κατασκευάσει φαίνεται οι ασθενείς στην ομάδα 1 να έχουν υψηλότερα επίπεδα φολικού οξέος σε σχέση με αυτούς των δύο άλλων ομάδων. Για να βεβαιωθούμε για το εν λόγω συμπέρασμα μπορούμε να προβούμε σε πολλαπλές συγκρίσεις, αναπροσαρμόζοντας τις P-τιμές των πολλαπλών ελέγχων με βάση την μέθοδο Bonferroni. 42

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα 43

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Από τις πολλαπλές συγκρίσεις προκύπτει ότι υπάρχει μόνο στατιστικά σημαντική διαφορά στα μέσα επίπεδα φολικού οξέος μεταξύ των ομάδων 1 και 2. Τα μέσα επίπεδα φολικού οξέος είναι υψηλότερα στους ασθενείς της 1 ης ομάδας. Ένα 95% Δ.Ε. της διαφοράς των δύο μέσων (αμάδας 1 ομάδας 2) είναι το (1.86, 118.50). 44

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Επειδή στο εν λόγω παράδειγμα έχουμε αμφιβολίες για την ορθότητα των συμπερασμάτων μας, λόγω του γεγονότος ότι σε ε.σ. 5% δεν ικανοποιείται η προϋπόθεση της ισότητας διασπορών στις 3 ομάδες, εφαρμόζουμε το μη παραμετρικό έλεγχο Kruskal - Wallis test. 45

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα 46

Παράδειγμα Ανάλυσης Διασποράς με έναν Παράγοντα Άρα με βάση τον μη παραμετρικό έλεγχο δεν απορρίπτουμε την μηδενική υπόθεση, δηλαδή θεωρούμε ότι τα μέσα επίπεδα φολικού οξέος δεν διαφοροποιούνται στις 3 ομάδες. Αν ο εν λόγω έλεγχος μας έδινε στατιστικά σημαντικές διαφορές τότε απότααρχικάθηκογραφήματα θα μπορούσαμε να εντοπίσουμε μεταξύ ποιων ομάδων οι μέσοι διαφέρουν. 47

με δύο Παράγοντες Ας υποθέσουμε ότι έχουμε μια συνεχή εξαρτημένη μεταβλητή Υ και δύο επεξηγηματικές μεταβλητές (παράγοντες) Χ 1 και Χ 2 με a και b στάθμες αντίστοιχα. Για παράδειγμα, έστω ότι η μεταβλητή Υ εκφράζει την συστολική πίεση ασθενών, η μεταβλητή Χ 1 αποτελεί την εφαρμοζόμενη θεραπευτική μέθοδο από a = 3 διαφορετικές μεθόδους και η Χ 2 το φύλο του ασθενούς (b = 2). Σκοπός μας είναι να δούμε αν υπάρχει διαφορά στις τιμές της εξαρτημένης μεταβλητής σε σχέση με τις διαφορετικές στάθμες κάθε παράγοντα χωριστά (κύριες επιδράσεις των δύο παραγόντων), καθώς επίσης και αν συγκεκριμένοι συνδυασμοί δύο σταθμών των δύο παραγόντων δημιουργούν διαφοροποιημένα αποτελέσματα, δηλαδή έχουμε ύπαρξη αλληλεπίδρασης (interaction), που σημαίνει ότι η κύρια επίδραση ενός παράγοντα δεν είναι η ίδια σε κάθε στάθμη του άλλου παράγοντα. 48

με δύο Παράγοντες y ijk Ας συμβολίσουμε με την τιμή της k παρατήρησης στην i στάθμη του παράγοντα Χ 1 και j στάθμη του παράγοντα Χ 2. Συνολικά θεωρούμε ότι έχουμε n T παρατηρήσεις με τον ίδιο αριθμό παρατηρήσεων, έστω n, σε κάθε αγωγή (συνδυασμός ή διασταύρωση σταθμών). Άρα ο συνολικός αριθμός παρατηρήσεων είναι n T = abn. Πειράματα όπως το συγκεκριμένο όπου εξετάζουμε όλους τους δυνατούς συνδυασμούς των σταθμών των παραγόντων με τον ίδιο αριθμό παρατηρήσεων σε κάθε αγωγή, καλούνται ισόρροποι παραγοντικοί σχεδιασμοί (balanced factorial designs) ή ισόρροποι πλήρως διασταυρωμένοι σχεδιασμοί (balanced fully crossed designs). Στις εν λόγω σημειώσεις δεν θα ασχοληθούμε με μη ισόρροπους παραγοντικούς σχεδιασμούς (unbalanced factorial designs). Στον παρακάτω πίνακα παρουσιάζονται οι τιμές ενός τυχαίου δείγματος από ισόρροπο παραγοντικό σχεδιασμό: 49

με δύο Παράγοντες 50

με δύο Παράγοντες Το μοντέλο Ανάλυσης Διασποράς με δύο παράγοντες έχει την εξής μορφή: Υ ijk =μ+ a i +β j + ( αβ ) ij +εijk Ε( Υijk Χ 1,X 2) =μ+ a i +β j + ( αβ) ij = μ ij άγνωστες σταθερές τυχαία σφάλματα (ανεξάρτητες τ.μ.) ~ Ν(0,σ 2 ) 51

με δύο Παράγοντες Η παρατήρηση y ijk που αφορά στην k τιμή της τ.μ. Υ στην i στάθμη του παράγοντα Χ 1 και j στάθμη του παράγοντα Χ 2, με βάση το παραπάνω μοντέλο είναι το άθροισμα μιας σταθερής ποσότητας μ ij καιενόςτυχαίουσφάλματοςε ijk. Παρατηρούμε ότι Ε(Υ ijk X 1,X 2 ) = μ ij, δηλαδή η ποσότητα μ ij δηλώνει την αναμενόμενη τιμή της τ.μ. Υγιατηνi στάθμη του παράγοντα Χ 1 και την j στάθμη του παράγοντα Χ 2. Επειδή η παράμετρος μ ij είναι σταθερά έχουμε ότι V(Υ ijk X 1,X 2 ) = V(ε ijk ) = σ 2. Άρα η διασπορά της τ.μ. Υ είναι σταθερή, ανεξάρτητα της αγωγής. Επειδή ε ijk ~N(0,σ 2 ) έπεται ότι Υ ijk ~ N(μ ij,σ 2 ). Επιπλέον λόγω της ανεξαρτησίας των σφαλμάτων έχουμε επίσης ότι οι Υ ijk είναι ανεξάρτητες τ.μ. 52

με δύο Παράγοντες Υποθέτουμε επίσης ότι για την στάθμη i του παράγοντα Χ 1 ο μέσος διαφέρει από τον γενικό μέσο μ κατά μια ποσότητα α i (κύρια επίδραση της στάθμης i του παράγοντα Χ 1 ), δηλαδή Ακόμα για την στάθμη j του παράγοντα Χ 2 ομέσος διαφέρει από τον γενικό μέσο μ κατά μια ποσότητα β j (κύρια επίδραση της στάθμης j του παράγοντα Χ 2 ), δηλαδή Η σταθερά εκφράζει την αλληλεπίδραση μεταξύ της i στάθμης του παράγοντα Χ 1 και της j στάθμης του παράγοντα Χ 2. 1 b μi = b μ j1 = ij α = μ μ. i i (αβ) ij 1 a μ j = a μ i = 1 ij, β = μ μ, j j 53

με δύο Παράγοντες Στην περίπτωση αυτή έχουμε περισσότερες παραμέτρους απόόσεςχρειάζονται, οπότε θέτουμε τους περιορισμούς: a b a i= 1 i j= 1 j i= 1 ij α = 0, β = 0, (αβ) = 0, j=1,2,...,b b και (αβ) = 0, i=1,2,...,a. j1 = ij 54

με δύο Παράγοντες Τους συντελεστές του παραπάνω μοντέλου διασποράς (τα μ ij ) τα εκτιμούμε με την βοήθεια του δείγματος που διαθέτουμε, εφαρμόζοντας όπως και στο γραμμικό μοντέλο την μέθοδο ελαχίστων τετραγώνων, ελαχιστοποιώντας δηλαδή την ποσότητα a b n 2 Q = (yijk μ ij). i= 1 j= 1 k= 1 55

με δύο Παράγοντες Καταλήγουμε ότι ˆμ ij = yij Οι παραπάνω τιμές αποτελούν τις προσαρμοσμένες τιμές (fitted values) του μοντέλου μας ŷ ijk, δηλαδή την εκτίμηση της μέσης τιμής της τ.μ. Υ δεδομένης της στάθμης του Χ. 56

με δύο Παράγοντες Οι ποσότητες εˆ = y yˆ ijk ijk ijk αποτελούν τις εκτιμήσεις των σφαλμάτων και καλούνται, όπως και στην ανάλυση παλινδρόμησης, υπόλοιπα (residuals). 57

με δύο Παράγοντες Το σ 2 το εκτιμούμε από την ποσότητα 1 s y y ab(n 1) = = = a b n 2 y x 1,x = 2 ijk ijk i 1 j 1 k 1 ( ˆ ) Η θετική τετραγωνική της ρίζα της παραπάνω εκτιμήτριας καλείται τυπικό σφάλμα του μοντέλου και όσο μικρότερη τιμή έχει τόσο καλύτερη προσαρμογή έχουμε για το μοντέλο διασποράς. 2 Εκτίμηση διασποράς των σφαλμάτων 58

με δύο Παράγοντες Προϋποθέσεις μοντέλου: 1. Η κατανομή που ακολουθεί η εξαρτημένη τ.μ. Υ σε κάθε αγωγή είναι κανονική. Ισοδύναμα τα σφάλματα πρέπει να ακολουθούν κανονική κατανομή. 2. Η διασπορά της εξαρτημένης τ.μ. Υ είναι ίδια σε κάθε αγωγή (ομοσκεδαστικότητα). 3. Τα σφάλματα είναι ανεξάρτητες τ.μ. Όταν δεν ισχύουν οι παραπάνω προϋποθέσεις μετασχηματίζουμε κατάλληλα την μεταβλητή απόκρισης Y (δεν υπάρχει αντίστοιχος μη παραμετρικός έλεγχος). 59

με δύο Παράγοντες Ερευνητής ενδιαφέρεται να δει αν η υπέρταση σχετίζεται με τις διατροφικές συνήθειες και το φύλο. Τα παρακάτω δεδομένα μας παρουσιάζουν μετρήσεις αρτηριακής πίεσης για τους συνδυασμούς των 2 παραγόντων. Παράγοντας 2: Διατροφικές Συνήθειες Παράγοντας 1: Φύλο Χορτοφάγος Χορτοφάγος +Ψάρι Όχι Χορτοφάγος Άνδρας 100, 112, 102 112, 121, 118 122, 123, 131 Γυναίκα 98, 101, 102 103, 109, 111 124, 101, 117 60

με δύο Παράγοντες Στο εν λόγω παράδειγμα που έχουμε περισσότερεςαπόμίαπαρατηρήσειςανάαγωγή θα μπορούσαμε να εξετάσουμε την πιθανή ύπαρξη σημαντικής αλληλεπίδρασης μεταξύ των δύο παραγόντων. Αυτό θα σήμαινε ότι η επίδραση ενός παράγοντα δεν είναι η ίδια στα επίπεδα του άλλου παράγοντα, π.χ. η επίδραση των διατροφικών συνηθειών στην υπέρταση είναι διαφορετική μεταξύ ανδρών και γυναικών. 61

με δύο Παράγοντες 62

με δύο Παράγοντες 63

με δύο Παράγοντες 64

με δύο Παράγοντες Από την περιγραφική ανάλυση παρατηρούμε ότι στο δείγμα μας οι άνδρες έχουν υψηλότερη μέση πίεση από τις γυναίκες. Επίσης οι χορτοφάγοι έχουν χαμηλότερη μέση πίεση από τους χορτοφάγους που τρώνε και ψάρι, οι οποίοι με την σειρά τους έχουν χαμηλότερη μέση πίεση από τους μη χορτοφάγους. Είναι όμως οι παρατηρούμενες αυτές διαφορές στατιστικά σημαντικές; Είναι η επίδραση των διατροφικών συνηθειών στην υπέρταση διαφορετική μεταξύ ανδρών και γυναικών; 65

με δύο Παράγοντες 66

με δύο Παράγοντες 67

με δύο Παράγοντες 68

με δύο Παράγοντες 69

με δύο Παράγοντες 70

με δύο Παράγοντες 71

με δύο Παράγοντες Δεν απορρίπτεται σε ε.σ. 5% η προϋπόθεση ισότητας διασπορών. 72

με δύο Παράγοντες 73

με δύο Παράγοντες Πιθανό πρόβλημα με την υπόθεση κανονικότητας σφαλμάτων. 74

με δύο Παράγοντες 75

με δύο Παράγοντες Δεν φαίνεται να υπάρχει πρόβλημα μετηνανεξαρτησίατωνσφαλμάτων. 76

με δύο Παράγοντες ΠΙΝΑΚΑΣ ANOVA Η επίδραση του φύλου είναι στατιστικά σημαντική Η επίδραση των διατροφικών συνηθειών είναι στατιστικά σημαντική Η αλληλεπίδραση των 2 παραγόντων δεν είναι στατιστικά σημαντική 77

με δύο Παράγοντες Το γράφημα παρουσιάζει την εκτιμώμενη αναμενόμενη αρτηριακή πίεση ανά φύλο και διατροφική συνήθεια. Οι ευθείες είναι σχεδόν παράλληλες, άρα δεν υπάρχει αλληλεπίδραση. 78

με δύο Παράγοντες ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ Κατηγορίες αναφοράς 79

με δύο Παράγοντες Η αναμενόμενη αρτηριακή πίεση των μη χορτοφάγων γυναικών είναι 114. Οι άνδρες έχουν αναμενόμενη αρτηριακή πίεση κατά 11.33 υψηλότερη σε σχέση με τις γυναίκες των ίδιων διατροφικών συνηθειών. Οι χορτοφάγοι έχουν αναμενόμενη αρτηριακή πίεση κατά 13.667 χαμηλότερη σε σχέση με τους μη χορτοφάγους του ίδιου φύλου. Οι χορτοφάγοι που τρώνε και ψάρι έχουν αναμενόμενη αρτηριακή πίεση κατά 6.33 χαμηλότερη σε σχέση με τους μη χορτοφάγους του ίδιου φύλου. Η επίδραση των διατροφικών συνηθειών στην υπέρταση είναι η ίδια μεταξύ ανδρών και γυναικών. 80

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων Όπως είχαμε αναφέρει και στην ενότητα της Στατιστικής Συμπερασματολογίας, αρκετές φορές στις στατιστικές μελέτες συναντάμε το φαινόμενο των εξαρτημένων δειγμάτων. Π.χ. ας υποθέσουμε ότι έχουμε μετρήσεις της ίδιας ποσοτικής μεταβλητής Y (μεταβλητή απόκρισης) για τα ίδια άτομα σε k διαφορετικές χρονικές περιόδους. Ας καλέσουμε Υ j την μεταβλητή την χρονική τιμή j (j = 1,,k) και ας θεωρήσουμε ότι προέρχεται από πληθυσμό με άγνωστη μέση τιμή μ j και άγνωστη τυπική απόκλιση σ j. Έστω ότι διαθέτουμε τυχαίο δείγμα με y ij η τιμή της i παρατήρησης στην j χρονική στιγμή (i = 1,2,...,n j, και j = 1,2,...,k). Ενδιαφερόμαστε να δούμε αν η υπό μελέτη τυχαία μεταβλητή διαφοροποιείται κατά μέσο όρο στις k χρονικές περιόδους, δηλαδή να ελέγξουμε την υπόθεση Η 0 : μ 1 = μ 2 = = μ k με εναλλακτική ότι τουλάχιστον μία από τις ισότητες δεν ισχύει σε ε.σ. α. Το μοντέλο ANOVA με έναν παράγοντα στο εν λόγω πρόβλημα δεν είναι το κατάλληλο, διότι έτσι δεν λαμβάνεται υπόψιν η συσχέτιση μεταξύ των επαναλαμβανόμενων μετρήσεων. Επιπλέον παραβιάζεται η προϋπόθεση της ανεξαρτησίας. Αντί αυτού χρησιμοποιούμε το μοντέλο ANOVA επαναλαμβανόμενων μετρήσεων (Repeated Measures ANOVA) το οποίο μπορεί να θεωρηθεί ως επέκταση του paired t-test για k > 2. Ανάγκη για το μοντέλο ANOVA επαναλαμβανόμενων μετρήσεων δεν έχουμε μόνο όταν τα δεδομένα μας έχουν μελετηθεί σε διαφορετικές χρονικές περιόδους, αλλά όποτε έχουμε πολλά εξαρτημένα δείγματα. Για παραδείγματα εξαρτημένων δειγμάτων δείτε την ενότητα της Στατιστικής Συμπερασματολογίας. Ο επόμενος πίνακας μας δίνει τον καρδιακό παλμό, 9 ασθενών με συμφορητική καρδιακή ανεπάρκεια, πριν και λίγο μετά την χορήγηση άλατος εναλαπλίρης, ενός αναστολέα του μετατρεπτικού ενζύμου της αγγειοτασίνης. 81

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων 82

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων Οι δειγματικοί μέσοι για κάθε χρονική στιγμή υποδεικνύουν ότι ο καρδιακός παλμός μειώνεται κατά μέσο όρο περίπου 4 χτύπους το λεπτό τα πρώτα 30 λεπτά μετά την χορήγηση του άλατος εναλαπλίρης και παραμένει σχετικά σταθερός για τα υπόλοιπα 90 λεπτά. Είναι όμως η παρατηρούμενη αυτή διαφορά στατιστικά σημαντική; 83

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων Προϋποθέσεις Μοντέλου: Τα σφάλματα πρέπει να ακολουθούν Κανονική κατανομή. Το εν λόγω μοντέλο είναι ισοδύναμο με ένα μοντέλο ANOVA με δύο παράγοντες. Οι παράγοντες είναι ο χρόνος (σταθερές επιδράσεις) και οι ασθενείς (τυχαίες επιδράσεις). Άρα θέλουμε όπως και στο μοντέλο ANOVA με δύο παράγοντες η διασπορά της εξαρτημένης τ.μ. Υ να είναι ίδια σε κάθε αγωγή. Για να ελέγξουμε την εν λόγω προϋπόθεση εφαρμόζουμε το Mauchly's Test of Sphericity. Αν τα αποτελέσματα του ελέγχου προκύψουν στατιστικά σημαντικά αναπροσαρμόζουμε την P-τιμή του παράγοντα χρόνου που έχει προκύψει από τον πίνακα ANOVA χρησιμοποιώντας την διόρθωση των Greenhouse-Geisser. 84

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων Τα δεδομένα πρέπει να είναι σε ευρεία μορφή (wide format) 85

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων 86

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων 87

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων 88

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων Δεν απορρίπτεται σε ε.σ. 5% η προϋπόθεση ισότητας διασπορών. Ο μέσος καρδιακός παλμός των ασθενών αλλάζει με τον χρόνο 89

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων Έλεγχος προϋπόθεσης κανονικότητας σφαλμάτων Υπόλοιπα για κάθε χρονική περίοδο (4 συνολικά) 90

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων 91

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων Δεχόμαστε την υπόθεση της κανονικότητας 92

Μοντέλο ANOVA Επαναλαμβανόμενων Μετρήσεων Για να δούμε ανάμεσα σε ποιες χρονικές περιόδους υπάρχει διαφοροποίηση των καρδιακών παλμών, θα μπορούσαμε να προβαίναμε σε όλους τους ανά δύο ελέγχους (matched t- tests) και εν συνεχεία να διορθώναμε τις P-τιμές των ελέγχων χρησιμοποιώντας την μέθοδο Bonferroni. Όταν δεν ισχύουν οι προϋποθέσεις του μοντέλου ANOVA επαναλαμβανόμενων μετρήσεων (δηλαδή τα σφάλματά μας δεν είναι κανονικά), είτε μετασχηματίζουμε κατάλληλα την μεταβλητή απόκρισης, είτε εφαρμόζουμε τον αντίστοιχο μη παραμετρικό έλεγχο Friedman s Test, ο οποίος αποτελεί μια γενίκευση του Wilcoxon Signed-Rank test για 2 εξαρτημένα δείγματα. Για τον μη παραμετρικό έλεγχο τα δεδομένα πρέπει να είναι σε μακρά μορφή (long format). 93