Εισαγωγή στην Ανάλυση Συνδιακύμανσης (nalysis of Covariance, NCOV) Βασίλης Παυλόπουλος Λέκτορας Διαπολιτισμικής Ψυχολογίας Τομέας Ψυχολογίας, Πανεπιστήμιο Αθηνών vpavlop@psych.uoa.gr http://www.psych.uoa.gr/~vpavlop ΠΜΣ Βασική & Εφαρμοσμένη Γνωσιακή Επιστήμη, 17/11/2008
Διάγραμμα Γενική περιγραφή της ανάλυσης συνδιακύμανσης Πότε χρησιμοποιείται; Προϋποθέσεις Διαδικασία υπολογισμού με το SPSS Επίλυση παραδείγματος Αναφορά των αποτελεσμάτων Περαιτέρω μελέτη και άσκηση
Γενική περιγραφή Η ανάλυση συνδιακύμανσης ή συμμεταβλητή ανάλυση συνδυάζει την απλή ανάλυση διακύμανσης (NOV) με την παλινδρομική ανάλυση (regression), ως εξής: Υπολογίζει κατά πόσο διαφοροποιούνται οι μέσοι όροι της εξαρτημένης μεταβλητής μεταξύ των ομάδων/επιπέδων ενός ή περισσότερων ανεξάρτητων παραγόντων (όπως στην NOV) αφού προηγουμένως ελέγξει (=αφαιρέσει) την επίδραση μίας ή περισσότερων «τρίτων» μεταβλητών ανάλογα με το πώς οι «τρίτες» μεταβλητές είναι σε θέση να προβλέψουν τις τιμές της εξαρτημένης μεταβλητής (όπως στη regression analysis). Ονομάζουμε αυτές τις «τρίτες» μεταβλητές συμμεταβλητές (covariates).
Γενική περιγραφή Ουσιαστικά, η ανάλυση συνδιακύμανσης διορθώνει τους μέσους όρους της εξαρτημένης μεταβλητής μεταξύ των συγκρινόμενων ομάδων ανάλογα με την επίδραση της συμμεταβλητής στην εξαρτημένη μεταβλητή. Οι διορθωμένοι μέσοι όροι που προκύπτουν, ονομάζονται προσαρμοσμένοι μέσοι όροι (adjusted means). Με τη διαδικασία αυτή προσπαθούμε να μειώσουμε την «εντός των ομάδων» πηγή διασποράς (error variance), αφαιρώντας την επίδραση της συμμεταβλητής. Επομένως, στην ανάλυση συνδιακύμανσης η επίδραση της ανεξάρτητης μεταβλητής είναι θεωρητικά πιθανότερο να προκύψει στατιστικώς σημαντική εφόσον μειώνεται ο παρονομαστής του λόγου του κριτηρίου F αν και στην πράξη δεν προκύπτει πάντα αυτό το αποτέλεσμα
Πότε χρησιμοποιείται; Ηανάλυση συνδιακύμανσης απαντά στα ίδια ερευνητικά ερωτήματα με την απλή NOV, λαμβάνοντας υπόψη τη γραμμική συσχέτιση μεταξύ της εξαρτημένης μεταβλητής και της συμμεταβλητής. Δηλαδή μας ενδιαφέρουν: οι κύριες επιδράσεις των ανεξάρτητων παραγόντων πάνω στην εξαρτημένη μεταβλητή, και η αλληλεπίδραση των ανεξάρτητων παραγόντων πάνω στην εξαρτημένη μεταβλητή όπως θα προέκυπταν εάν όλοι οι συμμετέχοντες είχαν την ίδια τιμή στην υπό μελέτη συμμεταβλητή!
Πότε χρησιμοποιείται; Ηεκ των υστέρων αφαίρεση της επίδρασης της συμμεταβλητής μας ενδιαφέρει: Σε ημι-πειραματικά σχέδια, όταν δρουν «τρίτοι» παράγοντες που δεν μπορούμε να απομονώσουμε εκ των προτέρων. Παράδειγμα η αποτελεσματικότητα μιας παρέμβασης (IV) για την ευαισθητοποίηση πάνω σε θέματα ανακύκλωσης (DV): σύγκριση διαφορικής ομάδας ομάδας ελέγχου, ανεξάρτητα από τις αρχικές στάσεις των υποκειμένων (cov). Όταν θέλουμε να ελέγξουμε έμμεσες (indirect) επιδράσεις, μέσω παρεμβαλλόμενων παραγόντων (mediators), πάνω στην εξαρτημένη μεταβλητή. Παράδειγμα Στρατηγικές επίλυσης των συγκρούσεων (IV) και επίπεδο ικανοποίησης στις ρομαντικές σχέσεις (DV): μήπωςπαίζειρόλοηδιάρκειατηςσχέσης(cov);
Προϋποθέσεις Ισχύουν καταρχήν οι προϋποθέσεις της NOV: η κλίμακα μέτρησης της εξαρτημένης μεταβλητής να είναι τουλάχιστον ισοδιαστημική (αριθμητικά δεδομένα), οι συγκρινόμενες ομάδες να είναι ανεξάρτητες (τυχαία δείγματα), η μορφή της κατανομής της εξαρτημένης μεταβλητής στις συγκρινόμενες ομάδες να είναι κανονική (έλεγχοι με το Kolmogorov-Smirnov test, το Shapiro-Wilk test ή, απλά, με το z-κριτήριο). οι πληθυσμοί από τους οποίους έχουν ληφθεί τα δείγματα να είναι ομοιογενείς (το Levene test να δίνει στατιστικώς ασήμαντο αποτέλεσμα!).
Προϋποθέσεις Ισχύει, επιπλέον, μια βασική προϋπόθεση που συνδέεται με την ανάλυση παλινδρόμησης: Τα χαρακτηριστικά της συνάφειας μεταξύ εξαρτημένης μεταβλητής και συμμεταβλητής (δηλ. μορφή, κατεύθυνση, βαθμός) πρέπει να είναι όμοια για όλες τις τιμές-επίπεδα της ανεξάρτητης μεταβλητής. Η προϋπόθεση της ομοιογένειας της παλινδρόμησης μπορεί να ελεγχθεί με δύο τρόπους: (α) από την απλή επισκόπηση των γραμμών παλινδρόμησης σε ένα διάγραμμα σκεδασμού, ή (β) ελέγχοντας την αλληλεπίδραση μεταξύ ανεξάρτητης μεταβλητής και συμμεταβλητής μέσω της παραμετροποίησης της σχετικής εντολής στο SPSS.
close to HYT distant fron HYT place of residence 0 1 2 3 identification with place of residence 0,40 0,60 0,80 1,00 perceived environmental consequences close to HYT distant from HYT place of residence 0 1 2 3 identification with place of residence 0,40 0,60 0,80 1,00 perceived environmental consequences Προϋποθέσεις Παράδειγμα τήρησης (ΑΡ) και παραβίασης (ΔΕ) της προϋπόθεσης της ομοιογένειας της παλινδρόμησης στην ανάλυση συνδιακύμανσης
Προϋποθέσεις Παράδειγμα ελέγχου της προϋπόθεσης της ομοιογένειας της παλινδρόμησης στο SPSS με παραμετροποίηση της εντολής GLM (μέσω της επιλογής Model Custom) Η bond είναι συμμεταβλητή και η cond ανεξάρτητη μεταβλητή. Προστέθηκε η αλληλεπίδραση cond*bond. Το στατιστικώς σημαντικό αποτέλεσμα για την επίδραση της συμμεταβλητής δηλώνει ότι έχει νόημα να κάνουμε NCOV. Το στατιστικώς ασήμαντο αποτέλεσμα της αλληλεπίδρασης cond*bond δηλώνει ότι δεν παραβιάζεται η προϋπόθεση της ομοιογένειας της παλινδρόμησης. Tests of etween-subjects Effects Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) Source Corrected Model Intercept bond cond * bond Error Total Corrected Total a. Type III Sum Partial Eta of Squares df Mean Square F Sig. Squared 1,166 a 2,583 27,575,000,317 8,668 1 8,668 410,106,000,775,951 1,951 44,976,000,274,052 1,052 2,472,119,020 2,515 119,021 68,154 122 3,681 121 R Squared =,317 (djusted R Squared =,305)
Διαδικασία υπολογισμού με το SPSS Επιλέγουμε: nalyze General Linear Model Univariate Στο πλαίσιο διαλόγου που ανοίγει, τοποθετούμε διαδοχικά την εξαρτημένη μεταβλητή (Dependent Variable), τον ανεξάρτητο παράγοντα (Fixed Factor) και την/τις συμμεταβλητή/ές (Covariates). Από το κουμπί Model μπορούμε να παραμετροποιήσουμε το μοντέλο (χρήσιμο για έλεγχο της προϋπόθεσης ομοιογένειας της παλινδρόμησης). Από το κουμπί Options επιλέγουμε την εμφάνιση των μέσων όρων, ενώ μπορούμε επίσης να ζητήσουμε συγκρίσεις των μέσων όρων ανά ζεύγη (Compare main effects), το δείκτη η 2 (Estimates of effect size), έλεγχο προϋπόθεσης ομοιογένειας της διασποράς (Homogeneity tests), τους συντελεστές παλινδρόμησης της εξαρτημένης μεταβλητής πάνω στη συμμεταβλητή (Parameter estimates), κ.ά.
Διαδικασία υπολογισμού με το SPSS Για τον υπολογισμό των προσαρμοσμένων (adjusted) μέσων όρων χρησιμοποιείται ο τύπος dj.mean=υ i (Χ i Χ). Προσοχή: οι σωστοί προσαρμοσμένοι μέσοι όροι είναι αυτοί που προκύπτουν από την εντολή Estimated Marginal Means και ΟΧΙ από την εντολή Display Descriptive statistics (πρόκειται για τους αρχικούς μέσους όρους). Για πολλαπλές συγκρίσεις των μέσων όρων ανά ζεύγη ΔΕΝ μπορούν να χρησιμοποιηθούν τα κριτήρια που προσφέρονται μέσω του κουμπιού Post Hoc (το οποίο είναι ανενεργό στην NCOV), αλλά μόνο η εντολή Compare main effects από το κουμπί Options. Λεπτομερείς έλεγχοι των βασικών προϋποθέσεων της NOV (εκτός από την ομοιογένεια της διασποράς) ΔΕΝ είναι εφικτοί από την εντολή GLM, αλλά από άλλες εντολές του SPSS (βλ. Descriptive Statistics Explore).
Επίλυση παραδείγματος ΗΚωνσταντινοπούλου(2008) μελέτησε την αντίληψη για την περιβαλλοντική επιβάρυνση που έχουν οι κάτοικοι σε περιοχές κοντά σε ΧΥΤΑ ή μακριά από ΧΥΤΑ. Επιπλέον, μέτρησε τον βαθμό ταύτισης των συμμετεχόντων με την περιοχή κατοικίας τους. Η ερευνητική υπόθεση αφορά τη διερεύνηση διαφορών στην αντίληψη περιβαλλοντικής επιβάρυνσης (εξαρτημένη μεταβλητή) ανάλογα με την απόσταση της κατοικίας από ΧΥΤΑ (ανεξάρτητος παράγοντας), εάν οι συμμετέχοντες είχαν όλοι τον ίδιο βαθμό ταύτισης με την περιοχή της κατοικίας τους (συμμεταβλητή). Το αρχείο που περιέχει τα δεδομένα του παραδείγματος ονομάζεται ΜΙΘΕ2008_NCOV_example.sav και είναι διαθέσιμο μέσω του συντονιστή του μαθήματος.
Επίλυση παραδείγματος etween-subjects Factors place of residence 1 2 Value Label N close to HYT 55 distant from HYT 67 Levene's Test of Equality of Error Variances a Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) F df1 df2 Sig. 1,992 1 120,161 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+cond Tests of etween-subjects Effects Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) Source Type III Sum of Squares df Mean Square F Sig. Partial Eta Squared Corrected Model,335 a 1,335 12,000,001,091 Intercept 64,762 1 64,762 2322,309,000,951 cond,335 1,335 12,000,001,091 Error 3,346 120,028 Total 68,154 122 Corrected Total 3,681 121 a. R Squared =,091 (djusted R Squared =,083) Στην απλή NOV φαίνεται ότι η απόσταση του τόπου κατοικίας από ΧΥΤΑ διαφοροποιεί την αντίληψη της περιβαλλοντικής επιβάρυνσης 2. place of residence Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) 95% Confidence Interval place of residence Mean Std. Error Lower ound Upper ound close to HYT,785,023,740,829 distant from HYT,680,020,639,720
Επίλυση παραδείγματος etween-subjects Factors place of residence 1 2 Value Label N close to HYT 55 distant from HYT 67 Levene's Test of Equality of Error Variances a Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) F df1 df2 Sig. 3,227 1 120,075 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+bond+cond * bond Tests of etween-subjects Effects Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) Source Type III Sum of Squares df Mean Square F Sig. Partial Eta Squared Corrected Model 1,166 a 2,583 27,575,000,317 Intercept 8,668 1 8,668 410,106,000,775 bond,951 1,951 44,976,000,274 cond * bond,052 1,052 2,472,119,020 Error 2,515 119,021 Total 68,154 122 Corrected Total 3,681 121 a. R Squared =,317 (djusted R Squared =,305) Οι προκαταρκτικοί έλεγχοι δείχνουν ότι δεν παραβιάζονται οι βασικές προϋποθέσεις για την εφαρμογή της NCOV στα δεδομένα
Επίλυση παραδείγματος etween-subjects Factors place of residence 1 2 Value Label N close to HYT 55 distant from HYT 67 Tests of etween-subjects Effects Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) Source Corrected Model Intercept bond cond Error Total Corrected Total Type III Sum Partial Eta of Squares df Mean Square F Sig. Squared 1,180 a 2,590 28,058,000,320 8,250 1 8,250 392,460,000,767,845 1,845 40,197,000,252,066 1,066 3,146,079,026 2,501 119,021 68,154 122 3,681 121 a. R Squared =,320 (djusted R Squared =,309) Parameter Estimates Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) Parameter Intercept bond [cond=1] [cond=2] 95% Confidence Interval Partial Eta Std. Error t Sig. Lower ound Upper ound Squared,545,028 19,761,000,491,600,766,098,015 6,340,000,067,128,252,049,028 1,774,079 -,006,104,026 0 a...... a. This parameter is set to zero because it is redundant. Στην NCOV φαίνεται ότι, μετά τον έλεγχο της ταύτισης με τον τόπο κατοικίας (bond), η επίδραση της απόστασης του τόπου κατοικίας από ΧΥΤΑ παύει να διαφοροποιεί την αντίληψη της περιβαλλοντικής επιβάρυνσης
Επίλυση παραδείγματος Descriptive Statistics Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) place of residence Mean Std. Deviation N close to HYT,7848,15175 55 distant from HYT,6795,17850 67 Total,7270,17442 122 Estimated Marginal Means 1. Grand Mean Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) 95% Confidence Interval Mean Std. Error Lower ound Upper ound,729 a,013,703,756 a. Covariates appearing in the model are evaluated at the following values: identification with place of residence = 1,63. Επίσης, είναι φανερή η διαφορά των μέσων όρων πριν και μετά την προσαρμογή για την επίδραση της συμμεταβλητής 2. place of residence Dependent Variable: perceived environmental consequences (1 / 5 - prcv_con) 95% Confidence Interval place of residence Mean Std. Error Lower ound Upper ound close to HYT,754 a,020,714,794 distant from HYT,705 a,018,669,741 a. Covariates appearing in the model are evaluated at the following values: identification with place of residence = 1,63.
Αναφορά των αποτελεσμάτων Σχεδιάστηκε ένα μονοπαραγοντικό μοντέλο ανάλυσης διακύμανσης με εξαρτημένη μεταβλητή την προσλαμβανόμενη περιβαλλοντική επιβάρυνση και ανεξάρτητο παράγοντα την απόσταση του τόπου κατοικίας από ΧΥΤΑ. Επειδή ο προκαταρκτικός έλεγχος έδειξε ότι η κατανομή της εξαρτημένης μεταβλητής παρουσίαζε έντονη αριστερή ασυμμετρία, αποφασίστηκε η μετατροπή της σύμφωνα με διαδικασία που προτείνουν οι Tabachnick και Fidell (2006). Μετά από τη μετατροπή, το κριτήριο του Levene ήταν στατιστικώς ασήμαντο, F(1, 120)=1,99, p=0,161. Σύμφωνα με το αποτέλεσμα της ανάλυσης διακύμανσης που ακολούθησε, οι συμμετέχοντες που διαμένουν κοντά σε ΧΥΤΑ (Μ.Ο.=0,79) ανέφεραν μεγαλύτερη αντίληψη περιβαλλοντικής επιβάρυνσης από ό,τι όσοι διαμένουν μακριά από ΧΥΤΑ (Μ.Ο.=0,68), F(1, 120)=12,00, p=0,001, η 2 =0,09. Επειδή ο βαθμός ταύτισης με τον τόπο κατοικίας ενδέχεται να συνδέεται επίσης με την αντίληψη της περιβαλλοντικής επιβάρυνσης, ο παράγοντας αυτός προστέθηκε ως συμμεταβλητή σε ένα τροποποιημένο μοντέλο ανάλυσης συνδιακύμανσης. συνεχίζεται
Αναφορά των αποτελεσμάτων συνέχεια Οι προκαταρκτικοί έλεγχοι έδειξαν την επάρκεια των δεδομένων για την ανάλυση αυτή. Σύμφωνα με το κριτήριο του Levene, οι συγκρινόμενες ομάδες ήταν ομοιογενείς, F(1, 120)=1,99, p=0,161, ενώ το στατιστικώς ασήμαντο αποτέλεσμα για την αλληλεπίδραση βαθμού ταύτισης με τον τόπο κατοικίας Χ απόστασης κατοικίας από ΧΥΤΑ, F(1, 119)=2,47, p=0,119, δηλώνει ότι δεν παραβιάστηκε η προϋπόθεση ομοιογένειας της παλινδρόμησης. Η επίδραση της συμμεταβλητής πάνω στην εξαρτημένη μεταβλητή ήταν στατιστικώς σημαντική, F(1, 119)=40,20, p<0,001, η 2 =0,25. Μεγαλύτερος βαθμός ταύτισης με τον τόπο κατοικίας συνδέθηκε με μεγαλύτερη αντιλαμβανόμενη περιβαλλοντική επιβάρυνση (=0,10, t=6,34, p<0,001). Μετά την προσαρμογή των μέσων όρων για την επίδραση της συμμεταβλητής, η κύρια επίδραση του τόπου κατοικίας βρέθηκε στατιστικώς ασήμαντη, F(1, 119)=3,15, p=0,079. Επομένως, η διαφορά της αντιλαμβανόμενης περιβαλλοντικής επιβάρυνσης μεταξύ των κατοίκων που διαμένουν κοντά ή μακριά από ΧΥΤΑ, η οποία εντοπίστηκε αρχικά, αποδίδεται ουσιαστικά στο βαθμό ταύτισης με τον τόπο κατοικίας.
Περαιτέρω μελέτη και άσκηση Η Ευαγγέλου (2006) μελέτησε την προσλαμβανόμενη διάκριση σε μετανάστες και γηγενείς μαθητές Δημοτικού. Η υπόθεση, με βάση τη βιβλιογραφία, είναι ότι οι διαφορές στην πρόσληψη της διάκρισης σε βάρος του εαυτού αναδεικνύονται αφού προηγουμένως συνεκτιμηθεί το γενικό επίπεδο αντιλαμβανόμενης διάκρισης. Να ελέγξετε την παραπάνω υπόθεση χρησιμοποιώντας τα δεδομένα του αρχείου ΜΙΘΕ2008_NCOV_exercise.sav. Να συμπεριλάβετε στο μοντέλο και το φύλο των μαθητών. Μπορείτε να αλιεύσετε στο Διαδίκτυο πολλά παραδείγματα NCOV, π.χ. στην ιστοσελίδα των C. Doncaster &. Davey, http://www.southampton.ac.uk/~cpd/anovas/datasets/index.htm καθώς και στον ιστότοπο http://www.visualstatistics.net/ της Cruise Scientific. Have fun!!!