Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 21 ου Πανελληνίου Συνεδρίου Στατιστικής (2008), σελ 267-274 ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ Β. Παππάς 1, Κ. Ξ. Καρακώστας 2 Τμήμα Μαθηματικών, Πανεπιστήμιο Ιωαννίνων 1 vasileios_p@yahoo.gr, 2 kkarakos@uoi.gr ΠΕΡΙΛΗΨΗ Η σωστή και έγκυρη στατιστική ανάλυση δεδομένων είναι ένα βασικό ζητούμενο από πολλούς και διαφορετικούς κλάδους των επιστημονικών και επιχειρηματικών δραστηριοτήτων σήμερα. Τέτοιοι κλάδοι είναι π.χ. οι παιδαγωγικές επιστήμες, η ψυχολογία και η ψυχιατρική, η φαρμακευτική και η ιατρική επιστήμη, ο χώρος της προώθησης και πώλησης προϊόντων κ.ά.. Το βασικό γνώρισμα των διάφορων στατιστικών πακέτων, από τα πιο προχωρημένα έως τα πιο απλά, είναι ότι δίνουν στο χρήστη τη δυνατότητα να χρησιμοποιήσει τα διάφορα στατιστικά εργαλεία που υπάρχουν σε αυτό για να αναλύσει τα δεδομένα του. Αυτό προϋποθέτει ότι 1) ο χρήστης μπορεί να επιλέξει την σωστή στατιστική μεθοδολογία για την ανάλυση των δεδομένων του και 2) να έχει επαρκείς γνώσεις στατιστικής για να μπορέσει να υλοποιήσει και να ερμηνεύσει σωστά τα αποτελέσματα στα διάφορα στάδια της ανάλυσης. Και τα δύο αυτά σημεία απαιτούν ένα στατιστικό με αρκετή εμπειρία στη στατιστική ανάλυση δεδομένων. Το Αυτοματοποιημένο Στατιστικό Πρόγραμμα (Α.Σ.Α) διαφέρει από όλα τα υ- πάρχοντα στατιστικά προγράμματα στο ότι από την στιγμή που ο χρήστης επιλέξει την κατάλληλη στατιστική μεθοδολογία μπορεί να το χρησιμοποιήσει για να έχει 1) μια αξιόπιστη στατιστική ανάλυση, αφού υλοποιούνται και ελέγχονται όλα τα στάδια και οι έλεγχοι που προβλέπονται από την θεωρία για την δεδομένη στατιστική μεθοδολογία και 2) μια αναφορά σχετική με όλα τα στάδια της ανάλυσης και το τελικό συμπέρασμα ή με τα επιμέρους αποτελέσματα, αν αυτό απαιτείται από την συγκεκριμένη στατιστική μεθοδολογία. 1. ΕΙΣΑΓΩΓΗ Όταν μιλάμε για στατιστική ανάλυση δεδομένων εννοούμε τη διαδικασία εκείνη κατά την οποία επιλέγουμε και υλοποιούμε μια κατάλληλη στατιστική μεθοδολογία (ή συνδυασμό στατιστικών μεθοδολογιών) με σκοπό την εξαγωγή χρήσιμων πληροφοριών και συμπερασμάτων. Σημαντική ώθηση στην στατιστική ανάλυση δεδομένων έχει δώσει η μεγάλη ανάπτυξη των υπολογιστών (κυρίως σε μνήμη και σε ταχύτητα) σε συνδυασμό με την ευρεία διάδοση των στατιστικών πακέτων. Ο συνδυασμός αυτός δεν είχε μόνο θετικά αποτελέσματα, αλλά και αρνητικά. Στα θετικά θα πρέπει να αναφέρουμε την υλοποίηση όλο και πιο δύσκολων και α- παιτητικών (σε μνήμη και ταχύτητα) στατιστικών διαδικασιών, καθώς και την εύκο- - 267 -
λη πρόσβαση ατόμων, από διάφορους επιστημονικούς και τεχνολογικούς χώρους, ακόμη και στις πιο προηγμένες στατιστικές μεθοδολογίες. Ως αρνητικό αποτέλεσμα της ευρείας διάδοσης των στατιστικών πακέτων θα αναφέρουμε την πραγματοποίηση στατιστικών αναλύσεων και διατύπωση συμπερασμάτων από άτομα με καθόλου ή μη επαρκή γνώση της στατιστικής και των συναφών θεμάτων. Ο κύριος στόχος όλων των στατιστικών πακέτων είναι να δώσουν στον χρήστη την δυνατότητα να υλοποιήσει την όποια στατιστική μεθοδολογία έχει επιλέξει. Για την υλοποίηση αυτή ο χρήστης θα πρέπει να γνωρίζει 1) αν η εφαρμογή της συγκεκριμένη στατιστικής μεθόδου απαιτεί κάποιες προϋποθέσεις πριν την εφαρμογή της, 2) αν ΝΑΙ, πως αυτές ελέγχονται και τι κάνουμε αν μία ή περισσότερες από αυτές δεν ι- σχύουν, και 3) πως ερμηνεύονται τυχόν ενδιάμεσα αποτελέσματα και να διατυπώνει το τελικό συμπέρασμα. Το πρόγραμμα Αυτοματοποιημένη Στατιστική Ανάλυση διαφέρει από όλα τα υπάρχοντα στατιστικά προγράμματα ως προς το ότι, το μόνο που χρειάζεται να κάνει ο χρήστης είναι να επιλέξει τη κατάλληλη στατιστική μέθοδο και να δώσει στο πρόγραμμα τα δεδομένα. Όλα τα υπόλοιπα (έλεγχος προϋποθέσεων, τυχών μετασχηματισμοί κ.τ.λ. ) γίνονται αυτόματα. Το πρόγραμμα βασίζεται αυστηρά στην στατιστική θεωρία. Η αρχική ιδέα της δημιουργίας του προγράμματος είναι η στατιστική ανάλυση δεδομένων χωρίς να απαιτείται απολύτως καμία γνώση στατιστικής από τον χρήστη. Και αυτό ακριβώς υλοποιείται στις ρουτίνες που έχουν αναπτυχθεί έως τώρα. Μετά την επιλογή της κατάλληλης στατιστικής μεθοδολογίας (αυτό δεν το κάνει η Α.Σ.Α.) ο χρήστης δίνει στο πρόγραμμα το προς ανάλυση αρχείο δεδομένων και τις μεταβλητές που συμμετέχουν σε αυτή. Στη συνέχεια καλείται, αν χρειαστεί, να εισάγει απαραίτητα στοιχεία ή να απαντήσει σε ορισμένα ερωτήματα ή να επιλέξει μεταξύ δύο ή περισσότερων επιλογών. Για παράδειγμα στον έλεγχο της υπόθεσης για τη μέση τιμή ενός πληθυσμού το μόνο που θα κληθεί να δώσει είναι η τιμή μ ο, ενώ στα γραμμικά μοντέλα θα κλιθεί π. χ. να απαντήσει αν τα δεδομένα είναι χρονολογικά διατεταγμένα. Τέλος, και πάλι στην περίπτωση των γραμμικών μοντέλων, και στη περίπτωση που περισσότερες από μία από τις απαραίτητες προϋποθέσεις (σταθερή διακύμανση, κανονικότητα, όχι αυτοσυσχέτιση) δεν ικανοποιείται, ο χρήστης θα κλιθεί να επιλέξει σε ποια από τις προϋποθέσεις που δεν ικανοποιούνται θα ήθελε να επιχειρηθεί η διόρθωσή της. (Ο χρήστης μπορεί να δοκιμάσει τη διόρθωση όλων των προϋποθέσεων που δεν ισχύουν με οποιαδήποτε σειρά επιθυμεί. Αν μία μόνο από τις απαραίτητες προϋποθέσεις δεν ικανοποιείται, τότε το πρόγραμμα προχωράει άμεσα στη διόρθωσή της). Το τελικό προϊόν που παίρνει ο χρήστης είναι μια αναφορά ανάλογη με αυτή που θα έπαιρνε αν έδινε τα δεδομένα του για ανάλυση σε έναν έμπειρο στατιστικό στα θέματα στατιστικής ανάλυσης. Η εργασία αυτή δεν έχει σκοπό να περιγράψει κανένα λογισμικό πακέτο μιας και οι συγγραφείς δεν έχουν κατασκευάσει κάτι ανάλογο. Απλά θέλει να δείξει ότι η αυτοματοποίηση της στατιστικής ανάλυσης δεδομένων είναι δυνατή. Οι μέχρι τώρα στατιστικές μεθοδολογίες που έχουν υλοποιηθεί καλύπτουν ένα εξαμηνιαίο προπτυχιακό μάθημα. Παρ όλα αυτά αν κάποιος το συγκρίνει με τα παρόμοια προγράμματα που - 268 -
αναφέρονται στην εργασία αυτή, εύκολα θα διαπιστώσει την υπεροχή του προγράμματος αυτού από τα κατά πολύ ακριβότερα αντίστοιχα πακέτα. Οι υπολογιστικές διαδικασίες που υπάρχουν στο πρόγραμμα είναι αυτές που υπαγορεύονται από την αντίστοιχη κάθε φορά θεωρία. Για παράδειγμα στην περίπτωση του ελέγχου υπόθεσης για τη μέση τιμή ενός πληθυσμού η διαδικασία αυτή είναι η εξής: α) έλεγχος ακραίων παρατηρήσεων (πιθανός μετασχηματισμός αν υπάρχει πρόβλημα) β) έλεγχος κανονικής κατανομής δείγματος (αν δεν υπάρχει κανονικότητα, γίνεται μετασχηματισμός, π.χ. με βάση τον μετασχηματισμό Box-Cox) γ) αν και το α) και το β) ικανοποιούνται τότε υλοποιείτε το t-test για ένα πληθυσμό και διατυπώνονται τα ανάλογα συμπεράσματα. Αν έστω και ένα από τα α) και β) δεν ικανοποιείται τότε γίνεται χρήση του μη παραμετρικού τεστ του Wilcoxon. Οι αντίστοιχες υπολογιστικές διαδικασίες, για τις άλλες ρουτίνες του προγράμματος, είναι αρκετά πιο εκτενείς και πολύπλοκες και η αναφορά τους θα απαιτούσε περισσότερο από τον επιτρεπόμενο χώρο για την παρουσίαση της εργασίας. Ανάλογες δυνατότητες έχουν και τα προγράμματα S.A.S (SAS/Lab module), S.P.S.S (Statistics Coach), Minitab (Stat Guide) και Statistica (Advisor), αλλά αυτές δεν είναι αυτοματοποιημένες. Ακόμη στο διαδίκτυο υπάρχει η σχετική με το θέμα μας ιστοσελίδα home.clara.net/sisa. Όλα αυτά απαιτούν από ικανοποιητική έως αρκετή γνώση των στατιστικών μεθοδολογιών και των τυχόν λεπτομερειών τους, σε αντίθεση με το Α.Σ.Α. το οποίο δεν προϋποθέτει καμία γνώση στατιστικής από τον χρήστη. Ο κώδικας του προγράμματος Α.Σ.Α. είναι γραμμένος στην ελεύθερη γλώσσα προγραμματισμού R. 2. ΠΑΡΑΔΕΙΓΜΑ Στην συνέχεια δίνουμε ένα παράδειγμα για να μπορέσουμε να αντιληφθούμε τον τρόπο λειτουργίας του Α.Σ.Α. Στο παράδειγμα αυτό θέλουμε να μελετήσουμε το χρόνο και την ορθότητα των απαντήσεων των παιδιών σε ερωτήσεις με διαφορετικό περιεχόμενο. Για το σκοπό αυτό σχηματίζουμε 4 ομάδες (Group) των 30 ατόμων η κάθε μία. Οι δύο πρώτες ομάδες (I, II) αποτελούνται από αγόρια ηλικίας 14 και 13 ετών αντίστοιχα, ενώ οι δύο άλλες ομάδες (III, IV) από κορίτσια των αντίστοιχων ηλικιών. Σε κάθε παιδί δίνονται 18 ερωτήσεις της ίδιας περίπου δυσκολίας. Αυτό ε- παναλαμβάνεται (Rep) 6 φορές. Σε κάθε επανάληψη το σύνολο των ερωτήσεων παραμένει το ίδιο, αλλά αλλάζει η σειρά τους. Στο τέλος καταγράφεται η συνολική βαθμολογία (Marks) της κάθε ομάδας σε κάθε επανάληψη. Εμείς εδώ θα εξετάσουμε αν η μέση συνολική βαθμολογία δεν διαφέρει στις τέσσερες ομάδες, δηλ. θα χρησιμοποιήσουμε την ανάλυση διακύμανσης κατά ένα παράγοντα. Τα αποτελέσματα από το πρόγραμμα είναι τα ακόλουθα. (Σε ότι ακολουθεί με πλάγια είναι το κείμενο που παίρνουμε από το πρόγραμμα, ενώ με έντονα είναι οι απαντήσεις του χρήστη) Type in the path where your data file is located at C:\Program Files\R\Data\OneWayAnova Enter the data file name. The extension must be of the form.txt padp121.txt (Είναι το όνομα του αρχείου) - 269 -
This routine will do the necessary statistical steps for testing the null hypothesis that the means of K(K>2) populations are equal. The alternative is that at least two of them are different. The programme expects to read two columns: One of these columns must be quantitative. It contains the results of the measurements made on the quantitative variable. The other column must be qualitative. It should consist of only K different values. Those values may be numbers or characters. There are two ways for testing such a hypothesis: a parametric and a non parametric one. The parametric test is known as ONE WAY ANALYSIS OF VARIANCE (ANOVA). The best non-parametric test is the KRUSKAL-WALLIS test. To use the parametric test the following assumptions have to be satisfied. ASSUMPTIONS 1.- The K samples are random and independent. 2.- There are no outliers in each of the K samples. 3.- Each sample follows a normal distribution. 4.- The variances of the K populations are equal. F O R M A T I O N O F T H E D A T A DATA READ If the first row of your data set contains the names of the variables then type in 1 NOTE: If you type anything else but 1, then the names of the variables will be of the form V1, V2,... 1 (Απάντηση χρήστη) Are there any missing values in your data set? If YES type in 1. If NOT type in 2. If you do not know or if you are not sure type in 3. 3 (Απάντηση χρήστη) Your data set: padp121.txt consists of 3 variables and 24 observations If you want to look at your data or/and to modify them, then type in 1, otherwise type any. 1 (Με την επιλογή αυτή ο χρήστης έχει την δυνατότητα να δει αν τα δεδομένα του έχουν διαβασθεί σωστά) SELECTION OF THE QUANTITATIVE & QUALITATIVE VARIABLE Please specify, from the variables below, the QUANTITATIVE and QUALITATIVE variables. First specify the QUANTITATIVE and then the QUALITATIVE variable separated by a comma (,). Type 1 2 3 (Ο χρήστης καλείται να επιλέξει την ποσοτική και ποιοτική μεταβλητή μεταξύ όλων) For Group Rep Marks (των μεταβλητών που περιέχει το συγκεκριμένο αρχείο) 1: 3,1 (Ο χρήστης επιλέγει την 3 η (Marks) και την 1 η (Group)μεταβλητή, αντίστοιχα) Read 2 items The QUANTITATIVE variable is Marks and the QUALITATIVE one is Group The categories for the QUALITATIVE variable Group are : Ι ΙΙ ΙΙΙ ΙV C H E C K I N G T H E A S S U M P T I O N S - 270 -
RANDOMNESS AND INDEPENDENCE CHECK The randomness of each of the 4 samples and their independence it is based on the way we have selected them. OUTLIERS CHECK For category 1 of the variable Group, Variable Marks has no outliers. For category 2 of the variable Group, τhe number of outliers for the variable Marks exceeds the 10% of its sample size which is equal to n= 6. For category 3 of the variable Group, Variable Marks has no outliers For category 4 of the variable Group, Variable Marks has no outliers NORMALITY CHECK For category 1 of the variable Group from the Shapiro-Wilk test (p-value= 0.7453) we conclude that the hypothesis that the variable Marks follows a normal distribution, can not be rejected. For category 2 of the variable Group from the Shapiro-Wilk test (p-value= 0.4999) we conclude that the hypothesis that the variable Marks follows a normal distribution, can not be rejected. For category 3 of the variable Group from the Shapiro-Wilk test (p-value= 0.4192) we conclude that the hypothesis that the variable Marks follows a normal distribution, can not be rejected. For category 4 of the variable Group from the Shapiro-Wilk test (p-value= 0.1554) we conclude that the hypothesis that the variable Marks follows a normal distribution, can not be rejected. TESTING EQUALITY OF VARIANCES Using the Levene s test, we get that p-value= 0.7153. Since this value is greater than 5% we conclude that the hypothesis that the population variances are equal can not be rejected. The observed power of the test, at 0.05 significance level is equal to : 1 Since this value is greater than 0.6 the previous conclusion is reliable. From the previous analysis we get that the assumption 2 is not satisfied. This requires a transformation of our data. The transformation we will try is that of the logarithm. Observations which were possibly removed from our data as outliers will be returned back to them. C H E C K I N G T H E A S S U M P T I O N S A F T E R T H E T R A N S F O R M A T I O N OUTLIERS CHECK For category 1 of the variable Group Variable Ln( Marks ) has no outliers For category 2 of the variable Group the number of outliers for the variable Ln( Marks ) exceeds the 10% of its sample size which is equal to n= 6. This means that the log transform did not correct the problem of outliers. So we are going to use a non parametric method. The available non parametric tests in this programme are two: 1._ Kruskal_Wallis_Test and 2._ Jonckheere_Terpstra_Test The Kruskal_Wallis_Test is preferable if there is no ordering of the K populations. - 271 -
The Jonckheere_Terpstra_Test is preferable if there is a natural ordering in the K populations. Type 0 for exiting from the non parametric procedure and continue with the rest of the analysis. Type 1 for the Kruskal_Wallis_Test Type 2 for the Jonckheere_Terpstra_Test 1 (Απάντηση χρήστη) NON PARAMETRIC TEST KRUSKAL - WALLIS The KRUSKAL-WALLIS test is a well known rank sum test. This test, as a non parametric one, actually tests if the medians of the 4 populations are equal. Using the above test we get that the value of the test statistic is 16.86 and the corresponding p- value is 0.0008 the hypothesis that the true medians of the variable Marks are equal in the 4 categories of the variable Group should be rejected. The KRUSKAL-WALLIS test is actually a test for the medians of the populations. For the above conclusion to be valid for the means, the distribution of the variable Marks in the 4 categories of the variable Group should be more or less symmetric. This is satisfied if the 4 median values are close enough to the corresponding means. The medians of the variable Marks for the 4 categories of the variable Group are category 1 median 181, category 2 median 170.5, category 3 median 166, category 4 median 129 and the corresponding means are: category 1 mean 182.5, category 2 mean 173.3, category 3 mean 163.2, category 4 mean 131 The estimated power of this test it is not available in the literature. 3. ΣΤΑΤΙΣΤΙΚΕΣ ΜΕΘΟΔΟΙ ΣΤΟ Α.Σ.Α Οι στατιστικές μέθοδοι που, προς το παρόν, υλοποιούνται στο Α.Σ.Α. είναι : 1) Έλεγχος για τη μέση τιμή ενός πληθυσμού. 2) Έλεγχος ισότητας δύο μέσων τιμών (δείγματα ανεξάρτητα και μη ανεξάρτητα), 3) Ανάλυση διακύμανσης κατά ένα παράγοντα (με δυνατότητα πολλαπλών συγκρίσεων τόσο για την περίπτωση ίσων διακυμάνσεων, όσο και για την περίπτωση των άνισων διακυμάνσεων), 4) Ανάλυση διακύμανσης κατά δύο παράγοντες με ή χωρίς αλληλεπίδραση. (Και στη περίπτωση αυτή υπάρχει η δυνατότητα πολλαπλών συγκρίσεων για κάθε σημαντικό παράγοντα. Στη περίπτωση που η αλληλεπίδραση είναι σημαντική, τότε οι πολλαπλές συγκρίσεις αφορούν την αλληλεπίδραση), 5) Πίνακες συνάφειας για δύο ποιοτικές μεταβλητές και 6) Στρωματοποιημένοι πίνακες συνάφειας για τρεις ποιοτικές μεταβλητές (Mantel- Heanszel test). - 272 -
ABSTRACT In this paper we briefly discuss the Automated Statistical Analysis (A.S.A) program. This program completely differs from the existing ones e.g. S.A.S., SPSS, Minitab. In those programs the user must be aware of how to materialize the statistical methodology he has selected to analyze his data set. In A.S.A. the user reads in the data set, declares the variables to be used by the program and gets a full statistical report about the statistical methodology he has selected. This report includes, among others, 1 st ) the possible assumptions necessary for the statistical methodology used 2 nd ) conclusions about the validity of those assumptions (including possible transformations in order to achieve it) 3 rd ) final conclusion (or conclusions) about the variables involved in the analysis and the questions posed. ΑΝΑΦΟΡΕΣ MINITAB is a registered trademark of Minitab Inc., USA R Development Core Team (2008). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org. S.A.S and S.A.S/LAB is a registered trademark of SAS Institute Inc., USA S.P.S.S is a registered trademark of SPSS Inc., USA Statistica is a registered trademark of StatSoft Inc., USA - 273 -