ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Σχετικά έγγραφα
Μηχανική Μάθηση Hypothesis Testing

Repeated measures Επαναληπτικές μετρήσεις

Statistical Inference I Locally most powerful tests

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Econ 2110: Fall 2008 Suggested Solutions to Problem Set 8 questions or comments to Dan Fetter 1

ST5224: Advanced Statistical Theory II

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 24/3/2007

5.4 The Poisson Distribution.

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 6/5/2006

Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

Homework 3 Solutions

Other Test Constructions: Likelihood Ratio & Bayes Tests

Statistics & Research methods. Athanasios Papaioannou University of Thessaly Dept. of PE & Sport Science

Εγκατάσταση λογισμικού και αναβάθμιση συσκευής Device software installation and software upgrade

Math 6 SL Probability Distributions Practice Test Mark Scheme

The Simply Typed Lambda Calculus

Μεθοδολογία των επιστημών του Ανθρώπου: Στατιστική Ι

χ 2 test ανεξαρτησίας

Λογισμικά για Στατιστική Ανάλυση. Minitab, R (ελεύθερο λογισμικό), Sas, S-Plus, Stata, StatGraphics, Mathematica (εξειδικευμένο λογισμικό για

Solution Series 9. i=1 x i and i=1 x i.

3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β

(Στατιστική Ανάλυση) Δεδομένων I. Σύγκριση δύο πληθυσμών (με το S.P.S.S.)

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

EE512: Error Control Coding

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

derivation of the Laplacian from rectangular to spherical coordinates

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ

Approximation of distance between locations on earth given by latitude and longitude

2 Composition. Invertible Mappings

C.S. 430 Assignment 6, Sample Solutions

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΓΕΩΤΕΧΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΟΣ. Πτυχιακή εργασία

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ANSWERSHEET (TOPIC = DIFFERENTIAL CALCULUS) COLLECTION #2. h 0 h h 0 h h 0 ( ) g k = g 0 + g 1 + g g 2009 =?

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Advanced Subsidiary Unit 1: Understanding and Written Response

The challenges of non-stable predicates

Exercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

CHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS

Fractional Colorings and Zykov Products of graphs

Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής

Λογισμικά για Στατιστική Ανάλυση. Minitab, R (ελεύθερο λογισμικό), Sas, S-Plus, Stata, StatGraphics, Mathematica (εξειδικευμένο λογισμικό για

HISTOGRAMS AND PERCENTILES What is the 25 th percentile of a histogram? What is the 50 th percentile for the cigarette histogram?

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Aquinas College. Edexcel Mathematical formulae and statistics tables DO NOT WRITE ON THIS BOOKLET

ΚΥΠΡΙΑΚΟΣ ΣΥΝΔΕΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY 21 ος ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δεύτερος Γύρος - 30 Μαρτίου 2011

Statistics 104: Quantitative Methods for Economics Formula and Theorem Review

Strain gauge and rosettes

DESIGN OF MACHINERY SOLUTION MANUAL h in h 4 0.

Physical DB Design. B-Trees Index files can become quite large for large main files Indices on index files are possible.

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 11/3/2006

ο),,),--,ο< $ι ιι!η ι ηι ι ιι ιι t (t-test): ι ι η ι ι. $ι ι η ι ι ι 2 x s ι ι η η ιη ι η η SE x

Lecture 34 Bootstrap confidence intervals

Ordinal Arithmetic: Addition, Multiplication, Exponentiation and Limit

Numerical Analysis FMN011

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Οδηγίες Αγοράς Ηλεκτρονικού Βιβλίου Instructions for Buying an ebook

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

Σκοπός του μαθήματος

Inverse trigonometric functions & General Solution of Trigonometric Equations

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Potential Dividers. 46 minutes. 46 marks. Page 1 of 11

Section 9.2 Polar Equations and Graphs

Μορφοποίηση υπό όρους : Μορφή > Μορφοποίηση υπό όρους/γραμμές δεδομένων/μορφοποίηση μόο των κελιών που περιέχουν/

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Ανάλυση ποσοτικών δεδομένων. ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος

the total number of electrons passing through the lamp.

Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΔΗΜΟΣΙΩΝ ΣΧΕΣΕΩΝ & ΕΠΙΚΟΙΝΩΝΙΑΣ

Second Order Partial Differential Equations

Instruction Execution Times

Example Sheet 3 Solutions

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.

Υπολογιστική Φυσική Στοιχειωδών Σωματιδίων

Every set of first-order formulas is equivalent to an independent set

HOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:

Partial Differential Equations in Biology The boundary element method. March 26, 2013

Solutions to Exercise Sheet 5

Queensland University of Technology Transport Data Analysis and Modeling Methodologies

ω ω ω ω ω ω+2 ω ω+2 + ω ω ω ω+2 + ω ω+1 ω ω+2 2 ω ω ω ω ω ω ω ω+1 ω ω2 ω ω2 + ω ω ω2 + ω ω ω ω2 + ω ω+1 ω ω2 + ω ω+1 + ω ω ω ω2 + ω

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Biostatistics for Health Sciences Review Sheet

Does anemia contribute to end-organ dysfunction in ICU patients Statistical Analysis

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

b. Use the parametrization from (a) to compute the area of S a as S a ds. Be sure to substitute for ds!

SCHOOL OF MATHEMATICAL SCIENCES G11LMA Linear Mathematics Examination Solutions

Finite Field Problems: Solutions

Dynamic types, Lambda calculus machines Section and Practice Problems Apr 21 22, 2016

Δεδομένα (data) και Στατιστική (Statistics)

Modbus basic setup notes for IO-Link AL1xxx Master Block

Lecture 2. Soundness and completeness of propositional logic

Section 8.3 Trigonometric Equations

EPL 603 TOPICS IN SOFTWARE ENGINEERING. Lab 5: Component Adaptation Environment (COPE)

T-tests One Way Anova

Transcript:

Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 21 ου Πανελληνίου Συνεδρίου Στατιστικής (2008), σελ 267-274 ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ Β. Παππάς 1, Κ. Ξ. Καρακώστας 2 Τμήμα Μαθηματικών, Πανεπιστήμιο Ιωαννίνων 1 vasileios_p@yahoo.gr, 2 kkarakos@uoi.gr ΠΕΡΙΛΗΨΗ Η σωστή και έγκυρη στατιστική ανάλυση δεδομένων είναι ένα βασικό ζητούμενο από πολλούς και διαφορετικούς κλάδους των επιστημονικών και επιχειρηματικών δραστηριοτήτων σήμερα. Τέτοιοι κλάδοι είναι π.χ. οι παιδαγωγικές επιστήμες, η ψυχολογία και η ψυχιατρική, η φαρμακευτική και η ιατρική επιστήμη, ο χώρος της προώθησης και πώλησης προϊόντων κ.ά.. Το βασικό γνώρισμα των διάφορων στατιστικών πακέτων, από τα πιο προχωρημένα έως τα πιο απλά, είναι ότι δίνουν στο χρήστη τη δυνατότητα να χρησιμοποιήσει τα διάφορα στατιστικά εργαλεία που υπάρχουν σε αυτό για να αναλύσει τα δεδομένα του. Αυτό προϋποθέτει ότι 1) ο χρήστης μπορεί να επιλέξει την σωστή στατιστική μεθοδολογία για την ανάλυση των δεδομένων του και 2) να έχει επαρκείς γνώσεις στατιστικής για να μπορέσει να υλοποιήσει και να ερμηνεύσει σωστά τα αποτελέσματα στα διάφορα στάδια της ανάλυσης. Και τα δύο αυτά σημεία απαιτούν ένα στατιστικό με αρκετή εμπειρία στη στατιστική ανάλυση δεδομένων. Το Αυτοματοποιημένο Στατιστικό Πρόγραμμα (Α.Σ.Α) διαφέρει από όλα τα υ- πάρχοντα στατιστικά προγράμματα στο ότι από την στιγμή που ο χρήστης επιλέξει την κατάλληλη στατιστική μεθοδολογία μπορεί να το χρησιμοποιήσει για να έχει 1) μια αξιόπιστη στατιστική ανάλυση, αφού υλοποιούνται και ελέγχονται όλα τα στάδια και οι έλεγχοι που προβλέπονται από την θεωρία για την δεδομένη στατιστική μεθοδολογία και 2) μια αναφορά σχετική με όλα τα στάδια της ανάλυσης και το τελικό συμπέρασμα ή με τα επιμέρους αποτελέσματα, αν αυτό απαιτείται από την συγκεκριμένη στατιστική μεθοδολογία. 1. ΕΙΣΑΓΩΓΗ Όταν μιλάμε για στατιστική ανάλυση δεδομένων εννοούμε τη διαδικασία εκείνη κατά την οποία επιλέγουμε και υλοποιούμε μια κατάλληλη στατιστική μεθοδολογία (ή συνδυασμό στατιστικών μεθοδολογιών) με σκοπό την εξαγωγή χρήσιμων πληροφοριών και συμπερασμάτων. Σημαντική ώθηση στην στατιστική ανάλυση δεδομένων έχει δώσει η μεγάλη ανάπτυξη των υπολογιστών (κυρίως σε μνήμη και σε ταχύτητα) σε συνδυασμό με την ευρεία διάδοση των στατιστικών πακέτων. Ο συνδυασμός αυτός δεν είχε μόνο θετικά αποτελέσματα, αλλά και αρνητικά. Στα θετικά θα πρέπει να αναφέρουμε την υλοποίηση όλο και πιο δύσκολων και α- παιτητικών (σε μνήμη και ταχύτητα) στατιστικών διαδικασιών, καθώς και την εύκο- - 267 -

λη πρόσβαση ατόμων, από διάφορους επιστημονικούς και τεχνολογικούς χώρους, ακόμη και στις πιο προηγμένες στατιστικές μεθοδολογίες. Ως αρνητικό αποτέλεσμα της ευρείας διάδοσης των στατιστικών πακέτων θα αναφέρουμε την πραγματοποίηση στατιστικών αναλύσεων και διατύπωση συμπερασμάτων από άτομα με καθόλου ή μη επαρκή γνώση της στατιστικής και των συναφών θεμάτων. Ο κύριος στόχος όλων των στατιστικών πακέτων είναι να δώσουν στον χρήστη την δυνατότητα να υλοποιήσει την όποια στατιστική μεθοδολογία έχει επιλέξει. Για την υλοποίηση αυτή ο χρήστης θα πρέπει να γνωρίζει 1) αν η εφαρμογή της συγκεκριμένη στατιστικής μεθόδου απαιτεί κάποιες προϋποθέσεις πριν την εφαρμογή της, 2) αν ΝΑΙ, πως αυτές ελέγχονται και τι κάνουμε αν μία ή περισσότερες από αυτές δεν ι- σχύουν, και 3) πως ερμηνεύονται τυχόν ενδιάμεσα αποτελέσματα και να διατυπώνει το τελικό συμπέρασμα. Το πρόγραμμα Αυτοματοποιημένη Στατιστική Ανάλυση διαφέρει από όλα τα υπάρχοντα στατιστικά προγράμματα ως προς το ότι, το μόνο που χρειάζεται να κάνει ο χρήστης είναι να επιλέξει τη κατάλληλη στατιστική μέθοδο και να δώσει στο πρόγραμμα τα δεδομένα. Όλα τα υπόλοιπα (έλεγχος προϋποθέσεων, τυχών μετασχηματισμοί κ.τ.λ. ) γίνονται αυτόματα. Το πρόγραμμα βασίζεται αυστηρά στην στατιστική θεωρία. Η αρχική ιδέα της δημιουργίας του προγράμματος είναι η στατιστική ανάλυση δεδομένων χωρίς να απαιτείται απολύτως καμία γνώση στατιστικής από τον χρήστη. Και αυτό ακριβώς υλοποιείται στις ρουτίνες που έχουν αναπτυχθεί έως τώρα. Μετά την επιλογή της κατάλληλης στατιστικής μεθοδολογίας (αυτό δεν το κάνει η Α.Σ.Α.) ο χρήστης δίνει στο πρόγραμμα το προς ανάλυση αρχείο δεδομένων και τις μεταβλητές που συμμετέχουν σε αυτή. Στη συνέχεια καλείται, αν χρειαστεί, να εισάγει απαραίτητα στοιχεία ή να απαντήσει σε ορισμένα ερωτήματα ή να επιλέξει μεταξύ δύο ή περισσότερων επιλογών. Για παράδειγμα στον έλεγχο της υπόθεσης για τη μέση τιμή ενός πληθυσμού το μόνο που θα κληθεί να δώσει είναι η τιμή μ ο, ενώ στα γραμμικά μοντέλα θα κλιθεί π. χ. να απαντήσει αν τα δεδομένα είναι χρονολογικά διατεταγμένα. Τέλος, και πάλι στην περίπτωση των γραμμικών μοντέλων, και στη περίπτωση που περισσότερες από μία από τις απαραίτητες προϋποθέσεις (σταθερή διακύμανση, κανονικότητα, όχι αυτοσυσχέτιση) δεν ικανοποιείται, ο χρήστης θα κλιθεί να επιλέξει σε ποια από τις προϋποθέσεις που δεν ικανοποιούνται θα ήθελε να επιχειρηθεί η διόρθωσή της. (Ο χρήστης μπορεί να δοκιμάσει τη διόρθωση όλων των προϋποθέσεων που δεν ισχύουν με οποιαδήποτε σειρά επιθυμεί. Αν μία μόνο από τις απαραίτητες προϋποθέσεις δεν ικανοποιείται, τότε το πρόγραμμα προχωράει άμεσα στη διόρθωσή της). Το τελικό προϊόν που παίρνει ο χρήστης είναι μια αναφορά ανάλογη με αυτή που θα έπαιρνε αν έδινε τα δεδομένα του για ανάλυση σε έναν έμπειρο στατιστικό στα θέματα στατιστικής ανάλυσης. Η εργασία αυτή δεν έχει σκοπό να περιγράψει κανένα λογισμικό πακέτο μιας και οι συγγραφείς δεν έχουν κατασκευάσει κάτι ανάλογο. Απλά θέλει να δείξει ότι η αυτοματοποίηση της στατιστικής ανάλυσης δεδομένων είναι δυνατή. Οι μέχρι τώρα στατιστικές μεθοδολογίες που έχουν υλοποιηθεί καλύπτουν ένα εξαμηνιαίο προπτυχιακό μάθημα. Παρ όλα αυτά αν κάποιος το συγκρίνει με τα παρόμοια προγράμματα που - 268 -

αναφέρονται στην εργασία αυτή, εύκολα θα διαπιστώσει την υπεροχή του προγράμματος αυτού από τα κατά πολύ ακριβότερα αντίστοιχα πακέτα. Οι υπολογιστικές διαδικασίες που υπάρχουν στο πρόγραμμα είναι αυτές που υπαγορεύονται από την αντίστοιχη κάθε φορά θεωρία. Για παράδειγμα στην περίπτωση του ελέγχου υπόθεσης για τη μέση τιμή ενός πληθυσμού η διαδικασία αυτή είναι η εξής: α) έλεγχος ακραίων παρατηρήσεων (πιθανός μετασχηματισμός αν υπάρχει πρόβλημα) β) έλεγχος κανονικής κατανομής δείγματος (αν δεν υπάρχει κανονικότητα, γίνεται μετασχηματισμός, π.χ. με βάση τον μετασχηματισμό Box-Cox) γ) αν και το α) και το β) ικανοποιούνται τότε υλοποιείτε το t-test για ένα πληθυσμό και διατυπώνονται τα ανάλογα συμπεράσματα. Αν έστω και ένα από τα α) και β) δεν ικανοποιείται τότε γίνεται χρήση του μη παραμετρικού τεστ του Wilcoxon. Οι αντίστοιχες υπολογιστικές διαδικασίες, για τις άλλες ρουτίνες του προγράμματος, είναι αρκετά πιο εκτενείς και πολύπλοκες και η αναφορά τους θα απαιτούσε περισσότερο από τον επιτρεπόμενο χώρο για την παρουσίαση της εργασίας. Ανάλογες δυνατότητες έχουν και τα προγράμματα S.A.S (SAS/Lab module), S.P.S.S (Statistics Coach), Minitab (Stat Guide) και Statistica (Advisor), αλλά αυτές δεν είναι αυτοματοποιημένες. Ακόμη στο διαδίκτυο υπάρχει η σχετική με το θέμα μας ιστοσελίδα home.clara.net/sisa. Όλα αυτά απαιτούν από ικανοποιητική έως αρκετή γνώση των στατιστικών μεθοδολογιών και των τυχόν λεπτομερειών τους, σε αντίθεση με το Α.Σ.Α. το οποίο δεν προϋποθέτει καμία γνώση στατιστικής από τον χρήστη. Ο κώδικας του προγράμματος Α.Σ.Α. είναι γραμμένος στην ελεύθερη γλώσσα προγραμματισμού R. 2. ΠΑΡΑΔΕΙΓΜΑ Στην συνέχεια δίνουμε ένα παράδειγμα για να μπορέσουμε να αντιληφθούμε τον τρόπο λειτουργίας του Α.Σ.Α. Στο παράδειγμα αυτό θέλουμε να μελετήσουμε το χρόνο και την ορθότητα των απαντήσεων των παιδιών σε ερωτήσεις με διαφορετικό περιεχόμενο. Για το σκοπό αυτό σχηματίζουμε 4 ομάδες (Group) των 30 ατόμων η κάθε μία. Οι δύο πρώτες ομάδες (I, II) αποτελούνται από αγόρια ηλικίας 14 και 13 ετών αντίστοιχα, ενώ οι δύο άλλες ομάδες (III, IV) από κορίτσια των αντίστοιχων ηλικιών. Σε κάθε παιδί δίνονται 18 ερωτήσεις της ίδιας περίπου δυσκολίας. Αυτό ε- παναλαμβάνεται (Rep) 6 φορές. Σε κάθε επανάληψη το σύνολο των ερωτήσεων παραμένει το ίδιο, αλλά αλλάζει η σειρά τους. Στο τέλος καταγράφεται η συνολική βαθμολογία (Marks) της κάθε ομάδας σε κάθε επανάληψη. Εμείς εδώ θα εξετάσουμε αν η μέση συνολική βαθμολογία δεν διαφέρει στις τέσσερες ομάδες, δηλ. θα χρησιμοποιήσουμε την ανάλυση διακύμανσης κατά ένα παράγοντα. Τα αποτελέσματα από το πρόγραμμα είναι τα ακόλουθα. (Σε ότι ακολουθεί με πλάγια είναι το κείμενο που παίρνουμε από το πρόγραμμα, ενώ με έντονα είναι οι απαντήσεις του χρήστη) Type in the path where your data file is located at C:\Program Files\R\Data\OneWayAnova Enter the data file name. The extension must be of the form.txt padp121.txt (Είναι το όνομα του αρχείου) - 269 -

This routine will do the necessary statistical steps for testing the null hypothesis that the means of K(K>2) populations are equal. The alternative is that at least two of them are different. The programme expects to read two columns: One of these columns must be quantitative. It contains the results of the measurements made on the quantitative variable. The other column must be qualitative. It should consist of only K different values. Those values may be numbers or characters. There are two ways for testing such a hypothesis: a parametric and a non parametric one. The parametric test is known as ONE WAY ANALYSIS OF VARIANCE (ANOVA). The best non-parametric test is the KRUSKAL-WALLIS test. To use the parametric test the following assumptions have to be satisfied. ASSUMPTIONS 1.- The K samples are random and independent. 2.- There are no outliers in each of the K samples. 3.- Each sample follows a normal distribution. 4.- The variances of the K populations are equal. F O R M A T I O N O F T H E D A T A DATA READ If the first row of your data set contains the names of the variables then type in 1 NOTE: If you type anything else but 1, then the names of the variables will be of the form V1, V2,... 1 (Απάντηση χρήστη) Are there any missing values in your data set? If YES type in 1. If NOT type in 2. If you do not know or if you are not sure type in 3. 3 (Απάντηση χρήστη) Your data set: padp121.txt consists of 3 variables and 24 observations If you want to look at your data or/and to modify them, then type in 1, otherwise type any. 1 (Με την επιλογή αυτή ο χρήστης έχει την δυνατότητα να δει αν τα δεδομένα του έχουν διαβασθεί σωστά) SELECTION OF THE QUANTITATIVE & QUALITATIVE VARIABLE Please specify, from the variables below, the QUANTITATIVE and QUALITATIVE variables. First specify the QUANTITATIVE and then the QUALITATIVE variable separated by a comma (,). Type 1 2 3 (Ο χρήστης καλείται να επιλέξει την ποσοτική και ποιοτική μεταβλητή μεταξύ όλων) For Group Rep Marks (των μεταβλητών που περιέχει το συγκεκριμένο αρχείο) 1: 3,1 (Ο χρήστης επιλέγει την 3 η (Marks) και την 1 η (Group)μεταβλητή, αντίστοιχα) Read 2 items The QUANTITATIVE variable is Marks and the QUALITATIVE one is Group The categories for the QUALITATIVE variable Group are : Ι ΙΙ ΙΙΙ ΙV C H E C K I N G T H E A S S U M P T I O N S - 270 -

RANDOMNESS AND INDEPENDENCE CHECK The randomness of each of the 4 samples and their independence it is based on the way we have selected them. OUTLIERS CHECK For category 1 of the variable Group, Variable Marks has no outliers. For category 2 of the variable Group, τhe number of outliers for the variable Marks exceeds the 10% of its sample size which is equal to n= 6. For category 3 of the variable Group, Variable Marks has no outliers For category 4 of the variable Group, Variable Marks has no outliers NORMALITY CHECK For category 1 of the variable Group from the Shapiro-Wilk test (p-value= 0.7453) we conclude that the hypothesis that the variable Marks follows a normal distribution, can not be rejected. For category 2 of the variable Group from the Shapiro-Wilk test (p-value= 0.4999) we conclude that the hypothesis that the variable Marks follows a normal distribution, can not be rejected. For category 3 of the variable Group from the Shapiro-Wilk test (p-value= 0.4192) we conclude that the hypothesis that the variable Marks follows a normal distribution, can not be rejected. For category 4 of the variable Group from the Shapiro-Wilk test (p-value= 0.1554) we conclude that the hypothesis that the variable Marks follows a normal distribution, can not be rejected. TESTING EQUALITY OF VARIANCES Using the Levene s test, we get that p-value= 0.7153. Since this value is greater than 5% we conclude that the hypothesis that the population variances are equal can not be rejected. The observed power of the test, at 0.05 significance level is equal to : 1 Since this value is greater than 0.6 the previous conclusion is reliable. From the previous analysis we get that the assumption 2 is not satisfied. This requires a transformation of our data. The transformation we will try is that of the logarithm. Observations which were possibly removed from our data as outliers will be returned back to them. C H E C K I N G T H E A S S U M P T I O N S A F T E R T H E T R A N S F O R M A T I O N OUTLIERS CHECK For category 1 of the variable Group Variable Ln( Marks ) has no outliers For category 2 of the variable Group the number of outliers for the variable Ln( Marks ) exceeds the 10% of its sample size which is equal to n= 6. This means that the log transform did not correct the problem of outliers. So we are going to use a non parametric method. The available non parametric tests in this programme are two: 1._ Kruskal_Wallis_Test and 2._ Jonckheere_Terpstra_Test The Kruskal_Wallis_Test is preferable if there is no ordering of the K populations. - 271 -

The Jonckheere_Terpstra_Test is preferable if there is a natural ordering in the K populations. Type 0 for exiting from the non parametric procedure and continue with the rest of the analysis. Type 1 for the Kruskal_Wallis_Test Type 2 for the Jonckheere_Terpstra_Test 1 (Απάντηση χρήστη) NON PARAMETRIC TEST KRUSKAL - WALLIS The KRUSKAL-WALLIS test is a well known rank sum test. This test, as a non parametric one, actually tests if the medians of the 4 populations are equal. Using the above test we get that the value of the test statistic is 16.86 and the corresponding p- value is 0.0008 the hypothesis that the true medians of the variable Marks are equal in the 4 categories of the variable Group should be rejected. The KRUSKAL-WALLIS test is actually a test for the medians of the populations. For the above conclusion to be valid for the means, the distribution of the variable Marks in the 4 categories of the variable Group should be more or less symmetric. This is satisfied if the 4 median values are close enough to the corresponding means. The medians of the variable Marks for the 4 categories of the variable Group are category 1 median 181, category 2 median 170.5, category 3 median 166, category 4 median 129 and the corresponding means are: category 1 mean 182.5, category 2 mean 173.3, category 3 mean 163.2, category 4 mean 131 The estimated power of this test it is not available in the literature. 3. ΣΤΑΤΙΣΤΙΚΕΣ ΜΕΘΟΔΟΙ ΣΤΟ Α.Σ.Α Οι στατιστικές μέθοδοι που, προς το παρόν, υλοποιούνται στο Α.Σ.Α. είναι : 1) Έλεγχος για τη μέση τιμή ενός πληθυσμού. 2) Έλεγχος ισότητας δύο μέσων τιμών (δείγματα ανεξάρτητα και μη ανεξάρτητα), 3) Ανάλυση διακύμανσης κατά ένα παράγοντα (με δυνατότητα πολλαπλών συγκρίσεων τόσο για την περίπτωση ίσων διακυμάνσεων, όσο και για την περίπτωση των άνισων διακυμάνσεων), 4) Ανάλυση διακύμανσης κατά δύο παράγοντες με ή χωρίς αλληλεπίδραση. (Και στη περίπτωση αυτή υπάρχει η δυνατότητα πολλαπλών συγκρίσεων για κάθε σημαντικό παράγοντα. Στη περίπτωση που η αλληλεπίδραση είναι σημαντική, τότε οι πολλαπλές συγκρίσεις αφορούν την αλληλεπίδραση), 5) Πίνακες συνάφειας για δύο ποιοτικές μεταβλητές και 6) Στρωματοποιημένοι πίνακες συνάφειας για τρεις ποιοτικές μεταβλητές (Mantel- Heanszel test). - 272 -

ABSTRACT In this paper we briefly discuss the Automated Statistical Analysis (A.S.A) program. This program completely differs from the existing ones e.g. S.A.S., SPSS, Minitab. In those programs the user must be aware of how to materialize the statistical methodology he has selected to analyze his data set. In A.S.A. the user reads in the data set, declares the variables to be used by the program and gets a full statistical report about the statistical methodology he has selected. This report includes, among others, 1 st ) the possible assumptions necessary for the statistical methodology used 2 nd ) conclusions about the validity of those assumptions (including possible transformations in order to achieve it) 3 rd ) final conclusion (or conclusions) about the variables involved in the analysis and the questions posed. ΑΝΑΦΟΡΕΣ MINITAB is a registered trademark of Minitab Inc., USA R Development Core Team (2008). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org. S.A.S and S.A.S/LAB is a registered trademark of SAS Institute Inc., USA S.P.S.S is a registered trademark of SPSS Inc., USA Statistica is a registered trademark of StatSoft Inc., USA - 273 -