Πανεπιστήμιο Πάτρας Τμήμα Βιολογίας. Ανάλυση Περιβαλλοντικών Δεδομένων: συνοπτικός οδηγός για βιολόγους. Σίνος Γκιώκας

Σχετικά έγγραφα
Για να ελέγξουµε αν η κατανοµή µιας µεταβλητής είναι συµβατή µε την κανονική εφαρµόζουµε το test Kolmogorov-Smirnov.

Αν οι προϋποθέσεις αυτές δεν ισχύουν, τότε ανατρέχουµε σε µη παραµετρικό τεστ.

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α. Δ.Π.Θ.

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Επιστηµονική Επιµέλεια ρ. Γεώργιος Μενεξές. Εργαστήριο Γεωργίας. Viola adorata

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

Ασκήσεις Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη. Διοίκηση των Επιχειρήσεων

ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ

Ερμηνεία αποτελεσμάτων Ανάλυση διακύμανσης κατά ένα παράγοντα

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για ανεξάρτητα δείγματα)

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Μονοπαραγοντική Ανάλυση Διακύμανσης Ανεξάρτητων Δειγμάτων

ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΧΡΗΣΗ SPSS

Μαντζούνη, Πιπερίγκου, Χατζή. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 5 ο

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Wilcoxon test)

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

Παράδειγμα: Γούργουλης Βασίλειος, Επίκουρος Καθηγητής Τ.Ε.Φ.Α.Α.-Δ.Π.Θ.

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με εξαρτημένα δείγματα

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο ανεξάρτητων δειγμάτων, που δεν ακολουθούν την κανονική κατανομή (Mann Whitney U τεστ)

ΕΚΠΑΙΔΕΥΤΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΑΝΘΡΩΠΙΝΩΝ ΠΟΡΩΝ

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΣΤΟΧΟΙ ΤΗΣ ΕΝΟΤΗΤΑΣ ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΜΗ ΠΑΡΑΜΕΤΡΙΚΩΝ ΕΛΕΓΧΩΝ

Ανάλυση ποσοτικών δεδομένων. ΕΡΓΑΣΤΗΡΙΟ 2 ΔΙΟΙΚΗΣΗ & ΚΟΙΝΩΝΙΚΟΣ ΣΧΕΔΙΑΣΜΟΣ ΣΤΗΝ ΤΟΞΙΚΟΕΞΆΡΤΗΣΗ Dr. Ρέμος Αρμάος

Έλεγχος ύπαρξης στατιστικά σημαντικών διαφορών μεταξύ δύο εξαρτημένων δειγμάτων, που ακολουθούν την κανονική κατανομή (t-test για εξαρτημένα δείγματα)

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Βοήθημα Εξετάσεων. Μεταπτυχιακό Πρόγραμμα Σπουδών στη Διοίκηση των Επιχειρήσεων

Έλεγχος για τις παραμέτρους θέσης δύο πληθυσμών με ανεξάρτητα δείγματα

1. Ιστόγραμμα. Προκειμένου να αλλάξουμε το εύρος των bins κάνουμε διπλό κλικ οπουδήποτε στο ιστόγραμμα και μετά

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Κεφάλαιο 14. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης. Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Εισαγωγή στην Ανάλυση Δεδομένων

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

1991 US Social Survey.sav

Μη Παραμετρικοί Έλεγχοι & Η Δοκιμασία Χ 2

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

Λυμένες Ασκήσεις για το μάθημα:

Έλεγχος ότι η παράμετρος θέσης ενός πληθυσμού είναι ίση με δοθείσα γνωστή τιμή. μεγέθους n από έναν πληθυσμό με μέση τιμή μ

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Ενότητα 3: Ανάλυση Διακύμανσης κατά ένα παράγοντα One-Way ANOVA

ο),,),--,ο< $ι ιι!η ι ηι ι ιι ιι t (t-test): ι ι η ι ι. $ι ι η ι ι ι 2 x s ι ι η η ιη ι η η SE x

Δείγμα (μεγάλο) από οποιαδήποτε κατανομή

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

ΜΗ ΠΑΡΑΜΕΤΡΙΚΕΣ ΣΥΓΚΡΙΣΕΙΣ

Στατιστική και Θεωρία Πιθανοτήτων (ΓΓ04) ΑΝΤΩΝΙΟΣ ΧΡ. ΜΠΟΥΡΑΣ Εαρινό Εξάμηνο

Ενότητα 5 η : Επαγωγική Στατιστική ΙΙ Ανάλυση ποσοτικών δεδομένων. Δημήτριος Σταμοβλάσης Φιλοσοφίας Παιδαγωγικής

ΒΙΟΣΤΑΤΙΣΤΙΚΗ. ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας

ΚΕΦΑΛΑΙΟ 1 ο ΒΑΣΙΚΕΣ ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΚΑΙ ΑΝΑΛΥΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΩΝ ΜΕ ΧΡΗΣΗ ΕΛΕΓΧΩΝ (STUDENT S T).. 21

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Στατιστική. 9 ο Μάθημα: Εφαρμογές Στατιστικής ΙΙ: Στατιστικοί Έλεγχοι. Γεώργιος Μενεξές Τμήμα Γεωπονίας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΕΠΙΣΤΗΜΟΝΙΚΟ ΕΠΙΜΟΡΦΩΤΙΚΟ ΣΕΜΙΝΑΡΙΟ «ΚΑΤΑΡΤΙΣΗ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ» Τριανταφυλλίδου Ιωάννα Μαθηματικός

Επαγωγική Στατιστική

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

Τι κάνουμε μετά τη συλλογή των δεδομένων

έρευνας και στατιστική» παραμετρικές συγκρίσεις»

Biostatistics for Health Sciences Review Sheet

ΠΕΡΙΕΧΟΜΕΝΑ 1 ΕΙΣΑΓΩΓΗ ΤΟ PASW ΜΕ ΜΙΑ ΜΑΤΙΑ ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ: Η ΜΕΣΗ ΤΙΜΗ ΚΑΙ Η ΔΙΑΜΕΣΟΣ... 29

Τμήμα Λογιστικής και Χρηματοοικονομικής. Δρ. Αγγελίδης Π. Βασίλειος

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 5. Στατιστική συµπερασµατολογία για ποσοτικές µεταβλητές: Έλεγχοι υποθέσεων και διαστήµατα εµπιστοσύνης

1. Hasil Pengukuran Kadar TNF-α. DATA PENGAMATAN ABSORBANSI STANDAR TNF α PADA PANJANG GELOMBANG 450 nm

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΧΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

ΗΥ-SPSS Statistical Package for Social Sciences 6 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

ΚΕΦΑΛΑΙΟ 5 ο. 5.1 Εντολή EXPLORE 5.2 Εντολή CROSSTABS 5.3 Εντολή RAΤΙΟ STΑTISTIC 5.4 Εντολή OLAP CUBES. Daily calorie intake

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗΝ ΣΥΓΚΡΙΣΗ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΙ ΑΝΑΛΟΓΙΩΝ ΔΥΟ

Η ΣΤΑΤΙΣΤΙΚΗ ΣΤΟ ΕΡΓΑΣΤΗΡΙΟ ΣΠΕΡΜΑΤΟΣ

Ποιοτική και ποσοτική ανάλυση ιατρικών δεδομένων

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

ΔΙΕΡΕΥΝΗΣΗ ΚΛΙΜΑΤΙΚΩΝ ΑΛΛΑΓΩΝ ΓΙΑ ΤΟ ΝΗΣΙ ΤΗΣ ΝΑΞΟΥ

Εισαγωγή στη Στατιστική

Τίτλος Μαθήματος: Στατιστική Ανάλυση Δεδομένων

Λογαριθμικά Γραμμικά Μοντέλα Poisson Παλινδρόμηση Παράδειγμα στο SPSS

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Κεφάλαιο 3: Ανάλυση μιας μεταβλητής

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» 2 ο Μάθηµα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Εκπαιδευτική έρευνα Οργάνωση & Παρουσίαση Δεδομένων (Εργαστήριο SPSS) Άγγελος Μάρκος, Λέκτορας Δημοκρίτειο Πανεπιστήμιο Θράκης

ΠΕΡΙΓΡΑΦΙΚΗ και ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

Προσοµοίωση Εξέτασης στο µάθηµα του Γεωργικού Πειραµατισµού

PENGARUHKEPEMIMPINANINSTRUKSIONAL KEPALASEKOLAHDAN MOTIVASI BERPRESTASI GURU TERHADAP KINERJA MENGAJAR GURU SD NEGERI DI KOTA SUKABUMI

Γ. Πειραματισμός - Βιομετρία

$ι ιι η ι ι!η ηι ι ANOVA. To ANOVA ι ι ι η η η ιη (Analysis of Variance). * ι! ι ι ι ι ι η ιη. ;, ι ι ι! η ιι ηιη ι ι!η ι η η ιη ι ι η ι η.

Περιεχόμενα. Πρόλογος 17 ΚΕΦΑΛΑΙΟ 1 23

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Παιδαγωγικά II. Εισαγωγή στη μεθοδολογία της Εκπαιδευτικής Έρευνας Ευαγγελία Παυλάτου, Αν. Καθηγήτρια ΕΜΠ Νίκος Καλογερόπουλος, ΕΔΙΠ ΕΜΠ

Στατιστική Επιχειρήσεων Ι

Δείγμα πριν τις διορθώσεις

Transcript:

Πανεπιστήμιο Πάτρας Τμήμα Βιολογίας Ανάλυση Περιβαλλοντικών Δεδομένων: συνοπτικός οδηγός για βιολόγους Σίνος Γκιώκας Πάτρα 2007

ΠΕΡΙΕΧΟΜΕΝΑ Εισαγωγή 2 Βήματα για μια πετυχημένη ανάλυση των δεδομένων 3 Τα βασικά 4 Διαλέγοντας τον κατάλληλο έλεγχο 9 Περιγραφή και παρουσίαση των δεδομένων 12 Κοιτώντας για διαφορές 17 Κοιτώντας για σχέσεις 39 Διερεύνηση δεδομένων 54 Βιβλιογραφία 66 1

ΕΙΣΑΓΩΓΗ Αυτές οι σημειώσεις απευθύνονται σε βιολόγους που θέλουν να αναλύσουν τα δεδομένα τους (οικολογικά ή πειραματικά) μέσω κάποιου στατιστικού λογισμικού, να επιλέξουν τις πιο κατάλληλες μεθόδους και να εξαγάγουν την πιο σημαντική πληροφορία από τη συχνά συγκεχυμένη και πλεονάζουσα πληροφορία που παράγουν αυτά τα προγράμματα. Για αυτόν το λόγο δεν περιγράφονται αναλυτικά οι υπολογισμοί που αφορούν στους στατιστικούς ελέγχους ή δοκιμές (tests) που θα παρουσιαστούν. Δίνεται μεγαλύτερη βαρύτητα στα κριτήρια επιλογής του κατάλληλου στατιστικού ελέγχου και στια ορθά συμπεράσματα που μπορούν να εξαχθούν από τα αποτελέσματα τους. Το βασικό μήνυμα αυτών των σημειώσεων είναι το εξής: «σκεφτείτε τη στατιστική πριν συλλέξετε τα δεδομένα». Πολλές φορές βρισκόμαστε να έχουμε συλλέξει με κόπο πολλά δεδομένα τα οποία δεν μπορούμε να αναλύσουμε αποτελεσματικά γιατί ο πειραματικός σχεδιασμός ήταν εξαρχής ακατάλληλος. Δεν υπάρχει αμφιβολία ότι εάν τα πειράματα και οι δειγματοληψίες έχουν σχεδιαστεί έχοντας στο μυαλό μας τη στατιστική, το αποτέλεσμα θα είναι καλύτερη επιστήμη. Εάν κάθε δείγμα μας έδινε το ίδιο αποτέλεσμα δεν θα χρειαζόταν η στατιστική. Ωστόσο, κάθε πτυχή της βιολογίας χαρακτηρίζεται από ποικιλότητα. Με τη στατιστική μπορούμε να δούμε πίσω από το νέφος του πειραματικού σφάλματος και της εγγενούς ποικιλότητας που υπάρχει στο φυσικό κόσμο και να εντοπίσουμε τις αιτίες και τις διεργασίες των βιολογικών φαινομένων. Επομένως, προσπαθήστε να μη μισήσετε τη στατιστική. Είναι απλώς ένα εργαλείο, το οποίο όταν χρησιμοποιείται σοφά και ορθά, μπορεί να κάνει τη ζωή του βιολόγου απλούστερη και να δώσει τεκμηριωμένα συμπεράσματα. Στις σημειώσεις δίνονται οδηγίες χρήσης για το ευρέως χρησιμοποιούμενο στατιστικό πρόγραμμα SPSS. Ωστόσο, το κλειδί για την επιλογή του κατάλληλου στατιστικού ελέγχου δεν εξαρτάται από το λογισμικό. Επομένως, ακόμη και εάν χρειαστεί ή θέλετε να χρησιμοποιήσετε κάποιο άλλο στατιστικό πρόγραμμα (Statgraphics, Minitab, Statistica, ή ακόμα και το Excel) ελπίζω ότι θα μπορέσετε να ανταποκριθείτε. Και μια τελευταία παρατήρηση: μην περιοριστείτε σε παθητική ανάγνωση αυτών των σημειώσεων. Ο καλύτερος τρόπος να μάθετε να εφαρμόζετε τη στατιστική είναι χρησιμοποιώντας πραγματικά δεδομένα που προέρχονται από ερωτήματα που σας ενδιαφέρουν πραγματικά. Σε μεγάλο βαθμό αυτές οι σημειώσεις βασίζονται στο βιβλίο του Dytham (2003): Choosing and Using Statistics. Είναι καλό να το προμηθευτείτε. Είναι ένα εξαιρετικά πρακτικό και χρήσιμο βοήθημα για τα πρώτα βήματα στο χώρο της στατιστικής. Στη βιβλιογραφία που παρουσιάζεται στο τέλος αυτών των σημειώσεων θα δείτε και άλλα χρήσιμα βοηθήματα που θα σας βοηθήσουν να εμβαθύνετε. 2

ΒΗΜΑΤΑ ΓΙΑ ΜΙΑ ΠΕΤΥΧΗΜΕΝΗ ΑΝΑΛΥΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ 1. Αποφασίστε τι σας ενδιαφέρει 2. Διατυπώστε μία ή αρκετές υποθέσεις 3. Σχεδιάστε το πείραμα, το χειρισμό ή τη δειγματοληπτική διαδικασία που θα σας επιτρέψει να ελέγξετε αυτές τις υποθέσεις 4. Συλλέξτε ή φτιάξτε εικονικά δεδομένα (δηλ. προσεγγιστικές τιμές βασισμένες στο τι περιμένετε να πάρετε) 5. Επιλέξτε την κατάλληλη στατιστική δοκιμή 6. Εφαρμόστε τη δοκιμή με τα εικονικά δεδομένα 7. Εάν υπάρχει πρόβλημα γυρίστε πίσω στα βήματα 2 ή 3, αλλιώς προχωρήστε στη συλλογή πραγματικών δεδομένων 8. Εφαρμόστε τι δοκιμές με τα πραγματικά δεδομένα. Αναφέρετε τα ευρήματα και/ή επιστρέψτε στο βήμα 2 3

ΤΑ ΒΑΣΙΚΑ Παρατηρήσεις Οι παρατηρήσεις που μπορούμε να έχουμε μπορούν να διακριθούν σε τρεις γενικούς τύπους: 1) Κατηγοριοποιημένες (categorical): όπου οι παρατηρήσεις είναι ένας περιορισμένος αριθμός κατηγοριών που δεν έχουν μια εμφανή κλίμακα (π.χ. δάσος, λιβάδι, θαμνώνας). 2) Διακριτές (discrete): όπου υπάρχει κλίμακα αλλά δεν είναι δυνατές όλες οι τιμές (π.χ. ο αριθμός των αυγών σε μια φωλιά, ή ο αριθμός των ειδών σε ένα δείγμα). 3) Συνεχείς (continuous): όπου κάθε τιμή είναι θεωρικά δυνατή αλλά υπάρχει περιορισμός από το όργανο μέτρησης (π.χ. μήκη, συγκεντρώσεις). Έλεγχος υπόθεσης Ο ακρογωνιαίος λίθος της επιστημονικής ανάλυσης είναι ο έλεγχος υπόθεσης. Η έννοια είναι απλή: σχεδόν κάθε φορά που κάνουμε μια στατιστική δοκιμή ελέγχουμε την πιθανότητα να είναι σωστή μια υπόθεση. Εάν η πιθανότητα αυτή είναι μικρή τότε η υπόθεση θεωρείται μη αληθής και απορρίπτεται υπέρ μιας εναλλακτικής. Αυτό γίνεται με έναν τρόπο που φαίνεται ανάποδος καθώς ελέγχουμε αυτό που συνήθως ονομάζεται μηδενική υπόθεση (null hypothesis), παρά την ενδιαφέρουσα υπόθεση. Η μηδενική υπόθεση είναι η υπόθεση ότι τίποτε δεν συμβαίνει (και συχνά συμβολίζεται ως Η 0 ). Η μηδενική υπόθεση μπορεί να είναι αληθής ή ψευδής. Δυστυχώς όμως έχουμε μόνο ένα δείγμα από το σύνολο των ατόμων σε έναν πληθυσμό και ο στατιστικός έλεγχος μας δίνει μόνο την πιθανότητα να είναι αληθής ή μηδενική υπόθεση βασιζόμενος σε αυτό το δείγμα. Υπάρχουν δύο τρόποι να οδηγηθούμε σε λανθασμένα συμπεράσματα από αυτούς τους ελέγχους. Αυτοί οι τύποι σφαλμάτων ονομάζονται συνήθως σφάλματα τύπου Ι και σφάλματα τύπου ΙΙ. Στα σφάλματα τύπου Ι (Type I Error) η μηδενική υπόθεση είναι πραγματικά αληθής αλλά ο στατιστικός έλεγχος μας οδηγεί να πιστέψουμε ότι είναι ψευδής. Αυτός ο τύπος σφάλματος είναι πολύ επικίνδυνος. Στα σφάλματα τύπου ΙΙ (Type II Error) η μηδενική υπόθεση είναι στην πραγματικότητα ψευδής αλλά ο έλεγχος μας οδηγεί να τη θεωρήσουμε αληθή. Αυτός ο τύπος σφάλματος είναι λιγότερο επικίνδυνος, αλλά προφανώς είναι και αυτός ανεπιθύμητος. Ένας έλεγχος που αυξάνει την πιθανότητα να οδηγηθούμε σε σφάλμα τύπου ΙΙ, ενώ παράλληλα μειώνει την πιθανότητα του σφάλματος τύπου Ι ονομάζεται «συντηρητικός» και είναι προτιμότερος από την αντίστροφη περίπτωση. 4

Τιμές P Η τιμή P είναι η κάτω γραμμή (όριο) των περισσότερων στατιστικών ελέγχων. Είναι απλά η πιθανότητα να είναι αληθής η υπόθεση που ελέγχουμε. Έτσι εάν Ρ = 0.06, αυτό υποδεικνύει ότι η υπόθεση μας έχει 6% πιθανότητα να είναι αληθής. Στη βιολογία συνήθως χρησιμοποιούμε ως κρίσιμη τιμή το 0.05 (5%) για την απόρριψη μιας υπόθεσης. Όσο πιο μικρή είναι η τιμή Ρ τόσο πιο σίγουροι είμαστε για τα συμπεράσματα που εξάγουμε από αυτήν. Δειγματοληψία Οι παρατηρήσεις πρέπει να συλλεχθούν με κάποιο τρόπο. Αυτό λέγεται δειγματοληψία. Παρόλο που χρησιμοποιούνται αρκετές μέθοδοι δειγματοληψίας υπάρχουν μερικοί γενικοί κανόνες. Ο πιο προφανής είναι ότι οι πολλές παρατηρήσεις είναι καλύτερες από τς λίγες. Επίσης είναι σημαντικό να έχουμε εξισορροπημένη δειγματοληψία (δηλ. όταν π.χ. συγκρίνουμε δύο ομάδες να έχουμε ίδιο αριθμό παρατηρήσεων από κάθε ομάδα). Οι περισσότεροι στατιστικοί έλεγχοι προϋποθέτουν ότι τα δείγματα έχουν συλλεχθεί τυχαία. Αυτό ακούγεται απλό αλλά είναι αρκετά δύσκολο να το επιτύχουμε. Υπάρχουν μέθοδοι που περιορίζουν το πρόβλημα της μη τυχαίας δειγματοληψίας αλλά είναι βασικό να γνωρίζουμε το πρόβλημα. Μια άλλη παραδοχή της δειγματοληψίας είναι ότι τα άτομα είτε μετρήθηκαν μόνο μια φορά ή ότι όλα συλλέχθηκαν σε διαφορετικές περιπτώσεις. Η ομάδες των παρατηρήσεων που συλλέχθηκαν ονομάζονται μεταβλητές (variables). Άλλοι σημαντικοί παράμετροι στη δειγματοληψία είναι: η επιλογή της δειγματοληπτικής μονάδας, το μέγεθός της, ο αριθμός των δειγματοληπτικών μονάδων, καθώς και η χωρική και χρονική τοποθέτησή τους για να πάρουμε ένα τυχαίο δείγμα. Πειράματα Στη βιολογία πολλές έρευνες χρησιμοποιούν πειράματα. Σε ένα πείραμα κάτι τροποποιείται ή ελέγχεται από τον ερευνητή. Η κατάσταση που ελέγχεται ονομάζεται παράγοντας (factor) και τα διαφορετικά του επίπεδα ονομάζονται επίπεδα (levels) του παράγοντα ή δοκιμασίες (treatments). Ο σχεδιασμός του πειράματος καθορίζεται από την υπόθεση ή τις υποθέσεις που εξετάζονται. Ο κατάλληλος πειραματικός σχεδιασμός είναι το κλειδί για την επιτυχημένη ανάλυση ενός προβλήματος. Σημαντική παράμετρος όλων των πειραματικών σχεδιασμών είναι ο μάρτυρας ή έλεγχος (control). Η ιδέα του μάρτυρα είναι να αφαιρέσουμε την επίδραση όλων των άλλων παραγόντων από τον παράγοντα που εξετάζουμε. Υπάρχουν διάφοροι τύποι μαρτύρων (διαδικαστικοί, χρονικοί, πειραματικοί, στατιστικοί). 5

Στατιστική Γενικώς η στατιστική είναι τα αποτελέσματα επεξεργασίας των παρατηρήσεων έτσι ώστε να παραχθεί ένας μικρός αριθμός αποτελεσμάτων (ή ακόμη και ένα αποτέλεσμα). Υπάρχουν διάφοροι τύποι στατιστικής ανάλυσης ανάλογα με τον τύπο του ερωτήματος που ελέγχουν. 1) Περιγραφική στατιστική: Η απλούστερη στατιστική είναι οι περιλήψεις των δεδομένων. Τις καταλαβαίνουμε εύκολα αλλά δεν πρέπει να υποτιμούνται. Οι πιο συχνά χρησιμοποιούμενες περιγραφικές στατιστικές είναι μετρήσεις της «θέσης» μιας ομάδας αριθμών, όπως ο μέσος όρος. Υπάρχουν και μετρήσεις του «εύρους» των δεδομένων, όπως η τυπική απόκλιση. 2) Έλεγχοι διαφορών: Μια οικεία ερώτηση σε πολλές έρευνες είναι η εξής: «είναι αυτή ομάδα διαφορετική από αυτήν την ομάδα». Μια τέτοια ερώτηση μπορεί να διατυπωθεί ως μηδενική υπόθεση ως εξής: «αυτή και αυτή η ομάδα δεν διαφέρουν». Για να απαντηθεί αυτή η ερώτηση και να ελεγχθεί η μηδενική υπόθεση απαιτείται κάποιος στατιστικός έλεγχος διαφορών. Υπάρχουν πολλοί τέτοιοι έλεγχοι αλλά η καταλληλότητα του καθενός εξαρτάται από το συγκεκριμένο τύπο των δεδομένων που έχουμε. Οι έλεγχοι αυτοί διακρίνονται σε δύο ομάδες που συνήθως ονομάζονται παραμετρικοί (parametric) και μη-παραμετρικοί (non-parametric). Στους παραμετρικούς ελέγχους κάνουμε παραδοχές για τη μορφή των δεδομένων. Π.χ. απαιτείται οι μεταβλητές να ακολουθούν συγκεκριμένες κατανομές (συνήθως την κανονική normal). Εάν τα δεδομένα συμμορφώνονται με τις παραδοχές, αυτοί οι έλεγχοι είναι πιο ισχυροί και πρέπει να προτιμώνται. Στους μη-παραμετρικούς ελέγχους δεν απαιτείται γνώση της κατανομής των δεδομένων. Σε γενικές γραμμές αυτοί οι έλεγχοι είναι λιγότερο ισχυροί αλλά είναι ασφαλέστεροι. Επίσης, εφαρμόζονται σε πιο περιορισμένο εύρος ερωτημάτων. Στους μη-παραμετρικούς ελέγχους τα δεδομένα συνήθως ταξινομούνται (διευθετούνται σε μια σειρά rank) πριν αναλυθούν. 3) Έλεγχοι σχέσεων: Μια άλλη συχνή ερώτηση έχει τη μορφή: «σχετίζεται το Α με το Β;». Και αυτή η ερώτηση μπορεί να διατυπωθεί ως μηδενική υπόθεση ως εξής: «το Α δεν σχετίζεται με το Β». Και αυτή μπορεί να ελεγχθεί με μια ποικιλία στατιστικών ελέγχων. Όπως κα με τους ελέγχους διαφορών η επιλογή του κατάλληλου ελέγχου εξαρτάται από τον τύπο των δεδομένων. Οι έλεγχοι σχέσεων διακρίνονται σε δύο τύπους που ονομάζονται συσχέτιση (correlation) και παλινδρόμηση (regression), ανάλογα με τον τύπο της υπόθεσης που ελέγχεται. Στη συσχέτιση μετράμε το βαθμό που μια ομάδα δεδομένων ποικίλει σε σχέση με μια άλλη δεν υπονοεί ότι υπάρχει σχέση «αιτίου» και «αποτελέσματος» (cause effect relation). Η παλινδρόμηση χρησιμοποιείται για να προσαρμόσει τη σχέση μεταξύ δύο μεταβλητών έτσι ώστε η μια να προβλέπεται από 6

την άλλη. Αυτό υπονοεί ότι υπάρχει σχέση «αιτίου» και «αποτελέσματος» ή ότι έστω η μια από τις μεταβλητές είναι απόκριση της άλλης. 4) Έλεγχοι για τη διερεύνηση δεδομένων: Μια ολόκληρη ομάδα ελέγχων βοηθά τους ερευνητές να διερευνήσουν μεγάλες ομάδες δεδομένων. Αντίθετα με τους προηγούμενους ελέγχους δεν χρειάζεται εδώ να έχουμε κάποια υπόθεση προς έλεγχο. Τύποι κατανομών Όπως υπάρχουν διάφοροι τύποι μεταβλητών, υπάρχουν και διαφορετικοί τύποι κατανομών. Όλοι οι παραμετρικοί έλεγχοι, αλλά και αρκετοί μη-παραμετρικοί, βασίζονται σε χαρακτηριστικά των κατανομών ή σε παραδοχές για τα δεδομένα που ακολουθούν συγκεκριμένες κατανομές. Σε αυτές τις σημειώσεις θα αναφερθούν απλώς ονομαστικά. Διακριτές κατανομές Κατανομή Poisson: Είναι η κατανομή που περιγράφει το πόσες φορές ένα γεγονός συμβαίνει ή υπάρχει στη μονάδα του χρόνου ή του χώρου. Διωνυμική (binomial) κατανομή: Είναι μια διακριτή κατανομή όπου ο αριθμός των γεγονότων μπορεί να έχει μόνο δύο δυνατά αποτελέσματα και η πιθανότητα του καθενός είναι σταθερή. Αρνητική διωνυμική κατανομή: Είναι μια διακριτή κατανομή που χρησιμοποιείται για να περιγράψει δεδομένα που είναι συναθροισμένα. Υπεργεωμετρική κατανομή: Είναι μια διακριτή κατανομή που χρησιμοποιείται για να περιγράψει δεδομένα όπου τα άτομα αφαιρούνται από τον πληθυσμό και δεν αντικαθίστανται. Επομένως, είναι χρήσιμη σε μικρούς, κλειστούς πληθυσμούς από όπου αφαιρούνται άτομα καθώς και σε τεχνικές σήμανσης επανασύλληψης (mark-recapture). Συνεχείς κατανομές Ομοιόμορφη (uniform) κατανομή: Περιγράφει κάθε κατανομή όπου όλες οι τιμές είναι εξίσου πιθανόν να υπάρχουν. Κανονική (normal) κατανομή: Είναι η πιο σημαντική στατιστική κατανομή. Είναι συμμετρική, συνεχής και περιγράφεται από δύο παραμέτρους: το μέσο όρο (μ) και την τυπική απόκλιση (σ). Έχει κωδωνοειδές σχήμα. Συχνά περιγράφεται και από δύο άλλους εκτιμητές: την ασυμμετρία (skewness), και την κύρτωση (kurtosis) που είναι μέτρο του πόσο επίπεδη είναι η κατανομή. Εάν τα δεδομένα είναι συμμετρικά η τιμή της ασυμμετρίας είναι 0. Εάν υπάρχει «ουρά» προς τα δεξιά είναι θετική και εάν υπάρχει ουρά προς τα αριστερά είναι αρνητική. Αρνητικές τιμές κύρτωσης υποδεικνύουν 7

πλατυκυρτωμένη κατανομή και θετικές λεπτοκυρτωμένη κατανομή. Μια κατανομή Poisson ή μια διωνυμική κατανομή (παρόλο που είναι διακριτές κατανομές) προσεγγίζει την κανονική κατανομή εάν ο αριθμός των παρατηρήσεων είναι πολύ μεγάλος (>100). Κατανομή t: Είναι συμμετρική, συνεχής, σχετίζεται με την κανονική κατανομή αλλά είναι πιο επίπεδη και με επεκταμένα άκρα. Κατανομή χ 2 : Είναι ασύμμετρη και κυμαίνεται από το 0 μέχρι το άπειρο. Εκθετική (exponential) κατανομή: Είναι χρήσιμη ως μηδενικό (null) μοντέλο στη βιολογία. Συμβαίνει όταν π.χ. υπάρχει μια σταθερή πιθανότητα γεννήσεων, θανάτων, αύξησης ή μείωσης πληθυσμού. Μετασχηματισμοί Οι παραμετρικοί έλεγχοι προϋποθέτουν ότι τα δεδομένα κατανέμονται κανονικά. Εάν αυτό δεν συμβαίνει υπάρχει μια σειρά μετασχηματισμών που μπορούμε να εφαρμόσουμε για να επιτύχουμε κανονικότητα στα δεδομένα μας: ο λογαριθμικός (log), η τετραγωνική ρίζα (square root), ο τοξο-ημιτονοειδής (arcsine square root). Ο λογαριθμικός μετασχηματισμός είναι κατάλληλος όταν η διασπορά των δεδομένων είναι μεγαλύτερη από το μέσο. Ο μετασχηματισμός τετραγωνικής ρίζας χρησιμοποιείται όταν η διασπορά είναι περίπου ίση με το μέσο και υποπτευόμαστε κατανομή Poisson. Ο τοξοημιτονοειδής είναι κατάλληλος για δεδομένα που έχουν τη μορφή ποσοστών ή αναλογιών (το ποσοστό καταρχάς μετατρέπεται σε αναλογία, παίρνουμε κατόπιν την τετραγωνική του ρίζα και τέλος υπολογίζεται το αντίστροφο του ημιτόνου sin -1 ). 8

ΔΙΑΛΕΓΟΝΤΑΣ ΤΟΝ ΚΑΤΑΛΛΗΛΟ ΕΛΕΓΧΟ Η επιλογή του κατάλληλου στατιστικού ελέγχου δεν είναι ακριβώς επιστήμη. Σχεδόν πάντοτε υπάρχει σκοπιμότητα κατά την επιλογή και πολλές αποφάσεις που παίρνουμε βασίζονται σε προσωπικές εκτιμήσεις, εμπειρία με παρόμοια προβλήματα, ή απλώς στη διαίσθησή μας. Υπάρχουν πολλές περιπτώσεις όπου τα δεδομένα μπορούν να αναλυθούν με αρκετούς τρόπους, ωστόσο πρέπει να δικαιολογείται πάντοτε η χρησιμοποίηση του όποιου ελέγχου. Μια συχνή τάση είναι να χρησιμοποιούμε τον έλεγχο με τον οποίο είμαστε περισσότερο εξοικειωμένοι, ακόμη και εάν δεν είναι ο καλύτερος. Κοιτάξτε να βρείτε τον καταλληλότερο έλεγχο για την υπόθεση που ελέγχετε. Με αυτόν τον τρόπο θα διευρύνετε το στατιστικό σας ρεπερτόριο και θα ενδυναμώσετε τις μελλοντικές σας έρευνες. Ακολουθεί ένας πίνακας που συνοψίζει τους κυριότερους στατιστικούς ελέγχους. Ο πίνακας αυτός είναι ενδεικτικός. Ωστόσο, πιστεύω ότι θα σας διευκολύνει στην επιλογή του κατάλληλου ελέγχου, ανάλογα με τον τύπο και την ποσότητα των δεδομένων που έχετε αλλά και ανάλογα με το ερώτημα που σας ενδιαφέρει να απαντήσετε. Ακολουθούν και δύο διαγράμματα ροής που σας καθοδηγούν στην επιλογή του κατάλληλου στατιστικού ελέγχου. 9

Πίνακας 1. Επιλέγοντας τον κατάλληλο στατιστικό έλεγχο. Δείγματα ή ομάδες Παράγοντες 1 _ 2 1 >2 1 2+ >1 >1 group, 1+ factor, 1+covariate Τύπος δεδομένων ΈΛΕΓΧΟΙ ΔΙΑΦΟΡΩΝ Προσαρμογή σε γνωστές κατανομές Έλεγχοι ενός δείγματος Δείγματα ή ομάδες ΈΛΕΓΧΟΙ ΣΧΕΣΕΩΝ Τύπος δεδομένων Κ G-test Προσαρμογή σε ομοιόμορφη: G- test, χ 2 test Συσχέτιση (correlation) Δ Προσαρμογή σε Poisson: χ 2 π.χ. διάμεσος του 0: Wilcoxon test one sample test K χ 2 test για συσχέτιση Σ Προσαρμογή σε κανονική: π.χ. μέσος του 0: One sample t- Kendall rank correlation, Kolmogorov-Smirnov test, 2 Δ test Spearman rank correlation Anderson-Darling test Δεδομένα όχι σε ζεύγη Δεδομένα σε ζεύγη (paired Pearson product moment Σ (unpaired data) data) correlation Κ χ 2 test χ 2 test Παλινδρόμηση (regression) Logistic regression, model II Δ Mann-Whitney U test Wilcoxon signed rank test Δ regression, Kendall robust 1 effect, 1 cause line fit Σ t-test, one-way ANOVA Paired t-test Σ Linear regression, quadratic or polynomial regression Κ χ 2 test χ 2 >1 effect, > 1 Multiple regression, test Σ cause stepwise regression Δ Kruskal-Wallis test Friedman test for repeated measures (no replication) Πολυπαραγοντικοί έλεγχοι (multivariate tests) Σ one-way ANOVA Repeated measures ANOVA Many causes, many effects Path analysis Δ Σ Μόνο 2 παράγοντες: Friedman test Χωρίς επανάληψη: Scheirer- Ray-Hare Two-way ANOVA ή multiway ANOVA Analysis with covariate(s) 1 variable ANCOVA >1 variable MANCOVA Friedman test for repeated measures (only one factor other than repeat and no replication) Repeated measures ANOVA 1+ group and any number of factors Many variables Groups to discriminate with many variables Groups to discriminate with discrete variables Many proportion or categorical variables to explore PCA CVA, discriminant function analysis, MANOVA, multiple regression, DCA TWINSPAN Multiple logistic regression Σ: συνεχή δεδομένα, Κ: κατηγοριοποιημένα δεδομένα, Δ: διακριτά δεδομένα. Παρόλο που πολλοί έλεγχοι προϋποθέτουν κανονική κατανομή των δεδομένων, εάν αυτό δεν συμβαίνει χρησιμοποιείστε τον έλεγχο που αφορά διακριτά δεδομένα. 10

Διερευνώντας σχέσεις: Διερευνώντας διαφορές: 11

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Οι τεχνικές περιγραφής και παρουσίασης των δεδομένων εξυπηρετούν δύο σκοπούς. Ο πρώτος είναι να συνοψιστούν και να παρουσιαστούν τα δεδομένα με το καλύτερο δυνατό τρόπο έτσι ώστε ο αναγνώστης τους να λάβει την απαραίτητη πληροφορία. Σε αυτήν την περίπτωση οι τεχνικές που θα χρησιμοποιηθούν πρέπει να είναι όσο το δυνατόν απλές. Ο δεύτερος σκοπός είναι για ερευνητές που θέλουν διερευνήσουν τα δεδομένα τους. Μπορεί να χρησιμοποιηθεί ποικιλία μεθόδων που να παρουσιάζουν διάφορες όψεις των δεδομένων. Με αυτόν τον τρόπο εξοικειωνόμαστε με τα δεδομένα και μπορούν να αναδειχθούν νέα ερωτήματα. Παρουσιάζοντας τα δεδομένα: σύνοψη μιας μεταβλητής Box and whisker plot (box plot): Πολύ καλός τρόπος σύνοψης δεδομένων, ειδικά όταν δεν έχουν κανονική κατανομή. Εμφανίζουν το διάμεσο (median), το εύρος εκατοστιαίων σημείων (Interquartile range), και το εύρος (range). 90.0 85.0 Food Intake (g) 80.0 75.0 70.0 Female Sex Male Παρουσιάζοντας τα δεδομένα: δείχνοντας την κατανομή μίας μεταβλητής Ραβδόγραμμα (bar chart): για διακριτά δεδομένα. Στον χ άξονα παρουσιάζεται η κάθε πιθανότητα και στον y άξονα η συχνότητα. 100.0 80.0 Mean Food Intake (g) 60.0 40.0 20.0 0.0 Female Sex Male 12

Ιστόγραμμα (histogram): για συνεχή δεδομένα. Τα δεδομένα ομαδοποιούνται σε τεχνητές κλάσεις. Στον y άξονα η παρουσιάζεται συχνότητα. 80 60 Frequency 40 20 Mean = 13.57 Std. Dev. = 1.4602 N = 821 0 8.0 10.0 12.0 14.0 16.0 18.0 Length Γραφήματα πίτες (Pie chart): για κατηγοριοποιημένα δεδομένα ή δεδομένα ιδιοτήτων. Month 1 2 3 4 5 6 7 8 11 12 Μην χρησιμοποιείτε τρισδιάστατα γραφήματα ή σκιές. Τέτοια εφέ μπερδεύουν την παρουσίαση των δεδομένων (εκτός και εάν θέλετε κάτι τέτοιο!) Περιγραφική στατιστική Παράμετροι της θέσης Αριθμητικός μέσος (Arithmetic mean): ο μέσος όρος των παρατηρήσεων. Γεωμετρικός μέσος (Geometric mean): ο αντιλογάριθμος του μέσου των λογαριθμισμένων δεδομένων. Είναι μικρότερος από τον αριθμητικό μέσο. Χρησιμοποιείται σε λογαριθμισμένα δεδομένα ή όταν συγκρίνονται δεδομένα που έχουν δεξιά ασυμμετρία. Αρμονικός μέσος (Harmonic mean): ο αντίστροφος του μέσου των αντιστρόφων. Είναι μικρότερος από το γεωμετρικό μέσο. Χρησιμοποιείται σπανίως. Διάμεσος (Median): Είναι η μεσαία τιμή δεδομένων που έχουν προηγουμένως μετατραπεί σε τάξεις (ranks). Μετά τον αριθμητικό μέσο είναι η πιο ευρέως χρησιμοποιούμενη παράμετρος θέσης. 13

Πιθανότερη τιμή (Mode): Η τιμή που εμφανίζεται πιο συχνά στα δεδομένα. Χρησιμοποιείται σε όλους τους τύπους δεδομένων, αλλά μόνο όταν έχουμε μεγάλο αριθμό παρατηρήσεων ή σχετικά μικρό αριθμό πιθανών τιμών. Παράμετροι της κατανομής, της διασποράς και του εύρους Υπάρχουν αρκετές. Ωστόσο, είναι σημαντικό να θυμόμαστε ότι η επιλογή τους εξαρτάται από τον τύπο των δεδομένων και την παράμετρο θέσης που χρησιμοποιούμε. Εύρος (Range): Η διαφορά ανάμεσα στη μεγαλύτερη και τη μικρότερη τιμή. Εύρος εκατοστιαίων σημείων (Interquartile range): Μη-παραμετρική εκτίμηση της διασποράς που χρησιμοποιείται σε ταξινομημένα δεδομένα. Είναι η διαφορά ανάμεσα στην τιμή του 25% και του 75% των στοιχείων δεδομένων που προηγουμένως έχουν διευθετηθεί σε τάξεις. Διασπορά (Variance s 2 ): Είναι ο μέσος των τετραγωνισμένων αποκλίσεων των παρατηρήσεων από τον αριθμητικό τους μέσο. Χρησιμοποιείται σπανίως γιατί δεν έχει τις ίδιες μονάδες με τις αρχικές παρατηρήσεις. Ωστόσο, πολλοί στατιστικοί έλεγχοι τη χρησιμοποιούν στους υπολογισμούς τους. Τυπική απόκλιση (Standard deviation SD): Είναι η τετραγωνική ρίζα της διασποράς και έχει τις ίδιες μονάδες με τις αρχικές παρατηρήσεις. Ωστόσο, πρέπει να χρησιμοποιούνται τα διαστήματα εμπιστοσύνης εάν απαιτούνται συγκρίσεις διαφορετικών ομάδων δεδομένων. Τυπικό σφάλμα (Standard error SE): Η τυπική απόκλιση μιας κανονικής κατανομής (η τυπική απόκλιση μιας κατανομής μέσων για επαναλαμβανόμενα δείγματα από έναν πληθυσμό). Στις περιγραφές δεδομένων συνοδεύουν συχνά τους αριθμητικούς μέσους γιατί είναι μικρά (όχι για στατιστικούς λόγους αλλά γιατί ξεγελούν το μάτι οι μικρές τιμές). Ωστόσο, αντί αυτών πρέπει να χρησιμοποιούνται τα διαστήματα εμπιστοσύνης εάν απαιτούνται συγκρίσεις διαφορετικών ομάδων δεδομένων, και η τυπική απόκλιση εάν έχουμε ένα μόνο δείγμα. Διαστήματα εμπιστοσύνης (Confidence interval CI): Προκύπτουν από το τυπικό σφάλμα. Είναι η πιο χρήσιμη εκτίμηση της διασποράς των δεδομένων μιας κατανομής. Είναι συμμετρικά περί του αριθμητικού μέσου. Συντελεστής μεταβολής (Coefficient of variation - CV): Χρησιμοποιείται για να συγκρίνουμε την ποσότητα ποικιλότητας σε πληθυσμούς με διαφορετικούς μέσους όταν άμεσες συγκρίσεις των τυπικών αποκλίσεων (s) είναι δύσκολες καθώς επηρεάζονται από διαφορές στην κλίμακα. Υπολογίζεται ως εξής: CV = (100s)/mean, και συνήθως εκφράζεται ως ποσοστό. 14

Χρησιμοποιώντας τα στατιστικά προγράμματα Όλα τα στατιστικά προγράμματα προσφέρουν συνοπτική περιγραφή των δεδομένων. Ωστόσο, για να πάρετε κάποιες ειδικές εκτιμήσεις μπορεί να χρειαστεί να κάνετε κάποια επιπλέον βήματα. SPSS: Μπορείτε να χρησιμοποιήσετε αρχεία που έχετε φτιάξει στο Excel. Τα δεδομένα πρέπει να είναι σε μια στήλη με την κατάλληλη ονομασία. Για να αλλάξετε το όνομα της στήλης επιλέξτε το όνομα ή πατήστε στο Variable view, και συνεχίστε. Κατόπιν: Analyze Descriptive Statistics Descriptives... και επιλέξτε στο Options... το τι θέλετε να υπολογίσετε. Επιπλέον επιλογές (skewness, kurtosis, variance, mode, median) έχετε ως εξής: Analyze Descriptive Statistics Frequencies... Παρουσιάζοντας τα δεδομένα: σύνοψη δύο ή περισσότερων μεταβλητών Box and whisker plots (box plots): Είναι ένας καλός τρόπος σύγκρισης των δεδομένων. Επιτρέπουν την άμεση οπτική σύγκριση τόσο της θέσης όσο και της διασποράς των δεδομένων. Μέσοι όροι και διαστήματα εμπιστοσύνης: Είναι ένας πολύ καλός τρόπος για να δείξετε διαφορές και ομοιότητες μεταξύ πολλών ομάδων. Παρουσιάζοντας τα δεδομένα: σύγκριση δύο μεταβλητών Σχέσεις Χρησιμοποιούνται εάν έχουμε δύο παρατηρήσεις από ένα «άτομο». Το «άτομο» μπορεί να είναι ένα ποτάμι και να έχουν καταγραφεί το ph και η ροή νερού. Πριν κάνετε οποιαδήποτε στατιστική ανάλυση είναι καλό να έχετε μια αίσθηση των παρατηρήσεων από την γραφική απεικόνιση των δεδομένων Σκεδαστικό διάγραμμα (Scatterplot): Είναι ο απλούστερος τρόπος να δείξετε τη σχέση ανάμεσα σε δύο μεταβλητές. Προϋπόθεση είναι ότι οι δύο παρατηρήσεις στην ίδια σειρά είναι μετρήσεις για το ίδιο «άτομο». Το άτομο μπορεί να είναι οτιδήποτε: σταθμός δειγματοληψίας, οστό, κέλυφος, άνθος. Μην προσθέτετε πληροφορία που δεν είναι σχετική ή κατάλληλη (π.χ. ευθείες προσαρμογής). 15

Τάσεις, προβλέψεις και χρονοσειρές Γραμμές: Πρέπει να χρησιμοποιούνται για να συνδέσουμε σημεία μόνο όταν υπάρχει η λογική παραδοχή ότι μπορούν να υπάρχουν παρατηρήσεις μεταξύ των σημείων (π.χ. όταν ο χ άξονας αφορά συνεχή δεδομένα, όπως θερμοκρασίες). Η αλλαγή κλίμακας μπορεί να παραπλανήσει τον αναγνώστη. Γραμμές προσαρμογής: Είναι ο καλύτερος τρόπος για να τραβήξετε την προσοχή του αναγνώστη στη σχέση μεταξύ δύο μεταβλητών. Σε κάποιες περιπτώσεις μπορεί μάλιστα και να τον παραπλανήσουμε. Επομένως, η χρήση τους πρέπει να περιορίζεται μόνο στις περιπτώσεις που υπάρχει σαφής συσχέτιση μεταξύ των δύο μεταβλητών, όπως π.χ. όταν οι μεταβλητές έχουν σχέση αιτίας αποτελέσματος. Διαστήματα εμπιστοσύνης: Πρέπει να χρησιμοποιούνται πάντοτε όταν θέλουμε να δείξουμε την αξιοπιστία της μέσης τιμής. Παρουσιάζοντας τα δεδομένα: σύγκριση περισσότερων των δύο μεταβλητών Παρόλο που είναι δελεαστική η χρήση των γραφικών δυνατοτήτων του λογισμικού, συχνά δεν κερδίζουμε τίποτε σχεδιάζοντας ένα πολυδιάστατο γράφημα που μπορεί να είναι μεν εντυπωσιακό αλλά μας είναι αδύνατον να ερμηνεύσουμε. 16

ΚΟΙΤΩΝΤΑΣ ΓΙΑ ΔΙΑΦΟΡΕΣ Διαφέρουν οι κατανομές συχνοτήτων; Δύο βασικοί τύποι ερωτήσεων τίθενται: 1) Διαφέρει κάποια ομάδα παρατηρούμενων συχνοτήτων από κάποια άλλη; 2) Οι παρατηρούμενες συχνότητες συμφωνούν με μια συγκεκριμένη κατανομή; Στην πρώτη περίπτωση ο έλεγχος είναι ανάλογος με έναν έλεγχο δύο δειγμάτων, όπως το t-test. Στη δεύτερη περίπτωση είναι ένας τρόπος να ελεγχθούν οι παρατηρήσεις έναντι των αναμενόμενων συχνοτήτων. Τα πιο συχνά χρησιμοποιούμενα τεστ είναι τα: G-test, χ 2 goodness of fit, Kolmogorov-Smirnov και Anderson-Darling. Επειδή παρουσιάζονται αναλυτικά σε όλα τα βιβλία στατιστικής δεν θα αναπτυχθούν περισσότερο στις παρούσες σημειώσεις. Διαφέρουν οι παρατηρήσεις ανάμεσα σε δύο ομάδες; Οι δύο ομάδες παρατηρήσεων μπορεί να είναι σε ζεύγος (επαναλαμβανόμενα ή σχετιζόμενα δείγματα) ή μπορεί να είναι ανεξάρτητες. Δεδομένα σε ζεύγη (paired data) Σε αυτά τα δεδομένα ένα άτομο ελέγχεται δύο φορές (π.χ. πριν και μετά από κάποιο γεγονός, ή όταν επανελέγχεται ο σταθμός δειγματοληψίας). Μια άλλη πιθανή χρήση είναι όταν ένα άτομο (ή τα άτομα ενός κλώνου) «διαιρείται» και υπόκειται σε δύο δοκιμασίες. Τρεις έλεγχοι συνήθως γίνονται σε τέτοια δεδομένα: paired t-test, Wilcoxon signed ranks test, sign test. Paired t-test Τα δεδομένα πρέπει να είναι συνεχή, και τουλάχιστον κατά προσέγγιση, να έχουν κανονική κατανομή. Οι διασπορές των δύο ομάδων πρέπει να είναι ομοιογενείς (αυτό ελέγχεται με το Levene test). Η μηδενική υπόθεση είναι ότι δεν υπάρχουν διαφορές μεταξύ των δύο στηλών και ότι θα μπορούσαν να προέρχονται από την ίδια ομάδα δεδομένων. Παράδειγμα: Έχει προταθεί ότι η λειτουργία ενός σταθμού ενέργειας θα επηρεάσει την ποσότητα ενός συγκεκριμένου ρύπου στην ατμόσφαιρα. Ωστόσο, υπάρχουν μόνο 7 καταγραφές (σε 7 περιοχές) έναν μήνα πριν την λειτουργία του σταθμού. Μετρήσεις από αυτές τις επτά περιοχές πάρθηκαν και μετά την ολοκλήρωση του εργοστασίου. 17

Case (Site) Before After 1 236 268 2 241 260 3 239 243 4 285 290 5 282 294 6 273 270 7 258 268 SPSS: Διευθετήστε τα δεδομένα σε δύο στήλες ίσου μήκους έτσι ώστε κάθε σειρά να αντιπροσωπεύει ένα άτομο (ή σταθμό). Δώστε ονόματα στις στήλες. Analyze Compare means Paired-samples t test Μετακινήστε τις μεταβλητές before και after στο πλαίσιο Paired variables και πατήστε OK. Παρατηρήστε στο τρίτο τμήμα των αποτελεσμάτων (Paired Samples Test) την τιμή σημαντικότητας του t-test (τελευταία στήλη). Είναι σημαντική ή όχι και τι σημαίνει αυτό; Paired Samples Statistics Pair 1 Before After Std. Error Mean N Std. Deviation Mean 259.14 7 21.035 7.951 270.43 7 17.377 6.568 Paired Samples Correlations Pair 1 Before & After N Correlation Sig. 7.839.018 Paired Samples Test Pair 1 Before - After Paired Differences 95% Confidence Interval of the Std. Error Difference Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed) -11.286 11.456 4.330-21.881 -.691-2.606 6.040 Wilcoxon signed ranks test Αυτός ο έλεγχος είναι ο μη-παραμετρικός ανάλογος του t-test. Έχει λιγότερες παραδοχές για τη μορφή των δεδομένων (ωστόσο υποθέτει ότι τα δεδομένα είναι συνεχή). Ωστόσο, ο έλεγχος αυτός είναι λιγότερο ισχυρός από το t-test. Χρειάζονται τουλάχιστον 6 ζεύγη δεδομένων. 18

SPSS: Διευθετήστε τα δεδομένα σε δύο στήλες ίσου μήκους έτσι ώστε κάθε σειρά να αντιπροσωπεύει ένα άτομο (ή σταθμό). Δώστε ονόματα στις στήλες. Analyze Nonparametric tests 2-related samples Wilcoxon Μετακινήστε τις μεταβλητές before και after στο πλαίσιο Test Pair(s) List: και πατήστε OK. Παρατηρήστε στο δεύτερο τμήμα των αποτελεσμάτων (Test Statistics) την τιμή σημαντικότητας του test (τελευταία στήλη). Είναι σημαντική ή όχι και τι σημαίνει αυτό; Ranks After - Before Negative Ranks Positive Ranks Ties Total a. After < Before b. After > Before c. After = Before N Mean Rank Sum of Ranks 1 a 1.00 1.00 6 b 4.50 27.00 0 c 7 Test Statistics b After - Before Z -2.197 a Asymp. Sig. (2-tailed).028 a. Based on negative ranks. b. Wilcoxon Signed Ranks Test Sign test Είναι ένας πολύ απλός μη παραμετρικός έλεγχος που δεν κάνει σχεδόν καμία παραδοχή για τα δεδομένα. Έχει μικρή ισχύ αλλά είναι πολύ ασφαλής (δηλ. είναι ένας συντηρητικός έλεγχος και είναι απίθανα τα σφάλματα τύπου Ι). Πρέπει να χρησιμοποιείται μόνο όταν υπάρχουν πολλές παρατηρήσεις σε ζεύγη. SPSS: Διευθετήστε τα δεδομένα σε δύο στήλες ίσου μήκους έτσι ώστε κάθε σειρά να αντιπροσωπεύει ένα άτομο (ή σταθμό). Δώστε ονόματα στις στήλες. Analyze Nonparametric tests 2-related samples Sign Μετακινήστε τις μεταβλητές before και after στο πλαίσιο Test Pair(s) List: και πατήστε OK. Παρατηρήστε στο δεύτερο τμήμα των αποτελεσμάτων (Test Statistics) την τιμή σημαντικότητας του test (τελευταία στήλη). Είναι σημαντική ή όχι και τι σημαίνει αυτό; 19

Frequencies After - Before Negative Differences a Positive Differences b Ties c Total a. After < Before b. After > Before c. After = Before N 1 6 0 7 Test Statistics b After - Before Exact Sig. (2-tailed).125 a a. Binomial distribution used. b. Sign Test Από αυτό το παράδειγμα βλέπουμε ότι το Sign test είναι πολύ λιγότερο ισχυρό από το Wilcoxon signed ranks test, καθώς δεν εντοπίζει σημαντικές διαφορές. Στην πράξη είναι χρήσιμο όταν ο αριθμός των παρατηρήσεων σε ζεύγη είναι πολύ μεγάλος. Δεδομένα που δεν είναι σε ζεύγη (unpaired data) Σε αυτές τις περιπτώσεις ένα άτομο μετριέται ή ελέγχεται μόνο μια φορά. Θα υπάρχουν επομένως δύο εντελώς ξεχωριστές ομάδες δεδομένων που συγκροτούν τα δύο δείγματα. Συχνά οι δύο ομάδες είναι προφανείς: π.χ. αρσενικά και θηλυκά άτομα. Ωστόσο, μερικές φορές η διάκριση είναι τεχνητή: π.χ. μεγάλο, μικρό. Οι δύο ομάδες δεν απαραίτητο να έχουν το ίδιο αριθμό παρατηρήσεων. Συνήθως χρησιμοποιούνται οι εξής έλεγχοι: independent samples t- test, one-way analysis of variance (one-way ANOVA μονόδρομη ανάλυση διασποράς), Mann-Whitney U test. t-test Η μηδενική υπόθεση είναι ότι οι δύο ομάδες δεδομένων δεν διαφέρουν, δηλ. προέρχονται από έναν πληθυσμό με ίδιο μέσο όρο. Τα δεδομένα πρέπει να είναι συνεχή, και τουλάχιστον κατά προσέγγιση, να έχουν κανονική κατανομή. Οι διασπορές των δύο ομάδων πρέπει να είναι ομοιογενείς (αυτό ελέγχεται με το Levene test). Εάν το δεύτερο δεν συμβαίνει υπάρχει η δυνατότητα τα αποτελέσματα να προσαρμοστούν. Παράδειγμα: Μετρούμε τα βάρη (σε g) των νεοσσών που τράφηκαν για ένα μήνα με δύο διαφορετικές τροφές που ονομάζονται Premier και Super. Θέλουμε να δούμε εάν το βάρος 20

των νεοσσών επηρεάζεται από την τροφή που τους χορηγήθηκε. Η μηδενική υπόθεση (Η 0 ) είναι ότι οι δύο τροφές οδηγούν σε ίδιο βάρος νεοσσών. Η εναλλακτική υπόθεση (Η 1 ) είναι ότι οι δύο τροφές οδηγούν σε διαφορετικό βάρος.(παρατήρηση: οι δύο ομάδες δεν απαραίτητο να έχουν το ίδιο αριθμό παρατηρήσεων, όπως συμβαίνει στο παράδειγμα που ακολουθεί). Premier Super 24.5 26.4 23.4 27.0 22.1 25.2 25.3 25.8 23.4 27.1 SPPS: Τοποθετήστε όλα τα δεδομένα σε μια στήλη. Χρησιμοποιήστε μια άλλη στήλη για να ονοματίσετε (κωδικοποιήσετε) τις ομάδες. Αυτός ο τρόπος εισαγωγής δεδομένων είναι χρήσιμος, ιδιαίτερα εάν κάθε άτομο ανήκει συγχρόνως σε διαφορετικές ομάδες. Αυτό γίνεται ως εξής: Κωδικοποιήστε τις δύο τροφές ως 1 και 2 αντιστοίχως. Πατήστε Variable View και στο Values γράψτε τα ονόματα των δύο ομάδων. Analyze Compare means Independent samples t test Βάλτε τη μεταβλητή Mass στο πλαίσιο Test Variable List, και τη ομαδοποιούσα μεταβλητή Food στο πλαίσιο Grouping Variable. Θα εμφανίζεται ως Food(??). Πρέπει να πατήσετε το κουμπί Define Groups... και να βάλετε 1 για το Group 1: και 2 για το Group 2: πριν πατήσετε Continue. Πατήστε ΟΚ. Τα αποτελέσματα θα εμφανιστούν ως εξής: Group Statistics Mass Food Premier Super Std. Error N Mean Std. Deviation Mean 5 23.740 1.2178.5446 5 26.300.8062.3606 Independent Samples Test Mass Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper.762.408-3.919 8.004-2.5600.6531-4.0662-1.0538-3.919 6.941.006-2.5600.6531-4.1071-1.0129 Πιο σημαντικός είναι ο δεύτερος πίνακας. Καταρχάς στο Levene's Test for Equality of Variances, παρατηρούμε τις τιμές. Βλέπουμε Sig.=.408 (P>0.05). Επομένως δεν υπάρχει ένδειξη ότι οι διασπορές είναι άνισες. Εάν η τιμή P (Sig.) ήταν μικρότερη από 0.05 τότε θα 21

έπρεπε να αμφιβάλουμε για τη αποτελεσματικότητα του t-test και θα έπρεπε να χρησιμοποιήσουμε αντί αυτού το Mann-Whitney U test. Το σημαντικό αποτέλεσμα βρίσκεται στη στήλη Sig. (2-tailed) που δίνει την πιθανότητα (Ρ) να είναι σωστή η μηδενική υπόθεση. Στο παράδειγμά μας η τιμή P είναι πολύ μικρότερη από 0.05, επομένως είναι εξαιρετικά απίθανο να είναι αληθής η μηδενική υπόθεση. Άρα οι δύο τροφές οδηγούν σε διαφορετικό βάρος νεοσσών. One-way ANOVA (μονόδρομη ανάλυση διασποράς) Η χρήση της one-way ANOVA για να δούμε εάν δύο ομάδες έχουν το ίδιο μέσο ίσως φαίνεται περιττή (αφού υπάρχει το t-test). Είναι η απλούστερη χρήση της ANOVA αλλά δουλεύει και δίνει την ίδια απάντηση με το t-test. Ωστόσο, το γεγονός ότι το t-test περιορίζεται σε δύο μόνο ομάδες κάνει την ANOVA πιο προτιμητέα. Η ANOVA έχει τις ίδιες παραδοχές με το t-test. Δηλαδή, τα δεδομένα πρέπει να είναι συνεχή, και τουλάχιστον κατά προσέγγιση, να έχουν κανονική κατανομή. Οι διασπορές των δύο ομάδων πρέπει να είναι ομοιογενείς (αυτό ελέγχεται με το Levene test). Η μηδενική υπόθεση είναι ότι οι ομάδες δεδομένων έχουν το ίδιο μέσο. Η AΝOVA ελέγχει εάν η ποικιλότητα των τιμών μέσα στις ομάδες είναι ίδια με την ποικιλότητα μεταξύ των ομάδων. SPPS: Τοποθετήστε όλα τα δεδομένα σε μια στήλη. Χρησιμοποιήστε μια άλλη στήλη για να ονοματίσετε (κωδικοποιήσετε) τις ομάδες. Υπάρχουν δύο δρόμοι για να αναλύσετε μέσω ANOVA αυτά τα δεδομένα στο SPSS (οι οποίοι οδηγούν και σε διαφορετική μορφή αποτελεσμάτων). 1 η μέθοδος: Analyze Compare means One-way ANOVA Μεταφέρετε τη μεταβλητή Mass στο πλαίσιο Dependent list:, και τη μεταβλητή Food στο πλαίσιο Factor. Η ανάλυση μπορεί να γίνει τώρα, αλλά πηγαίνοντας στο Options μπορείτε να ζητήσετε Means Plot (που είναι χρήσιμο), καθώς και να ελέγξετε την ομοιογένεια των διασπορών επιλέγοντας Homogeneity of variance. Πατήστε Continue και OK. Θα εμφανιστούν τα εξής αποτελέσματα: Test of Homogeneity of Variances Mass Levene Statistic df1 df2 Sig..762 1 8.408 22

ANOVA Mass Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 16.384 1 16.384 15.362.004 8.532 8 1.067 24.916 9 Καταρχάς στο Levene's Test for Equality of Variances, παρατηρούμε τις τιμές. Βλέπουμε Sig.=.408 (P>0.05). Επομένως δεν υπάρχει ένδειξη ότι οι διασπορές είναι άνισες. Εάν η τιμή P (Sig.) ήταν μικρότερη από 0.05 τότε θα έπρεπε να αμφιβάλουμε για τη χρήση της ANOVAκαι θα έπρεπε να χρησιμοποιήσουμε αντί αυτής το Mann-Whitney U test. Στον δεύτερο πίνακα το πιο σημαντικό είναι το F-ratio (F). Αυτός είναι ο λόγος των μέσου όρου τετραγώνων των διαφορών ανάμεσα στις ομάδες (16.384) προς το μέσο όρο των τετραγώνων των διαφορών μέσα στις ομάδες (1.067). Εάν υπήρχε η ίδια ποικιλότητα μεταξύ και μέσα στις ομάδες, ο λόγος αυτός θα ήταν 1. Εμείς βρήκαμε 15.362. Η τιμή στη στήλη Sig. είναι 0.004 και υποδεικνύει ότι οι δύο ομάδες διαφέρουν σημαντικά (P<0.01) (στη βιολογία συνήθως κοιτάμε για τιμές μικρότερες από 0.05). 2 η μέθοδος: Analyze General Linear Model Univariate Μεταφέρετε τη μεταβλητή Mass στο πλαίσιο Dependent variable:, και τη μεταβλητή Food στο πλαίσιο Fixed Factor(s):. Πατήστε ΟΚ. Θα εμφανιστούν τα εξής αποτελέσματα: Between-Subjects Factors Food 1 2 Value Label N Premier 5 Super 5 Tests of Between-Subjects Effects Dependent Variable: Mass Source Corrected Model Intercept Food Error Total Corrected Total Type III Sum of Squares df Mean Square F Sig. 16.384 a 1 16.384 15.362.004 6260.004 1 6260.004 5869.671.000 16.384 1 16.384 15.362.004 8.532 8 1.067 6284.920 10 24.916 9 a. R Squared =.658 (Adjusted R Squared =.615) 23

Όπως βλέπετε παίρνουμε το ίδιο βασικό αποτέλεσμα (F = 15.362, Sig. = 0.004) κοιτώντας στη γραμμή Food. Επειδή, η 2 η μέθοδος είναι σχεδιασμένη να δουλεύει και με περισσότερους παράγοντες, παίρνουμε στα αποτελέσματα πληροφορία που δεν χρειαζόμαστε στο συγκεκριμένο παράδειγμα. Mann-Whitney U test Αυτός ο έλεγχος είναι ο μη-παραμετρικός ανάλογος του t-test. Έχει λιγότερες παραδοχές για τη μορφή των δεδομένων (ωστόσο υποθέτει ότι τα δεδομένα είναι συνεχή). Είναι ένας τυπικός έλεγχος κατάταξης, δηλ. τα δεδομένα μετατρέπονται πρώτα σε σειρές. Το πλεονέκτημα του είναι ότι είναι ιδανικός σε περιπτώσεις όπου έχουμε εξαιρετικά ακραίες τιμές. Είναι λιγότερο ισχυρός από το t-test και την one-way ANOVA, ωστόσο είναι λιγότερο πιθανό να βρείτε με το Mann-Whitney U test σημαντικό αποτέλεσμα εάν δεν υπάρχουν πραγματικές διαφορές. SPSS: Τοποθετήστε όλα τα δεδομένα σε μια στήλη. Χρησιμοποιήστε μια άλλη στήλη για να ονοματίσετε τις ομάδες (δίνοντας ακέραιους κωδικούς αριθμούς). Analyze Nonparametric Tests 2-Independent Samples Mann- Whitney U test Βάλτε τη μεταβλητή Mass στο πλαίσιο Test Variable List, και τη ομαδοποιούσα μεταβλητή Food στο πλαίσιο Grouping Variable. Θα εμφανίζεται ως Food(??). Πρέπει να πατήσετε το κουμπί Define Groups... και να βάλετε 1 για το Group 1: και 2 για το Group 2: πριν πατήσετε Continue. Πατήστε ΟΚ Θα εμφανιστούν τα εξής αποτελέσματα: Ranks Mass Food Premier Super Total N Mean Rank Sum of Ranks 5 3.20 16.00 5 7.80 39.00 10 24

Test Statistics b Mass Mann-Whitney U 1.000 Wilcoxon W 16.000 Z -2.410 Asymp. Sig. (2-tailed).016 Exact Sig. [2*(1-tailed.016 a Sig.)] a. Not corrected for ties. b. Grouping Variable: Food Οι δύο τελευταίες σειρές δίνουν το ενδιαφέρον αποτέλεσμα, δηλ. την τιμή Ρ. Είναι μικρότερη από 0.05; Στο παράδειγμά μας είναι. Επομένως απορρίπτουμε την μηδενική υπόθεση ότι οι δύο ομάδες έχουν τον ίδιο διάμεσο (median). Διαφέρουν οι παρατηρήσεις από περισσότερες από δύο ομάδες Οι ομάδες μπορεί να είναι είτε επαναλαμβανόμενα (συσχετισμένα) δείγματα ή μπορεί να είναι ανεξάρτητα δείγματα. Επαναλαμβανόμενες μετρήσεις (repeated measures) Είναι μια επέκταση της περίπτωσης που έχουμε δεδομένα σε ζεύγη και εφαρμόζεται όταν ένα άτομο ή περιοχή ελέγχεται τρεις ή περισσότερες φορές. Δύο έλεγχοι χρησιμοποιούνται κυρίως: Friedman test και repeated measures ANOVA. Friedman test (for repeated measures) Αυτός ο έλεγχος είναι ο μη-παραμετρικός ανάλογος της two-way ANOVA. Δεν κάνει παραδοχές για τα δεδομένα (μόνο ότι είναι διακριτά). Είναι κατάλληλος μόνο όταν υπάρχει μια μοναδική παρατήρηση για κάθε συνδυασμό των επιπέδων ενός παράγοντα. Για τις επαναλαμβανόμενες μετρήσεις ένας από τους παράγοντες πρέπει να αντιπροσωπεύει το επίπεδο επανάληψης (π.χ. λεπτά, ημέρες ή μια μέτρηση πριν, κατά και μετά στο πλαίσιο μιας διεργασίας που μελετάμε). Κατόπιν, ο δεύτερος παράγοντας είναι ένας τυπικός παράγοντας όπως περιοχή, είδος, ή τύπος επίδρασης. Η μηδενική υπόθεση είναι ότι οι παρατηρήσεις μέσα στην ίδια ομάδα (επίπεδο του παράγοντα) έχουν την ίδια τιμή διαμέσου (median). Εάν απορριφθεί η μηδενική υπόθεση αυτό σημαίνει ότι τουλάχιστον δύο ομάδες έχουν διαφορετικούς διάμεσους (παρόλο που δεν δείχνει ποιες). Ο έλεγχος Friedman είναι λιγότερο ισχυρός από την ANOVA όταν τα δεδομένα έχουν κανονική κατανομή, αλλά κάνει λιγότερες παραδοχές για τα δεδομένα, και επομένως είναι «ασφαλέστερος». 25

Παράδειγμα: Μετρούμε τον αριθμό των κολεοπτέρων που συλλέχθηκαν σε 6 παγίδες παρεμβολής, σε 4 διαδοχικούς μήνες, όπου ωστόσο μόνο ένα δείγμα συλλέχθηκε κάθε μήνα από κάθε παγίδα. Παγίδα Μήνας A B C D E F 1 130 125 350 375 225 235 2 115 120 375 200 250 200 3 145 170 235 275 225 155 4 200 230 140 325 275 215 SPSS: Διευθετήστε τα δεδομένα χρησιμοποιώντας μια στήλη για κάθε επίπεδο του παράγοντα. (π. χ. Παγίδα - trap). Δώστε ονόματα στις στήλες. Σιγουρευτείτε ότι κάθε σειρά αντιστοιχεί στο ίδιο επίπεδο (ομάδα) της επαναλαμβανόμενης μέτρησης (π.χ. 1 ος μήνας). Analyze Nonparametric Tests K-related samples Friedman Μεταφέρετε όλες τις στήλες που περιέχουν δεδομένα στο πλαίσιο Test variables:. Επιλέξτε Friedman και πατήστε OK. Θα πρέπει να πάρετε τα εξής αποτελέσματα: Ranks A B C D E F Mean Rank 1.50 2.50 4.25 5.38 4.25 3.13 Test Statistics a N 4 Chi-Square 11.259 df 5 Asymp. Sig..046 a. Friedman Test Κοιτάξτε την τιμή Ρ (Asymp. Sig). Εάν είναι μικρότερη από 0.05 μπορούμε να απορρίψουμε τη μηδενική υπόθεση ότι οι ομάδες έχουν τον ίδιο διάμεσο. Εδώ Ρ = 0.046, επομένως απορρίπτουμε τη μηδενική υπόθεση ότι παγίδες έχουν τον ίδιο διάμεσο αριθμό κολεοπτέρων. Τι θα κάνουμε για να ελέγξουμε την μηδενική υπόθεση ότι όλοι οι μήνες έχουν το ίδιο διάμεσο αριθμό κολεοπτέρων; 26

Repeated measures ANOVA Η ανάλυση διασποράς δύο δρόμων (two-way ANOVA) μπορεί να εφαρμοστεί και σε αυτόν τον πειραματικό σχεδιασμό όπου υπάρχει μια μόνο μέτρηση για κάθε συνδυασμό των επιπέδων των παραγόντων. Το πρόβλημα είναι ότι η ANOVA κάνει την παραδοχή ότι κάθε επίπεδο παράγοντα είναι ανεξάρτητο από τα άλλα. Σε ένα σχεδιασμό επαναλαμβανόμενων μετρήσεων, όπου παίρνουμε μια μέτρηση σε ένα πείραμα την 1 η, την 2 η και την 3 η ημέρα, οι τρεις ημέρες δεν μπορούν να χρησιμοποιηθούν ως επίπεδα παράγοντα γιατί οι μετρήσεις που λαμβάνονται την 2 η ημέρα δεν είναι ανεξάρτητες από αυτές που λήφθηκαν την 1 η ημέρα. Υπάρχουν τρόποι επίλυσης αυτού του προβλήματος που ωστόσο περιλαμβάνουν σημαντική μείωση των βαθμών ελευθερίας της ανάλυσης. SPSS: Ο έλεγχος δεν θα γίνει εάν υπάρχει μόνο μια παρατήρηση σε κάθε μέτρηση και μόνο ένα άτομο σε κάθε επίπεδο παράγοντα. Ωστόσο, εάν υπάρχουν δύο ή περισσότερα άτομα (π.χ. παγίδες) σε κάθε επίπεδο παράγοντα, τότε ο έλεγχος μπορεί να πραγματοποιθεί. Παραδείγματος χάριν μπορούμε να διακρίνουμε τις παγίδες σε δύο τύπους: παγίδες σε λιβάδια και παγίδες σε δάσος. Επομένως διευθετήστε τα δεδομένα έτσι ώστε κάθε γεγονός μέτρησης να είναι σε μια στήλη (π.χ. μήνας) και κάθε άτομο (π.χ. παγίδα) σε διαφορετική σειρά. Πρέπει να υπάρχει και μια διαφορετική στήλη για τον κύριο παράγοντα. Analyze General Linear Model Repeated measures. Ανεξάρτητα δείγματα Αυτός είναι ο πιο συνηθισμένος τύπος ανάλυσης και εφαρμόζεται όταν ένα άτομο ή περιοχή μετριέται ή ελέγχεται μόνο μια φορά. Θα υπάρχουν επομένως, τρεις ή περισσότερες τελείως διαφορετικές ομάδες παρατηρήσεων. Οι ομάδες συχνά είναι προφανείς: π.χ. δάσος, θαμώνας, λιβάδι, παραλία. Ωστόσο μερικές φορές η διάκριση είναι τεχνητή: π.χ. όταν διαιρούμε τα δείγματα σε υψομετρικές ζώνες. Θα δούμε δύο ελέγχους: one-way ANOVA και Kruskal- Wallis test. Η ιστορία δεν τελειώνει εάν πάρετε σημαντικό αποτέλεσμα από αυτούς τους ελέγχους καθώς δεν μπορείτε να πείτε ποιες ομάδες διαφέρουν από ποιες. Απαιτείται κάποιος εκ των υστέρων έλεγχος (post hoc test) για να ερμηνεύσετε πλήρως τα αποτελέσματα. One-way ANOVA Η ANOVA για τρεις ή περισσότερες ομάδες κάνει τις ίδιες παραδοχές όπως και όταν υπάρχουν δύο ομάδες: Δηλαδή, τα δεδομένα πρέπει να είναι συνεχή, και τουλάχιστον κατά προσέγγιση, να έχουν κανονική κατανομή. Οι διασπορές των δύο ομάδων πρέπει να είναι ομοιογενείς (αυτό 27

ελέγχεται με το Levene test). Η μηδενική υπόθεση είναι ότι οι ομάδες δεδομένων έχουν το ίδιο μέσο. Η AΝOVA ελέγχει εάν η ποικιλότητα των τιμών μέσα στις ομάδες είναι ίδια με την ποικιλότητα μεταξύ των ομάδων. Παράδειγμα: Θα χρησιμοποιήσουμε πάλι το παράδειγμα με τα βάρη των νεοσσών που τους χορηγήθηκε διαφορετική τροφή, προσθέτοντας και μια τρίτη τροφή. Μετρούμε τα βάρη (σε g) των νεοσσών που τράφηκαν για ένα μήνα με τρεις διαφορετικές τροφές που ονομάζονται Premier και Super και Organic. Θέλουμε να δούμε εάν το βάρος των νεοσσών επηρεάζεται από την τροφή που τους χορηγήθηκε. Η μηδενική υπόθεση (Η 0 ) είναι ότι οι τρεις τροφές οδηγούν σε ίδιο βάρος νεοσσών. Η εναλλακτική υπόθεση (Η 1 ) είναι ότι οι τρεις τροφές οδηγούν σε διαφορετικό βάρος.(παρατήρηση: οι τρεις ομάδες δεν απαραίτητο να έχουν το ίδιο αριθμό παρατηρήσεων, όπως συμβαίνει στο παράδειγμα που ακολουθεί). Premier Super Organic 24.5 26.4 25.5 23.4 27.0 25.7 22.1 25.2 26.8 25.3 25.8 27.3 23.4 27.1 26.0 SPPS: Τοποθετήστε όλα τα δεδομένα σε μια στήλη και δώστε σε αυτή το όνομα Mass. Χρησιμοποιήστε μια άλλη στήλη για να ονοματίσετε τις ομάδες και δώστε στη στήλη το όνομα Food. Υπάρχουν δύο τρόποι για να αναλύσετε μέσω ANOVA αυτά τα δεδομένα στο SPSS (οι οποίοι οδηγούν και σε διαφορετική μορφή αποτελεσμάτων). 1 η μέθοδος: Analyze Compare means One-way ANOVA Μεταφέρετε τη μεταβλητή Mass στο πλαίσιο Dependent list:, και τη μεταβλητή Food στο πλαίσιο Factor. Η ανάλυση μπορεί να γίνει τώρα, αλλά πηγαίνοντας στο Options μπορείτε να ζητήσετε Means Plot (που είναι χρήσιμο), καθώς και να ελέγξετε την ομοιογένεια των διασπορών επιλέγοντας Homogeneity of variance. Πατήστε Continue. Στη συνέχεια πατήστε Post Hoc... Εκ των υστέρων έλεγχοι (post hoc tests) μετά την One-way ANOVA Υπάρχουν πολλοί εκ των υστέρων έλεγχοι (το SPSS προσφέρει επτά). Κυρίως χρησιμοποιούνται οι εξής: least significant difference (LSD) test (πρέπει να χρησιμοποιείται όταν το αποτέλεσμα της ANOVA είναι σημαντικό), Student-Newman-Keuls (SNK) test, καθώς και οι πιο συντηρητικοί: Bonferroni method και Dunn-Sidak method. Επιλέξτε έναν (π.χ. Bonferroni) πατήστε Continue και τέλος OK. 28

Θα εμφανιστούν τα εξής αποτελέσματα: Test of Homogeneity of Variances Mass (g) Levene Statistic df1 df2 Sig..679 2 12.526 ANOVA Mass (g) Between Groups Within Groups Total Sum of Squares df Mean Square F Sig. 21.509 2 10.755 11.879.001 10.864 12.905 32.373 14 Post Hoc Tests Multiple Comparisons Dependent Variable: Mass (g) Bonferroni (I) Food Premier Super Organic (J) Food Super Organic Premier Organic Premier Super Mean Difference 95% Confidence Interval (I-J) Std. Error Sig. Lower Bound Upper Bound -2.5600*.6018.003-4.233 -.887-2.5200*.6018.004-4.193 -.847 2.5600*.6018.003.887 4.233.0400.6018 1.000-1.633 1.713 2.5200*.6018.004.847 4.193 -.0400.6018 1.000-1.713 1.633 *. The mean difference is significant at the.05 level. Means Plot 26.5 26.0 25.5 Mean of Mass 25.0 24.5 24.0 23.5 Premier Super Food Organic 29

Καταρχάς στο Levene's Test for Equality of Variances, παρατηρούμε τις τιμές. Βλέπουμε Sig.=.526 (P>0.05), επομένως δεν υπάρχει ένδειξη ότι οι διασπορές είναι άνισες. Εάν η τιμή P (Sig.) ήταν μικρότερη από 0.05 τότε θα έπρεπε να αμφιβάλουμε για τη χρήση της ANOVAκαι θα έπρεπε να χρησιμοποιήσουμε αντί αυτής το Kruskal-Wallis test. Στον δεύτερο πίνακα παρατηρούμε το F-ratio (F) και την Η τιμή στη στήλη Sig. Στο παράδειγμά μας είναι 0.001 και υποδεικνύει ότι τουλάχιστον δύο ομάδες διαφέρουν σημαντικά (στη βιολογία συνήθως κοιτάμε για τιμές μικρότερες από 0.05). Ωστόσο,υπάρχουν τρία πιθανά ζεύγη με τρεις ομάδες: 1 και 2, 1 και 3, 2 και 3. Ο εκ των υστέρων έλεγχος θα μας πει ποια ζεύγη είναι διαφορετικά μεταξύ τους και όχι ο έλεγχος ANOVA. Επομένως, κοιτάμε τον τρίτο πίνακα στα αποτελέσματα, και συγκεκριμένα τη στήλη Sig. Παρατηρούμε ότι υπάρχουν σημαντικές διαφορές (P < 0.05) μεταξύ των ομάδων Premier και Super, και μεταξύ των ομάδων Premier και Organic. Αυτό προκύπτει παρατηρώντας και τις δύο τελευταίες στήλες με τα διαστήματα εμπιστοσύνης (εάν τα lower και upper bounds έχουν το ίδιο πρόσημο τότε οι δύο ομάδες διαφέρουν σημαντικά), και απεικονίζεται στο διάγραμμα των μέσων τιμών. 2 η μέθοδος: Analyze General Linear Model Univariate Μεταφέρετε τη μεταβλητή Mass στο πλαίσιο Dependent variable:, και τη μεταβλητή Food στο πλαίσιο Fixed Factor(s):. Πατήστε ΟΚ. Μπορείτε επίσης να ζητήσετε εκ των υστέρων ελέγχους πατώντας Post Hoc..., αλλά και άλλες αναλύσεις (π.χ. Homogeneity tests), καθώς και επιπλέον πληροφορίες μέσω του μενού που εμφανίζεται πατώντας Options... Kruskal-Wallis test Αυτός ο έλεγχος είναι ο μη-παραμετρικός ανάλογος της one-way ANOVA. Έχει λιγότερες παραδοχές για τη μορφή των δεδομένων (ωστόσο υποθέτει ότι τα δεδομένα είναι συνεχή). Είναι ένας τυπικός έλεγχος κατάταξης, δηλ. τα δεδομένα μετατρέπονται πρώτα σε σειρές. Το πλεονέκτημα του είναι ότι είναι ιδανικός σε περιπτώσεις όπου έχουμε εξαιρετικά ακραίες τιμές. Είναι λιγότερο ισχυρό από το t-test και την one-way ANOVA, ωστόσο είναι λιγότερο πιθανό να βρείτε σημαντικό αποτέλεσμα εάν δεν υπάρχουν πραγματικές διαφορές. SPSS: Τοποθετήστε όλα τα δεδομένα σε μια στήλη. Χρησιμοποιήστε μια άλλη στήλη για να ονοματίσετε τις ομάδες (δίνοντας ακέραιους κωδικούς αριθμούς). Analyze Nonparametric Tests Κ Independent Samples Kruskal- Wallis test 30

Βάλτε τη μεταβλητή Mass στο πλαίσιο Test Variable List, και τη ομαδοποιούσα μεταβλητή Food στο πλαίσιο Grouping Variable. Θα εμφανίζεται ως Food(??). Πρέπει να πατήσετε το κουμπί Define Range... και να βάλετε 1 στο Minimum και 3 στο Maximum πριν πατήσετε Continue. Θα δείτε ότι το Food(??) έγινε Food(1 3)Πατήστε ΟΚ Θα εμφανιστούν τα εξής αποτελέσματα: Ranks Mass (g) Food Premier Super Organic Total N Mean Rank 5 3.20 5 10.40 5 10.40 15 Test Statistics a,b Mass (g) Chi-Square 8.655 df 2 Asymp. Sig..013 a. Kruskal Wallis Test b. Grouping Variable: Food Παρατηρήστε την τιμή Ρ (Asymp. Sig.). Είναι 0.013 και υποδεικνύει σημαντικές διαφορές μεταξύ των ομάδων (τύποι τροφής). Ο έλεγχος Kruskal-Wallis κάνει προσαρμογές για συνδεδεμένες (tied) παρατηρήσεις (δύο παρατηρήσεις που έχουν ακριβώς την ίδια τιμή). Μια ομάδα δεδομένων με πολλές συνδεδεμένες παρατηρήσεις είναι πολύ λιγότερο πιθανόν να δώσει σημαντικό αποτέλεσμα. Εκ των υστέρων έλεγχοι δεν είναι δυνατοί άμεσα μέσω του ελέγχου Kruskal-Wallis. Αν όμως πάρουμε σημαντικό αποτέλεσμα μπορούμε να δούμε ποιες ομάδες διαφέρουν κάνοντας Mann- Whitney U test για κάθε ζεύγος ομάδων. Όταν υπάρχουν δύο ανεξάρτητοι τρόποι ταξινόμησης των δεδομένων Εάν για κάθε παρατήρηση έχετε δύο παράγοντες (διαφορετικούς τρόπους να υποδιαιρέσετε τα δεδομένα σε ομάδες) και οι παράγοντες αυτοί είναι ανεξάρτητοι μεταξύ τους, υπάρχουν αρκετοί έλεγχοι για να αναλύσετε τη μηδενική υπόθεση ότι τα επίπεδα όλων των παραγόντων έχουν τον ίδιο μέσο. Επιπλέον, μπορεί να υπάρχει η μηδενική υπόθεση ότι δεν υπάρχει αλληλεπίδραση μεταξύ των δύο παραγόντων που διερευνούμε. Είναι σημαντικό να θυμόμαστε ότι η αλληλεπίδραση μπορεί να διερευνηθεί μόνο όταν υπάρχει πάνω από μία παρατήρηση για κάθε συνδυασμό επιπέδων των παραγόντων. 31