Βιοστατιστική ΒΙΟ-309 Χειμερινό Εξάμηνο Ακαδ. Έτος 2017-2018 Ντίνα Λύκα lika@biology.uoc.gr
1. Εισαγωγή
Εισαγωγικές έννοιες Μεταβλητότητα : ύπαρξη διαφορών μεταξύ ομοειδών μετρήσεων Μεταβλητή: ένα χαρακτηριστικό που μπορεί να πάρει διαφορετικές τιμές Δεδομένα ή στοιχεία: οι τιμές μιας μεταβλητής Ποσοτικές μεταβλητές : εκφράζουν κάτι μετρήσιμο - συνεχείς μεταβλητές - διακριτές (ή ασυνεχείς) μεταβλητές Ποιοτικές μεταβλητές : δεν εκφράζουν κάτι μετρήσιμο - κατηγορικές (ή ονομαστικές) μεταβλητές - διατεταγμένες μεταβλητές ΒΙΟ309-Περιγραφική Στατιστική 3
Εισαγωγικές έννοιες Κατηγοριοποίηση των μεταβλητών βάσει της κλίμακας: i) Οι τιμές της κλίμακας μπορούν να διαταχθούν ii) Το διάστημα μεταξύ δύο διαδοχικών τιμών της κλίμακας είναι σταθερού μεγέθους iii) Το σημείο μηδέν είναι απόλυτα ερμηνεύσιμο αριθμητική ερμηνεία του λόγου δύο τιμών της κλίμακας Κατηγοριοποίηση μεταβλητών σε: κλίμακα αναλογίας (ratio scale) (κριτήρια : i, ii, iii) κλίμακα διαστήματος (interval scale) (κριτήρια : i, ii) διατεταγμένης κλίμακας (ordinal scale) (κριτήρια : i) ονομαστικής κλίμακας (nominal scale) (κανένα από τα τρία κριτήρια) ΒΙΟ309-Περιγραφική Στατιστική 4
Εισαγωγικές έννοιες Πληθυσμός: ένα σύνολο υποκειμένων / αντικειμένων / δυνατών εκβάσεων ενός φαινομένου ή μιας πειραματικής διαδικασίας Δείγμα: ένα υποσύνολο του πληθυσμού Τυχαίο δείγμα: είναι αυτό που κάθε μέλος του πληθυσμού έχει την ίδια πιθανότητα να επιλεγεί Δείγμα Πληθυσμός ΒΙΟ309-Περιγραφική Στατιστική 5
Εισαγωγικές έννοιες Πείραμα: μια επιστημονική διαδικασία για τον έλεγχο υποθέσεων (confirmatory research) ή για την απόκτηση νέων πληροφοριών και τη διατύπωση νέων υποθέσεων (exploratory research) Επέμβαση / παράγοντας: υλικά ή μέθοδοι ή συνθήκες των οποίων την επίδραση θέλουμε να μελετήσουμε Πειραματική μονάδα: το τμήμα του πειραματικού υλικού που δέχεται (τυχαία) μια επέμβαση ΒΙΟ309-Περιγραφική Στατιστική 6
Κλάδοι της Στατιστικής Σχεδιασμός πειραμάτων και συλλογή στοιχείων Οργάνωση, σύνοψη και παρουσίαση των στοιχείων Περιγραφική Στατιστική Εξαγωγή συμπερασμάτων για ολόκληρο τον πληθυσμό με βάση τα στοιχεία του δείγματος Στατιστική Συμπερασματολογία ή Επαγωγική Στατιστική ΒΙΟ309-Περιγραφική Στατιστική 7
Βήματα για το σχεδιασμό ενός πειράματος προσδιορισμός του αντικειμενικού σκοπού του πειράματος διατύπωση της υπόθεσης εργασίας σχεδιασμός πειράματος (επιλογή των επεμβάσεων, καθορισμός του πληθυσμού, επιλογή του πειραματικού υλικού και των συνθηκών, αριθμός των παρατηρήσεων, διάρκεια πειράματος) καθορισμός των μεθόδων της στατιστικής ανάλυσης των αποτελεσμάτων του πειράματος πριν την εκτέλεση του ΒΙΟ309-Περιγραφική Στατιστική 8
Βασικές αρχές πειραματικού σχεδίου Χρήση επαναλήψεων (Replication) Τυχαιοποίηση (Randomization) Ομάδα ελέγχου (Control) Εξαλείφει «λάθη» που εισάγονται από τις πειραματικές συνθήκες Blinding αποφεύγεται η μεροληψία από τον πειραματιστή τα ζώα, τα δείγματα και οι επεμβάσεις θα πρέπει να κωδικοποιούνται μέχρι να αναλυθούν τα δεδομένα ΒΙΟ309-Περιγραφική Στατιστική 9
Χρήση επαναλήψεων (Replication) Η διαδικασία εφαρμογής μιας επέμβασης σε περισσότερες από μια πειραματικές μονάδες (ΠΜ) Ο αριθμός των ανεξάρτητων ΠΜ στις οποίες εφαρμόζεται η επέμβαση είναι ο αριθμός των επαναλήψεων (replicates) Με τη χρήση επαναλήψεων εξασφαλίζεται: εκτίμηση της διακύμανσης του πληθυσμού αξιόπιστη εκτίμηση της επίδρασης διαφορετικών επεμβάσεων Ο αριθμός των επαναλήψεων εξαρτάται: επιθυμητή ακρίβεια του πειράματος ανομοιογένεια του πειραματικού υλικού και του περιβάλλοντος αριθμό των επεμβάσεων πειραματικό σχέδιο ΒΙΟ309-Περιγραφική Στατιστική 10
Ψευδό-επαναλήψεις (Pseudo-replication) Οι ψευδό-επαναλήψεις δεν είναι ανεξάρτητες, ενώ οι βασικές στατιστικές αναλύσεις υποθέτουν ανεξαρτησία οδηγούν σε λάθος εκτίμηση της μεταξύ των ΠΜ μεταβλητότητα μπορεί να είναι : Χρονικές, επαναληπτικές μετρήσεις της ίδιας ΠΜ σε διαφορετικές χρονικές Χωρικές, πολλές μετρήσεις από την ίδια περιοχή/κλουβί/δεξαμενή Λύση: χρήση της κατάλληλης στατιστικής ανάλυσης
Τυχαιοποίηση Η διαδικασία της τυχαίας τοποθέτησης ΠΜ σε ομάδες που θα δεχθούν διαφορετικές επεμβάσεις Κάθε ΠΜ έχει την ίδια πιθανότητα να δεχθεί μια συγκεκριμένη επέμβαση Τυχαίοι αριθμοί (παράγονται από στατιστικά λογισμικά) χρησιμοποιούνται για να τοποθετηθούν οι ΠΜ σε ομάδες Η τυχαιοποίηση εξασφαλίζει αμεροληψία κατά την εφαρμογή των επεμβάσεων αμερόληπτη εκτίμηση του πειραματικού σφάλματος και εγκυρότητα των ελέγχων υποθέσεων ΒΙΟ309-Περιγραφική Στατιστική 12
2. Περιγραφική Στατιστική
Περιγραφική Στατιστική Σύνοψη και παρουσίαση δεδομένων: πίνακες διαγράμματα αριθμητικά περιγραφικά μέτρα ΒΙΟ309-Περιγραφική Στατιστική 14
Πίνακες Πίνακας κατανομής συχνοτήτων (μικρός αριθμός τιμών) τιμές μεταβλητής x 1 συχνότητα ( f ) f 1 n : συνολικός αριθμός παρατηρήσεων x 2 x k f 2 f k f j (συχνότητα της κλάσης j): αριθμός των παρατηρήσεων που ανήκουν στην κλάση j ή έχουν την τιμή x j n ΒΙΟ309-Περιγραφική Στατιστική 15
Πίνακες (απόλυτη) συχνότητα: f j σχετική συχνότητα (rf ): rf j f j / n ο λόγος των παρατηρήσεων της κλάσης j προς το συνολικό αριθμό παρατηρήσεων αθροιστική συχνότητα: F j f i j i1 σχετική αθροιστική συχνότητα: rf j F j / n ΒΙΟ309-Περιγραφική Στατιστική 16
Πίνακες Ομαδοποίηση αριθμητικών δεδομένων ενδεικτικός αριθμός κλάσεων- Τύπος του Sturges : K 1 3.3 log n (στρογγυλοποίηση) εύρος δεδομένων: R=max-min εύρος κλάσης: L=R/K κεντρική τιμή της j-κλάσης x j x j1 x j 2 [ x j, x j 1) ΒΙΟ309-Περιγραφική Στατιστική 17
Παράδειγμα Ποσότητα φωσφόρου στα φύλλα Φώσφορος (mg/g φύλλου) Κεντρική τιμή κλάσης Συχνότητα (αριθμός φύλλων) Σχετική συχνότητα Αθροιστική συχνότητα Σχετική Αθρ. Συχν. 8.15-8.25 8.2 2 0.015 2 0.015 8.25-8.35 8.3 6 0.046 8 0.062 8.35-8.45 8.4 8 0.062 16 0.123 8.45-8.55 8.5 11 0.085 27 0.208 8.55-8.65 8.6 17 0.131 44 0.338 8.65-8.75 8.7 17 0.131 61 0.469 8.75-8.85 8.8 24 0.185 85 0.654 8.85-8.95 8.9 18 0.138 103 0.792 8.95-9.05 9.0 13 0.100 116 0.892 9.05-9.15 9.1 10 0.077 126 0.969 9.15-9.25 9.2 4 0.031 130 1.000 130 1.000 18
Διαγράμματα Ραβδόγραμμα Ιστόγραμμα Πολύγωνο συχνοτήτων Αθροιστικό πολύγωνο συχνοτήτων Κυκλικό διάγραμμα Διάγραμμα διάχυσης ΒΙΟ309-Περιγραφική Στατιστική 19
# φωλιών 1. Παράδειγμα Τοποθεσίες φωλιών σπουργιτών Τοποθεσία # φωλιών A. αμπέλια 56 B. κτήρια 60 60 50 40 30 Γ. κλαδιά δένδρων 46 Δ. τρύπες δένδρων 49 20 10 0 A B Γ Δ τοποθεσίες Ραβδόγραμμα ΒΙΟ309-Περιγραφική Στατιστική 20
συχνότητα 2. Παράδειγμα Το χρώμα του ράμφους του European Starling Τάξη % κάλυψης με συχνότητα κίτρινο χρώμα 0 >85% 33 1 20-85% 20 2 <20% 29 35 30 25 20 15 10 5 0 0 1 2 τάξη Ραβδόγραμμα ΒΙΟ309-Περιγραφική Στατιστική 21
Αριθμός περιοχών 3. Παράδειγμα Αριθμός φυτών ενός είδους που παρατηρήθηκε σε 500 περιοχές Αριθμός φυτών συχνότητα 0 181 1 118 2 97 3 54 4 32 5 9 6 5 7 3 8 1 200 180 160 140 120 100 80 60 40 20 0 0 1 2 3 4 5 6 7 8 Αριθμός φυτών Ραβδόγραμμα ΒΙΟ309-Περιγραφική Στατιστική 22
0-3 4-7 8-11 12-15 16-19 20-23 24-27 29-31 32-35 36-39 40-43 αριθμός φυτών 4. Παράδειγμα Αριθμός αφίδων ανά φυτό Αριθμός φυτών 0-3 6 4-7 17 8-11 40 12-15 54 16-19 59 20-23 75 24-27 77 28-31 55 32-35 32 36-39 8 40-43 1 Αριθμός αφίδων που παρατηρήθηκαν σε 424 φυτά ένα είδους 90 80 70 60 50 40 30 20 10 0 αριθμός αφίδων ανά φυτό Ραβδόγραμμα ΒΙΟ309-Περιγραφική Στατιστική 23
αριθμός φύλλων αριθμός φύλλων αριθμός φύλλων αριθμός φύλλων 5. Παράδειγμα Ποσότητα φωσφόρου στα φύλλα Ιστόγραμμα Πολύγωνο συχνοτήτων 30 30 25 25 20 20 15 15 10 10 5 5 0 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2 Φώσφορος (mg/g φύλλου) 0 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2 Φώσφορος (mg/g φύλλου) πολύγωνο σχετικών συχνοτήτων αθροιστικό πολύγωνο σχετικών συχνοτήτων 0,2 0,15 1 0,8 0,1 0,6 0,05 0,4 0,2 0 8,2 8,3 8,4 8,5 8,6 8,7 8,8 8,9 9,0 9,1 9,2 Φώσφορος (mg/g φύλλου) 0 8,2 8,3 8,4 8,5 8,6 8,7 8,8 8,9 9,0 9,1 9,2 Φώσφορος (mg/g φύλλου) ΒΙΟ309-Περιγραφική Στατιστική 24
Διάγραμμα διάχυσης (scatterplot) Παρουσιάζει τη σχέση μεταξύ δύο ποσοτικών μεταβλητών. Ζεύγη παρατηρήσεων (x i, y i ) Κάθε παρατήρηση παριστάνεται με ένα σημείο στο επίπεδο x-y ΒΙΟ309-Περιγραφική Στατιστική 25
Αριθμητικά Περιγραφικά Μέτρα μέτρα θέσης ή κεντρικής τάσης μέτρα μεταβλητότητας μέτρα ασυμμετρίας μέτρα κύρτωσης Στατιστικό: ένα αριθμητικό περιγραφικό μέτρο που υπολογίζεται από το δείγμα Παράμετρος: ένα αριθμητικό περιγραφικό μέτρο που υπολογίζεται από τον πληθυσμό ΒΙΟ309-Περιγραφική Στατιστική 26
Μέτρα θέσης ή κεντρικής τάσης Μέση τιμή Αν x 1, x 2,, x n είναι ένα δείγμα μεγέθους n, η αριθμητική μέση τιμή του υπολογίζεται από τον τύπο n xi x i 1 n Για ομαδοποιημένα δεδομένα όπου: x i f i η κεντρική τιμή της i-κλάσης, η συχνότητα της και k το πλήθος των κλάσεων x k i 1 f x n i i ΒΙΟ309-Περιγραφική Στατιστική 27
Μέτρα θέσης ή κεντρικής τάσης Διάμεση τιμή (διάμεσος) Αν x 1, x 2,, x n είναι ένα δείγμα μεγέθους n διατεταγμένο σε αύξουσα ή φθίνουσα σειρά, η διάμεση τιμή του δίνεται από τη σχέση M d x x n1 2 n 2 x 2 n 1 2,, n n Επικρατούσα τιμή Αν x 1, x 2,, x n είναι ένα δείγμα μεγέθους n, η επικρατούσα τιμή του, M0, είναι εκείνη η τιμή του δείγματος που έχει την μεγαλύτερη συχνότητα. ΒΙΟ309-Περιγραφική Στατιστική 28
Μέτρα θέσης ή κεντρικής τάσης k-εκατοστημόριο μιας αύξουσας σειράς n μετρήσεων, είναι εκείνη η μέτρηση για την οποία το πολύ k% των μετρήσεων είναι μικρότερο ή ίσο από αυτήν. Αν k( n 1) p 100 είναι ακέραιος, θέση του k-εκατοστημόριου είναι η παρατήρηση τάξης x θp διαφορετικά θέση του k-εκατοστημόριου Τεταρτημόρια [ ] [ ] 1, [θ p ] ακέραιο μέρος του θ p Q1: 25-εκατοστημόριο (25% των μετρήσεων έχει τιμή από Q1) Q2: 50- εκατοστημόριο (ίδιο με τη διάμεσο) Q3: 75- εκατοστημόριο (75% των μετρήσεων έχει τιμή από Q3) x p x 2 p ΒΙΟ309-Περιγραφική Στατιστική 29
30 Μέτρα Μεταβλητότητας Εύρος Η διαφορά ανάμεσα στη μεγαλύτερη και στη μικρότερη τιμή του δείγματος Διασπορά ή Διακύμανση Η διασπορά των τιμών ενός δείγματος μεγέθους n Τυπική απόκλιση Η θετική τετραγωνική ρίζα της διασποράς 1 ) ( 1 2 2 n x x s n i i max min r 1 ) ( 1 2 n x x s n i i
Μέτρα Μεταβλητότητας Συντελεστής μεταβλητότητας Ο συντελεστής μεταβλητότητας εκφράζει τη μεταβλητότητα σε σχέση με τη μέση τιμή s και υπολογίζεται από τον τύπο CV 100% x Eνδοτεταρτομοριακό εύρος Η διαφορά Q3- Q1 31
Θετικά ασύμμετρη Μέτρα Ασυμμετρίας Κεντρική ροπή τάξης r: ( xi x) i 1 n Συντελεστής ασυμμετρίας (λοξότητας): m r n r a 3 m s 3 3 α3 >0: οι περισσότερες τιμές βρίσκονται δεξιά της επικρατούσας Αρνητικά ασύμμετρη α3 <0: οι περισσότερες τιμές βρίσκονται αριστερά της επικρατούσας α3 = 0: συμμετρική κατανομή 32
Μέτρα κύρτωσης Συντελεστής κύρτωσης : a s m 4 4 4 3 α4 >0: η κατανομή λέγεται λεπτόκυρτη α4 <0: η κατανομή λέγεται πλατύκυρτη α4 =0: η κατανομή λέγεται μεσόκυρτη (κανονική κατανομή) 33
Ιδιότητες των αριθμητικών μέτρων x, 1, x2, x n x d 2 είναι n παρατηρήσεις με μέση τιμή, διάμεσο M, M 0 επικρατούσα, διασπορά, Εφαρμόζουμε το γραμμικό μετασχηματισμό x Ισχύουν (αποδείξτε) * s a bx, με b 0 x s * * 2 a bx, b 2 s 2, s M * * d bs, a bm a * 3 a d 3,, M a * 4 * 0 a a 4 bm 0, ΒΙΟ309-Περιγραφική Στατιστική 34