ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΑΛΕΓΚΑΚΗΣ ΑΘΑΝΑΣΙΟΣ Φυσικός, PH.D. Σχολής Επιστηµών Υγείας Επικοινωνία: Πτέρυγα 4, Τοµέας Κοινωνικής Ιατρικής Εργαστήριο Βιοστατιστικής Τηλ. 4613 e-mail: biostats@med.uoc.gr thalegak@med.uoc.gr
ΣΤΟΧΟΙ ΤΟΥ ΜΑΘΗΜΑΤΟΣ Γνωριµία µε την εφαρµοσµένη στατιστική (όπως θα την έβλεπε ένας γιατρός ή ένας επιστήµονας υγείας). Εµβάθυνση στη στατιστική ανάλυση και στη χρήση στατιστικών προγραµµάτων. Γνωριµία µε το προγραµµατισµό, σχεδίαση και ολοκλήρωση µιας ιατρικής έρευνας. Αν κατορθωθεί, θα γίνει πρακτική εξάσκηση σε υπολογιστικά προγράµµατα.
ΑΝΤΙΚΕΙΜΕΝΟ ΠΡΩΤΟΥ ΜΑΘΗΜΑΤΟΣ Οργάνωση δεδοµένων σε πίνακες συχνοτήτων Υπολογισµός µέτρων θέσης και διασποράς Παρουσίαση δεδοµένων σε γραφήµατα Βασικές έννοιες συµπερασµατολογίας από δείγµατα σε πληθυσµούς
Παράδειγµα 1.2 Ένας ψυχολόγος έχει αναπτύξει ένα τεστ µέτρησης της νηπιακής αντιληπτικής ικανότητας στην ηλικία 9 µηνών. Τα παρακάτω δεδοµένα είναι οι µετρήσεις (επιδόσεις) 50 νηπίων 9 µηνών που επιλέχθηκαν µε τυχαίο τρόπο. 320 326 325 318 322 320 329 317 316 331 320 320 317 329 316 308 321 319 322 335 318 313 327 314 329 323 327 323 324 314 308 306 328 330 322 310 324 314 312 318 313 320 324 311 317 325 328 319 310 324
Οργάνωση δεδοµένων σε πίνακες συχνοτήτων ιάστηµα Συχνότητα (f) Σχετική Συχν. (q) Μέσο ιαστήµατος (c) f x c [306-311) 5 0,10 308,5 1542,5 [311-316) 7 0,14 313,5 2194,5 [316-321) 15 0,30 318,5 4777,5 [321-326) 12 0,24 323,5 3882,0 [326-331) 9 0,18 328,5 2956,5 [331-336) 2 0,04 333,5 667,0 ΣΥΝΟΛΟ 50 1,00 16020,0
ΠΑΡΟΥΣΙΑΣΗ Ε ΟΜΕΝΩΝ ΣΕ ΓΡΑΦΗΜΑΤΑ Γράφηµα διασποράς (scatterplot) Ιστόγραµµα (histogram) Ραβδόγραµµα (Bar chart) Κορµός και ουρές (Box and whisker plot) Κλώνος και φύλλα (Stem and leaf)
Γράφηµα διασποράς (scatterplot)
Γράφηµα διασποράς(scatterplot) Χαρακτηριστικά Μας δίνει µια οπτική εικόνα της µεταβλητότητας (διασποράς των δεδοµένων µας) και επίσης των ακραίων τιµών µας (ελάχιστη, µέγιστη) Είναι ένα αδρό γράφηµα των τιµών του δείγµατος στον άξονα των y και των ακολουθιακών αριθµών των ατόµων στον άξονα των x (1ο, 2ο, 3ο, 4ο.)
Ιστόγραµµα 16 14 12 10 8 6 4 2 0 308,5 313,5 318,5 323,5 328,5 333,5
Ιστόγραµµα Χαρακτηριστικά Το ιστόγραµµα δίνει µια άµεση εικόνα του γενικού σχήµατος της κατανοµής συχνοτήτων (στενή ή ευρεία διασπορά, συµµετρία ή αποκλίνουσες ουρές, κύρτωση, κλπ.). Μπορούµε να παραστήσουµε τις σχετικές συχνότητες (χρήσιµο όταν για λόγους σύγκρισης δύο κατανοµών συχνοτήτων δύο δειγµάτων διαφορετικού µεγέθους) Ένα µειονέκτηµα των ιστογραµµάτων είναι ότι δεν διατηρούν τα ατοµικά δεδοµένα µετά την οµαδοποίηση.
Κλώνος και φύλλα (Stem and leaf) Συχνότ. Κλώνος Φύλλα 3 30 688 9 31 001233444 10 31 6677788899 15 32 000001222334444 10 32 5567788999 2 33 01 1 33 5
Κλώνος και φύλλα (Stem and leaf) Χαρακτηριστικά Οµοιότητα µε ιστόγραµµα όµως περιστραµένο κατά 90 ο. Η πρώτη στήλη µας δείχνει τη συχνότητα των µετρήσεων. Η δεύτερη αριστερή στήλη (κλώνος) µας δίνει τα σηµαντικότερα ψηφία (δεκάδες, εκατοντάδες, πεντάδες κλπ). Η τελευταία στήλη (φύλλα) είναι οι αριθµητικές τιµές των µετρήσεων. Τα αποτελέσµατα διατηρούν σε αντίθεση µε το ιστόγραµµα την αρχική πληροφορία.
Κορµός και ουρές (Box and whisker plot) 340 330 320 310 300 N = 50
Κορµός και ουρές (Box and whisker plot) Είναι εύκολο και γρήγορο στην κατασκευή του. Μας δίνει πληροφορία για τη διάµεσο και τα τεταρτηµόρια (1ο και 3ο) του δείγµατος µας. Μπορούµε να δούµε αν η κατανοµή µας είναι συµµετρική ή εάν αποκλίνει προς ένα άκρο.
Μέτρα θέσης Μέτρα θέσης και διασποράς Ατοµικές παρατηρήσεις Οµαδοποιηµένες παρατηρήσεις Μέση τιµή δείγµατος ιάµεσος Ατοµικές παρατηρήσεις ιατάσσονται σε αύξουσα σειρά µεγέθους (1ο, 2ο, 3ο κλπ). Η διάµεσος θα βρίσκεται στη µεσαία θέση x i i= 1 1+ 2 +... + Οµαδοποιηµένες µε χρήση διαγράµµατος σχετικών αθροιστικών συχνοτήτων. 1ο και 3ο Τεταρτηµόριο: Χωρίζουν τις τιµές στο 25% και 75% των συνολικών τιµών n x = n = x = k i= 1 x x x n fc i i n n
Μέτρα διασποράς ιασπορά Μέτρα θέσης και διασποράς Τυπική απόκλιση Τυπική απόκλιση Μέσης τιµής s = n 2 i 1 ( x x) i n 1 2 Ατοµικές παρατηρήσεις s = n i= 1 ( x x) i n 1 2 s n Οµαδοποιηµένες παρατηρήσεις i= 1 Εύρος Ενδοτεταρτηµοριακό εύρος s = k f ( c x) i i n 1 2
ΕΚΤΙΜΗΣΗ (ΓΡΑΦΙΚΗ) ΤΗΣ ΙΑΜΕΣΟΥ ΚΑΙ ΤΩΝ ΤΕΤΑΡΤΗΜΟΡΙΩΝ 1 0.75 0.5 0.25 0 310 315 320 325 330 335 340
Πίνακας 1.1 Χρόνοι επιβίωσης, σε µέρες, µετά από χειρουργική επέµβαση ποντικών σε δύο οµάδες (θεραπεία και µάρτυρες). Μέγεθος Μέση Τυπική Τυπικό Οµάδα εδοµένα δείγµατος τιµή απόκλιση σφάλµα Θεραπεία 94 197 16 38 99 141 23 7 86,857 66,767 25,236 Μάρτυρες: 52 104 146 10 50 31 40 27 46 9 56,222 42,417 14,134 ιαφορά 30,635 27,319*
ΗΜΙΟΥΡΓΙΑ ΓΡΑΦΗΜΑΤΩΝ ΥΠΟΛΟΓΙΣΜΟΣ ΜΕΤΡΩΝ ΘΕΣΗΣ και ΙΑΣΠΟΡΑΣ
ΗΜΙΟΥΡΓΙΑ ΓΡΑΦΗΜΑΤΩΝ ΥΠΟΛΟΓΙΣΜΟΣ ΜΕΤΡΩΝ ΘΕΣΗΣ και ΙΑΣΠΟΡΑΣ EXCEL Για τον υπολογισµό των µέτρων θέσης χρησιµοποιήθηκαν οι συναρτήσεις του EXCEL: ΜΕΤΡΑ ΣΥΝΑΡΤΗΣΕΙΣ ΠΑΡΑ ΕΙΓΜΑ ΜΕΣΗ ΤΙΜΗ AVERAGE =AVERAGE(A2:J6) ΤΥΠΙΚΗ ΑΠΟΚΛΙΣΗ STDEV =STDEV(A2:J6) ΙΑΜΕΣΟΣ MEDIAN =MEDIAN(A2:J6) ΜΕΓΙΣΤΟ MAX =MAX(A2:J6) ΕΛΑΧΙΣΤΟ ΜΙΝ =ΜΙΝ(A2:J6) ΤΕΤΑΡΤΗΜΟΡΙA QUARTILE =QUARTILE(A2:J6;1) =QUARTILE(A2:J6;3) f i ΟΜΑ ΩΝ FREQUENCY {=FREQUENCY($A$2:$J$6;B10:B15)} Επιπλέον συναρτήσεις SUBTOTAL καθώς επίσης και η χρήση του Tools-Data Analysis-Descriptive
ΗΜΙΟΥΡΓΙΑ ΓΡΑΦΗΜΑΤΩΝ ΥΠΟΛΟΓΙΣΜΟΣ ΜΕΤΡΩΝ ΘΕΣΗΣ και ΙΑΣΠΟΡΑΣ SPSS Χρήση του Analyze Descriptive Statistics Descriptives NEOGNA Valid N (listwise) Descriptive Statistics Std. N Minimum Maximum Mean Deviation Variance 50 306 335 320,12 6,706 44,965 50 Descriptives Χρήση του Analyze Descriptive Statistics Explore Επιλογή Display, Both Statistics, Descriptives Plots, Stem-and-leaf NEOGNA Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Lower Bound Upper Bound Statistic Std. Error 320,12,948 318,21 322,03 320,16 320,00 44,965 6,706 306 335 29 9,50 -,099,337 -,543,662 EXAMINE VARIABLES=neogna /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
340 NEOGNA Stem-and-Leaf Plot Frequency Stem & Leaf 330 320 310 3,00 30. 688 9,00 31. 001233444 10,00 31. 6677788899 15,00 32. 000001222334444 10,00 32. 5567788999 2,00 33. 01 1,00 33. 5 300 N = 50 NEOGNA Stem width: 10 Each leaf: 1 case(s) Graphs Boxplot Επιλογή Simple, Summaries of separate variables EXAMINE VARIABLES=neogna /COMPARE VARIABLE/PLOT=BOXPLOT/STATISTICS=NONE/NOTOTAL /MISSING=LISTWISE.