Εισαγωγή στη Βιοστατιστική Βασικές έννοιες Στατιστικής Μαρία Γκριζιώτη Μsc Ιατρικής Ερευνητικής Μεθοδολογίας
Σκοπός του μαθήματος Κατανόηση βασικών εννοιών της στατιστικής Δυνατότητα δημιουργίας βάσης δεδομένων, εισαγωγής δεδομένων Δυνατότητα ανάγνωσης και καταγραφής αποτελεσμάτων σε πίνακες Δυνατότητα στατιστικής επεξεργασίας
Στόχος τουσημερινού μαθήματος Δεδομένα-Είδη μεταβλητών Μέτρα κεντρικής τάσης και διασποράς Κανονική κατανομή
Ιστορικά στοιχεία Status: Κράτος-Πολιτεία Αρχαιότητα: Αριθμητικές ενδείξεις για τον πληθυσμό και την παραγωγή Μεσαίωνας : Εκκλησιαστικά Δίπτυχα-Ληξιαρχικές καταγραφές
Νεώτεροι χρόνοι 17 ος αιώνας: Δημογραφία 18 ος αιώνας: Πολιτειογραφία 19 ος αιώνας: Ίδρυση Εθνικών Διεθνών Στατιστικών Υπηρεσιών 20 ος αιώνας: Pearson, Fisher, Gosset (Student s t-test)
Στατιστική ορολογία 1 Στατιστικό υλικό: Ποσοτικό Ποιοτικό Πρωτογενές Δευτερογενές
Στατιστική ορολογία 2 Πληθυσμός-Στατιστικό Δείγμα Μεταβλητές 1. Συνεχείς Ασυνεχείς 2. Εξαρτημένες-Ανεξάρτητες 3. Ποσοτικές-Ποιοτικές
ΜΕΤΑΒΛΗΤΗ ΔΕΔΟΜΕΝΑ Α Β Γ Φύλο Ηλικία 45 ετών 38 ετών 26 ετών Σάκχαρο Αίματος Σωματικό Βάρος 145mgr/dl 130mgr/dl 125mgr/dl 75kgr 60kgr 80kgr
Ποιοτικές μεταβλητές Κατηγορικές (nominal) Ιεραρχικές (ordinal)
Κατηγορικές (nominal) Φύλο Ομάδα αίματος Εθνικότητα Οικογενειακή κατάσταση Τόπος διαμονής Οικονομικό επίπεδο Μορφωτικό επίπεδο
Ιεραρχικές (ordinal) GCS Κλίμακα πόνου APACHEΙΙSCORE
Ποσοτικές μεταβλητές Ασυνεχείς (discrete) Συνεχείς (continuous)
Ασυνεχείς (discrete) Λαμβάνουν μόνο ακέραιους αριθμούς 1. Αριθμός τέκνων 2. Αριθμός εισερχομένων ασθενών 3. Αριθμός κλινών
Συνεχείς (continuous) Λαμβάνουν τόσο ακέραιους, όσο και δεκαδικούς αριθμούς 1. ΑΠ 125-65 mmηg 2. Σωματικό βάρος 68,4kgr 3. ΣΑ 125mgr/dl 4. Ύψος 1,85m 5. ΒΜΙ 24,9 6. Θερμοκρασία 38,6 ο
Περιγραφική Στατιστική
Ποιοτικές μεταβλητές
Οικογενειακή κατάσταση Άγαμοι 20 Έγγαμοι 35 Διαζευγμένοι 10 Χήροι 5 Σύνολο 70
Φύλο 85 άνδρες 70 γυναίκες
45 ασθενείςμεθ GCS Ασθενείς 3 2 4 5 6 8 8 4 13 10 14 16
Οικογενειακή κατάσταση Άγαμοι 20 28% Έγγαμοι 35 50% Διαζευγμένοι 10 14% Χήροι 5 7% Σύνολο 70 100%
Φύλο Άνδρες 85 56% Γυναίκες 70 44% Σύνολο 155 100%
GCS Ασθενείς % 3 2 4% 4 5 11% 6 8 18% 8 4 8% 13 10 23% 14 16 36% Σύνολο 45 100%
Αναφορά ποσοστών Αναφέρουμε τον αριθμητή και τον παρονομαστή Δείγμα>100 χρησιμοποιούμε ένα δεκαδικό Δείγμα<100 δεν χρησιμοποιούμε δεκαδικό Δείγμα <20 δεν χρησιμοποιούμε ποσοστά
Αναφορά ποσοστών 3/4-75% 28.000/1.000.000-2,8% 30/90-33%
Ποσοτικές μεταβλητές
Κεντρική τάση Διασπορά
Κεντρική τάση Mέσος όρος-μέση τιμή (mean) Επικρατούσα τιμή(mode) Διάμεσος(median)
Αριθμητικός μέσος όρος(mean) Πηλικό της διαιρέσεως του αθροίσματος των παρατηρήσεων δια τις παρατηρήσεις Παράδειγμα 5 ασθενείς τιμές ΣΑ 110, 105, 100, 115, 120 Αριθμητικός μέσος: 110+105+100+115+120/5=110
Μειονεκτήματα Επηρεάζεται από τις ακραίες τιμές Παράδειγμα 15 ασθενείς χρόνος νοσηλείας σε ημέρες ανά ασθενή 6,8,8,8,8,8,8,9,10,11,12,13,56,73 Αριθμητικός μέσος 16,5ημέρες νοσηλείας
Επικρατούσα τιμή (mode) 15 ασθενείς χρόνος νοσηλείας σε ημέρες ανά ασθενή 6,8,8,8,8,8,8,9,10,11,12,13,56,73 8 ημέρες νοσηλείας Δεν χρησιμοποιείται σε ολιγάριθμες παρατηρήσεις
Διάμεσος (median) Η τιμή των παρατηρήσεων που διαιρεί τις παρατηρήσεις σε δύο ίσες ομάδες, όταν ταξινομηθούν σε αύξουσα ή φθίνουσα σειρά Παράδειγμα Παράδειγμα 13 μετρήσεις της χοληστερίνης 129,133,135,141,149,153,162,166,171, 187,198,202,236
Διάμεσος Περιττός αριθμός παρατηρήσεων Παράδειγμα 13 μετρήσεις της χοληστερίνης 129,133,135,141,149,153,162,166,171, 187,198,202,236 Άρτιος αριθμός παρατηρήσεων 12 μετρήσεις της χοληστερίνης 129,133,135,141,149,153,162,166,171, 187,198,202
Διασπορά
Διασπορά Εύρος διασποράς (range) Μέση απόλυτη απόκλιση (mean deviation) Διακύμανση (variance) σ²-s² Τυπική απόκλιση (standard deviation) -sd
Εύρος διασποράς (range)ι Ημέρες νοσηλείας 6,8,8,8,8,8,8,9,10,10,11,12,13,56,72 range: 72-6=66
Εύρος διασποράς (range)ιι 1 2 3 4 5 6 7 8 9 10 11 12 13 129 133 135 141 149 153 162 166 171 187 198 202 236 Εύρος διασποράς 236-129=107 Επηρεάζεται από τις ακραίες τιμές Δεν λαμβάνει υπόψιν τις υπόλοιπες τιμές
Μέση απόλυτη απόκλιση (mean deviation) Μέσος όρος των απολύτων τιμών των αποκλίσεων από τον αριθμητικό μέσο 5 ασθενείς Ημέρες νοσηλείας 7,9,9,10,15 Μέσος όρος ημερών νοσηλείας 10 Μέση απόλυτη τιμή: 7-10 + 9-10 + 9-10 + 10-10 + 15-10 /5=2
Μέση απόλυτη απόκλιση(mean deviation) Λαμβάνει υπόψιν όλες τις τιμές Δεν επηρεάζεται μόνο από τις ακραίες τιμές
Διακύμανση (variance) 7-10 (7-10)² (7-10)²+(9-10)²+(9-10)²+(10-10)²+(15-10)²/5=7,2 Το άθροισμα των τετραγώνων των αποκλίσεων των τιμών της μεταβλητής από το μέσο όρο δια τον αριθμό των παρατηρήσεων μας δίνει τη διακύμανση
Τυπική απόκλιση (standard deviation-sd) Τετραγωνική ρίζα της διακύμανσης Δείχνει σε πόση απόσταση δεξιά και αριστερά του μέσου όρου κατανέμεται η μεταβλητή
Περιγραφική Στατιστική Μεταβλητές % mean median mode sd Ποιοτικές ΝΑΙ ΟΧΙ ΝΑΙ ΝΑΙ ΟΧΙ Ποσοτικές ΟΧΙ ΝΑΙ ΝΑΙ ΝΑΙ ΝΑΙ
Κανονική κατανομή
Ιδιότητες της κανονικής κατανομήςι Συμμετρία ως προς τον αριθμητικό μέσο Ο αριθμητικός μέσος συμπίπτει με τη διάμεσο και την επικρατούσα τιμή Η επιφάνεια κάτω από την καμπύλη ισούται με τη μονάδα Τα άκρα της δεν εφάπτονται στην τετμημένη αλλά τείνουν στο ±
Ιδιότητες της κανονικής κατανομής ΙΙ Σε απόσταση ±1sdαπό τον αριθμήτικο μέσο περιλαμάνεται το 68% των παρατηρήσεων Σε απόσταση ±2sdαπό τον αριθμήτικο μέσο περιλαμάνεται το 95% των παρατηρήσεων Σε απόσταση ±3sdαπό τον αριθμήτικο μέσο περιλαμάνεται το 99,7% των παρατηρήσεων
95% Διαστήματα Αξιοπιστίας- (95%CI)
95% CI Η τυπική απόκλιση της δειγματοληπτικής κατανομής είναι το τυπικό σφάλμα (standard error) : sx=s/ n Ο πληθυσμιακός μέσος θα βρίσκεται με πιθανότητα 95% σε απόσταση δύο τυπικών σφαλμάτων από οποιονδήποτε από τους μέσους όρους των δειγμάτων Η πιθανότητα λάθους είναι ρ=0,05
Επίπεδοστατιστικής σημαντικότητας
Επίπεδο στατιστικής σημαντικότηταςι Κριτήριο Ζ=(χ-μ)/(σ/ n) Τιμή κριτηρίου Ζ=±1,96 Αν η τιμή του κριτηρίου Ζ είναι μεταξύ -1,96 και 1,96 τότε δεχόμαστε με βεβαιότητα 95% ότι ο μέσος όρος του δείγματος ανήκει στον πληθυσμό Υπάρχει πάντα και ένα ποσοστό λάθους της τάξεως του 0,05
Επίπεδο στατιστικής σημαντικότηταςιι ρ<0,05 υπάρχει στατιστικά σημαντική διαφορά ρ>0,05 δεν υπάρχει στατιστικά σημαντική διαφορά
Αναλυτική στατιστική
Ποιοτικές μεταβλητές Σύγκριση ποσοστών Chi-square test-ανεξάρτητα δείγματα Mc Nemar s test-δείγματα κατά ζεύγη
Ποσοτικές μεταβλητές Σύγκριση μέσων Παραμετρικές δοκιμασίες Μη παραμετρικές δοκιμασίες
Σύγκριση μέσων ανεξάρτητων δειγμάτων Παραμετρικές δοκιμασίες 1. Student s t-testσύγκριση δύο δειγμάτων 2. One way Anova σύγκριση τριών ή περισσότερων δειγμάτων Μη παραμετρικές δοκιμασίες 1. Mann-Whitney U testσύγκριση δύο δειγμάτων 2. Kruskal-Wallis testσύγκριση τριών ή περισσότερων δειγμάτων
Σύγκριση μέσων στο ίδιο δείγμα Παραμετρικές δοκιμασίες 1. Paired-samples t-testσύγκριση δύο δειγμάτων 2. One way repeatedmeasures Anovaσύγκριση τριών ή περισσότερων δειγμάτων Μη παραμετρικές δοκιμασίες 1. WilcoxonSigned Rank Test-σύγκριση δύο δειγμάτων 2. Friedman testσύγκριση τριών ή περισσότερων δειγμάτων
ΕΡΩΤΗΣΕΙΣ
Προτεινόμενη βιβλιογραφία Ιατρική Βασική Στατιστική, Βασίλειος Κατσουγιαννόπουλος, Εκδόσεις Κυριακίδη Medical Statistics: A Guide to Data Analysis and Critical Appraisal, Jennifer Peat-Belinda Barton, BMJ Books Statistics at Square One-Tenth Edition, TDV Swinscow-MJ Campbell, BMJ Books
IBM SPSS trial version www.ibm.gr https://www14.software.ibm.com/webapp/iwm/web/pick.d o?source=swg-stats- DESKTOP_TRIAL&S_PKG=CRJK5ML&S_TACT=101KR3 HW&lang=en_US