1 ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΙΣ ΕΞΕΤΑΣΕΙΣ
2 Γενικά το μάθημα της Βιοστατιστικής είναι ένα εύκολο προς μέτριο μάθημα που υπάρχει στο Α έτος. Μπορεί εκ πρώτης όψεως να φαντάζει δύσκολο και ακατανόητο. Εντούτοις αυτό δεν ισχύει. Για να μπορέσει κάποιος να τα πάει καλά (ή έστω να περάσει) αυτό το μάθημα αυτό που χρειάζεται να κάνει είναι να έχει αντιληφθεί ορισμένες βασικές έννοιες της στατιστικής και να μπορεί να διακρίνει τις διαφορετικές στατιστικές δοκιμασίες. Η εξέταση της βιοστατιστικής αποτελείται από 3 θέματα τα οποία είναι θεωρητικά και πρακτικά. Η θεωρία μπορεί να εξετάζεται με την μορφή ορισμών ή πιο σύνθετων θεωρητικών ασκήσεων. Οι πρακτικές ασκήσεις είναι λίγο πιο αναβαθμισμένες όσον αφορά τον βαθμό δυσκολίας. Οι ασκήσεις πολλές φορές χρειάζονται πολλές μαθηματικές πράξεις, αλλά για αυτόν τον λόγο μπορείτε να χρησιμοποιήσετε υπολογιστή τσέπης!! Επίσης να ξέρετε πως κατά την διάρκεια της εξέτασης θα σας δοθεί μαζί με τα θέματα και ένα τυπολόγιο το οποίο θα έχει του πιο σύνθετους τύπους του μαθήματος. Θα πρέπει όμως να ξέρετε τους βασικότερους από αυτούς αλλά και γενικά να έχετε μια εικόνα για το που χρησιμοποιείται ο καθένας. Ιδιαίτερη έμφαση να δώσετε: στους ορισμούς του Κεφαλαίου 1, στην δοκιμασία t-test/t-test κατά ζεύγη, στις δοκιμασίες Χ 2, στην γραμμική πολλαπλή εξάρτηση και στην λογαριθμιστική εξάρτηση. ΤΟ ΠΙΟ ΣΗΜΑΝΤΙΚΟ ΑΠΟ ΟΛΑ! ΜΗΝ ΠΑΝΙΚΟΒΑΛΕΣΤΕ! ΕΞΕΤΑΣΤΙΚΗ ΕΙΝΑΙ, ΘΑ ΠΕΡΑΣΕΙ. Κεφάλαιο 1 ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Ποιοτικές μεταβλητές: ονομάζονται οι μεταβλητές που δεν επιδέχονται αριθμητικές μετρήσεις, αλλά περιγράφονται οι κατηγορίες στις οποίες ταξινομούνται οι παρατηρήσεις. Οι ποιοτικές μεταβλητές διακρίνονται σε δύο κατηγορίες. Στις διαδυκές ή διχοτομικές στις οποίες έχουμε δύο κατηγορίες και στις διαβαθμιζόμενες ή διατάξιμες όταν έχουμε παραπάνω από δύο κατηγορίες. Ποσοτικές μεταβλητές: ονομάζονται οι μεταβλητές που επιδέχονται αριθμητικές μετρήσεις. Διακρίνονται επίσης σε δύο κατηγορίες. Έχουμε τις συνεχείς οι οποίες μπορούν να πάρουν οποιαδήποτε τιμή μέσα από ένα σύνολο τιμών, και τις ασυνεχείς οι οποίες μπορούν να πάρουν μόνο συγκεκριμένες διακριτές αριθμητικές τιμές. Κατανομή συχνοτήτων για ποιοτικές μεταβλητές ονομάζουμε την διαδικασία ταξινόμησης των παρατηρήσεών μας στις κατηγορίες των ποιοτικών μεταβλητών. Για την απεικόνιση των ποιοτικών μεταβλητών χρησιμοποιούνται τα ραβδογράμματα ή αλλίως διαγράμματα στηλών. Κατανομή συχνοτήτων για ποσοτικές μεταβλητές ονομάζουμε την διαδικασία υπολογισμού του αριθμού των παρατηρήσεων για κάθε αριθμητική τιμή. Για να κάνουμε την κατανομή των συχνοτήτων για ποσοτικές μεταβλητές (α) υπολογίζουμε τον κατάλληλο αριθμό ομάδων που θα χρησιμοποιήσουμε (6-20), (β) υπολογίζουμε την κεντρική τιμή της κάθε ομάδας, (γ) διατηρούμε το εύρος των ομάδων σταθερό και ίσο για όλες τις ομάδες. Για την απεικόνιση των ποσοτικών μεταβλητών χρησιμοποιούνται τα ιστογράμματα. Ενώνοντας τις κορυφές των ιστών σχηματίζεται μια καμπύλη η οποία έχει ένα συγκεκριμένο σχήμα. Ανάλογα με τον τύπο της κατανομής έχουμε κανονική κατανομή: κωδωνοειδής κατανομή, θετικά λοξή κατανομή: οι τιμές εκτείνονται δυσανάλογα προς τις θετικές τιμές και αρνητικά λοξή κατανομή: οι τιμές εκτείνονται δυσανάλογα προς τις αρνητικές τιμές.
3 Αντιπροσωπευτικό/Τυχαίο δείγμα είναι ένα δείγμα πληθυσμού κάθε μέλος του οποίου έχει την ίδια πιθανότητα και όχι απλώς την δυνατότητα να περιληφθεί στο δείγμα. Ένα δείγμα όσο πιο μεγάλο είναι, τόσο πιο αντιπροσωπευτικό/τυχαίο είναι. Αντιπροσωπευτικές τιμές θέσης και διασποράς ονομάζονται οι αριθμητικές τιμές οι οποίες υπολογιζόμενες με βάση τα αναλυτικά στοιχεία της κατανομής μπορούν να υποδείξουν τα κύρια χαρακτηριστικά της. Οι αντιπροσωπευτικές τιμές διακρίνονται σε αυτές που προσδιορίζουν την θέση και σε αυτές που προσδιορίζουν τον βαθμό της διασποράς. Αντιπροσωπευτικές τιμές θέσης 1) Επικρατούσα τιμή - mode: αποτελεί την αριθμητική τιμή στην οποία σημειώθηκαν οι περισσότερες παρατηρήσεις και σε αυτήν αντιστοιχεί πάντοτε η ψηλότερη κορυφή της αντίστοιχης καμπύλης συχνοτήτων. Όταν έχουμε ομάδες τότε η θέση της επικρατούσας εξαρτάται από τον τρόπο ομαδοποίησης. 2) Μέση τιμή - mean: ορίζεται ως το αλγεβρικό άθροισμα όλων των μετρήσεων διαιρεμένο με το πλήθος των μετρήσεων αυτών. Στη στατιστική ορολογία οι παρατηρήσεις μιας ορισμένης σειράς συμβολίζονται ως x1, x2 κλπ. Έτσι για την μέση τιμή έχουμε xμ=σxv/ν. Η μέση τιμή προσφέρεται για πολλές μαθηματικές δοκιμασίες λόγω των ιδιοτήτων της. 3) Διάμεσος τιμή median: ονομάζεται η τιμή εκείνη η οποία είναι ταυτόχρονα μικρότερη από τις μισές παρατηρήσεις και μεγαλύτερη από τις άλλες μισές. Η θέση της διαμέσου εντοπίζεται στην θέση που προσδιορίζεται από τον όρο n+1/2. Αντιπροσωπευτικές τιμές διασποράς 1) Ακραίες τιμές: είναι οι τιμές που προσδιορίζουν το εύρος της κατανομής από την οποία προέρχονται αλλά η αδυναμία τους να εκτιμήσουν τη διασπορά των ενδιάμεσων παρατηρήσεων περιορίζει την χρησιμότητά τους. 2) Εκατοστημόρια: είναι εννοιολογικώς ομόλογα της διαμέσου και αντιστοιχούν στις αριθμητικές εκείνες τιμές του μετρούμενου μεγέθους. Γενικά ένα εκατοστημόριο Κ παίρνει την τιμή της παρατήρησης εκείνης της οποίας η σειρά προσδιορίζεται από τον τύπο Κ*(n+1)/100. Τα σημαντικότερα εκατοστημόρια είναι το 25 ο, το 50 ο και το 75 ο τα οποία ονομάζονται τεταρτημόρια. 3) Σταθερή απόκλιση: αποτελεί αξιόλογο μέτρο του βαθμού διασποράς των παρατηρήσεων, και γενικά είναι πολύτιμη έννοια στη βιοστατιστική. Μαζί με την έννοια της σταθερής απόκλισης εισάγεται η έννοια της μεταβλητότητας, ένα μέγεθος το οποίο υπολογίζεται με συνεκτίμηση των αριθμητικών τιμών όλων των μετρήσεων. Η μεταβλητότητα συμβολίζεται με V= Σ(x-xμ) 2 /n. Η σταθερή απόκλιση συμβολίζεται με SD ή S και ισούται με SD= V= Σ(x xμ)2. Λόγω πειραματικών δεδομένων στον τύπο αυτό το n αντικαθί- n σταται από το n-1. Όταν δοθεί η μέση τιμή και η σταθερή απόκλιση τότε είναι πιθανό να υπολογιστεί ο αριθμός των παρατηρήσεων που περιλαμβάνονται μεταξύ διάφορων τιμών. Έτσι σε ένα διάστημα μιας σταθερής απόκλισης εκατέρωθεν της μέσης τιμής περιλαμβάνονται τα 68,27% των παρατηρήσεων. Σε ένα διάστημα δυο σταθερών αποκλίσεων εκατέρωθεν της μέσης τιμής περιλαμβάνονται τα 95,44% και σε ένα διάστημα τριών σταθερών αποκλίσεων εκατέρωθεν της μέσης τιμής συμπεριλαμβάνονται τα 99,74%. Σε ένα διάστημα 1,96 σταθερών αποκλίσεων εκατέρωθεν της μέσης τιμής περιλαμβάνονται τα
4 95% των παρατηρήσεων. Αυτά είναι δυνατόν να εφαρμοστούν μόνο αν η κατανομή είναι κωδωνοειδής και κανονική. Σε περίπτωση που η κατανομή δεν είναι κωδωνοειδής ούτε κανονική ή είναι ασύμμετρες τότε είναι δυνατόν να μετασχηματιστούν σε κωδωνοειδείς με την βοήθεια ειδικών μοντέλων. Η αλλαγή αυτή μπορεί να γίνει με δύο βασικούς τρόπους. Πρώτον, λογαριθμίζοντας ή δεύτερον υψώνοντας σε τετράγωνο. Για να γίνει λογαρίθμιση θα πρέπει όλες οι παρατηρήσεις να είναι θετικές. Αν κάποιες τιμές είναι αρνητικές, τότε θα προσθέσουμε σε όλες τις τιμές την ελάχιστη δυνατή τιμή έτσι ώστε όλες να γίνουν θετικές. Η διαδικασία αυτή ονομάζεται μετασχηματισμός. Φυσιολογικές τιμές Για τον υπολογισμό των φυσιολογικών τιμών στηριζόμαστε σε στατιστικές μελέτες σε ομάδες φυσιολογικών ατόμων. Οι περισσότερες τιμές στα φυσιολογικά βιολογικά μεγέθη συγκεντρώνονται κυρίως γύρω από την μέση τιμή. Δηλαδή οι τιμές έχουν μεγαλύτερη πιθανότητα να βρεθούν κοντά στην μέση τιμή του μεγέθους και μικρότερη πιθανότητα να βρίσκονται μακριά από αυτήν. Τα όρια φυσιολογικών τιμών συμβατικά ορίζονται και συμπεριλαμβάνονται συνήθως μέσα στο διάστημα μέση τιμή +/- 2 σταθερές αποκλείσεις. Οι φυσιολογικές τιμές όμως δεν είναι πάντοτε αυστηρά καθορισμένες. Αν ένα βιολογικό μέγεθος σε έναν οργανισμό είναι εκτός από αυτά τα όρια δεν σημαίνει απαραίτητα πως είναι μη φυσιολογικό. Συντελεστής μεταβλητότητας Επιτρέπει τη στατιστική διατύπωσή της παρατήρησης ότι ένα μέγεθος μεταβάλλεται πιο γρήγορα από ένα άλλο, ή από πολλά άλλα. Ο συντελεστής μεταβλητότητας ορίζεται ως 100*σταθερή απόκλιση/μέση τιμή. Πειραματικό σφάλμα Η μέτρηση του πειραματικού σφάλματος γίνεται συνήθως με την πραγματοποίηση δύο προσδιορισμών στο καθένα από μια σειρά δειγμάτων. Οι διαφορές μεταξύ των τιμών μας δίνουν την δυνατότητα υπολογισμού του πειραματικού σφάλματος. ΠΣ= Τ_Ρ(Σd 2 /2n). Κεφάλαιο 2 T TEST KAI ΠΟΣΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΕΣ Πιθανό σφάλμα Ονομάζεται το μέτρο της ενδεχόμενης απόστασης της μέσης τιμής του δείγματος από την αντίστοιχη πραγματική. Ονομάζεται επίσης πρότυπο σφάλμα ή standard error και υπολογίζεται ως SD=S/ n. Όσο πιο μικρό είναι το πιθανό σφάλμα της μέσης τιμής ενός δείγματος τόσο μεγαλύτερη είναι η ακρίβεια της αντίστοιχης πραγματικής μέσης τιμής και αντίστροφα. p-value & t-value
5 Με τον όρο p-value εννοούμε την πιθανότητα λάθους. Αν η τιμή αυτή είναι μικρότερη από μια τιμή η οποία ορίζεται κατά σύμβαση (5%) τότε η διαφορά που βρέθηκε είναι στατιστικά σημαντική και δεν οφείλεται στην τυχαιότητα. Το t-value είναι μια τιμή πέραν της οποία κάτι θεωρείται στατιστικά σημαντικό. Μια διαφορά μπορεί να είναι στατιστικά σημαντική όταν: 1) Αν η διαφορά είναι καθ εαυτή μεγάλη έστω και ο αριθμός των παρατηρήσεων είναι σχετικά μικρός 2) Αν ο αριθμός των παρατηρήσεων είναι μεγάλος έστω και αν η διαφορά είναι σχετικά μικρή 3) Αν η σταθερή απόκλιση S της κατανομής είναι μικρή. Ως βαθμούς ελευθερίας εννοούμε τον αριθμό των παρατηρήσεων μειωμένου κατά 1 δηλαδή n-1 ώστε να χρησιμοποιηθεί για την μελέτη του πίνακα των οριακών τιμών. Το t-test έχει τον εξής τύπο: Δ SE = x1 x2. s1^2 +s2^2 n1 n2 Προϋποθέσεις εφαρμογής του κριτηρίου t-test 1) Για τις δύο κατανομές θα πρέπει να μην είναι εξαιρετικά άνισες οι δύο σταθερές αποκλίσεις αυτών. 2) Οι δύο κατανομές δεν θα πρέπει να είναι σαφώς ασύμμετρες (η μία ή/και οι δύο από αυτές). 3) Ο αριθμός των παρατηρήσεων δεν θα πρέπει να είναι μικρός. 4) Θα πρέπει να γνωρίζουμε τον τύπο της κατανομής. 5) Οι κατανομές δεν θα πρέπει να είναι πολυκόρυφες. Όρια αξιοπιστίας και διάστημα αξιοπιστίας Το διάστημα που καθορίζεται με την προσθαφαίρεση 1,96*SE δηλαδή δύο περίπου πιθανών σφαλμάτων στην ευρεθείσα μέση τιμή περιλαμβάνει την αντίστοιχη πραγματική με πιθανότητα 95%. Για αυτό το λόγο το διάστημα xμ+/- 1,96*SE λέγεται το κατά 95% διάστημα αξιοπιστίας και τα όριά του αντίστοιχα λέγονται 95% όρια αξιοπιστίας. Υπάρχει και άλλος ένας τύπος t-test και αυτός είναι το t-test κατά ζεύγη. Αυτό εφαρμόζεται όταν έχουμε συζευγμένες παρατηρήσεις. Η δοκιμασία αυτή είναι πιο ισχυρή από το συνηθισμένο t-test επειδή τεκμηριώνει κατά κανόνα πιο εύκολα και με μικρότερο αριθμό παρατηρήσεων την ενδεχόμενη στατιστική σημαντικότητα μιας πραγματικής διαφοράς. Για το t-test κατά ζεύγη υπολογίζονται οι διαφορές δ των αντίστοιχων μετρήσεων και τα τετράγωνα δ 2 των διαφορών αυτών. ΜΗΔΕΝΙΚΗ ΥΠΟΘΕΣΗ: Όταν επιχειρείται η εφαρμογή της στατιστικής δοκιμασίας t-test, υποτίθεται ότι μεταξύ των δύο μέσων τιμών δεν υπάρχει πραγματική διαφορά. Η υπόθεση αυτή λέγεται μηδενική υπόθεση ή άκυρη υπόθεση. Αν μετά την στατιστική δοκιμασία βρεθεί ότι οι δύο αυτές μέσες τιμές διαφέρουν, τότε η μηδενική υπόθεση μπορεί να θεωρηθεί απορριπτέα. Γενικά σε όλες τις στατιστικές δοκιμασίες η έννοια της μηδενικής υπόθεσης είναι παρόμοια. Διευθύνσεις δοκιμασιών: όταν δεν γνωρίζουμε ποια μέση τιμή είναι μεγαλύτερη της άλλης τότε θα πρέπει να εξετάσουμε και τις δύο πιθανότητες, έτσι η δοκιμασία αυτή λέγεται δύο κατευθύνσεων. Όταν γνωρίζουμε πως η μία από τις δύο ισχύει τότε η δοκιμασία λέγεται μιας διεύθυνσης.
6 ΣΦΑΛΜΑΤΑ ΣΦΑΛΜΑ ΤΥΠΟΥ Ι: Απόρριψη της μηδενικής υπόθεσης όταν αυτή ισχύει ΣΦΑΛΜΑ ΤΥΠΟΥ ΙΙ: Αποδοχή της μηδενικής υπόθεσης όταν αυτή δεν ισχύει. Ως ισχύς μιας στατιστικής δοκιμασίες ορίζεται η συμπληρωματική πιθανότητα του σφάλματος τύπου ΙΙ. Με την αύξηση των παρατηρήσεων στο δείγμα μειώνεται η πιθανότητα και για τα δύο λάθη. Όσον αφορά την ισχύ, όσο μεγαλύτερο είναι το δείγμα τόσο μεγαλύτερη είναι και η ισχύς της δοκιμασίας, παρόλα αυτά η ισχύς εξαρτάται σε μεγάλο βαθμό και από τον τύπο της δοκιμασίας. Κεφάλαιο 3 - Χ 2 ΚΑΙ ΠΟΙΟΤΙΚΕΣ ΜΕΤΑΒΛΗΤΕΣ Η δοκιμασία Χ 2 είναι μια στατιστική δοκιμασία η οποία προϋποθέτει την διαξονική διάταξη. Η αξιοπιστία της δοκιμασίας δεν επηρεάζεται από την αναλογική σχέση των αριθμών των παρατηρήσεων στις διάφορες κατηγορίες και δεν είναι αναγκαία λοιπόν η ισότητα των παρατηρήσεων στις δύο ομάδες, παρόλα αυτά η ισχύς της δοκιμασίας είναι μικρότερη όταν η διαφορά μεταξύ των αριθμών των παρατηρήσεων στις δυο κατηγορίες είναι μεγαλύτερη. Όπως και στη δοκιμασία t-test έτσι και στη δοκιμασία Χ 2 υπάρχουν οι έννοιες της μηδενικής και άκυρης υπόθεσης καθώς και οι διάφορες διευθύνσεις. Σε έναν πίνακα συμβολίζουμε τις στήλες με το γράμμα Κ και τις σειρές με το γράμμα L. Ο συνολικός αριθμός των κελιών υπολογίζεται ως K*L. Από τον αριθμό αυτό εξαιρούνται τα κελιά που περιέχουν τα σύνολα. Σε καθένα από αυτά τα κελιά τοποθετείται μια παρατηρηθείσα συχνότητα η οποία συμβολίζεται με O (Observed). Για την διενέργεια της στατιστικής δοκιμασίας του Χ 2 έχουμε και άλλο ένα είδος συχνότητας το οποίο ονομάζεται αναμενόμενη συχνότητα και συμβολίζεται με E (Expected). Οι αναμενόμενες συχνότητες υπολογίζονται με βάση την μηδενική υπόθεση με την βοήθεια του τύπου: Ε= (οριζόντιο σύνολο) (κάθετο σύνολο) γενικό σύνολο Έτσι η δοκιμασία Χ 2 έχει τον τύπο: Χ 2 =Σ (Ο Ε)2. Ε Οι βαθμοί ελευθερίας στην στατιστική δοκιμασία Χ 2 υπολογίζονται ως (Κ-1) * (L-1) όπου Κ ο αριθμός των στηλών και L ο αριθμός των σειρών. Η στατιστική δοκιμασία Χ 2 ως κριτήριο ετερογένειας: ο υπολογισμός του δεν διαφέρει σε τίποτα σε σχέση με το κανονικό Χ 2 αυτό που αλλάζει είναι η εννοιολογική του ερμηνεία. Δεν ερμηνεύεται ως μέσο της συσχέτισης αλλά δείχνει τη σημαντική ετερογένεια-ανομιομορφία-ανισότητα. Η στατιστική δοκιμασία Χ 2 ως κριτήριο καλής εφαρμογής: o υπολογισμός του γίνεται με τον ίδιο τύπο με τα προηγούμενα Χ 2 εντούτοις διαφέρει ο υπολογισμός των βαθμών ελευθερίας, που γίνεται ως (αριθμός κελιών)-
7 (αριθμός παραμέτρων που χρησιμοποιήθηκαν για τον υπολογισμό των αναμενόμενων τιμών). Το Χ 2 ως κριτήριο καλής εφαρμογής χρησιμοποιείται για να ερμηνεύσει το αν το κριτήριο εδώ μπορεί όντως να εφαρμοστεί και αν τα πειραματικά δεδομένα από τις παρατηρήσεις είναι συμβατές με τις θεωρητικά αναμενόνμενες. Η στατιστική δοκιμασία Χ 2 σε δύο διαδοχικές ταξινομήσεις Τετράπτυχος πίνακας Ο τετράπτυχος πίνακας έχει έναν βαθμό ελευθερίας γιατί έχει μόνο 4 κελιά. Ο τύπος του Χ 2 σε αυτήν την περίπτωση αλλάζει και προσαρμόζεται σε κάτι πιο εύχρηστο για τον τετράπτυχο πίνακα συγκεκριμένα: Χ 2 = (ad bc) 2 n 2 (a+b) (c+d) (a+c) (b+d) Η στατιστική δοκιμασία Χ 2 ως κριτήριο της διαφοράς των δύο αναλογιών Χρησιμοποιείται όπως το Χ 2 για δυο διαδοχικές ταξινομήσεις γιατί έχει μεγάλη χρησιμότητα για τον υπολογισμό της διαφοράς μεταξύ των δύο αναλογιών στον πίνακα. Η στατιστική δοκιμασία Χ 2 για σύγκριση ποιοτικών μεταβλητών κατά ζεύγη Η δοκιμασία αυτή χρησιμοποιείται όταν οι ομάδες ποιοτικών μεταβλητών εμφανίζουν ατομική κατά ζεύγη αντιστοιχία. Ο τύπος του Χ 2 κατά ζεύγη είναι: Χ 2 = ( ε ζ 1)2 ε+ζ Όπου ε είναι ο αριθμός των ζευγών στα οποία φάνηκε η υπεροχή της μιας μεθόδου και ζ είναι ο αριθμός των ζευγών στα οποία φάνηκε η υπεροχή της άλλης μεθόδου. ΑΞΙΟΛΟΓΗΣΗ ΤΟΥ ΒΑΘΜΟΥ ΣΥΣΧΕΤΙΣΗΣ ΠΟΙΟΤΙΚΩΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Η τιμή Χ 2 αυτή καθ αυτή δεν αποτελεί αξιόπιστο μέτρο του βαθμού της συσχέτισης ποιοτικών χαρακτηριστικών. Ως μέτρο του βαθμού αυτού μπορούν να χρησιμοποιηθούν τα εξής πηλίκα: Χ 2 n ή Χ 2 n βαθμοί ελευθερίας Ειδικά όταν έχουμε τετράπτυχους πίνακες τα πηλίκα αυτά μετασχηματίζονται σε a d. To πηλίκο αυτό ονομάζεται σχετικός λόγος. ΣΥΓΚΡΙΣΗ ΚΙΝΔΥΝΩΝ Προοπτικές έρευνες αναφέρονται σε άτομα ενός πληθυσμού η επιλογή των οποίων γίνεται με κριτήριο αν έχουν εκτεθεί σε έναν παράγοντα που ενδέχεται να επηρεάζει την εμφάνιση ενός δεδομένου αποτελέσματος. Έρευνες ασθενών μαρτύρων αναφέρονται σε άτομα ενός πληθυσμού τα οποία έχουν προσβληθεί ή όχι από το νόσημα που μελετάται. Στις έρευνες αυτές ελέγχεται αν η συχνότητα των διάφορων χαρακτηριστικών διαφέρει μεταξύ ασθενών και μαρτύρων. Και στις δύο διαδικασίες χρειάζεται να γίνουν συγκρίσεις ανάμεσα σε ομάδες με διαφορετικά χαρακτηριστικά. ΙΕ= a / (a+b) (συχνότητα εμφάνισης του αποτελέσματος σε άτομα που εκτίθενται σε κάποιο παράγοντα b c
8 ΙΝΕ= c / (c+d) (συχνότητα εμφάνισης του αποτελέσματος σε άτομα που δεν έχουν εκτεθεί σε αυτόν τον παράγοντα) Ο σχετικός κίνδυνος μπορεί να υπολογιστεί από τον τύπο RR= IE / INE o τύπος όμως αυτός μπορεί να απλοποιείται σε (a/c)*(d/b). Ο τύπος του σχετικού κινδύνου είναι ίδιος και για τις δυο κατηγορίες δοκιμασιών. Αξιολόγηση των εργαστηριακών ευρυμάτων Τα κυριότερα κριτήρια αξιολόγησης των εργαστηριακών μεθοδών είναι η ακρίβεια/αξιοπιστία, η ευαισθησία, η ειδικότητα, η διαγνωστική αξία, η ανεξαρτησία, η απλότητα και η ευχρηστία τους. Ακρίβεια/Αξιοπιστία των ευρημάτων μιας εργαστηριακής δοκιμασίας αποτελεί το μέτρο της σταθερότητας και επαναληπτότητας των ευρημάτων μιας σειράς προσδιορισμών που γίνονται σε ένα ορισμένο δείγμα Ευαισθησία είναι μέτρο της συχνότητας των ορθά θετικών ευρημάτων ανάμεσα στο σύνολο αυτών που πάσχουν από τη νόσο. Ειδικότητα είναι μέτρο της ορθότητας των ορθά αρνητικών ευρημάτων ανάμεσα στο σύνολο εκείνων που δεν πάσχουν από την νόσο. Διαγνωστική αξία είναι το σύνολο των ορθά θετικών ευρημάτων μέσα στο σύνολο των θετικών ευρημάτων. Ανεξαρτησία είναι το κατά πόσο μια μέθοδος είναι ανεξάρτητη από μια άλλη μέθοδο. Όρια αξιοπιστίας και διάστημα αξιοπιστίας σε αναλογίες Α) Ο αριθμός των παρατηρήσεων είναι αρκετά μεγάλος και η τιμή της αναλογίας που υπολογίστηκε είναι μεταξύ 0,10 και 0,90 Σε αυτήν την περίπτωση SEp = (p*q/n) και τα 95% όρια αξιοπιστίας είναι p = p+/- 1,96 * (p*q/n) και τα αντίστοιχα 99% όρια αξιοπιστίας είναι p = p +/- 2,58 * (p*q/n) Β) Ο αριθμός των παρατηρήσεων είναι αρκετά μεγάλος και η τιμή της αναλογίας που υπολογίστηκε είναι ή πολύ μικρή ή πολύ μεγάλη. Γ) Ο αριθμός των παρατηρήσεων είναι πολύ μικρός. Κεφάλαιο 4 Συσχέτιση και Εξάρτηση Στατιστική συσχέτιση: έχουμε όταν μελετάμε το πώς συμμεταβάλλονται δύο διαφορετικές μεταβλητές. Στατιστική εξάρτηση: έχουμε όταν μελετάμε το πώς η μεταβολή της μιας μεταβλητής εξαρτάται από την μεταβολή μιας άλλης.
9 Μπορούμε να έχουμε θετική ή αρνητική συσχέτιση. Θετική συσχέτιση έχουμε όταν οι υψηλές τιμές του ενός μεγέθους ταυτίζονται με τις υψηλές τιμές του άλλου και αρνητική συσχέτιση έχουμε όταν οι υψηλές τιμές του ενός μεγέθους ταυτίζονται με τις χαμηλές τιμές του άλλου μεγέθους. Η εξάρτηση μεταξύ δυο μεγεθών μπορεί να είναι γραμμική και να έχει την εξίσωση της μορφής: y^ = y- + b (x x-). Ο συντελεστής b ονομάζεται συντελεστής εξάρτησης και έχει μονάδες ανάλογα με τις μονάδες των μεγεθών που συσχετίζονται. Ο συντελεστής εξάρτησης μπορεί να είναι θετικός, αρνητικός, μηδενικός ή να μην υπάρχει καμία εξάρτηση. Συντελεστής συσχέτισης Χρησιμοποιείται για την μελέτη της στατιστικής συσχέτισης δύο ποσοτικών μεταβλητών. Συμβολίζεται με r και αποτελεί μέτρο του βαθμού συσχέτισης. Ιδιότητες του συντελεστή συσχέτισης 1) Αποτελεί μέτρο της ευθλυγραμμης συσχέτισης. Αν υπάρχει άλλου είδους συσχέτιση τότε ο συντελεστής μετράει μόνο την ευθύγραμμη διάστασή της. 2) Είναι καθαρός αριθμός, δηλαδή δεν έχει φυσικές διαστάσεις και μονάδες. 3) Μπορεί να πάρει τιμές από το -1 έως και το 1. 4) Η μορφή του διαγράμματος συσχέτισης εξαρτάται από την τιμή του συντελεστή συσχέτισης. 5) Αποτελεί μέτρο του βαθμού συσχέτισης, αλλά η αντιστοιχία δεν είναι αναλογική. 6) Υπόκειται σε μεγάλη τυχαία διακύμανση. Για να αξιολογήσουμε τον συντελεστή συσχέτισης μας ενδιαφέρει να δούμε αν η τιμή του διαφέρει από το μηδέν. Αν η τιμή του συντελεστή είναι μηδέν τότε δεν υπάρχει συσχέτιση ενώ όταν είναι διάφορη του μηδέν τότε υπάρχει. Κεφάλαιο 5 ΠΟΛΛΑΠΛΕΣ ΕΞΑΡΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΕΞΑΡΤΗΣΗ Είναι πιθανό ένα μέγεθος να μην εξαρτάται μόνο από ένα άλλο αλλά από μια σειρά άλλων μεγεθών. Όταν λοιπόν η μεταβολή των τιμών ενός μεγέθους εξαρτάται από την μεταβολή των τιμών άλλων μεγεθών, λέμε πως έχουμε πολλαπλή εξάρτηση. Η μεταβλητή της οποίας οι τιμές επηρεάζονται ονομάζεται εξαρτημένη και οι μεταβλητές που επηρεάζουν τις τιμές μιας άλλης ονομάζονται ανεξάρτητες. Οι ανεξάρτητες μεταβλητές μπορούν να είναι ποιοτικές, ποσοτικές ή διατάξιμες. Αν η εξαρτημένη μεταβλητή είναι ποσοτική τότε έχουμε πολλαπλή γραμμική εξάρτηση. Σε αυτή την μέθοδο, δεν λαμβάνονται υπόψιν τυχών συσχετίσεις μεταξύ των ανεξάρτητων μεταβλητών. Η γραμμική πολλαπλή εξάρτηση εκφράζεται από τη σχέση: y^ = a + b1x1 + + bkxk. Οι συντελεστές b ονομάζονται συντελεστές μερικής εξάρτησης και εννοιολογικά είναι ομόλογοι προς τον συντελεστή κλίσης
10 της απλής γραμμικής εξάρτησης. Κάθε ένας από αυτούς τους συντελεστές εκφράζει την αναμενόμενη μεταβολή της εξαρτημένης μεταβλητής όταν η αντίστοιχη ανεξάρτητη μεταβληθεί κατά μια μονάδα και οι υπόλοιπες παραμείνουν σταθερές. Αν έχω ν παρατηρήσεις τότε ο αριθμός των παραμέτρων θα είναι σαφώς μικρότερος. Το πηλίκο του συντελεστή bi προς το πιθανό σφάλμα SEbi είναι δυνατόν να αξιολογηθεί στατιστικά με αναφορά στην κατανομή t στους n-k-1 βαθμούς ελευθερίας, όπου n είναι ο αριθμός των παρατηρήσεων και k ο αριθμός των ανεξάρτητων μεταβλητών. Αν δύο ανεξάρτητες μεταβλητές συσχετίζονται γραμμικά με υψηλό συντελεστή συσχέτισης, όταν δηλαδή υπάρχει συγγραμμικότητα που προσεγγίζει το 1 τότε είναι μεν δυνατός ο αριθμητικός υπολογισμός των συντελεστών b αλλά θα έχουν πολύ μεγάλο πιθανό σφάλμα. Ψευδομεταβλητές Ψευδομεταβλητές ή Μεταβλητές Δείκτες ονομάζονται οι μεταβλητές οι οποίες μπορούν να μπουν στο μοντέλο της πολλαπλής εξάρτησης και μπορούν να παίρνουν δύο συμβατικές τιμές όπως για παράδειγμα 1 και 0. ΛΟΓΑΡΙΘΜΙΣΤΙΚΗ ΕΞΑΡΤΗΣΗ Η εξαρτημένη μεταβλητή είναι ποιοτική με δύο πιθανά αποτελέσματα και επομένως δεν είναι δυνατή η εφαρμογή της πολλαπλής γραμμικής εξάρτησης. Συνήθως εφαρμόζεται η λογαριθμιστική εξάρτηση που στηρίζεται επίσης στην εφαρμογή ενός μοντέλου στα δεδομένα. Στην απλούστερη περίπτωση της λογαριθμιστικής εξάρτησης η εξαρτημένη μεταβολή κωδικοποιείται και παίρνει δύο τιμές δηλαδή 0 και 1. Αν p είναι η αναλογία των ατόμων που έχουν την υπό μελέτη ασθένεια τότε 1-p είναι η αναλογία των ατόμων που δεν την έχουν. Το πηλίκο p 1 p είναι ο μετασχηματισμός logit: logit ( p ) = log ( πολλαπλής γραμμικής εξάρτησης. ονομάζεται λόγος συμπληρωματικών πιθανοτήτων και ο λογάριθμος του p 1 p ). Το μοντέλο που εφαρμόζεται και εδώ έχει την μορφή της Κεφάλαιο 6 ΜΗ ΠΑΡΑΜΕΤΡΙΚΕΣ ΔΟΚΙΜΑΣΙΕΣ ΣΕΙΡΑΣ Μη παραμετρικές δοκιμασίες σειράς 1) Δοκιμασία των σημείων 2) Δοκιμασία Wilcoxon για παρατηρήσεις κατά ζεύγη 3) Δοκιμασία Wilcoxon για παρατηρήσεις χωρίς αντιστοιχία 4) Βαθμός συσχέτισης μεταξύ ποσοτικών μεταβλητών που δεν κατανέμονται κανονικά/ Μη παραμετρικός συντελεστής συσχέτισης Spearman
11 Δοκιμασία των σημείων Συγκρίνονται μια σειρά Α με n σημεία με μια σειρά Β με επίσης n σημεία με αποτέλεσμα να δημιουργούνται n ζεύγη. Οι παρατηρήσεις αφορούν διατάξιμο ή ποσοτικό χαρακτηριστικό. Δοκιμασία Wilcoxon για παρατηρήσεις κατά ζεύγη Χρησιμοποιείται για την στατιστική αξιολόγηση της διαφοράς μεταξύ δύο ομάδων όταν οι παρατηρήσεις εμφανίζουν ατομική κατά ζεύγη αντιστοιχία. Χρησιμοποιείται για την περιγραφή ποσοτικών χαρακτηριστικών τα οποία κατανέμονται μη κανονικά ή με τρόπο άγνωστο ή με τρόπο ο οποίος δεν επιτρέπει την δημιουργία πολλών ζευγαριών. Είναι εννοιολογικά αντίστοιχη της στατιστικής δοκιμασίας t-test κατά ζεύγη. Δοκιμασία Wilcoxon για παρατηρήσεις χωρίς αντιστοιχία Χρησιμοποιείται για την στατιστική αξιολόγηση της διαφοράς μεταξύ δύο ανεξάρτητων ομάδων παρατηρήσεων δηλαδή ομάδων των οποίων οι παρατηρήσεις δεν εμφανίζουν αντιστοιχία κατά ζεύγη. Μη παραμετρικός συντελεστής συσχέτισης Spearman Συμβολίζεται ως rs και αποτελεί μέτρο της συσχέτισης μεταξύ δύο διατάξιμων ή ποσοτικών χαρακτηριστικών. Αυτός εφαρμόζεται τόσο σε διαβαθμιζόμενα όσο και σε ποσοτικά χαρακτηριστικά καθώς και σε κατανομές συχνοτήτων οποιασδήποτε μορφής. Κεφάλαιο 7 Πρόκειται γενικά για ένα επουσιώδες κεφάλαιο το οποίο δεν προσφέρεται ούτε για θεωρητικά θέματα ούτε όμως και πρακτικά. Μπορεί να γίνει μια γρήγορη ανάγνωση από το βιβλίο, αλλά δεν έχει να προσφέρει κάτι. ΕΝΔΕΙΚΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΦΡΟΝΤΙΣΤΗΡΙΩΝ 1 Σε τυχαίο δείγμα 500 ατόμων από ένα πληθυσμό, η μέση τιμή της χοληστερόλης του ορού είναι 220mg/dl και η σταθερή απόκλιση 20. Πόσα περίπου άτομα θα έχουν τιμές χοληστερόλης μεταξύ 240 και 260; Πόσα άτομα αναμένεται να έχουν τιμές εκτός των φυσιολογικών ορίων; Πόσα άτομα βρίσκονται μεταξύ 220 και 230; 2 Για τη μελέτη των πιθανών επιδράσεων των επιπέδων του μολύβδου στην ανάπτυξη των παιδιών μελετήθηκε ένα τυχαίο δείγμα 25 παιδιών σχολικής ηλικίας από περιοχή με χαμηλά επίπεδα μολύβδου στο περιβάλλον (Α) και ένα αντίστοιχο δείγμα 20 παιδιών από περιοχή με ψηλά επίπεδα μολύβδου στο περιβάλλον (Β). στον πίνακα που ακολουθεί δίνεται το ανάστημα
των παιδιών κάθε περιοχής. Διαφέρει το ανάστημα στις δύο περιοχές; Ποια τα 95% όρια αξιοπιστίας της διαφοράς του μέσου αναστήματος των παιδιών στις περιοχές αυτές; 12 3 Την πρώτη ώρα η ταχύτητα καθίζησης των ερυθρών αιμοσφαιρίων (Τ.Κ.Ε.) 4 υγιών ατόμων ήταν 12mm, 9mm, 6mm,7mm. Μετά την προσβολή των ατόμων αυτών από τι ίδιο νόσημα, η Τ.Κ.Ε. έγινε 22mm, 18mm, 14mm, 10mm. Να εξεταστεί αν το νόσημα αυτό προκαλεί μεταβολή της Τ.Κ.Ε. Ποια τα 99% όρια αξιοπιστίας της μέσης διαφοράς της Τ.Κ.Ε.; 4 Σε 100 άτομα με καρκίνο του πνεύμονα οι 24 είναι μη καπνιστές, οι 15 πρώην καπνιστές και οι 61 καπνιστές. Σε δείγμα 105 υγειών ατόμων οι 82 είναι μη καπνιστές και οι 13 πρώην καπνιστές. Α) Υπάρχει σχέση ανάμεσα στον καρκίνο του πνεύμονα και τις καπνιστικές τους συνήθειες; Β) Ανάμεσα στα άτομα με καρκίνο του πνεύμονα οι 61 είναι καπνιστές (νυν και πρώην) και πίνουν καφέ, οι 7 είναι μη καπνιστές και πίνουν καφέ ενώ 17 δε πίνουν καφέ και δεν καπνίζουν. Στο δείγμα 105 υγειών ατόμων οι 15 είναι καπνιστές ( νυν και πρώην) και πίνουν καφέ, οι 18 είναι μη καπνιστές και πίνουν καφέ, ενώ 64 δεν πίνουν καφέ και δεν καπνίζουν. Υπάρχει σχέση ανάμεσα στον καρκίνο του πνεύμονα και στην κατανάλωση καφέ; 5 100 άτομα ρωτήθηκαν αν αρρώστησαν από κοινό κρυολόγημα αφενός το Σεπτέμβριο και αφετέρου το Νοέμβριο της ίδιας χρονιάς. Από αυτά 20 αρρώστησαν και τους 2 μήνες, 60 σε κανένα, 5 μόνο το Σεπτέμβριο και 15 μόνο το Νοέμβριο. Να εξεταστεί: Α) αν υπάρχει διαφορά στην πιθανότητα νόσησης τους δυο μήνες Β) αν τα άτομα που αρρώστησαν το Σεπτέμβριο εμφανίζουν διαφορετική πιθανότητα να αρρωστήσουν και το Νοέμβριο σε σύγκριση με τα άτομα που δεν αρρώστησαν το Σεπτέμβριο της ίδιας χρονιάς. 6 Στον παρακάτω πίνακα δίνεται η κατανομή 120 ατόμων ανάλογα με το μήνα της γέννησης τους. Να διερευνηθεί αν υπάρχει ομοιόμορφη αναπαραγωγικότητα στους διάφορους μήνες. Μήνας Ι Φ Μ Α Μ Ι I Α Σ Ο Ν Δ Σύνολο Γεννήσεις 5 7 13 8 12 9 13 7 6 10 12 18 120 7 Σε 25 ασθενείς με υπερχοληστερολαιμία για τη διερεύνηση της σχέσης χοληστερόλης του ορού από το βάρος και την ηλικία εφαρμόστηκαν τρία μοντέλα με τα παρακάτω αποτελέσματα: Μοντέλο 1: Υ=77,93+0,417(0,3)*βάρος+5,217(1,0)*ηλικία με R2=0.71 Μοντέλο 2: Υ=199,298+1,622(0,70*βάρος με R2 =0.07 Μοντέλο 3: Υ=575+5,321(1,1)*ηλικία με R2 =0.70
13 (σε παρένθεση δίνονται τα πιθανά σφάλματα των αντίστοιχων συντελεστών εξάρτησης) α) Τι εκφράζουν οι συντελεστές εξάρτησης της ηλικίας στα μοντέλα 1 και 3; β) Συγκρίνετε τα τρία μοντέλα. γ) Σχολιάστε τις τιμές R2 δ) Υπολογίστε τη μέση μεταβολή (και τα 95% όρια αξιοπιστίας) της χοληστερόλης ανά δεκαετή αύξηση της ηλικίας με βάση το μοντέλο 3.