Methods of analysis Summary Guide Assumptions Variables Quantitative Qualitative Normality Normal Non-normal distributed Groups Number (1, 2, >2) Pair or independent Normality Cases Cases >50 <50 Normality Normal Known Non-normal distributed identical Z-test Single t-test Questions: - Sample (<>50) mean - Known identical 1-S Kolmogorov-Smirnov Unknow n identical mean Shapiro-Wilk W test for non-normality Histogram (with superimposed normal curve)
Normality Normality Normal Non-normal distributed Questions: - Sample (<>50) - Known identical Known identical mean Unknown identical mean Cases >50 z-test Cases <50 Single t-test 1-S Kolmogorov-Smirnov Shapiro-Wilk W test for non-normality normality Histogram (with superimposed normal curve) Presentation Proportions/ratios Pies, rates, adjustment rates Interval Normal (x±sd) Non-normal [median (minmax)] Presentation Proportions/ratios Pies, rates, adjustment rates Interval Normal (x±sd) Non-normal [median (minmax)]
Statistical analysis Statistical analysis Presentations Comparisons Associations Statistical analysis (Comparisons- Rough guide) Comparisons Interval (numerical) Normal Non- Normal Proportions & Rates Chi- square test 2 groups Student t-test (Paired/Independent) 3 or more groups ANOVA plus Posthoc analysis 2 groups Non-parametric (Wilcoxon/Mann-Whitney) 3 or more groups Kruskal-Walis plus Posthoc analysis Contingency tables 2 by 2 or by r by c McNemar s (paired) Fischer s exact test (dichotomous) Statistical analysis (Relationships- Rough guide) Relationships Pairs of variables Interval (numerical) Pair of variable Controlling with 1 or more Multiple variables Dichotomous against numeric Proportions & Rates Pearson s Chi-square test Pearson Correlation Linear regression Bivariate analysis Spearmn s Rho Kendall s tau-b Partial Linear correlation With co variants MANOVA Multivariate analysis (step-up/down) Logistic regression Spearman s Rho Kendall s tau-b
Regression line (Explanation of r 2 ) 90 80 n=20 r=0.710 p=0.001 70 IFN-γ (BAL) 60 50 40 30 20 0 20 40 60 80 100 IFN-γ (sputum) Regression line (Explanation of r 2 ) 90 80 r 2 =0.50 70 IFN-γ (BAL) 60 50 40 30 20 0 20 40 60 80 100 IFN-γ (sputum) ΠΙΘΑΝΟΤΗΤΕΣ ΠΙΘΑΝΟΤΗΤΕΣ ΣΤΗΝ ΚΛΙΝΙΚΗ ΙΑΤΡΙΚΗ
Κλινική ή ερευνητική παρατήρηση Πόσο αληθινή είναι; VS. Chance Bias Τι θα συζητηθεί σε αυτό το µάθηµα Ηθεωρία των πιθανοτήτων Σφάλµατα προκατάληψης (biases) Τι είναι η p-value Τι είναι ισχύς (power) µελέτης Πολλά από τα παραδείγµατα θα αφορούν κλινικές µελέτες επειδή σε αυτές είναι πιο εύκολο να καταδειχτεί η σηµασία των πιθανοτήτων και των σφαλµάτων που υπεισέρχονται στην στατιστική ανάλυση ΙΑΚΥΜΑΝΣΗ (Variation) Κλινικές µετρήσεις του ίδιου φαινοµένου µπορεί να πάρουν διαφορετικές τιµές λόγω των καταστάσεων κάτω από τις οποίες πραγµατοποιούνται Ο καθορισµός της πιθανότητας η µέτρηση ή εκτίµηση µιας κατάστασης να µη είναι σωστή για τυχαίους λόγους είναι απαραίτητος. Το σφάλµα τυχαίο ή συστηµατικό που έχει υπεισέλθει σε κάθε µελέτη πρέπει να προσµετράτε και να λαµβάνεται υπόψη στην συζήτηση των αποτελεσµάτων µιας µελέτης
Τυχαία διακύµανση βιολογικού φαινοµένου ΤΥΧΑΙΑ ΙΑΚΥΜΑΝΣΗ ΟΦΕΙΛΕΤΑΙ ΜΕΤΡΗΣΕΩΝ ΒΙΟΛΟΓΙΚΟΙ ΛΟΓΟΙ ΕΡΓΑΣΤΗΡΙΟ ΜΗΧΑΝΗΜΑ ΚΑΛΙΜΠΡΑΡΙΣΜΑ ΠΡΩΤΟΚΟΛΟ ΕΞΕΤΑΣΗΣ ΕΞΕΤΑΣΤΗΣ ΕΞΕΤΑΖΟΜΕΝΟΣ ΕΜΠΕΙΡΙΑ ΙΑΦΟΡΕΤΙΚΟΣ ΧΡΟΝΟΣ ΚΑΤΑΡΤΙΣΗ ΙΑΦΟΡΕΤΙΚΗ ΚΑΤΑΣΤΑΣΗ ΕΦΑΡΜΟΓΗ ΠΡΩΤΟΚΟΛΟΥ (within individuals) ΒΙΟΛΟΓΙΚΕΣ ΙΑΦΟΡΕΣ ΕΞΕΤΑΖΟΜΕΝΩΝ (among individuals) Κατάσταση ΑΘΡΟΙΣΤΙΚΗ ΙΑΚΥΜΑΝΣΗ Κατανοµή µετρήσεων Ένας ασθενής- Ένας εξεταστής ιαδοχικές µετρήσεις - Ίδιος χρόνος Α Ένας ασθενής Πολλοί εξεταστές Ίδιος χρόνος Β Ένας ασθενής - Πολλοί εξεταστές Πολλές φορές Γ Πολλοί ασθενείς - Πολλοί εξεταστές - Πολλές φορές 60 70 80 90 100 110 120 ιαστολική αρτηριακή πίεση (mm( Hg) Τυχαίο σφάλµα (Random error) Η διακύµανση τιµών της διαστολικής πίεσης που περιγράφηκε προηγουµένως λέγεται τυχαίο σφάλµα Το τυχαίο σφάλµα διέπει όλα τα βιολογικά φαινόµενα και συνεπώς όλες τις ερευνητικές και κλινικές µελέτες Λέγεται τυχαίο σφάλµα επειδή υπάρχει πιθανότητα να είναι προς την µια πλευρά ή την άλλη (στο προηγούµενο παράδειγµα η διαστολική πίεση κυµάνθηκε εξίσου πάνω και κάτω από τα 90 mm Hg) Η πιθανότητα λάθους των αποτελεσµάτων µιας µελέτης πηγάζει από το γεγονός ότι η µικρή οµάδα ασθενών που µελετάτε παρόλα τα µέτρα που µπορεί να ληφθούν µπορεί να είναι διαφορετική από τον γενικό πληθυσµό στην ολότητα του
Hypothesis testing vs. Estimation approaches V Null hypothesis Estimation x (95%CI) Null Hypothesis Έστω ότι διεξάγεται κλινική µελέτη ή οποία διερευνά το ενδεχόµενο η δοκιµαζόµενη θεραπεία να είναι δραστική ή όχι. Μελετήθηκαν 2 οµάδες ασθενών Α και Β. Στην Α δόθηκε η νέα θεραπεία στην Β δόθηκε η συνήθης θεραπεία. Η µηδενική υπόθεση συνεπώς είναι: η νέα θεραπεία δεν απέδωσε σηµαντική βελτίωση σε σχέση µε την συνήθη. Η στατιστική ανάλυση που έγινε ανάλυσε τα δεδοµένα κατά όµοιο διχοτόµο τρόπο δηλ. απαντά αν τα δεδοµένα διαφέρουν σηµαντικά ή όχι µεταξύ των οµάδων Α & Β Σφάλµα τύπου Ι ή α (Type I ή (α) error) Σφάλµα τύπου ΙΙ ή β (Type ΙΙ ή (β) error) TRUE DIFFERENCE Συµπέρασµα Στατιστικής ανάλυσης Στατιστικώς σηµαντικό Στατιστικώς Μη σηµαντικό ΠΑΡΟΥΣΑ Σωστό Type ΙΙ (β) error ΑΠΟΥΣΑ Type I (α) error Σωστό
Ποια η πηγή της αβεβαιότητας για την στατιστική ανάλυση Τυχαίο σφάλµα Random variation (διαφορετικές τιµές του ίδιου βιολογικού φαινοµένου όπως αναλύθηκαν σε προηγούµενες διαφάνειες) ιάφορα σφάλµατα προκατάληψης (bias) που συστηµατικά παρεµβαίνουν στον σχεδιασµό της µελέτης, στην επιλογή ασθενών στη µελέτη, στις µετρήσεις και τελικά στην ίδια την ανάλυση Τι αντιπροσωπεύει η p value TRUE DIFFERENCE ΠΑΡΟΥΣΑ ΑΠΟΥΣΑ Συµπέρασµα Στατιστικής ανάλυσης Στατιστικώς σηµαντικό Στατιστικώς Μη σηµαντικό Σωστό Type II (β) error Type I (α) error Σωστό p value Εκφράσεις της p value - ιχοτόµος ή ακριβής έκφραση; Είναι γενικώς αποδεκτό ότι p values µικρότερες του 0.05 αποτελούν ικανοποιητικό όριο να συµπεράνουµε ότι θεµελιώνεται στατιστική σηµαντικότητα Η έκφραση p<0.05 (στατιστικώς σηµαντικό) ή p>0.05 ( στατιστικώς µη σηµαντικό) αποτελεί ένα καθιερωµένο τρόπο έκφρασης αλλά σχετικώς ανακριβή Πολλοί προτιµούν να παραθέτουν τον ακριβή υπολογισµό του p π.χ p=0.003 και να αφήνουν τους αναγνώστες να εξάγουν τα συµπεράσµατα τους
Κλινική σηµασία της p value Η στατιστικώς σηµαντική p value: εν σχετίζεται µε την πραγµατική κλινική σηµασία της µελέτης Η αριθµητική της αξία δεν είναι ανάλογη της κλινικής της σηµασίας, δηλ. πολύ µικρή p value π.χ. p=0.0001 δεν σηµαίνει αντίστοιχα ότι η κλινική σηµασία είναι µεγάλη Αντίθετα λιγότερο εντυπωσιακή p value µπορεί να κρύβει πολύ σηµαντικά κλινικά συµπεράσµατα Τι παριστά το σφάλµα τύπου ΙΙ η β Type II (β) error TRUE DIFFERENCE ΠΑΡΟΥΣΑ ΑΠΟΥΣΑ Συµπέρασµα Στατιστικής ανάλυσης Στατιστικώς σηµαντικό Στατιστικώς Μη σηµαντικό Σωστό w y Type ΙΙ (β) error Type I (α) error x z Σωστό w=1-β Statistical Power (Ισχύς)( Statistical Power (ισχύς) µελέτης Ηισχύς της µελέτης παριστάνει: Την αριθµητική αξία το β-error (όσο µεγαλύτερο το β- error τόσο µικρότερη η ισχύς [power] της µελέτης) την στατιστικώς σηµαντική διαφορά όταν η διαφορά όντως υπάρχει Μια µελέτη έχει µεγάλη στατιστική ισχύ (power) όταν έχει πολύ υψηλή πιθανότητα να ανιχνεύσει διαφορά µεταξύ των δύο υπό µελέτη οµάδων, διαφορά που αληθινά υπάρχει
Power analysis Στην έρευνα τα στοιχεία που συλλέγονται αναλύονται στατιστικώς µε σκοπό τον υπολογισµό της p- value, η οποία µε την γνωστή µεθοδολογία (p<0.05/p>0.05) εξετάζει την αξιοπιστία της απόρριψης της µηδενικής υπόθεσης Η p- value η οποία υπολογίζεται µε την χρήση της κατάλληλης στατιστικής δοκιµασίας καθορίζεται από 3 παράγοντες: α)την διαφορά ( )µεταξύ των συγκρινόµενων οµάδων, β)τον αριθµό των ασθενών (Ν) & γ) Το επίπεδο στατιστικής σηµαντικότητας που τίθεται (p) Η ανάλυση και ο υπολογισµός της ισχύος (power) της µελέτης γίνεται πριν την µελέτη µε σκοπό να προβλεφθεί η δυνατότητα της µελέτης να οδηγηθεί σε στατιστικώς σηµαντικό εύρηµα. Η ανάλυση ισχύος (power analysis) εξαρτάται από τους ίδιους παράγοντες όπως και η ανάλυση της στατιστικής σηµαντικότητας:, Ν & p Statistical power: Κλειστό σύστηµα POWER (P)(1-β) Statistical significance (α or p) Sample size (N) Effect size ( )( Μέγεθος δείγµατος Πόσοι ασθενείς χρειάζονται σε κάθε οµάδα Α & Β για να ανιχνευθεί στατιστικώς σηµαντική διαφορά µεταξύ τους
Απαιτούµενος αριθµός ασθενών στη µελέτη Παράγοντες που σχετίζονται Απαιτούµενη διαφορά µεταξύ των δύο οµάδων η οποία πρέπει να ανιχνευθεί (effect size) Alpha error (Type I error) Beta error (Type II error) Τα ιδιαίτερα χαρακτηριστικά των στοιχείων της µελέτης είγµα (Ν) Παράγοντες που σχετίζονται Sample (N) varies Investigator Data 1/Difference, 1/Palpha, 1/Pbeta Difference: διαφορά µεταξύ των 2 οµάδων P alpha : p-value (Type I error) P beta : Βήta (Type II error) V ή 1/P V: ιακύµανση των παρατηρήσεων P: Αναλογία ασθενών µε το υπό µελέτη εύρηµα Στατιστική διαφορά µεταξύ των οµάδων Effect size Effect size αναφέρεται στo µέγεθος της επίδρασης που ασκεί η νέα θεραπεία (Α) έναντι της παλιάς (Β) σε κλινικές παραµέτρους έκβασης (outcomes) Η φύση της επίδρασης δεν είναι η ίδια από µελέτη σε µελέτη. Μπορεί να είναι διαφορά στο ποσοστό αποθεραπείας, διαφορά στον στατιστικό µέσο όρο µιας µέτρησης π.χ. διαστολική πίεση ή να αναφέρεται σαν σταθερά συσχέτισης µεταξύ δύο µεταβλητών Όποια και αν είναι όµως η φύση του effect size έχει την ίδια σηµασία για την power analysis.
Ηισχύς συναρτήσει του effect size & του αριθµού των ασθενών της µελέτης 1.0 Power 0.8 0.6 0.4 0.2 0 50 100 150 200 Αριθµός ασθενών ανά group Group A=0.40, B=0.30 Group A=0.50, B=0.30 Group A=0.60, B=0.30 p=0.05, Tails=2 Ηισχύς συναρτήσει alpha-error & του αριθµού των ασθενών της µελέτης Power 1.0 0.8 0.6 0.4 74 93 139 α) Alpha =0.01 β) Alpha =0.05 γ) Alpha =0.10 0.2 0 p=0.05, Tails=2 Effect size=0.20 50 100 150 200 Αριθµός ασθενών ανά group Statistical power analysis: When? POWER (P)(1-β) Statistical significance (α or p) Sample size (N) Effect size ( )(
Statistical power analysis - Solution POWER (P)(1-β) 0.80 Statistical significance (α or p) Sample size (N) 0.05 Effect size ( )( Statistical power analysis: Goal HALF FULL HALF EMPTY Statistical Power analysis Εφαρµογή ειδικών κανόνων επίλυσης Ειδικοί µαθηµατικοί τύποι, πίνακες, νορµογράµµατα, software Προϋποθέτει τεχνογνωσία και εµπειρία Θα πρέπει να ανατίθεται σε ειδικούς Απευθυνθείτε στο Τµήµα Επιδηµιολογίας για υπολογισµό Power, Sampling, statistical analysis
Point Estimates Confidence Intervals Point estimate Το µέγεθος της επίδρασης του παράγοντα υπό έρευνα στις συγκρινόµενες οµάδες (effect size) π.χ επίδραση φαρµάκου σε κλινική µελέτη ή ο σχετικός κίνδυνος σε µελέτη cohort Αποτελεί το πιο σηµαντικό στοιχείο µιας µελέτης γιατί αντιπροσωπεύει την ουσία της µελέτης (µέγεθος επίδρασης) Αποτελεί το ουσιαστικότερο στοιχείο των περιγραφικών στοιχείων µιας έρευνας (Descriptive summary) Confidence Interval (CI) Η αληθής τιµή της επίδρασης του υπό µελέτη παράγοντα (effect size) είναι αδύνατον να υπολογιστεί στην ιατρική έρευνα Συνήθως η αληθής τιµή εµπεριέχεται σε όρια τα οποία υπολογίζονται στην µελέτη και τα ονοµάζουµε διαστήµατα εµπιστοσύνης (CI) ή όρια αξιοπιστίας Confidence Intervals: Έννοια Σηµασία Confidence Interval (CI) Συνήθως παρατίθενται µαζί µε το επίπεδο στατιστικής σηµαντικότητας που επιθυµείται π.χ 95%CI (3-4.5). Σηµαίνει ότι µε πιθανότητα 95% η αληθής τιµή εµπεριέχεται στο διάστηµα µεταξύ 3-4.53 Όσο πιο στενά είναι τα όρια εµπιστοσύνης τόσο πιο ακριβής είναι η µελέτη. Έχουν παρόµοια σηµασία µε την στατιστική σηµαντικότητα (p-value).( Confidence intervals: Πλεονεκτήµατα Παράθεση ορίων τιµών επί κλινικών συνήθως δεδοµένων Έµφαση στο κλινικό αποτέλεσµα µιας µελέτης και όχι σε στατιστική σηµαντικότητα που µπορεί να είναι αλλά µπορεί και όχι κλινικώς ενδιαφέρον Ο αναγνώστης της µελέτης µπορεί να διαµορφώσει άποψη για την κλινική σηµασία των ευρηµάτων Ευρεία όρια αξιοπιστίας ιδίως αν αυτά εµπεριέχουν την τιµή που αντιπροσωπεύει µηδενική επίδραση σηµαίνει ότι δυνατόν να ευρεθεί στατιστική σηµαντικότητα αν αυξηθεί η ισχύς της µελέτης (π.χ. αυξάνοντας τον αριθµό των ασθενών)
Το πρόβληµα των πολλαπλών συγκρίσεων (multiple comparisons) Το στατιστικό συµπέρασµα µιας µελέτης µπορεί να είναι λανθασµένα σηµαντικό όταν τίθενται πολλές ερευνητικές ερωτήσεις και επιχειρούνται πολλές στατιστικές συγκρίσεις στο ίδιο set δεδοµένων. Το πρόβληµα των πολλαπλών συγκρίσεων (multiple comparisons) Πχ.. Υποθέτουµε ότι δοκιµάζετε ένα νέο φάρµακο σε οµάδα ασθενών µε ισχαιµία. Υποθέτουµε ότι οι ερευνητές επιχειρούν πολλές συγκρίσεις χωρίζοντας τους ασθενείς σε οµάδες βαρύτητας ενώ εξετάζουν την επίδραση του φαρµάκου σε διάφορες παραµέτρους έκβασης π.χ θάνατοι, εµφράγµατα, στηθάγχη, νοσηλείες, ποιότητα ζωής κ.λ.π. Ας υποτεθεί επίσης ότι το φάρµακο δεν έχει πραγµατική θεραπευτική δράση. Κάνοντας πολλές συγκρίσεις και µε δεδοµένο ότι υπάρχει πιθανότητα 5% να ευρεθεί σηµαντικότητα τυχαίως και όχι σαν συνέπεια πραγµατικής διαφοράς, υφίσταται κίνδυνος 1 στις 20 στατιστικές αναλύσεις να δώσει σηµαντικά στατιστικό αποτέλεσµα για τυχαίους και όχι πραγµατικούς λόγους. Το πρόβληµα των πολλαπλών συγκρίσεων (multiple comparisons) Πολλαπλές ερευνητικές ερωτήσεις και επακόλουθες στατιστικές συγκρίσεις στο ίδιο set δεδοµένων µπορεί να οδηγήσει σε κάποια από αυτές σε ψευδώς στατιστικό σηµαντικό συµπέρασµα εν πρέπει παρόλα αυτά µια ευρεθείσα σηµαντική διαφορά έστω και αν είναι προϊόν multiple comparisons να απορρίπτεται αλλά να εξετάζεται µε προσοχή Μπορεί να πυροδοτήσει νέα µελέτη προς επιβεβαίωση γιατί µπορεί να υποκρύπτει σηµαντική κλινική παρατήρηση
Παράδειγµα: Confidence Intervals, Power analysis Σύντοµη παρουσίαση της µελέτης Power analysis των δύο πιο σηµαντικών παραµέτρων έκβασης της µελέτης Α Β
Power analysis της µελέτης στην φάση σχεδιασµού της εδοµένα Outcome: Ratio of complete pleural drainage Alpha=0.05 (p-value=0.05) Power = 90% Effect size (outcome difference between groups: >50% Ζητούµενο Πόσα άτοµα πρέπει να περιλαµβάνει η κάθε οµάδα για να ικανοποιηθούν τα παραπάνω δεδοµένα