Χρήσεις του Η/Υ και Βάσεις Βιολογικών Δεδομένων 3. Δεδομένα και Στατιστική Επεξεργασία Χριστόφορος Νικολάου Τμήμα Βιολογίας, Πανεπιστήμιο Κρήτης computational-genomics-uoc.weebly.com Χριστόφορος Νικολαου, ΒΙΟ109
Επαγωγική Στατιστική Ονομάζουμε Επαγωγική Στατιστική τον κλάδο της Στατιστικής που προσπαθεί να εξάγει συμπεράσματα από τα δεδομένα. Βασικό χαρακτηριστικό της Επαγωγικής Στατιστικής είναι η διατύπωση και ο έλεγχος υποθέσεων Μέρος της Επαγωγικής Στατιστικής είναι η προσπάθεια εξαγωγής σχέσεων μεταξύ παρατηρήσεων που οδηγούν στην κατανόηση φαινομένων αρχικά και στη μοντελοποίηση τους, δηλαδή την ικανότητα προβλέψεων. Χριστόφορος Νικολαου, ΒΙΟ109 2
Ένα παράδειγμα O Old Faithful Geyser είναι ο πιο διάσημος θερμοπίδακας στον κόσμο με εκρήξεις μεταξύ κάθε 45 και 100 λεπτών εδώ και πάνω από έναν αιώνα. Οι εκρήξεις διαρκούν 1.5-5 λεπτά και είναι μεταβλητής έντασης Διαθέτουμε αναλυτικά δεδομένα για μεγάλο αριθμό διαδοχικών εκρήξεων Χριστόφορος Νικολαου, ΒΙΟ109 3
Ένα παράδειγμα Διαθέτουμε δεδομένα από το χρόνο αναμονής μεταξύ δύο διαδοχικών εκρήξεων και το χρόνο διάρκειας της κάθε έκρηξης. Θέλουμε να δούμε αν μπορούμε να προβλέψουμε το πότε θα συμβεί η επόμενη έκρηξη ή και τη διάρκειά της. Πώς θα χρησιμοποιούσατε τα δεδομένα για να το κάνετε; Χριστόφορος Νικολαου, ΒΙΟ109 4
Μοντελοποιώντας τον Old Faithful Ερωτήσεις που αξίζει να κάνουμε: 1. Ποιες είναι η μέσες τιμές/διασπορές των δεδομένων μας 2. Πόσο διεσπαρμένες είναι οι τιμές των εκρήξεων 3. Κατά πόσο οι εκρήξεις είναι ομοιόμορφες σε διάρκεια και χρόνο αναμονής 4. Κατά πόσο υπάρχει συσχέτιση μεταξύ χρόνου αναμονής και διάρκειας Χριστόφορος Νικολαου, ΒΙΟ109 5
Μοντελοποιώντας τον Old Faithful Ιστόγραμμα των τιμών διάρκειας έκρηξης. Τι δείχνει η "κατανομή" όπως λέμε των τιμών; Τι συμπεράσματα βγάζουμε για τις εκρήξεις; Χριστόφορος Νικολαου, ΒΙΟ109 6
Μοντελοποιώντας τον Old Faithful Διάγραμμα σκέδασης της διάρκειας έκρηξης έναντι του χρόνου αναμονής μέχρι την έκρηξη. Εδώ έχουμε δύο είδη δεδομένων σε ένα διάγραμμα που είναι όμως συνδεδεμένα μεταξύ τους (paired). Τι συμπεράσματα βγάζουμε για τους χρόνους διάρκειας; Χριστόφορος Νικολαου, ΒΙΟ109 7
Μοντελοποιώντας τον Old Faithful Διάγραμμα σκέδασης όπου διακρίνονται δύο κατηγορίες εκρήξεων (μικρής και μεγάλης διάρκειας) Είναι προφανές ότι υπάρχουν δύο ομάδες. Χριστόφορος Νικολαου, ΒΙΟ109 8
Μοντελοποιώντας τον Old Faithful Γραμμική Συσχέτιση μεταξύ διάρκειας και χρόνου αναμονής. Μεταξύ των σημείων των δύο μεταβλητών μπορούμε να φανταστούμε μια ευθεία γραμμή. Η γραμμή αυτή αποτελεί μια εξίσωση που μπορεί (σε κάποιο βαθμό) να περιγράψει τη σχέση μεταξύ των δύο μεταβλητών. Σκεφτείτε: Γιατί η εξίσωση αυτή έχει χαρακτηριστικά μαθηματικού μοντέλου; Χριστόφορος Νικολαου, ΒΙΟ109 9
Προβλήματα με τη Στατιστική Σκέψη Υπάρχει μια σειρά από λόγους που βρίσκουμε δύσκολο να σκεφτούμε (σωστά) με ποσοτικό τρόπο: 1. Τείνουμε να διακρίνουμε διαφορές και ομοιότητες εκεί που δεν υπάρχουν. 2. Υπερβάλλουμε στις εκτιμήσεις μας. Τείνουμε να πιστεύουμε ότι ξέρουμε/κατανοούμε διάφορα φαινόμενα περισσότερο απ' ό,τι πραγματικά. 3. Δεν μπορούμε να συλλάβουμε εύκολα έννοιες όπως η δεσμευμένη πιθανότητα και οι πολλαπλές υποθέσεις. Χριστόφορος Νικολαου, ΒΙΟ109 10
Προβλήματα με τη Στατιστική #1 1. Τείνουμε να εντοπίζουμε μοτίβα/μη-τυχαία χαρακτηριστικά εκεί που δεν υπάρχουν. Φανταστείτε 100 διαδοχικά σουτ ενός παίχτη του μπάσκετ. Με Χ είναι τα εύστοχα και με - τα άστοχα. Μπορείτε να πείτε αν ο παίχτης τείνει να έχει "ζεστό χέρι" να βάζει δηλαδή στη σειρα περισσότερα καλάθια απ' όσα θα περιμέναμε στην τύχη; X - - X - X - X X - X - X - X X - X - X - - X X - X X X X - - - - - - X X - X - X - - - - - X - X X X X X - - - - X - X X X X - - - - X - - - - - X - - - - X X - - X - - - - - X X - - X - - - - X - X - - - - - - X - X X - X X X X - X - X X X X - X - Χριστόφορος Νικολαου, ΒΙΟ109 11
Προβλήματα με τη Στατιστική #2 2. Τείνουμε να υπερβάλλουμε στις εκτιμήσεις μας. Στις παρακάτω ερωτήσεις δώστε ένα εύρος τιμών που να περιέχει τη σωστή απάντηση με πιθανότητα 90%. 1 Έτος γέννησης του Μότσαρτ 2 Αριθμός κατοικημένων ελληνικών νησιών 3 Μέσος όρος πόντων καριέρας για τον Νίκο Γκάλη 4 Μήκος του Δούναβη (σε km) 5 Διάρκεια κύησης ενός λιονταριού (σε ημέρες) 6 Αριθμός ταινιών του Στάνλεϊ Κιούμπρικ 7 Αριθμός Νο1 singles των Beatles 8 Ηλικία του Πάπα Φραγκίσκου 9 Αριθμός γυναικών που έχουν τιμηθεί με το Νόμπελ Λογοτεχνίας 10 Άνοιγμα φτερών ενός Airbus A320 (σε m) Χριστόφορος Νικολαου, ΒΙΟ109 12
Προβλήματα με τη Στατιστική #2 1 Έτος γέννησης του Μότσαρτ: 1756 (Wikipedia) 2 Αριθμός κατοικημένων ελληνικών νησιών: 227 (ΕΟΤ) 3 Μέσος όρος πόντων καριέρας για τον Νίκο Γκάλη: 32.8 (FIBA Europe) 4 Μήκος του Δούναβη (σε km): 2860km (Wikipedia) 5 Διάρκεια κύησης ενός λιονταριού (σε ημέρες): 110 (factophile) 6 Αριθμός ταινιών του Στάνλεϊ Κιούμπρικ: 16 (imdb.com) 7 Αριθμός Νο1 singles των Beatles: 17 (Rolling Stone Magazine) 8 Ηλικία του Πάπα Φραγκίσκου: 79 (google.com) 9 Αριθμός γυναικών με Νόμπελ Λογοτεχνίας: 13 (nobelprize.org) 10 Άνοιγμα φτερών ενός Airbus A320 (σε m): 35.8 (airbus.com) Πόσες σωστές απαντήσεις είχατε; Αν έχετε λιγότερες από 9/10 σημαίνει ότι δεν εκτιμήσατε καλά το διάστημα εμπιστοσύνης. Χριστόφορος Νικολαου, ΒΙΟ109 13
Προβλήματα με τη Στατιστική #3 3. Μας ξεγελάει ένα φαινόμενο που ονομάζεται παλινδρόμηση προς τη μέση τιμή. Επιλέγοντας ένα υποσύνολο δεδομένων με σαφή χαρακτηριστικά από ένα σύνολο, επιλέγουμε ουσιαστικά ένα μη αντιπροσωπευτικό υποσύνολο. Στο σχήμα βλέπετε την παραπλανητική εικόνα που παίρνουμε αν επιλέξουμε ένα συγκεκριμένο υποσύνολο τιμών από ένα μεγαλύτερο. Οι χαμηλές φαίνονται να Χριστόφορος Νικολαου, αυξάνονται ΒΙΟ109 στο χρόνο, ενώ οι υψηλές να μειώνονται. 14
Προβλήματα με τη Στατιστική #4 4. Δεν είναι εύκολο να συνδυάσουμε πιθανότητες. Το πρόβλημα βασίζεται σε μια αρχή που ονομάζεται "σφάλμα ποσοστού υποβάθρου" (base rate fallacy). Φανταστείτε το εξής πρόβλημα: Ένα διαγνωστικό τεστ ελέγχει μια σχετικά σπάνια ασθένεια που έχει συχνότητα εμφάνισης στον πληθυσμό: 1/25 (4%). Το τεστ έχει 95% ευαισθησία και 90% εξειδίκευση. Αυτό σημαίνει ότι αν κάποιος νοσεί, το τεστ έχει πιθανότητα 0.95 να τον διαγνώσει. Από την άλλη αν κάποιος είναι υγιής, το τεστ θα τον διαγνώσει ως υγιή με πιθανότητα 0.90. Χριστόφορος Νικολαου, ΒΙΟ109 15
Προβλήματα με τη Στατιστική #4 Κάνετε το τεστ και βγαίνετε θετικοί. Ποια είναι η πιθανότητα να νοσείτε; Αυτό που αναζητάτε είναι η πιθανότητα να είστε υγιής εφόσον το τεστ είναι θετικό. Κάτι τέτοιο στη θεωρία πιθανοτήτων ονομάζεται "δεσμευμένη πιθανότητα" και μπορεί να δημιουργήσει σοβαρά προβλήματα στο συλλογισμό μας. 9 στους 10 φοιτητές της Ιατρικής του Harvard απαντούν λάθος στην παραπάνω ερώτηση. Χριστόφορος Νικολαου, ΒΙΟ109 16
Ας σκεφτούμε λίγο: Στο γενικό πληθυσμό, οι υγιείς είναι 96% και οι ασθενείς 4%. Μεταξύ των θετικών του τεστ οι πραγματικά ασθενείς είναι: 0.95 0.04 = 0.038 κι αυτό γιατί το 5% του 4% χάνεται λόγω της μη 100% ευαισθησίας Μεταξύ των θετικών του τεστ οι ψευδώς διαγνωσμένοι ως ασθενείς είναι: 0.10 0.96 = 0.096 Χριστόφορος Νικολαου, ΒΙΟ109 17
Ας σκεφτούμε λίγο: Το παραπάνω σημαίνει ότι αν το τεστ είναι θετικό υπάρχει 3 φορές μεγαλύτερη πιθανότητα να είμαστε υγιείς παρά να νοσούμε, εφόσον 9.6% > 3.8%. Το "παράδοξο" αυτό δεν είναι παράδοξο. Είναι απλώς το αποτέλεσμα που έχει η πιθανότητα υποβάθρου (να είστε υγιείς) η οποία είναι πολύ μεγάλη (96%). Το γεγονός ότι τόσο πολύ περισσότεροι είναι υγιείς από τους ασθενείς δημιουργεί μεγάλα προβλήματα στη διάγνωση. Για καποιες ακόμα πιο σπάνιες παθολογικές καταστάσεις τα διαγνωστικά τεστ απαιτούν εκπληκτικά μεγάλη ακρίβεια για να ξεπεραστεί αυτή η σκληρή μαθηματική πραγματικότητα. Χριστόφορος Νικολαου, ΒΙΟ109 18
Ένα ακόμα παράδειγμα Μια μέθοδος "αλκοτεστ" έχει 100% ευαισθησία, δηλαδή θα πιάσει οπωσδήποτε κάποιον που έχει επίπεδα αλκοόλ πάνω από το επιτρεπτό όριο, αλλά 95% εξειδίκευση, δηλαδή 5% των ελέγχων σε οδηγούς που δεν έχουν πιει θα δώσει θετικό αποτέλεσμα. 1. Δεχόμαστε ότι 1 στους 1000 οδηγούς έχει καταναλώσει αλκοόλ πάνω από το όριο 2. Ένας οδηγός για τον οποίον δεν γνωρίζουμε τίποτα κάνει το τεστ και βγαίνει θετικός. Ποια είναι η πιθανότητα να έχει πιει πάνω από το όριο; Χριστόφορος Νικολαου, ΒΙΟ109 19
Ένα ακόμα παράδειγμα Αν απαντήσατε 95% έχετε κάνει ένα λάθος της τάξης του ~4750%! Σκεφτείτε και πάλι το base rate: Aπό τους οδηγούς που θα ελεγχθούν 1 στους 1000 θα είναι στ' αλήθεια "πιωμένος". Οι 999 υπόλοιποι δεν εχουν πιει. Όμως το τεστ θα κάνει λάθος στο 5% των περιπτώσεων και συνεπώς θα βγάλει θετικούς το 0.05*999=49.95 Η πιθανότητα λοιπόν να είναι στ' αλήθεια "πιωμένος" κάποιος αν είναι θετικός στο τεστ θα είναι ίση με: (πραγματικά θετικοί)/(συνολικά θετικοί)=1/(1+49.95)=1/50.95~0.02. Δηλαδή 2%!!! Χριστόφορος Νικολαου, ΒΙΟ109 20
Προβλήματα με τη Στατιστική #5 5. Δεν καταλαβαίνουμε τις πολλαπλές υποθέσεις. Φανταστείτε ότι δίνω ένα νόμισμα σε έναν από εσάς και του ζητώ να το στρίψει 100 φορές. Αν φέρει 90/100 φορές κορώνα τι θα πιστέψετε για το νόμισμα; Τώρα σκεφτείτε ότι παίρνω ένα άλλο νόμισμα και το δίνω σε καθέναν από εσάς για να κάνει το ίδιο. Τι θα πιστέψετε αν ένας από εσάς φέρει 90/100 κορώνα; Χριστόφορος Νικολαου, ΒΙΟ109 21
Ερωτήσεις 1. Ένα συχνό φαινόμενο στον επαγγελματικό αθλητισμό είναι μια ομάδα να αλλάζει προπονητή μετά από μια σειρά άσχημων αποτελεσμάτων. Μια πρόσφατη μελέτη στο Αγγλικό Πρωτάθλημα δείχνει ότι ο μέσος όρος πόντων που συλλέγει μια ομάδα στους πρώτους 3-5 αγώνες μετά την αλλαγή προπονητή είναι μεγαλύτερος από αυτόν που κέρδιζε πριν. Είναι σωστό να αλλάζουν προπονητή οι ομάδες; Γιατί; Χριστόφορος Νικολαου, ΒΙΟ109 22