Χρήσεις του Η/Υ και Βάσεις Βιολογικών Δεδομένων

Σχετικά έγγραφα
ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Αναλυτική Στατιστική

Χρήσεις του Η/Υ και Βάσεις Βιολογικών Δεδομένων

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

Περιγραφική Στατιστική. Ακαδ. Έτος ο εξάμηνο. Κ. Πολίτης

Χρήσεις Η/Υ και Βάσεις Βιολογικών Δεδομένων : ΒΙΟ109 [4] Επεξεργασία Δεδομενων σε λογιστικα φυλλα

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Στατιστική Ι. Ανάλυση Παλινδρόμησης

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία

ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ: ΣΤΑΤΙΣΤΙΚΗ ΕΝΟΤΗΤΑ: Εισαγωγικές Έννοιες ΟΝΟΜΑ ΚΑΘΗΓΗΤΗ: ΦΡ. ΚΟΥΤΕΛΙΕΡΗΣ ΤΜΗΜΑ: Τμήμα Διαχείρισης Περιβάλλοντος και Φυσικών Πόρων

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

σ = και σ = 4 αντιστοίχως. Τότε θα ισχύει

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

Στατιστική ανάλυση αποτελεσμάτων

ΤΕΙ Αθήνας Μεθοδολογία της έρευνας και Ιατρική στατιστική

Εισόδημα Κατανάλωση

Μεθοδολογία Έρευνας Κοινωνικών Επιστημών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Ερωτηµατολόγιο PMP , +

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Συγγραφή και κριτική ανάλυση επιδημιολογικής εργασίας

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

E-Class.

ΤΕΧΝΙΚΕΣ ΔΕΙΓΜΑΤΟΛΗΨΙΑΣ ΓΕΩΡΓΙΟΣ ΛΑΓΟΥΜΙΝΤΖΗΣ, ΒΙΟΧΗΜΙΚΟΣ, PHD ΙΑΤΡΙΚΗΣ

Κάνοντας ακριβέστερες μετρήσεις με την βοήθεια των Μαθηματικών. Ν. Παναγιωτίδης, Υπεύθυνος ΕΚΦΕ Ν. Ιωαννίνων

Διαδικασία Ελέγχου Μηδενικών Υποθέσεων

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Γιατί πιθανότητες; Γιατί πιθανότητες; Θεωρία πιθανοτήτων. Θεωρία Πιθανοτήτων. ΗΥ118, Διακριτά Μαθηματικά Άνοιξη 2017.

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Δεσμευμένη (ή υπο-συνθήκη) Πιθανότητα (Conditional Probability)

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΗΥ-SPSS Statistical Package for Social Sciences 1 ο ΜΑΘΗΜΑ. ΧΑΡΑΛΑΜΠΟΣ ΑΘ. ΚΡΟΜΜΥΔΑΣ Διδάσκων Τ.Ε.Φ.Α.Α., Π.Θ.

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Ενότητα 2: Έλεγχοι Υποθέσεων Διαστήματα Εμπιστοσύνης

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων

Θεωρία Πιθανοτήτων, εαρινό εξάμηνο Λύσεις του τέταρτου φυλλαδίου ασκήσεων.

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Διάλεξη 1 Βασικές έννοιες

Εξέταση στις ΠΙΘΑΝΟΤΗΤΕΣ I

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις στο μάθημα ΠΙΘΑΝΟΤΗΤΕΣ Ι

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 6 Σχέσεις μεταξύ μεταβλητών

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 1 Εισαγωγή

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Στατιστική Ι (ΨΥΧ-1202) Διάλεξη 7. Στατιστικός έλεγχος υποθέσεων

Στατιστική Ι (ΨΥΧ-1202) ΑΣΚΗΣΕΙΣ

Περιεχόμενα. Γιατί Ένας Manager Πρέπει να Ξέρει Στατιστική. Περιεχόμενα. Η Ανάπτυξη και Εξέλιξη της Σύγχρονης Στατιστικής

Ερευνητική υπόθεση. Η ερευνητική υπόθεση αναφέρεται σε μια συγκεκριμένη πρόβλεψη σχετικά με τη σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές.

Στατιστική Ι (ΨΥΧ-122) Διάλεξη 2

ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Οικονομετρία. Απλή Παλινδρόμηση Βασικές έννοιες και τυχαίο σφάλμα. Τμήμα: Αγροτικής Οικονομίας & Ανάπτυξης. Διδάσκων: Λαζαρίδης Παναγιώτης

Είδη Μεταβλητών. κλίµακα µέτρησης

Εξαμηνιαία Εργασία Β. Κανονική Κατανομή - Επαγωγική Στατιστική

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Δειγματοληψία στην Ερευνα. Ετος

Συνοπτικά περιεχόμενα

ΑΝΑΛΥΣΗ 1 ΔΩΔΕΚΑΤΟ ΜΑΘΗΜΑ, Μ. Παπαδημητράκης.

B A B A A 1 A 2 A N = A i, i=1. i=1

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΜΠΣ Τραπεζικής & Χρηματοοικονομικής

Μεθοδολογία Έρευνας Διάλεξη 6 η : Μέθοδοι Δειγματοληψίας

ΤΙ ΕΙΝΑΙ ΣΤΑΤΙΣΤΙΚΗ; Στατιστική είναι η διαδικασία εξαγωγής πληροφορίας από τα δεδομένα. Διαχείριση Πληροφοριών 1.1

6 ο ΜΑΘΗΜΑ Έλεγχοι Υποθέσεων

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Δείγμα & Δειγματοληψία στην Έρευνα ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (#252) Θυμηθείτε. Γιατί δειγματοληψία; Δειγματοληψία

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

SOURCE DF SUM OF SQUARES MEAN SQUARE F VALUE PR F MODEL (a) E04 (e) (g) (h) ERROR (b) (d) (f) TOTAL (c) E04 R SQUARE (i) PARAMETER

Μαθηματικά Β' Γυμνασίου - Ασκήσεις επανάληψης στην Άλγεβρα Σελίδα x 1 2x 7 x 8 4

Περιεχόμενα 3ης Διάλεξης 1 Σύνοψη Προηγούμενου Μαθήματος 2 Δεσμευμένη Πιθανότητα 3 Bayes Theorem 4 Στοχαστική Ανεξαρτησία 5 Αμοιβαία (ή πλήρης) Ανεξαρ

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

H ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ (PEARSON s r)

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

Περιεχόμενα 3ης Διάλεξης 1 Σύνοψη Προηγούμενου Μαθήματος 2 Δεσμευμένη Πιθανότητα 3 Bayes Theorem 4 Στοχαστική Ανεξαρτησία 5 Αμοιβαία (ή πλήρης) Ανεξαρ

Σ Τ Α Τ Ι Σ Τ Ι Κ Η Β Α Σ Ι Κ Ε Σ Ε Ν Ν Ο Ι Ε Σ.

ΧΑΡΑΛΑΜΠΟΣ.ΣΠ. ΛΥΚΟΥΔΗΣ - ΠΙΘΑΝΟΤΗΤΕΣ Α ΛΥΚΕΙΟΥ

Βασικές έννοιες της Στατιστικής: Πληθυσμός - Δείγμα

Εισαγωγή στην κοινωνική έρευνα. Earl Babbie. Κεφάλαιο 1. Βασικές αρχές 1-1

Α. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. Πληθυσμός: Το συνόλου του οποίου τα στοιχεία εξετάζουμε ως προς ένα ή περισσότερα χαρακτηριστικά τους.

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Πιθανότητες και Στατιστική Ενότητα 2: Δεσμευμένη πιθανότητα και στοχαστική ανεξαρτησία Αντώνιος Οικονόμου Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής κ

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΔΗΜΟΣΙΑ ΟΙΚΟΝΟΜΙΚΗ Ι

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ για τη λήψη αποφάσεων

Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική

Θεμελιώδεις Αρχές Επιστήμης και Μέθοδοι Έρευνας

Transcript:

Χρήσεις του Η/Υ και Βάσεις Βιολογικών Δεδομένων 3. Δεδομένα και Στατιστική Επεξεργασία Χριστόφορος Νικολάου Τμήμα Βιολογίας, Πανεπιστήμιο Κρήτης computational-genomics-uoc.weebly.com Χριστόφορος Νικολαου, ΒΙΟ109

Επαγωγική Στατιστική Ονομάζουμε Επαγωγική Στατιστική τον κλάδο της Στατιστικής που προσπαθεί να εξάγει συμπεράσματα από τα δεδομένα. Βασικό χαρακτηριστικό της Επαγωγικής Στατιστικής είναι η διατύπωση και ο έλεγχος υποθέσεων Μέρος της Επαγωγικής Στατιστικής είναι η προσπάθεια εξαγωγής σχέσεων μεταξύ παρατηρήσεων που οδηγούν στην κατανόηση φαινομένων αρχικά και στη μοντελοποίηση τους, δηλαδή την ικανότητα προβλέψεων. Χριστόφορος Νικολαου, ΒΙΟ109 2

Ένα παράδειγμα O Old Faithful Geyser είναι ο πιο διάσημος θερμοπίδακας στον κόσμο με εκρήξεις μεταξύ κάθε 45 και 100 λεπτών εδώ και πάνω από έναν αιώνα. Οι εκρήξεις διαρκούν 1.5-5 λεπτά και είναι μεταβλητής έντασης Διαθέτουμε αναλυτικά δεδομένα για μεγάλο αριθμό διαδοχικών εκρήξεων Χριστόφορος Νικολαου, ΒΙΟ109 3

Ένα παράδειγμα Διαθέτουμε δεδομένα από το χρόνο αναμονής μεταξύ δύο διαδοχικών εκρήξεων και το χρόνο διάρκειας της κάθε έκρηξης. Θέλουμε να δούμε αν μπορούμε να προβλέψουμε το πότε θα συμβεί η επόμενη έκρηξη ή και τη διάρκειά της. Πώς θα χρησιμοποιούσατε τα δεδομένα για να το κάνετε; Χριστόφορος Νικολαου, ΒΙΟ109 4

Μοντελοποιώντας τον Old Faithful Ερωτήσεις που αξίζει να κάνουμε: 1. Ποιες είναι η μέσες τιμές/διασπορές των δεδομένων μας 2. Πόσο διεσπαρμένες είναι οι τιμές των εκρήξεων 3. Κατά πόσο οι εκρήξεις είναι ομοιόμορφες σε διάρκεια και χρόνο αναμονής 4. Κατά πόσο υπάρχει συσχέτιση μεταξύ χρόνου αναμονής και διάρκειας Χριστόφορος Νικολαου, ΒΙΟ109 5

Μοντελοποιώντας τον Old Faithful Ιστόγραμμα των τιμών διάρκειας έκρηξης. Τι δείχνει η "κατανομή" όπως λέμε των τιμών; Τι συμπεράσματα βγάζουμε για τις εκρήξεις; Χριστόφορος Νικολαου, ΒΙΟ109 6

Μοντελοποιώντας τον Old Faithful Διάγραμμα σκέδασης της διάρκειας έκρηξης έναντι του χρόνου αναμονής μέχρι την έκρηξη. Εδώ έχουμε δύο είδη δεδομένων σε ένα διάγραμμα που είναι όμως συνδεδεμένα μεταξύ τους (paired). Τι συμπεράσματα βγάζουμε για τους χρόνους διάρκειας; Χριστόφορος Νικολαου, ΒΙΟ109 7

Μοντελοποιώντας τον Old Faithful Διάγραμμα σκέδασης όπου διακρίνονται δύο κατηγορίες εκρήξεων (μικρής και μεγάλης διάρκειας) Είναι προφανές ότι υπάρχουν δύο ομάδες. Χριστόφορος Νικολαου, ΒΙΟ109 8

Μοντελοποιώντας τον Old Faithful Γραμμική Συσχέτιση μεταξύ διάρκειας και χρόνου αναμονής. Μεταξύ των σημείων των δύο μεταβλητών μπορούμε να φανταστούμε μια ευθεία γραμμή. Η γραμμή αυτή αποτελεί μια εξίσωση που μπορεί (σε κάποιο βαθμό) να περιγράψει τη σχέση μεταξύ των δύο μεταβλητών. Σκεφτείτε: Γιατί η εξίσωση αυτή έχει χαρακτηριστικά μαθηματικού μοντέλου; Χριστόφορος Νικολαου, ΒΙΟ109 9

Προβλήματα με τη Στατιστική Σκέψη Υπάρχει μια σειρά από λόγους που βρίσκουμε δύσκολο να σκεφτούμε (σωστά) με ποσοτικό τρόπο: 1. Τείνουμε να διακρίνουμε διαφορές και ομοιότητες εκεί που δεν υπάρχουν. 2. Υπερβάλλουμε στις εκτιμήσεις μας. Τείνουμε να πιστεύουμε ότι ξέρουμε/κατανοούμε διάφορα φαινόμενα περισσότερο απ' ό,τι πραγματικά. 3. Δεν μπορούμε να συλλάβουμε εύκολα έννοιες όπως η δεσμευμένη πιθανότητα και οι πολλαπλές υποθέσεις. Χριστόφορος Νικολαου, ΒΙΟ109 10

Προβλήματα με τη Στατιστική #1 1. Τείνουμε να εντοπίζουμε μοτίβα/μη-τυχαία χαρακτηριστικά εκεί που δεν υπάρχουν. Φανταστείτε 100 διαδοχικά σουτ ενός παίχτη του μπάσκετ. Με Χ είναι τα εύστοχα και με - τα άστοχα. Μπορείτε να πείτε αν ο παίχτης τείνει να έχει "ζεστό χέρι" να βάζει δηλαδή στη σειρα περισσότερα καλάθια απ' όσα θα περιμέναμε στην τύχη; X - - X - X - X X - X - X - X X - X - X - - X X - X X X X - - - - - - X X - X - X - - - - - X - X X X X X - - - - X - X X X X - - - - X - - - - - X - - - - X X - - X - - - - - X X - - X - - - - X - X - - - - - - X - X X - X X X X - X - X X X X - X - Χριστόφορος Νικολαου, ΒΙΟ109 11

Προβλήματα με τη Στατιστική #2 2. Τείνουμε να υπερβάλλουμε στις εκτιμήσεις μας. Στις παρακάτω ερωτήσεις δώστε ένα εύρος τιμών που να περιέχει τη σωστή απάντηση με πιθανότητα 90%. 1 Έτος γέννησης του Μότσαρτ 2 Αριθμός κατοικημένων ελληνικών νησιών 3 Μέσος όρος πόντων καριέρας για τον Νίκο Γκάλη 4 Μήκος του Δούναβη (σε km) 5 Διάρκεια κύησης ενός λιονταριού (σε ημέρες) 6 Αριθμός ταινιών του Στάνλεϊ Κιούμπρικ 7 Αριθμός Νο1 singles των Beatles 8 Ηλικία του Πάπα Φραγκίσκου 9 Αριθμός γυναικών που έχουν τιμηθεί με το Νόμπελ Λογοτεχνίας 10 Άνοιγμα φτερών ενός Airbus A320 (σε m) Χριστόφορος Νικολαου, ΒΙΟ109 12

Προβλήματα με τη Στατιστική #2 1 Έτος γέννησης του Μότσαρτ: 1756 (Wikipedia) 2 Αριθμός κατοικημένων ελληνικών νησιών: 227 (ΕΟΤ) 3 Μέσος όρος πόντων καριέρας για τον Νίκο Γκάλη: 32.8 (FIBA Europe) 4 Μήκος του Δούναβη (σε km): 2860km (Wikipedia) 5 Διάρκεια κύησης ενός λιονταριού (σε ημέρες): 110 (factophile) 6 Αριθμός ταινιών του Στάνλεϊ Κιούμπρικ: 16 (imdb.com) 7 Αριθμός Νο1 singles των Beatles: 17 (Rolling Stone Magazine) 8 Ηλικία του Πάπα Φραγκίσκου: 79 (google.com) 9 Αριθμός γυναικών με Νόμπελ Λογοτεχνίας: 13 (nobelprize.org) 10 Άνοιγμα φτερών ενός Airbus A320 (σε m): 35.8 (airbus.com) Πόσες σωστές απαντήσεις είχατε; Αν έχετε λιγότερες από 9/10 σημαίνει ότι δεν εκτιμήσατε καλά το διάστημα εμπιστοσύνης. Χριστόφορος Νικολαου, ΒΙΟ109 13

Προβλήματα με τη Στατιστική #3 3. Μας ξεγελάει ένα φαινόμενο που ονομάζεται παλινδρόμηση προς τη μέση τιμή. Επιλέγοντας ένα υποσύνολο δεδομένων με σαφή χαρακτηριστικά από ένα σύνολο, επιλέγουμε ουσιαστικά ένα μη αντιπροσωπευτικό υποσύνολο. Στο σχήμα βλέπετε την παραπλανητική εικόνα που παίρνουμε αν επιλέξουμε ένα συγκεκριμένο υποσύνολο τιμών από ένα μεγαλύτερο. Οι χαμηλές φαίνονται να Χριστόφορος Νικολαου, αυξάνονται ΒΙΟ109 στο χρόνο, ενώ οι υψηλές να μειώνονται. 14

Προβλήματα με τη Στατιστική #4 4. Δεν είναι εύκολο να συνδυάσουμε πιθανότητες. Το πρόβλημα βασίζεται σε μια αρχή που ονομάζεται "σφάλμα ποσοστού υποβάθρου" (base rate fallacy). Φανταστείτε το εξής πρόβλημα: Ένα διαγνωστικό τεστ ελέγχει μια σχετικά σπάνια ασθένεια που έχει συχνότητα εμφάνισης στον πληθυσμό: 1/25 (4%). Το τεστ έχει 95% ευαισθησία και 90% εξειδίκευση. Αυτό σημαίνει ότι αν κάποιος νοσεί, το τεστ έχει πιθανότητα 0.95 να τον διαγνώσει. Από την άλλη αν κάποιος είναι υγιής, το τεστ θα τον διαγνώσει ως υγιή με πιθανότητα 0.90. Χριστόφορος Νικολαου, ΒΙΟ109 15

Προβλήματα με τη Στατιστική #4 Κάνετε το τεστ και βγαίνετε θετικοί. Ποια είναι η πιθανότητα να νοσείτε; Αυτό που αναζητάτε είναι η πιθανότητα να είστε υγιής εφόσον το τεστ είναι θετικό. Κάτι τέτοιο στη θεωρία πιθανοτήτων ονομάζεται "δεσμευμένη πιθανότητα" και μπορεί να δημιουργήσει σοβαρά προβλήματα στο συλλογισμό μας. 9 στους 10 φοιτητές της Ιατρικής του Harvard απαντούν λάθος στην παραπάνω ερώτηση. Χριστόφορος Νικολαου, ΒΙΟ109 16

Ας σκεφτούμε λίγο: Στο γενικό πληθυσμό, οι υγιείς είναι 96% και οι ασθενείς 4%. Μεταξύ των θετικών του τεστ οι πραγματικά ασθενείς είναι: 0.95 0.04 = 0.038 κι αυτό γιατί το 5% του 4% χάνεται λόγω της μη 100% ευαισθησίας Μεταξύ των θετικών του τεστ οι ψευδώς διαγνωσμένοι ως ασθενείς είναι: 0.10 0.96 = 0.096 Χριστόφορος Νικολαου, ΒΙΟ109 17

Ας σκεφτούμε λίγο: Το παραπάνω σημαίνει ότι αν το τεστ είναι θετικό υπάρχει 3 φορές μεγαλύτερη πιθανότητα να είμαστε υγιείς παρά να νοσούμε, εφόσον 9.6% > 3.8%. Το "παράδοξο" αυτό δεν είναι παράδοξο. Είναι απλώς το αποτέλεσμα που έχει η πιθανότητα υποβάθρου (να είστε υγιείς) η οποία είναι πολύ μεγάλη (96%). Το γεγονός ότι τόσο πολύ περισσότεροι είναι υγιείς από τους ασθενείς δημιουργεί μεγάλα προβλήματα στη διάγνωση. Για καποιες ακόμα πιο σπάνιες παθολογικές καταστάσεις τα διαγνωστικά τεστ απαιτούν εκπληκτικά μεγάλη ακρίβεια για να ξεπεραστεί αυτή η σκληρή μαθηματική πραγματικότητα. Χριστόφορος Νικολαου, ΒΙΟ109 18

Ένα ακόμα παράδειγμα Μια μέθοδος "αλκοτεστ" έχει 100% ευαισθησία, δηλαδή θα πιάσει οπωσδήποτε κάποιον που έχει επίπεδα αλκοόλ πάνω από το επιτρεπτό όριο, αλλά 95% εξειδίκευση, δηλαδή 5% των ελέγχων σε οδηγούς που δεν έχουν πιει θα δώσει θετικό αποτέλεσμα. 1. Δεχόμαστε ότι 1 στους 1000 οδηγούς έχει καταναλώσει αλκοόλ πάνω από το όριο 2. Ένας οδηγός για τον οποίον δεν γνωρίζουμε τίποτα κάνει το τεστ και βγαίνει θετικός. Ποια είναι η πιθανότητα να έχει πιει πάνω από το όριο; Χριστόφορος Νικολαου, ΒΙΟ109 19

Ένα ακόμα παράδειγμα Αν απαντήσατε 95% έχετε κάνει ένα λάθος της τάξης του ~4750%! Σκεφτείτε και πάλι το base rate: Aπό τους οδηγούς που θα ελεγχθούν 1 στους 1000 θα είναι στ' αλήθεια "πιωμένος". Οι 999 υπόλοιποι δεν εχουν πιει. Όμως το τεστ θα κάνει λάθος στο 5% των περιπτώσεων και συνεπώς θα βγάλει θετικούς το 0.05*999=49.95 Η πιθανότητα λοιπόν να είναι στ' αλήθεια "πιωμένος" κάποιος αν είναι θετικός στο τεστ θα είναι ίση με: (πραγματικά θετικοί)/(συνολικά θετικοί)=1/(1+49.95)=1/50.95~0.02. Δηλαδή 2%!!! Χριστόφορος Νικολαου, ΒΙΟ109 20

Προβλήματα με τη Στατιστική #5 5. Δεν καταλαβαίνουμε τις πολλαπλές υποθέσεις. Φανταστείτε ότι δίνω ένα νόμισμα σε έναν από εσάς και του ζητώ να το στρίψει 100 φορές. Αν φέρει 90/100 φορές κορώνα τι θα πιστέψετε για το νόμισμα; Τώρα σκεφτείτε ότι παίρνω ένα άλλο νόμισμα και το δίνω σε καθέναν από εσάς για να κάνει το ίδιο. Τι θα πιστέψετε αν ένας από εσάς φέρει 90/100 κορώνα; Χριστόφορος Νικολαου, ΒΙΟ109 21

Ερωτήσεις 1. Ένα συχνό φαινόμενο στον επαγγελματικό αθλητισμό είναι μια ομάδα να αλλάζει προπονητή μετά από μια σειρά άσχημων αποτελεσμάτων. Μια πρόσφατη μελέτη στο Αγγλικό Πρωτάθλημα δείχνει ότι ο μέσος όρος πόντων που συλλέγει μια ομάδα στους πρώτους 3-5 αγώνες μετά την αλλαγή προπονητή είναι μεγαλύτερος από αυτόν που κέρδιζε πριν. Είναι σωστό να αλλάζουν προπονητή οι ομάδες; Γιατί; Χριστόφορος Νικολαου, ΒΙΟ109 22