Χρήσεις του Η/Υ και Βάσεις Βιολογικών Δεδομένων 2. Δεδομένα και Περιγραφική Στατιστική. Χριστόφορος Νικολάου Τμήμα Βιολογίας, Πανεπιστήμιο Κρήτης computational-genomics-uoc.weebly.com Χριστόφορος Νικολαου, ΒΙΟ109
Ποσοτικός τρόπος σκέψης Περιγραφή ενός φαινομένου μέσα από μαθηματικούς υπολογισμούς και αναπαραστάσεις Δημιουργία και έλεγχος υποθέσεων Σχεδιασμός πειραμάτων με βάση τις υποθέσεις, την τυχαία προσδοκία και τη μεθοδολογία που έχουμε διαθέσιμη Χριστόφορος Νικολαου, ΒΙΟ109 2
"Nessuna umana investigazione si può dimandare vera scienza, se essa non passa per le matematiche dimostrazione" "Καμιά ερευνητική δραστηριότητα δεν μπορεί να αποκαλείται αληθινή επιστήμη αν δεν συμπεριλαμβάνει μαθηματικές αποδείξεις" Leonardo da Vinci :Treatise on Painting) Χριστόφορος Νικολαου, ΒΙΟ109 3
Πώς εργαζόμαστε; 1. Διατυπώνουμε με σαφήνεια το ερώτημα. 2. Καταγράφουμε τα δεδομένα που χρειαζόμαστε για να απαντήσουμε 3. Αναζητούμε/συλλέγουμε τα δεδομένα. Ανάλογα με το είδος τους μπορεί να είναι διαθέσιμα ή να πρέπει να τα συλλέξουμε οι ίδιοι μέσω πειραμάτων 4. Σχεδιάζουμε την ανάλυσή των δεδομένων με τρόπο που να οδηγεί στην απάντηση του ερωτήματος Χριστόφορος Νικολαου, ΒΙΟ109 4
Ένα Παράδειγμα: Πώς επηρρεάζουν τα ατμοσφαιρικά επίπεδα CO τη θρεπτική αξία των φυτικών τροφών; 2 Χριστόφορος Νικολαου, ΒΙΟ109 5
Tο ερώτημα: Τα επίπεδα του C O 2 στην ατμόσφαιρα μεταβάλλονται κυρίως λόγω της ανθρώπινης δραστηριότητας. Τα φυτά εξαρτώνται από το C O ως κύρια πηγή άνθρακα. Πώς μπορεί η αύξηση των επιπέδων CO στην ατμόσφαιρα να επιδρά πάνω στην ανάπτυξη και την ενσωμάτωση θρεπτικών στοιχείων στα φυτά; 2 2 Χριστόφορος Νικολαου, ΒΙΟ109 6
Δεδομένα που χρειαζόμαστε: 1. Μετρήσεις C O στην ατμόσφαιρα 2. Μετρήσεις C O σε καλλιέργειες 3. Μετρήσεις θρεπτικών στοιχείων σε φυτά που μεγαλώνουν σε: α) υψηλά και β) χαμηλά επίπεδα CO 2 2 2 Χριστόφορος Νικολαου, ΒΙΟ109 7
Ανάλυση Καταγραφή μετρήσεων σε ικανούς αριθμούς Σύγκριση μετρήσεων α) υψηλών και β) χαμηλών επιπέδων C O Eξαγωγή συμπερασμάτων Χριστόφορος Νικολαου, ΒΙΟ109 8 2
Ανάλυση/Παρουσίαση Αποτελεσμάτων Στατιστική ανάλυση των μετρήσεων. Τι αυξάνεται; Τι μειώνεται; και πόσο; Στατιστική επεξεργασία σημαντικότητας. Πόσο πιθανό είναι οι μεταβολές που παρατηρήσαμε να μην επαναληφθούν αν ξανακάναμε το πείραμα. Επαναληψιμότητα (Reproducibility): Ο βασικότερος δείκτης αξιολόγησης ενός πειράματος. Χριστόφορος Νικολαου, ΒΙΟ109 9
Επαναληψιμότητα Ο έλεγχος επαναληψιμότητας είναι ουσιαστικά στατιστική επεξεργασία αποτελεσμάτων στη βάση μιας υπόθεσης εργασίας. Ποια είναι η υπόθεσή μας εδώ; Πώς εκτιμούμε την υπόθεση ότι υπάρχει αύξηση/μείωση των επιπέδων θρεπτικών στοιχείων Σύγκριση μέσων τιμών από ικανό αριθμό μετρήσεων. Χριστόφορος Νικολαου, ΒΙΟ109 10
Στατιστική επεξεργασία δεδομένων Παρέχει τα εργαλεία για όλα όσα είδαμε παραπάνω: Περιγραφή ενός φαινομένου μέσω υπολογισμών (Περιγραφική Στατιστική) Διατύπωση και έλεγχος υποθέσεων (Επαγωγική Στατιστική) Εκτίμηση τυχαιότητας και σχεδιασμός πειραμάτων (Μαθηματική Μοντελοποίηση) Χριστόφορος Νικολαου, ΒΙΟ109 11
Βασικές Εννοιες 1: Πληθυσμός και Δείγμα Ονομάζουμε πληθυσμό το σύνολο των οντοτήτων που μπορούν να είναι αντικείμενο μέτρησης. Ονομάζουμε δείγμα το υποσύνολο του πληθυσμού για το οποίο θα έχουμε μέτρηση. Ποτέ δεν έχουμε μετρήσεις για όλον τον πληθυσμό αλλά......θέλουμε το δείγμα να είναι αντιπροσωπευτικό. Χριστόφορος Νικολαου, ΒΙΟ109 12
Βασικές Εννοιες 2: Μεταβλητές Ποσοτικές (μετρήσεις όπως ύψος, βάρος, συγκέντρωση κλπ) Ποιοτικές/κατηγορικές (στοιχεία όπως φύλο, εθνικότητα, γεωγραφική προέλευση, νοσηρότητα, μεταλλαγές στο DNA) Διακριτές (μπορούν να πάρουν συγκεκριμένες τιμές, π.χ. οι βαθμοί στο μάθημά μας από 1-10) Συνεχείς (κατανέμονται σε ένα διάστημα τιμών, π.χ. συγκέντρωση Ζn) Χριστόφορος Νικολαου, ΒΙΟ109 13
Βασικές Έννοιες 3: Είδη Δεδομένων Kαθαρές τιμές: αριθμητικές ή κατηγορικές τιμές που μπορούν να μετρηθούν απευθείας (π.χ. το ύψος καθενός/μιας από εσάς) Συχνότητες: Ομαδοποιημένα δεδομένα που ορίζονται ως το ποσοστό των τιμών που "πέφτουν" μέσα σε ένα συγκεκριμένο διάστημα. (π.χ. τι ποσοστό από εσάς είναι ψηλότεροι/ες από 1.85m) Χριστόφορος Νικολαου, ΒΙΟ109 14
Βασικές Έννοιες 3: Είδη Δεδομένων Λόγοι: Αναλογίες που συνδυάζουν δύο (ή περισσότερες) μεταβλητές. (π.χ. πόσοι από αυτούς που είναι >1.85 είναι άνδρες και πόσες γυναίκες;) Διαφορές: Μεταβολές στην ίδια μεταβλητή μεταξύ δύο διαφορετικών συνθηκών. Είναι σημαντικό να μιλάμε για το ίδιο αντικείμενο (π.χ. πόσο πιο ψηλοί είστε σήμερα σε σχέση με την εποχή που τελειώνατε το γυμνάσιο). Χρονοσειρές: Αριθμητικές τιμές που μεταβάλλονται στον χρόνο (ή σε μια διάσταση που μπορεί να τον προσομοιάσει). (π.χ. τιμές μιας μετοχής, μέση θερμοκρασία του πλανήτη, αριθμός ατυχημάτων ανά χλμ της Εθνικής οδού κλπ). Χριστόφορος Νικολαου, ΒΙΟ109 15
Περιγραφική Στατιστική Είναι ο κλάδος της Στατιστικής που έχει σκοπό να αναδείξει τα βασικά χαρακτηριστικά ενός συνόλου δεδομένων. Τα δύο κύρια στοιχεία της είναι: Οι χαρακτηριστικές τιμές Τα διαγράμματα Χριστόφορος Νικολαου, ΒΙΟ109 16
Χαρακτηριστικές τιμές Μέση τιμή: Είναι το άθροισμα των τιμών, διαιρεμένο με το πλήθος τους. μ = N i=1 N x i Σταθμισμένη μέση τιμή: Είναι το σταθμισμένο άθροισμα των τιμών, με διαφορετικά βάρη ανά τιμή/τιμές: μ = N w i=1 Διάμεσος: Είναι η μεσαία τιμή στην με αύξουσα σειρά, διαταγμένη κατάταξη (rank) των τιμών Ερώτηση: Πόσο κοντά είναι η μέση τιμή και ο διάμεσος; Σε ποιες περιπτώσεις ταυτίζονται; x i w i Χριστόφορος Νικολαου, ΒΙΟ109 17
Mέτρα Διασποράς #1 Εύρος: Είναι η διαφορά της μέγιστης από την ελάχιστη τιμή. range = x max x min Ποσοστημόρια: Είναι τοπικά εύρη που περιέχουν ένα συγκεκριμένο ποσοστό των τιμών. Π.χ. η μικρότερη και μεγαλύτερη μεταξύ των χαμηλότερων 25% των τιμών ορίζουν το πρώτο τεταρτημόριο Ερώτηση: Ποια τιμή ορίζει το όριο μεταξύ του δεύτερου και του τρίτου τεταρτημόριου; Χριστόφορος Νικολαου, ΒΙΟ109 18
Mέτρα Διασποράς #2 Διασπορά: Είναι ένα μέτρο συνολικής απόκλισης των τιμών από τη 2 μέση τιμή. var = σ = Τυπική απόκλιση: Είναι η τετραγωνική ρίζα της διασποράς (κι έχει έτσι διαστάσεις και μονάδες ίδιες με αυτές του μετρούμενου μεγέθους). σ = N i=1 N i=1 (xi μ) N (xi μ) N 2 Ερώτηση: Ποια τιμή ορίζει το όριο μεταξύ του δεύτερου και του τρίτου τεταρτημόριου; 2 Χριστόφορος Νικολαου, ΒΙΟ109 19
Γραφικές Παραστάσεις #1 Ραβδογράμματα: Αναπαριστούν σε ύψη τις αριθμητικές τιμές διάφορων μετρήσεων. Χριστόφορος Νικολαου, ΒΙΟ109 20
Γραφικές Παραστάσεις #2 Διαγράμματα συχνοτήτων Χριστόφορος Νικολαου, ΒΙΟ109 21
Γραφικές Παραστάσεις #3 Ιστογράμματα: Αναπαριστούν τις συχνότητες εμφάνισης τιμών σε τμήματα/υποσύνολα του συνολικού εύρους. Μας δίνουν σημαντική πληροφορία για τη συμμετρία των τιμών γύρω από τις επικρατούσες τιμές (μέση τιμή, διάμεσο) καθώς και για τη διασπορά τους Χριστόφορος Νικολαου, ΒΙΟ109 22
Γραφικές Παραστάσεις #3 Παράδειγμα διαφορετικής τυπικής απόκλισης σε μετρήσεις διαφορετικών μερών του τέστ IQ. Παρά το γεγονός ότι η μέση τιμή δε διαφέρει (μ~100) οι τιμές διασπείρονται σε πολύ διαφορετικά εύρη. Χριστόφορος Νικολαου, ΒΙΟ109 23
Γραφικές Παραστάσεις #4 Θηκογράμματα: Δημιουργούνται με τη χρήση των ορίων μεταξύ των τεταρτημορίων και αναπαριστούν ταυτόχρονα, ακραίες τιμές, ενδο-τεταρτημοριακή απόσταση και διάμεσο. Χριστόφορος Νικολαου, ΒΙΟ109 24
The median isn't the message (by S.J. Gould) O Stephen J. Gould, ένας από τους πιο διάσημους εξελικτικούς βιολόγους στην ιστορία, διαγνώστηκε με μεσοθηλίωμα το 1982. Ο γιατρός του τον ενημέρωσε ότι η διάμεση (median) διάρκεια επιβίωσης είναι 8 μήνες! O SJ Gould πέθανε το 2002, 20 χρόνια μετά. Διαβάστε το κείμενο που έγραψε με τίτλο The Median isn't the message Χριστόφορος Νικολαου, ΒΙΟ109 25
Δοκιμάστε Προτείνετε μια διαδικασία για να απαντήσετε στο εξής ερώτημα: Μια νέα, πειραματική θεραπεία για την ασθένεια Χ υπόσχεται καλύτερα αποτελέσματα από τις υπάρχουσες. Πώς θα σχεδιάσετε μια κλινική μελέτη ώστε να το επιβεβαιώσετε ή να το διαψεύσετε. Η πρότασή σας θα πρέπει να λάβει υπ' όψιν: Τα αντικείμενα της μελέτης Πληθυσμούς και δείγματα Είδος μεταβλητών που θα μετρηθούν Είδος των αναλύσεων που θα πραγματοποιηθούν Χριστόφορος Νικολαου, ΒΙΟ109 26
Χριστόφορος Νικολαου, ΒΙΟ109 27