Μαθηματικά και Στατιστικη στην Βιολογια ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ (1 ο ) Τμημα Βιολογιας Αριστοτελειο Πανεπιστημιο Θεσσαλονικης Mathematics and Statistics in Biology WINTER SEMESTER (1 st ) School of Biology Aristotle University of Thessaloniki 4. Δειγματα Iωαννης Αντωνιου iantonio@math.auth.gr Χαραλαμπος Μπρατσας cbratsas@math.auth.gr Το παρόν εκπαιδευτικό υλικό υπόκειται σε Αδεια Χρήσης Creative Commons
Σκοπος - Περιεχομενο Πως Εκτιμουμε την κατανομη από Παρατηρησεις? Ποια η αξια των Παρατηρησεων? Στατιστικη Ομαλοτης
Εκτιμηση Κατανομης Πιθανοτητος από Παρατηρησεις Δεδομενα Παρατηρησης = Συνολο Δεδομενων = Δειγμα Οbservation Data = Data Set = Sample Δειγμα M μετρησεων της Μεταβλητης Χ Παραδειγμα: Δειγμα Μ=7 μετρησεων Μεταβλητη Χ Μετρηση Αποτελεσμα 1 χ 1 2 χ 2 3 χ 3 4 χ 4 5 χ 5 6 χ 6 7 χ 7
Δειγμα M μετρησεων των N Μεταβλητων Χ 1, Χ 2,, Χ N Data Matrix Μ Ν Variables X 1 X 2 X ν X N Observation 1 χ 11 χ 12 χ 1ν χ 1N Observation 2 χ 21 χ 22 χ 2ν χ 2N Observation μ χ μμ χ μμ χ μμ χ μμ Observation M χ MM χ MM χ MM χ MM
Δειγμα M μετρησεων των N Μεταβλητων Χ 1, Χ 2,, Χ N χ 1ν χ MM Gene Expression Matrix Μ Ν Expressions Instances Phenotypes Εκφρασεις Περιπτωσεις Περιστατικα Φαινοτυποι Genes Γονιδια X 1 X 2 X ν X N Expression 1 χ 11 χ 12 χ 1ν χ 1N Expression 2 χ 21 χ 22 χ 2ν χ 2N Expression μ χ μμ χ μμ χ μμ χ μμ Expression M χ MM χ MM χ MM χ MM = χ v = Expression Profile of the Gene Χ ν χ μμ, χ μμ,, χ μμ = Expression Profile of the μ-instance Στην Βιολογια συνηθως εργαζονται με τον Συζυγη Πινακα Ν M
Ορισμος Φασμα των Μετρησεων της Μεταβλητης Χ οι n M διαφορετικες τιμες {x 1, x 2,, x n } που καταγραφηκαν στο Δειγμα. Διατασσονται (συνηθως), αν η Μεταβλητη είναι Διατακτικη: x 1 < x 2 < < x n Ορισμος Συχνοτης του Δειγματος Μ ν = ο αριθμος εμφανισεων της τιμης x ν, ν=1,2,,n στο Δειγμα Μ 1 + Μ 2 + + Μ n = Μ
Ορισμος Σχετικη Συχνοτης του Δειγματος = (Εμπειρικη) Πιθανοτης Δειγματος ρ ν = Μ ν Μ = ρ (x ν), ν=1,2,,n Η Σχετική Συχνότητα είναι Πιθανότητα στο φασμα του Δειγματος {x 1, x 2,, x n } θεωρουμενο ως Δειγματοχωρος Ορισμος (Εμπειρικη) Αθροιστικη Σχετικη Συχνοτης του Δειγματος F ν = Μ 1+Μ 2 + + Μ ν = F(x Μ ν ) = ρ 1 +ρ 2 + +ρ ν, ν=1,2,,n Η συναρτηση Κατανομης της πιθανοτητας ρ
Ριψη Ζαριου 21 φορες Μετρηση Αποτελεσμα 1 χ 1 =2 2 χ 2 =4 3 χ 3 =5 4 χ 4 =6 5 χ 5 =3 6 χ 6 =4 7 χ 7 =2 8 χ 8 =1 9 χ 9 =4 10 χ 10 =6 11 χ 11 =6 12 χ 12 =3 13 χ 13 =2 14 χ 14 =4 15 χ 15 =2 16 χ 16 =6 17 χ 17 =5 18 χ 18 =4 19 χ 19 =2 20 χ 20 =1 21 χ 21 =5 Ριψη Ζαριου 21 φορες Φασμα Συχνοτητα Σχετικη Συχνοτητα x 1 = 1 Μ 1 = 2 ρ 1 = 2 21 x 2 = 2 Μ 2 = 5 ρ 2 = 5 21 x 3 = 3 Μ 3 = 2 ρ 3 = 2 21 x 4 = 4 Μ 4 = 5 ρ 4 = 5 21 x 5 = 5 Μ 5 = 2 ρ 5 = 3 21 x 6 = 6 Μ 6 = 4 ρ 6 = 4 21 Αθροιστικη Σχετικη Συχνοτητα F 1 = 2 21 F 2 = 7 21 F 3 = 9 21 F 4 = 14 21 F 5 = 17 21 F 6 = 21 21 = 1
Παραδειγμα Κοινη Εμπειρικη Κατανομη του Χρωματος των Οφθαλμων με το Χρωμα των Μαλιων των Φοιτητων του 2012-3 Το δειγμα εληφθη από τους κ. Ρ.-Ν. Τασακη και Ε. Καραπουλια Πρωτοετεις Φοιτητες Βιολογιας ΑΠΘ του 2012-3 Εστω Χ=Χρωμα Οφθαλμων Τιμες: Κ=Καφε, Γ=Γαλαζιο, ΚΠ=Καστανοπρασινο, Π=Πρασινο, ΓΠ=Γαλαζοπρασινο Υ=Χρωμα Μαλλιων Τιμες: μ=μαυρο, ξ=ξανθο, κ=καστανο, κξ=καστανοξανθο
Συχνοτητες και Σχετικες Συχνοτητες Δειγματος Παρ ότι είναι ισοδυναμες μαθηματικα, πολλοι χρηστες διευκολυνονται με τις Φυσικες συχνοτητες «It makes little mathematical difference whether statistics are expressed as probabilities, percentages, or absolute frequencies. It does, however, make a psychological difference. More specifically, Statistics expressed as natural frequencies improve the statistical thinking of experts and nonexperts alike» Hoffrage U., Lindsey S., Hertwig R., Gigerenzer G. 2000, Communicating Statistical Information, Science 230, 22 December, 2261-2262 Tufte Ε. 2001, The Visual Display of Quantitative Information, 2nd edition Graphics Press,Cheshire, Connecticut
Παραστάσεις Δεδομενων Ραβδογράμματα, Ιστογράμματα, Κυκλικά Διαγράμματα, Σημειογράμματα, Θηκογράμματα
Παραστάσεις Σχεσεων Μεταβλητων Γραφοι Graphs Networks One Dataset, Different Graph Visualizations http://scalar.usc.edu/works/querying-social-media-with-nodexl/using-graph-layout-algorithms-in-nodexl
Feasible protein interactions change between tissues. Yeger-Lotem E., Sharan R. 2015, Human protein interaction networks across tissues and diseases, Front. Genet., 19 August 2015, http://dx.doi.org/10.3389/fgene.2015.00257 All protein interactions adipose (λιπωδης) thyroid muscle
Οικολογικα Δικτυα https://www.complexityexplorer.org/news/26-the-web-of-life-and-the-ecologicalhuman-in-summary J. Dunne 13-10-2015
Οικολογικα Δικτυα Etemad K., Carpendale S., Samavati F. 2014, Spirograph inspired visualization of ecological networks, CAe '14 Proceedings of the Workshop on Computational Aesthetics, Pages 81-91
Μεθοδοι Εκτιμησης Κατανομης από Παρατηρησεις: Εμπειρικη Συχνοτης Παρεμβολη (Interpolation) Παραθυρα Parzen Ομαδοποιηση δεδομενων σε Κελια Νευρωνικα Δικτυα (Neural Nets)
Στατιστικη Ομαλοτης (Regularity, Stability) Καθως το Μεγεθος του Δειγματος αυξανει: η Εμπειρικη Συχνοτης και οι Παραμετροι (που εκτιμωνται ως συναρτησεις των Παρατηρησεων) Συγκλινουν προς την Θεωρητικη Τιμη. Παρατηρησεις Ριψης Νομισματος (από τον Laplace 1790) https://en.wikipedia.org/wiki/statistical_stability