Μαθηματικά και Στατιστικη στην Βιολογια ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ (1 ο ) Τμημα Βιολογιας Αριστοτελειο Πανεπιστημιο Θεσσαλονικης Mathematics and Statistics in Biology WINTER SEMESTER (1 st ) School of Biology Aristotle University of Thessaloniki 3. Κατανομες Iωαννης Αντωνιου iantonio@math.auth.gr Χαραλαμπος Μπρατσας cbratsas@math.auth.gr Το παρόν εκπαιδευτικό υλικό υπόκειται σε Αδεια Χρήσης Creative Commons
Σκοπος - Περιεχομενο Ποια Κατανομη οριζει μια Μεταβλητη? Ποιες Κατανομες Βρηκαμε? 18 βασικες Κατανομες
Κατανομη Πιθανοτητος Πραγματικων Μεταβλητων Πραγματικες Μεταβλητες: Χ: Y R {, } Πεπερασμενες Διακριτες Μεταβλητες: σ ={ x 1, x 2,, x Ν } Απειρες Διακριτες Μεταβλητες : σ ={x 1, x 2, } Συνεχεις Μεταβλητες: σ R {-, + } F(x) = P[X(y) x] Διακριτες ΠΜ: σ ={ x 1, x 2, } ρ x κ = F x κ F x κ 1 F(x κ ) = ρ(x 1 ) + ρ(x 2 ) + + ρ(x κ ), κ = 1,2, Συνεχεις ΠΜ: σ {-, + } ρ(ξ)= dd (ξ) F ξ = ξ dyρ y dd
F(x) Συναρτηση Κατανομης ή Αθροιστικη Συναρτηση Κατανομης της Πραγματικης Μεταβλητης Χ Cumulative Distribution Function of the Real Variable X ρ(x) Συναρτηση Πιθανοτητας της Πραγματικης Μεταβλητης Χ Probability Function of the Real Variable X G(x) = 1 F(x) Συναρτηση Eπιβιωσης ή Αξιοπιστία ή Συναρτηση Ουράς της Πραγματικης Μεταβλητης Χ Survival Function or Reliability Function or Tail Function of the Real Variable X
Αριθμητικες Πραγματικες Μεταβλητες Τα Προβληματα επιλυονται ως Προβληματα Πραγματικων Kατανομων Πιθανοτητας Φασμα (συνολο τιμων) ένα συνολο Πραγματικων Αριθμων Συμβολικες Μεταβλητες δεν εχουν Αθροιστικη Συναρτηση Κατανομης Φασμα (συνολο τιμων) ένα συνολο συμβολων. Θεωρια Πληροφοριας
Παραδειγμα Μεταβλητη X: Το Αθροισμα των ενδειξεων 2 Ζαριων Παρατηρησιμα Γεγονοτα Observable Events Πιθανοτητα Probability P(x) Συναρτηση Κατανομης F(x) Συναρτηση Eπιβιωσης 1 F(x) 2 Ξ 2 ={ (1,1)} 1/36 1/36=2.78% 35/36 3 Ξ 3 ={ (1,2), (2,1)} 2/36 3/36=8.4% 33/36 4 Ξ 4 ={ (2,2), (1,3),(3,1)} 3/36 6/36=16.7% 30/36 5 Ξ 5 ={ (1,4), (2,3),(3,2), (4,1)} 4/36 10/36=27.8% 26/36 6 Ξ 6 ={ (1,5), (2,4),(3,3), (4,2), (5,1)} 5/36 15/36=41.7% 21/36 7 Ξ 7 ={ (1,6), (2,5),(3,4), (4,3), (5,2), (6,1)} 6/36 21/36=58.3% 15/36 8 Ξ 8 ={ (2,6), (3,5),(4,4), (5,3), (6,2)} 5/36 26/36=72.2% 10/36 9 Ξ 9 ={ (3,6), (4,5),(5,4), (6,3)} 4/36 30/36=83.3% 6/36 10 Ξ 10 ={ (4,6), (5,5),(6,4)} 3/36 33/36=91.7% 3/36 11 Ξ 11 ={ (5,6), (6,5)} 2/36 35/36=97.2% 1/36 12 Ξ 12 ={ (6,6)} 1/36 36/36=100% 0
18 βασικες Κατανομες απο αυτές που ανακαλυφθηκαν Κλασση Διακριτή Συνεχης Kαθορισμενη (Deterministic) Kronecker Dirac Ομοιομορφη (Uniform) Ομοιομορφη [Λ] Ομοιομορφη Συνεχης [Λ] Bernoulli [Λ] Διωνυμικη (Binomial) [Λ] Poisson [Λ] Υπεργεωμετρικη [Λ] Hypergeometric Αμνημων (Memoryless) Γεωμετρικη Geometric [Λ] Εκθετικη (Exponential) [Λ] Kανονικη (Normal, Gauss) [Λ] Kατανομη χ 2 [Λ] Kατανομη Student-t [Λ] Kατανομη Fisher Λογαριθμο-Κανονικη (Log-Normal) Σιγμοειδης (Sigmoid) Δυναμης (Power Law) Zipf Pareto Eγχειριδιο / Καταλογος Kατανομων www.stat.rice.edu/~dobelman/textfiles/distributionshandbook.pdf http://en.wikipedia.org/wiki/list_of_probability_distributions
Καθορισμενη Κατανομη (Διακριτη) Αριστοτελης 360πΧ 1, x = ξ δ ξ (x) = 0, x ξ = δ xξ x Z (Ακεραιος) ο φορεας είναι ο αριθμος ξ
Καθορισμενη Κατανομη (Συνεχης) Dirac P.A.M. 1927 δεε οοοοοοοο, x = ξ δ ξ (x) = 0, x ξ x Πραγματικος Αριθμος = δ(x ξ) Κβαντικη θεωρια ddδ ξ (x) = 1 ddδ ξ (x)φ(x) = φ(ξ) φ ομαλη πραγματικη συναρτηση Που μηδενιζεται ασυμπτωτικα
Ομοιομορφη Κατανομη (Διακριτη) Αριστοτελης 360πΧ, Leibnitz 1680 ρ x = 1, x = a, a + 1, a + 2, b 1, b = a + n 1 n Αll points are equally likely.
Ομοιομορφη Κατανομη στο διαστημα [a,b] (Συνεχης) ρ x = 1, x = [a, b] β α Αll points are equally likely.
Κατανομη Bernoulli Jacob 1713 (Διακριτη) ρ p 1 = p ρ p 0 = 1 p ο φορεας είναι το συνολο {0,1} Πείραμα Bernoulli ονομαζεται Κάθε Πείραμα με δειγματόχωρο Υ = {0,1} 2 στοιχειωδων ενδεχομένων με πιθανοτητες p, 1 p
Διωνυμικη Κατανομη Bernoulli Jacob 1713 (Διακριτη) ρ t,p (x) = t x px (1 p) t x, x = 0,1,2,3,,t 0 < p 1 η Πιθανοτητα x Επιτυχιων σε t 1 Πειραματα Bernoulli σε Κάθε Πειραμα η πιθανοτητα επιτυχιας είναι p t x = C x t = t! x! t x! ρ t,p (x) Ο Διωνυμικος Συντελεστης=Binomial Coefficient
Πολυωνυμικη Κατανομη (Διακριτη) Bernoulli Jacob 1713, Leibnitz 1680 ρ t,p x = ρ t,p1,p 2,,p n (x 1, x 2,,xn) = t x 1 x 2 x n p 1 x 1 p 2 x 2 p n x n the probability of occurrences of the outcomes {1,2,3 n} x 1, x 2,, x n times correspondingly in t Bernoulli trials x 1 = 0,1,2,3,, t x 2 = 0,1,2,3,, t x n = 0,1,2,3,, t x ν is the number of times the outcome ν with probability p ν was observed in n independent trials t x 1 x 2 x n = (p 1 + p 2 + + p n ) t = t! x 1!x 2! x n! x 1,x 2,,x n Ο Πολυωνυμικος Συντελεστης (Multinomial Coefficient) t x 1 x 2 x n p 1 x 1 p 2 x 2 p n x n The sum over all n-ads (x 1, x 2,, x n ): x ν =0,1,2,,n with x 1 + x 2 + +x n = t
Κατανομη Poisson 1838 (Διακριτη) ρ λ,t x = e λt λt x x! ρ λ x = ρ λ,1 x = e λ λ x, x=0,1,2,3, x!, x=0,1,2,3, Η Πιθανοτης να συμβουν x γεγονοτα σε ορισμενο χρονικο διαστημα [0,t] λt 0: ο αναμενομενος αριθμος γεγονοτων στο διαστημα [0,t], t>0 λ 0: ο αναμενομενος αριθμος γεγονοτων στο διαστημα [0,1]
Υπεργεωμετρικη Κατανομη (Διακριτη) Pearson K. (1899) ρ t,n1,n (x) = t = 1, 2, 3,, N x mmm{t, N 1 } N 1 x N N 1 t x N t Η Πιθανοτης x "Επιτυχιων" σε Δειγμα Μεγεθους t απο Δεδομενα Πληθους Ν, στα οποια περιεχονται N 1 < Ν ενδιαφεροντα Στοιχεια (Επιτυχιες) και N N 1 μη ενδιαφεροντα Στοιχεια (Αποτυχιες) Θεωρια Εξελιξης Μαθηματικη Στατιστικη Ταξινομιση (Βιολογικων) Δεδομενων Ελεγχος Υποθεσεων
Εκθετικη Κατανομη (Συνεχης) Poisson 1838 ρ λ x = λe λx, x 0 ρ λ x η Πιθανοτητα η διαρκεια-αποσταση μεταξυ ανεξαρτητων γεγονοτων (ανμνημων διεργασια) να είναι x λ > 0: ο ρυθμος μεταβολης τ = 1 : ο αναμενομενος χρονος ζωης λ
Γεωμετρικη Κατανομη (Διακριτη) Pascal-Fermat 1654 ρ p x = (1 p) x 1 p, x = 1,2,3,,t (Γεωμετρικη προοδος) η Πιθανοτητα η πρώτη Επιτυχία να παρατηρηθει στο Πειραμα x t σε t διαδοχικα Ανεξαρτητα Πειραματα Bernoulli Σε Κάθε Πειραμα Bernoulli η πιθανοτητα επιτυχιας είναι p Στις x 1 προηγουμενες προσπάθειες παρατηρηθηκε Αποτυχια
Κανονικη Κατανομη Gauss 1809 (Συνεχης) ρ μ,σ x = 1 σ 2π e x μ 2 2σ 2, x Πραγματικος Αριθμος Σφαλματα Βαθμολογια Φοιτητων Κεντρικο Οριακο Θεωρημα [Λυκ] Η Κατανομη της Μεσης Τιμης Δειγματος προσεγγιζει την Κανονικη κατανομη καθως το Μεγεθος του Δειγματος αυξανει
Κανονικη Κατανομη Gauss 1809 (Συνεχης) Youden W. 1962, Experimentation and Measurement, p55
Κατανομη χ 2 (Συνεχης) Helmert F. (1876) Pearson K. (1900) ρ ν (x) = 1 2 ν 2 1 Γ ν 2 ν > 0 o βαθμος ελευθεριας Γ(z) η συναρτηση Γ x ν 2 1 e ν 2, x 0 Η μεταβλητη χ 2 = (Ν 1)s2 ακολουθει την κατανομη Xι τετραγωνο βαθμου ν= Ν 1 σ 2 s 2 = (ξ 1 m ) 2 + +(ξ Ν m ) 2 η αμεροληπτη διασπορα του Δειγματος Ν 1 Ελεγχος Υποθεσεων
Κατανομη Student-t (Συνεχης) Gosset 1908 ρ ν (t) = 1 νν Γ ν+1 2 Γ ν 2 Γ(z) η συναρτηση Γ 1 + t2 ν ν > 0 o βαθμος ελευθεριας ν+1 2, t R m μ Η μεταβλητη t= s N ακολουθει την κατανομη Student-t βαθμου ν= Ν 1 s = (ξ 1 m ) 2 + +(ξ Ν m ) 2 Ν 1 Ελεγχος Υποθεσεων η Αμεροληπτη Τυπικη Αποκλιση του δειγματος H Κατανομη Student-t εχει πιο "παχεια Ουρα" από την Κανονικη Κατανομη
Κατανομη F (Συνεχης) Fisher R. (1924) Βιολογος και Μαθηματικος Η Μεταβλητη s Χ 2 s Υ 2 σ Y 2 σ X 2 των Διασπορων σ Χ 2, σ Υ 2 2 Ανεξαρτητων Πληθυσμων με Κανονικες Κατανομες Ακολουθει Κατανομη F (Fisher) με βαθμους ν 1 = Ν 1, ν 2 = Ν 1 ρ ν1 ν 2 (x) = ν 1 ν 2 ν 1 2 Γ(z) η συναρτηση Γ Γ ν 1 +ν 2 2 Γ ν 1 2 Γ ν 2 2 ν 1 2 x 2 1+ ν 1 ν 2 x ν 1 +ν 2 2, x 0 Ελεγχος Υποθεσεων
Λογαριθμο-Κανονικη Κατανομη Galton F. (1879) (Συνεχης) ρ μ,σ x = 1 xσ 2π e llx μ 2 2σ 2, x > 0 Οι τιμες lll ακολουθουν Κανονικη Κατανομη Κατανομη τιμων γινομενου πολλων θετικων ανεξαρτητων μεταβλητων Εφαρμογες: Geology and Mining Atmospheric sciences and aerobiology Environment Biochemical Networks Food Technology Medicine Software Reliability Linguistics Economics Sociology Internet
Σιγμοειδης Κατανομη (Συνεχης) Verhulst 1845 ρ x = e x 1+e x 2 x Πραγματικος Αριθμος F x = 1 1 + e x Population Dynamics Neural Νetworks Learning Innovations Opinion Diffusion
Innovation Management Rogers, E. 1962, Diffusion of Innovations. Free Press, London, NY, 5 th ed. 2003 http://commons.wikimedia.org/wiki/file:diffusion_of_ideas.svg#/media/file:diffusion_of_ideas.svg KX Sigmoid Curve: X(t) = 0 X 0 + K X 0 e rr The Solution of the Verhulst Logistic Equation: = r 1 X X, X 0 = X dt K 0 Verhulst P.F. 1838, Notice sur la loi que la population pursuit dans son accroissement. Corresp. Math. Phys. 10, 113-121 Pianka, E.R. 1970, On r and K selection. American Naturalist 104, 592-597 Opinion Diffusion dx
Κατανομη Δυναμης (Συνεχης) Pareto 1897 ρ α,ξ x = (a 1)ξ α 1 x α, x ξ > 0 α > 0 Εφαρμογες Κατανομη του πλουτου Μεγεθη Κερδων από Επενδυσεις Εφαρμογες Στατιστικη Φυσικη Σεισμοι, Κρατηρες Σεληνης Ηλιακες Εκρηξεις Μεταβολισμος σε σχεση με το Μεγεθος Νευρικες Διεγερσεις Φωτιες Δασων Ειδη ανα Γενος Διεγερση-Αποκριση Κατανομη Συνδεσεων στον Παγκοσμιο Ιστο
Κατανομη Δυναμης (Διακριτη) Zipf 1949 ρ α,n x = 1 ζ Ν α x α, x = 1, 2,, N Ν ζ Ν α = ν α ν=1 Εφαρμογες Συχνοτης Λεξεων Συχνοτης Επιστημονιων Δημοσιευσεων Μουσικη Πολεοδομια Facebook